JP2015099253A - Voice recognizing apparatus, voice recognizing method, voice recognizing program - Google Patents

Voice recognizing apparatus, voice recognizing method, voice recognizing program Download PDF

Info

Publication number
JP2015099253A
JP2015099253A JP2013238873A JP2013238873A JP2015099253A JP 2015099253 A JP2015099253 A JP 2015099253A JP 2013238873 A JP2013238873 A JP 2013238873A JP 2013238873 A JP2013238873 A JP 2013238873A JP 2015099253 A JP2015099253 A JP 2015099253A
Authority
JP
Japan
Prior art keywords
utterance
recognition
voice
speech
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013238873A
Other languages
Japanese (ja)
Inventor
直樹 関根
Naoki Sekine
直樹 関根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2013238873A priority Critical patent/JP2015099253A/en
Publication of JP2015099253A publication Critical patent/JP2015099253A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a voice recognizing apparatus capable of correcting a piece of voice recognition even when a user suspends a pronunciation.SOLUTION: The voice recognizing apparatus includes: a recognition output section; a pronunciation relation determination section; and a recognition connecting section. The recognition output section outputs a piece of recognition of an input voice pronunciation. The pronunciation relation determination section determines whether a preceding input first voice pronunciation is continuous to a following input second voice pronunciation. When the second voice pronunciation is determined as the continuous pronunciation, the recognition connecting section connects the first recognition of first voice pronunciation and the second recognition of the second voice pronunciation to each other.

Description

この明細書に記載の実施形態は、音声により入力された文字列を認識する音声認識技術に関する。   The embodiment described in this specification relates to a speech recognition technique for recognizing a character string input by speech.

従来から、入力された音声発話と予め記憶された音声解析情報とをパターン照合することにより、音声情報を文字情報に変換する音声認識技術が開発されている。現状の音声認識技術では、誤認識の発生を完全に排除することはできないため、適切な認識結果を得るための様々な技術が提案され、広く利用されている。   2. Description of the Related Art Conventionally, a speech recognition technology has been developed that converts speech information into character information by pattern matching between an input speech utterance and speech analysis information stored in advance. Since current speech recognition technology cannot completely eliminate the occurrence of misrecognition, various technologies for obtaining appropriate recognition results have been proposed and widely used.

音声認識技術としては、例えば、複数の認識候補から最も確からしい候補を認識結果として利用者に提示し、提示する認識結果が誤りである場合には、利用者が発話全体を再入力し、その際に元の認識結果を除外することにより、正しい認識結果を効率的に取得する技術が知られる。しかしながら、該方法では発話全体を再入力するため、利用者の操作負担が増大するという問題がある。   As voice recognition technology, for example, the most probable candidate from a plurality of recognition candidates is presented to the user as a recognition result, and when the presented recognition result is incorrect, the user re-enters the entire utterance, A technique for efficiently acquiring a correct recognition result by excluding the original recognition result is known. However, in this method, since the entire utterance is re-input, there is a problem that the operation burden on the user increases.

これに対し、特許文献1には、提示する認識結果が誤りである場合には、利用者が装置の誤認識部分のみを再発話すると、該再発話に基づいて誤認識部分を修正して認識結果を再提示する技術が開示される。特許文献1では、これにより、全文を言い直す負担を軽減でき、利便性を向上できる。   On the other hand, in Patent Document 1, when the recognition result to be presented is incorrect, if the user re-speaks only the misrecognized part of the device, the misrecognized part is corrected and recognized based on the re-spoken part. Techniques for re-presenting results are disclosed. In Patent Document 1, this can reduce the burden of rephrasing the whole sentence and improve convenience.

また、特許文献1では、住所や電話番号等の階層構造を有する情報が入力されることを前提とし、再入力された発話がいずれの階層に相当するかを判定して認識結果を修正する。この際、特許文献1では、誤認識されている階層下のパターンだけを照合の対象にできるため、認識処理の効率化および高精度化を実現できる。   Further, in Patent Document 1, on the premise that information having a hierarchical structure such as an address and a telephone number is input, it is determined to which hierarchy the re-input utterance corresponds and the recognition result is corrected. At this time, in Patent Document 1, only a pattern under a layer that is erroneously recognized can be used as a target of collation, so that the efficiency and accuracy of the recognition process can be improved.

特許文献2では、利用者が誤認識部分のみを再発話し、再発話した部分の認識候補から、元の発話時に選択した認識候補を削除することにより、再度誤った候補を選択して提示することを回避する技術が提案されている。   In Patent Document 2, the user re-speaks only the misrecognized part, and deletes the recognition candidate selected at the time of the original utterance from the recognized part of the recognition candidate, thereby selecting and presenting the wrong candidate again. A technique for avoiding this problem has been proposed.

しかしながら、特許文献1、2では、原則として全体を発話して修正するか、または、一部を再発話して修正するかのいずれか一方のみでしか適切な認識結果を得ることができず、誤認識の内容に応じた修正を行うことができないという問題がある。   However, in Patent Documents 1 and 2, as a general rule, an appropriate recognition result can be obtained only by either speaking and correcting the whole or correcting a part of it again. There is a problem that correction according to the content of recognition cannot be performed.

また、特許文献2では、全体修正および部分修正の両方を行えるが、それぞれの修正で修正方法は同一であるため、利用者が全体を再発話したか、一部のみを発話したかという利用者の発話方法に応じた修正を行うことができない。   Moreover, in patent document 2, although both a total correction and a partial correction can be performed, since the correction method is the same in each correction, the user's whether the user reuttered the whole or only the part was spoken. Cannot make corrections according to the utterance method.

これらの問題に対し、特許文献3の装置は、利用者の発話に基づいてまず複数の認識候補から最も確からしい候補を認識結果として利用者に提示する。装置の提示する認識結果が誤りである場合、利用者は、再発話することにより装置に再度の認識結果を提示させる。利用者は、装置が提示する認識結果が正しい場合に、OKボタンを入力すること等により装置の音声認識処理を終了させる。   With respect to these problems, the apparatus of Patent Literature 3 first presents the most probable candidate from a plurality of recognition candidates to the user as a recognition result based on the user's utterance. When the recognition result presented by the device is incorrect, the user causes the device to present the recognition result again by speaking again. When the recognition result presented by the apparatus is correct, the user ends the voice recognition process of the apparatus by inputting an OK button or the like.

この利用者の再発話により装置が認識結果を修正する際に、装置は、最初の発話である直前発話と、修正するために直前発話の後に行う現発話とを比較し、類似部分および不一致部分を算出する。そして、装置は、現発話が、「部分修正発話」、「全体修正発話」、「新規発話」のいずれかであるかを判別する。   When the device corrects the recognition result due to the user's recurrent utterance, the device compares the first utterance immediately before utterance with the current utterance after the immediately preceding utterance to correct, and similar and inconsistent portions. Is calculated. Then, the apparatus determines whether the current utterance is any one of “partially corrected utterance”, “overall corrected utterance”, and “new utterance”.

「部分修正発話」は、装置の誤認識部分のみを利用者が再発話する場合の発話である。「全体修正発話」は、利用者が発話したい内容のほぼ全体を再発話し、その内容が直前発話と末尾のみが異なる場合等の発話である。「新規発話」は、利用者が発話したい内容のほぼ全体を再発話し、その内容の大部分が直前発話と異なる場合の発話である。   “Partial correction utterance” is an utterance when the user re-utters only the misrecognized portion of the apparatus. The “whole correction utterance” is an utterance when the user wants to utter almost the entire content that the user wants to utter and the content differs only in the last utterance. The “new utterance” is an utterance in which almost the entire content that the user wants to utter is re-uttered and most of the content is different from the previous utterance.

特許文献3の装置は、このように利用者の再発話を「部分修正発話」、「全体修正発話」、「新規発話」のいずれであるかを判定するとともに、該発話の種類に応じた修正方法で認識結果を修正し、該修正した認識結果を利用者に提示する。   In this way, the device of Patent Document 3 determines whether the user's recurrent utterance is “partial corrected utterance”, “overall corrected utterance”, or “new utterance”, and corrects according to the type of the utterance The recognition result is corrected by the method, and the corrected recognition result is presented to the user.

これにより、特許文献3では、利用者は、最初の発話で装置の誤認識が軽微な場合、該誤認識部分のみを発話することで、または該誤認識部分を修正して再度全体を発話することで、装置に「部分修正発話」または「全体修正発話」に対応する修正方法で該誤認識部分を修正させることができる。また、最初の発話でバースト誤りのように誤認識が集中発生する場合、利用者は発話全体を再度繰り返し行うことで、「新規発話」として装置に音声認識させることができる。   Thereby, in Patent Document 3, when the erroneous recognition of the device is slight in the first utterance, the user utters the whole again by speaking only the erroneously recognized part or correcting the erroneously recognized part. Thus, the erroneously recognized portion can be corrected by the correction method corresponding to “partial correction utterance” or “total correction utterance”. Also, when misrecognition occurs in a concentrated manner such as a burst error in the first utterance, the user can cause the apparatus to recognize the voice as “new utterance” by repeating the entire utterance again.

このように、特許文献3の装置は、利用者の発話方法に応じた修正を実行できるので、利便性が高く、高精度な音声認識結果を出力できる。   As described above, since the apparatus disclosed in Patent Document 3 can perform correction according to the user's utterance method, it is highly convenient and can output a highly accurate voice recognition result.

特開2002−287792号公報JP 2002-287792 A 特開2003−316386号公報JP 2003-316386 A 特開2007−93789号公報JP 2007-93789 A

ところで、装置に誤認識が生じる理由は、周辺環境のノイズや認識手法の不備ばかりでなく、発話自体が不完全な場合にも生じる。例えば、利用者が噛んでしまう場合、利用者は本来意図した内容を伝えきれないため発話を中断する場合があり、このような場合、装置は、利用者の発話したい全体を認識できず、誤認識が生じる。   By the way, the reason why erroneous recognition occurs in the apparatus is caused not only by noise in the surrounding environment and incomplete recognition method, but also when the utterance itself is incomplete. For example, if the user bites, the user may not be able to convey the intended content and may interrupt the utterance. In such a case, the device cannot recognize the entire user's utterance and cannot recognize the error. Recognition occurs.

利用者が発話を中断する場合、装置の誤認識を修正するためには、利用者は再発話を行い、該再発話(現発話)により装置に直前発話に対する認識結果の修正を行わせる必要がある。しかしながら、従来の装置では、利用者は、該中断部分を含む全体を発話し、装置に「全体修正発話」または「新規発話」に対応する修正を行わせる必要があり不便である。   When the user interrupts the utterance, in order to correct the misrecognition of the device, the user needs to perform the re-utterance and cause the device to correct the recognition result for the previous utterance by the re-utterance (current utterance). is there. However, the conventional apparatus is inconvenient because it is necessary for the user to speak the entirety including the interrupted portion and to cause the apparatus to perform a correction corresponding to the “totally modified utterance” or “new utterance”.

本発明は、利用者が発話を中断した場合における音声認識の修正に利便性のある技術を提供することを目的とする。   An object of the present invention is to provide a technique that is convenient for correcting speech recognition when a user interrupts speech.

一般に、実施形態によれば、音声認識装置は、認識出力部と、発話関係判定部と、認識連結部と、を備える。認識出力部は、入力される音声発話の認識を出力する。発話関係判定部は、後に入力される第2音声発話が、先に入力される第1音声発話に継続する継続発話か否かを判定する。認識連結部は、第2音声発話が継続発話であると判定される場合、第1音声発話の認識である第1認識と、第2音声発話の認識である第2認識とを連結させる。   In general, according to the embodiment, the speech recognition apparatus includes a recognition output unit, an utterance relationship determination unit, and a recognition connection unit. The recognition output unit outputs recognition of the input voice utterance. The utterance relationship determination unit determines whether or not the second voice utterance input later is a continuous utterance continuing from the first voice utterance input earlier. When it is determined that the second voice utterance is a continuous utterance, the recognition connection unit connects the first recognition, which is the recognition of the first voice utterance, and the second recognition, which is the recognition of the second voice utterance.

一般に、実施形態によれば、音声認識方法は、入力される音声発話を認識し、後に入力される第2音声発話が、先に入力される第1音声発話の途中からの発話である継続発話か否かを判定し、第2音声発話が継続発話であると判定する場合、第1音声発話の認識と、第2音声発話の認識とを連結させる。   In general, according to the embodiment, the speech recognition method recognizes an input speech utterance, and the second speech utterance input later is an utterance from the middle of the first speech utterance input earlier. If it is determined whether the second voice utterance is a continuous utterance, the recognition of the first voice utterance and the recognition of the second voice utterance are coupled.

一般に、実施形態によれば、入力される音声発話を認識し、後に入力される第2音声発話が、先に入力される第1音声発話の途中からの発話である継続発話か否かを判定し、第2音声発話が継続発話であると判定する場合、第1音声発話の認識結果と、第2音声発話の認識結果とを連結させることを行わせることを音声認識装置に行わせることをコンピュータに実行させる音声認識プログラム。   In general, according to the embodiment, an input voice utterance is recognized, and it is determined whether or not a second voice utterance input later is a continuous utterance that is an utterance from the middle of the first voice utterance input first. When determining that the second voice utterance is a continuous utterance, the voice recognition apparatus is caused to cause the recognition result of the first voice utterance to be connected to the recognition result of the second voice utterance. A speech recognition program to be executed by a computer.

音声認識装置の構成を示すブロック図である。It is a block diagram which shows the structure of a speech recognition apparatus. 音声認識処理のフローチャートある。It is a flowchart of a voice recognition process. 認識候補生成部が出力する認識候補のデータ構造を示す図である。It is a figure which shows the data structure of the recognition candidate which a recognition candidate production | generation part outputs. 音声認識処理で認識されるデータの一例を示す図である。It is a figure which shows an example of the data recognized by voice recognition processing. 直前発話と現発話との発話関係判定方法のフローチャートである。It is a flowchart of the utterance relation determination method of the last utterance and the present utterance. 音声認識処理で認識されるデータの一例を示す図である。It is a figure which shows an example of the data recognized by voice recognition processing. 利用者の発話例を示す図である。It is a figure which shows the example of a user's utterance. 直前発話と現発話の音素を示す図ある。It is a figure which shows the phoneme of the last speech and the present speech. 利用者の発話例を示す図である。It is a figure which shows the example of a user's utterance.

以下、実施形態について図面を参照しつつ説明する。
図1は、音声認識装置の構成を示すブロック図である。
音声認識装置100は、ハードウェア構成として、マイク111と、ディスプレイ112と、スピーカ113と、発話情報記憶部121とを備える。
Hereinafter, embodiments will be described with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of the speech recognition apparatus.
The speech recognition apparatus 100 includes a microphone 111, a display 112, a speaker 113, and an utterance information storage unit 121 as a hardware configuration.

音声認識装置100は、ソフトウェア構成として、入力受付部101と、認識候補生成部102(認識出力部)と、発話関係判定部103と、部分修正部104aと、全体修正部104bと、認識候補選択部105と、出力制御部106と、認識連結部107とを備える。   The speech recognition apparatus 100 includes, as a software configuration, an input reception unit 101, a recognition candidate generation unit 102 (recognition output unit), an utterance relationship determination unit 103, a partial correction unit 104a, an overall correction unit 104b, and a recognition candidate selection. Unit 105, output control unit 106, and recognition coupling unit 107.

以下、各要素の説明を、装置100による音声認識処理を示す図2のフローチャートを参照しながら行う。
マイク111は、利用者の発話を受け付ける。
入力受付部101は、マイク111にて受け付ける利用者の発話をA/D(Analogue to Digital)変換する(Act1)。
Hereinafter, each element will be described with reference to the flowchart of FIG.
The microphone 111 receives a user's utterance.
The input receiving unit 101 performs A / D (Analogue to Digital) conversion on the user's utterance received by the microphone 111 (Act 1).

認識候補生成部102は、利用者の発話を音声認識処理し、認識候補を生成する(Act2)。
認識候補生成部102は、FFT(Fast Fourier Transform)による周波数分析等を行って、入力音声の所定区間毎に、各区間についての音声認識のために必要な特徴情報(例えばスペクトル等)を時系列に出力する。所定区間とは、例えば単語等の文字列、アクセント句等の音素列、音素、音節等の単位をいう。
The recognition candidate generation unit 102 performs speech recognition processing on the user's utterance to generate a recognition candidate (Act 2).
The recognition candidate generation unit 102 performs frequency analysis by FFT (Fast Fourier Transform) and the like, for each predetermined section of input speech, time-series characteristic information (for example, spectrum) necessary for speech recognition for each section. Output to. The predetermined section refers to a unit such as a character string such as a word, a phoneme string such as an accent phrase, a phoneme, or a syllable.

認識候補生成部102は、特徴情報と、不図示の音声認識用辞書が格納する音声解析パターンとを照合して類似度を表すスコアを算出し、ラティス形式で認識候補を出力する。   The recognition candidate generation unit 102 compares the feature information with a speech analysis pattern stored in a speech recognition dictionary (not shown) to calculate a score representing similarity, and outputs a recognition candidate in a lattice format.

図3は、認識候補生成部102が出力する認識候補のデータ構造を示す図である。
認識候補生成部102は、新規発話として「私は公園に行きたい」を意味する「WA-TA-SHI-WA-KO-U-E-N-NI-I-KI-TA-I」が入力されると、認識候補として図3のラティスを出力する。図3の上部では、入力された音声に含まれる各音素と、各音素の入力位置を表す数値を対応づけて表してある。
FIG. 3 is a diagram illustrating a data structure of recognition candidates output from the recognition candidate generation unit 102.
When “WA-TA-SHI-WA-KO-UEN-NI-I-KI-TA-I”, which means “I want to go to the park”, is input as a new utterance, The lattice shown in FIG. 3 is output as a recognition candidate. In the upper part of FIG. 3, each phoneme included in the input speech is associated with a numerical value indicating the input position of each phoneme.

ラティスは、認識結果を左から右へ時系列に並べたノードを、不図示の音声認識用辞書が格納する音声解析パターンと照合した時の類似度合いを表すスコアを付したアークで結ぶことにより生成される。ノードに対して入力するアーク(以下、入力アークという。)に当該ノードのスコアを付す。スコアは、認識候補の確からしさ(尤度)を示す。   Lattice is generated by connecting nodes with recognition results arranged in chronological order from left to right with arcs with scores that indicate the degree of similarity when collated with speech analysis patterns stored in a speech recognition dictionary (not shown). Is done. A score of the node is attached to an arc input to the node (hereinafter referred to as an input arc). The score indicates the likelihood (likelihood) of the recognition candidate.

ノードは、単語等の文字列、アクセント句等の音素列、音素、音節等の入力音声の所定区間ごとに生成される。例えば図3のノード201は、入力位置が0から2までの区間に発話された3つの音素「WA」「TA」「SHI」からなる日本語の単語「私」を表す。記号“/”の部分は単語の品詞を表す。ノード201における“/n”は単語が名詞(noun)であることを表す。   A node is generated for each predetermined section of input speech such as a character string such as a word, a phoneme string such as an accent phrase, a phoneme, and a syllable. For example, the node 201 in FIG. 3 represents a Japanese word “I” composed of three phonemes “WA”, “TA”, and “SHI” uttered in a section from 0 to 2 in the input position. The symbol “/” represents the part of speech of the word. “/ N” in the node 201 indicates that the word is a noun.

認識候補生成部102は、認識候補が複数存在する場合、対応するノードを複数生成する。図3の例では、認識候補生成部102は、入力位置の区間が4から7のノード、および、入力位置の区間が9から10のノードとして、それぞれ3つの認識候補を生成する。各ノードのスコアはそれぞれ5,3,2および6,2,2である。   The recognition candidate generation unit 102 generates a plurality of corresponding nodes when there are a plurality of recognition candidates. In the example of FIG. 3, the recognition candidate generation unit 102 generates three recognition candidates, each having a node with an input position interval of 4 to 7 and a node with an input position interval of 9 to 10. The score of each node is 5, 3, 2 and 6, 2, 2.

認識候補生成部102が生成する認識候補は、発話情報記憶部121に格納される。発話情報記憶部121は、また、後述する認識候補選択部105が生成する認識結果や、後述する認識連結部107が生成する認識候補も格納する。   The recognition candidates generated by the recognition candidate generation unit 102 are stored in the utterance information storage unit 121. The utterance information storage unit 121 also stores a recognition result generated by a recognition candidate selection unit 105 described later and a recognition candidate generated by a recognition connection unit 107 described later.

利用者の発話「私は公園に行きたい」が新規な発話である場合、詳しくは後述するが、発話関係判定部103は、利用者の該発話を新規発話と判定する(図2のAct3:新規発話)。   When the user's utterance “I want to go to the park” is a new utterance, the utterance relation determination unit 103 determines that the user's utterance is a new utterance (Act 3 in FIG. 2: Act 3). New utterance).

この場合、認識候補選択部105は、認識候補生成部102が生成する図3の認識候補において、スコアが最大となるノード「公演」「生き」を選択し、各ノードを連結した日本語「私は公演に生きたい」を認識結果として出力する(Act4)。
出力制御部106は、認識候補選択部105が出力する「私は公演に生きたい」等の認識結果をディスプレイ112に表示する(Act5)。
In this case, the recognition candidate selection unit 105 selects the nodes “performance” and “living” with the highest score in the recognition candidates shown in FIG. "I want to live in a performance" is output as a recognition result (Act 4).
The output control unit 106 displays a recognition result such as “I want to live in a performance” output from the recognition candidate selection unit 105 on the display 112 (Act 5).

装置100は、このようにして新規発話の認識結果をディスプレイ112に表示するが、認識結果に誤りが含まれる場合、利用者は該誤りを発話により修正する。
装置100の認識結果の修正方法として、従来、部分修正発話、全体修正発話、新規発話による修正方法がある。
The apparatus 100 displays the recognition result of the new utterance on the display 112 in this way. If the recognition result includes an error, the user corrects the error by the utterance.
As a method for correcting the recognition result of the apparatus 100, conventionally, there are a correction method using a partially corrected utterance, an overall corrected utterance, and a new utterance.

部分修正発話による修正方法は、直前発話の誤りのある部分のみを再度発話することで、誤り部分のみを装置100に修正させる方法である。
全体修正発話による修正方法は、一部分のみを異ならせて全体を再度発話し、装置100に、直前発話と現発話のラティスを統合させて再度の認識結果を出力させる方法である。
The correction method based on the partial correction utterance is a method in which the apparatus 100 corrects only the erroneous portion by re-speaking only the erroneous portion of the immediately preceding utterance.
The correction method based on the overall correction utterance is a method in which only a part is changed and the entire utterance is again uttered, and the apparatus 100 is made to integrate the lattice of the immediately preceding utterance and the current utterance and output the recognition result again.

新規発話による修正方法は、直前発話と不一致部分を多くした発話を行うことで、装置100に直前発話と切り離して音声認識させることにより修正を図る方法である。例えば、利用者が途中で噛んでしまい、発話を中断する場合、再び最初から全文を発話することで、装置100に新規発話として音声認識させる。   The correction method based on a new utterance is a method in which correction is performed by causing the apparatus 100 to recognize a voice separately from the immediately preceding utterance by performing an utterance with many inconsistent portions with the immediately preceding utterance. For example, when the user bites in the middle and interrupts the utterance, the entire sentence is uttered again from the beginning, thereby causing the apparatus 100 to recognize the voice as a new utterance.

本実施形態では、これら従来の3つの発話による修正方法に加え、継続発話により修正方法がある点が特徴の1つとなっている。   In the present embodiment, one of the features is that in addition to the conventional three utterance correction methods, there is a correction method using continuous utterances.

継続発話による修正方法とは、簡略に述べると、利用者が途中で噛んでしまい、発話を中断する場合、例えば「私たちは、よき企業市民として、高い倫理観とそ」で発話を中断した場合に、「倫理観と尊法の精神をもち、各国及び・・・」と中断部分から発話することで、装置100に現発話と直前発話とを連結させて音声認識させる方法である。   Briefly speaking, the correction method based on continuous utterance means that if the user bites in the middle and interrupts the utterance, the utterance was interrupted, for example, "We are good corporate citizens and have high ethical standards." In this case, it is a method of causing the apparatus 100 to recognize the voice by connecting the current utterance and the immediately preceding utterance by uttering “the ethics and the spirit of the law, each country and...

部分修正発話による修正方法および全体修正発話による修正方法は特許文献3(特開2007−93789号公報)に開示されるので、以下では簡略に説明する。これら従来の修正方法の説明をした後に、継続発話による修正方法について具体的に説明する。   Since the correction method by partial correction utterance and the correction method by whole correction utterance are disclosed in Patent Document 3 (Japanese Patent Laid-Open No. 2007-93789), they will be briefly described below. After describing these conventional correction methods, the correction method based on continuous speech will be specifically described.

<部分修正発話による修正方法について>
まず、部分修正発話による装置100の誤認識の修正方法について図4および図5のフローチャートを参照して説明する。
<About correction method using partial correction utterance>
First, a method for correcting misrecognition of the apparatus 100 by partial correction utterance will be described with reference to the flowcharts of FIGS. 4 and 5.

「私は公園に行きたい」を意味する新規発話「WA-TA-SHI-WA-KO-U-E-N-NI-I-KI-TA-I」に対し、上述したように、装置100が図4(a)に示すように「私は公演に生きたい」を認識結果として出力する場合を考える。   For the new utterance “WA-TA-SHI-WA-KO-UEN-NI-I-KI-TA-I” meaning “I want to go to the park”, as described above, the device 100 is shown in FIG. Consider the case where “I want to live in a performance” is output as a recognition result, as shown in a).

この場合、利用者は、認識結果の誤りを装置100に修正させるため、「公園」を意味する発話「KO-U-E-N」のみを再入力することにより、装置100の誤認識の修正を図ることができる(図2のAct1)。   In this case, the user can correct the erroneous recognition of the device 100 by re-inputting only the utterance “KO-UEN” meaning “park” in order to cause the device 100 to correct the recognition result error. Yes (Act1 in FIG. 2).

認識候補生成部102は、直前発話の後にされた現発話「KO-U-E-N」の認識候補として、図4(b)に示すように、4つの認識候補「公演」、「公園」、「後援」、「好演」を出力する(Act2)。各認識候補のスコアは7,7,5,1であるものとする。   As shown in FIG. 4B, the recognition candidate generation unit 102 recognizes four recognition candidates “performance”, “park”, and “sponsor” as recognition candidates for the current utterance “KO-UEN” made after the previous utterance. , “Good performance” is output (Act 2). Assume that the score of each recognition candidate is 7, 7, 5, 1.

発話関係判定部103は、直前発話と現発話とを比較し、類似部分と不一致部分とを算出する(図5のAct31)。類似部分の算出は、例えば特許文献2の方法を採用できる。すなわち、発話関係判定部103は、直前発話と現発話の入力音声の所定区間毎に生成された認識候補である複数の音素列または文字列のうち、両者で共通する音素列あるいは文字列の割合が予め定められた閾値以上である場合、当該所定区間を類似部分と判定する。類似部分と判定されなかった区間が不一致部分となる。   The utterance relationship determination unit 103 compares the immediately preceding utterance and the current utterance, and calculates a similar part and a mismatched part (Act 31 in FIG. 5). For example, the method disclosed in Patent Document 2 can be used to calculate the similar portion. That is, the utterance relation determination unit 103 determines the ratio of phoneme strings or character strings that are common to both of a plurality of phoneme strings or character strings that are recognition candidates generated for each predetermined section of the input speech of the immediately preceding utterance and the current utterance. Is equal to or greater than a predetermined threshold, the predetermined section is determined as a similar portion. A section that is not determined to be a similar part is a mismatched part.

発話関係判定部103は、直前発話の一部と現発話の全ての部分が類似するか否かを判定する(Act32)。   The utterance relationship determination unit 103 determines whether a part of the immediately preceding utterance and all parts of the current utterance are similar (Act 32).

本例の場合、現発話のすべての部分「KO-U-E-N」が直前発話「WA-TA-SHI-WA-KO-U-E-N-NI-I-KI-TA-I」の一部「KO-U-E-N」と類似するので(Act32:YES)、発話関係判定部103は、現発話が部分修正発話であると判定する。
部分修正部104aは、部分修正処理を行う(図2のAct6)。すなわち、部分修正部104aは、図4(b)に示すように、直前発話において、現発話に対応する単語「公演」のスコアを、4つの認識候補のうち最低のスコアである1から1を減算した値である0に設定する。
In this example, all parts of the current utterance "KO-UEN" are part of the previous utterance "WA-TA-SHI-WA-KO-UEN-NI-I-KI-TA-I""KO-UEN" (Act 32: YES), the utterance relationship determination unit 103 determines that the current utterance is a partially modified utterance.
The partial correction unit 104a performs partial correction processing (Act 6 in FIG. 2). That is, as shown in FIG. 4B, the partial correction unit 104a sets the score of the word “performance” corresponding to the current utterance in the last utterance to 1 to 1, which is the lowest score among the four recognition candidates. Set to 0 which is the subtracted value.

この結果、認識候補選択部105は、スコアが7でありスコアが最大となるノード「公園」を選択し、選択したノードを連結した「私は公園に生きたい」を認識候補として出力する(図2のAct4)。
出力制御部106は、認識結果「私は公園に生きたい」をディスプレイ112に表示する(Act5)。
As a result, the recognition candidate selection unit 105 selects a node “park” having a score of 7 and having the maximum score, and outputs “I want to live in a park” that connects the selected nodes as a recognition candidate (FIG. Act 4 of 2).
The output control unit 106 displays the recognition result “I want to live in the park” on the display 112 (Act 5).

そして、利用者は、次に、上記と同様にして今度は「行きたい」を意味する「I-KI-TA-I」のみを発話することで、装置100の認識結果「私は公園に生きたい」における誤認識部分「生きたい」を「行きたい」に修正させることができる。   Then, the user next speaks only “I-KI-TA-I” which means “I want to go” in the same way as above, and the recognition result “I live in the park” of the device 100. The misrecognized part “I want to live” in “I want” can be corrected to “I want to go”.

装置100が認識結果「私は公園に行きたい」を表示し、利用者が該認識結果を正しいと判断して例えばOKボタンをクリックすることで、装置100(出力制御部106)は、スピーカ113にて「私は公園に行きたい」と音声出力し、音声認識処理を終了させる。   When the device 100 displays the recognition result “I want to go to the park” and the user determines that the recognition result is correct and clicks the OK button, for example, the device 100 (the output control unit 106) causes the speaker 113 to At “I want to go to the park” and output the voice, and the voice recognition process is terminated.

<全体修正発話による修正方法について>
全体修正発話による修正方法は、一部分のみを異ならせて全体を再度発話することで、装置100に誤認識の修正を図らせる。
<About the correction method by the whole correction utterance>
The correction method based on the overall correction utterance causes the apparatus 100 to correct erroneous recognition by changing only a part and then speaking the whole again.

図6は、全体修正処理を説明するための図である。図6では入力位置が8から15までの区間のノードを省略している。
利用者が例えば「映画を見たいのですがどこへ行けばよいですか」を意味する「E-I-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-DE-SU-KA」を発話した際に、装置100が図6の(a)に示すラティスを生成するとともに、スコアが最大となるノードを連結した「名画生みたいのですがどこへ行けばよいですか」を認識結果として出力する場合に、利用者は全体修正発話による修正方法を利用できる。
FIG. 6 is a diagram for explaining the overall correction process. In FIG. 6, nodes in the section where the input position is from 8 to 15 are omitted.
For example, "EI-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-EI-" means that the user wants to see a movie, but where should I go? When “KE-BA-YO-I-DE-SU-KA” is spoken, the device 100 generates the lattice shown in FIG. 6 (a) and connects the nodes with the highest score. The user can use the correction method based on the entire correction utterance when outputting “Where should I go?” As a recognition result.

この場合、利用者は語尾「DE-SU-KA」を「I-KA」に変えた全体修正発話「E-I-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-I-KA」を再度入力できる(Act1)。   In this case, the user changes the ending "DE-SU-KA" to "I-KA" and the entire modified utterance "EI-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO" -EI-KE-BA-YO-II-KA "can be entered again (Act 1).

認識候補生成部102は、図6(b)に示すラティスを生成する(Act2)。
発話関係判定部103は、直前発話と全体修正発話である現発話とを比較し、類似部分を算出する(Act31)。図6(a)のラティスと図6(b)のラティスとでは、語尾の表現が相違するのみであるため、入力位置が0から18までの区間が類似部分となる。
The recognition candidate generator 102 generates the lattice shown in FIG. 6B (Act 2).
The utterance relationship determination unit 103 compares the immediately preceding utterance with the current utterance that is the overall corrected utterance, and calculates a similar portion (Act 31). The lattice of FIG. 6 (a) and the lattice of FIG. 6 (b) differ only in the expression of the endings, so the interval from 0 to 18 in the input position is a similar part.

直前発話と現発話の音素の不一致部分の割合は約14%(=(22−19)×100/22)である。閾値が15%に設定されていたとすると、不一致部分の割合が閾値より小さい。これにより、発話関係判定部103は、現発話の全ての部分が直前発話の一部と類似するわけではなく(図5のAct32:NO)、かつ、不一致部分の割合が閾値より小さいので(Act33:NO)、再入力された現発話は全体修正発話であると判定する。   The proportion of phoneme mismatches between the immediately preceding utterance and the current utterance is about 14% (= (22-19) × 100/22). If the threshold is set to 15%, the proportion of mismatched parts is smaller than the threshold. As a result, the utterance relation determination unit 103 does not mean that all parts of the current utterance are similar to a part of the immediately preceding utterance (Act 32: NO in FIG. 5), and the ratio of inconsistent parts is smaller than the threshold (Act 33). : NO), it is determined that the re-input current utterance is an overall corrected utterance.

これにより、全体修正部104bが全体修正処理を実行する(図2のAct7)。
全体修正処理では、直前発話の図6(a)のラティスと、現発話の図6(b)のラティスとを統合し、図6(c)のラティスを出力する。
Thereby, the overall correction unit 104b executes the overall correction process (Act 7 in FIG. 2).
In the overall correction process, the lattice of FIG. 6A for the previous utterance and the lattice of FIG. 6B for the current utterance are integrated, and the lattice of FIG. 6C is output.

例えば、図6(a)の入力位置が4から6の区間のノード1201に対し、図6(b)に同じノード1202が存在するため、ノード1201のスコア10とノード1202のスコア10とを加算した値である20が、図6(c)のノード1203のスコアとして算出される。   For example, since the same node 1202 exists in FIG. 6B with respect to the node 1201 in the section where the input position is 4 to 6 in FIG. 6A, the score 10 of the node 1201 and the score 10 of the node 1202 are added. The calculated value 20 is calculated as the score of the node 1203 in FIG.

また、例えば、図6(a)の入力位置が0から3の区間に対応するノード1204は図6(b)には存在しないため、図6(b)のラティスに当該ノードが追加され、図6(c)のノード1205が出力される。   Further, for example, since the node 1204 corresponding to the section whose input position is 0 to 3 in FIG. 6A does not exist in FIG. 6B, the node is added to the lattice in FIG. The node 1205 of 6 (c) is output.

このような全体修正処理により統合された図6(c)のラティスにおいて、認識候補選択部105が、スコアが最大となるノードを連結して認識結果「映画を見たいのですがどこへ行けばよいですか」を生成し(Act4)、出力制御部106が該認識結果をディスプレイ112に表示する(Act5)。このように、装置100は直前発話と現発話のラティスを統合させてノードを選択する結果、正しい認識結果を生成することとなる。   In the lattice of FIG. 6C integrated by such an overall correction process, the recognition candidate selection unit 105 concatenates the nodes having the maximum score, and the recognition result “I want to watch a movie. Is generated (Act 4), and the output control unit 106 displays the recognition result on the display 112 (Act 5). As described above, the apparatus 100 generates a correct recognition result as a result of selecting a node by integrating the lattice of the immediately preceding utterance and the current utterance.

<継続発話による修正方法について>
図7は、利用者の発話例を示す図である。
利用者が「私たちは、よき企業市民として、高い倫理観と遵法の精神をもち、各国及び地域社会に対する責任を果たす。」と発話したいところ、直前発話(第1音声発話)にて噛んでしまい、「私たちは、よき企業市民として、高い倫理観とそっ」と発話を途中で中断する場合がある。この場合、装置100は、認識結果を「私たちは、よき企業市民として、高い倫理観とそ」と出力する。
<About correction method by continuous utterance>
FIG. 7 is a diagram illustrating an example of a user's utterance.
When a user wants to say, “As a good corporate citizen, we have high ethical standards and a law-abiding spirit and fulfill our responsibility to each country and local community.” Eventually, we may interrupt the speech “We are good corporate citizens and have high ethical standards”. In this case, the apparatus 100 outputs the recognition result as “we are good corporate citizens and high ethical standards”.

このような場合に、利用者は、直前発話に継続する継続発話(第2音声発話)「倫理観と遵法(じゅんぽう)の精神をもち、各国及び地域社会に対する責任を果たす。」を装置100に入力することにより、装置100に利用者が発話したい全文の認識を図らせることができる(Act1,2)。   In such a case, the user makes the apparatus 100 a continuous utterance (second voice utterance) that continues to the immediately preceding utterance “has an ethical and legal spirit and fulfills responsibility to each country and community”. By inputting, the apparatus 100 can be made to recognize the full text that the user wants to speak (Act 1, 2).

なお、発話関係判定処理や、直前発話の認識結果に連結させる認識連結処理においては、現発話「倫理観と遵法の精神をもち、各国及び地域社会に対する責任を果たす。」は、選択候補であるノードを複数含んだラティスであり、複数生成されるノードの選択は済んでいない状態であるが、以下では、説明を分かりやすくするため、ラティスの状態で認識される現発話を、正しいノードの選択が済んだ認識結果のような記載、すなわち、図7の現発話に示すように、利用者が発話したい内容で表記し、各説明を行う。   In the utterance relation determination process and the recognition linking process for linking to the recognition result of the immediately preceding utterance, the current utterance “has a spirit of ethics and legal compliance and fulfills responsibility to each country and community” is a selection candidate. The lattice contains multiple nodes, and the selection of multiple generated nodes has not been completed. However, in the following, for the sake of easy understanding, the correct utterance is selected from the current utterance recognized in the lattice state. A description such as a recognition result after completion, that is, as shown in the current utterance in FIG.

図8は、直前発話と現発話の音素を示す図である。
発話関係判定部103は、直前発話「私たちは、よき企業市民として、高い倫理観とそ」と現発話「倫理観と遵法の精神をもち、各国及び地域社会に対する責任を果たす。」の一致部分、不一致部分を算出する(Act31)。発話関係判定部103は、例えば直前発話と現発話の音素から、直前発話の入力位置が18から23の区間の「倫理観と」の部分と、現発話の入力位置が1から6の区間の「倫理観と」の部分が類似し、他の部分は不一致と算出する。
FIG. 8 is a diagram showing phonemes of the immediately preceding utterance and the current utterance.
The utterance relation determination unit 103 agrees with the previous utterance “We are a good corporate citizen, high ethical standards and societies” and the current utterance “has a spirit of ethics and legal compliance and fulfills responsibility to each country and community”. The part and the inconsistent part are calculated (Act 31). The utterance relation determining unit 103 determines, for example, from the phonemes of the immediately preceding utterance and the current utterance, the “ethics” portion of the section where the input position of the immediately preceding utterance is 18 to 23, and the section where the input position of the current utterance is 1 to 6 The “ethics” part is similar, and the other parts are calculated as inconsistent.

そして、発話関係判定部103は、直前発話の一部と現発話の全てが類似するわけではなく(Act32:NO)、直前発話と現発話は不一致部分の割合が高く、不一致部分の割合が閾値15%を超えるが(Act33:YES)、直前発話の一部「倫理観と」と現発話の一部「倫理観と」が一致するので、現発話を直前発話に継続する継続発話と判定する(Act34:YES)。
そこで、認識連結部107が、直前発話の認識結果と現発話の認識候補とを連結させる認識連結処理を行う。
Then, the utterance relation determination unit 103 does not mean that part of the immediately preceding utterance and all of the current utterance are similar (Act 32: NO), and the ratio of the mismatched part is high between the immediately preceding utterance and the current utterance, and the ratio of the mismatching part is the threshold Although it exceeds 15% (Act 33: YES), a part of the previous utterance “with ethics” matches a part of the current utterance “with ethics”, so it is determined that the current utterance is a continuous utterance that continues to the previous utterance. (Act 34: YES).
Therefore, the recognition linking unit 107 performs a recognition linking process for linking the recognition result of the immediately preceding utterance and the recognition candidate of the current utterance.

まず、認識連結部107は、直前発話(の認識結果)と現発話(の認識候補)の一致部分が1つであるか否かを判定する(図2のAct8)。認識連結部107は、本例のように一致部分が1つの場合(Act8:YES)、該一致部分「倫理観と」を直前発話と現発話の連結部分と判定する(Act9)。   First, the recognition linking unit 107 determines whether or not there is one matching portion between the immediately preceding utterance (recognition result) and the current utterance (recognition candidate) (Act 8 in FIG. 2). When there is one matching portion as in this example (Act 8: YES), the recognition connecting unit 107 determines that the matching portion “ethical view” is a connecting portion between the immediately preceding utterance and the current utterance (Act 9).

そして、認識連結部107は、直前発話に対し現発話を対応させ、直前発話を上書きする。すなわち、認識連結部107は、直前発話の連結部分「倫理観と」より前側「私たちは、よき企業市民として、高い」と、現発話の連結部分「倫理観と」より後側「遵法の精神をもち、各国及び地域社会に対する責任を果たす。」とを連結部分「倫理観と」を挟んで連結させる(Act10)。   Then, the recognition linking unit 107 associates the current utterance with the immediately preceding utterance and overwrites the immediately preceding utterance. In other words, the recognition linking unit 107 says that “we are high as a good corporate citizen” in front of the connection part “ethics” of the previous utterance, and “compliance of legal compliance” after the connection part “ethics” of the current utterance. “I have a spirit and fulfill my responsibility to each country and local community” with the connection part “ethics” in between (Act 10).

このようにして連結させた認識候補は、本来前述したように選択候補であるノードを複数含んだラティスである。例えば現発話における「SE-I-SI-N」は、ノードとして「精神」「清真」「政審」等を含む。   The recognition candidates connected in this way are lattices including a plurality of nodes that are selection candidates as described above. For example, “SE-I-SI-N” in the current utterance includes “mind”, “cleanness”, “political tribunal”, and the like as nodes.

そこで、認識候補選択部105が、スコアが最大となるノードを連結して認識結果として例えば「私たちは、よき企業市民として、高い倫理観と遵法の精神をもち、各国及び地域社会に対する責任を果たす。」を生成し(Act4)、出力制御部106が該認識結果をディスプレイ112に表示する(Act5)。認識結果において誤認識が含まれる場合、利用者は、誤認識部分を部分修正発話または全体修正発話により装置100に修正させればよい。   Therefore, the recognition candidate selection unit 105 concatenates the nodes with the highest scores, and as a recognition result, for example, “As a good corporate citizen, we have high ethical standards and a spirit of compliance, and are responsible for each country and community. Is output (Act 4), and the output control unit 106 displays the recognition result on the display 112 (Act 5). When the recognition result includes misrecognition, the user may cause the apparatus 100 to correct the misrecognized portion by partial correction utterance or overall correction utterance.

以下、図9を参照して、直前発話と現発話の一致部分が複数ある場合の認識連結処理を説明する。
利用者が、「私たちは、よき企業市民として、高い倫理観と遵法の精神をもち、各国及び地域社会にっ」と発話し、装置100が認識結果を「私たちは、よき企業市民として、高い倫理観と遵法の精神をもち、各国及び地域社会に」と出力する場合を考える。
Hereinafter, with reference to FIG. 9, a recognition and connection process in the case where there are a plurality of matching portions between the immediately preceding utterance and the current utterance will be described.
The user said, “As a good corporate citizen, we have a high ethical sense and a law-abiding spirit, and to each country and local community.” The device 100 recognizes the recognition result as “We are a good corporate citizen. , Have high ethical standards and a law-abiding spirit, and output to each country and community.

この場合、利用者は、継続発話「社会に対する責任を果たすと共に、その文化・歴史を尊重し、地球社会の発展に貢献します。」を装置100に入力できる(Act1,2)。   In this case, the user can input the continuous utterance “Contribute to the development of the global society by fulfilling the responsibility to society and respecting its culture and history” (Act 1, 2).

発話関係判定部103は、直前発話と現発話の一致部分、不一致部分を算出する(Act31)。発話関係判定部103は、前述と同様、直前発話と現発話の不一致部分の割合が閾値以上であるが(Act32、33:NO)、直前発話の一部「社会」と現発話の一部「社会」が一致するので、現発話を継続発話と判定する(Act34:YES)。   The utterance relationship determination unit 103 calculates a matching part and a mismatching part between the immediately preceding utterance and the current utterance (Act 31). As described above, the utterance relation determination unit 103 has a ratio of the mismatched portion between the immediately preceding utterance and the current utterance being equal to or greater than the threshold (Act 32, 33: NO), Since “Society” matches, the current utterance is determined as a continuous utterance (Act 34: YES).

続いて、認識連結部107は、直前発話と現発話の一致部分が1つであるか否かを判定する(Act8)。本例の場合、現発話「社会に対する責任を果たすと共に、その文化・歴史を尊重し、地球社会の発展に貢献します。」において、前方にある「社会に対する」の「社会」と、後方にある「地球社会」の「社会」が、直前発話の「各国及び地域社会に」における「社会」と一致するので、認識連結部107は、一致部分は現発話に複数あると判定する(Act8:NO)。   Subsequently, the recognition linking unit 107 determines whether or not there is one matching portion between the immediately preceding utterance and the current utterance (Act 8). In the case of this example, in the current utterance “I will fulfill my responsibility to society and respect its culture and history and contribute to the development of the global society.” Since the “society” of a certain “global society” matches “society” in “to each country and local community” of the previous utterance, the recognition connecting unit 107 determines that there are a plurality of matching parts in the current utterance (Act 8: NO).

このように、直前発話と現発話において一致部分が、少なくとも直前発話と現発話のいずれかに複数含まれる場合(本例の場合、現発話に一致部分「社会」が2つ含まれる)、認識連結部107は、直前発話の後方にある一致部分と、現発話の前方にある一致部分とが、直前発話と現発話の連結部分と判定する(Act11)。   As described above, when a plurality of matching parts are included in at least one of the immediately preceding utterance and the current utterance in the immediately preceding utterance and the current utterance (in this example, two matching parts “society” are included in the current utterance). The connecting unit 107 determines that the matching part behind the immediately preceding utterance and the matching part ahead of the current utterance are the connecting parts of the immediately preceding utterance and the current utterance (Act 11).

そして、認識連結部107は、直前発話における後方の連結部分「社会」より前側「私たちは、よき企業市民として、高い倫理観と遵法の精神をもち、各国及び地域」と、現発話における前方の連結部分「社会」から後側「に対する責任を果たすと共に、その文化・歴史を尊重し、地球社会の発展に貢献します。」とを連結部分「社会」を挟んで連結させる(Act12)。   The recognizing connecting unit 107 is connected to the front of the current utterance as “We are good corporate citizens, with high ethical standards and law-abiding spirit, each country and region” in front of the connected part “society” in the previous utterance. “Society” will be linked to “the rear side” and the culture and history will be respected to contribute to the development of the global society. ”(Act 12).

このようにして連結させた認識候補は前述したように本来ノードを複数含んだラティスである。   The recognition candidates connected in this way are lattices originally including a plurality of nodes as described above.

そこで、認識候補選択部105が、スコアが最大となるノードを連結して認識結果として例えば「私たちは、よき企業市民として、高い倫理観と遵法の精神をもち、各国及び地域社会に対する責任を果たすと共に、その文化・歴史を尊重し、地球社会の発展に貢献します。」を生成し(Act4)、出力制御部106が該認識結果をディスプレイ112に表示する(Act5)。認識結果において誤認識が含まれる場合、利用者は、誤認識部分を部分修正発話または全体修正発話により装置100に修正させればよい。   Therefore, the recognition candidate selection unit 105 concatenates the nodes with the highest scores, and as a recognition result, for example, “As a good corporate citizen, we have high ethical standards and a spirit of compliance, and are responsible for each country and community. The output control unit 106 displays the recognition result on the display 112 (Act 5). ”(Act 4). The output control unit 106 displays the recognition result on the display 112 (Act 5). When the recognition result includes misrecognition, the user may cause the apparatus 100 to correct the misrecognized portion by partial correction utterance or overall correction utterance.

なお、直前発話と現発話の一致部分は、設定により、音素が閾値以上に連続している場合(例えば音素が3つ以上連続)に限定したり、ノードあるいは特徴情報が閾値以上連続している場合等に限定したりできるものとする。   Note that the matching part between the immediately preceding utterance and the current utterance is limited to cases where phonemes are continuous beyond the threshold (for example, three or more phonemes are continuous), or nodes or feature information continues beyond the threshold depending on the setting. It can be limited to cases.

<新規発話の判定方法について>
発話関係判定部103は、直前発話の一部と現発話の全てが類似するわけではなく(Act32:NO)、直前発話と現発話は不一致部分の割合が高く閾値15%を超えるが(Act33:YES)、直前発話の一部と現発話の一部が一致しない場合、現発話を新規発話と判定する(Act34:NO)。
<New utterance judgment method>
The utterance relation determination unit 103 does not mean that part of the immediately preceding utterance and all of the current utterance are similar (Act 32: NO), and the ratio of the mismatched portion between the immediately preceding utterance and the current utterance is high and exceeds the threshold of 15% (Act 33: YES), if a part of the immediately preceding utterance and a part of the current utterance do not match, the current utterance is determined as a new utterance (Act 34: NO).

本実施形態によれば、利用者に再入力された音声が全体を修正するための発話か、一部を修正するための発話かを判定するだけでなく、継続的な入力を目的とする発話かどうかを判断でき、判定結果に応じて修正方法を変更できる。そのため、本実施形態は、利用者が修正方法を指示する必要がなく、自動で入力方法に応じて最適な修正方法を適用できるので、利便性が高く、高精度な音声認識結果を出力できる。   According to this embodiment, it is not only determined whether the voice re-input to the user is an utterance for correcting the whole or an utterance for correcting a part of the voice, but an utterance intended for continuous input Whether the correction method can be changed according to the determination result. For this reason, the present embodiment does not require the user to instruct the correction method, and the optimum correction method can be automatically applied according to the input method, so that it is highly convenient and can output a highly accurate speech recognition result.

(変形例)
前記実施形態では、認識連結部107は、直前発話の認識結果(認識)と、ノードの選択が済んでいない現発話のラティスである認識候補(認識)とを連結させた。前記実施形態では、入力される音声発話の認識を出力する認識出力部は、直前発話においては認識候補生成部102および認識候補選択部105を含んで構成され、現発話においては認識候補生成部102を含んで構成される。
(Modification)
In the embodiment, the recognition linking unit 107 connects the recognition result (recognition) of the immediately preceding utterance and the recognition candidate (recognition) that is a lattice of the current utterance for which the node has not been selected. In the embodiment, the recognition output unit that outputs the recognition of the input speech utterance includes the recognition candidate generation unit 102 and the recognition candidate selection unit 105 in the immediately preceding utterance, and the recognition candidate generation unit 102 in the current utterance. It is comprised including.

しかしながら、発話関係判定部103が現発話を継続発話と判定する場合、ラティスである認識候補に対して認識候補選択部105がノードを選択して認識結果を生成した後に、認識連結部107が、直前発話の認識結果(認識)と、現発話の前記認識結果(認識)とを連結させてもよい。この場合、認識出力部は、認識候補生成部および認識候補選択部を含んで構成される。   However, when the utterance relationship determining unit 103 determines that the current utterance is a continuous utterance, the recognition linking unit 107 selects a node for a recognition candidate that is a lattice and generates a recognition result. The recognition result (recognition) of the immediately preceding utterance may be connected to the recognition result (recognition) of the current utterance. In this case, the recognition output unit includes a recognition candidate generation unit and a recognition candidate selection unit.

前記実施形態における各処理の順序は、前記実施形態で例示した順序と異なっていてもよい。
本発明は、その精神または主要な特徴から逸脱することなく、他の様々な形で実施することができる。そのため、前述の実施の形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本発明の範囲は、特許請求の範囲によって示すものであって、明細書本文には、なんら拘束されない。さらに、特許請求の範囲の均等範囲に属する全ての変形、様々な改良、代替および改質は、すべて本発明の範囲内のものである。
The order of the processes in the embodiment may be different from the order exemplified in the embodiment.
The present invention can be implemented in various other forms without departing from the spirit or main features thereof. Therefore, the above-described embodiment is merely an example in all respects and should not be interpreted in a limited manner. The scope of the present invention is indicated by the scope of claims, and is not restricted by the text of the specification. Further, all modifications, various improvements, alternatives and modifications belonging to the equivalent scope of the claims are all within the scope of the present invention.

100…音声認識装置、102…認識候補出力部(認識出力部)、103…発話関係判定部、105…認識候補連結部(認識出力部)、107…認識連結部。   DESCRIPTION OF SYMBOLS 100 ... Voice recognition apparatus, 102 ... Recognition candidate output part (recognition output part), 103 ... Speech relation determination part, 105 ... Recognition candidate connection part (recognition output part), 107 ... Recognition connection part.

Claims (5)

入力される音声発話の認識を出力する認識出力部と、
後に入力される第2音声発話が、先に入力される第1音声発話に継続する継続発話か否かを判定する発話関係判定部と、
前記第2音声発話が継続発話であると判定される場合、前記第1音声発話の認識である第1認識と、前記第2音声発話の認識である第2認識とを連結させる認識連結部と、
を備える音声認識装置。
A recognition output unit that outputs recognition of an input speech utterance;
An utterance relation determination unit that determines whether or not the second voice utterance input later is a continuous utterance continued from the first voice utterance input first;
A recognition linking unit that connects the first recognition, which is the recognition of the first voice utterance, and the second recognition, which is the recognition of the second voice utterance, when it is determined that the second voice utterance is a continuous utterance; ,
A speech recognition apparatus comprising:
請求項1に記載の装置において、
前記発話関係判定部は、前記第2認識全体が前記第1認識に含まれないとともに、前記第1、第2認識の不一致部分の割合が閾値以上であり、かつ、前記第1認識の一部と前記第2認識の一部とが一致する場合、前記第2音声発話が継続発話であると判定する音声認識装置。
The apparatus of claim 1.
The utterance relation determination unit is configured such that the entire second recognition is not included in the first recognition, the ratio of the mismatched portions of the first and second recognitions is equal to or greater than a threshold, and a part of the first recognition And a part of the second recognition, a speech recognition device that determines that the second speech utterance is a continuous utterance.
請求項2に記載の装置において、
前記第1、第2認識の一致部分が、少なくとも前記第1、第2認識のいずれかに複数含まれる場合、前記発話関係判定部は、前記第1認識の後方にある一致部分と、前記第2認識の前方にある一致部分とが前記第1、第2認識の連結部分と判定し、
前記認識連結部は、前記第1認識における後方の前記連結部分より前側と、前記第2認識における前方の前記連結部分から後側とを前記連結部分を挟んで連結させる音声認識装置。
The apparatus of claim 2.
In a case where a plurality of matching parts of the first and second recognitions are included in at least one of the first and second recognitions, the utterance relationship determination unit includes a matching part located behind the first recognition, A matching part in front of the two recognitions is determined as the connection part of the first and second recognitions,
The recognition connection unit is a speech recognition device that connects the front side of the rear connection part in the first recognition and the front connection part to the rear side of the second recognition with the connection part interposed therebetween.
入力される音声発話を認識し、
後に入力される第2音声発話が、先に入力される第1音声発話の途中からの発話である継続発話か否かを判定し、
前記第2音声発話が継続発話であると判定する場合、前記第1音声発話の認識と、前記第2音声発話の認識とを連結させる音声認識方法。
Recognize incoming speech utterances
It is determined whether the second voice utterance input later is a continuous utterance that is an utterance from the middle of the first voice utterance input first,
A speech recognition method for connecting recognition of the first speech utterance and recognition of the second speech utterance when it is determined that the second speech utterance is a continuous utterance.
入力される音声発話を認識し、
後に入力される第2音声発話が、先に入力される第1音声発話の途中からの発話である継続発話か否かを判定し、
前記第2音声発話が継続発話であると判定する場合、前記第1音声発話の認識と、前記第2音声発話の認識とを連結させる
ことを音声認識装置に行わせることをコンピュータに実行させる音声認識プログラム。
Recognize incoming speech utterances
It is determined whether the second voice utterance input later is a continuous utterance that is an utterance from the middle of the first voice utterance input first,
When determining that the second voice utterance is a continuous utterance, a voice that causes a computer to cause the voice recognition device to connect the recognition of the first voice utterance and the recognition of the second voice utterance. Recognition program.
JP2013238873A 2013-11-19 2013-11-19 Voice recognizing apparatus, voice recognizing method, voice recognizing program Pending JP2015099253A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013238873A JP2015099253A (en) 2013-11-19 2013-11-19 Voice recognizing apparatus, voice recognizing method, voice recognizing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013238873A JP2015099253A (en) 2013-11-19 2013-11-19 Voice recognizing apparatus, voice recognizing method, voice recognizing program

Publications (1)

Publication Number Publication Date
JP2015099253A true JP2015099253A (en) 2015-05-28

Family

ID=53375900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013238873A Pending JP2015099253A (en) 2013-11-19 2013-11-19 Voice recognizing apparatus, voice recognizing method, voice recognizing program

Country Status (1)

Country Link
JP (1) JP2015099253A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018079294A1 (en) * 2016-10-27 2018-05-03 ソニー株式会社 Information processing device and information processing method
JP2019023674A (en) * 2017-07-24 2019-02-14 株式会社システック Voice input device dealing with excess sound mixture
JP2021140134A (en) * 2020-03-04 2021-09-16 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Method, device, electronic apparatus, computer readable storage medium, and computer program for recognizing speech

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018079294A1 (en) * 2016-10-27 2018-05-03 ソニー株式会社 Information processing device and information processing method
JP2019023674A (en) * 2017-07-24 2019-02-14 株式会社システック Voice input device dealing with excess sound mixture
JP2021140134A (en) * 2020-03-04 2021-09-16 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Method, device, electronic apparatus, computer readable storage medium, and computer program for recognizing speech

Similar Documents

Publication Publication Date Title
JP4542974B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
EP3114679B1 (en) Predicting pronunciation in speech recognition
JP3762327B2 (en) Speech recognition method, speech recognition apparatus, and speech recognition program
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US20080319743A1 (en) ASR-Aided Transcription with Segmented Feedback Training
JP6284462B2 (en) Speech recognition method and speech recognition apparatus
JP2010020102A (en) Speech recognition apparatus, speech recognition method and computer program
JP2006267319A (en) Support system for converting voice to writing, method thereof, and system for determination of correction part
US10665227B2 (en) Voice recognition device and voice recognition method
US9240181B2 (en) Automatic collection of speaker name pronunciations
US20150179169A1 (en) Speech Recognition By Post Processing Using Phonetic and Semantic Information
US9542939B1 (en) Duration ratio modeling for improved speech recognition
US20170270923A1 (en) Voice processing device and voice processing method
JP2015099253A (en) Voice recognizing apparatus, voice recognizing method, voice recognizing program
JP2014206642A (en) Voice recognition device and voice recognition program
JP6027754B2 (en) Adaptation device, speech recognition device, and program thereof
JP7326931B2 (en) Program, information processing device, and information processing method
JP2012003090A (en) Speech recognizer and speech recognition method
JP2014134640A (en) Transcription device and program
JP2009031328A (en) Speech recognition device
KR20120046627A (en) Speaker adaptation method and apparatus
KR101677530B1 (en) Apparatus for speech recognition and method thereof
WO2012150658A1 (en) Voice recognition device and voice recognition method
JP6325770B2 (en) Speech recognition error correction apparatus and program thereof
JP6527000B2 (en) Pronunciation error detection device, method and program