JP6222970B2 - Speech recognition apparatus and speech recognition result determination method - Google Patents
Speech recognition apparatus and speech recognition result determination method Download PDFInfo
- Publication number
- JP6222970B2 JP6222970B2 JP2013084738A JP2013084738A JP6222970B2 JP 6222970 B2 JP6222970 B2 JP 6222970B2 JP 2013084738 A JP2013084738 A JP 2013084738A JP 2013084738 A JP2013084738 A JP 2013084738A JP 6222970 B2 JP6222970 B2 JP 6222970B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition result
- provisional
- speech
- exclusive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Discrimination (AREA)
Description
本発明は、音声認識処理を行う音声認識装置、および、この装置において用いられる音声認識結果確定方法に関する。 The present invention relates to a speech recognition apparatus that performs speech recognition processing and a speech recognition result determination method used in the apparatus.
音声認識技術を用いてテキスト入力を音声入力により行うこと(以下「音声テキスト入力」という)が、広く行われている。近年、用途の拡大に伴い、音声テキスト入力の高速化および高精度化が求められている。 Performing text input by speech input using speech recognition technology (hereinafter referred to as “speech text input”) is widely performed. In recent years, with the expansion of applications, higher speed and higher accuracy of speech text input are required.
特許文献1に記載の技術(以下「従来技術」という)は、文を単語毎に区切り、2段階の言語モデルおよび音響モデルを用いて、文頭から(前方から)音声認識結果を単語単位で順次確定する。このような従来技術を用いることにより、1段階の言語モデルおよび音響モデルを用いて文単位で音声認識結果を確定する場合に比べて、高精度な音声テキスト入力を、より高速に行うことが可能となる。 The technique described in Patent Document 1 (hereinafter referred to as “prior art”) divides a sentence into words and sequentially uses a two-level language model and an acoustic model to sequentially obtain speech recognition results from the beginning of the sentence (from the front) in units of words. Determine. By using such a conventional technology, it is possible to perform highly accurate speech text input at a higher speed than when speech recognition results are determined in sentence units using a one-stage language model and acoustic model. It becomes.
しかしながら、従来技術は、比較的長い語句に対しては、高精度かつ高速な音声テキスト入力を実現することが難しいという課題を有する。 However, the prior art has a problem that it is difficult to realize high-accuracy and high-speed speech text input for relatively long words.
理由は、以下の通りである。長い語句は、発話の開始から完了までに時間が掛かるだけでなく、音声認識処理の開始から完了までに時間が掛かる。したがって、比較的長い語句を入力しようとする場合、発話が開始されてから音声認識結果が確定するまでには、比較的長い時間を要する。 The reason is as follows. Long words not only take time from the start to the completion of the utterance, but also take time from the start to the completion of the speech recognition process. Therefore, when a relatively long word is to be input, it takes a relatively long time from the start of utterance until the speech recognition result is confirmed.
本発明の目的は、比較的長い語句に対しても、高精度かつ高速な音声テキスト入力を実現することである。 An object of the present invention is to realize high-accuracy and high-speed speech text input even for relatively long words.
本発明の第一形態に係る音声認識装置は、複数のテキスト配列を記述した辞書を格納する音声認識データベースと、音声を入力する音声入力部と、前記音声のうち既に入力されている音声部分に対して音声認識を行って、該音声認識の結果を暫定の音声認識結果とする音声認識処理部と、前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とする確定処理部と、を有し、前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、前記確定処理部は、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、前記所定数は、2である。
本発明の第二形態に係る音声認識装置は、複数のテキスト配列を記述した辞書を格納する音声認識データベースと、音声を入力する音声入力部と、前記音声のうち既に入力されている音声部分に対して音声認識を行って、該音声認識の結果を暫定の音声認識結果とする音声認識処理部と、前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とする確定処理部と、を有し、前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、前記確定処理部は、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、前記テキスト配列は、音節テキスト配列であり、前記確定処理部はさらに、前記所定数以上の音節で前記排他テキスト配列と前方一致とならないテキスト配列は、前記条件の判断の対象外とする。
本発明の第三形態に係る音声認識装置は、複数のテキスト配列を記述した辞書を格納する音声認識データベースと、音声を入力する音声入力部と、前記音声のうち既に入力されている音声部分に対して音声認識を行って、該音声認識の結果を暫定の音声認識結果とする音声認識処理部と、前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とする確定処理部と、を有し、前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、前記確定処理部は、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とする、前記排他テキスト配列は、前記排他区間の末尾位置を示すマーカが挿入された音節テキスト配列であり、前記複数のテキスト配列のうち、前記排他テキスト配列以外のテキスト配列は、当該テキスト配列の末尾位置を示すマーカが挿入された音節テキスト配列であり、前記確定処理部は、前記暫定の音声認識結果が、前記マーカが挿入されていないものであるとき、当該暫定の音声認識結果については、前記条件の判断の対象外とする。
本発明の第四形態に係る音声認識装置は、複数のテキスト配列を記述した辞書を格納する音声認識データベースと、音声を入力する音声入力部と、前記音声のうち既に入力されている音声部分に対して音声認識を行って、該音声認識の結果を暫定の音声認識結果とする音声認識処理部と、前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とする確定処理部と、を有する音声認識装置であって、前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、前記確定処理部は、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、前記音声認識装置は、前記辞書に記述される複数のテキスト配列を、前方一致の順序でソートし、隣接する前記テキスト配列のペアのそれぞれに対して前方一致の範囲を判定する処理を行うことにより、前記排他テキスト配列にマーカを挿入するマーカ挿入部、を更に有する。
The speech recognition apparatus according to the first aspect of the present invention includes a speech recognition database that stores a dictionary describing a plurality of text arrays, a speech input unit that inputs speech, and a speech portion that is already input in the speech. A speech recognition processing unit that performs speech recognition and uses the speech recognition result as a provisional speech recognition result, and an exclusive section in which the provisional speech recognition result is unique among the plurality of text arrays ahead when a exclusive text array with, possess a deterministic processing unit the exclusive text sequences and the speech recognition result of confirmation for the voice, and the voice recognition processing unit repeats the speech recognition in a predetermined cycle performed The confirmation processing unit is forward-matching with all of the predetermined number of the other provisional speech recognition results obtained in the most recent consecutive manner, and the provisional speech recognition result is the exclusive text array. Condition to become, the exclusive text sequences and the speech recognition result of the confirmation, the predetermined number is two.
The speech recognition apparatus according to the second aspect of the present invention includes a speech recognition database that stores a dictionary describing a plurality of text arrays, a speech input unit that inputs speech, and a speech portion that is already input in the speech. A speech recognition processing unit that performs speech recognition and uses the speech recognition result as a provisional speech recognition result, and an exclusive section in which the provisional speech recognition result is unique among the plurality of text arrays ahead A determination processing unit that uses the exclusive text array as a final speech recognition result for the speech, and the speech recognition processing unit repeatedly performs the speech recognition in a predetermined cycle. The confirmation processing unit is forward-matching with all of the predetermined number of the other provisional speech recognition results obtained in the most recent consecutive manner, and the provisional speech recognition result is the exclusive text array. On the condition that the exclusive text array is the confirmed speech recognition result, the text array is a syllable text array, and the confirmation processing unit further includes the exclusive text array and the front in the predetermined number or more of syllables. Text arrays that do not match are not subject to the above conditions .
The speech recognition apparatus according to the third aspect of the present invention includes a speech recognition database that stores a dictionary describing a plurality of text arrays, a speech input unit that inputs speech, and a speech portion that is already input in the speech. A speech recognition processing unit that performs speech recognition and uses the speech recognition result as a provisional speech recognition result, and an exclusive section in which the provisional speech recognition result is unique among the plurality of text arrays ahead A determination processing unit that uses the exclusive text array as a final speech recognition result for the speech, and the speech recognition processing unit repeatedly performs the speech recognition in a predetermined cycle. The confirmation processing unit is forward-matching with all of the predetermined number of the other provisional speech recognition results obtained in the most recent consecutive manner, and the provisional speech recognition result is the exclusive text array. The exclusive text array is the final speech recognition result, the exclusive text array is a syllable text array in which a marker indicating the end position of the exclusive section is inserted, and the plurality of text arrays Among them, the text array other than the exclusive text array is a syllable text array in which a marker indicating the end position of the text array is inserted, and the confirmation processing unit inserts the provisional speech recognition result into the marker inserted. If not, the provisional speech recognition result is not subject to the judgment of the condition .
A speech recognition apparatus according to a fourth aspect of the present invention includes a speech recognition database that stores a dictionary describing a plurality of text arrays, a speech input unit that inputs speech, and a speech portion that is already input in the speech. A speech recognition processing unit that performs speech recognition and uses the speech recognition result as a provisional speech recognition result, and an exclusive section in which the provisional speech recognition result is unique among the plurality of text arrays ahead A speech recognition apparatus having the exclusive text array as a final speech recognition result for the speech, wherein the speech recognition processing unit performs the speech recognition on a predetermined basis. The determination processing unit repeats the provisional speech recognition result in the exclusive text array, and the predetermined number of other provisional speech recognitions obtained continuously in the latest. The exclusive text array is used as the confirmed speech recognition result on the condition that all of the results are in front match, and the speech recognition apparatus sorts the plurality of text arrays described in the dictionary in the order of front match. And a marker insertion unit that inserts a marker into the exclusive text array by performing a process of determining a front matching range for each of the adjacent text array pairs .
本発明の第五形態に係る音声認識結果確定方法は、複数のテキスト配列を記述した辞書を格納する音声認識データベースと、音声を入力する音声入力部と、前記音声のうち既に入力されている音声部分に対して音声認識を行って、該音声認識の結果を暫定の音声認識結果とする音声認識処理部と、を有する音声認識装置における音声認識結果確定方法であって、前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるか否かを判断するステップと、前記暫定の音声認識結果が前記排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とするステップと、を有し、前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、前記確定の音声認識結果とするステップは、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、前記所定数は、2である。
本発明の第六形態に係る音声認識結果確定方法は、複数のテキスト配列を記述した辞書を格納する音声認識データベースと、音声を入力する音声入力部と、前記音声のうち既に入力されている音声部分に対して音声認識を行って、該音声認識の結果を暫定の音声認識結果とする音声認識処理部と、を有する音声認識装置における音声認識結果確定方法であって、前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるか否かを判断するステップと、前記暫定の音声認識結果が前記排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とするステップと、を有し、前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、前記確定の音声認識結果とするステップは、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、前記テキスト配列は、音節テキスト配列であり、前記確定の音声認識結果とするステップは、前記所定数以上の音節で前記排他テキスト配列と前方一致とならないテキスト配列は、前記条件の判断の対象外とする。
本発明の第七形態に係る音声認識結果確定方法は、複数のテキスト配列を記述した辞書を格納する音声認識データベースと、音声を入力する音声入力部と、前記音声のうち既に入力されている音声部分に対して音声認識を行って、該音声認識の結果を暫定の音声認識結果とする音声認識処理部と、を有する音声認識装置における音声認識結果確定方法であって、前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるか否かを判断するステップと、前記暫定の音声認識結果が前記排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とするステップと、を有し、前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、前記確定の音声認識結果とするステップは、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、前記排他テキスト配列は、前記排他区間の末尾位置を示すマーカが挿入された音節テキスト配列であり、前記複数のテキスト配列のうち、前記排他テキスト配列以外のテキスト配列は、当該テキスト配列の末尾位置を示すマーカが挿入された音節テキスト配列であり、前記確定の音声認識結果とするステップは、前記暫定の音声認識結果が、前記マーカが挿入されていないものであるとき、当該暫定の音声認識結果については、前記条件の判断の対象外とする。
本発明の第八形態に係る音声認識結果確定方法は、複数のテキスト配列を記述した辞書を格納する音声認識データベースと、音声を入力する音声入力部と、前記音声のうち既に入力されている音声部分に対して音声認識を行って、該音声認識の結果を暫定の音声認識結果とする音声認識処理部と、を有する音声認識装置における音声認識結果確定方法であって、前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるか否かを判断するステップと、前記暫定の音声認識結果が前記排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とするステップと、を有し、前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、前記確定の音声認識結果とするステップは、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、前記音声認識結果確定方法は、前記辞書に記述される複数のテキスト配列を、前方一致の順序でソートし、隣接する前記テキスト配列のペアのそれぞれに対して前方一致の範囲を判定する処理を行うことにより、前記排他テキスト配列にマーカを挿入するステップ、を更に有する。
The speech recognition result determination method according to the fifth aspect of the present invention includes a speech recognition database that stores a dictionary describing a plurality of text arrays, a speech input unit that inputs speech, and speech that has already been input among the speech. A speech recognition result determination method in a speech recognition apparatus, comprising: a speech recognition processing unit that performs speech recognition on a portion and uses the speech recognition result as a provisional speech recognition result, wherein the provisional speech recognition result Determining whether or not the exclusive text array has an exclusive section that is unique among the plurality of text arrays in front and the provisional speech recognition result is the exclusive text array. It possesses a step of the text sequence and the speech recognition result of confirmation for the voice, and the voice recognition processing unit performs repeatedly the voice recognition at a predetermined cycle, the probability The step of making the speech recognition result of the above-mentioned is that the provisional speech recognition result is the exclusive text array, and a forward coincidence with all of the predetermined number of other provisional speech recognition results obtained consecutively most recently. The exclusive text array is the definitive speech recognition result, and the predetermined number is 2 .
A speech recognition result determination method according to a sixth aspect of the present invention includes a speech recognition database that stores a dictionary describing a plurality of text arrays, a speech input unit that inputs speech, and speech that has already been input among the speech. A speech recognition result determination method in a speech recognition apparatus, comprising: a speech recognition processing unit that performs speech recognition on a portion and uses the speech recognition result as a provisional speech recognition result, wherein the provisional speech recognition result Determining whether or not the exclusive text array has an exclusive section that is unique among the plurality of text arrays in front and the provisional speech recognition result is the exclusive text array. And making the text arrangement a final voice recognition result for the voice, wherein the voice recognition processing unit repeatedly performs the voice recognition at a predetermined cycle, and The step of making the speech recognition result of the above-mentioned is that the provisional speech recognition result is the exclusive text array, and a forward coincidence with all of the predetermined number of other provisional speech recognition results obtained consecutively most recently. The exclusive text array is the definitive speech recognition result, the text array is a syllable text array, and the definite speech recognition result is the exclusive text array with the predetermined number or more of syllables. A text array that does not coincide with the text array is excluded from the judgment of the condition.
The speech recognition result determination method according to the seventh aspect of the present invention includes a speech recognition database that stores a dictionary describing a plurality of text arrays, a speech input unit that inputs speech, and speech that has already been input among the speeches. A speech recognition result determination method in a speech recognition apparatus, comprising: a speech recognition processing unit that performs speech recognition on a portion and uses the speech recognition result as a provisional speech recognition result, wherein the provisional speech recognition result Determining whether or not the exclusive text array has an exclusive section that is unique among the plurality of text arrays in front and the provisional speech recognition result is the exclusive text array. And making the text arrangement a final voice recognition result for the voice, wherein the voice recognition processing unit repeatedly performs the voice recognition at a predetermined cycle, and The step of making the speech recognition result of the above-mentioned is that the provisional speech recognition result is the exclusive text array, and a forward coincidence with all of the predetermined number of other provisional speech recognition results obtained consecutively most recently. On the condition that the exclusive text array is the final speech recognition result, the exclusive text array is a syllable text array in which a marker indicating the end position of the exclusive section is inserted, and the plurality of text arrays Of these, the text array other than the exclusive text array is a syllable text array in which a marker indicating the end position of the text array is inserted, and the step of setting the final speech recognition result includes the provisional speech recognition result, When the marker is not inserted, the provisional speech recognition result is excluded from the judgment of the condition.
A speech recognition result determination method according to an eighth aspect of the present invention includes a speech recognition database that stores a dictionary describing a plurality of text arrays, a speech input unit that inputs speech, and speech that has already been input among the speech. A speech recognition result determination method in a speech recognition apparatus, comprising: a speech recognition processing unit that performs speech recognition on a portion and uses the speech recognition result as a provisional speech recognition result, wherein the provisional speech recognition result Determining whether or not the exclusive text array has an exclusive section that is unique among the plurality of text arrays in front and the provisional speech recognition result is the exclusive text array. And making the text arrangement a final voice recognition result for the voice, wherein the voice recognition processing unit repeatedly performs the voice recognition at a predetermined cycle, and The step of making the speech recognition result of the above-mentioned is that the provisional speech recognition result is the exclusive text array, and a forward coincidence with all of the predetermined number of other provisional speech recognition results obtained consecutively most recently. The exclusive text array as the confirmed speech recognition result, and the speech recognition result determination method sorts a plurality of text arrays described in the dictionary in the order of front matching, The method further includes the step of inserting a marker into the exclusive text array by performing a process of determining a front matching range for each of the text array pairs.
本発明によれば、比較的長い語句に対しても、高精度かつ高速な音声テキスト入力を実現することができる。 According to the present invention, high-accuracy and high-speed speech text input can be realized even for relatively long words.
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。 Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
まず、本実施の形態に係る音声認識装置の構成について説明する。 First, the configuration of the speech recognition apparatus according to this embodiment will be described.
図1は、本発明の一実施の形態に係る音声認識装置の構成の一例を示すブロック図である。本実施の形態に係る音声認識装置は、例えば、携帯電話機である。 FIG. 1 is a block diagram showing an example of the configuration of a speech recognition apparatus according to an embodiment of the present invention. The voice recognition device according to the present embodiment is, for example, a mobile phone.
図1において、音声認識装置100は、音声認識データベース(DB)110、マーカ挿入部120、音声入力部130、音声認識処理部140、表示部150、操作入力部160、確定処理部170、および確定結果使用部180を有する。
In FIG. 1, a
音声認識データベース110は、音声認識処理に用いられる情報である、音響モデル111、言語モデル112、および辞書113を、予め格納する。音響モデル111は、音声の特徴量と発音記号との確率的な対応付けをデータ化したものである。辞書113は、音声認識処理による音声認識結果の候補群として、複数のテキスト配列を記述したものである。言語モデル112は、辞書113に記述されたテキスト配列のそれぞれについて、出現確率や接続確率をデータ化したものである。
The
なお、本実施の形態において、辞書113が記述するテキスト配列は、カタカナの単語をカタカナで表記した音節テキスト配列(以下「単語」という)であるものとする。
In the present embodiment, the text array described by the
また、辞書113が記述する複数の単語(以下「登録単語群」という)の中には、前方に登録単語群の間で一意となる排他区間を有する単語(排他テキスト配列、以下「排他単語」という)が存在するものとする。また、登録単語群のうち、排他区間を有さない単語(以下「非排他単語」という)の中に、所定数以上の音節でいずれかの排他単語と前方一致となる単語(以下「前方一致単語」という)が存在するものとする。本実施の形態において、この所定数は、3とする。
Among a plurality of words (hereinafter referred to as “registered word group”) described by the
マーカ挿入部120は、辞書113に記述される単語のうち、排他単語に対して、その単語の排他区間の末尾位置に、マーカを挿入する。また、マーカ挿入部120は、辞書113に記述される単語のうち、非排他単語に対して、その単語の末尾位置に、マーカを挿入する。なお、このマーカ挿入処理は、音声認識処理が開始される前に行われる。
The
すなわち、辞書113は、初期状態では、マーカが挿入されていない単語を記述している。その後、辞書113は、マーカ挿入部120の機能により、マーカが挿入された排他単語を記述した状態となる。そして、挿入されたマーカは、排他単語の排他区間の末尾位置、あるいは、非排他単語の末尾位置を示す。
That is, the
音声入力部130は、周囲の音声を入力し、音声信号に変換して、音声認識処理部140へ出力する。周囲の音声にユーザの発話音声が含まれる場合、音声信号には、ユーザの発話音声の信号が含まれることになる。音声入力部130は、例えば、上記携帯電話機に供えられたマイクロフォンである。
The
音声認識処理部140は、音声入力部130から入力された音声信号に対して、音声認識処理を、所定の周期で繰り返し行う。この音声認識処理は、既に入力されている音声データ部分(音声部分)に対して音声認識を行い、1つまたは複数の音節から成るテキスト配列、あるいは、辞書113の登録単語を、音声データ(音声)に対する暫定の音声認識結果とする処理である。音声認識処理部140は、音響分析部141および認識デコーダ部142を有する。
The speech
音響分析部141は、音声信号を分析し、音声データに含まれる音声の特徴量(以下「音声特徴量」という)を抽出する。具体的には、音響分析部141は、音声信号に対してフレーム処理を行い、フレームごとにフーリエ解析を含む所定の処理を行って、ケプストラムパラメータ等を抽出する。そして、音響分析部141は、解析結果から、発話音声が含まれている音声区間を検出し、音声区間の音声特徴量のみによる時系列データを生成する。
The
認識デコーダ部142は、音響分析部141が生成した音声特徴量の時系列データに基づき、音声認識データベース110の音響モデル111、辞書113、および言語モデル112を参照して、暫定の音声認識結果を決定する。
The
より具体的には、認識デコーダ部142は、音声特徴量の時系列データを、まず、1つまたは複数の音節から成るテキスト配列に変換する。そして、得られたテキスト配列が辞書113に存在しない場合、当該テキスト配列を暫定の音声認識結果として決定する。一方、得られたテキスト配列が辞書113に存在する場合、対応する単語(マーカが挿入された単語)を、暫定の音声認識結果として決定する。そして、認識デコーダ部142は、決定した暫定の音声認識結果(以下「暫定結果」という)を、表示部150および確定処理部170へ出力する。
More specifically, the
すなわち、音声認識処理部140からは、例えば、ユーザが上述のマイクロフォンに対して発話している間、音声テキスト入力の暫定結果が所定の周期で出力される。例えば、ユーザが音声テキスト入力を行おうとしている単語(以下「所望の単語」という)が比較的長い単語である場合、その単語の発話が完了する前に、数回の暫定結果が得られることになる。また、暫定結果としては、登録単語ではないテキスト配列、排他区間の末尾位置にマーカが挿入された排他単語、および単語の末尾位置にマーカが挿入された非排他単語、の3種類のうちのいずれかが得られることになる。
That is, from the speech
なお、音声認識処理部140は、暫定結果毎に、その暫定結果の確からしさを示す確信度を算出する。そして、音声認識処理部140は、確定処理部170に対して出力する暫定結果に、算出した確信度を付加する。確信度の算出は、例えば、音声特徴量に対する発音記号の確率、および、発音記号に対する単語の出現確率や接続確率に基づき、最良パス(第1候補)の確率、および、その他のパス(第2候補以降)の確率差等の情報を利用して、行われる。
Note that the speech
表示部150は、音声認識処理部140から入力された暫定結果を表示する。また、表示部150は、新たな暫定結果が入力される毎に、新たな暫定結果により表示内容を更新する。表示部150は、例えば、上記携帯電話機に供えられた液晶ディスプレイである。
The
操作入力部160は、表示部150に表示されている暫定結果に対する決定操作を受け付ける。そして、操作入力部160は、決定操作が行われた時、その旨を、確定処理部170へ通知する。操作入力部160は、例えば、上記携帯電話機に供えられたタッチパネルである。
The
すなわち、ユーザは、最新の暫定結果が所望の単語である場合、その暫定結果に対する決定操作を行うことができる。 That is, when the latest provisional result is a desired word, the user can perform a determination operation on the provisional result.
確定処理部170は、操作入力部160において上記決定操作が行われたとき、その決定操作が行われた暫定結果を、音声入力部130が入力する上記音声に対する確定の音声認識結果(以下「確定結果」という)とする。
When the determination operation is performed by the
また、確定処理部170は、暫定結果が排他単語であるとき、操作入力部160において上記決定操作が行われていなくても、その排他単語を確定結果とする。すなわち、確定処理部170は、暫定結果が排他区間を有するテキスト配列であるとき、決定操作が行われる前に、その暫定結果を確定結果として決定する。
In addition, when the provisional result is an exclusive word, the
但し、本実施の形態において、確定処理部170は、直近に連続して得られた所定数の他の暫定結果の全てと前方一致となることを条件として、その排他単語を確定結果とする。本実施の形態において、この所定数は、2とする。すなわち、確定処理部170は、3回連続して前方一致となる暫定結果が得られたとき、その3回目の暫定結果を、確定結果とする。これは、音声の不明瞭さ等に起因して誤認識が発生し得ることを、考慮したものである。
However, in the present embodiment, the
更に、確定処理部170は、暫定結果が非排他単語であるときも、直近に連続して得られた所定数の他の暫定結果の全てと前方一致となったとき、その3回目の暫定結果を、確定結果とする。これは、単語を発話し終えたときを考慮したものである。
Furthermore, even when the provisional result is a non-exclusive word, the
すなわち、確定処理部170は、確からしい暫定結果として登録単語が得られたとき、決定操作を待たずに、その暫定結果を確定結果として決定する。そして、確定処理部170は、決定した確定結果を、確定結果使用部180へ出力する。
That is, when the registered word is obtained as a probable provisional result, the
また、確定処理部170は、前方一致単語以外の単語、つまり、排他単語と前方一致とならない単語および2以下の音節でしか排他単語と前方一致とならない単語については、上記条件の判断の対象外とする。
The
暫定結果が排他単語であるか否かは、例えば、上述のマーカの有無により判断される。また、暫定結果が前方一致単語であるか否かは、例えば、上述のマーカの有無により判断される。 Whether or not the provisional result is an exclusive word is determined, for example, based on the presence or absence of the marker. Further, whether or not the provisional result is a forward matching word is determined, for example, based on the presence or absence of the marker.
確定結果使用部180は、入力された確定結果を使用して、所定の処理を行う。確定結果使用部180は、例えば、上記携帯電話機に搭載された電子メールアプリである。この場合、上記所定の処理は、例えば、入力された確定結果を、電子メールの宛先に入力しつつ、その入力内容を表示部150に表示させる処理である。
The confirmation
また、音声認識装置100は、図示しないが、例えば、CPU(central processing unit)、制御プログラムを格納したROM(read only memory)等の記憶媒体、およびRAM(random access memory)等の作業用メモリ等を有する。この場合、上記した各部の機能は、CPUが制御プログラムを実行することにより実現される。
Although not shown, the
このような構成を有する音声認識装置100は、確からしい暫定結果が得られた段階で、決定操作を待たずに、その暫定結果を確定結果とすることができる。
The
比較的長い単語は、排他区間を有することが多く、更に、排他区間の末尾から単語の末尾までの距離(発話に要する時間、音声認識処理に要する時間)が長いことが多い。また、所望の単語が排他単語である場合、排他区間の音声部分に対する音声認識処理が完了した時点で、所望の単語が暫定結果として決定されることが多い。 A relatively long word often has an exclusive section, and furthermore, the distance from the end of the exclusive section to the end of the word (time required for speech, time required for speech recognition processing) is often long. In addition, when the desired word is an exclusive word, the desired word is often determined as a provisional result at the time when the speech recognition processing for the speech portion in the exclusive section is completed.
したがって、音声認識装置100は、所望の単語が比較的長い単語である場合、単語全体の音声に対する音声認識処理が完了する前に、正しい確定結果を得ることができる。すなわち、音声認識装置100は、比較的長い単語に対しても、高精度かつ高速な音声テキスト入力を実現することができる。
Accordingly, when the desired word is a relatively long word, the
更に、上記構成を有する音声認識装置100は、直近に連続して得られた2つの他の暫定結果の全てが当該排他単語についての前方一致単語ではない場合、当該排他単語を確定結果としないようにすることができる。
Furthermore, the
単語全体の音声に対する音声認識処理が完了する前に確定結果を決定すると、発話の状態および入力音声の状態によっては、誤った確定結果を得るおそれがある。一方で、直近に連続して得られた2つの他の暫定結果の全てが最新の暫定結果についての前方一致単語である場合には、その最新の暫定結果が正しい可能性が非常に高い。 If the confirmation result is determined before the speech recognition process for the whole word speech is completed, an erroneous confirmation result may be obtained depending on the utterance state and the input speech state. On the other hand, if all of the two other provisional results obtained in succession most recently are forward matching words for the latest provisional result, the possibility that the latest provisional result is correct is very high.
したがって、音声認識装置100は、誤認識が発生する可能性を、低減することができる。すなわち、音声認識装置100は、更に認識精度を向上させた状態で、高速な音声テキスト入力を実現することができる。
Therefore, the
また、音声認識装置100は、非排他単語が暫定結果として得られた場合についても、直近に連続して得られた2つの他の暫定結果の全てと前方一致となる場合、その暫定結果を確定結果とすることができる。これにより、音声認識装置100は、単語を言い終えて所定の時間(同一の暫定結果が3回得られるのに要する時間)が経過した段階で、決定操作を待たずに、その暫定結果を確定結果とすることができる。
In addition, when the non-exclusive word is obtained as a provisional result, the
以上で、音声認識装置100の構成についての説明を終了する。
Above, description about the structure of the
次に、音声認識装置100の動作について説明する。音声認識装置100は、まず、初期設定動作としてマーカ挿入動作を行い、その後、音声認識動作を行う。
Next, the operation of the
マーカ挿入動作は、辞書113に格納された登録単語群に対して、マーカを挿入する動作である。音声認識動作は、マーカの挿入が行われた辞書113を用いて、高精度かつ高速な音声テキスト入力を実現する動作である。
The marker insertion operation is an operation for inserting a marker into a registered word group stored in the
まず、マーカ挿入動作について説明する。 First, the marker insertion operation will be described.
図2は、音声認識装置100のマーカ挿入動作の一例を示すフローチャートである。
FIG. 2 is a flowchart illustrating an example of the marker insertion operation of the
まず、ステップS1010において、マーカ挿入部120は、登録単語群の各単語を、音節で分割する。そして、マーカ挿入部120は、音節で分割された各単語を、50音順でソートして、仮想の記憶領域である音節行列に格納する。
First, in step S1010, the
図3は、マーカ挿入動作前の登録単語群の一例を示す図である。 FIG. 3 is a diagram illustrating an example of a registered word group before the marker insertion operation.
図3に示すように、マーカ挿入動作前の登録単語群210は、複数の単語の集合である。各単語は、カタカナの音節テキスト配列である。
As shown in FIG. 3, the registered
図4は、登録単語群が格納された音節行列の一例を示す図である。 FIG. 4 is a diagram illustrating an example of a syllable matrix in which registered word groups are stored.
図4に示すように、音節行列220は、登録単語群を、音節の位置を揃えた状態で、50音順に並べたリストである。例えば、音節行列において、「イグザタブレット」という単語が格納された行の「タ」という音節が格納された列と、次の「イグザフォン」という単語が格納された行の「フォン」という音節が格納された列とは、同一の列に属している。
As shown in FIG. 4, the
そして、図2のステップS1020において、マーカ挿入部120は、音節行列から、行(単語)を1つ選択する。ここでは、マーカ挿入部120は、音節行列の上から下へと、順に選択していくものとする。例えば、マーカ挿入部120は、「アドバンス」という単語が格納された行を選択する。
In step S1020 of FIG. 2, the
そして、ステップS1030において、マーカ挿入部120は、選択中の行を、次の行と列(音節)毎に比較し、少なくとも1つ以上の列で前方一致となっているか否かを判断する。前方一致となっている範囲とは、2つの配列の間で、それぞれの配列の前方を基準として一致する範囲のうち、最大の範囲をいうものとする。
In step S1030, the
マーカ挿入部120は、選択中の行と次の行との間で前方一致となっている場合(S1030:YES)、後述のステップS1050へ進む。また、マーカ挿入部120は、選択中の行と次の行との間で前方一致となっていない場合(S1030:NO)、ステップS1040へ進む。
If the
例えば、「イグザフォントリプルエックス」という単語が選択されている場合、次の行の単語「ウニ」との間では、前方一致となっていない。したがって、このような場合、処理は、ステップS1040へ進む。 For example, when the word “Ixaphone Triple X” is selected, there is no forward match with the word “Uni” on the next line. Therefore, in such a case, the process proceeds to step S1040.
そして、ステップS1040において、マーカ挿入部120は、前回の比較でも前方一致していた場合(S1040:YES)、後述のステップS1050へ進む。また、マーカ挿入部120は、前回の比較で前方となっていない場合(S1040:NO)、後述のステップS1060へ進む。
In step S1040, the
前回の比較でも前方一致していた場合とは、つまり、選択中の行の単語が、前後の行の両方の単語と前方一致となっている場合である。例えば、「イグザタブレット」という単語が格納された行が選択された場合、前の行の単語「イグザ」、および、次の行の単語「イグザフォン」との間では、「イ」、「グ」、「ザ」が格納された3つの列で前方一致となっている。したがって、この場合、処理は、ステップS1050へ進む。 The case where there is a forward match in the previous comparison means that the word in the selected row is a forward match with both words in the preceding and succeeding rows. For example, when a line storing the word “Igza Tablet” is selected, the word “Igza” in the previous line and the word “Igzaphone” in the next line are “I” and “Gu”. , “The” is stored in the three columns in which “the” is stored, and the front coincides. Therefore, in this case, the process proceeds to step S1050.
ステップS1050において、マーカ挿入部120は、選択中の行に格納された単語の次の行の単語との前方一致部分を、一致文字列リストに追加する。一致文字列リストは、前後2つの単語との間で前方一致となる単語を構成する文字列のうち、次の単語と前方一致となる部分(つまり、共通部分)をリスト化したものとなる。
In step S1050, the
図5は、一致文字列リストの一例を示す図である。 FIG. 5 is a diagram illustrating an example of the matching character string list.
図5に示すように、一致文字列リスト230は、前後2つの単語との間で前方一致となる単語を構成する文字列のうち、次の単語と前方一致となる部分のみを記述する。したがって、例えば、図3に示す登録単語群210のうち、「アドバンス」に対応する文字列は、一致文字列リスト230には記述されていない。
As shown in FIG. 5, the matched
そして、ステップS1060において、マーカ挿入部120は、選択中の行が音節行列の最後の行(単語)であるか否かを判断する。
In step S1060, the
マーカ挿入部120は、選択中の行が音節行列の最後の行ではない場合(S1060:NO)、ステップS1020へ戻り、次の行に対する処理へ移る。また、マーカ挿入部120は、音節行列の全ての行について処理が完了すると(S1060:YES)、ステップS1070へ進む。
If the selected row is not the last row of the syllable matrix (S1060: NO), the
そして、図2のステップS1070において、マーカ挿入部120は、再び、音節行列から、行(単語)を1つ選択する。ここでは、マーカ挿入部120は、音節行列の上から下へと、順に選択していくものとする。例えば、マーカ挿入部120は、「アドバンス」という単語が格納された行を選択する。
In step S1070 in FIG. 2, the
そして、ステップS1080において、マーカ挿入部120は、選択中の行の単語の前方部分が、一致文字列リスト(図5参照)に含まれているか否かを判断する。この判断は、つまり、単語が、排他単語および前方一致文字列のいずれかであるか否かの判断である。
In step S1080, the
マーカ挿入部120は、選択中の行の単語が一致文字列リストに含まれている場合(S1080:YES)、後述のステップS1090へ進む。また、マーカ挿入部120は、選択中の行の単語が一致文字列リストに含まれていない場合(S1080:NO)、後述のステップS1110へ進む。
When the word on the selected line is included in the matched character string list (S1080: YES), the
例えば、「アドバンス」という単語が選択されている場合、この単語の前方部分は、図5に示す一致文字列リスト230には含まれていない。したがって、この場合、処理は、ステップS1110へ進む。また、例えば、「イグザ」という単語が選択されている場合、この単語の前方部分は、図5に示す一致文字列リスト230に含まれている。したがって、この場合、処理は、ステップS1090へ進む。
For example, when the word “advance” is selected, the front part of this word is not included in the matching
ステップS1090において、マーカ挿入部120は、選択中の行と次の行とを列(音節)毎に比較し、所定数(3)以上の列で前方一致となっているか否かを判断する。
In step S1090, the
マーカ挿入部120は、所定数(3)以上の列で前方一致となっている場合(S1090:YES)、ステップS1100へ進む。また、マーカ挿入部120は、所定数(3)以上の列で前方一致となっていない場合(S1090:NO)、後述のステップS1110へ進む。
The
例えば、「イグザタブレット」という単語が格納された行が選択されている場合を想定する。この行は、「イグザ」の範囲で、次の行の「イグザフォン」という単語が格納された行と一致する。言い換えると、少なくとも、「イグザ」は、「イグザフォン」に包含されている。したがって、この場合、処理は、ステップS1100へ進む。 For example, assume a case where a row in which the word “exa tablet” is stored is selected. This line corresponds to the line in which the word “exaphone” in the next line is stored in the range of “exa”. In other words, at least “Iguza” is included in “Iguzaphone”. Therefore, in this case, the process proceeds to step S1100.
また、例えば、「イカ」という単語が格納された行が選択されている場合を想定する。この行は、「イ」の範囲において、次の行の「イグザ」という単語が格納された行と一致するが、音素数が所定数(3)に満たない。このため、処理は、ステップS1110へ進む。 Further, for example, a case is assumed where a row in which the word “squid” is stored is selected. This line coincides with the line in which the word “Igza” in the next line is stored in the range of “i”, but the number of phonemes is less than the predetermined number (3). Therefore, the process proceeds to step S1110.
ステップS1100において、マーカ挿入部120は、辞書113に記述された登録単語群のうち、選択中の単語に対応するものに対して、マーカを挿入して、ステップS1120へ進む。より具体的には、マーカ挿入部120は、選択中の行が次の行と一致しない列(音節)のうち、最も前方に位置する列の直前の位置に、マーカを挿入する。
In step S1100, the
一方、ステップS1110において、マーカ挿入部120は、辞書113に記述された登録単語群のうち、選択中の単語に対応するものに対して、マーカを挿入して、ステップS1120へ進む。より具体的には、マーカ挿入部120は、単語の末尾位置に、マーカを挿入する。
On the other hand, in step S1110, the
ステップS1120において、マーカ挿入部120は、選択中の行が音節行列の最後の行(単語)であるか否かを判断する。
In step S1120, the
マーカ挿入部120は、選択中の行が音節行列の最後の行ではない場合(S1120:NO)、ステップS1070へ戻り、次の行に対する処理へ移る。そして、音声認識装置100は、音節行列の全ての行について処理が完了すると(S1120:YES)、マーカ挿入動作を終了する。
If the selected row is not the last row of the syllable matrix (S1120: NO), the
このようなマーカ挿入動作により、音声認識装置100は、辞書113に記述された登録単語群のうち、排他単語を、排他区間の末尾位置にマーカが挿入された状態のものにし、非排他単語を、単語の末尾位置にマーカが挿入された状態のものにすることができる。すなわち、登録単語については全てマーカが挿入された状態となる。
By such marker insertion operation, the
なお、音声認識装置100は、マーカとして、例えば、「@」+読みその他の付加情報+「@」という文字列を用いる。この付加情報は、例えば、確定結果使用部180で用いられる。
Note that the
図6は、マーカ挿入動作後の登録単語群の一例を示す図である。 FIG. 6 is a diagram illustrating an example of a registered word group after the marker insertion operation.
図6に示すように、マーカ挿入動作後の登録単語群240は、マーカが挿入された状態となる。例えば、「イグザタブレット」という単語には、「タ」と「ブ」との間に、「@ixatablet@」というマーカが挿入されている。
As shown in FIG. 6, the registered
以上で、マーカ挿入動作についての説明を終える。 This is the end of the description of the marker insertion operation.
次に、音声認識動作について説明する。 Next, the voice recognition operation will be described.
図7は、音声認識動作の一例を示すフローチャートである。ここでは、音声入力部130は、継続的に、音声入力を行い、音声データを音声認識処理部140へ出力しているものとする。また、音声認識装置100は、上述の音声区間が開始される毎に、および、音声区間中に確定結果が得られる毎に、以下に説明する音声認識動作を行うものとする。
FIG. 7 is a flowchart showing an example of the voice recognition operation. Here, it is assumed that the
まず、ステップS2010において、音声認識処理部140は、今回の音声認識動作が開始されてから既に入力されている音声データの部分(以下「既入力データ部分」という)に対して、上述の音声認識処理を行う。すなわち、音声認識処理部140は、音声認識の暫定結果を決定し、その過程において、当該暫定結果の確信度を算出する。そして、音声認識処理部140は、決定した暫定結果を表示部150へ出力し、表示部150に表示させる。
First, in step S2010, the speech
なお、表示部150には、マーカが除去された状態で、単語が表示されるものとする。マーカの除去は、例えば、表示部150が行う。また、音声認識処理部140は、決定した暫定結果を、その確信度と併せて、確定処理部170へ出力する。
It is assumed that the word is displayed on
音声認識処理部140は、後述のステップS2100からの処理の戻りにより、ステップS2010の処理を、所定の周期(例えば、100msec)で行う。したがって、発話が行われている間、暫定結果は、繰り返し得られる。また、確定結果が得られていない既入力データ部分は、時間の経過と共に長くなる。したがって、得られる暫定結果は、時間の経過と共に変化し得る。
The speech
そして、ステップS2020において、確定処理部170は、入力された確信度が第1の所定値以上であるか否かを判断する。この所定値は、例えば、音声テキスト入力に求められる精度および速度に基づいて、実験等により決定された値である。
In step S2020, the
確定処理部170は、確信度が所定値以上である場合(S2020:YES)、ステップS2030へ進む。また、確定処理部170は、確信度が所定値未満である場合(S2020:NO)、後述のステップS2050へ進む。
If the certainty factor is greater than or equal to the predetermined value (S2020: YES), the
ステップS2030において、確定処理部170は、暫定結果が、マーカを含むものであるか否かを判断する。すなわち、確定処理部170は、暫定結果が、登録単語であるか否かを判断する。
In step S2030, the
確定処理部170は、暫定結果がマーカを含むものである場合(S2030:YES)、後述のステップS2040へ進む。また、確定処理部170は、暫定結果がマーカを含まないものである場合(S2030:NO)、ステップS2050へ進む。
If the provisional result includes a marker (S2030: YES), the
例えば、入力音声の品質が低い場合や、暫定結果が「イ」である場合、処理は、後述のステップS2050へ進む。また、例えば、入力音声の品質が高く場合や、暫定結果が「イグザ@ixa@」や「イグザタ@ixatablet@ブレット」である場合、処理はステップS2040へ進む。 For example, when the quality of the input voice is low or the provisional result is “I”, the process proceeds to step S2050 described later. Further, for example, when the quality of the input voice is high, or when the provisional result is “Ixa @ ixa @” or “Ixata @ ixatable @ Brett”, the process proceeds to Step S2040.
ステップS2040において、確定処理部170は、今回の暫定結果が、前回記録と前方一致となっているか否かを判断する。ここで、前回記録とは、過去に後述のステップS2090において記録され、その記録が維持されている、過去の暫定結果のうち、直近のものである。なお、確定処理部170は、音声区間の初回の暫定結果については、ステップS2020〜S2080を実行せず、ステップS2090に進んでもよい。
In step S2040, the
確定処理部170は、今回の暫定結果が前回記録と前方一致となっている場合(S2040:YES)、ステップS2060へ進む。また、確定処理部170は、今回の暫定結果が前回記録と前方一致となっていない場合(S2040:NO)、後述のステップS2070へ進む。
The
例えば、前回記録が「イグザ@ixa@」であり、今回の暫定結果が「イグザタ@tablet@ブレット」である場合、処理は、ステップS2060へ進む。 For example, if the previous record is “Igusa @ ixa @” and the current provisional result is “Exact @ tablet @ Brett”, the process proceeds to step S2060.
ステップS2060において、確定処理部170は、前方一致パラメータをインクリメントする。前方一致パラメータは、所定数(3)以上の音節で前方一致となる暫定結果が連続して得られた回数(以下「連続前方一致回数」という)を示すパラメータであり、初期値は0である。
In step S2060, the
例えば、前々回の暫定結果が「イカ@烏賊@」であり、前回の暫定結果が「イグザ@ixa@」であり、今回の暫定結果が「イグザタ@tablet@ブレット」である場合を想定する。この場合、前方一致パラメータは、「1」となる。 For example, a case is assumed in which the provisional result of the previous round is “squid @ bandit @”, the previous provisional result is “igza @ ixa @”, and the current provisional result is “exact @ tablet @ brett”. In this case, the forward match parameter is “1”.
そして、ステップS2080において、確定処理部170は、前方一致パラメータが所定値(2)に到達したか否かを判断する。すなわち、確定処理部170は、最新の暫定結果が、直近に連続して得られた2以上の他の暫定結果の全てと前方一致となっているという条件(以下「カウント条件」という)が満たされるか否かを判断する。
In step S2080,
確定処理部170は、前方一致パラメータが所定値(2)に到達した場合(S2080:YES)、後述のステップS2110へ進む。また、確定処理部170は、前方一致パラメータが所定値(2)に到達していない場合(S2080:NO)、ステップS2090へ進む。
If the forward matching parameter reaches the predetermined value (2) (S2080: YES), the
ステップS2090において、確定処理部170は、今回の暫定結果を記録する。
In step S2090, the
一方、ステップS2050において、確定処理部170は、前回記録が存在する場合には、これをクリアして、後述のステップS2100へ進む。すなわち、確定処理部170は、暫定結果の確信度が低い場合や、暫定結果が登録単語ではない場合、前回と今回の暫定結果を、上述のカウント条件の判断の対象外とする。
On the other hand, in step S2050, if there is a previous record, the
また、ステップS2070において、確定処理部170は、前方一致パラメータを初期化して、ステップS2100へ進む。すなわち、確定処理部170は、今回の暫定結果が前回記録と前方一致となっていない場合、連続前方一致回数のカウントの起点を、次回の暫定結果にシフトさせる。
In step S2070, the
そして、ステップS2100において、確定処理部170は、今回の暫定結果に対して、決定操作が行われたか否かを判断する。すなわち、確定処理部170は、操作入力部160から、決定操作が行われた旨が通知されたか否かを判断する。
In step S2100, the
確定処理部170は、決定操作が行われていない場合(S2100:NO)、ステップS2010へ戻り、新たに入力されたデータ部分を含む既入力データ部分に対する処理へ移る。また、確定処理部170は、決定操作が行われた場合(S2100:YES)、ステップS2110へ進む。
If the determination operation is not performed (S2100: NO), the
例えば、連続前方一致回数が2回に到達した場合、決定操作が行われていなくても、処理はステップS2110へ進む。これは、排他単語の排他区間の認識が完了した可能性、あるいは、単語全体の認識が完了した可能性が、十分に高いことを示す。 For example, when the number of consecutive forward matches has reached 2, even if the determination operation is not performed, the process proceeds to step S2110. This indicates that the possibility that the exclusive section of the exclusive word has been recognized or that the recognition of the entire word has been completed is sufficiently high.
また、決定操作が行われた場合、連続前方一致回数が2回に到達していなくても、処理はステップS2110へ進む。 If a determination operation is performed, the process proceeds to step S2110 even if the number of consecutive forward matches has not reached 2.
ステップS2110において、確定処理部170は、今回の暫定結果を、確定結果に決定し、確定結果を確定結果使用部180へ出力する。そして、音声認識装置100は、音声認識動作を終了する。
In step S <b> 2110, the
なお、確定結果使用部180は、マーカが除去された状態の確定結果を使用してもよいし、マーカが含まれる状態の確定結果を使用してもよい。マーカの除去は、確定処理部170が行ってもよいし、確定結果使用部180が行ってもよい。
The confirmation
このような音声認識動作により、音声認識装置100は、マーカが挿入された単語を登録した辞書113を用いて、発話中に、暫定結果を周期的に得ることができる。また、音声認識装置100は、排他単語の排他区間の発話が終了した可能性、あるいは、単語全体の発話が終了した可能性が、十分に高いとき、決定操作が行われていなくても、その時点で得られた暫定単語を、確定結果とすることができる。
With such a speech recognition operation, the
以上で、音声認識動作についての説明を終える。 This is the end of the description of the voice recognition operation.
次に、発話内容および暫定結果の具体例を挙げて、確定結果が得られるまでの動作の様子および本発明の効果について説明する。 Next, a specific example of the utterance content and the provisional result will be described, and the state of operation until the final result is obtained and the effect of the present invention will be described.
図8は、比較的長い単語の音声が入力された場合の、発話が開始されてから確定結果が得られるまでに要する時間の一例を説明する図である。 FIG. 8 is a diagram for explaining an example of the time required from the start of utterance to the determination result being obtained when a relatively long word voice is input.
図8の上側に示すように、「イグザフォントリプルエックス」という単語が発話されたとする。そして、その発話開始時刻は、時刻t0であり、発話終了時刻t2であるとする。すなわち、「イグザフォントリプルエックス」という単語は、発話に、時間t2を要するものとする。また、音声の入力が開始されてから対応部分の暫定結果が得られるまでには、音声データのバッファリング等の処理により、時間t1を要するものとする。 As shown in the upper side of FIG. 8, it is assumed that the word “exaphone triple X” is uttered. Then, it is assumed that the utterance start time is time t0 and utterance end time t2. That is, it is assumed that the word “exaphone triple X” requires time t2 to speak. Also, it is assumed that time t1 is required from the start of voice input until the provisional result of the corresponding portion is obtained, due to processing such as buffering of voice data.
「イグザフォントリプルエックス」という単語の発話音声の音声データ全体に基づいて確定結果を得る場合、当該確定結果の精度は高い。ところが、この場合、確定結果が得られるのは、時刻t0から時間t1+t2が経過した時刻t1+t2となる。すなわち、従来では、発話者は、時刻t1+t2の後まで、暫定結果が表示されるのを待ってから、確定操作を行う。 When the final result is obtained based on the entire voice data of the speech voice of the word “Ixaphone Triple X”, the accuracy of the final result is high. However, in this case, the final result is obtained at time t1 + t2 when time t1 + t2 has elapsed from time t0. That is, conventionally, the speaker waits for the provisional result to be displayed until after time t1 + t2, and then performs the confirmation operation.
ここで、「イグザフォントリプルエックス」は、図6に示すように、「イグザフォント@ixaphonetripleX@リプルエックス」という排他単語であったとする。この場合、図8の下側に示すように、音声認識装置100は、「ト」の位置までの既入力データ部分に対する暫定結果が得られた時刻teの段階で、暫定結果を確定結果とすることができる。「イグザフォント」という排他区間は、他のいずれの単語とも一致しない。したがって、音声認識装置100は、時刻t1+t2よりも早い時刻である時刻teに、比較的高い精度で、音声認識結果を確定させることができる。
Here, it is assumed that “exaphone triple X” is an exclusive word “exa font @ixaphonetriple X @ripple X” as shown in FIG. In this case, as shown in the lower side of FIG. 8, the
但し、音声データの一部のみを用いる場合の音声認識精度は、音声データ全体を用いる場合の音声認識精度に比べて低い。そこで、上述の通り、音声認識装置100は、暫定結果が排他単語であり、かつ、直近に連続して得られた所定数の他の暫定結果の全てと前方一致となることを、暫定結果を確定させるための条件とする。
However, the speech recognition accuracy when only a part of the speech data is used is lower than the speech recognition accuracy when the entire speech data is used. Therefore, as described above, the
図9および図10は、各時刻で得られる暫定結果一例および結果確定の様子の一例を示す図である。図9は、入力音声の品質が良好である場合の例であり、図10は、入力音声の品質が良好ではない場合の例である。いずれの場合も、所望の単語は、「イグザフォントリプルエックス」であるものとする。 FIG. 9 and FIG. 10 are diagrams illustrating an example of a provisional result obtained at each time and an example of how the result is determined. FIG. 9 is an example when the quality of the input voice is good, and FIG. 10 is an example when the quality of the input voice is not good. In any case, it is assumed that the desired word is “Ixaphone Triple X”.
図9に示すように、時刻t11〜t14において、それぞれ、「イカ@烏賊@」、「イグザ@ixa@」「イグザフォン@ixaphone@」、および「イグザフォント@ixaphonetripleX@リプルエックス」という暫定結果が得られたものとする。入力音声の品質が良好である場合、このように、所望の単語と前方一致となる単語が暫定結果となることが多い。 As shown in FIG. 9, at time t11 to t14, provisional results of “squid @ bandit @”, “exa @ ixa @”, “exaphone @ ixaphone @”, and “exafont @ ixaphonetripleX @ ripple X” are obtained, respectively. Shall be. When the quality of the input speech is good, a word that matches the desired word in front is often a provisional result.
「イグザ@ixa@」「イグザフォン@ixaphone@」、および「イグザフォント@ixaphonetripleX@リプルエックス」では、図9に下線で示すように、「イグザ」の部分が一致する。また、これらの暫定結果は連続しており、「イグザフォント@ixaphonetripleX@リプルエックス」は排他単語である。 In “Igusa @ ixa @”, “Ixaphone @ ixaphone @”, and “Ixafont @ ixaphonetripleX @ RippleX”, as indicated by the underline in FIG. In addition, these provisional results are continuous, and “exafont @ ixaphonetripleX @ ripple X” is an exclusive word.
したがって、時刻t14に「イグザフォント@ixaphonetriple@リプルエックス」が得られた時点で、音声認識結果は確定される。これは、「イグザフォントリプルエックス」という単語の発話音声の音声データ全体に基づいて確定結果が得られる時刻teよりも早い時刻である。 Therefore, the voice recognition result is determined when “exafont @ ixaphoneetriple @ ripplex” is obtained at time t14. This is a time earlier than the time te when the final result is obtained based on the entire voice data of the speech voice of the word “Ixaphone Triple X”.
また、図10に示すように、時刻t11〜t16において、それぞれ、「イカ@烏賊@」、「イグザ@ixa@」、「イ」、「イカ@烏賊@」、「イグザフォンス@ixaphonesports@ポーツ」、「イグザフォント@ixaphonetripleX@リプルエックス」という暫定結果が得られたものとする。また、時刻t14の「イカ@烏賊@」という暫定結果の確信度は低いものとする。入力音声の品質が良好ではない場合、このように、所望の単語と前方一致とならない単語が暫定結果となったり、確信度が低くなったりすることが多い。 Also, as shown in FIG. 10, at time t11 to t16, “squid @ bandit @”, “igza @ ixa @”, “i”, “squid @ bandit @”, “exaphones @ ixaphonesports @ ports”, respectively. Suppose that a provisional result “exafont @ ixaphonetrixX @ ripple X” is obtained. Further, it is assumed that the certainty of the provisional result “squid @ bandit @” at time t14 is low. When the quality of the input speech is not good, a word that does not coincide with the desired word is often a provisional result or the certainty level is low.
「イグザ@ixa@」は、「イグザフォント@ixaphonetripleX@リプルエックス」の前方一致単語であるが、「イ」は、「イグザフォント@ixaphonetripleX@リプルエックス」の前方一致単語ではない。ところが、「イ」の記録は、次の「イカ@烏賊@」の確信度が低いために、クリアされる。また、「イカ@烏賊@」は、記録されない。したがって、これらは、上記条件の対象外となる。 “Igza @ ixa @” is a forward matching word of “Ixafont @ ixaphonetripleX @ Ripple X”, but “I” is not a forward matching word of “Igzafont @ ixaphonetripleX @ RippleX”. However, the record of “I” is cleared because the certainty of the next “squid @ bandit @” is low. Also, “squid @ bandit @” is not recorded. Therefore, these are not subject to the above conditions.
したがって、「イグザフォンス@ixaphonesports@ポーツ」に続けて、時刻t16に「イグザフォント@ixaphonetripleX@リプルエックス」が暫定結果として得られた時点で、音声認識結果は確定される。これは、「イグザフォントリプルエックス」という単語の発話音声の音声データ全体に基づいて確定結果が得られる時刻teよりも早い時刻である。 Therefore, after “Ixaphones @ ixaphonesports @ Ports”, the voice recognition result is determined when “Ixafont @ ixaphonetripleX @ RippleX” is obtained as a provisional result at time t16. This is a time earlier than the time te when the final result is obtained based on the entire voice data of the speech voice of the word “Ixaphone Triple X”.
すなわち、音声認識装置100は、発話者が所望の単語の全てを発話し終える前に、音声認識結果を1つに絞り込めたとき、当該音声認識結果で確定を行うことができる。すなわち、音声認識装置100は、高速レスポンスの音声認識を実現することができる。
That is, the
但し、入力音声の品質が劣悪であるような場合には、暫定結果の揺らぎが大きくなり、時刻teになっても上記条件が満たされないことがある。このような場合には、例えば、ユーザの決定操作、あるいは、修正操作により、音声認識結果が確定されることになる。 However, when the quality of the input voice is poor, the provisional result fluctuates greatly, and the above condition may not be satisfied even at time te. In such a case, for example, the speech recognition result is determined by the user's determination operation or correction operation.
このように、音声認識装置100は、暫定結果の揺らぎが小さい場合には、早期の結果確定を行いつつ、暫定結果の揺らぎが大きい場合には、暫定認識結果の信頼度が十分に高くなってから、結果確定を行う。したがって、音声認識装置100は、特に比較的長い単語について、音声テキスト入力の高速化と高精度化とを、バランス良く実現することができる。
As described above, when the fluctuation of the provisional result is small, the
以上、具体例による動作および効果についての説明を終える。 This is the end of the description of the operations and effects of the specific example.
以上説明したように、本実施の形態の音声認識装置100は、暫定結果が排他単語であり、かつ、直近に連続して得られた所定数の他の暫定結果の全てと前方一致となることを条件として、その排他単語を確定結果とする。これにより、音声認識装置100は、比較的長い語句に対しても、高精度かつ高速な音声テキスト入力を実現することができる。
As described above, in the
なお、以上説明した実施の形態では、マーカを用いて登録単語を判定するようにしたが、これらの単語の判定手法は、これに限定されない。例えば、音声認識装置は、単語のグルーピングや、他の付加情報を用いて、登録単語の判別を行うようにしてもよい。 In the embodiment described above, the registered word is determined using the marker, but the determination method of these words is not limited to this. For example, the speech recognition apparatus may determine a registered word using word grouping or other additional information.
また、図1に示す各機能部は、必ずしも、1つの装置に一体的に設けられている必要はない。例えば、音声認識データベースおよびマーカ挿入部を、インターネット上のサーバに配置し、その他の機能部を、携帯電話機に配置してもよい。 In addition, each functional unit illustrated in FIG. 1 is not necessarily provided integrally in one apparatus. For example, the voice recognition database and the marker insertion unit may be arranged on a server on the Internet, and the other functional units may be arranged on a mobile phone.
また、排他単語との前方一致判断の閾値(所定値)、および、連続前方一致回数の判断の閾値(所定値)は、上述の例に限定されない。これらの値は、例えば、音声テキスト入力に求められる精度および速度に基づいて、実験等により決定される。 Further, the threshold value (predetermined value) for determining the forward match with the exclusive word and the threshold value (predetermined value) for determining the number of consecutive forward matches are not limited to the above example. These values are determined by experiments or the like based on the accuracy and speed required for speech text input, for example.
また、音声認識結果の候補として辞書に記述されるテキスト配列の形式および内容は、上述の例に限定されない。例えば、テキスト配列は、仮名漢字文字列であってもよい。また、テキスト配列は、単語および文章(語句)であってもよい。 Further, the format and contents of the text array described in the dictionary as candidates for the speech recognition result are not limited to the above example. For example, the text array may be a kana / kanji character string. The text array may be a word and a sentence (phrase).
また、本発明が適用される装置は、上述の例に限定されない。本発明は、タブレット端末、パーソナルコンピュータ等、各種の電子機器に適用することができる。 The apparatus to which the present invention is applied is not limited to the above-described example. The present invention can be applied to various electronic devices such as a tablet terminal and a personal computer.
本発明は、比較的長い語句に対しても、高精度かつ高速な音声テキスト入力を実現することができる音声認識装置および音声認識結果確定方法として有用である。 INDUSTRIAL APPLICABILITY The present invention is useful as a speech recognition apparatus and a speech recognition result determination method that can realize high-accuracy and high-speed speech text input even for relatively long words.
100 音声認識装置
110 音声認識データベース
111 音響モデル
112 言語モデル
113 辞書
120 マーカ挿入部
130 音声入力部
140 音声認識処理部
141 音響分析部
142 認識デコーダ部
150 表示部
160 操作入力部
170 確定処理部
180 確定結果使用部
DESCRIPTION OF
Claims (10)
音声を入力する音声入力部と、
前記音声のうち既に入力されている音声部分に対して音声認識を行って、該音声認識の結果を暫定の音声認識結果とする音声認識処理部と、
前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とする確定処理部と、を有し、
前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、
前記確定処理部は、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、
前記所定数は、2である、
音声認識装置。 A speech recognition database that stores a dictionary describing multiple text arrays;
A voice input unit for inputting voice;
A voice recognition processor to I line speech recognition, the result provisional speech recognition results of speech recognition on the audio portion which has already been input among the speech,
When the provisional speech recognition result is an exclusive text array having an exclusive section that is unique among the plurality of text arrays ahead, the confirmation processing unit that uses the exclusive text array as a confirmed speech recognition result for the speech and, the possess,
The voice recognition processing unit repeatedly performs the voice recognition at a predetermined cycle,
The confirmation processing unit confirms that the provisional speech recognition result is the exclusive text array and is forward-matched with all of the predetermined number of other provisional speech recognition results obtained consecutively most recently. As a condition, the exclusive text array is the final speech recognition result,
The predetermined number is two;
Voice recognition device.
音声を入力する音声入力部と、
前記音声のうち既に入力されている音声部分に対して音声認識を行って、該音声認識の結果を暫定の音声認識結果とする音声認識処理部と、
前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とする確定処理部と、を有し、
前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、
前記確定処理部は、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、
前記テキスト配列は、音節テキスト配列であり、
前記確定処理部はさらに、前記所定数以上の音節で前記排他テキスト配列と前方一致とならないテキスト配列は、前記条件の判断の対象外とする、
音声認識装置。 A speech recognition database that stores a dictionary describing multiple text arrays;
A voice input unit for inputting voice;
A voice recognition processing unit that performs voice recognition on a voice part that has already been input in the voice and sets the voice recognition result as a provisional voice recognition result;
When the provisional speech recognition result is an exclusive text array having an exclusive section that is unique among the plurality of text arrays ahead, the confirmation processing unit that uses the exclusive text array as a confirmed speech recognition result for the speech And having
The voice recognition processing unit repeatedly performs the voice recognition at a predetermined cycle,
The confirmation processing unit confirms that the provisional speech recognition result is the exclusive text array and is forward-matched with all of the predetermined number of other provisional speech recognition results obtained consecutively most recently. As a condition, the exclusive text array is the final speech recognition result,
The text array is a syllable text array;
The confirmation processing unit further excludes the text arrangement that does not coincide with the exclusive text arrangement in the predetermined number of syllables or more from the judgment of the condition.
Voice recognition device.
音声を入力する音声入力部と、
前記音声のうち既に入力されている音声部分に対して音声認識を行って、該音声認識の結果を暫定の音声認識結果とする音声認識処理部と、
前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とする確定処理部と、を有し、
前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、
前記確定処理部は、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とする、
前記排他テキスト配列は、前記排他区間の末尾位置を示すマーカが挿入された音節テキスト配列であり、
前記複数のテキスト配列のうち、前記排他テキスト配列以外のテキスト配列は、当該テキスト配列の末尾位置を示すマーカが挿入された音節テキスト配列であり、
前記確定処理部は、前記暫定の音声認識結果が、前記マーカが挿入されていないものであるとき、当該暫定の音声認識結果については、前記条件の判断の対象外とする、
音声認識装置。 A speech recognition database that stores a dictionary describing multiple text arrays;
A voice input unit for inputting voice;
A voice recognition processing unit that performs voice recognition on a voice part that has already been input in the voice and sets the voice recognition result as a provisional voice recognition result;
When the provisional speech recognition result is an exclusive text array having an exclusive section that is unique among the plurality of text arrays ahead, the confirmation processing unit that uses the exclusive text array as a confirmed speech recognition result for the speech And having
The voice recognition processing unit repeatedly performs the voice recognition at a predetermined cycle,
The confirmation processing unit confirms that the provisional speech recognition result is the exclusive text array and is forward-matched with all of the predetermined number of other provisional speech recognition results obtained consecutively most recently. As a condition, the exclusive text array is the final speech recognition result,
The exclusive text array is a syllable text array in which a marker indicating the end position of the exclusive section is inserted,
Of the plurality of text arrays, the text array other than the exclusive text array is a syllable text array in which a marker indicating the end position of the text array is inserted,
When the provisional speech recognition result is one in which the marker is not inserted, the confirmation processing unit excludes the provisional speech recognition result from the determination of the condition.
Voice recognition device.
音声を入力する音声入力部と、
前記音声のうち既に入力されている音声部分に対して音声認識を行って、該音声認識の結果を暫定の音声認識結果とする音声認識処理部と、
前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とする確定処理部と、を有する音声認識装置であって、
前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、
前記確定処理部は、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、
前記音声認識装置は、前記辞書に記述される複数のテキスト配列を、前方一致の順序でソートし、隣接する前記テキスト配列のペアのそれぞれに対して前方一致の範囲を判定する処理を行うことにより、前記排他テキスト配列にマーカを挿入するマーカ挿入部、を更に有する、
音声認識装置。 A speech recognition database that stores a dictionary describing multiple text arrays;
A voice input unit for inputting voice;
A voice recognition processing unit that performs voice recognition on a voice part that has already been input in the voice and sets the voice recognition result as a provisional voice recognition result;
When the provisional speech recognition result is an exclusive text array having an exclusive section that is unique among the plurality of text arrays ahead, the confirmation processing unit that uses the exclusive text array as a confirmed speech recognition result for the speech A speech recognition device having:
The voice recognition processing unit repeatedly performs the voice recognition at a predetermined cycle,
The confirmation processing unit confirms that the provisional speech recognition result is the exclusive text array and is forward-matched with all of the predetermined number of other provisional speech recognition results obtained consecutively most recently. As a condition, the exclusive text array is the final speech recognition result,
The speech recognition apparatus sorts a plurality of text arrays described in the dictionary in the order of front matching, and performs a process of determining a front matching range for each of the adjacent text array pairs. A marker insertion unit for inserting a marker into the exclusive text array.
Voice recognition device.
前記表示部に表示されている前記暫定の音声認識結果に対する決定操作を受け付ける操作入力部と、を更に有し、
前記確定処理部は、
前記決定操作が行われたとき、当該決定操作が行われた前記暫定の音声認識結果を前記確定の音声認識結果とし、前記暫定の音声認識結果が前記排他テキスト配列であるとき、前記決定操作が行われていなくても、当該排他テキスト配列を前記確定の音声認識結果とする、
請求項1〜4のいずれかに記載の音声認識装置。 A display unit for displaying the provisional voice recognition result;
An operation input unit that receives a determination operation on the provisional voice recognition result displayed on the display unit;
The confirmation processing unit
When the determination operation is performed, the provisional speech recognition result on which the determination operation is performed is the final speech recognition result, and when the provisional speech recognition result is the exclusive text array, the determination operation is Even if it is not performed, the exclusive text array is set as the confirmed speech recognition result.
Speech recognition apparatus according to claim 1.
前記暫定の音声認識結果毎に、当該暫定の音声認識結果の確からしさを示す確信度を算出し、
前記確定処理部は、
前記確信度が所定値未満の前記暫定の音声認識結果については、前記条件の判断の対象外とする、
請求項1〜4のいずれかに記載の音声認識装置。 The voice recognition processing unit
For each provisional speech recognition result, calculate a certainty factor indicating the certainty of the provisional speech recognition result,
The confirmation processing unit
The provisional speech recognition result with the certainty factor less than a predetermined value is excluded from the determination of the condition.
Speech recognition apparatus according to claim 1.
前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるか否かを判断するステップと、
前記暫定の音声認識結果が前記排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とするステップと、を有し、
前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、
前記確定の音声認識結果とするステップは、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、
前記所定数は、2である、
音声認識結果確定方法。 A speech recognition database storing a dictionary describing a plurality of text arrays; a speech input unit for inputting speech; and speech recognition for speech portions already input in the speech, and results of speech recognition A speech recognition result determination method in a speech recognition device having a provisional speech recognition result,
Determining whether the provisional speech recognition result is an exclusive text array having an exclusive section that is unique among the plurality of text arrays ahead;
When the provisional speech recognition result is the exclusive text array, the exclusive text array is set as a confirmed speech recognition result for the speech, and
The voice recognition processing unit repeatedly performs the voice recognition at a predetermined cycle,
The step of setting the final speech recognition result includes the provisional speech recognition result being the exclusive text array, and a predetermined number of the other provisional speech recognition results obtained in succession and the front. On the condition that they match, the exclusive text array is set as the confirmed speech recognition result,
The predetermined number is two;
Voice recognition result confirmation method .
前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるか否かを判断するステップと、Determining whether the provisional speech recognition result is an exclusive text array having an exclusive section that is unique among the plurality of text arrays ahead;
前記暫定の音声認識結果が前記排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とするステップと、を有し、When the provisional speech recognition result is the exclusive text array, the exclusive text array is set as a confirmed speech recognition result for the speech, and
前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、The voice recognition processing unit repeatedly performs the voice recognition at a predetermined cycle,
前記確定の音声認識結果とするステップは、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、The step of setting the final speech recognition result includes the provisional speech recognition result being the exclusive text array, and a predetermined number of the other provisional speech recognition results obtained in succession and the front. On the condition that they match, the exclusive text array is set as the confirmed speech recognition result,
前記テキスト配列は、音節テキスト配列であり、The text array is a syllable text array;
前記確定の音声認識結果とするステップは、前記所定数以上の音節で前記排他テキスト配列と前方一致とならないテキスト配列は、前記条件の判断の対象外とする、In the step of determining the voice recognition result, the text array that does not coincide with the exclusive text array in the predetermined number or more of syllables is excluded from the determination of the condition.
音声認識結果確定方法。Voice recognition result confirmation method.
前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるか否かを判断するステップと、Determining whether the provisional speech recognition result is an exclusive text array having an exclusive section that is unique among the plurality of text arrays ahead;
前記暫定の音声認識結果が前記排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とするステップと、を有し、When the provisional speech recognition result is the exclusive text array, the exclusive text array is set as a confirmed speech recognition result for the speech, and
前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、The voice recognition processing unit repeatedly performs the voice recognition at a predetermined cycle,
前記確定の音声認識結果とするステップは、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、The step of setting the final speech recognition result includes the provisional speech recognition result being the exclusive text array, and a predetermined number of the other provisional speech recognition results obtained in succession and the front. On the condition that they match, the exclusive text array is set as the confirmed speech recognition result,
前記排他テキスト配列は、前記排他区間の末尾位置を示すマーカが挿入された音節テキスト配列であり、The exclusive text array is a syllable text array in which a marker indicating the end position of the exclusive section is inserted,
前記複数のテキスト配列のうち、前記排他テキスト配列以外のテキスト配列は、当該テキスト配列の末尾位置を示すマーカが挿入された音節テキスト配列であり、Of the plurality of text arrays, the text array other than the exclusive text array is a syllable text array in which a marker indicating the end position of the text array is inserted,
前記確定の音声認識結果とするステップは、前記暫定の音声認識結果が、前記マーカが挿入されていないものであるとき、当該暫定の音声認識結果については、前記条件の判断の対象外とする、The step of setting the final voice recognition result is such that when the provisional voice recognition result is one in which the marker is not inserted, the provisional voice recognition result is excluded from the determination of the condition.
音声認識結果確定方法。Voice recognition result confirmation method.
前記暫定の音声認識結果が、前方に前記複数のテキスト配列の間で一意となる排他区間を有する排他テキスト配列であるか否かを判断するステップと、Determining whether the provisional speech recognition result is an exclusive text array having an exclusive section that is unique among the plurality of text arrays ahead;
前記暫定の音声認識結果が前記排他テキスト配列であるとき、当該排他テキスト配列を前記音声に対する確定の音声認識結果とするステップと、を有し、When the provisional speech recognition result is the exclusive text array, the exclusive text array is set as a confirmed speech recognition result for the speech, and
前記音声認識処理部は、前記音声認識を所定の周期で繰り返し行い、The voice recognition processing unit repeatedly performs the voice recognition at a predetermined cycle,
前記確定の音声認識結果とするステップは、前記暫定の音声認識結果が前記排他テキスト配列であり、かつ、直近に連続して得られた所定数の他の前記暫定の音声認識結果の全てと前方一致となることを条件として、当該排他テキスト配列を前記確定の音声認識結果とし、The step of setting the final speech recognition result includes the provisional speech recognition result being the exclusive text array, and a predetermined number of the other provisional speech recognition results obtained in succession and the front. On the condition that they match, the exclusive text array is set as the confirmed speech recognition result,
前記音声認識結果確定方法は、前記辞書に記述される複数のテキスト配列を、前方一致の順序でソートし、隣接する前記テキスト配列のペアのそれぞれに対して前方一致の範囲を判定する処理を行うことにより、前記排他テキスト配列にマーカを挿入するステップ、を更に有する、The speech recognition result determination method performs a process of sorting a plurality of text arrays described in the dictionary in a front matching order and determining a front matching range for each of the adjacent text array pairs. Further comprising inserting a marker into the exclusive text array.
音声認識結果確定方法。Voice recognition result confirmation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013084738A JP6222970B2 (en) | 2013-04-15 | 2013-04-15 | Speech recognition apparatus and speech recognition result determination method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013084738A JP6222970B2 (en) | 2013-04-15 | 2013-04-15 | Speech recognition apparatus and speech recognition result determination method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014206677A JP2014206677A (en) | 2014-10-30 |
JP6222970B2 true JP6222970B2 (en) | 2017-11-01 |
Family
ID=52120243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013084738A Active JP6222970B2 (en) | 2013-04-15 | 2013-04-15 | Speech recognition apparatus and speech recognition result determination method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6222970B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018072509A (en) * | 2016-10-27 | 2018-05-10 | トッパン・フォームズ株式会社 | Voice reading device, voice reading system, voice reading method and program |
US20200168221A1 (en) * | 2017-08-08 | 2020-05-28 | Mitsubishi Electric Corporation | Voice recognition apparatus and method of voice recognition |
JP7342419B2 (en) * | 2019-05-20 | 2023-09-12 | カシオ計算機株式会社 | Robot control device, robot, robot control method and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4289715B2 (en) * | 1999-04-02 | 2009-07-01 | キヤノン株式会社 | Speech recognition apparatus, speech recognition method, and tree structure dictionary creation method used in the method |
JP5277704B2 (en) * | 2008-04-24 | 2013-08-28 | トヨタ自動車株式会社 | Voice recognition apparatus and vehicle system using the same |
JP5309343B2 (en) * | 2011-08-01 | 2013-10-09 | Kddi株式会社 | Pattern recognition method and apparatus, pattern recognition program and recording medium therefor |
-
2013
- 2013-04-15 JP JP2013084738A patent/JP6222970B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014206677A (en) | 2014-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4769223B2 (en) | Text phonetic symbol conversion dictionary creation device, recognition vocabulary dictionary creation device, and speech recognition device | |
JP4709887B2 (en) | Speech recognition result correction apparatus, speech recognition result correction method, and speech recognition result correction system | |
JP5072415B2 (en) | Voice search device | |
JP4887264B2 (en) | Voice data retrieval system | |
JPS61177493A (en) | Voice recognition | |
CN109036471B (en) | Voice endpoint detection method and device | |
JPH0772839B2 (en) | Method and apparatus for grouping phoneme pronunciations into phonetic similarity-based context-dependent categories for automatic speech recognition | |
CN108074562B (en) | Speech recognition apparatus, speech recognition method, and storage medium | |
CN109979257B (en) | Method for performing accurate splitting operation correction based on English reading automatic scoring | |
JPH0314200B2 (en) | ||
CN102439660A (en) | Voice-tag method and apparatus based on confidence score | |
JP6222970B2 (en) | Speech recognition apparatus and speech recognition result determination method | |
JP4738847B2 (en) | Data retrieval apparatus and method | |
JP6941494B2 (en) | End-to-end Japanese speech recognition model learning device and program | |
JP6718787B2 (en) | Japanese speech recognition model learning device and program | |
KR101483947B1 (en) | Apparatus for discriminative training acoustic model considering error of phonemes in keyword and computer recordable medium storing the method thereof | |
JP4684583B2 (en) | Dialogue device | |
WO2012150658A1 (en) | Voice recognition device and voice recognition method | |
CN111429886B (en) | Voice recognition method and system | |
JP6849977B2 (en) | Synchronous information generator and method for text display and voice recognition device and method | |
JP6009396B2 (en) | Pronunciation providing method, apparatus and program thereof | |
JP5596869B2 (en) | Voice recognition device | |
JP5315976B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
JP5669707B2 (en) | Similar document search device | |
KR101777141B1 (en) | Apparatus and method for inputting chinese and foreign languages based on hun min jeong eum using korean input keyboard |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171003 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6222970 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |