WO2011121649A1 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- WO2011121649A1 WO2011121649A1 PCT/JP2010/002323 JP2010002323W WO2011121649A1 WO 2011121649 A1 WO2011121649 A1 WO 2011121649A1 JP 2010002323 W JP2010002323 W JP 2010002323W WO 2011121649 A1 WO2011121649 A1 WO 2011121649A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- recognition
- dictionary
- vocabulary
- unit
- generation
- Prior art date
Links
- 230000003068 static effect Effects 0.000 claims description 130
- 238000000034 method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 230000006399 behavior Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Definitions
- Japanese Patent Application Laid-Open No. 2004-151867 discloses a speech that can dynamically change a vocabulary for speech recognition according to the progress of a dialog with a user and return to a previously used vocabulary according to a request from the user.
- An information retrieval apparatus is disclosed. In this apparatus, the number of words to be recognized can be efficiently searched by selecting the word to be recognized based on the history of the results of previous speech recognition and vocabulary search.
- Patent Document 1 since the vocabulary to be recognized is selected based on the history of the results of previous speech recognition and vocabulary search, the number of vocabulary to be recognized cannot be reduced depending on the content of the dialogue, and recognition during the dialogue There was a problem that the generation of the dictionary took a long time. Similarly, in Patent Document 2, depending on the contents of the user's action history, the number of words to be recognized cannot be narrowed down, and there is a possibility that the time required for generating a recognition dictionary will be prolonged.
- the recognition dictionary static generation determination unit 2 is a configuration unit that determines whether or not a static generation of a recognition dictionary using the vocabulary is necessary according to the number of vocabularies that can be a target of speech recognition.
- the recognition dictionary static generation unit (static generation unit) 3 statically generates a recognition dictionary using the vocabulary determined to require generation of the recognition dictionary by the recognition dictionary static generation determination unit 2 Part.
- the static generation dictionary is generated without affecting the dialog with the user, and can be used at any point in the dialog by generating a vocabulary to be recognized.
- the dialogue management unit 6 performs voice recognition in dialogue with the user in the voice recognition device 1, the voice recognition scene designated by the user, the dialogue history with the user, etc.
- the recognition target vocabulary is sequentially selected from the vocabulary stored in the recognition target vocabulary storage unit 4. For example, when recognizing an address by voice, the dialogue management unit 6 selects a prefecture name as a recognition target vocabulary from words stored in the recognition target vocabulary storage unit 4 at the start of recognition, and the user selects a prefecture name. After the input, the municipality name which is the vocabulary subordinate to the prefecture name is selected from the recognition target vocabulary storage unit 4 as the recognition target vocabulary. In this way, the dialogue management unit 6 obtains the recognition target vocabulary and the number of vocabularies by dialogue with the user.
- the dynamic generation dictionary management unit 11 is a configuration unit that manages storage processing of the dynamic generation dictionary generated by the recognition dictionary dynamic generation unit 8 in the dynamic generation dictionary temporary storage unit 12.
- the dynamic generation dictionary temporary storage unit 12 is a storage unit that temporarily stores a dynamic generation dictionary that is determined as a storage target by the dynamic generation dictionary management unit 11.
- the dynamic generation dictionary temporarily stored in the dynamic generation dictionary temporary storage unit 12 can be used as the recognition dictionary of the recognition target vocabulary. Thereby, it is not necessary to newly generate a dynamic generation dictionary each time the dialogue with the user progresses, and the processing load required for generating the dynamic generation dictionary can be reduced.
- the recognition target vocabulary update unit 13 is a component that updates the recognition target vocabulary stored in the recognition target vocabulary storage unit 4a. For example, in the music search system described above, when a portable music player is connected, the recognition target vocabulary update unit 13 reads all song name dictionaries, all artist name dictionaries, all album name dictionaries from the memory of the portable music player. And the like, and the vocabulary stored in the recognition target vocabulary storage unit 4a is updated.
- the speech recognition result selection unit 14 selects only the recognition result candidates corresponding to the recognition target vocabulary selected by the dialogue management unit 6a from the recognition result candidates of the speech recognition unit 10, and outputs the result as speech recognition results. Part.
- the speech recognition apparatus 1B according to Embodiment 3 is a music search (in all devices) among systems that perform speech recognition while switching the recognition target vocabulary according to the progress of the dialogue with the user. This is suitable for a system in which the vocabulary to be recognized is narrowed down for each dialogue scene by tracing the hierarchical structure of the vocabulary, such as a song after selecting an artist, a song after selecting an album, and the like.
- the recognition target vocabulary update unit 13 updates the vocabulary stored in the recognition target vocabulary storage unit 4a when the recognition target vocabulary changes.
- the timing at which the recognition target vocabulary changes includes, for example, the timing when an external portable music player is connected to or disconnected from the voice recognition device 1B, and the timing when the CD is inserted or ejected.
- the dialogue management unit 6a obtains a recognition target vocabulary and its vocabulary number Nn through dialogue with the user. These pieces of information (recognition target vocabulary and the number of vocabulary Nn) are output from the dialogue management unit 6a to the recognition dictionary dynamic generation determination unit 7.
- the recognition dictionary dynamic generation determination unit 7 uses a recognition target vocabulary inclusion relationship and a recognition target vocabulary ratio of the static generation dictionary stored in the static generation dictionary storage unit 5a to recognize a recognition dictionary dynamic generation unit. 8 determines whether to newly generate a recognition dictionary or to use a static generation dictionary stored in the static generation dictionary storage unit 5a as a recognition dictionary. This determination is performed as follows, for example.
- the recognition dictionary dynamic generation determination unit 7 uses the recognition dictionary dynamic generation unit 8 to perform a dialog management unit. It is determined that it is necessary to newly generate a dynamic generation dictionary including the recognition target vocabulary selected in 6a (step ST8; Case 3). Thereafter, the recognition dictionary dynamic generation determination unit 7 instructs the recognition dictionary dynamic generation unit 8 to generate a dynamic generation dictionary for the recognition target vocabulary. In accordance with this instruction, the recognition dictionary dynamic generation unit 8 generates a dynamic generation dictionary for the recognition target vocabulary and stores it in the recognition dictionary storage unit 9 as a recognition dictionary used in the speech recognition processing by the speech recognition unit 10. .
- the recognition dictionary dynamic generation determination unit 7 stores the dialogue stored in the static generation dictionary storage unit 5a.
- the dictionary Ds having the smallest number of vocabularies is selected from the static generation dictionaries including all the recognition target words newly selected by the management unit 6a (step ST2).
- the recognition dictionary dynamic generation determination unit 7 acquires the vocabulary number Ns included in the dictionary Ds (step ST3).
- recognition dictionary that includes the recognition target vocabulary and the ratio of the number of recognition target vocabularies exceeds a certain percentage
- speech recognition is performed using the dictionary, and the recognition result candidates are included in the recognition target vocabulary. Only those that are to be selected are output as recognition results. By doing so, it is possible to reduce the chance of generating a dictionary during the conversation while minimizing the influence on the recognition rate.
- step ST5a When the value obtained by dividing the vocabulary number of the recognition target vocabulary in the recognition scene selected in step ST1a by the vocabulary number in the recognition dictionary selected in step ST4a is equal to or less than the above threshold (step ST5a; NO), the recognition dictionary static generation determination The unit 2a proceeds to the process of step ST6a. If the threshold value is exceeded (step ST5a; YES), the process proceeds to step ST7a.
- step ST6a the recognition dictionary static generation determination unit 2a registers a recognition dictionary including all recognition target words of the recognition scene selected in step ST1a as a target to be generated in advance. Further, when the ratio between the number of vocabulary of the recognition target vocabulary selected in step ST1a and the number of vocabulary in the recognition dictionary selected in step ST4a exceeds the above threshold value, that is, a static generation dictionary is generated in advance. If the number of vocabularies is small, the recognition dictionary is excluded from the targets to be generated in advance (step ST7a).
- the intermediate result is obtained by specifying the language of the recognition target vocabulary obtained by generating the static generation dictionary and performing the conversion process from notation to reading. Since the intermediate result storage unit 15 for storing is provided, the generation time of the dynamic generation dictionary can be reduced, and the waiting time of the user due to dictionary generation during the conversation can be reduced.
- the recognition dictionary dynamic generation determination unit 7b When the recognition dictionary dynamic generation determination unit 7b does not store the recognition dictionary of the recognition target vocabulary in both the static generation dictionary storage unit 5a and the dynamic generation dictionary temporary storage unit 17, the recognition dictionary dynamic generation unit 8b. On the other hand, it is determined that it is necessary to newly generate a dynamic generation dictionary of the recognition target vocabulary. If the recognition dictionary of the recognition target vocabulary is stored in either the static generation dictionary storage unit 5a or the dynamic generation dictionary temporary storage unit 17, the recognition dictionary dynamic generation determination unit 7b stores the recognition dictionary. Read out and store in the recognition dictionary storage unit 9. The speech recognition unit 10 performs speech recognition on the input speech using the recognition dictionary stored in the recognition dictionary storage unit 9.
- the dynamic generation dictionary temporary storage unit 17 that temporarily stores the dynamic generation dictionary is provided.
- the effect similar to that of the fourth embodiment can be obtained, and the calculation amount for generating the dictionary can be reduced while minimizing the storage usage.
- the voice recognition device can reduce the time required to generate a recognition dictionary during a conversation with a user and reduce the use capacity of a storage area necessary for storing a previously generated recognition dictionary. It is suitable for voice recognition devices such as portable music players, mobile phones, and in-vehicle navigation systems.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
Abstract
Description
同様に、特許文献2においても、使用者の行動履歴の内容によっては認識対象の語彙数を絞り込めず、認識辞書の生成に要する時間が長時間化する可能性がある。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の構成を示すブロック図である。実施の形態1における音声認識装置1は、使用者との対話による音声認識を行う前に予め生成しておく認識辞書と、使用者との対話途中に生成する認識辞書とを、音声認識に使用する。本発明では、使用者との対話による音声認識を行う前に、いわゆる静的に生成した認識辞書を“静的生成辞書”と呼び、また、使用者との対話途中で、いわゆる動的に生成した認識辞書を“動的生成辞書”と呼ぶこととする。
認識辞書動的生成部(動的生成部)8は、認識辞書動的生成判定部7によって認識辞書の生成が必要であると判定された語彙を用いて認識辞書を動的に生成する構成部である。
例えば、認識辞書動的生成部8は、対話管理部6によって選択された認識対象語彙又は不図示の通信手段を介して外部からオンラインで取得した認識対象語彙を用いて動的生成辞書を生成する。なお、動的生成辞書は、使用者との対話の進行に応じて変更される認識対象語彙を用いて動的に生成するので、静的生成辞書よりも辞書生成に使用する認識対象語彙の数を少なくして辞書生成に要する時間を短縮している。
さらに、認識対象語彙記憶部4、静的生成辞書記憶部5及び認識辞書記憶部9は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築することができる。
(1)静的生成辞書の生成
先ず、認識辞書静的生成判定部2は、認識対象語彙記憶部4に記憶されている各語彙について、静的生成辞書の生成が必要であるか否かを判定する。
ここでは、例えば、認識辞書を動的に生成した場合にかかる時間が、所定の時間以内に収まる語彙数であれば、静的生成辞書を生成不要と判定し、上記所定の時間を超える語彙数である場合には、静的生成辞書の生成が必要であると判定する。
また、音声認識装置1において、音声認識を行う各場面での認識対象語彙を用いた辞書生成時間(動的生成辞書の生成時間)を計測して記憶しておき、認識辞書静的生成判定部2が、音声認識装置1側に記憶された上記計測値が所定の時間を超える語彙については、静的生成辞書の生成が必要であると判定してもよい。
また、音声認識装置1の起動時や、認識対象となり得る語彙のデータベースである認識対象語彙記憶部4の記憶内容を更新したタイミングで静的生成辞書を生成するようにしてもよい。
対話管理部6は、音声認識装置1において使用者との対話で音声認識を行うにあたり、使用者から指定された音声認識の場面及び当該使用者との対話履歴などに基づいて、認識対象語彙記憶部4に記憶されている語彙のうちから認識対象語彙を順次選択する。
例えば、住所を音声認識する場合、対話管理部6は、認識開始時には、認識対象語彙記憶部4に記憶されている語彙のうち、県名を認識対象語彙として選択し、使用者が県名を入力した後は、この県名に従属する語彙である市区町村名を認識対象語彙として認識対象語彙記憶部4から選択する。このようにして、対話管理部6は、使用者との対話によって認識対象語彙及びその語彙数を求める。
つまり、使用者との対話の進行に応じて、県名、各県に含まれる市町村名、各市町村に含まれる区や字などの語彙の階層構造における各階層の語彙が、動的生成辞書の認識対象語彙として選択される。
なお、尤度が最も高い語彙ではなく、認識対象語彙のうち、尤度が高いものから上位N個を音声認識結果としても構わない。
図2は、この発明の実施の形態2による音声認識装置の構成を示すブロック図である。図2に示すように、実施の形態2における音声認識装置1Aは、上記実施の形態1で示した音声認識装置1の構成に加え、動的生成辞書管理部(記憶管理部)11及び動的生成辞書一時記憶部(一時記憶部)12を備える。なお、図2において、図1と同一若しくはこれに相当する構成には同一符号を付して説明を省略する。
さらに、認識対象語彙記憶部4、静的生成辞書記憶部5、認識辞書記憶部9及び動的生成辞書一時記憶部12は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築することができる。
動的生成辞書管理部11は、認識辞書動的生成部8によって動的生成辞書が新たに生成されると、動的生成辞書一時記憶部12の記憶容量が所定の容量を超えているか否かを判定する。ここで、動的生成辞書一時記憶部12の記憶容量が所定の容量未満であれば、動的生成辞書管理部11は、新たに生成された動的生成辞書を動的生成辞書一時記憶部12に記憶する。
例えば、最終の使用日時が最も古い動的生成辞書を削除対象とする。
また、音声認識装置1Aの稼働中に使用された動的生成辞書の平均使用間隔が最も長いものを削除対象としてもよい。
動的生成辞書一時記憶部12に記憶されていた動的生成辞書を削除すると、動的生成辞書管理部11は、新たに生成された動的生成辞書を動的生成辞書一時記憶部12に記憶する。
また、認識辞書動的生成判定部7は、認識対象語彙の認識辞書が、静的生成辞書記憶部5及び動的生成辞書一時記憶部12のいずれかに記憶されていれば、当該認識辞書を読み出して認識辞書記憶部9へ記憶する。音声認識部10は、認識辞書記憶部9に記憶された認識辞書を用いて、入力音声に対する音声認識を行う。
図3は、この発明の実施の形態3による音声認識装置の構成を示すブロック図である。実施の形態3における音声認識装置1Bは、使用者との対話により認識対象語彙を切り替えながら音声認識を行う装置であり、音楽検索(例えば、全デバイス中の曲、アーティスト選択後の曲、アルバム選択後の曲など)のように、語彙の階層構造を辿って対話場面(音声認識を行う場面)ごとに認識対象語彙が変化する音声認識装置を想定している。
図3に示すように、音声認識装置1Bは、認識辞書静的生成判定部2a、認識辞書静的生成部3a、認識対象語彙記憶部4a、静的生成辞書記憶部5a、対話管理部6a、認識辞書動的生成判定部7、認識辞書動的生成部8、認識辞書記憶部9、音声認識部10、認識対象語彙更新部13及び音声認識結果選択部14を備える。
音声認識結果選択部14は、音声認識部10の認識結果候補のうち、対話管理部6aで選択された認識対象語彙に対応する認識結果候補のみを選択して、音声認識の結果として出力する構成部である。
さらに、認識対象語彙記憶部4a、静的生成辞書記憶部5a及び認識辞書記憶部9は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築することができる。
(1a)静的生成辞書の生成
実施の形態3による音声認識装置1Bは、使用者との対話の進行に応じて認識対象語彙を切り替えながら音声認識を行うシステムのうち、音楽検索(全デバイス中の曲、アーティスト選択後の曲、アルバム選択後の曲など)のように、語彙の階層構造を辿って、対話場面ごとに認識対象語彙が絞り込まれるシステムに好適である。
このシステムにおいて、認識対象語彙更新部13は、認識対象語彙が変化した場合に、認識対象語彙記憶部4aに記憶される語彙を更新する。
ここで、認識対象語彙が変化するタイミングとは、例えば、音声認識装置1Bに対して外部の携帯音楽プレーヤーが接続又は切断されたときや、CDの挿入又は排出が行なわれたタイミングが挙げられる。
認識辞書静的生成部3aは、上記実施の形態1と同様に、認識辞書静的生成判定部2aによって選択された静的生成辞書を生成して静的生成辞書記憶部5aに記憶する。
音声認識時において、対話管理部6aは、使用者との対話により認識対象語彙及びその語彙数Nnを求める。これらの情報(認識対象語彙及びその語彙数Nn)は、対話管理部6aから認識辞書動的生成判定部7へ出力される。
認識辞書動的生成判定部7は、静的生成辞書記憶部5aに記憶されている静的生成辞書の認識対象語彙の包含関係及び認識対象語彙数の比率を用いて、認識辞書動的生成部8に対して新規に認識辞書を生成させるか、静的生成辞書記憶部5aに記憶される静的生成辞書を認識辞書として使用させるかを判定する。この判定は、例えば、以下のように行う。
先ず、認識辞書動的生成判定部7は、使用者との対話によって対話管理部6aが新規に選択した認識対象語彙を全て含む静的生成辞書が、静的生成辞書記憶部5aに存在するか否かを判定する(ステップST1)。例えば、対話において、ジャンルを選択し、選択されたジャンルに含まれるアーティスト名が、現在の認識場面の語彙として設定された際には、全アーティスト名辞書には現在の選択されているアーティスト名辞書が含まれているため、静的辞書が存在すると判断される。
ここで、静的生成辞書記憶部5aに上記静的生成辞書が存在しなければ(ステップST1;NO)、認識辞書動的生成判定部7は、認識辞書動的生成部8によって、対話管理部6aに選択された認識対象語彙を含む動的生成辞書を新規に生成する必要があると判定する(ステップST8;Case3)。この後、認識辞書動的生成判定部7は、認識辞書動的生成部8に対し、当該認識対象語彙についての動的生成辞書を生成するよう指示する。この指示に従い、認識辞書動的生成部8は、当該認識対象語彙についての動的生成辞書を生成して、音声認識部10による音声認識処理で使用する認識辞書として認識辞書記憶部9へ記憶する。
続いて、認識辞書動的生成判定部7は、辞書Dsに含まれる語彙数Nsを取得する(ステップST3)。
(Ns×ThR)の値が語彙数Nn未満である場合(ステップST5;YES)には、認識辞書動的生成判定部7は、ステップST7の処理(Case2)へ移行する。
ステップST7において、認識辞書動的生成判定部7は、辞書Dsを、認識辞書として認識辞書記憶部9へ記憶する。音声認識部10は、この辞書Dsを用いて、使用者の発話(入力音声)の音声認識を行い、認識結果の確からしい上位N個(尤度の上位N個)の認識結果候補を音声認識結果選択部14へ出力する。
音声認識結果選択部14では、音声認識部10によって得られた認識結果候補のうち、対話管理部6aが新規に選択した認識対象語彙に含まれる認識結果候補のみを選択(フィルタリング)し、音声認識の結果として出力する。
このように、語彙全体の辞書を予め生成してストレージに記憶しておくことで、認識辞書の更新時における認識辞書作成時間を低減することができる。
図5は、実施の形態3の認識辞書静的生成判定部2aによる判定処理の流れを示すフローチャートである。
先ず、認識辞書静的生成判定部2aは、音声認識を行う各対話場面(以下、認識場面と呼ぶ)で、認識対象語彙記憶部4aの記憶内容を参照し、各認識場面の認識対象語彙及びその語彙数をそれぞれ求める。ここで、認識辞書静的生成判定部2aは、認識対象語彙の認識辞書(静的生成辞書)を生成するか否かを判定していない認識場面のうち、認識対象語彙の語彙数が最も多い認識場面を選択する(ステップST1a)。
次に、認識辞書静的生成判定部2aは、ステップST1aで選択した認識場面の認識対象語彙の語彙数が一定数以下であるか否かを判定する(ステップST2a)。ここで、認識対象語彙数が一定数を超えていれば(ステップST2a;NO)、ステップST3aの処理へ移行する。また、一定数以下であれば(ステップST2a;YES)、ステップST7aの処理へ移行する。
続いて、認識辞書静的生成判定部2aは、ステップST1aで選択した認識場面の認識対象語彙の語彙数を、ステップST4aで選択した認識辞書の語彙数で除した値が、所定の閾値を超えるか否か(一定の割合であるか否か)を判定する(ステップST5a)。
ステップST1aで選択した認識場面の認識対象語彙の語彙数を、ステップST4aで選択した認識辞書の語彙数で除した値が上記閾値以下であると(ステップST5a;NO)、認識辞書静的生成判定部2aは、ステップST6aの処理に移行する。また、上記閾値を超える場合(ステップST5a;YES)は、ステップST7aの処理に移行する。
また、ステップST1aで選択した認識場面の認識対象語彙の語彙数と、ステップST4aで選択した認識辞書の語彙数との割合が上記閾値を超えている場合、すなわち静的生成辞書として予め生成するには語彙数が少ない場合には、当該認識辞書を予め生成する対象外とする(ステップST7a)。
このようにすることで、音声認識の認識率への影響を最小限に抑えつつ、対話途中に辞書を生成する機会を削減することができる。
図6は、この発明の実施の形態4による音声認識装置の構成を示すブロック図である。図6に示すように、実施の形態4における音声認識装置1Cは、上記実施の形態3で示した音声認識装置1Bの構成に加えて中間結果記憶部15を設けており、また認識辞書動的生成判定部7aの動作が上記実施の形態3と異なる。なお、図6において、図3と同一若しくはこれに相当する構成には同一符号を付して説明を省略する。
認識辞書動的生成判定部7aは、認識辞書動的生成部8に対して、静的生成辞書記憶部5aに記憶されている静的生成辞書と共通する認識対象語彙から動的生成辞書を生成するよう指示するにあたり、当該語彙に関して中間結果記憶部15に記憶されている中間結果を読み出して認識辞書動的生成部8に出力する。これにより、認識辞書動的生成部8は、当該中間結果を利用して動的生成辞書を生成する。
図7は、この発明の実施の形態5による音声認識装置の構成を示すブロック図である。図7に示すように、実施の形態5における音声認識装置1Dは、上記実施の形態4で示した音声認識装置1Cの構成に動的生成辞書管理部(記憶管理部)16及び動的生成辞書一時記憶部(一時記憶部)17を追加しており、また認識辞書動的生成判定部7bの動作が上記実施の形態4と異なる。
なお、図7において、図6と同一若しくはこれに相当する構成には同一符号を付して説明を省略する。
動的生成辞書一時記憶部17は、動的生成辞書管理部16により記憶対象と判定された動的生成辞書を一時的に記憶する記憶部である。
動的生成辞書管理部16は、認識辞書動的生成部8によって動的生成辞書が新たに生成されると、動的生成辞書一時記憶部17の記憶容量が所定の容量を超えているか否かを判定する。ここで、動的生成辞書一時記憶部17の記憶容量が所定の容量未満であれば、動的生成辞書管理部16は、新たに生成された動的生成辞書を動的生成辞書一時記憶部17に記憶する。
また、認識対象語彙の認識辞書が、静的生成辞書記憶部5a又は動的生成辞書一時記憶部17のいずれかに記憶されていれば、認識辞書動的生成判定部7bは、当該認識辞書を読み出して認識辞書記憶部9へ記憶する。音声認識部10は、認識辞書記憶部9に記憶された認識辞書を用いて、入力音声に対する音声認識を行う。
Claims (6)
- 対話により認識対象の語彙を切り替えながら音声認識を行う音声認識装置において、
認識対象となる語彙数が閾値以上である語彙に対して認識辞書を予め生成する静的生成部と、
認識対象の語彙数が前記閾値未満である語彙に対して対話の場面で認識辞書を生成する動的生成部と、
前記静的生成部又は前記動的生成部により生成された認識辞書を参照して、入力音声を音声認識する音声認識部とを備えたことを特徴とする音声認識装置。 - 前記静的生成部は、認識対象となる全ての語彙に対する認識辞書を予め生成し、
前記動的生成部は、対話の場面で認識対象として選択された語彙に対する認識辞書を生成することを特徴とする請求項1記載の音声認識装置。 - 前記動的生成部は、対話の場面で認識対象として選択された語彙を包含し、認識対象の語彙数の比率が所定の割合以上で含む認識辞書を前記静的生成部が生成していれば、前記対話の場面で当該語彙に対する認識辞書の生成を行わず、
前記音声認識部は、前記静的生成部によって生成された当該認識辞書を参照して、入力音声を音声認識し、認識の尤度が上位の複数の認識結果候補のうち、今回の認識対象の語彙に含まれる認識結果候補を、認識結果として出力することを特徴とする請求項1記載の音声認識装置。 - 前記静的生成部は、対話の場面で認識対象となる語彙数が所定数を超えており、当該対話の場面における前記認識対象の語彙数が認識辞書の語彙数の所定の割合以下となるように当該認識対象の語彙に対する認識辞書を予め生成することを特徴とする請求項3記載の音声認識装置。
- 前記静的生成部による認識辞書の生成の途中結果を記憶する中間結果記憶部を備え、
前記動的生成部は、前記静的生成部により生成された認識辞書と共通する語彙に対して認識辞書を生成するにあたり、前記中間結果記憶部から読み出した前記途中結果を用いて認識辞書を生成することを特徴とする請求項1記載の音声認識装置。 - 前記動的生成部により生成された認識辞書を一時的に記憶する一時記憶部と、
前記認識辞書の使用状況に応じて前記一時記憶部に当該認識辞書を記憶するか否かを管理する記憶管理部とを備えたことを特徴とする請求項1記載の音声認識装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/002323 WO2011121649A1 (ja) | 2010-03-30 | 2010-03-30 | 音声認識装置 |
US13/514,251 US20120239399A1 (en) | 2010-03-30 | 2010-03-30 | Voice recognition device |
DE112010005425T DE112010005425T5 (de) | 2010-03-30 | 2010-03-30 | Spracherkennungsvorrichtung |
JP2012507900A JP5274711B2 (ja) | 2010-03-30 | 2010-03-30 | 音声認識装置 |
CN201080064456.4A CN102770910B (zh) | 2010-03-30 | 2010-03-30 | 声音识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/002323 WO2011121649A1 (ja) | 2010-03-30 | 2010-03-30 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011121649A1 true WO2011121649A1 (ja) | 2011-10-06 |
Family
ID=44711447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2010/002323 WO2011121649A1 (ja) | 2010-03-30 | 2010-03-30 | 音声認識装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20120239399A1 (ja) |
JP (1) | JP5274711B2 (ja) |
CN (1) | CN102770910B (ja) |
DE (1) | DE112010005425T5 (ja) |
WO (1) | WO2011121649A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2875509A1 (en) * | 2012-07-20 | 2015-05-27 | Microsoft Corporation | Speech and gesture recognition enhancement |
CN106688036A (zh) * | 2014-09-16 | 2017-05-17 | 三菱电机株式会社 | 信息提供系统 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011096015A1 (ja) * | 2010-02-05 | 2011-08-11 | 三菱電機株式会社 | 認識辞書作成装置及び音声認識装置 |
JP5942559B2 (ja) * | 2012-04-16 | 2016-06-29 | 株式会社デンソー | 音声認識装置 |
KR102070564B1 (ko) * | 2013-08-09 | 2020-03-02 | 삼성전자주식회사 | 반도체 소자의 제조방법 |
KR101912177B1 (ko) * | 2013-11-15 | 2018-10-26 | 인텔 코포레이션 | 음성 인식 동적 사전을 유지하기 위한 시스템 및 방법 |
WO2015112149A1 (en) * | 2014-01-23 | 2015-07-30 | Nuance Communications, Inc. | Method and apparatus for exploiting language skill information in automatic speech recognition |
US9697194B2 (en) * | 2015-06-08 | 2017-07-04 | International Business Machines Corporation | Contextual auto-correct dictionary |
US11900817B2 (en) | 2020-01-27 | 2024-02-13 | Honeywell International Inc. | Aircraft speech recognition systems and methods |
EP3855428B1 (en) * | 2020-01-27 | 2023-09-06 | Honeywell International Inc. | Aircraft speech recognition systems and methods |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208389A (ja) * | 1993-01-13 | 1994-07-26 | Canon Inc | 情報処理方法及び装置 |
JPH06332493A (ja) * | 1993-05-19 | 1994-12-02 | Canon Inc | 音声対話型情報検索装置及び方法 |
JPH07219590A (ja) * | 1994-01-31 | 1995-08-18 | Canon Inc | 音声情報検索装置及び方法 |
WO2004044887A1 (ja) * | 2002-11-11 | 2004-05-27 | Matsushita Electric Industrial Co., Ltd. | 音声認識用辞書作成装置および音声認識装置 |
JP2007248886A (ja) * | 2006-03-16 | 2007-09-27 | Mitsubishi Electric Corp | 読み修正装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4581290B2 (ja) | 2001-05-16 | 2010-11-17 | パナソニック株式会社 | 音声認識装置および音声認識方法 |
JP2003295893A (ja) * | 2002-04-01 | 2003-10-15 | Omron Corp | 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2007033901A (ja) * | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
JP4767754B2 (ja) * | 2006-05-18 | 2011-09-07 | 富士通株式会社 | 音声認識装置および音声認識プログラム |
US20090204392A1 (en) * | 2006-07-13 | 2009-08-13 | Nec Corporation | Communication terminal having speech recognition function, update support device for speech recognition dictionary thereof, and update method |
JP2010072507A (ja) * | 2008-09-22 | 2010-04-02 | Toshiba Corp | 音声認識検索装置及び音声認識検索方法 |
US8200478B2 (en) * | 2009-01-30 | 2012-06-12 | Mitsubishi Electric Corporation | Voice recognition device which recognizes contents of speech |
-
2010
- 2010-03-30 CN CN201080064456.4A patent/CN102770910B/zh not_active Expired - Fee Related
- 2010-03-30 WO PCT/JP2010/002323 patent/WO2011121649A1/ja active Application Filing
- 2010-03-30 US US13/514,251 patent/US20120239399A1/en not_active Abandoned
- 2010-03-30 DE DE112010005425T patent/DE112010005425T5/de not_active Withdrawn
- 2010-03-30 JP JP2012507900A patent/JP5274711B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208389A (ja) * | 1993-01-13 | 1994-07-26 | Canon Inc | 情報処理方法及び装置 |
JPH06332493A (ja) * | 1993-05-19 | 1994-12-02 | Canon Inc | 音声対話型情報検索装置及び方法 |
JPH07219590A (ja) * | 1994-01-31 | 1995-08-18 | Canon Inc | 音声情報検索装置及び方法 |
WO2004044887A1 (ja) * | 2002-11-11 | 2004-05-27 | Matsushita Electric Industrial Co., Ltd. | 音声認識用辞書作成装置および音声認識装置 |
JP2007248886A (ja) * | 2006-03-16 | 2007-09-27 | Mitsubishi Electric Corp | 読み修正装置 |
Non-Patent Citations (1)
Title |
---|
JUN OGATA ET AL.: "Dai Goi Renzoku Onsei Ninshiki ni Okeru Saiyu Tango back-off Setsuzoku o Mochiita Koritsuteki na N-best Tansakuho", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J84-DII, no. 12, 1 December 2001 (2001-12-01), pages 2489 - 2500 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2875509A1 (en) * | 2012-07-20 | 2015-05-27 | Microsoft Corporation | Speech and gesture recognition enhancement |
CN106688036A (zh) * | 2014-09-16 | 2017-05-17 | 三菱电机株式会社 | 信息提供系统 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2011121649A1 (ja) | 2013-07-04 |
CN102770910B (zh) | 2015-10-21 |
DE112010005425T5 (de) | 2013-01-10 |
US20120239399A1 (en) | 2012-09-20 |
JP5274711B2 (ja) | 2013-08-28 |
CN102770910A (zh) | 2012-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5274711B2 (ja) | 音声認識装置 | |
US9805722B2 (en) | Interactive speech recognition system | |
US9905228B2 (en) | System and method of performing automatic speech recognition using local private data | |
EP2862164B1 (en) | Multiple pass automatic speech recognition | |
JP5334178B2 (ja) | 音声認識装置およびデータ更新方法 | |
US9640175B2 (en) | Pronunciation learning from user correction | |
JP4942860B2 (ja) | 認識辞書作成装置、音声認識装置及び音声合成装置 | |
JP5409931B2 (ja) | 音声認識装置及びナビゲーション装置 | |
US20100305947A1 (en) | Speech Recognition Method for Selecting a Combination of List Elements via a Speech Input | |
JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
US7742924B2 (en) | System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context | |
US8315869B2 (en) | Speech recognition apparatus, speech recognition method, and recording medium storing speech recognition program | |
KR20040102224A (ko) | 음성 인식 장치 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
CN112825249A (zh) | 语音处理方法和设备 | |
CN111462748A (zh) | 语音识别处理方法、装置、电子设备及存储介质 | |
US20140067400A1 (en) | Phonetic information generating device, vehicle-mounted information device, and database generation method | |
EP2507792B1 (en) | Vocabulary dictionary recompile for in-vehicle audio system | |
JP6114210B2 (ja) | 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム | |
JP6078435B2 (ja) | 記号列変換方法、音声認識方法、それらの装置及びプログラム | |
JP2009282835A (ja) | 音声検索装置及びその方法 | |
EP2058799B1 (en) | Method for preparing data for speech recognition and speech recognition system | |
JP2009020352A (ja) | 音声処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 201080064456.4 Country of ref document: CN |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10848832 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2012507900 Country of ref document: JP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13514251 Country of ref document: US |
|
WWE | Wipo information: entry into national phase |
Ref document number: 112010005425 Country of ref document: DE Ref document number: 1120100054258 Country of ref document: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 10848832 Country of ref document: EP Kind code of ref document: A1 |