JP7038919B2 - 多言語音声認識装置および多言語音声認識方法 - Google Patents
多言語音声認識装置および多言語音声認識方法 Download PDFInfo
- Publication number
- JP7038919B2 JP7038919B2 JP2021536583A JP2021536583A JP7038919B2 JP 7038919 B2 JP7038919 B2 JP 7038919B2 JP 2021536583 A JP2021536583 A JP 2021536583A JP 2021536583 A JP2021536583 A JP 2021536583A JP 7038919 B2 JP7038919 B2 JP 7038919B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- language
- dictionary
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
本発明の第2の態様に係る多言語音声認識装置は、ユーザーが発話した入力音声を記憶する入力音声記憶部と、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、音声認識の結果として音素文字列を出力する複数の音声認識部と、複数の音声認識部それぞれの音声認識の結果としての音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、を備え、再認識用辞書作成部は、Cross lingual mappingを用いて音声認識の結果としての音素文字列を再認識用言語に変換した音素文字列を、音声認識の結果としての音素文字列の読みとして再認識用音声認識辞書に登録する。
図1は、本発明の実施の形態1に係る多言語音声認識装置10の構成を示す図である。図1のように、多言語音声認識装置10は、入力音声記憶部1と、複数(N個)の音声認識部2(第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_N)と、複数の音響モデル3(第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_N)と、複数の音声認識辞書4(第1の音声認識辞書4_1、第2の音声認識辞書4_2、・・・、第Nの音声認識辞書4_N)と、再認識用辞書作成部5と、再認識用音声認識辞書6と、音声再認識部7と、再認識用音響モデル8とを備えている。
実施の形態2に係る多言語音声認識装置10の構成は、実施の形態1(図1)と同様である。実施の形態1では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが、入力音声の音声認識の結果として、入力音声の表記文字列を出力した。それに対し、実施の形態2では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nは、入力音声の音声認識の結果として、入力音声に対応する音素文字列を出力する。
図4は、実施の形態3に係る多言語音声認識装置10の構成を示す図である。図4の多言語音声認識装置10の構成は、図1の構成に対し、再認識用音響モデル8を再認識用言語選択部9に置き換えたものである。
実施の形態4に係る多言語音声認識装置10の構成は、実施の形態3(図4)と同様である。ただし、実施の形態4では、再認識用言語選択部9が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが入力音声の音声認識に用いた言語で、且つ、有効な音声認識結果が得られた言語のうちから、優先順位の最も高い言語を、再認識用言語として選択する。そして、再認識用言語選択部9は、第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nのうちから、選択した言語の音声モデルを、音声再認識部7に提供する。つまり、実施の形態4の多言語音声認識装置10は、再認識用言語選択部9が、有効な音声認識結果が得られなかった言語を、再認識用言語の選択対象から除外する点で、実施の形態3とは異なる。
図8および図9は、それぞれ多言語音声認識装置10のハードウェア構成の例を示す図である。図1または図4に示した多言語音声認識装置10の構成要素の各機能は、例えば図8に示す処理回路50により実現される。すなわち、多言語音声認識装置10は、ユーザーが発話した入力音声を記憶し、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、それぞれ異なる言語での音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う、ための処理回路50を備える。処理回路50は、専用のハードウェアであってもよいし、メモリに格納されたプログラムを実行するプロセッサ(中央処理装置(CPU:Central Processing Unit)、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)とも呼ばれる)を用いて構成されていてもよい。
Claims (7)
- ユーザーが発話した入力音声を記憶する入力音声記憶部と、
前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、前記音声認識の結果として表記文字列を出力する複数の音声認識部と、
複数の前記音声認識部それぞれの音声認識の結果としての前記表記文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、
前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、
を備え、
前記再認識用辞書作成部は、前記音声認識の結果としての前記表記文字列に対する前記再認識用言語のG2P(Grapheme to Phoneme)変換によって得られた音素文字列を、当該表記文字列の読みとして前記再認識用音声認識辞書に登録する、
多言語音声認識装置。 - ユーザーが発話した入力音声を記憶する入力音声記憶部と、
前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、前記音声認識の結果として音素文字列を出力する複数の音声認識部と、
複数の前記音声認識部それぞれの音声認識の結果としての前記音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、
前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、
を備え、
前記再認識用辞書作成部は、Cross lingual mappingを用いて前記音声認識の結果としての前記音素文字列を前記再認識用言語に変換した音素文字列を、前記音声認識の結果としての前記音素文字列の読みとして前記再認識用音声認識辞書に登録する、
多言語音声認識装置。 - 前記再認識用言語は、複数の前記音声認識部の認識対象である複数の言語のうちから前記ユーザーが選択した言語である
請求項1または請求項2に記載の多言語音声認識装置。 - 複数の前記音声認識部の認識対象である複数の言語のそれぞれには、優先順位が設定されており、
複数の前記音声認識部が前記入力音声の音声認識に用いた言語のうちから、前記優先順位の最も高い言語を、前記再認識用言語として選択する再認識用言語選択部をさらに備える、
請求項1または請求項2に記載の多言語音声認識装置。 - 前記再認識用言語選択部は、複数の前記音声認識部において有効な音声認識結果が得られなかった言語を、前記再認識用言語の選択対象から除外する、
請求項4に記載の多言語音声認識装置。 - 多言語音声認識装置の入力音声記憶部が、ユーザーが発話した入力音声を記憶し、
前記多言語音声認識装置の複数の音声認識部が、前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、前記音声認識の結果として表記文字列を出力し、
前記多言語音声認識装置の再認識用辞書作成部が、前記それぞれ異なる言語での音声認識の結果としての前記表記文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、
前記多言語音声認識装置の音声再認識部が、前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行い、
前記再認識用辞書作成部は、前記音声認識の結果としての前記表記文字列に対する前記再認識用言語のG2P(Grapheme to Phoneme)変換によって得られた音素文字列を、当該表記文字列の読みとして前記再認識用音声認識辞書に登録する、
多言語音声認識方法。 - 多言語音声認識装置の入力音声記憶部が、ユーザーが発話した入力音声を記憶し、
前記多言語音声認識装置の複数の音声認識部が、前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、前記音声認識の結果として音素文字列を出力し、
前記多言語音声認識装置の再認識用辞書作成部が、前記それぞれ異なる言語での音声認識の結果としての前記音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、
前記多言語音声認識装置の音声再認識部が、前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行い、
前記再認識用辞書作成部は、Cross lingual mappingを用いて前記音声認識の結果としての前記音素文字列を前記再認識用言語に変換した音素文字列を、前記音声認識の結果としての前記音素文字列の読みとして前記再認識用音声認識辞書に登録する、
多言語音声認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/030281 WO2021019775A1 (ja) | 2019-08-01 | 2019-08-01 | 多言語音声認識装置および多言語音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021019775A1 JPWO2021019775A1 (ja) | 2021-11-04 |
JP7038919B2 true JP7038919B2 (ja) | 2022-03-18 |
Family
ID=74230642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021536583A Active JP7038919B2 (ja) | 2019-08-01 | 2019-08-01 | 多言語音声認識装置および多言語音声認識方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7038919B2 (ja) |
WO (1) | WO2021019775A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001188556A (ja) | 1999-12-27 | 2001-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及び装置 |
JP2004101727A (ja) | 2002-09-06 | 2004-04-02 | Nippon Telegr & Teleph Corp <Ntt> | 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム |
JP2011154341A (ja) | 2009-12-28 | 2011-08-11 | Fujitsu Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
JP2012529080A (ja) | 2009-06-04 | 2012-11-15 | マイクロソフト コーポレーション | 再認識および統計的分類を使用する認識 |
WO2014136222A1 (ja) | 2013-03-06 | 2014-09-12 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2016103358A1 (ja) | 2014-12-24 | 2016-06-30 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
-
2019
- 2019-08-01 WO PCT/JP2019/030281 patent/WO2021019775A1/ja active Application Filing
- 2019-08-01 JP JP2021536583A patent/JP7038919B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001188556A (ja) | 1999-12-27 | 2001-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及び装置 |
JP2004101727A (ja) | 2002-09-06 | 2004-04-02 | Nippon Telegr & Teleph Corp <Ntt> | 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム |
JP2012529080A (ja) | 2009-06-04 | 2012-11-15 | マイクロソフト コーポレーション | 再認識および統計的分類を使用する認識 |
JP2011154341A (ja) | 2009-12-28 | 2011-08-11 | Fujitsu Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
WO2014136222A1 (ja) | 2013-03-06 | 2014-09-12 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2016103358A1 (ja) | 2014-12-24 | 2016-06-30 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021019775A1 (ja) | 2021-02-04 |
JPWO2021019775A1 (ja) | 2021-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5318230B2 (ja) | 認識辞書作成装置及び音声認識装置 | |
US9449599B2 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
US7957969B2 (en) | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciatons | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US9177545B2 (en) | Recognition dictionary creating device, voice recognition device, and voice synthesizer | |
US8532990B2 (en) | Speech recognition of a list entry | |
JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
KR20080018622A (ko) | 휴대용 단말기의 음성 인식 시스템 | |
WO2011121649A1 (ja) | 音声認識装置 | |
CN112331229A (zh) | 语音检测方法、装置、介质和计算设备 | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
US11295733B2 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
JP2013125144A (ja) | 音声認識装置およびそのプログラム | |
JP2010091675A (ja) | 音声認識装置 | |
Kayte et al. | Implementation of Marathi Language Speech Databases for Large Dictionary | |
US20150066472A1 (en) | Method and apparatus for generating multiple phoneme strings for foreign noun | |
JP2006012179A (ja) | 自然言語処理装置および自然言語処理方法 | |
JP7038919B2 (ja) | 多言語音声認識装置および多言語音声認識方法 | |
JP2004133003A (ja) | 音声認識辞書作成方法及びその装置と音声認識装置 | |
JP4478088B2 (ja) | 記号列変換方法、音声認識方法、記号列変換装置とプログラム、記録媒体 | |
US20140372118A1 (en) | Method and apparatus for exemplary chip architecture | |
JP5120749B2 (ja) | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム | |
JP6277659B2 (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210709 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7038919 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |