JP5660441B2 - 音声認識装置、音声認識方法、及びプログラム - Google Patents
音声認識装置、音声認識方法、及びプログラム Download PDFInfo
- Publication number
- JP5660441B2 JP5660441B2 JP2010211791A JP2010211791A JP5660441B2 JP 5660441 B2 JP5660441 B2 JP 5660441B2 JP 2010211791 A JP2010211791 A JP 2010211791A JP 2010211791 A JP2010211791 A JP 2010211791A JP 5660441 B2 JP5660441 B2 JP 5660441B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- phoneme
- language model
- character string
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000006243 chemical reaction Methods 0.000 claims description 116
- 238000003860 storage Methods 0.000 claims description 96
- 238000000605 extraction Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 4
- 238000012360 testing method Methods 0.000 description 28
- 238000012545 processing Methods 0.000 description 25
- 230000005236 sound signal Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 22
- 230000008859 change Effects 0.000 description 21
- 238000002474 experimental method Methods 0.000 description 21
- 241000157282 Aesculus Species 0.000 description 16
- 230000015654 memory Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 206010012239 Delusion Diseases 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000013519 translation Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 239000004065 semiconductor Substances 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 230000037433 frameshift Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000218218 Ficus <angiosperm> Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 235000010181 horse chestnut Nutrition 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Description
なお、関連する技術として、流ちょうでない自由発話を修正する技術が開発されている(例えば、非特許文献1参照)。
このような構成により、より精度の高い変換を行うことができる。
このような構成により、取得部は、音素列言語モデル記憶部で記憶されている音素列言語モデルを用いて、特徴量に対応する音素列の並びを取得することができる。
このような構成により、文字列の言語モデルを用いて、音素列言語モデルを用いた確率の算出と同様のことを行うことができる。
このような構成により、例えば、自由発話の音声信号に対応した単語の並びを、音声認識結果として得ることができるようになる。
このような構成により、例えば、韓国語の音声信号に対応したEojeolの並びを、音声認識結果として得ることができるようになる。
このような構成により、例えば、韓国語の音声信号に対応したEumjeolの並びを、音声認識結果として得ることができるようになる。
このような構成により、音声信号から特徴量を抽出する処理を行うことになる。
本発明の実施の形態1による音声認識装置について、図面を参照しながら説明する。本実施の形態による音声認識装置は、処理の後段においてSMT(統計的機械翻訳)と同様の処理を行うことによって、発音の変化を有する音素の並びに対する音声認識を行うものである。
文献:A.Stolcke、「SRILM−an extensible language modeling toolkit」、In Proc.ICSLP.p.901−904、2002年
文献:F.Och,H.Ney、「A systematic comparison of various statistical alignment models」、Computational Linguistics 29 No.1,19−51、2003年
文献:A.Finch,E.Denoual,H.Okuma,M.Paul,H.Yamamoto,K.Yasuda,R.Zhang,E.Sumita、「The NICT/ATR speech translation system for IWSLT 2007」、In Proc.IWSLT.p.103−110、2007年
(1)の場合に、変換部19で行われる処理は、前述のように、SMTと類似の処理であり、ノイジーチャネルアプローチ(Noisy−Channel Approach)と呼ばれるものである。インプットの音素の並びpが与えられると、変換部19は、次の最大尤度方程式を解くことによって最も確率の高い文字列の並びwを算出する。
本実施の形態による音声認識装置1の英語の自由発話の実験例について説明する。この実験例では、取得部16は、従来の音声認識と同様の処理を行う。すなわち、辞書情報は、(A2)の場合であり、音素列言語モデルは、単語の言語モデルである。そして、取得部16は、受付部14が受け付けた音声信号に対応する単語の並びと、その単語の並びに応じた音素の並びとを取得する。なお、そのうち、音素の並びのみが後段の変換部19で用いられることは前述の通りである。
文献:D.B.Paul,J.Baker、「The design for the Wall Street journal−based CSR corpus」、In Proc.ICSLP、1992年
文献:S.Pallett,J.Fiscus,M.Fisher,J.Garofolo,B.Lund,M.Przybocki、「1993 benchmark tests for the ARPA spoken language program」、In Proc.Spoken Language Technology Workshop、1994年
文献:J.Godfrey,E.Holliman,J.McDaniel、「SWITCHBOARD:Telephone speech corpus for research and development」、In Proc.ICSLP、p.24−27、1996年
文献:S.Sakti,S.Markov,S.Nakamura、「Probabilistic pronunciation variation model based on Bayesian networks for conversational speech recognition」、In Second International Symposium on Universal Communication、2008年
文献:S.King,C.Bartels,J.Bilmers、「Small vocabulary tasks from Switchboard 1」、In Proc.EUROSPEECH、p.3385−3388、2005年
文献:T.Jitsuhiro,T.Matsui,S.Nakamura、「Automatic generation of non−uniform HMM topologies based on the MDL criterion」、IEICE Trans.Inf.Syst.E87−D No.8、2004年
文献:W.K.Lo,F.S.、「Generalized posterior probability for minimum error verication of recognized sentences」、In Proc.ICASSP、p.85−88、2005年
次に、本実施の形態による音声認識装置1の韓国語の実験例について説明する。韓国語では、EojeolやEumjeol、音素等の関係は、例えば、次のようになる。なお、Eojeol、Eumjeolは、ローマ字表記である。
Eojeol: /beob−hag/
Eumjeol: /beob/ /hag/
音素シラブル: /beo/ /pag/
音素: /b//eo/ /p//a//g/
文献:B.Kim,D.Choi,Y.Kim,K.Lee,Y.Lee、「Current states and future plans at SiTEC for speech corpora for common use」、Malsori,vol.46,p.175−186,2003年
Sent01は、音声学的にバランスのとれた文のコーパスである。すなわち、Sent01には、韓国語の音素がバランスよく含まれている。そのSent01は、韓国語の大規模コーパスから、頻度の高い形態素を含むように選択された約2万の文を含むものである。また、Sent01は、200のプロンプトセットに分けられている。また、Sent01は、200人(男性100人、女性100人)の話者のクリーン音声を防音室で録音したものである。なお、各話者は、約100文である1個のプロンプトセットの発話を行った。
本発明の実施の形態2による音声認識装置について、図面を参照しながら説明する。本実施の形態による音声認識装置は、文字列と音素の並びとのペアに関する言語モデルを用いて音声認識を行うものである。
なお、図14のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
文献:M.Bisani、H.Ney,「Joint−sequence models for grapheme−to−phoneme conversion」、Speech Communication,vol.50,p.434−451,2008年
文献:P.Mark,K.Johnson,E.Hume,S.Kiesling,W.Raymond、「The buckeye corpus of conversational speech: Labeling conventions and a test of transcriber reliability」、Speech Communication,vol.45,p.90−95,2005年
文献:R.Fasold,「The Sociolinguistics of Language」、Blackwell Publishers,Oxford,1990年
P(wahn+want|ay+I)
P(wahn+want|a+I)
P(tuh+to|wahn+want)
:
:
α:…P(wahn+want|ay+I)P(tuh+to|wahn+want)…
β:…P(wahn+want|a+I)P(tuh+to|wahn+want)…
:
:
11 音響モデル記憶部
12 辞書情報記憶部
13 音素列言語モデル記憶部
14 受付部
15 特徴量抽出部
16 取得部
17 変換モデル記憶部
18、21 文字列言語モデル記憶部
19 変換部
20 出力部
22 選択部
Claims (10)
- 音響モデルが記憶される音響モデル記憶部と、
1以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、
発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデルと前記辞書情報と前記辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、前記特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得部と、
音素の並びと、当該音素の並びに対応する文字列の並びと、当該音素の並び及び文字列の並びに関する確率とを対応付けて有する変換モデルが記憶される変換モデル記憶部と、
前記文字列に関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部と、
前記変換モデルと、前記文字列言語モデルとを用いて、前記取得部が取得した音素列の並びに対応する文字列の並びのうち、確率の高いものを選択することによって、前記音素列の並びを文字列の並びに統計的に変換する変換部と、
前記変換部による変換後の文字列の並びである音声認識結果を出力する出力部と、を備えた音声認識装置。 - 前記文字列言語モデルは、前記文字列及び当該文字列に対応した音素の並びのペアに関する言語モデルである、請求項1記載の音声認識装置。
- 前記音素列言語モデルが記憶される音素列言語モデル記憶部をさらに備えた、請求項1または請求項2記載の音声認識装置。
- 前記辞書情報は、音素列と、文字列とを対応付けて有する情報であり、
前記取得部は、前記音素列言語モデルを用いて算出する音素列の並びの確率として、前記辞書情報を用いて当該音素列の並びを変換した文字列の並びに対して前記文字列言語モデルを用いて算出する確率を用いる、請求項1記載の音声認識装置。 - 前記音素列は、単語に対応した音素列であり、
前記文字列は、単語である、請求項1から請求項4いずれか記載の音声認識装置。 - 前記音素列は、音素シラブルであり、
前記文字列は、フレーズである、請求項1から請求項3いずれか記載の音声認識装置。 - 前記音素列は、音素シラブルであり、
前記文字列は、一文字である、請求項1から請求項3いずれか記載の音声認識装置。 - 発話から生成された音声信号を受け付ける受付部と、
前記受付部が受け付けた音声信号から特徴量を抽出して前記取得部に渡す特徴量抽出部と、をさらに備えた、請求項1から請求項7いずれか記載の音声認識装置。 - 音響モデルが記憶される音響モデル記憶部と、1以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、取得部と、音素の並びと、当該音素の並びに対応する文字列の並びと、当該音素の並び及び文字列の並びに関する確率とを対応付けて有する変換モデルが記憶される変換モデル記憶部と、前記文字列に関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部と、変換部と、出力部とを用いて処理される音声認識方法であって、
前記取得部が、発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデルと前記辞書情報と前記辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、前記特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得ステップと、
前記変換部が、前記変換モデルと、前記文字列言語モデルとを用いて、前記取得ステップで取得した音素列の並びに対応する文字列の並びのうち、確率の高いものを選択することによって、前記音素列の並びを文字列の並びに統計的に変換する変換ステップと、
前記出力部が、前記変換ステップにおける変換後の文字列の並びである音声認識結果を出力する出力ステップと、を備えた音声認識方法。 - 音響モデルが記憶される音響モデル記憶部と、1以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、音素の並びと、当該音素の並びに対応する文字列の並びと、当該音素の並び及び文字列の並びに関する確率とを対応付けて有する変換モデルが記憶される変換モデル記憶部と、前記文字列に関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部とにアクセス可能なコンピュータを、
発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデルと前記辞書情報と前記辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、前記特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得部、
前記変換モデルと、前記文字列言語モデルとを用いて、前記取得部が取得した音素列の並びに対応する文字列の並びのうち、確率の高いものを選択することによって、前記音素列の並びを文字列の並びに統計的に変換する変換部、
前記変換部による変換後の文字列の並びである音声認識結果を出力する出力部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010211791A JP5660441B2 (ja) | 2010-09-22 | 2010-09-22 | 音声認識装置、音声認識方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010211791A JP5660441B2 (ja) | 2010-09-22 | 2010-09-22 | 音声認識装置、音声認識方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012068354A JP2012068354A (ja) | 2012-04-05 |
JP5660441B2 true JP5660441B2 (ja) | 2015-01-28 |
Family
ID=46165729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010211791A Active JP5660441B2 (ja) | 2010-09-22 | 2010-09-22 | 音声認識装置、音声認識方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5660441B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9331338B2 (en) | 2012-11-14 | 2016-05-03 | Samsung Electronics Co., Ltd. | Polymer composition for lithium secondary battery, electrode for lithium secondary battery including the same, and lithium secondary battery including the electrode |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885662A (zh) * | 2012-12-20 | 2014-06-25 | 联想(北京)有限公司 | 辅助语音输入的方法和装置 |
CN105981099A (zh) * | 2014-02-06 | 2016-09-28 | 三菱电机株式会社 | 语音检索装置和语音检索方法 |
KR102167157B1 (ko) * | 2014-11-21 | 2020-10-16 | 에스케이 텔레콤주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
KR102300303B1 (ko) * | 2014-11-21 | 2021-09-08 | 에스케이텔레콤 주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
CN106205632B (zh) * | 2016-07-18 | 2019-07-09 | 广州视睿电子科技有限公司 | 语音转化手写笔迹的方法和装置 |
JP6462936B1 (ja) * | 2018-06-18 | 2019-01-30 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
JP6964558B2 (ja) * | 2018-06-22 | 2021-11-10 | 株式会社日立製作所 | 音声対話システムとモデル作成装置およびその方法 |
US11437025B2 (en) * | 2018-10-04 | 2022-09-06 | Google Llc | Cross-lingual speech recognition |
CN112466285B (zh) * | 2020-12-23 | 2022-01-28 | 北京百度网讯科技有限公司 | 离线语音识别方法、装置、电子设备及存储介质 |
CN113179444B (zh) * | 2021-04-20 | 2022-05-17 | 浙江工业大学 | 一种基于语音识别的音字同步方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102176310B (zh) * | 2005-12-08 | 2013-08-21 | 纽昂斯奥地利通讯有限公司 | 具有巨大词汇量的语音识别系统 |
JP2008145456A (ja) * | 2006-12-05 | 2008-06-26 | Canon Inc | 音声処理方法及び装置 |
JP5327054B2 (ja) * | 2007-12-18 | 2013-10-30 | 日本電気株式会社 | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム |
-
2010
- 2010-09-22 JP JP2010211791A patent/JP5660441B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9331338B2 (en) | 2012-11-14 | 2016-05-03 | Samsung Electronics Co., Ltd. | Polymer composition for lithium secondary battery, electrode for lithium secondary battery including the same, and lithium secondary battery including the electrode |
Also Published As
Publication number | Publication date |
---|---|
JP2012068354A (ja) | 2012-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5660441B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
KR101247578B1 (ko) | 자동 음성 인식 음향 모델들의 적응 | |
Rabiner et al. | An overview of automatic speech recognition | |
Wester | Pronunciation modeling for ASR–knowledge-based and data-derived methods | |
Neto et al. | Free tools and resources for Brazilian Portuguese speech recognition | |
US20220180864A1 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
Serrino et al. | Contextual Recovery of Out-of-Lattice Named Entities in Automatic Speech Recognition. | |
JP2007155833A (ja) | 音響モデル開発装置及びコンピュータプログラム | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
Livescu | Analysis and modeling of non-native speech for automatic speech recognition | |
Kipyatkova et al. | Lexicon size and language model order optimization for Russian LVCSR | |
Neubig et al. | Learning a language model from continuous speech | |
JP2019012095A (ja) | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム | |
Rabiner et al. | Statistical methods for the recognition and understanding of speech | |
Raškinis et al. | Building medium‐vocabulary isolated‐word lithuanian hmm speech recognition system | |
Padmanabhan et al. | Speech recognition performance on a voicemail transcription task | |
Liu et al. | Modeling partial pronunciation variations for spontaneous Mandarin speech recognition | |
JP4962962B2 (ja) | 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
Golda Brunet et al. | Transcription correction using group delay processing for continuous speech recognition | |
Laurent et al. | Unsupervised acoustic model training for the Korean language | |
Huang et al. | Speech-Based Interface for Visually Impaired Users | |
Delić et al. | A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian | |
JP3894419B2 (ja) | 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Yun et al. | Stochastic lexicon modeling for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130808 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140826 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141009 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141120 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5660441 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |