JP5932869B2 - N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム - Google Patents
N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム Download PDFInfo
- Publication number
- JP5932869B2 JP5932869B2 JP2014065470A JP2014065470A JP5932869B2 JP 5932869 B2 JP5932869 B2 JP 5932869B2 JP 2014065470 A JP2014065470 A JP 2014065470A JP 2014065470 A JP2014065470 A JP 2014065470A JP 5932869 B2 JP5932869 B2 JP 5932869B2
- Authority
- JP
- Japan
- Prior art keywords
- gram
- language model
- computer
- corpus
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 46
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
N=1のときのモデルをユニグラム(unigram)、N=2のときをバイグラム(bigram)、N=3のときをトライグラム(trigram)と呼ぶ。Nとしては、音声認識では2または3、4程度がよく用いられている。
しかしこの計算方法では、コーパスにたまたま出現しなかったN個の単語列の生起確率がゼロになってしまう。これを防ぐために、確率の平滑化(smoothing)が行われる。N-gram確率に対する代表的な平滑化手法としてはバックオフ平滑化(back-off smoothing)がある。これは、出現しなかったN個の単語列の生起確率を、(N-1)個の単語列の生起確率によって求める手法である。なお、上記方法は一例であり、本発明を適用するのに他の方法を利用可能であることはいうまでもない。本発明ではこのようなN-gram言語モデルを、音声認識結果を用いて教師無しで学習する。
なお、音声認識実行時にはp(X)は算出されないが、信頼度を算出する際にはp(X)による正規化を行う。P(X)は、音声認識時の仮説をHとして、次式により表される。
すべての仮説について和をとることは困難であるため、P(X)を近似的に求める種々の方法が提案されている。例えば多くの音素にマッチするモデル(バックグランドモデル)を用いて仮説を計算した上で、P(X)を算出する方法がある。
Claims (9)
- コンピュータによる、N-gram言語モデルの教師無し学習方法であって、
(a)前記コンピュータが、音声データを音声認識して得られた認識結果を読み出すステップと、
(b)前記コンピュータが、読み出した前記認識結果の各々に対する信頼度を取得するステップと、
(c)前記コンピュータが、前記認識結果と取得した前記信頼度とを参照してN-gramエントリを選択するステップと、
(d)前記コンピュータが、全認識結果を用いて、選択された1以上の前記N-gramエントリについて前記N-gram言語モデルを学習するステップと
を含み、
ステップ(c)は、前記コンピュータが、前記認識結果に出現する出現回数が所定の回数を超える前記N-gramエントリを選択するステップであって、前記出現回数は前記信頼度に応じた重みで重み付けされる、
N-gram言語モデルの教師無し学習方法。 - ステップ(d)は、前記コンピュータが、前記全認識結果を用いて、選択された1以上の前記N-gramエントリを学習し、前記1以上のN-gramエントリと学習の結果得られたその確率とを、ベースとなるN-gram言語モデルに追加するステップを含む、請求項1に記載のNgram言語モデルの教師無し学習方法。
- 取得する前記音声データの前記認識結果は、クラウド型音声認識システム又はサーバ型音声認識システムにおいて自動音声認識された認識結果である、請求項1に記載のN-gram言語モデルの教師無し学習方法。
- ステップ(b)において、前記音声データを音声認識する際に得られる文章単位の事後確率を前記信頼度として利用する、請求項1に記載のN-gram言語モデルの教師無し学習方法。
- 請求項1乃至4のいずれか一項に記載の学習方法の各ステップを、前記コンピュータに実行させるN-gram言語モデルの教師無し学習プログラム。
- 請求項1乃至4のいずれか一項に記載の学習方法の各ステップを実行するように適合された手段を備えるN-gram言語モデルの教師無し学習システム。
- コンピュータによる、N-gram言語モデルの教師無し学習方法であって、
(a)前記コンピュータが、音声データを音声認識して得られた認識結果を読み出すステップと、
(b)前記コンピュータが、読み出した前記認識結果の各々に対する信頼度を取得するステップと、
(c)前記コンピュータが、前記認識結果と取得した前記信頼度とを参照してN-gramエントリを選択するステップと、
(d)前記コンピュータが、全認識結果を用いて、選択された1以上の前記N-gramエントリについて前記N-gram言語モデルを学習するステップと
を含み、
ステップ(c)は、前記コンピュータが、前記全認識結果の集合である第1コーパスに出現する第1出現回数と、前記信頼度が所定の閾値以上である前記認識結果の部分集合である第2コーパスに出現する第2出現回数との合計が、所定の回数を超える前記N-gramエントリを選択するステップを含む、
N-gram言語モデルの教師無し学習方法。 - コンピュータによる、N-gram言語モデルの教師無し学習方法であって、
(a)前記コンピュータが、音声データを音声認識して得られた認識結果を読み出すステップと、
(b)前記コンピュータが、読み出した前記認識結果の各々に対する信頼度を取得するステップと、
(c)前記コンピュータが、前記認識結果と取得した前記信頼度とを参照してN-gramエントリを選択するステップと、
(d)前記コンピュータが、全認識結果を用いて、選択された1以上の前記N-gramエントリについて前記N-gram言語モデルを学習するステップと
を含み、
ステップ(c)は、前記コンピュータが、前記全認識結果の集合である第1コーパスに出現する第1出現回数と、前記信頼度が所定の閾値以上である前記認識結果の部分集合である第2コーパスに出現する第2出現回数と、前記N-gram言語モデルのベースラインである第3コーパスに出現する第3出現回数との合計が、所定の回数を超える前記N-gramエントリを第1コーパス及び第3コーパスの中から選択するステップであって、前記第1出現回数、前記第2出現回数、前記第3出現回数の各々は互いに異なる重みで重み付けされる、
N-gram言語モデルの教師無し学習方法。 - 前記第1出現回数、前記第2出現回数、前記第3出現回数の各々を重み付けする各重みは
、前記第1コーパス、前記第2コーパス、及び前記第3コーパスの各々のサブセットから推定される言語モデルを用いてEMアルゴリズムにより事前に推定される、請求項8に記載のN-gram言語モデルの教師無し学習方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014065470A JP5932869B2 (ja) | 2014-03-27 | 2014-03-27 | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム |
US14/643,316 US9536518B2 (en) | 2014-03-27 | 2015-03-10 | Unsupervised training method, training apparatus, and training program for an N-gram language model based upon recognition reliability |
US14/748,597 US9601110B2 (en) | 2014-03-27 | 2015-06-24 | Unsupervised training method for an N-gram language model based upon recognition reliability |
US15/286,747 US9747893B2 (en) | 2014-03-27 | 2016-10-06 | Unsupervised training method, training apparatus, and training program for an N-gram language model based upon recognition reliability |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014065470A JP5932869B2 (ja) | 2014-03-27 | 2014-03-27 | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015187684A JP2015187684A (ja) | 2015-10-29 |
JP5932869B2 true JP5932869B2 (ja) | 2016-06-08 |
Family
ID=54191270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014065470A Expired - Fee Related JP5932869B2 (ja) | 2014-03-27 | 2014-03-27 | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム |
Country Status (2)
Country | Link |
---|---|
US (3) | US9536518B2 (ja) |
JP (1) | JP5932869B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112014006343T5 (de) * | 2014-02-06 | 2016-10-20 | Mitsubishi Electric Corporation | Sprachsuchvorrichtung und Sprachsuchverfahren |
JP5932869B2 (ja) | 2014-03-27 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム |
CN108140019B (zh) * | 2015-10-09 | 2021-05-11 | 三菱电机株式会社 | 语言模型生成装置、语言模型生成方法以及记录介质 |
CN105654945B (zh) * | 2015-10-29 | 2020-03-06 | 乐融致新电子科技(天津)有限公司 | 一种语言模型的训练方法及装置、设备 |
CN111164676A (zh) * | 2017-11-15 | 2020-05-15 | 英特尔公司 | 经由环境语境采集进行的语音模型个性化 |
US10372737B2 (en) | 2017-11-16 | 2019-08-06 | International Business Machines Corporation | Automatic identification of retraining data in a classifier-based dialogue system |
JP7036054B2 (ja) * | 2019-02-05 | 2022-03-15 | 日本電信電話株式会社 | 音響モデル学習装置、音響モデル学習方法、プログラム |
CN111951788A (zh) * | 2020-08-10 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 一种语言模型的优化方法、装置、电子设备及存储介质 |
CN112711943B (zh) * | 2020-12-17 | 2023-11-24 | 厦门市美亚柏科信息股份有限公司 | 一种维吾尔文语种识别方法、装置及存储介质 |
US20220229985A1 (en) * | 2021-01-21 | 2022-07-21 | Apple Inc. | Adversarial discriminative neural language model adaptation |
US20230115271A1 (en) * | 2021-10-13 | 2023-04-13 | Hithink Royalflush Information Network Co., Ltd. | Systems and methods for speech recognition |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1055227B1 (en) * | 1998-12-21 | 2004-09-01 | Koninklijke Philips Electronics N.V. | Language model based on the speech recognition history |
US6934675B2 (en) * | 2001-06-14 | 2005-08-23 | Stephen C. Glinski | Methods and systems for enabling speech-based internet searches |
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
US7533019B1 (en) * | 2003-12-23 | 2009-05-12 | At&T Intellectual Property Ii, L.P. | System and method for unsupervised and active learning for automatic speech recognition |
US8818808B2 (en) * | 2005-02-23 | 2014-08-26 | At&T Intellectual Property Ii, L.P. | Unsupervised and active learning in automatic speech recognition for call classification |
US8898052B2 (en) * | 2006-05-22 | 2014-11-25 | Facebook, Inc. | Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer |
WO2007142102A1 (ja) * | 2006-05-31 | 2007-12-13 | Nec Corporation | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム |
JP5319141B2 (ja) | 2007-03-19 | 2013-10-16 | 株式会社東芝 | 言語モデルの枝刈り方法及び装置 |
WO2010021368A1 (ja) * | 2008-08-20 | 2010-02-25 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
US8145484B2 (en) * | 2008-11-11 | 2012-03-27 | Microsoft Corporation | Speech processing with predictive language modeling |
US8229743B2 (en) * | 2009-06-23 | 2012-07-24 | Autonomy Corporation Ltd. | Speech recognition system |
JP5161183B2 (ja) | 2009-09-29 | 2013-03-13 | 日本電信電話株式会社 | 音響モデル適応装置、その方法、プログラム、及び記録媒体 |
US9069755B2 (en) * | 2010-03-11 | 2015-06-30 | Microsoft Technology Licensing, Llc | N-gram model smoothing with independently controllable parameters |
JP6131249B2 (ja) * | 2011-06-19 | 2017-05-17 | エムモーダル アイピー エルエルシー | コンテキストアウェア認識モデルを使用した音声認識 |
US9336769B2 (en) * | 2011-07-01 | 2016-05-10 | Nec Corporation | Relative semantic confidence measure for error detection in ASR |
US8676580B2 (en) * | 2011-08-16 | 2014-03-18 | International Business Machines Corporation | Automatic speech and concept recognition |
US8903714B2 (en) * | 2011-12-21 | 2014-12-02 | Nuance Communications, Inc. | Concept search and semantic annotation for mobile messaging |
US9009025B1 (en) | 2011-12-27 | 2015-04-14 | Amazon Technologies, Inc. | Context-based utterance recognition |
JP6019604B2 (ja) * | 2012-02-14 | 2016-11-02 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
US9224383B2 (en) * | 2012-03-29 | 2015-12-29 | Educational Testing Service | Unsupervised language model adaptation for automated speech scoring |
US8996371B2 (en) * | 2012-03-29 | 2015-03-31 | Nice-Systems Ltd. | Method and system for automatic domain adaptation in speech recognition applications |
US20140267045A1 (en) | 2013-03-14 | 2014-09-18 | Microsoft Corporation | Adaptive Language Models for Text Predictions |
US9633650B2 (en) * | 2013-08-28 | 2017-04-25 | Verint Systems Ltd. | System and method of automated model adaptation |
US9508346B2 (en) * | 2013-08-28 | 2016-11-29 | Verint Systems Ltd. | System and method of automated language model adaptation |
US9842592B2 (en) * | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
JP5932869B2 (ja) | 2014-03-27 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム |
-
2014
- 2014-03-27 JP JP2014065470A patent/JP5932869B2/ja not_active Expired - Fee Related
-
2015
- 2015-03-10 US US14/643,316 patent/US9536518B2/en not_active Expired - Fee Related
- 2015-06-24 US US14/748,597 patent/US9601110B2/en active Active
-
2016
- 2016-10-06 US US15/286,747 patent/US9747893B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20150279353A1 (en) | 2015-10-01 |
US20150294665A1 (en) | 2015-10-15 |
JP2015187684A (ja) | 2015-10-29 |
US20170025118A1 (en) | 2017-01-26 |
US9601110B2 (en) | 2017-03-21 |
US9747893B2 (en) | 2017-08-29 |
US9536518B2 (en) | 2017-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
Schuster et al. | Japanese and korean voice search | |
CN108899013B (zh) | 语音搜索方法、装置和语音识别系统 | |
US11024298B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
US20120035915A1 (en) | Language model creation device, language model creation method, and computer-readable storage medium | |
CN110675855A (zh) | 一种语音识别方法、电子设备及计算机可读存储介质 | |
JP6047364B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JP6051004B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP2008216341A (ja) | 誤り傾向学習音声認識装置及びコンピュータプログラム | |
JP2014074732A (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP6183988B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP6300394B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
KR20200102309A (ko) | 단어 유사도를 이용한 음성 인식 시스템 및 그 방법 | |
JP6086714B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP5860439B2 (ja) | 言語モデル作成装置とその方法、そのプログラムと記録媒体 | |
JP4362054B2 (ja) | 音声認識装置及び音声認識プログラム | |
CN113096667A (zh) | 一种错别字识别检测方法和系统 | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP2001109491A (ja) | 連続音声認識装置および方法 | |
JP6000153B2 (ja) | フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム | |
KR101729972B1 (ko) | 타국인 발화 음성을 위한 음성 인식 장치 | |
JP2023007014A (ja) | 応答システム、応答方法、および応答プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160112 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160122 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160223 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160428 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5932869 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |