JP2013148697A - 情報処理装置、大語彙連続音声認識方法及びプログラム - Google Patents
情報処理装置、大語彙連続音声認識方法及びプログラム Download PDFInfo
- Publication number
- JP2013148697A JP2013148697A JP2012008732A JP2012008732A JP2013148697A JP 2013148697 A JP2013148697 A JP 2013148697A JP 2012008732 A JP2012008732 A JP 2012008732A JP 2012008732 A JP2012008732 A JP 2012008732A JP 2013148697 A JP2013148697 A JP 2013148697A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- score
- hypothesis
- phoneme
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000010365 information processing Effects 0.000 title claims abstract description 30
- 238000009826 distribution Methods 0.000 claims abstract description 62
- 238000004364 calculation method Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000010606 normalization Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 description 32
- 230000008569 process Effects 0.000 description 23
- 238000013500 data storage Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 241000254032 Acrididae Species 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】情報処理装置100は、音声を入力として受け取って音声認識を行い、認識結果である複数の仮説を音声認識スコアと共に出力する音声認識処理部と、各仮説に対し、該仮説を構成する全ての音素のペアについて、音素のペアの分布間距離の尤度に音素のペアごとの重みを掛けて足し合わせたスコアである構造スコアを算出する構造スコア算出部と、音声認識スコアと構造スコアの合計値に基づき複数の仮説をリランキングするランキング部とを含む。
【選択図】図1
Description
と 分散
は、最尤推定により次式のように推定される。
また、上記S310において、分布間距離として例えばバッタチャリヤ距離を利用すると、2つの正規分布
と
間のバッタチャリヤ距離BDは次式により求められる。なお記号Tは転置を表す。
なお、分布間距離はf-divergenceであればよく、バタチャリヤ距離に限定されるわけではない。バタチャリヤ距離の更なる詳細については、例えば、Bhattacharyya, A., “On a measure of divergence between twostatistical populations defined by probability distributions,” Bull. Calcutta Math. Soc. 35,pp.99-109, 1943.を参照されたい。
に対する分布間距離xの尤度は次式により表される。
これを時間方向に正規化するには、平均Siにその音素Piの継続長(フレーム数)Tiを乗じてSi Tiとすればよい。後述する音素ペアごとの相対関係の重みをすべて1とした場合、Si T を仮説内のすべての音素Pi(i=1,…,N)について足し合わせた値が構造スコアとなる。
上式より示される構造スコアベクトルSstructureの次元数は、対象言語において存在する全音素数をMとするとM(M-1)/2である。仮説内で観測されなかったエッジのベクトル要素には値0が設定され、観測されたエッジeij(i,j=1,…,N、但しj≠i)のベクトル要素には次式により求められる値が設定される。なお、次式においてTiは音素Piの継続長(フレーム数)を表す。
構造スコアベクトルと同様、上式より表される重みベクトルの次元数は、対象言語において存在する全音素数をMとするとM(M-1)/2である。重み付け部135は、上記重みベクトルWに重み付け前の構造スコアベクトルSstructureを乗じて構造スコアを算出する。
上式においてρは学習データが重みに与える影響を決定する学習率である。学習率として大きい値を使うと、Wの変動が大きくなり早く収束する可能性があるが、同時に発散してしまう可能性もある。一方学習率として小さい値を使うと、Wの収束は遅くなるが、発散する可能性は低くなる。そこで最初は大きな値で学習を進め、徐々に値を小さくするようしてもよい。なお、平均化パーセプトロンについては、上述したように途中で得られる重みの平均をとればよい。
1.語彙のサイズ:約11万
2.テスト発声:600文
3.HMMベースの音声認識システムを用いて10ベストを出力
Claims (15)
- コンピュータにより実行される大語彙連続音声認識方法であって、
(a)前記コンピュータが、音声データを入力として受け取るステップと、
(b)前記コンピュータが、受け取った前記音声データに対して音声認識を行い、認識結果である複数の仮説を各仮説についての音声認識結果の確からしさを示すスコアである音声認識スコアと共に出力するステップと、
(c)前記コンピュータが、各仮説に対し、該仮説を構成する全ての音素のペアについて、音素のペアの分布間距離の尤度に前記音素のペアごとの重みを掛けて足し合わせたスコアである構造スコアを算出するステップと、
(d)前記コンピュータが、各仮説に対し該仮説の前記音声認識スコアと前記構造スコアの合計値を求め、該合計値に基づき前記複数の仮説をランク付けするステップと、
を含む大語彙連続音声認識方法。 - (e)前記コンピュータが、学習用の音声データに対してステップ(b)及び(c)を行い、音声認識スコアと構造スコアの合計値による仮説のランク付けが正しく行われるように、前記音素のペアごとの重みを学習するステップを更に含む、請求項1に記載の大語彙連続音声認識方法。
- 前記ステップ(c)において、前記コンピュータは、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛け、かつ、前記仮説内に出現する2つの音素の異なる組み合わせ数で割ることにより、前記尤度を正規化する、請求項2に記載の大語彙連続音声認識方法。
- 前記ステップ(c)において、前記コンピュータは、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛けることにより、前記尤度を正規化する、請求項2に記載の大語彙連続音声認識方法。
- 上記ステップ(e)は、単語誤り率がゼロである仮説を正例とし、かつ、残りの仮説を負例として前記音素のペアごとの重みを学習するステップを含む、請求項2に記載の大語彙連続音声認識方法。
- 上記ステップ(e)は、単語誤り率が最も少ない仮説を正例とし、かつ、残りの仮説を負例として前記音素のペアごとの重みを学習するステップを含む、請求項2に記載の大語彙連続音声認識方法。
- 前記ステップ(c)において、前記音素のペアごとの重みは、母音同士のペア及び無音に関係するペアについての重みが、他の音素のペアについての重みよりも大きくなるように設定されている、請求項1に記載の大語彙連続音声認識方法。
- 大語彙連続音声認識プログラムであって、該大語彙連続音声認識プログラムはコンピュータに、
(a)音声を入力として受け取るステップと、
(b)受け取った前記音声に対して音声認識を行い、認識結果である複数の仮説を各仮説についての音声認識結果の確からしさを示すスコアである音声認識スコアと共に出力するステップと、
(c)各仮説に対し、該仮説を構成する全ての音素のペアについて、音素のペア間の分布間距離の尤度に前記音素のペアごとの重みを掛けて足し合わせたスコアである構造スコアを算出するステップと、
(d)各仮説に対し該仮説の前記音声認識スコアと前記構造スコアの合計値を求め、該合計値に基づき前記複数の仮説をランク付けするステップと、
を実行させる、大語彙連続音声認識プログラム。 - 前記大語彙連続音声認識プログラムは、前記コンピュータに、(e)前記コンピュータが、学習用の音声データに対してステップ(b)及び(c)を行い、音声認識スコアと構造スコアの合計値による仮説のランク付けが正しく行われるように、前記音素のペアごとの重みを学習するステップを更に実行させる、請求項8に記載の大語彙連続音声認識プログラム。
- 前記ステップ(c)において、前記大語彙連続音声認識プログラムは、前記コンピュータに、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛けることにより、前記尤度を正規化させる、請求項8に記載の大語彙連続音声認識プログラム。
- 前記ステップ(c)において、前記大語彙連続音声認識プログラムは、前記コンピュータに、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛け、かつ前記仮説内に出現する2つの音素の異なる組み合わせ数で割ることにより、前記尤度を正規化させる、請求項8に記載の大語彙連続音声認識プログラム。
- 大語彙連続音声認識を行う情報処理装置であって、
音声を入力として受け取り、受け取った前記音声に対して音声認識を行い、認識結果である複数の仮説を各仮説についての音声認識結果の確からしさを示すスコアである音声認識スコアと共に出力する音声認識処理部と、
前記各仮説に対し、該仮説を構成する全ての音素のペアについて、音素のペアの分布間距離の尤度に前記音素のペアごとの重みを掛けて足し合わせたスコアである構造スコアを算出する構造スコア算出部と、
前記各仮説に対し該仮説の前記音声認識スコアと前記構造スコアの合計値を求め、該合計値に基づき前記複数の仮説をランク付けするランキング部と、
を含む情報処理装置。 - 学習用の音声に対する前記音声認識処理部の結果を入力とした前記構造スコア算出部による処理の結果を受け取り、音声認識スコアと構造スコアの合計値による仮説のランク付けが正しく行われるように、前記音素のペアごとの重みを学習する学習部を更に含む、請求項12に記載の情報処理装置。
- 前記構造スコア算出部は、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛けることにより、前記尤度を正規化する正規化部を含む、請求項12に記載の情報処理装置。
- 前記構造スコア算出部は、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛け、かつ、前記仮説内に出現する2つの音素の異なる組み合わせ数で割ることにより、前記尤度を正規化する正規化部を含む、請求項12に記載の情報処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012008732A JP5752060B2 (ja) | 2012-01-19 | 2012-01-19 | 情報処理装置、大語彙連続音声認識方法及びプログラム |
US13/744,963 US9165553B2 (en) | 2012-01-19 | 2013-01-18 | Information processing device, large vocabulary continuous speech recognition method and program including hypothesis ranking |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012008732A JP5752060B2 (ja) | 2012-01-19 | 2012-01-19 | 情報処理装置、大語彙連続音声認識方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013148697A true JP2013148697A (ja) | 2013-08-01 |
JP5752060B2 JP5752060B2 (ja) | 2015-07-22 |
Family
ID=48797956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012008732A Active JP5752060B2 (ja) | 2012-01-19 | 2012-01-19 | 情報処理装置、大語彙連続音声認識方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9165553B2 (ja) |
JP (1) | JP5752060B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9613638B2 (en) * | 2014-02-28 | 2017-04-04 | Educational Testing Service | Computer-implemented systems and methods for determining an intelligibility score for speech |
KR20160027640A (ko) * | 2014-09-02 | 2016-03-10 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서의 개체명 인식 방법 |
US10803074B2 (en) * | 2015-08-10 | 2020-10-13 | Hewlett Packard Entperprise Development LP | Evaluating system behaviour |
CN110931028B (zh) * | 2018-09-19 | 2024-04-26 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
JP7059166B2 (ja) * | 2018-11-29 | 2022-04-25 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
WO2020152657A1 (en) * | 2019-01-25 | 2020-07-30 | Soul Machines Limited | Real-time generation of speech animation |
RU2731334C1 (ru) | 2019-03-25 | 2020-09-01 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для формирования текстового представления фрагмента устной речи пользователя |
CN110600012B (zh) * | 2019-08-02 | 2020-12-04 | 光控特斯联(上海)信息科技有限公司 | 一种人工智能学习的模糊语音语义识别方法及系统 |
JP7438744B2 (ja) * | 2019-12-18 | 2024-02-27 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
CN111243574B (zh) * | 2020-01-13 | 2023-01-03 | 苏州奇梦者网络科技有限公司 | 一种语音模型自适应训练方法、系统、装置及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011243147A (ja) * | 2010-05-21 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7991615B2 (en) * | 2007-12-07 | 2011-08-02 | Microsoft Corporation | Grapheme-to-phoneme conversion using acoustic data |
-
2012
- 2012-01-19 JP JP2012008732A patent/JP5752060B2/ja active Active
-
2013
- 2013-01-18 US US13/744,963 patent/US9165553B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011243147A (ja) * | 2010-05-21 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US9165553B2 (en) | 2015-10-20 |
US20130191129A1 (en) | 2013-07-25 |
JP5752060B2 (ja) | 2015-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JP5530729B2 (ja) | 音声理解装置 | |
WO2020001458A1 (zh) | 语音识别方法、装置及系统 | |
JP4745094B2 (ja) | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム | |
US9747893B2 (en) | Unsupervised training method, training apparatus, and training program for an N-gram language model based upon recognition reliability | |
CN104681036A (zh) | 一种语言音频的检测系统及方法 | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP5249967B2 (ja) | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム | |
WO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
Walker et al. | Semi-supervised model training for unbounded conversational speech recognition | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
JP2002297181A (ja) | 音声認識語彙登録判定方法及び音声認識装置 | |
JP2002342323A (ja) | 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体 | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
US20130110491A1 (en) | Discriminative learning of feature functions of generative type in speech translation | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
Hsu et al. | Mispronunciation Detection Leveraging Maximum Performance Criterion Training of Acoustic Models and Decision Functions. | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
KR20220090586A (ko) | 오디오-비주얼 매칭을 사용한 자동 음성 인식 가설 재점수화 | |
JP5170449B2 (ja) | 検出装置、音声認識装置、検出方法、及びプログラム | |
JP2000075885A (ja) | 音声認識装置 | |
JP2005091518A (ja) | 音声認識装置及び音声認識プログラム | |
JP2008083367A (ja) | 音声認識装置、音声認識方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140808 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150410 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150519 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5752060 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |