JP4355322B2 - フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 - Google Patents
フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 Download PDFInfo
- Publication number
- JP4355322B2 JP4355322B2 JP2006042939A JP2006042939A JP4355322B2 JP 4355322 B2 JP4355322 B2 JP 4355322B2 JP 2006042939 A JP2006042939 A JP 2006042939A JP 2006042939 A JP2006042939 A JP 2006042939A JP 4355322 B2 JP4355322 B2 JP 4355322B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- likelihood
- reliability
- speech recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 34
- 239000000945 filler Substances 0.000 claims description 68
- 239000013598 vector Substances 0.000 claims description 68
- 238000006243 chemical reaction Methods 0.000 claims description 36
- 230000005236 sound signal Effects 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000005259 measurement Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 34
- 238000011156 evaluation Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000237858 Gastropoda Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 210000000959 ear middle Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011867 re-evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000005641 tunneling Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
- Complex Calculations (AREA)
Description
本発明の技術的課題は、認識されたキーワードの信頼度に対し、そのキーワードを構成するフレーム間での影響の相違を反映させ得る音声認識方法、及びその方法を利用する装置の提供にある。
一連の音声信号からフレーム別に抽出された特徴ベクトルのそれぞれに対し、キーワードモデルの尤度を算出するキーワードモデル部、
上記の特徴ベクトルのそれぞれに対し、フィラーモデルの尤度を算出するフィラーモデル部、及び、 キーワードモデルの尤度とフィラーモデルの尤度との間の比率(以下、尤度比という)に基づいてキーワードモデルの信頼度をフレーム別に重み付けして評価する信頼度測定部、を備え、前記信頼度測定部が、前記キーワードモデル部と前記フィラーモデル部との各出力に基づいて前記尤度比を計算するフレーム別尤度比計算部、特徴ベクトルの分布範囲を複数のクラスターに分類し、前記フレーム別に抽出された特徴ベクトルの属するクラスターを判別するクラスター選択部、前記クラスターごとに異なる変換関数を用いて前記尤度比を変換し、変換された前記尤度比を前記一連の音声信号の全体で平均し、その平均値を前記信頼度として採用する変換部、及び、前記信頼度に基づき、前記一連の音声信号の表すワードとして前記キーワードモデルを採用するか否かを決定する決定部を含む。
(a)一連の音声信号からフレーム別に抽出された特徴ベクトルのそれぞれに対し、キーワードモデルの尤度とフィラーモデルの尤度とを算出する段階;及び、
(b)算出されたキーワードモデルの尤度とフィラーモデルの尤度との間の尤度比に基づいてキーワードモデルの信頼度をフレーム別に重み付けして評価する段階;を有
を有し、段階(b)が、特徴ベクトルの分布範囲を複数のクラスターに分類し、前記フレーム別に抽出された特徴ベクトルの属するクラスターを判別する段階、前記クラスターごとに異なる変換関数を用いて前記尤度比を変換し、変換された前記尤度比を前記一連の音声信号の全体で平均し、その平均値を前記信頼度として採用する段階、及び、前記信頼度に基づき、前記一連の音声信号の表すワードとして前記キーワードモデルを採用するか否かを決定する段階を含む。
帰無仮説は、「確信できるほどの強い反証がなければ受け入れる」仮説を意味する。対立仮説は、「帰無仮説を反証できるほどの強い証拠がある場合に受け入れる」仮説を意味する。帰無仮説と対立仮説とは相反するように設定される。以下、本明細書では、帰無仮説をH0と表し、対立仮説をH1と表す。
非核心語(キーワード(核心語)以外の単語(ワード)や音素(サブワード))を探すためのモデルを意味する。非核心語の各々をモデル化する方法や、非核心語全体をモデル化する方法が存在する。フィラーモデルに基づいて測定された尤度から、検出された音声信号がフィラーモデルに該当するか否かが判断される。更に、フィラーモデルの尤度とキーワードモデルの尤度とを利用し、検出された音声信号から認識された単語がキーワードであるか否かが判別される。
音声認識装置に最も良く使われる方法である。音声認識装置は、検出される音声信号をマルコフモデル(Markov model)であると仮定する。、音声認識装置はまず学習段階で、モデルのパラメータを推定する。その後、音声認識装置は、推定されたパラメータを用いて未知の音声信号に最も適したモデルを探し出す。ここで、その音声認識では、音素または単語ごとにモデルが使用される。更に、使用されるマルコフモデルは、毎時間状態を変える有限状態機械(FSM:Finite State Machine)である。
尤度は、認識されたフレーム、ワード、またはサブワードが、対比されたキーワードモデルまたはフィラーモデルに実際に該当する確率を表す。例えば、認識された単語がキーワードモデルに属している特定の単語である確率が、そのキーワードモデルの尤度である。キーワードモデルがサブワードで構成されている場合、個々のサブワードの尤度がまず求められ、その後、それらの尤度から、キーワードモデルの尤度やフィラーモデルの尤度が計算される。その他に、サブワードが更に、状態やフレームに細分され、個々の状態やフレームごとに尤度が計算され、それらの尤度の集計結果から、認識された音声全体の尤度が計算されても良い。以下に説明される本発明の実施形態では、サブワードを構成するフレームまたは状態ごとに尤度が計算される。フィラーモデルに対しても、フィラーモデルを構成する様々なフレームや状態に基づいて尤度が求められる。
220 クラスター選択部
230 変換部
240 決定部
Claims (16)
- 一連の音声信号からフレーム別に抽出された特徴ベクトルのそれぞれに対し、キーワードモデルの尤度を算出するキーワードモデル部;
前記特徴ベクトルのそれぞれに対し、フィラーモデルの尤度を算出するフィラーモデル部;及び、
前記キーワードモデルの尤度と前記フィラーモデルの尤度との間の比率(以下、尤度比という)に基づいて前記キーワードモデルの信頼度を前記フレーム別に重み付けして評価する信頼度測定部;
を備え、
前記信頼度測定部が、
前記キーワードモデル部と前記フィラーモデル部との各出力に基づいて前記尤度比を計算するフレーム別尤度比計算部;
特徴ベクトルの分布範囲を複数のクラスターに分類し、前記フレーム別に抽出された特徴ベクトルの属するクラスターを判別するクラスター選択部;
前記クラスターごとに異なる変換関数を用いて前記尤度比を変換し、変換された前記尤度比を前記一連の音声信号の全体で平均し、その平均値を前記信頼度として採用する変換部;及び、
前記信頼度に基づき、前記一連の音声信号の表すワードとして前記キーワードモデルを採用するか否かを決定する決定部;
を含む音声認識装置。 - 前記クラスター選択部が、前記フレーム別に抽出された特徴ベクトルの属するクラスターを前記尤度比に基づいて判別する、請求項1に記載の音声認識装置。
- 前記決定部が、前記一連の音声信号の全体での前記尤度比の分布について歪度を算出し、前記歪度を用いて前記信頼度を補正する、請求項1に記載の音声認識装置。
- 前記フレームの一部が次のフレームと重なっている、請求項1に記載の音声認識装置。
- 前記フレームがサブワードより細かい、請求項1に記載の音声認識装置。
- 前記一連の音声信号を検出し、前記フレーム別に前記特徴ベクトルを抽出する特徴抽出部、を前記音声認識装置がさらに備え、
前記キーワードモデル部または前記フィラーモデル部が前記特徴抽出部により抽出された前記特徴ベクトルを利用する、
請求項1に記載の音声認識装置。 - 前記特徴ベクトルが、MFCC、LPCケプストラム、PLPケプストラム、またはフィルタ係数のいずれかで表現される、請求項1に記載の音声認識装置。
- 前記キーワードモデル部がビタビデコーダを含む、請求項1に記載の音声認識装置。
- (a)一連の音声信号からフレーム別に抽出された特徴ベクトルのそれぞれに対し、キーワードモデルの尤度とフィラーモデルの尤度とを算出する段階;及び、
(b)算出された前記キーワードモデルの尤度と前記フィラーモデルの尤度との間の比率(以下、尤度比という)に基づいて前記キーワードモデルの信頼度を前記フレーム別に重み付けして評価する段階;
を有し、
段階(b)が、
特徴ベクトルの分布範囲を複数のクラスターに分類し、前記フレーム別に抽出された特徴ベクトルの属するクラスターを判別する段階;
前記クラスターごとに異なる変換関数を用いて前記尤度比を変換し、変換された前記尤度比を前記一連の音声信号の全体で平均し、その平均値を前記信頼度として採用する段階;及び、
前記信頼度に基づき、前記一連の音声信号の表すワードとして前記キーワードモデルを採用するか否かを決定する段階;
を含む音声認識方法。 - 前記クラスターを判別する段階では、前記フレーム別に抽出された特徴ベクトルの属するクラスターが前記尤度比に基づいて判別される、請求項9に記載の音声認識方法。
- 前記一連の音声信号の全体での前記尤度比の分布について歪度を算出し、前記歪度を用いて前記信頼度を補正する段階、を更に有する、請求項9に記載の音声認識方法。
- 前記フレームの一部が次のフレームと重なっている、請求項9に記載の音声認識方法。
- 前記フレームがサブワードより細かい、請求項9に記載の音声認識方法。
- 段階(a)以前に、前記一連の音声信号を検出し、前記フレーム別に前記特徴ベクトルを抽出する段階、を更に有する、請求項9に記載の音声認識方法。
- 前記特徴ベクトルが、MFCC、LPCケプストラム、PLPケプストラム、またはフィルタ係数のいずれかで表現される、請求項9に記載の音声認識方法。
- 段階(a)では前記キーワードモデルの尤度がビタビデコーダを用いて算出される、請求項9に記載の音声認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050013521A KR100631786B1 (ko) | 2005-02-18 | 2005-02-18 | 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006227628A JP2006227628A (ja) | 2006-08-31 |
JP4355322B2 true JP4355322B2 (ja) | 2009-10-28 |
Family
ID=36913916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006042939A Expired - Fee Related JP4355322B2 (ja) | 2005-02-18 | 2006-02-20 | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8271283B2 (ja) |
JP (1) | JP4355322B2 (ja) |
KR (1) | KR100631786B1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100755483B1 (ko) * | 2005-12-08 | 2007-09-05 | 한국전자통신연구원 | 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법 |
KR100679051B1 (ko) * | 2005-12-14 | 2007-02-05 | 삼성전자주식회사 | 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법 |
US8688451B2 (en) * | 2006-05-11 | 2014-04-01 | General Motors Llc | Distinguishing out-of-vocabulary speech from in-vocabulary speech |
US7899251B2 (en) * | 2006-06-05 | 2011-03-01 | Microsoft Corporation | Balancing out-of-dictionary and in-dictionary recognition scores |
WO2010024052A1 (ja) * | 2008-08-27 | 2010-03-04 | 日本電気株式会社 | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム |
JP4951035B2 (ja) * | 2009-07-08 | 2012-06-13 | 日本電信電話株式会社 | 音声単位別尤度比モデル作成装置、音声単位別尤度比モデル作成方法、音声認識信頼度算出装置、音声認識信頼度算出方法、プログラム |
JP5235849B2 (ja) * | 2009-11-27 | 2013-07-10 | 日本電信電話株式会社 | 音声認識装置とその方法と、プログラム |
US8880399B2 (en) * | 2010-09-27 | 2014-11-04 | Rosetta Stone, Ltd. | Utterance verification and pronunciation scoring by lattice transduction |
CN103971678B (zh) * | 2013-01-29 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
JP6148150B2 (ja) * | 2013-10-23 | 2017-06-14 | 日本電信電話株式会社 | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 |
CN104077598B (zh) * | 2014-06-27 | 2017-05-31 | 电子科技大学 | 一种基于语音模糊聚类的情感识别方法 |
JP6254504B2 (ja) * | 2014-09-18 | 2017-12-27 | 株式会社日立製作所 | 検索サーバ、及び検索方法 |
US20170076209A1 (en) * | 2015-09-14 | 2017-03-16 | Wellaware Holdings, Inc. | Managing Performance of Systems at Industrial Sites |
US10249298B2 (en) | 2017-01-11 | 2019-04-02 | Here Global B.V. | Method and apparatus for providing global voice-based entry of geographic information in a device |
CN107808670B (zh) * | 2017-10-25 | 2021-05-14 | 百度在线网络技术(北京)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN108877774B (zh) * | 2018-07-12 | 2021-02-09 | 四川虹美智能科技有限公司 | 一种数据采集装置、数据分析平台、系统及方法 |
US11308939B1 (en) * | 2018-09-25 | 2022-04-19 | Amazon Technologies, Inc. | Wakeword detection using multi-word model |
CN110288981B (zh) * | 2019-07-03 | 2020-11-06 | 百度在线网络技术(北京)有限公司 | 用于处理音频数据的方法和装置 |
WO2021062705A1 (zh) * | 2019-09-30 | 2021-04-08 | 大象声科(深圳)科技有限公司 | 一种单声道鲁棒性的语音关键词实时检测方法 |
CN115834725B (zh) * | 2023-02-17 | 2023-04-14 | 上海特高信息技术有限公司 | 一种基于fpga的网络巨型帧处理的数据解析方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5218668A (en) | 1984-09-28 | 1993-06-08 | Itt Corporation | Keyword recognition system and method using template concantenation model |
US4896358A (en) | 1987-03-17 | 1990-01-23 | Itt Corporation | Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems |
US5794198A (en) * | 1994-10-28 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Pattern recognition method |
US5737489A (en) | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
US6539353B1 (en) * | 1999-10-12 | 2003-03-25 | Microsoft Corporation | Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition |
US6785650B2 (en) | 2001-03-16 | 2004-08-31 | International Business Machines Corporation | Hierarchical transcription and display of input speech |
JP4224250B2 (ja) | 2002-04-17 | 2009-02-12 | パイオニア株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
JP2003308091A (ja) * | 2002-04-17 | 2003-10-31 | Pioneer Electronic Corp | 音声認識装置、音声認識方法および音声認識プログラム |
-
2005
- 2005-02-18 KR KR1020050013521A patent/KR100631786B1/ko not_active IP Right Cessation
-
2006
- 2006-02-16 US US11/355,082 patent/US8271283B2/en not_active Expired - Fee Related
- 2006-02-20 JP JP2006042939A patent/JP4355322B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR100631786B1 (ko) | 2006-10-12 |
JP2006227628A (ja) | 2006-08-31 |
US8271283B2 (en) | 2012-09-18 |
KR20060092544A (ko) | 2006-08-23 |
US20060190259A1 (en) | 2006-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
US6125345A (en) | Method and apparatus for discriminative utterance verification using multiple confidence measures | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
US20140156276A1 (en) | Conversation system and a method for recognizing speech | |
JP4224250B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
US10964315B1 (en) | Monophone-based background modeling for wakeword detection | |
JPH075892A (ja) | 音声認識方法 | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
JP4353202B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
JP3092788B2 (ja) | 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置 | |
JP3615088B2 (ja) | 音声認識方法及び装置 | |
JP2007072393A (ja) | 音声認識装置及びプログラム | |
Deng et al. | Speech Recognition | |
Laleye et al. | An algorithm based on fuzzy logic for text-independent fongbe speech segmentation | |
JP7482086B2 (ja) | キーワード検出装置、方法及びプログラム | |
JP6199994B2 (ja) | コンテキスト情報を使用した音声認識システムにおける誤警報低減 | |
JP3100180B2 (ja) | 音声認識方法 | |
KR101752709B1 (ko) | 음성인식시스템에서 발화검증 방법 및 그 음성인식시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090617 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090707 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090731 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4355322 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120807 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130807 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |