JP2005092310A - 音声キーワード認識装置 - Google Patents
音声キーワード認識装置 Download PDFInfo
- Publication number
- JP2005092310A JP2005092310A JP2003321231A JP2003321231A JP2005092310A JP 2005092310 A JP2005092310 A JP 2005092310A JP 2003321231 A JP2003321231 A JP 2003321231A JP 2003321231 A JP2003321231 A JP 2003321231A JP 2005092310 A JP2005092310 A JP 2005092310A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- voice
- collation
- similar
- similar word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】キーワードに類似した音声が入力されても、十分な精度でキーワードを認識することができる音声キーワード認識装置を提供すること。
【解決手段】類似語生成部11は、キーワード3に類似するキーワード類似語9を大語彙辞典12から抽出して登録する。第1音声照合部1は、キーワード3とキーワード類似語9とキーワード・キーワード類似語音響モデル10とガーベージモデル5とから得られる音響モデル列と入力音声とを照合し、最大の照合スコアlogPKを送出する。正規化計算部7は、照合スコアlogPKを正規化して正規化スコアSを送出する。判定部8は、第1音声照合部1での照合がキーワードに対するものであるか否かを判定し、キーワードに対するものであると判定した場合に正規化スコアSを有効とする。
【選択図】図1
【解決手段】類似語生成部11は、キーワード3に類似するキーワード類似語9を大語彙辞典12から抽出して登録する。第1音声照合部1は、キーワード3とキーワード類似語9とキーワード・キーワード類似語音響モデル10とガーベージモデル5とから得られる音響モデル列と入力音声とを照合し、最大の照合スコアlogPKを送出する。正規化計算部7は、照合スコアlogPKを正規化して正規化スコアSを送出する。判定部8は、第1音声照合部1での照合がキーワードに対するものであるか否かを判定し、キーワードに対するものであると判定した場合に正規化スコアSを有効とする。
【選択図】図1
Description
本発明は、音声キーワード認識装置に関し、特に、キーワードの入力音声をキーワードに類似した入力音声と効果的に区別して認識することができる音声キーワード認識装置に関する。
図3は、従来の音声キーワード認識装置のブロック図であり、この音声キーワード認識装置は、主としてコンピュータとソフトウエアで構成される。入力音声は、第1音声照合部1と第2音声照合部2に並列に入力される。第1音声照合部1と第2音声照合部2での照合は並行して行われる。
第1音声照合部1は、予め記憶したキーワード3とキーワード3をモデル化するキーワード音響モデル4とガベージモデル5とから得られる音響モデル列と入力音声とを照合し、最大の照合スコアlogPK を送出する。また、第2音声照合部2は、バックグラウンドモデル6と入力音声とを照合し、最大の照合スコアlogPB を送出する。
キーワード3、キーワード音響モデル4、ガベージモデル5、バックグラウンドモデル6は、照合のために予め格納されている。
正規化計算部7は、照合スコアlogPK 、logPB から正規化スコアSを計算して送出する。判定部8は、正規化スコアSと予め定められたしきい値εとを比較する。この比較の結果、正規化スコアSがしきい値ε以上(S≧ε)であれば、照合区間の音声はキーワードであるとして受理され、しきい値ε未満(S<ε)であれば、照合区間の音声はキーワードでないとして棄却される。照合区間の音声がキーワードとして受理された場合、第1音声照合部1から出された単語(キーワード)が認識結果として送出される。このような音声キーワード認識装置は、下記非特許文献1〜3に記載されている。
P.Heracleous et al.,音講論集, pp.89-90,Mar.2003 渡辺,信学論 D-2, PP.2202-2209,Dec.1992 R.C.Rose et al.,ICASSP90, PP.129-132,Apr.1990
P.Heracleous et al.,音講論集, pp.89-90,Mar.2003 渡辺,信学論 D-2, PP.2202-2209,Dec.1992 R.C.Rose et al.,ICASSP90, PP.129-132,Apr.1990
上述のように、従来の音声キーワード認識装置における第1音声照合部1は、予め記憶したキーワード3とキーワード音響モデル3とガベージモデル4とから得られる音響モデル列と入力音声とを照合するものであるため、キーワードに類似した入力音声に対する認識精度が十分でないという課題がある。
すなわち、キーワードに類似した語(以下、キーワード類似語と称す。)の音声が入力されると、第1音声照合部1が送出する照合スコアlogPK が高くなるため、正規化スコアSがしきい値εを超える場合が頻出し、キーワード類似語の音声がキーワードの音声であるとして受理されてしまう。
本発明の目的は、上記課題を解決し、キーワードに類似した音声が入力されても、十分な精度でキーワードを認識することができる音声キーワード認識装置を提供することにある。
上記課題を解決するために、本発明は、入力音声からキーワードを認識する音声キーワード認識装置において、キーワードに類似するキーワード類似語を大語彙辞典から抽出する類似語生成部と、前記キーワードと前記キーワード類似語とキーワード・キーワード類似語音響モデルとガーベージモデルとから得られる音響モデル列と入力音声とを照合して照合スコアを送出する音声照合部と、前記音声照合部から送出される照合スコアを元に正規化スコアを計算する正規化計算部と、前記音声照合部での照合がキーワードに対するものであるか否かを判定する判定部とを備え、前記音声照合部での照合がキーワードに対するものであると判定した場合に、前記正規化スコアを有効とすることを特徴とする。
また、本発明は、類似語生成部が、コンフュージョンマトリックスを用いて、キーワードに類似するキーワード類似語を大語彙辞典から抽出することを特徴とする。
本発明では、キーワードとキーワード類似語とキーワード・キーワード類似語音響モデルとガーベージモデルとから得られる音響モデル列と入力音声とを照合し、その照合結果がキーワードに対するものであるか否かを判定し、キーワードに対するものであると判定したときに正規化スコアを有効とするので、キーワード類似語の音声が入力されても、十分な精度でキーワードを認識することができる。
以下、図面を参照して本発明について説明する。図1は、本発明に係る音声キーワード認識装置の一実施形態を示すブロック図であり、図3と同一あるいは同等部分には同じ符号を付してある。
本実施形態は、キーワード3、キーワード類似語9、キーワード3およびキーワード類似語9をモデル化するキーワード・キーワード類似語モデル10、ガーベージモデル5、バックグラウンドモデル6を有する。モデル化には、例えば、HHM(Hidden Harkov Model)を用いることができる。キーワード3は、音声認識タスクに応じて1つまたは複数設定される。キーワード3、キーワード類似語9、キーワード・キーワード類似語モデル10、ガーベージモデル5、バックグラウンドモデル6は、照合のために予め格納されている。
キーワード類似語9は、キーワード3との類似度が一定しきい値を上回る単語であり、類似語生成部11により音声認識実行に先立って、キーワード3と大語彙辞典12とを用いて生成される。
入力音声は、第1音声照合部1と第2音声照合部2に並列に入力される。第1音声照合部1と第2音声照合部2での照合は並行して行われる。
第1音声照合部1は、キーワードと3とキーワード類似語9とキーワード・キーワード類似語音響モデル10とガベージモデル5とから得られる音響モデル列と入力音声とを照合し、最大の照合スコアlogPK を送出する。また、第2音声照合部2は、バックグラウンドモデル6と入力音声とを照合し、最大の照合スコアlogPB を送出する。
正規化計算部7は、第1音声照合部1、第2音声照合部2から送出される照合スコアlogPK 、logPB を計算することにより正規化スコアSを求める。正規化スコアSは、下記式(1)により求めることができる。
S=(logPK −logPB )/(Te −Ts ) ・・・(1)
ここで、Ts、Te はそれぞれ、照合した音声の開始時刻、終了時刻であり、Te −Ts は、照合した音声の区間長(時間)である。
S=(logPK −logPB )/(Te −Ts ) ・・・(1)
ここで、Ts、Te はそれぞれ、照合した音声の開始時刻、終了時刻であり、Te −Ts は、照合した音声の区間長(時間)である。
判定部8は、第1照合部1での照合がキーワードに対するものであるかキーワード類似語に対するものであるかをキーワード3およびキーワード類似語9に基づいて判定し、キーワードであると判定した場合には、正規化スコアSを有効なものとし、キーワード類似語であると判定した場合には、正規化スコアSを無効なものとして棄却する。なお、第1照合部1での照合がキーワードに対するものであるかキーワード類似語に対するものであるかは、第1照合部1から照合スコアlogPK とともに照合対象となったキーワードあるいはキーワード類似語が送出されてくるので、これとキーワード3およびキーワード類似語9とを比較することにより判定できる。
正規化計算部7から送出された正規化スコアSのうち、判定部8で有効と判定された正規化スコアSは、予め定められたしきい値εと比較される。この比較の結果、正規化スコアSがしきい値ε以上(S≧ε)であれば、照合区間の音声は、キーワードであるとして受理され、しきい値ε未満(S<ε)であれば、照合区間の音声は、キーワードでないとして棄却される。照合区間の音声がキーワードとして受理された場合、照合対象となったキーワードが認識結果として送出される。
以上の説明から明らかなように、本発明では、第1照合部1での照合がキーワードに対するものであるかキーワード類似語に対するものであるかを判定し、キーワードであると判定した場合に正規化スコアSを有効なものとしているので、キーワード類似語の音声がキーワードの音声であるとして誤って受理されることが低減され、キーワード認識の精度を上げることができる。
次に、キーワード類似語の生成について説明する。類似語生成部11は、予め準備された大語彙辞典12の各語とキーワード3の各語の類似度を計算し、類似度が一定しきい値thを上回った単語をキーワード類似語9として生成する。生成されたキーワード類似語9は、音声認識実行に先立って登録される。
図2は、類似語生成部11の一例を示すブロック図である。キーワード3は類似度計算部21に入力される。類似度計算部21は、入力されたキーワード3と大語彙辞典12内の単語との間の類似度smを順次計算する。類似度smを計算するために、類似語生成部11は、音声を構成する音素間の誤り傾向を示すコンフュージョンマトリックス22を格納している。類似度計算部21は、キーワード1単語と大語彙辞書12内の各単語をそれぞれ音素系列に変換し、コンフュージョンマトリックス22の誤り率を音素間距離としたDPマッチングを行うことにより類似度smを計算する。
例えば、キーワード3の先頭から始まる6音素以上の部分系列と、大語彙辞典12内の単語の、任意の位置から始まる6音素以上の部分系列の全ての組み合わせについて類似度を求め、このうちの最大の類似度を、キーワード3と大語彙辞典12内の単語間の類似度smとすることができる。類似語出力部23は、計算された類似度smが一定しきい値thを上回った大語彙辞書12内の単語をキーワード類似語として送出する。
例えば、図示のように、キーワード3が「キュウリ」であり、大語彙辞典12内に「リンゴ」、「レモン」、「ブドウ」、「キウイ」、「マンゴー」、・・・が格納されている場合、類似度計算部31は、コンフュージョンマトリックス22を用いて「キュウリ」−「リンゴ」間、「キュウリ」−「レモン」間、「キュウリ」−「ブドウ」間、「キュウリ」−「キウイ」間、「キュウリ」−「マンゴー」間、・・・の類似度smを順次計算する。これらの類似度smがそれぞれ、-19.0、-22.8、-18.0、-10.6、-29.5、・・・であり、しきい値thが-20.0であるとすれば、sm≧thである「キウイ」、「ブドウ」、「リンゴ」がキーワード類似語9として生成される。同様の処理が、全てのキーワードに対して行われ、全てのキーワードに対する類似語9が生成されて登録される。
上記実施形態では、第1音声照合部1による音響モデル列と入力音声との照合の他に、第2音声照合部2によるバックグラウンドモデル6と入力音声との照合を行っているが、第2音声照合部2を省略することもできる。この場合には、下記式(2)により正規化スコアSは求めればよい。
S=logPK/(Te −Ts ) ・・・(2)
S=logPK/(Te −Ts ) ・・・(2)
なお、キーワード類似語の生成は、音声認識実行に先立って1回だけ行えばよいが、キーワードを変更したり、追加したりした場合には、その都度、該キーワードに対する類似語を生成して登録する。
本発明は、携帯電話向けボイスポータルサービスの他、コールセンタ向け音声対話システムやカーナビ向け音声対話システムなどに利用して有用である。
1・・・第1音声照合部、2・・・第2音声照合部、3・・・キーワード、4・・・キーワード音響モデル、5・・・ガーベージモデル、6・・・バックグラウンドモデル、7・・・正規化計算部、8・・・判定部、9・・・キーワード類似語、10・・・キーワード・キーワード類似語音響モデル、12・・・大語彙辞書、21・・・類似度計算部、22・・・コンフュージョンマトリクス、23・・・類似語出力部
Claims (2)
- 入力音声からキーワードを認識する音声キーワード認識装置において、
キーワードに類似するキーワード類似語を大語彙辞典から抽出する類似語生成部と、
前記キーワードと前記キーワード類似語とキーワード・キーワード類似語音響モデルとガーベージモデルとから得られる音響モデル列と入力音声とを照合して照合スコアを送出する音声照合部と、
前記音声照合部から送出される照合スコアを元に正規化スコアを計算する正規化計算部と、
前記音声照合部での照合がキーワードに対するものであるか否かを判定する判定部とを備え、
前記音声照合部での照合がキーワードに対するものであると判定した場合に、前記正規化スコアを有効とすることを特徴とする音声キーワード認識装置。 - 前記類似語生成部は、コンフュージョンマトリックスを用いて、キーワードに類似するキーワード類似語を大語彙辞典から抽出することを特徴とする請求項1に記載の音声キーワード認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003321231A JP2005092310A (ja) | 2003-09-12 | 2003-09-12 | 音声キーワード認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003321231A JP2005092310A (ja) | 2003-09-12 | 2003-09-12 | 音声キーワード認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005092310A true JP2005092310A (ja) | 2005-04-07 |
Family
ID=34452972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003321231A Pending JP2005092310A (ja) | 2003-09-12 | 2003-09-12 | 音声キーワード認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005092310A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116075A (ja) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | 音声認識装置 |
JP2010020102A (ja) * | 2008-07-10 | 2010-01-28 | Fujitsu Ltd | 音声認識装置、音声認識方法及びコンピュータプログラム |
JP2010078877A (ja) * | 2008-09-25 | 2010-04-08 | Pioneer Electronic Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2010230852A (ja) * | 2009-03-26 | 2010-10-14 | Yamaha Corp | コマンド認識装置 |
JP2015520410A (ja) * | 2012-04-27 | 2015-07-16 | インタラクティブ・インテリジェンス・インコーポレイテッド | 音声認識に対する負例(アンチワード)に基づく性能改善 |
JP2021033051A (ja) * | 2019-08-23 | 2021-03-01 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
-
2003
- 2003-09-12 JP JP2003321231A patent/JP2005092310A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116075A (ja) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | 音声認識装置 |
JP2010020102A (ja) * | 2008-07-10 | 2010-01-28 | Fujitsu Ltd | 音声認識装置、音声認識方法及びコンピュータプログラム |
US8271282B2 (en) | 2008-07-10 | 2012-09-18 | Fujitsu Limited | Voice recognition apparatus, voice recognition method and recording medium |
JP2010078877A (ja) * | 2008-09-25 | 2010-04-08 | Pioneer Electronic Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2010230852A (ja) * | 2009-03-26 | 2010-10-14 | Yamaha Corp | コマンド認識装置 |
JP2015520410A (ja) * | 2012-04-27 | 2015-07-16 | インタラクティブ・インテリジェンス・インコーポレイテッド | 音声認識に対する負例(アンチワード)に基づく性能改善 |
JP2021033051A (ja) * | 2019-08-23 | 2021-03-01 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP7191792B2 (ja) | 2019-08-23 | 2022-12-19 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US11823669B2 (en) | 2019-08-23 | 2023-11-21 | Kabushiki Kaisha Toshiba | Information processing apparatus and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11990127B2 (en) | User recognition for speech processing systems | |
US11854545B2 (en) | Privacy mode based on speaker identifier | |
US10027662B1 (en) | Dynamic user authentication | |
US11776540B2 (en) | Voice control of remote device | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US10593328B1 (en) | Voice control of remote device | |
US9972318B1 (en) | Interpreting voice commands | |
US10678504B1 (en) | Maintaining context for voice processes | |
US10365887B1 (en) | Generating commands based on location and wakeword | |
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
US6792408B2 (en) | Interactive command recognition enhancement system and method | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP5240457B2 (ja) | 拡張認識辞書学習装置と音声認識システム | |
JP2000221990A (ja) | 音声認識装置 | |
Mantena et al. | Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios | |
JPWO2014136222A1 (ja) | 音声認識装置および音声認識方法 | |
KR102394912B1 (ko) | 음성 인식을 이용한 주소록 관리 장치, 차량, 주소록 관리 시스템 및 음성 인식을 이용한 주소록 관리 방법 | |
US11430434B1 (en) | Intelligent privacy protection mediation | |
CN108806691B (zh) | 语音识别方法及系统 | |
JP2005092310A (ja) | 音声キーワード認識装置 | |
WO2007111169A1 (ja) | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム | |
CN100380442C (zh) | 利用优化音素集进行普通话语音识别的系统和方法 | |
JP6001944B2 (ja) | 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム | |
JP2008083165A (ja) | 音声認識処理プログラム及び音声認識処理方法 |