JP2003308091A

JP2003308091A - 音声認識装置、音声認識方法および音声認識プログラム

Info

Publication number: JP2003308091A
Application number: JP2002114632A
Authority: JP
Inventors: Yoshihiro Kawazoe; 佳洋川添; Hajime Kobayashi; 載小林
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2002-04-17
Filing date: 2002-04-17
Publication date: 2003-10-31
Also published as: CN1194337C; EP1355296A2; US20030200086A1; EP1355296B1; DE60305568D1; EP1355296A3; DE60305568T2; CN1452156A

Abstract

(57)【要約】【課題】不要語に関する特徴量のデータ量を増やすこ
となく、音声認識の性能が高い音声認識装置を提供する
こと。【解決手段】音声認識装置１００は、所定のフレーム
分割された発話音声の特徴量を抽出する音声分析部１０
３と、キーワードモデルデータベース１０４に格納され
た認識すべき複数のキーワードの特徴量パターンとフレ
ーム毎の特徴量とに基づいて特徴量の類似度を算出する
第１類似度算出部１０６と、ガーベージモデルデータベ
ース１０５に格納された認識すべき不要語構成要素の特
徴量パターンとフレーム毎の特徴量とに基づいて特徴量
の類似度を算出する第２類似度算出部１０７と、を備
え、第２類似度算出部１０７が、補正値処理部１０８に
よって発話音声の環境音に基づいて算出された補正値を
加えて類似度を算出することによって発話音声に含まれ
るキーワードを認識するようになっている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＨＭＭ（Hidden M
arkov Models）法を用いて音声認識を行う技術分野に属
し、より詳細には、発話された音声からキーワードを認
識する技術分野に属する。

【０００２】

【従来の技術】現在、人間が発声した音声を認識する音
声認識装置が開発されており、このような音声認識装置
では、人間が所定の語句の音声を発声すると、その入力
信号から語句の音声を認識するようになっている。

【０００３】また、このような音声認識装置を車載され
たナビゲーション装置やパーソナルコンピュータなど各
種装置に適用すれば、その装置はキーボードやスイッチ
選択の手動操作を要することなく、各種の情報を入力す
ることができるようになる。

【０００４】したがって、自動車の運転中にナビゲーシ
ョン装置を利用するなどの人間が両手を使用する作業環
境であっても、操作者は、所望の情報を当該装置に入力
することができるようになっている。

【０００５】このような音声認識の代表的なものにＨＭ
Ｍ（隠れマルコフモデル）と呼ばれる確率モデルを利用
して音声認識を行う方法（以下、単に音声認識という）
がある。

【０００６】この音声認識は、発話音声の特徴量のパタ
ーンを、予め用意されたキーワードとなる認識候補の語
句（以下、認識対象語（キーワード）という）を示す音
声の特徴量のパターンとマッチングさせることにより音
声認識を行うようになっている。

【０００７】具体的には、この音声認識は、予め定めら
れた時間間隔毎に入力された発話音声（入力信号）を分
析して特徴量を抽出し、この入力信号の特徴量に予めデ
ータベースに格納されたＨＭＭによって示される認識対
象語の特徴量のデータとマッチングの割合（以下、類似
度という）を算出するとともに、発話音声の全てにおけ
るこの類似度を積算し、この積算された類似度が最も高
い認識対象語を認識結果として確定するようになってい
る。

【０００８】この結果、この音声認識は、発話音声であ
る入力信号から所定の語句の音声認識を行うことができ
るようになっている。

【０００９】なお、ＨＭＭは、遷移する状態の集まりと
して表される統計的信号源モデルであり、予めキーワー
ドなどの認識すべき音声の特徴量示す。また、このＨＭ
Ｍは、予め複数の音声データを採取し、これらの音声デ
ータに基づいて生成されるようになっている。

【００１０】このような音声認識では、発話音声に含ま
れる認識対象語となるキーワード部分を如何に抽出する
かが重要になる。

【００１１】発話音声には、通常、キーワードの他に、
予め既知の認識する際に不要な語である不要語（認識対
象語の前後に付加される「えー」や「です」等の語）が
含まれるようになっており、発話音声は、原則的には、
不要語と当該不要語に挟まれたキーワードによって形成
される。

【００１２】従来、一般的に、音声認識を行う場合、音
声認識の対象となるキーワードを認識することによって
行うワードスポッティングという手法（以下、単にワー
ドスポッティング音声認識という）がよく用いられてい
る。

【００１３】このワードスポッティング音声認識は、認
識対象となる発話音声を、キーワードモデルを示すＨＭ
Ｍの他に、不要語のモデル（以下、ガーベージモデルと
いう）を示すＨＭＭを用意し、最も特徴量の類似度が高
いキーワードモデル、ガーベージモデルまたはそれらの
組み合わせを認識することによって音声認識を行うよう
になっている。

【００１４】

【発明が解決しようとする課題】しかしながら、このよ
うな音声認識装置では、一般的に、多くの不要語を識別
してキーワードを認識するために、不要語を識別する１
のＨＭＭを、複数の不要語の音声成分の特徴量から生成
するようになっているので、各々の発話音声に適用する
場合には、高い類似度を算出することができず、不要語
とキーワードの組み合わせによる識別を的確に行うこと
ができないという問題を有していた。

【００１５】すなわち、一般的に、従来の音声認識装置
では、不要語ＨＭＭのデータ量を少なくするために、予
めガーベージモデルを生成するときに、１の不要語ＨＭ
Ｍを複数の不要語の音声成分の特徴量を有するよう生成
し、メモリなどの格納手段に格納するようになってお
り、音声認識を行う際に、１の不要語ＨＭＭによって複
数の不要語の識別を行うようになっているので、各不要
語毎に一致する不要語ＨＭＭを用意して類似度を算出す
るものに比べ、類似度は低くなる。

【００１６】このため、このような音声認識装置では、
発話音声全体を各ＨＭＭの組み合わせによって不要語と
キーワードを識別するときに、各ＨＭＭによってあまり
高くない類似度が蓄積され、発話音声全体の累積類似度
が他のキーワードＨＭＭおよび不要語ＨＭＭの組み合わ
せと偶然に一致した場合の類似度より低くなる場合が発
生し、誤認識が生ずることとなる。

【００１７】また、発話音声が発話された環境下が、雑
音などの環境音が大きい場合には、これらの音声成分も
一緒に音声認識装置に取り込まれてしまうので、この環
境音の音声成分によって誤認識が生ずるという問題を有
していた。

【００１８】本発明は、上記の各問題点に鑑みて為され
たもので、その課題は、不要語に関する特徴量のデータ
量を増やすことなく、音声認識の性能が高い音声認識装
置を提供することにある。

【００１９】

【課題を解決するための手段】上記の課題を解決するた
めに、請求項１に記載の発明は、発話された発話音声に
含まれるキーワードを抽出して当該キーワードを認識す
る音声認識装置であって、前記発話音声を分析すること
によって当該発話音声の音声成分の特徴量である発話音
声特徴量を抽出する抽出手段と、１または２以上の前記
キーワードの音声成分の特徴量を示すキーワード特徴量
データおよび１または２以上の前記キーワードを構成し
ない不要語の音声成分の特徴量を示す不要語特徴量デー
タを予め格納しておく格納手段と、前記発話音声の少な
くとも一部の音声区間の抽出された発話音声特徴量と前
記格納手段に格納された前記キーワード特徴量データお
よび前記不要語特徴量データとの前記特徴量の特性が類
似する割合を示す類似度を算出する算出手段と、前記算
出した類似度に基づいて前記発話音声に含まれる認識す
べき前記キーワードまたは前記不要語の少なくとも何れ
かを決定する決定手段と、を備え、前記算出手段が、前
記発話音声特徴量と前記不要語特徴量データとの類似度
を算出するときに、予め設定された補正値を用いて当該
類似度を算出する構成を有している。

【００２０】この構成により、請求項１に記載の発明で
は、抽出した発話音声特徴量と不要語特徴量データとの
類似度を算出する際に、予め設定された補正値を用いて
当該類似度を算出し、この算出した類似度に基づいて前
記発話音声に含まれる認識すべきキーワードまたは不要
語の少なくとも何れかを決定する。

【００２１】したがって、発話音声が発話された環境下
の雑音レベル、または、データ量を少なくするために複
数の特徴量の特性を結合した不要語特徴量データを用い
て類似度を算出する際の算出誤差などの原因により誤認
識が生ずる場合であっても、補正値によって抽出した発
話音声の特徴量と不要語特徴量データとの類似度を調整
することができ、キーワードと不要語の識別を的確に行
うことができるので、誤認識を防止し、確実にキーワー
ドを認識することができる。

【００２２】また、請求項２に記載の発明は、請求項１
に記載の音声認識装置において、前記発話音声特徴量と
前記不要語特徴量データとの類似度を算出する際に、発
話音声が発話された周囲の雑音レベルに基づいて前記補
正値を予め設定する設定手段を備え、前記算出手段が、
前記発話音声の少なくとも一部の音声区間の抽出された
前記発話音声特徴量と前記不要語特徴量データとの類似
度を算出するときに、前記設定手段によって予め設定さ
れた補正値を用いて当該類似度を算出する構成を有して
いる。

【００２３】この構成により、請求項２に記載の発明で
は、発話音声特徴量と不要語特徴量データとの類似度を
算出する際に、発話音声が発話された周囲の雑音レベル
に基づいて設定された補正値を用いて当該類似度を算出
するしたがって、発話音声が発話された環境下の雑音レ
ベルにより誤認識が生ずる場合であっても、補正値によ
って抽出した発話音声の特徴量と不要語特徴量データと
の類似度を調整することができ、キーワードと不要語の
識別を的確に行うことができるので、誤認識を防止し、
確実にキーワードを認識することができる。

【００２４】また、請求項３に記載の発明は、請求項１
に記載の音声認識装置において、前記決定手段が算出し
た前記類似度に基づいて前記発話音声に含まれる認識す
べき前記キーワードまたは前記不要語の少なくとも何れ
かを決定するときに、前記決定されたキーワードの時間
長と前記発話音声の時間長との割合に基づいて前記補正
値を設定する設定手段を備え、前記算出手段が、前記発
話音声の少なくとも一部の音声区間の抽出された前記発
話音声特徴量と前記不要語特徴量データとの類似度を算
出するときに、以前に前記設定手段によって設定された
補正値を用いて当該類似度を算出する構成を有してい
る。

【００２５】この構成により、請求項３に記載の発明で
は、発話音声特徴量と不要語特徴量データとの類似度を
算出するときに、以前に決定されたキーワードの時間長
と発話音声の時間長との割合に基づいて予め設定された
補正値を用いて当該類似度を算出する構成を有してい
る。

【００２６】したがって、データ量を少なくするために
複数の特徴量の特性を結合した不要語特徴量データを用
いて類似度を算出する際の算出誤差などの原因により誤
認識が生ずる場合であっても、補正値によって抽出した
発話音声の特徴量と不要語特徴量データとの類似度を調
整することができ、キーワードと不要語の識別を的確に
行うことができるので、誤認識を防止し、確実にキーワ
ードを認識することができる。

【００２７】また、請求項４に記載の発明は、請求項１
乃至３の何れか一項に記載の音声認識装置において、前
記格納手段に格納される不要語の音声成分の特徴量を示
す不要語特徴量データが、複数の不要語の特徴量を示す
データである構成を有している。

【００２８】この構成により、請求項４に記載の発明で
は、格納手段に格納される不要語の音声成分の特徴量を
示す不要語特徴量データが、複数の不要語の特徴量を示
す。

【００２９】したがって、複数の不要語の特徴量データ
によって、発話音声特徴量と特徴量データとの類似度を
算出するので、予め格納する不要語特徴量データのデー
タ量を少なくすることができるとともに、複数の特徴量
の特性を結合した不要語特徴量データを用いて類似度を
算出することによる類似度の算出誤差によって誤認識が
生ずる場合であっても、補正値によって抽出した発話音
声の特徴量と不要語特徴量データとの類似度を調整する
ことができ、キーワードと不要語の識別を的確に行うこ
とができるので、誤認識を防止し、確実にキーワードを
認識することができる。

【００３０】また、請求項５に記載の発明は、請求項１
乃至４の何れか一項に記載の音声認識装置において、前
記格納手段に格納されている不要語特徴量データが前記
不要語の構成要素である不要語要素の音声成分の特徴量
を示す不要語構成要素特徴量データによって構成されて
いるとともに、前記算出手段が、前記発話音声の少なく
とも一部の音声区間の抽出された前記発話音声特徴量と
前記不要語特徴量データとの類似度を算出するときに、
前記不要語構成要素特徴量に基づいて当該類似度を算出
し、前記決定手段が、前記算出した類似度に基づいて前
記発話音声に含まれる認識すべき前記キーワードまたは
前記不要語の少なくとも何れかを決定する構成を有して
いる。

【００３１】この構成により、請求項５に記載の発明で
は、抽出された発話音声特徴量と不要語構成要素を不要
語特徴量データとの類似度を算出する際に、不要語構成
要素特徴量に基づいて類似度を算出し、算出した類似度
に基づいて発話音声に含まれる認識すべきキーワードま
たは不要語の少なくとも何れかを決定する。

【００３２】したがって、不要語を識別する際に、格納
されている不要語構成要素特徴量データに基づいて当該
不要語との類似度を算出し、キーワードと不要語の識別
を的確に行うことにより、少ないデータによって的確に
不要語を識別することができるので、予め不要語を認識
するためのデータ量を増やすことなく、識別することが
可能な不要語を増加させることができ、キーワードの抽
出および認識の正確性を向上させることができるととも
に、発話音声が発話された環境下の雑音レベル、また
は、データ量を少なくするために複数の特徴量の特性を
結合した不要語特徴量データを用いて類似度を算出する
際の算出誤差などの原因により誤認識が生ずる場合であ
っても、補正値によって抽出した発話音声の特徴量と不
要語特徴量データとの類似度を調整することができ、確
実にキーワードを認識することができる。

【００３３】また、請求項６に記載の発明は、発話され
た発話音声に含まれるキーワードを抽出して当該キーワ
ードを認識する音声認識方法であって、前記発話音声を
分析することによって当該発話音声の音声成分の特徴量
である発話音声特徴量を抽出する抽出処理工程と、１ま
たは２以上の前記キーワードの音声成分の特徴量を示す
キーワード特徴量データおよび１または２以上の前記キ
ーワードを構成しない不要語の音声成分の特徴量を示す
不要語特徴量データを、予め格納されている格納手段か
ら取得する取得処理工程と、前記発話音声の少なくとも
一部の音声区間の抽出された前記発話音声特徴量と前記
格納手段に予め格納された前記キーワード特徴量データ
および前記不要語特徴量データとの前記特徴量の特性が
類似する割合を示す類似度を算出する算出処理工程と、
前記算出した類似度に基づいて前記発話音声に含まれる
認識すべき前記キーワードまたは前記不要語の少なくと
も何れかを決定する決定処理工程と、を含み、前記算出
処理工程においては、前記発話音声特徴量と前記不要語
特徴量データとの類似度を算出するときに、予め設定さ
れた補正値を用いて当該類似度を算出する構成を有して
いる。

【００３４】この構成により、請求項６に記載の発明で
は、抽出した発話音声特徴量と不要語特徴量データとの
類似度を算出する際に、予め設定された補正値を用いて
当該類似度を算出し、この算出した類似度に基づいて前
記発話音声に含まれる認識すべきキーワードまたは不要
語の少なくとも何れかを決定する。

【００３５】したがって、発話音声が発話された環境下
の雑音レベル、または、データ量を少なくするために複
数の特徴量の特性を結合した不要語特徴量データを用い
て類似度を算出する際の算出誤差などの原因により誤認
識が生ずる場合であっても、補正値によって抽出した発
話音声の特徴量と不要語特徴量データとの類似度を調整
することができ、キーワードと不要語の識別を的確に行
うことができるので、誤認識を防止し、確実にキーワー
ドを認識することができる。

【００３６】また、請求項７に記載の発明は、請求項６
に記載の音声認識方法において、前記発話音声が発話さ
れた周囲の雑音レベルに基づいて前記補正値を予め設定
する設定処理工程を含み、前記算出処理工程において
は、前記発話音声の少なくとも一部の音声区間の抽出さ
れた前記発話音声特徴量と前記不要語特徴量データとの
類似度を算出するときに、前記設定処理工程によって予
め設定された補正値を用いて当該類似度を算出する構成
を有している。

【００３７】この構成により、請求項７に記載の発明で
は、発話音声特徴量と不要語特徴量データとの類似度を
算出する際に、発話音声が発話された周囲の雑音レベル
に基づいて設定された補正値を用いて当該類似度を算出
する。

【００３８】したがって、発話音声が発話された環境下
の雑音レベルにより誤認識が生ずる場合であっても、補
正値によって抽出した発話音声の特徴量と不要語特徴量
データとの類似度を調整することができ、キーワードと
不要語の識別を的確に行うことができるので、誤認識を
防止し、確実にキーワードを認識することができる。

【００３９】また、請求項８に記載の発明は、請求項６
に記載の音声認識方法において、前記決定処理工程によ
って算出された前記類似度に基づいて前記発話音声に含
まれる認識すべき前記キーワードまたは前記不要語の少
なくとも何れかを決定するときに、前記決定されたキー
ワードの時間長と前記発話音声の時間長との割合に基づ
いて前記補正値を設定する設定処理工程を含み、前記算
出処理工程においては、前記発話音声の少なくとも一部
の音声区間の抽出された前記発話音声特徴量と前記不要
語特徴量データとの類似度を算出するときに、以前に前
記設定処理工程によって設定された補正値を用いて当該
類似度を算出する構成を有している。

【００４０】この構成により、請求項８に記載の発明で
は、発話音声特徴量と不要語特徴量データとの類似度を
算出するときに、以前に決定されたキーワードの時間長
と発話音声の時間長との割合に基づいて予め設定された
補正値を用いて当該類似度を算出する構成を有してい
る。

【００４１】したがって、データ量を少なくするために
複数の特徴量の特性を結合した不要語特徴量データを用
いて類似度を算出する際の算出誤差などの原因により誤
認識が生ずる場合であっても、補正値によって抽出した
発話音声の特徴量と不要語特徴量データとの類似度を調
整することができ、キーワードと不要語の識別を的確に
行うことができるので、誤認識を防止し、確実にキーワ
ードを認識することができる。

【００４２】また、請求項９に記載の発明は、請求項６
乃至８の何れか一項に記載の音声認識方法において、前
記取得処理工程においては、複数の不要語の音声成分の
特徴量を示す不要語特徴量データを予め格納されている
格納手段から取得する構成を有している。

【００４３】この構成により、請求項９に記載の発明で
は、格納手段に格納される不要語の音声成分の特徴量を
示す不要語特徴量データが、複数の不要語の特徴量を示
す。

【００４４】したがって、複数の不要語の特徴量データ
によって、発話音声特徴量と特徴量データとの類似度を
算出するので、予め格納する不要語特徴量データのデー
タ量を少なくすることができるとともに、複数の特徴量
の特性を結合した不要語特徴量データを用いて類似度を
算出することによる類似度の算出誤差によって誤認識が
生ずる場合であっても、補正値によって抽出した発話音
声の特徴量と不要語特徴量データとの類似度を調整する
ことができ、キーワードと不要語の識別を的確に行うこ
とができるので、誤認識を防止し、確実にキーワードを
認識することができる。

【００４５】また、請求項１０に記載の発明は、請求項
６乃至９の何れか一項に記載の音声認識方法において、
前記取得処理工程においては、不要語特徴量データが前
記不要語の構成要素である不要語要素の音声成分の特徴
量を示す不要語構成要素特徴量データを予め格納されて
いる格納手段から取得するとともに、前記算出処理工程
においては、前記発話音声の少なくとも一部の音声区間
の抽出された前記発話音声特徴量と前記不要語特徴量デ
ータとの類似度を算出するときに、前記不要語構成要素
特徴量に基づいて当該類似度を算出し、前記決定処理工
程においては、前記算出した類似度に基づいて前記発話
音声に含まれる認識すべき前記キーワードまたは前記不
要語の少なくとも何れかを決定する構成を有している。

【００４６】この構成により、請求項１０に記載の発明
では、抽出された発話音声特徴量と不要語構成要素を不
要語特徴量データとの類似度を算出する際に、不要語構
成要素特徴量に基づいて類似度を算出し、算出した類似
度に基づいて発話音声に含まれる認識すべきキーワード
または不要語の少なくとも何れかを決定する。

【００４７】したがって、不要語を識別する際に、格納
されている不要語構成要素特徴量データに基づいて当該
不要語との類似度算出し、キーワードと不要語の識別を
的確に行うことにより、少ないデータによって的確に不
要語を識別することができるので、予め不要語を認識す
るためのデータ量を増やすことなく、識別することが可
能な不要語を増加させることができ、キーワードの抽出
および認識の正確性を向上させることができるととも
に、発話音声が発話された環境下の雑音レベル、また
は、データ量を少なくするために複数の特徴量の特性を
結合した不要語特徴量データを用いて類似度を算出する
際の算出誤差などの原因により誤認識が生ずる場合であ
っても、補正値によって抽出した発話音声の特徴量と不
要語特徴量データとの類似度を調整することができ、確
実にキーワードを認識することができる。

【００４８】また、請求項１１に記載の発明は、コンピ
ュータによって、発話された発話音声に含まれるキーワ
ードを抽出して当該キーワードを認識する音声認識プロ
グラムであって、前記コンピュータを、前記発話音声を
分析することによって当該発話音声の音声成分の特徴量
である発話音声特徴量を抽出する抽出手段、１または２
以上の前記キーワードの音声成分の特徴量を示すキーワ
ード特徴量データおよび１または２以上の前記キーワー
ドを構成しない不要語の音声成分の特徴量を示す不要語
特徴量データを、予め格納されている格納手段から取得
する取得手段、前記発話音声の少なくとも一部の音声区
間の抽出された前記発話音声特徴量と前記格納手段に予
め格納された前記キーワード特徴量データおよび前記不
要語特徴量データとの前記特徴量の特性が類似する割合
を示す類似度を算出する算出手段、前記算出した類似度
に基づいて前記発話音声に含まれる認識すべき前記キー
ワードまたは前記不要語の少なくとも何れかを決定する
決定手段、として機能させるとともに、前記発話音声特
徴量と前記不要語特徴量データとの類似度を算出すると
きに、予め設定された補正値を用いて当該類似度を算出
する算出手段として機能させる構成を有している。

【００４９】この構成により、請求項１１に記載の発明
では、抽出した発話音声特徴量と不要語特徴量データと
の類似度を算出する際に、予め設定された補正値を用い
て当該類似度を算出し、この算出した類似度に基づいて
前記発話音声に含まれる認識すべきキーワードまたは不
要語の少なくとも何れかを決定する。

【００５０】したがって、発話音声が発話された環境下
の雑音レベル、または、データ量を少なくするために複
数の特徴量の特性を結合した不要語特徴量データを用い
て類似度を算出する際の算出誤差などの原因により誤認
識が生ずる場合であっても、補正値によって抽出した発
話音声の特徴量と不要語特徴量データとの類似度を調整
することができ、キーワードと不要語の識別を的確に行
うことができるので、誤認識を防止し、確実にキーワー
ドを認識することができる。

【００５１】また、請求項１２に記載の発明は、前記コ
ンピュータによって請求項１１に記載の音声認識を行う
音声認識プログラムにおいて、前記コンピュータを、前
記発話音声が発話された周囲の雑音レベルに基づいて前
記補正値を予め設定する設定手段、前記発話音声の少な
くとも一部の音声区間の抽出された前記発話音声特徴量
と前記不要語特徴量データとの類似度を算出するとき
に、前記予め設定された補正値を用いて当該類似度を算
出する算出手段、として機能させる構成を有している。

【００５２】この構成により、請求項１２に記載の発明
では、発話音声特徴量と不要語特徴量データとの類似度
を算出する際に、発話音声が発話された周囲の雑音レベ
ルに基づいて設定された補正値を用いて当該類似度を算
出する。

【００５３】したがって、発話音声が発話された環境下
の雑音レベルにより誤認識が生ずる場合であっても、補
正値によって抽出した発話音声の特徴量と不要語特徴量
データとの類似度を調整することができ、キーワードと
不要語の識別を的確に行うことができるので、誤認識を
防止し、確実にキーワードを認識することができる。

【００５４】また、請求項１３に記載の発明は、コンピ
ュータによって、請求項１１に記載の音声認識を行う音
声認識プログラムにおいて、前記コンピュータを、前記
算出した類似度に基づいて前記発話音声に含まれる認識
すべき前記キーワードまたは前記不要語の少なくとも何
れかを決定するときに、前記決定されたキーワードの時
間長と前記発話音声の時間長との割合に基づいて前記補
正値を設定する設定手段、前記発話音声の少なくとも一
部の音声区間の抽出された前記発話音声特徴量と前記不
要語特徴量データとの類似度を算出するときに、以前に
設定された補正値を用いて当該類似度を算出する算出手
段、として機能させる構成を有している。

【００５５】この構成により、請求項１３に記載の発明
では、発話音声特徴量と不要語特徴量データとの類似度
を算出するときに、以前に決定されたキーワードの時間
長と発話音声の時間長との割合に基づいて予め設定され
た補正値を用いて当該類似度を算出する構成を有してい
る。

【００５６】したがって、データ量を少なくするために
複数の特徴量の特性を結合した不要語特徴量データを用
いて類似度を算出する際の算出誤差などの原因により誤
認識が生ずる場合であっても、補正値によって抽出した
発話音声の特徴量と不要語特徴量データとの類似度を調
整することができ、キーワードと不要語の識別を的確に
行うことができるので、誤認識を防止し、確実にキーワ
ードを認識することができる。

【００５７】また、請求項１４に記載の発明は、コンピ
ュータによって、請求項１１乃至１３の何れか一項に記
載の音声認識プログラムにおいて、前記コンピュータ
を、複数の不要語の音声成分の特徴量を示す不要語特徴
量データを予め格納されている格納手段から取得する取
得手段として機能させる構成を有している。

【００５８】この構成により、請求項１４に記載の発明
では、格納手段に格納される不要語の音声成分の特徴量
を示す不要語特徴量データが、複数の不要語の特徴量を
示している。

【００５９】したがって、複数の不要語の特徴量データ
によって、発話音声特徴量と特徴量データとの類似度を
算出するので、予め格納する不要語特徴量データのデー
タ量を少なくすることができるとともに、複数の特徴量
の特性を結合した不要語特徴量データを用いて類似度を
算出することによる類似度の算出誤差によって誤認識が
生ずる場合であっても、補正値によって抽出した発話音
声の特徴量と不要語特徴量データとの類似度を調整する
ことができ、キーワードと不要語の識別を的確に行うこ
とができるので、誤認識を防止し、確実にキーワードを
認識することができる。

【００６０】また、請求項１５に記載の発明は、コンピ
ュータによって、請求項１１乃至１４の何れか一項に記
載の音声認識を行う音声認識プログラムにおいて、不要
語特徴量データが前記不要語の構成要素である不要語要
素の音声成分の特徴量を示す不要語構成要素特徴量デー
タを予め格納されている格納手段から取得する取得手
段、前記発話音声の少なくとも一部の音声区間の抽出さ
れた前記発話音声特徴量と前記不要語特徴量データとの
類似度を算出するときに、前記不要語構成要素特徴量に
基づいて当該類似度を算出する算出手段、前記算出した
類似度に基づいて前記発話音声に含まれる認識すべき前
記キーワードまたは前記不要語の少なくとも何れかを決
定する決定手段、として機能させる構成を有している。

【００６１】この構成により、請求項１５に記載の発明
では、抽出された発話音声特徴量と不要語構成要素を不
要語特徴量データとの類似度を算出する際に、不要語構
成要素特徴量に基づいて類似度を算出し、算出した類似
度に基づいて発話音声に含まれる認識すべきキーワード
または不要語の少なくとも何れかを決定する。

【００６２】したがって、不要語を識別する際に、格納
されている不要語構成要素特徴量データに基づいて当該
不要語との類似度を算出し、キーワードと不要語の識別
を的確に行うことにより、少ないデータによって的確に
不要語を識別することができるので、予め不要語を認識
するためのデータ量を増やすことなく、識別することが
可能な不要語を増加させることができ、キーワードの抽
出および認識の正確性を向上させることができるととも
に、発話音声が発話された環境下の雑音レベル、また
は、データ量を少なくするために複数の特徴量の特性を
結合した不要語特徴量データを用いて類似度を算出する
際の算出誤差などの原因により誤認識が生ずる場合であ
っても、補正値によって抽出した発話音声の特徴量と不
要語特徴量データとの類似度を調整することができ、確
実にキーワードを認識することができる。

【００６３】

【発明の実施の形態】次に、本発明に好適な実施の形態
について、図面に基づいて説明する。

【００６４】なお、以下に説明する実施の形態は、本発
明に係る音声認識装置を適用した場合の実施形態であ
る。

【００６５】また、本実施形態において説明する不要語
構成要素は、音素単位または音節単位などの音声を構成
する音声学的な基本単位を示すが、本実施形態では説明
の便宜上、音節単位を用いて以下の説明を行う。

【００６６】〔第１実施形態〕図１〜図６は、本発明に
係る音声認識装置の一実施形態を示す図である。

【００６７】まず、図１、図２を用いて本実施形態のＨ
ＭＭを用いた音声言語モデルについて説明する。

【００６８】なお、図１は、本実施形態のＨＭＭを用い
た認識ネットワークを示す音声言語モデルを示す図であ
り、図２は、任意のＨＭＭによって任意の発話音声の認
識を行う場合の音声言語モデルである。

【００６９】本実施形態では、図１に示すようなＨＭＭ
を用いた認識ネットワークを示すモデル（以下、音声言
語モデルという）、すなわち、認識すべきキーワードが
含まれる音声言語モデル１０を想定する。

【００７０】この音声言語モデル１０は、キーワードモ
デル１１の前後にガーベージモデルと呼ばれる不要語を
構成する単位を示すモデル（以下、不要語構成要素モデ
ルという）１２ａ、１２ｂを接続する構成を有し、発話
音声に含まれるキーワードはキーワードモデル１１に、
不要語は各不要語構成要素モデル１２ａ、１２ｂにマッ
チングさせることによってキーワードと不要語を識別
し、発話音声に含まれるキーワードを認識するようにな
っている。

【００７１】実際には、このキーワードモデル１１およ
び不要語構成要素モデル１２ａ、１２ｂは、発話音声の
任意の区間毎に遷移する状態の集まりを表し、非定常信
号源を定常信号の連結で表す統計的信号源モデルである
ＨＭＭによって表すようになっている。

【００７２】このキーワードモデル１１のＨＭＭ（以
下、キーワードＨＭＭという）および不要語構成要素モ
デル１２ａ、１２ｂのＨＭＭ（以下、不要語構成要素Ｈ
ＭＭという）は、ある状態からある状態に状態の遷移の
確率を示す状態遷移確率と状態が遷移するときに観測さ
れるベクトル（フレーム毎の特徴量ベクトル）の確率を
出力する出力確率の２つのパラメータを有し、各キーワ
ードの特徴量パターンおよび不要語構成要素の特徴量パ
ターンを示すようになっている。

【００７３】一般的に、発話音声は、同じ単語や音節で
あっても様々な原因によって生じる音響的変動を有する
ため、発話者が異なれば、発話音声を構成する言語音が
大幅に変化するが、同じ言語音は、主に、スペクトル包
絡とその時間的推移によって特徴付けられるようになっ
ており、このような変動の時系列パターンの確率的な性
質を、ＨＭＭによって精密に表現することができるよう
になっている。

【００７４】したがって、本実施形態では、後述するよ
うに、入力された発話音声の特徴量と、各キーワードＨ
ＭＭおよび不要語構成要素ＨＭＭと、類似度算出および
マッチング処理を行うことによってこの発話音声に含ま
れるキーワードを認識するようになっている。

【００７５】なお、本実施形態では、このＨＭＭは、各
キーワードの特徴量パターンおよび不要語構成要素の特
徴量を示す一定時間毎の各周波数毎におけるパワーを示
すスペクトル包絡のデータまたはこのパワースペクトル
の対数をとって逆フーリエ変換したケプストラムのデー
タを有する確率モデルを示すようになっている。

【００７６】また、このＨＭＭは、予め複数の人間が発
する各音素の音声データを取得し、各音素毎に特徴量の
パターンを抽出して各音素毎の特徴量のパターンに基づ
いて各音素の特徴量のパターンデータを学習させること
によって生成されるようになっており、これにより生成
されたＨＭＭが予め各データベースに格納されるように
なっている。

【００７７】このようなＨＭＭを用いて発話音声などの
音声に含まれるキーワードの音声認識を行う場合には、
当該認識する音声を予め定められた一定時間毎に分割
し、予め格納された各ＨＭＭのデータとのマッチング処
理に基づいて各分割された状態から次の状態に変化する
場合の確率を算出することにより認識すべきキーワード
を確定するようになっている。

【００７８】具体的には、本実施形態では、この特徴量
パターンと任意の状態を示す発話音声の一定時間に区切
られた各音声区間の特徴量と比較することによって、こ
のＨＭＭの特徴量パターンと各音声区間の特徴量の一致
度を示す類似度を算出し、後述するマッチング処理によ
ってあらゆるＨＭＭの繋がり、すなわち、キーワードと
不要語の繋がりの確率を示す累積類似度を算出し、最も
類似度の高いＨＭＭの繋がりを発話音声の言語として認
識するようになっている。

【００７９】この特徴量ベクトルに対する出力確率を示
すＨＭＭは、一般的に、図２に示すように、状態遷移確
率ａと出力確率ｂのパラメータを持ち、入力された特徴
量ベクトルに対する出力確率は、多次元正規分布の混合
確率で実現されるようになっており、各状態についての
類似度（尤度）は、式（１）によって表すことができる
ようになっている。

【００８０】

【数１】ただし、ｘは、任意の音声区間の特徴ベクトル、Σ
_iは、共分散行列、λは混合比、ｕ_iは予め学習された特
徴ベクトルの平均値ベクトル、Ｐは、任意の音声区間の
特徴ベクトルの次元数を示す。

【００８１】なお、図２は、任意の状態ｉから他の状態
（ｉ＋ｎ）に状態変化する場合の状態遷移確率ａと出力
確率ｂを示す図であり、図２に示される各グラフはその
状態における入力された特徴量ベクトルが出力される場
合の出力確率を示すものである。

【００８２】また、実際的には、音声認識を行う場合に
は、式（２）に示すように、上記式（１）の対数を取っ
た対数尤度が用いられることが多い。

【００８３】

【数２】次に、図３を用いてガーベージモデルである不要語構成
要素モデルＨＭＭについて説明する。

【００８４】なお、図３は、任意の不要語およびキーワ
ードの組み合わせにおいての不要語ＨＭＭと不要語構成
要素ＨＭＭとの累積類似度を示すグラフである。

【００８５】上述のように、従来の音声認識装置では、
キーワードモデルと同様に、不要語モデルも不要語の特
徴量を示すＨＭＭで構成するようになっていたため、発
話音声に含まれる不要語を識別するには、予め識別すべ
き不要語を予めデータベースに格納しておく必要があ
る。

【００８６】この識別すべき不要語は、基本的にはあら
ゆる言語が想定され、キーワードを構成しない言語から
言葉として意味が不明で認識することのできない音声ま
で、キーワード以外の全ての音声を含むので、発話音声
に含まれる不要語を的確に識別するためにはＨＭＭによ
って予め準備される不要語の数は膨大になる。

【００８７】したがって、従来の音声認識装置では、発
話音声に含まれる不要語を的確に識別するためには、デ
ータベースに格納するなどによってあらゆる不要語の特
徴量を示すデータを予め取得することが必要となるの
で、予め格納しておくデータ量が膨大となり、当該デー
タを格納する領域を確保するには物理的に不可能であ
る。

【００８８】また、従来の音声認識装置では、格納すべ
きデータ数が膨大となるため、予めデータベースなどに
当該格納すべき不要語のデータを生成するには多大な労
力が必要となる。

【００８９】一方、不要語も音声言語の一種であるた
め、不要語であっても、音節または音素などの構成要素
から成り立っており、一般的に、その音節または音素な
どの構成要素は限られることとなる。

【００９０】したがって、この不要語構成要素に基づい
て発話音声に含まれる不要語の識別を行うようにすれ
ば、予め準備するデータ量を少なくすることができると
ともに、あらゆる不要語を的確に識別することができる
ようになる。

【００９１】すなわち、音節または音素などの構成要素
を組み合わせれば、あらゆる不要語を構成することがで
きるようになるので、音節または音素などの構成要素の
データを準備し、この構成要素データによって不要語を
識別するように構成すれば、予め準備するデータ量を少
なくすることができるとともに、あらゆる不要語を的確
に識別することができるようになる。

【００９２】通常、発話音声に含まれたキーワードを認
識する音声認識装置は、後述するように、発話音声を予
め設定された時間毎の音声区間に分割し、分割された各
音声区間の特徴量毎に予め用意されたＨＭＭなどのガー
ベージモデルおよび各キーワードモデルとの類似度を算
出するとともに、この算出された各音声区間の特徴量毎
の各不要語ＨＭＭおよび各キーワードモデルＨＭＭとの
類似度に基づいて各キーワードと不要語の組み合わせに
おける類似度を積算することによってＨＭＭの繋がりを
示す累積類似度を算出するようになっている。

【００９３】このため、従来の音声認識装置のように発
話音声に含まれた不要語を認識するための不要語ＨＭＭ
が予め用意されていない場合には、発話音声の不要語に
相当する部分の音声の特徴量は、不要語ＨＭＭまたはキ
ーワードＨＭＭの何れのものとも類似度が低くなるとと
もに、累積類似度も低くなるので、誤認識が生ずること
となる。

【００９４】しかしながら、音声区間を不要語構成要素
ＨＭＭによってマッチングさせる場合には、発話音声の
不要語に相当する部分の音声の特徴量と予め用意された
不要語ＨＭＭの特徴量を示すデータとの類似度が高くな
るので、発話音声に含まれるキーワードを示す特徴量
が、キーワードＨＭＭのデータと一致すれば、発話音声
を示すキーワードと不要語との組み合わせの累積類似度
は高くなり、キーワードを的確に認識することができる
ようになる。

【００９５】例えば、図３（ａ）に示すように、発話音
声に含まれる不要語のガーベージモデル（以下、不要語
ＨＭＭという）が予め用意されている場合には、不要語
構成要素ＨＭＭの場合と比べても、累積類似度に相違は
ないが、図３（ｂ）に示すように、発話音声に含まれる
不要語のガーベージモデルのＨＭＭ（以下、不要語ＨＭ
Ｍという）が予め用意されていない場合には、不要語構
成要素ＨＭＭの場合と比べて、累積類似度が低くなって
いる。

【００９６】このように、本実施形態では、不要語構成
要素ＨＭＭを用いて累積類似度を算出することによって
発話音声に含まれた不要語を識別し、キーワードを認識
するようになっているので、少ないデータによって的確
に不要語を識別することができ、キーワードを認識する
ことができるようになっている。

【００９７】次に、図４を用いて本実施形態の不要語構
成要素ＨＭＭに補正値を加え、各類似度を調整する調整
方法について説明する。

【００９８】なお、図４は、類似度に補正値を加減算し
た場合の音声言語モデルの状態の遷移を示す図の一例で
ある。

【００９９】本実施形態では、予め用意された不要語構
成要素ＨＭＭの各特徴量データと各フレーム毎の特徴量
との類似度を算出する場合に、その類似度に補正値を加
えて算出するようになっている。

【０１００】具体的には、本実施形態では、式（３）に
示すように、上記の式（２）で示される不要語構成要素
ＨＭＭと各フレーム毎の特徴量との類似度にのみに補正
値αを加えて類似度を算出するようになっており、強制
的に各類似度を示す確率を調整するようになっている。

【０１０１】

【数３】本実施形態では、後述するように、１つの不要語構成要
素の特徴量を示すＨＭＭによって不要語を識別するよう
になっており、基本的には、１の不要語構成要素ＨＭＭ
が、あらゆる音節・音素などの不要語を構成する要素の
特徴を有することとなるので、この不要語構成要素ＨＭ
Ｍによってあらゆる不要語を識別するようになってい
る。

【０１０２】しかしながら、１の不要語構成要素を用い
て不要語識別する方法では、１の構成要素のみの特徴を
有する不要語構成要素ＨＭＭに比べ、識別を行う不要語
を構成する不要語構成要素との類似度が低くなるため、
発話音声全体に亘って累積類似度を算出する場合に、発
話音声とは異なる不要語とキーワードとの組み合わせが
認識される場合が生ずる。

【０１０３】すなわち、認識すべき不要語とキーワード
との組み合わせの累積類似度より、他の不要語とキーワ
ードとの組み合わせに算出された累積類似度の方が高く
なる場合もあるので、誤認識が発生する場合も生ずる。

【０１０４】したがって、本実施形態では、上述の式
（３）に示すように、補正値αを、不要語構成要素ＨＭ
Ｍの類似度算出時にのみ加えることにより、算出される
類似度を調整し、該当する不要語構成要素ＨＭＭおよび
キーワードＨＭＭの組み合わせの類似度を他の組み合わ
せより高くすることによって誤認識を防止するようにな
っている。

【０１０５】具体的には、図４に示すように、不要語構
成要素ＨＭＭによって類似度を算出するときに加える補
正値αが正の値のときは、発話音声の各フレーム毎の特
徴ベクトルと不要語構成要素ＨＭＭとの類似度は高くな
るため、発話音声の音声認識を行う際にキーワードＨＭ
Ｍ以外の類似度の算出精度が上がり、補正値αを加えな
い場合と比べ、キーワード以外の音声認識区間が長くな
る。

【０１０６】逆に、この補正値αが負の値のときは、発
話音声の各フレーム毎の特徴ベクトルと不要語構成要素
ＨＭＭとの類似度は低くなるため、発話音声の音声認識
を行う際にキーワードＨＭＭ以外の類似度の算出精度が
下がり、補正値αを加えない場合と比べ、キーワード以
外の音声認識区間が短くなる。

【０１０７】このように本実施形態では、不要語構成要
素ＨＭＭを予め生成することによって各フレーム不要語
構成要素ＨＭＭをガーベージモデルデータベースに格納
し、類似度するようになっており、補正値αを、不要語
構成要素ＨＭＭの類似度算出時にのみ加えることによ
り、算出される類似度を調整し、該当する不要語構成要
素ＨＭＭおよびキーワードＨＭＭの組み合わせの類似度
を他の組み合わせより高くすることによって誤認識を防
止するようになっている。

【０１０８】なお、本実施形態では、後述するように、
この補正値αの値を発話音声が発話された環境の雑音に
基づいて設定するようになっている。

【０１０９】次に、図５を用いて本実施形態の音声認識
装置の構成について説明する。

【０１１０】なお、図５は、本発明の第１実施形態にか
かる音声認識装置の構成を示す図である。

【０１１１】音声認識装置１００は、図５に示すよう
に、発話音声が入力され、電気信号（以下、音声信号と
いう）に変換するマイクロホン１０１と、入力された音
声信号から発話音声部分の音声信号を切り出し、予め設
定された時間間隔毎にフレーム分割する入力処理部１０
２と、各フレーム毎に音声信号の特徴量を抽出する音声
分析部１０３と、認識すべき複数のキーワードの特徴量
パターンを示すキーワードＨＭＭが予め格納されている
キーワードモデルデータベース１０４と、キーワードと
識別すべき不要語の構成要素である不要語構成要素ＨＭ
Ｍが予め格納されているガーベージモデルデータベース
１０５と、抽出されたフレーム毎の特徴量とキーワード
ＨＭＭに基づいてこの各フレームの特徴量の類似度を算
出する第１類似度算出部１０６と、抽出されたフレーム
毎の特徴量と不要語構成要素ＨＭＭに基づいて特徴量の
類似度を算出する第２類似度算出部１０７と、フレーム
毎の特徴量と不要語構成要素ＨＭＭに基づいてこの各フ
レームの類似度を算出する場合に、集音した環境音の雑
音レベルに基づいて補正処理を行う補正処理部１０８
と、算出された各フレーム毎の各ＨＭＭとの類似度に基
づいて後述するマッチング処理を行うマッチング処理部
１０９と、マッチング処理に基づいて発話音声に含まれ
るキーワードを判定する判定部１１０とを備えている。

【０１１２】音声分析部１０３は、本発明の抽出手段を
構成し、キーワードモデルデータベース１０４およびガ
ーベージモデルデータベース１０５は、本発明の格納手
段を構成する。また、第１類似度算出部１０６および第
２類似度算出部１０７は、本発明の算出手段および取得
手段を構成し、マッチング処理部１０９および判定部１
１０は、決定手段を構成する。

【０１１３】入力処理部１０２には、マイクロホン１０
１から出力された音声信号が入力され、この入力処理部
１０２は、入力された音声信号の発話音声部分の音声区
間を示す音声信号を切り出すとともに、この切り出され
た音声区間の音声信号を予め設定された時間間隔毎のフ
レームに分割し、音声分析部１０３に出力するようにな
っている。

【０１１４】なお、例えば、１フレームは、１０ｍｓ〜
２０ｍｓ程度の時間間隔毎に分割するようになってい
る。

【０１１５】音声分析部１０３は、入力されたフレーム
毎に当該音声信号を分析するとともに、当該フレーム毎
の音声信号の特徴量を抽出して音声認識部に出力するよ
うになっている。

【０１１６】具体的には、音声分析部１０３は、各フレ
ーム毎に、一定時間毎の各周波数毎におけるパワーを示
すスペクトル包絡の情報、または、このパワースペクト
ルの対数をとって逆フーリエ変換したものケプストラム
の情報を特徴量として抽出し、当該抽出した特徴量をベ
クトル化して第１類似度算出部１０６および第２類似度
算出部１０７に出力するようになっている。

【０１１７】キーワードモデルデータベース１０４に
は、認識すべきキーワードの特徴量のパターンデータを
示すキーワードＨＭＭが予め格納されている。この格納
されている複数のキーワードＨＭＭのデータは、認識す
べき複数の認識対象語の特徴量のパターンを示すように
なっている。

【０１１８】例えば、車載されたナビゲーション装置で
用いる場合には、キーワードモデルデータベース１０４
には、自動車が向かう目的地名や現在位置名、レストラ
ンなどの施設名といった音声信号の特徴量のパターンを
示すＨＭＭが格納されるようになっている。

【０１１９】本実施形態では、各キーワードの特徴量パ
ターンを示すＨＭＭは、上述のように、一定時間毎の各
周波数毎におけるパワーを示すスペクトル包絡のデータ
またはこのパワースペクトルの対数をとって逆フーリエ
変換したケプストラムのデータを有する確率モデルを示
すようになっている。

【０１２０】また、通常、キーワードは、「現在地」や
「目的地」のように、複数の音節または音素から構成さ
れるようになっているので、本実施形態では、１つのキ
ーワードＨＭＭは、複数のキーワード構成要素ＨＭＭに
よって構成されており、第１類似度算出部１０６では、
各キーワード構成要素ＨＭＭ毎に１のフレーム毎の特徴
量との類似度を算出するようになっている。

【０１２１】このように、キーワードモデルデータベー
ス１０４には、認識すべきキーワードの各キーワードＨ
ＭＭ、すなわち、キーワード構成要素ＨＭＭが格納され
るようになっている。

【０１２２】ガーベージモデルデータベース１０５に
は、この不要語を認識させるための言語モデルであり、
不要語構成要素の特徴量のパターンデータを示すＨＭＭ
が格納されている。

【０１２３】本実施形態では、ガーベージモデルデータ
ベース１０５には、１つの不要語構成要素の特徴量を示
すＨＭＭが格納されている。例えば、音節単位のＨＭＭ
が格納されている場合、この１つの不要語構成要素のＨ
ＭＭは、５０音、鼻音、濁音、破裂などあらゆる音節の
特徴を有する特徴量のパターンを有している。

【０１２４】通常、各音節毎にそれぞれの特徴量のＨＭ
Ｍを生成する場合に、上述と同様に、予め複数の人間が
発する各音節の音声データを取得し、各音節毎に特徴量
のパターンを抽出してこの各音節毎の特徴量のパターン
に基づいて各音節の特徴量のパターンデータを学習させ
て生成するが、本実施形態では、この音声データを生成
する際に、全ての音節の音声データに基づいて全ての特
徴量パターンのＨＭＭを生成し、１のＨＭＭの言語モデ
ルによって複数の音節の特徴量を有するＨＭＭを生成す
るようになっている。

【０１２５】本実施形態では、このように生成した特徴
量のパターンデータによってあらゆる音節の特徴量パタ
ーンを有する１の言語モデルであるＨＭＭを生成し、こ
れをベクトル化して予めガーベージモデルデータベース
１０５に格納するようになっている。

【０１２６】第１類似度算出部１０６および第２類似度
算出部１０７には、各フレーム毎のベクトル特徴量が入
力されるようになっており、この第１類似度算出部１０
６は、入力された各フレーム毎の特徴量に基づいてキー
ワードデータベース１０４に格納されているキーワード
ＨＭＭモデルの特徴量を比較して入力された各フレーム
と各ＨＭＭとの類似度を算出し、この算出された類似度
をマッチング処理部１０９に出力するようになってい
る。

【０１２７】本実施形態では、第１類似度算出部１０６
は、各フレーム毎の特徴量およびキーワードモデルデー
タベース１０４に格納されるＨＭＭの特徴量に基づい
て、各フレームがキーワードモデルデータベース１０４
に格納されるＨＭＭを示す場合などの確率を算出するよ
うになっている。

【０１２８】具体的には、第１類似度算出部１０６は、
各フレームが各キーワード構成要素ＨＭＭを示す出力確
率を算出するとともに、任意のフレームから次のフレー
ムへの状態遷移が各キーワード構成要素ＨＭＭからキー
ワード構成要素ＨＭＭまたは不要語構成要素への状態遷
移を示す状態遷移確率を算出し、これらの確率を類似度
としてマッチング処理部１０９に出力するようになって
いる。

【０１２９】なお、状態遷移確率には、各キーワード構
成要素ＨＭＭから自己のキーワード構成要素ＨＭＭへの
状態遷移を示す状態遷移確率が含まれるようになってい
る。

【０１３０】また、第１類似度算出部１０６は、各フレ
ーム毎に算出された各出力確率および各状態遷移確率を
各フレームの類似度としてマッチング処理部１０９に出
力するようになっている。

【０１３１】また、第２類似度算出部１０７には、補正
処理部１０８から出力された補正値と各フレーム毎のベ
クトル特徴量とが入力されるようになっており、この第
２類似度算出部１０７は、入力された各フレーム毎の特
徴量に基づいてガーベージモデルデータベース１０５に
格納されている不要語構成要素ＨＭＭモデルの特徴量を
比較して入力された各フレームとＨＭＭとの類似度を算
出するとともに、この類似度を算出する際に入力された
補正値を加えて上述のように類似度を算出するようにな
っている。

【０１３２】本実施形態では、第２類似度算出部１０７
は、各フレーム毎の特徴量およびガーベージモデルデー
タベース１０５に格納されるＨＭＭの特徴量に基づい
て、各フレームがガーベージモデルデータベース１０５
に格納されるＨＭＭを示す場合などの確率を算出するよ
うになっている。

【０１３３】具体的には、第２類似度算出部１０７は、
各フレームが各不要語構成要素ＨＭＭを示す出力確率を
算出するとともに、任意のフレームから次のフレームへ
の状態遷移が不要語構成要素から各キーワード構成要素
ＨＭＭへの状態遷移を示す状態遷移確率を算出し、これ
らの確率を類似度としてマッチング処理部１０９に出力
するようになっている。

【０１３４】なお、状態遷移確率には、不要語構成要素
ＨＭＭから自己の不要語構成要素ＨＭＭへの状態遷移を
示す状態遷移確率が含まれるようになっている。

【０１３５】また、第２類似度算出部１０７は、各フレ
ーム毎に算出された各出力確率および各状態遷移確率を
各フレームの類似度としてマッチング処理部１０９に出
力するようになっている。

【０１３６】補正処理部１０８には、図示しない集音マ
イクにおいて集音された発話音声の周囲の環境音が入力
されるようになっており、この補正処理部１０８は、こ
の入力された環境音に基づいて補正値を算出し、第２類
似度算出部１０７に出力して第２類似度算出部１０７に
設定するようになっている。

【０１３７】例えば、本実施形態では、集音された環境
音の雑音レベルに基づいて不要語構成要素ＨＭＭの補正
値を算出するようになっており、具体的には、雑音レベ
ルが−５６ｄＢ以下の場合には、補正値αは、

【０１３８】

【数４】 α ＝ β × −０．１０・・・式（４）となり、−５５ｄＢ〜−４０ｄＢの場合には、

【０１３９】

【数５】 α ＝ β × −０．０５・・・式（５）となる。また、−３９ｄＢ〜−０ｄＢの場合には、補正
値なしと算出して、第２類似度算出部１０７に設定する
ようになっている。ただし、βは、不要語構成要素ＨＭ
Ｍによって算出された類似度を示す。

【０１４０】マッチング処理部１０９には、各フレーム
毎の各出力確率および各遷移出力確率が入力されるよう
になっており、マッチング処理部１０９は、この入力さ
れた各出力確率および各遷移出力確率に基づいて各キー
ワードモデルＨＭＭと不要語構成要素モデルＨＭＭとの
各組み合わせの類似度を示す累積類似度を算出するマッ
チング処理を行い、この算出された累積類似度を判定部
１１０に出力するようになっている。

【０１４１】具体的には、マッチング処理部１０９は、
後述するように各キーワード毎に１の累積類似度を算出
するとともに、キーワードなしの場合の累積類似度、す
なわち、不要語構成要素モデルのみで累積類似度を算出
するようになっている。

【０１４２】なお、このマッチング処理部１０９で行わ
れるマッチング処理の詳細については後述する。

【０１４３】判定部１１０には、マッチング処理部１０
９において算出された各キーワード毎の累積類似度が入
力されるようになっており、入力された累積類似度の中
で最も累積類似度が高いキーワードを発話音声に含まれ
るキーワードと判定してこのキーワードを外部に出力す
るようになっている。

【０１４４】このとき、この判定部１１０は、不要語構
成要素モデルのみの累積類似度も判定対象に加えてキー
ワードの判定を行うようになっており、この不要語構成
要素モデルのみの累積類似度が最も入力された累積類似
度の中で最も高い場合には、発話音声にキーワードが含
まれていなかったものと判定してこの判定結果を外部に
出力するようになっている。

【０１４５】次に、本実施形態のマッチング処理部１０
９で行われるマッチング処理について説明する。

【０１４６】なお、本実施形態のマッチング処理では、
ビタビアルゴリズムを用いるようになっており、このビ
タビアルゴリズムによってキーワードモデルおよび不要
語構成要素モデルとの各組み合わせの累積類似度を算出
するようになっている。

【０１４７】このビタビアルゴリズムは、各状態になる
出力確率と各状態から他の状態へ遷移する場合の遷移確
率に基づいて累積類似度を算出するアルゴリズムであ
り、累積確率を算出した後に当該累積類似度が算出され
た組み合わせを出力するようになっている。

【０１４８】なお、一般的には、各フレームの特徴量に
よって示される状態とＨＭＭによって示される特徴量の
状態のユーグリッド距離を算出し、この累積距離を求め
ることによって累積類似度を算出するようになってい
る。

【０１４９】具体的には、ビタビアルゴリズムは、任意
の状態ｉから次の状態ｊへの遷移を示すパスに沿って計
算される累積的な確率の計算を行うようになっており、
この累積的な確率計算を行うことによって状態の遷移が
可能な各パス、すなわち、ＨＭＭの繋がりおよび組み合
わせを抽出するようになっている。

【０１５０】本実施形態では、第１類似度算出部１０６
において算出された各出力確率および各状態遷移確率に
基づいて、入力された発話音声の最初の分割フレームか
ら最後の分割フレームまで、順次、各フレームがキーワ
ードモデルまたは不要語構成要素モデルの出力確率およ
び状態遷移確率を当てはめ、キーワードモデルおよび不
要語構成要素を任意の組み合わせによる最初の分割フレ
ームから最後の分割フレームまでの累積的な確率を算出
するようになっており、各キーワードモデル毎に算出さ
れた累積類似度の最も高い組み合わせを、１つずつ判定
部１１０に出力するようになっている。

【０１５１】例えば、認識すべきキーワードが「現在
地」「目的地」であり、入力された発話音声が「えーっ
と、現在地」の場合、本実施形態のマッチング処理は、
以下の処理を行うようになっている。

【０１５２】なお、不要語が「えーっと」であるととも
に、ガーベージモデルデータベース１０５にあらゆる不
要語構成要素の特徴を示す１の不要語構成要素ＨＭＭが
格納されるとともに、キーワードデータベースには、
「現在地」「目的地」がそれぞれの音節毎のＨＭＭが格
納され、マッチング処理部１０９には、既に第１類似度
算出部１０６および第２類似度算出部１０７において算
出された各出力確率および状態遷移確率が入力されてい
るものとする。

【０１５３】このような場合、本実施形態では、ビタビ
アルゴリズムによって、「現在地」のキーワードと「目
的地」のキーワードそれぞれにおいて、不要語構成要素
と全ての組み合わせにおける累積類似度を、出力確率お
よび状態遷移確率に基づいて算出するようになってい
る。

【０１５４】具体的には、任意の発話音声が入力された
場合、「げんざいち○○○○」、「○げんざいち○○
○」、「○○げんざいち○○」、「○○○げんざいち
○」、「○○○○げんざいち」（○印は不要語構成要
素）の各組み合わせパターンの累積類似度と、現在地の
キーワードと同様に、目的地のキーワードにおいても、
「もくてきち○○○○」、「○もくてきち○○○」、
「○○もくてきち○○」、「○○○もくてきち○」、
「○○○○もくてきち」（同様に○印は不要語構成要
素）の各パターンの累積類似度を、出力確率および状態
遷移確率に基づいて算出するようになっている。

【０１５５】ビタビアルゴリズムは、１のキーワードモ
デル毎、この場合は、「現在地」と「目的地」毎に、発
話音声の最初のフレームから順次各フレーム毎に同時に
全ての組み合わせパターンの累積類似度を算出するよう
になっている。

【０１５６】また、このビタビアルゴリズムは、各キー
ワード毎の各組み合わせの累積類似度を算出する過程に
おいて、組み合わせパターンの累積類似度の低いものは
順次算出途中で、発話音声がこの組み合わせパターンで
はないと判断して累積類似度の計算を中止するようにな
っている。

【０１５７】具体的には、最初の分割フレームには、キ
ーワード「現在地」のキーワード構成要素ＨＭＭである
「げ」のＨＭＭを示す場合と、不要語構成要素ＨＭＭを
示す場合との確率である類似度の何れかが加算されるよ
うになるが、この場合、累積類似度の高いものが次の分
割フレームの累積類似度を算出するようになっている。
上述の場合では、不要語構成要素ＨＭＭの類似度の方
が、「げ」のＨＭＭの類似度より高くなるので、「げ」
に対するその後の累積類似度、すなわち、「げんざいち
○○○○」の算出処理を終了させるようになっている。

【０１５８】この結果、このようなマッチング処理で
は、「現在地」および「目的地」の各キーワードにおけ
る累積類似度が１つずつ算出されるようになっている。

【０１５９】次に、図６を用いて本実施形態のキーワー
ド認識処理について説明する。

【０１６０】なお、図６は、本実施形態のキーワード認
識処理の動作を示すフローチャートである。

【０１６１】まず、図示しない操作部または制御部によ
ってキーワード認識処理を開始するよう各部に指示が入
力され、発話音声がマイクロホン１０１に入力されると
（ステップＳ１１）、入力処理部１０２は、入力された
音声信号から発話音声部分の音声信号を切り出すととも
に（ステップＳ１２）、予め設定された時間間隔毎にフ
レーム分割を行い、各フレーム毎に音声信号を音声分析
部１０３に出力する（ステップＳ１３）。

【０１６２】次いで、本動作は各フレーム毎に以下の処
理を行う。

【０１６３】まず、音声分析部１０３は、入力されたフ
レームの音声信号の特徴量を抽出するとともに、抽出し
たこのフレームの特徴量を第１類似度算出部１０６に出
力する（ステップＳ１４）。

【０１６４】具体的には、音声分析部１０３は、各フレ
ームの音声信号に基づいて、一定時間毎の各周波数毎に
おけるパワーを示すスペクトル包絡の情報、または、こ
のパワースペクトルの対数をとって逆フーリエ変換した
ものケプストラムの情報を特徴量として抽出するととも
に、当該特徴量をベクトル化して第１類似度算出部１０
６および第２類似度算出部１０７に出力する。

【０１６５】次いで、第１類似度算出部１０６は、入力
されたフレームの特徴量とキーワードモデルデータベー
ス１０４に格納されている各ＨＭＭモデルの特徴量とを
比較するとともに、上述のように、各ＨＭＭモデル毎の
当該フレームの出力確率および状態遷移確率を算出し、
この出力確率および状態遷移確率をマッチング処理部１
０９に出力する（ステップＳ１５）。

【０１６６】次いで、第２類似度算出部１０７は、入力
されたフレームの特徴量とガーベージモデルデータベー
ス１０５に格納されている不要語構成要素モデルの特徴
量とを比較するとともに、上述のように、不要語構成要
素ＨＭＭモデルの当該フレームの出力確率および状態遷
移確率を算出する（ステップＳ１６）。

【０１６７】次いで、第２類似度算出部は、上述の方法
により補正値処理部１０８によって予め算出された当該
補正値を取得し、不要語構成要素ＨＭＭモデルの当該フ
レームの出力確率および状態遷移確率に補正値を加え
て、この補正値を加えた出力確率および状態遷移確率を
マッチング処理部１０９に出力する（ステップＳ１
７）。

【０１６８】次いで、マッチング処理部１０９は、上述
したマッチング処理により、各キーワード毎の累積類似
度を算出する（ステップＳ１８）。

【０１６９】具体的には、マッチング処理部１０９は、
前回までの累積類似度に入力された各キーワードＨＭＭ
および不要語構成要素ＨＭＭの各類似度を積算し、各キ
ーワードの種別毎に最も累積類似度の高い累積類似度の
み算出する。

【０１７０】次いで、マッチング処理部１０９は、図示
しない制御部からの指示により最終の分割フレームか否
か判断し（ステップＳ１９）、最終の分割のフレームと
判断したときは、算出した各キーワード毎の最も高い累
積類似度を判定部１１０に出力し（ステップＳ２０）、
最終の分割フレームでないと判断したときは、ステップ
Ｓ１４に行く。

【０１７１】最後に、判定部１１０は、各キーワード毎
の累積類似度に基づいて、最も類似度の高い累積類似度
を有するキーワードが発話音声に含まれるキーワードと
して外部に出力し（ステップＳ２１）、本動作が終了す
る。

【０１７２】以上により本実施形態によれば、不要語を
識別する際に、格納されている不要語構成要素特徴量デ
ータに基づいて当該不要語との類似度を算出し、キーワ
ードと不要語の識別を的確に行うことにより、少ないデ
ータによって的確に不要語を識別することができるの
で、予め不要語を認識するためのデータ量を増やすこと
なく、識別することが可能な不要語を増加させることが
でき、キーワードの抽出および認識の正確性を向上させ
ることができる。

【０１７３】また、抽出した発話音声特徴量と不要語特
徴量データとの類似度を算出する際に、予め設定された
補正値を用いて当該類似度を算出することができるの
で、補正値によって抽出した発話音声の特徴量と不要語
特徴量データとの類似度を調整することができる。

【０１７４】この結果、発話音声が発話された環境下の
雑音レベル、または、データ量を少なくするために複数
の特徴量の特性を結合した不要語特徴量データを用いて
類似度を算出する際の算出誤差などの原因により誤認識
が生ずる場合であっても、補正値によって抽出した発話
音声の特徴量と不要語特徴量データとの類似度を調整す
ることができ、キーワードと不要語の識別を的確に行う
ことができるので、誤認識を防止し、確実にキーワード
を認識することができる。

【０１７５】なお、本実施形態では、不要語構成要素モ
デルを音節によって生成するようになっているが、勿
論、音素若しくはその他の構成単位に基づいて生成する
ようにしてもよい。

【０１７６】また、本実施形態では、ガーベージモデル
データベース１０５には、１の不要語構成要素のＨＭＭ
が格納されているが、複数の音素・音韻の種別または母
音・子音毎に不要語構成要素の特徴量を示すＨＭＭを格
納するようにしてもよい。

【０１７７】この場合、類似度算出処理では、各フレー
ム毎の特徴量は、各不要語構成要素を構成する各不要語
構成要素ＨＭＭと類似度を算出するようになっている。

【０１７８】また、本実施形態では、上述の音声認識装
置によってキーワード認識処理行うようになっている
が、音声認識装置にコンピュータおよび記録媒体を備
え、この記録媒体に上述のキーワード認識処理を行うプ
ログラムを格納し、コンピュータによってキーワード認
識処理プログラムを読み込むことによって上述と同様の
キーワード認識処理を行うようにしてもよい。

【０１７９】ただし、この記録媒体は、ＤＶＤやＣＤな
どの記録媒体により構成されるようにしてもよい。

【０１８０】この場合、音声認識装置には、記録媒体か
らプログラムを読み出す読出装置を備えるようになる。

【０１８１】また、本実施形態では、発話音声が発生さ
れた環境下の環境音の雑音レベルに基づいて不要語構成
要素ＨＭＭとフレームの特徴量との類似度に補正値を加
えるようになっているが、予め補正値を経験的に算出さ
れた値を用いるようにしてもよい。

【０１８２】例えば、この場合は、補正値を通常に算出
された類似度に±０．１を乗算した値を用いる。すなわ
ち、補正値αは、

【０１８３】

【数６】 α ＝ β× ±０．１０・・・式（６）となる。ただし、βは、不要語構成要素ＨＭＭによって
算出された類似度を示す。

【０１８４】〔第２実施形態〕図７、図８は、本発明に
係る音声認識装置の第２実施形態を示す図である。

【０１８５】本実施形態は、第１実施形態において、補
正処理部が集音した環境音の雑音レベルに基づいて補正
値を設定する設定動作に代えて、認識キーワードのワー
ド長、すなわち、発話音声と発話音声に含まれるキーワ
ードの長さの割合に基づいて算出することに特徴があ
り、この他の構成は、第１実施形態と同様であるため、
同一部材には同一番号を付して説明を省略する。

【０１８６】まず、図７を用いて本実施形態の音声認識
装置の構成について説明する。

【０１８７】音声認識装置２００は、図７に示すよう
に、発話音声が入力され、電気信号（以下、音声信号と
いう）に変換するマイクロホン１０１と、入力された音
声信号から発話音声部分の音声信号を切り出し、予め設
定された時間間隔毎にフレーム分割する入力処理部１０
２と、各フレーム毎に音声信号の特徴量を抽出する音声
分析部１０３と、認識すべき複数のキーワードの特徴量
パターンを示すキーワードＨＭＭが予め格納されている
キーワードモデルデータベース１０４と、キーワードと
識別すべき不要語の構成要素である不要語構成要素ＨＭ
Ｍが予め格納されているガーベージモデルデータベース
１０５と、抽出されたフレーム毎の特徴量とキーワード
ＨＭＭに基づいて特徴量の類似度を算出する第１類似度
算出部１０６と、抽出されたフレーム毎の特徴量と不要
語構成要素ＨＭＭに基づいて特徴量の類似度を算出する
第２類似度算出部１０７と、キーワード長および発話音
声長フレーム毎の特徴量と不要語構成要素ＨＭＭに基づ
いて類似度を算出する場合に、キーワード長および発話
音声長に基づいて補正処理を行う補正処理部１２０と、
算出された各フレーム毎の各ＨＭＭとの類似度に基づい
て後述するマッチング処理を行うマッチング処理部１０
９と、マッチング処理に基づいて発話音声に含まれるキ
ーワードを判定する判定部１１０とを備えている。

【０１８８】補正処理部１２０は、判定部１１０によっ
て取得されたキーワード長と入力処理部１０２によって
取得された発話音声長が入力されるようになっており、
この取得した発話音声におけるキーワード長の割合を算
出するとともに、この算出されたキーワード長の割合に
基づいて補正値を算出し、この算出された補正値を第２
類似度算出部１０７に出力するようになっている。

【０１８９】具体的には、発話音声におけるキーワード
長の割合が、０％〜３９％の場合には、補正値αは、

【０１９０】

【数７】 α ＝ β × −０．１０・・・式（７）となり、４０％〜７４％の場合には、補正値なしと算出
する。

【０１９１】また、７５％〜１００％ｄＢの場合には、

【０１９２】

【数８】 α ＝ β × ０．１０・・・式（８）となり、これらの補正値を第２類似度算出部１０６に出
力するようになっている。ただし、βは、不要語構成要
素ＨＭＭによって算出された類似度を示す。

【０１９３】次に、図８を用いて本実施形態のキーワー
ド認識処理について説明する。

【０１９４】なお、図８は、本実施形態のキーワード認
識処理の動作を示すフローチャートである。

【０１９５】まず、図示しない操作部または制御部によ
ってキーワード認識処理を開始するよう各部に指示が入
力され、発話音声がマイクロホン１０１に入力されると
（ステップＳ３１）、入力処理部１０２は、入力された
音声信号から発話音声部分の音声信号を切り出すととも
に（ステップＳ３２）、予め設定された時間間隔毎にフ
レーム分割を行い、各フレーム毎に音声信号を音声分析
部１０３に出力する（ステップＳ３３）。

【０１９６】次いで、本動作は各フレーム毎に以下の処
理を行う。

【０１９７】まず、音声分析部１０３は、入力されたフ
レームの音声信号の特徴量を抽出するとともに、抽出し
たこのフレームの特徴量を第１類似度算出部１０６に出
力する（ステップＳ３４）。

【０１９８】具体的には、音声分析部１０３は、各フレ
ームの音声信号に基づいて、一定時間毎の各周波数毎に
おけるパワーを示すスペクトル包絡の情報、または、こ
のパワースペクトルの対数をとって逆フーリエ変換した
ものケプストラムの情報を特徴量として抽出するととも
に、当該特徴量をベクトル化して類似度算出部１０６に
出力する。

【０１９９】次いで、第１類似度算出部１０６は、入力
されたフレームの特徴量とキーワードモデルデータベー
ス１０４に格納されている各ＨＭＭモデルの特徴量とを
比較するとともに、上述のように、各ＨＭＭモデル毎の
当該フレームの出力確率および状態遷移確率を算出し、
この出力確率および状態遷移確率をマッチング処理部１
０９に出力する（ステップＳ３５）。

【０２００】次いで、第２類似度算出部１０７は、入力
されたフレームの特徴量とガーベージモデルデータベー
ス１０５に格納されている不要語構成要素モデルの特徴
量とを比較するとともに、上述のように、不要語構成要
素ＨＭＭモデルの当該フレームの出力確率および状態遷
移確率を算出する（ステップＳ３６）。

【０２０１】次いで、第２類似度算出部１０７は、上述
の方法により補正値処理部１２０によって予め算出され
た当該補正値を取得し、不要語構成要素ＨＭＭモデルの
当該フレームの出力確率および状態遷移確率に補正値を
加えて、この補正値を加えた出力確率および状態遷移確
率をマッチング処理部１０９に出力する（ステップＳ３
７）。

【０２０２】次いで、マッチング処理部１０９は、上述
したマッチング処理により、各キーワード毎の累積類似
度を算出する（ステップＳ３８）。

【０２０３】具体的には、マッチング処理部１０９は、
前回までの累積類似度に入力された各キーワードＨＭＭ
および不要語構成要素ＨＭＭの各類似度を積算し、各キ
ーワードの種別毎に最も累積類似度の高い累積類似度の
み算出する。

【０２０４】次いで、マッチング処理部１０９は、図示
しない制御部からの指示により最終の分割フレームか否
か判断し（ステップＳ３９）、最終の分割のフレームと
判断したときは、算出した各キーワード毎の最も高い累
積類似度を判定部１１０に出力し（ステップＳ４０）、
最終の分割フレームでないと判断したときは、ステップ
Ｓ３４に行く。

【０２０５】次いで、判定部１１０は、各キーワード毎
の累積類似度に基づいて、最も類似度の高い累積類似度
を有するキーワードが発話音声に含まれるキーワードと
して外部に出力する（ステップＳ４１）。

【０２０６】次いで、補正処理部１２０は、入力処理部
１０２から発話音声長を取得するとともに、判定部１１
０からキーワード長を取得し、このキーワード長および
発話音声長に基づいて発話音声長に対するキーワード長
の比を算出する（ステップＳ４２）。

【０２０７】次いで、補正処理部１２０は、算出された
発話音声長に対するキーワード長の比に基づいて、上述
のように補正値を算出し（ステップＳ４３）、次の本動
作時に使用するように格納し、本動作を終了する。

【０２０８】以上により本実施形態によれば、不要語を
識別する際に、格納されている不要語構成要素特徴量デ
ータに基づいて当該不要語との類似度を算出し、キーワ
ードと不要語の識別を的確に行うことにより、少ないデ
ータによって的確に不要語を識別することができるの
で、予め不要語を認識するためのデータ量を増やすこと
なく、識別することが可能な不要語を増加させることが
でき、キーワードの抽出および認識の正確性を向上させ
ることができる。

【０２０９】また、抽出した発話音声特徴量と不要語特
徴量データとの類似度を算出する際に、予め設定された
補正値を用いて当該類似度を算出することができるの
で、補正値によって抽出した発話音声の特徴量と不要語
特徴量データとの類似度を調整することができる。

【０２１０】この結果、データ量を少なくするために複
数の特徴量の特性を結合した不要語特徴量データを用い
て類似度を算出する際の算出誤差により誤認識が生ずる
場合であっても、補正値によって抽出した発話音声の特
徴量と不要語特徴量データとの類似度を調整することが
でき、キーワードと不要語の識別を的確に行うことがで
きるので、誤認識を防止し、確実にキーワードを認識す
ることができる。

【０２１１】なお、本実施形態では、不要語構成要素モ
デルを音節によって生成するようになっているが、勿
論、音素若しくはその他の構成単位に基づいて生成する
ようにしてもよい。

【０２１２】また、本実施形態では、ガーベージモデル
データベース１０５には、１の不要語構成要素のＨＭＭ
が格納されているが、複数の音素・音韻の種別または母
音・子音毎に不要語構成要素の特徴量を示すＨＭＭを格
納するようにしてもよい。

【０２１３】この場合、類似度算出処理では、各フレー
ム毎の特徴量は、各不要語構成要素を構成する各不要語
構成要素ＨＭＭと類似度を算出するようになっている。

【０２１４】また、本実施形態では、上述の音声認識装
置によってキーワード認識処理行うようになっている
が、音声認識装置にコンピュータおよび記録媒体を備
え、この記録媒体に上述のキーワード認識処理を行うプ
ログラムを格納し、コンピュータによってキーワード認
識処理プログラムを読み込むことによって上述と同様の
キーワード認識処理を行うようにしてもよい。

【０２１５】また、このキーワード認識処理プログラム
を実行する音声認識装置において、記録媒体をＤＶＤや
ＣＤなどの記録媒体により構成するようにしてもよい。

【０２１６】この場合、音声認識装置には、記録媒体か
らプログラムを読み出す読出装置を備えるようになる。

【０２１７】

【発明の効果】以上説明したように、本発明によれば、
不要語を識別する際に、格納されている不要語構成要素
特徴量データに基づいて当該不要語との類似度を算出
し、キーワードと不要語の識別を的確に行うことによ
り、少ないデータによって的確に不要語を識別すること
ができるので、予め不要語を認識するためのデータ量を
増やすことなく、識別することが可能な不要語を増加さ
せることができ、キーワードの抽出および認識の正確性
を向上させることができる。

【０２１８】また、抽出した発話音声特徴量と不要語特
徴量データとの類似度を算出する際に、予め設定された
補正値を用いて当該類似度を算出することができるの
で、補正値によって抽出した発話音声の特徴量と不要語
特徴量データとの類似度を調整することができる。

【０２１９】この結果、発話音声が発話された環境下の
雑音レベル、または、データ量を少なくするために複数
の特徴量の特性を結合した不要語特徴量データを用いて
類似度を算出する際の算出誤差などの原因により誤認識
が生ずる場合であっても、補正値によって抽出した発話
音声の特徴量と不要語特徴量データとの類似度を調整す
ることができ、キーワードと不要語の識別を的確に行う
ことができるので、誤認識を防止し、確実にキーワード
を認識することができる。

【図面の簡単な説明】

【図１】ＨＭＭを用いた認識ネットワークを示す音声言
語モデル図である。

【図２】任意のＨＭＭによって任意の発話音声の認識を
行う場合の音声言語モデルを示す図である。

【図３】任意の不要語およびキーワードの組み合わせに
おいての不要語ＨＭＭと不要語構成要素ＨＭＭとの累積
類似度を示すグラフである。

【図４】類似度に補正値を加減算した場合の音声言語モ
デルの状態の遷移を示す図の一例である。累積類似度を
示す状態図の一例である。

【図５】本発明に係る音声認識装置の第１実施形態の構
成を示す図である。

【図６】第１実施形態のキーワード認識処理の動作を示
すフローチャートである。

【図７】本発明に係る音声認識装置の第２実施形態の構
成を示す図である。

【図８】第２実施形態のキーワード認識処理の動作を示
すフローチャートである。

【符号の説明】

１０ … 音声言語モデル１１ … キーワードモデル１２ … ガーベージモデル１００、２００ … 音声認識装置１０１ … マイクロホン１０２ … 入力処理部１０３ … 音声分析部（抽出手段）１０４ … キーワードモデルデータベース１０５ … ガーベージモデルデータベース（格納手
段）１０６ … 第１類似度算出部（算出手段、取得手段）１０７ … 第２類似度算出部（算出手段、取得手段）１０８、１２０ … 補正処理部（設定手段）１０９ … マッチング処理部（決定手段）１１０ … 判定部（決定手段）

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/28

Claims

【特許請求の範囲】

【請求項１】発話された発話音声に含まれるキーワー
ドを抽出して当該キーワードを認識する音声認識装置で
あって、前記発話音声を分析することによって当該発話音声の音
声成分の特徴量である発話音声特徴量を抽出する抽出手
段と、１または２以上の前記キーワードの音声成分の特徴量を
示すキーワード特徴量データおよび１または２以上の前
記キーワードを構成しない不要語の音声成分の特徴量を
示す不要語特徴量データを予め格納しておく格納手段
と、前記発話音声の少なくとも一部の音声区間の抽出された
前記発話音声特徴量と前記格納手段に格納された前記キ
ーワード特徴量データおよび前記不要語特徴量データと
の前記特徴量の特性が類似する割合を示す類似度を算出
する算出手段と、前記算出した類似度に基づいて前記発話音声に含まれる
認識すべき前記キーワードまたは前記不要語の少なくと
も何れかを決定する決定手段と、を備え、前記算出手段が、前記発話音声特徴量と前記不要語特徴
量データとの類似度を算出するときに、予め設定された
補正値を用いて当該類似度を算出することを特徴とする
音声認識装置。
【請求項２】請求項１に記載の音声認識装置におい
て、前記発話音声が発話された周囲の雑音レベルに基づいて
前記補正値を予め設定する設定手段を備え、前記算出手段が、前記発話音声の少なくとも一部の音声
区間の抽出された前記発話音声特徴量と前記不要語特徴
量データとの類似度を算出するときに、前記設定手段に
よって予め設定された補正値を用いて当該類似度を算出
することを特徴とする音声認識装置。
【請求項３】請求項１に記載の音声認識装置におい
て、前記決定手段が算出した前記類似度に基づいて前記発話
音声に含まれる認識すべき前記キーワードまたは前記不
要語の少なくとも何れかを決定するときに、前記決定さ
れたキーワードの時間長と前記発話音声の時間長との割
合に基づいて前記補正値を設定する設定手段を備え、前記算出手段が、前記発話音声の少なくとも一部の音声
区間の抽出された前記発話音声特徴量と前記不要語特徴
量データとの類似度を算出するときに、以前に前記設定
手段によって設定された補正値を用いて当該類似度を算
出することを特徴とする音声認識装置。
【請求項４】請求項１乃至３の何れか一項に記載の音
声認識装置において、前記格納手段に格納される不要語の音声成分の特徴量を
示す不要語特徴量データが、複数の不要語の特徴量を示
すデータであることを特徴とする音声認識装置。
【請求項５】請求項１乃至４の何れか一項に記載の音
声認識装置において、前記格納手段に格納されている不要語特徴量データが前
記不要語の構成要素である不要語要素の音声成分の特徴
量を示す不要語構成要素特徴量データによって構成され
ているとともに、前記算出手段が、前記発話音声の少なくとも一部の音声
区間の抽出された前記発話音声特徴量と前記不要語特徴
量データとの類似度を算出するときに、前記不要語構成
要素特徴量に基づいて当該類似度を算出し、前記決定手段が、前記算出した類似度に基づいて前記発
話音声に含まれる認識すべき前記キーワードまたは前記
不要語の少なくとも何れかを決定することを特徴とする
音声認識装置。
【請求項６】発話された発話音声に含まれるキーワー
ドを抽出して当該キーワードを認識する音声認識方法で
あって、前記発話音声を分析することによって当該発話音声の音
声成分の特徴量である発話音声特徴量を抽出する抽出処
理工程と、１または２以上の前記キーワードの音声成分の特徴量を
示すキーワード特徴量データおよび１または２以上の前
記キーワードを構成しない不要語の音声成分の特徴量を
示す不要語特徴量データを、予め格納されている格納手
段から取得する取得処理工程と、前記発話音声の少なくとも一部の音声区間の抽出された
前記発話音声特徴量と前記格納手段に予め格納された前
記キーワード特徴量データおよび前記不要語特徴量デー
タとの前記特徴量の特性が類似する割合を示す類似度を
算出する算出処理工程と、前記算出した類似度に基づいて前記発話音声に含まれる
認識すべき前記キーワードまたは前記不要語の少なくと
も何れかを決定する決定処理工程と、を含み、前記算出処理工程においては、前記発話音声特徴量と前
記不要語特徴量データとの類似度を算出するときに、予
め設定された補正値を用いて当該類似度を算出すること
を特徴とする音声認識方法。
【請求項７】請求項６に記載の音声認識方法におい
て、前記発話音声が発話された周囲の雑音レベルに基づいて
前記補正値を予め設定する設定処理工程を含み、前記算出処理工程においては、前記発話音声の少なくと
も一部の音声区間の抽出された前記発話音声特徴量と前
記不要語特徴量データとの類似度を算出するときに、前
記設定処理工程によって予め設定された補正値を用いて
当該類似度を算出することを特徴とする音声認識方法。
【請求項８】請求項６に記載の音声認識方法におい
て、前記決定処理工程によって算出された前記類似度に基づ
いて前記発話音声に含まれる認識すべき前記キーワード
または前記不要語の少なくとも何れかを決定するとき
に、前記決定されたキーワードの時間長と前記発話音声
の時間長との割合に基づいて前記補正値を設定する設定
処理工程を含み、前記算出処理工程においては、前記発話音声の少なくと
も一部の音声区間の抽出された前記発話音声特徴量と前
記不要語特徴量データとの類似度を算出するときに、以
前に前記設定処理工程によって設定された補正値を用い
て当該類似度を算出することを特徴とする音声認識方
法。
【請求項９】請求項６乃至８の何れか一項に記載の音
声認識方法において、前記取得処理工程においては、複数の不要語の音声成分
の特徴量を示す不要語特徴量データを予め格納されてい
る格納手段から取得することを特徴とする音声認識方
法。
【請求項１０】請求項６乃至９の何れか一項に記載の
音声認識方法において、前記取得処理工程においては、不要語特徴量データが前
記不要語の構成要素である不要語要素の音声成分の特徴
量を示す不要語構成要素特徴量データを予め格納されて
いる格納手段から取得するとともに、前記算出処理工程においては、前記発話音声の少なくと
も一部の音声区間の抽出された前記発話音声特徴量と前
記不要語特徴量データとの類似度を算出するときに、前
記不要語構成要素特徴量に基づいて当該類似度を算出
し、前記決定処理工程においては、前記算出した類似度に基
づいて前記発話音声に含まれる認識すべき前記キーワー
ドまたは前記不要語の少なくとも何れかを決定すること
を特徴とする音声認識方法。
【請求項１１】コンピュータによって、発話された発
話音声に含まれるキーワードを抽出して当該キーワード
を認識する音声認識プログラムであって、前記コンピュータを、前記発話音声を分析することによって当該発話音声の音
声成分の特徴量である発話音声特徴量を抽出する抽出手
段、１または２以上の前記キーワードの音声成分の特徴量を
示すキーワード特徴量データおよび１または２以上の前
記キーワードを構成しない不要語の音声成分の特徴量を
示す不要語特徴量データを、予め格納されている格納手
段から取得する取得手段、前記発話音声の少なくとも一部の音声区間の抽出された
前記発話音声特徴量と前記格納手段に予め格納された前
記キーワード特徴量データおよび前記不要語特徴量デー
タとの前記特徴量の特性が類似する割合を示す類似度を
算出する算出手段、前記算出した類似度に基づいて前記発話音声に含まれる
認識すべき前記キーワードまたは前記不要語の少なくと
も何れかを決定する決定手段、として機能させるとともに、前記発話音声特徴量と前記不要語特徴量データとの類似
度を算出するときに、予め設定された補正値を用いて当
該類似度を算出する算出手段として機能させることを特
徴とする音声認識プログラム。
【請求項１２】前記コンピュータによって請求項１１
に記載の音声認識を行う音声認識プログラムにおいて、前記コンピュータを、前記発話音声が発話された周囲の雑音レベルに基づいて
前記補正値を予め設定する設定手段、前記発話音声の少なくとも一部の音声区間の抽出された
前記発話音声特徴量と前記不要語特徴量データとの類似
度を算出するときに、予め設定された補正値を用いて当
該類似度を算出する算出手段、として機能させることを特徴とする音声認識プログラ
ム。
【請求項１３】コンピュータによって、請求項１１に
記載の音声認識を行う音声認識プログラムにおいて、前記コンピュータを、前記算出した類似度に基づいて前記発話音声に含まれる
認識すべき前記キーワードまたは前記不要語の少なくと
も何れかを決定するときに、前記決定されたキーワード
の時間長と前記発話音声の時間長との割合に基づいて前
記補正値を設定する設定手段、前記発話音声の少なくとも一部の音声区間の抽出された
前記発話音声特徴量と前記不要語特徴量データとの類似
度を算出するときに、以前に設定された補正値を用いて
当該類似度を算出する算出手段、として機能させることを特徴とする音声認識プログラ
ム。
【請求項１４】コンピュータによって、請求項１１乃
至１３の何れか一項に記載の音声認識プログラムにおい
て、前記コンピュータを、複数の不要語の音声成分の特徴量を示す不要語特徴量デ
ータを予め格納されている格納手段から取得する取得手
段として機能させることを特徴とする音声認識プログラ
ム。
【請求項１５】コンピュータによって、請求項１１乃
至１４の何れか一項に記載の音声認識を行う音声認識プ
ログラムにおいて、不要語特徴量データが前記不要語の構成要素である不要
語要素の音声成分の特徴量を示す不要語構成要素特徴量
データを予め格納されている格納手段から取得する取得
手段、前記発話音声の少なくとも一部の音声区間の抽出された
前記発話音声特徴量と前記不要語特徴量データとの類似
度を算出するときに、前記不要語構成要素特徴量に基づ
いて当該類似度を算出する算出手段、前記算出した類似度に基づいて前記発話音声に含まれる
認識すべき前記キーワードまたは前記不要語の少なくと
も何れかを決定する決定手段、として機能させることを特徴とする音声認識プログラ
ム。