JPH10274996A

JPH10274996A - 音声認識装置

Info

Publication number: JPH10274996A
Application number: JP9081700A
Authority: JP
Inventors: Yasuyuki Masai; 康之正井; Shinichi Tanaka; 信一田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-03-31
Filing date: 1997-03-31
Publication date: 1998-10-13
Anticipated expiration: 2017-03-31
Also published as: JP3825526B2

Abstract

(57)【要約】【課題】認識装置を使用するときの読みの記憶違い等に
よる誤認識の削減を図る。【解決手段】入力音声を音響分析部１０２で音響分析し
て求めた特徴パラメータ系列を、音声モデル作成・記憶
部１０４にて予め作成して記憶しておいた各認識語彙を
構成する全てのキーワードの音声モデルとモデル照合部
１０２で照合して入力音声を認識する音声認識装置にお
いて、上記各キーワードのうち音としての類似性のある
キーワード相互間の変換を行う機能を持つキーワード変
換部１０５をキーワード拡張部１０７が利用して、モデ
ル照合部１０２での照合で認識されたキーワードを音と
しての類似性のある別のキーワードに変換することで当
該モデル照合部１０２で認識されたキーワードを拡張
し、ここで拡張されたキーワードから認識結果出力部１
０８が認識結果を決定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力音声を音響分
析して求めた特徴パラメータ系列を予め作成しておいた
各認識語彙を構成するキーワードの音声モデルと照合し
て、入力音声を認識する音声認識装置に係り、特に認識
語彙の読みの登録間違いや、装置使用時の読みの記憶違
いによる誤認識を削減するのに好適な音声認識装置に関
する。

【０００２】

【従来の技術】一般に、入力音声を認識する音声認識装
置では、当該装置での認識対象となる語彙（認識語彙）
の読みを入力することで、その読みから、対応する認識
語彙を構成するキーワードの音声モデルを予め作成し、
入力音声の認識のため記憶しておくようになっている。
この種の音声認識装置での入力音声の認識は、次のよう
に行われる。

【０００３】まず入力音声を音響分析して特徴パラメー
タ系列を求める。次に、求めた入力音声の特徴パラメー
タ系列を予め作成しておいた各認識語彙を構成するキー
ワードの音声モデルと照合して、入力音声を認識する。

【０００４】このような音声認識装置においては、従来
は、認識語彙の読みを誤って登録した場合には、使用時
に正しい読みを発声しても正しく認識できないという問
題があった。また、認識語彙の登録時には正しい読みを
登録しておいても、使用時に誤った読みを発声すると正
しく認識されないという問題もあった。

【０００５】

【発明が解決しようとする課題】上記したように従来の
音声認識装置では、認識語彙の読みを誤って登録する
と、使用時に正しい読みを発声しても正しく認識でき
ず、逆に認識語彙の登録時に正しい読みを登録しておい
ても、使用時に誤った読みを発声すると正しく認識され
ないという問題があった。

【０００６】本発明は上記事情を考慮してなされたもの
でその目的は、認識語彙の読みの登録間違いや、装置使
用時の読みの記憶違い等に起因する認識性能の低下を防
ぐことができる音声認識装置を提供することにある。

【０００７】本発明の他の目的は、利用者が、認識語彙
の読みを誤って登録することを未然に防止でき、また、
使用時に誤った読みで発声しても正しく認識できる音声
認識装置を提供することにある。本発明の更に他の目的
は、利用者による認識候補の選択が誤りなく効率的に行
える音声認識装置を提供することにある。

【０００８】

【課題を解決するための手段】本発明の第１の観点に係
る音声認識装置は、入力音声を音響分析して求めた特徴
パラメータ系列を予め作成しておいた各認識語彙を構成
するキーワードの音声モデルと照合して、入力音声を認
識する音声認識装置において、上記各キーワードのうち
音としての類似性のあるキーワード相互間の変換を行う
ためのキーワード変換手段と、上記認識したキーワード
を上記キーワード変換手段を用いて音としての類似性の
ある別のキーワードに変換することで認識したキーワー
ドを拡張するキーワード拡張手段と、上記拡張されたキ
ーワードから認識結果を決定する認識結果出力手段とを
備えたことを特徴とする。ここで、音としての類似性が
あることの判定条件として、上記各キーワードのうち、
キーワードの読みが異なる音節数が所定数以下、例えば
１音節以下のキーワード同士であることを適用するとよ
い。

【０００９】このような構成においては、キーワードを
音としての類似性に着目して拡張することにより、キー
ワードの認識誤りや話者の言い間違いによる認識性能の
低下を効果的に防ぐことが可能となる。

【００１０】本発明の第２の観点に係る音声認識装置
は、入力音声を音響分析して求めた特徴パラメータ系列
を予め作成しておいた認識語彙の音声モデルと照合し
て、入力音声を認識する音声認識装置において、上記音
声モデルとの照合により得られる認識した音声の先頭の
音節と最後の音節が一致することを制約として、入力音
声の最初の音節を認識する認識結果出力手段を備えたこ
とを特徴とする。

【００１１】このような構成においては、入力音声の先
頭の音節と最後の音節が一致するという制約のもとで入
力音声の先頭の音節を認識することにより、非常に精度
の高い音節認識を実現できる。また、各音節を入力する
ときに発声する言葉を覚える必要がないので、誰でもす
ぐに使用することができる。

【００１２】本発明の第３の観点に係る音声認識装置
は、入力音声を音響分析して求めた特徴パラメータ系列
を予め作成しておいた、認識語彙の別称の音声モデルを
含む各認識語彙の音声モデルと照合して、入力音声を認
識する音声認識装置において、登録する認識語彙の正し
い読みに加えて、誤読されやすい読みを別称として登録
する別称登録手段と、別称として登録される読みが認識
語彙の読みと類似しているか否かを判定する登録語彙類
似性判定手段と、この登録語彙類似性判定手段により類
似していると判定された場合に、その旨の警告を出力す
る警告出力手段と、上記別称登録手段により登録された
別称の読みの音声モデルとの照合で入力音声が認識され
た場合、その読みを別称とする語彙を認識する認識結果
出力手段とを備えたことを特徴とする。

【００１３】このような構成においては、認識語彙入力
手段から入力して登録される認識語彙の別称を別称登録
手段により登録する際に、別称が他の語彙と類似してい
ないかを登録語彙類似性判定手段にて判断し、警告出力
手段から利用者に知らせることにより、別称登録による
認識性能の低下を未然に防ぐことができる。このとき、
該当する別称登録を中止させるとよい。

【００１４】本発明の第４の観点に係る音声認識装置
は、入力音声を音響分析して求めた特徴パラメータ系列
を予め作成しておいた各認識語彙を構成するキーワード
の音声モデルと照合して、入力音声を認識する音声認識
装置において、複数のキーワードが組み合わされたキー
ワード列からなる音声の認識結果を複数候補出力する際
に、意味的に同じキーワード別に、そのキーワードの確
からしさ順にソートして出力するキーワード別認識結果
出力手段を備えたことを特徴とする。

【００１５】このような構成においては、キーワード別
に複数の認識結果を類似度の大きい順（あるいは距離の
小さい順）に出力することにより、候補選択を効率よく
行うことができる。

【００１６】本発明の第５の観点に係る音声認識装置
は、入力音声を音響分析して求めた特徴パラメータ系列
と予め作成しておいた、認識語彙の別称の音声モデルを
含む各認識語彙の音声モデルと照合して、入力音声を認
識する音声認識装置において、登録する認識語彙の正し
い読みに加えて、誤読されやすい読みを別称として登録
する別称登録手段と、別称として登録してある読みを認
識したときに、正しい読みを利用者に提示する認識結果
出力手段を備えたことを特徴とする。

【００１７】このような構成においては、別称での読み
の音声モデルとの照合に基づく認識結果出力時に、正し
い読みを出力することにより、話者が別称で覚えていた
言葉の正しい読みを当該話者に覚えさせることができ、
以後正しい読みで入力できるようになる。

【００１８】本発明の第６の観点に係る音声認識装置
は、認識語彙入力手段から入力される認識語彙の読みの
表記をもとに音声モデルを作成して記憶しておき、入力
音声を音響分析して求めた特徴パラメータ系列を上記記
憶しておいた各音声モデルと照合して、入力音声を認識
する音声認識装置において、上記認識語彙入力手段から
入力される認識語彙の読みの表記を音声に変換して出力
する音声出力手段を備えたことを特徴とする。

【００１９】このような構成においては、認識語彙入力
手段から認識語彙として例えば「竹芝」の読みを登録す
るときに、誤って「たけしぱ」と入力すると、音声出力
手段により「たけしぱ」と音声で出力されるので、話者
（認識語彙登録者）は読みの入力間違いに容易に気づく
ことができ、読みの入力誤りによる認識性能の低下を未
然に防ぐことができる。

【００２０】

【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。［第１の実施形態］図１は本発明の第１の実施形態に係
る音声認識装置の概略構成を示すブロック図である。

【００２１】図１の音声認識装置において、音声入力部
１０１から入力された音声は、音響分析部１０２で特徴
パラメータに変換される。音声認識に使用される代表的
な特徴パラメータとしては、バンドパスフィルタやフー
リエ変換によって求めることができるパワースペクトル
や、ＬＰＣ（線形予測）分析によって求めたケプストラ
ム係数などがよく用いられるが、ここではその特徴パラ
メータの種類は問わない。

【００２２】音響分析部１０２は求めた入力音声の特徴
パラメータ系列をモデル照合部１０３に出力する。モデ
ル照合部１０３は、認識語彙入力部１０５から入力され
た認識語彙に従って予め作成して音声モデル作成・記憶
部１０４に記憶しておいた認識対象とするキーワード
（認識語彙を構成するキーワード）の各音声モデルと上
記入力音声の特徴パラメータ系列との類似度あるいは距
離を求める演算を行う。

【００２３】モデル照合部１０３の照合方法としては、
音声モデルも特徴パラメータ系列で表現しておき、ＤＰ
（動的計画）法で音声モデルの特徴パラメータ系列と入
力音声の特徴パラメータ系列の距離を求める手法や、Ｈ
ＭＭ（隠れマルコフモデル）を用いて音声モデルを表現
しておき、入力音声の特徴パラメータ系列が入力された
ときの各音声モデルの確率を計算する手法などが広く使
用されているが、特に手法は問わない。

【００２４】認識語彙入力部１０５は、認識語彙と、認
識語彙を構成する各キーワードの音声モデルを作成する
ために必要な、認識語彙の各キーワードへの分割情報
（キーワード分割情報）と、各キーワードの読み情報と
を入力するためのものであり、キーボードやファイルな
どで実現することができる。認識語彙入力部１０５から
入力された認識語彙は認識語彙記憶部１０９に登録され
る。

【００２５】キーワード変換部１０６は、認識語彙入力
部１０５から入力されたキーワード分割情報から各キー
ワードを抽出し、キーワード間の音の類似性と品詞など
の属性に基づいて選択される、例えば音の類似性があっ
て且つ品詞が同じキーワードの変換テーブル（キーワー
ド変換テーブル）１０６ａを作成し、記憶しておくため
のものである。

【００２６】キーワード拡張部１０７は、モデル照合部
１０３で得られた（類似度あるいは距離付きの）キーワ
ードを、キーワード変換部１０６によりキーワード変換
テーブル１０６ａに従って音の類似性のある他のキーワ
ードに変換させ、キーワードの拡張を行う。

【００２７】認識結果出力部１０８は、モデル照合部１
０３で求めた各音声モデルとキーワード拡張部１０７で
拡張して得られたキーワードが組み合わされたキーワー
ド列に対する類似度（あるいは距離）をある条件（例え
ば類似度の大きさ）のもとでソーティングして、認識語
彙記憶部１０９に記憶されている認識語彙の中で、類似
度が最大（あるいは距離が最小）となる認識対象のカテ
ゴリを認識結果として出力する。なお、上記ソーティン
グの制約として、例えば人の氏名は、会社名より優先さ
せるなどを適用してもよい。

【００２８】以上に述べた図１の構成の音声認識装置の
具体的動作を、当該音声認識装置で認識対象とする語
彙、即ち認識語彙が、「佐藤商店」、「加籐食堂」、
「田中書店」の３種類である場合を例にとり説明する。

【００２９】この場合、認識語彙入力部１０５から上記
３種類の認識語彙が入力されることになるが、本実施形
態では、その認識語彙を構成する各キーワードの音声モ
デルが（音声モデル作成・記憶部１０４にて）作成可能
なように、「佐藤‐商店」、「加籐‐食堂」、「田中‐
書店」のように、認識語彙中にキーワード分割記号（キ
ーワード分割情報）「‐」が挿入されて入力される。

【００３０】音声モデル作成・記憶部１０４は、認識語
彙入力部１０５からキーワード分割記号「‐」が挿入さ
れた認識語彙「佐藤‐商店」、「加籐‐食堂」、「田中
‐書店」が入力されると、各認識語彙について、その語
彙中に挿入されたキーワード分割記号「‐」に従って、
その語彙を構成するキーワードに分割する。ここでは、
上記３種類の認識語彙が、「佐藤」、「加籐」、「田
中」、「商店」、「食堂」、「書店」の６つのキーワー
ドに分割される。音声モデル作成・記憶部１０４は、こ
の６つのキーワード「佐藤」、「加籐」、「田中」、
「商店」、「食堂」、「書店」について、それぞれ音声
モデルを作成し、記憶する。

【００３１】これと同時に、キーワード変換部１０６
は、認識語彙入力部１０５から入力されたキーワード分
割記号付きの認識語彙「佐藤‐商店」、「加籐‐食
堂」、「田中‐書店」から得られる上記６つのキーワー
ド「佐藤」、「加籐」、「田中」、「商店」、「食
堂」、「書店」について音声の類似性を調べて、類似性
のあるキーワードを抽出し、キーワード変換テーブル１
０６ａを作成する。ここでは、キーワード変換テーブル
１０６ａの作成規則を、キーワードの読みが異なる音節
数が所定数以下、例えば１音節以下のキーワード同士を
音声の類似性ありとして、当該テーブル１０６ａに登録
するものとする。この場合、「佐藤」と「加藤」、「商
店」と「書店」が類似性ありと抽出され、図２に示すよ
うなキーワード変換テーブル１０６ａが作成される。

【００３２】すると、音声認識時に、例えば「佐藤商
店」と入力された場合に、モデル照合部１０３での照合
結果が「佐藤」と「書店」であったとすると、キーワー
ド拡張部１０７では、「佐藤」と「書店」について、キ
ーワード変換部１０６によりキーワード変換テーブル１
０６ａに従う「佐藤→加籐」、「書店→商店」のキーワ
ード変換を行わせ、モデル照合部１０３での照合結果と
して「佐藤」と「書店」の他に、「加籐」と「商店」も
あるかのように、キーワードの拡張を行う。

【００３３】キーワード拡張部１０７により拡張された
キーワードの組み合わせの中には、認識語彙記憶部１０
９に記憶されている認識語彙と一致するものとして、
「佐藤商店」がある。したがって、モデル照合部１０３
での照合結果が「佐藤」と「書店」であったにも拘ら
ず、認識結果出力部１０８では、「佐藤商店」を正しく
認識して出力することができる。

【００３４】これに対し、キーワード変換部１０６とキ
ーワード拡張部１０７がなく、キーワードの拡張が行わ
れない場合には、モデル照合部１０３での照合結果であ
る「佐藤」と「書店」で構成される「佐藤書店」は認識
語彙記憶部１０９には存在しないので、「佐藤商店」を
正しく認識することはできない。

【００３５】なお、キーワード変換により得られたキー
ワードの音声モデルとの照合では、類似度を一定値ある
いは一定割合低くするとよい。以上は、話者が「佐藤商
店」と発声したのに対して、モデル照合部１０３で「佐
藤」「書店」と誤った照合結果が得られた場合でも、音
の類似性に着目したキーワードの拡張により「佐藤商
店」を正しく認識できる例について述べた。本実施形態
では、同様にして、話者が「佐藤商店」を「佐藤書店」
と言い間違った場合にも、音の類似性に着目したキーワ
ードの拡張により「佐藤商店」を正しく認識することが
できる。

【００３６】このように本実施形態においては、キーワ
ードを音としての類似性に着目して拡張することによ
り、キーワードの認識誤りや話者の言い間違いによる認
識性能の低下を効果的に防ぐことができる。［第２の実施形態］図３は本発明の第２の実施形態に係
る音声認識装置の概略構成を示すブロック図である。

【００３７】図３の音声認識装置において、音声入力部
２０１から入力された音声は、音響分析部２０２で特徴
パラメータに変換される。音声認識に使用される代表的
な特徴パラメータとしては、バンドパスフィルタやフー
リエ変換によって求めることができるパワースペクトル
や、ＬＰＣ（線形予測）分析によって求めたケプストラ
ム係数などがよく用いられるが、ここではその特徴パラ
メータの種類は問わない。

【００３８】音響分析部２０２は求めた入力音声の特徴
パラメータ系列をモデル照合部２０３に出力する。モデ
ル照合部２０３は、音声モデル記憶部２０４に記憶され
ている全ての音節の任意の長さの音節列の音声モデルと
特徴パラメータ系列の類似度あるいは距離を求める演算
を行う。

【００３９】モデル照合部２０３の照合方法としては、
音声モデルも特徴パラメータ系列で表現しておき、ＤＰ
（動的計画）法で音声モデルの特徴パラメータ系列と入
力音声の特徴パラメータ系列の距離を求める手法や、Ｈ
ＭＭ（隠れマルコフモデル）を用いて音声モデルを表現
しておき、入力音声の特徴パラメータ系列が入力された
ときの各音声モデルの確率を計算する手法などが広く使
用されているが、特に手法は問わない。

【００４０】認識結果出力部２０５は、モデル照合部２
０３での照合結果をもとに、制約条件記憶部２０６に記
憶されている制約条件に従って、例えば先頭の音節と最
後の音節が一致する音節列について、類似度（あるいは
距離）をある条件のもとでソーティングして、類似度が
最大（あるいは距離が最小）となる音節列の先頭の音節
を認識結果として出力する。

【００４１】以上に述べた図３の構成の音声認識装置の
具体的動作を、例えば、「あさひ（朝日）のあ」と発声
した場合を例にとり説明する。まず、話者が「あさひ
（朝日）のあ」と発声した結果、モデル照合部２０３に
て図４に示すような音節列と類似度、即ち類似度が８６
の音節列「あ」「さ」「ひ」「の」「あ」と、類似度が
９２の音節列「う」「さ」「ひ」「の」「あ」とが得ら
れたとする。

【００４２】この場合、入力音声の先頭の音節と最後の
音節が一致するという制約を設けないで、認識結果出力
部２０５から類似度が最大となる音節列の先頭の音節を
認識結果として出力するならば、入力音声の先頭の音節
とは異なる誤った音節「う」が出力されることになる。

【００４３】これに対して本実施形態では、制約条件記
憶部２０６に記憶されている制約条件により、先頭と最
後の音節が一致するという制約を設けてあるため、認識
結果出力部２０５での認識結果は音節「あ」となり、入
力音声の先頭の音節を正しく認識することができる。し
かも、先頭と最後の音節が一致するという制約のもと
で、入力音声の最初の音節を認識することから、この例
のように音節「あ」を入力するときに発声する音声は、
「朝日のあ」だけではなく、「あひるのあ」、更には
「あじあ（アジア）」など、単に先頭の音節と最後の音
節が同じであればよい。

【００４４】このように本実施形態においては、入力音
声の先頭の音節と最後の音節が一致するという制約のも
とで入力音声の先頭の音節を認識することにより、非常
に精度の高い音節認識を実現できる。また、各音節を入
力するときに発声する言葉を覚える必要がないので、誰
でもすぐに使用することができる。［第３の実施形態］図５は本発明の第３の実施形態に係
る音声認識装置の概略構成を示すブロック図である。

【００４５】図５の音声認識装置において、音声入力部
３０１から入力された音声は、音響分析部３０２で特徴
パラメータに変換される。音声認識に使用される代表的
な特徴パラメータとしては、バンドパスフィルタやフー
リエ変換によって求めることができるパワースペクトル
や、ＬＰＣ（線形予測）分析によって求めたケプストラ
ム係数などがよく用いられるが、ここではその特徴パラ
メータの種類は問わない。

【００４６】音響分析部３０２は求めた入力音声の特徴
パラメータ系列をモデル照合部２０３に出力する。モデ
ル照合部３０３は、認識語彙入力部３０５から入力され
た認識語彙に従って予め作成して音声モデル作成・記憶
部３０４に記憶しておいた認識対象とするキーワードの
各音声モデルと上記入力音声の特徴パラメータ系列との
類似度あるいは距離を求める演算を行う。

【００４７】モデル照合部３０３の照合方法としては、
音声モデルも特徴パラメータ系列で表現しておき、ＤＰ
（動的計画）法で音声モデルの特徴パラメータ系列と入
力音声の特徴パラメータ系列の距離を求める手法や、Ｈ
ＭＭ（隠れマルコフモデル）を用いて音声モデルを表現
しておき、入力音声の特徴パラメータ系列が入力された
ときの各音声モデルの確率を計算する手法などが広く使
用されているが、特に手法は問わない。

【００４８】認識結果出力部３０８は、モデル照合部３
０３で求めた各認識語彙に対する類似度が最大（あるい
は距離が最小）となる語彙を認識結果として出力する。
認識語彙入力部３０５は、認識したい語彙とその読みを
登録するためのものであり、キーボードやファイルなど
で実現することができる。

【００４９】一方、例えば登録したい地名として、認識
語彙入力部３０５から「神戸（かんべ）」を登録する際
に、「神戸」の読みとしては「こうべ」の方が一般的で
あり、「こうべ」と誤読される可能性が高いと判断した
場合には、「神戸（かんべ）」の誤読されやすい読み、
即ち別称として「こうべ」を別称登録部３０６から登録
する。この別称登録部３０６を、例えばキーボードで構
成して、利用者からの当該キーボードの操作により別称
を登録（入力）するようにするしてもよいし、語彙から
その読みを検索することができるテーブルを予め作成し
て別称登録部３０６に設けておき、複数の読みが存在す
る場合には、別称をそのテーブルから別称登録部３０６
内部で自動生成（入力）する構成としてもよい。

【００５０】登録語彙類似性判定部３０７は、認識語彙
入力部３０５から登録された全ての語彙の読みと別称登
録部３０６での別称登録により登録される読みとの類似
性を判断する。もし、別称登録される読みとの類似性の
ある（読みが登録された）語彙が存在する場合には、登
録語彙類似性判定部３０７は警告出力部３０９により利
用者に警告したり、別称の登録の中止を行う。この登録
語彙類似性判定部３０７での読みの類似性の判定には、
例えば読みの音節の相違が１音節以下などの条件が適用
可能である。

【００５１】このように本実施形態においては、認識語
彙入力部３０５から入力して登録される認識語彙の別称
を別称登録部３０６により登録する際に、別称が他の語
彙と類似していないかを登録語彙類似性判定部３０７に
て判断し、警告出力部３０９から利用者に知らせること
により、別称登録による認識性能の低下を未然に防ぐこ
とができる。例えば、上記した「神戸（かんべ）」では
なくて、一般的な神戸（こうべ）」が認識語彙として登
録されているにも拘らず、「神戸」の別称として「こう
べ」を登録した場合には、「神戸（かんべ）」と「神戸
（こうべ）」の識別はできなくなるが、図５の音声認識
装置では、このような問題を回避することができる。

【００５２】なお、別称登録部３０６により登録される
別称に類似の認識語彙がない場合、例えば認識語彙「神
戸（かんべ）」の別称として「こうべ」を登録する場合
には、登録語彙類似性判定部３０７にて類似語彙がない
ものと判断されて別称登録が許可され、音声モデル作成
・記憶部３０４には、認識語彙「神戸（かんべ）」の音
声モデルとは別に、認識語彙「神戸（かんべ）」の別称
「こうべ」の音声モデルが記憶される。この場合、「神
戸（かんべ）」を誤って「こうべ」と発声しても、モデ
ル照合部３０３で（音声モデル作成・記憶部３０４内
の）「神戸（かんべ）」の別称の「こうべ」（の音声モ
デル）と照合されることで、「神戸（かんべ）」が認識
される。［第４の実施形態］図６は本発明の第４の実施形態に係
る音声認識装置の概略構成を示すブロック図である。

【００５３】図６の音声認識装置において、音声入力部
４０１から入力された音声は、音響分析部４０２で特徴
パラメータに変換される。音声認識に使用される代表的
な特徴パラメータとしては、バンドパスフィルタやフー
リエ変換によって求めることができるパワースペクトル
や、ＬＰＣ（線形予測）分析によって求めたケプストラ
ム係数などがよく用いられるが、ここではその特徴パラ
メータの種類は問わない。

【００５４】音響分析部４０２は求めた入力音声の特徴
パラメータ系列をモデル照合部４０３に出力する。モデ
ル照合部４０３は、認識語彙入力部４０５から入力され
た認識語彙に従って予め作成して音声モデル作成・記憶
部４０４に記憶しておいた認識対象とするキーワード
（認識語彙を構成するキーワード）の各音声モデルと上
記入力音声の特徴パラメータ系列との類似度あるいは距
離を求める演算を行う。

【００５５】モデル照合部４０３の照合方法としては、
音声モデルも特徴パラメータ系列で表現しておき、ＤＰ
（動的計画）法で音声モデルの特徴パラメータ系列と入
力音声の特徴パラメータ系列の距離を求める手法や、Ｈ
ＭＭ（隠れマルコフモデル）を用いて音声モデルを表現
しておき、入力音声の特徴パラメータ系列が入力された
ときの各音声モデルの確率を計算する手法などが広く使
用されているが、特に手法は問わない。

【００５６】キーワード別認識結果出力部４０６は、モ
デル照合部４０３で求めた各キーワードに対する類似度
（あるいは距離）に従い、認識語彙入力部４０５から入
力されて認識語彙記憶部４０７に記憶されている語彙を
意味的に同じキーワード別にソーテイングし、類似度が
最大（あるいは距離が最小）となる複数の語彙を認識結
果として出力する。

【００５７】例えば、認識語彙記憶部４０７内に、認識
語彙として「田中ホテル」、「佐藤ホテル」、「加籐ホ
テル」、「田中酒店」、「佐藤酒店」、「田中ガソリン
スタンド」の６種類が登録されている場合に、音声認識
するキーワードとして、「田中」「佐藤」「加籐」「ホ
テル」「酒店」、「ガソリンスタンド」の６つキーワー
ドを考える。

【００５８】ここで、もし「田中ホテル」と発声された
場合に、モデル照合部４０３にて得られる認識結果と類
似度が図７に示すようになったものとする。この場合、
キーワード別認識結果出力部４０６が、図８（ｂ）に示
すように、単純にキーワードが組み合わされた（認識語
彙記憶部４０７に記憶されている語彙に一致する）キー
ワード列に対する類似度の和の大きい順に複数の候補を
出力したのでは（従来の出力方式）、「ホテル」や「酒
店」が混在しているため候補選択時にわかりにくいとい
う問題がある。

【００５９】これに対して本実施形態では、キーワード
別認識結果出力部４０６は、例えば業種を表すキーワー
ドの類似度が予め定められた閾値以上となるキーワード
列を、当該業種を表すキーワード別に出力する。例え
ば、類似度が１００以上の業種を表すキーワード別（こ
こでは「ホテル」と「酒店」の各キーワード別）に表示
すると、図８（ｂ）のように表示することができ、視認
性良く候補を表示することができる。

【００６０】このように本実施形態においては、キーワ
ード別に複数の認識結果を類似度の大きい順（あるいは
距離の小さい順）に出力することにより、候補選択を効
率よく行うことができる。［第５の実施形態］図９は本発明の第５の実施形態に係
る音声認識装置の概略構成を示すブロック図である。

【００６１】図９の音声認識装置において、音声入力部
５０１から入力された音声は、音響分析部５０２で特徴
パラメータに変換される。音声認識に使用される代表的
な特徴パラメータとしては、バンドパスフィルタやフー
リエ変換によって求めることができるパワースペクトル
や、ＬＰＣ（線形予測）分析によって求めたケプストラ
ム係数などがよく用いられるが、ここではその特徴パラ
メータの種類は問わない。

【００６２】音響分析部５０２は求めた入力音声の特徴
パラメータ系列をモデル照合部５０３に出力する。モデ
ル照合部５０３は、認識語彙入力部５０５から入力され
た認識語彙に従って予め作成して音声モデル作成・記憶
部５０４に記憶しておいた認識対象とするキーワードの
各音声モデル（ここでは、認識語彙の別称の音声モデル
を含む各認識語彙の音声モデル）と上記入力音声の特徴
パラメータ系列の類似度あるいは距離を求める演算を行
う。

【００６３】モデル照合部５０３の照合方法としては、
音声モデルも特徴パラメータ系列で表現しておき、ＤＰ
（動的計画）法で音声モデルの特徴パラメータ系列と入
力音声の特徴パラメータ系列の距離を求める手法や、Ｈ
ＭＭ（隠れマルコフモデル）を用いて音声モデルを表現
しておき、入力音声の特徴パラメータ系列が入力された
ときの各音声モデルの確率を計算する手法などが広く使
用されているが、特に手法は問わない。

【００６４】認識語彙入力部５０５は、認識したい語彙
とその読みを登録するためのものであり、キーボードや
ファイルなどで実現することができる。一方、例えば登
録したい地名として、認識語彙入力部５０５から「神戸
（かんべ）」を登録する際に、「神戸」の読みとしては
「こうべ」の方が一般的であり、「こうべ」と誤読され
る可能性が高いと判断した場合には、「神戸（かん
べ）」の誤読されやすい読み、即ち別称として「こう
べ」を別称登録部５０６から登録する。この別称登録部
５０６を、例えばキーボードで構成して、利用者からの
当該キーボードの操作により別称を登録（入力）するよ
うにするしてもよいし、語彙からその読みを検索するこ
とができるテーブルを予め作成して別称登録部５０６に
設けておき、複数の読みが存在する場合には、別称をそ
のテーブルから別称登録部５０６内部で自動生成（入
力）する構成としてもよい。

【００６５】別称登録部５０６から認識語彙「神戸（か
んべ）」の別称として「こうべ」を登録すると、音声モ
デル作成・記憶部５０４には、認識語彙「神戸（かん
べ）」の音声モデルとは別に、認識語彙「神戸（かん
べ）」の別称「こうべ」の音声モデルが記憶される。こ
こで、「こうべ」の音声モデルには、「神戸（かん
べ）」の別称であることを示すフラグ情報が付される。

【００６６】そこで、「神戸（かんべ）」を誤って「こ
うべ」と発声しても、モデル照合部５０３で（音声モデ
ル作成・記憶部５０４内の）「神戸（かんべ）」の別称
の「こうべ」の音声モデルと照合されることで、「神戸
（かんべ）」が認識される。ここで、「こうべ」の音声
モデルには、上記したように「神戸（かんべ）」の別称
であることを示すフラグ情報が付加されており、モデル
照合部５０３で「こうべ」の音声モデルとの照合が行わ
れた場合、その照合結果には当該フラグ情報が付されて
認識結果出力部５０７に渡される。これにより認識結果
出力部５０７は、モデル照合部５０３で認識されたキー
ワードは正しい読みでなくて別称であることを識別し、
認識結果「神戸」に正しい読み「かんべ」を付加して、
表示または音声で出力する。

【００６７】このように本実施形態においては、認識結
果出力時に、正しい読みを出力することにより、話者が
別称で覚えていた言葉の正しい読みを当該話者に覚えさ
せることができ、以後正しい読みで入力できるようにな
る。［第６の実施形態］図１０は本発明の第６の実施形態に
係る音声認識装置の概略構成を示すブロック図である。

【００６８】図１０の音声認識装置において、音声入力
部６０１から入力された音声は、音響分析部６０２で特
徴パラメータに変換される。音声認識に使用される代表
的な特徴パラメータとしては、バンドパスフィルタやフ
ーリエ変換によって求めることができるパワースペクト
ルや、ＬＰＣ（線形予測）分析によって求めたケプスト
ラム係数などがよく用いられるが、ここではその特徴パ
ラメータの種類は問わない。

【００６９】音響分析部６０２は求めた入力音声の特徴
パラメータ系列をモデル照合部６０３に出力する。モデ
ル照合部６０３は、認識語彙入力部６０５から入力され
た認識語彙の読み（仮名、カタカナ、あるいはローマ字
などの表記で入力される認識語彙の読み）に従って予め
作成して音声モデル作成・記憶部６０４に記憶しておい
た認識対象とするキーワード（認識語彙を構成するキー
ワード）の各音声モデルと上記入力音声の特徴パラメー
タ系列との類似度あるいは距離を求める演算を行う。

【００７０】モデル照合部６０３の照合方法としては、
音声モデルも特徴パラメータ系列で表現しておき、ＤＰ
（動的計画）法で音声モデルの特徴パラメータ系列と入
力音声の特徴パラメータ系列の距離を求める手法や、Ｈ
ＭＭ（隠れマルコフモデル）を用いて音声モデルを表現
しておき、入力音声の特徴パラメータ系列が入力された
ときの各音声モデルの確率を計算する手法などが広く使
用されているが、特に手法は問わない。

【００７１】音声出力部６０７は、認識語彙入力部６０
５から認識語彙の読みが入力された際に、その読みを音
声に変換して出力する。音声出力部６０７による音声出
力は、例えば日本語の全ての音節について音声を記憶し
ておき、上記入力された読みに従って、記憶された音声
を接続することにより実現することができる。

【００７２】例えば、認識語彙「竹芝」の読みとして認
識語彙入力部６０５から誤って「たけしぱ」と入力した
とすると、その誤った読み「たけしぱ」の音声モデルが
音声モデル作成・記憶部６０４で作成・記憶されるた
め、認識時に「たけしば」と発声しても正しく認識でき
なくなる。

【００７３】これに対して本実施形態によれば、認識語
彙入力部６０５から認識語彙「竹芝」の読みを登録する
ときに、誤って「たけしぱ」と入力すると、音声出力部
６０７により「たけしぱ」と音声で出力してくれるの
で、話者（認識語彙登録者）は読みの入力間違いに容易
に気づくことができ、読みの入力誤りによる認識性能の
低下を未然に防ぐことができる。

【００７４】以上に述べた図１、図３、図５、図６、図
９、図１０の構成の音声認識装置の各部の機能は、コン
ピュータ、例えば内蔵型マイクロホンが組み込まれた、
あるいはマイクロホン入力端子が設けられた音声入力機
能を持つパーソナルコンピュータを、上記音声認識装置
が持つ各処理部として機能させるためのプログラムを記
録した、ＣＤ‐ＲＯＭ、フロッピーディスク、メモリカ
ード等の記録媒体を用い、当該記録媒体をパーソナルコ
ンピュータに装着して、当該記録媒体に記録されている
プログラムをパーソナルコンピュータで読み取り実行さ
せることにより実現される。また、上記プログラムは、
記録媒体に限らず、例えば通信回線からダウンロードさ
れるものであっても構わない。

【００７５】

【発明の効果】以上詳述したように本発明によれば、キ
ーワードを音としての類似性に着目して拡張するように
したので、キーワードの認識誤りや話者の言い間違いに
よる認識性能の低下を効果的に防ぐことができる。

【００７６】また、本発明によれば、入力音声の先頭の
音節と最後の音節が一致するという制約のもとで入力音
声の先頭の音節を認識するようにしたので、非常に精度
の高い音節認識を実現できる。また、各音節を入力する
ときに発声する言葉を覚える必要がないので、誰でもす
ぐに誤りなく使用することができる。

【００７７】また、本発明によれば、認識語彙の別称を
登録する際に、その別称が他の登録語彙と類似していな
いかを調べて、類似している場合には利用者に知らせる
ことにより、別称登録による認識性能の低下を未然に防
ぐことができる。

【００７８】また、本発明によれば、キーワード別に複
数の認識結果を一定の条件でソーティングして出力する
ようにしたので、候補選択を効率よく行うことができ、
候補選択誤り等の発生を防ぐことができる。

【００７９】また、本発明によれば、認識結果出力時
に、正しい読みを出力するようにしたので、話者が別称
で覚えていた言葉の正しい読みを当該話者に覚えさせる
ことができ、以後正しい読みで入力できるようになる。

【００８０】また、本発明によれば、認識語彙の登録の
ために、その読みの表記を入力する際には、その表記を
音声に変換して出力するようにしたので、話者は読みの
入力間違いがあった場合には、その読みを音声で出力す
るようにしたので、話者は、読みの表記の入力間違いが
あっても、その間違いを音声出力内容から直ちに気づく
ことができ、読みの入力誤りによる認識性能の低下を未
然に防ぐことができる。このように本発明においては、
認識語彙の読みの登録間違いや、装置使用時の読みの記
憶違い等に起因する認識性能の低下を防ぐことができ
る。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る音声認識装置の
概略構成を示すブロック図。

【図２】図１中のキーワード変換テーブル１０６ａの内
容例を示す図。

【図３】本発明の第２の実施形態に係る音声認識装置の
概略構成を示すブロック図。

【図４】「あさひのあ」と発声された場合に図３中のモ
デル照合部２０３で得られる音節列と類似度の一例を示
す図。

【図５】本発明の第３の実施形態に係る音声認識装置の
概略構成を示すブロック図。

【図６】本発明の第４の実施形態に係る音声認識装置の
概略構成を示すブロック図。

【図７】「田中ホテル」と発声された場合に図６中のモ
デル照合部４０３にて得られる各キーワードと類似度の
一例を示す図。

【図８】図７の認識結果と類似度とに基づく認識結果表
示例を従来方式の認識結果表示例と対比させて示す図。

【図９】本発明の第５の実施形態に係る音声認識装置の
概略構成を示すブロック図。

【図１０】本発明の第６の実施形態に係る音声認識装置
の概略構成を示すブロック図。

【符号の説明】

１０１，２０１，３０１，４０１，５０１，６０１…音
声入力部１０２，２０２，３０２，４０２，５０２，６０２…音
響分析部１０３，２０３，３０３，４０３，５０３，６０３…モ
デル照合部１０４，３０４，４０４，５０４，６０４…音声モデル
作成・記憶部１０５，３０５，４０５，５０５，６０５…認識語彙入
力部１０６…キーワード変換部１０７…キーワード拡張部１０８，２０５，３０８，５０７，６０６…認識結果出
力部１０９，４０７…認識語彙記憶部２０４…音声モデル記憶部２０６…制約条件記憶部３０６，５０６…別称登録部３０７…登録語彙類似性判定部３０９…警告出力部４０６…キーワード別認識結果出力部６０７…音声出力部

Claims

【特許請求の範囲】

【請求項１】入力音声を音響分析して求めた特徴パラ
メータ系列を予め作成しておいた各認識語彙を構成する
キーワードの音声モデルと照合して、入力音声を認識す
る音声認識装置において、前記各キーワードのうち音としての類似性のあるキーワ
ード相互間の変換を行うためのキーワード変換手段と、前記認識したキーワードを前記キーワード変換手段を用
いて音としての類似性のある別のキーワードに変換する
ことで認識したキーワードを拡張するキーワード拡張手
段と、前記拡張されたキーワードから認識結果を決定する認識
結果出力手段とを具備することを特徴とする音声認識装
置。
【請求項２】前記キーワード変換手段は、前記各キー
ワードのうち、キーワードの読みが異なる音節数が所定
数以下のキーワード同士を音としての類似性ありとして
扱うことを特徴とする請求項１記載の音声認識装置。
【請求項３】入力音声を音響分析して求めた特徴パラ
メータ系列を予め作成しておいた認識語彙の音声モデル
と照合して、入力音声を認識する音声認識装置におい
て、前記音声モデルとの照合により得られる認識した音声の
先頭の音節と最後の音節が一致することを制約として、
入力音声の最初の音節を認識する認識結果出力手段を具
備することを特徴とする音声認識装置。
【請求項４】入力音声を音響分析して求めた特徴パラ
メータ系列を予め作成しておいた、認識語彙の別称の音
声モデルを含む各認識語彙の音声モデルと照合して、入
力音声を認識する音声認識装置において、登録する認識語彙の正しい読みに加えて、誤読されやす
い読みを別称として登録する別称登録手段と、前記別称登録手段により別称として登録される読みが認
識語彙の読みと類似しているか否かを判定する登録語彙
類似性判定手段と、前記登録語彙類似性判定手段により類似していると判定
された場合に、その旨の警告を出力する警告出力手段
と、前記別称登録手段により登録された前記別称の読みの音
声モデルとの照合で入力音声が認識された場合、その読
みを別称とする語彙を認識する認識結果出力手段とを具
備することを特徴とする音声認識装置。
【請求項５】入力音声を音響分析して求めた特徴パラ
メータ系列を予め作成しておいた各認識語彙を構成する
キーワードの音声モデルと照合して、入力音声を認識す
る音声認識装置において、複数のキーワードが組み合わされたキーワード列からな
る音声の認識結果を複数候補出力する際に、意味的に同
じキーワード別に、そのキーワード列の確からしさ順に
ソートして出力するキーワード別認識結果出力手段を具
備することを特徴とする音声認識装置。
【請求項６】入力音声を音響分析して求めた特徴パラ
メータ系列を予め作成しておいた、認識語彙の別称の音
声モデルを含む各認識語彙の音声モデルと照合して、入
力音声を認識する音声認識装置において、登録する認識語彙の正しい読みに加えて、誤読されやす
い読みを別称として登録する別称登録手段と、別称として登録してある読みを認識したときに、正しい
読みを利用者に提示する認識結果出力手段を具備するこ
とを特徴とする音声認識装置。
【請求項７】認識語彙入力手段から入力される認識語
彙の読みの表記をもとに音声モデルを作成して記憶して
おき、入力音声を音響分析して求めた特徴パラメータ系
列を前記記憶しておいた各音声モデルと照合して、入力
音声を認識する音声認識装置において、前記認識語彙入力手段から入力される認識語彙の読みの
表記を音声に変換して出力する音声出力手段を具備する
ことを特徴とする音声認識装置。
【請求項８】入力音声を音響分析して求めた特徴パラ
メータ系列を予め作成しておいた各認識語彙を構成する
キーワードの音声モデルと照合して、入力音声を認識す
る音声認識装置に適用される音声認識方法であって、前記認識したキーワードを、前記各認識語彙を構成する
キーワードの中で音としての類似性のある別のキーワー
ドに変換することで認識したキーワードを拡張し、前記拡張したキーワードから認識結果を決定するように
したことを特徴とする音声認識方法。
【請求項９】入力音声を音響分析して求めた特徴パラ
メータ系列を予め作成しておいた認識語彙の音声モデル
と照合して、入力音声を認識する音声認識装置に適用さ
れる音声認識方法であって、前記音声モデルとの照合により得られる認識した音声の
先頭の音節と最後の音節が一致することを制約として、
入力音声の最初の音節を認識するようにしたことを特徴
とする音声認識方法。
【請求項１０】入力音声を音響分析して求めた特徴パ
ラメータ系列を予め作成しておいた、認識語彙の別称の
音声モデルを含む各認識語彙の音声モデルと照合して、
入力音声を認識する音声認識装置に適用される別称登録
誤り検出方法であって、前記認識語彙の音声モデルを予め作成する際に、当該認
識語彙の正しい読みに加えて、誤読されやすい読みを別
称として登録し、前記別称の読みの登録時には、当該別称の読みが、既に
登録済みの認識語彙の読みと類似しているか否かを判定
し、類似していると判定した場合には、別称登録誤りを示す
警告を出力するようにしたことを特徴とする別称登録誤
り検出方法。
【請求項１１】入力音声を音響分析して求めた特徴パ
ラメータ系列を予め作成しておいた認識語彙の音声モデ
ルと照合して、入力音声を認識する音声認識装置におけ
る認識結果出力方法であって、複数のキーワードが組み合わされたキーワード列からな
る音声の認識結果を複数候補出力する際に、意味的に同
じキーワード別に、そのキーワード列の確からしさ順に
ソートして出力するようにしたことを特徴とする認識結
果出力方法。
【請求項１２】入力音声を音響分析して求めた特徴パ
ラメータ系列を予め作成しておいた、認識語彙の別称の
音声モデルを含む各認識語彙の音声モデルと照合して、
入力音声を認識する音声認識装置に適用される認識語彙
の読みの提示方法であって、別称として登録してある認識語彙の読みを認識したとき
には、当該認識語彙の正しい読みを利用者に提示するよ
うにしたことを特徴とする認識語彙の読みの提示方法。
【請求項１３】認識語彙入力手段から入力される認識
語彙の読みの表記をもとに音声モデルを作成して記憶し
ておき、入力音声を音響分析して求めた特徴パラメータ
系列を前記記憶しておいた各認識語彙を構成するキーワ
ードの音声モデルと照合して、入力音声を認識する音声
認識装置に適用される認識語彙の読みの提示方法であっ
て、前記認識語彙入力手段から認識語彙の読みの表記が入力
された際に、当該表記を音声に変換して出力するように
したことを特徴とする認識語彙の読みの提示方法。