JP2004245938A

JP2004245938A - 音声認識装置及びプログラム

Info

Publication number: JP2004245938A
Application number: JP2003033722A
Authority: JP
Inventors: Hiroyuki Watabe; 浩行渡部
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2003-02-12
Filing date: 2003-02-12
Publication date: 2004-09-02

Abstract

【課題】音声認識装置において、ユーザの発音精度が低くても音声を正確に認識でき、かつ誤認識を少なくする。
【解決手段】ワードを階層化した音声テーブル８が用意される。音声が入力されると、入力された音声パターンと最上位層の音声テーブル＃０に登録された音声パターンとを比較する。ここで音声パターンが一致すると、そのワードの下位層に当る音声テーブル＃１が読み出される。以下同様にして音声認識が進められる。２以上のワードを連続して音声認識することにより、下位層のワードを誤認識する確率を低減することができる。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置に関するものであり、特に複数のワードを連続して入力しても認識できるようにしたものである。
【０００２】
【従来の技術】
ナビゲーションシステム、オーディオシステムなどの車載システムなどにおいては、ユーザがコマンドを音声で発することでシステムを制御することが行われている。このような、システムにおいては、ユーザが発する音声によるコマンドを音声認識装置により解析し、システムはそのコマンドに従って動作を行う。
【０００３】
車載システムでは、コマンドは階層化して構成されている。ユーザは、音声による指示をするときは、上位層のコマンドから下位層のコマンドへと、順にコマンドを発声していく。例えば、電話番号で目的地を検索しようとするとき、「目的地」「検索」「レストラン」というように、複数のワードを順番に発声する。
【０００４】
従来の音声認識装置においては、最初のワードの「目的地」が入力されると、その音声パターンと、音声テーブルに複数登録されている音声パターンとを比較する。そして、音声テーブル中の音声パターンの内、入力された音声パターンと一致するものを選択し、その音声パターンに対応するコマンド「目的地」を出力する。
【０００５】
この処理が終了すると、システムからユーザに対して、次のコマンドの指示を促す指示が表示される。ユーザは、この表示にしたがって、順次コマンドを発していく。
このように、従来の音声認識装置においては、１ワードごとに音声認識を行っていた。
【０００６】
音声認識装置においては、音声パターン同士の一致又は不一致を判定するために、音声認識レベルのしきい値が使用される。音声テーブルには、１ワードにつき１つの音声パターンが記憶されているだけであるので、ユーザによる発音、アクセントの違いなどにより、音声パターン同士が完全に一致することは通常ない。このため、しきい値を設け、比較の結果、音声パターン同士で一致する量がしきい値を超えれば、入力音声パターンと音声テーブル中の音声パターンが一致したと判定している。
【０００７】
ここで、しきい値を高く設定すると、ユーザによる発音、アクセントの違いなどが原因で、正しいワードに対する音声パターンの一致度がしきい値以下となり、認識ができない場合がある。また、しきい値を低く設定すると、異なったワードが誤認識される場合がある。このように、音声認識装置に対して音声認識レベルを適正に設定することは困難であった。
【０００８】
従来の車載システムにおける音声認識装置においては、ユーザによる発音、アクセントの違いなどを考慮して、音声認識レベルのしきい値を低く設定していた。このため、誤認識が発生する率が高くなっていた。
また、車載システムを制御するには、多くのコマンドが必要とされるので、音声テーブルに登録するコマンドの数が多くなっていた。
【０００９】
音声テーブルに登録するコマンドの数が多くなると、普通の会話などで発生されるワードが音声テーブル中のコマンドに一致する率が高くなり、これによる誤認識が発生する率も高くなっていた。
誤認識が発生すると、ユーザは、システムが希望どおりの動作を開始するまで、音声による指示を繰り返さなければならなかった。
【００１０】
これに対し、音声認識装置における誤認識を防止するための方法が種々提案されている。例えば、ワードの出現率を考慮に入れて精度の高い音声認識を行う装置が提案されている（例えば、特許文献１参照。）。あるいは、複数のワードの組み合せ情報を用いて、精度の高い音声認識を行う装置が提案されている（例えば、特許文献２参照。）。
【００１１】
【特許文献１】
特開昭５９−１８５４００号公報
【特許文献２】
特開平７−９２９９４号公報
【００１２】
【発明が解決しようとする課題】
しかしながら、これらの方法によっても、音声認識装置における誤認識を少なくすることはできていなかった。
本発明は、音声認識装置において、ユーザの発音精度が低くても音声を正確に認識でき、かつ誤認識の発生を少なくすることを目的とするものである。
【００１３】
【課題を解決するための手段】
本発明は、上記目的を達成するためになされたものである。本発明の音声認識装置においては、連続して入力された音声によるワードを、つなげて認識することにより、誤認識を防止する。
本発明においては、複数のワードを階層的に分類し、階層ごとに音声テーブルを設ける。音声が入力されると、最初のワードの音声パターンと最上位層の音声テーブルに登録された音声パターンとが比較される。
【００１４】
ここで音声パターンが一致するワードが抽出されると、そのワードの下位層に当るワードの音声パターンを登録した音声テーブルが読み出される。
次に入力された音声パターンは、この下位層の音声テーブルに登録された音声パターンと比較される。この処理が繰り返され、認識されたワードに基づく出力が音声認識装置から出される。
【００１５】
本発明の音声認識装置によれば、認識された複数のワードを階層に沿って上位層から連続して認識していくので、下位層のワードについて音声認識をするときには、誤認識となる確率が少なくなる。したがって、下位層のワードの音声認識をするときは、その音声テーブルの音声認識レベルのしきい値を低く設定しても、誤認識が発生することが少なくなる。
【００１６】
最上位層のワードについては、音声認識レベルのしきい値を高く設定することにより、誤認識を防止することが好ましい。最上位層のワードのしきい値を高くすることで、それより下位層のワードのしきい値を低くしても、誤認識を少なくすることができる。
また、下位層の音声テーブルのしきい値は、一定の低い値に設定しても良く、また、それぞれの音声テーブルの特性に従って異なるしきい値に設定することもできる。
【００１７】
例えば、１つの音声テーブルに登録されている音声パターンの数が多い程、しきい値を高く設定する。また、１つの音声テーブルに登録されている近似する音声パターンの数多い程、しきい値を高く設定する。さらに、階層が深い音声テーブル程、しきい値を低くする。
なお、本発明において使用する「ワード」は、厳密な意味での１ワードを意味しない。複数のワードにより１つの音声パターンを形成する場合も、１つの「ワード」と呼ぶこととしている。
【００１８】
【発明の実施の形態】
本発明の音声認識装置を車載システムに適用した例について図を用いて説明する。
図１は、車載システムの回路構成を示す。
車載システム１は、音声認識ユニット２と、車載システムの制御ユニット３とから構成される。制御ユニット３は、ナビゲーション及びオーディオ機器などの制御を行う。
【００１９】
車載システム１に対するコマンドは階層的に分類される。ユーザは、システムに対するコマンドを、階層の順に音声により発していく。例えば、ナビゲーションシステムを利用して、目的地を検索しようとするときは、「システム起動」「ナビ」「目的地」「レストラン」といったコマンドを音声にて順次発する。
ユーザが音声で発したコマンドは、マイクロホン４から音声認識ユニット２のパターン認識部５に入力される。
【００２０】
パターン認識部５では、連続して入力されたコマンドについてパターン認識を行い、比較部６に出力する。
メモリ７に１又は複数のワードの音声パターンが登録された音声テーブル８が記憶されている。音声テーブル８の内容、及び、その使用方法については、後で詳細に説明する。
制御部９は、比較部６に、所定の音声テーブル８に登録された音声パターンと入力された音声パターンとの比較をさせる。
【００２１】
比較部６における比較の結果、２つの音声パターンの一致する量が音声認識レベルのしきい値を超えると、両音声パターンが一致したと判定される。
制御部９は、一致した音声パターンに基づいて新たな音声テーブル８を読み出す。比較部６により、読み出した音声テーブルに登録された音声パターンと続いて入力される音声パターンとの比較をする。
【００２２】
制御部９は、同様の処理を繰り返して所定のコマンドが得られると、システムに対するコマンドを確定し、制御ユニット３に出力する。
制御ユニット３は、音声認識ユニット２から出力されるコマンドに従った処理を行い、ナビ、ＣＤなどをユーザの指令どおりに動作させる。
【００２３】
図２を用いて、音声テーブル８について説明をする。
車載システムにおけるコマンドは、図示のように階層付けられる。
階層が最上位層の音声テーブルとして、起動コマンドを１つだけ登録した音声テーブル＃０が用意される。起動コマンドとして「システム起動」が登録されている。
【００２４】
音声テーブル＃０の下位層の音声テーブル＃１には、車載システムの各機器を識別するコマンド「ナビ」「ＣＤ」「ＭＤ」「ＦＭ」が登録される。
音声テーブル＃１のコマンドごとに、下位層の音声テーブル＃２−ｎが用意される。「ナビ」の下位層の音声テーブル＃２−１には、コマンド「目的地」「次」「繰り返し」…が登録されている。
【００２５】
「ＣＤ」の下位層の音声テーブル＃２−２には、コマンド「トラックアップ」「トラックダウン」…が登録されている。
図示は省略するが、音声テーブル＃１のそのほかのコマンドの「ＭＤ」「ＦＭ」にも、同様に下位層の音声テーブルが用意されている。この点は、以下に説明する音声テーブルにおいても同様である。
【００２６】
音声テーブル＃２−ｎのコマンドごとに、下位層の音声テーブル＃３−ｎが用意される。音声テーブル＃２−１の「目的地」の下位層の音声テーブル＃３−１には、コマンド「ガススタンド」「銀行」「レストラン」…が登録される。
更に、音声テーブル＃３−１の「レストラン」の下位層の音声テーブル＃４−１には、「日本食」「中華」「ハンバーガーショップ」…が登録されている。
【００２７】
音声テーブル＃４−１の「日本食」の下位層の音声テーブル＃５−１には、「すし」「てんぷら」「ラーメン」…が登録されている。
音声テーブル８には、各コマンドの音声パターンと、各コマンドの下位層になる音声テーブルのＩＤと、音声テーブルごとの音声認識レベルのしきい値を登録してある。
本例では、最上位層の音声テーブル＃０のしきい値は高く、下位層の音声テーブル＃１−＃５のしきい値は、それより低い、一定の値に設定される。
【００２８】
制御部９による音声テーブル８の使用方法を簡単に説明する。
ユーザは、ナビゲーションシステムにより銀行を検索したいときは、「システム起動」「ナビ」「目的地」「銀行」と発声をする。これらの音声は、パターン認識部５で、音声パターンに変換されて比較部６に入力される。
【００２９】
音声認識の開始時は、メモリ７から、起動コマンドの音声テーブル＃０が読み出されており、入力されてくる音声パターンと、音声テーブル＃０に登録された「システム起動」の音声パターンとが比較される。
ユーザが「システム起動」を発声し、その音声パターンが音声テーブル＃０の音声パターンと一致したと判定されると、その下位層の音声テーブル＃１が読み出され、その各音声パターンと次に入力される音声パターンとが比較される。
【００３０】
このように、ユーザが固定の起動コマンド「システム起動」を発声することにより初めて、後続のコマンドに対する音声認識が開始される。この起動コマンドの音声パターンの比較に使用する音声認識レベルのしきい値は、高く設定することにより誤認識が少なくなるようにしている。
【００３１】
起動コマンドが認識されれば、その後入力される音声はコマンドである確率が高くなる。したがって、その後の、下位層の音声テーブルに登録された音声パターンとの比較においては、音声認識レベルのしきい値を低くしても、誤認識が発生する可能性が低くなる。
【００３２】
起動コマンドは、近似のワードが通常の会話などでは出現しないワードを使用することによって、誤認識を防止しようとするものである。上記例の「システム起動」のほかに、例えば、車載システムの商品名を用いることも、ほかのワードに対して顕著性があるので、有効である。
【００３３】
起動コマンドの下位層の音声テーブル＃１を用いた音声認識において、入力された音声パターンが「ナビ」のコマンドと一致すると、「ナビ」の下位層の音声テーブル＃２−１が選択される。そして、ここに登録されている各音声パターンと、次に入力される音声パターンとが比較される。
【００３４】
以後、同様にして、音声パターンが比較され、コマンドが読み出されていく。そして、最後のコマンド「銀行」が認識されると、車載システム１に対するコマンドが確定する。このコマンドは制御ユニット３に入力され、制御ユニット３は、検索した銀行をナビ表示部に表示する。
【００３５】
図３のフローチャートを用いて、制御部９による動作の詳細を説明する。
音声認識動作が開始されると、ステップＳ１で、最上位層の音声テーブル＃０が読み出される。
ステップＳ２で、音声が入力されたか否かが判定される。パターン認識部５から比較部６に音声パターンが入力されると、ステップＳ３へ進む。入力されなければ入力されるのを待つ。
【００３６】
ステップＳ３で、比較部６により、入力された音声パターンと音声テーブル８−１に登録された音声パターン（システム起動）とを比較する。音声パターンを比較するときは、音声テーブルに登録された音声認識レベルのしきい値が使用される。
ここで、音声パターンが一致しなければステップＳ２へ戻り、一致すればステップＳ４へ進む。
【００３７】
ステップＳ４で、下位層の音声テーブル（１回目は＃１）を読み出す。
ステップＳ５で、音声が入力されたか否かが判定され、入力されるとステップＳ６へ進む。所定時間が経過しても入力がなければステップＳ１へ戻る。
ステップＳ６で、入力された音声パターンと音声テーブル８−２に登録された音声パターンとを比較する。ここで、入力された音声パターンがどのコマンドの音声パターンと一致するかが判定される。一致する音声パターンがなければステップＳ１へ戻り、一致すればステップＳ７へ進む。
【００３８】
ステップＳ７で、一致した音声パターンのコマンドに、下位層の音声テーブルがあるか否かが判定される。ここで、あればステップＳ４へ戻り、下位層の音声テーブルがなければステップＳ８へ進む。
ステップＳ４へ戻ると、一致した音声パターンのコマンドの下位層にある音声テーブルを読み出す。
【００３９】
以下、認識されたコマンドの下位層の音声テーブルがなくなるまで、ステップＳ４−Ｓ７の処理が繰り返し行われる。
下位層の音声テーブルがなくなると、ステップＳ８で、得られたコマンドから車載システムに対するコマンドを確定し、制御ユニット３へ出力する。
【００４０】
以上、本発明の１実施形態について説明をしてきたが、本発明は、上記例に限定されるものではなく、以下に例示するように、種々の変形が可能である。
【００４１】
（変形例１）
起動コマンドを登録した音声テーブル＃０は省略することができる。
これを省略した場合、それにより最上位層に繰り上がる音声テーブル＃１は、音声認識レベルのしきい値が、それより下位層の音声テーブル＃２、＃３……よりも高く設定される。
【００４２】
（変形例２）
上記の例では、下位層の音声テーブル＃１−＃５のしきい値は低い一定に設定されているが、以下のように、音声テーブルごとにしきい値を設定することができる。
（１）音声テーブル内のコマンドの数が増えると、しきい値を高くする。
例えば、１コマンドにつきしきい値を５％として、コマンド数が１０であれば５０％、コマンド数５であれば２５％に設定する。
【００４３】
このように設定すると、場合によっては、最上位層の音声テーブル＃０よりも下位層の音声テーブルのしきい値が高くなる。しかしながら、そのほかの下位層の音声テーブルについてはしきい値を低く設定できるため、全体としては、下位層の音声テーブルの音声認識レベルを低くしたまま、誤認識の確率を下げることができる。
【００４４】
（２）同一音声テーブル内に近似の音声パターンが存在する場合、しきい値を高くする。
同一音声テーブル内に、「ＣＤ」と「ＭＤ」、「ＦＭ」と「ＡＭ」のように、音声パターンが近いものがある場合がある。この場合は、この音声テーブルのしきい値を高く設定する。この場合も、上記（１）と同様に、しきい値が高い音声テーブルが出現する場合もあるが、全体としては下位層の音声テーブルのしきい値を低くしたまま、誤認識の確立を下げることができる。
【００４５】
（３）音声テーブルの階層が低くなる程、しきい値を低くする。
図２に示した音声テーブルにおいては、上位層の音声テーブル＃０は階層が浅く、＃５に進む程階層が深い。通常の会話、又はオーディオシステムからの音声出力では、音声コマンドが連続して入力される確率は低い。階層が深くなればなる程、それまでにコマンドが連続して入力されてきているのであるから、ここで入力される音声は間違いなく音声コマンドであると判断することができる。したがって、階層が深い音声テーブル程しきい値を低くしても誤認識が発生することは少なくなる。
【００４６】
（４）音声認識レベルのしきい値は、音声テーブルごとに設定されているが、１つ１つのコマンドごとに設定することもできる。この場合、比較部６における音声パターンの比較時には、音声パターンごとにしきい値を切り換える必要がある。
【００４７】
（変形例３）
本発明は、車載システムに限らず、そのほかの音声コマンドを使用するシステム、装置に適用可能である。
また、音声コマンドを使用するものに限らず、階層のあるワードを用いて情報検索をするシステム、装置などにも適用可能である。例えば、辞書、地図などの音声認識による検索に適用することができる。
【００４８】
【発明の効果】
本発明によれば、音声認識装置において、複数のワードを階層的に分類し、連続して入力される複数のワードをつなげて認識するので、誤認識の発生を防止することができる。
【図面の簡単な説明】
【図１】本発明の音声認識装置を適用した車載システムの回路構成を示す図である。
【図２】図１の音声認識ユニットで使用される音声テーブルの内容を示す図である。
【図３】図１の音声認識ユニットの制御部の動作を示すフローチャートである。
【符号の説明】
１…車載システム
２…音声認識ユニット
３…制御ユニット
４…マイクロホン
５…パターン認識部
６…比較部
７…メモリ
８…音声テーブル
９…制御部

Claims

音声により入力されたワードをパターン認識する認識部と、
階層的に分類されたワードの階層ごとに設けられ、１又は複数のワードの音声パターンが登録された音声テーブルと、
前記認識部から入力された音声パターンと前記音声テーブルに登録された音声パターンとの比較を行う比較部と、
前記比較部に、前記認識部から入力された音声パターンと、所定の音声テーブルに登録された音声パターンとの比較をさせ、一致した音声パターンが得られると、前記認識部から次に入力された音声パターンと、前記一致した音声パターンに対応する下位層の音声テーブルに登録された音声パターンとの比較をさせ、一致した音声パターンに対応する出力をする制御部と、
を具備することを特徴とする音声認識装置。
前記音声テーブルのそれぞれに、音声認識レベルのしきい値が付与されており、最上位層の音声テーブルにおける音声認識レベルのしきい値が高く設定され、下位層の音声テーブルにおけるしきい値は、一定の低い値に設定される請求項１に記載の音声認識装置。
前記音声テーブルのそれぞれに、音声認識レベルのしきい値が付与されており、１つの音声テーブルに登録されている音声パターンの数が多い程、前記しきい値が高く設定される請求項１に記載の音声認識装置。
前記音声テーブルのそれぞれに、音声認識レベルのしきい値が付与されており、１つの音声テーブルに登録されている近似する音声パターンの数が多い程、前記しきい値が高く設定される請求項１に記載の音声認識装置。
前記音声テーブルのそれぞれに、音声認識レベルのしきい値が付与されており、音声テーブルが下位層になるほど、前記しきい値が低く設定される請求項１に記載の音声認識装置。
前記ワードは電子機器に対するコマンドである請求項１から５のいずれか１項に記載の音声認識装置。
前記ワードは電子機器に対するコマンドであり、前記音声テーブルの内、最上位層の音声テーブルには、認識の開始を示す起動コマンドの音声パターンが登録されている請求項６に記載の音声認識装置。
コンピュータに、
音声により入力されたワードをパターン認識させ、
階層的に分類されたワードの階層ごとに設けられ、１又は複数のワードの音声パターンが登録された音声テーブルを記憶させ、
入力された音声パターンと所定の音声テーブルに登録された音声パターンとの比較を行わせて、
一致した音声パターンが得られると、次に入力された音声パターンと、一致した音声パターンに対応する下位層の音声テーブルに登録された音声パターンとの比較をさせ、一致した音声パターンに対応する出力をさせるためのプログラム。