JP2004245938A - 音声認識装置及びプログラム - Google Patents
音声認識装置及びプログラム Download PDFInfo
- Publication number
- JP2004245938A JP2004245938A JP2003033722A JP2003033722A JP2004245938A JP 2004245938 A JP2004245938 A JP 2004245938A JP 2003033722 A JP2003033722 A JP 2003033722A JP 2003033722 A JP2003033722 A JP 2003033722A JP 2004245938 A JP2004245938 A JP 2004245938A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- pattern
- registered
- recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】音声認識装置において、ユーザの発音精度が低くても音声を正確に認識でき、かつ誤認識を少なくする。
【解決手段】ワードを階層化した音声テーブル8が用意される。音声が入力されると、入力された音声パターンと最上位層の音声テーブル#0に登録された音声パターンとを比較する。ここで音声パターンが一致すると、そのワードの下位層に当る音声テーブル#1が読み出される。以下同様にして音声認識が進められる。2以上のワードを連続して音声認識することにより、下位層のワードを誤認識する確率を低減することができる。
【選択図】 図2
【解決手段】ワードを階層化した音声テーブル8が用意される。音声が入力されると、入力された音声パターンと最上位層の音声テーブル#0に登録された音声パターンとを比較する。ここで音声パターンが一致すると、そのワードの下位層に当る音声テーブル#1が読み出される。以下同様にして音声認識が進められる。2以上のワードを連続して音声認識することにより、下位層のワードを誤認識する確率を低減することができる。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識装置に関するものであり、特に複数のワードを連続して入力しても認識できるようにしたものである。
【0002】
【従来の技術】
ナビゲーションシステム、オーディオシステムなどの車載システムなどにおいては、ユーザがコマンドを音声で発することでシステムを制御することが行われている。このような、システムにおいては、ユーザが発する音声によるコマンドを音声認識装置により解析し、システムはそのコマンドに従って動作を行う。
【0003】
車載システムでは、コマンドは階層化して構成されている。ユーザは、音声による指示をするときは、上位層のコマンドから下位層のコマンドへと、順にコマンドを発声していく。例えば、電話番号で目的地を検索しようとするとき、「目的地」「検索」「レストラン」というように、複数のワードを順番に発声する。
【0004】
従来の音声認識装置においては、最初のワードの「目的地」が入力されると、その音声パターンと、音声テーブルに複数登録されている音声パターンとを比較する。そして、音声テーブル中の音声パターンの内、入力された音声パターンと一致するものを選択し、その音声パターンに対応するコマンド「目的地」を出力する。
【0005】
この処理が終了すると、システムからユーザに対して、次のコマンドの指示を促す指示が表示される。ユーザは、この表示にしたがって、順次コマンドを発していく。
このように、従来の音声認識装置においては、1ワードごとに音声認識を行っていた。
【0006】
音声認識装置においては、音声パターン同士の一致又は不一致を判定するために、音声認識レベルのしきい値が使用される。音声テーブルには、1ワードにつき1つの音声パターンが記憶されているだけであるので、ユーザによる発音、アクセントの違いなどにより、音声パターン同士が完全に一致することは通常ない。このため、しきい値を設け、比較の結果、音声パターン同士で一致する量がしきい値を超えれば、入力音声パターンと音声テーブル中の音声パターンが一致したと判定している。
【0007】
ここで、しきい値を高く設定すると、ユーザによる発音、アクセントの違いなどが原因で、正しいワードに対する音声パターンの一致度がしきい値以下となり、認識ができない場合がある。また、しきい値を低く設定すると、異なったワードが誤認識される場合がある。このように、音声認識装置に対して音声認識レベルを適正に設定することは困難であった。
【0008】
従来の車載システムにおける音声認識装置においては、ユーザによる発音、アクセントの違いなどを考慮して、音声認識レベルのしきい値を低く設定していた。このため、誤認識が発生する率が高くなっていた。
また、車載システムを制御するには、多くのコマンドが必要とされるので、音声テーブルに登録するコマンドの数が多くなっていた。
【0009】
音声テーブルに登録するコマンドの数が多くなると、普通の会話などで発生されるワードが音声テーブル中のコマンドに一致する率が高くなり、これによる誤認識が発生する率も高くなっていた。
誤認識が発生すると、ユーザは、システムが希望どおりの動作を開始するまで、音声による指示を繰り返さなければならなかった。
【0010】
これに対し、音声認識装置における誤認識を防止するための方法が種々提案されている。例えば、ワードの出現率を考慮に入れて精度の高い音声認識を行う装置が提案されている(例えば、特許文献1参照。)。あるいは、複数のワードの組み合せ情報を用いて、精度の高い音声認識を行う装置が提案されている(例えば、特許文献2参照。)。
【0011】
【特許文献1】
特開昭59−185400号公報
【特許文献2】
特開平7−92994号公報
【0012】
【発明が解決しようとする課題】
しかしながら、これらの方法によっても、音声認識装置における誤認識を少なくすることはできていなかった。
本発明は、音声認識装置において、ユーザの発音精度が低くても音声を正確に認識でき、かつ誤認識の発生を少なくすることを目的とするものである。
【0013】
【課題を解決するための手段】
本発明は、上記目的を達成するためになされたものである。本発明の音声認識装置においては、連続して入力された音声によるワードを、つなげて認識することにより、誤認識を防止する。
本発明においては、複数のワードを階層的に分類し、階層ごとに音声テーブルを設ける。音声が入力されると、最初のワードの音声パターンと最上位層の音声テーブルに登録された音声パターンとが比較される。
【0014】
ここで音声パターンが一致するワードが抽出されると、そのワードの下位層に当るワードの音声パターンを登録した音声テーブルが読み出される。
次に入力された音声パターンは、この下位層の音声テーブルに登録された音声パターンと比較される。この処理が繰り返され、認識されたワードに基づく出力が音声認識装置から出される。
【0015】
本発明の音声認識装置によれば、認識された複数のワードを階層に沿って上位層から連続して認識していくので、下位層のワードについて音声認識をするときには、誤認識となる確率が少なくなる。したがって、下位層のワードの音声認識をするときは、その音声テーブルの音声認識レベルのしきい値を低く設定しても、誤認識が発生することが少なくなる。
【0016】
最上位層のワードについては、音声認識レベルのしきい値を高く設定することにより、誤認識を防止することが好ましい。最上位層のワードのしきい値を高くすることで、それより下位層のワードのしきい値を低くしても、誤認識を少なくすることができる。
また、下位層の音声テーブルのしきい値は、一定の低い値に設定しても良く、また、それぞれの音声テーブルの特性に従って異なるしきい値に設定することもできる。
【0017】
例えば、1つの音声テーブルに登録されている音声パターンの数が多い程、しきい値を高く設定する。また、1つの音声テーブルに登録されている近似する音声パターンの数多い程、しきい値を高く設定する。さらに、階層が深い音声テーブル程、しきい値を低くする。
なお、本発明において使用する「ワード」は、厳密な意味での1ワードを意味しない。複数のワードにより1つの音声パターンを形成する場合も、1つの「ワード」と呼ぶこととしている。
【0018】
【発明の実施の形態】
本発明の音声認識装置を車載システムに適用した例について図を用いて説明する。
図1は、車載システムの回路構成を示す。
車載システム1は、音声認識ユニット2と、車載システムの制御ユニット3とから構成される。制御ユニット3は、ナビゲーション及びオーディオ機器などの制御を行う。
【0019】
車載システム1に対するコマンドは階層的に分類される。ユーザは、システムに対するコマンドを、階層の順に音声により発していく。例えば、ナビゲーションシステムを利用して、目的地を検索しようとするときは、「システム起動」「ナビ」「目的地」「レストラン」といったコマンドを音声にて順次発する。
ユーザが音声で発したコマンドは、マイクロホン4から音声認識ユニット2のパターン認識部5に入力される。
【0020】
パターン認識部5では、連続して入力されたコマンドについてパターン認識を行い、比較部6に出力する。
メモリ7に1又は複数のワードの音声パターンが登録された音声テーブル8が記憶されている。音声テーブル8の内容、及び、その使用方法については、後で詳細に説明する。
制御部9は、比較部6に、所定の音声テーブル8に登録された音声パターンと入力された音声パターンとの比較をさせる。
【0021】
比較部6における比較の結果、2つの音声パターンの一致する量が音声認識レベルのしきい値を超えると、両音声パターンが一致したと判定される。
制御部9は、一致した音声パターンに基づいて新たな音声テーブル8を読み出す。比較部6により、読み出した音声テーブルに登録された音声パターンと続いて入力される音声パターンとの比較をする。
【0022】
制御部9は、同様の処理を繰り返して所定のコマンドが得られると、システムに対するコマンドを確定し、制御ユニット3に出力する。
制御ユニット3は、音声認識ユニット2から出力されるコマンドに従った処理を行い、ナビ、CDなどをユーザの指令どおりに動作させる。
【0023】
図2を用いて、音声テーブル8について説明をする。
車載システムにおけるコマンドは、図示のように階層付けられる。
階層が最上位層の音声テーブルとして、起動コマンドを1つだけ登録した音声テーブル#0が用意される。起動コマンドとして「システム起動」が登録されている。
【0024】
音声テーブル#0の下位層の音声テーブル#1には、車載システムの各機器を識別するコマンド「ナビ」「CD」「MD」「FM」が登録される。
音声テーブル#1のコマンドごとに、下位層の音声テーブル#2−nが用意される。「ナビ」の下位層の音声テーブル#2−1には、コマンド「目的地」「次」「繰り返し」…が登録されている。
【0025】
「CD」の下位層の音声テーブル#2−2には、コマンド「トラックアップ」「トラックダウン」…が登録されている。
図示は省略するが、音声テーブル#1のそのほかのコマンドの「MD」「FM」にも、同様に下位層の音声テーブルが用意されている。この点は、以下に説明する音声テーブルにおいても同様である。
【0026】
音声テーブル#2−nのコマンドごとに、下位層の音声テーブル#3−nが用意される。音声テーブル#2−1の「目的地」の下位層の音声テーブル#3−1には、コマンド「ガススタンド」「銀行」「レストラン」…が登録される。
更に、音声テーブル#3−1の「レストラン」の下位層の音声テーブル#4−1には、「日本食」「中華」「ハンバーガーショップ」…が登録されている。
【0027】
音声テーブル#4−1の「日本食」の下位層の音声テーブル#5−1には、「すし」「てんぷら」「ラーメン」…が登録されている。
音声テーブル8には、各コマンドの音声パターンと、各コマンドの下位層になる音声テーブルのIDと、音声テーブルごとの音声認識レベルのしきい値を登録してある。
本例では、最上位層の音声テーブル#0のしきい値は高く、下位層の音声テーブル#1−#5のしきい値は、それより低い、一定の値に設定される。
【0028】
制御部9による音声テーブル8の使用方法を簡単に説明する。
ユーザは、ナビゲーションシステムにより銀行を検索したいときは、「システム起動」「ナビ」「目的地」「銀行」と発声をする。これらの音声は、パターン認識部5で、音声パターンに変換されて比較部6に入力される。
【0029】
音声認識の開始時は、メモリ7から、起動コマンドの音声テーブル#0が読み出されており、入力されてくる音声パターンと、音声テーブル#0に登録された「システム起動」の音声パターンとが比較される。
ユーザが「システム起動」を発声し、その音声パターンが音声テーブル#0の音声パターンと一致したと判定されると、その下位層の音声テーブル#1が読み出され、その各音声パターンと次に入力される音声パターンとが比較される。
【0030】
このように、ユーザが固定の起動コマンド「システム起動」を発声することにより初めて、後続のコマンドに対する音声認識が開始される。この起動コマンドの音声パターンの比較に使用する音声認識レベルのしきい値は、高く設定することにより誤認識が少なくなるようにしている。
【0031】
起動コマンドが認識されれば、その後入力される音声はコマンドである確率が高くなる。したがって、その後の、下位層の音声テーブルに登録された音声パターンとの比較においては、音声認識レベルのしきい値を低くしても、誤認識が発生する可能性が低くなる。
【0032】
起動コマンドは、近似のワードが通常の会話などでは出現しないワードを使用することによって、誤認識を防止しようとするものである。上記例の「システム起動」のほかに、例えば、車載システムの商品名を用いることも、ほかのワードに対して顕著性があるので、有効である。
【0033】
起動コマンドの下位層の音声テーブル#1を用いた音声認識において、入力された音声パターンが「ナビ」のコマンドと一致すると、「ナビ」の下位層の音声テーブル#2−1が選択される。そして、ここに登録されている各音声パターンと、次に入力される音声パターンとが比較される。
【0034】
以後、同様にして、音声パターンが比較され、コマンドが読み出されていく。そして、最後のコマンド「銀行」が認識されると、車載システム1に対するコマンドが確定する。このコマンドは制御ユニット3に入力され、制御ユニット3は、検索した銀行をナビ表示部に表示する。
【0035】
図3のフローチャートを用いて、制御部9による動作の詳細を説明する。
音声認識動作が開始されると、ステップS1で、最上位層の音声テーブル#0が読み出される。
ステップS2で、音声が入力されたか否かが判定される。パターン認識部5から比較部6に音声パターンが入力されると、ステップS3へ進む。入力されなければ入力されるのを待つ。
【0036】
ステップS3で、比較部6により、入力された音声パターンと音声テーブル8−1に登録された音声パターン(システム起動)とを比較する。音声パターンを比較するときは、音声テーブルに登録された音声認識レベルのしきい値が使用される。
ここで、音声パターンが一致しなければステップS2へ戻り、一致すればステップS4へ進む。
【0037】
ステップS4で、下位層の音声テーブル(1回目は#1)を読み出す。
ステップS5で、音声が入力されたか否かが判定され、入力されるとステップS6へ進む。所定時間が経過しても入力がなければステップS1へ戻る。
ステップS6で、入力された音声パターンと音声テーブル8−2に登録された音声パターンとを比較する。ここで、入力された音声パターンがどのコマンドの音声パターンと一致するかが判定される。一致する音声パターンがなければステップS1へ戻り、一致すればステップS7へ進む。
【0038】
ステップS7で、一致した音声パターンのコマンドに、下位層の音声テーブルがあるか否かが判定される。ここで、あればステップS4へ戻り、下位層の音声テーブルがなければステップS8へ進む。
ステップS4へ戻ると、一致した音声パターンのコマンドの下位層にある音声テーブルを読み出す。
【0039】
以下、認識されたコマンドの下位層の音声テーブルがなくなるまで、ステップS4−S7の処理が繰り返し行われる。
下位層の音声テーブルがなくなると、ステップS8で、得られたコマンドから車載システムに対するコマンドを確定し、制御ユニット3へ出力する。
【0040】
以上、本発明の1実施形態について説明をしてきたが、本発明は、上記例に限定されるものではなく、以下に例示するように、種々の変形が可能である。
【0041】
(変形例1)
起動コマンドを登録した音声テーブル#0は省略することができる。
これを省略した場合、それにより最上位層に繰り上がる音声テーブル#1は、音声認識レベルのしきい値が、それより下位層の音声テーブル#2、#3……よりも高く設定される。
【0042】
(変形例2)
上記の例では、下位層の音声テーブル#1−#5のしきい値は低い一定に設定されているが、以下のように、音声テーブルごとにしきい値を設定することができる。
(1)音声テーブル内のコマンドの数が増えると、しきい値を高くする。
例えば、1コマンドにつきしきい値を5%として、コマンド数が10であれば50%、コマンド数5であれば25%に設定する。
【0043】
このように設定すると、場合によっては、最上位層の音声テーブル#0よりも下位層の音声テーブルのしきい値が高くなる。しかしながら、そのほかの下位層の音声テーブルについてはしきい値を低く設定できるため、全体としては、下位層の音声テーブルの音声認識レベルを低くしたまま、誤認識の確率を下げることができる。
【0044】
(2)同一音声テーブル内に近似の音声パターンが存在する場合、しきい値を高くする。
同一音声テーブル内に、「CD」と「MD」、「FM」と「AM」のように、音声パターンが近いものがある場合がある。この場合は、この音声テーブルのしきい値を高く設定する。この場合も、上記(1)と同様に、しきい値が高い音声テーブルが出現する場合もあるが、全体としては下位層の音声テーブルのしきい値を低くしたまま、誤認識の確立を下げることができる。
【0045】
(3)音声テーブルの階層が低くなる程、しきい値を低くする。
図2に示した音声テーブルにおいては、上位層の音声テーブル#0は階層が浅く、#5に進む程階層が深い。通常の会話、又はオーディオシステムからの音声出力では、音声コマンドが連続して入力される確率は低い。階層が深くなればなる程、それまでにコマンドが連続して入力されてきているのであるから、ここで入力される音声は間違いなく音声コマンドであると判断することができる。したがって、階層が深い音声テーブル程しきい値を低くしても誤認識が発生することは少なくなる。
【0046】
(4)音声認識レベルのしきい値は、音声テーブルごとに設定されているが、1つ1つのコマンドごとに設定することもできる。この場合、比較部6における音声パターンの比較時には、音声パターンごとにしきい値を切り換える必要がある。
【0047】
(変形例3)
本発明は、車載システムに限らず、そのほかの音声コマンドを使用するシステム、装置に適用可能である。
また、音声コマンドを使用するものに限らず、階層のあるワードを用いて情報検索をするシステム、装置などにも適用可能である。例えば、辞書、地図などの音声認識による検索に適用することができる。
【0048】
【発明の効果】
本発明によれば、音声認識装置において、複数のワードを階層的に分類し、連続して入力される複数のワードをつなげて認識するので、誤認識の発生を防止することができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置を適用した車載システムの回路構成を示す図である。
【図2】図1の音声認識ユニットで使用される音声テーブルの内容を示す図である。
【図3】図1の音声認識ユニットの制御部の動作を示すフローチャートである。
【符号の説明】
1…車載システム
2…音声認識ユニット
3…制御ユニット
4…マイクロホン
5…パターン認識部
6…比較部
7…メモリ
8…音声テーブル
9…制御部
【発明の属する技術分野】
本発明は、音声認識装置に関するものであり、特に複数のワードを連続して入力しても認識できるようにしたものである。
【0002】
【従来の技術】
ナビゲーションシステム、オーディオシステムなどの車載システムなどにおいては、ユーザがコマンドを音声で発することでシステムを制御することが行われている。このような、システムにおいては、ユーザが発する音声によるコマンドを音声認識装置により解析し、システムはそのコマンドに従って動作を行う。
【0003】
車載システムでは、コマンドは階層化して構成されている。ユーザは、音声による指示をするときは、上位層のコマンドから下位層のコマンドへと、順にコマンドを発声していく。例えば、電話番号で目的地を検索しようとするとき、「目的地」「検索」「レストラン」というように、複数のワードを順番に発声する。
【0004】
従来の音声認識装置においては、最初のワードの「目的地」が入力されると、その音声パターンと、音声テーブルに複数登録されている音声パターンとを比較する。そして、音声テーブル中の音声パターンの内、入力された音声パターンと一致するものを選択し、その音声パターンに対応するコマンド「目的地」を出力する。
【0005】
この処理が終了すると、システムからユーザに対して、次のコマンドの指示を促す指示が表示される。ユーザは、この表示にしたがって、順次コマンドを発していく。
このように、従来の音声認識装置においては、1ワードごとに音声認識を行っていた。
【0006】
音声認識装置においては、音声パターン同士の一致又は不一致を判定するために、音声認識レベルのしきい値が使用される。音声テーブルには、1ワードにつき1つの音声パターンが記憶されているだけであるので、ユーザによる発音、アクセントの違いなどにより、音声パターン同士が完全に一致することは通常ない。このため、しきい値を設け、比較の結果、音声パターン同士で一致する量がしきい値を超えれば、入力音声パターンと音声テーブル中の音声パターンが一致したと判定している。
【0007】
ここで、しきい値を高く設定すると、ユーザによる発音、アクセントの違いなどが原因で、正しいワードに対する音声パターンの一致度がしきい値以下となり、認識ができない場合がある。また、しきい値を低く設定すると、異なったワードが誤認識される場合がある。このように、音声認識装置に対して音声認識レベルを適正に設定することは困難であった。
【0008】
従来の車載システムにおける音声認識装置においては、ユーザによる発音、アクセントの違いなどを考慮して、音声認識レベルのしきい値を低く設定していた。このため、誤認識が発生する率が高くなっていた。
また、車載システムを制御するには、多くのコマンドが必要とされるので、音声テーブルに登録するコマンドの数が多くなっていた。
【0009】
音声テーブルに登録するコマンドの数が多くなると、普通の会話などで発生されるワードが音声テーブル中のコマンドに一致する率が高くなり、これによる誤認識が発生する率も高くなっていた。
誤認識が発生すると、ユーザは、システムが希望どおりの動作を開始するまで、音声による指示を繰り返さなければならなかった。
【0010】
これに対し、音声認識装置における誤認識を防止するための方法が種々提案されている。例えば、ワードの出現率を考慮に入れて精度の高い音声認識を行う装置が提案されている(例えば、特許文献1参照。)。あるいは、複数のワードの組み合せ情報を用いて、精度の高い音声認識を行う装置が提案されている(例えば、特許文献2参照。)。
【0011】
【特許文献1】
特開昭59−185400号公報
【特許文献2】
特開平7−92994号公報
【0012】
【発明が解決しようとする課題】
しかしながら、これらの方法によっても、音声認識装置における誤認識を少なくすることはできていなかった。
本発明は、音声認識装置において、ユーザの発音精度が低くても音声を正確に認識でき、かつ誤認識の発生を少なくすることを目的とするものである。
【0013】
【課題を解決するための手段】
本発明は、上記目的を達成するためになされたものである。本発明の音声認識装置においては、連続して入力された音声によるワードを、つなげて認識することにより、誤認識を防止する。
本発明においては、複数のワードを階層的に分類し、階層ごとに音声テーブルを設ける。音声が入力されると、最初のワードの音声パターンと最上位層の音声テーブルに登録された音声パターンとが比較される。
【0014】
ここで音声パターンが一致するワードが抽出されると、そのワードの下位層に当るワードの音声パターンを登録した音声テーブルが読み出される。
次に入力された音声パターンは、この下位層の音声テーブルに登録された音声パターンと比較される。この処理が繰り返され、認識されたワードに基づく出力が音声認識装置から出される。
【0015】
本発明の音声認識装置によれば、認識された複数のワードを階層に沿って上位層から連続して認識していくので、下位層のワードについて音声認識をするときには、誤認識となる確率が少なくなる。したがって、下位層のワードの音声認識をするときは、その音声テーブルの音声認識レベルのしきい値を低く設定しても、誤認識が発生することが少なくなる。
【0016】
最上位層のワードについては、音声認識レベルのしきい値を高く設定することにより、誤認識を防止することが好ましい。最上位層のワードのしきい値を高くすることで、それより下位層のワードのしきい値を低くしても、誤認識を少なくすることができる。
また、下位層の音声テーブルのしきい値は、一定の低い値に設定しても良く、また、それぞれの音声テーブルの特性に従って異なるしきい値に設定することもできる。
【0017】
例えば、1つの音声テーブルに登録されている音声パターンの数が多い程、しきい値を高く設定する。また、1つの音声テーブルに登録されている近似する音声パターンの数多い程、しきい値を高く設定する。さらに、階層が深い音声テーブル程、しきい値を低くする。
なお、本発明において使用する「ワード」は、厳密な意味での1ワードを意味しない。複数のワードにより1つの音声パターンを形成する場合も、1つの「ワード」と呼ぶこととしている。
【0018】
【発明の実施の形態】
本発明の音声認識装置を車載システムに適用した例について図を用いて説明する。
図1は、車載システムの回路構成を示す。
車載システム1は、音声認識ユニット2と、車載システムの制御ユニット3とから構成される。制御ユニット3は、ナビゲーション及びオーディオ機器などの制御を行う。
【0019】
車載システム1に対するコマンドは階層的に分類される。ユーザは、システムに対するコマンドを、階層の順に音声により発していく。例えば、ナビゲーションシステムを利用して、目的地を検索しようとするときは、「システム起動」「ナビ」「目的地」「レストラン」といったコマンドを音声にて順次発する。
ユーザが音声で発したコマンドは、マイクロホン4から音声認識ユニット2のパターン認識部5に入力される。
【0020】
パターン認識部5では、連続して入力されたコマンドについてパターン認識を行い、比較部6に出力する。
メモリ7に1又は複数のワードの音声パターンが登録された音声テーブル8が記憶されている。音声テーブル8の内容、及び、その使用方法については、後で詳細に説明する。
制御部9は、比較部6に、所定の音声テーブル8に登録された音声パターンと入力された音声パターンとの比較をさせる。
【0021】
比較部6における比較の結果、2つの音声パターンの一致する量が音声認識レベルのしきい値を超えると、両音声パターンが一致したと判定される。
制御部9は、一致した音声パターンに基づいて新たな音声テーブル8を読み出す。比較部6により、読み出した音声テーブルに登録された音声パターンと続いて入力される音声パターンとの比較をする。
【0022】
制御部9は、同様の処理を繰り返して所定のコマンドが得られると、システムに対するコマンドを確定し、制御ユニット3に出力する。
制御ユニット3は、音声認識ユニット2から出力されるコマンドに従った処理を行い、ナビ、CDなどをユーザの指令どおりに動作させる。
【0023】
図2を用いて、音声テーブル8について説明をする。
車載システムにおけるコマンドは、図示のように階層付けられる。
階層が最上位層の音声テーブルとして、起動コマンドを1つだけ登録した音声テーブル#0が用意される。起動コマンドとして「システム起動」が登録されている。
【0024】
音声テーブル#0の下位層の音声テーブル#1には、車載システムの各機器を識別するコマンド「ナビ」「CD」「MD」「FM」が登録される。
音声テーブル#1のコマンドごとに、下位層の音声テーブル#2−nが用意される。「ナビ」の下位層の音声テーブル#2−1には、コマンド「目的地」「次」「繰り返し」…が登録されている。
【0025】
「CD」の下位層の音声テーブル#2−2には、コマンド「トラックアップ」「トラックダウン」…が登録されている。
図示は省略するが、音声テーブル#1のそのほかのコマンドの「MD」「FM」にも、同様に下位層の音声テーブルが用意されている。この点は、以下に説明する音声テーブルにおいても同様である。
【0026】
音声テーブル#2−nのコマンドごとに、下位層の音声テーブル#3−nが用意される。音声テーブル#2−1の「目的地」の下位層の音声テーブル#3−1には、コマンド「ガススタンド」「銀行」「レストラン」…が登録される。
更に、音声テーブル#3−1の「レストラン」の下位層の音声テーブル#4−1には、「日本食」「中華」「ハンバーガーショップ」…が登録されている。
【0027】
音声テーブル#4−1の「日本食」の下位層の音声テーブル#5−1には、「すし」「てんぷら」「ラーメン」…が登録されている。
音声テーブル8には、各コマンドの音声パターンと、各コマンドの下位層になる音声テーブルのIDと、音声テーブルごとの音声認識レベルのしきい値を登録してある。
本例では、最上位層の音声テーブル#0のしきい値は高く、下位層の音声テーブル#1−#5のしきい値は、それより低い、一定の値に設定される。
【0028】
制御部9による音声テーブル8の使用方法を簡単に説明する。
ユーザは、ナビゲーションシステムにより銀行を検索したいときは、「システム起動」「ナビ」「目的地」「銀行」と発声をする。これらの音声は、パターン認識部5で、音声パターンに変換されて比較部6に入力される。
【0029】
音声認識の開始時は、メモリ7から、起動コマンドの音声テーブル#0が読み出されており、入力されてくる音声パターンと、音声テーブル#0に登録された「システム起動」の音声パターンとが比較される。
ユーザが「システム起動」を発声し、その音声パターンが音声テーブル#0の音声パターンと一致したと判定されると、その下位層の音声テーブル#1が読み出され、その各音声パターンと次に入力される音声パターンとが比較される。
【0030】
このように、ユーザが固定の起動コマンド「システム起動」を発声することにより初めて、後続のコマンドに対する音声認識が開始される。この起動コマンドの音声パターンの比較に使用する音声認識レベルのしきい値は、高く設定することにより誤認識が少なくなるようにしている。
【0031】
起動コマンドが認識されれば、その後入力される音声はコマンドである確率が高くなる。したがって、その後の、下位層の音声テーブルに登録された音声パターンとの比較においては、音声認識レベルのしきい値を低くしても、誤認識が発生する可能性が低くなる。
【0032】
起動コマンドは、近似のワードが通常の会話などでは出現しないワードを使用することによって、誤認識を防止しようとするものである。上記例の「システム起動」のほかに、例えば、車載システムの商品名を用いることも、ほかのワードに対して顕著性があるので、有効である。
【0033】
起動コマンドの下位層の音声テーブル#1を用いた音声認識において、入力された音声パターンが「ナビ」のコマンドと一致すると、「ナビ」の下位層の音声テーブル#2−1が選択される。そして、ここに登録されている各音声パターンと、次に入力される音声パターンとが比較される。
【0034】
以後、同様にして、音声パターンが比較され、コマンドが読み出されていく。そして、最後のコマンド「銀行」が認識されると、車載システム1に対するコマンドが確定する。このコマンドは制御ユニット3に入力され、制御ユニット3は、検索した銀行をナビ表示部に表示する。
【0035】
図3のフローチャートを用いて、制御部9による動作の詳細を説明する。
音声認識動作が開始されると、ステップS1で、最上位層の音声テーブル#0が読み出される。
ステップS2で、音声が入力されたか否かが判定される。パターン認識部5から比較部6に音声パターンが入力されると、ステップS3へ進む。入力されなければ入力されるのを待つ。
【0036】
ステップS3で、比較部6により、入力された音声パターンと音声テーブル8−1に登録された音声パターン(システム起動)とを比較する。音声パターンを比較するときは、音声テーブルに登録された音声認識レベルのしきい値が使用される。
ここで、音声パターンが一致しなければステップS2へ戻り、一致すればステップS4へ進む。
【0037】
ステップS4で、下位層の音声テーブル(1回目は#1)を読み出す。
ステップS5で、音声が入力されたか否かが判定され、入力されるとステップS6へ進む。所定時間が経過しても入力がなければステップS1へ戻る。
ステップS6で、入力された音声パターンと音声テーブル8−2に登録された音声パターンとを比較する。ここで、入力された音声パターンがどのコマンドの音声パターンと一致するかが判定される。一致する音声パターンがなければステップS1へ戻り、一致すればステップS7へ進む。
【0038】
ステップS7で、一致した音声パターンのコマンドに、下位層の音声テーブルがあるか否かが判定される。ここで、あればステップS4へ戻り、下位層の音声テーブルがなければステップS8へ進む。
ステップS4へ戻ると、一致した音声パターンのコマンドの下位層にある音声テーブルを読み出す。
【0039】
以下、認識されたコマンドの下位層の音声テーブルがなくなるまで、ステップS4−S7の処理が繰り返し行われる。
下位層の音声テーブルがなくなると、ステップS8で、得られたコマンドから車載システムに対するコマンドを確定し、制御ユニット3へ出力する。
【0040】
以上、本発明の1実施形態について説明をしてきたが、本発明は、上記例に限定されるものではなく、以下に例示するように、種々の変形が可能である。
【0041】
(変形例1)
起動コマンドを登録した音声テーブル#0は省略することができる。
これを省略した場合、それにより最上位層に繰り上がる音声テーブル#1は、音声認識レベルのしきい値が、それより下位層の音声テーブル#2、#3……よりも高く設定される。
【0042】
(変形例2)
上記の例では、下位層の音声テーブル#1−#5のしきい値は低い一定に設定されているが、以下のように、音声テーブルごとにしきい値を設定することができる。
(1)音声テーブル内のコマンドの数が増えると、しきい値を高くする。
例えば、1コマンドにつきしきい値を5%として、コマンド数が10であれば50%、コマンド数5であれば25%に設定する。
【0043】
このように設定すると、場合によっては、最上位層の音声テーブル#0よりも下位層の音声テーブルのしきい値が高くなる。しかしながら、そのほかの下位層の音声テーブルについてはしきい値を低く設定できるため、全体としては、下位層の音声テーブルの音声認識レベルを低くしたまま、誤認識の確率を下げることができる。
【0044】
(2)同一音声テーブル内に近似の音声パターンが存在する場合、しきい値を高くする。
同一音声テーブル内に、「CD」と「MD」、「FM」と「AM」のように、音声パターンが近いものがある場合がある。この場合は、この音声テーブルのしきい値を高く設定する。この場合も、上記(1)と同様に、しきい値が高い音声テーブルが出現する場合もあるが、全体としては下位層の音声テーブルのしきい値を低くしたまま、誤認識の確立を下げることができる。
【0045】
(3)音声テーブルの階層が低くなる程、しきい値を低くする。
図2に示した音声テーブルにおいては、上位層の音声テーブル#0は階層が浅く、#5に進む程階層が深い。通常の会話、又はオーディオシステムからの音声出力では、音声コマンドが連続して入力される確率は低い。階層が深くなればなる程、それまでにコマンドが連続して入力されてきているのであるから、ここで入力される音声は間違いなく音声コマンドであると判断することができる。したがって、階層が深い音声テーブル程しきい値を低くしても誤認識が発生することは少なくなる。
【0046】
(4)音声認識レベルのしきい値は、音声テーブルごとに設定されているが、1つ1つのコマンドごとに設定することもできる。この場合、比較部6における音声パターンの比較時には、音声パターンごとにしきい値を切り換える必要がある。
【0047】
(変形例3)
本発明は、車載システムに限らず、そのほかの音声コマンドを使用するシステム、装置に適用可能である。
また、音声コマンドを使用するものに限らず、階層のあるワードを用いて情報検索をするシステム、装置などにも適用可能である。例えば、辞書、地図などの音声認識による検索に適用することができる。
【0048】
【発明の効果】
本発明によれば、音声認識装置において、複数のワードを階層的に分類し、連続して入力される複数のワードをつなげて認識するので、誤認識の発生を防止することができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置を適用した車載システムの回路構成を示す図である。
【図2】図1の音声認識ユニットで使用される音声テーブルの内容を示す図である。
【図3】図1の音声認識ユニットの制御部の動作を示すフローチャートである。
【符号の説明】
1…車載システム
2…音声認識ユニット
3…制御ユニット
4…マイクロホン
5…パターン認識部
6…比較部
7…メモリ
8…音声テーブル
9…制御部
Claims (8)
- 音声により入力されたワードをパターン認識する認識部と、
階層的に分類されたワードの階層ごとに設けられ、1又は複数のワードの音声パターンが登録された音声テーブルと、
前記認識部から入力された音声パターンと前記音声テーブルに登録された音声パターンとの比較を行う比較部と、
前記比較部に、前記認識部から入力された音声パターンと、所定の音声テーブルに登録された音声パターンとの比較をさせ、一致した音声パターンが得られると、前記認識部から次に入力された音声パターンと、前記一致した音声パターンに対応する下位層の音声テーブルに登録された音声パターンとの比較をさせ、一致した音声パターンに対応する出力をする制御部と、
を具備することを特徴とする音声認識装置。 - 前記音声テーブルのそれぞれに、音声認識レベルのしきい値が付与されており、最上位層の音声テーブルにおける音声認識レベルのしきい値が高く設定され、下位層の音声テーブルにおけるしきい値は、一定の低い値に設定される請求項1に記載の音声認識装置。
- 前記音声テーブルのそれぞれに、音声認識レベルのしきい値が付与されており、1つの音声テーブルに登録されている音声パターンの数が多い程、前記しきい値が高く設定される請求項1に記載の音声認識装置。
- 前記音声テーブルのそれぞれに、音声認識レベルのしきい値が付与されており、1つの音声テーブルに登録されている近似する音声パターンの数が多い程、前記しきい値が高く設定される請求項1に記載の音声認識装置。
- 前記音声テーブルのそれぞれに、音声認識レベルのしきい値が付与されており、音声テーブルが下位層になるほど、前記しきい値が低く設定される請求項1に記載の音声認識装置。
- 前記ワードは電子機器に対するコマンドである請求項1から5のいずれか1項に記載の音声認識装置。
- 前記ワードは電子機器に対するコマンドであり、前記音声テーブルの内、最上位層の音声テーブルには、認識の開始を示す起動コマンドの音声パターンが登録されている請求項6に記載の音声認識装置。
- コンピュータに、
音声により入力されたワードをパターン認識させ、
階層的に分類されたワードの階層ごとに設けられ、1又は複数のワードの音声パターンが登録された音声テーブルを記憶させ、
入力された音声パターンと所定の音声テーブルに登録された音声パターンとの比較を行わせて、
一致した音声パターンが得られると、次に入力された音声パターンと、一致した音声パターンに対応する下位層の音声テーブルに登録された音声パターンとの比較をさせ、一致した音声パターンに対応する出力をさせるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003033722A JP2004245938A (ja) | 2003-02-12 | 2003-02-12 | 音声認識装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003033722A JP2004245938A (ja) | 2003-02-12 | 2003-02-12 | 音声認識装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004245938A true JP2004245938A (ja) | 2004-09-02 |
Family
ID=33019620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003033722A Withdrawn JP2004245938A (ja) | 2003-02-12 | 2003-02-12 | 音声認識装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004245938A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006078791A (ja) * | 2004-09-09 | 2006-03-23 | Denso Corp | 音声認識装置 |
JP2007017839A (ja) * | 2005-07-11 | 2007-01-25 | Nissan Motor Co Ltd | 音声認識装置 |
JP2014081441A (ja) * | 2012-10-15 | 2014-05-08 | Sharp Corp | コマンド判定装置およびその制御方法、コマンド判定プログラム |
WO2014129033A1 (ja) * | 2013-02-25 | 2014-08-28 | 三菱電機株式会社 | 音声認識システムおよび音声認識装置 |
JP2016541182A (ja) * | 2013-11-20 | 2016-12-28 | サウンドリー インコーポレイテッド | 低電力音波受信方法及びこれを利用したモバイル機器 |
JP2017116714A (ja) * | 2015-12-24 | 2017-06-29 | 日本電信電話株式会社 | 音声入力装置、その方法及びプログラム |
WO2018216180A1 (ja) * | 2017-05-25 | 2018-11-29 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2021044569A1 (ja) * | 2019-09-05 | 2021-03-11 | 三菱電機株式会社 | 音声認識補助装置および音声認識補助方法 |
JP2021052250A (ja) * | 2019-09-23 | 2021-04-01 | 日本精機株式会社 | 遠隔操作装置 |
-
2003
- 2003-02-12 JP JP2003033722A patent/JP2004245938A/ja not_active Withdrawn
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006078791A (ja) * | 2004-09-09 | 2006-03-23 | Denso Corp | 音声認識装置 |
JP2007017839A (ja) * | 2005-07-11 | 2007-01-25 | Nissan Motor Co Ltd | 音声認識装置 |
JP2014081441A (ja) * | 2012-10-15 | 2014-05-08 | Sharp Corp | コマンド判定装置およびその制御方法、コマンド判定プログラム |
US9761228B2 (en) | 2013-02-25 | 2017-09-12 | Mitsubishi Electric Corporation | Voice recognition system and voice recognition device |
WO2014129033A1 (ja) * | 2013-02-25 | 2014-08-28 | 三菱電機株式会社 | 音声認識システムおよび音声認識装置 |
JP5921756B2 (ja) * | 2013-02-25 | 2016-05-24 | 三菱電機株式会社 | 音声認識システムおよび音声認識装置 |
JP2016541182A (ja) * | 2013-11-20 | 2016-12-28 | サウンドリー インコーポレイテッド | 低電力音波受信方法及びこれを利用したモバイル機器 |
JP2017116714A (ja) * | 2015-12-24 | 2017-06-29 | 日本電信電話株式会社 | 音声入力装置、その方法及びプログラム |
WO2018216180A1 (ja) * | 2017-05-25 | 2018-11-29 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
JPWO2018216180A1 (ja) * | 2017-05-25 | 2019-11-07 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2021044569A1 (ja) * | 2019-09-05 | 2021-03-11 | 三菱電機株式会社 | 音声認識補助装置および音声認識補助方法 |
JPWO2021044569A1 (ja) * | 2019-09-05 | 2021-12-09 | 三菱電機株式会社 | 音声認識補助装置および音声認識補助方法 |
JP7242873B2 (ja) | 2019-09-05 | 2023-03-20 | 三菱電機株式会社 | 音声認識補助装置および音声認識補助方法 |
JP2021052250A (ja) * | 2019-09-23 | 2021-04-01 | 日本精機株式会社 | 遠隔操作装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8731927B2 (en) | Speech recognition on large lists using fragments | |
EP2259252B1 (en) | Speech recognition method for selecting a combination of list elements via a speech input | |
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
EP1693828B1 (en) | Multilingual speech recognition | |
EP1936606B1 (en) | Multi-stage speech recognition | |
EP2058800B1 (en) | Method and system for recognizing speech for searching a database | |
US20050033575A1 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
US8108215B2 (en) | Speech recognition apparatus and method | |
JP2004245938A (ja) | 音声認識装置及びプログラム | |
JP5335165B2 (ja) | 発音情報生成装置、車載情報装置およびデータベース生成方法 | |
US20180012602A1 (en) | System and methods for pronunciation analysis-based speaker verification | |
JP6100101B2 (ja) | 音声認識を利用した候補選択装置および候補選択方法 | |
JP3296783B2 (ja) | 車載用ナビゲーション装置および音声認識方法 | |
JP2009025411A (ja) | 音声認識装置およびプログラム | |
JP2000089782A (ja) | 音声認識装置と方法、ナビゲーションシステム、及び記録媒体 | |
JP4282354B2 (ja) | 音声認識装置 | |
JP2005031260A (ja) | 情報処理方法及び装置 | |
JP6351440B2 (ja) | 音声認識装置及びコンピュータプログラム | |
JP3663012B2 (ja) | 音声による入力装置 | |
JP2009146108A (ja) | 音声検索装置 | |
JP2007193184A (ja) | 音声住所認識装置 | |
JP2006039383A (ja) | 音声認識装置 | |
CN117480552A (zh) | 讲话者识别方法、讲话者识别装置以及讲话者识别程序 | |
JP2006184669A (ja) | 音声認識装置、方法、およびシステム | |
JP2001282287A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060509 |