JP4281369B2

JP4281369B2 - 音声認識装置

Info

Publication number: JP4281369B2
Application number: JP2003030387A
Authority: JP
Inventors: 健大野
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2003-02-07
Filing date: 2003-02-07
Publication date: 2009-06-17
Anticipated expiration: 2023-02-07
Also published as: JP2004240244A

Description

【０００１】
【技術分野】
本発明は、車両に搭載され、ユーザが発話した音声情報を認識する音声認識装置および音声認識装置用プログラムに関する。
【０００２】
【背景技術】
ユーザが発話した目的地の住所を認識し、この認識した目的地に対応する経路情報を提供するナビゲーション装置がある（ケンウッド社製ナビゲーション装置ＤＶＺ−２８０１Ｍ）。このナビゲーション装置によれば、ユーザは住所等を連続的に発話することで目的地等を入力することができる。また、入力した目的地が誤って認識された場合であっても、訂正指示を入力して再度発話することにより目的地を再入力することができる。
【０００３】
しかしながら、従来の音声認識の誤認識訂正においては、ユーザが訂正指示を入力すると、先に入力した住所のすべてが取消されてしまい、取消された住所を最初から入力し直さなければならないという不都合があった。すなわち、ユーザが目的地として「神奈川県横浜市神奈川区反町」と発話したにもかかわらず、これを音声認識装置が「神奈川県横浜市神奈川区立町」と誤認識した場合に、ユーザが訂正指示を入力すると、「神奈川県横浜市神奈川区」までは正しく認識されていたにもかかわらず、全てが取消されてしまい、最初から発話し直さなければならないという煩わしさがあった。
【０００４】
【発明の開示】
本発明は、音声認識装置を利用するユーザの認識訂正時の負担を軽減することを目的とする。
【０００５】
この発明によれば、ユーザから複数の単語を含む音声情報の入力を受け付ける受付手段と、前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識する音声認識手段と、前記音声認識手段の認識結果を訂正すべき旨の訂正命令が前記ユーザから入力された場合、前記受け付けられた音声情報のうち誤認された単語が属する階層を推測し、当該推測された階層から下層の音声情報の再入力を前記ユーザに求める認識結果訂正手段と、を有する音声認識装置及びコンピュータを上記音声認識装置として機能させる音声認識用プログラムを提供することができる。
【０００６】
これにより、音声認識装置を利用するユーザの認識訂正時の負担を軽減させる音声認識装置および音声認識用プログラムを提供することができる。
【０００７】
【発明の実施の形態】
＜第１実施形態＞
以下、本発明の第１の実施形態を図面に基づいて説明する。
【０００８】
図１に示す音声認識システム１は、車両に搭載され、本発明に係る音声認識装置１００と、ユーザからの情報の入力を受け付ける入力装置２００と、情報が記憶された記憶装置３００と、ナビゲーション装置４００と、出力装置５００とを有している。
【０００９】
入力装置２００は、ユーザからの各種情報の入力を受け付ける。入力装置２００は、ユーザが発話した音声の入力をマイクで収音し、収音した音声をＡ／Ｄコンバータによりアナログ信号からディジタル信号に変換する音声入力手段２１と、ユーザが音声入力の受付を命令するための音声入力指令手段２２と、ユーザが誤った音声認識結果に対して訂正を命令する訂正命令手段２３とを有している。
【００１０】
記憶装置３００は、少なくとも言語情報を含む音声認識処理に必要な情報を記憶し、読み込み及び書き込みが可能である。音声認識システム１に内蔵されたものであってもよいし、可搬の記憶媒体を用いてもよい。
【００１１】
ナビゲーション装置４００は、入力された情報に基づいて経路の案内を行う。たとえば、ユーザが発話した目的地の住所に基づいて現在地から目的地までの経路の提示を行うことができる。ちなみに、このナビゲーション装置は、ＧＰＳ（Global Positioning System）等を用いた一般のナビゲーション機能を備えている。
【００１２】
出力装置５００は、ナビゲーション装置４００が求めた案内情報をスピーカ又はディスプレイを介してユーザが視覚的又は聴覚的に取得できるように出力する。
【００１３】
音声認識装置１００は、本発明の音声認識処理を行う。本実施形態の音声認識装置１００は、受付手段１２と、音声入力手段１３と、言語情報取得手段１４と、誤認識結果訂正手段１５とを有している。具体的には、少なくとも音声認識処理及び当該処理結果を訂正するプログラムを格納したＲＯＭと、このＲＯＭに格納されたプログラムを実行することで、受付手段１２と、音声認識手段１３と、認識結果訂正手段１５として機能するＣＰＵと、情報を取得し、少なくとも一時的に記憶する言語情報取得手段１４として機能するＲＡＭとを備えている。
【００１４】
受付手段１２は、ユーザから入力された情報を受け付ける。すなわち、受付手段１２は、音声入力手段２１を介して入力された「複数の単語を含む音声情報」、音声入力指令手段２２を介して入力された「音声入力の受け付けを命令する音声入力命令」、訂正命令手段２３を介して入力された「認識結果の訂正を命令する訂正命令」を少なくとも受け付ける。
【００１５】
言語情報取得手段１４は、アクセス可能な記憶装置３００から少なくとも言語情報を取得する。言語情報には、「単語の音声情報と対比して、単語の内容を認識するための単語の標準パターン」、「複数の単語を含む音声情報の階層構造を定義する階層情報」、「複数の単語を含む音声情報の文法を定義する文法情報」、「任意の階層に含まれる標準パターンの数に関する階層別標準パターン数」、「音声上相互に類似すると判断された単語同士を予め関連づけた類似単語情報」が少なくとも含まれる。
【００１６】
音声認識手段１３は、まず、取得した言語情報に含まれる階層情報を参照してユーザから入力された音声情報の階層を認識する。この「階層情報」は、複数の単語を含む音声情報の階層を認識するために用いられる「階層構造に関する定義」を含む。「階層構造に関する定義」は、「ある階層に属する音声情報は所定の特徴を有する」といった、音声情報と階層とを対応づけるための特徴を定めたものである。その定義内容は特に限定されないが、本実施形態の「階層情報」は、『第１階層は「ｋｅｎ（県）」に相当する音声情報が含まれている、第２階層は、「ｓｈｉ（市）」に相当する音声情報が含まれている、第３階層は「ｋｕ（区）」に相当する音声情報が含まれている、第４階層は「ｃｈｏ又はｍａｃｈｉ（町）」に相当する音声情報が含まれている』という定義である。
【００１７】
音声情報「神奈川県横浜市神奈川区反町」が入力された場合、音声認識手段１３は、「階層情報（定義）」を参照して、「ｋｅｎ（県）」を含む「神奈川県」は第１階層に属すると認識し、「ｓｈｉ（市）」を含む「横浜市」は第２階層に属すると認識し、「ｋｕ（区）」を含む「神奈川区」は第３階層に属すると認識し、「ｍａｃｈｉ（町）」を含む「反町」は第４階層に属すると認識する。
【００１８】
なお、「階層情報」の態様は特に限定されず、音声情報から検出したポーズ（無音区間）の長さやタイミングに基づいて階層を認識するための定義や、その他の階層を認識するための定義を利用してもよい。
【００１９】
音声認識手段１３は、認識された各階層に属する単語の音声情報と、予め登録された、その階層を構成する単語の標準パターンとを対比して受け付けた音声情報の内容を認識する。まず、音声認識手段１３は、ユーザから入力された単語の音声情報を単語の音声の経時的な短時間スペクトルに変換する。そして、予め登録した単語の標準パターンと階層が認識された単語の音声情報（入力音声情報）とを対比する。対比は入力音声の経時的な短時間スペクトルと標準パターンのパターンマッチングにより一致度（類似度）を算出する。算出した一致度（類似度）に基づいて音声情報の内容を認識する。標準パターンは、スペクトルとともに単語の意味内容を含むことが好ましい。もちろん、単語の意味内容の認識にあたっては別に記憶された辞書情報を参照してもよい。なお、ここでは単語の標準パターンを用いて認識処理を行ったが、音素標準パターンを用いて認識処理を行ってもよい。
【００２０】
認識結果訂正手段１５は、音声認識手段１３が導いた認識結果に対し、ユーザから認識結果を訂正するべき旨の訂正命令を受け付けた場合に起動する。認識結果訂正手段１５は、訂正命令受付部１５１と、誤認単語推測部１５２と、再入力要求部１５３と、認識結果訂正部１５４とを有している。
【００２１】
訂正命令受付部１５１は、入力装置２００の訂正命令手段２３を介してユーザからの訂正命令を受け付ける。この訂正命令は、音声認識手段１３が認識した情報に基づいて出力した結果が誤っている場合、音声の認識結果が誤っているものとして、ユーザが訂正を求めて入力するものである。たとえば、目的地の住所を音声入力したところ、ナビゲーション装置４００が異なる場所（目的地）への案内情報を提示した場合、ユーザは認識結果の訂正を求めて訂正命令を入力する。
【００２２】
誤認単語推測部１５２は、訂正命令の入力に呼応して起動し、受け付けた音声情報のうち誤認された単語が属する階層を推測する。第１実施形態に係る誤認単語推測部１５２は、言語情報取得手段１４を介して「任意の階層に含まれる標準パターンの数に関する階層別標準パターン数」を取得し、この「階層別標準パターンの数」が最も多い階層を誤認された階層として推測する。これは、ある階層に対応する標準パターンが多ければ、マッチング処理において対比する標準パターンの候補数が多くなり、誤りが発生する確率が高いと考えるからである。
【００２３】
また、他の推測処理として以下の手法を採用することができる。
単語の標準パターンは、その「単語の標準パターン」を互いに誤認識しやすいと判断された「他の単語の標準パターン」に予め関連づけられている。この関連を示す識別子（情報）が、「音声上相互に類似すると判断された単語同士を予め関連づけた類似単語情報」として記憶されている。誤認単語推測部１５２は、言語情報取得手段１４を介して「類似単語情報」を取得し、他の単語の標準パターンと関連づけられている単語が、受け付けた音声情報に含まれている場合には、その単語の音声情報が属する階層を誤認された階層として推測する。これは、他に類似する単語が存在する場合には、マッチング処理において誤りが発生する確率が高いと考えられるからである。
【００２４】
再入力要求部１５３は、誤認単語推測部１５２が推測した階層から下層の音声情報の再入力をユーザに求める。すなわち、「神奈川県／横浜市／神奈川区／反町」と音声入力したにもかかわらず、第４番目の階層に属する「反町」を「立町」と誤認識してしまった場合には、この第４番目の階層から下層の部分の再入力をユーザに求める。たとえば、再入力要求部１５３は、「神奈川県／横浜市／神奈川区のどこですか？」というように、第５番目の階層のみの再入力をユーザに求める。この要求に対し、ユーザは「反町」とだけ発話すればよい。
【００２５】
認識結果訂正部１５４は、再入力要求部１５３の要求に応じて再入力された音声情報に基づいて音声認識を訂正させる命令を音声認識手段１３に送出する。この命令に従い、音声認識手段１３は、再入力された音声情報に基づいて再度音声認識を行い、その結果を外部装置（ナビゲーション装置４００）へ送出する。ナビゲーション装置４００は、出力装置５００を介して再入力された情報に基づく経路情報を再度ユーザに提示する。
【００２６】
以上の構成を有する音声認識装置１００の動作を図に基づいて説明する。
図２は、本実施形態に係る音声認識装置１００の基本制御手順を説明するためのフローチャート図である。
【００２７】
まず、ユーザは発話により情報入力を行うため、発話スイッチ（SW）を押す（１０１）。ユーザは入力しようとする音声情報を発話する（１０２）。受付手段１２は入力された音声情報を受け付ける（１０３）。音声情報の受け付けが終了すると（１０４）、音声認識手段１３は音声認識を行う（１０５）。認識結果はナビゲーション装置４００に送出され、ナビゲーション装置４００は、認識結果に基づく案内情報を出力手段５００（ディスプレイ、スピーカ）を介してユーザに提示する。
【００２８】
案内情報を提示されたユーザは、認識結果が正確であったか否かを確認する（１０６）。認識結果が誤っており、その訂正が必要である場合には、ユーザは訂正命令を入力する。他方、ユーザからの訂正命令が所定時間の間になければ（１０７）、認識結果を確定し（１０８）、確定した認識結果は、この認識結果に基づく情報（経路案内、地図情報）として出力装置５００を介して出力される（１０９）。
【００２９】
なお、本実施形態では、発話スイッチのオンにより音声情報の受付処理を開始し、発話終了のスイッチのオンにより音声情報の受付処理を終了するようにしたが、以下のようにしてもよい。すなわち、周囲の騒音量を検出する騒音量検出手段１１を設け、周囲の音の環境をモニタし、収音した音のデジタルパワーが所定値以上となったときユーザの発話開始を検出して音声情報の受け付けを開始し、所定値以下となったときユーザの発話終了を検出して音声情報の受け付けを終了するようにしてもよい。
【００３０】
ステップ１０７において、ユーザから訂正命令の入力がされた場合、認識結果訂正手段１５が起動する（１０７）。誤認結果訂正手段１５は、受け付けた音声情報のうち誤認された単語が属する階層を推測する（１１０）。この推測処理を、図３に示した。図３のフローチャートは、図２のステップ１１０のサブルーチンである。
【００３１】
説明の便宜のため、状況を仮定してこの推測処理を説明する。ユーザは、目的地となる住所「神奈川県／横浜市／神奈川区／反町」をナビゲーション装置４００に向けて発話した。しかし、音声認識手段１３は、これを「神奈川県／横浜市／神奈川区／立町」と誤って認識し、その認識結果に基づいてナビゲーション装置４００は「立町」を目的地とする経路案内を行った。これに対してユーザは訂正命令を入力し、訂正命令受付部１５１は、その訂正命令を受け付けた。
【００３２】
誤認単語推測部１５２は、以下の２つの手法を用いて誤って認識した単語を推測する。
【００３３】
[第１の処理手法] 誤認単語推測部１５２は、言語情報取得手段１４を介して言語情報に含まれる「階層別標準パターン数」を取得する。この階層別標準パターン数は、図４に示すような「任意の階層に含まれる標準パターンの数」に関する情報である。たとえば、住所に関し、「県」の階層に属する標準パターン数（ａ）は４７個である。神奈川県の下層となる「市」の階層に属する標準パターン数（ｂ）は３７個である。横浜市の下層となる「区」の階層に属する標準パターン数（ｃ）は１８個である。さらに神奈川区の下層となる「町」等の階層に属する標準パターン数（ｄ）は７９個である。
【００３４】
誤認単語推測部１５２は、各階層ごとに登録された単語の標準パターンが最も多い階層を判断し（２１０）、標準パターンが最も多い階層を誤認された単語が属する階層であると推測する（２１１）。本例では最も下層の「町」の階層に属する標準パターン数（ｄ）が７９個と最も多く、誤認単語推測部１５２は第４階層（「町」の階層）において誤認識が発生したと推測する。
【００３５】
この推測結果に基づいて、再入力要求部１５３は、推測した第４階層から下層の（「町」からの）入力をユーザに求める（２１２）。具体的には、「神奈川県／横浜市／神奈川区のどこですか？」といった質問を、スピーカ５００を介して行い、「町」の階層からの再入力をユーザに促す。
【００３６】
[第２の処理手法] 誤認単語推測部１５２は、言語情報取得手段１４から、少なくとも、「類似単語情報」を取得する。この類似単語情報は、図４に示すように、音声上相互に類似すると判断された単語同士を予め関連づけた情報である。たとえば、同じ階層に属する「立町」と「反町」は音声上類似していると判断され、互いに関連づけられている。
【００３７】
誤認単語推測部１５２は、他の単語の標準パターンと関連づけられている単語が受け付けた音声情報に含まれているか否かを判断し（２２０）、含まれている場合にはその単語の音声情報が属する階層を、誤認された単語の音声情報が属する階層であると推測する（２２１）。本例では認識した「立町」に他の単語「反町」が関連づけられているため、誤認単語推測部１５２は、「立町」の属する第４階層において誤認識が発生したと推測する。
【００３８】
この推測結果に基づいて、再入力要求部１５３は、推測した階層から下層の（「町」から下層の）入力をユーザに求める（２２２）。具体的には、「神奈川県／横浜市／神奈川区のどこですか？」といった質問を、スピーカ５００を介して行い、「立町」の属する階層からの再入力をユーザに促す。
【００３９】
ここで、図２のステップ１１２に戻る。受付手段１２は、再入力要求部１５３の求めに応じて再度入力されたユーザの音声情報を受け付ける（１１２）。認識結果訂正部１５４は、音声認識手段１３へ向けて、再度入力された音声情報に基づいて認識処理を再度行う旨の命令を送出する（１１３）。このとき認識結果訂正部１５４は、入力された音声情報のすべてを取消させることはせず、元の（誤認された）音声情報だけを、再入力された音声情報に更新させる。音声認識手段１３は、この命令に従い、再度認識処理を行い、図２のステップ１０５以降の処理を繰り返す。
【００４０】
この第１実施形態によれば、音声認識装置を利用するユーザの認識結果の訂正時における負担を軽減することができる。すなわち、階層構造の音声情報の一部において認識結果が誤認された場合に、ユーザは誤認されたと推測された単語が属する階層から下層の音声情報を入力すればよい。ユーザは音声情報を最初から全部入力（発話）する必要がなく、認識結果の訂正を容易に行うことができる。
【００４１】
＜第２実施形態＞
第２実施形態は、基本的な構成および動作については第１実施形態と共通する。ここでは異なる部分を中心に説明する。
【００４２】
本実施形態は、訂正履歴に基づいて誤認された単語の音声情報が属する階層を推測する。すなわち、誤認識の経験から「誤認されやすい単語」を学習し、その学習に基づいて推測処理を行う。
【００４３】
図１に示すように、本実施形態の認識結果訂正手段１５は、認識結果の訂正履歴を取得するとともに、取得した訂正履歴に基づいて誤認されやすい単語を識別する誤認容易単語識別部１５５をさらに有している。
【００４４】
誤認単語推測部１５２は、誤認容易単語識別部１５が識別した「誤認容易な単語」が受け付けられた音声情報に含まれている場合には、その単語の音声情報が属する階層を「誤認された単語の音声情報が属する階層」であると推測する。
【００４５】
図５に、本実施形態の処理手順を示した。基本的には図２に示す処理と共通するためここでは異なる処理について説明する。訂正履歴取得機能は、訂正命令を受けた（１０７）認識結果および訂正結果の履歴を取得し、少なくとも一時的に記憶する（２０１）。
【００４６】
誤認容易単語識別部１５５は、いわゆる学習機能を有し、訂正履歴に基づいて誤認されやすい単語を識別する。この識別は、訂正前の認識結果と訂正後の認識結果を比較して行う。たとえば、ユーザが「神奈川県／横浜市／神奈川区／反町」と発話したとする。音声認識手段１３の第１回目は「神奈川県／横浜市／金沢区／樽町」と認識し、認識結果訂正部１５４からの命令による第２回目は「神奈川県／横浜市／金沢区／樽町」と認識し、第３回目に「神奈川県／横浜市／神奈川区／反町」と正確に認識したとする。
【００４７】
誤認容易単語識別部１５３は、第１回目乃至第３回目の認識結果を比較する。比較の結果「金沢区」と「神奈川区」とが誤認されやすい単語であることを認識する。そして、この２つの単語を「誤認されやすい単語」として記憶する（２０２）。
【００４８】
誤認単語推測部１５２は、誤認音声情報の推測処理（１１０）において、誤認容易単語識別部１５５の識別した「誤認されやすい単語」が、受け付けた音声情報に含まれているか否かを判断する（２３０）。そして、「誤認されやすい単語の音声情報が属する階層」を「誤認された単語の音声情報が属する階層」であると推測する（２３１）。再入力要求部１５３は、推測された階層から下層の音声情報の入力をユーザに求める（２３２）。なお、「誤認されやすい単語」が音声情報に含まれていない場合には他の手法を用いて誤認された単語を推測する。
【００４９】
本実施形態によれば、第１実施形態と同様に、音声認識装置を利用するユーザの認識結果の訂正時における負担を軽減することができる。すなわち、階層構造の音声情報の一部において認識結果が誤認された場合に、ユーザは誤認されたと推測された単語が属する階層から下層の音声情報を入力すればよい。言い換えると、ユーザは音声情報を最初から全部入力（発話）する必要がなく、認識結果の訂正を容易に行うことができる。
【００５０】
また、発話の癖といった個人的な原因によって発生する誤認識についても、誤認した階層を推測することができるため、音声認識訂正時のユーザの負担を軽減することができる。
【００５１】
＜第３実施形態＞
第３実施形態は、基本的な構成および動作については第１実施形態と共通する。ここでは異なる部分を中心に説明する。
【００５２】
本実施形態は、周囲の騒音量が大きいために誤認された単語の音声情報が属する階層を推測する。図１に示すように、本実施形態は、音声情報の入力時における周囲の騒音量を所定のタイミングで検出する騒音量検出手段１１をさらに備えている。
【００５３】
また、前記騒音量検出手段はたとえば指向性マイクを保持しており、使用者の声が入らず、騒音のみが入るように配置されている。
【００５４】
誤認単語推測部１５２は、騒音量検出手段１１が検出した周囲の騒音量を参照して騒音量が所定の値よりも大きい値となったタイミングにおいて入力された単語が音声情報に含まれている場合には、その単語の音声情報が属する階層を誤認された単語の音声情報が属する階層であると推測する。騒音量が大きい環境下で受け付けた音声を正しく認識することは困難であり、誤った認識をしてしまう可能性が高いからである。
【００５５】
図６に、本実施形態の処理手順を示した。基本的には図２に示す処理と共通するためここでは異なる処理について説明する。騒音量検出手段１１は、周囲の騒音量を所定のタイミングで検出し、そのタイミングと騒音量とを関連づける。騒音量の大小を規定する閾値は任意に設定できるが、本実施形態ではユーザの発話が開始される以前の平均的な騒音量を閾値とした。本実施形態における騒音検出は、ユーザの発話開始情報の入力に呼応して開始し（１２１）、音声情報受付終了とともに終了する（１２２）。もちろん、発話開始又は終了を検知するために、発話開始前及び発話終了後においても騒音量の検出を行っても良い。検出された騒音量は、時間を基準として、受け付けた音声情報と対応づけて記憶する（１２３）。本実施形態では、少なくとも、検出された騒音量が所定の値を超えたタイミングにおいて入力された単語の音声情報を記憶する。
【００５６】
誤認単語推測部１５２は、誤認音声情報の推測処理（１１０）において、騒音量検出手段１１が記憶した、騒音量が所定値を超えたタイミングにおいて入力された単語が、受け付けた音声情報に含まれているか否かを判断する（３３０）。そして、「所定値以上の騒音量があるときに入力された単語の音声情報が属する階層」を「誤認された単語の音声情報が属する階層」であると推測する（３３１）。再入力要求部１５３は、推測された階層から下層の音声情報の入力をユーザに求める（３３２）。なお、所定値以上の騒音量が検出されたタイミングにおいて入力された単語が音声情報に含まれていない場合には他の手法を用いて誤認された単語を推測する。
【００５７】
本実施形態によれば、第１実施形態と同様に、音声認識装置を利用するユーザの認識結果の訂正時における負担を軽減することができる。すなわち、階層構造の音声情報の一部において認識結果が誤認された場合に、ユーザは誤認されたと推測された単語が属する階層から下層の音声情報を入力すればよい。言い換えると、ユーザは音声情報を最初から全部入力（発話）する必要がなく、認識結果の訂正を容易に行うことができる。
【００５８】
騒音量が大きい場合、通常（騒音がなければ）は誤認識しないような単語であっても誤認識する可能性が大きくなる。本実施形態によれば、周囲の騒音という環境の変化によって誤認された単語、階層を推測することができる。これにより、ユーザは、推測された階層から下層の音声情報を再入力すればよいため、誤認識結果の訂正時におけるユーザの再入力の負担を軽減することができる。
【００５９】
第１実施形態〜第３実施形態において説明した、「音声情報のうち誤認された単語が属する階層を推測する」手法は、それぞれ単独で用いることもできるし、１又は２以上の手法を組み合わせて用いてもよい。（１）階層に属する単語数や、単語の称呼などの音声情報に由来する誤認識に対応する第１実施形態、（２）発話の癖などの個人的な要因に由来する誤認識に対応する第２実施形態、（３）騒音などの環境変化に由来する誤認識に対応する第３実施形態、をそれぞれ任意に組み合わせることにより、誤認識された単語が属する階層の推測処理の精度が高まり、実際に誤認識された階層からの再入力をユーザに求めることができ、ユーザの再入力の負担を軽減することができる。
【００６０】
ちなみに、複数の手法を組み合わせる場合において、ある手法による推測結果と他の手法の推測結果とが異なる場合には、より上層の階層が「誤認された単語が属する階層」と推測することが好ましい。推測結果のいずれが正しいかをさらに判断することも可能であるが、誤認の可能性のある階層のすべてについて再度入力を求めることにより、より正確な認識結果を導くことができる。
【００６１】
第1〜第３の実施形態では音声認識装置１００について説明したが、本発明の音声認識装置用プログラムにより動作するコンピュータは、音声認識装置１００と同様に作用し、同様の効果を奏する。
【００６２】
なお、以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。
【図面の簡単な説明】
【図１】本実施形態のブロック図である。
ト図である。
【図２】本実施形態の基本的な制御手順を示すフローチャート図である。
【図３】第１実施形態の制御手順を示すフローチャート図である。
【図４】言語情報の一例を示す図である。
【図５】第２実施形態の制御手順を示すフローチャート図である。
【図６】第３実施形態の制御手順を示すフローチャート図である。
【符号の説明】
１００…音声認識装置
１１…騒音量検出手段
１２…受付手段
１３…音声認識手段
１４…言語情報取得手段
１５…認識結果訂正手段
２００…入力装置
２１…音声入力手段
２２…音声入力指令手段
３３…訂正命令手段
３００…記憶装置
４００…ナビゲーション装置
５００…出力装置

Claims

ユーザから複数の単語を含む音声情報の入力を受け付ける受付手段と、
前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識する音声認識手段と、
前記音声認識手段の認識結果を訂正すべき旨の訂正命令が前記ユーザから入力された場合、前記受け付けられた音声情報のうち誤認された単語が属する階層を推測し、当該推測された階層から下層の音声情報の再入力を前記ユーザに求める認識結果訂正手段と、を有し、
前記認識結果訂正手段は、前記登録された単語の標準パターンの数が最も多い階層を前記誤認された単語が属する階層であると推測する音声認識装置。
ユーザから複数の単語を含む音声情報の入力を受け付ける受付手段と、
前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識する音声認識手段と、
前記音声認識手段の認識結果を訂正すべき旨の訂正命令が前記ユーザから入力された場合、前記受け付けられた音声情報のうち誤認された単語が属する階層を推測し、当該推測された階層から下層の音声情報の再入力を前記ユーザに求める認識結果訂正手段と、を有し、
前記単語の標準パターンは、前記単語と互いに誤認識しやすいと判断された他の単語の標準パターンと予め関連づけられ、
前記認識結果訂正手段は、前記他の単語の標準パターンと関連づけられている単語が前記受け付けられた音声情報に含まれている場合には、当該単語の音声情報が属する階層を前記誤認された単語の音声情報が属する階層であると推測する音声認識装置。
ユーザから複数の単語を含む音声情報の入力を受け付ける受付手段と、
前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識する音声認識手段と、
前記音声認識手段の認識結果を訂正すべき旨の訂正命令が前記ユーザから入力された場合、前記受け付けられた音声情報のうち誤認された単語が属する階層を推測し、当該推測された階層から下層の音声情報の再入力を前記ユーザに求める認識結果訂正手段と、を有し、
前記認識結果訂正手段は、前記認識結果の訂正履歴を取得するとともに、当該訂正履歴に基づいて誤認されやすい単語を識別し、当該誤認されやすい単語が前記音声情報に含まれている場合、当該誤認されやすい単語の音声情報が属する階層を前記誤認された単語の音声情報が属する階層であると推測する音声認識装置。
ユーザから複数の単語を含む音声情報の入力を受け付ける受付手段と、
前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識する音声認識手段と、
前記音声認識手段の認識結果を訂正すべき旨の訂正命令が前記ユーザから入力された場合、前記受け付けられた音声情報のうち誤認された単語が属する階層を推測し、当該推測された階層から下層の音声情報の再入力を前記ユーザに求める認識結果訂正手段と、を有し、
前記音声情報の入力時における周囲の騒音量を所定のタイミングで検出する騒音量検出手段を備え、
前記認識結果訂正手段は、前記検出された騒音量が所定の値よりも大きい値となったタイミングにおいて入力された単語が属する階層を前記誤認された単語が属する階層であると推測する音声認識装置。
コンピュータに、ユーザから複数の単語を含む音声情報の入力を受け付けるステップと、
前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識するステップと、
前記認識の結果を訂正すべき旨の訂正命令を前記ユーザから受け付けた場合に、前記入力された音声情報のうち誤認された単語が属する階層を推測するステップと、この推測された階層から下層の音声情報の再入力を前記ユーザに求めるステップと、を実行させるための音声認識用プログラムであって、
前記誤認された単語が属する階層を推測するステップは、前記登録された単語の標準パターンの数が最も多い階層を、前記誤認された単語が属する階層であると推測する音声認識用プログラム。
コンピュータに、ユーザから複数の単語を含む音声情報の入力を受け付けるステップと、
前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識するステップと、
前記認識の結果を訂正すべき旨の訂正命令を前記ユーザから受け付けた場合に、前記入力された音声情報のうち誤認された単語が属する階層を推測するステップと、この推測された階層から下層の音声情報の再入力を前記ユーザに求めるステップと、を実行させるための音声認識用プログラムであって、
前記単語の標準パターンは、前記単語と互いに誤認識しやすいと判断された他の単語の標準パターンと予め関連づけられ、
前記誤認された単語が属する階層を推測するステップは、前記他の単語の標準パターンと関連づけられている単語が前記受け付けられた音声情報に含まれている場合には、当該単語の音声情報が属する階層を前記誤認された単語の音声情報が属する階層であると推測する音声認識用プログラム。
コンピュータに、ユーザから複数の単語を含む音声情報の入力を受け付けるステップと、
前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識するステップと、
前記認識の結果を訂正すべき旨の訂正命令を前記ユーザから受け付けた場合に、前記入力された音声情報のうち誤認された単語が属する階層を推測するステップと、この推測された階層から下層の音声情報の再入力を前記ユーザに求めるステップと、を実行させるための音声認識用プログラムであって、
前記誤認された単語が属する階層を推測するステップは、前記認識結果の訂正履歴を取得するとともに、当該訂正履歴に基づいて誤認されやすい単語を識別し、当該誤認されやすい単語が前記音声情報に含まれている場合、当該誤認されやすい単語の音声情報が属する階層を前記誤認された単語の音声情報が属する階層であると推測する音声認識用プログラム。
コンピュータに、ユーザから複数の単語を含む音声情報の入力を受け付けるステップと、
前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識するステップと、
前記認識の結果を訂正すべき旨の訂正命令を前記ユーザから受け付けた場合に、前記入力された音声情報のうち誤認された単語が属する階層を推測するステップと、この推測された階層から下層の音声情報の再入力を前記ユーザに求めるステップと、を実行させるための音声認識用プログラムであって、
前記音声情報の入力時における周囲の騒音量を所定のタイミングで検出させるステップをさらに含み、
前記誤認された単語が属する階層を推測するステップは、前記検出された騒音量が所定の値よりも大きい値となったタイミングにおいて入力された単語が属する階層を前記誤認された単語が属する階層であると推測する音声認識用プログラム。