JP2006163227A

JP2006163227A - 音声認識装置

Info

Publication number: JP2006163227A
Application number: JP2004357756A
Authority: JP
Inventors: Tomonori Furumoto; 友紀古本
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2004-12-10
Filing date: 2004-12-10
Publication date: 2006-06-22

Abstract

【課題】ユーザ自身に対して誤認識の原因を直感的に理解させて音声認識の発話方法を効率的にマスターさせることができる音声認識装置を提供する。
【解決手段】発話された音声を入力して音声信号を生成する音声入力手段２と、音声入力手段から送られてくる音声信号に基づいて音声認識を行う音声認識手段１２と、音声入力手段から送られてくる音声信号の波形を表す表示データをリアルタイムで作成する表示データ作成手段９と、表示データ作成手段から送られてくる表示データに基づき表示を行う表示手段５とを備えている。
【選択図】図１

Description

この発明は、機器を音声で操作するために使用される音声認識装置に関し、特にユーザに対して認識率の向上に寄与する情報を提供する技術に関する。

従来、ユーザが発話した音声を認識して認識結果を出力する音声認識装置が知られている。このような音声認識装置を利用したシステムとして、例えば、音声による操作が可能なカーナビゲーションシステムが開発されている。

このようなカーナビゲーションシステムに適用された音声認識装置を用いて音声操作を行う場合、ユーザが音声操作に慣れるまでは、良好な認識結果が得られないことがある。これは、カーナビゲーションシステム自身やマイクロフォンの性能によって、認識処理が可能な音量や騒音レベルなどに制限があることに起因する。例えば、大声または小声で発話したり、窓を空けた状態で高速道路を走行するなどによって、認識処理が可能な音量や騒音レベルを逸脱することがあるが、ユーザは、その理由を知ることができない。そこで、音声認識装置において、「発話音量が小さすぎる」、「周囲騒音が大きすぎる」といった誤認識が発生する原因を音声ガイダンスや文字でユーザに通知するカーナビゲーションシステムも開発されている。

なお、入力音声を解析してユーザに通知する装置として、特許文献１は、音声信号の波形解析を用いた画像処理装置を開示している。この画像処理装置は、入力された音声波形の周波数を求め、入力音声の音階情報を得る音階情報作成手段と、この音階情報に基づいて、オブジェクトデータを背景画像上に表示すべき位置を決め、オブジェクト画像データを作成するオブジェクト画像作成手段と、オブジェクト画像を優先して、このオブジェクト画像と背景画像とを合成して、表示用画像データを作成する表示データ作成手段とを備えている。

特開平８−１２３４４８号公報

しかしながら、上述した従来の音声認識装置では、「発話音量が小さすぎる」、「周囲騒音が大きすぎる」などといった誤認識の原因をユーザに通知するものも開発されているが、どの程度小さいのか、どのくらい音量を上げればよいかといったことは感覚的にわかりにくく、また、なぜ周囲騒音が大きいのか、どのような音が騒音になり得るのかもわかりにくいという問題がある。

なお、特許文献１に記載された画像処理装置は、音階情報や音圧情報に特化した情報しか得ることができないので、音声認識において重要な入力音声の大小と周囲騒音の大小とを同時に知ることはできない。また、画像処理装置であることから、音声認識の結果を出力する機能は有しない。

この発明は、上述した問題を解消するためになされたものであり、その課題は、ユーザ自身に対して誤認識の原因を直感的に理解させて音声認識の発話方法を効率的にマスターさせることができる音声認識装置を提供することにある。

この発明に係る音声認識装置は、発話された音声を入力して音声信号を生成する音声入力手段と、音声入力手段から送られてくる音声信号に基づいて音声認識を行う音声認識手段と、音声入力手段から送られてくる音声信号の波形を表す表示データをリアルタイムで作成する表示データ作成手段と、表示データ作成手段から送られてくる表示データに基づき表示を行う表示手段とを備えている。

この発明によれば、発話した音声の波形をリアルタイムで表示手段に表示するように構成したので、ユーザは、波形を見ることにより音量の大小や周囲騒音のレベルを知ることができ、誤認識の原因を直感的に理解できる。従って、ユーザは、音量を変えて発話したり、周囲の騒音を抑える処置を講じた後に発話を行うといった試みができるので、音声認識の発話方法を効率的にマスターできる。

以下、この発明の実施の形態を、図面を参照しながら詳細に説明する。なお、以下では、この発明の実施の形態に係る音声認識装置がカーナビゲーションシステムに適用された場合を想定して説明するが、この音声認識装置は、カーナビゲーションシステムに限らず、音声操作を行う種々の機器に適用できる。
実施の形態１．
図１は、この発明の実施の形態１に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、音声認識処理装置１、音声入力手段２、手動入力手段３、音声出力手段４および表示手段５から構成されている。

音声入力手段２は、例えばマイクロフォン（マイク）から構成されており、音声認識装置を操作するための音声を入力するために使用される。この音声入力手段２は、ユーザによって発話された音声を電気信号に変換し、アナログの音声信号として音声認識処理装置１に送る。手動入力手段３は、例えば、この音声認識装置の操作パネル（図示は省略する）に設けられたキーから構成されており、音声認識装置を手動によって操作するために使用される。この手動入力手段３は、その操作に応じて生成されたキー入力信号を、音声認識処理装置１に送る。なお、手動入力手段３は、キーに限らず、タッチパネルやリモートコントローラから構成することもできる。

音声出力手段４は、例えば、スピーカから構成されている。この音声出力手段４は、音声認識処理装置１から送られてくる音声信号に応じて音声を出力する。表示手段５は、例えば液晶ディスプレイ装置やＣＲＴ装置といったモニタから構成することができる。表示手段５は、音声認識処理装置１から送られてくる映像信号に応じて文字や画像を、その画面に表示する。

音声認識処理装置１は、設定条件格納手段６、画像格納手段７、入力信号解析手段８、表示データ作成手段９、表示データ制御手段１０、表示データ出力手段１１、音声認識手段１２および認識結果出力手段１３から構成されている。

設定条件格納手段６は、入力された音声信号の解析、表示データの作成や制御などを行うための閾値情報、色情報、設定時間情報などを含む設定条件を格納している。ここで、閾値情報は、ユーザの発話によって得られた音声波形の振幅が、音声認識処理を行う上で適正である範囲を示す値である。この閾値情報で示される範囲を逸脱しない発話の音量が適正であるとされる。また、色情報は、音声波形に付すべき色を規定する情報である。なお、設定時間情報については後述する。この設定条件格納手段６に格納されている設定条件は、入力信号解析手段８、表示データ作成手段９および表示データ制御手段１０によって読み出される。

画像格納手段７は、地図を表示するための地図データ、線や記号を表示するためのデータなどの画像データを格納する。この画像格納手段７に格納されている画像データは、表示データ作成手段９によって読み出される。

入力信号解析手段８は、音声入力手段２から送られてくる音声信号の波形（以下、「音声波形」と略する）の解析を行う。この入力信号解析手段８は、音声分析部１４、設定条件判定部１５および設定条件付加部１６から構成されている。

音声分析部１４は、例えばＡ／Ｄ変換器から構成されており、人が発話することによって音声入力手段２から送られてくるアナログの音声信号を入力し、デジタルの音声信号に変換する。この音声分析部１４で変換することによって得られた音声信号は、設定条件判定部１５に送られる。設定条件判定部１５は、音声分析部１４から送られてくる音声信号が、設定条件格納手段６から読み出した閾値情報に基づき、認識可能な範囲にあるかどうかを判定し、判定結果を付加した音声信号を設定条件付加部１６に送る。設定条件付加部１６は、設定条件判定部１５から送られてくる音声信号に、設定条件格納手段６から読み出した閾値情報および色情報などを付加し、表示データ作成手段９に送る。

表示データ作成手段９は、入力信号解析手段８から送られてくる音声波形を、設定条件格納手段６から読み出した閾値情報や色情報などの条件に合致するように加工して表示データを作成する。また、表示データ作成手段９は、画像格納手段７から読み出した画像データに基づき生成された画像に、上記加工された音声波形を重畳させて、表示データを作成する。この表示データ作成手段９で作成された表示データは、表示データ制御手段１０に送られる。

表示データ制御手段１０は、表示データ作成手段９から送られてきた表示データを、手動入力手段３から入力されたキー入力信号や、設定条件格納手段６から読み出された設定時間情報で指定された時間の経過などをトリガとして、表示手段５にリアルタイムで表示される音声波形の動きを停止または一時停止させる。この表示データ制御手段１０でリアルタイムな動きの可否が制御された表示データは表示データ出力手段１１に送られる。

表示データ出力手段１１は、例えばＤ／Ａ変換器から構成されており、表示データ制御手段１０から送られてくる表示データを、アナログの映像信号に変換し、表示手段５に送る。これにより、表示手段５の画面に、表示データに応じた画像、例えば音声の波形や地図が表示される。

音声認識手段１２は、入力信号解析手段８の音声分析部１４から送られてくる音声信号に対する音声認識処理を実行する。この音声認識手段１２は、音声区間検出部１７、特徴パターン記憶部１８および認識計算部１９から構成されている。

音声区間検出部１７は、音声分析部１４から送られてくる音声信号の中から発話された音声区間を検出する。この音声区間検出部１７で検出された音声区間は、認識計算部１９に送られる。特徴パターン記億部１８は、音声認識辞書とも呼ばれ、音声の特徴パターンを記憶する。この特徴パターン記憶部１８は、認識計算部１９によってアクセスされる。認識計算部１９は、音声区間検出部１７から送られてくる音声区間の音声波形と、特徴パターン記憶部１８に格納されている特徴パターンとのマッチング処理を実行する。そして、このマッチング処理によって得られた認識結果を、認識語彙として認識結果出力手段１３および表示データ作成手段９に送る。

認識結果出力手段１３は、例えばＤ／Ａ変換器から構成されており、音声認識手段１２から送られてくる認識語彙を表すデータをアナログの音声信号に変換し、音声出力手段４に送る。これにより、音声出力手段４は、音声認識処理によって認識された語彙を音声で出力する。

次に、上記のように構成される、この発明の実施の形態１に係る音声認識装置の動作を、図２および図３に示すフローチャートを参照しながら説明する。

図２は、この発明の実施の形態１に係る音声認識装置のメイン処理を示すフローチャートである。この音声認識装置では、まず、ユーザが音声操作を行うための発話を行うと、音声入力が行われる（ステップＳＴ１１）。すなわち、音声入力手段２は、ユーザによって発話された音声を電気信号に変換し、アナログの音声信号として音声認識処理装置１の入力信号解析手段８を構成する音声分析部１４に送る。次いで、入力信号変換が行われる（ステップＳＴ１２）。すなわち、音声分析部１４は、音声入力手段２から送られてきたアナログの音声信号を、音声認識処理が可能な形式のデジタル信号に変換し、設定条件判定部１５および設定条件付加部１６を介して表示データ作成手段９に送るとともに、音声認識手段１２の音声区間検出部１７に送る。音声区間検出部１７は、音声信号の中から発話された音声区間を検出して認識計算部１９に送る。

次いで、音声認識処理が実行される（ステップＳＴ１３）。すなわち、音声認識手段１２の認識計算部１９は、音声区間検出部１７で検出された音声区間の音声信号と、特徴パターン記憶部１８に記憶されている特徴パターンとのマッチング処理を行う。次いで、認識結果の算出が行われる（ステップＳＴ１４）。すなわち、認識計算部１９は、マッチング処理によって最もマッチング度の高い特徴パターンに対応する語彙を選択し、認識結果として決定する。そして、この決定した語彙を表示データ作成手段９および認識結果出力手段１３に送る。

次いで、表示データ作成処理が実行される（ステップＳＴ１５）。すなわち、表示データ作成手段９は、入力信号解析手段８から送られてくる音声波形に基づき表示データを作成し、表示データ制御手段１０を介して表示データ出力手段１１に送る。この表示データ作成処理では、詳細は後述するが、表示形態を様々に変更して表示させる表示データを作成するように構成することもできる。次いで、作成した表示データに基づく表示が行われる（ステップＳＴ１６）。すなわち、表示データ出力手段１１は、表示データ作成手段９から表示データ制御手段１０を介して送られてくる表示データに基づき映像信号を生成し、表示手段５に送る。これにより、図８に示すような音声の波形が表示手段５の画面に表示される。なお、図９は、後に詳細に説明する表示データ作成処理において、音声認識結果として得られた「電話番号」という語彙を音声波形に重畳させて表示した例を示している。

また、ステップＳＴ１４において、認識結果の算出が行われると、認識結果の出力が行われる（ステップＳＴ１７）。すなわち、認識結果出力手段１３は、音声認識手段１２から送られてくる認識語彙を表すデータを音声信号に変換し、音声出力手段４に送る。これにより、音声認識処理によって認識された語彙が音声で出力される。

次に、図２のステップＳＴ１４で行われる表示データ作成処理の詳細を、図３に示すフローチャートを参照しながら説明する。なお、この表示データ作成処理はオプションであり、必ずしも必須ではない。

表示データ作成処理では、まず、画像情報の取得が行われる（ステップＳＴ２１）。すなわち、表示データ作成手段９は、画像格納手段７から画像情報を取得する。ここで取得される、画像情報は、ナビゲーションに使用される地図を表示するための地図データなどである。次いで、閾値情報の取得が行われる（ステップＳＴ２２）。すなわち、表示データ作成手段９は、設定条件格納手段６から閾値情報を取得する。

次いで、入力された音声波形の振幅が閾値を越えているかどうかが調べられる（ステップＳＴ２３）。ここで、閾値を越えていることが判断されると、音声波形の色情報が変更される（ステップＳＴ２４）。この際、音声波形の全体の色、または、音声波形のうちの閾値を超えている部分のみの色、または、音声波形のうちの閾値を越えていない部分のみの色を変更するように構成することもできる。上記ステップＳＴ２３で、入力された音声波形の振幅が閾値を越えていないことが判断されると、ステップＳＴ２４の処理はスキップされる。

なお、ステップＳＴ２３では、入力された音声波形の振幅が閾値を越えているかどうかを調べるように構成したが、入力された音声波形が閾値を下回っているかどうか、または、複数の閾値に挟まれている範囲に音声波形が収まっているかどうか、換言すれば、閾値情報で規定された基準値を逸脱しているかどうかを調べるように構成することもできる。この場合、ステップＳＴ２４では、音声波形の全体の色、または、音声波形のうちの閾値情報で規定された基準値を逸脱している部分のみの色、または、音声波形のうち閾値情報で規定された基準値を逸脱していない部分のみの色を、音声信号が所定の基準値を逸脱していない場合の表示色から変更するように構成することができる。

次いで、音声波形に閾値のマークを重畳する処理が行われる（ステップＳＴ２５）。すなわち、表示データ作成手段９は、線や矢印といったマークを描画するための画像データを画像格納手段７から読み出し、音声波形にマークを重畳した表示データを作成して表示データ制御手段１０に送る。これにより、図１０に示すように、音声波形に、ステップＳＴ２２で取得された閾値を表す線およびその線の部分に矢印のマークが重畳されて表示される。

次いで、音声波形が取得された画像に重畳される（ステップＳＴ２６）。すなわち、表示データ作成手段９は、ステップＳＴ２１で取得した画像データに、ステップＳＴ２５までの処理によって作成した音声波形を重畳した表示データを作成して表示データ制御手段１０に送る。これにより、図１１に示すように、例えば地図の画像に、音声波形が重畳されて表示される。

次いで、認識結果が表示データに重畳される（ステップＳＴ２７）。すなわち、表示データ作成手段９は、ステップＳＴ２６までの処理によって作成した音声波形に、メイン処理（図２参照）のステップＳＴ１４において音声認識手段１２から認識結果として得られた語彙を重畳した表示データを作成し、表示データ制御手段１０に送る。これにより、図９に示すように、音声認識結果として得られた「電話番号」という語彙が音声波形に重畳されて表示される。

以上説明したように、この発明の実施の形態１に係る音声認識装置によれば、誤認識の原因をガイダンスや文字で通知するだけでなく、発話した音声の波形をリアルタイムで表示手段５に表示するように構成したので、ユーザは、波形を見ることにより音量の大小や周囲騒音のレベルを知ることができ、誤認識の原因を直感的に理解できる。従って、ユーザは、音量を変えて発話したり、周囲の騒音を抑える処置を講じた後に発話を行うといった試みができるので、音声認識の発話方法を効率的にマスターできる。その結果、音声の認識率を向上させることができる。

例えば、ガイダンスのみで「もう少し小さな声でお話しください」と提示するだけでなく、音声入力手段２から入カされた音声波形を表示することにより、ユーザは「声が大きすぎて波形が歪んでいる」ことがわかり、「もう少し小さく話してみよう」と試みる。また、音声波形には周囲騒音のレベルも表示されるので、ユーザは「今はかなりノイズが大きい」と理解できる。また、窓が開いているという車両情報を取得し、「窓を閉めるとノイズが小さくなります」などと提示すれば、窓を閉めると音声を認識しやすくなるということを知らせることができる。さらに、ユーザは、入カされた音声波形から「音声が騒音に埋もれてしまっている」ことがわかると、「窓を閉めて騒音を小さくして、もう少し大きな声で話してみよう」と試みる。これにより、ユーザは音声認識させるコツをつかむことができるので、音声の認識率を向上させることができる。

また、音声波形に音声認識結果の語彙を重畳して表示させるように構成したので、ユーザは、誤認識が発生した原因や、その因果関係を理解できる。例えば、発話した音声波形が大きすぎて歪んでいる場合に、誤認識が発生すると、その誤認識の理由は発話音量が大きすぎたことが原因であると理解できる。このように、ユーザは、どのような音量や環境で発話すると正しく認識するかを理解でき、それに対処しようとするので認識率を向上させることができる。

また、音声入力手段２から送られてくる音声波形に、音声認識手段１２による音声認識に好適な範囲を表す基準値を示すためのマークを重畳させて表示するように構成したので、音声操作において、発話音量が基準値を超えているのか、または大きく下回っているのかなどがわかりやすい。例えば、これ以上大きな発話だと認識できなくなるという限界や、これ以上小さい発話だと認識できなくなるという限界が基準値として表示されるので、適正な発話音量がわかりやすくなる。

また、音声入力手段から送られてくる音声信号が所定の基準値を逸脱している場合に、音声信号の波形の全体または基準値を逸脱している部分または基準値を逸脱していない部分の色を、前記音声信号が所定の基準値を逸脱していない場合の表示色から変更して表示するように構成したので、音声操作において、基準値を超えたか否かがわかりやすくなる。その結果、発話音量が大きすぎる、小さすぎる、または適正な音量であるということが、より理解しやすくなる。

さらに、表示させたい画像がある場合に、その画像に波形を重畳させて表示するように構成したので、例えば、カーナビゲーションシステムにおいて、地図上に波形を重ねて表示させることが可能になる。その結果、ユーザは、ナビゲーション機能が阻害されることなく音声波形を見ることができる。

実施の形態２．
この発明の実施の形態２に係る音声認識装置は、発話された音声の周波数または変化量に応じて色が変更された音声波形を出力するようにしたものである。

この発明の実施の形態２に係る音声認識装置の構成は、図１に示した実施の形態１に係る音声認識装置の構成と同じである。

次に、この発明の実施の形態２に係る音声認識装置の動作を、図４に示すフローチャートを参照しながら説明する。この音声認識装置のメイン処理は、図２に示した実施の形態１に係る音声認識装置のメイン処理と同じであり、メイン処理のステップＳＴ１５で実行される表示データ作成処理の内容のみが実施の形態１に係る音声認識装置と相違する。以下では、相違する表示データ作成処理についてのみ説明する。

表示データ作成処理では、まず、色情報の取得が行われる（ステップＳＴ３１）。すなわち、表示データ作成手段９は、設定条件格納手段６から色情報を取得する。ここで、実施の形態２における色情報は、入力される音声信号の周波数または変化量により応じて変化させるべき色を規定する情報である。

次いで、入力された音声信号の周波数算出または変化量算出が行われる（ステップＳＴ３２）。すなわち、入力信号解析手段８に含まれる周波数算出部（図示しない）は、入力された音声信号の周波数を周知の方法により算出する。または、入力信号解析手段８に含まれる変化量算出部（図示しない）は、入力された音声信号の変化量を周知の方法により算出する。この発明の算出手段は、周波数算出部または変化量算出部によって構成されている。この周波数算出部で算出された周波数を表すデータまたは変化量算出部で算出された変化量を表すデータは、表示データ作成手段９に送られる。

次いで、音声波形の色を変更する処理が行われる（ステップＳＴ３３）。すなわち、表示データ作成手段９は、周波数算出部で算出された周波数を表すデータまたは変化量算出部で算出された変化量を表すデータとステップＳＴ３１で取得した色情報と照合し、合致する色情報によって指定される色に音声波形を変化させた表示データを作成する。その後、シーケンスはメイン処理に戻る。

以上説明したように、この発明の実施の形態２に係る音声認識装置によれば、ユーザは、音声操作を行う場合に、発話した音声の高低を知ることができるので、見た目が楽しいという効果が得られる。

実施の形態３．
この発明の実施の形態３に係る音声認識装置は、リアルタイムで表示される音声波形を手動で停止させることができるようにしたものである。

この発明の実施の形態３に係る音声認識装置の構成は、図１に示した実施の形態１に係る音声認識装置の構成と同じである。

次に、この発明の実施の形態３に係る音声認識装置の動作を、図５に示すフローチャートを参照しながら説明する。図５は、この発明の実施の形態３に係る音声認識装置のメイン処理を示すフローチャートである。この音声認識装置では、まず、ユーザが音声操作を行うための発話を行うと、音声入力が行われる（ステップＳＴ４１）。すなわち、音声入力手段２は、ユーザによって発話された音声を電気信号に変換し、アナログの音声信号として音声認識処理装置１の入力信号解析手段８を構成する音声分析部１４に送る。次いで、入力信号変換が行われる（ステップＳＴ４２）。すなわち、音声分析部１４は、音声入力手段２から送られてきたアナログの音声信号を、音声認識処理が可能な形式のデジタル信号に変換し、設定条件判定部１５および設定条件付加部１６を介して表示データ作成手段９に送る。

次いで、キー入力があったかどうかが調べられる（ステップＳＴ４３）。すなわち、表示データ制御手段１０は、手動入力手段３から停止を指示するキー入力信号が送られてきたかどうかを調べる。ここで、キー入力がなかったことが判断されると、次いで、表示データ作成処理が実行される（ステップＳＴ４４）。この場合、表示データ制御手段１０は、キー入力がなかったことを判断すると、表示データ作成手段９で作成された表示データを、そのまま表示データ出力手段１１に送るように設定する。このステップＳＴ４４の処理は、図２のステップＳＴ１５の処理と同じである。次いで、作成された表示データに基づき表示が行われる（ステップＳＴ４５）。このステップＳＴ４５の処理は、図２のステップＳＴ１６の処理と同じである。その後、シーケンスはステップＳＴ４３に戻り、上述した処理が繰り返される。

このステップＳＴ４３〜ＳＴ４５の繰り返し実行の途中で、ステップＳＴ４３において、キー入力があったことが判断されると、次いで、キー入力時の表示データが取得される（ステップＳＴ４６）。すなわち、表示データ制御手段１０は、キー入力信号が手動入力手段３から送られてきた時点において、表示データ作成手段９から送られてきた表示データを取得し、リアルタイムに行われる更新を停止する。次いで、ステップＳＴ４６で取得された表示データの表示が行われる（ステップＳＴ４７）。すなわち、表示データ制御手段１０は、取得した表示データを表示データ出力手段１１に送る。これにより、静止した音声の波形（リアルタイムで更新されない音声の波形）が表示手段５の画面に表示される。

以上説明したように、この発明の実施の形態３に係る音声認識装置によれば、音声操作において、ユーザが手動入力手段３を操作することにより、音声波形を停止させて表示させることができるので、発話している間はリアルタイムで変化する音声波形を見るより見やすくなる。

実施の形態４．
この発明の実施の形態４に係る音声認識装置は、リアルタイムで表示される音声波形を音声が入力されてから所定時間後に停止させることができるようにしたものである。

この発明の実施の形態４に係る音声認識装置の構成は、図１に示した実施の形態１に係る音声認識装置の構成と同じである。

次に、この発明の実施の形態４に係る音声認識装置の動作を、図６に示すフローチャートを参照しながら説明する。図６は、この発明の実施の形態４に係る音声認識装置のメイン処理を示すフローチャートである。この音声認識装置では、まず、ユーザが音声操作を行うための発話を行うと、音声入力が行われ（ステップＳＴ５１）、次いで、入力信号変換が行われる（ステップＳＴ５２）。これらステップＳＴ５１およびＳＴ５２の処理は、図５に示したステップＳＴ４１およびＳＴ４２の処理とそれぞれ同じである。

次いで、設定時間情報が取得される（ステップＳＴ５３）。すなわち、表示データ作成手段９は、設定条件格納手段６から設定時間情報Ｔを取得する。ここで、設定時間情報Ｔは、発話開始から波形を停止させるまでの時間を規定する情報である。次いで、設定時間情報Ｔがゼロであるかどうかが調べられる（ステップＳＴ５４）。そして、設定時間情報Ｔがゼロでないことが判断されると、設定時間情報Ｔがａ（ａは任意の正の値）だけ減算される（ステップＳＴ５５）。これらステップＳＴ５４およびＳＴ５５の処理は、表示データ制御手段１０によって行われる。

次いで、表示データ作成処理が実行される（ステップＳＴ５６）。この場合、表示データ制御手段１０は、設定時間情報Ｔがゼロでなかったことを判断すると、表示データ作成手段９で作成された表示データを、そのまま表示データ出力手段１１に送るように設定する。このステップＳＴ５６の処理は、図２のステップＳＴ１５の処理と同じである。次いで、作成された表示データに基づき表示が行われる（ステップＳＴ５７）。このステップＳＴ５７の処理は、図２のステップＳＴ１６の処理と同じである。その後、シーケンスはステップＳＴ５４に戻り、上述したステップＳＴ５４〜ＳＴ５７の処理が繰り返される。この発明の計時手段は、ステップＳＴ５４〜ＳＴ５７の処理により実現されている。

これらステップＳＴ５４〜ＳＴ５７の処理の繰り返し実行の途中で、ステップＳＴ５４において、設定時間情報Ｔがゼロになったことが判断されると、次いで、設定時間情報Ｔがゼロになった時の表示データが取得される（ステップＳＴ５８）。すなわち、表示データ制御手段１０は、設定時間情報Ｔがゼロになったことを判断した時点において、表示データ作成手段９から送られてきた表示データを取得し、リアルタイムに行われる更新を停止する。次いで、ステップＳＴ５８で取得された表示データの表示が行われる（ステップＳＴ５９）。すなわち、表示データ制御手段１０は、取得した表示データを表示データ出力手段１１に送る。これにより、静止した音声の波形（リアルタイムで更新されない音声の波形）が表示手段５の画面に表示される。

以上説明したように、この発明の実施の形態４に係る音声認識装置によれば、音声操作において、ユーザが発話してから所定時間経過後に音声波形を停止させて表示させることができるので、発話している間はリアルタイムで変化する音声波形を見るよりは見やすくなる。

実施の形態５．
この発明の実施の形態５に係る音声認識装置は、表示画面を分割して一方に画像を他方に音声波形を表示させるようにしたものである。

この発明の実施の形態５に係る音声認識装置の構成は、図１に示した実施の形態１に係る音声認識装置の構成と同じである。

次に、この発明の実施の形態５に係る音声認識装置の動作を、図７に示すフローチャートを参照しながら説明する。この音声認識装置のメイン処理は、図２に示した実施の形態１に係る音声認識装置のメイン処理と同じであり、メイン処理のステップＳＴ１５で実行される表示データ作成処理の内容のみが実施の形態１に係る音声認識装置と相違する。以下では、相違する表示データ作成処理についてのみ説明する。

表示データ作成処理では、まず、画像情報の取得が行われる（ステップＳＴ６１）。すなわち、表示データ作成手段９は、画像格納手段７から画像情報を取得する。ここでは、画像情報は、地図データであるものとする。次いで、画面の表示領域の分割が行われる（ステップＳＴ６２）。すなわち、表示データ作成手段９は、表示データを一時格納するための表示領域（図示は省略する）を２個に分割する。次いで、各表示領域の表示データが作成される（ステップＳＴ６３）。すなわち、表示データ作成手段９は、２個に分割された表示領域の一方にステップＳＴ６１で取得した画像情報（地図データ）を格納し、他方に音声波形を格納して表示データを作成する。その後、シーケンスはメイン処理に戻る。以上のようにして表示データが作成されることにより、例えば図１２に示すように、２分割された表示手段５の画面の一方（左画面）に地図が表示され、他方（右画面）に音声波形が表示される。

以上説明したように、この発明の実施の形態５に係る音声認識装置によれば、表示させたい画像と波形とを別の画面上の領域に表示するように構成したので、画像と波形が重なることがなく、見やすいという利点がある。

なお、上述した実施の形態５では、画面を２分割する場合について説明したが、画面の分割数は任意であり、また、画像および波形を表示させる表示領域も任意に選ぶことができる。

この発明の実施の形態１に係る音声認識装置の構成を示すブロック図である。この発明の実施の形態１に係る音声認識装置のメイン処理を示すフローチャートである。この発明の実施の形態１に係る音声認識装置で実行される表示データ作成処理の詳細を示すフローチャートである。この発明の実施の形態２に係る音声認識装置で実行される表示データ作成処理の詳細を示すフローチャートである。この発明の実施の形態３に係る音声認識装置のメイン処理を示すフローチャートである。この発明の実施の形態４に係る音声認識装置のメイン処理を示すフローチャートである。この発明の実施の形態５に係る音声認識装置で実行される表示データ作成処理の詳細を示すフローチャートである。この発明の実施の形態１に係る音声認識装置において音声波形が表示された例を示す図である。この発明の実施の形態１に係る音声認識装置において音声波形に認識結果を表す語彙が重畳されて表示された例を示す図である。この発明の実施の形態１に係る音声認識装置において音声波形にマークが重畳されて表示された例を示す図である。この発明の実施の形態１に係る音声認識装置において地図に音声波形が重畳されて表示された例を示す図である。この発明の実施の形態５に係る音声認識装置において音声波形と地図とが分割された画面に表示された例を示す図である。

符号の説明

１音声認識処理装置、２音声入力手段、３手動入力手段、４音声出力手段、５表示手段、６設定条件格納手段、７画像格納手段８入力信号解析手段、９表示データ作成手段、１０表示データ制御手段、１１表示データ出力手段、１２音声認識手段、１３認識結果出力手段、１４音声分析部、１５設定条件判定部、１６設定条件付加部、１７音声区間検出部、１８特徴パターン記憶部、１９認識計算部。

Claims

発話された音声を入力して音声信号を生成する音声入力手段と、
前記音声入力手段から送られてくる音声信号に基づいて音声認識を行う音声認識手段と、
前記音声入力手段から送られてくる音声信号の波形を表す表示データをリアルタイムで作成する表示データ作成手段と、
前記表示データ作成手段から送られてくる表示データに基づき表示を行う表示手段
とを備えた音声認識装置。
表示データ作成手段は、音声入力手段から送られてくる音声信号の波形に、音声認識手段で認識された語彙を重畳させた表示データを生成することを特徴とする請求項１記載の音声認識装置。
表示データ作成手段は、音声入力手段から送られてくる音声信号の波形に、音声認識手段による音声認識に好適な範囲を表す基準値を示すためのマークを重畳させた表示データをリアルタイムで作成することを特徴とする請求項１記載の音声認識装置。
表示データ作成手段は、音声入力手段から送られてくる音声信号が所定の基準値を逸脱している場合に、該音声信号の波形の全体または基準値を逸脱している部分または基準値を逸脱していない部分の色を、前記音声信号が所定の基準値を逸脱していない場合の表示色から変更した表示データをリアルタイムで作成することを特徴とする請求項１記載の音声認識装置。
音声入力手段から送られてくる音声信号の周波数または変化量を算出する算出手段を備え、
表示データ作成手段は、前記算出手段で算出された音声信号の周波数または変化量に応じて該音声信号の波形の色を変化させた表示データをリアルタイムで作成することを特徴とする請求項１記載の音声認識装置。
手動操作により入力を行う手動入力手段と、
前記手段入力手段からの入力に応答して、表示データ作成手段においてリアルタイムで作成された表示データを表示手段に送ることを停止させる表示データ制御手段
とを備えたことを特徴とする請求項１記載の音声認識装置。
音声入力手段に音声が入力されてからの経過時間を計時する計時手段と、
前記計時手段で所定時間が計時されたことに応答して、表示データ作成手段においてリアルタイムで作成された表示データを表示手段に送ることを停止させる表示データ制御手段
とを備えたことを特徴とする請求項１記載の音声認識装置。
画像情報を格納する画像格納手段を備え、
表示データ作成手段は、音声入力手段から送られてくる音声信号の波形を、前記画像格納手段から取得した画像情報に重畳させた表示データをリアルタイムで作成することを特徴とする請求項１記載の音声認識装置。
画像情報を格納する画像格納手段を備え、
表示データ作成手段は、音声入力手段から送られてくる音声信号の波形を表示手段の画面の一部に、前記画像格納手段から取得した画像情報に基づく画像を前記表示手段の他の一部に表示させる表示データをリアルタイムで作成することを特徴とする請求項１記載の音声認識装置。