JP3710493B2

JP3710493B2 - 音声入力装置及び音声入力方法

Info

Publication number: JP3710493B2
Application number: JP24505892A
Authority: JP
Inventors: 洋一貞本; 重宣瀬戸; 洋一竹林
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-09-14
Filing date: 1992-09-14
Publication date: 2005-10-26
Anticipated expiration: 2020-10-26
Also published as: JPH0695828A

Description

【０００１】
【産業上の利用分野】
本発明は、編集、翻訳、計算、描画、複写などのデータ処理の結果を視覚表示する手段およびステップを有する音声入力装置及び音声入力方法において、音声認識を利用した音声入力装置及び音声入力方法に関する。
【０００２】
【従来の技術】
従来、電話による問い合わせや計算機へのデータ入力システムなどの応用に音声入力によるインターフェースの実用化が成されているが、音声入力の方法が分かりにくかったり、誤認識が発生した場合の入力情報の訂正方法が分かりにくいために、使い勝手の悪いユーザインターフェースとなっていた。
【０００３】
また、近年電子計算機は、キーボード、マウス、マイクロフォン、イメージスキャナ、ペン入力などの複数の入力手段（マルチモーダルインターフェース）を装備し、様々な入力方法を可能にしている。そこで、従来のキーボードとマウスを用いた入力機能の一部または全部をマイクロフォンによる音声入力によっても可能とし、キーボード、マウス、マイクロフォンを併用した使い勝手の良いマルチモーダルなユーザインターフェースの要求が高まっている。例えば、ウィンドウシステムのボタンをマウスクリックだけでなく、ボタン上に表示されている文字を発声して入力を可能とするようなユーザインターフェースの要求が高まっている。
【０００４】
しかし、初心者が前述のキーボード、マウス、マイクロフォンを併用したシステムを使用した場合、音声入力対象文型、音声認識対象単語、連続／孤立発声、特定／不特定話者対象、音声認識辞書作成のための音声データ収集方法などの音声入力の利用に関連した制約情報についての予備知識が無いため、入力方法が解らず、戸惑ったり入力間違いを起こしていた。例えば、マイクロフォンによる音声入力の場合は、予め登録した入力単語についてのみ音声認識可能であるため、ユーザは音声入力対象単語を予め知って音声入力する必要があった。
【０００５】
さらに、音声認識のための認識辞書作成には、大量の音声データが必要であるため、画面に表示された全ての入力対象に対して、音声入力を支援できない場合もある。例えば、ウィンドウシステムの同じボタンアイテムであっても、音声によっても入力可能なものと不可能なものができることになり、ユーザは、音声入力可能なボタンアイテムを予め知ってボタンアイテム上に表示されている文字を発声する必要があった。とくに、初心者は、どのボタンアイテムが音声入力可能であるか解らず、戸惑ったり入力間違いを起こしていた。熟練した利用者でさえ、音声入力可能なボタンアイテムを自ら記憶していたり、さもなくば、音声入力対象単語の表などを見て確認する必要があった。そのため、利用者に負担がかかり使い勝手の悪いインターフェースであった。
【０００６】
【発明が解決しようとする課題】
このように従来の音声入力を用いたシステムでは、ユーザは、音声入力対象文型、音声認識対象単語、連続／孤立発声、特定／不特定話者対象、男性／女性話者対象、大人／子供話者対象、音声入力のＯＮ／ＯＦＦなどの音声入力の利用に関連した制約情報が解りにくく、戸惑ったり、入力間違いを起こしていた。
【０００７】
この発明はこのような従来の課題を解決するためになされたもので、その目的とするところは、音声入力の利用に関する制約情報を分かり易く表示し得る音声入力システムを提供することにある。
【０００８】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る音声入力装置及び音声入力方法は、音声を入力する入力手段と、入力音声と語彙との対応を示す音声認識辞書を、特定ユーザによる入力音声、及び不特定ユーザによる入力音声に区分して作成し、保存する音声認識辞書作成手段と、前記音声認識辞書作成手段にて作成された音声認識辞書に含まれる各語彙の、特定ユーザの入力音声についてのデータ数と、不特定ユーザの入力音声についてのデータ数との対応テーブルを作成し、入力音声の認識対象語彙を検出する音声入力制約情報管理手段と、前記対応テーブルに応じて前記認識対象語彙の表示を変更して表示する視覚表示手段と、を有している。
【０００９】
【作用】
本発明によれば、音声入力によってその命令実行、機能の選択、データ入力を支援する場合に、現在のシステムの内部状態を調べ、音声入力を利用する際の制約情報を分かりやすく表示するため、ユーザは一目で音声入力の際の制約条件や発声方法を理解することができる。
【００１０】
よって、ユーザは音声入力の利用に関連した制約情報が解らず戸惑ったり、入力間違いを起こすことなく、快適に音声入力機能を利用することができ、初心者にも使い易いヒューマンインターフェースが実現できる。
【００１１】
【実施例】
以下図面を参照しながら本発明の一実施例について説明する。図１は本発明の第１の実施例に係る音声入力システムの構成図である。同図において、音声入力部１を通じて音声は電気信号に変換され音声認識部２へ入力される。音声認識部２では、入力された音声を、例えば１２kHz の標本化周波数、１６bit の量子化ビット数のデジタル信号に変換し、例えば高速フーリエ変換による周波数分析により特徴パラメータ時系列を求め、さらに、例えば複合類似度法、HMM(Hidden Marcov Model)などの方式に基づき音声認識を行い、認識結果として尤度の最も高い語彙または文を応用データ処理部に出力する。
【００１２】
応用データ処理部４は、例えば、翻訳、計算、編集、描画、複写、予約、現金自動支払などの作業を支援するソフトウェアまたはシステムである。応用データ処理部４では、上記音声認識部からの入力に基づいて処理し、次にユーザに呈示する処理結果などの応答を表示制御部５へ出力し、例えば応用データ処理部４の要求する語彙の違いなどの入力情報の区分に基づいて予め設定された内部状態の情報を音声入力制約情報管理部３へ出力する。例えば、航空券の予約システムにおいて応用データ処理部の要求する入力が「行先」である状態から「出発時刻」である状態に変化した際には、「出発時刻」を入力する内部状態に変化したという情報を音声入力制約情報管理部３へ出力する。
【００１３】
音声入力制約情報管理部３では、応用データ処理部４の内部状態の変化情報により、例えば、表１のような内部状態−連続／孤立発声対応テーブルを検索して、現在、音声を連続発声で入力可能であるか、孤立発声する必要が有るのかを音声認識部２と表示制御部５へ出力する。
【００１４】
【表１】

表示制御部５では、応用データ処理部４からの処理結果と連続／孤立発声の区別を表す情報を表示部６に出力する。表示部６では、表示制御部５からの情報を画面表示し、とくに、現在、連続発声するのか、または孤立発声する必要があるのかを分かりやすく視覚表示する。
【００１５】
応用例として航空券の予約を応用データ処理部４が支援している場合について述べる。先ず、この装置を始動させた時、応用データ処理部４は、初期状態という情報を音声入力制約情報管理部３へ出力し、初期画面の表示情報を表示制御部５へ出力する。音声入力制約情報管理部３では、表１に示す内部状態−連続／孤立発声対応テーブルを検索し、初期状態の時、連続発声することが可能であるという情報を音声認識部２と表示制御部５へ出力する。表示制御部５では、応用データ処理部４からの表示情報と音声入力制約情報管理部３からの連続発声可能という情報を視覚表示する表示データを作成し、表示部６へ出力する。表示部６では、表２に示すように、予約／キャンセルと行き先と便番号などを選択させる表示と連続発声が可能であることの表示がなされる。
【００１６】
【表２】

ユーザは、予約またはキャンセルの選択と行き先／便番号を連続発声すれば良いことが一目で分かる。
【００１７】
次に、ユーザがニューヨーク行きの便を予約したい場合に「予約ニューヨーク」と発声した際、音声認識部２は、予め音声入力制約情報管理部３よりユーザが連続発声を行うことを知らされており、孤立ではなく連続発声に適した認識手法を用いて認識をより正確に行い、さらに「予約」、「ニューヨーク」という入力が応用データ処理部４に入力される。応用データ処理部４では、図２に示すように内部状態が航空券の出発の時刻を指定する状態に変り、前述と同様に、表２に示す時刻指定状態という内部状態に関する情報を音声入力制約情報管理部へ出力し、時刻指定画面の表示情報を表示制御部５へ出力する。そして、音声入力制約情報管理部３と表示制御部５が前述と同様の処理を行い、表３に示す便指定画面が表示される。
【００１８】
【表３】

なお、表３では月、日、時、分を音声を所定時間空白（無音）とすることで孤立発声を入力する例を示しているが、キー入力やマウスをクリックするなどして区切るようにしても良い。
【００１９】
このように、音声入力を連続発声可能であるか孤立発声を行う必要があるのかを画面上に表示することにより、ユーザは一目で音声の連続／孤立の発声方法の区別を理解することができるため、現在、連続／孤立どちらかの発声方法が適当であるか分からず戸惑ったり、発声方法を誤ったりすることがなくなり、使い勝手の良いインターフェースを構築できる。
【００２０】
次に、本発明の第２実施例について述べる。構成は、第１実施例と同様であるが、音声入力制約情報管理部は、内部状態−連続／孤立発声対応テーブルではなく、表４に示すような認識対象語彙が入力として受入れられるために必要な発声回数を設定した認識対象語彙−発声回数対応テーブルを管理している。
【００２１】
【表４】

音声入力部１と応用データ処理部４の処理の流れは、第１実施例と同様である。音声入力制約情報管理部３では、表４に示すような認識対象語彙−発声回数対応テーブルを参照し、現在の認識対象語彙が入力となるために必要な発声回数を音声認識部２と表示制御部５に出力し、音声認識部２は、各語彙が音声入力制約情報管理部３より入力された回数分連続して入力された場合に、応用データ処理部４へ認識結果としてその語彙を出力する。
【００２２】
応用データ処理部４では、処理結果などの応答を表示制御部５に出力し、内部状態の変化情報を音声入力制約情報管理部３に出力する。表示制御部５では、応用データ処理部４からの表示情報や、音声入力制約情報管理部３から入力された入力語彙の発声回数の区別を表す情報を表示部６に出力する。表示部６では、表示制御部５からの表示情報を画面表示し、とくに、現在、入力語彙の発声回数を分かりやすく視覚表示する。例えば、ユーザインターフェースとして確実性が要求される入力語彙を複数回発声するようにすると、より安定したインターフェースを実現できる。例えば、図３に示すように、１回の発声で入力できる語彙（「次画面」）は、その語彙の周囲を１重の枠で囲って表示し、２回発声する必要のある語彙（「終了」）は、その語彙の周囲を２重の枠で囲って表示することにより、ユーザは一目で入力対象語彙の発声回数が分かり、使い勝手の良いインターフェースとなる。
【００２３】
なお、図３では２重の枠によって２回発声を示すようにしたが、文字の表示や枠等に濃淡を付けて、濃い場合には大きい声で発声するよう指示する構成とすることもできる。また、発話回数分だけ「☆」や「＊」等の記号やマークを肩に表示する等、他の表示方法によっても発生回数を示すことが可能である。
【００２４】
また、ブザー等のオーディオ信号を断続して複数回出力し、音声入力繰り返し回数を指定することもできる。
【００２５】
次に、第３実施例について述べる。構成は、第１実施例と同様であるが、音声入力制約情報管理部３は、内部状態−連続／孤立発声対応テーブルではなく、表５に示すような数字入力方法テーブルを管理している。
【００２６】
【表５】

音声入力部１と応用データ処理部４の処理の流れは、第１実施例と同様である。
【００２７】
音声入力制約情報管理部３では、表５に示すような数字入力方法テーブルを参照し、複数桁の数字を音声入力する際の発声方法を音声認識部２と表示制御部５に出力する。例えば、応用データ処理部４の内部状態が暗証番号を入力する状態である場合、表５に示す数字入力方法テーブルを参照し、複数桁の数字を上位の桁から「イチ］「ニ」「サン］「ヨン」「シ」「ゴ］「ロク」「シチ」「ナナ］「ハチ」「キュウ」の１１種類の音声を用いて発声するという発声方法に関する制約情報（個別発声）を音声認識部２と表示制御部５に出力する。例えば、表６の例に示すように個別発生の場合ユーザは、８２１５という数字を「ハチニイチゴ」のように数字をそのまま１桁ずつ発声しなくてはならない。また、応用データ処理部４の内部状態が表７の例に示すように予約番号を入力する状態である場合は、数字入力方法テーブルを参照し、桁数を含んで複数桁の数字を発声するという発声方法に関する制約情報（複数桁発声）を音声認識部２と表示制御部５に出力する。この場合、ユーザは２５１という数字を「ニヒャクゴジュウイチ」のように発声しなくてはならない。同様に、両方を受け入れることを視覚表示することもできる。
【００２８】
音声認識部２は、数の認識において音声入力制約情報管理部３より入力された数字の発声方法に関する制約情報によって、音声認識辞書を選択して認識を行う。例えば、数字を１桁ずつ音声入力する場合（個別発声）と桁数を含んで数字を音声入力する場合（複数桁発声）を区別して、音声認識辞書を選択し認識を行う。これにより、数字の認識における曖昧性を減少させて認識を行うことが可能となるため認識性能を向上させることができる。
【００２９】
応用データ処理部４では、ユーザに呈示する処理結果などの応答を表示制御部５に出力し、内部状態の変化情報を音声入力制約情報管理部３に出力する。表示制御部５では、応用データ処理部４からの表示情報や音声入力制約情報管理部３から入力された数字入力の発声方法に関する制約情報に基づき、その区別を表す情報を表示部に出力する。表示部６では、表示制御部５からの表示情報を画面表示し、とくに、現在、数字の発声方法に関する制約情報を分かりやすく視覚表示する。例えば、表６に示すように、キャッシュカードの暗証番号を入力する状態では、複数桁の数字を上位の桁から「イチ］「ニ」「サン］「ヨン」「シ」「ゴ］「ロク」「シチ」「ナナ］「ハチ」「キュウ」の１１種類の音声を用いて発声するということを分かりやすく表示する。
【００３０】
【表６】

また、表７に示すように、予約番号を入力する状態では、数を含んで複数桁の数字を発声するということを分かりやすく表示する。
【００３１】
【表７】

これにより、ユーザは一目で数字を入力する際の発話方法が分かり、使い勝手の良いインターフェースとなり、さらに認識性能を向上させることができる。
【００３２】
次に、第４実施例について述べる。図４は本発明の第４実施例に係る音声入力システムの構成図を示す。第１実施例のうち応用データ処理部４の処理結果は表示されるのではなく、音声出力され、音声入力に関する制約情報である連続／孤立発声の区別を表す情報は第１実施例と同様に表示部６に表示される。処理の流れは、第１実施例と同様であるが、応用データ処理部４では処理結果を表示制御部５ではなく音声出力部７に出力する。これによって、電話による音声の認識、応答の確認が可能となる。
【００３３】
次に、第５実施例について述べる。図５は本発明の第５実施例に係る音声入力システムの構成図である。
【００３４】
音声入力部１を通じて音声は電気信号に変換され音声認識部２へ入力される。音声認識部２では、入力された音声を、例えば１２kHz の標本化周波数、１６bit の量子化ビット数のデジタル信号に変換し、例えば高速フーリエ変換による周波数分析により特徴パラメータ時系列を求め、さらに、例えば複合類似度法またはHMM(hidden marcov model)などの方式に基づき音声認識を行い、認識結果として尤度の最も高い語彙または文を応用データ処理部４に出力する。
【００３５】
入力情報制御部８では、音声認識部２からの認識結果やキーボード９やマウス１０からの入力情報を応用データ処理部４への入力データや制御信号に変換し、応用データ処理部４へ出力する。応用データ処理部４は、例えば翻訳、計算、編集、描画、複写などの作業を支援するソフトウェアまたはシステムである。応用データ処理部４では、上記入力情報制御部８からの入力データや制御信号を入力として処理を行い、ユーザに現在の状態で表示する画面や文章などの情報を表示制御部５に出力し、応用データ処理部４の内部状態の変化情報を音声入力制約情報管理部３に出力する。
【００３６】
音声入力制約情報管理部３では、図６に示すように、入力された応用データ処理部４の内部状態の変化情報を用いて表８のような内部状態−音声入力対象語彙対応テーブルを検索し、現在の応用データ処理部４の内部状態での音声認識対象語彙を検出する。
【００３７】
【表８】

次に、現在の音声入力対象語彙を音声認識部２へ出力し、現在の応用データ処理部４の内部状態の情報を表示制御部５へ出力する。
【００３８】
表示制御部５では、例えば表９に示すような入力対象表示管理テーブルを保持している。
【００３９】
【表９】

入力対象表示管理テーブルとは、応用データ処理部４の内部状態に応じて表示される画面、その画面で表示される語彙、その語彙をどのメディアで入力可能であるかという情報、その語彙が表示される対象などの情報を保持している。例えば、表９の入力対象表示管理テーブルの「編集」という語彙については、初期状態の画面で、マウスまたは音声で入力することが可能であり、ボタンアイテム上に表示されているという情報を保持している。表示制御部５では、応用データ処理部４からの画面表示に関する情報を画面表示データに変換する際、上記入力対象管理テーブルにおいて音声入力制約情報管理部３から入力された現在の応用データ処理部４の内部状態の画面で音声を入力メディアとする表示対象（例えば、ボタンアイテム）の色、形状、背景色、周囲の図形、フォントなどを、音声を入力メディアとしない表示対象と区別して表示するように制御し、そのデータを表示部６へ出力する。表示部６では、例えばＣＲＴディスプレイのように入力された画面表示データをユーザに表示する。
【００４０】
文章の編集作業を応用データ処理部４が支援している場合について述べる。先ず、この装置を始動させた時、応用データ処理部４は、初期状態という情報を音声入力制約情報管理部３へ出力し、初期画面の表示情報を表示制御部５へ出力する。音声入力制約情報管理部３では、表８に示す内部状態−音声入力対象語彙対応テーブルを検索し、初期状態の時の音声認識対象語彙「編集」、「レイアウト」、「出力」、「終了」を音声認識部２と表示制御部５に出力する。
【００４１】
表示制御部５では、表９に示すような入力対象表示管理テーブルの初期画面の語彙の中で、音声入力制約情報管理部３より入力された「編集」、「レイアウト」、「出力」、「終了」の入力メディアの音声の項目を入力可能（ＯＫ）となるように修正する。次に、入力対象表示管理テーブルを参照して、初期画面の入力メディアの中で音声を入力可能としている表示対象である「編集」、「レイアウト」、「出力」、「終了」のマウスボタン上の文字を赤色で表示し、その他の表示対象である「文書名」を黒色で表示するように制御し、表示データを表示部に出力する。図７に示すように初期状態の表示画面の４つのボタン「編集」、「レイアウト」、「出力」、「終了」の文字が赤色で表示され、他の文字の黒色と一目で区別できる。ユーザは、赤色の文字で表示されている語彙は音声で入力でき、黒色で表示されているものはマウスかキーボードで入力すれば良いことが分かる。
【００４２】
この初期状態で、ユーザが、文書名をマウスを用いて選択すると、その文書名が入力情報制御部８へ出力される。次に、「編集」と発声すると音声認識部２での認識結果「編集」が入力情報制御部８へ出力される。入力情報制御部８では、選択された文書名と編集のボタンアイテムをマウスクリックした場合と同じ制御信号を応用データ処理部４に出力する。そして、応用データ処理部４では、内部状態が編集状態に変り、前述と同様に編集状態という情報を音声入力制約情報管理部３へ出力し、編集画面の表示情報を表示制御部５へ出力する。音声入力制約情報管理部３と表示制御部５が前述と同様の処理を行い、図８に示す文章編集の画面が表示される。
【００４３】
このように、音声入力を支援している語彙の画面上の表示色を音声入力を支援していない語彙と区別して表示することにより、ユーザは一目で音声入力可能な語彙を理解することができるため、どの語彙が音声入力可能であるか分からず戸惑ったり、音声認識対象外の語彙を発声したりすることがなくなり、使い勝手の良いインターフェースを構築できる。さらに、音声認識部２は、現在の入力対象語彙にしぼって、音声標準パターンとの照合を行えるため、認識性能は向上する。
【００４４】
また、使用頻度の高い語彙は音声入力とし、使用頻度の低い語彙をボタン入力とする構成としても良い。
【００４５】
次に、第６実施例について述べる。第５実施例のうち音声入力対象語彙と対象外語彙の表示色ではなく背景テクスチャを区別する。処理の流れは、第４実施例と同様である。例えば、図９のように音声入力可能なボタンアイテムはテクスチャにより分かりやすく表示される。
【００４６】
次に、第７実施例について述べる。図１０は本発明の第７実施例に係る音声入力システムの構成図である。
【００４７】
第５実施例の構成に、音声認識辞書作成部１２が加わる。音声認識辞書作成部１２では、予めシステムが保持している不特定ユーザの音声データと特定のユーザが入力した音声データを管理し、管理している音声データを用いて音声認識辞書を作成し、音声認識部２に認識辞書を出力する。さらに、音声認識辞書作成部１２では、認識辞書を作成した音声データ中の不特定ユーザのデータ数と特定ユーザのデータ数を音声入力制約情報管理部３へ出力する。
【００４８】
入力情報制御部８、応用データ処理部４の処理の流れは、第５実施例と同様であるが、音声入力制約情報管理部３では音声認識辞書作成部１２からの認識辞書を作成した音声データの情報に基づいて表１０に示す特定／不特定辞書作成データ数テーブルを作成する。
【００４９】
【表１０】

また、音声入力制約情報管理部３では、表１０に示す特定／不特定辞書作成データ数テーブルを参照して、表示制御部５に現在の応用データ処理部４の内部状態の情報と各認識対象語彙の認識辞書を作成する際に用いた不特定話者の音声データ数とユーザの音声データ数を表示制御部５に出力し、音声認識部２に現在の認識対象語彙を出力する。
【００５０】
表示制御部５では、上記入力対象管理テーブルを検索し、現在の音声入力対象となる語彙について、（ユーザの音声データ数）／（不特定話者の音声データ数）が大きいほどその語彙が表示されているボタンアイテムの表示色が濃くなるように制御し、表示データを表示部６に出力する。表示部６では、例えば、図１１に示すように（ユーザの音声データ数）／（不特定話者の音声データ数）＝１．２の「コピー」は、濃い色で表示され、（ユーザの音声データ数）／（不特定話者の音声データ数）＝０．１の「ペースト」は、薄い色で表示される。これにより、ユーザは各語彙の認識辞書がどの程度の割合で自分の音声によって訓練されているかを一目で理解することができる。したがって、ユーザが自分の音声による辞書の訓練の割合が小さい語彙の認識性能が良くない場合、認識性能の向上の手段として自分の音声データを追加して辞書を作り直せば、認識性能が向上することが分かる。
【００５１】
また、２人のユーザにそれぞれ赤と青の色を割り当て、各ユーザの使用頻度によって表示色を変化させても良い。例えば、ユーザＡに対して「赤」、ユーザＢに対して「青」を割り当てたとすると、ユーザＡが頻繁に使用する語彙は赤色、ユーザＢが頻繁に使用する語彙は青色に変化させる。そして、赤色になった語彙はユーザＡにとって認識し易いように設定し、反対に青色になった語彙はユーザＢにとって認識し易いように設定する。これによって、より使い勝手のよいインターフェースを構築することができる。
【００５２】
次に、第８実施例について述べる。図１２は本発明の第８実施例に係る音声入力システムの構成図である。
【００５３】
第５実施例の構成に、音声データ管理部１３が加わる。音声データ管理部１３では、特定のユーザが入力あるいは予め登録した音声データとそれらの音声データの発声内容（語彙）、及びその語彙が入力可能となる応用データ処理部４の内部状態の情報を管理している。音声データ管理部１３では、音声データを音声認識部２に出力し、さらに、その語彙が入力可能となる応用データ処理部４の内部状態と音声データの発声内容（語彙）を音声入力制約情報管理部３へ出力する。音声入力制約情報管理部３では、表８に示したような内部状態−音声入力対象語彙対応テーブルを参照して、音声データ管理部１３から入力された応用データ処理部４の内部状態で認識対象となる語彙を音声認識部２へ出力し、音声認識部２での認識結果と音声データ管理部１３より入力した発声内容とを照らし合わせて、語彙ごとの認識率を算出し、表１１に示すような認識率テーブルを作成する。
【表１１】

また、音声入力部１から音声認識部２へ入力された音声は第５実施例と同様に処理され、入力情報制御部８、応用データ管理部４の処理の流れも第５実施例と同様である。音声入力制約情報管理部３では表１１に示すような上記認識率テーブルを参照し、表示制御部５に現在の応用データ処理部４の内部状態の情報と各認識対象語彙の認識率を表示制御部５に出力し、音声認識部２に現在の認識対象語彙を出力する。表示制御部５では、認識対象語彙が表示されているボタンアイテムの表示色が認識率により区別されるよう制御し、表示データを表示部に出力する。例えば、認識率が８０％未満の語彙のボタンアイテムは赤色、８０％以上９０％未満の語彙のボタンアイテムは黄色、９０％以上９５％未満の語彙のボタンアイテムは薄い黄色、９５％以上の語彙のボタンアイテムは青色で表示するように制御する。表示部６では、例えば、図１３に示すように認識率７５％の「書式」のボタンアイテムは赤色、認識率８０％台の「ペースト」、「セーブ」のボタンアイテムは黄色、認識率９３％の「カット」と「フォント」のボタンアイテムは薄い黄色、認識率９５％以上の他の語彙のボタンアイテムは青色で表示される。これにより、ユーザは各語彙の認識性能を一目で理解することができ、認識性能の良くない語彙の認識性能を向上させるように認識辞書を学習させるか、あるいは、その語彙は音声入力せず、マウスによって選択すればよいことが分かり、入力誤りを未然に防ぐことができる。
【００５４】
次に、第９実施例について述べる。図１４は本発明の第９実施例に係る音声入力システムの構成図である。
【００５５】
第５実施例の構成に、音声認識辞書管理部１４が加わる。音声認識辞書管理部１４は、例えば、発声者の性別、年齢などの特徴の異なる複数の音声認識辞書を管理し、音声認識部２から入力される辞書の選択要求に適した認識辞書を音声認識部２に出力する。
【００５６】
音声入力部１の処理の流れは、第５実施例と同様であるが、音声認識部２では、認識の際に用いる辞書を音声入力制約情報管理部３から入力される辞書の選択要求に基づいて音声認識辞書管理部３から入力し、第５実施例と同様に認識処理を行う。入力情報制御部８の処理の流れは第５実施例と同様である。応用データ処理部４では、第５実施例と処理の流れは同様であるが、入力情報制御部８から音声認識辞書を選択する入力の場合は、音声入力制約情報管理部３へ内部状態の変化情報と選択された音声認識辞書の情報を出力する。音声入力制約情報管理部３では、第５実施例と同様に現在の認識対象単語を音声認識部２と表示制御部５に出力し、さらに、音声認識辞書の選択に関する入力があった場合は、表１２のような認識辞書属性テーブルを参照して、認識辞書のＩＤ番号を音声認識部に出力する。例えば、図１６のように音声認識辞書を選択する画面が表示されており、ユーザが現在と異なった認識辞書を使用するために「男性青年用」と音声入力あるいはマウスによって選択した場合について説明する。この場合、音声入力制約情報管理部では、表１２に示すような認識辞書属性テーブルを参照し性別が男性で年齢が青年（１８〜３５才）の認識辞書番号" １" を音声認識部に出力し、さらに、認識辞書番号" １" の辞書が選択されたことを認識辞書属性テーブルに記録する。
【００５７】
【表１２】

表示制御部５、表示部の処理の流れは、第５実施例と同様である。例えば、図１５に示すように初期画面に" 音声認識辞書を選択" する機能を有するボタンアイテムをマウスクリックあるいは音声入力すると図１６に示すような音声認識辞書を選択する画面が表示される。ユーザは、自分の性別、年齢に適した辞書を選択し、認識に用いることができる。また、ユーザは、例えば自分の声質が年齢よりも若い場合にも、自分の年齢よりも若い発声者の音声データによって作成された辞書を選択することも可能となる。
【００５８】
このように、ユーザの声質に適した認識辞書を選択することが可能となるため、音声認識誤りを減少させることができ、使い勝手の良いインターフェースを実現できる。なお、属性の分類の方法は表１２の例に限らず、階層化することも可能である。例えば、「全体」、「大人」、「大人の女性」……等に分類しても良い。
【００５９】
次に、第１０実施例について述べる。構成は、第１実施例と同様であるが、音声入力制約情報管理部３は、内部状態−連続／孤立発声対応テーブルではなく、表１３に示すような内部状態−自由／制限発話テーブルを保持している。
【００６０】
【表１３】

内部状態−自由／制限発話対応テーブルは、語順の変化、省略表現、「えー」「あの」のような発話内容に関係の無い言葉（不要語）を含むような自由発話を入力とする応用データ処理部４の内部状態と、システムの指定した語順で一字一句間違えないように発話する必要がある内部状態を区別して管理している。処理の流れは、第１実施例と同様であるが、音声入力制約情報管理部３では、表１３に示すような内部状態−自由／制限発話対応テーブルを参照し、現在の内部状態で上述の自由発話による入力が可能であるか（自由発話）、またはシステムの指定した語順で一字一句間違えないように発話する必要があるか（制限発話）を、音声認識部２と表示制御部５に出力する。
【００６１】
音声認識部２では、自由発話を理解する場合には、例えば入力音声に対してキーワードスポッティングに基づいた単語検出を行い、検出された時間離散的な単語系列に構文的制約情報を用いて文として成り立つ系列を抽出し、発話の意味内容を理解する。一方、システムの指定した語順で一字一句間違えないように発声された発話を理解する場合には、認識した語句を予めユーザに指定した語順に従って組み合わせて文を構成し、発話を理解する。次に、理解した発話内容を応用データ処理部４へ認識結果として出力する。
【００６２】
応用データ処理部４では、処理結果などの応答を表示制御部５に出力し、内部状態の変化情報を音声入力制約情報管理部３に出力する。表示制御部５では、応用データ処理部４からの表示情報や、音声入力制約情報管理部３から入力された自由／制限発話の区別を表す表示情報を表示部６に出力する。表示部６では、表示制御部５からの表示情報を画面表示する際、とくに、現在、システムの指定した語順で一字一句間違えないように発話する必要がある場合は、入力形式を分かりやすく視覚表示する。
【００６３】
例えば、表１４に示すように、航空機の座席を指定する場合、喫煙／非喫煙、ファースト／ビジネスクラス、窓側／通路側などの希望を、語順の変化、省略表現、不要語を含んだ自由な発話で入力が行えるため、入力方法について特別な表示は行わない。
【００６４】
【表１４】

しかし、表１５に示すようにニューヨークのホテルを予約する場合は、「（ホテル名）に（日数）滞在したい」などのように、希望のホテル名や滞在日数を予め設定した語順で入力する必要があることを分かりやすく表示する。
【００６５】
【表１５】

このように、自由発話／制限発話の区別を分かりやすく視覚表示することにより、ユーザは一目で入力発話形式を理解でき、使い勝手の良いインターフェースを実現できる。
【００６６】
以上説明したように、本発明では、入力手段により音声入力、或いは他の入力手段による入力操作のうちの、入力可能である方を示す選択情報を設定し、これを視覚表示手段に表示している。従って、ユーザは一目で音声入力の際の制約条件や発声方法を理解することができる。よって、ユーザは音声入力の利用に関連した制約情報が分からず戸惑ったり、入力間違いを起こすことなく、快適に音声入力機能を利用することができ、初心者にも使い易いヒューマンインターフェースが実現できる。
【図面の簡単な説明】
【図１】本発明が適用された音声入力システムの第１実施例の構成を示すブロック図である。
【図２】応用データ処理部での処理手順を示すフローチャートである。
【図３】航空券予約システムの画面例を示す図である。
【図４】本発明の第４実施例の構成を示すブロック図である。
【図５】本発明の第５実施例の構成を示すブロック図である。
【図６】音声入力制約情報管理部での動作を示すフローチャートである。
【図７】文字表示色を変化させた初期画面の例を示す説明図である。
【図８】文書編集画面の例を示す説明図である。
【図９】テクスチャを変化させた初期画面の例を示す説明図である。
【図１０】本発明の第７実施例の構成を示すブロック図である。
【図１１】文書編集画面の例を示す説明図である。
【図１２】本発明の第８実施例の構成を示すブロック図である。
【図１３】文書編集画面の例を示す説明図である。
【図１４】本発明の第９実施例の構成を示すブロック図である。
【図１５】音声認識辞書を選択可能としたときの初期画面の例を示す説明図である。
【図１６】音声認識辞書の選択の画面例を示す説明図である。
【符号の説明】
１音声入力部
２音声認識部
３音声入力制約情報管理部
４応用データ処理部
５表示制御部
６表示部
７音声出力部
８入力情報制御部
１２音声認識辞書作成部
１３音声データ管理部
１４音声認識辞書管理部

Claims

音声を入力する入力手段と、
入力音声と語彙との対応を示す音声認識辞書を、特定ユーザによる入力音声、及び不特定ユーザによる入力音声に区分して作成し、保存する音声認識辞書作成手段と、
前記音声認識辞書作成手段にて作成された音声認識辞書に含まれる各語彙の、特定ユーザの入力音声についてのデータ数と、不特定ユーザの入力音声についてのデータ数との対応テーブルを作成し、入力音声の認識対象語彙を検出する音声入力制約情報管理手段と、
前記対応テーブルに応じて前記認識対象語彙の表示を変更して表示する視覚表示手段と、
を具備することを特徴とする音声入力装置。
前記対応テーブルにて設定された、各語彙に対する特定ユーザの入力音声についてのデータ数と、不特定ユーザの入力音声についてのデータ数との比率に応じて、前記視覚表示手段に表示する各語彙の表示色、または背景色を変更することを特徴とする請求項１に記載の音声入力装置。
音声を入力する入力手段と、
特定ユーザに対し、入力音声と語彙との対応を設定する音声データ管理手段と、
前記音声データ管理手段にて設定された語彙と入力音声との対応関係に基づいて、各語彙とその認識率の対応を示す認識率テーブルを作成し、入力音声の認識対象語彙を検出する音声入力制約情報管理手段と、
前記認識率テーブルに応じて前記認識対象語彙の表示を変更して表示する視覚表示手段と、
を具備することを特徴とする音声入力装置。
前記認識率テーブルに設定された、各語彙に対する認識率に応じて、前記視覚表示手段に表示する各語彙の表示色、または背景色を変更することを特徴とする請求項３に記載の音声入力装置。
更に、前記音声入力制約情報管理手段は、前記入力手段による音声入力、或いは他の入力手段による入力操作のうちの、入力可能である方を示す選択情報を設定し、前記視覚表示手段は前記選択情報を表示することを特徴とする請求項１〜請求項４のいずれか１項に記載の音声入力装置。
前記視覚表示手段に表示する前記選択情報は表示色または背景色の少なくとも一方を変化させることで入力可能な方を示すことを特徴とする請求項５に記載の音声入力装置。
音声を入力するステップと、
入力音声と語彙との対応を示す音声認識辞書を、特定ユーザによる入力音声、及び不特定ユーザによる入力音声に区分して作成し、保存するステップと、
前記音声認識辞書に含まれる各語彙の、特定ユーザの入力音声についてのデータ数と、不特定ユーザの入力音声についてのデータ数との対応テーブルを作成し、入力音声の認識対象語彙を検出するステップと、
前記対応テーブルに応じて前記認識対象語彙の表示を変更して表示するステップと、
を具備することを特徴とする音声入力方法。