JP3710493B2 - 音声入力装置及び音声入力方法 - Google Patents

音声入力装置及び音声入力方法 Download PDF

Info

Publication number
JP3710493B2
JP3710493B2 JP24505892A JP24505892A JP3710493B2 JP 3710493 B2 JP3710493 B2 JP 3710493B2 JP 24505892 A JP24505892 A JP 24505892A JP 24505892 A JP24505892 A JP 24505892A JP 3710493 B2 JP3710493 B2 JP 3710493B2
Authority
JP
Japan
Prior art keywords
input
voice
speech
vocabulary
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24505892A
Other languages
English (en)
Other versions
JPH0695828A (ja
Inventor
洋一 貞本
重宣 瀬戸
洋一 竹林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP24505892A priority Critical patent/JP3710493B2/ja
Publication of JPH0695828A publication Critical patent/JPH0695828A/ja
Application granted granted Critical
Publication of JP3710493B2 publication Critical patent/JP3710493B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Digital Computer Display Output (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、編集、翻訳、計算、描画、複写などのデータ処理の結果を視覚表示する手段およびステップを有する音声入力装置及び音声入力方法において、音声認識を利用した音声入力装置及び音声入力方法に関する。
【0002】
【従来の技術】
従来、電話による問い合わせや計算機へのデータ入力システムなどの応用に音声入力によるインターフェースの実用化が成されているが、音声入力の方法が分かりにくかったり、誤認識が発生した場合の入力情報の訂正方法が分かりにくいために、使い勝手の悪いユーザインターフェースとなっていた。
【0003】
また、近年電子計算機は、キーボード、マウス、マイクロフォン、イメージスキャナ、ペン入力などの複数の入力手段(マルチモーダルインターフェース)を装備し、様々な入力方法を可能にしている。そこで、従来のキーボードとマウスを用いた入力機能の一部または全部をマイクロフォンによる音声入力によっても可能とし、キーボード、マウス、マイクロフォンを併用した使い勝手の良いマルチモーダルなユーザインターフェースの要求が高まっている。例えば、ウィンドウシステムのボタンをマウスクリックだけでなく、ボタン上に表示されている文字を発声して入力を可能とするようなユーザインターフェースの要求が高まっている。
【0004】
しかし、初心者が前述のキーボード、マウス、マイクロフォンを併用したシステムを使用した場合、音声入力対象文型、音声認識対象単語、連続/孤立発声、特定/不特定話者対象、音声認識辞書作成のための音声データ収集方法などの音声入力の利用に関連した制約情報についての予備知識が無いため、入力方法が解らず、戸惑ったり入力間違いを起こしていた。例えば、マイクロフォンによる音声入力の場合は、予め登録した入力単語についてのみ音声認識可能であるため、ユーザは音声入力対象単語を予め知って音声入力する必要があった。
【0005】
さらに、音声認識のための認識辞書作成には、大量の音声データが必要であるため、画面に表示された全ての入力対象に対して、音声入力を支援できない場合もある。例えば、ウィンドウシステムの同じボタンアイテムであっても、音声によっても入力可能なものと不可能なものができることになり、ユーザは、音声入力可能なボタンアイテムを予め知ってボタンアイテム上に表示されている文字を発声する必要があった。とくに、初心者は、どのボタンアイテムが音声入力可能であるか解らず、戸惑ったり入力間違いを起こしていた。熟練した利用者でさえ、音声入力可能なボタンアイテムを自ら記憶していたり、さもなくば、音声入力対象単語の表などを見て確認する必要があった。そのため、利用者に負担がかかり使い勝手の悪いインターフェースであった。
【0006】
【発明が解決しようとする課題】
このように従来の音声入力を用いたシステムでは、ユーザは、音声入力対象文型、音声認識対象単語、連続/孤立発声、特定/不特定話者対象、男性/女性話者対象、大人/子供話者対象、音声入力のON/OFFなどの音声入力の利用に関連した制約情報が解りにくく、戸惑ったり、入力間違いを起こしていた。
【0007】
この発明はこのような従来の課題を解決するためになされたもので、その目的とするところは、音声入力の利用に関する制約情報を分かり易く表示し得る音声入力システムを提供することにある。
【0008】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る音声入力装置及び音声入力方法は、音声を入力する入力手段と、入力音声と語彙との対応を示す音声認識辞書を、特定ユーザによる入力音声、及び不特定ユーザによる入力音声に区分して作成し、保存する音声認識辞書作成手段と、前記音声認識辞書作成手段にて作成された音声認識辞書に含まれる各語彙の、特定ユーザの入力音声についてのデータ数と、不特定ユーザの入力音声についてのデータ数との対応テーブルを作成し、入力音声の認識対象語彙を検出する音声入力制約情報管理手段と、前記対応テーブルに応じて前記認識対象語彙の表示を変更して表示する視覚表示手段と、を有している。
【0009】
【作用】
本発明によれば、音声入力によってその命令実行、機能の選択、データ入力を支援する場合に、現在のシステムの内部状態を調べ、音声入力を利用する際の制約情報を分かりやすく表示するため、ユーザは一目で音声入力の際の制約条件や発声方法を理解することができる。
【0010】
よって、ユーザは音声入力の利用に関連した制約情報が解らず戸惑ったり、入力間違いを起こすことなく、快適に音声入力機能を利用することができ、初心者にも使い易いヒューマンインターフェースが実現できる。
【0011】
【実施例】
以下図面を参照しながら本発明の一実施例について説明する。図1は本発明の第1の実施例に係る音声入力システムの構成図である。同図において、音声入力部1を通じて音声は電気信号に変換され音声認識部2へ入力される。音声認識部2では、入力された音声を、例えば12kHz の標本化周波数、16bit の量子化ビット数のデジタル信号に変換し、例えば高速フーリエ変換による周波数分析により特徴パラメータ時系列を求め、さらに、例えば複合類似度法、HMM(Hidden Marcov Model)などの方式に基づき音声認識を行い、認識結果として尤度の最も高い語彙または文を応用データ処理部に出力する。
【0012】
応用データ処理部4は、例えば、翻訳、計算、編集、描画、複写、予約、現金自動支払などの作業を支援するソフトウェアまたはシステムである。応用データ処理部4では、上記音声認識部からの入力に基づいて処理し、次にユーザに呈示する処理結果などの応答を表示制御部5へ出力し、例えば応用データ処理部4の要求する語彙の違いなどの入力情報の区分に基づいて予め設定された内部状態の情報を音声入力制約情報管理部3へ出力する。例えば、航空券の予約システムにおいて応用データ処理部の要求する入力が「行先」である状態から「出発時刻」である状態に変化した際には、「出発時刻」を入力する内部状態に変化したという情報を音声入力制約情報管理部3へ出力する。
【0013】
音声入力制約情報管理部3では、応用データ処理部4の内部状態の変化情報により、例えば、表1のような内部状態−連続/孤立発声対応テーブルを検索して、現在、音声を連続発声で入力可能であるか、孤立発声する必要が有るのかを音声認識部2と表示制御部5へ出力する。
【0014】
【表1】
Figure 0003710493
表示制御部5では、応用データ処理部4からの処理結果と連続/孤立発声の区別を表す情報を表示部6に出力する。表示部6では、表示制御部5からの情報を画面表示し、とくに、現在、連続発声するのか、または孤立発声する必要があるのかを分かりやすく視覚表示する。
【0015】
応用例として航空券の予約を応用データ処理部4が支援している場合について述べる。先ず、この装置を始動させた時、応用データ処理部4は、初期状態という情報を音声入力制約情報管理部3へ出力し、初期画面の表示情報を表示制御部5へ出力する。音声入力制約情報管理部3では、表1に示す内部状態−連続/孤立発声対応テーブルを検索し、初期状態の時、連続発声することが可能であるという情報を音声認識部2と表示制御部5へ出力する。表示制御部5では、応用データ処理部4からの表示情報と音声入力制約情報管理部3からの連続発声可能という情報を視覚表示する表示データを作成し、表示部6へ出力する。表示部6では、表2に示すように、予約/キャンセルと行き先と便番号などを選択させる表示と連続発声が可能であることの表示がなされる。
【0016】
【表2】
Figure 0003710493
ユーザは、予約またはキャンセルの選択と行き先/便番号を連続発声すれば良いことが一目で分かる。
【0017】
次に、ユーザがニューヨーク行きの便を予約したい場合に「予約ニューヨーク」と発声した際、音声認識部2は、予め音声入力制約情報管理部3よりユーザが連続発声を行うことを知らされており、孤立ではなく連続発声に適した認識手法を用いて認識をより正確に行い、さらに「予約」、「ニューヨーク」という入力が応用データ処理部4に入力される。応用データ処理部4では、図2に示すように内部状態が航空券の出発の時刻を指定する状態に変り、前述と同様に、表2に示す時刻指定状態という内部状態に関する情報を音声入力制約情報管理部へ出力し、時刻指定画面の表示情報を表示制御部5へ出力する。そして、音声入力制約情報管理部3と表示制御部5が前述と同様の処理を行い、表3に示す便指定画面が表示される。
【0018】
【表3】
Figure 0003710493
なお、表3では月、日、時、分を音声を所定時間空白(無音)とすることで孤立発声を入力する例を示しているが、キー入力やマウスをクリックするなどして区切るようにしても良い。
【0019】
このように、音声入力を連続発声可能であるか孤立発声を行う必要があるのかを画面上に表示することにより、ユーザは一目で音声の連続/孤立の発声方法の区別を理解することができるため、現在、連続/孤立どちらかの発声方法が適当であるか分からず戸惑ったり、発声方法を誤ったりすることがなくなり、使い勝手の良いインターフェースを構築できる。
【0020】
次に、本発明の第2実施例について述べる。構成は、第1実施例と同様であるが、音声入力制約情報管理部は、内部状態−連続/孤立発声対応テーブルではなく、表4に示すような認識対象語彙が入力として受入れられるために必要な発声回数を設定した認識対象語彙−発声回数対応テーブルを管理している。
【0021】
【表4】
Figure 0003710493
音声入力部1と応用データ処理部4の処理の流れは、第1実施例と同様である。音声入力制約情報管理部3では、表4に示すような認識対象語彙−発声回数対応テーブルを参照し、現在の認識対象語彙が入力となるために必要な発声回数を音声認識部2と表示制御部5に出力し、音声認識部2は、各語彙が音声入力制約情報管理部3より入力された回数分連続して入力された場合に、応用データ処理部4へ認識結果としてその語彙を出力する。
【0022】
応用データ処理部4では、処理結果などの応答を表示制御部5に出力し、内部状態の変化情報を音声入力制約情報管理部3に出力する。表示制御部5では、応用データ処理部4からの表示情報や、音声入力制約情報管理部3から入力された入力語彙の発声回数の区別を表す情報を表示部6に出力する。表示部6では、表示制御部5からの表示情報を画面表示し、とくに、現在、入力語彙の発声回数を分かりやすく視覚表示する。例えば、ユーザインターフェースとして確実性が要求される入力語彙を複数回発声するようにすると、より安定したインターフェースを実現できる。例えば、図3に示すように、1回の発声で入力できる語彙(「次画面」)は、その語彙の周囲を1重の枠で囲って表示し、2回発声する必要のある語彙(「終了」)は、その語彙の周囲を2重の枠で囲って表示することにより、ユーザは一目で入力対象語彙の発声回数が分かり、使い勝手の良いインターフェースとなる。
【0023】
なお、図3では2重の枠によって2回発声を示すようにしたが、文字の表示や枠等に濃淡を付けて、濃い場合には大きい声で発声するよう指示する構成とすることもできる。また、発話回数分だけ「☆」や「*」等の記号やマークを肩に表示する等、他の表示方法によっても発生回数を示すことが可能である。
【0024】
また、ブザー等のオーディオ信号を断続して複数回出力し、音声入力繰り返し回数を指定することもできる。
【0025】
次に、第3実施例について述べる。構成は、第1実施例と同様であるが、音声入力制約情報管理部3は、内部状態−連続/孤立発声対応テーブルではなく、表5に示すような数字入力方法テーブルを管理している。
【0026】
【表5】
Figure 0003710493
音声入力部1と応用データ処理部4の処理の流れは、第1実施例と同様である。
【0027】
音声入力制約情報管理部3では、表5に示すような数字入力方法テーブルを参照し、複数桁の数字を音声入力する際の発声方法を音声認識部2と表示制御部5に出力する。例えば、応用データ処理部4の内部状態が暗証番号を入力する状態である場合、表5に示す数字入力方法テーブルを参照し、複数桁の数字を上位の桁から「イチ]「ニ」「サン]「ヨン」「シ」「ゴ]「ロク」「シチ」「ナナ]「ハチ」「キュウ」の11種類の音声を用いて発声するという発声方法に関する制約情報(個別発声)を音声認識部2と表示制御部5に出力する。例えば、表6の例に示すように個別発生の場合ユーザは、8215という数字を「ハチニイチゴ」のように数字をそのまま1桁ずつ発声しなくてはならない。また、応用データ処理部4の内部状態が表7の例に示すように予約番号を入力する状態である場合は、数字入力方法テーブルを参照し、桁数を含んで複数桁の数字を発声するという発声方法に関する制約情報(複数桁発声)を音声認識部2と表示制御部5に出力する。この場合、ユーザは251という数字を「ニヒャクゴジュウイチ」のように発声しなくてはならない。同様に、両方を受け入れることを視覚表示することもできる。
【0028】
音声認識部2は、数の認識において音声入力制約情報管理部3より入力された数字の発声方法に関する制約情報によって、音声認識辞書を選択して認識を行う。例えば、数字を1桁ずつ音声入力する場合(個別発声)と桁数を含んで数字を音声入力する場合(複数桁発声)を区別して、音声認識辞書を選択し認識を行う。これにより、数字の認識における曖昧性を減少させて認識を行うことが可能となるため認識性能を向上させることができる。
【0029】
応用データ処理部4では、ユーザに呈示する処理結果などの応答を表示制御部5に出力し、内部状態の変化情報を音声入力制約情報管理部3に出力する。表示制御部5では、応用データ処理部4からの表示情報や音声入力制約情報管理部3から入力された数字入力の発声方法に関する制約情報に基づき、その区別を表す情報を表示部に出力する。表示部6では、表示制御部5からの表示情報を画面表示し、とくに、現在、数字の発声方法に関する制約情報を分かりやすく視覚表示する。例えば、表6に示すように、キャッシュカードの暗証番号を入力する状態では、複数桁の数字を上位の桁から「イチ]「ニ」「サン]「ヨン」「シ」「ゴ]「ロク」「シチ」「ナナ]「ハチ」「キュウ」の11種類の音声を用いて発声するということを分かりやすく表示する。
【0030】
【表6】
Figure 0003710493
また、表7に示すように、予約番号を入力する状態では、数を含んで複数桁の数字を発声するということを分かりやすく表示する。
【0031】
【表7】
Figure 0003710493
これにより、ユーザは一目で数字を入力する際の発話方法が分かり、使い勝手の良いインターフェースとなり、さらに認識性能を向上させることができる。
【0032】
次に、第4実施例について述べる。図4は本発明の第4実施例に係る音声入力システムの構成図を示す。第1実施例のうち応用データ処理部4の処理結果は表示されるのではなく、音声出力され、音声入力に関する制約情報である連続/孤立発声の区別を表す情報は第1実施例と同様に表示部6に表示される。処理の流れは、第1実施例と同様であるが、応用データ処理部4では処理結果を表示制御部5ではなく音声出力部7に出力する。これによって、電話による音声の認識、応答の確認が可能となる。
【0033】
次に、第5実施例について述べる。図5は本発明の第5実施例に係る音声入力システムの構成図である。
【0034】
音声入力部1を通じて音声は電気信号に変換され音声認識部2へ入力される。音声認識部2では、入力された音声を、例えば12kHz の標本化周波数、16bit の量子化ビット数のデジタル信号に変換し、例えば高速フーリエ変換による周波数分析により特徴パラメータ時系列を求め、さらに、例えば複合類似度法またはHMM(hidden marcov model)などの方式に基づき音声認識を行い、認識結果として尤度の最も高い語彙または文を応用データ処理部4に出力する。
【0035】
入力情報制御部8では、音声認識部2からの認識結果やキーボード9やマウス10からの入力情報を応用データ処理部4への入力データや制御信号に変換し、応用データ処理部4へ出力する。応用データ処理部4は、例えば翻訳、計算、編集、描画、複写などの作業を支援するソフトウェアまたはシステムである。応用データ処理部4では、上記入力情報制御部8からの入力データや制御信号を入力として処理を行い、ユーザに現在の状態で表示する画面や文章などの情報を表示制御部5に出力し、応用データ処理部4の内部状態の変化情報を音声入力制約情報管理部3に出力する。
【0036】
音声入力制約情報管理部3では、図6に示すように、入力された応用データ処理部4の内部状態の変化情報を用いて表8のような内部状態−音声入力対象語彙対応テーブルを検索し、現在の応用データ処理部4の内部状態での音声認識対象語彙を検出する。
【0037】
【表8】
Figure 0003710493
次に、現在の音声入力対象語彙を音声認識部2へ出力し、現在の応用データ処理部4の内部状態の情報を表示制御部5へ出力する。
【0038】
表示制御部5では、例えば表9に示すような入力対象表示管理テーブルを保持している。
【0039】
【表9】
Figure 0003710493
入力対象表示管理テーブルとは、応用データ処理部4の内部状態に応じて表示される画面、その画面で表示される語彙、その語彙をどのメディアで入力可能であるかという情報、その語彙が表示される対象などの情報を保持している。例えば、表9の入力対象表示管理テーブルの「編集」という語彙については、初期状態の画面で、マウスまたは音声で入力することが可能であり、ボタンアイテム上に表示されているという情報を保持している。表示制御部5では、応用データ処理部4からの画面表示に関する情報を画面表示データに変換する際、上記入力対象管理テーブルにおいて音声入力制約情報管理部3から入力された現在の応用データ処理部4の内部状態の画面で音声を入力メディアとする表示対象(例えば、ボタンアイテム)の色、形状、背景色、周囲の図形、フォントなどを、音声を入力メディアとしない表示対象と区別して表示するように制御し、そのデータを表示部6へ出力する。表示部6では、例えばCRTディスプレイのように入力された画面表示データをユーザに表示する。
【0040】
文章の編集作業を応用データ処理部4が支援している場合について述べる。先ず、この装置を始動させた時、応用データ処理部4は、初期状態という情報を音声入力制約情報管理部3へ出力し、初期画面の表示情報を表示制御部5へ出力する。音声入力制約情報管理部3では、表8に示す内部状態−音声入力対象語彙対応テーブルを検索し、初期状態の時の音声認識対象語彙「編集」、「レイアウト」、「出力」、「終了」を音声認識部2と表示制御部5に出力する。
【0041】
表示制御部5では、表9に示すような入力対象表示管理テーブルの初期画面の語彙の中で、音声入力制約情報管理部3より入力された「編集」、「レイアウト」、「出力」、「終了」の入力メディアの音声の項目を入力可能(OK)となるように修正する。次に、入力対象表示管理テーブルを参照して、初期画面の入力メディアの中で音声を入力可能としている表示対象である「編集」、「レイアウト」、「出力」、「終了」のマウスボタン上の文字を赤色で表示し、その他の表示対象である「文書名」を黒色で表示するように制御し、表示データを表示部に出力する。図7に示すように初期状態の表示画面の4つのボタン「編集」、「レイアウト」、「出力」、「終了」の文字が赤色で表示され、他の文字の黒色と一目で区別できる。ユーザは、赤色の文字で表示されている語彙は音声で入力でき、黒色で表示されているものはマウスかキーボードで入力すれば良いことが分かる。
【0042】
この初期状態で、ユーザが、文書名をマウスを用いて選択すると、その文書名が入力情報制御部8へ出力される。次に、「編集」と発声すると音声認識部2での認識結果「編集」が入力情報制御部8へ出力される。入力情報制御部8では、選択された文書名と編集のボタンアイテムをマウスクリックした場合と同じ制御信号を応用データ処理部4に出力する。そして、応用データ処理部4では、内部状態が編集状態に変り、前述と同様に編集状態という情報を音声入力制約情報管理部3へ出力し、編集画面の表示情報を表示制御部5へ出力する。音声入力制約情報管理部3と表示制御部5が前述と同様の処理を行い、図8に示す文章編集の画面が表示される。
【0043】
このように、音声入力を支援している語彙の画面上の表示色を音声入力を支援していない語彙と区別して表示することにより、ユーザは一目で音声入力可能な語彙を理解することができるため、どの語彙が音声入力可能であるか分からず戸惑ったり、音声認識対象外の語彙を発声したりすることがなくなり、使い勝手の良いインターフェースを構築できる。さらに、音声認識部2は、現在の入力対象語彙にしぼって、音声標準パターンとの照合を行えるため、認識性能は向上する。
【0044】
また、使用頻度の高い語彙は音声入力とし、使用頻度の低い語彙をボタン入力とする構成としても良い。
【0045】
次に、第6実施例について述べる。第5実施例のうち音声入力対象語彙と対象外語彙の表示色ではなく背景テクスチャを区別する。処理の流れは、第4実施例と同様である。例えば、図9のように音声入力可能なボタンアイテムはテクスチャにより分かりやすく表示される。
【0046】
次に、第7実施例について述べる。図10は本発明の第7実施例に係る音声入力システムの構成図である。
【0047】
第5実施例の構成に、音声認識辞書作成部12が加わる。音声認識辞書作成部12では、予めシステムが保持している不特定ユーザの音声データと特定のユーザが入力した音声データを管理し、管理している音声データを用いて音声認識辞書を作成し、音声認識部2に認識辞書を出力する。さらに、音声認識辞書作成部12では、認識辞書を作成した音声データ中の不特定ユーザのデータ数と特定ユーザのデータ数を音声入力制約情報管理部3へ出力する。
【0048】
入力情報制御部8、応用データ処理部4の処理の流れは、第5実施例と同様であるが、音声入力制約情報管理部3では音声認識辞書作成部12からの認識辞書を作成した音声データの情報に基づいて表10に示す特定/不特定辞書作成データ数テーブルを作成する。
【0049】
【表10】
Figure 0003710493
また、音声入力制約情報管理部3では、表10に示す特定/不特定辞書作成データ数テーブルを参照して、表示制御部5に現在の応用データ処理部4の内部状態の情報と各認識対象語彙の認識辞書を作成する際に用いた不特定話者の音声データ数とユーザの音声データ数を表示制御部5に出力し、音声認識部2に現在の認識対象語彙を出力する。
【0050】
表示制御部5では、上記入力対象管理テーブルを検索し、現在の音声入力対象となる語彙について、(ユーザの音声データ数)/(不特定話者の音声データ数)が大きいほどその語彙が表示されているボタンアイテムの表示色が濃くなるように制御し、表示データを表示部6に出力する。表示部6では、例えば、図11に示すように(ユーザの音声データ数)/(不特定話者の音声データ数)=1.2の「コピー」は、濃い色で表示され、(ユーザの音声データ数)/(不特定話者の音声データ数)=0.1の「ペースト」は、薄い色で表示される。これにより、ユーザは各語彙の認識辞書がどの程度の割合で自分の音声によって訓練されているかを一目で理解することができる。したがって、ユーザが自分の音声による辞書の訓練の割合が小さい語彙の認識性能が良くない場合、認識性能の向上の手段として自分の音声データを追加して辞書を作り直せば、認識性能が向上することが分かる。
【0051】
また、2人のユーザにそれぞれ赤と青の色を割り当て、各ユーザの使用頻度によって表示色を変化させても良い。例えば、ユーザAに対して「赤」、ユーザBに対して「青」を割り当てたとすると、ユーザAが頻繁に使用する語彙は赤色、ユーザBが頻繁に使用する語彙は青色に変化させる。そして、赤色になった語彙はユーザAにとって認識し易いように設定し、反対に青色になった語彙はユーザBにとって認識し易いように設定する。これによって、より使い勝手のよいインターフェースを構築することができる。
【0052】
次に、第8実施例について述べる。図12は本発明の第8実施例に係る音声入力システムの構成図である。
【0053】
第5実施例の構成に、音声データ管理部13が加わる。音声データ管理部13では、特定のユーザが入力あるいは予め登録した音声データとそれらの音声データの発声内容(語彙)、及びその語彙が入力可能となる応用データ処理部4の内部状態の情報を管理している。音声データ管理部13では、音声データを音声認識部2に出力し、さらに、その語彙が入力可能となる応用データ処理部4の内部状態と音声データの発声内容(語彙)を音声入力制約情報管理部3へ出力する。音声入力制約情報管理部3では、表8に示したような内部状態−音声入力対象語彙対応テーブルを参照して、音声データ管理部13から入力された応用データ処理部4の内部状態で認識対象となる語彙を音声認識部2へ出力し、音声認識部2での認識結果と音声データ管理部13より入力した発声内容とを照らし合わせて、語彙ごとの認識率を算出し、表11に示すような認識率テーブルを作成する。
【表11】
Figure 0003710493
また、音声入力部1から音声認識部2へ入力された音声は第5実施例と同様に処理され、入力情報制御部8、応用データ管理部4の処理の流れも第5実施例と同様である。音声入力制約情報管理部3では表11に示すような上記認識率テーブルを参照し、表示制御部5に現在の応用データ処理部4の内部状態の情報と各認識対象語彙の認識率を表示制御部5に出力し、音声認識部2に現在の認識対象語彙を出力する。表示制御部5では、認識対象語彙が表示されているボタンアイテムの表示色が認識率により区別されるよう制御し、表示データを表示部に出力する。例えば、認識率が80%未満の語彙のボタンアイテムは赤色、80%以上90%未満の語彙のボタンアイテムは黄色、90%以上95%未満の語彙のボタンアイテムは薄い黄色、95%以上の語彙のボタンアイテムは青色で表示するように制御する。表示部6では、例えば、図13に示すように認識率75%の「書式」のボタンアイテムは赤色、認識率80%台の「ペースト」、「セーブ」のボタンアイテムは黄色、認識率93%の「カット」と「フォント」のボタンアイテムは薄い黄色、認識率95%以上の他の語彙のボタンアイテムは青色で表示される。これにより、ユーザは各語彙の認識性能を一目で理解することができ、認識性能の良くない語彙の認識性能を向上させるように認識辞書を学習させるか、あるいは、その語彙は音声入力せず、マウスによって選択すればよいことが分かり、入力誤りを未然に防ぐことができる。
【0054】
次に、第9実施例について述べる。図14は本発明の第9実施例に係る音声入力システムの構成図である。
【0055】
第5実施例の構成に、音声認識辞書管理部14が加わる。音声認識辞書管理部14は、例えば、発声者の性別、年齢などの特徴の異なる複数の音声認識辞書を管理し、音声認識部2から入力される辞書の選択要求に適した認識辞書を音声認識部2に出力する。
【0056】
音声入力部1の処理の流れは、第5実施例と同様であるが、音声認識部2では、認識の際に用いる辞書を音声入力制約情報管理部3から入力される辞書の選択要求に基づいて音声認識辞書管理部3から入力し、第5実施例と同様に認識処理を行う。入力情報制御部8の処理の流れは第5実施例と同様である。応用データ処理部4では、第5実施例と処理の流れは同様であるが、入力情報制御部8から音声認識辞書を選択する入力の場合は、音声入力制約情報管理部3へ内部状態の変化情報と選択された音声認識辞書の情報を出力する。音声入力制約情報管理部3では、第5実施例と同様に現在の認識対象単語を音声認識部2と表示制御部5に出力し、さらに、音声認識辞書の選択に関する入力があった場合は、表12のような認識辞書属性テーブルを参照して、認識辞書のID番号を音声認識部に出力する。例えば、図16のように音声認識辞書を選択する画面が表示されており、ユーザが現在と異なった認識辞書を使用するために「男性青年用」と音声入力あるいはマウスによって選択した場合について説明する。この場合、音声入力制約情報管理部では、表12に示すような認識辞書属性テーブルを参照し性別が男性で年齢が青年(18〜35才)の認識辞書番号" 1" を音声認識部に出力し、さらに、認識辞書番号" 1" の辞書が選択されたことを認識辞書属性テーブルに記録する。
【0057】
【表12】
Figure 0003710493
表示制御部5、表示部の処理の流れは、第5実施例と同様である。例えば、図15に示すように初期画面に" 音声認識辞書を選択" する機能を有するボタンアイテムをマウスクリックあるいは音声入力すると図16に示すような音声認識辞書を選択する画面が表示される。ユーザは、自分の性別、年齢に適した辞書を選択し、認識に用いることができる。また、ユーザは、例えば自分の声質が年齢よりも若い場合にも、自分の年齢よりも若い発声者の音声データによって作成された辞書を選択することも可能となる。
【0058】
このように、ユーザの声質に適した認識辞書を選択することが可能となるため、音声認識誤りを減少させることができ、使い勝手の良いインターフェースを実現できる。なお、属性の分類の方法は表12の例に限らず、階層化することも可能である。例えば、「全体」、「大人」、「大人の女性」……等に分類しても良い。
【0059】
次に、第10実施例について述べる。構成は、第1実施例と同様であるが、音声入力制約情報管理部3は、内部状態−連続/孤立発声対応テーブルではなく、表13に示すような内部状態−自由/制限発話テーブルを保持している。
【0060】
【表13】
Figure 0003710493
内部状態−自由/制限発話対応テーブルは、語順の変化、省略表現、「えー」「あの」のような発話内容に関係の無い言葉(不要語)を含むような自由発話を入力とする応用データ処理部4の内部状態と、システムの指定した語順で一字一句間違えないように発話する必要がある内部状態を区別して管理している。処理の流れは、第1実施例と同様であるが、音声入力制約情報管理部3では、表13に示すような内部状態−自由/制限発話対応テーブルを参照し、現在の内部状態で上述の自由発話による入力が可能であるか(自由発話)、またはシステムの指定した語順で一字一句間違えないように発話する必要があるか(制限発話)を、音声認識部2と表示制御部5に出力する。
【0061】
音声認識部2では、自由発話を理解する場合には、例えば入力音声に対してキーワードスポッティングに基づいた単語検出を行い、検出された時間離散的な単語系列に構文的制約情報を用いて文として成り立つ系列を抽出し、発話の意味内容を理解する。一方、システムの指定した語順で一字一句間違えないように発声された発話を理解する場合には、認識した語句を予めユーザに指定した語順に従って組み合わせて文を構成し、発話を理解する。次に、理解した発話内容を応用データ処理部4へ認識結果として出力する。
【0062】
応用データ処理部4では、処理結果などの応答を表示制御部5に出力し、内部状態の変化情報を音声入力制約情報管理部3に出力する。表示制御部5では、応用データ処理部4からの表示情報や、音声入力制約情報管理部3から入力された自由/制限発話の区別を表す表示情報を表示部6に出力する。表示部6では、表示制御部5からの表示情報を画面表示する際、とくに、現在、システムの指定した語順で一字一句間違えないように発話する必要がある場合は、入力形式を分かりやすく視覚表示する。
【0063】
例えば、表14に示すように、航空機の座席を指定する場合、喫煙/非喫煙、ファースト/ビジネスクラス、窓側/通路側などの希望を、語順の変化、省略表現、不要語を含んだ自由な発話で入力が行えるため、入力方法について特別な表示は行わない。
【0064】
【表14】
Figure 0003710493
しかし、表15に示すようにニューヨークのホテルを予約する場合は、「(ホテル名)に(日数)滞在したい」などのように、希望のホテル名や滞在日数を予め設定した語順で入力する必要があることを分かりやすく表示する。
【0065】
【表15】
Figure 0003710493
このように、自由発話/制限発話の区別を分かりやすく視覚表示することにより、ユーザは一目で入力発話形式を理解でき、使い勝手の良いインターフェースを実現できる。
【0066】
以上説明したように、本発明では、入力手段により音声入力、或いは他の入力手段による入力操作のうちの、入力可能である方を示す選択情報を設定し、これを視覚表示手段に表示している。従って、ユーザは一目で音声入力の際の制約条件や発声方法を理解することができる。よって、ユーザは音声入力の利用に関連した制約情報が分からず戸惑ったり、入力間違いを起こすことなく、快適に音声入力機能を利用することができ、初心者にも使い易いヒューマンインターフェースが実現できる。
【図面の簡単な説明】
【図1】本発明が適用された音声入力システムの第1実施例の構成を示すブロック図である。
【図2】応用データ処理部での処理手順を示すフローチャートである。
【図3】航空券予約システムの画面例を示す図である。
【図4】本発明の第4実施例の構成を示すブロック図である。
【図5】本発明の第5実施例の構成を示すブロック図である。
【図6】音声入力制約情報管理部での動作を示すフローチャートである。
【図7】文字表示色を変化させた初期画面の例を示す説明図である。
【図8】文書編集画面の例を示す説明図である。
【図9】テクスチャを変化させた初期画面の例を示す説明図である。
【図10】本発明の第7実施例の構成を示すブロック図である。
【図11】文書編集画面の例を示す説明図である。
【図12】本発明の第8実施例の構成を示すブロック図である。
【図13】文書編集画面の例を示す説明図である。
【図14】本発明の第9実施例の構成を示すブロック図である。
【図15】音声認識辞書を選択可能としたときの初期画面の例を示す説明図である。
【図16】音声認識辞書の選択の画面例を示す説明図である。
【符号の説明】
1 音声入力部
2 音声認識部
3 音声入力制約情報管理部
4 応用データ処理部
5 表示制御部
6 表示部
7 音声出力部
8 入力情報制御部
12 音声認識辞書作成部
13 音声データ管理部
14 音声認識辞書管理部

Claims (7)

  1. 音声を入力する入力手段と、
    入力音声と語彙との対応を示す音声認識辞書を、特定ユーザによる入力音声、及び不特定ユーザによる入力音声に区分して作成し、保存する音声認識辞書作成手段と、
    前記音声認識辞書作成手段にて作成された音声認識辞書に含まれる各語彙の、特定ユーザの入力音声についてのデータ数と、不特定ユーザの入力音声についてのデータ数との対応テーブルを作成し、入力音声の認識対象語彙を検出する音声入力制約情報管理手段と、
    前記対応テーブルに応じて前記認識対象語彙の表示を変更して表示する視覚表示手段と、
    を具備することを特徴とする音声入力装置。
  2. 前記対応テーブルにて設定された、各語彙に対する特定ユーザの入力音声についてのデータ数と、不特定ユーザの入力音声についてのデータ数との比率に応じて、前記視覚表示手段に表示する各語彙の表示色、または背景色を変更することを特徴とする請求項1に記載の音声入力装置。
  3. 音声を入力する入力手段と、
    特定ユーザに対し、入力音声と語彙との対応を設定する音声データ管理手段と、
    前記音声データ管理手段にて設定された語彙と入力音声との対応関係に基づいて、各語彙とその認識率の対応を示す認識率テーブルを作成し、入力音声の認識対象語彙を検出する音声入力制約情報管理手段と、
    前記認識率テーブルに応じて前記認識対象語彙の表示を変更して表示する視覚表示手段と、
    を具備することを特徴とする音声入力装置。
  4. 前記認識率テーブルに設定された、各語彙に対する認識率に応じて、前記視覚表示手段に表示する各語彙の表示色、または背景色を変更することを特徴とする請求項3に記載の音声入力装置。
  5. 更に、前記音声入力制約情報管理手段は、前記入力手段による音声入力、或いは他の入力手段による入力操作のうちの、入力可能である方を示す選択情報を設定し、前記視覚表示手段は前記選択情報を表示することを特徴とする請求項1〜請求項4のいずれか1項に記載の音声入力装置。
  6. 前記視覚表示手段に表示する前記選択情報は表示色または背景色の少なくとも一方を変化させることで入力可能な方を示すことを特徴とする請求項5に記載の音声入力装置。
  7. 音声を入力するステップと、
    入力音声と語彙との対応を示す音声認識辞書を、特定ユーザによる入力音声、及び不特定ユーザによる入力音声に区分して作成し、保存するステップと、
    前記音声認識辞書に含まれる各語彙の、特定ユーザの入力音声についてのデータ数と、不特定ユーザの入力音声についてのデータ数との対応テーブルを作成し、入力音声の認識対象語彙を検出するステップと、
    前記対応テーブルに応じて前記認識対象語彙の表示を変更して表示するステップと、
    を具備することを特徴とする音声入力方法。
JP24505892A 1992-09-14 1992-09-14 音声入力装置及び音声入力方法 Expired - Fee Related JP3710493B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24505892A JP3710493B2 (ja) 1992-09-14 1992-09-14 音声入力装置及び音声入力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24505892A JP3710493B2 (ja) 1992-09-14 1992-09-14 音声入力装置及び音声入力方法

Publications (2)

Publication Number Publication Date
JPH0695828A JPH0695828A (ja) 1994-04-08
JP3710493B2 true JP3710493B2 (ja) 2005-10-26

Family

ID=17127964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24505892A Expired - Fee Related JP3710493B2 (ja) 1992-09-14 1992-09-14 音声入力装置及び音声入力方法

Country Status (1)

Country Link
JP (1) JP3710493B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2967688B2 (ja) * 1994-07-26 1999-10-25 日本電気株式会社 連続単語音声認識装置
JPH09114490A (ja) * 1995-10-16 1997-05-02 Sony Corp 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
JPH09288494A (ja) * 1996-04-23 1997-11-04 Sony Corp 音声認識装置および音声認識方法
JP2000112610A (ja) * 1998-09-30 2000-04-21 Victor Co Of Japan Ltd コンテンツ表示選択システム及びコンテンツ記録媒体
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
JP4624825B2 (ja) * 2005-03-08 2011-02-02 日産自動車株式会社 音声対話装置および音声対話方法
JP4675691B2 (ja) * 2005-06-21 2011-04-27 三菱電機株式会社 コンテンツ情報提供装置
EP2711923B1 (en) * 2006-04-03 2019-10-16 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
JP5455355B2 (ja) * 2008-11-27 2014-03-26 トヨタ自動車株式会社 音声認識装置及びプログラム
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments

Also Published As

Publication number Publication date
JPH0695828A (ja) 1994-04-08

Similar Documents

Publication Publication Date Title
EP1096472B1 (en) Audio playback of a multi-source written document
CN107305768B (zh) 语音交互中的易错字校准方法
US7047195B2 (en) Speech translation device and computer readable medium
EP0216129B1 (en) Apparatus for making and editing dictionary entries in a text to speech conversion system
US7149970B1 (en) Method and system for filtering and selecting from a candidate list generated by a stochastic input method
US8346537B2 (en) Input apparatus, input method and input program
US7383182B2 (en) Systems and methods for speech recognition and separate dialect identification
US6363347B1 (en) Method and system for displaying a variable number of alternative words during speech recognition
JP3710493B2 (ja) 音声入力装置及び音声入力方法
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JP2005150841A (ja) 情報処理方法及び情報処理装置
US20150293902A1 (en) Method for automated text processing and computer device for implementing said method
Suhm Multimodal interactive error recovery for non-conversational speech user interfaces
JP7341111B2 (ja) 会話支援装置、会話支援システム、会話支援方法およびプログラム
JP3762191B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
JPH0685983A (ja) 音声電子黒板
JPH0883092A (ja) 情報入力装置及び情報入力方法
US20080162144A1 (en) System and Method of Voice Communication with Machines
JP4012228B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
JP3285954B2 (ja) 音声認識装置
JP3870722B2 (ja) 翻訳装置、記録媒体
Komatani et al. Efficient dialogue strategy to find users’ intended items from information query results
JP2003202886A (ja) テキスト入力処理装置及び方法並びにプログラム
Peters et al. Online searching using speech as a man/machine interface

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050810

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090819

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090819

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100819

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100819

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110819

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees