JP2004157919A

JP2004157919A - 入力装置及び音声入力方法と装置並びにプログラム

Info

Publication number: JP2004157919A
Application number: JP2002325085A
Authority: JP
Inventors: Masaru Takano; 優高野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-11-08
Filing date: 2002-11-08
Publication date: 2004-06-03

Abstract

【課題】ユニグラムの精度が不十分であることによる、あるいはユニグラムのミスマッチに起因する認識性能の低下を回避する装置の提供。
【解決手段】音声を入力とし、入力音声と、事前に用意された各選択肢に対応する音響パタンとの間のパタンマッチングを行い、各音響パタンに対する音響スコアを計算する音響スコア計算部１０１と、音響パタンを保持する音響パタン部１０２と、各音響パタンに対する重みを保持するリスコアリング重み保持部１０３と、音響スコア及びリスコアリング重みから各選択肢のスコアを計算するリスコアリング部１０４と、入力者に対し入力を要求し、入力された内容を解釈する制御部１０５と、を備え、事前に得られている他の入力情報により、ユニグラムの値を切り替える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、入力装置に関し、特に、音声認識機能を具備する入力装置に関する。
【０００２】
【従来の技術】
電話等を利用した音声入力装置において、音声認識の不確実さを補うために、事前に予測される選択肢の出現確率等の重みを用いて音声入力スコアのリスコアリングを行い、総合的に認識率を向上させる手法が従来より行われている。
【０００３】
Ｎ−グラム言語モデルを利用した（連続）音声認識として、例えば以下の文献が参照される（非特許文献１）
【０００４】
【非特許文献１】
「音声認識システム」、鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄編著、オーム社、平成１３年５月１５日発刊（第５３〜６９頁）
【０００５】
上記非特許文献１の第５３〜６９頁に記載されているように、想定される入力内容のすべての候補、あるいは、そのうち探索対象となる一部の候補について、事前の言語的知識を利用して、Ｎ−グラム等による重み付けを行い、言語的な統計量をも含めた出現頻度に応じた、入力内容の確率的推定を行う方法がある。
【０００６】
なお、音声入力を行う人の属性等の違いにより標準の発音とは異なる音声信号が入力された場合であっても精度よく音声認識を行うことを可能とした音声認識装置が提案されている（例えば特許文献１参照）。この特許文献１には、地域、民族、階層、個人などの属性により複数の属性別辞書を記憶する音声辞書記憶部と、音声信号中の特徴に基づいて音声信号に対応する属性別辞書を選択する音声辞書選択部と、音声辞書選択部が選択した属性別辞書を用いて音声信号を音声認識する音声認識部を備えた構成が開示されている。この特許文献１の構成は、入力音声を、例えば標準辞書、属性別辞書１、属性別辞書２、…、標準辞書と何回か入力し、同一入力を何度か認識するものである。
【０００７】
また電話の発信地域や発信者の違いなどによって標準の発音とは異なる音声信号に対しても精度よく音声認識を行う音声認識機能を備えた通信装置が提案されている（例えば特許文献２）。この通信装置は、通信回線を介して送られる相手側装置の識別情報を検出する識別情報検出手段と、識別情報（相手側装置の電話番号等）ごと（あるいは個人ごと）に異なる音声情報が格納された識別情報別辞書を備えた音声辞書記憶手段と、識別情報検出手段により検出された相手側装置の識別情報に基づいて、音声辞書記憶手段から対応する識別情報別辞書を選択する辞書選択手段と、辞書選択手段によって選択された識別情報別辞書を用いて相手側装置からの音声信号を認識する音声認識手段と、を備えた通信装置が開示されている。そして、特許文献２の装置では、辞書の変更の例として、地域の言葉に対応（語彙の変更）、個人の声紋に対応（音声特徴の変更）があげられており、認識候補の重み（個人の音声特徴に依存しない、語彙は変更しない）については何も記載されていない。
【０００８】
さらに、話者を限定するための話者認識部を有し、話者の最初に入力された特定のフレーズ（「もしもし」等）により話者を限定し、その後の入力に対してその人の所有辞書のみを認識対象とすることにより、対象辞書を少なくし、認識率の向上と処理の高速化を図ることができる音声ダイヤル装置が知られている（例えば特許文献３）。
【０００９】
そして、認識対象語彙を登録した語彙で構成された複数の辞書を備えた辞書部と、複数の電話番号と辞書との対応を登録した対応テーブルと、発信者電話番号と対応テーブルの電話番号とを比較し、発信者電話番号に対応した辞書を認識部に通知する辞書切り替え部とを備えた電話音声認識装置も知られている（例えば特許文献４）。この従来の装置においても、発信者電話番号に対応して語彙の変更を行っている。
【００１０】
【特許文献１】
特開２０００−１２２６８６号公報（第２乃至第５頁、第４図）
【特許文献２】
特開２０００−１２５０３１号公報（第２頁、第４図）
【特許文献３】
特開平１−１５６７９９号公報（第２乃至第５頁、第４図）
【特許文献４】
特開平１１−３５５４４５号公報（第２頁、第１図）
【００１１】
【発明が解決しようとする課題】
上記したように、上記非特許文献１に記載された手法では、想定される入力内容のすべての候補、あるいは、そのうち探索対象となる一部の候補について、事前の言語的知識を利用してＮ−グラム等による重み付けを行っているが、それらの重みは、事前に設定されたままの数値が用いられていることが多く、入力内容から得られる情報を十分に反映しているとは言いがたい。
【００１２】
例えば、日本人の名字を認識する場合、図６に示すような、ユニグラムを使用することがあるが、これは、日本全体の名字の分布を表したものであり、入力したい内容、例えば特定人物の住所を含む特定地域の名字の分布を表すものではない。この点において、従来の手法は、リスコアリング（ｒｅ−ｓｃｏｒｉｎｇ）による性能向上効果を十分に引き出せない可能性がある。
【００１３】
したがって、本発明の主たる目的は、例えば特定人物の住所のような、入力内容に関連のある過去の入力内容等からの情報を言語モデルの重みに反映させ、より適切なユニグラムを選択することにより、正確なリスコアリングを行い、入力時の認識性能を向上させる装置及び方法並びにプログラムを提供することにある。
【００１４】
【課題を解決するための手段】
前記目的を達成する本発明の一つのアスペクト（側面）による入力装置は、入力者が一連の情報を逐次入力する入力装置において、入力と該入力に対する選択肢の間の尤度を計算し、すべての前記選択肢に対して定められた重みスコアと、前記尤度を加算して、前記選択肢のそれぞれに対するスコアを計算する手段と、前記スコアの比較によって、入力内容を、前記選択肢から選択する手段と、を有する入力手段を備え、前記重みスコアの値は、前記一連の情報の入力の以前になされた入力（「過去入力」）に基づき、決定される、ことを特徴とする。
【００１５】
本発明において、前記入力手段が、音声入力に対する音声認識手段で構成してもよい。本発明において、前記重みスコアが、前記選択肢の出現確率を表すものであってもよい。また、本発明において、前記入力が、住所、名前、姓、名、姓名、年齢、電話番号のうちのいずれかを含む構成としてもよい。あるいは、本発明において、前記過去入力は、数字を入力する手段からの数字情報、または発信者電話番号自動通知サービスによって通知される電話番号、または、音声認識手段による入力を含む構成としてもよい。
【００１６】
本発明の装置は、別のアスペクトによれば、音響パタンを記憶保持する音響パタン部と、音声を入力とし、入力音声と、事前に用意された選択肢にそれぞれ対応する音響パタンとの間のパタンマッチングを行い、音響パタンに対する音響スコアを計算する音響スコア計算部と、各音響パタンに対するリスコアリング重みを記憶保持するリスコアリング重み保持部と、前記音響スコア計算部から与えられた音響パタンの音響スコアと、前記リスコアリング重み保持部からの音響パタンのリスコアリング重みとの演算結果を、音響パタンのスコアとし、前記音響パタンのスコアを出力するリスコアリング部と、入力者に対し入力を要求し、入力された内容を解釈する制御を行う制御部と、を備え、前記制御部は、前記リスコアリング部から入力された音響パタンのスコアを参照して、スコアに基づき候補を選択し、音声入力装置の入力結果として出力する手段と、確定した入力結果に基づき、前記リスコアリング部重み保持部に対して、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を行うように要求する手段と、を備えている。
【００１７】
上記目的を達成する本発明の別のアスペクトに係る方法は、入力者が音声入力装置に一連の情報を逐次入力する、音声入力の方法において、音声入力と該音声入力に対する選択肢の間の尤度を計算するステップと、すべての前記選択肢に対して定められた重みスコアと、前記尤度を加算して、前記選択肢のそれぞれに対するスコアを計算するステップと、前記スコアの比較によって、入力内容を、前記選択肢から選択するステップと、前記重みスコアの値は、前記一連の情報の入力の以前になされた入力（「過去入力」）に基づき、決定されるステップと、を含む。
【００１８】
上記目的を達成する本発明の他のアスペクトに係るコンピュータ・プログラムは、音声入力装置を構成するコンピュータに、（ａ１）音声を入力とし、入力音声と、事前に用意された選択肢にそれぞれ対応する音響パタンとの間のパタンマッチングを行い、音響パタンに対する音響スコアを計算する音響スコア計算部処理と、
（ａ２）前記音響スコア計算処理から与えられた音響パタンの音響スコアと、各音響パタンに対するリスコアリング重みを記憶保持するリスコアリング重み保持部からの音響パタンのリスコアリング重みとの演算結果を、音響パタンのスコアとし、前記音響パタンのスコアを出力するリスコアリング処理と、
（ａ３）前記リスコアリング処理から入力された音響パタンのスコアを参照して、スコアの値に基づき候補を選択し、選択した候補を入力結果として出力する処理と、
（ａ４）前記リスコアリング部重み保持部に対して、確定した入力結果に基づき、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を行うように要求する制御を行う処理と、を実行させるプログラムよりなる。
【００１９】
［発明の概要］
本発明においては、音響スコア計算部（例えば図１の１０１）、リスコアリング部（例えば図１の１０４）、リスコアリング重み保持部（例えば図１の１０３）を備え、さらに、音声入力以外の入力手段（例えば図３の１０６、あるいは図５の１０７）を備え、これら各部の動作を制御する制御部（図１の１０５）を備えた入力装置が、事前に設定された手順に従い、入力者に、予め定められた特定の手段による入力を要求する。本発明における制御部（図１の１０５）は、入力者からの入力があるたびに、リスコアリング重み保持部（図１の１０３）に対し、該当入力に基づき、重みを修正するように要求する。しかる後に、入力者に対し、次の入力（音声入力）を要求し、入力を続行する制御を行う。
【００２０】
かかる構成の本発明においては、例えば、入力者の自宅住所、自宅電話番号、及び姓を、それぞれ、音声認識、プッシュボタン、音声認識を用いて、この順番で入力する場合において、事前に、電話のプッシュボタン経由で入力された市外局番つきの電話番号から、入力者の在住都道府県を推定し、姓音声認識におけるリスコアリング重みを、入力者の住所に応じて、変更することができる。また、住所の音声入力結果を利用することで、在住都道府県の推定精度を向上することができる。
【００２１】
前述のように、日本人の姓の分布は、都道府県ごとに偏りがある。極端な例を挙げれば、沖縄県の姓分布は、全国の姓分布と著しく異なっている。これを見ればわかるように、他の入力結果を利用して、重みを変える手段は、認識性能を向上させるために有効である。
【００２２】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態について説明する。図１は、本発明の一実施の形態の構成を示す図である。図１を参照すると、本発明の一実施の形態に係る入力装置は、音声を入力とし、入力音声と、事前に用意された各選択肢に対応する音響パタンとの間のパタンマッチングを行い、各音響パタンに対する音響スコアを計算する音響スコア計算部１０１と、音響パタンを保持する音響パタン部１０２と、各音響パタンに対する重みを保持するリスコアリング重み保持部１０３と、音響スコア及びリスコアリング重みから各選択肢のスコアを計算するリスコアリング部１０４と、入力者に対し入力を要求し、入力された内容を解釈する制御部１０５と、を備えて構成されている。
【００２３】
以下、各要素の動作の概略について説明する。音響スコア計算部１０１は、前述したように、図示されない音声入力部より入力された入力音声（デジタル音声信号）と、事前に用意された音響パタンとの間でのパタンマッチングを行い、各音響パタンと、入力音声の間の音響スコアを計算する。
【００２４】
音響パタン部１０２は、音響スコア計算部１０１に対し、音響パタンを供給する。
【００２５】
リスコアリング重み保持部１０３は、制御部１０５の指示に従い、リスコアリング部１０４に対して、各音響パタンに対するリスコアリング重みを供給する。
【００２６】
リスコアリング部１０４は、音響スコア計算部１０１から与えられた各音響パタンの音響スコアと、リスコアリング重み保持部１０３から与えられた各音響パタンのリスコアリング重みを加算して、該当する音響パタンのスコアとし、各音響パタンのスコアを制御部１０５に出力する。
【００２７】
制御部１０５は、リスコアリング部１０４から入力された音響パタンのスコアを参照して、例えば、最もスコアの高い候補を選択し、入力装置自体の入力結果として、出力する。
【００２８】
また、制御部１０５は、この入力結果を基に、リスコアリング重み保持部１０３に対して、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を要求する。
【００２９】
図２は、本発明の一実施形態の処理手順を示す流れ図である。本実施の形態に係る入力装置の動作について、図２を用いて説明する。図２に示す動作の実施形態では、図１に示した構成の入力装置において、入力として、住所の音声入力、姓の音声入力を行う、一連の動作を説明するものである。
【００３０】
まず、図２に示すステップＳ１において、制御部１０５は、音響パタン部１０２に対して、住所辞書を発行するように要求する。また、制御部１０５は、リスコアリング重み保持部１０３に対し、住所辞書の各音響パタンに対する重みが「０．０」であるようなリスコアリング重みを発行するように要求する。
【００３１】
次に、ステップＳ２において、音響パタン部１０２は、音響スコア計算部１０１に対して、入力される可能性のある、すべての住所の音響パタンを記述した住所辞書を発行する。
【００３２】
次に、ステップＳ３において、制御部１０５は、入力者に対し、住所を音声入力するよう要求する。
【００３３】
次に、ステップＳ４において、音響スコア計算部１０１は、入力された音声と、発行済みの住所辞書との間のパタンマッチングを行い、入力音声とすべての住所の音響パタンの間の音響スコアを計算し、リスコアリング部１０４に出力する。
【００３４】
ここで、音響スコアは、例えば一定時間の音声の特徴を表現した特徴量を時系列順に並べた特徴量列と、その特徴量をパラメータとして持つＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）の間のＶｉｔｅｒｂｉ（ビタビ）マッチングによって得られる対数尤度である。
【００３５】
次に、ステップＳ５において、リスコアリング重み保持部１０３は、住所音響パタンのリスコアリング重みを、リスコアリング部１０４に出力する。
【００３６】
次に、ステップＳ６において、リスコアリング部１０４は、音響スコア計算部１０１から入力された各住所の音響スコアと、リスコアリング重み保持部１０３から出力されたリスコアリング重みを加算し、それぞれを各住所のスコアとして、制御部１０５に出力する。
【００３７】
次に、ステップＳ７において、制御部１０５は、入力された全住所のスコアを比較し、最もスコアの高い住所候補を、入力装置に与えられた、住所の入力結果として出力する。また、制御部１０５は、住所の入力結果から、都道府県を抽出して、図示されない記憶装置に記憶保持しておく。
【００３８】
以上で、住所の入力が終了する。
【００３９】
次に、ステップＳ８において、制御部１０５は、音響パタン部１０２に対して、姓辞書（姓の音響パタンを記述した辞書）を発行するように要求する。また、制御部１０５は、リスコアリング重み保持部１０３に対して、ステップＳ７において記憶保持した、都道府県に対応した、姓辞書の重みを発行するように要求する。
【００４０】
ステップＳ９において、ステップＳ２と同様、音響パタン部１０２は、音響スコア計算部１０１に対して、入力される可能性のあるすべての姓の音響パタンを記述した姓辞書を発行する。
【００４１】
ステップＳ１０において、ステップＳ３と同様、制御部１０５は、入力者に対し、姓を音声入力するよう要求する。
【００４２】
ステップＳ１１において、ステップＳ４と同様、音響スコア計算部１０１は、入力された音声と、発行済みの姓辞書との間のパタンマッチングを行い、入力音声とすべての姓の音響パタンの間の音響スコアを計算し、リスコアリング部１０４に出力する。
【００４３】
ステップＳ１２においては、ステップＳ５と同様、リスコアリング重み保持部１０３は、姓音響パタンのリスコアリング重みを、リスコアリング部１０４に出力する。
【００４４】
ステップＳ１３においては、ステップＳ６と同様、リスコアリング部１０４は、音響スコア計算部１０１から入力された各姓の音響スコアと、リスコアリング重み保持部から出力されたリスコアリング重みとを加算し、それぞれを各姓のスコアとして、制御部１０５に出力する。
【００４５】
ステップＳ１４においては、ステップＳ７と同様、制御部１０５は、入力された全姓のスコアを比較し、最もスコアの高い姓候補を、入力装置に与えられた、姓の入力結果として出力する。
【００４６】
以上で、姓の入力が終了する。
【００４７】
この実施の形態に係る入力装置は、住所、および姓の入力を受けて、出力するものであり、住所と、姓の分布の相関を利用している。同様にして、年齢と個人名との間の相関、住所と電話番号の市外局番との間の相関を利用することもできる。また、過去の入力（ともに確定している）が複数ある場合、例えば、住所および電話番号の入力がなされている場合には、これら両者の入力結果から、都道府県等を推定する手法を採ることで、より確実に、リスコアリング重みを設定することができる。
【００４８】
なお、この実施の形態において、音響パタン部１０２、音響スコア計算部１０１、リスコアリング部１０４と、リスコアリング重み保持１０３、制御部１０５における上記各処理は、図１の入力装置を構成するコンピュータのプログラムによって実現するようにしてもよいことは勿論である。この場合、プログラムの動作仕様は、図２の流れ図に従う。
【００４９】
次に本発明の第２の実施の形態について説明する。図３は、本発明の第２の実施の形態に係る入力装置の構成を示す図である。図３を参照すると、本発明の第２の実施の形態に係る入力装置は、図１に示した前記実施の形態に係る入力装置に加えて、数字入力部１０６をさらに備えている。数字入力部１０６は、入力者からの数字入力を受け付ける。
【００５０】
数字入力部１０６は、入力者からの数字入力を受け取り、その内容を、制御部１０５に渡す。それ以外の構成は、前記実施の形態と同一である。
【００５１】
図４は、本発明の第２の実施の形態における入力装置の動作について説明するための流れ図である。図４に示す例は、入力として、電話番号の数字入力と、姓の音声入力を行う入力装置の例である。
【００５２】
まず、図４のステップＳ１において、制御部１０５は、入力者に対して、電話番号を数字入力するよう要求する。
【００５３】
次に、ステップＳ２において、数字入力部１０６は、入力された数字を、そのまま制御部１０５に出力する。
【００５４】
次に、ステップＳ３において、制御部１０５は、入力された電話番号を、そのまま出力する。また、電話番号から、市外局番部分を抽出し、その電話番号に相当する都道府県名を記憶装置に記憶保持しておく。
【００５５】
以上の処理で、電話番号の入力が終了する。
【００５６】
次に、ステップＳ４において、制御部１０５は、音響パタン部１０２に対し、姓辞書を発行するように要求する。また、制御部１０５は、リスコアリング重み保持部１０３に対し、ステップＳ３において記憶保持した、都道府県に応じた、姓辞書の重みを発行するように要求する。
【００５７】
次にステップＳ５において、音響パタン部１０２は、音響スコア計算部１０１に対して、入力される可能性のあるすべての姓の音響パタンを記述した姓辞書を発行する。
【００５８】
ステップＳ６において、制御部１０５は、入力者に対し、姓を音声入力するよう要求する。
【００５９】
ステップＳ７において、音響スコア計算部１０１は、入力された音声と発行済みの姓辞書との間のパタンマッチングを行い、入力音声とすべての姓の音響パタンの間の音響スコアを計算し、リスコアリング部１０４に出力する。
【００６０】
ステップＳ８において、リスコアリング重み保持部１０３は、姓音響パタンのリスコアリング重みをリスコアリング部１０４に出力する。
【００６１】
ステップＳ９において、リスコアリング部１０４は、音響スコア計算部１０１から入力された各姓の音響スコアと、リスコアリング重み保持部から出力されたリスコアリング重みを加算し、それぞれを各姓のスコアとして制御部１０５に出力する。
【００６２】
ステップＳ１０において、制御部１０５は、入力された全姓のスコアを比較し、最もスコアの高い姓候補を、入力装置に与えられた姓入力結果として出力する。
【００６３】
以上で、姓の入力が終了する。
【００６４】
このように、本発明の第２の実施の形態に係る入力装置は、電話番号および、姓の入力を受け、出力する。本発明を実施する場合の数字入力装置としては、各種電話機の入力部分へ適用される。また、専用の端末に、テンキー等の入力装置を設ける構成としてもよい。なお、この実施の形態においても、図４に流れ図として示した処理を、入力装置を構成するコンピュータで実行されるプログラムで実現してもよいことは勿論である。
【００６５】
次に、本発明の第３の実施の形態について説明する。図５は、本発明の第３の実施の形態の構成を示す図である。図５を参照すると、本発明の第３の実施の形態の入力装置は、図１の入力装置の構成に加え、発信者番号受信部１０７をさらに備えている。
【００６６】
発信者番号受信部１０７は、発信者電話番号自動通知サービスによって通知される発信者電話番号通信信号を受け取り、発信者電話番号を、制御部１０５に通知する。制御部１０５は、発信者番号受信部１０７から発信者電話番号を受け取り、発信者電話番号から市外局番部分を抽出し、その電話番号に相当する都道府県名を記憶装置に記憶保持しておく。そして、制御部１０５は、リスコアリング重み保持部１０３に対し、ステップＳ３において、記憶保持した、都道府県に応じた、姓辞書の重みを発行するように要求する（図４のステップＳ４参照）。また、前記第２の実施の形態と同様にして、制御部１０５は、音響パタン部１０２に対し、姓辞書を発行するように要求する（図４のステップＳ５参照）。以降の処理は、前記第２の実施の形態と同様である。
【００６７】
電話回線経由の電話番号認識に限定されるが、前記した本発明の第２の実施の形態と同様に、発信者番号の自動通知信号を受けることにより、発信者の電話番号の入力装置相当のものとして動作する。
【００６８】
また、これらの実施の形態において、音声認識装置を使用している部分を、手書き文字認識装置、ＯＣＲ（ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅａｄｅｒ）等の自動認識手段に置き換えることも可能であり、本発明は、これらの装置についても同様にして適用できる。
【００６９】
以下では、本発明と、比較例として、上記特許文献１乃至４に記載された発明との相違点について概説しておく。上記特許文献１記載の発明の構成では、入力音声を標準辞書→属性別辞書１→属性別辞書２、…、→標準辞書と、同一入力を何度も認識しているのに対して、本発明では、過去の入力結果に基づき、リスコアリング重みを変更しており、入力に対する認識は１回であり、同一入力を何度も認識する必要はなく、確定済みの入力に基づき、リスコアリング重みを変更しており、属性の推定精度は高い。また上記特許文献２では、辞書を変更として、語彙の変更（地域の言葉に対応）を行っており、これに対して、本発明では、語彙の選択は行っていない。本発明において、地域の言葉に対応する場合であっても、当該地域固有でな語彙を拒否するものでなく、当該地域以外に固有の語彙を認識対象とすることができる。さらに、上記特許文献３では、入力者の第一声により、話者を特定し、専用の辞書を用いて（語彙を変更して）いる。なお、語彙の変更による認識対象範囲の縮小化は、本発明には直接関係しない。上記特許文献４では、発信者電話番号あるいは過去の発声より認識辞書を変更（語彙の変更）している。本発明では、語彙は変更しない。
【００７０】
以上本発明を上記実施の形態に即して説明したが、本発明は上記実施形態の構成にのみ限定されるものでなく、特許請求の範囲の請求項の発明の範囲内で、当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
【００７１】
【発明の効果】
以上説明したように、本発明によれば、過去の確定入力に基づき音響パタンに対するリスコアリング重みの変更を行うように構成しており、辞書の同一人物に関する複数の情報を統合することにより、より信頼性の高い認識を実現でき、音声認識を利用した従来の装置よりも高性能な入力装置を実現することができる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態の構成を示す図である。
【図２】本発明の第１の実施の形態の動作を示す流れ図である。
【図３】本発明の第２の実施の形態の構成を示す図である。
【図４】本発明の第２の実施の形態の動作を示す流れ図である。
【図５】本発明の第３の実施の形態の構成を示す図である。
【図６】日本全体の苗字の分布を表すユニグラムである。
【符号の説明】
１０１音響スコア計算部
１０２音響パタン部
１０３リスコアリング重み保持部
１０４リスコアリング部
１０５制御部
１０６数字入力部
１０７発信者番号受信部

Claims

入力者が一連の情報を逐次入力する入力装置において、
入力と該入力に対する選択肢の間の尤度を計算し、すべての前記選択肢に対して定められた重みスコアと、前記尤度を加算して、前記選択肢のそれぞれに対するスコアを計算する手段と、
前記スコアの比較によって、入力内容を、前記選択肢から選択する手段と、
を有する入力手段を備え、
前記重みスコアの値は、前記一連の情報の入力の以前になされた入力（「過去入力」）に基づき、決定される、ことを特徴とする入力装置。
前記入力手段が、音声入力に対して音声認識を行う音声認識手段よりなる、ことを特徴とする、請求項１記載の入力装置。
前記重みスコアが、前記選択肢の出現確率を表すものである、ことを特徴とする、請求項１又は２記載の入力装置。
前記入力が、住所、名前、姓、名、姓名、年齢、電話番号のうちのいずれかを含む、ことを特徴とする、請求項１乃至３のいずれか一に記載の入力装置。
前記過去入力が、数字入力手段から入力された数字情報を含む、ことを特徴とする、請求項１乃至４のいずれか一に記載の入力装置。
前記過去入力が、発信者電話番号自動通知サービスによって通知される電話番号情報を含む、ことを特徴とする、請求項１乃至４のいずれか一に記載の入力装置。
前記過去入力が、音声認識手段による入力を含む、ことを特徴とする、請求項１乃至４のいずれか一に記載の入力装置。
音響パタンを記憶保持する音響パタン部と、
音声を入力とし、入力音声と、前記音響パタン部から供給された各音響パタンとの間のパタンマッチングを行い、それぞれの音響パタンに対する音響スコアを計算する音響スコア計算部と、
各音響パタンに対するリスコアリング重みを記憶保持するリスコアリング重み保持部と、
前記音響スコア計算部から与えられたそれぞれの音響パタンの音響スコアと、前記リスコアリング重み保持部からの音響パタンのリスコアリング重みとの演算結果をそれぞれの音響パタンのスコアとし、前記音響パタンのスコアを出力するリスコアリング部と、
利用者に対して、入力を要求し、入力された内容を解釈する制御部と、
を備え、
前記制御部は、前記リスコアリング部から前記制御部に供給された各音響パタンのスコアを参照し、前記音響スコアの値に基づき選択した候補を、音声入力装置への入力結果として出力する手段と、
前記リスコアリング重み保持部に対して、既に確定している入力結果に基づき、以降の入力内容に対応する各音響パタンに対するリスコアリング重みの変更を行うように要求する手段と、
を備えている、ことを特徴とする音声入力装置。
前記制御部は、前記音響パタン部に対して、第１種の入力内容に関する音響パタンを規定した辞書を発行するように要求し、前記リスコアリング重み保持部に対して、前記第１種の入力内容に関する前記辞書の各音響パタンに対する重みが所定値であるリスコアリング重みを発行するように要求する手段を備え、
前記制御部からの要求を受けた前記音響パタン部は、前記音響スコア計算部に対して、入力される可能性のある、第１種の入力内容に関する音響パタンを規定した辞書を発行し、
前記制御部は、利用者に対して、第１種の入力内容を音声入力するよう要求する手段をさらに備え、
前記音響スコア計算部は、前記利用者からの入力音声と、前記音響パタン部から発行された第１種の入力内容に関する辞書との間のパタンマッチングを行い、各音響パタンと、入力音声の間の音響スコアを計算する、ことを特徴とする請求項８記載の音声入力装置。
前記リスコアリング重み保持部は、前記制御部からの要求に従い、前記リスコアリング部に対して、各音響パタンに対するリスコアリング重みを供給し、
前記リスコアリング部は、前記音響スコア計算部から与えられた各音響パタンの音響スコアと、前記リスコアリング重み保持部から与えられた各音響パタンのリスコアリング重みとを加算して、該当する音響パタンのスコアとし、各音響パタンのスコアを前記制御部に供給し、
前記制御部は、前記リスコアリング部から与えられた各音響パタンのスコアを比較し、最もスコアの高い候補を、入力結果として出力するとともに、前記入力結果から、前記入力結果に対応する、第１種の入力内容の情報を抽出して、記憶保持し、前記音響パタン部に対して、第２種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対して、前記記憶保持され既に確定している第１種の入力内容の情報に対応した、第２種の入力内容に関する前記辞書の重みを発行するように要求する、ことを特徴とする請求項８又は９記載の音声入力装置。
入力された数字を、前記制御部に出力する数字入力部をさらに備え、
前記制御部は、前記数字入力部より入力された数字列から、前記数字列に対応した第１種の入力内容の情報を抽出して記憶保持し、
前記制御部は、前記音響パタン部に対して、第２種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対して、前記記憶保持され既に確定している前記第１種の入力内容の情報に対応した前記第２種の入力内容に関する前記辞書の重みを発行するように要求する、ことを特徴とする請求項８記載の音声入力装置。
発信者電話番号自動通知サービスによって通知される発信者電話番号を受け取り、前記制御部に出力する発信者電話番号受信部を備え、
前記制御部は、前記発信者電話番号を受け取り、前記発信者電話番号に対応した第１種の入力内容の情報を抽出して記憶保持し、
前記制御部は、前記音響パタン部に対して、第２種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対して、前記記憶保持され既に確定している前記第１種の入力内容の情報に対応した第２種の入力内容に関する前記辞書の重みを発行するように要求する、ことを特徴とする請求項８記載の音声入力装置。
前記音響パタン部は、前記制御部からの要求に従い、前記音響スコア計算部に対して、入力される可能性のあるすべての第２種の入力内容に関する音響パタンを記述した辞書を発行し、
前記制御部は、利用者に対して、第２種の入力内容の音声を入力するよう要求し、
前記音響スコア計算部は、利用者により入力された音声と、前記音響パタン部から発行された辞書の音響パタンとの間のパタンマッチングを行い、入力音声とすべての第２種の入力内容の音響パタンの間の音響スコアを計算して、前記リスコアリング部に出力し、
前記リスコアリング重み保持部は、前記制御部からの要求に従い、第２種の入力内容の音響パタンのリスコアリング重みを、前記リスコアリング部に出力し、
前記リスコアリング部は、前記音響スコア計算部から供給された第２種の入力内容の音響スコアと、前記リスコアリング重み保持部から供給されたリスコアリング重みとを加算し、それぞれを、第２種の入力内容のスコアとして、前記制御部に出力し、
前記制御部は、前記リスコアリング部から与えられた、第２種の入力内容のスコアを比較し、最もスコアの高い候補を、音声入力装置に与えられた、第２種の入力内容の入力結果として出力する、ことを特徴とする請求項１０乃至１２のいずれか一に記載の音声入力装置。
入力者が入力装置に一連の情報を逐次入力する、入力方法において、
前記入力装置が、入力と該入力に対する選択肢の間の尤度を計算する第１のステップと、
前記入力装置が、すべての前記選択肢に対して定められた重みスコアと、前記尤度を加算して、前記選択肢のそれぞれに対するスコアを計算する第２のステップと、
前記入力装置が、前記スコアの比較によって、入力内容を、前記選択肢から選択する第３のステップと、
前記入力装置が、前記重みスコアの値を、前記一連の情報の入力の以前になされた入力（「過去入力」）に基づき、決定するステップと、
を含む、ことを特徴とする入力方法。
前記第１のステップでは、前記入力装置は、音声入力と該音声入力に対する選択肢の間の尤度を計算し、
前記第３のステップでは、前記入力装置は、前記スコアの比較によって、入力内容を前記選択肢から選択し、音声入力結果として出力する、ことを特徴とする請求項１３記載の入力方法。
前記重みスコアが、前記選択肢の出現確率を表すものである、ことを特徴とする、請求項１４又は１５記載の入力方法。
前記入力が、住所、名前、姓、名、姓名、年齢、電話番号のうちのいずれかを含む、ことを特徴とする、請求項１４乃至１６のいずれか一に記載の入力方法。
前記過去入力が、数字を入力する数字入力手段から入力された数字情報を含む、ことを特徴とする、請求項１４乃至１７のいずれか一に記載の入力方法。
前記過去入力が、発信者電話番号自動通知サービスによって通知される電話番号情報を含む、ことを特徴とする、請求項１４乃至１７のいずれか一に記載の入力方法。
前記過去入力が、音声認識手段に入力され音声認識された音声入力情報を含む、ことを特徴とする、請求項１４乃至１７のいずれか一に記載の入力方法。
音響スコア計算部、音響パタンを記憶保持する音響パタン部、リスコアリング部、リスコアリング重みを記憶保持するリスコアリング重み保持部、及び、制御部を有し、少なくとも音声入力を行う入力装置を用いた、情報の入力方法であって、
前記音響スコア計算部が、入力音声と、前記音響パタン部からの各音響パタンとの間のパタンマッチングを行い、各音響パタンに対する音響スコアを計算するステップと、
前記リスコアリング部が、前記音響スコア計算部から与えられた各音響パタンの音響スコアと、各音響パタンに対するリスコアリング重みを記憶保持するリスコアリング重み保持部からの音響パタンのリスコアリング重みとの演算を行って、各音響パタンのスコアを求め、それぞれの音響パタンのスコアを出力するステップと、
利用者に対して、入力を要求し、入力された内容を解釈する前記制御部が、前記リスコアリング部から供給された各音響パタンのスコアを参照して、スコアの値に基づき選択した候補を、入力結果として出力するステップと、
前記制御部が、前記リスコアリング重み保持部に対して、既に確定している入力結果に基づき、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を行うように要求するステップと、
を含む、ことを特徴とする入力方法。
前記制御部が、前記音響パタン部に対し、第１種の入力内容に関する音響パタンを規定した辞書を発行するように要求し、前記リスコアリング重み保持部に対し、前記第１種の入力内容の辞書の各音響パタンに対する重みが所定値であるリスコアリング重みを発行するように要求するステップと、
前記音響パタン部が、前記音響スコア計算部に対して、入力される可能性のある、すべての第１種の入力内容に関する音響パタンを記述した辞書を発行するステップと、
前記制御部が、前記利用者に対し、第１種の入力内容を音声入力するよう要求するステップと、
前記音響スコア計算部が、入力音声と、前記音響パタン部から発行された第１種の入力内容に関する辞書との間のパタンマッチングを行い、各音響パタンと、入力音声の間の音響スコアを計算するステップと、
を含む、ことを特徴とする請求項２１記載の入力方法。
前記リスコアリング重み保持部が、前記制御部からの要求に従い、前記リスコアリング部に対して、各音響パタンに対するリスコアリング重みを供給するステップと、
前記リスコアリング部が、前記音響スコア計算部から与えられた各音響パタンの音響スコアと、前記リスコアリング重み保持部から与えられた各音響パタンのリスコアリング重みを加算して、該当する音響パタンのスコアとし、各音響パタンのスコアを、前記制御部に供給するステップと、
前記制御部が、前記リスコアリング部から供給された各音響パタンのスコアを比較し、最もスコアの高い候補を、入力装置に与えられた入力結果として出力するとともに、入力結果から該入力結果に対応する第１種の入力内容の情報を抽出して記憶保持するステップと、
前記制御部が、前記音響パタン部に対し、第２種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対し、前記記憶保持され既に確定している前記第１種の入力内容の情報に対応した第２種の入力内容に関する前記辞書の各音響パタンに対する重みを発行するように要求するステップと、
を含む、ことを特徴とする請求項２１又は２２記載の入力方法。
数字入力部が、前記数字入力部に入力された数字列を、前記制御部に出力するステップと、
前記制御部が、前記数字入力部より供給された数字列に対応した第１種の入力内容の情報を抽出して記憶保持するステップと、
前記制御部が、前記音響パタン部に対し、第２種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対し、前記記憶保持され既に確定している前記第１種の入力内容の情報に対応した第２種の入力内容に関する前記辞書の重みを発行するように要求するステップと、
を含む、ことを特徴とする請求項２１記載の入力方法。
発信者電話番号受信部が、発信者電話番号自動通知サービスによって通知される発信者電話番号を、前記制御部に出力するステップと、
前記制御部は、前記発信者電話番号受信部より供給された発信者電話番号に対応する第１種の入力内容の情報を抽出して記憶保持するステップと、
前記制御部は、前記音響パタン部に対して、第２種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対し、前記記憶保持され既に確定している前記第１種の入力内容の情報に対応した第２種の入力内容に関する前記辞書の重みを発行するように要求するステップと、
を含む、ことを特徴とする請求項２１記載の入力方法。
前記音響パタン部が、前記制御部からの要求に基づき、前記音響スコア計算部に対し、入力される可能性のあるすべての第２種の入力内容に関する音響パタンを規定した辞書を発行するステップと、
前記制御部が、前記利用者に対し、第２種の入力内容の音声入力を行うように要求するステップと、
前記音響スコア計算部が、前記利用者によって入力された音声と、前記音響パタン部から発行済みの辞書との間のパタンマッチングを行い、入力音声とすべての第２種の入力内容の音響パタンの間の音響スコアを計算し、前記リスコアリング部に出力するステップと、
前記リスコアリング重み保持部が、前記制御部からの要求に基づき、第２種の入力内容の音響パタンのリスコアリング重みを、前記リスコアリング部に出力するステップと、
前記リスコアリング部が、前記音響スコア計算部から入力された第２種の入力内容の音響スコアと、前記リスコアリング重み保持部から出力されたリスコアリング重みとを加算し、それぞれを第２種の入力内容のスコアとして、前記制御部に出力するステップと、
前記制御部が、入力された第２種の入力内容のスコアを比較し、最もスコアの高い姓候補を、第２種の入力内容の入力結果として出力するステップと、
を含むことを特徴とする請求項２１乃至２５のいずれか一に記載の入力方法。
少なくとも音声入力を行う入力装置を構成するコンピュータに、
（ａ１）音声を入力とし、入力音声と、事前に用意された選択肢にそれぞれ対応する音響パタンとの間のパタンマッチングを行い、音響パタンに対する音響スコアを計算する処理（「音響スコア計算処理」という）と、
（ａ２）音響パタンの音響スコアと、各音響パタンに対するリスコアリング重みを記憶保持するリスコアリング重み保持部からの音響パタンのリスコアリング重みとの演算結果を、音響パタンのスコアとし、前記音響パタンのスコアを出力する処理（「リスコアリング処理」という）と、
（ａ３）前記音響パタンのスコアを参照して、前記スコアの値に基づき選択した候補を、入力結果として出力する処理と、
（ａ４）既に確定している入力結果に基づき、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を行うように制御する処理と、
を実行させるプログラム。
請求項２７記載のプログラムにおいて、
（ｂ１）音響パタンを記憶保持する音響パタン部に対し、第１種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、リスコアリング重みを保持するリスコアリング重み保持部に、前記第１種の入力内容の辞書の各音響パタンに対する重みが所定値であるリスコアリング重みを発行するように要求する、制御を行う処理と、
（ｂ２）前記音響パタン部から、前記音響スコア計算処理に対して、入力される可能性のある、すべての第１種の入力内容に関する音響パタンを記述した辞書を発行する処理と、
（ｂ３）利用者に対して、第１種の入力内容を音声入力するよう要求する処理と、
（ｂ４）前記利用者からの入力音声と、前記音響パタン部から発行された第１種の入力内容に関する辞書との間のパタンマッチングを行い、各音響パタンと、入力音声の間の音響スコアを計算する処理と、
を前記コンピュータに実行させるプログラム。
請求項２７又は２８記載のプログラムにおいて、
（ｃ１）前記リスコアリング重み保持部が、前記（ａ２）のリスコアリング処理に対して、各音響パタンに対するリスコアリング重みを供給する処理と、
（ｃ２）前記リスコアリング処理は、前記音響スコア計算処理から与えられた各音響パタンの音響スコアと、前記リスコアリング重み保持部から与えられた各音響パタンのリスコアリング重みを加算して、該当する音響パタンのスコアとし、各音響パタンのスコアを出力する処理と、
（ｃ３）各音響パタンのスコアを比較し、最もスコアの高い候補を、入力装置に与えられた入力結果として出力するとともに、入力結果から該入力結果に対応する第１種の入力内容の情報を抽出して記憶保持し、
（ｃ４）前記音響パタン部に対し、第２種の入力内容に関する辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対し、前記記憶保持され既に確定している前記第１種の入力内容の情報に対応した第２種の入力内容に関する前記辞書の重みを発行するように要求する処理と、
を前記コンピュータに実行させるプログラム。
請求項２７記載のプログラムにおいて、
（ｄ１）数字入力部から入力された数字列から、前記数字列に対応した第１種の入力内容の情報を抽出して記憶保持する処理と、
（ｄ２）前記音響パタン部に対し、第２種の入力内容に関する辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対して、前記記憶保持され既に確定している第１種の入力内容の情報に対応した第２種の入力内容に関する前記辞書の重みを発行するように要求する処理と、
を前記コンピュータに実行させるプログラム。
請求項２７記載のプログラムにおいて、
（ｅ１）発信者電話番号受信部より入力された発信者電話番号から、前記発信者電話番号に対応する第１種の入力内容の情報を抽出して記憶保持する処理と、（ｅ２）前記音響パタン部に対し、第２種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対して、前記記憶保持され既に確定している第１種の入力内容の情報に対応した第２種の入力内容に関する前記辞書の重みを発行するように要求する処理と、
を前記コンピュータに実行させるプログラム。
請求項２７乃至３１のいずれか一に記載のプログラムにおいて、
（ｆ１）前記音響パタン部は、前記音響スコア計算処理に対し、入力される可能性のあるすべての第２種の入力内容に関する音響パタンを記述した辞書を発行する処理と、
（ｆ２）利用者に対し、第２種の入力内容の音声入力するよう要求する処理と、
（ｆ３）前記利用者より入力された音声と、前記音響パタン部より発行された辞書との間のパタンマッチングを行い、入力音声とすべての第２種の入力内容の音響パタンの間の音響スコアを計算し、第２種の入力内容の音響スコアとして出力する処理と、
（ｆ４）前記第２種の入力内容の音響スコアと、前記リスコアリング重み保持部から出力されたリスコアリング重みとを加算し、それぞれを、第２種の入力内容のスコアとして出力する処理と、
（ｆ５）前記第２種の入力内容のスコアを比較し、最もスコアの高い候補を、第２種の入力内容の入力結果として出力する処理と、
を前記コンピュータに実行させるプログラム。