JP2004157919A - 入力装置及び音声入力方法と装置並びにプログラム - Google Patents
入力装置及び音声入力方法と装置並びにプログラム Download PDFInfo
- Publication number
- JP2004157919A JP2004157919A JP2002325085A JP2002325085A JP2004157919A JP 2004157919 A JP2004157919 A JP 2004157919A JP 2002325085 A JP2002325085 A JP 2002325085A JP 2002325085 A JP2002325085 A JP 2002325085A JP 2004157919 A JP2004157919 A JP 2004157919A
- Authority
- JP
- Japan
- Prior art keywords
- input
- unit
- rescoring
- pattern
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
【課題】ユニグラムの精度が不十分であることによる、あるいはユニグラムのミスマッチに起因する認識性能の低下を回避する装置の提供。
【解決手段】音声を入力とし、入力音声と、事前に用意された各選択肢に対応する音響パタンとの間のパタンマッチングを行い、各音響パタンに対する音響スコアを計算する音響スコア計算部101と、音響パタンを保持する音響パタン部102と、各音響パタンに対する重みを保持するリスコアリング重み保持部103と、音響スコア及びリスコアリング重みから各選択肢のスコアを計算するリスコアリング部104と、入力者に対し入力を要求し、入力された内容を解釈する制御部105と、を備え、事前に得られている他の入力情報により、ユニグラムの値を切り替える。
【選択図】図1
【解決手段】音声を入力とし、入力音声と、事前に用意された各選択肢に対応する音響パタンとの間のパタンマッチングを行い、各音響パタンに対する音響スコアを計算する音響スコア計算部101と、音響パタンを保持する音響パタン部102と、各音響パタンに対する重みを保持するリスコアリング重み保持部103と、音響スコア及びリスコアリング重みから各選択肢のスコアを計算するリスコアリング部104と、入力者に対し入力を要求し、入力された内容を解釈する制御部105と、を備え、事前に得られている他の入力情報により、ユニグラムの値を切り替える。
【選択図】図1
Description
【0001】
【発明の属する技術分野】
本発明は、入力装置に関し、特に、音声認識機能を具備する入力装置に関する。
【0002】
【従来の技術】
電話等を利用した音声入力装置において、音声認識の不確実さを補うために、事前に予測される選択肢の出現確率等の重みを用いて音声入力スコアのリスコアリングを行い、総合的に認識率を向上させる手法が従来より行われている。
【0003】
N−グラム言語モデルを利用した(連続)音声認識として、例えば以下の文献が参照される(非特許文献1)
【0004】
【非特許文献1】
「音声認識システム」、鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄編著、オーム社、平成13年5月15日発刊(第53〜69頁)
【0005】
上記非特許文献1の第53〜69頁に記載されているように、想定される入力内容のすべての候補、あるいは、そのうち探索対象となる一部の候補について、事前の言語的知識を利用して、N−グラム等による重み付けを行い、言語的な統計量をも含めた出現頻度に応じた、入力内容の確率的推定を行う方法がある。
【0006】
なお、音声入力を行う人の属性等の違いにより標準の発音とは異なる音声信号が入力された場合であっても精度よく音声認識を行うことを可能とした音声認識装置が提案されている(例えば特許文献1参照)。この特許文献1には、地域、民族、階層、個人などの属性により複数の属性別辞書を記憶する音声辞書記憶部と、音声信号中の特徴に基づいて音声信号に対応する属性別辞書を選択する音声辞書選択部と、音声辞書選択部が選択した属性別辞書を用いて音声信号を音声認識する音声認識部を備えた構成が開示されている。この特許文献1の構成は、入力音声を、例えば標準辞書、属性別辞書1、属性別辞書2、…、標準辞書と何回か入力し、同一入力を何度か認識するものである。
【0007】
また電話の発信地域や発信者の違いなどによって標準の発音とは異なる音声信号に対しても精度よく音声認識を行う音声認識機能を備えた通信装置が提案されている(例えば特許文献2)。この通信装置は、通信回線を介して送られる相手側装置の識別情報を検出する識別情報検出手段と、識別情報(相手側装置の電話番号等)ごと(あるいは個人ごと)に異なる音声情報が格納された識別情報別辞書を備えた音声辞書記憶手段と、識別情報検出手段により検出された相手側装置の識別情報に基づいて、音声辞書記憶手段から対応する識別情報別辞書を選択する辞書選択手段と、辞書選択手段によって選択された識別情報別辞書を用いて相手側装置からの音声信号を認識する音声認識手段と、を備えた通信装置が開示されている。そして、特許文献2の装置では、辞書の変更の例として、地域の言葉に対応(語彙の変更)、個人の声紋に対応(音声特徴の変更)があげられており、認識候補の重み(個人の音声特徴に依存しない、語彙は変更しない)については何も記載されていない。
【0008】
さらに、話者を限定するための話者認識部を有し、話者の最初に入力された特定のフレーズ(「もしもし」等)により話者を限定し、その後の入力に対してその人の所有辞書のみを認識対象とすることにより、対象辞書を少なくし、認識率の向上と処理の高速化を図ることができる音声ダイヤル装置が知られている(例えば特許文献3)。
【0009】
そして、認識対象語彙を登録した語彙で構成された複数の辞書を備えた辞書部と、複数の電話番号と辞書との対応を登録した対応テーブルと、発信者電話番号と対応テーブルの電話番号とを比較し、発信者電話番号に対応した辞書を認識部に通知する辞書切り替え部とを備えた電話音声認識装置も知られている(例えば特許文献4)。この従来の装置においても、発信者電話番号に対応して語彙の変更を行っている。
【0010】
【特許文献1】
特開2000−122686号公報(第2乃至第5頁、第4図)
【特許文献2】
特開2000−125031号公報(第2頁、第4図)
【特許文献3】
特開平1−156799号公報(第2乃至第5頁、第4図)
【特許文献4】
特開平11−355445号公報(第2頁、第1図)
【0011】
【発明が解決しようとする課題】
上記したように、上記非特許文献1に記載された手法では、想定される入力内容のすべての候補、あるいは、そのうち探索対象となる一部の候補について、事前の言語的知識を利用してN−グラム等による重み付けを行っているが、それらの重みは、事前に設定されたままの数値が用いられていることが多く、入力内容から得られる情報を十分に反映しているとは言いがたい。
【0012】
例えば、日本人の名字を認識する場合、図6に示すような、ユニグラムを使用することがあるが、これは、日本全体の名字の分布を表したものであり、入力したい内容、例えば特定人物の住所を含む特定地域の名字の分布を表すものではない。この点において、従来の手法は、リスコアリング(re−scoring)による性能向上効果を十分に引き出せない可能性がある。
【0013】
したがって、本発明の主たる目的は、例えば特定人物の住所のような、入力内容に関連のある過去の入力内容等からの情報を言語モデルの重みに反映させ、より適切なユニグラムを選択することにより、正確なリスコアリングを行い、入力時の認識性能を向上させる装置及び方法並びにプログラムを提供することにある。
【0014】
【課題を解決するための手段】
前記目的を達成する本発明の一つのアスペクト(側面)による入力装置は、入力者が一連の情報を逐次入力する入力装置において、入力と該入力に対する選択肢の間の尤度を計算し、すべての前記選択肢に対して定められた重みスコアと、前記尤度を加算して、前記選択肢のそれぞれに対するスコアを計算する手段と、前記スコアの比較によって、入力内容を、前記選択肢から選択する手段と、を有する入力手段を備え、前記重みスコアの値は、前記一連の情報の入力の以前になされた入力(「過去入力」)に基づき、決定される、ことを特徴とする。
【0015】
本発明において、前記入力手段が、音声入力に対する音声認識手段で構成してもよい。本発明において、前記重みスコアが、前記選択肢の出現確率を表すものであってもよい。また、本発明において、前記入力が、住所、名前、姓、名、姓名、年齢、電話番号のうちのいずれかを含む構成としてもよい。あるいは、本発明において、前記過去入力は、数字を入力する手段からの数字情報、または発信者電話番号自動通知サービスによって通知される電話番号、または、音声認識手段による入力を含む構成としてもよい。
【0016】
本発明の装置は、別のアスペクトによれば、音響パタンを記憶保持する音響パタン部と、音声を入力とし、入力音声と、事前に用意された選択肢にそれぞれ対応する音響パタンとの間のパタンマッチングを行い、音響パタンに対する音響スコアを計算する音響スコア計算部と、各音響パタンに対するリスコアリング重みを記憶保持するリスコアリング重み保持部と、前記音響スコア計算部から与えられた音響パタンの音響スコアと、前記リスコアリング重み保持部からの音響パタンのリスコアリング重みとの演算結果を、音響パタンのスコアとし、前記音響パタンのスコアを出力するリスコアリング部と、入力者に対し入力を要求し、入力された内容を解釈する制御を行う制御部と、を備え、前記制御部は、前記リスコアリング部から入力された音響パタンのスコアを参照して、スコアに基づき候補を選択し、音声入力装置の入力結果として出力する手段と、確定した入力結果に基づき、前記リスコアリング部重み保持部に対して、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を行うように要求する手段と、を備えている。
【0017】
上記目的を達成する本発明の別のアスペクトに係る方法は、入力者が音声入力装置に一連の情報を逐次入力する、音声入力の方法において、音声入力と該音声入力に対する選択肢の間の尤度を計算するステップと、すべての前記選択肢に対して定められた重みスコアと、前記尤度を加算して、前記選択肢のそれぞれに対するスコアを計算するステップと、前記スコアの比較によって、入力内容を、前記選択肢から選択するステップと、前記重みスコアの値は、前記一連の情報の入力の以前になされた入力(「過去入力」)に基づき、決定されるステップと、を含む。
【0018】
上記目的を達成する本発明の他のアスペクトに係るコンピュータ・プログラムは、音声入力装置を構成するコンピュータに、(a1)音声を入力とし、入力音声と、事前に用意された選択肢にそれぞれ対応する音響パタンとの間のパタンマッチングを行い、音響パタンに対する音響スコアを計算する音響スコア計算部処理と、
(a2)前記音響スコア計算処理から与えられた音響パタンの音響スコアと、各音響パタンに対するリスコアリング重みを記憶保持するリスコアリング重み保持部からの音響パタンのリスコアリング重みとの演算結果を、音響パタンのスコアとし、前記音響パタンのスコアを出力するリスコアリング処理と、
(a3)前記リスコアリング処理から入力された音響パタンのスコアを参照して、スコアの値に基づき候補を選択し、選択した候補を入力結果として出力する処理と、
(a4)前記リスコアリング部重み保持部に対して、確定した入力結果に基づき、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を行うように要求する制御を行う処理と、を実行させるプログラムよりなる。
【0019】
[発明の概要]
本発明においては、音響スコア計算部(例えば図1の101)、リスコアリング部(例えば図1の104)、リスコアリング重み保持部(例えば図1の103)を備え、さらに、音声入力以外の入力手段(例えば図3の106、あるいは図5の107)を備え、これら各部の動作を制御する制御部(図1の105)を備えた入力装置が、事前に設定された手順に従い、入力者に、予め定められた特定の手段による入力を要求する。本発明における制御部(図1の105)は、入力者からの入力があるたびに、リスコアリング重み保持部(図1の103)に対し、該当入力に基づき、重みを修正するように要求する。しかる後に、入力者に対し、次の入力(音声入力)を要求し、入力を続行する制御を行う。
【0020】
かかる構成の本発明においては、例えば、入力者の自宅住所、自宅電話番号、及び姓を、それぞれ、音声認識、プッシュボタン、音声認識を用いて、この順番で入力する場合において、事前に、電話のプッシュボタン経由で入力された市外局番つきの電話番号から、入力者の在住都道府県を推定し、姓音声認識におけるリスコアリング重みを、入力者の住所に応じて、変更することができる。また、住所の音声入力結果を利用することで、在住都道府県の推定精度を向上することができる。
【0021】
前述のように、日本人の姓の分布は、都道府県ごとに偏りがある。極端な例を挙げれば、沖縄県の姓分布は、全国の姓分布と著しく異なっている。これを見ればわかるように、他の入力結果を利用して、重みを変える手段は、認識性能を向上させるために有効である。
【0022】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態について説明する。図1は、本発明の一実施の形態の構成を示す図である。図1を参照すると、本発明の一実施の形態に係る入力装置は、音声を入力とし、入力音声と、事前に用意された各選択肢に対応する音響パタンとの間のパタンマッチングを行い、各音響パタンに対する音響スコアを計算する音響スコア計算部101と、音響パタンを保持する音響パタン部102と、各音響パタンに対する重みを保持するリスコアリング重み保持部103と、音響スコア及びリスコアリング重みから各選択肢のスコアを計算するリスコアリング部104と、入力者に対し入力を要求し、入力された内容を解釈する制御部105と、を備えて構成されている。
【0023】
以下、各要素の動作の概略について説明する。音響スコア計算部101は、前述したように、図示されない音声入力部より入力された入力音声(デジタル音声信号)と、事前に用意された音響パタンとの間でのパタンマッチングを行い、各音響パタンと、入力音声の間の音響スコアを計算する。
【0024】
音響パタン部102は、音響スコア計算部101に対し、音響パタンを供給する。
【0025】
リスコアリング重み保持部103は、制御部105の指示に従い、リスコアリング部104に対して、各音響パタンに対するリスコアリング重みを供給する。
【0026】
リスコアリング部104は、音響スコア計算部101から与えられた各音響パタンの音響スコアと、リスコアリング重み保持部103から与えられた各音響パタンのリスコアリング重みを加算して、該当する音響パタンのスコアとし、各音響パタンのスコアを制御部105に出力する。
【0027】
制御部105は、リスコアリング部104から入力された音響パタンのスコアを参照して、例えば、最もスコアの高い候補を選択し、入力装置自体の入力結果として、出力する。
【0028】
また、制御部105は、この入力結果を基に、リスコアリング重み保持部103に対して、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を要求する。
【0029】
図2は、本発明の一実施形態の処理手順を示す流れ図である。本実施の形態に係る入力装置の動作について、図2を用いて説明する。図2に示す動作の実施形態では、図1に示した構成の入力装置において、入力として、住所の音声入力、姓の音声入力を行う、一連の動作を説明するものである。
【0030】
まず、図2に示すステップS1において、制御部105は、音響パタン部102に対して、住所辞書を発行するように要求する。また、制御部105は、リスコアリング重み保持部103に対し、住所辞書の各音響パタンに対する重みが「0.0」であるようなリスコアリング重みを発行するように要求する。
【0031】
次に、ステップS2において、音響パタン部102は、音響スコア計算部101に対して、入力される可能性のある、すべての住所の音響パタンを記述した住所辞書を発行する。
【0032】
次に、ステップS3において、制御部105は、入力者に対し、住所を音声入力するよう要求する。
【0033】
次に、ステップS4において、音響スコア計算部101は、入力された音声と、発行済みの住所辞書との間のパタンマッチングを行い、入力音声とすべての住所の音響パタンの間の音響スコアを計算し、リスコアリング部104に出力する。
【0034】
ここで、音響スコアは、例えば一定時間の音声の特徴を表現した特徴量を時系列順に並べた特徴量列と、その特徴量をパラメータとして持つHMM(Hidden Markov Model)の間のViterbi(ビタビ)マッチングによって得られる対数尤度である。
【0035】
次に、ステップS5において、リスコアリング重み保持部103は、住所音響パタンのリスコアリング重みを、リスコアリング部104に出力する。
【0036】
次に、ステップS6において、リスコアリング部104は、音響スコア計算部101から入力された各住所の音響スコアと、リスコアリング重み保持部103から出力されたリスコアリング重みを加算し、それぞれを各住所のスコアとして、制御部105に出力する。
【0037】
次に、ステップS7において、制御部105は、入力された全住所のスコアを比較し、最もスコアの高い住所候補を、入力装置に与えられた、住所の入力結果として出力する。また、制御部105は、住所の入力結果から、都道府県を抽出して、図示されない記憶装置に記憶保持しておく。
【0038】
以上で、住所の入力が終了する。
【0039】
次に、ステップS8において、制御部105は、音響パタン部102に対して、姓辞書(姓の音響パタンを記述した辞書)を発行するように要求する。また、制御部105は、リスコアリング重み保持部103に対して、ステップS7において記憶保持した、都道府県に対応した、姓辞書の重みを発行するように要求する。
【0040】
ステップS9において、ステップS2と同様、音響パタン部102は、音響スコア計算部101に対して、入力される可能性のあるすべての姓の音響パタンを記述した姓辞書を発行する。
【0041】
ステップS10において、ステップS3と同様、制御部105は、入力者に対し、姓を音声入力するよう要求する。
【0042】
ステップS11において、ステップS4と同様、音響スコア計算部101は、入力された音声と、発行済みの姓辞書との間のパタンマッチングを行い、入力音声とすべての姓の音響パタンの間の音響スコアを計算し、リスコアリング部104に出力する。
【0043】
ステップS12においては、ステップS5と同様、リスコアリング重み保持部103は、姓音響パタンのリスコアリング重みを、リスコアリング部104に出力する。
【0044】
ステップS13においては、ステップS6と同様、リスコアリング部104は、音響スコア計算部101から入力された各姓の音響スコアと、リスコアリング重み保持部から出力されたリスコアリング重みとを加算し、それぞれを各姓のスコアとして、制御部105に出力する。
【0045】
ステップS14においては、ステップS7と同様、制御部105は、入力された全姓のスコアを比較し、最もスコアの高い姓候補を、入力装置に与えられた、姓の入力結果として出力する。
【0046】
以上で、姓の入力が終了する。
【0047】
この実施の形態に係る入力装置は、住所、および姓の入力を受けて、出力するものであり、住所と、姓の分布の相関を利用している。同様にして、年齢と個人名との間の相関、住所と電話番号の市外局番との間の相関を利用することもできる。また、過去の入力(ともに確定している)が複数ある場合、例えば、住所および電話番号の入力がなされている場合には、これら両者の入力結果から、都道府県等を推定する手法を採ることで、より確実に、リスコアリング重みを設定することができる。
【0048】
なお、この実施の形態において、音響パタン部102、音響スコア計算部101、リスコアリング部104と、リスコアリング重み保持103、制御部105における上記各処理は、図1の入力装置を構成するコンピュータのプログラムによって実現するようにしてもよいことは勿論である。この場合、プログラムの動作仕様は、図2の流れ図に従う。
【0049】
次に本発明の第2の実施の形態について説明する。図3は、本発明の第2の実施の形態に係る入力装置の構成を示す図である。図3を参照すると、本発明の第2の実施の形態に係る入力装置は、図1に示した前記実施の形態に係る入力装置に加えて、数字入力部106をさらに備えている。数字入力部106は、入力者からの数字入力を受け付ける。
【0050】
数字入力部106は、入力者からの数字入力を受け取り、その内容を、制御部105に渡す。それ以外の構成は、前記実施の形態と同一である。
【0051】
図4は、本発明の第2の実施の形態における入力装置の動作について説明するための流れ図である。図4に示す例は、入力として、電話番号の数字入力と、姓の音声入力を行う入力装置の例である。
【0052】
まず、図4のステップS1において、制御部105は、入力者に対して、電話番号を数字入力するよう要求する。
【0053】
次に、ステップS2において、数字入力部106は、入力された数字を、そのまま制御部105に出力する。
【0054】
次に、ステップS3において、制御部105は、入力された電話番号を、そのまま出力する。また、電話番号から、市外局番部分を抽出し、その電話番号に相当する都道府県名を記憶装置に記憶保持しておく。
【0055】
以上の処理で、電話番号の入力が終了する。
【0056】
次に、ステップS4において、制御部105は、音響パタン部102に対し、姓辞書を発行するように要求する。また、制御部105は、リスコアリング重み保持部103に対し、ステップS3において記憶保持した、都道府県に応じた、姓辞書の重みを発行するように要求する。
【0057】
次にステップS5において、音響パタン部102は、音響スコア計算部101に対して、入力される可能性のあるすべての姓の音響パタンを記述した姓辞書を発行する。
【0058】
ステップS6において、制御部105は、入力者に対し、姓を音声入力するよう要求する。
【0059】
ステップS7において、音響スコア計算部101は、入力された音声と発行済みの姓辞書との間のパタンマッチングを行い、入力音声とすべての姓の音響パタンの間の音響スコアを計算し、リスコアリング部104に出力する。
【0060】
ステップS8において、リスコアリング重み保持部103は、姓音響パタンのリスコアリング重みをリスコアリング部104に出力する。
【0061】
ステップS9において、リスコアリング部104は、音響スコア計算部101から入力された各姓の音響スコアと、リスコアリング重み保持部から出力されたリスコアリング重みを加算し、それぞれを各姓のスコアとして制御部105に出力する。
【0062】
ステップS10において、制御部105は、入力された全姓のスコアを比較し、最もスコアの高い姓候補を、入力装置に与えられた姓入力結果として出力する。
【0063】
以上で、姓の入力が終了する。
【0064】
このように、本発明の第2の実施の形態に係る入力装置は、電話番号および、姓の入力を受け、出力する。本発明を実施する場合の数字入力装置としては、各種電話機の入力部分へ適用される。また、専用の端末に、テンキー等の入力装置を設ける構成としてもよい。なお、この実施の形態においても、図4に流れ図として示した処理を、入力装置を構成するコンピュータで実行されるプログラムで実現してもよいことは勿論である。
【0065】
次に、本発明の第3の実施の形態について説明する。図5は、本発明の第3の実施の形態の構成を示す図である。図5を参照すると、本発明の第3の実施の形態の入力装置は、図1の入力装置の構成に加え、発信者番号受信部107をさらに備えている。
【0066】
発信者番号受信部107は、発信者電話番号自動通知サービスによって通知される発信者電話番号通信信号を受け取り、発信者電話番号を、制御部105に通知する。制御部105は、発信者番号受信部107から発信者電話番号を受け取り、発信者電話番号から市外局番部分を抽出し、その電話番号に相当する都道府県名を記憶装置に記憶保持しておく。そして、制御部105は、リスコアリング重み保持部103に対し、ステップS3において、記憶保持した、都道府県に応じた、姓辞書の重みを発行するように要求する(図4のステップS4参照)。また、前記第2の実施の形態と同様にして、制御部105は、音響パタン部102に対し、姓辞書を発行するように要求する(図4のステップS5参照)。以降の処理は、前記第2の実施の形態と同様である。
【0067】
電話回線経由の電話番号認識に限定されるが、前記した本発明の第2の実施の形態と同様に、発信者番号の自動通知信号を受けることにより、発信者の電話番号の入力装置相当のものとして動作する。
【0068】
また、これらの実施の形態において、音声認識装置を使用している部分を、手書き文字認識装置、OCR(optical character reader)等の自動認識手段に置き換えることも可能であり、本発明は、これらの装置についても同様にして適用できる。
【0069】
以下では、本発明と、比較例として、上記特許文献1乃至4に記載された発明との相違点について概説しておく。上記特許文献1記載の発明の構成では、入力音声を標準辞書→属性別辞書1→属性別辞書2、…、→標準辞書と、同一入力を何度も認識しているのに対して、本発明では、過去の入力結果に基づき、リスコアリング重みを変更しており、入力に対する認識は1回であり、同一入力を何度も認識する必要はなく、確定済みの入力に基づき、リスコアリング重みを変更しており、属性の推定精度は高い。また上記特許文献2では、辞書を変更として、語彙の変更(地域の言葉に対応)を行っており、これに対して、本発明では、語彙の選択は行っていない。本発明において、地域の言葉に対応する場合であっても、当該地域固有でな語彙を拒否するものでなく、当該地域以外に固有の語彙を認識対象とすることができる。さらに、上記特許文献3では、入力者の第一声により、話者を特定し、専用の辞書を用いて(語彙を変更して)いる。なお、語彙の変更による認識対象範囲の縮小化は、本発明には直接関係しない。上記特許文献4では、発信者電話番号あるいは過去の発声より認識辞書を変更(語彙の変更)している。本発明では、語彙は変更しない。
【0070】
以上本発明を上記実施の形態に即して説明したが、本発明は上記実施形態の構成にのみ限定されるものでなく、特許請求の範囲の請求項の発明の範囲内で、当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
【0071】
【発明の効果】
以上説明したように、本発明によれば、過去の確定入力に基づき音響パタンに対するリスコアリング重みの変更を行うように構成しており、辞書の同一人物に関する複数の情報を統合することにより、より信頼性の高い認識を実現でき、音声認識を利用した従来の装置よりも高性能な入力装置を実現することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示す図である。
【図2】本発明の第1の実施の形態の動作を示す流れ図である。
【図3】本発明の第2の実施の形態の構成を示す図である。
【図4】本発明の第2の実施の形態の動作を示す流れ図である。
【図5】本発明の第3の実施の形態の構成を示す図である。
【図6】日本全体の苗字の分布を表すユニグラムである。
【符号の説明】
101 音響スコア計算部
102 音響パタン部
103 リスコアリング重み保持部
104 リスコアリング部
105 制御部
106 数字入力部
107 発信者番号受信部
【発明の属する技術分野】
本発明は、入力装置に関し、特に、音声認識機能を具備する入力装置に関する。
【0002】
【従来の技術】
電話等を利用した音声入力装置において、音声認識の不確実さを補うために、事前に予測される選択肢の出現確率等の重みを用いて音声入力スコアのリスコアリングを行い、総合的に認識率を向上させる手法が従来より行われている。
【0003】
N−グラム言語モデルを利用した(連続)音声認識として、例えば以下の文献が参照される(非特許文献1)
【0004】
【非特許文献1】
「音声認識システム」、鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄編著、オーム社、平成13年5月15日発刊(第53〜69頁)
【0005】
上記非特許文献1の第53〜69頁に記載されているように、想定される入力内容のすべての候補、あるいは、そのうち探索対象となる一部の候補について、事前の言語的知識を利用して、N−グラム等による重み付けを行い、言語的な統計量をも含めた出現頻度に応じた、入力内容の確率的推定を行う方法がある。
【0006】
なお、音声入力を行う人の属性等の違いにより標準の発音とは異なる音声信号が入力された場合であっても精度よく音声認識を行うことを可能とした音声認識装置が提案されている(例えば特許文献1参照)。この特許文献1には、地域、民族、階層、個人などの属性により複数の属性別辞書を記憶する音声辞書記憶部と、音声信号中の特徴に基づいて音声信号に対応する属性別辞書を選択する音声辞書選択部と、音声辞書選択部が選択した属性別辞書を用いて音声信号を音声認識する音声認識部を備えた構成が開示されている。この特許文献1の構成は、入力音声を、例えば標準辞書、属性別辞書1、属性別辞書2、…、標準辞書と何回か入力し、同一入力を何度か認識するものである。
【0007】
また電話の発信地域や発信者の違いなどによって標準の発音とは異なる音声信号に対しても精度よく音声認識を行う音声認識機能を備えた通信装置が提案されている(例えば特許文献2)。この通信装置は、通信回線を介して送られる相手側装置の識別情報を検出する識別情報検出手段と、識別情報(相手側装置の電話番号等)ごと(あるいは個人ごと)に異なる音声情報が格納された識別情報別辞書を備えた音声辞書記憶手段と、識別情報検出手段により検出された相手側装置の識別情報に基づいて、音声辞書記憶手段から対応する識別情報別辞書を選択する辞書選択手段と、辞書選択手段によって選択された識別情報別辞書を用いて相手側装置からの音声信号を認識する音声認識手段と、を備えた通信装置が開示されている。そして、特許文献2の装置では、辞書の変更の例として、地域の言葉に対応(語彙の変更)、個人の声紋に対応(音声特徴の変更)があげられており、認識候補の重み(個人の音声特徴に依存しない、語彙は変更しない)については何も記載されていない。
【0008】
さらに、話者を限定するための話者認識部を有し、話者の最初に入力された特定のフレーズ(「もしもし」等)により話者を限定し、その後の入力に対してその人の所有辞書のみを認識対象とすることにより、対象辞書を少なくし、認識率の向上と処理の高速化を図ることができる音声ダイヤル装置が知られている(例えば特許文献3)。
【0009】
そして、認識対象語彙を登録した語彙で構成された複数の辞書を備えた辞書部と、複数の電話番号と辞書との対応を登録した対応テーブルと、発信者電話番号と対応テーブルの電話番号とを比較し、発信者電話番号に対応した辞書を認識部に通知する辞書切り替え部とを備えた電話音声認識装置も知られている(例えば特許文献4)。この従来の装置においても、発信者電話番号に対応して語彙の変更を行っている。
【0010】
【特許文献1】
特開2000−122686号公報(第2乃至第5頁、第4図)
【特許文献2】
特開2000−125031号公報(第2頁、第4図)
【特許文献3】
特開平1−156799号公報(第2乃至第5頁、第4図)
【特許文献4】
特開平11−355445号公報(第2頁、第1図)
【0011】
【発明が解決しようとする課題】
上記したように、上記非特許文献1に記載された手法では、想定される入力内容のすべての候補、あるいは、そのうち探索対象となる一部の候補について、事前の言語的知識を利用してN−グラム等による重み付けを行っているが、それらの重みは、事前に設定されたままの数値が用いられていることが多く、入力内容から得られる情報を十分に反映しているとは言いがたい。
【0012】
例えば、日本人の名字を認識する場合、図6に示すような、ユニグラムを使用することがあるが、これは、日本全体の名字の分布を表したものであり、入力したい内容、例えば特定人物の住所を含む特定地域の名字の分布を表すものではない。この点において、従来の手法は、リスコアリング(re−scoring)による性能向上効果を十分に引き出せない可能性がある。
【0013】
したがって、本発明の主たる目的は、例えば特定人物の住所のような、入力内容に関連のある過去の入力内容等からの情報を言語モデルの重みに反映させ、より適切なユニグラムを選択することにより、正確なリスコアリングを行い、入力時の認識性能を向上させる装置及び方法並びにプログラムを提供することにある。
【0014】
【課題を解決するための手段】
前記目的を達成する本発明の一つのアスペクト(側面)による入力装置は、入力者が一連の情報を逐次入力する入力装置において、入力と該入力に対する選択肢の間の尤度を計算し、すべての前記選択肢に対して定められた重みスコアと、前記尤度を加算して、前記選択肢のそれぞれに対するスコアを計算する手段と、前記スコアの比較によって、入力内容を、前記選択肢から選択する手段と、を有する入力手段を備え、前記重みスコアの値は、前記一連の情報の入力の以前になされた入力(「過去入力」)に基づき、決定される、ことを特徴とする。
【0015】
本発明において、前記入力手段が、音声入力に対する音声認識手段で構成してもよい。本発明において、前記重みスコアが、前記選択肢の出現確率を表すものであってもよい。また、本発明において、前記入力が、住所、名前、姓、名、姓名、年齢、電話番号のうちのいずれかを含む構成としてもよい。あるいは、本発明において、前記過去入力は、数字を入力する手段からの数字情報、または発信者電話番号自動通知サービスによって通知される電話番号、または、音声認識手段による入力を含む構成としてもよい。
【0016】
本発明の装置は、別のアスペクトによれば、音響パタンを記憶保持する音響パタン部と、音声を入力とし、入力音声と、事前に用意された選択肢にそれぞれ対応する音響パタンとの間のパタンマッチングを行い、音響パタンに対する音響スコアを計算する音響スコア計算部と、各音響パタンに対するリスコアリング重みを記憶保持するリスコアリング重み保持部と、前記音響スコア計算部から与えられた音響パタンの音響スコアと、前記リスコアリング重み保持部からの音響パタンのリスコアリング重みとの演算結果を、音響パタンのスコアとし、前記音響パタンのスコアを出力するリスコアリング部と、入力者に対し入力を要求し、入力された内容を解釈する制御を行う制御部と、を備え、前記制御部は、前記リスコアリング部から入力された音響パタンのスコアを参照して、スコアに基づき候補を選択し、音声入力装置の入力結果として出力する手段と、確定した入力結果に基づき、前記リスコアリング部重み保持部に対して、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を行うように要求する手段と、を備えている。
【0017】
上記目的を達成する本発明の別のアスペクトに係る方法は、入力者が音声入力装置に一連の情報を逐次入力する、音声入力の方法において、音声入力と該音声入力に対する選択肢の間の尤度を計算するステップと、すべての前記選択肢に対して定められた重みスコアと、前記尤度を加算して、前記選択肢のそれぞれに対するスコアを計算するステップと、前記スコアの比較によって、入力内容を、前記選択肢から選択するステップと、前記重みスコアの値は、前記一連の情報の入力の以前になされた入力(「過去入力」)に基づき、決定されるステップと、を含む。
【0018】
上記目的を達成する本発明の他のアスペクトに係るコンピュータ・プログラムは、音声入力装置を構成するコンピュータに、(a1)音声を入力とし、入力音声と、事前に用意された選択肢にそれぞれ対応する音響パタンとの間のパタンマッチングを行い、音響パタンに対する音響スコアを計算する音響スコア計算部処理と、
(a2)前記音響スコア計算処理から与えられた音響パタンの音響スコアと、各音響パタンに対するリスコアリング重みを記憶保持するリスコアリング重み保持部からの音響パタンのリスコアリング重みとの演算結果を、音響パタンのスコアとし、前記音響パタンのスコアを出力するリスコアリング処理と、
(a3)前記リスコアリング処理から入力された音響パタンのスコアを参照して、スコアの値に基づき候補を選択し、選択した候補を入力結果として出力する処理と、
(a4)前記リスコアリング部重み保持部に対して、確定した入力結果に基づき、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を行うように要求する制御を行う処理と、を実行させるプログラムよりなる。
【0019】
[発明の概要]
本発明においては、音響スコア計算部(例えば図1の101)、リスコアリング部(例えば図1の104)、リスコアリング重み保持部(例えば図1の103)を備え、さらに、音声入力以外の入力手段(例えば図3の106、あるいは図5の107)を備え、これら各部の動作を制御する制御部(図1の105)を備えた入力装置が、事前に設定された手順に従い、入力者に、予め定められた特定の手段による入力を要求する。本発明における制御部(図1の105)は、入力者からの入力があるたびに、リスコアリング重み保持部(図1の103)に対し、該当入力に基づき、重みを修正するように要求する。しかる後に、入力者に対し、次の入力(音声入力)を要求し、入力を続行する制御を行う。
【0020】
かかる構成の本発明においては、例えば、入力者の自宅住所、自宅電話番号、及び姓を、それぞれ、音声認識、プッシュボタン、音声認識を用いて、この順番で入力する場合において、事前に、電話のプッシュボタン経由で入力された市外局番つきの電話番号から、入力者の在住都道府県を推定し、姓音声認識におけるリスコアリング重みを、入力者の住所に応じて、変更することができる。また、住所の音声入力結果を利用することで、在住都道府県の推定精度を向上することができる。
【0021】
前述のように、日本人の姓の分布は、都道府県ごとに偏りがある。極端な例を挙げれば、沖縄県の姓分布は、全国の姓分布と著しく異なっている。これを見ればわかるように、他の入力結果を利用して、重みを変える手段は、認識性能を向上させるために有効である。
【0022】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態について説明する。図1は、本発明の一実施の形態の構成を示す図である。図1を参照すると、本発明の一実施の形態に係る入力装置は、音声を入力とし、入力音声と、事前に用意された各選択肢に対応する音響パタンとの間のパタンマッチングを行い、各音響パタンに対する音響スコアを計算する音響スコア計算部101と、音響パタンを保持する音響パタン部102と、各音響パタンに対する重みを保持するリスコアリング重み保持部103と、音響スコア及びリスコアリング重みから各選択肢のスコアを計算するリスコアリング部104と、入力者に対し入力を要求し、入力された内容を解釈する制御部105と、を備えて構成されている。
【0023】
以下、各要素の動作の概略について説明する。音響スコア計算部101は、前述したように、図示されない音声入力部より入力された入力音声(デジタル音声信号)と、事前に用意された音響パタンとの間でのパタンマッチングを行い、各音響パタンと、入力音声の間の音響スコアを計算する。
【0024】
音響パタン部102は、音響スコア計算部101に対し、音響パタンを供給する。
【0025】
リスコアリング重み保持部103は、制御部105の指示に従い、リスコアリング部104に対して、各音響パタンに対するリスコアリング重みを供給する。
【0026】
リスコアリング部104は、音響スコア計算部101から与えられた各音響パタンの音響スコアと、リスコアリング重み保持部103から与えられた各音響パタンのリスコアリング重みを加算して、該当する音響パタンのスコアとし、各音響パタンのスコアを制御部105に出力する。
【0027】
制御部105は、リスコアリング部104から入力された音響パタンのスコアを参照して、例えば、最もスコアの高い候補を選択し、入力装置自体の入力結果として、出力する。
【0028】
また、制御部105は、この入力結果を基に、リスコアリング重み保持部103に対して、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を要求する。
【0029】
図2は、本発明の一実施形態の処理手順を示す流れ図である。本実施の形態に係る入力装置の動作について、図2を用いて説明する。図2に示す動作の実施形態では、図1に示した構成の入力装置において、入力として、住所の音声入力、姓の音声入力を行う、一連の動作を説明するものである。
【0030】
まず、図2に示すステップS1において、制御部105は、音響パタン部102に対して、住所辞書を発行するように要求する。また、制御部105は、リスコアリング重み保持部103に対し、住所辞書の各音響パタンに対する重みが「0.0」であるようなリスコアリング重みを発行するように要求する。
【0031】
次に、ステップS2において、音響パタン部102は、音響スコア計算部101に対して、入力される可能性のある、すべての住所の音響パタンを記述した住所辞書を発行する。
【0032】
次に、ステップS3において、制御部105は、入力者に対し、住所を音声入力するよう要求する。
【0033】
次に、ステップS4において、音響スコア計算部101は、入力された音声と、発行済みの住所辞書との間のパタンマッチングを行い、入力音声とすべての住所の音響パタンの間の音響スコアを計算し、リスコアリング部104に出力する。
【0034】
ここで、音響スコアは、例えば一定時間の音声の特徴を表現した特徴量を時系列順に並べた特徴量列と、その特徴量をパラメータとして持つHMM(Hidden Markov Model)の間のViterbi(ビタビ)マッチングによって得られる対数尤度である。
【0035】
次に、ステップS5において、リスコアリング重み保持部103は、住所音響パタンのリスコアリング重みを、リスコアリング部104に出力する。
【0036】
次に、ステップS6において、リスコアリング部104は、音響スコア計算部101から入力された各住所の音響スコアと、リスコアリング重み保持部103から出力されたリスコアリング重みを加算し、それぞれを各住所のスコアとして、制御部105に出力する。
【0037】
次に、ステップS7において、制御部105は、入力された全住所のスコアを比較し、最もスコアの高い住所候補を、入力装置に与えられた、住所の入力結果として出力する。また、制御部105は、住所の入力結果から、都道府県を抽出して、図示されない記憶装置に記憶保持しておく。
【0038】
以上で、住所の入力が終了する。
【0039】
次に、ステップS8において、制御部105は、音響パタン部102に対して、姓辞書(姓の音響パタンを記述した辞書)を発行するように要求する。また、制御部105は、リスコアリング重み保持部103に対して、ステップS7において記憶保持した、都道府県に対応した、姓辞書の重みを発行するように要求する。
【0040】
ステップS9において、ステップS2と同様、音響パタン部102は、音響スコア計算部101に対して、入力される可能性のあるすべての姓の音響パタンを記述した姓辞書を発行する。
【0041】
ステップS10において、ステップS3と同様、制御部105は、入力者に対し、姓を音声入力するよう要求する。
【0042】
ステップS11において、ステップS4と同様、音響スコア計算部101は、入力された音声と、発行済みの姓辞書との間のパタンマッチングを行い、入力音声とすべての姓の音響パタンの間の音響スコアを計算し、リスコアリング部104に出力する。
【0043】
ステップS12においては、ステップS5と同様、リスコアリング重み保持部103は、姓音響パタンのリスコアリング重みを、リスコアリング部104に出力する。
【0044】
ステップS13においては、ステップS6と同様、リスコアリング部104は、音響スコア計算部101から入力された各姓の音響スコアと、リスコアリング重み保持部から出力されたリスコアリング重みとを加算し、それぞれを各姓のスコアとして、制御部105に出力する。
【0045】
ステップS14においては、ステップS7と同様、制御部105は、入力された全姓のスコアを比較し、最もスコアの高い姓候補を、入力装置に与えられた、姓の入力結果として出力する。
【0046】
以上で、姓の入力が終了する。
【0047】
この実施の形態に係る入力装置は、住所、および姓の入力を受けて、出力するものであり、住所と、姓の分布の相関を利用している。同様にして、年齢と個人名との間の相関、住所と電話番号の市外局番との間の相関を利用することもできる。また、過去の入力(ともに確定している)が複数ある場合、例えば、住所および電話番号の入力がなされている場合には、これら両者の入力結果から、都道府県等を推定する手法を採ることで、より確実に、リスコアリング重みを設定することができる。
【0048】
なお、この実施の形態において、音響パタン部102、音響スコア計算部101、リスコアリング部104と、リスコアリング重み保持103、制御部105における上記各処理は、図1の入力装置を構成するコンピュータのプログラムによって実現するようにしてもよいことは勿論である。この場合、プログラムの動作仕様は、図2の流れ図に従う。
【0049】
次に本発明の第2の実施の形態について説明する。図3は、本発明の第2の実施の形態に係る入力装置の構成を示す図である。図3を参照すると、本発明の第2の実施の形態に係る入力装置は、図1に示した前記実施の形態に係る入力装置に加えて、数字入力部106をさらに備えている。数字入力部106は、入力者からの数字入力を受け付ける。
【0050】
数字入力部106は、入力者からの数字入力を受け取り、その内容を、制御部105に渡す。それ以外の構成は、前記実施の形態と同一である。
【0051】
図4は、本発明の第2の実施の形態における入力装置の動作について説明するための流れ図である。図4に示す例は、入力として、電話番号の数字入力と、姓の音声入力を行う入力装置の例である。
【0052】
まず、図4のステップS1において、制御部105は、入力者に対して、電話番号を数字入力するよう要求する。
【0053】
次に、ステップS2において、数字入力部106は、入力された数字を、そのまま制御部105に出力する。
【0054】
次に、ステップS3において、制御部105は、入力された電話番号を、そのまま出力する。また、電話番号から、市外局番部分を抽出し、その電話番号に相当する都道府県名を記憶装置に記憶保持しておく。
【0055】
以上の処理で、電話番号の入力が終了する。
【0056】
次に、ステップS4において、制御部105は、音響パタン部102に対し、姓辞書を発行するように要求する。また、制御部105は、リスコアリング重み保持部103に対し、ステップS3において記憶保持した、都道府県に応じた、姓辞書の重みを発行するように要求する。
【0057】
次にステップS5において、音響パタン部102は、音響スコア計算部101に対して、入力される可能性のあるすべての姓の音響パタンを記述した姓辞書を発行する。
【0058】
ステップS6において、制御部105は、入力者に対し、姓を音声入力するよう要求する。
【0059】
ステップS7において、音響スコア計算部101は、入力された音声と発行済みの姓辞書との間のパタンマッチングを行い、入力音声とすべての姓の音響パタンの間の音響スコアを計算し、リスコアリング部104に出力する。
【0060】
ステップS8において、リスコアリング重み保持部103は、姓音響パタンのリスコアリング重みをリスコアリング部104に出力する。
【0061】
ステップS9において、リスコアリング部104は、音響スコア計算部101から入力された各姓の音響スコアと、リスコアリング重み保持部から出力されたリスコアリング重みを加算し、それぞれを各姓のスコアとして制御部105に出力する。
【0062】
ステップS10において、制御部105は、入力された全姓のスコアを比較し、最もスコアの高い姓候補を、入力装置に与えられた姓入力結果として出力する。
【0063】
以上で、姓の入力が終了する。
【0064】
このように、本発明の第2の実施の形態に係る入力装置は、電話番号および、姓の入力を受け、出力する。本発明を実施する場合の数字入力装置としては、各種電話機の入力部分へ適用される。また、専用の端末に、テンキー等の入力装置を設ける構成としてもよい。なお、この実施の形態においても、図4に流れ図として示した処理を、入力装置を構成するコンピュータで実行されるプログラムで実現してもよいことは勿論である。
【0065】
次に、本発明の第3の実施の形態について説明する。図5は、本発明の第3の実施の形態の構成を示す図である。図5を参照すると、本発明の第3の実施の形態の入力装置は、図1の入力装置の構成に加え、発信者番号受信部107をさらに備えている。
【0066】
発信者番号受信部107は、発信者電話番号自動通知サービスによって通知される発信者電話番号通信信号を受け取り、発信者電話番号を、制御部105に通知する。制御部105は、発信者番号受信部107から発信者電話番号を受け取り、発信者電話番号から市外局番部分を抽出し、その電話番号に相当する都道府県名を記憶装置に記憶保持しておく。そして、制御部105は、リスコアリング重み保持部103に対し、ステップS3において、記憶保持した、都道府県に応じた、姓辞書の重みを発行するように要求する(図4のステップS4参照)。また、前記第2の実施の形態と同様にして、制御部105は、音響パタン部102に対し、姓辞書を発行するように要求する(図4のステップS5参照)。以降の処理は、前記第2の実施の形態と同様である。
【0067】
電話回線経由の電話番号認識に限定されるが、前記した本発明の第2の実施の形態と同様に、発信者番号の自動通知信号を受けることにより、発信者の電話番号の入力装置相当のものとして動作する。
【0068】
また、これらの実施の形態において、音声認識装置を使用している部分を、手書き文字認識装置、OCR(optical character reader)等の自動認識手段に置き換えることも可能であり、本発明は、これらの装置についても同様にして適用できる。
【0069】
以下では、本発明と、比較例として、上記特許文献1乃至4に記載された発明との相違点について概説しておく。上記特許文献1記載の発明の構成では、入力音声を標準辞書→属性別辞書1→属性別辞書2、…、→標準辞書と、同一入力を何度も認識しているのに対して、本発明では、過去の入力結果に基づき、リスコアリング重みを変更しており、入力に対する認識は1回であり、同一入力を何度も認識する必要はなく、確定済みの入力に基づき、リスコアリング重みを変更しており、属性の推定精度は高い。また上記特許文献2では、辞書を変更として、語彙の変更(地域の言葉に対応)を行っており、これに対して、本発明では、語彙の選択は行っていない。本発明において、地域の言葉に対応する場合であっても、当該地域固有でな語彙を拒否するものでなく、当該地域以外に固有の語彙を認識対象とすることができる。さらに、上記特許文献3では、入力者の第一声により、話者を特定し、専用の辞書を用いて(語彙を変更して)いる。なお、語彙の変更による認識対象範囲の縮小化は、本発明には直接関係しない。上記特許文献4では、発信者電話番号あるいは過去の発声より認識辞書を変更(語彙の変更)している。本発明では、語彙は変更しない。
【0070】
以上本発明を上記実施の形態に即して説明したが、本発明は上記実施形態の構成にのみ限定されるものでなく、特許請求の範囲の請求項の発明の範囲内で、当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
【0071】
【発明の効果】
以上説明したように、本発明によれば、過去の確定入力に基づき音響パタンに対するリスコアリング重みの変更を行うように構成しており、辞書の同一人物に関する複数の情報を統合することにより、より信頼性の高い認識を実現でき、音声認識を利用した従来の装置よりも高性能な入力装置を実現することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示す図である。
【図2】本発明の第1の実施の形態の動作を示す流れ図である。
【図3】本発明の第2の実施の形態の構成を示す図である。
【図4】本発明の第2の実施の形態の動作を示す流れ図である。
【図5】本発明の第3の実施の形態の構成を示す図である。
【図6】日本全体の苗字の分布を表すユニグラムである。
【符号の説明】
101 音響スコア計算部
102 音響パタン部
103 リスコアリング重み保持部
104 リスコアリング部
105 制御部
106 数字入力部
107 発信者番号受信部
Claims (32)
- 入力者が一連の情報を逐次入力する入力装置において、
入力と該入力に対する選択肢の間の尤度を計算し、すべての前記選択肢に対して定められた重みスコアと、前記尤度を加算して、前記選択肢のそれぞれに対するスコアを計算する手段と、
前記スコアの比較によって、入力内容を、前記選択肢から選択する手段と、
を有する入力手段を備え、
前記重みスコアの値は、前記一連の情報の入力の以前になされた入力(「過去入力」)に基づき、決定される、ことを特徴とする入力装置。 - 前記入力手段が、音声入力に対して音声認識を行う音声認識手段よりなる、ことを特徴とする、請求項1記載の入力装置。
- 前記重みスコアが、前記選択肢の出現確率を表すものである、ことを特徴とする、請求項1又は2記載の入力装置。
- 前記入力が、住所、名前、姓、名、姓名、年齢、電話番号のうちのいずれかを含む、ことを特徴とする、請求項1乃至3のいずれか一に記載の入力装置。
- 前記過去入力が、数字入力手段から入力された数字情報を含む、ことを特徴とする、請求項1乃至4のいずれか一に記載の入力装置。
- 前記過去入力が、発信者電話番号自動通知サービスによって通知される電話番号情報を含む、ことを特徴とする、請求項1乃至4のいずれか一に記載の入力装置。
- 前記過去入力が、音声認識手段による入力を含む、ことを特徴とする、請求項1乃至4のいずれか一に記載の入力装置。
- 音響パタンを記憶保持する音響パタン部と、
音声を入力とし、入力音声と、前記音響パタン部から供給された各音響パタンとの間のパタンマッチングを行い、それぞれの音響パタンに対する音響スコアを計算する音響スコア計算部と、
各音響パタンに対するリスコアリング重みを記憶保持するリスコアリング重み保持部と、
前記音響スコア計算部から与えられたそれぞれの音響パタンの音響スコアと、前記リスコアリング重み保持部からの音響パタンのリスコアリング重みとの演算結果をそれぞれの音響パタンのスコアとし、前記音響パタンのスコアを出力するリスコアリング部と、
利用者に対して、入力を要求し、入力された内容を解釈する制御部と、
を備え、
前記制御部は、前記リスコアリング部から前記制御部に供給された各音響パタンのスコアを参照し、前記音響スコアの値に基づき選択した候補を、音声入力装置への入力結果として出力する手段と、
前記リスコアリング重み保持部に対して、既に確定している入力結果に基づき、以降の入力内容に対応する各音響パタンに対するリスコアリング重みの変更を行うように要求する手段と、
を備えている、ことを特徴とする音声入力装置。 - 前記制御部は、前記音響パタン部に対して、第1種の入力内容に関する音響パタンを規定した辞書を発行するように要求し、前記リスコアリング重み保持部に対して、前記第1種の入力内容に関する前記辞書の各音響パタンに対する重みが所定値であるリスコアリング重みを発行するように要求する手段を備え、
前記制御部からの要求を受けた前記音響パタン部は、前記音響スコア計算部に対して、入力される可能性のある、第1種の入力内容に関する音響パタンを規定した辞書を発行し、
前記制御部は、利用者に対して、第1種の入力内容を音声入力するよう要求する手段をさらに備え、
前記音響スコア計算部は、前記利用者からの入力音声と、前記音響パタン部から発行された第1種の入力内容に関する辞書との間のパタンマッチングを行い、各音響パタンと、入力音声の間の音響スコアを計算する、ことを特徴とする請求項8記載の音声入力装置。 - 前記リスコアリング重み保持部は、前記制御部からの要求に従い、前記リスコアリング部に対して、各音響パタンに対するリスコアリング重みを供給し、
前記リスコアリング部は、前記音響スコア計算部から与えられた各音響パタンの音響スコアと、前記リスコアリング重み保持部から与えられた各音響パタンのリスコアリング重みとを加算して、該当する音響パタンのスコアとし、各音響パタンのスコアを前記制御部に供給し、
前記制御部は、前記リスコアリング部から与えられた各音響パタンのスコアを比較し、最もスコアの高い候補を、入力結果として出力するとともに、前記入力結果から、前記入力結果に対応する、第1種の入力内容の情報を抽出して、記憶保持し、前記音響パタン部に対して、第2種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対して、前記記憶保持され既に確定している第1種の入力内容の情報に対応した、第2種の入力内容に関する前記辞書の重みを発行するように要求する、ことを特徴とする請求項8又は9記載の音声入力装置。 - 入力された数字を、前記制御部に出力する数字入力部をさらに備え、
前記制御部は、前記数字入力部より入力された数字列から、前記数字列に対応した第1種の入力内容の情報を抽出して記憶保持し、
前記制御部は、前記音響パタン部に対して、第2種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対して、前記記憶保持され既に確定している前記第1種の入力内容の情報に対応した前記第2種の入力内容に関する前記辞書の重みを発行するように要求する、ことを特徴とする請求項8記載の音声入力装置。 - 発信者電話番号自動通知サービスによって通知される発信者電話番号を受け取り、前記制御部に出力する発信者電話番号受信部を備え、
前記制御部は、前記発信者電話番号を受け取り、前記発信者電話番号に対応した第1種の入力内容の情報を抽出して記憶保持し、
前記制御部は、前記音響パタン部に対して、第2種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対して、前記記憶保持され既に確定している前記第1種の入力内容の情報に対応した第2種の入力内容に関する前記辞書の重みを発行するように要求する、ことを特徴とする請求項8記載の音声入力装置。 - 前記音響パタン部は、前記制御部からの要求に従い、前記音響スコア計算部に対して、入力される可能性のあるすべての第2種の入力内容に関する音響パタンを記述した辞書を発行し、
前記制御部は、利用者に対して、第2種の入力内容の音声を入力するよう要求し、
前記音響スコア計算部は、利用者により入力された音声と、前記音響パタン部から発行された辞書の音響パタンとの間のパタンマッチングを行い、入力音声とすべての第2種の入力内容の音響パタンの間の音響スコアを計算して、前記リスコアリング部に出力し、
前記リスコアリング重み保持部は、前記制御部からの要求に従い、第2種の入力内容の音響パタンのリスコアリング重みを、前記リスコアリング部に出力し、
前記リスコアリング部は、前記音響スコア計算部から供給された第2種の入力内容の音響スコアと、前記リスコアリング重み保持部から供給されたリスコアリング重みとを加算し、それぞれを、第2種の入力内容のスコアとして、前記制御部に出力し、
前記制御部は、前記リスコアリング部から与えられた、第2種の入力内容のスコアを比較し、最もスコアの高い候補を、音声入力装置に与えられた、第2種の入力内容の入力結果として出力する、ことを特徴とする請求項10乃至12のいずれか一に記載の音声入力装置。 - 入力者が入力装置に一連の情報を逐次入力する、入力方法において、
前記入力装置が、入力と該入力に対する選択肢の間の尤度を計算する第1のステップと、
前記入力装置が、すべての前記選択肢に対して定められた重みスコアと、前記尤度を加算して、前記選択肢のそれぞれに対するスコアを計算する第2のステップと、
前記入力装置が、前記スコアの比較によって、入力内容を、前記選択肢から選択する第3のステップと、
前記入力装置が、前記重みスコアの値を、前記一連の情報の入力の以前になされた入力(「過去入力」)に基づき、決定するステップと、
を含む、ことを特徴とする入力方法。 - 前記第1のステップでは、前記入力装置は、音声入力と該音声入力に対する選択肢の間の尤度を計算し、
前記第3のステップでは、前記入力装置は、前記スコアの比較によって、入力内容を前記選択肢から選択し、音声入力結果として出力する、ことを特徴とする請求項13記載の入力方法。 - 前記重みスコアが、前記選択肢の出現確率を表すものである、ことを特徴とする、請求項14又は15記載の入力方法。
- 前記入力が、住所、名前、姓、名、姓名、年齢、電話番号のうちのいずれかを含む、ことを特徴とする、請求項14乃至16のいずれか一に記載の入力方法。
- 前記過去入力が、数字を入力する数字入力手段から入力された数字情報を含む、ことを特徴とする、請求項14乃至17のいずれか一に記載の入力方法。
- 前記過去入力が、発信者電話番号自動通知サービスによって通知される電話番号情報を含む、ことを特徴とする、請求項14乃至17のいずれか一に記載の入力方法。
- 前記過去入力が、音声認識手段に入力され音声認識された音声入力情報を含む、ことを特徴とする、請求項14乃至17のいずれか一に記載の入力方法。
- 音響スコア計算部、音響パタンを記憶保持する音響パタン部、リスコアリング部、リスコアリング重みを記憶保持するリスコアリング重み保持部、及び、制御部を有し、少なくとも音声入力を行う入力装置を用いた、情報の入力方法であって、
前記音響スコア計算部が、入力音声と、前記音響パタン部からの各音響パタンとの間のパタンマッチングを行い、各音響パタンに対する音響スコアを計算するステップと、
前記リスコアリング部が、前記音響スコア計算部から与えられた各音響パタンの音響スコアと、各音響パタンに対するリスコアリング重みを記憶保持するリスコアリング重み保持部からの音響パタンのリスコアリング重みとの演算を行って、各音響パタンのスコアを求め、それぞれの音響パタンのスコアを出力するステップと、
利用者に対して、入力を要求し、入力された内容を解釈する前記制御部が、前記リスコアリング部から供給された各音響パタンのスコアを参照して、スコアの値に基づき選択した候補を、入力結果として出力するステップと、
前記制御部が、前記リスコアリング重み保持部に対して、既に確定している入力結果に基づき、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を行うように要求するステップと、
を含む、ことを特徴とする入力方法。 - 前記制御部が、前記音響パタン部に対し、第1種の入力内容に関する音響パタンを規定した辞書を発行するように要求し、前記リスコアリング重み保持部に対し、前記第1種の入力内容の辞書の各音響パタンに対する重みが所定値であるリスコアリング重みを発行するように要求するステップと、
前記音響パタン部が、前記音響スコア計算部に対して、入力される可能性のある、すべての第1種の入力内容に関する音響パタンを記述した辞書を発行するステップと、
前記制御部が、前記利用者に対し、第1種の入力内容を音声入力するよう要求するステップと、
前記音響スコア計算部が、入力音声と、前記音響パタン部から発行された第1種の入力内容に関する辞書との間のパタンマッチングを行い、各音響パタンと、入力音声の間の音響スコアを計算するステップと、
を含む、ことを特徴とする請求項21記載の入力方法。 - 前記リスコアリング重み保持部が、前記制御部からの要求に従い、前記リスコアリング部に対して、各音響パタンに対するリスコアリング重みを供給するステップと、
前記リスコアリング部が、前記音響スコア計算部から与えられた各音響パタンの音響スコアと、前記リスコアリング重み保持部から与えられた各音響パタンのリスコアリング重みを加算して、該当する音響パタンのスコアとし、各音響パタンのスコアを、前記制御部に供給するステップと、
前記制御部が、前記リスコアリング部から供給された各音響パタンのスコアを比較し、最もスコアの高い候補を、入力装置に与えられた入力結果として出力するとともに、入力結果から該入力結果に対応する第1種の入力内容の情報を抽出して記憶保持するステップと、
前記制御部が、前記音響パタン部に対し、第2種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対し、前記記憶保持され既に確定している前記第1種の入力内容の情報に対応した第2種の入力内容に関する前記辞書の各音響パタンに対する重みを発行するように要求するステップと、
を含む、ことを特徴とする請求項21又は22記載の入力方法。 - 数字入力部が、前記数字入力部に入力された数字列を、前記制御部に出力するステップと、
前記制御部が、前記数字入力部より供給された数字列に対応した第1種の入力内容の情報を抽出して記憶保持するステップと、
前記制御部が、前記音響パタン部に対し、第2種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対し、前記記憶保持され既に確定している前記第1種の入力内容の情報に対応した第2種の入力内容に関する前記辞書の重みを発行するように要求するステップと、
を含む、ことを特徴とする請求項21記載の入力方法。 - 発信者電話番号受信部が、発信者電話番号自動通知サービスによって通知される発信者電話番号を、前記制御部に出力するステップと、
前記制御部は、前記発信者電話番号受信部より供給された発信者電話番号に対応する第1種の入力内容の情報を抽出して記憶保持するステップと、
前記制御部は、前記音響パタン部に対して、第2種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対し、前記記憶保持され既に確定している前記第1種の入力内容の情報に対応した第2種の入力内容に関する前記辞書の重みを発行するように要求するステップと、
を含む、ことを特徴とする請求項21記載の入力方法。 - 前記音響パタン部が、前記制御部からの要求に基づき、前記音響スコア計算部に対し、入力される可能性のあるすべての第2種の入力内容に関する音響パタンを規定した辞書を発行するステップと、
前記制御部が、前記利用者に対し、第2種の入力内容の音声入力を行うように要求するステップと、
前記音響スコア計算部が、前記利用者によって入力された音声と、前記音響パタン部から発行済みの辞書との間のパタンマッチングを行い、入力音声とすべての第2種の入力内容の音響パタンの間の音響スコアを計算し、前記リスコアリング部に出力するステップと、
前記リスコアリング重み保持部が、前記制御部からの要求に基づき、第2種の入力内容の音響パタンのリスコアリング重みを、前記リスコアリング部に出力するステップと、
前記リスコアリング部が、前記音響スコア計算部から入力された第2種の入力内容の音響スコアと、前記リスコアリング重み保持部から出力されたリスコアリング重みとを加算し、それぞれを第2種の入力内容のスコアとして、前記制御部に出力するステップと、
前記制御部が、入力された第2種の入力内容のスコアを比較し、最もスコアの高い姓候補を、第2種の入力内容の入力結果として出力するステップと、
を含むことを特徴とする請求項21乃至25のいずれか一に記載の入力方法。 - 少なくとも音声入力を行う入力装置を構成するコンピュータに、
(a1)音声を入力とし、入力音声と、事前に用意された選択肢にそれぞれ対応する音響パタンとの間のパタンマッチングを行い、音響パタンに対する音響スコアを計算する処理(「音響スコア計算処理」という)と、
(a2)音響パタンの音響スコアと、各音響パタンに対するリスコアリング重みを記憶保持するリスコアリング重み保持部からの音響パタンのリスコアリング重みとの演算結果を、音響パタンのスコアとし、前記音響パタンのスコアを出力する処理(「リスコアリング処理」という)と、
(a3)前記音響パタンのスコアを参照して、前記スコアの値に基づき選択した候補を、入力結果として出力する処理と、
(a4)既に確定している入力結果に基づき、以降の入力内容となる各音響パタンに対するリスコアリング重みの変更を行うように制御する処理と、
を実行させるプログラム。 - 請求項27記載のプログラムにおいて、
(b1)音響パタンを記憶保持する音響パタン部に対し、第1種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、リスコアリング重みを保持するリスコアリング重み保持部に、前記第1種の入力内容の辞書の各音響パタンに対する重みが所定値であるリスコアリング重みを発行するように要求する、制御を行う処理と、
(b2)前記音響パタン部から、前記音響スコア計算処理に対して、入力される可能性のある、すべての第1種の入力内容に関する音響パタンを記述した辞書を発行する処理と、
(b3)利用者に対して、第1種の入力内容を音声入力するよう要求する処理と、
(b4)前記利用者からの入力音声と、前記音響パタン部から発行された第1種の入力内容に関する辞書との間のパタンマッチングを行い、各音響パタンと、入力音声の間の音響スコアを計算する処理と、
を前記コンピュータに実行させるプログラム。 - 請求項27又は28記載のプログラムにおいて、
(c1)前記リスコアリング重み保持部が、前記(a2)のリスコアリング処理に対して、各音響パタンに対するリスコアリング重みを供給する処理と、
(c2)前記リスコアリング処理は、前記音響スコア計算処理から与えられた各音響パタンの音響スコアと、前記リスコアリング重み保持部から与えられた各音響パタンのリスコアリング重みを加算して、該当する音響パタンのスコアとし、各音響パタンのスコアを出力する処理と、
(c3)各音響パタンのスコアを比較し、最もスコアの高い候補を、入力装置に与えられた入力結果として出力するとともに、入力結果から該入力結果に対応する第1種の入力内容の情報を抽出して記憶保持し、
(c4)前記音響パタン部に対し、第2種の入力内容に関する辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対し、前記記憶保持され既に確定している前記第1種の入力内容の情報に対応した第2種の入力内容に関する前記辞書の重みを発行するように要求する処理と、
を前記コンピュータに実行させるプログラム。 - 請求項27記載のプログラムにおいて、
(d1)数字入力部から入力された数字列から、前記数字列に対応した第1種の入力内容の情報を抽出して記憶保持する処理と、
(d2)前記音響パタン部に対し、第2種の入力内容に関する辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対して、前記記憶保持され既に確定している第1種の入力内容の情報に対応した第2種の入力内容に関する前記辞書の重みを発行するように要求する処理と、
を前記コンピュータに実行させるプログラム。 - 請求項27記載のプログラムにおいて、
(e1)発信者電話番号受信部より入力された発信者電話番号から、前記発信者電話番号に対応する第1種の入力内容の情報を抽出して記憶保持する処理と、(e2)前記音響パタン部に対し、第2種の入力内容に関する音響パタンを規定した辞書を発行するように要求するとともに、前記リスコアリング重み保持部に対して、前記記憶保持され既に確定している第1種の入力内容の情報に対応した第2種の入力内容に関する前記辞書の重みを発行するように要求する処理と、
を前記コンピュータに実行させるプログラム。 - 請求項27乃至31のいずれか一に記載のプログラムにおいて、
(f1)前記音響パタン部は、前記音響スコア計算処理に対し、入力される可能性のあるすべての第2種の入力内容に関する音響パタンを記述した辞書を発行する処理と、
(f2)利用者に対し、第2種の入力内容の音声入力するよう要求する処理と、
(f3)前記利用者より入力された音声と、前記音響パタン部より発行された辞書との間のパタンマッチングを行い、入力音声とすべての第2種の入力内容の音響パタンの間の音響スコアを計算し、第2種の入力内容の音響スコアとして出力する処理と、
(f4)前記第2種の入力内容の音響スコアと、前記リスコアリング重み保持部から出力されたリスコアリング重みとを加算し、それぞれを、第2種の入力内容のスコアとして出力する処理と、
(f5)前記第2種の入力内容のスコアを比較し、最もスコアの高い候補を、第2種の入力内容の入力結果として出力する処理と、
を前記コンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002325085A JP2004157919A (ja) | 2002-11-08 | 2002-11-08 | 入力装置及び音声入力方法と装置並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002325085A JP2004157919A (ja) | 2002-11-08 | 2002-11-08 | 入力装置及び音声入力方法と装置並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004157919A true JP2004157919A (ja) | 2004-06-03 |
Family
ID=32804425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002325085A Pending JP2004157919A (ja) | 2002-11-08 | 2002-11-08 | 入力装置及び音声入力方法と装置並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004157919A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008158510A (ja) * | 2006-11-30 | 2008-07-10 | National Institute Of Advanced Industrial & Technology | 音声認識システム及び音声認識システム用プログラム |
JP2020089641A (ja) * | 2018-12-07 | 2020-06-11 | 株式会社日立製作所 | 音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム |
-
2002
- 2002-11-08 JP JP2002325085A patent/JP2004157919A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008158510A (ja) * | 2006-11-30 | 2008-07-10 | National Institute Of Advanced Industrial & Technology | 音声認識システム及び音声認識システム用プログラム |
US8401847B2 (en) | 2006-11-30 | 2013-03-19 | National Institute Of Advanced Industrial Science And Technology | Speech recognition system and program therefor |
JP2020089641A (ja) * | 2018-12-07 | 2020-06-11 | 株式会社日立製作所 | 音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム |
JP7141938B2 (ja) | 2018-12-07 | 2022-09-26 | 富士フイルムヘルスケア株式会社 | 音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106663424B (zh) | 意图理解装置以及方法 | |
US6751595B2 (en) | Multi-stage large vocabulary speech recognition system and method | |
JP4709887B2 (ja) | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム | |
US6018708A (en) | Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies | |
JP4816409B2 (ja) | 認識辞書システムおよびその更新方法 | |
US6925154B2 (en) | Methods and apparatus for conversational name dialing systems | |
KR100383352B1 (ko) | 음성작동서비스 | |
KR101109265B1 (ko) | 텍스트 입력 방법 | |
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
US6122361A (en) | Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality | |
US8374862B2 (en) | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance | |
US20050033575A1 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
JP2000122691A (ja) | 綴り字読み式音声発話の自動認識方法 | |
WO2007069762A1 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
JP2012194245A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP2004157919A (ja) | 入力装置及び音声入力方法と装置並びにプログラム | |
EP1895748B1 (en) | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance | |
US10832675B2 (en) | Speech recognition system with interactive spelling function | |
US7103546B2 (en) | Automatic recognition of company names in speech utterances | |
KR100931790B1 (ko) | 음성인식 시스템에서 발음명칭목록을 이용한 인식사전 생성 방법 및 그를 이용한 유사발음명칭 처리 방법 | |
JP2000305590A (ja) | 音声認識方法 | |
KR101830210B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
KR100541759B1 (ko) | 비대상 어휘 관리를 통한 음성인식 서비스 방법 | |
KR101002135B1 (ko) | 음절 음성인식기의 음성인식결과 전달 방법 | |
JPH1049186A (ja) | 数字列音声認識方法およびこの方法を実施する装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051014 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071225 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080422 |