JP3663012B2

JP3663012B2 - 音声による入力装置

Info

Publication number: JP3663012B2
Application number: JP19078596A
Authority: JP
Inventors: 清治濱口; 耕市山口; 浩幸勘座
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1996-07-19
Filing date: 1996-07-19
Publication date: 2005-06-22
Anticipated expiration: 2016-07-19
Also published as: JPH1039894A

Description

【０００１】
【発明の属する技術分野】
本発明は、住所、学校や会社での所属名など木構造を持った情報を音声により入力して目的の情報を表示する音声による入力装置である。
【０００２】
【従来の技術】
音声認識を利用した文字列の入力は、キーボードからの入力のように確定的なものではなく、尤度がついた正解候補群が求まり、そのうち最も尤度の高い候補が選択される仕組みになっている。音声認識の技術が十分に進展し、音響的な情報だけで第１位にほぼ１００％の精度で正解を選ぶことができることが理想であるが、現状の技術レベルでは非常に困難である。
【０００３】
ところで、累計認識率(上位Ｎ位に正解が含まれる確率)を１００％近くにする技術は確立されており、上位Ｎ位に含まれる正解をいかに１位にするかという技術が重要になってくる。
【０００４】
しかし、住所などを都道府県、郡市、区町村などで区切ることなく音声入力して認識させようとすると、そのパターンは膨大になり、認識語彙数の増加は認識性能の劣化と認識処理量の増加を招く。
【０００５】
そこで音響的な情報で得た正解候補群に対し、言語的な情報を利用して正解を選び直すという試みが行なわれている。例えば、特開平１−２５５９２５号公報においては、キーワード間の関係で予め表現された概念ネットワークを用いて、認識処理手段で複数個得られる入力音声の候補単語から情報検索用として使用する単語系列をひとつ、あるいは複数個選択する手段を設けることにより、この問題の解決を図っている。
【０００６】
【発明が解決しようとする課題】
しかし、上述の技術は、概念ネットワークが非常に大規模であるので、構築するのは一般に困難であり、構築しても実用上耐え得るものにはなりにくい。これは、言語の体系化が困難であるのと同じ理由で、必ずなんらかの記載洩れが現れてくるという問題がある。
【０００７】
また、上述の技術は例文作成などに用いることができるものの、住所等の音声入力に利用するのは困難であるという問題がある。
【０００８】
本発明の目的は、上記問題点を解決することのできる音声による入力装置を提供することにある。
【０００９】
【課題を解決するための手段】
請求項１に記載の音声による入力装置は、単語に区切って発声された入力音声に対応する単語を有する単一の単語辞書と、単語に区切って発声された入力音声を上記単一の単語辞書を参照して認識し、候補単語を各発声順序毎に順位付けて生成する音声認識手段と、単語の出現順序を木構造で規定する木構造辞書と、上記各発声順序毎に順位付けられた候補単語の組み合せから、木構造辞書で規定された木構造に合致するものを選び出して単語候補系列を作成し、該単語候補系列を構成する各候補単語の発声順位ごとの認識順位に基づくスコアの和を単語候補系列ごとに算出する制御手段と、算出されたスコアに基づいて単語候補系列を表示する表示手段とを有することを特徴とする。
【００１０】
請求項２に記載の音声による入力装置は、請求項１に記載の音声による入力装置において、上記単語に区切って発声された入力音声が住所データであることを特徴とする。
【００１１】
【発明の実施の形態】
以下、住所データを音声により入力する場合の実施の形態について説明する。図１に、音声による入力装置のブロック図を示す。この入力装置は、音声認識部１、単語系列スコア演算部２、木構造辞書３、表示部４、制御部５、単語辞書６から構成され、音声認識部１、単語系列スコア演算部２、及び制御部５はＣＰＵ等からなる処理部７で構成され、木構造辞書３と単語辞書６はメモリや外部記憶装置で構成され、表示部４はＣＲＴやプリンタで構成されている。
【００１２】
音声認識部１は、制御部５と共に、話者の発声を音響分析して単語辞書６を参照して候補単語を出力する。単語系列スコア演算部２は、制御部５と共に、音声認識部１で得られた候補単語の組合せから、木構造辞書３を探索して存在しない単語候補系列を排除し、木構造の並びに合致する各単語候補系列を求め、これらのスコアを求める。制御部５は、音声認識、スコア算出、認識結果の表示、辞書の切り替えなどに必要な個々の処理を制御する。処理部７は、いわば、単語単位で発声された音声認識結果を木構造辞書中の所望の文字データ列に置き換えている。表示部４は、発声の結果得られた認識結果の候補単語系列または選択された単語系列の表示を行なう。なお、表示部４での認識結果を選択、加工するために、キーボード等の編集や選択を行う手段を設けていてもよい。
【００１３】
木構造辞書３は、入力対象の単語系列の木構造情報を蓄えている。本実施の形態では住所データが入っている。住所データは図２のように都道府県、郡市、区町村などの順番で並んだ木構造を持っている。左から右の順に各単語が発声されるものとして定義している。
【００１４】
単語辞書６は、音声認識に用いる音声パターン情報あるいは音声パターン情報に対応する単語を格納している。本実施の形態では、単語辞書６は、図２の木構造辞書から作成されたものであり、図２の破線で囲んであるように、「奈良県」は第１発声辞書に、「天理市」「奈良市」「大和郡山市」などは第２発声辞書にそれぞれ格納され、音声認識部１は、制御部５と共に、話者の発声ごとに第１発声用辞書、第２発声用辞書というように辞書を切り替えて認識していく。このように、単語辞書６を木構造辞書３を参照して、発声毎に切り替えて、不要な単語候補系列を生じないようにして認識性能の向上と処理量の削減を行っている。また、単語候補系列が木構造辞書に合致するかどうかを発声ごとに判定し、あるノードまでですでに実在しない単語候補系列の住所であることが判明した場合、それより右のノードについては探索を行う必要がなく、探索時間を削減することができる。
【００１５】
以下、本実施の形態の動作手順について説明する。話者が１つの住所を単語に区切って発声すると、その情報は音声認識部１によって電気信号に変換された後、単語辞書６を検索して距離計算を行ない、距離の短い、すなわち類似度の高い順に候補単語が出力される。「奈良県」「天理市」「櫟本町」という順に話者が発声した場合の各単語の認識の結果得られた候補単語を図３の上表に示す。通常、住所を入力する場合には都道府県、郡市、区町村の順に発声し、この順序を逆転して発声することはないものとする。
【００１６】
３つの発声に対し各４位までの候補単語を挙げているので、その組合せは４の３乗＝６４通りあるが、図２の木構造辞書を参照すると実在の住所はわずか２つであることが分かる。得られた単語候補系列である住所に対し、その住所を構成する各候補単語の認識順位に応じた得点を合計することで各住所のスコアが求まる。なお、認識順位でなく、音響的な認識尤度に応じた得点を用いても良い。図３の下表にはそのようにして求められたスコア順に候補住所を並べてある。この例では、各発声に対する正解単語の認識順位はそれぞれ３位、２位、２位で、従来なら各発声に対する認識結果に対して話者による訂正あるいは正解の選択作業が必要なところであるが、本発明によれば、図３の下表では発声した通りの住所が１位の候補住所として表示されている。
【００１７】
もし、「奈良県天理市櫟本町」という地名を区切りなく一度の発声で入力しようとすると、音声パターンに対応する単語辞書６は非常に膨大なものとなり認識性能、認識処理時間ともに苦しいものになる。従って、このように住所を区切って発声することにより、認識性能、認識処理時間などの面で性能向上をはかるとともに、住所の各パーツの順序規則を利用して最終的な認識性能を向上することで、より一層の入力の効率化をはかることができる。
【００１８】
上述したように、上記実施の形態では、各発声に対する候補単語の中に正解が存在する必要がある。つまり、何単語か入力してそのうち一単語でもＮ位までの候補単語に正解が含まれないと、話者の希望通りの住所入力ができない。また、音声認識技術特有の問題として、話者の周囲に雑音が存在すると、発声してもいないのに音声認識部１が雑音を音声と判断して認識結果を出してしまうことがあり得る。この場合も、上記実施の形態では、希望通りの住所入力ができない。例えば「奈良県」と「天理市」の発声の間に何か単語が入ってしまうと、希望通りの住所の入力が不可能になる。また、都道府県名の省略などがあった場合にも、希望通りの住所入力ができない。
【００１９】
そこで、このような問題があったとしても話者の希望通りの住所を入力できる、さらに柔軟性のある他の実施の形態について説明する。この実施の形態では、話者の住所の発声の順序は逆転することはないが、部分的な省略や雑音による不要な単語の挿入があるため、単語辞書６を各発声ごとに切り替えない構成にする。従って、単語辞書６は図２に現れる全ての単語を集めたものになる。また、単語候補系列の求め方が以下のように相違する。
【００２０】
３つの発声に対する認識結果として、図４にそれぞれ第８位までの候補単語を示す。図４の左下の図は候補単語表である。表中の空欄には、「奈良県」「天理市」「櫟本町」以外の単語がはいっている。この結果から「奈良県天理市櫟本町」のスコアをどのように求めるか説明する。図４の左上の図は「奈良県天理市櫟本町」の各パーツである「奈良県」「天理市」「櫟本町」それぞれに対し、図４の左下の表中に存在する位置をＷ(ｉ,ｊ)で示したものである。Ｗ(ｉ,ｊ)は第ｉ発声の第ｊ候補を意味する。この左上の表から、図２の木構造並びに沿った単語候補系列を作成する。この例では単語候補系列は１〜３個の単語で構成され、「奈良県天理市櫟本町」という住所に対応した各単語候補系列が図４の右上の表に示されている。この各単語候補系列は図４左上の表から深さ優先探索によって求まる。木構造並びに沿った単語候補系列を作成するには、昇べきの順の組合せでなければならない。例えばＷ(ｉ1,ｊ)が「奈良県」で、Ｗ(ｉ2,ｊ)が「天理市」のとき、それらからなる単語候補系列を［Ｗ(ｉ1,ｊ)Ｗ(ｉ2,ｋ)］とすると、「奈良県」と「天理市」の並び順から、必ずｉ1＜ｉ2でなければならない。従って［Ｗ(１,３)Ｗ(１,６)］といった単語候補系列は認められない。また、図４の左上の表からは［Ｗ(１,３)Ｗ(２,２)］という単語候補系列も考えられるが、それが図４の右上の表に含まれていないのは、同表中の単語候補系列［Ｗ(１,３)Ｗ(２,２)Ｗ(３,４)］の部分集合だからである。もっとも、ここでは部分集合を排除しているが、必ずしも排除しなければならないわけでなく、部分集合を含めて単語候補系列を求めてもよい。［Ｗ(１,６)Ｗ(３,４)］のような単語候補系列は、「奈良県」を省略して発声した場合に相当する。このように木構造並びに沿った単語候補系列を全て挙げることにより、部分的な単語の省略や候補単語に正解が含まれない場合があっても話者の発声した通りの住所を得ることができる。
【００２１】
図４の右上の表中のスコアは、単語候補系列を構成するＷ(ｉ,ｊ)の得点の総和で求められる。各Ｗ(ｉ,ｊ)の得点は図４の左下の表中に順位毎に与えられた得点から求められる。１位候補なら８点である。[Ｗ(１,３)Ｗ(２,２)Ｗ(３,４)］の得点は６＋７＋５＝１８点となる。各単語候補系列に対するスコアを計算し、その和をとると４９点になる。これが候補住所「奈良県天理市櫟本町」のスコアとなる。
【００２２】
各候補住所に対してこのようなスコア計算を行ない、スコアの高い順に候補住所として表示部４に表示する。ただし各候補住所のスコアとしては、この実施の形態のように各単語候補系列に対するスコアの総和でもいいし、各単語候補系列中の最大スコアでも良い。表示された候補住所は、話者の入力した文字列として扱われる。ただし、より正確を期するために、文字列として扱う前に、表示部４に表示した候補住所から、図示しないキーボード等により話者に正解選択を行なわせても良い。
【００２３】
次に、図５のフローチャートを用いて、上記動作手順を説明する。まず、ステップＳ１では、話者の発声単語を認識する。また、単語辞書６は、上述したように、木構造データを構成する全ての単語を含み、この単語辞書６を参照して認識結果として図４の左下表のように各発声毎に候補単語を求める。ステップＳ２では、図４の左上表のように、木構造データを構成する各単語の候補単語中に出現する位置を求める。ステップＳ３では、図４の右上表のように、木構造データの部分集合となり得る単語候補系列を深さ優先探索によって求める。また、その単語候補系列を構成する各単語の候補順位から単語候補系列のスコアを求める。ステップＳ４では、各単語候補系列のスコアを集計し、木構造データのスコアとする。ステップＳ５では、全木構造データのスコアを求めたかどうか判定し、まだ求めていない木構造データがある時はステップＳ２に戻る。各木構造データのスコアが全て求まった場合には、ステップＳ６に進み、各木構造データのスコアをソートする。そしてステップＳ７では、このスコア順に木構造データを並べて表示部４に表示する。
【００２４】
通常、木構造データ数は非常に多く、一方、音声認識部１で出力される候補単語の数はそれほど多くないため、ほとんどの木構造データはスコアが０点である。したがって、全ての木構造データについてスコアを計算する作業を行なうのは効率が良いとはいえない。よって、ステップＳ１の後で、あらかじめ候補単語Ｗ(ｉ,ｊ)を含む木構造データをマークしておき、構成要素となる単語が候補単語中に全く含まれない木構造データはスコアを０点にし、スコア計算を行なわずに済むようにしておくのが効率的である。
【００２５】
上記実施の形態では、住所入力の場合を説明しているが、本発明の適用範囲はこれに制限されない。学校や会社の所属名入力など、様々な木構造のデータ入力に適用可能である。また、住所入力の応用で会社名入力や観光地名入力なども容易に行なうことができる。例えば「阿倍野区」「シャープ株式会社」の発声だけで「大阪府大阪市阿倍野区長池町シャープ株式会社」を入力することができ、「東映太秦映画村」の発声だけで「京都府京都市右京区太秦東峰ケ岡町東映太秦映画村」を入力することができる。
【００２６】
【発明の効果】
以上説明したように、本発明によれば、各発声に対する音声認識により得られた候補単語が１位でなくても、発声した単語候補系列を１位にすることができ、高速、高精度にデータを入力して表示することができる。また、データを区切らず発声して入力する場合よりも認識に必要な辞書の容量を減らすことができ、認識性能向上と認識処理量削減を達成できる。
【００２７】
また、本発明によれば、上記効果に加え、たとえ音声認識により得られた候補単語中に正解が含まれない発声単語があっても、周囲の雑音が誤って発声された音声と認識されたとしても、あるいは入力音声の一部を省略したとしても、話者の希望通りにデータを入力して表示することができる。
【図面の簡単な説明】
【図１】本発明の音声による入力装置のブロック構成を示す図である。
【図２】図１の木構造辞書３の構成を示す図である。
【図３】本発明の実施の形態に係る動作を説明するための図である。
【図４】他の実施の形態において単語候補系列から候補住所のスコアを算出する様子を示す図である。
【図５】他の実施の形態の動作を示すフローチャートである。
【符号の説明】
１音声認識部
２単語系列スコア演算部
３木構造辞書
４表示部
５制御部
６単語辞書
７処理部

Claims

単語に区切って発声された入力音声に対応する単語を有する単一の単語辞書と、
単語に区切って発声された入力音声を上記単一の単語辞書を参照して認識し、候補単語を各発声順序毎に順位付けて生成する音声認識手段と、
単語の出現順序を木構造で規定する木構造辞書と、
上記各発声順序毎に順位付けられた候補単語の組み合せから、木構造辞書で規定された木構造に合致するものを選び出して単語候補系列を作成し、該単語候補系列を構成する各候補単語の発声順位ごとの認識順位に基づくスコアの和を単語候補系列ごとに算出する制御手段と、
算出されたスコアに基づいて単語候補系列を表示する表示手段と
を有することを特徴とする音声による入力装置。
請求項１に記載の音声による入力装置において、
上記単語に区切って発声された入力音声が住所データであることを特徴とする音声による入力装置。