JP3663012B2 - 音声による入力装置 - Google Patents

音声による入力装置 Download PDF

Info

Publication number
JP3663012B2
JP3663012B2 JP19078596A JP19078596A JP3663012B2 JP 3663012 B2 JP3663012 B2 JP 3663012B2 JP 19078596 A JP19078596 A JP 19078596A JP 19078596 A JP19078596 A JP 19078596A JP 3663012 B2 JP3663012 B2 JP 3663012B2
Authority
JP
Japan
Prior art keywords
word
candidate
words
tree structure
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19078596A
Other languages
English (en)
Other versions
JPH1039894A (ja
Inventor
清治 濱口
耕市 山口
浩幸 勘座
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP19078596A priority Critical patent/JP3663012B2/ja
Publication of JPH1039894A publication Critical patent/JPH1039894A/ja
Application granted granted Critical
Publication of JP3663012B2 publication Critical patent/JP3663012B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、住所、学校や会社での所属名など木構造を持った情報を音声により入力して目的の情報を表示する音声による入力装置である。
【0002】
【従来の技術】
音声認識を利用した文字列の入力は、キーボードからの入力のように確定的なものではなく、尤度がついた正解候補群が求まり、そのうち最も尤度の高い候補が選択される仕組みになっている。音声認識の技術が十分に進展し、音響的な情報だけで第1位にほぼ100%の精度で正解を選ぶことができることが理想であるが、現状の技術レベルでは非常に困難である。
【0003】
ところで、累計認識率(上位N位に正解が含まれる確率)を100%近くにする技術は確立されており、上位N位に含まれる正解をいかに1位にするかという技術が重要になってくる。
【0004】
しかし、住所などを都道府県、郡市、区町村などで区切ることなく音声入力して認識させようとすると、そのパターンは膨大になり、認識語彙数の増加は認識性能の劣化と認識処理量の増加を招く。
【0005】
そこで音響的な情報で得た正解候補群に対し、言語的な情報を利用して正解を選び直すという試みが行なわれている。例えば、特開平1−255925号公報においては、キーワード間の関係で予め表現された概念ネットワークを用いて、認識処理手段で複数個得られる入力音声の候補単語から情報検索用として使用する単語系列をひとつ、あるいは複数個選択する手段を設けることにより、この問題の解決を図っている。
【0006】
【発明が解決しようとする課題】
しかし、上述の技術は、概念ネットワークが非常に大規模であるので、構築するのは一般に困難であり、構築しても実用上耐え得るものにはなりにくい。これは、言語の体系化が困難であるのと同じ理由で、必ずなんらかの記載洩れが現れてくるという問題がある。
【0007】
また、上述の技術は例文作成などに用いることができるものの、住所等の音声入力に利用するのは困難であるという問題がある。
【0008】
本発明の目的は、上記問題点を解決することのできる音声による入力装置を提供することにある。
【0009】
【課題を解決するための手段】
請求項1に記載の音声による入力装置は、単語に区切って発声された入力音声に対応する単語を有する単一の単語辞書と、単語に区切って発声された入力音声を上記単一の単語辞書を参照して認識し、候補単語を各発声順序毎に順位付けて生成する音声認識手段と、単語の出現順序を木構造で規定する木構造辞書と、上記各発声順序毎に順位付けられた候補単語の組み合せから、木構造辞書で規定された木構造に合致するものを選び出して単語候補系列を作成し、該単語候補系列を構成する各候補単語の発声順位ごとの認識順位に基づくスコアの和を単語候補系列ごとに算出する制御手段と、算出されたスコアに基づいて単語候補系列を表示する表示手段とを有することを特徴とする。
【0010】
請求項2に記載の音声による入力装置は、請求項1に記載の音声による入力装置において、上記単語に区切って発声された入力音声が住所データであることを特徴とする。
【0011】
【発明の実施の形態】
以下、住所データを音声により入力する場合の実施の形態について説明する。図1に、音声による入力装置のブロック図を示す。この入力装置は、音声認識部1、単語系列スコア演算部2、木構造辞書3、表示部4、制御部5、単語辞書6から構成され、音声認識部1、単語系列スコア演算部2、及び制御部5はCPU等からなる処理部7で構成され、木構造辞書3と単語辞書6はメモリや外部記憶装置で構成され、表示部4はCRTやプリンタで構成されている。
【0012】
音声認識部1は、制御部5と共に、話者の発声を音響分析して単語辞書6を参照して候補単語を出力する。単語系列スコア演算部2は、制御部5と共に、音声認識部1で得られた候補単語の組合せから、木構造辞書3を探索して存在しない単語候補系列を排除し、木構造の並びに合致する各単語候補系列を求め、これらのスコアを求める。制御部5は、音声認識、スコア算出、認識結果の表示、辞書の切り替えなどに必要な個々の処理を制御する。処理部7は、いわば、単語単位で発声された音声認識結果を木構造辞書中の所望の文字データ列に置き換えている。表示部4は、発声の結果得られた認識結果の候補単語系列または選択された単語系列の表示を行なう。なお、表示部4での認識結果を選択、加工するために、キーボード等の編集や選択を行う手段を設けていてもよい。
【0013】
木構造辞書3は、入力対象の単語系列の木構造情報を蓄えている。本実施の形態では住所データが入っている。住所データは図2のように都道府県、郡市、区町村などの順番で並んだ木構造を持っている。左から右の順に各単語が発声されるものとして定義している。
【0014】
単語辞書6は、音声認識に用いる音声パターン情報あるいは音声パターン情報に対応する単語を格納している。本実施の形態では、単語辞書6は、図2の木構造辞書から作成されたものであり、図2の破線で囲んであるように、「奈良県」は第1発声辞書に、「天理市」「奈良市」「大和郡山市」などは第2発声辞書にそれぞれ格納され、音声認識部1は、制御部5と共に、話者の発声ごとに第1発声用辞書、第2発声用辞書というように辞書を切り替えて認識していく。このように、単語辞書6を木構造辞書3を参照して、発声毎に切り替えて、不要な単語候補系列を生じないようにして認識性能の向上と処理量の削減を行っている。また、単語候補系列が木構造辞書に合致するかどうかを発声ごとに判定し、あるノードまでですでに実在しない単語候補系列の住所であることが判明した場合、それより右のノードについては探索を行う必要がなく、探索時間を削減することができる。
【0015】
以下、本実施の形態の動作手順について説明する。話者が1つの住所を単語に区切って発声すると、その情報は音声認識部1によって電気信号に変換された後、単語辞書6を検索して距離計算を行ない、距離の短い、すなわち類似度の高い順に候補単語が出力される。「奈良県」「天理市」「櫟本町」という順に話者が発声した場合の各単語の認識の結果得られた候補単語を図3の上表に示す。通常、住所を入力する場合には都道府県、郡市、区町村の順に発声し、この順序を逆転して発声することはないものとする。
【0016】
3つの発声に対し各4位までの候補単語を挙げているので、その組合せは4の3乗=64通りあるが、図2の木構造辞書を参照すると実在の住所はわずか2つであることが分かる。得られた単語候補系列である住所に対し、その住所を構成する各候補単語の認識順位に応じた得点を合計することで各住所のスコアが求まる。なお、認識順位でなく、音響的な認識尤度に応じた得点を用いても良い。図3の下表にはそのようにして求められたスコア順に候補住所を並べてある。この例では、各発声に対する正解単語の認識順位はそれぞれ3位、2位、2位で、従来なら各発声に対する認識結果に対して話者による訂正あるいは正解の選択作業が必要なところであるが、本発明によれば、図3の下表では発声した通りの住所が1位の候補住所として表示されている。
【0017】
もし、「奈良県天理市櫟本町」という地名を区切りなく一度の発声で入力しようとすると、音声パターンに対応する単語辞書6は非常に膨大なものとなり認識性能、認識処理時間ともに苦しいものになる。従って、このように住所を区切って発声することにより、認識性能、認識処理時間などの面で性能向上をはかるとともに、住所の各パーツの順序規則を利用して最終的な認識性能を向上することで、より一層の入力の効率化をはかることができる。
【0018】
上述したように、上記実施の形態では、各発声に対する候補単語の中に正解が存在する必要がある。つまり、何単語か入力してそのうち一単語でもN位までの候補単語に正解が含まれないと、話者の希望通りの住所入力ができない。また、音声認識技術特有の問題として、話者の周囲に雑音が存在すると、発声してもいないのに音声認識部1が雑音を音声と判断して認識結果を出してしまうことがあり得る。この場合も、上記実施の形態では、希望通りの住所入力ができない。例えば「奈良県」と「天理市」の発声の間に何か単語が入ってしまうと、希望通りの住所の入力が不可能になる。また、都道府県名の省略などがあった場合にも、希望通りの住所入力ができない。
【0019】
そこで、このような問題があったとしても話者の希望通りの住所を入力できる、さらに柔軟性のある他の実施の形態について説明する。この実施の形態では、話者の住所の発声の順序は逆転することはないが、部分的な省略や雑音による不要な単語の挿入があるため、単語辞書6を各発声ごとに切り替えない構成にする。従って、単語辞書6は図2に現れる全ての単語を集めたものになる。また、単語候補系列の求め方が以下のように相違する。
【0020】
3つの発声に対する認識結果として、図4にそれぞれ第8位までの候補単語を示す。図4の左下の図は候補単語表である。表中の空欄には、「奈良県」「天理市」「櫟本町」以外の単語がはいっている。この結果から「奈良県天理市櫟本町」のスコアをどのように求めるか説明する。図4の左上の図は「奈良県天理市櫟本町」の各パーツである「奈良県」「天理市」「櫟本町」それぞれに対し、図4の左下の表中に存在する位置をW(i,j)で示したものである。W(i,j)は第i発声の第j候補を意味する。この左上の表から、図2の木構造並びに沿った単語候補系列を作成する。この例では単語候補系列は1〜3個の単語で構成され、「奈良県天理市櫟本町」という住所に対応した各単語候補系列が図4の右上の表に示されている。この各単語候補系列は図4左上の表から深さ優先探索によって求まる。木構造並びに沿った単語候補系列を作成するには、昇べきの順の組合せでなければならない。例えばW(i1,j)が「奈良県」で、W(i2,j)が「天理市」のとき、それらからなる単語候補系列を[W(i1,j)W(i2,k)]とすると、「奈良県」と「天理市」の並び順から、必ずi1<i2でなければならない。従って[W(1,3)W(1,6)]といった単語候補系列は認められない。また、図4の左上の表からは[W(1,3)W(2,2)]という単語候補系列も考えられるが、それが図4の右上の表に含まれていないのは、同表中の単語候補系列[W(1,3)W(2,2)W(3,4)]の部分集合だからである。もっとも、ここでは部分集合を排除しているが、必ずしも排除しなければならないわけでなく、部分集合を含めて単語候補系列を求めてもよい。[W(1,6)W(3,4)]のような単語候補系列は、「奈良県」を省略して発声した場合に相当する。このように木構造並びに沿った単語候補系列を全て挙げることにより、部分的な単語の省略や候補単語に正解が含まれない場合があっても話者の発声した通りの住所を得ることができる。
【0021】
図4の右上の表中のスコアは、単語候補系列を構成するW(i,j)の得点の総和で求められる。各W(i,j)の得点は図4の左下の表中に順位毎に与えられた得点から求められる。1位候補なら8点である。[W(1,3)W(2,2)W(3,4)]の得点は6+7+5=18点となる。各単語候補系列に対するスコアを計算し、その和をとると49点になる。これが候補住所「奈良県天理市櫟本町」のスコアとなる。
【0022】
各候補住所に対してこのようなスコア計算を行ない、スコアの高い順に候補住所として表示部4に表示する。ただし各候補住所のスコアとしては、この実施の形態のように各単語候補系列に対するスコアの総和でもいいし、各単語候補系列中の最大スコアでも良い。表示された候補住所は、話者の入力した文字列として扱われる。ただし、より正確を期するために、文字列として扱う前に、表示部4に表示した候補住所から、図示しないキーボード等により話者に正解選択を行なわせても良い。
【0023】
次に、図5のフローチャートを用いて、上記動作手順を説明する。まず、ステップS1では、話者の発声単語を認識する。また、単語辞書6は、上述したように、木構造データを構成する全ての単語を含み、この単語辞書6を参照して認識結果として図4の左下表のように各発声毎に候補単語を求める。ステップS2では、図4の左上表のように、木構造データを構成する各単語の候補単語中に出現する位置を求める。ステップS3では、図4の右上表のように、木構造データの部分集合となり得る単語候補系列を深さ優先探索によって求める。また、その単語候補系列を構成する各単語の候補順位から単語候補系列のスコアを求める。ステップS4では、各単語候補系列のスコアを集計し、木構造データのスコアとする。ステップS5では、全木構造データのスコアを求めたかどうか判定し、まだ求めていない木構造データがある時はステップS2に戻る。各木構造データのスコアが全て求まった場合には、ステップS6に進み、各木構造データのスコアをソートする。そしてステップS7では、このスコア順に木構造データを並べて表示部4に表示する。
【0024】
通常、木構造データ数は非常に多く、一方、音声認識部1で出力される候補単語の数はそれほど多くないため、ほとんどの木構造データはスコアが0点である。したがって、全ての木構造データについてスコアを計算する作業を行なうのは効率が良いとはいえない。よって、ステップS1の後で、あらかじめ候補単語W(i,j)を含む木構造データをマークしておき、構成要素となる単語が候補単語中に全く含まれない木構造データはスコアを0点にし、スコア計算を行なわずに済むようにしておくのが効率的である。
【0025】
上記実施の形態では、住所入力の場合を説明しているが、本発明の適用範囲はこれに制限されない。学校や会社の所属名入力など、様々な木構造のデータ入力に適用可能である。また、住所入力の応用で会社名入力や観光地名入力なども容易に行なうことができる。例えば「阿倍野区」「シャープ株式会社」の発声だけで「大阪府大阪市阿倍野区長池町シャープ株式会社」を入力することができ、「東映太秦映画村」の発声だけで「京都府京都市右京区太秦東峰ケ岡町東映太秦映画村」を入力することができる。
【0026】
【発明の効果】
以上説明したように、本発明によれば、各発声に対する音声認識により得られた候補単語が1位でなくても、発声した単語候補系列を1位にすることができ、高速、高精度にデータを入力して表示することができる。また、データを区切らず発声して入力する場合よりも認識に必要な辞書の容量を減らすことができ、認識性能向上と認識処理量削減を達成できる。
【0027】
また、本発明によれば、上記効果に加え、たとえ音声認識により得られた候補単語中に正解が含まれない発声単語があっても、周囲の雑音が誤って発声された音声と認識されたとしても、あるいは入力音声の一部を省略したとしても、話者の希望通りにデータを入力して表示することができる。
【図面の簡単な説明】
【図1】 本発明の音声による入力装置のブロック構成を示す図である。
【図2】 図1の木構造辞書3の構成を示す図である。
【図3】 本発明の実施の形態に係る動作を説明するための図である。
【図4】 他の実施の形態において単語候補系列から候補住所のスコアを算出する様子を示す図である。
【図5】 他の実施の形態の動作を示すフローチャートである。
【符号の説明】
1 音声認識部
2 単語系列スコア演算部
3 木構造辞書
4 表示部
5 制御部
6 単語辞書
7 処理部

Claims (2)

  1. 単語に区切って発声された入力音声に対応する単語を有する単一の単語辞書と、
    単語に区切って発声された入力音声を上記単一の単語辞書を参照して認識し、候補単語を各発声順序毎に順位付けて生成する音声認識手段と、
    単語の出現順序を木構造で規定する木構造辞書と、
    上記各発声順序毎に順位付けられた候補単語の組み合せから、木構造辞書で規定された木構造に合致するものを選び出して単語候補系列を作成し、該単語候補系列を構成する各候補単語の発声順位ごとの認識順位に基づくスコアの和を単語候補系列ごとに算出する制御手段と、
    算出されたスコアに基づいて単語候補系列を表示する表示手段と
    を有することを特徴とする音声による入力装置。
  2. 請求項1に記載の音声による入力装置において、
    上記単語に区切って発声された入力音声が住所データであることを特徴とする音声による入力装置。
JP19078596A 1996-07-19 1996-07-19 音声による入力装置 Expired - Fee Related JP3663012B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19078596A JP3663012B2 (ja) 1996-07-19 1996-07-19 音声による入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19078596A JP3663012B2 (ja) 1996-07-19 1996-07-19 音声による入力装置

Publications (2)

Publication Number Publication Date
JPH1039894A JPH1039894A (ja) 1998-02-13
JP3663012B2 true JP3663012B2 (ja) 2005-06-22

Family

ID=16263705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19078596A Expired - Fee Related JP3663012B2 (ja) 1996-07-19 1996-07-19 音声による入力装置

Country Status (1)

Country Link
JP (1) JP3663012B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100977000B1 (ko) 2008-06-26 2010-08-19 주식회사 예스피치 업데이트된 주소의 음성 인식 그래마 자동 생성 방법 및시스템
KR101522375B1 (ko) 2009-03-19 2015-05-21 구글 인코포레이티드 입력 방법 편집기
WO2010105428A1 (en) 2009-03-19 2010-09-23 Google Inc. Input method editor

Also Published As

Publication number Publication date
JPH1039894A (ja) 1998-02-13

Similar Documents

Publication Publication Date Title
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US6233553B1 (en) Method and system for automatically determining phonetic transcriptions associated with spelled words
KR101309042B1 (ko) 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
US8126714B2 (en) Voice search device
JP3481497B2 (ja) 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置
JP2009036999A (ja) コンピュータによる対話方法、対話システム、コンピュータプログラムおよびコンピュータに読み取り可能な記憶媒体
JP2000032140A (ja) 音声認識を用いたロボットホテル従業員
CN109979257B (zh) 一种基于英语朗读自动打分进行分拆运算精准矫正的方法
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
JPH06332493A (ja) 音声対話型情報検索装置及び方法
KR20060070605A (ko) 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법
JP2012037790A (ja) 音声対話装置
KR100467590B1 (ko) 발음 사전 갱신 장치 및 방법
JPH07219590A (ja) 音声情報検索装置及び方法
JP4684583B2 (ja) 対話装置
JP3663012B2 (ja) 音声による入力装置
JP5004863B2 (ja) 音声検索装置および音声検索方法
CN111429886B (zh) 一种语音识别方法及系统
Hanazawa et al. An efficient search method for large-vocabulary continuous-speech recognition
JP5201973B2 (ja) 音声検索装置
JP3758241B2 (ja) 音声情報検索装置
JP2009282835A (ja) 音声検索装置及びその方法
JPH10232693A (ja) 音声認識装置
JP3819959B2 (ja) 音声による情報検索装置
JP4056546B2 (ja) 音声入力された複合名詞の検索装置、検索方法およびデータベース

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050325

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080401

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090401

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100401

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees