JP2004117771A - Method and device for preparing dictionary for speech recognition, method and device for speech recognition, speech recognition program, and voice recognition system - Google Patents

Method and device for preparing dictionary for speech recognition, method and device for speech recognition, speech recognition program, and voice recognition system Download PDF

Info

Publication number
JP2004117771A
JP2004117771A JP2002280300A JP2002280300A JP2004117771A JP 2004117771 A JP2004117771 A JP 2004117771A JP 2002280300 A JP2002280300 A JP 2002280300A JP 2002280300 A JP2002280300 A JP 2002280300A JP 2004117771 A JP2004117771 A JP 2004117771A
Authority
JP
Japan
Prior art keywords
dictionary
speech recognition
recognition
countermeasure
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002280300A
Other languages
Japanese (ja)
Inventor
Hiroyuki Aizu
会津 宏幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002280300A priority Critical patent/JP2004117771A/en
Publication of JP2004117771A publication Critical patent/JP2004117771A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method and a device for preparing a dictionary for speech recognition for realizing a higher recognition rate by simplifying selection of words and sentences to be stored in an erroneous recognition countermeasure dictionary necessary for speech recognition and selecting words and sentences being apt to be erroneously recognized, from word groups being commonly used and to provide a speech recognition device and a speech recognition system which are provided with these method and device. <P>SOLUTION: In the speech recognition device, terms having a prescribed reading length or shorter except terms of which the speech recognition results are decided to be correct are extracted from a database where terms in everyday use consisting of words and sentences are enumerated, and the erroneous recognition countermeasure dictionary is prepared. When a term entered in this dictionary is obtained as a result of speech recognition, this term is excluded from the recognition result. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置及び音声認識システムに関するものであって、特に音声認識に使用する辞書の作成に関するものである。
【0002】
【従来の技術】
音声による操作指示を認識し機器を制御する技術として音声認識技術がある。音声認識は人が発する音声という不安定な条件に基づいて機器を制御するものであって、キーボードを叩く、操作スイッチを入れるといった電気的に安定した信号で制御するものではない。一例を挙げれば、声を聞いただけでそれが誰であるかを判別できるように、音声には大きな個人差が存在する。さらには同一人物が同じ単語を発声したとしても、日によって聞こえ方が異なることもあるほど不安定なものである。
【0003】
このため従来では音声認識する単語から特徴を抽出してパラメータ化し、入力された音声信号と比較することで、このような不安定要素を極力排除した音声認識手法がとられるようになってきた(たとえば、特許文献1を参照)。しかしながら特許文献1の方法による音声認識装置でも未だ認識できない場合があり、発声の仕方や周囲の雑音などによっては、発声した単語とは違う単語と認識してしまうことも少なからずあった。
【0004】
たとえば特許文献2のように、認識したい単語を登録した音声認識辞書とは別に、認識結果から排除する単語を登録した辞書、つまり誤認識対策辞書を設ける方法をとるようになった。誤って認識しやすいが、およそ操作指示とはなりえない単語を予め登録しておくことにより、誤って認識した単語を事前に察知し認識結果から排除するものである。
【0005】
しかしながら特許文献2の場合、誤認識しやすい単語の抽出を[0014]段落に記載された方法で行っている。まず認識したい単語について読みの上げたときの文字ごとに母音を抽出し、その母音の数を文字の出現位置ごとに累計する。文字の出現位置で見たときに、その出現位置に出現しない母音をもつ単語は認識したい単語ではないはずだから、それぞれの母音の出現位置にこのような文字を持つ単語を作成して、これを誤認識対策辞書として蓄積する。
【0006】
この方法は認識したい単語が多くなると母音の抽出や検討に時間がかかり、処理が複雑になってしまうといった問題がある。また音声認識したい単語はある機器を操作するための操作指示となりうる単語であるから、その数はおのずと限られるはずである。その音声認識したい単語をもとに誤認識対策辞書に登録する単語を生成するのだから、生成する単語のバリエーションもおのずと限定される。
【0007】
しかしながら、本来音声認識は利用者の生活の中で使用されるものであるから、誤認識しやすい単語を効果的に排除するためには、利用者が日常的に使用している単語全般から、誤認識対策辞書に登録する単語を選択すべきである。
【0008】
また特許文献2の方法でも誤認識対策辞書に登録する単語数を数多く生成すれば広い範囲の単語をカバーできるが、誤認識対策辞書が必要とする記憶量はできうる限り小さくしたいのが普通である。単語を大量に生成したとき、それが普段使用する可能性のない単語ばかりであれば記憶量は無駄に増加するばかりである。
【0009】
【特許文献1】特開平11−143485号公報
【0010】
【特許文献2】特開2001−184085公報
【0011】
【発明が解決しようとする課題】
本発明は音声認識に必要な誤認識対策辞書へ記憶する用語の選定を簡略化し、かつ誤認識されやすい用語を常用される用語群から選定することで、より高い認識率を実現する音声認識用辞書の作成方法、作成装置、音声認識方法及びこれらを利用した音声認識装置、音声認識システムを提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明の方法によれば、
音声認識結果が誤認識であると判断するために使用する誤認識対策辞書を作成する音声認識用辞書作成方法であって、
日常用語を列記したデータベースから、用語の読みが所定の長さ以下の用語を抽出し、
音声認識した結果、所定の単語や文章からなる用語が得られたら正しい音声認識が行われたと判断する前記所定の用語を列記した音声認識辞書を用いて、
前記抽出した用語のうち、前記音声認識辞書に列記した用語の読みの文字並び又は文字長とが異なる用語を選択し
この選択した用語を用いて誤認識対策辞書を作成することを特徴とする音声認識用辞書作成方法
が提供される。
また、
音声認識結果として正しいと判断する用語を列記した音声認識辞書と、音声認識結果が誤認識であると判断するために使用する誤認識対策辞書とを用いた音声認識方法であって、
単語や文章からなる日常用語を列記したデータベースから、用語の読みが所定の長さ以下の用語を抽出し、
この抽出した用語のうち、前記音声認識辞書に列記した用語の読みの文字並び又は長さとが異なる用語を選択し
この選択した用語を用いて前記誤認識対策辞書を作成し、
音声認識を行う場合に、
音声認識した結果について、前記誤認識対策辞書に列記したものと同じ用語を示す結果であったときは、この結果を認識結果から排除する
ことを特徴とする音声認識方法
が提供される。
及び、これらの方法を実現する音声認識用辞書作成装置、音声認識装置、音声認識プログラム及び音声認識システムが提供される。
【0013】
【発明の実施の形態】
図1に本発明の1実施形態にかかる音声認識システムの一例を示す。図1には集音装置101、音声認識装置102、出力装置103、辞書作成装置104及びネットワーク105が示されている。集音装置101と音声認識装置102及び辞書作成装置104はネットワーク105を介して通信ができるように接続されている。
【0014】
集音装置101はマイクロフォンなどで周囲の音声などの音情報を集め、この音情報を音声信号としてネットワークを介して音声認識装置102へ送信する機能を持つ。
【0015】
音声認識装置102は、集音装置101が送信した音声信号を受信し、その信号に含まれる音声を解析する。解析の結果から音声であると判断した場合には、その音声がいかなる語であるかを認識し、その認識結果に基づいた信号を出力する機能を持つ。
【0016】
出力装置103は、音声認識装置102の出力信号を受けて、音声認識結果にしたがった動作をする装置である。たとえばディスプレイ装置やブザーといった表示機器、テレビといった家電製品、あるいはリレーといったスイッチに相当する。
【0017】
辞書作成装置104は音声認識装置102が音声認識に使用する辞書を作成する機能を有する。作成した辞書はネットワーク105を介して音声認識装置102へ送信される。
【0018】
ネットワーク105は集音装置101、音声認識装置102及び辞書作成装置104との間の通信を実現する。このネットワークにはたとえば、Ethernet(R)といった有線LAN、IEEE802.11bで規定されるような無線LAN、近距離通信を目的として開発されたBluetooth(TM)、または赤外線通信規格であるIrDA(Infrared Data Association)といったものも適用可能である。通信の形態は上記したものに限られず、これらが互いに通信ができるネットワークであれば良い。
【0019】
図2に本発明の1実施形態にかかる音声認識装置102のブロック構成図の一例を示す。図2には音声処理部201、認識部202、出力部203、通信処理部204、辞書更新部205、認識辞書206及び誤認識対策辞書207が示されている。
【0020】
音声処理部201は集音装置101から得られた音声信号を音声認識に適した信号へ整形する機能を持っている。まず集音装置101が送信した音声信号が、通信処理部204によって音声処理部201へ入力される。この音声信号は通信時に紛れ込んだひずみやノイズが乗っている。音声処理部201は、このようなひずみを修正すると共に、フィルタ回路を介して音声認識に不要なノイズを除去する。その後、出力信号レベルなどを整え認識部202へ出力する。
【0021】
認識部202は音声処理部201が出力する音声信号を受けて、この音声信号に含まれる音声を認識する機能を持つ。音声信号にどのような単語や文章の信号が含まれているかを判断するために行う信号解析の方法が多く知られている。本実施形態では、たとえば特許文献1に記載されるような単語を発声したときの音声信号に含まれる特徴を抽出した特徴パラメータによる解析方法などを利用すればよい。本実施形態の認識部202では、音声信号からこれに含まれる発声された単語や文章を解析する方法は、上記した方法に限らずどのような方法であってもかまわない。音声信号に含まれる発声された単語あるいは文章について、単語あるいは文章が抽出できる方法であれば用いることができる。
【0022】
抽出した単語あるいは文章は、誤認識対策辞書207に記憶した情報と突き合わされる。突合せの結果該当するものが無い場合には、さらに認識辞書206に列記された情報と突き合わされる。突合せた結果、ここに列記されている単語や文章と同じものがあれば、抽出された単語あるいは文章は正しい指示であると判断する。このように判断した単語や文章による指示以外は、正しい指示ではないと判断する。
【0023】
特徴抽出した単語や文章が正しい指示であると判断されたときは、出力部203に対し、その単語や文章によって実行される処理に沿う信号を出力する。
【0024】
出力部203は認識部202の音声認識結果の信号を受けて、この信号に基づいた動作を行う機能を持つ。出力部203は、音声認識装置102に接続した出力装置103の制御をする。たとえば出力装置103の電源の入り切りなどを行う。出力装置103がテレビであれば電源の入り切りのほかに、受像チャンネルを切り替える、音量を上げるといった操作を行っても良い。
【0025】
通信処理部204はネットワーク105を介して、集音装置101や辞書作成装置104と通信する機能を持つ。集音装置101から送信された音声信号については音声処理部201へ出力する。辞書作成装置104で作成された辞書情報を受信したときは、受信した辞書情報を辞書更新部205へ向けて出力する。
【0026】
辞書更新部205は、辞書作成装置104からネットワーク105を介して得られた辞書情報を元に認識辞書206及び誤認識対策辞書207を更新する機能を持つ。
【0027】
認識辞書206は認識部202で音声認識を行うときの、操作指示である単語や文章が記憶された、たとえばメモリといった記憶装置からなる辞書である。認識部202で音声信号に含まれる単語や文章を抽出したときに参照され、この辞書に列記されている単語や文章と同じものがある場合には、認識部202が音声による正しい指示がなされたと判断する。
【0028】
たとえば出力装置103がテレビである場合、テレビの音量を上げるために「大きく」と発声するとする。認識部202は、利用者が発した「大きく」という音声信号を受けると、この単語や文章が認識辞書206にあるときはテレビの音量を大きくするように出力部203を介して出力装置103に信号を出力する、利用者が音声による指示をするとき、発声する単語や文章によって出力装置103に対して行う操作が異なるのが普通なので、列記された音声や文章ごとに認識部202が出力部203に与える出力信号(コマンド)も関連付けられて列記されている。好ましくは認識辞書206に記憶する単語や文章、及び出力信号を入れ替えられるようにすべきである。このように構成すれば、認識したい単語や文章、及び出力信号が異なる出力装置103であっても適用することができる。
【0029】
認識部202の音声認識の際、認識辞書206に予め記憶されていない単語や文章については、正しい指示とは認めない。
【0030】
誤認識対策辞書207は、認識部202で特徴抽出した単語や文章のうち、明らかに出力装置103への操作指示とはならない単語や文章を列記したものである。ここに記憶する単語や文章は、認識部202による単語や文章の特徴抽出後、出力装置103への操作指示ではないとしてまず先に認識部202によって排除されるべき単語や文書である。誤認識対策辞書207に記憶する単語や文章の選定については以降の辞書情報作成方法で説明する。好ましくは誤認識対策辞書207に記憶する単語や文章は入れ替えられるようにすべきである。このように構成すれば、出力装置103ごとあるいは任意に誤認識と判定したい単語や文章を変えたい場合でも適用することができるようになる。
【0031】
図3は本発明の1実施形態にかかる辞書作成装置104のブロック構成図の一例を示している。図3には単語辞書301、誤認識対策辞書作成部302、認識辞書作成部303、通信制御部304、認識辞書情報305及び誤認識対策辞書情報306が示されている。
【0032】
単語辞書301は日常会話で用いられている単語や文章を列記したデータベースである。ここに記憶する単語や文章は、たとえば市販されている国語辞書の掲載項目とすることができる。市販されている国語辞書は、普段の会話中で使用されている頻度が高い単語や文章が多く記載されている。日常会話等で発声される単語や文章をカバーするには好適である。市販の国語辞書の掲載項目から、話し言葉として発声する頻度が低いと思われるものを除いた単語辞書301を作成し、これを使用することもできる。このようにすると単語辞書301を構成するデータベースの容量を減少することができる。単語辞書301は磁気ディスク装置、メモリ、CD−ROMといったあらゆる記憶装置で構成することができる。
【0033】
誤認識対策辞書作成部302は、単語辞書301に記憶された単語や文章から所定の規則にしたがって単語や文章を選択し、誤認識対策辞書情報306に記憶する機能を持つ。誤認識対策辞書作成部302が行う、単語辞書301から単語や文章を抽出する規則については、以降の辞書情報作成方法で説明する。
【0034】
認識辞書作成部303は、音声認識装置102が行う音声認識で認識したい単語や文章を、認識辞書情報305に記憶する機能を持つ。認識したい単語や文章とは、音声認識装置102によって出力装置103を制御するために利用者が発する単語や文章のことである。認識辞書作成部303による認識辞書情報305へ単語や文章を入力する方法は、辞書作成装置104に備えた図示しないキーボードから打ち込む方法が考えられる。制御対象である出力装置103が定まれば、音声による制御に適した単語や文章が決まってくる。前出のテレビを例にとると、「つける」、「切る」、「○チャンネル」、「大きく」、「小さく」といった単語や文章を定めれば基本的な制御には十分である。
【0035】
制御対象に応じて音声認識で認識したい単語や文章、およびそれらが音声信号として与えられたとき出力装置103にどのような出力信号を出力するかが決まったところで、利用者あるいは開発者がこれらの情報を前出のキーボードを叩き入力する。入力した情報は認識辞書作成部303が処理し、認識辞書情報305に記憶する。
【0036】
あるいは認識辞書作成部303が、ネットワーク105を介して集音装置101から認識辞書情報305に記憶する単語や文章の音声信号を取得し、これを音声認識したものを認識辞書情報305に記憶するように構成しても良い。
【0037】
通信処理部304はネットワーク105を介して集音装置101及び音声認識装置102と通信する機能を持つ。通信する情報には、集音装置101から送信される音声信号や、認識辞書情報305及び誤認識対策辞書情報306を音声認識装置102に送信する辞書情報がある。
【0038】
認識辞書情報305は、認識辞書作成部303によって、音声認識装置102に出力装置103への制御指示として認識したい単語や文章が列記されるデータベースである。認識辞書情報305は磁気ディスク、メモリ、CD−ROMといったあらゆる記憶装置により構成することができる。
【0039】
認識辞書情報305に列記される単語や文章は、制御対象である出力装置103に応じて入れ替えられるようになっている。このように構成すれば制御対象を制御するために発声する単語や文章、および出力信号が異なっていても本実施形態のまま適用することができる。
【0040】
認識辞書情報305に記憶した単語や文章の情報は、通信処理部304が、音声認識装置102が備える認識辞書206の更新のための辞書情報としてネットワーク105を介して送信する。
【0041】
誤認識対策辞書306は、誤認識対策辞書作成部302によって、音声認識装置102に認識結果から排除したい単語や文章の読みが列記されるデータベースである。誤認識対策辞書306は磁気ディスク、メモリ、CD−ROMといったあらゆる記憶装置により構成することができる。
【0042】
誤認識辞書情報306に列記される単語や文章は、必要に応じて書き換え可能になっている。このように構成すれば制御対象を制御する際に認識したくない単語や文章が変わっても本実施形態のまま適用することができる。
【0043】
誤認識対策辞書情報306に記憶した単語や文章の情報は、認識辞書情報305と同様に、通信処理部304によりネットワーク105を介して音声認識装置102が備える誤認識対策辞書207の更新のための辞書情報として送信される。
【0044】
図4は本発明の1実施形態における集音装置101のブロック構成図の一例を示す図である。図4には、マイクロフォン401、音声処理部402及び通信処理部403が示されている。
【0045】
マイクロフォン401は周囲の音声を音声信号に変換し、音声処理部402に出力する。音声信号には、利用者が出力装置103を制御するために発した単語や文章の音声信号が含まれている。
【0046】
音声処理部402は、マイクロフォン401から得られた音声信号からひずみを修正すると共に、フィルタ回路を介して音声認識に不要なノイズを除去する。その後、ノイズが除去された信号の音声信号出力の信号レベルなどを整え、通信処理部403へ出力する。
【0047】
通信処理部403は音声処理部402が出力した音声信号を、ネットワーク105を介して音声認識装置102及び辞書作成装置104に送信する機能を持つ。
【0048】
次に、図5に本発明の1実施形態における辞書作成装置104の辞書情報の作成方法を示す動作フローの一例を示す。
【0049】
誤認識対策辞書情報306の作成に先立って、最初に認識辞書情報305を作成する。利用者あるいは開発者は、出力装置103を制御する音声で使用する単語や文章を決め、この単語や文章によって出力装置103にどのような出力信号を出力すべきかを定める。これらが定まったとことで利用者あるいは開発者は認識辞書作成部303を介して、認識辞書情報305に単語や文章、出力信号の情報を入力する(ステップS01)。
【0050】
つぎに音声認識装置102で操作指示として認識しない単語や文章である誤認識単語を、単語辞書301から抽出する(ステップS02)。
【0051】
最終的に誤認識対策辞書情報306に列記される単語や文章は、次にあげる点を考慮して抽出する。
a)操作指示として使用する単語や文章を除いたもの。
b)操作指示ではない単語や文章であるにもかかわらず、音声認識装置102で操作指示と認識されるもの。
c)単語長が短いために、発声したときの特徴情報が少ないもの。
【0052】
a)は、認識させたい単語や文章は、どのような事情があるにせよ誤認識対策辞書情報306及び誤認識対策辞書207には含めないという意味である。
【0053】
b)は発声した単語や文章が、操作指示では無いにもかかわらず音声認識装置102に操作指示として認識され易い単語や文章であった場合に、これらの単語や文章を個別に抽出対象とする。こうすることにより音声認識装置102によって誤って認識されやすい単語や文章を積極的に排除することができる。
【0054】
c)は、ある単語や文章を発声したときに、その音声信号に含まれる特長点が少なく音声認識の際に他の単語や文章と分別がつきにくいものを誤認識対策辞書情報として抽出するという意味である。
【0055】
ステップS02では上記のc)の点に注目して単語や文章を抽出する。本実施形態では、音声信号に含まれる特長点が少ないという基準を、1乃至4文字で記述される単語や文章とする。単語辞書301に列記された単語や文章の一部から抽出候補を選定する一例を図6に示す。図6の表は単語辞書301に列記した単語の読みの文字並びを示す登録単語の欄と、その登録単語のそれぞれの文字長、及び誤認識単語の判定結果である誤認判定の欄が示されている。これ以降、音声信号に含まれる特長点が少ないと判断される単語や文章を、誤認単語と呼ぶ。
【0056】
誤認単語と判断された登録項目は「あーす」、「あーち」、「あい」、「あいかぎ」、「あいけん」、「あおかび」及び「あおぐ」の8個である。誤認識対策辞書作成部302は、この8個の単語は発声したときに音声的な特徴が少なく、音声認識装置102が出力装置103への操作指示を含む他の単語や文章と誤認識しやすい単語だと判断する。一方、「あいいれない」、「あいかわらず」、「あいえんか」、「あいきどう」、「あいきょう」、「あいしょう」及び「あおざめる」の7個は誤認識しにくい単語と判断し、誤認識対策辞書情報306には記憶しない。
【0057】
このように単純に文字数を基準に、他の単語や文章と誤認識されやすい単語や文章を抽出すると、誤認識対策辞書207の作成が容易になる。また、音声によって操作を指示する利用者が日常的に使用する単語群や文章を列記した単語辞書301から抽出すれば、発声される確率の高い単語や文章をカバーした誤認識対策辞書207とすることが可能となる。
【0058】
本実施形態では特徴点が少ない単語や文章の判断基準を読みで1乃至4文字で表現されるものとした。たとえば、音声認識装置102の、音声信号に含まれる単語や文章の特徴抽出能力が高く音声認識率が高い場合は、誤認識対策辞書情報306として抽出する単語や文章の長さを1乃至3文字あるいは1乃至2文字とし、誤認単語として用意する単語や文章の数を減らすことができる。
【0059】
利用者が音声認識装置102に求める音声認識率にもよるが、誤認単語に該当する文字長を減ずると誤認識対策辞書情報306に列記する単語や文章の数を削減することが可能である。記憶数が削減されることにより、誤認識対策辞書情報306及び誤認識対策辞書207に必要な記憶容量をより小さいもので構成することもできる。
【0060】
つぎに単語辞書301から誤認識対策辞書作成部302がすべての誤認単語を抽出したかを判断する(ステップS03)。すべての誤認単語の抽出が終わったら、認識辞書情報305と誤認識対策辞書情報306に列記された単語や文章の情報を音声認識装置102に送信する(ステップS06)。
【0061】
一方、単語辞書301にまだ誤認単語がある場合は、抽出した誤認単語が認識辞書情報305に含まれているかを判断する(ステップS04)。これはステップS02の説明で既述したように、操作指示に該当するものは誤認識対策辞書には含めないというa)のために行う処理である。このとき、誤認識対策辞書作成部302は抽出した誤認単語が認識辞書情報305にある場合には、この誤認単語の処理を止め新たな誤認単語を抽出する(ステップS02)。
【0062】
ステップS04での誤認単語の同一判断は、単語や文章の読みの文字並び及び文字長で見たときに、その両方が同じものを同じ単語や文章であると判断する。このように単に読みが同じかどうかによって単語や文章の同一性が判断される。
【0063】
誤認単語が認識辞書情報305にない単語や文章であると判断したときは、この誤認単語をその読みと共に誤認識対策辞書情報306に記憶する(ステップS05)。記憶した後は再び単語辞書301から新たな誤認単語を抽出する(ステップS02)。
【0064】
続いて、図7に本発明の1実施形態にかかる音声認識装置102の動作フローを示す。音声認識に先立って、辞書作成装置104から送信された辞書情報により、認識辞書206及び誤認識対策辞書207の更新が正常に終わっているものとする。
【0065】
認識部202は、集音装置101が送信した音声信号を受けて、この音声信号に含まれる音声の特徴から単語や文章を抽出する(ステップS11)。
【0066】
次に認識部202は音声信号に含まれる発声された単語や文章を正常に抽出できたかどうかを判断する(ステップS12)。判断の結果、正常に単語や文章を抽出できなかったときは次に送られてくる音声信号の音声認識処理を行う(ステップS11)。
【0067】
入力音声の単語や文章が正常に抽出できたときは、認識部202は抽出した単語や文章が誤認識対策辞書207に列記されているかどうかを判断する(ステップS13)。ここでの判断は、単語や文章の読みの文字並び及び文字長が同じであるかどうかによって、単語や文章同士の同一性を判断する。列記されているときは、この音声信号に含まれる単語や文章は誤認単語、つまり誤って認識した可能性が高いと判断されるため処理を中止し、次に送られてくる音声信号の音声認識処理を行う(ステップS11)。
【0068】
認識部202は、抽出した単語や文章が誤認識対策辞書207に列記されていないと判断したときは、次に抽出した単語や文章が認識辞書206に列記されているかどうかを判断する(ステップS14)。認識辞書206に列記されていない単語や文書であれば、出力装置103への操作指示ではないから処理を中止し、次に送られてくる音声信号の音声認識処理を行う(ステップS11)。
【0069】
認識辞書206に列記されている単語や文章の中に、抽出した単語や文章と同じものがあったときは、その単語や文章と関連付けられた出力信号情報を認識辞書206から取り出す。そして取り出した出力信号を出力部203を介して出力装置103へ出力する(ステップS15)。
【0070】
上記したような構成とすることで、音声認識システムで使用する誤認識対策辞書の作成が容易になる。また、音声によって操作を指示する利用者が日常的に使用する単語群や文章を単語辞書から誤認単語を抽出するので、発声される確率の高い単語や文章をカバーした誤認識対策辞書とすることができる。よって誤認識対策辞書の作成コスト低減し、かつ音声認識率の向上を実現することができる。
【0071】
(実施形態の変形例1)
図1に示した集音装置101、音声認識装置102及び辞書作成装置104の機能を一つの筐体で実現することもできる。このとき誤認識対策辞書207と誤認識対策辞書情報306、および認識辞書206と認識辞書情報305をそれぞれ1つの記憶装置で実現しても良い。誤認識対策辞書作成部302は誤認識対策辞書207を直接更新し、認識辞書作成部303も同様に認識辞書206を直接更新するようにすれば良い。
【0072】
またネットワーク105を介した更新も不要となるので、この場合は通信制御部204、304及び403と、辞書更新部205を構成に含めなくとも、本発明にかかる音声認識システムを構成できる。
【0073】
加えて、出力装置103に音声認識装置102の機能を含めるなど、図1に示したそれぞれの構成要素を適宜組み合わせて構成しても本発明の効果が得られることに変わりは無い。
【0074】
たとえば家庭内の複数の場所に集音装置101を設置し、各々の集音装置101が送信する音声信号を一つの音声認識装置102で処理すれば、家庭内のどこからでも操作指示ができる環境を利用者に提供することができる。または集音装置101と音声認識装置102の機能を一つの筐体に収納すれば、音声認識機能を持った携帯型のたとえばリモコン装置とすることもできる。
【0075】
このように構成すると、音声認識システムの利用場面や製造コストに応じて適切なシステムの構成とすることができる。
【0076】
(実施形態の変形例2)
辞書作成装置104で作成した認識辞書情報305及び誤認識対策辞書情報306を、通信処理部304及び204を介して、辞書更新部205により認識辞書206及び誤認識対策辞書207を更新した後に、音声認識装置102によって認識辞書206及び誤認識対策辞書207に情報を追加する場合である。
【0077】
たとえば操作指示に使用する単語や文章の一部を変えたいとき、または誤認識対策辞書作成部302で抽出されなかった単語や文章を誤認単語として誤認識対策辞書207に記憶したいときに、わざわざ辞書作成装置104で辞書情報の再作成をしたくない、あるいは辞書作成装置104が遠方に設置されているなどで辞書情報の再作成ができないときに有効である。
【0078】
図8に本変形例にかかる音声認識装置102のブロック構成図の一例を示す。図2に示したブロック構成図との違いは、入力部208が新たに追加された点である。
【0079】
入力部208はたとえばキーボードであり、認識辞書206や誤認識対策辞書207に列記されている情報を更新するために、利用者がこのキーボードから入力した情報が辞書更新部205に出力される。辞書更新部205は、入力部208から得られた情報をもとに認識辞書206や誤認識対策辞書207を更新する。
【0080】
あるいは辞書更新部205が、ネットワーク105を介して集音装置101からそれぞれの辞書に列記する単語や文章の音声信号を取得し、これを解析した単語や文章を更新用の辞書情報として用いても良い。
【0081】
なお、上記した本発明の1実施形態及び変形例の構成は実施形態に挙げた構成限られず、同様の機能をもつ構成によって一部あるいは全部を置き換えても、本発明の効果を得ることができる。また本発明の実施形態に示した音声認識装置102及び辞書作成装置104の動作フローを実現するプログラムコードを実装した計算機によって構成しても同様に本発明の効果を得ることができる。
【0082】
【発明の効果】
音声認識に必要な誤認識対策辞書へ記憶する単語の選定を簡略化し、かつ誤認識されやすい単語や文章を常用される単語群から選定することで、より高い認識率を実現する音声認識用辞書の作成方法、作成装置及びこれらを備えた音声認識装置、音声認識システムとすることができる。
【図面の簡単な説明】
【図1】本発明の実施形態における音声認識システムの一例を示す図である。
【図2】本発明の実施形態における音声認識装置102のブロック構成図の一例を示す図である。
【図3】本発明の実施形態における辞書作成装置104のブロック構成図の一例を示す図である。
【図4】本発明の実施形態における集音装置101のブロック構成図の一例を示す図である。
【図5】本発明の実施形態における辞書作成装置104の動作フローの一例を示す図である。
【図6】本発明の実施形態における誤認単語の選定方法の一例を示す図である。
【図7】本発明の実施形態における音声認識装置102の動作フローの一例を示す図である。
【図8】本発明の実施形態の変形例1における音声認識装置102のブロック図の一例を示す図である。
【符号の説明】
101     集音装置
102     音声認識装置
103     出力装置
104     辞書作成装置
105     ネットワーク
202     認識部
205     辞書更新部
206     認識辞書
207     誤認識対策辞書
208     入力部
301     単語辞書
302     誤認識対策辞書作成部
306     誤認識対策辞書情報
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech recognition device and a speech recognition system, and more particularly to creation of a dictionary used for speech recognition.
[0002]
[Prior art]
There is a voice recognition technology as a technology for recognizing an operation instruction by voice and controlling a device. Speech recognition controls devices based on unstable conditions such as human voices, and does not control them using electrically stable signals such as hitting a keyboard or turning on an operation switch. In one example, there is a large individual difference in speech so that it is possible to determine who it is just by listening to the voice. Furthermore, even if the same person utters the same word, the sound may be different depending on the day.
[0003]
For this reason, in the related art, a feature is extracted from a word to be speech-recognized, parameterized, and compared with an input speech signal, thereby adopting a speech recognition method in which such an unstable element is eliminated as much as possible ( For example, see Patent Document 1). However, there is a case where the speech recognition device using the method of Patent Document 1 cannot recognize the word yet, and depending on the manner of utterance and the surrounding noise, it is not rare that the word is recognized as a different word from the uttered word.
[0004]
For example, a method of providing a dictionary in which words to be excluded from recognition results are registered, that is, a dictionary for countering erroneous recognition, in addition to a speech recognition dictionary in which words to be recognized are registered, as in Patent Literature 2, for example. By preliminarily registering a word that is easily recognized by mistake but that cannot be approximately an operation instruction, a word that is incorrectly recognized is detected in advance and is excluded from the recognition result.
[0005]
However, in the case of Patent Literature 2, a word that is easily misrecognized is extracted by the method described in the paragraph [0014]. First, vowels are extracted for each character at the time of reading a word to be recognized, and the number of vowels is accumulated for each character appearance position. Words that have vowels that do not appear at the appearance position should not be words that you want to recognize when viewed at the appearance position of the character, so create a word that has such a character at the appearance position of each vowel, and It is stored as a misrecognition prevention dictionary.
[0006]
This method has a problem that if the number of words to be recognized increases, it takes time to extract and examine vowels, and the processing becomes complicated. In addition, words to be recognized by voice are words that can be used as operation instructions for operating a certain device, and the number of words should be naturally limited. Since the words to be registered in the misrecognition countermeasure dictionary are generated based on the words to be recognized, the variations of the words to be generated are naturally limited.
[0007]
However, since speech recognition is originally used in the life of the user, in order to effectively eliminate words that are easily misrecognized, the general use of words by the user must be Words to be registered in the misrecognition measures dictionary should be selected.
[0008]
Also, the method of Patent Document 2 can cover a wide range of words by generating a large number of words to be registered in the misrecognition countermeasure dictionary. However, it is generally desired to reduce the storage amount required by the misrecognition countermeasure dictionary as much as possible. is there. When a large number of words are generated, if only words that are unlikely to be used usually are used, the amount of storage increases only uselessly.
[0009]
[Patent Document 1] JP-A-11-143485
[0010]
[Patent Document 2] Japanese Patent Application Laid-Open No. 2001-184085
[0011]
[Problems to be solved by the invention]
The present invention simplifies the selection of terms to be stored in the misrecognition countermeasure dictionary necessary for speech recognition, and selects a term that is easily misrecognized from a group of commonly used terms, thereby achieving a higher recognition rate for speech recognition. An object of the present invention is to provide a dictionary creation method, a creation device, a speech recognition method, and a speech recognition device and a speech recognition system using the same.
[0012]
[Means for Solving the Problems]
According to the method of the present invention,
A speech recognition dictionary creation method for creating a misrecognition countermeasure dictionary used to determine that a speech recognition result is misrecognition,
From the database that lists everyday terms, extract terms whose reading is less than a predetermined length,
As a result of the speech recognition, using a speech recognition dictionary listing the predetermined terms to determine that correct speech recognition has been performed if a term comprising a predetermined word or sentence is obtained,
From the extracted terms, select a term that differs in the character arrangement or character length of the reading of the terms listed in the speech recognition dictionary.
A method for creating a dictionary for speech recognition, comprising creating an erroneous recognition countermeasure dictionary using the selected term.
Is provided.
Also,
A speech recognition method using a speech recognition dictionary listing terms that are determined to be correct as the speech recognition result, and an erroneous recognition countermeasure dictionary used to determine that the speech recognition result is erroneous recognition,
From a database that lists everyday terms consisting of words and sentences, extract terms whose reading is less than a predetermined length,
From the extracted terms, select a term that differs from the character arrangement or length of the reading of the terms listed in the speech recognition dictionary.
Using the selected term to create the misrecognition measures dictionary,
When performing voice recognition,
If the speech recognition result indicates the same term as that listed in the misrecognition countermeasure dictionary, this result is excluded from the recognition result.
Voice recognition method characterized by the following:
Is provided.
Further, a speech recognition dictionary creating device, a speech recognition device, a speech recognition program, and a speech recognition system that realize these methods are provided.
[0013]
BEST MODE FOR CARRYING OUT THE INVENTION
FIG. 1 shows an example of a speech recognition system according to an embodiment of the present invention. FIG. 1 shows a sound collection device 101, a speech recognition device 102, an output device 103, a dictionary creation device 104, and a network 105. The sound collection device 101, the voice recognition device 102, and the dictionary creation device 104 are connected so as to be able to communicate via a network 105.
[0014]
The sound collection device 101 has a function of collecting sound information such as surrounding sounds with a microphone or the like and transmitting the sound information as a sound signal to the speech recognition device 102 via a network.
[0015]
The voice recognition device 102 receives the voice signal transmitted by the sound collection device 101, and analyzes the voice included in the signal. When it is determined from the result of the analysis that the voice is a voice, it has a function of recognizing what word the voice is, and outputting a signal based on the recognition result.
[0016]
The output device 103 is a device that receives an output signal of the speech recognition device 102 and performs an operation according to a speech recognition result. For example, it corresponds to a display device such as a display device or a buzzer, a home appliance such as a television, or a switch such as a relay.
[0017]
The dictionary creation device 104 has a function of creating a dictionary used by the speech recognition device 102 for speech recognition. The created dictionary is transmitted to the voice recognition device 102 via the network 105.
[0018]
The network 105 realizes communication among the sound collection device 101, the voice recognition device 102, and the dictionary creation device 104. This network includes, for example, a wired LAN such as Ethernet (R), a wireless LAN defined by IEEE802.11b, and Bluetooth developed for short-range communication. (TM) Alternatively, IrDA (Infrared Data Association), which is an infrared communication standard, is also applicable. The form of communication is not limited to those described above, and any network may be used as long as they can communicate with each other.
[0019]
FIG. 2 shows an example of a block diagram of the speech recognition apparatus 102 according to one embodiment of the present invention. FIG. 2 shows a voice processing unit 201, a recognition unit 202, an output unit 203, a communication processing unit 204, a dictionary update unit 205, a recognition dictionary 206, and a misrecognition countermeasure dictionary 207.
[0020]
The voice processing unit 201 has a function of shaping a voice signal obtained from the sound collection device 101 into a signal suitable for voice recognition. First, the audio signal transmitted by the sound collection device 101 is input to the audio processing unit 201 by the communication processing unit 204. This audio signal contains distortion and noise that have been introduced during communication. The voice processing unit 201 corrects such distortion and removes noise unnecessary for voice recognition via a filter circuit. Thereafter, the output signal level and the like are adjusted and output to the recognition unit 202.
[0021]
The recognition unit 202 has a function of receiving a voice signal output from the voice processing unit 201 and recognizing voice included in the voice signal. There are many known signal analysis methods performed to determine what word or sentence signal is included in an audio signal. In the present embodiment, for example, an analysis method based on a feature parameter obtained by extracting a feature included in an audio signal when a word is uttered as described in Patent Literature 1 may be used. In the recognition unit 202 of the present embodiment, the method of analyzing the uttered word or sentence included in the audio signal from the audio signal is not limited to the above-described method, and may be any method. With respect to the spoken word or sentence included in the audio signal, any method can be used as long as the method can extract the word or sentence.
[0022]
The extracted words or sentences are matched with the information stored in the misrecognition countermeasure dictionary 207. If no match is found as a result of the matching, the information is further matched with the information listed in the recognition dictionary 206. As a result of the matching, if there is the same word or sentence listed here, it is determined that the extracted word or sentence is a correct instruction. It is determined that instructions other than the instruction based on the word or sentence determined in this way are not correct instructions.
[0023]
When it is determined that the word or the sentence of which the feature is extracted is a correct instruction, a signal is output to the output unit 203 in accordance with the processing executed by the word or the sentence.
[0024]
The output unit 203 has a function of receiving a signal of the speech recognition result of the recognition unit 202 and performing an operation based on the signal. The output unit 203 controls the output device 103 connected to the speech recognition device 102. For example, power on / off of the output device 103 is performed. If the output device 103 is a television, besides turning on and off the power, operations such as switching the image receiving channel and increasing the volume may be performed.
[0025]
The communication processing unit 204 has a function of communicating with the sound collection device 101 and the dictionary creation device 104 via the network 105. The audio signal transmitted from the sound collection device 101 is output to the audio processing unit 201. When the dictionary information created by the dictionary creating device 104 is received, the received dictionary information is output to the dictionary updating unit 205.
[0026]
The dictionary updating unit 205 has a function of updating the recognition dictionary 206 and the misrecognition countermeasure dictionary 207 based on dictionary information obtained from the dictionary creation device 104 via the network 105.
[0027]
The recognition dictionary 206 is a dictionary including a storage device such as a memory in which words and sentences as operation instructions when performing voice recognition by the recognition unit 202 are stored. It is referred to when the recognition unit 202 extracts a word or a sentence included in the voice signal, and if there is the same word or sentence listed in this dictionary, it is determined that the recognition unit 202 has given a correct instruction by voice. to decide.
[0028]
For example, when the output device 103 is a television, “loud” is uttered to increase the volume of the television. When the recognition unit 202 receives the voice signal “loud” issued by the user, when the word or the sentence is in the recognition dictionary 206, the recognition unit 202 sends the sound to the output device 103 via the output unit 203 so as to increase the volume of the television. When a user outputs a signal and gives an instruction by voice, the operation to be performed on the output device 103 usually differs depending on the word or sentence to be uttered. Therefore, the recognition unit 202 outputs the recognition unit 202 for each listed voice or sentence. The output signals (commands) given to 203 are also listed in association with each other. Preferably, words and sentences stored in the recognition dictionary 206 and output signals should be exchanged. With such a configuration, the present invention can be applied even to the output device 103 having different words and sentences to be recognized and different output signals.
[0029]
At the time of speech recognition by the recognition unit 202, words or sentences that are not stored in the recognition dictionary 206 in advance are not recognized as correct instructions.
[0030]
The misrecognition countermeasure dictionary 207 is a list of words and sentences extracted from the features and extracted by the recognizing unit 202 that are not clearly an operation instruction to the output device 103. The words and sentences stored here are words and documents that are to be first eliminated by the recognition unit 202 after the feature extraction of the words and sentences by the recognition unit 202, assuming that they are not operation instructions to the output device 103. Selection of a word or a sentence to be stored in the misrecognition countermeasure dictionary 207 will be described in the following dictionary information creation method. Preferably, words and sentences stored in the misrecognition countermeasure dictionary 207 should be replaced. With such a configuration, the present invention can be applied to a case where a word or a sentence to be determined to be erroneously recognized is changed for each output device 103 or arbitrarily.
[0031]
FIG. 3 shows an example of a block configuration diagram of the dictionary creation device 104 according to an embodiment of the present invention. FIG. 3 shows a word dictionary 301, an erroneous recognition countermeasure dictionary creation unit 302, a recognition dictionary creation unit 303, a communication control unit 304, recognition dictionary information 305, and erroneous recognition countermeasure dictionary information 306.
[0032]
The word dictionary 301 is a database that lists words and sentences used in daily conversation. The words and sentences stored here can be, for example, items listed in a commercially available Japanese language dictionary. Commercially available Japanese language dictionaries contain many words and sentences frequently used in ordinary conversation. It is suitable for covering words and sentences uttered in daily conversation and the like. It is also possible to create and use a word dictionary 301 excluding items that are considered to be uttered less frequently as spoken words from items listed in a commercially available Japanese language dictionary. In this way, the capacity of the database constituting the word dictionary 301 can be reduced. The word dictionary 301 can be configured by any storage device such as a magnetic disk device, a memory, and a CD-ROM.
[0033]
The misrecognition countermeasure dictionary creation unit 302 has a function of selecting a word or a sentence from the words or sentences stored in the word dictionary 301 according to a predetermined rule and storing the selected word or sentence in the misrecognition countermeasure dictionary information 306. The rules for extracting words and sentences from the word dictionary 301 performed by the misrecognition countermeasure dictionary creation unit 302 will be described in the following dictionary information creation method.
[0034]
The recognition dictionary creation unit 303 has a function of storing words and sentences to be recognized by the voice recognition performed by the voice recognition device 102 in the recognition dictionary information 305. The word or sentence to be recognized is a word or sentence issued by the user for controlling the output device 103 by the speech recognition device 102. As a method of inputting a word or a sentence to the recognition dictionary information 305 by the recognition dictionary creating unit 303, a method of typing from a keyboard (not shown) provided in the dictionary creating device 104 can be considered. Once the output device 103 to be controlled is determined, words and sentences suitable for control by voice are determined. Taking the above-mentioned television as an example, it is sufficient for basic control to determine words and sentences such as “turn on”, “turn off”, “o channel”, “large” and “small”.
[0035]
Once the words or sentences to be recognized by voice recognition according to the control target and what output signals are to be output to the output device 103 when they are given as voice signals are determined, the user or the developer Hit the keyboard to enter information. The input information is processed by the recognition dictionary creation unit 303 and stored in the recognition dictionary information 305.
[0036]
Alternatively, the recognition dictionary creation unit 303 acquires a voice signal of a word or a sentence stored in the recognition dictionary information 305 from the sound collection device 101 via the network 105, and stores a speech-recognized speech signal in the recognition dictionary information 305. May be configured.
[0037]
The communication processing unit 304 has a function of communicating with the sound collection device 101 and the voice recognition device 102 via the network 105. The information to be communicated includes a voice signal transmitted from the sound collection device 101 and dictionary information for transmitting the recognition dictionary information 305 and the misrecognition countermeasure dictionary information 306 to the voice recognition device 102.
[0038]
The recognition dictionary information 305 is a database in which words and sentences that the speech recognition device 102 wants to recognize as a control instruction to the output device 103 are listed by the recognition dictionary creation unit 303. The recognition dictionary information 305 can be configured by any storage device such as a magnetic disk, a memory, and a CD-ROM.
[0039]
The words and sentences listed in the recognition dictionary information 305 are exchanged according to the output device 103 to be controlled. With this configuration, the present embodiment can be applied even if the words and sentences uttered for controlling the control target and the output signal are different.
[0040]
The communication processing unit 304 transmits the word and sentence information stored in the recognition dictionary information 305 via the network 105 as dictionary information for updating the recognition dictionary 206 included in the voice recognition device 102.
[0041]
The misrecognition countermeasure dictionary 306 is a database in which readings of words and sentences to be excluded from the recognition result by the speech recognition device 102 by the misrecognition countermeasure dictionary creation unit 302 are listed. The misrecognition countermeasure dictionary 306 can be configured by any storage device such as a magnetic disk, a memory, and a CD-ROM.
[0042]
The words and sentences listed in the misrecognition dictionary information 306 can be rewritten as needed. With this configuration, even when a word or a sentence that the user does not want to recognize when controlling the control target changes, the present embodiment can be applied.
[0043]
Like the recognition dictionary information 305, the information on the words and sentences stored in the misrecognition countermeasure dictionary information 306 is used by the communication processing unit 304 to update the misrecognition countermeasure dictionary 207 included in the speech recognition apparatus 102 via the network 105. Sent as dictionary information.
[0044]
FIG. 4 is a diagram illustrating an example of a block configuration diagram of the sound collection device 101 according to an embodiment of the present invention. FIG. 4 shows a microphone 401, a voice processing unit 402, and a communication processing unit 403.
[0045]
The microphone 401 converts the surrounding voice into a voice signal and outputs the voice signal to the voice processing unit 402. The audio signal includes an audio signal of a word or a sentence issued by the user to control the output device 103.
[0046]
The voice processing unit 402 corrects distortion from the voice signal obtained from the microphone 401 and removes noise unnecessary for voice recognition via a filter circuit. Thereafter, the signal level of the audio signal output of the signal from which noise has been removed is adjusted, and the adjusted signal is output to the communication processing unit 403.
[0047]
The communication processing unit 403 has a function of transmitting the voice signal output by the voice processing unit 402 to the voice recognition device 102 and the dictionary creation device 104 via the network 105.
[0048]
Next, FIG. 5 shows an example of an operation flow showing a dictionary information creation method of the dictionary creation device 104 according to an embodiment of the present invention.
[0049]
Prior to creating the misrecognition countermeasure dictionary information 306, first, the recognition dictionary information 305 is created. A user or a developer determines a word or a sentence to be used in the voice for controlling the output device 103, and determines what output signal should be output to the output device 103 based on the word or the sentence. When these are determined, the user or the developer inputs information of words, sentences, and output signals to the recognition dictionary information 305 via the recognition dictionary creating unit 303 (step S01).
[0050]
Next, words that are not recognized as operation instructions by the voice recognition device 102 or misrecognized words that are sentences are extracted from the word dictionary 301 (step S02).
[0051]
The words and sentences finally listed in the misrecognition countermeasure dictionary information 306 are extracted in consideration of the following points.
a) Those excluding words and sentences used as operation instructions.
b) A word or sentence that is not an operation instruction but is recognized as an operation instruction by the voice recognition device 102.
c) Because the word length is short, there is little feature information when uttered.
[0052]
a) means that the word or sentence to be recognized is not included in the misrecognition countermeasure dictionary information 306 and the misrecognition countermeasure dictionary 207 regardless of the circumstances.
[0053]
b) If the uttered word or sentence is a word or sentence that is not an operation instruction but is easily recognized as an operation instruction by the voice recognition device 102, these words and sentences are individually extracted. . By doing so, words and sentences that are likely to be erroneously recognized by the voice recognition device 102 can be positively excluded.
[0054]
In c), when a certain word or sentence is uttered, a speech signal that has few features and is difficult to be distinguished from other words or sentences during speech recognition is extracted as misrecognition countermeasure dictionary information. Meaning.
[0055]
In step S02, words and sentences are extracted by focusing on the point c). In the present embodiment, a criterion that there are few feature points included in the audio signal is a word or a sentence described by one to four characters. FIG. 6 shows an example of selecting an extraction candidate from a part of a word or a sentence listed in the word dictionary 301. The table of FIG. 6 shows a column of registered words indicating the character arrangement of the reading of words listed in the word dictionary 301, a character length of each of the registered words, and a column of misrecognition determination which is a determination result of a misrecognized word. ing. Hereinafter, words and sentences that are determined to have few features included in the audio signal are referred to as misidentified words.
[0056]
There are eight registered items that are determined to be misrecognized words: "Asu", "Aichi", "Ai", "Aikagi", "Aiken", "Aokai", and "Aogu". The misrecognition countermeasure dictionary creation unit 302 indicates that the eight words have less vocal characteristics when uttered, and the speech recognition device 102 is likely to erroneously recognize other words or sentences including an operation instruction to the output device 103. Judge as a word. On the other hand, seven words, "I can't accept it", "I don't like it", "Aienka", "Aikido", "Aikiyou", "Aisho" and "Aozare" are judged as words that are hard to be misrecognized. It is not stored in the recognition countermeasure dictionary information 306.
[0057]
When a word or a sentence that is likely to be erroneously recognized as another word or a sentence is simply extracted based on the number of characters as described above, the creation of the erroneous recognition countermeasure dictionary 207 is facilitated. In addition, if a word group or a sentence used by a user who instructs an operation by voice is extracted from the word dictionary 301 in which the words or sentences are listed in a daily manner, the dictionary 207 is a misrecognition countermeasure dictionary 207 covering words and sentences with a high probability of being uttered. It becomes possible.
[0058]
In the present embodiment, the criterion for determining a word or a sentence having a small number of feature points is expressed by one to four characters when read. For example, if the speech recognition device 102 has a high capability of extracting the features of words and sentences included in the speech signal and a high speech recognition rate, the length of the words and sentences to be extracted as the misrecognition countermeasure dictionary information 306 is one to three characters. Alternatively, the number of words or sentences prepared as one or two characters and prepared as an erroneous recognition word can be reduced.
[0059]
Depending on the speech recognition rate required by the user for the speech recognition device 102, the number of words and sentences listed in the misrecognition countermeasure dictionary information 306 can be reduced by reducing the character length corresponding to the misrecognized word. By reducing the number of storages, the storage capacity required for the misrecognition countermeasure dictionary information 306 and the misrecognition countermeasure dictionary 207 can be made smaller.
[0060]
Next, it is determined whether the erroneous recognition countermeasure dictionary creating unit 302 has extracted all erroneous words from the word dictionary 301 (step S03). When all the misrecognized words have been extracted, the information of the words and sentences listed in the recognition dictionary information 305 and the misrecognition countermeasure dictionary information 306 is transmitted to the speech recognition device 102 (step S06).
[0061]
On the other hand, if the word dictionary 301 still contains a misrecognized word, it is determined whether the extracted misrecognized word is included in the recognition dictionary information 305 (step S04). As described above in step S02, this is a process to be performed for a) in which an operation instruction is not included in the misrecognition countermeasure dictionary. At this time, if the extracted misrecognized word is found in the recognition dictionary information 305, the misrecognition countermeasure dictionary creating unit 302 stops the processing of the misrecognized word and extracts a new misrecognized word (step S02).
[0062]
In the determination of the misidentified word in step S04, when the words and sentences are read in terms of the character arrangement and character length, it is determined that the two words are the same if they are the same word or sentence. Thus, the identity of words and sentences is determined simply by whether or not the reading is the same.
[0063]
If it is determined that the misrecognized word is a word or a sentence that is not in the recognition dictionary information 305, the misrecognized word is stored in the misrecognition countermeasure dictionary information 306 together with its reading (step S05). After storing, a new misidentified word is extracted from the word dictionary 301 again (step S02).
[0064]
Next, FIG. 7 shows an operation flow of the speech recognition apparatus 102 according to an embodiment of the present invention. It is assumed that, prior to speech recognition, the recognition dictionary 206 and the erroneous recognition countermeasure dictionary 207 have been normally updated based on the dictionary information transmitted from the dictionary creation device 104.
[0065]
The recognition unit 202 receives the audio signal transmitted by the sound collection device 101, and extracts a word or a sentence from the features of the audio included in the audio signal (Step S11).
[0066]
Next, the recognizing unit 202 determines whether or not the uttered word or sentence included in the audio signal has been normally extracted (step S12). If the result of the determination is that words or sentences cannot be extracted normally, speech recognition processing of the next sent speech signal is performed (step S11).
[0067]
When the words and sentences of the input voice have been successfully extracted, the recognition unit 202 determines whether or not the extracted words and sentences are listed in the misrecognition countermeasure dictionary 207 (step S13). In this determination, the identity of the words and sentences is determined based on whether the character arrangement and the character length of the reading of the words and sentences are the same. If it is listed, the word or sentence included in this audio signal is judged to be a misrecognized word, that is, it is judged that there is a high possibility that it has been erroneously recognized. Processing is performed (step S11).
[0068]
When the recognizing unit 202 determines that the extracted word or sentence is not listed in the misrecognition countermeasure dictionary 207, it determines whether the next extracted word or sentence is listed in the recognition dictionary 206 (step S14). ). If the word or document is not listed in the recognition dictionary 206, the processing is stopped because it is not an operation instruction to the output device 103, and the voice recognition processing of the next transmitted voice signal is performed (step S11).
[0069]
If any of the words or sentences listed in the recognition dictionary 206 includes the same word or sentence as the extracted word or sentence, output signal information associated with the extracted word or sentence is extracted from the recognition dictionary 206. Then, the extracted output signal is output to the output device 103 via the output unit 203 (Step S15).
[0070]
With the above configuration, it is easy to create an erroneous recognition countermeasure dictionary used in the speech recognition system. In addition, since words and sentences commonly used by the user who instructs the operation by voice are extracted from the word dictionary, misidentified words are extracted. Can be. Therefore, it is possible to reduce the cost of creating an erroneous recognition countermeasure dictionary and improve the speech recognition rate.
[0071]
(Modification 1 of Embodiment)
The functions of the sound collection device 101, the voice recognition device 102, and the dictionary creation device 104 shown in FIG. 1 can be realized by one housing. At this time, the misrecognition countermeasure dictionary 207 and the misrecognition countermeasure dictionary information 306, and the recognition dictionary 206 and the recognition dictionary information 305 may be realized by one storage device. The misrecognition countermeasure dictionary creation unit 302 directly updates the misrecognition countermeasure dictionary 207, and the recognition dictionary creation unit 303 similarly updates the recognition dictionary 206 directly.
[0072]
In addition, since updating via the network 105 is unnecessary, in this case, the speech recognition system according to the present invention can be configured without including the communication control units 204, 304, and 403 and the dictionary updating unit 205 in the configuration.
[0073]
In addition, the effects of the present invention can be obtained even when the components shown in FIG. 1 are appropriately combined, such as including the function of the speech recognition device 102 in the output device 103.
[0074]
For example, if the sound collecting devices 101 are installed at a plurality of places in the home and the sound signals transmitted by the sound collecting devices 101 are processed by one voice recognition device 102, an environment in which operation instructions can be given from anywhere in the home can be provided. Can be provided to users. Alternatively, if the functions of the sound collection device 101 and the voice recognition device 102 are housed in a single housing, a portable device having a voice recognition function, for example, a remote control device can be provided.
[0075]
With this configuration, an appropriate system configuration can be obtained according to the usage scene and manufacturing cost of the speech recognition system.
[0076]
(Modification 2 of Embodiment)
After the recognition dictionary information 305 and the misrecognition countermeasure dictionary information 306 created by the dictionary creation device 104 are updated by the dictionary updating unit 205 via the communication processing units 304 and 204, the This is a case where information is added to the recognition dictionary 206 and the misrecognition countermeasure dictionary 207 by the recognition device 102.
[0077]
For example, when it is desired to change a part of a word or a sentence used for an operation instruction, or when a word or a sentence not extracted by the misrecognition countermeasure dictionary creating unit 302 is to be stored in the misrecognition countermeasure dictionary 207 as a misrecognition word, the dictionary is bothersome. This is effective when it is not desired to re-create the dictionary information with the creation device 104, or when the dictionary information cannot be created again because the dictionary creation device 104 is installed in a remote place.
[0078]
FIG. 8 shows an example of a block configuration diagram of a speech recognition device 102 according to the present modification. The difference from the block configuration diagram shown in FIG. 2 is that an input unit 208 is newly added.
[0079]
The input unit 208 is, for example, a keyboard, and information input by the user from the keyboard is output to the dictionary updating unit 205 in order to update information listed in the recognition dictionary 206 and the misrecognition countermeasure dictionary 207. The dictionary updating unit 205 updates the recognition dictionary 206 and the misrecognition countermeasure dictionary 207 based on the information obtained from the input unit 208.
[0080]
Alternatively, the dictionary update unit 205 may obtain voice signals of words and sentences listed in the respective dictionaries from the sound collection device 101 via the network 105 and use the analyzed words and sentences as update dictionary information. good.
[0081]
Note that the configurations of the above-described embodiment and modifications of the present invention are not limited to the configurations described in the embodiments, and the effects of the present invention can be obtained even if some or all of the configurations are replaced with configurations having similar functions. . Further, the effects of the present invention can be similarly obtained by using a computer that implements a program code for realizing the operation flow of the speech recognition device 102 and the dictionary creating device 104 described in the embodiment of the present invention.
[0082]
【The invention's effect】
Speech recognition dictionary that realizes a higher recognition rate by simplifying the selection of words to be stored in the misrecognition countermeasure dictionary required for speech recognition, and by selecting easily misrecognized words and sentences from commonly used words. And a speech recognition apparatus and a speech recognition system having the same.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating an example of a speech recognition system according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of a block configuration diagram of a speech recognition apparatus 102 according to the embodiment of the present invention.
FIG. 3 is a diagram illustrating an example of a block configuration diagram of a dictionary creation device 104 according to the embodiment of the present invention.
FIG. 4 is a diagram illustrating an example of a block configuration diagram of a sound collection device 101 according to the embodiment of the present invention.
FIG. 5 is a diagram showing an example of an operation flow of the dictionary creation device 104 according to the embodiment of the present invention.
FIG. 6 is a diagram showing an example of a method for selecting a mispermitted word in the embodiment of the present invention.
FIG. 7 is a diagram showing an example of an operation flow of the speech recognition device 102 according to the embodiment of the present invention.
FIG. 8 is a diagram illustrating an example of a block diagram of a speech recognition device 102 according to a first modification of the embodiment of the present invention.
[Explanation of symbols]
101 sound collector
102 Speech recognition device
103 Output device
104 dictionary creation device
105 Network
202 Recognition unit
205 Dictionary update unit
206 recognition dictionary
207 Error recognition dictionary
208 Input unit
301 Word Dictionary
302 Error recognition dictionary creation unit
306 Misrecognition countermeasure dictionary information

Claims (8)

音声認識結果が誤認識であると判断するために使用する誤認識対策辞書を作成する音声認識用辞書作成方法であって、
単語や文章からなる日常用語を列記したデータベースから、用語の読みが所定の長さ以下の用語を抽出し、
入力音声を音声認識した結果、所定の用語が得られたら正しい音声認識が行われたと判断する前記所定の用語を列記した音声認識辞書を用いて、
前記抽出した用語のうち、前記音声認識辞書に列記した用語の読みの文字並び又は文字長とが異なる用語を選択し
この選択した用語を用いて誤認識対策辞書を作成することを特徴とする音声認識用辞書作成方法。
A speech recognition dictionary creation method for creating a misrecognition countermeasure dictionary used to determine that the speech recognition result is misrecognition,
From a database that lists everyday terms consisting of words and sentences, extract terms whose reading is less than a predetermined length,
As a result of speech recognition of the input speech, using a speech recognition dictionary listing the predetermined terms that determine that correct speech recognition has been performed when the predetermined terms are obtained,
A voice characterized by selecting, from among the extracted terms, terms having different character arrangements or character lengths of the readings of the terms listed in the speech recognition dictionary, and using the selected terms to create an erroneous recognition countermeasure dictionary. How to create a dictionary for recognition.
音声認識結果として正しいと判断する用語を列記した音声認識辞書と、音声認識結果が誤認識であると判断するために使用する誤認識対策辞書とを用いた音声認識方法であって、
単語や文章からなる日常用語を列記したデータベースから、用語の読みが所定の長さ以下の用語を抽出し、
この抽出した用語のうち、前記音声認識辞書に列記した用語の読みの文字並び又は長さとが異なる用語を選択し
この選択した用語を用いて前記誤認識対策辞書を作成し、
入力音声の音声認識を行う場合に、
音声認識した結果について、前記誤認識対策辞書に列記したものと同じ用語を示す結果であったときは、この結果を認識結果から排除する
ことを特徴とする音声認識方法。
A speech recognition method using a speech recognition dictionary listing terms that are determined to be correct as the speech recognition result, and an erroneous recognition countermeasure dictionary used to determine that the speech recognition result is erroneous recognition,
From a database that lists everyday terms consisting of words and sentences, extract terms whose reading is less than a predetermined length,
Of the extracted terms, select a term having a different character arrangement or length of the reading of the terms listed in the speech recognition dictionary, and create the misrecognition countermeasure dictionary using the selected term,
When performing voice recognition of input voice,
A speech recognition method characterized in that if the speech recognition result indicates a result indicating the same term as that listed in the misrecognition countermeasure dictionary, the result is excluded from the recognition result.
音声認識結果が誤認識であると判断するために使用する誤認識対策辞書を作成する音声認識用辞書作成装置において、
単語や文章からなる日常用語を列記したデータベースから、誤認識と判断すべき、読みが所定の長さ以下の、音声認識において誤認識しやすい用語を選択する選択手段と、
この選択した用語を用いて誤認識対策辞書を作成する辞書作成手段と
を備えたことを特徴とする音声認識用辞書作成装置。
In a speech recognition dictionary creation device for creating a misrecognition countermeasure dictionary used to determine that the speech recognition result is misrecognition,
Selecting means for selecting a term that is determined to be misrecognized and whose reading is equal to or less than a predetermined length and which is likely to be misrecognized in voice recognition, from a database listing daily terms composed of words and sentences,
A dictionary creating means for creating an erroneous recognition countermeasure dictionary using the selected term.
前記選択手段が抽出する用語の読みの所定の長さは、4文字長以下であることを特徴とする請求項3に記載の音声認識用辞書作成装置。4. The apparatus for creating a speech recognition dictionary according to claim 3, wherein the predetermined length of the reading of the term extracted by the selection unit is four characters or less. 音声認識結果として正しいと判断する用語を列記した音声認識辞書と、音声認識結果が誤認識であると判断するために使用する誤認識対策辞書を備えた音声認識装置において、
単語や文章からなる日常用語を列記したデータベースと、
このデータベースに列記した用語から、用語の読みが所定の長さ以下の用語を抽出し、抽出した用語のうち前記音声認識辞書に列記した用語の読みの文字並び又は文字長とが異なる用語を選択する選択手段と、
この選択した用語を用いて前記誤認識対策辞書を作成する辞書作成手段と
を備え、
入力音声を音声認識した結果について、前記誤認識対策辞書に列記したものと同じ用語を示す結果であったときは、この結果を認識結果から排除する
ことを特徴とする音声認識装置。
In a speech recognition apparatus having a speech recognition dictionary listing terms that are determined to be correct as a speech recognition result, and an erroneous recognition countermeasure dictionary used to determine that the speech recognition result is erroneous recognition,
A database that lists everyday terms consisting of words and sentences,
From the terms listed in this database, terms whose readings of terms are equal to or less than a predetermined length are extracted, and among the extracted terms, a term having a different character arrangement or character length of the reading of the terms listed in the speech recognition dictionary is selected. Means for selecting,
Dictionary creation means for creating the misrecognition countermeasure dictionary using the selected term,
A speech recognition apparatus characterized in that if the result of speech recognition of an input speech is a result indicating the same term as that listed in the misrecognition countermeasure dictionary, the result is excluded from the recognition result.
音声認識結果として正しいと判断する用語を列記した音声認識辞書と、音声認識結果が誤認識であると判断するために使用する誤認識対策辞書を用いて音声認識を行う音声認識プログラムであって、
単語や文章からなる日常用語を列記したデータベースを検索し、用語の読みが所定の長さ以下の用語を抽出するステップと、
前記音声認識辞書を検索し、前記抽出した用語の読みの文字並び及び文字長とが同じ用語があるかどうかを判断し、同じ用語がない場合に限り前記抽出した用語を前記誤認識対策辞書に追加して記憶するステップと
を有し、
入力音声の音声認識を行う場合には、音声認識結果が示す語が前記誤認識対策辞書に記憶した用語と同じものであったときは、この結果を認識結果から排除することを特徴とする音声認識プログラム。
A speech recognition program that performs speech recognition using a speech recognition dictionary that lists terms that are determined to be correct as the speech recognition result and a misrecognition countermeasure dictionary used to determine that the speech recognition result is erroneous recognition,
Searching a database listing daily terms consisting of words and sentences, and extracting terms whose readings of terms are equal to or less than a predetermined length;
Search the voice recognition dictionary, determine whether there is a term with the same character sequence and character length of the reading of the extracted term, and only when there is no same term, the extracted term is in the misrecognition countermeasure dictionary Adding and storing,
When performing speech recognition of the input speech, if the word indicated by the speech recognition result is the same as the term stored in the misrecognition countermeasure dictionary, the result is excluded from the recognition result. Recognition program.
単語や文章からなる日常用語を列記したデータベースから、誤認識と判断すべき、読みが所定の長さ以下の、音声認識において誤認識しやすい用語を選択的に抽出し、この選択された用語を用いて前記誤認識対策辞書を作成する音声認識用辞書作成装置と、
入力音声について音声認識辞書を用いて音声認識する音声認識装置と
を備えた音声認識システムにおいて、
前記音声認識装置は、前記入力音声の認識結果について、前記誤認識対策辞書にある用語に該当するかどうか前記誤認識対策辞書を検索する手段を備え、
前記誤認識対策辞書内の用語に該当する音声認識結果の場合には、この用語を認識結果として出力しないことを特徴とする音声認識システム。
From a database that lists daily terms consisting of words and sentences, selectively extract words that should be judged as misrecognition and have a reading of less than a predetermined length and that are easily misrecognized in speech recognition. A dictionary creation device for speech recognition that creates the misrecognition countermeasure dictionary using:
In a speech recognition system comprising a speech recognition device for recognizing speech using a speech recognition dictionary for input speech,
The voice recognition device, for the recognition result of the input voice, comprising means for searching the erroneous recognition countermeasure dictionary whether it corresponds to a term in the erroneous recognition countermeasure dictionary,
In the case of a speech recognition result corresponding to a term in the misrecognition countermeasure dictionary, the term is not output as a recognition result.
前記音声認識用辞書作成装置及び前記音声認識装置は互いに通信するための通信処理手段を備え、
前記通信処理手段は、前記音声認識用辞書作成装置が作成した前記誤認識対策辞書を、前記音声認識装置へ転送することを特徴とする請求項7に記載の音声認識システム。
The speech recognition dictionary creation device and the speech recognition device include a communication processing unit for communicating with each other,
The speech recognition system according to claim 7, wherein the communication processing unit transfers the misrecognition countermeasure dictionary created by the speech recognition dictionary creation device to the speech recognition device.
JP2002280300A 2002-09-26 2002-09-26 Method and device for preparing dictionary for speech recognition, method and device for speech recognition, speech recognition program, and voice recognition system Pending JP2004117771A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002280300A JP2004117771A (en) 2002-09-26 2002-09-26 Method and device for preparing dictionary for speech recognition, method and device for speech recognition, speech recognition program, and voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002280300A JP2004117771A (en) 2002-09-26 2002-09-26 Method and device for preparing dictionary for speech recognition, method and device for speech recognition, speech recognition program, and voice recognition system

Publications (1)

Publication Number Publication Date
JP2004117771A true JP2004117771A (en) 2004-04-15

Family

ID=32275036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002280300A Pending JP2004117771A (en) 2002-09-26 2002-09-26 Method and device for preparing dictionary for speech recognition, method and device for speech recognition, speech recognition program, and voice recognition system

Country Status (1)

Country Link
JP (1) JP2004117771A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191400A (en) * 2009-01-21 2010-09-02 Xanavi Informatics Corp Speech recognition system and data updating method
JP2011154099A (en) * 2010-01-26 2011-08-11 Univ Of Yamanashi Dictionary for speech recognition utilized in speech recognition device and learning method of language model for speech recognition
WO2020225949A1 (en) * 2019-05-08 2020-11-12 株式会社インタラクティブソリューションズ Conversion error dictionary creation system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191400A (en) * 2009-01-21 2010-09-02 Xanavi Informatics Corp Speech recognition system and data updating method
JP2011154099A (en) * 2010-01-26 2011-08-11 Univ Of Yamanashi Dictionary for speech recognition utilized in speech recognition device and learning method of language model for speech recognition
WO2020225949A1 (en) * 2019-05-08 2020-11-12 株式会社インタラクティブソリューションズ Conversion error dictionary creation system

Similar Documents

Publication Publication Date Title
JP3284832B2 (en) Speech recognition dialogue processing method and speech recognition dialogue device
KR100769029B1 (en) Method and system for voice recognition of names in multiple languages
EP1693827B1 (en) Extensible speech recognition system that provides a user with audio feedback
JP3968133B2 (en) Speech recognition dialogue processing method and speech recognition dialogue apparatus
JP4786384B2 (en) Audio processing apparatus, audio processing method, and audio processing program
KR100586286B1 (en) Eye gaze for contextual speech recognition
JP2000122691A (en) Automatic recognizing method for spelling reading type speech speaking
JP2009104156A (en) Telephone communication terminal
JP2004101901A (en) Speech interaction system and speech interaction program
JPWO2018047421A1 (en) Voice processing apparatus, information processing apparatus, voice processing method, and information processing method
JP3639776B2 (en) Speech recognition dictionary creation device, speech recognition dictionary creation method, speech recognition device, portable terminal device, and program recording medium
JP2002116793A (en) Data input system and method
US20170270923A1 (en) Voice processing device and voice processing method
KR20010079734A (en) A method and a system for voice dialling
EP1316944B1 (en) Sound signal recognition system and method, and dialog control system and method using it
JP2004117771A (en) Method and device for preparing dictionary for speech recognition, method and device for speech recognition, speech recognition program, and voice recognition system
JP2003140690A (en) Information system, electronic equipment, and program
JP7348818B2 (en) dialogue device
JP3903841B2 (en) Automatic interpretation device and program for automatic interpretation
JP2003108551A (en) Portable machine translation device, translation method and translation program
KR20210098250A (en) Electronic device and Method for controlling the electronic device thereof
CN112513845A (en) Transient account association with voice-enabled devices
JP2006251699A (en) Speech recognition device
KR102392992B1 (en) User interfacing device and method for setting wake-up word activating speech recognition
JPH0863185A (en) Speech recognition device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050207

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070327

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070724