JP5152016B2 - 音声認識用辞書作成装置及び音声認識用辞書作成方法 - Google Patents

音声認識用辞書作成装置及び音声認識用辞書作成方法 Download PDF

Info

Publication number
JP5152016B2
JP5152016B2 JP2009018919A JP2009018919A JP5152016B2 JP 5152016 B2 JP5152016 B2 JP 5152016B2 JP 2009018919 A JP2009018919 A JP 2009018919A JP 2009018919 A JP2009018919 A JP 2009018919A JP 5152016 B2 JP5152016 B2 JP 5152016B2
Authority
JP
Japan
Prior art keywords
reading information
speech recognition
similarity
speech
additional candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009018919A
Other languages
English (en)
Other versions
JP2010175869A (ja
Inventor
将治 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009018919A priority Critical patent/JP5152016B2/ja
Publication of JP2010175869A publication Critical patent/JP2010175869A/ja
Application granted granted Critical
Publication of JP5152016B2 publication Critical patent/JP5152016B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識装置において用いられる音声認識用辞書を作成するための音声認識用辞書作成装置及びその方法に関する。
音声認識装置では、単語とその読み情報とを対応付けて記憶している音声認識用辞書が用意されており、この音声認識用辞書を用いて音声認識処理が行われる。音声認識装置の音声認識処理において、音声認識用辞書に記憶されている各単語と対応付けて記憶されている読み情報が、音声認識の精度に大きく影響を及ぼすこととなる。
たとえば、「取引先」という単語には、標準的な読み情報として「とりひきさき」という読み情報が定義されることが通常であると考えられる。しかしながら、実際に発声された音声を読み情報に対応させると、「とりっきさっ」となるような場合がある。「取引先」という単語に標準読み情報として「とりひきさき」という読み情報が対応されている場合には、前述したような「とりっきさっ」という発声を音声認識できないこととなる。
このような問題に対して、特許文献1では、単語に対応して発声された音声信号を、音節または音素単位で音声認識させて得られた結果を、音声認識用辞書の読み情報として登録し、音声認識用辞書の調整を行うように構成している。
前述したような特許文献1に記載の方法によれば、音節または音素単位で認識させて得られた読み情報を音声認識用辞書の単語の読み情報として記憶していることから、この学習により得られた読み情報を認識することができるものの、同一の単語に対する発声であっても、音声認識用辞書に記録されている読み情報とは異なる読み情報として認識される場合には、これを該当する単語として認識することができない。したがって、発声者のその時の状態や、異なる発声者による発声により、音声認識用辞書にない読み情報として分類される音声信号に対しては、音声認識ができないという問題がある。
本発明では、単語に対する標準的な読み情報に加えて、標準読み情報に類似する読み情報を自動的に追加することにより、音声認識の精度を高めるようにした音声認識用辞書作成装置及び音声認識用辞書作成方法を提供することを目的とする。
本発明に係る音声認識用辞書作成装置は、上記問題点を解決するためのものであって、利用者が発声する音声を入力して、音声信号にして受け付ける音声信号入力部と、単語に対応する標準読み情報を単語と対応付けて記憶する音声認識用辞書と、音声認識用辞書に記憶された単語に対応して発声された音声を、音声信号にして音声信号入力部により受け付けて音声認識し、単語に対応する認識結果読み情報を決定する第1音声認識部と、標準読み情報または認識結果読み情報に基づいて複数の読み情報データを生成し、複数の読み情報データと標準読み情報との類似度を求め、標準読み情報との類似度が第1音声認識部で決定された認識結果読み情報と標準読み情報との類似度よりも高い読み情報データを追加候補データとして複数の読み情報データから選択する追加候補選択部と、追加候補選択部で選択された追加候補データに対応する音節または音素モデル列を生成し、受け付けた音声信号を生成された音節または音素モデル列により認識できるか否かを判定する第2音声認識部と、受け付けた音声信号が第2音声認識部において認識できた追加候補データのうち単語の標準読み情報との類似度が高い追加候補データを音声認識用辞書の該当する単語の読み情報として追加する辞書更新部とを備える。
また、本発明に係る音声認識用辞書作成方法は、単語に対応する標準読み情報を単語と対応付けて記憶する音声認識用辞書を作成する方法であって、音声認識用辞書に記憶された単語に対応して発声された音声を入力して、音声信号にして受け付ける段階と、受け付けた音声信号を音声認識し、単語に対応する認識結果読み情報を決定する段階と、標準読み情報または認識結果読み情報に基づいて複数の読み情報データを生成し、複数の読み情報データと標準読み情報との類似度を求め、標準読み情報との類似度が決定された認識結果読み情報と標準読み情報との類似度よりも高い読み情報データを追加候補データとして複数の読み情報データから選択する段階と、選択された追加候補データに対応する音節または音素モデル列を生成し、受け付けた音声信号を生成された音節または音素モデル列により認識できるか否かを判定する段階と、受け付けた音声信号を認識できた追加候補データのうち、単語の標準読み情報との類似度が高い追加候補データを音声認識用辞書の該当する単語の読み情報として追加する段階とを備える。
本発明によれば、単語に対応する読み情報を学習により追加する従来の方法に比して。音声認識率を高めることが可能となり、精度の良い音声認識処理を可能にする。
本発明の実施形態に係る音声認識用辞書作成装置の機能ブロック図である。 本発明の実施形態に係る音声認識用辞書作成方法のフローチャートである。 本発明の実施形態に用いられる類似度テーブルの一例を示す説明図である。 本発明の実施形態に用いられる追加候補データのテーブルの一例を示す説明図である。 音声認識装置により認識される音声信号の音響特徴範囲を示す説明図である。 本発明の音声認識用辞書作成装置を実現するためのハードウェア構成を示す説明図である。
本発明の詳細を添付した図面に基づいて説明する。
〈第1実施形態〉
図1は、本発明に係る音声認識用辞書作成装置の構成図である。
音声認識用辞書作成装置10は、音声信号入力部11、第1音声認識部12、追加候補選択部13、第2音声認識部14、辞書更新部15を備えている。
また、この音声認識用辞書作成装置10は、単語に対応する読み情報をその単語に対応付けて記憶する音声認識用辞書16を備えており、初期状態として単語に対応する標準読み情報がその単語の読み情報として対応付けられて記憶されている。
さらに、音声認識用辞書作成部10は、実際に発声された音声データから作成した音響モデル17を備えており、音響モデル17に記憶された音節または音素毎のモデルを結合した音節または音素モデル列を生成し、これを参照して音声認識を行うように構成される。
音声信号入力部11は、利用者が発声する音声を入力して、音声信号にして受け付けるものである。
第1音声認識部12は、音声認識用辞書16に記憶された単語に対応して発声され音声信号入力部11により受け付けられた音声信号を音声認識し、単語に対応する認識結果読み情報を決定する。
追加候補選択部13は、標準読み情報または認識結果読み情報に基づいて複数の読み情報データを生成し、標準読み情報との類似度が第1音声認識部12で決定された認識結果読み情報と標準読み情報との類似度よりも高い読み情報データを追加候補データとして複数の読み情報データの中から選択する。たとえば、認識結果読み情報と同一音節数または同一音素数であるような全ての読み情報データと標準読み情報との類似度を求め、認識結果読み情報と標準読み情報との類似度よりも高い類似度である読み情報データを追加候補データとして選択することができる。また、標準読み情報と同一音節数または同一音素数であるような全ての読み情報データを生成し、この複数の読み情報データと標準読み情報との類似度を求め、認識結果読み情報と標準読み情報との類似度よりも高い類似度である読み情報データを追加候補データとして選択することができる。さらに、音節数または音素数に関わらず全ての読み情報データに対して、標準読み情報との類似度を求めるように構成することも可能である。
第2音声認識部14は、追加候補選択部13で選択された追加候補データに対応する音節または音素モデル列を生成し、入力された音声信号を生成された音節または音素モデル列により認識できるか否かを判定する。
辞書更新部15は、入力された音声信号が第2音声認識部14において認識できた追加候補データのうち単語の標準読み情報との類似度が最も高い追加候補データを音声認識用辞書16の該当する単語の読み情報として追加する。
図2は、本発明に係る音声認識用辞書作成方法のフローチャートである。
ステップS21において、音声認識用辞書作成装置10は、音声認識用辞書16に記憶された単語に対応して発声された音声信号を音声信号入力部11により受け付けて、第1音声認識部12に送信する。
ステップS22において、音声認識用辞書作成装置10は、音声信号入力部11により受け付けた音声信号を第1音声認識部12において音声認識する。ここでは、音響モデル17に記憶されている音節または音素モデルに基づいて、入力された音声信号に合致または類似する音節または音素モデル列を検索し、入力された音声信号に最も近い読み情報を認識結果読み情報として決定する。
ステップS23において、音声認識用辞書作成装置10は、追加候補選択部13により、例えば、標準読み情報の音節数または音素数と同数の複数の読み情報データを生成し、この読み情報データのうちから認識結果読み情報と標準読み情報との類似度よりも類似度が高くなるような読み情報データを音声認識用辞書16の対応する単語の読み情報として追加する。追加候補選択部13は、第1音声認識部12により認識された認識結果読み情報と同一音節数、またはその前後の音節数を有する読み情報に対して、標準読み情報との類似度を求め、認識結果読み情報と標準読み情報との類似度よりも大きい類似度であるような読み情報を追加候補データとして選択するように構成することも可能である。
追加候補選択部13が読み情報間の類似度を算出する方法として、各文字間の類似度テーブルを備えており、この類似度テーブルに基づいて認識結果読み情報との類似度が所定値以上となる読み情報を選択するように構成することが可能である。
図3は、類似度テーブルの一例を示す説明図である。
図3に示す類似度テーブルは、読み情報における文字の置換が発生した場合の読み情報間の距離、読み情報における文字の挿入が発生した場合の読み情報間の距離、読み情報における文字の脱落が発生した場合の読み情報間の距離をそれぞれテーブル化したものである。
このような類似度テーブルを用いる場合、たとえば、読み情報「とりひきさき」と読み情報「とりひきさ」との類似度は、「き」が脱落したことにより特定される距離(たとえば、40)で示される。また、読み情報「とりひきさき」と読み情報「とりしきさ」との類似度は、「ひ」が「し」に置換したことにより特定される距離と「き」が脱落したことにより特定される距離の和(たとえば、70)で示される。さらに、読み情報「とりひきさき」と読み情報「とりいきさ」との類似度は、「し」が「い」に置換したことにより特定される距離と「き」が脱落したことにより特定される距離の和(たとえば、100)で示される。
追加候補選択部13は、類似度テーブルを用いて、標準読み情報との類似度が認識結果読み情報と標準読み情報との類似度より大きくなる読み情報を選択するものであって、図3に示すような類似度テーブルを用いる場合には、標準読み情報との距離が認識結果読み情報と標準読み情報との距離よりも小さくなる読み情報を選択する。
たとえば、「取引先」という単語に対して標準読み情報として「とりひきさき」という読み情報が音声認識用辞書16に記憶されており、この標準読み情報に対応して発声された音声信号を第1音声認識部12で認識した結果、認識結果読み情報が「とりいきさ」であった場合について考察する。
追加候補選択部13は、認識結果読み情報「とりいきさ」に基づいて同一音節または前後音節数となる読み情報を生成し、それぞれの読み情報について、標準読み情報「とりひきさき」との類似度を算出する。追加候補選択部13は、標準読み情報「とりひきさき」と認識結果読み情報「とりいきさ」との類似度を超えるものを選択することから、認識結果読み情報「とりいきさ」よりも標準読み情報「とりひきさき」に距離が近い読み情報を選択する。
追加候補選択部13が読み情報間の類似度を算出する方法としては、このような類似度テーブルを予め用意しておく場合の他に、各文字間の類似度、または距離に応じて文字列同士の類似度または距離を算出する演算式により逐次算出するように構成することも可能である。
ただし、追加候補選択部13は、認識結果読み情報と標準読み情報との類似度が、所定の閾値より離れていると判断した場合に、認識不能として追加候補データを生成・選択しないように構成することも可能である。
図4は、追加候補選択部13により選択される読み情報を表す追加候補テーブルの説明図である。
図4に示すように、追加候補テーブル41は、読み情報欄42、距離(類似度)欄43、認識可否欄44で構成されている。追加候補選択部13が標準読み情報と類似度により選択した読み情報は、前述したように、認識結果読み情報と標準読み情報との類似度よりも高い類似度を有するものであり、図示した例では、標準読み情報「とりひきさき」との距離が、認識結果読み情報「とりいきさ」と標準読み情報「とりひきさき」との距離100よりも小さい読み情報である「とりひきさき」、「とりしきさき」、「とりひきさ」、「とりいきさき」、「とりしきさ」、「とりいきさ」がそれぞれ格納される。
ステップS24において、音声認識用辞書作成装置10は、第2音声認識部14により、追加候補データの音節または音素モデル列を生成する。第2音声認識部14は、追加候補選択部13により選択された読み情報のそれぞれについて、音響モデル17に記憶されている音節または音素モデルを用いて音節または音素モデル列を生成する。
ステップS25において、音声認識用辞書作成装置10は、第2音声認識部14で生成された音節または音素モデル列によって、音声信号入力11から入力された音声信号を音声認識できるか否かを判別する。この第2音声認識部14に入力される音声信号は、音声信号入力部11から入力されて第1音声認識部12により音声認識されたものと同一のものを用いる。
第2音声認識部14は、追加候補データによって生成した音節または音素モデル列を用いて、音声信号入力部11から入力された音声信号を音声認識処理し、音声認識できなかった場合には、ステップS26において、該当する読み情報を追加候補データから削除する。ステップS25において、第2音声認識部14が音声認識できたと判断した場合には、ステップS27に移行する。
ステップS27において、音声認識用辞書作成装置10は、第2音声認識部14により、次の追加候補データが存在するか否かを判別する。第2音声認識部14は、音声認識処理を実行していない追加候補データが存在すると判断した場合にはステップS24に移行し、そうでない場合にはステップS28に移行する。
第2音声認識部14は、全ての追加候補データについて音声認識処理を実行し、図4に示す追加候補テーブルを完成させる。前述したステップS26では、音声認識できなかった読み情報については追加候補データから削除する旨記載したが、図4に示すように、各読み情報の認識可否欄に音声認識の可否を示すフラグを格納することにより、音声認識の可否を表すように構成することができる。
ステップS28では、音声認識用辞書作成装置10は、辞書更新部15により追加候補データのうちから音声認識用辞書16の単語の読み情報として追加するものを決定する。辞書更新部15は、第2音声認識部14において音声認識ができた追加候補データのうち、標準読み情報との類似度が最も高い追加候補データを音声認識用辞書16に追加する読み情報として選択する。図4に示す例では、第2音声認識部14により音声認識ができた追加候補データは、「とりしきさ」と「とりいきさ」であり、このうち、標準読み情報との距離が小さい「とりしきさ」を音声認識用辞書16に追加する読み情報として選択する。
ステップS29では、音声認識用辞書作成装置10は、辞書更新部15により選択された追加候補データを該当する単語の読み情報として、音声認識用辞書16を更新する。
第1実施形態に係る音声認識用辞書作成装置では、音声認識用辞書に記憶されている単語に対応して発声された音声信号を第1音声認識部12において音声認識し、標準読み情報との類似度が、認識結果読み情報と標準読み情報との類似度よりも高い読み情報を追加候補データとして選択し、この追加候補データから生成された音節または音素モデル列を用いて第2音声認識部14で音声認識できるか否を判別し、音声認識できた読み追加候補データのうち標準読み情報との類似度が最も高いものを音声認識用辞書の単語の読み情報として追加している。
〈実験結果〉
「確認」、「受付」、「設定」などの普通名詞、「○○株式会社」などの固有名詞を含む358単語を記憶させた音声認識用辞書を用いて、70分間の音声データ(コールセンタの44通話分)について音声認識を行った。なお、音声認識用辞書に記憶されている358単語であってこの音声データ中に出現する延べ回数を人手により書き起こした正解単語数は381語であった。
A)標準読み情報以外の読み情報を追加しなかった場合
音声認識用辞書に記憶された358語の単語に対して、それぞれ標準読み情報以外の読み情報を追加しなかった場合に、音声認識装置は、正解単語数381語のうち248語を正確に認識できた。この場合の音声認識装置における音声認識率は、248/381=65%である。
B)学習による読み情報をそのまま追加した場合
音声認識用辞書に記憶された358語の単語に対して、それぞれ学習により得られた読み情報をそのまま追加した場合に、音声認識装置は、正解単語数381語のうち315語を正確に認識できた。この場合の音声認識装置における音声認識率は、315/381=83%である。
C)本発明により読み情報を追加した場合
音声認識用辞書に記憶された358語の単語に対して、それぞれ本発明により読み情報を追加した場合に、音声認識装置は、正解単語数381語のうち356語を正確に認識できた。この場合の音声認識装置における音声認識率は、356/381=93%である。
さらに具体的な例として、音声認識用辞書に記憶された単語のうち、「取引」という単語について着目した音声認識結果を以下に示す。ここで、前述したものと同一の70分間の音声データを用いて実験を行った結果を示す。
A)「取引」という単語に対して、標準読み情報「とりひき」だけが記憶されている音声認識用辞書を用いて音声認識を行った結果、「取引」という単語の出現数15に対して、音声認識に成功した回数が6回であった。
B)「取引」という単語に対して、標準読み情報「とりひき」に加えて、学習によって得られた読み情報「といっき」を追加した音声認識用辞書を用いて音声認識を行った結果、「取引」という単語の出現数15に対して、音声認識に成功した回数が7回であった。
C)「取引」という単語に対して、標準読み情報「とりひき」に加えて、本発明により読み情報「とりしき」を追加した音声認識用辞書を用いて音声認識を行った結果、「取引」という単語の出現数15に対して、音声認識に成功した回数が11回であった。
このように、本発明に係る音声認識用辞書作成装置及び音声認識用辞書作成方法により、音声認識用辞書を作成することによって、音声認識の精度が高くなる。
図5は、音響特徴による音声認識効果を示す説明図である。
図5では、「取引先」という単語に対する発声を多数サンプリングし、所定の音響特徴A,Bをそれぞれ縦軸及び横軸として展開した場合に、その全体の音響特徴範囲Pで示される。この音響特徴範囲Pは、標準読み情報「とりひきさき」で認識できる範囲Xの大部分を含んでいる。したがって、発声者による発声のうち、「とりひきさき」と認識できるような音響特徴範囲Xに含まれるような音声信号であれば、音声認識することが可能である。
しかしながら、図5の範囲Pのうち右上部分では、「とりいきさ」や「とりしきさ」などの読み情報として認識されるものについては、単語「取引先」に対応する音声信号に認識されないこととなる。
ここで、学習により「とりいきさ」という読み情報が得られた場合に、この「とりいきさ」を音声認識用辞書の読み情報として追加すると、標準読み情報「とりひきさき」により認識できる音響特徴範囲Xと、読み情報「とりいきさ」により認識される音響特徴範囲Zとを合成した音響特徴範囲で音声認識を行うこととなる。ここで、読み情報「とりいきさ」で認識できる音響特徴範囲Zは、全体の音響特徴範囲Pと重複しない部分を多く含んでいる。したがって、読み情報「とりいきさ」に類似する発音で、他の単語に対応するものが「とりひきさき」として誤検出されるおそれがある。
本発明では、音声信号を音声認識した結果である認識結果読み情報よりも、標準読み情報に類似する読み情報であって、音声認識できるものを音声認識辞書の読み情報として追加することによって、前述したような誤検出の発生を低く抑えることができる。たとえば、標準読み情報「とりひさき」に対応して発生された音声信号を第1音声認識部12で音声認識した結果である認識結果読み情報が「とりいきさ」であるような場合に、認識結果読み情報「とりいきさ」よりも標準読み情報「とりひきさき」との類似度が高い読み情報「とりしきさ」を、音声認識用辞書の読み情報に追加する。このことにより、音声認識装置は、音声認識装置において音声認識を行う音響特徴範囲は、標準読み情報「とりひきさき」によって認識できる音響特徴範囲Xと、追加読み情報「とりしきさ」によって認識できる音響特徴範囲Yとを合成した音響特徴範囲で音声認識を行うこととなる。この場合、入力された音声信号を音声認識して得られた認識結果読み情報を、追加読み情報として音声認識用辞書に追加する場合に比して、標準読み情報により類似する読み情報を追加読み情報として音声認識用辞書に追加することができるため、誤検出範囲を小さくすることができ、より精度の高い音声認識を行うことが可能となる。
〈第2実施形態〉
前述した第1実施形態では、標準読み情報に対応して発生された音声信号を音声認識して、標準読み情報との類似度が認識結果読み情報と標準読み情報との類似度より高い読み情報を追加候補データとして、このうちから音声認識できた読み情報を音声認識用辞書に追加読み情報として追加している。
音声認識用辞書に追加読み情報として追加するための条件は、第1実施例の構成に代えて、標準読み情報との類似度、及び認識結果読み情報との類似度に基づいて所定の計算式により求められる選出スコアを用いて決定することが可能である。
たとえば、第1選出スコアを((標準読み情報との類似度)×(1−α)+(認識結果読み情報との類似度)×α)(ただし、0<α≦1)として算出し、この第1選出スコアが所定値以上になる1または複数の読み情報を追加候補データとして選択する。この第1選出スコアに基づいて選択された追加候補データについて、第2選出スコアを((標準読み情報との類似度)×(1−β)+(認識結果読み情報との類似度)×β)(ただし、0≦β<1)として算出し、第2選出スコアが最大であって、かつ元の音声信号を音声認識できるものを、音声認識用辞書の単語の読み情報として追加するように構成できる。
ここで、第1選出スコア及び第2選出スコアを算出するための係数α、βは同一であってもよい。
〈第3実施形態〉
音声認識用辞書中の1つの単語に対して、複数の標準読み情報が対応して記憶されているような場合には、複数の標準読み情報との類似度および複数の標準読み情報に対応して得られた認識結果読み情報との類似度を用いて、追加読み情報を決定するように構成できる。
この場合、複数の標準読み情報に対応して発声された音声信号を第1音声認識部12で音声認識し、それぞれに対応する認識結果読み情報を決定する。複数の標準読み情報との類似度および複数の標準読み情報に対応する各認識結果読み情報との類似度に基づいて、第1選出スコアを算出し、この第1選出スコアが所定値以上となる読み情報を追加候補データとして選択する。
この第1選出スコアに基づいて選出された追加候補データの読み情報について、複数の標準読み情報との類似度および複数の標準読み情報に対応する各認識結果読み情報との類似度に基づいて第2選出スコアを算出し、第2選出スコアが最大であるとともに、追加候補データに基づく音節または音素モデル列を用いて音声認識を行った結果、一定割合以上の音声認識ができた読み情報について、音声認識用辞書に追加読み情報として記憶させるように構成できる。
たとえば、1つの単語に対して第1標準読み情報、第2標準読み情報の2つの標準読み情報が記憶されており、これら第1、第2標準読み情報に対応して発声された音声信号を第1音声認識部12で音声認識した結果、第1認識結果読み情報及び第2認識結果読み情報を得たとする。各読み情報に対して、第1選出スコアを((第1標準読み情報との類似度)×A1+(第2標準読み情報との類似度)×B1+(第1認識結果読み情報との類似度)×C1+(第2認識結果読み情報との類似度)×D1)(ただし、A1+B1+C1+D1=1とする)で算出し、所定値以上の類似度である読み情報を追加候補データとして選出する。
第1選出スコアによって選出された追加候補データについて、それぞれ第2選出スコアを((第1標準読み情報との類似度)×A2+(第2標準読み情報との類似度)×B2+(第1認識結果読み情報との類似度)×C2+(第2認識結果読み情報との類似度)×D2)(ただし、A2+B2+C2+D2=1とする)で算出し、この第2選出スコアが最大であるとともに、これら追加候補データによる音節または音素モデル列を用いて第2音声認識部14により音声認識した結果、所定の割合以上の認識率であった読み情報を、音声認識用辞書に追加する追加読み情報として決定する。
第1選出スコア及び第2選出スコアを算出するためのパラメータA1〜D2は任意に設定することが可能であり、A1=A2、B1=B2、C1=C2、D1=D2とすることも可能である。
また、追加候補データによる音節または音素モデル列を用いて第2音声認識部14により音声認識した結果、所定の割合以上の認識率であった読み情報が複数ある場合には、それらを全て、または所定数だけ音声認識用辞書に追加するように構成することも可能である。
〈第4実施形態〉
第3実施形態の変形例として、第2選出スコアを複数の標準読み情報との類似度を用いて算出するように構成できる。
この場合、複数の標準読み情報に対応して発生された音声信号を第1音声認識部12で音声認識し、それぞれに対応する認識結果読み情報を決定する。複数の標準読み情報との類似度および複数の標準読み情報に対応する各認識結果読み情報との類似度に基づいて、第1選出スコアを算出し、この第1選出スコアが所定値以上となる読み情報を追加候補データとして選択する。
この第1選出スコアに基づいて選出された追加候補データの読み情報について、複数の標準読み情報との類似度に基づいて第2選出スコアを算出し、第2選出スコアが最大であるとともに、追加候補データに基づく音節または音素モデル列を用いて音声認識を行った結果、一定割合以上の音声認識ができた読み情報について、音声認識用辞書に追加読み情報として記憶させるように構成できる。
たとえば、第3実施形態と同様に、1つの単語に対して第1標準読み情報、第2標準読み情報の2つの標準読み情報が記憶されており、これら第1、第2標準読み情報に対応して発声された音声信号を第1音声認識部12で音声認識した結果、第1認識結果読み情報及び第2認識結果読み情報を得たとする。各読み情報に対して、第1選出スコアを((第1標準読み情報との類似度)×A1+(第2標準読み情報との類似度)×B1+(第1認識結果読み情報との類似度)×C1+(第2認識結果読み情報との類似度)×D1)(ただし、A1+B1+C1+D1=1とする)で算出し、所定値以上の類似度である読み情報を追加候補データとして選出する。
第1選出スコアによって選出された追加候補データについて、それぞれ第2選出スコアを((第1標準読み情報との類似度)×A2+(第2標準読み情報との類似度)×B2)(ただし、A2+B2=1とする)で算出し、この第2選出スコアが最大であるとともに、これら追加候補データによる音節または音素モデル列を用いて第2音声認識部14により音声認識した結果、所定の割合以上の認識率であった読み情報を、音声認識用辞書に追加する追加読み情報として決定する。
また、第2選出スコアは、複数の記憶されている標準読み情報との類似度のうち、最大類似度となるものを、その読み情報の第2選出スコアとすることも可能である。各標準読み情報との類似度には、所定の係数を乗算して重み付けを行うようにすることも可能である。
以上のように本発明の実施形態によれば、単語の標準読み情報に対応して発声された音声信号を第1音声認識部12で音声認識して認識結果読み情報を決定し、標準読み情報との類似度及び認識結果読み情報との類似度を用いて追加候補データを選択し、さらにこの追加候補データとなった読み情報を用いて音節または音素モデル列を生成して第2音声認識部14で音声認識を行って、音声認識できた読み情報または、所定の割合以上の音声認識ができた読み情報を追加情報として決定している。したがって、単語の標準読み情報に対応して発声された音声信号を音声認識し、その認識結果読み情報をそのまま音声認識用辞書に追加読み情報として追加する場合に比して、誤検出する確率を低くすることができ、音声認識の精度を高めることが可能となる。
図6は、本発明の音声認識用辞書作成装置を構成するハードウェア構成例を示すものであり、所定のプログラムを実行することによりコンピュータ63により音声認識用辞書作成装置を実現することができる。
本発明の実施形態に係る音声認識用辞書作成装置を実現するためのプログラムは、図6に示すように、CD-ROMやフレキシブルディスク、DVD、USBメモリなどの可搬形記録媒体62だけでなく、ネットワークを介して接続される記憶装置61や、コンピュータ63のハードディスクやRAMなどの記録装置64のいずれに記録されるものであってもよく、プログラム実行時にはコンピュータ63の主メモリ上にロードされて実行される。
また、本発明の実施形態に係る音声認識用辞書作成装置により用いられる音声認識用辞書16についても、図6に示すCD-ROMやフレキシブルディスク、DVD、USBメモリなどの可搬形記録媒体62だけでなく、ネットワークを介して接続される記憶装置61、コンピュータのハードディスクやRAMなどの記憶装置64のいずれに記憶されるものであってもよい。
11:音声信号入力部
12:第1音声認識部
13:追加候補選択部
14:第2音声認識部
15:辞書更新部
16:音声認識用辞書
17:音響モデル
特許第3992586号明細書

Claims (5)

  1. 利用者が発声する音声を入力して、音声信号にして受け付ける音声信号入力部と、
    単語に対応する標準読み情報を前記単語と対応付けて記憶する音声認識用辞書と、
    前記音声認識用辞書に記憶された単語に対応して発声された音声を、音声信号にして前記音声信号入力部により受け付けて音声認識し、前記単語に対応する認識結果読み情報を決定する第1音声認識部と、
    前記標準読み情報または認識結果読み情報に基づいて複数の読み情報データを生成し、前記複数の読み情報データと前記標準読み情報との類似度を求め、前記標準読み情報との類似度が前記第1音声認識部で決定された認識結果読み情報と前記標準読み情報との類似度よりも高い読み情報データを追加候補データとして前記複数の読み情報データから選択する追加候補選択部と、
    前記追加候補選択部で選択された追加候補データに対応する音節または音素モデル列を生成し、前記受け付けた音声信号を前記生成された音節または音素モデル列により認識できるか否かを判定する第2音声認識部と、
    前記受け付けた音声信号が前記第2音声認識部において認識できた追加候補データのうち前記単語の標準読み情報との類似度が高い追加候補データを前記音声認識用辞書の該当する単語の読み情報として追加する辞書更新部と、
    を備える音声認識用辞書作成装置。
  2. 前記追加候補選択部は、音節または音素間の置換、挿入および脱落に対して類似度を定義した類似度テーブルに基づいて、前記認識結果読み情報と標準読み情報との類似度を算出する、請求項1に記載の音声認識用辞書作成装置。
  3. 前記追加候補選択部は、第1の選出スコア=標準読み情報との類似度×(1−α)+認識結果読み情報との類似度×α(0<α≦1)を算出して、前記第1の選出スコアが所定値以上である読み情報を追加候補データとして選択する、請求項1に記載の音声認識用辞書作成装置。
  4. 前記単語辞書更新部は、前記第2音声認識部において認識できた追加候補データに対し、第2選出スコア=標準読み情報との類似度×(1−β)+認識結果読み情報との類似度×β(0≦β<1)を算出して、前記第2の選出スコアが最も高い追加候補データを前記音声認識用辞書の該当する単語の読み情報として追加する、請求項3に記載の音声認識用辞書作成装置。
  5. 単語に対応する標準読み情報を前記単語と対応付けて記憶する音声認識用辞書を作成する方法であって、
    前記音声認識用辞書に記憶された単語に対応して発声された音声を入力して、音声信号にして受け付ける段階と、
    前記受け付けた音声信号を音声認識し、前記単語に対応する認識結果読み情報を決定する段階と、
    前記標準読み情報または認識結果読み情報に基づいて複数の読み情報データを生成し、前記複数の読み情報データと前記標準読み情報との類似度を求め、前記標準読み情報との類似度が前記決定された認識結果読み情報と前記標準読み情報との類似度よりも高い読み情報データを追加候補データとして前記複数の読み情報データから選択する段階と、
    前記選択された追加候補データに対応する音節または音素モデル列を生成し、前記受け付けた音声信号を前記生成された音節または音素モデル列により認識できるか否かを判定する段階と、
    前記受け付けた音声信号を認識できた前記追加候補データのうち、前記単語の標準読み情報との類似度が高い追加候補データを前記音声認識用辞書の該当する単語の読み情報として追加する段階と、
    を備える音声認識用辞書作成方法。
JP2009018919A 2009-01-30 2009-01-30 音声認識用辞書作成装置及び音声認識用辞書作成方法 Expired - Fee Related JP5152016B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009018919A JP5152016B2 (ja) 2009-01-30 2009-01-30 音声認識用辞書作成装置及び音声認識用辞書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009018919A JP5152016B2 (ja) 2009-01-30 2009-01-30 音声認識用辞書作成装置及び音声認識用辞書作成方法

Publications (2)

Publication Number Publication Date
JP2010175869A JP2010175869A (ja) 2010-08-12
JP5152016B2 true JP5152016B2 (ja) 2013-02-27

Family

ID=42706915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009018919A Expired - Fee Related JP5152016B2 (ja) 2009-01-30 2009-01-30 音声認識用辞書作成装置及び音声認識用辞書作成方法

Country Status (1)

Country Link
JP (1) JP5152016B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62111292A (ja) * 1985-11-08 1987-05-22 松下電器産業株式会社 音声認識装置
JPH08123470A (ja) * 1994-10-25 1996-05-17 Nippon Hoso Kyokai <Nhk> 音声認識装置
JP3992586B2 (ja) * 2002-10-18 2007-10-17 富士通株式会社 音声認識用辞書調整装置及び方法

Also Published As

Publication number Publication date
JP2010175869A (ja) 2010-08-12

Similar Documents

Publication Publication Date Title
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP4784120B2 (ja) 音声書き起こし支援装置及びその方法ならびにプログラム
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
US8645139B2 (en) Apparatus and method of extending pronunciation dictionary used for speech recognition
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4966324B2 (ja) 音声翻訳装置、および方法
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JP4296290B2 (ja) 音声認識装置、音声認識方法及びプログラム
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
JP5152016B2 (ja) 音声認識用辞書作成装置及び音声認識用辞書作成方法
JP5152020B2 (ja) 音声認識装置及び音声認識方法
US11043212B2 (en) Speech signal processing and evaluation
JP5673239B2 (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP5772219B2 (ja) 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム
JP6991409B2 (ja) 情報処理装置、プログラム及び情報処理方法
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
JP7035476B2 (ja) 音声処理プログラム、音声処理装置、及び音声処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5152016

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees