JP5152016B2

JP5152016B2 - 音声認識用辞書作成装置及び音声認識用辞書作成方法

Info

Publication number: JP5152016B2
Application number: JP2009018919A
Authority: JP
Inventors: 将治原田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-01-30
Filing date: 2009-01-30
Publication date: 2013-02-27
Anticipated expiration: 2029-01-30
Also published as: JP2010175869A

Description

本発明は、音声認識装置において用いられる音声認識用辞書を作成するための音声認識用辞書作成装置及びその方法に関する。

音声認識装置では、単語とその読み情報とを対応付けて記憶している音声認識用辞書が用意されており、この音声認識用辞書を用いて音声認識処理が行われる。音声認識装置の音声認識処理において、音声認識用辞書に記憶されている各単語と対応付けて記憶されている読み情報が、音声認識の精度に大きく影響を及ぼすこととなる。

たとえば、「取引先」という単語には、標準的な読み情報として「とりひきさき」という読み情報が定義されることが通常であると考えられる。しかしながら、実際に発声された音声を読み情報に対応させると、「とりっきさっ」となるような場合がある。「取引先」という単語に標準読み情報として「とりひきさき」という読み情報が対応されている場合には、前述したような「とりっきさっ」という発声を音声認識できないこととなる。

このような問題に対して、特許文献１では、単語に対応して発声された音声信号を、音節または音素単位で音声認識させて得られた結果を、音声認識用辞書の読み情報として登録し、音声認識用辞書の調整を行うように構成している。

前述したような特許文献１に記載の方法によれば、音節または音素単位で認識させて得られた読み情報を音声認識用辞書の単語の読み情報として記憶していることから、この学習により得られた読み情報を認識することができるものの、同一の単語に対する発声であっても、音声認識用辞書に記録されている読み情報とは異なる読み情報として認識される場合には、これを該当する単語として認識することができない。したがって、発声者のその時の状態や、異なる発声者による発声により、音声認識用辞書にない読み情報として分類される音声信号に対しては、音声認識ができないという問題がある。

本発明では、単語に対する標準的な読み情報に加えて、標準読み情報に類似する読み情報を自動的に追加することにより、音声認識の精度を高めるようにした音声認識用辞書作成装置及び音声認識用辞書作成方法を提供することを目的とする。

本発明に係る音声認識用辞書作成装置は、上記問題点を解決するためのものであって、利用者が発声する音声を入力して、音声信号にして受け付ける音声信号入力部と、単語に対応する標準読み情報を単語と対応付けて記憶する音声認識用辞書と、音声認識用辞書に記憶された単語に対応して発声された音声を、音声信号にして音声信号入力部により受け付けて音声認識し、単語に対応する認識結果読み情報を決定する第１音声認識部と、標準読み情報または認識結果読み情報に基づいて複数の読み情報データを生成し、複数の読み情報データと標準読み情報との類似度を求め、標準読み情報との類似度が第１音声認識部で決定された認識結果読み情報と標準読み情報との類似度よりも高い読み情報データを追加候補データとして複数の読み情報データから選択する追加候補選択部と、追加候補選択部で選択された追加候補データに対応する音節または音素モデル列を生成し、受け付けた音声信号を生成された音節または音素モデル列により認識できるか否かを判定する第２音声認識部と、受け付けた音声信号が第２音声認識部において認識できた追加候補データのうち単語の標準読み情報との類似度が高い追加候補データを音声認識用辞書の該当する単語の読み情報として追加する辞書更新部とを備える。

また、本発明に係る音声認識用辞書作成方法は、単語に対応する標準読み情報を単語と対応付けて記憶する音声認識用辞書を作成する方法であって、音声認識用辞書に記憶された単語に対応して発声された音声を入力して、音声信号にして受け付ける段階と、受け付けた音声信号を音声認識し、単語に対応する認識結果読み情報を決定する段階と、標準読み情報または認識結果読み情報に基づいて複数の読み情報データを生成し、複数の読み情報データと標準読み情報との類似度を求め、標準読み情報との類似度が決定された認識結果読み情報と標準読み情報との類似度よりも高い読み情報データを追加候補データとして複数の読み情報データから選択する段階と、選択された追加候補データに対応する音節または音素モデル列を生成し、受け付けた音声信号を生成された音節または音素モデル列により認識できるか否かを判定する段階と、受け付けた音声信号を認識できた追加候補データのうち、単語の標準読み情報との類似度が高い追加候補データを音声認識用辞書の該当する単語の読み情報として追加する段階とを備える。

本発明によれば、単語に対応する読み情報を学習により追加する従来の方法に比して。音声認識率を高めることが可能となり、精度の良い音声認識処理を可能にする。

本発明の実施形態に係る音声認識用辞書作成装置の機能ブロック図である。本発明の実施形態に係る音声認識用辞書作成方法のフローチャートである。本発明の実施形態に用いられる類似度テーブルの一例を示す説明図である。本発明の実施形態に用いられる追加候補データのテーブルの一例を示す説明図である。音声認識装置により認識される音声信号の音響特徴範囲を示す説明図である。本発明の音声認識用辞書作成装置を実現するためのハードウェア構成を示す説明図である。

本発明の詳細を添付した図面に基づいて説明する。

〈第１実施形態〉
図１は、本発明に係る音声認識用辞書作成装置の構成図である。

音声認識用辞書作成装置10は、音声信号入力部11、第１音声認識部12、追加候補選択部13、第２音声認識部14、辞書更新部15を備えている。

また、この音声認識用辞書作成装置10は、単語に対応する読み情報をその単語に対応付けて記憶する音声認識用辞書16を備えており、初期状態として単語に対応する標準読み情報がその単語の読み情報として対応付けられて記憶されている。

さらに、音声認識用辞書作成部10は、実際に発声された音声データから作成した音響モデル17を備えており、音響モデル17に記憶された音節または音素毎のモデルを結合した音節または音素モデル列を生成し、これを参照して音声認識を行うように構成される。

音声信号入力部11は、利用者が発声する音声を入力して、音声信号にして受け付けるものである。

第１音声認識部12は、音声認識用辞書16に記憶された単語に対応して発声され音声信号入力部11により受け付けられた音声信号を音声認識し、単語に対応する認識結果読み情報を決定する。

追加候補選択部13は、標準読み情報または認識結果読み情報に基づいて複数の読み情報データを生成し、標準読み情報との類似度が第１音声認識部12で決定された認識結果読み情報と標準読み情報との類似度よりも高い読み情報データを追加候補データとして複数の読み情報データの中から選択する。たとえば、認識結果読み情報と同一音節数または同一音素数であるような全ての読み情報データと標準読み情報との類似度を求め、認識結果読み情報と標準読み情報との類似度よりも高い類似度である読み情報データを追加候補データとして選択することができる。また、標準読み情報と同一音節数または同一音素数であるような全ての読み情報データを生成し、この複数の読み情報データと標準読み情報との類似度を求め、認識結果読み情報と標準読み情報との類似度よりも高い類似度である読み情報データを追加候補データとして選択することができる。さらに、音節数または音素数に関わらず全ての読み情報データに対して、標準読み情報との類似度を求めるように構成することも可能である。

第２音声認識部14は、追加候補選択部13で選択された追加候補データに対応する音節または音素モデル列を生成し、入力された音声信号を生成された音節または音素モデル列により認識できるか否かを判定する。

辞書更新部15は、入力された音声信号が第２音声認識部14において認識できた追加候補データのうち単語の標準読み情報との類似度が最も高い追加候補データを音声認識用辞書16の該当する単語の読み情報として追加する。

図２は、本発明に係る音声認識用辞書作成方法のフローチャートである。

ステップS21において、音声認識用辞書作成装置10は、音声認識用辞書16に記憶された単語に対応して発声された音声信号を音声信号入力部11により受け付けて、第１音声認識部12に送信する。

ステップS22において、音声認識用辞書作成装置10は、音声信号入力部11により受け付けた音声信号を第１音声認識部12において音声認識する。ここでは、音響モデル17に記憶されている音節または音素モデルに基づいて、入力された音声信号に合致または類似する音節または音素モデル列を検索し、入力された音声信号に最も近い読み情報を認識結果読み情報として決定する。

ステップS23において、音声認識用辞書作成装置10は、追加候補選択部13により、例えば、標準読み情報の音節数または音素数と同数の複数の読み情報データを生成し、この読み情報データのうちから認識結果読み情報と標準読み情報との類似度よりも類似度が高くなるような読み情報データを音声認識用辞書16の対応する単語の読み情報として追加する。追加候補選択部13は、第１音声認識部12により認識された認識結果読み情報と同一音節数、またはその前後の音節数を有する読み情報に対して、標準読み情報との類似度を求め、認識結果読み情報と標準読み情報との類似度よりも大きい類似度であるような読み情報を追加候補データとして選択するように構成することも可能である。

追加候補選択部13が読み情報間の類似度を算出する方法として、各文字間の類似度テーブルを備えており、この類似度テーブルに基づいて認識結果読み情報との類似度が所定値以上となる読み情報を選択するように構成することが可能である。

図３は、類似度テーブルの一例を示す説明図である。

図３に示す類似度テーブルは、読み情報における文字の置換が発生した場合の読み情報間の距離、読み情報における文字の挿入が発生した場合の読み情報間の距離、読み情報における文字の脱落が発生した場合の読み情報間の距離をそれぞれテーブル化したものである。

このような類似度テーブルを用いる場合、たとえば、読み情報「とりひきさき」と読み情報「とりひきさ」との類似度は、「き」が脱落したことにより特定される距離（たとえば、40）で示される。また、読み情報「とりひきさき」と読み情報「とりしきさ」との類似度は、「ひ」が「し」に置換したことにより特定される距離と「き」が脱落したことにより特定される距離の和（たとえば、70）で示される。さらに、読み情報「とりひきさき」と読み情報「とりいきさ」との類似度は、「し」が「い」に置換したことにより特定される距離と「き」が脱落したことにより特定される距離の和（たとえば、100）で示される。

追加候補選択部13は、類似度テーブルを用いて、標準読み情報との類似度が認識結果読み情報と標準読み情報との類似度より大きくなる読み情報を選択するものであって、図３に示すような類似度テーブルを用いる場合には、標準読み情報との距離が認識結果読み情報と標準読み情報との距離よりも小さくなる読み情報を選択する。

たとえば、「取引先」という単語に対して標準読み情報として「とりひきさき」という読み情報が音声認識用辞書16に記憶されており、この標準読み情報に対応して発声された音声信号を第１音声認識部12で認識した結果、認識結果読み情報が「とりいきさ」であった場合について考察する。

追加候補選択部13は、認識結果読み情報「とりいきさ」に基づいて同一音節または前後音節数となる読み情報を生成し、それぞれの読み情報について、標準読み情報「とりひきさき」との類似度を算出する。追加候補選択部13は、標準読み情報「とりひきさき」と認識結果読み情報「とりいきさ」との類似度を超えるものを選択することから、認識結果読み情報「とりいきさ」よりも標準読み情報「とりひきさき」に距離が近い読み情報を選択する。

追加候補選択部13が読み情報間の類似度を算出する方法としては、このような類似度テーブルを予め用意しておく場合の他に、各文字間の類似度、または距離に応じて文字列同士の類似度または距離を算出する演算式により逐次算出するように構成することも可能である。

ただし、追加候補選択部13は、認識結果読み情報と標準読み情報との類似度が、所定の閾値より離れていると判断した場合に、認識不能として追加候補データを生成・選択しないように構成することも可能である。

図４は、追加候補選択部13により選択される読み情報を表す追加候補テーブルの説明図である。

図４に示すように、追加候補テーブル41は、読み情報欄42、距離（類似度）欄43、認識可否欄44で構成されている。追加候補選択部13が標準読み情報と類似度により選択した読み情報は、前述したように、認識結果読み情報と標準読み情報との類似度よりも高い類似度を有するものであり、図示した例では、標準読み情報「とりひきさき」との距離が、認識結果読み情報「とりいきさ」と標準読み情報「とりひきさき」との距離100よりも小さい読み情報である「とりひきさき」、「とりしきさき」、「とりひきさ」、「とりいきさき」、「とりしきさ」、「とりいきさ」がそれぞれ格納される。

ステップS24において、音声認識用辞書作成装置10は、第２音声認識部14により、追加候補データの音節または音素モデル列を生成する。第２音声認識部14は、追加候補選択部13により選択された読み情報のそれぞれについて、音響モデル17に記憶されている音節または音素モデルを用いて音節または音素モデル列を生成する。

ステップS25において、音声認識用辞書作成装置10は、第２音声認識部14で生成された音節または音素モデル列によって、音声信号入力11から入力された音声信号を音声認識できるか否かを判別する。この第２音声認識部14に入力される音声信号は、音声信号入力部11から入力されて第１音声認識部12により音声認識されたものと同一のものを用いる。

第２音声認識部14は、追加候補データによって生成した音節または音素モデル列を用いて、音声信号入力部11から入力された音声信号を音声認識処理し、音声認識できなかった場合には、ステップS26において、該当する読み情報を追加候補データから削除する。ステップS25において、第２音声認識部14が音声認識できたと判断した場合には、ステップS27に移行する。

ステップS27において、音声認識用辞書作成装置10は、第２音声認識部14により、次の追加候補データが存在するか否かを判別する。第２音声認識部14は、音声認識処理を実行していない追加候補データが存在すると判断した場合にはステップS24に移行し、そうでない場合にはステップS28に移行する。

第２音声認識部14は、全ての追加候補データについて音声認識処理を実行し、図４に示す追加候補テーブルを完成させる。前述したステップS26では、音声認識できなかった読み情報については追加候補データから削除する旨記載したが、図４に示すように、各読み情報の認識可否欄に音声認識の可否を示すフラグを格納することにより、音声認識の可否を表すように構成することができる。

ステップS28では、音声認識用辞書作成装置10は、辞書更新部15により追加候補データのうちから音声認識用辞書16の単語の読み情報として追加するものを決定する。辞書更新部15は、第２音声認識部14において音声認識ができた追加候補データのうち、標準読み情報との類似度が最も高い追加候補データを音声認識用辞書16に追加する読み情報として選択する。図４に示す例では、第２音声認識部14により音声認識ができた追加候補データは、「とりしきさ」と「とりいきさ」であり、このうち、標準読み情報との距離が小さい「とりしきさ」を音声認識用辞書16に追加する読み情報として選択する。

ステップS29では、音声認識用辞書作成装置10は、辞書更新部15により選択された追加候補データを該当する単語の読み情報として、音声認識用辞書16を更新する。

第１実施形態に係る音声認識用辞書作成装置では、音声認識用辞書に記憶されている単語に対応して発声された音声信号を第１音声認識部12において音声認識し、標準読み情報との類似度が、認識結果読み情報と標準読み情報との類似度よりも高い読み情報を追加候補データとして選択し、この追加候補データから生成された音節または音素モデル列を用いて第２音声認識部14で音声認識できるか否を判別し、音声認識できた読み追加候補データのうち標準読み情報との類似度が最も高いものを音声認識用辞書の単語の読み情報として追加している。

〈実験結果〉
「確認」、「受付」、「設定」などの普通名詞、「○○株式会社」などの固有名詞を含む358単語を記憶させた音声認識用辞書を用いて、70分間の音声データ（コールセンタの44通話分）について音声認識を行った。なお、音声認識用辞書に記憶されている358単語であってこの音声データ中に出現する延べ回数を人手により書き起こした正解単語数は381語であった。

Ａ）標準読み情報以外の読み情報を追加しなかった場合
音声認識用辞書に記憶された358語の単語に対して、それぞれ標準読み情報以外の読み情報を追加しなかった場合に、音声認識装置は、正解単語数381語のうち248語を正確に認識できた。この場合の音声認識装置における音声認識率は、248/381＝65％である。

Ｂ）学習による読み情報をそのまま追加した場合
音声認識用辞書に記憶された358語の単語に対して、それぞれ学習により得られた読み情報をそのまま追加した場合に、音声認識装置は、正解単語数381語のうち315語を正確に認識できた。この場合の音声認識装置における音声認識率は、315/381＝83％である。

Ｃ）本発明により読み情報を追加した場合
音声認識用辞書に記憶された358語の単語に対して、それぞれ本発明により読み情報を追加した場合に、音声認識装置は、正解単語数381語のうち356語を正確に認識できた。この場合の音声認識装置における音声認識率は、356/381＝93％である。

さらに具体的な例として、音声認識用辞書に記憶された単語のうち、「取引」という単語について着目した音声認識結果を以下に示す。ここで、前述したものと同一の70分間の音声データを用いて実験を行った結果を示す。

Ａ）「取引」という単語に対して、標準読み情報「とりひき」だけが記憶されている音声認識用辞書を用いて音声認識を行った結果、「取引」という単語の出現数15に対して、音声認識に成功した回数が６回であった。

Ｂ）「取引」という単語に対して、標準読み情報「とりひき」に加えて、学習によって得られた読み情報「といっき」を追加した音声認識用辞書を用いて音声認識を行った結果、「取引」という単語の出現数15に対して、音声認識に成功した回数が７回であった。

Ｃ）「取引」という単語に対して、標準読み情報「とりひき」に加えて、本発明により読み情報「とりしき」を追加した音声認識用辞書を用いて音声認識を行った結果、「取引」という単語の出現数15に対して、音声認識に成功した回数が11回であった。

このように、本発明に係る音声認識用辞書作成装置及び音声認識用辞書作成方法により、音声認識用辞書を作成することによって、音声認識の精度が高くなる。

図５は、音響特徴による音声認識効果を示す説明図である。

図５では、「取引先」という単語に対する発声を多数サンプリングし、所定の音響特徴Ａ，Ｂをそれぞれ縦軸及び横軸として展開した場合に、その全体の音響特徴範囲Ｐで示される。この音響特徴範囲Ｐは、標準読み情報「とりひきさき」で認識できる範囲Ｘの大部分を含んでいる。したがって、発声者による発声のうち、「とりひきさき」と認識できるような音響特徴範囲Ｘに含まれるような音声信号であれば、音声認識することが可能である。

しかしながら、図５の範囲Ｐのうち右上部分では、「とりいきさ」や「とりしきさ」などの読み情報として認識されるものについては、単語「取引先」に対応する音声信号に認識されないこととなる。

ここで、学習により「とりいきさ」という読み情報が得られた場合に、この「とりいきさ」を音声認識用辞書の読み情報として追加すると、標準読み情報「とりひきさき」により認識できる音響特徴範囲Ｘと、読み情報「とりいきさ」により認識される音響特徴範囲Ｚとを合成した音響特徴範囲で音声認識を行うこととなる。ここで、読み情報「とりいきさ」で認識できる音響特徴範囲Ｚは、全体の音響特徴範囲Ｐと重複しない部分を多く含んでいる。したがって、読み情報「とりいきさ」に類似する発音で、他の単語に対応するものが「とりひきさき」として誤検出されるおそれがある。

本発明では、音声信号を音声認識した結果である認識結果読み情報よりも、標準読み情報に類似する読み情報であって、音声認識できるものを音声認識辞書の読み情報として追加することによって、前述したような誤検出の発生を低く抑えることができる。たとえば、標準読み情報「とりひさき」に対応して発生された音声信号を第１音声認識部12で音声認識した結果である認識結果読み情報が「とりいきさ」であるような場合に、認識結果読み情報「とりいきさ」よりも標準読み情報「とりひきさき」との類似度が高い読み情報「とりしきさ」を、音声認識用辞書の読み情報に追加する。このことにより、音声認識装置は、音声認識装置において音声認識を行う音響特徴範囲は、標準読み情報「とりひきさき」によって認識できる音響特徴範囲Ｘと、追加読み情報「とりしきさ」によって認識できる音響特徴範囲Ｙとを合成した音響特徴範囲で音声認識を行うこととなる。この場合、入力された音声信号を音声認識して得られた認識結果読み情報を、追加読み情報として音声認識用辞書に追加する場合に比して、標準読み情報により類似する読み情報を追加読み情報として音声認識用辞書に追加することができるため、誤検出範囲を小さくすることができ、より精度の高い音声認識を行うことが可能となる。

〈第２実施形態〉
前述した第１実施形態では、標準読み情報に対応して発生された音声信号を音声認識して、標準読み情報との類似度が認識結果読み情報と標準読み情報との類似度より高い読み情報を追加候補データとして、このうちから音声認識できた読み情報を音声認識用辞書に追加読み情報として追加している。

音声認識用辞書に追加読み情報として追加するための条件は、第１実施例の構成に代えて、標準読み情報との類似度、及び認識結果読み情報との類似度に基づいて所定の計算式により求められる選出スコアを用いて決定することが可能である。

たとえば、第１選出スコアを（（標準読み情報との類似度）×（１−α）＋（認識結果読み情報との類似度）×α）（ただし、０＜α≦１）として算出し、この第１選出スコアが所定値以上になる１または複数の読み情報を追加候補データとして選択する。この第１選出スコアに基づいて選択された追加候補データについて、第２選出スコアを（（標準読み情報との類似度）×（１−β）＋（認識結果読み情報との類似度）×β）（ただし、０≦β＜１）として算出し、第２選出スコアが最大であって、かつ元の音声信号を音声認識できるものを、音声認識用辞書の単語の読み情報として追加するように構成できる。

ここで、第１選出スコア及び第２選出スコアを算出するための係数α、βは同一であってもよい。

〈第３実施形態〉
音声認識用辞書中の１つの単語に対して、複数の標準読み情報が対応して記憶されているような場合には、複数の標準読み情報との類似度および複数の標準読み情報に対応して得られた認識結果読み情報との類似度を用いて、追加読み情報を決定するように構成できる。

この場合、複数の標準読み情報に対応して発声された音声信号を第１音声認識部12で音声認識し、それぞれに対応する認識結果読み情報を決定する。複数の標準読み情報との類似度および複数の標準読み情報に対応する各認識結果読み情報との類似度に基づいて、第１選出スコアを算出し、この第１選出スコアが所定値以上となる読み情報を追加候補データとして選択する。

この第１選出スコアに基づいて選出された追加候補データの読み情報について、複数の標準読み情報との類似度および複数の標準読み情報に対応する各認識結果読み情報との類似度に基づいて第２選出スコアを算出し、第２選出スコアが最大であるとともに、追加候補データに基づく音節または音素モデル列を用いて音声認識を行った結果、一定割合以上の音声認識ができた読み情報について、音声認識用辞書に追加読み情報として記憶させるように構成できる。

たとえば、１つの単語に対して第１標準読み情報、第２標準読み情報の２つの標準読み情報が記憶されており、これら第１、第２標準読み情報に対応して発声された音声信号を第１音声認識部12で音声認識した結果、第１認識結果読み情報及び第２認識結果読み情報を得たとする。各読み情報に対して、第１選出スコアを（（第１標準読み情報との類似度）×A1＋（第２標準読み情報との類似度）×B1＋（第１認識結果読み情報との類似度）×C1＋（第２認識結果読み情報との類似度）×D1）（ただし、A1＋B1＋C1＋D1＝１とする）で算出し、所定値以上の類似度である読み情報を追加候補データとして選出する。

第１選出スコアによって選出された追加候補データについて、それぞれ第２選出スコアを（（第１標準読み情報との類似度）×A2＋（第２標準読み情報との類似度）×B2＋（第１認識結果読み情報との類似度）×C2＋（第２認識結果読み情報との類似度）×D2）（ただし、A2＋B2＋C2＋D2＝１とする）で算出し、この第２選出スコアが最大であるとともに、これら追加候補データによる音節または音素モデル列を用いて第２音声認識部14により音声認識した結果、所定の割合以上の認識率であった読み情報を、音声認識用辞書に追加する追加読み情報として決定する。

第１選出スコア及び第２選出スコアを算出するためのパラメータA1〜D2は任意に設定することが可能であり、A1=A2、B1=B2、C1=C2、D1=D2とすることも可能である。

また、追加候補データによる音節または音素モデル列を用いて第２音声認識部14により音声認識した結果、所定の割合以上の認識率であった読み情報が複数ある場合には、それらを全て、または所定数だけ音声認識用辞書に追加するように構成することも可能である。

〈第４実施形態〉
第３実施形態の変形例として、第２選出スコアを複数の標準読み情報との類似度を用いて算出するように構成できる。

この場合、複数の標準読み情報に対応して発生された音声信号を第１音声認識部12で音声認識し、それぞれに対応する認識結果読み情報を決定する。複数の標準読み情報との類似度および複数の標準読み情報に対応する各認識結果読み情報との類似度に基づいて、第１選出スコアを算出し、この第１選出スコアが所定値以上となる読み情報を追加候補データとして選択する。

この第１選出スコアに基づいて選出された追加候補データの読み情報について、複数の標準読み情報との類似度に基づいて第２選出スコアを算出し、第２選出スコアが最大であるとともに、追加候補データに基づく音節または音素モデル列を用いて音声認識を行った結果、一定割合以上の音声認識ができた読み情報について、音声認識用辞書に追加読み情報として記憶させるように構成できる。

たとえば、第３実施形態と同様に、１つの単語に対して第１標準読み情報、第２標準読み情報の２つの標準読み情報が記憶されており、これら第１、第２標準読み情報に対応して発声された音声信号を第１音声認識部12で音声認識した結果、第１認識結果読み情報及び第２認識結果読み情報を得たとする。各読み情報に対して、第１選出スコアを（（第１標準読み情報との類似度）×A1＋（第２標準読み情報との類似度）×B1＋（第１認識結果読み情報との類似度）×C1＋（第２認識結果読み情報との類似度）×D1）（ただし、A1＋B1＋C1＋D1＝１とする）で算出し、所定値以上の類似度である読み情報を追加候補データとして選出する。

第１選出スコアによって選出された追加候補データについて、それぞれ第２選出スコアを（（第１標準読み情報との類似度）×A2＋（第２標準読み情報との類似度）×B2）（ただし、A2＋B2＝１とする）で算出し、この第２選出スコアが最大であるとともに、これら追加候補データによる音節または音素モデル列を用いて第２音声認識部14により音声認識した結果、所定の割合以上の認識率であった読み情報を、音声認識用辞書に追加する追加読み情報として決定する。

また、第２選出スコアは、複数の記憶されている標準読み情報との類似度のうち、最大類似度となるものを、その読み情報の第２選出スコアとすることも可能である。各標準読み情報との類似度には、所定の係数を乗算して重み付けを行うようにすることも可能である。

以上のように本発明の実施形態によれば、単語の標準読み情報に対応して発声された音声信号を第１音声認識部12で音声認識して認識結果読み情報を決定し、標準読み情報との類似度及び認識結果読み情報との類似度を用いて追加候補データを選択し、さらにこの追加候補データとなった読み情報を用いて音節または音素モデル列を生成して第２音声認識部14で音声認識を行って、音声認識できた読み情報または、所定の割合以上の音声認識ができた読み情報を追加情報として決定している。したがって、単語の標準読み情報に対応して発声された音声信号を音声認識し、その認識結果読み情報をそのまま音声認識用辞書に追加読み情報として追加する場合に比して、誤検出する確率を低くすることができ、音声認識の精度を高めることが可能となる。

図６は、本発明の音声認識用辞書作成装置を構成するハードウェア構成例を示すものであり、所定のプログラムを実行することによりコンピュータ63により音声認識用辞書作成装置を実現することができる。

本発明の実施形態に係る音声認識用辞書作成装置を実現するためのプログラムは、図６に示すように、CD-ROMやフレキシブルディスク、DVD、USBメモリなどの可搬形記録媒体62だけでなく、ネットワークを介して接続される記憶装置61や、コンピュータ63のハードディスクやRAMなどの記録装置64のいずれに記録されるものであってもよく、プログラム実行時にはコンピュータ63の主メモリ上にロードされて実行される。

また、本発明の実施形態に係る音声認識用辞書作成装置により用いられる音声認識用辞書16についても、図６に示すCD-ROMやフレキシブルディスク、DVD、USBメモリなどの可搬形記録媒体62だけでなく、ネットワークを介して接続される記憶装置61、コンピュータのハードディスクやRAMなどの記憶装置64のいずれに記憶されるものであってもよい。

１１：音声信号入力部
１２：第１音声認識部
１３：追加候補選択部
１４：第２音声認識部
１５：辞書更新部
１６：音声認識用辞書
１７：音響モデル

特許第3992586号明細書

Claims

利用者が発声する音声を入力して、音声信号にして受け付ける音声信号入力部と、
単語に対応する標準読み情報を前記単語と対応付けて記憶する音声認識用辞書と、
前記音声認識用辞書に記憶された単語に対応して発声された音声を、音声信号にして前記音声信号入力部により受け付けて音声認識し、前記単語に対応する認識結果読み情報を決定する第１音声認識部と、
前記標準読み情報または認識結果読み情報に基づいて複数の読み情報データを生成し、前記複数の読み情報データと前記標準読み情報との類似度を求め、前記標準読み情報との類似度が前記第１音声認識部で決定された認識結果読み情報と前記標準読み情報との類似度よりも高い読み情報データを追加候補データとして前記複数の読み情報データから選択する追加候補選択部と、
前記追加候補選択部で選択された追加候補データに対応する音節または音素モデル列を生成し、前記受け付けた音声信号を前記生成された音節または音素モデル列により認識できるか否かを判定する第２音声認識部と、
前記受け付けた音声信号が前記第２音声認識部において認識できた追加候補データのうち前記単語の標準読み情報との類似度が高い追加候補データを前記音声認識用辞書の該当する単語の読み情報として追加する辞書更新部と、
を備える音声認識用辞書作成装置。
前記追加候補選択部は、音節または音素間の置換、挿入および脱落に対して類似度を定義した類似度テーブルに基づいて、前記認識結果読み情報と標準読み情報との類似度を算出する、請求項１に記載の音声認識用辞書作成装置。
前記追加候補選択部は、第１の選出スコア＝標準読み情報との類似度×（１−α）＋認識結果読み情報との類似度×α（０＜α≦１）を算出して、前記第１の選出スコアが所定値以上である読み情報を追加候補データとして選択する、請求項１に記載の音声認識用辞書作成装置。
前記単語辞書更新部は、前記第２音声認識部において認識できた追加候補データに対し、第２選出スコア＝標準読み情報との類似度×（１−β）＋認識結果読み情報との類似度×β（０≦β＜１）を算出して、前記第２の選出スコアが最も高い追加候補データを前記音声認識用辞書の該当する単語の読み情報として追加する、請求項３に記載の音声認識用辞書作成装置。
単語に対応する標準読み情報を前記単語と対応付けて記憶する音声認識用辞書を作成する方法であって、
前記音声認識用辞書に記憶された単語に対応して発声された音声を入力して、音声信号にして受け付ける段階と、
前記受け付けた音声信号を音声認識し、前記単語に対応する認識結果読み情報を決定する段階と、
前記標準読み情報または認識結果読み情報に基づいて複数の読み情報データを生成し、前記複数の読み情報データと前記標準読み情報との類似度を求め、前記標準読み情報との類似度が前記決定された認識結果読み情報と前記標準読み情報との類似度よりも高い読み情報データを追加候補データとして前記複数の読み情報データから選択する段階と、
前記選択された追加候補データに対応する音節または音素モデル列を生成し、前記受け付けた音声信号を前記生成された音節または音素モデル列により認識できるか否かを判定する段階と、
前記受け付けた音声信号を認識できた前記追加候補データのうち、前記単語の標準読み情報との類似度が高い追加候補データを前記音声認識用辞書の該当する単語の読み情報として追加する段階と、
を備える音声認識用辞書作成方法。