JP2009217006A

JP2009217006A - 辞書修正装置、システム、およびコンピュータプログラム

Info

Publication number: JP2009217006A
Application number: JP2008061037A
Authority: JP
Inventors: Takahiro Oku; 貴裕奥; Toru Imai; 亨今井; Shoe Sato; 庄衛佐藤
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2008-03-11
Filing date: 2008-03-11
Publication date: 2009-09-24
Anticipated expiration: 2028-03-11
Also published as: JP4990822B2

Abstract

【課題】必要のない読みを自動的に判定して発音辞書から削除することで音声処理における正解率向上やサーチ時間短縮を目的とし、そのための辞書修正装置を提供する。
【解決手段】辞書修正装置が、第一閾値を記憶する閾値記憶部と、表記と、読みと、当該表記および当該読みが発生する頻度である発生頻度との組をエントリとして有する頻度データを読み込み、前記閾値記憶部から前記第一閾値を読み込み、前記発生頻度が前記第一閾値以上である前記エントリが存在する前記表記に関して、その表記を有して且つ前記発生頻度が所定の第二閾値以下となるような前記エントリを、削除対象エントリとして抽出する削除対象エントリ抽出部と、表記と読みとの組を有する発音辞書データから、前記削除対象エントリ抽出部によって抽出された前記削除対象エントリに対応するデータを削除して、修正発音辞書データを作成する辞書修正処理部を具備する。
【選択図】図１

Description

本発明は、音声処理に関する。特に、辞書修正装置、音声認識システム、音声合成システム、およびコンピュータプログラムに関する。

音声処理分野における発音辞書は音声や文書に対して特定の単語を識別するための単語の表記とその読みで構成される。日本語などの言語では、例えば漢字表記のように、ある単語に対してその読みは１つとは限らず、複数存在する可能性がある。従って、発音辞書は、ある表記に対し、１つないし複数の読みを対応させて保持している。
音声認識処理や音声合成処理などでは、この発音辞書をもとにして単語の表記とその発声の仕方である読みを対応付けしているため、正しい読みが発音辞書に登録されていなければ、その表記が正しく認識されなかったり、音声を正しく合成できなかったりするということになる。

最近では音声認識結果をウェブ上で公開し、辞書に登録されていない単語（未知語）については、ウェブ上で表記とその読みのセットの登録をインターネットユーザに任せるという試みも見られる（非特許文献１）。
また、単語の読みを構成する音素に対し、所定のパターン定義を用いて異なる読みを発生させ、それを発音辞書に自動で追加していく手法も提案されている（特許文献１）。
緒方淳、外２名，「ＰｏｄＣａｓｔｌｅの実現：Ｗｅｂ２．０に基づく音声認識性能の向上について」，情処研報，音声言語情報処理２００７−ＳＬＰ−６５−８，社団法人情報処理学会，２００７年，ｐ．４１−４６特表２００３−５２２９８０号公報

しかしながら、特に数万語以上の単語を扱う大語彙連続音声認識などの分野においては、固有名詞などのような新出単語の表記と読みとを人手で登録していくと、読みの入力誤りや、時間・時代の経過に従って使われなくなる読みなどが発音辞書に含まれる状態になってしまうことがある。
また、インターネットを介して公開された発音辞書への追加登録を、一般のインターネットユーザに任せた場合には、表記に対する誤った読みが登録されてしまう可能性があり、このことが問題となる。

このように発音辞書内に誤った読みや、既に使われなくなった読みなどのエントリが存在すると、音声認識の正解率低下や辞書のサーチ時間の遅延など認識時に悪影響を及ぼすことになる。現実問題としても、発音辞書には、ある表記に対して正しい読み以外にも、その読みでは決して読まれることのない、必要のないものも含まれていることがある。従来の手法ではそのような根本的な問題に対応しておらず、本来必要のない読みも発音辞書内にそのまま残して、本来必要な読みと同様の扱いをしていた。

本発明はそのような本来必要のない読みを自動的に判定し、それを発音辞書から削除することで音声処理における正解率の向上やサーチ時間の短縮を図ることを目的とし、そのような自動的削除を可能にする辞書修正装置およびそのコンピュータプログラムを提供するものである。
また、本発明は、上記のような辞書修正装置を応用した音声認識システムや音声合成システムを提供することを目的とする。

上記の課題を解決するため、本発明では、過去の実際の発話音声とその書き起こし文のテキストデータを学習データとして、その学習データから発音辞書や音響モデルを用いたビタビサーチにより実際の発話の形態素ごとの表記とその読みのセットを抽出し（アライメント作業）、その頻度を基準として発音辞書の中で必要でないと思われる読みを削除することで音声処理の性能向上を図る。

［１］本発明の一態様による辞書修正装置は、第一閾値を記憶する閾値記憶部と、表記と、読みと、当該表記および当該読みが発生する頻度である発生頻度との組をエントリとして有する頻度データを読み込み、前記閾値記憶部から前記第一閾値を読み込み、前記発生頻度が前記第一閾値以上である前記エントリが存在する前記表記に関して、その表記を有して且つ前記発生頻度が所定の第二閾値以下となるような前記エントリを、削除対象エントリとして抽出する削除対象エントリ抽出部と、表記と読みとの組を有する発音辞書データから、前記削除対象エントリ抽出部によって抽出された前記削除対象エントリに対応するデータを削除して、修正発音辞書データを作成する辞書修正処理部とを具備することを特徴とする。
上記頻度データは、例えば学習データセットに基づくものであり、表記と読みの組とその組の発生頻度を表わす。発生頻度が適宜設定される第一閾値以上であるような表記と読みの組については、その表記の発生頻度は充分に高い。そのように発生頻度の高い表記について、発生頻度が第二閾値以下であるような表記と読みの組み合わせが存在するとき、その読みは、不要なエントリの候補と見なせる。従って、削除対象エントリ抽出部は、そのような表記と読みの組を削除対象エントリとして抽出する。辞書修正処理部は、このような基準で削除対象とされたエントリを発音辞書データから削除する。このように作成された修正発音辞書データは、不要なエントリが含まれていない。よって、この修正発音辞書データを用いて例えば音声処理等を行なうと、処理の正確性が向上する。
仮に、発生頻度が第二閾値以下であるようなエントリであっても、そのエントリと同じ表記を有して且つ発生頻度が第一閾値以上であるようなエントリが存在しない場合には、頻度データの元になる学習データ自体が、その表記に関しては充分ではない。しかしながら本態様の構成では第一閾値を用いた判断を行なっていることにより、このようなエントリは削除対象エントリには含まれない。従って、抽出される削除対象エントリの信頼性は、高まる。
なお、上記の第二閾値としては０（ゼロ）が好適である。つまり、第二閾値が０であるとき、発生頻度が０であることが削除対象エントリとして抽出されるための必要条件となる。

［２］また、本発明の一態様は、上記の辞書修正装置において、発話された音声の書き起こし文と、前記発話された音声に対応する読みとから、形態素ごとの表記と読みとの組を抽出し、これら複数の組を基に、表記と、読みと、当該表記および当該読みが発生する頻度である発生頻度との組をエントリとして有する頻度データを作成する学習データセット処理部をさらに具備し、前記削除対象エントリ抽出部は、前記学習データセット処理部が作成した前記頻度データを読み込んで、前記削除エントリを抽出する処理を行なうことを特徴とする。
この構成により、発話された音声の書き起こし文とこの発話された音声に対応する読み（これらをあわせたものが学習データセット）から頻度データを作成して、削除エントリ抽出部の処理のために用いることができる。

［３］また、本発明の一態様は、上記の辞書修正装置において、外部から読み込む知識データに基づく、表記と読みとの組を信頼エントリとして保持する知識データ処理部をさらに具備し、前記辞書修正処理部は、前記削除対象エントリと前記信頼エントリの両方に含まれるデータを発音辞書データからの削除対象から除外することを特徴とする。
知識データは、例えば発音アクセント辞典や用字用語辞典などのデータであり、表記および読みについて信頼できる情報を含む。本態様では、このような知識データに基づいて得られる表記と読みの組を信頼エントリとして保持する。たとえ削除対象エントリに含まれているような表記と読みの組であっても、その組が信頼エントリにも含まれていれば、辞書修正処理部はそのようなエントリを発音辞書データから削除しない。つまり、何らかの理由によって頻度データにおいては発生頻度が第二閾値以下となってしまっている表記と読みの組が偶々存在していたとしても無条件にその組が発音辞書データから削除されるわけではなく、修正発音辞書データの内容が安定的になる。

［４］また、本発明の一態様は、上記の辞書修正装置において、前記修正発音辞書データを用いてテストデータである音声の読みを決定するとともに、前記テストデータである音声に対応して与えられる正解の読みのデータを用いて、上で決定された読みの正解率を算出する発音決定部と、前記発音決定部によって算出された前記正解率に応じて、新たな第一閾値を決定して前記閾値記憶部を書き換える閾値決定部とを具備することを特徴とする。
発音決定部は、修正発音辞書データを用いてテストデータの音声の読みを決定する。このとき、修正発音辞書データの精度に応じて、決定された読みには誤りが含まれる可能性がある。発音決定部は、正解データを用いて、決定された読みの正解率を算出する。この正解率に応じて、閾値決定部が、次回の第一閾値を決定する。この構成により、正解率に応じた閾値を適応的に決定することができる。
一例としては、正解率が高いほど今回の第一閾値から次回の第一閾値への変化量の絶対値を小さくし、正解率が低いほど今回の第一閾値から次回の第一閾値への変化量の絶対値を大きくする。これにより、正解率が低い領域においては、次回の第一閾値を大きく変化させるため、適切な第一閾値に速く近付く（言い換えれば、少ない回数で適切な第一閾値に近付く）。また、正解率が高い領域においては、次回の第一閾値への変化量は小さいため、過度な変化とならず、微調整を効かせることができる。

［５］また、本発明の一態様による音声認識システムは、上記の辞書修正装置と、入力音声データの音響特徴量を抽出する音響分析部と、前記辞書修正装置によって修正された修正発音辞書データを用いて、前記音響特徴量から認識結果を決定して認識結果データを出力するデコーダ部とを具備することを特徴とする。
これによれば、より正確な音声認識を行なうことが可能となる。

［６］また、本発明の一態様による音声合成システムは、上記の辞書修正装置と、前記辞書修正装置によって修正された修正発音辞書データを用いて、入力文書データから読みを決定するテキスト解析部と、前記テキスト解析部によって決定された読みを合成音として出力する音声合成処理部とを具備することを特徴とする。
これによれば、より正確な音声合成を行なうことが可能となる。

［７］上記の課題を解決するため、本発明の一態様によるコンピュータプログラムは、第一閾値を記憶する閾値記憶部を備えるコンピュータに、表記と、読みと、当該表記および当該読みが発生する頻度である発生頻度との組をエントリとして有する頻度データを読み込み、前記閾値記憶部から前記第一閾値を読み込み、前記発生頻度が前記第一閾値以上である前記エントリが存在する前記表記に関して、その表記を有して且つ前記発生頻度が所定の第二閾値以下となるような前記エントリを、削除対象エントリとして抽出する削除対象エントリ抽出処理過程と、表記と読みとの組を有する発音辞書データから、前記削除対象エントリ抽出過程によって抽出された前記削除対象エントリに対応するデータを削除して、修正発音辞書データを作成する辞書修正処理過程と、の処理を実行させる。

本発明により、学習データセットを元にした頻度データを用いて、必要性の低いエントリを削除した、また誤っている可能性のあるエントリを削除した、修正発音辞書データを得ることが可能となる。これにより、大語彙連続音声認識の正解率の向上や、認識の際の発音辞書データのサーチ時間の短縮や、また、音声合成の分野における高精度なテキスト解析処理が実現可能となり、音声処理分野全般において性能向上を図ることができる。

［第１の実施の形態］
以下、本発明の実施形態について、図面を参照しながら説明する。
図１は、本実施形態による発音辞書修正装置の機能構成を示すブロック図である。図示するように、発音辞書修正装置１００は、閾値記憶部７と、学習データセット処理部５と、知識データ処理部６と、削除対象エントリ抽出部８と、辞書修正処理部９とを含んで構成される。また、発音辞書修正装置１００は、発音辞書データ１と、学習データセット２と、知識データ３とを使用し、処理の結果として修正された発音辞書データ４（修正発音辞書データ）を作成し、出力するようになっている。これらの各データは、例えば、磁気ハードディスク装置などに記録されている。また、閾値記憶部７は、例えば、書き換え可能な半導体リードライトメモリ（半導体ＲＷＭ）によって構成される。

発音辞書修正装置１００が使用するデータの概略は、次の通りである。
発音辞書データ１は、音声認識や音声合成などといった音声処理に用いるための辞書のデータであり、単語の文字での表記と、その単語の読みとの関係を表わす。発音辞書データ１の詳細については後述する。
学習データセット２は、過去に実際に発話された音声とその音声に対応する書き起こし文を含むデータである。
知識データ３は、発音アクセント辞典や用字用語辞典など、単語の表記と読みの情報を含むデータであり、音声処理のための信頼できるデータである。

発音辞書修正装置１００内の閾値記憶部７は、削除対象エントリ抽出部８が削除対象エントリを抽出する処理で使用するための閾値（第一閾値）を記憶するために用いられる。
また、各処理部の概略は、次の通りである。
学習データセット処理部５は、学習データセット２に含まれる音声（またはその読みのデータ）と対応する書き起こし文とのアライメント処理を行なうことによって、形態素ごとの表記と読みとの組を抽出する。そして、これらの組について、標記と読みとの組み合わせの頻度をカウントすることによって、表記と読みと発生頻度との組をエントリとして有する処理済み学習データセット（頻度データ）を作成する。
知識データ処理部６は、外部から読み込む知識データ３に基づき、表記と読みとの組を信頼エントリとして保持する（処理済み知識データ）。
削除対象エントリ抽出部８は、上記の処理済み学習データセットを読み込み、閾値記憶部から閾値を読み込み、この閾値を用いて、処理済み学習データセットの中から削除対象エントリを抽出する。
辞書修正処理部９は、発音辞書データ１から、削除対象エントリ抽出部８によって抽出された削除対象エントリに対応するデータを削除して、修正発音辞書データ４を作成する。

次に、発音辞書修正装置１００が使用する主要なデータについて説明する。
図２は、発音辞書データ１の構成及びそのデータ例を示す概略図である。図示するように、発音辞書データ１は表記と読みとの対応関係を表わす組を有するデータであり、本実施形態では、２次元の表形式のデータとして構成されている。この図に示すデータ例では、「家」という表記が存在し、この表記「家」に対しては４種類の読み「ｉｅ」と「ｋａ」と「ｋｅ」と「ｃｈｉ」が存在している。また、「宇宙」という表記が存在し、この表記「宇宙」に対しては２種類の読み「ｕｃｈｕ：」と「ｓｏｒａ」が存在している。ここで、読みは、ローマ字表記で表現されている。また、読み「ｕｃｈｕ：」の中の「：」は、日本語の長音を表わしている。

図３は、学習データセット２を基に学習データセット処理部５が処理した結果である処理済み学習データセット（頻度データ）の構成及びそのデータ例を示す概略図である。図示するように、処理済み学習データセットは、表記と、読みと、当該表記および当該読みが発生する頻度である発生頻度との組をエントリとして有する表形式のデータである。

この図に示すデータ例では、表記「家」に対応する読み「ｉｅ」の元の学習データ内における発生頻度が「６１３」であったことを表わしている。同様に、表記「家」に対応する読み「ｋａ」の発生頻度が「３８」、表記「家」に対応する読み「ｋｅ」の発生頻度が「２９」、表記「家」に対応する読み「ｃｈｉ」の発生頻度が「０」、表記「宇宙」に対応する読み「ｕｃｈｕ：」の発生頻度が「１７４」、表記「宇宙」に対応する読み「ｓｏｒａ」の発生頻度が「０」となっている。

図４は、処理済み学習データセットなどを基に削除対象エントリ抽出部８が抽出した削除対象エントリデータの構成およびそのデータ例を示す概略図である。図示するように、この削除対象エントリデータの形式は、上述した処理済み学習データと同様である。また、この図の例では、削除対象エントリデータには、表記「家」と読み「ｃｈｉ」と発生頻度「０」の組や、表記「宇宙」と読み「ｓｏｒａ」と発生頻度「０」の組が含まれている。これらは、表記「家」と読み「ｃｈｉ」の組や、表記「宇宙」と読み「ｓｏｒａ」の組が、発音辞書データから削除する対象であることを表わしている。なお、削除対象エントリデータは、頻度の項目を持たせず、表記と読みの項目のみで構成するようにしても良い。

次に、発音辞書修正装置１００の各部による処理手順の詳細について説明する。
知識データ処理部６は、知識データ３を読み込み、この知識データ３を基に単語の表記と読みの組を抽出し、この組を信頼エントリとする。そして、これらの信頼エントリを有する処理済み知識データを出力する。前述の通り、知識データ３は、例えば発音アクセント辞典や用字用語辞典などであり、これらに含まれる単語の表記と読みを信頼エントリとして抽出することは妥当である。

図５は、学習データセット処理部５による処理の手順を示すフローチャートである。この図において、矢印つきの実線は処理の制御の流れを表わし、矢印つきの破線はデータの流れを表わす。ここでのデータの流れとは、各処理が記憶装置等から読み込んだり記憶装置等に書き出したりする際のデータの流れである。

図示するように、学習データセット処理部５は、ステップＳ０１において、発音辞書データ１を参照しながら学習データセット２のアライメント処理を行い、その結果、表記と読みのセットを抽出し、表記と読みのデータセット２ａを作成する。より具体的には、このアライメント処理では、発音辞書データ１や音響モデルを用いたビタビサーチにより、実際の発話に含まれる形態素ごとの表記とその読みのセットを抽出する。但し、学習データセット２が音声と書き起こし文に加えて予めその文に対応する読みのテキストを含む場合には、アライメント処理を行なう代わりに、学習データの書き起こし文を形態素解析するとともに文の読みのテキストを利用して、各形態素の表記と読みのセットを抽出するようにしても良い。

次に、学習データセット処理部５は、ステップＳ０２において、上で作成した表記と読みのデータセット２ａを基に、元の学習データセット２内における各表記に対する読みの発生頻度を計算し、表記と読みの組に当該組の発生頻度の情報を負荷した処理済み学習データセット２ｂを出力する。この処理済み学習データセット２ｂについては、既に図３を参照して説明したとおりである。

図６は、削除対象エントリ抽出部８による処理の手順を示すフローチャートである。この図においても、上の図と同様に、矢印つきの実線は処理の制御の流れを表わし、矢印つきの破線はデータの流れを表わす。
削除対象エントリ抽出部８は、まずステップＳ１１において、処理済み学習データセット２ｂと、処理済み知識データ３ａとを読み込み、処理済み学習データセット内をサーチし、そして、削除対象エントリ抽出部８によってまだ処理されていない表記を抽出する。

削除対象エントリ抽出部８は、次にステップＳ１２において、閾値記憶部７から閾値（第一閾値）を読み出す。そして、処理済み学習データセット２ｂから抽出されたエントリであって当該表記に該当するエントリの中に、（頻度）≧（閾値記憶部７から読み出した閾値）となる読みのエントリがあるかどうかを判断する。この判断の結果、もしそのようなエントリが１つもなければ（ステップＳ１２：ＮＯ）、当該表記の処理を終え、次の表記を抽出するためにステップＳ１１に戻る。上記判断の結果、もしそのようなエントリが１つ以上あれば（ステップＳ１２：ＹＥＳ）、次のステップＳ１３に進む。
削除対象エントリ抽出部８は、次にステップＳ１３において、当該表記において発生頻度が「０」回の読みのエントリを抽出し（つまり、第二閾値が「０」の場合、頻度が第二閾値以下の読みを抽出することと同じ）、そのようなエントリをすべて、削除対象エントリデータ２ｃに追加する。

つまり、これらステップＳ１２およびＳ１３の処理によって、削除対象エントリ抽出部８は、発生頻度が第一閾値以上であるエントリが存在する表記に関して、その表記を有して且つ発生頻度が所定の第二閾値以下となるようなエントリを、削除対象エントリとして抽出することになる。

削除対象エントリ抽出部８は、次にステップＳ１４において、処理済み学習データセット２ｂ内のサーチを全て終了したかどうかを判断する。この判断の結果、まだ全てを終了していなければ（ステップＳ１４ＮＯ）、当該表記の処理を終え、次の表記を抽出するためにステップＳ１１に戻る。上記判断の結果、もし全てサーチを終了していれば（ステップＳ１４：ＹＥＳ）、削除対象エントリ抽出部８は、このフローチャートに示した処理手順を終了する。

上記のような削除対象エントリ抽出部８の処理の結果、削除対象エントリデータ２ｃには、削除対象とすべき表記と読みの組のエントリが蓄積される。

辞書修正処理部９は、削除対象エントリ抽出部８によって出力された削除対象エントリデータ２ｃを用いて、表記と読みとの組を有する発音辞書データ１から、削除対象エントリに該当するデータを削除して、修正された発音処理データ４（修正発音辞書データ）を作成する。但し、このとき、削除対象エントリ抽出部８から渡された処理済み知識データ３ａの中に信頼エントリが存在する場合には、辞書修正処理部９は、たとえ削除対象エントリに該当するデータであっても、信頼エントリに該当するデータは、知識データ３に基づく基本的な読みにあたるものであるため、削除対象から除外する。言い換えれば、辞書修正処理部９は、削除対象エントリと信頼エントリの両方に含まれるデータを、発音辞書データからの削除対象から除外する。

なお、本実施形態の発音辞書修正装置１００における以上の一連の処理について、データの実例を参照しながら説明すると、以下の通りとなる。閾値記憶部７において設定されている閾値が「１００」である場合、図３に示した処理済み学習データセット内では、表記「家」と読み「ｉｅ」の組の発生頻度が「６１３」であるため、表記「家」については（頻度）≧（閾値記憶部７から読み出した閾値）となる読みが存在する。また、そのような表記「家」に対して、読み「ｃｈｉ」の発生頻度は「０」であるため、この表記「家」と読み「ｃｈｉ」の組は削除対象エントリに含まれることとなる。同様に、図３に示した処理済み学習データセット内では、表記「宇宙」と読み「ｕｃｈｕ：」の組の発生頻度が「１７４」であるため、表記「宇宙」については（頻度）≧（閾値記憶部７から読み出した閾値）となる読みが存在する。また、そのような表記「宇宙」に対して、読み「ｓｏｒａ」の発生頻度は「０」であるため、この表記「宇宙」と読み「ｓｏｒａ」の組は削除対象エントリに含まれることとなる。

また、閾値記憶部７において設定されている閾値が「２００」である場合は、表記「家」と読み「ｉｅ」の組の発生頻度が「６１３」であるため、表記「家」については（頻度）≧（閾値記憶部７から読み出した閾値）となる読みが存在する。よって、閾値が「１００」の場合と同様に、表記「家」と読み「ｃｈｉ」の組は削除対象エントリに含まれることとなる。一方で、閾値記憶部７において設定されている閾値が「２００」である場合は、表記「宇宙」については（頻度）≧（閾値記憶部７から読み出した閾値）となる読みが図３に例示するデータ中には存在しないため、表記「宇宙」と読み「ｓｏｒａ」の組は、削除対象エントリとしては抽出されない。

［第２の実施の形態］
次に第２の実施形態について、図面を参照しながら説明する。この第２の実施形態が前述した実施形態と異なる特徴的な点は、ある閾値（第一閾値）を用いて作成した修正発音辞書データを用いて、テストデータの発音決定を実際に行ない、既知の読みからその決定された発音の正解率を算出し、この正解率に応じて、適応的に閾値の決定を行なう点である。
本実施形態の発音辞書修正装置は、最適な結果を得るための第一閾値を適切に決めることが困難であるというさらなる課題を解決するものである。

図７は、本実施形態による発音辞書修正装置の機能構成を示すブロック図である。
図示するように、本実施形態による発音辞書修正装置１０１は、学習データセット処理部５と、知識データ処理部６と、削除対象エントリ抽出部８と、辞書修正処理部９と、テストデータ記憶部２０と、発音決定部２１と、正解率データ記憶部２２と、閾値決定部２３と、閾値記憶部２７とを含んで構成される。第１の実施形態における発音辞書修正装置１００と同様の構成（発音辞書データ１、学習データセット２、知識データ３、修正された発音辞書データ４、学習データセット処理部５、知識データ処理部６、削除対象エントリ抽出部８、辞書修正処理部９）についてはここでは説明を省略し、本実施形態特有の構成及び処理について以下で説明する。

テストデータ記憶部２０は、テストデータを記憶する。このテストデータは、テスト用の音声と、この音声に対応して与えられる正解の読みのデータとを含んでいる。
発音決定部２１は、辞書修正処理部９によって作成された修正された発音辞書データ４を用いて音声認識処理を行なうことにより、テストデータ記憶部２０から読み出したテストデータ（音声）の読みを決定するとともに、ここで決定された読みとテストデータ記憶部２０から読み出した正解の読みのデータとを比較することによって、上記決定された読みの正解率を算出する。ここでの正解率とは、例えば、両データの形態素単位での対応関係をとり、決定された読みのデータの各形態素が正解データの形態素に合っているかどうかを判断して、合っている形態素の割合を計算することによって算出する。なお、発音決定部２１における音声認識処理は、既存技術を用いて行なう。

正解率データ記憶部２２は、発音決定部２１によって算出された正解率のデータを一時的に記憶するものであり、例えば、半導体リードライトメモリを用いて実現される。
閾値決定部２３は、上記の正解率のデータを正解率データ記憶部２２から読み出し、この正解率に応じて、閾値（第一閾値）を決定して閾値記憶部２７を書き換える。
閾値記憶部２７は、現在の閾値を記憶するものであり、閾値決定部２３によって書き込まれ、削除対象エントリ抽出部８によって参照される。

次に、発音辞書修正装置１０１による処理の手順を説明する。図８は、その処理手順を示すフローチャートである。
このフローチャートのステップＳ４１において、閾値決定部２３が、閾値（第一閾値）の初期値θ_０を決定する。この初期値θ_０は、例えば学習データセット２のサイズなどに応じて適宜決めればよく、例えばθ_０＝１００００とする。決定された閾値は、閾値記憶部２７に書き込まれる。
また、ここで、正解率の初期値α_０を便宜的に０としておく。

以下、ステップＳ４２からＳ４８までの処理は、ステップＳ４６において終了条件が成立するまで繰り返されるループである。
ステップＳ４２において、発音辞書修正装置１０１は、発音辞書データを初期状態にする。つまり、このフローチャートで示す繰り返し処理によって、前回、発音辞書データのエントリの一部が削除された状態の修正された発音辞書データ４が作成されていた場合も、このステップＳ４２において、それらのエントリを削除する前の状態に一旦戻される。

次に、ステップＳ４３において、削除対象エントリ抽出部８が、削除対象エントリを抽出する処理を行なう。このとき、削除対象エントリ抽出部８は、閾値記憶部２７に記憶されている現閾値を読み出して使用する。なお、削除対象エントリ抽出までの、学習データセット５と知識データ処理部６による処理は、第１実施形態におけるそれらと同様である。

次に、ステップＳ４４において、ステップＳ４３で抽出された削除対象エントリに基づいて、辞書修正処理部９が、発音辞書データを修正し、修正された発音辞書データ４を作成・出力する。なお、この部分の処理は、第１実施形態におけるそれと同様である。また、この際、処理済み知識データに含まれる信頼エントリに対応するデータは発音辞書データからは削除されない点も、第１実施形態の場合と同様である。

次に、ステップＳ４５において、発音決定部２１が、テストデータ記憶部２０からテストデータである音声を読み出し、修正された発音辞書データ４を用いて当該音声の発音決定を行なうとともに、当該音声に対応する正解の読みデータを用いて、決定した発音の正解率α_ｋを算出する。ここで、α_ｋは繰り返し処理においてｋ回目（ｋ＝１，２，・・・・・・）に算出した正解率であり、０≦α_ｋ≦１である。算出された正解率は、正解率データ記憶部２２に書き込まれる。

次に、ステップＳ４６において、閾値決定部２３が、今回正解率が前回正解率より低いかどうかを判断する。つまり、α_ｋ＜α_ｋ−１であるかどうかを判断する。なお、ｋ＝１のときは前回正解率がないため、上で便宜的に定めた初期値α_０（＝０）を使用する。この判断結果が肯定的である場合は、閾値の適応化が既に充分に行なわれたことを意味し、よってこのフローチャート全体の処理を終了する。上記の判断結果が否定的である場合は、閾値の適応化を更に行なう余地があることを意味し、よって次のステップＳ４７に進む。

次に、ステップＳ４７に進んだ場合には、同ステップにおいて、閾値決定部２３が前回に決定した閾値θ_ｋ−１と今回算出された正解率α_ｋに基づき、次回閾値θ_ｋを決めるための閾値変化量Δθを決定する。具体的には、次回閾値変化量Δθ＝μ・（１−α_ｋ）・θ_ｋ−１とする。ここで、μは適宜設定された正定数である。つまり、次回閾値変化量Δθは、前回閾値に比例するとともに、今回不正解率（１−α_ｋ）に比例するようにしている。言い換えれば、今回正解率が低いほど閾値変化量Δθが大きくなり、逆に今回正解率が高いほど閾値変化量Δθが小さくなるようにしている。

次に、ステップＳ４８において、閾値決定部２３は、ステップＳ４７で決定した閾値変化量Δθを用いて次回閾値θ_ｋを決定し、閾値記憶部２７を更新する。具体的には、次回閾値θ_ｋ＝θ_ｋ−１−Δθとする。つまり、θ_ｋ＝θ_ｋ−１−μ・（１−α_ｋ）・θ_ｋ−１とする。

なお、ステップＳ４６で終了条件を判定しているが、この流れの処理を行なった場合、ステップＳ４６における前回正解率α_ｋ−１が正解率における極大値となる。よってこの前回正解率α_ｋ−１に対応する閾値を採用すると良い。
このフローチャートに示した処理手順によれば、正解率が高くなるように、適応的に閾値を変化させているため、最終的に好適な閾値を得ることができる。
また、この処理手順によれば、正解率が低いほど閾値変化量を大きくしているため、正解率が低い領域では正解率が収束方向に向かう速さを上げることができる。また、正解率が高いほど閾値変化量を小さくしているため、正解率が収束に近付いた領域では、より良い正解率を得るために閾値を微調整することができる。
なお、この処理手順では、閾値の初期値を大きめに設定しておいて繰り返し処理に従って閾値を徐々に小さくする方向に変化させているが、逆に、閾値の初期値を小さめに設定しておいて閾値を徐々に大きくする方向に変化させても良い。

次に、本発明による発音辞書修正装置を音声処理に応用した、複数の実施形態について説明する。

［第３の実施の形態］
第３の実施形態は、発音辞書修正装置を音声認識処理に適用したものである。
図９は、本実施形態による音声認識システムの機能構成を示すブロック図である。図示するように、音声認識システム２０１は、入力文書データ５１と、音響分析部５２と、デコーダ部５３と、認識結果データ５４と、発音辞書データ１Ａと、発音辞書修正装置１００Ａと、修正された発音辞書データ４Ａとを含んで構成される。

ここで、発音辞書修正装置１００Ａは、第１あるいは第２の実施形態で説明した発音辞書修正装置と同様のものあるいはその変形実施例である。この発音辞書修正装置１００Ａは、発音辞書データ１Ａから、削除対象のエントリを削除したものである修正された発音辞書データ４Ａを作成・出力する。音響分析部５２は、入力音声データ５１の音響特徴量を抽出する。デコーダ部５３は、修正された発音辞書データ４Ａを用いて、音響分析部５２によって抽出された音響特徴量から認識結果を決定して認識結果データ５４を出力する。この音声認識システム２０１は、修正された発音辞書データ４Ａを用いてデコード処理をしているため、辞書検索による時間を削減できるとともに、正解率の高い認識結果を出力することが可能となる。

［第４の実施の形態］
第４の実施形態は、発音辞書修正装置を音声合成処理に適用したものである。
図１０は、本実施形態による音声合成システムの機能構成を示すブロック図である。図示するように、音声合成システム２０２は、入力文書データ６１と、テキスト解析部６２と、音声合成処理部６３と、合成音を表わす合成結果（データ）６４と、発音辞書データ１Ｂと、発音辞書修正装置１００Ｂと、修正された発音辞書データ４Ｂとを含んで構成される。

発音辞書修正装置１００Ｂは、第１あるいは第２の実施形態で説明した発音辞書修正装置と同様のものあるいはその変形実施例である。この発音辞書修正装置１００Ｂは、発音辞書データ１Ｂから、削除対象のエントリを削除したものである修正された発音辞書データ４Ｂを作成・出力する。テキスト解析部６２は、修正された発音辞書データ４Ｂを用いて、入力文書データ６１に含まれる文書の読みやアクセントを決定する。音声合成処理部６３は、テキスト解析部６２によって決定された読みやアクセントに基づいて音声合成処理を行い、その結果を合成音として出力、あるいは合成音データとして出力する。この音声合成システム２０２は、修正された発音辞書データ４Ｂを用いてテキスト解析処理をして読みを決定しているため、辞書検索による時間を削減できるとともに、正解率の高い読みおよびアクセントを決定することができ、その結果としてより精度の高い合成音を出力することが可能となる。

なお、上述した各実施形態における発音辞書修正装置、音声認識システム、音声合成システムの機能をコンピュータで実現するようにしても良い。その場合、各処理部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、図２の発音辞書データや、図３の処理済み学習データセットや、図４の削除対象エントリデータは、表形式のデータとして図示し説明したが、データの形式はこれに限られず他の形式を用いてもよい。他の形式とは、例えば、オブジェクト指向データベースやＸＭＬデータベースなどの形式である。
また、発音辞書データからエントリを削除する際に、削除対象エントリから信頼エントリを除外することとしているが、このように信頼エントリを削除対象から除外する処理は、削除対象エントリ抽出部８で行なっても良いし、辞書修正処理部９で行なってもよい。
また、削除対象エントリ抽出部８が削除対象エントリを抽出する際に用いる第二閾値は、０とすることが好適であるが、０以外の数値でもよい。また、第二閾値を、固定的な値とするのではなく、当該表記における読みの中の最大発生頻度に所定比率（例えば０．１％）を乗じたものとするなど、相対的な値としてもよい。

＜実験結果＞
本発明の発明者らは、実際に大語彙発音辞書データを用いた音声認識の実験を行なった。修正前の発音辞書データには、誤りのエントリも含まれていた。そのような発音辞書データを用いて、放送番組の音声をテストデータとして入力してその発音（読み）を決定し、その正解率を算出した。また、本発明による発音辞書修正装置を用いて、発音辞書データの修正を行ない、修正された発音辞書データを用いて同テストデータの読みを決定し、その正解率を算出した。発音辞書データの修正前後での正解率を比較したところ、修正後の正解率のほうが高い結果が出て、本発明の有効性を確認できた。実験の具体例としては、約８万５千のエントリを持つ発音辞書から、本発明による発音辞書修正装置を用いて発音辞書データの修正を行うことにより、約２００のエントリ（一例としては、前述した、表記が「宇宙」で読みが「ｓｏｒａ」といったエントリ）が削除され、誤り率が０．１％削減された。つまり、発音辞書が改善された。

本発明は、放送番組の字幕制作、音声対話システム、会議議事録の音声認識による自動書き起こし、音声合成などの音声処理性能の向上に寄与し、音声処理や言語処理を利用するさまざまな分野の技術に適用可能である。

本発明の第１の実施形態による発音辞書修正装置の機能構成を示したブロック図である。同実施形態による発音辞書データの構成及びそのデータ例を示す概略図である。同実施形態による処理済み学習データセット（頻度データ）の構成及びそのデータ例を示したブロック図である。同実施形態による削除対象エントリデータの構成及びそのデータ例を示したブロック図である。同実施形態の学習データセット処理部による処理の手順を示したフローチャートである。同実施形態による削除対象エントリ抽出部による処理の手順を示したブロック図である。本発明の第２の実施形態による発音辞書修正装置の機能構成を示したブロック図である。同実施形態により適応的に閾値を決定するための処理の手順を示したフローチャートである。本発明の第３の実施形態（発音辞書修正装置の適用例）による音声認識システムの機能構成を示したブロック図である。本発明の第４の実施形態（発音辞書修正装置の適用例）による音声合成システムの機能構成を示したブロック図である。

符号の説明

１，１Ａ，１Ｂ発音辞書データ
２学習データセット
３知識データ
４，４Ａ，４Ｂ修正された発音辞書データ（修正発音辞書データ）
５学習データセット処理部
６知識データ処理部
７，２７閾値記憶部
８削除対象エントリ抽出部（削除対象エントリ抽出処理過程）
９辞書修正処理部（辞書修正処理過程）
２０テストデータ記憶部
２１発音決定部
２２正解率データ記憶部
２３閾値決定部
５１入力文書データ
５２音響分析部
５３デコーダ部
５４認識結果データ
６１入力文書データ
６２テキスト解析部
６３音声合成処理部
６４合成結果（合成音）
１００，１００Ａ，１００Ｂ，１０１発音辞書修正装置（辞書修正装置）
２０１音声認識システム
２０２音声合成システム

Claims

第一閾値を記憶する閾値記憶部と、
表記と、読みと、当該表記および当該読みが発生する頻度である発生頻度との組をエントリとして有する頻度データを読み込み、前記閾値記憶部から前記第一閾値を読み込み、前記発生頻度が前記第一閾値以上である前記エントリが存在する前記表記に関して、その表記を有して且つ前記発生頻度が所定の第二閾値以下となるような前記エントリを、削除対象エントリとして抽出する削除対象エントリ抽出部と、
表記と読みとの組を有する発音辞書データから、前記削除対象エントリ抽出部によって抽出された前記削除対象エントリに対応するデータを削除して、修正発音辞書データを作成する辞書修正処理部と、
を具備することを特徴とする辞書修正装置。
請求項１に記載の辞書修正装置において、
発話された音声の書き起こし文と、前記発話された音声に対応する読みとから、形態素ごとの表記と読みとの組を抽出し、これら複数の組を基に、表記と、読みと、当該表記および当該読みが発生する頻度である発生頻度との組をエントリとして有する頻度データを作成する学習データセット処理部をさらに具備し、
前記削除対象エントリ抽出部は、前記学習データセット処理部が作成した前記頻度データを読み込んで、前記削除エントリを抽出する処理を行なう、
ことを特徴とする辞書修正装置。
請求項１または２に記載の辞書修正装置において、
外部から読み込む知識データに基づく、表記と読みとの組を信頼エントリとして保持する知識データ処理部をさらに具備し、
前記辞書修正処理部は、前記削除対象エントリと前記信頼エントリの両方に含まれるデータを発音辞書データからの削除対象から除外する、
ことを特徴とする辞書修正装置。
請求項１から３までのいずれか一項に記載の辞書修正装置において、
前記修正発音辞書データを用いてテストデータである音声の読みを決定するとともに、前記テストデータである音声に対応して与えられる正解の読みのデータを用いて、上で決定された読みの正解率を算出する発音決定部と、
前記発音決定部によって算出された前記正解率に応じて、新たな第一閾値を決定して前記閾値記憶部を書き換える閾値決定部と、
をさらに具備することを特徴とする辞書修正装置。
請求項１から４までのいずれか一項に記載の辞書修正装置と、
入力音声データの音響特徴量を抽出する音響分析部と、
前記辞書修正装置によって修正された修正発音辞書データを用いて、前記音響特徴量から認識結果を決定して認識結果データを出力するデコーダ部と、
を具備することを特徴とする音声認識システム。
請求項１から４までのいずれか一項に記載の辞書修正装置と、
前記辞書修正装置によって修正された修正発音辞書データを用いて、入力文書データから読みを決定するテキスト解析部と、
前記テキスト解析部によって決定された読みを合成音として出力する音声合成処理部と、
を具備することを特徴とする音声合成システム。
第一閾値を記憶する閾値記憶部を備えるコンピュータに、
表記と、読みと、当該表記および当該読みが発生する頻度である発生頻度との組をエントリとして有する頻度データを読み込み、前記閾値記憶部から前記第一閾値を読み込み、前記発生頻度が前記第一閾値以上である前記エントリが存在する前記表記に関して、その表記を有して且つ前記発生頻度が所定の第二閾値以下となるような前記エントリを、削除対象エントリとして抽出する削除対象エントリ抽出処理過程と、
表記と読みとの組を有する発音辞書データから、前記削除対象エントリ抽出過程によって抽出された前記削除対象エントリに対応するデータを削除して、修正発音辞書データを作成する辞書修正処理過程と、
の処理を実行させるコンピュータプログラム。