JP4758758B2

JP4758758B2 - 辞書作成装置および辞書作成プログラム

Info

Publication number: JP4758758B2
Application number: JP2005371362A
Authority: JP
Inventors: 彰夫小林; 亨今井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2005-12-26
Filing date: 2005-12-26
Publication date: 2011-08-31
Anticipated expiration: 2025-12-26
Also published as: JP2007171724A

Description

この発明は、音声認識に用いられる言語モデルを作成するための辞書に属する単語を用いた学習テキストに基づいて、辞書を更新して作成する辞書作成装置および辞書作成プログラムに関する。

音声認識装置として、例えば、生の音声データ等が入力された場合に、音響モデル、言語モデルを利用して、この音声データ等を認識し、その認識結果を出力単語列として生成する装置が知られている。ここで、言語モデルとは、大量の音声データを利用して統計的計算手法によって求められた、音声データ中の単語間のつながり度合いを示す確率モデルの一種（接続確率）である。また、音響モデルとは、大量の音声データの波形パターンに基づいて求められた、音声データ中の波形パターンと単語との関係を示す確率モデルの一種である。

このうち、言語モデルは、複数の単語からなる辞書（語彙）に基づいて作成されている。通常、辞書は、単語（日本語ならば、自立語、付属語）を基盤としているが、音声認識装置における単語認識率を向上させるために、２つ以上の連続した単語を含む単語列から構成される複合語をさらに追加登録した辞書も存在する。従来、このような複合語を、通常の辞書に追加登録することによって、予め定められた登録語数の辞書を作成する場合に、辞書を基盤として予め作成された学習テキスト（例えば、ニュース原稿など）から、どのような複合語を選択して辞書に追加するかという基準が知られている（例えば、非特許文献１参照）。

この基準として、選択すべき複合語を、学習テキストにおける出現頻度の高い単語列とする方法（以下、出現頻度による方法という）と、学習テキストに採用した場合にエントロピー（単語の複雑性を示す指標、または、音声認識の難しさを示す指標）を減少させることのできる単語列とする方法（以下、エントロピーによる方法という）とのいずれか一方が一般的に採用されている。このうち、出現頻度による方法によれば、学習テキストに数多く出現する単語列が、追加登録すべき複合語の候補として優先的に抽出される。また、エントロピーによる方法によれば、複雑性の低い単語列（音声認識の容易な単語列）が、追加登録すべき複合語の候補として優先的に抽出される。
和田陽介、外３名、「大語彙連続音声認識における連鎖語の追加による語彙拡大の効果」、情報処理学会論文誌、社団法人情報処理学会、1999年、第40巻、第４号、p.1413−1420

一般的に、音声認識装置における単語認識率を向上させるためには、学習テキストにおけるエントロピーを減少させるような言語モデルを作成することが望ましい。しかしながら、出現頻度による方法で辞書を作成した場合には、学習テキストにおけるエントロピーを下げることができるとは限らない。つまり、複雑性の高い単語列（音声認識の難しい単語列）が選択される場合がある。そのため、この作成した辞書に基づいて言語モデルを作成した場合、音声認識装置における単語認識率が改善されない可能性がある。

一方、エントロピーによる方法で辞書を作成した場合には、学習テキストにおける出現頻度が高い単語列が必ずしも選択されるとは限らない。つまり、学習テキストに稀にしか出現しない単語列が選択される場合がある。そのため、この作成した辞書に基づいて言語モデルを作成した場合、音声認識装置における単語認識率を効果的に向上させるとは限らない。

本発明は、以上のような問題点に鑑みてなされたものであり、音声認識における利用された場合に、単語認識率を向上させることができる辞書を作成する辞書作成装置および辞書作成プログラムを提供することを目的とする。

前記目的を達成するために、本発明の請求項１に記載の辞書作成装置は、音声認識に用いられる言語モデルを作成するための辞書に属する単語を用いた文章に対して形態素解析された結果である単語区切りが予め付与されたテキストデータに基づいて、前記辞書を更新して作成する辞書作成装置であって、出現頻度計算手段と、エントロピー計算手段と、辞書更新手段と、判別手段と、テキストデータ更新手段と、を備えることとした。

かかる構成によれば、辞書作成装置は、出現頻度計算手段によって、前記テキストデータに出現する連続した２つ以上の単語からなる単語列の前記テキストデータにおける出現頻度を、前記テキストデータにおける所定数の前記単語列についてそれぞれ計算する。なお、所定数は、テキストデータの全体またはその一部で定められる個数である。そして、辞書作成装置は、エントロピー計算手段によって、出現頻度計算手段で計算された所定数の出現頻度のうち、当該出現頻度が上位で前記所定数より少ない第２の所定数の単語列について、前記テキストデータにおいて、１つの単語列を複数の単語ω _ａｉ，ω _ｂｉとみなしたときのエントロピーＨ′（ｃ _ｉ）と、１つの単語列を１つの単語ｃ _ｉとみなしたときのエントロピーＨ（ｃ _ｉ）との差分ΔＨ（ｃ _ｉ）を式（５）で計算し、前記差分ΔＨ（ｃ _ｉ）が前記第２の所定数の単語列の中で最大となる単語列を抽出する。ここで、エントロピーとは、単語の複雑性を示す指標、または、音声認識の難しさを示す指標であり、エントロピーが高いほど、単語の複雑性が増す、または、音声認識が難しくなる。そして、辞書作成装置は、辞書更新手段によって、エントロピー計算手段で抽出された単語列を１つの単語とみなした複合語として前記辞書に追加して、当該辞書を更新する。これによって、辞書が作成される。

また、辞書作成装置は、判別手段によって、辞書更新手段が辞書に追加した複合語の個数が第３の所定数であるか否かを判別し、追加された複合語の個数が第３の所定数に達していない場合、テキストデータの更新を指示する。そして、辞書作成装置は、テキストデータ更新手段によって、判別手段から更新を指示された場合、辞書更新手段で更新された辞書、または、エントロピー計算手段で抽出された単語列に基づいて、予め作成されたテキストデータに付与された単語区切りを更新することによってテキストデータを更新する。これによって、辞書作成装置は、出現頻度計算手段によって、更新されたテキストデータから単語列を選択し、エントロピー計算手段によって、エントロピーの差分が最大となる単語列を抽出し、辞書更新手段によって、複合語を辞書に追加することができる。そして、複合語の候補としての単語列の選択、抽出、複合語の追加というこの一連の処理を繰り返すことにより、複数の複合語を辞書に追加することができる。このとき、エントロピーの差分の大きい順番に正確に複合語を１つずつ選択することができる。その結果、音声認識に効果があると考えられる複合語を漏らすことなく複数の複合語を抽出することができる。

また、請求項２に記載の辞書作成装置は、請求項１に記載の辞書作成装置において、前記テキストデータは、前記単語区切りと共に、係り受け解析された結果である文節区切りをさらに予め付与され、前記出現頻度計算手段が、前記単語列として、文節の境界を含まないものを選択することを特徴とする。

かかる構成によれば、辞書作成装置は、出現頻度計算手段によって、文節の境界を含まない単語列を選択して辞書を作成する。したがって、この作成された辞書が音声認識における言語モデルに採用された場合には、この文節境界を含む単語間において小休止によって生じる雑音の影響を排除する。一般に、発話における小休止は、文節内の単語間よりもむしろ文節境界を含む単語間に置かれることが多いと考えられる。したがって、この辞書作成装置によれば、単語認識率を向上させることができる。

また、請求項３に記載の辞書作成プログラムは、音声認識に用いられる言語モデルを作成するための辞書に属する単語を用いた文章に対して形態素解析された結果である単語区切りが予め付与されたテキストデータに基づいて、前記辞書を更新して作成するために、コンピュータを、出現頻度計算手段、エントロピー計算手段、辞書更新手段、判別手段、テキストデータ更新手段として機能させることを特徴とする。

かかる構成によれば、辞書作成プログラムは、出現頻度計算手段によって、前記テキストデータに出現する連続した２つ以上の単語からなる単語列の前記テキストデータにおける出現頻度を、前記テキストデータにおける所定数の前記単語列についてそれぞれ計算する。そして、辞書作成プログラムは、エントロピー計算手段によって、出現頻度計算手段で計算された所定数の出現頻度のうち、当該出現頻度が上位で前記所定数より少ない第２の所定数の単語列について、前記テキストデータにおいて、１つの単語列を複数の単語ω _ａｉ，ω _ｂｉとみなしたときのエントロピーＨ′（ｃ _ｉ）と、１つの単語列を１つの単語ｃ _ｉとみなしたときのエントロピーＨ（ｃ _ｉ）との差分ΔＨ（ｃ _ｉ）を式（５）で計算し、前記差分ΔＨ（ｃ _ｉ）が前記第２の所定数の単語列の中で最大となる単語列を抽出する。そして、辞書作成プログラムは、辞書更新手段によって、エントロピー計算手段で抽出された単語列を１つの単語とみなした複合語として前記辞書に追加して、当該辞書を更新する。そして、辞書作成プログラムは、判別手段によって、辞書更新手段が辞書に追加した複合語の個数が第３の所定数であるか否かを判別し、追加された前記複合語の個数が前記第３の所定数に達していない場合、前記テキストデータの更新を指示する。そして、辞書作成プログラムは、テキストデータ更新手段によって、前記判別手段から更新を指示された場合、前記辞書更新手段で更新された辞書、または、前記エントロピー計算手段で抽出された単語列に基づいて、前記テキストデータに付与された前記単語区切りを更新する。

請求項１または請求項３に記載の発明によれば、予め作成されたテキストデータにおいて出現が期待され、かつ、このテキストデータにおけるエントロピーを下げるような単語列を複合語として選択して辞書を作成するので、作成された辞書によって、音声認識における単語認識率を向上させることが可能になる。

請求項１または請求項３に記載の発明によれば、複数の複合語を辞書に追加する場合に、最適な複合語を１つずつ順番に辞書に登録し、他の単語に与える影響を考慮して漏れのないように辞書を更新することができる。その結果、作成された辞書によって、音声認識における単語認識率を向上させることが可能になる。

請求項２に記載の発明によれば、文節の境界を含まない単語列を複合語として選択して辞書を作成するので、作成された辞書によって、発話に伴う小休止によって生じる雑音の影響を排除できる。その結果、音声認識における単語認識率を向上させることができる。

以下、本発明の実施の形態について図面を参照して説明する。
［音声認識システムの構成］
図１は、本発明の実施形態に係る辞書作成装置を含む音声認識システムの構成を示す機能ブロック図である。音声認識システム１は、辞書作成処理と、この作成された辞書を用いた言語モデル作成処理と、この作成された言語モデルを用いた音声認識処理とを実行するものであって、図１に示すように、学習テキストＤＢ１０と、辞書作成装置２０と、語彙ＤＢ（辞書）３０と、言語モデル作成装置４０と、言語モデル記憶手段５０と、音響モデル記憶手段６０と、音声認識装置７０とを備える。

学習テキストＤＢ１０は、音声認識に用いられる言語モデルを作成するための語彙ＤＢ（辞書）３０に属する単語を用いた文章に対して形態素解析された結果である単語区切りと、係り受け解析された結果である文節区切りとが予め付与された学習テキスト（テキストデータ）を記憶したものであって、ＨＤＤ（Hard Disk Drive）等の一般的な記録媒体である。なお、単語という場合、特に断らない限り、単語列も含んでいる。また、言語モデルとは、大量の音声データを利用して統計的計算手法によって求められた、音声データ中の単語間のつながり度合いを示す確率モデルの一種（接続確率）である。

この学習テキストＤＢ１０に記憶される学習テキストは、例えば、ニュース原稿あるいはニュース書き起こしなどのテキストデータである。この学習テキストは、事前に形態素解析により形態素（自立語や付属語などの単語）単位に分割されており、また、係り受け解析により文節区切りが付与されている。ここで、形態素とは、これ以上に細かくすると意味がなくなってしまう最小の文字列をいい、形態素解析とは、文章を形態素のレベルまで分解して解析することである。また、係り受け解析とは、文章を文節に区切ると共に、ある文節に含まれる着目している単語が、他の文節に含まれる単語にどのように係るかを、品詞毎に予め定められた係り可能性に基づいて解析することである。例えば、日本語の「今日の天気は晴れです」という文章に対して単語区切りと文節区切りとが付与されたテキストデータでは、「（今日／の／）（天気／は／）（晴れ／です）」等のように区切られている。なお、記号（）は文節区切りを示し、記号／は、単語区切りを示している。

辞書作成装置２０は、学習テキストＤＢ１０に基づいて、語彙ＤＢ（辞書）３０を更新して作成するものである。この辞書作成装置２０は、ＣＰＵ（Central Processing Unit）と、ＲＯＭ（Read Only Memory）と、ＲＡＭ（Random Access Memory）と、ＨＤＤと、入出力インターフェース等（図示を省略）とを備え、ＣＰＵがＨＤＤ等に格納されたプログラムをＲＡＭに展開することにより後記する各種機能を実現する。

語彙ＤＢ（辞書）３０は、音声認識に用いられる言語モデルを作成するための複数の単語（この体系を語彙という）を予め記憶したものであって、ＨＤＤ等の一般的な記録媒体である。以下、語彙ＤＢ（辞書）３０を単に辞書３０という場合もある。この辞書３０には、２つの連続した単語からなる単語列が追加登録される。この追加登録される単語列を複合語（または連鎖語）という。なお、辞書３０に予め記憶する語彙数は任意でよい。また、辞書３０に学習テキストＤＢ１０としての機能を含む（学習テキストを記憶する）ように構成してもよい。

言語モデル作成装置４０は、辞書３０に基づいて、統計的な処理により、言語モデル（統計的言語モデル、または、確率的言語モデル：例えば、「確率的言語モデル」北研二、東京大学出版会、ｐｐ．５７−６２参照）を作成し、作成した言語モデルを言語モデル記憶手段５０に格納するものである。この言語モデル作成装置４０は、ＣＰＵと、ＲＯＭと、ＲＡＭと、ＨＤＤと、入出力インターフェース等とを備え、ＣＰＵがＨＤＤ等に格納されたプログラムをＲＡＭに展開することにより言語モデル作成機能を実現する。なお、この言語モデルの作成に関しては、例えば、特開２００２−３６６１９０号公報に記載されている方法を適用することができる。

言語モデル記憶手段５０は、言語モデル作成装置４０で作成された言語モデルを記憶したものであって、ＨＤＤ等の一般的な記録媒体である。
音響モデル記憶手段６０は、大量の音声データの波形パターンに基づいて求められた、音声データ中の波形パターンと単語との関係を示す確率モデルの一種（音響的な特徴量）である音響モデルを音素ごとに記憶したものであって、ＨＤＤ等の一般的な記録媒体である。なお、音響モデルは、例えば、隠れマルコフモデル（ＨＭＭ）によるものである。

音声認識装置７０は、生の音声データや生の音声データから抽出された特徴量等が入力された場合に、言語モデル記憶手段５０および音響モデル記憶手段６０にそれぞれ記憶された言語モデルおよび音響モデルを利用して、入力された音声データや音声データの特徴量を認識し、その認識した結果を出力単語列（テキストデータ）として生成するものである。この音声認識装置７０は、ＣＰＵと、ＲＯＭと、ＲＡＭと、ＨＤＤと、入出力インターフェース等とを備え、ＣＰＵがＨＤＤ等に格納されたプログラムをＲＡＭに展開することにより後記する各種機能を実現する。具体的には、音声認識装置７０は、入力音声等から認識結果を得るために、一例として、図１に示すように、発音単語記憶手段７１と、音響分析手段７２と、音響スコア計算手段７３と、言語スコア計算手段７４と、単語候補検索手段７５と、テキストデータ変換手段７６とを備えている。

発音単語記憶手段７１は、音素（または音素列）を単語別に記憶したものであって、ＨＤＤ等の一般的な記録媒体である。
音響分析手段７２は、入力装置Ｍから入力された音声から音素ごとの特徴量を抽出し、音響スコア計算手段７３に出力するものである。ここで、音素ごとの特徴量とは、例えば、各個人で異なる声の性質を示す指標となるケプストラム距離である。また、入力装置Ｍは例えばマイクである。

音響スコア計算手段７３は、入力された音声等と音響モデル記憶手段６０に記憶された音響モデルとの類似度である音響スコアを計算し、単語候補検索手段７５に出力するものである。なお、音響スコアとしては、単語候補としてふさわしいものほど値が大きくなるものであればよく、公知のものを用いることができる。

言語スコア計算手段７４は、言語モデル記憶手段５０に記憶された言語モデルを用いて、音響スコア計算手段７３で計算された音響スコアを生成する音素（または音素列）を示す単語候補について、単語としての接続確率を反映した言語スコアを計算し、単語候補検索手段７５に出力するものである。なお、言語スコアとしては、単語候補としてふさわしいものほど値が大きくなるものであればよく、公知のものを用いることができる。

単語候補検索手段７５は、音響スコア計算手段７３で計算される音響スコアと、言語スコア計算手段７４で計算される言語スコアとの和を最大とする単語候補を出力すべき単語として発音単語記憶手段７１から検索するものである。この単語候補検索手段７５は、音響スコアと言語スコアとの和が最大であるか否かを判別し、最大である場合に、そのときの単語候補を発音単語記憶手段７１から抽出し、テキストデータ変換手段７６に出力する。

テキストデータ変換手段７６は、単語候補検索手段７５で検索された単語候補をテキストデータに変換して出力装置Ｄに出力するものである。なお、出力装置Ｄは、画像を表示するものであれば何でもよく、例えば、液晶ディスプレイ、ＣＲＴ等であり、音声を出力するスピーカ等を含んでいてもよい。

［辞書作成装置の構成］
図２は、図１に示した辞書作成装置の構成を示す機能ブロック図である。
辞書作成装置２０は、学習テキストＤＢ１０から単語列を複数選択し、選択した複数の単語列の中から最適な単語列を複合語として辞書３０に登録するために、図２に示すように、出現頻度計算手段２１と、エントロピー計算手段２２と、語彙更新手段（辞書更新手段）２３と、判別手段２４と、学習テキスト更新手段（テキストデータ更新手段）２５とを備えている。

出現頻度計算手段２１は、学習テキストＤＢ１０に記憶された学習テキスト（テキストデータ）に出現する連続した２つの単語からなる単語列（以下、単語ペアという）の学習テキストにおける出現頻度を、学習テキストにおける所定数の単語ペアについてそれぞれ計算し、出現頻度が上位で前記所定数より少ない第２の所定数（Ｎ個）の単語ペアをエントロピー計算手段２２に出力するものである。ここで、所定数は、学習テキストの全体またはその一部で定められる個数である。この出現頻度計算手段２１は、ここでは、単語ペアとして、文節の境界を含まないもの（文節区切りをまたがないもの）のみを選択して出現頻度を計算する。また、出現頻度計算手段２１は、学習テキスト更新手段２５の指示に基づいて、更新された学習テキストによる出現頻度の計算を行う。

ここで、出現頻度の計算方法の一例を示す。例えば、想定している学習テキストに、単語「きょう」から接続する単語として、単語「が」、単語「は」、単語「の」がそれぞれ「２０個」、「３０個」、「５０個」存在し、合わせて全体で「１００個」であるとする。この場合には、単語ペア「きょうが」の出現頻度は「０．２（＝２０／１００）」、「きょうは」の出現頻度は「０．３」、「きょうの」の出現頻度は「０．５」となる。

エントロピー計算手段２２は、出現頻度計算手段２１から入力される上位Ｎ個（第２の所定数）の単語ペアについて、学習テキストＤＢ１０に記憶された学習テキストにおいて、１つの単語ペアを２つ（複数）の単語とみなしたときのエントロピーと、この単語ペアを１つの単語とみなしたときのエントロピーとの差分をそれぞれ計算し、この差分が上位Ｎ個の単語ペアの中で最大となる単語ペアを複合語として抽出し、語彙更新手段２３に出力するものである。ここで、エントロピーとは、単語の複雑性を示す指標、または、音声認識の難しさを示す指標であり、エントロピーが高いほど、単語の複雑性が増す、または、音声認識が難しくなる（参考図書：「確率モデルによる音声認識」中川聖一、電子情報通信学会、ｐｐ．１１１）。具体的には、エントロピー計算手段２２は、想定している単語ペアを含む単語列のみを対象とした部分エントロピーを計算する。つまり、想定している単語ペアと、その前後の単語とからなる単語列を考慮したバイグラム（bigram）モデルで部分エントロピーを計算する。以下では、単にエントロピーという場合には、この部分エントロピーを指している。

このエントロピー計算手段２２は、後記する式（１）〜式（６）に基づいて、エントロピーの計算処理および複合語の抽出処理を実行する。ここでは、これらの式の前提を以下のように定めることとしている。
まず、エントロピー計算手段２２に入力される単語ペア（複合語候補）について、Ｎ個のうちのｉ番目の単語ペアを、２つの単語とみなしたときに（前の単語をWord a、後ろの単語をWord bとみなしたときに）「ω_ａｉ ω_ｂｉ」で表記することとし、また、１つの単語とみなしたときに（combinationしたときに）「ｃ_ｉ」で表記することとする。

また、エントロピー計算手段２２に入力される単語ペアを学習テキストに採用する前（当該単語ペアを２つの単語とみなしたとき）に辞書３０に記憶されている語彙を「Ｖ′」、エントロピー計算手段２２に入力される単語ペアを学習テキストに採用したと想定した場合（当該単語ペアを１つの単語とみなしたとき）に辞書３０に記憶されている語彙を「Ｖ」で表記することとする。

さらに、語彙Ｖ′（２つの単語とみなしたとき）および語彙Ｖ（１つの単語とみなしたとき）をそれぞれ反映して、単語区切りおよび文節区切りが付与された学習テキストを区別する場合に、それぞれを「１１ａ」、「１１ｂ」で表すこととする。なお、本実施形態の場合には、学習テキスト１１ａ（２つの単語とみなしたとき）と、学習テキスト１１ｂ（１つ単語とみなしたとき）とは、文節区切りが同一となる。

エントロピー計算手段２２に入力するｉ番目の単語ペアｃ_ｉ（≡ω_ａｉ ω_ｂｉ）が、学習テキスト１１ａ（例えば、図５参照）において、前の単語ω_１に続いて出現し、その後に単語ω_２が続いて出現している場合には（ただし、ω_１，ω_２∈Ｖ′）、この単語ペアを含む単語列は、学習テキスト１１ａにおいて、「ω_１，ω_ａｉ，ω_ｂｉ，ω_２」のように並べられていることとなる。この場合には、ｉ番目の単語ペアｃ_ｉを採用する前の学習テキスト１１ａにおける部分エントロピーＨ′（ｃ_ｉ）は、式（１）で示される。

ここで、Ｐ（ω_１，ω_ａｉ，ω_ｂｉ，ω_２）は、この単語ペアを含む単語列が学習テキスト１１ａ（例えば、図５参照）において、この順番で出現する生成確率を示している。この生成確率Ｐについて、式（２）に示す近似を用いる。

ここで、Ｐ（ω｜Ｘ）と表記した場合に、数式中の「Ｘ」は、履歴（バイグラムモデルでは１つの単語：横書きでは、単語ωの左にある単語）を示し、数式Ｐ（ω｜Ｘ）は、単語Ｘに続いて単語ωが出現する接続確率（条件）を示している。

同様に、エントロピー計算手段２２に入力されるｉ番目の単語ペアｃ_ｉ（≡ω_ａｉ ω_ｂｉ）が、単語ペアｃ_ｉを採用したと想定した場合の学習テキスト１１ｂ（例えば、図５参照）において、前の単語ω_１に続いて出現し、その後に単語ω_２が続いて出現しているとする（ただし、ω_１，ω_２∈Ｖ）。ここで、語彙Ｖは、式（１）中の語彙Ｖ′とは異なる。この場合には、この単語ペアｃ_ｉを含む単語列は、学習テキスト１１ｂにおいて、「ω_１，ｃ_ｉ，ω_２」のように並べられていることとなる。したがって、学習テキスト１１ｂにおける部分エントロピーＨ（ｃ_ｉ）は、式（３）で示される。

ここで、Ｐ（ω_１，ｃ_ｉ，ω_２）は、この単語ペアを含む単語列が学習テキスト１１ｂ（例えば、図５参照）において、この順番で出現する生成確率を示している。この生成確率Ｐについて、式（４）に示す近似を用いる。

エントロピー計算手段２２は、前記した式（１）〜式（４）から求められる式（５）に基づいて、単語ペアｃ_ｉを２つ（複数）の単語とみなしたときのエントロピーと、単語ペアｃ_ｉを１つの単語とみなしたときのエントロピーとの差分ΔＨ（ｃ_ｉ）を算出する。この差分ΔＨ（ｃ_ｉ）は、ｉ番目の単語ペアｃ_ｉを仮に複合語として辞書３０に追加した場合に、その影響によって、辞書３０に追加する前に比べてどれだけエントロピーが低下するか（複雑性が低下するか）を示しており、この差分ΔＨ（ｃ_ｉ）が大きいほど辞書３０に追加することが好ましい単語ペアと言える。

そして、エントロピー計算手段２２は、式（６）に基づいて、入力されたＮ個の単語ペアｃ_ｉに亘って前記した式（５）で求められた差分ΔＨ（ｃ_ｉ）から、その最大値を有する単語ペアｃ_ｉを抽出し、複合語ｃ^＊として語彙更新手段２３に出力する。

ただし、argmax ｆ（ｘ）は、変数ｘに関する関数ｆ（ｘ）に対して、ｆ（ｘ）が最大になる変数ｘを求めることを示している。

語彙更新手段（辞書更新手段）２３は、エントロピー計算手段２２で抽出された単語ペアを１つの単語とみなした複合語ｃ^＊として、辞書３０に追加（登録）して、当該辞書３０を更新するものである。この語彙更新手段２３は、辞書３０の更新のたびに、更新したことを示す信号を判別手段２４に出力する。辞書３０の更新により、辞書３０に更新前に記憶されていた語彙「Ｖ′」は語彙「Ｖ」となる。なお、辞書３０を全く更新していないときに格納されている語彙を「Ｖ_０」、Ｍ回更新したときに辞書３０に格納されている語彙を「Ｖ_Ｍ」と表記する。

判別手段２４は、辞書３０に追加登録された複合語の個数がＭ個（予め定められた第３の所定数）であるか否かを判別するものである。ここで、Ｍは、追加すべき複合語の個数を示し、予め図示しない入力手段によって入力されるか、または、図示しない記憶手段に記憶されている。この判別手段２４は、具体的には、語彙更新手段２３から出力される信号の入力回数をカウントすることにより、辞書３０にＭ個の複合語が追加登録されたか否かを判定する。判別手段２４は、追加登録された複合語の個数がＭ個に達していない場合に、学習テキストＤＢ１０に記憶された学習テキストの更新を学習テキスト更新手段２５に指示する。なお、判別手段２４は、辞書３０に追加登録された複合語の個数で判別する代わりに、辞書３０に登録されている単語（複合語を含む）の総数が、「辞書３０の当初の語彙数」とＭとの和に達したか否かを判別するようにしてもよい。

学習テキスト更新手段（テキストデータ更新手段）２５は、判別手段２４から更新を指示された場合に、語彙更新手段２３で更新された辞書３０に基づいて、学習テキストＤＢ１０に記憶された学習テキストに付与された単語区切りを更新することにより、学習テキストを更新し、この更新された学習テキストによる出現頻度の計算を出現頻度計算手段２１に指示するものである。ここで、単語区切りの更新とは、具体的には、日本語の場合には、更新前の学習テキスト１１ａ（例えば、図５参照）に含まれる１つの文節内にある「自立語Ａ＋自立語Ｂ」や、「自立語Ａ＋付属語Ｃ」といった単語ペアが、更新後の学習テキスト１１ｂ（例えば、図５参照）において、「複合語ＡＢ」や、「複合語ＡＣ」に変化することである。このために、学習テキスト１１ｂにおいては、「自立語Ａ」から「自立語Ｂ」への接続確率や、「自立語Ａ」から「付属語Ｃ」への接続確率が、学習テキスト１１ａで求められたものと異なる。さらに、学習テキスト１１ｂにおいては、「複合語ＡＣ」から他の単語への接続確率や、別の単語から「複合語ＡＣ」への接続確率などが新たに生じることとなる。なお、学習テキスト更新手段２５は、エントロピー計算手段２２で抽出された複合語が辞書３０に登録される前に、この抽出された複合語に基づいて、学習テキストを更新するようにしてもよい。

［音声認識システムの動作］
次に、図３を参照（適宜図１参照）して、図１に示した音声認識システム１の動作について説明する。図３は、図１に示した音声認識システムの動作を示すフローチャートであって、（ａ）は言語モデル作成処理、（ｂ）は音声認識処理を示している。

音声認識システム１では、図３の（ａ）に示すように、言語モデル作成処理において、まず、辞書作成装置２０は、学習テキストＤＢ１０に基づいて、語彙ＤＢ（辞書）３０を更新して作成する（ステップＳ１）。そして、言語モデル作成装置４０が、語彙ＤＢ（辞書）３０に基づいて、統計的な処理により、言語モデルを作成し（ステップＳ２）、作成した言語モデルを言語モデル記憶手段５０に格納する。

また、音声認識システム１は、図３の（ｂ）に示すように、音声認識処理において、まず、音声認識装置７０は、入力装置Ｍによって、音声を入力し（ステップＳ１１）、音響分析手段７２によって、入力装置Ｍから入力された音声から音素ごとの特徴量を抽出する（ステップＳ１２）。そして、音声認識装置７０は、音響スコア計算手段７３によって、入力された音声と音響モデルとの類似度である音響スコアを計算する（ステップＳ１３）。続いて、音声認識装置７０は、言語スコア計算手段７４によって、音響スコア計算手段７３で計算された音響スコアを生成する音素を示す単語候補について、言語スコアを計算する（ステップＳ１４）。

そして、音声認識装置７０は、単語候補検索手段７５によって、音響スコアと言語スコアとの和が最大であるか否かを判別する（ステップＳ１５）。音響スコアと言語スコアとの和が最大ではない場合（ステップＳ１５：Ｎｏ）、音声認識装置７０は、ステップＳ１３に戻る。一方、音響スコアと言語スコアとの和が最大である場合（ステップＳ１５：Ｙｅｓ）、音声認識装置７０は、単語候補検索手段７５によって、そのときの単語候補をテキストデータ変換手段７６に出力する。続いて、音声認識装置７０は、テキストデータ変換手段７６によって、当該単語候補をテキストデータとして出力装置Ｄに出力する（ステップＳ１６）。これにより、出力装置Ｄは、入力音声に対応した文字（テキストデータ）を表示する。

［辞書作成装置の動作］
次に、図４を参照（適宜図２参照）して、辞書作成装置２０の動作（音声認識システム１の言語モデル作成処理におけるステップＳ１の処理）について説明する。図４は、図２に示した辞書作成装置の動作を示すフローチャートである。前提として、辞書作成装置２０には、追加すべき複合語の個数「Ｍ」が、予め図示しない入力手段によって入力されるか、または、図示しない記憶手段に記憶されている。

まず、辞書作成装置２０は、出現頻度計算手段２１によって、学習テキストＤＢ１０に記憶された学習テキストに基づいて、単語ペアの出現頻度を所定数の単語ペアについて、それぞれ計算し、上位Ｎ個の単語ペアを出力する（ステップＳ２１）。そして、辞書作成装置２０は、エントロピー計算手段２２によって、前記した式（５）に基づいて、単語ペアを学習テキストに採用する前後のエントロピー（部分エントロピー）の差分を算出し、前記した式（６）に基づいて、その差分の最大値を有する単語ペアを抽出する（ステップＳ２２）。そして、辞書作成装置２０は、語彙更新手段２３によって、抽出された単語ペアを複合語として語彙ＤＢ（辞書）３０に登録する（ステップＳ２３）。

続いて、辞書作成装置２０は、判別手段２４によって、語彙ＤＢ（辞書）３０に追加登録された複合語の個数がＭ個であるか否かを判別する（ステップＳ２４）。複合語の個数がＭ個である場合（ステップＳ２４：Ｙｅｓ）、辞書作成装置２０は、処理を終了する。一方、複合語の個数がＭ個ではない場合（ステップＳ２４：Ｎｏ）、辞書作成装置２０は、学習テキスト更新手段２５によって、語彙更新手段２３で更新した辞書３０に基づいて、学習テキストＤＢ１０に記憶された学習テキストを更新し（ステップＳ２５）、ステップＳ２１に戻る。

[具体的な辞書作成例]
次に、図５を参照（適宜図２参照）して、辞書作成装置２０の具体的な辞書作成例を説明する。図５は、図２に示した辞書作成装置の動作の具体例を示す説明図であって、（ａ）は更新前の学習テキストの例、（ｂ）はエントロピーの差分の例、（ｃ）は更新後の学習テキストの例を示している。

例えば、ニュース原稿として、「きょうのニュースです」、「為替と株の値動きです」、「総理官邸から中継です」などの文章が用意されているものとする。この場合、図５の（ａ）に示すように、学習テキスト１１ａには、文節区切りと、単語区切り（「／（スラッシュ）」で図示する）が予め施されて、学習テキストＤＢ１０に記憶される。すなわち、これらのニュース原稿は、学習テキスト１１ａにおいて、文節５０１「きょう／の／」、文節５０２「ニュース／です／」、文節５１１「為替／と／」、文節５１２「株／の／」、文節５１３「値動き／です」、文節５２１「総理／官邸／から／」、文節５２２「中継／です」等に区切られることとなる。

そして、辞書作成装置２０は、出現頻度計算手段２１によって、この学習テキスト１１ａに出現する単語ペアの出現頻度を計算し、エントロピー計算手段２２によって、エントロピー（部分エントロピー）の差分を前記した式（５）に基づいて計算する。その結果、エントロピーの差分は、例えば、図５の（ｂ）に示すように、求められる。この場合には、候補Ｎｏ．が「４」のときに、エントロピーの差分が「＋２０．０」であり、最大となっていることから、辞書作成装置２０は、エントロピー計算手段２２によって、前記した式（６）に基づいて、候補Ｎｏ．が「４」である単語ペア「株の」を追加登録すべき複合語ｃ^＊として抽出する。そして、辞書作成装置２０は、学習テキスト更新手段２５によって、学習テキスト１１ａに付与された単語区切りを更新する。具体的には、学習テキスト更新手段２５は、候補Ｎｏ．が「４」である単語ペア「株の」について、単語「株」と、単語「の」との間の単語区切りを除去して新たな単語区切りを学習テキストに付与する。その結果、図５の（ｃ）に示すように、文節内での単語区切り（／）が更新されて施される。すなわち、更新前の学習テキスト１１ａに含まれていた文節５１２「株／の／」（図５の（ａ）参照）から単語区切り（／）が除去された文節５１４「株の／」が作成される。

本実施形態の辞書作成装置２０によれば、学習テキストにおいて出現が期待され、かつ、この学習テキストにおけるエントロピーを下げるような単語ペアを複合語として選択して辞書３０を更新して作成する。また、複数の複合語を辞書３０に追加する場合に、最適な複合語を１つずつ順番に辞書３０に登録し、他の単語に与える影響を考慮して漏れのないように辞書３０を更新することができる。その結果、作成された辞書３０が音声認識に利用された場合に、単語認識率を向上させることが可能になる。特に、辞書作成装置２０は、文節の境界を含まない単語列を複合語として選択して辞書を作成するので、発話に伴う小休止によって生じる雑音の影響を排除するという優れた効果を奏する。

以上、実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。例えば、辞書作成装置２０の各構成を一つずつの過程と捉えた辞書作成方法とみなすことや、各構成の処理を汎用のコンピュータ言語で記述した辞書作成プログラムとみなすことも可能である。この場合、辞書作成装置２０と同様の効果を得ることができる。

また、図１に示した音声認識システム１では、辞書作成装置２０、言語モデル作成装置４０および音声認識装置７０は、それぞれが、ＣＰＵと、ＲＯＭと、ＲＡＭと、ＨＤＤと、入出力インターフェース等を備えるものとして説明したが、言語モデル作成装置４０および音声認識装置７０は、辞書作成装置２０とハードウェアの一部または全部を共通にして、プログラムを実行することによりそれぞれの機能を実現するようにしてもよい。

また、辞書作成装置２０の出現頻度計算手段２１は、単語ペアとして、文節の境界を含まない単語列のみについて出現頻度を計算するものとして説明したが、このような制限は本発明の必須条件ではない。ただし、この制限を加えることにより、発声に伴って文節の境界を含む単語間における小休止によって生じる雑音の影響を排除できるので、単語認識率を向上させることができる。したがって、このような方法で出現頻度の計算対象とする単語ペアの個数を制限することが好ましい。

この単語ペアの個数を制限する条件は、文節の境界を含むか否かに限定されるものではなく、複合語候補を構成する単語の文字数（前の単語の文字数、後ろの単語の文字数、または、両単語の合計文字数）が所定の文字数以内の単語列のものだけを計算対象とするようにしてもよい。また、複合語候補を構成する単語のモ−ラ数（拍数、または、仮名文字の個数）によって単語ペアの個数を制限するようにしてもよい。なお、このモーラ数も前の単語、後ろの単語、あるいは、両単語の合計のいずれかを考慮できる。また、文節の境界を含まないという条件を同時に加えるようにしてもよい。

また、この計算対象とする単語ペアに対して、文節の境界を含まないという制限をすることなく、文字数やモーラ数だけで制限する場合には、形容詞とそれに続く名詞のように文節境界をまたぐ単語列の中で小休止がほとんどない単語列でも複合語として取り込むことが可能になる。例えば、文字数やモーラ数を単語の前後で２つずつとして、単語ペア「（白い／）（犬／）」を「（白い犬／）」のように複合した場合には、前の単語「しろい」の「い」と、後ろの単語「いぬ」の「い」とが同一であることから、個々の単語に対応した認識をするよりも、追加された複合語で認識する方が単語認識率を向上できると考えられる。

また、辞書作成装置２０の出現頻度計算手段２１は、単語ペアとして、連続した２つの単語からなる単語列に関して出現頻度を計算するものとして説明したが、単語列を構成する単語の個数は、これに限定されず、２個以上であればよい。例えば、本実施形態のように、文節の境界を含まない単語列に限定する場合には、最大では、１つの文節を構成する単語の数まで可能である。つまり、１つの文節が３単語で構成されていれば、出現頻度計算手段２１は、単語ペア（２単語）だけではなく、連続した３つの単語からなる単語列に関しても出現頻度を計算することとなる。また、文節の境界を含まないという条件を用いない場合には、単語列を構成する単語の個数に特段の制限はなくなる。この場合には、例えば、テレビやラジオから出力される音声を認識対象としたときに、挨拶文などの決まり文句や、長い熟語から成る専門用語などを複合語として追加した辞書を作成しておくことにより、単語認識率を向上させることが可能になる。

次に、本発明の効果を確認した実施例について説明する。辞書作成装置２０を用いて、作成した辞書に基づいて作成された言語モデルによる音声認識結果（実施例）と、複合語を含まない辞書に基づいて作成された言語モデルによる音声認識結果（比較例１：ベースライン）と、従来のように学習テキストにおける出現頻度のみに基づいて作成された言語モデルによる音声認識結果（比較例２：出現頻度）とを比較した。

[音声認識実験]
音声認識システム１（図１参照）において、音声認識装置７０のマイクＭに入力する評価データ（入力音声）は、２００４年７月１日から２００４年７月２１日までに複数の男性により発声されたニュース文のうち、主としてアナウンサーと記者との対談５００文（７，３７９単語）である。音声認識装置７０によって、評価データ（入力音声）がテキストデータに変換されたときの単語認識率（単語正解精度）Accuracyは、式（７）で示される。

ここで、式（７）の右辺の「＃Insertions」は、入力音声がテキストデータに変換されたときに入った余計な訳出単語の数（挿入単語数）であり、「＃Matched Words」は、正しく訳出された単語の数（正解単語数）であり、「＃Correct Words」は、出力されるべきテキストデータに含まれる単語の数（正解単語数＋誤った訳出単語数＋未訳出単語数）である。

また、音声認識システム１（図１参照）において、語彙ＤＢ（辞書）３０には、２０，０００単語から成る語彙が記憶された。また、学習テキストＤＢ１０には、２０，０００単語の語彙を用いたニュース原稿および放送書き起こしの４００万文章（合計１億２，７００万単語）が記憶された。実際には、そのうちの１００万文章（所定数）を利用して言語モデルを作成した。また、言語モデル作成装置４０は、トライグラム（trigram）モデルの言語モデルを作成した。また、実施例および比較例２で追加登録した複合語の個数は、１，０００個とした（Ｍ＝１．０００）。

この音声認識実験では、評価データである５００文（７，３７９単語）全体を音声認識に用いて、実施例、比較例１および比較例２の結果を得た。また、評価データを、読み上げスタイル（入力音声が雑音や発話スタイルに影響されにくい箇所、２５２文）と、それ以外の部分（２４８文）とに分けた場合の音声認識実験も行い、それぞれの単語認識率を得た。これらの音声認識結果を表１に示す。

表１に示すように、評価データ全体の結果によれば、実施例では、単語認識率が「８２．１％」であり、比較例１の「８１．６％」および比較例２の「８１．７％」に比べて、単語認識率が向上した。ここで、複合語を追加した比較例２（出現頻度）は、複合語のない場合（比較例１）と比べて「０．１％」の増加であったが、実施例は、「０．５％」も増加した。つまり、実施例の増加率は、比較例２（出現頻度）の増加率の５倍であった。

また、表１に示すように、読み上げスタイルの部分の結果によれば、比較例２（出現頻度）は、複合語を追加したにも関わらず、比較例１（ベースライン）よりも「０．３％」も単語認識率が低下した。一方、実施例では、単語認識率が比較例１（ベースライン）よりも「０．２％」向上した。これは、実施例は、比較例２（出現頻度）のように複合語を追加したにも関わらず、辞書に追加登録する複合語の選択の仕方が比較例２（出現頻度）と異なるために、比較例２（出現頻度）に生じた単語認識率の低下を回避することができたと考えられる。そして、実施例は、入力音声の発話スタイルに影響されること無く、むしろ、単語認識率を向上させることができた。なお、読み上げスタイル以外の部分の結果は、評価データ全体の結果と同様なものであった。

以上まとめると、辞書作成装置２０によって作成した辞書（実施例に相当）は、複合語を含まない辞書（比較例１に相当）や、学習テキストにおける出現頻度のみに基づいて作成された辞書（比較例２に相当）に比べて、音声認識における単語認識率を向上させることのできる言語モデルを作成するために有効であった。

本発明の実施形態に係る辞書作成装置を含む音声認識システムの構成を示す機能ブロック図である。図１に示した辞書作成装置の構成を示す機能ブロック図である。図１に示した音声認識システムの動作を示すフローチャートであって、（ａ）は言語モデル作成処理、（ｂ）は音声認識処理を示している。図２に示した辞書作成装置の動作を示すフローチャートである。図２に示した辞書作成装置の動作の具体例を示す説明図であって、（ａ）は更新前の学習テキストの例、（ｂ）はエントロピーの差分の例、（ｃ）は更新後の学習テキストの例を示している。

符号の説明

１音声認識システム
１０学習テキストＤＢ
２０辞書作成装置
２１出現頻度計算手段
２２エントロピー計算手段
２３語彙更新手段（辞書更新手段）
２４判別手段
２５学習テキスト更新手段（テキストデータ更新手段）
３０語彙ＤＢ（辞書）
４０言語モデル作成装置
５０言語モデル記憶手段
６０音響モデル記憶手段
７０音声認識装置
７１発音単語記憶手段
７２音響分析手段
７３音響スコア計算手段
７４言語スコア計算手段
７５単語候補検索手段
７６テキストデータ変換手段
Ｍ入力装置
Ｄ出力装置

Claims

音声認識に用いられる言語モデルを作成するための辞書に属する単語を用いた文章に対して形態素解析された結果である単語区切りが予め付与されたテキストデータに基づいて、前記辞書を更新して作成する辞書作成装置であって、
前記テキストデータに出現する連続した２つ以上の単語からなる単語列の前記テキストデータにおける出現頻度を、前記テキストデータにおける所定数の前記単語列についてそれぞれ計算する出現頻度計算手段と、
この出現頻度計算手段で計算された所定数の出現頻度のうち、当該出現頻度が上位で前記所定数より少ない第２の所定数の単語列について、前記テキストデータにおいて、１つの単語列を複数の単語ω _ａｉ，ω _ｂｉとみなしたときのエントロピーＨ′（ｃ _ｉ）と、１つの単語列を１つの単語ｃ _ｉとみなしたときのエントロピーＨ（ｃ _ｉ）との差分ΔＨ（ｃ _ｉ）を以下の式（５）で計算し、前記差分ΔＨ（ｃ _ｉ）が前記第２の所定数の単語列の中で最大となる単語列を抽出するエントロピー計算手段と、
このエントロピー計算手段で抽出された単語列を１つの単語とみなした複合語として前記辞書に追加して、当該辞書を更新する辞書更新手段と、
前記辞書更新手段によって辞書に追加された複合語の個数が第３の所定数であるか否かを判別し、追加された前記複合語の個数が前記第３の所定数に達していない場合、前記テキストデータの更新を指示する判別手段と、
前記判別手段から更新を指示された場合、前記辞書更新手段で更新された辞書、または、前記エントロピー計算手段で抽出された単語列に基づいて、前記テキストデータに付与された前記単語区切りを更新するテキストデータ更新手段と、
を備えることを特徴とした辞書作成装置。

なお、前記式（５）では、ω _１，ω _２が単語であり、Ｖ′が前記１つの単語列を前記複数の単語ω _ａｉ，ω _ｂｉとみなしたときに前記辞書に記憶されている語彙であり、Ｖが前記１つの単語列を前記１つの単語ｃ _ｉとみなしたときに前記辞書に記憶されている語彙であり、Ｐ（ω｜Ｘ）が単語Ｘに続いて単語ωが出現する接続確率である。
前記テキストデータは、前記単語区切りと共に、係り受け解析された結果である文節区切りをさらに予め付与され、
前記出現頻度計算手段は、前記単語列として、文節の境界を含まないものを選択することを特徴とする請求項１に記載の辞書作成装置。
音声認識に用いられる言語モデルを作成するための辞書に属する単語を用いた文章に対して形態素解析された結果である単語区切りが予め付与されたテキストデータに基づいて、前記辞書を更新して作成するために、コンピュータを、
前記テキストデータに出現する連続した２つ以上の単語からなる単語列の前記テキストデータにおける出現頻度を、前記テキストデータにおける所定数の前記単語列についてそれぞれ計算する出現頻度計算手段、
この出現頻度計算手段で計算された所定数の出現頻度のうち、当該出現頻度が上位で前記所定数より少ない第２の所定数の単語列について、前記テキストデータにおいて、１つの単語列を複数の単語ω _ａｉ，ω _ｂｉとみなしたときのエントロピーＨ′（ｃ _ｉ）と、１つの単語列を１つの単語ｃ _ｉとみなしたときのエントロピーＨ（ｃ _ｉ）との差分ΔＨ（ｃ _ｉ）を以下の式（５）で計算し、前記差分ΔＨ（ｃ _ｉ）が前記第２の所定数の単語列の中で最大となる単語列を抽出するエントロピー計算手段、
このエントロピー計算手段で抽出された単語列を１つの単語とみなした複合語として前記辞書に追加して、当該辞書を更新する辞書更新手段、
前記辞書更新手段によって辞書に追加された複合語の個数が第３の所定数であるか否かを判別し、追加された前記複合語の個数が前記第３の所定数に達していない場合、前記テキストデータの更新を指示する判別手段、
前記判別手段から更新を指示された場合、前記辞書更新手段で更新された辞書、または、前記エントロピー計算手段で抽出された単語列に基づいて、前記テキストデータに付与された前記単語区切りを更新するテキストデータ更新手段、
として機能させることを特徴とする辞書作成プログラム。

なお、前記式（５）では、ω _１，ω _２が単語であり、Ｖ′が前記１つの単語列を前記複数の単語ω _ａｉ，ω _ｂｉとみなしたときに前記辞書に記憶されている語彙であり、Ｖが前記１つの単語列を前記１つの単語ｃ _ｉとみなしたときに前記辞書に記憶されている語彙であり、Ｐ（ω｜Ｘ）が単語Ｘに続いて単語ωが出現する接続確率である。