JP2014219569A

JP2014219569A - 辞書作成装置、及び辞書作成プログラム

Info

Publication number: JP2014219569A
Application number: JP2013098856A
Authority: JP
Inventors: 彰夫小林; Akio Kobayashi
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2013-05-08
Filing date: 2013-05-08
Publication date: 2014-11-20
Anticipated expiration: 2033-05-08
Also published as: JP6276516B2

Abstract

【課題】従来よりも認識誤りが低減される辞書を作成する辞書作成装置、及び辞書作成プログラムを提供する。【解決手段】音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置１００であって、統計的言語モデルおよび統計的音響モデルを用いて音声を音声認識し、正解候補単語列を生成する音声認識部２１と、正解単語列および前記正解候補単語列に含まれる単語２つ組の頻度を計数し、前記辞書に登録する複合語の複数の複合語候補を抽出する複合語頻度計数部２４と、各々の複合語候補を前記複合語とした場合におけるエントロピーを計算するエントロピー計算部２５と、前記エントロピーを最も減少させる複合語候補を選択する複合語選択部２６と、選択した複合語候補を前記辞書の新たな語彙として登録する言語モデル更新部２７とを備えることを特徴とする。【選択図】図１

Description

本発明は、音声認識で用いる辞書（語彙）を作成する辞書作成装置、及び辞書作成プログラムに関する。

従来、音声認識では、ｎ−ｇｒａｍに代表される統計的言語モデルを用いて入力された音声から正解候補の単語列（正解候補単語列）を生成している。そして、統計的言語モデルでは、正解候補単語列の言語的な尤もらしさを計算している。また、統計的言語モデルの一つであるｎ−ｇｒａｍモデルでは、前接する単語列（文脈）に基づいて後続単語を予測することにより言語的な尤もらしさを計算している。

例えば、単語列ｗ＝ｗ_１，ｗ_２，ｗ_３，ｗ_４が与えられたとき、ｎ−ｇｒａｍモデルの一つであるバイグラムを用いた場合の単語列の尤もらしさは、以下の（式１）のように計算される。ここで、Ｐ（ｗ_２｜ｗ_１），Ｐ（ｗ_３｜ｗ_２），Ｐ（ｗ_４｜ｗ_３）がそれぞれバイグラムである。バイグラムの値は確率であり、大量のテキストデータから最尤法により推定される。

ここで、音声認識では、ｎ−ｇｒａｍに代表される統計的言語モデルにおける単語の予測しやすさを向上させるために、単語列中において連続する単語組を１つの複合語として連結し、連結した複合語を音声認識用の辞書（語彙）に登録することが行われている。前記の例でいえば、ｗ_２，ｗ_３をそれぞれ独立した１語として扱うのではなく、ｗ_ｃ＝ｗ_２，ｗ_３のようにまとめて１語として扱うことに相当する。複合語ｗ_ｃを用いた単語列ｗ´＝ｗ_１，ｗ_ｃ，ｗ_４の尤もらしさは以下の（式２）のように計算できる。

Ｐ´（ｗ´）−Ｐ（ｗ）が正値（＞０）であれば、与えられた単語列が言語的により尤もらしいということになり、バイグラムによる単語予測精度が向上したとみなせる。ただし、Ｐ´（ｗ´）−Ｐ（ｗ）は常に正値であるとは限らず、複数の複合語の候補の中から、言語的な尤もらしさを向上させるように、複合語となる単語組を選択する必要がある。

従来、辞書に登録される複合語は、テキストデータから言語的な基準を用いて作成されている。複合語を作成する際の言語的な基準は、大きく分けて以下の２つが存在する。
［１］複合語を構成する単語組の頻度（出現頻度）による基準
［２］複合語を構成する前後でのエントロピーの差による基準
ここで、エントロピーとは、所与の言語モデルから計算される単語列の複雑さを示す指標、または、音声認識の難しさを示す指標である。エントロピーが高いほど、単語列の複雑さが増し、当該言語モデルによる音声認識が難しくなる。

これらは、いずれも旧来より複合語を構成するための基準として用いられているので、ここでは簡単に説明する。第１の基準（複合語を構成する単語組の頻度（出現頻度）による基準）によれば、テキストデータに数多く出現する単語列が、追加登録すべき複合語の候補として優先的に抽出される。また、第２の基準（複合語を構成する前後でのエントロピーの差による基準）によれば、複雑さの低い単語列（音声認識の容易な単語列）が、追加登録すべき複合語の候補として優先的に抽出される。

また、前記２つの基準を組み合わせて、高精度かつｎ−ｇｒａｍの予測性能が最も高くなるような単語の組を順次求める技術が提案されている（例えば、特許文献１及び非特許文献１参照）。その手順は、次に示す通りである。

〔１〕テキストデータにおける隣接する単語２つからなる組み（単語２つ組）の頻度を計算する。
〔２〕高頻度上位Ｍ個の単語２つ組を複合語候補として選択する。
〔３〕単語２つ組（複合語候補）を複合語とみなしたときのエントロピーと、複合語とみなさなかったときのエントロピーとを計算する。
手順〔３〕では、例えば、単語２つ組ｗ_ａ，ｗ_ｂとその前後の単語ｗ_１，ｗ_２とを考慮した、学習データ中に存在する単語４つ組（ｗ_１，ｗ_ａ，ｗ_ｂ，ｗ_２）を考える。この単語４つ組に対するエントロピーＨ_１は、以下の（式３）により求められる。

ここで、すべての単語ｗ_１，ｗ_ａ，ｗ_ｂ，ｗ_２が同時に生起する同時分布Ｐ（ｗ_１，ｗ_ａ，ｗ_ｂ，ｗ_２）は、以下の（式４）により近似することができる。

一方、単語２つ組ｗ_ａ，ｗ_ｂを複合語ｗ_ｃとみなした場合のエントロピーＨ_２は、以下の（式５）により求められる。

また、同時分布Ｐ（ｗ_１，ｗ_ｃ，ｗ_２）は、（式４）と同様に、以下の（式６）により近似することができる。

単語４つ組に対するエントロピーＨ_１と単語２つ組ｗ_ａ，ｗ_ｂを複合語ｗ_ｃとみなした場合のエントロピーＨ_２との差ΔＨ（ｗ_ｃ）≡Ｈ_２−Ｈ_１は、以下の（式７）として計算できる。

Ｍ個の単語２つ組の中から、以下の（式８）を満たすものを複合語とする。ここで、（式８）における「ａｒｇｍａｘｆ（ｔ）」は、変数ｔに関する関数ｆ（ｔ）に対して、ｆ（ｔ）が最大になる変数ｔを求めることを示す。以下、この手続きを所望の数の複合語が得られるまで繰り返す。

特開２００７−１７１７２４号公報（段落００３２〜００５４、図２）

小林彰夫ほか、「対談音声のための複合語とクラスを利用した言語モデル」、日本音響学会講演論文集、２００６年３月、2-1-1、p.71-p.72

しかしながら、従来から用いられていた言語的な２つの基準や、特許文献１及び非特許文献１に記載されていたこの２つの基準の組み合わせは、ｎ−ｇｒａｍ等の言語モデルを推定するためのテキストデータから得られた統計量に基づいている。その為、従来技術は、音声認識のように入力音声から単語列を推定するようなアプリケーションに適しているとは限らない。

つまり、音声認識では、入力音声が与えられたとき、言語的な尤もらしさだけではなく、音響的な尤もらしさも考慮して音声認識結果を出力する。したがって、言語的な尤もらしさのみを考慮した従来技術では、音声認識性能を改善しうる複合語を作成できるとは限らない。これは、従来技術では、音声認識した際の予測単語の誤りやすさが考慮されていないことを意味する。

本発明はかかる点に鑑みてなされたものであって、音声認識の統計的言語モデルにおける単語の予測精度が向上し、従来の統計的言語モデルよりも認識誤りが低減される辞書作成装置、及び辞書作成プログラムを提供することを課題とする。

前記課題を解決するために本発明の一態様による辞書作成装置は、音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置であって、音声言語資源記憶部と、記憶部と、音声認識部と、整列部と、複合語頻度計数部と、エントロピー計算部と、複合語選択部と、辞書登録部とを備える構成とした。

この辞書作成装置は、音声言語資源記憶部に音声とその音声を誤りなく文字化した正解単語列とが蓄積される。また、辞書作成装置は、記憶部に前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶される。

また辞書作成装置は、音声認識部が、前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する。次に、辞書作成装置は、整列部が前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列させる。そして、辞書作成装置は、複合語頻度計数部が前記正解単語列および前記正解候補単語列に含まれる単語２つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語２つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する。

さらに、辞書作成装置は、エントロピー計算部が前記複合語頻度計数部によって抽出した複数の前記複合語候補を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算する。また、辞書作成装置は、複合語選択部が各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する。そして、辞書作成装置は、辞書登録部が前記複合語選択部によって選択した複合語候補を前記辞書の新たな語彙として登録する。

このような構成を備える辞書作成装置は、音声の正解単語列と音声認識部によって音声を音声認識した結果である正解候補単語列とから複合語候補を抽出する。また、辞書作成装置は、抽出した複合語候補を用いて複合語候補を複合語とした場合のエントロピーを計算し、計算したエントロピーを用いて辞書に登録する複合語を選択する。

また、本発明の一態様による辞書作成装置は、前記エントロピー計算部が、前記統計的言語モデルにより得られる言語スコアと統計的音響モデルにより得られる音響スコアとを用いて前記エントロピーを計算する構成とした。

このような構成を備える辞書作成装置は、統計的言語モデルにより得られる言語スコアと統計的音響モデルにより得られる音響スコアとを用いて辞書に登録する複合語を選択する基準であるエントロピーを計算する。

また、本発明の一態様による辞書作成装置は、前記音声言語資源記憶部に、放送された音声、及びその音声の正解単語列が逐次蓄積される構成とした。これは例えば、人手による音声認識結果の誤り修正機能（正解単語列の作成機能）を備えた字幕作成装置（音声および正解単語列を出力とする）を前記音声言語資源記憶部の前段に接続することで実現される。

このような構成を備える辞書作成装置は、複合語を辞書に登録するための基準であるエントロピーの計算に放送された音声及びその正解単語列をリアルタイム（実時間）で反映させる。

また、本発明の一態様による辞書作成プログラムは、音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置としてコンピュータを機能させる辞書作成プログラムであって、前記コンピュータが音声言語資源記憶部と、記憶部とを有し、前記コンピュータを、音声認識手段と、整列手段と、複合語頻度計数手段と、エントロピー計算手段と、複合語選択手段と、辞書登録手段として機能させる。

この辞書作成プログラムを実行するコンピュータは、音声言語資源記憶部に音声とその音声を誤りなく文字化した正解単語列とが蓄積される。また、コンピュータは、記憶部に前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶される。

また、辞書作成プログラムを実行するコンピュータは、音声認識手段が前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する。次に、コンピュータは、整列手段が前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列させる。そして、コンピュータは、複合語頻度計数手段が前記正解単語列および前記正解候補単語列に含まれる単語２つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語２つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する。

さらに、辞書作成プログラムを実行するコンピュータは、エントロピー計算手段が抽出した複数の前記複合語候補を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算する。また、コンピュータは、複合語選択手段が各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する。そして、コンピュータは、辞書登録手段が前記選択した複合語候補を前記辞書の新たな語彙として登録する。

このような機能を実現する辞書作成プログラムは、音声の正解単語列と音声認識手段によって音声を音声認識した結果である正解候補単語列とから複合語候補を抽出する。また、辞書作成プログラムは、抽出した複合語候補を用いて複合語候補を複合語とした場合のエントロピーを計算し、計算したエントロピーを用いて辞書に登録する複合語を選択する。

本発明の一態様によれば、音声の正解単語列と音声を音声認識した結果である正解候補単語列とから複合語を辞書に登録するための基準であるエントロピーを計算するので、音響的な要素を考慮して辞書に登録する複合語を決定することができる。その為、音声認識の統計的言語モデルにおける単語の予測精度が向上し、従来の統計的言語モデルよりも認識誤りが低減される。

また、本発明の一態様によれば、複合語を辞書に登録するエントロピー計算に、音声認識で使用する統計的言語モデルと統計的音響モデルとを利用することができる。

また、本発明の一態様によれば、音声と正解単語列が逐次的に取得され得る場合、複合語を漸次認識辞書に追加することで、音声内容に追随した辞書を構成することが可能である。

実施形態に係る辞書作成装置の構成を示す機能ブロック図である。実施形態に係るエントロピー計算部の処理手順を示すフローチャートである。実施形態に係るエントロピー計算部における言語スコア計算の処理手順を示すフローチャートである。実施形態に係る言語モデル更新部の処理手順を示すフローチャートである。

［本発明の概要］
最初に本発明の概要を説明する。従来法では、テキストデータを用い、複合語を作成する前後におけるテキストコーパスの変化を求め、この変化に基づいて（この変化を基準として）辞書に登録する複合語を決定していた。

本発明では、テキストデータを使う代わりに音声データとその正解単語列（音声の書き起こし）を用い、音声認識結果である正解の重畳された複数の正解候補単語列を対象として複合語の作成前後のエントロピーの変化を求め、この変化に基づいて（この変化を基準として）辞書に登録する複合語を決定する。

音声認識結果には、統計的音響モデルにより単語列の音響的な尤もらしさが確率（対数音響スコア）として付与されている。その為、従来法がテキストデータの情報しか利用しないことにより音響的な要素を考慮しないで辞書に登録する複合語を決定するのに対して、本発明は音響的な要素を考慮して辞書に登録する複合語を決定する。

≪本発明における複合語を辞書に登録するための基準≫
まず、以下で用いる用語の記載方針について説明する。一般的に行列や集合等は太字で示すことになっており、数式中では行列や集合等を太字で表している。しかしながら、明細書において太字で表わすことができない部分については太字ではない通常の文字を用いて代用する。また、明細書において表すことのできない特定の記号については、括弧書きで記号の名称を記載している。

次に、本発明における複合語を辞書に登録するための基準について説明する。
ベイズの定理によれば、音声入力ｘが与えられたとき、音響的かつ言語的に尤もらしい単語列ｗ（ハット）は、以下の（式９）により求めることができる。

ここで、Ｐ（ｘ｜ｗ）は、単語列（文仮説）に対する音響的な尤もらしさであり、対数音響スコア（以下、省略して「音響スコア」と呼ぶ場合がある）はＨＭＭ（Hidden Markov Model）および混合Ｇａｕｓｓ分布（ＧＭＭ：Gaussian Mixture Model）に代表される統計的音響モデル（以下、省略して「音響モデル」と呼ぶ場合がある）に基づいて計算される。

一方、Ｐ（ｗ）は、単語列ｗに対する言語的な尤もらしさであり、対数言語スコア（以下、省略して「言語スコア」と呼ぶ場合がある）は、単語ｎ−ｇｒａｍモデル等の統計的言語モデル（以下、省略して「言語モデル」と呼ぶ場合がある）により計算される。以下の説明では、言語モデルとしてｎ−ｇｒａｍを用いる場合を想定する。

音声認識では、前記したベイズの定理に基づいて、以下の（式１０）を文仮説の評価関数と定め、以下の（式１１）により正解候補となる単語列の集合から最良の単語列ｗ（ハット）を選択する。

ここで、ｆ_ａｍ（ｘ｜ｗ）は、音響モデルによる仮説ｗの音響スコア、ｆ_ｌｍ（ｗ）は、言語モデルによる仮説の言語スコア、λ_ｌｍは、音響スコアに対する言語スコアの重みであり、ｆ（ｗ｜ｘ）が、仮説ｗに対するスコアとなる。
ベイズの定理における仮説ｗの事後確率は、以下の（式１２）により計算される。

いま、Ｎ個の音声が与えられたとする。ｎ番目の音声ｘ_ｎ（ｎ＝１，・・・，Ｎ）に対して、正解単語列ｗ_ｎ，０∈Ｗ_ｎおよび音声認識結果である複数の正解候補単語列ｗ_ｎ，ｋ∈Ｗ_ｎ（ｋ＝１，・・・）が得られたとする。ｘ_ｎが与えられたときの仮説集合に対する条件付きエントロピーＨは、以下の（式１３）となる。また、Ｎ個の音声全体のエントロピーを以下の（式１４）とする。ここで、（式１３）及び（式１４）の単語列の条件付き確率Ｐ（ｗ_ｎ，ｋ｜ｘ_ｎ）は、（式１２）により、音響スコアと言語スコアから計算される。

音響モデル及び言語モデルによる正解単語列の予測精度が高ければ、正解単語列のスコアは大きくなり、他の誤りを含む仮説のスコアは小さくなる。これは、仮説の識別に関連する不確実性が小さいということを意味し、結果として条件付きエントロピーの値も小さくなる。したがって、条件付きエントロピーがなるべく小さくなるように複合語を作成すれば、音響モデルと言語モデルを組み合わせたときの単語予測精度が改善する。

いま、単語列の集合Ｗ_ｎ（ｎ＝１，・・・，Ｎ）に含まれる単語列の特定の単語２つ組を複合語ｗ_ｃとしたときのＮ個の音声全体のエントロピーをＨ（ｗ_ｃ）、複合語を作成する前のエントロピーをＨ（ｗ_ｃ（バー））とすれば、以下の（式１５）よりエントロピーの差分が得られる。

そして、複合語の候補が複数与えられた場合、以下の（式１６）となる複合語ｗ_ｃ（ハット）を選べば、ｗ_ｃ（ハット）は複合語の候補の中で、単語の予測精度が最も高くなる組である。すなわち、（式１５）のエントロピーの差分を複合語の選択基準として、（式１６）に該当する複合語を辞書に登録する。

従来法では、テキストコーパスから求めたエントロピーの変化を用いているが、これは、音声認識において言語モデルの言語スコア（から導出されるエントロピー）のみを使っていることに等しい。一方、本発明では、対数音響スコアを考慮したエントロピーを用いるため、より音声認識にふさわしい複合語の選択基準となる。
以上で、本発明の概要についての説明を終了する。

［実施形態］
以下、本発明の実施するための形態を、適宜図面を参照しながら詳細に説明する。
各図は、本発明を十分に理解できる程度に、概略的に示してあるに過ぎない。よって、本発明は、図示例のみに限定されるものではない。なお、各図において、共通する構成要素や同様な構成要素については、同一の符号を付し、それらの重複する説明を省略する。

≪実施形態に係る辞書作成装置の構成≫
図１は、本発明の実施形態に係る辞書作成装置１００の構成を示す機能ブロック図である。辞書作成装置１００は、言語モデル学習データ記憶部１１と、語彙・言語モデル記憶部１２と、音響モデル記憶部１３と、音声言語資源記憶部１４と、音声認識部２１と、正解単語列整列部２２と、整列部２３と、複合語頻度計数部２４と、エントロピー計算部２５と、複合語選択部２６と、言語モデル更新部２７とを備える。

ここで、言語モデル学習データ記憶部１１、語彙・言語モデル記憶部１２、音響モデル記憶部１３、及び音声言語資源記憶部１４は、ＨＤＤ（Hard Disk Drive）等の一般的な記録媒体である。

また、音声認識部２１、正解単語列整列部２２、整列部２３、複合語頻度計数部２４、エントロピー計算部２５、複合語選択部２６、及び言語モデル更新部２７は、ＣＰＵ（Central Processing Unit）がＨＤＤ等に格納されたプログラムをＲＡＭ（Random Access Memory）に展開することにより実現するプログラム実行処理や、専用回路等により実現される。これらの機能がプログラム実行処理により実現される場合、「○○部」を「○○手段」と呼ぶ場合がある。

（言語モデル学習データ記憶部）
言語モデル学習データ記憶部１１は、音声認識に用いられる言語モデルを作成するための学習データが記憶される。学習データは、ニュース原稿あるいはニュース書き起こしなどのテキストデータを事前に形態素解析により形態素（自立語や付属語などの単語）単位に分割し、また、係り受け解析により文節区切りを付与したものである。ここで、形態素とは、これ以上に細かくすると意味がなくなってしまう最小の文字列をいい、形態素解析とは、文章を形態素のレベルまで分解して解析することである。また、係り受け解析とは、文章を文節に区切ると共に、ある文節に含まれる着目している単語が、他の文節に含まれる単語にどのように係るかを、品詞毎に予め定められた可能性に基づいて解析することである。例えば、日本語の「今日の天気は晴れです」という文章に対して単語区切りと文節区切りとが付与されたテキストデータでは、「（今日／の／）（天気／は／）（晴れ／です）」等のように区切られている。なお、記号（）は文節区切りを示し、記号／は、単語区切りを示している。

（語彙・言語モデル記憶部）
語彙・言語モデル記憶部１２は、言語モデル（統計的言語モデル）を作成するための辞書（語彙）、及び統計的言語モデルが記憶される。
辞書（語彙）は、単語（日本語ならば、自立語、付属語）を基礎としているが、音声認識における単語認識率を向上させるために２つ以上の連続した単語列（複合語）を含んで構成される。統計的言語モデルは、大量の音声データを利用して統計的計算手法によって求められた、音声中の単語間のつながり度合いを示す確率モデルの一種（接続確率）である。
なお、詳細は後記する選択された複合語の更新前の状態の語彙・言語モデル記憶部を符号１２ａで表し、複合語の更新後の語彙・言語モデル記憶部を符号１２ｂで表す場合がある。

（音響モデル記憶部）
音響モデル記憶部１３は、音響モデル（統計的音響モデル）が記憶される。
統計的音響モデルは、大量の音声の波形パターンに基づいて求められた、音声中の波形パターンと単語との関係を示す確率モデルの一種である。

（音声言語資源記憶部）
音声言語資源記憶部１４には、放送などの音声（音声信号や音声信号を符号化した音声データを含む）とこの音声に付随する正解単語列とが蓄積されている。音声は、所定期間を一つの単位（例えば、番組単位やコーナー単位）としており、複数（例えば、１万個）の発話で構成されている。正解単語列は、音声を文字化したものであり、例えば、音声を書き起こしたものや、事前に音声認識したものに単語の挿入、置換、脱落等の誤り修正を行ったものであってよい。その為、正解単語列は、音声に対して誤りを含まないものである。なお、音声言語資源記憶部１４には、音声及びこの音声に付随する正解単語列が、例えばＮ個蓄積されている。また、人手による誤り修正機能を備えた音声認識に基づく字幕作成装置から得られる音声および正解単語列を逐次記憶部に蓄積することも可能である。

（音声認識部）
音声認識部２１には、音声言語資源記憶部１４に蓄積される音声が入力される。音声認識部２１は、語彙・言語モデル記憶部１２に記憶される語彙、言語モデル及び音響モデル記憶部１３に記憶される音響モデルを用いて、音声言語資源記憶部１４に蓄積される音声を音声認識し、音声認識結果である複数の正解候補単語列を生成する。
正解候補単語列とは、入力された音声に対して尤もらしい単語列であり、音声に対して音声認識の誤りを含む可能性のある単語列である。具体的には、音声認識部２１は、一つの発話に対しておおむね１００〜５００個程度の正解候補の単語を生成する。これにより、例えば、音声が１万個の発話で構成されていた場合に、１万個×１００〜５００個＝１００万〜５００万個程度の音声認識結果である正解候補単語列が生成される。
また、音声認識部２１は、正解候補単語列を構成する単語の発話時刻に合わせて正解候補単語列を整列する。この際、音声認識部２１は、この正解候補単語列に対して、言語モデルによる言語スコアと音響モデルによる音響スコアとを付加する。なお、生成された正解候補単語列の中に正解単語列が含まれていてもよい。音声認識部２１は、生成した正解候補単語列を整列部２３に出力する。

（正解単語列整列部）
正解単語列整列部２２には、音声言語資源記憶部１４に蓄積される音声とこの音声の正解単語列とが入力される。正解単語列整列部２２は、音声及び正解単語列と語彙・言語モデル記憶部１２に記憶される言語モデル及び音響モデル記憶部１３に記憶される音響モデルとを用いて、正解単語列を構成する単語の発話時刻に合わせて正解単語列を整列する。この際、正解単語列整列部２２は、整列後の正解単語列に対して、言語モデルによる言語スコアと音響モデルによる音響スコアとを付加する。これにより、整列後の正解単語列には、何分何秒に何という単語が話されたかという情報と、音声認識部２１が言語モデル及び音響モデルを用いて正解の単語列を音声認識した場合の言語スコア及び音響スコアとが付加される。正解単語列整列部２２は、整列した正解単語列を整列部２３に出力する。

（整列部）
整列部２３には、音声認識部２１で生成された正解候補単語列と正解単語列整列部２２で発話時刻に合わせて整列された正解単語列とが統合されて単語列集合として入力される。以降では、単語列集合は、辞書（語彙）に登録する複合語を作成するための基準の計算（エントロピー計算）に用いられる。
整列部２３は、語彙・言語モデル記憶部１２ｂに記憶される複合語を含む新たな辞書（語彙）で学習された言語モデルと音響モデル記憶部１３に記憶される音響モデルとで単語列集合の各単語列を単語の発話時刻に合わせて整列する。この際、整列部２３は、整列された単語列の各単語に対して、音響モデルによる音響スコア、及び言語モデルによる言語スコアをそれぞれ付加する。なお、初期状態では、複合語が得られていないため、語彙・言語モデル記憶部１２ａに記憶される言語モデルと語彙・言語モデル記憶部１２ｂに記憶される言語モデルとは同一である。したがって、初期状態では、前段の音声認識部２１および正解単語列整列部２２において、すでに整列済みであるため、整列部２３では整列を行わない。整列部２３は、整列を行った単語列集合を複合語頻度計数部２４に出力する。

（複合語頻度計数部）
複合語頻度計数部２４には、整列部２３で整列された単語列集合が入力される。複合語頻度計数部２４は、単語列集合に含まれる特定の単語２つ組の頻度を計数する。また、複合語頻度計数部２４は、計数後、特定の単語２つ組を頻度の降順に並べ、上位となる高頻度Ｍ個の単語２つ組を複合語候補として算出する。複合語頻度計数部２４は、単語列集合及び算出した上位となる高頻度Ｍ個の複合語候補をエントロピー計算部２５に出力する。

（エントロピー計算部）
エントロピー計算部２５には、単語列集合及び複合語頻度計数部２４で算出された高頻度Ｍ個の複合語候補が入力される。エントロピー計算部２５は、単語列集合及び高頻度Ｍ個の複合語候補を用いて、複合語を作成する前後のエントロピーをそれぞれ計算し、エントロピーの変化を求める。ここで、エントロピーとは、前記した通り、所与の言語モデルから計算される単語列の複雑さを示す指標、または、音声認識の難しさを示す指標であり、エントロピーが高いほど、単語列の複雑さが増し、当該言語モデルによる音声認識が難しくなる。エントロピー計算部２５の処理の詳細は後記する処理手順で説明する。エントロピー計算部２５は、計算したエントロピーの変化を複合語選択部２６に出力する。

（複合語選択部）
複合語選択部２６には、エントロピー計算部２５が計算したエントロピーの変化が入力される。複合語選択部２６は、前段のエントロピー計算部２５の結果を受けて、Ｍ個の複合語候補の中から、エントロピーの変化が最も大きくなる候補（複合語を作成した後のエントロピーが複合語を作成する前のエントロピーに比べて最も減少する複合語候補）を複合語として選択する。複合語選択部２６は、選択した複合語を言語モデル更新部２７に出力する。

（言語モデル更新部）
言語モデル更新部２７（辞書登録部）には、複合語選択部２６から選択した複合語が入力される。言語モデル更新部２７は、前段で得られた複合語を新たに語彙・言語モデル記憶部１２の辞書（語彙）に追加し、言語モデルの学習に用いた言語モデル学習データを用いて言語モデルを再学習し、語彙・言語モデル記憶部１２の言語モデルを更新する。言語モデル更新部２７の処理の詳細は後記する処理手順で説明する。言語モデル更新部２７は、言語モデルを再学習したことを整列部２３に出力する。

そして、整列部２３は、複合語が更新された複合語更新後の語彙・言語モデル記憶部１２ｂに記憶された言語モデルを用いて新たに整列を行う。以下、所望の数の複合語が得られるまで、整列部２３、複合語頻度計数部２４、エントロピー計算部２５、複合語選択部２６、及び言語モデル更新部２７の処理を繰り返す。上記の処理終了後、語彙・言語モデル記憶部１２ｂに記憶された言語モデルを音声認識に用いる。
以上で、実施形態に係る辞書作成装置１００の構成についての説明を終了する。

≪実施形態に係る辞書作成装置の処理手順≫
以下では、実施形態に係る辞書作成装置１００の主要部（エントロピー計算部２５、及び言語モデル更新部２７）の処理手順について説明する。

（エントロピー計算部の処理手順）
図２を参照して、エントロピー計算部２５の処理手順について説明する。
いま、Ｎ個の音声が与えられたとする。ｎ番目の音声ｘ_ｎ（ｎ＝１，・・・，Ｎ）に対して、単語列集合（正解単語列ｗ_ｎ，０∈Ｗ_ｎおよび音声認識結果である複数の正解候補単語列ｗ_ｎ，ｌ∈Ｗ_ｎ（ｌ＝１，・・・））が得られたとする。なお、正解単語列ｗ_ｎ，０及び正解候補単語列ｗ_ｎ，ｌについての（１）言語モデルによる言語スコアｆ_ｌｍ（ｗ_ｎ，ｌ）、ならびに（２）音響モデルによる音響スコアｆ_ａｍ（ｗ_ｎ，ｌ｜ｘ_ｎ）は、すでに前段（音声認識部２１や正解単語列整列部２２）で計算済みであり、各々の単語列の各単語に付加されている。また、複合語頻度計数部２４で算出された高頻度Ｍ個の複合語候補が得られたとする。

ステップＳ１０のループ処理は、複合語頻度計数部２４が算出した上位となる高頻度Ｍ個の複合語候補について順次処理（例えば、頻度の降順）を行うことを意味する。
エントロピー計算部２５は、第ｍ番目（最初は高頻度１番目）の複合語候補に対して、複合語を作成する前後での言語スコアの変更分をあらかじめ計算しておく（ステップＳ２０）。スコアの変更分は、複合語を構成する語ｗ_ａ，ｗ_ｂおよび複合語候補ｗ_ｃに関わる部分のみにおける計算である。ステップＳ２０の言語スコア計算を詳細化したフローチャートを図３に示す。

図３を参照し、エントロピー計算部２５における言語スコア計算の処理手順について説明する。
エントロピー計算部２５は、第ｍ番目の複合語候補を複合語として構成することにより変更となる単語列の頻度を、言語モデル学習データ記憶部１１に記憶された学習データから算出する（ステップＳ２１）。具体的には、以下に示す（１）〜（６）の頻度を求める。
（１）複合語となる単語２つ組（ｗ_ａ，ｗ_ｂ）の頻度Ｃ（ｗ_ａ，ｗ_ｂ）
（２）ｗ_ａの左側（前方）に接続する単語ｗ_１∈｛Ｖ｝との２つ組（ｗ_１，ｗ_ａ）の頻度Ｃ（ｗ_１，ｗ_ａ）
（３）ｗ_ａの右側（後方）に接続する単語ｗ_２∈｛Ｖ｝との２つ組（ｗ_ａ，ｗ_２）の頻度Ｃ（ｗ_ａ，ｗ_２）
（４）（ｗ_ａ，ｗ_ｂ）の左側（前方）に接続する単語ｗ_１との３つ組（ｗ_１，ｗ_ａ，ｗ_ｂ）の頻度Ｃ（ｗ_１，ｗ_ａ，ｗ_ｂ）
（５）ｗ_ｂの右側（後方）に接続する単語ｗ_２∈｛Ｖ｝との２つ組（ｗ_ｂ，ｗ_２）の頻度Ｃ（ｗ_ｂ，ｗ_２）
（６）（ｗ_ａ，ｗ_ｂ）の右側（後方）に接続する単語ｗ_２との３つ組（ｗ_ａ，ｗ_ｂ，ｗ_２）の頻度Ｃ（ｗ_ａ，ｗ_ｂ，ｗ_２）

続いて、エントロピー計算部２５は、ステップＳ２１で求めた頻度から、複合語に関わる言語スコア（バイグラム）の値を計算する（ステップＳ２２）。以下に具体的な処理を記述する。

まず、複合語ｗ_ｃを得た後のバイグラムＰ´（ｗ_ｃ｜ｗ_１）は、以下の（式１７）となる。

ｗ_ｃを履歴としたときのバイグラムＰ´（ｗ_２｜ｗ_ｃ）は、以下の（式１８）となる。

一方、複合語ｗ_ｃを得た後のｗ_ａのバイグラムＰ´（ｗ_ａ｜ｗ_１）は、以下の（式１９）となる。

ｗ_ａを履歴としたときのバイグラムＰ´（ｗ_２｜ｗ_ａ）は、以下の（式２０）となる。

ｗ_ｂを履歴としたときのバイグラムＰ´（ｗ_２｜ｗ_ｂ）は、以下の（式２１）となる。

続いて、エントロピー計算部２５は、前記した複合語を作成したときの言語スコア（バイグラム）の変更分を言語スコアテーブルが記憶される言語スコアテーブル記憶部１５に格納し（言語スコアテーブル作成）、後段の処理（図４の言語モデル更新Ｓ１３０）で参照できるようにする（ステップＳ２３）。そして、処理は図２のステップＳ３０に進む。

ステップＳ３０のループ処理は、与えられたＮ個の音声（音声データ）について順次処理を行い、結果として全ての音声についてループ内の処理を行うことを意味する。
エントロピー計算部２５は、第ｎ番目（最初は第１番目）の音声に対して、単語２つ組を複合語にする前と複合語にした後との言語スコアの差分を計算する（ステップＳ４０）。本実施形態では、言語モデルとしてバイグラムを使っており、単語２つ組（ｗ_ａ，ｗ_ｂ），複合語候補ｗ_ｃとする。
複合語ｗ_ｃを作成する前後における言語モデルの言語スコアの差分は、以下の（式２２）となる。

（式２２）においては、ｆ_ｌｍ（ｗ｜・）を以下の（式２３）とする。ここで、δ_ｕ，ｗは単語列ｗに含まれる単語２つ組（ｕ，ｗ）の個数を返す関数である。

複合化した単語列ｗの言語スコアは、以下の（式２４）により計算できる。

続いて、エントロピー計算部２５は、複合語を構成する前後における音響モデルの音響スコアの差分を計算する（ステップＳ５０）。音響スコアの差分は、以下の（式２５）となる。

ここで、ｘ_{［ｓ，ｅ］}は、入力音声の内、始端時刻ｓ，終端時刻ｅとなる部分（音声の一部分）とする。σ（ｖ）は、単語ｖ（式２５ではｗ_ａ，ｗ_ｂ等と表記）の発話始端時刻とする。τ（ｖ）は、発話終端時刻とする。ｆ_ａｍ（ｘ_{［ｓ，ｅ］}｜ｖ）は、単語ｖが与えられたときの音響スコアとする。その場合、複合語化した単語列の音響スコアは、以下の（式２６）となる。

続いて、エントロピー計算部２５は、以下の（式２７）及び（式２８）を用いて、ｎ番目の音声ｘに対する単語列集合中のすべての単語列から、第ｍ番目の複合語を作成する前のエントロピー及び作成後のエントロピーを計算する（ステップＳ６０）。

続いて、エントロピー計算部２５は、計算したｎ番目の音声ｘに対する第ｍ番目の複合語を作成する前のエントロピーＨ_ｎ ^ｍ（ｗ｜ｘ）と作成した後のエントロピーＨ（バー）_ｎ ^ｍ（ｗ｜ｘ）との差分を以下の（式２９）により求める（ステップＳ７０）。

第ｎ番目の音声ｎに対してステップＳ７０までの処理が終了すると、ｎに「１」を加算して、次の音声ｘ_ｎ＋１についてもステップＳ４０〜ステップＳ７０までの処理を行う。このステップＳ３０におけるループ処理は、与えられたＮ個の音声（全ての音声）について行う。つまり、ｍ番目の複合語候補に対するエントロピーＨ^ｍ（ｗ｜ｘ）は、Ｎ個の音声（全ての音声）で積算することにより以下の（式３０）で求められる。

そして、このステップＳ３０におけるループ処理により、ｍ番目の複合語候補に対するエントロピーの差分ΔＨ_ｍは、Ｎ個の音声（全ての音声）で積算することで以下の（式３１）となる。

与えられたＮ個の音声に対してステップＳ３０のループ処理が終了すると、ｍに「１」を加算して、次の第ｍ＋１番目の複合語候補_ｍ＋１についてもステップＳ２０〜ステップＳ７０までの処理を行う。このステップＳ１０におけるループ処理は、与えられた高頻度Ｍ個の複合語候補について行う。そして、エントロピー計算部２５は、高頻度Ｍ個の複合語候補についてのエントロピーの差分ΔＨ_ｍを複合語選択部２６に出力する。

（言語モデル更新部の処理手順）
図４を参照して、言語モデル更新部２７の処理手順について説明する。
最初に、言語モデル更新部２７は、語彙・言語モデル記憶部１２に記憶される元の語彙｛Ｖ｝に、複合語選択部２６が選択した複合語ｗ_ｃを加え（｛Ｖ｝←｛Ｖ｝∪｛ｗ_ｃ｝））語彙を更新する（ステップＳ１１０）。

続いて、言語モデル更新部２７は、言語モデル学習データ記憶部１１に記憶される学習データに含まれる複合語作成前の単語２つ組を複合語に置き換え、学習データを更新する（ステップＳ１２０）。具体的には、言語モデル更新部２７は、学習データであるテキストデータの単語区切り（形態素区切り）を更新する。ここで、単語区切りの更新とは、日本語の場合を想定すると、更新前のテキストデータに含まれる「自立語Ａ＋自立語Ｂ」や「自立語Ａ＋付属語Ｃ」といった単語ペアを、「複合語ＡＢ」や「複合語ＡＣ」に変化させることである。

続いて、言語モデル更新部２７は、エントロピー計算部２５がステップＳ２０（図３参照）で行った言語スコア計算により得た言語スコアテーブル（言語スコアテーブル記憶部１５に記憶）を参照して、選択した複合語に該当する言語スコア（バイグラム）を置き換える。また、言語モデル更新部２７は、統計的な処理により言語モデルを作成し、語彙・言語モデル記憶部１２に記憶される言語モデルを更新する（ステップＳ１３０）。そして、言語モデル更新部２７は、言語モデルを更新したことを整列部２３に出力する。
以上で、実施形態に係る辞書作成装置１００の処理手順についての説明を終了する。

以上のように、本実施形態に係る辞書作成装置１００は、音声の正解単語列と音声認識部２１によって音声を音声認識した結果である正解候補単語列とから複合語を辞書に登録するための基準であるエントロピーを計算するので、音響的な要素を考慮して辞書に登録する複合語を決定することができる。その為、音声認識の統計的言語モデルにおける単語の予測精度が向上し、従来の統計的言語モデルよりも認識誤りが低減される。

［変形例］
以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。

例えば、実施形態の辞書作成装置１００は、日本語を辞書に登録する場合を想定して説明したが、英語などの他の言語についても適用可能である。

また、実施形態の辞書作成装置１００は、言語モデルとしてｎ−ｇｒａｍモデルの一つであるバイグラムを用いた場合を想定して説明したが、トライグラムなどを用いたり、他の言語モデルを用いてもよい。

１１言語モデル学習データ
１２語彙・言語モデル記憶部（記憶部）
１３音響モデル記憶部（記憶部）
１４音声言語資源記憶部
１５言語スコアテーブル記憶部
２１音声認識部（音声認識手段）
２２正解単語列整列部（正解単語列整列手段）
２３整列部（整列手段）
２４複合語頻度計数部（複合語頻度計数手段）
２５エントロピー計算部（エントロピー計算手段）
２６複合語選択部（複合語選択手段）
２７言語モデル更新部（辞書登録部（辞書登録手段））
１００辞書作成装置

Claims

音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置であって、
音声とその音声を誤りなく文字化した正解単語列とが蓄積された音声言語資源記憶部と、
前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶された記憶部と、
前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する音声認識部と、
前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列する整列部と、
前記正解単語列および前記正解候補単語列に含まれる単語２つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語２つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する複合語頻度計数部と、
前記複合語頻度計数部が抽出した複数の前記複合語候補を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算するエントロピー計算部と、
各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する複合語選択部と、
前記複合語選択部が選択した複合語候補を前記辞書の新たな語彙として登録する辞書登録部と、
を備えることを特徴とする辞書作成装置。
前記エントロピー計算部は、
前記統計的言語モデルにより得られる言語スコアと前記統計的音響モデルにより得られる音響スコアとを用いて前記エントロピーを計算する、
ことを特徴とする請求項１に記載の辞書作成装置。
前記音声言語資源記憶部は、放送音声およびその正解単語列を逐次的に蓄積し、
前記辞書登録部は、複合語を新たな語彙として漸次登録する、
ことを特徴とする請求項１または請求項２に記載の辞書作成装置。
音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置としてコンピュータを機能させる辞書作成プログラムであって、
前記コンピュータは、
音声とその音声を誤りなく文字化した正解単語列とが蓄積された音声言語資源記憶部と、前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶された記憶部とを有し、
前記コンピュータを、
前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する音声認識手段と、
前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列する整列手段と、
前記正解単語列および前記正解候補単語列に含まれる単語２つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語２つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する複合語頻度計数手段と、
抽出した複数の前記複合語候補を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算するエントロピー計算手段と、
各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する複合語選択手段と、
前記選択した複合語候補を前記辞書の新たな語彙として登録する辞書登録手段として機能させるための辞書作成プログラム。