JP6441203B2

JP6441203B2 - 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム

Info

Publication number: JP6441203B2
Application number: JP2015221844A
Authority: JP
Inventors: 賢昭佐藤; 亮増村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-11-12
Filing date: 2015-11-12
Publication date: 2018-12-19
Anticipated expiration: 2035-11-12
Also published as: JP2017090731A

Description

本発明は、文を短縮する技術に関し、特に音声認識の結果として得られた文を短縮するものに関する。

音声には、スマートフォンに人が話しかけるようなゆっくりはっきりとした音声（読み上げ音声）、人と人の会話のような音声（話し言葉音声）がある。話し言葉音声の認識結果には、ラフな話し方特有の現象である、誤認識による意味不明な単語、フィラー、言い間違い、相槌、その他特に重要な意味を持たない単語が多く含まれることがある。

以下、誤認識による意味不明な単語、フィラー、言い間違い、相槌、その他特に重要な意味を持たない単語について例を挙げながら説明する。

１）誤認識による意味不明な単語
例）「興味みなさん遅い時間に集まって頂き」
この文の「興味」は、この文だけ見ると意味不明な単語である。真の発話「今日は」を誤認識したものと推察される。この「興味」は、この文の音声認識結果としては不要な単語であるとして削除対象となる。

２）フィラー
例）「えー」、「あのー」、「うーん」、「なんかー」
これは、発話者が主に考え中の際に出現する、どんな文脈で出現しても重要な意味を持たない単語である。これらの単語も削除対象となる。

３）言い間違い
例）「明日、いや、今日全部終わらせよう」、「かる、カレーを食べたいな」
１文目の「明日」は、本来「今日」と言おうとしたが誤って発した単語である。また、２文目の「かる」は、本来「カレー」と言おうとしたが発音に失敗した（いわゆる噛んだ）単語である。「明日」、「いや」、「かる」は削除対象となるものである。

４）相槌
例）「うんうんうん、これは難しいよね」
この文の「うんうんうん」は、単なる相槌であり、重要な意味を持たない。したがって、これも削除対象となる。

５）その他特に重要な意味を持たない単語
例）「これはなんていうのかな、無駄だっていう感じがするんだよねえ」
この文は、意味上重要でない部分を取り去ると、「これは無駄だ」という文となる。「なんて」、「いう」、「の」、「かな」、「って」、「いう」、「感じ」、「が」、「する」、「んだよねえ」は、重要でないため削除対象となる。

従来の文短縮技術（特許文献１）は、文の短縮率や単語の重要度などを用いて文を短縮しているが、音声認識の結果として得られた文のみを対象とするものではないため、上述の話し言葉音声に出現するような不要な単語であっても短縮に際して削除対象とならない可能性がある。その結果として、話し言葉音声の認識結果を対象とする場合、不要な単語が残ってしまい、文が十分に短縮されない可能性があった。

そこで、音声認識の結果得られた文を対象として不要な単語を削除する（つまり、重要な単語のみを残す）ことにより文を短縮する方法（以下、音声認識結果圧縮方法という）を考えると、大きく２つの方法、教師あり学習による方法と教師なし学習による方法が考えられる。教師あり学習による方法は、“この文のこの単語は不要である”というラベルデータを人手で付与したデータを大量に用意し、文から削除していい単語のパターンを学習する方法である。一方、教師なし学習による方法は、ラベルデータが付与されていないデータから学習する方法である。ラベルデータを付与したデータの準備は手間がかかるものであり、現時点において日本語によるラベルのついた音声資源は非常に数が限られる。

したがって、以下では、音声認識の結果得られた文にはラベルデータが付与されていないものとし、教師なし学習を用いた音声認識結果圧縮方法に焦点をあてる。この教師なしの学習による音声認識結果圧縮方法として、文中の各単語に対して文全体から見たその単語の重要度を表すｔｆ・ｉｄｆを基準に重要度の低い単語を削除し、Ｎ―ｇｒａｍ確率を用いて削除した結果得られた文に不自然な単語の並びができないようにする方法が考えられる。

特開２０１０−５５２３６号公報

しかし、音声認識の結果得られる単語が正解である程度（信頼度）を用いていないため、音声認識結果を十分に生かした形での圧縮方法にはなっていない。また、音声認識の結果得られる単語には最も正解である確率が高いもののほかにもいくつか認識候補となる単語があるのが通常であるが、上述の方法では、複数の認識候補についての考慮が払われていないため、この点においても音声認識結果を十分に生かした形での圧縮方法にはなっていない。その結果、不要な単語の削除が不十分となり、音声認識結果の圧縮が十分でない場合もある。

そこで本発明では、音声認識に際して得られる情報を用いて圧縮することにより、より精度のよい音声認識結果に対する圧縮結果を生成する音声認識結果圧縮装置を提供することを目的とする。

本発明の一態様は、Ｍを２以上の整数、ｍを１≦ｍ≦Ｍなる整数とし、音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮装置であって、前記音声データから音声認識結果としてＭ個の仮説を生成し、前記仮説に含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識部と、前記Ｍ個の仮説から選択したｍ個の仮説に含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度ｔｆを計算する信頼度ｔｆ計算部と、前記ｍ個の仮説に含まれる各単語について、前記信頼度ｔｆと単語の重要度を示すｉｄｆから信頼度ｔｆ・ｉｄｆを計算する信頼度ｔｆ・ｉｄｆ計算部と、前記ｍ個の仮説から、単語の並びの自然さの程度を示す３−ｇｒａｍ確率と前記信頼度と前記信頼度ｔｆ・ｉｄｆを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮部とを含む。

本発明によれば、音声認識に際して得られる情報を十分に用いてより的確に不要な単語を削除することが可能となる。その結果、音声認識結果に対する圧縮結果をより精度よく生成することが可能となる。また、当該圧縮結果を入力として別の言語処理アプリケーションを実行することにより、当該アプリケーションによる解析誤りを減らしたり、文の可読性を高めたりすることが可能となる。

実施例１の音声認識結果圧縮装置１００の構成を示すブロック図。実施例１の音声認識結果圧縮装置１００の動作を示すフローチャート。仮説に含まれる単語の信頼度の一例を示す表。実施例１の音声認識結果圧縮装置１００’の構成を示すブロック図。実施例２の音声認識結果圧縮装置２００の構成を示すブロック図。実施例２の音声認識結果圧縮装置２００の動作を示すフローチャート。音声認識結果を表現するコンフュージョンネットワークの一例を示す図。実施例３の音声認識結果圧縮装置３００の構成を示すブロック図。実施例３の音声認識結果圧縮装置３００の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１、図２を参照して実施例１の音声認識結果圧縮装置１００について説明する。図１は、実施例１の音声認識結果圧縮装置１００の構成を示すブロック図である。図２は、実施例１の音声認識結果圧縮装置１００の動作を示すフローチャートである。図１に示すように音声認識結果圧縮装置１００は、音声認識部１１０と、３−ｇｒａｍ確率計算部１２０と、３−ｇｒａｍ確率記録部１０２と、ｉｄｆ計算部１３０と、ｉｄｆ記録部１０３と、信頼度ｔｆ計算部１４０と、信頼度ｔｆ・ｉｄｆ計算部１５０と、音声認識結果圧縮部１６０を含む。音声認識結果圧縮装置１００は、テキストデータ記録部１０１と接続している。

テキストデータ記録部１０１には、事前に用意した大量のテキストデータを記録しておく。例えば、１本３０文程度で構成される新聞記事が１５００００本程度あるコーパスを記録する。なお、テキストデータ記録部１０１に記録されるテキストデータは、音声認識部１１０が音声データを認識した結果として生成する音声認識結果とは異なるものとする。

音声認識部１１０は、音声データから音声認識によりＰ個（Ｐは１以上の整数）の仮説集合Ｈ_１，…，Ｈ_Ｐを生成する。その際、仮説集合Ｈ_ｐ（１≦ｐ≦Ｐ）の要素である仮説に含まれる各単語の信頼度を計算する（Ｓ１１０）。音声データとは、音圧の時系列データのことであり、ｐｃｍ、ｗａｖなどの形式がある。音声データをテキストとして表現したものの例を以下に示す。

例）音声データＳをテキストとして表現したもの
０．１３−２．５５：「今日はかるカレーを食べた」
２．６６−３．５７：「カレー屋ってどこにあるの」
５．６６−７．８５：「横須賀駅の近くにあるよ」

ここで、「：」の前にあるＸＸＸ−ＹＹＹは音声データの再生時刻情報（秒単位）を示す。「今日はかるカレーを食べた」、「カレー屋ってどこにあるの」、「横須賀駅の近くにあるよ」のことを音声データの文ということにする。

音声データの文を音声認識部１１０が認識した結果得られる文を仮説という。一般に１つの音声データの文に対して複数の仮説、すなわち仮説集合が生成される。つまり、生成される仮説集合の数Ｐは、音声データに含まれる文の数と一致する。例えば、先ほどの音声データＳについては、３つの文が含まれているので、３つの仮説集合が生成されることになる。

仮説集合の中で音声認識部１１０が１番もっともらしいとして判断した文を音声認識結果文、それ以外の、音声認識の過程で候補として挙がった文を候補文という。例えば、音声データＳの文「今日はかるカレーを食べた」に対して、仮説集合｛「今日はかるカレーを食べた」、「今日は軽いカレーを食べた」、「今日はかんカレーを食べた」｝が生成され、この順に尤もらしさが高いとすれば、「今日はかるカレーを食べた」が音声認識結果文、「今日は軽いカレーを食べた」、「今日はかんカレーを食べた」が候補文となる。

例）音声データＳの文「今日はかるカレーを食べた」の仮説
１位：「今日はかるカレーを食べた」 → 音声認識結果文
２位：「今日は軽いカレーを食べた」 → 候補文１
３位：「今日はかんカレーを食べた」 → 候補文２

なお、生成する仮説集合の大きさを制限してもよい。例えば、音声データの文に対して上位Ｍ個の仮説のみを仮説集合に含めるようにするなどしてもよい。つまり、仮説集合Ｈ_ｐの濃度｜Ｈ_ｐ｜＝Ｍとなる。なお、このＭは音声認識部１１０に対して音声データとともに入力してもよいし、また、音声認識部１１０にあらかじめ設定しておいてもよい。先ほどの音声データＳとともにＭとして２が入力された場合、音声データの文「今日はかるカレーを食べた」に対して仮説集合｛「今日はかるカレーを食べた」、「今日は軽いカレーを食べた」｝が生成されることになる。

また、以下では、仮説集合Ｈ_ｐを構成する上位Ｍ個の仮説を１位からｈ_ｐ ^（１），…，ｈ_ｐ ^（Ｍ）と表す。つまり、Ｈ_ｐ＝｛ｈ_ｐ ^（１），…，ｈ_ｐ ^（Ｍ）｝となる。

信頼度とは、仮説に含まれる単語が音声認識の結果としてどの程度のもっともらしさで正解しているかを示す値であり、０より大きい１以下の値をとる。先ほどの音声データＳの第１文と第２文に対する仮説の各単語の信頼度の例を図３に示す。

なお、入力される音声データについては、例えば、約３０分の音声データが７会議分あるなど、複数あってもよい。この場合は音声データごとにＳ１１０の音声認識処理を実行し、仮説集合の生成、信頼度の計算をする。

また、音声データの文には文ごとに再生時刻情報が付与されており、この再生時刻情報を用いて文ごとに認識、仮説集合を生成してもよい。このような情報が付与されていると認識精度の向上が期待できる。

３−ｇｒａｍ確率計算部１２０は、テキストデータ記録部１０１に記録されるテキストデータから３つ並びの単語列が出現する確率である３−ｇｒａｍ確率を計算し、３−ｇｒａｍ確率記録部１０２に記録する（Ｓ１２０）。３つ並びの単語列ｗ_ｉ，ｗ_ｉ＋１，ｗ_ｉ＋２の３−ｇｒａｍ確率ｐ（ｗ_ｉ＋２｜ｗ_ｉ，ｗ_ｉ＋１）は、テキストデータ記録部１０１に記録されるテキストデータにｗ_ｉ，ｗ_ｉ＋１，ｗ_ｉ＋２が出現する回数Ｎ（ｗ_ｉ，ｗ_ｉ＋１，ｗ_ｉ＋２）、ｗ_ｉ，ｗ_ｉ＋１が出現する回数Ｎ（ｗ_ｉ，ｗ_ｉ＋１）を用いてＰ（ｗ_ｉ＋２｜ｗ_ｉ，ｗ_ｉ＋１）＝Ｎ（ｗ_ｉ，ｗ_ｉ＋１，ｗ_ｉ＋２）／Ｎ（ｗ_ｉ，ｗ_ｉ＋１）と計算される。

例えば、３−ｇｒａｍ「今日，は，暑い」が出現する３−ｇｒａｍ確率ｐ（暑い｜今日，は)を計算したいとする。ｐ（暑い｜今日，は)を計算するには、「今日，は，○○○」となっている３つ並びの単語列をすべてのテキストデータから探し出し、その個数を計算する。その結果、以下の３パターンのみが見つかり、各３つ並びの個数は以下であったとする。
「今日，は，暑い」の出現回数Ｎ（暑い｜今日，は）＝１００
「今日，は，晴れ」の出現回数Ｎ（晴れ｜今日，は）＝９５
「今日，は，まれ」の出現回数Ｎ（まれ｜今日，は）＝５

このとき、ｐ（暑い｜今日，は）＝Ｎ（暑い｜今日，は）／（Ｎ（暑い｜今日，は）＋Ｎ（晴れ｜今日，は）＋Ｎ（まれ｜今日，は））＝１００／（１００＋９５＋５）＝０．５と計算される。

このようにして、テキストデータ記録部１０１に記録されるテキストデータに出現するすべての単語に対して考えられるすべての３つ並びの単語列ｗ_ｉ，ｗ_ｊ，ｗ_ｋに対して３−ｇｒａｍ確率ｐ（ｗ_ｋ｜ｗ_ｉ，ｗ_ｊ）を計算する。ここで、ある３つ並びの単語列がテキストデータに１回も出現しないことがある。このような３つ並びの単語列に対しては３−ｇｒａｍ確率が計算できないが、バックオフという方法（２−ｇｒａｍや１−ｇｒａｍを用いる方法）で対処する。バックオフについては、参考非特許文献２が参考となる。
（参考非特許文献２）北研二、辻井潤一、“言語と計算（４）確率的言語モデル”、東京大学出版会、１９９９年１１月、pp.67-69.

また、文頭の直後にｗ_ｉという単語が出現する確率ｐ（ｗ_ｉ｜ｓｔａｒｔ）、ｗ_ｉ，ｗ_ｊという２つ並びの後文末になる確率ｐ（ｅｎｄ｜ｗ_ｉ，ｗ_ｊ）も計算する。これらの確率も３−ｇｒａｍ確率と呼ぶことにする。文頭、文末の判断は、テキストデータにおける改行記号に基づいて行えばよい。

ここでは、単語列の並びの自然さを示す値として３−ｇｒａｍ確率を用いたが、Ｎ＝３以外のＮ−ｇｒａｍ確率を用いてもよい。

ｉｄｆ計算部１３０は、テキストデータ記録部１０１に記録されるテキストデータから単語のｉｄｆを計算し、ｉｄｆ記録部１０３に記録する（Ｓ１３０）。テキストデータ記録部１０１に記録されるテキストデータに出現するすべての単語に対してｉｄｆを計算する。

単語ｗ_ｉのｉｄｆ（ｗ_ｉ）とは、テキストデータ記録部１０１に記録されるテキストデータのドキュメントの総数Ｄ、ｗ_ｉが出現するドキュメントの数ｄ（ｗ_ｉ）を用いてｉｄｆ（ｗ_ｉ）＝ｌｏｇＤ／ｄ（ｗ_ｉ）と計算される。なお、対数の底は１より大きい正の実数であればよいが、ここでは１０を用いる。ドキュメントとは、文章のあるまとまった区切りのことであり、テキストデータ記録部１０１に記録されるテキストデータに対して区切りが付与されているものとする。先ほどのコーパスを例にとると、新聞記事１本が１ドキュメントとなる。このｉｄｆはテキストデータのドキュメント内での単語の重要度を示す指標であり、一般的な単語であるほど多くのドキュメントに出現するためその値が小さくなる。

ｉｄｆの例を示す。Ｄ＝１５００００とし、「今日」、「は」、「カレー」、「を」、「食べ」、「た」が出現するドキュメントの数をそれぞれ４００、３００、３０００、５００００、４００００、５００００とすると、
ｉｄｆ（今日）＝ｌｏｇ１５００００／４００＝２．２４
ｉｄｆ（は）＝ｌｏｇ１５００００／３００＝２．７０
ｉｄｆ（カレー）＝ｌｏｇ１５００００／３０００＝１．７０
ｉｄｆ（を）＝ｌｏｇ１５００００／５００００＝０．４７８
ｉｄｆ（食べ）＝ｌｏｇ１５００００／４００００＝０．５７
ｉｄｆ（た）＝ｌｏｇ１５００００／５００００＝０．４７８
と計算される。

信頼度ｔｆ計算部１４０は、音声認識部１１０の出力である仮説集合Ｈ_ｐ（１≦ｐ≦Ｐ）と各仮説に含まれる単語の信頼度から１位の仮説である音声認識結果文ｈ_ｐ ^（１）（１≦ｐ≦Ｐ）に含まれる単語の信頼度ｔｆを計算する（Ｓ１４０）。当該単語が音声認識部１１０の出力である仮説集合Ｈ_ｐの和集合中に出現するすべての個所における信頼度の和として信頼度ｔｆを計算する。

図３の例を用いて信頼度ｔｆの計算方法について説明する。単語「カレー」は１文目の１位の仮説に信頼度０．５、１文目の２位の仮説に信頼度０．５、１文目の３位の仮説に信頼度０．５、２文目の１位の仮説に０．３で出現している。これ以外には出現しないとすれば、信頼度ｔｆ（カレー）＝０．５＋０．５＋０．５＋０．３＝１．８となる。

また、入力される音声データが複数ある場合には、複数の仮説集合の和集合を音声データごととする。

なお、信頼度の和をとる範囲はこれに限定されるものではない。例えば、音声認識結果文ｈ_ｐ ^（１）の単語が仮説集合Ｈ_ｐ中に出現するすべての個所における信頼度の和を信頼度ｔｆとしてもよい。さらに、ある単語の信頼度ｔｆは、その単語の信頼度及び複数の出現を考慮して算出するものであればどのようなものを用いてもよい。つまり、ある単語の信頼度ｔｆは、当該単語の信頼度と仮説での出現頻度といった音声認識に際して付随的に得られる情報を考慮して算出した値となる。

信頼度ｔｆ・ｉｄｆ計算部１５０は、ｉｄｆ記録部１０３に記録されているテキストデータの単語のｉｄｆを用いて、音声認識部１１０の出力の一部である音声認識結果文ｈ_ｐ ^（１）（１≦ｐ≦Ｐ）と信頼度ｔｆ計算部１４０の出力である音声認識結果文の単語の信頼度ｔｆから音声認識結果文ｈ_ｐ ^（１）（１≦ｐ≦Ｐ）の単語の信頼度ｔｆ・ｉｄｆを計算する（Ｓ１５０）。音声認識結果文の単語それぞれについて、ｉｄｆと信頼度ｔｆの積として信頼度ｔｆ・ｉｄｆを計算する。音声認識結果文「今日はかるカレーを食べた」の単語「カレー」を例に説明する。ｉｄｆ（カレー）＝１．７０、信頼度ｔｆ（カレー）＝１．８であるので、信頼度ｔｆ・ｉｄｆ（カレー）＝ｉｄｆ（カレー）×信頼度ｔｆ（カレー）＝１．７０×１．８＝３．０６となる。

なお、信頼度ｔｆ・ｉｄｆの計算方法はこれに限定されるものではない。ある単語の信頼度ｔｆ・ｉｄｆは、その単語の信頼度及び複数の出現を考慮して算出された信頼度ｔｆと、ｉｄｆのように音声認識の結果に関係のない単語そのものの重要度を考慮して算出するものであればどのようなものを用いてもよい。

音声認識結果圧縮部１６０は、３−ｇｒａｍ確率記録部１０２に記録されているテキストデータの単語の３−ｇｒａｍ確率、音声認識部１１０の出力の一部である音声認識結果文ｈ_ｐ ^（１）（１≦ｐ≦Ｐ）及び音声認識結果文の単語の信頼度、信頼度ｔｆ・ｉｄｆ計算部１５０の出力である音声認識結果文の単語の信頼度ｔｆ・ｉｄｆを用いて各音声認識結果文ｈ_ｐ ^（１）を圧縮し、圧縮結果ｈ^＊ _ｐ ^（１）（１≦ｐ≦Ｐ）を生成する（Ｓ１６０）。圧縮結果ｈ^＊ _ｐ ^（１）は音声認識結果文ｈ_ｐ ^（１）から不要な単語を削除したものである。

以下、その削除手順を説明する。音声認識結果文の単語列ｗ_１，ｗ_２，…，ｗ_Ｎ−１，ｗ_Ｎから、３つ並びの単語列の自然さの程度を示す３−ｇｒａｍ確率、単語の重要度（削除してはいけない程度）を示す信頼度ｔｆ・ｉｄｆ、単語が音声認識結果として正しいと考えられる程度を示す信頼度を考慮して不要な単語を削除する。削除すべき単語を決定する方法を整数計画問題として定式化する。

まず、この整数計画問題で用いる変数を定義する。Ｎを１以上の整数、ｉ、ｊ、ｋを１≦ｉ，ｊ，ｋ≦Ｎなる整数として、δ_ｉ、α_ｉ、β_ｉｊ、γ_ｉｊｋを１か０の値を取る変数とする。δ_ｉを、１ならば音声認識結果文に単語ｗ_ｉを残す（つまり、削除しない）こと、０ならば削除することを表す変数とする。α_ｉを、１ならば単語ｗ_ｉが音声認識結果文の先頭の単語であること、０ならば先頭の単語でないことを表す変数とする。β_ｉｊを、０≦ｉ＜ｊ≦Ｎを満たすすべての（ｉ,ｊ）の組に対して、１ならば２つ並びの単語列ｗ_ｉ，ｗ_ｊの直後が音声認識結果文の文末となること、０ならば２つ並びの単語列ｗ_ｉ，ｗ_ｊの直後が文末でないことを表す変数とする。γ_ｉｊｋを、０≦ｉ＜ｊ＜ｋ≦Ｎを満たすすべての（ｉ,ｊ，ｋ）の組に対して、１ならば３つ並びの単語列ｗ_ｉ，ｗ_ｊ，ｗ_ｋが音声認識結果文から不要な単語を削除した後の文に存在すること、０ならば３つ並びの単語列ｗ_ｉ，ｗ_ｊ，ｗ_ｋが存在しないことを示す変数とする。

このように変数δ_ｉ、α_ｉ、β_ｉｊ、γ_ｉｊｋを定義すると、これらの定義から変数δ_ｉ、α_ｉ、β_ｉｊ、γ_ｉｊｋは以下の式（１）〜（５）を満たす必要がある。

なお、Ｎ＝１のとき、β_ｉｊについてはβ_０１のみ定義可能となる。またγ_ｉｊｋについてはｉ＜ｊ＜ｋとなる組み合わせを選択することができない。そこで、式（１）、（５）を考慮して、α_１＝１、β_０１＝１とする。また、γ_ｉｊｋについては０とする。

式（１）〜（５）を制約条件として、次の式で表現される整数計画問題を解く。なお、記号“：”以下の式を評価関数という。つまり、この評価関数を最大化するδ_ｉ、α_ｉ、β_ｉｊ、γ_ｉｊｋの組み合わせ（以下、解という）を求める。

ここで、Ｓｉｇ（ｗ_ｉ）は単語ｗ_ｉの信頼度ｔｆ・ｉｄｆ、ｐ（ｗ_ｋ｜ｗ_ｉ，ｗ_ｊ）は３つ並び単語列ｗ_ｉ，ｗ_ｊ，ｗ_ｋの３−ｇｒａｍ確率、ｐ（ｅｎｄ｜ｗ_ｉ，ｗ_ｊ）は２つ並び単語列ｗ_ｉ，ｗ_ｊの直後が文末となる３−ｇｒａｍ確率、ｐ（ｗ_ｉ｜ｓｔａｒｔ）は文頭の直後が単語ｗ_ｉとなる３−ｇｒａｍ確率、ｑ（ｗ_ｉ）は単語ｗ_ｉの信頼度を表す。また、λは０≦λ＜１の実数であり、Ｓｉｇ（ｗ_ｉ）とｐ（ｗ_ｋ｜ｗ_ｉ，ｗ_ｊ）の重みを調整する定数である。

解のうちδ_ｉを用いて、音声認識結果文の単語列ｗ_１，ｗ_２，…，ｗ_Ｎ−１，ｗ_Ｎの各単語ｗ_ｉに対して、δ_ｉ＝１の場合は、単語ｗ_ｉをそのまま出力、δ_ｉ＝０の場合は、不要な単語に相当する空文字列εを出力することによって、圧縮結果を生成する。

この評価関数を最大にする解は、重要度（信頼度ｔｆ・ｉｄｆ）が高くない単語を削除した後の３つ並び単語列が自然である（３−ｇｒａｍ確率が高い）場合にこの単語を削除したものになっている。例えば、音声認識結果文「今日はかるカレーを食べた」において、単語「かる」のＳｉｇ（かる）が低く、単語「かる」を削除した後の３つ並びの単語列「は，カレー，を」の３−ｇｒａｍ確率ｐ（を｜は，カレー）が高いならば、単語「かる」は削除しても構わないはずである。このことを数式として定式化したものが上記の式となっている。

つまり、信頼度ｔｆ・ｉｄｆのように単語の重要度を示す指標に基づき削除してもよいと判断される単語を削除した後の文（単語列）の並びの自然さを示す評価値を計算する評価関数を用いて不要と判断される単語を決定し圧縮するのであれば、どのような形の評価関数を用いてもよい。

なお、音声認識結果圧縮装置１００は、音声データを入力する度に、３−ｇｒａｍ確率計算部１２０、ｉｄｆ計算部１３０を実行する構成になっているが、必ずしもこのように構成する必要はない。つまり、事前に３−ｇｒａｍ確率及びｉｄｆを計算しておいてもよい。この場合、図４に示すように音声認識結果圧縮装置１００’は、３−ｇｒａｍ確率計算部１２０、３−ｇｒａｍ確率記録部１０２、ｉｄｆ計算部１３０、ｉｄｆ記録部１０３を含まない構成となる。事前に計算した３−ｇｒａｍ確率、ｉｄｆを３−ｇｒａｍ確率記録部１０２、ｉｄｆ記録部１０３にそれぞれ記録しておく。

音声認識に際して得られる情報である単語の信頼度及び仮説での出現頻度を用いることにより、音声認識結果から不必要な単語を的確に削除することが可能になる。その結果、音声認識結果に対する圧縮結果をより精度よく生成することが可能となる。また、当該圧縮結果を入力として別の言語処理アプリケーションを実行することにより、当該アプリケーションによる解析誤りを減らしたり、文の可読性を高めたりすることが可能となる。

実施例１の音声認識結果圧縮部１６０では、音声認識部１１０で得られた仮説のうち、１位の仮説である音声認識結果文のみを用いて評価関数を最大にする解を求めたが、音声認識部１１０で得られた音声認識結果文を含む仮説集合を用いて仮説ごとに解を求め、その解の中で評価関数の値を最大とする仮説の解を用いて圧縮結果を生成してもよい。なお、仮説集合のすべての仮説を用いるのでなく、その一部、例えば、上位ｍ個（２≦ｍ＜Ｍ）の仮説のみを用いて計算するようにしてもよい。

以下、図５、図６を参照して実施例２の音声認識結果圧縮装置２００について説明する。図５は、実施例２の音声認識結果圧縮装置２００の構成を示すブロック図である。図６は、実施例２の音声認識結果圧縮装置２００の動作を示すフローチャートである。図５に示すように音声認識結果圧縮装置２００は、音声認識部１１０と、信頼度ｔｆ計算部２４０と、信頼度ｔｆ・ｉｄｆ計算部２５０と、音声認識結果圧縮部２６０を含む。音声認識結果圧縮装置２００は、実施例１の変形である音声認識結果圧縮装置１００’と同様、３−ｇｒａｍ確率記録部１０２、ｉｄｆ記録部１０３と接続している。

信頼度ｔｆ計算部２４０は、音声認識部１１０の出力である仮説集合Ｈ_ｐ（１≦ｐ≦Ｐ）と各仮説に含まれる単語の信頼度からｍ個の仮説ｈ_ｐ ^（１），…，ｈ_ｐ ^（ｍ）（１≦ｐ≦Ｐ）に含まれる単語の信頼度ｔｆを計算する（Ｓ２４０）。信頼度ｔｆの計算方法は、実施例１と同様であるが、信頼度ｔｆを計算する単語が音声認識結果文のそれだけでなく、音声認識結果文と候補文１〜候補文ｍ−１、つまり上位ｍ個の仮説ｈ_ｐ ^（１），…，ｈ_ｐ ^（ｍ）に含まれる単語すべてである点で相違する。なお、ｍは事前に音声認識部１１０に設定されているものとする。

信頼度ｔｆ・ｉｄｆ計算部２５０は、ｉｄｆ記録部１０３に記録されているテキストデータの単語のｉｄｆを用いて、音声認識部１１０の出力の一部であるｍ個の仮説ｈ_ｐ ^（１），…，ｈ_ｐ ^（ｍ）（１≦ｐ≦Ｐ）と信頼度ｔｆ計算部２４０の出力である仮説に含まれる単語の信頼度ｔｆからｍ個の仮説ｈ_ｐ ^（１），…，ｈ_ｐ ^（ｍ）（１≦ｐ≦Ｐ）に含まれる単語の信頼度ｔｆ・ｉｄｆを計算する（Ｓ２５０）。信頼度ｔｆ・ｉｄｆを計算する単語は、信頼度ｔｆ計算部２４０が信頼度ｔｆを計算する単語すべてである。つまり、信頼度ｔｆ・ｉｄｆ計算部２５０は、計算の対象となる範囲において信頼度ｔｆ・ｉｄｆ計算部１５０と異なる。

音声認識結果圧縮部２６０は、３−ｇｒａｍ確率記録部１０２に記録されているテキストデータの単語の３−ｇｒａｍ確率、音声認識部１１０の出力の一部であるｍ個の仮説ｈ_ｐ ^（１），…，ｈ_ｐ ^（ｍ）（１≦ｐ≦Ｐ）及び仮説の単語の信頼度、信頼度ｔｆ・ｉｄｆ計算部２５０の出力である仮説の単語の信頼度ｔｆ・ｉｄｆを用いて各仮説ｈ_ｐ ^（１），…，ｈ_ｐ ^（ｍ）（１≦ｐ≦Ｐ）について実施例１の整数計画問題を解く。これらの解を用いて計算される各仮説の評価関数の値の中で最大となる仮説（これをｍ＾位の仮説であるとする）を圧縮し、圧縮結果ｈ^＊ _ｐ ^（ｍ＾）を生成する（Ｓ２６０）。圧縮結果の生成方法は実施例１と同様である。

例えば、仮説集合｛「今日はかるカレーを食べた」、「今日は軽いカレーを食べた」、「今日はかんカレーを食べた」｝の上位２個の仮説から圧縮結果を生成する場合、音声認識結果文「今日はかるカレーを食べた」と候補文１「今日は軽いカレーを食べた」のそれぞれに対して実施例１のように定式化される整数計画問題の解を求め、当該解に対応する評価関数の値をそれぞれ計算、大きい値をとる仮説を圧縮対象の仮説として圧縮結果を生成する。

音声認識結果文を含む複数の仮説について評価関数を最大にする解を求め、これらの解を代入した評価関数の値のうち最大値を実現する解に対応する仮説から圧縮結果を生成することにより、音声認識結果文のみを対象に処理する場合より圧縮された結果を得ることが可能となる。

実施例１の音声認識部１１０は、１つの音声データの文に対して音声認識結果として複数の仮説を生成した。実施例３では、音声認識結果を表現するのに、コンフュージョンネットワーク（ＣｏｎｆｕｓｉｏｎＮｅｔｗｏｒｋ）を用いることとする。つまり、１つの音声データの文に対して１つのコンフュージョンネットワークを生成する。

コンフュージョンネットワークとは、ネットワーク構造を用いて音声認識結果を表現するものであり、その一例を図７に示す。図７に示すように、コンフュージョンネットワークでは、認識結果の候補を文単位で生成するのではなく、単語ごとに複数の候補を生成する。コンフュージョンネットワークは、音声認識結果の標準的な表現形式の１つであり、音声認識の分野ではよく用いられるものである。

図７中の各円弧（アーク）は単語を表す。左から１単語目の、信頼度１位の単語は「今日」であり、その値は０．７である。信頼度２位の単語は「京」であり、その値は０．７の次に高い０．３が付与されている。左からｋ単語目の各位置において、この位置に出現するすべての候補単語の信頼度の和をとると、音声認識の正しさの程度を示す信頼度の定義から１となる。各位置におけるアークの数は図７の例にあるような１個、２個に限られるものではなく、音声認識部で決めた所定の値（例えば、０．０５）以上の信頼度を持つ単語すべてがコンフュージョンネットワーク上に出現する。以下、左からｋ番目のアークをアークｋと呼ぶことにする。

以下、図８、図９を参照して実施例３の音声認識結果圧縮装置３００について説明する。図８は、実施例３の音声認識結果圧縮装置３００の構成を示すブロック図である。図９は、実施例３の音声認識結果圧縮装置３００の動作を示すフローチャートである。図８に示すように音声認識結果圧縮装置３００は、音声認識部３１０と、信頼度ｔｆ計算部３４０と、信頼度ｔｆ・ｉｄｆ計算部３５０と、音声認識結果圧縮部３６０を含む。音声認識結果圧縮装置３００は、実施例１の変形である音声認識結果圧縮装置１００’と同様、３−ｇｒａｍ確率記録部１０２、ｉｄｆ記録部１０３と接続している。

音声認識部３１０は、音声データから音声認識によりＰ個（Ｐは１以上の整数）のコンフュージョンネットワークＣ_１，…，Ｃ_Ｐを生成する。その際、コンフュージョンネットワークＣ_ｐ（１≦ｐ≦Ｐ）に含まれる単語の信頼度を計算する（Ｓ３１０）。信頼度は実施例１の信頼度と同様である。

信頼度ｔｆ計算部３４０は、音声認識部１１０の出力であるコンフュージョンネットワークＣ_ｐ（１≦ｐ≦Ｐ）とコンフュージョンネットワークに含まれる単語の信頼度からコンフュージョンネットワークＣ_ｐ（１≦ｐ≦Ｐ）に含まれる単語の信頼度ｔｆを計算する（Ｓ３４０）。コンフュージョンネットワークＣ_ｐに含まれる単語の信頼度ｔｆを、当該単語がコンフュージョンネットワークＣ_ｐ中に出現するすべての個所における信頼度の和として算出する。なお、算出対象となる単語はコンフュージョンネットワークＣ_ｐ（１≦ｐ≦Ｐ）に含まれる単語すべてとなる。

信頼度ｔｆ・ｉｄｆ計算部３５０は、ｉｄｆ記録部１０３に記録されているテキストデータの単語のｉｄｆを用いて、音声認識部３１０の出力であるコンフュージョンネットワークＣ_ｐ（１≦ｐ≦Ｐ）と信頼度ｔｆ計算部３４０の出力であるコンフュージョンネットワークに含まれる単語の信頼度ｔｆからコンフュージョンネットワークＣ_ｐ（１≦ｐ≦Ｐ）に含まれる単語の信頼度ｔｆ・ｉｄｆを計算する（Ｓ３５０）。信頼度ｔｆ・ｉｄｆの値は、実施例１と同様、ｉｄｆと信頼度ｔｆの積として計算する。なお、算出対象となる単語はコンフュージョンネットワークＣ_ｐ（１≦ｐ≦Ｐ）に含まれる単語すべてとなる。

音声認識結果圧縮部３６０は、３−ｇｒａｍ確率記録部１０２に記録されているテキストデータの単語の３−ｇｒａｍ確率、音声認識部３１０の出力コンフュージョンネットワークＣ_ｐ（１≦ｐ≦Ｐ）及びコンフュージョンネットワークに含まれる単語の信頼度、信頼度ｔｆ・ｉｄｆ計算部３５０の出力であるコンフュージョンネットワークに含まれる単語の信頼度ｔｆ・ｉｄｆから音声認識部３１０の出力コンフュージョンネットワークＣ_ｐから生成されるｍ個の仮説について実施例１の整数計画問題を解く。このｍ個の解を用いて計算される評価関数の値の中で最大となる仮説を圧縮し、圧縮結果を生成する（Ｓ３６０）。圧縮結果の生成方法は実施例１と同様であり、ｍ個の解から１つの解を決定する方法は実施例２と同様である。なお、ｍはあらかじめ指定された任意の整数である。

以下、コンフュージョンネットワークからｍ個の仮説を生成する方法について説明する。左から１単語目の信頼度１位の単語ｗ_１、左から２単語目の信頼度１位の単語ｗ_２、…、左からＮ単語目の信頼度１位の単語ｗ_Ｎを選択し、単語の集合Ｗ＝｛ｗ_１，ｗ_２，…，ｗ_Ｎ｝を生成する。この仮説Ｗに対して実施例１の整数計画問題を解く。また、そのときの評価関数の値を計算する。

次に、コンフュージョンネットワークに含まれる単語すべての中からＷに含まれない単語のうち、最大となる信頼度を持つ単語ｗ^（１）を選ぶ。単語ｗ^（１）の位置がアークｋ^（１）であるとき、Ｗの要素のうち、アークｋ^（１）の位置にある単語とｗ^（１）を入れ替えた集合Ｗ^（１）生成し、この仮説Ｗ^（１）に対して実施例１の整数計画問題を解く。また、そのときの評価関数の値を計算する。

同様に、コンフュージョンネットワークに含まれる単語すべての中からＷとＷ^（１）の和集合に含まれない単語のうち、最大となる信頼度を持つ単語ｗ^（２）を選ぶ。単語ｗ^（２）の位置がアークｋ^（２）であるとき、Ｗの要素のうち、アークｋ^（２）の位置にある単語とｗ^（２）を入れ替えた集合Ｗ^（２）生成し、この仮説Ｗ^（２）に対して実施例１の整数計画問題を解く。また、そのときの評価関数の値を計算する。以下同様に、Ｗ^{（ｍ−１）}まで生成し、実施例１の整数計画問題を解き、そのときの評価関数の値を計算する。

なお、コンフュージョンネットワークからｍ個の仮説を生成する処理を音声認識部で実行し、信頼度ｔｆ計算部２４０、信頼度ｔｆ・ｉｄｆ計算部２５０、音声認識結果圧縮部２６０を用いて実施例２と同様に圧縮結果を生成するように、音声認識結果圧縮装置を構成することもできる。

コンフュージョンネットワークから生成される複数の仮説について、実施例２と同様、評価関数を最大にする解を求め、これらの解を代入した評価関数の値のうち最大値を実現する解に対応する仮説から圧縮結果を生成することにより、音声認識結果文のみを対象に処理する場合より圧縮された結果を得ることが可能となる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）等を、光磁気記録媒体として、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｃ）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（ＥｌｅｃｔｒｏｎｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｅｒｖｉｃｅＰｒｏｖｉｄｅｒ）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｍを２以上の整数、ｍを１≦ｍ≦Ｍなる整数とし、
音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮装置であって、
前記音声データから音声認識結果としてＭ個の仮説を生成し、前記仮説に含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識部と、
前記Ｍ個の仮説から選択したｍ個の仮説に含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度ｔｆを計算する信頼度ｔｆ計算部と、
前記ｍ個の仮説に含まれる各単語について、前記信頼度ｔｆと単語の重要度を示すｉｄｆから信頼度ｔｆ・ｉｄｆを計算する信頼度ｔｆ・ｉｄｆ計算部と、
前記ｍ個の仮説から、単語の並びの自然さの程度を示す３−ｇｒａｍ確率と前記信頼度と前記信頼度ｔｆ・ｉｄｆを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮部と
を含む音声認識結果圧縮装置。
ｍを１以上の整数とし、
音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮装置であって、
前記音声データから音声認識結果としてコンフュージョンネットワークを生成し、前記コンフュージョンネットワークに含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識部と、
前記コンフュージョンネットワークに含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度ｔｆを計算する信頼度ｔｆ計算部と、
前記コンフュージョンネットワークに含まれる各単語について、前記信頼度ｔｆと単語の重要度を示すｉｄｆから信頼度ｔｆ・ｉｄｆを計算する信頼度ｔｆ・ｉｄｆ計算部と、
前記コンフュージョンネットワークからｍ個の仮説を生成し、前記ｍ個の仮説から、単語の並びの自然さの程度を示す３−ｇｒａｍ確率と前記信頼度と前記信頼度ｔｆ・ｉｄｆを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮部と
を含む音声認識結果圧縮装置。
請求項１または２に記載の音声認識結果圧縮装置であって、
Ｎを１以上の整数、ｉ、ｊ、ｋを１≦ｉ，ｊ，ｋ≦Ｎなる整数、ｗ_ｉを単語、ｗ_１，ｗ_２，…，ｗ_Ｎ−１，ｗ_Ｎを仮説の単語列、δ_ｉを１ならば単語ｗ_ｉを仮説に残すこと、０ならば仮説から削除することを表す変数、α_ｉを１ならば単語ｗ_ｉが仮説の先頭の単語であること、０ならば仮説の先頭の単語でないことを表す変数、β_ｉｊを０≦ｉ＜ｊ≦Ｎを満たすすべての（ｉ,ｊ）の組に対して１ならば２つ並びの単語列ｗ_ｉ，ｗ_ｊの直後が仮説の文末となること、０ならば２つ並びの単語列ｗ_ｉ，ｗ_ｊの直後が仮説の文末でないことを表す変数、γ_ｉｊｋを０≦ｉ＜ｊ＜ｋ≦Ｎを満たすすべての（ｉ,ｊ，ｋ）の組に対して１ならば３つ並びの単語列ｗ_ｉ，ｗ_ｊ，ｗ_ｋが仮説から不要な単語を削除した後の文に存在すること、０ならば３つ並びの単語列ｗ_ｉ，ｗ_ｊ，ｗ_ｋが仮説から不要な単語を削除した後の文に存在しないことを示す変数、Ｓｉｇ（ｗ_ｉ）を単語ｗ_ｉの信頼度ｔｆ・ｉｄｆ、ｐ（ｗ_ｋ｜ｗ_ｉ，ｗ_ｊ）を３つ並びの単語列ｗ_ｉ，ｗ_ｊ，ｗ_ｋの３−ｇｒａｍ確率、ｐ（ｅｎｄ｜ｗ_ｉ，ｗ_ｊ）を２つ並びの単語列ｗ_ｉ，ｗ_ｊの直後が文末となる３−ｇｒａｍ確率、ｐ（ｗ_ｉ｜ｓｔａｒｔ）を文頭の直後が単語ｗ_ｉとなる３−ｇｒａｍ確率、ｑ（ｗ_ｉ）を単語ｗ_ｉの信頼度、λを０≦λ＜１の実数とし、
前記音声認識結果圧縮部は

を制約条件として、評価関数

の値を最大化するδ_ｉ、α_ｉ、β_ｉｊ、γ_ｉｊｋの組み合わせのうち、δ_ｉを用いて前記圧縮結果を生成することを特徴とする音声認識結果圧縮装置。
Ｍを２以上の整数、ｍを１≦ｍ≦Ｍなる整数とし、
音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮方法であって、
前記音声データから音声認識結果としてＭ個の仮説を生成し、前記仮説に含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識ステップと、
前記Ｍ個の仮説から選択したｍ個の仮説に含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度ｔｆを計算する信頼度ｔｆ計算ステップと、
前記ｍ個の仮説に含まれる各単語について、前記信頼度ｔｆと単語の重要度を示すｉｄｆから信頼度ｔｆ・ｉｄｆを計算する信頼度ｔｆ・ｉｄｆ計算ステップと、
前記ｍ個の仮説から、単語の並びの自然さの程度を示す３−ｇｒａｍ確率と前記信頼度と前記信頼度ｔｆ・ｉｄｆを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮ステップと
を実行する音声認識結果圧縮方法。
ｍを１以上の整数とし、
音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮方法であって、
前記音声データから音声認識結果としてコンフュージョンネットワークを生成し、前記コンフュージョンネットワークに含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識ステップと、
前記コンフュージョンネットワークに含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度ｔｆを計算する信頼度ｔｆ計算ステップと、
前記コンフュージョンネットワークに含まれる各単語について、前記信頼度ｔｆと単語の重要度を示すｉｄｆから信頼度ｔｆ・ｉｄｆを計算する信頼度ｔｆ・ｉｄｆ計算ステップと、
前記コンフュージョンネットワークからｍ個の仮説を生成し、前記ｍ個の仮説から、単語の並びの自然さの程度を示す３−ｇｒａｍ確率と前記信頼度と前記信頼度ｔｆ・ｉｄｆを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮ステップと
を含む音声認識結果圧縮方法。
請求項４または５に記載の音声認識結果圧縮方法であって、
Ｎを１以上の整数、ｉ、ｊ、ｋを１≦ｉ，ｊ，ｋ≦Ｎなる整数、ｗ_ｉを単語、ｗ_１，ｗ_２，…，ｗ_Ｎ−１，ｗ_Ｎを仮説の単語列、δ_ｉを１ならば単語ｗ_ｉを仮説に残すこと、０ならば仮説から削除することを表す変数、α_ｉを１ならば単語ｗ_ｉが仮説の先頭の単語であること、０ならば仮説の先頭の単語でないことを表す変数、β_ｉｊを０≦ｉ＜ｊ≦Ｎを満たすすべての（ｉ,ｊ）の組に対して１ならば２つ並びの単語列ｗ_ｉ，ｗ_ｊの直後が仮説の文末となること、０ならば２つ並びの単語列ｗ_ｉ，ｗ_ｊの直後が仮説の文末でないことを表す変数、γ_ｉｊｋを０≦ｉ＜ｊ＜ｋ≦Ｎを満たすすべての（ｉ,ｊ，ｋ）の組に対して１ならば３つ並びの単語列ｗ_ｉ，ｗ_ｊ，ｗ_ｋが仮説から不要な単語を削除した後の文に存在すること、０ならば３つ並びの単語列ｗ_ｉ，ｗ_ｊ，ｗ_ｋが仮説から不要な単語を削除した後の文に存在しないことを示す変数、Ｓｉｇ（ｗ_ｉ）を単語ｗ_ｉの信頼度ｔｆ・ｉｄｆ、ｐ（ｗ_ｋ｜ｗ_ｉ，ｗ_ｊ）を３つ並びの単語列ｗ_ｉ，ｗ_ｊ，ｗ_ｋの３−ｇｒａｍ確率、ｐ（ｅｎｄ｜ｗ_ｉ，ｗ_ｊ）を２つ並びの単語列ｗ_ｉ，ｗ_ｊの直後が文末となる３−ｇｒａｍ確率、ｐ（ｗ_ｉ｜ｓｔａｒｔ）を文頭の直後が単語ｗ_ｉとなる３−ｇｒａｍ確率、ｑ（ｗ_ｉ）を単語ｗ_ｉの信頼度、λを０≦λ＜１の実数とし、
前記音声認識結果圧縮ステップは

を制約条件として、評価関数

の値を最大化するδ_ｉ、α_ｉ、β_ｉｊ、γ_ｉｊｋの組み合わせのうち、δ_ｉを用いて前記圧縮結果を生成することを特徴とする音声認識結果圧縮方法。
請求項１ないし３のいずれか１項に記載の音声認識結果圧縮装置としてコンピュータを機能させるためのプログラム。