JP2017219637A

JP2017219637A - 音声認識装置、音声認識方法、プログラム

Info

Publication number: JP2017219637A
Application number: JP2016112982A
Authority: JP
Inventors: 賢昭佐藤; Takaaki Sato; 中村　孝; Takashi Nakamura; 孝中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-06-06
Filing date: 2016-06-06
Publication date: 2017-12-14
Anticipated expiration: 2036-06-06
Also published as: JP6549064B2

Abstract

【課題】正解データを用いずに音声認識結果を修正することができる音声認識装置を提供する。【解決手段】入力された音声データに基づいて１位からＮ位の音声認識結果を出力する音声認識部と、予め用意されたテキストデータの３ｇｒａｍ確率を計算する３ｇｒａｍ計算部と、１位からＮ位の音声認識結果に含まれる各単語のｔｆとｉｄｆに基づき、１位の音声認識結果に含まれる各単語のｔｆ−ｉｄｆを計算するｔｆ−ｉｄｆ計算部と、ｔｆ−ｉｄｆに基づいて１位の音声認識結果に含まれる各単語のＮＲＤを計算し、ＮＲＤに基づく値を各単語の重要度として出力する重要度計算部と、１位の音声認識結果に含まれる各単語の信頼度と、３ｇｒａｍ確率と、重要度とを用いて定式化した整数計画問題の解に基づいて１位の音声認識結果に含まれる不要単語を削除する不要単語削除部を含む。【選択図】図１

Description

本発明は、音声認識装置、音声認識方法、プログラムに関する。

特許文献１に、文字数制限に柔軟に対応することができる文書要約装置が開示されている。特許文献１の文書要約装置は、文短縮装置と、文スコア決定装置と、文選択装置を備える。文短縮装置は、入力された文書中の文を、指定された複数の短縮率で短縮して原文および短縮文を出力する。文スコア決定装置は、文短縮装置により出力された原文および短縮文に対して、文短縮率、文の出現位置情報および入力されたパラメタにより求められた位置情報スコアと、単語スコアデータベースを参照して取得した、文を構成する単語の重みを示す尺度である単語スコアとに基づいて文スコアを決定する。文選択装置は、入力された文字数制限のもと、文スコア決定装置により決定された文スコアの和が最大となる文の組合せを要約として選択する。

特開２０１０−５５２３６号公報

音声認識は、音声をテキストに変換する技術であるが、全ての状況下において１００％の変換率で音声認識を行うことは現状難しく、多くの場合認識結果に誤りの単語が含まれてしまう。また、認識結果にはテキストに変換する必要のない冗長なフレーズが含まれている場合がある。例えば、認識結果「これはそうですね難しいですね」は、冗長なフレーズの削除により、「これは難しい」という表現に短縮すべき場合がある。

このように音声認識結果の誤りを修正し、不要部を削除することは、質の高い認識結果を得るためには必須の処理である。認識結果に対して上記２点の改善を行い、認識結果の可読性や、後段の言語処理の適用しやすさを向上させる処理を、「認識結果の整形技術」と称することにする。

通常の音声認識は、音響モデルと言語モデルを対象音声に最適な形にチューニングした後、デコーディング（両モデルを用いたリアルタイムなテキスト変換）することにより、行われている。上述の２つのモデルは音の確からしさ、言語の数、単語の並びの情報のみを用いるモデルである。上記２つのモデルはそれ以上の情報を利用することができない。

一方、音声認識結果と正解データのペアを用いて、通常の言語モデルでは考慮できないような長距離の情報（文単位での確からしさなど）を用いて認識結果の修正を行う識別的リランキングの研究が存在する。しかしながら、識別的リランキング法は音声認識の正解データを人手で作成しなければならず、このコストが高いことが課題であった。

そこで、本発明では正解データを用いずに音声認識結果を修正することができる音声認識装置を提供することを目的とする。

本発明の音声認識装置は、音声認識部と、３ｇｒａｍ計算部と、ｔｆ−ｉｄｆ計算部と、重要度計算部と、不要単語削除部を含む。なお、Ｎを２以上の整数とする。

音声認識部は、入力された音声データに基づいて１位からＮ位の音声認識結果を出力する。３ｇｒａｍ計算部は、予め用意されたテキストデータの３ｇｒａｍ確率を計算する。ｔｆ−ｉｄｆ計算部は、１位からＮ位の音声認識結果に含まれる各単語のｔｆと、テキストデータに基づいて予め用意されたｉｄｆのうち１位の音声認識結果に含まれる各単語のｉｄｆに基づき、１位の音声認識結果に含まれる各単語のｔｆ−ｉｄｆを計算する。重要度計算部は、ｔｆ−ｉｄｆに基づいて１位の音声認識結果に含まれる各単語のＮＲＤを計算し、計算されたＮＲＤに基づく値を各単語の重要度として出力する。不要単語削除部は、１位の音声認識結果に含まれる各単語の信頼度と、１位の音声認識結果に含まれる連続する三つの単語の３ｇｒａｍ確率と、１位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて１位の音声認識結果に含まれる不要単語を削除する。

本発明の音声認識装置によれば、正解データを用いずに音声認識結果を修正することができる。

実施例１の音声認識装置の構成を示すブロック図。実施例１の音声認識装置の動作を示すフローチャート。実施例２の音声認識装置の構成を示すブロック図。実施例２の音声認識装置の動作を示すフローチャート。実施例３の音声認識装置の構成を示すブロック図。実施例３の音声認識装置の動作を示すフローチャート。実施例４の音声認識装置の構成を示すブロック図。実施例４の音声認識装置の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１、図２を参照して実施例１の音声認識装置１の構成、および動作を説明する。図１に示すように、本実施例の音声認識装置１は、コーパス記憶部１０と、音声認識部１１と、３ｇｒａｍ計算部１２と、ｔｆ−ｉｄｆ計算部１３と、重要度計算部１４と、不要単語削除部１５を含む。コーパス記憶部１０には、予め用意されたテキストデータが記憶されているものとする。

音声認識部１１は、入力された音声データに基づいて１位からＮ位の音声認識結果を出力する（Ｓ１１）。３ｇｒａｍ計算部１２は、予め用意されたテキストデータの３ｇｒａｍ確率を計算する（Ｓ１２）。ｔｆ−ｉｄｆ計算部１３は、１位からＮ位の音声認識結果に含まれる各単語のｔｆと、テキストデータに基づいて予め用意されたｉｄｆのうち１位の音声認識結果に含まれる各単語のｉｄｆに基づき、１位の音声認識結果に含まれる各単語のｔｆ−ｉｄｆを計算する（Ｓ１３）。重要度計算部１４は、ｔｆ−ｉｄｆに基づいて１位の音声認識結果に含まれる各単語のＮＲＤ（ＮｏｒｍａｌｉｚｅｄＲｅｌｅｖａｎｃｅＤｉｓｔａｎｃｅ）を計算し、計算されたＮＲＤに基づく値を各単語の重要度として出力する（Ｓ１４）。不要単語削除部１５は、１位の音声認識結果に含まれる各単語の信頼度と、１位の音声認識結果に含まれる連続する三つの単語の３ｇｒａｍ確率と、１位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて１位の音声認識結果に含まれる不要単語を削除する（Ｓ１５）。

以下、各構成要件の動作について詳細に説明する。
＜音声認識部１１＞
入力：音声データ（音圧の時系列データ。形式はｐｃｍ，ｗａｖなど）、順位数の上限Ｎ
出力：音声認識結果の１位〜Ｎ位の文、各文における各単語の信頼度
ここで、入力される音声データは、例えば１発話毎に文として処理されるものとする。

［入力される１発話毎の文例］
1発話目の文例：「今日はかるカレーを食べた」
音声認識部１１は、音声データを入力として取得し、一般的な音声認識方法によって音声認識を実行し、１位からＮ位までの音声認識結果を出力する（Ｓ１１）。ただし前述したようにＮは２以上の整数である。

ステップＳ１１により、音声データの各文（文は時刻情報を基に区切られる）に対し、以下のように順位と各単語に信頼度を持つ複数（＝Ｎ個）仮説の認識結果が出力される。なお、Ｎは人手で指定してもよい。例えば、Ｎ＝５としてもよい。

認識結果の複数仮説とは、音声認識結果のうち、音声認識システムにより１番尤もらしいと評価された文、音声認識の計算途中で上記以外に候補として挙がった文を含む複数の認識結果よりなる仮説を示す。

信頼度とは、認識結果の各単語に対してどれだけの尤もらしさでこの単語が正解しているかを表す確率値であり、０以上１以下の値を持つ。

［信頼度の例］
１位：今日はかるカレーを食べた
信頼度：今日→０．７は→０．５かる→０．４カレー→０．５を→０．７食べた→０．９
２位：今日は軽いカレーを食べた
信頼度：今日→０．７は→０．５軽い→０．３５カレー→０．５を→０．７食べた→０．９
・・・
Ｎ位：今日はかんカレーを食べた
信頼度：今日→０．７は→０．５かん→０．２カレー→０．５を→０．７食べた→０．９

＜３ｇｒａｍ計算部１２＞
入力：大量のテキストデータ
出力：テキストデータに対する３ｇｒａｍ確率
３ｇｒａｍ計算部１２は、予め用意された大量のテキストデータ（音声認識結果でないもの）を用いる。本実施例では、大量のテキストデータはコーパス記憶部１０に予め記憶されているものとする。大量のテキストデータとしては、例えば新聞の記事などを用いることができる。大量のテキストデータとしては、例えば１個３０文程度の記事が１５００００記事程度あるようなコーパスが考えられる。

３ｇｒａｍ計算部１２は、大量のテキストデータの全ての文に対して、３ｇｒａｍ確率を計算する。３ｇｒａｍ確率とは、三つの単語が連続して文章に出現する確率を表す。ステップＳ１２を具体例を用いて説明する。例えば、３ｇｒａｍ（今日、は、暑い）という並びが出現する３ｇｒａｍ確率ｐ（暑い｜今日、は）を計算したいとする。これを計算する際、「今日、は、○○○」と連続する３単語の並びをテキストデータすべてに対して探し出し、その個数を計算する。その結果例えば以下の３パターンのみが見つかり、各並びの個数は以下であったとする。
（１）今日は暑い１００
（２）今日は晴れ９５
（３）今日はまれ５
この場合、３ｇｒａｍ確率ｐ（暑い｜今日、は）は、

と計算される。３ｇｒａｍ計算部１２は、テキストデータに出現する任意の単語について、考えられる任意の三並びｗ_ｉ，ｗ_ｊ，ｗ_ｋが生じる条件付き確率ｐ（ｗ_ｋ｜ｗ_ｉ，ｗ_ｊ）を計算する（ｉ、ｊ、ｋは任意のインデックスを表す記号、以下の数式などにも登場する）。

ここで、任意の三並びｗ_ｉ，ｗ_ｊ，ｗ_ｋがテキストデータに１回も出現せず、ｐ（ｗ_ｋ｜ｗ_ｉ，ｗ_ｊ）が直接計算不可能な場合も存在する。このような場合には、バックオフと呼ばれる方法で対処すればよい。バックオフとは、上述のような場合に３ｇｒａｍの代わりに２ｇｒａｍや１ｇｒａｍを利用する方法である。バックオフについては、例えば参考非特許文献１に開示されている。
（参考非特許文献１：北研二、辻井潤一、「言語と計算（４）確率的言語モデル」、東京大学出版会、1999年11月、p.67-69）

また、ｐ（○｜ｓｔａｒｔ）とｐ（ｅｎｄ｜○，○）も計算する。ｐ（○｜ｓｔａｒｔ）は文頭の直後に○という単語が出現する確率である。ｐ（ｅｎｄ｜○，○）は、○，○という並びの後文末になる確率である。文頭、文末は、テキストデータにおける改行記号を基に判断する。

＜ｔｆ−ｉｄｆ計算部１３＞
入力：１位からＮ位の音声認識結果、大量のテキストデータ
出力：１位の音声認識結果に出現した全ての単語に対するｔｆ−ｉｄｆ
ｔｆ−ｉｄｆとは、ｔｆ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ、単語の出現頻度）とｉｄｆ（ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ、逆文書頻度）の二つの指標にもとづいて計算される指標であり、文章内での単語の重要度を表す指標である。

まず、ステップＳ１２で用いた大量のテキストデータと同じデータを用意する。本実施例では、コーパス記憶部１０に予め記憶されたテキストデータを流用すればよい。予め用意するテキストデータは前述したとおり、例えば新聞の記事、１個３０文程度の記事が１５００００記事程度あるようなコーパスなどでよい。

以下、ｉｄｆの計算方法について述べる。テキストデータのドキュメント（文書のあるまとまった区切り。当該区切りはあらかじめテキストデータに付与されているものとする。例えば新聞なら１記事など）の数をＤ、そのうち着目単語ａが出現するドキュメントの数をｄとすると、ｉｄｆはｌｏｇ（Ｄ／ｄ）と計算される。対数の底は任意の１より大きい正の実数とする。以下の例では底は１０であるものとする。

例えばコーパス記憶部１０内のドキュメントの総数が１５００００で、
「今日」が出現するドキュメントの数・・・４００
「は」が出現するドキュメントの数・・・３００
「カレー」が出現するドキュメントの数・・・３０００
「を」が出現するドキュメントの数・・・５００００
「食べ」が出現するドキュメントの数・・・４００００
「た」が出現するドキュメントの数・・・５００００
であったとする。

この場合、ｔｆ−ｉｄｆ計算部１３は各単語のｉｄｆを、
「今日」のｉｄｆ＝ｌｏｇ_１０（１５００００／４００）＝２．２４
「は」のｉｄｆ＝ｌｏｇ_１０（１５００００／３００）＝２．７０
「カレー」のｉｄｆ＝ｌｏｇ_１０（１５００００／３０００）＝１．７０
「を」のｉｄｆ＝ｌｏｇ_１０（１５００００／５００００）＝０．４７８
「食べ」のｉｄｆ＝ｌｏｇ_１０（１５００００／４００００）＝０．５７
「た」のｉｄｆ＝ｌｏｇ_１０（１５００００／５００００）＝０．４７８
と計算する。

次に、ｔｆの計算方法について述べる。一般的にｔｆは、あるドキュメント内での単語の総数がＭである場合に、当該ドキュメント内における、着目単語ａの出現頻度Ａを用いて、ｔｆ＝Ａ／Ｍと計算される。

従って、ｔｆ−ｉｄｆ計算部１３は、１位からＮ位までの音声認識結果の集合を一つのドキュメントと捉え、少なくとも１位の音声認識結果に含まれる各単語についてｔｆを計算する。例えば、１位からＮ位までの音声認識結果の集合における単語の総数Ｍ＝１０００であり、１位の音声認識結果に含まれる単語「カレー」の出現頻度Ａ＝２００であるものとすると、
「カレー」のｔｆ＝２００／１０００＝０．２０
と計算される。

ｔｆ−ｉｄｆ計算部１３は、ｉｄｆとｔｆの値を用いて、ｔｆ−ｉｄｆを以下のように計算する。
ｔｆ−ｉｄｆ＝ｔｆ×ｉｄｆ
例えば前述の例における「カレー」のｔｆ−ｉｄｆは、
ｔｆ−ｉｄｆ＝０．２０×１．７０＝０．３４
である。

なお、ｔｆ−ｉｄｆ計算部１３は、少なくとも１位の音声認識結果に含まれる各単語のｔｆ−ｉｄｆを計算すればよい。ここで重要なのは、ｔｆの計算には１位からＮ位までの音声認識結果が必要であるものの、ｔｆ−ｉｄｆとしては、必ずしも１位からＮ位までの音声認識結果に登場する全ての単語について必須ではないということである。

＜重要度計算部１４＞
入力：１位の音声認識結果、１位の音声認識結果のｔｆ−ｉｄｆ
出力：１位の音声認識結果に含まれる各単語のＮＲＤ（ＮｏｒｍａｌｉｚｅｄＲｅｌｅｖａｎｃｅＤｉｓｔａｎｃｅ）
重要度計算部１４は、１位の音声認識結果のｔｆ−ｉｄｆに基づいて、１位の音声認識結果中の２単語間の類似性を表す尺度であるＮＲＤを計算する（Ｓ１４）。２単語間の類似性を表すＮＲＤを計算する目的は、例えば、ある単語が他の単語との類似性が高ければ、その単語は誤認識ではない正解単語であり、削除すべき不要な単語ではないと判断できるためである。

ここで、ＮＲＤを計算するために、まず各単語に対するｆ_ＮＲＤ（ｗ）と、２単語間のｆ_ＮＲＤ（ｗ_１，ｗ_２）を算出する。これらは、

として定義される。なお、ＴＦＩＤＦ（ｗ，ｄ）は、ドキュメントｄにおける単語ｗのｔｆ−ｉｄｆを表す。Ｓはドキュメントの総数である。

重要度計算部１４は、例えば上述の定義を用いて１位の音声認識結果に含まれる各単語のＮＲＤを計算する。例えば、１位の音声認識結果に含まれる各単語がｗ_１，．．．，ｗ_Ｍだったとすると、この中の任意の単語ｗ_ｉの単語一貫性スコアは、

すなわち、インデクスｊ＝１〜Ｍまでのうちｉを除いた全ての単語と単語ｗ_ｉのＮＲＤの逆数の和として計算される。このスコアが高いほど、正解単語である可能性が高く、不要でない（必要な）単語である可能性が高い単語であるものと判断する。

＜不要単語削除部１５＞
入力：１位の音声認識結果、１位の音声認識結果の各単語に対する信頼度、１位の音声認識結果の各単語に対する３ｇｒａｍ確率、１位の音声認識結果の各単語に対する重要度
出力：不要な単語が削除された音声認識結果
不要単語削除部１５は、１位の音声認識結果に対して、不要な単語を削除する処理を実行する。今、ある音声データの１位の音声認識結果が、単語ｗ_１，ｗ_２，．．．，ｗ_Ｔという並びで得られているとする。この文から不要な単語を、ＮＲＤに基づく値（単語一貫性スコア、その単語の重要度、削除してはいけない度合い）と、単語３つ並びの接続のしやすさの確率（３ｇｒａｍ確率）、信頼度（その単語が音声認識結果として正しいと考えられる度合い）を用いて整数計画問題に定式化する。

ステップＳ１５の説明にあたり、変数を定義する。δ_ｉ，α_ｉ，β_ｉｊ，γ_ｉｊｋはいずれも１か０の整数値を取り、δ_ｉはｉ＝１〜Ｔに対して定義され、１ならば単語ｗ_ｉを残し（削除しない）、０ならば削除することを表す変数である。α_ｉはｉ＝１〜Ｔに対して定義され、１ならば単語ｗ_ｉが文の先頭単語であり、０ならば先頭単語ではないことを表す変数である。β_ｉｊは０≦ｉ＜ｊ≦Ｔを満たす全ての（ｉ，ｊ）の組み合わせに対して定義され、ｗ_ｉ，ｗ_ｊという並びの直後が文末となるならば１、そうでなければ０を表す変数である。γ_ｉｊｋは、０≦ｉ＜ｊ＜ｋ≦Ｔを満たすすべての（ｉ，ｊ，ｋ）の組み合わせに対して定義され、ｗ_ｉ，ｗ_ｊ，ｗ_ｋという三連続する単語が削除後の文に存在すれば１、存在しなければ０と定義される。

この変数を用いて、次の関数を最大化する解となるδ_ｉ，α_ｉ，β_ｉｊ，γ_ｉｊｋを計算する（整数計画問題）。

ここで、Ｓｉｇ（ｗ_ｉ）は単語ｗ_ｉの重要度（ＮＲＤに基づく値）であり、ｐ（ｗ_ｋ｜ｗ_ｉ，ｗ_ｊ）は単語ｗ_ｉ，ｗ_ｊ，ｗ_ｋが三連続する３ｇｒａｍ確率、ｑ（ｗ_ｉ）は単語ｗ_ｉの信頼度である。不要単語削除部１５は、この問題の解を算出し、ｗ_１，ｗ_２，．．．，ｗ_Ｔの各単語ｗ_ｉに対して、δ_ｉが１となるような単語はそのまま出力し、δ_ｉが０となるような単語（不要語に相当する）は出力しないことによって、認識結果文の不要単語の削除を行う。

上記の評価関数を最大にすると、重要度が高くない単語は削除される。また任意の単語を削除した場合に他の単語の並びが自然な並びとなる場合、当該任意の単語は削除される。
例えば、音声認識結果である、「今日はかるカレーを食べた」という文に対してこの方法で不要単語を削除し、文圧縮を行うものとする。この場合、「かる」は、重要度が低い（ＮＲＤに基づく値が低い）ものとする。すると、「かる」を削除したと仮定した並びの、「はカレーを」が自然である（３ｇｒａｍ確率が高い）ならば、該当の「かる」を削除しても構わないはずである。これを数式表現したものが上記の式となっている。

従って、不要単語削除部１５は、上述の最大値問題の解のδ_ｉを用いて不要語を除去した音声認識結果を出力する。

以下、図３、図４を参照して実施例２の音声認識装置の構成および動作について説明する。図３に示すように本実施例の音声認識装置２は、コーパス記憶部１０と、音声認識部１１と、３ｇｒａｍ計算部１２と、重要度計算部２４と、不要単語削除部１５を含む。実施例１の音声認識装置１に存在したｔｆ−ｉｄｆ計算部１３が省略されていること、実施例１の重要度計算部１４が本実施例において重要度計算部２４に置き換えられていること以外については、実施例１と同様であるため、適宜説明を略する。

本実施例では、単語の重要度を計算する際、ＮＲＤの代わりにｗｏｒｄ２ｖｅｃを用いる。ｗｏｒｄ２ｖｅｃは大量のテキストデータの各単語をＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いてＵ次元（Ｕは２以上の整数）の実数値ベクトルに変換する方法である。ｗｏｒｄ２ｖｅｃについては例えば参考非特許文献２に開示されている。
（参考非特許文献２：Tomas Mikolov, Ilya Sutskever , Kai Chen, Greg Corrado, Jeffrey Dean, ”Distributed Representations of Words and Phrases and their Compositionality”, [online], Oct 2013, [平成28年5月30日検索]、インターネット<URL:https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf>）

次元Ｕは人手で指定する。例えば、Ｕ＝１００などが用いられる。以下、単語ｗのｗｏｒｄ２ｖｅｃの実数値ベクトルをｘ（ｗ）と書くことにする（このベクトルは縦ベクトルであるものとする）。これを用いて、前述の

の代わりに、

を用いる。すなわち、重要度計算部２４は、テキストデータの各単語ｗを、ＤＮＮを用いてＵ次元の実数値ベクトルｘ（ｗ）に変換し、当該Ｕ次元の実数値ベクトルｘ（ｗ）に基づいて、１位の音声認識結果に含まれる各単語の重要度を計算する（Ｓ２４）。

以下、図５、図６を参照して実施例３の音声認識装置の構成および動作について説明する。本実施例の音声認識装置３は、実施例２の音声認識装置２にさらに変更を加えたものである。図５に示すように本実施例の音声認識装置３は、コーパス記憶部１０と、音声認識部１１と、３ｇｒａｍ計算部１２と、重要度計算部３４と、不要単語削除部１５を含み、実施例２の重要度計算部２４が本実施例において重要度計算部３４に置き換えられていること以外については、実施例２と同様であるため、適宜説明を略する。

本実施例の重要度計算部３４は、単語の重要度を計算する際、ｗｏｒｄ２ｖｅｃによる実数値ベクトルのばらつきの度合いに基づいて重要度（文内での自然さ）を計算する。今、文中の各単語ｗ_１，ｗ_２，．．．，ｗ_Ｖのそれぞれに対し、実数値ベクトルｘ（ｗ_ｉ）を考える。
この実数値ベクトルの平均ベクトルである

を計算する。これを用いて、

をその単語の重要度（文内の自然さ）を表す指標とし、

の代わりに用いる。

以下、図７、図８を参照して実施例４の音声認識装置の構成および動作について説明する。本実施例の音声認識装置４は、実施例２の音声認識装置２にさらに変更を加えたものである。図７に示すように本実施例の音声認識装置４は、コーパス記憶部１０と、音声認識部１１と、３ｇｒａｍ計算部１２と、重要度計算部４４と、不要単語削除部１５を含み、実施例２の重要度計算部２４が本実施例において重要度計算部４４に置き換えられていること以外については、実施例２と同様であるため、適宜説明を略する。

本実施例の重要度計算部４４は、実施例３と同様に、単語の重要度を計算する際、ｗｏｒｄ２ｖｅｃによる実数値ベクトルのばらつきの度合いに基づいて重要度（文内での自然さ）を計算する。

今、文中の各単語ｗ_１，ｗ_２，．．．，ｗ_Ｙのそれぞれに対し、実数値ベクトルｗ_ｉを考える。この実数値ベクトル群が１混合正規分布に従うと仮定し、

を用いて、対数ガウス確率

を、その単語の重要度とする。これを、

の代わりに用いる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｎを２以上の整数とし、
入力された音声データに基づいて１位からＮ位の音声認識結果を出力する音声認識部と、
予め用意されたテキストデータの３ｇｒａｍ確率を計算する３ｇｒａｍ計算部と、
前記１位からＮ位の音声認識結果に含まれる各単語のｔｆと、前記テキストデータに基づいて予め用意されたｉｄｆのうち前記１位の音声認識結果に含まれる各単語のｉｄｆに基づき、前記１位の音声認識結果に含まれる各単語のｔｆ−ｉｄｆを計算するｔｆ−ｉｄｆ計算部と、
前記ｔｆ−ｉｄｆに基づいて前記１位の音声認識結果に含まれる各単語のＮＲＤを計算し、計算された前記ＮＲＤに基づく値を各単語の重要度として出力する重要度計算部と、
前記１位の音声認識結果に含まれる各単語の信頼度と、前記１位の音声認識結果に含まれる連続する三つの単語の３ｇｒａｍ確率と、前記１位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記１位の音声認識結果に含まれる不要単語を削除する不要単語削除部
を含む音声認識装置。
入力された音声データに基づいて１位の音声認識結果を出力する音声認識部と、
予め用意されたテキストデータの３ｇｒａｍ確率を計算する３ｇｒａｍ計算部と、
前記テキストデータの各単語を、ＤＮＮを用いて多次元の実数値ベクトルに変換し、前記多次元の実数値ベクトルに基づいて前記１位の音声認識結果に含まれる各単語の重要度を計算する重要度計算部と、
前記１位の音声認識結果に含まれる各単語の信頼度と、前記１位の音声認識結果に含まれる連続する三つの単語の３ｇｒａｍ確率と、前記１位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記１位の音声認識結果に含まれる不要単語を削除する不要単語削除部
を含む音声認識装置。
請求項２に記載の音声認識装置であって、
前記重要度計算部は、
前記実数値ベクトルのばらつきの度合いに基づいて前記重要度を計算する
音声認識装置。
音声認識装置が実行する音声認識方法であって、
Ｎを２以上の整数とし、
入力された音声データに基づいて１位からＮ位の音声認識結果を出力するステップと、
予め用意されたテキストデータの３ｇｒａｍ確率を計算するステップと、
前記１位からＮ位の音声認識結果に含まれる各単語のｔｆと、前記テキストデータに基づいて予め用意されたｉｄｆのうち前記１位の音声認識結果に含まれる各単語のｉｄｆに基づき、前記１位の音声認識結果に含まれる各単語のｔｆ−ｉｄｆを計算するステップと、
前記ｔｆ−ｉｄｆに基づいて前記１位の音声認識結果に含まれる各単語のＮＲＤを計算し、計算された前記ＮＲＤに基づく値を各単語の重要度として出力するステップと、
前記１位の音声認識結果に含まれる各単語の信頼度と、前記１位の音声認識結果に含まれる連続する三つの単語の３ｇｒａｍ確率と、前記１位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記１位の音声認識結果に含まれる不要単語を削除するステップ
を含む音声認識方法。
音声認識装置が実行する音声認識方法であって、
入力された音声データに基づいて１位の音声認識結果を出力するステップと、
予め用意されたテキストデータの３ｇｒａｍ確率を計算するステップと、
前記テキストデータの各単語を、ＤＮＮを用いて多次元の実数値ベクトルに変換し、前記多次元の実数値ベクトルに基づいて前記１位の音声認識結果に含まれる各単語の重要度を計算するステップと、
前記１位の音声認識結果に含まれる各単語の信頼度と、前記１位の音声認識結果に含まれる連続する三つの単語の３ｇｒａｍ確率と、前記１位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記１位の音声認識結果に含まれる不要単語を削除するステップ
を含む音声認識方法。
請求項５に記載の音声認識方法であって、
前記実数値ベクトルのばらつきの度合いに基づいて前記重要度を計算する
音声認識方法。
コンピュータを、請求項１から３の何れかに記載の音声認識装置として機能させるプログラム。