JP2016095399A

JP2016095399A - 音声認識結果整形装置、方法及びプログラム

Info

Publication number: JP2016095399A
Application number: JP2014231552A
Authority: JP
Inventors: 賢昭佐藤; Takaaki Sato; 隆伸大庭; Takanobu Oba
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-11-14
Filing date: 2014-11-14
Publication date: 2016-05-26

Abstract

【課題】従来よりも低いコストで音声認識結果の整形を行うことができる音声認識結果整形技術を提供する。【解決手段】最も確からしい音声認識結果を含む確からしさ上位N個の音声認識結果について音声認識結果整形を行う音声認識結果整形装置は、複数の整形文が記憶されている整形文記憶部２と、整形文記憶部から読み込んだ複数の整形文のそれぞれと上位N個の音声認識結果の文のそれぞれとの類似度を計算し、最も高い類似度に対応する複数の整形文の中の整形文である最大類似度整形文を出力する類似度計算部３と、最大類似度整形文を整形された音声認識結果として出力する整形部４と、を備えている。【選択図】図１

Description

本発明は、音声認識結果の整形技術に関する。

音声認識結果には、誤認識や言い誤りの表現が含まれることにより、文中に誤った文字が挿入されたり、文字が欠落していたり、本来あるべき文字が別の文字に置き変わっているなどの現象が生じる。これにより、可読性が落ちる、後段の言語処理が失敗するなどの問題がある。これを整った文、すなわち本来発話しようとした正解の文と内容が一致するように自動で事後修正することを、音声認識結果の「整形」と呼ぶ。

従来の音声認識結果の整形技術として、非特許文献１に記載された技術が知られている（例えば、非特許文献１参照。）。

Graham Neubig, 秋田祐哉, 森信介, 河原達也,"文脈を考慮した確率的モデルによる話し言葉の整形", 情報処理学会研究報告, 2009-SLP-79(17), pp.1-6,(2009)

非特許文献１に記載された従来の音声認識結果の整形では、音声認識結果（または忠実な書き起こし）と整形結果のペアが必要で、数百万語という単位の教師ありデータを用意しなければならなかった。また、この整形結果は、人手で作成しなければならず、非常にコストがかかった。

この発明の目的は、従来よりも低いコストで音声認識結果の整形を行うことができる音声認識結果整形装置、方法及びプログラムを提供することである。

本発明の一態様による音声認識結果整形装置は、最も確からしい音声認識結果を含む確からしさ上位N個の音声認識結果について音声認識結果整形を行う音声認識結果整形装置において、複数の整形文が記憶されている整形文記憶部と、整形文記憶部から読み込んだ複数の整形文のそれぞれと上位N個の音声認識結果の文のそれぞれとの類似度を計算し、最も高い類似度に対応する複数の整形文の中の整形文である最大類似度整形文を出力する類似度計算部と、最大類似度整形文を整形された音声認識結果として出力する整形部と、を備えている。

従来よりも低いコストで音声認識結果の整形を行うことができる。

音声認識結果整形装置の例の機能ブロック図。音声認識結果整形方法の例を示すフローチャート。

以下、本発明の実施形態について説明する。

図１に示すように、音声認識結果整形装置は、音声認識部１と、整形文記憶部２と、類似度計算部３と、整形部４とを例えば備えている。この音声認識結果整形装置が、図２に例示する各ステップの処理を行うことにより音声認識結果整形方法が実現される。

なお、音声認識結果整形装置は、音声認識部１を備えていなくてもよい。この場合、音声認識結果整形装置の外部の音声認識部により計算された音声認識結果の上位からN位までの文、及び、必要に応じて各文の各単語に対する信頼度が、類似度計算部３に入力される。

＜音声認識部１＞
音声認識部１には、音声データ（pcm,wavなど）及び必要に応じてユーザによって選択された最大結果出力数Nが入力される。Nは所定の正の整数である。Nが予め定められている場合には、Nがユーザによって選択及び入力されなくてもよい。音声認識部１は、例えば下記の処理を行い、音声認識結果の上位からN位までの文、及び、必要に応じて各文の各単語に対する信頼度（音声認識アルゴリズムがその単語らしいと判断したスコア）を出力する。

音声認識部１は、音声を入力として受け取り、一般的な文音声認識方法によって音声認識結果である文及び必要に応じて文中に含まれる各単語の信頼度を出力する。

信頼度の計算には、例えば参考文献１に記載された方法を用いることができる。
〔参考文献１〕中川聖一，堀部千寿，“音響尤度と言語尤度を用いた音声認識結果の信頼度の算出”，情報処理学会研究報告，音声言語情報処理36-13, pp.87-92, (2001)
例えば、「綺麗な風景画像がほしい」という発話（音声データ入力）に対して、音声認識部１によって、以下のように出力した文単位の結果と、その文の全単語の音響尤度と言語尤度の総和に基づいた文としての確からしさの順位と、テキスト文中の各単語に信頼度を持つ複数の認識結果が出力される。

1位：綺麗な風景などをがほしい
信頼度：綺麗な→0.7 風景→0.5 など→0.3 を→0.2 が→0.6 ほしい→0.9
2位：綺麗な風景画像がほしい
信頼度：綺麗な→0.7 風景→0.5 画像→0.2 が→0.6 ほしい→0.9
通常の音声認識処理ではこのうち1位の結果を最適な候補として選択し出力している。本実施形態においては、1位以外の下位の結果もその後の音声認識結果の整形処理に利用するため、この複数の認識結果をそのまま類似度計算部３に渡す。しかし、例えば音声認識結果が200位まで存在すると仮定すると、1位〜200位すべての文を音声認識システムが計算するのは時間がかかる。そこで、上位最大何位まで考慮するかの整数N（ただし1≦N≦(認識結果順位の上限)）を例えば利用者が入力し、1位からN位までと制限をしたうえで、該当する最大N個の文と単語の信頼度を計算結果として出力してもよい。

このようにして、音声認識部１は、音声認識を行い、最も確からしい音声認識結果を含む確からしさ上位N個の音声認識結果を出力する（ステップＳ１）。類似度計算部３の処理で用いられる場合には、音声認識部１は、上位N個の音声認識結果に含まれる各単語の信頼度を更に出力する。

＜整形文記憶部２＞
整形文記憶部２には、複数の整形文が記憶されている。整形文記憶部２に記憶されている整形文の数をDとする。Dは、２以上の整数である。

整形文は、日本語として文法の誤りが少ないように予め整形された文である。整形文として、例えば、過去の手入力文を用いることができる。また、整形文は、過去の音声入力発話からある閾値以下の信頼度の単語を1つ以上含んでいるような文を削除するなどの方法により生成されてもよい。

＜類似度計算部３＞
類似度計算部３には、最も確からしい音声認識結果を含む確からしさ上位N個の音声認識結果、及び、整形文記憶部２から読み込んだ複数の整形文が入力される。類似度計算部３は、例えば下記の処理を行い、最大類似度整形文を出力する。

類似度計算部３は、上位N個の音声認識結果の文及び複数の整形文を適切な特徴量である特徴ベクトルに変換する。これは、音声認識結果の文を整形文記憶部２に記憶された複数の整形文の中の類似の文に置換する際、類似していることを数値計算で扱えるようにすることが目的である。

例えば、次のような音声認識結果の文を考える。

発話：「綺麗な風景画像がほしい」
音声認識結果：「綺麗な風景などをがほしい」（「画像」→「などを」と誤認識）
この音声認識結果を、類似した正しい文に置換する。

整形文記憶部２には、
「綺麗な風景画像がほしい」
「綺麗な風景がみれる場所」
「綺麗な風景を教えて」
・・・
といった多数の整形文を用意しておく。

まず、類似度計算部３は、音声認識部１が出力した上位N個の音声認識結果の文のそれぞれと、整形文記憶部２から読み込んだ複数の整形文のそれぞれとについて、このままだと言葉の形式になっているものを、特徴ベクトル化する。実用上は、整形文記憶部２に記憶されている整形文はすでに与えられているため、あらかじめ以下に示す（１）から（４）の方法によって予め特徴ベクトル化しておき、入力が与えられたときは音声認識結果の文のみについて特徴ベクトルへの変換を行ってもよい。

つぎに、類似度計算部３は、音声認識結果の文の特徴ベクトルと整形文の特徴ベクトルとを用いて類似度の計算を行う。類似度計算には、以下に説明する、それぞれの特徴ベクトル化に応じた距離尺度を用いる。

具体的には、特徴ベクトル化と類似度計算には以下の（１）から（４）に示す方法を用いる。

（１）第一の方法について
第一方法では、ある文の特徴ベクトルを、その文の各単語の出現頻度を表すベクトルとする。また、ある第一文とある第二文の類似度は、その第一文の特徴ベクトルとその第二文の特徴ベクトルとの距離の近さであるとする。距離の近さとは、例えば後述するcos距離である。ある第一文とは複数の整形文の何れかであり、ある第二文とは上位N個の音声認識結果の文の何れかである。

すなわち、第一の方法では、音声認識結果の文の特徴ベクトルの各次元の値を、当該音声認識結果文中の単語の出現頻度とする。また、整形文の特徴ベクトルの各次元の値を、当該整形文の中の単語の出現頻度とする。

この特徴ベクトルは音声認識の辞書に登録されている単語の数（例えば認識対象の単語数が50万単語であれば50万次元）だけ次元を持つ。そして、音声認識結果の文すべてと、整形文すべてを特徴ベクトル化しcos類似度を取り、最高類似度の文である最大類似度整形文と必要に応じてその類似度を出力する。

音声認識結果の文の特徴ベクトル算出法の例は、以下の通りである。

例：「綺麗な風景などをがほしい」
このとき、数値ベクトルの各次元の値は、各単語の出現頻度なので、
綺麗な→1、風景→1、など→1、を→1、が→1、ほしい→1であり、他は0となる。この特徴ベクトル化を、1位〜N位の音声認識結果の文のそれぞれに対して行う。そして、その特徴ベクトルをx_i (1≦i≦N)とする。

第一の方法では、出現頻度とは、その文1つの中で何回該当単語が出現するか、という意味である。例えば、「綺麗な綺麗な風景画像」という文であれば、
綺麗な→２、風景→１、画像→１となる。

整形文記憶部２に記憶された整形文の特徴ベクトル算出法の例については以下の通りである。

例:「綺麗な風景画像がほしい」
このとき、数値ベクトルの各次元の値は、
綺麗な→1、風景→1、画像→1、が→1、ほしい→1であり、他は0となる。この特徴ベクトル化を整形文記憶部２に記憶された複数の整形文のそれぞれに対して行い、その特徴ベクトルをy_i (1≦j≦D)とする。Dは、整形文記憶部２に記憶された整形文の数である。

ベクトルxとベクトルyのcos距離は、

と定義される。

このとき、先の2つの文のcos距離を計算する。
x・y=1×1(綺麗な)＋1×1(風景)+1×0(など)+1×0(を)+1×1(が)＋1×1(ほしい)+1×0(画像) = 4
||x||及び||y||は、それぞれベクトルx,yのノルムに相当する。
||x||=1²(綺麗な)+1² (風景)+1²(など)+1² (を)+1²(が)+1² (ほしい)=6
||y||=1²(綺麗な)+1² (風景)+1²(画像)+1² (が)+1²(ほしい)=5
であるため、

となる。

以上のように計算された、上位N個の音声認識結果の文の特徴ベクトルx_i (1≦i≦N)と、複数の整形文の特徴ベクトルy_i(1≦j≦D)を用いて、すべての(i,j)の組み合わせに対して上記の方法でcos距離を計算し、一番大きい値を返すy_iに対応する最大類似度の整形文である最大類似度整形文と、その類似度を最大類似度として出力する。

例えば、音声認識結果の3位の文と整形文記憶部２に記憶された10個目の整形文のcos類似度が全ての音声認識結果の文および整形文記憶部２に記憶された整形文の中で最大であった場合、出力は10個目の整形文とその類似度の値である。

（２）第二の方法について
第二の方法では、ある文の特徴ベクトルを、その文の各単語が整形文記憶部２に記憶されている複数の整形文において出現する頻度を表すベクトルとする。また、ある第一文とある第二文の類似度は、その第一文の特徴ベクトルとその第二文の特徴ベクトルとの距離の近さであるとする。距離の近さとは、例えば後述するcos距離である。ある第一文とは複数の整形文の何れかであり、ある第二文とは上位N個の音声認識結果の文の何れかである。

すなわち、第二の方法では、例えば、音声認識結果の文の特徴ベクトルの各次元の値を、後述するtfidfとする。また、整形文の特徴ベクトルの各次元の値を、後述するtfidfとする。

まず、整形文記憶部２に記憶されているすべての整形文を使って、整形文記憶部２に記憶されている整形文に出現する各単語について、idfを計算する。

単語aのidfとは、整形文記憶部２に記憶されている整形文の数をD、そのD個の整形文の中で単語aが出現する文章の数をdとすると、log(D/d)である。対数の底は任意の1より大きい正の実数とする。以下の例では底は10であるとする。

例えば、D=150000で、
「綺麗な」が出現する文の数・・・400
「風景」が出現する文の数・・・300
「画像」が出現する文の数・・・2000
「など」が出現する文の数・・・3000
「を」が出現する文の数・・・50000
「が」が出現する文の数・・・40000
「ほしい」が出現する文の数・・・5000
であったとする。

このとき、各単語のidfは以下のように計算される。
「綺麗な」のidf＝log(150000/400)=2.24
「風景」のidf＝log(150000/300)=2.70
「画像」のidf＝log(150000/2000)=1.88
「など」のidf＝log(150000/3000)=1.70
「を」のidf＝log(150000/50000)=0.478
「が」のidf＝log(150000/40000)=0.57
「ほしい」のidf＝log(150000/2000)=1.88
と計算される。

次に、音声認識結果の文と整形文について、tfidf値を計算し数値ベクトル化する。

まず、単語iについてのtfを定義する。ある文の中の単語がK種類あり、単語iの文中における出現頻度をn_i(1≦i≦K)とすると、その文における単語iについてのtf_iは以下のように表される。

例:「綺麗な風景などをがほしい」
それぞれの単語の出現頻度が、
綺麗な→1、風景→1、など→1、を→1, が→1、ほしい→1であることから、音声認識結果文における単語の出現頻度の累計数は6であり、各単語のtfは、
綺麗な→1/6、風景→1/6、など→1/6、を→1/6、が→1/6、ほしい→1/6
となる。

ここで、tfidfを計算する。tfとidfの積によって定義されるので、
綺麗な→(1/6)・2.24＝0.37、風景→(1/6)・2.70=0.45、など→(1/6)・1.70=0.28、
を→(1/6)・0.478=0.080、が→(1/6)・0.57=0.095、ほしい→(1/6)・1.88=0.31
となる。このtfidfの値の意味は、「を」などの一般的な単語は軽視し、「風景」などの珍しい単語は情報が多いと考え大きい値を割り当てるものである。

例:「綺麗な風景画像がほしい」
について、先と同様にtfidfを計算すると、
綺麗な→(1/5)・2.24＝0.45、風景→(1/5)・2.70=0.54、画像→(1/5)・1.70=0.34、
が→(1/5)・0.57=0.114、ほしい→(1/5)・1.88=0.38
となる。

（３）第三の方法
第三の方法では、ある文の特徴ベクトルを、その文の各単語の出現頻度を表すベクトルとし、ある文の信頼度特徴ベクトルを、その文の各単語の信頼度を表すベクトルとする。また、複数の整形文の何れかである第一文と上位N個の音声認識結果の文の何れかである第二文の類似度は、その第一文の特徴ベクトルとその第二文の信頼度特徴ベクトルとの距離の近さである。距離の近さとは、例えば後述するcos距離である。

すなわち、第三の方法では、例えば、音声認識結果の文の信頼度特徴ベクトルの各次元の値を、その音声認識結果の文の各単語の信頼度とする。また、整形文の特徴ベクトルの各次元の値を、単語の頻度とする。

音声認識結果には、信頼度（音声認識アルゴリズムがその単語らしいと判断したスコア）が存在する。信頼度は値が大きいほど信頼性が高いことを示す。第三の方法を採用する場合には、音声認識結果の文と共にその文の各単語の信頼度が類似度計算部３に入力されるとする。

例えば、音声認識結果が「綺麗な風景などをがほしい」であり、各単語の信頼度の値が、
綺麗な→0.7 風景→0.5 など→0.3 を→0.2 が→0.6 ほしい→0.9
であったとする。

信頼度特徴ベクトルとして、そのまま信頼度の値を用いる。よって、信頼度特徴ベクトルの各次元の値は、
綺麗な→0.7 風景→0.5 など→0.3 を→0.2 が→0.6 ほしい→0.9
となる。

整形文記憶部２に記憶されている整形文については、音声認識結果による信頼度の値がないため、代わりに単語の文中における出現頻度を特徴ベクトル化する。

例えば、「綺麗な風景画像がほしい」という文は、
綺麗な→1 風景→1 など→1 画像→1 ほしい→1
と特徴ベクトル化される。

信頼度は音声認識結果におけるその単語の発生確率のような意味を持つ値であるため、信頼度と頻度との類似度を計算するこの方法は、「音声認識の確からしさの重みづけを考慮した頻度」という意味になる。

以上のように計算された、上位N個の音声認識結果の文の信頼度特徴ベクトルx_i (1≦i≦N)と、複数の整形文の特徴ベクトルy_i(1≦j≦D)を用いて、すべての(i,j)の組み合わせに対して上記の方法でcos距離を計算し、一番大きい値を返すy_iに対応する最大類似度の整形文である最大類似度整形文と、その類似度を最大類似度として出力する。

（４）第四の方法
第四の方法では、ある文の特徴ベクトルとして、その文の音素列を用いる。第四の方法では、ある第一文とある第二文の類似度は、その第一文の音素列である特徴ベクトルとその第二文の音素列である特徴ベクトルのレーベンシュタイン（Leven Shtein）距離の近さである。レーベンシュタイン距離は、編集距離とも呼ばれる。以下、レーベンシュタイン距離のことを、LS距離と略記する。ある第一文とは複数の整形文の何れかであり、ある第二文とは上位N個の音声認識結果の文の何れかである。

第四の方法では、音声認識結果の文と整形文を音素列に直し、LS距離により類似度を測る。文字列から音素列への変換は、形態素解析後の各単語について、日本語辞書をもとに自動付与する。

例えば、音声認識結果の文
「綺麗な風景などをがほしい」→kireinahuukeinadowogahosii(音素列)・・・A
とする。

また、整形文
「綺麗な風景画像がほしい」→kireinahuukeigazougahosii(音素列)・・・B
とする。

LS距離は、2つの文字列間の異なり度を表す指標であり、片方の文字列に1文字の置換/挿入/削除を何回行えばもう片方の文字列に変換できるかという回数のことである。

具体的に説明すると、Aの文字列をBの文字列に変更するには、
kireinahuukeinadowogahosii
→kireinahuukeigadowogahosii (n→gに変換)
→kireinahuukeigazowogahosii (d→zに変換)
→kireinahuukeigazoogahosii (wを削除)
→kireinahuukeigazougahosii (o→uに変換)
となり、4回の操作が要求されるので、AとBのLS距離は、４となる。

この操作の回数が少なくてすむような、文字列(x,y)のペアは文字列が似ており、回数が多いような文字列(x,y)のペアは文字列が異なっている。よって、このLS距離は、2つの文字列間の異なり度を表す指標であると言える。

このLS距離は類似度ではなく、距離であるため、逆数を取るもしくは符号を反転させて用いる。すなわち、LS距離の近さを類似度として用いる、ここでは、LS距離の近さをLS類似度と定義する。

このようにLS距離を用いれば、音声認識の音響モデルにおいて音素を間違えた場合でも、頑健な整形を行うことができる。

以上のように計算された、上位N個の音声認識結果の文の特徴ベクトルx_i (1≦i≦N)と、複数の整形文の特徴ベクトルy_i(1≦j≦D)を用いて、すべての(i,j)の組み合わせに対して上記の方法でLS類似度を計算し、一番大きい値を返すy_iに対応する最大類似度の整形文である最大類似度整形文と、そのLS類似度とを最大類似度として出力する。

このように、例えば上記（１）から（４）の方法により、類似度計算部３は、整形文記憶部２から読み込んだ複数の整形文のそれぞれと上位N個の音声認識結果の文のそれぞれとの類似度を計算し、最も高い類似度に対応する複数の整形文の中の整形文である最大類似度整形文を出力する（ステップＳ２）。

＜整形部４＞
整形部４には、音声認識結果の1位の文、及び、最大類似度整形文が入力される。後述する所定の閾値との比較に基づく処理が行われる場合には、最大類似度整形文に対応する類似度である最大類似度についても入力される。整形文４は、以下の処理により、整形結果の文を出力する。

整形部４は、類似度計算部３により決定された最大類似度整形文を整形された音声認識結果として出力する（ステップＳ３）。整形部４は、最大類似度整形文に対応する最大類似度が所定の閾値よりも小さい場合には、整形できる文は整形文記憶部２に存在しないものと判断し、元の音声認識結果の1位の文をそのまま出力する。なお、この整形文４による所定の閾値との比較に基づく処理は行われなくてもよい。

所定の閾値として、類似度計算部３が用いた類似度を計算するための上記（１）から（４）の方法によらず同じ閾値を用いるときであって、類似度計算部３が上記（４）第四の方法を用いた場合には、言い換えれば類似度としてLS距離の近さを用いた場合は、cos距離と同じ範囲（すなわち０〜１の範囲）の数値が取れるように、ある適切な値で最大類似度の値を割っておいてもよい。もちろん、所定の閾値として、類似度計算部３が用いた類似度を計算するための上記（１）から（４）の方法に応じて異なる値を選択してもよい。

このように、整形文記憶部２に記憶された整形文から、音声認識結果の文に類似した文を持ってきてその音声認識結果の文の代わりに置き換えることで整形を行う。整形文記憶部２に複数の整形文を予め記憶しておく必要があるが、従来技術のように音声認識結果（または忠実な書き起こし）と整った文との間でモデル学習するコストと比較すると、そのコストは低い。

［上記（４）第四の方法の変形例について］
なお、音声認識のアルゴリズムでは、
・aをbに間違えることは少ないが、mをnに間違えることは多い。
・sは雑音に交じって削除が起こりやすい。
などといったように、置換／挿入／削除が起こる可能性は音素ごとに異なるはずである。
しかし通常のLS距離では、あらゆる音素の置換/挿入/削除が平等に１としてカウントされてしまう。これは、上記のような音素ごとの誤りの傾向を無視していることになる。

そこで、
A．ある音素が他の音素に置換される重み
B．ある音素が削除される重み
C．ある音素が挿入される重み
を考慮した重みつきLS距離を導入してもよい。

Aについては、ある音素が他の音素に置換される重みを、すべての音素の組み合わせに対して値を振っておく。例えば、m⇔nの誤りが起こりやすいのならば、値は0.3など、1より小さい置換重みを割り当てる。また、m⇔kの誤りが起こりにくいのならば、値は5など、 1より大きい置換重みを割り当てる。

B、Cについては、ある音素が削除される重みと、挿入される重みの値を振っておく。
例えば、sの音は削除が起こりやすいのならば、値を0.3など、1より小さい削除重みを割り当てる。mの音は挿入が起こりやすいのならば、値を0.3など、1より小さい削除重みを割り当てる。

これを使った重みつきLS距離の計算例を示す。
kyouhaiitenkidesu・・・Aとする。
kyohaitenkkidesu・・・Bとする。
BをAに変換する際の重みつきLS距離を計算する。必要な操作は、h→wに変換、iを挿入、kを削除である。h→wの置換重みを2、iの挿入重みを3、kの削除重みを0.3とすると、重みつき編集距離は、2+3+0.3=5.3となる。

この重みは、音声認識結果の文の音素列と整形文記憶部２に記憶された整形文の音素列から、すべての音素に対して、
（ｉ）ある音素が違う音素に置換された割合
（ｉｉ）ある音素が挿入された割合
（ｉｉｉ）ある音素が削除された割合
を頻度計算することにより例えば算出することができる。

このように、レーベンシュタイン距離は、レーベンシュタイン距離を計算する際の音素に対する操作の種類に応じて定められた異なる重みに基づいて計算されてもよい。

［上記（１）第一の方法、上記（２）第二の方法及び上記（３）第三の方法の変形例について］
上記（１）第一の方法、上記（２）第二の方法及び上記（３）第三の方法において、単語を特徴ベクトルにする際、内容語に重みを考慮してもよい。ここで、内容語とは、助詞と助動詞以外に該当する単語と定義する。

例えば、上記（１）第一の方法のケースで説明する。「綺麗な風景などをがほしい」という文を例に挙げる。このとき、特徴ベクトルの各次元の値は、各単語の出現頻度なので、
綺麗な→1、風景→1、など→1、を→1、が→1、ほしい→1であり、他は0となる。ここで、「を」と「が」以外は内容語であるため、例えば内容語重みを10として、
綺麗な→10、風景→10、など→10、を→1、が→1、ほしい→10とする。
上記（２）第二の方法及び上記（３）第三の方法においても、同様である。

この内容語重みの値は、例えば人手で適切な値を設定する。

［上記（４）第四の方法の他の変形例について］
類似度計算部３におけるLS類似度を、音声認識結果の文の音素列の長さ及び整形文の音素列の長さを用いて正規化したLS距離を1から引いた値と定義してもよい。このようにして定義したLS類似度は、0以上1以下の値となる。

音声認識結果の文
ここはが飲みたい→kokohaganomitai」
整形文
ココアが飲みたい→kokoaganomitai
であったとすれば、LS距離は1(削除1回)となり、正規化したLS距離は両方の音素の長さの積でこのLS距離を割った、

となる。

よって、正規化したLS類似度は、

となる。

［他の変形例］
上記装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、上記各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

最も確からしい音声認識結果を含む確からしさ上位N個の音声認識結果について音声認識結果整形を行う音声認識結果整形装置において、
複数の整形文が記憶されている整形文記憶部と、
上記整形文記憶部から読み込んだ複数の整形文のそれぞれと上記上位N個の音声認識結果の文のそれぞれとの類似度を計算し、最も高い類似度に対応する上記複数の整形文の中の整形文である最大類似度整形文を出力する類似度計算部と、
上記最大類似度整形文を整形された音声認識結果として出力する整形部と、
を含む音声認識結果整形装置。
請求項１の音声認識結果整形装置において、
ある文の特徴ベクトルを、その文の各単語の出現頻度を表すベクトルとして、
上記複数の整形文の何れかである第一文と上記上位N個の音声認識結果の文の何れかである第二文の類似度は、その第一文の特徴ベクトルとその第二文の特徴ベクトルとの距離の近さである、
音声認識結果整形装置。
請求項１の音声認識結果整形装置において、
ある文の特徴ベクトルを、その文の各単語が上記整形文記憶部に記憶されている複数の整形文において出現する頻度を表すベクトルとして、
上記複数の整形文の何れかである第一文と上記上位N個の音声認識結果の文の何れかである第二文の類似度は、その第一文の特徴ベクトルとその第二文の特徴ベクトルとの距離の近さである、
音声認識結果整形装置。
請求項１の音声認識結果整形装置において、
上記音声認識部は、上記上位N個の音声認識結果のそれぞれの文を構成する単語の信頼度を更に出力し、
ある文の特徴ベクトルを、その文の各単語の出現頻度を表すベクトルとし、
ある文の信頼度特徴ベクトルを、その文の各単語の信頼度を表すベクトルとして、
上記複数の整形文の何れかである第一文と上記上位N個の音声認識結果の文の何れかである第二文の類似度は、その第一文の特徴ベクトルとその第二文の信頼度特徴ベクトルとの距離の近さである、
音声認識結果整形装置。
請求項１の音声認識結果整形装置において、
上記複数の整形文の何れかである第一文と上記上位N個の音声認識結果の文の何れかである第二文の類似度は、その第一文の音素列とその第二文の音素列のレーベンシュタイン距離の近さである、
音声認識結果整形装置。
請求項５の音声認識結果整形装置において、
上記レーベンシュタイン距離は、上記レーベンシュタイン距離を計算する際の音素に対する操作の種類に応じて定められた異なる重みに基づいて計算される、
音声認識結果整形装置。
最も確からしい音声認識結果を含む確からしさ上位N個の音声認識結果について音声認識結果整形を行う音声認識結果整形方法において、
類似度計算部が、複数の整形文が記憶されている整形文記憶部から読み込んだ複数の整形文のそれぞれと上記上位N個の音声認識結果の文のそれぞれとの類似度を計算し、最も高い類似度に対応する上記複数の整形文の中の整形文である最大類似度整形文を出力する類似度計算ステップと、
整形部が、上記最大類似度整形文を整形された音声認識結果として出力する整形ステップと、
を含む音声認識結果整形方法。
請求項１から６の何れかの音声認識結果整形装置の各部としてコンピュータを機能させるためのプログラム。