JP2016091028A

JP2016091028A - 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム

Info

Publication number: JP2016091028A
Application number: JP2015211710A
Authority: JP
Inventors: 坤雍; Kun Yong; 沛丁; Pei Ding; 会峰朱; Huifeng Zhu
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-10-31
Filing date: 2015-10-28
Publication date: 2016-05-23
Anticipated expiration: 2035-10-28
Also published as: US9672817B2; JP6204959B2; CN105632499B; US20160125874A1; CN105632499A

Abstract

【課題】音声認識エンジンを改変すること無く、少ない計算コストで、キーワードリストを介して音声認識結果を最適化することが可能な装置を提供する。【解決手段】実施形態に係る音声認識結果最適化装置は、音声認識エンジンから音声認識結果を受け取る受取部と、前記音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算する計算部と、前記発音類似度が第１閾値よりも高い場合、前記セグメントを前記キーワードで置き換える置換部とを備える。【選択図】図１

Description

本発明の実施形態は、音声認識結果最適化装置、音声認識結果最適化方法、及びプログラムに関する。

音声認識の適用シナリオにおいて、音声内容にはキーワードがいつも含まれる。キーワードが正しく認識されることは、音声認識システムに対するユーザ満足感と大いに関係している。例えば、音声認識システムが会議話者の発言内容を認識する会議支援アプリケーションにおいて、その会議に含まれる重要人物名、場所名、技術用語等はキーワードとなる。キーワードの認識精度はこのアプリケーションの最重要な処理指標となる。

キーワードは２つのカテゴリに分類される。もしキーワードが音声認識システムのシステム辞書に含まれない場合は、それを新語という。もしキーワードがシステム辞書に含まれる場合は、それを核語という。新語はシステム辞書に登録されておらず、音声認識システムはシステム辞書の登録語のみを出力できるため、新語を（完全には）直接に認識することが出来ない。

新語のほとんどがシステム辞書に存在する語で構成されており、間接的に認識して出力できるとしても、新語のそのような構成例は学習コーパスでは非常に稀である。この学習コーパスは、新語について非常に低い言語モデル（ＬＭ）スコアを生じる。従ってこの方法では、新語の認識成功確率が非常に低くなる。

システム辞書に登録された核語について、もしシステム辞書に存在する非核語が同じまたは類似した発音であって高いＬＭスコアを有する場合、音声認識システムはこの非核語を出力結果として間違って選択する傾向がある。

このように、通常の音声認識システムによるキーワードの認識精度は非常に低く、キーワードと同じか類似した発音を有する単語が誤認識結果となっていた。

キーワードの認識精度を向上するために、キーワードのＬＭスコアを増加することは非常に危険である。一般に、クラスベースのＬＭはこの目的で用いられる。この方法では、あるキーワードタイプに対応するクラス（例えば、人名のクラス、場所名のクラス、技術用語のクラス）が構築される。そして、クラスの属性を有する所定数の代表語がシステム辞書から選択され、該クラスに付加される。ＬＭ学習においては、各クラスのＬＭスコアは、該クラスに含まれる全ての代表語の統計に基づいて計算される。認識前に、キーワードがシステム辞書に登録され、最適クラスにリンクされる。認識ステージにおいては、キーワードはそれが属するＬＭスコアをシェアする。代表語のＬＭスコアは非常に高い為、キーワードのＬＭスコアも大幅に増加する。結果として、認識精度が効率的に向上する。

しかしながら、上記のクラスベースＬＭ方法を使ったとしても、正しく認識できないキーワードがある程度存在する。従って、音声認識システム、特に会議支援システムにおいて、ユーザが満足できない音声認識結果となっていた。

特許第５２８２７３７号公報ＵＳ２０１２／０２９０３０２号公報

音声認識エンジンを改変すること無く、少ない計算コストで、キーワードリストを介して音声認識結果を最適化することが可能な音声認識結果最適化装置、音声認識結果最適化方法、及びプログラムを提供することを目的とする。

実施形態に係る音声認識結果最適化装置は、音声認識エンジンから音声認識結果を受け取る受取部と、前記音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算する計算部と、前記発音類似度が第１閾値よりも高い場合、前記セグメントを前記キーワードで置き換える置換部とを備える。

１実施形態に係る音声認識結果最適化方法のフローチャート。好適な実施形態に係る音声認識結果最適化方法のフローチャート。キーワードリストと音声認識結果とのマッチング例を示す図。平均聴覚距離を計算するための具体例を示す図。他の実施形態に係る音声認識結果最適化装置のブロック図。

以下、図面を参照しながら、発明を実施するための実施形態について説明する。

＜音声認識結果最適化方法＞
本発明の第１の実施形態は音声認識結果最適化方法を提供する。この方法は以下のステップを有する。音声認識結果を受け取るステップ、該音声認識結果のセグメント（分割単位）とキーワードリスト内のキーワードとの発音類似度を計算するステップ、該発音類似度が第１閾値よりも高い場合は、該セグメントをキーワードで置き換えるステップ、である。

図１は、第１の実施形態に係る音声認識結果最適化方法を示すフローチャートである。図１に示すように、先ずステップ１０１において、音声認識エンジンから音声認識結果１０１が受信される。

該実施形態において、受信された音声認識結果１０は、当業者に周知のいずれかの音声認識エンジン又はシステムを介して取得可能であり、中国語、英語、日本語等の、いずれかの言語による音声認識結果でありえる。本発明はこれに関して制限は無い。

次にステップ１０５において、音声認識結果１０のセグメントとキーワードリスト２０のキーワードとの発音類似度を計算する。

本実施形態においては、音声認識結果のセグメントは、該音声認識結果の単語、複数の隣接する単語の組み合わせ、又は複数の隣接する文字列の組み合わせ、を含む。

本実施形態においては、発音類似度を計算するステップ１０５の処理は、実際は音声認識結果とキーワードリストとのマッチング処理である。つまり、キーワードリストを用いて音声認識結果の間違った出力セグメントを獲得する処理である。

ステップ１０５において望ましくは、マッチングは音声認識結果の始端から、全ての音声認識結果について完了するまで実行すべきである。更に計算コストを減らすため、音声認識結果のセグメントであって、言語モデルスコアが第２閾値より低いもののみ、キーワードリストとのマッチングを行ってもよい。音声認識結果のセグメントの言語モデルスコアは、該セグメントに関連する単語の言語モデルスコアに基づいて計算してもよい。ここで音声認識結果の単語の言語モデルスコアは音声認識結果に存在するデータである。

図３は音声認識結果とキーワードリストとのマッチング例を示す図である。図３に示すように、音声認識結果“高強度{gao1qiang2du4,LMS1}茶{cha2,LMS2}果{guo3,LMS3}制作{zhi4zuo4,LMS4}”は４つの単語、各単語の言語モデルスコア(LMS)、及び各単語の各文字のピンインと音、から構成される。キーワードリスト“キーワード_1{ピンイン_1},...叉管{cha1guan3｝,...キーワード_N{ピンイン_N｝”は、Ｎ個のキーワード、各キーワードの各文字のピンインと音、から構成される。

図３の例において、２番目の単語“茶{cha2,LMS2}”と３番目の単語“果{guo3,LMS3}”は１セグメントに組み合わせられる。キーワードリストの各キーワードは音声認識結果の３個のセグメントと夫々マッチングがとられ、各キーワードと各セグメント間の発音類似度が得られる。

本例においては、全てのキーワードについて、２番目の単語“茶{cha2,LMS2}”と３番目の単語“果{guo3,LMS3}”は１セグメントに組み合わせられているが、本実施形態はこれに限られない。各キーワードについて、音声認識結果の複数の隣接する単語、又は複数の隣接する文字を組み合わせてもよい。

マッチング方法について、“高強度茶果制作”と“叉管”を例として以下説明する。

音声認識結果：高強度茶果制作
マッチングすべきキーワード：叉管
１マッチング方法は単語レベルファジーマッチングである：
マッチングすべきセグメントは１又は複数の隣接語であり、その少なくとも１つは次の類似度計算を有する：
茶＜-＞叉管
茶果＜-＞叉管
茶果制作＜-＞叉管
果制作＜-＞叉管
高強度茶果制作＜-＞叉管
.....
他のマッチング方法は文字レベルファジーマッチングである：
マッチングすべきセグメントは１又は複数の隣接文字であり、マッチングすべきタイプ数は第１シナリオより大きく、その少なくとも１つは次の類似度計算を有する：
強度＜-＞叉管
度＜-＞叉管
度茶＜-＞叉管
茶＜-＞叉管
茶果＜-＞叉管
果制＜-＞叉管
高強度茶果制作＜-＞叉管
上記マッチング方法の特定アルゴリズムは動的計画アルゴリズムが望ましい。これによれば、アルゴリズムの消費時間を効率的に削減できる。

本実施形態において、セグメントとキーワード間の発音類似度は、その２つの発音の類似度であり、望ましくは２つの聴覚距離を用いて計算すべきである。２つの聴覚距離が小さくなるほど、２つの類似度が高くなる。聴覚距離の計算は図面を用いて後程詳細に説明する。

次にステップ１１０において、セグメントとキーワード間の発音類似度が第１閾値よりも高い場合、該セグメントを該キーワードで置き換える。

本実施形態において、第１閾値及び第２閾値は実際の用途に応じて設定されるが、本発明はこれに限定されない。

次に、音声認識結果最適化方法の好適実施形態を図２〜図４を用いて詳細に説明する。

図２に示すように、ステップ２０１において、ステップ１０１と同様に、音声認識結果１０１を受信する。

次にステップ２０５において、音声認識結果１０のセグメントとキーワードリスト２０内のキーワードとの平均聴覚距離を計算する。

本実施形態において、聴覚距離の計算は、音声認識結果１０のセグメントの音素列とキーワードの音素列間の差と比較するためのものであり、望ましくは、各音素ペア間の聴覚距離は音素混同行列によって重み付けすべきである。音素は発音の基本単位である。標準中国語にとっては、音素はピンインであり、ピンインは子音（頭文字）と母音（最終文字）に分割される。あるいは、結合した母音は更に単母音に分割される。一般に、子音と母音を用いた音素の分割は、本実施形態の方法にとって十分正確である。音素混同行列は認識結果の統計に基づいて計算され、各音素ペアの混同度の定量的な測定（つまり、音声認識の見地からの聴覚類似度の測定）である。類似した発音を有する２音素は聴覚距離の意味で非常に近い。例えば、標準中国語の音素の“in”と“ing”は発音が非常に似ており、“in”は“ing”として誤認識されやすく、“ing”は“in”として誤認識されやすい。従って、この発音差が出力セグメントの音素列とキーワードの音素列間で生じるならば、聴覚距離への寄与分が相対的に小さくなる。逆に、２音素の発音差が大きいならば、聴覚距離への寄与分が相対的に大きくなる。

標準中国語は音調言語であるため、音系列の比較を聴覚距離計算に付加できる。望ましくは、聴覚距離は音混同行列を用いて重み付けすべきである。

本実施形態において、音素系列の聴覚距離と音系列の聴覚距離を重み付けして加算することが望ましい。例えば、２つの重みをwと1-wに夫々設定する。もし音素系列の聴覚距離の計算のみ考慮するならば、それはw=1のシナリオに対応する。更に、音声認識結果のセグメントとキーワード間の聴覚距離を、該キーワードの文字数、音節数、又は音素数で除算することにより、単文字、単音節、又は単音素の平均聴覚距離が得られる。

次に、平均聴覚距離の計算プロセスを図４を用いて詳細に説明する。図４に示す通り、セグメント“茶{cha2}果{guo3}”とキーワード“叉管{cha1guan3}”を例として説明する。

第１に、セグメント“茶{cha2}果{guo3}”の音素系列“ch, a, g, uo”とキーワード“叉管{cha1guan3}”の音素系列“ch, a, g, uan”に基づいて、これら２つの音素聴覚距離を計算する。計算時には、各音素ペア間の聴覚距離を音素混同行列を用いて重み付けする。

第２に、セグメント“茶{cha2}果{guo3}”の音系列“2, 3”とキーワード“叉管{cha1guan3}”の音系列“1, 3”に基づいて、これら２つの音聴覚距離を計算する。計算時には、各音ペア間の聴覚距離を音混同行列を用いて重み付けする。

第３に、音素聴覚距離と音聴覚距離の重みをwと1-wに夫々設定する。これら２つの重み付き平均をセグメントとキーワード間の聴覚距離として計算する。

第４に、セグメントとキーワード間の聴覚距離を、該キーワードの文字数“2”、音節数“2”、又は音素数“4”で除算することにより、単文字、単音節、又は単音素の平均聴覚距離を得る。

図２に戻って、次にステップ２１０において、ステップ２０５で計算した平均聴覚距離を第１閾値TH1と比較する。平均聴覚距離がTH1より小さい場合は、処理をステップ２１５へ進める。そうでない場合は、処理をステップ２２５へ進める。

ステップ２１５において、セグメント“茶{cha2}果{guo3}”の言語モデルスコアを第２閾値TH2と比較する。セグメント“茶{cha2}果{guo3}”の言語モデルスコアは、セグメント内の単語“茶{cha2}”の言語モデルスコアLMS3と、セグメント内の単語“果{guo3}”の言語モデルスコアLMS4に基づく。例えば、これら２つの積を該セグメントの言語モデルスコアとする。

ステップ２１５において、言語モデルスコアがTH2より小さい場合は、処理をステップ２２０へ進める。そうでない場合は、処理をステップ２２５へ進める。

ステップ２２０において、セグメント“茶{cha2}果{guo3}”をキーワード“叉管{cha1guan3}”で置き換える。ステップ２２５において、セグメント“茶{cha2}果{guo3}”を置換無しで保持する。

本実施形態による音声認識結果最適化方法においては、音声認識結果１０で誤認識されたキーワードをキーワードリスト２０を使って最適化することにより、音声認識結果の品質を向上でき、音声認識システム（特に会議支援システム）の性能を向上できる。本実施形態による方法は、音声認識エンジンの修正無しで実行可能であり、少ない計算コストで適用に大変便利である。キーワードを追加し、又は修正するためには、対応するキーワードリストを修正するのみでよい。

本実施形態方法においては、低いLMスコアを有するセグメントのみを置き換えることにより、置換精度を向上できる。更に、LMスコアは音声認識結果に既に存在するデータを利用して得ることにより、計算コストが非常に少なくて済む。更に本実施形態方法においては、低いLMスコアを有するセグメントのみに対して計算することにより、計算コストを減少できる。本実施形態方法においては、聴覚距離の計算が文字レベル又は単語レベルで処理されるため、計算コストが非常に少なくて済む。

＜音声認識結果最適化装置＞
発明の同じ概念に基づいて、図５は他の実施形態に係る音声認識結果最適化装置のブロック図である。以下、本実施形態を図面を用いて説明する。第１の実施形態と同じ部分については説明を省略する。

図５に示すように、本実施形態の音声認識結果最適化装置５００は以下を有する。音声認識結果を受信する受信部５０１、該音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算する計算部５０５、該発音類似度が第１閾値よりも高い場合に該セグメントを該キーワードで置き換える置換部５１０。

本実施形態において、受信部５０１は音声認識エンジンから音声認識結果１０を受け取る。

本実施形態において、受信部５０１で受信した音声認識結果１０は当業者に周知のいずれかの音声認識エンジン又はシステムによる取得結果である。更に、これは中国語、英語、日本語等のいずれかの言語のよる音声認識結果であるが、本発明はこれに限定されない。

本実施形態において、計算部５０５は、音声認識結果１０のセグメントとキーワードリスト２０のキーワード間の発音類似度を計算する。

本実施形態において、音声認識結果のセグメントは、該音声認識結果の単語、複数の隣接する単語の組み合わせ、又は複数の隣接する文字列の組み合わせ、を含む。

本実施形態においては、発音類似度を計算する計算部５０５の処理は、実際は音声認識結果とキーワードリストとのマッチング処理である。つまり、キーワードリストを用いて音声認識結果の間違った出力セグメントを獲得する処理である。

計算部５０５は、望ましくは、マッチングは音声認識結果の始端から、全ての音声認識結果について完了するまで実行すべきである。更に計算コストを減らすため、音声認識結果のセグメントであって、言語モデルスコアが第２閾値より低いもののみ、キーワードリストとのマッチングを行ってもよい。音声認識結果のセグメントの言語モデルスコアは、該セグメントに関連する単語の言語モデルスコアに基づいて計算してもよい。ここで音声認識結果の単語の言語モデルスコアは音声認識結果に存在するデータである。

計算部５０５による音声認識結果とキーワードリストとのマッチングの具体例を図３に示す。この詳細内容は図３を用いて説明した第１実施形態の説明と同じため、省略する。

計算部５０５による音声認識結果とキーワードリストとのマッチング方法は、上記ステップ１０５で述べた単語レベルファジーマッチング方法又は文字レベルファジーマッチング方法を利用してもよい（説明はここでは省略する）。上記マッチング方法の具体的アルゴリズムは、望ましくは動的計画アルゴリズムがよく、これによれば該アルゴリズムによる消費時間を効率的に短縮できる。

本実施形態において、セグメントとキーワード間の発音類似度が第１閾値よりも高い場合、置換部５１０により該セグメントを該キーワードで置き換える。

次に、音声認識結果最適化装置の好適実施形態を詳細に説明する。本実施形態において、受信部５０１が音声認識結果１０１を受信する。

本実施形態において、計算部５０５が音声認識結果１０のセグメントとキーワードリスト２０内のキーワードとの平均聴覚距離を計算する。

本実施形態において、聴覚距離の計算は、音声認識結果１０のセグメントの音素列とキーワードの音素列間の差と比較するためのものであり、望ましくは、各音素ペア間の聴覚距離は音素混同行列によって重み付けすべきである。音素は発音の基本単位である。標準中国語にとっては、音素はピンインであり、ピンインは子音（頭文字）と母音（最終文字）に分割される。あるいは、結合した母音は更に単母音に分割される。一般に、子音と母音を用いた音素の分割は、本実施形態の装置にとって十分正確である。音素混同行列は認識結果の統計に基づいて計算され、各音素ペアの混同度の定量的な測定（つまり、音声認識の見地からの聴覚類似度の測定）である。類似した発音を有する２音素は聴覚距離の意味で非常に近い。例えば、標準中国語の音素の“in”と“ing”は発音が非常に似ており、“in”は“ing”として誤認識されやすく、“ing”は“in”として誤認識されやすい。従って、この発音差が出力セグメントの音素列とキーワードの音素列間で生じるならば、聴覚距離への寄与分が相対的に小さくなる。逆に、２音素の発音差が大きいならば、聴覚距離への寄与分が相対的に大きくなる。

次に、計算部５０５による平均聴覚距離の計算プロセスを、セグメント“茶{cha2}果{guo3}”とキーワード“叉管{cha1guan3}”を例として説明する。

本実施形態において、装置５００は比較部を有する。比較部は、計算部５０５により計算された平均聴覚距離を第１閾値TH1と比較し、平均聴覚距離が第１閾値TH1より小さい場合はセグメント“茶{cha2}果{guo3}”の言語モデルスコアを第２閾値TH2と比較する。セグメント“茶{cha2}果{guo3}”の言語モデルスコアは、セグメント内の単語“茶{cha2}”の言語モデルスコアLMS3と、セグメント内の単語“果{guo3}”の言語モデルスコアLMS4に基づく。例えば、これら２つの積を該セグメントの言語モデルスコアとする。

前記言語モデルスコアがTH2より小さい場合、置換部５１０は、セグメント“茶{cha2}果{guo3}”をキーワード“叉管{cha1guan3}”で置き換える。前記平均聴覚距離がTH1より大きいか等しい場合、又は前記言語モデルスコアがTH2より大きいか等しい場合、置換部５１０は置換処理を行わず、セグメント“茶{cha2}果{guo3}”を保持する。

本実施形態による音声認識結果最適化装置においては、音声認識結果１０で誤認識されたキーワードをキーワードリスト２０を使って最適化することにより、音声認識結果の品質を向上でき、音声認識システム（特に会議支援システム）の性能を向上できる。本実施形態による装置は、音声認識エンジンの修正無しで実行可能であり、少ない計算コストで適用に大変便利である。キーワードを追加し、又は修正するためには、対応するキーワードリストを修正するのみでよい。

本実施形態装置においては、低いLMスコアを有するセグメントのみを置き換えることにより、置換精度を向上できる。更に、LMスコアは音声認識結果に既に存在するデータを利用して得ることにより、計算コストが非常に少なくて済む。更に本実施形態装置においては、低いLMスコアを有するセグメントのみに対して計算することにより、計算コストを減少できる。本実施形態装置においては、聴覚距離の計算が文字レベル又は単語レベルで処理されるため、計算コストが非常に少なくて済む。

上述した方法及び装置は、コンピュータ実行可能命令（プログラム）により、及び/又はこれらをプロセッサ制御コードに含ませることにより、実行してもよいことを、当業者は理解できる。コンピュータ実行可能命令は、ディスク、CD、DVD-ROMなどの搬送媒体、読み出し専用メモリ（ファームウェア）のようなプログラマブルメモリ、光学的又は電子的な信号搬送のようなデータ搬送として供給される。本実施形態の方法・装置は、大規模集積回路の様な半導体、又はゲートアレイによって実行してもよい。これらは例えば、論理チップ、トランジスタ、フィールドプログラマブルゲートアレイのようなプログラマブルハードウェア機器のハードウェア回路等である。更に本実施形態の方法・装置は、上記のハードウェア回路とソフトウェアを組み合わせて実行してもよい。

本発明の音声認識結果最適化装置、音声認識結果最適化方法、及びプログラムは、各実施形態として詳細に説明したが、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、様々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同時に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０・・・音声認識結果
２０・・・キーワードリスト
５００・・・音声認識結果最適化装置
５０１・・・受信部
５０５・・・計算部
５１０・・・置換部

Claims

音声認識エンジンから音声認識結果を受け取る受取部と、
前記音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算する計算部と、
前記発音類似度が第１閾値よりも高い場合、前記セグメントを前記キーワードで置き換える置換部と、
を備える音声認識結果最適化装置。
前記置換部は、前記発音類似度が前記第１閾値よりも高く、前記セグメントの言語モデルスコアが第２閾値よりも低い場合に、前記セグメントを前記キーワードで置き換える、請求項１に記載の音声認識結果最適化装置。
前記計算部は、前記音声認識結果のセグメントの中で、前記言語モデルスコアが前記第２閾値より低いセグメントとキーワードリスト内のキーワードとの発音類似度を計算する、請求項２に記載の音声認識結果最適化装置。
前記計算部は、前記音声認識結果の前記セグメントと前記キーワードリスト内の前記キーワードとの聴覚距離を計算し、前記聴覚距離を前記キーワードの文字数、音節数、又は音素数で除算することで得られる平均聴覚距離に基づいて、前記発音類似度を計算する、請求項１に記載の音声認識結果最適化装置。
前記計算部は、前記セグメントの音素系列と前記キーワードの音素系列との音素聴覚距離を計算する、請求項４記載の音声認識結果最適化装置。
前記計算部は、音素混同行列を重みとして用いて、前記セグメントの音素系列と前記キーワードの音素系列との前記音素聴覚距離を計算する、請求項５に記載の音声認識結果最適化装置。
前記計算部は、前記セグメントの音系列と前記キーワードの音系列との音聴覚距離を計算する、請求項５に記載の音声認識結果最適化装置。
前記計算部は、音混同行列を重みとして用いて、前記セグメントの音系列と前記キーワードの音系列との前記音聴覚距離を計算する、請求項７に記載の音声認識結果最適化装置。
前記計算部は、前記セグメントと前記キーワードとの前記聴覚距離として、前記セグメントの音素系列と前記キーワードの音素系列との前記音素聴覚距離と、前記セグメントの音系列と前記キーワードの音系列との前記音聴覚距離と、に対して重み付き平均を計算する、請求項７に記載の音声認識結果最適化装置。
音声認識エンジンから音声認識結果を受け取るステップと、
前記音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算するステップと、
前記発音類似度が第１閾値よりも高い場合、前記セグメントを前記キーワードで置き換えるステップと、
を備える音声認識結果最適化方法。
キーワードリストを介して音声認識結果を最適化するためのコンピュータに用いられるプログラムであって、
前記コンピュータに、
音声認識エンジンから前記音声認識結果を受け取る機能と、
前記音声認識結果のセグメントと前記キーワードリスト内のキーワードとの発音類似度を計算する機能と、
前記発音類似度が第１閾値よりも高い場合、前記セグメントを前記キーワードで置き換える機能と、
を実現させるプログラム。