JP2016091028A - 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム - Google Patents

音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム Download PDF

Info

Publication number
JP2016091028A
JP2016091028A JP2015211710A JP2015211710A JP2016091028A JP 2016091028 A JP2016091028 A JP 2016091028A JP 2015211710 A JP2015211710 A JP 2015211710A JP 2015211710 A JP2015211710 A JP 2015211710A JP 2016091028 A JP2016091028 A JP 2016091028A
Authority
JP
Japan
Prior art keywords
speech recognition
keyword
recognition result
segment
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015211710A
Other languages
English (en)
Other versions
JP6204959B2 (ja
Inventor
坤 雍
Kun Yong
坤 雍
沛 丁
Pei Ding
沛 丁
会峰 朱
Huifeng Zhu
会峰 朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2016091028A publication Critical patent/JP2016091028A/ja
Application granted granted Critical
Publication of JP6204959B2 publication Critical patent/JP6204959B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声認識エンジンを改変すること無く、少ない計算コストで、キーワードリストを介して音声認識結果を最適化することが可能な装置を提供する。【解決手段】実施形態に係る音声認識結果最適化装置は、音声認識エンジンから音声認識結果を受け取る受取部と、前記音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算する計算部と、前記発音類似度が第1閾値よりも高い場合、前記セグメントを前記キーワードで置き換える置換部とを備える。【選択図】図1

Description

本発明の実施形態は、音声認識結果最適化装置、音声認識結果最適化方法、及びプログラムに関する。
音声認識の適用シナリオにおいて、音声内容にはキーワードがいつも含まれる。キーワードが正しく認識されることは、音声認識システムに対するユーザ満足感と大いに関係している。例えば、音声認識システムが会議話者の発言内容を認識する会議支援アプリケーションにおいて、その会議に含まれる重要人物名、場所名、技術用語等はキーワードとなる。キーワードの認識精度はこのアプリケーションの最重要な処理指標となる。
キーワードは2つのカテゴリに分類される。もしキーワードが音声認識システムのシステム辞書に含まれない場合は、それを新語という。もしキーワードがシステム辞書に含まれる場合は、それを核語という。新語はシステム辞書に登録されておらず、音声認識システムはシステム辞書の登録語のみを出力できるため、新語を(完全には)直接に認識することが出来ない。
新語のほとんどがシステム辞書に存在する語で構成されており、間接的に認識して出力できるとしても、新語のそのような構成例は学習コーパスでは非常に稀である。この学習コーパスは、新語について非常に低い言語モデル(LM)スコアを生じる。従ってこの方法では、新語の認識成功確率が非常に低くなる。
システム辞書に登録された核語について、もしシステム辞書に存在する非核語が同じまたは類似した発音であって高いLMスコアを有する場合、音声認識システムはこの非核語を出力結果として間違って選択する傾向がある。
このように、通常の音声認識システムによるキーワードの認識精度は非常に低く、キーワードと同じか類似した発音を有する単語が誤認識結果となっていた。
キーワードの認識精度を向上するために、キーワードのLMスコアを増加することは非常に危険である。一般に、クラスベースのLMはこの目的で用いられる。この方法では、あるキーワードタイプに対応するクラス(例えば、人名のクラス、場所名のクラス、技術用語のクラス)が構築される。そして、クラスの属性を有する所定数の代表語がシステム辞書から選択され、該クラスに付加される。LM学習においては、各クラスのLMスコアは、該クラスに含まれる全ての代表語の統計に基づいて計算される。認識前に、キーワードがシステム辞書に登録され、最適クラスにリンクされる。認識ステージにおいては、キーワードはそれが属するLMスコアをシェアする。代表語のLMスコアは非常に高い為、キーワードのLMスコアも大幅に増加する。結果として、認識精度が効率的に向上する。
しかしながら、上記のクラスベースLM方法を使ったとしても、正しく認識できないキーワードがある程度存在する。従って、音声認識システム、特に会議支援システムにおいて、ユーザが満足できない音声認識結果となっていた。
特許第5282737号公報 US2012/0290302号公報
音声認識エンジンを改変すること無く、少ない計算コストで、キーワードリストを介して音声認識結果を最適化することが可能な音声認識結果最適化装置、音声認識結果最適化方法、及びプログラムを提供することを目的とする。
実施形態に係る音声認識結果最適化装置は、音声認識エンジンから音声認識結果を受け取る受取部と、前記音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算する計算部と、前記発音類似度が第1閾値よりも高い場合、前記セグメントを前記キーワードで置き換える置換部とを備える。
1実施形態に係る音声認識結果最適化方法のフローチャート。 好適な実施形態に係る音声認識結果最適化方法のフローチャート。 キーワードリストと音声認識結果とのマッチング例を示す図。 平均聴覚距離を計算するための具体例を示す図。 他の実施形態に係る音声認識結果最適化装置のブロック図。
以下、図面を参照しながら、発明を実施するための実施形態について説明する。
<音声認識結果最適化方法>
本発明の第1の実施形態は音声認識結果最適化方法を提供する。この方法は以下のステップを有する。音声認識結果を受け取るステップ、該音声認識結果のセグメント(分割単位)とキーワードリスト内のキーワードとの発音類似度を計算するステップ、該発音類似度が第1閾値よりも高い場合は、該セグメントをキーワードで置き換えるステップ、である。
図1は、第1の実施形態に係る音声認識結果最適化方法を示すフローチャートである。図1に示すように、先ずステップ101において、音声認識エンジンから音声認識結果101が受信される。
該実施形態において、受信された音声認識結果10は、当業者に周知のいずれかの音声認識エンジン又はシステムを介して取得可能であり、中国語、英語、日本語等の、いずれかの言語による音声認識結果でありえる。本発明はこれに関して制限は無い。
次にステップ105において、音声認識結果10のセグメントとキーワードリスト20のキーワードとの発音類似度を計算する。
本実施形態においては、音声認識結果のセグメントは、該音声認識結果の単語、複数の隣接する単語の組み合わせ、又は複数の隣接する文字列の組み合わせ、を含む。
本実施形態においては、発音類似度を計算するステップ105の処理は、実際は音声認識結果とキーワードリストとのマッチング処理である。つまり、キーワードリストを用いて音声認識結果の間違った出力セグメントを獲得する処理である。
ステップ105において望ましくは、マッチングは音声認識結果の始端から、全ての音声認識結果について完了するまで実行すべきである。更に計算コストを減らすため、音声認識結果のセグメントであって、言語モデルスコアが第2閾値より低いもののみ、キーワードリストとのマッチングを行ってもよい。音声認識結果のセグメントの言語モデルスコアは、該セグメントに関連する単語の言語モデルスコアに基づいて計算してもよい。ここで音声認識結果の単語の言語モデルスコアは音声認識結果に存在するデータである。
図3は音声認識結果とキーワードリストとのマッチング例を示す図である。図3に示すように、音声認識結果“高強度{gao1qiang2du4,LMS1}茶{cha2,LMS2}果{guo3,LMS3}制作{zhi4zuo4,LMS4}”は4つの単語、各単語の言語モデルスコア(LMS)、及び各単語の各文字のピンインと音、から構成される。キーワードリスト“キーワード_1{ピンイン_1},...叉管{cha1guan3},...キーワード_N{ピンイン_N}”は、N個のキーワード、各キーワードの各文字のピンインと音、から構成される。
図3の例において、2番目の単語“茶{cha2,LMS2}”と3番目の単語“果{guo3,LMS3}”は1セグメントに組み合わせられる。キーワードリストの各キーワードは音声認識結果の3個のセグメントと夫々マッチングがとられ、各キーワードと各セグメント間の発音類似度が得られる。
本例においては、全てのキーワードについて、2番目の単語“茶{cha2,LMS2}”と3番目の単語“果{guo3,LMS3}”は1セグメントに組み合わせられているが、本実施形態はこれに限られない。各キーワードについて、音声認識結果の複数の隣接する単語、又は複数の隣接する文字を組み合わせてもよい。
マッチング方法について、“高強度 茶 果 制作”と“叉管”を例として以下説明する。
音声認識結果:高強度 茶 果 制作
マッチングすべきキーワード:叉管
1マッチング方法は単語レベルファジーマッチングである:
マッチングすべきセグメントは1又は複数の隣接語であり、その少なくとも1つは次の類似度計算を有する:
茶<->叉管
茶果<->叉管
茶果制作<->叉管
果制作<->叉管
高強度茶果制作<->叉管
.....
他のマッチング方法は文字レベルファジーマッチングである:
マッチングすべきセグメントは1又は複数の隣接文字であり、マッチングすべきタイプ数は第1シナリオより大きく、その少なくとも1つは次の類似度計算を有する:
強度<->叉管
度<->叉管
度茶<->叉管
茶<->叉管
茶果<->叉管
果制<->叉管
高強度茶果制作<->叉管
上記マッチング方法の特定アルゴリズムは動的計画アルゴリズムが望ましい。これによれば、アルゴリズムの消費時間を効率的に削減できる。
本実施形態において、セグメントとキーワード間の発音類似度は、その2つの発音の類似度であり、望ましくは2つの聴覚距離を用いて計算すべきである。2つの聴覚距離が小さくなるほど、2つの類似度が高くなる。聴覚距離の計算は図面を用いて後程詳細に説明する。
次にステップ110において、セグメントとキーワード間の発音類似度が第1閾値よりも高い場合、該セグメントを該キーワードで置き換える。
本実施形態において、第1閾値及び第2閾値は実際の用途に応じて設定されるが、本発明はこれに限定されない。
次に、音声認識結果最適化方法の好適実施形態を図2〜図4を用いて詳細に説明する。
図2に示すように、ステップ201において、ステップ101と同様に、音声認識結果101を受信する。
次にステップ205において、音声認識結果10のセグメントとキーワードリスト20内のキーワードとの平均聴覚距離を計算する。
本実施形態において、聴覚距離の計算は、音声認識結果10のセグメントの音素列とキーワードの音素列間の差と比較するためのものであり、望ましくは、各音素ペア間の聴覚距離は音素混同行列によって重み付けすべきである。音素は発音の基本単位である。標準中国語にとっては、音素はピンインであり、ピンインは子音(頭文字)と母音(最終文字)に分割される。あるいは、結合した母音は更に単母音に分割される。一般に、子音と母音を用いた音素の分割は、本実施形態の方法にとって十分正確である。音素混同行列は認識結果の統計に基づいて計算され、各音素ペアの混同度の定量的な測定(つまり、音声認識の見地からの聴覚類似度の測定)である。類似した発音を有する2音素は聴覚距離の意味で非常に近い。例えば、標準中国語の音素の“in”と“ing”は発音が非常に似ており、“in”は“ing”として誤認識されやすく、“ing”は“in”として誤認識されやすい。従って、この発音差が出力セグメントの音素列とキーワードの音素列間で生じるならば、聴覚距離への寄与分が相対的に小さくなる。逆に、2音素の発音差が大きいならば、聴覚距離への寄与分が相対的に大きくなる。
標準中国語は音調言語であるため、音系列の比較を聴覚距離計算に付加できる。望ましくは、聴覚距離は音混同行列を用いて重み付けすべきである。
本実施形態において、音素系列の聴覚距離と音系列の聴覚距離を重み付けして加算することが望ましい。例えば、2つの重みをwと1-wに夫々設定する。もし音素系列の聴覚距離の計算のみ考慮するならば、それはw=1のシナリオに対応する。更に、音声認識結果のセグメントとキーワード間の聴覚距離を、該キーワードの文字数、音節数、又は音素数で除算することにより、単文字、単音節、又は単音素の平均聴覚距離が得られる。
次に、平均聴覚距離の計算プロセスを図4を用いて詳細に説明する。図4に示す通り、セグメント“茶{cha2}果{guo3}”とキーワード“叉管{cha1guan3}”を例として説明する。
第1に、セグメント“茶{cha2}果{guo3}”の音素系列“ch, a, g, uo”とキーワード“叉管{cha1guan3}”の音素系列“ch, a, g, uan”に基づいて、これら2つの音素聴覚距離を計算する。計算時には、各音素ペア間の聴覚距離を音素混同行列を用いて重み付けする。
第2に、セグメント“茶{cha2}果{guo3}”の音系列“2, 3”とキーワード“叉管{cha1guan3}”の音系列“1, 3”に基づいて、これら2つの音聴覚距離を計算する。計算時には、各音ペア間の聴覚距離を音混同行列を用いて重み付けする。
第3に、音素聴覚距離と音聴覚距離の重みをwと1-wに夫々設定する。これら2つの重み付き平均をセグメントとキーワード間の聴覚距離として計算する。
第4に、セグメントとキーワード間の聴覚距離を、該キーワードの文字数“2”、音節数“2”、又は音素数“4”で除算することにより、単文字、単音節、又は単音素の平均聴覚距離を得る。
図2に戻って、次にステップ210において、ステップ205で計算した平均聴覚距離を第1閾値TH1と比較する。平均聴覚距離がTH1より小さい場合は、処理をステップ215へ進める。そうでない場合は、処理をステップ225へ進める。
ステップ215において、セグメント“茶{cha2}果{guo3}”の言語モデルスコアを第2閾値TH2と比較する。セグメント“茶{cha2}果{guo3}”の言語モデルスコアは、セグメント内の単語“茶{cha2}”の言語モデルスコアLMS3と、セグメント内の単語“果{guo3}”の言語モデルスコアLMS4に基づく。例えば、これら2つの積を該セグメントの言語モデルスコアとする。
ステップ215において、言語モデルスコアがTH2より小さい場合は、処理をステップ220へ進める。そうでない場合は、処理をステップ225へ進める。
ステップ220において、セグメント“茶{cha2}果{guo3}”をキーワード“叉管{cha1guan3}”で置き換える。ステップ225において、セグメント“茶{cha2}果{guo3}”を置換無しで保持する。
本実施形態による音声認識結果最適化方法においては、音声認識結果10で誤認識されたキーワードをキーワードリスト20を使って最適化することにより、音声認識結果の品質を向上でき、音声認識システム(特に会議支援システム)の性能を向上できる。本実施形態による方法は、音声認識エンジンの修正無しで実行可能であり、少ない計算コストで適用に大変便利である。キーワードを追加し、又は修正するためには、対応するキーワードリストを修正するのみでよい。
本実施形態方法においては、低いLMスコアを有するセグメントのみを置き換えることにより、置換精度を向上できる。更に、LMスコアは音声認識結果に既に存在するデータを利用して得ることにより、計算コストが非常に少なくて済む。更に本実施形態方法においては、低いLMスコアを有するセグメントのみに対して計算することにより、計算コストを減少できる。本実施形態方法においては、聴覚距離の計算が文字レベル又は単語レベルで処理されるため、計算コストが非常に少なくて済む。
<音声認識結果最適化装置>
発明の同じ概念に基づいて、図5は他の実施形態に係る音声認識結果最適化装置のブロック図である。以下、本実施形態を図面を用いて説明する。第1の実施形態と同じ部分については説明を省略する。
図5に示すように、本実施形態の音声認識結果最適化装置500は以下を有する。音声認識結果を受信する受信部501、該音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算する計算部505、該発音類似度が第1閾値よりも高い場合に該セグメントを該キーワードで置き換える置換部510。
本実施形態において、受信部501は音声認識エンジンから音声認識結果10を受け取る。
本実施形態において、受信部501で受信した音声認識結果10は当業者に周知のいずれかの音声認識エンジン又はシステムによる取得結果である。更に、これは中国語、英語、日本語等のいずれかの言語のよる音声認識結果であるが、本発明はこれに限定されない。
本実施形態において、計算部505は、音声認識結果10のセグメントとキーワードリスト20のキーワード間の発音類似度を計算する。
本実施形態において、音声認識結果のセグメントは、該音声認識結果の単語、複数の隣接する単語の組み合わせ、又は複数の隣接する文字列の組み合わせ、を含む。
本実施形態においては、発音類似度を計算する計算部505の処理は、実際は音声認識結果とキーワードリストとのマッチング処理である。つまり、キーワードリストを用いて音声認識結果の間違った出力セグメントを獲得する処理である。
計算部505は、望ましくは、マッチングは音声認識結果の始端から、全ての音声認識結果について完了するまで実行すべきである。更に計算コストを減らすため、音声認識結果のセグメントであって、言語モデルスコアが第2閾値より低いもののみ、キーワードリストとのマッチングを行ってもよい。音声認識結果のセグメントの言語モデルスコアは、該セグメントに関連する単語の言語モデルスコアに基づいて計算してもよい。ここで音声認識結果の単語の言語モデルスコアは音声認識結果に存在するデータである。
計算部505による音声認識結果とキーワードリストとのマッチングの具体例を図3に示す。この詳細内容は図3を用いて説明した第1実施形態の説明と同じため、省略する。
計算部505による音声認識結果とキーワードリストとのマッチング方法は、上記ステップ105で述べた単語レベルファジーマッチング方法又は文字レベルファジーマッチング方法を利用してもよい(説明はここでは省略する)。上記マッチング方法の具体的アルゴリズムは、望ましくは動的計画アルゴリズムがよく、これによれば該アルゴリズムによる消費時間を効率的に短縮できる。
本実施形態において、セグメントとキーワード間の発音類似度は、その2つの発音の類似度であり、望ましくは2つの聴覚距離を用いて計算すべきである。2つの聴覚距離が小さくなるほど、2つの類似度が高くなる。聴覚距離の計算は図面を用いて後程詳細に説明する。
本実施形態において、セグメントとキーワード間の発音類似度が第1閾値よりも高い場合、置換部510により該セグメントを該キーワードで置き換える。
本実施形態において、第1閾値及び第2閾値は実際の用途に応じて設定されるが、本発明はこれに限定されない。
次に、音声認識結果最適化装置の好適実施形態を詳細に説明する。本実施形態において、受信部501が音声認識結果101を受信する。
本実施形態において、計算部505が音声認識結果10のセグメントとキーワードリスト20内のキーワードとの平均聴覚距離を計算する。
本実施形態において、聴覚距離の計算は、音声認識結果10のセグメントの音素列とキーワードの音素列間の差と比較するためのものであり、望ましくは、各音素ペア間の聴覚距離は音素混同行列によって重み付けすべきである。音素は発音の基本単位である。標準中国語にとっては、音素はピンインであり、ピンインは子音(頭文字)と母音(最終文字)に分割される。あるいは、結合した母音は更に単母音に分割される。一般に、子音と母音を用いた音素の分割は、本実施形態の装置にとって十分正確である。音素混同行列は認識結果の統計に基づいて計算され、各音素ペアの混同度の定量的な測定(つまり、音声認識の見地からの聴覚類似度の測定)である。類似した発音を有する2音素は聴覚距離の意味で非常に近い。例えば、標準中国語の音素の“in”と“ing”は発音が非常に似ており、“in”は“ing”として誤認識されやすく、“ing”は“in”として誤認識されやすい。従って、この発音差が出力セグメントの音素列とキーワードの音素列間で生じるならば、聴覚距離への寄与分が相対的に小さくなる。逆に、2音素の発音差が大きいならば、聴覚距離への寄与分が相対的に大きくなる。
標準中国語は音調言語であるため、音系列の比較を聴覚距離計算に付加できる。望ましくは、聴覚距離は音混同行列を用いて重み付けすべきである。
本実施形態において、音素系列の聴覚距離と音系列の聴覚距離を重み付けして加算することが望ましい。例えば、2つの重みをwと1-wに夫々設定する。もし音素系列の聴覚距離の計算のみ考慮するならば、それはw=1のシナリオに対応する。更に、音声認識結果のセグメントとキーワード間の聴覚距離を、該キーワードの文字数、音節数、又は音素数で除算することにより、単文字、単音節、又は単音素の平均聴覚距離が得られる。
次に、計算部505による平均聴覚距離の計算プロセスを、セグメント“茶{cha2}果{guo3}”とキーワード“叉管{cha1guan3}”を例として説明する。
第1に、セグメント“茶{cha2}果{guo3}”の音素系列“ch, a, g, uo”とキーワード“叉管{cha1guan3}”の音素系列“ch, a, g, uan”に基づいて、これら2つの音素聴覚距離を計算する。計算時には、各音素ペア間の聴覚距離を音素混同行列を用いて重み付けする。
第2に、セグメント“茶{cha2}果{guo3}”の音系列“2, 3”とキーワード“叉管{cha1guan3}”の音系列“1, 3”に基づいて、これら2つの音聴覚距離を計算する。計算時には、各音ペア間の聴覚距離を音混同行列を用いて重み付けする。
第3に、音素聴覚距離と音聴覚距離の重みをwと1-wに夫々設定する。これら2つの重み付き平均をセグメントとキーワード間の聴覚距離として計算する。
第4に、セグメントとキーワード間の聴覚距離を、該キーワードの文字数“2”、音節数“2”、又は音素数“4”で除算することにより、単文字、単音節、又は単音素の平均聴覚距離を得る。
本実施形態において、装置500は比較部を有する。比較部は、計算部505により計算された平均聴覚距離を第1閾値TH1と比較し、平均聴覚距離が第1閾値TH1より小さい場合はセグメント“茶{cha2}果{guo3}”の言語モデルスコアを第2閾値TH2と比較する。セグメント“茶{cha2}果{guo3}”の言語モデルスコアは、セグメント内の単語“茶{cha2}”の言語モデルスコアLMS3と、セグメント内の単語“果{guo3}”の言語モデルスコアLMS4に基づく。例えば、これら2つの積を該セグメントの言語モデルスコアとする。
前記言語モデルスコアがTH2より小さい場合、置換部510は、セグメント“茶{cha2}果{guo3}”をキーワード“叉管{cha1guan3}”で置き換える。前記平均聴覚距離がTH1より大きいか等しい場合、又は前記言語モデルスコアがTH2より大きいか等しい場合、置換部510は置換処理を行わず、セグメント“茶{cha2}果{guo3}”を保持する。
本実施形態による音声認識結果最適化装置においては、音声認識結果10で誤認識されたキーワードをキーワードリスト20を使って最適化することにより、音声認識結果の品質を向上でき、音声認識システム(特に会議支援システム)の性能を向上できる。本実施形態による装置は、音声認識エンジンの修正無しで実行可能であり、少ない計算コストで適用に大変便利である。キーワードを追加し、又は修正するためには、対応するキーワードリストを修正するのみでよい。
本実施形態装置においては、低いLMスコアを有するセグメントのみを置き換えることにより、置換精度を向上できる。更に、LMスコアは音声認識結果に既に存在するデータを利用して得ることにより、計算コストが非常に少なくて済む。更に本実施形態装置においては、低いLMスコアを有するセグメントのみに対して計算することにより、計算コストを減少できる。本実施形態装置においては、聴覚距離の計算が文字レベル又は単語レベルで処理されるため、計算コストが非常に少なくて済む。
上述した方法及び装置は、コンピュータ実行可能命令(プログラム)により、及び/又はこれらをプロセッサ制御コードに含ませることにより、実行してもよいことを、当業者は理解できる。コンピュータ実行可能命令は、ディスク、CD、DVD-ROMなどの搬送媒体、読み出し専用メモリ(ファームウェア)のようなプログラマブルメモリ、光学的又は電子的な信号搬送のようなデータ搬送として供給される。本実施形態の方法・装置は、大規模集積回路の様な半導体、又はゲートアレイによって実行してもよい。これらは例えば、論理チップ、トランジスタ、フィールドプログラマブルゲートアレイのようなプログラマブルハードウェア機器のハードウェア回路等である。更に本実施形態の方法・装置は、上記のハードウェア回路とソフトウェアを組み合わせて実行してもよい。
本発明の音声認識結果最適化装置、音声認識結果最適化方法、及びプログラムは、各実施形態として詳細に説明したが、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、様々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同時に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
10・・・音声認識結果
20・・・キーワードリスト
500・・・音声認識結果最適化装置
501・・・受信部
505・・・計算部
510・・・置換部

Claims (11)

  1. 音声認識エンジンから音声認識結果を受け取る受取部と、
    前記音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算する計算部と、
    前記発音類似度が第1閾値よりも高い場合、前記セグメントを前記キーワードで置き換える置換部と、
    を備える音声認識結果最適化装置。
  2. 前記置換部は、前記発音類似度が前記第1閾値よりも高く、前記セグメントの言語モデルスコアが第2閾値よりも低い場合に、前記セグメントを前記キーワードで置き換える、請求項1に記載の音声認識結果最適化装置。
  3. 前記計算部は、前記音声認識結果のセグメントの中で、前記言語モデルスコアが前記第2閾値より低いセグメントとキーワードリスト内のキーワードとの発音類似度を計算する、請求項2に記載の音声認識結果最適化装置。
  4. 前記計算部は、前記音声認識結果の前記セグメントと前記キーワードリスト内の前記キーワードとの聴覚距離を計算し、前記聴覚距離を前記キーワードの文字数、音節数、又は音素数で除算することで得られる平均聴覚距離に基づいて、前記発音類似度を計算する、請求項1に記載の音声認識結果最適化装置。
  5. 前記計算部は、前記セグメントの音素系列と前記キーワードの音素系列との音素聴覚距離を計算する、請求項4記載の音声認識結果最適化装置。
  6. 前記計算部は、音素混同行列を重みとして用いて、前記セグメントの音素系列と前記キーワードの音素系列との前記音素聴覚距離を計算する、請求項5に記載の音声認識結果最適化装置。
  7. 前記計算部は、前記セグメントの音系列と前記キーワードの音系列との音聴覚距離を計算する、請求項5に記載の音声認識結果最適化装置。
  8. 前記計算部は、音混同行列を重みとして用いて、前記セグメントの音系列と前記キーワードの音系列との前記音聴覚距離を計算する、請求項7に記載の音声認識結果最適化装置。
  9. 前記計算部は、前記セグメントと前記キーワードとの前記聴覚距離として、前記セグメントの音素系列と前記キーワードの音素系列との前記音素聴覚距離と、前記セグメントの音系列と前記キーワードの音系列との前記音聴覚距離と、に対して重み付き平均を計算する、請求項7に記載の音声認識結果最適化装置。
  10. 音声認識エンジンから音声認識結果を受け取るステップと、
    前記音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算するステップと、
    前記発音類似度が第1閾値よりも高い場合、前記セグメントを前記キーワードで置き換えるステップと、
    を備える音声認識結果最適化方法。
  11. キーワードリストを介して音声認識結果を最適化するためのコンピュータに用いられるプログラムであって、
    前記コンピュータに、
    音声認識エンジンから前記音声認識結果を受け取る機能と、
    前記音声認識結果のセグメントと前記キーワードリスト内のキーワードとの発音類似度を計算する機能と、
    前記発音類似度が第1閾値よりも高い場合、前記セグメントを前記キーワードで置き換える機能と、
    を実現させるプログラム。
JP2015211710A 2014-10-31 2015-10-28 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム Active JP6204959B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410602377.4A CN105632499B (zh) 2014-10-31 2014-10-31 用于优化语音识别结果的方法和装置
CN201410602377.4 2014-10-31

Publications (2)

Publication Number Publication Date
JP2016091028A true JP2016091028A (ja) 2016-05-23
JP6204959B2 JP6204959B2 (ja) 2017-09-27

Family

ID=55853359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015211710A Active JP6204959B2 (ja) 2014-10-31 2015-10-28 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム

Country Status (3)

Country Link
US (1) US9672817B2 (ja)
JP (1) JP6204959B2 (ja)
CN (1) CN105632499B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019526080A (ja) * 2016-07-26 2019-09-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識結果の修正方法及び装置
JP2020030379A (ja) * 2018-08-24 2020-02-27 ソプラ株式会社 認識結果補正装置、認識結果補正方法、およびプログラム
JP2021081731A (ja) * 2020-05-15 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 音声認識方法、装置、機器及び読み取り可能な記憶媒体

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10134388B1 (en) * 2015-12-23 2018-11-20 Amazon Technologies, Inc. Word generation for speech recognition
CN106205613B (zh) * 2016-07-22 2019-09-06 广州市迈图信息科技有限公司 一种导航语音识别方法及系统
CN106710592B (zh) * 2016-12-29 2021-05-18 北京奇虎科技有限公司 一种智能硬件设备中的语音识别纠错方法和装置
JP6812843B2 (ja) * 2017-02-23 2021-01-13 富士通株式会社 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
CN107293299A (zh) * 2017-06-16 2017-10-24 朱明增 一种提高调度员查找图纸效率的语音识别定位系统
CN109785842B (zh) * 2017-11-14 2023-09-05 蔚来(安徽)控股有限公司 语音识别纠错方法以及语音识别纠错系统
US10546062B2 (en) * 2017-11-15 2020-01-28 International Business Machines Corporation Phonetic patterns for fuzzy matching in natural language processing
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新系统
CN109961791B (zh) * 2017-12-22 2021-10-22 北京搜狗科技发展有限公司 一种语音信息处理方法、装置及电子设备
US11250840B1 (en) * 2018-04-09 2022-02-15 Perceive Corporation Machine-trained network detecting context-sensitive wake expressions for a digital assistant
JP2019211599A (ja) * 2018-06-04 2019-12-12 本田技研工業株式会社 音声認識装置、音声認識方法およびプログラム
CN108777142A (zh) * 2018-06-05 2018-11-09 上海木木机器人技术有限公司 一种基于机场环境的语音交互识别方法及语音交互机器人
US10811003B2 (en) * 2018-10-31 2020-10-20 International Business Machines Corporation Language phonetic processing based on fine-grained mapping of phonetic components
CN110111778B (zh) * 2019-04-30 2021-11-12 北京大米科技有限公司 一种语音处理方法、装置、存储介质及电子设备
KR20210029354A (ko) * 2019-09-06 2021-03-16 삼성전자주식회사 전자장치 및 그 제어방법
CN110544477A (zh) * 2019-09-29 2019-12-06 北京声智科技有限公司 一种语音识别方法、装置、设备及介质
CN111723204B (zh) * 2020-06-15 2021-04-02 龙马智芯(珠海横琴)科技有限公司 语音质检区域的校正方法、装置、校正设备及存储介质
CN113053362A (zh) * 2021-03-30 2021-06-29 建信金融科技有限责任公司 语音识别的方法、装置、设备和计算机可读介质
CN113593579B (zh) * 2021-07-23 2024-04-30 马上消费金融股份有限公司 一种声纹识别方法、装置和电子设备
CN114927128A (zh) * 2022-04-21 2022-08-19 清华大学 语音关键词的检测方法、装置、电子设备及可读存储介质
CN114927135B (zh) * 2022-07-22 2022-12-13 广州小鹏汽车科技有限公司 语音交互方法、服务器及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11134335A (ja) * 1997-10-30 1999-05-21 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 文字誤り校正装置
JP2004258531A (ja) * 2003-02-27 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> 認識誤り訂正方法、装置、およびプログラム
JP2005084436A (ja) * 2003-09-09 2005-03-31 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
JP2006031278A (ja) * 2004-07-14 2006-02-02 Nec Corp 音声検索システムおよび方法ならびにプログラム
JP2010123005A (ja) * 2008-11-20 2010-06-03 Kddi Corp 文書データ検索装置
JP2010525415A (ja) * 2007-04-26 2010-07-22 マイクロソフト コーポレーション アジア文字を生成するための認識アーキテクチャ
JP2010164918A (ja) * 2009-01-19 2010-07-29 Toshiba Corp 音声翻訳装置、および方法
JP2012063545A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04235630A (ja) * 1990-07-30 1992-08-24 Ronald L Colier 可聴コマンドでコンピュータのプログラミングを行うための方法及び装置
JP3581752B2 (ja) * 1995-10-09 2004-10-27 株式会社リコー 音声認識装置及び音声認識方法
US7120582B1 (en) 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
WO2002082310A1 (en) 2001-04-03 2002-10-17 Intel Corporation Method, apparatus, and system for building a compact language model for large vocabulary continuous speech recognition (lvcsr) system
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
JP5282737B2 (ja) * 2007-08-22 2013-09-04 日本電気株式会社 音声認識装置および音声認識方法
CN101447185B (zh) * 2008-12-08 2012-08-08 深圳市北科瑞声科技有限公司 一种基于内容的音频快速分类方法
KR20120066530A (ko) 2010-12-14 2012-06-22 한국전자통신연구원 언어 모델 가중치 추정 방법 및 이를 위한 장치
TWI441163B (zh) 2011-05-10 2014-06-11 Univ Nat Chiao Tung 中文語音辨識裝置及其辨識方法
CN103544140A (zh) * 2012-07-12 2014-01-29 国际商业机器公司 一种数据处理方法、展示方法和相应的装置
CN104036774B (zh) * 2014-06-20 2018-03-06 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11134335A (ja) * 1997-10-30 1999-05-21 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 文字誤り校正装置
JP2004258531A (ja) * 2003-02-27 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> 認識誤り訂正方法、装置、およびプログラム
JP2005084436A (ja) * 2003-09-09 2005-03-31 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
JP2006031278A (ja) * 2004-07-14 2006-02-02 Nec Corp 音声検索システムおよび方法ならびにプログラム
JP2010525415A (ja) * 2007-04-26 2010-07-22 マイクロソフト コーポレーション アジア文字を生成するための認識アーキテクチャ
JP2010123005A (ja) * 2008-11-20 2010-06-03 Kddi Corp 文書データ検索装置
JP2010164918A (ja) * 2009-01-19 2010-07-29 Toshiba Corp 音声翻訳装置、および方法
JP2012063545A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
沖本純幸 他: ""旅行会話基本表現コーパスを用いた認識誤り訂正の検討"", 電子情報通信学会技術研究報告, vol. 101, no. 521, JPN6016050329, 14 December 2001 (2001-12-14), pages 49 - 54, ISSN: 0003608119 *
石川開 他: ""テキストデータを使った音声認識誤りの訂正"", 自然言語処理, vol. 7, no. 4, JPN6016050328, 10 October 2000 (2000-10-10), pages 205 - 227, ISSN: 0003472397 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019526080A (ja) * 2016-07-26 2019-09-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識結果の修正方法及び装置
US11024287B2 (en) 2016-07-26 2021-06-01 Baidu Online Network Technology (Beijing) Co., Ltd. Method, device, and storage medium for correcting error in speech recognition result
JP2020030379A (ja) * 2018-08-24 2020-02-27 ソプラ株式会社 認識結果補正装置、認識結果補正方法、およびプログラム
JP2021081731A (ja) * 2020-05-15 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 音声認識方法、装置、機器及び読み取り可能な記憶媒体
US11798548B2 (en) 2020-05-15 2023-10-24 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Speech recognition method, apparatus, device and readable storage medium

Also Published As

Publication number Publication date
US9672817B2 (en) 2017-06-06
JP6204959B2 (ja) 2017-09-27
CN105632499B (zh) 2019-12-10
US20160125874A1 (en) 2016-05-05
CN105632499A (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
JP6204959B2 (ja) 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム
US10127902B2 (en) Optimizations to decoding of WFST models for automatic speech recognition
US10176804B2 (en) Analyzing textual data
US10720152B2 (en) Negative n-gram biasing
Schuster et al. Japanese and korean voice search
US8959014B2 (en) Training acoustic models using distributed computing techniques
US20160300573A1 (en) Mapping input to form fields
US9558741B2 (en) Systems and methods for speech recognition
US9704483B2 (en) Collaborative language model biasing
WO2021179701A1 (zh) 多语种语音识别方法、装置及电子设备
CN110473527B (zh) 一种语音识别的方法和系统
JP2015187684A (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US11984126B2 (en) Device for recognizing speech input of user and operating method thereof
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
US11232786B2 (en) System and method to improve performance of a speech recognition system by measuring amount of confusion between words
Min et al. Exploring the integration of large language models into automatic speech recognition systems: An empirical study
CN105632500B (zh) 语音识别装置及其控制方法
Borgholt et al. Do we still need automatic speech recognition for spoken language understanding?
US11984116B2 (en) Method and system for unsupervised discovery of unigrams in speech recognition systems
Ng et al. Quality estimation for ASR K-best list rescoring in spoken language translation
Orzhenovskii Fine-Tuning Pre-Trained Language Model for Crowdsourced Texts Aggregation.
Wang et al. Optimization of spoken term detection system
Li et al. Automatic lecture transcription based on discriminative data selection for lightly supervised acoustic model training
KR101729972B1 (ko) 타국인 발화 음성을 위한 음성 인식 장치
CN118098290A (zh) 朗读评测方法、装置、设备、存储介质及计算机程序产品

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170901

R151 Written notification of patent or utility model registration

Ref document number: 6204959

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350