JP6131537B2 - 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 - Google Patents

音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 Download PDF

Info

Publication number
JP6131537B2
JP6131537B2 JP2012150348A JP2012150348A JP6131537B2 JP 6131537 B2 JP6131537 B2 JP 6131537B2 JP 2012150348 A JP2012150348 A JP 2012150348A JP 2012150348 A JP2012150348 A JP 2012150348A JP 6131537 B2 JP6131537 B2 JP 6131537B2
Authority
JP
Japan
Prior art keywords
likelihood
speech recognition
speech
determination
registered word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012150348A
Other languages
English (en)
Other versions
JP2014013302A (ja
Inventor
清孝 森岡
清孝 森岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2012150348A priority Critical patent/JP6131537B2/ja
Priority to US13/924,809 priority patent/US9251789B2/en
Publication of JP2014013302A publication Critical patent/JP2014013302A/ja
Application granted granted Critical
Publication of JP6131537B2 publication Critical patent/JP6131537B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Description

本発明の幾つかの態様は、音声認識システム、音声認識プログラム及び音声認識方法等に関する。
音声認識は、一般的には入力された音声を分析して得られる音声の特徴を表すパラメーターからなる入力パターンをデータ処理し、この未知の入力パターンと予め複数の音声についてデータベース化された登録パターン(たとえば辞書データ)とをパターンマッチングによって比較し、尤度の大きい辞書データの登録パターンを認識結果として出力する方法がとられる。ここで尤度は、音声認識結果の候補の尤もらしさを表すパラメーターであり、音声のスペクトル的な揺らぎと時間的な揺らぎを多数の学習サンプルによって統計的にモデル化する隠れマルコフモデル(Hidden Markov Model)などに対応付けて求められる。尚、入力された音声は、複数のフレームに分割されて処理される場合が多い。
特許文献1には、隠れマルコフモデルなどにより尤度を求め、1位の音声認識結果の尤度と2位以下の各音声認識結果の尤度との差である尤度差を求め、予め定めてある尤度差判定閾値に基づいて、音声認識が適正に実施されたものと認識されたもののみを認識結果の正解の候補として定める音声認識手法が開示されている。
特開平10−207486号公報
しかし隠れマルコフモデル(Hidden Markov Model)などを用いてマッチングを行う音声認識においては、話す速度(発話速度)が遅くなると遅くなった分比較するフレーム数が多くなるので認識結果の尤度が高まる傾向がある。これに伴い、尤度差も広がる傾向にある。このため、発話速度が遅くなれば遅くなるほど尤度差の値が大きくなり、1位の音声認識結果が間違っていても正しい答えであると判定してしまう傾向がある。
尤度差判定閾値を高く設定することにより、発話速度が遅い場合でも答えの信頼性を担保することができるが、逆により速い速度で話した場合の認識率が低下してしまう。
本発明は、以上のような技術的課題に鑑みてなされたものである。本発明は、上述した問題若しくは課題の少なくともひとつを解決するためになされたものであり、以下の適用例若しくは実施形態として実現することが可能である。
[適用例1]
本適用例にかかる音声認識システムは、音声データの認識を行う音声認識システムであって、前記音声データの音声認識を行い、前記音声データについて予め登録された登録語に対する尤度を算出する音声認識部と、前記尤度に基づき、前記音声認識の信頼性判定を行う信頼性判定部と、前記音声データの発話速度に応じて、前記信頼性判定の判定基準を変更する判定基準変更処理部と、を含むことを特徴とする。
この構成によれば、音声認識部において音声データの音声認識を行い予め登録された登
録語に対する尤度を算出し、信頼性判定部により尤度に基づき信頼性を判定し、判定基準変更処理部により利用者の発話速度に応じて信頼性判定の判定基準を変更することで、利用者の話す速度が変化することによって発生する誤った音声認識(誤認識)を低減することができる音声認識システムを提供することができる。
同一の単語若しくはフレーズなどを発話した場合、利用者の発話速度が速い場合と遅い場合とでは、遅い場合の方の尤度が大きく算出される場合が多い。従って、尤度に基づき信頼性判定を行う場合には、利用者の発話速度に応じて判定基準を変更することで、信頼性を高めた音声認識システムを構成することができる。
[適用例2]
上記適用例にかかる音声認識システムにおいて、前記信頼性判定部は、前記音声認識の結果得られた複数の前記登録語における前記尤度の差である尤度差と尤度差判定閾値との比較の結果に基づき前記音声認識の信頼性を判定する前記信頼性判定を行い、前記判定基準変更処理部は、前記発話速度が遅くなるほど前記信頼性判定に用いる前記尤度差判定閾値が大きくなるように前記尤度差判定閾値を変更することが好ましい。
この構成によれば、信頼性判定部において複数の登録語における尤度差と尤度差判定閾値との比較において音声認識の信頼性を判定し、利用者の発話速度が遅くなるほど尤度差判定閾値の値が大きくなるようにすることで、誤認識の増加を低減することができる音声認識システムを提供することができる。
上述したように、同一の単語若しくはフレーズなどを発話した場合、利用者の発話速度が速い場合と遅い場合とでは、遅い場合の方の尤度が大きく算出される場合が多い。また、異なる登録語の間の尤度差をみると、発話速度が遅くなれば尤度差も大きくなる傾向にある。従って、利用者の発話速度にかかわらず尤度差判定閾値が固定の場合には、発話速度が遅いと、誤認識のときの尤度が第1位の登録語と第2位の登録語における尤度差が尤度差判定閾値よりも大きくなる場合が想定される。このような場合は、誤認識がなされているにもかかわらず、正しい音声認識(正認識)が行われたと判断されることになり、誤認識の結果が正認識の結果として音声認識システムから出力されることになる。利用者の発話速度に合わせて尤度差判定閾値の値を変えることにより、このような事態の発生の低減を図ることができる。
[適用例3]
上記適用例にかかる音声認識システムにおいて、前記尤度差判定閾値は、前記登録語の音響モデルに対応して設定されており、前記信頼性判定部は、前記音声認識の結果得られた尤度が第1位の第1の登録語の音響モデルに対応して設定された前記尤度差判定閾値を用いて、前記音声データが前記第1の登録語であることの信頼性を判定することが好ましい。
この構成によれば、登録語の音響モデルに対応して尤度差判定閾値が設定され、尤度が第1位の第1の登録語の音響モデルに対応した尤度差判定閾値が信頼性判定部において用いられることで、第1の登録語の音響モデル毎に適した尤度差判定閾値を設定しておくことができ、信頼性判定の結果をより好ましいものにすることができる。
[適用例4]
上記適用例にかかる音声認識システムにおいて、前記判定基準変更処理部は、前記音声データの音声認識における認識時間と前記登録語の音響モデルの母音数とに基づき前記音声データの前記発話速度を判断することが好ましい。
この構成によれば、音声データの音声認識における認識時間と登録語の音響モデルの母音数とに基づき音声データにおける発話速度を判断することで、好ましい尤度差判定閾値を選択することが可能な発話速度を求めることができる。ここで、音響モデルの母音数とは、音響モデルを音素に分解した場合の母音の数でよい。
[適用例5]
上記適用例にかかる音声認識システムにおいて、前記信頼性判定部は、前記第1の登録語と前記尤度が第2位の第2の登録語とにおける前記尤度差を求め、前記尤度差と前記尤度差判定閾値との比較の結果に基づき前記音声データが前記第1の登録語であることの信頼性を判定することが好ましい。
この構成によれば、第1の登録語と第2の登録語とにおける尤度差と尤度差判定閾値との比較の結果に基づき音声データが第1の登録語であることの信頼性を判定することで、音声認識の結果に対する信頼性の高い音声認識システムを構成することができる。
[適用例6]
本適用例にかかる音声認識プログラムは、音声データの音声認識を行い、前記音声データについて予め登録された登録語に対する尤度を算出する音声認識部と、前記尤度に基づき、前記音声認識の信頼性判定を行う信頼性判定部と、前記音声データの発話速度に応じて、前記信頼性判定の判定基準を変更する判定基準変更処理部と、してコンピューターを機能させることを特徴とする。
この構成によれば、音声データの音声認識を行い、音声データについて予め登録された登録語に対する尤度を算出する音声認識部と、尤度に基づき、音声認識の信頼性判定を行う信頼性判定部と、音声データの発話速度に応じて、信頼性判定の判定基準を変更する判定基準変更処理部と、してコンピューターを機能させるプログラムを提供することにより、信頼性の高い音声認識システムを構成することができる。
[適用例7]
本適用例にかかる記憶媒体は、上記適用例にかかる音声認識プログラムが記憶されていることを特徴とする。
この構成によれば、上述したプログラムを記録した記録媒体を用いることにより、信頼性の高い音声認識システムを構成するためのプログラムを容易に持ち運ぶことができる。
[適用例8]
本適用例にかかる音声認識方法は、音声データの音声認識を行う音声認識方法であって、前記音声認識を行い、前記音声データについて予め登録された登録語に対する尤度を算出する音声認識ステップと、前記音声データの発話速度に応じて、信頼性判定の判定基準を変更する判定基準変更処理ステップと、前記尤度に基づき、前記音声認識の前記信頼性判定を行う信頼性判定ステップと、を含むことを特徴とする。
この方法によれば、音声認識を行い、音声データについて予め登録された登録語に対する尤度を算出する音声認識ステップと、音声データの発話速度に応じて、信頼性判定の判定基準を変更する判定基準変更処理ステップと、尤度に基づき、音声認識の信頼性判定を行う信頼性判定ステップと、を含む方法を用いることで、信頼性の高い音声認識システムを構成することができる。
本実施の形態の音声認識システムの機能ブロック図。 本実施の形態の音声認識システムの構成の一例。 音声認識結果の尤度差の正認識分布と誤認識分布を示す図。 本実施の形態の発話速度に応じた信頼性判定例について説明するための図。 本実施の形態の発話速度に応じた信頼性判定例について説明するための図。 本実施の形態の信頼性判定処理の流れを示すフローチャート。
以下、本発明の好適な実施の形態について図面を用いて詳細に説明する。用いる図面は、説明を行うための便宜上のものである。尚、以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。
(第1実施形態)
図1は、本実施形態の音声認識システム100の機能ブロック図である。音声認識システム100は、例えばコンピューターを用いて実現してもよいし、専用のハードウェアで実現してもよい。
音声認識システム100は音声データの音声認識を行う音声認識システムであって、音声認識部20、信頼性判定部30及び判定基準変更処理部40を含む。音声認識部20は、音声データの音声認識を行い、音声データについて、予め登録された登録語に対する尤度を算出する部分である。信頼性判定部30は、音声データの音声認識の結果得られた複数の登録語についての尤度に基づき、音声データの音声認識の信頼性判定を行う部分である。判定基準変更処理部40は、音声データの発話速度に応じて、信頼性判定の判定基準を変更する部分である。
音声認識システム100で行う音声認識は、音声データに基づき求めた特徴量と登録語に対応する音響モデルとについて公知の音声認識の手法を用いたマッチングを行い、音声データが登録語である確からしさを示すパラメーターである尤度を求めても良い。登録語は、1つの単語で構成されてもよいし、複数の単語で構成されてもよい。
音声データの発話速度は、音声データに係る音声が通常速度で話されたものか、通常速度よりゆっくりした速度で話されたものか、通常速度より早口で話されたものか等の音声データに係る音声の話す速度を判断するためのものであればよい。ここで、通常速度とは、平均的な発話速度と解してもよい。
音声認識システム100は、音声データの発話速度を、例えば音声データの音声認識に要した時間(音声認識時間)と音声認識のマッチング対象の登録語(尤度が第1位である登録語でもよい)の長さとに基づき算出してもよい。また、音声認識システム100は、音声データの発話速度を、例えば音声データにおける母音数並びに子音数と登録語の長さとに基づき算出してもよい。ここで、登録語の長さは、登録語の音響モデルにおける母音数としてもよいし、音響モデルの母音数と子音数とを所定の割合で重み付けをして算出した値としてもよい。
また音声認識システム100は、例えば登録語毎に基準時間(例えば登録語を通常の速さで話した場合に要する時間やフレーム数でも良い)を持たせ、今回の音声データの発話時間と基準時間との比較により発話速度を算出してもよい。
音声データの音声認識の信頼性判定とは、例えば音声認識の結果、一致すると判断された登録語(尤度が第1位の登録語)についての信頼度に基づく判定でもよい。判定結果は、音声認識結果(音声データが所与の登録語であるという認識結果)に対する信頼度の有
り無しで示しても良いし、信頼度の値を割合やパーセンテージで示してもよい。
また、音声認識システム100は、信頼性判定の結果を、音声認識が可能な場合(音声データと一致すると判断された登録語が存在した場合)と、音声認識が不可能な場合(音声データと一致すると判断された登録語が存在しなかった場合)とで示してもよい。このとき、音声認識システム100は、信頼度に基づいて、認識対象の音声データについて音声認識が可能な場合か否かを判断してもよい。尚、信頼度については、ひとつの例を後述する。
この信頼性判定の結果は様々に利用可能である。例えば音声認識システム100は、音声認識の結果、一致すると判断された登録語(尤度が第1位の登録語)についての信頼度が所定の基準以上である場合に音声認識ができたと判断してもよい。音声認識システム100は、信頼度に基づいて、音声データについて音声認識可能か否かを判断してもよい。また音声認識システム100は、一致すると判断された登録語(尤度が第1位の登録語)についての信頼度が所定の基準以上である場合に、結果を採用するようにしてもよい。
また信頼性判定部30は、音声データの音声認識の結果得られた複数の登録語に対する尤度の尤度差と尤度差判定閾値とを比較して、この比較の結果に基づき音声認識の信頼性を判定する信頼性判定を行い、判定基準変更処理部40は、発話速度が遅くなるほど信頼性判定に用いる尤度差判定閾値が大きくなるように変更してもよい。
また信頼性判定部30は、音声データの音声認識の結果得られた尤度が第1位の登録語と他の登録語(例えば第2位の登録語)との尤度差を求め、尤度差と尤度差判定閾値と比較して、比較結果に基づき第1位の登録語の信頼性を判定する信頼性判定を行ってもよい。
発話速度が遅い場合には、速い場合に比べて音声データにおける音声認識時間が長くなりフレーム数も多くなるので、フレーム単位のマッチング結果の累計値としての尤度の値も大きくなる可能性が高いので、発話速度が遅くなるほど尤度差の値も大きくなる傾向にある。従って、発話速度が遅くなるほど、間違っていても正しい答えであると判定してしまい、答えの信頼性が低下する傾向がある。しかしながら、発話速度が遅くなるほど信頼性判定に用いる尤度差判定閾値が大きくなるように尤度差判定閾値を変更することで、これを回避することができる。
尤度差判定閾値は、登録語の音響モデルに対応して設定されており、信頼性判定部30は、音声データの音声認識の結果得られた尤度が第1位の登録語の音響モデルに対応して設定された尤度差判定閾値を用いて、音声データと尤度が第1位の登録語とが一致することの信頼性を判定してもよい。
また判定基準変更処理部40は、認識対象の音声データにおいて検出された母音数と所与の登録語に対応した音響モデル(尤度が第1位である音響モデル)の母音数に基づき認識対象音声データの発話速度を判断してもよい。
発話速度が遅くなった場合は、通常の場合より母音が発話されている時間が長い場合が多い。従って判定基準変更処理部40は、所与の登録語に対応した音響モデルの母音数に基づき登録語の長さを求めて、この登録語の長さを用いて発話速度を算出してもよい。また判定基準変更処理部40は、登録語に対応した音響モデルの子音数と母音数を所定の割合で重み付けして登録語の長さを求めて、この登録語の長さを用いて発話速度を算出してもよい。
また音声認識部20は、音声データについて予め用意された選択肢となる複数の登録語に対する尤度を算出し、信頼性判定部30は、音声データの音声認識の結果得られた尤度が第1位の登録語と第2位の登録語の尤度差を求め、この尤度差と尤度差判定閾値とを比較して、比較結果に基づき音声データが尤度が第1位の登録語であることの信頼性を判定してもよい。
また音声認識部20は、音声データについて、隠れマルコフモデル(HMM:Hidden Markov Model)の手法を用いて特徴量(特徴ベクトル等)を抽出し、登録語に対応する隠れマルコフモデルの手法により作成された音響モデルを用意し、特徴量と所与の登録語の音響モデルについて、隠れマルコフモデルの手法を用いたマッチングによる音声認識をおこなってもよい。
図2は、本実施形態における音声認識システムの構成の一例である。尚、上述した機能ブロックと同様の機能を有する構成要素には同一の名称及び付番を行い、本実施例の中における説明は省略する場合がある。
本実施例の音声認識システム200は、音声データ入力部10と、特徴抽出部12、音声認識部20と、信頼性判定部30、判定基準変更処理部40、音声辞書記憶部50等を含む。
音声データ入力部10は、音声データを入力する部分で、例えば話者の音声を入力するマイクロフォン等で実現できる。特徴抽出部12は、入力された音声データに対して、A/D変換、フィルターによるノイズ除去、高速フーリエ変換(FFT)、ケプストラム計算等を施して特徴ベクターを抽出する処理を行ってもよい。
音声辞書記憶部50は、記憶部によって実現され、音声認識に用いる複数の登録語の音響モデル等が記憶されている部分である。ここで、記憶部は、プログラムやデータなどを格納するものであり、その機能はコンピューターにより読み取り可能な媒体(光ディスク(CD、DVD等)、光磁気ディスク(MO)、磁気ディスク、ハードディスク、磁気テープ、或いはメモリー(ROM))などのハードウェアにより実現できる。
音声認識部20、信頼性判定部30及び判定基準変更処理部40は、専用又は汎用のプロセッサー等に、音声認識部20、信頼性判定部30及び判定基準変更処理部40として機能させるプログラムを実行させることにより実現することができる。また音声認識部20、信頼性判定部30及び判定基準変更処理部40の少なくとも一部を専用のハードウエア(回路)に実現してもよい。
例えば、音声認識システム200は、特徴抽出部12、音声認識部20及び音声辞書記憶部50を含む集積回路装置(半導体集積回路装置)110と、信頼性判定部30及び判定基準変更処理部40を含むホストシステム120とで実現されてもよい。尚、図示はしていないが、音声認識システム200は、操作のための入力装置、及び、操作のためのメニュー並びに音声認識結果などを表示するための表示部を含む。
また音声認識システム200は、特徴抽出部12、音声認識部20、音声辞書記憶部50、信頼性判定部30、判定基準変更処理部40を含む集積回路装置(半導体集積回路装置)130として実現してもよい。
図3(A)(B)は、尤度が第1位の登録語と第2位の登録語との尤度差の正認識における分布(正認識分布)と誤認識における分布(誤認識分布)とを示す図である。横軸は
尤度差、縦軸は出現確率である。
図3(A)は、通常速度で話した場合の正認識分布320と誤認識分布310とを示したものである。正認識分布320は、音声データが発話者の意図した登録語に正しく認識された場合の尤度差の複数のサンプルから求めた出現確率をグラフ化したものである。誤認識分布310は、音声データが発話者の意図と異なる登録語に誤認識された場合の尤度差の複数のサンプルから求めた出現確率をグラフ化したものである。
図3(B)は、通常速度よりゆっくり話した場合の正認識分布322と誤認識分布312とを示したものである。
図3(A)(B)に示すように、正認識の場合のほうが、誤認識の場合に比べて尤度差が大きくなる傾向になる。従って、尤度が第1位と第2位の登録語の尤度差を所定の閾値と比較することで、音声データが尤度が第1の登録語であることの信頼性を判定することができる。
図3(A)のS1は、通常速度における尤度差判定閾値の1例を示している。この場合、尤度が第1位の登録語と第2位の登録語との尤度差が尤度差判定閾値S1以上であれば正認識の確率が誤認識の確率よりも高くなり、音声データが尤度が第1位の登録語であることの信頼度は高いと判断することができる。しかし、尤度差が尤度差判定閾値S1未満であれば正認識の確率が誤認識の確率よりも低くなり、音声データが尤度が第1位の登録語である信頼度は低いと判断することができる。信頼性判定部30において信頼度が高いと判断された場合を正認識であると判定して、尤度が第1位の登録語を音声データに対する音声認識の結果として表示部に表示してもよい。
また、信頼度の判断をどのように活用するかは、音声認識システム200で実行されるアプリケーションプログラムに委ねてもよく、例えば信頼度が低いと判断された場合においても、信頼性を示す記号若しくは数値などと共に尤度が第1位の登録語を表示部に表示することでもよい。信頼性を示す記号若しくは数値は、例えば、図3(A)のグラフにおける尤度差の値に対応した正認識分布320の出現数と誤認識分布310の出現数との比から算出されたものでよい。
また、音声認識システム200の音声認識の結果の信頼性を高くしたい場合には、図3(A)において、尤度差判定閾値を尤度差判定閾値S1よりも尤度差が大きくなる側(例えば図3(A)の尤度差判定閾値S2)にずらしてもよい。この場合、尤度差が尤度差判定閾値S2よりも小さい場合であっても正認識の確率が誤認識の確率よりも高い場合が存在することになるが、誤認識であるとの表示がなされる確率は尤度差判定閾値S1の場合に比較して低くなる。よって、音声認識システム200としての音声認識率(正認識であると表示される確率)は低くなるが、正認識と判定された場合の正認識であることの信頼性は高くなる。音声認識システム200の音声認識の結果を何らかの制御に利用する場合などは、誤制御により問題が発生することを防ぐために、尤度差判定閾値を尤度差判定閾値S1よりも大きい値とすることが好ましいことになる。
逆に、図3(A)において、尤度差判定閾値が尤度差判定閾値S1よりも尤度差が小さくなる側にずれると、誤認識の確率が正認識の確率よりも高くなり、誤認識にもかかわらず正認識とされる確率が高くなり、正認識と判定された場合の正認識であることの信頼性は低くなる。上述したように、尤度差判定閾値をどのように設定するかは音声認識システム200のアプリケーションにより決められることでよい。
図3(B)は、発話速度が通常速度よりも遅い場合のグラフであり、正認識分布322
の出現数と誤認識分布312の出現数とが同数となるときの値はS1よりも大きいS2である。従って、通常速度の場合と同じ条件の信頼性判定を行いたい場合には、尤度差判定閾値の値を大きくする必要がある。通常速度の場合と異なり、尤度差判定閾値をS1とした場合には、尤度差が尤度差判定閾値S1よりも大きい場合であっても誤認識の確率が正認識の確率よりも高い場合が存在する。
従って、発話速度に応じて尤度差判定閾値の値を変更すること、即ち、発話速度が遅くなれば尤度差判定閾値の値を大きくすることが好ましいことになる。
図4、図5は、本実施例の発話速度に応じた信頼性判定例について説明するための図である。
図4を用いて、利用者1が「こんにちわ」と通常速度(ここでは2秒とする)で発話した音声データ1が正認識された場合の信頼性判定と、利用者2が「こんにちわ」と通常速度(2秒)で発話した音声データ2が誤認識された場合の信頼性判定を例に取り、信頼性判定手法について説明する。
ここでは取得した音声データが予め用意された複数の登録語(例えば音声データが発話されている場面で選択肢となっている登録語)のいずれであるかを判定するタイプの音声認識を例にとり説明する。
選択肢として用意されている登録語が「こんにちわ」、「おはよう」、「こんばんわ」である場合、音声辞書記憶部50には、これら各登録語に対応して、例えば隠れマルコフモデル(HMM)の手法を用いて生成された音響モデルが用意されている。
音声認識部20は、音声データを基にした情報(例えば周波数スペクトル信号)と、選択肢として予め用意された登録語である「こんにちわ」、「おはよう」、「こんばんわ」の音響モデルとについて、隠れマルコフモデルの手法を用いたマッチングによる音声認識をおこない、音声データが各登録語である確からしさを示すパラメーターである尤度を算出し、音声認識の際の認識時間を出力する。
まず音声データ1の音声認識結果に対する信頼性の判定例である、利用者1が「こんにちわ」(音声データ1)と2秒で発話して尤度が第1位の認識結果が「こんにちわ」である場合、すなわち正認識の場合について説明する。
この例では、音声データ1と「こんにちわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「78」、音声データ1と「おはよう」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「30」、音声データ1と「こんばんわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は、「20」である。
尚、音声認識部20は、尤度差による信頼性判定を行う前に、選択対象の各登録語における尤度を、最低尤度閾値と比較して、比較結果に基づき各登録語の尤度を採用するか否か判定する尤度判定処理を行ってもよい。そして採用すると判定した登録語についての尤度差に基づき、尤度が第1位の登録語の音声データの音声認識の信頼性判定を行ってもよい。ここで最低尤度閾値とは、これよりも尤度が小さい場合においては音声データと一致する登録語と見做さないとする値のことである。
すなわち、音声認識部20は「こんにちわ」、「おはよう」、「こんばんわ」の各登録語について求めた尤度のそれぞれを最低尤度閾値と比較して、最低尤度閾値より高い尤度
の登録語について、尤度差を用いた信頼性判定を行うようにしてもよい。尤度差判定閾値は、例えば無音又は雑音の音響モデルと音声認識を行って得られた尤度(この場合音声データ毎に異なる値となる)でもよいし、実験結果等から求めた尤度でもよい。また、音声認識部20は、発話速度が遅い場合には、速い場合に比べて最低尤度閾値の値が大きくなるように変更してもよい。
音声認識部20は、例えば最低尤度閾値が「21」の場合には、「こんにちわ」と「おはよう」の尤度については、最低尤度閾値以上であるので採用し、「こんばんわ」の尤度については最低尤度閾値以下であるので、信頼性判定に使用しないようにしても良い。
音声データ1については、尤度が第1位の登録語は尤度が「78」である「こんにちわ」であり、尤度が2位の登録語は尤度が「30」である「おはよう」である。これらはいずれも最低尤度閾値を上回っているので、信頼性判定部30は、尤度が第1位と第2位の登録語における尤度差を用いての信頼性判定を行う。尤度が第1位と第2位の登録語の尤度差は78−30=48である。
信頼性判定部30は、尤度が第1位と第2位の登録語における尤度差を用いての信頼性判定を行う場合に音声データの音声認識の結果得られた尤度が第1位の登録語の音響モデルに対応して設定された尤度差判定閾値を用いてもよい。
尚、尤度差判定閾値は、各登録語の音響モデル毎に設定されていてもよい。信頼性判定部30は、例えば「こんにちわ」の尤度が第1位となった場合には、「こんにちわ」の音響モデルに対応して設定されている尤度差判定閾値を用いてもよい。また信頼性判定部30は、「おはよう」の尤度が第1位となった場合には、「おはよう」の音響モデルに対応して設定されている尤度差判定閾値を用いてもよい。また信頼性判定部30は、「こんばんわ」の尤度が第1位となった場合には、「こんばんわ」の音響モデルに対応して設定されている尤度差判定閾値を用いてもよい。
尤度差判定閾値は音声データの発話速度に応じて変化する。音声認識部20は、発話速度を、音声認識の認識時間と登録語(音響モデル)の長さによって判断してもよい。ここで登録語の長さは、尤度が第1位の登録語の長さを使用してもよい。すなわち音声認識部20は、音声認識の際の認識時間と尤度が第1位である登録語の音響モデルの長さ(例えば母音数)に基づき認識対象の発話速度を求めてもよい。ここで、音声認識の認識時間若しくは音声認識時間とは、音声認識が開始されてから対象となる各々の登録語の尤度の算出が終わるまでの時間から、割込み処理などの尤度の算出以外に要した時間を差し引いた、時間の長さである。
例えば「こんにちわ」は母音数が4個なので、音声認識部20は、音声認識時間2秒を4で割って、「0.5」を発話速度としてもよい。尚、本実施例並びに本実施例以降の実施例において、上述した通常速度に対応する、標準的な速さ若しくは平均的な速さにおける発話速度を基準速度と呼ぶことにする。
判定基準変更処理部40は、図4に示すように、各登録語を基準速度で発話した場合の尤度差判定閾値(基準尤度差判定閾値410)を各登録語の音響モデルに対応させて設定しておいてもよい。そして判定基準変更処理部40は、尤度が第1位の登録語の基準尤度差判定閾値410と今回の音声データの発話速度とに基づき、今回の尤度差判定閾値420を求めても良い。
判定基準変更処理部40は、基準尤度差判定閾値410と今回の発話速度に対応した今回の尤度差判定閾値420とが所定の関係(例えば比例関係でもよいし、所定の関数で定
義できる関係でもよい)にあるとして、基準尤度差判定閾値410と今回の発話速度とに基づき今回の尤度差判定閾値420を求めてもよい。
例えば「こんにちわ」という登録語の音響モデルについて基準速度(ここでは「こんにちわ」を2秒で発話した場合と同じ「0.5」とする)の基準尤度判定閾値410が「40」であれば、今回の尤度差判定閾値420は「40」となる。
音声データ1の場合、尤度が第1位の登録語が「こんにちわ」なので、「こんにちわ」に対応する今回の尤度差判定閾値420である「40」を用いて、尤度が第1位の登録語と尤度が第2位の登録語との尤度差「48」の判定を行う。(注1)に示すように48>40で、今回の尤度差判定閾値420を用いて判定した信頼度は「○」(音声データ1が「こんにちわ」である信頼性が高い)となる。すなわち音声データ1が「こんにちわ」であるという音声認識結果は正認識である可能性が高いということを示している。
次に音声データ2の音声認識結果に対する信頼性の判定例である利用者2が「こんにちわ」(音声データ2)と2秒で発話して尤度が第1位の認識結果が「こんばんわ」である誤認識の場合について説明する。
この例では、音声データ2と「こんにちわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「50」、音声データ2と「おはよう」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「30」、音声データ2と「こんばんわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「80」である。
音声データ2については、尤度が第1位の登録語は尤度が「80」である「こんばんわ」であり、2位の登録語は尤度が「50」である「こんにちわ」である。これらはいずれも最低尤度閾値を上回っているので、音声認識部20は尤度が第1位と第2位の登録語における尤度差を用いた信頼性判定を行う。尤度が第1位の登録語と尤度が第2位の登録語における尤度差は80−50=30である。
尤度が第1位である「こんばんわ」は母音数が3個なので、音声認識部20は音声認識時間2秒を3で割って、「0.66」を発話速度としてもよい。
例えば「こんばんわ」という登録語の音響モデルについて基準速度(ここでは「こんばんわ」を2秒で発話した場合と同じ「0.66とする)の基準尤度判定閾値410が「41」であれば、今回の尤度差判定閾値420は「41」となる。
音声認識部20は、音声データ2の場合、尤度が第1位の登録語が「こんばんわ」なので、「こんばんわ」に対応する今回の尤度差判定閾値420である「41」を用いて、尤度が第1位と第2位の登録語における尤度差「30」の判定を行う。(注2)に示すように30<41で、今回の尤度差判定閾値を用いて判定した信頼度は「×」(音声データ2が「こんばんわ」である信頼性が低い)となる。すなわち音声データ2が「こんばんわ」であるという音声認識結果は誤認識である可能性が高いということを示している。
次に図5を用いて、通常よりゆっくりした速度(例えば3秒)で発話した場合の音声認識結果に対する信頼性判定例について説明する。
まず音声データ3の音声認識結果に対する信頼性の判定例である利用者3が「こんにちわ」(音声データ3)と3秒で発話して尤度が第1位の登録語が「こんにちわ」である、正認識の場合について説明する。
この例では、音声データ3と「こんにちわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「117」、音声データ3と「おはよう」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「45」、音声データ3と「こんばんわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「30」である。
音声データ3については、尤度が第1位の登録語は尤度が「117」である「こんにちわ」であり、尤度が2位の登録語は尤度が「45」である「おはよう」である。これらはいずれも最低尤度閾値を上回っているので、音声認識部20は、尤度が第1位と第2位の登録語における尤度差を用いての信頼性判定を行う。尤度が第1位と第2位の登録語における尤度差は117−45=62である。
尤度が第1位である「こんにちわ」は母音数が4個なので、音声認識部20は、認識時間3秒を4で割って、「0.75」を発話速度としてもよい。
例えば「こんにちわ」という登録語の音響モデルについて基準速度(ここでは「こんにちわ」を2秒で発話した場合と同じ「0.5」とする)の基準尤度判定閾値410が「40」であれば、今回は発話速度が「0.75」であり、1.5倍の速さになっている。
発話速度がx倍になった場合には、音声データのフレーム数もx(x>1の場合)倍になるので尤度も高くなる可能性が高い。また、尤度がx倍になれば尤度差もx倍となる可能性が高い。これに伴い、図3(A)(B)に示すような正認識と誤認識の尤度差の分布も広がることになる。図3(A)と図3(B)では話す速度の遅い図3(B)のほうが誤認識分布312との分布が広くなっている。
判定基準変更処理部40は、発話速度が遅くなるほど尤度差判定閾値の値を大きくするアルゴリズムを採用している。例えば、判定基準変更処理部40は、発話速度がx倍になった場合には尤度差判定閾値は、{1+(x−1)/x}倍になるというアルゴリズムを採用してもよい。本実施例のように発話速度が基準発話速度の1.5倍である場合には、判定基準変更処理部40は、尤度差判定閾値の値を1+(1.5−1)/2=1.25倍となる値に変更する。
信頼性判定部30は、音声データ3の場合、尤度が第1位の登録語が「こんにちわ」なので、今回の尤度差判定閾値420は、「こんにちわ」に対応する基準尤度差判定閾値410の「40」の1.25倍の「50」が使われる。これを用いて、尤度が第1位と第2位の登録語の尤度差「62」の判定を行う。(注3)に示すように62>50で、今回の尤度差判定閾値を用いて判定した信頼度は「○」(音声データ3が「こんにちわ」である信頼性が高い)となる。すなわち音声データ3が「こんにちわ」であるという音声認識結果は正認識である可能性が高いということを示している。
次に音声データ4の音声認識結果に対する信頼性の判定例として利用者4が「こんにちわ」(音声データ4)と3秒で発話して尤度が第1位の登録語が「こんばんわ」である、誤認識の場合について説明する。
この例では、音声データ4と「こんにちわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「75」、音声データ4と「おはよう」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「45」、音声データ4と「こんばんわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「120」である。
音声データ4については、尤度が第1位の登録語は尤度が「120」である「こんばんわ」であり、尤度が2位の登録語は尤度が「75」である「こんにちわ」である。これらはいずれも最低尤度閾値を上回っているので、音声認識部20は、尤度が第1位と第2位の登録語における尤度差を用いての信頼性判定を行う。尤度が第1位と第2位の登録語における尤度差は120−75=45である。
尤度が第1位の登録語である「こんばんわ」は母音数が3個なので、音声認識部20は、認識時間3秒を3で割って、「1」を発話速度としてもよい。
例えば「こんばんわ」という登録語の音響モデルについて基準速度(ここでは「こんばんわ」を2秒で発話した場合と同じ「0.66」とする)の基準尤度判定閾値410が「41」であれば、今回は発話速度が「1」であり、約1.5倍の速さになっている。
音声データ4の場合、尤度が第1位の登録語が「こんばんわ」なので、今回の尤度差判定閾値420としては、「こんばんわ」に対応する基準尤度差判定閾値410「41」の1.25倍の「52」が使われる。これを用いて、尤度が第1位の登録語と尤度が第2位の登録語との尤度差「45」の判定を行う。(注4)に示すように45<52で、今回の尤度差判定閾値420を用いて判定した信頼度は「×」(音声データ4が「こんばんわ」である信頼性が低い)となる。すなわち音声データ4が「こんばんわ」であるという音声認識結果は誤認識である可能性が高いということを示している。
(注5)は音声データ4の信頼性判定の際に、基準速度で発話された場合の基準尤度差判定閾値410の値である「41」を用いた範囲の信頼性判定結果を示している。(注5)に示すように45>41で、信頼度は「○」(音声データ4が「こんばんわ」である信頼性が高い)となる。すなわち音声データ4が「こんにちわ」であるにもかかわらず、「こんばんわ」であるという音声認識結果が正認識である可能性が高いということになる。このように音声認識部20が、尤度差判定閾値の発話速度に応じた変更を行わない場合には、誤認識にもかかわらず正認識と判定される可能性がある。しかしながら、音声認識部20が発話速度に応じて尤度差判定閾値を変更することにより、(注5)のようなケースを防止することができる。
本実施例は、本実施形態の音声認識システムにおける信頼性判定処理のフローを説明するものである。図6に、信頼性判定処理のフローの一部を示すフローチャートを示す。
本実施例の音声認識システムは、音声データと、予め用意された選択肢である複数の登録語に対応する音響モデルとについて、隠れマルコフモデルの手法を用いたマッチングによる音声認識を行い、音声データに対する複数の登録語の各々の尤度及び音声認識時間を算出する(ステップS10)
次に本実施例の音声認識システムは、尤度が第1位と第2位の登録語の尤度差を求める(ステップS20)。また本実施例の音声認識システムは、音声認識時間と尤度が第1位の登録語の長さとから発話速度を求める(ステップS30)。次に本実施例の音声認識システムは、尤度が第1位の登録語の音響モデルについて基準速度で発話された場合について設定されている尤度差判定閾値と発話速度とに基づき、今回の尤度差判定閾値を求める(ステップS40)。
そして、本実施例の音声認識システムは、尤度が第1位と第2位の登録語の尤度差と今回の尤度差判定閾値に基づき、音声データが尤度が第1位の登録語であることの信頼性判
定を行う(ステップS50)。
以上、本発明にかかる実施形態並びに適用例の説明を行ったが、本発明は上述した本実施形態並びに適用例に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。
本発明は、実施の形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、上述した実施形態並びに適用例で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。本発明は、本発明の趣旨を逸脱しない範囲において広く適用が可能である。
10…音声データ入力部、12…特徴抽出部、20…音声認識部、30…信頼性判定部、40…判定基準変更処理部、50…音声辞書記憶部、100…音声認識システム、110…集積回路装置、120…ホストシステム、130…集積回路装置、200…音声認識システム

Claims (7)

  1. 音声データの認識を行う音声認識システムであって、
    前記音声データの音声認識を行い、前記音声データについて予め登録された登録語に対する尤度を算出する音声認識部と、
    前記尤度に基づき、前記音声認識の信頼性判定を行う信頼性判定部と、
    前記音声データの発話速度に応じて、前記信頼性判定の判定基準を変更する判定基準変更処理部と、を含み、
    前記信頼性判定は、前記音声認識の結果得られた複数の前記登録語における前記尤度の差である尤度差と尤度差判定閾値との比較の結果に基づき行われ、
    前記判定基準変更処理部は、前記発話速度が遅くなるほど前記信頼性判定に用いる前記尤度差判定閾値が大きくなるように前記尤度差判定閾値を変更し、
    前記尤度差判定閾値は、前記登録語の音響モデルに対応して設定されており、
    前記信頼性判定部は、前記第1の登録語と前記尤度が第2位の第2の登録語とにおける前記尤度差と、前記音声認識の結果得られた尤度が第1位の第1の登録語の音響モデルに対応して設定された前記尤度差判定閾値と、を用いて、前記音声データが前記第1の登録語であることの信頼性を判定することを特徴とする音声認識システム。
  2. 前記信頼性判定部は、前記登録された登録語を前記信頼性判定に用いる登録語として採用するか否かを、前記登録語における尤度と前記登録語に対して設定された最低尤度閾値とを比較することによって判定し、
    前記判定基準変更処理部は、前記発話速度が遅くなるほど前記最低尤度閾値が大きくなるように前記最低尤度閾値を変更することを特徴とする請求項1に記載の音声認識システム。
  3. 前記判定基準変更処理部は、前記音声データの音声認識における認識時間と前記音声認識の結果得られた尤度が第1位の第1の登録語の長さとに基づき前記音声データの前記発話速度を判断することを特徴とする請求項1または2に記載の音声認識システム。
  4. 前記判定基準変更処理部は、
    前記音声データの音声認識における認識時間と前記登録語の音響モデルの母音数とに基づき前記音声データの前記発話速度を判断することを特徴とする請求項1または2に記載の音声認識システム。
  5. 音声データの音声認識を行い、前記音声データについて予め登録された登録語に対する尤度を算出する音声認識部と、
    前記尤度に基づき、前記音声認識の信頼性判定を行う信頼性判定部と、
    前記音声データの発話速度に応じて、前記信頼性判定の判定基準を変更する判定基準変更処理部と、してコンピューターを機能させ、
    前記信頼性判定は、前記音声認識の結果得られた複数の前記登録語における前記尤度の差である尤度差と尤度差判定閾値との比較の結果に基づき行われ、
    前記判定基準変更処理部は、前記発話速度が遅くなるほど前記信頼性判定に用いる前記尤度差判定閾値が大きくなるように前記尤度差判定閾値を変更し、
    前記尤度差判定閾値は、前記登録語の音響モデルに対応して設定されており、
    前記信頼性判定部は、前記第1の登録語と前記尤度が第2位の第2の登録語とにおける前記尤度差と、前記音声認識の結果得られた尤度が第1位の第1の登録語の音響モデルに対応して設定された前記尤度差判定閾値と、を用いて、前記音声データが前記第1の登録語であることの信頼性を判定することを特徴とする音声認識プログラム。
  6. 請求項に記載された音声認識プログラムが記憶されていることを特徴とするコンピューターで読み取り可能な記録媒体。
  7. 音声データの音声認識を行う音声認識方法であって、
    前記音声認識を行い、前記音声データについて予め登録された登録語に対する尤度を算出する音声認識ステップと、
    前記音声データの発話速度に応じて、信頼性判定の判定基準を変更する判定基準変更処理ステップと、
    前記尤度に基づき、前記音声認識の前記信頼性判定を行う信頼性判定ステップと、
    を含み、
    前記信頼性判定は、前記音声認識の結果得られた複数の前記登録語における前記尤度の差である尤度差と尤度差判定閾値との比較の結果に基づき行われ、
    前記尤度差判定閾値は、前記発話速度が遅くなるほど大きくなるように変更され、
    前記尤度差判定閾値は、前記登録語の音響モデルに対応して設定されており、
    前記信頼性判定は、前記第1の登録語と前記尤度が第2位の第2の登録語とにおける前記尤度差と、前記音声認識の結果得られた尤度が第1位の第1の登録語の音響モデルに対応して設定された前記尤度差判定閾値と、を用いて、前記音声データが前記第1の登録語であることの信頼性を判定することを特徴とする音声認識方法。
JP2012150348A 2012-07-04 2012-07-04 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 Expired - Fee Related JP6131537B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012150348A JP6131537B2 (ja) 2012-07-04 2012-07-04 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
US13/924,809 US9251789B2 (en) 2012-07-04 2013-06-24 Speech-recognition system, storage medium, and method of speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012150348A JP6131537B2 (ja) 2012-07-04 2012-07-04 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2014013302A JP2014013302A (ja) 2014-01-23
JP6131537B2 true JP6131537B2 (ja) 2017-05-24

Family

ID=49879187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012150348A Expired - Fee Related JP6131537B2 (ja) 2012-07-04 2012-07-04 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法

Country Status (2)

Country Link
US (1) US9251789B2 (ja)
JP (1) JP6131537B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6164076B2 (ja) * 2013-12-17 2017-07-19 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP6410491B2 (ja) * 2014-06-27 2018-10-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US9418679B2 (en) 2014-08-12 2016-08-16 Honeywell International Inc. Methods and apparatus for interpreting received speech data using speech recognition
US10650805B2 (en) * 2014-09-11 2020-05-12 Nuance Communications, Inc. Method for scoring in an automatic speech recognition system
US9424841B2 (en) * 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
KR102371770B1 (ko) * 2015-01-19 2022-03-07 삼성전자주식회사 음성 인식 장지 및 방법
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
EP4328905A3 (en) 2016-11-07 2024-04-24 Google Llc Recorded media hotword trigger suppression
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
KR102458805B1 (ko) 2017-04-20 2022-10-25 구글 엘엘씨 장치에 대한 다중 사용자 인증
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
JP6811865B2 (ja) * 2017-08-08 2021-01-13 三菱電機株式会社 音声認識装置および音声認識方法
US10839793B2 (en) 2018-04-16 2020-11-17 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US10896672B2 (en) 2018-04-16 2021-01-19 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
CN112435668A (zh) * 2020-11-06 2021-03-02 联想(北京)有限公司 一种语音识别方法、装置及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63161500A (ja) * 1986-12-24 1988-07-05 松下電器産業株式会社 音声認識装置
JPS63161499A (ja) * 1986-12-24 1988-07-05 松下電器産業株式会社 音声認識装置
US5444817A (en) * 1991-10-02 1995-08-22 Matsushita Electric Industrial Co., Ltd. Speech recognizing apparatus using the predicted duration of syllables
JPH10207486A (ja) 1997-01-20 1998-08-07 Nippon Telegr & Teleph Corp <Ntt> 対話型音声認識方法およびこの方法を実施する装置
JP2001228890A (ja) 2000-02-17 2001-08-24 Mitsubishi Electric Corp 音声認識装置
JP3819896B2 (ja) * 2003-11-14 2006-09-13 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP4322785B2 (ja) * 2004-11-24 2009-09-02 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US8239203B2 (en) * 2008-04-15 2012-08-07 Nuance Communications, Inc. Adaptive confidence thresholds for speech recognition
JPWO2010128560A1 (ja) * 2009-05-08 2012-11-01 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム

Also Published As

Publication number Publication date
US20140012578A1 (en) 2014-01-09
US9251789B2 (en) 2016-02-02
JP2014013302A (ja) 2014-01-23

Similar Documents

Publication Publication Date Title
JP6131537B2 (ja) 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
US9373321B2 (en) Generation of wake-up words
KR101805976B1 (ko) 음성 인식 장치 및 방법
JP3886024B2 (ja) 音声認識装置及びそれを用いた情報処理装置
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
US20090112595A1 (en) Discriminative training of multi-state barge-in models for speech processing
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
JP6336219B1 (ja) 音声認識装置および音声認識方法
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US9542939B1 (en) Duration ratio modeling for improved speech recognition
JP2010181884A (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
JP4074543B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
Këpuska Wake-up-word speech recognition
JP6148150B2 (ja) 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
JP6276513B2 (ja) 音声認識装置および音声認識プログラム
JP5183120B2 (ja) 平方根ディスカウンティングを使用した統計的言語による音声認識
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
JP2008176202A (ja) 音声認識装置及び音声認識プログラム
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
WO2012150658A1 (ja) 音声認識装置および音声認識方法
EP3790000A1 (en) System and method for detection and correction of a speech query
US8768695B2 (en) Channel normalization using recognition feedback
JP5673239B2 (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP6497651B2 (ja) 音声認識装置および音声認識プログラム
Breslin et al. Continuous asr for flexible incremental dialogue

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160513

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160609

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20160617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170321

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170403

R150 Certificate of patent or registration of utility model

Ref document number: 6131537

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees