JP6030135B2 - 音声認識システムにおいて、誤った肯定を低減すること - Google Patents

音声認識システムにおいて、誤った肯定を低減すること Download PDF

Info

Publication number
JP6030135B2
JP6030135B2 JP2014527200A JP2014527200A JP6030135B2 JP 6030135 B2 JP6030135 B2 JP 6030135B2 JP 2014527200 A JP2014527200 A JP 2014527200A JP 2014527200 A JP2014527200 A JP 2014527200A JP 6030135 B2 JP6030135 B2 JP 6030135B2
Authority
JP
Japan
Prior art keywords
duration
recognition result
consistency
component
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014527200A
Other languages
English (en)
Other versions
JP2014524599A5 (ja
JP2014524599A (ja
Inventor
シャウ、ジョナサン
バーメウレン、ピーター
サットン、ステファン
サボイエ、ロバート
Original Assignee
センソリー・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by センソリー・インコーポレイテッド filed Critical センソリー・インコーポレイテッド
Publication of JP2014524599A publication Critical patent/JP2014524599A/ja
Publication of JP2014524599A5 publication Critical patent/JP2014524599A5/ja
Application granted granted Critical
Publication of JP6030135B2 publication Critical patent/JP6030135B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Auxiliary Devices For Music (AREA)

Description

関連出願に対する相互参照
本願は、「音声認識システムにおいて誤った肯定を低減すること」(Reducing False Positives in Speech Recognition Systems)と題され本明細書において参照によってその開示が組み込まれている2011年8月23付けの米国特許出願13/217,134号からの優先権の利益を主張する。
本発明は、音声認識に関し、さらに詳しくは、持続時間およびエネルギを用いて音声認識を向上するシステムおよび方法に関する。
ハンドヘルド・デバイスの爆発的な利用度と、小型化するデバイス・サイズによって、音声認識は、電子システムとのシームレスなユーザ・インタラクションをサポートするための、ますます重要な技術となっている。しかしながら、正確な認識システムを構築することは、非常に難しい。高度に正確な認識システムは、計算負荷が大きくなる可能性があり、小型のハンドヘルド電子デバイスには適切ではない可能性がある。
いくつかの音声認識器が、誤った認識を生成した場合、1つの問題が生じる。この場合、認識器は、事実、ワードやフレーズが実際に話されていない場合に、特定のワードまたはフレーズが認識されたことを示す出力を生成しうる。この現象は、しばしば、音のストリームを受信し、このストリームにおける特定の音をピック・アウト(“スポット”)するように構成されたワード・スポット認識器において見出される。
本発明は、持続時間およびエネルギを用いて音声認識を実行するシステムおよび方法に伴うこれらの問題およびその他の問題を解決する。
本発明の実施形態は、音声認識を実行する方法を改善する。1つの実施形態では、本発明は、話された発声を受け取ることと、認識結果を生成するために、音声認識器において、この話された発声を処理することと、話された発声の成分音の1または複数のパラメータの一貫性を判定することと、ここで、これらパラメータは、持続時間、エネルギ、およびピッチからなるグループから選択され、話された発声の各成分音は、パラメータの対応する値を有する、これらパラメータのうちの少なくとも1つの一貫性に基づいて、認識結果を検証することと、を備える方法を含む。
図1は、本発明の1つの実施形態にしたがって音声認識を実行するための方法を例示する。 図2は、本発明の1つの実施形態にしたがって音声認識を実現するためのシステムを例示する。
本明細書では、持続時間とエネルギを用いて音声認識を実行するための技術が記載されている。以下の記載では、説明の目的のために、本発明の完全な理解を提供するために多くの例および具体的な詳細が記載されている。しかしながら、請求項によって定義されたような本発明は、これら例における機能のうちのいくつかまたはすべてを、単独で、または、以下に記載されたその他の機能とともに含み、さらに、本明細書に記載された機能および概念の明確な修正および等価物を含みうることが当業者に明らかになるであろう。
図1は、本発明の1つの実施形態にしたがって音声認識を実行するための方法を例示する。本発明の実施形態は、音声認識結果を改善するために、認識器において受け取られたユーザ発声の特定のパラメータをモニタする。特に、本発明の実施形態は、実際の音声にとって非現実的な結果である認識結果における非一貫性を認識することによって、誤った認識を低減する。例えば、認識器は、“hot”というワードを求めてリスンしうる。“h”は10ミリ秒を要し、“o”の左手部分は10ミリ秒を要し、“o”の右手部分は400ミリ秒を要し、“t”は100ミリ秒を要しうる。実際の音声は、これよりもより一貫性のある割合で生じる。同様に、“h”および“o”の左側は、非常に大きいかもしれない。その一方で、この発言の残りは、非常に静かである。この非一貫性は、また、実際の音声の、非常に非現実的な形態でもある。最後に、認識された音声は、一般に、女性に関連付けられた場合、高ピッチで始まり、一般に、男性に関連付けられた場合、低ピッチへと落ちる。この非一貫性も同様に非現実的である。既存の認識器は、このような非現実的な結果を認識しないであろう。なぜなら、以前の認識器は、持続時間モデルを、各セグメントについて独立して適用し、より広いコンテキストにわたる一貫性を強要しないからである。例えば、持続時間モデルのために使用される統計は、一般に、話者独立であり、特定の話者についてさほど正確ではない。このシステムが、認識器へのピッチ、エネルギ、または持続時間の一貫性に関する追加情報を含んでいる場合、認識器は、はるかに希にしか、誤った認識をしない。
図1は、1つの実施形態にしたがう処理を例示する。101では、話された発声が受け取られる。102では、音声認識を実行するために、話された発声が、認識器において処理される。いくつかの実施形態では、認識器は、例えば、マイクロプロセッサ、マイクロコントローラ、または、音声認識のために最適化された特定用途向けIC(ASIC)のような、音声認識を実行するためのハードウェアの、アプリケーション特有のユニットでありうる。他の実施形態では、認識器は、プロセッサにおいて実行可能な命令群を含むソフトウェアで実現されうる。例えば、認識器は、ソフトウェアとして実現され、例えば、汎用マイクロプロセッサまたはマイクロコントローラにおいて実行されうる。103では、持続時間、エネルギ、またはピッチの一貫性が判定される。例えば、話された発声が、成分ベースで分析されうる。例えば、話された発声は、サブ・フォン、音素、音節、またはワードにさえも基づいて分析されうる。サブ・フォンが使用された場合、各セグメントがどのサブ・フォンに対応しているのかを決定するために、話された発声のセグメントが分析されうる。さらなる例として、話者が、ワード“hot”を発声すると、システムは、“hot”の音のセグメントが、“h”−“o”−“t”の音素であると判定しうる。システムは、音の成分にわたるピッチ、エネルギ、または持続時間の一貫性を判定しうる。104では、この一貫性に基づいて、認識結果が検証される。例えば、認識器が、認識された特定のワードまたはフレーズを示す認識結果を生成した場合、この認識結果が、話された発声のピッチ、エネルギ、または持続時間といったパラメータのうちの1または複数の一貫性に基づいて検証されうる。特に、例えば、持続時間が、一貫性がないと判定された場合、この認識結果は有効ではなく、却下されうる。
図2は、1つの実施形態にしたがうシステムを例示する。システム200は、内部メモリ203を含むプロセッサ201を含む。内部メモリ203は、例えば、ローカル・データ記憶および検索のためのレジスタ、キャッシュ、またはスタティック・ランダム・アクセス・メモリ(SRAM)を含みうる。プロセッサ201はさらに、データを格納し、および、例えば、バス205を介して外部メモリ204からのデータを検索しうる。例えば、外部メモリ204は、ダイナミック・ランダム・アクセス・メモリでありうる。プロセッサはさらに、データを格納し、および、例えば、ハード・ディスク・ドライブまたはソリッド・ステート・メモリでありうる周辺メモリ209からデータを検索しうる。例えば、システム200は、他のリソースと通信するためのネットワーク・インタフェース210を含みうる。インタフェース210は、例えば、ブルートゥース・インタフェース、セルラ・インタフェース、IEEE802ベースのインタフェースのような無線インタフェースでありうるか、または、例えばイーサネット(登録商標)、USB、または光インタフェースのような有線インタフェースでありうる。いくつかの実施形態では、認識処理において使用されるデータは、外部的に格納され、インタフェース210を介してアクセスされうる。
この例において、プロセッサ201は、本明細書で記載された、一貫性を判定することと、認識結果を検証することとの処理技術を実行するようにプロセッサをプログラミングするためのソフトウェアとして実現される認識器202を含む。認識器202は、プロセッサに対して、入力された音声について認識演算を実行させ、持続時間、エネルギ、およびピッチの一貫性を判定させ、認識結果を検証させるための実行可能な命令群を含みうる。この例において、一貫性分析220は、認識器202の1または複数の構成要素によって実行されうる。他の実施形態では、一貫性分析220は、例えば、認識器202から分離したソフトウェアでありうる。
話された発声は、オーディオ・インタフェース206を介してシステムに受信される。オーディオ・インタフェース206は、音信号を電子信号に変換するためのマイクロフォンまたはその他の形態のオーディオ−電子変換器を含みうる。オーディオ・インタフェース206は、アナログ音声信号をデジタル信号に変換するためのアナログ・トゥ・デジタル変換器を含みうる。話された発声のデジタル表現は、例えばバス207を介してプロセッサ201に渡されうるかメモリ209に格納され、プロセッサ201によってアクセスされうる。認識器202は、認識結果を生成するために、話された発声のデジタル表現を処理する。認識結果は、中間認識結果または最終認識結果を含みうる。最終認識結果は、認識器が決定したワードまたはフレーズが、話された発声によって具体化されたことを示す。最終結果および中間結果のタイプは、使用されている認識アルゴリズムに依存して変化しうる。中間結果は、認識処理中に生成された音(例えば、フォン)の成分の確率でありうる。そして、例えば、内部メモリ203またはDRAM204に格納されうる。例えば、以下により詳細に記載されるように、一貫性を判定することと、認識結果を検証することとは、例えば、中間認識結果または最終認識結果の何れか、あるいはその両方についてなされうる。
いくつかの実施形態では、1つのパラメータの一貫性が判定されうる。他の実施形態では、複数のパラメータの一貫性が判定されうる。例えば、1つの実施形態では、話された発声の成分音の持続時間の一貫性が判定されうる。この場合、例えば、話された発声にわたるサブ・フォンの持続時間の一貫性が、話された発声において認識されたサブ・フォンの期待値に対して判定されうる。別の実施形態では、話された発声の成分音のエネルギ(あるいは、その代わりに、ピッチ)の一貫性が判定されうる。エネルギの場合には、例えば、話された発声にわたるサブ・フォンのエネルギの一貫性が判定されうる。
別の実施形態では、複数のパラメータの一貫性が判定されうる。そして、認識結果を検証することは、判定された各パラメータの個別の一貫性に基づく。例えば、持続時間とエネルギとの一貫性が判定され、検証は、これら両方の一貫性に基づきうる。
1つの実施形態では、認識結果は、スコアであり、一貫性は各々スコアを有する。この場合、認識結果を検証することは、結合スコアを生成するために、認識結果スコアを一貫性スコアと結合することと、結合スコアを、例えばしきい値と比較することと、を含みうる。
別の実施形態では、一貫性は以下のようにして検証されうる。特定のパラメータ(すなわち持続時間、エネルギ、ピッチ)の特定の一貫性が、しきい値と比較される。パラメータの一貫性がしきい値を超える場合、認識結果は却下され、パラメータの一貫性がしきい値を超えない場合、認識結果が受諾される。例えば、パラメータの一貫性がしきい値を超える場合、パラメータは十分な一貫性を有しておらず、パラメータの一貫性がしきい値を超えない場合、パラメータは十分に一貫性を有する。いくつかの実施形態では、一貫性は、数として計算され、別の数と比較されうる。一貫性を判定するために、さまざまな技術が使用されうる。いくつかの技術を用いると、高いスコアは、一貫性のないパラメータに相当しうる。したがって、スコアがしきい値を上回る場合、認識結果は却下される。他の技術は、一貫性パラメータに対応する高いスコアを有しうるので、例えば、スコアがしきい値を下回る場合、認識結果は却下される。
(一貫性を判定することを実施する例)
1つの実施例では、持続時間の一貫性を判定することは、発声割合を判定することを含む。一貫性スコアは、発声割合、話された発声の成分音の実際の持続時間、および、この発声における各成分音の1または複数の統計パラメータに基づきうる。具体的な例として、発声割合は、この発声における音の異なる各成分の持続時間の期待値の総和によって除された、話された発声の合計持続時間に基づきうる。例えば、ユーザが、ワード“TO”を話せば、ここでは音素である成分音は、“T”と“O”との音素音でありうる。“T”音に対応する発声部分の持続時間は100ミリ秒でありうる。また、“O”音に対応する発声部分の持続時間は200ミリ秒でありうる。したがって、話された発声の合計持続時間は300ミリ秒である。1つの実施形態では、期待値は、平均値でありうる。学習中、“T”音の持続時間は、100から200ミリ秒の範囲にあり、平均持続時間Taveは150ミリ秒であると判定されうる。同様に、“O”音の持続時間は、200から300ミリ秒の範囲にあり、平均持続時間Oaveは250ミリ秒であると判定されうる。したがって、この例において、発声割合(SR)は、以下のように計算されうる。
SR=合計持続時間/sum(期待される持続時間)
SR=(100ミリ秒+200ミリ秒)/(150ミリ秒+250ミリ秒)=3/4
現在の例において、発声割合は、一貫性スコアを決定するために使用されうる。例えば、発声割合に、発声の音の異なる各成分の持続時間の期待値を乗じることによって、修正された期待値が決定されうる。この例において、修正された期待値は、発声割合に基づいて以下のように決定されうる。
T’ave=Tave*SR、およびO’ave=Oave*SR、
T’ave=(150ミリ秒)(3/4)=112.5、
O’ave=(250ミリ秒)(3/4)=187.5、
ここで、T’aveは、Taveの修正された期待値であり、O’aveは、Oaveの修正された期待値である。
一貫性(例えば、一貫性スコア)を判定することは、デルタ値を判定することを含みうる。1つの実施形態では、デルタ値は、修正された各期待値と、特定の修正された各期待値に対応する音の成分の持続時間との差分である。例えば、デルタ値は、各成分について、以下のように計算されうる。
(1) T_delta=T’ave、Ta、
(2) O_delta=O’ave−Oa、
ここで、Taは、発声の“T”成分の実際の持続時間であり、Oaは、発声の“O”成分の実際の持続時間である。いくつかの実施形態では、デルタ値は、修正された各期待値について演算可能な第1の関数と、特定の修正された各期待値に対応する音の成分の持続時間について演算可能な第2の関数との差分でありうる。例えば、使用されうる別のデルタ値は、以下の通りである。
(3) T_delta=ln(T’ave)―ln(Ta)、
(4) O_delta=ln(O’ave)―ln(Oa)、
ここで、第1の関数と第2の関数とはともに自然対数である。
また別の例として、使用されうる別のデルタ値は、以下のとおりである。
(5) T_delta=ln(T’ave*exp(1/2(std_dev^2)))―ln(Ta)、
(6) O_delta=ln(O’ave*exp(1/2(std_dev^2)))―ln(Oa)、
ここで、std_dev^2は、この例では音素“T”および音素“O”である成分音の持続時間の対数の標準偏差であり、“exp”は、指数関数eである。したがって、この例において、第2の関数は、特定の修正された各期待値に対応する音の成分の持続時間の標準偏差の指数関数を含む。
いくつかの実施例では、一貫性は、スコアとして表されうる。ここで、一貫性を判定することはさらに、発声における音のN個の成分に関するデルタ値の平方を加えることと、Nによって除することとを備える。ここで、Nは整数である。上記(1)および(2)を用いた1つの例は、以下の通りである。
(7) S(1/N)*[T_delta] +(1/N)*[O_delta] 、ここでN=2である。
式(1)、(2)、および、(7)を適用して、S=156.25の一貫性スコアが取得される。1つの実施形態において、一貫性スコアは、しきい値と比較されてもよく、スコアがしきい値を超えたのであれば、認識結果は却下される。このケースにおいて、“T”と“O”の実際の値は、ともに高速であった(Tave=150ミリ秒であるTa=100ミリ秒は、速く話される“T”音であり、Oave=250ミリ秒であるOa=200ミリ秒は、速く話される“O”音である)。このケースにおいて、“T”と“O”の両方は速く、一貫性がある。したがって、一貫性スコアは、いくつかの予め設定されたしきい値を下回り、認識結果は有効となる。
一貫性スコアがどのように変化するのかを示すために、速い“T”と遅い“O”に関する別の例が示される。この例では、話された発声の実際の持続時間のために、以下の値が使用される。
Ta=100ミリ秒、およびOa=300ミリ秒
この場合、発声割合は、
SR=(100ミリ秒+300ミリ秒)/(150ミリ秒+250ミリ秒)=4/4=1である。
修正された期待値は、
T’ave=(150ミリ秒)(1)=150、および
O’ave=(250ミリ秒)(1)=250 である。
デルタ値は、
T_delta=T’ave−Ta=150−100=50、および
O_delta=O’ave−Oa=250−300=50 である。
一貫性スコアは、
S=(1/N)*[T_delta] +(1/N)*[O_delta] =(50 +50 )/2=2500である。
しきい値が156.25<Th<2500の間で設定されている場合、ここで、Thはしきい値であり、システムは、Ta=100ミリ秒、およびOa=300ミリ秒である話された発声に対する認識結果を却下するだろう。
別のケースを例示するために、遅い“T”および遅い“O”に関する別の例が示される。この例では、話された発声の実際の持続時間のために、以下の値が使用される。
Ta=200ミリ秒、およびOa=300ミリ秒、ここで、TaとOaとの両方が、例えば、学習コーパスからの統計平均よりも持続時間が長い。この場合、発声割合は、
SR=(200ミリ秒+300ミリ秒)/(150ミリ秒+250ミリ秒)=5/4である。
修正された期待値は、
T’ave=(150ミリ秒)(5/4)=187.5、および
O’ave=(250ミリ秒)(5/4)=312.5である。
デルタ値は、
T_delta=T’ave−Ta=187.5−200=12.5、および
O_delta=O’ave−Oa=312.5−300=12.5である。
一貫性スコアは、
S=(1/N)*[T_delta]+(1/N)*[O_delta]=(12.5+12.5)/2=156.25であり、これは、速い−速いケースと同じ結果である。したがって、一貫して遅い話者の認識結果は、しきい値Thを下回る一貫性スコアを生成し、結果は有効となるだろう。
別のケースを例示するために、遅い“T”および速い“O”に関する別の例が示される。この例では、話された発声の実際の持続時間のために、以下の値が使用される。Ta=200ミリ秒およびOa=200ミリ秒であり、ここで、Taは、統計平均よりも持続時間が長く、Oaは、統計平均よりも持続時間が短い。この場合、発声割合は、
SR=(200ミリ秒+200ミリ秒)/(150ミリ秒+250ミリ秒)=4/4=1である。
修正された期待値は、
T’ave=(150ミリ秒)(1)=150、および
O’ave=(250ミリ秒)(1)=250である。
デルタ値は、
T_delta=T’ave−Ta=150−200=50、および
O_delta=O’ave−Oa=250−200=50である。
一貫性スコアは、
S=(1/N)*[T_delta] +(1/N)*[O_delta] =(50 +50 )/2=2500である。
これは、速い−遅いケースと同じ結果である。したがって、一貫性のない入力の認識結果は、しきい値Thを上回る一貫性スコアを生成し、結果は却下されるだろう。
より一般的には、音のN個の成分の持続時間が、Nで除されることによって、上記(7)に示されるような一貫性スコアSを生成するために使用されうる。以下の式は、前述した実施の例にしたがうさまざまな実施形態にしたがって、一貫性スコアを判定するための一般的な技術を示す。第1の式は、(7)の一般的なケースである。
Figure 0006030135
ここで、dは、i番目の成分(例えば、フォン)の実際の持続時間であり、SRは、発声割合であり、μは、例えば、学習コーパスから決定されたようなi番目の平均持続時間である。
別の例として、話された発声の各成分の実際の持続時間および平均持続時間は、デルタ値(3)および(4)または(5)および(6)を用いて対数領域に変換され、平均フォン持続時間が、発声割合に基づいて規格化される。一貫性スコアSは、平均平方差を用いる。以下の実施例では、ゼロであるスコアが完璧であり、このスコアが、ある予め設定されたしきい値を上回るのであれば、認識結果は却下される。複数の成分のための一般的な形式は、
Figure 0006030135
である。
例えばフォンのようないくつかの成分は、その他のものよりも多くのバリエーションを有する。1つの実施形態では、成分音における変化は、例えば、標準偏差によって、各フォンのスコアを重み付けることによって考慮されうる。以下の例では、スコアは、持続時間の標準偏差の平方で除されうる。したがって、スコアSは、以下のように、複数の成分のために一般化された形式を用いて、(3)および(4)に類似したデルタ値から計算されうる。
Figure 0006030135
ここで、dは、i番目の成分(例えば、フォン)の実際の持続時間であり、SRは、発声割合であり、μは、例えば、学習コーパスから決定されるようなi番目の成分の平均持続時間であり、σ は、学習コーパスから決定されるようなi番目の標準偏差である。
所与のフォンの持続時間の対数の平均がln(μ)である一方、そのフォンの平均持続時間は、正確にはμではない。1つの実施形態では、特定のフォンのフレームの平均数は、μについて演算する関数の一部として含まれうる。したがって、スコアSは、以下のように、複数の成分のために一般化された形式を用いて、(5)および(6)に類似したデルタ値から計算されうる。
Figure 0006030135
いくつかの応用では、持続時間の分散が、対数正規でありうる。したがって、各フォンの持続時間の確率が(例えば、学習コーパス)から見出されうる。これら確率の幾何平均は、各フォンの平均確率を得るために使用されうる。これは、以下の式を用いて計算されうる。
Figure 0006030135
この場合、実際の入力と、修正された発声割合との両方が、同じ関数によって演算され、各成分の自然対数(“ln(x)”)とデルタ値とが、指数関数(“e(x)”)によって演算され、ともに掛け合わされ、その結果のN乗根が取られる。これは、幾何平均の一例である。
上記の例は、持続時間の認識結果を検証するために一貫性が判定される多くの方式の例示として意図されている。一貫性の持続時間、エネルギ、およびピッチを判定するためのその他の技術は、とりわけ、所望の結果、特定のアプリケーション、特定の認識処理、およびパラメータ(例えば、統計パラメータ)の予め決定された一貫性特性に基づいて使用されうる。上記の例は限定的でなく、請求項の範囲を制限することはない。
(認識結果の検証)
前述されたように、一貫性スコアが判定され、しきい値と比較され、このスコアがしきい値を下回っているか(あるいは、一貫性スコアがどのようにして計算されたのかに依存して、上回っているか)が検証されうる。しかしながら、認識結果があるしきい値を上回っているか、または下回っているのであれば、認識結果を検証する代わりに、一貫性スコアが、認識スコアと結合されうる。1つの実施例では、一貫性スコアがスケールされ、認識結果のスコアから差し引かれる。そして、例えば、結合された認識スコアが、ゼロを上回る場合にのみに有効な認識結果となる。ここでは、小さな一貫性スコアが、より一貫性のあるパラメータに対応する。新たに結合されたスコアがゼロを下回るのであれば、この認識結果は却下されうる。他の実施形態では、別のしきい値や、一貫性スコアと認識スコアとの間の別の結合関係が使用されうる。また、別の実施形態では、複数の異なるパラメータのための複数の一貫性スコアが、認識スコアと結合され、この認識スコアを検証するために使用されうる。
いくつかの実施形態では、最終認識結果が検証され、その他の実施形態では、中間認識結果が検証されうる。第1のケースでは、認識器は、複数のワードまたはフレーズを認識するように構成されうる。認識器が認識するように構成されているワード、フレーズ、またはその他の発声は、一般に、認識セットまたは文法または語彙と相互置換可能であると留意される。認識器は、話された発声を処理し、最終認識結果を出力しうる。この結果の後処理は、前述したように、一貫性に基づいて結果を検証することを含みうる。
別の実施形態では、認識処理の終了までずっと待つ代わりに、認識アルゴリズムが、中間状態において一貫性をチェックしうる。特定の状態までの中間認識結果が、発声割合との一貫性がないのであれば、中間結果が却下されうる。無効な中間結果を却下することは、少なくとも2つの理由により有利でありうる。第1に、計算負荷が低減される。なぜなら、無効な中間結果の余分な処理がスキップされるからである。第2に、いくつかのアプリケーションでは、それは、より正確でありうる。最高スコアの最終結果が、発声割合と一貫性がないことがありうるが、発声割合と一貫性を有する、ほとんど良好なスコアを有する中間結果が存在していた。この場合、一貫性のない最終結果のみが最後までたどり着き、一貫性に基づいて却下された。この場合、何も返されず、結果は誤っており、却下される。このシステムが、処理におけるより早期の最終結果を排除するのであれば、さらに一貫性のある中間結果が、最終結果となり、一貫性に基づいて検証される。一貫性を判定することと、中間結果を検証することとに伴う1つの困難は、まだ多くが聞かれていないために発声の早期における発声割合の良好な推定がないかもしれないことである。これは、中間結果が劣悪であるか否かと、それをいつ却下するのが安全であるかとを知ることを困難にする。1つの実施形態では、一貫性のある発声割合の概念が修正される。話者が話すことができる特定の割合を見つける代わりに、任意の数の音素の結合分布が決定される。例えば、以前の音素のすべてに基づくn番目の音素の持続時間分布が存在し、各音素の持続時間が、この分布に基づいてスコア付けされうる。
(認識処理の例)
いくつかの実施形態では、本明細書に記載されたように、一貫性を判定することと、認識結果を検証することとは、フレーズ/ワード・スポット認識処理において使用されうる。ワードまたはフレーズ・スポット処理の一例は、「ハンズ・フリー音声制御および探索のためのシステムおよび方法」(Systems and Methods for Hands Free Voice Control and Search)と題され2010/7/6に出願された米国特許出願12/831,051号に記載されている。この開示全体は、参照によって本明細書に組み込まれている。前述したように、持続時間、エネルギ、またはピッチは、音声のストリームにおいてスポットされた特定のワードまたはフレーズの認識に対応する出力でありうる最終認識結果を後処理するために使用されうる。あるいは、このようなパラメータは、中間結果を処理するために使用されうる。
その他の実施形態では、本明細書に記載されたように、一貫性を判定することと、認識結果を検証することとは、認識器の特定の認識セットに基づいて、利用可能な認識結果の選択を改善するために使用されうる。例えば、認識器は、N個の最良の結果を返しうる。認識器が、コマンドA、B、C、D、E、Fからなるコマンド・セットを有しており、かつ、発声が、認識器において受け取られた場合、先頭の3つの結果が、D、A、Eとなりうる。例えば、持続時間、エネルギ、またはピッチ・スコアが、D、A、Eについて計算され、スケールされ、D、A、Eの認識スコアに加えられうる。例えば、これら3つのうち、どれが、持続時間に基づいて、最高の修正結果を有しているかが、認識器の回答として返されるだろう。したがって、フレーズ・スポット認識器における誤った認識をフィルタ・アウトするために、持続時間、エネルギ、またはピットを用いることに加えて、持続時間、エネルギ、またはピットは、どれが最良であるかを見つけるために結果を再スコアするためにも使用されうる。前述された認識処理は単なる例であり、持続時間、エネルギ、および/または、ピッチの一貫性を判定することを他の認識処理に適用することを制限しないことが理解されるべきである。
前述された記載は、本発明のさまざまな実施形態を、本発明の態様がどのようにして実現されるかの例とともに例示している。前述された例および実施形態は、唯一の実施形態であると考えられるのではなく、以下に示す請求項によって定義されるような本発明の柔軟性および利点を例示するために示されている。前述された開示および以下の請求項に基づいて、その他の構成、実施形態、実施例、および等価物が、当業者に明らかになるであろう。そして、請求項によって定義されたような本発明の精神および範囲から逸脱することなく適用されうる。本明細書で適用されている用語および表現は、さまざまな実施形態および例を記述するために使用される。これら用語および表現は、図示され記述された特徴の等価物、またはその一部を除外するものとして解釈されるべきではなく、請求項の範囲内でさまざまな修正が可能であることが認識される。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
[発明1]
方法であって、
話された発声を受け取ることと、
認識結果を生成するために、前記話された発声を、音声認識器において処理することと、
前記話された発声の成分音の1または複数のパラメータの一貫性を判定することと、ここで、これらパラメータは、持続時間、エネルギ、およびピッチからなるグループから選択され、前記話された発声の各成分音は、前記パラメータの対応する値を有する、
前記パラメータのうちの少なくとも1つの一貫性に基づいて、前記認識結果を検証することと、
を備える方法。
[発明2]
前記1または複数のパラメータの一貫性を判定することは、前記話された発声の成分音の持続時間の一貫性を判定することを備える、発明1に記載の方法。
[発明3]
前記1または複数のパラメータの一貫性を判定することは、前記話された発声の成分音のエネルギの一貫性を判定することを備える、発明1に記載の方法。
[発明4]
前記1または複数のパラメータの一貫性を判定することは、前記話された発声の成分音のピッチの一貫性を判定することを備える、発明1に記載の方法。
[発明5]
複数のパラメータの一貫性が判定され、前記認識結果を検証することは、前記判定された各パラメータの個別の一貫性に基づく、発明1に記載の方法。
[発明6]
前記認識結果は、第1のスコアであり、1または複数の一貫性がおのおのスコアを有し、
前記認識結果を検証することは、
第2のスコアを生成するために、前記第1のスコアを、1または複数の一貫性のスコアと結合することと、
前記第2のスコアをしきい値と比較することと
を備える、発明1に記載の方法。
[発明7]
前記一貫性を判定することは、前記パラメータの予め決定された一貫性特性と、前記話された発声におけるパラメータの実際の特性とに基づいて、一貫性測定値を計算することを備える、発明1に記載の方法。
[発明8]
前記予め決定された一貫性特性は、前記話された発声の成分音の1または複数のパラメータのおのおのについて予め決定された1または複数の統計パラメータである、発明7に記載の方法。
[発明9]
前記予め決定された1または複数の統計パラメータは、前記話された発声の各成分音のパラメータの平均値を備え、前記平均値は、発声の学習セットから生成される、発明8に記載の方法。
[発明10]
前記認識結果を検証することは、
特定のパラメータの特定の一貫性をしきい値と比較することと、
前記パラメータの一貫性が前記しきい値を超えたのであれば、前記認識結果を却下することと、
前記パラメータの一貫性が前記しきい値を超えないのであれば、前記認識結果を受諾することと
を備える、発明1に記載の方法。
[発明11]
前記パラメータの一貫性が前記しきい値を超えたのであれば、前記パラメータは、十分な一貫性を有しておらず、
前記パラメータの一貫性が前記しきい値を超えないのであれば、前記パラメータは、十分な一貫性を有している、発明10に記載の方法。
[発明12]
前記パラメータは、持続時間であり、
前記持続時間の一貫性を判定することは、発声割合を判定することを備え、
前記発声割合は、前記発声における音の異なる各成分の持続時間の期待値の総和によって除された、前記話された発声の合計持続時間に基づく、発明1に記載の方法。
[発明13]
前記持続時間の期待値は、前記発声における音の異なる各成分の平均持続時間である、発明12に記載の方法。
[発明14]
前記話された発声の成分音の1または複数のパラメータの一貫性のうちの少なくとも1つが、一貫性スコアを備え、
前記一貫性スコアは、前記発声割合、前記話された発声の成分音の実際の持続時間、および、前記発声における各成分音の1または複数の統計パラメータに基づく、発明12に記載の方法。
[発明15]
前記発声割合に基づいて、修正された期待値を決定すること、をさらに備える発明12に記載の方法。
[発明16]
前記発声割合に、前記発声の音の異なる各成分の持続時間の期待値を乗じることによって、前記修正された期待値が決定される、発明15に記載の方法。
[発明17]
複数のデルタ値を決定することをさらに備え、
前記複数のデルタ値は、修正された各期待値と、特定の修正された各期待値に対応する音の成分の持続時間との差分である、発明15に記載の方法。
[発明18]
複数のデルタ値を決定することをさらに備え、
前記複数のデルタ値は、修正された各期待値について演算可能な第1の関数と、特定の修正された各期待値に対応する音の成分の持続時間について演算可能な第2の関数との差分である、発明15に記載の方法。
[発明19]
一貫性は、スコアとして表わされ、
前記一貫性を判定することはさらに、
前記発声における音のN個の成分に関するデルタ値の平方を加えることと、
Nによって除することと
を備える、発明18に記載の方法。
[発明20]
前記第1の関数および第2の関数は自然対数である、発明18に記載の方法。
[発明21]
前記第2の関数は、特定の修正された各期待値に対応する音の成分の持続時間の標準偏差の指数関数を備える、発明18に記載の方法。
[発明22]
前記成分音は、音素、サブ・フォン、音節、およびワードのうちの1つである、発明1に記載の方法。
[発明23]
システムであって、
プロセッサと、
メモリとを備え、
前記プロセッサは、
話された発声を受け取り、
認識結果を生成するために、前記話された発声を、音声認識器において処理し、
前記話された発声の成分音の1または複数のパラメータの一貫性を判定し、ここで、これらパラメータは、持続時間、エネルギ、およびピッチからなるグループから選択され、前記話された発声の各成分音は、前記パラメータの対応する値を有する、
前記パラメータのうちの少なくとも1つの一貫性に基づいて、前記認識結果を検証するように構成された、システム。

Claims (12)

  1. 方法であって、
    話された発声を、コンピューティング・デバイスによって受け取ることと、
    前記コンピューティング・デバイスによって、前記話された発声について音声認識処理を実行し、認識結果を生成することと、
    前記コンピューティング・デバイスによって、前記認識結果の成分音の持続時間の一貫性を判定することとを備え、前記判定することは、
    前記話された発声の合計持続時間を、前記認識結果の成分音の期待される持続時間の総和で除することによって、発声割合を計算することと、
    各成分音について、
    前記成分音の期待される持続時間に、前記発声割合を掛け合わせることにより、修正された期待される持続時間を計算することと、
    前記話された発声における成分音の持続時間と、前記成分音の修正された期待される持続時間との差分に対応するデルタ値を計算することと、
    前記デルタ値の平方の総和を取り、前記総和を、前記成分音の合計数で除することによって、持続時間一貫性スコアを計算することとを備え、
    前記方法はさらに、
    前記コンピューティング・デバイスによって、前記持続時間一貫性スコアに基づいて、前記認識結果を検証することを備える方法。
  2. 前記認識結果は、認識スコアに関連付けられており、
    前記認識結果を検証することは、
    結合スコアを生成するために、前記認識スコアを、前記持続時間一貫性スコアと結合することと、
    前記結合スコアを、しきい値と比較することとを備える、請求項1に記載の方法。
  3. 各成分音の期待される持続時間は、発声の話者独立の学習セットから生成される平均持続時間値である、請求項1に記載の方法。
  4. 前記認識結果を検証することは、
    前記持続時間一貫性スコアを、しきい値と比較することと、
    前記持続時間一貫性スコアが、前記しきい値を超えたのであれば、前記認識結果を却下することと、
    前記持続時間一貫性スコアが、前記しきい値を超えないのであれば、前記認識結果を受諾することとを備える、請求項1に記載の方法。
  5. 前記持続時間一貫性スコアが、前記しきい値を超えたのであれば、前記成分音の持続時間は、十分な一貫性を有しておらず、
    前記持続時間一貫性スコアが、前記しきい値を超えないのであれば、前記成分音の持続時間は、十分な一貫性を有している、請求項に記載の方法。
  6. 前記成分音は、音素、サブ・フォン、音節、およびワードのうちの1つである、請求項1に記載の方法。
  7. システムであって、
    プロセッサと、
    格納されたプログラム・コードを有する非一時的なコンピュータ読取可能な記憶媒体とを備え、
    前記プログラム・コードは、前記プロセッサによって実行された場合、前記プロセッサに対して、
    話された発声を受け取らせ、
    前記話された発声について音声認識処理を実行させて、認識結果を生成させ、
    前記認識結果の成分音の持続時間の一貫性を判定させ、
    前記判定することは、
    前記話された発声の合計持続時間を、前記認識結果の成分音の期待される持続時間の総和で除することによって、発声割合を計算することと、
    各成分音について、
    前記成分音の期待される持続時間に、前記発声割合を掛け合わせることにより、修正された期待される持続時間を計算することと、
    前記話された発声における成分音の持続時間と、前記成分音の修正された期待される持続時間との差分に対応するデルタ値を計算することと、
    前記デルタ値の平方の総和を取り、前記総和を、前記成分音の合計数で除することによって、持続時間一貫性スコアを計算することとを備え、
    前記プログラム・コードは、前記プロセッサによって実行された場合、前記プロセッサに対してさらに、
    前記持続時間一貫性スコアに基づいて、前記認識結果を検証させる、システム。
  8. 各成分音の期待される持続時間は、発声の話者独立の学習セットから生成された平均持続時間値である、請求項に記載のシステム。
  9. 前記認識結果を検証することは、
    前記持続時間一貫性スコアを、しきい値と比較することと、
    前記持続時間一貫性スコアが、前記しきい値を超えるのであれば、前記認識結果を却下することと、
    前記持続時間一貫性スコアが、前記しきい値を超えないのであれば、前記認識結果を受諾することとを備える、請求項に記載のシステム。
  10. プロセッサによって実行可能な、格納されたプログラム・コードを有する非一時的なコンピュータ読取可能な記憶媒体であって、前記プログラム・コードは、
    前記プロセッサに対して、話された発声を受け取らせるためのコードと、
    前記プロセッサに対して、前記話された発声について音声認識処理を実行させ、認識結果を生成させるためのコードと、
    前記プロセッサに対して、前記認識結果の成分音の持続時間の一貫性を判定させるためのコードとを備え、
    前記判定することは、
    前記話された発声の合計持続時間を、前記認識結果の成分音の期待される持続時間の総和で除することによって、発声割合を計算することと、
    各成分音について、
    前記成分音の期待される持続時間に、前記発声割合を掛け合わせることにより、修正された期待される持続時間を計算することと、
    前記話された発声における成分音の持続時間と、前記成分音の修正された期待される持続時間との差分に対応するデルタ値を計算することと、
    前記デルタ値の平方の総和を取り、前記総和を、前記成分音の合計数で除することによって、持続時間一貫性スコアを計算することとを備え、
    前記プログラム・コードはさらに、
    前記プロセッサに対して、前記持続時間一貫性スコアに基づいて、前記認識結果を検証させるためのコードを備える、非一時的なコンピュータ読取可能な記憶媒体。
  11. 各成分音の期待される持続時間は、発声の話者独立の学習セットから生成された平均持続時間値である、請求項10に記載の非一時的なコンピュータ読取可能な記憶媒体。
  12. 前記認識結果を検証することは、
    前記持続時間一貫性スコアを、しきい値と比較することと、
    前記持続時間一貫性スコアが、前記しきい値を超えるのであれば、前記認識結果を却下することと、
    前記持続時間一貫性スコアが、前記しきい値を超えないのであれば、前記認識結果を受諾することとを備える、請求項10に記載の非一時的なコンピュータ読取可能な記憶媒体。
JP2014527200A 2011-08-24 2012-08-17 音声認識システムにおいて、誤った肯定を低減すること Active JP6030135B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/217,134 US8781825B2 (en) 2011-08-24 2011-08-24 Reducing false positives in speech recognition systems
US13/217,134 2011-08-24
PCT/US2012/051345 WO2013028518A1 (en) 2011-08-24 2012-08-17 Reducing false positives in speech recognition systems

Publications (3)

Publication Number Publication Date
JP2014524599A JP2014524599A (ja) 2014-09-22
JP2014524599A5 JP2014524599A5 (ja) 2016-01-07
JP6030135B2 true JP6030135B2 (ja) 2016-11-24

Family

ID=47744890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014527200A Active JP6030135B2 (ja) 2011-08-24 2012-08-17 音声認識システムにおいて、誤った肯定を低減すること

Country Status (5)

Country Link
US (1) US8781825B2 (ja)
JP (1) JP6030135B2 (ja)
CN (1) CN103797535B (ja)
DE (1) DE112012003479T5 (ja)
WO (1) WO2013028518A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768707B2 (en) 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
CN104157284A (zh) * 2013-05-13 2014-11-19 佳能株式会社 语音命令检测方法和系统,以及信息处理系统
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
EP3065131B1 (fr) * 2015-03-06 2020-05-20 ZETES Industries S.A. Méthode et système de post-traitement d'un résultat de reconnaissance vocale
US10019992B2 (en) 2015-06-29 2018-07-10 Disney Enterprises, Inc. Speech-controlled actions based on keywords and context thereof
KR102437689B1 (ko) * 2015-09-16 2022-08-30 삼성전자주식회사 음성 인식 서버 및 그 제어 방법
WO2019047220A1 (zh) * 2017-09-11 2019-03-14 深圳传音通讯有限公司 一种应用程序启动方法及终端、计算机可读存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US5193142A (en) * 1990-11-15 1993-03-09 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
WO1996013827A1 (en) * 1994-11-01 1996-05-09 British Telecommunications Public Limited Company Speech recognition
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
JPH11311994A (ja) * 1998-04-30 1999-11-09 Sony Corp 情報処理装置および方法、並びに提供媒体
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
US6266633B1 (en) 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
JP2003522981A (ja) 2000-02-10 2003-07-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ピッチ変化検出を伴なう誤り訂正方法
EP1189202A1 (en) * 2000-09-18 2002-03-20 Sony International (Europe) GmbH Duration models for speech recognition
GB2370401A (en) * 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
US6959278B1 (en) * 2001-04-05 2005-10-25 Verizon Corporate Services Group Inc. Systems and methods for implementing segmentation in speech recognition systems
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US6724866B2 (en) 2002-02-08 2004-04-20 Matsushita Electric Industrial Co., Ltd. Dialogue device for call screening and classification
JP4437047B2 (ja) * 2004-02-20 2010-03-24 本田技研工業株式会社 音声対話装置
JP4322785B2 (ja) * 2004-11-24 2009-09-02 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
KR100655491B1 (ko) * 2004-12-21 2006-12-11 한국전자통신연구원 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
JP2007017733A (ja) * 2005-07-08 2007-01-25 Sharp Corp 入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体
CN1963917A (zh) * 2005-11-11 2007-05-16 株式会社东芝 评价语音的分辨力、说话人认证的注册和验证方法及装置
US7657433B1 (en) * 2006-09-08 2010-02-02 Tellme Networks, Inc. Speech recognition accuracy with multi-confidence thresholds
JP4758919B2 (ja) * 2007-01-22 2011-08-31 日本放送協会 音声認識装置及び音声認識プログラム
GB2468203B (en) * 2009-02-27 2011-07-20 Autonomy Corp Ltd Various apparatus and methods for a speech recognition system
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
US20110004473A1 (en) 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition

Also Published As

Publication number Publication date
CN103797535B (zh) 2016-06-08
CN103797535A (zh) 2014-05-14
WO2013028518A1 (en) 2013-02-28
DE112012003479T5 (de) 2014-05-22
US8781825B2 (en) 2014-07-15
JP2014524599A (ja) 2014-09-22
US20130054242A1 (en) 2013-02-28

Similar Documents

Publication Publication Date Title
JP6030135B2 (ja) 音声認識システムにおいて、誤った肯定を低減すること
US11887582B2 (en) Training and testing utterance-based frameworks
US20230409102A1 (en) Low-power keyword spotting system
KR101323061B1 (ko) 스피커 인증 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어를 갖는 컴퓨터 판독가능 매체
US9437186B1 (en) Enhanced endpoint detection for speech recognition
TWI475558B (zh) 詞語驗證的方法及裝置
EP4018437B1 (en) Optimizing a keyword spotting system
US7634401B2 (en) Speech recognition method for determining missing speech
US8731925B2 (en) Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
US11367431B2 (en) Synthetic speech processing
JP6336219B1 (ja) 音声認識装置および音声認識方法
WO2011145272A1 (ja) パープレキシティ算出装置
JP6373621B2 (ja) 話し方評価装置、話し方評価方法、プログラム
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
US9355636B1 (en) Selective speech recognition scoring using articulatory features
Alam et al. Speaker Verification Under Adverse Conditions Using i-Vector Adaptation and Neural Networks.
KR20210059581A (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
JP3868798B2 (ja) 音声認識装置
KR102617914B1 (ko) 음성 인식 방법 및 그 시스템
JP2019045532A (ja) 音声認識装置、車載システム及びコンピュータプログラム
JP7173339B2 (ja) 発話評価装置、発話評価方法、およびプログラム
Plátek et al. Integration of an on-line Kaldi speech recogniser to the Alex dialogue systems framework
Oh et al. On the use of feature-space MLLR adaptation for non-native speech recognition
JP6451171B2 (ja) 音声認識装置、音声認識方法、及び、プログラム
Liao et al. Latent prosody model-assisted Mandarin accent identification

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150728

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20151023

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160721

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20160729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161019

R150 Certificate of patent or registration of utility model

Ref document number: 6030135

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250