JP6030135B2 - 音声認識システムにおいて、誤った肯定を低減すること - Google Patents
音声認識システムにおいて、誤った肯定を低減すること Download PDFInfo
- Publication number
- JP6030135B2 JP6030135B2 JP2014527200A JP2014527200A JP6030135B2 JP 6030135 B2 JP6030135 B2 JP 6030135B2 JP 2014527200 A JP2014527200 A JP 2014527200A JP 2014527200 A JP2014527200 A JP 2014527200A JP 6030135 B2 JP6030135 B2 JP 6030135B2
- Authority
- JP
- Japan
- Prior art keywords
- duration
- recognition result
- consistency
- component
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 description 20
- 238000012795 verification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Auxiliary Devices For Music (AREA)
Description
1つの実施例では、持続時間の一貫性を判定することは、発声割合を判定することを含む。一貫性スコアは、発声割合、話された発声の成分音の実際の持続時間、および、この発声における各成分音の1または複数の統計パラメータに基づきうる。具体的な例として、発声割合は、この発声における音の異なる各成分の持続時間の期待値の総和によって除された、話された発声の合計持続時間に基づきうる。例えば、ユーザが、ワード“TO”を話せば、ここでは音素である成分音は、“T”と“O”との音素音でありうる。“T”音に対応する発声部分の持続時間は100ミリ秒でありうる。また、“O”音に対応する発声部分の持続時間は200ミリ秒でありうる。したがって、話された発声の合計持続時間は300ミリ秒である。1つの実施形態では、期待値は、平均値でありうる。学習中、“T”音の持続時間は、100から200ミリ秒の範囲にあり、平均持続時間Taveは150ミリ秒であると判定されうる。同様に、“O”音の持続時間は、200から300ミリ秒の範囲にあり、平均持続時間Oaveは250ミリ秒であると判定されうる。したがって、この例において、発声割合(SR)は、以下のように計算されうる。
SR=合計持続時間/sum(期待される持続時間)
SR=(100ミリ秒+200ミリ秒)/(150ミリ秒+250ミリ秒)=3/4
現在の例において、発声割合は、一貫性スコアを決定するために使用されうる。例えば、発声割合に、発声の音の異なる各成分の持続時間の期待値を乗じることによって、修正された期待値が決定されうる。この例において、修正された期待値は、発声割合に基づいて以下のように決定されうる。
T’ave=Tave*SR、およびO’ave=Oave*SR、
T’ave=(150ミリ秒)(3/4)=112.5、
O’ave=(250ミリ秒)(3/4)=187.5、
ここで、T’aveは、Taveの修正された期待値であり、O’aveは、Oaveの修正された期待値である。
(1) T_delta=T’ave、Ta、
(2) O_delta=O’ave−Oa、
ここで、Taは、発声の“T”成分の実際の持続時間であり、Oaは、発声の“O”成分の実際の持続時間である。いくつかの実施形態では、デルタ値は、修正された各期待値について演算可能な第1の関数と、特定の修正された各期待値に対応する音の成分の持続時間について演算可能な第2の関数との差分でありうる。例えば、使用されうる別のデルタ値は、以下の通りである。
(3) T_delta=ln(T’ave)―ln(Ta)、
(4) O_delta=ln(O’ave)―ln(Oa)、
ここで、第1の関数と第2の関数とはともに自然対数である。
(5) T_delta=ln(T’ave*exp(1/2(std_dev^2)))―ln(Ta)、
(6) O_delta=ln(O’ave*exp(1/2(std_dev^2)))―ln(Oa)、
ここで、std_dev^2は、この例では音素“T”および音素“O”である成分音の持続時間の対数の標準偏差であり、“exp”は、指数関数exである。したがって、この例において、第2の関数は、特定の修正された各期待値に対応する音の成分の持続時間の標準偏差の指数関数を含む。
(7) S=(1/N)*[T_delta] 2 +(1/N)*[O_delta] 2 、ここでN=2である。
式(1)、(2)、および、(7)を適用して、S=156.25の一貫性スコアが取得される。1つの実施形態において、一貫性スコアは、しきい値と比較されてもよく、スコアがしきい値を超えたのであれば、認識結果は却下される。このケースにおいて、“T”と“O”の実際の値は、ともに高速であった(Tave=150ミリ秒であるTa=100ミリ秒は、速く話される“T”音であり、Oave=250ミリ秒であるOa=200ミリ秒は、速く話される“O”音である)。このケースにおいて、“T”と“O”の両方は速く、一貫性がある。したがって、一貫性スコアは、いくつかの予め設定されたしきい値を下回り、認識結果は有効となる。
一貫性スコアがどのように変化するのかを示すために、速い“T”と遅い“O”に関する別の例が示される。この例では、話された発声の実際の持続時間のために、以下の値が使用される。
Ta=100ミリ秒、およびOa=300ミリ秒
この場合、発声割合は、
SR=(100ミリ秒+300ミリ秒)/(150ミリ秒+250ミリ秒)=4/4=1である。
修正された期待値は、
T’ave=(150ミリ秒)(1)=150、および
O’ave=(250ミリ秒)(1)=250 である。
デルタ値は、
T_delta=T’ave−Ta=150−100=50、および
O_delta=O’ave−Oa=250−300=50 である。
一貫性スコアは、
S=(1/N)*[T_delta] 2 +(1/N)*[O_delta] 2 =(50 2 +50 2 )/2=2500である。
しきい値が156.25<Th<2500の間で設定されている場合、ここで、Thはしきい値であり、システムは、Ta=100ミリ秒、およびOa=300ミリ秒である話された発声に対する認識結果を却下するだろう。
別のケースを例示するために、遅い“T”および遅い“O”に関する別の例が示される。この例では、話された発声の実際の持続時間のために、以下の値が使用される。
Ta=200ミリ秒、およびOa=300ミリ秒、ここで、TaとOaとの両方が、例えば、学習コーパスからの統計平均よりも持続時間が長い。この場合、発声割合は、
SR=(200ミリ秒+300ミリ秒)/(150ミリ秒+250ミリ秒)=5/4である。
修正された期待値は、
T’ave=(150ミリ秒)(5/4)=187.5、および
O’ave=(250ミリ秒)(5/4)=312.5である。
デルタ値は、
T_delta=T’ave−Ta=187.5−200=12.5、および
O_delta=O’ave−Oa=312.5−300=12.5である。
S=(1/N)*[T_delta]2+(1/N)*[O_delta]2=(12.52+12.52)/2=156.25であり、これは、速い−速いケースと同じ結果である。したがって、一貫して遅い話者の認識結果は、しきい値Thを下回る一貫性スコアを生成し、結果は有効となるだろう。
SR=(200ミリ秒+200ミリ秒)/(150ミリ秒+250ミリ秒)=4/4=1である。
修正された期待値は、
T’ave=(150ミリ秒)(1)=150、および
O’ave=(250ミリ秒)(1)=250である。
デルタ値は、
T_delta=T’ave−Ta=150−200=50、および
O_delta=O’ave−Oa=250−200=50である。
一貫性スコアは、
S=(1/N)*[T_delta] 2 +(1/N)*[O_delta] 2 =(50 2 +50 2 )/2=2500である。
これは、速い−遅いケースと同じ結果である。したがって、一貫性のない入力の認識結果は、しきい値Thを上回る一貫性スコアを生成し、結果は却下されるだろう。
より一般的には、音のN個の成分の持続時間が、Nで除されることによって、上記(7)に示されるような一貫性スコアSを生成するために使用されうる。以下の式は、前述した実施の例にしたがうさまざまな実施形態にしたがって、一貫性スコアを判定するための一般的な技術を示す。第1の式は、(7)の一般的なケースである。
前述されたように、一貫性スコアが判定され、しきい値と比較され、このスコアがしきい値を下回っているか(あるいは、一貫性スコアがどのようにして計算されたのかに依存して、上回っているか)が検証されうる。しかしながら、認識結果があるしきい値を上回っているか、または下回っているのであれば、認識結果を検証する代わりに、一貫性スコアが、認識スコアと結合されうる。1つの実施例では、一貫性スコアがスケールされ、認識結果のスコアから差し引かれる。そして、例えば、結合された認識スコアが、ゼロを上回る場合にのみに有効な認識結果となる。ここでは、小さな一貫性スコアが、より一貫性のあるパラメータに対応する。新たに結合されたスコアがゼロを下回るのであれば、この認識結果は却下されうる。他の実施形態では、別のしきい値や、一貫性スコアと認識スコアとの間の別の結合関係が使用されうる。また、別の実施形態では、複数の異なるパラメータのための複数の一貫性スコアが、認識スコアと結合され、この認識スコアを検証するために使用されうる。
いくつかの実施形態では、本明細書に記載されたように、一貫性を判定することと、認識結果を検証することとは、フレーズ/ワード・スポット認識処理において使用されうる。ワードまたはフレーズ・スポット処理の一例は、「ハンズ・フリー音声制御および探索のためのシステムおよび方法」(Systems and Methods for Hands Free Voice Control and Search)と題され2010/7/6に出願された米国特許出願12/831,051号に記載されている。この開示全体は、参照によって本明細書に組み込まれている。前述したように、持続時間、エネルギ、またはピッチは、音声のストリームにおいてスポットされた特定のワードまたはフレーズの認識に対応する出力でありうる最終認識結果を後処理するために使用されうる。あるいは、このようなパラメータは、中間結果を処理するために使用されうる。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
[発明1]
方法であって、
話された発声を受け取ることと、
認識結果を生成するために、前記話された発声を、音声認識器において処理することと、
前記話された発声の成分音の1または複数のパラメータの一貫性を判定することと、ここで、これらパラメータは、持続時間、エネルギ、およびピッチからなるグループから選択され、前記話された発声の各成分音は、前記パラメータの対応する値を有する、
前記パラメータのうちの少なくとも1つの一貫性に基づいて、前記認識結果を検証することと、
を備える方法。
[発明2]
前記1または複数のパラメータの一貫性を判定することは、前記話された発声の成分音の持続時間の一貫性を判定することを備える、発明1に記載の方法。
[発明3]
前記1または複数のパラメータの一貫性を判定することは、前記話された発声の成分音のエネルギの一貫性を判定することを備える、発明1に記載の方法。
[発明4]
前記1または複数のパラメータの一貫性を判定することは、前記話された発声の成分音のピッチの一貫性を判定することを備える、発明1に記載の方法。
[発明5]
複数のパラメータの一貫性が判定され、前記認識結果を検証することは、前記判定された各パラメータの個別の一貫性に基づく、発明1に記載の方法。
[発明6]
前記認識結果は、第1のスコアであり、1または複数の一貫性がおのおのスコアを有し、
前記認識結果を検証することは、
第2のスコアを生成するために、前記第1のスコアを、1または複数の一貫性のスコアと結合することと、
前記第2のスコアをしきい値と比較することと
を備える、発明1に記載の方法。
[発明7]
前記一貫性を判定することは、前記パラメータの予め決定された一貫性特性と、前記話された発声におけるパラメータの実際の特性とに基づいて、一貫性測定値を計算することを備える、発明1に記載の方法。
[発明8]
前記予め決定された一貫性特性は、前記話された発声の成分音の1または複数のパラメータのおのおのについて予め決定された1または複数の統計パラメータである、発明7に記載の方法。
[発明9]
前記予め決定された1または複数の統計パラメータは、前記話された発声の各成分音のパラメータの平均値を備え、前記平均値は、発声の学習セットから生成される、発明8に記載の方法。
[発明10]
前記認識結果を検証することは、
特定のパラメータの特定の一貫性をしきい値と比較することと、
前記パラメータの一貫性が前記しきい値を超えたのであれば、前記認識結果を却下することと、
前記パラメータの一貫性が前記しきい値を超えないのであれば、前記認識結果を受諾することと
を備える、発明1に記載の方法。
[発明11]
前記パラメータの一貫性が前記しきい値を超えたのであれば、前記パラメータは、十分な一貫性を有しておらず、
前記パラメータの一貫性が前記しきい値を超えないのであれば、前記パラメータは、十分な一貫性を有している、発明10に記載の方法。
[発明12]
前記パラメータは、持続時間であり、
前記持続時間の一貫性を判定することは、発声割合を判定することを備え、
前記発声割合は、前記発声における音の異なる各成分の持続時間の期待値の総和によって除された、前記話された発声の合計持続時間に基づく、発明1に記載の方法。
[発明13]
前記持続時間の期待値は、前記発声における音の異なる各成分の平均持続時間である、発明12に記載の方法。
[発明14]
前記話された発声の成分音の1または複数のパラメータの一貫性のうちの少なくとも1つが、一貫性スコアを備え、
前記一貫性スコアは、前記発声割合、前記話された発声の成分音の実際の持続時間、および、前記発声における各成分音の1または複数の統計パラメータに基づく、発明12に記載の方法。
[発明15]
前記発声割合に基づいて、修正された期待値を決定すること、をさらに備える発明12に記載の方法。
[発明16]
前記発声割合に、前記発声の音の異なる各成分の持続時間の期待値を乗じることによって、前記修正された期待値が決定される、発明15に記載の方法。
[発明17]
複数のデルタ値を決定することをさらに備え、
前記複数のデルタ値は、修正された各期待値と、特定の修正された各期待値に対応する音の成分の持続時間との差分である、発明15に記載の方法。
[発明18]
複数のデルタ値を決定することをさらに備え、
前記複数のデルタ値は、修正された各期待値について演算可能な第1の関数と、特定の修正された各期待値に対応する音の成分の持続時間について演算可能な第2の関数との差分である、発明15に記載の方法。
[発明19]
一貫性は、スコアとして表わされ、
前記一貫性を判定することはさらに、
前記発声における音のN個の成分に関するデルタ値の平方を加えることと、
Nによって除することと
を備える、発明18に記載の方法。
[発明20]
前記第1の関数および第2の関数は自然対数である、発明18に記載の方法。
[発明21]
前記第2の関数は、特定の修正された各期待値に対応する音の成分の持続時間の標準偏差の指数関数を備える、発明18に記載の方法。
[発明22]
前記成分音は、音素、サブ・フォン、音節、およびワードのうちの1つである、発明1に記載の方法。
[発明23]
システムであって、
プロセッサと、
メモリとを備え、
前記プロセッサは、
話された発声を受け取り、
認識結果を生成するために、前記話された発声を、音声認識器において処理し、
前記話された発声の成分音の1または複数のパラメータの一貫性を判定し、ここで、これらパラメータは、持続時間、エネルギ、およびピッチからなるグループから選択され、前記話された発声の各成分音は、前記パラメータの対応する値を有する、
前記パラメータのうちの少なくとも1つの一貫性に基づいて、前記認識結果を検証するように構成された、システム。
Claims (12)
- 方法であって、
話された発声を、コンピューティング・デバイスによって受け取ることと、
前記コンピューティング・デバイスによって、前記話された発声について音声認識処理を実行し、認識結果を生成することと、
前記コンピューティング・デバイスによって、前記認識結果の成分音の持続時間の一貫性を判定することとを備え、前記判定することは、
前記話された発声の合計持続時間を、前記認識結果の成分音の期待される持続時間の総和で除することによって、発声割合を計算することと、
各成分音について、
前記成分音の期待される持続時間に、前記発声割合を掛け合わせることにより、修正された期待される持続時間を計算することと、
前記話された発声における成分音の持続時間と、前記成分音の修正された期待される持続時間との差分に対応するデルタ値を計算することと、
前記デルタ値の平方の総和を取り、前記総和を、前記成分音の合計数で除することによって、持続時間一貫性スコアを計算することとを備え、
前記方法はさらに、
前記コンピューティング・デバイスによって、前記持続時間一貫性スコアに基づいて、前記認識結果を検証することを備える方法。 - 前記認識結果は、認識スコアに関連付けられており、
前記認識結果を検証することは、
結合スコアを生成するために、前記認識スコアを、前記持続時間一貫性スコアと結合することと、
前記結合スコアを、しきい値と比較することとを備える、請求項1に記載の方法。 - 各成分音の期待される持続時間は、発声の話者独立の学習セットから生成される平均持続時間値である、請求項1に記載の方法。
- 前記認識結果を検証することは、
前記持続時間一貫性スコアを、しきい値と比較することと、
前記持続時間一貫性スコアが、前記しきい値を超えたのであれば、前記認識結果を却下することと、
前記持続時間一貫性スコアが、前記しきい値を超えないのであれば、前記認識結果を受諾することとを備える、請求項1に記載の方法。 - 前記持続時間一貫性スコアが、前記しきい値を超えたのであれば、前記成分音の持続時間は、十分な一貫性を有しておらず、
前記持続時間一貫性スコアが、前記しきい値を超えないのであれば、前記成分音の持続時間は、十分な一貫性を有している、請求項4に記載の方法。 - 前記成分音は、音素、サブ・フォン、音節、およびワードのうちの1つである、請求項1に記載の方法。
- システムであって、
プロセッサと、
格納されたプログラム・コードを有する非一時的なコンピュータ読取可能な記憶媒体とを備え、
前記プログラム・コードは、前記プロセッサによって実行された場合、前記プロセッサに対して、
話された発声を受け取らせ、
前記話された発声について音声認識処理を実行させて、認識結果を生成させ、
前記認識結果の成分音の持続時間の一貫性を判定させ、
前記判定することは、
前記話された発声の合計持続時間を、前記認識結果の成分音の期待される持続時間の総和で除することによって、発声割合を計算することと、
各成分音について、
前記成分音の期待される持続時間に、前記発声割合を掛け合わせることにより、修正された期待される持続時間を計算することと、
前記話された発声における成分音の持続時間と、前記成分音の修正された期待される持続時間との差分に対応するデルタ値を計算することと、
前記デルタ値の平方の総和を取り、前記総和を、前記成分音の合計数で除することによって、持続時間一貫性スコアを計算することとを備え、
前記プログラム・コードは、前記プロセッサによって実行された場合、前記プロセッサに対してさらに、
前記持続時間一貫性スコアに基づいて、前記認識結果を検証させる、システム。 - 各成分音の期待される持続時間は、発声の話者独立の学習セットから生成された平均持続時間値である、請求項7に記載のシステム。
- 前記認識結果を検証することは、
前記持続時間一貫性スコアを、しきい値と比較することと、
前記持続時間一貫性スコアが、前記しきい値を超えるのであれば、前記認識結果を却下することと、
前記持続時間一貫性スコアが、前記しきい値を超えないのであれば、前記認識結果を受諾することとを備える、請求項7に記載のシステム。 - プロセッサによって実行可能な、格納されたプログラム・コードを有する非一時的なコンピュータ読取可能な記憶媒体であって、前記プログラム・コードは、
前記プロセッサに対して、話された発声を受け取らせるためのコードと、
前記プロセッサに対して、前記話された発声について音声認識処理を実行させ、認識結果を生成させるためのコードと、
前記プロセッサに対して、前記認識結果の成分音の持続時間の一貫性を判定させるためのコードとを備え、
前記判定することは、
前記話された発声の合計持続時間を、前記認識結果の成分音の期待される持続時間の総和で除することによって、発声割合を計算することと、
各成分音について、
前記成分音の期待される持続時間に、前記発声割合を掛け合わせることにより、修正された期待される持続時間を計算することと、
前記話された発声における成分音の持続時間と、前記成分音の修正された期待される持続時間との差分に対応するデルタ値を計算することと、
前記デルタ値の平方の総和を取り、前記総和を、前記成分音の合計数で除することによって、持続時間一貫性スコアを計算することとを備え、
前記プログラム・コードはさらに、
前記プロセッサに対して、前記持続時間一貫性スコアに基づいて、前記認識結果を検証させるためのコードを備える、非一時的なコンピュータ読取可能な記憶媒体。
- 各成分音の期待される持続時間は、発声の話者独立の学習セットから生成された平均持続時間値である、請求項10に記載の非一時的なコンピュータ読取可能な記憶媒体。
- 前記認識結果を検証することは、
前記持続時間一貫性スコアを、しきい値と比較することと、
前記持続時間一貫性スコアが、前記しきい値を超えるのであれば、前記認識結果を却下することと、
前記持続時間一貫性スコアが、前記しきい値を超えないのであれば、前記認識結果を受諾することとを備える、請求項10に記載の非一時的なコンピュータ読取可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/217,134 US8781825B2 (en) | 2011-08-24 | 2011-08-24 | Reducing false positives in speech recognition systems |
US13/217,134 | 2011-08-24 | ||
PCT/US2012/051345 WO2013028518A1 (en) | 2011-08-24 | 2012-08-17 | Reducing false positives in speech recognition systems |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2014524599A JP2014524599A (ja) | 2014-09-22 |
JP2014524599A5 JP2014524599A5 (ja) | 2016-01-07 |
JP6030135B2 true JP6030135B2 (ja) | 2016-11-24 |
Family
ID=47744890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014527200A Active JP6030135B2 (ja) | 2011-08-24 | 2012-08-17 | 音声認識システムにおいて、誤った肯定を低減すること |
Country Status (5)
Country | Link |
---|---|
US (1) | US8781825B2 (ja) |
JP (1) | JP6030135B2 (ja) |
CN (1) | CN103797535B (ja) |
DE (1) | DE112012003479T5 (ja) |
WO (1) | WO2013028518A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8768707B2 (en) | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
CN104157284A (zh) * | 2013-05-13 | 2014-11-19 | 佳能株式会社 | 语音命令检测方法和系统,以及信息处理系统 |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
EP3065131B1 (fr) * | 2015-03-06 | 2020-05-20 | ZETES Industries S.A. | Méthode et système de post-traitement d'un résultat de reconnaissance vocale |
US10019992B2 (en) | 2015-06-29 | 2018-07-10 | Disney Enterprises, Inc. | Speech-controlled actions based on keywords and context thereof |
KR102437689B1 (ko) * | 2015-09-16 | 2022-08-30 | 삼성전자주식회사 | 음성 인식 서버 및 그 제어 방법 |
WO2019047220A1 (zh) * | 2017-09-11 | 2019-03-14 | 深圳传音通讯有限公司 | 一种应用程序启动方法及终端、计算机可读存储介质 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US5193142A (en) * | 1990-11-15 | 1993-03-09 | Matsushita Electric Industrial Co., Ltd. | Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
CA2088080C (en) * | 1992-04-02 | 1997-10-07 | Enrico Luigi Bocchieri | Automatic speech recognizer |
US5794198A (en) * | 1994-10-28 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Pattern recognition method |
WO1996013827A1 (en) * | 1994-11-01 | 1996-05-09 | British Telecommunications Public Limited Company | Speech recognition |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
JPH11311994A (ja) * | 1998-04-30 | 1999-11-09 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
US6223155B1 (en) * | 1998-08-14 | 2001-04-24 | Conexant Systems, Inc. | Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system |
US6138095A (en) * | 1998-09-03 | 2000-10-24 | Lucent Technologies Inc. | Speech recognition |
US6266633B1 (en) | 1998-12-22 | 2001-07-24 | Itt Manufacturing Enterprises | Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus |
JP2003522981A (ja) | 2000-02-10 | 2003-07-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ピッチ変化検出を伴なう誤り訂正方法 |
EP1189202A1 (en) * | 2000-09-18 | 2002-03-20 | Sony International (Europe) GmbH | Duration models for speech recognition |
GB2370401A (en) * | 2000-12-19 | 2002-06-26 | Nokia Mobile Phones Ltd | Speech recognition |
US6959278B1 (en) * | 2001-04-05 | 2005-10-25 | Verizon Corporate Services Group Inc. | Systems and methods for implementing segmentation in speech recognition systems |
US7103542B2 (en) * | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
US6724866B2 (en) | 2002-02-08 | 2004-04-20 | Matsushita Electric Industrial Co., Ltd. | Dialogue device for call screening and classification |
JP4437047B2 (ja) * | 2004-02-20 | 2010-03-24 | 本田技研工業株式会社 | 音声対話装置 |
JP4322785B2 (ja) * | 2004-11-24 | 2009-09-02 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
KR100655491B1 (ko) * | 2004-12-21 | 2006-12-11 | 한국전자통신연구원 | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 |
JP2007017733A (ja) * | 2005-07-08 | 2007-01-25 | Sharp Corp | 入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体 |
CN1963917A (zh) * | 2005-11-11 | 2007-05-16 | 株式会社东芝 | 评价语音的分辨力、说话人认证的注册和验证方法及装置 |
US7657433B1 (en) * | 2006-09-08 | 2010-02-02 | Tellme Networks, Inc. | Speech recognition accuracy with multi-confidence thresholds |
JP4758919B2 (ja) * | 2007-01-22 | 2011-08-31 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
GB2468203B (en) * | 2009-02-27 | 2011-07-20 | Autonomy Corp Ltd | Various apparatus and methods for a speech recognition system |
US9646603B2 (en) * | 2009-02-27 | 2017-05-09 | Longsand Limited | Various apparatus and methods for a speech recognition system |
US20110004473A1 (en) | 2009-07-06 | 2011-01-06 | Nice Systems Ltd. | Apparatus and method for enhanced speech recognition |
-
2011
- 2011-08-24 US US13/217,134 patent/US8781825B2/en active Active
-
2012
- 2012-08-17 JP JP2014527200A patent/JP6030135B2/ja active Active
- 2012-08-17 WO PCT/US2012/051345 patent/WO2013028518A1/en active Application Filing
- 2012-08-17 CN CN201280040735.6A patent/CN103797535B/zh active Active
- 2012-08-17 DE DE112012003479.1T patent/DE112012003479T5/de not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
CN103797535B (zh) | 2016-06-08 |
CN103797535A (zh) | 2014-05-14 |
WO2013028518A1 (en) | 2013-02-28 |
DE112012003479T5 (de) | 2014-05-22 |
US8781825B2 (en) | 2014-07-15 |
JP2014524599A (ja) | 2014-09-22 |
US20130054242A1 (en) | 2013-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6030135B2 (ja) | 音声認識システムにおいて、誤った肯定を低減すること | |
US11887582B2 (en) | Training and testing utterance-based frameworks | |
US20230409102A1 (en) | Low-power keyword spotting system | |
KR101323061B1 (ko) | 스피커 인증 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어를 갖는 컴퓨터 판독가능 매체 | |
US9437186B1 (en) | Enhanced endpoint detection for speech recognition | |
TWI475558B (zh) | 詞語驗證的方法及裝置 | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
US7634401B2 (en) | Speech recognition method for determining missing speech | |
US8731925B2 (en) | Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack | |
US11367431B2 (en) | Synthetic speech processing | |
JP6336219B1 (ja) | 音声認識装置および音声認識方法 | |
WO2011145272A1 (ja) | パープレキシティ算出装置 | |
JP6373621B2 (ja) | 話し方評価装置、話し方評価方法、プログラム | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
US9355636B1 (en) | Selective speech recognition scoring using articulatory features | |
Alam et al. | Speaker Verification Under Adverse Conditions Using i-Vector Adaptation and Neural Networks. | |
KR20210059581A (ko) | 말하기의 자동 유창성 평가 방법 및 그 장치 | |
JP3868798B2 (ja) | 音声認識装置 | |
KR102617914B1 (ko) | 음성 인식 방법 및 그 시스템 | |
JP2019045532A (ja) | 音声認識装置、車載システム及びコンピュータプログラム | |
JP7173339B2 (ja) | 発話評価装置、発話評価方法、およびプログラム | |
Plátek et al. | Integration of an on-line Kaldi speech recogniser to the Alex dialogue systems framework | |
Oh et al. | On the use of feature-space MLLR adaptation for non-native speech recognition | |
JP6451171B2 (ja) | 音声認識装置、音声認識方法、及び、プログラム | |
Liao et al. | Latent prosody model-assisted Mandarin accent identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150728 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20151023 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160721 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20160729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6030135 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |