JP2014142627A - 音声識別方法および装置 - Google Patents
音声識別方法および装置 Download PDFInfo
- Publication number
- JP2014142627A JP2014142627A JP2013266716A JP2013266716A JP2014142627A JP 2014142627 A JP2014142627 A JP 2014142627A JP 2013266716 A JP2013266716 A JP 2013266716A JP 2013266716 A JP2013266716 A JP 2013266716A JP 2014142627 A JP2014142627 A JP 2014142627A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- confidence value
- data
- scenario
- confidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000000694 effects Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 15
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000002093 peripheral effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephone Function (AREA)
Abstract
【解決手段】本発明の諸実施形態は音声識別方法であって:音声データを取得する段階と;前記音声データに従って第一の信頼値を取得する段階と;前記音声データに従ってノイズ・シナリオを取得する段階と;前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得する段階と;前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理する段階とを含む、方法を提供する。装置も提供される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本方法および装置はノイズ環境のもとでの音声識別率を大幅に改善する。
【選択図】図5
Description
前記ノイズ・シナリオと前記経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し;
前記信頼値の前記調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得するよう構成されており、
ここで、前記調整は:増加、減少および不変のままであることを含む。
ユーザーが、該ユーザーによって入力される音声データをマイクロホンを通じて取得するために装置上の音声補助のようなソフトウェアを起動する。音声データは該ユーザーによって入力されなくてもよく、機械によって入力されてもよく、情報を含む任意のデータを含んでいてもよいことを理解しておくべきである。
第一の信頼値は、特定の個人による特定の命題の正当性についての信じられる度合いをいい、本発明の本実施形態では、装置などによる音声データの識別結果の正当性の度合いである。すなわち、第一の信頼値は、音声識別結果の信憑性の度合いを示すために使われる数値である。たとえば、ユーザーによって入力された音声データは音声データ識別プロセス中の「Give Zhang San calling」であり、返される第一の信頼値は:文信頼度N1(「Give Zhang San calling」の全体的な信頼度)、前置コマンド語信頼度N2(「give」が前置コマンド語、すなわち「give」の第一の信頼値がN2)、人名信頼度N3(「Zhang San」が名前、すなわち「Zhang San」の信頼値がN3)および後置コマンド語信頼度N4(「calling」が後置コマンド語、すなわち「calling」の信頼値がN4)を含む。通例、文信頼度N1はN2、N3およびN4を統合することによって得られる。ある実験では、試験により、ユーザーによって入力された音声データ「Give Zhang San calling」の第一の信頼値がそれぞれN1=62、N2=50、N3=48およびN4=80であることが得られている。
ユーザーによって入力された音声データに従って、ノイズ・シナリオが取得される。ノイズ・シナリオは、ユーザーが音声データを入力するときのノイズ状態である。すなわち、ノイズ・シナリオは、ユーザーが音声データを、道路上のノイズ環境、オフィス内のノイズ環境または乗物上のノイズ環境のいずれにおいて入力しているかおよびユーザーが位置している対応する環境におけるノイズが大きいか小さいかとして理解されてもよい。
第二の信頼値は得られた第一の信頼値に基づいて得られる。第二の信頼値は、ユーザーによって入力された音声データに基づいて直接得られるのではなく、第一の信頼値に基づいて得られる。音声データのノイズ・シナリオが得られたのちに、そのノイズ・シナリオに対応する第二の信頼値が、第一の信頼値に従って得られてもよい。
あらかじめ記憶されている信頼閾値は、第二の信頼値が受け入れられるかどうかを評価するための指標として使われる。第二の信頼値が信頼閾値より大きければ、識別結果は正しいと考えられ、第二の信頼値が信頼閾値より小さければ、識別結果は正しくないと考えられ、該結果を信じることができない。
図2は、本発明の実施形態1に基づく音声識別方法の別の実装様式のフローチャートである。
第二の信頼値が信頼閾値より小さい場合は、音声データの識別結果が正しくないと考えられ、ユーザーが促される。たとえば、ステップS103で得られた第二の信頼値N3が48で、ステップS104におけるあらかじめ記憶されている信頼閾値が50であれば、第二の信頼値は信頼閾値より小さく、音声データの識別結果は正しくない。さらに、説明のために例を与えておく。音声データが「Give Zhang San calling」〔セン・サンに電話する〕であるとき、装置は音声データの識別結果が正しくないと判定し、システムはユーザーにもう一度話すよう促すおよび/またはユーザーに障害を通知する。すなわち、第二の信頼値が信頼閾値より小さい場合には、ユーザーは再入力するまたは障害を正すよう促される。
ユーザーによって入力される音声データに従って、音声データ・フレームおよびノイズ・データ・フレームが音声活動検出(VAD: voice activity detection)を通じて決定され、ノイズ・データ・フレームが取得されたのち、ノイズ・データ・フレームの周波数ケプストラム係数が取得される。mel(メル)は主観的なピッチの単位であり、Hz(ヘルツ)は客観的なピッチの単位である。mel周波数は人間の耳の聴覚特徴に基づいて提案されており、Hz周波数と非線形な対応をもつ。周波数ケプストラム係数(MFCC: Mel Frequency Cepstrum Coefficient)はメル周波数上でのケプストラム係数であり、良好な識別パフォーマンスをもち、音声識別、声紋認識および言語識別のような分野に広く応用される。
周波数ケプストラム係数はそれぞれ事前に確立されている各ノイズ型モデルに計算のために代入され、あるノイズ型モデルの計算結果値が最大であれば、ユーザーは、音声データを入力するときに、そのノイズ型の環境に位置していたと考えられる。すなわち、音声データのノイズ型が取得される。
ノイズ・データを取得する。同じ型のノイズ、たとえば乗物上のノイズ、街路ノイズおよびオフィス・ノイズの複数の群を取得する。それがノイズ・データの型のGMM、すなわちノイズ・データの当該型のノイズ型モデルを確立するために使われる。本発明において、別の型のノイズ・データが取得されてもよく、ノイズ・データの各型について対応するノイズ型モデルが確立されることは理解しておくべきである。本発明の本実施形態においてはそれに限定されるものではない;
ノイズ・データに従って、ノイズ・データの周波数ケプストラム係数を取得する。ノイズ・データからノイズの周波数ケプストラム係数を抽出する。mel(メル)は主観的なピッチの単位であり、Hz(ヘルツ)は客観的なピッチの単位である。mel周波数は人間の耳の聴覚特徴に基づいて提案されており、Hz周波数と非線形な対応をもつ。周波数ケプストラム係数(MFCC: Mel Frequency Cepstrum Coefficient)はメル周波数上でのケプストラム係数であり、良好な識別パフォーマンスをもち、音声識別、声紋認識および言語識別のような分野に広く応用される;
EMアルゴリズムに従って周波数ケプストラム係数を処理し、ノイズ型モデルを確立する。統計学では、観測不能な潜在変数に依存する確率モデルにおけるパラメータの最大尤度推定を探索するために、EMアルゴリズム(expectation-maximization algorithm[期待値最大化アルゴリズム])が使用される。統計計算では、期待値最大化(EM)アルゴリズムは、GMMが観測不能な潜在変数(latent variable)に依存する場合に、パラメータの最大尤度推定または最大事後推定を探索する。
図3に示されるように、ノイズ・シナリオはノイズ大きさを含む。実施形態1のステップS102において、音声データに従ってノイズ・シナリオを取得することは、具体的には下記を含む。
音声データの特徴パラメータが、音声データに従って抽出される。ここで、特徴パラメータは:サブバンド・エネルギー、基本音(fundamental tone)および巡回因子(cyclic factor)を含む。
ユーザーによって入力された音声データに従って、音声データ・フレームおよびノイズ・データ・フレームが音声活動検出(VAD: voice activity detection)を通じて決定され、基本音、巡回因子およびサブバンド・エネルギーが組み合わされ、それにより音声フレームおよび無音フレームについての判定が実行される。
1)音声フレームのエネルギーはノイズ・フレームのエネルギーより大きい;
2)より強い周期性をもつフレームは一般には音声フレームである。
VAD判定結果に従って、音声フレームおよびノイズ・フレームの平均エネルギーをそれぞれ計算して、音声エネルギー・レベル(speechLev)およびノイズ・エネルギー・レベル(noiseLev)を取得し、次いで、計算により、信号対雑音比(SNR: signal-to-noise ratio)を取得する。公式は次のとおり。
ノイズ・シナリオに対応する信頼値の調整値は、ノイズ・シナリオにおけるノイズ型、ノイズ大きさおよび大量のエミュレートする測定を通じて得られた信頼値の調整値の経験的データに従って得られる。ノイズ型は、音声識別が実行されるときにユーザーが位置している環境の型を示し、ノイズ大きさはユーザーが位置している環境の型のノイズ大きさを示す。ノイズ型との組み合わせにおいて、ノイズがより大きいときは、信頼値は対応して増加させられ;ノイズ型との組み合わせにおいて、ノイズがより小さいときは、信頼値は対応して減少させられる。信頼値の調整値の特定の経験的データは、エミュレーション測定における統計的収集によって得られる。
ノイズ型は乗物上環境である。ノイズがより大きいとき(すなわち、ノイズ・レベルが−30dBより小さく、信号対雑音比が10dBより小さい)、エミュレーション測定における統計収集によって、このノイズ・シナリオでは、信頼値の調整値が+15ないし+5であることが得られる。したがって、このノイズ・シナリオでは、信頼値の調整値は15から5までの間のある値だけ信頼値を増加させる効果がある。
音声データを取得するよう構成された取得ユニット300と;
前記取得ユニット300によって取得された前記音声データを受領し、前記音声データに従って第一の信頼値を取得するよう構成された第一信頼値ユニット301と;
前記取得ユニット300によって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得するよう構成されたノイズ・シナリオ・ユニット302と;
前記ノイズ・シナリオ・ユニット302の前記ノイズ・シナリオおよび前記第一信頼値ユニット301の第一の信頼値を受領し、前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得するよう構成された第二信頼値ユニット303と;
前記第二信頼値ユニット303によって取得された前記第二の信頼値を受領し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理するよう構成されている処理ユニット304とを含む。
図6は、本発明の実施形態4に基づく音声識別装置のもう一つの可能な概略的な構造図である。
ノイズ・データを取得し、前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し、EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立するよう構成されたモデル確立ユニット305をさらに含む。
図7は、本発明の実施形態4に基づく音声識別装置のもう一つの可能な概略的な構造図である。
前記取得ユニットの前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し、前記ノイズの周波数ケプストラム係数および前記モデル確立ユニットの前記ノイズ型モデルに従って前記音声データのノイズ型を取得するよう構成されたノイズ型ユニット3021を含む。
前記取得ユニットの前記音声データに従って前記音声データの特徴パラメータを取得し、前記特徴パラメータに従って音声活動検出を実行し、前記音声活動検出の結果に従って前記ノイズ大きさを取得するよう構成されたノイズ大きさユニット3022を含む。
図8は、本発明の実施形態4に基づく音声識別装置のもう一つの可能な概略的な構造図である。
信頼閾値と、信頼値の調整値の経験的データとを記憶するよう構成された記憶ユニット306を含む。
前記信頼値の調整値に従って前記第一の信頼値を調整して、第二の信頼値を取得するよう構成されている。ここで、前記調整は、増加、減少および不変のままを含む。
前記マイクロホン501は音声データを取得するよう構成されており、
前記プロセッサ502は、前記音声データに従って第一の信頼値を取得し、前記音声データに従ってノイズ・シナリオを取得し、前記第一の信頼値に従って、前記ノイズ・シナリオに対応する第二の信頼値を取得し、前記第二の信頼値があらかじめ記憶された信頼閾値以上であれば、前記音声データを処理するよう構成されている。
Claims (16)
- 音声識別方法であって:
音声データを取得する段階と;
前記音声データに従って第一の信頼値を取得する段階と;
前記音声データに従ってノイズ・シナリオを取得する段階と;
前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得する段階と;
前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理する段階とを含む、
方法。 - 前記ノイズ・シナリオが:
ノイズ型;および
ノイズ大きさを含む、
請求項1記載の方法。 - 前記ノイズ・シナリオがノイズ型を含み、前記音声データに従ってノイズ・シナリオを取得する段階は:
前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し;
前記ノイズの周波数ケプストラム係数およびあらかじめ確立されたノイズ型モデルに従って前記音声データのノイズ型を取得することを含む、
請求項2記載の方法。 - 前記あらかじめ確立されたノイズ型モデルを確立する方法が:
ノイズ・データを取得し;
前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し;
EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立することを含む、
請求項3記載の方法。 - 前記ノイズ・シナリオはノイズ大きさを含み、前記音声データに従ってノイズ・シナリオを取得する段階は:
前記音声データに従って、前記音声データの特徴パラメータを取得し;
前記特徴パラメータに従って音声活動検出を実行し;
前記音声活動検出の結果に従って前記ノイズ大きさを取得することを含む、
請求項2記載の方法。 - 前記ノイズ大きさが:
信号対雑音比;および
ノイズ・エネルギー・レベルを含む、
請求項2または5記載の方法。 - 前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得する段階が:
前記ノイズ・シナリオと信頼値の調整値のあらかじめ記憶されている経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し;
前記信頼値の調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得することを含み、
前記調整は:増加させること、減少させることおよび不変のままであることを含む、
請求項1ないし6のうちいずれか一項記載の方法。 - 音声識別装置であって:
音声データを取得するよう構成された取得ユニットと;
前記取得ユニットによって取得された前記音声データを受領し、前記音声データに従って第一の信頼値を取得するよう構成された第一信頼値ユニットと;
前記取得ユニットによって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得するよう構成されたノイズ・シナリオ・ユニットと;
前記ノイズ・シナリオ・ユニットの前記ノイズ・シナリオおよび前記第一信頼値ユニットの前記第一の信頼値を受領し、前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得するよう構成された第二信頼値ユニットと;
前記第二信頼値ユニットによって取得された前記第二の信頼値を受領し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理するよう構成されている処理ユニットとを有する、
装置。 - ノイズ・データを取得し、前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し、EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立するよう構成されたモデル確立ユニットをさらに有する、
請求項8記載の装置。 - 前記ノイズ・シナリオ・ユニットが:
前記取得ユニットの前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し、前記ノイズの周波数ケプストラム係数および前記モデル確立ユニットの前記ノイズ型モデルに従って前記音声データのノイズ型を取得するよう構成されたノイズ型ユニットを有する、
請求項9記載の装置。 - 前記ノイズ・シナリオ・ユニットがさらに:
前記取得ユニットの前記音声データに従って前記音声データの特徴パラメータを取得し、前記特徴パラメータに従って音声活動検出を実行し、前記音声活動検出の結果に従ってノイズ大きさを取得するよう構成されたノイズ大きさユニットを有する、
請求項8ないし10のうちいずれか一項記載の装置。 - 信頼閾値と、信頼値の調整値の経験的データとを記憶するよう構成された記憶ユニットをさらに有する、
請求項8ないし11のうちいずれか一項記載の装置。 - 前記第二信頼値ユニットが、前記ノイズ・シナリオと前記経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し;
前記信頼値の調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得するよう構成されており、
前記調整は:増加、減少および不変のままを含む、
請求項12記載の装置。 - プロセッサおよびマイクロホンを有するモバイル端末であって、
前記マイクロホンは音声データを取得するよう構成されており、
前記プロセッサは、前記音声データに従って第一の信頼値を取得し、前記音声データに従ってノイズ・シナリオを取得し、前記第一の信頼値に従って、前記ノイズ・シナリオに対応する第二の信頼値を取得し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理するよう構成されている、
モバイル端末。 - 信頼値の調整値の経験的データと前記信頼閾値とを記憶するよう構成されたメモリをさらに有する、請求項14記載のモバイル端末。
- 前記プロセッサが、
前記音声データに従って前記第一の信頼値を取得する段階と;
前記音声データに従って前記ノイズ・シナリオを取得する段階と;
前記ノイズ・シナリオと前記経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し;
前記信頼値の調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得し;
前記第二の信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている、
請求項15記載のモバイル端末。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310027326.9A CN103065631B (zh) | 2013-01-24 | 2013-01-24 | 一种语音识别的方法、装置 |
CN201310027326.9 | 2013-01-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014142627A true JP2014142627A (ja) | 2014-08-07 |
JP6099556B2 JP6099556B2 (ja) | 2017-03-22 |
Family
ID=48108231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013266716A Active JP6099556B2 (ja) | 2013-01-24 | 2013-12-25 | 音声識別方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9607619B2 (ja) |
EP (1) | EP2760018B1 (ja) |
JP (1) | JP6099556B2 (ja) |
CN (1) | CN103065631B (ja) |
WO (1) | WO2014114049A1 (ja) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971680B (zh) | 2013-01-24 | 2018-06-05 | 华为终端(东莞)有限公司 | 一种语音识别的方法、装置 |
CN103065631B (zh) | 2013-01-24 | 2015-07-29 | 华为终端有限公司 | 一种语音识别的方法、装置 |
US9240182B2 (en) * | 2013-09-17 | 2016-01-19 | Qualcomm Incorporated | Method and apparatus for adjusting detection threshold for activating voice assistant function |
CN104637495B (zh) * | 2013-11-08 | 2019-03-26 | 宏达国际电子股份有限公司 | 电子装置以及音频信号处理方法 |
GB2523984B (en) * | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
CN103680493A (zh) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 区分地域性口音的语音数据识别方法和装置 |
US9384738B2 (en) * | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
CN104078040A (zh) * | 2014-06-26 | 2014-10-01 | 美的集团股份有限公司 | 语音识别方法及系统 |
CN104078041B (zh) * | 2014-06-26 | 2018-03-13 | 美的集团股份有限公司 | 语音识别方法及系统 |
CN105224844B (zh) * | 2014-07-01 | 2020-01-24 | 腾讯科技(深圳)有限公司 | 验证方法、系统和装置 |
CN110895929B (zh) * | 2015-01-30 | 2022-08-12 | 展讯通信(上海)有限公司 | 语音识别方法及装置 |
US10223459B2 (en) | 2015-02-11 | 2019-03-05 | Google Llc | Methods, systems, and media for personalizing computerized services based on mood and/or behavior information from multiple data sources |
US9769564B2 (en) | 2015-02-11 | 2017-09-19 | Google Inc. | Methods, systems, and media for ambient background noise modification based on mood and/or behavior information |
US11048855B2 (en) | 2015-02-11 | 2021-06-29 | Google Llc | Methods, systems, and media for modifying the presentation of contextually relevant documents in browser windows of a browsing application |
US11392580B2 (en) | 2015-02-11 | 2022-07-19 | Google Llc | Methods, systems, and media for recommending computerized services based on an animate object in the user's environment |
US10284537B2 (en) | 2015-02-11 | 2019-05-07 | Google Llc | Methods, systems, and media for presenting information related to an event based on metadata |
US9685156B2 (en) * | 2015-03-12 | 2017-06-20 | Sony Mobile Communications Inc. | Low-power voice command detector |
CN105405298B (zh) * | 2015-12-24 | 2018-01-16 | 浙江宇视科技有限公司 | 一种车牌标识的识别方法和装置 |
CN106971715A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种应用于机器人的语音识别装置 |
CN106971717A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 机器人与网络服务器协作处理的语音识别方法、装置 |
US9972322B2 (en) * | 2016-03-29 | 2018-05-15 | Intel Corporation | Speaker recognition using adaptive thresholding |
CN107437412B (zh) * | 2016-05-25 | 2021-06-29 | 北京搜狗科技发展有限公司 | 一种声学模型处理方法、语音合成方法、装置及相关设备 |
CN106384594A (zh) * | 2016-11-04 | 2017-02-08 | 湖南海翼电子商务股份有限公司 | 语音识别的车载终端及其方法 |
WO2018090252A1 (zh) * | 2016-11-16 | 2018-05-24 | 深圳达闼科技控股有限公司 | 机器人语音指令识别的方法及相关机器人装置 |
CN107945793A (zh) * | 2017-12-25 | 2018-04-20 | 广州势必可赢网络科技有限公司 | 一种语音激活检测方法及装置 |
CN108831487B (zh) * | 2018-06-28 | 2020-08-18 | 深圳大学 | 声纹识别方法、电子装置及计算机可读存储介质 |
CN108986791B (zh) * | 2018-08-10 | 2021-01-05 | 南京航空航天大学 | 针对民航陆空通话领域的中英文语种语音识别方法及系统 |
CN109065046A (zh) * | 2018-08-30 | 2018-12-21 | 出门问问信息科技有限公司 | 语音唤醒的方法、装置、电子设备及计算机可读存储介质 |
CN109346071A (zh) * | 2018-09-26 | 2019-02-15 | 出门问问信息科技有限公司 | 唤醒处理方法、装置及电子设备 |
CN109545238B (zh) * | 2018-12-11 | 2022-05-10 | 珠海一微半导体股份有限公司 | 一种基于清洁机器人的语音去噪装置 |
CN109658943B (zh) * | 2019-01-23 | 2023-04-14 | 平安科技(深圳)有限公司 | 一种音频噪声的检测方法、装置、存储介质和移动终端 |
CN110602391B (zh) * | 2019-08-30 | 2021-08-24 | Oppo广东移动通信有限公司 | 拍照控制方法、装置、存储介质及电子设备 |
CN112687298A (zh) * | 2019-10-18 | 2021-04-20 | Oppo广东移动通信有限公司 | 语音唤醒优化方法及装置、系统、存储介质和电子设备 |
CN112767965B (zh) * | 2019-11-01 | 2023-01-17 | 博泰车联网科技(上海)股份有限公司 | 噪声识别模型的生成/应用方法、系统、介质及服务/终端 |
CN112868061A (zh) * | 2019-11-29 | 2021-05-28 | 深圳市大疆创新科技有限公司 | 环境检测方法、电子设备及计算机可读存储介质 |
CN111326148B (zh) * | 2020-01-19 | 2021-02-23 | 北京世纪好未来教育科技有限公司 | 置信度校正及其模型训练方法、装置、设备及存储介质 |
CN111462737B (zh) * | 2020-03-26 | 2023-08-08 | 中国科学院计算技术研究所 | 一种训练用于语音分组的分组模型的方法和语音降噪方法 |
CN112201270B (zh) * | 2020-10-26 | 2023-05-23 | 平安科技(深圳)有限公司 | 语音噪声的处理方法、装置、计算机设备及存储介质 |
CN112466280B (zh) * | 2020-12-01 | 2021-12-24 | 北京百度网讯科技有限公司 | 语音交互方法、装置、电子设备和可读存储介质 |
WO2022222045A1 (zh) * | 2021-04-20 | 2022-10-27 | 华为技术有限公司 | 语音信息处理方法及设备 |
CN113380253A (zh) * | 2021-06-21 | 2021-09-10 | 紫优科技(深圳)有限公司 | 一种基于云计算和边缘计算的语音识别系统、设备及介质 |
CN113380254B (zh) * | 2021-06-21 | 2024-05-24 | 枣庄福缘网络科技有限公司 | 一种基于云计算和边缘计算的语音识别方法、设备及介质 |
CN115132197B (zh) * | 2022-05-27 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备、程序产品及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001075595A (ja) * | 1999-09-02 | 2001-03-23 | Honda Motor Co Ltd | 車載用音声認識装置 |
JP2003177781A (ja) * | 2001-12-12 | 2003-06-27 | Advanced Telecommunication Research Institute International | 音響モデル生成装置及び音声認識装置 |
JP2003202887A (ja) * | 2001-12-28 | 2003-07-18 | Toshiba Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
WO2011070972A1 (ja) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
WO2011122522A1 (ja) * | 2010-03-30 | 2011-10-06 | 日本電気株式会社 | 感性表現語選択システム、感性表現語選択方法及びプログラム |
JPWO2010128560A1 (ja) * | 2009-05-08 | 2012-11-01 | パイオニア株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
Family Cites Families (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6466906B2 (en) * | 1999-01-06 | 2002-10-15 | Dspc Technologies Ltd. | Noise padding and normalization in dynamic time warping |
US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
US6735562B1 (en) | 2000-06-05 | 2004-05-11 | Motorola, Inc. | Method for estimating a confidence measure for a speech recognition system |
JP4244514B2 (ja) * | 2000-10-23 | 2009-03-25 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置 |
US8023622B2 (en) * | 2000-12-21 | 2011-09-20 | Grape Technology Group, Inc. | Technique for call context based advertising through an information assistance service |
US7502737B2 (en) * | 2002-06-24 | 2009-03-10 | Intel Corporation | Multi-pass recognition of spoken dialogue |
US7103541B2 (en) * | 2002-06-27 | 2006-09-05 | Microsoft Corporation | Microphone array signal enhancement using mixture models |
JP4109063B2 (ja) * | 2002-09-18 | 2008-06-25 | パイオニア株式会社 | 音声認識装置及び音声認識方法 |
DE10251113A1 (de) * | 2002-11-02 | 2004-05-19 | Philips Intellectual Property & Standards Gmbh | Verfahren zum Betrieb eines Spracherkennungssystems |
JP4357867B2 (ja) * | 2003-04-25 | 2009-11-04 | パイオニア株式会社 | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 |
JP2004325897A (ja) * | 2003-04-25 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
WO2005041170A1 (en) * | 2003-10-24 | 2005-05-06 | Nokia Corpration | Noise-dependent postfiltering |
US8005668B2 (en) * | 2004-09-22 | 2011-08-23 | General Motors Llc | Adaptive confidence thresholds in telematics system speech recognition |
US7536301B2 (en) * | 2005-01-03 | 2009-05-19 | Aai Corporation | System and method for implementing real-time adaptive threshold triggering in acoustic detection systems |
KR100745976B1 (ko) * | 2005-01-12 | 2007-08-06 | 삼성전자주식회사 | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8311819B2 (en) * | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US20070055519A1 (en) * | 2005-09-02 | 2007-03-08 | Microsoft Corporation | Robust bandwith extension of narrowband signals |
JP4245617B2 (ja) * | 2006-04-06 | 2009-03-25 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
JP2008009153A (ja) | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
AU2007335251B2 (en) * | 2006-12-19 | 2014-05-15 | Validvoice, Llc | Confidence levels for speaker recognition |
US8140325B2 (en) * | 2007-01-04 | 2012-03-20 | International Business Machines Corporation | Systems and methods for intelligent control of microphones for speech recognition applications |
CN101320559B (zh) | 2007-06-07 | 2011-05-18 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
US7881929B2 (en) * | 2007-07-25 | 2011-02-01 | General Motors Llc | Ambient noise injection for use in speech recognition |
US7856353B2 (en) * | 2007-08-07 | 2010-12-21 | Nuance Communications, Inc. | Method for processing speech signal data with reverberation filtering |
US8306817B2 (en) * | 2008-01-08 | 2012-11-06 | Microsoft Corporation | Speech recognition with non-linear noise reduction on Mel-frequency cepstra |
CN101593522B (zh) * | 2009-07-08 | 2011-09-14 | 清华大学 | 一种全频域数字助听方法和设备 |
WO2011049515A1 (en) * | 2009-10-19 | 2011-04-28 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and voice activity detector for a speech encoder |
US8632465B1 (en) * | 2009-11-03 | 2014-01-21 | Vivaquant Llc | Physiological signal denoising |
EP2352312B1 (en) * | 2009-12-03 | 2013-07-31 | Oticon A/S | A method for dynamic suppression of surrounding acoustic noise when listening to electrical inputs |
US8626498B2 (en) * | 2010-02-24 | 2014-01-07 | Qualcomm Incorporated | Voice activity detection based on plural voice activity detectors |
US8234111B2 (en) * | 2010-06-14 | 2012-07-31 | Google Inc. | Speech and noise models for speech recognition |
JP5200080B2 (ja) | 2010-09-29 | 2013-05-15 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、およびそのプログラム |
US8886532B2 (en) * | 2010-10-27 | 2014-11-11 | Microsoft Corporation | Leveraging interaction context to improve recognition confidence scores |
EP2678861B1 (en) * | 2011-02-22 | 2018-07-11 | Speak With Me, Inc. | Hybridized client-server speech recognition |
US10418047B2 (en) * | 2011-03-14 | 2019-09-17 | Cochlear Limited | Sound processing with increased noise suppression |
CN102693724A (zh) * | 2011-03-22 | 2012-09-26 | 张燕 | 一种基于神经网络的高斯混合模型的噪声分类方法 |
US8731936B2 (en) * | 2011-05-26 | 2014-05-20 | Microsoft Corporation | Energy-efficient unobtrusive identification of a speaker |
JP2013114518A (ja) * | 2011-11-29 | 2013-06-10 | Sony Corp | 画像処理装置、および画像処理方法、並びにプログラム |
US20130144618A1 (en) * | 2011-12-02 | 2013-06-06 | Liang-Che Sun | Methods and electronic devices for speech recognition |
US8930187B2 (en) * | 2012-01-03 | 2015-01-06 | Nokia Corporation | Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device |
US20130211832A1 (en) * | 2012-02-09 | 2013-08-15 | General Motors Llc | Speech signal processing responsive to low noise levels |
CN103578468B (zh) * | 2012-08-01 | 2017-06-27 | 联想(北京)有限公司 | 一种语音识别中置信度阈值的调整方法及电子设备 |
US8571871B1 (en) * | 2012-10-02 | 2013-10-29 | Google Inc. | Methods and systems for adaptation of synthetic speech in an environment |
CN103065631B (zh) * | 2013-01-24 | 2015-07-29 | 华为终端有限公司 | 一种语音识别的方法、装置 |
-
2013
- 2013-01-24 CN CN201310027326.9A patent/CN103065631B/zh active Active
- 2013-06-20 WO PCT/CN2013/077529 patent/WO2014114049A1/zh active Application Filing
- 2013-11-19 EP EP13193481.2A patent/EP2760018B1/en active Active
- 2013-12-09 US US14/100,822 patent/US9607619B2/en active Active
- 2013-12-25 JP JP2013266716A patent/JP6099556B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001075595A (ja) * | 1999-09-02 | 2001-03-23 | Honda Motor Co Ltd | 車載用音声認識装置 |
JP2003177781A (ja) * | 2001-12-12 | 2003-06-27 | Advanced Telecommunication Research Institute International | 音響モデル生成装置及び音声認識装置 |
JP2003202887A (ja) * | 2001-12-28 | 2003-07-18 | Toshiba Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
JPWO2010128560A1 (ja) * | 2009-05-08 | 2012-11-01 | パイオニア株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
WO2011070972A1 (ja) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
WO2011122522A1 (ja) * | 2010-03-30 | 2011-10-06 | 日本電気株式会社 | 感性表現語選択システム、感性表現語選択方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
電子情報通信学会「知識ベース」, vol. 2群-7編-2章, JPN7014003233, 7 January 2011 (2011-01-07), JP, pages 1 - 3, ISSN: 0002939312 * |
Also Published As
Publication number | Publication date |
---|---|
EP2760018B1 (en) | 2017-10-25 |
CN103065631B (zh) | 2015-07-29 |
EP2760018A1 (en) | 2014-07-30 |
CN103065631A (zh) | 2013-04-24 |
US20140207460A1 (en) | 2014-07-24 |
JP6099556B2 (ja) | 2017-03-22 |
US9607619B2 (en) | 2017-03-28 |
WO2014114049A1 (zh) | 2014-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6393730B2 (ja) | 音声識別方法および装置 | |
JP6099556B2 (ja) | 音声識別方法および装置 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
WO2020181824A1 (zh) | 声纹识别方法、装置、设备以及计算机可读存储介质 | |
US9589560B1 (en) | Estimating false rejection rate in a detection system | |
EP3405947A1 (en) | Method and apparatus for initiating an operation using voice data | |
US20120143608A1 (en) | Audio signal source verification system | |
JP2016057461A (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
WO2022083969A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN111415653B (zh) | 用于识别语音的方法和装置 | |
CN110992940B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
KR101565143B1 (ko) | 대화시스템에서 사용자 발화의 정보 분류를 위한 자질 가중치 산출 장치 및 방법 | |
CN115206321A (zh) | 语音关键词的识别方法、装置和电子设备 | |
CN114220430A (zh) | 多音区语音交互方法、装置、设备以及存储介质 | |
CN111477248B (zh) | 一种音频噪声检测方法及装置 | |
CN112786058A (zh) | 声纹模型训练方法、装置、设备以及存储介质 | |
Arcos et al. | Ideal neighbourhood mask for speech enhancement | |
CN114882890A (zh) | 深度学习模型的训练方法、声纹识别方法、装置和设备 | |
CN115410586A (zh) | 音频处理方法、装置、电子设备及存储介质 | |
Chun et al. | Based on CFC And Multi-Feature Combination Optimization of Speech Recognition Research | |
CN115691473A (zh) | 一种语音端点检测方法、装置和存储介质 | |
CN113658581A (zh) | 声学模型的训练、语音处理方法、装置、设备及存储介质 | |
CN114678040A (zh) | 语音一致性检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150818 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20151112 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20151216 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20160115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160212 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161118 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20161125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6099556 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |