JP7209674B2 - 音声認識方法、音声認識装置、電子機器、コンピュータ可読記憶媒体及びプログラム - Google Patents
音声認識方法、音声認識装置、電子機器、コンピュータ可読記憶媒体及びプログラム Download PDFInfo
- Publication number
- JP7209674B2 JP7209674B2 JP2020173007A JP2020173007A JP7209674B2 JP 7209674 B2 JP7209674 B2 JP 7209674B2 JP 2020173007 A JP2020173007 A JP 2020173007A JP 2020173007 A JP2020173007 A JP 2020173007A JP 7209674 B2 JP7209674 B2 JP 7209674B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- audio signal
- delay value
- reference signal
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 69
- 230000005236 sound signal Effects 0.000 claims description 90
- 238000012545 processing Methods 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 20
- 230000003139 buffering effect Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 description 15
- 230000009467 reduction Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 3
- 101710180672 Regulator of MON1-CCZ1 complex Proteins 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/037—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
- B60R16/0373—Voice control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Mechanical Engineering (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することと、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することと、
前記第2の基準信号に基づいて、収集された第2のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することと、
前記認識すべき音声信号を認識することと、を含む。
取得された第1の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第1のマイクロホン信号に対して、現在の時間帯の第1の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第1の基準信号、第1のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第1の遅延値を取得することと、の工程を繰り返し実行することを含み、
ここで、前記現在の時間帯の第1の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第1の遅延値で処理して得られるものである。
新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得し、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第3の基準信号を取得し、前記第3の基準信号に基づいて収集された第3のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得すること、をさらに含む。
前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第2の基準信号を取得することを含む。
前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることをさらに含み、
ここで、前記第2のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む。
所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することに用いられる遅延推定モジュールと、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することに用いられる第1の処理モジュールと、
前記第2の基準信号に基づいて、収集された第2のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することに用いられる第2の処理モジュールと、
前記認識すべき音声信号を認識することに用いられる認識モジュールとを含む。
現在の時間帯に収集される第1のマイクロホン信号に対して、現在の時間帯の第1の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第1の基準信号、第1のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第1の遅延値を取得することと、の工程を繰り返し実行することに用いられ、
ここで、前記現在の時間帯の第1の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第1の遅延値で処理して得られるものである。
前記第1の処理モジュールはさらに、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第3の基準信号を取得することに用いられ、
前記第2の処理モジュールはさらに、前記第3の基準信号に基づいて収集された第3のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得することに用いられる。
前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることに用いられる出力モジュールをさらに含み、
ここで、前記第2のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと接続するメモリとを含み、
ここで、前記メモリは、前記少なくとも1つのプロセッサによって実行され得る命令を記憶し、前記命令を前記少なくとも1つのプロセッサが実行すると、上記の音声認識方法を前記少なくとも1つのプロセッサに実行させる。
ステップ101:所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することを含む。
現在の時間帯に収集される第1のマイクロホン信号に対して、現在の時間帯の第1の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第1の基準信号、第1のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第1の遅延値を取得することと、の工程を繰り返し実行することであってもよく、
ここで、前記現在の時間帯の第1の基準信号は、現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第1の遅延値に応じて処理(例えば、バッファリング)して得られるものである。第1の遅延値は、対応するシステムオーディオ信号に対する現在時間帯内の第1のマイクロホン信号の到着時間差であり、現在の時間帯内の第1の基準信号と、第1のマイクロホン信号とノイズキャンセリング後の信号との比較分析に基づいて得られるものである。
1)マイクロホンアレイが信号を収集し、ここで、2つのインターフェースに対応する信号、すなわち、Mic0信号及びMic1信号は、ユーザの入力した音声制御信号及び車載端末の再生しているオーディオ信号を少なくとも含み、DSPは、マイクロホン信号を収集した後、基準信号(対応するシステムオーディオ信号をバッファリングした後得られるものである、メインSoCから入力されるRef信号)に基づいてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号(Line out信号、実質的にはユーザの入力した音声制御信号)を取得することと、
2)DSPは、Mic0信号、Mic1信号、Ref信号、及びLine out信号を下記の表1の形式で2チャンネルのI2S信号に合成し出力し、I2SのTDM(Time-division multiplexing)の出力フォーマットをサポートし得ることと、
4)同様に、メインSoCは、Codecの出力したシステムオーディオ信号を収集して、App層がシステムオーディオ信号を取得するように、対応するAudioRecordインターフェースをソフトウェア層でパッケージ化し、このシステムオーディオ信号をUSBチャネルを介して車載端末に伝送して再生することと、
5)App層は、DSPの出力したI2S信号を取得した後、原信号、すなわちMic0信号、Mic1信号、Ref信号、及びLine out信号を、プロトコルに従って解析して、遅延推定を行う。すなわち、対応するシステムオーディオ信号に対するマイクロホン信号の到着時間差を推定して、(遅延値とも呼ぶことができる)遅延推定値を得ると同時に、このLine out信号を、直接、音声認識エンジンに入力して、認識することができることと、
6)該遅延推定値に対しては、システム層が、該遅延推定値を受信するためのインタフェースを解放し、該遅延推定値に基づいてDSPに入力する基準信号を調整し、例えば、ROM層に該遅延推定値を渡し、該ROM層が、現在のシステムオーディオ信号を該遅延推定値に応じて自動的にバッファリングして、基準信号としてDSPに入力することと、を含む。
所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することに用いられる遅延推定モジュール31と、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することに用いられる第1の処理モジュール32と、
前記第2の基準信号に基づいて、収集された第2のマイクロホン信号に対して処理ノイズキャンセリングを行い、認識すべき音声信号を取得することに用いられる第2の処理モジュール33と、
前記認識すべき音声信号を認識することに用いられる認識モジュール34と、を含む。
現在の時間帯に収集される第1のマイクロホン信号に対して、現在の時間帯の第1の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第1の基準信号、第1のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第1の遅延値を取得することと、の工程を繰り返し実行することに用いられ、
ここで、前記現在の時間帯の第1の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第1の遅延値で処理して得られるものである。
前記第1の処理モジュール32はさらに、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第3の基準信号を取得することに用いられ、
前記第2の処理モジュール33はさらに、前記第3の基準信号に基づいて収集された第3のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得することに用いられる。
前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることに用いられる出力モジュールをさらに含み、
ここで、前記第2のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む。
メモリ402は、プログラム記憶領域とデータ記憶領域を含んでもよく、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができ、データ記憶領域は、電子機器の使用によって作成されたデータを記憶することができる。また、メモリ402は、高速ランダムアクセスメモリだけでなく、少なくとも1つのディスクメモリデバイス、フラッシュメモリデバイス、または他の非一時的な固体メモリデバイスなどの非一時的なメモリも含んでもよい。いくつかの実施例では、メモリ402は、選択的に、プロセッサ401に対して遠隔に設定されたメモリを含み、これらの遠隔なメモリは、ネットワークを介して電子機器に接続することができる。上記のネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。
Claims (11)
- 音声認識方法であって、
所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することと、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することと、
前記第2の基準信号に基づいて、収集された第2のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することと、
前記認識すべき音声信号を認識することと、を含み、
前記の所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することは、
取得された第1の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第1のマイクロホン信号に対して、現在の時間帯の第1の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第1の基準信号、第1のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第1の遅延値を取得することと、の工程を繰り返し実行することを含み、
ここで、前記現在の時間帯の第1の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第1の遅延値で処理して得られるものである、
音声認識方法。 - 新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得し、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第3の基準信号を取得し、前記第3の基準信号に基づいて収集された第3のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得すること、をさらに含む請求項1に記載の方法。
- 前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することは、
前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第2の基準信号を取得することを含む、請求項1に記載の方法。 - 前記システムオーディオ信号を取得することの後に、
前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることをさらに含み、
ここで、前記第2のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む、請求項1から3のいずれか1項に記載の方法。 - 音声認識装置であって、
所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することに用いられる遅延推定モジュールと、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することに用いられる第1の処理モジュールと、
前記第2の基準信号に基づいて、収集された第2のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することに用いられる第2の処理モジュールと、
前記認識すべき音声信号を認識することに用いられる認識モジュールと、を含み、
前記遅延推定モジュールは、具体的に、取得された第1の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第1のマイクロホン信号に対して、現在の時間帯の第1の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第1の基準信号、第1のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第1の遅延値を取得することと、の工程を繰り返し実行することに用いられ、
ここで、前記現在の時間帯の第1の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第1の遅延値で処理して得られるものである、
音声認識装置。 - 前記遅延推定モジュールはさらに、新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得することに用いられ、
前記第1の処理モジュールはさらに、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第3の基準信号を取得することに用いられ、
前記第2の処理モジュールはさらに、前記第3の基準信号に基づいて、収集された第3のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することに用いられる、請求項5に記載の装置。 - 前記第1の処理モジュールは、具体的に、前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第2の基準信号を取得することに用いられる、請求項5に記載の装置。
- 前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることに用いられる出力モジュールをさらに含み、
ここで、前記第2のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む、請求項5から7のいずれか1項に記載の装置。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと接続するメモリと、を含み、
ここで、前記メモリは、前記少なくとも1つのプロセッサによって実行され得る命令を記憶し、前記命令を前記少なくとも1つのプロセッサが実行すると、請求項1から4のいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる、電子機器。 - コンピュータに請求項1から4のいずれか1項に記載の方法を実行させるコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体。
- プログラムであって、
コンピュータに請求項1から4のいずれか1項に記載の方法を実行させるためのコンピュータ命令からなるプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010185078.0A CN111402868B (zh) | 2020-03-17 | 2020-03-17 | 语音识别方法、装置、电子设备及计算机可读存储介质 |
CN202010185078.0 | 2020-03-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021149086A JP2021149086A (ja) | 2021-09-27 |
JP7209674B2 true JP7209674B2 (ja) | 2023-01-20 |
Family
ID=71430911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020173007A Active JP7209674B2 (ja) | 2020-03-17 | 2020-10-14 | 音声認識方法、音声認識装置、電子機器、コンピュータ可読記憶媒体及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210295857A1 (ja) |
EP (1) | EP3882914B1 (ja) |
JP (1) | JP7209674B2 (ja) |
CN (1) | CN111402868B (ja) |
DK (1) | DK3882914T3 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114303188A (zh) * | 2019-08-30 | 2022-04-08 | 杜比实验室特许公司 | 针对机器感知预调节音频 |
CN112583970A (zh) * | 2020-12-04 | 2021-03-30 | 斑马网络技术有限公司 | 一种车载蓝牙回声消除方法及装置、车载终端、存储介质 |
CN113364840B (zh) * | 2021-05-26 | 2022-12-23 | 阿波罗智联(北京)科技有限公司 | 用于智能后视镜的时延估计方法、装置和电子设备 |
CN113382081B (zh) * | 2021-06-28 | 2023-04-07 | 阿波罗智联(北京)科技有限公司 | 时延估计调整方法、装置、设备以及存储介质 |
CN113674739B (zh) * | 2021-07-20 | 2023-12-19 | 北京字节跳动网络技术有限公司 | 一种时间确定方法、装置、设备及存储介质 |
CN114039890B (zh) * | 2021-11-04 | 2023-01-31 | 国家工业信息安全发展研究中心 | 一种语音识别时延测试方法、系统及存储介质 |
CN117880696A (zh) * | 2022-10-12 | 2024-04-12 | 广州开得联软件技术有限公司 | 混音方法、装置、计算机设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006157499A (ja) | 2004-11-30 | 2006-06-15 | Matsushita Electric Ind Co Ltd | 音響エコーキャンセラとそれを用いたハンズフリー電話及び音響エコーキャンセル方法 |
WO2014002128A1 (ja) | 2012-06-25 | 2014-01-03 | 三菱電機株式会社 | 車載情報装置 |
US20190130929A1 (en) | 2017-11-02 | 2019-05-02 | Microsemi Semiconductor (U.S.) Inc. | Acoustic delay measurement using adaptive filter with programmable delay buffer |
CN110166882A (zh) | 2018-09-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 远场拾音设备、及远场拾音设备中采集人声信号的方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5761638A (en) * | 1995-03-17 | 1998-06-02 | Us West Inc | Telephone network apparatus and method using echo delay and attenuation |
US8462936B2 (en) * | 2011-02-28 | 2013-06-11 | Qnx Software Systems Limited | Adaptive delay compensation for acoustic echo cancellation |
CN103516921A (zh) * | 2012-06-28 | 2014-01-15 | 杜比实验室特许公司 | 通过隐藏音频信号的回声控制 |
US9497544B2 (en) * | 2012-07-02 | 2016-11-15 | Qualcomm Incorporated | Systems and methods for surround sound echo reduction |
BR112015007306B1 (pt) * | 2012-10-23 | 2022-10-18 | Interactive Intelligence , Inc | Método de cancelamento de eco acústico |
EP3171613A1 (en) * | 2015-11-20 | 2017-05-24 | Harman Becker Automotive Systems GmbH | Audio enhancement |
CN105847611B (zh) * | 2016-03-21 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种回声时延检测方法、回声消除芯片及终端设备 |
CN105872156B (zh) * | 2016-05-25 | 2019-02-12 | 腾讯科技(深圳)有限公司 | 一种回声时延跟踪方法及装置 |
WO2018006856A1 (zh) * | 2016-07-07 | 2018-01-11 | 腾讯科技(深圳)有限公司 | 一种回声消除的方法及终端、计算机存储介质 |
CN107689228B (zh) * | 2016-08-04 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及终端 |
US20180190306A1 (en) * | 2017-01-04 | 2018-07-05 | 2236008 Ontario Inc. | Voice interface and vocal entertainment system |
US10546581B1 (en) * | 2017-09-08 | 2020-01-28 | Amazon Technologies, Inc. | Synchronization of inbound and outbound audio in a heterogeneous echo cancellation system |
CN107610713B (zh) * | 2017-10-23 | 2022-02-01 | 科大讯飞股份有限公司 | 基于时延估计的回声消除方法及装置 |
US10325613B1 (en) * | 2018-07-12 | 2019-06-18 | Microsemi Semiconductor Ulc | Acoustic delay estimation |
-
2020
- 2020-03-17 CN CN202010185078.0A patent/CN111402868B/zh active Active
- 2020-09-28 US US17/035,548 patent/US20210295857A1/en active Pending
- 2020-10-14 EP EP20201839.6A patent/EP3882914B1/en active Active
- 2020-10-14 DK DK20201839.6T patent/DK3882914T3/da active
- 2020-10-14 JP JP2020173007A patent/JP7209674B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006157499A (ja) | 2004-11-30 | 2006-06-15 | Matsushita Electric Ind Co Ltd | 音響エコーキャンセラとそれを用いたハンズフリー電話及び音響エコーキャンセル方法 |
WO2014002128A1 (ja) | 2012-06-25 | 2014-01-03 | 三菱電機株式会社 | 車載情報装置 |
US20190130929A1 (en) | 2017-11-02 | 2019-05-02 | Microsemi Semiconductor (U.S.) Inc. | Acoustic delay measurement using adaptive filter with programmable delay buffer |
CN110166882A (zh) | 2018-09-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 远场拾音设备、及远场拾音设备中采集人声信号的方法 |
Also Published As
Publication number | Publication date |
---|---|
DK3882914T3 (da) | 2022-09-05 |
JP2021149086A (ja) | 2021-09-27 |
CN111402868A (zh) | 2020-07-10 |
CN111402868B (zh) | 2023-10-24 |
EP3882914B1 (en) | 2022-08-10 |
EP3882914A1 (en) | 2021-09-22 |
US20210295857A1 (en) | 2021-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7209674B2 (ja) | 音声認識方法、音声認識装置、電子機器、コンピュータ可読記憶媒体及びプログラム | |
EP2987312B1 (en) | System and method for acoustic echo cancellation | |
US10468020B2 (en) | Systems and methods for removing interference for audio pattern recognition | |
JP2022006159A (ja) | 情報を処理するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN108074582B (zh) | 一种噪声抑制信噪比估计方法和用户终端 | |
CN112489668B (zh) | 去混响方法、装置、电子设备和存储介质 | |
CN112466318B (zh) | 语音处理方法、装置及语音处理模型的生成方法、装置 | |
CN104778950A (zh) | 一种基于回声消除的麦克风信号延时补偿控制方法 | |
KR102331793B1 (ko) | 구조화된 오디오 출력을 사용하여 재생 감지 및/또는 무선 스피커에서 비정렬된 재생에 적응 | |
EP2710591B1 (en) | Reducing noise pumping due to noise suppression and echo control interaction | |
CN111383661B (zh) | 基于车载多音区的音区判决方法、装置、设备和介质 | |
AU2014357638A1 (en) | Multi-path audio processing | |
JP7391063B2 (ja) | 音声出力方法、音声出力装置、電子機器及び記憶媒体 | |
CN112382281B (zh) | 一种语音识别方法、装置、电子设备和可读存储介质 | |
JP2022028670A (ja) | 表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN111724805A (zh) | 用于处理信息的方法和装置 | |
KR102436302B1 (ko) | 네거티브 지연 시간 검출 방법, 장치, 전자 기기 및 저장 매체 | |
CN113593619B (zh) | 用于录制音频的方法、装置、设备和介质 | |
EP4056424B1 (en) | Audio signal playback delay estimation for smart rearview mirror | |
CN116009809A (zh) | 汽车播放音频的处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201014 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20211101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220913 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20220921 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7209674 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |