JP7209674B2 - 音声認識方法、音声認識装置、電子機器、コンピュータ可読記憶媒体及びプログラム - Google Patents

音声認識方法、音声認識装置、電子機器、コンピュータ可読記憶媒体及びプログラム Download PDF

Info

Publication number
JP7209674B2
JP7209674B2 JP2020173007A JP2020173007A JP7209674B2 JP 7209674 B2 JP7209674 B2 JP 7209674B2 JP 2020173007 A JP2020173007 A JP 2020173007A JP 2020173007 A JP2020173007 A JP 2020173007A JP 7209674 B2 JP7209674 B2 JP 7209674B2
Authority
JP
Japan
Prior art keywords
signal
audio signal
delay value
reference signal
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020173007A
Other languages
English (en)
Other versions
JP2021149086A (ja
Inventor
能鈞 欧陽
峻華 許
政斌 宋
丹青 楊
剛 徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2021149086A publication Critical patent/JP2021149086A/ja
Application granted granted Critical
Publication of JP7209674B2 publication Critical patent/JP7209674B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Mechanical Engineering (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本願は音声認識技術の分野に関し、特に音声認識方法、音声認識装置、電子機器、コンピュータ可読記憶媒体及びプログラムに関する。
従来のメーカーにより提供する車載用電子機器は、旅行の快適性に対する要求が高まっているため、その要求に応えられなくなり、車と機械の相互接続は、ナビゲーション、音楽、音声等の旅行ニーズを効果的に補うことができるため、近年、車と機械の相互接続が受け入れられている。しかし、車と機械の相互接続の場合、車載端末がオーディオを再生する際の伝送遅延が大きいため、従来の入力音声を認識する際のノイズ低減方式では、ノイズ低減の要求を満たすことができず、音声認識効果が低い。
本願は、従来技術の音声認識効果が低いという問題点を解決するために、音声認識方法、音声認識装置、電子機器、及びコンピュータ可読記憶媒体を提供する。
上記の技術問題を解決するために、本願は次のように実現される。
第1の態様では、本願の実施例が提供する音声認識方法は、
所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することと、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することと、
前記第2の基準信号に基づいて、収集された第2のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することと、
前記認識すべき音声信号を認識することと、を含む。
これにより、遅延推定により取得された遅延値を利用して、ノイズキャンセリング処理用の基準信号を取得することができ、よって、基準信号と対応するマイクロホン信号の整列が保証され、マイクロホン信号のノイズキャンセリング処理効果が向上し、該マイクロホン信号における音声信号の認識効果が向上する。
選択的に、前記の所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することは、
取得された第1の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第1のマイクロホン信号に対して、現在の時間帯の第1の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第1の基準信号、第1のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第1の遅延値を取得することと、の工程を繰り返し実行することを含み、
ここで、前記現在の時間帯の第1の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第1の遅延値で処理して得られるものである。
これにより、上記工程の繰り返しにより、安定した精度の高い遅延値を取得し得、よって、後に取得された基準信号と対応するマイクロホン信号との整列が保証される。
選択的に、前記方法は、
新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得し、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第3の基準信号を取得し、前記第3の基準信号に基づいて収集された第3のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得すること、をさらに含む。
これにより、遅延値の変化に伴う適応的な新たな遅延値の迅速な取得が可能となり、後に取得された基準信号と対応するマイクロホン信号との整列が保証される。
選択的に、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することは、
前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第2の基準信号を取得することを含む。
これにより、バッファリングプロセスにより、必要な基準信号を簡単かつ容易に取得できる。
選択的に、前記システムオーディオ信号を取得することの後に、前記方法は、
前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることをさらに含み、
ここで、前記第2のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む。
これにより、本願の手段によって、車載端末がオーディオ再生を行う際の伝送遅延が大きい車と機械の相互接続の場合でも、入力音声を認識する際のノイズ低減の要求を満たすことと、音声認識効果を高めることとができる。
第2の態様では、本願の実施例が提供する音声認識装置は、
所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することに用いられる遅延推定モジュールと、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することに用いられる第1の処理モジュールと、
前記第2の基準信号に基づいて、収集された第2のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することに用いられる第2の処理モジュールと、
前記認識すべき音声信号を認識することに用いられる認識モジュールとを含む。
選択的に、前記遅延モジュールは具体的に、取得された第1の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第1のマイクロホン信号に対して、現在の時間帯の第1の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第1の基準信号、第1のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第1の遅延値を取得することと、の工程を繰り返し実行することに用いられ、
ここで、前記現在の時間帯の第1の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第1の遅延値で処理して得られるものである。
選択的に、前記遅延推定モジュールはさらに、新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得することに用いられ、
前記第1の処理モジュールはさらに、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第3の基準信号を取得することに用いられ、
前記第2の処理モジュールはさらに、前記第3の基準信号に基づいて収集された第3のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得することに用いられる。
選択的に、前記第1の処理モジュールは、具体的に、前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第2の基準信号を取得することに用いられる。
選択的に、前記装置は、
前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることに用いられる出力モジュールをさらに含み、
ここで、前記第2のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む。
第3の態様では、本願の実施例が提供する電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと接続するメモリとを含み、
ここで、前記メモリは、前記少なくとも1つのプロセッサによって実行され得る命令を記憶し、前記命令を前記少なくとも1つのプロセッサが実行すると、上記の音声認識方法を前記少なくとも1つのプロセッサに実行させる。
第4の態様では、本願の実施例が提供する非一時的なコンピュータ可読記憶媒体は、コンピュータに上記の音声認識方法を実行させるコンピュータ命令を記憶する。
本出願の1つの実施例には、遅延推定により取得された遅延値を利用して、ノイズキャンセリング処理用の基準信号を取得することができ、これにより、基準信号と対応するマイクロホン信号の整列が保証され、マイクロホン信号のノイズキャンセリング処理効果が向上し、該マイクロホン信号における音声信号の認識効果が向上するというメリット又は有益な効果を有する。所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することと、システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することと、前記第2の基準信号に基づいて、収集された第2のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することと、前記認識すべき音声信号を認識することとの技術手段を採用することにより、従来技術における音声認識の効果が低いという問題を解消し、音声認識効果を向上させる技術的効果を達成する。
上記の選択的な方式の他の効果は、以下で特定の実施例と併せて説明する。
図面は、本願の解決手段をより良く理解するために使用され、本願を限定するものではない。そのうち、
本願の実施例に係る音声認識方法のフローチャートである。 本願の具体例における音声認識工程のフレーム図である。 本願の実施例に係る音声認識方法を実現するための音声認識装置のブロック図である。 本願の実施例に係る音声認識方法を実現するための電子機器のブロック図である。
以下、本願の例示的な実施例を図面に基づいて説明するが、理解を容易にするために、本願の実施例の詳細な内容は含まれ、それが例示的なものにすぎないと理解されたい。したがって、当業者は、本開示の範囲及び趣旨から逸脱することなく、本明細書に記載された実施例に様々な変更及び修正を加えることができることを理解すべきである。また、説明の明確化及び簡略化のため、以下の記載では、周知の機能及び構成についての記載を省略する。
本出願の明細書及び特許請求の範囲における「第1」、「第2」等の用語は、類似の対象を区別するために使用されるものであり、特定の順序又は次序を記述するために使用される必要はない。そのように使用されるデータは、本明細書に記載される本開示の実施例が、本明細書に示されるか、または記載されるもの以外の順序で実施され得るように、適切に交換され得ることが理解されるべきである。さらに、「含む」および「有する」という用語ならびにそれらの任意の変形は、非排他的な包含をカバーすることを意図しており、例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品または機器は、必ずしも明確に列挙されたそれらのステップまたはユニットに限定されるものではなく、明確に列挙されていないまたはそれらのプロセス、方法、製品または機器に固有の他のステップまたはユニットを含み得る。
図1は、本願の実施例による電子機器に適用される音声認識方法のフローチャートであり、図1に示すように、該方法は、
ステップ101:所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することを含む。
本実施例において、該電子機器は、後付けの車載機器、例えばスマートバックミラー、スマートハンドル、スマートフロントビューミラー等を選択でき、車載機器に接続される携帯電話、iPad(登録商標)、スマートハンドリング等の端末機器を選択でき、これらに制限されない。
このステップにおける遅延推定の工程は、主に電子機器内の中央処理装置(Central Processing Unit、CPU)によって、すなわちソフトウェアの方式で実現されることができる。このようにCPUの強力な演算能力により、遅延値推定を高速に実現することができる。該所定時間帯は、予め設定された時間帯であってもよい。この遅延値は、第1の基準信号に対応する第1のマイクロホン信号内の信号の、第1の基準信号に対する時間差値として理解され得る。
ステップ102:システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することを該方法はさらに含む。
この実施例では、該システムオーディオ信号は、電子機器において出力されるべきまたは再生されるべき元のオーディオ信号として理解され得る。例えば、電子機器は、ある車載端末に接続され、電子機器内のメインシステムオンチップ(System on Chip、SoC)は、コーデックCodecから出力されたシステムオーディオ信号を収集し、対応するインターフェース(例えば、AudioRecordインターフェース)をソフトウェア層でパッケージ化することにより、アプリケーション層(App層)が該インターフェースを介してシステムオーディオ信号を取得し、該システムオーディオ信号を、該電子機器と車載端末との間の接続チャネル(例えば、USBチャネル)を介して車載端末に伝送し、そして再生することができ、ここで、メインSoCは、CPUと理解され得る。
ある実施例では、遅延値を用いてシステムオーディオ信号を処理して第2の基準信号を取得する際に、システムオーディオ信号を該遅延値に応じて直接バッファリングしてから第2の基準信号を取得することができる。このように、バッファリングプロセスにより、所望の基準信号を簡単に取得し得る。なお、この実施例なら、上記の方式以外は、該遅延値を用いてシステムオーディオ信号の時間を調整するなど他の方式で第2の基準信号を取得するようにしてもよい。
ステップ103:前記第2の基準信号に基づいて、収集された第2のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することを該方法は更に含む。
本実施例では、このステップにおけるノイズキャンセリング処理は、具体的にはエコーノイズキャンセリング処理、すなわちエコーによるノイズの除去である。選択的に、このステップのノイズキャンセリングは、電子機器のDigital Signal Processing(DSP)、すなわちハードノイズ低減によって実現され得る。このように、ソフトウェア方式に基づいて遅延推定を実現し、ソフトウェア・ハードウェアに基づいてノイズ低減を実現し得、すなわち、ソフトウェア層(SoC層)による遅延推定の実現とハードウェア層によるノイズキャンセリングの実現。電力の消費を減らすとともに、ソフトウェアメモリが巨大である特性を利用することにより、ソフトウェアとハードウェアのそれぞれの利点を活用する。
ある実施形態では、上記のシステムオーディオ信号を取得した後、電子機器はさらに、該システムオーディオ信号を車載端末に出力し、車載端末がシステムオーディオ信号を再生できるようにすることもできる。この場合、収集される第2のマイクロホン信号には、認識すべき音声信号に加えて、マイクによって収集される、該車載端末によって再生されるオーディオ信号が含まれる。
ステップ104:前記認識すべき音声信号を認識することを該方法がさらに含む。
選択的に、認識すべき音声信号を認識する場合、認識すべき音声信号を音声認識エンジンに入力して認識してもよい。音声認識の具体的な方式なら、従来の方式を採用してもよく、本実施例はこれに限定されるものではない。
本出願の実施例の音声認識方法は、遅延推定により取得された遅延値を利用して、ノイズキャンセリング処理用の基準信号を取得することができ、これにより、基準信号と対応するマイクロホン信号の整列が保証され、マイクロホン信号のノイズキャンセリング処理効果が向上し、該マイクロホン信号における音声信号の認識効果が向上する。
本願の実施例では、上記のステップ101における遅延推定の工程は、取得された第1の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第1のマイクロホン信号に対して、現在の時間帯の第1の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第1の基準信号、第1のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第1の遅延値を取得することと、の工程を繰り返し実行することであってもよく、
ここで、前記現在の時間帯の第1の基準信号は、現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第1の遅延値に応じて処理(例えば、バッファリング)して得られるものである。第1の遅延値は、対応するシステムオーディオ信号に対する現在時間帯内の第1のマイクロホン信号の到着時間差であり、現在の時間帯内の第1の基準信号と、第1のマイクロホン信号とノイズキャンセリング後の信号との比較分析に基づいて得られるものである。
前記現在の時間帯は、現在の遅延推定を行う時間帯として理解され得る。遅延推定の工程を繰り返し実行するに伴い、取得された遅延値は収束し続けていき、安定に近づくようになる。上記の所定の収束条件は、第1の遅延値が所定の閾値により小さいことであり得、所定の収束条件を満たすその第1の遅延値は推定による遅延値である。該所定の閾値は、例えば、20msである。
なお、新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得し、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第3の基準信号を取得し、前記第3の基準信号に基づいて収集された第3のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得する。これにより、遅延値の変化に伴う適応的な新たな遅延値の迅速な取得が可能となり、後に取得された基準信号と対応するマイクロホン信号との整列が保証される。
選択的に、新たな遅延値が発生するか否かの検出は以下のようにしてもよい。認識すべき音声信号、第2の基準信号および第2のマイクロホン信号に基づいて遅延を推定し、この推定した遅延値が所定の収束条件を満たすか否かを検出し、満たす場合には新たな遅延値が発生していなく、そうでない場合には新たな遅延値が発生した。または、推定した遅延値に基づいてノイズキャンセリング処理を行った後の信号の歪みの程度を検出し、歪みが大きい場合には新たな遅延値が発生して、そうでない場合には新たな遅延値が発生していない。
次に、図2を参照して、本願の具体例における音声認識工程について説明する。
本願の具体例に係るスマートバックミラーと車載端末は、図2に示すように、USBを介して接続され、スマートバックミラーと車載端末の両方に、相互接続を実現するためのアプレット(例えば、CarLife)がインストールされ、スマートバックミラーは、(楽曲のオーディオ信号などの)オーディオ信号を車載端末に出力し、車載端末にオーディオ信号を再生させる。車載端末がオーディオ信号を再生している間に、ユーザがスマートバックミラーに音声制御信号を入力して、車載端末が再生する曲を調整する場合、スマートバックミラーの音声認識工程は、
1)マイクロホンアレイが信号を収集し、ここで、2つのインターフェースに対応する信号、すなわち、Mic0信号及びMic1信号は、ユーザの入力した音声制御信号及び車載端末の再生しているオーディオ信号を少なくとも含み、DSPは、マイクロホン信号を収集した後、基準信号(対応するシステムオーディオ信号をバッファリングした後得られるものである、メインSoCから入力されるRef信号)に基づいてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号(Line out信号、実質的にはユーザの入力した音声制御信号)を取得することと、
2)DSPは、Mic0信号、Mic1信号、Ref信号、及びLine out信号を下記の表1の形式で2チャンネルのI2S信号に合成し出力し、I2SのTDM(Time-division multiplexing)の出力フォーマットをサポートし得ることと、
Figure 0007209674000001
3)メインSoCは、DSPの出力するI2S信号を受信し、App層がDSPの出力するI2S信号を取得するように、対応するAudioRecordインターフェースをソフトウェア層でパッケージ化することと、
4)同様に、メインSoCは、Codecの出力したシステムオーディオ信号を収集して、App層がシステムオーディオ信号を取得するように、対応するAudioRecordインターフェースをソフトウェア層でパッケージ化し、このシステムオーディオ信号をUSBチャネルを介して車載端末に伝送して再生することと、
5)App層は、DSPの出力したI2S信号を取得した後、原信号、すなわちMic0信号、Mic1信号、Ref信号、及びLine out信号を、プロトコルに従って解析して、遅延推定を行う。すなわち、対応するシステムオーディオ信号に対するマイクロホン信号の到着時間差を推定して、(遅延値とも呼ぶことができる)遅延推定値を得ると同時に、このLine out信号を、直接、音声認識エンジンに入力して、認識することができることと、
6)該遅延推定値に対しては、システム層が、該遅延推定値を受信するためのインタフェースを解放し、該遅延推定値に基づいてDSPに入力する基準信号を調整し、例えば、ROM層に該遅延推定値を渡し、該ROM層が、現在のシステムオーディオ信号を該遅延推定値に応じて自動的にバッファリングして、基準信号としてDSPに入力することと、を含む。
なお、上記の遅延推定工程は、制御信号により、取得された遅延推定値が所定の収束条件を満たすまで、例えば20 ms以下に収束するまで、繰り返し実行される。このとき、基準信号とマイク信号とが整列し、エコーノイズキャンセリング要求を満たすことを示し、新たな遅延推定値が発生するまで遅延推定値の登録を自動的に停止するようにしてもよい。また、遅延推定値の登録を停止する場合には、現在登録されている遅延推定値に基づいてDSPに入力する基準信号を調整することにより、ユーザの入力した音声制御信号の認識が実現される。これにより、車載端末がオーディオ再生を行う際の伝送遅延が大きく不安定な車と機械の相互接続の場合でも、入力音声を認識する際のノイズ低減の要求を満たすことと、音声認識効果を向上させることとができる。
図3は、本願の実施例に係る音声認識装置の構成概略図であり、図3に示すように、該音声認識装置30は、
所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することに用いられる遅延推定モジュール31と、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することに用いられる第1の処理モジュール32と、
前記第2の基準信号に基づいて、収集された第2のマイクロホン信号に対して処理ノイズキャンセリングを行い、認識すべき音声信号を取得することに用いられる第2の処理モジュール33と、
前記認識すべき音声信号を認識することに用いられる認識モジュール34と、を含む。
選択的に、前記遅延推定モジュール31は具体的に、取得された第1の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第1のマイクロホン信号に対して、現在の時間帯の第1の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第1の基準信号、第1のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第1の遅延値を取得することと、の工程を繰り返し実行することに用いられ、
ここで、前記現在の時間帯の第1の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第1の遅延値で処理して得られるものである。
選択的に、前記遅延推定モジュール31はさらに、新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得することに用いられ、
前記第1の処理モジュール32はさらに、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第3の基準信号を取得することに用いられ、
前記第2の処理モジュール33はさらに、前記第3の基準信号に基づいて収集された第3のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得することに用いられる。
選択的に、前記第1の処理モジュール32は、具体的に、前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第2の基準信号を取得することに用いられる。
選択的に、前記装置は、
前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることに用いられる出力モジュールをさらに含み、
ここで、前記第2のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む。
なお、本願の実施例に係る音声認識装置30は、上述した図1に示す方法の実施例において各工程を実現することができ、同様の効果を奏することができる。重複を避けるため、ここで説明を省略する。
本願の実施例によれば、本願は、電子機器及び可読記憶媒体をさらに提供する。
図4は、本願の実施例による音声認識方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA(Personal Digital Assistant)、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はまた、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティング装置など、様々な形態のモバイル装置を表し得る。本明細書に示される部品、それらの接続および関係、およびそれらの機能は、例のみとし、本明細書に記載されるおよび/または要求された本願の実現を制限することを意図していない。
図4に示すように、電子機器は、1つ以上のプロセッサ401、メモリ402、および高速インタフェースおよび低速インタフェースを含む各コンポーネントを接続するためのインタフェースを含む。個々のコンポーネントは、異なるバスを使用して相互に接続され、しかも、共通マザーボードにインストールされたり、必要に応じて他の方法でインストールされたりすることできる。プロセッサは、外部入力・出力装置(例えば、インターフェイスに結合された表示機器など)にGUIのグラフィック情報を表示するためにメモリに記憶された命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスは、複数のメモリと共に使用され得る。同様に、複数の電子機器を接続することができ、個々の機器は、必要な操作(例えば、サーバアレイ、1セットのブレードサーバ、またはマルチプロセッサシステム)の一部を提供する。図4には、プロセッサ401を例とする。
メモリ402は、本願に提供される非一時的なコンピュータ可読記憶媒体である。ここで、前記メモリは、少なくとも1つのプロセッサによって実行できる命令を記憶し、前記少なくとも1つのプロセッサが本願の提供する音声認識方法を実行するようにする。本願の非一時的なコンピュータ可読記憶媒体は、本願によって提供される音声認識方法をコンピュータに実行させるコンピュータ命令を記憶する。
メモリ402は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、および本願実施例における音声認識方法に対応するプログラム命令/モジュール(例えば、図3に示す遅延推定モジュール31、第1の処理モジュール32、第2の処理モジュール33および認識モジュール34)を記憶するために使用され得る。プロセッサ401は、メモリ402に記憶された非一時的なソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの各種の機能アプリケーションおよびデータ処理を行い、すなわち、上記方法の実施例における音声認識方法を実現する。
メモリ402は、プログラム記憶領域とデータ記憶領域を含んでもよく、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができ、データ記憶領域は、電子機器の使用によって作成されたデータを記憶することができる。また、メモリ402は、高速ランダムアクセスメモリだけでなく、少なくとも1つのディスクメモリデバイス、フラッシュメモリデバイス、または他の非一時的な固体メモリデバイスなどの非一時的なメモリも含んでもよい。いくつかの実施例では、メモリ402は、選択的に、プロセッサ401に対して遠隔に設定されたメモリを含み、これらの遠隔なメモリは、ネットワークを介して電子機器に接続することができる。上記のネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。
音声認識方法における電子機器は、入力装置403および出力装置404をさらに含んでもよい。プロセッサ401、メモリ402、入力装置403、及び出力装置404は、バスまたは他の方式で接続され得、図4は、バスによる接続を例とする。
入力装置403は、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック等の入力装置であり、入力される数字や文字情報を受信し、音声認識方法における電子機器のユーザ設定や機能制御に関するキー信号入力を生成し得る。出力装置404は、表示機器、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)等を含んでもよい。該表示機器としては、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、プラズマディスプレイを含んでもよいが、それらに限定されない。いくつかの実施形態では、表示機器は、タッチパネルであってもよい。
ここで説明するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現されることができる。これらのさまざまな実施形態には、1つ以上のコンピュータプログラムで実施され、該1つ以上のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈でき、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力ユニットからデータおよび命令を受信し、データおよび命令をこのストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置に伝送し得る専用または汎用のプログラマブルプロセッサであってもよい。
これらのコンピューティングプログラム (プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)には、プログラマブルプロセッサのマシン命令が含まれ、高度なプロセスおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/マシン言語を使用して実施され得る。本明細書で使用される「機械可読記憶媒体」および「コンピュータ可読記憶媒体」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、機器、および/または装置(例えば、ディスク、光ディスク、メモリ、プログラマブル論理装置(PLD))を指し、機械可読信号とする機械命令を受け取る機械読み取り可能な媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
ユーザとの対話を提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶表示ディスプレー)モニタ)、およびキーボードおよびポインティング装置(例えば、マウスまたはトラックボール)を有し、ユーザは、該キーボードおよび該ポインティング装置を介してコンピュータに入力を提供することができる。他の種類の装置もユーザーとの対話を提供するために使用され得、たとえば、ユーザーに提供されるフィードバックは、(視覚フィードバック、聴覚フィードバック、または触覚フィードバックなどの)任意の形式の感覚フィードバックであり、且つ(サウンド入力、音声入力、触覚入力を含む)任意の形式で ユーザーからの入力を受信し得る。
ここで説明するシステムおよび技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(データサーバーとして)、またはミドルウェアコンポーネントを含む(アプリケーションサーバーなどの)コンピューティングシステム、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザーインターフェイスまたはウェブブラウザを有するユーザーコンピュータなどのコンピューティングシステムであって、ユーザーは、該グラフィカルユーザーインターフェイスまたは該ウェブブラウザを介して、ここで説明するシステムおよび技術の実施方式と対話できるコンピューティングシステム)で、または、バックグラウンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施され得る。システムのコンポーネントは、(通信ネットワークなどの)任意の形式または媒体のデジタルデータ通信によって相互に接続され得る。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネットなどを含む。
コンピュータシステムには、クライアントとサーバーを含んでもよい。クライアントとサーバーは、通常、互いから遠く離れており、通信ネットワークを介して対話する。クライアントとサーバーの関係は、対応するコンピューターで互いにクライアント・サーバー関係を有するコンピュータプログラムを実行することにより、生成される。
本出願の実施例の技術手段は、遅延推定により取得された遅延値を利用して、ノイズキャンセリング処理用の基準信号を取得することができ、これにより、基準信号と対応するマイクロホン信号の整列が保証され、マイクロホン信号のノイズキャンセリング処理効果が向上し、該マイクロホン信号における音声信号の認識効果が向上する。
上記のプロセスの様々な形式のフローの使用が可能であれば、ステップの並べ替え、追加、または削除も可能である。例えば、本出願に記載されている各ステップは、本願によって開示される技術手段の所望の結果が達成される限り、並行の次序、逐次的な次序、または異なる次序で実施することができ、本明細書では制限されない。
上記の具体的な実施形態は、本願の保護範囲の制限を構成するものではない。当業者にとっては、設計要件およびその他の要因に基づいて、様々な変更、コンビネーション、サブコンビネーションおよび置換が可能であり得る。本願の精神および原則に基づく変更、同等の取り換えおよび改良は、本願の保護範囲に含まれるものとする。

Claims (11)

  1. 音声認識方法であって、
    所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することと、
    システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することと、
    前記第2の基準信号に基づいて、収集された第2のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することと、
    前記認識すべき音声信号を認識することと、を含み、
    前記の所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することは、
    取得された第1の遅延値が所定の収束条件を満たすまで、
    現在の時間帯に収集される第1のマイクロホン信号に対して、現在の時間帯の第1の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
    前記現在の時間帯内の第1の基準信号、第1のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第1の遅延値を取得することと、の工程を繰り返し実行することを含み、
    ここで、前記現在の時間帯の第1の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第1の遅延値で処理して得られるものである、
    音声認識方法。
  2. 新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得し、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第3の基準信号を取得し、前記第3の基準信号に基づいて収集された第3のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得すること、をさらに含む請求項に記載の方法。
  3. 前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することは、
    前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第2の基準信号を取得することを含む、請求項1に記載の方法。
  4. 前記システムオーディオ信号を取得することの後に、
    前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることをさらに含み、
    ここで、前記第2のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む、請求項1からのいずれか1項に記載の方法。
  5. 音声認識装置であって、
    所定の時間帯内の第1のマイクロホン信号および第1の基準信号に基づいて、遅延推定を行い、遅延値を取得することに用いられる遅延推定モジュールと、
    システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第2の基準信号を取得することに用いられる第1の処理モジュールと、
    前記第2の基準信号に基づいて、収集された第2のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することに用いられる第2の処理モジュールと、
    前記認識すべき音声信号を認識することに用いられる認識モジュールと、を含み、
    前記遅延推定モジュールは、具体的に、取得された第1の遅延値が所定の収束条件を満たすまで、
    現在の時間帯に収集される第1のマイクロホン信号に対して、現在の時間帯の第1の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
    前記現在の時間帯内の第1の基準信号、第1のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第1の遅延値を取得することと、の工程を繰り返し実行することに用いられ、
    ここで、前記現在の時間帯の第1の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第1の遅延値で処理して得られるものである、
    音声認識装置。
  6. 前記遅延推定モジュールはさらに、新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得することに用いられ、
    前記第1の処理モジュールはさらに、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第3の基準信号を取得することに用いられ、
    前記第2の処理モジュールはさらに、前記第3の基準信号に基づいて、収集された第3のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することに用いられる、請求項に記載の装置。
  7. 前記第1の処理モジュールは、具体的に、前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第2の基準信号を取得することに用いられる、請求項に記載の装置。
  8. 前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることに用いられる出力モジュールをさらに含み、
    ここで、前記第2のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む、請求項からのいずれか1項に記載の装置。
  9. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと接続するメモリと、を含み、
    ここで、前記メモリは、前記少なくとも1つのプロセッサによって実行され得る命令を記憶し、前記命令を前記少なくとも1つのプロセッサが実行すると、請求項1からのいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる、電子機器。
  10. コンピュータに請求項1からのいずれか1項に記載の方法を実行させるコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体。
  11. プログラムであって、
    コンピュータに請求項1からのいずれか1項に記載の方法を実行させるためのコンピュータ命令からなるプログラム。
JP2020173007A 2020-03-17 2020-10-14 音声認識方法、音声認識装置、電子機器、コンピュータ可読記憶媒体及びプログラム Active JP7209674B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010185078.0A CN111402868B (zh) 2020-03-17 2020-03-17 语音识别方法、装置、电子设备及计算机可读存储介质
CN202010185078.0 2020-03-17

Publications (2)

Publication Number Publication Date
JP2021149086A JP2021149086A (ja) 2021-09-27
JP7209674B2 true JP7209674B2 (ja) 2023-01-20

Family

ID=71430911

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020173007A Active JP7209674B2 (ja) 2020-03-17 2020-10-14 音声認識方法、音声認識装置、電子機器、コンピュータ可読記憶媒体及びプログラム

Country Status (5)

Country Link
US (1) US20210295857A1 (ja)
EP (1) EP3882914B1 (ja)
JP (1) JP7209674B2 (ja)
CN (1) CN111402868B (ja)
DK (1) DK3882914T3 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114303188A (zh) * 2019-08-30 2022-04-08 杜比实验室特许公司 针对机器感知预调节音频
CN112583970A (zh) * 2020-12-04 2021-03-30 斑马网络技术有限公司 一种车载蓝牙回声消除方法及装置、车载终端、存储介质
CN113364840B (zh) * 2021-05-26 2022-12-23 阿波罗智联(北京)科技有限公司 用于智能后视镜的时延估计方法、装置和电子设备
CN113382081B (zh) * 2021-06-28 2023-04-07 阿波罗智联(北京)科技有限公司 时延估计调整方法、装置、设备以及存储介质
CN113674739B (zh) * 2021-07-20 2023-12-19 北京字节跳动网络技术有限公司 一种时间确定方法、装置、设备及存储介质
CN114039890B (zh) * 2021-11-04 2023-01-31 国家工业信息安全发展研究中心 一种语音识别时延测试方法、系统及存储介质
CN117880696A (zh) * 2022-10-12 2024-04-12 广州开得联软件技术有限公司 混音方法、装置、计算机设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006157499A (ja) 2004-11-30 2006-06-15 Matsushita Electric Ind Co Ltd 音響エコーキャンセラとそれを用いたハンズフリー電話及び音響エコーキャンセル方法
WO2014002128A1 (ja) 2012-06-25 2014-01-03 三菱電機株式会社 車載情報装置
US20190130929A1 (en) 2017-11-02 2019-05-02 Microsemi Semiconductor (U.S.) Inc. Acoustic delay measurement using adaptive filter with programmable delay buffer
CN110166882A (zh) 2018-09-29 2019-08-23 腾讯科技(深圳)有限公司 远场拾音设备、及远场拾音设备中采集人声信号的方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761638A (en) * 1995-03-17 1998-06-02 Us West Inc Telephone network apparatus and method using echo delay and attenuation
US8462936B2 (en) * 2011-02-28 2013-06-11 Qnx Software Systems Limited Adaptive delay compensation for acoustic echo cancellation
CN103516921A (zh) * 2012-06-28 2014-01-15 杜比实验室特许公司 通过隐藏音频信号的回声控制
US9497544B2 (en) * 2012-07-02 2016-11-15 Qualcomm Incorporated Systems and methods for surround sound echo reduction
BR112015007306B1 (pt) * 2012-10-23 2022-10-18 Interactive Intelligence , Inc Método de cancelamento de eco acústico
EP3171613A1 (en) * 2015-11-20 2017-05-24 Harman Becker Automotive Systems GmbH Audio enhancement
CN105847611B (zh) * 2016-03-21 2020-02-11 腾讯科技(深圳)有限公司 一种回声时延检测方法、回声消除芯片及终端设备
CN105872156B (zh) * 2016-05-25 2019-02-12 腾讯科技(深圳)有限公司 一种回声时延跟踪方法及装置
WO2018006856A1 (zh) * 2016-07-07 2018-01-11 腾讯科技(深圳)有限公司 一种回声消除的方法及终端、计算机存储介质
CN107689228B (zh) * 2016-08-04 2020-05-12 腾讯科技(深圳)有限公司 一种信息处理方法及终端
US20180190306A1 (en) * 2017-01-04 2018-07-05 2236008 Ontario Inc. Voice interface and vocal entertainment system
US10546581B1 (en) * 2017-09-08 2020-01-28 Amazon Technologies, Inc. Synchronization of inbound and outbound audio in a heterogeneous echo cancellation system
CN107610713B (zh) * 2017-10-23 2022-02-01 科大讯飞股份有限公司 基于时延估计的回声消除方法及装置
US10325613B1 (en) * 2018-07-12 2019-06-18 Microsemi Semiconductor Ulc Acoustic delay estimation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006157499A (ja) 2004-11-30 2006-06-15 Matsushita Electric Ind Co Ltd 音響エコーキャンセラとそれを用いたハンズフリー電話及び音響エコーキャンセル方法
WO2014002128A1 (ja) 2012-06-25 2014-01-03 三菱電機株式会社 車載情報装置
US20190130929A1 (en) 2017-11-02 2019-05-02 Microsemi Semiconductor (U.S.) Inc. Acoustic delay measurement using adaptive filter with programmable delay buffer
CN110166882A (zh) 2018-09-29 2019-08-23 腾讯科技(深圳)有限公司 远场拾音设备、及远场拾音设备中采集人声信号的方法

Also Published As

Publication number Publication date
DK3882914T3 (da) 2022-09-05
JP2021149086A (ja) 2021-09-27
CN111402868A (zh) 2020-07-10
CN111402868B (zh) 2023-10-24
EP3882914B1 (en) 2022-08-10
EP3882914A1 (en) 2021-09-22
US20210295857A1 (en) 2021-09-23

Similar Documents

Publication Publication Date Title
JP7209674B2 (ja) 音声認識方法、音声認識装置、電子機器、コンピュータ可読記憶媒体及びプログラム
EP2987312B1 (en) System and method for acoustic echo cancellation
US10468020B2 (en) Systems and methods for removing interference for audio pattern recognition
JP2022006159A (ja) 情報を処理するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN108074582B (zh) 一种噪声抑制信噪比估计方法和用户终端
CN112489668B (zh) 去混响方法、装置、电子设备和存储介质
CN112466318B (zh) 语音处理方法、装置及语音处理模型的生成方法、装置
CN104778950A (zh) 一种基于回声消除的麦克风信号延时补偿控制方法
KR102331793B1 (ko) 구조화된 오디오 출력을 사용하여 재생 감지 및/또는 무선 스피커에서 비정렬된 재생에 적응
EP2710591B1 (en) Reducing noise pumping due to noise suppression and echo control interaction
CN111383661B (zh) 基于车载多音区的音区判决方法、装置、设备和介质
AU2014357638A1 (en) Multi-path audio processing
JP7391063B2 (ja) 音声出力方法、音声出力装置、電子機器及び記憶媒体
CN112382281B (zh) 一种语音识别方法、装置、电子设备和可读存储介质
JP2022028670A (ja) 表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN111724805A (zh) 用于处理信息的方法和装置
KR102436302B1 (ko) 네거티브 지연 시간 검출 방법, 장치, 전자 기기 및 저장 매체
CN113593619B (zh) 用于录制音频的方法、装置、设备和介质
EP4056424B1 (en) Audio signal playback delay estimation for smart rearview mirror
CN116009809A (zh) 汽车播放音频的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201014

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220921

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230110

R150 Certificate of patent or registration of utility model

Ref document number: 7209674

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150