JP6914236B2 - 音声認識方法、装置、デバイス、コンピュータ可読記憶媒体及びプログラム - Google Patents

音声認識方法、装置、デバイス、コンピュータ可読記憶媒体及びプログラム Download PDF

Info

Publication number
JP6914236B2
JP6914236B2 JP2018233967A JP2018233967A JP6914236B2 JP 6914236 B2 JP6914236 B2 JP 6914236B2 JP 2018233967 A JP2018233967 A JP 2018233967A JP 2018233967 A JP2018233967 A JP 2018233967A JP 6914236 B2 JP6914236 B2 JP 6914236B2
Authority
JP
Japan
Prior art keywords
audio signal
processing
wakeup
signal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018233967A
Other languages
English (en)
Other versions
JP2019191554A (ja
Inventor
ゲン,レイ
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2019191554A publication Critical patent/JP2019191554A/ja
Application granted granted Critical
Publication of JP6914236B2 publication Critical patent/JP6914236B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、音声認識技術分野に関し、特に音声認識方法、装置、デバイスコンピュータ可読記憶媒体及びプログラムに関する。
遠距離音声認識技術の急速な発展に伴って、スマート音声対話は重要な対話手段の1つとなっているが、遠距離音声認識技術を統合したスマートハードウェア製品も速く発展している。スマートホーム特に携帯型スマートハードウェアが低消費電力に対する要求もますます高くなっている。
研究及び実際のテストによれば、遠距離音声応用において、マイクロフォンアレイのフロントエンドノイズ低減アルゴリズムはハードウェアデバイスのプロセッサチップの演算能力に対する需要が極めて高いため、電力消費が高い。
従来の遠距離音声のフロントエンドノイズ低減アルゴリズムの応用において、マイクロフォンアレイが常に録音状態にあり、すべてのフロントエンドノイズ低減アルゴリズムが動作状態にあり、音声ウェイクアップエンジン及び音声認識エンジンも常に動作状態にあるため、ハードウェアデバイスのプロセッサチップの演算量が大幅に増加し、このため、電力消費が大幅に高くなる。
従来技術における以上の技術的問題の少なくとも1つを解決するために、本発明の実施例は音声認識方法、装置、デバイスコンピュータ可読記憶媒体及びプログラムを提供する。
第一態様によれば、本発明の実施例に係る音声認識方法であって、
マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集することと、
前記第一音声信号をエコーキャンセル処理して、第二音声信号を取得することと、
前記第二音声信号に対してウェイクアップ認識を行うことにより、前記第二音声信号にウェイクアップワードが含まれるかどうかを確定することと、
前記第二音声信号に前記ウェイクアップワードが含まれると確定する場合、前記マイクロフォンアレイを起動して、第三音声信号を収集することと、
前記第三音声信号に対してノイズ低減処理を行うことと、
ノイズ低減処理済みの信号に対して音声認識を行うことと、を含む。
第一態様によれば、本発明の実施例の第一態様の第一実現方式では、前記第三音声信号に対してノイズ低減処理を行うことは、
前記第三音声信号をエコーキャンセル処理して、第四音声信号を取得することと、
前記第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得することと、
前記ビームフォーミング角度に基づいて、前記第四音声信号に対してビームフォーミング処理を行うことと、
ビームフォーミング処理済みの信号に対してノイズ抑制処理を行うことと、
ノイズ抑制処理済みの信号に対して残響除去処理を行うことと、
残響除去処理済みの信号に対して非線形処理を行うことと、を含む。
第一態様によれば、本発明の実施例の第一態様の第二実現方式では、前記第二音声信号に対してウェイクアップ認識を行うことは、
前記第二音声信号を音声ウェイクアップエンジンに送信して、ウェイクアップ認識を行うことを含む。
第一態様によれば、本発明の実施例の第一態様の第三実現方式では、ノイズ低減処理済みの信号に対して音声認識を行うことは、
ノイズ低減処理済みの信号を音声認識エンジンに送信して、音声認識を行うことを含む。
第一態様又は第一態様のいずれかの実現方式によれば、本発明の実施例の第一態様の第四実現方式では、マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集する前に、前記方法は、
マイクロフォンアレイにおける1つのマイクロフォンを動作状態に設定し、ほかのマイクロフォンを非動作状態に設定することを更に含む。
第二態様において、本発明の実施例に係る音声認識装置であって、
マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集するための第一起動モジュールと、
前記第一音声信号をエコーキャンセル処理して、第二音声信号を取得するためのエコーキャンセルモジュールと、
前記第二音声信号に対してウェイクアップ認識を行うことにより、前記第二音声信号にウェイクアップワードが含まれるかどうかを確定するためのウェイクアップ認識モジュールと、
前記第二音声信号に前記ウェイクアップワードが含まれると確定する場合、前記マイクロフォンアレイを起動して、第三音声信号を収集するための第二起動モジュールと、
前記第三音声信号に対してノイズ低減処理を行うためのノイズ低減処理モジュールと、
ノイズ低減処理済みの信号に対して音声認識を行うための音声認識モジュールと、を備える。
第二態様によれば、本発明の実施例の第二態様の第一実現方式では、前記ノイズ低減処理モジュールは、
前記第三音声信号をエコーキャンセル処理して、第四音声信号を取得するためのエコーキャンセルサブモジュールと、
前記第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得するための音源定位サブモジュールと、
前記ビームフォーミング角度に基づいて、前記第四音声信号に対してビームフォーミング処理を行うためのビームフォーミングサブモジュールと、
ビームフォーミング処理済みの信号に対してノイズ抑制処理を行うためのノイズ抑制サブモジュールと、
ノイズ抑制処理済みの信号に対して残響除去処理を行うための残響除去サブモジュールと、
残響除去処理済みの信号に対して非線形処理を行うための非線形サブモジュールと、を備える。
第二態様によれば、本発明の実施例の第二態様の第二実現方式では、前記ウェイクアップ認識モジュールは前記第二音声信号を音声ウェイクアップエンジンに送信して、ウェイクアップ認識を行うことに更に用いられる。
第二態様によれば、本発明の実施例の第二態様の第三実現方式では、前記音声認識モジュールはノイズ低減処理済みの信号を音声認識エンジンに送信して、音声認識を行うことに更に用いられる。
第二態様又は第二態様のいずれかの実現方式によれば、本発明の実施例の第二態様の第四実現方式では、該装置は、
マイクロフォンアレイにおける一部のマイクロフォンを起動して第一音声信号を収集する前に、マイクロフォンアレイにおける1つのマイクロフォンを動作状態に設定し、ほかのマイクロフォンを非動作状態に設定するためのプリセットモジュールを更に備える。
第三態様によれば、本発明の実施例に係る音声認識デバイスであって、
前記デバイスの機能はハードウェアで実現されてもよいし、ハードウェアで対応するソフトウェアを実行することにより実現されてもよい。前記ハードウェア又はソフトウェアは上記機能に対応する1つ又は複数のモジュールを含む。
可能な一設計において、音声認識デバイスの構造にプロセッサ及びメモリが含まれ、前記メモリは音声認識デバイスが上記音声認識方法を実行するようにサポートするプログラムを記憶することに用いられ、前記プロセッサは前記メモリに記憶されるプログラムを実行するように配置される。前記音声認識デバイスは音声認識デバイスがほかのデバイス又は通信ネットワークと通信するための通信インターフェースを更に備えてもよい。
第四態様によれば、本発明の実施例に係るコンピュータ可読記憶媒体であって、音声認識デバイスに使用されるコンピュータソフトウェア命令を記憶することに用いられ、ここで、前記コンピュータソフトウェア命令が上記音声認識方法を実行するために関わるプログラムを含む。
上記技術案のうちの1つの技術案は、まずマイクロフォンアレイにおける一部のマイクロフォンを起動して、音声信号を収集して、エコーをキャンセルし、処理済みの信号を音声ウェイクアップエンジンに送信し、音声ウェイクアップエンジンがウェイクアップワードを認識した後、マイクロフォンアレイの録音及びほかのノイズ低減処理アルゴリズムを起動するという利点又は有益な効果を有する。ウェイクアップ状態になる前に、ほとんどのフロントエンド処理アルゴリズムが起動されず、マイクロフォンアレイにおける一部のみのマイクロフォンが起動されるため、音声認識過程の演算量及び電力消費を大幅に削減することができる。
上記概説は明細書のためのものであって、いかなる方式で制限するためのものではない。上記説明される模式的な態様、実施形態及び特徴を除き、本発明のさらなる態様、実施形態及び特徴は、図面及び以下の詳細な説明によって明らかになる。
図面において、特に断りがない限り、複数の図面における同一記号は同様又は類似する部材又は要素を示す。これらの図面は比率で描かれるとは限らない。これらの図面は本発明の開示に係るいくつかの実施形態を描くものに過ぎず、本発明の範囲を制限するものと見なされるべきではないと理解すべきである。
本発明の一実施例に係る音声認識方法のフローチャートである。 本発明の一実施例に係る音声認識方法におけるウェイクアップ過程のフローチャートである。 本発明の一実施例に係る音声認識方法におけるウェイクアップ後のフローチャートである。 本発明の別の実施例に係る音声認識方法のフローチャートである。 本発明の別の実施例に係る音声認識方法の応用例の模式図である。 本発明の一実施例に係る音声認識装置のブロック構成図である。 本発明の別の実施例に係る音声認識装置のブロック構成図である。 本発明の一実施例に係る音声認識デバイスのブロック構成図である。
以下、ある例示的な実施例を簡単に説明する。当業者が理解できるとおり、本発明の趣旨又は範囲を逸脱せずに、様々な方式で説明される実施例を修正することができる。従って、図面及び説明は本質的に例示的なものであって、制限的なものではないと見なされる。
図1は本発明の一実施例に係る音声認識方法のフローチャートである。図1に示すように、該音声認識方法は以下のステップを含む。
101では、マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集する。
本発明の実施例において、デバイスのマイクロフォンアレイには複数のマイクロフォンが含まれてもよい。2つの動作状態を予め設定してもよい。第一動作状態において、一部のマイクロフォンのみを起動し、且つプロセッサチップがエコーキャンセルアルゴリズムのみを実行し、音声ウェイクアップエンジンが動作状態にある。第二動作状態において、すべてのマイクロフォンを起動し、プロセッサチップがフロントエンドノイズ低減処理アルゴリズムを実行し、音声ウェイクアップエンジン及び音声認識エンジンがいずれも動作状態にある。フロントエンドノイズ低減処理アルゴリズムはエコーキャンセル、音源定位(Sound location)、ビームフォーミング、ノイズ抑制、残響除去及び非線形処理等の複数の過程を含んでもよい。ここで、エコーキャンセルはAEC(Acoustic Echo Control、音響エコー制御)アルゴリズムを用いてもよい。
図2に示すように、デバイスに通電した後、デフォルトは第一動作状態にあってもよく、電力消費を削減するために、すべてのマイクロフォンを起動せずに、一部のマイクロフォンを起動して、音源から第一音声信号を収集する。1つのみのマイクロフォンを起動すれば、電力消費を最大限に削減することができる。
102では、前記第一音声信号をエコーキャンセル処理して、第二音声信号を取得する。
一部のマイクロフォンが収集した第一音声信号に対して、第一動作状態において、後続のほかのフロントエンドノイズ低減処理を行わず、まずエコーキャンセル処理してもよい。このように、電力消費を更に削減することができる。
103では、前記第二音声信号に対してウェイクアップ認識を行うことにより、前記第二音声信号にウェイクアップワードが含まれるかどうかを確定する。
図2に示すように、エコーキャンセルした第二音声信号を音声ウェイクアップエンジンに送信して、ウェイクアップ認識を行うことができる。音声ウェイクアップエンジンは予め設定されたウェイクアップワードを呼び出すことができる。第二音声信号をテキスト情報に変換し、テキスト情報とウェイクアップワードとの類似度を比較することにより、第二音声信号に該ウェイクアップワードが含まれるかどうかを判断する。ウェイクアップワードが1つであってもよいし、複数であってもよく、実際の応用において、具体的なニーズに応じて柔軟に選択することができる。音声ウェイクアップエンジンはウェイクアップワード認識エンジンと称されてもよい。
104では、前記第二音声信号に前記ウェイクアップワードが含まれると確定する場合、前記マイクロフォンアレイを起動して、第三音声信号を収集する。
音声ウェイクアップエンジンは第二音声信号に予め設定されたウェイクアップワードがあると認識すれば、マイクロフォンアレイにおけるすべてのマイクロフォンを起動して、第三音声信号を再び収集するように制御することができる。
105では、前記第三音声信号に対してノイズ低減処理を行う。
図3に示すように、プロセッサチップはフロントエンドノイズ低減処理アルゴリズムを用いて、すべてのマイクロフォンが再び収集した第三音声信号に対してノイズ低減処理を行うことができる。
106では、ノイズ低減処理済みの信号に対して音声認識を行う。
図3に示すように、プロセッサチップはノイズ低減処理済みの信号を音声認識エンジンに送信して、音声認識を行うことができる。音声認識はASR(Automatic Speech Recognition、自動音声認識)と称されてもよい。
図4は本発明の別の実施例に係る音声認識方法のフローチャートである。上記一実施例を基に、図4に示すように、該音声認識方法のステップ105は、
マイクロフォンアレイにより収集された第三音声信号をエコーキャンセル処理して、第四音声信号を取得する201と、
前記第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得する202と、
前記ビームフォーミング角度に基づいて、前記第四音声信号に対してビームフォーミング処理を行う203と、
ビームフォーミング処理済みの信号に対してノイズ抑制処理を行う204と、
ノイズ抑制処理済みの信号に対して残響除去処理を行う205と、
残響除去処理済みの信号に対して非線形処理を行う206と、を含んでもよい。
図3に示すように、マイクロフォンアレイにおけるすべてのマイクロフォンが収集した第三音声信号に対して、すべてのフロントエンドノイズ低減処理アルゴリズムを実行することができる。すべてのフロントエンドノイズ低減処理アルゴリズムはエコーキャンセル、音源定位、ビームフォーミング、ノイズ抑制、残響除去及び非線形処理等のアルゴリズムを含む。まず第三音声信号をエコーキャンセル処理して、第四音声信号を取得する。次に、第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得する。その後、ビームフォーミング角度に基づいて、第四音声信号に対してビームフォーミング処理、ノイズ抑制処理、残響除去処理及び非線形処理を行う。
可能な一実現方式において、該方法は、
マイクロフォンアレイにおける1つのマイクロフォンを動作状態に設定し、ほかのマイクロフォンを非動作状態に設定することを更に含む。
例えば、初期通電状態において、デフォルトはデバイスが第一動作状態にあり、1つのマイクロフォンのみが動作状態にあり、ほかのマイクロフォンが非動作状態にあり、且つ該マイクロフォンの収集した音声信号のみに対してエコーキャンセル処理を起動する。ウェイクアップに成功した後、デバイスが第二動作状態になり、マイクロフォンアレイにおけるすべてのマイクロフォンが動作状態にあり、且つマイクロフォンアレイの収集した音声に対してすべてのフロントエンドノイズ低減処理アルゴリズムを起動する。音声認識を終了した後、デバイスが再び第一動作状態に戻る。
本発明の実施例において、まずマイクロフォンアレイにおける一部のマイクロフォンを起動して、音声信号を収集して、エコーキャンセルし、処理済みの信号を音声ウェイクアップエンジンに送信し、音声ウェイクアップエンジンがウェイクアップワードを認識した後、マイクロフォンアレイの録音及びほかのノイズ低減処理アルゴリズムを起動する。ウェイクアップ状態になる前に、ほとんどのフロントエンド処理アルゴリズムが起動されず、マイクロフォンアレイにおける一部のマイクロフォンのみが起動されるため、音声認識過程の演算量及び電力消費を大幅に削減することができる。
図5は本発明の別の実施例に係る音声認識方法の応用例の模式図である。図5に示すように、初期状態で1つのマイクロフォンのみを起動し、且つプロセッサチップでフロントエンドノイズ低減アルゴリズムを実行する場合を例とし、該音声認識方法は、
デバイスに通電した後、マイクロフォン(MIC)アレイにおける1つのマイクロフォンのみが動作状態にあり、プロセッサチップがエコーキャンセルアルゴリズムのみを実行し、且つ音声ウェイクアップエンジンが動作状態にあり、プロセッサチップは該シングルMICの収集した音声信号に対してシングルエコーキャンセル例えばAEC処理を行うステップ501と、
処理済みの信号を動作状態にある音声ウェイクアップエンジンに送信し、音声ウェイクアップエンジンによりウェイクアップワードを認識したかどうかを判断し、ウェイクアップワードを認識しない場合、現在の動作状態を維持し続け、1つのMICで録音し続け、音声ウェイクアップエンジンによりウェイクアップワードを認識した後、マイクロフォンアレイの録音、ほかのフロントエンドアルゴリズム及び音声認識エンジンを起動するステップ502と、
マルチMICの収集した音声信号に対してAEC処理を行った後、音源定位アルゴリズムモジュールに入力し、音源定位アルゴリズムによって正確なビームフォーミング角度を取得するステップ503と、
ビームフォーミング角度を設定し、エコーキャンセルアルゴリズムで処理されたオーディオ信号をビームフォーミングアルゴリズムで処理し、次にノイズ抑制、残響除去及び非線形処理等のアルゴリズムで処理し、処理済みのオーディオ信号を遠距離音声認識エンジン例えばASR音声認識エンジンに送信するステップ504と、
音声認識を行い、音声認識を完了した後、デバイスはシングルマイクロフォン、エコーキャンセルアルゴリズム及び音声ウェイクアップエンジンのみを起動する動作状態に戻ってもよいステップ505と、を含んでもよい。
本実施例において、デバイスに通電した後、マイクロフォンアレイにおける1つのマイクロフォンのみを動作状態にして、音声信号を収集して、シングルエコーキャンセルを行い、処理済みの信号を動作状態にある音声ウェイクアップエンジンに送信する。音声ウェイクアップエンジンがウェイクアップワードを認識した後、音源オブジェクト例えば話している人の位置情報を取得する。次に、マイクロフォンアレイの録音、ほかのフロントエンドアルゴリズム及び音声認識エンジンを起動する。ウェイクアップ状態になる前に、ほとんどのフロントエンド処理アルゴリズムが起動されず、マイクロフォンアレイにおける一部のマイクロフォンのみが起動されるため、プロセッサチップの演算量を大幅に削減し、更にマイクロフォンアレイ及びプロセッサチップにおけるハードウェアの電力消費を大幅に削減する。
図6は本発明の一実施例に係る音声認識装置のブロック構成図である。図6に示すように、該装置は、
マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集するための第一起動モジュール41と、
前記第一音声信号をエコーキャンセル処理して、第二音声信号を取得するためのエコーキャンセルモジュール42と、
前記第二音声信号に対してウェイクアップ認識を行うことにより、前記第二音声信号にウェイクアップワードが含まれるかどうかを確定するためのウェイクアップ認識モジュール43と、
前記第二音声信号に前記ウェイクアップワードが含まれると確定する場合、前記マイクロフォンアレイを起動して、第三音声信号を収集するための第二起動モジュール44と、
前記第三音声信号に対してノイズ低減処理を行うためのノイズ低減処理モジュール45と、
ノイズ低減処理済みの信号に対して音声認識を行うための音声認識モジュール46と、を備える。
図7は本発明の別の実施例に係る音声認識装置のブロック構成図である。図7に示すように、上記実施例を基に、該装置のノイズ低減処理モジュール45は、
前記第三音声信号をエコーキャンセル処理して、第四音声信号を取得するためのエコーキャンセルサブモジュールと、
前記第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得するための音源定位サブモジュールと、
前記ビームフォーミング角度に基づいて、前記第四音声信号に対してビームフォーミング処理を行うためのビームフォーミングサブモジュールと、
ビームフォーミング処理済みの信号に対してノイズ抑制処理を行うためのノイズ抑制サブモジュールと、
ノイズ抑制処理済みの信号に対して残響除去処理を行うための残響除去サブモジュールと、
残響除去処理済みの信号に対して非線形処理を行うための非線形サブモジュールと、を備えてもよい。
可能な一実現方式において、前記ウェイクアップ認識モジュール43は前記第二音声信号を音声ウェイクアップエンジンに送信して、ウェイクアップ認識を行うことに更に用いられる。
可能な一実現方式において、前記音声認識モジュール46は更にノイズ低減処理済みの信号を音声認識エンジンに送信して、音声認識を行うことに用いられる。
可能な一実現方式において、該装置は、
マイクロフォンアレイにおける一部のマイクロフォンを起動して第一音声信号を収集する前に、マイクロフォンアレイにおける1つのマイクロフォンを動作状態に設定し、ほかのマイクロフォンを非動作状態に設定するためのプリセットモジュール51を更に備える。
本発明の実施例の各装置におけるモジュールの機能は上記方法における対応する説明を参照するともよく、ここで詳細な説明は省略する。
図8は本発明の一実施例に係る音声認識デバイスのブロック構成図である。図8に示すように、該音声認識デバイスはメモリ910及びプロセッサ920を備え、メモリ910にはプロセッサ920で実行できるコンピュータプログラムが記憶される。前記プロセッサ920が前記コンピュータプログラムを実行する時、上記実施例における音声認識方法を実現する。前記メモリ910及びプロセッサ920の数が1つ又は複数であってもよい。
該音声認識装置は、
外部デバイスと通信して、データ交換伝送を行うための通信インターフェース930を更に備える。
メモリ910は高速RAMメモリを含む可能性もあるし、更に不揮発性メモリ(non−volatile memory)、例えば少なくとも1つの磁気ディスクメモリを含む可能性もある。
メモリ910、プロセッサ920及び通信インターフェース930が独立して実現する場合、メモリ910、プロセッサ920及び通信インターフェース930はバスで互いに接続され、且つ相互間の通信を実現することができる。前記バスは業界標準アーキテクチャ(ISA、Industry Standard Architecture)バス、ペリフェラルコンポーネント(PCI、Peripheral Component)バス又は拡張業界標準アーキテクチャ(EISA、Extended Industry Standard Component)バス等であってもよい。前記バスはアドレスバス、データバス、制御バス等に分けられてもよい。示しやすくするために、図8では1本のみの太線で示すが、1本のみのバス又は1つのタイプのみのバスを有すると示さない。
選択的に、具体的に実現する時、メモリ910、プロセッサ920及び通信インターフェース930が1枚のチップに統合される場合、メモリ910、プロセッサ920及び通信インターフェース930は内部インターフェースによって相互間の通信を実現することができる。
本発明の実施例は、上記音声認識方法を実行するために関わるプログラムを含む、音声認識装置に使用されるコンピュータソフトウェア命令を記憶するためのコンピュータ可読記憶媒体を提供する。
本明細書の説明において、用語「一実施例」、「いくつかの実施例」、「例」、「具体例」、又は「いくつかの例」等の説明とは、該実施例又は例を参照すると説明した具体的な特徴、構造、材料又は特性が本発明の少なくとも1つの実施例又は例に含まれることを意味する。且つ、説明される具体的な特徴、構造、材料又は特性はいずれか1つ又は複数の実施例又は例で適切な方式で結合してもよい。また、矛盾しない限り、当業者は本明細書に説明される様々な実施例又は例、及び様々な実施例又は例の特徴を結合及び組み合わせすることができる。
また、用語の「第一」、「第二」は説明のためのものに過ぎず、相対重要性を指示又は示唆し、又は指示された技術的特徴の数を暗示すると理解すべきではない。従って、「第一」、「第二」で制限された特徴は少なくとも1つの該特徴を明示的又は暗示的に含んでもよい。本発明の説明において、特に明確且つ具体的に制限しない限り、「複数」の意味は2つ又は2つ以上である。
当業者であれば、フローチャートにおける、又はここでほかの方式で説明されるいかなる過程又は方法についての説明は、確定の論理機能又は過程を実現するための1つ又は複数のステップの実行可能命令のコードを含むモジュール、セグメント又は部分を示すと理解されてもよく、且つ本発明の好適な実施形態の範囲はほかの実現を含み、指示又は検討される順序通りでなくてもよく、関わる機能に基づいて、ほぼ同時に、又は逆順序で機能を実行してもよいと理解すべきである。
フローチャートに示す、又はここでほかの方式で説明される論理及び/又はステップは、例えば、論理機能を実現するための実行可能命令の順序付けリストであると見なされてもよく、具体的にいかなるコンピュータ可読媒体に実現されてもよく、命令実行システム、装置又はデバイス(例えばコンピュータに基づくシステム、プロセッサを含むシステム又は命令実行システム、装置又はデバイスから命令を受信し且つ命令を実行するシステム)の使用に備え、又はこれらの命令実行システム、装置又はデバイスと組み合わせて使用される。本明細書については、「コンピュータ可読媒体」はプログラムを包含、記憶、通信、伝播又は伝送することにより、命令実行システム、装置又はデバイス、又はこれらの命令実行システム、装置又はデバイスと組み合わせて使用されるいかなる装置であってもよい。コンピュータ可読媒体のさらなる具体例(非網羅的リスト)は、1つ又は複数の配線を有する電気接続部(電子装置)、ポータブルコンピュータケース(磁気装置)、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的消去再書込み可能な読出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー装置、及び携帯型読み出し専用メモリ(CDROM)を含む。また、コンピュータ可読媒体は更にその上に前記プログラムを印刷できる用紙又はほかの適切な媒体であってもよい理由は、例えば用紙又はほかの媒体を光学的に走査し、次に編集、解釈し、又は必要な時にほかの適切な方式で処理して、電子方式で前記プログラムを取得し、次にそれをコンピュータメモリに記憶することができるためである。
本発明の各部分はハードウェア、ソフトウェア、ファームウェア又はそれらの組み合わせで実現されてもよいと理解すべきである。上記実施形態において、複数のステップ又は方法は、メモリに記憶される、且つ適切な命令実行システムで実行するソフトウェア又はファームウェアで実現されてもよい。例えば、ハードウェアで実現する場合は、別の実施形態と同様に、データ信号に対して論理機能を実現する論理ゲート回路を有する離散論理回路、適切な組み合わせ論理ゲート回路を有する確定用途向け集積回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)等の本分野での公知技術のうちのいずれか1つ又はそれらの組み合わせで実現してもよい。
当業者であれば、上記実施例方法におけるステップの全部又は一部の実現がプログラムによって関連するハードウェアを命令して完了させてもよく、前記プログラムがコンピュータ可読記憶媒体に記憶されてもよく、実行時に、該プログラムは方法実施例のステップの1つ又はそれらの組み合わせを含むと理解される。
また、本発明の各実施例における各機能ユニットが1つの処理モジュールに統合されてもよく、各ユニットが独立して物理的に存在してもよく、2つ又は2つ以上のユニットが1つのモジュールに統合されてもよい。上記統合モジュールはハードウェアのタイプで実現されてもよいし、ソフトウェア機能モジュールのタイプで実現されてもよい。前記統合モジュールはソフトウェア機能モジュールのタイプで実現され、且つ独立した製品として販売又は使用される時、1つのコンピュータ可読記憶媒体に記憶されてもよい。前記記憶媒体は読み出し専用メモリ、磁気ディスク又は光ディスク等であってもよい。
以上の説明は、本発明の具体的な実施形態に過ぎず、本発明の保護範囲を制限するためのものではなく、当業者が本発明に開示される技術的範囲内に容易に想到し得る種々の変更又は置換は、いずれも本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の範囲に準じるべきである。

Claims (13)

  1. 音声認識方法であって、
    マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集することと、
    前記第一音声信号に対して、エコーキャンセル、音源定位、ビームフォーミング、ノイズ抑制、残響除去及び非線形処理を含むノイズ低減処理のうちの前記エコーキャンセル処理のみを行って、第二音声信号を取得することと、
    前記第二音声信号に対してウェイクアップ認識を行うことにより、前記第二音声信号にウェイクアップワードが含まれるかどうかを確定することと、
    前記第二音声信号に前記ウェイクアップワードが含まれると確定する場合、前記マイクロフォンアレイにおけるすべてのマイクロフォンを起動して、第三音声信号を収集することと、
    前記第三音声信号に対して、前記エコーキャンセル処理と、前記ノイズ低減処理のうちの前記エコーキャンセル処理以外の他の処理とを行うことと、
    ノイズ低減処理済みの信号に対して音声認識を行うことと、を含み、
    前記第二音声信号にウェイクアップワードが含まれるかどうかを確定することは、前記第二音声信号に前記ウェイクアップワードが含まれていないと判断した場合、前記一部のマイクロフォンによって前記第一音声信号を収集すること、及び前記第二音声信号を取得することをさらに行って、新に取得された第二音声信号に前記ウェイクアップワードが含まれるかどうかを確定することを含むことを特徴とする音声認識方法。
  2. 前記第三音声信号に対してノイズ低減処理を行うことは、
    前記第三音声信号をエコーキャンセル処理して、第四音声信号を取得することと、
    前記第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得することと、
    前記ビームフォーミング角度に基づいて、前記第四音声信号に対してビームフォーミング処理を行うことと、
    ビームフォーミング処理済みの信号に対してノイズ抑制処理を行うことと、
    ノイズ抑制処理済みの信号に対して残響除去処理を行うことと、
    残響除去処理済みの信号に対して非線形処理を行うことと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記第二音声信号に対してウェイクアップ認識を行うことは、
    前記第二音声信号を音声ウェイクアップエンジンに送信して、ウェイクアップ認識を行うことを含むことを特徴とする請求項1に記載の方法。
  4. ノイズ低減処理済みの信号に対して音声認識を行うことは、
    ノイズ低減処理済みの信号を音声認識エンジンに送信して、音声認識を行うことを含むことを特徴とする請求項1に記載の方法。
  5. マイクロフォンアレイにおける一部のマイクロフォンを起動して第一音声信号を収集する前に、前記方法は、
    マイクロフォンアレイにおける1つのマイクロフォンを動作状態に設定し、ほかのマイクロフォンを非動作状態に設定することを更に含むことを特徴とする請求項1〜4のいずれか一項に記載の方法。
  6. 音声認識装置であって、
    マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集するための第一起動モジュールと、
    前記第一音声信号に対して、エコーキャンセル、音源定位、ビームフォーミング、ノイズ抑制、残響除去及び非線形処理を含むノイズ低減処理のうちの前記エコーキャンセル処理のみを行って、第二音声信号を取得するためのエコーキャンセルモジュールと、
    前記第二音声信号に対してウェイクアップ認識を行うことにより、前記第二音声信号にウェイクアップワードが含まれるかどうかを確定するためのウェイクアップ認識モジュールと、
    前記第二音声信号に前記ウェイクアップワードが含まれると確定する場合、前記マイクロフォンアレイにおけるすべてのマイクロフォンを起動して、第三音声信号を収集するための第二起動モジュールと、
    前記第三音声信号に対して、前記エコーキャンセル処理と、前記ノイズ低減処理のうちの前記エコーキャンセル処理以外の他の処理とを行うためのノイズ低減処理モジュールと、
    ノイズ低減処理済みの信号に対して音声認識を行うための音声認識モジュールと、を備え、
    前記ウェイクアップ認識モジュールが前記第二音声信号に前記ウェイクアップワードが含まれていないと判断した場合、前記第一起動モジュールは、第一音声信号を新たに取得し、前記エコーキャンセルモジュールは、新たに取得された前記第一音声信号に対して前記エコーキャンセル処理を行って、第二音声信号を新に取得し、前記ウェイクアップ認識モジュールは、新たに取得された前記第二音声信号に対して前記ウェイクアップワードが含まれるかどうかを確定することを特徴とする音声認識装置。
  7. 前記ノイズ低減処理モジュールは、
    前記第三音声信号をエコーキャンセル処理して、第四音声信号を取得するためのエコーキャンセルサブモジュールと、
    前記第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得するための音源定位サブモジュールと、
    前記ビームフォーミング角度に基づいて、前記第四音声信号に対してビームフォーミング処理を行うためのビームフォーミングサブモジュールと、
    ビームフォーミング処理済みの信号に対してノイズ抑制処理を行うためのノイズ抑制サブモジュールと、
    ノイズ抑制処理済みの信号に対して残響除去処理を行うための残響除去サブモジュールと、
    残響除去処理済みの信号に対して非線形処理を行うための非線形サブモジュールと、を備えることを特徴とする請求項6に記載の装置。
  8. 前記ウェイクアップ認識モジュールは前記第二音声信号を音声ウェイクアップエンジンに送信して、ウェイクアップ認識を行うことに更に用いられることを特徴とする請求項6に記載の装置。
  9. 前記音声認識モジュールはノイズ低減処理済みの信号を音声認識エンジンに送信して、音声認識を行うことに更に用いられることを特徴とする請求項6に記載の装置。
  10. マイクロフォンアレイにおける一部のマイクロフォンを起動して第一音声信号を収集する前に、マイクロフォンアレイにおける1つのマイクロフォンを動作状態に設定し、ほかのマイクロフォンを非動作状態に設定するためのプリセットモジュールを更に備えることを特徴とする請求項6〜9のいずれか一項に記載の装置。
  11. 音声認識デバイスであって、
    1つ又は複数のプロセッサと、
    1つ又は複数のプログラムを記憶するための記憶装置と、を備え、
    前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行される時、前記1つ又は複数のプロセッサに請求項1〜5のいずれか一項に記載の方法を実現させることを特徴とする音声認識デバイス。
  12. コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
    該プログラムがプロセッサにより実行される時、請求項1〜5のいずれか一項に記載の方法を実現することを特徴とするコンピュータ可読記憶媒体。
  13. コンピュータにおいて、プロセッサにより実行される場合、請求項1〜5のいずれか一項に記載の方法を実現することを特徴とするプログラム。
JP2018233967A 2018-04-20 2018-12-14 音声認識方法、装置、デバイス、コンピュータ可読記憶媒体及びプログラム Active JP6914236B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810361397.5A CN108538305A (zh) 2018-04-20 2018-04-20 语音识别方法、装置、设备及计算机可读存储介质
CN201810361397.5 2018-04-20

Publications (2)

Publication Number Publication Date
JP2019191554A JP2019191554A (ja) 2019-10-31
JP6914236B2 true JP6914236B2 (ja) 2021-08-04

Family

ID=63478104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018233967A Active JP6914236B2 (ja) 2018-04-20 2018-12-14 音声認識方法、装置、デバイス、コンピュータ可読記憶媒体及びプログラム

Country Status (3)

Country Link
US (1) US11074924B2 (ja)
JP (1) JP6914236B2 (ja)
CN (1) CN108538305A (ja)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
CN113658588A (zh) * 2018-09-29 2021-11-16 百度在线网络技术(北京)有限公司 多音区语音识别方法、装置及存储介质
CN109270493B (zh) * 2018-10-16 2020-06-26 苏州思必驰信息科技有限公司 声源定位方法和装置
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
CN109545230B (zh) 2018-12-05 2021-10-19 百度在线网络技术(北京)有限公司 车辆内的音频信号处理方法和装置
CN109360562B (zh) * 2018-12-07 2022-06-28 深圳创维-Rgb电子有限公司 回声消除方法、装置、介质以及语音唤醒方法和设备
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN111383650B (zh) * 2018-12-28 2024-05-03 深圳市优必选科技有限公司 一种机器人及其音频数据处理方法
CN109697984B (zh) * 2018-12-28 2020-09-04 北京声智科技有限公司 一种降低智能设备自唤醒的方法
CN109473111B (zh) * 2018-12-29 2024-03-08 思必驰科技股份有限公司 一种语音赋能装置及方法
CN109767769B (zh) * 2019-02-21 2020-12-22 珠海格力电器股份有限公司 一种语音识别方法、装置、存储介质及空调
CN109901113B (zh) * 2019-03-13 2020-08-11 出门问问信息科技有限公司 一种基于复杂环境的语音信号定位方法、装置及系统
CN109949810B (zh) * 2019-03-28 2021-09-07 荣耀终端有限公司 一种语音唤醒方法、装置、设备及介质
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
CN111916068B (zh) * 2019-05-07 2024-07-23 北京地平线机器人技术研发有限公司 音频检测方法和装置
CN112102848B (zh) * 2019-06-17 2024-04-26 华为技术有限公司 一种用于识别音乐的方法、芯片和终端
CN110265053B (zh) * 2019-06-29 2022-04-19 联想(北京)有限公司 信号降噪控制方法、装置及电子设备
CN110310640A (zh) * 2019-07-26 2019-10-08 上海头趣科技有限公司 一种基于语音系统的智能垃圾分类系统
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
CN110610710B (zh) * 2019-09-05 2022-04-01 晶晨半导体(上海)股份有限公司 一种自学习语音识别系统的构建装置和构建方法
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN110992974B (zh) * 2019-11-25 2021-08-24 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN111028838A (zh) * 2019-12-17 2020-04-17 苏州思必驰信息科技有限公司 一种语音唤醒方法、设备及计算机可读存储介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111081246B (zh) * 2019-12-24 2022-06-24 北京达佳互联信息技术有限公司 直播机器人唤醒方法、装置、电子设备及存储介质
CN111128164B (zh) * 2019-12-26 2024-03-15 上海风祈智能技术有限公司 一种语音采集和识别的控制系统及其实现方法
CN111179931B (zh) * 2020-01-03 2023-07-21 青岛海尔科技有限公司 用于语音交互的方法、装置及家用电器
CN111145752B (zh) * 2020-01-03 2022-08-02 百度在线网络技术(北京)有限公司 智能音频装置、方法、电子设备及计算机可读介质
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111429911A (zh) * 2020-03-11 2020-07-17 云知声智能科技股份有限公司 一种降低噪音场景下语音识别引擎功耗的方法及装置
CN111369999B (zh) * 2020-03-12 2024-05-14 北京百度网讯科技有限公司 一种信号处理方法、装置以及电子设备
JP7465700B2 (ja) 2020-03-27 2024-04-11 株式会社デンソーテン 車載装置および車載装置における音声処理方法
CN111462743B (zh) * 2020-03-30 2023-09-12 北京声智科技有限公司 一种语音信号处理方法及装置
CN111524513A (zh) * 2020-04-16 2020-08-11 歌尔科技有限公司 一种可穿戴设备及其语音传输的控制方法、装置及介质
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN111883160B (zh) * 2020-08-07 2024-04-16 上海茂声智能科技有限公司 一种定向麦克风阵列拾音降噪方法及装置
CN112002320A (zh) * 2020-08-10 2020-11-27 北京小米移动软件有限公司 语音唤醒方法、装置、电子设备和存储介质
CN112185388B (zh) * 2020-09-14 2024-04-09 北京小米松果电子有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN112017682B (zh) * 2020-09-18 2023-05-23 中科极限元(杭州)智能科技股份有限公司 一种单通道语音同时降噪和去混响系统
CN114333884B (zh) * 2020-09-30 2024-05-03 北京君正集成电路股份有限公司 一种基于麦克风阵列结合唤醒词进行的语音降噪方法
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112599143A (zh) * 2020-11-30 2021-04-02 星络智能科技有限公司 降噪方法、语音采集设备及计算机可读存储介质
CN112908322A (zh) * 2020-12-31 2021-06-04 思必驰科技股份有限公司 用于玩具车的语音控制方法和装置
CN113053368A (zh) * 2021-03-09 2021-06-29 锐迪科微电子(上海)有限公司 语音增强方法、电子设备和存储介质
CN113053406B (zh) * 2021-05-08 2024-06-18 北京小米移动软件有限公司 声音信号识别方法及装置
CN115019803B (zh) * 2021-09-30 2023-01-10 荣耀终端有限公司 音频处理方法、电子设备以及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3082700B2 (ja) 1997-03-28 2000-08-28 日本電気株式会社 送話音声信号処理装置
JP2003330490A (ja) 2002-05-15 2003-11-19 Fujitsu Ltd 音声対話装置
US8401178B2 (en) * 2008-09-30 2013-03-19 Apple Inc. Multiple microphone switching and configuration
JP4809454B2 (ja) 2009-05-17 2011-11-09 株式会社半導体理工学研究センター 発話推定による回路起動方法及び回路起動装置
JP5634959B2 (ja) 2011-08-08 2014-12-03 日本電信電話株式会社 雑音/残響除去装置とその方法とプログラム
US9584642B2 (en) * 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US9595997B1 (en) * 2013-01-02 2017-03-14 Amazon Technologies, Inc. Adaption-based reduction of echo and noise
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
WO2015094369A1 (en) * 2013-12-20 2015-06-25 Intel Corporation Transition from low power always listening mode to high power speech recognition mode
US9501270B2 (en) * 2014-03-31 2016-11-22 Google Technology Holdings LLC System and method for providing customized resources on a handheld electronic device
US20160306758A1 (en) * 2014-11-06 2016-10-20 Mediatek Inc. Processing system having keyword recognition sub-system with or without dma data transaction
US9633661B1 (en) * 2015-02-02 2017-04-25 Amazon Technologies, Inc. Speech-responsive portable speaker
JP2016167645A (ja) 2015-03-09 2016-09-15 アイシン精機株式会社 音声処理装置及び制御装置
US10192546B1 (en) * 2015-03-30 2019-01-29 Amazon Technologies, Inc. Pre-wakeword speech processing
TWI525532B (zh) * 2015-03-30 2016-03-11 Yu-Wei Chen Set the name of the person to wake up the name for voice manipulation
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US11087775B2 (en) 2015-12-11 2021-08-10 Sony Corporation Device and method of noise suppression based on noise source positions
CN107369445A (zh) * 2016-05-11 2017-11-21 上海禹昌信息科技有限公司 同时支持语音唤醒以及语音控制智能终端的方法
CN206312567U (zh) 2016-12-15 2017-07-07 北京塞宾科技有限公司 一种便携式智能家居语音控制系统
WO2018159971A1 (en) * 2017-02-28 2018-09-07 Samsung Electronics Co., Ltd. Operating method of electronic device for function execution based on voice command in locked state and electronic device supporting the same
CN107316649B (zh) * 2017-05-15 2020-11-20 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
US10789949B2 (en) * 2017-06-20 2020-09-29 Bose Corporation Audio device with wakeup word detection
US10310082B2 (en) * 2017-07-27 2019-06-04 Quantenna Communications, Inc. Acoustic spatial diagnostics for smart home management
CN107274901A (zh) * 2017-08-10 2017-10-20 湖州金软电子科技有限公司 一种远场语音交互装置
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
CN107591151B (zh) * 2017-08-22 2021-03-16 百度在线网络技术(北京)有限公司 远场语音唤醒方法、装置和终端设备
CN107577449B (zh) * 2017-09-04 2023-06-23 百度在线网络技术(北京)有限公司 唤醒语音的拾取方法、装置、设备及存储介质
US10438588B2 (en) * 2017-09-12 2019-10-08 Intel Corporation Simultaneous multi-user audio signal recognition and processing for far field audio
US10621981B2 (en) * 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10354635B2 (en) * 2017-11-01 2019-07-16 Bose Corporation Adaptive nullforming for selective audio pick-up

Also Published As

Publication number Publication date
US11074924B2 (en) 2021-07-27
JP2019191554A (ja) 2019-10-31
US20190325888A1 (en) 2019-10-24
CN108538305A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
JP6914236B2 (ja) 音声認識方法、装置、デバイス、コンピュータ可読記憶媒体及びプログラム
JP6975696B2 (ja) ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム
CN110010126B (zh) 语音识别方法、装置、设备和存储介质
JP6811755B2 (ja) 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム
CN107591151B (zh) 远场语音唤醒方法、装置和终端设备
US11587560B2 (en) Voice interaction method, device, apparatus and server
CN110673964A (zh) 一种车载系统的音频播放控制方法和装置
CN108600219B (zh) 一种语音控制方法及设备
CN108932944B (zh) 解码方法及装置
JP6866046B2 (ja) クラウドウェイクアップ方法、システム、端末、コンピュータ可読記憶媒体、及びプログラム
CN106887228B (zh) 机器人的语音控制方法、装置及机器人
US20220084521A1 (en) Automatic personal identifiable information removal from audio
CN113380280B (zh) 数据处理方法、装置和存储介质
CN110517682B (zh) 语音识别方法、装置、设备及存储介质
CN109473111B (zh) 一种语音赋能装置及方法
CN111145752B (zh) 智能音频装置、方法、电子设备及计算机可读介质
CN115148191A (zh) 语音处理方法及服务器
JP2019139146A (ja) 音声認識システム、及び、音声認識方法
CN112802457A (zh) 语音识别的方法、装置、设备和存储介质
US9749746B2 (en) Devices and methods for reducing the processing time of the convergence of a spatial filter
US20060020945A1 (en) System, circuitry and method for parallel processing real-time signal with open structure
US11211075B2 (en) Service control method, service control apparatus and device
US20190213994A1 (en) Voice output device, method, and program storage medium
CN117636895A (zh) 一种语音数据获取方法、装置、设备和介质
CN117975952A (zh) 用于信号处理的方法、装置、设备、介质和产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201006

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210512

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210512

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210520

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210713

R150 Certificate of patent or registration of utility model

Ref document number: 6914236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150