JP6914236B2

JP6914236B2 - 音声認識方法、装置、デバイス、コンピュータ可読記憶媒体及びプログラム

Info

Publication number: JP6914236B2
Application number: JP2018233967A
Authority: JP
Inventors: ゲン，レイ
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2018-04-20
Filing date: 2018-12-14
Publication date: 2021-08-04
Anticipated expiration: 2038-12-14
Also published as: US11074924B2; JP2019191554A; US20190325888A1; CN108538305A

Description

本発明は、音声認識技術分野に関し、特に音声認識方法、装置、デバイス、コンピュータ可読記憶媒体及びプログラムに関する。

遠距離音声認識技術の急速な発展に伴って、スマート音声対話は重要な対話手段の１つとなっているが、遠距離音声認識技術を統合したスマートハードウェア製品も速く発展している。スマートホーム特に携帯型スマートハードウェアが低消費電力に対する要求もますます高くなっている。

研究及び実際のテストによれば、遠距離音声応用において、マイクロフォンアレイのフロントエンドノイズ低減アルゴリズムはハードウェアデバイスのプロセッサチップの演算能力に対する需要が極めて高いため、電力消費が高い。

従来の遠距離音声のフロントエンドノイズ低減アルゴリズムの応用において、マイクロフォンアレイが常に録音状態にあり、すべてのフロントエンドノイズ低減アルゴリズムが動作状態にあり、音声ウェイクアップエンジン及び音声認識エンジンも常に動作状態にあるため、ハードウェアデバイスのプロセッサチップの演算量が大幅に増加し、このため、電力消費が大幅に高くなる。

従来技術における以上の技術的問題の少なくとも１つを解決するために、本発明の実施例は音声認識方法、装置、デバイス、コンピュータ可読記憶媒体及びプログラムを提供する。

第一態様によれば、本発明の実施例に係る音声認識方法であって、
マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集することと、
前記第一音声信号をエコーキャンセル処理して、第二音声信号を取得することと、
前記第二音声信号に対してウェイクアップ認識を行うことにより、前記第二音声信号にウェイクアップワードが含まれるかどうかを確定することと、
前記第二音声信号に前記ウェイクアップワードが含まれると確定する場合、前記マイクロフォンアレイを起動して、第三音声信号を収集することと、
前記第三音声信号に対してノイズ低減処理を行うことと、
ノイズ低減処理済みの信号に対して音声認識を行うことと、を含む。

第一態様によれば、本発明の実施例の第一態様の第一実現方式では、前記第三音声信号に対してノイズ低減処理を行うことは、
前記第三音声信号をエコーキャンセル処理して、第四音声信号を取得することと、
前記第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得することと、
前記ビームフォーミング角度に基づいて、前記第四音声信号に対してビームフォーミング処理を行うことと、
ビームフォーミング処理済みの信号に対してノイズ抑制処理を行うことと、
ノイズ抑制処理済みの信号に対して残響除去処理を行うことと、
残響除去処理済みの信号に対して非線形処理を行うことと、を含む。

第一態様によれば、本発明の実施例の第一態様の第二実現方式では、前記第二音声信号に対してウェイクアップ認識を行うことは、
前記第二音声信号を音声ウェイクアップエンジンに送信して、ウェイクアップ認識を行うことを含む。

第一態様によれば、本発明の実施例の第一態様の第三実現方式では、ノイズ低減処理済みの信号に対して音声認識を行うことは、
ノイズ低減処理済みの信号を音声認識エンジンに送信して、音声認識を行うことを含む。

第一態様又は第一態様のいずれかの実現方式によれば、本発明の実施例の第一態様の第四実現方式では、マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集する前に、前記方法は、
マイクロフォンアレイにおける１つのマイクロフォンを動作状態に設定し、ほかのマイクロフォンを非動作状態に設定することを更に含む。

第二態様において、本発明の実施例に係る音声認識装置であって、
マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集するための第一起動モジュールと、
前記第一音声信号をエコーキャンセル処理して、第二音声信号を取得するためのエコーキャンセルモジュールと、
前記第二音声信号に対してウェイクアップ認識を行うことにより、前記第二音声信号にウェイクアップワードが含まれるかどうかを確定するためのウェイクアップ認識モジュールと、
前記第二音声信号に前記ウェイクアップワードが含まれると確定する場合、前記マイクロフォンアレイを起動して、第三音声信号を収集するための第二起動モジュールと、
前記第三音声信号に対してノイズ低減処理を行うためのノイズ低減処理モジュールと、
ノイズ低減処理済みの信号に対して音声認識を行うための音声認識モジュールと、を備える。

第二態様によれば、本発明の実施例の第二態様の第一実現方式では、前記ノイズ低減処理モジュールは、
前記第三音声信号をエコーキャンセル処理して、第四音声信号を取得するためのエコーキャンセルサブモジュールと、
前記第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得するための音源定位サブモジュールと、
前記ビームフォーミング角度に基づいて、前記第四音声信号に対してビームフォーミング処理を行うためのビームフォーミングサブモジュールと、
ビームフォーミング処理済みの信号に対してノイズ抑制処理を行うためのノイズ抑制サブモジュールと、
ノイズ抑制処理済みの信号に対して残響除去処理を行うための残響除去サブモジュールと、
残響除去処理済みの信号に対して非線形処理を行うための非線形サブモジュールと、を備える。

第二態様によれば、本発明の実施例の第二態様の第二実現方式では、前記ウェイクアップ認識モジュールは前記第二音声信号を音声ウェイクアップエンジンに送信して、ウェイクアップ認識を行うことに更に用いられる。

第二態様によれば、本発明の実施例の第二態様の第三実現方式では、前記音声認識モジュールはノイズ低減処理済みの信号を音声認識エンジンに送信して、音声認識を行うことに更に用いられる。

第二態様又は第二態様のいずれかの実現方式によれば、本発明の実施例の第二態様の第四実現方式では、該装置は、
マイクロフォンアレイにおける一部のマイクロフォンを起動して第一音声信号を収集する前に、マイクロフォンアレイにおける１つのマイクロフォンを動作状態に設定し、ほかのマイクロフォンを非動作状態に設定するためのプリセットモジュールを更に備える。

第三態様によれば、本発明の実施例に係る音声認識デバイスであって、
前記デバイスの機能はハードウェアで実現されてもよいし、ハードウェアで対応するソフトウェアを実行することにより実現されてもよい。前記ハードウェア又はソフトウェアは上記機能に対応する１つ又は複数のモジュールを含む。

可能な一設計において、音声認識デバイスの構造にプロセッサ及びメモリが含まれ、前記メモリは音声認識デバイスが上記音声認識方法を実行するようにサポートするプログラムを記憶することに用いられ、前記プロセッサは前記メモリに記憶されるプログラムを実行するように配置される。前記音声認識デバイスは音声認識デバイスがほかのデバイス又は通信ネットワークと通信するための通信インターフェースを更に備えてもよい。

第四態様によれば、本発明の実施例に係るコンピュータ可読記憶媒体であって、音声認識デバイスに使用されるコンピュータソフトウェア命令を記憶することに用いられ、ここで、前記コンピュータソフトウェア命令が上記音声認識方法を実行するために関わるプログラムを含む。

上記技術案のうちの１つの技術案は、まずマイクロフォンアレイにおける一部のマイクロフォンを起動して、音声信号を収集して、エコーをキャンセルし、処理済みの信号を音声ウェイクアップエンジンに送信し、音声ウェイクアップエンジンがウェイクアップワードを認識した後、マイクロフォンアレイの録音及びほかのノイズ低減処理アルゴリズムを起動するという利点又は有益な効果を有する。ウェイクアップ状態になる前に、ほとんどのフロントエンド処理アルゴリズムが起動されず、マイクロフォンアレイにおける一部のみのマイクロフォンが起動されるため、音声認識過程の演算量及び電力消費を大幅に削減することができる。

上記概説は明細書のためのものであって、いかなる方式で制限するためのものではない。上記説明される模式的な態様、実施形態及び特徴を除き、本発明のさらなる態様、実施形態及び特徴は、図面及び以下の詳細な説明によって明らかになる。

図面において、特に断りがない限り、複数の図面における同一記号は同様又は類似する部材又は要素を示す。これらの図面は比率で描かれるとは限らない。これらの図面は本発明の開示に係るいくつかの実施形態を描くものに過ぎず、本発明の範囲を制限するものと見なされるべきではないと理解すべきである。

本発明の一実施例に係る音声認識方法のフローチャートである。本発明の一実施例に係る音声認識方法におけるウェイクアップ過程のフローチャートである。本発明の一実施例に係る音声認識方法におけるウェイクアップ後のフローチャートである。本発明の別の実施例に係る音声認識方法のフローチャートである。本発明の別の実施例に係る音声認識方法の応用例の模式図である。本発明の一実施例に係る音声認識装置のブロック構成図である。本発明の別の実施例に係る音声認識装置のブロック構成図である。本発明の一実施例に係る音声認識デバイスのブロック構成図である。

以下、ある例示的な実施例を簡単に説明する。当業者が理解できるとおり、本発明の趣旨又は範囲を逸脱せずに、様々な方式で説明される実施例を修正することができる。従って、図面及び説明は本質的に例示的なものであって、制限的なものではないと見なされる。

図１は本発明の一実施例に係る音声認識方法のフローチャートである。図１に示すように、該音声認識方法は以下のステップを含む。

１０１では、マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集する。

本発明の実施例において、デバイスのマイクロフォンアレイには複数のマイクロフォンが含まれてもよい。２つの動作状態を予め設定してもよい。第一動作状態において、一部のマイクロフォンのみを起動し、且つプロセッサチップがエコーキャンセルアルゴリズムのみを実行し、音声ウェイクアップエンジンが動作状態にある。第二動作状態において、すべてのマイクロフォンを起動し、プロセッサチップがフロントエンドノイズ低減処理アルゴリズムを実行し、音声ウェイクアップエンジン及び音声認識エンジンがいずれも動作状態にある。フロントエンドノイズ低減処理アルゴリズムはエコーキャンセル、音源定位（Ｓｏｕｎｄｌｏｃａｔｉｏｎ）、ビームフォーミング、ノイズ抑制、残響除去及び非線形処理等の複数の過程を含んでもよい。ここで、エコーキャンセルはＡＥＣ（ＡｃｏｕｓｔｉｃＥｃｈｏＣｏｎｔｒｏｌ、音響エコー制御）アルゴリズムを用いてもよい。

図２に示すように、デバイスに通電した後、デフォルトは第一動作状態にあってもよく、電力消費を削減するために、すべてのマイクロフォンを起動せずに、一部のマイクロフォンを起動して、音源から第一音声信号を収集する。１つのみのマイクロフォンを起動すれば、電力消費を最大限に削減することができる。

１０２では、前記第一音声信号をエコーキャンセル処理して、第二音声信号を取得する。

一部のマイクロフォンが収集した第一音声信号に対して、第一動作状態において、後続のほかのフロントエンドノイズ低減処理を行わず、まずエコーキャンセル処理してもよい。このように、電力消費を更に削減することができる。

１０３では、前記第二音声信号に対してウェイクアップ認識を行うことにより、前記第二音声信号にウェイクアップワードが含まれるかどうかを確定する。

図２に示すように、エコーキャンセルした第二音声信号を音声ウェイクアップエンジンに送信して、ウェイクアップ認識を行うことができる。音声ウェイクアップエンジンは予め設定されたウェイクアップワードを呼び出すことができる。第二音声信号をテキスト情報に変換し、テキスト情報とウェイクアップワードとの類似度を比較することにより、第二音声信号に該ウェイクアップワードが含まれるかどうかを判断する。ウェイクアップワードが１つであってもよいし、複数であってもよく、実際の応用において、具体的なニーズに応じて柔軟に選択することができる。音声ウェイクアップエンジンはウェイクアップワード認識エンジンと称されてもよい。

１０４では、前記第二音声信号に前記ウェイクアップワードが含まれると確定する場合、前記マイクロフォンアレイを起動して、第三音声信号を収集する。

音声ウェイクアップエンジンは第二音声信号に予め設定されたウェイクアップワードがあると認識すれば、マイクロフォンアレイにおけるすべてのマイクロフォンを起動して、第三音声信号を再び収集するように制御することができる。

１０５では、前記第三音声信号に対してノイズ低減処理を行う。

図３に示すように、プロセッサチップはフロントエンドノイズ低減処理アルゴリズムを用いて、すべてのマイクロフォンが再び収集した第三音声信号に対してノイズ低減処理を行うことができる。

１０６では、ノイズ低減処理済みの信号に対して音声認識を行う。

図３に示すように、プロセッサチップはノイズ低減処理済みの信号を音声認識エンジンに送信して、音声認識を行うことができる。音声認識はＡＳＲ（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、自動音声認識）と称されてもよい。

図４は本発明の別の実施例に係る音声認識方法のフローチャートである。上記一実施例を基に、図４に示すように、該音声認識方法のステップ１０５は、
マイクロフォンアレイにより収集された第三音声信号をエコーキャンセル処理して、第四音声信号を取得する２０１と、
前記第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得する２０２と、
前記ビームフォーミング角度に基づいて、前記第四音声信号に対してビームフォーミング処理を行う２０３と、
ビームフォーミング処理済みの信号に対してノイズ抑制処理を行う２０４と、
ノイズ抑制処理済みの信号に対して残響除去処理を行う２０５と、
残響除去処理済みの信号に対して非線形処理を行う２０６と、を含んでもよい。

図３に示すように、マイクロフォンアレイにおけるすべてのマイクロフォンが収集した第三音声信号に対して、すべてのフロントエンドノイズ低減処理アルゴリズムを実行することができる。すべてのフロントエンドノイズ低減処理アルゴリズムはエコーキャンセル、音源定位、ビームフォーミング、ノイズ抑制、残響除去及び非線形処理等のアルゴリズムを含む。まず第三音声信号をエコーキャンセル処理して、第四音声信号を取得する。次に、第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得する。その後、ビームフォーミング角度に基づいて、第四音声信号に対してビームフォーミング処理、ノイズ抑制処理、残響除去処理及び非線形処理を行う。

可能な一実現方式において、該方法は、
マイクロフォンアレイにおける１つのマイクロフォンを動作状態に設定し、ほかのマイクロフォンを非動作状態に設定することを更に含む。

例えば、初期通電状態において、デフォルトはデバイスが第一動作状態にあり、１つのマイクロフォンのみが動作状態にあり、ほかのマイクロフォンが非動作状態にあり、且つ該マイクロフォンの収集した音声信号のみに対してエコーキャンセル処理を起動する。ウェイクアップに成功した後、デバイスが第二動作状態になり、マイクロフォンアレイにおけるすべてのマイクロフォンが動作状態にあり、且つマイクロフォンアレイの収集した音声に対してすべてのフロントエンドノイズ低減処理アルゴリズムを起動する。音声認識を終了した後、デバイスが再び第一動作状態に戻る。

本発明の実施例において、まずマイクロフォンアレイにおける一部のマイクロフォンを起動して、音声信号を収集して、エコーキャンセルし、処理済みの信号を音声ウェイクアップエンジンに送信し、音声ウェイクアップエンジンがウェイクアップワードを認識した後、マイクロフォンアレイの録音及びほかのノイズ低減処理アルゴリズムを起動する。ウェイクアップ状態になる前に、ほとんどのフロントエンド処理アルゴリズムが起動されず、マイクロフォンアレイにおける一部のマイクロフォンのみが起動されるため、音声認識過程の演算量及び電力消費を大幅に削減することができる。

図５は本発明の別の実施例に係る音声認識方法の応用例の模式図である。図５に示すように、初期状態で１つのマイクロフォンのみを起動し、且つプロセッサチップでフロントエンドノイズ低減アルゴリズムを実行する場合を例とし、該音声認識方法は、
デバイスに通電した後、マイクロフォン（ＭＩＣ）アレイにおける１つのマイクロフォンのみが動作状態にあり、プロセッサチップがエコーキャンセルアルゴリズムのみを実行し、且つ音声ウェイクアップエンジンが動作状態にあり、プロセッサチップは該シングルＭＩＣの収集した音声信号に対してシングルエコーキャンセル例えばＡＥＣ処理を行うステップ５０１と、
処理済みの信号を動作状態にある音声ウェイクアップエンジンに送信し、音声ウェイクアップエンジンによりウェイクアップワードを認識したかどうかを判断し、ウェイクアップワードを認識しない場合、現在の動作状態を維持し続け、１つのＭＩＣで録音し続け、音声ウェイクアップエンジンによりウェイクアップワードを認識した後、マイクロフォンアレイの録音、ほかのフロントエンドアルゴリズム及び音声認識エンジンを起動するステップ５０２と、
マルチＭＩＣの収集した音声信号に対してＡＥＣ処理を行った後、音源定位アルゴリズムモジュールに入力し、音源定位アルゴリズムによって正確なビームフォーミング角度を取得するステップ５０３と、
ビームフォーミング角度を設定し、エコーキャンセルアルゴリズムで処理されたオーディオ信号をビームフォーミングアルゴリズムで処理し、次にノイズ抑制、残響除去及び非線形処理等のアルゴリズムで処理し、処理済みのオーディオ信号を遠距離音声認識エンジン例えばＡＳＲ音声認識エンジンに送信するステップ５０４と、
音声認識を行い、音声認識を完了した後、デバイスはシングルマイクロフォン、エコーキャンセルアルゴリズム及び音声ウェイクアップエンジンのみを起動する動作状態に戻ってもよいステップ５０５と、を含んでもよい。

本実施例において、デバイスに通電した後、マイクロフォンアレイにおける１つのマイクロフォンのみを動作状態にして、音声信号を収集して、シングルエコーキャンセルを行い、処理済みの信号を動作状態にある音声ウェイクアップエンジンに送信する。音声ウェイクアップエンジンがウェイクアップワードを認識した後、音源オブジェクト例えば話している人の位置情報を取得する。次に、マイクロフォンアレイの録音、ほかのフロントエンドアルゴリズム及び音声認識エンジンを起動する。ウェイクアップ状態になる前に、ほとんどのフロントエンド処理アルゴリズムが起動されず、マイクロフォンアレイにおける一部のマイクロフォンのみが起動されるため、プロセッサチップの演算量を大幅に削減し、更にマイクロフォンアレイ及びプロセッサチップにおけるハードウェアの電力消費を大幅に削減する。

図６は本発明の一実施例に係る音声認識装置のブロック構成図である。図６に示すように、該装置は、
マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集するための第一起動モジュール４１と、
前記第一音声信号をエコーキャンセル処理して、第二音声信号を取得するためのエコーキャンセルモジュール４２と、
前記第二音声信号に対してウェイクアップ認識を行うことにより、前記第二音声信号にウェイクアップワードが含まれるかどうかを確定するためのウェイクアップ認識モジュール４３と、
前記第二音声信号に前記ウェイクアップワードが含まれると確定する場合、前記マイクロフォンアレイを起動して、第三音声信号を収集するための第二起動モジュール４４と、
前記第三音声信号に対してノイズ低減処理を行うためのノイズ低減処理モジュール４５と、
ノイズ低減処理済みの信号に対して音声認識を行うための音声認識モジュール４６と、を備える。

図７は本発明の別の実施例に係る音声認識装置のブロック構成図である。図７に示すように、上記実施例を基に、該装置のノイズ低減処理モジュール４５は、
前記第三音声信号をエコーキャンセル処理して、第四音声信号を取得するためのエコーキャンセルサブモジュールと、
前記第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得するための音源定位サブモジュールと、
前記ビームフォーミング角度に基づいて、前記第四音声信号に対してビームフォーミング処理を行うためのビームフォーミングサブモジュールと、
ビームフォーミング処理済みの信号に対してノイズ抑制処理を行うためのノイズ抑制サブモジュールと、
ノイズ抑制処理済みの信号に対して残響除去処理を行うための残響除去サブモジュールと、
残響除去処理済みの信号に対して非線形処理を行うための非線形サブモジュールと、を備えてもよい。

可能な一実現方式において、前記ウェイクアップ認識モジュール４３は前記第二音声信号を音声ウェイクアップエンジンに送信して、ウェイクアップ認識を行うことに更に用いられる。

可能な一実現方式において、前記音声認識モジュール４６は更にノイズ低減処理済みの信号を音声認識エンジンに送信して、音声認識を行うことに用いられる。

可能な一実現方式において、該装置は、
マイクロフォンアレイにおける一部のマイクロフォンを起動して第一音声信号を収集する前に、マイクロフォンアレイにおける１つのマイクロフォンを動作状態に設定し、ほかのマイクロフォンを非動作状態に設定するためのプリセットモジュール５１を更に備える。

本発明の実施例の各装置におけるモジュールの機能は上記方法における対応する説明を参照するともよく、ここで詳細な説明は省略する。

図８は本発明の一実施例に係る音声認識デバイスのブロック構成図である。図８に示すように、該音声認識デバイスはメモリ９１０及びプロセッサ９２０を備え、メモリ９１０にはプロセッサ９２０で実行できるコンピュータプログラムが記憶される。前記プロセッサ９２０が前記コンピュータプログラムを実行する時、上記実施例における音声認識方法を実現する。前記メモリ９１０及びプロセッサ９２０の数が１つ又は複数であってもよい。

該音声認識装置は、
外部デバイスと通信して、データ交換伝送を行うための通信インターフェース９３０を更に備える。

メモリ９１０は高速ＲＡＭメモリを含む可能性もあるし、更に不揮発性メモリ（ｎｏｎ−ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えば少なくとも１つの磁気ディスクメモリを含む可能性もある。

メモリ９１０、プロセッサ９２０及び通信インターフェース９３０が独立して実現する場合、メモリ９１０、プロセッサ９２０及び通信インターフェース９３０はバスで互いに接続され、且つ相互間の通信を実現することができる。前記バスは業界標準アーキテクチャ（ＩＳＡ、ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ペリフェラルコンポーネント（ＰＣＩ、ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔ）バス又は拡張業界標準アーキテクチャ（ＥＩＳＡ、ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＣｏｍｐｏｎｅｎｔ）バス等であってもよい。前記バスはアドレスバス、データバス、制御バス等に分けられてもよい。示しやすくするために、図８では１本のみの太線で示すが、１本のみのバス又は１つのタイプのみのバスを有すると示さない。

選択的に、具体的に実現する時、メモリ９１０、プロセッサ９２０及び通信インターフェース９３０が１枚のチップに統合される場合、メモリ９１０、プロセッサ９２０及び通信インターフェース９３０は内部インターフェースによって相互間の通信を実現することができる。

本発明の実施例は、上記音声認識方法を実行するために関わるプログラムを含む、音声認識装置に使用されるコンピュータソフトウェア命令を記憶するためのコンピュータ可読記憶媒体を提供する。

本明細書の説明において、用語「一実施例」、「いくつかの実施例」、「例」、「具体例」、又は「いくつかの例」等の説明とは、該実施例又は例を参照すると説明した具体的な特徴、構造、材料又は特性が本発明の少なくとも１つの実施例又は例に含まれることを意味する。且つ、説明される具体的な特徴、構造、材料又は特性はいずれか１つ又は複数の実施例又は例で適切な方式で結合してもよい。また、矛盾しない限り、当業者は本明細書に説明される様々な実施例又は例、及び様々な実施例又は例の特徴を結合及び組み合わせすることができる。

また、用語の「第一」、「第二」は説明のためのものに過ぎず、相対重要性を指示又は示唆し、又は指示された技術的特徴の数を暗示すると理解すべきではない。従って、「第一」、「第二」で制限された特徴は少なくとも１つの該特徴を明示的又は暗示的に含んでもよい。本発明の説明において、特に明確且つ具体的に制限しない限り、「複数」の意味は２つ又は２つ以上である。

当業者であれば、フローチャートにおける、又はここでほかの方式で説明されるいかなる過程又は方法についての説明は、確定の論理機能又は過程を実現するための１つ又は複数のステップの実行可能命令のコードを含むモジュール、セグメント又は部分を示すと理解されてもよく、且つ本発明の好適な実施形態の範囲はほかの実現を含み、指示又は検討される順序通りでなくてもよく、関わる機能に基づいて、ほぼ同時に、又は逆順序で機能を実行してもよいと理解すべきである。

フローチャートに示す、又はここでほかの方式で説明される論理及び／又はステップは、例えば、論理機能を実現するための実行可能命令の順序付けリストであると見なされてもよく、具体的にいかなるコンピュータ可読媒体に実現されてもよく、命令実行システム、装置又はデバイス（例えばコンピュータに基づくシステム、プロセッサを含むシステム又は命令実行システム、装置又はデバイスから命令を受信し且つ命令を実行するシステム）の使用に備え、又はこれらの命令実行システム、装置又はデバイスと組み合わせて使用される。本明細書については、「コンピュータ可読媒体」はプログラムを包含、記憶、通信、伝播又は伝送することにより、命令実行システム、装置又はデバイス、又はこれらの命令実行システム、装置又はデバイスと組み合わせて使用されるいかなる装置であってもよい。コンピュータ可読媒体のさらなる具体例（非網羅的リスト）は、１つ又は複数の配線を有する電気接続部（電子装置）、ポータブルコンピュータケース（磁気装置）、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、電気的消去再書込み可能な読出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー装置、及び携帯型読み出し専用メモリ（ＣＤＲＯＭ）を含む。また、コンピュータ可読媒体は更にその上に前記プログラムを印刷できる用紙又はほかの適切な媒体であってもよい理由は、例えば用紙又はほかの媒体を光学的に走査し、次に編集、解釈し、又は必要な時にほかの適切な方式で処理して、電子方式で前記プログラムを取得し、次にそれをコンピュータメモリに記憶することができるためである。

本発明の各部分はハードウェア、ソフトウェア、ファームウェア又はそれらの組み合わせで実現されてもよいと理解すべきである。上記実施形態において、複数のステップ又は方法は、メモリに記憶される、且つ適切な命令実行システムで実行するソフトウェア又はファームウェアで実現されてもよい。例えば、ハードウェアで実現する場合は、別の実施形態と同様に、データ信号に対して論理機能を実現する論理ゲート回路を有する離散論理回路、適切な組み合わせ論理ゲート回路を有する確定用途向け集積回路、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）等の本分野での公知技術のうちのいずれか１つ又はそれらの組み合わせで実現してもよい。

当業者であれば、上記実施例方法におけるステップの全部又は一部の実現がプログラムによって関連するハードウェアを命令して完了させてもよく、前記プログラムがコンピュータ可読記憶媒体に記憶されてもよく、実行時に、該プログラムは方法実施例のステップの１つ又はそれらの組み合わせを含むと理解される。

また、本発明の各実施例における各機能ユニットが１つの処理モジュールに統合されてもよく、各ユニットが独立して物理的に存在してもよく、２つ又は２つ以上のユニットが１つのモジュールに統合されてもよい。上記統合モジュールはハードウェアのタイプで実現されてもよいし、ソフトウェア機能モジュールのタイプで実現されてもよい。前記統合モジュールはソフトウェア機能モジュールのタイプで実現され、且つ独立した製品として販売又は使用される時、１つのコンピュータ可読記憶媒体に記憶されてもよい。前記記憶媒体は読み出し専用メモリ、磁気ディスク又は光ディスク等であってもよい。

以上の説明は、本発明の具体的な実施形態に過ぎず、本発明の保護範囲を制限するためのものではなく、当業者が本発明に開示される技術的範囲内に容易に想到し得る種々の変更又は置換は、いずれも本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の範囲に準じるべきである。

Claims

音声認識方法であって、
マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集することと、
前記第一音声信号に対して、エコーキャンセル、音源定位、ビームフォーミング、ノイズ抑制、残響除去及び非線形処理を含むノイズ低減処理のうちの前記エコーキャンセル処理のみを行って、第二音声信号を取得することと、
前記第二音声信号に対してウェイクアップ認識を行うことにより、前記第二音声信号にウェイクアップワードが含まれるかどうかを確定することと、
前記第二音声信号に前記ウェイクアップワードが含まれると確定する場合、前記マイクロフォンアレイにおけるすべてのマイクロフォンを起動して、第三音声信号を収集することと、
前記第三音声信号に対して、前記エコーキャンセル処理と、前記ノイズ低減処理のうちの前記エコーキャンセル処理以外の他の処理とを行うことと、
ノイズ低減処理済みの信号に対して音声認識を行うことと、を含み、
前記第二音声信号にウェイクアップワードが含まれるかどうかを確定することは、前記第二音声信号に前記ウェイクアップワードが含まれていないと判断した場合、前記一部のマイクロフォンによって前記第一音声信号を収集すること、及び前記第二音声信号を取得することをさらに行って、新に取得された第二音声信号に前記ウェイクアップワードが含まれるかどうかを確定することを含むことを特徴とする音声認識方法。
前記第三音声信号に対してノイズ低減処理を行うことは、
前記第三音声信号をエコーキャンセル処理して、第四音声信号を取得することと、
前記第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得することと、
前記ビームフォーミング角度に基づいて、前記第四音声信号に対してビームフォーミング処理を行うことと、
ビームフォーミング処理済みの信号に対してノイズ抑制処理を行うことと、
ノイズ抑制処理済みの信号に対して残響除去処理を行うことと、
残響除去処理済みの信号に対して非線形処理を行うことと、を含むことを特徴とする請求項１に記載の方法。
前記第二音声信号に対してウェイクアップ認識を行うことは、
前記第二音声信号を音声ウェイクアップエンジンに送信して、ウェイクアップ認識を行うことを含むことを特徴とする請求項１に記載の方法。
ノイズ低減処理済みの信号に対して音声認識を行うことは、
ノイズ低減処理済みの信号を音声認識エンジンに送信して、音声認識を行うことを含むことを特徴とする請求項１に記載の方法。
マイクロフォンアレイにおける一部のマイクロフォンを起動して第一音声信号を収集する前に、前記方法は、
マイクロフォンアレイにおける１つのマイクロフォンを動作状態に設定し、ほかのマイクロフォンを非動作状態に設定することを更に含むことを特徴とする請求項１〜４のいずれか一項に記載の方法。
音声認識装置であって、
マイクロフォンアレイにおける一部のマイクロフォンを起動して、第一音声信号を収集するための第一起動モジュールと、
前記第一音声信号に対して、エコーキャンセル、音源定位、ビームフォーミング、ノイズ抑制、残響除去及び非線形処理を含むノイズ低減処理のうちの前記エコーキャンセル処理のみを行って、第二音声信号を取得するためのエコーキャンセルモジュールと、
前記第二音声信号に対してウェイクアップ認識を行うことにより、前記第二音声信号にウェイクアップワードが含まれるかどうかを確定するためのウェイクアップ認識モジュールと、
前記第二音声信号に前記ウェイクアップワードが含まれると確定する場合、前記マイクロフォンアレイにおけるすべてのマイクロフォンを起動して、第三音声信号を収集するための第二起動モジュールと、
前記第三音声信号に対して、前記エコーキャンセル処理と、前記ノイズ低減処理のうちの前記エコーキャンセル処理以外の他の処理とを行うためのノイズ低減処理モジュールと、
ノイズ低減処理済みの信号に対して音声認識を行うための音声認識モジュールと、を備え、
前記ウェイクアップ認識モジュールが前記第二音声信号に前記ウェイクアップワードが含まれていないと判断した場合、前記第一起動モジュールは、第一音声信号を新たに取得し、前記エコーキャンセルモジュールは、新たに取得された前記第一音声信号に対して前記エコーキャンセル処理を行って、第二音声信号を新に取得し、前記ウェイクアップ認識モジュールは、新たに取得された前記第二音声信号に対して前記ウェイクアップワードが含まれるかどうかを確定することを特徴とする音声認識装置。
前記ノイズ低減処理モジュールは、
前記第三音声信号をエコーキャンセル処理して、第四音声信号を取得するためのエコーキャンセルサブモジュールと、
前記第四音声信号に対して音源定位処理を行って、ビームフォーミング角度を取得するための音源定位サブモジュールと、
前記ビームフォーミング角度に基づいて、前記第四音声信号に対してビームフォーミング処理を行うためのビームフォーミングサブモジュールと、
ビームフォーミング処理済みの信号に対してノイズ抑制処理を行うためのノイズ抑制サブモジュールと、
ノイズ抑制処理済みの信号に対して残響除去処理を行うための残響除去サブモジュールと、
残響除去処理済みの信号に対して非線形処理を行うための非線形サブモジュールと、を備えることを特徴とする請求項６に記載の装置。
前記ウェイクアップ認識モジュールは前記第二音声信号を音声ウェイクアップエンジンに送信して、ウェイクアップ認識を行うことに更に用いられることを特徴とする請求項６に記載の装置。
前記音声認識モジュールはノイズ低減処理済みの信号を音声認識エンジンに送信して、音声認識を行うことに更に用いられることを特徴とする請求項６に記載の装置。
マイクロフォンアレイにおける一部のマイクロフォンを起動して第一音声信号を収集する前に、マイクロフォンアレイにおける１つのマイクロフォンを動作状態に設定し、ほかのマイクロフォンを非動作状態に設定するためのプリセットモジュールを更に備えることを特徴とする請求項６〜９のいずれか一項に記載の装置。
音声認識デバイスであって、
１つ又は複数のプロセッサと、
１つ又は複数のプログラムを記憶するための記憶装置と、を備え、
前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサにより実行される時、前記１つ又は複数のプロセッサに請求項１〜５のいずれか一項に記載の方法を実現させることを特徴とする音声認識デバイス。
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
該プログラムがプロセッサにより実行される時、請求項１〜５のいずれか一項に記載の方法を実現することを特徴とするコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行される場合、請求項１〜５のいずれか一項に記載の方法を実現することを特徴とするプログラム。