JP2021515281A

JP2021515281A - 音声認識方法、装置、コンピュータデバイス、電子機器及びコンピュータプログラム

Info

Publication number: JP2021515281A
Application number: JP2020570624A
Authority: JP
Inventors: 毅高; 脊萌 ▲鄭▼; 蒙于; ▲敏▼ ▲羅▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-28
Filing date: 2019-05-06
Publication date: 2021-06-17
Anticipated expiration: 2039-05-06
Also published as: EP3816995A1; WO2020001163A1; CN110164446A; CN110364166A; US11217229B2; EP3816995A4; US20200335088A1; CN110164446B; JP7109852B2; CN110364166B

Abstract

本出願は、音声認識方法、装置、コンピュータデバイス及び電子機器に関する。方法は、マイクアレイによって収集されたオーディオ信号を受信するステップと、オーディオ信号に対して複数の異なるターゲット方向でそれぞれビーム形成処理を行い、対応する複数のビーム信号を取得するステップと、各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を取得するステップと、各ビーム信号の音声認識結果に基づいて、オーディオ信号の音声認識結果を決定するステップと、を含む。この方法は、音源方向を考慮する必要がなく異なるターゲット方向でビーム形成処理を行うことで、少なくとも１つのターゲット方向が実際の音声発生方向に近くなるため、ターゲット方向に強化された少なくとも１つのビーム信号が明確になり、各ビーム信号に従って音声認識を行い、音声認識の正確率を向上させることができる。

Description

本出願は、２０１８年０６月２８日に中国特許庁に提出された、出願番号が２０１８１０６８９６６７.５であって、出願の名称が「音声信号認識方法、装置、コンピュータデバイス及び電子機器」である中国特許出願の優先権を主張するものであり、その全内容を本出願に参照により援用する。

本出願は、音声インタラクション技術分野に関し、特に、音声認識方法及び装置、コンピュータデバイス及び電子機器に関する。

スマート音声インタラクションは、音声コマンドによりマンマシンインタラクションを実現する技術である。音声インタラクション技術を電子機器に埋め込むことにより、電子機器を人工知能化にし、人工知能化された電子機器は現在、ユーザーにますます人気が高まっている。例えば、ＡｍａｚｏｎのＥｃｈｏスマートスピーカーは市場で大成功した。

音声インタラクション技術を埋め込んだ電子機器では、ユーザーの音声コマンドを正確に認識することが、マンマシンインタラクションを実現できる基礎となる。ユーザーが電子機器を使用する環境は不確実であるので、ユーザーが環境ノイズの大きいシーンにある場合、如何に音声認識に対する環境ノイズの影響を低減し、電子機器の音声認識の正確率を向上させるかは、解決すべき問題の一つである。

一般的に、関連する技術ではこの問題を解決する方法として、まず、マイクアレイ内の全てマイクによってオーディオ信号を収集し、収集されたオーディオ信号に応じて音源角度を決定し、音源角度に応じてオーディオ信号を指向性に収集することで、不要なノイズの干渉を低減できる。この方法は、音源角度の精度に影響され、音源角度を誤って検出すると、音声認識の正確率が低下してしまう。

これに鑑みて、本出願の実施例は、関連技術における音声認識精度が低い問題を解決することができる音声認識方法及び装置、コンピュータデバイス及び電子機器を提供する。

音声認識方法であって、
マイクアレイによって収集されたオーディオ信号を受信するステップと、
前記オーディオ信号に対して複数の異なるターゲット方向でそれぞれビーム形成処理を行い、対応する複数のビーム信号を取得するステップと、
各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を取得するステップと、
各ビーム信号の音声認識結果に基づいて、オーディオ信号の音声認識結果を決定するステップと、を含む。

音声認識装置であって、
マイクアレイによって収集されたオーディオ信号を受信するためのオーディオ信号受信モジュールと、
前記オーディオ信号に対して複数の異なるターゲット方向でそれぞれビーム形成処理を行い、対応する複数のビーム信号を取得するためのビームフォーマーと、
各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を取得するための音声認識モジュールと、
各ビーム信号の音声認識結果に基づいて、前記オーディオ信号の音声認識結果を決定するための処理モジュールと、を含む。

コンピュータデバイスであって、マイクアレイ、メモリ及びプロセッサーを含み、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムが前記プロセッサーによって実行される場合、前記プロセッサーに上記のような方法のステップを実行させる。

電子機器であって、
少なくとも２層のリング構造を含む、オーディオ信号を収集するためのマイクアレイと、
前記マイクアレイに接続されて、前記オーディオ信号を処理するプロセッサーと、
コンピュータプログラムが記憶されているメモリと、
前記マイクアレイ及び前記プロセッサーをパッケージングするケースと、を含み、
前記コンピュータプログラムが前記プロセッサーによって実行される場合、前記プロセッサーに、上記のような音声認識方法を実行させる。

上記の音声認識方法及び装置、コンピュータデバイス及び電子機器は、マイクアレイによって収集されたオーディオ信号に対して複数の異なるターゲット方向でそれぞれビーム形成処理を行うことで、対応する複数のビーム信号を取得し、異なるターゲット方向で音声強化処理を行うことを実現し、各ターゲット方向で強化処理されたビーム信号を明確に抽出することができる。即ち、この方法は、音源方向を考慮する必要がなく異なるターゲット方向でビーム形成処理を行うことで、少なくとも１つのターゲット方向が実際の音声発生方向に近くなるため、ターゲット方向で強化された少なくとも１つのビーム信号が明確になり、各ビーム信号に従って音声認識を行い、音声認識の正確率を向上させることができる。

一実施例における音声認識方法の概略フローチャートである。一実施例におけるマイクアレイの模式図である。一実施例における４つのターゲット方向でビーム形成処理を行って得られるビーム信号の模式図である。一実施例におけるビームフォーマーと音声認識モデルとのインタラクションの模式図である。一実施例における音声認識モデルの構造の模式図である。一実施例における音声認識モデルのニューラルネットワークノードがウェイクワードを検出した場合の信号の模式図である。一実施例の音声認識のアーキテクチャ図である。一実施例におけるマイクアレイの模式図である。他の実施例におけるマイクアレイの模式図である。一実施例における音声認識方法のステップの概略フローチャートである。一実施例における音声認識装置の構造ブロック図である。一実施例におけるコンピュータデバイスの構造ブロック図である。

本出願の目的、技術案及び利点をより明確にするために、以下、添付の図面および実施例を結合して、本出願をさらに詳細に説明する。ここで説明する実施例は、本出願を説明するためのもので、本出願を限定しない。

一実施例では、音声認識方法を提供する。本実施例では、主に当該方法を音声認識デバイスに適用する例として説明する。音声認識デバイスは、音声インタラクション技術が埋め込まれた電子機器であってもよく、この電子機器は、マンマシンインタラクションを実現できるスマート端末、スマート家電、又はロボット等であってもよい。図１に示すように、当該音声認識方法は次のステップを含む。

Ｓ１０２：マイクアレイによって収集されたオーディオ信号を受信する。

マイクアレイは、マイクの配列を指し、一定数のマイクで構成される。各マイクは環境音のマナログ信号を収集し、アナログデジタルコンバーター、ゲインコントローラー、コーデック等のオーディオ収集デバイスを介して、このマナログ信号をデジタルオーディオ信号に変換する。

異なる配列のマイクアレイは、オーディオ信号を収集する効果が異なる。

例えば、マイクアレイは、１次元のマイクアレイを使用でき、そのアレイ・エレメント中心は同じ直線上にある。隣接するアレイ・エレメントのピッチが同じであるかどうかに応じて、均一リニアアレイ(ＵｎｉｆｏｒｍＬｉｎｅａｒＡｒｒａｙ、ＵＬＡ)及びネスティングリニアアレイに分けることができる。均一リニアアレイは、最も単純なアレイトポロジーであり、そのアレイ・エレメント間の距離は等しく、位相と感度は一致する。ネスティングリニアアレイは、いくつか組みの均一リニアアレイの重ね合わせと見なすことができ、特別な非均一アレイである。このようなリニアマイクアレイは、水平方向で、３６０度の範囲全体の音源方向を区別できず、１８０度の範囲内の音源方向しか区別できない。このようなリニアマイクアレイは、１８０度の範囲の適用環境に適応できる。例えば、音声認識デバイスは壁に当たっているか、音源が１８０度の範囲である環境にある。

また、例えば、マイクアレイは、２次元のマイクアレイ、即ち、平面マイクアレイを使用でき、そのアレイ・エレメント中心は１つの平面上に分布される。アレイの幾何学的形状に応じて、正三角形アレイ、Ｔ字アレイ、均一円形アレイ、均一正方形アレイ、同軸円形アレイ、円形または長方形のエリアアレイなどに分けることができる。平面マイクアレイは、信号の水平方位角及び垂直方位角の情報を取得できる。このような平面マイクアレイは、３６０度の範囲の適用環境に適応できる。例えば、音声認識デバイスは、異なる向きから音を受信する必要がある。

さらに、例えば、マイクアレイは、３次元のマイクアレイ、即ち、ステレオマイクアレイを使用でき、そのアレイ・エレメント中心は３次元の空間に分布される。アレイの３次元形状に応じて、四面体アレイ、立方体アレイ、直方体アレイ、球面アレイなどに分けることができる。３次元マイクアレイは、信号の水平方位角、垂直方位角、音源とマイクアレイ参照点との距離という３種類の情報を取得できる。

ここで、マイクアレイがリングである例として説明する。実施例であるリングマイクアレイを図２に示す。本実施例では、順に０度、６０度、１２０度、１８０度、２４０度、３００度の方位角で、半径がＲの円周上に配置した６つの物理マイクを使用し、この６つの物理マイクは１つのリングマイクアレイを構成する。各マイクは、環境音のマナログ信号を収集し、アナログデジタルコンバーター、ゲインコントローラー、コーデック等のオーディオ収集デバイスを介して、このマナログ信号をデジタル音信号に変換する。リングマイクアレイは、３６０度で音声信号を収集できる。

Ｓ１０４：収集されたオーディオ信号に対して複数の異なるターゲット方向でビーム形成処理をそれぞれ行い、対応する複数のビーム信号を得る。

ビーム形成は、マイクアレイ内の各マイクから出力されたオーディオ信号に遅延、位相補償、又は振幅重み付け処理を実行して、特定の方向を指すビームを形成する。例えば、マイクアレイによって収集されたオーディオ信号に対して、０度、９０度、１８０度又は２７０度の方向で、ビームを形成し、０度、９０度、１８０度又は２７０度方向を指すビームを形成する。

一例として、ビームフォーマーを使用して、オーディオ信号に対して設定の方向でそれぞれビーム形成処理を行う。ビームフォーマーは、特定のマイクアレイ設計に基づくアルゴリズムであり、特定の１つ又は複数のターゲット方向のオーディオ信号を強化し、非ターゲット方向のオーディオ信号を抑制することができる。ビームフォーマーは、任意のタイプの方向を設定できるビームフォーマーであってもよく、超指向性ビームフォーマー、ＭＶＤＲ(ＭｉｎｉｍｕｍＶａｒｉａｎｃｅＤｉｓｔｏｒｔｉｏｎｌｅｓｓＲｅｓｐｏｎｓｅ、最小分散歪みなし応答)又はＭＵＳＩＣ(ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ、複数信号分類)アルゴリズムに基づくビームフォーマーを含むが、これらに限定されない。

本実施例では、複数のビームフォーマーを設置しており、各ビームフォーマーは、異なる方向でビーム形成処理を行う。例として、複数のマイクのデジタルオーディオ信号はマイクアレイ信号を構成し、複数のビームフォーマーに送信される。各ビームフォーマーは、異なる設定方向のオーディオ信号に対して強化処理を行い、他の方向のオーディオ信号を抑制し、設定方向から外れるオーディオ信号ほど抑制され、設定方向に近いオーディオ信号を抽出することができる。

一実施例では、４つのビームフォーマーを設置しており、それぞれ０度、９０度、１８０度、及び２７０度でオーディオ信号に対してビーム形成処理を行う。複数の方向でオーディオ信号に対してビーム形成処理を行うことで得られる複数のビーム信号の模式図を図３に示す。各ビームフォーマーに入力されるオーディオ信号は、このオーディオ信号を収集するマイクアレイの配列に限定されない。複数のターゲット方向でそれぞれビーム形成処理を行う場合、ターゲット方向のオーディオ信号に対して強化処理を行い、他の方向のオーディオ信号の干渉を減らすことができる。よって、例として、このオーディオ信号を収集するマイクアレイには、少なくとも２つの異なる方向のマイクを有する。

図２に示すマイクアレイを利用してオーディオ信号を収集する例として、図３に示すように、複数のマイクのデジタルオーディオ信号をマイクアレイ信号として構成し、０度方向の音声はそのまま維持し(０ｄＢゲイン)、６０度と３３０度方向の音声は９ｄＢを超える(約-９ｄＢゲイン)抑制効果があり、９０度と２７０度方向の音声は２０ｄＢを超える抑制効果がある。線が円心に近いほど、この方向の音がより抑制されるため、０度方向のオーディオ信号が強化され、他の方向のオーディオ信号の干渉を減らすことができる。

引き続き図３を参照して、複数のマイクのデジタルオーディオ信号をマイクアレイ信号として構成し、９０度方向の音声はそのまま維持し(０ｄＢゲイン)、３０度と１５０度方向の音声は９ｄＢを超える(約-９ｄＢゲイン)抑制効果があり、０度と１８０度方向の音声は２０ｄＢを超える抑制効果がある。線が円心に近いほど、この方向の音がより抑制されるため、９０度方向のオーディオ信号が強化され、他の方向のオーディオ信号の干渉を減らすことができる。

引き続き図３を参照して、複数のマイクのデジタルオーディオ信号をマイクアレイ信号として構成し、１８０度方向の音声はそのまま維持し(０ｄＢゲイン)、１２０度と２４０度方向の音声は９ｄＢを超える(約-９ｄＢゲイン)抑制効果があり、９０度と２７０度方向の音声は２０ｄＢを超える抑制効果がある。線が円心に近いほど、この方向の音がより抑制されるため、１８０度方向のオーディオ信号が強化され、他の方向のオーディオ信号の干渉を減らすことができる。

引き続き図３を参照して、複数のマイクのデジタルオーディオ信号をマイクアレイ信号として構成し、２７０度方向の音声はそのまま維持し(０ｄＢゲイン)、２１０度と３３０度方向の音声は９ｄＢを超える(約-９ｄＢゲイン)抑制効果があり、１８０度と０度方向の音声は２０ｄＢを超える抑制効果がある。線が円心に近いほど、この方向の音がより抑制されるため、２７０度方向のオーディオ信号が強化され、他の方向のオーディオ信号の干渉を減らすことができる。

他のターゲット方向でオーディオ信号を強化するために、他の実施例では、他の方向のビーム信号を抽出するように、より多いまたはより少ないビームフォーマーを設置することができる。設定された複数の異なるターゲット方向でそれぞれビーム形成処理を行うことによって、当該ビームフォーマーのビーム信号は、ターゲット方向のオーディオ信号を強化し、他の方向のオーディオ信号の干渉を減らすことができる。複数のターゲット方向のオーディオ信号のうち、少なくとも一つのビーム信号は実際の音方向に近く、即ち、少なくとも一つのビーム信号は実際の音を反映することができるとともに他の方向のノイズの干渉を低減する。

本実施例では、マイクアレイによって収集されたオーディオ信号に対して、音源方向を識別する必要はなく、設定された複数の異なるターゲット方向でビーム形成処理を行う。このようにする利点は、複数のターゲット方向のビーム信号を取得でき、その中に、必ず少なくとも１つのビーム信号は実際の音の方向に近く、即ち、少なくとも１つのビーム信号は実際の音を反映することができる。この方向のビームフォーマーは、この方向のオーディオ信号に対して強化処理を行い、他の方向のオーディオ信号に対して抑制処理を行うことで、実際の音の方向に対応する角度のオーディオ信号を強化し、即ち、他の方向のオーディオ信号を減らすことができ、この方向のオーディオ信号を明確に抽出し、他の方向のオーディオ信号(ノイズを含む)の干渉を減らすことができる。

Ｓ１０６：各ビーム信号に対して音声認識をそれぞれに行い、各ビーム信号の音声認識結果を得る。

本実施例では、ビーム信号ごとにそれぞれ音声認識を行う。設定の複数の異なるターゲット方向でオーディオ信号に対してビーム形成処理を行い、複数のビーム信号を得る、即ち、一つのビーム信号について、設定のターゲット方向のオーディオ信号に対して強化処理を行い、未設定のターゲット方向のオーディオ信号に対して抑制処理を行うことによって得られる。よって、各ビーム信号は異なる方向のオーディオ信号の音声強化信号を反映でき、各方向のビーム信号に従って音声認識を行うことで、人の声を含む音声強化信号について、音声認識の正確率を向上させることができる。

Ｓ１０８、各ビーム信号の音声認識結果に従って、収集されたオーディオ信号の音声認識結果を決定する。

各ビーム信号に対して音声認識を行うことで、対応する方向のオーディオ信号の音声認識の正確率を向上させることができ、各方向のビーム信号の音声認識結果に従って、複数の方向からのオーディオ信号の音声認識結果を得ることができ、即ち、各音声強化された音声認識結果を組み合わせて、収集されたオーディオ信号の音声認識結果を得ることができる。

上記の音声認識方法では、マイクアレイによって収集されたオーディオ信号に対して、設定の複数の異なるターゲット方向でビーム形成処理を行い、対応する複数のビーム信号を得ることで、それぞれ異なるターゲット方向で音声強化処理を行った後に、各ターゲット方向で強化処理されたビーム信号を明確に抽出することができる。即ち、この方法は、音源方向を考慮する必要がなく、異なるターゲット方向でビーム形成処理を行うことで、少なくとも１つのターゲット方向が実際の音声発生方向に近いため、少なくとも１つのターゲット方向で強化されたビーム信号が明確になるため、各ビーム信号に従って音声認識を行い、音声認識の正確率を向上させることができる。

別の実施例では、各ビーム信号に対してそれぞれ音声認識を行い、各ビーム信号の音声認識結果を得ることは、各ビーム信号を対応する音声認識モデルにそれぞれに入力し、各音声認識モデルにより対応するビーム信号を並行して音声認識し、各ビーム信号の音声認識結果を得ることを含む。

一例として、音声認識モデルは、ニューラルネットワークモデルを使用して予めトレーニングされる。予めトレーニングされたニューラルネットワークパラメータによって、各ビーム信号に対応する特徴ベクトル、例えば、エネルギーとサブバンド特徴などを、レイヤーごとに算出して、音声認識を行う。

別の実施例では、ビームフォーマーの数に対応する音声認識モデルを設置して、即ち、１つのビームフォーマーが１つの音声認識モデルに対応する。図４に示すように、一例として、各ビーム信号を対応する音声認識モデルにそれぞれ入力し、各音声認識モデルにより対応するビーム信号を並行して音声認識し、各ビーム信号の音声認識結果を得る。

本実施例では、ビームフォーマーの数に対応する音声認識モデルを設置し、各ビーム信号に対して並行して音声認識を行うことで、音声認識の効率を向上させることができる。

一例として、１つのビームフォーマーと１つの音声認識モデルは、ペアにして１つのＣＰＵ(ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理ユニット)又はＤＳＰ(ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、デジタル信号プロセッサー)で実行して、即ち、複数のビームフォーマーと音声認識モデルはペアにして複数のＣＰＵで実行し、そして音声認識モデルの音声認識結果を組み合わせて最終的な音声認識結果を得る。このような並行演算により、ソフトウェアの実行速度を大幅に向上させることができる。

本実施例では、異なるハードウェアコンピューティングユニットによって処理して、計算量を分担し、システムの安定性を向上させ、音声認識応答の速度を向上させる。例として、Ｎ個のビームフォーマーはＭグループに分割され、Ｍ≦Ｎであり、各グループは指定のハードウェアコンピューティングユニット(例えば、ＤＳＰ又はＣＰＵコア)によって計算を実行する。同様に、Ｎ個の音声認識モデルはＭグループに分割され、Ｍ≦Ｎであり、各グループは指定のハードウェアコンピューティングユニット(例えばＤＳＰ又はＣＰＵコア)によって計算を実行する。

本出願の音声認識方法では、キーワード検出(Ｓｐｏｋｅｎｋｅｙｗｏｒｄｓｐｏｔｔｉｎｇ又はＳｐｏｋｅｎＴｅｒｍＤｅｔｅｃｔｉｏｎ)を適用できる。

キーワード検出は、音声認識分野のサブ分野であり、その目的は、オーディオ信号で指定単語の全ての出現位置を検出することにある。一実施例では、キーワード検出方法をウェイクワード検出分野に適用することができる。なお、ウェイクワードは、設定された音声指令を指す。ウェイクワードを検出すると、スリープ又はロック状態にある音声認識デバイスは指令待ちの状態になる。

さらに、音声認識結果はキーワード検出結果を含む。各ビーム信号の音声認識結果に従って、収集されたオーディオ信号の音声認識結果を決定することは、各ビーム信号のキーワード検出結果に従って、収集されたオーディオ信号のキーワード検出結果を決定することを含む。

さらに、各音声認識モデルは、対応するビームフォーマーから出力されたビーム信号を受信し、その中にキーワードが含まれるかどうかを検出し、検出結果を出力する。即ち、各音声認識モデルは、受信した各方向のビーム信号に従って、各方向からのオーディオ信号にキーワードが含まれるかどうかを検出する。キーワードが４つのワードを含む例として、図５に示すように、ビーム信号の特徴ベクトル(例えば、エネルギーとサブバンド特徴等)に対して、予めトレーニングされたネットワークパラメータによってレイヤーごとに各ノードの出力値を算出し、最終的に出力層でキーワード検出結果を得る。

一実施例では、検出結果は２進記号であってもよく、例えば、０を出力することはキーワードが検出されなかったことを意味し、１を出力することはキーワードが検出されたことを意味する。各ビーム信号のキーワード検出結果に従って、収集されたオーディオ信号のキーワード検出結果を決定することは、いずれかのビーム信号のキーワード検出結果がキーワードが検出されたことである場合に、収集されたオーディオ信号のキーワード検出結果をキーワードが検出されたと決定し、即ち、複数の音声認識モデルのうち少なくとも１つがキーワードを検出すると、キーワードが検出されたと決定することを含む。

また、キーワード検出結果は、キーワード検出確率をさらに含んでもよく、各ビーム信号のキーワード検出結果に従って、収集されたオーディオ信号のキーワード検出結果を決定することは、少なくとも一つのビーム信号のキーワード検出確率がプリセット値より大きい場合、収集されたオーディオ信号のキーワード検出結果を、キーワードが検出されたと決定することを含む。

図５に示すように、キーワードが

であり、ニューラルネットワーク出力層には５つのノードがあり、それぞれこの音声が

という４つのキーワード及び非キーワードに属する確率を示すと仮定する。一定期間でウィンドウＤｗにウェイクワードが出現されると、ニューラルネットワークの出力ノードに図６のような信号が出現し、即ち、

という４つのキーワードの確率が順に増加していることがわかる。この時間ウィンドウでウェイクワードにおける４つのキーワードの確率を蓄積することで、キーワードが出現したかどうかを判断できる。

一実施例では、各ビーム信号のキーワード検出結果に従って、収集されたオーディオ信号のキーワード検出結果を決定することは、各ビーム信号のキーワード検出確率を予めトレーニングされた分類器に入力し、分類器の出力に従って収集されたオーディオ信号にキーワードが含まれているかどうかを決定することを含む。

さらに、各音声認識モデルは各方向にウェイクワードが出現する確率を出力し、１つの分類器により最終的な検出結果を作り、この分類器は、ニューラルネットワーク、ＳＶＭ(ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、サポートベクトルマシン)、決定木等の様々なアルゴリズムを含むがこれらに限定されない。上記の分類器は、本実施例では、後処理論理モジュールとも呼ばれる。

別の実施例では、各ビーム信号の音声認識結果に従って、収集されたオーディオ信号の音声認識結果を決定することは、各ビーム信号の音声認識結果の言語学スコア及び/又は音響学スコアを取得することと、スコアが最も高い音声認識結果を収集されたオーディオ信号の音声認識結果として決定することを含む。

さらに、この音声認識方法は、連続又は非連続の音声認識分野に適用でき、複数のビームフォーマーの出力を同時に複数の音声認識モデルに入力し、最終的な音声認識結果が最適な音声認識効果がある音声認識モデルの出力を利用する。一例として、最終的な音声認識結果は、最大の音響学スコア又は言語学スコアの音声認識結果、或いは両者の組み合わせを持つ音声認識結果であってもよい。

別の実施例では、音声認識方法は、音声認識デバイスから出力されたオーディオ信号によるエコーに対して抑制処理を行うことをさらに含む。

オーディオ再生機能を持つ音声認識デバイス、例えば、スマートスピーカーについて、それ自体によって再生される音による音声認識への干渉を回避するために、図７を参照して、本出願の実施例では、音声認識デバイスの自体が再生してマイクによって収集されたエコーをキャンセルできるエコーキャンセルモジュールをさらに含む。図７に示すように、このエコーキャンセルモジュールは、ビームフォーマーの前または後に配置すればよい。一例として、多方向ビームフォーマーの、音を出力するチャネルの数がマイクの数より少ない場合に、エコーキャンセルモジュールを多方向ビームフォーマーの後に配置すると、計算量を効果的に削減できる。

一実施例では、図７に示すように、エコーキャンセルモジュール又はビームフォーマーの複数の出力信号は、１つのチャネル選択モジュールを介して、出力チャネルの数をさらに減らし、後続の複数の音声認識モジュールの計算量及びメモリ消費を削減することができる。

ウェイクワード検出を例として、多方向ビームフォーマーによって出力された複数のビーム信号は、複数の音声認識モデルに送信され、ウェイクワード検出を行う。複数の音声認識モデルは、ウェイクワード検出を行い複数のウェイクワード検出結果を得た後、複数のウェイクワード検出結果を後処理論理モジュールに出力し最終的に判断して、現在の音響シーンにウェイクワードが出現するかどうかを決定する。

一実施例では、電子機器を提供し、
少なくとも２層のリング構造を含む、オーディオ信号を収集するためのマイクアレイと、
前記マイクアレイに接続されて、前記オーディオ信号を処理するためのプロセッサーと、
コンピュータプログラムが記憶されるメモリと、
前記マイクアレイ及び前記プロセッサーをパッケージングするケースと、を含み、
前記コンピュータプログラムが前記プロセッサーによって実行される場合、前記プロセッサーに、上記の各実施例の音声認識方法を実行させる。

さらに、マイクアレイがリングアレイである場合に、リングアレイにおけるマイクは標準の円周又は楕円の円周に配置でき、円周上に均一又は不均一に配置できる。リンク構造のマイクアレイは、３６０度でオーディオ信号を収集し、音源検出の方向を改善し、遠距離環境に適する。

一実施例では、各リング構造に、少なくとも３つのマイクを設置している。即ち、各リング構造に３つ以上のマイクを配置して、多層リングアレイを構成する。リングアレイ上のマイクの数が多いほど、理論的に音源方向を計算する精度が高くなり、ターゲット方向の音声に対する強化品質が向上する。マイクの数が多いほど、コスト及び計算複雑さが高くなることを考慮して、各リング構造にそれぞれ４〜８個のマイクを設置する。

一実施例では、音声検出の複雑さを軽減するために、各リング構造のマイクは均一に設置される。

一実施例では、各リング構造は同心円であり、隣接する２つのリング構造のマイクが同一方向にそれぞれ設置される。即ち、各リング構造のマイクは、それぞれ同じ角度に設置される。図８に示すように、２つのリング構造を例として、各リング構造に３つのマイクが設置されている。内層マイクと外層マイクは、それぞれ０度、１２０度、及び２４０度に設置される。多層リング構造のマイクアレイにより、マイクの数が増えるため、アレイがより良い指向性を得ることができる。

一実施例では、任意の２つのリング構造上のマイクには、夾角がある。即ち、各リング構造上のマイクは、ずらして設置される。図９に示すように、２つのリング構造を例として、各リング構造上に３つのマイクが設置されている。内層リング構造は、それぞれ０度、１２０度、及び２４０度にマイクを設置し、外層リング構造は、それぞれ６０度、１８０度、及び３００度にマイクを設置する。このようなマイクアレイは、マイクの相対位置がより多様になる。例えば、外層マイクと内層マイクとの間に異なる夾角があるため、ある方向の音源によりよい検出及び強化効果を持ち、マイクの分布が密になると空間サンプリングが増加し、ある周波数の音声信号によりよい検出及び強化効果を持つ。

別の実施例では、リングアレイの円心にマイクを配置してマイクアレイを形成する。円心にマイクを配置することによって、マイクの数が増え、アレイの指向性を高めることができる。例えば、円心にあるマイクと円周上の任意の１つのマイクと組み合わせて、２つのマイクを持つリニアアレイを構成してもよい。これは、音源方向の検出に役立つ。円心にあるマイクと円周上の複数のマイクと組み合わせることで、異なる形状のマイクサブアレイを構成してもよい。これは、異なる方向/周波数の信号の検出に役立つ。

本出願の音声認識方法は、例えば、ウェイクワード検出のようなキーワード検出、連続又は不連続の任意の音声認識分野に適用することができる。次に、音声認識方法をウェイクワード検出に適用することを例として、音声認識方法を説明する。図１０に示すように、この方法では、次のステップを含む。

Ｓ１００２：マイクアレイによって収集されたオーディオ信号を受信する。

また、マイクアレイの配列方式は限定されず、例えば、電子機器が壁に当たっている場合や、音源が１８０度の範囲内にある環境にある場合、マイクアレイはリニア配列になってもよい。また、例えば、電子機器が異なる向きから音声を受信する必要がある場合、例えば、電子機器が３６０度の範囲の適用環境にある場合、マイクアレイはリングマイクアレイを利用してもよい。リングマイクアレイの配列方式をそれぞれ図２、図８、及び図９に示す。各マイクによって収集された環境音のマナログ信号は、アナログデジタルコンバーター、ゲインコントローラー、コーデックなどのオーディオ収集デバイスを介して、デジタルオーディオ信号に変換する。

Ｓ１００４：収集されたオーディオ信号に対して複数の異なるターゲット方向でビーム形成処理をそれぞれ行い、対応する複数のビーム信号を得る。

Ｓ１００６：各ビーム信号を音声認識モデルにそれぞれ入力し、音声認識モデルによって対応するビーム信号に対して並行して音声認識を行い、各ビーム信号のウェイクワード検出結果を得る。

本実施例では、ビームフォーマーの数に対応する音声認識モデルを設置し、各ビーム信号に対して並行して音声認識を行うことで、ウェイクワード検出の効率を向上させることができる。

１つの実施例である音声認識モデル構成は、図５に示すように、各音声認識モデルは、対応するビームフォーマーから出力されたビーム信号を受信し、それにウェイクワード信号が含まれているかどうかを検出し、検出結果を出力する。ウェイクワードが４つのワードを含む例として、図５に示すように、ビーム信号の特徴ベクトル(例えば、エネルギーとサブバンド特徴等)に対して、予めトレーニングされたネットワークパラメータによってレイヤーごとに各ノードの出力値を算出し、最後に出力層でウェイクワード又はウェイクワードにおけるキーワードの確率を得る。図５に示すように、キーワードが

であり、ニューラルネットワーク出力層に５つのノードがあり、それぞれこの音声が

という４つのキーワード及び非キーワードに属する確率を示すと仮定する。

Ｓ１００８：各ビーム信号のウェイクワード検出結果に従って、収集されたオーディオ信号のウェイクワード検出結果を得る。

なお、ウェイクワード検出結果は２進記号であってもよく(例えば、０を出力することはキーワードが検出されなかったことを意味し、１を出力することはキーワードが検出されたことを意味する)、出力確率であってもよい(例えば、確率値が大きいほど、ウェイクワードを検出する確率が高いことを意味する)。一例として、各音声認識モデルのうち少なくとも１つがウェイクワードを検出すると、ウェイクワードが検出されたと決定する。音声認識モデルの出力がウェイクワードの出現確率である場合、少なくとも１つの音声認識モデルの出力確率がプリセット値より大きいと、ウェイクワードが検出されたと決定する。又は、各音声認識モデルは各方向のウェイクワードの出現確率を出力し、１つの分類器により最終的な検出結果を決定し、即ち、各ビーム信号のウェイクワードの検出確率を分類器に入力し、分類器の出力に従って収集されたオーディオ信号にウェイクワードが含まれているかどうかを決定する。

上記の方法では、マイクアレイを使用してオーディオ信号を収集し、多方向ビームフォーマーによってマイクアレイ信号をフィルタリングして複数の指向性強化信号を形成し、複数の音声認識モデルによって指向性強化信号におけるウェイクワードをモニタリングし、複数の音声認識モデルから出力されたウェイクワード検出結果を組み合わせて最終的な判別結果を得る。この方法は、音源方向を考慮する必要がなく、異なるターゲット方向でビーム形成処理を行うことで、少なくとも１つのターゲット方向が実際の音声発生方向に近いため、少なくとも１つのターゲット方向で強化されたビーム信号が明確になるため、各ビーム信号に従ってウェイクワード検出を行うことによって、この方向のウェイクワード検出の正確率を向上させることができる。

図１１に示すように、音声認識装置であって、
マイクアレイによって収集されたオーディオ信号を受信するためのオーディオ信号受信モジュール１１０１と、
前記オーディオ信号を複数の異なるターゲット方向でビーム形成処理をそれぞれ行い、対応する複数のビーム信号を得るためのビームフォーマー１１０２と、
各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を得る音声認識モジュール１１０３と、
各ビーム信号の音声認識結果に従って、前記オーディオ信号の音声認識結果を決定するための処理モジュール１１０４と、を含む。

上記の音声認識装置は、マイクアレイによって収集されたオーディオ信号に対して複数の異なるターゲット方向でビーム形成処理を行うことで、対応する複数のビーム信号を取得でき、それぞれ異なるターゲット方向での音声強化処理を実現し、各ターゲット方向で強化処理されたビーム信号を明確に抽出できる。即ち、この方法は、音源方向を考慮する必要がなく、異なるターゲット方向でビーム形成処理を行うことで、少なくとも１つのターゲット方向が実際の音声発生方向に近くなるため、少なくとも一つのターゲット方向で強化されたビーム信号が明確になり、各ビーム信号に従って音声認識を行い、音声認識正確率を向上させることができる。

別の実施例では、前記処理モジュールは、各ビーム信号のキーワード検出結果に従って、前記オーディオ信号のキーワード検出結果を決定する。

別の実施例では、処理モジュールは、いずれかのビーム信号のキーワード検出結果がキーワードを検出したことである場合に、前記オーディオ信号のキーワード検出結果をキーワードが検出されたと決定する。

別の実施例では、前記キーワード検出結果に、キーワード検出確率が含まれ、処理モジュールは、少なくとも一つの前記ビーム信号のキーワード検出確率がプリセット値より大きい場合に、前記オーディオ信号のキーワード検出結果をキーワードが検出されたと決定する。

別の実施例では、処理モジュールは、各前記ビーム信号のキーワード検出確率を分類器に入力し、前記分類器の出力に従って、前記オーディオ信号にキーワードが含まれているかどうかを決定する。

別の実施例では、処理モジュールは、各ビーム信号の音声認識結果の言語学スコア及び/又は音響学スコアを算出し、スコアが最も高い音声認識結果を、前記オーディオ信号の音声認識結果に決定する。

別の実施例では、音声認識モジュールは、各ビーム信号を対応する音声認識モデルにそれぞれ入力し、各音声認識モデルによって対応する前記ビーム信号に対して並行して音声認識を行い、各ビーム信号の音声認識結果を得る。

図４に示すように、１つのビームフォーマーは１つの音声認識モデルに対応する。前記音声認識モジュールは、各ビーム信号を対応する音声認識モデルにそれぞれ入力し、各音声認識モデルによって対応する前記ビーム信号に対して並行して音声認識を行い、各ビーム信号の音声認識結果を得る。

別の実施例では、音声認識装置は、音声認識デバイスから出力されたオーディオ信号のエコーに対して抑制処理を行うためのエコーキャンセルモジュールをさらに含む。

別の実施例では、音声認識装置は、チャネル選択モジュールをさらに含む。エコーキャンセルモジュール又はビームフォーマーの複数の出力信号は、１つのチャネル選択モジュールを通じて出力チャネル数をさらに減らすことができ、後続のマルチチャネル音声認識モジュールの計算量及びメモリ消費を削減することができる。

図１２は、一実施例におけるコンピュータデバイスの内部構成図を示す。このコンピュータデバイスは、音声認識デバイスであり得る。図１２に示すように、このコンピュータデバイスは、システムバスを介して接続されたプロセッサー、メモリ、ネットワークインターフェース、入力装置、ディスプレイ、マイクアレイ、及びオーディオ出力デバイスを含む。その中で、マイクアレイはオーディオ信号を収集する。メモリは、不揮発性記憶媒体及び内蔵メモリを含む。このコンピュータデバイスの不揮発性記憶媒体は、オペレーティングシステムを記憶し、さらにコンピュータプログラムを記憶してもよい。このコンピュータプログラムがプロセッサーによって実行される場合、プロセッサーは音声認識方法を実現することができる。

当該内蔵メモリにコンピュータプログラムが記憶されてもよい。このコンピュータプログラムがプロセッサーによって実行される場合、プロセッサーは音声認識方法を実行する。コンピュータデバイスのディスプレイは、液晶ディスプレイ又は電子インクディスプレイであってもよい。コンピュータデバイスの入力装置は、ディスプレイ上に覆われたタッチ層であってもよく、コンピュータデバイスハウジングに設置されたボタン、トラックボール又はタッチパッドであってもよく、外付けのキーボード、タッチパッド又はマウス等であってもよい。オーディオ出力デバイスは、音声を再生するためのスピーカを含む。

当業者は、図１２に示した構成が、本出願の解決策に関連する一部の構成のブロック図に過ぎず、本出願の解決策が適用されるコンピュータデバイスを限定するものではないことを理解することができる。具体的に、コンピュータデバイスは、図に示されるよりも多いまたは少ない構成要素を含むか、または特定の構成要素を組み合わせるか、または異なる構成要素の配置を有することができる。

一実施例では、本出願によって提供される音声認識装置は、コンピュータプログラムの形で実現することができ、コンピュータプログラムは、図１２に示すようなコンピュータデバイスで実行することができる。コンピュータデバイスのメモリに、例えば、図１１に示したオーディオ信号受信モジュール、ビームフォーマー、及び音声認識モジュールなどの、当該音声認識装置を構成する各プログラムモジュールを記憶することができる。各プログラムモジュールで構成されるコンピュータプログラムは、本明細書で説明する本出願の各実施例の音声認識方法におけるステップをプロセッサーに実行させる。

例えば、図１２に示すコンピュータデバイスは、図１１に示す音声認識装置のオーディオ信号受信モジュールによって、マイクアレイによって収集されたオーディオ信号を受信するステップを実行することができる。コンピュータデバイスは、ビームフォーマーによって、前記オーディオ信号に対して設定された複数の異なるターゲット方向でそれぞれビーム形成処理を行うことで、対応する複数のビーム信号を得るステップを実行することができる。コンピュータデバイスは、音声認識モジュールによって、各前記ビーム信号に従って音声認識を行うステップを実行することができる。

コンピュータデバイスであって、メモリ及びプロセッサーを含み、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムが前記プロセッサーによって実行される場合、前記プロセッサーは次のステップを実行し、
マイクアレイによって収集されたオーディオ信号を受信するステップと、
前記オーディオ信号を複数の異なるターゲット方向でビーム形成処理をそれぞれ行い、対応する複数のビーム信号を得るステップと、
各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を得るステップと、
各ビーム信号の音声認識結果に従って、前記オーディオ信号の音声認識結果を決定するステップと、を含む。

別の実施例では、前記音声認識結果には、キーワード検出結果が含まれ、各ビーム信号の音声認識結果に従って、前記オーディオ信号の音声認識結果を決定するステップは、各ビーム信号のキーワード検出結果に従って、前記オーディオ信号のキーワード検出結果を決定することを含む。

別の実施例では、各ビーム信号のキーワードの検出結果に従って、前記オーディオ信号のキーワードの検出結果を決定することは、いずれかのビーム信号のキーワード検出結果がキーワードを検出したことである場合に、前記オーディオ信号のキーワード検出結果をキーワードが検出されたと決定することを含む。

別の実施例では、前記キーワード検出結果には、キーワード検出確率が含まれ、各ビーム信号のキーワード検出結果に従って、前記オーディオ信号のキーワード検出結果を決定することは、少なくとも一つの前記ビーム信号のキーワード検出確率がプリセット値より大きい場合に、前記オーディオ信号のキーワード検出結果をキーワードが検出されたと決定することを含む。

別の実施例では、前記各ビーム信号のキーワード検出結果に従って、前記オーディオ信号のキーワード検出結果を決定することは、各前記ビーム信号のキーワード検出確率を分類器に入力し、前記分類器の出力に従って、前記オーディオ信号にキーワードが含まれているかどうかを決定することを含む。

別の実施例では、各ビーム信号の音声認識結果に従って、前記オーディオ信号の音声認識結果を決定することは、各ビーム信号の音声認識結果の言語学スコア及び/又は音響学スコアを取得することと、スコアが最も高い音声認識結果を、前記オーディオ信号の音声認識結果に決定することを含む。

別の実施例では、各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を得ることは、各ビーム信号を対応する音声認識モデルにそれぞれ入力し、各音声認識モデルによって対応する前記ビーム信号に対して並行して音声認識を行い、各ビーム信号の音声認識結果を得ることを含む。

別の実施例では、音声認識方法は、音声認識デバイスから出力されたオーディオ信号のエコーに対して抑制処理を行うことをさらに含む。

上記の実施例を実現する方法における全て又は一部の流れが、コンピュータプログラムを通じて関連するハードウェアに命令して完成でき、前記のプログラムは、不揮発性コンピュータ可読取記憶媒体に記憶されてもよく、このプログラムが実行される場合、上記の各方法の実施例の流れを含み得る。ただし、本出願で提供される各実施例に使用されるメモリ、記憶、データベース又は他の媒体への任意の参照は、いずれも不揮発性及び/又は揮発性メモリを含み得る。不揮発性メモリは、読み取り専用メモリ(ＲＯＭ)、プログラマブルＲＯＭ(ＰＲＯＭ)、電気的プログラマブル可能ＲＯＭ(ＥＰＲＯＭ)、電気的消去可能プログラマブル可能ＲＯＭ(ＥＥＰＲＯＭ)又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ(ＲＡＭ)又は外部キャッシュメモリを含み得る。制限ではなく一例として、ＲＡＭは、例えば、スタティックＲＡＭ(ＳＲＡＭ)、ダイナミックＲＡＭ(ＤＲＡＭ)、シンクロナスＤＲＡＭ(ＳＤＲＡＭ)、ダブルデータレートＳＤＲＡＭ(ＤＤＲＳＤＲＡＭ)、エンハンストＳＤＲＡＭ(ＥＳＤＲＡＭ)、同期リンク(Ｓｙｎｃｈｌｉｎｋ)ＤＲＡＭ(ＳＬＤＲＡＭ)、メモリバス(Ｒａｍｂｕｓ)ダイレクトＲＡＭ(ＲＤＲＡＭ)、ダイレクトメモリバスダイナミックＲＡＭ(ＤＲＤＲＡＭ)、及びメモリバスダイナミックＲＡＭ(ＲＤＲＡＭ)等、多くの形で取得できる。

上記の実施例の各技術特徴は任意に組み合わせることができる。説明を簡潔にするため、上記の実施例における各技術特徴の可能の全ての組み合わせについて説明していない。しかしながら、これらの技術特徴の組み合わせに矛盾がない限り、本明細書に記載の範囲と見なされる。

上記の実施例は、本出願のいくつかの実施方式を表すだけであり、それらの説明は、具体的かつ詳細であるが、本出願の範囲を限定するものとして解釈されるべきではない。なお、当業者にとって、本出願の概念から逸脱することなく、いくつかの変形および改善を行うことができ、これらはすべて本出願の保護範囲に含まれる。よって、本出願の特許の保護範囲は、添付の請求項に従う。

1101 オーディオ信号受信モジュール
1102 ビームフォーマー
1103 音声認識モジュール
1104 処理モジュール

Claims

電子機器が実行する音声認識方法であって、
マイクアレイによって収集されたオーディオ信号を受信するステップと、
前記オーディオ信号に対して、複数の異なるターゲット方向でそれぞれビーム形成処理を行い、対応する複数のビーム信号を取得するステップと、
前記複数のビーム信号における各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を取得するステップと、
各ビーム信号の音声認識結果に基づいて、前記オーディオ信号の音声認識結果を決定するステップと、を含む方法。
前記音声認識結果には、キーワード検出結果が含まれ、
各ビーム信号の音声認識結果に基づいて、前記オーディオ信号の音声認識結果を決定する前記ステップは、
各ビーム信号のキーワード検出結果に基づいて、前記オーディオ信号のキーワード検出結果を決定するステップを含むことを特徴とする請求項１に記載の方法。
各ビーム信号のキーワード検出結果に基づいて、前記オーディオ信号のキーワード検出結果を決定する前記ステップは、
何れか一つのビーム信号のキーワード検出結果が、キーワードが検出されたことである場合に、前記オーディオ信号のキーワード検出結果をキーワードが検出されたと決定するステップ、
を含むことを特徴とする請求項２に記載の方法。
前記キーワード検出結果には、キーワード検出確率が含まれ、
各ビーム信号のキーワード検出結果に基づいて、前記オーディオ信号のキーワード検出結果を決定する前記ステップは、
少なくとも一つの前記ビーム信号のキーワード検出確率がプリセット値より大きい場合に、前記オーディオ信号のキーワード検出結果をキーワードが検出されたと決定するステップ、
を含むことを特徴とする請求項２に記載の方法。
前記キーワード検出結果には、キーワード検出確率が含まれ、
各ビーム信号のキーワード検出結果に基づいて、前記オーディオ信号のキーワード検出結果を決定する前記ステップは、
各前記ビーム信号のキーワード検出確率を分類器に入力し、前記分類器の出力に基づいて、前記オーディオ信号にキーワードが含まれているかどうかを決定するステップ、
を含むことを特徴とする請求項２に記載の方法。
各ビーム信号の音声認識結果に基づいて、前記オーディオ信号の音声認識結果を決定する前記ステップは、
各ビーム信号の音声認識結果の言語学スコア及び/又は音響学スコアを取得するステップと、
スコアが最も高い音声認識結果を、前記オーディオ信号の音声認識結果に決定するステップと、
を含むことを特徴とする請求項１に記載の方法。
各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を取得する前記ステップは、
各ビーム信号を対応する音声認識モデルにそれぞれに入力し、各音声認識モデルによって対応する前記ビーム信号に対して並行して音声認識を行い、各ビーム信号の音声認識結果を取得するステップ、
を含むことを特徴とする請求項１に記載の方法。
前記方法は、音声認識デバイスから出力されたオーディオ信号のエコーに対して抑制処理を行うステップを、さらに含むことを特徴とする請求項１に記載の方法。
音声認識装置であって、
マイクアレイによって収集されたオーディオ信号を受信するためのオーディオ信号受信モジュールと、
前記オーディオ信号に対して複数の異なるターゲット方向でそれぞれビーム形成処理を行い、対応する複数のビーム信号を取得するためのビームフォーマーと、
前記複数のビーム信号における各ビーム信号に対して音声認識を行い、各ビーム信号の音声認識結果を取得するための音声認識モジュールと、
各ビーム信号の音声認識結果に基づいて、前記オーディオ信号の音声認識結果を決定するための処理モジュールと、を含む装置。
コンピュータデバイスであって、
メモリ及びプロセッサーを含み、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムが前記プロセッサーによって実行される場合、前記プロセッサーに、請求項１から８のいずれか一項に記載の方法のステップを実行させるコンピュータデバイス。
電子機器であって、
少なくとも２層のリング構造を含む、オーディオ信号を収集するためのマイクアレイと、
前記マイクアレイに接続されて、前記オーディオ信号を処理するプロセッサーと、
コンピュータプログラムが記憶されているメモリと、
前記マイクアレイ及び前記プロセッサーをパッケージングするケースと、を含み、
前記コンピュータプログラムが前記プロセッサーによって実行される場合、前記プロセッサーに、請求項１から８のいずれか一項に記載の音声認識方法を実行させる電子機器。
各リング構造に少なくとも３つのマイクが均等に設置されていることを特徴とする請求項１１に記載の電子機器。
各リング構造は同心円であることを特徴とする請求項１１に記載の電子機器。
隣接する２つのリング構造のマイクが同一方向にそれぞれ設置されていることを特徴とする請求項１３に記載の電子機器。
任意の２つのリング構造上のマイクには、夾角があることを特徴とする請求項１３に記載の電子機器。