JP7434137B2

JP7434137B2 - 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP7434137B2
Application number: JP2020187686A
Authority: JP
Inventors: セーチャン，; ビンファン，; シンリー，; ジンフェンバイ，; シュウチェン，; レイジア，
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2019-11-25
Filing date: 2020-11-11
Publication date: 2024-02-20
Anticipated expiration: 2040-11-11
Also published as: US11620983B2; CN110992974A; US20210158799A1; CN110992974B; JP2021086154A

Description

本開示の実施例は、コンピュータ技術の分野に関し、より具体的には、音声技術の分野に関する。

音声認識とは、音声信号を、コンピュータによって対応するテキスト又はキャラクタに変換するプロセスを指し、人間と機械とのインタラクションを実現する重要な手段の一つである。近年、ディープラーニング技術が音声認識の分野で広く普及されることに伴い、音声認識の精度が大幅に向上している。また、スマートデバイスの不断な普及によって、音声を使用して認識する機会が既に非常に豊富になっている。例えば、音声認識技術が既にスマートホーム、車載音声、スマートオフィスなどの業界とシーンに広く応用されている。音声認識技術は、自然言語処理と音声合成などの技術と組み合わせることで、スマートスピーカ、会議同時通訳、スマートカスタマーサービスアシスタントなど、より複雑なアプリケーションを生成することができる。

音源とオーディオモニタリングとの間の距離により、音声認識は、近距離場音声認識と遠距離場音声認識に分けることができる。近距離場音声認識とは、コンピュータが、音声入力法を使用する場合など、近距離場の条件で音声を認識可能にすることを指す。遠距離場音声認識とは、スマートスピーカ又は車載ナビゲーションなどの遠距離場の条件で音声を認識可能にすることを指す。遠距離場音声認識のシーンでは、実環境に大量の環境ノイズと残響などが存在するため、拾った信号の品質が低くなり、遠距離場音声認識の精度は、近距離場音声認識の精度より低くなる。遠距離場環境では、オーディオモニタリングからターゲット音源の距離が遠いため、ターゲット信号が大幅に減衰するうえ、環境が騒がしいために干渉信号が多く、最終的には、信号対雑音比が低くなり、音声認識性能が悪くなる。一般的に、ユーザが数メートル離れたところに立って、スマートスピーカと音声インタラクションを行うことは、一つの典型的な遠距離場音声認識アプリケーションのシーンである。

本開示の例示的な実施例によれば、音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体を提供する。

本開示の第１の態様では、マイクロフォンアレイ内の第１のマイクロフォンから採集された第１の音声信号と、第１のマイクロフォンとは異なるマイクロフォンアレイ内の第２のマイクロフォンから採集された第２の音声信号とを取得するステップと、ニューラルネットワークによって第１の音声信号及び第２の音声信号に関連付けられた強調特徴を抽出するステップと、強調特徴に基づいて音声認識結果を取得するステップと、を含む音声認識方法が提供される。

本開示の第２の態様では、マイクロフォンアレイ内の第１のマイクロフォンから採集された第１の音声信号と、第１のマイクロフォンとは異なるマイクロフォンアレイ内の第２のマイクロフォンから採集された第２の音声信号とを取得するように構成される音声信号取得モジュールと、ニューラルネットワークによって、第１の音声信号及び第２の音声信号に関連付けられた強調特徴を抽出するように構成される強調特徴抽出モジュールと、強調特徴に基づいて音声認識結果を取得するように構成される音声認識モジュールと、を含む音声認識装置が提供される。

本開示の第３の態様では、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶するための記憶装置と、を含む電子機器であって、一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行される場合、電子機器が本開示の実施例に係る各種の方法又は／又はプロセスを実現する電子機器が提供される。

本開示の第４の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合、本開示の実施例に係る各種の方法又は／又はプロセスが実現されるコンピュータ読み取り可能な記憶媒体が提供される。
本開示の第５の態様では、コンピュータプログラムであって、前記コンピュータプログラムが実行される場合、前記コンピュータに本開示の実施例に係る各種の方法又は／又はプロセスを実行させるコンピュータプログラムが提供される。

なお、本発明の概要に記載の内容は、本開示の実施例の肝心な特徴又は重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の説明により理解されやすくなる。

本開示の各実施例の上記及び他の特徴、利点及び態様は、図面を参照した以下の詳細な説明により、より明らかになる。図面では、同一又は類似する符号は、同一又は類似する要素を表す。
従来の音声認識プロセスの概略図を示す。本開示の実施例に係る例示的な音声認識シーンの概略図を示す。本開示の実施例に係る音声認識方法のフローチャートを示す。本開示の実施例に係る音声強調及び認識一体化モデルのアーキテクチャの概略図を示す。本開示の実施例に係る複素畳み込みニューラルネットワークに基づく音声強調及び認識一体化モデルの処理プロセスの概略図を示す。本開示に係る遠距離場音声信号をリアルタイムでシミュレートするプロセスの概略図を示す。本開示の実施例に係る音声認識装置のブロック図を示す。本開示の複数の実施例を実施可能な電子機器のブロック図を示す。

本開示の実施例を、図面を参照して以下により詳細に説明する。図面に本開示のいくつかの実施例が示されているが、本発明は様々な形態で実現することができ、本明細書に記載の実施例に限定されると解釈されるべきではないことを理解されたい。逆に、これらの実施例を提供する目的は、本開示がより明確かつ完全で理解されることである。なお、本開示の図面及び実施例は例示に過ぎず、本開示の保護範囲を限定するものではないと理解されたい。

本開示の実施例の説明において、「含む」という用語及びその類似の用語が、開放的な含む、すなわち「含むがこれに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」ことを意味すると理解されるべきである。「一実施例」または「当該実施例」という用語は、「少なくとも一実施例」を意味すると理解されるべきである。「いくつかの実施例」という用語は、「少なくともいくつかの実施例」を意味すると理解されるべきである。他の明示的及び暗黙的な定義も以下に含まれ得る。

典型的な音声認識シーンは、ターゲット音源、非ターゲット音源（ノイズソースなど）、オーディオモニタリング（マイクロフォン又はマイクロフォンアレイなど）、及び音声認識ソフトウェアシステムを含む。家庭のシーンにおけるスマートスピーカ製品を例として、ターゲット音源は、スマートスピーカに向けて音を出すユーザであり、非ターゲット音源は、家電雑音などの周囲環境の音の干渉であり、オーディオモニタリング及び音声認識ソフトウェアシステムは、スマートスピーカのハードウェア及びソフトウェアの部分である。オーディオモニタリングでピックアップされた信号では、ターゲット音源からの信号がターゲット信号と呼ばれ、非ターゲット音源からの信号が干渉信号と呼ばれる。ターゲット信号強度と干渉信号強度との比が信号対雑音比と呼ばれる。現在、音声認識技術は、高い信号対雑音比のシーン（例えば近距離場音声認識シーン）では、良好に機能するが、低い信号対雑音比のシーンでは（遠距離場音声認識シーン）、機能が不安定となることが多い。

遠距離場音声認識の精度を向上させるためには、通常、オーディオモニタリングとしてマイクロフォンアレイを使用することで、音声採集の品質を向上させる。次に、マルチチャンネル音声信号処理技術を使用することで、ターゲット信号を強くし、音声認識の精度を向上させる。図１は、従来の音声認識プロセスの概略図を示し、取得された音声信号１１０について、ブロック１２０においてデジタル信号処理によって音声信号１１０を強調し、ブロック１３０において、強調された音声信号を音声認識し、認識結果１４０を取得する。トレーニング中、バックエンド音声認識は、強調された音声信号を使用してバックエンド認識モデルをトレーニングする。

従来のフロントエンド音声強調の目的は、デジタル信号処理技術を使用してターゲット信号を強調し、より明瞭な音声を取得することである。フロントエンド音声強調は、通常、音源の到来方向（ＤＯＡ：ＤｉｒｅｃｔｉｏｎＯｆＡｒｒｉｖａｌ）の推定とビームフォーミング（ＢＦ：ＢｅａｍＦｏｒｍｉｎｇ）とを含む。ＤＯＡ技術は、主に、ターゲット音源の方向を推定するために使用され、ＢＦ技術は、ターゲット音源の方位情報を使用してターゲット信号を強調し、干渉信号を抑制する。一般的に使用されるＤＯＡ技術は、到着遅延に基づく指向性アルゴリズム、空間スペクトル推定に基づく指向性アルゴリズムなどを含む。一般的に使用されるＢＦ技術には、最小分散無歪応答ビームフォーミング（ＭＶＤＲＢＦ）、線形制約最小分散ビームフォーミング（ＬＣＭＶＢＦ）、及び一般化サイドローブキャンセラ（ビームフォーミング（ＧＳＣＢＦ）などがある。これから分かるように、従来のフロントエンド音声強調は、本質的には、ターゲット音源方向信号（例えば、ターゲットセクタ内からの音声）をすべて保護し、非ターゲット方向信号（例えば、ターゲットセクタ外からの音声）を可能な限り抑制する。また、いくつかの改良方法は、他の技術によってフロントエンド音声強調を改良しようとするが、これらの改良方法は、依然として信号処理のＦｉｌｔｅｒ－ａｎｄ－Ｓｕｍ法から、ターゲット音源とノイズソースの方位が一致しないと仮定して、空間フィルタリング及び周波数領域フィルタリングによって、マルチチャンネル音声から複数の方向の特徴を抽出する必要があり、その本質は、依然として従来のデジタル信号処理技術に依存する。

しかしながら、デジタル信号処理に基づく従来の音声強調方法には、いくつかの欠点があるため、音声認識のエラー率が比較的高くなる。一方、フロントエンド音声強調とバックエンドトレーニングの最適化ターゲットは統一されておらず、フロントエンド音声強調プロセスの最適化プロセスは、バックエンド認識プロセスとは独立しており、その最適化ターゲットは、信号対雑音比の観点から、ターゲット信号を保持し、干渉ノイズを抑制することが多い。当該最適化ターゲットは、バックエンド認識の最終的なターゲット（音声認識の精度を向上させる）と一致せず、ターゲットの不統一は、フロントエンド強調の最適化結果が最終的なターゲット上で最適でないことにつながる可能性がある。つまり、デジタル信号処理に基づく従来の音声強調アルゴリズムは、バックエンド音声認識のニューラルネットワークと共同学習及び共同最適化を行うことができない。また、両者は、統一的な最適化方法に欠き、ＤＯＡとＢＦの最適化ターゲットを、音声認識のターゲットと揃える技術案がない。もう一方で、従来のフロントエンド音声強調プロセスでは、ビームフォーミングは、位置決め方向に強く依存するとともに、いくつかの事前の仮定にも依存する。デジタル信号処理に基づくビームフォーミングは、まず、ターゲット音源の方向を推定し、ターゲット音源を保護しながら、当該方向以外の他の信号を抑制する必要がある。実際の応用シーンでは、一旦、位置決めエラーが発生すると、干渉信号が誤って強調されて、ターゲット信号を抑制し、後続のウェイクアップ及び認識性能に影響を与える可能性がある。また、いくつかの技術では、信号処理ビームに近づくことも、信号処理方法のいくつかの欠点によって制限され、音声認識の精度に影響を与える。

そのため、本開示の実施例は、ニューラルネットワークに基づく音声強調及び認識のエンドツーエンドのモデルアーキテクチャ及び音声認識技術案を提供する。デジタル信号処理に基づく従来の音声強調方式とは異なり、本開示の実施例は、ニューラルネットワークを用いてマルチチャンネル音声信号の強調特徴を抽出することにより、音声強調と音声認識との最適化ターゲットが一致しない問題を解決することができ、音声強調と音声認識などのターゲットを共同で最適化し、音声強調及び認識のエンドツーエンドのモデリングを実現し、音声認識の精度を向上させることができる。

したがって、本開示の実施例によれば、エンドツーエンドのトレーニングを採用することによって、音源位置決めとビーム生成が同時に行うことができる。トレーニング中に大量のターゲット信号と干渉信号との組み合わせシーンを取り尽くしたため、ノイズソースとビームとの方向が同じ方向である場合、本開示の実施例の技術案の性能は、急激に低下せず、認識率をマイクロフォンのいずれの方向でもほぼ一致に保持することができる。同時に、従来の信号処理方法によれば、最初のウェイクアップは、単一のマイク信号のウェイクアップであり、ウェイクアップ率が低く、ビームウェイクアップは、２番目のウェイクアップと１番目のウェイクアップとが同方向である場合のみに使用することができる。本開示の実施例の音声強調及び認識一体化モデルについて、最初のウェイクアップは、ビームウェイクアップの精度に達することができ、ウェイクアップ後に、各角度ですべて高精度認識を行うことができ、音声認識システムの精度及びロバスト性を効果的に保証する。

また、本開示のいくつかの実施例では、複素畳み込みニューラルネットワーク（ＣＮＮ）を用いて元のマルチチャンネル音声信号に対してマルチスケール及びマルチレベルの情報抽出を直接行い、位相情報を保持する前提で、フロントエンドビームフォーミング及び強調特徴抽出を実現し、音声強調及び認識一体化モデリングを実現する。従来の方法では、フーリエ変換後に、通常位相情報が直接破棄される。これと逆に、本開示の実施例では、音声信号の位相から、ニューラルネットワークモデルをトレーニングするための追加情報を学習し、音声認識の精度をさらに向上させることができる。

また、本開示のいくつかの実施例では、近距離場音声信号に基づいて遠距離場音声信号をリアルタイムでシミュレートすることができる。部屋のインパルス応答及びオフラインノイズの追加を手動で録音する従来の方式とは異なり、本開示の実施例では、リアルタイムシミュレーション／オンラインシミュレーション、及びノイズ追加技術の組み合わせを使用することができ、トレーニング中に大量の、部屋インパルス応答、ノイズ及び音声の組み合わせをリアルタイムでランダムにシミュレートすることができ、これにより、データの多様性は極めて豊富になり、モデルがより豊富なデータからより優れた汎用化性能を取得することができる。したがって、本開示の実施例は、大量の遠距離場音声信号のトレーニングデータを迅速に取得することができ、機械学習トレーニングによって音声認識モデルの精度をさらに向上させることができる。

本開示の実施例のいくつかの例示的な実現を図２～８を参照して以下に詳細に説明する。

図２は、本開示の実施例に係る例示的な音声認識シーン２００の概略図を示す。なお、例示的な音声認識シーン２００は、本開示の実施例が実現可能な例示的な一シーンにすぎず、本開示の保護範囲を限定するものではないことを理解されたい。

図２に示すように、例示的な音声認識シーン２００では、ユーザ２０５は、そのユーザ機器２１０に向けて音声入力を行っている。本開示のいくつかの実施例では、ユーザ機器２１０は、スマートスピーカであってもよく、複数のスピーカと、複数のマイクロフォン２１１及び２１２とを含むことができ、複数のマイクロフォン２１１及び２１２は、音声認識された信号の採集品質を向上させるために、マイクロフォンアレイを構成することができる。なお、本開示のいくつかの実施例では、スマートスピーカをユーザ機器の一例とするが、ユーザ機器は、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、ノートブックコンピュータ、スマートウェアラブルデバイス（スマートウォッチ、スマートグラスなど）、ナビゲーションデバイス、マルチメディアプレーヤーデバイス、教育デバイス、ゲームデバイス、スマートスピーカなどを含むがこれらに限定されない、音声信号を採集できる任意の電子機器であってもよい。

ユーザ２０５が音声入力を行っている時、シーン２００内のテレビ２０８も音を出している。ユーザ機器２１０にとって、ユーザ２０５が発した音は、認識する必要のある音であるため、ユーザ２０５はターゲット音源であり、テレビ２０８が発する音は、考慮する必要がないノイズであるため、テレビ２０８は、非ターゲット音源である。

デジタル信号処理に基づく従来の音声強調とは異なり、本開示の実施例は、マイクロフォン２１１及び２１２によって採集された元の音声信号をモデリングして、音声強調及び認識一体化モデル２２０をトレーニングし、次に、音声強調及び認識一体化モデル２２０によって対応する認識結果２３０を取得する。音声強調及び認識一体化モデル２２０は、複素ＣＮＮに基づく強調特徴抽出モジュールと、注意モデルに基づく音声認識モジュールとを含むことができ、この２つのモジュールは、マイクロフォンアレイの音声信号を直接にモデリングすることにより、デジタル信号処理技術に依存しない一方、ビッグデータ及びニューラルネットワークの利点を効果的に利用し、直接にデータ駆動でネットワークの重みを自動的に最適化し、手動で精細に設計された信号フィルタより優れた効果を実現することができる。したがって、このようなエンドツーエンドのモデリングの方式は、従来の信号のフロントエンド音声強調とバックエンド音声認識との最適化ターゲットが一致しない問題を解決し、いくつかの実施例では、音声強調、ノイズ低減、音源位置決め、複数のターゲットのウェイクアップ及び認識を共同で最適化し、システム全体の複雑さを低減することができ、その性能は、従来の個別モデリングの最適化方法を遥かに超えている。

図２の例示的な音声認識シーン２００では、音声強調及び認識一体化モデル２２０は、ユーザ機器のローカルに完全に配置されるか、又はサーバ側に完全に配置されるか、又は一部がユーザ機器のローカルに配置され、別の部分がサーバ側又はクラウドに配置されてもよい。本開示の実施例では、音声強調及び認識一体化モデル２２０の配置方式及び位置は限定されない。ユーザ機器とサーバとが音声強調及び認識一体化モデル２２０を協同して配置する場合、ユーザ機器側は、複素ＣＮＮに基づく強調特徴抽出モジュールを配置することができ、サーバ側は、注意モデルに基づく音声認識モジュールを配置することができ、ユーザ機器は、音声信号の強調特徴を抽出した後、強調特徴をユーザ機器からサーバに送信することで、サーバ側は、次の音声認識を実行することができる。

異なるシーンでは、取得された音声認識結果について、異なる処理方式が存在し得る。例えば、音声入力のシーンでは、音声認識結果を取得した後、ユーザ機器２１０のディスプレイで認識結果をリアルタイムで表示することができ、ストリーミング型音声認識時に、ディスプレイで表示される認識結果も動的に変化している。これにより、ユーザは、認識された結果をリアルタイムで知ることができ、ユーザ体験が向上する。いくつかの実施例では、ユーザ機器２１０は、ディスプレイを含まなくてもよい。逆に、ユーザ機器２１０は、そのオーディオ出力機器（例えばスピーカ）によって認識結果を出力してもよい。スマートスピーカのシーンでは、サーバは、認識結果に基づいて次の動作を直接に実行することができ、例えば、ユーザの音声が一つの曲の再生である場合、サーバは、ユーザの意図に従って曲のオーディオファイルをユーザ機器２１０に送信して、スピーカによって再生する。

図３は、本開示の実施例に係る音声認識方法３００のフローチャートを示す。方法３００は、ユーザ機器、サーバ、又はその組み合わせによって実行できることを理解されたい。

ブロック３０２において、マイクロフォンアレイ内の第１のマイクロフォンから採集された第１の音声信号と、第１のマイクロフォンとは異なるマイクロフォンアレイ内の第２のマイクロフォンから採集された第２の音声信号とを取得する。例えば、図２を参照すると、音声強調及び認識一体化モデル２２０は、マイクロフォン２１１及び２１２から、採集された元の音声信号をそれぞれ取得する。いくつかの実施例では、ユーザ機器２１０内のマイクロフォンアレイが３つのマイクロフォンを含む場合、３つのマイクロフォンから３つのチャンネルの音声信号を同時に取得することができる。いくつかの実施例では、ユーザ機器２１０内のマイクロフォンアレイが６つのマイクロフォンを含む場合、６つのマイクロフォンから６つのチャンネルの音声信号を同時に取得することができる。

ブロック３０４において、ニューラルネットワークによって多次元の特徴ベクトルなど、第１の音声信号及び第２の音声信号に関連付けられた強調特徴を抽出する。例えば、音声強調及び認識一体化モデル２２０は、従来のデジタル信号処理技術を使用せず、ニューラルネットワークによって各チャンネルの音声信号を直接処理するため、音声認識分野の事前の仮定を必要としない。このようにして、音声強調及び認識一体化モデル２２０の各モジュールの最適化のターゲットを統一することができ、その最適化基準は、いずれも音声認識の精度を向上させ、又は音声認識のエラー率を低減することである。本開示のいくつかの実施例では、ニューラルネットワークは、複素ＣＮＮネットワークであってもよく、これにより、マイクロフォンアレイによって採集された音声信号における位相情報を考慮し、複素の形式で特徴抽出時の演算を行うことができる。

ブロック３０６において、強調特徴に基づいて、音声認識結果を取得する。例えば、音声強調及び認識一体化モデル２２０は、抽出した強調特徴に基づいて、ニューラルネットワークモデルを用いて、対応する音声認識結果を取得する。マイクロフォンアレイには２つ以上のマイクロフォンが含まれる場合、２つ以上のチャンネルの音声信号に基づいて、対応する認識結果を取得する。

したがって、デジタル信号処理に基づく従来の音声強調方式とは異なり、本開示の実施例の方法３００は、ニューラルネットワークによってマルチチャンネル音声信号の強調特徴を抽出することにより、音声強調と音声認識との最適化ターゲットが一致しない問題を解決することができ、音声強調と音声認識などのターゲットを共同で最適化し、音声強調及び認識のエンドツーエンドのモデリングを実現し、音声認識の精度を向上させることができる。

図４は、本開示の実施例に係る音声強調及び認識一体化モデル２２０のアーキテクチャの概略図を示す。図４に示すように、音声強調及び音声認識を実現するために、音声強調及び認識一体化モデル２２０は、強調特徴抽出モジュール４２０と音声認識モジュール４５０とを含む必要がある。選択可能には、音声強調及び認識一体化モデル２２０は、遠距離場音声信号をオンラインでシミュレートするように構成されるリアルタイムシミュレーションモジュール４１０と、ユーザ体験を向上させるように、通知灯によってユーザに通知するように構成される音源位置決めモジュール４３０と、バックエンド認識プロセスをウェイクアップするように構成されるウェイクアップモジュール４４０と、をさらに含むことができる。音声強調及び認識一体化モデル２２０は、エンドツーエンドのモデルアーキテクチャであり、トレーニング中に、そのトレーニングデータは、遠距離場音声信号及び対応するキャラクタである。また、本開示の実施例は、オンライン遠距離場音声信号をリアルタイムでシミュレートする方式を提供する。このように、トレーニングデータは、録音された近距離場音声信号及び対応するキャラクタであってもよい。使用段階では、音声強調及び認識一体化モデル２２０は、マイクロフォンアレイによって採集された元の音声信号を直接取得して処理し、その後、対応する認識結果を出力する。

リアルタイムシミュレーションモジュール４１０は、近距離場音声信号を遠距離場音声信号にシミュレートし、ランダム干渉音源を追加することによって、モデルトレーニングに使用される大量の遠距離場音声信号を生成することができる。以下、図６を参照して、近距離場音声信号を遠距離場音声信号にリアルタイムでシミュレートする例示的な実現を説明する。

いくつかの実施例では、強調特徴抽出モジュール４２０は、複素ＣＮＮによって実現することができる。複素ＣＮＮを用いて特徴強調を行うことによって、マイクロフォンアレイ内の位相情報を保持することができる。これは、マイクロフォンアレイのシーンでは、各音声信号の位相情報及び振幅が同様に重要であり、位相情報は、複素数の虚数部によって表されるからである。次に、複素ＣＮＮによって出力された強調特徴に対してモジュラス処理を行った後、複素数領域特徴を実数形式の強調特徴に変換する。

音源位置決めモジュール４３０は、ターゲット音源の位置決め情報を出力することができ、ユーザに対応する方向に通知灯を点灯させて、システムが対応する方向（すなわちユーザが位置する方向）の音声信号を既に検知したことをユーザに通知し、ユーザ体験を向上させることができる。ウェイクアップモジュール４４０は、ユーザがユーザ機器と音声インタラクションを行っているか否かを判断するように、待機状態で監視するように構成される。例えば、ユーザが発したのが予め定義されたワード（「小度小度（ＸｉａｏｄｕＸｉａｏｄｕ）」「ニーハオ小度（ＮｉｈａｏＸｉａｏｄｕ）」など）であると判断した場合、バックエンドの音声認識プロセスをウェイクアップすることができ、採集されたすべての音声信号に対してバックエンドの音声認識を開始する必要がない。これは、音声認識の開始コストが高いからである。したがって、ウェイクアップの判断によって、音声認識のコストを低減することができる。

音声認識モジュール４５０は、強調特徴に基づいて音声認識結果を取得する。いくつかの実施例では、音声認識モジュール４５０は、ＣＴＣ（リンク時系列分類）及び注意に基づくストリーミング型音声認識モデルであるストリーミング型多層切断注意（ＳｔｒｅａｍｉｎｇＭｕｌｔｉ－ＬａｙｅｒＴｒｕｎｃａｔｅｄＡｔｔｅｎｔｉｏｎ，ＳＭＬＴＡと略称する）モデルであってもよい。ここで、ストリーミング型は、直接に音声の小さなフラグメント（全文ではない）に対して、フラグメントごとに増分復号化することができることを意味し、多層は、複数層の注意モデルを積み重ねることを意味し、切断は、ＣＴＣモデルのピーク情報を使用して、音声を一つ一つの小さなフラグメントに分割することを意味する。注意モデルのモデリング及び復号化は、これらの小さなフラグメントにわたって拡張することができる。ＳＭＬＴＡは、従来のグローバルな注意モデリングをローカルな注意モデリングに変換するので、このプロセスも、ストリーミング型で実現可能プロセスであり、文の長さに関係なく、フラグメントごとに切断することによってストリーミング型復号化及び正確なローバルな注意モデリングを実現することができるため、ストリーミング型復号化が実現される。ここで、ＣＴＣモデルは、大規模な語彙の音声認識に使用されるエンドツーエンドのモデルであり、ディープニューラルネットワーク（ＤＮＮ）＋隠れマルコフモデル（ＨＭＭ）の音響モデル構造を完全に統一されたニューラルネットワーク構造に置き換えることにより、音響モデルの構造及びトレーニング難易度を大幅に単純化し、音声認識システムの精度を向上させることができる。

図５は、本開示の実施例に係る複素ＣＮＮに基づく音声強調及び一体化モデルの処理プロセス５００の概略図を示し、これは、図４に示されるアーキテクチャに基づく。

本開示のいくつかの実施例では、音声強調及び認識一体化モデル２２０のトレーニング段階では、リアルタイムシミュレーションモジュール４１０は、後続の機械学習トレーニングに使用される遠距離場音声信号をオンラインでシミュレートする。音声強調及び認識一体化モデル２２０の使用段階では、直接にマイクロフォンアレイからマルチチャンネルの元の音声信号を取得する。

入力された音声信号を取得した後、ブロック５０１において、各チャンネルの音声信号に対して、それぞれ複素フーリエ変換（ＦＦＴ）を行い、時間領域信号を周波数領域信号に変換する。次に、強調特徴抽出モジュール４２０は、複素ＣＮＮを用いて、ＦＦＴされた各チャンネルの音声信号に対して複素畳み込み、複素オフセット、及び複素線形変換操作を行って、複素特徴を取得する。複素ＣＮＮを用いて直接元のマルチチャンネルの音声信号に対してマルチスケールマルチレベルの情報抽出を行い、位相情報を保持する前提で、フロントエンドビームフォーミング及び強調特徴抽出を実現するため、音声信号の位相から追加の情報を学習し、音声認識の精度をさらに向上させることができる。

音声認識モジュール４５０は、通常、実数操作のみをサポートするために、ブロック５０２では、複素ＣＮＮによって出力された強調特徴に対してモジュラス操作を行い、複素数領域特徴を実数形式の強調特徴５３０に変換する。本開示の実施例のアーキテクチャによれば、抽出された強調特徴５３０は、音源位置決めモジュール４３０、ウェイクアップモジュール４４０、及び音声認識モジュール４５０の３つのモジュールによって共有され、これらのモジュールの入力特徴とすることができる。

引き続き図５を参照すると、音源位置決めモジュール４３０は、３層のゲートベースのリカレントニューラルネットワーク（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ，ＧＲＵと略称する）によって構成され、１層のＳｏｆｔｍａｘによってＤＯＡ出力５０３を生成することができ、例えば、ターゲット音源の方向情報を出力することができ、さらに、対応する方向の通知灯を点灯させて、ユーザ体験を向上させることができる。ウェイクアップモジュール４４０は、主に、複数層（例えばＮ層）の畳み込みニューラルネットワークで構成され、１層のＳｏｆｔｍａｘによってウェイクアップ出力５０４を生成する。ウェイクアップ出力５０４は、採集された音声信号がウェイクアップワードであるか否かについての判断を含むことができ、ウェイクアップワードである場合、音声認識モジュール４５０における認識プロセスを開始することができる。

音声認識モジュール４５０は、低フレームレート特徴抽出モジュール（例えば、モバイル端末に向けに設計されたネットワーク構造ＭｏｂｉｌｅＮｅｔ）、長短期記憶ネットワーク（ＬＳＴＭ）、及びＳＭＬＴＡモデルを含む。ＭｏｂｉｌｅＮｅｔは、特徴圧縮の機能を実現することができ、従来の方法では、合成された音声信号を伝送し、本開示の実施例は、強調特徴を伝送するので、圧縮しないと、より大きなネットワーク帯域幅を使用する必要があるか、又はより長い遅延になる可能性がある。この問題を解決するために、本開示の実施例では、ＭｏｂｉｌｅＮｅｔを用いて強調特徴５３０を圧縮することにより、圧縮された特徴のサイズが常に所定のサイズになる。このようにして、２つ又は３つなどのマイクロフォンを含むマイクロフォンアレイについて、伝送する強調特徴のサイズは、従来の方法と同じであり、ネットワークの伝送による遅延を回避する。したがって、マルチチャンネルの音声から抽出された強調特徴帯域幅は、シングルチャンネルの圧縮音声とほぼ同じであり、マルチチャンネルの音声と比較して、帯域幅を節約するだけでなく、ニューラルネットワークの中間特徴をアップロードする方式によってユーザのプライバシーを保護する。

音声強調及び認識一体化モデル２２０は、トレーニング時に、複数の損失関数を同時に最適化する戦略を使用してネットワークを共同でトレーニングし、異なる損失関数は、異なる重み付け係数を使用することができる。いくつかの実施例では、実際の構成を行う時に、端末およびクラウド分散構成の戦略を採用してもよい。ここで、端末は、ビームフォーミング、強調特徴抽出、位置決め、及びウェイクアップなどの機能を含む。複素ＣＮＮモデルが非常に小さく、畳み込み演算子がより汎用であるため、並列及びハードウェアアクセラレーションに適し、端末で計算をアルタイムで行うことができる。強調特徴抽出モジュールは、いくつかの層の深さ方向分離可能畳み込み（ＤｅｐｔｈｗｉｓｅＳｅｐａｒａｂｌｅＣｏｎｖｏｌｕｔｉｏｎ）によって構成されてもよく、そのモデルパラメータも非常に小さい。

なお、図５に示すネットワーク構造及び数値は、実際の状況に応じて調整できることを理解されたい。同時に、オンラインリアルタイム復号化を実現するために、上記のＧＲＵ、ＬＳＴＭなどのリカレントニューラルネットワークは、一方向であってもよい。したがって、本開示の実施例は、複素ＣＮＮを用いて元のマイクロフォンアレイ信号をモデリングし、方向付け、ウェイクアップ、及び認識のエンドツーエンドの共同トレーニングを実現することができる。

一般的に、エンドツーエンドのトレーニングを実現するために、ニューラルネットワークの入力は、元のマイクアレイ音声信号である必要があるが、ユーザのプライバシーと伝送帯域幅などの理由で、実際には大量のこのような実データを取得することが困難である。従来のトレーニングデータ収集方法は、通常、実際のシーンで複数の部屋のインパルス応答（ＲＩＲ）を録音するものである。このような方法は、非効率であるだけでなく、コストも高く、すべてのシーンをトラバーサルすることが困難である。ここで、インパルス応答は、ランダムに選択された構成で、音声に対する応答をシミュレートすることができる。

リモート音声シーンの音声の伝播は、通常、マイクロフォンアレイ構造、部屋のサイズ、音源とオーディオモニタリングとの間隔などのパラメータにすべて関連しており、これらのパラメータの変化によって、遠距離場マルチチャンネルデータのシーンが複雑になり、マルチチャンネル遠距離場音声信号のトレーニングデータの採集が難しくなる。このために、本開示の実施例では、ランダムな複数のパラメータ構成を用いて大量の遠距離場音声信号のトレーニングデータを取得可能な、遠距離場音声信号をオンラインによりリアルタイムでシミュレートすることを提案する。

図６は、本開示に係る遠距離場音声信号をリアルタイムでシミュレートするプロセス６００の概略図を示し、プロセス６００は、上記のリアルタイムシミュレーションモジュール４１０によって実現することができる。本開示の実施例の音声強調及び認識一体化モデル２２０は、ターゲットユーザ機器又はターゲット製品のマイクロフォンアレイ内のマイクロフォンの数に応じてトレーニングする必要がある。つまり、ターゲット製品は２つのマイクロフォンを有する場合、２チャンネルの遠距離場音声信号を使用してモデルをトレーニングし、ターゲット製品は３つのマイクロフォンを有する場合、３チャンネルの遠距離場音声信号を使用してモデルをトレーニングし、ターゲット製品は６つのマイクロフォンを有する場合、６チャンネルの遠距離場音声信号を使用してモデルをトレーニングする。本開示の実施例によれば、トレーニング中にランダムにシミュレートされた部屋のインパルス応答と、ノイズと、音声とに基づいて、遠距離場マルチチャンネル音声信号をリアルタイムで生成することによって、大規模なデータに基づく音声強調及び認識のエンドツーエンドのトレーニングが可能になる。

図６は、録音された近距離場音声信号Ｓ（ｔ）に基づいて、ランダムノイズを追加することによってマルチチャンネル遠距離場音声信号Ｙ_１（ｔ）及びＹ_２（ｔ）をリアルタイムでシミュレートする。まず、ブロック６０５において、部屋のサイズ（すなわち縦横高さ）と壁反射係数などの部屋構成をランダムに設定し、所定のサイズのマイクロフォンを部屋内の適切な位置にランダムに配置する。ブロック６１０において、ターゲット音源を部屋内の一つの適切な位置にランダムに配置し、ブロック６２０において、スポットノイズソースを部屋内の別の適切な位置にランダムに配置する。また、ブロック６１５において、録音された近距離場音声信号Ｓ（ｔ）を提供し、ブロック６２５において、ランダムに選択されたノイズ信号Ｎ（ｔ）を提供する。

次に、部屋構成と、マイクロフォン位置と、ターゲット音源位置とに基づいて、インパルス応答Ｒ_１１（ｔ）及びＲ_１２（ｔ）を生成し、部屋構成と、マイクロフォン位置と、スポットノイズソース位置とに基づいて、インパルス応答Ｒ_２１（ｔ）及びＲ_２２（ｔ）を生成する。次に、近距離場音声信号をＳ（ｔ）と、インパルス応答Ｒ_１１（ｔ）及びＲ_１２（ｔ）の畳み込みを行って音声遠距離場信号を取得し、ランダムに選択されたノイズ信号Ｎ（ｔ）と、インパルス応答Ｒ_２１（ｔ）及びＲ_２２（ｔ）の畳み込みを行ってノイズ遠距離場信号を取得する。次に、ブロック６２８において、信号対雑音比の制御によって、音声遠距離場信号とノイズ遠距離場信号とを比率で重畳し、６３１及び６３２に示すように、ノイズ付きの２チャンネルの遠距離場音声信号Ｙ_１（ｔ）及びＹ_２（ｔ）を取得する。以下、式（１）及び（２）によって、２チャンネルの遠距離場音声信号Ｙ_１（ｔ）及びＹ_２（ｔ）を算出する例のプロセスを示し、αは、信号対雑音比を表す。

Ｙ_１（ｔ）＝Ｓ（ｔ）*Ｒ_１１（ｔ）＋αＮ（ｔ）*Ｒ_２１（ｔ）（１）
Ｙ_２（ｔ）＝Ｓ（ｔ）*Ｒ_１２（ｔ）＋αＮ（ｔ）*Ｒ_２２（ｔ）（２）
したがって、本開示の実施例は、オンラインリアルタイムシミュレーションとノイズ追加技術を使用して、トレーニング中に大量の、部屋インパルス応答、ノイズ及び音声の組み合わせをリアルタイムでランダムにシミュレートすることができ、データの多様性が極めて豊富になり、モデルがより豊富なデータからより優れた汎用化性能を取得することができる。

図７は、本開示の実施例に係る音声認識装置７００のブロック図を示す。図７に示すように、装置７００は、音声信号取得モジュール７１０と、強調特徴抽出モジュール７２０と、音声認識モジュール７３０と含む。音声信号取得モジュール７１０は、マイクロフォンアレイ内の第１のマイクロフォンから採集された第１の音声信号と、第１のマイクロフォンとは異なるマイクロフォンアレイ内の第２のマイクロフォンから採集された第２の音声信号とを取得するように構成される。強調特徴抽出モジュール７２０は、ニューラルネットワークによって第１の音声信号及び第２の音声信号に関連付けられた強調特徴を抽出するように構成される。音声認識モジュール７３０は、強調特徴に基づいて、音声認識結果を取得するように構成される。

いくつかの実施例では、強調特徴抽出モジュール７２０は、第１の音声信号及び第２の音声信号に対してそれぞれ複素フーリエ変換を行うように構成されるフーリエ変換モジュールと、複素畳み込みニューラルネットワークによって、変換された第１の音声信号及び第２の音声信号に対して複素畳み込み、複素オフセット、及び複素線形変換操作を行って複素特徴を取得するように構成される畳み込み処理モジュールと、複素特徴を実数形式の強調特徴に変換するように構成される変換モジュールと、を含む。

いくつかの実施例では、音声認識モジュール７３０は、ストリーミング型多層切断注意モデルを用いて第１の音声信号及び第２の音声信号に対応するキャラクタ出力を決定するように構成されるキャラクタ出力モジュールを含む。

いくつかの実施例では、音声認識モジュール７３０は、所定のサイズに基づいて、強調特徴を圧縮するように構成される特徴圧縮モジュールと、ストリーミング型多層切断注意モデルに圧縮された強調特徴を提供するように構成される特徴提供モジュールと、をさらに含む。

いくつかの実施例では、装置７００は、強調特徴に基づいて、第１の音声信号及び第２の音声信号に関連付けられたターゲット音源の方向を決定するように構成される方向決定モジュールと、決定された方向に関連付けられた通知灯を点灯させるように構成される通知灯点灯モジュールと、をさらに含む。

いくつかの実施例では、装置７００は、強調特徴に基づいて、第１の音声信号及び第２の音声信号がウェイクアップワードに関連するか否かを決定するように構成されるウェイクアップ判断モジュールと、第１の音声信号及び第２の音声信号がウェイクアップワードに関連するとの決定に基づいて、キャラクタ認識プロセスを開始するように構成される認識開始モジュールと、をさらに含む。

いくつかの実施例では、強調特徴抽出モジュール７２０は、マイクロフォンアレイ内の第３のマイクロフォンから採集された第３の音声信号を取得するように構成される信号取得モジュールと、ニューラルネットワークによって第１の音声信号、第２の音声信号、及び第３の音声信号に関連付けられた強調特徴を抽出するように構成される特徴抽出モジュールと、を含む。

いくつかの実施例では、装置７００は、マイクロフォンアレイ内のマイクロフォンと同じ数のマルチチャンネル遠距離場音声信号を取得するように構成されるマルチチャンネル遠距離場音声信号取得モジュールであって、マルチチャンネル遠距離場音声信号は、少なくとも第１の遠距離場音声信号と第２の遠距離場音声信号とを含むマルチチャンネル遠距離場音声信号取得モジュールと、マルチチャンネル遠距離場音声信号を使用してエンドツーエンド音声強調及び認識一体化モデルをトレーニングするように構成されるトレーニングモジュールと、をさらに含む。

いくつかの実施例では、マルチチャンネル遠距離場音声信号取得モジュールは、近距離場音声信号に基づいて、ランダムノイズを追加することによってマルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするように構成されるリアルタイムシミュレーションモジュールを含む。

いくつかの実施例では、リアルタイムシミュレーションモジュール７３０は、縦横高さと壁反射係数とを含む部屋の構成、マイクロフォンアレイの部屋における位置、ターゲット音源の部屋における位置、及びノイズソースの部屋における位置を含むシミュレーションパラメータをランダムに設定するように構成されるランダム設定モジュールを含む。

いくつかの実施例では、リアルタイムシミュレーションモジュール７３０は、シミュレーションパラメータに基づいて、近距離場音声信号に対する第１のセットのインパルス応答と、ランダムに選択されたノイズ信号に対する第２のセットのインパルス応答とを生成するように構成されるインパルス応答生成モジュールをさらに含む。

いくつかの実施例では、リアルタイムシミュレーションモジュール７３０は、近距離場音声信号と、第１のセットのインパルス応答と、ノイズ信号と、第２のセットのインパルス応答と、信号対雑音比とに基づいて、マルチチャンネル遠距離場音声信号を生成するように構成される第２のマルチチャンネル遠距離場音声信号取得モジュールをさらに含む。

なお、図７に示す音声信号取得モジュール７１０、強調特徴抽出モジュール７２０、及び音声認識モジュール７３０は、単一又は複数の電子機器に含まれてもよい。さらに、図７に示すモジュールは、本開示の実施例を参照する方法又は／又はプロセス中のステップ又は／又は動作を実行することができることを理解されたい。

したがって、デジタル信号処理に基づく従来の音声強調とは異なり、本開示の実施例では、ニューラルネットワークによってマルチチャンネル音声信号の強調特徴を抽出することにより、音声強調と音声認識との最適化ターゲットが一致しない問題を解決することができ、音声強調と音声認識などのターゲットを共同で最適化し、音声強調と認識のエンドツーエンドのモデリングを実現し、音声認識の精度を向上させることができる。

また、本開示のいくつかの実施例によれば、複素ＣＮＮを用いて直接に元のマルチチャンネル音声信号に対してマルチスケールマルチレベルの情報抽出を行い、位相情報を保持する前提で、フロントエンドビームフォーミング及び強調特徴抽出を実現し、音声強調及び認識の一体化モデリングをさらに実現する。当該実現は、いかなるデジタル信号処理と音声認識分野の事前の仮定を必要とせず、全体の最適化プロセスには、音声認識ワードのエラー率という１つの準則しかない。また、本開示の実施例の完全なデータ駆動は、簡単で便利なシミュレーションプロセスによって、近距離場データからすべての遠距離場トレーニングを構築することができ、発明者の１０万時間レベルの製品テストでは、従来のデジタル信号処理＋音声認識の独立最適化遥かに超える性能が得られ、認識エラー率が大幅に低減された。

図８は、本開示の実施例を実現可能な例示的な機器８００を示す概略ブロック図である。機器８００は、本開示に説明された音声認識装置７００、又はユーザ機器、又はサーバを実現することができる。図に示すように、機器８００は、リードオンリーメモリ（ＲＯＭ）８０２に記憶されたコンピュータプログラム命令、又は記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる中央処理装置（ＣＰＵ）８０１を含む。ＲＡＭ８０３には、機器８００の動作に必要な各種のプログラム及びデータをさらに記憶することができる。ＣＰＵ８０１と、ＲＯＭ８０２と、ＲＡＭ８０３とは、バス８０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース８０５もバス８０４に接続されている。

機器８００における複数のコンポーネントはＩ／Ｏインタフェース８０５に接続されており、キーボードやマウスなどの入力ユニット８０６と、種々なディスプレイやスピーカなどの出力ユニット８０７と、磁気ディスクや光学ディスクなどの記憶ユニット８０８と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット８０９と、を含む。通信ユニット８０９は、機器８００がインターネットのようなコンピュータネット及び／又は種々なキャリアネットワークを介してその他の機器と情報／データを交換することを許可する。

処理ユニット８０１は、前述した各方法及びプロセス、例えば方法３００を実行する。例えば、いくつかの実施例では、方法は、記憶ユニット８０８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施例では、コンピュータプログラムの一部又は全ては、ＲＯＭ８０２及び／又は通信ユニット８０９を介して、機器８００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ８０３にロードされてＣＰＵ８０１によって実行される場合に、前述した方法３００の一つ又は複数のステップを実行することができる。追加的に、他の実施例では、ＣＰＵ８０１は、他の任意の適当な方式（例えば、ファームウェアにより）により方法を実行するように構成される。

本明細書では、前述した機能は、少なくとも部分的に一つ又は複数のハードウェアロジックコンポーネントによって実行することができる。例えば、非限定的に、使用可能なハードウェアロジックコンポーネントとしては、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などが挙げられる。

本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせにより作成することができる。これらのプログラムコードは、汎用コンピュータ、専門コンピュータ又はその他のプログラミングデータ処理装置のプロセッサ又はコントローラに提供されることにより、プログラムコードがプロセッサ又はコントローラによって実行される場合に、フローチャート及び／又はブロック図に規定された機能／動作を実行することができる。プログラムコードは、完全にマシンで実行されてもよく、部分的にマシンで実行されてもよく、独立したソフトパッケージとして部分的にマシンで実行されるとともに、部分的にリモートマシンで実行されてもよく、又は完全にリモートマシン又はサーバで実行されてもよい。

本開示の説明において、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置又は機器によって、又は命令実行システム、装置又は機器と合わせて使用されるプログラムを含み、又は記憶する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置、又はデバイス、又は前述した内容の任意の適切な組み合わせを含むことができるがこれらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、１つ又は複数の配線による電気的接続、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は前述した内容の任意の組み合わせを含む。

また、特定の順番で各動作又はステップを説明したが、このような動作又はステップを、示される特定の順番又は順次実行することが求められ、又は図示した動作又はステップの全てを実行して所望の結果を取得することが求められることを理解されたい。一定の環境において、複数のタスク及び並列処理が有利である可能性がある。同様に、以上の説明には、若干の具体的な実現の詳細が含まれたが、それが本開示の範囲を限定するものと理解されてはならない。個別の実施例に説明された一部の特徴は、一つの実施形態で組み合わせて実現することができる。逆に、一つの実施形態に説明された種々な特徴は、個別又は任意の適切なサブ組み合わせの方式で複数の実施形態で実現することができる。

構成の特徴及び／又は方法の論理動作に特有の言語で本テーマを説明したが、特許請求の範囲で限定される本開示の実施例は、上記の特定の特徴又は動作に限定されない。逆に、上記の特定の特徴と動作は、特許請求の範囲を実現する例に過ぎない。

Claims

マイクロフォンアレイ内の第１のマイクロフォンから採集された第１の音声信号と、前記第１のマイクロフォンとは異なる前記マイクロフォンアレイ内の第２のマイクロフォンから採集された第２の音声信号とを取得するステップと、
ニューラルネットワークによって前記第１の音声信号及び前記第２の音声信号に関連付けられた強調特徴を抽出するステップであって、前記強調特徴は、前記第１の音声信号及び前記第２の音声信号から取得した複素特徴を実数形式に変換したものであるステップと、
抽出された前記強調特徴に基づいて、音声認識結果を取得するステップと、を含み、
音声認識結果を取得するステップが、
第１のマイクロフォンと第２のマイクロフォンのダブルチャンネルから抽出された強調特徴帯域幅が、シングルチャンネルから抽出された強調特徴帯域幅と同じであるように、所定のサイズに前記強調特徴を圧縮するステップを含む音声認識方法。
ニューラルネットワークによって前記第１の音声信号及び前記第２の音声信号に関連付けられた強調特徴を抽出するステップは、
前記第１の音声信号及び前記第２の音声信号に対してそれぞれ複素フーリエ変換を行うステップと、
複素畳み込みニューラルネットワークによって、変換された第１の音声信号及び第２の音声信号に対して複素畳み込み、複素オフセット、及び複素線形変換操作を行って前記複素特徴を取得するステップと、
前記複素特徴を実数形式の前記強調特徴に変換するステップと、を含むことを特徴とする、請求項１に記載の音声認識方法。
音声認識結果を取得するステップは、
ストリーミング型多層切断注意モデルによって、前記強調特徴に基づいて、前記第１の音声信号及び前記第２の音声信号に対応するキャラクタ出力を決定するステップを含むことを特徴とする、請求項２に記載の音声認識方法。
音声認識結果を取得するステップは、
前記ストリーミング型多層切断注意モデルに圧縮された強調特徴を提供するステップをさらに含むことを特徴とする、請求項３に記載の音声認識方法。
前記方法は、
前記強調特徴に基づいて、前記第１の音声信号及び前記第２の音声信号に関連付けられたターゲット音源の方向を決定するステップと、
決定された方向に関連付けられた通知灯を点灯させるステップと、をさらに含むことを特徴とする、請求項２に記載の音声認識方法。
前記方法は、
前記強調特徴に基づいて、前記第１の音声信号及び前記第２の音声信号がウェイクアップワードに関連するか否かを決定するステップと、
前記第１の音声信号及び前記第２の音声信号がウェイクアップワードに関連するとの決定に基づいて、キャラクタ認識プロセスを開始するステップと、をさらに含むことを特徴とする、請求項２に記載の音声認識方法。
ニューラルネットワークによって前記第１の音声信号及び前記第２の音声信号に関連付けられた強調特徴を抽出するステップは、
前記マイクロフォンアレイ内の第３のマイクロフォンから採集された第３の音声信号を取得するステップと、
ニューラルネットワークによって前記第１の音声信号、前記第２の音声信号、及び第３の音声信号に関連付けられた強調特徴を抽出するステップと、を含むことを特徴とする、請求項１に記載の音声認識方法。
前記方法は、
前記マイクロフォンアレイ内のマイクロフォンと同じ数のマルチチャンネル遠距離場音声信号を取得するステップであって、前記マルチチャンネル遠距離場音声信号は、少なくとも第１の遠距離場音声信号と第２の遠距離場音声信号とを含むステップと、
前記マルチチャンネル遠距離場音声信号を使用してエンドツーエンド音声強調及び認識一体化モデルをトレーニングするステップと、をさらに含むことを特徴とする、請求項１に記載の音声認識方法。
前記マイクロフォンアレイ内のマイクロフォンと同じ数のマルチチャンネル遠距離場音声信号を取得するステップは、
近距離場音声信号に基づいて、ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするステップを含むことを特徴とする、請求項８に記載の音声認識方法。
ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするステップは、
縦横高さと壁反射係数とを含む部屋の構成、マイクロフォンアレイの前記部屋における位置、ターゲット音源の前記部屋における位置、及びノイズソースの前記部屋における位置を含むシミュレーションパラメータをランダムに設定するステップを含むことを特徴とする、請求項９に記載の音声認識方法。
ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするステップは、
前記シミュレーションパラメータに基づいて、前記近距離場音声信号に対する第１のセットのインパルス応答と、ランダムに選択されたノイズ信号に対する第２のセットのインパルス応答とを生成するステップをさらに含むことを特徴とする、請求項１０に記載の音声認識方法。
ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするステップは、
前記近距離場音声信号と、前記第１のセットのインパルス応答と、前記ノイズ信号と、前記第２のセットのインパルス応答と、信号対雑音比とに基づいて、前記マルチチャンネル遠距離場音声信号を生成するステップをさらに含むことを特徴とする、請求項１１に記載の音声認識方法。
マイクロフォンアレイ内の第１のマイクロフォンから採集された第１の音声信号と、前記第１のマイクロフォンとは異なる前記マイクロフォンアレイ内の第２のマイクロフォンから採集された第２の音声信号とを取得するように構成される音声信号取得モジュールと、
ニューラルネットワークによって前記第１の音声信号及び前記第２の音声信号に関連付けられた強調特徴を抽出するように構成される強調特徴抽出モジュールであって、前記強調特徴は、前記第１の音声信号及び前記第２の音声信号から取得した複素特徴を実数形式に変換したものである強調特徴抽出モジュールと、
抽出された前記強調特徴に基づいて、音声認識結果を取得するように構成される音声認識モジュールと、を含み、
前記音声認識モジュールが、
第１のマイクロフォンと第２のマイクロフォンのダブルチャンネルから抽出された強調特徴帯域幅が、シングルチャンネルから抽出された強調特徴帯域幅と同じであるように、所定のサイズに前記強調特徴を圧縮するように構成される特徴圧縮モジュールを含む音声認識装置。
前記強調特徴抽出モジュールは、
前記第１の音声信号及び前記第２の音声信号に対してそれぞれ複素フーリエ変換を行うように構成されるフーリエ変換モジュールと、
複素畳み込みニューラルネットワークによって、変換された第１の音声信号及び第２の音声信号に対して複素畳み込み、複素オフセット、及び複素線形変換操作を行って前記複素特徴を取得するように構成される畳み込み処理モジュールと、
前記複素特徴を実数形式の前記強調特徴に変換するように構成される変換モジュールと、を含むことを特徴とする、請求項１３に記載の音声認識装置。
前記音声認識モジュールは、
ストリーミング型多層切断注意モデルによって、前記強調特徴に基づいて、前記第１の音声信号及び前記第２の音声信号に対応するキャラクタ出力を決定するように構成されるキャラクタ出力モジュールを含むことを特徴とする、請求項１４に記載の音声認識装置。
前記音声認識モジュールは、
前記ストリーミング型多層切断注意モデルに圧縮された強調特徴を提供するように構成される特徴提供モジュールをさらに含むことを特徴とする、請求項１５に記載の音声認識装置。
前記装置は、
前記強調特徴に基づいて、前記第１の音声信号及び前記第２の音声信号に関連付けられたターゲット音源の方向を決定するように構成される方向決定モジュールと、
決定された方向に関連付けられた通知灯を点灯させるように構成される通知灯点灯モジュールと、をさらに含むことを特徴とする、請求項１４に記載の音声認識装置。
前記装置は、
前記強調特徴に基づいて、前記第１の音声信号及び前記第２の音声信号がウェイクアップワードに関連するか否かを決定するように構成されるウェイクアップ判断モジュールと、
前記第１の音声信号及び前記第２の音声信号がウェイクアップワードに関連するとの決定に基づいて、キャラクタ認識プロセスを開始するように構成される認識開始モジュールと、をさらに含むことを特徴とする、請求項１４に記載の音声認識装置。
前記強調特徴抽出モジュールは、
前記マイクロフォンアレイ内の第３のマイクロフォンから採集された第３の音声信号を取得するように構成される信号取得モジュールと、
ニューラルネットワークによって前記第１の音声信号、前記第２の音声信号、及び第３の音声信号に関連付けられた前記強調特徴を抽出するように構成される特徴抽出モジュールと、を含むことを特徴とする、請求項１３に記載の音声認識装置。
前記装置は、
前記マイクロフォンアレイ内のマイクロフォンと同じ数のマルチチャンネル遠距離場音声信号を取得するように構成されるマルチチャンネル遠距離場音声信号取得モジュールであって、前記マルチチャンネル遠距離場音声信号は、少なくとも第１の遠距離場音声信号と第２の遠距離場音声信号とを含むマルチチャンネル遠距離場音声信号取得モジュールと、
前記マルチチャンネル遠距離場音声信号を使用してエンドツーエンド音声強調及び認識一体化モデルをトレーニングするように構成されるトレーニングモジュールと、をさらに含むことを特徴とする、請求項１３に記載の音声認識装置。
前記マルチチャンネル遠距離場音声信号取得モジュールは、
近距離場音声信号に基づいて、ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするように構成されるリアルタイムシミュレーションモジュールを含むことを特徴とする、請求項２０に記載の音声認識装置。
前記リアルタイムシミュレーションモジュールは、
縦横高さと壁反射係数とを含む部屋の構成、マイクロフォンアレイの前記部屋における位置、ターゲット音源の前記部屋における位置、及びノイズソースの前記部屋における位置を含むシミュレーションパラメータをランダムに設定するように構成されるランダム設定モジュールを含むことを特徴とする、請求項２１に記載の音声認識装置。
前記リアルタイムシミュレーションモジュールは、
前記シミュレーションパラメータに基づいて、前記近距離場音声信号に対する第１のセットのインパルス応答と、ランダムに選択されたノイズ信号に対する第２のセットのインパルス応答とを生成するように構成されるインパルス応答生成モジュールと、をさらに含むことを特徴とする、請求項２２に記載の音声認識装置。
前記リアルタイムシミュレーションモジュールは、
前記近距離場音声信号と、前記第１のセットのインパルス応答と、前記ノイズ信号と、前記第２のセットのインパルス応答と、信号対雑音比とに基づいて、前記マルチチャンネル遠距離場音声信号を生成するように構成される第２のマルチチャンネル遠距離場音声信号取得モジュールをさらに含むことを特徴とする、請求項２３に記載の音声認識装置。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するための記憶装置と、を含む電子機器であって、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合、前記電子機器が請求項１～１２のいずれかに記載の方法を実現することを特徴とする、電子機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムがプロセッサによって実行される場合、請求項１～１２のいずれかに記載の方法が実現されることを特徴とする、コンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムが実行される場合、前記コンピュータに請求項１～１２のいずれかに記載の方法を実行させることを特徴とする、コンピュータプログラム。