JP2022017170A

JP2022017170A - 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム

Info

Publication number: JP2022017170A
Application number: JP2021047560A
Authority: JP
Inventors: リ、シン; Xin Li; フアン、ビン; Bin Huang; チャン、ツー; Ce Zhang; バイ、ジンフェン; Jinfeng Bai; ジア、レイ; Lei Jia
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-07-20
Filing date: 2021-03-22
Publication date: 2022-01-25
Anticipated expiration: 2041-03-22
Also published as: CN111863036A; JP7406521B2; EP3816999A3; CN111863036B; EP3816999B1; KR102599978B1; KR20220011064A; EP3816999A2; US20210210113A1

Abstract

【課題】各方向間隔を個別に予測することで、各方向間隔に目標音声のサブ音声が存在するか否かを正確に決定し、正確な予測を実現する音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムを提供する。【解決手段】方法は、目標音声を取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークにこの目標音声を入力して、所定の複数の方向間隔の各方向間隔にこの目標音声のサブ音声が存在するか否かを取得するステップと、を含む。【選択図】図２

Description

本願は、コンピュータの技術分野、具体的には音声処理および深層学習の技術分野、特に音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラムに関する。

到着方向（ＤｉｒｅｃｔｉｏｎＯｆＡｒｒｉｖａｌ、ＤＯＡ）の推定は、波の到着方向を推定すること、即ち、音源の方向を推定することである。ここでのソースは、オーディオソース、または通信に使用できる他の信号ソースであり得る。音声アクティビティ検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、ＶＡＤ）は、現在のオーディオに音声信号（即ち、人間音声信号）が含まれるか否かを検出することができる。即ち、オーディオを判断し、人間音声信号を様々な背景雑音から認識することができる。

関連技術における到着方向の推定では、通常、受信装置アレイを使用して信号を取得し、受信装置から信号への波到着線の方向を決定し、波到着線の方向を使用して三角測量を実行して到着方向を決定する。

音声検出方法、装置、電子デバイス、および記憶媒体が提供される。

第一様態によれば、音声検出方法が提供される。この方法は、目標音声を取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップと、を含む。

第二様態によれば、ディープニューラルネットワーク訓練方法が提供される。この方法は、音声サンプルが少なくとも１つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するステップと、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップと、を含む。

第三様態によれば、音声検出装置が提供される。この装置は、目標音声を取得するように構成される取得ユニットと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得するように構成される予測ユニットと、を含む。

第四様態によれば、ディープニューラルネットワーク訓練装置が提供される。この装置は、音声サンプルが少なくとも１つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するように構成されるサンプル取得ユニットと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するように構成される入力ユニットと、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するように構成される訓練ユニットと、を含む。

第五態様によれば、電子デバイスが提供される。この電子デバイスは、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶するための記憶装置と、を含み、１つまたは複数のプログラムが１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサが音声検出方法またはディープニューラルネットワーク訓練方法などの実施例のいずれかにおける方法を実施する。

第六態様によれば、コンピュータプログラムを記憶するコンピュータ可読記憶媒体が提供される。このコンピュータ可読記憶媒体では、このプログラムがプロセッサによって実行されて音声検出方法またはディープニューラルネットワーク訓練方法などの実施例のいずれかにおける方法を実施する。

第七態様によれば、コンピュータプログラムが提供される。このコンピュータ可読記憶媒体では、このコンピュータプログラムがプロセッサによって実行されて音声検出方法またはディープニューラルネットワーク訓練方法などの実施例のいずれかにおける方法を実施する。

本願の解決策によれば、各方向間隔を個別に予測できるため、各方向間隔に目標音声のサブ音声が存在するか否かを正確に決定し、正確な予測を実現することができる。

本願の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになるであろう。

本願のいくつかの実施例が適用され得る例示的なシステムアーキテクチャ図である。本願に係る音声検出方法の一実施例のフローチャートである。本願に係る音声検出方法の適用シナリオの概略図である。本願に係る音声検出ディープニューラルネットワークの予測プロセスの概略図である。本願に係るディープニューラルネットワーク訓練方法の一実施例のフローチャートである。本願に係る音声検出ディープニューラルネットワークの訓練ネットワーク構造の概略図である。本願に係る音声検出装置の一実施例の構造概略図である。本願の実施例に係る音声検出方法を実施するための電子デバイスのブロック図である。

本願の例示的な実施例は、理解を容易にするための本願の実施例の様々な詳細を含む図面と併せて以下に説明され、単なる例示と見なされるべきである。従って、本願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者にとって理解されるであろう。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略される。

なお、本願の実施例および実施例の特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本願を詳細に説明する。

図１は、本願が適用され得る、音声検出方法または音声検出装置の実施例の例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含み得る。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間の通信リンクを提供するために使用される媒体である。ネットワーク１０４は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。

ユーザは、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と対話し、メッセージなどを送受信することができる。端末装置１０１、１０２、１０３には、音声検出アプリケーション、ライブブロードキャストアプリケーション、インスタントメッセージツール、電子メールクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションがインストールされ得る。

ここでの端末装置１０１、１０２、１０３は、ハードウェアであり得るか、またはソフトウェアであり得る。端末装置１０１、１０２、１０３がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を備えた様々な電子デバイスであり得る。端末装置１０１、１０２、１０３がソフトウェアである場合、それらは、上記に挙げた電子デバイスにインストールされ得る。それは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール）として実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは特に限定されない。

サーバ１０５は、端末装置１０１、１０２、１０３へのサポートを提供するバックグラウンドサーバなど、様々なサービスを提供するサーバであり得る。バックグラウンドサーバは、受信した目標音声などのデータに対して分析などの処理を行い、処理結果（例えば、ディープニューラルネットワークの予測結果）を端末装置にフィードバックすることができる。

なお、本願の実施例によって提供される音声検出方法がサーバ１０５または端末装置１０１、１０２、１０３によって実行され得るため、音声検出装置は、サーバ１０５または端末装置１０１、１０２、１０３に設置され得る。

図１中の端末装置、ネットワーク、およびサーバの数は、単なる例示であることを理解されたい。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意に設定され得る。

さらに図２を参照すると、図２は、本願に係る音声検出方法の一実施例のプロセス２００を示す。この音声検出方法は、以下のステップを含む。

ステップ２０１、目標音声を取得する。

本実施例では、音声検出方法を実行する実行主体（例えば、図１に示すサーバまたは端末装置）は、目標音声を取得することができる。実際には、この目標音声は、シングルチャネル音声であり得るか、またはマルチチャネル音声であり得る。即ち、この目標音声は、１つのマイクが受信する音声であり得るか、または複数の異なる受信方向のマイクからなるマイクアレイが受信する音声であり得る。

ステップ２０２、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得する。

本実施例では、上記実行主体は、事前に訓練されたディープニューラルネットワークに目標音声を入力して、このディープニューラルネットワークから出力される予測結果を取得することができる。具体的には、この予測結果は、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かである。目標音声は、それぞれが目標音声における１つのサブ音声を発する少なくとも１つの音源から発せられる音声であり、各音源は１つの到着方向に対応する。なお、本願では、複数とは、少なくとも２つを意味する。

具体的には、ここでのディープニューラルネットワークは、畳み込みニューラルネットワーク、残差ニューラルネットワークなどの様々なネットワークであり得る。

予測結果は、上記複数の方向間隔の各方向間隔にサブ音声が存在するか否かについての予測結果を含み得る。例えば、全方向が３６０°を含み、各方向間隔が１２０°を含む場合、上記複数の方向間隔は、３つの方向間隔を含み得る。各方向間隔が３６°を含む場合、上記複数の方向間隔は、１０個の方向間隔を含み得る。各方向間隔が３０°を含む場合、上記複数の方向間隔は、１２個の方向間隔を含み得る。

上記ディープニューラルネットワークの予測結果は、各方向間隔にサブ音声が存在するか否かを包括的かつ個別に予測することができ、各方向間隔はこの予測結果に対応する結果が存在する。例えば、方向間隔が１２個存在する場合、予測結果には１２個の結果が存在し、異なる方向間隔はこの１２個の結果における異なる結果に対応する。

実際には、予測結果は定性的であり得る。例えば、予測結果は、サブ音声が存在することを示す「１」、またはサブ音声が存在しないことを示す「０」であり得る。または、予測結果は定量的でもあり得る。例えば、予測結果は、「０．９６」など、サブ音声が存在することを示す確率ｐであり得、この確率の数値範囲は［０、１］である。この予測結果には０．９５などの閾値が存在し得る。即ち、この確率がこの閾値以上である場合、この方向間隔に目標音声のサブ音声が存在する。また、予測結果は、「０．０６」など、サブ音声が存在することを示す確率ｑでもあり得、この確率の数値範囲は［１、０］である。この予測結果には０．０５などの閾値が存在し得る。即ち、この確率がこの閾値以下である場合、この方向間隔に目標音声のサブ音声が存在する。

本願の上記実施例によって提供される方法は、各方向間隔を個別に予測できるため、各方向間隔に目標音声のサブ音声が存在するか否かを正確に決定し、正確な予測を実現することができる。

さらに図３ａを参照すると、図３ａは、本実施例に係る音声検出方法の適用シナリオの概略図である。図３ａの適用シナリオでは、実行主体３０１は、目標音声３０２を取得する。実行主体３０１は、所定の３つの方向間隔の各方向間隔に入力音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声３０２を入力して、ディープニューラルネットワークの予測結果３０３を取得する。この予測結果３０３は所定の３つの方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かであり、具体的には、第一方向間隔にサブ音声が存在し、第二方向間隔にサブ音声が存在し、第三方向間隔にサブ音声が存在しない。

本願は、音声検出方法の別の実施例をさらに提供する。ディープニューラルネットワークは、任意の２つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む。

本実施例では、ディープニューラルネットワーク内の完全接続ネットワークは、マルチヘッド完全接続ネットワークであり得る。音声検出方法を実行する実行主体（例えば、図１に示すサーバまたは端末装置）は、マルチヘッド完全接続ネットワークに含まれる複数の完全接続ネットワークを使用して完全接続処理を実行することができる。ディープニューラルネットワークから出力される予測結果には各完全接続ネットワークの出力の全部または一部が含まれ得る。完全接続ネットワークと方向間隔との間には対応関係がある。即ち、１つの完全接続ネットワークは複数の方向間隔の一つに対応する。それに応じて、１つの完全接続ネットワークは、この完全接続ネットワークに対応する方向間隔に目標音声のサブ音声が存在するか否かを予測することができる。

マルチヘッド完全接続ネットワークの入力は、当技術分野における他の完全接続ネットワークの入力と同じであり得る。例えば、入力は、目標音声の音声特徴であり得る。

本実施例では、マルチヘッド完全接続ネットワークを使用して、異なる方向間隔におけるサブ音声の正確な予測を実現することができる。

本実施例のいくつかの代替的な実施形態では、マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む。

これらの代替的な実施形態では、マルチヘッド完全接続ネットワークは、完全接続（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ、ＦＣ）層（例えば、活性化ｒｅｌｕ層に接続された完全接続層ＦＣ－ｒｅｌｕ）、アフィン層（ａｆｆｉｎｅｌａｙｅｒ）、およびソフトマックス層（ｓｏｆｔｍａｘｌａｙｅｒ）を含み得る。これらの実施形態では、完全接続ネットワーク内の各処理層を使用して微細化処理を実行することができるため、より正確な予測結果を取得するのに役立つ。

本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含む。事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得する上記ステップは、事前に訓練されたディープニューラルネットワークに目標音声を入力し、特徴抽出ネットワークを使用して目標音声の音声特徴を抽出するステップと、畳み込みニューラルネットワークを使用して音声特徴を処理し、マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、を含み得る。

これらの代替的な実施形態では、上記実行主体は、最初に特徴抽出（ｆｅａｔｕｒｅ－ｅｘｔｒａｃｔｉｏｎ、ＦＥ）ネットワークを使用して目標音声の音声特徴を抽出し、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ、例えば、活性化ｒｅｌｕ層に接続された畳み込み層ＣＮＮ－ｒｅｌｕ）を使用して音声特徴に対して畳み込み処理を実行することにより、畳み込み音声特徴を取得することができる。具体的には、畳み込みニューラルネットワークは、一つまたは２つ以上の畳み込み層を含み得る。さらに、畳み込みニューラルネットワークは、活性化層も含み得る。

実際には、上記実行主体は、特徴抽出ネットワークを使用して目標音声の音声特徴を様々な方法で抽出することができる。例えば、特徴抽出ネットワークがスペクトル分析に使用され得る場合、上記実行主体は、特徴抽出ネットワークを使用して目標音声に対してスペクトル分析を実行し、目標音声のスペクトログラムを取得し、このスペクトログラムを畳み込みニューラルネットワークに入力されるべき音声特徴として決定することができる。

これらの実施形態では、音声特徴の抽出および音声特徴の畳み込み処理を実行して、音声特徴の抽出、および音声特徴の適切な処理を実現できるため、マルチヘッド完全接続ネットワークが畳み込み音声特徴をより効果的に使用して正確な予測結果を取得するのに役立つ。

これらの実施形態のいくつかの代替的な適用シナリオでは、ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含む。これらの実施形態における、特徴抽出ネットワークを使用して目標音声の音声特徴を抽出するステップは、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、特徴抽出ネットワークを使用して、ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、正規化済み実部および正規化済み虚部を目標音声の音声特徴として決定するステップと、を含み得る。

これらの代替的な適用シナリオでは、上記実行主体は、目標音声に対してフーリエ変換（ｆａｓｔｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ、ＦＦＴ）を実行することができ、得られた結果はベクトルである。さらに、このベクトルは、ｘ＋ｙｊなどの複素形式で表される。ここで、ｘが実部であり、ｙが虚部であり、ｊが虚部単位である。それに応じて、

は正規化済み実部であり、

は正規化済み虚部である。このことから、上記正規化済み実部および上記正規化済み虚部は、全方向の位相情報を含むことがわかる。従来技術では、フーリエ変換によって取得されるベクトルの位相は音声特徴として直接使用されることが多いが、位相の周期性（一般に２πは周期である）のために、この方法で計算された位相と真の位相との間にはいくつかの２πの偏差がある。

これらの適用シナリオでは、正規化済み実部および正規化済み虚部を音声特徴として決定できるため、従来技術における、位相偏差が発生するという問題を回避する。また、音声に対して様々な特徴を決定できるため、より正確な予測結果を取得するのに役立つ。

任意選択的に、上記方法は、特徴抽出ネットワークを使用して、ベクトルのモジュラス長の対数を決定するステップをさらに含み得る。正規化済み実部および正規化済み虚部を目標音声の音声特徴として決定するステップは、正規化済み実部、正規化済み虚部、および対数を目標音声の音声特徴として決定するステップを含む。

具体的には、複素形式のベクトルのモジュラス長を決定することは、このベクトルの実部と虚部の二乗和の平方根を決定することである。

上記実行主体は、取得した正規化済み実部、正規化済み虚部、および対数を３つの異なるチャネル（ｃｈａｎｎｅｌ）で畳み込みニューラルネットワークに入力し、畳み込み処理を実行することができる。この対数は、音声を検出するための十分な情報を提供することができる。

これらの実施形態のいくつかの代替的な適用シナリオでは、事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップは、マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に目標音声のサブ音声が存在する確率を取得するステップをさらに含み得る。

これらの代替的な適用シナリオでは、上記実行主体は、畳み込みニューラルネットワークから出力される畳み込み音声特徴をマルチヘッド完全接続ネットワーク内の各完全接続ネットワークに入力して、各完全接続ネットワークに対応する方向間隔に目標音声のサブ音声が存在する確率を取得することができる。実際には、ここでの確率は、サブ音声が存在することを示す上記確率ｐ、および／またはサブ音声が存在しないを示す上記確率ｑであり得る。

これらの適用シナリオでは、マルチヘッド完全接続ネットワークを使用して、各方向間隔に目標音声のサブ音声が存在する確率を正確に決定することができる。

これらの適用シナリオのいくつかの代替的な場合では、上記ディープニューラルネットワークは、マージ層をさらに含み得る。事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得する上記ステップは、マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップをさらに含み得る。

いくつかの代替的な場合、上記実行主体は、マージ（ｃｏｎｃａｔｅ）層を使用して、マルチヘッド完全接続ネットワーク内の各完全接続ネットワークによって取得される確率に対してマージ処理を実行し、マージ処理結果をディープニューラルネットワークの予測結果として決定することができる。

各完全接続ネットワークの結果が上記確率ｐなどの単一の確率である場合、上記マージ処理は、各完全接続ネットワークによって取得される確率を確率セットにマージすることであり得る。各完全接続ネットワークの結果が上記確率ｐまたは上記確率ｑなどの少なくとも２つの確率である場合、上記マージ処理は、上記確率ｐなど、各完全接続ネットワークによって取得される少なくとも２つの確率の一つを確率セットにマージすることであり得る。具体的には、ディープニューラルネットワーク訓練中に使用される損失関数がクロスエントロピー関数である場合、予測結果は確率ｐおよび確率ｑを含み、ｐ＋ｑ＝１である。従って、確率ｐなど、上記確率の一つを予測結果として選択して出力することができる。

実際には、マージ処理は記号Ｔで表される転置処理をさらに含み得、確率セットはｐｎセットであり、ｐｎは、方向間隔ｎに目標音声のサブ音声が存在する確率を表し、

である。ただし、ｎ＝０，１，…，Ｎ－１である。

図３ｂに示すように、図３ｂは、音声情報をディープニューラルネットワークに入力して予測し、予測結果を取得するプロセス全体を示す。

これらの場合、上記実行主体は、マージ層を使用して各確率に対してマージ処理を実行することができるため、ディープニューラルネットワークが、複数の方向間隔に目標音声のサブ音声が存在する確率を一度に出力できるようにする。

さらに図４ａを参照すると、図４ａは、ディープニューラルネットワーク訓練方法の一実施例のプロセス４００を示す。このプロセス４００は、以下のステップを含み得る。

ステップ４０１で、音声サンプルが少なくとも１つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得する。

本実施例では、ディープニューラルネットワーク訓練方法を実行する実行主体（例えば、図１に示すサーバまたは端末装置）は、訓練サンプルを取得することができる。訓練サンプルは、所定の一つまたは複数の方向間隔におけるサブ音声を含み得る訓練用の音声サンプルを含む。

ステップ４０２で、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用されるディープニューラルネットワークに音声サンプルを入力して、予測結果を取得する。

本実施例では、上記実行主体は、ディープニューラルネットワークに音声サンプルを入力し、ディープニューラルネットワークにおいて順方向伝搬を実行し、ディープニューラルネットワークから出力される予測結果を取得することができる。具体的には、入力されるディープニューラルネットワークは、訓練対象のディープニューラルネットワークである。

ステップ４０３で、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する。

本実施例では、上記実行主体は、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得することができる。訓練サンプルは、上記音声サンプルに対応する実結果、即ち、複数の方向間隔の各方向間隔にこの音声サンプルのサブ音声が存在するか否かを含み得る。

具体的には、上記実行主体は、予測結果および上記実結果に基づいて損失値を決定し、この損失値を使用してディープニューラルネットワークにおいて逆方向伝搬を実行することにより、訓練されたディープニューラルネットワークを取得することができる。

本実施例で訓練されたディープニューラルネットワークは、各方向間隔を個別に予測できるため、各方向間隔に音声のサブ音声が存在するか否かを正確に決定し、正確な予測を実現することができる。

本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、任意の２つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む。

これらの実施形態のいくつかの代替的な適用シナリオでは、ステップ４０２は、訓練サンプルが音声サンプルにおける各サブ音声の方向情報をさらに含む音声サンプルをディープニューラルネットワークに入力し、ディープニューラルネットワークを使用して音声サンプルの特徴を決定し、音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、マルチヘッド完全接続ネットワークを使用して、複数の到着方向間隔の各到着方向間隔に音声サンプルのサブ音声が存在するか否かを決定するステップと、を含み得る。

これらの代替的な適用シナリオでは、上記実行主体は、上記音声サンプルの特徴を決定し、決定された特徴を処理対象音声特徴として決定することができる。具体的には、上記実行主体は、様々な方法で上記音声サンプルの特徴を決定することができる。例えば、上記実行主体は、特徴抽出層を使用して上記音声サンプルの特徴を抽出し、抽出された特徴を処理対象音声特徴として決定することができる。さらに、上記実行主体は、抽出されたこの特徴に対して他の処理を実行し、処理結果を処理対象音声特徴として決定することもできる。例えば、上記実行主体は、抽出された特徴をプリセットモデルに入力し、プリセットモデルから出力される結果を処理対象音声特徴として決定することができる。

上記実行主体は、各処理対象サブ音声特徴について、特徴指向ネットワークを使用して、このサブ音声の方向情報で示される方向が存在する方向間隔を決定することにより、この方向間隔に対応する完全接続ネットワークを決定することができる。対応する完全接続ネットワークをこの処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する。

マルチヘッド完全接続ネットワーク内の各完全接続ネットワークは、複数の到着方向間隔の各到着方向間隔に上記音声サンプルのサブ音声が存在するか否かを出力することができる。

これらの適用シナリオのいくつかの代替的な場合では、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する上記ステップは、特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップを含み得る。

これらの場合、上記実行主体は、特徴指向ネットワークを使用して、各処理対象サブ音声特徴に対応する完全接続ネットワーク、即ち、入力されるべき完全接続ネットワークを決定することができる。従って、上記実行主体は、各処理対象サブ音声特徴について、この処理対象サブ音声特徴をこの処理対象サブ音声特徴に対応する完全接続ネットワークに入力することができる。

これらの場合、上記実行主体は、特徴指向ネットワークを使用して訓練プロセスにおいて処理対象サブ音声特徴を各完全接続ネットワークに割り当てることができるため、各完全接続ネットワークが訓練プロセスにおいて特定の方向間隔におけるサブ音声の特徴を学習できるようにして、この方向間隔におけるサブ音声の検出精度を向上させることができる。

これらの適用シナリオのいくつかの代替的な場合では、これらの適用シナリオにおける、マルチヘッド完全接続ネットワークを使用して、複数の到着方向間隔の各到着方向間隔に音声サンプルのサブ音声が存在するか否かを決定するステップは、各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、複数の方向間隔の各方向間隔に音声サンプルのサブ音声が存在する確率を取得するステップを含み得る。

これらの場合、上記実行主体は、各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、この処理対象サブ音声特徴に対応する完全接続ネットワークにおいて順方向伝搬を実行することができ、順方向伝搬結果は、複数の方向間隔の各方向間隔に音声サンプルのサブ音声が存在する確率である。

これらの場合、上記実行主体は、各方向間隔にサブ音声が存在する確率に基づいて正確な予測を実行することができる。

任意選択的に、ディープニューラルネットワークを使用して音声サンプルの特徴を決定し、処理対象音声特徴を取得する上記ステップは、特徴抽出ネットワークを使用して音声サンプルの音声特徴を抽出するステップと、畳み込みニューラルネットワークを使用して、抽出された音声特徴を処理し、マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、を含み得る。

この場合、上記実行主体は、後続処理における特徴の使用を容易にするために、特徴抽出ネットワークおよび畳み込みニューラルネットワークを使用して音声サンプルの特徴を完全に抽出することができる。

任意選択的に、上記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含む。特徴抽出ネットワークを使用して音声サンプルの音声特徴を抽出する上記ステップは、フーリエ変換ネットワークを使用して音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、特徴抽出ネットワークを使用して、ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、正規化済み実部および正規化済み虚部を音声サンプルの音声特徴として決定するステップと、を含み得る。

これらの場合、上記実行主体は、正規化済み実部および正規化済み虚部を音声特徴として決定することができるため、従来技術における、位相偏差が発生するという問題を回避する。また、音声に対して様々な特徴を決定できるため、訓練されたディープニューラルネットワークがより正確な予測結果を予測するのに役立つ。

任意選択的に、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する上記ステップは、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップを含み得る。

実際には、上記実行主体は、取得された確率、実確率（例えば、存在する場合が「１」で表され、存在しない場合が「０」で表される）などの訓練サンプル内の実結果、および所定の損失関数（例えば、クロスエントロピー関数）に基づいて、取得された確率の損失値を決定し、この損失値を使用して逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新することができる。

任意選択的に、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新する上記ステップは、取得された各確率について、この確率に対応する損失値を決定し、損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、

特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、

第一結果セットを使用して、畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含み得る。

実際には、上記実行主体は、各完全接続ネットワークから取得された確率、この完全接続ネットワークに対応する方向間隔に訓練サンプルにおけるマークされた音声サンプルのサブ音声が存在するか否かについての実結果、即ち実確率、および所定の損失関数を使用して、各完全接続ネットワークに対応する損失値を決定することができる。そして、各完全接続ネットワークに対応する損失値を使用して、この完全接続ネットワークにおいて逆方向伝搬を実行し、各完全接続ネットワークに対応する逆方向伝搬結果、即ち、各完全接続ネットワークに対応する第一結果を取得する。

上記実行主体は、特徴指向ネットワークを使用して、各完全接続ネットワークに対応する第一結果に対してマージ処理を実行し、第一結果セットを取得することができる。その後、上記実行主体は、第一結果セットを使用して、畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新することができる。

図４ｂに示すように、図４ｂは、ディープニューラルネットワークの訓練ネットワーク構造を示す。その中で、ＤＯＡ－Ｓｐｌｉｔｔｅｒは特徴指向ネットワークである。

これらの実施形態では、畳み込みニューラルネットワークおよびマルチヘッド完全接続層において逆方向伝搬を実行し、これら２つのネットワークのパラメータを更新することができる。また、これらの実施形態では、特徴指向ネットワークを使用して、各完全接続ネットワークの逆方向伝搬結果をマージすることもできるため、畳み込みニューラルネットワークにおいて逆方向伝搬を継続し、モデル全体において逆方向伝搬を実現し、パラメータを更新することができる。

さらに図５を参照すると、上記の図２および上記の図３に示す方法の実施例として、本願は、音声検出装置の一実施例を提供する。この装置の実施例は、図２に示す方法の実施例に対応する。以下に説明される特徴に加えて、この装置の実施例は、図２に示す方法の実施例と同じまたは対応する特徴または効果をさらに含み得る。この装置は、様々な電子デバイスに特に適用できる。

図５に示すように、本実施例に係る音声検出装置５００は、取得ユニット５０１、および予測ユニット５０２を含む。取得ユニット５０１は、目標音声を取得するように構成される。予測ユニット５０２は、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するように構成される。

本実施例では、音声検出装置５００の取得ユニット５０１および予測ユニット５０２の具体的な処理とその技術的効果については、それぞれ図２に対応する実施例のステップ２０１およびステップ２０２の関連説明を参照されたいが、ここでは繰り返さない。

本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含む。予測ユニットは、事前に訓練されたディープニューラルネットワークに目標音声を入力し、特徴抽出ネットワークを使用して目標音声の音声特徴を抽出するステップと、畳み込みニューラルネットワークを使用して音声特徴を処理し、マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、によって、事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含む。予測ユニットは、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、特徴抽出ネットワークを使用して、ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、正規化済み実部および正規化済み虚部を目標音声の音声特徴として決定するステップと、によって、特徴抽出ネットワークを使用して目標音声の音声特徴を抽出するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、装置は、特徴抽出ネットワークを使用して、ベクトルのモジュラス長の対数を決定するように構成される決定ユニットをさらに含む。予測ユニットは、正規化済み実部、正規化済み虚部、および対数を目標音声の音声特徴として決定するステップによって、正規化済み実部および正規化済み虚部を目標音声の音声特徴として決定するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、予測ユニットは、マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に目標音声のサブ音声が存在する確率を取得するステップによって、事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、マージ層をさらに含む。予測ユニットは、マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップによって、事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、特徴指向ネットワーク、フーリエ変換ネットワーク、特徴抽出ネットワーク、および畳み込みニューラルネットワークをさらに含む。ネットワーク構造訓練ステップは、音声サンプルにおける異なるサブ音声の方向情報をさらに含む訓練サンプルの音声サンプルに対してディープニューラルネットワークのフーリエ変換ネットワーク、特徴抽出ネットワーク、および畳み込みニューラルネットワークにおいて順方向伝搬を実行し、異なるサブ音声に対応する畳み込みサブ音声特徴を含む音声サンプルの畳み込み音声特徴を取得するステップと、音声サンプルの畳み込み音声特徴における各サブ音声の畳み込みサブ音声特徴について、特徴指向ネットワークを使用して、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークをこの畳み込みサブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、マルチヘッド完全接続ネットワークにおいて順方向伝搬を実行し、複数の方向間隔の各方向間隔に音声サンプルのサブ音声が存在する確率を取得するステップと、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含む。

本実施例のいくつかの代替的な実施形態では、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップは、取得された各確率について、この確率に対応する損失値を決定し、損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、第一結果セットを使用して、畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含む。

上記各図に示す方法の実施例として、本願は、ディープニューラルネットワーク訓練装置の一実施例を提供する。この装置の実施例は、図４ａおよび図４ｂに示す方法の実施例に対応する。以下に説明される特徴に加えて、この装置の実施例は、図４ａに示す方法の実施例と同じまたは対応する特徴または効果をさらに含み得る。この装置は、様々な電子デバイスに特に適用できる。

本実施例のディープニューラルネットワーク訓練装置は、サンプル取得ユニット、入力ユニット、および訓練ユニットを含む。サンプル取得ユニットは、音声サンプルが少なくとも１つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するように構成される。入力ユニットは、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用されるディープニューラルネットワークに音声サンプルを入力して、予測結果を取得するように構成される。訓練ユニットは、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するように構成される。

本実施例では、ディープニューラルネットワーク訓練装置のサンプル取得ユニット、入力ユニット、および訓練ユニットの具体的な処理とその技術的効果については、それぞれ図４ａに対応する実施例のステップ４０１、ステップ４０２、およびステップ４０３の関連説明を参照されたいが、ここでは繰り返さない。

本実施例のいくつかの代替的な実施形態では、入力ユニットは、訓練サンプルが音声サンプルにおける各サブ音声の方向情報をさらに含む音声サンプルをディープニューラルネットワークに入力し、ディープニューラルネットワークを使用して音声サンプルの特徴を決定し、音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、マルチヘッド完全接続ネットワークを使用して、複数の到着方向間隔の各到着方向間隔に音声サンプルのサブ音声が存在するか否かを決定するステップと、によって、ディープニューラルネットワークに音声サンプルを入力して、予測結果を取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークの訓練ネットワーク構造は、特徴指向ネットワークをさらに含む。入力ユニットは、特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップによって、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、入力ユニットは、各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、複数の方向間隔の各方向間隔に音声サンプルのサブ音声が存在する確率を取得するステップによって、マルチヘッド完全接続ネットワークを使用して、複数の到着方向間隔の各到着方向間隔に音声サンプルのサブ音声が存在するか否かを決定するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含む。入力ユニットは、特徴抽出ネットワークを使用して音声サンプルの音声特徴を抽出するステップと、畳み込みニューラルネットワークを使用して、抽出された音声特徴を処理し、マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、によって、ディープニューラルネットワークを使用して音声サンプルの特徴を決定し、処理対象音声特徴を取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含む。入力ユニットは、フーリエ変換ネットワークを使用して音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、特徴抽出ネットワークを使用して、ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、正規化済み実部および正規化済み虚部を音声サンプルの音声特徴として決定するステップと、によって、特徴抽出ネットワークを使用して音声サンプルの音声特徴を抽出するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、訓練ユニットは、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップによって、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、訓練ユニットは、取得された各確率について、この確率に対応する損失値を決定し、損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、第一結果セットを使用して、畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップと、によって、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップを実行するようにさらに構成される。

本願の実施例によれば、本願は、電子デバイスおよび可読記憶媒体をさらに提供する。

図６に示すように、図６は、本願の実施例に係る音声検出方法を実施するための電子デバイスのブロック図であり、ディープニューラルネットワーク訓練方法を実施するための電子デバイスのブロック図でもある。音声検出方法を実施するための電子デバイスのブロック図を例に挙げて、以下に説明する。

電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および／または請求される本願の実施形態を限定することを意図したものではない。

図６に示すように、この電子デバイスは、１つまたは複数のプロセッサ６０１と、メモリ６０２と、高速インターフェースおよび低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースとを含む。様々なコンポーネントは、異なるバスを介して互いに接続されており、パブリックマザーボードに取り付けられ得るか、または必要に応じて他の方法で取り付けられ得る。プロセッサは、ＧＵＩのグラフィック情報が外部入力／出力装置（例えば、インターフェースに結合された表示装置）に表示されるようにメモリ内またはメモリ上に記憶される命令を含む、電子デバイスで実行された命令を処理することができる。他の実施形態では、複数のプロセッサおよび／または複数本のバスは、必要に応じて、複数のメモリと共に使用され得る。同様に、それは、（例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとして）いくつかの必要な操作を提供する複数の電子デバイスに接続され得る。図６には、プロセッサ６０１が例として挙げられる。

メモリ６０２は、本願によって提供される非一時的コンピュータ可読記憶媒体である。メモリには、少なくとも１つのプロセッサが本願によって提供される音声検出方法を実行できるように、少なくとも１つのプロセッサによって実行され得る命令が記憶されている。本願の非一時的コンピュータ可読記憶媒体には、本願によって提供される音声検出方法をコンピュータに実行させるために使用されるコンピュータ命令が記憶されている。

非一時的コンピュータ可読記憶媒体として、メモリ６０２は、非一時的ソフトウェアプログラムと、非一時的コンピュータ実行可能プログラムと、本願の実施例における音声検出方法に対応するプログラム命令／モジュール（例えば、図５に示す取得モジュール５０１、および予測モジュール５０２）などのモジュールと、を記憶するために使用され得る。プロセッサ６０１は、メモリ６０２に記憶された非一時的ソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する、即ち、上記方法の実施例における音声検出方法を実施する。

メモリ６０２は、オペレーティングシステムおよび少なくとも１つの機能に必要なアプリケーションプログラムが記憶され得るプログラム記憶領域と、音声検出用の電子デバイスによって作成されたデータなどが記憶され得るデータ記憶領域とを含み得る。さらに、メモリ６０２は、高速ランダムアクセスメモリを含み得、また、少なくとも１つの磁気ディスクメモリ、フラッシュメモリ、または他の非一時的ソリッドステートメモリなどの非一時的メモリを含み得る。いくつかの実施例では、メモリ６０２は、任意選択で、プロセッサ６０１に対して遠隔的に設置されたメモリを含み得、これらの遠隔メモリは、ネットワークを介して、音声検出用の電子デバイスに接続され得る。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。

音声検出方法を実施するための電子デバイスは、入力装置６０３および出力装置６０４をさらに含み得る。プロセッサ６０１、メモリ６０２、入力装置６０３、および出力装置６０４は、バスまたは他の手段によって接続され得るが、図６にはバスによる接続が例として挙げられる。

入力装置６０３は、入力された数字または文字情報を受信し、音声検出用の電子デバイスのユーザ設定および機能制御に関連するキー信号入力を生成することができるもの、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置６０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含み得る。この表示装置は、液晶ディスプレイ（ＬＤＣ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであり得る。

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも１つの入力装置、およびこの少なくとも１つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈され得る１つまたは複数のコンピュータプログラムに実装されることを含み得る。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高水準手続き型またはオブジェクト指向型のプログラミング言語、および／またはアセンブリ／機械言語で実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受信する機械可読媒体を含む、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス（例えば、マウスまたはトラックボール）とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック（例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック）をユーザに提供したり、任意の形態（音響入力、音声入力、および触覚入力を含む形態）を使用してユーザからの入力を受信したりするために使用され得る。

本明細書に記載のシステムおよび技術は、バックエンドコンポーネント（例えば、データサーバ）を含むコンピュータシステム、ミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピュータシステム、フロントエンドコンポーネント（例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ）を含むコンピュータシステム、または、これらバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体（例えば、通信ネットワーク）を介して互いに接続され得る。通信ネットワークの例には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットが含まれる。

コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。サーバは、従来の物理ホストおよびＶＰＳサーバ（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、または単に「ＶＰＳ」）における、管理の難しさが高く、サービスの拡張性が低いという欠点を解決するためのクラウドコンピューティングサービスシステムのホスト製品であるクラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであり得る。

図面中のフローチャートおよびブロック図は、本願の様々な実施例に係るシステム、方法、およびコンピュータプログラム製品の実装可能なアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能な命令を含む、モジュール、プログラムセグメントまたはコードの一部を表すことができる。また、いくつかの代替的な実施形態では、ブロックに示された機能は、図面に示された順序と異なって発生し得る。例えば、連続して示される２つのブロックは、実際には実質的に並行して実行され得るか、または関連機能によっては逆の順序で実行され得る。また、ブロック図および／またはフローチャートの各ブロック、およびブロック図および／またはフローチャートのブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムによって実装され得るか、または専用ハードウェアとコンピュータ命令との組み合わせによって実装され得る。

本願の実施例に係るユニットは、ソフトウェアによって実装され得るか、またはハードウェアによって実装され得る。上記ユニットはまた、例えば、取得ユニットおよび予測ユニットを含むプロセッサとして説明されるプロセッサに設置され得る。これらのユニットの名称は、特定の場合にこのユニット自体を限定するためのものではなく、例えば、取得ユニットは、「目標音声を取得するユニット」として説明され得る。

別の態様として、本願は、コンピュータ可読媒体をさらに提供する。このコンピュータ可読媒体は、上記実施例に記載の装置に含まれるものであり得るか、またはこの装置に組み込まれることなく、単独で存在するものであり得る。上記コンピュータ可読媒体は、１つまたは複数のプログラムを搭載したものである。上記１つまたは複数のプログラムがこの装置によって実行されると、この装置は、目標音声を取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップと、を実行する。

別の態様として、本願は、コンピュータ可読媒体をさらに提供する。このコンピュータ可読媒体は、上記実施例に記載の装置に含まれるものであり得るか、またはこの装置に組み込まれることなく、単独で存在するものであり得る。上記コンピュータ可読媒体は、１つまたは複数のプログラムを搭載したものである。上記１つまたは複数のプログラムがこの装置によって実行されると、この装置は、音声サンプルが少なくとも１つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するステップと、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップと、を実行する。

以上の説明は、本願の好ましい実施例、および使用された技術的原理の説明にすぎない。本願に係る本発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的解決手段に限定されず、本発明の概念から逸脱することなく上記技術的特徴またはその同等の特徴の任意の組み合わせからなる他の技術的解決手段に含まれることが当業者にとって理解されるであろう。例えば、それは、上記特徴と、本願において開示される（これらに限定されない）同様の機能を有する技術的特徴とを置き換えることによって形成される技術的解決手段であり得る。

Claims

目標音声を取得するステップと、
複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得するステップと、を含む、
音声検出方法。
前記ディープニューラルネットワークは、任意の２つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、請求項１に記載の方法。
前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップは、
事前に訓練されたディープニューラルネットワークに目標音声を入力し、前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出するステップと、
前記畳み込みニューラルネットワークを使用して前記音声特徴を処理し、前記マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、を含む、
請求項２に記載の方法。
前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出する前記ステップは、
前記フーリエ変換ネットワークを使用して前記目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定するステップと、を含む、
請求項３に記載の方法。
前記特徴抽出ネットワークを使用して、前記ベクトルのモジュラス長の対数を決定するステップをさらに含み、
前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定する前記ステップは、
前記正規化済み実部、前記正規化済み虚部、および前記対数を前記目標音声の音声特徴として決定するステップを含む、
請求項４に記載の方法。
事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップは、
前記マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、前記畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に前記目標音声のサブ音声が存在する確率を取得するステップをさらに含む、
請求項３に記載の方法。
前記ディープニューラルネットワークは、マージ層をさらに含み、
事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップは、
前記マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップをさらに含む、
請求項６に記載の方法。
前記マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む、請求項２に記載の方法。
音声サンプルが少なくとも１つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するステップと、
複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するステップと、
前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップと、を含む、
ディープニューラルネットワーク訓練方法。
前記ディープニューラルネットワークは、任意の２つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、請求項９に記載の方法。
前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得する前記ステップは、
前記訓練サンプルが前記音声サンプルにおける各サブ音声の方向情報をさらに含む前記音声サンプルを前記ディープニューラルネットワークに入力し、前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、前記音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、
各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、
前記マルチヘッド完全接続ネットワークを使用して、前記複数の到着方向間隔の各到着方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定するステップと、を含む、
請求項１０に記載の方法。
前記ディープニューラルネットワークの訓練ネットワーク構造は、特徴指向ネットワークをさらに含み、
各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する前記ステップは、
前記特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップを含む、
請求項１１に記載の方法。
前記マルチヘッド完全接続ネットワークを使用して、前記複数の到着方向間隔の各到着方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定する前記ステップは、
各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、前記複数の方向間隔の各方向間隔に前記音声サンプルのサブ音声が存在する確率を取得するステップを含む、
請求項１１に記載の方法。
前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、処理対象音声特徴を取得する前記ステップは、
前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出するステップと、
前記畳み込みニューラルネットワークによって抽出された音声特徴を使用して、前記マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、を含む、
請求項１１に記載の方法。
前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出する前記ステップは、
前記フーリエ変換ネットワークを使用して前記音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
前記正規化済み実部および前記正規化済み虚部を前記音声サンプルの音声特徴として決定するステップと、を含む、
請求項１４に記載の方法。
前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する前記ステップは、
取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップを含む、
請求項１３に記載の方法。
取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新する前記ステップは、
取得された各確率について、この確率に対応する損失値を決定し、前記損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、
前記特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、
前記第一結果セットを使用して、前記畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含む、
請求項１６に記載の方法。
目標音声を取得するように構成される取得ユニットと、
複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得するように構成される予測ユニットと、を含む、
音声検出装置。
前記ディープニューラルネットワークは、任意の２つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、請求項１８に記載の装置。
前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
事前に訓練されたディープニューラルネットワークに目標音声を入力し、前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出するステップと、
前記畳み込みニューラルネットワークを使用して前記音声特徴を処理し、前記マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、によって、
前記予測ユニットは、事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップを実行するようにさらに構成される、
請求項１９に記載の装置。
前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
前記フーリエ変換ネットワークを使用して前記目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定するステップと、によって、
前記予測ユニットは、前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出する前記ステップを実行するようにさらに構成される、
請求項２０に記載の装置。
前記特徴抽出ネットワークを使用して、前記ベクトルのモジュラス長の対数を決定するように構成される決定ユニットをさらに含み、
前記正規化済み実部、前記正規化済み虚部、および前記対数を前記目標音声の音声特徴として決定するステップによって、
前記予測ユニットは、前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定する前記ステップを実行するようにさらに構成される、
請求項２１に記載の装置。
前記マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、前記畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に前記目標音声のサブ音声が存在する確率を取得するステップによって、
前記予測ユニットは、事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップを実行するようにさらに構成される、
請求項２０に記載の装置。
前記ディープニューラルネットワークは、マージ層をさらに含み、
前記マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップによって、
前記予測ユニットは、事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップを実行するようにさらに構成される、
請求項２３に記載の装置。
前記マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む、請求項１９に記載の装置。
音声サンプルが少なくとも１つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するように構成されるサンプル取得ユニットと、
複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するように構成される入力ユニットと、
前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するように構成される訓練ユニットと、を含む、
ディープニューラルネットワーク訓練装置。
前記ディープニューラルネットワークは、任意の２つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、請求項２６に記載の装置。
前記訓練サンプルが前記音声サンプルにおける各サブ音声の方向情報をさらに含む前記音声サンプルを前記ディープニューラルネットワークに入力し、前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、前記音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、
各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、
前記マルチヘッド完全接続ネットワークを使用して、前記複数の到着方向間隔の各到着方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定するステップと、によって、
前記入力ユニットは、前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得する前記ステップを実行するようにさらに構成される、
請求項２６に記載の装置。
前記ディープニューラルネットワークの訓練ネットワーク構造は、特徴指向ネットワークをさらに含み、
前記特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップによって、
前記入力ユニットは、各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する前記ステップを実行するようにさらに構成される、
請求項２６に記載の装置。
各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、前記複数の方向間隔の各方向間隔に前記音声サンプルのサブ音声が存在する確率を取得するステップによって、
前記入力ユニットは、前記マルチヘッド完全接続ネットワークを使用して、前記複数の到着方向間隔の各到着方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定する前記ステップを実行するようにさらに構成される、
請求項２６に記載の装置。
前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出するステップと、
前記畳み込みニューラルネットワークによって抽出された音声特徴を使用して、前記マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、によって、
前記入力ユニットは、前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、処理対象音声特徴を取得する前記ステップを実行するようにさらに構成される、
請求項２６に記載の装置。
前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
前記フーリエ変換ネットワークを使用して前記音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
前記正規化済み実部および前記正規化済み虚部を前記音声サンプルの音声特徴として決定するステップと、によって、
前記入力ユニットは、前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出する前記ステップを実行するようにさらに構成される、
請求項３１に記載の装置。
取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップによって、
前記訓練ユニットは、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する前記ステップを実行するようにさらに構成される、
請求項３１に記載の装置。
取得された各確率について、この確率に対応する損失値を決定し、前記損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、
前記特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、
前記第一結果セットを使用して、前記畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップと、によって、
前記訓練ユニットは、取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップを実行するようにさらに構成される、
請求項３３に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶するための記憶装置と、を含み、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサが請求項１－８または９－１７のいずれか一項に記載の方法を実施する、
電子デバイス。
コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、このプログラムがプロセッサによって実行されて請求項１－８または９－１７のいずれか一項に記載の方法を実施する、コンピュータ可読記憶媒体。
コンピュータプログラムであって、このコンピュータプログラムがプロセッサによって実行されて請求項１－８または９－１７のいずれか一項に記載の方法を実施する、コンピュータプログラム。