JP2022017170A - 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム - Google Patents

音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム Download PDF

Info

Publication number
JP2022017170A
JP2022017170A JP2021047560A JP2021047560A JP2022017170A JP 2022017170 A JP2022017170 A JP 2022017170A JP 2021047560 A JP2021047560 A JP 2021047560A JP 2021047560 A JP2021047560 A JP 2021047560A JP 2022017170 A JP2022017170 A JP 2022017170A
Authority
JP
Japan
Prior art keywords
voice
network
sub
fully connected
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021047560A
Other languages
English (en)
Other versions
JP7406521B2 (ja
Inventor
リ、シン
Xin Li
フアン、ビン
Bin Huang
チャン、ツー
Ce Zhang
バイ、ジンフェン
Jinfeng Bai
ジア、レイ
Lei Jia
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022017170A publication Critical patent/JP2022017170A/ja
Application granted granted Critical
Publication of JP7406521B2 publication Critical patent/JP7406521B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Navigation (AREA)

Abstract

【課題】各方向間隔を個別に予測することで、各方向間隔に目標音声のサブ音声が存在するか否かを正確に決定し、正確な予測を実現する音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムを提供する。【解決手段】方法は、目標音声を取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークにこの目標音声を入力して、所定の複数の方向間隔の各方向間隔にこの目標音声のサブ音声が存在するか否かを取得するステップと、を含む。【選択図】図2

Description

本願は、コンピュータの技術分野、具体的には音声処理および深層学習の技術分野、特に音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラムに関する。
到着方向(Direction Of Arrival、DOA)の推定は、波の到着方向を推定すること、即ち、音源の方向を推定することである。ここでのソースは、オーディオソース、または通信に使用できる他の信号ソースであり得る。音声アクティビティ検出(Voice Activity Detection、VAD)は、現在のオーディオに音声信号(即ち、人間音声信号)が含まれるか否かを検出することができる。即ち、オーディオを判断し、人間音声信号を様々な背景雑音から認識することができる。
関連技術における到着方向の推定では、通常、受信装置アレイを使用して信号を取得し、受信装置から信号への波到着線の方向を決定し、波到着線の方向を使用して三角測量を実行して到着方向を決定する。
音声検出方法、装置、電子デバイス、および記憶媒体が提供される。
第一様態によれば、音声検出方法が提供される。この方法は、目標音声を取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップと、を含む。
第二様態によれば、ディープニューラルネットワーク訓練方法が提供される。この方法は、音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するステップと、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップと、を含む。
第三様態によれば、音声検出装置が提供される。この装置は、目標音声を取得するように構成される取得ユニットと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得するように構成される予測ユニットと、を含む。
第四様態によれば、ディープニューラルネットワーク訓練装置が提供される。この装置は、音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するように構成されるサンプル取得ユニットと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するように構成される入力ユニットと、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するように構成される訓練ユニットと、を含む。
第五態様によれば、電子デバイスが提供される。この電子デバイスは、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶するための記憶装置と、を含み、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサが音声検出方法またはディープニューラルネットワーク訓練方法などの実施例のいずれかにおける方法を実施する。
第六態様によれば、コンピュータプログラムを記憶するコンピュータ可読記憶媒体が提供される。このコンピュータ可読記憶媒体では、このプログラムがプロセッサによって実行されて音声検出方法またはディープニューラルネットワーク訓練方法などの実施例のいずれかにおける方法を実施する。
第七態様によれば、コンピュータプログラムが提供される。このコンピュータ可読記憶媒体では、このコンピュータプログラムがプロセッサによって実行されて音声検出方法またはディープニューラルネットワーク訓練方法などの実施例のいずれかにおける方法を実施する。
本願の解決策によれば、各方向間隔を個別に予測できるため、各方向間隔に目標音声のサブ音声が存在するか否かを正確に決定し、正確な予測を実現することができる。
本願の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになるであろう。
本願のいくつかの実施例が適用され得る例示的なシステムアーキテクチャ図である。 本願に係る音声検出方法の一実施例のフローチャートである。 本願に係る音声検出方法の適用シナリオの概略図である。 本願に係る音声検出ディープニューラルネットワークの予測プロセスの概略図である。 本願に係るディープニューラルネットワーク訓練方法の一実施例のフローチャートである。 本願に係る音声検出ディープニューラルネットワークの訓練ネットワーク構造の概略図である。 本願に係る音声検出装置の一実施例の構造概略図である。 本願の実施例に係る音声検出方法を実施するための電子デバイスのブロック図である。
本願の例示的な実施例は、理解を容易にするための本願の実施例の様々な詳細を含む図面と併せて以下に説明され、単なる例示と見なされるべきである。従って、本願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者にとって理解されるであろう。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略される。
なお、本願の実施例および実施例の特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本願を詳細に説明する。
図1は、本願が適用され得る、音声検出方法または音声検出装置の実施例の例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含み得る。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクを提供するために使用される媒体である。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。
ユーザは、端末装置101、102、103を使用してネットワーク104を介してサーバ105と対話し、メッセージなどを送受信することができる。端末装置101、102、103には、音声検出アプリケーション、ライブブロードキャストアプリケーション、インスタントメッセージツール、電子メールクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションがインストールされ得る。
ここでの端末装置101、102、103は、ハードウェアであり得るか、またはソフトウェアであり得る。端末装置101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を備えた様々な電子デバイスであり得る。端末装置101、102、103がソフトウェアである場合、それらは、上記に挙げた電子デバイスにインストールされ得る。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール)として実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは特に限定されない。
サーバ105は、端末装置101、102、103へのサポートを提供するバックグラウンドサーバなど、様々なサービスを提供するサーバであり得る。バックグラウンドサーバは、受信した目標音声などのデータに対して分析などの処理を行い、処理結果(例えば、ディープニューラルネットワークの予測結果)を端末装置にフィードバックすることができる。
なお、本願の実施例によって提供される音声検出方法がサーバ105または端末装置101、102、103によって実行され得るため、音声検出装置は、サーバ105または端末装置101、102、103に設置され得る。
図1中の端末装置、ネットワーク、およびサーバの数は、単なる例示であることを理解されたい。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意に設定され得る。
さらに図2を参照すると、図2は、本願に係る音声検出方法の一実施例のプロセス200を示す。この音声検出方法は、以下のステップを含む。
ステップ201、目標音声を取得する。
本実施例では、音声検出方法を実行する実行主体(例えば、図1に示すサーバまたは端末装置)は、目標音声を取得することができる。実際には、この目標音声は、シングルチャネル音声であり得るか、またはマルチチャネル音声であり得る。即ち、この目標音声は、1つのマイクが受信する音声であり得るか、または複数の異なる受信方向のマイクからなるマイクアレイが受信する音声であり得る。
ステップ202、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得する。
本実施例では、上記実行主体は、事前に訓練されたディープニューラルネットワークに目標音声を入力して、このディープニューラルネットワークから出力される予測結果を取得することができる。具体的には、この予測結果は、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かである。目標音声は、それぞれが目標音声における1つのサブ音声を発する少なくとも1つの音源から発せられる音声であり、各音源は1つの到着方向に対応する。なお、本願では、複数とは、少なくとも2つを意味する。
具体的には、ここでのディープニューラルネットワークは、畳み込みニューラルネットワーク、残差ニューラルネットワークなどの様々なネットワークであり得る。
予測結果は、上記複数の方向間隔の各方向間隔にサブ音声が存在するか否かについての予測結果を含み得る。例えば、全方向が360°を含み、各方向間隔が120°を含む場合、上記複数の方向間隔は、3つの方向間隔を含み得る。各方向間隔が36°を含む場合、上記複数の方向間隔は、10個の方向間隔を含み得る。各方向間隔が30°を含む場合、上記複数の方向間隔は、12個の方向間隔を含み得る。
上記ディープニューラルネットワークの予測結果は、各方向間隔にサブ音声が存在するか否かを包括的かつ個別に予測することができ、各方向間隔はこの予測結果に対応する結果が存在する。例えば、方向間隔が12個存在する場合、予測結果には12個の結果が存在し、異なる方向間隔はこの12個の結果における異なる結果に対応する。
実際には、予測結果は定性的であり得る。例えば、予測結果は、サブ音声が存在することを示す「1」、またはサブ音声が存在しないことを示す「0」であり得る。または、予測結果は定量的でもあり得る。例えば、予測結果は、「0.96」など、サブ音声が存在することを示す確率pであり得、この確率の数値範囲は[0、1]である。この予測結果には0.95などの閾値が存在し得る。即ち、この確率がこの閾値以上である場合、この方向間隔に目標音声のサブ音声が存在する。また、予測結果は、「0.06」など、サブ音声が存在することを示す確率qでもあり得、この確率の数値範囲は[1、0]である。この予測結果には0.05などの閾値が存在し得る。即ち、この確率がこの閾値以下である場合、この方向間隔に目標音声のサブ音声が存在する。
本願の上記実施例によって提供される方法は、各方向間隔を個別に予測できるため、各方向間隔に目標音声のサブ音声が存在するか否かを正確に決定し、正確な予測を実現することができる。
さらに図3aを参照すると、図3aは、本実施例に係る音声検出方法の適用シナリオの概略図である。図3aの適用シナリオでは、実行主体301は、目標音声302を取得する。実行主体301は、所定の3つの方向間隔の各方向間隔に入力音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声302を入力して、ディープニューラルネットワークの予測結果303を取得する。この予測結果303は所定の3つの方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かであり、具体的には、第一方向間隔にサブ音声が存在し、第二方向間隔にサブ音声が存在し、第三方向間隔にサブ音声が存在しない。
本願は、音声検出方法の別の実施例をさらに提供する。ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む。
本実施例では、ディープニューラルネットワーク内の完全接続ネットワークは、マルチヘッド完全接続ネットワークであり得る。音声検出方法を実行する実行主体(例えば、図1に示すサーバまたは端末装置)は、マルチヘッド完全接続ネットワークに含まれる複数の完全接続ネットワークを使用して完全接続処理を実行することができる。ディープニューラルネットワークから出力される予測結果には各完全接続ネットワークの出力の全部または一部が含まれ得る。完全接続ネットワークと方向間隔との間には対応関係がある。即ち、1つの完全接続ネットワークは複数の方向間隔の一つに対応する。それに応じて、1つの完全接続ネットワークは、この完全接続ネットワークに対応する方向間隔に目標音声のサブ音声が存在するか否かを予測することができる。
マルチヘッド完全接続ネットワークの入力は、当技術分野における他の完全接続ネットワークの入力と同じであり得る。例えば、入力は、目標音声の音声特徴であり得る。
本実施例では、マルチヘッド完全接続ネットワークを使用して、異なる方向間隔におけるサブ音声の正確な予測を実現することができる。
本実施例のいくつかの代替的な実施形態では、マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む。
これらの代替的な実施形態では、マルチヘッド完全接続ネットワークは、完全接続(fully connected、FC)層(例えば、活性化relu層に接続された完全接続層FC-relu)、アフィン層(affine layer)、およびソフトマックス層(softmax layer)を含み得る。これらの実施形態では、完全接続ネットワーク内の各処理層を使用して微細化処理を実行することができるため、より正確な予測結果を取得するのに役立つ。
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含む。事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得する上記ステップは、事前に訓練されたディープニューラルネットワークに目標音声を入力し、特徴抽出ネットワークを使用して目標音声の音声特徴を抽出するステップと、畳み込みニューラルネットワークを使用して音声特徴を処理し、マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、を含み得る。
これらの代替的な実施形態では、上記実行主体は、最初に特徴抽出(feature-extraction、FE)ネットワークを使用して目標音声の音声特徴を抽出し、畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN、例えば、活性化relu層に接続された畳み込み層CNN-relu)を使用して音声特徴に対して畳み込み処理を実行することにより、畳み込み音声特徴を取得することができる。具体的には、畳み込みニューラルネットワークは、一つまたは2つ以上の畳み込み層を含み得る。さらに、畳み込みニューラルネットワークは、活性化層も含み得る。
実際には、上記実行主体は、特徴抽出ネットワークを使用して目標音声の音声特徴を様々な方法で抽出することができる。例えば、特徴抽出ネットワークがスペクトル分析に使用され得る場合、上記実行主体は、特徴抽出ネットワークを使用して目標音声に対してスペクトル分析を実行し、目標音声のスペクトログラムを取得し、このスペクトログラムを畳み込みニューラルネットワークに入力されるべき音声特徴として決定することができる。
これらの実施形態では、音声特徴の抽出および音声特徴の畳み込み処理を実行して、音声特徴の抽出、および音声特徴の適切な処理を実現できるため、マルチヘッド完全接続ネットワークが畳み込み音声特徴をより効果的に使用して正確な予測結果を取得するのに役立つ。
これらの実施形態のいくつかの代替的な適用シナリオでは、ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含む。これらの実施形態における、特徴抽出ネットワークを使用して目標音声の音声特徴を抽出するステップは、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、特徴抽出ネットワークを使用して、ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、正規化済み実部および正規化済み虚部を目標音声の音声特徴として決定するステップと、を含み得る。
これらの代替的な適用シナリオでは、上記実行主体は、目標音声に対してフーリエ変換(fast fourier transform、FFT)を実行することができ、得られた結果はベクトルである。さらに、このベクトルは、x+yjなどの複素形式で表される。ここで、xが実部であり、yが虚部であり、jが虚部単位である。それに応じて、
Figure 2022017170000002
は正規化済み実部であり、
Figure 2022017170000003
は正規化済み虚部である。このことから、上記正規化済み実部および上記正規化済み虚部は、全方向の位相情報を含むことがわかる。従来技術では、フーリエ変換によって取得されるベクトルの位相は音声特徴として直接使用されることが多いが、位相の周期性(一般に2πは周期である)のために、この方法で計算された位相と真の位相との間にはいくつかの2πの偏差がある。
これらの適用シナリオでは、正規化済み実部および正規化済み虚部を音声特徴として決定できるため、従来技術における、位相偏差が発生するという問題を回避する。また、音声に対して様々な特徴を決定できるため、より正確な予測結果を取得するのに役立つ。
任意選択的に、上記方法は、特徴抽出ネットワークを使用して、ベクトルのモジュラス長の対数を決定するステップをさらに含み得る。正規化済み実部および正規化済み虚部を目標音声の音声特徴として決定するステップは、正規化済み実部、正規化済み虚部、および対数を目標音声の音声特徴として決定するステップを含む。
具体的には、複素形式のベクトルのモジュラス長を決定することは、このベクトルの実部と虚部の二乗和の平方根を決定することである。
上記実行主体は、取得した正規化済み実部、正規化済み虚部、および対数を3つの異なるチャネル(channel)で畳み込みニューラルネットワークに入力し、畳み込み処理を実行することができる。この対数は、音声を検出するための十分な情報を提供することができる。
これらの実施形態のいくつかの代替的な適用シナリオでは、事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップは、マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に目標音声のサブ音声が存在する確率を取得するステップをさらに含み得る。
これらの代替的な適用シナリオでは、上記実行主体は、畳み込みニューラルネットワークから出力される畳み込み音声特徴をマルチヘッド完全接続ネットワーク内の各完全接続ネットワークに入力して、各完全接続ネットワークに対応する方向間隔に目標音声のサブ音声が存在する確率を取得することができる。実際には、ここでの確率は、サブ音声が存在することを示す上記確率p、および/またはサブ音声が存在しないを示す上記確率qであり得る。
これらの適用シナリオでは、マルチヘッド完全接続ネットワークを使用して、各方向間隔に目標音声のサブ音声が存在する確率を正確に決定することができる。
これらの適用シナリオのいくつかの代替的な場合では、上記ディープニューラルネットワークは、マージ層をさらに含み得る。事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得する上記ステップは、マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップをさらに含み得る。
いくつかの代替的な場合、上記実行主体は、マージ(concate)層を使用して、マルチヘッド完全接続ネットワーク内の各完全接続ネットワークによって取得される確率に対してマージ処理を実行し、マージ処理結果をディープニューラルネットワークの予測結果として決定することができる。
各完全接続ネットワークの結果が上記確率pなどの単一の確率である場合、上記マージ処理は、各完全接続ネットワークによって取得される確率を確率セットにマージすることであり得る。各完全接続ネットワークの結果が上記確率pまたは上記確率qなどの少なくとも2つの確率である場合、上記マージ処理は、上記確率pなど、各完全接続ネットワークによって取得される少なくとも2つの確率の一つを確率セットにマージすることであり得る。具体的には、ディープニューラルネットワーク訓練中に使用される損失関数がクロスエントロピー関数である場合、予測結果は確率pおよび確率qを含み、p+q=1である。従って、確率pなど、上記確率の一つを予測結果として選択して出力することができる。
実際には、マージ処理は記号Tで表される転置処理をさらに含み得、確率セットはpnセットであり、pnは、方向間隔nに目標音声のサブ音声が存在する確率を表し、
Figure 2022017170000004
である。ただし、n=0,1,…,N-1である。
図3bに示すように、図3bは、音声情報をディープニューラルネットワークに入力して予測し、予測結果を取得するプロセス全体を示す。
これらの場合、上記実行主体は、マージ層を使用して各確率に対してマージ処理を実行することができるため、ディープニューラルネットワークが、複数の方向間隔に目標音声のサブ音声が存在する確率を一度に出力できるようにする。
さらに図4aを参照すると、図4aは、ディープニューラルネットワーク訓練方法の一実施例のプロセス400を示す。このプロセス400は、以下のステップを含み得る。
ステップ401で、音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得する。
本実施例では、ディープニューラルネットワーク訓練方法を実行する実行主体(例えば、図1に示すサーバまたは端末装置)は、訓練サンプルを取得することができる。訓練サンプルは、所定の一つまたは複数の方向間隔におけるサブ音声を含み得る訓練用の音声サンプルを含む。
ステップ402で、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用されるディープニューラルネットワークに音声サンプルを入力して、予測結果を取得する。
本実施例では、上記実行主体は、ディープニューラルネットワークに音声サンプルを入力し、ディープニューラルネットワークにおいて順方向伝搬を実行し、ディープニューラルネットワークから出力される予測結果を取得することができる。具体的には、入力されるディープニューラルネットワークは、訓練対象のディープニューラルネットワークである。
ステップ403で、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する。
本実施例では、上記実行主体は、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得することができる。訓練サンプルは、上記音声サンプルに対応する実結果、即ち、複数の方向間隔の各方向間隔にこの音声サンプルのサブ音声が存在するか否かを含み得る。
具体的には、上記実行主体は、予測結果および上記実結果に基づいて損失値を決定し、この損失値を使用してディープニューラルネットワークにおいて逆方向伝搬を実行することにより、訓練されたディープニューラルネットワークを取得することができる。
本実施例で訓練されたディープニューラルネットワークは、各方向間隔を個別に予測できるため、各方向間隔に音声のサブ音声が存在するか否かを正確に決定し、正確な予測を実現することができる。
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む。
これらの実施形態のいくつかの代替的な適用シナリオでは、ステップ402は、訓練サンプルが音声サンプルにおける各サブ音声の方向情報をさらに含む音声サンプルをディープニューラルネットワークに入力し、ディープニューラルネットワークを使用して音声サンプルの特徴を決定し、音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、マルチヘッド完全接続ネットワークを使用して、複数の到着方向間隔の各到着方向間隔に音声サンプルのサブ音声が存在するか否かを決定するステップと、を含み得る。
これらの代替的な適用シナリオでは、上記実行主体は、上記音声サンプルの特徴を決定し、決定された特徴を処理対象音声特徴として決定することができる。具体的には、上記実行主体は、様々な方法で上記音声サンプルの特徴を決定することができる。例えば、上記実行主体は、特徴抽出層を使用して上記音声サンプルの特徴を抽出し、抽出された特徴を処理対象音声特徴として決定することができる。さらに、上記実行主体は、抽出されたこの特徴に対して他の処理を実行し、処理結果を処理対象音声特徴として決定することもできる。例えば、上記実行主体は、抽出された特徴をプリセットモデルに入力し、プリセットモデルから出力される結果を処理対象音声特徴として決定することができる。
上記実行主体は、各処理対象サブ音声特徴について、特徴指向ネットワークを使用して、このサブ音声の方向情報で示される方向が存在する方向間隔を決定することにより、この方向間隔に対応する完全接続ネットワークを決定することができる。対応する完全接続ネットワークをこの処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する。
マルチヘッド完全接続ネットワーク内の各完全接続ネットワークは、複数の到着方向間隔の各到着方向間隔に上記音声サンプルのサブ音声が存在するか否かを出力することができる。
これらの適用シナリオのいくつかの代替的な場合では、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する上記ステップは、特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップを含み得る。
これらの場合、上記実行主体は、特徴指向ネットワークを使用して、各処理対象サブ音声特徴に対応する完全接続ネットワーク、即ち、入力されるべき完全接続ネットワークを決定することができる。従って、上記実行主体は、各処理対象サブ音声特徴について、この処理対象サブ音声特徴をこの処理対象サブ音声特徴に対応する完全接続ネットワークに入力することができる。
これらの場合、上記実行主体は、特徴指向ネットワークを使用して訓練プロセスにおいて処理対象サブ音声特徴を各完全接続ネットワークに割り当てることができるため、各完全接続ネットワークが訓練プロセスにおいて特定の方向間隔におけるサブ音声の特徴を学習できるようにして、この方向間隔におけるサブ音声の検出精度を向上させることができる。
これらの適用シナリオのいくつかの代替的な場合では、これらの適用シナリオにおける、マルチヘッド完全接続ネットワークを使用して、複数の到着方向間隔の各到着方向間隔に音声サンプルのサブ音声が存在するか否かを決定するステップは、各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、複数の方向間隔の各方向間隔に音声サンプルのサブ音声が存在する確率を取得するステップを含み得る。
これらの場合、上記実行主体は、各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、この処理対象サブ音声特徴に対応する完全接続ネットワークにおいて順方向伝搬を実行することができ、順方向伝搬結果は、複数の方向間隔の各方向間隔に音声サンプルのサブ音声が存在する確率である。
これらの場合、上記実行主体は、各方向間隔にサブ音声が存在する確率に基づいて正確な予測を実行することができる。
任意選択的に、ディープニューラルネットワークを使用して音声サンプルの特徴を決定し、処理対象音声特徴を取得する上記ステップは、特徴抽出ネットワークを使用して音声サンプルの音声特徴を抽出するステップと、畳み込みニューラルネットワークを使用して、抽出された音声特徴を処理し、マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、を含み得る。
この場合、上記実行主体は、後続処理における特徴の使用を容易にするために、特徴抽出ネットワークおよび畳み込みニューラルネットワークを使用して音声サンプルの特徴を完全に抽出することができる。
任意選択的に、上記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含む。特徴抽出ネットワークを使用して音声サンプルの音声特徴を抽出する上記ステップは、フーリエ変換ネットワークを使用して音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、特徴抽出ネットワークを使用して、ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、正規化済み実部および正規化済み虚部を音声サンプルの音声特徴として決定するステップと、を含み得る。
これらの場合、上記実行主体は、正規化済み実部および正規化済み虚部を音声特徴として決定することができるため、従来技術における、位相偏差が発生するという問題を回避する。また、音声に対して様々な特徴を決定できるため、訓練されたディープニューラルネットワークがより正確な予測結果を予測するのに役立つ。
任意選択的に、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する上記ステップは、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップを含み得る。
実際には、上記実行主体は、取得された確率、実確率(例えば、存在する場合が「1」で表され、存在しない場合が「0」で表される)などの訓練サンプル内の実結果、および所定の損失関数(例えば、クロスエントロピー関数)に基づいて、取得された確率の損失値を決定し、この損失値を使用して逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新することができる。
任意選択的に、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新する上記ステップは、取得された各確率について、この確率に対応する損失値を決定し、損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、
特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、
第一結果セットを使用して、畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含み得る。
実際には、上記実行主体は、各完全接続ネットワークから取得された確率、この完全接続ネットワークに対応する方向間隔に訓練サンプルにおけるマークされた音声サンプルのサブ音声が存在するか否かについての実結果、即ち実確率、および所定の損失関数を使用して、各完全接続ネットワークに対応する損失値を決定することができる。そして、各完全接続ネットワークに対応する損失値を使用して、この完全接続ネットワークにおいて逆方向伝搬を実行し、各完全接続ネットワークに対応する逆方向伝搬結果、即ち、各完全接続ネットワークに対応する第一結果を取得する。
上記実行主体は、特徴指向ネットワークを使用して、各完全接続ネットワークに対応する第一結果に対してマージ処理を実行し、第一結果セットを取得することができる。その後、上記実行主体は、第一結果セットを使用して、畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新することができる。
図4bに示すように、図4bは、ディープニューラルネットワークの訓練ネットワーク構造を示す。その中で、DOA-Splitterは特徴指向ネットワークである。
これらの実施形態では、畳み込みニューラルネットワークおよびマルチヘッド完全接続層において逆方向伝搬を実行し、これら2つのネットワークのパラメータを更新することができる。また、これらの実施形態では、特徴指向ネットワークを使用して、各完全接続ネットワークの逆方向伝搬結果をマージすることもできるため、畳み込みニューラルネットワークにおいて逆方向伝搬を継続し、モデル全体において逆方向伝搬を実現し、パラメータを更新することができる。
さらに図5を参照すると、上記の図2および上記の図3に示す方法の実施例として、本願は、音声検出装置の一実施例を提供する。この装置の実施例は、図2に示す方法の実施例に対応する。以下に説明される特徴に加えて、この装置の実施例は、図2に示す方法の実施例と同じまたは対応する特徴または効果をさらに含み得る。この装置は、様々な電子デバイスに特に適用できる。
図5に示すように、本実施例に係る音声検出装置500は、取得ユニット501、および予測ユニット502を含む。取得ユニット501は、目標音声を取得するように構成される。予測ユニット502は、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するように構成される。
本実施例では、音声検出装置500の取得ユニット501および予測ユニット502の具体的な処理とその技術的効果については、それぞれ図2に対応する実施例のステップ201およびステップ202の関連説明を参照されたいが、ここでは繰り返さない。
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む。
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含む。予測ユニットは、事前に訓練されたディープニューラルネットワークに目標音声を入力し、特徴抽出ネットワークを使用して目標音声の音声特徴を抽出するステップと、畳み込みニューラルネットワークを使用して音声特徴を処理し、マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、によって、事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップを実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含む。予測ユニットは、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、特徴抽出ネットワークを使用して、ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、正規化済み実部および正規化済み虚部を目標音声の音声特徴として決定するステップと、によって、特徴抽出ネットワークを使用して目標音声の音声特徴を抽出するステップを実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、装置は、特徴抽出ネットワークを使用して、ベクトルのモジュラス長の対数を決定するように構成される決定ユニットをさらに含む。予測ユニットは、正規化済み実部、正規化済み虚部、および対数を目標音声の音声特徴として決定するステップによって、正規化済み実部および正規化済み虚部を目標音声の音声特徴として決定するステップを実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、予測ユニットは、マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に目標音声のサブ音声が存在する確率を取得するステップによって、事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップを実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、マージ層をさらに含む。予測ユニットは、マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップによって、事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップを実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む。
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、特徴指向ネットワーク、フーリエ変換ネットワーク、特徴抽出ネットワーク、および畳み込みニューラルネットワークをさらに含む。ネットワーク構造訓練ステップは、音声サンプルにおける異なるサブ音声の方向情報をさらに含む訓練サンプルの音声サンプルに対してディープニューラルネットワークのフーリエ変換ネットワーク、特徴抽出ネットワーク、および畳み込みニューラルネットワークにおいて順方向伝搬を実行し、異なるサブ音声に対応する畳み込みサブ音声特徴を含む音声サンプルの畳み込み音声特徴を取得するステップと、音声サンプルの畳み込み音声特徴における各サブ音声の畳み込みサブ音声特徴について、特徴指向ネットワークを使用して、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークをこの畳み込みサブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、マルチヘッド完全接続ネットワークにおいて順方向伝搬を実行し、複数の方向間隔の各方向間隔に音声サンプルのサブ音声が存在する確率を取得するステップと、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含む。
本実施例のいくつかの代替的な実施形態では、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップは、取得された各確率について、この確率に対応する損失値を決定し、損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、第一結果セットを使用して、畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含む。
上記各図に示す方法の実施例として、本願は、ディープニューラルネットワーク訓練装置の一実施例を提供する。この装置の実施例は、図4aおよび図4bに示す方法の実施例に対応する。以下に説明される特徴に加えて、この装置の実施例は、図4aに示す方法の実施例と同じまたは対応する特徴または効果をさらに含み得る。この装置は、様々な電子デバイスに特に適用できる。
本実施例のディープニューラルネットワーク訓練装置は、サンプル取得ユニット、入力ユニット、および訓練ユニットを含む。サンプル取得ユニットは、音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するように構成される。入力ユニットは、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用されるディープニューラルネットワークに音声サンプルを入力して、予測結果を取得するように構成される。訓練ユニットは、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するように構成される。
本実施例では、ディープニューラルネットワーク訓練装置のサンプル取得ユニット、入力ユニット、および訓練ユニットの具体的な処理とその技術的効果については、それぞれ図4aに対応する実施例のステップ401、ステップ402、およびステップ403の関連説明を参照されたいが、ここでは繰り返さない。
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む。
本実施例のいくつかの代替的な実施形態では、入力ユニットは、訓練サンプルが音声サンプルにおける各サブ音声の方向情報をさらに含む音声サンプルをディープニューラルネットワークに入力し、ディープニューラルネットワークを使用して音声サンプルの特徴を決定し、音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、マルチヘッド完全接続ネットワークを使用して、複数の到着方向間隔の各到着方向間隔に音声サンプルのサブ音声が存在するか否かを決定するステップと、によって、ディープニューラルネットワークに音声サンプルを入力して、予測結果を取得するステップを実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークの訓練ネットワーク構造は、特徴指向ネットワークをさらに含む。入力ユニットは、特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップによって、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップを実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、入力ユニットは、各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、複数の方向間隔の各方向間隔に音声サンプルのサブ音声が存在する確率を取得するステップによって、マルチヘッド完全接続ネットワークを使用して、複数の到着方向間隔の各到着方向間隔に音声サンプルのサブ音声が存在するか否かを決定するステップを実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含む。入力ユニットは、特徴抽出ネットワークを使用して音声サンプルの音声特徴を抽出するステップと、畳み込みニューラルネットワークを使用して、抽出された音声特徴を処理し、マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、によって、ディープニューラルネットワークを使用して音声サンプルの特徴を決定し、処理対象音声特徴を取得するステップを実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含む。入力ユニットは、フーリエ変換ネットワークを使用して音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、特徴抽出ネットワークを使用して、ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、正規化済み実部および正規化済み虚部を音声サンプルの音声特徴として決定するステップと、によって、特徴抽出ネットワークを使用して音声サンプルの音声特徴を抽出するステップを実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、訓練ユニットは、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップによって、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップを実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、訓練ユニットは、取得された各確率について、この確率に対応する損失値を決定し、損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、第一結果セットを使用して、畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップと、によって、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップを実行するようにさらに構成される。
本願の実施例によれば、本願は、電子デバイスおよび可読記憶媒体をさらに提供する。
図6に示すように、図6は、本願の実施例に係る音声検出方法を実施するための電子デバイスのブロック図であり、ディープニューラルネットワーク訓練方法を実施するための電子デバイスのブロック図でもある。音声検出方法を実施するための電子デバイスのブロック図を例に挙げて、以下に説明する。
電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および/または請求される本願の実施形態を限定することを意図したものではない。
図6に示すように、この電子デバイスは、1つまたは複数のプロセッサ601と、メモリ602と、高速インターフェースおよび低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースとを含む。様々なコンポーネントは、異なるバスを介して互いに接続されており、パブリックマザーボードに取り付けられ得るか、または必要に応じて他の方法で取り付けられ得る。プロセッサは、GUIのグラフィック情報が外部入力/出力装置(例えば、インターフェースに結合された表示装置)に表示されるようにメモリ内またはメモリ上に記憶される命令を含む、電子デバイスで実行された命令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数本のバスは、必要に応じて、複数のメモリと共に使用され得る。同様に、それは、(例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとして)いくつかの必要な操作を提供する複数の電子デバイスに接続され得る。図6には、プロセッサ601が例として挙げられる。
メモリ602は、本願によって提供される非一時的コンピュータ可読記憶媒体である。メモリには、少なくとも1つのプロセッサが本願によって提供される音声検出方法を実行できるように、少なくとも1つのプロセッサによって実行され得る命令が記憶されている。本願の非一時的コンピュータ可読記憶媒体には、本願によって提供される音声検出方法をコンピュータに実行させるために使用されるコンピュータ命令が記憶されている。
非一時的コンピュータ可読記憶媒体として、メモリ602は、非一時的ソフトウェアプログラムと、非一時的コンピュータ実行可能プログラムと、本願の実施例における音声検出方法に対応するプログラム命令/モジュール(例えば、図5に示す取得モジュール501、および予測モジュール502)などのモジュールと、を記憶するために使用され得る。プロセッサ601は、メモリ602に記憶された非一時的ソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する、即ち、上記方法の実施例における音声検出方法を実施する。
メモリ602は、オペレーティングシステムおよび少なくとも1つの機能に必要なアプリケーションプログラムが記憶され得るプログラム記憶領域と、音声検出用の電子デバイスによって作成されたデータなどが記憶され得るデータ記憶領域とを含み得る。さらに、メモリ602は、高速ランダムアクセスメモリを含み得、また、少なくとも1つの磁気ディスクメモリ、フラッシュメモリ、または他の非一時的ソリッドステートメモリなどの非一時的メモリを含み得る。いくつかの実施例では、メモリ602は、任意選択で、プロセッサ601に対して遠隔的に設置されたメモリを含み得、これらの遠隔メモリは、ネットワークを介して、音声検出用の電子デバイスに接続され得る。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。
音声検出方法を実施するための電子デバイスは、入力装置603および出力装置604をさらに含み得る。プロセッサ601、メモリ602、入力装置603、および出力装置604は、バスまたは他の手段によって接続され得るが、図6にはバスによる接続が例として挙げられる。
入力装置603は、入力された数字または文字情報を受信し、音声検出用の電子デバイスのユーザ設定および機能制御に関連するキー信号入力を生成することができるもの、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含み得る。この表示装置は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであり得る。
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈され得る1つまたは複数のコンピュータプログラムに実装されることを含み得る。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高水準手続き型またはオブジェクト指向型のプログラミング言語、および/またはアセンブリ/機械言語で実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受信する機械可読媒体を含む、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス(例えば、マウスまたはトラックボール)とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック)をユーザに提供したり、任意の形態(音響入力、音声入力、および触覚入力を含む形態)を使用してユーザからの入力を受信したりするために使用され得る。
本明細書に記載のシステムおよび技術は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピュータシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、フロントエンドコンポーネント(例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ)を含むコンピュータシステム、または、これらバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)を介して互いに接続され得る。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットが含まれる。
コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、従来の物理ホストおよびVPSサーバ(「Virtual Private Server」、または単に「VPS」)における、管理の難しさが高く、サービスの拡張性が低いという欠点を解決するためのクラウドコンピューティングサービスシステムのホスト製品であるクラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであり得る。
図面中のフローチャートおよびブロック図は、本願の様々な実施例に係るシステム、方法、およびコンピュータプログラム製品の実装可能なアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能な命令を含む、モジュール、プログラムセグメントまたはコードの一部を表すことができる。また、いくつかの代替的な実施形態では、ブロックに示された機能は、図面に示された順序と異なって発生し得る。例えば、連続して示される2つのブロックは、実際には実質的に並行して実行され得るか、または関連機能によっては逆の順序で実行され得る。また、ブロック図および/またはフローチャートの各ブロック、およびブロック図および/またはフローチャートのブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムによって実装され得るか、または専用ハードウェアとコンピュータ命令との組み合わせによって実装され得る。
本願の実施例に係るユニットは、ソフトウェアによって実装され得るか、またはハードウェアによって実装され得る。上記ユニットはまた、例えば、取得ユニットおよび予測ユニットを含むプロセッサとして説明されるプロセッサに設置され得る。これらのユニットの名称は、特定の場合にこのユニット自体を限定するためのものではなく、例えば、取得ユニットは、「目標音声を取得するユニット」として説明され得る。
別の態様として、本願は、コンピュータ可読媒体をさらに提供する。このコンピュータ可読媒体は、上記実施例に記載の装置に含まれるものであり得るか、またはこの装置に組み込まれることなく、単独で存在するものであり得る。上記コンピュータ可読媒体は、1つまたは複数のプログラムを搭載したものである。上記1つまたは複数のプログラムがこの装置によって実行されると、この装置は、目標音声を取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップと、を実行する。
別の態様として、本願は、コンピュータ可読媒体をさらに提供する。このコンピュータ可読媒体は、上記実施例に記載の装置に含まれるものであり得るか、またはこの装置に組み込まれることなく、単独で存在するものであり得る。上記コンピュータ可読媒体は、1つまたは複数のプログラムを搭載したものである。上記1つまたは複数のプログラムがこの装置によって実行されると、この装置は、音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するステップと、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップと、を実行する。
以上の説明は、本願の好ましい実施例、および使用された技術的原理の説明にすぎない。本願に係る本発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的解決手段に限定されず、本発明の概念から逸脱することなく上記技術的特徴またはその同等の特徴の任意の組み合わせからなる他の技術的解決手段に含まれることが当業者にとって理解されるであろう。例えば、それは、上記特徴と、本願において開示される(これらに限定されない)同様の機能を有する技術的特徴とを置き換えることによって形成される技術的解決手段であり得る。

Claims (37)

  1. 目標音声を取得するステップと、
    複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得するステップと、を含む、
    音声検出方法。
  2. 前記ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、請求項1に記載の方法。
  3. 前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
    事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップは、
    事前に訓練されたディープニューラルネットワークに目標音声を入力し、前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出するステップと、
    前記畳み込みニューラルネットワークを使用して前記音声特徴を処理し、前記マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、を含む、
    請求項2に記載の方法。
  4. 前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
    前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出する前記ステップは、
    前記フーリエ変換ネットワークを使用して前記目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
    前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
    前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定するステップと、を含む、
    請求項3に記載の方法。
  5. 前記特徴抽出ネットワークを使用して、前記ベクトルのモジュラス長の対数を決定するステップをさらに含み、
    前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定する前記ステップは、
    前記正規化済み実部、前記正規化済み虚部、および前記対数を前記目標音声の音声特徴として決定するステップを含む、
    請求項4に記載の方法。
  6. 事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップは、
    前記マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、前記畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に前記目標音声のサブ音声が存在する確率を取得するステップをさらに含む、
    請求項3に記載の方法。
  7. 前記ディープニューラルネットワークは、マージ層をさらに含み、
    事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップは、
    前記マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップをさらに含む、
    請求項6に記載の方法。
  8. 前記マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む、請求項2に記載の方法。
  9. 音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するステップと、
    複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するステップと、
    前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップと、を含む、
    ディープニューラルネットワーク訓練方法。
  10. 前記ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、請求項9に記載の方法。
  11. 前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得する前記ステップは、
    前記訓練サンプルが前記音声サンプルにおける各サブ音声の方向情報をさらに含む前記音声サンプルを前記ディープニューラルネットワークに入力し、前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、前記音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、
    各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、
    前記マルチヘッド完全接続ネットワークを使用して、前記複数の到着方向間隔の各到着方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定するステップと、を含む、
    請求項10に記載の方法。
  12. 前記ディープニューラルネットワークの訓練ネットワーク構造は、特徴指向ネットワークをさらに含み、
    各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する前記ステップは、
    前記特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップを含む、
    請求項11に記載の方法。
  13. 前記マルチヘッド完全接続ネットワークを使用して、前記複数の到着方向間隔の各到着方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定する前記ステップは、
    各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、前記複数の方向間隔の各方向間隔に前記音声サンプルのサブ音声が存在する確率を取得するステップを含む、
    請求項11に記載の方法。
  14. 前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
    前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、処理対象音声特徴を取得する前記ステップは、
    前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出するステップと、
    前記畳み込みニューラルネットワークによって抽出された音声特徴を使用して、前記マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、を含む、
    請求項11に記載の方法。
  15. 前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
    前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出する前記ステップは、
    前記フーリエ変換ネットワークを使用して前記音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
    前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
    前記正規化済み実部および前記正規化済み虚部を前記音声サンプルの音声特徴として決定するステップと、を含む、
    請求項14に記載の方法。
  16. 前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する前記ステップは、
    取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップを含む、
    請求項13に記載の方法。
  17. 取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新する前記ステップは、
    取得された各確率について、この確率に対応する損失値を決定し、前記損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、
    前記特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、
    前記第一結果セットを使用して、前記畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含む、
    請求項16に記載の方法。
  18. 目標音声を取得するように構成される取得ユニットと、
    複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得するように構成される予測ユニットと、を含む、
    音声検出装置。
  19. 前記ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、請求項18に記載の装置。
  20. 前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
    事前に訓練されたディープニューラルネットワークに目標音声を入力し、前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出するステップと、
    前記畳み込みニューラルネットワークを使用して前記音声特徴を処理し、前記マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、によって、
    前記予測ユニットは、事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップを実行するようにさらに構成される、
    請求項19に記載の装置。
  21. 前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
    前記フーリエ変換ネットワークを使用して前記目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
    前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
    前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定するステップと、によって、
    前記予測ユニットは、前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出する前記ステップを実行するようにさらに構成される、
    請求項20に記載の装置。
  22. 前記特徴抽出ネットワークを使用して、前記ベクトルのモジュラス長の対数を決定するように構成される決定ユニットをさらに含み、
    前記正規化済み実部、前記正規化済み虚部、および前記対数を前記目標音声の音声特徴として決定するステップによって、
    前記予測ユニットは、前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定する前記ステップを実行するようにさらに構成される、
    請求項21に記載の装置。
  23. 前記マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、前記畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に前記目標音声のサブ音声が存在する確率を取得するステップによって、
    前記予測ユニットは、事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップを実行するようにさらに構成される、
    請求項20に記載の装置。
  24. 前記ディープニューラルネットワークは、マージ層をさらに含み、
    前記マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップによって、
    前記予測ユニットは、事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップを実行するようにさらに構成される、
    請求項23に記載の装置。
  25. 前記マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む、請求項19に記載の装置。
  26. 音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するように構成されるサンプル取得ユニットと、
    複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するように構成される入力ユニットと、
    前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するように構成される訓練ユニットと、を含む、
    ディープニューラルネットワーク訓練装置。
  27. 前記ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、請求項26に記載の装置。
  28. 前記訓練サンプルが前記音声サンプルにおける各サブ音声の方向情報をさらに含む前記音声サンプルを前記ディープニューラルネットワークに入力し、前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、前記音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、
    各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、
    前記マルチヘッド完全接続ネットワークを使用して、前記複数の到着方向間隔の各到着方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定するステップと、によって、
    前記入力ユニットは、前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得する前記ステップを実行するようにさらに構成される、
    請求項26に記載の装置。
  29. 前記ディープニューラルネットワークの訓練ネットワーク構造は、特徴指向ネットワークをさらに含み、
    前記特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップによって、
    前記入力ユニットは、各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する前記ステップを実行するようにさらに構成される、
    請求項26に記載の装置。
  30. 各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、前記複数の方向間隔の各方向間隔に前記音声サンプルのサブ音声が存在する確率を取得するステップによって、
    前記入力ユニットは、前記マルチヘッド完全接続ネットワークを使用して、前記複数の到着方向間隔の各到着方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定する前記ステップを実行するようにさらに構成される、
    請求項26に記載の装置。
  31. 前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
    前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出するステップと、
    前記畳み込みニューラルネットワークによって抽出された音声特徴を使用して、前記マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、によって、
    前記入力ユニットは、前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、処理対象音声特徴を取得する前記ステップを実行するようにさらに構成される、
    請求項26に記載の装置。
  32. 前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
    前記フーリエ変換ネットワークを使用して前記音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
    前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
    前記正規化済み実部および前記正規化済み虚部を前記音声サンプルの音声特徴として決定するステップと、によって、
    前記入力ユニットは、前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出する前記ステップを実行するようにさらに構成される、
    請求項31に記載の装置。
  33. 取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップによって、
    前記訓練ユニットは、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する前記ステップを実行するようにさらに構成される、
    請求項31に記載の装置。
  34. 取得された各確率について、この確率に対応する損失値を決定し、前記損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、
    前記特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、
    前記第一結果セットを使用して、前記畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップと、によって、
    前記訓練ユニットは、取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップを実行するようにさらに構成される、
    請求項33に記載の装置。
  35. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを記憶するための記憶装置と、を含み、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサが請求項1-8または9-17のいずれか一項に記載の方法を実施する、
    電子デバイス。
  36. コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、このプログラムがプロセッサによって実行されて請求項1-8または9-17のいずれか一項に記載の方法を実施する、コンピュータ可読記憶媒体。
  37. コンピュータプログラムであって、このコンピュータプログラムがプロセッサによって実行されて請求項1-8または9-17のいずれか一項に記載の方法を実施する、コンピュータプログラム。
JP2021047560A 2020-07-20 2021-03-22 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム Active JP7406521B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010697058.1A CN111863036B (zh) 2020-07-20 2020-07-20 语音检测的方法和装置
CN202010697058.1 2020-07-20

Publications (2)

Publication Number Publication Date
JP2022017170A true JP2022017170A (ja) 2022-01-25
JP7406521B2 JP7406521B2 (ja) 2023-12-27

Family

ID=73000971

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021047560A Active JP7406521B2 (ja) 2020-07-20 2021-03-22 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム

Country Status (5)

Country Link
US (1) US20210210113A1 (ja)
EP (1) EP3816999B1 (ja)
JP (1) JP7406521B2 (ja)
KR (1) KR102599978B1 (ja)
CN (1) CN111863036B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786069B (zh) * 2020-12-24 2023-03-21 北京有竹居网络技术有限公司 语音提取方法、装置和电子设备
US11862179B2 (en) * 2021-04-01 2024-01-02 Capital One Services, Llc Systems and methods for detecting manipulated vocal samples
CN115240698A (zh) * 2021-06-30 2022-10-25 达闼机器人股份有限公司 模型训练方法、语音检测定位方法、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020034624A (ja) * 2018-08-27 2020-03-05 株式会社東芝 信号生成装置、信号生成システム、信号生成方法およびプログラム
WO2020129231A1 (ja) * 2018-12-21 2020-06-25 三菱電機株式会社 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9972339B1 (en) * 2016-08-04 2018-05-15 Amazon Technologies, Inc. Neural network based beam selection
KR102017244B1 (ko) * 2017-02-27 2019-10-21 한국전자통신연구원 자연어 인식 성능 개선 방법 및 장치
KR102478393B1 (ko) * 2018-02-12 2022-12-19 삼성전자주식회사 노이즈가 정제된 음성 신호를 획득하는 방법 및 이를 수행하는 전자 장치
KR20190123362A (ko) * 2018-04-06 2019-11-01 삼성전자주식회사 인공지능을 이용한 음성 대화 분석 방법 및 장치
US10460749B1 (en) * 2018-06-28 2019-10-29 Nuvoton Technology Corporation Voice activity detection using vocal tract area information
EP3598777B1 (en) * 2018-07-18 2023-10-11 Oticon A/s A hearing device comprising a speech presence probability estimator
US11211045B2 (en) * 2019-05-29 2021-12-28 Lg Electronics Inc. Artificial intelligence apparatus and method for predicting performance of voice recognition model in user environment
CN110517677B (zh) * 2019-08-27 2022-02-08 腾讯科技(深圳)有限公司 语音处理系统、方法、设备、语音识别系统及存储介质
CN110648692B (zh) * 2019-09-26 2022-04-12 思必驰科技股份有限公司 语音端点检测方法及系统
CN111696570B (zh) * 2020-08-17 2020-11-24 北京声智科技有限公司 语音信号处理方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020034624A (ja) * 2018-08-27 2020-03-05 株式会社東芝 信号生成装置、信号生成システム、信号生成方法およびプログラム
WO2020129231A1 (ja) * 2018-12-21 2020-06-25 三菱電機株式会社 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム

Also Published As

Publication number Publication date
CN111863036A (zh) 2020-10-30
JP7406521B2 (ja) 2023-12-27
EP3816999A3 (en) 2021-10-20
CN111863036B (zh) 2022-03-01
EP3816999B1 (en) 2022-11-09
KR102599978B1 (ko) 2023-11-08
KR20220011064A (ko) 2022-01-27
EP3816999A2 (en) 2021-05-05
US20210210113A1 (en) 2021-07-08

Similar Documents

Publication Publication Date Title
JP7166322B2 (ja) モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP2022017170A (ja) 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
JP7355776B2 (ja) 音声認識方法、音声認識装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN111539514B (zh) 用于生成神经网络的结构的方法和装置
EP4109347A2 (en) Method for processing multimodal data using neural network, device, and medium
JP7262571B2 (ja) 知識グラフのベクトル表現生成方法、装置及び電子機器
CN111539479A (zh) 生成样本数据的方法和装置
CN114787814A (zh) 指代解析
CN111582477B (zh) 神经网络模型的训练方法和装置
KR102630243B1 (ko) 구두점 예측 방법 및 장치
CN111563593B (zh) 神经网络模型的训练方法和装置
JP2021196599A (ja) 情報を出力するための方法および装置
CN111709252B (zh) 基于预训练的语义模型的模型改进方法及装置
CN111582454A (zh) 生成神经网络模型的方法和装置
JP2021096825A (ja) エンドツーエンドモデルのトレーニング方法および装置
CN111681661B (zh) 语音识别的方法、装置、电子设备和计算机可读介质
CN111353601A (zh) 用于预测模型结构的延时的方法和装置
CN112580723B (zh) 多模型融合方法、装置、电子设备和存储介质
CN112650844A (zh) 对话状态的追踪方法、装置、电子设备和存储介质
JP7256857B2 (ja) 対話処理方法、装置、電子機器及び記憶媒体
CN115359309A (zh) 目标检测模型的训练方法及装置、设备和介质
CN112784912A (zh) 图像识别方法及装置、神经网络模型的训练方法及装置
CN111353585A (zh) 神经网络模型的结构搜索方法和装置
JP7264963B2 (ja) 対話生成方法、装置、電子機器及び記憶媒体
CN111582478B (zh) 用于确定模型结构的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231215

R150 Certificate of patent or registration of utility model

Ref document number: 7406521

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150