JP2022017170A - 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム - Google Patents
音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム Download PDFInfo
- Publication number
- JP2022017170A JP2022017170A JP2021047560A JP2021047560A JP2022017170A JP 2022017170 A JP2022017170 A JP 2022017170A JP 2021047560 A JP2021047560 A JP 2021047560A JP 2021047560 A JP2021047560 A JP 2021047560A JP 2022017170 A JP2022017170 A JP 2022017170A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- network
- sub
- fully connected
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 238000004590 computer program Methods 0.000 title claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 145
- 238000000034 method Methods 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims description 66
- 238000013527 convolutional neural network Methods 0.000 claims description 50
- 238000000605 extraction Methods 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 33
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 230000015654 memory Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
- Circuit For Audible Band Transducer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Navigation (AREA)
Abstract
Description
Claims (37)
- 目標音声を取得するステップと、
複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得するステップと、を含む、
音声検出方法。 - 前記ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、請求項1に記載の方法。
- 前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップは、
事前に訓練されたディープニューラルネットワークに目標音声を入力し、前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出するステップと、
前記畳み込みニューラルネットワークを使用して前記音声特徴を処理し、前記マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、を含む、
請求項2に記載の方法。 - 前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出する前記ステップは、
前記フーリエ変換ネットワークを使用して前記目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定するステップと、を含む、
請求項3に記載の方法。 - 前記特徴抽出ネットワークを使用して、前記ベクトルのモジュラス長の対数を決定するステップをさらに含み、
前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定する前記ステップは、
前記正規化済み実部、前記正規化済み虚部、および前記対数を前記目標音声の音声特徴として決定するステップを含む、
請求項4に記載の方法。 - 事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップは、
前記マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、前記畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に前記目標音声のサブ音声が存在する確率を取得するステップをさらに含む、
請求項3に記載の方法。 - 前記ディープニューラルネットワークは、マージ層をさらに含み、
事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップは、
前記マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップをさらに含む、
請求項6に記載の方法。 - 前記マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む、請求項2に記載の方法。
- 音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するステップと、
複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するステップと、
前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップと、を含む、
ディープニューラルネットワーク訓練方法。 - 前記ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、請求項9に記載の方法。
- 前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得する前記ステップは、
前記訓練サンプルが前記音声サンプルにおける各サブ音声の方向情報をさらに含む前記音声サンプルを前記ディープニューラルネットワークに入力し、前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、前記音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、
各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、
前記マルチヘッド完全接続ネットワークを使用して、前記複数の到着方向間隔の各到着方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定するステップと、を含む、
請求項10に記載の方法。 - 前記ディープニューラルネットワークの訓練ネットワーク構造は、特徴指向ネットワークをさらに含み、
各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する前記ステップは、
前記特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップを含む、
請求項11に記載の方法。 - 前記マルチヘッド完全接続ネットワークを使用して、前記複数の到着方向間隔の各到着方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定する前記ステップは、
各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、前記複数の方向間隔の各方向間隔に前記音声サンプルのサブ音声が存在する確率を取得するステップを含む、
請求項11に記載の方法。 - 前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、処理対象音声特徴を取得する前記ステップは、
前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出するステップと、
前記畳み込みニューラルネットワークによって抽出された音声特徴を使用して、前記マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、を含む、
請求項11に記載の方法。 - 前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出する前記ステップは、
前記フーリエ変換ネットワークを使用して前記音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
前記正規化済み実部および前記正規化済み虚部を前記音声サンプルの音声特徴として決定するステップと、を含む、
請求項14に記載の方法。 - 前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する前記ステップは、
取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップを含む、
請求項13に記載の方法。 - 取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新する前記ステップは、
取得された各確率について、この確率に対応する損失値を決定し、前記損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、
前記特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、
前記第一結果セットを使用して、前記畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含む、
請求項16に記載の方法。 - 目標音声を取得するように構成される取得ユニットと、
複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得するように構成される予測ユニットと、を含む、
音声検出装置。 - 前記ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、請求項18に記載の装置。
- 前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
事前に訓練されたディープニューラルネットワークに目標音声を入力し、前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出するステップと、
前記畳み込みニューラルネットワークを使用して前記音声特徴を処理し、前記マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、によって、
前記予測ユニットは、事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップを実行するようにさらに構成される、
請求項19に記載の装置。 - 前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
前記フーリエ変換ネットワークを使用して前記目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定するステップと、によって、
前記予測ユニットは、前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出する前記ステップを実行するようにさらに構成される、
請求項20に記載の装置。 - 前記特徴抽出ネットワークを使用して、前記ベクトルのモジュラス長の対数を決定するように構成される決定ユニットをさらに含み、
前記正規化済み実部、前記正規化済み虚部、および前記対数を前記目標音声の音声特徴として決定するステップによって、
前記予測ユニットは、前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定する前記ステップを実行するようにさらに構成される、
請求項21に記載の装置。 - 前記マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、前記畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に前記目標音声のサブ音声が存在する確率を取得するステップによって、
前記予測ユニットは、事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップを実行するようにさらに構成される、
請求項20に記載の装置。 - 前記ディープニューラルネットワークは、マージ層をさらに含み、
前記マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップによって、
前記予測ユニットは、事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップを実行するようにさらに構成される、
請求項23に記載の装置。 - 前記マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む、請求項19に記載の装置。
- 音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するように構成されるサンプル取得ユニットと、
複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するように構成される入力ユニットと、
前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するように構成される訓練ユニットと、を含む、
ディープニューラルネットワーク訓練装置。 - 前記ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、請求項26に記載の装置。
- 前記訓練サンプルが前記音声サンプルにおける各サブ音声の方向情報をさらに含む前記音声サンプルを前記ディープニューラルネットワークに入力し、前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、前記音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、
各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、
前記マルチヘッド完全接続ネットワークを使用して、前記複数の到着方向間隔の各到着方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定するステップと、によって、
前記入力ユニットは、前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得する前記ステップを実行するようにさらに構成される、
請求項26に記載の装置。 - 前記ディープニューラルネットワークの訓練ネットワーク構造は、特徴指向ネットワークをさらに含み、
前記特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップによって、
前記入力ユニットは、各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する前記ステップを実行するようにさらに構成される、
請求項26に記載の装置。 - 各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、前記複数の方向間隔の各方向間隔に前記音声サンプルのサブ音声が存在する確率を取得するステップによって、
前記入力ユニットは、前記マルチヘッド完全接続ネットワークを使用して、前記複数の到着方向間隔の各到着方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定する前記ステップを実行するようにさらに構成される、
請求項26に記載の装置。 - 前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出するステップと、
前記畳み込みニューラルネットワークによって抽出された音声特徴を使用して、前記マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、によって、
前記入力ユニットは、前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、処理対象音声特徴を取得する前記ステップを実行するようにさらに構成される、
請求項26に記載の装置。 - 前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
前記フーリエ変換ネットワークを使用して前記音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
前記正規化済み実部および前記正規化済み虚部を前記音声サンプルの音声特徴として決定するステップと、によって、
前記入力ユニットは、前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出する前記ステップを実行するようにさらに構成される、
請求項31に記載の装置。 - 取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップによって、
前記訓練ユニットは、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する前記ステップを実行するようにさらに構成される、
請求項31に記載の装置。 - 取得された各確率について、この確率に対応する損失値を決定し、前記損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、
前記特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、
前記第一結果セットを使用して、前記畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップと、によって、
前記訓練ユニットは、取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップを実行するようにさらに構成される、
請求項33に記載の装置。 - 1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶するための記憶装置と、を含み、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサが請求項1-8または9-17のいずれか一項に記載の方法を実施する、
電子デバイス。 - コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、このプログラムがプロセッサによって実行されて請求項1-8または9-17のいずれか一項に記載の方法を実施する、コンピュータ可読記憶媒体。
- コンピュータプログラムであって、このコンピュータプログラムがプロセッサによって実行されて請求項1-8または9-17のいずれか一項に記載の方法を実施する、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010697058.1A CN111863036B (zh) | 2020-07-20 | 2020-07-20 | 语音检测的方法和装置 |
CN202010697058.1 | 2020-07-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022017170A true JP2022017170A (ja) | 2022-01-25 |
JP7406521B2 JP7406521B2 (ja) | 2023-12-27 |
Family
ID=73000971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021047560A Active JP7406521B2 (ja) | 2020-07-20 | 2021-03-22 | 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210210113A1 (ja) |
EP (1) | EP3816999B1 (ja) |
JP (1) | JP7406521B2 (ja) |
KR (1) | KR102599978B1 (ja) |
CN (1) | CN111863036B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786069B (zh) * | 2020-12-24 | 2023-03-21 | 北京有竹居网络技术有限公司 | 语音提取方法、装置和电子设备 |
US11862179B2 (en) * | 2021-04-01 | 2024-01-02 | Capital One Services, Llc | Systems and methods for detecting manipulated vocal samples |
CN115240698A (zh) * | 2021-06-30 | 2022-10-25 | 达闼机器人股份有限公司 | 模型训练方法、语音检测定位方法、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020034624A (ja) * | 2018-08-27 | 2020-03-05 | 株式会社東芝 | 信号生成装置、信号生成システム、信号生成方法およびプログラム |
WO2020129231A1 (ja) * | 2018-12-21 | 2020-06-25 | 三菱電機株式会社 | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9972339B1 (en) * | 2016-08-04 | 2018-05-15 | Amazon Technologies, Inc. | Neural network based beam selection |
KR102017244B1 (ko) * | 2017-02-27 | 2019-10-21 | 한국전자통신연구원 | 자연어 인식 성능 개선 방법 및 장치 |
KR102478393B1 (ko) * | 2018-02-12 | 2022-12-19 | 삼성전자주식회사 | 노이즈가 정제된 음성 신호를 획득하는 방법 및 이를 수행하는 전자 장치 |
KR20190123362A (ko) * | 2018-04-06 | 2019-11-01 | 삼성전자주식회사 | 인공지능을 이용한 음성 대화 분석 방법 및 장치 |
US10460749B1 (en) * | 2018-06-28 | 2019-10-29 | Nuvoton Technology Corporation | Voice activity detection using vocal tract area information |
EP3598777B1 (en) * | 2018-07-18 | 2023-10-11 | Oticon A/s | A hearing device comprising a speech presence probability estimator |
US11211045B2 (en) * | 2019-05-29 | 2021-12-28 | Lg Electronics Inc. | Artificial intelligence apparatus and method for predicting performance of voice recognition model in user environment |
CN110517677B (zh) * | 2019-08-27 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 语音处理系统、方法、设备、语音识别系统及存储介质 |
CN110648692B (zh) * | 2019-09-26 | 2022-04-12 | 思必驰科技股份有限公司 | 语音端点检测方法及系统 |
CN111696570B (zh) * | 2020-08-17 | 2020-11-24 | 北京声智科技有限公司 | 语音信号处理方法、装置、设备及存储介质 |
-
2020
- 2020-07-20 CN CN202010697058.1A patent/CN111863036B/zh active Active
-
2021
- 2021-03-10 KR KR1020210031674A patent/KR102599978B1/ko active IP Right Grant
- 2021-03-22 US US17/208,387 patent/US20210210113A1/en not_active Abandoned
- 2021-03-22 JP JP2021047560A patent/JP7406521B2/ja active Active
- 2021-03-22 EP EP21163855.6A patent/EP3816999B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020034624A (ja) * | 2018-08-27 | 2020-03-05 | 株式会社東芝 | 信号生成装置、信号生成システム、信号生成方法およびプログラム |
WO2020129231A1 (ja) * | 2018-12-21 | 2020-06-25 | 三菱電機株式会社 | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN111863036A (zh) | 2020-10-30 |
JP7406521B2 (ja) | 2023-12-27 |
EP3816999A3 (en) | 2021-10-20 |
CN111863036B (zh) | 2022-03-01 |
EP3816999B1 (en) | 2022-11-09 |
KR102599978B1 (ko) | 2023-11-08 |
KR20220011064A (ko) | 2022-01-27 |
EP3816999A2 (en) | 2021-05-05 |
US20210210113A1 (en) | 2021-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7166322B2 (ja) | モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP2022017170A (ja) | 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム | |
JP7355776B2 (ja) | 音声認識方法、音声認識装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN111539514B (zh) | 用于生成神经网络的结构的方法和装置 | |
EP4109347A2 (en) | Method for processing multimodal data using neural network, device, and medium | |
JP7262571B2 (ja) | 知識グラフのベクトル表現生成方法、装置及び電子機器 | |
CN111539479A (zh) | 生成样本数据的方法和装置 | |
CN114787814A (zh) | 指代解析 | |
CN111582477B (zh) | 神经网络模型的训练方法和装置 | |
KR102630243B1 (ko) | 구두점 예측 방법 및 장치 | |
CN111563593B (zh) | 神经网络模型的训练方法和装置 | |
JP2021196599A (ja) | 情報を出力するための方法および装置 | |
CN111709252B (zh) | 基于预训练的语义模型的模型改进方法及装置 | |
CN111582454A (zh) | 生成神经网络模型的方法和装置 | |
JP2021096825A (ja) | エンドツーエンドモデルのトレーニング方法および装置 | |
CN111681661B (zh) | 语音识别的方法、装置、电子设备和计算机可读介质 | |
CN111353601A (zh) | 用于预测模型结构的延时的方法和装置 | |
CN112580723B (zh) | 多模型融合方法、装置、电子设备和存储介质 | |
CN112650844A (zh) | 对话状态的追踪方法、装置、电子设备和存储介质 | |
JP7256857B2 (ja) | 対話処理方法、装置、電子機器及び記憶媒体 | |
CN115359309A (zh) | 目标检测模型的训练方法及装置、设备和介质 | |
CN112784912A (zh) | 图像识别方法及装置、神经网络模型的训练方法及装置 | |
CN111353585A (zh) | 神经网络模型的结构搜索方法和装置 | |
JP7264963B2 (ja) | 対話生成方法、装置、電子機器及び記憶媒体 | |
CN111582478B (zh) | 用于确定模型结构的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7406521 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |