JP7434137B2 - 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 - Google Patents
音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP7434137B2 JP7434137B2 JP2020187686A JP2020187686A JP7434137B2 JP 7434137 B2 JP7434137 B2 JP 7434137B2 JP 2020187686 A JP2020187686 A JP 2020187686A JP 2020187686 A JP2020187686 A JP 2020187686A JP 7434137 B2 JP7434137 B2 JP 7434137B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- speech recognition
- field
- features
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 94
- 230000005236 sound signal Effects 0.000 claims description 183
- 230000008569 process Effects 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 28
- 230000004044 response Effects 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 238000004088 simulation Methods 0.000 claims description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 27
- 238000005457 optimization Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 7
- 239000012634 fragment Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 241000712899 Lymphocytic choriomeningitis mammarenavirus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本開示の第5の態様では、コンピュータプログラムであって、前記コンピュータプログラムが実行される場合、前記コンピュータに本開示の実施例に係る各種の方法又は/又はプロセスを実行させるコンピュータプログラムが提供される。
Y2(t)=S(t)*R12(t)+αN(t)*R22(t) (2)
したがって、本開示の実施例は、オンラインリアルタイムシミュレーションとノイズ追加技術を使用して、トレーニング中に大量の、部屋インパルス応答、ノイズ及び音声の組み合わせをリアルタイムでランダムにシミュレートすることができ、データの多様性が極めて豊富になり、モデルがより豊富なデータからより優れた汎用化性能を取得することができる。
Claims (27)
- マイクロフォンアレイ内の第1のマイクロフォンから採集された第1の音声信号と、前記第1のマイクロフォンとは異なる前記マイクロフォンアレイ内の第2のマイクロフォンから採集された第2の音声信号とを取得するステップと、
ニューラルネットワークによって前記第1の音声信号及び前記第2の音声信号に関連付けられた強調特徴を抽出するステップであって、前記強調特徴は、前記第1の音声信号及び前記第2の音声信号から取得した複素特徴を実数形式に変換したものであるステップと、
抽出された前記強調特徴に基づいて、音声認識結果を取得するステップと、を含み、
音声認識結果を取得するステップが、
第1のマイクロフォンと第2のマイクロフォンのダブルチャンネルから抽出された強調特徴帯域幅が、シングルチャンネルから抽出された強調特徴帯域幅と同じであるように、所定のサイズに前記強調特徴を圧縮するステップを含む音声認識方法。 - ニューラルネットワークによって前記第1の音声信号及び前記第2の音声信号に関連付けられた強調特徴を抽出するステップは、
前記第1の音声信号及び前記第2の音声信号に対してそれぞれ複素フーリエ変換を行うステップと、
複素畳み込みニューラルネットワークによって、変換された第1の音声信号及び第2の音声信号に対して複素畳み込み、複素オフセット、及び複素線形変換操作を行って前記複素特徴を取得するステップと、
前記複素特徴を実数形式の前記強調特徴に変換するステップと、を含むことを特徴とする、請求項1に記載の音声認識方法。 - 音声認識結果を取得するステップは、
ストリーミング型多層切断注意モデルによって、前記強調特徴に基づいて、前記第1の音声信号及び前記第2の音声信号に対応するキャラクタ出力を決定するステップを含むことを特徴とする、請求項2に記載の音声認識方法。 - 音声認識結果を取得するステップは、
前記ストリーミング型多層切断注意モデルに圧縮された強調特徴を提供するステップをさらに含むことを特徴とする、請求項3に記載の音声認識方法。 - 前記方法は、
前記強調特徴に基づいて、前記第1の音声信号及び前記第2の音声信号に関連付けられたターゲット音源の方向を決定するステップと、
決定された方向に関連付けられた通知灯を点灯させるステップと、をさらに含むことを特徴とする、請求項2に記載の音声認識方法。 - 前記方法は、
前記強調特徴に基づいて、前記第1の音声信号及び前記第2の音声信号がウェイクアップワードに関連するか否かを決定するステップと、
前記第1の音声信号及び前記第2の音声信号がウェイクアップワードに関連するとの決定に基づいて、キャラクタ認識プロセスを開始するステップと、をさらに含むことを特徴とする、請求項2に記載の音声認識方法。 - ニューラルネットワークによって前記第1の音声信号及び前記第2の音声信号に関連付けられた強調特徴を抽出するステップは、
前記マイクロフォンアレイ内の第3のマイクロフォンから採集された第3の音声信号を取得するステップと、
ニューラルネットワークによって前記第1の音声信号、前記第2の音声信号、及び第3の音声信号に関連付けられた強調特徴を抽出するステップと、を含むことを特徴とする、請求項1に記載の音声認識方法。 - 前記方法は、
前記マイクロフォンアレイ内のマイクロフォンと同じ数のマルチチャンネル遠距離場音声信号を取得するステップであって、前記マルチチャンネル遠距離場音声信号は、少なくとも第1の遠距離場音声信号と第2の遠距離場音声信号とを含むステップと、
前記マルチチャンネル遠距離場音声信号を使用してエンドツーエンド音声強調及び認識一体化モデルをトレーニングするステップと、をさらに含むことを特徴とする、請求項1に記載の音声認識方法。 - 前記マイクロフォンアレイ内のマイクロフォンと同じ数のマルチチャンネル遠距離場音声信号を取得するステップは、
近距離場音声信号に基づいて、ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするステップを含むことを特徴とする、請求項8に記載の音声認識方法。 - ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするステップは、
縦横高さと壁反射係数とを含む部屋の構成、マイクロフォンアレイの前記部屋における位置、ターゲット音源の前記部屋における位置、及びノイズソースの前記部屋における位置を含むシミュレーションパラメータをランダムに設定するステップを含むことを特徴とする、請求項9に記載の音声認識方法。 - ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするステップは、
前記シミュレーションパラメータに基づいて、前記近距離場音声信号に対する第1のセットのインパルス応答と、ランダムに選択されたノイズ信号に対する第2のセットのインパルス応答とを生成するステップをさらに含むことを特徴とする、請求項10に記載の音声認識方法。 - ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするステップは、
前記近距離場音声信号と、前記第1のセットのインパルス応答と、前記ノイズ信号と、前記第2のセットのインパルス応答と、信号対雑音比とに基づいて、前記マルチチャンネル遠距離場音声信号を生成するステップをさらに含むことを特徴とする、請求項11に記載の音声認識方法。 - マイクロフォンアレイ内の第1のマイクロフォンから採集された第1の音声信号と、前記第1のマイクロフォンとは異なる前記マイクロフォンアレイ内の第2のマイクロフォンから採集された第2の音声信号とを取得するように構成される音声信号取得モジュールと、
ニューラルネットワークによって前記第1の音声信号及び前記第2の音声信号に関連付けられた強調特徴を抽出するように構成される強調特徴抽出モジュールであって、前記強調特徴は、前記第1の音声信号及び前記第2の音声信号から取得した複素特徴を実数形式に変換したものである強調特徴抽出モジュールと、
抽出された前記強調特徴に基づいて、音声認識結果を取得するように構成される音声認識モジュールと、を含み、
前記音声認識モジュールが、
第1のマイクロフォンと第2のマイクロフォンのダブルチャンネルから抽出された強調特徴帯域幅が、シングルチャンネルから抽出された強調特徴帯域幅と同じであるように、所定のサイズに前記強調特徴を圧縮するように構成される特徴圧縮モジュールを含む音声認識装置。 - 前記強調特徴抽出モジュールは、
前記第1の音声信号及び前記第2の音声信号に対してそれぞれ複素フーリエ変換を行うように構成されるフーリエ変換モジュールと、
複素畳み込みニューラルネットワークによって、変換された第1の音声信号及び第2の音声信号に対して複素畳み込み、複素オフセット、及び複素線形変換操作を行って前記複素特徴を取得するように構成される畳み込み処理モジュールと、
前記複素特徴を実数形式の前記強調特徴に変換するように構成される変換モジュールと、を含むことを特徴とする、請求項13に記載の音声認識装置。 - 前記音声認識モジュールは、
ストリーミング型多層切断注意モデルによって、前記強調特徴に基づいて、前記第1の音声信号及び前記第2の音声信号に対応するキャラクタ出力を決定するように構成されるキャラクタ出力モジュールを含むことを特徴とする、請求項14に記載の音声認識装置。 - 前記音声認識モジュールは、
前記ストリーミング型多層切断注意モデルに圧縮された強調特徴を提供するように構成される特徴提供モジュールをさらに含むことを特徴とする、請求項15に記載の音声認識装置。 - 前記装置は、
前記強調特徴に基づいて、前記第1の音声信号及び前記第2の音声信号に関連付けられたターゲット音源の方向を決定するように構成される方向決定モジュールと、
決定された方向に関連付けられた通知灯を点灯させるように構成される通知灯点灯モジュールと、をさらに含むことを特徴とする、請求項14に記載の音声認識装置。 - 前記装置は、
前記強調特徴に基づいて、前記第1の音声信号及び前記第2の音声信号がウェイクアップワードに関連するか否かを決定するように構成されるウェイクアップ判断モジュールと、
前記第1の音声信号及び前記第2の音声信号がウェイクアップワードに関連するとの決定に基づいて、キャラクタ認識プロセスを開始するように構成される認識開始モジュールと、をさらに含むことを特徴とする、請求項14に記載の音声認識装置。 - 前記強調特徴抽出モジュールは、
前記マイクロフォンアレイ内の第3のマイクロフォンから採集された第3の音声信号を取得するように構成される信号取得モジュールと、
ニューラルネットワークによって前記第1の音声信号、前記第2の音声信号、及び第3の音声信号に関連付けられた前記強調特徴を抽出するように構成される特徴抽出モジュールと、を含むことを特徴とする、請求項13に記載の音声認識装置。 - 前記装置は、
前記マイクロフォンアレイ内のマイクロフォンと同じ数のマルチチャンネル遠距離場音声信号を取得するように構成されるマルチチャンネル遠距離場音声信号取得モジュールであって、前記マルチチャンネル遠距離場音声信号は、少なくとも第1の遠距離場音声信号と第2の遠距離場音声信号とを含むマルチチャンネル遠距離場音声信号取得モジュールと、
前記マルチチャンネル遠距離場音声信号を使用してエンドツーエンド音声強調及び認識一体化モデルをトレーニングするように構成されるトレーニングモジュールと、をさらに含むことを特徴とする、請求項13に記載の音声認識装置。 - 前記マルチチャンネル遠距離場音声信号取得モジュールは、
近距離場音声信号に基づいて、ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするように構成されるリアルタイムシミュレーションモジュールを含むことを特徴とする、請求項20に記載の音声認識装置。 - 前記リアルタイムシミュレーションモジュールは、
縦横高さと壁反射係数とを含む部屋の構成、マイクロフォンアレイの前記部屋における位置、ターゲット音源の前記部屋における位置、及びノイズソースの前記部屋における位置を含むシミュレーションパラメータをランダムに設定するように構成されるランダム設定モジュールを含むことを特徴とする、請求項21に記載の音声認識装置。 - 前記リアルタイムシミュレーションモジュールは、
前記シミュレーションパラメータに基づいて、前記近距離場音声信号に対する第1のセットのインパルス応答と、ランダムに選択されたノイズ信号に対する第2のセットのインパルス応答とを生成するように構成されるインパルス応答生成モジュールと、をさらに含むことを特徴とする、請求項22に記載の音声認識装置。 - 前記リアルタイムシミュレーションモジュールは、
前記近距離場音声信号と、前記第1のセットのインパルス応答と、前記ノイズ信号と、前記第2のセットのインパルス応答と、信号対雑音比とに基づいて、前記マルチチャンネル遠距離場音声信号を生成するように構成される第2のマルチチャンネル遠距離場音声信号取得モジュールをさらに含むことを特徴とする、請求項23に記載の音声認識装置。 - 一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するための記憶装置と、を含む電子機器であって、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合、前記電子機器が請求項1~12のいずれかに記載の方法を実現することを特徴とする、電子機器。 - コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムがプロセッサによって実行される場合、請求項1~12のいずれかに記載の方法が実現されることを特徴とする、コンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムが実行される場合、前記コンピュータに請求項1~12のいずれかに記載の方法を実行させることを特徴とする、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911164974.2A CN110992974B (zh) | 2019-11-25 | 2019-11-25 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN201911164974.2 | 2019-11-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021086154A JP2021086154A (ja) | 2021-06-03 |
JP7434137B2 true JP7434137B2 (ja) | 2024-02-20 |
Family
ID=70086419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020187686A Active JP7434137B2 (ja) | 2019-11-25 | 2020-11-11 | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11620983B2 (ja) |
JP (1) | JP7434137B2 (ja) |
CN (1) | CN110992974B (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10096321B2 (en) * | 2016-08-22 | 2018-10-09 | Intel Corporation | Reverberation compensation for far-field speaker recognition |
CN110534095B (zh) * | 2019-08-22 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN111524524B (zh) * | 2020-04-28 | 2021-10-22 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
CN113657135A (zh) * | 2020-05-12 | 2021-11-16 | 北京中关村科金技术有限公司 | 基于深度学习的活体检测方法、装置及存储介质 |
CN111429940B (zh) * | 2020-06-15 | 2020-10-09 | 杭州贝哆蜂智能有限公司 | 一种基于深度学习的实时音乐转录与曲谱匹配方法 |
CN111880146B (zh) * | 2020-06-30 | 2023-08-18 | 海尔优家智能科技(北京)有限公司 | 声源定向方法和装置及存储介质 |
CN113949978A (zh) * | 2020-07-17 | 2022-01-18 | 通用微(深圳)科技有限公司 | 声音采集装置、声音处理设备及方法、装置、存储介质 |
CN111862987B (zh) * | 2020-07-20 | 2021-12-28 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN111739555B (zh) * | 2020-07-23 | 2020-11-24 | 深圳市友杰智新科技有限公司 | 基于端到端深度神经网络的音频信号处理方法及装置 |
CN112102816A (zh) * | 2020-08-17 | 2020-12-18 | 北京百度网讯科技有限公司 | 语音识别方法、装置、系统、电子设备和存储介质 |
CN112201259B (zh) * | 2020-09-23 | 2022-11-25 | 北京百度网讯科技有限公司 | 声源定位方法、装置、设备和计算机存储介质 |
CN112420073B (zh) * | 2020-10-12 | 2024-04-16 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
CN112542177B (zh) * | 2020-11-04 | 2023-07-21 | 北京百度网讯科技有限公司 | 信号增强方法、装置及存储介质 |
US11615782B2 (en) * | 2020-11-12 | 2023-03-28 | Sony Interactive Entertainment Inc. | Semi-sorted batching with variable length input for efficient training |
CN112786069B (zh) * | 2020-12-24 | 2023-03-21 | 北京有竹居网络技术有限公司 | 语音提取方法、装置和电子设备 |
CN112992170B (zh) * | 2021-01-29 | 2022-10-28 | 青岛海尔科技有限公司 | 模型训练方法及装置、存储介质及电子装置 |
CN112967730A (zh) * | 2021-01-29 | 2021-06-15 | 北京达佳互联信息技术有限公司 | 语音信号的处理方法、装置、电子设备及存储介质 |
CN113380254A (zh) * | 2021-06-21 | 2021-09-10 | 紫优科技(深圳)有限公司 | 一种基于云计算和边缘计算的语音识别方法、设备及介质 |
CN113380253A (zh) * | 2021-06-21 | 2021-09-10 | 紫优科技(深圳)有限公司 | 一种基于云计算和边缘计算的语音识别系统、设备及介质 |
CN113470685B (zh) * | 2021-07-13 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113687305A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 声源方位的定位方法、装置、设备及计算机可读存储介质 |
US20230162750A1 (en) * | 2021-11-19 | 2023-05-25 | Apple Inc. | Near-field audio source detection for electronic devices |
CN114189506B (zh) * | 2021-12-09 | 2024-04-16 | 新奥数能科技有限公司 | 一种设备巡检方法、装置及系统 |
WO2023132018A1 (ja) * | 2022-01-05 | 2023-07-13 | 日本電信電話株式会社 | 学習装置、信号処理装置、学習方法及び学習プログラム |
US11937073B1 (en) * | 2022-11-01 | 2024-03-19 | AudioFocus, Inc | Systems and methods for curating a corpus of synthetic acoustic training data samples and training a machine learning model for proximity-based acoustic enhancement |
CN116222997B (zh) * | 2023-03-07 | 2024-04-05 | 华北电力大学(保定) | 基于波束形成及时空网络的托辊故障声源距离估计方法 |
CN116110422B (zh) * | 2023-04-13 | 2023-07-04 | 南京熊大巨幕智能科技有限公司 | 全向级联麦克风阵列降噪方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017520803A (ja) | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
WO2018037643A1 (ja) | 2016-08-23 | 2018-03-01 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2019508730A (ja) | 2016-03-23 | 2019-03-28 | グーグル エルエルシー | マルチチャネル音声認識のための適応的オーディオ強化 |
US20190259409A1 (en) | 2016-09-07 | 2019-08-22 | Google Llc | Enhanced multi-channel acoustic models |
US20190355375A1 (en) | 2017-01-26 | 2019-11-21 | Yutou Technology (Hangzhou) Co., Ltd. | Microphone array based pickup method and system |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3948066B2 (ja) | 1997-08-27 | 2007-07-25 | ヤマハ株式会社 | 聴覚補助装置 |
JP6987378B2 (ja) | 2017-07-18 | 2021-12-22 | 国立研究開発法人情報通信研究機構 | ニューラルネットワークの学習方法及びコンピュータプログラム |
US10140089B1 (en) * | 2017-08-09 | 2018-11-27 | 2236008 Ontario Inc. | Synthetic speech for in vehicle communication |
CN109935226A (zh) * | 2017-12-15 | 2019-06-25 | 上海擎语信息科技有限公司 | 一种基于深度神经网络的远场语音识别增强系统及方法 |
US10283140B1 (en) * | 2018-01-12 | 2019-05-07 | Alibaba Group Holding Limited | Enhancing audio signals using sub-band deep neural networks |
CN110097871B (zh) * | 2018-01-31 | 2023-05-12 | 阿里巴巴集团控股有限公司 | 一种语音数据处理方法及装置 |
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN108877823B (zh) * | 2018-07-27 | 2020-12-18 | 三星电子(中国)研发中心 | 语音增强方法和装置 |
KR102519742B1 (ko) * | 2018-08-28 | 2023-04-11 | 삼성전자주식회사 | 스피커 모듈을 포함하는 전자 장치, 및 조명 장치 |
CN109767769B (zh) * | 2019-02-21 | 2020-12-22 | 珠海格力电器股份有限公司 | 一种语音识别方法、装置、存储介质及空调 |
CN112242144A (zh) * | 2019-07-17 | 2021-01-19 | 百度在线网络技术(北京)有限公司 | 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质 |
-
2019
- 2019-11-25 CN CN201911164974.2A patent/CN110992974B/zh active Active
-
2020
- 2020-08-10 US US16/988,913 patent/US11620983B2/en active Active
- 2020-11-11 JP JP2020187686A patent/JP7434137B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017520803A (ja) | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
JP2019508730A (ja) | 2016-03-23 | 2019-03-28 | グーグル エルエルシー | マルチチャネル音声認識のための適応的オーディオ強化 |
WO2018037643A1 (ja) | 2016-08-23 | 2018-03-01 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
US20190259409A1 (en) | 2016-09-07 | 2019-08-22 | Google Llc | Enhanced multi-channel acoustic models |
US20190355375A1 (en) | 2017-01-26 | 2019-11-21 | Yutou Technology (Hangzhou) Co., Ltd. | Microphone array based pickup method and system |
Non-Patent Citations (2)
Title |
---|
"A Breakthrough in Speech Technology: Baidu Launched SMLTA, the First Streaming Multi-layer Truncated Attention Model for Large-scale Online Speech Recognition",http://research.baidu.com/Blog/index-view?id=109,Baidu Research,2019年1月21日 |
Xiaofei Wang et al.,"Stream attention-based multi-array end-to-end speech recognition",2019 IEEE International Conference on Acoustics,Speech and Signal processing(ICAPPS 2019),2019年4月17日,p.7105-7109 |
Also Published As
Publication number | Publication date |
---|---|
US11620983B2 (en) | 2023-04-04 |
CN110992974A (zh) | 2020-04-10 |
US20210158799A1 (en) | 2021-05-27 |
CN110992974B (zh) | 2021-08-24 |
JP2021086154A (ja) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7434137B2 (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
CN109074816B (zh) | 远场自动语音识别预处理 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN110556103B (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
JP4774100B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 | |
Barker et al. | The PASCAL CHiME speech separation and recognition challenge | |
CN110503971A (zh) | 用于语音处理的基于神经网络的时频掩模估计和波束形成 | |
TWI711035B (zh) | 方位角估計的方法、設備、語音交互系統及儲存介質 | |
US9478230B2 (en) | Speech processing apparatus, method, and program of reducing reverberation of speech signals | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
EP4260315B1 (en) | Method and system for dereverberation of speech signals | |
JP2021167977A (ja) | 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
CN112731291B (zh) | 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统 | |
US11727926B1 (en) | Systems and methods for noise reduction | |
Li et al. | A fast convolutional self-attention based speech dereverberation method for robust speech recognition | |
US20230298612A1 (en) | Microphone Array Configuration Invariant, Streaming, Multichannel Neural Enhancement Frontend for Automatic Speech Recognition | |
CN115910047B (zh) | 数据处理方法、模型训练方法、关键词检测方法及设备 | |
US20230298609A1 (en) | Generalized Automatic Speech Recognition for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation | |
US20230038982A1 (en) | Joint Acoustic Echo Cancelation, Speech Enhancement, and Voice Separation for Automatic Speech Recognition | |
US20240038217A1 (en) | Preprocessing Model Building System for Speech Recognition Function and Preprocessing Model Building Method Therefor | |
Zeng et al. | Low-complexity Multi-Channel Speaker Extraction with Pure Speech Cues | |
EP4356375A1 (en) | Method and system for reverberation modeling of speech signals | |
CN117174082A (zh) | 语音唤醒模型的训练和执行方法、装置、设备及存储介质 | |
CN117768352A (zh) | 基于语音技术的跨网数据摆渡方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220406 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221201 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20221201 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20221214 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20221220 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20230113 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20230117 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20230131 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20230328 |
|
C13 | Notice of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: C13 Effective date: 20230425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230721 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7434137 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |