JP2017530409A - ランニング範囲正規化を利用したニューラルネットワーク音声活動検出 - Google Patents
ランニング範囲正規化を利用したニューラルネットワーク音声活動検出 Download PDFInfo
- Publication number
- JP2017530409A JP2017530409A JP2017516763A JP2017516763A JP2017530409A JP 2017530409 A JP2017530409 A JP 2017530409A JP 2017516763 A JP2017516763 A JP 2017516763A JP 2017516763 A JP2017516763 A JP 2017516763A JP 2017530409 A JP2017530409 A JP 2017530409A
- Authority
- JP
- Japan
- Prior art keywords
- activity detection
- voice activity
- estimate
- feature
- running
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000694 effects Effects 0.000 title claims abstract description 95
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 238000010606 normalization Methods 0.000 title abstract description 26
- 238000013528 artificial neural network Methods 0.000 title description 17
- 238000000034 method Methods 0.000 claims abstract description 91
- 238000009499 grossing Methods 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 238000010801 machine learning Methods 0.000 claims abstract description 9
- 230000008859 change Effects 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims description 84
- 230000003595 spectral effect Effects 0.000 claims description 12
- 238000012935 Averaging Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000012805 post-processing Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 239000006185 dispersion Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 18
- 238000012549 training Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003749 cleanliness Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
- G10L2015/0636—Threshold criteria for the updating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本出願は、いずれも「Neural Network Voice Activity Detection Employing Running Range Normalization」という名称を有する2014年9月26日付けで出願された米国仮特許出願第62/056,045号及び2015年9月25日付けで出願された米国特許出願第14/866,824号に対する優先権を主張するものであり、これらの特許文献は、引用により、そのすべてが本明細書に包含される。
本開示は、一般に、オーディオ信号の出力の前に、音声データを隔離し、オーディオ信号からノイズを除去し、又は、その他の方法でオーディオ信号を改善する技法を含む、オーディオ信号を処理する技法に関する。更に詳しくは、本開示は、音声活動検出(VAD:Voice Activity Detection)に関し、且つ、更に詳しくは、オーディオ信号から導出された1つ又は複数の音声活動検出特徴又は特徴パラメータを正規化する方法に関する。また、オーディオ信号を処理する装置及びシステムも開示されている。
音声活動検出器は、オーディオ信号内の発話を改善するべく、且つ、発話認識又は特定の発話者の音声の認識を含む様々なその他の目的のために、長期にわたって使用されている。
本発明の一態様は、いくつかの実施形態においては、オーディオ信号から正規化済みの音声活動検出特徴を取得する方法を特徴としている。方法は、演算システムにおいて実行され、且つ、オーディオ信号を時間フレームのシーケンスに分割するステップと、時間フレームのそれぞれごとにオーディオ信号の1つ又は複数の音声活動検出特徴を演算するステップと、時間フレームのそれぞれごとにオーディオ信号の1つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を演算するステップと、を含む。方法は、時間フレームのそれぞれごとのオーディオ信号の1つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を比較することにより、1つ又は複数の音声活動検出特徴の入力範囲を演算するステップと、1つ又は複数の正規化された音声活動検出特徴を取得するべく、時間フレームのそれぞれごとのオーディオ信号の1つ又は複数の音声活動検出特徴を入力範囲から1つ又は複数の望ましいターゲット範囲にマッピングするステップと、更に含む。
本発明については、添付図面との関連における検討において以下の詳細な説明を参照することにより、更に十分に理解することができる。
以下の説明は、本発明の例示用の実施例に関するものに過ぎず、且つ、本発明の範囲、適用可能性、又は構成を限定することを意図したものではない。むしろ、以下の説明は、本発明の様々な実施形態を実装するための便利な例示の提供を意図している。明らかになるように、本明細書において記述されている本発明の範囲を逸脱することなしに、これらの実施形態において記述されている要素の機能及び範囲の様々な変更が実施されてもよい。従って、本明細書における詳細な説明は、限定ではなく、例示を目的として提示されるものに過ぎない。
という式を使用することにより、実行されてもよい。
Claims (22)
- オーディオ信号から正規化済みの音声活動検出特徴を取得する方法であって、
演算システムにおいて、オーディオ信号を時間フレームのシーケンスに分割するステップと、
前記時間フレームのそれぞれごとに前記オーディオ信号の1つ又は複数の音声活動検出特徴を演算するステップと、
前記時間フレームのそれぞれごとに前記オーディオ信号の前記1つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を演算するステップと、
前記時間フレームのそれぞれごとの前記オーディオ信号の前記1つ又は複数の音声活動検出特徴の前記最小及び最大値の前記ランニング推定値を比較することにより、前記1つ又は複数の音声活動検出特徴の入力範囲を演算するステップと、
1つ又は複数の正規化済みの音声活動検出特徴を取得するべく、前記時間フレームのそれぞれごとの前記オーディオ信号の前記1つ又は複数の音声活動検出特徴を前記入力範囲から1つ又は複数の望ましいターゲット範囲にマッピングするステップと、
を含む方法。 - 発話された音声データを示す前記オーディオ信号の前記1つ又は複数の特徴は、フル帯域エネルギー、低帯域エネルギー、第1及び基準マイクロフォンにおいて計測されたエネルギーの比率、分散値、スペクトル重心比率、スペクトル分散、スペクトル差の分散、スペクトルフラットネス、及びゼロ交差レートのうちの1つ又は複数を含む請求項1に記載の方法。
- 前記1つ又は複数の正規化済みの音声活動検出特徴は、発話された音声データの尤度の推定値を生成するべく、使用される請求項1に記載の方法。
- 発話/非発話2値識別子及び発話活動の尤度のうちの少なくとも1つを示す音声活動検出推定値を生成するべく、前記1つ又は複数の正規化済みの音声活動検出特徴を機械学習アルゴリズムに対して適用するステップを更に含む請求項1に記載の方法。
- 1つ又は複数の適応フィルタの適応レートを制御するべく、前記音声活動検出推定値を使用するステップを更に含む請求項4に記載の方法。
- 前記時間フレームは、前記時間フレームのシーケンス内においてオーバーラップしている請求項1に記載の方法。
- スムージング、量子化、及び閾値処理のうちの少なくとも1つを含む前記1つ又は複数の正規化済みの音声活動検出特徴を事後処理するステップを更に含む請求項1に記載の方法。
- 前記1つ又は複数の正規化済みの音声活動検出特徴は、ノイズ低減、適応フィルタリング、パワーレベル差の演算、及び非発話フレームの減衰のうちの1つ又は複数により、前記オーディオ信号を改善するべく使用される請求項1に記載の方法。
- 非音声データを実質的に含んでいない前記発話された音声データを有する浄化済みのオーディオ信号を生成するステップを更に含む請求項1に記載の方法。
- 前記1つ又は複数の正規化済みの音声活動検出特徴は、発話を検出するように機械学習アルゴリズムをトレーニングするべく使用される請求項1に記載の方法。
- 前記1つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を演算するステップは、非対称指数平均化を前記1つ又は複数の音声活動検出特徴に対して適用するステップを含む請求項1に記載の方法。
- スムージング済みの最小値推定値及びスムージング済みの最大値推定値のうちの1つの推定値の漸進的な変化及び迅速な変化のうちの1つを生成するべく選択された時定数に対応するようにスムージング係数を設定するステップを更に含む請求項11に記載の方法。
- 前記スムージング係数は、最大値推定値の連続的な更新が、相対的に大きな音声活動検出特徴値に対して迅速に応答し、且つ、相対的に小さな音声活動検出特徴値に応答して相対的に低速で減少するように、選択されている請求項12に記載の方法。
- 前記スムージング係数は、最小値推定値の連続的な更新が、相対的に小さな音声活動検出特徴値に対して迅速に応答し、且つ、相対的に大きな音声活動検出特徴値に応答して低速で増大するように、選択されている請求項12に記載の方法。
- 前記マッピングステップは、normalizedFeatureValue=2×(newFeatureValue-featureFloor)/(featureCeiling-featureFloor)-1という式に従って実行される請求項1に記載の方法。
- 前記マッピングステップは、normalizedFeatureValue=(newFeatureValue-featureFloor)/(featureCeiling-featureFloor)という式に従って実行される請求項1に記載の方法。
- 前記1つ又は複数の音声活動検出特徴の入力範囲の前記演算は、前記最大値の前記ランニング推定値から前記最小値の前記ランニング推定値を減算することにより、実行される請求項1に記載の方法。
- 音声活動検出特徴を正規化する方法であって、
オーディオ信号を時間フレームのシーケンスにセグメント化するステップと、
音声活動検出特徴のランニング最小及び最大値推定値を演算するステップと、
前記ランニング最小及び最大値推定値を比較することにより、入力範囲を演算するステップと、
前記音声活動検出特徴を前記入力範囲から1つ又は複数の望ましいターゲット範囲にマッピングすることにより、前記音声活動検出特徴を正規化するステップと、
を含む方法。 - ランニング最小及び最大値推定値を演算するステップは、前記ランニング最小及び最大値推定値のうちの少なくとも1つの推定値の方向的にバイアスされた変化レートを確立するように、スムージング係数を選択するステップを含む請求項18に記載の方法。
- 前記スムージング係数は、前記ランニング最大値推定値が、相対的に大きな最大値に対して相対的に迅速に応答し、且つ、相対的に小さな最大値に対して相対的に低速で応答するように、選択されている請求項19に記載の方法。
- 前記スムージング係数は、前記ランニング最小値推定値が、相対的に小さな最小値に対して相対的に迅速に応答し、且つ、相対的に大きな最小値に対して相対的に低速で応答するように、選択されている請求項19に記載の方法。
- オーディオ信号内の音声データを識別する方法を実行するコンピュータプログラムを保存するコンピュータ可読媒体であって、前記コンピュータ可読媒体は、コンピュータストレージ媒体と、前記コンピュータストレージ媒体上において保存されたコンピュータ実行可能命令と、を含んでおり、前記コンピュータ実行可能命令は、演算システムによって実行された際に、前記演算システムが、
複数の音声活動検出特徴を演算し、
前記音声活動検出特徴の最小及び最大値のランニング推定値を演算し、
前記最小及び最大値の前記ランニング推定値を比較することにより、前記音声活動検出特徴の入力範囲を演算し、
正規化済みの音声活動検出特徴を取得するべく、前記音声活動検出特徴を前記入力範囲から1つ又は複数の望ましいターゲット範囲にマッピングする、
ように構成されている、コンピュータ可読媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462056045P | 2014-09-26 | 2014-09-26 | |
US62/056,045 | 2014-09-26 | ||
US14/866,824 US9953661B2 (en) | 2014-09-26 | 2015-09-25 | Neural network voice activity detection employing running range normalization |
US14/866,824 | 2015-09-25 | ||
PCT/US2015/052519 WO2016049611A1 (en) | 2014-09-26 | 2015-09-26 | Neural network voice activity detection employing running range normalization |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017530409A true JP2017530409A (ja) | 2017-10-12 |
JP6694426B2 JP6694426B2 (ja) | 2020-05-13 |
Family
ID=55582142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017516763A Expired - Fee Related JP6694426B2 (ja) | 2014-09-26 | 2015-09-26 | ランニング範囲正規化を利用したニューラルネットワーク音声活動検出 |
Country Status (6)
Country | Link |
---|---|
US (2) | US9953661B2 (ja) |
EP (1) | EP3198592A4 (ja) |
JP (1) | JP6694426B2 (ja) |
KR (1) | KR102410392B1 (ja) |
CN (1) | CN107004409B (ja) |
WO (1) | WO2016049611A1 (ja) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9672841B2 (en) * | 2015-06-30 | 2017-06-06 | Zte Corporation | Voice activity detection method and method used for voice activity detection and apparatus thereof |
KR102494139B1 (ko) * | 2015-11-06 | 2023-01-31 | 삼성전자주식회사 | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 |
US9978397B2 (en) * | 2015-12-22 | 2018-05-22 | Intel Corporation | Wearer voice activity detection |
US10880833B2 (en) * | 2016-04-25 | 2020-12-29 | Sensory, Incorporated | Smart listening modes supporting quasi always-on listening |
US10242696B2 (en) | 2016-10-11 | 2019-03-26 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications |
US10475471B2 (en) * | 2016-10-11 | 2019-11-12 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications using a neural network |
KR101893789B1 (ko) * | 2016-10-27 | 2018-10-04 | 에스케이텔레콤 주식회사 | 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치 |
EP3373208A1 (en) * | 2017-03-08 | 2018-09-12 | Nxp B.V. | Method and system for facilitating reliable pattern detection |
US10224053B2 (en) * | 2017-03-24 | 2019-03-05 | Hyundai Motor Company | Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering |
KR20180111271A (ko) | 2017-03-31 | 2018-10-11 | 삼성전자주식회사 | 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치 |
US11501154B2 (en) | 2017-05-17 | 2022-11-15 | Samsung Electronics Co., Ltd. | Sensor transformation attention network (STAN) model |
US10929754B2 (en) * | 2017-06-06 | 2021-02-23 | Google Llc | Unified endpointer using multitask and multidomain learning |
US11304000B2 (en) * | 2017-08-04 | 2022-04-12 | Nippon Telegraph And Telephone Corporation | Neural network based signal processing device, neural network based signal processing method, and signal processing program |
KR102014384B1 (ko) | 2017-08-17 | 2019-08-26 | 국방과학연구소 | 보코더 유형 판별 장치 및 방법 |
US10504539B2 (en) * | 2017-12-05 | 2019-12-10 | Synaptics Incorporated | Voice activity detection systems and methods |
AU2019287569A1 (en) | 2018-06-14 | 2021-02-04 | Pindrop Security, Inc. | Deep neural network based speech enhancement |
US10460749B1 (en) * | 2018-06-28 | 2019-10-29 | Nuvoton Technology Corporation | Voice activity detection using vocal tract area information |
KR101992955B1 (ko) * | 2018-08-24 | 2019-06-25 | 에스케이텔레콤 주식회사 | 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치 |
US11527265B2 (en) | 2018-11-02 | 2022-12-13 | BriefCam Ltd. | Method and system for automatic object-aware video or audio redaction |
JP7407580B2 (ja) | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
JP7498560B2 (ja) * | 2019-01-07 | 2024-06-12 | シナプティクス インコーポレイテッド | システム及び方法 |
KR102237286B1 (ko) * | 2019-03-12 | 2021-04-07 | 울산과학기술원 | 음성 구간 검출장치 및 그 방법 |
TWI759591B (zh) * | 2019-04-01 | 2022-04-01 | 威聯通科技股份有限公司 | 語音增強方法及系統 |
CN113841195B (zh) * | 2019-04-16 | 2023-12-22 | 谷歌有限责任公司 | 联合端点确定和自动语音识别 |
KR102271357B1 (ko) | 2019-06-28 | 2021-07-01 | 국방과학연구소 | 보코더 유형 판별 방법 및 장치 |
KR20210010133A (ko) | 2019-07-19 | 2021-01-27 | 삼성전자주식회사 | 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들 |
US11830519B2 (en) | 2019-07-30 | 2023-11-28 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Multi-channel acoustic event detection and classification method |
KR20210017252A (ko) | 2019-08-07 | 2021-02-17 | 삼성전자주식회사 | 다채널 오디오 신호 처리 방법 및 전자 장치 |
US11823706B1 (en) * | 2019-10-14 | 2023-11-21 | Meta Platforms, Inc. | Voice activity detection in audio signal |
US11217262B2 (en) * | 2019-11-18 | 2022-01-04 | Google Llc | Adaptive energy limiting for transient noise suppression |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
TR202021840A1 (tr) * | 2020-12-26 | 2022-07-21 | Cankaya Ueniversitesi | Konuşma sinyali aktivite bölgelerinin belirlenmesini sağlayan yöntem. |
CN113192536B (zh) * | 2021-04-28 | 2023-07-28 | 北京达佳互联信息技术有限公司 | 语音质量检测模型的训练方法、语音质量检测方法及装置 |
CN113470621B (zh) * | 2021-08-23 | 2023-10-24 | 杭州网易智企科技有限公司 | 语音检测方法、装置、介质及电子设备 |
US11823707B2 (en) | 2022-01-10 | 2023-11-21 | Synaptics Incorporated | Sensitivity mode for an audio spotting system |
KR102516391B1 (ko) | 2022-09-02 | 2023-04-03 | 주식회사 액션파워 | 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법 |
KR20240055337A (ko) | 2022-10-20 | 2024-04-29 | 주식회사 이엠텍 | 복수의 음향 환경들을 고려하는 음향 신호 처리 장치 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10508389A (ja) * | 1994-07-18 | 1998-08-18 | 松下電器産業株式会社 | 音声検出装置 |
WO2001086633A1 (en) * | 2000-05-10 | 2001-11-15 | Multimedia Technologies Institute - Mti S.R.L. | Voice activity detection and end-point detection |
JP2002542692A (ja) * | 1999-04-19 | 2002-12-10 | モトローラ・インコーポレイテッド | 外部音声活動検出を用いたノイズ抑制 |
JP2005516247A (ja) * | 2002-01-24 | 2005-06-02 | モトローラ・インコーポレイテッド | 雑音環境のための音声活動検出器及び有効化器 |
JP2010541010A (ja) * | 2007-09-28 | 2010-12-24 | クゥアルコム・インコーポレイテッド | 複数マイクロホン音声アクティビティ検出器 |
US20120209601A1 (en) * | 2011-01-10 | 2012-08-16 | Aliphcom | Dynamic enhancement of audio (DAE) in headset systems |
JP2013515287A (ja) * | 2009-12-21 | 2013-05-02 | マインドスピード テクノロジーズ インコーポレイテッド | 音声帯域拡張方法及び音声帯域拡張システム |
US20130132076A1 (en) * | 2011-11-23 | 2013-05-23 | Creative Technology Ltd | Smart rejecter for keyboard click noise |
JP2013545136A (ja) * | 2010-10-25 | 2013-12-19 | クゥアルコム・インコーポレイテッド | 音声アクティビティ検出のための、システム、方法、および装置 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI114247B (fi) * | 1997-04-11 | 2004-09-15 | Nokia Corp | Menetelmä ja laite puheen tunnistamiseksi |
US6249757B1 (en) * | 1999-02-16 | 2001-06-19 | 3Com Corporation | System for detecting voice activity |
US6330532B1 (en) * | 1999-07-19 | 2001-12-11 | Qualcomm Incorporated | Method and apparatus for maintaining a target bit rate in a speech coder |
US20020123308A1 (en) * | 2001-01-09 | 2002-09-05 | Feltstrom Alberto Jimenez | Suppression of periodic interference in a communications system |
CN1181466C (zh) * | 2001-12-17 | 2004-12-22 | 中国科学院自动化研究所 | 基于子带能量和特征检测技术的语音信号端点检测方法 |
CA2420129A1 (en) * | 2003-02-17 | 2004-08-17 | Catena Networks, Canada, Inc. | A method for robustly detecting voice activity |
WO2005070130A2 (en) * | 2004-01-12 | 2005-08-04 | Voice Signal Technologies, Inc. | Speech recognition channel normalization utilizing measured energy values from speech utterance |
US7873114B2 (en) | 2007-03-29 | 2011-01-18 | Motorola Mobility, Inc. | Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate |
TWI467568B (zh) * | 2007-07-13 | 2015-01-01 | Dolby Lab Licensing Corp | 使用位準時變評估機率密度之時變音訊信號位準 |
CN101802910B (zh) * | 2007-09-12 | 2012-11-07 | 杜比实验室特许公司 | 利用话音清晰性的语音增强 |
US8223988B2 (en) * | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
WO2014062152A1 (en) * | 2012-10-15 | 2014-04-24 | Mh Acoustics, Llc | Noise-reducing directional microphone array |
WO2010046954A1 (ja) * | 2008-10-24 | 2010-04-29 | 三菱電機株式会社 | 雑音抑圧装置および音声復号化装置 |
US8340405B2 (en) * | 2009-01-13 | 2012-12-25 | Fuji Xerox Co., Ltd. | Systems and methods for scalable media categorization |
US8412525B2 (en) * | 2009-04-30 | 2013-04-02 | Microsoft Corporation | Noise robust speech classifier ensemble |
US8571231B2 (en) * | 2009-10-01 | 2013-10-29 | Qualcomm Incorporated | Suppressing noise in an audio signal |
CN102804261B (zh) * | 2009-10-19 | 2015-02-18 | 瑞典爱立信有限公司 | 用于语音编码器的方法和语音活动检测器 |
WO2012109384A1 (en) * | 2011-02-10 | 2012-08-16 | Dolby Laboratories Licensing Corporation | Combined suppression of noise and out - of - location signals |
US9384759B2 (en) * | 2012-03-05 | 2016-07-05 | Malaspina Labs (Barbados) Inc. | Voice activity detection and pitch estimation |
CN103325386B (zh) * | 2012-03-23 | 2016-12-21 | 杜比实验室特许公司 | 用于信号传输控制的方法和系统 |
US9305567B2 (en) * | 2012-04-23 | 2016-04-05 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US20150262574A1 (en) * | 2012-10-31 | 2015-09-17 | Nec Corporation | Expression classification device, expression classification method, dissatisfaction detection device, dissatisfaction detection method, and medium |
KR101716646B1 (ko) * | 2013-01-10 | 2017-03-15 | 한국전자통신연구원 | 국부이진패턴을 이용한 객체 검출 인식 방법 및 장치 |
CN103345923B (zh) * | 2013-07-26 | 2016-05-11 | 电子科技大学 | 一种基于稀疏表示的短语音说话人识别方法 |
US9984706B2 (en) * | 2013-08-01 | 2018-05-29 | Verint Systems Ltd. | Voice activity detection using a soft decision mechanism |
CN104424956B9 (zh) * | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
US9454975B2 (en) * | 2013-11-07 | 2016-09-27 | Nvidia Corporation | Voice trigger |
CN103578466B (zh) * | 2013-11-11 | 2016-02-10 | 清华大学 | 基于分数阶傅里叶变换的语音非语音检测方法 |
US9524735B2 (en) * | 2014-01-31 | 2016-12-20 | Apple Inc. | Threshold adaptation in two-channel noise estimation and voice activity detection |
-
2015
- 2015-09-25 US US14/866,824 patent/US9953661B2/en active Active
- 2015-09-26 EP EP15844365.5A patent/EP3198592A4/en not_active Withdrawn
- 2015-09-26 CN CN201580063710.1A patent/CN107004409B/zh active Active
- 2015-09-26 JP JP2017516763A patent/JP6694426B2/ja not_active Expired - Fee Related
- 2015-09-26 KR KR1020177011018A patent/KR102410392B1/ko active IP Right Grant
- 2015-09-26 WO PCT/US2015/052519 patent/WO2016049611A1/en active Application Filing
-
2018
- 2018-04-23 US US15/960,140 patent/US20180240472A1/en not_active Abandoned
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10508389A (ja) * | 1994-07-18 | 1998-08-18 | 松下電器産業株式会社 | 音声検出装置 |
JP2002542692A (ja) * | 1999-04-19 | 2002-12-10 | モトローラ・インコーポレイテッド | 外部音声活動検出を用いたノイズ抑制 |
WO2001086633A1 (en) * | 2000-05-10 | 2001-11-15 | Multimedia Technologies Institute - Mti S.R.L. | Voice activity detection and end-point detection |
JP2005516247A (ja) * | 2002-01-24 | 2005-06-02 | モトローラ・インコーポレイテッド | 雑音環境のための音声活動検出器及び有効化器 |
JP2010541010A (ja) * | 2007-09-28 | 2010-12-24 | クゥアルコム・インコーポレイテッド | 複数マイクロホン音声アクティビティ検出器 |
JP2013515287A (ja) * | 2009-12-21 | 2013-05-02 | マインドスピード テクノロジーズ インコーポレイテッド | 音声帯域拡張方法及び音声帯域拡張システム |
JP2013545136A (ja) * | 2010-10-25 | 2013-12-19 | クゥアルコム・インコーポレイテッド | 音声アクティビティ検出のための、システム、方法、および装置 |
US20120209601A1 (en) * | 2011-01-10 | 2012-08-16 | Aliphcom | Dynamic enhancement of audio (DAE) in headset systems |
US20130132076A1 (en) * | 2011-11-23 | 2013-05-23 | Creative Technology Ltd | Smart rejecter for keyboard click noise |
Also Published As
Publication number | Publication date |
---|---|
CN107004409B (zh) | 2021-01-29 |
KR20170060108A (ko) | 2017-05-31 |
EP3198592A4 (en) | 2018-05-16 |
US9953661B2 (en) | 2018-04-24 |
US20180240472A1 (en) | 2018-08-23 |
JP6694426B2 (ja) | 2020-05-13 |
EP3198592A1 (en) | 2017-08-02 |
KR102410392B1 (ko) | 2022-06-16 |
WO2016049611A1 (en) | 2016-03-31 |
US20160093313A1 (en) | 2016-03-31 |
CN107004409A (zh) | 2017-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6694426B2 (ja) | ランニング範囲正規化を利用したニューラルネットワーク音声活動検出 | |
US10504539B2 (en) | Voice activity detection systems and methods | |
US10127919B2 (en) | Determining noise and sound power level differences between primary and reference channels | |
JP5596039B2 (ja) | オーディオ信号における雑音推定の方法および装置 | |
KR100486736B1 (ko) | 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 | |
JP4842583B2 (ja) | 多感覚音声強調のための方法および装置 | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
KR101260938B1 (ko) | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 | |
KR101317813B1 (ko) | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 | |
Martín-Doñas et al. | Dual-channel DNN-based speech enhancement for smartphones | |
JP6190373B2 (ja) | オーディオ信号ノイズ減衰 | |
JP6265903B2 (ja) | 信号雑音減衰 | |
KR101335417B1 (ko) | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 | |
US10332541B2 (en) | Determining noise and sound power level differences between primary and reference channels | |
Tashev et al. | Unified framework for single channel speech enhancement | |
Zhang et al. | Incorporating phase-encoded spectrum masking into speaker-independent monaural source separation | |
JP5147012B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180919 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200218 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200316 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200417 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6694426 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |