JP2013525848A - ボイスアクティビティ検出 - Google Patents
ボイスアクティビティ検出 Download PDFInfo
- Publication number
- JP2013525848A JP2013525848A JP2013506344A JP2013506344A JP2013525848A JP 2013525848 A JP2013525848 A JP 2013525848A JP 2013506344 A JP2013506344 A JP 2013506344A JP 2013506344 A JP2013506344 A JP 2013506344A JP 2013525848 A JP2013525848 A JP 2013525848A
- Authority
- JP
- Japan
- Prior art keywords
- segment
- segments
- channel
- voice activity
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000694 effects Effects 0.000 title claims abstract description 247
- 238000001514 detection method Methods 0.000 title claims abstract description 137
- 230000005236 sound signal Effects 0.000 claims abstract description 100
- 230000007704 transition Effects 0.000 claims abstract description 84
- 238000000034 method Methods 0.000 claims description 152
- 238000012360 testing method Methods 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 5
- 206010019133 Hangover Diseases 0.000 description 41
- 238000004891 communication Methods 0.000 description 37
- 238000010586 diagram Methods 0.000 description 36
- 238000009499 grossing Methods 0.000 description 28
- 230000009467 reduction Effects 0.000 description 19
- 238000001994 activation Methods 0.000 description 18
- 230000004913 activation Effects 0.000 description 17
- 238000003491 array Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 10
- 230000001427 coherent effect Effects 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 230000009977 dual effect Effects 0.000 description 7
- 230000000873 masking effect Effects 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 101150093282 SG12 gene Proteins 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 239000010454 slate Substances 0.000 description 3
- 101100406487 Drosophila melanogaster Or47a gene Proteins 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 208000001992 Autosomal Dominant Optic Atrophy Diseases 0.000 description 1
- 206010011906 Death Diseases 0.000 description 1
- 239000009517 FM 100 Substances 0.000 description 1
- 241000385251 Hydrangea arborescens Species 0.000 description 1
- 101100229939 Mus musculus Gpsm1 gene Proteins 0.000 description 1
- 101100173585 Schizosaccharomyces pombe (strain 972 / ATCC 24843) fft1 gene Proteins 0.000 description 1
- 235000012139 Viburnum alnifolium Nutrition 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
Description
本特許出願は、2010年4月22日に出願され、本出願の譲受人に譲渡された「SYSTEMS, METHODS, AND APPARATUS FOR SPEECH FEATURE DETECTION」と題する仮出願第61/327,009号、代理人整理番号第100839P1号の優先権を主張する。
本開示は、音声信号の処理に関する。
以前は静かなオフィスまたは家庭環境で行われていた多くの活動が、今日では車、街路、またはカフェのような音響的に変動する状況で行われている。たとえば、ある人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。そのチャネルは、たとえば、モバイルワイヤレスハンドセットまたはヘッドセット、ウォーキートーキー、双方向無線、カーキット、または別の通信デバイスによって提供され得る。したがって、ユーザが他の人々に囲まれる環境で、人が集まる傾向のある場所で一般的に遭遇する種類の雑音成分を伴って、モバイルデバイス(たとえば、スマートフォン、ハンドセット、および/またはヘッドセット)を使用して、かなりの量のボイス通信が行われている。そのような雑音は、電話会話の遠端にいるユーザの気を散らしたり、いらいらさせたりする傾向がある。その上、多くの標準的な自動業務取引(たとえば、口座残高または株価の確認)はボイス認識ベースのデータ照会を採用しており、これらのシステムの精度は干渉雑音によって著しく妨げられることがある。
Claims (48)
- オーディオ信号を処理する方法であって、前記方法は、
前記オーディオ信号の第1の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると判断することと、
前記オーディオ信号中の前記第1の複数の連続セグメントの直後に発生する前記オーディオ信号の第2の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと判断することと、
前記第2の複数の連続セグメントのうち発生する第1のセグメントでない、前記第2の複数の連続セグメントのうちの1つの間に、前記オーディオ信号のボイスアクティビティ状態の遷移が発生することを検出することと、
前記第1の複数における各セグメントについて、および前記第2の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの1つを示す対応する値を有するボイスアクティビティ検出信号を生成することと
を備え、
前記第1の複数の連続セグメントの各々について、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの前に発生する前記第2の複数の連続セグメントの各々について、および前記第1の複数のうちの少なくとも1つのセグメントについて前記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの後に発生する前記第2の複数の連続セグメントの各々について、および前記オーディオ信号の前記音声アクティビティ状態の遷移が発生することを前記検出することに応答して、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティなしを示す、
方法。 - 前記方法が、前記第2の複数のセグメントのうちの前記1つの間の第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することを備え、
前記第2の複数のセグメントのうちの前記1つの間に前記遷移が発生することを前記検出することが、エネルギーの前記計算された時間導関数に基づく、請求項1に記載の方法。 - 前記遷移が発生することを前記検出することは、前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成することを含み、
前記遷移が発生することを前記検出することは、前記対応する周波数成分がアクティブであることを示す前記指示の数と第1のしきい値との間の関係に基づく、請求項2に記載の方法。 - 前記方法は、前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、
前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することと、
前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成することと、
(A)前記対応する周波数成分がアクティブであることを示す前記指示の数と、(B)前記第1のしきい値よりも高い第2のしきい値との間の関係に基づいて、前記セグメントの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生しないと判断することと
を備える、請求項3に記載の方法。 - 前記方法は、前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、
前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々について、時間に対するエネルギーの2次導関数を計算することと、
前記複数の異なる周波数成分の各々について、および時間に対するエネルギーの前記対応する計算された2次導関数に基づいて、前記周波数成分がインパルシブであるかどうかについての対応する指示を生成することと、
前記対応する周波数成分がインパルシブであることを示す前記指示の数としきい値との間の関係に基づいて、前記セグメントの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生しないと判断することと
を備える、請求項3に記載の方法。 - 前記オーディオ信号の前記第1の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると前記判断することが、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づき、
前記オーディオ信号の前記第2の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づく、請求項1に記載の方法。 - 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルのレベルと前記第2のチャネルのレベルとの間の差である、請求項6に記載の方法。
- 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルにおける信号のインスタンスと、前記セグメントの間の前記第2のチャネルにおける前記信号のインスタンスとの間の時間差である、請求項6に記載の方法。
- 前記第1の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると前記判断することが、前記セグメントの間の前記オーディオ信号の第1の複数の異なる周波数成分の各々について、前記第1のチャネルにおける前記周波数成分の位相と前記第2のチャネルにおける前記周波数成分の位相との間の差を計算することを備え、前記セグメントの間の前記第1のチャネルと前記セグメントの間の前記第2のチャネルとの間の前記差が、前記計算された位相差のうちの1つであり、
前記第2の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、前記セグメントの間の前記オーディオ信号の前記第1の複数の異なる周波数成分の各々について、前記第1のチャネルにおける前記周波数成分の位相と前記第2のチャネルにおける前記周波数成分の位相との間の差を計算することを備え、前記セグメントの間の前記第1のチャネルと前記セグメントの間の前記第2のチャネルとの間の前記差が、前記計算された位相差のうちの1つである、請求項6に記載の方法。 - 前記方法が、前記第2の複数のセグメントのうちの前記1つの間の前記第1のチャネルの第2の複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することを備え、
前記第2の複数のセグメントのうちの前記1つの間に前記遷移が発生することを前記検出することが、エネルギーの前記計算された時間導関数に基づき、
前記第1の複数の周波数成分を含む周波数帯域が、前記第2の複数の周波数成分を含む周波数帯域とは別個である、請求項9に記載の方法。 - 前記第1の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると前記判断することが、少なくとも前記複数の異なる周波数成分の到着方向の間のコヒーレンス度を示すコヒーレンシ測度の対応する値に基づき、前記値が、前記対応する複数の計算された位相差からの情報に基づき、
前記第2の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、少なくとも前記複数の異なる周波数成分の前記到着方向の間のコヒーレンス度を示す前記コヒーレンシ測度の対応する値に基づき、前記値が、前記対応する複数の計算された位相差からの情報に基づく、請求項9に記載の方法。 - オーディオ信号を処理するための装置であって、前記装置は、
前記オーディオ信号の第1の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると判断するための手段と、
前記オーディオ信号中の前記第1の複数の連続セグメントの直後に発生する前記オーディオ信号の第2の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと判断するための手段と、
前記第2の複数の連続セグメントのうちの1つの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生することを検出するための手段と、
前記第1の複数における各セグメントについて、および前記第2の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの1つを示す対応する値を有するボイスアクティビティ検出信号を生成するための手段と
を備え、
前記第1の複数の連続セグメントの各々について、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの前に発生する前記第2の複数の連続セグメントの各々について、および前記第1の複数のうちの少なくとも1つのセグメントについて前記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの後に発生する前記第2の複数の連続セグメントの各々について、および前記オーディオ信号の前記音声アクティビティ状態の遷移が発生することを前記検出することに応答して、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティなしを示す、
装置。 - 前記装置が、前記第2の複数のセグメントのうちの前記1つの間の第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するための手段を備え、
前記第2の複数のセグメントのうちの前記1つの間に前記遷移が発生することを検出するための前記手段が、エネルギーの前記計算された時間導関数に基づいて前記遷移を検出するように構成された、請求項12に記載の装置。 - 前記遷移が発生することを検出するための前記手段は、前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成するための手段を含み、
前記遷移が発生することを検出するための前記手段は、前記対応する周波数成分がアクティブであることを示す前記指示の数と第1のしきい値との間の関係に基づいて前記遷移を検出するように構成された、請求項13に記載の装置。 - 前記装置は、
前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するための手段と、
前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成するための手段と、
(A)前記対応する周波数成分がアクティブであることを示す前記指示の数と、(B)前記第1のしきい値よりも高い第2のしきい値との間の関係に基づいて、前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生しないと判断するための手段と
を備える、請求項14に記載の装置。 - 前記装置は、
前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々について時間に対するエネルギーの2次導関数を計算するための手段と、
前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの前記複数の異なる周波数成分の各々について、および時間に対するエネルギーの前記対応する計算された2次導関数に基づいて、前記周波数成分がインパルシブであるかどうかについての対応する指示を生成するための手段と、
前記対応する周波数成分がインパルシブであることを示す前記指示の数としきい値との間の関係に基づいて、前記オーディオ信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生しないと判断するための手段と
を備える、請求項14に記載の装置。 - 前記オーディオ信号の前記第1の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると判断するための前記手段が、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づいて前記判断することを実行するように構成され、
前記オーディオ信号の前記第2の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと判断するための前記手段が、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づいて前記判断することを実行するように構成された、請求項12に記載の装置。 - 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルのレベルと前記第2のチャネルのレベルとの間の差である、請求項17に記載の装置。
- 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルにおける信号のインスタンスと、前記セグメントの間の前記第2のチャネルにおける前記信号のインスタンスとの間の時間差である、請求項17に記載の装置。
- 前記セグメント中にボイスアクティビティが存在すると判断するための前記手段が、前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、および前記セグメントの間の前記オーディオ信号の第1の複数の異なる周波数成分の各々について、前記第1のチャネルにおける前記周波数成分の位相と前記第2のチャネルにおける前記周波数成分の位相との間の差を計算するための手段を備え、前記セグメントの間の前記第1のチャネルと前記セグメントの間の前記第2のチャネルとの間の前記差が、前記計算された位相差のうちの1つである、請求項17に記載の装置。
- 前記装置が、前記第2の複数のセグメントのうちの前記1つの間の前記第1のチャネルの第2の複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するための手段を備え、
前記第2の複数のセグメントのうちの前記1つの間に前記遷移が発生することを検出するための前記手段は、エネルギーの前記計算された時間導関数に基づいて、前記遷移が発生することを検出するように構成され、
前記第1の複数の周波数成分を含む周波数帯域が、前記第2の複数の周波数成分を含む周波数帯域とは別個である、請求項20に記載の装置。 - 前記第1の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると判断するための前記手段は、少なくとも前記複数の異なる周波数成分の到着方向の間のコヒーレンス度を示すコヒーレンシ測度の対応する値に基づいて、前記ボイスアクティビティが存在すると判断するように構成され、前記値が、前記対応する複数の計算された位相差からの情報に基づき、
前記第2の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと判断するための前記手段は、少なくとも前記複数の異なる周波数成分の前記到着方向の間のコヒーレンス度を示す前記コヒーレンシ測度の対応する値に基づいて、ボイスアクティビティが存在しないと判断するように構成され、前記値が、前記対応する複数の計算された位相差からの情報に基づく、請求項20に記載の装置。 - オーディオ信号を処理するための装置であって、前記装置は、
前記オーディオ信号の第1の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると判断し、
前記オーディオ信号中の前記第1の複数の連続セグメントの直後に発生する前記オーディオ信号の第2の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと判断する
ように構成された第1のボイスアクティビティ検出器と、
前記第2の複数の連続セグメントのうちの1つの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生することを検出するように構成された第2のボイスアクティビティ検出器と、
前記第1の複数における各セグメントについて、および前記第2の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの1つを示す対応する値を有するボイスアクティビティ検出信号を生成するように構成された信号発生器と
を備え、
前記第1の複数の連続セグメントの各々について、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの前に発生する前記第2の複数の連続セグメントの各々について、および前記第1の複数のうちの少なくとも1つのセグメントについて前記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの後に発生する前記第2の複数の連続セグメントの各々について、および前記オーディオ信号の前記音声アクティビティ状態の遷移が発生することを前記検出することに応答して、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティなしを示す、
装置。 - 前記装置が、前記第2の複数のセグメントのうちの前記1つの間の第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するように構成された計算器を備え、
前記第2のボイスアクティビティ検出器が、エネルギーの前記計算された時間導関数に基づいて前記遷移を検出するように構成された、請求項23に記載の装置。 - 前記第2のボイスアクティビティ検出器は、前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成するように構成されたコンパレータを含み、
前記第2のボイスアクティビティ検出器は、前記対応する周波数成分がアクティブであることを示す前記指示の数と第1のしきい値との間の関係に基づいて前記遷移を検出するように構成された、請求項24に記載の装置。 - 前記装置は、
マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するように構成された計算器と、
前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成するように構成されたコンパレータと
を備え、
前記第2のボイスアクティビティ検出器は、(A)前記対応する周波数成分がアクティブであることを示す前記指示の数と、(B)前記第1のしきい値よりも高い第2のしきい値との間の関係に基づいて、前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの間に前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生しないと判断するように構成された、
請求項25に記載の装置。 - 前記装置は、
前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々について時間に対するエネルギーの2次導関数を計算するように構成された計算器と、
前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの前記複数の異なる周波数成分の各々について、および時間に対するエネルギーの前記対応する計算された2次導関数に基づいて、前記周波数成分がインパルシブであるかどうかについての対応する指示を生成するように構成されたコンパレータと
を備え、
前記第2のボイスアクティビティ検出器は、前記対応する周波数成分がインパルシブであることを示す前記指示の数としきい値との間の関係に基づいて、前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生する前記セグメントの間に前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生しないと判断するように構成された、
請求項25に記載の装置。 - 前記第1のボイスアクティビティ検出器は、前記オーディオ信号の前記第1の複数の連続セグメントの各々について、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づいて、前記セグメント中にボイスアクティビティが存在すると判断するように構成され、
前記第1のボイスアクティビティ検出器は、前記オーディオ信号の前記第2の複数の連続セグメントの各々について、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づいて、前記セグメント中にボイスアクティビティが存在しないと判断するように構成された、請求項23に記載の装置。 - 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルのレベルと前記第2のチャネルのレベルとの間の差である、請求項28に記載の装置。
- 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルにおける信号のインスタンスと、前記セグメントの間の前記第2のチャネルにおける前記信号のインスタンスとの間の時間差である、請求項28に記載の装置。
- 前記第1のボイスアクティビティ検出器が、前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、および前記セグメントの間の前記マルチチャネル信号の第1の複数の異なる周波数成分の各々について、前記第1のチャネルにおける前記周波数成分の位相と前記第2のチャネルにおける前記周波数成分の位相との間の差を計算するように構成された計算器を含み、前記セグメントの間の前記第1のチャネルと前記セグメントの間の前記第2のチャネルとの間の前記差が、前記計算された位相差のうちの1つである、請求項28に記載の装置。
- 前記装置が、前記第2の複数のセグメントのうちの前記1つの間の前記第1のチャネルの第2の複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するように構成された計算器を備え、
前記第2のボイスアクティビティ検出器が、エネルギーの前記計算された時間導関数に基づいて、前記遷移が発生することを検出するように構成され、
前記第1の複数の周波数成分を含む周波数帯域が、前記第2の複数の周波数成分を含む周波数帯域とは別個である、請求項31に記載の装置。 - 前記第1のボイスアクティビティ検出器は、前記第1の複数のうちの各セグメントについて、少なくとも前記複数の異なる周波数成分の到着方向の間のコヒーレンス度を示すコヒーレンシ測度の対応する値に基づいて、前記セグメント中に前記ボイスアクティビティが存在すると判断するように構成され、前記値が、前記対応する複数の計算された位相差からの情報に基づき、
前記第1のボイスアクティビティ検出器は、前記第2の複数のうちの各セグメントについて、少なくとも前記複数の異なる周波数成分の前記到着方向の間のコヒーレンス度を示す前記コヒーレンシ測度の対応する値に基づいて、前記セグメント中にボイスアクティビティが存在しないと判断するように構成され、前記値が、前記対応する複数の計算された位相差からの情報に基づく、請求項31に記載の装置。 - 1つまたは複数のプロセッサによって実行されると、
マルチチャネル信号の第1の複数の連続セグメントの各々について、および前記セグメントの間の前記マルチチャネル信号の第1のチャネルと前記セグメントの間の前記マルチチャネル信号の第2のチャネルとの間の差に基づいて、前記セグメント中にボイスアクティビティが存在すると判断することと、
前記マルチチャネル信号中の前記第1の複数の連続セグメントの直後に発生する前記マルチチャネル信号の第2の複数の連続セグメントの各々について、および前記セグメントの間の前記マルチチャネル信号の第1のチャネルと前記セグメントの間の前記マルチチャネル信号の第2のチャネルとの間の差に基づいて、前記セグメント中にボイスアクティビティが存在しないと判断することと、
前記第2の複数の連続セグメントのうち発生する第1のセグメントでない、前記第2の複数の連続セグメントのうちの1つの間に、前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生することを検出することと、
前記第1の複数における各セグメントについて、および前記第2の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの1つを示す対応する値を有するボイスアクティビティ検出信号を生成することと
を前記1つまたは複数のプロセッサに行わせる機械実行可能命令を記憶する有形構造を有するコンピュータ可読媒体であって、
前記第1の複数の連続セグメントの各々について、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの前に発生する前記第2の複数の連続セグメントの各々について、および前記第1の複数のうちの少なくとも1つのセグメントについて前記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの後に発生する前記第2の複数の連続セグメントの各々について、および前記マルチチャネル信号の前記音声アクティビティ状態の遷移が発生することを前記検出することに応答して、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティなしを示す、
コンピュータ可読媒体。 - 前記命令が、前記1つまたは複数のプロセッサによって実行されると、前記第2の複数のセグメントのうちの前記1つの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することを前記1つまたは複数のプロセッサに行わせ、
前記第2の複数のセグメントのうちの前記1つの間に前記遷移が発生することを前記検出することが、エネルギーの前記計算された時間導関数に基づく、請求項34に記載の媒体。 - 前記遷移が発生することを前記検出することは、前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成することを含み、
前記遷移が発生することを前記検出することは、前記対応する周波数成分がアクティブであることを示す前記指示の数と第1のしきい値との間の関係に基づく、請求項35に記載の媒体。 - 前記命令は、前記1つまたは複数のプロセッサによって実行されると、前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、
前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することと、
前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成することと、
(A)前記対応する周波数成分がアクティブであることを示す前記指示の数と、(B)前記第1のしきい値よりも高い第2のしきい値との間の関係に基づいて、前記セグメントの間に前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生しないと判断することと
を前記1つまたは複数のプロセッサに行わせる、請求項36に記載の媒体。 - 前記命令は、前記1つまたは複数のプロセッサによって実行されると、前記マルチチャネル信号中の前記第1の複数の連続セグメントより前に発生するセグメントについて、
前記セグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々について、時間に対するエネルギーの2次導関数を計算することと、
前記複数の異なる周波数成分の各々について、および時間に対するエネルギーの前記対応する計算された2次導関数に基づいて、前記周波数成分がインパルシブであるかどうかについての対応する指示を生成することと、
前記対応する周波数成分がインパルシブであることを示す前記指示の数としきい値との間の関係に基づいて、前記セグメントの間に前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生しないと判断することと
を前記1つまたは複数のプロセッサに行わせる、請求項36に記載の媒体。 - 前記オーディオ信号の前記第1の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると前記判断することが、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づき、
前記オーディオ信号の前記第2の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、前記セグメントの間の前記オーディオ信号の第1のチャネルと前記セグメントの間の前記オーディオ信号の第2のチャネルとの間の差に基づく、請求項34に記載の媒体。 - 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルのレベルと前記第2のチャネルのレベルとの間の差である、請求項39に記載の媒体。
- 前記第1の複数のうちの各セグメントについて、および前記第2の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第1のチャネルにおける信号のインスタンスと、前記セグメントの間の前記第2のチャネルにおける前記信号のインスタンスとの間の時間差である、請求項39に記載の媒体。
- 前記第1の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると前記判断することが、前記セグメントの間の前記マルチチャネル信号の第1の複数の異なる周波数成分の各々について、前記第1のチャネルにおける前記周波数成分の位相と前記第2のチャネルにおける前記周波数成分の位相との間の差を計算することを備え、前記セグメントの間の前記第1のチャネルと前記セグメントの間の前記第2のチャネルとの間の前記差が、前記計算された位相差のうちの1つであり、
前記第2の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、前記セグメントの間の前記マルチチャネル信号の前記第1の複数の異なる周波数成分の各々について、前記第1のチャネルにおける前記周波数成分の位相と前記第2のチャネルにおける前記周波数成分の位相との間の差を計算することを備え、前記セグメントの間の前記第1のチャネルと前記セグメントの間の前記第2のチャネルとの間の前記差が、前記計算された位相差のうちの1つである、請求項39に記載の媒体。 - 前記命令が、1つまたは複数のプロセッサによって実行されると、前記第2の複数のセグメントのうちの前記1つの間の前記第1のチャネルの第2の複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することを前記1つまたは複数のプロセッサに行わせ、
前記第2の複数のセグメントのうちの前記1つの間に前記遷移が発生することを前記検出することが、エネルギーの前記計算された時間導関数に基づき、
前記第1の複数の周波数成分を含む周波数帯域が、前記第2の複数の周波数成分を含む周波数帯域とは別個である、請求項42に記載の媒体。 - 前記第1の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると前記判断することが、少なくとも前記複数の異なる周波数成分の到着方向の間のコヒーレンス度を示すコヒーレンシ測度の対応する値に基づき、前記値が、前記対応する複数の計算された位相差からの情報に基づき、
前記第2の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、少なくとも前記複数の異なる周波数成分の前記到着方向の間のコヒーレンス度を示す前記コヒーレンシ測度の対応する値に基づき、前記値が、前記対応する複数の計算された位相差からの情報に基づく、請求項42に記載の媒体。 - 前記方法が、
前記第1および第2の複数のセグメントのうちの一方のセグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することと、
前記第1および第2の複数のうちの一方の前記セグメントについてのボイスアクティビティ検出指示を生成することと
を備え、
前記ボイスアクティビティ検出指示を前記生成することが、前記セグメントについてのテスト統計値の値をしきい値の値と比較することを含み、
前記ボイスアクティビティ検出指示を前記生成することが、エネルギーの前記計算された複数の時間導関数に基づいて、前記テスト統計値と前記しきい値との間の関係を修正することを含み、
前記第1および第2の複数のうちの一方の前記セグメントについての前記ボイスアクティビティ検出信号の値が、前記ボイスアクティビティ検出指示に基づく、
請求項1に記載の方法。 - 前記装置が、
前記第1および第2の複数のセグメントのうちの一方のセグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するための手段と、
前記第1および第2の複数のうちの一方の前記セグメントについてのボイスアクティビティ検出指示を生成するための手段と
を備え、
前記ボイスアクティビティ検出指示を生成するための前記手段が、前記セグメントについてのテスト統計値の値をしきい値と比較するための手段を含み、
前記ボイスアクティビティ検出指示を生成するための前記手段が、エネルギーの前記計算された複数の時間導関数に基づいて、前記テスト統計値と前記しきい値との間の関係を修正するための手段を含み、
前記第1および第2の複数のうちの一方の前記セグメントについての前記ボイスアクティビティ検出信号の値が、前記ボイスアクティビティ検出指示に基づく、
請求項12に記載の装置。 - 前記装置が、
前記第1および第2の複数のセグメントのうちの一方のセグメントの間の前記第1のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するように構成された第3のボイスアクティビティ検出器と、
前記第1および第2の複数のうちの一方の前記セグメントについてのテスト統計値の値をしきい値と比較することの結果に基づいて、前記セグメントについてのボイスアクティビティ検出指示を生成するように構成された第4のボイスアクティビティ検出器と
を備え、
前記第4のボイスアクティビティ検出器が、エネルギーの前記計算された複数の時間導関数に基づいて、前記テスト統計値と前記しきい値との間の関係を修正するように構成され、
前記第1および第2の複数のうちの一方の前記セグメントについての前記ボイスアクティビティ検出信号の値が、前記ボイスアクティビティ検出指示に基づく、
請求項23に記載の装置。 - 前記第4のボイスアクティビティ検出器が前記第1のボイスアクティビティ検出器であり、
前記セグメント中にボイスアクティビティが存在するかまたは存在しないと前記判断することが、前記ボイスアクティビティ検出指示を生成することを含む、請求項47に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US32700910P | 2010-04-22 | 2010-04-22 | |
US61/327,009 | 2010-04-22 | ||
PCT/US2011/033654 WO2011133924A1 (en) | 2010-04-22 | 2011-04-22 | Voice activity detection |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013525848A true JP2013525848A (ja) | 2013-06-20 |
JP5575977B2 JP5575977B2 (ja) | 2014-08-20 |
Family
ID=44278818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013506344A Expired - Fee Related JP5575977B2 (ja) | 2010-04-22 | 2011-04-22 | ボイスアクティビティ検出 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9165567B2 (ja) |
EP (1) | EP2561508A1 (ja) |
JP (1) | JP5575977B2 (ja) |
KR (1) | KR20140026229A (ja) |
CN (1) | CN102884575A (ja) |
WO (1) | WO2011133924A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014016377A (ja) * | 2012-07-05 | 2014-01-30 | Oki Electric Ind Co Ltd | 音声信号処理装置、方法及びプログラム |
JP2014056112A (ja) * | 2012-09-12 | 2014-03-27 | Oki Electric Ind Co Ltd | 音声信号処理装置、方法及びプログラム |
JP2018189985A (ja) * | 2018-08-02 | 2018-11-29 | 株式会社東芝 | 電子機器および電子機器の制御方法 |
JP2019204074A (ja) * | 2018-05-21 | 2019-11-28 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話方法、装置及びシステム |
Families Citing this family (130)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007147077A2 (en) | 2006-06-14 | 2007-12-21 | Personics Holdings Inc. | Earguard monitoring system |
WO2008008730A2 (en) | 2006-07-08 | 2008-01-17 | Personics Holdings Inc. | Personal audio assistant device and method |
US11450331B2 (en) | 2006-07-08 | 2022-09-20 | Staton Techiya, Llc | Personal audio assistant device and method |
US8917894B2 (en) | 2007-01-22 | 2014-12-23 | Personics Holdings, LLC. | Method and device for acute sound detection and reproduction |
WO2008095167A2 (en) | 2007-02-01 | 2008-08-07 | Personics Holdings Inc. | Method and device for audio recording |
US11750965B2 (en) | 2007-03-07 | 2023-09-05 | Staton Techiya, Llc | Acoustic dampening compensation system |
WO2008124786A2 (en) | 2007-04-09 | 2008-10-16 | Personics Holdings Inc. | Always on headwear recording system |
US11317202B2 (en) | 2007-04-13 | 2022-04-26 | Staton Techiya, Llc | Method and device for voice operated control |
US10194032B2 (en) | 2007-05-04 | 2019-01-29 | Staton Techiya, Llc | Method and apparatus for in-ear canal sound suppression |
US11683643B2 (en) | 2007-05-04 | 2023-06-20 | Staton Techiya Llc | Method and device for in ear canal echo suppression |
US11856375B2 (en) | 2007-05-04 | 2023-12-26 | Staton Techiya Llc | Method and device for in-ear echo suppression |
US10009677B2 (en) | 2007-07-09 | 2018-06-26 | Staton Techiya, Llc | Methods and mechanisms for inflation |
US8488799B2 (en) | 2008-09-11 | 2013-07-16 | Personics Holdings Inc. | Method and system for sound monitoring over a network |
US8600067B2 (en) | 2008-09-19 | 2013-12-03 | Personics Holdings Inc. | Acoustic sealing analysis system |
US9129291B2 (en) | 2008-09-22 | 2015-09-08 | Personics Holdings, Llc | Personalized sound management and method |
US8554350B2 (en) | 2008-10-15 | 2013-10-08 | Personics Holdings Inc. | Device and method to reduce ear wax clogging of acoustic ports, hearing aid sealing system, and feedback reduction system |
WO2010094033A2 (en) | 2009-02-13 | 2010-08-19 | Personics Holdings Inc. | Earplug and pumping systems |
US20110288860A1 (en) * | 2010-05-20 | 2011-11-24 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair |
EP2586216A1 (en) | 2010-06-26 | 2013-05-01 | Personics Holdings, Inc. | Method and devices for occluding an ear canal having a predetermined filter characteristic |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
EP3493205B1 (en) | 2010-12-24 | 2020-12-23 | Huawei Technologies Co., Ltd. | Method and apparatus for adaptively detecting a voice activity in an input audio signal |
EP2494545A4 (en) * | 2010-12-24 | 2012-11-21 | Huawei Tech Co Ltd | METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES |
CN102971789B (zh) * | 2010-12-24 | 2015-04-15 | 华为技术有限公司 | 用于执行话音活动检测的方法和设备 |
US9264804B2 (en) * | 2010-12-29 | 2016-02-16 | Telefonaktiebolaget L M Ericsson (Publ) | Noise suppressing method and a noise suppressor for applying the noise suppressing method |
CN103688245A (zh) | 2010-12-30 | 2014-03-26 | 安比恩特兹公司 | 利用一群数据获取装置进行信息处理 |
KR20120080409A (ko) * | 2011-01-07 | 2012-07-17 | 삼성전자주식회사 | 잡음 구간 판별에 의한 잡음 추정 장치 및 방법 |
US10356532B2 (en) | 2011-03-18 | 2019-07-16 | Staton Techiya, Llc | Earpiece and method for forming an earpiece |
CN102740215A (zh) * | 2011-03-31 | 2012-10-17 | Jvc建伍株式会社 | 声音输入装置、通信装置、及声音输入装置的动作方法 |
TWI606441B (zh) | 2011-05-13 | 2017-11-21 | 三星電子股份有限公司 | 解碼裝置 |
US10362381B2 (en) | 2011-06-01 | 2019-07-23 | Staton Techiya, Llc | Methods and devices for radio frequency (RF) mitigation proximate the ear |
US8909524B2 (en) * | 2011-06-07 | 2014-12-09 | Analog Devices, Inc. | Adaptive active noise canceling for handset |
JP5817366B2 (ja) * | 2011-09-12 | 2015-11-18 | 沖電気工業株式会社 | 音声信号処理装置、方法及びプログラム |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
US8838445B1 (en) * | 2011-10-10 | 2014-09-16 | The Boeing Company | Method of removing contamination in acoustic noise measurements |
US9857451B2 (en) | 2012-04-13 | 2018-01-02 | Qualcomm Incorporated | Systems and methods for mapping a source location |
US20130282372A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
WO2014039026A1 (en) | 2012-09-04 | 2014-03-13 | Personics Holdings, Inc. | Occlusion device capable of occluding an ear canal |
JP6098149B2 (ja) * | 2012-12-12 | 2017-03-22 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
JP2014123011A (ja) * | 2012-12-21 | 2014-07-03 | Sony Corp | 雑音検出装置および方法、並びに、プログラム |
US10043535B2 (en) | 2013-01-15 | 2018-08-07 | Staton Techiya, Llc | Method and device for spectral expansion for an audio signal |
MX346945B (es) * | 2013-01-29 | 2017-04-06 | Fraunhofer Ges Forschung | Aparato y metodo para generar una señal de refuerzo de frecuencia mediante una operacion de limitacion de energia. |
US9454958B2 (en) * | 2013-03-07 | 2016-09-27 | Microsoft Technology Licensing, Llc | Exploiting heterogeneous data in deep neural network-based speech recognition systems |
US9830360B1 (en) * | 2013-03-12 | 2017-11-28 | Google Llc | Determining content classifications using feature frequency |
US10008198B2 (en) * | 2013-03-28 | 2018-06-26 | Korea Advanced Institute Of Science And Technology | Nested segmentation method for speech recognition based on sound processing of brain |
US11170089B2 (en) | 2013-08-22 | 2021-11-09 | Staton Techiya, Llc | Methods and systems for a voice ID verification database and service in social networking and commercial business transactions |
CN104424956B9 (zh) * | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
US9570093B2 (en) * | 2013-09-09 | 2017-02-14 | Huawei Technologies Co., Ltd. | Unvoiced/voiced decision for speech processing |
US9167082B2 (en) | 2013-09-22 | 2015-10-20 | Steven Wayne Goldstein | Methods and systems for voice augmented caller ID / ring tone alias |
US10405163B2 (en) * | 2013-10-06 | 2019-09-03 | Staton Techiya, Llc | Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices |
US10045135B2 (en) | 2013-10-24 | 2018-08-07 | Staton Techiya, Llc | Method and device for recognition and arbitration of an input connection |
US9147397B2 (en) * | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
US10043534B2 (en) | 2013-12-23 | 2018-08-07 | Staton Techiya, Llc | Method and device for spectral expansion for an audio signal |
US8843369B1 (en) * | 2013-12-27 | 2014-09-23 | Google Inc. | Speech endpointing based on voice profile |
US9607613B2 (en) | 2014-04-23 | 2017-03-28 | Google Inc. | Speech endpointing based on word comparisons |
US9729975B2 (en) * | 2014-06-20 | 2017-08-08 | Natus Medical Incorporated | Apparatus for testing directionality in hearing instruments |
US10360926B2 (en) * | 2014-07-10 | 2019-07-23 | Analog Devices Global Unlimited Company | Low-complexity voice activity detection |
CN105261375B (zh) | 2014-07-18 | 2018-08-31 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
CN105472092A (zh) * | 2014-07-29 | 2016-04-06 | 小米科技有限责任公司 | 通话控制方法、装置及移动终端 |
CN104134440B (zh) * | 2014-07-31 | 2018-05-08 | 百度在线网络技术(北京)有限公司 | 用于便携式终端的语音检测方法和语音检测装置 |
JP6275606B2 (ja) * | 2014-09-17 | 2018-02-07 | 株式会社東芝 | 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム |
US9947318B2 (en) * | 2014-10-03 | 2018-04-17 | 2236008 Ontario Inc. | System and method for processing an audio signal captured from a microphone |
US10163453B2 (en) | 2014-10-24 | 2018-12-25 | Staton Techiya, Llc | Robust voice activity detector system for use with an earphone |
US10413240B2 (en) | 2014-12-10 | 2019-09-17 | Staton Techiya, Llc | Membrane and balloon systems and designs for conduits |
US10242690B2 (en) | 2014-12-12 | 2019-03-26 | Nuance Communications, Inc. | System and method for speech enhancement using a coherent to diffuse sound ratio |
TWI579835B (zh) * | 2015-03-19 | 2017-04-21 | 絡達科技股份有限公司 | 音效增益方法 |
US10515301B2 (en) | 2015-04-17 | 2019-12-24 | Microsoft Technology Licensing, Llc | Small-footprint deep neural network |
US9984154B2 (en) * | 2015-05-01 | 2018-05-29 | Morpho Detection, Llc | Systems and methods for analyzing time series data based on event transitions |
US10709388B2 (en) | 2015-05-08 | 2020-07-14 | Staton Techiya, Llc | Biometric, physiological or environmental monitoring using a closed chamber |
US10418016B2 (en) | 2015-05-29 | 2019-09-17 | Staton Techiya, Llc | Methods and devices for attenuating sound in a conduit or chamber |
CN106303837B (zh) * | 2015-06-24 | 2019-10-18 | 联芯科技有限公司 | 双麦克风的风噪检测及抑制方法、系统 |
US9734845B1 (en) * | 2015-06-26 | 2017-08-15 | Amazon Technologies, Inc. | Mitigating effects of electronic audio sources in expression detection |
US10242689B2 (en) * | 2015-09-17 | 2019-03-26 | Intel IP Corporation | Position-robust multiple microphone noise estimation techniques |
KR101942521B1 (ko) | 2015-10-19 | 2019-01-28 | 구글 엘엘씨 | 음성 엔드포인팅 |
US10269341B2 (en) | 2015-10-19 | 2019-04-23 | Google Llc | Speech endpointing |
KR20170051856A (ko) * | 2015-11-02 | 2017-05-12 | 주식회사 아이티매직 | 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치 |
CN105609118B (zh) * | 2015-12-30 | 2020-02-07 | 生迪智慧科技有限公司 | 语音检测方法及装置 |
US10616693B2 (en) | 2016-01-22 | 2020-04-07 | Staton Techiya Llc | System and method for efficiency among devices |
CN107305774B (zh) * | 2016-04-22 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 语音检测方法和装置 |
WO2017205558A1 (en) * | 2016-05-25 | 2017-11-30 | Smartear, Inc | In-ear utility device having dual microphones |
US10045130B2 (en) | 2016-05-25 | 2018-08-07 | Smartear, Inc. | In-ear utility device having voice recognition |
US20170347177A1 (en) | 2016-05-25 | 2017-11-30 | Smartear, Inc. | In-Ear Utility Device Having Sensors |
WO2017202680A1 (en) * | 2016-05-26 | 2017-11-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for voice or sound activity detection for spatial audio |
CN107564544A (zh) * | 2016-06-30 | 2018-01-09 | 展讯通信(上海)有限公司 | 语音活动侦测方法及装置 |
EP3290942B1 (en) | 2016-08-31 | 2019-03-13 | Rohde & Schwarz GmbH & Co. KG | A method and apparatus for detection of a signal |
DK3300078T3 (da) * | 2016-09-26 | 2021-02-15 | Oticon As | Stemmeaktivitetsdetektionsenhed og en høreanordning, der omfatter en stemmeaktivitetsdetektionsenhed |
US10242696B2 (en) * | 2016-10-11 | 2019-03-26 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications |
CN106535045A (zh) * | 2016-11-30 | 2017-03-22 | 中航华东光电(上海)有限公司 | 喉头送话器音频增强处理模块 |
US9916840B1 (en) * | 2016-12-06 | 2018-03-13 | Amazon Technologies, Inc. | Delay estimation for acoustic echo cancellation |
US10366708B2 (en) * | 2017-03-20 | 2019-07-30 | Bose Corporation | Systems and methods of detecting speech activity of headphone user |
US10224053B2 (en) * | 2017-03-24 | 2019-03-05 | Hyundai Motor Company | Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering |
US10410634B2 (en) | 2017-05-18 | 2019-09-10 | Smartear, Inc. | Ear-borne audio device conversation recording and compressed data transmission |
US10929754B2 (en) | 2017-06-06 | 2021-02-23 | Google Llc | Unified endpointer using multitask and multidomain learning |
WO2018226779A1 (en) | 2017-06-06 | 2018-12-13 | Google Llc | End of query detection |
CN107331386B (zh) * | 2017-06-26 | 2020-07-21 | 上海智臻智能网络科技股份有限公司 | 音频信号的端点检测方法、装置、处理系统及计算机设备 |
US10582285B2 (en) | 2017-09-30 | 2020-03-03 | Smartear, Inc. | Comfort tip with pressure relief valves and horn |
CN109686378B (zh) * | 2017-10-13 | 2021-06-08 | 华为技术有限公司 | 语音处理方法和终端 |
US10405082B2 (en) | 2017-10-23 | 2019-09-03 | Staton Techiya, Llc | Automatic keyword pass-through system |
CN109859744B (zh) * | 2017-11-29 | 2021-01-19 | 宁波方太厨具有限公司 | 一种应用于吸油烟机中的语音端点检测方法 |
CN109859749A (zh) | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 一种语音信号识别方法和装置 |
CN108053842B (zh) * | 2017-12-13 | 2021-09-14 | 电子科技大学 | 基于图像识别的短波语音端点检测方法 |
US10885907B2 (en) * | 2018-02-14 | 2021-01-05 | Cirrus Logic, Inc. | Noise reduction system and method for audio device with multiple microphones |
US11638084B2 (en) | 2018-03-09 | 2023-04-25 | Earsoft, Llc | Eartips and earphone devices, and systems and methods therefor |
US11607155B2 (en) | 2018-03-10 | 2023-03-21 | Staton Techiya, Llc | Method to estimate hearing impairment compensation function |
US10817252B2 (en) | 2018-03-10 | 2020-10-27 | Staton Techiya, Llc | Earphone software and hardware |
US10332543B1 (en) * | 2018-03-12 | 2019-06-25 | Cypress Semiconductor Corporation | Systems and methods for capturing noise for pattern recognition processing |
US10951994B2 (en) | 2018-04-04 | 2021-03-16 | Staton Techiya, Llc | Method to acquire preferred dynamic range function for speech enhancement |
US11341987B2 (en) | 2018-04-19 | 2022-05-24 | Semiconductor Components Industries, Llc | Computationally efficient speech classifier and related methods |
US11488590B2 (en) | 2018-05-09 | 2022-11-01 | Staton Techiya Llc | Methods and systems for processing, storing, and publishing data collected by an in-ear device |
US11122354B2 (en) | 2018-05-22 | 2021-09-14 | Staton Techiya, Llc | Hearing sensitivity acquisition methods and devices |
US11032664B2 (en) | 2018-05-29 | 2021-06-08 | Staton Techiya, Llc | Location based audio signal message processing |
US11240609B2 (en) | 2018-06-22 | 2022-02-01 | Semiconductor Components Industries, Llc | Music classifier and related methods |
US10878812B1 (en) * | 2018-09-26 | 2020-12-29 | Amazon Technologies, Inc. | Determining devices to respond to user requests |
US10789941B2 (en) * | 2018-09-28 | 2020-09-29 | Intel Corporation | Acoustic event detector with reduced resource consumption |
CN109285563B (zh) * | 2018-10-15 | 2022-05-06 | 华为技术有限公司 | 在线翻译过程中的语音数据处理方法及装置 |
CN113348503B (zh) | 2019-01-29 | 2024-08-06 | 谷歌有限责任公司 | 使用结构化音频输出检测回放和/或适应无线扬声器中的未对准的回放 |
CN110070885B (zh) * | 2019-02-28 | 2021-12-24 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
EP3800640B1 (en) * | 2019-06-21 | 2024-10-16 | Shenzhen Goodix Technology Co., Ltd. | Voice detection method, voice detection device, voice processing chip and electronic apparatus |
CN110753297B (zh) * | 2019-09-27 | 2021-06-11 | 广州励丰文化科技股份有限公司 | 一种音频信号的混合处理方法及处理装置 |
WO2021148342A1 (en) | 2020-01-21 | 2021-07-29 | Dolby International Ab | Noise floor estimation and noise reduction |
US11335361B2 (en) * | 2020-04-24 | 2022-05-17 | Universal Electronics Inc. | Method and apparatus for providing noise suppression to an intelligent personal assistant |
CN111627453B (zh) * | 2020-05-13 | 2024-02-09 | 广州国音智能科技有限公司 | 公安语音信息管理方法、装置、设备及计算机存储介质 |
US11776562B2 (en) | 2020-05-29 | 2023-10-03 | Qualcomm Incorporated | Context-aware hardware-based voice activity detection |
WO2021253235A1 (zh) * | 2020-06-16 | 2021-12-23 | 华为技术有限公司 | 语音活动检测方法和装置 |
CN111816216A (zh) * | 2020-08-25 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 语音活性检测方法和装置 |
US11783809B2 (en) * | 2020-10-08 | 2023-10-10 | Qualcomm Incorporated | User voice activity detection using dynamic classifier |
TR202021840A1 (tr) * | 2020-12-26 | 2022-07-21 | Cankaya Ueniversitesi | Konuşma sinyali aktivite bölgelerinin belirlenmesini sağlayan yöntem. |
TW202226230A (zh) * | 2020-12-29 | 2022-07-01 | 新加坡商創新科技有限公司 | 將麥克風信號靜音和取消靜音之方法 |
GB2606366B (en) * | 2021-05-05 | 2023-10-18 | Waves Audio Ltd | Self-activated speech enhancement |
US12094488B2 (en) * | 2022-10-22 | 2024-09-17 | SiliconIntervention Inc. | Low power voice activity detector |
CN116895281B (zh) * | 2023-09-11 | 2023-11-14 | 归芯科技(深圳)有限公司 | 基于能量的语音激活检测方法、装置及芯片 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03211599A (ja) * | 1989-11-29 | 1991-09-17 | Communications Satellite Corp <Comsat> | 4.8kbpsの情報伝送速度を有する音声符号化/復号化器 |
JPH08314497A (ja) * | 1995-05-23 | 1996-11-29 | Nec Corp | 無音圧縮音声符号化復号化装置 |
US20020172364A1 (en) * | 2000-12-19 | 2002-11-21 | Anthony Mauro | Discontinuous transmission (DTX) controller system and method |
JP2003076394A (ja) * | 2001-08-31 | 2003-03-14 | Fujitsu Ltd | 音声符号変換方法及び装置 |
US20060217973A1 (en) * | 2005-03-24 | 2006-09-28 | Mindspeed Technologies, Inc. | Adaptive voice mode extension for a voice activity detector |
JP2009545778A (ja) * | 2006-07-31 | 2009-12-24 | クゥアルコム・インコーポレイテッド | 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置 |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
US5689615A (en) | 1996-01-22 | 1997-11-18 | Rockwell International Corporation | Usage of voice activity detection for efficient coding of speech |
US5774849A (en) | 1996-01-22 | 1998-06-30 | Rockwell International Corporation | Method and apparatus for generating frame voicing decisions of an incoming speech signal |
DE69716266T2 (de) | 1996-07-03 | 2003-06-12 | British Telecommunications P.L.C., London | Sprachaktivitätsdetektor |
WO2000046789A1 (fr) * | 1999-02-05 | 2000-08-10 | Fujitsu Limited | Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son |
JP3789246B2 (ja) | 1999-02-25 | 2006-06-21 | 株式会社リコー | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 |
US6570986B1 (en) | 1999-08-30 | 2003-05-27 | Industrial Technology Research Institute | Double-talk detector |
US6535851B1 (en) | 2000-03-24 | 2003-03-18 | Speechworks, International, Inc. | Segmentation approach for speech recognition systems |
KR100367700B1 (ko) | 2000-11-22 | 2003-01-10 | 엘지전자 주식회사 | 음성부호화기의 유/무성음정보 추정방법 |
US6850887B2 (en) | 2001-02-28 | 2005-02-01 | International Business Machines Corporation | Speech recognition in noisy environments |
US7171357B2 (en) | 2001-03-21 | 2007-01-30 | Avaya Technology Corp. | Voice-activity detection using energy ratios and periodicity |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
GB2379148A (en) | 2001-08-21 | 2003-02-26 | Mitel Knowledge Corp | Voice activity detection |
FR2833103B1 (fr) * | 2001-12-05 | 2004-07-09 | France Telecom | Systeme de detection de parole dans le bruit |
GB2384670B (en) * | 2002-01-24 | 2004-02-18 | Motorola Inc | Voice activity detector and validator for noisy environments |
US7024353B2 (en) | 2002-08-09 | 2006-04-04 | Motorola, Inc. | Distributed speech recognition with back-end voice activity detection apparatus and method |
US7146315B2 (en) * | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
CA2420129A1 (en) * | 2003-02-17 | 2004-08-17 | Catena Networks, Canada, Inc. | A method for robustly detecting voice activity |
JP3963850B2 (ja) * | 2003-03-11 | 2007-08-22 | 富士通株式会社 | 音声区間検出装置 |
EP1531478A1 (en) * | 2003-11-12 | 2005-05-18 | Sony International (Europe) GmbH | Apparatus and method for classifying an audio signal |
US7925510B2 (en) | 2004-04-28 | 2011-04-12 | Nuance Communications, Inc. | Componentized voice server with selectable internal and external speech detectors |
FI20045315A (fi) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
KR100677396B1 (ko) | 2004-11-20 | 2007-02-02 | 엘지전자 주식회사 | 음성인식장치의 음성구간 검출방법 |
US8219391B2 (en) | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US8280730B2 (en) | 2005-05-25 | 2012-10-02 | Motorola Mobility Llc | Method and apparatus of increasing speech intelligibility in noisy environments |
US8315857B2 (en) | 2005-05-27 | 2012-11-20 | Audience, Inc. | Systems and methods for audio signal analysis and modification |
US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
US20070036342A1 (en) * | 2005-08-05 | 2007-02-15 | Boillot Marc A | Method and system for operation of a voice activity detector |
WO2007028250A2 (en) | 2005-09-09 | 2007-03-15 | Mcmaster University | Method and device for binaural signal enhancement |
US8345890B2 (en) | 2006-01-05 | 2013-01-01 | Audience, Inc. | System and method for utilizing inter-microphone level differences for speech enhancement |
US8194880B2 (en) | 2006-01-30 | 2012-06-05 | Audience, Inc. | System and method for utilizing omni-directional microphones for speech enhancement |
US8032370B2 (en) * | 2006-05-09 | 2011-10-04 | Nokia Corporation | Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes |
US8311814B2 (en) * | 2006-09-19 | 2012-11-13 | Avaya Inc. | Efficient voice activity detector to detect fixed power signals |
EP2089877B1 (en) | 2006-11-16 | 2010-04-07 | International Business Machines Corporation | Voice activity detection system and method |
US8041043B2 (en) | 2007-01-12 | 2011-10-18 | Fraunhofer-Gessellschaft Zur Foerderung Angewandten Forschung E.V. | Processing microphone generated signals to generate surround sound |
JP4854533B2 (ja) | 2007-01-30 | 2012-01-18 | 富士通株式会社 | 音響判定方法、音響判定装置及びコンピュータプログラム |
JP4871191B2 (ja) | 2007-04-09 | 2012-02-08 | 日本電信電話株式会社 | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
US8321217B2 (en) * | 2007-05-22 | 2012-11-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice activity detector |
US8321213B2 (en) * | 2007-05-25 | 2012-11-27 | Aliphcom, Inc. | Acoustic voice activity detection (AVAD) for electronic systems |
US8374851B2 (en) | 2007-07-30 | 2013-02-12 | Texas Instruments Incorporated | Voice activity detector and method |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
JP2009092994A (ja) * | 2007-10-10 | 2009-04-30 | Audio Technica Corp | 音声会議装置 |
US8175291B2 (en) | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
WO2010038386A1 (ja) | 2008-09-30 | 2010-04-08 | パナソニック株式会社 | 音判定装置、音検知装置及び音判定方法 |
US8724829B2 (en) | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
KR101519104B1 (ko) * | 2008-10-30 | 2015-05-11 | 삼성전자 주식회사 | 목적음 검출 장치 및 방법 |
US8620672B2 (en) | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
-
2011
- 2011-04-22 WO PCT/US2011/033654 patent/WO2011133924A1/en active Application Filing
- 2011-04-22 CN CN2011800233612A patent/CN102884575A/zh active Pending
- 2011-04-22 EP EP11721155A patent/EP2561508A1/en not_active Withdrawn
- 2011-04-22 JP JP2013506344A patent/JP5575977B2/ja not_active Expired - Fee Related
- 2011-04-22 US US13/092,502 patent/US9165567B2/en active Active
- 2011-04-22 KR KR1020127030683A patent/KR20140026229A/ko active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03211599A (ja) * | 1989-11-29 | 1991-09-17 | Communications Satellite Corp <Comsat> | 4.8kbpsの情報伝送速度を有する音声符号化/復号化器 |
JPH08314497A (ja) * | 1995-05-23 | 1996-11-29 | Nec Corp | 無音圧縮音声符号化復号化装置 |
US20020172364A1 (en) * | 2000-12-19 | 2002-11-21 | Anthony Mauro | Discontinuous transmission (DTX) controller system and method |
JP2003076394A (ja) * | 2001-08-31 | 2003-03-14 | Fujitsu Ltd | 音声符号変換方法及び装置 |
US20060217973A1 (en) * | 2005-03-24 | 2006-09-28 | Mindspeed Technologies, Inc. | Adaptive voice mode extension for a voice activity detector |
JP2009545778A (ja) * | 2006-07-31 | 2009-12-24 | クゥアルコム・インコーポレイテッド | 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014016377A (ja) * | 2012-07-05 | 2014-01-30 | Oki Electric Ind Co Ltd | 音声信号処理装置、方法及びプログラム |
JP2014056112A (ja) * | 2012-09-12 | 2014-03-27 | Oki Electric Ind Co Ltd | 音声信号処理装置、方法及びプログラム |
JP2019204074A (ja) * | 2018-05-21 | 2019-11-28 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話方法、装置及びシステム |
JP2018189985A (ja) * | 2018-08-02 | 2018-11-29 | 株式会社東芝 | 電子機器および電子機器の制御方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2011133924A1 (en) | 2011-10-27 |
JP5575977B2 (ja) | 2014-08-20 |
US20110264447A1 (en) | 2011-10-27 |
US9165567B2 (en) | 2015-10-20 |
EP2561508A1 (en) | 2013-02-27 |
CN102884575A (zh) | 2013-01-16 |
KR20140026229A (ko) | 2014-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5575977B2 (ja) | ボイスアクティビティ検出 | |
JP5038550B1 (ja) | ロバストな雑音低減のためのマイクロフォンアレイサブセット選択 | |
JP5714700B2 (ja) | ヘッドマウントマイクロフォンペアを使用する音声信号の処理のためのシステム、方法、装置、及びコンピュータ可読媒体 | |
EP2599329B1 (en) | System, method, apparatus, and computer-readable medium for multi-microphone location-selective processing | |
JP5307248B2 (ja) | コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体 | |
US8898058B2 (en) | Systems, methods, and apparatus for voice activity detection | |
JP5410603B2 (ja) | マルチチャネル信号の位相ベースの処理のためのシステム、方法、装置、およびコンピュータ可読媒体 | |
JP5329655B2 (ja) | マルチチャネル信号のバランスをとるためのシステム、方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140603 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140702 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5575977 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |