JP5325292B2 - 信号の異なるセグメントを分類するための方法および識別器 - Google Patents
信号の異なるセグメントを分類するための方法および識別器 Download PDFInfo
- Publication number
- JP5325292B2 JP5325292B2 JP2011516981A JP2011516981A JP5325292B2 JP 5325292 B2 JP5325292 B2 JP 5325292B2 JP 2011516981 A JP2011516981 A JP 2011516981A JP 2011516981 A JP2011516981 A JP 2011516981A JP 5325292 B2 JP5325292 B2 JP 5325292B2
- Authority
- JP
- Japan
- Prior art keywords
- segment
- audio signal
- speech
- music
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 46
- 230000007774 longterm Effects 0.000 claims abstract description 87
- 230000005236 sound signal Effects 0.000 claims description 55
- 238000004458 analytical method Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 239000011295 pitch Substances 0.000 description 23
- 230000005284 excitation Effects 0.000 description 20
- 230000003595 spectral effect Effects 0.000 description 17
- 238000013459 approach Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 9
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000001934 delay Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000004043 responsiveness Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003446 memory effect Effects 0.000 description 2
- 230000009257 reactivity Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000011306 natural pitch Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Analysis (AREA)
Description
信号から抽出される少なくとも一つのショートターム特性に基づいて信号をショートターム分類し、ショートターム分類結果を供給するステップと、
信号から抽出される少なくとも一つのショートターム特性および少なくとも一つのロングターム特性に基づいて信号をロングターム分類し、ロングターム分類結果を供給するステップと、
信号のセグメントが、第1のタイプか、または第2のタイプのいずれかを指し示す出力信号を提供するために、ショートターム分類結果およびロングターム分類結果を組み合わせるステップと、を含む。
信号を受信し、信号から抽出される少なくとも一つのショートターム特性に基づいて、信号のショートターム分類結果を提供するために構成されるショートターム分類器であって、信号は、第1のタイプおよび第2のタイプを含む、ショートターム分類器と、
信号を受信し、信号から抽出される少なくとも一つのショートターム特性と少なくとも一つのロングターム特性に基づいて、信号のロングターム分類結果を提供するために構成されるロングターム分類器と、
信号のセグメントが、第1のタイプか、または第2のタイプのいずれかを指し示す出力信号を提供するために、ショートターム分類結果およびロングターム分類結果を組み合わせるために構成される決定回路と、を含む。
%擬似コード
If(D(n−1)==music)
If(F(IDC,DDC)<F1(IDC,DDC))
D(n)==music
Else
D(n)==speech
Else
If(F(IDC,DDC)>F2(IDC,DDC))
D(n)==speech
Else
D(n)==music
%擬似コードの終了
F(IDC,DDC)=IDC
F1(IDC,DDC)=0.4−0.4*DDC
F2(IDC,DDC)=−0.4−0.4*DDC
F(IDC,DDC)=(2*IDC+DDC)/3
F1(IDC,DDC)=−0.75*DDC
F2(IDC,DDC)=−0.75*DDC
%適応閾値処理の擬似コード
If(DDC>−0.5*IDC)
D(n)==speech
Else
D(n)==music
%適応閾値処理の終了
%決定木の擬似コード
If(IDC>0 && DDC(n)>0)
D(n)=speech
Else if (IDC<0 && DDC(n)<0)
D(n)=music
Else if (IDC>0 && DDC(n)−DDC(n−1)>0)
D(n)=speech
Else if (IDC<0 && DDC(n)−DDC(n−1)<0)
D(n)=music
Else if (DDC>0)
D(n)=speech
Else
D(n)=music
%決定木の終了
この特性は、声門パルスおよびLPC残留信号との間のエネルギー比率を計算する。声門パルスは、ピック−ピーキングアルゴリズム(pick−peaking algorithm)を用いて、LPC残留信号から抽出される。通常、有声音区間(voiced segment)のLPC残留は、声門の振動から来ている大きなパルスのような構造を示す。特性は、有声音区間の間、高い。
通常、ロングターム予測の間、音声コーダ(例えば、拡張適応マルチレート・ワイドバンド(Extended Adaptive Multi−Rate−Wideband:AMR−WB+)コーデック,3GPP TS 26.290 V6.3.0,2005−06)において計算されるゲインである。この特性は、信号の周期性を測定し、そして、ピッチ遅延推定に基づく。
最後のサブフレームと比較される場合、この特性は、現在のピッチ遅延推定の差を決定する。有声音声に対して、この特性は、低くなければならないが、ゼロではなく、そして、円滑に進展しなければならない。
DDC=(lld_speech−lld_music)/(abs(lld_music)+abs(lld_speech))
IDC=(lld_speech−lld_music)/(abs(lld_music)+abs(lld_speech))
ここで、PLPCm(k)は、k番目のフレームから来ている係数Mの合計より多くのm番目のケプストラム係数である。そして、移動分散mvm(k)は以下のように定義される:
ここで、wは、本実施形態において、以下のように定義されるランプスロープ(ramp slope)である長さNのウィンドウである:
ここで、p(k)は、16HzでサンプルされるLP残留信号におけるフレームインデックスkで計算されるピッチ遅延である。ピッチ輪郭パラメータから、音声メリットsm(k)は、音声が、有声音区間の間、なだらかに変動するピッチ遅延を、そして、無声音区間の間、高周波数に向かって強いスペクトルの傾斜を示すことを要求するような方法で計算される:
ここで、nc(k)、tilt(k)およびv(k)は、上記(ショートターム分類器を参照)に定義される。そして、音声メリットは、上記で定義されるウィンドウwによって重み付けされ、そして、最後のNフレームでまとめられる:
− 定常/非定常セグメントは、異なるフィルタバンク、ウィンドウ、または符号化適合を使用することに役立ちうる。例えば、過渡信号は、純粋な正弦曲線が微細な周波数分解能フィルタバンクによって符号化されなければならない上に、微細な時間分解能フィルタバンクによって符号化されなければならない。
− 有声/無声:無声音区間があまりに多くのビットが無駄になることを別にすれば、有声音区間は、CELPのような音声コーダによってよく扱われる。パラメータ符号化は、より効率的である。
− 沈黙/活動:沈黙は、アクティブセグメントより少しのビットで符号化されうる。
− 調和的な/非調和的な:周波数領域における線形予測を使用して調和セグメント符号化のために使用することは有益である。
Claims (17)
- オーディオ信号の異なるセグメントを分類するための方法であって、前記オーディオ信号は、音声および音楽のセグメントを含み、前記方法は、
前記オーディオ信号の現在のセグメントが音声のセグメントか、または音楽のセグメントかのいずれかを決定するために、前記オーディオ信号から抽出される少なくとも一つのショートターム特性に基づいて前記オーディオ信号をショートターム分類し(150)、そして、前記オーディオ信号の前記現在のセグメントが音声のセグメントか、または音楽のセグメントを指し示すショートターム分類結果(152)を供給するステップと、
前記オーディオ信号の前記現在のセグメントが、音声のセグメントかまたは音楽のセグメントかのいずれかを決定するために、前記オーディオ信号から抽出される少なくとも一つのショートターム特性および少なくとも一つのロングターム特性に基づいて前記オーディオ信号をロングターム分類し、そして、前記オーディオ信号の現在のセグメントが、音声のセグメントか、または音楽のセグメントを指し示すロングターム分類結果(156)を供給するステップと、
前記オーディオ信号の前記現在のセグメントが、音声のセグメントか、または音楽のセグメントかのいずれかを指し示す出力信号(160)を提供するために、前記ショートターム分類結果(152)および前記ロングターム分類結果(156)を組み合わせるステップ(158)と、
を含む、方法。 - 前記組み合わせるステップは、前記ショートターム分類結果(152)と前記ロングターム分類結果(156)との比較に基づいて前記出力信号を提供するステップを含む、請求項1に記載の方法。
- 前記少なくとも一つのショートターム特性は、分類される前記オーディオ信号の現在のセグメントを分析することによって得られ、
前記少なくとも一つのロングターム特性は、前記オーディオ信号の現在のセグメント、および前記オーディオ信号の一つ以上の以前のセグメントを分析することによって得られる、請求項1または請求項2に記載の方法。 - 前記少なくとも一つのショートターム特性は、第1の長さおよび第1の分析方法の分析ウィンドウ(168)を分析することによって得られ、
前記少なくとも一つのロングターム特性は、第2の長さおよび第2の分析方法の分析ウィンドウ(162)を分析することによって得られ、前記第1の長さは、前記第2の長さよりも短く、そして、前記第1および前記第2の分析方法は異なる、請求項1ないし請求項3のいずれかに記載の方法。 - 前記第1の長さは、前記オーディオ信号の前記現在のセグメントにまたがり、前記第2の長さは、前記オーディオ信号の前記現在のセグメント、および前記オーディオ信号の一つ以上の以前のセグメントにまたがり、そして、前記第1および前記第2の長さは、分析期間をカバーしている追加期間(164)を含む、請求項4に記載の方法。
- 前記ショートターム分類結果(152)および前記ロングターム分類結果(156)を組み合わせるステップ(158)は、組み合わされた結果に基づくヒステリシス決定を含み、ここで、前記組み合わされた結果は、前記ショートターム分類結果(152)および前記ロングターム分類結果(156)を含み、それぞれは定義済みの重み係数によって重み付けされる、請求項1ないし請求項5のいずれかに記載の方法。
- 前記オーディオ信号は、デジタル信号であり、そして、前記オーディオ信号のセグメントは、特定のサンプリングレートで得られる定義済みの数のサンプルを含む、請求項1ないし請求項6のいずれかに記載の方法。
- 前記少なくとも一つのショートターム特性はPLPCCパラメータを含み、
前記少なくとも一つのロングターム特性はピッチ特徴情報を含む、請求項1ないし請求項7のいずれかに記載の方法。 - ショートターム分類に使用される前記ショートターム特性およびロングターム分類に使用される前記ロングターム特性は同じか、異なる、請求項1ないし請求項8のいずれかに記載の方法。
- 音声および音楽のセグメントを含むオーディオ信号を処理するための方法であって、前記方法は、請求項1ないし請求項9のいずれかに記載の方法による前記オーディオ信号の現在のセグメントを分類するステップ(116)と、
前記分類するステップ(116)によって供給される前記出力信号(160)に依存し、第1の処理、または第2の処理により前記現在のセグメントを処理するステップ(102,206;106,208)と、
前記処理されたセグメントを出力するステップと、
を含む、方法。 - 前記セグメントが音声セグメントであることを前記出力信号(160)が指し示す場合、符号化されたセグメントを生成するために前記セグメントは音声エンコーダ(102)によって処理され、
前記セグメントが音楽セグメントであることを前記出力信号(160)が指し示す場合、前記符号化されたセグメントを生成するために前記セグメントは音楽エンコーダ(106)によって処理される、請求項10に記載の方法。 - 前記セグメントの前記タイプを指し示す前記出力信号(160)から前記符号化されたセグメント、および情報を組み合わせるステップ(108)を更に含む、請求項11に記載の方法。
- コンピュータに、請求項1ないし請求項12のいずれかに記載の方法を実行させるためのコンピュータプログラム。
- 識別器は、
オーディオ信号を受信し、および前記オーディオ信号の現在のセグメントが音声のセグメントか、または音楽のセグメントかのいずれかを決定し、並びに前記オーディオ信号から抽出される少なくとも一つのショートターム特性に基づいて前記オーディオ信号のショートターム分類結果(152)を供給するために構成されるショートターム分類器(150)であって、前記ショートターム分類結果(152)は、前記オーディオ信号の前記現在のセグメントが音声のセグメントまたは音楽のセグメントを指し示し、前記オーディオ信号は少なくとも音声および音楽のセグメントを含む、ショートターム分類器(150)と、
オーディオ信号を受信し、および前記オーディオ信号の現在のセグメントが音声のセグメントか、または音楽のセグメントかのいずれかを決定し、並びに前記オーディオ信号から抽出される少なくとも一つのショートターム特性および少なくとも一つのロングターム特性に基づいて前記オーディオ信号のロングターム分類結果(156)を供給するために構成され、前記ロングターム分類結果(156)は、前記オーディオ信号の前記現在のセグメントが音声のセグメントか、または音楽のセグメントを指し示す、ロングターム分類器(154)と、
前記オーディオ信号の前記現在のセグメントが、音声のセグメントか、または音楽のセグメントかのいずれかを指し示す出力信号(160)を供給するために、前記ショートターム分類結果(152)および前記ロングターム分類結果(156)を組み合わせるために構成される決定回路(158)と、
を含む、識別器。 - 前記決定回路(158)は、前記ショートターム分類結果(152)と前記ロングターム分類結果(156)との比較に基づいて前記出力信号を提供するために構成される、請求項14に記載の識別器。
- オーディオ信号を処理するための装置であって、前記装置は、
処理されるオーディオ信号を受信するために構成される入力(110)であって、前記オーディオ信号は、音声および音楽のセグメントを含む、前記入力(110)と、
音声のセグメントを処理するために構成される第1の処理ステージ(100;206)と、
音楽のセグメントを処理するために構成される第2の処理ステージ(104;208)と、
前記入力に連結される請求項14または請求項15のいずれかに記載の識別器(116;204)と、
前記入力および前記第1および前記第2の処理ステージの間に連結され、そして、前記入力(110)からの前記オーディオ信号を前記識別器(116)からの前記出力信号(160)に依存する前記第1および前記第2の処理ステージのうちの一つに適用するために構成される切り替え装置(112;202)と、
を含む、装置。 - オーディオエンコーダは、
請求項16に記載の装置を含み、
前記第1の処理ステージ(100;206)は音声エンコーダ(102;216)を含み、前記第2の処理ステージ(104;208)は音楽エンコーダ(106;210)を含む、オーディオエンコーダ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US7987508P | 2008-07-11 | 2008-07-11 | |
US61/079,875 | 2008-07-11 | ||
PCT/EP2009/004339 WO2010003521A1 (en) | 2008-07-11 | 2009-06-16 | Method and discriminator for classifying different segments of a signal |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011527445A JP2011527445A (ja) | 2011-10-27 |
JP5325292B2 true JP5325292B2 (ja) | 2013-10-23 |
Family
ID=40851974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011516981A Active JP5325292B2 (ja) | 2008-07-11 | 2009-06-16 | 信号の異なるセグメントを分類するための方法および識別器 |
Country Status (20)
Country | Link |
---|---|
US (1) | US8571858B2 (ja) |
EP (1) | EP2301011B1 (ja) |
JP (1) | JP5325292B2 (ja) |
KR (2) | KR101281661B1 (ja) |
CN (1) | CN102089803B (ja) |
AR (1) | AR072863A1 (ja) |
AU (1) | AU2009267507B2 (ja) |
BR (1) | BRPI0910793B8 (ja) |
CA (1) | CA2730196C (ja) |
CO (1) | CO6341505A2 (ja) |
ES (1) | ES2684297T3 (ja) |
HK (1) | HK1158804A1 (ja) |
MX (1) | MX2011000364A (ja) |
MY (1) | MY153562A (ja) |
PL (1) | PL2301011T3 (ja) |
PT (1) | PT2301011T (ja) |
RU (1) | RU2507609C2 (ja) |
TW (1) | TWI441166B (ja) |
WO (1) | WO2010003521A1 (ja) |
ZA (1) | ZA201100088B (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5551695B2 (ja) * | 2008-07-11 | 2014-07-16 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム |
CN101847412B (zh) * | 2009-03-27 | 2012-02-15 | 华为技术有限公司 | 音频信号的分类方法及装置 |
KR101666521B1 (ko) * | 2010-01-08 | 2016-10-14 | 삼성전자 주식회사 | 입력 신호의 피치 주기 검출 방법 및 그 장치 |
SG189277A1 (en) * | 2010-10-06 | 2013-05-31 | Fraunhofer Ges Forschung | Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (usac) |
US8521541B2 (en) * | 2010-11-02 | 2013-08-27 | Google Inc. | Adaptive audio transcoding |
CN103000172A (zh) * | 2011-09-09 | 2013-03-27 | 中兴通讯股份有限公司 | 信号分类方法和装置 |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
EP2772914A4 (en) * | 2011-10-28 | 2015-07-15 | Panasonic Corp | DECODER FOR HYBRID SOUND SIGNALS, COORDINATORS FOR HYBRID SOUND SIGNALS, DECODING PROCEDURE FOR SOUND SIGNALS AND CODING SIGNALING PROCESSES |
CN103139930B (zh) | 2011-11-22 | 2015-07-08 | 华为技术有限公司 | 连接建立方法和用户设备 |
US9111531B2 (en) | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
EP2702776B1 (en) * | 2012-02-17 | 2015-09-23 | Huawei Technologies Co., Ltd. | Parametric encoder for encoding a multi-channel audio signal |
US20130317821A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Sparse signal detection with mismatched models |
EP3301676A1 (en) | 2012-08-31 | 2018-04-04 | Telefonaktiebolaget LM Ericsson (publ) | Method and device for voice activity detection |
US9589570B2 (en) | 2012-09-18 | 2017-03-07 | Huawei Technologies Co., Ltd. | Audio classification based on perceptual quality for low or medium bit rates |
SG10201706626XA (en) * | 2012-11-13 | 2017-09-28 | Samsung Electronics Co Ltd | Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals |
EP2954635B1 (en) * | 2013-02-19 | 2021-07-28 | Huawei Technologies Co., Ltd. | Frame structure for filter bank multi-carrier (fbmc) waveforms |
PT2959482T (pt) | 2013-02-20 | 2019-08-02 | Fraunhofer Ges Forschung | Aparelho e método para codificar ou descodificar um sinal de áudio usando uma sobreposição dependente da localização de transiente |
CN104347067B (zh) | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US9666202B2 (en) * | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
KR101498113B1 (ko) * | 2013-10-23 | 2015-03-04 | 광주과학기술원 | 사운드 신호의 대역폭 확장 장치 및 방법 |
EP3109861B1 (en) * | 2014-02-24 | 2018-12-12 | Samsung Electronics Co., Ltd. | Signal classifying method and device, and audio encoding method and device using same |
CN107452391B (zh) | 2014-04-29 | 2020-08-25 | 华为技术有限公司 | 音频编码方法及相关装置 |
KR20180095123A (ko) | 2014-05-15 | 2018-08-24 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 오디오 신호 분류 및 코딩 |
CN107424622B (zh) | 2014-06-24 | 2020-12-25 | 华为技术有限公司 | 音频编码方法和装置 |
US9886963B2 (en) * | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
ES2829413T3 (es) * | 2015-05-20 | 2021-05-31 | Ericsson Telefon Ab L M | Codificación de señales de audio de múltiples canales |
US10706873B2 (en) * | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
WO2017196422A1 (en) * | 2016-05-12 | 2017-11-16 | Nuance Communications, Inc. | Voice activity detection feature based on modulation-phase differences |
US10699538B2 (en) * | 2016-07-27 | 2020-06-30 | Neosensory, Inc. | Method and system for determining and providing sensory experiences |
WO2018048907A1 (en) | 2016-09-06 | 2018-03-15 | Neosensory, Inc. C/O Tmc+260 | Method and system for providing adjunct sensory information to a user |
CN107895580B (zh) * | 2016-09-30 | 2021-06-01 | 华为技术有限公司 | 一种音频信号的重建方法和装置 |
US10744058B2 (en) | 2017-04-20 | 2020-08-18 | Neosensory, Inc. | Method and system for providing information to a user |
US10325588B2 (en) | 2017-09-28 | 2019-06-18 | International Business Machines Corporation | Acoustic feature extractor selected according to status flag of frame of acoustic signal |
KR20210102899A (ko) * | 2018-12-13 | 2021-08-20 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 이중 종단 미디어 인텔리전스 |
RU2761940C1 (ru) | 2018-12-18 | 2021-12-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу |
WO2020214541A1 (en) | 2019-04-18 | 2020-10-22 | Dolby Laboratories Licensing Corporation | A dialog detector |
CN110288983B (zh) * | 2019-06-26 | 2021-10-01 | 上海电机学院 | 一种基于机器学习的语音处理方法 |
WO2021062276A1 (en) | 2019-09-25 | 2021-04-01 | Neosensory, Inc. | System and method for haptic stimulation |
US11467668B2 (en) | 2019-10-21 | 2022-10-11 | Neosensory, Inc. | System and method for representing virtual object information with haptic stimulation |
US11079854B2 (en) | 2020-01-07 | 2021-08-03 | Neosensory, Inc. | Method and system for haptic stimulation |
US12062381B2 (en) * | 2020-04-16 | 2024-08-13 | Voiceage Corporation | Method and device for speech/music classification and core encoder selection in a sound codec |
US11497675B2 (en) | 2020-10-23 | 2022-11-15 | Neosensory, Inc. | Method and system for multimodal stimulation |
CN117178322A (zh) * | 2021-01-08 | 2023-12-05 | 沃伊斯亚吉公司 | 用于声音信号的统一时域/频域编码的方法和装置 |
US11862147B2 (en) | 2021-08-13 | 2024-01-02 | Neosensory, Inc. | Method and system for enhancing the intelligibility of information for a user |
US20230147185A1 (en) * | 2021-11-08 | 2023-05-11 | Lemon Inc. | Controllable music generation |
US11995240B2 (en) | 2021-11-16 | 2024-05-28 | Neosensory, Inc. | Method and system for conveying digital texture information to a user |
CN116070174A (zh) * | 2023-03-23 | 2023-05-05 | 长沙融创智胜电子科技有限公司 | 一种多类别目标识别方法及系统 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1232084B (it) * | 1989-05-03 | 1992-01-23 | Cselt Centro Studi Lab Telecom | Sistema di codifica per segnali audio a banda allargata |
JPH0490600A (ja) * | 1990-08-03 | 1992-03-24 | Sony Corp | 音声認識装置 |
JPH04342298A (ja) * | 1991-05-20 | 1992-11-27 | Nippon Telegr & Teleph Corp <Ntt> | 瞬時ピッチ分析方法及び有声・無声判定方法 |
RU2049456C1 (ru) * | 1993-06-22 | 1995-12-10 | Вячеслав Алексеевич Сапрыкин | Способ передачи речевых сигналов |
US6134518A (en) | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
JP3700890B2 (ja) * | 1997-07-09 | 2005-09-28 | ソニー株式会社 | 信号識別装置及び信号識別方法 |
RU2132593C1 (ru) * | 1998-05-13 | 1999-06-27 | Академия управления МВД России | Многоканальное устройство для передачи речевых сигналов |
SE0004187D0 (sv) | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
CN1279512C (zh) | 2001-11-29 | 2006-10-11 | 编码技术股份公司 | 用于改善高频重建的方法和装置 |
AUPS270902A0 (en) * | 2002-05-31 | 2002-06-20 | Canon Kabushiki Kaisha | Robust detection and classification of objects in audio using limited training data |
JP4348970B2 (ja) * | 2003-03-06 | 2009-10-21 | ソニー株式会社 | 情報検出装置及び方法、並びにプログラム |
JP2004354589A (ja) * | 2003-05-28 | 2004-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム |
EP1758274A4 (en) * | 2004-06-01 | 2012-03-14 | Nec Corp | SYSTEM, METHOD AND PROGRAM PROVIDING INFORMATION |
US7130795B2 (en) * | 2004-07-16 | 2006-10-31 | Mindspeed Technologies, Inc. | Music detection with low-complexity pitch correlation algorithm |
JP4587916B2 (ja) * | 2005-09-08 | 2010-11-24 | シャープ株式会社 | 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体 |
ES2343862T3 (es) | 2006-09-13 | 2010-08-11 | Telefonaktiebolaget Lm Ericsson (Publ) | Metodos y disposiciones para un emisor y receptor de conversacion/audio. |
CN1920947B (zh) * | 2006-09-15 | 2011-05-11 | 清华大学 | 用于低比特率音频编码的语音/音乐检测器 |
US9583117B2 (en) * | 2006-10-10 | 2017-02-28 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
MX2009006201A (es) * | 2006-12-12 | 2009-06-22 | Fraunhofer Ges Forschung | Codificador, decodificador y metodos para codificar y decodificar segmentos de datos que representan una corriente de datos del dominio temporal. |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
US8428949B2 (en) * | 2008-06-30 | 2013-04-23 | Waves Audio Ltd. | Apparatus and method for classification and segmentation of audio content, based on the audio signal |
-
2009
- 2009-06-16 PT PT09776747T patent/PT2301011T/pt unknown
- 2009-06-16 ES ES09776747.9T patent/ES2684297T3/es active Active
- 2009-06-16 MY MYPI2011000077A patent/MY153562A/en unknown
- 2009-06-16 PL PL09776747T patent/PL2301011T3/pl unknown
- 2009-06-16 MX MX2011000364A patent/MX2011000364A/es active IP Right Grant
- 2009-06-16 JP JP2011516981A patent/JP5325292B2/ja active Active
- 2009-06-16 RU RU2011104001/08A patent/RU2507609C2/ru active
- 2009-06-16 AU AU2009267507A patent/AU2009267507B2/en active Active
- 2009-06-16 KR KR1020117000628A patent/KR101281661B1/ko active IP Right Grant
- 2009-06-16 CN CN2009801271953A patent/CN102089803B/zh active Active
- 2009-06-16 WO PCT/EP2009/004339 patent/WO2010003521A1/en active Application Filing
- 2009-06-16 KR KR1020137004921A patent/KR101380297B1/ko active IP Right Grant
- 2009-06-16 CA CA2730196A patent/CA2730196C/en active Active
- 2009-06-16 EP EP09776747.9A patent/EP2301011B1/en active Active
- 2009-06-16 BR BRPI0910793A patent/BRPI0910793B8/pt active IP Right Grant
- 2009-06-29 TW TW098121852A patent/TWI441166B/zh active
- 2009-07-07 AR ARP090102544A patent/AR072863A1/es active IP Right Grant
-
2011
- 2011-01-04 ZA ZA2011/00088A patent/ZA201100088B/en unknown
- 2011-01-07 CO CO11001544A patent/CO6341505A2/es active IP Right Grant
- 2011-01-11 US US13/004,534 patent/US8571858B2/en active Active
- 2011-11-30 HK HK11112970.6A patent/HK1158804A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
KR20130036358A (ko) | 2013-04-11 |
US20110202337A1 (en) | 2011-08-18 |
RU2011104001A (ru) | 2012-08-20 |
AR072863A1 (es) | 2010-09-29 |
KR101281661B1 (ko) | 2013-07-03 |
MX2011000364A (es) | 2011-02-25 |
HK1158804A1 (en) | 2012-07-20 |
RU2507609C2 (ru) | 2014-02-20 |
CA2730196A1 (en) | 2010-01-14 |
EP2301011B1 (en) | 2018-07-25 |
BRPI0910793B1 (pt) | 2020-11-24 |
PT2301011T (pt) | 2018-10-26 |
CA2730196C (en) | 2014-10-21 |
CN102089803A (zh) | 2011-06-08 |
KR101380297B1 (ko) | 2014-04-02 |
ZA201100088B (en) | 2011-08-31 |
PL2301011T3 (pl) | 2019-03-29 |
TWI441166B (zh) | 2014-06-11 |
CO6341505A2 (es) | 2011-11-21 |
KR20110039254A (ko) | 2011-04-15 |
ES2684297T3 (es) | 2018-10-02 |
BRPI0910793A2 (pt) | 2016-08-02 |
JP2011527445A (ja) | 2011-10-27 |
MY153562A (en) | 2015-02-27 |
US8571858B2 (en) | 2013-10-29 |
EP2301011A1 (en) | 2011-03-30 |
TW201009813A (en) | 2010-03-01 |
AU2009267507A1 (en) | 2010-01-14 |
AU2009267507B2 (en) | 2012-08-02 |
CN102089803B (zh) | 2013-02-27 |
WO2010003521A1 (en) | 2010-01-14 |
BRPI0910793B8 (pt) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5325292B2 (ja) | 信号の異なるセグメントを分類するための方法および識別器 | |
KR101645783B1 (ko) | 오디오 인코더/디코더, 인코딩/디코딩 방법 및 기록매체 | |
KR101224559B1 (ko) | 캐스케이드 된 스위치를 구비하는 저 비트레이트 오디오 인코딩/디코딩 기법 | |
KR102039399B1 (ko) | 시간 도메인 코딩과 주파수 도메인 코딩 간의 분류 향상 | |
RU2483364C2 (ru) | Схема аудиокодирования/декодирования с переключением байпас | |
EP1982329B1 (en) | Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus | |
RU2414010C2 (ru) | Трансформация шкалы времени кадров в широкополосном вокодере | |
JP6291053B2 (ja) | 音声処理のための無声/有声判定 | |
JP2011518345A (ja) | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング | |
Kulesza et al. | High quality speech coding using combined parametric and perceptual modules | |
Rämö et al. | Segmental speech coding model for storage applications. | |
Santini et al. | A study of the perceptual relevance of the burst phase of stop consonants with implications in speech coding | |
Kulesza et al. | Improving signal quality of a speech codec using hybrid perceptual-parametric algorithm | |
Al-Naimi et al. | Improved line spectral frequency estimation through anti-aliasing filtering | |
Kulesza et al. | High Quality Speech Coding using Combined Parametric and Perceptual Modules | |
Ismail et al. | A novel particle based approach for robust speech spectrum Vector Quantization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121127 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130221 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5325292 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |