JP2022529437A - ダイアログ検出器 - Google Patents
ダイアログ検出器 Download PDFInfo
- Publication number
- JP2022529437A JP2022529437A JP2021561019A JP2021561019A JP2022529437A JP 2022529437 A JP2022529437 A JP 2022529437A JP 2021561019 A JP2021561019 A JP 2021561019A JP 2021561019 A JP2021561019 A JP 2021561019A JP 2022529437 A JP2022529437 A JP 2022529437A
- Authority
- JP
- Japan
- Prior art keywords
- context
- frame
- frames
- term
- dialog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 86
- 230000005236 sound signal Effects 0.000 claims abstract description 37
- 239000002131 composite material Substances 0.000 claims abstract description 5
- 230000007774 longterm Effects 0.000 claims description 34
- 239000000872 buffer Substances 0.000 claims description 19
- 230000003595 spectral effect Effects 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 230000001419 dependent effect Effects 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000004044 response Effects 0.000 abstract description 7
- 150000001875 compounds Chemical class 0.000 description 27
- 238000000605 extraction Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000001052 transient effect Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 230000033764 rhythmic process Effects 0.000 description 5
- 230000001020 rhythmical effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 240000002791 Brassica napus Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
- Image Analysis (AREA)
Abstract
Description
本願は、2019年4月18日に出願されたPCT特許出願第PCT/CN2019/083173号、2019年4月30日に出願された米国仮特許出願第62/840,839号、および2019年8月20日に出願されたEP特許出願第19192553.6号の優先権を主張するものであり、これらの各出願は、その全体が参照により本明細書に組み込まれる。
本願の開示は、概括的にはオーディオ信号処理に関し、詳細にはダイアログ検出器に関する。
ΔBIC(t)=BIC(H0)-BIC(H1) (4)
ここで、H0は402における仮説であり、H1は404における仮説である。図6bは、これら2つの仮説の間の対数尤度差(log likelihood difference)である、BIC窓内の例示的なΔBIC(t)曲線を示している。次いで、408において、デルタBICは規格化されてもよい。次に、410において、ΔBIC(t)のピークが閾値(0から1までの間で調整可能)よりも大きい場合、そのピークは、コンテキスト境界の最も可能な位置として選択可能である。
M=0.707C+g(L+R)/2 (5)
ここで、C、L、Rは、それぞれ中央、左および右チャネルにおける、すべての時間‐スペクトル・タイルについての(すなわち、すべてのフレームおよびすべてのビン/バンドについての)複素数値のスペクトルを表し、gは、LおよびRからの寄与を減少させるための0から1までの間のパラメータである。しかしながら、上記の方法は、5.1信号に対しては機能するが、ステレオ信号には適用可能でない。ダイアログは、ステレオ信号においては一般にパンされた信号とみなされ、よってLとRにおいて相関しているからである。
M=g1L+g2R (6)
ここで、Lは左チャネルにおけるフレームのスペクトル表現であり、Rは右チャネルにおけるフレームのスペクトル表現であり、g1とg2は、それぞれLとRに適用される、広帯域利得ではない、2つの周波数依存利得である。簡単のために、式では周波数帯域の注釈は無視されている。ある実装では、g1とg2は、式(7)で表されるような、ある期間において各帯域について計算される共分散行列から推定されることができる(ここで、実部のみが考慮され、やはり周波数帯域の注釈は無視されている):
Lc=0.707C+gL (10)
Rc=0.707C+gR (11)
その後、LcおよびRcは、この方法500に従い、相関のないノイズを除去する。
〔EEE1〕入力オーディオ信号に応答してダイアログ検出器においてオーディオ特徴を抽出する方法であって、当該方法は:
フレーム特徴抽出コンポーネントによって、前記入力オーディオ信号から分割された複数のフレームの各フレームからフレーム特徴を抽出する段階と;
各コンテキストの長さまたは範囲を、複合期間コンテキスト決定要素によって決定する段階と;
それぞれの決定されたコンテキストにおけるフレームの特徴に基づいて、関連するコンテキストの特徴を導出する段階と;
各コンテキスト特徴を連結し、現在フレームを表す合成特徴ベクトルを形成する段階とを含む、
方法。
〔EEE2〕
前記複合期間コンテキストは:
現在フレームのまわりのローカルな情報を表す短期コンテキスト;
複数の回顧フレームをさらに含む中期コンテキスト;および
複数の長期履歴フレームをさらに含む長期コンテキストを含む、
EEE1に記載の方法。
〔EEE3〕
一つまたは複数のコンテキストの長さまたは範囲があらかじめ決定されることができる、EEE1または2に記載の方法。
〔EEE4〕
先読みバッファが利用可能である場合は、前記短期コンテキストは、現在フレームおよび先読みフレームを含み、または前記先読みバッファが利用可能でない場合は、前記短期コンテキストは、現在フレームおよび前記回顧フレームの第1の部分を含む、EEE2または3に記載の方法。
〔EEE5〕
先読みバッファが利用可能である場合は、前記中期コンテキストは、現在フレーム、先読みフレームおよび回顧フレームを含み、または前記先読みバッファが利用可能でない場合は、前記中期コンテキストは、現在フレーム、前記回顧フレームの前記第1の部分および前記回顧フレームの第2の部分を含む、EEE2または3に記載の方法。
〔EEE6〕
先読みバッファが利用可能である場合は、前記長期コンテキストは、現在フレーム、先読みフレーム、回顧フレームおよび長期履歴フレームを含み、または前記先読みバッファが利用可能でない場合は、前記長期コンテキストは、現在フレーム、前記回顧フレームの前記第1の部分、前記回顧フレームの第2の部分および前記長期履歴フレームを含む、EEE2または3に記載の方法。
〔EEE7〕
一つまたは複数のコンテキストの長さまたは範囲が適応的に決定されることができる、EEE1または2に記載の方法。
〔EEE8〕
一つまたは複数のコンテキストの長さまたは範囲が、フレーム・レベルの特徴の定常性を解析することによって適応的に決定されることができる、EEE7に記載の方法。
〔EEE9〕
一つまたは複数のコンテキストの長さまたは範囲の適応的な決定は、入力音声信号の振幅に関係した情報に基づく、EEE8に記載の方法。
〔EEE10〕
前記短期コンテキストの長さまたは範囲の適応的な決定は:
入力オーディオ信号の複数のフレームのうちのあるフレームの短時間エネルギーを計算し;
計算された短時間エネルギーを平滑化し;
前記フレームの平滑化された短時間エネルギーと先行フレームの平滑化された短時間エネルギーとの間の差を決定し;
前記差が閾値を満たすかどうかに基づいて立ち上がりを決定し;
前記立ち上がりを規格化し;
以下の段階:
最も大きな立ち上がりをもつ位置を境界としてとる;または
ピークが閾値を満たすかどうかに基づいて、ピーク立ち上がりを境界としてとる;または
閾値と、立ち上がりと立ち上がりの直前の強い過渡事象の間の距離とに基づいて、ピーク立ち上がりを境界としてとる、
のいずれかによって、前記短期コンテキストの長さまたは範囲の境界を決定することを含む、
EEE2または9に記載の方法。
〔EEE11〕
一つまたは複数のコンテキストの長さまたは範囲の適応的な決定は、入力オーディオ信号のスペクトルに関係した情報に基づく、EEE8に記載の方法。
〔EEE12〕
前記短期コンテキストの長さまたは範囲の適応的な決定は:
ベイズ情報基準窓内のタイムスタンプが前記短期コンテキストの長さまたは範囲についての真の境界として想定する段階と;
ベイズ情報基準窓内の前記タイムスタンプが前記短期コンテキストの長さまたは範囲についての真の境界ではないと想定する段階と;
前記の2つの仮説の間の差分ベイズ情報基準を決定する段階と;
差分ベイズ情報基準を正規化する段階と;
差分ベイズ情報基準のピークを、そのピークが閾値を満たすかどうかに基づいて、前記短期コンテキストの長さまたは範囲についての真の境界の位置とみなす段階とを含む、
EEE2または11に記載の方法。
〔EEE13〕
前記短期コンテキストは、先読み方向および回顧方向の両方に延在できる、または一方向のみに延在できる、EEE2、7ないし12のうちいずれか一項に記載の方法。
〔EEE14〕
前記の諸コンテキストの長さまたは範囲は、適応的な決定と組み合わせてあらかじめ定義されることができる、先行するEEEのうちいずれか一項に記載の方法。
〔EEE15〕
ダイアログ検出器の入力音声信号をダウンミックスする方法であって、当該方法は:
入力オーディオ信号を複数のフレームに分割する段階と;
左チャネルおよび右チャネルのフレームをスペクトル表現に変換する段階と;
左チャネルおよび右チャネルのスペクトルに対して周波数依存性利得をそれぞれ適用することによって左チャネルおよび右チャネルの無相関信号を除去する段階と;
ダウンミックスされた信号を得る段階と;
ダウンミックスされた信号を、先行するEEE1ないし14のうちいずれか一項に記載の方法をもつダイアログ検出器に供給する段階とを含む、
方法。
〔EEE16〕
周波数依存利得は共分散行列から推定されることができる、EEE15に記載の方法。
〔EEE17〕
ダイアログ検出器の入力オーディオ信号を分類する方法であって、当該方法は:
発話コンテンツ検出器によって、先行するEEE1ないし14のうちいずれか一項に記載の方法に従って抽出された特徴を受領する段階と;
発話コンテンツ検出器によって、発話信頼スコアを決定する段階と;
音楽コンテンツ検出器によって、先行するEEE1ないし14のうちいずれか一項に記載の方法に従って抽出された特徴を受領する段階と;
音楽コンテンツ検出器によって、音楽信頼スコアを決定する段階と;
発話信頼スコアおよび音楽信頼スコアを組み合わせて、最終的なダイアログ信頼スコアを得る段階とを含む、
方法。
〔EEE18〕
最終ダイアログ信頼スコアは、コンテキスト依存パラメータによって洗練されることができる、EEE17に記載の方法。
〔EEE19〕
コンテキスト依存パラメータは、履歴コンテキストにおいて発話または音楽として識別されるフレームの割合に基づいて計算できる、EEE18に記載の方法。
〔EEE20〕
前記履歴コンテキストは、10秒以上の長さでありうる、EEE19に記載の方法。
Claims (15)
- 入力オーディオ信号の現在フレームにおけるダイアログの存在の確率を表す信頼スコアを得る方法であって、当該方法は:
前記入力オーディオ信号を複数のフレームに分割する段階と;
各フレームからフレーム・オーディオ特徴を抽出する段階と;
コンテキスト窓の集合を決定する段階であって、各コンテキスト窓は、現在フレームを囲むいくつかのフレームを含む、段階と;
各コンテキスト窓について、それぞれのコンテキストにおけるフレームのフレーム・オーディオ特徴に基づいて、現在フレームについて関連するコンテキスト・オーディオ特徴を導出する段階と;
各コンテキスト・オーディオ特徴を連結して、現在フレームを表す合成特徴ベクトルを形成する段階と;
前記合成特徴ベクトルを使って、現在フレームにおけるダイアログの存在の確率を表す発話信頼スコアを得る段階とを含む、
方法。 - コンテキスト窓の前記集合が:
現在フレームおよび現在フレームに先行および/または後続するいくつかのフレームを含む短期コンテキスト窓;
前記短期コンテキスト窓のフレームおよび複数の回顧フレームを含む中期コンテキスト窓;および
前記中期コンテキスト窓のフレームおよび複数の長期履歴フレームを含む長期コンテキスト窓を含む、
請求項1に記載の方法。 - 各コンテキスト窓におけるフレームの数はあらかじめ決定される、請求項1または2に記載の方法。
- 先読みバッファが利用可能である場合、前記短期コンテキスト窓は現在フレームおよび先読みフレームの集合を含む、請求項2に記載の方法。
- 一つまたは複数のコンテキスト窓におけるフレームの数が、抽出されたフレーム・オーディオ特徴に基づいて適応的に決定される、請求項1または2に記載の方法。
- 一つまたは複数のコンテキスト窓におけるフレームの数が、フレーム・レベルのオーディオ特徴の定常性を解析することによって適応的に決定される、請求項5に記載の方法。
- 一つまたは複数のコンテキスト窓におけるフレームの数の適応的な決定が、前記入力オーディオ信号の振幅に関係した情報に基づく、請求項6に記載の方法。
- 一つまたは複数のコンテキスト窓におけるフレームの数の適応的な決定が、前記入力オーディオ信号のスペクトルに関係した情報に基づく、請求項6に記載の方法。
- 左チャネルおよび右チャネルにおけるフレームを、フレームのスペクトル表現に変換する段階と;
左チャネルおよび右チャネルにおける無相関信号を、それぞれ左チャネルおよび右チャネルにおける前記スペクトル表現に対して周波数依存の利得を適用することによって除去する段階と;
左チャネルおよび右チャネルからのダウンミックスされた信号を得る段階と;
前記ダウンミックスされた信号を前記入力オーディオ信号として使用する段階とを含む、
請求項1ないし8のうちいずれか一項に記載の方法。 - 前記周波数依存の利得は、共分散行列から推定される、請求項9に記載の方法。
- ダイアログ検出器の入力オーディオ信号を分類する方法であって、当該方法は:
請求項1ないし10のうちいずれか一項に記載の方法に従って発話信頼スコアを取得する段階と;
合成特徴ベクトルに基づいて音楽信頼スコアを決定する段階と;
前記発話信頼スコアと前記音楽信頼スコアを組み合わせて、最終的なダイアログ信頼スコアを得る段階とを含む、
方法。 - 前記最終的なダイアログ信頼スコアは、コンテキスト依存パラメータによって洗練される、請求項11に記載の方法。
- 前記コンテキスト依存パラメータは、たとえば少なくとも10秒の長さの履歴コンテキスト窓における発話または音楽として識別されるフレームの割合に基づいて計算される、請求項12に記載の方法。
- 請求項1ないし13のうちいずれか一項に記載の方法を実行するための手段を備えるダイアログ検出器。
- 実行されると、コンピュータに請求項1ないし13のうちいずれか一項に記載の方法を実行させる命令を記憶しているコンピュータ可読記憶媒体。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019083173 | 2019-04-18 | ||
CNPCT/CN2019/083173 | 2019-04-18 | ||
US201962840839P | 2019-04-30 | 2019-04-30 | |
US62/840,839 | 2019-04-30 | ||
EP19192553 | 2019-08-20 | ||
EP19192553.6 | 2019-08-20 | ||
PCT/US2020/028001 WO2020214541A1 (en) | 2019-04-18 | 2020-04-13 | A dialog detector |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022529437A true JP2022529437A (ja) | 2022-06-22 |
JPWO2020214541A5 JPWO2020214541A5 (ja) | 2023-02-15 |
Family
ID=70480833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021561019A Pending JP2022529437A (ja) | 2019-04-18 | 2020-04-13 | ダイアログ検出器 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20220199074A1 (ja) |
EP (1) | EP3956890B1 (ja) |
JP (1) | JP2022529437A (ja) |
KR (1) | KR20210154807A (ja) |
CN (1) | CN113748461A (ja) |
BR (1) | BR112021020151A2 (ja) |
WO (1) | WO2020214541A1 (ja) |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
AUPS270902A0 (en) * | 2002-05-31 | 2002-06-20 | Canon Kabushiki Kaisha | Robust detection and classification of objects in audio using limited training data |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
US9196249B1 (en) * | 2009-07-02 | 2015-11-24 | Alon Konchitsky | Method for identifying speech and music components of an analyzed audio signal |
US9401153B2 (en) * | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
CN104885151B (zh) * | 2012-12-21 | 2017-12-22 | 杜比实验室特许公司 | 用于基于感知准则呈现基于对象的音频内容的对象群集 |
US9767791B2 (en) * | 2013-05-21 | 2017-09-19 | Speech Morphing Systems, Inc. | Method and apparatus for exemplary segment classification |
JP6506764B2 (ja) * | 2013-09-12 | 2019-04-24 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整 |
US10181322B2 (en) * | 2013-12-20 | 2019-01-15 | Microsoft Technology Licensing, Llc | Multi-user, multi-domain dialog system |
US9620105B2 (en) * | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
KR102480710B1 (ko) * | 2016-09-28 | 2022-12-22 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 다중 채널 오디오 신호 처리 방법, 장치 및 시스템 |
CN109215667B (zh) * | 2017-06-29 | 2020-12-22 | 华为技术有限公司 | 时延估计方法及装置 |
-
2020
- 2020-04-13 CN CN202080029059.7A patent/CN113748461A/zh active Pending
- 2020-04-13 WO PCT/US2020/028001 patent/WO2020214541A1/en active Application Filing
- 2020-04-13 EP EP20723256.2A patent/EP3956890B1/en active Active
- 2020-04-13 KR KR1020217032867A patent/KR20210154807A/ko unknown
- 2020-04-13 BR BR112021020151A patent/BR112021020151A2/pt unknown
- 2020-04-13 US US17/604,379 patent/US20220199074A1/en active Pending
- 2020-04-13 JP JP2021561019A patent/JP2022529437A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP3956890A1 (en) | 2022-02-23 |
EP3956890B1 (en) | 2024-02-21 |
US20220199074A1 (en) | 2022-06-23 |
KR20210154807A (ko) | 2021-12-21 |
BR112021020151A2 (pt) | 2021-12-14 |
CN113748461A (zh) | 2021-12-03 |
WO2020214541A1 (en) | 2020-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Graf et al. | Features for voice activity detection: a comparative analysis | |
EP2058797B1 (en) | Discrimination between foreground speech and background noise | |
EP2083417B1 (en) | Sound processing device and program | |
EP3411876B1 (en) | Babble noise suppression | |
US8489404B2 (en) | Method for detecting audio signal transient and time-scale modification based on same | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
EP1210711A1 (en) | System and method for classification of sound sources | |
CN108682432B (zh) | 语音情感识别装置 | |
Hurmalainen et al. | Detection, separation and recognition of speech from continuous signals using spectral factorisation | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
KR20150061669A (ko) | 음성/무음성 구간 검출 방법 및 장치 | |
CN112489692A (zh) | 语音端点检测方法和装置 | |
Varela et al. | Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
JP2022529437A (ja) | ダイアログ検出器 | |
RU2807170C2 (ru) | Детектор диалогов | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
JP2001083978A (ja) | 音声認識装置 | |
Nosan et al. | Enhanced Feature Extraction Based on Absolute Sort Delta Mean Algorithm and MFCC for Noise Robustness Speech Recognition. | |
Kabal et al. | Adaptive postfiltering for enhancement of noisy speech in the frequency domain | |
Vimala et al. | Efficient Acoustic Front-End Processing for Tamil Speech Recognition using Modified GFCC Features | |
Mansali et al. | Evaluation of Zero Frequency Filtering based Method for Multi-pitch Streaming of Concurrent Speech Signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230206 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240227 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240806 |