JP7258228B2 - 適応的平滑化を使用したダイアローグの拡張 - Google Patents
適応的平滑化を使用したダイアローグの拡張 Download PDFInfo
- Publication number
- JP7258228B2 JP7258228B2 JP2022513232A JP2022513232A JP7258228B2 JP 7258228 B2 JP7258228 B2 JP 7258228B2 JP 2022513232 A JP2022513232 A JP 2022513232A JP 2022513232 A JP2022513232 A JP 2022513232A JP 7258228 B2 JP7258228 B2 JP 7258228B2
- Authority
- JP
- Japan
- Prior art keywords
- smoothing factor
- smoothing
- dialogue
- music
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009499 grossing Methods 0.000 title claims description 116
- 230000003044 adaptive effect Effects 0.000 title claims description 24
- 230000002708 enhancing effect Effects 0.000 title claims description 6
- 238000000034 method Methods 0.000 claims description 39
- 230000005236 sound signal Effects 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000002596 correlated effect Effects 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000003623 enhancer Substances 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3089—Control of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/005—Tone control or bandwidth control in amplifiers of digital signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/02—Manually-operated control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本出願は、2020年1月21日に出願された米国仮特許出願第62/963,711号、2019年9月16日に出願された米国仮特許出願第62/900,969号、および2019年8月27日に出願された国際特許出願第PCT/CN2019/102775号の優先権を主張するものであり、これらのすべては、その全体をここに参照援用する。
[技術分野]
本発明は、ダイアローグ強調を含むオーディオ処理に関する。具体的には、本発明は、増幅され抽出されたダイアローグを平滑化することによってダイアローグ強調を改善することに関する。
1. 分類器の精度は100%ではない。音声分類器には、例えば、音楽に乗った音声/歌声および低SNRコンテンツのようないくつかの典型的な困難なケースがある。状況によっては、ダイアローグ抽出器は、実際にはダイアローグではない場合に、オーディオコンテンツをダイアローグとして誤って識別する。誤ってダイアローグと分類されるフレームは、「偽陽性」と呼ばれることがある。その結果、音楽があるときやSNRが低いときには、ダイアローグブーストは変動する。
2. 音声検出器のレイテンシはコンテンツに依存し、レイテンシは100ms未満から500ms以上まで変化し得る。その結果、言葉の最初の発話(始まり)が見逃され、突然のダイアローグブーストになることがある。
-履歴と現在の音楽の信頼度スコアを利用する
もし音楽が最後の数フレームまたは現在のフレームで支配的であるなら、平滑化係数は、偽陽性を除去するために、例えば500ms以上のように大きくなる傾向があるはずである。
-純粋音声コンテンツの平滑化を減らす
コンテンツが純粋音声の場合、ダイアローグブースト(dialogue boost)をより顕著にするため、平滑化係数を例えば50msから100msのように小さくすることができる。
-SNRを利用する
SNRは、平滑化を導くのを助けるために測定することができ、偽陽性/陰性は、低SNRコンテンツで高くなる傾向があり、その結果、平滑化係数は、例えば500msのように、より保守的に大きくあるべきである。
-リアルタイムでレイテンシを測定することにより、平滑化係数を動的に変更する
VADまたは過渡検出器を使用して、リアルタイムで音声分類器のレイテンシを測定することができ、平滑化係数は、レイテンシが増加するにつれて直線的に増加するべきである。コンテンツに応じて、レイテンシは100msと小さいか、または大きくても500msとなる。
Out(n)=αOut(n-1)+(1-α)In(n),
ここで、Out(n)は現在のフレームの平滑化された出力ゲイン、Out(n-1)は前のフレームの平滑化された出力ゲイン、In(n)は現在のフレームの元の入力ゲイン、αはゼロと1の間の適応的に調整された変数である。過去のフレームの影響は、アルファをベースに指数関数的に減少することは明らかである。αの値が大きいほど、過去のフレームはゆっくりとフェードし、出力ゲインはスムーズに変化する。
α=0.5samples per frame/(sample rate*smoothing factor)
平滑化係数は、例えば、本明細書に記載されている状況に応じて、50ms、300ms、500ms、または1sであってもよい。
EEE1 オーディオにおけるダイアローグの明瞭性を高める方法であって、
ダイアローグ強調システムの音声および音楽分類器が、オーディオ信号を受信することであって、前記オーディオ信号は音声コンテンツを含むことと、
前記音声分類器が、オーディオコンテンツが純粋音声コンテンツを含む信頼度スコアを判定することと、
音楽分類器が、オーディオコンテンツが音楽創刊コンテンツを含む信頼度スコアを判定することと、
音声および音楽分類器の出力に応じて、適応的平滑化アルゴリズムが、音楽相関コンテンツに対してより高い値のダイアローグ平滑化係数を計算し、純粋音声コンテンツに対してより低い値のダイアローグ平滑化係数を計算することと、
オーディオコンテンツの測定信号対ノイズ比(SNR)に基づいて、適応的平滑化アルゴリズムが、ダイアローグ平滑化係数を調整することであって、より低いSNR値は、ダイアローグ平滑化係数のより大きな増加に対応することと、
ダイアローグ強調器が、調整されたダイアローグの平滑化係数に基づきオーディオコンテンツを強調し、強調されたオーディオを生成することであって、ダイアローグ平滑化係数の値が大きいほど、強調における偽陽性が減少し、ダイアローグ平滑化係数の値が小さいほど、強調におけるダイアローグブーストが増加することと、
前記判定、計算、調整、および強調の各々は、一以上のプロセッサによって実行される、方法。
過渡検出器が、音声分類器の出力のレイテンシの量を測定することと、
適応的平滑化アルゴリズムが、レイテンシの量に応じてダイアローグ平滑化係数を増加させることであって、より長いレイテンシはより大きい増加量に対応する、EEE1に記載の方法。
一以上のコンピュータ・プロセッサと、
一以上のプロセッサにより実行されると、一以上のプロセッサにEEE1ないしEEE9のいずれか一項に記載の動作を実行させる命令を記憶する非一時的コンピュータ読取可能媒体とを有する、システム。
Claims (15)
- オーディオ信号におけるダイアローグ明瞭度を強調する方法であって、前記オーディオ信号の各フレームに対して、
音声分類器が、フレームが音声コンテンツを含む音声信頼度スコアを判定することと、
音楽分類器が、前記フレームが音楽相関コンテンツを含む音楽信頼度スコアを判定することと、
前記音声信頼度スコアに応答して、ダイアローグ強調モジュールが、ユーザが選択した前記オーディオ信号の周波数帯域のゲインを適用して、ダイアローグ強調オーディオ信号を取得することとを含み、
ユーザが選択したゲインは、適応的平滑化アルゴリズムによって平滑化され、前記適応的平滑化アルゴリズムにおける過去のフレームの影響は平滑化係数によって決定され、
前記平滑化係数は前記音楽信頼度スコアに応答して選択され、音楽信頼度スコアが比較的に高いコンテンツの場合は比較的高い値を有し、音楽信頼度スコアが比較的に低い音声コンテンツの場合は比較的低い値を有し、音楽相関コンテンツのダイアローグ強調に対する過去のフレームの影響を増大させる、
方法。 - 前記音楽信頼度スコアが所定の閾値を上回ったとき、第1のより高い平滑化係数が選択され、前記音楽信頼度スコアが前記所定の閾値を下回ったとき、第2のより低い平滑化係数が選択される、請求項1に記載の方法。
- 前記平滑化係数は、時間として表現され、前記適応的平滑化アルゴリズムのフィルタリングウィンドウに関する、請求項1又は2に記載の方法。
- 第1の、より高い平滑化係数が500ミリ秒(ms)である、
請求項3に記載の方法。 - 第2の、より低い平滑化係数は、50と100ミリ秒(ms)の間である、
請求項3または4に記載の方法。 - 前記オーディオ信号の信号対雑音比(SNR)を測定することと、
測定されたSNRに基づいて前記平滑化係数を調整することであって、より低いSNR値はより大きな平滑化係数に対応することとをさらに含む、
請求項1ないし5いずれか一項に記載の方法。 - 前記音声分類器におけるレイテンシを測定することと、
測定したレイテンシに基づいて前記平滑化係数を調整することであって、より大きなレイテンシはより大きな平滑化係数に対応することとを含む、請求項1ないし6いずれか一項に記載の方法。 - 前記平滑化係数の増加量は、前記レイテンシの量に直線的に対応する、
請求項7に記載の方法。 - 前記レイテンシを測定し、前記平滑化係数を増加させることはリアルタイムで行われる、請求項7又は8に記載の方法。
- 前記平滑化係数の比較的高い値は、偽陽性を減少させるように選択される、
請求項1ないし9いずれか一項に記載の方法。 - 前記平滑化係数の比較的低い値は、ダイアローグをブーストするように選択される、請求項1ないし10いずれか一項に記載の方法。
- 前記適応的平滑化アルゴリズムは、
Out(n)=αOut(n-1)+(1-α)In(n)
による重み付き平均であり、
ここで、Out(n)は現在のフレームの平滑化された出力ゲイン、Out(n-1)は前のフレームの平滑化された出力ゲイン、In(n)は現在のフレームの元の入力ゲイン、そしてαは平滑化係数とともに増加する適応的に調整された変数である、
請求項1ないし11いずれか一項に記載の方法。 - 前記αは、
α=0.5samples per frame/(sample rate*smoothing factor)
として定義される、請求項12に記載の方法。 - 一以上のコンピュータ・プロセッサと、
前記一以上のプロセッサにより実行されると、前記一以上のプロセッサに請求項1ないし13いずれか一項に記載の方法を実行させるプログラムを記憶する非一時的コンピュータ読取可能媒体とを含む、
システム。 - 一以上のコンピュータ・プロセッサによる実行されると、前記一以上のプロセッサに請求項1ないし13いずれか一項に記載の方法を実行させるプログラムを記憶する非一時的コンピュータ読取可能媒体。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019102775 | 2019-08-27 | ||
CNPCT/CN2019/102775 | 2019-08-27 | ||
US201962900969P | 2019-09-16 | 2019-09-16 | |
US62/900,969 | 2019-09-16 | ||
US202062963711P | 2020-01-21 | 2020-01-21 | |
US62/963,711 | 2020-01-21 | ||
PCT/US2020/048034 WO2021041568A1 (en) | 2019-08-27 | 2020-08-26 | Dialog enhancement using adaptive smoothing |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022540511A JP2022540511A (ja) | 2022-09-15 |
JP7258228B2 true JP7258228B2 (ja) | 2023-04-14 |
Family
ID=72433023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022513232A Active JP7258228B2 (ja) | 2019-08-27 | 2020-08-26 | 適応的平滑化を使用したダイアローグの拡張 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220277766A1 (ja) |
EP (1) | EP3803861B1 (ja) |
JP (1) | JP7258228B2 (ja) |
CN (1) | CN114503197B (ja) |
WO (1) | WO2021041568A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230290366A1 (en) * | 2022-03-10 | 2023-09-14 | Roku, Inc. | Automatic Classification of Audio Content as Either Primarily Speech or Primarily Non-speech, to Facilitate Dynamic Application of Dialogue Enhancement |
GB2619731A (en) * | 2022-06-14 | 2023-12-20 | Nokia Technologies Oy | Speech enhancement |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009288669A (ja) | 2008-05-30 | 2009-12-10 | Toshiba Corp | 音質補正装置、音質補正方法及び音質補正用プログラム |
JP2011065093A (ja) | 2009-09-18 | 2011-03-31 | Toshiba Corp | オーディオ信号補正装置及びオーディオ信号補正方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6351731B1 (en) * | 1998-08-21 | 2002-02-26 | Polycom, Inc. | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor |
US6487257B1 (en) * | 1999-04-12 | 2002-11-26 | Telefonaktiebolaget L M Ericsson | Signal noise reduction by time-domain spectral subtraction using fixed filters |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
BRPI0807703B1 (pt) * | 2007-02-26 | 2020-09-24 | Dolby Laboratories Licensing Corporation | Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador |
CN101399039B (zh) * | 2007-09-30 | 2011-05-11 | 华为技术有限公司 | 一种确定非噪声音频信号类别的方法及装置 |
JP4709928B1 (ja) * | 2010-01-21 | 2011-06-29 | 株式会社東芝 | 音質補正装置及び音質補正方法 |
US9171552B1 (en) * | 2013-01-17 | 2015-10-27 | Amazon Technologies, Inc. | Multiple range dynamic level control |
CN104078050A (zh) * | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
CN104079247B (zh) * | 2013-03-26 | 2018-02-09 | 杜比实验室特许公司 | 均衡器控制器和控制方法以及音频再现设备 |
EP4060661B1 (en) * | 2014-10-10 | 2024-04-24 | Dolby Laboratories Licensing Corporation | Transmission-agnostic presentation-based program loudness |
-
2020
- 2020-08-26 JP JP2022513232A patent/JP7258228B2/ja active Active
- 2020-08-26 EP EP20768768.2A patent/EP3803861B1/en active Active
- 2020-08-26 WO PCT/US2020/048034 patent/WO2021041568A1/en unknown
- 2020-08-26 US US17/638,839 patent/US20220277766A1/en active Pending
- 2020-08-26 CN CN202080069218.6A patent/CN114503197B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009288669A (ja) | 2008-05-30 | 2009-12-10 | Toshiba Corp | 音質補正装置、音質補正方法及び音質補正用プログラム |
JP2011065093A (ja) | 2009-09-18 | 2011-03-31 | Toshiba Corp | オーディオ信号補正装置及びオーディオ信号補正方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114503197B (zh) | 2023-06-13 |
US20220277766A1 (en) | 2022-09-01 |
WO2021041568A1 (en) | 2021-03-04 |
JP2022540511A (ja) | 2022-09-15 |
EP3803861A1 (en) | 2021-04-14 |
CN114503197A (zh) | 2022-05-13 |
EP3803861B1 (en) | 2022-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7150939B2 (ja) | ボリューム平準化器コントローラおよび制御方法 | |
JP6325640B2 (ja) | 等化器コントローラおよび制御方法 | |
JP6265450B2 (ja) | 音声認識方法、音声認識装置、及び電子装置 | |
CN109616142B (zh) | 用于音频分类和处理的装置和方法 | |
US11017798B2 (en) | Dynamic noise suppression and operations for noisy speech signals | |
JP7258228B2 (ja) | 適応的平滑化を使用したダイアローグの拡張 | |
US20150228293A1 (en) | Method and System for Object-Dependent Adjustment of Levels of Audio Objects | |
US9374651B2 (en) | Sensitivity calibration method and audio device | |
US20240062770A1 (en) | Enhanced de-esser for in-car communications systems | |
CN112470219A (zh) | 压缩机目标曲线以避免增强噪声 | |
WO2023006107A1 (zh) | 语音交互系统的自动增益控制方法、装置及系统 | |
WO2021197566A1 (en) | Noise supression for speech enhancement | |
JP2022544795A (ja) | オーディオのバイノーラル化のステアリング | |
US20230402050A1 (en) | Speech Enhancement | |
WO2023172609A1 (en) | Method and audio processing system for wind noise suppression | |
CN117859176A (zh) | 检测用户生成内容中的环境噪声 | |
EP4278350A1 (en) | Detection and enhancement of speech in binaural recordings | |
EP4392971A1 (en) | Detecting environmental noise in user-generated content | |
JPH10171487A (ja) | 音声区間判別装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220823 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7258228 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |