JP7258228B2 - 適応的平滑化を使用したダイアローグの拡張 - Google Patents

適応的平滑化を使用したダイアローグの拡張 Download PDF

Info

Publication number
JP7258228B2
JP7258228B2 JP2022513232A JP2022513232A JP7258228B2 JP 7258228 B2 JP7258228 B2 JP 7258228B2 JP 2022513232 A JP2022513232 A JP 2022513232A JP 2022513232 A JP2022513232 A JP 2022513232A JP 7258228 B2 JP7258228 B2 JP 7258228B2
Authority
JP
Japan
Prior art keywords
smoothing factor
smoothing
dialogue
music
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022513232A
Other languages
English (en)
Other versions
JP2022540511A (ja
Inventor
ユイ,シュエメイ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022540511A publication Critical patent/JP2022540511A/ja
Application granted granted Critical
Publication of JP7258228B2 publication Critical patent/JP7258228B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/02Manually-operated control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

[関連出願の相互参照]
本出願は、2020年1月21日に出願された米国仮特許出願第62/963,711号、2019年9月16日に出願された米国仮特許出願第62/900,969号、および2019年8月27日に出願された国際特許出願第PCT/CN2019/102775号の優先権を主張するものであり、これらのすべては、その全体をここに参照援用する。
[技術分野]
本発明は、ダイアローグ強調を含むオーディオ処理に関する。具体的には、本発明は、増幅され抽出されたダイアローグを平滑化することによってダイアローグ強調を改善することに関する。
ダイアローグ強調は、オーディオ信号中の音声/ダイアローグを強調し、分かりやすさを改善するアルゴリズムである。ダイアローグ強調システムの一例を図1に示す。ここで、ダイアローグ強調システムは、音声の存在を検出するために使用される音声検出器を備えている。音声検出器は、Voice Activity Detection(VAD)または機械学習に基づく音声分類器であってもよい。音声検出器からの出力(ON/OFF)は、ユーザが選択したゲインと乗算され、ダイアローグ強調モジュールに入力される。幾つかの望ましくないアーチファクトを避けるために、ゲインは、ダイアローグ強調に入力される前に平滑化される。
このようなダイアローグ強調アルゴリズムの性能をさらに改善することが望ましい。
オーディオにおけるダイアローグの理解度を高める方法,システム,及びコンピュータプログラム製品を説明する。
本発明の第1の態様は、オーディオ信号におけるダイアローグ明瞭度を強調する方法であって、前記オーディオ信号の各フレームに対して、音声分類器が、フレームが音声コンテンツを含む音声信頼度スコアを判定することと、音楽分類器が、前記フレームが音楽相関コンテンツを含む音楽信頼度スコアを判定することと、前記音声信頼度スコアに応答して、ダイアローグ強調モジュールが、ユーザが選択した前記オーディオ信号の周波数帯域のゲインを適用して、ダイアローグ強調オーディオ信号を取得することとを含み、ユーザが選択したゲインは、適応的平滑化アルゴリズムによって平滑化され、前記信頼度スコアにおける過去のフレームの影響は平滑化係数によって決定され、前記平滑化係数は前記音楽信頼度スコアに応答して選択され、音楽信頼度スコアが比較的に高いコンテンツの場合は比較的高い値を有し、音楽信頼度スコアが比較的に低い音声コンテンツの場合は比較的低い値を有し、音楽相関コンテンツのダイアローグ強調に対する過去のフレームの影響を増大させる。
「音楽関連コンテンツ」とは、音楽の存在により音声分類がより難しくなることが予想されるコンテンツを意図している。過去のフレームの影響を増大させることによって、ダイアローグ強調は、音声分類器における「偽陽性」に対する感度を低下させる。
平滑化係数は、適応的平滑化において考慮されるフレーム数に関係する。したがって、より大きな平滑化係数では、より多くのフレームが考慮されるため、ダイアローグ強調の適用がより緩やかに(遅く)なり、「偽陽性」による変動ブースト(fluctuating boost)を回避する。小さな平滑化係数では、考慮されるフレーム数が少なくなるため、ダイアローグ強調をより迅速に適用することができる。平滑化係数と平滑化機能の間の関係は、直接的なもの(例えば、平滑化係数が考慮されるフレームの数を定義する)でも、間接的なもの(例えば、平滑化係数が過去のフレームの比較的な重みの減少勾配を定義する)でもよい。
適応的平滑化係数は、コンテンツに基づいて平滑化係数を適応させることを可能にする。音楽が存在するコンテンツ(音楽信頼度スコアが高い)では、平滑化係数を比較的大きく設定することができ(例えば、500ms以上のオーダー)、一方、音楽が存在しないコンテンツ(音楽信頼度スコアが低い)では、平滑化係数を比較的小さく設定することができる(例えば、100ms以下のオーダー)。
平滑化係数は、追加的パラメータに基づいてさらに適応されてもよい。例えば、低い信号対雑音比(SNR)は、より大きな平滑化ファクタをもたらしてもよく、音声分類器における大きなレイテンシは、より大きな平滑化ファクタをもたらしてもよい。
第2の態様によれば、音声分類器および音楽分類器は、オーディオ信号を受信し、オーディオ信号は、オーディオコンテンツを含む。音声分類器は音声信頼度を判定し、音楽分類器は音楽信頼度を判定する。音声および分類器の出力に応じて、適応的平滑化アルゴリズムは、音楽相関コンテンツ(music correlated content)に対してより高い値のダイアローグ平滑化係数を計算し、純粋音声コンテンツに対してより低い値のダイアローグ平滑化係数を計算する。適応的平滑化アルゴリズムは、音声コンテンツのSNRに基づいてダイアローグ平滑化係数を調整する。より低いSNRは、ダイアローグ平滑化係数のより大きな増加に対応する。過渡検出器(transient detector)を用いて、リアルタイムで音声分類器のレイテンシを測定してもよく、ダイアローグ平滑化係数は、レイテンシが増加するにつれて直線的に増加されるべきである。ダイアローグ強調器は、調整されたダイアローグ平滑化係数に基づいてオーディオコンテンツを強調し、強調されたオーディオを生成する。
本発明を、本発明の現在の好ましい実施形態を示す添付図面を参照して、より詳細に説明する。
従来のダイアローグ強調システムを示すブロック図である。 本発明の一実施形態による動的平滑化を実施するダイアローグ強調システムの一例を示すブロック図である。 本発明の一実施形態によるダイアローグ強調システムのより詳細なブロック図である。 本発明の一実施形態による、様々な要因が平滑化係数にどのように影響し得るかを示すフローチャートである。 VADまたは過渡検出器を使用して音声分類器のレイテンシを測定することを示す。 動的平滑化を用いたダイアローグ強調のプロセスの一例を示すフローチャートである。 一実施形態による、図1ないし6を参照して説明した特徴およびプロセスを実施するための移動装置アーキテクチャである。
従来のダイアローグ強調アルゴリズム、例えば、図1に示すように、一般的には2つの大きな欠点がある:
1. 分類器の精度は100%ではない。音声分類器には、例えば、音楽に乗った音声/歌声および低SNRコンテンツのようないくつかの典型的な困難なケースがある。状況によっては、ダイアローグ抽出器は、実際にはダイアローグではない場合に、オーディオコンテンツをダイアローグとして誤って識別する。誤ってダイアローグと分類されるフレームは、「偽陽性」と呼ばれることがある。その結果、音楽があるときやSNRが低いときには、ダイアローグブーストは変動する。
2. 音声検出器のレイテンシはコンテンツに依存し、レイテンシは100ms未満から500ms以上まで変化し得る。その結果、言葉の最初の発話(始まり)が見逃され、突然のダイアローグブーストになることがある。
これらの欠点を克服するために、時には、音声分類器の偽陽性及びレイテンシを低減するために、先読みが導入される。例えば、符号化側で2000msのレイテンシを許容することができる。しかしながら、モバイル再生側では、レイテンシは非常に敏感かつ重要であり、先読みは許容されない。その結果、精度およびレイテンシの問題は、従来の音声分類器ではさらに悪くなる。
さらに、図1に示すように、従来の信頼度スコアを使用することにより、上記のアーチファクトを除去するか、少なくとも軽減することができる。しかし、固定の平滑化係数は、全ての使用ケースを満足するわけではない。例えば、正確さやレイテンシの問題のために最初の300msの言葉が見逃されることは、音楽コンテンツ上の音声でよくあることだが、この場合、ブースト音を自然かつ快適にするために500msの平滑化係数が必要となる。しかし、このような大きな平滑化係数は、精度が高く、レイテンシが通常は100msである通常の音声コンテンツには適用できない。
本明細書に開示された技術は、発音されるだけでなく、より少ないアーチファクトで快適なダイアローグをもたらすダイアローグ強調に関する。図2は、本発明の一実施形態による、動的平滑化を実施するダイアローグ強調システム200の一例を示す。図2に示すように、本発明は、様々なコンテンツおよびコンテキストに対して最も適切な平滑化係数を自動的に選択してダイアローグ強調のアーチファクトを低減する適応的平滑化アルゴリズムを含む。
平滑化係数をどのように適用するかいくつかの例を以下に示す:
-履歴と現在の音楽の信頼度スコアを利用する
もし音楽が最後の数フレームまたは現在のフレームで支配的であるなら、平滑化係数は、偽陽性を除去するために、例えば500ms以上のように大きくなる傾向があるはずである。
-純粋音声コンテンツの平滑化を減らす
コンテンツが純粋音声の場合、ダイアローグブースト(dialogue boost)をより顕著にするため、平滑化係数を例えば50msから100msのように小さくすることができる。
-SNRを利用する
SNRは、平滑化を導くのを助けるために測定することができ、偽陽性/陰性は、低SNRコンテンツで高くなる傾向があり、その結果、平滑化係数は、例えば500msのように、より保守的に大きくあるべきである。
-リアルタイムでレイテンシを測定することにより、平滑化係数を動的に変更する
VADまたは過渡検出器を使用して、リアルタイムで音声分類器のレイテンシを測定することができ、平滑化係数は、レイテンシが増加するにつれて直線的に増加するべきである。コンテンツに応じて、レイテンシは100msと小さいか、または大きくても500msとなる。
本発明のより詳細な実施形態を図3に示し、ここで、システム20は、音声分類器21および音楽分類器22を含む。音声分類器は、オーディオ信号の特定のフレームが音声(ダイアローグ)を含む尤度を示す音声信頼度スコアを生成する。同様に、音楽分類器は、音声信号の特定のフレームが音楽を含む尤度を示す音楽信頼度スコアを生成し、。分類器は、任意の適切な技術に基づくことができ、例えば、自己回帰(AR)モデルを学習する機械を含むことができ、分類器からの直接出力は、通常、-∞から∞までの実数値であり、これは、0と1との間の値に、シグモイド関数(conf_score=1/(1+eax+b)を用いてマッピングされ、ここでxは直接出力であり、aおよびBは定数である。
音声信頼度スコアは、例えば、当技術分野で既知のタイプであるダイアローグ強調モジュール23を起動するために使用される。単純な場合には、ダイアローグ強調モジュールは静的であり、ユーザが選択したゲインによってオーディオ信号の予め選択された周波数をブーストするように構成される。より複雑な場合には、エンハンスメントモジュールは、ダイアローグコンポーネントを動的に推定し、この推定されたダイアローグコンポーネントをブースト(boost)する。
原理的には、音声信頼度スコアは、ユーザゲインを乗算した起動信号として直接使用され得る。しかし、まず信頼度スコアをバイナリ値ON/OFFにマッピングすると都合がよい。図2において、そのようなマッピングは、ダイアローグ検出器24によって提供される。このようなマッピングを達成する様々な方法が可能である。例えば、マッピングは、単純な閾値、例えば0.5、であってもよく、0.5より大きい信頼度スコアがON信号を与え、0.5より小さい信頼度スコアがOFF信号を与えるようにしてもよい。あるいは、ヒステリシスモデルを適用して、先行フレームのバイナリ値に応じて閾値を異ならせるようにしてもよい。たとえば、前の値がONの場合はしきい値=0.4、前の値がOFFの場合はしきい値=0.6としてもよい。
信頼度スコアまたはバイナリアクティブ化信号にユーザゲインを掛け、これは、ダイアローグ強調モジュール23に供給される前に、適応的平滑化モジュール25に供給される。図1の従来の平滑化モジュールと同様に、適応的平滑化フィルタ25は、特定の長さの平滑化係数にわたって平滑化フィルタを適用する。しかしながら、モジュール25では、平滑化因子の長さは適応的であり、例えば、音声信頼度スコア及び音楽信頼度スコアに基づく。
システムはさらに、信号対ノイズ比(SNR)検出器26をさらに有し、これは(フレームごとに)オーディオ信号中のSNRを検出し、これを適応的平滑化モジュール25に供給する。
このシステムは、従来のボイスアクティブ化検出器(VAD)または過渡検出器のような、あまり複雑ではないが高速なボイス検出器27をさらに備える。ボイス検出器27からの出力は、適応的平滑化モジュールに供給され、音声分類器のレイテンシの決定を可能にする。図4は、音声信頼度スコアおよびVADからの出力をプロットすることによって、音声分類器のレイテンシの例を示す。
適応的平滑化モジュールは、様々な平滑化機能を使用して、ダイアローグ強調モジュール23に適用されるゲインを平滑化することができる。一般に、平滑化係数は、現在のフレームのゲインを決定する際に考慮される過去のフレームの数に関連する。単純な例では、平滑化係数は、現在のフレームについて平滑化されたゲインを決定するために移動平均に含まれる過去のフレームのウィンドウを画定することができる。
別の例では、フィルタは、以下のような加重平均単極フィルタ法である:
Out(n)=αOut(n-1)+(1-α)In(n),
ここで、Out(n)は現在のフレームの平滑化された出力ゲイン、Out(n-1)は前のフレームの平滑化された出力ゲイン、In(n)は現在のフレームの元の入力ゲイン、αはゼロと1の間の適応的に調整された変数である。過去のフレームの影響は、アルファをベースに指数関数的に減少することは明らかである。αの値が大きいほど、過去のフレームはゆっくりとフェードし、出力ゲインはスムーズに変化する。
αと平滑化係数の関係は、例えば以下のようになる:
α=0.5samples per frame/(sample rate*smoothing factor)
平滑化係数は、例えば、本明細書に記載されている状況に応じて、50ms、300ms、500ms、または1sであってもよい。
平滑化係数がどのように適応的に設定されるかの例を図5の単純なフローチャートに示す。この単純な例では、2つの平滑化係数しか存在せず、小さな係数は50~100msであり、大きな係数は500msより大きい。
まず、ステップS1で、音楽信頼度スコアを使用して、音声信号が音楽と相関しているかどうかを判定する。簡単なアプローチでは、判定は、現在のフレームの音楽信頼度スコアを閾値と比較することによって実行され、かくして、バイナリ信号ON/OFFを生成する。ヒステリシスモデルを適用して、一つまたは複数の先行フレームのバイナリ値を使用することもできる。判定がYESの場合、すなわち、フレームが音楽と相関していることが判明した場合、より大きな平滑化係数(ここでは>500ms)が適用される。
コンテンツが音楽と相関していない場合、処理はステップS2に進み、検出器26からのSNRは閾値、例えば0dBと比較される。SNRが閾値を下回り、信号がノイズに対して弱いことを示す場合は、再度、より大きな(ここでは>500ms)平滑化係数が適用される。
さらに、ステップS3では、音声分類器のレイテンシが、閾値、例えば、150ミリ秒と比較される。レイテンシが閾値を下回らない場合は、再度より大きな(ここでは>500ms)平滑化係数が適用される。
その他すべてのコンテンツについては、「純粋音声」と考えられるが、小さな平滑化係数(ここでは50~100msの範囲のもの)が適用される。
図6は、動的平滑化を使用したダイアローグ強調の例示的プロセス400を示すさらに別のフローチャートである。プロセス400は、一つ以上のプロセッサを含むダイアローグ強調システムによって実行することができる。
ダイアローグ強調システムの音声分類器および音楽分類器は、オーディオコンテンツを含むオーディオ信号を受信する。ダイアローグ強調システムの音声分類器は、音声信頼度を決定する(420)。音楽分類器は、音楽信頼度を決定する(430)。
音声分類器および音楽分類器の出力に応答して、適応的平滑化アルゴリズムは、音楽相関コンテンツに対しより高い値のダイアローグ平滑化係数を計算し、純粋音声コンテンツに対しより低い値のダイアローグ平滑化係数を計算する(440)。適応的平滑化アルゴリズムは、オーディオコンテンツの測定信号対雑音比(SNR)に基づいてダイアローグ平滑化係数を調整する(450)。より低いSNR値は、ダイアローグ平滑化係数のより大きな増加に対応する。
いくつかの実装では、システムはレイテンシに基づいてダイアローグの平滑化係数を調整する。レイテンシベースの調整は、過渡検出器によって、音声分類器の出力のレイテンシの量を測定し、適応的平滑化アルゴリズムによって、レイテンシの量に応じてダイアローグ平滑化係数を増加させることを含むことができる。レイテンシが長ければ、増加量は大きくなる。増加量は、レイテンシの量に直線的に対応し得る。レイテンシの量を測定し、ダイアローグの平滑化係数を増加させることは、リアルタイムで行うことができる。音声コンテンツの第1の部分の各々は、与えられた数の1つ以上のフレームを含む。ダイアローグの平滑化係数は、偽陽性を減らすために最適な値に設定することができる。偽陽性を減少させる最適値は500ミリ秒(ms)である。ダイアローグ平滑化係数は、ダイアローグをブーストするため最適な値に設定できる。ダイアローグのブーストに最適な値は、50~100ミリ秒(両端を含む)の間である。
ダイアローグ強調器は、調整されたダイアローグ平滑化係数に基づいてオーディオコンテンツを強調し、強調されたオーディオを生成する(460)。強調の間、ダイアローグ平滑化係数の値が大きいほど、強調の偽陽性が減少し、ダイアローグ平滑化係数の値が小さいほど、強調のダイアローグブーストが増加する。次に、システムは、処理、再生、ストリーミング、または記憶のために、下流装置、例えばプロセッサ、増幅器、ストリーミングサービサー、または記憶媒体に、拡張された音声コンテンツを供給する(470)。
図7は、一実施形態による、図1~4を参照して説明した特徴およびプロセスを実施するためのモバイルデバイスアーキテクチャである。アーキテクチャ800は、デスクトップコンピュータ、消費者向けオーディオ/ビジュアル(AV)機器、ラジオ放送機器、モバイルデバイス(例えば、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、ウェアラブルデバイス)を含むが、これらに限定されない、任意の電子デバイスで実装することができる。図示した実施形態では、アーキテクチャ800はスマートフォン用であり、プロセッサ(複数可)801、周辺機器インターフェース802、オーディオサブシステム803、ラウドスピーカ804、マイクロホン805、センサ806(例えば、加速度計、ジャイロ、気圧計、磁力計、カメラ)、位置プロセッサ807(例えば、GNSS受信機)、無線通信サブシステム808(例えば、Wi-Fi、Bluetooth、セルラ)およびI/Oサブシステム809を含み、これらは、タッチコントローラ810および他の入力コントローラ811、タッチ面812、および他の入力/制御デバイス813を含む。より多くの構成要素またはより少ない構成要素を有する他のアーキテクチャも、開示された実施形態を実施するために使用することができる。
メモリインタフェース814は、プロセッサ801、周辺機器インターフェース802、およびメモリ815(例えば、フラッシュ、RAM、ROM)に結合される。メモリ815は、オペレーティングシステム命令816、通信命令817、GUI命令818、センサ処理命令819、電話命令820、電子メッセージング命令821、ウェブブラウジング命令822、オーディオ処理命令823、GNSS/ナビゲーション命令824、およびアプリケーション/データ825を含むが、これらに限定されないコンピュータプログラム命令およびデータを記憶する。オーディオ処理命令823は、図1~4を参照して説明したオーディオ処理を実行する命令を含む。
本明細書で説明するシステムの態様は、デジタルまたはデジタル化オーディオファイルを処理するための適切なコンピュータベースのサウンド処理ネットワーク環境で実施することができる。適応的オーディオシステムの一部分は、コンピュータ間で送信されるデータをバッファおよびルーティングするように機能する1つ以上のルータ(図示せず)を含む、任意の所望の数の個々のマシンを含む1つ以上のネットワークを含んでもよい。そのようなネットワークは、種々の異なるネットワークプロトコル上に構築されてもよく、インターネット、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)、またはそれらの任意の組み合わせであってもよい。
コンポーネント、ブロック、プロセス、または他の機能コンポーネントの1つ以上は、システムのプロセッサベースのコンピューティングデバイスの実行を制御するコンピュータプログラムを介して実装することができる。また、ここに開示された種々の機能は、ハードウェア、ファームウェア、および/または種々の機械可読またはコンピュータ可読媒体に具体化されたデータおよび/または命令の任意の数の組み合わせを使用して、それらの動作、レジスタ転送、論理構成要素、および/または他の特徴に関して説明することができることに留意されたい。そのようなフォーマットされたデータおよび/または命令が具体化され得るコンピュータ可読媒体は、光学、磁気または半導体記憶媒体のような種々の形態の物理的(非一時的)不揮発性記憶媒体を含むが、これらに限定されない。
1つまたは複数の実施形態が、例としておよび特定の実施形態に関して説明したが、言うまでもなく、1つまたは複数の実施形態は、開示された実施形態に限定されない。逆に、当業者には明らかなように、種々の修正および類似の構成をカバーすることが意図されている。従って、添付の特許請求の範囲は、そのような修正及び類似の構成の全てを包含するように、最も広い解釈を与えられるべきである。
列挙された例示的実施形態(EEE)のリスト:
EEE1 オーディオにおけるダイアローグの明瞭性を高める方法であって、
ダイアローグ強調システムの音声および音楽分類器が、オーディオ信号を受信することであって、前記オーディオ信号は音声コンテンツを含むことと、
前記音声分類器が、オーディオコンテンツが純粋音声コンテンツを含む信頼度スコアを判定することと、
音楽分類器が、オーディオコンテンツが音楽創刊コンテンツを含む信頼度スコアを判定することと、
音声および音楽分類器の出力に応じて、適応的平滑化アルゴリズムが、音楽相関コンテンツに対してより高い値のダイアローグ平滑化係数を計算し、純粋音声コンテンツに対してより低い値のダイアローグ平滑化係数を計算することと、
オーディオコンテンツの測定信号対ノイズ比(SNR)に基づいて、適応的平滑化アルゴリズムが、ダイアローグ平滑化係数を調整することであって、より低いSNR値は、ダイアローグ平滑化係数のより大きな増加に対応することと、
ダイアローグ強調器が、調整されたダイアローグの平滑化係数に基づきオーディオコンテンツを強調し、強調されたオーディオを生成することであって、ダイアローグ平滑化係数の値が大きいほど、強調における偽陽性が減少し、ダイアローグ平滑化係数の値が小さいほど、強調におけるダイアローグブーストが増加することと、
前記判定、計算、調整、および強調の各々は、一以上のプロセッサによって実行される、方法。
EEE2 レイテンシに基づいてダイアローグ平滑化係数を調整することを含み、レイテンシに基づく調整は、
過渡検出器が、音声分類器の出力のレイテンシの量を測定することと、
適応的平滑化アルゴリズムが、レイテンシの量に応じてダイアローグ平滑化係数を増加させることであって、より長いレイテンシはより大きい増加量に対応する、EEE1に記載の方法。
EEE3 増加の量は、レイテンシの量に直線的に対応する、EEE2に記載の方法。
EEE4 レイテンシの量を測定し、ダイアローグの平滑化係数を増加させることはリアルタイムで行われる、EEE2またはEEE3に記載の方法。
EEE5 音楽相関コンテンツの各々は所定の数の一以上のフレームを含む、EEE1ないし4いずれか一項に記載の方法。
EEE6 ダイアローグ平滑化係数は、偽陽性を減少させるために最適な値に設定される、EEE1ないし5いずれか一項に記載の方法。
EEE7 偽陽性を減少させるための最適値が500ミリ秒(ms)である、EEE6に記載の方法。
EEE8 ダイアローグ平滑化係数はダイアローグをブーストするために最適な値に設定される、EEE1ないし7のいずれか一項に記載の方法。
EEE9 ダイアローグをブーストするための最適値が、50~100ミリ秒(ms)(両端を含む)の間にある、EEE8記載の方法。
EEE10 システムであって、
一以上のコンピュータ・プロセッサと、
一以上のプロセッサにより実行されると、一以上のプロセッサにEEE1ないしEEE9のいずれか一項に記載の動作を実行させる命令を記憶する非一時的コンピュータ読取可能媒体とを有する、システム。
EEE11 一以上のコンピュータ・プロセッサによって実行されると、一以上のプロセッサにEEE1ないしEEE9のいずれか一項に記載の動作を実行させる命令を記憶する非一時的コンピュータ読取可能媒体。

Claims (15)

  1. オーディオ信号におけるダイアローグ明瞭度を強調する方法であって、前記オーディオ信号の各フレームに対して、
    音声分類器が、フレームが音声コンテンツを含む音声信頼度スコアを判定することと、
    音楽分類器が、前記フレームが音楽相関コンテンツを含む音楽信頼度スコアを判定することと、
    前記音声信頼度スコアに応答して、ダイアローグ強調モジュールが、ユーザが選択した前記オーディオ信号の周波数帯域のゲインを適用して、ダイアローグ強調オーディオ信号を取得することとを含み、
    ユーザが選択したゲインは、適応的平滑化アルゴリズムによって平滑化され、前記適応的平滑化アルゴリズムにおける過去のフレームの影響は平滑化係数によって決定され、
    前記平滑化係数は前記音楽信頼度スコアに応答して選択され、音楽信頼度スコアが比較的に高いコンテンツの場合は比較的高い値を有し、音楽信頼度スコアが比較的に低い音声コンテンツの場合は比較的低い値を有し、音楽相関コンテンツのダイアローグ強調に対する過去のフレームの影響を増大させる、
    方法。
  2. 前記音楽信頼度スコアが所定の閾値を上回ったとき、第1のより高い平滑化係数が選択され、前記音楽信頼度スコアが前記所定の閾値を下回ったとき、第2のより低い平滑化係数が選択される、請求項1に記載の方法。
  3. 前記平滑化係数は、時間として表現され、前記適応的平滑化アルゴリズムのフィルタリングウィンドウに関する、請求項1又は2に記載の方法。
  4. 第1の、より高い平滑化係数が500ミリ秒(ms)である、
    請求項3に記載の方法。
  5. 第2の、より低い平滑化係数は、50と100ミリ秒(ms)の間である、
    請求項3または4に記載の方法。
  6. 前記オーディオ信号の信号対雑音比(SNR)を測定することと、
    測定されたSNRに基づいて前記平滑化係数を調整することであって、より低いSNR値はより大きな平滑化係数に対応することとをさらに含む、
    請求項1ないし5いずれか一項に記載の方法。
  7. 前記音声分類器におけるレイテンシを測定することと、
    測定したレイテンシに基づいて前記平滑化係数を調整することであって、より大きなレイテンシはより大きな平滑化係数に対応することとを含む、請求項1ないし6いずれか一項に記載の方法。
  8. 前記平滑化係数の増加量は、前記レイテンシの量に直線的に対応する、
    請求項7に記載の方法。
  9. 前記レイテンシを測定し、前記平滑化係数を増加させることはリアルタイムで行われる、請求項7又は8に記載の方法。
  10. 前記平滑化係数の比較的高い値は、偽陽性を減少させるように選択される、
    請求項1ないし9いずれか一項に記載の方法。
  11. 前記平滑化係数の比較的低い値は、ダイアローグをブーストするように選択される、請求項1ないし10いずれか一項に記載の方法。
  12. 前記適応的平滑化アルゴリズムは、
    Out(n)=αOut(n-1)+(1-α)In(n)
    による重み付き平均であり、
    ここで、Out(n)は現在のフレームの平滑化された出力ゲイン、Out(n-1)は前のフレームの平滑化された出力ゲイン、In(n)は現在のフレームの元の入力ゲイン、そしてαは平滑化係数とともに増加する適応的に調整された変数である、
    請求項1ないし11いずれか一項に記載の方法。
  13. 前記αは、
    α=0.5samples per frame/(sample rate*smoothing factor)
    として定義される、請求項12に記載の方法。
  14. 一以上のコンピュータ・プロセッサと、
    前記一以上のプロセッサにより実行されると、前記一以上のプロセッサに請求項1ないし13いずれか一項に記載の方法を実行させるプログラムを記憶する非一時的コンピュータ読取可能媒体とを含む、
    システム。
  15. 一以上のコンピュータ・プロセッサによる実行されると、前記一以上のプロセッサに請求項1ないし13いずれか一項に記載の方法を実行させるプログラムを記憶する非一時的コンピュータ読取可能媒体。
JP2022513232A 2019-08-27 2020-08-26 適応的平滑化を使用したダイアローグの拡張 Active JP7258228B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN2019102775 2019-08-27
CNPCT/CN2019/102775 2019-08-27
US201962900969P 2019-09-16 2019-09-16
US62/900,969 2019-09-16
US202062963711P 2020-01-21 2020-01-21
US62/963,711 2020-01-21
PCT/US2020/048034 WO2021041568A1 (en) 2019-08-27 2020-08-26 Dialog enhancement using adaptive smoothing

Publications (2)

Publication Number Publication Date
JP2022540511A JP2022540511A (ja) 2022-09-15
JP7258228B2 true JP7258228B2 (ja) 2023-04-14

Family

ID=72433023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022513232A Active JP7258228B2 (ja) 2019-08-27 2020-08-26 適応的平滑化を使用したダイアローグの拡張

Country Status (5)

Country Link
US (1) US20220277766A1 (ja)
EP (1) EP3803861B1 (ja)
JP (1) JP7258228B2 (ja)
CN (1) CN114503197B (ja)
WO (1) WO2021041568A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230290366A1 (en) * 2022-03-10 2023-09-14 Roku, Inc. Automatic Classification of Audio Content as Either Primarily Speech or Primarily Non-speech, to Facilitate Dynamic Application of Dialogue Enhancement
GB2619731A (en) * 2022-06-14 2023-12-20 Nokia Technologies Oy Speech enhancement

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288669A (ja) 2008-05-30 2009-12-10 Toshiba Corp 音質補正装置、音質補正方法及び音質補正用プログラム
JP2011065093A (ja) 2009-09-18 2011-03-31 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6487257B1 (en) * 1999-04-12 2002-11-26 Telefonaktiebolaget L M Ericsson Signal noise reduction by time-domain spectral subtraction using fixed filters
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
BRPI0807703B1 (pt) * 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
CN101399039B (zh) * 2007-09-30 2011-05-11 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
JP4709928B1 (ja) * 2010-01-21 2011-06-29 株式会社東芝 音質補正装置及び音質補正方法
US9171552B1 (en) * 2013-01-17 2015-10-27 Amazon Technologies, Inc. Multiple range dynamic level control
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104079247B (zh) * 2013-03-26 2018-02-09 杜比实验室特许公司 均衡器控制器和控制方法以及音频再现设备
EP4060661B1 (en) * 2014-10-10 2024-04-24 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288669A (ja) 2008-05-30 2009-12-10 Toshiba Corp 音質補正装置、音質補正方法及び音質補正用プログラム
JP2011065093A (ja) 2009-09-18 2011-03-31 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法

Also Published As

Publication number Publication date
CN114503197B (zh) 2023-06-13
US20220277766A1 (en) 2022-09-01
WO2021041568A1 (en) 2021-03-04
JP2022540511A (ja) 2022-09-15
EP3803861A1 (en) 2021-04-14
CN114503197A (zh) 2022-05-13
EP3803861B1 (en) 2022-01-19

Similar Documents

Publication Publication Date Title
JP7150939B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP6325640B2 (ja) 等化器コントローラおよび制御方法
JP6265450B2 (ja) 音声認識方法、音声認識装置、及び電子装置
CN109616142B (zh) 用于音频分类和处理的装置和方法
US11017798B2 (en) Dynamic noise suppression and operations for noisy speech signals
JP7258228B2 (ja) 適応的平滑化を使用したダイアローグの拡張
US20150228293A1 (en) Method and System for Object-Dependent Adjustment of Levels of Audio Objects
US9374651B2 (en) Sensitivity calibration method and audio device
US20240062770A1 (en) Enhanced de-esser for in-car communications systems
CN112470219A (zh) 压缩机目标曲线以避免增强噪声
WO2023006107A1 (zh) 语音交互系统的自动增益控制方法、装置及系统
WO2021197566A1 (en) Noise supression for speech enhancement
JP2022544795A (ja) オーディオのバイノーラル化のステアリング
US20230402050A1 (en) Speech Enhancement
WO2023172609A1 (en) Method and audio processing system for wind noise suppression
CN117859176A (zh) 检测用户生成内容中的环境噪声
EP4278350A1 (en) Detection and enhancement of speech in binaural recordings
EP4392971A1 (en) Detecting environmental noise in user-generated content
JPH10171487A (ja) 音声区間判別装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220823

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230404

R150 Certificate of patent or registration of utility model

Ref document number: 7258228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150