JP7258228B2

JP7258228B2 - 適応的平滑化を使用したダイアローグの拡張

Info

Publication number: JP7258228B2
Application number: JP2022513232A
Authority: JP
Inventors: ユイ，シュエメイ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2019-08-27
Filing date: 2020-08-26
Publication date: 2023-04-14
Anticipated expiration: 2040-08-26
Also published as: CN114503197B; US20220277766A1; WO2021041568A1; JP2022540511A; EP3803861A1; CN114503197A; EP3803861B1

Description

［関連出願の相互参照］
本出願は、２０２０年１月２１日に出願された米国仮特許出願第６２／９６３，７１１号、２０１９年９月１６日に出願された米国仮特許出願第６２／９００，９６９号、および２０１９年８月２７日に出願された国際特許出願第ＰＣＴ／ＣＮ２０１９／１０２７７５号の優先権を主張するものであり、これらのすべては、その全体をここに参照援用する。
［技術分野］
本発明は、ダイアローグ強調を含むオーディオ処理に関する。具体的には、本発明は、増幅され抽出されたダイアローグを平滑化することによってダイアローグ強調を改善することに関する。

ダイアローグ強調は、オーディオ信号中の音声／ダイアローグを強調し、分かりやすさを改善するアルゴリズムである。ダイアローグ強調システムの一例を図１に示す。ここで、ダイアローグ強調システムは、音声の存在を検出するために使用される音声検出器を備えている。音声検出器は、ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ（ＶＡＤ）または機械学習に基づく音声分類器であってもよい。音声検出器からの出力（ＯＮ／ＯＦＦ）は、ユーザが選択したゲインと乗算され、ダイアローグ強調モジュールに入力される。幾つかの望ましくないアーチファクトを避けるために、ゲインは、ダイアローグ強調に入力される前に平滑化される。

このようなダイアローグ強調アルゴリズムの性能をさらに改善することが望ましい。

オーディオにおけるダイアローグの理解度を高める方法，システム，及びコンピュータプログラム製品を説明する。

本発明の第１の態様は、オーディオ信号におけるダイアローグ明瞭度を強調する方法であって、前記オーディオ信号の各フレームに対して、音声分類器が、フレームが音声コンテンツを含む音声信頼度スコアを判定することと、音楽分類器が、前記フレームが音楽相関コンテンツを含む音楽信頼度スコアを判定することと、前記音声信頼度スコアに応答して、ダイアローグ強調モジュールが、ユーザが選択した前記オーディオ信号の周波数帯域のゲインを適用して、ダイアローグ強調オーディオ信号を取得することとを含み、ユーザが選択したゲインは、適応的平滑化アルゴリズムによって平滑化され、前記信頼度スコアにおける過去のフレームの影響は平滑化係数によって決定され、前記平滑化係数は前記音楽信頼度スコアに応答して選択され、音楽信頼度スコアが比較的に高いコンテンツの場合は比較的高い値を有し、音楽信頼度スコアが比較的に低い音声コンテンツの場合は比較的低い値を有し、音楽相関コンテンツのダイアローグ強調に対する過去のフレームの影響を増大させる。

「音楽関連コンテンツ」とは、音楽の存在により音声分類がより難しくなることが予想されるコンテンツを意図している。過去のフレームの影響を増大させることによって、ダイアローグ強調は、音声分類器における「偽陽性」に対する感度を低下させる。

平滑化係数は、適応的平滑化において考慮されるフレーム数に関係する。したがって、より大きな平滑化係数では、より多くのフレームが考慮されるため、ダイアローグ強調の適用がより緩やかに（遅く）なり、「偽陽性」による変動ブースト（ｆｌｕｃｔｕａｔｉｎｇｂｏｏｓｔ）を回避する。小さな平滑化係数では、考慮されるフレーム数が少なくなるため、ダイアローグ強調をより迅速に適用することができる。平滑化係数と平滑化機能の間の関係は、直接的なもの（例えば、平滑化係数が考慮されるフレームの数を定義する）でも、間接的なもの（例えば、平滑化係数が過去のフレームの比較的な重みの減少勾配を定義する）でもよい。

適応的平滑化係数は、コンテンツに基づいて平滑化係数を適応させることを可能にする。音楽が存在するコンテンツ（音楽信頼度スコアが高い）では、平滑化係数を比較的大きく設定することができ（例えば、５００ｍｓ以上のオーダー）、一方、音楽が存在しないコンテンツ（音楽信頼度スコアが低い）では、平滑化係数を比較的小さく設定することができる（例えば、１００ｍｓ以下のオーダー）。

平滑化係数は、追加的パラメータに基づいてさらに適応されてもよい。例えば、低い信号対雑音比（ＳＮＲ）は、より大きな平滑化ファクタをもたらしてもよく、音声分類器における大きなレイテンシは、より大きな平滑化ファクタをもたらしてもよい。

第２の態様によれば、音声分類器および音楽分類器は、オーディオ信号を受信し、オーディオ信号は、オーディオコンテンツを含む。音声分類器は音声信頼度を判定し、音楽分類器は音楽信頼度を判定する。音声および分類器の出力に応じて、適応的平滑化アルゴリズムは、音楽相関コンテンツ（ｍｕｓｉｃｃｏｒｒｅｌａｔｅｄｃｏｎｔｅｎｔ）に対してより高い値のダイアローグ平滑化係数を計算し、純粋音声コンテンツに対してより低い値のダイアローグ平滑化係数を計算する。適応的平滑化アルゴリズムは、音声コンテンツのＳＮＲに基づいてダイアローグ平滑化係数を調整する。より低いＳＮＲは、ダイアローグ平滑化係数のより大きな増加に対応する。過渡検出器（ｔｒａｎｓｉｅｎｔｄｅｔｅｃｔｏｒ）を用いて、リアルタイムで音声分類器のレイテンシを測定してもよく、ダイアローグ平滑化係数は、レイテンシが増加するにつれて直線的に増加されるべきである。ダイアローグ強調器は、調整されたダイアローグ平滑化係数に基づいてオーディオコンテンツを強調し、強調されたオーディオを生成する。

本発明を、本発明の現在の好ましい実施形態を示す添付図面を参照して、より詳細に説明する。
従来のダイアローグ強調システムを示すブロック図である。本発明の一実施形態による動的平滑化を実施するダイアローグ強調システムの一例を示すブロック図である。本発明の一実施形態によるダイアローグ強調システムのより詳細なブロック図である。本発明の一実施形態による、様々な要因が平滑化係数にどのように影響し得るかを示すフローチャートである。ＶＡＤまたは過渡検出器を使用して音声分類器のレイテンシを測定することを示す。動的平滑化を用いたダイアローグ強調のプロセスの一例を示すフローチャートである。一実施形態による、図１ないし６を参照して説明した特徴およびプロセスを実施するための移動装置アーキテクチャである。

従来のダイアローグ強調アルゴリズム、例えば、図１に示すように、一般的には２つの大きな欠点がある：
１．分類器の精度は１００％ではない。音声分類器には、例えば、音楽に乗った音声／歌声および低ＳＮＲコンテンツのようないくつかの典型的な困難なケースがある。状況によっては、ダイアローグ抽出器は、実際にはダイアローグではない場合に、オーディオコンテンツをダイアローグとして誤って識別する。誤ってダイアローグと分類されるフレームは、「偽陽性」と呼ばれることがある。その結果、音楽があるときやＳＮＲが低いときには、ダイアローグブーストは変動する。
２．音声検出器のレイテンシはコンテンツに依存し、レイテンシは１００ｍｓ未満から５００ｍｓ以上まで変化し得る。その結果、言葉の最初の発話（始まり）が見逃され、突然のダイアローグブーストになることがある。

これらの欠点を克服するために、時には、音声分類器の偽陽性及びレイテンシを低減するために、先読みが導入される。例えば、符号化側で２０００ｍｓのレイテンシを許容することができる。しかしながら、モバイル再生側では、レイテンシは非常に敏感かつ重要であり、先読みは許容されない。その結果、精度およびレイテンシの問題は、従来の音声分類器ではさらに悪くなる。

さらに、図１に示すように、従来の信頼度スコアを使用することにより、上記のアーチファクトを除去するか、少なくとも軽減することができる。しかし、固定の平滑化係数は、全ての使用ケースを満足するわけではない。例えば、正確さやレイテンシの問題のために最初の３００ｍｓの言葉が見逃されることは、音楽コンテンツ上の音声でよくあることだが、この場合、ブースト音を自然かつ快適にするために５００ｍｓの平滑化係数が必要となる。しかし、このような大きな平滑化係数は、精度が高く、レイテンシが通常は１００ｍｓである通常の音声コンテンツには適用できない。

本明細書に開示された技術は、発音されるだけでなく、より少ないアーチファクトで快適なダイアローグをもたらすダイアローグ強調に関する。図２は、本発明の一実施形態による、動的平滑化を実施するダイアローグ強調システム２００の一例を示す。図２に示すように、本発明は、様々なコンテンツおよびコンテキストに対して最も適切な平滑化係数を自動的に選択してダイアローグ強調のアーチファクトを低減する適応的平滑化アルゴリズムを含む。

平滑化係数をどのように適用するかいくつかの例を以下に示す：
－履歴と現在の音楽の信頼度スコアを利用する
もし音楽が最後の数フレームまたは現在のフレームで支配的であるなら、平滑化係数は、偽陽性を除去するために、例えば５００ｍｓ以上のように大きくなる傾向があるはずである。
－純粋音声コンテンツの平滑化を減らす
コンテンツが純粋音声の場合、ダイアローグブースト（ｄｉａｌｏｇｕｅｂｏｏｓｔ）をより顕著にするため、平滑化係数を例えば５０ｍｓから１００ｍｓのように小さくすることができる。
－ＳＮＲを利用する
ＳＮＲは、平滑化を導くのを助けるために測定することができ、偽陽性／陰性は、低ＳＮＲコンテンツで高くなる傾向があり、その結果、平滑化係数は、例えば５００ｍｓのように、より保守的に大きくあるべきである。
－リアルタイムでレイテンシを測定することにより、平滑化係数を動的に変更する
ＶＡＤまたは過渡検出器を使用して、リアルタイムで音声分類器のレイテンシを測定することができ、平滑化係数は、レイテンシが増加するにつれて直線的に増加するべきである。コンテンツに応じて、レイテンシは１００ｍｓと小さいか、または大きくても５００ｍｓとなる。

本発明のより詳細な実施形態を図３に示し、ここで、システム２０は、音声分類器２１および音楽分類器２２を含む。音声分類器は、オーディオ信号の特定のフレームが音声（ダイアローグ）を含む尤度を示す音声信頼度スコアを生成する。同様に、音楽分類器は、音声信号の特定のフレームが音楽を含む尤度を示す音楽信頼度スコアを生成し、。分類器は、任意の適切な技術に基づくことができ、例えば、自己回帰（ＡＲ）モデルを学習する機械を含むことができ、分類器からの直接出力は、通常、－∞から∞までの実数値であり、これは、０と１との間の値に、シグモイド関数（ｃｏｎｆ＿ｓｃｏｒｅ＝１／（１＋ｅ^ａｘ＋ｂ）を用いてマッピングされ、ここでｘは直接出力であり、ａおよびＢは定数である。

音声信頼度スコアは、例えば、当技術分野で既知のタイプであるダイアローグ強調モジュール２３を起動するために使用される。単純な場合には、ダイアローグ強調モジュールは静的であり、ユーザが選択したゲインによってオーディオ信号の予め選択された周波数をブーストするように構成される。より複雑な場合には、エンハンスメントモジュールは、ダイアローグコンポーネントを動的に推定し、この推定されたダイアローグコンポーネントをブースト（ｂｏｏｓｔ）する。

原理的には、音声信頼度スコアは、ユーザゲインを乗算した起動信号として直接使用され得る。しかし、まず信頼度スコアをバイナリ値ＯＮ／ＯＦＦにマッピングすると都合がよい。図２において、そのようなマッピングは、ダイアローグ検出器２４によって提供される。このようなマッピングを達成する様々な方法が可能である。例えば、マッピングは、単純な閾値、例えば０．５、であってもよく、０．５より大きい信頼度スコアがＯＮ信号を与え、０．５より小さい信頼度スコアがＯＦＦ信号を与えるようにしてもよい。あるいは、ヒステリシスモデルを適用して、先行フレームのバイナリ値に応じて閾値を異ならせるようにしてもよい。たとえば、前の値がＯＮの場合はしきい値＝０．４、前の値がＯＦＦの場合はしきい値＝０．６としてもよい。

信頼度スコアまたはバイナリアクティブ化信号にユーザゲインを掛け、これは、ダイアローグ強調モジュール２３に供給される前に、適応的平滑化モジュール２５に供給される。図１の従来の平滑化モジュールと同様に、適応的平滑化フィルタ２５は、特定の長さの平滑化係数にわたって平滑化フィルタを適用する。しかしながら、モジュール２５では、平滑化因子の長さは適応的であり、例えば、音声信頼度スコア及び音楽信頼度スコアに基づく。

システムはさらに、信号対ノイズ比（ＳＮＲ）検出器２６をさらに有し、これは（フレームごとに）オーディオ信号中のＳＮＲを検出し、これを適応的平滑化モジュール２５に供給する。

このシステムは、従来のボイスアクティブ化検出器（ＶＡＤ）または過渡検出器のような、あまり複雑ではないが高速なボイス検出器２７をさらに備える。ボイス検出器２７からの出力は、適応的平滑化モジュールに供給され、音声分類器のレイテンシの決定を可能にする。図４は、音声信頼度スコアおよびＶＡＤからの出力をプロットすることによって、音声分類器のレイテンシの例を示す。

適応的平滑化モジュールは、様々な平滑化機能を使用して、ダイアローグ強調モジュール２３に適用されるゲインを平滑化することができる。一般に、平滑化係数は、現在のフレームのゲインを決定する際に考慮される過去のフレームの数に関連する。単純な例では、平滑化係数は、現在のフレームについて平滑化されたゲインを決定するために移動平均に含まれる過去のフレームのウィンドウを画定することができる。

別の例では、フィルタは、以下のような加重平均単極フィルタ法である：
Ｏｕｔ（ｎ）＝αＯｕｔ（ｎ－１）＋（１－α）Ｉｎ（ｎ）,
ここで、Ｏｕｔ（ｎ）は現在のフレームの平滑化された出力ゲイン、Ｏｕｔ（ｎ－１）は前のフレームの平滑化された出力ゲイン、Ｉｎ（ｎ）は現在のフレームの元の入力ゲイン、αはゼロと１の間の適応的に調整された変数である。過去のフレームの影響は、アルファをベースに指数関数的に減少することは明らかである。αの値が大きいほど、過去のフレームはゆっくりとフェードし、出力ゲインはスムーズに変化する。

αと平滑化係数の関係は、例えば以下のようになる：
α＝０．５^{samples per frame/(sample rate*smoothing factor)}
平滑化係数は、例えば、本明細書に記載されている状況に応じて、５０ｍｓ、３００ｍｓ、５００ｍｓ、または１ｓであってもよい。

平滑化係数がどのように適応的に設定されるかの例を図５の単純なフローチャートに示す。この単純な例では、２つの平滑化係数しか存在せず、小さな係数は５０～１００ｍｓであり、大きな係数は５００ｍｓより大きい。

まず、ステップＳ１で、音楽信頼度スコアを使用して、音声信号が音楽と相関しているかどうかを判定する。簡単なアプローチでは、判定は、現在のフレームの音楽信頼度スコアを閾値と比較することによって実行され、かくして、バイナリ信号ＯＮ／ＯＦＦを生成する。ヒステリシスモデルを適用して、一つまたは複数の先行フレームのバイナリ値を使用することもできる。判定がＹＥＳの場合、すなわち、フレームが音楽と相関していることが判明した場合、より大きな平滑化係数（ここでは＞５００ｍｓ）が適用される。

コンテンツが音楽と相関していない場合、処理はステップＳ２に進み、検出器２６からのＳＮＲは閾値、例えば０ｄＢと比較される。ＳＮＲが閾値を下回り、信号がノイズに対して弱いことを示す場合は、再度、より大きな（ここでは＞５００ｍｓ）平滑化係数が適用される。

さらに、ステップＳ３では、音声分類器のレイテンシが、閾値、例えば、１５０ミリ秒と比較される。レイテンシが閾値を下回らない場合は、再度より大きな（ここでは＞５００ｍｓ）平滑化係数が適用される。

その他すべてのコンテンツについては、「純粋音声」と考えられるが、小さな平滑化係数（ここでは５０～１００ｍｓの範囲のもの）が適用される。

図６は、動的平滑化を使用したダイアローグ強調の例示的プロセス４００を示すさらに別のフローチャートである。プロセス４００は、一つ以上のプロセッサを含むダイアローグ強調システムによって実行することができる。

ダイアローグ強調システムの音声分類器および音楽分類器は、オーディオコンテンツを含むオーディオ信号を受信する。ダイアローグ強調システムの音声分類器は、音声信頼度を決定する（４２０）。音楽分類器は、音楽信頼度を決定する（４３０）。

音声分類器および音楽分類器の出力に応答して、適応的平滑化アルゴリズムは、音楽相関コンテンツに対しより高い値のダイアローグ平滑化係数を計算し、純粋音声コンテンツに対しより低い値のダイアローグ平滑化係数を計算する（４４０）。適応的平滑化アルゴリズムは、オーディオコンテンツの測定信号対雑音比（ＳＮＲ）に基づいてダイアローグ平滑化係数を調整する（４５０）。より低いＳＮＲ値は、ダイアローグ平滑化係数のより大きな増加に対応する。

いくつかの実装では、システムはレイテンシに基づいてダイアローグの平滑化係数を調整する。レイテンシベースの調整は、過渡検出器によって、音声分類器の出力のレイテンシの量を測定し、適応的平滑化アルゴリズムによって、レイテンシの量に応じてダイアローグ平滑化係数を増加させることを含むことができる。レイテンシが長ければ、増加量は大きくなる。増加量は、レイテンシの量に直線的に対応し得る。レイテンシの量を測定し、ダイアローグの平滑化係数を増加させることは、リアルタイムで行うことができる。音声コンテンツの第１の部分の各々は、与えられた数の１つ以上のフレームを含む。ダイアローグの平滑化係数は、偽陽性を減らすために最適な値に設定することができる。偽陽性を減少させる最適値は５００ミリ秒（ｍｓ）である。ダイアローグ平滑化係数は、ダイアローグをブーストするため最適な値に設定できる。ダイアローグのブーストに最適な値は、５０～１００ミリ秒（両端を含む）の間である。

ダイアローグ強調器は、調整されたダイアローグ平滑化係数に基づいてオーディオコンテンツを強調し、強調されたオーディオを生成する（４６０）。強調の間、ダイアローグ平滑化係数の値が大きいほど、強調の偽陽性が減少し、ダイアローグ平滑化係数の値が小さいほど、強調のダイアローグブーストが増加する。次に、システムは、処理、再生、ストリーミング、または記憶のために、下流装置、例えばプロセッサ、増幅器、ストリーミングサービサー、または記憶媒体に、拡張された音声コンテンツを供給する（４７０）。

図７は、一実施形態による、図１～４を参照して説明した特徴およびプロセスを実施するためのモバイルデバイスアーキテクチャである。アーキテクチャ８００は、デスクトップコンピュータ、消費者向けオーディオ／ビジュアル（ＡＶ）機器、ラジオ放送機器、モバイルデバイス（例えば、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、ウェアラブルデバイス）を含むが、これらに限定されない、任意の電子デバイスで実装することができる。図示した実施形態では、アーキテクチャ８００はスマートフォン用であり、プロセッサ（複数可）８０１、周辺機器インターフェース８０２、オーディオサブシステム８０３、ラウドスピーカ８０４、マイクロホン８０５、センサ８０６（例えば、加速度計、ジャイロ、気圧計、磁力計、カメラ）、位置プロセッサ８０７（例えば、ＧＮＳＳ受信機）、無線通信サブシステム８０８（例えば、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ、セルラ）およびＩ／Ｏサブシステム８０９を含み、これらは、タッチコントローラ８１０および他の入力コントローラ８１１、タッチ面８１２、および他の入力／制御デバイス８１３を含む。より多くの構成要素またはより少ない構成要素を有する他のアーキテクチャも、開示された実施形態を実施するために使用することができる。

メモリインタフェース８１４は、プロセッサ８０１、周辺機器インターフェース８０２、およびメモリ８１５（例えば、フラッシュ、ＲＡＭ、ＲＯＭ）に結合される。メモリ８１５は、オペレーティングシステム命令８１６、通信命令８１７、ＧＵＩ命令８１８、センサ処理命令８１９、電話命令８２０、電子メッセージング命令８２１、ウェブブラウジング命令８２２、オーディオ処理命令８２３、ＧＮＳＳ／ナビゲーション命令８２４、およびアプリケーション／データ８２５を含むが、これらに限定されないコンピュータプログラム命令およびデータを記憶する。オーディオ処理命令８２３は、図１～４を参照して説明したオーディオ処理を実行する命令を含む。

本明細書で説明するシステムの態様は、デジタルまたはデジタル化オーディオファイルを処理するための適切なコンピュータベースのサウンド処理ネットワーク環境で実施することができる。適応的オーディオシステムの一部分は、コンピュータ間で送信されるデータをバッファおよびルーティングするように機能する１つ以上のルータ（図示せず）を含む、任意の所望の数の個々のマシンを含む１つ以上のネットワークを含んでもよい。そのようなネットワークは、種々の異なるネットワークプロトコル上に構築されてもよく、インターネット、広域ネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、またはそれらの任意の組み合わせであってもよい。

コンポーネント、ブロック、プロセス、または他の機能コンポーネントの１つ以上は、システムのプロセッサベースのコンピューティングデバイスの実行を制御するコンピュータプログラムを介して実装することができる。また、ここに開示された種々の機能は、ハードウェア、ファームウェア、および／または種々の機械可読またはコンピュータ可読媒体に具体化されたデータおよび／または命令の任意の数の組み合わせを使用して、それらの動作、レジスタ転送、論理構成要素、および／または他の特徴に関して説明することができることに留意されたい。そのようなフォーマットされたデータおよび／または命令が具体化され得るコンピュータ可読媒体は、光学、磁気または半導体記憶媒体のような種々の形態の物理的（非一時的）不揮発性記憶媒体を含むが、これらに限定されない。

１つまたは複数の実施形態が、例としておよび特定の実施形態に関して説明したが、言うまでもなく、１つまたは複数の実施形態は、開示された実施形態に限定されない。逆に、当業者には明らかなように、種々の修正および類似の構成をカバーすることが意図されている。従って、添付の特許請求の範囲は、そのような修正及び類似の構成の全てを包含するように、最も広い解釈を与えられるべきである。

列挙された例示的実施形態（ＥＥＥ）のリスト：
ＥＥＥ１オーディオにおけるダイアローグの明瞭性を高める方法であって、
ダイアローグ強調システムの音声および音楽分類器が、オーディオ信号を受信することであって、前記オーディオ信号は音声コンテンツを含むことと、
前記音声分類器が、オーディオコンテンツが純粋音声コンテンツを含む信頼度スコアを判定することと、
音楽分類器が、オーディオコンテンツが音楽創刊コンテンツを含む信頼度スコアを判定することと、
音声および音楽分類器の出力に応じて、適応的平滑化アルゴリズムが、音楽相関コンテンツに対してより高い値のダイアローグ平滑化係数を計算し、純粋音声コンテンツに対してより低い値のダイアローグ平滑化係数を計算することと、
オーディオコンテンツの測定信号対ノイズ比（ＳＮＲ）に基づいて、適応的平滑化アルゴリズムが、ダイアローグ平滑化係数を調整することであって、より低いＳＮＲ値は、ダイアローグ平滑化係数のより大きな増加に対応することと、
ダイアローグ強調器が、調整されたダイアローグの平滑化係数に基づきオーディオコンテンツを強調し、強調されたオーディオを生成することであって、ダイアローグ平滑化係数の値が大きいほど、強調における偽陽性が減少し、ダイアローグ平滑化係数の値が小さいほど、強調におけるダイアローグブーストが増加することと、
前記判定、計算、調整、および強調の各々は、一以上のプロセッサによって実行される、方法。

ＥＥＥ２レイテンシに基づいてダイアローグ平滑化係数を調整することを含み、レイテンシに基づく調整は、
過渡検出器が、音声分類器の出力のレイテンシの量を測定することと、
適応的平滑化アルゴリズムが、レイテンシの量に応じてダイアローグ平滑化係数を増加させることであって、より長いレイテンシはより大きい増加量に対応する、ＥＥＥ１に記載の方法。

ＥＥＥ３増加の量は、レイテンシの量に直線的に対応する、ＥＥＥ２に記載の方法。

ＥＥＥ４レイテンシの量を測定し、ダイアローグの平滑化係数を増加させることはリアルタイムで行われる、ＥＥＥ２またはＥＥＥ３に記載の方法。

ＥＥＥ５音楽相関コンテンツの各々は所定の数の一以上のフレームを含む、ＥＥＥ１ないし４いずれか一項に記載の方法。

ＥＥＥ６ダイアローグ平滑化係数は、偽陽性を減少させるために最適な値に設定される、ＥＥＥ１ないし５いずれか一項に記載の方法。

ＥＥＥ７偽陽性を減少させるための最適値が５００ミリ秒（ｍｓ）である、ＥＥＥ６に記載の方法。

ＥＥＥ８ダイアローグ平滑化係数はダイアローグをブーストするために最適な値に設定される、ＥＥＥ１ないし７のいずれか一項に記載の方法。

ＥＥＥ９ダイアローグをブーストするための最適値が、５０～１００ミリ秒（ｍｓ）（両端を含む）の間にある、ＥＥＥ８記載の方法。

ＥＥＥ１０システムであって、
一以上のコンピュータ・プロセッサと、
一以上のプロセッサにより実行されると、一以上のプロセッサにＥＥＥ１ないしＥＥＥ９のいずれか一項に記載の動作を実行させる命令を記憶する非一時的コンピュータ読取可能媒体とを有する、システム。

ＥＥＥ１１一以上のコンピュータ・プロセッサによって実行されると、一以上のプロセッサにＥＥＥ１ないしＥＥＥ９のいずれか一項に記載の動作を実行させる命令を記憶する非一時的コンピュータ読取可能媒体。

Claims

オーディオ信号におけるダイアローグ明瞭度を強調する方法であって、前記オーディオ信号の各フレームに対して、
音声分類器が、フレームが音声コンテンツを含む音声信頼度スコアを判定することと、
音楽分類器が、前記フレームが音楽相関コンテンツを含む音楽信頼度スコアを判定することと、
前記音声信頼度スコアに応答して、ダイアローグ強調モジュールが、ユーザが選択した前記オーディオ信号の周波数帯域のゲインを適用して、ダイアローグ強調オーディオ信号を取得することとを含み、
ユーザが選択したゲインは、適応的平滑化アルゴリズムによって平滑化され、前記適応的平滑化アルゴリズムにおける過去のフレームの影響は平滑化係数によって決定され、
前記平滑化係数は前記音楽信頼度スコアに応答して選択され、音楽信頼度スコアが比較的に高いコンテンツの場合は比較的高い値を有し、音楽信頼度スコアが比較的に低い音声コンテンツの場合は比較的低い値を有し、音楽相関コンテンツのダイアローグ強調に対する過去のフレームの影響を増大させる、
方法。
前記音楽信頼度スコアが所定の閾値を上回ったとき、第１のより高い平滑化係数が選択され、前記音楽信頼度スコアが前記所定の閾値を下回ったとき、第２のより低い平滑化係数が選択される、請求項１に記載の方法。
前記平滑化係数は、時間として表現され、前記適応的平滑化アルゴリズムのフィルタリングウィンドウに関する、請求項１又は２に記載の方法。
第１の、より高い平滑化係数が５００ミリ秒（ｍｓ）である、
請求項３に記載の方法。
第２の、より低い平滑化係数は、５０と１００ミリ秒（ｍｓ）の間である、
請求項３または４に記載の方法。
前記オーディオ信号の信号対雑音比（ＳＮＲ）を測定することと、
測定されたＳＮＲに基づいて前記平滑化係数を調整することであって、より低いＳＮＲ値はより大きな平滑化係数に対応することとをさらに含む、
請求項１ないし５いずれか一項に記載の方法。
前記音声分類器におけるレイテンシを測定することと、
測定したレイテンシに基づいて前記平滑化係数を調整することであって、より大きなレイテンシはより大きな平滑化係数に対応することとを含む、請求項１ないし６いずれか一項に記載の方法。
前記平滑化係数の増加量は、前記レイテンシの量に直線的に対応する、
請求項７に記載の方法。
前記レイテンシを測定し、前記平滑化係数を増加させることはリアルタイムで行われる、請求項７又は８に記載の方法。
前記平滑化係数の比較的高い値は、偽陽性を減少させるように選択される、
請求項１ないし９いずれか一項に記載の方法。
前記平滑化係数の比較的低い値は、ダイアローグをブーストするように選択される、請求項１ないし１０いずれか一項に記載の方法。
前記適応的平滑化アルゴリズムは、
Ｏｕｔ（ｎ）＝αＯｕｔ（ｎ－１）＋（１－α）Ｉｎ（ｎ）
による重み付き平均であり、
ここで、Ｏｕｔ（ｎ）は現在のフレームの平滑化された出力ゲイン、Ｏｕｔ（ｎ－１）は前のフレームの平滑化された出力ゲイン、Ｉｎ（ｎ）は現在のフレームの元の入力ゲイン、そしてαは平滑化係数とともに増加する適応的に調整された変数である、
請求項１ないし１１いずれか一項に記載の方法。
前記αは、
α＝0.5^{samples per frame/(sample rate*smoothing factor)}
として定義される、請求項１２に記載の方法。
一以上のコンピュータ・プロセッサと、
前記一以上のプロセッサにより実行されると、前記一以上のプロセッサに請求項１ないし１３いずれか一項に記載の方法を実行させるプログラムを記憶する非一時的コンピュータ読取可能媒体とを含む、
システム。
一以上のコンピュータ・プロセッサによる実行されると、前記一以上のプロセッサに請求項１ないし１３いずれか一項に記載の方法を実行させるプログラムを記憶する非一時的コンピュータ読取可能媒体。