JP2022529437A

JP2022529437A - ダイアログ検出器

Info

Publication number: JP2022529437A
Application number: JP2021561019A
Authority: JP
Inventors: ルゥ，リエ; リウ，シン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2019-04-18
Filing date: 2020-04-13
Publication date: 2022-06-22
Also published as: EP3956890A1; EP3956890B1; US20220199074A1; KR20210154807A; BR112021020151A2; CN113748461A; WO2020214541A1

Abstract

本願は、入力オーディオ信号に応答してダイアログ検出器においてオーディオ特徴を抽出する方法に関する。本方法は、入力オーディオ信号を複数のフレームに分割する段階と、各フレームからフレーム・オーディオ特徴を抽出する段階と、コンテキスト窓の集合を決定する段階であって、各コンテキスト窓は現在フレームのまわりのいくつかのフレームを含む、段階と、各コンテキスト窓について、それぞれのコンテキストにおけるフレームのフレーム・オーディオ特徴に基づいて、現在フレームについての有意なコンテキスト・オーディオ特徴を導出する段階と、各コンテキスト・オーディオ特徴を連結して、現在フレームを表す合成特徴ベクトルを形成する段階とを含む。異なる長さのコンテキスト窓は、応答速度を改善し、堅牢性を改善することができる。

Description

関連出願への相互参照
本願は、2019年4月18日に出願されたPCT特許出願第PCT/CN2019/083173号、2019年4月30日に出願された米国仮特許出願第62/840,839号、および2019年8月20日に出願されたEP特許出願第19192553.6号の優先権を主張するものであり、これらの各出願は、その全体が参照により本明細書に組み込まれる。

技術分野
本願の開示は、概括的にはオーディオ信号処理に関し、詳細にはダイアログ検出器に関する。

ダイアログ検出器は、複数のオーディオ信号処理アルゴリズム、たとえば、ダイアログ向上、ノイズ削減、およびラウドネスメーターのキーとなるコンポーネントである。一般に、現在のダイアログ検出器では、入力オーディオ信号は、まず、サンプリングレート変換またはダウンミックスなどの手段によって、前処理コンポーネントにおいて一様なフォーマットに変換される。たとえば、前処理として、入力オーディオ信号はモノ・オーディオ信号にダウンミックスされてもよい。次に、処理されたオーディオ信号が短い時間的フレームに分割され、各フレームの特性を記述するために、固定数のフレームを含むコンテキストウィンドウからオーディオ特徴（features）が抽出される。次いで、機械学習法を用いて構築された分類器が適用されて、オーディオ特徴を自動的に、ダイアログの存在の確率を表す信頼スコアにマッピングする。最後に、得られた信頼スコアの望まれないゆらぎを除去または平滑化するために、メジアンまたは平均フィルタのような後処理が適用されることができる。信頼スコアが高い場合に、信号はダイアログにとして分類される。次いで、ダイアログ信号は、ダイアログ向上器のようなオーディオ改善装置に送られてもよい。

本発明の第1の側面は、入力オーディオ信号に応答してダイアログ検出器内のオーディオ特徴を抽出する方法に関する。当該方法は、前記入力オーディオ信号を複数のフレームに分割する段階と、各フレームからフレーム・オーディオ特徴を抽出する段階と、コンテキスト窓の集合を決定する段階であって、各コンテキスト窓は、現在フレームを囲むいくつかのフレームを含む、段階と、各コンテキスト窓について、それぞれのコンテキストにおけるフレームのフレーム・オーディオ特徴に基づいて、現在フレームについて関連するコンテキスト・オーディオ特徴を導出する段階と、各コンテキスト・オーディオ特徴を連結して、現在フレームを表す合成特徴ベクトルを形成する段階と、を含む方法。

このように、本発明は、異なるコンテキストにおけるフレームを表現するために、それぞれが異なる数のフレームを含むいくつかのコンテキスト窓を使用することを提案する。ここで、異なる長さのコンテキスト窓は、目標フレームのオーディオ特性を表現する際に異なる役割を果たす。異なる長さのコンテキスト窓は、応答速度を改善し、堅牢性を改善することができる。この目的のために、本願は、異なる長さまたは範囲の複数のコンテキスト窓、たとえば3つのコンテキスト窓、たとえば短期コンテキスト、中期コンテキストおよび長期コンテキストを決定するための、新しいプロセス、複合期間（combo-term）コンテキスト決定を導入する。すると、オーディオ特徴抽出コンポーネントにおいて、それらのコンテキストにおいてオーディオ特徴が抽出される。

いくつかの実装では、フレーム特徴抽出コンポーネントは、入力オーディオ信号から分割された複数のフレームの各フレームからフレーム・オーディオ特徴（すなわち、フレームのオーディオ特徴）を抽出し、複合期間コンテキスト決定コンポーネントが、各コンテキスト窓の長さまたは範囲を決定する。次いで、それぞれの決定されたコンテキストにおけるフレーム・オーディオ特徴に基づいて、関連するコンテキスト・オーディオ特徴が導出される。次いで、各コンテキスト・オーディオ特徴が連結されて、現在フレームを表す合成特徴ベクトルを形成する。

いくつかの実装では、コンテキスト窓は、短期コンテキスト、中期コンテキスト、長期コンテキストを含む。短期コンテキストは、現在フレームのまわりのローカルな情報を表す。中期コンテキストは、複数の回顧フレームをさらに含む。長期コンテキストは、複数の長期履歴フレームをさらに含む。

いくつかの実装では、一つまたは複数のコンテキストの長さまたは範囲（すなわち、それぞれのコンテキスト窓内のフレームの数）は、あらかじめ決定されることができる。たとえば、先読みバッファが利用可能である場合、短期コンテキストは現在フレームと先読みフレームを含むことができる。中期コンテキストは、現在フレーム、先読みフレームおよび回顧フレームを含むことができる。長期コンテキストは、現在フレーム、先読みフレーム、回顧フレーム、および長期履歴フレームを含むことができる。ある実装では、先読みフレームの長さまたは範囲は、23フレームの長さとしてあらかじめ決定されることができ、回顧フレームの長さまたは範囲は、24フレームの長さとしてあらかじめ決定されることができ、長期履歴フレームの長さまたは範囲は、48～96フレームの長さとしてあらかじめ決定されることができる。別の例では、先読みバッファが利用可能でない場合、短期コンテキストは、現在フレームと回顧フレームの第1の部分とを含むことができる。中期コンテキストは、現在フレームと、回顧フレームの前記第1の部分と、回顧フレームの第2の部分とを含むことができる。長期コンテキストは、現在フレームと、回顧フレームの前記第1の部分と、回顧フレームの前記第2の部分と、長期履歴フレームとを含むことができる。したがって、回顧フレームの第1の部分の長さまたは範囲は、23フレームの長さとしてあらかじめ決定されることができ、回顧フレームの第2の部分の長さまたは範囲は、24フレームの長さとしてあらかじめ決定されることができ、長期履歴フレームの長さまたは範囲は48～96フレームの長さとしてあらかじめ決定されることができる。

いくつかの実装では、一つまたは複数のコンテキストの長さまたは範囲は、フレーム・レベルの特徴の定常性（stationarity）を解析することによって適応的に決定できる。たとえば、適応的な決定は、入力オーディオ信号の振幅に関連する情報に基づく。具体的には、短期コンテキストの長さまたは範囲を適応的に決定する一つの仕方は、強力な立ち上がりまたは過渡検出に基づく。別の例では、適応的な決定は、入力オーディオ信号のスペクトルに関連する情報に基づく。具体的には、短期コンテキストの長さまたは範囲を適応的に決定する一つの仕方は、ベイズ情報基準（Bayesian Information Criteria）を使用することによって最大スペクトル不整合（inconsistency）を識別することに基づいている。さらに、適応的な決定の実装において、短期コンテキストは、先読みおよび回顧の両方の方向に拡張する、または、一方の方向のみに拡張することができる。いくつかの実装では、コンテキストの長さまたは範囲は、適応的な決定と組み合わせて事前に定義されることができる。

さらに、本願は、低SNRダイアログにおける検出精度を改善するために、信号における無相関ノイズを除去する事前クリーニング法を提案する。この目的のために、本願は、相関した信号に、より重点を置いて、時間‐周波数依存利得によるダウンミックスを利用する。

いくつかの実装では、入力音声信号は、まず複数のフレームに分割され、次いで、左チャネルおよび右チャネルにおけるフレームは、フレームのスペクトル表現に変換される。左チャネルおよび右チャネルにおける無相関信号は、それぞれ左チャネルおよび右チャネルにおけるスペクトルに対して周波数依存の利得を適用することによって除去され、ダウンミックス後の信号を得る。いくつかの実装では、周波数依存の利得は、共分散行列から推定できる。

さらに、本願は、音楽コンテンツ検出器を導入する。それにより、もとのダイアログ信頼スコアを修正し、最終的な修正されたダイアログ信頼スコアを得るために、音楽信頼スコアと発話信頼スコアの両方が、合同して考慮されることができ、音楽における誤警報を有意に減少させる。

いくつかの実装では、発話コンテンツ検出器は、コンテキスト窓を使用して抽出された特徴を受領し、次いで、発話コンテンツ検出器は、発話信頼スコアを決定する。次に、コンテキスト窓を使用して抽出された特徴を音楽コンテンツ検出器が受領し、次いで、音楽コンテンツ検出器が音楽信頼スコアを決定する。発話信頼スコアと音楽信頼スコアは、最終的なダイアログ信頼スコアを得るために組み合わされる。いくつかの実装では、最終的なダイアログ信頼スコアは、履歴コンテキストにおける発話または音楽として識別されるフレームの比率に基づいて計算できるコンテキスト依存パラメータによって洗練されることができる。いくつかの実装では、履歴コンテキストは10秒以上の長さであることができる。

含まれる図は、例解目的のためのものであり、開示される発明の方法、システムおよびコンピュータ読み取り可能媒体のための可能な動作の例を提供するだけのものである。これらの図は、開示された実装の精神および範囲から逸脱することなく、当業者によってなされうる形態および詳細におけるいかなる変更も決して制限しない。
いくつかの実装による、複合期間コンテキスト決定コンポーネント104を組み込んだダイアログ検出器100のブロック図を示す。いくつかの実装による、ダイアログ検出器100内のオーディオ特徴抽出コンポーネント102のブロック図を示す。複合期間コンテキスト決定コンポーネント104を使用することによって、複合期間コンテキストの長さまたは範囲をあらかじめ決定するための、いくつかの実装の方法200のフローチャートを示す。 4aは、いくつかの実装による、先読みバッファが利用可能である場合の、複合期間コンテキストのあらかじめ決定された長さまたは範囲の例を示す。4bは、いくつかの実装による、先読みバッファが利用可能でない場合の、複合期間コンテキストのあらかじめ決定された長さまたは範囲の例を示す。複合期間コンテキスト決定コンポーネント104を使用することによって、複合期間コンテキストの長さまたは範囲を適応的に決定するための、いくつかの実装の方法300の一例のフローチャートを示す。コンテキスト境界探索範囲において示される方法300の概略図を示す。複合期間コンテキスト決定コンポーネント104を使用することによって、複合期間コンテキストの長さまたは範囲を適応的に決定するための、いくつかの実装の方法400の別の例のフローチャートを示す。ベイズ情報基準窓において示される、方法400の概略図を示す。いくつかの実装による、先読みバッファが利用可能である場合の、複合期間コンテキストの適応的に決定された長さまたは範囲の例を示す。いくつかの実装に従って実行される、ダイアログ検出器の入力オーディオ信号をダウンミックスする方法500の例のフローチャートを示す。いくつかの実装による、音楽コンテンツ検出器606をさらに統合するダイアログ検出器600のブロック図を示す。

上述したように、通常の現行のダイアログ検出器では、各フレームは、コンテキスト、すなわち、いくつかのフレーム（32または48フレームなど）を含む窓によって表され、このコンテキスト窓内の諸フレームから抽出されたオーディオ特徴で分類される。しかしながら、そのような従来のダイアログ検出器の問題は、検出に大きなレイテンシーを導入することがあることである。これは、検出器は、いくつかのダイアログ・フレームを識別した後にはじめてダイアログが存在するかどうかを判定でき、このことは、リアルタイムアプリケーションにマイナスの影響をもつことがありうる。加えて、歌声またはラップから発話を弁別するのに寄与しうる、より堅牢なリズム特徴を抽出することができず、よって、ダイアログ検出における堅牢性にマイナスの影響をもつことがありうる。

これらの問題に対処するために、本願は、いくつかのスケールでフレームを表すための、異なる長さのコンテキスト窓の集合を組み込む技術を開示する。異なる長さのコンテキスト窓は、目標フレームのオーディオ特性を表す際に異なる役割を果たす。入力オーディオ信号に応答するダイアログ検出器のオーディオ特徴抽出のための前記技術を実装する方法、システムおよびコンピュータ読み取り可能媒体のいくつかの例は、以下のように開示される。

図1は、いくつかの実装による、複合期間コンテキスト窓決定コンポーネント104を組み込んだダイアログ検出器100のブロック図を示す。図1において、前処理コンポーネント102は、入力オーディオ信号を受領する。前処理コンポーネント102において、入力オーディオ信号はモノ・オーディオ信号にダウンミックスされてもよく、次いでフレームに分割される。次に、複合期間コンテキスト決定コンポーネント104およびオーディオ特徴抽出コンポーネント106は、それぞれ、前処理コンポーネント102からフレームを受領する。次いで、オーディオ特徴抽出コンポーネント106において、各フレームからフレーム・オーディオ特徴が抽出される。さらに、複合期間コンテキスト決定コンポーネント104において、各コンテキスト窓の長さまたは範囲が決定される。次いで、オーディオ特徴抽出コンポーネント106は、複合期間決定コンポーネント104から決定結果を受領する。次に、オーディオ特徴抽出コンポーネント106において、各コンテキスト窓内のフレーム・オーディオ特徴が、決定されたコンテキスト窓に依存して各コンテキスト特徴を導出するために使用される。次いで、各コンテキスト特徴集合が連結され、または組み合わされて、合同特徴ベクトルを形成する。次に、分類器108が、オーディオ特徴抽出コンポーネント106から、抽出された特徴ベクトルを受領する。分類器108において、ダイアログの存在の確率を表す信頼スコアが得られる。最後に、後処理コンポーネント110において、得られた信頼スコアが、たとえばメジアンフィルタまたは平均フィルタによって平滑化され、その望まれないゆらぎを除去することができる。

図2は、いくつかの実装による、ダイアログ検出器100内のオーディオ特徴抽出コンポーネント106のブロック図を示す。具体的には、複合期間コンテキスト特徴抽出および組み合わせが記載される。図2では、オーディオ特徴抽出コンポーネント106内で、それぞれの受領されたフレームからフレーム・オーディオ特徴が、フレーム特徴抽出コンポーネント1060によって抽出される。次いで、複合期間コンテキスト決定コンポーネント104において、各コンテキスト窓、この場合は短期コンテキスト窓、中期コンテキスト窓、および長期コンテキスト窓の長さまたは範囲が決定される。次に、短期コンテキスト・オーディオ特徴、中期コンテキスト・オーディオ特徴、および長期コンテキスト・オーディオ特徴が、それぞれ、短期コンテキスト窓、中期コンテキスト窓、および長期コンテキスト窓におけるフレーム・オーディオ特徴に基づいて導出される。最後に、これらの3つのコンテキスト特徴集合は連結され、大きな次元の特徴ベクトルを形成する。たとえば、各コンテキスト特徴が100次元であるとすると、連結された特徴は300次元となる。

よって、本願は、現在フレームを表すための1つのコンテキスト窓ではなく、複数のコンテキスト窓を使用する。ある実施形態では、現在フレームを表すために、異なる長さまたは範囲をもつ3つのコンテキスト窓、すなわち、短期コンテキスト窓、中期コンテキスト窓、および長期コンテキスト窓が存在する。特に、短期コンテキストは、ダイアログが現れたときに検出器がより速く応答しうるように、目標フレームのまわりのローカルな情報を表す。中期コンテキストは、オーディオ・コンテンツ解析のための合理的な時間的スパンを提供することができるので、既存の検出器で使用される対応物である。長期コンテキスト窓は、よりグローバルな情報を表しており、リズム特徴のみを抽出する。短期コンテキストまたは中期コンテキスト窓は、典型的には、堅牢なリズム特徴を抽出するのに十分な長さではないためである。すなわち、本願は、応答速度を改善するために短期コンテキスト窓を追加し、堅牢性を改善するために長期コンテキストを追加する。よって、これらの3つのコンテキスト窓の長さは、特徴抽出の間に決定されるべきである。この目的に向け、本願は、短期コンテキスト窓、中期コンテキスト窓、および長期コンテキスト窓の長さを決定するための複合期間決定コンポーネントを導入する。

一例では、フレーム・オーディオ特徴は、サブバンド特徴またはフルバンド特徴のうちの少なくとも1つを含むことができる。サブバンド特徴の例は、サブバンド・スペクトル・エネルギー分布、サブバンド・スペクトル・コントラスト、サブバンド部分顕著性（partial prominence）、メル‐周波数ケプストラム係数（Mel-frequency cepstral coefficients、MFCC）、MFCCフラックスおよび低音エネルギーを含む。フルバンド特徴の例は、スペクトル・フラックス、スペクトル残差および短時間エネルギーを含む。

一例では、コンテキスト・オーディオ特徴は、一つまたは複数のフレーム・オーディオ特徴から導出されてもよい。たとえば、コンテキスト・オーディオ特徴は、平均、モード、メジアン、分散または標準偏差のような、フレーム・オーディオ特徴の統計を含んでいてもよい。

追加的または代替的に、コンテキスト・オーディオ特徴は、2D変調特徴、リズム強度、リズム明瞭度、リズム規則性、平均テンポおよび／または窓レベルの相関（すなわち、コンテキスト・レベルの相関）のようなリズム関連特徴を含んでいてもよい。

フレーム・オーディオ特徴およびコンテキスト・オーディオ特徴の前述の例は、網羅的なものではなく、挙げられた特徴に代えてまたは加えて、さまざまな他のフレーム・オーディオ特徴およびコンテキスト・オーディオ特徴が使用されてもよい。

図3は、複合期間コンテキスト決定コンポーネント104を使用することによって、複合期間コンテキストの長さまたは範囲をあらかじめ決定するための、いくつかの実装の方法200のフローチャートを示す。この例示的実施形態では、複合期間コンテキストの長さまたは範囲は、あらかじめ決定されることができる。一例では、先読みバッファが利用可能である場合、202において、短期コンテキストは、現在フレームと数個の先読みフレームのみを含むように決定されることができる。ここで、先読みフレームの長さまたは範囲は、23個のフレームとしてあらかじめ定義されることができ、よって、短期コンテキストの全長または範囲は、24個のフレームであり、これからくる最新のコンテンツを解析するようにする。204では、中期コンテキストは、現在フレーム、数個の先読みフレーム、および数個の回顧フレームを含むように決定されることができる。ここで、回顧フレームの長さまたは範囲は、24個のフレームとしてあらかじめ定義されることができ、よって、中期コンテキストの全長または範囲は、48個のフレームである。次に、206では、長期コンテキストは、現在フレーム、数個の先読みフレーム、数個の回顧フレーム、およびさらなる履歴フレームを含むように決定されることができる。ここで、長期履歴フレームの長さまたは範囲は、48～96個のフレームとしてあらかじめ定義されることができ、よって、長期コンテキストの全長または範囲は、96個のフレーム～144個のフレームであり、安定したリズム特徴解析を有するようにする。図4aは、複合期間コンテキストのあらかじめ決定された長さまたは範囲のこの例を示す。

別の例では、先読みバッファが利用可能でない場合、208において、短期コンテキストは、現在フレームおよび回顧フレームの一部のみを含むように決定されることができる。回顧フレームの該一部の長さまたは範囲は、23個のフレームとしてあらかじめ定義されることができ、よって、短期コンテキストの全長または範囲は、24個のフレームである。210において、中期コンテキストは、現在フレーム、回顧フレームの一部、およびさらなる回顧フレームを含むように決定されることができる。ここで、前記さらなる回顧フレームの長さまたは範囲は、24個のフレームとしてあらかじめ定義されることができ、よって、中期コンテキストの全長または範囲は、48個のフレームである。次に、212において、長期コンテキストは、現在フレーム、回顧フレームの前記一部、前記さらなる回顧フレーム、およびより多くの履歴フレームを含むように決定されることができる。ここで、長期履歴フレームの長さまたは範囲は、48～96個のフレームとしてあらかじめ定義されることができ、よって、長期コンテキストの全長または範囲は、96個のフレーム～144個のフレームである。図4bは、複合期間コンテキストのあらかじめ決定された長さまたは範囲のこの例を示す。

方法200では、先読みバッファ、回顧バッファ、および長期履歴の長さまたは範囲は、すべて、事前定義されることができる。あるいはまた、上記の数のフレームとは別に、他の数のフレームが使用されてもよい。短期コンテキストが現在フレームと同様の特性をもつフレームのみを含み、長期コンテキストが堅牢なリズム特徴を抽出するのに十分な履歴フレームを含むことが保証されればよい。

あるいはまた、一つまたは複数のコンテキスト窓の長さまたは範囲は、複合期間コンテキスト決定コンポーネント104において、フレーム・レベルの特徴の定常性を解析し、それに従ってオーディオ・フレームをグループ化することによって適応的に決定できる。図5aは、複合期間コンテキスト決定コンポーネント104を使用して、複合期間コンテキスト窓の長さまたは範囲を適応的に決定するための、いくつかの実装の方法300の例のフローチャートを示す。特に、方法300を説明するための例として、短期コンテキストをとっている。方法300は、強力な過渡の検出に基づく。

まず、302において、フレームkの短時間エネルギーが、次式（1）で計算される：

ここで、[x_k,0,…,x_k,N-1]はフレームkのPCMサンプルである。サンプルは、エネルギーを計算する前に窓掛け／重み付けされることもでき、エネルギーは、フルバンド信号またはサブバンド信号のいずれかから導出されることができる。

次いで、304において、フレーム・エネルギーは、式（2）で表されるように、エネルギー増加時の速い追跡係数およびエネルギー減少時の遅い減衰を用いて非対称に平滑化される：

ここで、

は、k番目のオーディオ・フレームにおける平滑化された短期エネルギーである。パラメータαは、平滑化因子である。

次に、306において、平滑化されたエネルギー包絡に差分フィルタが適用され、式（3）で表されるように、所与の閾値を超える値は、立ち上がり（onset［オンセット］）とみなすことができる：

次いで、308において、E_onset(k)は、探索範囲内の短期エネルギーの平均値を用いてさらに規格化されてもよい。次に、短期コンテキストの長さまたは範囲の境界は、310、312または314のいずれかで決定されることができる。310では、最大のE_onset(k)をもつ位置がコンテキスト境界としてとられる。312では、0.3（0から1までの間で調整可能）のようなある閾値を超えるピークE_onset(k)が、コンテキスト境界として取り上げることができる。閾値の代わりに、314において、E_onset(k)と以前に識別された強いピークとの間の距離が考慮されることができる。すなわち、前の強い過渡事象から1秒などのある距離があるときにのみ、強い過渡事象として判定され、コンテキスト境界として取り上げられる。さらに、314において、探索範囲に強い過渡事象が見出されない場合は、回顧フレームおよび／または先読みフレーム全体が使用される。図5bは、コンテキスト境界探索範囲において示される方法300の概略図を示す。特に、これは、オーディオ信号のもとの波形、短時間エネルギー、規格化後の差分短時間エネルギー、および決定された短時間コンテキストのスコープを示す。

コンテキストのスコープを決定するために振幅情報を使用する代わりに、コンテキストのスコープの適応的な決定は、スペクトル情報に基づくこともできる。たとえば、ベイズ情報基準（BIC）を使用することによってコンテキストのスコープを決定するために、最大のスペクトル不整合（spectral inconsistency）が見出されることができる。図6aは、BICに基づく境界決定の方法400を示す。これも、方法400を説明するための例として、短期コンテキストを取り上げる。まず、402では、BIC窓中におけるタイムスタンプtが真の境界であり、時刻tにおいて分割される2つの分離したガウス・モデルによって窓を表現するほうがよいと想定される。次いで、404では、BIC窓中の前記タイムスタンプtは真の境界ではなく、1つのガウス・モデルのみによって窓を表現するほうがよいと想定される。次に、406において、次式（4）を用いてデルタBICが計算される：
ΔBIC(t)＝BIC(H₀)－BIC(H₁) (4)
ここで、H₀は402における仮説であり、H₁は404における仮説である。図6bは、これら2つの仮説の間の対数尤度差（log likelihood difference）である、BIC窓内の例示的なΔBIC(t)曲線を示している。次いで、408において、デルタBICは規格化されてもよい。次に、410において、ΔBIC(t)のピークが閾値（0から1までの間で調整可能）よりも大きい場合、そのピークは、コンテキスト境界の最も可能な位置として選択可能である。

図7は、いくつかの実装による、先読みバッファが利用可能である場合に、複合期間コンテキスト窓の長さまたは範囲を適応的に決定する例を示す。特に、短期コンテキスト窓の長さまたは範囲は、方法300または方法400に基づいて適応的に決定され、中期コンテキストおよび長期コンテキストの長さまたは範囲は、方法200に基づいてあらかじめ定義される。図7に示されるように、先読みバッファが利用可能であれば、短期コンテキストは先読み方向と回顧方向の両方に延在できる。代替的に、たとえば先読みバッファが利用可能でない場合（図示せず）、短期コンテキストは一方向にのみ延在できる。本願による方法300または方法400は、適応的な決定を記述するための一例として短期コンテキストを取り上げているが、中期の長さまたは範囲も、上記の方法300または400と同様の仕方で適応的に決定できる。

上述のように、現行のダイアログ検出器は、計算量を減らすために、ステレオ信号についてのL/R、または5.1信号についてのL/R/Cに対するモノ・ダウンミックスに適用される。しかしながら、すべてのチャネルを一緒に混合することは、ダイアログのSNRを低下させ、ダイアログ検出精度を損なうことがありうる。たとえば、大きなノイズ（スポーツ試合などにおける）を伴うダイアログ、または集中的なアクション・シーンにおけるダイアログは、検出において見逃される可能性がある。この問題に対処するため、ダイアログのほとんどが5.1信号のチャネルCにあるので、ダイアログがぼかされるのを低減するために、式（5）で表されるように、中央（Center）チャネル優勢ダウンミックスが適用される。
M＝0.707C＋g(L＋R)/2 (5)
ここで、C、L、Rは、それぞれ中央、左および右チャネルにおける、すべての時間‐スペクトル・タイルについての（すなわち、すべてのフレームおよびすべてのビン／バンドについての）複素数値のスペクトルを表し、gは、LおよびRからの寄与を減少させるための0から1までの間のパラメータである。しかしながら、上記の方法は、5.1信号に対しては機能するが、ステレオ信号には適用可能でない。ダイアログは、ステレオ信号においては一般にパンされた信号とみなされ、よってLとRにおいて相関しているからである。

この問題に対処するために、本願は、ダウンミックス後にダイアログをより顕著にするために、信号中の無相関ノイズを除去する新しいダウンミックス方法を提案する。図8は、いくつかの実装に従って実行される、ダイアログ検出器の入力オーディオ信号をダウンミックスする方法500の例を示す。まず、502において、入力オーディオ信号が複数のフレームに分割される。次いで、504において、左チャネルおよび右チャネル内のフレームが、フレームのスペクトル表現に変換される。次に、506において、次のような式（6）により、相関していない信号が除去される：
M＝g₁L＋g₂R (6)
ここで、Lは左チャネルにおけるフレームのスペクトル表現であり、Rは右チャネルにおけるフレームのスペクトル表現であり、g₁とg₂は、それぞれLとRに適用される、広帯域利得ではない、2つの周波数依存利得である。簡単のために、式では周波数帯域の注釈は無視されている。ある実装では、g₁とg₂は、式（7）で表されるような、ある期間において各帯域について計算される共分散行列から推定されることができる（ここで、実部のみが考慮され、やはり周波数帯域の注釈は無視されている）：

次いで、固有ベクトル解析とNGCSにおけるアンビエンス抽出の発想に従い、g₁とg₂を次のように表すことができる。

ここで、式（8）、（9）の表現を簡略化するために、a、c、dはそれぞれ共分散係数｜L｜²、re(LR^*)および｜R｜²の代替表現である。506の後、ダウンミックス後の信号Mが508において得られる。

上記の方法500は、ステレオ信号に基づいて記述され、展開されているが、5.1信号にも適用可能である。ある実装では、5.1信号はまず、式（10）および（11）で表されるように、中央優勢ダウンミックスを用いてステレオ信号（L_cおよびR_c）に変換されてもよい。
L_c＝0.707C＋gL (10)
R_c＝0.707C＋gR (11)
その後、L_cおよびR_cは、この方法500に従い、相関のないノイズを除去する。

無相関信号を除去する方法500に加えて、またはその代わりに、いくつかの他の方法を適用できる。いくつかの実装では、(L＋R)/2を基準ノイズ信号として使用することにより中央チャネルC内のノイズを低減するために、エコー相殺と同様の方法が適用できる。あるいはまた、ダイアログまたはダイアログとノイズの両方のためにNMFスペクトル基底（NMF spectral basis）が構築されてもよく、それらは、クリーンなダイアログ成分を抽出するために適用されてもよい。

さらに、現行の検出器では、音楽信号、特に、ダイアログと多くの類似した特性を共有するアカペラ（あまり伴奏音楽がない）またはラップの歌声が、ダイアログとして誤分類される可能性があり、よって、誤警報が著しく増加する可能性がある。出願人は、同じ誤分類されたフレームについても、音楽信頼スコアが高いことを見出す。よって、出願人は、音楽分類器をダイアログ検出器と並列に導入する。それにより、もとのダイアログ信頼スコアを洗練または修正するために音楽信頼スコアが参照として使用でき、音楽における誤警報を大幅に減少させる。

図9は、いくつかの実装による、音楽コンテンツ検出器606をさらに統合するダイアログ検出器600のブロック図を示す。第1に、入力オーディオ信号は複数のフレームに分割され、離散フーリエ変換DFT）602によってスペクトル表現に変換される。次いで、特徴抽出コンポーネント604において、図2に示される手順に従って各フレームを表す特徴が抽出される。次に、音楽コンテンツ検出器606は、抽出された特徴を受領して、音楽信頼スコアC_m(t)を得て、一方で、発話コンテンツ検出器608も、該抽出された特徴を受領して、発話信頼スコアC_s(t)を得る。加えて、音楽信頼スコアC_m(t)および発話信頼スコアC_s(t)は、メジアンフィルタまたは平均フィルタによってさらに平滑化されてもよい。さらに、後処理コンポーネント610において、音楽信頼スコアC_m(t)と発話信頼スコアC_s(t)が組み合わされて、最終的なダイアログ信頼スコア

が得られる。具体的には、後処理コンポーネント610において、もとのダイアログ信頼スコアが洗練されて、洗練された最終的なダイアログ信頼スコア

が得られる。

一般に、同じフレームについて音楽信頼スコアC_m(t)も高い場合、もとのダイアログの信頼スコアはある程度下げることができる。しかしながら、ダイアログが音楽背景とともに存在する場合には現実のダイアログ・コンテンツも高いダイアログ信頼スコアと高い音楽信頼スコアの両方を生成する可能性があるため、これでは発話信頼スコアC_s(t)を減少させすぎてしまうことがありうる。この問題に対処するために、ダイアログ信頼スコアを洗練するために音楽信頼スコアCs(t)が確信をもって使用できるかどうかを決定するよう、履歴コンテキストが適用されることができる。履歴コンテキストがダイアログ優勢である場合、ダイアログ信頼スコアを洗練するほうが無難である。すなわち、音楽信頼スコアを無視することを意図する。

したがって、いくつかの実装では、最終的なダイアログ信頼スコアは、次式（12）によって洗練される：

ここで、

はフレームtにおける洗練されたダイアログ信頼スコアであり、C_s(t)は発話信頼スコアであり、C_m(t)は音楽信頼スコアであり、βは音楽信頼スコアがどのくらい最終的なダイアログ信頼スコアに影響するかを制御するコンテキスト依存パラメータである。ある実装では、βは履歴コンテキストにおいて発話または音楽として識別されるフレームの割合に基づいて計算される。たとえば、βは、単純な二分法（binary method）を用いて、履歴コンテキストにおいて音楽として識別されたフレームの比率に設定できる。特に、βは、コンテキストが音楽優勢である場合は1に設定でき、βはコンテキストがダイアログ優勢である場合はゼロに設定できる。このことは、式（13）に表される：

ここで、N_mは音楽フレームの数であり、Nは履歴コンテキストにおける全体的なフレームである；r_thは閾値であり、典型的には0.5に設定されるが、閾値は、どのくらい積極的に音楽フレームが効果をもつかに依存して、0から1までの間で調整可能であってもよい。あるいはまた、βは、連続関数として、たとえば、式（14）に示されるような線形関数、または式（15）に示されるようなシグモイド関数として表されてもよい：

ここで、aはシグモイド関数の形状を制御するスケール因子であり、本出願では5に設定されることができる。さらに、コンテキスト依存パラメータの推定に使用される履歴コンテキストは、長期特徴抽出のために使用される履歴フレームよりもはるかに長くてもよく、たとえば、履歴コンテキストの長さまたは範囲は、10秒以上に設定することができる。

本明細書に記載されたダイアログ検出器の技術は、一つまたは複数のコンピューティング装置によって実装できる。たとえば、特殊目的コンピューティング装置のコントローラが、開示された動作を実行するために、またはそのような動作を実行させるために、固定的に結線されてもよく、動作を実行するために、または動作を実行させるために永続的にプログラムされた、一つまたは複数の特定用途向け集積回路（ASIC）またはフィールド・プログラマブル・ゲート・アレイ（FPGA）のようなデジタル電子回路を含んでいてもよい。いくつかの実装では、本技術を達成するために、カスタムの固定結線論理、カスタムプログラミングをもつASICおよび／またはFPGAが組み合わされる。

いくつかの他の実装では、汎用コンピューティング装置が、ファームウェア、メモリ、他の記憶装置、またはそれらの組み合わせにおいてプログラム命令に従って、開示された動作の一つまたは複数を実行させるようにプログラムされた中央処理ユニット（CPU）を組み込んだコントローラを含むことができる。

本明細書で使用される用語「コンピュータ読み取り可能記憶媒体」は、コンピュータまたは機械のタイプに特定の仕方で動作させる命令および／またはデータを記憶する任意の媒体を指す。本明細書に記載されるモデル、検出器、および動作のいずれも、好適なコンピュータ言語を使用するコントローラのプロセッサによって実行可能なソフトウェア・コードとして実装されてもよく、または実装させられてもよい。ソフトウェア・コードは、一連の命令として、記憶のためのコンピュータ読み取り可能媒体に記憶されてもよい。好適なコンピュータ読み取り可能記憶媒体の例は、ランダムアクセスメモリ（RAM）、読み出し専用メモリ（ROM）、磁気媒体、光学媒体、ソリッドステートドライブ、フラッシュメモリ、および任意の他のメモリチップまたはカートリッジを含む。コンピュータ読み取り可能記憶媒体は、そのような記憶装置の任意の組み合わせであってもよい。そのようなコンピュータ読み取り可能記憶媒体は、単一のコンピューティング装置またはコンピュータ・システム全体の上または内部に存在してもよく、システムまたはネットワーク内の他のコンピュータ読み取り可能記憶媒体の中に存在してもよい。

本願の主題は、その実装を参照して具体的に示され説明されてきたが、本開示の精神または範囲から逸脱することなく、開示された実装の形態および詳細における変更がされてもよいことは、当業者には理解されるであろう。これらの実装のいくつかの例は、添付の図面に例解されており、それらの十全な理解を提供するために具体的な詳細が記載されている。実装は、これらの具体的な詳細の一部または全部なしに実施されうることが留意されるべきである。さらに、周知の特徴は、明確性を促進するために詳細に記載されていないことがある。最後に、本明細書ではいくつかの実装を参照して利点が論じられたが、そのような利点を参照することによって範囲が限定されるべきではないことが理解されるであろう。むしろ、範囲は添付の特許請求の範囲を参照して決定されるべきである。

本発明のさまざまな側面は、以下に列挙した箇条書き実施例（enumerated example embodiment、EEE）から理解されうる。
〔ＥＥＥ１〕入力オーディオ信号に応答してダイアログ検出器においてオーディオ特徴を抽出する方法であって、当該方法は：
フレーム特徴抽出コンポーネントによって、前記入力オーディオ信号から分割された複数のフレームの各フレームからフレーム特徴を抽出する段階と；
各コンテキストの長さまたは範囲を、複合期間コンテキスト決定要素によって決定する段階と；
それぞれの決定されたコンテキストにおけるフレームの特徴に基づいて、関連するコンテキストの特徴を導出する段階と；
各コンテキスト特徴を連結し、現在フレームを表す合成特徴ベクトルを形成する段階とを含む、
方法。
〔ＥＥＥ２〕
前記複合期間コンテキストは：
現在フレームのまわりのローカルな情報を表す短期コンテキスト；
複数の回顧フレームをさらに含む中期コンテキスト；および
複数の長期履歴フレームをさらに含む長期コンテキストを含む、
ＥＥＥ１に記載の方法。
〔ＥＥＥ３〕
一つまたは複数のコンテキストの長さまたは範囲があらかじめ決定されることができる、ＥＥＥ１または２に記載の方法。
〔ＥＥＥ４〕
先読みバッファが利用可能である場合は、前記短期コンテキストは、現在フレームおよび先読みフレームを含み、または前記先読みバッファが利用可能でない場合は、前記短期コンテキストは、現在フレームおよび前記回顧フレームの第1の部分を含む、ＥＥＥ２または３に記載の方法。
〔ＥＥＥ５〕
先読みバッファが利用可能である場合は、前記中期コンテキストは、現在フレーム、先読みフレームおよび回顧フレームを含み、または前記先読みバッファが利用可能でない場合は、前記中期コンテキストは、現在フレーム、前記回顧フレームの前記第1の部分および前記回顧フレームの第2の部分を含む、ＥＥＥ２または３に記載の方法。
〔ＥＥＥ６〕
先読みバッファが利用可能である場合は、前記長期コンテキストは、現在フレーム、先読みフレーム、回顧フレームおよび長期履歴フレームを含み、または前記先読みバッファが利用可能でない場合は、前記長期コンテキストは、現在フレーム、前記回顧フレームの前記第1の部分、前記回顧フレームの第2の部分および前記長期履歴フレームを含む、ＥＥＥ２または３に記載の方法。
〔ＥＥＥ７〕
一つまたは複数のコンテキストの長さまたは範囲が適応的に決定されることができる、ＥＥＥ１または２に記載の方法。
〔ＥＥＥ８〕
一つまたは複数のコンテキストの長さまたは範囲が、フレーム・レベルの特徴の定常性を解析することによって適応的に決定されることができる、ＥＥＥ７に記載の方法。
〔ＥＥＥ９〕
一つまたは複数のコンテキストの長さまたは範囲の適応的な決定は、入力音声信号の振幅に関係した情報に基づく、ＥＥＥ８に記載の方法。
〔ＥＥＥ１０〕
前記短期コンテキストの長さまたは範囲の適応的な決定は：
入力オーディオ信号の複数のフレームのうちのあるフレームの短時間エネルギーを計算し；
計算された短時間エネルギーを平滑化し；
前記フレームの平滑化された短時間エネルギーと先行フレームの平滑化された短時間エネルギーとの間の差を決定し；
前記差が閾値を満たすかどうかに基づいて立ち上がりを決定し；
前記立ち上がりを規格化し；
以下の段階：
最も大きな立ち上がりをもつ位置を境界としてとる；または
ピークが閾値を満たすかどうかに基づいて、ピーク立ち上がりを境界としてとる；または
閾値と、立ち上がりと立ち上がりの直前の強い過渡事象の間の距離とに基づいて、ピーク立ち上がりを境界としてとる、
のいずれかによって、前記短期コンテキストの長さまたは範囲の境界を決定することを含む、
ＥＥＥ２または９に記載の方法。
〔ＥＥＥ１１〕
一つまたは複数のコンテキストの長さまたは範囲の適応的な決定は、入力オーディオ信号のスペクトルに関係した情報に基づく、ＥＥＥ８に記載の方法。
〔ＥＥＥ１２〕
前記短期コンテキストの長さまたは範囲の適応的な決定は：
ベイズ情報基準窓内のタイムスタンプが前記短期コンテキストの長さまたは範囲についての真の境界として想定する段階と；
ベイズ情報基準窓内の前記タイムスタンプが前記短期コンテキストの長さまたは範囲についての真の境界ではないと想定する段階と；
前記の2つの仮説の間の差分ベイズ情報基準を決定する段階と；
差分ベイズ情報基準を正規化する段階と；
差分ベイズ情報基準のピークを、そのピークが閾値を満たすかどうかに基づいて、前記短期コンテキストの長さまたは範囲についての真の境界の位置とみなす段階とを含む、
ＥＥＥ２または１１に記載の方法。
〔ＥＥＥ１３〕
前記短期コンテキストは、先読み方向および回顧方向の両方に延在できる、または一方向のみに延在できる、ＥＥＥ２、７ないし１２のうちいずれか一項に記載の方法。
〔ＥＥＥ１４〕
前記の諸コンテキストの長さまたは範囲は、適応的な決定と組み合わせてあらかじめ定義されることができる、先行するＥＥＥのうちいずれか一項に記載の方法。
〔ＥＥＥ１５〕
ダイアログ検出器の入力音声信号をダウンミックスする方法であって、当該方法は：
入力オーディオ信号を複数のフレームに分割する段階と；
左チャネルおよび右チャネルのフレームをスペクトル表現に変換する段階と；
左チャネルおよび右チャネルのスペクトルに対して周波数依存性利得をそれぞれ適用することによって左チャネルおよび右チャネルの無相関信号を除去する段階と；
ダウンミックスされた信号を得る段階と；
ダウンミックスされた信号を、先行するＥＥＥ１ないし１４のうちいずれか一項に記載の方法をもつダイアログ検出器に供給する段階とを含む、
方法。
〔ＥＥＥ１６〕
周波数依存利得は共分散行列から推定されることができる、ＥＥＥ１５に記載の方法。
〔ＥＥＥ１７〕
ダイアログ検出器の入力オーディオ信号を分類する方法であって、当該方法は：
発話コンテンツ検出器によって、先行するＥＥＥ１ないし１４のうちいずれか一項に記載の方法に従って抽出された特徴を受領する段階と；
発話コンテンツ検出器によって、発話信頼スコアを決定する段階と；
音楽コンテンツ検出器によって、先行するＥＥＥ１ないし１４のうちいずれか一項に記載の方法に従って抽出された特徴を受領する段階と；
音楽コンテンツ検出器によって、音楽信頼スコアを決定する段階と；
発話信頼スコアおよび音楽信頼スコアを組み合わせて、最終的なダイアログ信頼スコアを得る段階とを含む、
方法。
〔ＥＥＥ１８〕
最終ダイアログ信頼スコアは、コンテキスト依存パラメータによって洗練されることができる、ＥＥＥ１７に記載の方法。
〔ＥＥＥ１９〕
コンテキスト依存パラメータは、履歴コンテキストにおいて発話または音楽として識別されるフレームの割合に基づいて計算できる、ＥＥＥ１８に記載の方法。
〔ＥＥＥ２０〕
前記履歴コンテキストは、10秒以上の長さでありうる、ＥＥＥ１９に記載の方法。

Claims

入力オーディオ信号の現在フレームにおけるダイアログの存在の確率を表す信頼スコアを得る方法であって、当該方法は：
前記入力オーディオ信号を複数のフレームに分割する段階と；
各フレームからフレーム・オーディオ特徴を抽出する段階と；
コンテキスト窓の集合を決定する段階であって、各コンテキスト窓は、現在フレームを囲むいくつかのフレームを含む、段階と；
各コンテキスト窓について、それぞれのコンテキストにおけるフレームのフレーム・オーディオ特徴に基づいて、現在フレームについて関連するコンテキスト・オーディオ特徴を導出する段階と；
各コンテキスト・オーディオ特徴を連結して、現在フレームを表す合成特徴ベクトルを形成する段階と；
前記合成特徴ベクトルを使って、現在フレームにおけるダイアログの存在の確率を表す発話信頼スコアを得る段階とを含む、
方法。
コンテキスト窓の前記集合が：
現在フレームおよび現在フレームに先行および／または後続するいくつかのフレームを含む短期コンテキスト窓；
前記短期コンテキスト窓のフレームおよび複数の回顧フレームを含む中期コンテキスト窓；および
前記中期コンテキスト窓のフレームおよび複数の長期履歴フレームを含む長期コンテキスト窓を含む、
請求項１に記載の方法。
各コンテキスト窓におけるフレームの数はあらかじめ決定される、請求項１または２に記載の方法。
先読みバッファが利用可能である場合、前記短期コンテキスト窓は現在フレームおよび先読みフレームの集合を含む、請求項２に記載の方法。
一つまたは複数のコンテキスト窓におけるフレームの数が、抽出されたフレーム・オーディオ特徴に基づいて適応的に決定される、請求項１または２に記載の方法。
一つまたは複数のコンテキスト窓におけるフレームの数が、フレーム・レベルのオーディオ特徴の定常性を解析することによって適応的に決定される、請求項５に記載の方法。
一つまたは複数のコンテキスト窓におけるフレームの数の適応的な決定が、前記入力オーディオ信号の振幅に関係した情報に基づく、請求項６に記載の方法。
一つまたは複数のコンテキスト窓におけるフレームの数の適応的な決定が、前記入力オーディオ信号のスペクトルに関係した情報に基づく、請求項６に記載の方法。
左チャネルおよび右チャネルにおけるフレームを、フレームのスペクトル表現に変換する段階と；
左チャネルおよび右チャネルにおける無相関信号を、それぞれ左チャネルおよび右チャネルにおける前記スペクトル表現に対して周波数依存の利得を適用することによって除去する段階と；
左チャネルおよび右チャネルからのダウンミックスされた信号を得る段階と；
前記ダウンミックスされた信号を前記入力オーディオ信号として使用する段階とを含む、
請求項１ないし８のうちいずれか一項に記載の方法。
前記周波数依存の利得は、共分散行列から推定される、請求項９に記載の方法。
ダイアログ検出器の入力オーディオ信号を分類する方法であって、当該方法は：
請求項１ないし１０のうちいずれか一項に記載の方法に従って発話信頼スコアを取得する段階と；
合成特徴ベクトルに基づいて音楽信頼スコアを決定する段階と；
前記発話信頼スコアと前記音楽信頼スコアを組み合わせて、最終的なダイアログ信頼スコアを得る段階とを含む、
方法。
前記最終的なダイアログ信頼スコアは、コンテキスト依存パラメータによって洗練される、請求項１１に記載の方法。
前記コンテキスト依存パラメータは、たとえば少なくとも10秒の長さの履歴コンテキスト窓における発話または音楽として識別されるフレームの割合に基づいて計算される、請求項１２に記載の方法。
請求項１ないし１３のうちいずれか一項に記載の方法を実行するための手段を備えるダイアログ検出器。
実行されると、コンピュータに請求項１ないし１３のうちいずれか一項に記載の方法を実行させる命令を記憶しているコンピュータ可読記憶媒体。