JP2023539121A

JP2023539121A - オーディオコンテンツの識別

Info

Publication number: JP2023539121A
Application number: JP2023512124A
Authority: JP
Inventors: ワーン，グイピーン; ルゥ，リエ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2020-08-18
Filing date: 2021-08-18
Publication date: 2023-09-13
Also published as: US20240038258A1; WO2022040282A1; EP4200845A1

Abstract

オーディオコンテンツ識別の方法は、二段階分類器を使用することを含む。第１段階は、以前から存在する分類器を含み、第２段階は、新しい分類器を含む。異なる期間にわたって計算された第１段階及び第２段階の出力を組み合わせて、ステアリング信号を生成する。最終分類の結果は、ステアリング信号と、第１段階及び第２段階の出力との組合せから得られる。このようにして、既存の分類器を中断することなく、新しい分類器を追加することができる。

Description

関連出願の相互参照
本出願は、２０２０年８月１８日に出願されたＰＣＴ／ＣＮ国際出願ＰＣＴ／ＣＮ２０２０／１０９７４４号、２０２０年９月４日に出願された米国仮出願６３／０７４,６２１及び２０２０年１０月６日に出願された欧州出願２０２００３１８．２の優先権を主張する。

分野
本開示は、オーディオ処理、特にオーディオコンテンツ識別に関する。

本明細書において別段の記載がない限り、このセクションに記載されるアプローチは、本出願の特許請求の範囲に対する先行技術ではなく、このセクションに含めることによって先行技術と認められるものではない。

オーディオ再生は、例えばスマートフォン、タブレット、ＰＣ等の消費者向けエンターテイメントデバイスの台頭に伴って、一般的になってきた。また、高忠実度再生、ストリーミング、ゲーム、ポッドキャスト、ショートビデオ、ユーザのライブ配信等のような、数万ものオーディオアプリケーションのシナリオも存在する。したがって、オーディオの全体的な品質を改善し、異なるユーザ体験を提供するために、様々な目的のためにオーディオ信号を強化する様々なオーディオ処理アルゴリズムが存在する。オーディオ処理アルゴリズムのいくつかの典型的な例は、対話強化（dialogue enhancement）及びインテリジェントイコライゼーションを含む。

対話強化は、一般に、スピーチ信号を強化する。対話は、映画では、ストーリーを理解するための重要な構成要素である。対話強化は、特に聴覚能力の低下した高齢者のために、明確性と理解度を高めるために対話を強化する方法を実装する。

インテリジェントイコライゼーションは、一般にオーディオトーンの動的調整を行う。インテリジェントイコライゼーションは、「トーン」又は「音色」として知られるスペクトルバランスの一貫性を提供するために、音楽コンテンツにおいて適用されることが多い。この一貫性は、オーディオのスペクトルバランスを継続的に監視し、それを所望のトーンと比較し、そしてイコライゼーションフィルタを動的に調整して、オーディオの元のトーンを目的のトーンに変換することによって達成される。

一般に、オーディオ処理アルゴリズムは、独自のアプリケーションシナリオ／コンテキストを有する。すなわち、異なるコンテンツは異なる方法で処理される必要がある場合があるので、オーディオ処理アルゴリズムは、特定のコンテンツのセットにのみ適しているが、すべての可能なオーディオ信号には適していないことがある。例えば対話強化方法は、通常、映画コンテンツに適用される。対話のない音楽に適用される場合、一部の周波数サブバンドを誤ってブーストし、激しい音色変化と知覚の不一致を導入する可能性がある。同様に、インテリジェントイコライゼーション方法が映画コンテンツに適用される場合、音色のアーティファクトが聞こえることになる。しかしながら、オーディオ処理システムでは、その入力は、可能なタイプのオーディオ信号のいずれかであり得る。したがって、対応するコンテンツに対して最も適切なアルゴリズム（又は各アルゴリズムの最も適切なパラメータ）を適用するために、処理されているコンテンツを識別又は区別することが重要になる。

一般的なコンテンツ適応オーディオ処理システムは、オーディオコンテンツ識別、ステアリング及びオーディオ処理という３つの機能を含む。

オーディオコンテンツ識別は、再生時にコンテンツのオーディオタイプを自動的に識別する。信号処理、機械学習及びパターン認識によるオーディオ分類技術を適用して、オーディオコンテンツを識別することができる。事前に定義されたターゲットオーディオタイプのセットに関するオーディオコンテンツの確率を表す、信頼スコアが推定される。

ステアリングは一般に、オーディオ処理アルゴリズムの挙動を操作する。これは、オーディオコンテンツ識別から取得された結果に基づいて、対応するオーディオ処理アルゴリズムの最も適切なパラメータを推定する。

オーディオ処理は、一般に、推定されたパラメータを使用して、オーディオ処理を入力オーディオ信号に適用して、出力オーディオ信号を生成する。

米国特許第10,129,314号米国特許出願公開第2018/0181880号米国特許第10,411,669号米国特許出願公開第2020/0134083号米国特許出願公開第2011/0029108号米国特許第10,522,186号米国特許第8,400,566号米国特許第7,263,485号米国特許第7,953,693号米国特許第10,424,321号米国特許第10,556,087号米国特許出願公開第2020/0075019号米国特許第9,020,816号中国特許出願公開第103186527号中国特許出願公開第111177454号米国特許第9,842,605号

Ja-Hwung Su, Hsin-Ho Yeh, Philip S. Yu and Vincent S. Tseng, "Music Recommendation Using Content and Context Information Mining", in IEEE Intelligent Systems, vol. 25, no. 1, pp. 16-26, Jan.-Feb. 2010, doi: 10.1109/MIS.2010.23.

絶えず変化するオーディオコンテンツと新しいアプリケーションが増加するにつれて、特にユーザ生成されたコンテンツと、対応するアプリケーション（例えばチャット、ストリーミング、ライブブロードキャスト、ショートビデオ等）では、新しいコンテンツ又は新しいユースケースの性能要件を満たすために、既存のシステムにおけるオーディオ識別器（identifier）（分類器）とステアリングアルゴリズムを改善することは回避できない結果である。音楽を例にとると、以前は、ジャズ、カントリー、ロック及びラテン音楽を含むポップミュージックが、異なるアプリケーションにわたって主流であった。したがって、多くの既存のシステムの一般的な音楽分類器は、主に、上記の音楽ジャンルを識別することを目標としており、後続のステアリングアルゴリズム及びオーディオ処理アルゴリズムのために正確に信頼スコアを生成する。ファッションのトレンドの変化に伴って、多くの人々は、ラップ／ヒップホップ、エレクトリックミュージック又は異なる音楽スタイルの組合せのような、異なる音楽ジャンルを好んで聴いている。特にラップ音楽は、主に（リズミカルな）発話（talking）で構成され、これは、一般的な対話で話すことと区別することが難しい。多くの既存のケースでは、元の音楽分類器は通常、ラップ音楽やアカペラ音楽の分類に対して十分な精度を提供することができない。その結果、ラップ音楽の一部のセグメント／フレームがスピーチとして誤って識別され、次いで、対話エンハンサによってブーストされ、可聴アーティファクトをトリガすることがある。

さらに、顧客からのニーズの増加に伴い、オーディオ処理システムは、新しい機能を提供する必要がある場合があり、これは、オーディオ分類器が特定のオーディオコンテンツタイプを識別することを更に必要とする。上記のシナリオの両方とも新しい分類器を必要とする。新しいオーディオ分類器は、より多くの分類結果を提供するが、新しい分類器を使用した後に対話強化及びインテリジェントイコライゼーションのような他のオーディオ処理アルゴリズムを大幅に調整する必要がないように、もともとサポートされていたコンテンツタイプ（対話又は音楽等）の分類結果は依然として、古い分類器からの分類結果と同様であることも望まれる。

上記を考えると、元のオーディオ処理の挙動を依然として元のものに近い状態に保持しながら、既存の分類システムに新しい分類器を追加する必要がある。特定の新しいコンテンツに対して元の分類器を改善したり、新しい機能性を追加したりしても、通常、古い分類器を透過的に更新すること又は新しい分類器に置き換えることは簡単ではない。識別器の置き換え後に、システム全体が単純には最適に機能しない可能性がある。多くの場合、識別器が更新された後、後続のステアリングアルゴリズム及びオーディオ処理アルゴリズムも、対応する改良又はチューニングを必要とする可能性があり、さらに、ユーザが以前のコンテンツに対する挙動テストのために元の音楽識別器に保持することを期待することは、もはや適切ではない可能性がある。これは、新しい構成要素を完全に統合するために、再調整に多くの余分な労力を導入する可能性があり、望ましくない。

本開示では、開発や検証にかかる余分な労力を最小限に抑えつつ、新しいコンテンツに対する元のコンテンツ識別を改善する方法を提案する。本明細書では、二段階オーディオ分類器を使用することに関連する技術を説明する。

一実施形態によると、オーディオ処理の方法は、オーディオ信号を受信するステップと、オーディオ信号に対して特徴抽出を実行して複数の特徴を抽出するステップとを含む。本方法は、第１オーディオ分類モデルに従って複数の特徴を分類して第１信頼スコアセットを生成するステップと、第２オーディオ分類モデルに従って複数の特徴を分類して第２信頼スコアを生成するステップとを更に含む。本方法は、第１信頼スコアセットの第１信頼スコアと、第１信頼スコアセットの更なる信頼スコアを組み合わせることによって、ステアリング信号を計算するステップを更に含む。本方法は、ステアリング信号、第１信頼スコアセット及び第２信頼スコアに従って最終信頼スコアを計算するステップを更に含む。本方法は、最終信頼スコアに従ってオーディオ信号の分類を出力するステップを更に含む。

別の実施形態によると、装置は、プロセッサとメモリを含む。プロセッサは、本明細書で説明される方法の１つ以上を実行するように装置を制御するよう構成される。装置は、本明細書で説明される方法の１つ以上の詳細と同様の詳細を更に含んでよい。
別の実施形態によると、非一時的コンピュータ読取可能媒体は、プロセッサによって実行されると、本明細書で説明される方法の１つ以上を含む処理を実行するように装置を制御するコンピュータプログラムを記憶する。
以下の詳細な説明及び付属の図面は、様々な実装の性質と利点の更なる理解を提供する。

オーディオ分類器１００のブロック図である。

二段階分類器２００への分類器の配置を示すブロック図である。

オーディオ処理システム３００のブロック図である。

オーディオ分類器１００（図１参照）等を実装するために使用され得るデバイス４００のブロック図である。

オーディオ処理の方法５００のフロー図である。

本明細書で説明されるのは、オーディオコンテンツ識別に関連する技術である。以下の説明では、説明の目的のために、本開示の完全な理解を提供するために、多数の実施例と具体的な詳細を記載する。しかしながら、当業者には、特許請求の範囲によって定義される本開示は、これらの実施例における特徴の一部又はすべてを単独で又は以下に記載される他の特徴と組み合わせて含んでよく、本明細書に記載される特徴及び概念の修正及び均等物を更に含んでよいことが明らかであろう。

以下の説明では、様々な方法、プロセス及び手順が詳述される。特定のステップが一定の順番で記載されることがあるが、このような順番は主に利便性と明確さのためである。特定のステップが２回以上繰り返されることがあり、他のステップの前又は後に起こることがあり（それらのステップが別の順番で記述されている場合であっても）、他のステップと並行して起こることがある。第２のステップは、第２のステップが開始される前に第１のステップが完了しなければならないときにのみ、第１のステップの後に続く必要がある。このような状況は、文脈から明確でないときに具体的に指摘される。

この文書では、「及び」、「又は」、「及び／又は」という用語が使用される。そのような用語は包括的な意味を有するものとして読まれるべきである。例えば「Ａ及びＢ」は、少なくとも以下を意味する、すなわち「ＡとＢの両方」、「少なくともＡとＢの両方」を意味することがある。別の例として、「Ａ又はＢ」は、少なくとも以下を意味する、すなわち、「少なくともＡ」、「少なくともＢ」、「ＡとＢの両方」、「少なくともＡとＢの両方」を意味することがある。別の例として、「Ａ及び／又はＢ」は、少なくとも以下を意味する、すなわち、「ＡとＢ」、「Ａ又はＢ」を意味することがある。排他的論理和が意図されるとき、そのようなことが具体的に記載されるであろう（例えば「Ａ又はＢのいずれか」、「最大でＡとＢのうちの一方」）。

本文書では、ブロック、要素、構成要素、回路等のような構造に関連付けられる様々な処理機能を説明する。一般に、これらの構造は、１つ以上のコンピュータプログラムによって制御されるプロセッサによって実装され得る。

図１は、オーディオ分類器１００のブロック図である。オーディオ分類器１００は、一般に、入力オーディオ信号１０２を受け取り、様々なモデルを使用して入力オーディオ信号１０２の分類を実行し、信頼スコア１２８を出力する。オーディオ分類器１００は、特徴抽出器１１０、分類器１１２（元の分類器とも呼ばれる）の第１のセット、分類器１１４（新しい分類器とも呼ばれる）の第２のセット、コンテキスト検出器１１６及び信頼度決定器１１８を含む。オーディオ分類器１００は、一般に、二段階オーディオ分類器又は二段階音楽分類器と呼ばれることもある。あるいは、分類器１１２及び１１４と、コンテキスト検出器１１６と、信頼度決定器１１８（例えば特徴抽出器１１０を除く）をまとめて、二段階オーディオ分類器又は二段階音楽分類器と呼ぶこともある。

特徴抽出器１１０は、オーディオ信号１０２を受け取り、オーディオ信号１０２に対して特徴抽出を実行し、抽出された特徴１２０を生成する。一般的に抽出される特定の特徴は、分類器１１２及び１１４によって実装されるモデルに関連する、特定の特徴に従って選択される。一例として、抽出された特徴１２０は、オーディオ信号１０２の様々な周波数帯域のスペクトルエネルギーに対応することがある。

分類器１１２は、一般に、オーディオ分類器１００の一段階を構成する。分類器１１２は、抽出された特徴１２０を受け取り、１つ以上のモデルを使用して、抽出された特徴１２０の分類を実行し、信頼スコア１２２のセット（元の信頼スコアとも呼ばれる）を生成する。信頼スコア１２２のセットは、例えば１つ以上のモデルに対応する、１つ以上の信頼スコアを含むことができる。

分類器１１２は、一般に、既存の分類器のセットに対応する。一般に、既存の分類器のセットは、オーディオの既存のジャンルを分類するために開発されているが、オーディオの新しいジャンルを正確に分類することができない可能性がある。分類器１１２は、スピーチ分類器、音楽分類器、音響効果分類器、ノイズ分類器等を含む、１つ以上の分類器を含み得る。分類器１１２は、各分類器の１つ以上の異なるタイプ、例えば音楽の特定のジャンルを分類するために各々開発された、２つ以上のタイプの音楽分類器（例えばジャズ分類器、ロック分類器等）を含み得る。スピーチ分類器は、一般に、オーディオ信号１０２が、音楽、音響効果等とは対照的に、スピーチ（例えば対話）に対応するかどうかを評価する。音響効果分類器は、一般に、オーディオ信号１０２が、スピーチ（例えば対話）又は音楽（例えばバックグラウンド音楽、ムード音楽等）とは対照的に、音響効果（例えば自動車の衝突や爆発等のような映画の音響効果）に対応するかどうかを評価する。ノイズ分類器は、一般に、オーディオ信号１０２が、ノイズ（例えば鼻歌（hum）、ブンブンいう音（buzz）、泣き声（whine）、ジャックハンマーの音、サイレン、滝の音（waterfall）、降雨等のような一定又は反復的な音）を含むかどうかを評価する。

分類器１１２は、様々なタイプのオーディオの様々なモデルを使用して様々な分類を実行する機械学習システムによって実装され得る。分類器１１２は、適応ブースティング（adaptive boosting）（ＡｄａＢｏｏｓｔ）又はディープニューラルネットワーク機械学習プロセスを実装し得る。ＡｄａＢｏｏｓｔプロセスは、小さなモデルサイズを使用するか又は複雑な計算を実行する能力が限られているデバイスで実装されることがある。ディープニューラルネットワークプロセスは、より大きなモデルサイズを可能にし、複雑な計算を実行する能力がより高いデバイスで実装されることがある。一般に、分類器１１２のモデルは、トレーニングデータのセットに対して機械学習を実行することによって、オフラインで開発される。

分類器１１４は、一般に、オーディオ分類器１００の第２段階を構成する。分類器１１４は、抽出された特徴１２０を受け取り、１つ以上のモデルを使用して、抽出された特徴１２０の分類を実行し、信頼スコア１２４のセット（新しい信頼スコアとも呼ばれる）を生成する。信頼スコア１２４は、例えば１つ以上のモデルに対応する、１つ以上の信頼スコアを含むことができる。

分類器１１４は、一般に、新しい分類器のセットに対応する。一般に、新しい分類器は、オーディオの新しいジャンルを分類するために開発されている。例えば元の分類器１１２のモデルを開発するために使用されるトレーニングデータは、音楽の新しいジャンルのオーディオデータを含んでいない可能性があるので、元の分類器１１２は、新しいジャンルを識別する際にうまく機能しない。以下でより詳細に説明されるように、新しい分類器１１４はラップ分類器（rap classifier）を含む。

分類器１１４は、様々なタイプのオーディオの様々なモデルを使用して様々な分類を実行する機械学習システムによって実装され得る。分類器１１４は、適応ブースティング（ＡｄａＢｏｏｓｔ）又はディープニューラルネットワーク機械学習プロセスを実装し得る。一般に、分類器１１４のモデルは、トレーニングデータのセットに対して機械学習を実行することによってオフラインで開発される。

分類器１１４はまた、分類器１１２から、信頼スコア１２２のセットのような情報も受け取ることがある。例えば分類器１１４は、オーディオ信号１０２が（音響効果又はノイズとは対照的に）スピーチ又は音楽に対応するという指示を分類器１１２から受け取ることがある。

コンテキスト検出器１１６は、信頼スコア１２２のセットを受け取り、ステアリング信号１２６を生成する。コンテキスト検出器１１６は、分類器１１２から、オーディオ信号１０２がスピーチも音楽も含まないことを示す情報を受け取ることがある。一般に、コンテキスト検出器１１６は、様々な時間フレームにわたって信頼スコア１２２のセットの構成要素を評価し、平滑化された信頼スコアを使用して短期的に誤分類の影響を軽減する。コンテキスト検出器１１６は、後続の構成要素による信頼スコア１２２及び１２４のセットの影響を重み付けするステアリング信号１２６を生成する。コンテキスト検出器１１６及びステアリング信号１２６の更なる詳細は以下に提供される。

信頼度決定器１１８は、信頼スコア１２２及び１２４のセットと、ステアリング信号１２６を受け取り、最終信頼スコア１２８を生成する。一般に、信頼度検出器１１８は、信頼スコア１２４に応じて適切であるとき、分類器１１２のみを使用することから分類器１１４も使用することに、オーディオ分類器１００をスムーズに移行させる。信頼度決定器１１８の更なる詳細は以下に提供される。

ラップ音楽分類

以下のセクションでは、分類器１１４のラップ音楽分類の特定のユースケースについて議論する。既存の音楽ジャンルと比較して、ラップ音楽は、対話と音楽の両方に類似性がある。したがって、既存の分類器を使用することは、ラップ音楽を、対話として分類してオーディオ処理アルゴリズムの１つのセットを適用するか、音楽として分類してオーディオ処理アルゴリズムの別のセットを適用するというリスクがあり、いずれもラップ音楽には適していない可能性がある。加えて、既存の分類器は、対話と音楽の分類の間を急速に切り替えて、その結果、２つの処理アルゴリズムの間を急速に切り替えることになり、一貫性のないリスニング体験をもたらす可能性がある。ラップ分類器を追加し、ラップ分類器を既存の分類器と統合して二段階分類器を形成することは、既存の分類器を中断することなく、改善されたリスニング体験をもたらす。

サブバンドベースのスペクトルエネルギー

ラップ音楽では、特徴抽出器１１０によって抽出される新しい特徴は、スペクトルエネルギーに基づいて開発されるが、スペクトルエネルギーは、周波数領域で異なるコンテンツのエネルギー変動特性を示す。最初に、入力オーディオ信号は、時間周波数変換ツール（例えば直交ミラーフィルタ（ＱＭＦ）、高速フーリエ変換（ＦＦＴ）等）によってスペクトル係数に変換され、次に、上記のスペクトル係数によってエネルギースペクトルが計算されるが、ここで、全体のエネルギースペクトルは、本開示では４つのサブバンドに更に分けられる。

３００Ｈｚ未満の低周波のエネルギー分布を表す第１サブバンドエネルギーは、ベース又はドラムの開始を検出するために使用される。３００Ｈｚと１ｋＨｚの間のエネルギー分布を表す第２サブバンドエネルギーは、ボーカルピッチの変動を測定するために使用される。１ｋＨｚと３ｋＨｚの間のエネルギー分布を表す第３サブバンドエネルギーは、ボーカル調和（vocal harmonic）の変動を測定するために使用される。３ｋＨｚと６ｋＨｚの間のエネルギー分布を表す第４サブバンドエネルギーは、無声信号又はスネアドラムの変動を検出するために使用される。

すべてのサブバンドスペクトルエネルギーは、短期フレーム（short-term frames）（例えば２０ｍｓ）で計算され、その後、予測されるウィンドウ長（例えば５ｓ）を満たすまでメモリバッファに記憶される。最後に、上記のウィンドウ長のスペクトルエネルギーに基づいて、高レベルの特徴を導出することができる。

サブバンドの数、各サブバンドの周波数範囲、フレーム長及びウィンドウ長は、必要に応じて調整されてよい。例えば異なる新しいジャンルを分類するために、その新しいジャンルに適したサブバンドを使用して、別の新しい分類器１１４のためのモデルを生成してもよい。

ラップ音楽の特性

一般的な音楽と比較して、典型的なラップ音楽は、ボーカルテンポ、リズミカルな歌詞（rhythmic lyrics）、音楽小節（musical bars）の規則性等を含む、いくつかの顕著な違いがある。上記のサブバンドスペクトルエネルギーに基づいて、ピーク／谷（peak／valley）トラッキング方法を導入して、ボーカルテンポの特性、リズミカルな拍子及び音楽小節の規則性を反映する手がかりを見つける。

典型的なラップ音楽では、一般的なテンポは約１００～１５０ビート・パー・ミニット（ＢＰＭ）であり、典型的には４／４拍子記号を有し、歌詞は、各文の音節の数がほぼ同じになるように、一定期間にわたって規則的に歌われることが多い。したがって、それに応じていくつかの新しい特徴が推測される。

１つめの特徴は、サブバンドスペクトルエネルギー分布の統計的特性である。一定期間にわたって、スペクトルエネルギーパラメータは、いくつかの音楽小節に分けられ、各小節で、ピーク／谷スペクトルエネルギーが計算されてよく、ピーク／谷の数もカウントされる。上記のスペクトルエネルギーの統計的特性を示す特徴（例えば平均、標準偏差等）は、ラップ音楽を一般的なスピーチコンテンツから区別するために使用されることがある。

２つめの特徴は、サブバンドスペクトルエネルギーのピーク／谷位置間隔である。ボーカル又は音節は、有声音と無声音で構成され、スペクトルエネルギーのピークと谷にある程度関連しているため、一般的なラップ音楽ではピーク／谷の位置は一定の間隔である。しかしながら、自然な対話で話す場合、有声音と無声音との間に明確な一定の間隔はない。したがって、ここでは、ウィンドウ長スペクトルエネルギーのインデックスによって表されるピーク／谷の位置を連続的に記録し、次いで、隣接するピーク位置の各間隔を計算する。最後に、これらの間隔の均等な分布が、ラップ音楽の重要な特徴として使用される。

３つめの特徴は、ピークと谷のスペクトルエネルギーのコントラストである。映画やショーの一般的なスピーチやセリフと比較して、ラップ音楽のピークのボーカルエネルギーと谷のボーカルエネルギーのコントラストはあまり変わらず、これは、オーディオコンテンツがセリフコンテンツであるかどうかを示す重要な手がかりとしても使用されることもある。

４つめの特徴は韻律の特徴である。ラップ音楽の歌詞のほとんどは、特定の拍子と押韻構成で書かれている。残念ながら、意味認識なしに音節単位に基づいて歌詞を正しく区切ることは、計算上不可能である可能性がある。加えて、ラップ音楽では、特に最後の韻脚（metrical foot）に１つ以上の音節がないとき、韻律が不完全であることがある。

５つめの特徴は、リズムの特徴である。音楽的な開始の周波数と強さ及びリズムの規則性とコントラストを表すリズミカルな特徴は、上述の様々なスペクトル範囲のサブバンドエネルギーで計算される。１つの測定値は、第１／第４サブバンドに基づいていることがあり、他の測定値は、それぞれ第２／第３サブバンドのスペクトルエネルギーに基づいていることがある。

二段階音楽分類器をトレーニングするためのデータ及び特徴の選択

ラップ分類器をトレーニングする前に、トレーニングデータのセットを準備し、特徴と分類器アルゴリズムを完成させる必要がある。トレーニングデータベースは、スピーチ、ラップ音楽、非ラップ音楽、音響効果、ノイズ等のような様々なコンテンツタイプで構成されるが、これらは、様々なアプリケーションから収集され、時間の経過とともに、それらの対応するオーディオタイプを表すために手動でラベル付けされる。これらのラベルは、オーディオコンテンツのグラウンドトゥルースを表す。異なる適用シナリオの要件を満たすために、特徴セットは、古い特徴と新しい特徴の間で共同で又は別個に選択され得る。同様に、新しいモデルは、異なる学習アルゴリズムを使用することによって、独立に又は複数のモデルと共同でトレーニングされ得る。

新しい分類器の要件とシステム許容度に応じて、古い特徴／トレーニングデータと新しい特徴／トレーニングデータの異なる組合せが存在する。残念ながら、すべての選択の可能性を列挙することはできないため、上記の組合せの最適解を見つけることは難しい。実際には、トレーニングデータセットを２つのデータチャックに手動で分割し、１つのデータチャックはラップ音楽コンテンツのジャンルを表し、他のデータチャックは非ラップを表す。特徴セットでは、ラップ音楽分類器をトレーニングするために元の特徴と新しい特徴の両方を選択し、一方で古い音楽分類器については古い特徴を保持する。したがって、２つの独立した音楽分類器が存在する：１つは、一般的な音楽コンテンツ識別のための第１段階の音楽分類器としての元の音楽分類器（例えば分類器１１２のセット）であり、もう１つは、第２段階の音楽分類器としての新しいトレーニングされたラップ音楽分類器（例えば分類器１１４のセット）であり、これは特に、ラップ曲と対話コンテンツとの間のオーディオコンテンツを識別するためのものである。

分類器の二段階への配置

図２は、分類器１１２及び１１４（図１を参照されたい）の二段階分類器２００への配置を示すブロック図である。分類器１１２は第１段階を形成し、スピーチ分類器２０２、音楽分類器２０４、音響効果分類器２０６、ノイズ分類器２０８を含む。分類器１１２は、抽出された特徴１２０を受け取り、それぞれ、スピーチ信頼スコア２１２、音楽信頼スコア２１４、音響効果信頼スコア２１６、ノイズ信頼スコア２１８を生成し、これらはまとめて信頼スコア１２２のセットを構成する。

分類器１１４は、第２段階を形成し、ラップ分類器２３０を含む。第２段階は決定段階２３２も含む。決定段階２３２は信頼スコア１２２のセットを受け取る。信頼スコア１２２のセットが、オーディオ信号１０２がスピーチ又は音楽に対応していないこと（例えばスピーチ信頼スコア２１２及び音楽信頼スコア２１４について低い値、あるいは音響効果信頼スコア２１６又はノイズ信頼スコア２１８について高い値）を示すとき、二段階分類器２００は信頼スコア１２２のセットを出力する。信頼スコア１２２のセットが、オーディオ信号１０２がスピーチ又は音楽に対応していること（例えばスピーチ信頼スコア２１２又は音楽信頼スコア２１４について高い値）を示すとき、決定段階はこの情報をラップ分類器２３０に示す。

ラップ分類器２３０は、抽出された特徴１２０と、決定段階２３２からのスピーチ又は音楽の指示を受け取る。計算の複雑性を効果的に削減するために、ラップ分類器２３０をすべてのコンテンツに対して常に実行する必要はない。代わりに、分類器１１２と分類器１１４は、二段階カスケード分類器として配置される。最初に、各オーディオタイプの信頼スコアが第１段階で計算され、最大の信頼スコアを有する対応するオーディオタイプを決定する。オーディオタイプがスピーチ又は音楽タイプである場合、条件が満たされ、その指示がラップ分類器２３０に提供され、更なる識別を実行する。次いで、二段階分類器２００は、ラップ分類器２３０の動作から得られた信頼スコア１２４を出力する。第１段階分類器の出力タイプが音響効果又はノイズである場合、ラップ分類器２３０はバイパスされてよい。

コンテキスト検出器１１６

コンテキスト検出器１１６（図１参照）は、一般に、経時的な信頼値の変化を監視する。元の分類器（例えば分類器１１２）と新しい分類器（例えば分類器１１４）の両方が、短期間では間違える可能性がある。したがって、コンテキスト検出器１１６は、より長期的に連続的なコンテキスト情報を評価する。例えば数分間にわたって音楽を聴くことにより、この期間の終わりに音楽のタイプの高い信頼スコアを有する傾向があるコンテキスト情報が得られ、これは、短期間の誤分類による突然の誤警報を修正するのに役立つ可能性がある。コンテキスト検出器１１６は、長期的コンテキストと短期的コンテキストの両方を考慮する。長期的コンテキスト情報は、ゆっくり平滑化される音楽信頼スコア（例えば音楽信頼スコア２１４）である。例えば低速な平滑化は８秒から１２秒、例えば１０秒かけて決定され得る。次いで、長期的コンテキスト情報

（以下、ｐ^－（ｔ）と表記することがある。）が、以下の式（１）に従って計算され得る：

ここで、ｐ（ｔ）は、オーディオ信号１０２の現在のフレームtにおける音楽分類器の信頼スコア（例えば音楽信頼スコア２１４）であり、α_{ｃｏｎｔｅｘｔ}は長期平滑化係数である

同様に、短期的コンテキスト情報は、迅速に平滑化される非音楽信頼スコア（例えば音響効果信頼スコア２１６とノイズ信頼スコア２１８の大きい方）である。例えば迅速な平滑化は、４秒から６秒、例えば５秒かけて決定され得る。次いで、短期的コンテキスト情報

（以下、ｑ^－（ｔ）と表記することがある。）が、以下の式（２）に従って計算され得る：

ここで、ｑ（ｔ）は、オーディオ信号１０２の現在のフレームtにおける音響効果信頼スコア２１６とノイズ信頼スコア２１８の最大値であり、β_{ｃｏｎｔｅｘｔ}は短期平滑化係数である。

上記のコンテキスト信号ｐ^－（ｔ）及びｑ^－（ｔ）が与えられると、ステアリング信号ｓ（ｔ）を、非線形関数ｈ（）によって決定することができる。例えば以下の式（３）に従って、シグモイド関数を使用して、取得されたコンテキスト信号を、予測されるステアリング信号（０から１）にマッピングすることができる：

ここで、ｈ_１及びｈ_２は、式（４）によるシグモイド関数である：

ここで、ｘは、出力される取得されたコンテキスト信頼度（例えばｐ^－（ｔ）又はｑ^－（ｔ））であり、Ａ及びＢは、２つのパラメータである。

コンテキスト検出器１１６の出力はステアリング信号１２６であり、これは、信頼度決定器１１８による後続処理のための重み係数として使用される。ステアリング信号１２６の範囲は、０．０から１．０までのソフト値であり、ここで、値０は非音楽コンテキストを示し、値１．０は音楽コンテキストを示す。０と１の間では、値が大きいほど、オーディオ信号１０２が音楽コンテキストにある可能性が高い。

信頼度決定器１１８

信頼度決定器１１８（図１参照）は、ステアリング信号１２６、信頼スコア１２２のセット及び信頼スコア１２４を一緒に考慮することによって、最終的な音楽信頼スコア１２８を生成する。ラップ音楽分類のオン／オフのスムーズな移行を達成するために、ｗ（ｔ）∈（０，１）の場合、混合手順がとられる。すなわち、最終出力は、古い音楽分類器（例えば信頼スコア１２２のみ）と新しい音楽分類器（例えば信頼スコア１２２と１２４の両方の組合せ）の混合信頼スコアである。新しい音楽分類器の信頼スコアｘ_ｎｅｗ（ｔ）、古い音楽分類器の信頼スコアｘ_ｏｌｄ（ｔ）［例えば信頼スコア１２２］及び上述のステアリング信号ｓ（ｔ）［例えばステアリング信号１２６］が与えられると、ｘ_ｎｅｗ（ｔ）を、以下の式（５）に従って計算することができる：
ｘ_ｎｅｗ（ｔ）＝ｘ_ｏｌｄ（ｔ）＋（１－ｘ_ｏｌｄ（ｔ））＊ｎｅｗ＿ｃｏｎｆ（ｔ）
ここで、ｎｅｗ＿ｃｏｎｆ（ｔ）は、第２段階（ラップ）音楽信頼度の出力（例えば信頼スコア１２４）である。

次いで、最終出力信頼スコアｙ（ｔ）［例えば最終信頼スコア１２８］を、以下の式（６）及び式（７）に従って表すことができる：

閾値は、トレーニングデータの統計の要約を介して決定されてよく、一実施形態によると０.９の閾値がうまく機能する。

追加の新しい分類器の拡張

本開示では、ラップ分類器は、二段階音楽分類器を構築する例示的なユースケースとして詳述されるが、これは、スピーチ、非ラップ音楽、音響効果及びノイズのような既存のオーディオコンテンツに対する元の挙動を維持するだけでなく、ラップ曲に対する分類精度を大幅に向上させることによって、ラップ音楽の全体的なリスニング体験を向上させる。なお、提案される方法を、アカペラ音楽、ゲーム内の特定のバックグラウンド音楽、ポッドキャスト内の残響音声（reverbed speech）のための新しい分類器を構築することのような、音楽コンテンツ分類の様々なユースケースのために、オーディオシステムに簡単に拡張し又は直接適用することができることに留意されたい。より広範には、提案された方法を、一般的なコンテンツ分類のための一般的なオーディオシステムにも拡張することができる。以下の段落では、古いコンテンツ識別器を新しいもので拡張する必要がある、いくつかの特定のユースケース、シナリオ及び用途について説明する。

一例示的なユースケースは残響検出である。例えば残響音声を特別に処理し、次いで、ポッドキャスト又はユーザ生成されたオーディオコンテンツのようなビットストリームに符号化する必要がある。新しいタイプのデータをサポートする一方で、新しい検出器は、下位互換性を維持するために、古いタイプのデータに対して同様の結果を生成する必要がある場合がある。この場合、残響音声分類器が分類器１１４（図１参照）に追加され得る。

別の例示的なユースケースは銃声検出である。ゲームアプリケーションでは、音響効果検出器は、追加のタイプの音響効果、例えば銃声音で更新されることがある。この場合、銃声分類器が分類器１１４に追加され得る。

別の例示的なユースケースはノイズ検出である。顧客からのニーズの増加に伴い、オーディオ処理システムは、より多くの機能性（例えばモバイルデイバスのノイズ補償）を提供する必要がある場合があり、これは、ノイズ分類器がより多くのオーディオコンテンツタイプ（例えばモバイルの定常ノイズ）を識別することを更に必要とする。新しいノイズ分類器は、より多くの分類結果を提供するが、新しい分類器を使用した後にノイズ抑制や音量調整のような他のオーディオ処理アルゴリズムを大幅に調整する必要がないように、もともとサポートされていたコンテンツタイプ（ノイズ又は音響効果のような）の分類結果が、古い分類器の分類結果と依然として同様であることが望まれる。この場合、新しいノイズ分類器が分類器１１４に追加され得る。

要約すると、新しい分類器を構築又は改善する必要があるとき、提案される方法を、次の４つの考慮事項から一般化することができる。

１つめの考慮事項は、古いユースケースと新しいユースケースの関係である。この考慮事項は、古い分類器と新しい分類器の関係を明確にし、これは、モデル組合せの構造を決定する。新しいユースケースが、古いユースケースのタイプサブセットであるとき、新しい分類器を、カスケード化された多段階構造として古い分類器と組み合わせることができる。新しいユースケースが独立の要件である場合、新しい分類器は古い分類器と並行している可能性がある。さらに、この考慮事項は、新しい分類器がいつトリガ又はアクティブ化されるか、そして新しい分類器の結果が元のシステムの古い分類器の信頼スコアとどのように組み合わされるかを決定するのに役立つ。

２つめの考慮事項は、新しいユースケースの新しい特性である。この考慮事項は、新しいパターンの本質的な特性を表す典型的な特徴を見つけることを目的としており、これは、ターゲットとされるタイプを他のコンテンツタイプから区別するために使用される。

３つめの考慮事項は、新しいユースケースのトレーニングモデルである。この考慮事項は、新しい要件に従って、トレーニングデータ及びラベル付けデータをターゲットオーディオタイプとして準備し、特徴を抽出し、対応する機械学習技術によってオフラインで新しい分類器のモデルをトレーニングする。

４つめの考慮事項は、新しい分類器の統合である。この考慮事項は、新しい特徴及び分類器を元のシステムに統合し、古いユースケースの挙動の違いを最小限にするように適切なパラメータを調整することを目的とする。

オーディオコンテンツを区別し、それに応じて最適なパラメータ又は最適なオーディオ処理アルゴリズムを適用するために、異なるユースケースプロファイルが必要とされ、事前に設計されることがあり、システム開発者は、展開されているアプリケーションコンテキストのためのプロファイルを選択し得る。プロファイルは通常、「ファイルベース」プロファイル及び高性能アプリケーション又はリソース制限されるユースケース、例えばモバイルのために特別に設計される「ポータブル」プロファイルのような、適用されるオーディオ処理アルゴリズム及び／又はそれらの最適なパラメータのセットを符号化する。ファイルベースのプロファイルとポータブルプロファイルの主な違いは、特徴選択とモデル選択による計算の複雑性であり、拡張機能は、ファイルベースのプロファイルでは有効にされ、ポータブルプロファイルでは無効にされる。

確立されたユースケースに対する影響の回避

新しい要求で元のシステムを拡張するとき、新しいシステムは、既存のアプリケーションのユースケースに大きな影響を有するべきではない。これは、以下の３つの推奨事項を示唆する。

１つめの推奨事項は、古いユースケースの特徴／モデルの選択に関する。一般的な目標は、可能な場合、元の特徴及び分類器を変更せずに維持し、新しい要求のために分離された分類器を追加又はトレーニングすることであり、これは既存のユースケースに対する大きな影響を回避するために不可欠な保証である。

２つめの推奨事項は、新しい分類器を使用する決定に関する。不必要な誤警報を減らすために、新しい分類器を使用する決定条件を微調整すべきであり、これは、古いユースケースでは、元の分類器を使用して信頼スコアを計算して結果を出力し、新しい用途にのみ新しい分類器を使用してオーディオコンテンツタイプを識別することを示す。

３つめの推奨事項は、古い分類器と新しい分類器の間の信頼度決定器に関する。異なる平滑化スキームが、古い信頼スコアと新しい結果の間の最終出力の決定に使用され得る。例えば急激な変化を回避し、オーディオ処理アルゴリズムのパラメータのよりスムーズな推定を行うために、信頼スコアを更に平滑化することができる。一般的な平滑化方法は、例えば以下の式（８）及び式（９）に従って、加重平均に基づく：
Ｃｏｎｆ（ｔ）＝α・ｏｌｄ＿Ｃｏｎｆ（ｔ）＋（１－α）・ｎｅｗ＿ｃｏｎｆ（ｔ）
ｓｍｏｏｔｈＣｏｎｆ（ｔ）＝β・ｓｍｏｏｔｈＣｏｎｆ（ｔ）＋（１－β）・ｃｏｎｆ（ｔ）
ここで、ｔはタイムスタンプであり、α、βは重みであり、ｃｏｎｆ及びｓｍｏｏｔｈＣｏｎｆは、それぞれ平滑化の前及び後の信頼度である。

平滑化アルゴリズムは、異なるケースでは異なる平滑化重みを使用することによって「非対称」とすることもできる。例えば古い信頼スコアが増加するときに元の出力をより重視すると仮定すると、以下の式（１０）に従って平滑化アルゴリズムを設計することができる：

上記の数式は、平滑化された信頼スコアが、古い信頼スコアが増加するときに現在の状態にすばやく応答し、古い信頼スコアが減少するときにゆっくりと平滑化することを可能にする。平滑化関数の変形を同様の方法で作成することができる。

図３は、オーディオ処理システム３００のブロック図である。オーディオ処理システム３００は、オーディオ分類器１００（図１参照）と、対話エンハンサ３１２、インテリジェントイコライザ３１４及びラップ音楽エンハンサ３１６を含む処理構成要素３１０とを含む。

オーディオ分類器１００は、オーディオ信号１０２を受け取り、上述のように動作して最終信頼スコア１２８を生成する。処理構成要素３１０は、最終信頼スコアを受け取り、最終信頼スコア１２８に基づいて適切な構成要素を使用してオーディオ信号１０２を処理する。例えば最終信頼スコア１２８が、オーディオ信号１０２が対話であることを示すとき、対話エンハンサ３１２を使用してオーディオ信号１０２を処理してよい。最終信頼スコア１２８が、オーディオ信号１０２がアンバランスなスペクトルバランスを有することを示すとき、インテリジェントイコライザ３１４を使用してオーディオ信号１０２を処理してよい。最終信頼スコア１２８が、オーディオ信号１０２がラップ音楽であることを示すとき、ラップ音楽エンハンサ３１６を使用してオーディオ信号１０２を処理してよい。処理構成要素３１０は、選択された構成要素によって処理されているオーディオ信号１０２に対応する、処理されたオーディオ信号３２０を生成する。

図４は、オーディオ分類器１００（図１参照）、二段階分類器２００（図２参照）、オーディオ処理システム３００（図３参照）等を実装するために使用され得る、デバイス４００のブロック図である。デバイス４００は、コンピュータ（デスクトップコンピュータ、ラップトップコンピュータ等）、ゲームコンソール、ポータブルデバイス（例えば携帯電話、メディアプレーヤ等）等であってよい。デバイス４００は、バス４１２によって接続される、プロセッサ４０２、メモリ４０４、１つ以上の入力構成要素４０６、１つ以上の出力構成要素４０８及び１つ以上の通信構成要素４１０を含む。

プロセッサ４０２は、一般に、例えば１つ以上のコンピュータプログラムの実行に従って、デバイス４００の動作を制御する。プロセッサ４０２は、特徴抽出器１１０（図１参照）、分類器１１２及び１１４、コンテキスト検出器１１６、信頼度決定器１１８、オーディオ処理構成要素３１０（図３参照）、式（１）から式（１０）、方法５００（図５参照）等の特徴のような、本明細書で説明される特徴のうちの１つ以上を実装し得る。プロセッサ４０２は、データ、コンピュータプログラム等を記憶するためにメモリ４０４とやり取りすることがある。

メモリ４０４は、一般に、デバイス４００によって操作されるデータを記憶する。例えばメモリ４０４は、入力信号１０２（図１参照、例えばストリーミング信号のデータフレームとして、記憶されたデータファイル等として）、抽出された特徴１２０、分類器１１２及び１１４によって使用されるモデル、信頼スコア１２２及び１２４、ステアリング信号１２６、最終信頼スコア１２８、式（１）から式（１０）の結果等を記憶してよい。メモリ４０４は、プロセッサ４０２によって実行されるコンピュータプログラムも記憶してよい。

入力構成要素４０６は、一般に、デバイス４００への入力を可能にする。入力構成要素４０６の仕様は、デバイス４００の特定のフォームファクタによって異なることがある。例えば携帯電話の入力構成要素４０６は、タッチスクリーン、マイク、モーションセンサ、カメラ、コントロールボタン等を含み得る。ゲームコンソールの入力構成要素４０６は、コントロールボタン、キネティックモーションセンサ、マイク、ゲームコントローラ等を含み得る。

出力構成要素４０８は、一般に、デバイス４００からの出力を可能にする。出力構成要素４０８の仕様は、デバイス４００の特定のフォームファクタによって異なることがある。例えば携帯電話の出力構成要素４０８は、スクリーン、スピーカ、触覚機構、発光ダイオード等を含み得る。ゲームコンソールの出力構成要素４０８は、スクリーン、スピーカ等を含み得る。

通信構成要素４１０は、一般に、デバイス４００と他のデバイスとの間の有線又は無線通信を可能にする。そのため、通信構成要素４１０は、入力構成要素４０６及び出力構成要素４０８と同様に、追加の入力構成要素及び出力構成要素を含む。無線構成要素は、セルラ式無線（cellular radios）、ＩＥＥＥ８０２.１５.１無線（例えばＢｌｕｅｔｏｏｔｈ（登録商標）無線）、ＩＥＥＥ８０２.１１無線（例えばＷｉ-Ｆｉ（登録商標）無線）等のような無線を含む。有線構成要素は、キーボード、マウス、ゲームコントローラ、センサ等を含む。入力構成要素４０６及び出力構成要素４０８の仕様は、デバイス４００の特定のフォームファクタによって異なることがある。例えば携帯電話は、入力信号１０２をストリーミング信号として受信するセルラ式無線と、処理されたオーディオ信号３２０を、サウンドとして出力するために一対のワイヤレスイヤホンに送信するＩＥＥＥ８０２.１５.１無線を含み得る。

図５は、オーディオ処理の方法５００のフロー図である。方法５００は、１つ以上のコンピュータプログラムの実行によって制御されるように、デバイス（例えば図４のデバイス４００）によって実装されてよい。

５０２において、オーディオ信号が受信される。例えばオーディオ信号１０２（図１参照）は、デバイス４００の通信構成要素４１０（図４参照）によって受信されてよい。別の例として、オーディオ信号１０２は、以前にそこに記憶されていたメモリ４０４から受信されてもよい。

５０４において、オーディオ信号に対して特徴抽出を実行して複数の特徴を抽出する。例えば特徴抽出器１１０（図１参照）は、オーディオ信号１０２に対して特徴抽出を実行して、抽出された特徴１２０を生成し得る。実行される特徴抽出の詳細と、結果として抽出される特徴は、分類に使用されるモデルに対する、これらの特定の特徴の関連性によって異なり得る。例えば入力信号１０２のサブバンドエネルギーは、ラップ分類モデルに関連することがある。

５０６において、複数の特徴は、第１オーディオ分類モデルに従って分類されて、第１信頼スコアセットを生成する。例えば分類器１１２（図１参照）は、音楽分類モデル、スピーチ分類モデル、ノイズ分類モデル、音響効果分類モデル等に従って、抽出された特徴１２０を分類し、それぞれの信頼スコア１２２を生成することができる。

５０８において、複数の特徴は、第２オーディオ分類モデルに従って分類されて、第２信頼スコアを生成する。例えば分類器１１４（図１参照）は、ラップ分類モデルに従って、抽出された特徴１２０を分類し、ラップ信頼スコア１２４を生成することができる。

５１０において、ステアリング信号は、第１期間にわたって平滑化された第１信頼スコアセットの第１構成要素と、第２期間にわたって平滑化された第１信頼スコアセットの第２構成要素を組み合わせることによって計算され、ここで、第２期間は第１期間よりも短い。例えばコンテキスト検出器１１６（図１参照）は、式（１）による長期的コンテキスト情報と式（２）による短期的コンテキスト情報を使用して、式（３）に従ってステアリング信号１２６を生成することができる。

５１２において、最終信頼スコアが、ステアリング信号、第１信頼スコアセット及び第２信頼スコアに従って計算される。例えば信頼度決定器１１８（図１参照）は、ステアリング信号１２６、信頼スコア１２２及び信頼スコア１２４に従って、最終信頼スコア１２８を生成することができる。最終信頼スコアは、例えば式（６）に従って計算される、信頼スコア１２２と１２４の重み付けされた組合せに対応し得る。

５１４において、最終信頼スコアに従って、オーディオ信号の分類が出力される。例えば信頼度決定器１１８（図１参照）は、デバイス４００の他の構成要素による使用のために、最終信頼スコア１２８を出力することができる。

５１６において、分類に基づいて、第１プロセスと第２プロセスのうちの一方が、オーディオ信号を選択的に実行され、処理されたオーディオ信号を生成し、ここで、分類が第１分類であるときに、第１プロセスが実行され、分類が第２分類であるときに、第２プロセスが実行される。例えばオーディオ信号１０２（図１参照）がスピーチに対応するとき、対話エンハンサ３１２（図３参照）を使用して、処理されたオーディオ信号３２０を生成することができる。オーディオ信号１０２がラップに対応するとき、ラップ音楽エンハンサ３１６を使用して、処理されたオーディオ信号３２０を生成することができる。

５１８において、処理されたオーディオ信号が音として出力される。例えばデバイス４００のスピーカは、処理されたオーディオ信号３２０を可聴音として出力することができる。

実装の詳細

実施形態は、ハードウェア、コンピュータ読取可能媒体に記憶された実行可能モジュール又はその両方の組合せ（例えばプログラマブル論理アレイ）で実装されてよい。別段の記載がない限り、実施形態によって実行されるステップは、特定の実施形態におけるものであり得るが、本質的にいずれかの特定のコンピュータ又は他の装置に関連する必要はない。特に、様々な汎用マシンが、本明細書における教示に従って書かれたプログラムとともに使用されてよく、必要な方法のステップを実行するために、より専門的な装置（例えば集積回路）を構築する方が便利なことがある。したがって、実施形態は、各々が少なくとも１つのプロセッサと、少なくとも１つのデータストレージシステム（揮発性及び不揮発性メモリ及び／又は記憶素子を含む）と、少なくとも１つの入力デバイス又はポートと、少なくとも１つの出力デバイス又はポートとを含む、１つ以上のプログラム可能なコンピュータシステムで実行される１つ以上のコンピュータプログラムで実装されてよい。プログラムコードは、本明細書で説明される機能を実行して出力情報を生成するために入力データに適用される。出力情報は、既知の方法で１つ以上の出力デバイスに適用される。

このような各コンピュータプログラムは好ましくは、本明細書に記載されている手順を実行するために、記憶媒体又はデバイスがコンピュータシステムによって読み取られるときに、コンピュータを構成して動作させるために、汎用又は特殊目的のプログラム可能なコンピュータ読取可能記憶媒体又はデバイス（例えばソリッドステートメモリ又は媒体、あるいは磁気又は光媒体）に記憶又はダウンロードされる。また、本発明のシステムは、コンピュータプログラムで構成されるコンピュータ読取可能記憶媒体として実装されると考えられてもよく、ここで、そのように構成される記憶媒体は、コンピュータシステムに、本明細書に記載されている機能を実行するために、特有の事前に定義された方法で動作させる。（ソフトウェア自体及び無形又は一時的な信号は、特許を受けることができない主題である限り除外される。）

上記の説明は、本開示の様々な実施形態を、本開示の態様が実装され得る方法の例とともに説明している。上記の例及び実施形態は、唯一の実施形態とみなされるべきではなく、以下の特許請求の範囲によって定義される本開示の柔軟性及び利点を説明するために提示される。上記の開示及び以下の特許請求の範囲に基づいて、他の構成、実施形態、実装及び均等物は、当業者にとって明らかであり、特許請求の範囲によって定義される本開示の精神及び範囲から逸脱することなく採用することができる。

本発明の様々な態様は、以下の列挙される例示的な実施形態（enumerated example embodiments）（ＥＥＥ）から理解され得る：
ＥＥＥ１．オーディオ処理の方法であって、当該方法は、
オーディオ信号を受信するステップと、
オーディオ信号に対して特徴抽出を実行して複数の特徴を抽出するステップと、
第１オーディオ分類モデルに従って複数の特徴を分類して第１信頼スコアを生成するステップと、
第２オーディオ分類モデルに従って複数の特徴を分類して第２信頼スコアを生成するステップと、
第１信頼スコアの第１構成要素と、第１信頼スコアの第２構成要素を組み合わせることによって、ステアリング信号を計算するステップと、
ステアリング信号、第１信頼スコア及び第２信頼スコアに従って最終信頼スコアを計算するステップと、
最終信頼スコアに従ってオーディオ信号の分類を出力するステップと、を含む。
ＥＥＥ２．複数のモデルは、第１モデルセットと第２オーディオ分類モデルを含み、第１モデルセットは、第１オーディオ分類モデルを含み、第１オーディオ分類モデルに従って複数の特徴を分類して第１信頼スコアを生成するステップは、
第１モデルセットに従って複数の特徴を分類して第１信頼スコアを生成するステップを含む、ＥＥＥ１に記載の方法。
ＥＥＥ３．第１モデルセットは、スピーチ分類モデルと音楽分類モデルを含む、ＥＥＥ２に記載の方法。
ＥＥＥ４．第２オーディオ分類モデルは、ラップ分類モデルである、ＥＥＥ１乃至３のいずれかに記載の方法。
ＥＥＥ５．特徴抽出を実行することは、オーディオ信号の複数のサブバンドについての複数のサブバンドエネルギーを決定することを含む、ＥＥＥ１乃至４のいずれかに記載の方法。
ＥＥＥ６．複数のサブバンドは、３００Ｈｚ未満の第１サブバンドと、３００Ｈｚから１０００Ｈｚの間の第２サブバンドと、１ｋＨｚから３ｋＨｚの間の第３サブバンドと、３ｋＨｚから６ｋＨｚの間の第４サブバンドとを含む、ＥＥＥ５に記載の方法。
ＥＥＥ７．第１オーディオ分類モデルに従って複数の特徴を分類することは、
適応ブースティング機械学習プロセス及びディープニューラルネットワーク機械学習プロセスのうちの少なくとも一方を使用して、第１オーディオ分類モデルに従って複数の特徴を分類することを含む、ＥＥＥ１乃至６のいずれかに記載の方法。
ＥＥＥ８．ステアリング信号を計算するステップは、
第１期間にわたって平滑化された第１信頼スコアの第１構成要素と、第２期間にわたって平滑化された第１信頼スコアの第２構成要素を組み合わせることによって、ステアリング信号を計算するステップを含み、第２期間は第１期間より短い、ＥＥＥ１乃至７のいずれかに記載の方法。
ＥＥＥ９．第１期間は、第２期間の少なくとも２倍である、ＥＥＥ８に記載の方法。
ＥＥＥ１０．第１期間は８秒から１２秒の間であり、第２期間は４秒から６秒の間である、ＥＥＥ８に記載の方法。
ＥＥＥ１１．第１期間にわたって平滑化された第１信頼スコアの第１構成要素は、第１平滑化係数と、オーディオ信号の現在のフレームの現在の音楽信頼スコアと、オーディオ信号の以前のフレームの以前の平滑化された音楽信頼スコアとに基づいて計算され、
第２期間にわたって平滑化された第１信頼スコアの第２構成要素は、第２平滑化係数と、オーディオ信号の現在のフレームの現在の音響効果及びノイズ信頼スコアと、オーディオ信号の以前のフレームの以前の平滑化された音響効果及びノイズ信頼スコアとに基づいて計算される、ＥＥＥ８乃至１０のいずれかに記載の方法。
ＥＥＥ１２．ステアリング信号を計算するステップは、
第１期間にわたって平滑化された第１信頼スコアの第１構成要素に、第１シグモイド関数を適用するステップと、
第２期間にわたって平滑化された第１信頼スコアの第２構成要素に、第２シグモイド関数を適用するステップと、
を含む、ＥＥＥ１乃至１１のいずれかに記載の方法。
ＥＥＥ１３．最終信頼スコアは、新しい信頼度構成要素と古い信頼度構成要素の組合せに基づいて計算され、
新しい信頼度構成要素は、第１信頼スコアと第２信頼スコアの組合せに適用される第１重みの組合せに基づいて計算される、ＥＥＥ１乃至１２のいずれかに記載の方法。
ＥＥＥ１４．古い信頼度構成要素は、第１信頼スコアに適用される第２重みに基づいて計算される、ＥＥＥ１３に記載の方法。
ＥＥＥ１５．第１重みと第２重みの和は１である、ＥＥＥ１４に記載の方法。
ＥＥＥ１６．第１重みは、ステアリング信号と、ステアリング信号及び第２信頼スコアの組合せとのうちの一方に選択的に対応し、
第２信頼スコアが閾値未満であるとき、第１重みはステアリング信号に対応する、ＥＥＥ１３に記載の方法。
ＥＥＥ１７．分類に基づいて、オーディオ信号に対して第１プロセス及び第２プロセスのうちの一方を選択的に実行して、処理されたオーディオ信号を生成するステップを更に含み、分類が第１分類であるときに第１プロセスが実行され、分類が第２分類であるときに第２プロセスが実行される、ＥＥＥ１乃至１６のいずれかに記載の方法。
ＥＥＥ１８．プロセッサによって実行されると、ＥＥＥ１乃至１７のいずれか１つに記載の方法を含む処理を実行するように装置を制御するコンピュータプログラムを記憶している、非一時的コンピュータ読取可能媒体。
ＥＥＥ１９．オーディオ処理のための装置であって、当該装置は、
プロセッサと、
メモリと、を備え、
プロセッサは、オーディオ信号を受信するように、当該装置を制御するよう構成され、
プロセッサは、オーディオ信号に対して特徴抽出を実行して複数の特徴を抽出するように、当該装置を制御するよう構成され、
プロセッサは、第１オーディオ分類モデルに従って複数の特徴を分類して第１信頼スコアを生成するように、当該装置を制御するよう構成され、
プロセッサは、第２オーディオ分類モデルに従って複数の特徴を分類して第２信頼スコアを生成するように、当該装置を制御するよう構成され、
プロセッサは、第１信頼スコアの第１構成要素と、第１信頼スコアの第２構成要素を組み合わせることによって、ステアリング信号を計算するように、当該装置を制御するよう構成され、
プロセッサは、ステアリング信号、第１信頼スコア及び第２信頼スコアに従って最終信頼スコアを計算するように、当該装置を制御するよう構成され、
プロセッサは、最終信頼スコアに従ってオーディオ信号の分類を出力するように、当該装置を制御するよう構成される。
ＥＥＥ２０．第２オーディオ分類モデルは、ラップ分類モデルであり、
特徴抽出を実行することは、オーディオ信号の複数のサブバンドについての複数のサブバンドエネルギーを決定することを含み、
複数のサブバンドは、３００Ｈｚ未満の第１サブバンドと、３００Ｈｚから１０００Ｈｚの間の第２サブバンドと、１ｋＨｚから３ｋＨｚの間の第３サブバンドと、３ｋＨｚから６ｋＨｚの間の第４サブバンドとを含む、ＥＥＥ１９に記載の装置。

Claims

オーディオ処理の方法であって、当該方法は、
オーディオ信号を受信するステップと、
前記オーディオ信号に対して特徴抽出を実行して複数の特徴を抽出するステップと、
第１オーディオ分類モデルに従って前記複数の特徴を分類して第１信頼スコアセットを生成するステップと、
第２オーディオ分類モデルに従って前記複数の特徴を分類して第２信頼スコアを生成するステップと、
前記第１信頼スコアセットの第１信頼スコアと、前記第１信頼スコアセットの更なる信頼スコアを組み合わせることによって、ステアリング信号を計算するステップと、
前記ステアリング信号、前記第１信頼スコアセット及び前記第２信頼スコアに従って最終信頼スコアを計算するステップと、
前記最終信頼スコアに従って前記オーディオ信号の分類を出力するステップと、
を含む、方法。
複数のモデルは、第１モデルセットと前記第２オーディオ分類モデルを含み、前記第１モデルセットは、前記第１オーディオ分類モデルを含み、前記第１オーディオ分類モデルに従って前記複数の特徴を分類して前記第１信頼スコアセットを生成するステップは、
前記第１モデルセットに従って前記複数の特徴を分類して前記第１信頼スコアセットを生成するステップを含む、
請求項１に記載の方法。
前記第１モデルセットは、スピーチ分類モデルと音楽分類モデルを含む、
請求項２に記載の方法。
前記第２オーディオ分類モデルは、ラップ分類モデルである、
請求項１乃至３のいずれかに記載の方法。
前記特徴抽出を実行することは、前記オーディオ信号の複数のサブバンドについての複数のサブバンドエネルギーを決定することを含む、
請求項１乃至４のいずれかに記載の方法。
前記複数のサブバンドは、３００Ｈｚ未満の第１サブバンドと、３００Ｈｚから１０００Ｈｚの間の第２サブバンドと、１ｋＨｚから３ｋＨｚの間の第３サブバンドと、３ｋＨｚから６ｋＨｚの間の第４サブバンドとを含む、
請求項５に記載の方法。
前記第１オーディオ分類モデルに従って前記複数の特徴を分類することは、
適応ブースティング機械学習プロセス及びディープニューラルネットワーク機械学習プロセスのうちの少なくとも一方を使用して、前記第１オーディオ分類モデルに従って前記複数の特徴を分類することを含む、
請求項１乃至６のいずれかに記載の方法。
前記ステアリング信号を計算するステップは、
第１期間にわたって平滑化された前記第１信頼スコアセットの前記第１信頼スコアと、第２期間にわたって平滑化された前記第１信頼スコアセットの前記更なる信頼スコアを組み合わせることによって、前記ステアリング信号を計算するステップを含み、前記第２期間は前記第１期間より短い、
請求項１乃至７のいずれかに記載の方法。
前記第１期間は、前記第２期間の少なくとも２倍である、
請求項８に記載の方法。
前記第１期間にわたって平滑化された前記第１信頼スコアセットの前記第１信頼スコアは、第１平滑化係数と、前記オーディオ信号の現在のフレームの現在の音楽信頼スコアと、前記オーディオ信号の以前のフレームの以前の平滑化された音楽信頼スコアとに基づいて計算され、
前記第２期間にわたって平滑化された前記第１信頼スコアセットの前記更なる信頼スコアは、第２平滑化係数と、前記オーディオ信号の前記現在のフレームの現在の音響効果及びノイズ信頼スコアと、前記オーディオ信号の前記以前のフレームの以前の平滑化された音響効果及びノイズ信頼スコアとに基づいて計算される、
請求項８又は９に記載の方法。
前記ステアリング信号を計算するステップは、
第１期間にわたって平滑化された前記第１信頼スコアセットの前記第１信頼スコアに、第１シグモイド関数を適用するステップと、
第２期間にわたって平滑化された前記第１信頼スコアセットの前記更なる信頼スコアに、第２シグモイド関数を適用するステップと、
を含む、請求項１乃至１０のいずれかに記載の方法。
前記分類に基づいて、前記オーディオ信号に対して第１プロセス及び第２プロセスのうちの一方を選択的に実行して、処理されたオーディオ信号を生成するステップを更に含み、前記分類が第１分類であるときに前記第１プロセスが実行され、前記分類が第２分類であるときに前記第２プロセスが実行される、
請求項１乃至１１のいずれかに記載の方法。
プロセッサによって実行されると、請求項１乃至１２のいずれか一項に記載の方法を含む処理を実行するように装置を制御するコンピュータプログラムを記憶している、非一時的コンピュータ読取可能媒体。
オーディオ処理のための装置であって、当該装置は、
プロセッサと、
メモリと、を備え、
前記プロセッサは、オーディオ信号を受信するように、当該装置を制御するよう構成され、
前記プロセッサは、前記オーディオ信号に対して特徴抽出を実行して複数の特徴を抽出するように、当該装置を制御するよう構成され、
前記プロセッサは、第１オーディオ分類モデルに従って前記複数の特徴を分類して第１信頼スコアセットを生成するように、当該装置を制御するよう構成され、
前記プロセッサは、第２オーディオ分類モデルに従って前記複数の特徴を分類して第２信頼スコアを生成するように、当該装置を制御するよう構成され、
前記プロセッサは、前記第１信頼スコアセットの第１信頼スコアと、前記第１信頼スコアセットの更なる信頼スコアを組み合わせることによって、ステアリング信号を計算するように、当該装置を制御するよう構成され、
前記プロセッサは、前記ステアリング信号、前記第１信頼スコアセット及び前記第２信頼スコアに従って最終信頼スコアを計算するように、当該装置を制御するよう構成され、
前記プロセッサは、前記最終信頼スコアに従って前記オーディオ信号の分類を出力するように、当該装置を制御するよう構成される、
装置。
前記第２オーディオ分類モデルは、ラップ分類モデルであり、
前記特徴抽出を実行することは、前記オーディオ信号の複数のサブバンドについての複数のサブバンドエネルギーを決定することを含み、
前記複数のサブバンドは、３００Ｈｚ未満の第１サブバンドと、３００Ｈｚから１０００Ｈｚの間の第２サブバンドと、１ｋＨｚから３ｋＨｚの間の第３サブバンドと、３ｋＨｚから６ｋＨｚの間の第４サブバンドとを含む、
請求項１４に記載の装置。
前記ステアリング信号を計算することは、
第１期間にわたって平滑化された前記第１信頼スコアセットの前記第１信頼スコアと、第２期間にわたって平滑化された前記第１信頼スコアセットの前記更なる信頼スコアを組み合わせることによって、前記ステアリング信号を計算することを含み、前記第２期間は前記第１期間より短い、
請求項１４又は１５に記載の装置。