JP2016519784A5

JP2016519784A5 -

Info

Publication number: JP2016519784A5
Application number: JP2016505531A
Authority: JP
Filing date: 2014-03-25
Publication date: 2017-04-27
Anticipated expiration: 2034-03-25

Description

請求項におけるあらゆる手段または動作に機能を加えた要素の対応する構造、材料、工程および等価物は、はっきりと請求項に記載されている他の請求項記載の要素との組み合わせにおいて機能を実行するための任意の構造、材料または工程を含むことが意図されている。本願の記述は、例解および説明のために提示されたが、網羅的であることや開示される形の応用に限定されることは意図されていない。本願の範囲および精神から外れることなく、多くの修正および変形が当業者には明白となるであろう。実施形態は、本願の原理および実際的な応用を最もよく説明するためおよび当業者が、考えられている具体的な用途に適したさまざまな修正をもつさまざまな実施形態について本願を理解できるようにするために選ばれ、記述された。
いくつかの態様を記載しておく。
〔態様１〕
リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と；
聞き手の経験を改善するためのオーディオ改善装置と；
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置。
〔態様２〕
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび／または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、態様１記載のオーディオ処理装置。
〔態様３〕
前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、態様１記載のオーディオ処理装置。
〔態様４〕
前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、態様１記載のオーディオ処理装置。
〔態様５〕
前記短期的音楽が、優勢な源のない音楽または優勢な源のある音楽を含む、態様３記載のオーディオ処理装置。
〔態様６〕
前記短期的音楽が、少なくとも一つのジャンル・ベースのクラスターまたは少なくとも一つの楽器ベースのクラスターまたは音楽のリズム、テンポ、音色および／または他の任意の音楽的属性に基づいて分類された少なくとも一つの音楽クラスターを含む、態様３記載のオーディオ処理装置。
〔態様７〕
前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、態様１記載のオーディオ処理装置。
〔態様８〕
前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、態様２記載のオーディオ処理装置。
〔態様９〕
前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、映画的メディアおよび／またはVoIPの信頼値と正に相関させ、前記ダイアログ向上器のダイアログ向上のレベルを、長期的音楽および／またはゲームの信頼値と負に相関させるよう構成されている、態様２記載のオーディオ処理装置。
〔態様１０〕
前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、発話の信頼値と正に相関させるよう構成されている、態様２記載のオーディオ処理装置。
〔態様１１〕
前記オーディオ改善装置がそれぞれの閾値より高い周波数帯域を向上させるためのダイアログ向上器を含み、前記調整ユニットは、前記閾値を、短期的音楽および／またはノイズおよび／または背景音の信頼値と正に相関させるおよび／または前記閾値を発話の信頼値と負に相関させるよう構成されている、態様２記載のオーディオ処理装置。
〔態様１２〕
前記オーディオ改善装置が、前記オーディオ信号における背景レベルを推定するための最小追跡ユニットを有し、前記調整ユニットは、前記最小追跡ユニットによって推定される背景レベルに調整を割り当てるよう構成されており、前記調整ユニットはさらに、前記調整を、短期的音楽および／またはノイズおよび／または背景音の信頼値と正に相関させるおよび／または前記調整を発話の信頼値と負に相関させるよう構成されている、態様２記載のオーディオ処理装置。
〔態様１３〕
前記調整ユニットは、前記調整を、短期的音楽より、ノイズおよび／または背景音の信頼値と、より正に相関させるよう構成されている、態様１２記載のオーディオ処理装置。
〔態様１４〕
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、ノイズおよび／または背景音および／または発話の信頼値と正に相関させるおよび／または該サラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されている、態様２記載のオーディオ処理装置。
〔態様１５〕
前記調整ユニットが、前記サラウンド・ブースト量を、コンテンツ型発話より、ノイズおよび／または背景音の信頼値と、より正に相関させるよう構成されている、態様１４記載のオーディオ処理装置。
〔態様１６〕
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器の開始周波数を、短期的音楽の信頼値と正に相関させるよう構成されている、態様２記載のオーディオ処理装置。
〔態様１７〕
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、映画的メディアおよび／またはゲームの信頼値と正に相関させるおよび／または該サラウンド・ブースト量を長期的音楽および／またはVoIPの信頼値と負に相関させるよう構成されている、態様２記載のオーディオ処理装置。
〔態様１８〕
前記調整ユニットが、前記サラウンド・ブースト量を、ゲームより、映画的メディアの信頼値と、より正に相関させるよう構成されている、態様１７記載のオーディオ処理装置。
〔態様１９〕
前記調整ユニットが、前記少なくとも一つのパラメータを、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて調整するよう構成されている、態様２記載のオーディオ処理装置。
〔態様２０〕
異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、態様１９記載のオーディオ処理装置。
〔態様２１〕
前記調整ユニットが、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の前記信頼値を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、態様１ないし２０のうちいずれか一項記載のオーディオ処理装置。
〔態様２２〕
前記調整ユニットが、前記信頼値に基づいて前記少なくとも一つのオーディオ型を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、態様１ないし２０のうちいずれか一項記載のオーディオ処理装置。
〔態様２３〕
前記調整ユニットが、前記信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成されている、態様２２記載のオーディオ処理装置。
〔態様２４〕
前記調整ユニットが、あるオーディオ型の重みを少なくとも一つの他のオーディオ型の信頼値を用いて修正するよう構成されている、態様１ないし２０のうちいずれか一項記載のオーディオ処理装置。
〔態様２５〕
前記調整ユニットによって調整される前記オーディオ改善装置のあるパラメータについて、現時点で前記調整ユニットによって決定されるパラメータ値と最後の時点での平滑化されたパラメータ値との重み付けされた和を計算することによって、現時点での前記調整ユニットによって決定されるパラメータ値を平滑化するパラメータ平滑化ユニットをさらに有する、態様１ないし２０のうちいずれか一項記載のオーディオ処理装置。
〔態様２６〕
前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型に基づいて適応的に変更される、態様２５記載のオーディオ処理装置。
〔態様２７〕
前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、態様２５記載のオーディオ処理装置。
〔態様２８〕
前記重み付けされた和を計算するための重みが、前記調整ユニットによって決定される前記パラメータ値の増加または減少トレンドに基づいて適応的に変更される、態様２５記載のオーディオ処理装置。
〔態様２９〕
各オーディオ型について、現在の実際の信頼値と最後の時点での平滑化された信頼値との重み付けされた和を計算することによって、現時点での前記オーディオ信号の信頼値を平滑化する型平滑化ユニットをさらに有する、態様１ないし２０のうちいずれか一項記載のオーディオ処理装置。
〔態様３０〕
前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型の信頼値に基づいて適応的に変更される、態様２９記載のオーディオ処理装置。
〔態様３１〕
前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、態様２９記載のオーディオ処理装置。
〔態様３２〕
前記オーディオ分類器が同じ新しいオーディオ型を連続的に出力する継続時間を測定するタイマーをさらに有しており、前記調整ユニットは、新しいオーディオ型の継続時間の長さが閾値に達するまで、現在のオーディオ型を使い続けるよう構成される、態様１ないし２０のうちいずれか一項記載のオーディオ処理装置。
〔態様３３〕
あるオーディオ型から別のオーディオ型への異なる遷移対について、前記閾値が異なる、態様３２記載のオーディオ処理装置。
〔態様３４〕
前記閾値が、前記新しいオーディオ型の信頼値と負に相関している、態様３２記載のオーディオ処理装置。
〔態様３５〕
それぞれオーディオ・フレームのシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する短期的特徴抽出器と；
長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する短期的分類器と；
前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して前記短期的分類器の結果の統計量を長期的特徴として計算する統計抽出器と；
前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する長期的分類器とを有する、
オーディオ分類器。
〔態様３６〕
前記短期的分類器が、短期的セグメントの前記シーケンスの各短期的セグメントを、発話、短期的音楽、背景音およびノイズの短期的オーディオ型の少なくとも一つに分類するよう構成されている、態様３５記載のオーディオ分類器。
〔態様３７〕
前記統計抽出器が、前記長期的特徴として、前記短期的オーディオ型の信頼値の平均および分散、前記短期的セグメントの重要度によって重み付けされた前記平均および分散、各短期的オーディオ型の出現頻度および種々の短期的オーディオ型の間の遷移の頻度のうちの少なくとも一つを計算するよう構成されている、態様３５記載のオーディオ分類器。
〔態様３８〕
前記長期的オーディオ・セグメント内の短期的セグメントの前記シーケンスの前記短期的特徴に基づいて、前記長期的オーディオ・セグメントからのさらなる長期的特徴を抽出する長期的特徴抽出器をさらに有する、態様３５記載のオーディオ分類器。
〔態様３９〕
前記長期的特徴抽出器がさらに、前記長期的特徴として、前記短期的特徴の次の統計量、すなわち：平均、分散、重み付けされた平均、重み付けされた分散、高平均、低平均および高平均と低平均の間の比のうちの少なくとも一つを計算するよう構成される、態様３８記載のオーディオ分類器。
〔態様４０〕
オーディオ・フレームの前記シーケンスの各オーディオ・フレームからフレーム・レベル特徴を抽出するフレーム・レベル特徴抽出器をさらに有しており、
前記短期的特徴抽出器は、オーディオ・フレームの前記シーケンスから抽出される前記フレーム・レベル特徴に基づいて短期的特徴を計算するよう構成される、
態様３５ないし３９のうちいずれか一項記載のオーディオ分類器。
〔態様４１〕
前記フレーム・レベル特徴抽出器は、次の特徴、すなわち：さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出するよう構成されている、態様４０記載のオーディオ分類器。
〔態様４２〕
さまざまな短期的オーディオ型の属性を特徴付ける前記特徴が、次の特徴、すなわち：フレーム・エネルギー、サブバンド・スペクトル分布、スペクトル・フラックス、メル‐周波数ケプストラム係数、ベース、残差情報、クロマ特徴および零交差レートのうちの少なくとも一つを含む、態様４１記載のオーディオ分類器。
〔態様４３〕
前記短期的特徴抽出器が、前記短期的特徴として、前記フレーム・レベル特徴の統計量を計算するよう構成されている、態様４０記載のオーディオ分類器。
〔態様４４〕
前記短期的特徴抽出器が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して作用するよう構成されている、態様４０記載のオーディオ分類器。
〔態様４５〕
前記短期的特徴抽出器は、短期的特徴として、次の特徴、すなわち：リズム特性、中断／ミュート特性および短期的オーディオ品質特徴のうちの少なくとも一つを、各短期的オーディオ・セグメントから直接抽出するよう構成されている、態様４０記載のオーディオ分類器。
〔態様４６〕
オーディオ・フレームからフレーム・レベル特徴を抽出するフレーム・レベル特徴抽出器と、
それぞれのフレーム・レベル特徴を使ってオーディオ・フレームのシーケンスの各フレームをフレーム・レベル・オーディオ型に分類するフレーム・レベル分類器とを有しており、
前記短期的特徴抽出器は、前記シーケンスのオーディオ・フレームに関するフレーム・レベル分類器の結果に基づいて前記短期的特徴を計算するよう構成されている、
態様３５ないし３９のうちいずれか一項記載のオーディオ分類器。
〔態様４７〕
前記短期的特徴抽出器は、前記シーケンスのオーディオ・フレームから抽出された前記フレーム・レベル特徴および前記シーケンスのオーディオ・フレームに関する前記フレーム・レベル分類器の結果の両方に基づいて前記短期的特徴を計算するよう構成されている、態様４６記載のオーディオ分類器。
〔態様４８〕
前記フレーム・レベル特徴抽出器は、次の特徴、すなわち：さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出するよう構成されている、態様４６または４７記載のオーディオ分類器。
〔態様４９〕
前記短期的特徴抽出器が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して作用するよう構成されている、態様４６または４７記載のオーディオ分類器。
〔態様５０〕
前記フレーム・レベル分類器が前記シーケンスのオーディオ・フレームを、発話、音楽、背景音およびノイズのフレーム・レベル・オーディオ型のうちの少なくとも一つに分類するよう構成されている、態様４６または４７記載のオーディオ分類器。
〔態様５１〕
態様３５ないし５０のうちいずれか一項記載のオーディオ分類器を有するオーディオ処理装置。
〔態様５２〕
リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類する段階と；
前記少なくとも一つのオーディオ型の信頼値に基づいてオーディオ改善のための少なくとも一つのパラメータを連続的に調整する段階とを含む、
オーディオ処理方法。
〔態様５３〕
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび／または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、態様５２記載のオーディオ処理方法。
〔態様５４〕
前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、態様５２記載のオーディオ処理方法。
〔態様５５〕
前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、態様５２記載のオーディオ処理方法。
〔態様５６〕
前記短期的音楽が、優勢な源のない音楽または優勢な源のある音楽を含む、態様５４記載のオーディオ処理方法。
〔態様５７〕
前記短期的音楽が、少なくとも一つのジャンル・ベースのクラスターまたは少なくとも一つの楽器ベースのクラスターまたは音楽のリズム、テンポ、音色および／または他の任意の音楽的属性に基づいて分類された少なくとも一つの音楽クラスターを含む、態様５４記載のオーディオ処理方法。
〔態様５８〕
前記少なくとも一つのパラメータが、ダイアログ向上処理、サラウンド仮想化処理、ボリューム平準化処理および等化処理のうちの少なくとも一つについての少なくとも一つのパラメータを含む、態様５２記載のオーディオ処理方法。
〔態様５９〕
前記少なくとも一つのパラメータが、ダイアログ向上処理、サラウンド仮想化処理、ボリューム平準化処理および等化処理のうちの少なくとも一つについての少なくとも一つのパラメータを含む、態様５３記載のオーディオ処理方法。
〔態様６０〕
ダイアログ向上処理することをさらに含み、前記調整する動作が、ダイアログ向上のレベルを、映画的メディアおよび／またはVoIPの信頼値と正に相関させ、ダイアログ向上のレベルを、長期的音楽および／またはゲームの信頼値と負に相関させることを含む、態様５３記載のオーディオ処理方法。
〔態様６１〕
ダイアログ向上処理することをさらに含み、前記調整する動作が、ダイアログ向上のレベルを、発話の信頼値と正に相関させることを含む、態様５３記載のオーディオ処理方法。
〔態様６２〕
それぞれの閾値より高い周波数帯域を向上させるためのダイアログ向上処理することをさらに含み、前記調整する動作は、前記閾値を、短期的音楽および／またはノイズおよび／または背景音の信頼値と正に相関させるおよび／または前記閾値を発話の信頼値と負に相関させるよう構成されている、態様５３記載のオーディオ処理方法。
〔態様６３〕
前記オーディオ信号における背景レベルを推定することをさらに含み、前記調整する動作は、推定される背景レベルに調整を割り当てるよう構成されており、前記調整する動作はさらに、前記調整を、短期的音楽および／またはノイズおよび／または背景音の信頼値と正に相関させるおよび／または前記調整を発話の信頼値と負に相関させるよう構成されている、態様５３記載のオーディオ処理方法。
〔態様６４〕
前記調整する動作は、前記調整を、短期的音楽より、ノイズおよび／または背景音の信頼値と、より正に相関させるよう構成されている、態様６３記載のオーディオ処理方法。
〔態様６５〕
サラウンド仮想化処理することをさらに含み、前記調整する動作が、前記サラウンド仮想化処理のサラウンド・ブースト量を、ノイズおよび／または背景音および／または発話の信頼値と正に相関させるおよび／または該サラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されている、態様５３記載のオーディオ処理方法。
〔態様６６〕
前記調整する動作が、前記サラウンド・ブースト量を、コンテンツ型発話より、ノイズおよび／または背景音の信頼値と、より正に相関させるよう構成されている、態様６５記載のオーディオ処理方法。
〔態様６７〕
サラウンド仮想化処理することをさらに含み、前記調整する動作が、前記サラウンド仮想化処理の開始周波数を、短期的音楽の信頼値と正に相関させるよう構成されている、態様５３記載のオーディオ処理方法。
〔態様６８〕
サラウンド仮想化処理することをさらに含み、前記調整する動作が、前記サラウンド仮想化処理のサラウンド・ブースト量を、映画的メディアおよび／またはゲームの信頼値と正に相関させるおよび／または該サラウンド・ブースト量を長期的音楽および／またはVoIPの信頼値と負に相関させるよう構成されている、態様５３記載のオーディオ処理方法。
〔態様６９〕
前記調整する動作が、前記サラウンド・ブースト量を、ゲームより、映画的メディアの信頼値と、より正に相関させるよう構成されている、態様６８記載のオーディオ処理方法。
〔態様７０〕
前記調整する動作が、前記少なくとも一つのパラメータを、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて調整するよう構成されている、態様５３記載のオーディオ処理方法。
〔態様７１〕
異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、態様７０記載のオーディオ処理方法。
〔態様７２〕
前記調整する動作が、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の前記信頼値を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、態様５２ないし７１のうちいずれか一項記載のオーディオ処理方法。
〔態様７３〕
前記調整する動作が、前記信頼値に基づいて前記少なくとも一つのオーディオ型を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、態様５２ないし７１のうちいずれか一項記載のオーディオ処理方法。
〔態様７４〕
前記調整する動作が、前記信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成されている、態様７３記載のオーディオ処理方法。
〔態様７５〕
前記調整する動作が、あるオーディオ型の重みを少なくとも一つの他のオーディオ型の信頼値を用いて修正するよう構成されている、態様５２ないし７１のうちいずれか一項記載のオーディオ処理方法。
〔態様７６〕
前記調整する動作によって調整されるあるパラメータについて、現時点で前記調整する動作によって決定されるパラメータ値と最後の時点での平滑化されたパラメータ値との重み付けされた和を計算することによって、現時点での前記調整する動作によって決定されるパラメータ値を平滑化することをさらに含む、態様５２ないし７１のうちいずれか一項記載のオーディオ処理方法。
〔態様７７〕
前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型に基づいて適応的に変更される、態様７６記載のオーディオ処理方法。
〔態様７８〕
前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、態様７６記載のオーディオ処理方法。
〔態様７９〕
前記重み付けされた和を計算するための重みが、前記調整する動作によって決定される前記パラメータ値の増加または減少トレンドに基づいて適応的に変更される、態様７６記載のオーディオ処理方法。
〔態様８０〕
各オーディオ型について、現在の実際の信頼値と最後の時点での平滑化された信頼値との重み付けされた和を計算することによって、現時点での前記オーディオ信号の信頼値を平滑化することをさらに含む、態様５２ないし７１のうちいずれか一項記載のオーディオ処理方法。
〔態様８１〕
前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型の信頼値に基づいて適応的に変更される、態様８０記載のオーディオ処理方法。
〔態様８２〕
前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、態様８０記載のオーディオ処理方法。
〔態様８３〕
前記分類する動作が同じ新しいオーディオ型を連続的に出力する継続時間を測定することをさらに含み、前記調整する動作は、新しいオーディオ型の継続時間の長さが閾値に達するまで、現在のオーディオ型を使い続けるよう構成される、態様５２ないし７１のうちいずれか一項記載のオーディオ処理方法。
〔態様８４〕
あるオーディオ型から別のオーディオ型への異なる遷移対について、前記閾値が異なる、態様８３記載のオーディオ処理方法。
〔態様８５〕
前記閾値が、前記新しいオーディオ型の信頼値と負に相関している、態様８３記載のオーディオ処理方法。
〔態様８６〕
それぞれオーディオ・フレームのシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する段階と；
長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する段階と；
前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して前記分類する動作の結果の統計量を長期的特徴として計算する段階と；
前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する段階とを有する、
オーディオ分類方法。
〔態様８７〕
短期的セグメントの前記シーケンスは、発話、短期的音楽、背景音およびノイズの短期的オーディオ型の少なくとも一つに分類される、態様８６記載のオーディオ分類方法。
〔態様８８〕
前記計算する動作が、前記長期的特徴として、前記短期的オーディオ型の信頼値の平均および分散、前記短期的セグメントの重要度によって重み付けされた前記平均および分散、各短期的オーディオ型の出現頻度および種々の短期的オーディオ型の間の遷移の頻度のうちの少なくとも一つを計算するよう構成されている、態様８６記載のオーディオ分類方法。
〔態様８９〕
前記長期的オーディオ・セグメント内の短期的セグメントの前記シーケンスの前記短期的特徴に基づいて、前記長期的オーディオ・セグメントからのさらなる長期的特徴を抽出する段階をさらに含む、態様８６記載のオーディオ分類方法。
〔態様９０〕
前記長期的特徴として、前記短期的特徴の次の統計量、すなわち：平均、分散、重み付けされた平均、重み付けされた分散、高平均、低平均および高平均と低平均の間の比のうちの少なくとも一つを計算するよう構成される、態様８９記載のオーディオ分類方法。
〔態様９１〕
オーディオ・フレームの前記シーケンスの各オーディオ・フレームからフレーム・レベル特徴を抽出する段階をさらに含み、
前記短期的特徴を抽出する動作は、オーディオ・フレームの前記シーケンスから抽出される前記フレーム・レベル特徴に基づいて短期的特徴を計算することを含む、
態様８６ないし９０のうちいずれか一項記載のオーディオ分類方法。
〔態様９２〕
前記フレーム・レベル特徴を抽出する動作は、次の特徴、すなわち：さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出することを含む、態様９１記載のオーディオ分類方法。
〔態様９３〕
さまざまな短期的オーディオ型の属性を特徴付ける前記特徴が、次の特徴、すなわち：フレーム・エネルギー、サブバンド・スペクトル分布、スペクトル・フラックス、メル‐周波数ケプストラム係数、ベース、残差情報、クロマ特徴および零交差レートのうちの少なくとも一つを含む、態様９２記載のオーディオ分類方法。
〔態様９４〕
前記短期的特徴を抽出する動作が、前記短期的特徴として、前記フレーム・レベル特徴の統計量を計算することを含む、態様９１記載のオーディオ分類方法。
〔態様９５〕
前記短期的特徴を抽出する動作が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して実行される、態様９１記載のオーディオ分類方法。
〔態様９６〕
前記短期的特徴を抽出する動作は、短期的特徴として、次の特徴、すなわち：リズム特性、中断／ミュート特性および短期的オーディオ品質特徴のうちの少なくとも一つを、各短期的オーディオ・セグメントから直接抽出することを含む、態様９１記載のオーディオ分類方法。
〔態様９７〕
オーディオ・フレームからフレーム・レベル特徴を抽出する段階と、
それぞれのフレーム・レベル特徴を使ってオーディオ・フレームのシーケンスの各フレームをフレーム・レベル・オーディオ型に分類する段階とを含み、
前記短期的特徴を抽出する動作は、前記シーケンスのオーディオ・フレームに関するフレーム・レベル・オーディオ型に基づいて前記短期的特徴を計算することを含む、
態様８６ないし９０のうちいずれか一項記載のオーディオ分類方法。
〔態様９８〕
前記短期的特徴を抽出する動作は、前記シーケンスのオーディオ・フレームから抽出された前記フレーム・レベル特徴および前記シーケンスのオーディオ・フレームの前記フレーム・レベル・オーディオ型の両方に基づいて前記短期的特徴を計算することを含む、態様９７記載のオーディオ分類方法。
〔態様９９〕
前記フレーム・レベル特徴を抽出する動作は、次の特徴、すなわち：さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出することを含む、態様９７または９８記載のオーディオ分類方法。
〔態様１００〕
前記短期的特徴を抽出する動作が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して実行される、態様９７または９８記載のオーディオ分類方法。
〔態様１０１〕
前記シーケンスのオーディオ・フレームのそれぞれが、発話、音楽、背景音およびノイズのフレーム・レベル・オーディオ型のうちの少なくとも一つに分類される、態様９７または９８記載のオーディオ分類方法。
〔態様１０２〕
プロセッサによって実行されると該プロセッサがオーディオ処理方法を実行できるようにするコンピュータ・プログラム命令が記録されたコンピュータ可読媒体であって、前記オーディオ処理方法は、
リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類する段階と；
前記少なくとも一つのオーディオ型の信頼値に基づいてオーディオ改善のための少なくとも一つのパラメータを連続的な仕方で調整する段階とを含む、
コンピュータ可読媒体。
〔態様１０３〕
プロセッサによって実行されると該プロセッサがオーディオ分類方法を実行できるようにするコンピュータ・プログラム命令が記録されたコンピュータ可読媒体であって、前記オーディオ分類方法は、
それぞれオーディオ・フレームのシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する段階と；
長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する段階と；
前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して前記分類する動作の結果の統計量を長期的特徴として計算する段階と；
前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する段階とを含む、
コンピュータ可読媒体。

Claims

リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と；
聞き手の経験を改善するためのオーディオ改善装置と；
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置。
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび／または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、請求項１記載のオーディオ処理装置。
前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、請求項１記載のオーディオ処理装置。
前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、請求項１記載のオーディオ処理装置。
前記短期的音楽が、優勢な源のない音楽または優勢な源のある音楽を含む、請求項３記載のオーディオ処理装置。
前記短期的音楽が、少なくとも一つのジャンル・ベースのクラスターまたは少なくとも一つの楽器ベースのクラスターまたは音楽のリズム、テンポ、音色および／または他の任意の音楽的属性に基づいて分類された少なくとも一つの音楽クラスターを含む、請求項３記載のオーディオ処理装置。
前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、請求項１記載のオーディオ処理装置。
前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、請求項２記載のオーディオ処理装置。
前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、映画的メディアおよび／またはVoIPの信頼値と正に相関させ、前記ダイアログ向上器のダイアログ向上のレベルを、長期的音楽および／またはゲームの信頼値と負に相関させるよう構成されている、請求項２記載のオーディオ処理装置。
前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、発話の信頼値と正に相関させるよう構成されている、請求項２記載のオーディオ処理装置。
前記オーディオ改善装置がそれぞれの閾値より高い周波数帯域を向上させるためのダイアログ向上器を含み、前記調整ユニットは、前記閾値を、短期的音楽および／またはノイズおよび／または背景音の信頼値と正に相関させるおよび／または前記閾値を発話の信頼値と負に相関させるよう構成されている、請求項２記載のオーディオ処理装置。
前記オーディオ改善装置が、前記オーディオ信号における背景レベルを推定するための最小追跡ユニットを有し、前記調整ユニットは、前記最小追跡ユニットによって推定される背景レベルに調整を割り当てるよう構成されており、前記調整ユニットはさらに、前記調整を、短期的音楽および／またはノイズおよび／または背景音の信頼値と正に相関させるおよび／または前記調整を発話の信頼値と負に相関させるよう構成されている、請求項２記載のオーディオ処理装置。
前記調整ユニットは、前記調整を、短期的音楽より、ノイズおよび／または背景音の信頼値と、より正に相関させるよう構成されている、請求項１２記載のオーディオ処理装置。
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、ノイズおよび／または背景音および／または発話の信頼値と正に相関させるおよび／または該サラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されている、請求項２記載のオーディオ処理装置。
前記調整ユニットが、前記サラウンド・ブースト量を、コンテンツ型発話より、ノイズおよび／または背景音の信頼値と、より正に相関させるよう構成されている、請求項１４記載のオーディオ処理装置。
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器の開始周波数を、短期的音楽の信頼値と正に相関させるよう構成されている、請求項２記載のオーディオ処理装置。
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、映画的メディアおよび／またはゲームの信頼値と正に相関させるおよび／または該サラウンド・ブースト量を長期的音楽および／またはVoIPの信頼値と負に相関させるよう構成されている、請求項２記載のオーディオ処理装置。
前記調整ユニットが、前記サラウンド・ブースト量を、ゲームより、映画的メディアの信頼値と、より正に相関させるよう構成されている、請求項１７記載のオーディオ処理装置。
前記調整ユニットが、前記少なくとも一つのパラメータを、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて調整するよう構成されている、請求項２記載のオーディオ処理装置。
異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、請求項１９記載のオーディオ処理装置。
前記調整ユニットが、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の前記信頼値を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、請求項１記載のオーディオ処理装置。
前記調整ユニットが、前記信頼値に基づいて前記少なくとも一つのオーディオ型を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、請求項１記載のオーディオ処理装置。
前記調整ユニットが、前記信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成されている、請求項２２記載のオーディオ処理装置。
前記調整ユニットが、あるオーディオ型の重みを少なくとも一つの他のオーディオ型の信頼値を用いて修正するよう構成されている、請求項１記載のオーディオ処理装置。
リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類する段階と；
前記少なくとも一つのオーディオ型の信頼値に基づいてオーディオ改善のための少なくとも一つのパラメータを連続的に調整する段階とを含む、
オーディオ処理方法。
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび／または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、請求項２５記載のオーディオ処理方法。
前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、請求項２５記載のオーディオ処理方法。
前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、請求項２５記載のオーディオ処理方法。