JP2016519784A5 - - Google Patents

Download PDF

Info

Publication number
JP2016519784A5
JP2016519784A5 JP2016505531A JP2016505531A JP2016519784A5 JP 2016519784 A5 JP2016519784 A5 JP 2016519784A5 JP 2016505531 A JP2016505531 A JP 2016505531A JP 2016505531 A JP2016505531 A JP 2016505531A JP 2016519784 A5 JP2016519784 A5 JP 2016519784A5
Authority
JP
Japan
Prior art keywords
audio
type
audio processing
term
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016505531A
Other languages
English (en)
Other versions
JP6573870B2 (ja
JP2016519784A (ja
Filing date
Publication date
Priority claimed from CN201310100367.6A external-priority patent/CN104078050A/zh
Application filed filed Critical
Publication of JP2016519784A publication Critical patent/JP2016519784A/ja
Publication of JP2016519784A5 publication Critical patent/JP2016519784A5/ja
Priority to JP2019148802A priority Critical patent/JP6921907B2/ja
Application granted granted Critical
Publication of JP6573870B2 publication Critical patent/JP6573870B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

請求項におけるあらゆる手段または動作に機能を加えた要素の対応する構造、材料、工程および等価物は、はっきりと請求項に記載されている他の請求項記載の要素との組み合わせにおいて機能を実行するための任意の構造、材料または工程を含むことが意図されている。本願の記述は、例解および説明のために提示されたが、網羅的であることや開示される形の応用に限定されることは意図されていない。本願の範囲および精神から外れることなく、多くの修正および変形が当業者には明白となるであろう。実施形態は、本願の原理および実際的な応用を最もよく説明するためおよび当業者が、考えられている具体的な用途に適したさまざまな修正をもつさまざまな実施形態について本願を理解できるようにするために選ばれ、記述された。
いくつかの態様を記載しておく。
〔態様1〕
リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
聞き手の経験を改善するためのオーディオ改善装置と;
前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
オーディオ処理装置。
〔態様2〕
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、態様1記載のオーディオ処理装置。
〔態様3〕
前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、態様1記載のオーディオ処理装置。
〔態様4〕
前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、態様1記載のオーディオ処理装置。
〔態様5〕
前記短期的音楽が、優勢な源のない音楽または優勢な源のある音楽を含む、態様3記載のオーディオ処理装置。
〔態様6〕
前記短期的音楽が、少なくとも一つのジャンル・ベースのクラスターまたは少なくとも一つの楽器ベースのクラスターまたは音楽のリズム、テンポ、音色および/または他の任意の音楽的属性に基づいて分類された少なくとも一つの音楽クラスターを含む、態様3記載のオーディオ処理装置。
〔態様7〕
前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、態様1記載のオーディオ処理装置。
〔態様8〕
前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、態様2記載のオーディオ処理装置。
〔態様9〕
前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、映画的メディアおよび/またはVoIPの信頼値と正に相関させ、前記ダイアログ向上器のダイアログ向上のレベルを、長期的音楽および/またはゲームの信頼値と負に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様10〕
前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、発話の信頼値と正に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様11〕
前記オーディオ改善装置がそれぞれの閾値より高い周波数帯域を向上させるためのダイアログ向上器を含み、前記調整ユニットは、前記閾値を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記閾値を発話の信頼値と負に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様12〕
前記オーディオ改善装置が、前記オーディオ信号における背景レベルを推定するための最小追跡ユニットを有し、前記調整ユニットは、前記最小追跡ユニットによって推定される背景レベルに調整を割り当てるよう構成されており、前記調整ユニットはさらに、前記調整を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記調整を発話の信頼値と負に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様13〕
前記調整ユニットは、前記調整を、短期的音楽より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、態様12記載のオーディオ処理装置。
〔態様14〕
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、ノイズおよび/または背景音および/または発話の信頼値と正に相関させるおよび/または該サラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様15〕
前記調整ユニットが、前記サラウンド・ブースト量を、コンテンツ型発話より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、態様14記載のオーディオ処理装置。
〔態様16〕
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器の開始周波数を、短期的音楽の信頼値と正に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様17〕
前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、映画的メディアおよび/またはゲームの信頼値と正に相関させるおよび/または該サラウンド・ブースト量を長期的音楽および/またはVoIPの信頼値と負に相関させるよう構成されている、態様2記載のオーディオ処理装置。
〔態様18〕
前記調整ユニットが、前記サラウンド・ブースト量を、ゲームより、映画的メディアの信頼値と、より正に相関させるよう構成されている、態様17記載のオーディオ処理装置。
〔態様19〕
前記調整ユニットが、前記少なくとも一つのパラメータを、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて調整するよう構成されている、態様2記載のオーディオ処理装置。
〔態様20〕
異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、態様19記載のオーディオ処理装置。
〔態様21〕
前記調整ユニットが、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の前記信頼値を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、態様1ないし20のうちいずれか一項記載のオーディオ処理装置。
〔態様22〕
前記調整ユニットが、前記信頼値に基づいて前記少なくとも一つのオーディオ型を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、態様1ないし20のうちいずれか一項記載のオーディオ処理装置。
〔態様23〕
前記調整ユニットが、前記信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成されている、態様22記載のオーディオ処理装置。
〔態様24〕
前記調整ユニットが、あるオーディオ型の重みを少なくとも一つの他のオーディオ型の信頼値を用いて修正するよう構成されている、態様1ないし20のうちいずれか一項記載のオーディオ処理装置。
〔態様25〕
前記調整ユニットによって調整される前記オーディオ改善装置のあるパラメータについて、現時点で前記調整ユニットによって決定されるパラメータ値と最後の時点での平滑化されたパラメータ値との重み付けされた和を計算することによって、現時点での前記調整ユニットによって決定されるパラメータ値を平滑化するパラメータ平滑化ユニットをさらに有する、態様1ないし20のうちいずれか一項記載のオーディオ処理装置。
〔態様26〕
前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型に基づいて適応的に変更される、態様25記載のオーディオ処理装置。
〔態様27〕
前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、態様25記載のオーディオ処理装置。
〔態様28〕
前記重み付けされた和を計算するための重みが、前記調整ユニットによって決定される前記パラメータ値の増加または減少トレンドに基づいて適応的に変更される、態様25記載のオーディオ処理装置。
〔態様29〕
各オーディオ型について、現在の実際の信頼値と最後の時点での平滑化された信頼値との重み付けされた和を計算することによって、現時点での前記オーディオ信号の信頼値を平滑化する型平滑化ユニットをさらに有する、態様1ないし20のうちいずれか一項記載のオーディオ処理装置。
〔態様30〕
前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型の信頼値に基づいて適応的に変更される、態様29記載のオーディオ処理装置。
〔態様31〕
前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、態様29記載のオーディオ処理装置。
〔態様32〕
前記オーディオ分類器が同じ新しいオーディオ型を連続的に出力する継続時間を測定するタイマーをさらに有しており、前記調整ユニットは、新しいオーディオ型の継続時間の長さが閾値に達するまで、現在のオーディオ型を使い続けるよう構成される、態様1ないし20のうちいずれか一項記載のオーディオ処理装置。
〔態様33〕
あるオーディオ型から別のオーディオ型への異なる遷移対について、前記閾値が異なる、態様32記載のオーディオ処理装置。
〔態様34〕
前記閾値が、前記新しいオーディオ型の信頼値と負に相関している、態様32記載のオーディオ処理装置。
〔態様35〕
それぞれオーディオ・フレームのシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する短期的特徴抽出器と;
長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する短期的分類器と;
前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して前記短期的分類器の結果の統計量を長期的特徴として計算する統計抽出器と;
前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する長期的分類器とを有する、
オーディオ分類器。
〔態様36〕
前記短期的分類器が、短期的セグメントの前記シーケンスの各短期的セグメントを、発話、短期的音楽、背景音およびノイズの短期的オーディオ型の少なくとも一つに分類するよう構成されている、態様35記載のオーディオ分類器。
〔態様37〕
前記統計抽出器が、前記長期的特徴として、前記短期的オーディオ型の信頼値の平均および分散、前記短期的セグメントの重要度によって重み付けされた前記平均および分散、各短期的オーディオ型の出現頻度および種々の短期的オーディオ型の間の遷移の頻度のうちの少なくとも一つを計算するよう構成されている、態様35記載のオーディオ分類器。
〔態様38〕
前記長期的オーディオ・セグメント内の短期的セグメントの前記シーケンスの前記短期的特徴に基づいて、前記長期的オーディオ・セグメントからのさらなる長期的特徴を抽出する長期的特徴抽出器をさらに有する、態様35記載のオーディオ分類器。
〔態様39〕
前記長期的特徴抽出器がさらに、前記長期的特徴として、前記短期的特徴の次の統計量、すなわち:平均、分散、重み付けされた平均、重み付けされた分散、高平均、低平均および高平均と低平均の間の比のうちの少なくとも一つを計算するよう構成される、態様38記載のオーディオ分類器。
〔態様40〕
オーディオ・フレームの前記シーケンスの各オーディオ・フレームからフレーム・レベル特徴を抽出するフレーム・レベル特徴抽出器をさらに有しており、
前記短期的特徴抽出器は、オーディオ・フレームの前記シーケンスから抽出される前記フレーム・レベル特徴に基づいて短期的特徴を計算するよう構成される、
態様35ないし39のうちいずれか一項記載のオーディオ分類器。
〔態様41〕
前記フレーム・レベル特徴抽出器は、次の特徴、すなわち:さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出するよう構成されている、態様40記載のオーディオ分類器。
〔態様42〕
さまざまな短期的オーディオ型の属性を特徴付ける前記特徴が、次の特徴、すなわち:フレーム・エネルギー、サブバンド・スペクトル分布、スペクトル・フラックス、メル‐周波数ケプストラム係数、ベース、残差情報、クロマ特徴および零交差レートのうちの少なくとも一つを含む、態様41記載のオーディオ分類器。
〔態様43〕
前記短期的特徴抽出器が、前記短期的特徴として、前記フレーム・レベル特徴の統計量を計算するよう構成されている、態様40記載のオーディオ分類器。
〔態様44〕
前記短期的特徴抽出器が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して作用するよう構成されている、態様40記載のオーディオ分類器。
〔態様45〕
前記短期的特徴抽出器は、短期的特徴として、次の特徴、すなわち:リズム特性、中断/ミュート特性および短期的オーディオ品質特徴のうちの少なくとも一つを、各短期的オーディオ・セグメントから直接抽出するよう構成されている、態様40記載のオーディオ分類器。
〔態様46〕
オーディオ・フレームからフレーム・レベル特徴を抽出するフレーム・レベル特徴抽出器と、
それぞれのフレーム・レベル特徴を使ってオーディオ・フレームのシーケンスの各フレームをフレーム・レベル・オーディオ型に分類するフレーム・レベル分類器とを有しており、
前記短期的特徴抽出器は、前記シーケンスのオーディオ・フレームに関するフレーム・レベル分類器の結果に基づいて前記短期的特徴を計算するよう構成されている、
態様35ないし39のうちいずれか一項記載のオーディオ分類器。
〔態様47〕
前記短期的特徴抽出器は、前記シーケンスのオーディオ・フレームから抽出された前記フレーム・レベル特徴および前記シーケンスのオーディオ・フレームに関する前記フレーム・レベル分類器の結果の両方に基づいて前記短期的特徴を計算するよう構成されている、態様46記載のオーディオ分類器。
〔態様48〕
前記フレーム・レベル特徴抽出器は、次の特徴、すなわち:さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出するよう構成されている、態様46または47記載のオーディオ分類器。
〔態様49〕
前記短期的特徴抽出器が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して作用するよう構成されている、態様46または47記載のオーディオ分類器。
〔態様50〕
前記フレーム・レベル分類器が前記シーケンスのオーディオ・フレームを、発話、音楽、背景音およびノイズのフレーム・レベル・オーディオ型のうちの少なくとも一つに分類するよう構成されている、態様46または47記載のオーディオ分類器。
〔態様51〕
態様35ないし50のうちいずれか一項記載のオーディオ分類器を有するオーディオ処理装置。
〔態様52〕
リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類する段階と;
前記少なくとも一つのオーディオ型の信頼値に基づいてオーディオ改善のための少なくとも一つのパラメータを連続的に調整する段階とを含む、
オーディオ処理方法。
〔態様53〕
前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、態様52記載のオーディオ処理方法。
〔態様54〕
前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、態様52記載のオーディオ処理方法。
〔態様55〕
前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、態様52記載のオーディオ処理方法。
〔態様56〕
前記短期的音楽が、優勢な源のない音楽または優勢な源のある音楽を含む、態様54記載のオーディオ処理方法。
〔態様57〕
前記短期的音楽が、少なくとも一つのジャンル・ベースのクラスターまたは少なくとも一つの楽器ベースのクラスターまたは音楽のリズム、テンポ、音色および/または他の任意の音楽的属性に基づいて分類された少なくとも一つの音楽クラスターを含む、態様54記載のオーディオ処理方法。
〔態様58〕
前記少なくとも一つのパラメータが、ダイアログ向上処理、サラウンド仮想化処理、ボリューム平準化処理および等化処理のうちの少なくとも一つについての少なくとも一つのパラメータを含む、態様52記載のオーディオ処理方法。
〔態様59〕
前記少なくとも一つのパラメータが、ダイアログ向上処理、サラウンド仮想化処理、ボリューム平準化処理および等化処理のうちの少なくとも一つについての少なくとも一つのパラメータを含む、態様53記載のオーディオ処理方法。
〔態様60〕
ダイアログ向上処理することをさらに含み、前記調整する動作が、ダイアログ向上のレベルを、映画的メディアおよび/またはVoIPの信頼値と正に相関させ、ダイアログ向上のレベルを、長期的音楽および/またはゲームの信頼値と負に相関させることを含む、態様53記載のオーディオ処理方法。
〔態様61〕
ダイアログ向上処理することをさらに含み、前記調整する動作が、ダイアログ向上のレベルを、発話の信頼値と正に相関させることを含む、態様53記載のオーディオ処理方法。
〔態様62〕
それぞれの閾値より高い周波数帯域を向上させるためのダイアログ向上処理することをさらに含み、前記調整する動作は、前記閾値を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記閾値を発話の信頼値と負に相関させるよう構成されている、態様53記載のオーディオ処理方法。
〔態様63〕
前記オーディオ信号における背景レベルを推定することをさらに含み、前記調整する動作は、推定される背景レベルに調整を割り当てるよう構成されており、前記調整する動作はさらに、前記調整を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記調整を発話の信頼値と負に相関させるよう構成されている、態様53記載のオーディオ処理方法。
〔態様64〕
前記調整する動作は、前記調整を、短期的音楽より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、態様63記載のオーディオ処理方法。
〔態様65〕
サラウンド仮想化処理することをさらに含み、前記調整する動作が、前記サラウンド仮想化処理のサラウンド・ブースト量を、ノイズおよび/または背景音および/または発話の信頼値と正に相関させるおよび/または該サラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されている、態様53記載のオーディオ処理方法。
〔態様66〕
前記調整する動作が、前記サラウンド・ブースト量を、コンテンツ型発話より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、態様65記載のオーディオ処理方法。
〔態様67〕
サラウンド仮想化処理することをさらに含み、前記調整する動作が、前記サラウンド仮想化処理の開始周波数を、短期的音楽の信頼値と正に相関させるよう構成されている、態様53記載のオーディオ処理方法。
〔態様68〕
サラウンド仮想化処理することをさらに含み、前記調整する動作が、前記サラウンド仮想化処理のサラウンド・ブースト量を、映画的メディアおよび/またはゲームの信頼値と正に相関させるおよび/または該サラウンド・ブースト量を長期的音楽および/またはVoIPの信頼値と負に相関させるよう構成されている、態様53記載のオーディオ処理方法。
〔態様69〕
前記調整する動作が、前記サラウンド・ブースト量を、ゲームより、映画的メディアの信頼値と、より正に相関させるよう構成されている、態様68記載のオーディオ処理方法。
〔態様70〕
前記調整する動作が、前記少なくとも一つのパラメータを、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて調整するよう構成されている、態様53記載のオーディオ処理方法。
〔態様71〕
異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、態様70記載のオーディオ処理方法。
〔態様72〕
前記調整する動作が、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の前記信頼値を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、態様52ないし71のうちいずれか一項記載のオーディオ処理方法。
〔態様73〕
前記調整する動作が、前記信頼値に基づいて前記少なくとも一つのオーディオ型を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、態様52ないし71のうちいずれか一項記載のオーディオ処理方法。
〔態様74〕
前記調整する動作が、前記信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成されている、態様73記載のオーディオ処理方法。
〔態様75〕
前記調整する動作が、あるオーディオ型の重みを少なくとも一つの他のオーディオ型の信頼値を用いて修正するよう構成されている、態様52ないし71のうちいずれか一項記載のオーディオ処理方法。
〔態様76〕
前記調整する動作によって調整されるあるパラメータについて、現時点で前記調整する動作によって決定されるパラメータ値と最後の時点での平滑化されたパラメータ値との重み付けされた和を計算することによって、現時点での前記調整する動作によって決定されるパラメータ値を平滑化することをさらに含む、態様52ないし71のうちいずれか一項記載のオーディオ処理方法。
〔態様77〕
前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型に基づいて適応的に変更される、態様76記載のオーディオ処理方法。
〔態様78〕
前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、態様76記載のオーディオ処理方法。
〔態様79〕
前記重み付けされた和を計算するための重みが、前記調整する動作によって決定される前記パラメータ値の増加または減少トレンドに基づいて適応的に変更される、態様76記載のオーディオ処理方法。
〔態様80〕
各オーディオ型について、現在の実際の信頼値と最後の時点での平滑化された信頼値との重み付けされた和を計算することによって、現時点での前記オーディオ信号の信頼値を平滑化することをさらに含む、態様52ないし71のうちいずれか一項記載のオーディオ処理方法。
〔態様81〕
前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型の信頼値に基づいて適応的に変更される、態様80記載のオーディオ処理方法。
〔態様82〕
前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、態様80記載のオーディオ処理方法。
〔態様83〕
前記分類する動作が同じ新しいオーディオ型を連続的に出力する継続時間を測定することをさらに含み、前記調整する動作は、新しいオーディオ型の継続時間の長さが閾値に達するまで、現在のオーディオ型を使い続けるよう構成される、態様52ないし71のうちいずれか一項記載のオーディオ処理方法。
〔態様84〕
あるオーディオ型から別のオーディオ型への異なる遷移対について、前記閾値が異なる、態様83記載のオーディオ処理方法。
〔態様85〕
前記閾値が、前記新しいオーディオ型の信頼値と負に相関している、態様83記載のオーディオ処理方法。
〔態様86〕
それぞれオーディオ・フレームのシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する段階と;
長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する段階と;
前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して前記分類する動作の結果の統計量を長期的特徴として計算する段階と;
前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する段階とを有する、
オーディオ分類方法。
〔態様87〕
短期的セグメントの前記シーケンスは、発話、短期的音楽、背景音およびノイズの短期的オーディオ型の少なくとも一つに分類される、態様86記載のオーディオ分類方法。
〔態様88〕
前記計算する動作が、前記長期的特徴として、前記短期的オーディオ型の信頼値の平均および分散、前記短期的セグメントの重要度によって重み付けされた前記平均および分散、各短期的オーディオ型の出現頻度および種々の短期的オーディオ型の間の遷移の頻度のうちの少なくとも一つを計算するよう構成されている、態様86記載のオーディオ分類方法。
〔態様89〕
前記長期的オーディオ・セグメント内の短期的セグメントの前記シーケンスの前記短期的特徴に基づいて、前記長期的オーディオ・セグメントからのさらなる長期的特徴を抽出する段階をさらに含む、態様86記載のオーディオ分類方法。
〔態様90〕
前記長期的特徴として、前記短期的特徴の次の統計量、すなわち:平均、分散、重み付けされた平均、重み付けされた分散、高平均、低平均および高平均と低平均の間の比のうちの少なくとも一つを計算するよう構成される、態様89記載のオーディオ分類方法。
〔態様91〕
オーディオ・フレームの前記シーケンスの各オーディオ・フレームからフレーム・レベル特徴を抽出する段階をさらに含み、
前記短期的特徴を抽出する動作は、オーディオ・フレームの前記シーケンスから抽出される前記フレーム・レベル特徴に基づいて短期的特徴を計算することを含む、
態様86ないし90のうちいずれか一項記載のオーディオ分類方法。
〔態様92〕
前記フレーム・レベル特徴を抽出する動作は、次の特徴、すなわち:さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出することを含む、態様91記載のオーディオ分類方法。
〔態様93〕
さまざまな短期的オーディオ型の属性を特徴付ける前記特徴が、次の特徴、すなわち:フレーム・エネルギー、サブバンド・スペクトル分布、スペクトル・フラックス、メル‐周波数ケプストラム係数、ベース、残差情報、クロマ特徴および零交差レートのうちの少なくとも一つを含む、態様92記載のオーディオ分類方法。
〔態様94〕
前記短期的特徴を抽出する動作が、前記短期的特徴として、前記フレーム・レベル特徴の統計量を計算することを含む、態様91記載のオーディオ分類方法。
〔態様95〕
前記短期的特徴を抽出する動作が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して実行される、態様91記載のオーディオ分類方法。
〔態様96〕
前記短期的特徴を抽出する動作は、短期的特徴として、次の特徴、すなわち:リズム特性、中断/ミュート特性および短期的オーディオ品質特徴のうちの少なくとも一つを、各短期的オーディオ・セグメントから直接抽出することを含む、態様91記載のオーディオ分類方法。
〔態様97〕
オーディオ・フレームからフレーム・レベル特徴を抽出する段階と、
それぞれのフレーム・レベル特徴を使ってオーディオ・フレームのシーケンスの各フレームをフレーム・レベル・オーディオ型に分類する段階とを含み、
前記短期的特徴を抽出する動作は、前記シーケンスのオーディオ・フレームに関するフレーム・レベル・オーディオ型に基づいて前記短期的特徴を計算することを含む、
態様86ないし90のうちいずれか一項記載のオーディオ分類方法。
〔態様98〕
前記短期的特徴を抽出する動作は、前記シーケンスのオーディオ・フレームから抽出された前記フレーム・レベル特徴および前記シーケンスのオーディオ・フレームの前記フレーム・レベル・オーディオ型の両方に基づいて前記短期的特徴を計算することを含む、態様97記載のオーディオ分類方法。
〔態様99〕
前記フレーム・レベル特徴を抽出する動作は、次の特徴、すなわち:さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出することを含む、態様97または98記載のオーディオ分類方法。
〔態様100〕
前記短期的特徴を抽出する動作が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して実行される、態様97または98記載のオーディオ分類方法。
〔態様101〕
前記シーケンスのオーディオ・フレームのそれぞれが、発話、音楽、背景音およびノイズのフレーム・レベル・オーディオ型のうちの少なくとも一つに分類される、態様97または98記載のオーディオ分類方法。
〔態様102〕
プロセッサによって実行されると該プロセッサがオーディオ処理方法を実行できるようにするコンピュータ・プログラム命令が記録されたコンピュータ可読媒体であって、前記オーディオ処理方法は、
リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類する段階と;
前記少なくとも一つのオーディオ型の信頼値に基づいてオーディオ改善のための少なくとも一つのパラメータを連続的な仕方で調整する段階とを含む、
コンピュータ可読媒体。
〔態様103〕
プロセッサによって実行されると該プロセッサがオーディオ分類方法を実行できるようにするコンピュータ・プログラム命令が記録されたコンピュータ可読媒体であって、前記オーディオ分類方法は、
それぞれオーディオ・フレームのシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する段階と;
長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する段階と;
前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して前記分類する動作の結果の統計量を長期的特徴として計算する段階と;
前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する段階とを含む、
コンピュータ可読媒体。

Claims (28)

  1. リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;
    聞き手の経験を改善するためのオーディオ改善装置と;
    前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、
    オーディオ処理装置。
  2. 前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、請求項1記載のオーディオ処理装置。
  3. 前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、請求項1記載のオーディオ処理装置。
  4. 前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、請求項1記載のオーディオ処理装置。
  5. 前記短期的音楽が、優勢な源のない音楽または優勢な源のある音楽を含む、請求項3記載のオーディオ処理装置。
  6. 前記短期的音楽が、少なくとも一つのジャンル・ベースのクラスターまたは少なくとも一つの楽器ベースのクラスターまたは音楽のリズム、テンポ、音色および/または他の任意の音楽的属性に基づいて分類された少なくとも一つの音楽クラスターを含む、請求項3記載のオーディオ処理装置。
  7. 前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、請求項1記載のオーディオ処理装置。
  8. 前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、請求項2記載のオーディオ処理装置。
  9. 前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、映画的メディアおよび/またはVoIPの信頼値と正に相関させ、前記ダイアログ向上器のダイアログ向上のレベルを、長期的音楽および/またはゲームの信頼値と負に相関させるよう構成されている、請求項2記載のオーディオ処理装置。
  10. 前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、発話の信頼値と正に相関させるよう構成されている、請求項2記載のオーディオ処理装置。
  11. 前記オーディオ改善装置がそれぞれの閾値より高い周波数帯域を向上させるためのダイアログ向上器を含み、前記調整ユニットは、前記閾値を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記閾値を発話の信頼値と負に相関させるよう構成されている、請求項2記載のオーディオ処理装置。
  12. 前記オーディオ改善装置が、前記オーディオ信号における背景レベルを推定するための最小追跡ユニットを有し、前記調整ユニットは、前記最小追跡ユニットによって推定される背景レベルに調整を割り当てるよう構成されており、前記調整ユニットはさらに、前記調整を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記調整を発話の信頼値と負に相関させるよう構成されている、請求項2記載のオーディオ処理装置。
  13. 前記調整ユニットは、前記調整を、短期的音楽より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、請求項12記載のオーディオ処理装置。
  14. 前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、ノイズおよび/または背景音および/または発話の信頼値と正に相関させるおよび/または該サラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されている、請求項2記載のオーディオ処理装置。
  15. 前記調整ユニットが、前記サラウンド・ブースト量を、コンテンツ型発話より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、請求項14記載のオーディオ処理装置。
  16. 前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器の開始周波数を、短期的音楽の信頼値と正に相関させるよう構成されている、請求項2記載のオーディオ処理装置。
  17. 前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、映画的メディアおよび/またはゲームの信頼値と正に相関させるおよび/または該サラウンド・ブースト量を長期的音楽および/またはVoIPの信頼値と負に相関させるよう構成されている、請求項2記載のオーディオ処理装置。
  18. 前記調整ユニットが、前記サラウンド・ブースト量を、ゲームより、映画的メディアの信頼値と、より正に相関させるよう構成されている、請求項17記載のオーディオ処理装置。
  19. 前記調整ユニットが、前記少なくとも一つのパラメータを、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて調整するよう構成されている、請求項2記載のオーディオ処理装置。
  20. 異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、請求項19記載のオーディオ処理装置。
  21. 前記調整ユニットが、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の前記信頼値を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、請求項1記載のオーディオ処理装置。
  22. 前記調整ユニットが、前記信頼値に基づいて前記少なくとも一つのオーディオ型を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、請求項1記載のオーディオ処理装置。
  23. 前記調整ユニットが、前記信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成されている、請求項22記載のオーディオ処理装置。
  24. 前記調整ユニットが、あるオーディオ型の重みを少なくとも一つの他のオーディオ型の信頼値を用いて修正するよう構成されている、請求項1記載のオーディオ処理装置。
  25. リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類する段階と;
    前記少なくとも一つのオーディオ型の信頼値に基づいてオーディオ改善のための少なくとも一つのパラメータを連続的に調整する段階とを含む、
    オーディオ処理方法。
  26. 前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、請求項25記載のオーディオ処理方法。
  27. 前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、請求項25記載のオーディオ処理方法。
  28. 前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、請求項25記載のオーディオ処理方法。
JP2016505531A 2013-03-26 2014-03-25 オーディオ分類および処理のための装置および方法 Active JP6573870B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019148802A JP6921907B2 (ja) 2013-03-26 2019-08-14 オーディオ分類および処理のための装置および方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201310100367.6A CN104078050A (zh) 2013-03-26 2013-03-26 用于音频分类和音频处理的设备和方法
CN201310100367.6 2013-03-26
US201361811062P 2013-04-11 2013-04-11
US61/811,062 2013-04-11
PCT/US2014/031671 WO2014160678A2 (en) 2013-03-26 2014-03-25 1apparatuses and methods for audio classifying and processing

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019148802A Division JP6921907B2 (ja) 2013-03-26 2019-08-14 オーディオ分類および処理のための装置および方法

Publications (3)

Publication Number Publication Date
JP2016519784A JP2016519784A (ja) 2016-07-07
JP2016519784A5 true JP2016519784A5 (ja) 2017-04-27
JP6573870B2 JP6573870B2 (ja) 2019-09-11

Family

ID=51599271

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016505531A Active JP6573870B2 (ja) 2013-03-26 2014-03-25 オーディオ分類および処理のための装置および方法
JP2019148802A Active JP6921907B2 (ja) 2013-03-26 2019-08-14 オーディオ分類および処理のための装置および方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019148802A Active JP6921907B2 (ja) 2013-03-26 2019-08-14 オーディオ分類および処理のための装置および方法

Country Status (6)

Country Link
US (2) US9842605B2 (ja)
EP (2) EP3598448B2 (ja)
JP (2) JP6573870B2 (ja)
CN (3) CN104078050A (ja)
HK (1) HK1212808A1 (ja)
WO (1) WO2014160678A2 (ja)

Families Citing this family (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
CN105335595A (zh) 2014-06-30 2016-02-17 杜比实验室特许公司 基于感受的多媒体处理
US10163453B2 (en) * 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
US20160125891A1 (en) * 2014-10-31 2016-05-05 Intel Corporation Environment-based complexity reduction for audio processing
CN104618056A (zh) * 2014-12-31 2015-05-13 电子科技大学 一种适用于显著波动的信道条件下的干扰抑制方法
KR101667557B1 (ko) * 2015-01-19 2016-10-19 한국과학기술연구원 실시간 음원 분류 장치 및 방법
CN104978975B (zh) * 2015-03-02 2017-10-24 广州酷狗计算机科技有限公司 一种音乐文件的音质检测方法及装置
CN104811864B (zh) * 2015-04-20 2018-11-13 深圳市冠旭电子股份有限公司 一种自适应调节音效的方法及系统
CN106155470B (zh) * 2015-04-21 2019-09-17 阿里巴巴集团控股有限公司 一种音频文件生成方法及装置
CN106203460A (zh) * 2015-05-05 2016-12-07 杜比实验室特许公司 训练信号处理模型以用于信号处理系统中的部件替换
CN104867492B (zh) * 2015-05-07 2019-09-03 科大讯飞股份有限公司 智能交互系统及方法
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
WO2017059881A1 (en) * 2015-10-05 2017-04-13 Widex A/S Hearing aid system and a method of operating a hearing aid system
JPWO2017061218A1 (ja) * 2015-10-09 2018-07-26 ソニー株式会社 音響出力装置、音響生成方法及びプログラム
WO2017075249A1 (en) * 2015-10-28 2017-05-04 Jean-Marc Jot Object-based audio signal balancing
CN106658340B (zh) * 2015-11-03 2020-09-04 杜比实验室特许公司 内容自适应的环绕声虚拟化
WO2017079334A1 (en) * 2015-11-03 2017-05-11 Dolby Laboratories Licensing Corporation Content-adaptive surround sound virtualization
CN105516451A (zh) * 2015-11-23 2016-04-20 小米科技有限责任公司 音效调节方法及装置
US10134422B2 (en) * 2015-12-01 2018-11-20 Qualcomm Incorporated Determining audio event based on location information
CN108702582B (zh) 2016-01-29 2020-11-06 杜比实验室特许公司 用于双耳对话增强的方法和装置
CN105825864B (zh) * 2016-05-19 2019-10-25 深圳永顺智信息科技有限公司 基于过零率指标的双端说话检测与回声消除方法
US10631101B2 (en) * 2016-06-09 2020-04-21 Cochlear Limited Advanced scene classification for prosthesis
CN106126177A (zh) * 2016-06-21 2016-11-16 中国农业大学 一种目标声音的音量调节系统及方法
CN107564512B (zh) * 2016-06-30 2020-12-25 展讯通信(上海)有限公司 语音活动侦测方法及装置
US10630254B2 (en) 2016-10-07 2020-04-21 Sony Corporation Information processing device and information processing method
CN106488311B (zh) * 2016-11-09 2019-12-13 微鲸科技有限公司 音效调整方法及用户终端
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
CN106792386B (zh) * 2016-12-05 2020-03-10 青岛海信电器股份有限公司 一种终端音量调节方法及装置
US10606841B2 (en) * 2017-02-22 2020-03-31 Intel Corporation Technologies for an n-ary data compression decision engine
CN108965999A (zh) * 2017-05-18 2018-12-07 深圳市中兴微电子技术有限公司 一种音量智能化调节的方法及装置
CN107248165A (zh) * 2017-06-19 2017-10-13 太仓埃特奥数据科技有限公司 一种动态背景图像的更新方法
CN107331403B (zh) 2017-06-27 2020-11-06 深圳创维-Rgb电子有限公司 一种基于算法的音频优化方法、智能终端及存储装置
CN107301297B (zh) * 2017-06-28 2020-11-03 正升环境科技股份有限公司 噪声治理管理方法及装置
US10062367B1 (en) * 2017-07-14 2018-08-28 Music Tribe Global Brands Ltd. Vocal effects control system
US11386913B2 (en) 2017-08-01 2022-07-12 Dolby Laboratories Licensing Corporation Audio object classification based on location metadata
WO2019027812A1 (en) 2017-08-01 2019-02-07 Dolby Laboratories Licensing Corporation CLASSIFICATION OF AUDIO OBJECT BASED ON LOCATION METADATA
CN107302721B (zh) * 2017-08-03 2020-10-02 深圳Tcl数字技术有限公司 视频对白音轨频率的调节方法、电视机和可读存储介质
CN107705775A (zh) * 2017-08-17 2018-02-16 广东工业大学 一种基于rbf神经网络的多种乐器调音方法
CN107506170A (zh) * 2017-08-18 2017-12-22 广东欧珀移动通信有限公司 音量调节方法、装置、终端设备及存储介质
CN107526568A (zh) 2017-08-18 2017-12-29 广东欧珀移动通信有限公司 音量调节方法、装置、终端设备及存储介质
EP3677037A1 (en) 2017-08-28 2020-07-08 Dolby Laboratories Licensing Corporation Media-aware navigation metadata
CN107657956B (zh) * 2017-10-23 2020-12-22 吴建伟 一种多媒体设备语音控制系统及方法
US10148241B1 (en) * 2017-11-20 2018-12-04 Dell Products, L.P. Adaptive audio interface
US10504539B2 (en) * 2017-12-05 2019-12-10 Synaptics Incorporated Voice activity detection systems and methods
CN108320756B (zh) * 2018-02-07 2021-12-03 广州酷狗计算机科技有限公司 一种检测音频是否是纯音乐音频的方法和装置
JP6812381B2 (ja) * 2018-02-08 2021-01-13 日本電信電話株式会社 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
CN108388939B (zh) * 2018-02-09 2021-10-12 杭州慧日永明文化传播有限公司 音频计数方法、系统、设备及存储介质
GB2571340A (en) * 2018-02-26 2019-08-28 Ai Music Ltd Method of combining audio signals
US10777217B2 (en) * 2018-02-27 2020-09-15 At&T Intellectual Property I, L.P. Performance sensitive audio signal selection
US11929091B2 (en) * 2018-04-27 2024-03-12 Dolby Laboratories Licensing Corporation Blind detection of binauralized stereo content
EP3785453B1 (en) * 2018-04-27 2022-11-16 Dolby Laboratories Licensing Corporation Blind detection of binauralized stereo content
CN110446141A (zh) * 2018-05-03 2019-11-12 塞舌尔商元鼎音讯股份有限公司 声音调整方法和系统
CN113450811B (zh) * 2018-06-05 2024-02-06 安克创新科技股份有限公司 对音乐进行通透处理的方法及设备
CN109147807B (zh) * 2018-06-05 2023-06-23 安克创新科技股份有限公司 一种基于深度学习的音域平衡方法、装置及系统
US11176960B2 (en) * 2018-06-18 2021-11-16 University Of Florida Research Foundation, Incorporated Method and apparatus for differentiating between human and electronic speaker for voice interface security
US10991379B2 (en) * 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
CN109273010B (zh) * 2018-08-21 2020-08-11 深圳市声扬科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
US10937443B2 (en) * 2018-09-04 2021-03-02 Babblelabs Llc Data driven radio enhancement
US11775250B2 (en) 2018-09-07 2023-10-03 Gracenote, Inc. Methods and apparatus for dynamic volume adjustment via audio classification
EP3847542A4 (en) * 2018-09-07 2022-06-01 Gracenote, Inc. METHODS AND APPARATUS FOR DYNAMIC VOLUME ADJUSTMENT BY AUDIO CLASSIFICATION
US11792481B2 (en) 2018-10-24 2023-10-17 Gracenote, Inc. Methods and apparatus for playback using pre-processed profile information and personalization
CN111225318A (zh) * 2018-11-23 2020-06-02 北京小米移动软件有限公司 音频调节方法及装置、电子设备
CN111259189B (zh) * 2018-11-30 2023-04-18 马上消费金融股份有限公司 一种音乐分类方法及装置
WO2020107385A1 (zh) * 2018-11-30 2020-06-04 深圳市汇顶科技股份有限公司 增益处理方法及其装置、电子设备、信号采集方法及其系统
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
CN112955954B (zh) 2018-12-21 2024-04-12 华为技术有限公司 用于音频场景分类的音频处理装置及其方法
JP7498560B2 (ja) 2019-01-07 2024-06-12 シナプティクス インコーポレイテッド システム及び方法
CN109805954B (zh) * 2019-01-23 2021-09-14 苏州美糯爱医疗科技有限公司 一种电子听诊器的摩擦音干扰自动消除方法
US11017774B2 (en) 2019-02-04 2021-05-25 International Business Machines Corporation Cognitive audio classifier
CN109947385A (zh) * 2019-03-08 2019-06-28 广东小天才科技有限公司 动态调音方法、装置、可穿戴设备和存储介质
TWI693926B (zh) * 2019-03-27 2020-05-21 美律實業股份有限公司 聽力測試系統的設定方法以及聽力測試系統
CN109981186B (zh) * 2019-04-10 2021-07-27 成都华日通讯技术股份有限公司 超短波全频段信号分选方法
US11062691B2 (en) * 2019-05-13 2021-07-13 International Business Machines Corporation Voice transformation allowance determination and representation
CN110097895B (zh) * 2019-05-14 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 一种纯音乐检测方法、装置及存储介质
CN110136696B (zh) * 2019-05-22 2021-05-18 上海声构信息科技有限公司 音频数据的监控处理方法和系统
CN110231087B (zh) * 2019-06-06 2021-07-23 江苏省广播电视集团有限公司 一种高清电视音频响度分析报警及归一化制作方法和设备
CN110347366B (zh) * 2019-07-15 2023-08-08 百度在线网络技术(北京)有限公司 音量调节方法、终端设备、存储介质及电子设备
JP7258228B2 (ja) * 2019-08-27 2023-04-14 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的平滑化を使用したダイアローグの拡張
CN110910895B (zh) * 2019-08-29 2021-04-30 腾讯科技(深圳)有限公司 一种声音处理的方法、装置、设备和介质
CN110660408B (zh) * 2019-09-11 2022-02-22 厦门亿联网络技术股份有限公司 一种数字自动控制增益的方法和装置
CN110718235B (zh) * 2019-09-20 2022-07-01 精锐视觉智能科技(深圳)有限公司 异常声音检测的方法、电子设备及存储介质
CN110739006B (zh) * 2019-10-16 2022-09-27 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、存储介质及电子设备
CN111145726B (zh) * 2019-10-31 2022-09-23 南京励智心理大数据产业研究院有限公司 基于深度学习的声场景分类方法、系统、装置及存储介质
CN110933235B (zh) * 2019-11-06 2021-07-27 杭州哲信信息技术有限公司 一种基于机器学习的智能呼叫系统中的噪声识别方法
CN110910906A (zh) * 2019-11-12 2020-03-24 国网山东省电力公司临沂供电公司 基于电力内网的音频端点检测及降噪方法
TWI731472B (zh) * 2019-11-14 2021-06-21 宏碁股份有限公司 電子裝置與音量自動調整方法
KR20210072384A (ko) * 2019-12-09 2021-06-17 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11817114B2 (en) * 2019-12-09 2023-11-14 Dolby Laboratories Licensing Corporation Content and environmentally aware environmental noise compensation
KR20210086086A (ko) * 2019-12-31 2021-07-08 삼성전자주식회사 음악 신호 이퀄라이저 및 이퀄라이징 방법
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
CN111192594B (zh) * 2020-01-10 2022-12-09 腾讯音乐娱乐科技(深圳)有限公司 人声和伴奏分离方法及相关产品
CN111369465B (zh) * 2020-03-04 2024-03-08 东软医疗系统股份有限公司 Ct动态图像增强方法及装置
CN111445899B (zh) * 2020-03-09 2023-08-01 咪咕文化科技有限公司 语音情绪识别方法、装置及存储介质
CN111028841B (zh) * 2020-03-10 2020-07-07 深圳市友杰智新科技有限公司 唤醒系统调节参数的方法、装置、计算机设备和存储介质
CN111429943B (zh) * 2020-03-20 2022-05-10 四川大学 音频中音乐及音乐相对响度的联合检测方法
CN111462737B (zh) * 2020-03-26 2023-08-08 中国科学院计算技术研究所 一种训练用于语音分组的分组模型的方法和语音降噪方法
CN111475634B (zh) * 2020-04-10 2023-04-28 复旦大学 基于座席语音切分的代表性话术片段抽取装置及方法
US11574618B2 (en) * 2020-04-16 2023-02-07 Gracenote, Inc. Methods and apparatus for harmonic source enhancement
CN111797708A (zh) * 2020-06-12 2020-10-20 瑞声科技(新加坡)有限公司 气流杂音检测方法、装置、终端及存储介质
CN111724757A (zh) * 2020-06-29 2020-09-29 腾讯音乐娱乐科技(深圳)有限公司 一种音频数据处理方法及相关产品
CN111899760B (zh) * 2020-07-17 2024-05-07 北京达佳互联信息技术有限公司 音频事件的检测方法、装置、电子设备及存储介质
US20240038258A1 (en) 2020-08-18 2024-02-01 Dolby Laboratories Licensing Corporation Audio content identification
CN112216304B (zh) * 2020-09-22 2022-02-18 浙江大学 一种基于双麦克风系统检测和定位无声语音指令的方法
TWI744036B (zh) 2020-10-14 2021-10-21 緯創資通股份有限公司 聲音辨識模型訓練方法及系統與電腦可讀取媒體
CN112492073B (zh) * 2020-11-24 2021-09-28 捷开通讯(深圳)有限公司 音频播放方法、装置、存储介质及移动终端
CN112700792B (zh) * 2020-12-24 2024-02-06 南京邮电大学 音频场景识别分类方法
CN112770227B (zh) * 2020-12-30 2022-04-29 中国电影科学技术研究所 音频处理方法、装置、耳机和存储介质
CN116193311A (zh) * 2021-01-22 2023-05-30 深圳市睿耳电子有限公司 无线耳机的音质优化方法及相关设备、介质和程序产品
CN112967732B (zh) * 2021-02-25 2023-10-03 北京百度网讯科技有限公司 调整均衡器的方法、装置、设备和计算机可读存储介质
CN115134675A (zh) * 2021-03-26 2022-09-30 北京小米移动软件有限公司 声音输出方法及装置、电子设备、存储介质
CN113421552A (zh) * 2021-06-22 2021-09-21 中国联合网络通信集团有限公司 音频识别方法和装置
US11671753B2 (en) * 2021-08-27 2023-06-06 Cisco Technology, Inc. Optimization of multi-microphone system for endpoint device
US11823707B2 (en) 2022-01-10 2023-11-21 Synaptics Incorporated Sensitivity mode for an audio spotting system
CN116758934B (zh) * 2023-08-18 2023-11-07 深圳市微克科技有限公司 一种智能穿戴设备对讲功能的实现方法、系统及介质

Family Cites Families (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3150739A (en) 1962-09-04 1964-09-29 Dones Raymon Loud speaker enclosure
US4887299A (en) 1987-11-12 1989-12-12 Nicolet Instrument Corporation Adaptive, programmable signal processing hearing aid
CA2056110C (en) 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
CN1159704C (zh) * 1994-06-13 2004-07-28 松下电器产业株式会社 信号分析装置
US5806025A (en) * 1996-08-07 1998-09-08 U S West, Inc. Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank
CA2286268C (en) 1997-04-16 2005-01-04 Dspfactory Ltd. Method and apparatus for noise reduction, particularly in hearing aids
US6993480B1 (en) * 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US20010044719A1 (en) 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
KR100580166B1 (ko) * 1999-11-04 2006-05-15 삼성전자주식회사 등화기의 필터 계수를 조절하여 재생 성능을 높이는 장치및 방법
ATE331417T1 (de) 2000-04-04 2006-07-15 Gn Resound As Eine hörprothese mit automatischer hörumgebungsklassifizierung
US6901362B1 (en) 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
JP2002215195A (ja) * 2000-11-06 2002-07-31 Matsushita Electric Ind Co Ltd 音楽信号処理装置
DE10124699C1 (de) 2001-05-18 2002-12-19 Micronas Gmbh Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
AUPS270902A0 (en) 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
EP1522206B1 (en) 2002-07-12 2007-10-03 Widex A/S Hearing aid and a method for enhancing speech intelligibility
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7003096B2 (en) 2002-09-12 2006-02-21 Plantronics, Inc. Full duplex telephone set using echo cancellation and side tone management for high gain stability
JP2004133403A (ja) * 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
US6993482B2 (en) * 2002-12-18 2006-01-31 Motorola, Inc. Method and apparatus for displaying speech recognition results
DK1658754T3 (da) 2003-06-24 2012-01-02 Gn Resound As Et binauralt høreapparatsystem med koordineret lydbehandling
WO2005038774A1 (en) 2003-10-22 2005-04-28 Auckland University Of Technology Adaptive sound and image learning system and method
EP1531478A1 (en) 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
EP1542206A1 (en) 2003-12-11 2005-06-15 Sony International (Europe) GmbH Apparatus and method for automatic classification of audio signals
JP4185866B2 (ja) * 2004-01-14 2008-11-26 富士通株式会社 音響信号処理装置および音響信号処理方法
US20050159942A1 (en) * 2004-01-15 2005-07-21 Manoj Singhal Classification of speech and music using linear predictive coding coefficients
GB2413745A (en) * 2004-04-30 2005-11-02 Axeon Ltd Classifying audio content by musical style/genre and generating an identification signal accordingly to adjust parameters of an audio system
US20050251273A1 (en) * 2004-05-05 2005-11-10 Motorola, Inc. Dynamic audio control circuit and method
US7366260B2 (en) * 2004-05-21 2008-04-29 Benq Corporation Efficient MLSE equalizer implementation
CN100514446C (zh) * 2004-09-16 2009-07-15 北京中科信利技术有限公司 一种基于语音识别及语音分析的发音评估方法
JP5101292B2 (ja) * 2004-10-26 2012-12-19 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号の感知音量及び/又は感知スペクトルバランスの計算と調整
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
ATE406075T1 (de) 2004-11-23 2008-09-15 Koninkl Philips Electronics Nv Einrichtung und verfahren zur verarbeitung von audiodaten, computerprogrammelement und computerlesbares medium
US20060182295A1 (en) 2005-02-11 2006-08-17 Phonak Ag Dynamic hearing assistance system and method therefore
DE102005020316B3 (de) 2005-05-02 2006-10-19 Siemens Audiologische Technik Gmbh Hörgerätsystem mit Monosignalerzeugung und entsprechendes Verfahren
WO2006132596A1 (en) 2005-06-07 2006-12-14 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio clip classification
ATE487337T1 (de) 2005-08-02 2010-11-15 Gn Resound As Hörhilfegerät mit windgeräuschunterdrückung
US7774078B2 (en) * 2005-09-16 2010-08-10 Sony Corporation Method and apparatus for audio data analysis in an audio player
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
EP2005791A1 (en) 2006-03-24 2008-12-24 GN Resound A/S Learning control of hearing aid parameter settings
NO345590B1 (no) 2006-04-27 2021-05-03 Dolby Laboratories Licensing Corp Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
US7809723B2 (en) * 2006-06-26 2010-10-05 Microsoft Corporation Distributed hierarchical text classification framework
EP2064918B1 (en) 2006-09-05 2014-11-05 GN Resound A/S A hearing aid with histogram based sound environment classification
DK2064918T3 (en) 2006-09-05 2015-01-26 Gn Resound As A hearing-aid with histogram based lydmiljøklassifikation
KR100832360B1 (ko) * 2006-09-25 2008-05-26 삼성전자주식회사 음원 재생기에서의 이퀄라이저 조정 방법 및 그 시스템
US20100046765A1 (en) * 2006-12-21 2010-02-25 Koninklijke Philips Electronics N.V. System for processing audio data
KR100883656B1 (ko) 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법
BRPI0807703B1 (pt) 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
WO2008126627A1 (ja) 2007-03-26 2008-10-23 Nec Corporation 音声分類装置、音声分類方法、および音声分類用プログラム
JP4851387B2 (ja) * 2007-05-08 2012-01-11 シャープ株式会社 音響再生装置および音響再生方法
ES2377719T3 (es) * 2007-07-13 2012-03-30 Dolby Laboratories Licensing Corporation Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.
EP2191467B1 (en) 2007-09-12 2011-06-22 Dolby Laboratories Licensing Corporation Speech enhancement
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
US8856049B2 (en) * 2008-03-26 2014-10-07 Nokia Corporation Audio signal classification by shape parameter estimation for a plurality of audio signal samples
US9373339B2 (en) * 2008-05-12 2016-06-21 Broadcom Corporation Speech intelligibility enhancement system and method
WO2009138936A1 (en) 2008-05-15 2009-11-19 Koninklijke Philips Electronics N.V. A surround sound reproduction system
WO2010001393A1 (en) 2008-06-30 2010-01-07 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal
CN101685446A (zh) * 2008-09-25 2010-03-31 索尼(中国)有限公司 音频数据分析装置和方法
CN101727903B (zh) * 2008-10-29 2011-10-19 中国科学院自动化研究所 基于多特征和多系统融合的发音质量评估和错误检测方法
JP2010118978A (ja) * 2008-11-14 2010-05-27 Victor Co Of Japan Ltd 音像定位制御装置および音像定位制御方法
UA101542C2 (ru) * 2008-12-15 2013-04-10 Долби Лабораторис Лайсензин Корпорейшн Виртуализатор окружающего звука с динамическим сжатием диапазона и способ
CN101751920A (zh) * 2008-12-19 2010-06-23 数维科技(北京)有限公司 基于再次分类的音频分类装置及其实现方法
JP4439579B1 (ja) 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
US8229125B2 (en) 2009-02-06 2012-07-24 Bose Corporation Adjusting dynamic range of an audio system
US8432919B2 (en) * 2009-02-25 2013-04-30 Cisco Technology, Inc. Data stream classification
WO2010113463A1 (ja) * 2009-03-31 2010-10-07 パナソニック株式会社 撮像装置、集積回路、撮像方法、プログラム及び記録媒体
US8320852B2 (en) * 2009-04-21 2012-11-27 Samsung Electronic Co., Ltd. Method and apparatus to transmit signals in a communication system
JP4621792B2 (ja) * 2009-06-30 2011-01-26 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
CN102498482B (zh) 2009-09-14 2014-10-15 Dts有限责任公司 用于自适应话音可懂度处理的系统
US8204742B2 (en) * 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
KR101253102B1 (ko) * 2009-09-30 2013-04-10 한국전자통신연구원 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
KR101387195B1 (ko) 2009-10-05 2014-04-21 하만인터내셔날인더스트리스인코포레이티드 오디오 신호의 공간 추출 시스템
US9552845B2 (en) 2009-10-09 2017-01-24 Dolby Laboratories Licensing Corporation Automatic generation of metadata for audio dominance effects
KR20110078091A (ko) 2009-12-30 2011-07-07 삼성전자주식회사 이퀄라이저 조정 장치 및 방법
EP2529184A4 (en) * 2010-01-29 2016-03-09 Nokia Technologies Oy SYSTEMS, METHODS AND APPARATUSES FOR DELIVERING CONTEXT-BASED NAVIGATION SERVICES
CN102195581A (zh) * 2010-03-18 2011-09-21 承景科技股份有限公司 数字音频信号的音量调整方法
US20120191231A1 (en) * 2010-05-04 2012-07-26 Shazam Entertainment Ltd. Methods and Systems for Identifying Content in Data Stream by a Client Device
US20110313762A1 (en) 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
CN102439660A (zh) * 2010-06-29 2012-05-02 株式会社东芝 基于置信度得分的语音标签方法和装置
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
JP2012083746A (ja) * 2010-09-17 2012-04-26 Kinki Univ 音処理装置
CN102446506B (zh) * 2010-10-11 2013-06-05 华为技术有限公司 音频信号的分类识别方法及装置
US8521541B2 (en) * 2010-11-02 2013-08-27 Google Inc. Adaptive audio transcoding
TWI800092B (zh) 2010-12-03 2023-04-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
CN102486920A (zh) * 2010-12-06 2012-06-06 索尼公司 音频事件检测方法和装置
US20120294457A1 (en) 2011-05-17 2012-11-22 Fender Musical Instruments Corporation Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals and Control Signal Processing Function
JP4982617B1 (ja) * 2011-06-24 2012-07-25 株式会社東芝 音響制御装置、音響補正装置、及び音響補正方法
JP5085769B1 (ja) * 2011-06-24 2012-11-28 株式会社東芝 音響制御装置、音響補正装置、及び音響補正方法
US9160837B2 (en) 2011-06-29 2015-10-13 Gracenote, Inc. Interactive streaming content apparatus, systems and methods
CN102982804B (zh) 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
CN102543079A (zh) * 2011-12-21 2012-07-04 南京大学 一种实时的音频信号分类方法及设备
CA2805933C (en) * 2012-02-16 2018-03-20 Qnx Software Systems Limited System and method for noise estimation with music detection
KR101663396B1 (ko) * 2012-02-24 2016-10-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 사운드 트랜스듀서에 의한 재생을 위한 오디오 신호를 제공하기 위한 장치, 시스템, 방법 및 컴퓨터 프로그램
US9685921B2 (en) * 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
US9318092B2 (en) * 2013-01-29 2016-04-19 2236008 Ontario Inc. Noise estimation control system
US9374629B2 (en) * 2013-03-15 2016-06-21 The Nielsen Company (Us), Llc Methods and apparatus to classify audio
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法

Similar Documents

Publication Publication Date Title
JP2016519784A5 (ja)
JP6896135B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP6921907B2 (ja) オーディオ分類および処理のための装置および方法
JP6325640B2 (ja) 等化器コントローラおよび制御方法