JP2009151785A - オーディオビデオ文書の特徴マップを計算する装置及び方法 - Google Patents

オーディオビデオ文書の特徴マップを計算する装置及び方法 Download PDF

Info

Publication number
JP2009151785A
JP2009151785A JP2008317626A JP2008317626A JP2009151785A JP 2009151785 A JP2009151785 A JP 2009151785A JP 2008317626 A JP2008317626 A JP 2008317626A JP 2008317626 A JP2008317626 A JP 2008317626A JP 2009151785 A JP2009151785 A JP 2009151785A
Authority
JP
Japan
Prior art keywords
audio
channel
picture
function
sound level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008317626A
Other languages
English (en)
Other versions
JP5496499B2 (ja
Inventor
Olivier Le Meur
ル ムール オリヴィエ
Alexandre Ninassi
ニナッシ アレクサンドル
Jean-Claude Chevet
シュヴェ ジャン−クロード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2009151785A publication Critical patent/JP2009151785A/ja
Application granted granted Critical
Publication of JP5496499B2 publication Critical patent/JP5496499B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Abstract

【課題】聴覚的な特性を視覚的な特性と関連付けする、オーディオビデオ文書の特徴マップを判定する方法を提案する。
【解決手段】本方法は、前記文書のビデオ部分に関して特徴マップを計算するステップ(E1)、前記文書を表す少なくとも1つのオーディオ記述子を決定するステップ(E2)、前記オーディオ記述子の変動の関数としてビデオ特徴マップを重み付けするステップ(E4)を含む。
【選択図】図1

Description

本発明は、オーディオビデオ文書の特徴を判定するオーディオ特性の認識に関する。
オーディオビデオ文書の特徴ゾーンの判定は、圧縮(特徴ゾーンがたとえば多数のビットで符号化されるか、前記ゾーンの量子化ステップが変更される)、インデックス(これら特徴ゾーンにおける情報を使用することで文書を索引付けすることが可能である)等のような異なるアプリケーションにとって有効である。
ビデオ文書の特徴を判定する幾つかの方法が存在する。2004年12月14日にThomson Licensing社の名前で提出された欧州特許EP1695288は、ビデオ文書の特徴マップを確立する特に効果的な方法を記載している。
WO 2004/043054 US 2004/088726 A1
しかし、幾つかのケースでは、ビデオは、オーディオビデオ文書の特徴を十分に正確なやり方で取得するのを可能にしない。
現在の方法の関連性を改善するため、本発明は、聴覚的な特性を視覚的な特性と関連付けすることを提案する。
この目的のため、本発明は、オーディオビデオ文書の特徴マップを判定する方法を提案するものであり、文書のビデオ部分に関して特徴マップを計算するステップ、文書を表す少なくとも1つのオーディオ記述子を決定するステップ、オーディオ記述子の変数の関数としてビデオ特徴マップを重み付けするステップを含む。
好ましくは、オーディオ記述子は、文書の全体のサウンドレベル、音響の環境、それぞれのオーディオチャネルのサウンドレベル、サウンドレベルの時間的な変動、サウンドレベルの空間−時間的な変動、及びこれらのコンポーネントの任意の組み合わせのうちから選択される。
好ましくは、それぞれのオーディオチャネルのサウンドレベル及び全体のサウンドレベルは、オーディオ記述子として使用されるとき、それぞれのオーディオチャネルのゲインは、サウンドレベル、及び全てのチャネルのサウンドレベルの関数として計算される(E3)。
有利なことに、重み付け窓は、視覚的な特徴画素と呼ばれる、予め決定されたレベルよりも大きな視覚的な特徴を有するそれぞれの画素について決定され、視覚的な特徴画素の位置の空間的な位置は、ピクチャにおいて決定され、それぞれのチャネルの重み付け関数は、それぞれのオーディオチャネルのゲイン、及びピクチャ内の画素の空間的な位置の関数としてそれぞれ視覚的な特徴画素について決定される。
好適な実施の形態によれば、重み付け関数は、ピクチャにおけるその空間的な位置、及びオーディオチャネルのゲインの値の関数として、それぞれのチャネルについて、及びそれぞれのピクチャの画素について計算される。
好ましくは、それぞれのチャネルの重み付け関数は、チャネルサイドに位置される画素がチャネルから空間的に離れて位置される画素よりも大きな重みを有するように、線形な関数である。
オーディオがステレオタイプであるとき、有利なことに、ピクチャの左に位置される画素は、左手のチャネルの重み付け関数について大きな重みを有し、ピクチャの右に位置される画素について小さな重みを有する。
好適な実施の形態によれば、特徴マップは、複数の特徴マップを得るため、複数の重み付け関数によりビデオ部分に関して乗算される。オーディオビデオ特徴マップは、前記特徴マップを平均することで得られる。
好ましくは、特徴マップは、サウンドレベルの時間的な変化に依存する係数により重み付けされる。
また、本発明は、オーディオビデオ文書の特徴マップを判定する装置に関する。本発明によれば、本装置は、前記文書のビデオ部分に関する特徴マップを計算する手段、文書を表す少なくとも1つのオーディオ記述子を決定する手段、オーディオ記述子の変数の関数としてビデオ特徴マップを重み付けする手段を有する。
本発明は、添付図面を参照して、限定することなしに、実施の形態及び実現により良好に理解及び例示されるであろう。
図示されるモジュールは、物理的に区別可能なユニットに対応する場合があるか、対応しない場合がある機能ユニットである。たとえば、これらのモジュール又はそれらのうちの幾つかは、1つのコンポーネントで互いにグループ化することができるか、又は同じソフトウェアの機能を構成することができる。対照的に、幾つかのモジュールは、個別の物理的なエンティティから構成される場合がある。
図1は、別のゴルフボールと話される一方のゴルフボールを示すビデオ系列に適用される本発明の好適なモードの実施の形態を示す。
ステップE1では、特徴マップは、ビジュアルアテンションモデルからビデオドキュメントにより決定される。特徴マップは、それぞれのピクチャIm1及びIm2についてそれぞれビューC1及びC2で決定されるように取得される。次いで、取得された2つの特徴マップC1及びC2に関して、それぞれのボールと関連付けされる特徴は非常に類似することが観察される。確かに、2つのボールは、非常に類似した特性を有するが、これらのボールに関連される音声は非常に異なる。確かに、右手のボールは聴く一方で、左手のボールは話す。オーディオビデオ文書を見ている人物の注意は、左手のボールに自然にフォーカスされる。したがって、取得された特徴マップC1及びC2は、オーディオビデオ文書を十分に表していない。
したがって、ステップE2の間、オーディオビデオ文書のオーディオコンテンツを表すオーディオ記述子が決定される。これら記述子のなかで、オーディオトラックからの記述子が決定される。
それぞれのチャネルのサウンドレベル(CSL)(right(r), left(l), bottom(b),
top(t), back right(rl), back left(bl) 等)、CSLチャネルのサウンドレベルの全体の合計である全体のサウンドレベル(OSL)(特徴の期間、アクティビティの期間)、音響の環境(AE)、サウンドレベルの時間的な変化(SLTV)(静寂から強いアクティビティへの経過)、サウンドレベルの空間−時間の変化(SLSTV)(左から右への経過)。
これらオーディオ記述子から、重み付け関数は、ステップE3の間に決定される。この重み付け関数は、それぞれの画素を、特徴が強調されることが要求されるか又は低減されることが要求されるかに依存して高い重み又は低い重みを関連付ける。したがって、この関数は、ディメンジョンとしてピクチャの解像度を有するサポートを有する。デフォルトにより、オーディオデータが利用可能ではないとき、重み付け関数は一様であり、これは全体のピクチャについて値“1”からなる。
「それぞれのチャネルのサウンドレベルを考慮」
ステレオサウンドが利用可能である場合、それぞれのピクチャのサイドについて1つである2つのチャネルが存在する。ビデオのサウンドを編集するとき、したがって、右手側が強調されることが要求される場合、たとえばピクチャの右手側にある人物が話す一方で、左手側にいる人物が話さない場合、左手側よりも右手側により多くの音を与えることが可能である。
したがって、サウンドは、あるピクチャについて全体的に必要ではないが、より局所的とすることができる。たとえばステレオサウンドにより、左は右から区別される。Dolby5.1サウンドにより、左、右、前、後等を区別することができる。
それぞれのチャネルは、そのオーディオマスキングキャパシティに依存するゲインを有する重み関数を定義する。他に関して低い振幅のサウンドを聴くことができず、したがって、このサウンドを搬送するチャネルは低いゲインを有する。重み付け関数は、異なるゲインを有するGaussσ(σはガウスエンベロープの空間的な広がり)で示される、1の振幅からなるガウス分布であることが好ましい。
重み付け関数の適用の中央は、予め決定されたグリッドによりそれぞれのチャネルについて設定される。図2に例が与えられる(この場合、たとえば6つのチャネルが存在し、ポイントはピクチャで一様に分散される)。
この図は9つのポイントを示し、重み付け関数はこれら9つのポイントをそれらの中央に有する。
重み付け関数の適用の中央は、図3に示されるように、それぞれの象限における特徴の最大に位置されることが好ましい。次いで、予め決定される閾値を越える特徴を有する特徴のポイントが使用され、この場合、予め定義された数の特徴ポイントのみを保存することが決定され、又は、特徴ポイントの位置に続いて、低減されたピクチャのゾーンが特徴ポイントの大部分を含み、ピクチャが幾つかの分散された特徴のゾーンを含むとき、唯一の特徴ポイントが保存される。
他の実施の形態では、固定されるか又は可変であるサイズをもち、あるポイントでセンタリングされる方形波窓により表されるラプラス型の関数を使用することができる。
それぞれのオーディオチャネルのゲインは、以下の式により与えられる。
Figure 2009151785
GainWeightiは、チャネルiのゲインを示し、CSLiは、チャネルiのサウンドレベルを示す。Pは、好ましくは値2の指数である。εは、ゼロによる除算を防止する低い値の定数である。チャネルが同じサウンドレベルを有するか、又は非常に近いサウンドレベルを有する場合、それぞれのチャネルと関連付けされるゲインは同じである。しかし、他のチャネルのサウンドレベルと比較してチャネルのサウンドレベルが高い場合、そのゲインも高くなる。
それぞれのチャネルゲインは、Weightとして示される前もって定義される重み付け窓のゲインを乗算する。
この重み付け窓の振幅は、チャネルのゲインに依存する。
Figure 2009151785
したがって、重み付け関数の適用の中央が特徴の最大に位置されるとき、この最大の周りの重み付け窓は、図3に示されるように定義される。ステレオモードにあるとき、特徴の最大の位置は、この重み付け関数を適用するために重要である。確かに、ピクチャの右に位置される特徴の最大について、それに右手のチャネルのGainWeight値を適用することは重要であり、逆に、ピクチャの左に位置される最大について、それに左手のチャネルのGainWeight値を適用することは重要である。したがって、特徴の最大の距離は、ピクチャのエッジに関して計算される。右手のチャネルの重み付け関数について、ピクチャの右手のエッジの近くに位置される最大の高いGainWeight係数が適用され、ピクチャの左手のエッジの近くに位置される画素の低い係数が適用される。
左手のチャネルの重み付け関数について、ピクチャの左手のエッジの近くに位置される最大の高いGainWeight係数が適用され、ピクチャの右手のエッジの近くに位置される画素の低い係数が適用される。
オーディオがステレオではなくDolby5.1であるとき、ピクチャのエッジに関して距離が計算されないが、ピクチャにおける位置が計算される。この位置に従って、このポイントのチャネルの影響が決定される。
距離を考慮するため、更なる重み付けファクタは、前の式
Figure 2009151785
に加えることができる。
距離の概念に依存する式は、以下のようになる。
Figure 2009151785
αは中央(xc,yc)に関して偏心に依存する。すなわち、現在のポイント(x,y)、alpha(x,y) = (x-xc)2
− (y-yc)2である。したがって、(x,y)=(xc,yc)である場合、αはゼロに向かう傾向にあり、さもなければ、αは中央に関して距離と共に増加する。
図4aから図7bは、右手チャネル及び左手チャネルを有する、ステレオサウンドの場合におけるGainWeight2の異なる実施の形態を示す。これら実施の形態は、上述されたビジュアルマップの最大の特徴を変化するだけでなく、ピクチャの全てのポイントの特徴を変化させる。
図4aは、右手のチャネルについて第一の実施の形態を示す。GainWeight2dは、ピクチャの右に位置されるポイントについて最大であり、中央のポイント及び中央のポイントの左に位置されるピクチャのポイントについて1に等しくなる。
図4bは、左手のチャネルについて第一の実施の形態を示す。GainWeight2gは、ピクチャの左に位置されるポイントについて最大であり、中央のポイント及び中央のポイントの右に位置されるピクチャのポイントについて1に等しくなる。したがって、Weightは線形関数を表す。
この線形関数は予め定義され、バリエーションは、ユーザにより要求される変調の強度に依存することができる。
図4a及び図4bでは、左手のチャネルのゲインは、右手のチャネルのゲインよりも大きい。したがって、全ての重み付け関数により乗算するとき、右へのポイントについてよりも左へのポイントについて、より強調された特徴が得られる。
図5a及び図5bは、右及び左での対数型の減少を示す。
図5aは、右手のチャネルについて第二の実施の形態を示す。GainWeight2dは、ピクチャの右に位置されるポイントについて最大であり、中央のポイント及び中央のポイントの左に位置されるピクチャのポイントについて1に等しくなる。したがって、Weightは増加する指数関数exp(x)を表す。
図5bは、左手のチャネルについて第二の実施の形態を示す。GainWeight2gは、ピクチャの左に位置されるポイントについて最大であり、中央のポイント及び中央のポイントの右に位置されるピクチャのポイントについて1に等しくなる。したがって、Weightは減少する指数関数exp(x)を表す。
この増加又は減少する指数関数は予め定義され、バリエーションは、ユーザにより要求される変調の強度に依存することができる。
図6aは、右手のチャネルについて第三の実施の形態を示す。GainWeight2dは、ピクチャの右に位置されるポイントについて最大であり、中央の右へのピクチャのゾーン、たとえばピクチャの右手の4分の1に位置されるゾーンについて一定のままであり、さもなければ値“1”を有する。
図6bは、左手のチャネルについて第二の実施の形態を示す。GainWeight2dは、ピクチャの左に位置されるポイントについて最大であり、中央の右へのピクチャのゾーン、たとえばピクチャの右手の4分の1に位置されるゾーンについて一定のままであり、さもなければ値“1”を有する。
この関数は予め定義され、バリエーションは、ユーザにより要求される変調の強度に依存することができる。
図7aは、右手のチャネルについて第四の実施の形態を示す。GainWeight2dは、ピクチャの右に位置されるポイントについて最大であり、ピクチャの左にまで線形に減少する。
図7bは、左手のチャネルについて第四の実施の形態を示す。GainWeight2dは、ピクチャの左に位置されるポイントについて最大であり、ピクチャの右にまで線形に減少する。
これら2つの最後の曲線の傾斜は同一である。右手のチャネルのゲインは、左手のチャネルのゲインよりも大きく、ピクチャの右に位置されるポイントは、ピクチャの左に位置されるポイントよりも、それらの特徴において大きな増加を有する。この関数は予め定義され、バリエーションは、ユーザにより要求される変調の強度に依存することができる。
図1のステップE4の間、視覚的な特徴マップは、全てのNの重み付け関数により乗算される。取得されるN個のマップは、中間のマップSMModを取得するために平均化される。SMのビジュアルな特徴マップが与えられ、SMModのオーディオビジュアルな特徴マップが与えられ、Nのサウンドチャネルが与えられ、Normのスケールファクタが与えられる。
次いで、オーディオビジュアルな特徴マップが以下の式から得られる。GainWeight2i値は、重み付け窓の値の合計により正規化される。
Figure 2009151785
[サウンドレベルの時間的な変化を考慮]
ステップE5の間、サウンドレベルの時間的な変化が考慮される。
サウンドレベルが突然に変化したとき、より詳細には、レベルがロウレベルからハイレベルになったとき、視覚的な注意の増加はハイである。さらに、特徴に経過するとき、視覚的な注意は、確かに少ない。
したがって、一時的な減衰係数いついてTAC(temporal attenuation
coefficient)として示される、特徴の変調係数を一時的に適用することが提案される。図3は、全体のサウンドレベルの関数としてTAC係数の変化の例を示す。
一時的な減衰係数TACは、数秒にわたり統合される全体のサウンドレベルOSL(overall sound level)の値、及び時間的に平均されるその振幅の時間的な変動性に依存する。この係数は、特徴マップに一様に適用される。デフォルトにより、この係数は1である。
他の観点では、特徴の期間の間、特徴は、一方のゾーンから別のゾーンにわたり優先度を与えないように、0に向かう係数により重み付けされる。
Figure 2009151785
上述された異なる実施の形態で記載された発明は、ピクチャの中央の特徴を低減する傾向にあることを更に述べておく。しかし、この特徴を減衰させるよりはむしろ、特徴を低減しないことが重要なことがある。
デフォルトにより、異なるチャネルのゲインが類似する場合(音はチャネル間で一様に分散される)、何も行なわれないか、又は中央はデフォルトにより増強される。
上述されたアプリケーションは、2人の間での会話の環境で特に適用される。より一般的なケースについて、ピクチャの中央は、アトラクションの優先ゾーンに残る。
本発明の実施の形態、及びオーディオビデオ文書に適用される本発明の効果を示す図である。 重み付け関数の適用の中央の例を示す図である。 適用の中央として、重み付け関数、それらの関連する重み付け窓とのビデオマップの特徴ポイントを示す好適な実施の形態を表す図である。 図4a及び図4bは、ステレオの場合の重み付け関数の第一の変形例を右手のチャネルと左手のチャネルのそれぞれについて示す図である。 図5a及び図5bは、ステレオの場合の重み付け関数の第二の変形例を右手のチャネルと左手のチャネルのそれぞれについて示す図である。 図6a及び図6bは、ステレオの場合の重み付け関数の第三の変形例を右手のチャネルと左手のチャネルのそれぞれについて示す図である。 図7a及び図7bは、ステレオの場合の重み付け関数の第四の変形例を右手のチャネルと左手のチャネルのそれぞれについて示す図である。 全体のサウンドレベルと時間的な減衰係数の間の関係を示す図である。
符号の説明
Im1,Im2:ピクチャ
C1,C2:ビュー

Claims (10)

  1. オーディオビデオ文書の特徴マップを決定する方法であって、
    前記文書のビデオ部分に関して特徴マップを計算するステップと、
    前記文書を表す少なくとも1つのオーディオ記述子を決定するステップと、
    前記オーディオ記述子の変動の関数としてビデオ特徴マップを重み付けするステップと、
    を含むことを特徴とする方法。
  2. 前記オーディオ記述子は、前記文書の全体のサウンドレベル、音響環境、それぞれのオーディオチャネルのサウンドレベル、前記サウンドレベルの時間的な変動、前記サウンドレベルの空間−時間の変動、及び上記の任意の組み合わせのうちから選択される、
    ことを特徴とする請求項1記載の方法。
  3. それぞれのオーディオチャネルのサウンドレベル及び全体のサウンドレベルがオーディオ記述子として使用されるとき、それぞれのオーディオチャネルのゲインは、前記サウンドレベル及び全てのチャネルのサウンドレベルの関数として計算される、
    ことを特徴とする請求項1又は2記載の方法。
  4. 視覚的に特徴的な画素と呼ばれる予め決定されたレベルよりも大きな視覚的な特徴を有するそれぞれの画素について重み付け窓が決定され、
    前記視覚的に特徴的な画素の位置の空間的な位置がピクチャにおいて決定され、
    それぞれのオーディオチャネルのゲイン及びピクチャ内の画素の空間的な位置の関数として、それぞれ視覚的に特徴的な画素について、それぞれのチャネルの重み付け関数が計算される、
    ことを特徴とする請求項3記載の方法。
  5. ピクチャにおけるその空間的な位置及び前記オーディオチャネルのゲインの値の関数として、それぞれのチャネルについて及びピクチャのそれぞれの画素について、重み付け関数が計算される、
    ことを特徴とする請求項3記載の方法。
  6. それぞれのチャネルの前記重み付け関数は線形関数であり、チャネルサイドに位置される画素は、前記チャネルから空間的に離れて位置される画素よりも大きな重みを有する、
    ことを特徴とする請求項5記載の方法。
  7. 前記オーディオがステレオタイプであるとき、ピクチャの左に位置される画素は、左手のチャネルの重み付け関数について大きな重みを有し、ピクチャの右に位置される画素について小さな重みを有する、
    ことを特徴とする請求項6記載の方法。
  8. 前記特徴マップは、複数の特徴マップを得るため、複数の重み関数によりビデオ部分に関して乗算され、
    前記オーディオビデオの特徴マップは、前記特徴マップを平均することで得られる、
    ことを特徴とする請求項4記載の方法。
  9. 前記特徴マップは、サウンドレベルの時間的な変動に依存する係数により重み付けされる、
    ことを特徴とする請求項5記載の方法。
  10. オーディオビデオ文書の特徴マップを決定する装置であって、
    前記文書のビデオ部分に関して特徴マップを計算する手段と、
    前記文書を表す少なくとも1つのオーディオ記述子を決定する手段と、
    前記オーディオ記述子の変動の関数として前記ビデオ特徴マップを重み付けする手段と、
    を有する装置。
JP2008317626A 2007-12-20 2008-12-12 オーディオビデオ文書の顕著性マップを計算する装置及び方法 Expired - Fee Related JP5496499B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0760122 2007-12-20
FR0760122 2007-12-20

Publications (2)

Publication Number Publication Date
JP2009151785A true JP2009151785A (ja) 2009-07-09
JP5496499B2 JP5496499B2 (ja) 2014-05-21

Family

ID=39651293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008317626A Expired - Fee Related JP5496499B2 (ja) 2007-12-20 2008-12-12 オーディオビデオ文書の顕著性マップを計算する装置及び方法

Country Status (5)

Country Link
US (1) US8374492B2 (ja)
EP (1) EP2075758B1 (ja)
JP (1) JP5496499B2 (ja)
CN (1) CN101470756B (ja)
TW (1) TWI455064B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014058275A1 (ko) * 2012-10-11 2014-04-17 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
US9836269B2 (en) 2012-10-11 2017-12-05 Electronics And Telecommunications Research Institute Device and method for generating audio data, and device and method for playing audio data

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8396282B1 (en) * 2008-10-31 2013-03-12 Hrl Labortories, Llc Method and system for computing fused saliency maps from multi-modal sensory inputs
US8396249B1 (en) * 2008-12-23 2013-03-12 Hrl Laboratories, Llc Robot control based on saliency and invariant spatial representations using hierarchical spatial working memory
EP3457354B1 (en) 2011-04-08 2020-02-19 Dolby Laboratories Licensing Corporation Definition of global image transformations
US9946795B2 (en) 2014-01-27 2018-04-17 Fujitsu Limited User modeling with salience
CN103957417B (zh) * 2014-04-21 2018-01-12 深圳市视晶无线技术有限公司 一种高鲁棒性的视频编码方法及系统
CN104778238B (zh) * 2015-04-03 2018-01-05 中国农业大学 一种视频显著性的分析方法及装置
KR20220117057A (ko) * 2021-02-16 2022-08-23 삼성전자주식회사 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006505853A (ja) * 2002-11-06 2006-02-16 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ 画像又は映像の品質を評価する品質志向重要度マップの生成方法
JP2006279111A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム
JP2007194928A (ja) * 2006-01-19 2007-08-02 Matsushita Electric Ind Co Ltd 遠隔監視装置及び遠隔監視方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6072878A (en) * 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
JP4861593B2 (ja) 2000-04-19 2012-01-25 エスエヌケー テック インベストメント エル.エル.シー. 3次元空間高調波を保存するマルチチャンネルサラウンドサウンドマスタリングおよび再生方法
US7274741B2 (en) 2002-11-01 2007-09-25 Microsoft Corporation Systems and methods for generating a comprehensive user attention model
US7433327B2 (en) * 2003-10-09 2008-10-07 Hewlett-Packard Development Company, L.P. Method and system for coordinating communication devices to create an enhanced representation of an ongoing event
EP1544792A1 (en) 2003-12-18 2005-06-22 Thomson Licensing S.A. Device and method for creating a saliency map of an image
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
TWI342718B (en) * 2006-03-24 2011-05-21 Coding Tech Ab Decoder and method for deriving headphone down mix signal, receiver, binaural decoder, audio player, receiving method, audio playing method, and computer program
EP1936566A1 (en) * 2006-12-22 2008-06-25 Thomson Licensing Method for creating the saliency map of an image and system for creating reduced pictures of video frames

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006505853A (ja) * 2002-11-06 2006-02-16 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ 画像又は映像の品質を評価する品質志向重要度マップの生成方法
JP2006279111A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム
JP2007194928A (ja) * 2006-01-19 2007-08-02 Matsushita Electric Ind Co Ltd 遠隔監視装置及び遠隔監視方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ200910017034; 傳田 遊亀 他: '音響信頼度に基づく動的特徴量統合を用いた全方位マルチモーダル話者方位推定の検討' FIT2007 第6回情報科学技術フォーラム 情報科学技術レターズ , 20070822, pp.127-130, 社団法人情報処理学会 *
JPN6012048295; 傳田 遊亀 他: '音響信頼度に基づく動的特徴量統合を用いた全方位マルチモーダル話者方位推定の検討' FIT2007 第6回情報科学技術フォーラム 情報科学技術レターズ , 20070822, pp.127-130, 社団法人情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014058275A1 (ko) * 2012-10-11 2014-04-17 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
US9836269B2 (en) 2012-10-11 2017-12-05 Electronics And Telecommunications Research Institute Device and method for generating audio data, and device and method for playing audio data
US10282160B2 (en) 2012-10-11 2019-05-07 Electronics And Telecommunications Research Institute Apparatus and method for generating audio data, and apparatus and method for playing audio data

Also Published As

Publication number Publication date
TW200929074A (en) 2009-07-01
TWI455064B (zh) 2014-10-01
CN101470756B (zh) 2012-12-26
EP2075758A1 (en) 2009-07-01
US20090175595A1 (en) 2009-07-09
US8374492B2 (en) 2013-02-12
EP2075758B1 (en) 2013-04-24
CN101470756A (zh) 2009-07-01
JP5496499B2 (ja) 2014-05-21

Similar Documents

Publication Publication Date Title
JP5496499B2 (ja) オーディオビデオ文書の顕著性マップを計算する装置及び方法
US9805725B2 (en) Object clustering for rendering object-based audio content based on perceptual criteria
US10057703B2 (en) Apparatus and method for sound stage enhancement
US10109288B2 (en) Dynamic range and peak control in audio using nonlinear filters
WO2016208406A1 (ja) 音声処理装置および方法、並びにプログラム
US10362426B2 (en) Upmixing of audio signals
US10748550B2 (en) Methods, apparatus and computer programs for noise reduction for spatial audio signals
US20170064444A1 (en) Signal processing apparatus and method
CN115862657B (zh) 随噪增益方法和装置、车载系统、电子设备及存储介质
Jot et al. Dialog control and enhancement in object-based audio systems
JP2022526271A (ja) ラウドネスレベルを制御するオーディオ信号処理方法及び装置
US20170213565A1 (en) Apparatus, Methods and Computer Programs for Encoding and Decoding Audio Signals
US20180376272A1 (en) Apparatus and a method for processing soundfield data
Walton et al. A subjective comparison of discrete surround sound and soundbar technology by using mixed methods
US9426405B2 (en) System and method of determining the appropriate mixing volume for an event sound corresponding to an impact related events and determining the enhanced event audio
Watkins et al. Perceptual compensation when isolated test words are heard in room reverberation
JP2021064917A (ja) 映像信号変換装置及びプログラム
Storek et al. Artifact reduction in positioning algorithm using differential HRTF
US11343635B2 (en) Stereo audio
CN113366865B (zh) 用于音频对象聚类的自适应响度规范化
Lee et al. A diagonal‐steering‐based binaural beamforming algorithm incorporating a diagonal speech localizer for persons with bilateral hearing impairment
WO2023028018A1 (en) Detecting environmental noise in user-generated content
JP2024023163A (ja) 音声信号処理装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140305

R150 Certificate of patent or registration of utility model

Ref document number: 5496499

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees