JP2009151785A - オーディオビデオ文書の特徴マップを計算する装置及び方法 - Google Patents
オーディオビデオ文書の特徴マップを計算する装置及び方法 Download PDFInfo
- Publication number
- JP2009151785A JP2009151785A JP2008317626A JP2008317626A JP2009151785A JP 2009151785 A JP2009151785 A JP 2009151785A JP 2008317626 A JP2008317626 A JP 2008317626A JP 2008317626 A JP2008317626 A JP 2008317626A JP 2009151785 A JP2009151785 A JP 2009151785A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- channel
- picture
- function
- sound level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Abstract
【解決手段】本方法は、前記文書のビデオ部分に関して特徴マップを計算するステップ(E1)、前記文書を表す少なくとも1つのオーディオ記述子を決定するステップ(E2)、前記オーディオ記述子の変動の関数としてビデオ特徴マップを重み付けするステップ(E4)を含む。
【選択図】図1
Description
現在の方法の関連性を改善するため、本発明は、聴覚的な特性を視覚的な特性と関連付けすることを提案する。
top(t), back right(rl), back left(bl) 等)、CSLチャネルのサウンドレベルの全体の合計である全体のサウンドレベル(OSL)(特徴の期間、アクティビティの期間)、音響の環境(AE)、サウンドレベルの時間的な変化(SLTV)(静寂から強いアクティビティへの経過)、サウンドレベルの空間−時間の変化(SLSTV)(左から右への経過)。
ステレオサウンドが利用可能である場合、それぞれのピクチャのサイドについて1つである2つのチャネルが存在する。ビデオのサウンドを編集するとき、したがって、右手側が強調されることが要求される場合、たとえばピクチャの右手側にある人物が話す一方で、左手側にいる人物が話さない場合、左手側よりも右手側により多くの音を与えることが可能である。
− (y-yc)2である。したがって、(x,y)=(xc,yc)である場合、αはゼロに向かう傾向にあり、さもなければ、αは中央に関して距離と共に増加する。
coefficient)として示される、特徴の変調係数を一時的に適用することが提案される。図3は、全体のサウンドレベルの関数としてTAC係数の変化の例を示す。
C1,C2:ビュー
Claims (10)
- オーディオビデオ文書の特徴マップを決定する方法であって、
前記文書のビデオ部分に関して特徴マップを計算するステップと、
前記文書を表す少なくとも1つのオーディオ記述子を決定するステップと、
前記オーディオ記述子の変動の関数としてビデオ特徴マップを重み付けするステップと、
を含むことを特徴とする方法。 - 前記オーディオ記述子は、前記文書の全体のサウンドレベル、音響環境、それぞれのオーディオチャネルのサウンドレベル、前記サウンドレベルの時間的な変動、前記サウンドレベルの空間−時間の変動、及び上記の任意の組み合わせのうちから選択される、
ことを特徴とする請求項1記載の方法。 - それぞれのオーディオチャネルのサウンドレベル及び全体のサウンドレベルがオーディオ記述子として使用されるとき、それぞれのオーディオチャネルのゲインは、前記サウンドレベル及び全てのチャネルのサウンドレベルの関数として計算される、
ことを特徴とする請求項1又は2記載の方法。 - 視覚的に特徴的な画素と呼ばれる予め決定されたレベルよりも大きな視覚的な特徴を有するそれぞれの画素について重み付け窓が決定され、
前記視覚的に特徴的な画素の位置の空間的な位置がピクチャにおいて決定され、
それぞれのオーディオチャネルのゲイン及びピクチャ内の画素の空間的な位置の関数として、それぞれ視覚的に特徴的な画素について、それぞれのチャネルの重み付け関数が計算される、
ことを特徴とする請求項3記載の方法。 - ピクチャにおけるその空間的な位置及び前記オーディオチャネルのゲインの値の関数として、それぞれのチャネルについて及びピクチャのそれぞれの画素について、重み付け関数が計算される、
ことを特徴とする請求項3記載の方法。 - それぞれのチャネルの前記重み付け関数は線形関数であり、チャネルサイドに位置される画素は、前記チャネルから空間的に離れて位置される画素よりも大きな重みを有する、
ことを特徴とする請求項5記載の方法。 - 前記オーディオがステレオタイプであるとき、ピクチャの左に位置される画素は、左手のチャネルの重み付け関数について大きな重みを有し、ピクチャの右に位置される画素について小さな重みを有する、
ことを特徴とする請求項6記載の方法。 - 前記特徴マップは、複数の特徴マップを得るため、複数の重み関数によりビデオ部分に関して乗算され、
前記オーディオビデオの特徴マップは、前記特徴マップを平均することで得られる、
ことを特徴とする請求項4記載の方法。 - 前記特徴マップは、サウンドレベルの時間的な変動に依存する係数により重み付けされる、
ことを特徴とする請求項5記載の方法。 - オーディオビデオ文書の特徴マップを決定する装置であって、
前記文書のビデオ部分に関して特徴マップを計算する手段と、
前記文書を表す少なくとも1つのオーディオ記述子を決定する手段と、
前記オーディオ記述子の変動の関数として前記ビデオ特徴マップを重み付けする手段と、
を有する装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0760122 | 2007-12-20 | ||
FR0760122 | 2007-12-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009151785A true JP2009151785A (ja) | 2009-07-09 |
JP5496499B2 JP5496499B2 (ja) | 2014-05-21 |
Family
ID=39651293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008317626A Expired - Fee Related JP5496499B2 (ja) | 2007-12-20 | 2008-12-12 | オーディオビデオ文書の顕著性マップを計算する装置及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8374492B2 (ja) |
EP (1) | EP2075758B1 (ja) |
JP (1) | JP5496499B2 (ja) |
CN (1) | CN101470756B (ja) |
TW (1) | TWI455064B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014058275A1 (ko) * | 2012-10-11 | 2014-04-17 | 한국전자통신연구원 | 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 |
US9836269B2 (en) | 2012-10-11 | 2017-12-05 | Electronics And Telecommunications Research Institute | Device and method for generating audio data, and device and method for playing audio data |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8396282B1 (en) * | 2008-10-31 | 2013-03-12 | Hrl Labortories, Llc | Method and system for computing fused saliency maps from multi-modal sensory inputs |
US8396249B1 (en) * | 2008-12-23 | 2013-03-12 | Hrl Laboratories, Llc | Robot control based on saliency and invariant spatial representations using hierarchical spatial working memory |
EP3457354B1 (en) | 2011-04-08 | 2020-02-19 | Dolby Laboratories Licensing Corporation | Definition of global image transformations |
US9946795B2 (en) | 2014-01-27 | 2018-04-17 | Fujitsu Limited | User modeling with salience |
CN103957417B (zh) * | 2014-04-21 | 2018-01-12 | 深圳市视晶无线技术有限公司 | 一种高鲁棒性的视频编码方法及系统 |
CN104778238B (zh) * | 2015-04-03 | 2018-01-05 | 中国农业大学 | 一种视频显著性的分析方法及装置 |
KR20220117057A (ko) * | 2021-02-16 | 2022-08-23 | 삼성전자주식회사 | 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006505853A (ja) * | 2002-11-06 | 2006-02-16 | エージェンシー フォー サイエンス,テクノロジー アンド リサーチ | 画像又は映像の品質を評価する品質志向重要度マップの生成方法 |
JP2006279111A (ja) * | 2005-03-25 | 2006-10-12 | Fuji Xerox Co Ltd | 情報処理装置、情報処理方法およびプログラム |
JP2007194928A (ja) * | 2006-01-19 | 2007-08-02 | Matsushita Electric Ind Co Ltd | 遠隔監視装置及び遠隔監視方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6072878A (en) * | 1997-09-24 | 2000-06-06 | Sonic Solutions | Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics |
JP4861593B2 (ja) | 2000-04-19 | 2012-01-25 | エスエヌケー テック インベストメント エル.エル.シー. | 3次元空間高調波を保存するマルチチャンネルサラウンドサウンドマスタリングおよび再生方法 |
US7274741B2 (en) | 2002-11-01 | 2007-09-25 | Microsoft Corporation | Systems and methods for generating a comprehensive user attention model |
US7433327B2 (en) * | 2003-10-09 | 2008-10-07 | Hewlett-Packard Development Company, L.P. | Method and system for coordinating communication devices to create an enhanced representation of an ongoing event |
EP1544792A1 (en) | 2003-12-18 | 2005-06-22 | Thomson Licensing S.A. | Device and method for creating a saliency map of an image |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
TWI342718B (en) * | 2006-03-24 | 2011-05-21 | Coding Tech Ab | Decoder and method for deriving headphone down mix signal, receiver, binaural decoder, audio player, receiving method, audio playing method, and computer program |
EP1936566A1 (en) * | 2006-12-22 | 2008-06-25 | Thomson Licensing | Method for creating the saliency map of an image and system for creating reduced pictures of video frames |
-
2008
- 2008-12-05 TW TW097147218A patent/TWI455064B/zh not_active IP Right Cessation
- 2008-12-12 JP JP2008317626A patent/JP5496499B2/ja not_active Expired - Fee Related
- 2008-12-19 CN CN200810188512XA patent/CN101470756B/zh not_active Expired - Fee Related
- 2008-12-19 EP EP08172370.2A patent/EP2075758B1/en not_active Expired - Fee Related
-
2009
- 2009-02-04 US US12/316,002 patent/US8374492B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006505853A (ja) * | 2002-11-06 | 2006-02-16 | エージェンシー フォー サイエンス,テクノロジー アンド リサーチ | 画像又は映像の品質を評価する品質志向重要度マップの生成方法 |
JP2006279111A (ja) * | 2005-03-25 | 2006-10-12 | Fuji Xerox Co Ltd | 情報処理装置、情報処理方法およびプログラム |
JP2007194928A (ja) * | 2006-01-19 | 2007-08-02 | Matsushita Electric Ind Co Ltd | 遠隔監視装置及び遠隔監視方法 |
Non-Patent Citations (2)
Title |
---|
CSNJ200910017034; 傳田 遊亀 他: '音響信頼度に基づく動的特徴量統合を用いた全方位マルチモーダル話者方位推定の検討' FIT2007 第6回情報科学技術フォーラム 情報科学技術レターズ , 20070822, pp.127-130, 社団法人情報処理学会 * |
JPN6012048295; 傳田 遊亀 他: '音響信頼度に基づく動的特徴量統合を用いた全方位マルチモーダル話者方位推定の検討' FIT2007 第6回情報科学技術フォーラム 情報科学技術レターズ , 20070822, pp.127-130, 社団法人情報処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014058275A1 (ko) * | 2012-10-11 | 2014-04-17 | 한국전자통신연구원 | 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 |
US9836269B2 (en) | 2012-10-11 | 2017-12-05 | Electronics And Telecommunications Research Institute | Device and method for generating audio data, and device and method for playing audio data |
US10282160B2 (en) | 2012-10-11 | 2019-05-07 | Electronics And Telecommunications Research Institute | Apparatus and method for generating audio data, and apparatus and method for playing audio data |
Also Published As
Publication number | Publication date |
---|---|
TW200929074A (en) | 2009-07-01 |
TWI455064B (zh) | 2014-10-01 |
CN101470756B (zh) | 2012-12-26 |
EP2075758A1 (en) | 2009-07-01 |
US20090175595A1 (en) | 2009-07-09 |
US8374492B2 (en) | 2013-02-12 |
EP2075758B1 (en) | 2013-04-24 |
CN101470756A (zh) | 2009-07-01 |
JP5496499B2 (ja) | 2014-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5496499B2 (ja) | オーディオビデオ文書の顕著性マップを計算する装置及び方法 | |
US9805725B2 (en) | Object clustering for rendering object-based audio content based on perceptual criteria | |
US10057703B2 (en) | Apparatus and method for sound stage enhancement | |
US10109288B2 (en) | Dynamic range and peak control in audio using nonlinear filters | |
WO2016208406A1 (ja) | 音声処理装置および方法、並びにプログラム | |
US10362426B2 (en) | Upmixing of audio signals | |
US10748550B2 (en) | Methods, apparatus and computer programs for noise reduction for spatial audio signals | |
US20170064444A1 (en) | Signal processing apparatus and method | |
CN115862657B (zh) | 随噪增益方法和装置、车载系统、电子设备及存储介质 | |
Jot et al. | Dialog control and enhancement in object-based audio systems | |
JP2022526271A (ja) | ラウドネスレベルを制御するオーディオ信号処理方法及び装置 | |
US20170213565A1 (en) | Apparatus, Methods and Computer Programs for Encoding and Decoding Audio Signals | |
US20180376272A1 (en) | Apparatus and a method for processing soundfield data | |
Walton et al. | A subjective comparison of discrete surround sound and soundbar technology by using mixed methods | |
US9426405B2 (en) | System and method of determining the appropriate mixing volume for an event sound corresponding to an impact related events and determining the enhanced event audio | |
Watkins et al. | Perceptual compensation when isolated test words are heard in room reverberation | |
JP2021064917A (ja) | 映像信号変換装置及びプログラム | |
Storek et al. | Artifact reduction in positioning algorithm using differential HRTF | |
US11343635B2 (en) | Stereo audio | |
CN113366865B (zh) | 用于音频对象聚类的自适应响度规范化 | |
Lee et al. | A diagonal‐steering‐based binaural beamforming algorithm incorporating a diagonal speech localizer for persons with bilateral hearing impairment | |
WO2023028018A1 (en) | Detecting environmental noise in user-generated content | |
JP2024023163A (ja) | 音声信号処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111025 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120918 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130625 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130925 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140305 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5496499 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |