JP6856644B2 - ビデオ情報を用いたオーディオエンコーディング - Google Patents

ビデオ情報を用いたオーディオエンコーディング Download PDF

Info

Publication number
JP6856644B2
JP6856644B2 JP2018527786A JP2018527786A JP6856644B2 JP 6856644 B2 JP6856644 B2 JP 6856644B2 JP 2018527786 A JP2018527786 A JP 2018527786A JP 2018527786 A JP2018527786 A JP 2018527786A JP 6856644 B2 JP6856644 B2 JP 6856644B2
Authority
JP
Japan
Prior art keywords
audio
audio encoder
video data
data
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018527786A
Other languages
English (en)
Other versions
JP2019504340A5 (ja
JP2019504340A (ja
Inventor
ペン タン
ペン タン
ブラウン ランダル
ブラウン ランダル
エム. カーン ヤーサー
エム. カーン ヤーサー
イエ ジァンフェイ
イエ ジァンフェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATI Technologies ULC
Original Assignee
ATI Technologies ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATI Technologies ULC filed Critical ATI Technologies ULC
Publication of JP2019504340A publication Critical patent/JP2019504340A/ja
Publication of JP2019504340A5 publication Critical patent/JP2019504340A5/ja
Application granted granted Critical
Publication of JP6856644B2 publication Critical patent/JP6856644B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/802Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving processing of the sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • G11B2020/00014Time or data compression or expansion the compressed signal being an audio signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

(関連出願の相互参照)
本願は、2015年12月1日に出願された米国特許出願第14/955,549号の優先権を主張するものであり、この全ての内容は参照することにより本明細書に援用される。
本発明は、概して、オーディオ(音声)ビジュアル信号処理に関し、特に、オーディオ信号を符号化する方法及び装置に関する。
音声と共に動画を記録する処理には、映像と音声の両方を取得する処理が含まれ、コンテンツの種類毎に、連続した情報のフローをサンプリングする処理が含まれる。例えば、ビデオ画像は、毎秒24フレームの速度でサンプリングされることが多い。オーディオは、通常、アナログ信号として記録され、次に、アナログ電圧信号をデジタルデータに変換するために、いくらかのビットレート又はサンプリングレートでサンプリングされる。アナログからデジタルへの変換の品質は、例えばデジタルで表現される可能性のある電圧レベルの数等のように、多くの要因によって変わる。全てのオーディオサンプルを単に録音したり別の方法で記憶することは可能であるが、サンプリングされたオーディオ信号を例えばディスク又はハードドライブ等の何らか形態の媒体に記憶する前に、何らかの種類のオーディオエンコーディングを実行する方が効率的である。
現行の多くのオーディオエンコーダは、サンプリングされたオーディオ信号を圧縮して再生又は記憶装置に送信する前に、サンプリングされたオーディオ信号を様々な技術を用いて圧縮する。これらの圧縮技法の例には、予測、量子化(ベクトル及びスカラーの両方)、並びに、ハフマン符号化が含まれる。多くのオーディオビジュアル記録は、記録中のビデオ及びオーディオコンテンツに大きなばらつきがある。或るシーンでは、大音量のオーディオコンテンツを含み殆ど対話がない賑やかなアクションシーケンスが含まれ、次のシーンでは、バックグラウンドに音楽が殆ど又は全くないキャラクタ間の親密な会話等が含まれる場合がある。
現行のオーディオエンコーダは、例えばシーンの変化、対話中心のシーンの存在等の重要となり得るビデオ情報を考慮することなく、オーディオ信号を符号化する。その結果、現行のオーディオエンコーダは、通常、ビデオ信号アシスト(video signal assistance)又はサイド情報を用いることなく、モード(つまり、予測のオン/オフ)、ビットレート割り当て及び量子化パラメータを決定する。したがって、オーディオエンコーダのユーザは、オーディオエンコーダを改善するために、適用可能な場合にビデオ情報を利用する手段を有していない。
ヤマハ株式会社は、YAS−103及びYAS−93というモデルのフロントサラウンドシステム(サウンドバー)を販売している。これらのモデルでは、「クリアボイス」と呼ばれる機能を使用している。この機能は、ユーザがビデオコンテンツを視聴しているときに音声の品質を向上させることを目的としている。クリアボイスが有効になっている場合、サウンドバーは、アナログオーディオ信号がサウンドバーのスピーカに送信される前に、アナログオーディオ信号を調整する。この処理は、デジタル/アナログ変換されたアナログ信号に対して行われるため、オーディオエンコーディングとは異なる。
本発明は、上述した1つ以上の欠点の影響を克服又は低減することを目的としている。
本発明の一態様によれば、オーディオエンコーダと、オーディオエンコーダモードセレクタと、を含む装置が提供される。オーディオエンコーダモードセレクタは、ビデオデータを分析し、分析したビデオデータに基づいて、オーディオエンコーダのエンコードモードを調整するように動作可能である。
本発明の別の態様によれば、オーディオエンコーダを用いてオーディオデータをエンコードするステップと、ビデオデータの分析に基づいて、オーディオエンコーダのオーディオエンコーディングモードを調整するステップと、を含む、オーディオデータをエンコードする方法が提供される。
本発明の別の態様によれば、ビデオデータ及びオーディオデータを生成するために、記録デバイスを用いてビデオ及びオーディオを記録するステップを含む、オーディオデータをエンコードする方法が提供される。オーディオデータは、オーディオエンコーダを用いてエンコードされ、オーディオエンコーダのオーディオエンコーディングモードは、ビデオデータの分析に基づいて調整される。
本発明の別の態様によれば、方法を実行するためのコンピュータ可読命令を有する非一時的なコンピュータ可読記憶媒体が提供される。この方法は、オーディオエンコーダを用いてオーディオデータをエンコードするステップと、ビデオデータの分析に基づいて、オーディオエンコーダのオーディオエンコーディングモードを調整するステップと、を含む。
本発明の上述した利点及び他の利点は、以下の詳細な説明を読むこと及び図面を参照することによって明らかになるであろう。
制御可能なオーディオエンコーディングステージを含む例示的なオーディオビジュアルシステムの概略図である。 オーディオエンコーディングモード選択ステージを含む例示的なオーディオエンコーダの概略図である。 例示的な制御可能なオーディオエンコーダの例示的な半導体チップ実装である。 例示的な記録デバイスベースの選択モードオーディオエンコーダである。 例示的なオーディオエンコーディング方法のフローチャートである。
対応するビデオデータから推測された情報を使用してオーディオエンコーディングの効率及び/又は品質を改善するためのメカニズムを開示する。ビデオ情報は、ビデオアナライザ/エンコーダからオーディオエンコーダに中継される。オーディオエンコーダは、ビデオ情報を他の決定パラメータと比較し、それに応じてオーディオエンコーディング動作を調整する。オーディオエンコーディングを調整するために使用され得るビデオ情報の例には、シーンの変化及びビデオ内の人間の対話の量の増減が含まれる。さらなる詳細について説明する。
以下に説明する図面では、概して、同一の要素が2つ以上の図面に現れる場合には、同じ符号が繰り返される。ここで、図面、特に図1を参照すると、図1には、例示的なオーディオビジュアル(AV)システム10の概略図が示されており、このシステム10は、複数のシーン(例えば、シーン1、シーン2等)からビデオ及びオーディオを記録し、その後、本明細書に開示される新規のエンコーディングスキームを使用して、記録されたビデオ及びオーディオを処理することができる。シーン1、シーン2等を記録するために、マイク20を含むカメラ15等の記録デバイスを使用することができる。カメラのビデオ出力25は、ビデオフレーム35の形式のビデオデータが出力される周知のサンプリング動作を実行するように動作可能なビデオサンプリングステージ30に送られてもよい。このビデオサンプリングステージ30は、出力25がアナログ出力の場合に標準的なアナログ/デジタル変換を実行してもよいし、デジタルをサンプリングするように機能してもよい。ビデオフレーム35は、ビデオエンコーダ40に送られる。ビデオエンコーダ40は、ハードウェア、ソフトウェア、又は、これらの2つの組み合わせとして実装されてもよい。例えば、ビデオエンコーダ40は、非一時的なコンピュータ可読記憶媒体上の命令及びデータの形態であってもよい。ビデオエンコーダ40は、エンコードされたビデオ45をストレージデバイス50又は他の場所に送るように動作可能である。また、ビデオエンコーダ40は、以下により詳細に説明するように、マイク20からのオーディオ信号の処理を制御するために使用されるオーディオエンコーダモード選択ステージ60に対してビデオ情報55を送る機能を有する。
マイクは、標準的なアナログ/デジタルサンプラーとして機能し得るオーディオサンプリングステージ70に対して出力65を送る。オーディオサンプリングステージ70の出力は、オーディオエンコーダ80に送信されるオーディオフレーム75形式のオーディオデータから構成されている。オーディオエンコーダ80は、エンコードされたオーディオ85をストレージデバイス50又は所望の他の場所に送るように動作可能である。以下に他の図面と共に説明するように、オーディオエンコーダ80は、オーディオエンコーダモード選択ステージ60から制御信号87を受信するように動作可能であり、オーディオエンコーダモード選択ステージ60は、上述したように、ビデオエンコーダ40から送信されたビデオ情報55に応じて、オーディオフレーム75のエンコードを制御し、最終的に、エンコードされたオーディオ85の内容を制御する。このようにして、オーディオエンコーダ80は、ビデオ情報55に基づいて、オーディオフレーム75のエンコーディングを調整することができる。例えば、シーン1は、図示されたクーガー(ピューマ)90等の自然のシーンを含む場合があり、したがって、対話を殆ど又は全く含まない場合がある。一方、シーン2は、息子95とその母100との間の会話等のように、より対話中心のカメラ15に対するマルチメディア入力を含む場合がある。ビデオエンコーダ40は、これらのシーンの変化及び/又は例えば対話の増減を感知し、これらの変化の検出を表すビデオ情報55をオーディオエンコーダモードセレクタ60に送るように動作可能であり、オーディオエンコーダモードセレクタ60は、それに応じて、制御信号87によってオーディオエンコーダ80の設定を修正することができる。
デバイス及びステージの統合のレベルには、様々な可能性がある。例えば、ビデオエンコーダ、オーディオエンコーダモードセレクタ60及びオーディオエンコーダ80の全ては、カメラ15に内蔵されてもよい。ビデオサンプリングステージ30及びオーディオサンプリングステージ70にいても同様である。他の実施形態では、ビデオエンコーダ40、オーディオエンコーダモードセレクタ60及びオーディオエンコーダ80は、別個のデバイス/ソフトウェアに実装されてもよい。別の実施形態では、ビデオエンコーダ40、オーディオエンコーダモードセレクタ60及びオーディオエンコーダ80は、別個のデバイス/ソフトウェアとして実装されてもよい。例えば、オーディオエンコーダ80及び/又はオーディオエンコーダモードセレクタ60は、非一時的なコンピュータ可読記憶媒体上の命令及びデータの形態であってもよい。これらは、機能的な統合のいくつかの例に過ぎない。
オーディオエンコーダ80は、多種多様な実装をとり得ることを理解されたい。図2は、周知のDTS(登録商標)エンコーダスキームを追跡する1つのタイプのオーディオエンコーダの概略図である。この例示的な実施形態では、オーディオエンコーダ80は、直交ミラーフィルタバンク(QMFバンク)105を含むことができる。QMFバンク105は、複数の帯域を含んでもよく、このうち2つの帯域の各々は、サブバンド0及びサブバンドnとして示されている。サブバンドの数nは変更することができる。例示的な実施形態では、QMFバンク105は、32の異なるサブバンドを利用してもよく、この場合、n=31である。オーディオフレーム75は、48kHz、24ビットサンプリング、又は、他の所望の周波数及びビット長を使用して、QMFバンク105に送られてもよい。グローバルビットレートモジュール112は、サブバンド0…サブバンドnの複数のサブバンドに対して信号処理ビットレートを選択的に設定するように動作可能である。サブバンド0は、QMFバンク105からの出力110を受信する。サブバンド0は、信号パッカー120に送られるエンコードされたオーディオ出力115の圧縮を容易にするための様々なステージのうち1つ以上のステージを含む圧縮パイプライン114を含むことができる。例えば、サブバンド0は、QMFバンク105の出力110を受信し、線形スケール量子化ステージ130への入力として出力125を送る適応予測モジュール120を含むことができる。デジタル信号処理の量子化は、入力値の大きなセットを(数えられる)より小さいセットにマッピングすること(例えば、値をある精度の単位に丸めること等)を含む。例えば、中間トレッド量子化を使用する線形スケール量子化ステージ130の出力は、以下のように表すことができる。
Figure 0006856644

ここで、sgn(x)は符号(sign)関数(符号(signum)関数としても知られる)であり、Δは量子化ステップサイズである。ステップサイズΔは、例えば、線形量子化ステージ130に割り当てられるビット数を減少又は増加させることによって、制御信号160に応じて変更することができる。また、出力110は、ベクトル量子化ステージ135に送られる。ベクトル量子化は、プロトタイプベクトルの分布によって確率密度関数のモデル化を可能にする信号処理からの量子化技術である。これは、例えばサンプリングされたオーディオ信号等のポイント(ベクトル)の大きなセットを、これらに最も近いほぼ同数のポイントを有するグループに分けることによって行われる。各グループは、k平均法及び他のクラスタリングアルゴリズムと同様に、その重心点(centroid point)によって表される。ベクトル量子化ステージ135の出力140は、出力115に関連付けられる。最後に、ハフマン符号ステージ145を用いて、線形スケール量子化ステージ130の出力を選択的にエンコードし、さらに、オーディオデータを所望の出力115に圧縮することができる。
適応予測ステージ120は、線形スケール量子化ステージ130及びベクトル量子化ステージ135と連携して動作する。適応予測ステージ120は、予測残差の分散をサブバンドサンプル、すなわち入力110におけるサンプルの分散と比較することによって、予測利得を連続的に計算する。予測利得が十分に大きい場合、予測残差は、線形スケール量子化ステージ130で中間トレッドスカラー量子化を使用して量子化され、予測係数は、ベクトル量子化ステージ135によってベクトル量子化される。しかし、計算された予測利得が所望の閾値を上回らない場合、入力110からのサブバンドサンプルは、中間トレッドスカラー量子化を使用して線形スケール量子化ステージ130によって量子化される。この例示的な実施形態では、ビデオ情報55は、オーディオエンコーダモードセレクタ60に送信される。オーディオエンコーダモードセレクタ60は、予測利得及びビデオ情報55を比較し、その比較に基づいて、入力110からのサブバンド0サンプルをベクトル量子化ステージ135で量子化する代わりに中間トレッドスカラー量子化を使用して量子化するように線形スケール量子化ステージ130に命令するための制御信号160を提供する。
例えばサブバンドn等の他のサブバンドは、同様にQMFバンク105の出力150を受信し、適応予測ステージ120、線形スケール量子化ステージ130、ベクトル量子化ステージ135及びハフマン符号ステージ145、又は、出力155をパッカー120に送るように動作可能なこれらのいくつかのサブセットを含み得る圧縮パイプライン152を有することができる。パッカー120は、エンコードされたオーディオ85を、本明細書で説明するように、いくつかの場所に送るように動作可能である。サブバンドnは、適応予測ステージのオン/オフ、グローバルビットレート、量子化ステージパラメータ等のエンコーディングモードを指示するオーディオエンコーダモードセレクタ60から制御信号165を受信する。
オーディオエンコーダモードセレクタ60は、制御信号160,165をサブバンド0…サブバンドnに送るように動作可能である。これらの制御信号(図1では、まとめて87として示す)は、線形スケール量子化ステージ130によって使用される様々なパラメータを制御し、ビデオエンコーダ40から送られる、ビデオフレーム35の内容や上述したようなシーン1、シーン2等の様々なシーンの特性に基づくビデオ情報55に従って、様々なサブバンド0…サブバンドnをエンコードすることができる。ここで、2つの実施例を説明する。
(実施例1―ビデオシーンの変更通知の使用)
例えばシーン1からシーン2へのビデオシーンの変化の間、オーディオフレーム75は同時に変化する可能性があり、その結果、以前のオーディオフレーム75を参照として使用することは非効率的である。上記の背景技術の欄で述べたように、既存のオーディオエンコーダのモード選択は、ビデオシーンの変化の影響を受けない。しかしながら、開示された実施形態では、ビデオエンコーダ40は、任意のシーンの変化をオーディオエンコーダモードセレクタ60に通知するために、ビデオ情報55を供給する。オーディオエンコーダモードセレクタ60は、他のパラメータと比較した後に、制御信号160,165を介して、フレーム間(インターフレーム)予測技術(例えば、差分パルス符号変調又は線スペクトル対予測)を実行するために例えば適応予測ステージ120を使用しない等のより効率的なモードでオーディオフレーム75をエンコードするように、オーディオエンコーダ80に命令することができる。オーディオエンコーダモードセレクタ60によって変更され得る他のパラメータは、オーディオエンコーダのグローバルビットレート、及び/又は、線形スケール量子化ステージ130及びベクトル量子化ステージ135によって使用される量子化パラメータを含み、エンコーディングのより優れた効率及び/又は品質を実現する。
(実施例2―対話シーンの通知の使用)
上記の背景技術の欄で述べたように、既存のオーディオエンコーダは、オーディオエンコーディングモードを調整するために、例えば人間の対話の存在等のビデオシーンの内容を使用しない。しかしながら、開示された実施形態では、ビデオエンコーダ40は、シーン2等の対話シーンが検出されたときに、オーディオエンコーダモードセレクタ60に通知するためにビデオ情報55を供給する。オーディオエンコーダモードセレクタ60は、イベントを他の決定バラメータと比較した後に、制御信号160,165を介して、より高いビットレート及び/又はフィルタ設定(例えば、QMFバンク105の設定)の変更を使用してエンコードし、オーディオ信号の周波数を増減させるのではなくオーディオ信号の範囲を広げるように、オーディオエンコーダ80に命令することができる。これにより、品質及び/又は効率がより優れたオーディオ信号の再構成が可能となる。
上述したように、開示された実施形態によれば、様々なレベルのデバイス及びコードの統合が想定される。例えば、図3は、半導体チップの形態であるか、そうでなければ、上部又は内部において、ビデオエンコーダ40がビデオ情報55を送るように動作可能であり、オーディオエンコーダモードセレクタ60及びオーディオエンコーダ80が実装され得る集積回路200の概略図である。これは、ディスクリートICとして、又は、より大型のデジタル信号処理デバイス(例えば、コーダ/デコーダ(CODEC)若しくは他のタイプの集積回路等)の一部として実装され得る。
図4は、オーディオエンコーダシステムを制御するビデオ情報用の別のタイプのデバイス及びコード統合を表す概略図である。ここで、カメラ15等の記録デバイスは、ビデオ情報55をオーディオエンコーダモードセレクタ60に送り、最終的にオーディオエンコーダ80に送るように動作可能なビデオエンコーダ40を内蔵する回路基板又は他の基板を含むことができる。
図5は、開示された実施形態による、例示的な信号処理方法を示す例示的なフローチャートである。300で開始した後、ステップ310において、フレーム又は他の形態のビデオコンテンツがビデオエンコーダに入力される。これは、図1に示すように、ビデオフレーム35をビデオエンコーダ40に送ることを含むことができる。このステップは、ビデオフレームの実際の記録と同時に行われてもよいし、記録プロセス後のある時点で行われてもよく、個別のデバイスを介して行われてもよい。ステップ320において、ビデオフレームは、特定のオーディオエンコーディングモードを示唆する特性について分析される。ステップ320は、シーンの変化、対話の増加、又は、オーディオエンコーディングスキーム対する変化の可能性を示唆するシーンの他の指標を探すことを含むことができる。ステップ330において、ビデオエンコーダ40がオーディオエンコーディングの変化を示唆する状態を検出すると、ステップ340において、図1に示すように、ビデオ情報がオーディオエンコーダモードセレクタ60に送信される。しかしながら、ステップ330において、ビデオエンコーダ40がオーディオエンコーディングの変化を示唆する特性を検出しない場合には、ステップ320に戻り、ビデオフレームの分析を続行する。ステップ340においてビデオ情報がオーディオエンコーダに送信される場合には、ステップ350において、送信されたビデオ情報に基づいてオーディオエンコーダモードが選択される。これは、再び、適応予測若しくは非適応予測を選択すること、又は、オーディオエンコーダにおけるデータ圧縮に関連する他のパラメータを選択することを伴い得る。次に、ステップ360においてオーディオがエンコードされ、最後にステップ370において、エンコードされたオーディオが例えば図2に示すパッカー120に出力される。
本発明は、様々な変更及び代替形態を受け入れることができるが、特定の実施形態が図面の例として示され、本明細書において詳細に説明されている。しかしながら、本発明は、開示された特定の形態に限定されることを意図するものではないと理解されたい。むしろ、本発明は、以下の添付の特許請求の範囲によって定義される本発明の趣旨及び範囲に含まれる全ての変更、均等物及び代替物を含むものである。

Claims (24)

  1. オーディオデータをエンコードするように構成されたオーディオエンコーダ(80)と、
    前記オーディオデータに関連するビデオデータを繰り返し分析して、特定のオーディオエンコードモードを示唆する特性を探し、分析されたビデオデータに基づいて、前記オーディオエンコーダのエンコーディングモードを前記特定のオーディオエンコードモードに調整するように動作可能なオーディオエンコーダモードセレクタ(60)と、を備え、
    前記オーディオエンコーダモードセレクタは、シーン変化に関して前記ビデオデータを分析するように動作可能である、
    装置。
  2. 前記オーディオエンコーダ及び/又は前記オーディオエンコーダモードセレクタは、コンピュータ可読命令を有するコンピュータ可読記憶媒体を備える、請求項1の装置。
  3. 前記オーディオエンコーダ及び/又は前記オーディオエンコーダモードセレクタを含む半導体チップ(200)を備える、請求項1の装置。
  4. 前記オーディオエンコーダ及び/又は前記オーディオエンコーダモードセレクタを含む記録デバイス(15)を備える、請求項1の装置。
  5. 前記オーディオエンコーダモードセレクタは、人間の対話における変化に関して前記ビデオデータを分析するように動作可能である、請求項1の装置。
  6. 前記オーディオエンコーダは、前記オーディオエンコーダモードセレクタの前記エンコーディングモードの調整に対応するデータ圧縮パイプラインを備える、請求項1の装置。
  7. 前記データ圧縮パイプラインは、量子化ステージ、予測ステージ又はハフマン符号化ステージを含む、請求項6の装置。
  8. ビデオ及びオーディオを記録するための記録デバイスを備え、前記オーディオエンコーダ及び前記オーディオエンコーダモードセレクタは、前記記録デバイスの一部である、請求項1の装置。
  9. オーディオデータをエンコードする方法であって、
    オーディオエンコーダ(80)を用いて前記オーディオデータをエンコードするステップと、
    前記オーディオデータに関連するビデオデータを繰り返し分析して、特定のオーディオエンコードモードを示唆する特性を探すステップと、
    前記オーディオデータに関連するビデオデータの分析に基づいて、前記オーディオエンコーダのオーディオエンコーディングモードを前記特定のオーディオエンコードモードに調整するステップであって、前記ビデオデータの分析は、シーン変化を認識するステップを含む、ステップと、を含む、
    方法。
  10. ビデオデータを分析し、分析されたビデオデータに基づいて、前記オーディオエンコーダのエンコーディングモードを前記特定のオーディオエンコードモードに調整するように動作可能なオーディオエンコーダモードセレクタ(60)を用いて、前記ビデオデータを繰り返し分析するステップを含む、請求項9の方法。
  11. 前記オーディオエンコーダ及び/又は前記オーディオエンコーダモードセレクタは、コンピュータ可読命令を有するコンピュータ可読記憶媒体を備える、請求項9の方法。
  12. 前記オーディオエンコーダ及び/又は前記オーディオエンコーダモードセレクタは、半導体チップ(200)の一部を備える、請求項9の方法。
  13. 前記ビデオデータを分析するステップは、人間の対話における変化を認識するステップを含む、請求項9の方法。
  14. 前記オーディオエンコーダは、前記オーディオエンコーダモードセレクタの前記エンコーディングモードの調整に対応するデータ圧縮パイプラインを備える、請求項9の方法。
  15. 前記データ圧縮パイプラインは、量子化ステージ、予測ステージ又はハフマン符号化ステージを含む、請求項14の方法。
  16. オーディオデータをエンコードする方法であって、
    記録デバイス(15)を用いて、ビデオ及びオーディオを記録し、ビデオデータ及びオーディオデータを生成するステップと、
    オーディオエンコーダ(80)を用いて、前記オーディオデータをエンコードするステップと、
    前記オーディオデータに関連するビデオデータを繰り返し分析して、特定のオーディオエンコードモードを示唆する特性を探すステップと、
    前記ビデオデータの分析に基づいて、前記オーディオエンコーダのオーディオエンコーディングモードを前記特定のオーディオエンコードモードに調整するステップであって、前記ビデオデータの分析は、人間の対話における変化を認識するステップを含む、ステップと、を含む、
    方法。
  17. ビデオデータを分析し、分析されたビデオデータに基づいて、前記オーディオエンコーダのエンコーディングモードを前記特定のオーディオエンコードモードに調整するように動作可能なオーディオエンコーダモードセレクタ(60)を用いて、前記ビデオデータを繰り返し分析するステップを含む、請求項16の方法。
  18. 前記オーディオエンコーダ及び/又は前記オーディオエンコーダモードセレクタは、コンピュータ可読命令を有するコンピュータ可読記憶媒体を備える、請求項16の方法。
  19. 前記オーディオエンコーダ及び/又は前記オーディオエンコーダモードセレクタは、半導体チップ(200)の一部を備える、請求項16の方法。
  20. 前記オーディオエンコーダ及び/又は前記オーディオエンコーダモードセレクタは、前記記録デバイス(15)の一部を備える、請求項16の方法。
  21. 前記ビデオデータを分析するステップは、シーン変化を認識するステップを含む、請求項16の方法。
  22. 方法を実行するためのコンピュータ可読命令を含むコンピュータ可読記憶媒体であって、
    前記方法は、
    オーディオエンコーダ(80)を用いてオーディオデータをエンコードするステップと、
    前記オーディオデータに関連するビデオデータを繰り返し分析して、特定のオーディオエンコードモードを示唆する特性を探すステップと、
    ビデオデータの分析に基づいて、前記オーディオエンコーダのオーディオエンコーディングモードを前記特定のオーディオエンコードモードに調整するステップであって、前記ビデオデータの分析は、人間の対話における変化を認識するステップを含む、ステップと、を含む、
    コンピュータ可読記憶媒体。
  23. 記録デバイス(15)を用いて、ビデオ及びオーディオを記録し、前記ビデオデータ及び前記オーディオデータを生成するステップを含む、請求項9の方法。
  24. 前記オーディオエンコーダ及び/又は前記オーディオエンコーダモードセレクタは、記録デバイス(15)の一部を備える、請求項23の方法。
JP2018527786A 2015-12-01 2016-10-21 ビデオ情報を用いたオーディオエンコーディング Active JP6856644B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/955,549 2015-12-01
US14/955,549 US10762911B2 (en) 2015-12-01 2015-12-01 Audio encoding using video information
PCT/CA2016/051220 WO2017091887A1 (en) 2015-12-01 2016-10-21 Audio encoding using video information

Publications (3)

Publication Number Publication Date
JP2019504340A JP2019504340A (ja) 2019-02-14
JP2019504340A5 JP2019504340A5 (ja) 2019-11-28
JP6856644B2 true JP6856644B2 (ja) 2021-04-07

Family

ID=58777722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018527786A Active JP6856644B2 (ja) 2015-12-01 2016-10-21 ビデオ情報を用いたオーディオエンコーディング

Country Status (6)

Country Link
US (1) US10762911B2 (ja)
EP (1) EP3384491B1 (ja)
JP (1) JP6856644B2 (ja)
KR (1) KR102419514B1 (ja)
CN (1) CN108292506B (ja)
WO (1) WO2017091887A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165358A1 (en) * 2014-06-30 2018-06-14 Sony Corporation Information processing apparatus and information processing method

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07202820A (ja) 1993-12-28 1995-08-04 Matsushita Electric Ind Co Ltd ビットレート制御システム
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
KR20040103158A (ko) * 2003-05-31 2004-12-08 주식회사 대우일렉트로닉스 돌비 프로로직 오디오 신호 출력 장치
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
JP2008154132A (ja) * 2006-12-20 2008-07-03 Matsushita Electric Ind Co Ltd 音声映像ストリーム圧縮装置及び音声映像記録装置
US8311120B2 (en) 2006-12-22 2012-11-13 Qualcomm Incorporated Coding mode selection using information of other coding modes
TWI344308B (en) * 2007-08-09 2011-06-21 Inventec Appliances Corp Dynamic multimedia coding method for of cell phone
JP5230164B2 (ja) * 2007-10-18 2013-07-10 三洋電機株式会社 音声記録装置
US8780978B2 (en) 2009-11-04 2014-07-15 Qualcomm Incorporated Controlling video encoding using audio information
FR2999373B1 (fr) * 2012-12-12 2018-04-06 Harmonic Inc. Procede d'adaptation dynamique du codage d'un flux audio et/ou video transmis a un dispositif
US9338420B2 (en) * 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
US9800905B2 (en) * 2015-09-14 2017-10-24 Comcast Cable Communications, Llc Device based audio-format selection

Also Published As

Publication number Publication date
EP3384491A4 (en) 2019-04-10
EP3384491B1 (en) 2023-06-21
CN108292506B (zh) 2023-10-31
US20170154634A1 (en) 2017-06-01
WO2017091887A1 (en) 2017-06-08
KR20180088807A (ko) 2018-08-07
CN108292506A (zh) 2018-07-17
US10762911B2 (en) 2020-09-01
EP3384491A1 (en) 2018-10-10
KR102419514B1 (ko) 2022-07-11
JP2019504340A (ja) 2019-02-14

Similar Documents

Publication Publication Date Title
US7774205B2 (en) Coding of sparse digital media spectral data
JP7260509B2 (ja) スペクトルエンベロープのサンプル値のコンテキストベースエントロピー符号化
KR101162275B1 (ko) 오디오 신호 처리 방법 및 장치
JP6438056B2 (ja) 無損失符号化装置
US7761290B2 (en) Flexible frequency and time partitioning in perceptual transform coding of audio
EP2282310B1 (en) Entropy coding by adapting coding between level and run-length/level modes
KR100814673B1 (ko) 오디오 부호화
EP1960999B1 (en) Method and apparatus encoding an audio signal
KR100840439B1 (ko) 음성부호화장치 및 음성복호장치
USRE46082E1 (en) Method and apparatus for low bit rate encoding and decoding
US20060004566A1 (en) Low-bitrate encoding/decoding method and system
US8457958B2 (en) Audio transcoder using encoder-generated side information to transcode to target bit-rate
KR100813193B1 (ko) 정보 신호의 양자화 방법 및 장치
JP6856644B2 (ja) ビデオ情報を用いたオーディオエンコーディング
KR101381602B1 (ko) 계층적 부호화 및 복호화 방법 및 장치
CN110709925B (zh) 用于音频编码或解码的方法及装置
JP2008046405A (ja) 適応差分パルス符号変調方式の符号化方法及び復号化方法
WO2008072524A1 (ja) オーディオ信号符号化方法及び復号化方法
Auristin et al. New Ieee Standard For Advanced Audio Coding In Lossless Audio Compression: A Literature Review
JP6552986B2 (ja) 音声符号化装置、方法及びプログラム
JP2005196029A (ja) 符号化装置及び方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191018

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200915

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210318

R150 Certificate of patent or registration of utility model

Ref document number: 6856644

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250