JP2019504340A

JP2019504340A - ビデオ情報を用いたオーディオエンコーディング

Info

Publication number: JP2019504340A
Application number: JP2018527786A
Authority: JP
Inventors: ペンタン; ブラウンランダル; エム．カーンヤーサー; イエジァンフェイ
Original assignee: ATI Technologies ULC
Current assignee: ATI Technologies ULC
Priority date: 2015-12-01
Filing date: 2016-10-21
Publication date: 2019-02-14
Anticipated expiration: 2036-10-21
Also published as: WO2017091887A1; KR20180088807A; US20170154634A1; EP3384491A4; US10762911B2; EP3384491B1; JP6856644B2; KR102419514B1; EP3384491A1; CN108292506A; CN108292506B

Abstract

様々なオーディオエンコーダ及びその使用方法が開示される。一態様では、オーディオエンコーダ（８０）と、オーディオエンコーダモードセレクタ（６０）と、を備える装置が提供される。オーディオエンコーダモードセレクタは、ビデオデータを分析し、分析されたビデオデータに基づいて、オーディオエンコーダのエンコーディングモードを調整するように動作可能である。
【選択図】図１

Description

（関連出願の相互参照）
本願は、２０１５年１２月１日に出願された米国特許出願第１４／９５５，５４９号の優先権を主張するものであり、この全ての内容は参照することにより本明細書に援用される。

本発明は、概して、オーディオ（音声）ビジュアル信号処理に関し、特に、オーディオ信号を符号化する方法及び装置に関する。

音声と共に動画を記録する処理には、映像と音声の両方を取得する処理が含まれ、コンテンツの種類毎に、連続した情報のフローをサンプリングする処理が含まれる。例えば、ビデオ画像は、毎秒２４フレームの速度でサンプリングされることが多い。オーディオは、通常、アナログ信号として記録され、次に、アナログ電圧信号をデジタルデータに変換するために、いくらかのビットレート又はサンプリングレートでサンプリングされる。アナログからデジタルへの変換の品質は、例えばデジタルで表現される可能性のある電圧レベルの数等のように、多くの要因によって変わる。全てのオーディオサンプルを単に録音したり別の方法で記憶することは可能であるが、サンプリングされたオーディオ信号を例えばディスク又はハードドライブ等の何らか形態の媒体に記憶する前に、何らかの種類のオーディオエンコーディングを実行する方が効率的である。

現行の多くのオーディオエンコーダは、サンプリングされたオーディオ信号を圧縮して再生又は記憶装置に送信する前に、サンプリングされたオーディオ信号を様々な技術を用いて圧縮する。これらの圧縮技法の例には、予測、量子化（ベクトル及びスカラーの両方）、並びに、ハフマン符号化が含まれる。多くのオーディオビジュアル記録は、記録中のビデオ及びオーディオコンテンツに大きなばらつきがある。或るシーンでは、大音量のオーディオコンテンツを含み殆ど対話がない賑やかなアクションシーケンスが含まれ、次のシーンでは、バックグラウンドに音楽が殆ど又は全くないキャラクタ間の親密な会話等が含まれる場合がある。

現行のオーディオエンコーダは、例えばシーンの変化、対話中心のシーンの存在等の重要となり得るビデオ情報を考慮することなく、オーディオ信号を符号化する。その結果、現行のオーディオエンコーダは、通常、ビデオ信号アシスト（video signal assistance）又はサイド情報を用いることなく、モード（つまり、予測のオン／オフ）、ビットレート割り当て及び量子化パラメータを決定する。したがって、オーディオエンコーダのユーザは、オーディオエンコーダを改善するために、適用可能な場合にビデオ情報を利用する手段を有していない。

ヤマハ株式会社は、ＹＡＳ−１０３及びＹＡＳ−９３というモデルのフロントサラウンドシステム（サウンドバー）を販売している。これらのモデルでは、「クリアボイス」と呼ばれる機能を使用している。この機能は、ユーザがビデオコンテンツを視聴しているときに音声の品質を向上させることを目的としている。クリアボイスが有効になっている場合、サウンドバーは、アナログオーディオ信号がサウンドバーのスピーカに送信される前に、アナログオーディオ信号を調整する。この処理は、デジタル／アナログ変換されたアナログ信号に対して行われるため、オーディオエンコーディングとは異なる。

本発明は、上述した１つ以上の欠点の影響を克服又は低減することを目的としている。

本発明の一態様によれば、オーディオエンコーダと、オーディオエンコーダモードセレクタと、を含む装置が提供される。オーディオエンコーダモードセレクタは、ビデオデータを分析し、分析したビデオデータに基づいて、オーディオエンコーダのエンコードモードを調整するように動作可能である。

本発明の別の態様によれば、オーディオエンコーダを用いてオーディオデータをエンコードするステップと、ビデオデータの分析に基づいて、オーディオエンコーダのオーディオエンコーディングモードを調整するステップと、を含む、オーディオデータをエンコードする方法が提供される。

本発明の別の態様によれば、ビデオデータ及びオーディオデータを生成するために、記録デバイスを用いてビデオ及びオーディオを記録するステップを含む、オーディオデータをエンコードする方法が提供される。オーディオデータは、オーディオエンコーダを用いてエンコードされ、オーディオエンコーダのオーディオエンコーディングモードは、ビデオデータの分析に基づいて調整される。

本発明の別の態様によれば、方法を実行するためのコンピュータ可読命令を有する非一時的なコンピュータ可読記憶媒体が提供される。この方法は、オーディオエンコーダを用いてオーディオデータをエンコードするステップと、ビデオデータの分析に基づいて、オーディオエンコーダのオーディオエンコーディングモードを調整するステップと、を含む。

本発明の上述した利点及び他の利点は、以下の詳細な説明を読むこと及び図面を参照することによって明らかになるであろう。

制御可能なオーディオエンコーディングステージを含む例示的なオーディオビジュアルシステムの概略図である。オーディオエンコーディングモード選択ステージを含む例示的なオーディオエンコーダの概略図である。例示的な制御可能なオーディオエンコーダの例示的な半導体チップ実装である。例示的な記録デバイスベースの選択モードオーディオエンコーダである。例示的なオーディオエンコーディング方法のフローチャートである。

対応するビデオデータから推測された情報を使用してオーディオエンコーディングの効率及び／又は品質を改善するためのメカニズムを開示する。ビデオ情報は、ビデオアナライザ／エンコーダからオーディオエンコーダに中継される。オーディオエンコーダは、ビデオ情報を他の決定パラメータと比較し、それに応じてオーディオエンコーディング動作を調整する。オーディオエンコーディングを調整するために使用され得るビデオ情報の例には、シーンの変化及びビデオ内の人間の対話の量の増減が含まれる。さらなる詳細について説明する。

以下に説明する図面では、概して、同一の要素が２つ以上の図面に現れる場合には、同じ符号が繰り返される。ここで、図面、特に図１を参照すると、図１には、例示的なオーディオビジュアル（ＡＶ）システム１０の概略図が示されており、このシステム１０は、複数のシーン（例えば、シーン１、シーン２等）からビデオ及びオーディオを記録し、その後、本明細書に開示される新規のエンコーディングスキームを使用して、記録されたビデオ及びオーディオを処理することができる。シーン１、シーン２等を記録するために、マイク２０を含むカメラ１５等の記録デバイスを使用することができる。カメラのビデオ出力２５は、ビデオフレーム３５の形式のビデオデータが出力される周知のサンプリング動作を実行するように動作可能なビデオサンプリングステージ３０に送られてもよい。このビデオサンプリングステージ３０は、出力２５がアナログ出力の場合に標準的なアナログ／デジタル変換を実行してもよいし、デジタルをサンプリングするように機能してもよい。ビデオフレーム３５は、ビデオエンコーダ４０に送られる。ビデオエンコーダ４０は、ハードウェア、ソフトウェア、又は、これらの２つの組み合わせとして実装されてもよい。例えば、ビデオエンコーダ４０は、非一時的なコンピュータ可読記憶媒体上の命令及びデータの形態であってもよい。ビデオエンコーダ４０は、エンコードされたビデオ４５をストレージデバイス５０又は他の場所に送るように動作可能である。また、ビデオエンコーダ４０は、以下により詳細に説明するように、マイク２０からのオーディオ信号の処理を制御するために使用されるオーディオエンコーダモード選択ステージ６０に対してビデオ情報５５を送る機能を有する。

マイクは、標準的なアナログ／デジタルサンプラーとして機能し得るオーディオサンプリングステージ７０に対して出力６５を送る。オーディオサンプリングステージ７０の出力は、オーディオエンコーダ８０に送信されるオーディオフレーム７５形式のオーディオデータから構成されている。オーディオエンコーダ８０は、エンコードされたオーディオ８５をストレージデバイス５０又は所望の他の場所に送るように動作可能である。以下に他の図面と共に説明するように、オーディオエンコーダ８０は、オーディオエンコーダモード選択ステージ６０から制御信号８７を受信するように動作可能であり、オーディオエンコーダモード選択ステージ６０は、上述したように、ビデオエンコーダ４０から送信されたビデオ情報５５に応じて、オーディオフレーム７５のエンコードを制御し、最終的に、エンコードされたオーディオ８５の内容を制御する。このようにして、オーディオエンコーダ８０は、ビデオ情報５５に基づいて、オーディオフレーム７５のエンコーディングを調整することができる。例えば、シーン１は、図示されたクーガー（ピューマ）９０等の自然のシーンを含む場合があり、したがって、対話を殆ど又は全く含まない場合がある。一方、シーン２は、息子９５とその母１００との間の会話等のように、より対話中心のカメラ１５に対するマルチメディア入力を含む場合がある。ビデオエンコーダ４０は、これらのシーンの変化及び／又は例えば対話の増減を感知し、これらの変化の検出を表すビデオ情報５５をオーディオエンコーダモードセレクタ６０に送るように動作可能であり、オーディオエンコーダモードセレクタ６０は、それに応じて、制御信号８７によってオーディオエンコーダ８０の設定を修正することができる。

デバイス及びステージの統合のレベルには、様々な可能性がある。例えば、ビデオエンコーダ、オーディオエンコーダモードセレクタ６０及びオーディオエンコーダ８０の全ては、カメラ１５に内蔵されてもよい。ビデオサンプリングステージ３０及びオーディオサンプリングステージ７０にいても同様である。他の実施形態では、ビデオエンコーダ４０、オーディオエンコーダモードセレクタ６０及びオーディオエンコーダ８０は、別個のデバイス／ソフトウェアに実装されてもよい。別の実施形態では、ビデオエンコーダ４０、オーディオエンコーダモードセレクタ６０及びオーディオエンコーダ８０は、別個のデバイス／ソフトウェアとして実装されてもよい。例えば、オーディオエンコーダ８０及び／又はオーディオエンコーダモードセレクタ６０は、非一時的なコンピュータ可読記憶媒体上の命令及びデータの形態であってもよい。これらは、機能的な統合のいくつかの例に過ぎない。

オーディオエンコーダ８０は、多種多様な実装をとり得ることを理解されたい。図２は、周知のＤＴＳ（登録商標）エンコーダスキームを追跡する１つのタイプのオーディオエンコーダの概略図である。この例示的な実施形態では、オーディオエンコーダ８０は、直交ミラーフィルタバンク（ＱＭＦバンク）１０５を含むことができる。ＱＭＦバンク１０５は、複数の帯域を含んでもよく、このうち２つの帯域の各々は、サブバンド０及びサブバンドｎとして示されている。サブバンドの数ｎは変更することができる。例示的な実施形態では、ＱＭＦバンク１０５は、３２の異なるサブバンドを利用してもよく、この場合、ｎ＝３１である。オーディオフレーム７５は、４８ｋＨｚ、２４ビットサンプリング、又は、他の所望の周波数及びビット長を使用して、ＱＭＦバンク１０５に送られてもよい。グローバルビットレートモジュール１１２は、サブバンド０…サブバンドｎの複数のサブバンドに対して信号処理ビットレートを選択的に設定するように動作可能である。サブバンド０は、ＱＭＦバンク１０５からの出力１１０を受信する。サブバンド０は、信号パッカー１２０に送られるエンコードされたオーディオ出力１１５の圧縮を容易にするための様々なステージのうち１つ以上のステージを含む圧縮パイプライン１１４を含むことができる。例えば、サブバンド０は、ＱＭＦバンク１０５の出力１１０を受信し、線形スケール量子化ステージ１３０への入力として出力１２５を送る適応予測モジュール１２０を含むことができる。デジタル信号処理の量子化は、入力値の大きなセットを（数えられる）より小さいセットにマッピングすること（例えば、値をある精度の単位に丸めること等）を含む。例えば、中間トレッド量子化を使用する線形スケール量子化ステージ１３０の出力は、以下のように表すことができる。

ここで、ｓｇｎ（ｘ）は符号（ｓｉｇｎ）関数（符号（ｓｉｇｎｕｍ）関数としても知られる）であり、Δは量子化ステップサイズである。ステップサイズΔは、例えば、線形量子化ステージ１３０に割り当てられるビット数を減少又は増加させることによって、制御信号１６０に応じて変更することができる。また、出力１１０は、ベクトル量子化ステージ１３５に送られる。ベクトル量子化は、プロトタイプベクトルの分布によって確率密度関数のモデル化を可能にする信号処理からの量子化技術である。これは、例えばサンプリングされたオーディオ信号等のポイント（ベクトル）の大きなセットを、これらに最も近いほぼ同数のポイントを有するグループに分けることによって行われる。各グループは、ｋ平均法及び他のクラスタリングアルゴリズムと同様に、その重心点（centroid point）によって表される。ベクトル量子化ステージ１３５の出力１４０は、出力１１５に関連付けられる。最後に、ハフマン符号ステージ１４５を用いて、線形スケール量子化ステージ１３０の出力を選択的にエンコードし、さらに、オーディオデータを所望の出力１１５に圧縮することができる。

適応予測ステージ１２０は、線形スケール量子化ステージ１３０及びベクトル量子化ステージ１３５と連携して動作する。適応予測ステージ１２０は、予測残差の分散をサブバンドサンプル、すなわち入力１１０におけるサンプルの分散と比較することによって、予測利得を連続的に計算する。予測利得が十分に大きい場合、予測残差は、線形スケール量子化ステージ１３０で中間トレッドスカラー量子化を使用して量子化され、予測係数は、ベクトル量子化ステージ１３５によってベクトル量子化される。しかし、計算された予測利得が所望の閾値を上回らない場合、入力１１０からのサブバンドサンプルは、中間トレッドスカラー量子化を使用して線形スケール量子化ステージ１３０によって量子化される。この例示的な実施形態では、ビデオ情報５５は、オーディオエンコーダモードセレクタ６０に送信される。オーディオエンコーダモードセレクタ６０は、予測利得及びビデオ情報５５を比較し、その比較に基づいて、入力１１０からのサブバンド０サンプルをベクトル量子化ステージ１３５で量子化する代わりに中間トレッドスカラー量子化を使用して量子化するように線形スケール量子化ステージ１３０に命令するための制御信号１６０を提供する。

例えばサブバンドｎ等の他のサブバンドは、同様にＱＭＦバンク１０５の出力１５０を受信し、適応予測ステージ１２０、線形スケール量子化ステージ１３０、ベクトル量子化ステージ１３５及びハフマン符号ステージ１４５、又は、出力１５５をパッカー１２０に送るように動作可能なこれらのいくつかのサブセットを含み得る圧縮パイプライン１５２を有することができる。パッカー１２０は、エンコードされたオーディオ８５を、本明細書で説明するように、いくつかの場所に送るように動作可能である。サブバンドｎは、適応予測ステージのオン／オフ、グローバルビットレート、量子化ステージパラメータ等のエンコーディングモードを指示するオーディオエンコーダモードセレクタ６０から制御信号１６５を受信する。

オーディオエンコーダモードセレクタ６０は、制御信号１６０，１６５をサブバンド０…サブバンドｎに送るように動作可能である。これらの制御信号（図１では、まとめて８７として示す）は、線形スケール量子化ステージ１３０によって使用される様々なパラメータを制御し、ビデオエンコーダ４０から送られる、ビデオフレーム３５の内容や上述したようなシーン１、シーン２等の様々なシーンの特性に基づくビデオ情報５５に従って、様々なサブバンド０…サブバンドｎをエンコードすることができる。ここで、２つの実施例を説明する。

（実施例１―ビデオシーンの変更通知の使用）
例えばシーン１からシーン２へのビデオシーンの変化の間、オーディオフレーム７５は同時に変化する可能性があり、その結果、以前のオーディオフレーム７５を参照として使用することは非効率的である。上記の背景技術の欄で述べたように、既存のオーディオエンコーダのモード選択は、ビデオシーンの変化の影響を受けない。しかしながら、開示された実施形態では、ビデオエンコーダ４０は、任意のシーンの変化をオーディオエンコーダモードセレクタ６０に通知するために、ビデオ情報５５を供給する。オーディオエンコーダモードセレクタ６０は、他のパラメータと比較した後に、制御信号１６０，１６５を介して、フレーム間（インターフレーム）予測技術（例えば、差分パルス符号変調又は線スペクトル対予測）を実行するために例えば適応予測ステージ１２０を使用しない等のより効率的なモードでオーディオフレーム７５をエンコードするように、オーディオエンコーダ８０に命令することができる。オーディオエンコーダモードセレクタ６０によって変更され得る他のパラメータは、オーディオエンコーダのグローバルビットレート、及び／又は、線形スケール量子化ステージ１３０及びベクトル量子化ステージ１３５によって使用される量子化パラメータを含み、エンコーディングのより優れた効率及び／又は品質を実現する。

（実施例２―対話シーンの通知の使用）
上記の背景技術の欄で述べたように、既存のオーディオエンコーダは、オーディオエンコーディングモードを調整するために、例えば人間の対話の存在等のビデオシーンの内容を使用しない。しかしながら、開示された実施形態では、ビデオエンコーダ４０は、シーン２等の対話シーンが検出されたときに、オーディオエンコーダモードセレクタ６０に通知するためにビデオ情報５５を供給する。オーディオエンコーダモードセレクタ６０は、イベントを他の決定バラメータと比較した後に、制御信号１６０，１６５を介して、より高いビットレート及び／又はフィルタ設定（例えば、ＱＭＦバンク１０５の設定）の変更を使用してエンコードし、オーディオ信号の周波数を増減させるのではなくオーディオ信号の範囲を広げるように、オーディオエンコーダ８０に命令することができる。これにより、品質及び／又は効率がより優れたオーディオ信号の再構成が可能となる。

上述したように、開示された実施形態によれば、様々なレベルのデバイス及びコードの統合が想定される。例えば、図３は、半導体チップの形態であるか、そうでなければ、上部又は内部において、ビデオエンコーダ４０がビデオ情報５５を送るように動作可能であり、オーディオエンコーダモードセレクタ６０及びオーディオエンコーダ８０が実装され得る集積回路２００の概略図である。これは、ディスクリートＩＣとして、又は、より大型のデジタル信号処理デバイス（例えば、コーダ／デコーダ（ＣＯＤＥＣ）若しくは他のタイプの集積回路等）の一部として実装され得る。

図４は、オーディオエンコーダシステムを制御するビデオ情報用の別のタイプのデバイス及びコード統合を表す概略図である。ここで、カメラ１５等の記録デバイスは、ビデオ情報５５をオーディオエンコーダモードセレクタ６０に送り、最終的にオーディオエンコーダ８０に送るように動作可能なビデオエンコーダ４０を内蔵する回路基板又は他の基板を含むことができる。

図５は、開示された実施形態による、例示的な信号処理方法を示す例示的なフローチャートである。３００で開始した後、ステップ３１０において、フレーム又は他の形態のビデオコンテンツがビデオエンコーダに入力される。これは、図１に示すように、ビデオフレーム３５をビデオエンコーダ４０に送ることを含むことができる。このステップは、ビデオフレームの実際の記録と同時に行われてもよいし、記録プロセス後のある時点で行われてもよく、個別のデバイスを介して行われてもよい。ステップ３２０において、ビデオフレームは、特定のオーディオエンコーディングモードを示唆する特性について分析される。ステップ３２０は、シーンの変化、対話の増加、又は、オーディオエンコーディングスキーム対する変化の可能性を示唆するシーンの他の指標を探すことを含むことができる。ステップ３３０において、ビデオエンコーダ４０がオーディオエンコーディングの変化を示唆する状態を検出すると、ステップ３４０において、図１に示すように、ビデオ情報がオーディオエンコーダモードセレクタ６０に送信される。しかしながら、ステップ３３０において、ビデオエンコーダ４０がオーディオエンコーディングの変化を示唆する特性を検出しない場合には、ステップ３２０に戻り、ビデオフレームの分析を続行する。ステップ３４０においてビデオ情報がオーディオエンコーダに送信される場合には、ステップ３５０において、送信されたビデオ情報に基づいてオーディオエンコーダモードが選択される。これは、再び、適応予測若しくは非適応予測を選択すること、又は、オーディオエンコーダにおけるデータ圧縮に関連する他のパラメータを選択することを伴い得る。次に、ステップ３６０においてオーディオがエンコードされ、最後にステップ３７０において、エンコードされたオーディオが例えば図２に示すパッカー１２０に出力される。

本発明は、様々な変更及び代替形態を受け入れることができるが、特定の実施形態が図面の例として示され、本明細書において詳細に説明されている。しかしながら、本発明は、開示された特定の形態に限定されることを意図するものではないと理解されたい。むしろ、本発明は、以下の添付の特許請求の範囲によって定義される本発明の趣旨及び範囲に含まれる全ての変更、均等物及び代替物を含むものである。

Claims

オーディオエンコーダ（８０）と、
ビデオデータを分析し、分析されたビデオデータに基づいて、前記オーディオエンコーダのエンコーディングモードを調整するように動作可能なオーディオエンコーダモードセレクタ（６０）と、を備える、
装置。
前記オーディオエンコーダ及び／又は前記オーディオエンコーダモードセレクタは、コンピュータ可読命令を有するコンピュータ可読記憶媒体を備える、請求項１の装置。
前記オーディオエンコーダ及び／又は前記オーディオエンコーダモードセレクタを含む半導体チップ（２００）を備える、請求項１の装置。
前記オーディオエンコーダ及び／又は前記オーディオエンコーダモードセレクタを含む記録デバイス（１５）を備える、請求項１の装置。
前記オーディオエンコーダモードセレクタは、シーン変化又は人間の対話における変化に関して前記ビデオデータを分析するように動作可能である、請求項１の装置。
前記オーディオエンコーダは、前記オーディオエンコーダモードセレクタの前記エンコーディングモードの調整に対応するデータ圧縮パイプラインを備える、請求項１の装置。
前記データ圧縮パイプラインは、量子化ステージ、予測ステージ又はハフマン符号化ステージを含む、請求項６の装置。
ビデオ及びオーディオを記録するための記録デバイスを備え、前記オーディオエンコーダ及び前記オーディオエンコーダモードセレクタは、前記記録デバイスの一部である、請求項１の装置。
オーディオデータをエンコードする方法であって、
オーディオエンコーダ（８０）を用いて前記オーディオデータをエンコードするステップと、
ビデオデータの分析に基づいて、前記オーディオエンコーダのオーディオエンコーディングモードを調整するステップと、を含む、
方法。
ビデオデータを分析し、分析されたビデオデータに基づいて、前記オーディオエンコーダのエンコーディングモードを調整するように動作可能なオーディオエンコーダモードセレクタ（６０）を用いて、前記ビデオデータを分析するステップを含む、請求項９の方法。
前記オーディオエンコーダ及び／又は前記オーディオエンコーダモードセレクタは、コンピュータ可読命令を有するコンピュータ可読記憶媒体を備える、請求項９の方法。
前記オーディオエンコーダ及び／又は前記オーディオエンコーダモードセレクタは、半導体チップ（２００）の一部を備える、請求項９の方法。
前記オーディオエンコーダ及び／又は前記オーディオエンコーダモードセレクタは、記録デバイス（１５）の一部を備える、請求項９の方法。
前記ビデオデータを分析するステップは、シーン変化又は人間の対話における変化を認識するステップを含む、請求項９の方法。
前記オーディオエンコーダは、前記オーディオエンコーダモードセレクタの前記エンコーディングモードの調整に対応するデータ圧縮パイプラインを備える、請求項９の方法。
前記データ圧縮パイプラインは、量子化ステージ、予測ステージ又はハフマン符号化ステージを含む、請求項１５の方法。
オーディオデータをエンコードする方法であって、
記録デバイス（１５）を用いて、ビデオ及びオーディオを記録し、ビデオデータ及びオーディオデータを生成するステップと、
オーディオエンコーダ（８０）を用いて、前記オーディオデータをエンコードするステップと、
前記ビデオデータの分析に基づいて、前記オーディオエンコーダのオーディオエンコーディングモードを調整するステップと、を含む、
方法。
ビデオデータを分析し、分析されたビデオデータに基づいて、前記オーディオエンコーダのエンコーディングモードを調整するように動作可能なオーディオエンコーダモードセレクタ（６０）を用いて、前記ビデオデータを分析するステップを含む、請求項１７の方法。
前記オーディオエンコーダ及び／又は前記オーディオエンコーダモードセレクタは、コンピュータ可読命令を有するコンピュータ可読記憶媒体を備える、請求項１７の方法。
前記オーディオエンコーダ及び／又は前記オーディオエンコーダモードセレクタは、半導体チップ（２００）の一部を備える、請求項１７の方法。
前記オーディオエンコーダ及び／又は前記オーディオエンコーダモードセレクタは、前記記録デバイス（１５）の一部を備える、請求項１７の方法。
前記ビデオデータを分析するステップは、シーン変化又は人間の対話における変化を認識するステップを含む、請求項１７の方法。
方法を実行するためのコンピュータ可読命令を含むコンピュータ可読記憶媒体であって、
前記方法は、
オーディオエンコーダ（８０）を用いてオーディオデータをエンコードするステップと、
ビデオデータの分析に基づいて、前記オーディオエンコーダのオーディオエンコーディングモードを調整するステップと、を含む、
コンピュータ可読記憶媒体。