JP2006524461A - メディアフレームの出力品質を設定する方法およびシステム - Google Patents

メディアフレームの出力品質を設定する方法およびシステム Download PDF

Info

Publication number
JP2006524461A
JP2006524461A JP2006506873A JP2006506873A JP2006524461A JP 2006524461 A JP2006524461 A JP 2006524461A JP 2006506873 A JP2006506873 A JP 2006506873A JP 2006506873 A JP2006506873 A JP 2006506873A JP 2006524461 A JP2006524461 A JP 2006524461A
Authority
JP
Japan
Prior art keywords
media frame
frame
output quality
quality
previous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006506873A
Other languages
English (en)
Inventor
エフ イェー フェルハエフ,ウィルヘルミュス
セー ウースト,クレメンス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2006524461A publication Critical patent/JP2006524461A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/127Prioritisation of hardware or computational resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems

Abstract

本発明は、次のメディアフレームの出力品質を設定する方法およびシステムに関するものであり、次のメディアフレームの複数の出力品質のうちから出力品質を与えるよう着想されているアプリケーション手段ならびに前回のメディアフレームの処理時間および出力品質を次のメディアフレームの出力品質を決定するために使う自己学習制御戦略に基づいて次のメディアフレームの出力品質を設定するよう着想された制御手段とを有する。

Description

本発明は、次のメディアフレームの出力品質を設定する方法に関するものである。ここで、前記出力品質はメディア処理アプリケーションによって与えられるもので、該メディア処理アプリケーションは次のメディアフレームについて複数の出力品質を提供するよう設計されている。
本発明はさらに、次のメディアフレームの出力品質を設定するシステムに関するものである。該システムは、次のメディアフレームについての複数の出力品質のうちから前記出力品質を与えるよう着想されたアプリケーション手段を有する。
本発明はさらに、そのような方法を実行するよう設計されたコンピュータプログラムプロダクトに関するものである。
本発明はさらに、そのようなコンピュータプログラムプロダクトを有する記憶装置に関するものである。
本発明はさらに、そのようなシステムを有するテレビに関するものである。
上述のような方法の実施形態およびシステムは、WO2002/019095において開示されている。ここで、ビデオデッキ、DVD−RW、ハードディスクのようなシステム上、あるいはインターネット接続上でアルゴリズムおよびスケーラブルなプログラム可能な処理装置を走らせる方法が記載されている。アルゴリズムは、たとえばビデオフレームのようなメディアフレームを処理し、該処理について複数の品質レベルを提供するよう設計されている。当該メディアフレームの許容できる出力品質を与えるために、異なる品質レベルに対する異なる要求に応じて、アルゴリズムには利用可能リソースの予算枠が割り当てられている。しかしながら、メディアストリームの内容は時間的に変動があり、当該メディア処理アルゴリズムのリソース要求も時間とともに変わってくる。リソースは有限なので、期限遅れ(deadline miss)が起こりやすい。これを軽減するため、当該メディアアルゴリズムはデフォルトよりも低い品質レベルで走ることができる。それならそのぶんリソース要求も低いことになる。
本発明の目的の一つは、冒頭で述べたような、メディアフレームの品質を設定する改良された方法を提供することである。この目的を達成するため、当該方法は次のメディアフレームの出力品質を設定するのを、前回のメディアフレームの処理時間および出力品質を使って次のメディアフレームの出力品質を決定する自己学習制御戦略に基づいて行うことを含んでいる。
本発明に基づく方法の請求項において記載されているある実施形態では、当該方法は、前回のメディアフレームを処理し、処理済の前回のメディアフレームの相対前倒し量の値、処理済の前回のメディアフレームのスケーリングされた予算枠値および処理済の前回のメディアフレームの出力品質を含む状態を決定し、該状態に基づいて報酬および次のメディアフレームの可能な出力品質を決定することを含む。
本発明に基づく方法の請求項において記載されているある実施形態では、期限遅れの回数、前回のメディアフレームの出力品質、品質変化に基づいて報酬が計算される。
本発明に基づく方法の請求項において記載されているある実施形態では、有限の数の状態に対する報酬が決定され、該有限の数の状態はスケーリングされた予算枠値の有限集合および相対前倒し量の値の有限集合によって決定される。
本発明に基づく方法の請求項において記載されているある実施形態は、処理済の前回のメディアフレームの出力品質においてのみ異なる状態を減らすことによって報酬を決定する状態の数を減らすことを含む。
本発明の目的の一つは、冒頭で述べたような、メディアフレームの出力品質を改良された方法で設定するシステムを提供することである。この目的を達成するため、当該システムは次のメディアフレームの出力品質を設定するのを、前回のメディアフレームの処理時間および出力品質を使って次のメディアフレームの出力品質を決定する自己学習制御戦略に基づいて行うよう着想された制御手段を含んでいる。
本発明に基づくシステムの実施形態も請求項において記載されている。
これらのことを含む本発明のさまざまな側面は、以下に図面を援用しつつ説明する実施形態を参照することで明らかとなり、明快に解説されることであろう。
図1は、強化学習におけるエージェント−環境相互作用を示している。強化学習(RL:Reinforcement Learning)は相互作用による目標志向学習(goal-directed learning)への計算機によるアプローチである(たとえばR.S.Sutton and A.G.Barto, Reinforcement Learning: an introduction, MIT Press, Cambridge, MA 1998を参照)。それは、数値的な報酬(revenue)信号を最大化するように、何をなすべきか――状態から行動へのマッピング――を学ぶことである。学習者にして意思決定者はエージェントと呼ばれる。エージェントが相互作用する相手、すなわちエージェントの外部のものすべてをひっくるめたものが環境と呼ばれる。エージェントはどのような行動をすべきかは指示されず、どのような行動が最大の報酬をもたらすかを試行によって発見しなければならない。行動は直接的な報酬に影響するばかりでなく、次の状況にも、そしてそれを通じてその後の報酬全体にも影響する。これら二つの特性――試行錯誤による探索と報酬の遅れ――がRLの二つの最も重要な著しい特徴である。
RLは学習方法の指定ではなく、学習問題の指定によって定義される。その問題を解くのに好適ないかなる方法もRL法であると考えられる。RLにおける課題の一つは、探検と冒険の兼ね合いである。多くの報酬を得るためには、RLエージェントは過去にやったことがあり、報酬を生み出すのに有効であるとわかっている行動を優先する必要があるが、そのような行動を発見するためには、以前に選択したことのない行動を試す必要がある。エージェントは報酬を得るためにはすでに知っている経験を利用する必要があるが、将来よりよい行動選択をするためには冒険することも必要なのである。ジレンマは、経験にしろ冒険にしろ一方のみを追求していたのではタスクに失敗するということである。エージェントは多様なアクションを試行し、最良と思えるものを徐々に優先するようにしていく。統計的なタスクに対しては、各行動を何度も試行して報酬の信頼できる期待値を推定する必要がある。
エージェントおよび環境とは別に、RLシステムには三つの主要な下位要素が識別できる。政策、報酬関数、価値関数である。政策は、所与の時点におけるエージェントのふるまい方を規定する。政策とは、環境の状態からその状態においてとるべき行動へのマッピングである。一般に、政策は統計的であってもよい。報酬関数はRL問題における目標を規定する。環境の知覚される状態(または状態−行動の対)のそれぞれを、その状態の内在的な好ましさを示す単一の数値すなわち報酬にマッピングする。RLエージェントの唯一の目的は、長期的に受け取る全報酬額を最大化することである。歳入関数は統計的であってもよい。価値関数は、長期的に何がよいかを規定する。ある状態の価値とは、その状態から開始してエージェントが将来にわたって蓄積すると期待できる報酬の総額である。報酬が環境の状態の直接の内在的な好ましさを決めるのに対して、価値は前記政策を適用したときにその後起こると思われる諸状態やそれらの状態で得られる報酬をも考慮に入れたときの、長期的な意味での状態の好ましさを示すものである。価値は、エージェントがその全寿命にわたってなす一連の観測から評価され、再評価されていかなければならない。
エージェント100および環境102は、エージェント100が行動を選択し、環境102がその行動に反応して新たな状況をエージェントに提示する形で継続的に相互作用している。環境102はまた、報酬を発生させる。エージェント100が時間を通じて最大化しようとする特別な数値である。エージェント100と環境102とは、離散的な一連の時間段階t=0、1、2、3…において相互作用する。各時間段階tにおいて、エージェント100は環境の状態st∈S(Sは環境の状態の集合)の何らかの表現を受け取り、それに基づいて行動at∈A(st)(A(st)は状態stにおいて可能な行動の集合)を選択する。1段階後、部分的には自らの行動の結果として、エージェント100は数値的な報酬rt+1∈R〔実数〕を、環境の状態st+1の新たな表現とともに受け取る。
各時間段階tにおいて、エージェント100は、諸状態から可能な各行動を選択する確率へのマッピングを実装している。このマッピングはエージェントの政策と呼ばれ、πiによって表される。ここでπi(s,a)はst=sの場合にat=aとなる確率である。政策は決定論的でもよい。その場合、各状態は単一の行動にマッピングされる。RL法は、エージェント100がその経験の結果としてどのように政策を変えるかを規定するものである。大雑把に言えば、エージェントの目標は、長期的に受け取る報酬の総額を最大化することである。
RLにおいて、エージェント100の目標は、環境102からエージェント100へ渡される特別の報酬信号を用いて定式化される。各時間段階t>0において、報酬は単なる数rt∈R〔実数〕である。略式な言い方をすると、エージェント100の目標はそれが受け取る報酬の総額を最大化することである。これは直接の報酬ではなく、長期的な累積的報酬を最大化するということを意味している。エージェント100が順調に実績を上げると期待されるとしたら、エージェントに報酬が与えられるのは、エージェント100がそれを最大化することによってその目標をも達成するような仕方でされなければならない。したがって、報酬は目標と対比して考量されなければならない。
エージェントの目標は、長期的に受け取る報酬を最大化することである。一般に、エージェントは期待される利得(return)を最大化することが期待される。ここで、利得Rtは報酬の時系列の何らかの特定の関数として定義される。最も単純な場合では、利得は報酬の和
t=rt+1+rt+2+rt+3+…+rT (1)
である。ここで、Tは最終時間段階である。このやり方は、エージェント−環境相互作用が複数の部分時系列に自然に分解され、最終時間段階という自然な概念がある用途では理にかなったものである。そのような部分時系列はエピソード(episode)と呼ばれ、ゲームのプレイ、迷路の行程などいかなる種類の反復される相互作用であってもよい。各エピソードは終端状態と呼ばれる特別な状態で終わり、その後リセットされて標準的な開始状態や標準的な開始状態分布から取った標本に戻る。
他方、多くの場合にはエージェント−環境相互作用は識別できるエピソードに自然に分解されることはなく、限りなく継続的に進行する。これは継続タスクと呼ばれる。継続タスクについては、最終時間段階はT=∞となり、よって最大化すべき利得そのものも無限大となりうる。必要となるさらなる概念が割引である。その手法によると、エージェント100は、将来にわたって受け取る割引された報酬の総和が最大化されるよう行動を選択しようとする。特に、期待される割引された利得
t=rt+1+γrt+2+γ2t+3+…+=Σγkt+k+1 (2)
〔和はk=0から∞まで〕
を最大化するようにatを選ぶ。ここで、γは0≦γ≦1のパラメータで、割引率と呼ばれる。この割引率は、将来の報酬の現在における価値を決めるものである。k時間段階未来に受け取る報酬は、すぐ受け取る場合に比べてγk−1倍の価値しかないのである。γ<1であれば、時系列{rk}が有界である限り上記の無限和は有限の値をもつ。γ=0であれば、エージェント100は直近の報酬を最大化することにしか関心をもたないので「近視眼的」である。γが1に近づくにつれて、目標は将来の報酬をより強く考慮に入れることになり、エージェントはより長期的な視野をもつことになる。
たいていのRLアルゴリズムが基礎としているのは価値関数――状態(または状態−行動の対)の関数であり、ある所与の状態にいること(またはある所与の状態においてある所与の行動を実行に移すこと)がエージェント100にとってどの程度よいことであるかを見積もる指標――を推測することである。「どの程度よいことであるか」の考えは、期待される将来の報酬から、すなわち期待される利得から定義される。エージェントが将来受け取ると期待できる報酬は、どのような行動をとるかに依存する。よって、価値関数は特定の政策に関連して定義される。
政策πとは、各状態s∈Sおよび行動a∈A(s)から状態sにあるときに行動aをとる確率π(s,a)へのマッピングであったことを想起されたい。略式な言い方をすれば、政策πのもとでの状態sの価値Vπ(s)は、状態sから出発してその後政策πに従ったときに期待される利得
π(s)=Eπ{Rt|st=s}=Eπ{Σγkt+k+1|st=s} (3)
〔和はk=0から∞まで〕
である。同様に、政策πのもとで状態sにおいて行動aをとることの価値Qπ(s;a)は、sから出発して行動aをとり、その後政策πに従ったときに期待される利得
π(s;a)=Eπ{Rt|st=s,at=a}=Eπ{Σγkt+k+1|st=s,at=a} (4)
〔和はk=0から∞まで〕
である。Qπは政策πについての行動価値関数と呼ばれる。
ある時間段階において状態sが与えられたときに行動を選択する一つの方法は、貪欲にふるまう、すなわちQ(s;a)が極大となる行動aを選択することである。この方法は、直近の報酬を最大化するために現在の知識を利用するが、一見劣った行動が実はよりよい選択ではないかどうかを見極める冒険には全く時間を割かない。単純な代替案は、ほとんどの時点では貪欲にふるまうが、たまに、たとえば確率εで、行動価値推定値には関わりなく、全選択肢から一様に無作為に行動を選択するというものである。この、貪欲に近い行動選択則を使う方法は、ε貪欲法と呼ばれる。
Sarsaは時間差分(TD:Temporal Difference)学習法である。TD学習法は、環境のダイナミクスのモデルなしに生の経験から直接学習でき、最終結果を待つことなく、他の学習された推定値の一部に基づいて推定値を更新する(ブートストラップ式である)。Sarsaでは行動価値の更新規則は
Q(st;at)←Q(st;at)+α[rt+1+γ・Q(st+1;at+1)−Q(st;at)] (5)
で与えられる。ここで、stは時間段階tにおける状態、atは時間段階tにおいてとられる行動、rt+1は次の時間段階t+1に受け取る報酬、st+1は次の時間ステップにおける状態、at+1はとるべき対応する行動、←は左辺値の右辺値による更新を表す。この更新は状態stからの遷移のたびに実行される。この規則は、ある状態−行動対から次の状態−行動対への遷移を構成する五つ組(st,at,rt+1,st+1,at+1)のすべての要素を使う。この五つ組がこのアルゴリズムの名称Sarsaの由来となっている。
下記に継続タスクの場合のSarsa更新規則に基づく学習アルゴリズムを掲げる。

SARSAアルゴリズム
a.すべてのQ(s;a)を任意に初期化
b.sを初期化
c.Q(s;a)が極大となる行動aを選択(ε貪欲)
d.繰り返し
e.行動aを実行
f.次の時間段階で、結果として得られる報酬r′および新しい状態s′を観測
g.Q(s′;a′)が極大となる行動a′を選択(ε貪欲)
h.Q(s;a)←Q(s;a)+α・(r′+γ・Q(s′;a′)−Q(s;a))
i.s←s′、a←a′

セットトップボックスやデジタルテレビのような消費者端末は、現在は専用ハードウェアコンポーネントを使ってビデオを処理している。近い将来にはプログラム可能なハードウェアにソフトウェア的なビデオ処理を搭載したものが取って代わる見込みである。このいわゆるソフトウェアビデオ処理の特徴の一部として、変動の激しい、データに依存するリソース要求がある。
ビデオ処理に関しては、通例最悪ケースと平均ケースの復号期間の間にギャップがある。さらに、短期的(すなわち統計的)負荷変動と長期的(すなわち構造的)負荷変動の区別がある。構造的負荷変動は、なかんづく、ビデオシーンの複雑性が変動することによって引き起こされる。最悪ケースに基づくリソース割り当ては、通例、コスト圧力が高く容認しにくいため、リソース割り当ては好ましくは平均ケースに近いものとなる。過負荷を避けるために、何らかの形の負荷軽減が欠かせない。
変動のある負荷について時折の期限遅れを容認するなどのソフトなタイミング要求だとか平均的な意味での反応時間要求といったものは、サービスの品質(QoS:Quality of Service)すなわち「サービスのユーザーによる満足度を決定するサービスパフォーマンスの集団的効果」の特殊な場合と見なすことができる(ITU−T勧告E.800,Geneva 1994参照)。QoSの抽象化は、不均一なソフトタイミング要求および単一システム内での近似計算やジョブ間引きのような不均一な適応的機能を用いてタスクについて判断し、対処する手段を提供する。
時間的保護のあるリソース予約は、ソフトリアルタイムシステムについての過負荷管理の問題を複数の下位問題に分解し、別個に対処することを可能にする。この方法では、過負荷管理および意味的(すなわち価値に基づいた)意思決定はスケジューラの外に出すことができる。取り組むべき課題としては二つが残る。どのタスクにどの予算枠を割り当てるかを決定すること、そして各タスクの負荷を割り当てられた予算枠に応じて調整することである。第一の課題はグローバルで、統一的なQoS尺度を必要とする。第二の課題はローカルで、タスク固有のQoS適応を使うことができる。
ここでは、高品質ビデオ処理のコンテキストにおける、ローカルなQoS制御、すなわち割り当てられた予算枠の範囲内でローカルなQoSを最適化しようとすることに関心がある。ビデオ処理タスクはスケーラブルである、すなわち、リソース使用との兼ね合いでの画質の調整を個々のフレームレベルで行えることが想定されている。また、タスクは先行して作業する、すなわち直前のフレーム完了後、次のフレームのデータさえあればすぐその処理を開始できることが想定されている。スケーラブルなビデオアルゴリズムは、各フレームに対して選択できるQoSレベルの数を制限する。先行作業を適用する度合いは、遅延とバッファの制約によって決定される。高品質ビデオのQoSは、バランスをとるべき三つの要素を併せ持っている。処理品質、期限遅れ、品質変化である。
バランス制御戦略は二つの種類の負荷変動に関係している――短期(統計的)と長期である。短期的負荷変動を制御するためには、制御問題はマルコフ決定過程としてモデル化される。これは、離散的な統計的決定問題のための一般的なアプローチである(Markov Decision Processes: discrete stochastic dynamic programmming, Wiley Series in Probability and Mathematical Statistics, Wiley-Interscience, New York, 1994, M.L.Puterman参照)。構造的負荷変動を扱うためには、予算枠スケーリングが用いられる。現在の構造的負荷に反比例する予算枠に対する元来の静的または動的解を適用するのである。
図2は、基本的なスケーラブルなビデオ処理タスクを表している。単一の、非同期の、スケーラブルなビデオ処理タスク200を、付随するコントローラ202とともに考える。ビデオ処理タスク200はフレームを離散的ないくつかの数(おそらくは小さい数)の品質レベルにおいて処理することができる。ビデオ処理タスク200は処理すべきフレームを入力待ち行列204から取得し、処理されたフレームを出力待ち行列210に与える。便宜上、一連のフレームは1、2…と番号が振られているものとする。入力プロセス204(たとえばデジタルビデオチューナー)は周期的にフレームを入力待ち行列に入れ、その周期をPとする。出力プロセス206(たとえばビデオレンダラー)は出力待ち行列にあるフレームを同じ周期Pで消費する。ここで、入力フレームレートと出力フレームレートは同じであると想定しているが、異なっていてもよい。入力プロセス204および出力プロセス206は一定の遅延δで同期している。すなわち、フレームiが入力待ち行列208に時刻ei=e0+i・Pではいったとすると(e0はオフセット)、そのフレームは時刻ei+δに出力210から取り出されて消費される。あるフレームを処理する前に、コントローラ202はそのフレームを処理する品質レベルを選択する。フレームの処理時間は選択された品質レベルとフレームのデータの複雑さの両方に依存する。平均的には、タスクは周期Pごとに1フレームを処理する必要がある。Pより大きな遅延δを選ぶことによって、タスクは、先行作業によって変動負荷をならす若干の余地を与えられる。
時刻eiに入力待ち行列にはいるフレームiを考える。明らかに、eiはそのフレームを処理する最も早い開始時刻であり、di=ei+δは可能な最も遅い完了時刻、すなわち期限である。便宜上、仮想期限d0=e0+δが定義される。フレームiの実際の開始時刻、すなわちこのタスクでi番目の開始(start)点をsiとする。フレームiの実際の完了時刻、すなわちこのタスクでi番目の到達目印点(milestone)をmiとする。フレームの処理時間が0でなければ、mi>eiが成立する。もしもmi>diであればタスクはフレームiの期限に遅れたことになる。mi−1<eiであれば、i>1と想定して、タスクはmi−1からeiまで中断する。i>1についてsi≧max{mi−1,ei}である。
期限に遅れたとしてもフレームがアボートされることはなく、とにかく完了されるという作業保存の原則を想定しているが、他の原則を採用してもよい。今の場合、期限に遅れたフレームは次の期限に対して使用される。このフレームが完了するまでにさらにその後のフレームの期限さえも過ぎてしまうこともあることを指摘しておく。期限に遅れた場合、次の動作が必要になる。第一に、出力プロセスが誤り隠蔽を実行する必要がある。たとえば、ビデオレンダラーが直前に表示されたフレームを再利用するなどである。そのような誤り隠蔽は、特に動きの多いシーンの場合、知覚される品質を低下させることがある。第二に、コントローラは、フレーム番号と期限との間の対応を回復し、入力待ち行列に滞貨がたまることを回避するため、その後のフレームを間引いてエラーからの回復を実行する。スキップするフレームは慎重に選ぶ必要がある。たとえば、MPEG復号の場合、Bフレームは安全にスキップできるが、Iフレームをスキップするとストリームが停滞してしまう。
図3および図4は、P=1、δ=2、s1=d0=0とした場合の二つの時系列の例によってタスクの処理の進行を図解したものである。タスクが処理する必要のあるフレームは5つである。実際に処理されたフレームは図3では参照符号301、302、304、305によって、図4では参照符号401、402、403、404、405によって示されている。図3では期限d2を逃している。コントローラはこの期限遅れに、期限d3に対してフレーム302を使い、フレーム303をスキップすることによって対処している。図4ではタスクは到達目印点m3で、フレーム404が入力待ち行列にないため(e4=d4)中断している。
0に始まって、二つの連続した期限にはさまれた期間の間でタスクにはある保証された処理時間の予算枠(budget)b(0≦b≦P)が割り当てられる。この保証予算枠に基づいて、前倒し量(progress)と呼ばれる尺度が導入される。前倒し量ρiは、開始点siにおいて計算されるもので、di−1までに残されている保証予算枠の総量をbで割ったものである。この前倒し量は、直前のフレームi−1の処理が完了したあと、その予算枠がどのくらい残っているかを示す。前倒し量はコントローラにとって重要な尺度である。というのも、前倒し量が大きければ、これから処理しようとしているフレームについて期限に間に合わない危険が低下するからである。前倒し量は常に非負である。このことは、期限遅れの場合には、完了したフレームをそれよりあとの期限において使うことによって保証される。さらに、待ち行列の大きさにも制限があるので、前倒し量にもρmax=δ−1という上限がある。ある開始点における前倒し量とは、ちょうど完了したフレームの期限に基づいて計算されることを注意しておく。前倒し量を到達目印点において計算しない理由は、そうでないと中断のため予算枠が無駄になることが前倒し量に織り込めないからである。中断の場合、最初の次の開始点においてコントローラによって使われる前倒し量は大きすぎてしまう(>ρmax)。
図3および図4では、b=Pと想定されている。これはすなわち、そのタスクがプロセッサを専有しているということである。図3では、一連の開始点における前倒し量は、それぞれρ1=0、ρ2=0.25、ρ4=1、ρ5=0.5で与えられ、図4ではそれぞれρ1=0、ρ2=0.5、ρ3=1、ρ4=1、ρ5=0.5で与えられる。
図5および図6はb=P/2とした場合の二つの時系列の例を示している。タスクが処理する必要のあるフレームは5つである。実際に処理されたフレームは図5では参照符号501、502、504、505によって、図6では参照符号601、602、603、604、605によって示されている。ここでもP=1、δ=2、d0=0と想定されている。さらに、slはタスクに初めて予算枠が割り当てられる時点であると想定する。図5では、一連の開始点における前倒し量は、それぞれρ1=0、ρ2=0.25、ρ4=0.75、ρ5=0.5で与えられ、図6ではそれぞれρ1=0、ρ2=0.5、ρ3=0.75、ρ4=1、ρ5=0.5で与えられる。予算枠は背後にあるスケジューラの決定に従って各期間ごとに異なった時間区間に分配されていることに注意しておく。図6では、m3においてタスクはその期間についての予算枠の半分を消費している。予算枠の残りの半分は中断のため無駄になっている。
前述したように、各開始点においてコントローラは処理にかかるフレームの品質レベルを選択しなければならない。好ましくは、次の三つの目的を満たす最適バランスを見出すような制御戦略が選択される。
・期限遅れと付随するフレーム間引きがあると出力に乱れが生じるので、期限遅れはできるだけ少なくするべきである。期限遅れを防止するため、フレームを品質レベルを下げて処理する必要がある場合もある。
・高品質の出力を得るため、フレームはできるだけ高い品質レベルで処理するべきである。
・品質レベルの変更の数や大きさはできるだけ小さくするべきである。品質レベルの(より大きな)変更は(より)知覚できる乱れを生じうるからである。
最適バランスを見出すために、処理される各フレームに数値的な報酬が割り当てられる。報酬を構成する要素として、フレーム処理中に間に合わなかった期限の数に対して科される(おそらくは高い)ペナルティ、ある特定の品質レベルでフレームを処理したことに対する報償、直前のフレームに使われたのと異なる品質レベルでフレームを処理したことに対するペナルティ、がある。一連のフレームに対して平均的な報酬を最大化するいかなる制御戦略も前記した三つの目的をバランスするものと言える。さらに、前記平均的な報酬はそのタスクに対する調整可能なQoS指標を提供する。
各品質レベルに対して各フレームの処理時間が前もってわかっていれば、平均的な報酬を最大化する制御戦略を見出すことは計算できる。その場合、最適品質レベルは動的計画法を用いてオフラインで計算できる(Dynamic Programming, Princeton University Press, Princeton, NJ, 1957 R.E.Bellman)。
ランタイムの制御戦略へ向けた第一歩として、システムはマルコフ決定過程(MDP:Markov Decision Process)としてモデル化される。MDPにおいては、いくつかの状態の集合、その各状態に対していくつかの行動の集合を考える。離散的な時点(制御点)において、コントローラは系の現在の状態sを観測し、次いである行動aをとる。この行動が系に影響を与え、その結果、コントローラは次の離散的時点において新しい状態s′を観測する。この新しい状態は、行動と直前の状態によって決定論的に決定されるのではなく、各組み合わせ(s,a,s′)が既知の固定的な確率をもつ。数値的な報酬は各状態遷移(s,s′)に関連付けられている。MDPの目標は、系の寿命の間を通じた全状態遷移にわたっての平均的な報酬を最大化する決定戦略を見出すことである。
ここで、コントローラが系を観測する離散的な時点が前記開始点siである。状態は、その開始点におけるタスクの前倒し量ρiを含む。品質レベルの変更にペナルティが科されるので、状態は直前のフレームに使われた品質レベルも含んでいる(直前の品質レベルqi−1)。よって、si=(ρi,qi−1)である。最後に、行動とはある品質レベルqiを選択することであり、各状態変化に対する報酬は上記の記述に従って定義される。
MDP戦略と称される第一の戦略では、MDPはオフラインで解かれる。これは、状態遷移確率Pr(s,a,s′)が前もって必要とされるということを含意する。よって、フレームごとの処理時間がいくつかの代表的なビデオシーケンスについてさまざまな品質レベルで測定され、それらのシーケンスを使って状態遷移確率が計算される。次いでMDPが予算枠bの特定の値についてオフラインで解かれる。この結果として(静的な)マルコフ政策が状態−行動の対(ρi,qi−1;qi)として得られる。ランタイムの間、各開始点において、コントローラはマルコフ政策を単純な探索表として参照してその行動を決定する。
MDPはまた、前述した強化学習(RL)によってランタイムで解くこともできる。RL制御戦略は予備知識なしで開始され、ランタイムの間に得られる経験から最適なふるまいを学習する。状態−行動価値が開始点において品質レベルを選ぶのに適用される。状態が与えられたとき、状態−行動価値を最大にする品質レベル(=行動)が選択される。このアプローチはRL制御戦略と称される。
先に述べたように、負荷変動には短期的なものと構造的なものがある。構造的な負荷値の間の急激な遷移は全く例外的なものである。一般に、遷移はずっとなめらかである。
MDPおよびRL制御戦略は、一連のフレームの処理時間が互いに独立であることを暗に想定している。これは短期的な負荷変動についてはほぼあてはまるが、構造的な負荷変動についてはあてはまらない。構造的な負荷変動をも扱うために、MDPおよびRL戦略に次の改良を適用することができる。
・ランタイムの間、短期的負荷変動をならして構造的負荷を追跡し、それを参照予算枠と比較する。
・この参照予算枠に対する構造的な負荷変動に関して元来のMDP戦略およびRL戦略を補正する。ただし、割り当てられた予算枠を調整するのではなく、反比例予算(スケーリングされた予算ともいう)に対して導出された政策を適用することによって行う。
これらの改良をした戦略はそれぞれMDP*およびRL*と記される。
開始点において構造的負荷を追跡するため、ちょうど完了したフレームについての実際の処理時間(actual processing time)aptとフレームについての適用される品質レベルにおいて期待される処理時間(expected processing time)eptとの比、すなわちcf=apt/eptを決定する必要がある。期待される処理時間は各品質レベルごとにオフラインで導出済みである。前記の比のことを複雑化因子(complication factor)cfと称する。
この複雑化因子は適用される品質レベルにはあまり依存しないものとする。フレームが異なる品質レベルで処理されたとしても、複雑化因子はほぼ同じになるというのである。こうした想定が必要になるのは、完了したフレームを処理した品質レベルについて処理時間を測定できても、その品質レベルは必ずしもその後のフレームに選択される品質レベルとなるとは限らないからである。
複雑化因子は短期的負荷変動と構造的負荷変動の両方を反映している。構造的負荷に対するより適切な尺度を得るため、短期的負荷変動は好ましくはフィルタにより除去されて継続複雑化因子(running complication factor)rcfを得る。この目的のためのフィルタとしては、FIR、IIR、メジアンフィルタなどいくつか好適なものがある(Digital Signal Processing, Prentice-Hall, Englewood Cliffs, NJ, 1975, A.V.Oppenheim and R.W.Schafer参照)。たとえば、指数関数的に最近のものほど重みを重くする平均でステップサイズパラメータを0.05としたIIRフィルタを適用することが可能である。
継続複雑化因子rcfはスケーリングされた予算枠の基本となる。rcfが1から外れれば、見かけ上、タスクに利用できる処理予算枠が利用可能な予算枠bから外れたような効果となる。rcf=1.2であれば、b=30msの予算枠はたったの25msの予算枠のように見える。rcf=0.8であれば、同じ予算枠が37.5msの予算枠のように見える。このように、スケーリングされた予算枠はb/rcfとして定義される。ランタイムの間、このスケーリングされた予算枠が各開始点において計算される。
MDP*戦略は次のようにしてMDP戦略を改善する。第一に、MDPを解くために必要な統計量が規格化される。これは、構造的負荷変動がならされることにあたる。こうして短期的な負荷変動が構造的な負荷変動から切り離される。オフライン段階においてMDPは、選択されたスケーリングされた予算枠の集合に対して解かれ、その結果、マルコフ政策の集合が得られる。スケーリングされた予算枠それぞれに対して一つのマルコフ政策が得られるのである。次にランタイムにおいては、開始点において、スケーリングされた予算枠の実際の値に対応する政策から新しい品質レベルが採用される。要求された政策が集合内にない場合には、所望の値はマルコフ政策の空間における線形補間によって得られる。
図7は、マルコフ政策の空間内である特定の直前品質レベルq2に対する平面を示すものである。この平面で、スケーリングされた予算枠値28.2msにおける垂直線は、スケーリングされた予算28.2msに対するマルコフ政策(これはスケーリングされた予算枠28.0msおよび28.5msに対する政策の補間によって得られる)におけるq2列に対応する。
RL*アプローチにおいては、スケーリングされた予算枠はそのまま状態に追加される。すなわち、スケーリングされた予算枠が状態空間の第三の次元となるのである。開始点において、状態(=スケーリングされた予算枠、前倒し量、直前品質レベル)が与えられて、最大の状態−行動価値を生じる品質レベル(=行動)が好ましくは選択される。
RL*アプローチの範囲内において、図1との関連で先述したように、エージェント100はコントローラであり、フレームが処理される品質レベルを選択する。環境102はスケーラブルなビデオ処理タスクによって与えられる。エージェントが環境と相互作用する離散的な時間段階は前記開始点である。開始点におけるタスクの状態は、スケーリングされた予算枠(scaled budget)sb、前倒し量ρ、直前品質レベル(previous quality level)pqの組み合わせによって定義される。行動はフレームの処理が行われる品質レベルqの選択である。状態s=(sb,ρ,pq)および行動qに対して、エージェント100は行動価値Q(s;q)を追跡する。
あるフレームを処理したのち、処理すべき次のフレームの開始点において、エージェントはまずスケーリングされた予算枠を、完了したばかりのフレームの処理時間を使って更新する。スケーリングされた予算枠のこの更新された値は、開始点における状態の一部となる。次に、エージェントは完了したばかりのフレームの報酬を計算する。表記の都合上、完了したばかりのフレームは品質レベルqで処理され、その前のフレームは品質レベルpqで処理されたとする。報酬は、前の開始点以来間に合わなかった期限の数に対する(高い)負のペナルティ、当該フレームが処理された品質レベルqに対する正の報償、品質レベルをpqからqに変更したことに対する負の品質変更ペナルティ(quality-change penalty)qcp(pq,q)からなる。エージェントが環境から直接報酬を受け取るのではなく、環境によって提供される情報(期限遅れの回数、品質レベル)に基づいて報酬を計算していることを注意しておく。報酬を使って、エージェントはその行動価値を更新する(学習)。その後、更新された行動価値を使って次のフレーム、すなわち現在の開始点に対応するフレームを処理する品質レベルを選択する。
必要とされる計算の範囲内では、有限個の状態しか考慮できないが、スケーリングされた予算枠も前倒し量もどちらも連続変数である。これに対処するため、スケーリングされた予算枠値の有限集合SB={sb1,…,sbn}および前倒し量値の有限集合R={ρ,…,ρm}が定義される。そして、格子点に当たる状態s、すなわちsb∈SB,ρ∈Rに対する状態s=(sb,ρ,pq)についてのみ、行動価値Q(s;q)の追跡が行われる。格子点上でない状態についての行動価値を近似するには、そのまわりの格子点上の状態の行動価値に対する線形補間が適用される。
図8は3つの品質レベルq0からq2についての状態空間の例を示している。この状態空間においては、スケーリングされた予算の点は10ms、20ms、30ms、40msであり、前倒し量の点は0.25、0.75、1.25、1.75である。スケーリングされた予算枠25ms、前倒し量1、直前品質レベルq0に対する行動価値を近似するためには、図8に示すようにそのまわりの4つの格子点上の状態の行動価値に対して線形補間が適用される。
Sarsaアルゴリズムの各反復工程において、通常は一つの行動価値が学習(更新)される。結果として、学習には長い時間がかかることがあり、冒険行動の必要もありうる(これはしばしば最適ではない)。本発明によれば、各反復工程において(各開始点において)、すべての格子点上の状態に対する行動価値が更新され、より高速に学習がなされる。さらに、もはや冒険行動の必要がない。これはすでに学習したことがよりよく利用されるということを意味する。開始点において、完了したばかりのフレームの処理時間(processing time)ptが決定される。このフレームはある特定の品質レベルqで処理されたものである。そのフレームに対する異なる品質レベルでの処理時間を推定するために、オフラインで決定され、予算枠のスケーリングにも使われたept値(期待される処理時間)が用いられる。たとえば、品質レベルq2で処理されたフレームが処理時間20msで、ept(q0)=15ms、ept(q2)=22msとすると、品質レベルq0に対して推定される処理時間は20ms×ept(q0)/ept(q2)=13.6msとなる。推定された処理時間は今のフレームの処理をシミュレートするのに使われる。格子点上の状態siから出発して特定の品質レベル行動qiをとり、品質レベルqiに対して推定された処理時間を使うと、当該フレームを処理したのちに得られる(格子点上でない)状態si+1、対応する貪欲な品質レベル行動qi+1および結果として得られる報酬ri+1が計算できる。この計算においては、まず予算枠スケーリング(規格化ステップ)について処理時間が補正される。この情報を使って、Sarsa更新規則が適用される。各開始点において、これは好ましくはすべての格子点上の状態およびすべての品質レベル行動に対して実行される。その結果、好ましくは無作為な(貪欲でない)行動を時折とる必要はなくなる。本発明は、下記のアルゴリズムによって実装できる。その際、sbpはスケーリングされた予算枠が計算される点、すなわちスケーリングされた予算枠点(scaled budget point)、rppは相対前倒し量が計算される点、すなわち相対前倒し量点(relative progress point)、pqは直前の品質(previous quality)を表す。

アルゴリズム:初期化
1a.継続複雑化因子を初期化
rcf←1
1b.全状態(sbp,rpp,pq)について
1c.全品質行動qについて
1d.(状態,行動)価値を初期化
Q(sbp,rp,pq;q)←0

アルゴリズム:決定品質を取得
入力:相対前倒し量rp
入力:直前に使われた品質pq
出力:決定品質(decision quality)dq

2a.スケーリングされた予算枠を計算
sb←b/rcf
2b.スケーリングされた予算枠sb、相対前倒し量rp、直前の品質pqについて、
補間された(状態、行動)価値Qivec(sb,rp,pq;q)を可能なすべての品質行動qについて計算
2c. Qivec(sb,rp,pq;q)の最大値に対応する品質行動qを決定品質dqとする

アルゴリズム:(状態,行動)価値を更新
入力:処理時間pt
入力:処理品質q

3a.直前の作業単位の処理前の状況に対応する継続複雑化因子のコピーを作成
oldrcf←rcf
3b.ptとqを使って継続複雑化因子を更新
rcf←rcf+α[(pt/avg(q))−rcf]
3c.スケーリングされた予算枠を計算
sb←sb/rcf
3d.全状態(sbp,rpp、pq)について
3e.全品質行動〔原文は「チルダ付きq」だが、訳文では表記の都合上「下線付きq」で示している〕について
3f. 品質に対する直前の作業単位の処理時間を推定
ept←[avg()/avg(q)]pt
3g. 品質で直前の作業単位の処理時間をシミュレート
状態(sbp,rpp,pq)から始まり、規格化された処理時間ept/oldrcfをもつ
3h. 結果として得られる報酬revならびに結果として得られる相対前倒し値rpを観測
3i. スケーリングされた予算枠(3cで導出済み)、相対前倒し値rp、前回の品質に対して、可能な全品質行動′について、補間された(状態、行動)価値Qivec(sb,rp,′)を計算
3j. Qivec(sb,rp,′)の最大値をQ′とする
3k. revおよびQ′を使って(状態、行動)価値Q(sbp,rpp,pq;)を更新
Q(sb,rpp,pq;′)=Q(sb,rpp,pq;′)+β(rev+γQ′−Q(sbp,rpp,pq;))

計算における状態数を減らすため、次の技術を適用してもよい。sx=(sb,ρ,pqx)およびsy=(sb,ρ,pqy)を、前回の品質レベルそれぞれpqxおよびpqyにおいてのみ異なる格子点上の状態とする。あるフレームについての処理時間は、前のフレームに適用された品質レベルには依存しないことから、開始点で、状態sxおよびsyにおいて品質レベルqが選ばれた場合、結果として次の開始点で得られる状態は同一である。行動価値使って表すと、これはQ(sx;q)−qcp(pqx,q)=Q(sy;q)−qcp(pqy,q)ということを意味する。この観察は次のようにして計算における状態数を減らすのに用いることができる。行動価値を学習するため、二次元の格子点上の状態、すなわち、集合SBからのスケーリングされた予算枠および集合Rからの前倒し値のすべての組み合わせが使われる。三次元の格子点上の状態(sb,ρ,pq)において品質レベルqを選ぶことに対する行動価値Q′((sb,ρ,pq);q)を得るためには、学習された行動価値Q′((sb,ρ);q)に対してペナルティqcp(pq;q)が加算される。言い換えれば、Q′((sb,ρ,pq);q)=Q′((sb,ρ);q)+qcp(pq;q)である。そして行動価値Q′は学習される。このようにして、更新すべき状態数は因子|Q|だけ減少する。ここで、Qは品質レベルの集合である。
本発明の方法の記載された実施形態の順序は必須ではない。当業者であればステップの順番を変更したり、スレッディングモデルやマルチプロセッサシステム、多重プロセスを使って同時に実行したりすることが、本発明の意図する概念から乖離することなく可能であろう。
図9は、本発明に基づくシステムを概略的に示した図である。システム900はマイクロプロセッサ914、ソフトウェアバス912、メモリ916を有している。メモリ916はランダムアクセスメモリ(RAM:random access memory)でありうる。メモリ916はソフトウェアバス912を通じてマイクロプロセッサ914と通信している。メモリ916はコンピュータ可読コード902、904、906、908、910、911を有している。コンピュータ可読コード902は、次のメディアフレームについて、複数の出力品質のうちから出力品質を与えることができるよう設計されている。コンピュータ可読コード904は、前回のメディアフレームの処理時間および出力品質を次のメディアフレームの出力品質を決定するために使う自己学習制御戦略に基づいて次のメディアフレームの出力品質を設定するよう設計されている。コンピュータ可読コード906は前回のメディアフレームを処理するよう設計されている。コンピュータ可読コード908は、処理済の前回のメディアフレームの相対前倒し値、処理済の前回のメディアフレームのスケーリングされた予算枠値、処理済の前回のメディアフレームの出力品質を有する状態を決定するよう設計されている。コンピュータ可読コード910は次のメディアフレームの状態およびある可能な出力品質に基づいて報酬を決定するよう設計されている。コンピュータ可読コード911は、処理済の前回のメディアフレームの出力品質においてのみ異なる状態を軽減することによって報酬が決定される状態の数を減らすよう設計されている。当該システムはテレビの内部に含まれることもできる。さらに、コンピュータ可読コードはCDまたはDVDのようなコンピュータ可読媒体から読み込むこともできる。
上述した実施形態は本発明を解説するためのものであって、限定するものではなく、当業者であれば付属の請求項の範囲から逸脱することなく数多くの代替実施形態を設計することができるであろうことに注意しておくべきである。請求項において、括弧内に参照符号があったとしてもそれが請求項を限定するものと解釈してはならない。「有する」の語は請求項中に挙げられている要素やステップ以外の存在を排除するものではない。単数形の要素の表現は、そのような要素が複数存在することを排除するものではない。本発明は、いくつかの異なる要素を有するハードウェアによって実装することもできるし、好適にプログラミングされたコンピュータによって実装することもできる。いくつかの手段を列挙しているシステム請求項において、それらの手段のいくつかが同一のコンピュータ可読ソフトウェアまたはハードウェアによって実施されることもできる。単にある種の方策が互いに異なる従属請求項において述べられているという事実をもってしてそれらの方策の組み合わせが有利に用いることができないということを示すものではない。
強化学習におけるエージェント−環境相互作用を示す図である。 基本的なスケーラブルなビデオ処理タスクを示す図である。 例としての時系列によってタスクの処理の挙動を示す図である。 さらなる例としての時系列によってタスクの処理の挙動を示す図である。 b=P/2に対する例としての時系列を示す図である。 b=P/2に対するさらなる例としての時系列を示す図である。 マルコフ政策の空間におけるある面を示す。 3段階の品質レベルの場合の例としての状態空間を示す図である。 本発明に基づくシステムの主要部分を概略的に示す図である。

Claims (11)

  1. 次のメディアフレームの出力品質を設定する方法であって、
    該出力品質がメディア処理アプリケーションによって与えられ、
    該メディア処理アプリケーションが次のメディアフレームの複数の出力品質を提供するよう設計されており、
    前回のメディアフレームの処理時間および出力品質を次のメディアフレームの出力品質を決定するために使う自己学習制御戦略に基づいて次のメディアフレームの出力品質が設定される、ことを特徴とする方法。
  2. 前回のメディアフレームを処理し、
    処理済の前回のメディアフレームの相対前倒し値と、
    処理済の前回のメディアフレームのスケーリングされた予算枠値と、
    処理済の前回のメディアフレームの出力品質と
    を有する状態を決定し、
    次のメディアフレームの状態およびある可能な出力品質に基づいて報酬を決定する、
    ことを有することを特徴とする、請求項1記載の方法。
  3. 前記報酬が期限に遅れた回数、前回のメディアフレームの出力品質、品質変化に基づいていることを特徴とする、請求項2記載の方法。
  4. 有限の数の状態に対する報酬が決定され、該有限の数の状態はスケーリングされた予算枠値の有限集合および相対前倒し量の値の有限集合によって決定されることを特徴とする、請求項2記載の方法。
  5. 処理済の前回のメディアフレームの出力品質においてのみ異なる状態を減らすことによって報酬を決定する状態の数を減らすことを有することを特徴とする、請求項2記載の方法。
  6. 次のメディアフレームについて、複数の出力品質のうちから出力品質を与えることができるよう着想されているアプリケーション手段と、
    前回のメディアフレームの処理時間および出力品質を次のメディアフレームの出力品質を決定するために使う自己学習制御戦略に基づいて次のメディアフレームの出力品質を設定するよう着想されている制御手段とを、
    有することを特徴とする、次のメディアフレームの出力品質を設定するシステム。
  7. 前回のメディアフレームを処理する処理手段と、
    処理済の前回のメディアフレームの相対前倒し値と、
    処理済の前回のメディアフレームのスケーリングされた予算枠値と、
    処理済の前回のメディアフレームの出力品質とを
    有する状態を決定する決定手段と、
    次のメディアフレームの状態およびある可能な出力品質に基づいて報酬を決定する報酬手段とを
    有することを特徴とする、請求項6記載のシステム。
  8. 処理済の前回のメディアフレームの出力品質においてのみ異なる状態を軽減することによって報酬が決定される状態の数を減らす軽減手段、
    を有することを特徴とする、請求項7記載のシステム。
  9. 請求項1記載の方法を実行するよう設計されていることを特徴とする、コンピュータ・プログラム。
  10. 請求項9記載のコンピュータプログラムを有する記憶装置。
  11. 請求項6記載のシステムを有するテレビ。
JP2006506873A 2003-04-23 2004-04-22 メディアフレームの出力品質を設定する方法およびシステム Pending JP2006524461A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03076189 2003-04-23
PCT/IB2004/050479 WO2004095274A2 (en) 2003-04-23 2004-04-22 Method of and system to set an output quality of a media frame

Publications (1)

Publication Number Publication Date
JP2006524461A true JP2006524461A (ja) 2006-10-26

Family

ID=33305769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006506873A Pending JP2006524461A (ja) 2003-04-23 2004-04-22 メディアフレームの出力品質を設定する方法およびシステム

Country Status (5)

Country Link
EP (1) EP1618473A2 (ja)
JP (1) JP2006524461A (ja)
KR (1) KR20060013373A (ja)
CN (1) CN1777870A (ja)
WO (1) WO2004095274A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021111576A1 (ja) * 2019-12-05 2021-06-10 日本電信電話株式会社 通信制御システム、状態切替支援装置、状態切替支援方法及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102352077B1 (ko) * 2020-08-31 2022-01-18 주식회사 핀그램 고속 동영상 부호화 방법 및 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021111576A1 (ja) * 2019-12-05 2021-06-10 日本電信電話株式会社 通信制御システム、状態切替支援装置、状態切替支援方法及びプログラム
JP7318733B2 (ja) 2019-12-05 2023-08-01 日本電信電話株式会社 通信制御システム、状態切替支援装置、状態切替支援方法及びプログラム

Also Published As

Publication number Publication date
WO2004095274A2 (en) 2004-11-04
KR20060013373A (ko) 2006-02-09
EP1618473A2 (en) 2006-01-25
CN1777870A (zh) 2006-05-24
WO2004095274A3 (en) 2005-01-06

Similar Documents

Publication Publication Date Title
Wust et al. Qos control strategies for high-quality video processing
Toka et al. Machine learning-based scaling management for kubernetes edge clusters
Toka et al. Adaptive AI-based auto-scaling for Kubernetes
CN111083535B (zh) 视频数据传输码率自适应方法、系统、装置和存储介质
KR20040058299A (ko) 예산 잉여를 태스크에 할당하는 방법 및 시스템
Liubogoshchev et al. Adaptive cloud-based extended reality: Modeling and optimization
CN110009288A (zh) 调价方法、装置、设备及存储介质
CN116069512B (zh) 一种基于强化学习的Serverless高效资源分配方法及系统
CN113810954A (zh) 基于流量预测与深度强化学习的虚拟资源动态扩缩容方法
US20060192850A1 (en) Method of and system to set an output quality of a media frame
KR20040065261A (ko) 미디어 시스템 상의 미디어 신호 처리
JP2007515866A (ja) 無線媒体を通して伝送されるビデオの全体の品質を平滑化するための方法及び装置
JP2006524461A (ja) メディアフレームの出力品質を設定する方法およびシステム
US8756621B2 (en) Apparatus and method for inferring seamless service plan of video contents
EP2996293A1 (en) A packet scheduling networking device for deadline aware data flows
CN112866756A (zh) 一种多媒体文件的码率控制方法、装置、介质和设备
CN111813524A (zh) 一种任务执行方法、装置、电子设备和存储介质
JP2005512465A (ja) マルチメディアフレームの品質を設定する方法およびシステム
Mastronarde et al. Online reinforcement learning for dynamic multimedia systems
CN114826924A (zh) 用于带宽分配的方法及装置
Wüst et al. Quality control for scalable media processing applications
JP2000293501A (ja) 学習機能を備えた最適化装置および最適化方法
CN117634302B (zh) 一种动态服务组合选择方法、装置和产品
Gatimu et al. qMDP: DASH Adaptation using Queueing Theory within a Markov Decision Process
Chen et al. Razor: Scaling backend capacity for mobile applications