JP3787633B2 - 実時間コンテンツ編集システム - Google Patents

実時間コンテンツ編集システム Download PDF

Info

Publication number
JP3787633B2
JP3787633B2 JP2003115165A JP2003115165A JP3787633B2 JP 3787633 B2 JP3787633 B2 JP 3787633B2 JP 2003115165 A JP2003115165 A JP 2003115165A JP 2003115165 A JP2003115165 A JP 2003115165A JP 3787633 B2 JP3787633 B2 JP 3787633B2
Authority
JP
Japan
Prior art keywords
encoding
time
vop
real
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003115165A
Other languages
English (en)
Other versions
JP2004320667A (ja
Inventor
康之 三浦
道哲 勝本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2003115165A priority Critical patent/JP3787633B2/ja
Priority to US10/642,647 priority patent/US7440623B2/en
Publication of JP2004320667A publication Critical patent/JP2004320667A/ja
Application granted granted Critical
Publication of JP3787633B2 publication Critical patent/JP3787633B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/156Availability of hardware or computational resources, e.g. encoding based on power-saving criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、インターネット上に散在するライブ映像を含む多数の画像及び/又は音声を素材にした編集処理を行い、複数のユーザに対して配信する実時間コンテンツ編集システムに関する。
【0002】
【従来の技術】
近年の広帯域なネットワークの普及により、大容量の動画像コンテンツの配信が可能となっている。2001年以降、ADSL(Asymmetric Digital Subscriber Line)の加入者が大幅に増加したことにより、ブロードバンド環境が整いつつある。現在(2002年3月現在)、日本では、7.3%の世帯がADSLまたはCATVに加入し、1〜10Mbps程度のデータ受信および数百キロbps程度の送信が可能となっている。また、今後FTTH(Fiber To The Home)の普及が見込まれており、これにより最大で100Mbps程度の通信が可能となり、ユーザ同士で大容量の動画像を送受信することが可能になると予想される。
【0003】
それにともない、広帯域ネットワークを通じて画像・音声を配信するサービスやツールが数多く提案されている。広帯域を使用した高画質映像配信システムとして、Ruff Systems(非特許文献1参照)、DVTS(非特許文献2参照)などのシステムが提案されている。Ruff Systemsは、非圧縮のD1/HDTV映像やビデオカメラから取得したDVストリームを、TCP/IP上で配信するシステムである。非圧縮画像やDV画像を使用しているため大きな帯域を必要とするが、高画質の配信が可能という特徴を有する。狭帯域に対応したMPEG動画やH.323規格を利用しシステムやツールは多数存在する(非特許文献3〜6参照)。これらはいずれもPC上からカメラ画像をインターネット経由で受信することが可能であるが、単一の動画を対象としたアプリケーションであり、多数の動画を扱うには不向きである。
【0004】
【非特許文献1】
http://www.cnd.tel.co.jp/product/syo64.html
【非特許文献2】
http:// www.sfc.wide.ad.jp/DVTS
【非特許文献3】
ohphone: http://www.openh323.org/docs/ohphone_man.html
【非特許文献4】
FFmpeg: http://ffmpeg.sourceforge.net/
【非特許文献5】
Coriander: http://www.tele.ucl.ac.be/PEOPLE/DOUXCHAMPS/ieee1394/coriander/
【非特許文献6】
三浦康之,勝本道哲「実時間環境におけるビジュアル符号化のための実証実験」,
情報処理学会研究報告, 2002-DPS-100, pp.25-30, 2002
【0005】
【発明が解決しようとする課題】
ビデオカメラから取得した映像をその時点で配信するライブ配信を可能とするためには、符号化処理を実時間処理で行うことが求められる。実時間処理とは、外部からの連続的な入力に対し、定められた時間内に出力を返すことが要求される処理である。一秒間にfフレームの動画を配信する実時間処理システムでは、1フレームに対する編集処理およびビットストリームのパケット化を平均1/f秒以内に完了し、その場で配信しなければならない。
【0006】
上記のような目標を達成するためには、以下のアプローチが有効である。
・符号化処理を高速化し、制限時間以内に符号化処理を完了する。
・性能の異なるマシンの上で正しく動作するために、プロセスの実行時間の監視を行い、監視の結果に基づいて複数の符号化アルゴリズムから適切なものを選択する。
・符号化処理を段階的に行う。一定時間経過後に必要最小限の符号化を完了し、その後に解像度や圧縮率を高めた付加的な符号化処理を行う。制限時間がすぎた時点で付加的な符号化処理が完了しなかった場合、その時点で処理を打ち切り、直前の段階における符号化処理の結果を配信する。
【0007】
上記の考え方に基づいて、本発明の実時間コンテンツ編集システムでは、システム内でVOP(ビデオオブジェクトプレーン:Video Object Plane、フレームに相当)の符号化時間を測定し、あらかじめ定められた平均フレームレートにもとづいてフレーム間圧縮を行うか否か選択する。
【0008】
本発明者は個々のストリームを対象とした配信システムに対して、複数の画像や音声を入力とし、リアルタイムで編集・コード化して配信する作業を行う実時間コンテンツ編集システムを提案する。本システムは、MPEG-4のビデオオブジェクト(VO)および編集用言語の符号化および復号を分散環境において処理するもので、従来の配信システムに対して以下のような特長を有する。
▲1▼ 離れた複数地点からのライブ映像を用いたコンテンツ編集作業が可能
▲2▼ 各地点からの映像配信者や映像受信者は、システムの稼動中に自由に参加・離脱が可能
個々のユーザのニーズに沿ったコンテンツを提供するためには、ユーザ側に多数のビデオオブジェクト(VO)を送りコンテンツを構築するため、ユーザ側に多数のビデオオブジェクト(VO)が集中する。そのため個々のビデオオブジェクト(VO)に多くの帯域を割くことが困難となる。また、送信者がADSLのような非対称な通信サービスを使用する場合、上り側の帯域幅は下り側のそれに比べて小さなものにとどまるため、やはり ビデオオブジェクト(VO)に多くの帯域を割くことが困難となる。Ruff Systemsのように、D1非圧縮データやDV圧縮データ等の大きなデータをそのまま伝送する方式を採用した場合、必要帯域が大きいために多数のビデオオブジェクト(VO)を同時に送受信するシステムでは莫大な量の帯域が必要となる。そのため、高い圧縮率を持ち、さまざまな帯域に対応したMPEG-4ビデオオブジェクト(MPEG-4 VO)等への符号化が必要になるが、MPEG-4 VO符号化にはフレーム間圧縮に多大なCPUパワーを必要とするため、時間的制約の厳しい実時間環境下でスペックの低いマシンを用いてライブ映像の符号化を実行する場合、複雑な符号化は困難となる。個人ユーザが自宅から、あるいは持ち運び可能な程度の機材を用いて出張先等から、ライブ映像を送信する等の場合、家庭用PC程度の機材しか使用できないことが多い。他方、比較的高性能なサーバマシンを使用した場合、スペックの低いマシンを使用する場合に比べ、複雑な符号化が可能になる。このように、使用するサーバの性能により可能な処理の範囲が変わってくる。
【0009】
そこで、本発明は、係る問題点を解決して、CPUパワーに応じた符号化処理を行うことで、リアルタイムなMPEG-4 VOへの符号化を実現することを目的としている。
【0010】
【課題を解決するための手段】
本発明は、複数の画像・音声を入力とし、リアルタイムでMPEG-4ビデオオブジェクト(VO)への符号化・編集・配信を一体的に行う実時間コンテンツ編集システムを提供する。本システムは、離れた複数地点からのデジタルビデオによるライブ映像を用いたコンテンツを提供することが可能である。
【0011】
本システムは、編集・配信・受信の3種類のモジュールにより構成され、配信・受信の各モジュールはシステムの稼動中に自由に参加・離脱が可能である。また、配信モジュールは使用するマシンの性能により使用するVOPの種類および頻度を変更することにより、圧縮効率の良い符号化法を自動で選択することが可能である。
【0012】
本発明の実時間コンテンツ編集システムは、インターネット上に散在するライブ映像を含む多数の画像及び/又は音声を素材にした編集処理を行い、複数のユーザに対して配信する。本発明は、入力装置としての複数のビデオカメラと、複数の符号化アルゴリズムの内の1つを選択して符号化可能の符号化規格を用いて、前記ビデオカメラによる入力画像及び/又は音声を符号化して配信する複数の配信モジュールと、前記配信モジュールから配信された画像及び/又は音声を受信して表示する受信モジュールと、前記配信モジュールに指示して、画像及び/又は音声を前記受信モジュールに配信させる少なくとも一つの編集モジュールとを備えている。前記配信モジュールは、使用するマシンの性能に応じて、使用するビデオオブジェクトプレーンVOPの種類および使用頻度を変更することにより、圧縮効率の良い符号化アルゴリズムを選択し、かつ、この選択された符号化アルゴリズムによる符号化処理を段階的に行い、一定時間経過後に必要最小限の符号化を完了し、その後に解像度や圧縮率を高めた付加的な符号化処理を行い、制限時間がすぎた時点で付加的な符号化処理が完了しなかった場合、その時点で処理を打ち切り、直前の段階における符号化処理の結果を配信することを特徴としている。
【0013】
【発明の実施の形態】
(実時間コンテンツ編集システム構成)
実時間コンテンツ編集システムは、インターネット上に散在する、ライブ映像を含む多数の画像・音声を素材にした編集処理を行い、複数のユーザに対して配信するシステムである。本システムは、既存のさまざまな環境に柔軟に対応するため、各種回線・マシンによらず動作することを目指している。そのため、画像の符号化として、高い圧縮率を持ちさまざまな帯域に対応したMPEG-4規格を用いる。さらに、複数の画像・音声の編集のために、シーン記述言語を使用する。
【0014】
図1に、構築するシステムの概念図を示す。本システムは、入力装置として複数のビデオカメラと、それらによる入力画像を符号化して配信する複数の配信モジュール、画像を受信して表示する受信モジュール、および少なくとも一つの編集モジュールから構成される。また、例示のシステムは、1つの配信サーバと、1つの編集サーバと、2つのクライアントがインターネットを介して接続されるものとして示している。編集モジュールは、編集サーバに配置され、かつ、配信モジュールは、配信サーバに配置するだけでなく、編集サーバにも配置されるものとして例示している。受信モジュールは、クライアントのそれぞれに配置され、かつ、一方のクライアントには、受信モジュールに加えて、配信モジュールも配置されるものとして例示している。図中、DV(Digital Video)ストリーム、MPEG-4 VO、マルチキャスト要求、入出力要求、シーン記述は、それぞれ線の種類を異にする矢印によって示している。
【0015】
編集モジュールはオペレータからの指示に従い配信サーバに対する画像・音声のマルチキャスト要求を実際に行い、クライアントへ送信するシーン記述言語の生成およびマルチキャストを担当する。配信モジュールは、入力装置からDV(Digital Video)形式で取り込まれた画像・音声のMPEG-4符号化を行い、複数のクライアントに対しインターネットを介してパーソナライズメディアストリーム配信によるマルチキャストを行う。受信モジュールを持つクライアントでは、複数のMPEG-4画像音声データおよびシーン記述に基づいて動画像を表示する。ビデオカメラと、配信モジュールを含む装置は、IEEE1394ポートを介して接続される。IEEE1394ポートは、多くのDV機器に備えられており、高速な上に一定周期でデータを送受信するアイソクロナス転送をサポートしているため、映像音声データの送受信に適している。
【0016】
配信モジュール、受信モジュール、編集モジュールとしては任意の形態が考えられる。例えば、汎用のサーバマシン上のプログラムとして配置することもできるし、家庭用PC上で動作させても構わない。また、PCに対する組み込みシステムとして、専用のPCカードの形態を取ることも考えられる。
【0017】
(配信モジュールにおけるDV-MPEG変換器)
1) 構成
実時間処理の可能なコンテンツ編集システムでは、送信者側からデジタルビデオカメラを使用して手持ちのPCを配信サーバとして画像を配信することも、職場の会議室などから高スペックのサーバマシンを使用して配信することも可能である。前者の場合、後者に比べて低スペックなPCを使用することが多く、複雑な符号化処理を行うのは困難である。後者の場合、より複雑な符号化処理が可能であるが、サーバマシンのスペックにより利用可能な符号化の種類が異なる。また、送信者が使用する回線の帯域による制限も存在する。送信側でADSLのような非対称な回線を使用していた場合、上り回線の帯域が数百キロbpsと、下り回線に比べて大きく制限される。以上のような理由から、配信側の実情に合った符号化を行う必要がある。
【0018】
多くの場合、動画質の維持の観点から一定以上のフレームレートを保つことが求められる。そのため本システムではR(flames/s)(R:所定数)以上のフレームレートを維持するという拘束条件が課せられるものとする。
【0019】
I-VOPのみを使用して符号化を行う場合、フレーム間圧縮に関わる部分である動き補償が不必要になるため、直前にエンコードした画像が不必要になる。したがって、符号化後の画像に対する逆量子化や逆DCT(離散コサイン変換)を省略することができるため、大幅に符号化時間を短縮することができる(非特許文献6参照)が、符号化後の符号量が大きくなることや任意形状の符号化が行えないことが問題となる。なお、I-VOPとは、入力画像をブロックに分け、ブロック毎にDCTを施してから量子化し、この量子化したDCT係数を可変長符号化(Intra 符号化)したVOPを表している。
【0020】
符号量が大きくなる問題については、MPEG-4規格では量子化スケールを設定できるため符号量の調節が可能だが、量子化スケールを大きく設定するに従って画質が悪化するため、変換器を搭載するホストのCPUパワーに余力がある場合にはフレーム間圧縮も行うことが望ましい。そのため、フレーム間圧縮の可能なP-VOP(前方予測符号化されたVOP)やB-VOP(双方向予測符号化されたVOP)を含めた符号化の可能な変換器を構築する。
【0021】
図2に、DVデータをMPEG符号化データに変換する変換器の構成を示す。この変換器構成自体、及びその動作は周知である。本発明は、符号化処理を行うに際して、図2中のすべての符号化処理を、基本処理と付加的処理に分類する。うち基本処理とは最低限必要な符号化処理、付加的処理は処理時間に余裕がある時にのみ行う処理である。図2中、太枠で示された各処理、「可変長復号」「逆量子化」「逆DCT」「再構成」「DCT」「量子化」「可変長符号化」は基本処理に該当する。これらは、全VOPをI-VOPとした時に必要となる最小限度の処理である。これに対して、「AC/DC予測」「逆量子化」「逆DCT」「動き補償」「動き情報符号化」は付加的処理と定義される。これらのうち「AC/DC予測」はI-VOPおよびP-VOPに対して符号量を節約するために用いられ、他の各処理はP-VOPおよびB-VOPによるフレーム間圧縮のために用いられる。
【0022】
2) 配信モジュールにおける符号化処理
例示のシステムでは、P-VOPやB-VOPを使用するか否かと、それらの使用頻度を決定するため、各種処理の符号化実行時間を計測して1VOPあたりの平均符号化時間を予測し、定められたアルゴリズムに従って判定を行う。図3は、このような配信モジュールにおける符号化処理を説明する図である。
【0023】
ステップS1:
上述したように、符号化処理を、基本処理と付加的処理に分類する。
【0024】
ステップS2:
配信モジュール起動時にIBPBIBPBIBPB….の順に入力画像の符号化を行って各種VOPについて複数個分の処理時間計測を行い、各種処理に要する平均処理時間を測定する。ここで、I、B、Pはそれぞれ、I-VOP、B-VOP、P-VOPをそれぞれ表している。
【0025】
この処理時間計測では、DVデコーダにおける「可変長復号」「逆量子化」「逆DCT」「ブロック再構成」、MPEG-4エンコーダにおける「DCT」「量子化」「可変長符号化」「AC/DC予測」「逆量子化」「逆DCT」「動き補償」「動き情報符号化」の1VOPあたりの処理時間を計測して平均値を求める。これらのうち、「動き補償」はP-VOPとB-VOPで異なる処理を行っており処理時間が大きく異なるため、それぞれ別個に平均値を求める。このようにして、各種処理の符号化実行時間を計測する。
【0026】
各VOPの符号化に必要な時間について、さらに説明する。全VOPの符号化をI-VOPのみを使用して実行する場合、最短の時間で符号化することが可能であるが、P-VOPやB-VOPを使用した符号化を行う場合、前後のVOPと動き補償を行うための参照画像を用意する必要があるため、逆量子化や逆DCTが必要になる。したがって、同一VO内でP-VOPやB-VOPを使用するか否かにより、I-VOPの符号化に必要な時間が異なる。評価に必要な各パラメータを以下のように定義する。
min:最小限の符号化に必要とされる時間
ACDC(n):n番目のVOPのAC/DC予測に要する時間
IQ:逆量子化に必要な時間
IDCT:逆DCTに必要な時間
Tc:動き情報符号化に要する時間
M(n): n番目のVOPの動き補償に要する時間
【0027】
上記のうち、TMとTACDCを除く各数値は使用するマシンのスペックや対象画像の大きさに対して固定値を取る。これに対し、途中で動き補償の処理を中断しても中断結果を用いた符号化が可能なため、TMは可変値に設定することが可能である。また、AC/DC予測はフレームごとに行う/行わないの決定が可能なため、やはり可変値を取る。具体的には、TMはP-VOPでは0≦TM(n)≦TM-Pmax、B-VOPでは0≦TM(n)≦TM-Bmaxのいずれかの値、TACDCは、0もしくはTACDCmaxのいずれかの値を取る。ここで、TM-Pmax、TM-Bmax、TACDCmaxはそれぞれ、P-VOPおよびB-VOPにおいてすべてのマクロブロックに対する動き補償を行う際に要する時間、およびAC/DC予測を実行した場合に1VOPあたりのAC/DC予測に要する時間と定義される。上記の各パラメータは、以下の処理時間を計測し、その平均値を算出することにより得られる。
【0028】
min: DVデコーダにおける「可変長復号」「逆量子化」「逆DCT」「ブロック再構成」、MPEG-4エンコーダにおける「DCT」「量子化」「可変長符号化」の処理時間の合計
ACDCmax: 「AC/DC予測」の処理時間
IQ: MPEG-4エンコーダにおける「逆量子化」の処理時間
IDCT: MPEG-4エンコーダにおける「逆DCT」の処理時間
Tc: 「動き情報符号化」の処理時間
M-Pmax: P-VOPにおける「動き補償」の処理時間
M-Bmax: B-VOPにおける「動き補償」の処理時間
なお、上記のうち「動き補償」は、完全に処理を実行した際の処理時間を計測するものとしている。
【0029】
各VOPの符号化時間は、以下のようになる。
I-VOPの符号化
・ 他のVOPでP-VOPやB-VOPを使用しない場合
T(n)=Tmin+TACDC(n) (1)
・ 他のVOPでP-VOPやB-VOPを使用する時
T(n)=Tmin+TACDC(n)+TIQ+TIDCT (2)
P-VOP、B-VOPの符号化
T(n)=Tmin+TACDC(n)+TIQ+TIDCT+Tc+TM(n) (3)
N個のVOP中に出現するI-VOP 、P-VOP、B-VOPの数をそれぞれNIVOP、NPVOP、NBVOPと置くと、N個のVOPにおける符号化時間の合計は
Ttotal=ΣI-VOP T(n)+ΣP-VOP T(n)+ΣB-VOP T(n)
=NIVOP(Tmin+TIQ+TIDCT)+ΣI-VOPACDC(n)
+NPVOP(Tmin+TIQ+TIDCT+Tc)+ΣP-VOP(TACDC(n)+TM(n))
+NBVOP(Tmin+TIQ+TIDCT+Tc)+ΣB-VOP(TACDC(n)+TM(n))
=N×(Tmin+TIQ+TIDCT)+(NPVOP +NBVOP)Tc
+Σall-VOPACDC(n)+ΣP-VOPM(n)+ΣB-VOPM(n) (4)
その際の1フレームの平均符号化時間は
Tave=Ttotal/N=Tmin+TIQ+TIDCT+Tc(NPVOP +NBVOP)/N
+(Σall-VOPACDC(n)+ΣP-VOPM(n)+ΣB-VOPM(n))/N (5)
M、TACDCの各値が可変であることから、(5)式のうち、Σで示された各項目を自由に定めることができる。TACDCmaxはTM-Pmaxの数分の一程度であり、TM-PmaxはTM-Bmaxの数分の一程度であることから、AC/DC予測、P-VOPの動き補償、B-VOPの動き補償の順に優先的に符号化時間を配分する。実際にはAC/DC予測の符号化全体に占める時間割合は小さな値のため、通常はAC/DC予測を実行するものとして説明する。
【0030】
ステップS3:
ステップ2で測定された平均処理時間の値を用いて、VOP判定アルゴリズムに従って使用するVOPの種類および頻度を決定する。
【0031】
目標フレームレートをRと置くと、1フレームの目標平均符号化時間は1/Rとなる。(5)式より、N個のVOP中においてNPVOP個のP-VOPを使用して完全に動き補償を実行する際の平均符号化時間は、
Tave=Tmin+TIQ+TIDCT+(Tc +TM-Pmax)NPVOP/N+TACDCmax (6)
となる。したがって、N個のVOP中においてNPVOP個のP-VOPを使用するための最低条件は
1/R ≧ Tmin+TIQ+TIDCT+(Tc +TM-Pmax)NPVOP/N+TACDCmax (7)
となる。また、N個のVOP中においてNPVOP個のP-VOPおよびNBVOP個のB-VOPを使用して、P-VOPおよびB-VOP中のすべてのマクロブロックに対して完全に動き補償を行った場合、平均符号化時間は
Tave= Tmin+TIQ+TIDCT+(Tc +TM-Pmax)NPVOP/N
+(Tc +TM-Bmax)NBVOP/N+TACDCmax (8)
となる。したがって、N個のVOP中においてNPVOP個のP-VOPおよび NBVOP個のB-VOPを使用するための条件は
1/R ≧ Tmin+TIQ+TIDCT+(Tc +TM-Pmax)NPVOP/N
+(Tc +TM-Bmax)NBVOP/N+TACDCmax (9)
となる。
【0032】
実際には各VOPの比率は自由に変更できるわけではなく、2個のI-VOP間に挟まれるP-VOPの数や、2個のI-VOPもしくはP-VOPの間に挟まれるB-VOPの数を変更することにより比率が決定される。連続する2個のI-VOPの間に挟まれるP-VOPの数に1を加えたものをNp、連続する2個のI-VOPもしくは P-VOPの間に挟まれるB-VOPの数に1を加えたものをNbと定義すると、N個の連続したVOPに含まれる各VOPの数は以下のようになる。
NIVOP=N/Np Nb (10)
NPVOP=(Np−1)N/Np Nb (11)
NBVOP=(Nb−1)N/Nb (12)
このようにすると、(7)式および(9)式は以下のようになる。
1/R ≧ Tmin+TIQ+TIDCT+(Tc+TM-Pmax)(Np−1)/Np Nb
+TACDCmax (13)
1/R ≧Tmin+TIQ+TIDCT+(Tc+TM-Pmax)(Np−1)/Np Nb
+(Tc+TM-Bmax)(Nb−1)/Nb+TACDCmax (14)
適正なNBVOP、NPVOPを決定するためのアルゴリズムを図4に示す。アルゴリズムの入力TおよびRは、それぞれ各符号化処理の処理時間および目標フレームレートである。うちTは、全ての符号化処理時間を含み、T=[Tmin, TACDC, TIQ, TIDCT, Tc, TM-Pmax, TM-Bmax ]で示される。
【0033】
始めに、NBVOP=1、NPVOP=2で(13)式の判定を行う。これで全VOPの動き補償が可能なようならNPVOPを二倍ずつ増やして判定する。これを、あらかじめ設定されている最大値であるNPVOPmaxに達するまで判定を続ける。この途中で(13)式を満たさない条件が得られた場合、NPVOPを直前の値に戻して、I-VOPとP-VOPを使用した符号化を行う。
【0034】
NPVOP=NPVOPmaxに達してもなお全VOPの動き補償が可能なようならNBVOP=2とし、以後二倍ずつ増やして(14)式の判定を行い、NBVOPmaxに達するまで判定を続ける。この途中で(14)式を満たさない条件が得られた場合、NBVOPを直前の値に戻して、全種類のVOPを使用した符号化を行う。その際、NBVOPを増やしてゆくに従ってI-VOPが減るので、I-VOPの比率を一定に保つため、NBVOPを二倍にするたびにNPVOPを二分の一にする。
【0035】
ステップS4:
ステップS3で決定されたVOPの種類及び頻度に従って符号化を続けてゆく。
【0036】
【発明の効果】
本発明は、複数の画像・音声を扱った編集・配信作業が可能なシステムを、編集・配信・受信の3種類のモジュールにより構成し、その配信モジュールを使用するマシンの性能に応じて使用するVOPの種類を変更することにより、可能な限り圧縮効率の良い符号化法を自動で選択することが可能となる。
【図面の簡単な説明】
【図1】構築するシステムの概念図を示す。
【図2】変換器の構成を示す図である。
【図3】配信モジュールにおける符号化処理を説明する図である。
【図4】適正なNBVOP、NPVOPを決定するためのアルゴリズムを示す図である。

Claims (4)

  1. インターネット上に散在するライブ映像を含む多数の画像及び/又は音声を素材にした編集処理を行い、複数のユーザに対して配信する実時間コンテンツ編集システムにおいて、
    入力装置としての複数のビデオカメラと、複数の符号化アルゴリズムの内の1つを選択して符号化可能の符号化規格を用いて、前記ビデオカメラによる入力画像及び/又は音声を符号化して配信する複数の配信モジュールと、前記配信モジュールから配信された画像及び/又は音声を受信して表示する受信モジュールと、前記配信モジュールに指示して、画像及び/又は音声を前記受信モジュールに配信させる少なくとも一つの編集モジュールと、から構成されて、
    前記配信モジュールは、使用するマシンの性能に応じて、使用するビデオオブジェクトプレーンVOPの種類および使用頻度を変更することにより、圧縮効率の良い符号化アルゴリズムを選択し、かつ、この選択された符号化アルゴリズムによる符号化処理を段階的に行い、一定時間経過後に必要最小限の符号化を完了し、その後に解像度や圧縮率を高めた付加的な符号化処理を行い、制限時間がすぎた時点で付加的な符号化処理が完了しなかった場合、その時点で処理を打ち切り、直前の段階における符号化処理の結果を配信する、
    ことから成る実時間コンテンツ編集システム。
  2. 前記マシンの性能は、プロセスの実行時間の監視を行うことによって行い、監視の結果に基づいて複数の符号化アルゴリズムから適切なものを選択する請求項1に記載の実時間コンテンツ編集システム。
  3. 前記プロセスの実行時間の監視は、システム内でビデオオブジェクトプレーンVOPの符号化時間を測定し、あらかじめ定められた平均フレームレートにもとづいてフレーム間圧縮を行うか否か選択する請求項2に記載の実時間コンテンツ編集システム。
  4. 前記符号化規格は、MPEG-4規格である請求項1に記載の実時間コンテンツ編集システム。
JP2003115165A 2003-04-21 2003-04-21 実時間コンテンツ編集システム Expired - Lifetime JP3787633B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003115165A JP3787633B2 (ja) 2003-04-21 2003-04-21 実時間コンテンツ編集システム
US10/642,647 US7440623B2 (en) 2003-04-21 2003-08-19 Real-time contents editing method, system, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003115165A JP3787633B2 (ja) 2003-04-21 2003-04-21 実時間コンテンツ編集システム

Publications (2)

Publication Number Publication Date
JP2004320667A JP2004320667A (ja) 2004-11-11
JP3787633B2 true JP3787633B2 (ja) 2006-06-21

Family

ID=33157073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003115165A Expired - Lifetime JP3787633B2 (ja) 2003-04-21 2003-04-21 実時間コンテンツ編集システム

Country Status (2)

Country Link
US (1) US7440623B2 (ja)
JP (1) JP3787633B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9038108B2 (en) 2000-06-28 2015-05-19 Verizon Patent And Licensing Inc. Method and system for providing end user community functionality for publication and delivery of digital media content
US20070089151A1 (en) * 2001-06-27 2007-04-19 Mci, Llc. Method and system for delivery of digital media experience via common instant communication clients
US8972862B2 (en) 2001-06-27 2015-03-03 Verizon Patent And Licensing Inc. Method and system for providing remote digital media ingest with centralized editorial control
US8990214B2 (en) 2001-06-27 2015-03-24 Verizon Patent And Licensing Inc. Method and system for providing distributed editing and storage of digital media over a network
US7970260B2 (en) 2001-06-27 2011-06-28 Verizon Business Global Llc Digital media asset management system and method for supporting multiple users
US9076311B2 (en) 2005-09-07 2015-07-07 Verizon Patent And Licensing Inc. Method and apparatus for providing remote workflow management
US9401080B2 (en) 2005-09-07 2016-07-26 Verizon Patent And Licensing Inc. Method and apparatus for synchronizing video frames
US8631226B2 (en) 2005-09-07 2014-01-14 Verizon Patent And Licensing Inc. Method and system for video monitoring
US20070107012A1 (en) * 2005-09-07 2007-05-10 Verizon Business Network Services Inc. Method and apparatus for providing on-demand resource allocation
KR101547151B1 (ko) * 2008-12-26 2015-08-25 삼성전자주식회사 영상 처리 방법 및 장치
US8656290B1 (en) * 2009-01-08 2014-02-18 Google Inc. Realtime synchronized document editing by multiple users
WO2012061297A1 (en) 2010-11-02 2012-05-10 Google Inc. Realtime synchronized document editing by multiple users for blogging
US10318618B2 (en) * 2014-06-18 2019-06-11 Microsoft Technology Licensing, Llc Consistent views of partitioned data in eventually consistent systems
US10353716B2 (en) * 2017-11-13 2019-07-16 International Business Machines Corporation Automated deployment and performance evaluation of a virtualized-computing environment
US12088821B1 (en) * 2020-06-30 2024-09-10 Amazon Technologies, Inc. Dynamic encoder-time scaling service for live and on-demand adaptive streaming
CN114429506B (zh) * 2022-01-28 2024-02-06 北京字跳网络技术有限公司 图像处理方法、装置、设备、存储介质和程序产品

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5677969A (en) * 1995-02-23 1997-10-14 Motorola, Inc. Method, rate controller, and system for preventing overflow and underflow of a decoder buffer in a video compression system
JP3516585B2 (ja) * 1997-03-17 2004-04-05 松下電器産業株式会社 データ処理装置及びデータ処理方法
ES2259827T3 (es) * 1998-10-13 2006-10-16 Matsushita Electric Industrial Co., Ltd. Regulacion de los requisitos de calculo y de memoria de un tren de bits comprimido en un decodificador de video.
JP4208315B2 (ja) * 1998-12-25 2009-01-14 キヤノン株式会社 データ通信制御装置及びその制御方法、データ通信システム、記録媒体
JP2001346216A (ja) * 2000-06-06 2001-12-14 Toshiba Corp 動画像圧縮方法および情報処理装置
JP3670566B2 (ja) * 2000-10-03 2005-07-13 日本電信電話株式会社 処理時間適応画像符号化方法およびそのプログラムの記録媒体

Also Published As

Publication number Publication date
US20040210823A1 (en) 2004-10-21
JP2004320667A (ja) 2004-11-11
US7440623B2 (en) 2008-10-21

Similar Documents

Publication Publication Date Title
JP3787633B2 (ja) 実時間コンテンツ編集システム
CA2445113C (en) Multi-rate transcoder for digital streams
JP5072996B2 (ja) 三次元ビデオ符号化に関するシステム及び方法
KR101365882B1 (ko) 멀티미디어 회의 호에 대한 시각적 구성의 관리 기법
EP1633120A2 (en) Method, apparatus, system, and program for switching image coded data
CN101001371B (zh) 视频转码的方法及其装置
US6879634B1 (en) Method and system for transmitting media streams over a variable bandwidth network
US8571027B2 (en) System and method for multi-rate video delivery using multicast stream
WO2011030811A1 (ja) 配信システム、ゲートウェイ、配信方法及びプログラム
CN101335886A (zh) 数据通信装置及数据通信方法
CN104935952B (zh) 一种视频转码方法和系统
CN111147860A (zh) 一种视频数据的解码方法及装置
CN105979284B (zh) 移动终端视频共享方法
US6337882B1 (en) Method and apparatus for generating unlimited selected image views from a larger image
Fujii et al. Digital cinema and super-high-definition content distribution on optical high-speed networks
CN106998328A (zh) 一种视频传输方法及装置
KR102312668B1 (ko) 비디오 트랜스코딩 시스템
CN210958813U (zh) 一种处理设备
JP2006333266A (ja) 映像通信装置、映像配信サーバ、双方向映像通信システム、及びプログラム
WO2010086021A1 (en) Method and apparatus for efficient downstream video processing based on upstream metric processing and provision
JP4010270B2 (ja) 画像符号化伝送装置
Miura et al. An overview of a real-time contents edition system for MPEG-4
JP7408798B2 (ja) 遠隔端末用の没入型テレビ会議およびテレプレゼンスのためのrtcpビューポートのシグナリングにおけるイベントベースのトリガ間隔
KR100704116B1 (ko) 멀티미디어 서비스를 위한 다중 실시간 인코딩 방법 및 그서버 장치
Bienik et al. The objective comparison of recent video compression formats for visual weather prediction

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060214

R150 Certificate of patent or registration of utility model

Ref document number: 3787633

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term