JP2011216986A - Video transmission system, transmitting device, and repeating apparatus - Google Patents

Video transmission system, transmitting device, and repeating apparatus Download PDF

Info

Publication number
JP2011216986A
JP2011216986A JP2010080802A JP2010080802A JP2011216986A JP 2011216986 A JP2011216986 A JP 2011216986A JP 2010080802 A JP2010080802 A JP 2010080802A JP 2010080802 A JP2010080802 A JP 2010080802A JP 2011216986 A JP2011216986 A JP 2011216986A
Authority
JP
Japan
Prior art keywords
video
group
packet
attribute information
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010080802A
Other languages
Japanese (ja)
Inventor
Toshio Suzuki
敏雄 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2010080802A priority Critical patent/JP2011216986A/en
Publication of JP2011216986A publication Critical patent/JP2011216986A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To make the transmission delay of video data small by being compared with such a technique for selecting packet groups of a new processing object by analyzing a sufficient amount of information about processed packet groups while suppressing a deterioration in the quality of video data transferred to a receiving device.SOLUTION: The receiving device 30 transmits a request including a file name being an identifier of video data to a video transmitting device 10. The video transmitting device 10 receives the request transmitted from a plurality of receiving devices 30, specifies an encoding condition, such as the maximum number of pixels optimal to the group of the receiving devices 30 and the number of hierarchies during encoding, and hierarchically encodes the video data according to the encoding condition. A video repeating apparatus 20 extracts a packet corresponding to a specific hierarchy or transfers all of the packets to a destination as they are in accordance with each of the receivers 30, for each receiving device 30 included in the plurality of receiving devices 30 when relaying a packet in the hierarchically encoded video data.

Description

本発明は、階層符号化された映像データを送信するための技術に関する。   The present invention relates to a technique for transmitting hierarchically encoded video data.

映像データの送信元である送信装置から、例えば携帯電話機、SDTV(Standard Definition Television)またはHDTV(High Definition Television)などの複数の受信装置に対して映像データを送信する場合に、各々の受信装置の処理の性能に応じた品質の映像データを送信することがある。この種の技術として、送信対象の映像データを品質の高いデータから品質の低いデータへと階層的に符号化し、送信先の受信装置の処理性能に応じて、一部あるいは全部の階層のデータを選択的に送信する、階層符号化という技術がある。階層符号化の規格として、ISO/IEC14496−10 MPEG4 Advanced Video Coding、ITU−T H.264 Annex Gなどがある。   When transmitting video data from a transmission device that is a transmission source of video data to a plurality of reception devices such as a mobile phone, an SDTV (Standard Definition Television), or an HDTV (High Definition Television), for example, In some cases, video data of quality corresponding to the processing performance is transmitted. As this type of technology, video data to be transmitted is hierarchically encoded from high quality data to low quality data, and depending on the processing performance of the receiving device at the transmission destination, data of some or all layers is There is a technique called hierarchical encoding that is selectively transmitted. As a standard of hierarchical coding, ISO / IEC 14496-10 MPEG4 Advanced Video Coding, ITU-T H.264, etc. H.264 Annex G.

送信装置、或いはこの送信装置と受信装置との間のデータ伝送を中継する中継装置は、要求される品質に応じて、階層符号化された映像データのパケットをその階層単位で選択して受信装置に宛てて送信するという送信制御を行う。この場合、送信装置或いは中継装置において或るパケットを処理する時点で、その処理対象パケットが映像データ全体においてどのような意味を持つのかを特定するべく、それまでに処理済のパケット群に関する情報を分析することで、後続して発生するパケット群に対する予測を行う。そして、送信装置或いは中継装置は、この予測結果に基づいて、処理対象であるパケットを送信すべきか或いは廃棄しても問題ないのかということを判断する(例えば特許文献1参照)。   A transmission apparatus or a relay apparatus that relays data transmission between the transmission apparatus and the reception apparatus selects a hierarchically encoded video data packet in units of the hierarchy according to the required quality, and the reception apparatus Transmission control is performed to transmit to In this case, at the time when a certain packet is processed in the transmission device or the relay device, in order to specify what the processing target packet has in the entire video data, information on the packet group that has been processed so far is stored. By performing analysis, prediction is performed for a subsequent packet group. Based on the prediction result, the transmission device or the relay device determines whether the packet to be processed should be transmitted or discarded without any problem (see, for example, Patent Document 1).

再公表公報 WO2007/015482Republished publication WO2007 / 015482

しかしながら、特許文献1に記載の技術では、上記分析を行うのに十分な量の映像データを蓄積してからその分析を行っているから、例えば、送信装置と受信装置との間の伝送経路に中継装置が多段にカスケード方式で接続されているような場合、各々の中継装置で上述の分析処理が何度も行われることになり、カスケード接続の段数に応じて、映像データの送信遅延が発生してしまうという問題がある。
そこで、本発明は、受信装置に届けられる映像データの品質の低下を抑制しつつ、処理済のパケット群に関する十分な量の情報を分析することで新たな処理対象のパケット群の選別を行うような技術と比較して、その映像データの送信遅延を小さくすることを目的とする。
However, in the technique described in Patent Document 1, since the analysis is performed after accumulating a sufficient amount of video data to perform the above analysis, for example, in the transmission path between the transmission device and the reception device. When relay devices are connected in multiple stages in cascade, the above-described analysis processing is performed many times in each relay device, and transmission delay of video data occurs depending on the number of cascade connection stages. There is a problem of end up.
Therefore, the present invention selects a new packet group to be processed by analyzing a sufficient amount of information about a processed packet group while suppressing a deterioration in the quality of video data delivered to the receiving apparatus. The purpose is to reduce the transmission delay of the video data as compared with a simple technique.

上述の課題を解決するため、本発明は、空間階層及び時間階層で階層符号化された複数のピクチャからなる映像データを、当該映像データの宛先である受信装置に宛てて送信する送信装置と、前記映像送信装置と前記受信装置との間で前記映像データの中継を行う中継装置とを備え、前記送信装置は、階層符号化された前記映像データの内容を、予め決められた数のピクチャ群からなるグループ単位で分析する分析手段と、前記分析手段による分析結果に基づいて、各々の前記グループに含まれるピクチャ群によって表される映像の動きが大きい動画モードであるか、または、当該ピクチャ群によって表される映像の動きが小さい静止画モードであるかを表すグループ属性情報を、各々の前記グループについて生成する属性情報生成手段と、階層符号化された前記映像データと生成された前記グループ属性情報とをカプセル化してパケット群を生成し、前記受信装置に宛てて送信する送信手段とを有し、前記中継装置は、前記パケット群を受信する受信手段と、前記受信手段によって受信されたパケット群に含まれるグループ属性情報が前記動画モードを表している場合には、空間階層よりも時間階層に重みをおいてパケットを選別する手順を含む第1の関数を用い、また、前記グループ属性情報が前記静止画モードを表している場合には、時間階層よりも空間階層に重みをおいてパケットを選別する手順を含む第2の関数を用い、各々の前記グループ属性情報に対応するグループに含まれるパケット群から、送信対象となるパケットを抽出する抽出手段と、前記抽出手段によって抽出されたパケットを受信装置に宛てて転送する転送手段とを備えることを特徴とする映像送信システムを提供する。   In order to solve the above-described problem, the present invention provides a transmission device that transmits video data composed of a plurality of pictures that are hierarchically encoded in a spatial hierarchy and a temporal hierarchy to a reception device that is a destination of the video data; A relay device that relays the video data between the video transmission device and the reception device, wherein the transmission device converts a content of the video data that has been hierarchically encoded into a predetermined number of picture groups. Analysis means for analyzing in units of groups, and based on the analysis result by the analysis means, the video mode represented by the picture group included in each of the groups is a moving image mode, or the picture group Attribute information generating means for generating, for each of the groups, group attribute information indicating whether the motion of the video represented by is a still image mode; A transmission unit configured to encapsulate the layer-encoded video data and the generated group attribute information to generate a packet group and transmit the packet group to the reception device, and the relay device includes the packet group And when the group attribute information included in the packet group received by the receiving unit represents the video mode, a procedure for selecting packets with a weight on the time layer rather than the space layer And when the group attribute information represents the still image mode, a second function including a procedure for selecting packets with a weight in the space layer rather than the time layer And extracting means for extracting a packet to be transmitted from a packet group included in a group corresponding to each of the group attribute information, and by the extracting means To provide a video transmission system comprising: a transfer means for transferring destined to the reception device out packets.

好ましい態様において、前記第1の関数及び第2の関数は、前記受信装置における映像の表示に関する性能に応じたパケットを抽出する手順を含むようにしてもよい。   In a preferred aspect, the first function and the second function may include a procedure for extracting a packet according to performance related to video display in the receiving apparatus.

また、別の好ましい態様においては、前記送信装置において、前記分析手段は、階層符号化された前記映像データが表す映像で表現されたシーンの変化の有無又は当該映像内のオブジェクトの動き量の少なくともいずれか一方と、当該映像の精細度とに関して、前記分析を行い、前記属性情報生成手段は、前記分析手段による分析結果が、前記シーンの変化が有ること又は前記オブジェクトの動き量が閾値以上という内容である場合には、前記動画モードであると判断して、動画モードであることを表すグループ属性情報を生成し、前記分析手段による分析結果が、前記シーンの変化が無いこと又は前記オブジェクトの動き量が閾値未満であり、且つ前記精細度が閾値以上という内容である場合には、前記静止画モードであると判断して、静止画モードであることを表すグループ属性情報を生成するようにしてもよい。   In another preferable aspect, in the transmission device, the analysis means includes at least the presence or absence of a scene change represented by the video represented by the video data that has been hierarchically encoded, or the amount of movement of an object in the video. The attribute information generation means performs an analysis on either one and the definition of the video, and the attribute information generation means indicates that the analysis result by the analysis means that the scene has changed or the amount of motion of the object is greater than or equal to a threshold value. If it is the content, it is determined that the video mode is selected, and group attribute information indicating the video mode is generated, and the analysis result by the analysis means indicates that the scene has not changed or the object If the amount of motion is less than the threshold and the definition is greater than or equal to the threshold, it is determined that the still image mode is set, and It may generate a group attribute information indicating that the image mode.

また、本発明は、空間階層及び時間階層で階層符号化された複数のピクチャからなる映像データを、当該映像データの宛先である受信装置に宛てて送信する送信装置であって、階層符号化された前記映像データの内容を、予め決められた数のピクチャ群からなるグループ単位で分析する分析手段と、前記分析手段による分析結果に基づいて、各々の前記グループに含まれるピクチャ群によって表される映像の動きが大きい動画モードであるか、または、当該ピクチャ群によって表される映像の動きが小さい静止画モードであるかを表すグループ属性情報を、各々の前記グループについて生成する属性情報生成手段と、階層符号化された前記映像データと生成された前記グループ属性情報とをカプセル化してパケット群を生成し、前記受信装置に宛てて送信する送信手段とを備えることを特徴とする送信装置を提供する。   The present invention also relates to a transmission device that transmits video data composed of a plurality of pictures hierarchically encoded in a spatial hierarchy and a temporal hierarchy to a reception device that is a destination of the video data, and is hierarchically encoded. In addition, the content of the video data is represented by an analysis unit that analyzes a predetermined number of groups of pictures, and a group of pictures included in each group based on an analysis result by the analysis unit. Attribute information generating means for generating, for each of the groups, group attribute information indicating whether the video mode has a large video motion or a still image mode in which the video motion represented by the picture group is small. Generating a packet group by encapsulating the hierarchically encoded video data and the generated group attribute information; Further comprising a transmission means for transmitting addressed to provide a transmitting apparatus characterized by.

また、本発明は、上記送信装置から送信されたパケット群を受信する受信手段と、前記受信手段によって受信されたパケット群に含まれるグループ属性情報が、当該グループ属性情報に対応するグループに含まれるピクチャ群によって表される映像の動きが大きい動画モードを表している場合には、空間階層よりも時間階層に重みをおいてパケットを選別する手順を含む第1の関数を用い、また、前記グループ属性情報が、当該グループ属性情報に対応するグループに含まれるピクチャ群によって表される映像の動きが小さい静止画モードを表している場合には、時間階層よりも空間階層に重みをおいてパケットを選別する手順を含む第2の関数を用い、各々の前記グループ属性情報に対応するグループに含まれるパケット群から、送信対象となるパケットを抽出する抽出手段と、前記抽出手段によって抽出されたパケットを、当該パケットの宛先である受信装置に宛てて転送する転送手段とを備えることを特徴とする中継装置を提供する。   Further, according to the present invention, receiving means for receiving a packet group transmitted from the transmitting device and group attribute information included in the packet group received by the receiving means are included in a group corresponding to the group attribute information. In the case of a moving image mode in which the motion of the video represented by the picture group is large, a first function including a procedure for selecting packets with a weight in the temporal layer rather than the spatial layer is used, and the group When the attribute information represents a still image mode in which the motion of the video represented by the group of pictures included in the group corresponding to the group attribute information is small, the packet is assigned with a weight in the space layer rather than the time layer. Using a second function including a selection procedure, a packet to be transmitted from a packet group included in a group corresponding to each of the group attribute information Extraction means for extracting comprising packets, a packet extracted by said extracting means, to provide a relay apparatus characterized by comprising a transfer means for transferring destined to the receiving apparatus that is the destination of the packet.

本発明によれば、受信装置に届けられる映像データの品質の低下を抑制しつつ、処理済のパケット群に関する十分な量の情報を分析することで新たな処理対象のパケット群の選別を行うような技術と比較して、その映像データの送信遅延を小さくすることが可能となる。   According to the present invention, a new packet group to be processed is selected by analyzing a sufficient amount of information related to a processed packet group while suppressing deterioration in the quality of video data delivered to the receiving apparatus. The transmission delay of the video data can be reduced as compared with a simple technique.

本発明の実施形態に係る映像送信システムの構成を表すブロック図である。It is a block diagram showing the structure of the video transmission system which concerns on embodiment of this invention. 映像送信装置のハードウェア構成を表すブロック図である。It is a block diagram showing the hardware constitutions of a video transmitter. 映像送信装置の機能構成を表すブロック図である。It is a block diagram showing the function structure of a video transmitter. 階層と映像品質の関係を表した図である。It is a figure showing the relationship between a hierarchy and video quality. 映像データの構成を表した図である。It is a figure showing the structure of video data. 階層構造を持つピクチャと時間軸の関係を表した図である。It is a figure showing the relationship between the picture with a hierarchical structure, and a time-axis. GOP属性情報を表した図である。It is a figure showing GOP attribute information. 映像データの多重化を表した図である。It is a figure showing multiplexing of video data. 映像中継装置のハードウェア構成を表したブロック図である。It is a block diagram showing the hardware constitutions of the video relay apparatus. 映像中継装置の機能構成を表したブロック図である。It is a block diagram showing the functional structure of the video relay apparatus. 抽出部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of an extraction part. 抽出部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of an extraction part. 抽出部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of an extraction part. 抽出部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of an extraction part. 抽出部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of an extraction part. 抽出部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of an extraction part.

以下、本発明の一実施形態について説明する。
<実施形態>
図1は、本発明の実施形態に係る映像送信システム1の構成を示すブロック図である。この映像送信システム1は、映像送信装置10と、受信装置30A、30B(以下、それぞれを区別しない場合には、受信装置30という)と、映像送信装置10と受信装置30の間の伝送経路に設けられた映像中継装置20A、20B、20C(以下、それぞれを区別しない場合には、映像中継装置20という)とを有している。映像送信装置10と映像中継装置20の間、或る映像中継装置20と他の映像中継装置20の間、および映像中継装置20と受信装置30の間は、通信線とか、LAN(Local Area Network)やインターネット或いはケーブルテレビ網などの様々な通信網により接続されている。なお、1台の映像送信装置10に対する映像中継装置20および受信装置30の数は、図1に示した数に限らない。
Hereinafter, an embodiment of the present invention will be described.
<Embodiment>
FIG. 1 is a block diagram showing a configuration of a video transmission system 1 according to an embodiment of the present invention. The video transmission system 1 includes a video transmission device 10, reception devices 30 </ b> A and 30 </ b> B (hereinafter referred to as reception device 30 when not distinguished from each other), and a transmission path between the video transmission device 10 and the reception device 30. Video relay devices 20A, 20B, and 20C (hereinafter referred to as video relay devices 20 when not distinguished from each other). Between the video transmission device 10 and the video relay device 20, between one video relay device 20 and another video relay device 20, and between the video relay device 20 and the reception device 30, a communication line or LAN (Local Area Network) ), The Internet, or a cable television network. Note that the number of video relay apparatuses 20 and reception apparatuses 30 for one video transmission apparatus 10 is not limited to the number shown in FIG.

映像送信装置10は、映像データを記憶してこれを送信するサーバ装置などのコンピュータである。映像送信装置10は、映像データを階層符号化したうえでカプセル化し、所定のデータ長の複数のパケットを生成する。映像送信装置10は、これらのパケットを受信装置30に宛てて送信する。映像中継装置20は、例えばルータ装置であり、映像送信装置10と受信装置30の間で、伝送経路上のルーティングを行いつつ映像データの中継を行う装置である。この映像中継装置20は、映像データの宛先である受信装置30の処理の性能に応じて、必要な場合にはパケットの破棄を行いながら、他の映像中継装置20にパケットを転送したり、受信装置30にパケットを転送したりする。   The video transmission device 10 is a computer such as a server device that stores video data and transmits it. The video transmitting apparatus 10 encapsulates video data after hierarchical encoding, and generates a plurality of packets having a predetermined data length. The video transmission device 10 transmits these packets to the reception device 30. The video relay device 20 is, for example, a router device, and is a device that relays video data while performing routing on the transmission path between the video transmission device 10 and the reception device 30. This video relay device 20 transfers packets to other video relay devices 20 or receives them while discarding the packets if necessary according to the processing performance of the receiving device 30 that is the destination of the video data. The packet is transferred to the device 30.

受信装置30は、映像データを受信してその映像データに応じた映像を表示する装置であり、例えばパーソナルコンピュータ、SDTV、HDTV、または携帯電話機等であり、図1の受信装置30群には、このように処理の性能が異なる受信装置が混在している。受信装置30は、受信したパケットをデカプセル化することで映像データを取得して、この映像データに応じた映像を表示する。図1において、映像中継装置20群は2段のカスケード接続の形態であるが、カスケード接続の段数はこれに限らない。また、受信装置30が、アナログ方式のテレビジョンのように、デジタルの映像データに対応していない装置の場合、受信装置30に接続された映像中継装置20にD/A変換を行う変換機能が設けられているか、または、受信装置30と映像中継装置20との間にD/A変換を行う変換装置が設けられている。   The receiving device 30 is a device that receives video data and displays a video corresponding to the video data, such as a personal computer, an SDTV, an HDTV, or a mobile phone. The receiving device 30 group in FIG. In this way, receiving apparatuses having different processing performances are mixed. The receiving device 30 acquires video data by decapsulating the received packet, and displays video corresponding to the video data. In FIG. 1, the video relay apparatus 20 group has a two-stage cascade connection form, but the number of cascade connection stages is not limited to this. In addition, when the receiving device 30 is a device that does not support digital video data, such as an analog television, the video relay device 20 connected to the receiving device 30 has a conversion function for performing D / A conversion. Or a conversion device that performs D / A conversion between the reception device 30 and the video relay device 20 is provided.

この映像送信システム1において、まず、受信装置30は、映像送信装置10に対して、映像データの識別子であるファイル名を含む要求を送信する。各々の映像中継装置20はこの要求を中継して映像送信装置10に転送する。映像送信装置10は、複数の受信装置30から送信された上記要求を受け取って、これらの受信装置30に対してどの程度の品質の映像を提供するべきかを判断し、その判断結果に基づいて階層符号化を行う。ここで、映像の品質とは、例えば映像の精細さとか動きの滑らかさなどの、映像に対する評価のことであり、画素数やフレームレートなどの大小に依存する。映像品質が高いとは、例えば1ピクチャあたりの映像の画素数が多いことやフレームレートが大きいことを意味し、映像品質が低いとは、例えば1ピクチャあたりの映像の画素数が少ないことやフレームレートが小さいことを意味する。画素数は、映像が受信装置30の表示面に表示されるときの総画素数のことであり、例えば1024×768といった数値で表現されるものである。フレームレートは、単位時間あたりに映像が何回が更新されるかを表す指標である。   In this video transmission system 1, first, the reception device 30 transmits a request including a file name that is an identifier of video data to the video transmission device 10. Each video relay device 20 relays this request and transfers it to the video transmission device 10. The video transmission device 10 receives the request transmitted from the plurality of reception devices 30, determines what quality video should be provided to these reception devices 30, and based on the determination result Perform hierarchical coding. Here, the quality of the video refers to evaluation of the video such as the fineness of the video and the smoothness of the motion, and depends on the size of the number of pixels and the frame rate. High image quality means that, for example, the number of pixels of a video per picture is large or the frame rate is high, and low video quality means that, for example, the number of pixels of a video per picture is small or a frame is high. It means that the rate is small. The number of pixels is the total number of pixels when an image is displayed on the display surface of the receiving device 30, and is expressed by a numerical value such as 1024 × 768. The frame rate is an index representing how many times the video is updated per unit time.

映像送信装置10が受信装置30群に対してどの程度の品質の映像を提供するべきかを判断する際には、例えば、受信装置30の通信の性能や、受信装置30の映像表示機能の性能や、受信装置30の演算処理能力や、受信装置30の消費電力や、受信装置30のユーザ設定などの、様々な条件が考慮されるが、以下では、受信装置30の通信の性能に基づいた判断の例で説明するが、この通信の性能は、結局、受信装置30における映像の表示の速さに関する機能に関係している。受信装置30の通信の性能は、主に、受信装置30を収容する通信網の伝送レートであり、例えば受信装置30Aが携帯電話機である場合、映像中継装置20Bと受信装置30Aとの間の伝送経路は携帯通信網で構成されているから、この携帯通信網における伝送レートが受信装置30Aの通信の性能の指標となる。また、例えば受信装置30BがHDTVである場合、映像中継装置20Cと受信装置30Bとの間の伝送経路はHDTV網で構成されているから、このHDTV網における伝送レートが受信装置30Bの通信の性能の指標となる。映像送信装置10は、上記のような条件がそれぞれ異なる複数の受信装置30からの要求に応じて、これらの受信装置30群に対して最適な最大画素数や符号化のときの階層数等の符号化条件を特定し、この符号化条件にしたがって映像データを階層符号化する。映像中継装置20は、階層符号化された映像データのパケットを中継する際には、上記の複数の受信装置30に含まれる各受信装置30に対し、これらの各々の受信装置30に応じて、特定の階層に対応するパケットを抽出して、或いは、このような抽出を行わずに全パケットをそのまま宛先へと転送する。   When determining how much quality video should be provided to the group of reception devices 30 by the video transmission device 10, for example, the communication performance of the reception device 30 and the performance of the video display function of the reception device 30. Various conditions such as the arithmetic processing capability of the receiving device 30, the power consumption of the receiving device 30, and the user settings of the receiving device 30 are taken into account, but in the following, based on the communication performance of the receiving device 30 As will be described with reference to an example of determination, the performance of this communication is ultimately related to a function related to the video display speed in the receiving device 30. The communication performance of the receiving device 30 is mainly the transmission rate of the communication network that accommodates the receiving device 30. For example, when the receiving device 30A is a mobile phone, transmission between the video relay device 20B and the receiving device 30A is performed. Since the path is configured by a mobile communication network, the transmission rate in the mobile communication network is an indicator of the communication performance of the receiving device 30A. For example, when the receiving device 30B is an HDTV, the transmission path between the video relay device 20C and the receiving device 30B is configured by an HDTV network, and therefore the transmission rate in the HDTV network is the communication performance of the receiving device 30B. It becomes an index. In response to requests from a plurality of receiving devices 30 having different conditions as described above, the video transmitting device 10 determines the optimum maximum number of pixels, the number of layers at the time of encoding, and the like for these receiving device 30 groups. An encoding condition is specified, and video data is hierarchically encoded in accordance with the encoding condition. When the video relay device 20 relays the packet of the hierarchically encoded video data, the video relay device 20 sends each of the reception devices 30 included in the plurality of reception devices 30 according to each of the reception devices 30. A packet corresponding to a specific layer is extracted, or all packets are transferred as they are to a destination without performing such extraction.

ここで、映像送信装置10が行う映像データの階層符号化について、その概略を説明する。映像データの階層符号化とは、映像データを、低品質だがその表示にあたっては最低限必要な映像データと、表示時の映像の品質を高めるそれ以外の映像データとに階層化した状態で符号化することである。ここで、L0,L1,L2という3層構造の階層符号化の例を考える。L0は基本階層データであり、L1は第1階層データ、L2は第2階層データであるとする。基本階層データL0のみを復号すると、低品質の映像が得られる。そして、基本階層データL0および第1階層データL1を復号すると中品質の映像が得られ、そして、L0、第1階層データL1および第2階層データL2の全てを復号すると高品質の映像が得られる。このとき、基本階層データL0のデータは、復号側である受信装置30において最低限必要とされるデータであるため、必ず受信装置30に送信されるべきデータである。一方、第1階層データL1および第2階層データL2は、映像の品質を高めるが、基本階層データL0のように必須ではないため、要求される映像品質に応じて、その受信装置30に送信されるか否かが決定される。   Here, an outline of hierarchical encoding of video data performed by the video transmission device 10 will be described. Hierarchical encoding of video data means that video data is encoded in a layered state into video data that is of low quality but at least necessary for display and other video data that enhances the quality of the video at the time of display. It is to be. Here, consider an example of hierarchical coding having a three-layer structure of L0, L1, and L2. It is assumed that L0 is basic hierarchy data, L1 is first hierarchy data, and L2 is second hierarchy data. When only the basic layer data L0 is decoded, a low-quality video is obtained. When the basic layer data L0 and the first layer data L1 are decoded, a medium quality image is obtained, and when all of the L0, the first layer data L1, and the second layer data L2 are decoded, a high quality image is obtained. . At this time, the data of the base layer data L0 is data that is to be transmitted to the receiving device 30 without fail because it is the minimum required data in the receiving device 30 on the decoding side. On the other hand, the first layer data L1 and the second layer data L2 improve the quality of the video, but are not essential as the basic layer data L0. Therefore, the first layer data L1 and the second layer data L2 are transmitted to the receiving device 30 according to the required video quality. It is determined whether or not.

図2は、映像送信装置10のハードウェア構成を表すブロック図である。映像送信装置10は、CPU(Central Processing Unit)11、RAM(Random Access Memory)12、記憶部13および入出力ポート14を備えており、これらの各部がバスを介して互いに接続されている。CPU11は、記憶部13に記憶されているプログラムを読み出しRAM12にロードして実行することにより、映像送信装置10の各部を制御して各種の機能を実現する。RAM12は、CPU11がプログラムを実行するときのワークエリアとなる。記憶部13は、例えば大容量のフラッシュメモリやHDD(Hard Disk Drive)であり、CPU11が実行するプログラムや、送信対象となる映像データを記憶している。入出力ポート14は、伝送経路に接続された入出力端子を備えており、映像データのパケットを送信するとともに、受信装置30から送信されてきた上記要求などを受信する。   FIG. 2 is a block diagram illustrating a hardware configuration of the video transmission device 10. The video transmitting apparatus 10 includes a CPU (Central Processing Unit) 11, a RAM (Random Access Memory) 12, a storage unit 13, and an input / output port 14, and these units are connected to each other via a bus. The CPU 11 reads out a program stored in the storage unit 13 and loads it into the RAM 12 and executes it, thereby controlling each unit of the video transmission device 10 and realizing various functions. The RAM 12 serves as a work area when the CPU 11 executes a program. The storage unit 13 is, for example, a large-capacity flash memory or HDD (Hard Disk Drive), and stores a program executed by the CPU 11 and video data to be transmitted. The input / output port 14 includes an input / output terminal connected to the transmission path, and transmits the video data packet and receives the request transmitted from the receiving device 30.

図3は、映像送信装置10の機能構成を表すブロック図である。映像送信装置10は、CPU11が、記憶部13に記憶されているプログラムを実行することにより、入力部101、階層符号化部102、分析部103、属性情報生成部104、多重化部105及び出力部106という各機能を実現する。以下の説明において、これらの各部を動作の主体として記載するが、その主体の実態はCPU11である。   FIG. 3 is a block diagram illustrating a functional configuration of the video transmission device 10. In the video transmission apparatus 10, the CPU 11 executes a program stored in the storage unit 13, whereby an input unit 101, a hierarchical encoding unit 102, an analysis unit 103, an attribute information generation unit 104, a multiplexing unit 105, and an output Each function of the unit 106 is realized. In the following description, each of these units will be described as the subject of operation, but the actual state of the subject is the CPU 11.

入力部101には、入出力ポート14が複数の受信装置30から受信した要求が入力される。入力部101は、要求を階層符号化部102に供給する。階層符号化部102は、上記要求に含まれる映像データのファイル名を参照し、記憶部13からこのファイル名の映像データを読み出す。また、階層符号化部102は、この要求に含まれる受信装置30の識別子や機種コードなどを参照し、この受信装置30の通信の性能を特定して、映像データを符号化する際の最大画素数、最小画素数及び階層数を決定する。このため、記憶部13には、受信装置30の識別子や機種コード(受信装置30の属性情報)と、この受信装置30を収容する通信網における伝送レート(受信装置30の通信の性能)とが対応付けられて予め記憶されており、入力部101はそれを参照する。そして、階層符号化部102は、記憶部13から読み出した映像データを、上記の最大画素数、最小画素数及び階層数にしたがって階層符号化する。階層符号化部102は、階層符号化した映像データを分析部103に出力する。   Requests received by the input / output port 14 from the plurality of receiving devices 30 are input to the input unit 101. The input unit 101 supplies the request to the hierarchical encoding unit 102. The hierarchical encoding unit 102 refers to the file name of the video data included in the request, and reads the video data having this file name from the storage unit 13. Further, the hierarchical encoding unit 102 refers to the identifier or model code of the receiving device 30 included in the request, specifies the communication performance of the receiving device 30, and specifies the maximum pixel when encoding the video data. The number, the minimum number of pixels, and the number of layers are determined. Therefore, the storage unit 13 includes the identifier and model code of the receiving device 30 (attribute information of the receiving device 30) and the transmission rate (communication performance of the receiving device 30) in the communication network that accommodates the receiving device 30. Correspondingly stored in advance, the input unit 101 refers to it. The hierarchical encoding unit 102 hierarchically encodes the video data read from the storage unit 13 according to the maximum pixel number, the minimum pixel number, and the hierarchical number. The hierarchical encoding unit 102 outputs the hierarchically encoded video data to the analyzing unit 103.

ここで、図4は、階層と映像品質の関係を表した図である。映像データの階層符号化における階層の種類には、大きく分けて、空間階層と時間階層とがある。空間階層は、画素数に注目して映像データを階層化するものである。時間階層は、フレームレートに注目して映像データを階層化するものである。空間階層においては、上位階層になる程画素数が多く、下位階層になるに従って画素数が少なくなる。時間階層においては、上位階層になる程フレームレートが大きく、下位階層になるに従ってフレームレートが小さくなる。階層符号化部102は、空間階層と時間階層との双方で映像データを階層符号化する。階層符号化部102により階層符号化が行われた映像データは、空間階層の階層毎に分割された状態となる。なお、階層符号化部102によって映像データの階層符号化が行われる際、空間階層と時間階層の階層数は必ずしも同一ではなく、入力部101から入力された符号化する際の階層数によって、各々が異なる階層数を持つこともあり得る。   Here, FIG. 4 is a diagram showing the relationship between the hierarchy and the video quality. The types of layers in the hierarchical encoding of video data are roughly classified into a spatial layer and a time layer. The spatial hierarchy is a hierarchy of video data paying attention to the number of pixels. The time hierarchy is a hierarchy of video data paying attention to the frame rate. In the spatial hierarchy, the number of pixels increases as the hierarchy becomes higher, and the number of pixels decreases as the hierarchy becomes lower. In the time layer, the frame rate increases as the higher layer is reached, and the frame rate decreases as the lower layer is reached. The hierarchical encoding unit 102 hierarchically encodes video data in both a spatial hierarchy and a temporal hierarchy. The video data that has been hierarchically encoded by the hierarchical encoding unit 102 is in a state of being divided into spatial layers. Note that when the hierarchical encoding of the video data is performed by the hierarchical encoding unit 102, the number of layers in the space layer and the time layer is not necessarily the same, and the number of layers when encoding from the input unit 101 is different. May have different numbers of hierarchies.

次に、図5は、映像データの構成を表した図である。階層符号化された映像データは、GOP(Group Of Picture)と呼ばれる単位のデータが順序だてて連なることで構成されている。GOPは、例えば32ピクチャ/秒といった、一定時間あたりに含まれる予め決められた数のフレームつまりピクチャのまとまりである。このGOPは、図5に表されるように、SCSEI、SPS(Sequence Parameter Set)、PPS(Picture Parameter Set)、Pic(Picture)1、Pic2、Pic3、…、PicNという構成からなる。   Next, FIG. 5 is a diagram showing the structure of video data. Hierarchically encoded video data is configured by unit data called GOP (Group Of Picture) being arranged in order. The GOP is a group of a predetermined number of frames, that is, pictures included in a certain time, for example, 32 pictures / second. As shown in FIG. 5, this GOP has a configuration of SSCEI, SPS (Sequence Parameter Set), PPS (Picture Parameter Set), Pic (Picture) 1, Pic 2, Pic 3,.

SCSEIは、GOP内での階層構造に関する情報である。SPSおよびPPSは、それぞれ復号化の際の初期化を行うために必要とされる初期化情報である。SPSは、GOP全体に関わる情報であり、例えばプロファイル、最大参照可能ピクチャ数、映像サイズ等を含む。PPSは各ピクチャに関わる情報であり、例えば可変長符号化のタイプ、量子化ステップの初期値、参照ピクチャ数等を含む。Picはピクチャであり、GOPが32ピクチャ/1秒であれば、1つのGOP内におけるPicの数は32である。図5においては、1つのGOPがNピクチャであるとしてPicを表している。   SSCEI is information relating to the hierarchical structure in the GOP. SPS and PPS are initialization information required for performing initialization at the time of decoding, respectively. The SPS is information related to the entire GOP and includes, for example, a profile, the maximum number of pictures that can be referred to, and a video size. PPS is information relating to each picture, and includes, for example, the type of variable length coding, the initial value of the quantization step, the number of reference pictures, and the like. Pic is a picture. If the GOP is 32 pictures / second, the number of Pics in one GOP is 32. In FIG. 5, Pic is represented by assuming that one GOP is an N picture.

GOPにおけるPicには、予測符号化の方式に応じて、Iピクチャ(Intra Picture)、Pピクチャ(Predictive Picture)、Bピクチャ(Bi-directionally predictive Picture)という種類がある。Iピクチャ(Intra Picture)は、そのピクチャだけを独立して符号化することによって得られるピクチャである。すなわち、Iピクチャにおけるマクロブロック・タイプは全てフレーム内符号化である。IピクチャはGOPの独立性を保つものであり、1つのGOPにおいて1つのIピクチャが先頭に存在している。このIピクチャのことを、GOP内においてキーとなるフレームであることから、以降の説明においてキーフレームと呼び、それ以外のPピクチャおよびBピクチャを非キーフレームと呼ぶ。Pピクチャは、ピクチャ間の順方向予測符号化によって得られるピクチャである。Pピクチャにおけるマクロブロック・タイプは、フレーム内符号化と順方向フレーム間予測符号化とを含んでいる。Bピクチャは、過去と未来の双方向からの予測符号化によって得られるピクチャである。Bピクチャにおけるマクロブロック・タイプは、フレーム内符号化と、順方向、逆方向および双方向のフレーム間予測符号化とを含んでいる。   Pics in GOP are classified into I picture (Intra Picture), P picture (Predictive Picture), and B picture (Bi-directionally predictive Picture) depending on the predictive coding method. An I picture (Intra Picture) is a picture obtained by encoding only that picture independently. That is, all macroblock types in an I picture are intraframe coding. An I picture maintains GOP independence, and one I picture exists at the head of one GOP. Since this I picture is a key frame in the GOP, it will be called a key frame in the following description, and the other P pictures and B pictures will be called non-key frames. A P picture is a picture obtained by forward predictive coding between pictures. Macroblock types in P pictures include intra-frame coding and forward inter-frame predictive coding. The B picture is a picture obtained by predictive coding from the past and the future. Macroblock types in B pictures include intra-frame coding and forward, backward and bidirectional inter-frame predictive coding.

図6は、階層構造を持つピクチャと時間軸の関係を表した図である。ここでは、空間階層と時間階層の双方において3層で映像データが階層符号化された場合を例示している。横軸は時刻tを表し、右にいくほど時間が経過しているものとする。Picに付された数字は、時系列に沿った各ピクチャの順番である。各Picに付されたアルファベットは、Iピクチャ、Bピクチャ、Pピクチャの別を表している。TID(Temporal ID)は時間階層における各階層を識別するための情報であり、DID(Dependency ID)は空間階層における各階層を識別するための情報である。TIDおよびDID共に、付された数字はその階層数を表し、「0」が下位階層であり、「1」が中位階層、「2」が上位階層である。図6に表されるように、各々の時刻tにおける各ピクチャには、DIDが「0」、「1」および「2」の3階層のデータが存在する。また、各々の時刻tにおいて複数のDIDを持つデータからなるピクチャに対しては、同一のTIDが付されている。各々の時刻tにおけるピクチャは、図6中の矢印で表された参照関係を持つ。   FIG. 6 is a diagram illustrating a relationship between a picture having a hierarchical structure and a time axis. Here, a case where video data is hierarchically encoded in three layers in both the space layer and the time layer is illustrated. The horizontal axis represents time t, and it is assumed that time has passed toward the right. The number given to Pic is the order of each picture in time series. The alphabet attached to each Pic represents an I picture, a B picture, or a P picture. TID (Temporal ID) is information for identifying each layer in the time layer, and DID (Dependency ID) is information for identifying each layer in the spatial layer. For both TID and DID, the number attached represents the number of layers, “0” is the lower layer, “1” is the middle layer, and “2” is the upper layer. As shown in FIG. 6, each picture at each time t has three layers of data with DIDs “0”, “1”, and “2”. In addition, the same TID is assigned to a picture composed of data having a plurality of DIDs at each time t. Each picture at time t has a reference relationship represented by an arrow in FIG.

例えば、時間階層において低品質の映像データを送信する場合には、映像中継装置20は、受信したパケット群のうち、TID「0」のピクチャに基づくパケットのみを抽出して受信装置30に宛てて転送する。この場合、受信装置30においては、図6中のt0とt4に該当するピクチャに応じた映像が表示されることとなる。つまりフレームレートが小さいため、いわゆるコマ送りのように動きがぎごちない映像となり、その映像品質は低いものとなる。また、時間階層において中品質の映像データを送信する場合には、映像中継装置20は、受信したパケット群のうち、TIDが「0」および「1」のピクチャに基づくパケットのみを抽出して受信装置30に宛てて転送する。さらに、時間階層において高品質の映像データを送信する場合には、映像中継装置20は、受信したパケット群の全てを受信装置30に宛てて転送する。この場合には、図6中の各時刻tに対応するTID「0」、「1」および「2」の全てのピクチャが揃うため、フレームレートが高くなり、動きが滑らかな映像となり、映像品質が高いものとなる。   For example, when low-quality video data is transmitted in the time hierarchy, the video relay device 20 extracts only packets based on the picture with the TID “0” from the received packet group and addresses the packets to the reception device 30. Forward. In this case, the receiving device 30 displays an image corresponding to pictures corresponding to t0 and t4 in FIG. In other words, since the frame rate is small, the video is not very moving like so-called frame advance, and the video quality is low. When transmitting medium quality video data in the time hierarchy, the video relay apparatus 20 extracts and receives only packets based on pictures with TIDs “0” and “1” from the received packet group. Transfer to device 30. Furthermore, when high-quality video data is transmitted in the time hierarchy, the video relay device 20 transfers all received packet groups to the receiving device 30. In this case, since all the pictures with TIDs “0”, “1”, and “2” corresponding to each time t in FIG. 6 are prepared, the frame rate becomes high, the motion is smooth, and the video quality is improved. Is expensive.

以上、送信する映像データの映像品質と送信対象データについてTIDを用いて説明したが、DIDについても考え方は同様である。すなわち、映像中継装置20は、空間階層において低品質の映像データを送信する場合には、DID「0」のデータに基づくパケットを抽出して受信装置30に宛てて転送する。この場合、受信装置30においては、精細度が低くて粗い映像が表示されることになる。また、映像中継装置20は、空間階層において中品質の映像データを送信する場合には、DID「0」及び「1」のデータに基づくパケットを抽出して受信装置30に宛てて転送する。また、映像中継装置20は、空間階層において高品質の映像データを送信する場合には、全てのパケットを受信装置30に宛てて転送する。この場合、受信装置30においては、高精細の映像が表示されることになる。   As described above, the video quality of the video data to be transmitted and the transmission target data have been described using the TID, but the same idea applies to the DID. That is, the video relay device 20 extracts a packet based on the data of DID “0” and transfers it to the receiving device 30 when transmitting low-quality video data in the spatial hierarchy. In this case, the receiving device 30 displays a coarse video with low definition. Also, the video relay device 20 extracts packets based on the data of the DID “0” and “1” and transfers them to the receiving device 30 when transmitting medium quality video data in the spatial hierarchy. Further, the video relay device 20 transfers all packets to the receiving device 30 when transmitting high-quality video data in the spatial hierarchy. In this case, the receiving device 30 displays a high-definition video.

再び図3の説明に戻る。分析部103は、階層符号化された映像データについて、GOP単位で、シーンチェンジ推定、動き量推定及び精細度推定の3種類の観点から、次のような分析を行う。分析部103は、1つのGOPに含まれるIピクチャ内におけるイントラマクロブロックの絶対値の個数が閾値を超える場合には、シーンチェンジが行われたと推定し、1つのGOPに含まれるIピクチャ内におけるイントラマクロブロックの絶対値の個数が閾値を超えない場合には、シーンチェンジが行われなかったと推定する。シーンチェンジとは、例えばアングルが変わるなど、映像で表現されたシーンが変化することである。また、分析部103は、ある閾値以上をもつ動きベクトルが、隣り合う複数のマクロブロック内に存在する場合に、この隣り合う複数のマクロブロックを一つのオブジェクトとして検出し、この検出したオブジェクトの数を、GOPにおける動き量を表す指標として特定する。また、分析部103は、非キーフレーム間における予測符号化マクロブロックの個数の相対的な変動率を、GOPにおける動き量を表す指標として特定する。この動き量を表す指標は、前者または後者のみであってもよいし、分析部103がこの両者を用いて特定してもよい。さらに、分析部103は、フレーム内符号化およびフレーム間予測符号化において、ピクチャ全体の領域に対する量子化後に丸められた領域の割合を、精細度を表す指標として特定する。分析部103は、このようなGOP毎の分析結果を、階層符号化された映像データと共に、属性情報生成部104に供給する。   Returning to the description of FIG. The analysis unit 103 performs the following analysis on the hierarchically encoded video data from the three types of viewpoints of scene change estimation, motion amount estimation, and definition estimation for each GOP. The analysis unit 103 estimates that a scene change has occurred when the number of intra macroblock absolute values in an I picture included in one GOP exceeds a threshold, and determines that the scene change has occurred in the I picture included in one GOP. When the number of intra macroblock absolute values does not exceed the threshold, it is estimated that no scene change has been performed. A scene change is a change in a scene represented by a video, for example, an angle changes. Further, when a motion vector having a certain threshold value or more exists in a plurality of adjacent macroblocks, the analysis unit 103 detects the plurality of adjacent macroblocks as one object, and the number of detected objects Is specified as an index representing the amount of motion in the GOP. In addition, the analysis unit 103 identifies the relative variation rate of the number of predictive coding macroblocks between non-key frames as an index representing the amount of motion in the GOP. The index indicating the amount of movement may be only the former or the latter, or the analysis unit 103 may specify both of them. Furthermore, in the intra-frame coding and the inter-frame prediction coding, the analysis unit 103 specifies the ratio of the area rounded after quantization with respect to the entire picture area as an index representing the definition. The analysis unit 103 supplies the analysis result for each GOP to the attribute information generation unit 104 together with the hierarchically encoded video data.

属性情報生成部104は、上記のようなGOP毎の分析結果および階層符号化された映像データから、GOP毎に、そのGOPに含まれるピクチャの属性を表すGOP属性情報なるものを生成する。図7は、GOP属性情報の内容を表したものである。GOP属性情報は、GOPの映像特性、GOPにおけるピクチャ数、GOPにおける全ピクチャのデータサイズ合計、各ピクチャのデータサイズ総和リスト、およびDID毎のデータサイズ総和リストからなる。このうちGOPの映像特性とは、GOPにおける映像の特徴を表すものである。属性情報生成部104は、GOP毎の分析結果に基づいて、GOPの映像特性を、動きの大きい映像であるか(動画モード)または動きの小さい映像であるか(静止画モード)のいずれかに分類する。   The attribute information generation unit 104 generates GOP attribute information representing the attribute of the picture included in the GOP for each GOP from the analysis result for each GOP and the hierarchically encoded video data. FIG. 7 shows the contents of GOP attribute information. The GOP attribute information includes GOP video characteristics, the number of pictures in the GOP, the total data size of all pictures in the GOP, a data size total list for each picture, and a data size total list for each DID. Among these, the video characteristics of the GOP represent the characteristics of the video in the GOP. Based on the analysis result for each GOP, the attribute information generation unit 104 determines whether the video characteristic of the GOP is a video with a large motion (moving image mode) or a video with a small motion (still image mode). Classify.

GOPの映像特性は、映像における動きが大きいことを意味する動画モード、又は、映像における動きが小さいこと(動きが無いことを含む)を意味する静止画モードのいずれかを含む。映像中継装置20は、上述したようなパケットを抽出する抽出処理を行う際に、この映像特定を用いる。属性情報生成部104は、GOP毎の分析結果において、シーンチェンジが行われたという推定結果であるか、もしくは動き量を表す指標値が一定以上である場合、GOPの映像特性を動画モードであると判断する。また、属性情報生成部104は、GOP毎の分析結果において、シーンチェンジが行われていないという推定結果であるか、もしくは動き量を表す指標値が閾値未満であり、且つ、精細度を表す指標値が閾値以上である場合、GOPの映像特性を静止画モードであると判断する。   The video characteristics of the GOP include either a moving image mode which means that the motion in the video is large or a still image mode which means that the motion in the video is small (including no motion). The video relay apparatus 20 uses this video specification when performing the extraction process for extracting the packet as described above. If the attribute information generation unit 104 is an estimation result of scene change in the analysis result for each GOP, or if the index value indicating the amount of motion is greater than or equal to a certain value, the video characteristics of the GOP are in the moving image mode. Judge. Further, the attribute information generation unit 104 is an estimation result indicating that no scene change has been performed in the analysis result for each GOP, or an index value indicating the amount of motion is less than a threshold and an index indicating the definition If the value is greater than or equal to the threshold, it is determined that the video characteristics of the GOP are still image modes.

また、属性情報生成部104は、階層符号化された映像データをGOP毎に分析し、GOPにおけるピクチャ数、GOPにおける全ピクチャのデータサイズ合計、各ピクチャのデータサイズ総和リストおよびDID毎のデータサイズ総和リストをGOP属性情報として生成する。GOPにおけるピクチャ数は、1つのGOPに含まれるピクチャ数である。GOPにおける全ピクチャのデータサイズ合計は、1つのGOPに含まれる全ピクチャの全階層を含むデータサイズの合計である。各ピクチャのデータサイズ総和リストは、複数の異なるDIDを持つデータの集合からなる1枚のピクチャにおけるデータサイズの総和を、ピクチャ毎にリスト化したものである。DID毎のデータサイズ総和リストは、DID毎のデータサイズの総和をDID毎にリスト化したものである。属性情報生成部104は、階層符号化された映像データと共に、生成したGOP属性情報を多重化部105に出力する。   Further, the attribute information generation unit 104 analyzes the hierarchically encoded video data for each GOP, and the number of pictures in the GOP, the total data size of all the pictures in the GOP, the data size total list of each picture, and the data size for each DID A total list is generated as GOP attribute information. The number of pictures in a GOP is the number of pictures included in one GOP. The total data size of all pictures in a GOP is the sum of data sizes including all layers of all pictures included in one GOP. The total data size list of each picture is a list of the total data size of one picture made up of a set of data having a plurality of different DIDs for each picture. The data size total list for each DID is a list of the total data sizes for each DID for each DID. The attribute information generation unit 104 outputs the generated GOP attribute information to the multiplexing unit 105 together with the hierarchically encoded video data.

多重化部105は、階層別に符号化された映像データを多重化し、その先頭にGOP属性情報を付加する。ここで映像データの多重化とは、空間階層の階層別に分かれている符号化された映像データを、時間軸において順序だてて一つながりに纏めることをいう。   The multiplexing unit 105 multiplexes the video data encoded for each layer and adds GOP attribute information to the head thereof. Here, the multiplexing of the video data means that the encoded video data divided for each of the spatial hierarchies are put together in a sequence on the time axis.

図8は映像データの多重化を表した図である。ここでは、空間階層と時間階層の双方において3層で映像データが階層符号化された場合を例示している。図8において、GopInfoとは、上述したGOP属性情報を表す。また、SCSEI、SPS、PPSおよびPicは図4におけるものと同じ内容である。スライスとは、階層化された映像データを構成するデータの単位である。SPS、PPS、TIDおよびDIDに付された数字は、所属する階層数を表す。映像データは、多重化部105に入力された時点では、DIDの階層毎に分かれた状態で、時間軸に沿った順番でスライスが並んで構成されている。多重化部105は、このDIDの階層毎に分かれた映像データを多重化し、先頭にGOP属性情報を付加したうえで、出力部106に供給する。   FIG. 8 is a diagram showing multiplexing of video data. Here, a case where video data is hierarchically encoded in three layers in both the space layer and the time layer is illustrated. In FIG. 8, “GopInfo” represents the GOP attribute information described above. Further, SSCEI, SPS, PPS and Pic have the same contents as in FIG. A slice is a unit of data constituting hierarchical video data. The numbers given to SPS, PPS, TID, and DID represent the number of layers to which they belong. When the video data is input to the multiplexing unit 105, slices are arranged in order along the time axis in a state of being divided for each DID hierarchy. The multiplexing unit 105 multiplexes the video data divided for each DID layer, adds GOP attribute information to the head, and supplies the GOP attribute information to the output unit 106.

出力部106は、映像データのパケット群を送信する送信手段として機能するものであり、階層符号化されて、GOP属性情報が付加された映像データを、カプセル化して所定のデータ長の複数のパケットに分割する。そして出力部106は、これらのパケットを、受信装置30を宛先として入出力ポート14を通じて順次伝送経路に出力していく。   The output unit 106 functions as a transmission unit that transmits a packet group of video data. The output unit 106 encapsulates video data that has been hierarchically encoded and has GOP attribute information added thereto, and thereby a plurality of packets having a predetermined data length. Divide into The output unit 106 sequentially outputs these packets to the transmission path through the input / output port 14 with the receiving device 30 as a destination.

次に映像中継装置20について説明する。
図9は映像中継装置20のハードウェア構成を表したブロック図である。映像中継装置20は、CPU(Central Processing Unit)21、揮発性記憶部22、不揮発性記憶部23、入力ポート24および出力ポート25を備えており、これらの各部がバスを介して互いに接続されている。CPU21は、不揮発性記憶部23に記憶されているプログラムを読み出し揮発性記憶部22にロードして実行することにより、映像中継装置20の各部を制御して各種の機能を実現する。揮発性記憶部22は、CPU21がプログラムを実行する際のワークエリアとなる。不揮発性記憶部23は、例えばフラッシュメモリであり、CPU21が実現する映像中継装置20の各機能に関するプログラムや、パケットのルーティングを行うためのルーティングテーブルを記憶している。入力ポート24は、伝送経路に接続された入力端子を備えており、映像データのパケットを受信する。出力ポート25は、伝送経路に接続された出力端子を備えており、パケットを伝送経路に出力する。
Next, the video relay device 20 will be described.
FIG. 9 is a block diagram showing the hardware configuration of the video relay apparatus 20. The video relay apparatus 20 includes a CPU (Central Processing Unit) 21, a volatile storage unit 22, a non-volatile storage unit 23, an input port 24, and an output port 25. These units are connected to each other via a bus. Yes. The CPU 21 reads out a program stored in the nonvolatile storage unit 23, loads it into the volatile storage unit 22, and executes it, thereby controlling each unit of the video relay device 20 and realizing various functions. The volatile storage unit 22 becomes a work area when the CPU 21 executes the program. The nonvolatile storage unit 23 is, for example, a flash memory, and stores a program relating to each function of the video relay device 20 realized by the CPU 21 and a routing table for performing packet routing. The input port 24 includes an input terminal connected to the transmission path, and receives video data packets. The output port 25 includes an output terminal connected to the transmission path, and outputs a packet to the transmission path.

図10は、映像中継装置20の機能構成を表したブロック図である。映像中継装置20は、CPU21が、不揮発性記憶部23に記憶されているプログラムを読み出して実行することにより、入力部201、抽出部202、および出力部204の各機能を実現する。以下の説明において、これらの各部を動作の主体として記載するが、その主体の実態はCPU21である。入力部201は、映像データのパケット群を受信する受信手段であり、入力ポート24を通じて接続された伝送経路からパケットを受け取り、このパケットを抽出部202に供給する。抽出部202は、これらのパケットを予め定められた関数に代入することで、送信対象のパケットのみを抽出し、それ以外を廃棄する。以降の説明において、この関数のことをコスト関数と呼び、これが不揮発性記憶部23に記憶されている。   FIG. 10 is a block diagram illustrating a functional configuration of the video relay apparatus 20. The video relay device 20 implements the functions of the input unit 201, the extraction unit 202, and the output unit 204 by the CPU 21 reading and executing a program stored in the nonvolatile storage unit 23. In the following description, each of these units will be described as the subject of operation, but the actual state of the subject is the CPU 21. The input unit 201 is a receiving unit that receives a packet group of video data, receives a packet from a transmission path connected through the input port 24, and supplies the packet to the extraction unit 202. The extracting unit 202 extracts only packets to be transmitted by substituting these packets into a predetermined function, and discards the others. In the following description, this function is called a cost function and is stored in the nonvolatile storage unit 23.

抽出部202は、抽出したパケットを出力部204に供給する。出力部204は、抽出されたパケットを受信装置30に宛てて転送する転送手段であり、このパケットを、後続の伝送経路上に存在する映像中継装置20あるいは受信装置30に向けて送信する。ここで、抽出部202が供給するパケットのストリームは1つに限ったものではなく、映像中継装置20に接続された複数の受信装置30から要求に応じて複数の映像品質に応じた映像データのパケットを供給することが可能である。例えば、或る映像中継装置20の後続の伝送経路上に、受信装置30として携帯電話機とHDTVが存在し、携帯電話機の受信装置30は低品質の映像データを要求し、HDTVの受信装置30は高品質の映像データを要求した場合を仮定する。この場合、抽出部202は、HDTVの受信装置30に対しては、階層符号化データの全階層に対応するパケットを送信対象として抽出し、携帯電話機の受信装置30に対しては、階層符号化データの低階層に対応するパケットを送信対象として抽出する。   The extraction unit 202 supplies the extracted packet to the output unit 204. The output unit 204 is a transfer unit that transfers the extracted packet to the receiving device 30, and transmits the packet to the video relay device 20 or the receiving device 30 existing on the subsequent transmission path. Here, the number of packet streams supplied by the extraction unit 202 is not limited to one, but a plurality of reception devices 30 connected to the video relay device 20 receive video data corresponding to a plurality of video qualities in response to requests. Packets can be supplied. For example, on a subsequent transmission path of a certain video relay device 20, a mobile phone and an HDTV exist as the receiving device 30, the receiving device 30 of the mobile phone requests low-quality video data, and the HDTV receiving device 30 Assume that high-quality video data is requested. In this case, the extraction unit 202 extracts, as a transmission target, packets corresponding to all hierarchies of the hierarchically encoded data for the HDTV receiving device 30, and the hierarchical encoding for the mobile phone receiving device 30. A packet corresponding to a lower hierarchy of data is extracted as a transmission target.

次に、抽出部202が、コスト関数とGOP属性情報を用いてどのようにパケットの抽出を行うかを説明する。コスト関数は、GOP属性情報のうちGOPの映像特性が、静止画モードであるかまたは動画モードであるかでその内容が異なる。GOPの映像特性が静止画モードである場合、コスト関数は、時間階層より空間階層に重点をおいてパケットを抽出するものとなる。つまり、このコスト関数は、空間階層よりも時間階層に重みをおいてパケットを選別する手順を含む第1の関数である。一方、GOPの映像特性が動画モードである場合、コスト関数は空間階層より時間階層に重点をおいてパケットを抽出するものととなる。つまり、このコスト関数は、時間階層よりも空間階層に重みをおいてパケットを選別する手順を含む第2の関数である。   Next, how the extraction unit 202 performs packet extraction using the cost function and GOP attribute information will be described. The content of the cost function differs depending on whether the video characteristic of the GOP in the GOP attribute information is the still image mode or the moving image mode. When the video characteristic of the GOP is the still image mode, the cost function extracts packets with an emphasis on the space layer rather than the time layer. That is, this cost function is a first function including a procedure for selecting packets with a weight in the time layer rather than the space layer. On the other hand, when the video characteristic of the GOP is the moving image mode, the cost function extracts packets with an emphasis on the time layer rather than the space layer. That is, this cost function is a second function including a procedure for selecting packets with a weight on the space layer rather than the time layer.

ここで、図11〜16を参照しながら、GOPの映像特性が静止画モードである場合と動画モードである場合とで、抽出部202によるパケット抽出の動作を説明する。以下の説明では、GOP属性情報に含まれる各内容(図7)を以下のように表現する。
PicProp // GOPの映像特性
GopPicNum // GOPにおけるピクチャ数
Gop#PicTotalSize // GOPにおける全ピクチャのデータサイズ合計
PicSize[GopPicNum ] // 各ピクチャのデータサイズ総和リスト
GOP#DidSize[ MaxDID+1 ] // DID毎のデータサイズ総和リスト
なお、MaxTIDは、最下位階層を0としたときの、時間階層の最大値であり、MaxDIDDは、最下位階層を0としたときの、空間階層の最大値である。
Here, with reference to FIGS. 11 to 16, the packet extraction operation by the extraction unit 202 will be described in the case where the video characteristics of the GOP are the still image mode and the moving image mode. In the following description, each content (FIG. 7) included in the GOP attribute information is expressed as follows.
PicProp // Video characteristics of GOP
GopPicNum // Number of pictures in GOP
Gop # PicTotalSize // Total data size of all pictures in GOP
PicSize [GopPicNum] // Data size total list for each picture
GOP # DidSize [MaxDID + 1] // Data size total list for each DID MaxTID is the maximum value of the time hierarchy when the lowest hierarchy is 0, and MaxDIDD is 0 for the lowest hierarchy Is the maximum value of the spatial hierarchy.

まず、GOPの映像特性が静止画モードである場合において、抽出部202がコスト関数を用いて、送信対象となるパケットを抽出するときの動作について説明する。
最初に、抽出部202は、映像中継装置20が接続された伝送経路における目標伝送レートをTargetBitRateとして、次式でTargetBufSizeなるものを求める。図1において、例えば受信装置30Aが携帯電話機である場合、映像中継装置20Bと受信装置30Aとの間の伝送経路は携帯通信網で構成されているから、映像中継装置20Bは、予め決められた携帯通信網の目標伝送レート、又は、定期的に或いは随時計測した携帯通信網の目標伝送レートをTargetBitRateとする。同様に、例えば受信装置30BがHDTVである場合、映像中継装置20Cと受信装置30Bとの間の伝送経路はHDTV網で構成されているから、映像中継装置20Cは、予め決められたHDTV網の目標伝送レート、又は、定期的に或いは随時計測したHDTV網の目標伝送レートをTargetBitRateとする。
TargetBufSize = TargetBitRate / GopPicNum × FrameRate
なお、FrameRateとは、前述した映像品質に関するフレームレートのことである。
First, an operation when the extraction unit 202 extracts a packet to be transmitted using a cost function when the video characteristic of the GOP is the still image mode will be described.
First, the extraction unit 202 obtains a TargetBufSize by the following equation, with the target transmission rate in the transmission path to which the video relay apparatus 20 is connected as TargetBitRate. In FIG. 1, for example, when the receiving device 30A is a mobile phone, the transmission path between the video relay device 20B and the receiving device 30A is configured by a mobile communication network, so the video relay device 20B is determined in advance. The target transmission rate of the mobile communication network or the target transmission rate of the mobile communication network measured periodically or as needed is set as TargetBitRate. Similarly, for example, when the receiving device 30B is an HDTV, the transmission path between the video relay device 20C and the receiving device 30B is configured by an HDTV network, and thus the video relay device 20C is connected to a predetermined HDTV network. The target transmission rate or the target transmission rate of the HDTV network measured periodically or as needed is set as TargetBitRate.
TargetBufSize = TargetBitRate / GopPicNum × FrameRate
Note that FrameRate is a frame rate related to the video quality described above.

次に、抽出部202は、次式で、関数subtotalGopTidSize( TID )なるものを求める。関数subtotalGopTidSize( TID )は、引数の階層のTIDに属するピクチャのデータ量の合計を意味している。

Figure 2011216986
なお、tid( i )は、先頭から数えてi番目のピクチャが属するTIDである。 Next, the extraction unit 202 obtains a function subtotalGopTidSize (TID) by the following equation. The function subtotalGopTidSize (TID) means the total data amount of pictures belonging to the TID of the argument hierarchy.
Figure 2011216986
Note that tid (i) is a TID to which the i-th picture from the top belongs.

次に、抽出部202は図11に示す処理を行って、どのTIDの階層まで送信可能か、つまり送信可能な時間階層の階層数を求める。
図11において、抽出部202は、TID毎のピクチャのデータサイズ総和の積算であるTotalTidGopを初期化してTotalTidGop=0とし(ステップS1)、さらに、idも初期化してid=0とする(ステップS2)。idは、最下位階層を0としたときの各時間階層の値のことであり、その最大値は時間階層の最大値maxTIDである。
次に、抽出部202は、tmp = TotalTidGop + subtotalGopTidSize(id)という数式によって、tmpなる値を求める(ステップS3)totalTidGopは、NewMaxTID-1までのデータサイズの合計を意味する。ここで、tmpがTargetBufSize以下の場合には(ステップS4;No)、抽出部202は、totalTidGop = tmpとする(ステップS5)。次に、抽出部202は、idを1つインクリメントし(ステップS6)、そのidが時間階層の最大値maxTID以下であるか否かを判断する(ステップS7)。idが最大値maxTID以下であれば(ステップS7;Yes)、抽出部202の処理は再びステップS3に戻る。抽出部202は、ステップS3〜ステップS7の処理を、idが時間階層の最大値maxTIDを超えるまで繰り返し、そのときのidをNewMaxTIDとして(ステップS8)、図11に示す処理を終了する。また、抽出部202は、このステップS3〜ステップS7の処理を行っている過程において、tmpがTargetBufSizeを超えると(ステップS4;Yes)、そのときのidをNewMaxTIDとして(ステップS8)、図11に示す処理を終了する。
Next, the extraction unit 202 performs the process shown in FIG. 11 to determine to which TID layer transmission is possible, that is, the number of time layers that can be transmitted.
In FIG. 11, the extraction unit 202 initializes TotalTidGop, which is the sum of the total data size of pictures for each TID, to set TotalTidGop = 0 (step S1), and further initializes id to id = 0 (step S2). ). id is a value of each time layer when the lowest layer is 0, and the maximum value is the maximum value maxTID of the time layer.
Next, the extraction unit 202 obtains a value of tmp by a formula of tmp = TotalTidGop + subtotalGopTidSize (id) (Step S3), where totalTidGop means the sum of data sizes up to NewMaxTID-1. Here, when tmp is equal to or smaller than TargetBufSize (step S4; No), the extraction unit 202 sets totalTidGop = tmp (step S5). Next, the extraction unit 202 increments id by one (step S6), and determines whether the id is equal to or less than the maximum value maxTID of the time hierarchy (step S7). If id is less than or equal to the maximum value maxTID (step S7; Yes), the processing of the extraction unit 202 returns to step S3 again. The extraction unit 202 repeats the processing from step S3 to step S7 until id exceeds the maximum value maxTID of the time hierarchy, sets id at that time as NewMaxTID (step S8), and ends the processing illustrated in FIG. Further, in the process of performing steps S3 to S7, when the tmp exceeds TargetBufSize (step S4; Yes), the extraction unit 202 sets the id at that time as NewMaxTID (step S8). The processing shown in FIG.

上記の処理を経た結果、例えばNewMaxTID=0の場合には、最下位階層のうち一部のピクチャしか伝送できないことを意味しており、また、例えばNewMaxTID=maxTID+1の場合には、全ての時間階層のピクチャが送信可能であることを意味する。また、MaxTID>=NewMaxTID>0の場合には、NewMaxTIDの時間階層を持つピクチャの全てではなくとも一部を送信可能である可能性が高いことを意味している。従って、maxTID>=NewMaxTID>0の場合、抽出部202は、NewMaxTIDの時間階層を持つピクチャ群から送信可能なピクチャを選別する。   As a result of the above processing, for example, when NewMaxTID = 0, it means that only some pictures in the lowest layer can be transmitted, and when NewMaxTID = maxTID + 1, for example, This means that pictures in the time hierarchy can be transmitted. Further, if MaxTID> = NewMaxTID> 0, it means that there is a high possibility that some, if not all, pictures having the NewMaxTID time hierarchy can be transmitted. Therefore, when maxTID> = NewMaxTID> 0, the extraction unit 202 selects a picture that can be transmitted from a group of pictures having a time hierarchy of NewMaxTID.

一般的に、ピクチャの符号化方式が同一である場合、データ量が大きいピクチャであるほど、前後関係と比較して映像の内容の変動が大きいか、あるいは複雑な映像であることを意味している。このような映像は映像品質を大きく影響するから、データ量が大きいピクチャから優先的に送信されることが望ましい。そこで、抽出部202は、NewMaxTIDの時間階層を持つピクチャを、各ピクチャのデータ量(PicSize[ i ])が大きい順番でソートする。そして、抽出部202は、ソートした結果を以下の式で表されるテーブルに格納する。
N = GopPicNum + ( 2 ^ ( MaxTID - NewMaxTID) - 1) / ( 2 ^ ( MaxTID - NewMaxTID))
orderは、このテーブル上でPicSizeが大きい方から数えたときのインデックスの値であり、最小値が0で最大値がNである。ListPicSizeOrder [ order ] . PicNumは、GOP内で先頭から数えたピクチャの順番とし、ListPicSizeOrder [ order ] . PicSizeは、該当するピクチャのデータサイズとする。
In general, when the picture encoding method is the same, the larger the data amount, the larger the content of the video compared to the context, or the more complicated the video. Yes. Since such video greatly affects the video quality, it is desirable that the video is preferentially transmitted from a picture with a large amount of data. Therefore, the extraction unit 202 sorts the pictures having the NewMaxTID time hierarchy in the order of the data amount (PicSize [i]) of each picture. Then, the extraction unit 202 stores the sorted result in a table represented by the following formula.
N = GopPicNum + (2 ^ (MaxTID-NewMaxTID)-1) / (2 ^ (MaxTID-NewMaxTID))
The order is an index value when counting from the larger PicSize on this table, and the minimum value is 0 and the maximum value is N. ListPicSizeOrder [order] .PicNum is the order of pictures counted from the top in the GOP, and ListPicSizeOrder [order] .PicSize is the data size of the corresponding picture.

次に、抽出部202は図12に示す処理を行って、NewMaxTIDの時間階層を持つピクチャから送信可能なピクチャを選別する。
図12において、まず、抽出部202は、時間階層がNewMaxTIDであるピクチャのデータサイズの合計を意味するsubtotalGopTidSize(NewMaxTID)を初期化して、subtotalGopTidSize(NewMaxTID)=0とし(ステップS11)、さらに、orderを初期化してorder=0とする(ステップS12)。orderは、上記のテーブルにおいて、PicSizeが大きい方から数えたときのインデックスの値であり、最小値が0で最大値がNである。
Next, the extraction unit 202 performs processing shown in FIG. 12 to select a picture that can be transmitted from pictures having a time hierarchy of NewMaxTID.
In FIG. 12, the extraction unit 202 first initializes subtotalGopTidSize (NewMaxTID), which means the total data size of pictures whose time hierarchy is NewMaxTID, and sets subtotalGopTidSize (NewMaxTID) = 0 (step S11). Is set to order = 0 (step S12). In the above table, order is the index value when counting from the larger PicSize, where the minimum value is 0 and the maximum value is N.

次に、抽出部202は、tmp = totalTidGop + ListPicSizeOrder [ order ].PicSizeという数式に従って、tmpなる値を求める(ステップS13)。ここで、tmpがTargetBufSize以下の場合には(ステップ14;No)、抽出部202は、subtotalGopTidSize(NewMaxTID) = subtotalGopTidSize(NewMaxTID ) + ListPicSizeOrder [ order ].PicSizeとする(ステップS15)。次に、抽出部202は、totalTidGop = tmpとし(ステップS16)、orderを1つインクリメントしてから(ステップS17)、そのorderが最大値N未満であるか否かを判断する(ステップS18)。orderdが最大値N未満であれば(ステップS18;Yes)、抽出部202の処理は再びステップS13に戻る。抽出部202は、ステップS13〜ステップS18の処理を、orderが最大値N以上になるまで繰り返し、そのときのorderの値をorderNumとして確定して(ステップS19)、図12に示す処理を終了する。また、抽出部202は、このステップS13〜ステップS18の処理を行っている過程において、tmpがTargetBufSizeを超えると(ステップS14;Yes)、そのときのorderの値をorderNumとして確定して(ステップS19)、図12に示す処理を終了する。   Next, the extraction unit 202 obtains a value of tmp according to a mathematical formula of tmp = totalTidGop + ListPicSizeOrder [order] .PicSize (step S13). Here, when tmp is equal to or smaller than TargetBufSize (step 14; No), the extraction unit 202 sets subtotalGopTidSize (NewMaxTID) = subtotalGopTidSize (NewMaxTID) + ListPicSizeOrder [order] .PicSize (step S15). Next, the extraction unit 202 sets totalTidGop = tmp (step S16), increments order by 1 (step S17), and determines whether the order is less than the maximum value N (step S18). If orderd is less than the maximum value N (step S18; Yes), the process of the extraction unit 202 returns to step S13 again. The extraction unit 202 repeats the processing from step S13 to step S18 until order reaches the maximum value N or more, determines the order value at that time as orderNum (step S19), and ends the processing shown in FIG. . Further, in the course of performing the processing from step S13 to step S18, when the tmp exceeds TargetBufSize (step S14; Yes), the extraction unit 202 determines the order value at that time as orderNum (step S19). ), The process shown in FIG.

抽出部202は、上記のようにして、NewMaxTIDの時間階層を持つピクチャのうち送信可能なピクチャを選別すると、図13に示す処理を行って、GOPのうち送信対象であるピクチャのリストを作成する。
まず、抽出部202は、iを初期化してi=0とする(ステップS21)。このiの最小値は0で最大値がGopPicNumである。次に、抽出部202は、tid(i)が NewMaxTID未満であるか否かを判断する(ステップS22)。 tid(i)が NewMaxTID未満であれば(ステップS22;Yes)、抽出部202は、SendingPictureList [i] = tid(i)とする(ステップS23)。SendingPictureList [i]は、GOPのうち送信対象であるピクチャのリストのことである。次に、抽出部202は、iを1つインクリメントし(ステップS25)、iがGopPicNum未満であることを確認してから(ステップS26;Yes)、ステップS22の処理に戻る。なお、ステップS22において、抽出部202は、tid(i)が NewMaxTID未満でないと判断すると(ステップS22;No)、SendingPictureList [i] = -1とする(ステップS24)。
When the extraction unit 202 selects a picture that can be transmitted from the pictures having the NewMaxTID time hierarchy as described above, the extraction unit 202 performs a process illustrated in FIG. 13 to create a list of pictures to be transmitted from the GOP. .
First, the extraction unit 202 initializes i to i = 0 (step S21). The minimum value of i is 0 and the maximum value is GopPicNum. Next, the extraction unit 202 determines whether tid (i) is less than NewMaxTID (step S22). If tid (i) is less than NewMaxTID (step S22; Yes), the extraction unit 202 sets SendingPictureList [i] = tid (i) (step S23). SendingPictureList [i] is a list of pictures to be transmitted among GOPs. Next, the extraction unit 202 increments i by 1 (step S25), confirms that i is less than GopPicNum (step S26; Yes), and returns to the process of step S22. In step S22, when the extraction unit 202 determines that tid (i) is not less than NewMaxTID (step S22; No), it sets SendingPictureList [i] = − 1 (step S24).

さて、ステップS26において、抽出部202は、iがGopPicNum以上である場合(ステップS26;No)、0 < NewMaxTID && NewMaxTID <= MaxTID という条件が満たされるか否かを判断する(ステップS27)。この条件が満たされる場合には(ステップS27;Yes)、抽出部202は、order=0とする(ステップS28)。次に、抽出部202は、SendingPictureList [ListPicSizeOrder [ order ] . PicNum ] = NewMaxTIDとする(ステップS29)。そして、抽出部202は、orderを1つインクリメントしてから(ステップS30)、そのorderがorderNum未満であるか否かを判断する(ステップS31)。orderがorderNum未満であれば(ステップS31;Yes)、抽出部202の処理はステップS29に戻り、orderがorderNum以上になるまでステップS29〜S31の処理が繰り返される。なお、ステップS27において、0 < NewMaxTID && NewMaxTID <= MaxTIDという条件が満たされない場合には(ステップS27;No)、抽出部202の処理は終了する。   In step S26, when i is equal to or greater than GopPicNum (step S26; No), the extraction unit 202 determines whether or not the condition 0 <NewMaxTID && NewMaxTID <= MaxTID is satisfied (step S27). When this condition is satisfied (step S27; Yes), the extraction unit 202 sets order = 0 (step S28). Next, the extraction unit 202 sets SendingPictureList [ListPicSizeOrder [order] .PicNum] = NewMaxTID (step S29). The extraction unit 202 increments the order by 1 (step S30), and then determines whether the order is less than orderNum (step S31). If order is less than orderNum (step S31; Yes), the process of the extraction unit 202 returns to step S29, and the processes of steps S29 to S31 are repeated until order becomes equal to or greater than orderNum. In step S27, if the condition 0 <NewMaxTID && NewMaxTID <= MaxTID is not satisfied (step S27; No), the processing of the extraction unit 202 ends.

そして、抽出部202は、リストにおける配列の値が−1(SendingPictureList [i] = -1)でないピクチャを送信対象として、このピクチャに対応したパケットを抽出して送信する。一方、抽出部202は、リストにおける配列の値が−1(SendingPictureList [i] = -1)であるピクチャを送信対象とはせず、破棄する。これにより、時間階層の一部のピクチャは破棄されることになる。   Then, the extraction unit 202 extracts and transmits a packet corresponding to this picture, with a picture whose array value in the list is not −1 (SendingPictureList [i] = − 1) as a transmission target. On the other hand, the extraction unit 202 discards a picture whose array value in the list is −1 (SendingPictureList [i] = − 1) without setting it as a transmission target. As a result, some pictures in the time hierarchy are discarded.

次に、GOPの映像特性が動画モードである場合に抽出部202がコスト関数を用いてパケットを抽出するときの動作について説明する。
抽出部202は、次式で、関数subtotalGopDidSize( DID )なるものを求める。関数subtotalGopDidSize( DID )は、引数の階層のDIDに属するピクチャのデータ量の合計を意味している。

Figure 2011216986
なお、did( i )は、先頭から数えてi番目のピクチャが属するDIDである。 Next, an operation when the extraction unit 202 extracts a packet using a cost function when the video characteristic of the GOP is the moving image mode will be described.
The extraction unit 202 obtains the function subtotalGopDidSize (DID) by the following equation. The function subtotalGopDidSize (DID) means the total data amount of pictures belonging to the DID of the argument hierarchy.
Figure 2011216986
Here, did (i) is a DID to which the i-th picture from the beginning belongs.

次に、抽出部202は図14に示す処理を行って、どのDIDの階層まで送信可能か、つまり送信可能な時間階層の階層数を求める。
図14において、抽出部202は、DID毎のピクチャのデータサイズ総和の積算であるTotalDidGopを初期化してTotalDidGop=0とし(ステップS41)、さらに、idも初期化してid=0とする(ステップS42)。idは、最下位階層を0としたときの各時間階層の値のことであり、その最大値は時間階層の最大値maxDIDである。
Next, the extraction unit 202 performs the processing shown in FIG. 14 to determine to which DID hierarchy transmission is possible, that is, the number of time hierarchy layers that can be transmitted.
In FIG. 14, the extraction unit 202 initializes TotalDidGop, which is an integration of the total data size of pictures for each DID, to set TotalDidGop = 0 (step S41), and also initializes id to id = 0 (step S42). ). id is a value of each time layer when the lowest layer is 0, and the maximum value is the maximum value maxDID of the time layer.

次に、抽出部202は、tmp = TotalDidGop + subtotalGopDidSize(id)という数式によって、tmpなる値を求める(ステップS43)totalDidGopは、NewMaxDID-1までのデータサイズの合計を意味する。ここで、tmpがTargetBufSize以下の場合には(ステップS44;No)、抽出部202は、totalDidGop = tmpとする(ステップS45)。次に、抽出部202は、idを1つインクリメントし(ステップS46)、そのidが時間階層の最大値maxDID以下であるか否かを判断する(ステップS47)。idが最大値maxDID以下であれば(ステップS47;Yes)、抽出部202の処理は再びステップS43に戻る。抽出部202は、ステップS43〜ステップS47の処理を、idが時間階層の最大値maxDIDを超えるまで繰り返し、そのときのidをNewMaxDIDとして(ステップS48)、図14に示す処理を終了する。また、抽出部202は、このステップS43〜ステップS47の処理を行っている過程において、tmpがTargetBufSizeを超えると(ステップS44;Yes)、そのときのidをNewMaxDIDとして(ステップS48)、図14に示す処理を終了する。   Next, the extraction unit 202 obtains a value of tmp by a formula of tmp = TotalDidGop + subtotalGopDidSize (id) (Step S43), where totalDidGop means the sum of data sizes up to NewMaxDID-1. Here, when tmp is equal to or smaller than TargetBufSize (step S44; No), the extraction unit 202 sets totalDidGop = tmp (step S45). Next, the extraction unit 202 increments id by one (step S46), and determines whether the id is equal to or less than the maximum value maxDID of the time hierarchy (step S47). If id is not more than the maximum value maxDID (step S47; Yes), the processing of the extraction unit 202 returns to step S43 again. The extraction unit 202 repeats the processing from step S43 to step S47 until id exceeds the maximum value maxDID of the time hierarchy, sets id at that time as NewMaxDID (step S48), and ends the processing illustrated in FIG. Further, in the course of performing the processing from step S43 to step S47, the extraction unit 202 sets id at that time as NewMaxDID (step S48) when tmp exceeds TargetBufSize (step S44; FIG. 14). The processing shown in FIG.

上記の処理を経た結果、例えばNewMaxDID=0の場合には、最下位階層のうち一部のピクチャしか伝送できないことを意味しており、また、例えばNewMaxDID=maxDID+1の場合には、全ての時間階層のピクチャが送信可能であることを意味する。また、MaxDID>=NewMaxDID>0の場合には、NewMaxDIDの時間階層を持つピクチャの全てではなくとも一部を送信可能である可能性が高い。従って、maxDID>=NewMaxDID>0の場合、抽出部202は、NewMaxDIDの時間階層を持つピクチャ群から送信可能なピクチャを選別する。   As a result of the above processing, for example, when NewMaxDID = 0, it means that only some pictures of the lowest layer can be transmitted, and when NewMaxDID = maxDID + 1, for example, This means that pictures in the time hierarchy can be transmitted. When MaxDID> = NewMaxDID> 0, it is highly possible that some, if not all, pictures having the NewMaxDID time hierarchy can be transmitted. Therefore, when maxDID> = NewMaxDID> 0, the extraction unit 202 selects a picture that can be transmitted from a picture group having a time hierarchy of NewMaxDID.

抽出部202は、NewMaxDIDの時間階層を持つピクチャを、各ピクチャのデータ量(PicSize[ i ])が大きい順番でソートする。そして、抽出部202は、ソートした結果を以下の式で表されるテーブルに格納する。
N = GopPicNum + ( 2 ^ ( MaxDID - NewMaxDID) - 1) / ( 2 ^ ( MaxDID - NewMaxDID))
ただし、orderは、このテーブル上でPicSizeが大きい方から数えたときのインデックスの値であり、最小値が0で最大値がNである。また、ListPicSizeOrder [ order ] . PicNumは、GOP内で先頭から数えたピクチャの順番であり、ListPicSizeOrder [ order ] . PicSizeは、該当するピクチャのデータサイズである。
The extraction unit 202 sorts the pictures having the NewMaxDID time hierarchy in the order of the data amount (PicSize [i]) of each picture. Then, the extraction unit 202 stores the sorted result in a table represented by the following formula.
N = GopPicNum + (2 ^ (MaxDID-NewMaxDID)-1) / (2 ^ (MaxDID-NewMaxDID))
However, order is an index value when counting from the larger PicSize on this table, and the minimum value is 0 and the maximum value is N. Further, ListPicSizeOrder [order] .PicNum is the order of pictures counted from the top in the GOP, and ListPicSizeOrder [order] .PicSize is the data size of the corresponding picture.

次に、抽出部202は図15に示す処理を行って、NewMaxDIDの時間階層を持つピクチャから送信可能なピクチャを選別する。
図15において、まず、抽出部202は、時間階層がNewMaxDIDであるピクチャのデータサイズの合計を意味するsubtotalGopDidSize(NewMaxDID)を初期化して、subtotalGopDidSize(NewMaxDID)=0とし(ステップS51)、さらに、orderを初期化してorder=0とする(ステップS52)。orderは、上記のテーブルにおいて、PicSizeが大きい方から数えたときのインデックスの値であり、最小値が0で最大値がNである。
Next, the extraction unit 202 performs processing shown in FIG. 15 to select a picture that can be transmitted from pictures having a time hierarchy of NewMaxDID.
In FIG. 15, the extraction unit 202 first initializes subtotalGopDidSize (NewMaxDID), which means the sum of the data sizes of pictures whose time hierarchy is NewMaxDID, and sets subtotalGopDidSize (NewMaxDID) = 0 (step S51). Is set to order = 0 (step S52). In the above table, order is the index value when counting from the larger PicSize, where the minimum value is 0 and the maximum value is N.

次に、抽出部202は、tmp = totalDidGop + ListPicSizeOrder [ order ].PicSizeという数式に従って、tmpなる値を求める(ステップS53)。ここで、tmpがTargetBufSize以下の場合には(ステップ54;No)、抽出部202は、subtotalGopDidSize(NewMaxDID) = subtotalGopDidSize(NewMaxDID ) + ListPicSizeOrder [ order ].PicSizeとする(ステップS55)。次に、抽出部202は、totalDidGop = tmpとし(ステップS56)、orderを1つインクリメントしてから(ステップS57)、そのorderが最大値N未満であるか否かを判断する(ステップS58)。orderdが最大値N未満であれば(ステップS58;Yes)、抽出部202の処理は再びステップS53に戻る。抽出部202は、ステップS53〜ステップS58の処理を、orderが最大値N以上になるまで繰り返し、そのときのorderの値をorderNumとして確定して(ステップS59)、図15に示す処理を終了する。また、抽出部202は、このステップS53〜ステップS58の処理を行っている過程において、tmpがTargetBufSizeを超えると(ステップS54;Yes)、そのときのorderの値をorderNumとして確定して(ステップS59)、図15に示す処理を終了する。   Next, the extraction unit 202 obtains a value of tmp according to a mathematical formula of tmp = totalDidGop + ListPicSizeOrder [order] .PicSize (step S53). Here, when tmp is equal to or smaller than TargetBufSize (step 54; No), the extraction unit 202 sets subtotalGopDidSize (NewMaxDID) = subtotalGopDidSize (NewMaxDID) + ListPicSizeOrder [order] .PicSize (step S55). Next, the extraction unit 202 sets totalDidGop = tmp (step S56), increments order by 1 (step S57), and determines whether the order is less than the maximum value N (step S58). If orderd is less than the maximum value N (step S58; Yes), the process of the extraction unit 202 returns to step S53 again. The extraction unit 202 repeats the processing from step S53 to step S58 until order reaches the maximum value N or more, determines the value of order at that time as orderNum (step S59), and ends the processing shown in FIG. . Further, in the process of performing steps S53 to S58, when the tmp exceeds TargetBufSize (step S54; Yes), the extraction unit 202 determines the order value at that time as orderNum (step S59). ), The process shown in FIG.

抽出部202は、上記のようにして、NewMaxDIDの時間階層を持つピクチャのうち送信可能なピクチャを選別すると、図16に示す処理を行って、GOPのうち送信対象であるピクチャのリストを作成する。
まず、抽出部202は、iを初期化してi=0とする(ステップS61)。このiの最小値は0で最大値がGopPicNumである。次に、抽出部202は、did(i)が NewMaxDID未満であるか否かを判断する(ステップS62)。 did(i)が NewMaxDID未満であれば(ステップS62;Yes)、抽出部202は、SendingPictureList [i] = did(i)とする(ステップS63)。SendingPictureList [i]は、GOPのうち送信対象であるピクチャのリストのことである。次に、抽出部202は、iを1つインクリメントし(ステップS65)、iがGopPicNum未満であることを確認してから(ステップS66;Yes)、ステップS62の処理に戻る。なお、ステップS62において、抽出部202は、did(i)が NewMaxDID未満でないと判断すると(ステップS62;No)、SendingPictureList [i] = -1とする(ステップS64)。
When the extraction unit 202 selects a picture that can be transmitted from the pictures having the NewMaxDID time hierarchy as described above, the extraction unit 202 performs a process illustrated in FIG. 16 to create a list of pictures to be transmitted from the GOP. .
First, the extraction unit 202 initializes i to i = 0 (step S61). The minimum value of i is 0 and the maximum value is GopPicNum. Next, the extraction unit 202 determines whether did (i) is less than NewMaxDID (step S62). If did (i) is less than NewMaxDID (step S62; Yes), the extraction unit 202 sets SendingPictureList [i] = did (i) (step S63). SendingPictureList [i] is a list of pictures to be transmitted among GOPs. Next, the extraction unit 202 increments i by 1 (step S65), confirms that i is less than GopPicNum (step S66; Yes), and returns to the process of step S62. In step S62, when the extraction unit 202 determines that did (i) is not less than NewMaxDID (step S62; No), it sets SendingPictureList [i] = − 1 (step S64).

さて、ステップS66において、抽出部202は、iがGopPicNum以上である場合(ステップS66;No)、0 < NewMaxDID && NewMaxDID <= MaxDID という条件が満たされるか否かを判断する(ステップS67)。この条件が満たされる場合には(ステップS67;Yes)、抽出部202は、order=0とする(ステップS68)。次に、抽出部202は、SendingPictureList [ListPicSizeOrder [ order ] . PicNum ] = NewMaxDIDとする(ステップS69)。そして、抽出部202は、orderを1つインクリメントしてから(ステップS70)、そのorder がorderNum未満であるか否かを判断する(ステップS71)。orderがorderNum未満であれば(ステップS71;Yes)、抽出部202の処理はステップS69に戻り、orderがorderNum以上になるまでステップS69〜S71の処理が繰り返される。なお、ステップS67において、0 < NewMaxDID && NewMaxDID <= MaxDIDという条件が満たされない場合には(ステップS67;No)、抽出部202の処理は終了する。   In step S66, when i is equal to or greater than GopPicNum (step S66; No), the extraction unit 202 determines whether the condition 0 <NewMaxDID && NewMaxDID <= MaxDID is satisfied (step S67). When this condition is satisfied (step S67; Yes), the extraction unit 202 sets order = 0 (step S68). Next, the extraction unit 202 sets SendingPictureList [ListPicSizeOrder [order] .PicNum] = NewMaxDID (step S69). The extraction unit 202 increments the order by one (step S70), and then determines whether the order is less than orderNum (step S71). If order is less than orderNum (step S71; Yes), the process of the extraction unit 202 returns to step S69, and the processes of steps S69 to S71 are repeated until order is equal to or greater than orderNum. In step S67, when the condition 0 <NewMaxDID && NewMaxDID <= MaxDID is not satisfied (step S67; No), the processing of the extraction unit 202 ends.

そして、抽出部202は、リストにおける配列の値が−1(SendingPictureList [i] = -1)でないピクチャを送信対象として、このピクチャに対応したパケットを抽出して送信する。一方、抽出部202は、リストにおける配列の値が−1(SendingPictureList [i] = -1)であるピクチャを送信対象とはせず、破棄する。これにより、時間階層の一部のピクチャは破棄されることになる。   Then, the extraction unit 202 extracts and transmits a packet corresponding to this picture, with a picture whose array value in the list is not −1 (SendingPictureList [i] = − 1) as a transmission target. On the other hand, the extraction unit 202 discards a picture whose array value in the list is −1 (SendingPictureList [i] = − 1) without setting it as a transmission target. As a result, some pictures in the time hierarchy are discarded.

このように、本実施形態によれば、映像送信装置10が、階層符号化された映像データを分析することで生成したGOP属性情報をGOPの先頭に付加する。そして、映像中継装置20がパケットの抽出を行う際にはコスト関数にGOP属性情報を代入するだけで良いため、例えば処理対象パケットが映像データ全体においてどのような意味を持つのかを特定するために、それまでに処理済のパケット群に関する情報を分析するような場合と比較して、パケットの抽出処理にかかる時間が短くなる。よって、処理済のパケット群に関する十分な量の情報を分析することで新たな処理対象のパケット群の選別を行うような技術と比較して、映像中継装置20が多段に接続された場合であってもデータ伝送に関する遅延を抑制することが可能となる。また、映像中継装置20は、GOP属性情報に含まれるGOPの映像特性が動画モードである場合には、空間階層に重点を置いてパケットを抽出し、GOPの映像特性が静止画モードである場合には、時間階層に重点を置いてパケットを抽出する。このように、映像中継装置20が、GOP毎の映像データの特徴に合わせて、その映像の品質に影響が小さいパケットを破棄するから、そのような影響を考慮せずにパケットを破棄する場合と比べて、受信装置に届けられる映像データの映像品質を高く保つことが可能となる。   Thus, according to the present embodiment, the video transmitting apparatus 10 adds GOP attribute information generated by analyzing the hierarchically encoded video data to the head of the GOP. Then, when the video relay apparatus 20 performs packet extraction, it is only necessary to substitute GOP attribute information into the cost function. For example, in order to specify what meaning the processing target packet has in the entire video data Compared with the case of analyzing information on a packet group that has been processed so far, the time required for packet extraction processing is shortened. Therefore, in comparison with a technique for selecting a new packet group to be processed by analyzing a sufficient amount of information about the processed packet group, the video relay apparatus 20 is connected in multiple stages. However, it is possible to suppress a delay related to data transmission. Also, when the video characteristics of the GOP included in the GOP attribute information are in the moving picture mode, the video relay apparatus 20 extracts packets with an emphasis on the spatial hierarchy, and the video characteristics of the GOP are in the still picture mode. First, packets are extracted with an emphasis on the time hierarchy. As described above, the video relay apparatus 20 discards a packet having a small influence on the quality of the video in accordance with the characteristics of the video data for each GOP, and therefore discards the packet without considering such an influence. In comparison, the video quality of the video data delivered to the receiving apparatus can be kept high.

<変形例>
上記実施形態を次のように変形してもよい。
<変形例1>
上記実施形態では映像送信装置10が受信装置30群に対してどの程度の品質の映像を提供するべきかを判断するに際して、受信装置30の通信の性能に基づいてその判断を行っていた。この判断の材料としてはこれ以外にも、受信装置30の通信の性能や、受信装置30の映像表示機能の性能や、受信装置30の演算処理能力や、受信装置30の消費電力や、受信装置30のユーザ設定などがある。この場合、これらの判断の材料となる情報や、受信装置30自身がこの材料を基に判断した映像品質のレベルが、受信装置30から映像送信装置10に通知されて、映像送信装置10はその内容を知ることになる。
<Modification>
The above embodiment may be modified as follows.
<Modification 1>
In the above embodiment, when the video transmitting apparatus 10 determines what quality video should be provided to the receiving apparatus 30 group, the determination is made based on the communication performance of the receiving apparatus 30. In addition to this, as a material for this determination, the communication performance of the receiving device 30, the performance of the video display function of the receiving device 30, the arithmetic processing capability of the receiving device 30, the power consumption of the receiving device 30, the receiving device There are 30 user settings. In this case, the information used as the material for the determination and the video quality level determined by the receiving device 30 itself based on the material are notified from the receiving device 30 to the video transmitting device 10, and the video transmitting device 10 You will know the contents.

<変形例2>
上述した実施形態においては、属性情報生成部104は、GOP毎の分析結果に基づいて、GOPの映像特性を、動きの大きい映像であるか(動画モード)、精細感が高くかつ動きの少ない映像であるか(静止画モード)を判断していたが、これらのモードのいずれにも属さない中間モードなるものを概念し、これら3つのモードのうちにいずれかに該当すると判断するようにしてもよい。このような中間モードのコスト関数は、時間階層と空間階層との双方を均等に扱ってパケットを抽出するものとなる。
また、実施形態では、分析部103は、動画モードに該当する条件として、シーンチェンジ推定及び動き量推定の双方の分析結果を用いていたが、これらのうち少なくともいずれか一方だけを用いるようにしてもよい。
<Modification 2>
In the above-described embodiment, the attribute information generation unit 104 determines whether the video characteristics of the GOP is a video with a large motion (moving image mode) based on the analysis result for each GOP, or a video with a high sense of detail and a small motion. (Still image mode) was determined, but an intermediate mode that does not belong to any of these modes is considered, and it may be determined that any of these three modes is applicable. Good. Such an intermediate mode cost function extracts packets by treating both the time layer and the space layer equally.
In the embodiment, the analysis unit 103 uses the analysis results of both the scene change estimation and the motion amount estimation as the condition corresponding to the moving image mode. However, at least one of them is used. Also good.

<変形例3>
上述した実施形態においては、映像送信装置10が、その内部に設けられた記憶部13に映像データを記憶して、そこから送信対象の映像データを読み出すようにしていたが、これに限らず、映像送信装置10が、自身に接続された外部のHDDやデジタルビデオカメラなどの記憶装置又は撮像装置から映像データを取得するようにしてもよい。
<Modification 3>
In the above-described embodiment, the video transmission device 10 stores video data in the storage unit 13 provided therein, and reads video data to be transmitted from the video data. However, the present invention is not limited to this. The video transmission device 10 may acquire video data from a storage device such as an external HDD or a digital video camera connected to itself or an imaging device.

<変形例4>
上述した実施形態においては、映像送信装置10において、階層符号化部102と分析部103とを別々の機能としていたが、これらを組み合わせて階層符号化分析部とし、映像データの階層符号化を行うと同時に分析処理を行うようにしてもよい。このようにすれば、この階層符号化分析部は、GOP毎の分析結果を出力する際に、フレーム間差分の絶対値の累積が設定される閾値を超える場合にシーンチェンジが行われたと推定することが可能となる。また、この階層符号化分析部は、GOP毎の分析結果を出力する際に、フレーム内符号化およびフレーム間予測符号化において、ピクチャ全体の領域に対する量子化前の高周波数の領域の符号が占める割合を、精細度を表す指標として算出することも可能となる。
<Modification 4>
In the above-described embodiment, in the video transmission apparatus 10, the hierarchical encoding unit 102 and the analysis unit 103 have separate functions, but these are combined to form a hierarchical encoding analysis unit, which performs hierarchical encoding of video data. At the same time, analysis processing may be performed. In this way, when outputting the analysis result for each GOP, the hierarchical coding analysis unit estimates that a scene change has been performed when the accumulation of absolute values of inter-frame differences exceeds a set threshold value. It becomes possible. Further, when the analysis result for each GOP is output, the hierarchical coding analysis unit occupies the code of the high-frequency area before quantization for the whole picture area in intra-frame coding and inter-frame prediction coding. It is also possible to calculate the ratio as an index representing the definition.

<変形例5>
上述した実施形態においては、映像送信装置10が階層符号化部102を備えており、これが映像データの階層符号化を行っていたが、送信対象の映像データが予め階層符号化済みのものであった場合、階層符号化部102は、入力された階層符号化済みの映像データをそのまま分析部103に出力すればよい。また、映像送信装置10と、これとは別体の階層符号化器とを接続し、映像送信装置10が送信対象とする映像データが予め階層符号化済みのものに限られている場合、映像送信装置10は階層符号化部102の機能を実装しなくとも良い。
<Modification 5>
In the above-described embodiment, the video transmission device 10 includes the hierarchical encoding unit 102, which performs hierarchical encoding of video data. However, the video data to be transmitted has been previously hierarchically encoded. In this case, the hierarchical encoding unit 102 may output the input hierarchically encoded video data to the analyzing unit 103 as it is. In addition, when the video transmission device 10 is connected to a separate hierarchical encoder, and the video data to be transmitted by the video transmission device 10 is limited to the one that has been previously hierarchically encoded, The transmission apparatus 10 does not have to implement the function of the hierarchical encoding unit 102.

<変形例6>
映像送信装置10および映像中継装置20において実行されるプログラムは、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で、これらの映像送信装置10および映像中継装置20に提供し得る。この場合には、記録媒体からプログラムを読み取るインターフェースを映像送信装置10および映像中継装置20に設ければよい。また、ネットワーク経由でプログラムを映像送信装置10および映像中継装置20にダウンロードさせることも可能である。
<Modification 6>
The program executed in the video transmission device 10 and the video relay device 20 is a computer-readable recording such as a magnetic recording medium (magnetic tape, magnetic disk, etc.), an optical recording medium (optical disc, etc.), a magneto-optical recording medium, and a semiconductor memory. It can be provided to the video transmission device 10 and the video relay device 20 in a state stored in a medium. In this case, an interface for reading a program from the recording medium may be provided in the video transmission device 10 and the video relay device 20. It is also possible to cause the video transmission device 10 and the video relay device 20 to download the program via a network.

1…映像送信システム、10…映像送信装置、11,21…CPU、12…RAM、13…記憶部、14…入出力ポート,25…出力ポート、20,20A,20B,20C…映像中継装置、22…揮発性記憶部、23…不揮発性記憶部、24…入力ポート、30,30A,30B…受信装置、101,201…入力部、102…階層符号化部、103…分析部、104…属性情報生成部、105…多重化部、106,204…出力部、202…抽出部。 DESCRIPTION OF SYMBOLS 1 ... Video transmission system, 10 ... Video transmission apparatus, 11, 21 ... CPU, 12 ... RAM, 13 ... Memory | storage part, 14 ... Input / output port, 25 ... Output port, 20, 20A, 20B, 20C ... Video relay apparatus, DESCRIPTION OF SYMBOLS 22 ... Volatile memory | storage part, 23 ... Non-volatile memory | storage part, 24 ... Input port, 30, 30A, 30B ... Receiver, 101, 201 ... Input part, 102 ... Hierarchical encoding part, 103 ... Analysis part, 104 ... Attribute Information generation unit, 105 ... multiplexing unit, 106, 204 ... output unit, 202 ... extraction unit.

Claims (5)

空間階層及び時間階層で階層符号化された複数のピクチャからなる映像データを、当該映像データの宛先である受信装置に宛てて送信する送信装置と、
前記映像送信装置と前記受信装置との間で前記映像データの中継を行う中継装置とを備え、
前記送信装置は、
階層符号化された前記映像データの内容を、予め決められた数のピクチャ群からなるグループ単位で分析する分析手段と、
前記分析手段による分析結果に基づいて、各々の前記グループに含まれるピクチャ群によって表される映像の動きが大きい動画モードであるか、または、当該ピクチャ群によって表される映像の動きが小さい静止画モードであるかを表すグループ属性情報を、各々の前記グループについて生成する属性情報生成手段と、
階層符号化された前記映像データと生成された前記グループ属性情報とをカプセル化してパケット群を生成し、前記受信装置に宛てて送信する送信手段とを有し、
前記中継装置は、
前記パケット群を受信する受信手段と、
前記受信手段によって受信されたパケット群に含まれるグループ属性情報が前記動画モードを表している場合には、空間階層よりも時間階層に重みをおいてパケットを選別する手順を含む第1の関数を用い、また、前記グループ属性情報が前記静止画モードを表している場合には、時間階層よりも空間階層に重みをおいてパケットを選別する手順を含む第2の関数を用い、各々の前記グループ属性情報に対応するグループに含まれるパケット群から、送信対象となるパケットを抽出する抽出手段と、
前記抽出手段によって抽出されたパケットを受信装置に宛てて転送する転送手段と
を備えることを特徴とする映像送信システム。
A transmitting device that transmits video data composed of a plurality of pictures that are hierarchically encoded in the spatial layer and the temporal layer, to a receiving device that is a destination of the video data;
A relay device that relays the video data between the video transmission device and the reception device;
The transmitter is
Analyzing means for analyzing the content of the hierarchically encoded video data in units of a group consisting of a predetermined number of pictures;
Based on the analysis result of the analysis means, the still image is a moving image mode in which the motion of the video represented by the group of pictures included in each of the groups is large or the motion of the video represented by the group of pictures is small. Attribute information generating means for generating group attribute information indicating whether the mode is set for each of the groups;
A transmission unit that encapsulates the hierarchically encoded video data and the generated group attribute information to generate a packet group, and transmits the packet group to the receiving device;
The relay device is
Receiving means for receiving the packet group;
When the group attribute information included in the packet group received by the receiving unit represents the moving image mode, a first function including a procedure for selecting packets with a weight on the time layer rather than the space layer is provided. And when the group attribute information represents the still image mode, a second function including a procedure for selecting packets with a weight in the space layer rather than the time layer is used, and each of the groups is used. Extraction means for extracting a packet to be transmitted from a packet group included in a group corresponding to the attribute information;
A video transmission system comprising: a transfer unit configured to transfer the packet extracted by the extraction unit to a receiving device.
前記第1の関数及び第2の関数は、前記受信装置における映像の表示に関する性能に応じたパケットを抽出する手順を含む
ことを特徴とする請求項1に記載の映像送信システム。
The video transmission system according to claim 1, wherein the first function and the second function include a procedure of extracting a packet according to performance related to video display in the reception device.
前記送信装置において、
前記分析手段は、階層符号化された前記映像データが表す映像で表現されたシーンの変化の有無又は当該映像内のオブジェクトの動き量の少なくともいずれか一方と、当該映像の精細度とに関して、前記分析を行い、
前記属性情報生成手段は、前記分析手段による分析結果が、前記シーンの変化が有ること又は前記オブジェクトの動き量が閾値以上という内容である場合には、前記動画モードであると判断して、動画モードであることを表すグループ属性情報を生成し、前記分析手段による分析結果が、前記シーンの変化が無いこと又は前記オブジェクトの動き量が閾値未満であり、且つ前記精細度が閾値以上という内容である場合には、前記静止画モードであると判断して、静止画モードであることを表すグループ属性情報を生成する
ことを特徴とする請求項1又は2に記載の映像送信システム。
In the transmitter,
The analysis means is related to at least one of the presence / absence of a scene change represented by the video represented by the video encoded by the hierarchical encoding or the amount of movement of an object in the video, and the definition of the video. Do the analysis,
The attribute information generation unit determines that the video mode is selected when the analysis result by the analysis unit includes a change in the scene or the amount of motion of the object is greater than or equal to a threshold value. Group attribute information indicating that the mode is selected, and the analysis result by the analysis means is that the scene does not change or the amount of movement of the object is less than a threshold and the definition is greater than or equal to the threshold. 3. The video transmission system according to claim 1, wherein in some cases, it is determined that the still image mode is selected, and group attribute information indicating the still image mode is generated.
空間階層及び時間階層で階層符号化された複数のピクチャからなる映像データを、当該映像データの宛先である受信装置に宛てて送信する送信装置であって、
階層符号化された前記映像データの内容を、予め決められた数のピクチャ群からなるグループ単位で分析する分析手段と、
前記分析手段による分析結果に基づいて、各々の前記グループに含まれるピクチャ群によって表される映像の動きが大きい動画モードであるか、または、当該ピクチャ群によって表される映像の動きが小さい静止画モードであるかを表すグループ属性情報を、各々の前記グループについて生成する属性情報生成手段と、
階層符号化された前記映像データと生成された前記グループ属性情報とをカプセル化してパケット群を生成し、前記受信装置に宛てて送信する送信手段と
を備えることを特徴とする送信装置。
A transmission device that transmits video data composed of a plurality of pictures that are hierarchically encoded in a spatial hierarchy and a temporal hierarchy to a reception device that is a destination of the video data,
Analyzing means for analyzing the content of the hierarchically encoded video data in units of a group consisting of a predetermined number of pictures;
Based on the analysis result of the analysis means, the still image is a moving image mode in which the motion of the video represented by the group of pictures included in each of the groups is large or the motion of the video represented by the group of pictures is small. Attribute information generating means for generating group attribute information indicating whether the mode is set for each of the groups;
A transmission apparatus comprising: transmission means for encapsulating the hierarchically encoded video data and the generated group attribute information to generate a packet group and transmitting the packet group to the reception apparatus.
請求項4に記載の送信装置から送信されたパケット群を受信する受信手段と、
前記受信手段によって受信されたパケット群に含まれるグループ属性情報が、当該グループ属性情報に対応するグループに含まれるピクチャ群によって表される映像の動きが大きい動画モードを表している場合には、空間階層よりも時間階層に重みをおいてパケットを選別する手順を含む第1の関数を用い、また、前記グループ属性情報が、当該グループ属性情報に対応するグループに含まれるピクチャ群によって表される映像の動きが小さい静止画モードを表している場合には、時間階層よりも空間階層に重みをおいてパケットを選別する手順を含む第2の関数を用い、各々の前記グループ属性情報に対応するグループに含まれるパケット群から、送信対象となるパケットを抽出する抽出手段と、
前記抽出手段によって抽出されたパケットを、当該パケットの宛先である受信装置に宛てて転送する転送手段と
を備えることを特徴とする中継装置。
Receiving means for receiving a packet group transmitted from the transmission device according to claim 4;
When the group attribute information included in the packet group received by the receiving unit represents a moving image mode in which the motion of the video represented by the picture group included in the group corresponding to the group attribute information is large, the space A video using a first function including a procedure for selecting packets with a weight on a time layer rather than a layer, and the group attribute information is represented by a picture group included in a group corresponding to the group attribute information In the case of a still image mode in which the movement of the image is small, a group corresponding to each of the group attribute information is used by using a second function including a procedure for selecting packets with a weight in the space layer rather than the time layer. Extracting means for extracting a packet to be transmitted from a packet group included in
A relay device comprising: a transfer unit that transfers the packet extracted by the extraction unit to a receiving device that is a destination of the packet.
JP2010080802A 2010-03-31 2010-03-31 Video transmission system, transmitting device, and repeating apparatus Pending JP2011216986A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010080802A JP2011216986A (en) 2010-03-31 2010-03-31 Video transmission system, transmitting device, and repeating apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010080802A JP2011216986A (en) 2010-03-31 2010-03-31 Video transmission system, transmitting device, and repeating apparatus

Publications (1)

Publication Number Publication Date
JP2011216986A true JP2011216986A (en) 2011-10-27

Family

ID=44946316

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010080802A Pending JP2011216986A (en) 2010-03-31 2010-03-31 Video transmission system, transmitting device, and repeating apparatus

Country Status (1)

Country Link
JP (1) JP2011216986A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103096059A (en) * 2011-11-04 2013-05-08 宏碁股份有限公司 Wireless video transmission system and method
WO2014196198A1 (en) * 2013-06-05 2014-12-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Image encoding method, image decoding method, image encoding apparatus, and image decoding apparatus
CN103096059B (en) * 2011-11-04 2016-12-14 宏碁股份有限公司 Wireless audio transmission system and method
JP2017228895A (en) * 2016-06-21 2017-12-28 Necプラットフォームズ株式会社 Hierarchical coded signal thinning-out device, control method, and program
JP2018011169A (en) * 2016-07-13 2018-01-18 株式会社リコー Communication device, communication system, communication method, and program
CN107995458A (en) * 2016-10-27 2018-05-04 苏宁云商集团股份有限公司 A kind of method and device for shooting packaging process

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103096059B (en) * 2011-11-04 2016-12-14 宏碁股份有限公司 Wireless audio transmission system and method
CN103096059A (en) * 2011-11-04 2013-05-08 宏碁股份有限公司 Wireless video transmission system and method
JP2020058062A (en) * 2013-06-05 2020-04-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Transmission method, reception method, transmission device and reception device
US10939121B2 (en) 2013-06-05 2021-03-02 Sun Patent Trust Video encoding method, video decoding method, video encoding apparatus, and video decoding apparatus
CN104769946A (en) * 2013-06-05 2015-07-08 松下电器(美国)知识产权公司 Image encoding method, image decoding method, image encoding apparatus, and image decoding apparatus
JP5680807B1 (en) * 2013-06-05 2015-03-04 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America Moving picture coding method, moving picture coding apparatus, transmission apparatus, and program
US11546606B2 (en) 2013-06-05 2023-01-03 Sun Patent Trust Video encoding method, video decoding method, video encoding apparatus, and video decoding apparatus
JP7092923B2 (en) 2013-06-05 2022-06-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Transmission method, reception method, transmission device and reception device
JP2021141619A (en) * 2013-06-05 2021-09-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Transmission method, reception method, transmitter and receiver
JP2018157594A (en) * 2013-06-05 2018-10-04 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Transmission method, reception method, transmitter and receiver
CN104769946B (en) * 2013-06-05 2018-11-16 太阳专利托管公司 Image encoding method, picture decoding method, picture coding device and picture decoding apparatus
US10244240B2 (en) 2013-06-05 2019-03-26 Sun Patent Trust Video encoding method, video decoding method, video encoding apparatus, and video decoding apparatus
WO2014196198A1 (en) * 2013-06-05 2014-12-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Image encoding method, image decoding method, image encoding apparatus, and image decoding apparatus
US10652547B2 (en) 2013-06-05 2020-05-12 Sun Patent Trust Video encoding method, video decoding method, video encoding apparatus, and video decoding apparatus
JP2015092742A (en) * 2013-06-05 2015-05-14 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America Method of decrypting image and image decrypting device
JP2017228895A (en) * 2016-06-21 2017-12-28 Necプラットフォームズ株式会社 Hierarchical coded signal thinning-out device, control method, and program
JP2018011169A (en) * 2016-07-13 2018-01-18 株式会社リコー Communication device, communication system, communication method, and program
CN107995458B (en) * 2016-10-27 2020-10-27 江苏苏宁物流有限公司 Method and device for shooting packaging process
CN107995458A (en) * 2016-10-27 2018-05-04 苏宁云商集团股份有限公司 A kind of method and device for shooting packaging process

Similar Documents

Publication Publication Date Title
JP6670812B2 (en) Encoding device and encoding method
JP5916624B2 (en) Scalable decoding and streaming with adaptive complexity for multi-layered video systems
TWI586177B (en) Adaptive bit rate control based on scenes
CN103650509B (en) Adaptive configuration of reference frame buffer based on camera and background motion
US8831108B2 (en) Low latency rate control system and method
Seeling et al. Video traffic characteristics of modern encoding standards: H. 264/AVC with SVC and MVC extensions and H. 265/HEVC
JP4755093B2 (en) Image encoding method and image encoding apparatus
KR101502611B1 (en) Real-time video coding system of multiple temporally scaled video and of multiple profile and standards based on shared video coding information
JP6463041B2 (en) Image processing apparatus, image processing method, and program
EP2680527A1 (en) Adaptive streaming aware node, encoder and client enabling smooth quality transition
US9473790B2 (en) Inter-prediction method and video encoding/decoding method using the inter-prediction method
CN109729437B (en) Streaming media self-adaptive transmission method, terminal and system
KR20160007564A (en) Tuning video compression for high frame rate and variable frame rate capture
US8139877B2 (en) Image processing apparatus, image processing method, and computer-readable recording medium including shot generation
CN104704835A (en) Method and apparatus of motion information management in video coding
US20210281849A1 (en) Image processing device, image processing method, and program
JP6707334B2 (en) Method and apparatus for real-time encoding
KR20120059214A (en) Video codec apparatus for providing video streaming with adaptive regions of interest and method of the same
JP2012151576A (en) Image coding method, image coding device, image decoding method and image decoding device
CN102036065A (en) Method and system for video coding
JP2011216986A (en) Video transmission system, transmitting device, and repeating apparatus
JP2008011117A (en) Method of determining reference picture during interlaced encoding of image encoding
JP4799191B2 (en) Communication terminal, communication system, and communication method
JP6497874B2 (en) Image processing apparatus, image processing method, and program
TWI683572B (en) Video bit rate transmission control method based on dynamic picture information