JP2008199387A

JP2008199387A - 動画部分配信システム

Info

Publication number: JP2008199387A
Application number: JP2007033733A
Authority: JP
Inventors: Takeshi Nagata; 健永田; Masahiko Yamamoto; 昌彦山本; Kenji Matsumoto; 松本　　健志; Masashi Ozawa; 誠志小澤
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2007-02-14
Filing date: 2007-02-14
Publication date: 2008-08-28

Abstract

【課題】例えば携帯端末ユーザが希望する範囲だけの動画情報をサーバよりダウンロードできるようにすることで、不要な回線使用料金の発生および無線通信ネットワークへの不必要な負荷を軽減することを目的とする。
【解決手段】互いに無線通信を介してデータ通信可能な携帯端末とサーバで構成され、携帯端末でユーザが視聴したい動画の範囲を指定できるようにする。その動画範囲の指定に応じて、サーバでMP4ファイルフォーマットのATOM構造を利用して、動画データから指定された範囲の動画のみを切り出して部分動画データを作成し、その部分動画データをサーバから携帯端末へ送信する。携帯端末は、受信した部分動画データを再生し、ユーザが部分動画を視聴できるようにする。
【選択図】図２

Description

本発明は、例えば無線通信を介して動画データを送配信するシステムに関し、特にサーバから例えば携帯端末へMP4ファイルフォーマット形式の動画の一部分のみの配信を行うようなシステムに関する。

携帯電話やＰＤＡ（Personal Digital Assistant）のような携帯端末へ、ユーザが希望する動画像を無線通信を介して配信するサービスが、現在普及している。しかし、従来の技術で配信可能な動画範囲は、動画の最初から最後まで、または最初からユーザが受信を中止した位置までの範囲のみとなっており、ユーザが希望する範囲のみの配信が可能になっていない。

本発明に関連する公知技術文献としては、下記の特許文献１がある。該文献には、利用者が希望するダウンロード条件（時刻、料金等）に応じた配信サービスを受けることができる動画像配信システムが開示されている。
特開2004-080416号

従来の技術では、携帯端末へ無線通信を介してサーバから動画データをダウンロード再生する場合、動画データのすべてをダウンロードした後、あるいは動画データの先頭からダウンロードしつつ、先頭から最後まで、あるいは先頭からユーザが再生を停止したところまで、再生する方式になっている。しかし、この方式では、携帯端末ユーザが希望する以上の動画の情報を提供することになり、このためユーザの携帯端末の契約が従量制課金方式の場合はユーザが期待していない回線使用料金が生じ、また無線通信ネットワークへ必要以上に負荷をかける結果となっている。

上記特許文献１に記載の技術によれば、利用者が希望するダウンロード条件に応じた配信サービスが受けられるが、これはダウンロードする時刻などの条件を指定できるに過ぎないものであり、ユーザが希望する範囲の動画情報のみをダウンロードするものではない。

本発明は、例えば携帯端末ユーザが希望する範囲だけの動画情報をサーバよりダウンロードできるようにすることで、不要な回線使用料金の発生および無線通信ネットワークへの不必要な負荷を軽減することを目的とするものである。

上記の目的を達成するため、本発明は、動画データを配信する機能を備えるサーバと、該サーバと任意の通信手段を使用して接続可能で、かつ動画データの再生機能を備える端末装置とを有する動画部分配信システムであって、前記端末装置は、ユーザが再生を希望する動画データを選択する操作を受け付けて、該選択された動画データを特定する情報を含む選択動画指示情報を前記サーバに送信し、サーバから動画情報データが送信されてきたときには、該動画情報データに含まれる複数の再生開始可能位置情報と総再生時間情報から、ユーザが再生を希望する動画データの部分範囲を指定するための画面を生成して表示し、前記画面でユーザが指定した動画の部分範囲を特定する部分範囲情報をサーバに送信し、サーバから部分動画データが送信されてきたときには該部分動画データを再生するものとし、サーバは、端末装置から選択動画指示情報が送信されてきたときには、選択された動画データから複数の再生開始可能位置情報と総再生時間情報を含む動画情報データを生成して端末装置に送信し、端末装置から部分範囲情報が送信されてきたときには、選択された動画データからその部分範囲情報で指定された範囲の動画データを切り出し、部分動画データを生成し、生成した部分動画データを前記端末装置に送信するものとすることを特徴とするものである。

本発明は、無線通信を介して携帯型の端末に動画データを送配信するシステムに適用すると良い。携帯端末で動画データの配信を受けて再生する場合には、できるだけ不要な回線使用料金の発生および無線通信ネットワークへの不必要な負荷を軽減したいからである。

また、動画データは例えばMP4ファイルフォーマット形式とするのが良い。該フォーマットであれば、サーバは、該フォーマットの動画のATOM情報より、携帯端末側で選択可能な複数の動画の再生開始位置情報と総再生時間情報を簡単に読み取ることができるからである。また指定された範囲の動画の切り出しも、MP4ファイルフォーマット形式動画のATOM情報を利用して簡単に切り出せる。

本発明に係る動画部分配信システムによれば以下のような効果がある。
（１）例えば携帯端末利用者が無線通信などを介して接続されたサーバにある動画の一部分のみ見たい場合に、利用者が好みの動画範囲を選択し、その部分だけを見ることができるようになる。
（２）端末利用者が動画の一部分のデータだけの配信を受けて視聴できるので、利用者の回線使用料を引き下げることができる。
（３）端末利用者が動画の一部分のデータだけ配信を受けて視聴できるので、動画データすべてをダウンロードした場合に比べ、不要な通信回線への負荷を軽減する効果を得られる。

以下、本発明を適用したMP4動画部分配信システムの一実施形態について説明する。

図１は、本発明の実施形態の一例を示すシステム構成図である。本MP4動画部分配信システムは、動画データを受信し再生可能な携帯端末１−１と、この携帯端末１−１へ動画データを配信可能なサーバ１−２とを備える。携帯端末１−１は、無線回線で無線基地局１−３と接続される。この基地局１−３は、公衆回線である通信ネットワーク１−４を介してサーバ１−２と接続される。無線基地局１−３は、携帯端末１−１の無線通信を仲介する手段であり、携帯電話を例にすると、移動電話事業者の基地局に相当する。

サーバ１−２は、複数の動画データを格納した動画データ部１−５、動画データから動画再生開始可能位置等の動画情報を読み出す動画情報読出部１−６、動画データから動画の一部を切り出す動画切り出し部１−７、並びに、携帯端末１−１と無線通信を介してデータの送信および受信を行う送受信部１−８を備える。

サーバ１−２の動画データ部１−５には、MP4フォーマット形式の動画データが複数格納されている。本システムで想定しているMP4フォーマット形式の動画データは、例えば、参考文献１：「ISO/IEC 14496-14 Information technology - Coding of audio-visual objects -Part 14: MP4 File Format」や、参考文献２：「ISO/IEC14496-12 Information technology - Coding of audio-visual objects -Part 12: ISO base media file format」などで規定されている。特に、本実施形態で利用するMP4フォーマット形式の動画のデータ構造（以後、ATOM構造と呼ぶ）は、参考文献２で規定されている。

携帯端末１−１は、動画やユーザ操作用のインタフェース画面を表示する携帯端末画面１−９、サーバ１−２から受信した動画情報を編集する動画情報編集部１−１０、動画を再生する動画再生部１−１１、動画や情報を画面１−９に表示する画面表示部１−１２、および、サーバ１−２と無線通信を介してデータを送受信する送受信部１−１３を備える。

図２は、本実施形態のシステムにおける処理シーケンスの例を示す。携帯端末処理シーケンス２−２は、図１の携帯端末１−１の行う処理を示す。サーバ処理シーケンス２−３は、図１のサーバ１−２の行う処理を示す。ここで、携帯端末１−１は、あらかじめサーバ１−２から、サーバ１−２の動画データ部１−５に保持されている複数の動画の識別情報を取得しており、携帯端末ユーザ２−１が視聴を希望する動画を携帯端末１−１から選択可能になっているものとする。

図２のシーケンスは、携帯端末１−１を使用する携帯端末ユーザ２−１が、視聴を希望する動画データ部１−５内の動画に対し動画選択動作ＡＣ１を行った契機から処理が開始する。携帯端末処理２−２は、この動画選択動作ＡＣ１を受けると、サーバ１−２へ携帯端末ユーザ２−１が選択した動画の識別情報を持つ選択動画指示イベントＥＶ１を送信する。

なお、図２の携帯端末処理シーケンス２−２とサーバ処理シーケンス２−３とは、無線通信を介してデータ送受信を行っている。実際には、携帯端末１−１とサーバ１−２の各送受信部１−８，１−１３により各処理シーケンス２−２，２−３の間のデータ送受信を実現しているが、それらの動作については表記を省略し、本システムの主要部分だけを示している。

携帯端末処理２−２より送信された選択動画送信イベントＥＶ１をサーバ１−２の送受信部１−８が受け取ると、サーバ処理２−３は、動画情報読出処理２−４を開始する。動画情報読出処理２−４は、動画のATOM情報から総再生時間と再生開始可能な位置情報を読出し、それらのデータを編集して図６の動画情報データを生成し、これを動画開始可能位置情報送信イベントＥＶ２として携帯端末１−１へ送信する。

動画開始可能位置情報送信イベントＥＶ２を受信した携帯端末処理２−２は、動画情報表示処理２−５を開始する。動画情報表示処理２−５は、サーバ１−２より受信した動画情報データ（図６）を元に、携帯端末ユーザ２−１が動画の再生開始位置から終了位置までを選択できるようにするための画面データを生成し、それを携帯端末の画面１−９へ表示する。携帯端末ユーザ２−１が、動画情報表示処理２−５によって表示された画面で、動画の再生開始位置から終了位置までを選択すると、携帯端末処理２−２は、ユーザ２−１が選択した動画の範囲情報に基づいて図６の動画範囲情報データを生成し、その動画範囲情報データを持った動画範囲情報送信イベントＥＶ３をサーバ１−２へ送信する。

サーバ処理２−３は、動画範囲情報送信イベントＥＶ３を受信すると、動画切り出し処理２−６を開始する。動画切り出し処理２−６は、携帯端末ユーザ２−１が指定した動画の再生開始位置と終了位置の範囲の動画データを切り出し、更にこの切り出した動画データの情報を持つATOM情報を擬似的ヘッダ１１−１（図１１で詳述する）として作成し、作成した擬似ヘッダ１１−１と切り出した動画データ１２−１とを合わせた部分動画データを、部分動画送信イベントＥＶ４として、携帯端末１−１へ送信する。

部分動画送信イベントＥＶ４を受信した携帯端末処理２−２は、受信した部分動画データを動画再生部１−１１にて動画再生処理２−７を行う。これにより、携帯端末ユーザ２−１は、指定した範囲の部分動画を視聴することができる。

図３の動画情報読出処理フロー３−１は、図２のサーバ処理２−３の動画情報読出処理２−４の詳細な処理フローである。動画情報読出処理は、動画情報読出要求待ち３−２、動画ATOM情報読出３−３、送信情報作成３−４、およびサーバ送信部への通知３−５の各処理で構成されている。動画情報読出要求待ち処理３−２は、携帯端末処理２−２からの選択動画指示イベントＥＶ１を待つ処理である。サーバ１−２の送受信部１−８が選択動画指示イベントＥＶ１を受信すると、この動画情報読出要求待ち処理３−２の待ち状態を解除し、以降の処理３−３，３−４，３−５が動作する仕組みとなっている。

動画ATOM情報読出処理３−３では、まず動画データより動画の開始可能位置および総再生時間を取得して、図６の動画情報データを作成する。

図７に、本実施形態で前提とする動画データのATOM構造を示す。ここでは、Video(動画像)のみを持ち、Audio(音声)を持たない単純なMP4動画を仮定する。図７の７−１はMP4動画データのftyp atom部であり、ここに動画のファイルタイプ情報が格納されている。図７の７−２はMP4動画データのmoov atom部であり、この中に各種の動画情報が格納されている。図８の８−１に、moov atom部７−２の詳細な構造を示す。図７の７−３はMP4動画データのmdat(Video) atom部７−３であり、ここにVideoデータが格納されている。図９の９−１に、mdat(Video) atom部７−３の詳細な構造を示す。以後、ftyp atom部７−１とmoov atom部７−２とを合わせた部分を動画のヘッダと呼称する。

図８の８−１は、図７のmoov atom部７−２の詳細構造を表している。moov atom部８−１には、動画に関する情報８−２〜８−１６が格納されている。８−２はmvhd atom部であり、動画のトラック毎に存在し、ここにはトラック内の共通情報が格納されている。この例ではVideoトラックのみの動画を仮定しているので、mvhd atom部８−２には、Videoトラックのサンプリング単位および総再生時間が格納されている。８−３はtrak atom部であり、Videoトラック情報が格納されている。本実施形態でのVideoトラック情報は、情報８−４〜８−１６で構成されている。８−４はtkhd atom部であり、トラック内の共通情報として、トラック情報(この例ではVideo情報)の識別子(トラックID)、再生時間、および再生サイズが格納されている。８−５は、mdia atom部であり、動画メディア情報が格納されている。本実施形態での動画メディア情報は、情報８−６〜８−１６で構成されている。８−６は、mdhd atom部であり、メディアの共通情報として、メディア(この例ではVideoメディア)のサンプリング単位および再生時間が格納されている。８−７は、hdlr atom部であり、メディアの取り扱いタイプが格納されている。本実施形態では、「Videoタイプ」を意味する定義情報が格納されることになる。

８−８は、minf atom部であり、メディア情報格納部である。本実施形態でのメディア情報格納部は、情報８−９〜８−１６で構成される。８−９はdinf atom部であり、メディアデータ情報格納部である。ここには、メディアデータ(この例ではVideoデータ)の位置情報(URL情報等)が格納されている。８−１０はstbl atom部であり、メディアを構成する個々のサンプルデータの時間情報および配置情報が格納されている。本実施形態でのstbl atom部は、情報８−１１〜８−１６で構成されている。ここでサンプルデータとは、メディアデータを構成するデータの一単位を意味し、Videoの場合、ひとつのフレームデータにあたる。以降、本実施形態では、サンプルとVideoフレーム(あるいは単なるフレーム)とは同じ意味を表す。

８−１１は、stsd atom部であり、サンプルデータの共通情報として、フォーマットタイプ、クオリティ、解像度、およびエンコーダ名称等が格納されている。８−１２はstts atom部であり、サンプル時間情報格納部である。サンプル時間情報格納部には、サンプルデータの時間情報として、総サンプル数および１サンプルの再生時間が格納されている。８−１３はstsc atom部であり、チャンク情報として、総チャンク数と全チャンクのチャンク番号、および各チャンクのサンプル数等が格納されている。ここで、チャンクとは、複数のサンプルを一まとめにしたブロックを意味する。８−１４はstsz atom部であり、サンプルサイズ情報として、総サンプル数および各サンプルのサイズが格納されている。８−１５はstco atom部であり、チャンクのオフセット情報として、各チャンクのファイルの先頭からの絶対アドレスを表すオフセット情報、および総チャンク数が格納されている。ここで、絶対アドレスとは、ファイル先頭をゼロとした場合のファイル先頭からの相対位置情報を意味する。８−１６はstss atom部であり、キーフレーム情報として、Videoメディアの全キーフレームの識別番号が格納されている。stss atom部は、Videoトラックの場合のみ存在する。ここで、キーフレームとは、フレームの適当な間隔毎にある非圧縮データのフレームを意味する。また、フレームの識別番号とは、先頭フレームを１としたフレーム毎の昇順の番号を意味する。

図９のmdat(Video)構造９−１は、図７のmdat(Video) atom７−３の詳細構造を表している。mdat(Video) atom９−１には、動画のメディアデータが格納され、本実施形態ではこの格納データはVideoデータのみである。mdat(Video)９−１には、チャンク(例えば、９−２，９−３)という単位でデータが格納されており、更にチャンクは複数のサンプル(例えば、９−４)という一定の再生時間を持ったデータで構成されている。図９の例では、チャンク９−２，９−３は、それぞれ１６個のサンプルデータで構成されている。また、図９では、チャンク９−２，９−３の後にも複数のチャンクデータが続いているとする。ここで、Videoデータの場合、１サンプルはVideo映像の１フレームに当たるので、以後サンプルをフレームと呼称する。また、フレームにはデータが圧縮されずに格納されているものがあり、それをキーフレームと呼ぶ。図９の例では、９−４と９−５のフレームがキーフレームである。

図３に戻って、動画ATOM情報読出処理３−３では、以下の手順によって総再生時間および各開始可能時刻を得る。まず、moov atom７−２のtkhd atom８−４から総再生時間を得る。また、stss atom部８−１６からVideoフレームの中のキーフレームの識別番号を、stts atom部８−１２から１Videoフレームの再生時間を、それぞれ取得し、これら２つの値から、例えば（識別番号−１）×（１Videoフレームの再生時間）の計算式によって、各キーフレームの開始可能時刻を得ることができる。ここで、開始可能時刻とは、動画の先頭の開始時刻を０とした場合に、先頭から対応するキーフレームまでの再生にかかる時間を意味する。

図３の送信情報作成処理３−４では、上記３−３の手順によって得た総再生時間と各開始可能時刻を、図６の総再生時間６−２および開始可能時刻６−３に設定（求めた各キーフレームの開始可能時刻を図６の開始可能時刻１，２，…に順に設定する）して動画情報データを作成する。ここで、動画情報データのヘッダ６−１は、宛先ＩＰアドレス等を含む既存の無線通信手段(例えば、cdmaOne、W−CDMA、CDMA2000などの規格で規定されている通信手段)における通信データのヘッダ情報を想定している。このヘッダ６−１の情報を用いて、携帯端末１−１とサーバ１−２との間の無線通信を正常に行うことができる。

図４の動画情報表示処理フロー４−１は、図２の携帯端末処理２−２の動画情報表示処理２−５の詳細な処理フローである。動画情報表示処理は、動画情報表示要求待ち処理４−２、動画情報編集処理４−３、および携帯端末画面表示処理４−４の各処理で構成されている。動画情報表示要求待ち処理４−２は、サーバ処理２−３からの動画開始可能位置情報送信イベントＥＶ２を待つ処理である。携帯端末１−１の送受信部１−１３が動画開始可能位置情報送信イベントＥＶ２を受信すると、この動画情報表示要求待ち処理４−２の待ち状態を解除し、以降の処理４−３および４−４が動作する仕組みとなっている。

動画情報編集処理４−３では、受信した動画開始可能位置情報送信イベントＥＶ２に含まれる図６の動画情報データの開始可能時刻から携帯端末ユーザ２−１が選択しやすい時刻を抽出する。この抽出は、開始可能時刻が適当な時間間隔毎のキーフレーム毎にあるため、動画ファイルによっては数ミリ秒間隔に開始可能時刻が有る場合があり、このような短い時間間隔の開始時間の選択肢は携帯端末ユーザ２−１にとっては必要でないと考えられるので、そのような場合に、例えば１秒またはそれ以上の間隔を空けて開始可能時刻を抽出する処理を想定している。携帯端末画面表示処理４−４では、動画情報編集処理４−３で抽出された動画の開始可能時刻を携帯端末１−１の画面１−９へ表示し、携帯端末ユーザ２−１が携帯端末を操作することで、希望する動画の再生開始時刻と再生時間を選択できるようにしている。

図２に戻って、携帯端末ユーザ２−１が希望する再生開始時刻と再生時間を選択(図２の動画範囲選択ＡＣ２)すると、携帯端末処理２−２は、選択された再生時間と再生開始時刻を図６の動画範囲情報データの再生時間６−５および開始時刻６−６として設定し、この動画範囲情報データを動画範囲情報送信イベントＥＶ３としてサーバ処理２−３へ送信する。ここで図６の動画範囲情報データのヘッダ６−４は、動画情報データのヘッダ６−１と同じく、宛先ＩＰアドレス等を含む既存の無線通信手段(例えば、cdmaOne、W−CDMA、CDMA2000などの規格で規定されている通信手段)における通信データのヘッダ情報を想定している。このヘッダ６−４の情報を用いて、携帯端末１−１とサーバ１−２との間の無線通信を正常に行うことができる。また、ユーザにより指示された再生時間が開始時刻から起算すると動画の総再生時間６−２を超えていた場合(計算式で表現すると、「開始時刻＋再生時間」≧「総再生時間６−２」となる場合)は、動画の最後を超える再生時間の指定になるため、この場合は開始時刻から動画の最後までを再生するものとし、動画範囲情報データの再生時間６−５には、動画の最後まで再生する事を意味する値(例えば「再生時間６−５」＝−１)を格納する。

図５の動画切り出し処理フロー５−１は、図２のサーバ処理２−３の動画切り出し処理２−６の詳細な処理フローである。動画切り出し処理は、動画切り出し要求待ち処理５−２、動画切り出し処理５−３、擬似ヘッダ領域確保処理５−４、擬似ヘッダ作成処理５−５、および擬似ヘッダと切出し動画の送信処理５−６の各処理で構成されており、この順番で処理動作するようになっている。

動画切り出し要求待ち処理５−２は、携帯端末処理２−２からの動画範囲情報送信イベントＥＶ３を待つ処理である。サーバ１−２の送受信部１−８が動画範囲情報送信イベントＥＶ３を受信すると、この動画切り出し要求待ち処理５−２の待ち状態を解除し、以降の動画切り出し処理５−３、擬似ヘッダ領域確保処理５−４、擬似ヘッダ作成処理５−５、および擬似ヘッダと切出動画の送信処理５−６が動作する仕組みとなっている。

動画切り出し処理５−３は、受信した動画範囲情報送信イベントＥＶ３に含まれる図６の動画範囲情報データの再生時間６−５と開始時刻６−６を使用して、携帯端末１−１へ配信する動画データの先頭フレームと最終フレームを選択する処理である。

開始時刻６−６から部分動画の先頭となるフレームを選択する方法例は、次のようになる。開始時刻６−６の値を、stts atom部８−１２の１フレームの再生時間の値で割った商がstss atom部８−１６に格納されているキーフレームの識別番号に一致すれば、その識別子のキーフレームが部分動画の先頭フレームとなる。

また、再生時間６−５から部分動画の最終フレームを選択する方法例は、次のようになる。開始時刻６−６に再生時間６−５を加えた時間をstts atom部８−１２の１フレームの再生時間の値で割った商が最終フレームの識別番号になる。

識別番号の判明したフレーム(サンプル)の動画ファイル先頭からの位置の算出方法例は、次のようになる。位置を求めたいフレームをＦｎとする。stsc atom部８−１３には各チャンクのフレーム数が格納されているので、先頭のチャンクのフレーム数に続くチャンクのフレーム数をチャンク番号昇順に加算していき、加算した値が、Ｆｎの識別番号の値を超えた場合、そのときに加算したチャンク内にＦｎが存在している。このＦｎを含むチャンクをＣｎとする。Ｃｎまでの位置は、stco atom部８−１５に格納されているチャンクのオフセット情報から得られる。またＣｎの先頭フレームからＦｎまでのオフセットは、stsz atom部８−１４に各フレームのサイズがフレームの識別子順に格納されているので、このstsz atom情報より、Ｃｎの先頭のフレームからＦｎのひとつ前のフレームまでの各フレームサイズを識別子を対応させることで取得し、取得したサイズを全て加算すれば求まる。以上から、Ｃｎのオフセットと、Ｃｎ先頭フレームからＦｎまでのオフセットを足せば、動画ファイル先頭からのＦｎの位置が算出できる。この方法で部分動画の先頭フレームは算出できる。また最終フレームの位置も同様にして算出できる。

図１０は、図５の動画切り出し処理５−３による動画データの切り出しの様子を示す。この動画データ１０−１は、図９のmdata(Video) atomと同じVideoデータを表している。また、１０−２〜１０−３までの網掛けしてあるフレームは、上記で説明した図５の動画切り出し処理５−３の方法で切り出す先頭フレームから最終フレームまでのフレームを示している。図１０の例は、Sample19のキーフレームから２つのチャンクにまたがってサンプルデータが切り出される事を表している。また、本MP4動画部分配信システムでは、元の動画データ（Videoデータ）から、この切り出される動画データの位置情報を使って切り出した動画データを配信するので、元動画とは別にVideoデータのメモリ領域をサーバ上に確保することはない。新たにサーバのメモリ上に確保する領域は、以下に説明する擬似ヘッダ１１−１のみである。

図５の擬似ヘッダ領域確保処理５−４は、図１０の網掛けフレーム１０−２〜１０−３で表される切り出し動画のみをVideoデータとする動画ファイルを携帯端末へ配信するため、切り出したVideoフレームのみをデータとする動画ファイルのヘッダ部分を元の動画とは別に作成する目的で、動画のヘッダ領域をサーバのメモリ上に確保する処理である。以後、このヘッダを擬似ヘッダと呼称する。擬似ヘッダのサイズは、図７のもともとの動画のftyp atom部７−１のサイズと、図１２の切り出した動画である擬似動画データの情報を収めるmoov atom部１１−１のサイズとを合わせたサイズとなる。ここで、部分動画の擬似ヘッダ１１−１のmoov atom部１１−３と元動画のmoov atom部８−１とでサイズが変わるatomは、チャンク毎のフレーム数を持つstsc atom部１１−８、フレーム毎のサイズを持つstsz atom部１１−９、チャンク毎のオフセット情報を持つstco atom部１１−１０、および、Videoデータが持つ全キーフレームの識別子を格納しているstss atom部１１−１１の４箇所である。擬似動画データ１２−１のチャンク数２、フレーム数１７に合わせてatomに格納されるデータ数が決まるため、これら４つのatomによってmoov atom部のサイズが変わる。図５の擬似ヘッダ領域確保処理５−４では、このヘッダサイズの変更を考慮して領域サイズを計算し、領域を確保する。

図５の擬似ヘッダ作成処理５−５は、擬似ヘッダ領域確保処理５−４で確保された擬似ヘッダデータの領域に、図１０の切り出し動画データ(１０−２から１０−３までのフレーム)の情報を埋め込む処理である。但し、本実施形態のシステムの部分動画の配信は、図１０の切り出された網掛け部分のmdata(Video) atom構造のまま配信せず、図１２のように切り出した動画だけを持つ動画としてmdata(Video) atom構造を再構成して配信する。これにより、携帯端末処理２−２側には、切り出した部分動画のみの動画ファイルが配信されているようにしている。

図１２の擬似動画データ構造１２−１は、擬似ヘッダ作成処理５−５で擬似ヘッダを作成する際に想定する動画データ構造である。この擬似構造に従って、stsc atom部１１−８の総チャンク数、各チャンクのチャンク番号、各チャンクのサンプル数、またstsc atom部１１−１０の各チャンクの総チャンク数、および各チャンクのファイル先頭からのオフセットを算出し、擬似ヘッダ１１−１へ格納する。

図１１は、擬似ヘッダ１１−１の構造詳細を示す。１１−２は擬似ヘッダのftyp atom部であり、部分動画（擬似動画データ）１２−１のファイルタイプ情報が格納されており、図７のMP4動画データのftyp atom部７−１と同じ内容になる。１１−３は擬似ヘッダのmoov atom部であり、部分動画１０−２〜１０−３の動画情報が格納されている。擬似ヘッダを構成するatomの種類は図８のmoov atom部８−１と全く同じであるが、情報が異なるatomがある。図１１では、元の動画データである図７のmoov atom部７−２（図８）と異なる情報を持つatomは網掛け太字にしてあり、網掛け太字以外のatomは図８の元の動画のatomと同じ情報が格納されている。

１１−４は擬似ヘッダのmvhd atom部であり、擬似動画データ１２−１のトラック共通情報が格納されている。図８のmvhd atom部８−２とは総再生時間が異なり、擬似ヘッダのmvhd atom部１１−４の総再生時間には、擬似動画データ１２−１の総再生時間が格納されている。ここで、擬似動画データ１２−１の総再生時間は、擬似動画データ１２−１に含まれるフレーム数に、元の動画のstts atom部８−１２の１フレームの再生時間を掛けた値（フレーム数×１フレームの再生時間）である。１１−５は擬似ヘッダのtkhd atom部であり、擬似動画データ１２−１のトラック内の共通情報が格納されている。図８のtkhd atom部８−４とは再生時間が異なり、擬似ヘッダのtkhd atom部１１−５には、擬似動画データ１２−１の再生時間が格納されている。１１−６は擬似ヘッダのmdhd atom部であり、擬似動画データ１２−１のメディアの共通情報が格納されている。図８のmdhd atom部８−６とは再生時間が異なり、擬似ヘッダのmdhd atom部１１−６には、擬似動画データ１２−１の再生時間が格納されている。

１１−７は擬似ヘッダのstts atom部であり、擬似動画データ１２−１のサンプル時間情報が格納されている。図８のstts atom部８−１２とは総サンプル数が異なり、擬似ヘッダのstts atom部１１−７には、擬似動画データ１２−１の総サンプル数が格納されている。１１−８は擬似ヘッダのstsc atom部であり、擬似動画データ１２−１のチャンク情報格納部が格納されている。図８のstts atom部８−１３とは総チャンク数、全チャンクのチャンク番号、および各チャンクのサンプル数が異なり、擬似ヘッダのstsc atom部１１−８には、擬似動画データ１２−１のサンプルに従って図５の擬似ヘッダ作成処理５−５にて再設定された全チャンク数、全チャンクのチャンク番号、および各チャンクのサンプル数が格納されている。図１２の例では、全チャンクはChunk1’(１２−２)とChunk２’(１２−５)であり、それぞれチャンク番号は１，２であり、各チャンクのサンプル数は、Chunk1’が１６、Chunk2’が１である。１１−９は擬似ヘッダのstsz atom部であり、擬似動画データ１２−１のサンプルサイズ情報が格納されている。図８のstsz atom部８−１４とは情報が異なり、擬似ヘッダのstsz atom部１１−９には、擬似動画データ１２−１の各サンプルのサイズの情報が格納されている。

１１−１０は擬似ヘッダのstco atom部であり、擬似動画データ１２−１の各チャンクのオフセット情報が格納されている。図８のstco atom部８−１５とは異なり、擬似ヘッダのstco atom部１１−１０には、擬似動画データ１２−１の総チャンク数、および各チャンクのファイル先頭からのオフセット情報が格納されている。ここで、各チャンクのファイル先頭からのオフセット情報は、次のようにして求める。Chunk1’の場合、Chunk1’は擬似ヘッダの次のatomになるため、Chunk1’のオフセットは図５の擬似ヘッダ領域確保処理５−４で求めた擬似ヘッダサイズに等しくなる。また、Chunk2’のオフセットは、Chunk1’に含まれる全フレームのサイズをstsz atom部１１−９から取得し、それら全てを加算した値をChunk1’のオフセットに加えれば求まる。１１−１１は擬似ヘッダのstss atom部であり、部分動画１０−２〜１０−３のキーフレーム情報が格納されている。図８のstss atom部８−１６とは情報が異なり、擬似ヘッダのstss atom部１１−１１には、図１２のVideoフレームに含まれるキーフレーム番号が格納されている。この例では、図１２のSample1’(１２−４)がキーフレームとなり、擬似ヘッダのstss atom部１１−１１にはこのキーフレームの識別番号が格納される。

以上の方法で擬似ヘッダ１１−１を作成し、擬似動画データ１２−１と合わせて部分動画として、携帯端末１−１へ配信する。

図５の擬似ヘッダと切出動画の送信処理５−６は、動画切り出し処理５−３で切り出した擬似動画データ１２−１と擬似ヘッダ作成処理５−５で作成した擬似ヘッダ１１−１とを合わせて、サーバ１−２の送受信部１−８から部分動画送信イベントＥＶ４として携帯端末処理２−２へ送信する処理である。この部分動画送信イベントＥＶ４を、図２の携帯端末１−１の送受信部１−１３が受信すると、携帯端末処理２−２の動画再生処理２−７が動作する。これにより、携帯端末１−１の動画再生部１−１１が部分動画を再生して、携帯端末１−１の画面１−９から、携帯端末ユーザ２−１が指定した範囲の部分動画を視聴できる。

以上は図７に示されるVideoデータのみのMP4フォーマット動画の動画部分配信方法を説明したが、Videoデータの他にAudioデータがあるMP4フォーマット動画の場合の動画部分配信方法について以下に説明する。

図１３はVideoデータとAudioデータ両方を含むMP４フォーマット動画のATOM構造例を示している。但し、動画の総再生時間はVideoデータの再生時間と同じとする。図１３と図７の構成内容の相違点はmoov atom部１３-２の内容と、Audio(音声)データに対応するmdata(Audio) atom部１３-４が存在する事である。他のftyp atom部１３-１とmdata(Video) atom部１３-３の構成は、それぞれ図７、図９と同様である。図１３のmoov atom部１３-２と図７のmoov atom部７-２の間の相違点の詳細は図１４で説明する。mdata(Audio) atom部１３-４は、図９で示されるVideoデータのmdata(Video) atom部９-１と同様で、複数のチャンクを持ち、そのチャンク毎に複数の音声のサンプルデータを持つ構造となっている。

図１４はmoov atom部１３-２の詳細構造を示している。mvhd atom部１４-２とVideo(動画像)データの情報を収めたtrak(Video) atom部１４-３の構成内容は、それぞれ図８のmvhd atom部８-２とtrak atom部８-３と同様である。trak(Audio) atom部１４-４は、mdata(Audio) atom部１３-４のAudio(音声)データの情報を格納しており、Videoデータmdata(Video) atom部７-３の情報を収めたtrak atom部８-３との相違点は、キーフレームの識別子を格納しているstss atom部８-１６が無い事である。それ以外のtrak(Audio) atom部１４-４の構成はtrak atom部８-３と同様である。

Video/Audioデータ両方を含む場合と、Videoデータのみの場合のそれぞれのMP4フォーマット動画の部分配信処理方法の相違点は、図５の動画切り出し処理５-３、擬似ヘッダ領域確保処理５-４、及び擬似ヘッダ作成処理５-５の３つのみにある。以下この相違点を説明する。

図５の動画切り出し処理５-３での相違点は、Videoデータに対して切り出し処理を行った後に、Audioデータに対し、開始時間６-６に対応するAudio開始サンプルデータと、開始時間６-６と再生時間６-５を加えた終了時間に対応するAudio最終サンプルデータをmdata(Audio) atom部１３-４から求める処理が追加される事である。この追加される処理方法は次の様になる。開始時間６-６と終了時間の値を、stts atom部１４-１３内の１サンプルデータの再生時間でそれぞれ割り、その２つの商を、Audio開始サンプルデータの識別番号とAudio最終サンプルデータの識別番号に対応させればよい。この２つのサンプルデータで挟まれ、かつ２つのサンプルデータを含むAudioサンプルデータが、部分動画の切り出しAudioデータとなる。また、終了時間がAudioデータの再生時間を超える場合は最後のAudioサンプルデータをAudio最終サンプルデータとすればよい。

図５の擬似ヘッダ領域確保処理５-４での相違点は、図１１の擬似ヘッダのサイズを求めた後に、上記で切り出したAudioサンプルデータの情報を持った擬似trak(Audio) atom部のサイズを算出し、それを図１１の擬似ヘッダのサイズに追加する事である。追加した合計サイズを、擬似ヘッダの領域サイズとして確保する事になる。切り出したAudioサンプルデータの情報を持ったtrak(Audio) atom部のサイズの求め方は、Audioデータの場合、trak(Audio) atom部１４-４にstss atom部がない事を考慮する以外は、図５の擬似ヘッダ領域確保処理５-４でのtrak(Video) atom部のサイズを求める方法と同様である。

図５の擬似ヘッダ作成処理５-５での相違点は、図１１の擬似ヘッダを作成した後に、切り出したAudioサンプルデータから擬似trak(Audio) atom部を作成し、図１１の擬似ヘッダデータに追加する事である。切り出したAudioサンプルデータの擬似trak(Audio) atom部の作成方法は、Audioデータの場合、trak(Audio) atom部１４-４にstss atom部がない事を考慮する以外は、図５の擬似ヘッダ作成処理５-５で説明した方法と同様である。

以上の３つの処理を行えば、他の処理についてはVideoデータのみのMP４フォーマット動画の部分動画配信と同様に処理を行う事によって、Video/Audioデータ両方を持つMP4フォーマット動画の部分動画配信を行うことができる。

本システムの実施形態例を示すシステム構成図である。本実施形態のシステムにおける処理シーケンス図である。サーバが実行する動画情報読出処理のフローチャートである。携帯端末が実行する動画情報表示処理のフローチャートである。サーバが実行する動画切出し処理のフローチャートである。動画開始可能位置情報送信イベントで送信される動画情報データの構成例と動画範囲情報送信イベントで送信される動画範囲情報データの構成例を示す図である。 MP4フォーマット動画のATOM構造例を示す図である。 MP4フォーマット動画のmoov atom部の構造例を示す図である。 MP4フォーマット動画のmdat(Video) atom部の構造例を示す図である。動画切り出し処理で切り出された動画データ(Videoフレーム)部分を示す図である。擬似ヘッダ作成処理で作成される擬似ヘッダの構成を示す図である。携帯端末へ配信する部分動画の擬似的な動画データ構造を示す図である。 Video/Audioデータ両方を含むMP4フォーマット動画のATOM構造例を示す図である。 Video/Audioデータ両方を含むMP4フォーマット動画のmoov atom部の構造例を示す図である。

符号の説明

１−１…携帯端末機器、１−２…サーバ、１−３…無線基地局、１−４…通信ネットワーク、１−５…動画データ部、１−６…動画情報読出部、１−７…動画切り出し部、１−８…サーバ送受信部、１−９…携帯端末の画面、１−１０…動画編集部、１−１１…動画再生部、１−１２…画面表示部、１−１３…携帯端末送受信部、２−１…携帯端末ユーザ、２−２…携帯端末処理、２−３…サーバ処理、２−４…動画情報読出処理、２−５…動画切り出し処理、２−６…動画情報表示処理、２−７…動画再生処理、ＡＣ１…携帯端末ユーザから携帯端末への動画選択動作、ＡＣ２…携帯端末ユーザから携帯端末への動画範囲選択動作、ＥＶ１…携帯端末からサーバへの選択動画指示イベント、ＥＶ２…サーバから携帯端末への動画開始可能位置情報送信イベント、ＥＶ３…携帯端末からサーバへの動画範囲情報送信イベント、ＥＶ４…サーバから携帯端末への部分動画送信イベント。

Claims

動画データを配信する機能を備えるサーバと、該サーバと任意の通信手段を使用して接続可能で、かつ動画データの再生機能を備える端末装置とを有する動画部分配信システムであって、
前記端末装置は、
ユーザが再生を希望する動画データを選択する操作を受け付け、選択された動画データを特定する情報を含む選択動画指示情報を前記サーバに送信する手段と、
前記サーバから送信される動画情報データを受信し、該動画情報データに含まれる複数の再生開始可能位置情報と総再生時間情報から、ユーザが再生を希望する動画データの部分範囲を指定するための画面を生成して表示する手段と、
前記画面でユーザが指定した動画の部分範囲を特定する部分範囲情報を前記サーバに送信する手段と、
前記サーバから送信される部分動画データを再生する手段と
を備え、
前記サーバは、
前記端末装置から送信される選択動画指示情報を受信し、選択された動画データから複数の再生開始可能位置情報と総再生時間情報を含む動画情報データを生成し、前記端末装置に送信する手段と、
前記端末装置から送信される部分範囲情報を受信し、選択された動画データからその部分範囲情報で指定された範囲の動画データを切り出し、部分動画データを生成する手段と、
生成した部分動画データを前記端末装置に送信する手段と
を備えることを特徴とする動画部分配信システム。