JP2005166063A - Data processing apparatus, data processing method, recording medium, and program for making computer to execute the data processing method - Google Patents

Data processing apparatus, data processing method, recording medium, and program for making computer to execute the data processing method Download PDF

Info

Publication number
JP2005166063A
JP2005166063A JP2004369134A JP2004369134A JP2005166063A JP 2005166063 A JP2005166063 A JP 2005166063A JP 2004369134 A JP2004369134 A JP 2004369134A JP 2004369134 A JP2004369134 A JP 2004369134A JP 2005166063 A JP2005166063 A JP 2005166063A
Authority
JP
Japan
Prior art keywords
segment
description data
data
section
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004369134A
Other languages
Japanese (ja)
Inventor
Toshihiko Munetsugi
敏彦 宗續
Minoru Eito
稔 栄藤
Shoichi Araki
昭一 荒木
Koichi Emura
恒一 江村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2004369134A priority Critical patent/JP2005166063A/en
Publication of JP2005166063A publication Critical patent/JP2005166063A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To extract outline and a highlight scene or a scene which a viewer desires of media content. <P>SOLUTION: This data processing apparatus inputs context content description data describing a segment representing each of scenes of media contents composed of a plurality of scenes, time information representing sections of the scenes and a score based on the context contents of the media contents, selects the segment based upon the score, inputs the corresponding media contents and extracts the sections of the media contents from the time information of the selected segment. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、動画や映像、音声などの連続視聴覚情報(メディアコンテンツ)の視聴、再生、配送、蓄積において、該当メディアコンテンツのあらすじやハイライトシーン、あるいは視聴者が見たいと希望するシーンのみを再生、配送するための、メディアコンテンツのデータ処理装置、データ処理方法、記録媒体およびプログラムを提供するものである。   In the present invention, in the viewing, playback, delivery, and accumulation of continuous audiovisual information (media content) such as video, video, and audio, the outline of the media content, the highlight scene, or only the scene that the viewer wants to see is displayed. The present invention provides a media content data processing apparatus, data processing method, recording medium, and program for reproduction and delivery.

従来、メディアコンテンツの再生、配送、蓄積は、メディアコンテンツを格納するファイル単位で行われていた。   Conventionally, reproduction, delivery, and accumulation of media content have been performed in units of files that store media content.

また、動画の特定シーンの検索を行う方法として、特開平10-111872号公報のように、動画の場面の切り替わり(シーンカット)を検出し、シーンカットごとに、開始フレームのタイムコード、終了フレームのタイムコード、該当シーンのキーワードの付加情報をつけて行っていた。   Also, as a method of searching for a specific scene of a moving image, as in Japanese Patent Laid-Open No. 10-111872, a change in the scene of a moving image (scene cut) is detected, and for each scene cut, the time code of the start frame, the end frame Time code and additional information on keywords for the scene.

あるいは、カーネギーメロン大学(CMU)では、動画のシーンカットの検出、人間の顔やキャプションの検出、音声認識によるキーフレーズの検出などにより、動画の要約を行っていた(Michael A. Smith, Takeo Kanade, 「Video Skimming and Characterization through the Combination of Image and Language Understanding Techniques」、CMU-CS-97-111, 1997年2月3日)。   Alternatively, Carnegie Mellon University (CMU) has summarized videos by detecting scene cuts in videos, detecting human faces and captions, and detecting key phrases using voice recognition (Michael A. Smith, Takeo Kanade). , “Video Skimming and Characterization through the Combination of Image and Language Understanding Techniques”, CMU-CS-97-111, February 3, 1997).

しかしながら従来の方法では、再生をファイル単位で行う場合、そのコンテンツのあらすじを見ることは不可能である。また、ハイライトシーンや、ユーザが見たい場面を検索する場合においても、コンテンツの先頭から参照しなければならないという問題があった。また、動画配送においては、ファイルのデータすべてを送信するため、多大な時間を要するといった問題があった。   However, in the conventional method, when reproduction is performed in units of files, it is impossible to see a summary of the content. In addition, when searching for a highlight scene or a scene that the user wants to see, there is a problem that it is necessary to refer to the top of the content. Further, in the video delivery, there is a problem that it takes a lot of time to transmit all the file data.

また、特開平10-111872号公報の方法によれば、シーンの検索はキーワードを用いて行うことができるため、ユーザが望むシーンの検索は容易となる。しかし、付加情報には各シーンの間の関係やつながりといったものがなく、例えば、物語のひとつの節を検索する場合の処理が困難となる。また、キーワードだけの検索ではどの場面が文脈上重要であるか知ることが困難であるため、あらすじの作成やハイライトシーン集の作成も困難である。   In addition, according to the method disclosed in Japanese Patent Laid-Open No. 10-111872, the search for a scene can be performed using a keyword, so that it is easy to search for a scene desired by a user. However, there is no relationship or connection between scenes in the additional information, and for example, processing when searching for one section of a story becomes difficult. In addition, since it is difficult to know which scene is important in context by searching only for keywords, it is difficult to create a synopsis or a collection of highlight scenes.

また、CMUの手法によると、動画の要約は行えるが、結果は一通りに定まってしまうため、例えば5分の要約と3分の要約などのように、再生時間を変えた要約を行うことは困難である。また、特定の人物の写っているシーンなどを選択するといった、ユーザの要望による要約も困難である。   Also, according to the CMU method, although the video can be summarized, the results are determined in a single way, so it is not possible to perform a summary with different playback times, such as a 5 minute summary and a 3 minute summary. Have difficulty. In addition, it is difficult to summarize a user's request such as selecting a scene in which a specific person is shown.

本発明は、メディアコンテンツの再生において、そのあらすじやハイライトシーンのみ、あるいは、視聴者が希望するシーンのみを選択し、再生、配送する手段と提供することを目的とする。   An object of the present invention is to provide means for selecting, reproducing, and delivering only a synopsis or highlight scene, or only a scene desired by a viewer, in reproducing media content.

また、あらすじやハイライトシーン、視聴者の希望するシーンなどの選択において、その再生時間をユーザが希望する時間に合わせて行う手段を提供することを目的とする。   It is another object of the present invention to provide means for selecting a synopsis, a highlight scene, a scene desired by a viewer, and the like so that the playback time is matched with a time desired by a user.

さらに、メディアコンテンツの配送において、ユーザの要求により、ユーザが希望する再生時間であらすじ、ハイライトシーン集、ユーザの希望するシーンといったもののみを配送する手段を提供することを目的とする。   Further, it is an object of the present invention to provide a means for delivering only contents such as a summary of a playback time desired by a user, a highlight scene collection, and a scene desired by the user upon delivery of the media content.

さらに、サーバとユーザの通信を行う回線状況によって配送するデータ量を調整する手段を提供することを目的とする。   It is another object of the present invention to provide means for adjusting the amount of data to be delivered according to the line status for communication between the server and the user.

本発明の要約作成装置は、複数の場面で構成されるメディアコンテンツの各場面を表すセグメントと、前記セグメントの属性情報である、場面の区切りを表す時間情報と、前記メディアコンテンツの文脈内容に基づいたスコアとが記述された文脈内容記述データを入力する手段と、前記スコアに基づいてセグメントを選択する選択手段と、前記文脈内容記述データと対応するメディアコンテンツを入力するコンテンツ入力手段と、前記選択されたセグメントの時間情報から前記メディアコンテンツの区間を抽出する抽出手段と、を備える。   The summary creation device of the present invention is based on a segment representing each scene of media content composed of a plurality of scenes, time information representing scene breaks, which is attribute information of the segment, and context contents of the media content. Means for inputting context content description data describing a score, selection means for selecting a segment based on the score, content input means for inputting media content corresponding to the context content description data, and the selection Extracting means for extracting a section of the media content from the segment time information.

この構成により、メディアコンテンツのあらすじやハイライトシーン、あるいは、視聴者が希望するシーンを抽出することができる。   With this configuration, it is possible to extract a synopsis of media content, a highlight scene, or a scene desired by the viewer.

また、本発明の要約作成装置は、複数の場面で構成されるメディアコンテンツの各場面を表すセグメントと、前記セグメントの属性情報である、場面の区切りを表す時間情報と、場面を表す少なくとも1つのキーワードによって表される観点、及び各観点に基づいた前記セグメントのスコアとが記述された文脈内容記述データを入力する手段と、前記観点及び前記スコアのうち少なくとも一方に基づいて前記セグメントを選択する選択手段と、前記文脈内容記述データと対応するメディアコンテンツを入力するコンテンツ入力手段と、前記選択されたセグメントの時間情報から前記メディアコンテンツの区間を抽出する抽出手段と、を備える。   Further, the summary creation device of the present invention includes a segment representing each scene of media content composed of a plurality of scenes, time information representing scene breaks, which is attribute information of the segment, and at least one representing a scene. Means for inputting contextual content description data describing viewpoints represented by keywords and the score of the segment based on each viewpoint, and selection for selecting the segment based on at least one of the viewpoint and the score Means, content input means for inputting media content corresponding to the context content description data, and extraction means for extracting a section of the media content from the time information of the selected segment.

この構成により、メディアコンテンツのあらすじやハイライトシーン、あるいは、視聴者が希望するシーンを抽出することができる。   With this configuration, it is possible to extract a synopsis of media content, a highlight scene, or a scene desired by the viewer.

また、上記の要約作成装置において、前記文脈内容記述データ及び前記対応するメディアコンテンツを蓄積する蓄積手段を、さらに有する請求項1または2に記載の要約作成装置。   The summary creation device according to claim 1, further comprising storage means for storing the context content description data and the corresponding media content.

また、上記の要約作成装置において、前記文脈内容記述データには、対応するメディアコンテンツのリンク先が記述されており、抽出手段は、前記選択されたセグメントの時間情報から前記リンク先のメディアコンテンツの区間を抽出する。   In the summary creation device, a link destination of the corresponding media content is described in the context content description data, and the extraction unit extracts the link destination media content from the time information of the selected segment. Extract sections.

また、上記の要約作成装置において、前記時間情報は、前記各場面の開始時間及び終了時間を含む。   In the summary creation device, the time information includes a start time and an end time of each scene.

また、上記の要約作成装置において、前記時間情報は、前記各場面の開始時間及び継続時間を含む。   In the summary creation device, the time information includes a start time and a duration of each scene.

また、上記の要約作成装置において、前記文脈内容記述データには、複数の前記セグメントが階層的に記述されている。   In the summary creation device, a plurality of segments are hierarchically described in the context content description data.

また、上記の要約作成装置において、前記観点と前記スコアとの複数組が1つのセグメントに前記属性情報として記述されている。   In the summary creation device, a plurality of sets of the viewpoint and the score are described as the attribute information in one segment.

また、上記の要約作成装置において、前記選択手段は、前記スコアがある閾値より大きいセグメントを選択する。   In the summary creation device, the selection unit selects a segment whose score is larger than a certain threshold.

また、上記の要約作成装置において、前記選択手段は、前記セグメントの継続時間の和が閾値以下で最大となる、前記セグメントのスコアが大きい順に選択する。   In the summary creation device, the selection unit selects the segments in descending order of the sum of the durations of the segments, which is the maximum when the sum of the durations of the segments is equal to or less than a threshold value.

また、上記の要約作成装置において、前記選択手段は、前記セグメントの継続時間の和が閾値近辺となる、前記セグメントのスコアが大きい順に選択する。   In the summary creation device, the selection unit selects the segment score in descending order of the sum of durations of the segments, which is close to a threshold value.

また、上記の要約作成装置において、前記選択手段は、少なくとも1つ選択された観点のスコアが大きいものから順に、継続時間の総和が閾値以下で最大となるセグメントを選択する。   Further, in the summary creation device, the selection unit selects a segment having a maximum sum of durations below a threshold value, in descending order of score of at least one selected viewpoint.

また、上記の要約作成装置において、前記選択手段は、少なくとも1つ選択された観点のスコアが大きいものから順に、継続時間の総和が閾値近辺となるセグメントを選択する。   In the summary creation device, the selection unit selects a segment in which the total sum of durations is in the vicinity of the threshold value in descending order of scores of at least one selected viewpoint.

本発明の要約作成方法は、複数の場面で構成されるメディアコンテンツの各場面を表すセグメントと、前記セグメントの属性情報である、場面の区切りを表す時間情報と、前記メディアコンテンツの文脈内容に基づいたスコアとが記述された文脈内容記述データを入力するステップと、前記スコアに基づいてセグメントを選択するステップと、前記文脈内容記述データと対応するメディアコンテンツを入力するステップと、前記選択されたセグメントの時間情報から前記メディアコンテンツの区間を抽出するステップと、を備える。   The summary creation method of the present invention is based on a segment representing each scene of media content composed of a plurality of scenes, time information representing scene breaks, which is attribute information of the segment, and context contents of the media content. Inputting context content description data in which a score is described; selecting a segment based on the score; inputting media content corresponding to the context content description data; and the selected segment Extracting the section of the media content from the time information.

この方法により、メディアコンテンツのあらすじやハイライトシーン、あるいは、視聴者が希望するシーンを抽出することができる。   By this method, it is possible to extract a synopsis of media content, a highlight scene, or a scene desired by a viewer.

また、本発明の要約作成方法は、複数の場面で構成されるメディアコンテンツの各場面を表すセグメントと、前記セグメントの属性情報である、場面の区切りを表す時間情報と、場面を表す少なくとも1つのキーワードによって表される観点、及び各観点に基づいた前記セグメントのスコアとが記述された文脈内容記述データを入力するステップと、前記観点及び前記スコアのうち少なくとも一方に基づいて前記セグメントを選択するステップと、前記文脈内容記述データと対応するメディアコンテンツを入力するステップと、前記選択されたセグメントの時間情報から前記メディアコンテンツの区間を抽出するステップと、を備える。   In the summary creation method of the present invention, a segment representing each scene of media content composed of a plurality of scenes, time information representing scene breaks, which is attribute information of the segment, and at least one representing a scene A step of inputting context content description data in which a viewpoint represented by a keyword and a score of the segment based on each viewpoint are described; and a step of selecting the segment based on at least one of the viewpoint and the score And inputting the media content corresponding to the context content description data, and extracting a section of the media content from the time information of the selected segment.

この方法により、メディアコンテンツのあらすじやハイライトシーン、あるいは、視聴者が希望するシーンを抽出することができる。   By this method, it is possible to extract a synopsis of media content, a highlight scene, or a scene desired by a viewer.

また、本発明の要約作成プログラムは、上記の要約作成方法の各ステップを実行するためのプログラムである。このプログラムにより、メディアコンテンツのあらすじやハイライトシーン、あるいは、視聴者が希望するシーンを抽出することができる。   The summary creation program of the present invention is a program for executing each step of the summary creation method. With this program, it is possible to extract a summary of media content, a highlight scene, or a scene desired by the viewer.

また、本発明の記録媒体は、上記の要約作成プログラムを記録した、コンピュータ読み取り可能な記録媒体である。この記録媒体により、メディアコンテンツのあらすじやハイライトシーン、あるいは、視聴者が希望するシーンを抽出することができる。   The recording medium of the present invention is a computer-readable recording medium on which the above-described summary creation program is recorded. With this recording medium, it is possible to extract a synopsis of media content, a highlight scene, or a scene desired by the viewer.

本発明によれば、メディアコンテンツのあらすじやハイライトシーンのみ、あるいは、視聴者が希望するシーンのみを抽出することができる。   According to the present invention, it is possible to extract only the outline or highlight scene of the media content or only the scene desired by the viewer.

以下、図面を参照しながら、本発明の実施の形態について説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

〔第1の実施の形態〕
以下、本発明に係る第1の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における文脈内容に基づいた客観的な重要度とする。
[First Embodiment]
The first embodiment according to the present invention will be described below. In the present embodiment, an MPEG1 system stream moving image is assumed as media content. In this case, the media segment corresponds to one scene cut. In the present embodiment, the score is an objective importance based on the context contents in the corresponding scene.

図1は、本実施の形態におけるデータ処理方法のブロック図である。図1において、101は選択ステップを、102は抽出ステップを表す。選択ステップ101は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間を出力する処理を行う。また、抽出ステップ102は、選択ステップ101が出力した開始時間と終了時間によって区切られるメディアコンテンツの区間のデータを抽出する処理を行う。   FIG. 1 is a block diagram of a data processing method according to the present embodiment. In FIG. 1, 101 represents a selection step and 102 represents an extraction step. The selection step 101 performs processing for selecting a scene of media content from the context content description data and outputting the start time and end time of the scene. In addition, the extraction step 102 performs processing for extracting data of a media content section that is divided by the start time and end time output by the selection step 101.

図2に、本実施の形態の文脈内容記述データの構成を示す。本実施の形態では、文脈内容を木構造で記述する。また、木構造の兄弟関係は、左から時間順にならんでいるものとする。図2において、<contents>と記されている木構造の根(root)は、ひとつのコンテンツを表し、属性としてそのコンテンツのタイトルが付けられる。   FIG. 2 shows the configuration of the context content description data of the present embodiment. In the present embodiment, context contents are described in a tree structure. In addition, it is assumed that the sibling relationships of the tree structure are arranged in order of time from the left. In FIG. 2, the root of the tree structure indicated as <contents> represents one content, and the title of the content is attached as an attribute.

<contents>の子要素は、<section>である。<section>には、該当場面の文脈内容上の重要度を表すpriorityが属性として付加される。重要度は1から5までの整数値とし、1が最も重要度が低く、5が最も重要度が高い、とする。   The child element of <contents> is <section>. In <section>, a priority indicating an importance level in context contents of the corresponding scene is added as an attribute. The importance is an integer value from 1 to 5, with 1 being the least important and 5 being the most important.

<section>の子要素は、<section>か<segment>である。すなわち、<section>は、それ自身を子要素としても良いとする。ただし、ひとつの<section>の子要素として、<section>と<segment>を混在させてはならないこととする。   The child element of <section> is <section> or <segment>. In other words, <section> may itself be a child element. However, <section> and <segment> must not be mixed as child elements of one <section>.

<segment>は、ひとつのシーンカットを表し、<section>と同様のpriorityと、該当シーンの時間情報として、開始時間を表すstartと、終了時間を表すendとが、属性として付加される。シーンカットの方法は、市販されていたり、ネットワークで流通しているソフトを用いても良いし、人手で行っても良い。なお、本実施の形態では、時間情報をシーンカットの開始時間と終了時間としたが、時間情報として開始時間と該当シーンの継続時間としても同様の効果が得られる。この場合、該当シーンの終了時間は、開始時間に継続時間を加算して求められる。   <segment> represents one scene cut, and a priority similar to <section>, start indicating a start time, and end indicating an end time are added as attributes as time information of the scene. The scene cut method may be commercially available or may be software distributed on a network, or may be performed manually. In the present embodiment, the time information is the start time and end time of the scene cut, but the same effect can be obtained by using the start time and the duration of the corresponding scene as time information. In this case, the end time of the corresponding scene is obtained by adding the duration to the start time.

この文脈内容記述データにより、映画などの物語の場合は、多階層の<section>により、章、節、段落などを記述することができる。もうひとつの例として野球を記述する場合、最上位の<section>で回を記述し、その子要素の<section>で表裏を記述し、その子要素の<section>で各打者の場面を記述し、さらにその子要素の<section>で、各投球やその合間、その打席の結果などを記述することができる。   With this contextual content description data, in the case of a story such as a movie, chapters, sections, paragraphs, etc. can be described by multi-level <section>. As another example, when describing baseball, describe the times in the top <section>, describe the front and back in the child <section>, describe each batter's scene in the child <section>, Furthermore, the <section> of the child element can describe each pitch, the interval, and the result of the bat.

この構成の文脈内容記述データをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。XMLはWorld Wide Web Consortiumによって標準化が進められているデータ記述言語であり、1998年2月10日にVer. 1.0が勧告された。XML ver. 1.0の仕様書は、http://www.w3.org/TR/1998/REC-xml-19980210で得られる。図3〜図9は、本実施の形態の文脈内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる文脈内容記述データの一例である。また、図10〜図19は、図3〜図9に示す文脈内容記述データに、代表画像(映像情報)やキーワード(音情報)などのメディアセグメントの代表データ(dominant-data)を追加した文脈内容記述データの一例と、該文脈内容記述データをXMLで記述するためのDTDである。   As an example of expressing the context content description data of this configuration on a computer, a description in Extensible Markup Language (XML) can be used. XML is a data description language that is being standardized by the World Wide Web Consortium, and Ver. 1.0 was recommended on February 10, 1998. The XML ver. 1.0 specification is available at http://www.w3.org/TR/1998/REC-xml-19980210. 3 to 9 are examples of Document Type Definition (DTD) for describing the context content description data of this embodiment in XML and the context content description data by this DTD. 10 to 19 are contexts in which media segment representative data (dominant-data) such as representative images (video information) and keywords (sound information) is added to the context content description data shown in FIGS. An example of content description data and a DTD for describing the context content description data in XML.

以下、選択ステップ101での処理について説明する。選択ステップ101での処理は、文脈内容記述データの形式、および各場面の文脈内容におけるスコアの付け方と密接に関係するものである。本実施の形態では、選択ステップ101は図22に示すような<segment>を子要素にもつ<section>のみに着目し(図23のS1、S4、S5)、そのpriorityの値があるしきい値より大きい<section>を選択し(図23のS2)、その開始時間と終了時間を出力する処理(図23のS3)を行うこととする。そのため、<segment>を子要素に持つ<section>のpriorityは、コンテンツ内すべての<segment>を子要素に持つ<section>の間での重要度とする。すなわち、図22における点線で囲んだ<section>の中での重要度をpriorityに設定する。これ以外の<section>、<segment>のpriorityの付け方は任意とする。なお、重要度はすべて異なる値である必要はなく、異なる要素に同じ値の重要度が付いてよいとする。図23に、本実施の形態における選択ステップでの処理のフローチャートを示す。選択された<section>に関しては、その子要素である<segment>から、該当<section>で表現される場面の開始時間と終了時間を調べる。そして、その開始時間と終了時間を出力する。   Hereinafter, the process in the selection step 101 will be described. The processing in the selection step 101 is closely related to the format of the context content description data and how to assign scores in the context content of each scene. In this embodiment, the selection step 101 focuses only on <section> having <segment> as a child element as shown in FIG. 22 (S1, S4, S5 in FIG. 23), and has a threshold value of the priority. A <section> greater than the value is selected (S2 in FIG. 23), and processing for outputting the start time and end time (S3 in FIG. 23) is performed. Therefore, the priority of <section> having <segment> as a child element is the importance between <section> having all <segment> in the content as child elements. That is, the importance in <section> surrounded by a dotted line in FIG. 22 is set to priority. Other methods of assigning priority to <section> and <segment> are optional. Note that the importance levels need not all be different values, and different elements may have the same importance level. FIG. 23 shows a flowchart of processing in the selection step in the present embodiment. For the selected <section>, the start time and end time of the scene represented by the corresponding <section> are checked from its child element <segment>. Then, the start time and end time are output.

なお、本実施の形態では、<segment>を子要素として持つ<section>に着目して処理を行ったが、ほかに<segment>に着目して、それらの選択を行っても良い。この場合、priorityは、コンテンツ内すべての<segment>間での重要度とする。また、<segment>を子要素として持たない上位層の<section>のうち、同じ階層のものに着目して、その選択を行っても良い。すなわち、<contents>あるいは<segment>から数えて同じ経路数の<section>に着目した処理を行っても良い。   In the present embodiment, processing is performed by focusing on <section> having <segment> as a child element. However, it is also possible to select these by focusing on <segment>. In this case, priority is the importance between all <segments> in the content. Alternatively, the selection may be made by paying attention to the same layer among the <sections> of the upper layer that does not have <segment> as a child element. That is, processing focusing on <sections> having the same number of paths counted from <contents> or <segment> may be performed.

以下、図24を参照しながら、抽出ステップ102の動作について説明する。図24は、本実施の形態に係わる抽出ステップ102のブロック図である。図24において、本実施の形態における抽出ステップ102は、分離手段601と、ビデオスキミング手段602と、オーディオスキミング手段603とから構成される。本実施の形態においては、メディアコンテンツとしてMPEG1システムストリームを想定している。MPEG1システムストリームはビデオストリームとオーディオストリームが多重化されたものであり、分離手段601は、多重化されたシステムストリームをビデオストリームとオーディオストリームとに分離するものである。ビデオスキミング手段602は、分離されたビデオストリームと選択ステップ101の出力である区間を入力とし、入力されたビデオストリームから、選択された区間のデータだけを出力するものである。オーディオスキミング手段603は、分離されたオーディオストリームと選択ステップ101の出力である区間を入力とし、入力されたオーディオストリームから、選択された区間のデータだけを出力するものである。   Hereinafter, the operation of the extraction step 102 will be described with reference to FIG. FIG. 24 is a block diagram of the extraction step 102 according to this embodiment. In FIG. 24, the extraction step 102 in the present embodiment includes a separating unit 601, a video skimming unit 602, and an audio skimming unit 603. In the present embodiment, an MPEG1 system stream is assumed as media content. The MPEG1 system stream is obtained by multiplexing a video stream and an audio stream, and the separating unit 601 separates the multiplexed system stream into a video stream and an audio stream. The video skimming means 602 receives as input the separated video stream and the section that is the output of the selection step 101, and outputs only the data in the selected section from the input video stream. The audio skimming means 603 receives as input the separated audio stream and the section that is the output of the selection step 101, and outputs only the data in the selected section from the input audio stream.

以下、図を参照しながら、分離手段601の処理について説明する。図25に分離手段601の処理のフローチャートを示す。MPEG1システムストリームの多重化方式は、国際標準ISO/IEC IS 11172-1で標準化されたものであり、ビデオストリームとオーディオストリームがパケットにより多重化されている。パケットによる多重化は、ビデオストリーム、オーディオストリームそれぞれを、パケットと呼ばれる適当な長さのストリームに分割し、ヘッダなどの付加情報を付けて行うものである。この時、ビデオストリームとオーディオストリームは、それぞれ複数あっても良いとされている。パケットのヘッダには、ビデオ、オーディオを区別することができるストリームidや、ビデオとオーディオの同期をとるためのタイムスタンプが記述されている。ストリームidは、ビデオとオーディオの区別だけでなく、ビデオが複数あった場合、どのストリームであるかの区別することができるものである。同様に、オーディオストリームが複数あった場合にも、区別することができるものである。MPEG1システムでは、パケットを複数束ねたパックという単位で構成される。パックには、多重化レートや同期再生用の時間基準参照用の付加情報などがヘッダとして付加されている。さらに先頭のパックには、多重化したビデオストリーム数やオーディオストリーム数などの付加情報がシステムヘッダとして付けられている。分離手段601は、まず先頭のパックのシステムヘッダから、多重化されているビデオストリーム数とオーディオストリーム数を読みとり(S1、S2)、各ストリームのデータを保存する領域を確保する(S3、S4)。続いて、各パケットごとにストリームidを調べ、該当ストリームidで指定されるストリームを保存するデータ領域にパケットデータを書き込む(S5、S6)。すべてのパケットに対して以上の処理を繰り返す(S8、S9、S10)。すべてのデータに対して処理を行った後、各ストリーム毎に、ビデオストリームはビデオスキミング手段602へ、オーディオストリームはオーディオスキミング手段603へ出力する(S11)。   Hereinafter, the processing of the separating unit 601 will be described with reference to the drawings. FIG. 25 shows a flowchart of the processing of the separating means 601. The MPEG1 system stream multiplexing method is standardized by the international standard ISO / IEC IS 11172-1, and a video stream and an audio stream are multiplexed by packets. Multiplexing by packets is performed by dividing each of the video stream and the audio stream into streams of appropriate lengths called packets and adding additional information such as headers. At this time, there may be a plurality of video streams and audio streams. The header of the packet describes a stream id that can distinguish between video and audio, and a time stamp for synchronizing video and audio. The stream id can distinguish not only video and audio, but also which stream is present when there are a plurality of videos. Similarly, when there are a plurality of audio streams, they can be distinguished. In the MPEG1 system, it is configured in units of packs in which a plurality of packets are bundled. The pack includes additional information such as a multiplexing rate and reference information for time reference for synchronous reproduction as a header. Further, additional information such as the number of multiplexed video streams and the number of audio streams is attached to the head pack as a system header. The separating unit 601 first reads the number of multiplexed video streams and the number of audio streams from the system header of the first pack (S1, S2), and secures an area for storing the data of each stream (S3, S4). . Subsequently, the stream id is checked for each packet, and the packet data is written in the data area for storing the stream specified by the stream id (S5, S6). The above processing is repeated for all packets (S8, S9, S10). After processing all the data, for each stream, the video stream is output to the video skimming means 602 and the audio stream is output to the audio skimming means 603 (S11).

以下、ビデオスキミング手段602の動作について述べる。図26にビデオスキミング手段602の処理のフローチャートを示す。MPEG1のビデオストリームは、国際標準ISO/IEC IS 11172-2で標準化されたものであり、図27に示すように、シーケンス層、GOP層、ピクチャ層、スライス層、マクロブロック層、ブロック層で構成されている。そのランダムアクセスの最小単位はGOP(Group Of Pictures)層である。また、ピクチャ層のひとつが1フレームに相当する。ビデオスキミング手段602は、GOP単位のデータ処理を行う。初期化処理として、出力したフレーム数のカウンタCを0とする(S3)。まず、ビデオスキミング手段602は、ビデオストリームの先頭がシーケンス層のヘッダであることを確認し(S2、S4)、そのデータを保存するとともに(S5)、そのヘッダのデータを出力する。シーケンス層のヘッダは以降も現れる場合があるが、その値は量子化マトリックス以外は変更が許されないため、シーケンスヘッダが入力されるたびに値の比較を行って(S8、S14)、量子化マトリックス以外の値が異なる場合はエラーとする(S15)。続いてビデオスキミング手段602は、入力されたデータからGOP層のヘッダを検出する(S9)。GOP層のヘッダにはタイムコードのデータが記述されている(S10)。これは、シーケンスの先頭からの時間を記述したものである。ビデオスキミング手段602は、このタイムコードと選択ステップ101が出力した区間(S1)との比較を行う(S11)。タイムコードが選択された区間に含まれていない場合、ビデオスキミング手段602は、次のGOP層またはシーケンス層が現れるまでのデータをすべて廃棄する。タイムコードが選択された区間の中に含まれている場合、ビデオスキミング手段602は、この次のGOP層あるいはシーケンス層が現れるまでのデータをすべて出力する(S13)。ただし、それまで出力されたデータとの連続性を持たせるために、GOP層のタイムコードを変更する必要がある(S12)。そこで、カウンタCの値を用いて変更するタイムコードを求める。カウンタCは、それまでに出力されたフレーム数であるため、今回出力するGOP層の先頭フレームが表示される時間Tvは、Cとシーケンスヘッダに記述されている毎秒の表示画面数であるピクチャレートprを用いて、以下の式(1)により求められる。   The operation of the video skimming means 602 will be described below. FIG. 26 shows a flowchart of processing of the video skimming means 602. The MPEG1 video stream is standardized by the international standard ISO / IEC IS 11172-2, and is composed of a sequence layer, a GOP layer, a picture layer, a slice layer, a macroblock layer, and a block layer as shown in FIG. Has been. The minimum unit of the random access is a GOP (Group Of Pictures) layer. One picture layer corresponds to one frame. The video skimming means 602 performs data processing in units of GOP. As an initialization process, the output frame number counter C is set to 0 (S3). First, the video skimming means 602 confirms that the head of the video stream is a sequence layer header (S2, S4), stores the data (S5), and outputs the header data. Although the header of the sequence layer may appear later, the value is not allowed to be changed except for the quantization matrix. Therefore, the value is compared every time the sequence header is input (S8, S14), and the quantization matrix is obtained. If the values other than are different, an error is determined (S15). Subsequently, the video skimming means 602 detects a GOP layer header from the input data (S9). Time code data is described in the header of the GOP layer (S10). This describes the time from the beginning of the sequence. The video skimming means 602 compares this time code with the section (S1) output by the selection step 101 (S11). If the time code is not included in the selected section, the video skimming means 602 discards all data until the next GOP layer or sequence layer appears. If the time code is included in the selected section, the video skimming means 602 outputs all data until the next GOP layer or sequence layer appears (S13). However, it is necessary to change the time code of the GOP layer in order to have continuity with the data output so far (S12). Therefore, a time code to be changed is obtained using the value of the counter C. Since the counter C is the number of frames output so far, the time Tv for displaying the first frame of the GOP layer to be output this time is the picture rate that is the number of display screens per second described in C and the sequence header. Using pr, the following equation (1) is obtained.

Tv=C/pr ・・・(1)   Tv = C / pr (1)

Tvは1/pr秒単位の値であるため、これをMPEG1のタイムコードのフォーマットにしたがって変換し、今回出力するGOP層のタイムコードに設定する。また、GOP層のデータを出力するときに、出力したピクチャ層の数をカウンタCに加算する。以上の処理を、ビデオストリームの最後まで繰り返す(S7、S16)。分離手段601から複数のビデオストリームが出力された場合は、上記の処理を各ビデオストリーム毎に行う。   Since Tv is a value in units of 1 / pr seconds, it is converted according to the MPEG1 time code format and set to the time code of the GOP layer to be output this time. Further, when outputting data of the GOP layer, the number of output picture layers is added to the counter C. The above processing is repeated until the end of the video stream (S7, S16). When a plurality of video streams are output from the separating unit 601, the above processing is performed for each video stream.

以下、オーディオスキミング手段603の処理について記述する。図28にオーディオスキミング手段603の処理のフローチャートを示す。MPEGオーディオは国際標準ISO/IEC IS 11172-3で標準化されたものであり、AAU(Audio Access Unit)と呼ばれるフレームから構成される。図29にAAUの構造を示す。AAUはひとつひとつ独立でオーディオデータに復号できる最小単位であり、常に一定のサンプル数Snのデータで構成されている。したがって伝送速度であるビットレートbrと、サンプリング周波数Fsと、AAUのビット数Lから、1AAUの再生時間を算出することができる。まず、オーディオストリームからAAUのヘッダを検出することによって(S2、S5)、1AAUのビット数Lを求めることができる。また、AAUのヘッダには、ビットレートbrとサンプリング周波数Fsが記述されている。1AAUのサンプル数Snは以下の式(2)によって求められる。   Hereinafter, processing of the audio skimming means 603 will be described. FIG. 28 shows a flowchart of processing of the audio skimming means 603. MPEG audio is standardized by the international standard ISO / IEC IS 11172-3 and is composed of a frame called AAU (Audio Access Unit). FIG. 29 shows the structure of AAU. AAU is the smallest unit that can be decoded into audio data individually and is always composed of data of a certain number of samples Sn. Therefore, the playback time of 1 AAU can be calculated from the bit rate br, which is the transmission speed, the sampling frequency Fs, and the number of bits AAU. First, by detecting the AAU header from the audio stream (S2, S5), the number of bits A of 1 AAU can be obtained. Further, the bit rate br and the sampling frequency Fs are described in the AAU header. The sample number Sn of 1 AAU is obtained by the following equation (2).

Sn=(L×Fs)/br ・・・(2)   Sn = (L × Fs) / br (2)

また、1AAUの再生時間Tuは以下の式(3)によって求められる(S3)。   Further, the playback time Tu of 1AAU is obtained by the following equation (3) (S3).

Tu=Sn/Fs=L/Br ・・・(3)   Tu = Sn / Fs = L / Br (3)

Tuを求めると、AAUの個数をカウントすることによって、ストリームの先頭からの時間を得ることができる。オーディオスキミング手段603は、それまで現れたAAUの個数をカウントし、その先頭からの時間を算出する(S7)。その時間と、選択ステップ101が出力した区間との比較を行う(S8)。AAUの出現時間が選択された区間に含まれる場合、オーディオスキミング手段603はそのAAUのデータをすべて出力する(S9)。また、AAUの出現時間が選択された区間に含まれていない場合、オーディオスキミング手段603はそのAAUのデータを廃棄する。以上の処理を、オーディオストリームの最後まで繰り返す(S6、S11)。分離手段601から複数のオーディオストリームが出力された場合は、各オーディオストリーム毎に上記の処理を行う。   When Tu is obtained, the time from the beginning of the stream can be obtained by counting the number of AAUs. The audio skimming means 603 counts the number of AAUs that have appeared so far, and calculates the time from the beginning (S7). The time is compared with the section output by the selection step 101 (S8). When the AAU appearance time is included in the selected section, the audio skimming means 603 outputs all the data of the AAU (S9). If the AAU appearance time is not included in the selected section, the audio skimming means 603 discards the AAU data. The above processing is repeated until the end of the audio stream (S6, S11). When a plurality of audio streams are output from the separating unit 601, the above processing is performed for each audio stream.

本実施の形態の効果としては、図30に示すように、抽出ステップ102の出力であるビデオストリームとオーディオストリームをそれぞれビデオ再生手段、オーディオ再生手段に入力させ、ビデオストリームとオーディオストリームを同期させて再生することにより、該当メディアコンテンツのあらすじやハイライトシーンを再生することができる。また、上記得られたビデオストリームとオーディオストリームを多重化することによって、該当メディアコンテンツのあらすじやハイライトシーン集のMPEG1システムストリームを作成することができる。   As an effect of this embodiment, as shown in FIG. 30, the video stream and the audio stream, which are the outputs of the extraction step 102, are input to the video playback means and the audio playback means, respectively, and the video stream and the audio stream are synchronized. By reproducing, it is possible to reproduce the outline or highlight scene of the corresponding media content. Also, by multiplexing the obtained video stream and audio stream, it is possible to create an outline of the corresponding media content and an MPEG1 system stream of a highlight scene collection.

〔第2の実施の形態〕
以下、本発明に係る第2の実施の形態について述べる。本実施の形態は、第1の実施の形態と比較して、選択ステップの処理のみが異なるものである。
[Second Embodiment]
The second embodiment according to the present invention will be described below. This embodiment is different from the first embodiment only in the process of the selection step.

以下、図を参照しながら本実施の形態における選択ステップ101の処理について記述する。本実施の形態における選択ステップ101では、最上位の<section>から葉である<segment>まですべてのpriorityを利用する。<section>、<segment>の各々のpriorityは、文脈内容における客観的な重要度とする。この処理を図31を参照しながら説明する。図31において、1301は文脈内容記述データにおける最上位の<section>のうちのひとつである。1302は<section>1301の子要素<section>である。1303は<section>1302の子要素<section>である。1304は<section>1303の子要素<segment>である。本実施の形態における選択ステップ101では、<segment>から祖先である最上位の<section>までの経路上すべてのpriorityの相加平均をとり、その値がしきい値以上の<segment>を選択する。図28の例では、<segment>1304と、<section>1303と、<section>1302と、<section>1301との、それぞれの属性priorityの値p4,p3,p2,p1の相加平均paを計算する。paは以下の式(4)によって求められる。   Hereinafter, the processing of the selection step 101 in the present embodiment will be described with reference to the drawings. In the selection step 101 in the present embodiment, all priorities from the highest <section> to the <segment> that is a leaf are used. Each priority of <section> and <segment> is an objective importance in the context content. This process will be described with reference to FIG. In FIG. 31, reference numeral 1301 denotes one of the most significant <section> in the context content description data. Reference numeral 1302 denotes a child element <section> of <section> 1301. Reference numeral 1303 denotes a child element <section> of <section> 1302. Reference numeral 1304 denotes a child element <segment> of <section> 1303. In the selection step 101 in the present embodiment, an arithmetic average of all priorities on the path from <segment> to the highest <section> that is an ancestor is taken, and a <segment> whose value is equal to or greater than a threshold is selected. To do. In the example of FIG. 28, the arithmetic average pa of the attribute priority values p4, p3, p2, and p1 of <segment> 1304, <section> 1303, <section> 1302, and <section> 1301 is expressed as calculate. pa is obtained by the following equation (4).

pa=(p1+p2+p3+p4)/4 ・・・(4)   pa = (p1 + p2 + p3 + p4) / 4 (4)

このpaとしきい値との比較を行い(S1、S2)、paがしきい値以上であれば<segment>1304を選択し(S3)、<segment>1304の属性startとendの値を、選択された場面の開始時間と終了時間として出力する(S4)。以上の処理をすべての<segment>に対して行う(S1、S6)。図32に、本実施の形態における選択ステップ101の処理のフローチャートを示す。   This pa is compared with the threshold value (S1, S2). If pa is equal to or greater than the threshold value, <segment> 1304 is selected (S3), and the attribute start and end values of <segment> 1304 are selected. It outputs as the start time and end time of the set scene (S4). The above processing is performed for all <segment> (S1, S6). FIG. 32 shows a flowchart of the processing of selection step 101 in the present embodiment.

なお、本実施の形態では、<segment>から祖先である最上位の<section>までのpriorityの相加平均を算出して、それにより<segment>の選択を行ったが、これを、<segment>を子要素としてもつ<section>から祖先である最上位の<section>までのpriorityの相加平均をとって、しきい値処理により、<segment>を子要素として持つ<section>の選択を行っても良い。同様に、他の階層の<section>から祖先である最上位の<section>までの相加平均をとって、しきい値処理により、その階層の<section>の選択を行っても良い。   In this embodiment, the arithmetic average of the priority from <segment> to the highest ancestor <section> is calculated, and <segment> is selected accordingly. Select the <section> with <segment> as a child element by threshold processing by taking the arithmetic mean of the priorities from <section> having <> as a child element to the highest <section> that is the ancestor You can go. Similarly, an arithmetic average from <section> of another hierarchy to the highest <section> that is an ancestor may be taken, and <section> of that hierarchy may be selected by threshold processing.

〔第3の実施の形態〕
以下、本発明に係る第3の実施の形態について述べる。本実施の形態も、第1の実施の形態と比較して、選択ステップの処理のみが異なるものである。
[Third Embodiment]
The third embodiment according to the present invention will be described below. This embodiment also differs from the first embodiment only in the process of the selection step.

以下、図を参照しながら本実施の形態における選択ステップ101の処理について記述する。本実施の形態における選択ステップ101は、第1の実施の形態における処理と同様に、<segment>を子要素にもつ<section>のみに着目し、その選択を行う。本実施の形態においては、選択する場面すべての継続時間の和にしきい値を設ける。すなわち、それまでに選択された<section>の継続時間の和が、このしきい値以下で最大となるまで、<section>のpriorityの大きい順に選択を行う。図33に、本実施の形態における選択ステップ101のフローチャートを示す。<segment>を子要素としてもつ<section>の集合をΩとする(S1)。まず、属性priorityをキーとして、Ωの要素<section>を降順にソートする(S2)。Ωから最もpriorityの大きい<section>を選択する(S4、S5)。選択された<section>をΩから除去する。選択された<section>の子要素<segment>をすべて調べることにより、<section>の開始時間と終了時間を求め、<section>の継続時間を計算する(S6)。これまでに選択された<section>の継続時間の和を求め(S7)、しきい値を越えていれば処理を終了する(S8)。しきい値以下であれば、今回選択された<section>の開始時間と終了時間とを出力し(S9)、Ωからpriorityの最も大きい<section>の選択へ返る。この処理を、選択された<section>の継続時間の和がしきい値を越えるか、あるいはΩが空集合となるまで繰り返す(S4、S8)。   Hereinafter, the processing of the selection step 101 in the present embodiment will be described with reference to the drawings. In the selection step 101 in the present embodiment, as in the processing in the first embodiment, only the <section> having <segment> as a child element is focused and selected. In this embodiment, a threshold is provided for the sum of durations of all scenes to be selected. That is, the selection is performed in the descending order of the priority of the <section> until the sum of the durations of the <section> selected so far reaches a maximum below this threshold. FIG. 33 shows a flowchart of the selection step 101 in the present embodiment. A set of <section> having <segment> as a child element is Ω (S1). First, using the attribute priority as a key, the elements <section> of Ω are sorted in descending order (S2). The <section> having the highest priority is selected from Ω (S4, S5). Remove selected <section> from Ω. By examining all the child elements <segment> of the selected <section>, the start time and end time of <section> are obtained, and the duration of <section> is calculated (S6). The sum of the durations of the <section> selected so far is obtained (S7), and if the threshold value is exceeded, the process is terminated (S8). If it is below the threshold, the start time and end time of the <section> selected this time are output (S9), and the process returns from Ω to the selection of the <section> having the highest priority. This process is repeated until the sum of durations of the selected <section> exceeds a threshold value or Ω becomes an empty set (S4, S8).

なお、本実施の形態では、<segment>を子要素として持つ<section>に着目して処理を行ったが、ほかに<segment>に着目して、それらの選択を行っても良い。この場合、priorityは、コンテンツ内すべての<segment>間での重要度とする。また、<segment>を子要素として持たない<section>のうち同じ階層のものに着目して、その選択を行っても良い。すなわち、<contents>あるいは<segment>から数えて同じ経路数の<section>に着目した処理を行っても良い。   In the present embodiment, processing is performed by focusing on <section> having <segment> as a child element. However, it is also possible to select these by focusing on <segment>. In this case, priority is the importance between all <segments> in the content. Alternatively, the selection may be made by paying attention to the same section of <section> that does not have <segment> as a child element. That is, processing focusing on <sections> having the same number of paths counted from <contents> or <segment> may be performed.

また、第2の実施の形態と同様に、<section>、<segment>の各々のpriorityを文脈内容における客観的な重要度とし、<segment>から祖先である最上位の<section>までのpriorityの相加平均paを計算して、paの大きい順から<segment>を子要素としてもつ<section>、あるいは<segment>を、継続時間の和がしきい値以下の最大となるまで選択する、としても同様の効果が得られる。   Similarly to the second embodiment, each priority of <section> and <segment> is set as an objective importance in the context contents, and the priority from <segment> to the highest-level <section> that is an ancestor Calculate the arithmetic mean pa of and select <section> or <segment> with <segment> as a child element in descending order of pa until the sum of durations is below the threshold, The same effect can be obtained.

〔第4の実施の形態〕
以下、本発明に係る第4の実施の形態について述べる。本実施の形態も、第1の実施の形態と比較して、選択ステップの処理のみが異なるものである。
[Fourth Embodiment]
The fourth embodiment according to the present invention will be described below. This embodiment also differs from the first embodiment only in the process of the selection step.

以下、図を参照しながら本実施の形態における選択ステップ101の処理について記述する。本実施の形態における選択ステップ101は、第1の実施の形態における処理と同様に、<segment>と<segment>を子要素にもつ<section>とに着目し処理を行う。また、本実施の形態においては、第3の実施の形態と同様に、選択する場面すべての継続時間の和にしきい値を設ける。<segment>を子に持つ<section>のpriorityは、第1の実施の形態と同様、コンテンツ内すべての<segment>を子要素に持つ<section>の間での重要度とする。すなわち、図34における点線で囲んだ<section>間での重要度とする。また、<segment>のpriorityは、同じ<section>を親要素に持つ<segment>間での重要度とする。すなわち、図34における一点鎖線で囲んだ中の<segment>間での重要度とする。   Hereinafter, the processing of the selection step 101 in the present embodiment will be described with reference to the drawings. In the selection step 101 in the present embodiment, processing is performed by paying attention to <section> having <segment> and <segment> as child elements, similarly to the processing in the first embodiment. In the present embodiment, a threshold is provided for the sum of durations of all scenes to be selected, as in the third embodiment. As in the first embodiment, the priority of <section> having <segment> as a child is the importance between <section> having all <segment> in the content as child elements. That is, the importance is set between <sections> surrounded by a dotted line in FIG. The priority of <segment> is the importance between <segment> having the same <section> as a parent element. That is, it is set as the importance between <segment> surrounded by the alternate long and short dash line in FIG.

図35に本実施の形態における選択ステップ101の処理のフローチャートを示す。まず、<segment>を子要素として持つ<section>の集合をΩとする(S1)。Ωをpriorityをキーとして降順にソートする(S2)。続いて、Ωからpriorityの最も大きい<section>を選択する(S3、S4、S5)。この時、最も重要度の大きい<section>が複数ある場合はすべて選択する。選択された<section>を集合Ω’の要素とし、集合Ωから削除する。選択された<section>の子要素<segment>から、該当<section>で表現される場面の開始時間と終了時間と継続時間を求めて記憶しておく(S6)。<section>が複数選択された場合は、そのすべてに関して、それらを求める。Ω’の要素である<section>の継続時間の総和を求め(S7、S8)、しきい値との比較を行う(S9)。継続時間の総和がしきい値と等しい場合は、記憶しておいた開始時間と終了時間をすべて出力して、処理を終了する(S10)。継続時間の総和がしきい値より小さい場合は、Ωから<section>の選択処理へ返る(S4、S5)。このときΩが空集合の場合は、記憶しておいた開始時間と終了時間をすべて出力して、処理を終了する(S4)。継続時間の総和がしきい値より大きい場合は、以下の処理を行う。集合Ω’の要素のうち、重要度が最も小さい<section>を選択する(S11)。このとき、最も重要度の小さい<section>が複数ある場合は、それらをすべて選択する。選択された<section>の子要素<segment>のうち、最も重要度の小さいものを削除し(S12)、記憶されている該当<section>の開始時間と終了時間と継続時間を変更する(S13)。<segment>の削除によって、場面が分断されることがあるが、この場合は、分断されたそれぞれの開始時間と終了時間と継続時間を記憶しておくこととする。また、<segment>の削除によって、すべての<segment>が削除された<section>がある場合は、その<section>をΩ’から削除する。選択された<section>が複数ある場合は、そのすべてに関してこの処理を行う。<segment>を削除することによって、該当<section>の継続時間が短くなり、継続時間の総和も短くなる。この削除処理を、Ω’の要素の継続時間の総和がしきい値以下になるまで繰り返す。Ω’の要素の継続時間の総和がしきい値以下となった場合は(S14)、記憶している開始時間と終了時間をすべて出力して、処理を終了する(S15)。   FIG. 35 shows a flowchart of the processing of the selection step 101 in the present embodiment. First, a set of <section> having <segment> as a child element is defined as Ω (S1). Sort Ω in descending order using priority as a key (S2). Subsequently, the <section> having the highest priority is selected from Ω (S3, S4, S5). At this time, if there are multiple <section> with the highest importance, select all. The selected <section> is set as an element of the set Ω 'and deleted from the set Ω. From the child element <segment> of the selected <section>, the start time, end time, and duration of the scene represented by the relevant <section> are obtained and stored (S6). If multiple <section> are selected, ask for them for all of them. The sum of durations of <section>, which is an element of Ω ′, is obtained (S7, S8), and compared with a threshold value (S9). If the sum of the durations is equal to the threshold value, the stored start time and end time are all output, and the process ends (S10). If the sum of durations is smaller than the threshold value, the process returns from Ω to the selection processing for <section> (S4, S5). If Ω is an empty set at this time, the stored start time and end time are all output, and the process ends (S4). If the total duration is greater than the threshold, the following processing is performed. Among the elements of the set Ω ', the <section> having the lowest importance is selected (S11). At this time, if there are a plurality of <section> having the least importance, all of them are selected. Of the child elements <segment> of the selected <section>, the least important element is deleted (S12), and the start time, end time, and duration of the corresponding <section> stored are changed (S13). ). The scene may be divided by deleting <segment>. In this case, the divided start time, end time, and duration are stored. If there is a <section> from which all <segment> have been deleted by deleting <segment>, the <section> is deleted from Ω ′. When there are a plurality of selected <section>, this process is performed for all of them. By deleting <segment>, the duration of the corresponding <section> is shortened, and the total duration is also shortened. This deletion process is repeated until the sum of the durations of the elements of Ω ′ becomes equal to or less than the threshold value. If the sum of the durations of the elements of Ω ′ is equal to or smaller than the threshold value (S14), all the stored start time and end time are output, and the process is terminated (S15).

なお、本実施の形態においては、<segment>と<segment>を子要素としてもつ<section>に着目して処理を行っているが、<section>とその子要素の<section>、<section>とその子要素の<section>に着目して処理を行っても同様の効果が得られる。   In this embodiment, processing is performed by paying attention to <section> having <segment> and <segment> as child elements. However, <section> and <section>, <section> The same effect can be obtained by performing processing while paying attention to the <section> of the child element.

また、継続時間の総和がしきい値を越えた場合の<segment>の削除処理に関して、priorityの小さい<section>から削除を行ったが、<section>のpriorityにしきい値を設け、そのしきい値以下の<section>すべてから最も小さい重要度の<segment>を削除する、としてもよい。さらに、<segment>のpriorityにしきい値を設け、しきい値以下の<segment>を削除する、としても良い。   Also, regarding the deletion processing of <segment> when the total duration exceeds the threshold, deletion was performed from <section> with a low priority, but a threshold is set for the priority of <section>. The <segment> with the lowest importance may be deleted from all <section> below the value. Furthermore, a threshold value may be provided for <segment> priority, and <segment> below the threshold value may be deleted.

〔第5の実施の形態〕
以下、本発明に係る第5の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における文脈内容に基づいた客観的な重要度とする。
[Fifth Embodiment]
The fifth embodiment according to the present invention will be described below. In the present embodiment, an MPEG1 system stream moving image is assumed as media content. In this case, the media segment corresponds to one scene cut. In the present embodiment, the score is an objective importance based on the context contents in the corresponding scene.

図36は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図36において、1801は選択ステップを、1802は抽出ステップを、1803は構成ステップを、1804は配送ステップを、1805はデータベースを表す。選択ステップ1801は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行う。抽出ステップ1802は、選択ステップ1801が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行う。構成ステップ1803は、抽出ステップ1802が出力したデータを多重化し、MPEG1システムストリームを構成する処理を行う。配送ステップ1804は、構成ステップ1803が作成したMPEG1システムストリームを、回線を通じて配送する処理を行う。1805はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。   FIG. 36 is a block diagram of a data processing method according to the embodiment of the present invention. 36, 1801 represents a selection step, 1802 represents an extraction step, 1803 represents a configuration step, 1804 represents a delivery step, and 1805 represents a database. A selection step 1801 performs a process of selecting a scene of media content from the context content description data and outputting data representing the start time and end time of the scene and a file in which the scene is stored. The extraction step 1802 receives the data representing the file output from the selection step 1801, the start time, and the end time, refers to the physical content description data, and is divided from the media content file by the input start time and end time. Process to extract the data of. A configuration step 1803 performs a process of multiplexing the data output from the extraction step 1802 and configuring an MPEG1 system stream. A delivery step 1804 performs processing for delivering the MPEG1 system stream created by the composition step 1803 through a line. Reference numeral 1805 denotes a database that stores media content, its physical content description data, and context content description data.

図37に、本実施の形態における物理内容記述データの構成を示す。本実施の形態では、物理内容を木構造で記述する。メディアコンテンツのデータベース1805上の格納形態は、ひとつのメディアコンテンツがひとつのファイルとして格納されているとは限らず、ひとつのメディアコンテンツが複数のファイルに分割されて格納されている場合もある。そこで、物理内容記述データの木構造の根(root)は、<contents>と表記されひとつのコンテンツを表す。根<contents>には、属性として該当コンテンツのタイトルが付けられる。<contents>の子要素は<mediaobject>で、格納されているファイルを表す。<mediaobject>には、属性として格納されているファイルへのリンクlocatorと、文脈内容記述データとの関連付けのために識別子idが属性として付加される。また、メディアコンテンツが複数のファイルで構成されているときのために、該当ファイルがコンテンツ内での順序を表すseqも属性として付加する。   FIG. 37 shows the configuration of physical content description data in the present embodiment. In this embodiment, physical contents are described in a tree structure. The storage form of the media content database 1805 is not limited to storing one media content as one file, but may store one media content divided into a plurality of files. Therefore, the root of the tree structure of the physical content description data is expressed as <contents> and represents one content. The root <contents> is given the title of the corresponding content as an attribute. The child element of <contents> is <mediaobject>, which represents the stored file. An identifier id is added to <mediaobject> as an attribute for associating the link locator to the file stored as the attribute with the context content description data. Further, since the media content is composed of a plurality of files, seq indicating the order of the corresponding files in the content is also added as an attribute.

図38に、本実施の形態における文脈内容記述データの構成を示す。これは、第1の実施の形態における文脈内容記述データに、物理内容記述データの<mediaobject>との関連を加えたものである。すなわち、文脈内容記述データの根<contents>の子要素は<mediaobject>で、この<mediaobject>の子要素が<section>となる。<section>、<segment>は第1の実施の形態と同様のものである。文脈内容記述データの<mediaobject>との対応を取る。すなわち、文脈内容記述データの<mediaobject>の子孫で記述されるメディアコンテンツの場面は、同じ値の属性idをもつ物理内容記述データの<mediaobject>が示すファイルに格納されている。また、<segment>の時間情報startとendは、各ファイルの先頭からの時間を設定することとする。すなわち、ひとつのメディアコンテンツが複数のファイルから構成される場合、各ファイルの先頭時間は0であり、各場面の開始時間は、それが格納されているファイルの先頭からそこまでの経過時間で表すこととする。   FIG. 38 shows the configuration of the context content description data in the present embodiment. This is obtained by adding a relation with <mediaobject> of physical content description data to the context content description data in the first embodiment. That is, the child element of the root <contents> of the context content description data is <mediaobject>, and the child element of this <mediaobject> is <section>. <section> and <segment> are the same as those in the first embodiment. Corresponds to <mediaobject> in the context content description data. That is, a scene of media content described by a descendant of <mediaobject> of the context content description data is stored in a file indicated by <mediaobject> of the physical content description data having the same attribute id. Also, the time information start and end of <segment> is set to the time from the beginning of each file. That is, when one media content is composed of a plurality of files, the start time of each file is 0, and the start time of each scene is represented by the elapsed time from the start of the file in which it is stored. I will do it.

本実施の形態における物理内容記述データと文脈内容記述データとをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。図39は図37に示す物理内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる物理内容記述データの一例である。また、図40〜図45は図38に示す文脈内容記述データをXMLで記述するためのDTDと、このDTDによる文脈内容記述データの一例である。   As an example of expressing the physical content description data and the context content description data in the present embodiment on a computer, a description in Extensible Markup Language (XML) can be used. FIG. 39 shows an example of Document Type Definition (DTD) for describing the physical content description data shown in FIG. 37 in XML and the physical content description data by this DTD. 40 to 45 are examples of a DTD for describing the context content description data shown in FIG. 38 in XML and context content description data based on this DTD.

以下、選択ステップ1801の処理について説明する。選択ステップ1801での場面の選択の手法は、第1〜第4の実施の形態に記載のいずれかの手法を用いる。ただし、結果として開始時間、終了時間とともに、対応する物理内容記述データの<mediaobject>のidも同時に出力する。物理内容記述データを図39に示すDTDによるXML文書で記述し、文脈内容記述データを図40、図45に示すDTDによるXML文書で表した場合の、選択ステップ1801の出力の一例を図46に示す。図46において、id=の後に物理内容記述データの<mediaobject>のidが記述され、start=の後に開始時間が記述され、end=の後に終了時間が記述される。   Hereinafter, the process of the selection step 1801 will be described. Any of the methods described in the first to fourth embodiments is used as a method for selecting a scene in the selection step 1801. However, as a result, the id of <mediaobject> of the corresponding physical content description data is also output together with the start time and end time. FIG. 46 shows an example of the output of the selection step 1801 when the physical content description data is described by the XML document by the DTD shown in FIG. 39 and the context content description data is expressed by the XML document by the DTD shown in FIGS. Show. In FIG. 46, <mediaobject> id of physical content description data is described after id =, start time is described after start =, and end time is described after end =.

以下、抽出ステップ1802の処理について説明する。図47に、本実施の形態に係わる抽出ステップ1802のブロック図を示す。図47において、本実施の形態における抽出ステップ1802は、インターフェース手段2401と、分離手段2402と、ビデオスキミング手段2403と、オーディオスキミング手段2404とから構成される。インターフェース手段2401は、物理内容記述データと選択ステップ1802の出力を入力とし、データベース1805から、メディアコンテンツのファイルを取り出して、そのデータを分離手段2402へ出力し、選択ステップ1802が出力した区間の開始時間と終了時間をビデオスキミング手段2403とオーディオスキミング手段2404へ出力する。分離手段2402は、本実施の形態におけるメディアコンテンツはビデオストリームとオーディオストリームが多重化されたMPEG1システムストリームであるため、ビデオストリームとオーディオストリームとに分離するものである。ビデオスキミング手段2403は、分離されたビデオストリームとインターフェース手段2401が出力した区間を入力とし、入力されたビデオストリームから、選択された区間のデータだけを出力するものである。オーディオスキミング手段2402は、分離されたオーディオストリームと選択ステップ2402が出力した区間を入力とし、入力されたオーディオストリームから、選択された区間のデータだけを出力するものである。   Hereinafter, the process of the extraction step 1802 will be described. FIG. 47 shows a block diagram of the extraction step 1802 according to this embodiment. In FIG. 47, the extraction step 1802 in the present embodiment includes an interface unit 2401, a separating unit 2402, a video skimming unit 2403, and an audio skimming unit 2404. The interface unit 2401 receives the physical content description data and the output of the selection step 1802, takes out the media content file from the database 1805, outputs the data to the separation unit 2402, and starts the section output by the selection step 1802 The time and end time are output to video skimming means 2403 and audio skimming means 2404. Separating means 2402 separates the media content in this embodiment into a video stream and an audio stream because it is an MPEG1 system stream in which a video stream and an audio stream are multiplexed. The video skimming means 2403 receives the separated video stream and the section output by the interface means 2401 as input, and outputs only the data of the selected section from the input video stream. The audio skimming means 2402 receives the separated audio stream and the section output by the selection step 2402 as input, and outputs only the data in the selected section from the input audio stream.

以下、インターフェース手段2401での処理について説明する。図48にインターフェース手段2401の処理のフローチャートを示す。インターフェース手段は、まず該当メディアコンテンツの物理内容記述データと、図46に示すような選択ステップ1801の出力を入力する。物理内容記述データの<mediaobject>の属性idから、ファイルの時間順が得られるので、選択ステップ1801の出力を、idをキーとして、時間順にソートする(S1)。さらに図49のようなデータに変換する。これは、同じファイルのものはまとめ、さらに開始時間順に並べたものである。続いて、インターフェース手段2401は、図49のデータの上から順に以下の処理を行う。まず、idを用いて、物理内容記述データの<mediaobject>を参照し、その属性locatorからファイル名を取得する。該当ファイル名のファイルのデータをデータベースから読み取り、分離手段2402へ出力する(S2、S3)。さらに、図49のidに続いて記されている、該当ファイル内の選択された区間の開始時間と終了時間を、すべてビデオスキミング手段2403とオーディオスキミング手段2404へ出力する(S4)。すべてのデータに対し以上の処理が行われた時は、処理を終了する(S5)。まだデータが残っている場合は、分離手段2402、ビデオスキミング手段2403、オーディオスキミング手段2104の処理終了を待ってから(S6、S7)、以上の処理を繰り返す。   Hereinafter, processing in the interface unit 2401 will be described. FIG. 48 shows a flowchart of processing of the interface unit 2401. The interface means first inputs the physical content description data of the corresponding media content and the output of the selection step 1801 as shown in FIG. Since the time order of the file is obtained from the attribute id of the <mediaobject> of the physical content description data, the output of the selection step 1801 is sorted in order of time using the id as a key (S1). Further, the data is converted into data as shown in FIG. This is a collection of the same files, arranged in order of start time. Subsequently, the interface unit 2401 performs the following processing in order from the top of the data in FIG. First, using id, the <mediaobject> of the physical content description data is referred to, and the file name is acquired from the attribute locator. The data of the file with the corresponding file name is read from the database and output to the separating means 2402 (S2, S3). Further, all the start time and end time of the selected section in the corresponding file described after id in FIG. 49 are output to the video skimming means 2403 and the audio skimming means 2404 (S4). When the above processing is performed on all data, the processing is terminated (S5). If data still remains, the process is repeated after waiting for the separation means 2402, the video skimming means 2403, and the audio skimming means 2104 to end (S6, S7).

以下、分離手段2402の処理について説明する。図50に分離手段2402の処理のフローチャートを示す。分離手段2402は、インターフェース手段2401からメディアコンテンツであるMPEG1システムストリームを受けとって、ビデオストリームとオーディオストリームに分離し、ビデオストリームをビデオスキミング手段2403へ、オーディオストリームをオーディオスキミング手段2404へ出力し(S1〜S10)、出力終了後(S9、S11)、インターフェース手段2401へ処理終了を通知するものである(S12)。図50のフローチャートに示す通り、処理終了の通知以外は、第1の実施の形態で記述した分離手段と同様の処理を行うものである。   Hereinafter, the process of the separation means 2402 will be described. FIG. 50 shows a flowchart of the processing of the separating means 2402. The separating unit 2402 receives the MPEG1 system stream, which is media content, from the interface unit 2401 and separates it into a video stream and an audio stream, and outputs the video stream to the video skimming unit 2403 and the audio stream to the audio skimming unit 2404 (S1). To S10), after the output is finished (S9, S11), the interface means 2401 is notified of the end of the process (S12). As shown in the flowchart of FIG. 50, the same processing as the separation unit described in the first embodiment is performed except for the notification of the end of processing.

以下、ビデオスキミング手段2403の処理について説明する。図53にビデオスキミング手段2403の処理のフローチャートを示す。図53のフローチャートに示す通り、処理終了時にインターフェース手段2401へ処理終了の通知を行う(S16、S17)以外は、第1の実施の形態で記述したビデオスキミング手段と同様の処理を行うものである。   Hereinafter, the processing of the video skimming means 2403 will be described. FIG. 53 shows a flowchart of processing of the video skimming means 2403. As shown in the flowchart of FIG. 53, the processing similar to the video skimming means described in the first embodiment is performed except that the interface means 2401 is notified of the end of processing (S16, S17) at the end of processing. .

以下、オーディオスキミング手段2404の処理について説明する。図52にオーディオスキミング手段2404の処理のフローチャートを示す。図52のフローチャートに示す通り、処理終了時にインターフェース手段2401へ処理終了の通知を行う(S11、S12)以外は、第1の実施の形態で記述したオーディオスキミング手段と同様の処理を行うものである。   Hereinafter, processing of the audio skimming means 2404 will be described. FIG. 52 shows a flowchart of processing of the audio skimming means 2404. As shown in the flowchart of FIG. 52, the same processing as the audio skimming means described in the first embodiment is performed except that the interface means 2401 is notified of the end of processing (S11, S12) when the processing is finished. .

構成ステップ1803は、抽出ステップ1802が出力したビデオストリームとオーディオストリームを、国際標準ISO/IEC IS 11172-1で標準化されたMPEG1システムの多重化方式により、時分割多重化を行うものである。メディアコンテンツが複数のファイルに分割されて格納されている場合、抽出ステップ1802は各ファイル毎にビデオストリーム、オーディオストリームを出力するため、それぞれに対して多重化を行う。   In the configuration step 1803, the video stream and the audio stream output from the extraction step 1802 are time-division multiplexed by the MPEG1 system multiplexing method standardized by the international standard ISO / IEC IS 11172-1. When the media content is divided into a plurality of files and stored, the extraction step 1802 outputs a video stream and an audio stream for each file, and therefore multiplexes each.

配送ステップ1804は、構成ステップ1803が多重化したMPEG1システムストリームを回線を通じて配送するものである。構成ステップ1803が複数のMPEG1システムストリームを出力した場合、出力された順にすべてを配送する。   A delivery step 1804 delivers the MPEG1 system stream multiplexed in the configuration step 1803 through a line. When the configuration step 1803 outputs a plurality of MPEG1 system streams, all are delivered in the order of output.

なお、本実施の形態においては、メディアコンテンツが複数のファイルに分割されて格納されている場合は、抽出ステップ1802の処理において、各ファイル毎の処理を行ったが、メディアコンテンツのファイル間で対応するビデオストリーム、オーディオストリームをすべてつなぎ合わせて出力し、構成ステップ1803においては、ビデオストリームとオーディオストリームの多重化により、ひとつのMPEG1システムストリームを構成する、としても同様の効果が得られる。この場合、ビデオスキミング手段2403でのタイムコードの変更処理を以下のように行う必要がある。すなわち、ビデオストリームの数だけ、出力したフレーム数のカウンタCを用意し、Cの初期化は最初のファイルの時にのみ行う(図51のS18、S3)。この場合のビデオスキミング手段2403のフローチャートを図53に示す。また、本実施の形態においては文脈内容記述データと物理内容記述データを別々に記述したが、物理内容記述データの属性seqとlocatorを、文脈内容記述データの<mediaobject>の属性として付加することにより、ひとつにまとめても良い。   In the present embodiment, when the media content is divided into a plurality of files and stored, the processing for each file is performed in the processing of the extraction step 1802, but the media content files are supported. The same effect can be obtained even if all the video streams and audio streams to be connected are output, and one MPEG1 system stream is formed in the composition step 1803 by multiplexing the video stream and the audio stream. In this case, it is necessary to change the time code in the video skimming means 2403 as follows. That is, the counter C of the number of output frames is prepared for the number of video streams, and initialization of C is performed only for the first file (S18 and S3 in FIG. 51). FIG. 53 shows a flowchart of the video skimming means 2403 in this case. In this embodiment, the context content description data and the physical content description data are described separately. However, by adding the attributes seq and locator of the physical content description data as the <mediaobject> attribute of the context content description data. , You can put them together.

〔第6の実施の形態〕
以下、本発明に係る第6の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における文脈内容に基づいた客観的な重要度とする。
[Sixth Embodiment]
The sixth embodiment according to the present invention will be described below. In the present embodiment, an MPEG1 system stream moving image is assumed as media content. In this case, the media segment corresponds to one scene cut. In the present embodiment, the score is an objective importance based on the context contents in the corresponding scene.

図54は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図54において、3101は選択ステップを、3102は抽出ステップを、3103は構成ステップを、3104は配送ステップを、3105はデータベースを表す。選択ステップ3101は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行うもので、第5の実施の形態記載の選択ステップと同様のものである。抽出ステップ3102は、選択ステップ3101が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行うもので、第5の実施の形態記載の抽出ステップと同様のものである。構成ステップ3103は、配送ステップ3104が判断した回線状況に応じて、抽出ステップ3102が出力したストリームの一部またはすべてを多重化し、MPEG1システムストリームを構成する処理を行う。配送ステップ3104は、配送する回線状況を判断してその結果を構成ステップ3103に伝える処理と、構成ステップ3103が作成したMPEG1システムストリームを、回線を通じて配送する処理を行う。3105はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。   FIG. 54 is a block diagram of a data processing method according to the embodiment of the present invention. 54, 3101 represents a selection step, 3102 represents an extraction step, 3103 represents a configuration step, 3104 represents a delivery step, and 3105 represents a database. The selection step 3101 performs processing for selecting a media content scene from the context content description data and outputting data representing the start time and end time of the scene and the file in which the scene is stored. This is the same as the selection step described in the embodiment. The extraction step 3102 receives the data representing the file output from the selection step 3101, the start time, and the end time, refers to the physical content description data, and is divided from the media content file by the input start time and end time This is a process similar to the extraction step described in the fifth embodiment. In the configuration step 3103, a part or all of the stream output from the extraction step 3102 is multiplexed according to the line status determined by the delivery step 3104, and the MPEG1 system stream is configured. The delivery step 3104 performs processing for judging the status of the line to be delivered and transmitting the result to the configuration step 3103 and processing for delivering the MPEG1 system stream created by the configuration step 3103 through the line. Reference numeral 3105 denotes a database storing media content, physical content description data, and context content description data.

図55に、本実施の形態に係わる構成ステップ3103と、配送ステップ3104とのブロック図を示す。図55において、構成ステップ3103はストリーム選択手段3201と、多重化手段3202とから構成され、配送ステップ3104は回線状況判定手段3203と、配送手段3204とから構成される。ストリーム選択手段3201は、抽出ステップ3102が出力したビデオストリーム、オーディオストリームと、回線状況判定手段3203の出力した回線状況を入力とし、回線がすべてのデータを送出するのに十分な状態である場合は、すべてのストリームを多重化手段3202へ出力する。回線が混雑している、あるいは容量の小さい回線であるなど、すべてのデータを送出すると多大な時間を要する場合は、ビデオストリーム、オーディオストリームそれぞれ複数あるうちの一部だけを選択して多重化手段3202へ出力する。この場合の選択の方法には、ビデオストリームに関しては基本レイヤのストリームだけ、など、また、オーディオストリームに関しては、モノラルだけ、あるいはステレオのレフトだけ、ステレオのライトだけ、などさまざまな組合せがある。ただし、ビデオストリーム、オーディオストリームともひとつのストリームしかない場合は、回線状況に係わらずそのストリームを出力する。多重化手段3202は、ストリーム選択手段3201が出力したビデオストリームとオーディオストリームを、国際標準ISO/IDE IS 11172-1で標準化されたMPEG1システムの多重化方式により、時分割多重化を行うものである。回線状況判定手段3203は、配送する回線の容量や現在の使用状況などを調べて、ストリーム選択手段3201へ出力するものである。配送手段3204は、多重化手段3202が多重化したMPEG1システムストリームを回線を通じて配送するものである。   FIG. 55 shows a block diagram of the configuration step 3103 and the delivery step 3104 according to this embodiment. In FIG. 55, the configuration step 3103 includes a stream selection unit 3201 and a multiplexing unit 3202, and the distribution step 3104 includes a line status determination unit 3203 and a distribution unit 3204. The stream selection unit 3201 receives the video stream and audio stream output from the extraction step 3102 and the line status output from the line status determination unit 3203 as input, and the line is in a state sufficient to transmit all data. , All the streams are output to the multiplexing means 3202. If it takes a lot of time to send all the data, such as when the line is congested or the capacity is small, only a part of each of the video stream and audio stream is selected and multiplexed. To 3202. There are various combinations of selection methods in this case, such as only the base layer stream for the video stream, etc., and only monaural, stereo left, stereo right, etc. for the audio stream. However, if there is only one stream for both the video stream and the audio stream, the stream is output regardless of the line status. The multiplexing means 3202 performs time division multiplexing of the video stream and audio stream output from the stream selection means 3201 by the MPEG1 system multiplexing method standardized by the international standard ISO / IDE IS 11172-1. . The line status determination unit 3203 checks the capacity of the line to be delivered, the current usage status, and the like, and outputs it to the stream selection unit 3201. The delivery unit 3204 delivers the MPEG1 system stream multiplexed by the multiplexing unit 3202 through a line.

なお、本実施の形態においては、ストリーム選択手段3201において、ビデオストリームがひとつの場合、回線状況に関わらずそれを出力するとしたが、回線がすべてのデータを送出すると多大な時間を要する場合は、ビデオストリームの代表画像のみを選択して送出する、としてもよい。代表画像の選択方法としては、文脈内容記述データに代表画像のタイムコードを記述しておく、あるいは各フレームのうち独立で復号可能なIピクチャと呼ばれるフレームだけ選択する、などがある。   In this embodiment, the stream selection unit 3201 outputs one video stream regardless of the line status. However, if the line sends all data, it takes a lot of time. Only representative images of the video stream may be selected and transmitted. As a representative image selection method, the time code of the representative image is described in the context content description data, or only a frame called an I picture that can be decoded independently is selected from each frame.

〔第7の実施の形態〕
以下、本発明に係る第7の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における、ユーザ等が選択した登場人物や事柄等のキーワードの観点に基づいた重要度とする。
[Seventh Embodiment]
The seventh embodiment according to the present invention will be described below. In the present embodiment, an MPEG1 system stream moving image is assumed as media content. In this case, the media segment corresponds to one scene cut. In the present embodiment, the score is an importance level based on keywords such as characters and matters selected by the user or the like in the corresponding scene.

図56は、本実施の形態におけるデータ処理方法のブロック図である。図56において、3301は選択ステップを、3302は抽出ステップを表す。選択ステップ3301は、文脈内容記述データのキーワードとそのスコアから、メディアコンテンツの場面を選択し、その場面の開始時間と終了時間を出力する処理を行う。また、抽出ステップ3302は、選択ステップ3301が出力した開始時間と終了時間によって区切られるメディアコンテンツの区間のデータを抽出する処理を行う。   FIG. 56 is a block diagram of a data processing method in the present embodiment. In FIG. 56, reference numeral 3301 denotes a selection step, and 3302 denotes an extraction step. A selection step 3301 performs a process of selecting a scene of the media content from the keyword of the context content description data and its score, and outputting the start time and end time of the scene. In addition, the extraction step 3302 performs a process of extracting the data of the media content section divided by the start time and the end time output by the selection step 3301.

図57に、本実施の形態の文脈内容記述データの構成を示す。本実施の形態では、文脈内容を木構造で記述する。また、木構造の兄弟関係は、左から時間順にならんでいるものとする。図57において、<contents>と記されている木構造の根(root)は、ひとつのコンテンツを表し、属性としてそのコンテンツのタイトルが付けられる。   FIG. 57 shows the configuration of the context content description data of the present embodiment. In the present embodiment, context contents are described in a tree structure. In addition, it is assumed that the sibling relationships of the tree structure are arranged in order of time from the left. In FIG. 57, the root of the tree structure indicated as <contents> represents one content, and the title of the content is attached as an attribute.

<contents>の子要素は、<section>である。<section>には、その場面の内容や登場人物などを表すキーワードであるkeywordと、このキーワードの重要度を表すpriorityとの組(keyword, priority)が属性として付加される。priorityは1から5までの整数値とし、1が最も重要度が低く、5が最も重要度が高い、とする。(keyword, priority)組は、ユーザが見たいと思う場面、人物などを検索する時のキーに用いることができるように設定する。そのため、(keyword, priority)組は、ひとつの<section>に複数付加することが可能とする。例えば登場人物を記述する場合、その場面に現れる人物の数だけ(keyword, priority)組を付加し、また、priorityは、該当場面に該当keywordの人物が、数多く登場する場合はその値が高い、といったように設定する。   The child element of <contents> is <section>. In <section>, a pair (keyword, priority) of a keyword, which is a keyword indicating the content of the scene, a character, and the like, and a priority indicating the importance of the keyword is added as an attribute. priority is an integer value from 1 to 5, with 1 being the least important and 5 being the most important. The (keyword, priority) group is set so that it can be used as a key when searching for a scene or person that the user wants to see. Therefore, a plurality of (keyword, priority) pairs can be added to one <section>. For example, when describing characters, (keyword, priority) pairs are added as many as the number of characters appearing in the scene, and priority is high when many characters of the corresponding keyword appear in the scene. And so on.

<section>の子要素は、<section>か<segment>である。すなわち、<section>は、それ自身を子要素としても良いとする。ただし、ひとつの<section>の子要素として、<section>と<segment>を混在させてはならないこととする。   The child element of <section> is <section> or <segment>. In other words, <section> may itself be a child element. However, <section> and <segment> must not be mixed as child elements of one <section>.

<segment>は、ひとつのシーンカットを表し、<section>と同様の(keyword, priority)組と、該当シーンの時間情報として、開始時間を表すstartと、終了時間を表すendとが、属性として付加される。シーンカットの方法は、市販されていたり、ネットワークで流通しているソフトを用いても良いし、人手で行っても良い。なお、本実施の形態では、時間情報をシーンカットの開始時間と終了時間としたが、時間情報として開始時間と該当シーンの継続時間としても同様の効果が得られる。この場合、該当シーンの終了時間は、開始時間に継続時間を加算して求められる。   <segment> represents one scene cut, and the same (keyword, priority) pair as <section>, the start information indicating the start time, and the end indicating the end time are attributed as time information of the corresponding scene. Added. The scene cut method may be commercially available or may be software distributed on a network, or may be performed manually. In the present embodiment, the time information is the start time and end time of the scene cut, but the same effect can be obtained by using the start time and the duration of the corresponding scene as time information. In this case, the end time of the corresponding scene is obtained by adding the duration to the start time.

この文脈内容記述データにより、映画などの物語の場合は、多階層の<section>により、章、節、段落などを記述することができる。もうひとつの例として野球を記述する場合、最上位の<section>で回を記述し、その子要素の<section>で表裏を記述し、その子要素の<section>で各打者の場面を記述し、さらにその子要素の<section>で、各投球やその合間、その打席の結果などを記述することができる。   With this contextual content description data, in the case of a story such as a movie, chapters, sections, paragraphs, etc. can be described by multi-level <section>. As another example, when describing baseball, describe the times in the top <section>, describe the front and back in the child <section>, describe each batter's scene in the child <section>, Furthermore, the <section> of the child element can describe each pitch, the interval, and the result of the bat.

この構成の文脈内容記述データをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。XMLはWorld Wide Web Consortiumによって標準化が進められているデータ記述言語であり、1998年2月10日にVer. 1.0が勧告された。XML ver. 1.0の仕様書は、http://www.w3.org/TR/1998/REC-xml-19980210で得られる。図58〜図66は、本実施の形態の文脈内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる文脈内容記述データの一例である。また、図67〜図80は、図58〜図66に示す文脈内容記述データに、代表画像(映像情報)やキーワード(音情報)などのメディアセグメントの代表データ(dominant-data)を追加した文脈内容記述データの一例と、該文脈内容記述データをXMLで記述するためのDTDである。   As an example of expressing the context content description data of this configuration on a computer, a description in Extensible Markup Language (XML) can be used. XML is a data description language that is being standardized by the World Wide Web Consortium, and Ver. 1.0 was recommended on February 10, 1998. The XML ver. 1.0 specification is available at http://www.w3.org/TR/1998/REC-xml-19980210. 58 to 66 are examples of Document Type Definition (DTD) for describing the context content description data of the present embodiment in XML and the context content description data based on this DTD. 67 to 80 are contexts in which representative data (dominant-data) of media segments such as representative images (video information) and keywords (sound information) is added to the context content description data shown in FIGS. An example of content description data and a DTD for describing the context content description data in XML.

以下、選択ステップ3301での処理について説明する。本実施の形態における選択ステップ3301での処理は、<segment>と<segment>を子要素に持つ<section>に着目して処理を行う。図81に、本実施の形態における選択ステップ3301の処理のフローチャートを示す。本実施の形態における選択ステップ3301は、場面選択のキーとなるキーワードとそのpriorityのしきい値を入力とし、文脈内容記述データの<segment>を子要素としてもつ<section>から、キーと同じキーワードを持ち、かつ、そのpriorityがしきい値以上の<section>を選択する(S2、S3)。続いて、選択された<section>の<segment>のうち、キーと同じキーワードを持ち、かつ、そのpriorityがしきい値以上の<segment>のみを選択する(S5、S6)。以上の処理から選択された<segment>の属性であるstartとendより、選択された場面の開始時間と終了時間を求め、それを出力する(S7、S8、S9、S10、S11、S1、S4)。   Hereinafter, the process in the selection step 3301 will be described. The processing in the selection step 3301 in the present embodiment is performed by paying attention to <section> having <segment> and <segment> as child elements. FIG. 81 shows a flowchart of the process of selection step 3301 in the present embodiment. In the selection step 3301 in the present embodiment, a keyword that is a key for scene selection and a threshold value of its priority are input, and from the <section> that has <segment> as a child element of context content description data, the same keyword as the key. And a <section> having a priority equal to or higher than a threshold is selected (S2, S3). Subsequently, among the <segments> of the selected <section>, only those <segments> having the same keyword as the key and having a priority equal to or higher than the threshold are selected (S5, S6). The start time and end time of the selected scene are obtained from the start and end attributes of the <segment> selected from the above processing, and are output (S7, S8, S9, S10, S11, S1, S4). ).

なお、本実施の形態では、<segment>と<segment>を子要素として持つ<section>に着目して処理を行ったが、ある階層の<section>とその子要素である<section>の親子関係に着目して、同様の処理を行っても良い。また、親子関係も2階層のみではなく、さらに階層を増やして、木構造の葉である<segment>まで同様の処理を行ってもよい。さらに、検索のキーを、複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。選択のしきい値も、キーワードが複数の場合はキーワード毎に指定して処理を行っても良い。この検索キーとなるキーワードは、ユーザの入力によって受けとっても良いし、ユーザプロファイルなどからシステムが自動的に設定する構成でも良い。   In this embodiment, processing is performed focusing on <section> that has <segment> and <segment> as child elements. However, the parent-child relationship between <section> in a hierarchy and <section> that is its child element The same processing may be performed by paying attention to the above. The parent-child relationship is not limited to two layers, but the number of layers may be further increased and the same processing may be performed up to <segment>, which is a tree-structured leaf. Further, the search key may be a set of a plurality of keywords and conditions between them. The conditions between the keywords include “one”, “both”, and a combination of “one” and “both”. The selection threshold value may also be specified for each keyword when there are a plurality of keywords. The keyword serving as the search key may be received by user input, or may be configured to be automatically set by the system from a user profile or the like.

抽出ステップ3302の動作は、第1の実施の形態で述べた抽出ステップと同様のものである。   The operation of the extraction step 3302 is the same as the extraction step described in the first embodiment.

本実施の形態の効果としては、図82に示すように、抽出ステップ3302の出力であるビデオストリームとオーディオストリームをそれぞれビデオ再生手段、オーディオ再生手段に入力させ、ビデオストリームとオーディオストリームを同期させて再生することにより、該当メディアコンテンツの、視聴者個人が見たいシーンのみを再生することができる。また、上記得られたビデオストリームとオーディオストリームを多重化することによって、該当メディアコンテンツの視聴者個人が見たいシーン集のMPEG1システムストリームを作成することができる。   As an effect of the present embodiment, as shown in FIG. 82, the video stream and the audio stream that are the output of the extraction step 3302 are input to the video playback means and the audio playback means, respectively, and the video stream and the audio stream are synchronized. By playing back, it is possible to play back only the scene of the corresponding media content that the individual viewer wants to see. Also, by multiplexing the obtained video stream and audio stream, it is possible to create an MPEG1 system stream of a scene collection that the individual viewer of the media content wants to see.

〔第8の実施の形態〕
以下、本発明に係る第8の実施の形態について述べる。本実施の形態は、第7の実施の形態と比較して、選択ステップの処理のみが異なるものである。
[Eighth Embodiment]
The eighth embodiment according to the present invention will be described below. This embodiment is different from the seventh embodiment only in the process of the selection step.

以下、図を参照しながら本実施の形態における選択ステップ3301の処理について記述する。本実施の形態における選択ステップ3301では、<segment>のみに着目して処理を行う。図83に、本実施の形態における選択ステップ3301のフローチャートを示す。図83に示す通り、本実施の形態における選択ステップ3301は、検索キーとなるキーワードとそのpriorityのしきい値を入力とし、文脈内容記述データの<segment>から、キーと同じキーワードを持ち、かつ、そのpriorityがしきい値以上の<segment>を選択するものである(S1〜S6)。   Hereinafter, the processing of the selection step 3301 in the present embodiment will be described with reference to the drawings. In the selection step 3301 in the present embodiment, processing is performed focusing on only <segment>. FIG. 83 shows a flowchart of the selection step 3301 in the present embodiment. As shown in FIG. 83, the selection step 3301 in this embodiment has a keyword to be a search key and a threshold of its priority as input, and has the same keyword as the key from the <segment> of the context content description data, and The <segment> whose priority is equal to or greater than the threshold value is selected (S1 to S6).

なお、本実施の形態では、<segment>のみに着目して処理を行ったが、ある階層の<section>に着目して処理を行っても良い。また、検索のキーを、複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。選択のしきい値も、キーワードが複数の場合はキーワード毎に指定して処理を行っても良い。   In the present embodiment, processing is performed focusing on only <segment>, but processing may be performed focusing on <section> in a certain hierarchy. The search key may be a set of a plurality of keywords and conditions between them. The conditions between the keywords include “one”, “both”, and a combination of “one” and “both”. The selection threshold value may also be specified for each keyword when there are a plurality of keywords.

〔第9の実施の形態〕
以下、本発明に係る第9の実施の形態について述べる。本実施の形態も、第7の実施の形態と比較して、選択ステップの処理のみが異なるものである。
[Ninth Embodiment]
The ninth embodiment according to the present invention will be described below. This embodiment also differs from the seventh embodiment only in the process of the selection step.

以下、図を参照しながら本実施の形態における選択ステップ3301の処理について記述する。本実施の形態における選択ステップ3301は、第7の実施の形態における処理と同様に、<segment>と<segment>を子要素にもつ<section>のみに着目し、その選択を行う。本実施の形態においては、選択する場面すべての継続時間の和にしきい値を設ける。すなわち、それまでに選択された場面の継続時間の和が、このしきい値以下で最大となるような選択を行う。図84に本実施の形態における選択ステップのフローチャートを示す。まず、選択ステップ3301は検索するキーとなるキーワードをひとつ受けとる。続いて、<segment>を子要素にもつ<section>のうち、検索キーのキーワードを持つものすべてを抽出する。この集合をΩとする(S1、S2)。Ωの要素を検索キーのキーワードのpriorityの大きい順にソートする(S3)。続いて、ソートしたΩから、検索キーのキーワードのpriorityの最も大きい<section>を取り出し(S5)、Ωからその<section>を削除する(S6)。この場合、最もpriorityの大きい<section>が複数ある場合は、そのすべての<section>を取り出す。取り出した<section>の子要素<segment>のうち、検索キーを持つ<segment>のみを選択し、集合Ω’に加える(S7)。なお、集合Ω’の初期値は空集合である(S2)。Ω’の場面の継続時間の総和を計算し(S8)、しきい値と比較する(S9)。継続時間の総和がしきい値と等しい場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S14)。継続時間のしきい値より小さい場合は、Ωから検索キーのキーワードのpriorityの最も大きい<section>の選択に戻り(S5)、以上の処理を繰り返す。ただし、Ωが空集合である場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S4)。Ω’の場面の継続時間の総和がしきい値を越えている場合は、以下の処理を行う。集合Ω’の要素<segment>のうち、検索キーのキーワードのpriorityが最も小さい<segment>を削除する(S11)。この場合、最も小さいpriorityの<segment>が複数ある場合は、そのすべての<segment>を削除する。Ω’の継続時間の総和を算出し(S12)、しきい値との比較を行う(S13)。継続時間の総和がしきい値よりも大きい場合は、Ω’から<segment>の削除処理に戻り(S11)、この処理を繰り返す。ただし、Ω’が空集合の場合は処理を終了する(S10)。継続時間の総和がしきい値以下の場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S14)。   Hereinafter, the processing of the selection step 3301 in the present embodiment will be described with reference to the drawings. In the selection step 3301 in the present embodiment, as in the processing in the seventh embodiment, only the <section> having <segment> and <segment> as child elements is selected and selected. In this embodiment, a threshold is provided for the sum of durations of all scenes to be selected. That is, a selection is made such that the sum of the durations of the scenes selected so far is maximized below this threshold. FIG. 84 shows a flowchart of selection steps in the present embodiment. First, the selection step 3301 receives one keyword as a search key. Subsequently, from the <section> having <segment> as a child element, all items having a search key keyword are extracted. This set is defined as Ω (S1, S2). The elements of Ω are sorted in descending order of the priority of the keyword of the search key (S3). Subsequently, the <section> having the highest priority of the keyword of the search key is extracted from the sorted Ω (S5), and the <section> is deleted from Ω (S6). In this case, when there are a plurality of <section> having the highest priority, all of the <section> are extracted. Of the extracted <section> child elements <segment>, only <segment> having a search key is selected and added to the set Ω '(S7). The initial value of the set Ω ′ is an empty set (S2). The total duration of the scene of Ω ′ is calculated (S8) and compared with the threshold value (S9). If the sum of the durations is equal to the threshold value, all the sections of the element <segment> of Ω ′ are output, and the process ends (S14). If it is smaller than the threshold value of the duration time, the process returns to selecting the <section> having the highest priority of the keyword of the search key from Ω (S5), and the above processing is repeated. However, if Ω is an empty set, all sections of the element <segment> of Ω ′ are output, and the process is terminated (S4). When the total duration of the Ω ′ scene exceeds the threshold value, the following processing is performed. Among the elements <segment> of the set Ω ′, the <segment> having the smallest priority of the keyword of the search key is deleted (S11). In this case, if there are multiple <segment> s with the lowest priority, all <segments> are deleted. The sum of the durations of Ω ′ is calculated (S12) and compared with a threshold value (S13). If the total sum of durations is greater than the threshold value, the process returns to Ω 'to return to <segment> (S11), and this process is repeated. However, if Ω ′ is an empty set, the process is terminated (S10). If the sum of the durations is less than or equal to the threshold value, all sections of the element <segment> of Ω ′ are output, and the process ends (S14).

なお、本実施の形態では、<segment>と<segment>を子要素として持つ<section>に着目して処理を行ったが、ある階層の<section>とその子要素である<section>の親子関係に着目して処理を行っても良い。また、親子関係も2階層のみではなく、さらに階層を増やして処理を行っても良い。例えば、最上位の<section>から<segment>までの階層で処理を行う場合、まず最上位の<section>を選択し、選択した<section>からその子要素である<section>を選択し、選択した<section>からその子要素を選択、といった処理を<segment>の選択まで繰り返して、選択された<segment>の集合Ω’を生成する。   In this embodiment, processing is performed focusing on <section> that has <segment> and <segment> as child elements. However, the parent-child relationship between <section> in a hierarchy and <section> that is its child element The processing may be performed paying attention to the above. Further, the parent-child relationship is not limited to two layers, and processing may be performed by further increasing the number of layers. For example, when processing in the hierarchy from the top-level <section> to <segment>, first select the top-level <section>, select the <section> that is a child element from the selected <section>, and select The process of selecting the child element from the <section> is repeated until the selection of <segment>, and the set Ω ′ of the selected <segment> is generated.

また、本実施の形態では、検索キーのキーワードのpriorityの大きい順としたが、priorityにしきい値を設定し、priorityがしきい値以上で大きい順に選択、としても良い。このしきい値は、<section>と<segment>それぞれ別々に設定しても良い。   In this embodiment, the priority of the search key keyword is in descending order. However, a threshold value may be set for priority, and the priority may be selected in descending order of priority. This threshold value may be set separately for each <section> and <segment>.

さらに、本実施の形態では、検索キーをひとつのキーワードとしたが、これを複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。この場合、<section>、<segment>の選択または削除に用いているキーワードのprirorityを決めるルールも必要となる。このルールの一例として、以下のものがある。すなわち、条件が「どちらか」の場合は、該当キーワードのpriorityのうち最も大きい値をpriorityとする。また、「ともに」の場合は、該当キーワードのpriorityのうち最も小さいをpriorityとする。「どちらか」と「ともに」の組合せの場合も、このルールによりpriorityの値は求めることができる。また、検索キーのキーワードが複数の場合でも、そのpriorityにしきい値を設定し、そのしきい値以上のpriorityを持つものに対して処理を行っても良い。   Furthermore, in this embodiment, the search key is a single keyword, but this may be a set of a plurality of keywords and conditions between them. The conditions between the keywords include “one”, “both”, and a combination of “one” and “both”. In this case, a rule for determining the priority of keywords used for selecting or deleting <section> and <segment> is also required. An example of this rule is as follows. That is, when the condition is “one”, the largest value among the priorities of the corresponding keyword is set as the priority. In the case of “both”, the smallest priority among the priorities of the corresponding keyword is set as the priority. Even in the case of a combination of “either” and “both”, the priority value can be obtained by this rule. Even when there are a plurality of search key keywords, a threshold may be set for the priority, and processing may be performed for those having a priority equal to or higher than the threshold.

〔第10の実施の形態〕
以下、本発明に係る第10の実施の形態について述べる。本実施の形態は、第7の実施の形態と比較して、選択ステップの処理のみが異なるものである。
[Tenth embodiment]
The tenth embodiment according to the present invention will be described below. This embodiment is different from the seventh embodiment only in the process of the selection step.

以下、図を参照しながら本実施の形態における選択ステップ3301の処理について記述する。本実施の形態における選択ステップ3301では、第8の実施の形態と同様に<segment>のみに着目して処理を行う。また、第9の実施の形態と同様に、選択する場面すべての継続時間の和にしきい値を設ける。すなわち、それまでに選択された場面の継続時間の和が、このしきい値以下で最大となるような選択を行う。図85に本実施の形態における選択ステップのフローチャートを示す。まず、選択ステップ3301は検索するキーとなるキーワードをひとつ受けとる。初期化として、集合Ω’を空集合とする(S2)。続いて、<segment>のうち、検索キーのキーワードを持つものすべてを抽出する(S1)。この集合をΩとする。Ωの要素を検索キーのキーワードのpriorityの大きい順にソートする(S3)。続いて、ソートしたΩから、検索キーのキーワードのpriorityの最も大きい<segment>を取り出し(S5)、Ωからその<segment>を削除する。この場合、最もpriorityの大きい<segment>が複数ある場合は、そのすべての<segment>を取り出す。Ωが空集合の場合は、Ω’の要素<segment>すべての区間を出力し、処理を終了する(S4)。取り出した<segment>の継続時間の総和T1と(S6)、Ω’の場面の継続時間の総和T2を計算し(S7)、T1+T2としきい値とを比較する(S8)。T1+T2がしきい値を越えている場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S11)。T1+T2が、しきい値と等しい場合は、取り出した<segment>すべてをΩ’の要素として加えたうえで(S9、S10)、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S11)。T1+T2がしきい値より小さい場合は、取り出した<segment>すべてをΩ’の要素として加え、Ωから<segment>の選択処理へ戻る(S10)。   Hereinafter, the processing of the selection step 3301 in the present embodiment will be described with reference to the drawings. In the selection step 3301 in the present embodiment, processing is performed focusing on only <segment> as in the eighth embodiment. As in the ninth embodiment, a threshold is provided for the sum of durations of all scenes to be selected. That is, a selection is made such that the sum of the durations of the scenes selected so far is maximized below this threshold. FIG. 85 shows a flowchart of selection steps in the present embodiment. First, the selection step 3301 receives one keyword as a search key. As an initialization, the set Ω ′ is set as an empty set (S2). Subsequently, all of the <segment> having the search key keyword are extracted (S1). Let this set be Ω. The elements of Ω are sorted in descending order of the priority of the keyword of the search key (S3). Subsequently, from the sorted Ω, the <segment> having the highest priority of the keyword of the search key is extracted (S5), and the <segment> is deleted from Ω. In this case, when there are a plurality of <segment> having the largest priority, all <segment> are extracted. When Ω is an empty set, all sections of the element <segment> of Ω ′ are output, and the process ends (S4). The total duration T1 of <segment> taken out (S6), the total duration T2 of the Ω 'scene is calculated (S7), and T1 + T2 is compared with a threshold value (S8). If T1 + T2 exceeds the threshold value, all sections of the element <segment> of Ω ′ are output, and the process is terminated (S11). When T1 + T2 is equal to the threshold value, all the extracted <segment> are added as elements of Ω '(S9, S10), and all the sections of the element <segment> of Ω' are output, The process ends (S11). If T1 + T2 is smaller than the threshold value, all the extracted <segment> are added as elements of Ω ′, and the process returns to the selection process of <segment> from Ω (S10).

なお、本実施の形態では、<segment>のみに着目して処理を行ったが、ある階層の<section>に着目して処理を行っても良い。また、本実施の形態では、検索キーのキーワードのpriorityの大きい順としたが、priorityにしきい値を設定し、priorityがしきい値以上で大きい順に選択、としても良い。
さらに、本実施の形態では、検索キーをひとつのキーワードとしたが、これを複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。この場合、<section>、<segment>の選択または削除に用いているキーワードのprirorityを決めるルールも必要となる。このルールの一例として、以下のものがある。すなわち、条件が「どちらか」の場合は、該当キーワードのpriorityのうち最も大きい値をpriorityとする。また、「ともに」の場合は、該当キーワードのpriorityのうち最も小さい値をpriorityとする。「どちらか」と「ともに」の組合せの場合も、このルールによりpriorityの値は求めることができる。また、検索キーのキーワードが複数の場合でも、そのpriorityにしきい値を設定し、そのしきい値以上のpriorityを持つものに対して処理を行っても良い。
In the present embodiment, processing is performed focusing on only <segment>, but processing may be performed focusing on <section> in a certain hierarchy. In this embodiment, the priority of the search key keyword is in descending order. However, a threshold value may be set for priority, and the priority may be selected in descending order of priority.
Furthermore, in this embodiment, the search key is a single keyword, but this may be a set of a plurality of keywords and conditions between them. The conditions between the keywords include “one”, “both”, and a combination of “one” and “both”. In this case, a rule for determining the priority of keywords used for selecting or deleting <section> and <segment> is also required. An example of this rule is as follows. That is, when the condition is “one”, the largest value among the priorities of the corresponding keyword is set as the priority. In the case of “both”, the smallest value among the priorities of the corresponding keyword is set as the priority. Even in the case of a combination of “either” and “both”, the priority value can be obtained by this rule. Even when there are a plurality of search key keywords, a threshold may be set for the priority, and processing may be performed for those having a priority equal to or higher than the threshold.

〔第11の実施の形態〕
以下、本発明に係る第11の実施の形態について述べる。本実施の形態は、第7〜第10の実施の形態の文脈内容記述データにおいて、場面選択のキーワードとなる観点およびその重要度の記述が異なるものである。第7〜第10の実施の形態では、図57に示すように、キーワードと重要度との組(keyword, priority)を<section>,<segment>に属性として付与することによって観点およびその観点から見た重要度を記述していたが、本実施の形態では、図133に示すように、<contents>に属性povlistを付加し、<section>,<segment>には属性povvalueを付加することによって観点および重要度を記述している。
[Eleventh embodiment]
The eleventh embodiment according to the present invention will be described below. In the present embodiment, the context content description data of the seventh to tenth embodiments differ in terms of viewpoints that are scene selection keywords and descriptions of their importance. In the seventh to tenth embodiments, as shown in FIG. 57, from the viewpoint and the viewpoint, a pair of keyword and importance (keyword, priority) is assigned to <section> and <segment> as attributes. In the present embodiment, as shown in FIG. 133, the attribute povlist is added to <contents>, and the attribute povvalue is added to <section> and <segment>. Describes the perspective and importance.

属性povlistは、図134に示すように、観点をベクトル形式で表したものであり、属性povvalueは、図135に示すように、重要度をベクトル形式で表したものであり、それぞれ一対一に対応した観点および重要度が順に並んで属性povlistおよび属性povvalueを形成している。例えば、図134および図135では、観点1に関する重要度が5、観点2に関する重要度が0、観点3に関する重要度が2、観点n(但し、nは正の整数である)に関する重要度が0である。なお、観点2に関する重要度0とは、第7の実施の形態の場合、観点2がキーワードである属性(keyword, priority)が付加されていないことに対応している。   As shown in FIG. 134, the attribute povlist represents viewpoints in vector format, and the attribute povvalue represents importance in vector format as shown in FIG. The attribute povlist and the attribute povvalue are formed by arranging the viewpoints and importance in order. For example, in FIGS. 134 and 135, the importance level regarding the viewpoint 1 is 5, the importance level regarding the viewpoint 2 is 0, the importance level regarding the viewpoint 3 is 2, and the importance level regarding the viewpoint n (where n is a positive integer). 0. Note that the importance level 0 regarding the viewpoint 2 corresponds to the fact that the attribute (keyword, priority) in which the viewpoint 2 is a keyword is not added in the seventh embodiment.

また、図136〜図163および図164〜図196には、本実施の形態の文脈内容記述データをコンピュータ上で表現するために用いられるExtensible Markup Language(XML)で記述するためのDocument Type Definition(DTD)と、このDTDによる文脈内容記述データの一例をそれぞれ示す。本実施の形態においても、これらの文脈内容記述データを用いて第7〜第10の実施の形態で説明した処理と同様の処理を行う。   136 to 163 and FIGS. 164 to 196 show Document Type Definition (XML) for describing the context content description data of this embodiment in Extensible Markup Language (XML) used for expressing on the computer. DTD) and an example of context content description data by this DTD. Also in the present embodiment, processing similar to that described in the seventh to tenth embodiments is performed using these context content description data.

なお、本実施の形態では、<contents>に属性povlistを付加し、<section>,<segment>には属性povvalueを付加しているが、図197に示すように、<section>,<segment>にも属性povlistを付加して良い。但し、属性povlistが付加された<section>または<segment>において、属性povvalueは、その<section>または<segment>に付加されている属性povlistに対応したものである。また、属性povlistが付加されていない<section>または<segment>において、属性povvalueは、<contents>に付加された属性povlistに対応するものであっても、属性povlistが付加されていない<section>または<segment>の先祖の内、属性povlistが付加された最も近い<section>の属性povlistであっても良い。   In this embodiment, attribute povlist is added to <contents>, and attribute povvalue is added to <section> and <segment>. However, as shown in FIG. 197, <section> and <segment> You can also add the attribute povlist. However, in the <section> or <segment> to which the attribute povlist is added, the attribute povvalue corresponds to the attribute povlist added to the <section> or <segment>. In <section> or <segment> to which attribute povlist is not added, even if attribute povvalue corresponds to attribute povlist added to <contents>, attribute povlist is not added <section> Alternatively, the attribute povlist of the nearest <section> to which the attribute povlist is added among the ancestors of <segment> may be used.

また、図198〜図222および図223〜図252には、図197に対応した、文脈内容記述データをコンピュータ上で表現するために用いられるXMLで記述するためのDTDと、このDTDによる文脈内容記述データの一例をそれぞれ示す。これらの図面に示す例では、属性povlistが付加されていない<section>,<segment>の属性povvalueは、<contents>に付加された属性povlistに対応している。   Further, FIGS. 198 to 222 and FIGS. 223 to 252 correspond to FIG. 197, the DTD for describing the context content description data in XML used for representing on the computer, and the context content by this DTD. An example of description data is shown respectively. In the examples shown in these drawings, the attribute povvalue of <section> and <segment> to which the attribute povlist is not added corresponds to the attribute povlist added to <contents>.

〔第12の実施の形態〕
以下、本発明に係る第12の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。
[Twelfth embodiment]
The twelfth embodiment according to the present invention will be described below. In the present embodiment, an MPEG1 system stream moving image is assumed as media content. In this case, the media segment corresponds to one scene cut.

図86は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図86において、4101は選択ステップを、4102は抽出ステップを、4103は構成ステップを、4104は配送ステップを、4105はデータベースを表す。選択ステップ4101は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行う。抽出ステップ4102は、選択ステップ4101が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行う。構成ステップ4103は、抽出ステップ4102が出力したデータを多重化し、MPEG1システムストリームを構成する処理を行う。配送ステップ4104は、構成ステップ4103が作成したMPEG1システムストリームを、回線を通じて配送する処理を行う。4105はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。   FIG. 86 is a block diagram of a data processing method according to the embodiment of the present invention. 86, reference numeral 4101 denotes a selection step, 4102 denotes an extraction step, 4103 denotes a configuration step, 4104 denotes a delivery step, and 4105 denotes a database. In the selection step 4101, a scene of media content is selected from the context content description data, and a process of outputting data representing a start time and an end time of the scene and a file in which the scene is stored is performed. The extraction step 4102 receives the data representing the file output from the selection step 4101, the start time, and the end time, refers to the physical content description data, and is divided from the media content file by the input start time and end time Process to extract the data of. A configuration step 4103 performs a process of multiplexing the data output from the extraction step 4102 and configuring an MPEG1 system stream. A delivery step 4104 performs processing for delivering the MPEG1 system stream created by the composition step 4103 through a line. Reference numeral 4105 denotes a database storing media content, physical content description data, and context content description data.

本実施の形態における物理内容記述データの構成は、第5の実施の形態で記述したものと同様のものを用いる。すなわち、図37に示した構成の物理内容記述データを用いる。   The configuration of the physical content description data in the present embodiment is the same as that described in the fifth embodiment. That is, the physical content description data having the configuration shown in FIG. 37 is used.

図87に、本実施の形態における文脈内容記述データの構成を示す。これは、第7の実施の形態における文脈内容記述データに、物理内容記述データの<mediaobject>との関連を加えたものである。すなわち、文脈内容記述データの根<contents>の子要素は<mediaobject>で、この<mediaobject>の子要素が<section>となる。<section>、<segment>は第7の実施の形態と同様ものである。文脈内容記述データの<mediaobject>には、属性idが付加され、このidによって、物理内容記述データの<mediaobject>との対応を取る。すなわち、文脈内容記述データの<mediaobject>の子孫で記述されるメディアコンテンツの場面は、同じ値の属性idをもつ物理内容記述データの<mediaobject>が示すファイルに格納されている。また、<segment>の時間情報startとendは、各ファイルの先頭からの時間を設定することとする。すなわち、ひとつのメディアコンテンツが複数のファイルから構成される場合、各ファイルの先頭時間は0であり、各場面の開始時間は、それが格納されているファイルの先頭からそこまでの経過時間で表すこととする。   FIG. 87 shows the configuration of the context content description data in this embodiment. This is obtained by adding a relation with <mediaobject> of the physical content description data to the context content description data in the seventh embodiment. That is, the child element of the root <contents> of the context content description data is <mediaobject>, and the child element of this <mediaobject> is <section>. <section> and <segment> are the same as those in the seventh embodiment. An attribute id is added to <mediaobject> of the context content description data, and a correspondence with <mediaobject> of the physical content description data is taken by this id. That is, a scene of media content described by a descendant of <mediaobject> of the context content description data is stored in a file indicated by <mediaobject> of the physical content description data having the same attribute id. Also, the time information start and end of <segment> is set to the time from the beginning of each file. That is, when one media content is composed of a plurality of files, the start time of each file is 0, and the start time of each scene is represented by the elapsed time from the start of the file in which it is stored. I will do it.

本実施の形態における物理内容記述データと文脈内容記述データとをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。物理内容記述データに関しては、第5の実施の形態で示した図39が一例である。また、図88〜図96は、図87に示す文脈内容記述データをXMLで記述するためのDTDと、このDTDによる文脈内容記述データの一例である。   As an example of expressing the physical content description data and the context content description data in the present embodiment on a computer, a description in Extensible Markup Language (XML) can be used. FIG. 39 shown in the fifth embodiment is an example of the physical content description data. 88 to 96 are examples of the DTD for describing the context content description data shown in FIG. 87 in XML and the context content description data based on this DTD.

以下、選択ステップ4101の処理について説明する。選択ステップ4101での場面の選択の手法は、第7〜第10の実施の形態に記載のいずれかの手法を用いる。ただし、結果として開始時間、終了時間とともに、対応する物理内容記述データの<mediaobject>のidも同時に出力する。物理内容記述データを図39に示すDTDによるXML文書で表し、文脈内容記述データを図88〜図96に示すDTDによるXML文書で表した場合の、選択ステップ4101の出力の一例は、第5の実施の形態において示した図46のものと同様の形態のものである。   Hereinafter, the process of the selection step 4101 will be described. Any of the methods described in the seventh to tenth embodiments is used as a method for selecting a scene in the selection step 4101. However, as a result, the id of <mediaobject> of the corresponding physical content description data is also output together with the start time and end time. An example of the output of the selection step 4101 when the physical content description data is represented by the XML document by the DTD shown in FIG. 39 and the context content description data is represented by the XML document by the DTD shown in FIGS. It is the thing of the form similar to the thing of FIG. 46 shown in embodiment.

抽出ステップ4102の処理は、第5の実施の形態に記載の抽出ステップと同様のものである。また、構成ステップ4103も、第5の実施の形態に記載の構成ステップと同様のものである。配送ステップ4104も、第5の実施の形態に記載の配送ステップと同様のものである。   The processing of the extraction step 4102 is the same as the extraction step described in the fifth embodiment. The configuration step 4103 is also the same as the configuration step described in the fifth embodiment. The delivery step 4104 is also the same as the delivery step described in the fifth embodiment.

〔第13の実施の形態〕
以下、本発明に係る第13の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。
[Thirteenth embodiment]
The thirteenth embodiment according to the present invention will be described below. In the present embodiment, an MPEG1 system stream moving image is assumed as media content. In this case, the media segment corresponds to one scene cut.

図97は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図97において、4401は選択ステップを、4402は抽出ステップを、4403は構成ステップを、4404は配送ステップを、4405はデータベースを表す。選択ステップ4401は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行うもので、第12の実施の形態記載の選択ステップと同様のものである。抽出ステップ4402は、選択ステップ4401が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行うもので、第12の実施の形態記載の抽出ステップと同様のものである。構成ステップ4403は、配送ステップ4404が判断した回線状況に応じて、抽出ステップ4402が出力したストリームの一部またはすべてを多重化し、MPEG1システムストリームを構成する処理を行うもので、第6の実施の形態に記載の構成ステップと同様のものである。配送ステップ4404は、配送する回線状況を判断してその結果を構成ステップ4403に伝えることと、構成ステップ4403が作成したMPEG1システムストリームを、回線を通じて配送する処理を行うもので、第6の実施例に記載の配送ステップと同様のものである。4405はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。   FIG. 97 is a block diagram of a data processing method according to the embodiment of the present invention. In FIG. 97, 4401 represents a selection step, 4402 represents an extraction step, 4403 represents a configuration step, 4404 represents a delivery step, and 4405 represents a database. The selection step 4401 performs processing for selecting a scene of media content from the context content description data and outputting data representing the start time and end time of the scene and the file in which the scene is stored. This is the same as the selection step described in the embodiment. The extraction step 4402 receives the data representing the file output from the selection step 4401, the start time, and the end time, refers to the physical content description data, and is divided from the media content file by the input start time and end time. This is a process similar to the extraction step described in the twelfth embodiment. In the configuration step 4403, a part or all of the stream output from the extraction step 4402 is multiplexed according to the line status determined by the delivery step 4404, and the MPEG1 system stream is configured. It is the same as the configuration step described in the embodiment. In the delivery step 4404, the status of the delivery line is judged and the result is transmitted to the configuration step 4403, and the MPEG1 system stream created by the configuration step 4403 is delivered through the line. It is the same as the delivery step described in. Reference numeral 4405 denotes a database storing media contents, physical content description data, and context content description data.

なお、本実施の形態では、メディアコンテンツとして、MPEG1システムストリームを想定したが、各画面のタイムコードを得ることができるものであれば、他のフォーマットでも同様の効果が得られる。   In the present embodiment, an MPEG1 system stream is assumed as the media content, but the same effect can be obtained with other formats as long as the time code of each screen can be obtained.

以下に示す実施の形態は、特許請求の範囲に示す発明に対応した形態の要約を説明したものである。なお、以下、「音情報」という言葉を、有音、無音、スピーチ、音楽、静寂、外部雑音などを含む音に関する情報として用い、「映像情報」という言葉を、動画、静止画、テロップなどの文字を含む視覚できる情報として用いる。また、スコアは、有音、無音、スピーチ、音楽、静寂、外部雑音など、音情報の内容から算出されるスコア、または映像情報中のテロップの有無に従って付けられるスコア、またはそれらの組み合わせを利用できる。また、スコアは上記スコア以外のスコアであっても良い。   The embodiments described below explain the summary of the modes corresponding to the invention shown in the claims. In the following, the term “sound information” is used as information about sound including sound, silence, speech, music, silence, external noise, etc., and the term “video information” is used for videos, still images, telops, etc. Used as visual information including characters. As the score, a score calculated from the content of sound information such as sound, silence, speech, music, silence, external noise, a score attached according to the presence or absence of a telop in video information, or a combination thereof can be used. . The score may be a score other than the above score.

〔第14の実施の形態〕
以下、本発明に係る第14の実施の形態について述べる。図98は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを表す。選択ステップ501は、文脈内容記述データのスコアから、メディアコンテンツの少なくともひとつの区間または場面を選択し、その選択された区間または場面を出力するステップである。なお、選択された区間とは、例えば、選択区間の開始時間および終了時間である。また、抽出ステップ503は、選択ステップ501が出力した選択区間によって区切られたメディアコンテンツの区間(以下、メディアセグメントと称す)のデータ、すなわち選択区間のデータのみを抽出する処理を行うステップである。
[Fourteenth embodiment]
The fourteenth embodiment according to the present invention will be described below. FIG. 98 is a block diagram showing processing of the data processing method in the present embodiment. In the figure, 501 represents a selection step and 503 represents an extraction step. The selection step 501 is a step of selecting at least one section or scene of the media content from the score of the context content description data and outputting the selected section or scene. The selected section is, for example, the start time and end time of the selected section. In addition, the extraction step 503 is a step of performing processing for extracting only data of a media content section (hereinafter referred to as a media segment) divided by the selection section output by the selection step 501, that is, data of the selection section.

なお、スコアは、文脈内容における客観的な重要性に基づいた重要度でもよいし、ユーザ等が選択した登場人物や事柄等のキーワードの観点に基づいた重要度でもよい。   Note that the score may be an importance level based on objective importance in contextual content, or an importance level based on keywords such as characters and matters selected by the user.

〔第15の実施の形態〕
以下、本発明に係る第15の実施の形態について述べる。図99は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は再生ステップを表す。再生ステップ505は、選択ステップ501が出力した選択区間によって区切られた選択区間のデータのみを再生する処理を行うステップである。なお、選択ステップ501は、第1〜第13の実施の形態に示した選択ステップと同様であるため説明を省略する。
[Fifteenth embodiment]
The fifteenth embodiment according to the present invention will be described below. FIG. 99 is a block diagram showing processing of the data processing method in the present embodiment. In the figure, 501 represents a selection step, and 503 represents a reproduction step. The reproduction step 505 is a step for performing a process of reproducing only the data in the selected section divided by the selection section output from the selection step 501. Note that the selection step 501 is the same as the selection step shown in the first to thirteenth embodiments, and a description thereof will be omitted.

〔第16の実施の形態〕
以下、本発明に係る第16の実施の形態について述べる。図100は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、507は映像選択ステップを、509は音選択ステップを表す。なお、映像選択ステップ507および音選択ステップ509は、第14および第15の実施の形態に示した選択ステップ501に含まれる。
[Sixteenth embodiment]
The sixteenth embodiment according to the present invention will be described below. FIG. 100 is a block diagram showing processing of the data processing method in the present embodiment. In the figure, 507 represents a video selection step, and 509 represents a sound selection step. Note that the video selection step 507 and the sound selection step 509 are included in the selection step 501 shown in the fourteenth and fifteenth embodiments.

映像選択ステップ507は、映像情報の文脈内容記述データを参照して映像情報の区間または場面の選択を行い、その選択された区間を出力するステップである。また、音選択ステップ509は、音情報の文脈内容記述データを参照して音情報の区間または場面の選択を行い、その選択された区間を出力するステップである。なお、選択された区間とは、例えば、選択区間の開始時間および終了時間である。また、映像選択ステップ507で選択された映像情報の選択区間および音選択ステップ509で選択された音情報の選択区間は、第14の実施の形態に示した抽出ステップ503または第15の実施の形態に示した再生ステップ505によって、選択区間のデータのみが抽出または再生される。   The video selection step 507 is a step of selecting the section or scene of the video information with reference to the context content description data of the video information and outputting the selected section. The sound selection step 509 is a step of selecting a section or scene of sound information with reference to the context content description data of the sound information and outputting the selected section. The selected section is, for example, the start time and end time of the selected section. The selection section of the video information selected in the video selection step 507 and the selection section of the sound information selected in the sound selection step 509 are the extraction step 503 or the fifteenth embodiment shown in the fourteenth embodiment. Only the data in the selected section is extracted or reproduced by the reproduction step 505 shown in FIG.

〔第17の実施の形態〕
以下、本発明に係る第17の実施の形態について述べる。図101は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、511は判定ステップを、513は選択ステップを、503は抽出ステップを、505は再生ステップを示す。
[Seventeenth embodiment]
The seventeenth embodiment according to the present invention will be described below. FIG. 101 is a block diagram showing processing of the data processing method in the present embodiment. In the figure, 511 indicates a determination step, 513 indicates a selection step, 503 indicates an extraction step, and 505 indicates a reproduction step.

(実施例1)
まず、実施例1では、メディアコンテンツが同一時間においてそれぞれ異なる複数のメディア情報を有しており、判定ステップ511が、メディアコンテンツのデータ構成を記述した物理内容記述データを入力として、受信端末の能力、配送する回線の状況、およびユーザからの要求などの判定条件から、どのメディア情報を選択対象とするかを判定するステップである。また、選択ステップ513は、判定ステップ511で選択対象と判定されたデータ、物理内容記述データおよび文脈内容記述データを入力とし、入力された物理内容記述データを参照して、判定ステップ511が選択対象と判定したデータからのみ選択処理を行うステップである。なお、抽出ステップ503および再生ステップ505は、それぞれ第14の実施の形態に示した抽出ステップおよび第15の実施の形態に示した再生ステップと同様であるため説明を省略する。また、メディア情報は、映像情報や音情報、テキスト情報などのデータを含み、以下、本実施例においては、メディア情報が特に映像情報および音情報に関するデータの少なくとも一方を含んだものとする。
(Example 1)
First, in the first embodiment, the media content has a plurality of different pieces of media information at the same time, and the determination step 511 receives the physical content description data describing the data structure of the media content as input, and the capability of the receiving terminal This is a step of determining which media information is to be selected from determination conditions such as the status of the line to be delivered and a request from the user. The selection step 513 receives the data determined as the selection target in the determination step 511, the physical content description data, and the context content description data as input, and the determination step 511 refers to the input physical content description data. This is a step for performing the selection process only from the data determined to be. The extraction step 503 and the reproduction step 505 are the same as the extraction step shown in the fourteenth embodiment and the reproduction step shown in the fifteenth embodiment. The media information includes data such as video information, sound information, and text information. In the following embodiment, it is assumed that the media information includes at least one of data related to video information and sound information.

また、本実施例においては、メディアコンテンツが有する同一時間において異なる映像情報または音情報が、図102に示すようなチャネル、さらに一チャネルを階層化したレイヤーにそれぞれ割り当てられており、例えば、動画を伝達するチャネル1,レイヤー1には標準解像度の映像情報が、チャネル1,レイヤー2には高解像度の映像情報が割り当てられ、また、音情報を伝達するチャネル1にはステレオの音情報が、チャネル2にはモノラルの音情報が割り当てられている。図103および図104は、物理内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる物理内容記述データの一例である。   Further, in this embodiment, different video information or sound information in the same time of the media content is assigned to the channel as shown in FIG. 102 and further to a layer in which one channel is hierarchized. Standard resolution video information is assigned to channel 1 and layer 1 for transmission, and high resolution video information is assigned to channel 1 and layer 2, and stereo sound information is assigned to channel 1 for transmitting sound information. 2 is assigned to monaural sound information. 103 and 104 are an example of Document Type Definition (DTD) for describing physical content description data in XML and physical content description data by this DTD.

次に、メディアコンテンツがこのようなチャネルおよびレイヤー構成となっているときの、本実施例の判定ステップ511の処理について、図105〜図108を参照して説明する。まず、図105に示すように、ステップS101ではユーザからの要求があるかを判別する。このステップS101において、ユーザ要求があれば図106に示すユーザ要求による判定処理SR−Aを実行する。   Next, the processing in the determination step 511 of this embodiment when the media content has such a channel and layer configuration will be described with reference to FIGS. First, as shown in FIG. 105, it is determined in step S101 whether there is a request from the user. In step S101, if there is a user request, determination processing SR-A based on the user request shown in FIG. 106 is executed.

また、ステップS101において、ユーザ要求がなければステップS103に進み、受信可能な情報が映像情報のみか、音情報のみか、映像情報および音情報の両方であるかを判別する。このステップS103において、受信可能な情報が映像情報のみであるときは図107に示す映像情報に関する判定処理SR−Bを実行し、音情報のみであるときは図108に示す音情報に関する判定処理SR−Cを実行し、映像情報および音情報の両方であるときはステップS105に進む。ステップS105では、映像情報および音情報を受信する受信端末の能力、例えば、映像表示能力や音再生能力、圧縮された情報の解凍処理速度などを判別して、能力が高ければステップS107に進み、低ければステップS109に進む。ステップS107では、映像情報や音情報を伝送する回線の状況を判別し、回線が混雑していればステップS109に進み、混雑していなければステップS111に進む。   In step S101, if there is no user request, the process proceeds to step S103, and it is determined whether the receivable information is only video information, only sound information, or both video information and sound information. In this step S103, when the receivable information is only the video information, the determination process SR-B related to the video information shown in FIG. 107 is executed, and when only the sound information is determined, the determination process SR related to the sound information shown in FIG. -C is executed, and if both are video information and sound information, the process proceeds to step S105. In step S105, the capability of the receiving terminal that receives the video information and the sound information, for example, the video display capability, the sound reproduction capability, the decompression processing speed of the compressed information, etc. is determined. If the capability is high, the process proceeds to step S107. If it is lower, the process proceeds to step S109. In step S107, the status of the line for transmitting the video information and the sound information is determined. If the line is congested, the process proceeds to step S109, and if not, the process proceeds to step S111.

ステップS109は受信端末の能力が低いかまたは回線が混雑しているときに実行され、このとき受信端末は、チャネル1,レイヤー1の標準解像度の映像情報と、チャネル2のモノラルの音情報とを受信する。一方、ステップS111は受信端末の能力が高く回線が混雑していないときに実行され、このとき受信端末は、チャネル1,レイヤー2の高解像度の映像情報と、チャネル1のステレオの音情報とを受信する。   Step S109 is executed when the capability of the receiving terminal is low or the line is congested. At this time, the receiving terminal uses the channel 1 and layer 1 standard resolution video information and the channel 2 monaural sound information. Receive. On the other hand, step S111 is executed when the capacity of the receiving terminal is high and the line is not congested. At this time, the receiving terminal uses the channel 1 and layer 2 high-resolution video information and the channel 1 stereo sound information. Receive.

次に、図106に示すユーザ要求による判定処理SR−Aについて説明する。本実施例においては、ユーザからの要求が、映像のレイヤー、音のチャネルを選択するものである。まず、ステップS151では、ユーザによる映像に関する要求があるかを判別する。このステップS151において、映像に関するユーザ要求があればステップS153に進み、ユーザ要求がなければステップS159に進む。ステップS153では、ユーザによる映像の要求がレイヤー2を選択するものかを判別し、YESであればステップS155に進んで映像情報としてレイヤー2を選択し、NOであればステップS157に進んでレイヤー1を選択する。ステップS159では、ユーザによる音に関する要求があるかを判別する。このステップS159において、音に関するユーザ要求があればステップS161に進み、ユーザ要求がなければ処理を終了する。ステップS161では、ユーザによる音の要求がチャネル1を選択するものかを判別し、YESであればステップS163に進んで音情報としてチャネル1を選択し、NOであればステップS165に進んでチャネル2を選択する。   Next, determination processing SR-A based on a user request shown in FIG. 106 will be described. In the present embodiment, the request from the user is to select a video layer and a sound channel. First, in step S151, it is determined whether there is a request for a video by the user. In step S151, if there is a user request relating to video, the process proceeds to step S153, and if there is no user request, the process proceeds to step S159. In step S153, it is determined whether the video request by the user is to select layer 2. If YES, the process proceeds to step S155 to select layer 2 as the video information, and if NO, the process proceeds to step S157. Select. In step S159, it is determined whether or not there is a request for sound by the user. In step S159, if there is a user request regarding sound, the process proceeds to step S161, and if there is no user request, the process is terminated. In step S161, it is determined whether or not the user's sound request selects channel 1. If YES, the process proceeds to step S163 to select channel 1 as sound information, and if NO, the process proceeds to step S165 and channel 2 is selected. Select.

次に、図107に示す映像情報に関する判定処理SR−Bについて説明する。まず、ステップS171では、映像情報を受信する受信端末の能力を判別して、能力が高ければステップS173に進み、低ければステップS175に進む。ステップS173では、回線の状況を判別し、回線が混雑していればステップS175に進み、混雑していなければステップS177に進む。   Next, determination processing SR-B regarding the video information shown in FIG. 107 will be described. First, in step S171, the ability of the receiving terminal to receive video information is determined. If the ability is high, the process proceeds to step S173, and if low, the process proceeds to step S175. In step S173, the line status is determined. If the line is congested, the process proceeds to step S175, and if not congested, the process proceeds to step S177.

ステップS175は受信端末の能力が低いかまたは回線が混雑しているときに実行され、このとき受信端末は、チャネル1,レイヤー1の標準解像度の映像情報のみを受信する。一方、ステップS177は受信端末の能力が高く回線が混雑していないときに実行され、このとき受信端末は、チャネル1,レイヤー2の高解像度の映像情報のみを受信する。   Step S175 is executed when the capability of the receiving terminal is low or the line is congested. At this time, the receiving terminal receives only video information of standard resolution of channel 1 and layer 1. On the other hand, step S177 is executed when the capability of the receiving terminal is high and the line is not congested. At this time, the receiving terminal receives only high-resolution video information of channel 1 and layer 2.

次に、図108に示す音情報に関する判定処理SR−Cについて説明する。まず、ステップS181では、音情報を受信する受信端末の能力を判別して、能力が高ければステップS183に進み、低ければステップS185に進む。ステップS183では、回線の状況を判別し、回線が混雑していればステップS185に進み、混雑していなければステップS187に進む。   Next, determination processing SR-C regarding sound information shown in FIG. 108 will be described. First, in step S181, the ability of the receiving terminal to receive sound information is determined. If the ability is high, the process proceeds to step S183, and if low, the process proceeds to step S185. In step S183, the status of the line is determined. If the line is congested, the process proceeds to step S185, and if not, the process proceeds to step S187.

ステップS185は受信端末の能力が低いかまたは回線が混雑しているときに実行され、このとき受信端末は、チャネル2のモノラルの音情報のみを受信する。一方、ステップS187は受信端末の能力が高く回線が混雑していないときに実行され、このとき受信端末は、チャネル1のステレオの音情報のみを受信する。   Step S185 is executed when the capacity of the receiving terminal is low or the line is congested. At this time, the receiving terminal receives only monaural sound information of channel 2. On the other hand, step S187 is executed when the capability of the receiving terminal is high and the line is not congested. At this time, the receiving terminal receives only the stereo sound information of channel 1.

(実施例2)
また、実施例2では、実施例1と比較して、判定ステップS511のみが異なる。本実施例に係る判定ステップ511は、メディアコンテンツのデータ構成を記述した物理内容記述データを入力として、受信端末の能力、配送する回線の状況、およびユーザからの要求などの判定条件から、映像情報のみ、音情報のみ、または映像情報および音情報のいずれかを選択対象とするかを判定するかを判定するステップである。なお、選択ステップ513、抽出ステップ503および再生ステップ505については、上述の各ステップと同様であるため説明を省略する。
(Example 2)
Further, the second embodiment is different from the first embodiment only in the determination step S511. In the determination step 511 according to the present embodiment, the physical content description data describing the data structure of the media content is input, and the video information is determined from the determination conditions such as the receiving terminal capability, the status of the line to be delivered, and the request from the user. This is a step of determining whether to select only the sound information or only the video information and the sound information. Note that the selection step 513, the extraction step 503, and the reproduction step 505 are the same as the above-described steps, and thus description thereof is omitted.

次に、本実施例の判定ステップ511の処理について、図109および図110を参照して説明する。まず、図109に示すように、ステップS201ではユーザからの要求があるかを判別する。このステップS201において、ユーザ要求があればステップS203に進み、ユーザ要求がなければステップS205に進む。ステップS203では、ユーザ要求が映像情報のみであるかを判別し、YESであればステップS253に進んで映像情報のみを選択対象と判定し、NOであればステップS207に進む。ステップS207では、ユーザ要求が音情報のみであるかを判別し、YESであればステップS255に進んで音情報のみを選択対象と判定し、NOであればステップS251に進んで映像情報および音情報の両方を選択対象と判定する。   Next, the processing of the determination step 511 of the present embodiment will be described with reference to FIGS. 109 and 110. First, as shown in FIG. 109, in step S201, it is determined whether there is a request from the user. In step S201, if there is a user request, the process proceeds to step S203, and if there is no user request, the process proceeds to step S205. In step S203, it is determined whether or not the user request is only video information. If YES, the process proceeds to step S253 to determine only video information as a selection target. If NO, the process proceeds to step S207. In step S207, it is determined whether or not the user request is only sound information. If YES, the process proceeds to step S255 to determine only sound information as a selection target. If NO, the process proceeds to step S251 and the video information and sound information is determined. Both are determined as selection targets.

また、ユーザ要求がないときに進んだステップS205では、受信可能な情報が映像情報のみか、音情報のみか、映像情報および音情報の両方であるかを判別する。このステップS205において、受信可能な情報が映像情報のみであるときはステップS253に進んで映像情報のみを選択対象と判定し、音情報のみであるときはステップS255に進んで音情報のみを選択対象と判定し、映像情報および音情報の両方であるときはステップS209に進む。   Further, in step S205 that is advanced when there is no user request, it is determined whether the receivable information is only video information, only sound information, or both video information and sound information. In this step S205, when the receivable information is only the video information, the process proceeds to step S253, where only the video information is determined as the selection target. When the information is only the sound information, the process proceeds to step S255, where only the sound information is selected. If it is both video information and sound information, the process proceeds to step S209.

ステップS209では、回線の状況を判別し、回線が混雑していなければステップS251に進んで映像情報および音情報の両方を選択対象と判定し、混雑していればステップS111に進む。ステップS211では、回線を介して配送される情報に音情報が含まれているかを判別し、YESであればステップS255に進んで音情報を選択対象と判定し、NOであればステップS253に進んで映像情報を選択対象と判定する。   In step S209, the line status is determined. If the line is not congested, the process proceeds to step S251, where both video information and sound information are determined to be selected, and if congested, the process proceeds to step S111. In step S211, it is determined whether sound information is included in the information delivered via the line. If YES, the process proceeds to step S255, and the sound information is determined as a selection target. If NO, the process proceeds to step S253. The video information is determined as a selection target.

(実施例3)
また、実施例3では、メディアコンテンツが同一時間においてそれぞれ異なる複数の映像情報および/または音情報を有しており、判定ステップ511が、実施例2の判定ステップ511が行う映像情報のみ、音情報のみ、または映像情報および音情報のいずれかを選択対象とするかについての判定に加えて、さらに、受信端末の能力、配送する回線の能力、および回線の状況などの判定条件から、どの映像情報/音情報を選択対象とするかを判定している。なお、選択ステップ513、抽出ステップ503および再生ステップ505については、上述の各ステップと同様であるため説明を省略する。
(Example 3)
Also, in the third embodiment, the media content has a plurality of different video information and / or sound information at the same time, and the determination step 511 only includes the video information performed by the determination step 511 of the second embodiment, and the sound information. Which video information is determined based on judgment conditions such as receiving terminal capability, delivery line capability, and line status. / Sound information is determined as a selection target. Note that the selection step 513, the extraction step 503, and the reproduction step 505 are the same as the above-described steps, and thus description thereof is omitted.

本実施例においては、実施例1と同様に、メディアコンテンツが有する同一時間において異なる映像情報または音情報が、チャネルやレイヤーにそれぞれ割り当てられており、例えば、動画を伝達するチャネル1,レイヤー1には標準解像度の映像情報が、チャネル1,レイヤー2には高解像度の映像情報が割り当てられ、また、音情報を伝達するチャネル1にはステレオの音情報が、チャネル2にはモノラルの音情報が割り当てられている。   In the present embodiment, similar to the first embodiment, different video information or sound information at the same time possessed by the media content is allocated to each channel or layer. Is assigned standard resolution video information, channel 1 and layer 2 are assigned high resolution video information, channel 1 for transmitting sound information is stereo sound information, and channel 2 is monaural sound information. Assigned.

次に、本実施例の判定ステップ511の処理について、図111〜図113を参照して説明する。図111に示すように、本実施例では、まず実施例2の判定ステップ511によって、選択対象とする情報を決定する(選択対象の判定SR−D)。次に、ステップS301では、選択対象の判定処理SR−Dによって判定された情報を判定する。このステップS301において、選択対象となった情報が映像情報のみであるときは、図112に示す映像情報に関する判定処理SR−Eを実行し、音情報のみであるときは図113に示す音情報に関する判定処理SR−Fを実行し、映像情報および音情報の両方であるときはステップS303に進む。ステップS303では、映像情報および音情報を受信する受信端末の能力を判別して、能力が高ければステップS305に進み、低ければステップS307に進む。ステップS307では、伝送速度などの回線の能力を判別して、能力が高ければステップS309に進み、低ければステップS307に進む。ステップS309では回線の状況を判別し、回線が混雑していればステップS307に進み、混雑していなければステップS311に進む。   Next, the process of the determination step 511 of the present embodiment will be described with reference to FIGS. As shown in FIG. 111, in the present embodiment, first, information to be selected is determined by the determination step 511 of the second embodiment (selection determination SR-D). Next, in step S301, the information determined by the selection target determination process SR-D is determined. In this step S301, when the information to be selected is only the video information, the determination process SR-E related to the video information shown in FIG. 112 is executed, and when only the information is the sound information, the sound information shown in FIG. 113 is related. Determination processing SR-F is executed, and when both the video information and the sound information are obtained, the process proceeds to step S303. In step S303, the ability of the receiving terminal to receive video information and sound information is determined. If the ability is high, the process proceeds to step S305, and if low, the process proceeds to step S307. In step S307, the line capacity such as the transmission speed is determined. If the capacity is high, the process proceeds to step S309, and if low, the process proceeds to step S307. In step S309, the line status is determined. If the line is congested, the process proceeds to step S307, and if not congested, the process proceeds to step S311.

ステップS307は受信端末の能力が低いか、回線の能力が低いか、または回線が混雑しているときに実行され、このとき受信端末は、チャネル1,レイヤー1の標準解像度の映像情報と、チャネル2のモノラルの音情報とを受信する。一方、ステップS311は受信端末の能力が高く、回線の能力が高く、かつ回線が混雑していないときに実行され、このとき受信端末は、チャネル1,レイヤー2の高解像度の映像情報と、チャネル1のステレオの音情報とを受信する。   Step S307 is executed when the receiving terminal has a low capacity, the line capacity is low, or the line is congested. At this time, the receiving terminal performs channel 1, layer 1 standard resolution video information, 2 monaural sound information is received. On the other hand, step S311 is executed when the receiving terminal has a high capacity, the line capacity is high, and the line is not congested. At this time, the receiving terminal receives the high-resolution video information of channel 1 and layer 2, the channel 1 stereo sound information is received.

次に、図112に示す映像情報に関する判定処理SR−Eについて説明する。まず、ステップS351では、映像情報を受信する受信端末の能力を判別して、能力が高ければステップS353に進み、低ければステップS355に進む。ステップS353では、回線の能力を判別し、能力が高ければステップS357に進み、低ければステップS355に進む。ステップS357では、回線の状況を判別し、回線が混雑していればステップS355に進み、混雑していなければステップS359に進む。   Next, determination processing SR-E regarding the video information shown in FIG. 112 will be described. First, in step S351, the capability of the receiving terminal that receives video information is determined. If the capability is high, the process proceeds to step S353, and if low, the process proceeds to step S355. In step S353, the line capability is determined. If the capability is high, the process proceeds to step S357, and if low, the process proceeds to step S355. In step S357, the line status is determined. If the line is congested, the process proceeds to step S355, and if not congested, the process proceeds to step S359.

ステップS355は受信端末の能力が低いか、回線の能力が低いか、または回線が混雑しているときに実行され、このとき受信端末は、チャネル1,レイヤー1の標準解像度の映像情報のみを受信する。一方、ステップS359は受信端末の能力が高く、回線の能力が高く、かつ回線が混雑していないときに実行され、このとき受信端末は、チャネル1,レイヤー2の高解像度の映像情報のみを受信する。   Step S355 is executed when the receiving terminal has a low capacity, the line capacity is low, or the line is congested. At this time, the receiving terminal receives only the video information of the standard resolution of channel 1 and layer 1 To do. On the other hand, step S359 is executed when the receiving terminal has a high capacity, the line capacity is high, and the line is not congested. At this time, the receiving terminal receives only high-resolution video information of channel 1 and layer 2. To do.

次に、図113に示す音情報に関する判定処理SR−Fについて説明する。まず、ステップS371では、音情報を受信する受信端末の能力を判別して、能力が高ければステップS373に進み、低ければステップS375に進む。ステップS373では、回線の能力を判別し、能力が高ければステップS377に進み、低ければステップS375に進む。ステップS377では、回線の状況を判別し、回線が混雑していればステップS375に進み、混雑していなければステップS379に進む。   Next, determination processing SR-F regarding the sound information shown in FIG. 113 will be described. First, in step S371, the ability of the receiving terminal to receive sound information is determined. If the ability is high, the process proceeds to step S373, and if low, the process proceeds to step S375. In step S373, the line capacity is determined. If the capacity is high, the process proceeds to step S377, and if low, the process proceeds to step S375. In step S377, the line status is determined. If the line is congested, the process proceeds to step S375, and if not congested, the process proceeds to step S379.

ステップS375は受信端末の能力が低いか、回線の能力が低いか、または回線が混雑しているときに実行され、このとき受信端末は、チャネル2のモノラルの音情報のみを受信する。一方、ステップS379は受信端末の能力が高く、回線の能力が高く、かつ回線が混雑していないときに実行され、このとき受信端末は、チャネル1のステレオの音情報のみを受信する。   Step S375 is executed when the capacity of the receiving terminal is low, the capacity of the line is low, or the line is congested. At this time, the receiving terminal receives only the monaural sound information of channel 2. On the other hand, step S379 is executed when the receiving terminal has high capability, high line capability, and no line congestion. At this time, the receiving terminal receives only the stereo sound information of channel 1.

(実施例4)
また、実施例4では、文脈内容記述データの最下位層の各要素に該当するメディアセグメントの代表データが属性として付加され、メディアコンテンツが同一時間においてそれぞれ異なる複数のメディア情報を有している。判定ステップ511は、メディアコンテンツのデータ構成を記述した物理内容記述データを入力として、受信端末の能力、配送する回線の能力、および回線の状況、回線の能力、およびユーザからの要求などの判定条件から、どのメディア情報および/または代表データを選択対象とするかを判定するステップである。
Example 4
In the fourth embodiment, the representative data of the media segment corresponding to each element of the lowest layer of the context content description data is added as an attribute, and the media content has a plurality of different pieces of media information at the same time. In the determination step 511, the physical content description data describing the data structure of the media content is input, and the determination conditions such as the receiving terminal capability, the capability of the line to be delivered, the status of the channel, the capability of the channel, and the request from the user To determine which media information and / or representative data is to be selected.

なお、選択ステップ513、抽出ステップ503および再生ステップ505については、説明を省略する。なお、メディア情報は、映像情報や音情報、テキストデータなどの情報であり、以下、本実施例においては、メディア情報が映像情報および音情報の少なくとも一方を含んだものとする。また、代表データは、映像情報であれば、例えば各メディアセグメントごとの代表画像データや低解像度の映像データであり、音情報であれば、例えば各メディアセグメントごとのキーフレーズのデータである。   Note that description of the selection step 513, the extraction step 503, and the reproduction step 505 is omitted. Note that the media information is information such as video information, sound information, text data, and the like. In the present embodiment, it is assumed that the media information includes at least one of video information and sound information. The representative data is, for example, representative image data or low-resolution video data for each media segment if it is video information, and is key phrase data for each media segment, for example, if it is sound information.

また、本実施例においては、実施例と同様に、メディアコンテンツが有する同一時間において異なる映像情報または音情報が、チャネルやレイヤーにそれぞれ割り当てられており、例えば、動画を伝達するチャネル1,レイヤー1には標準解像度の映像情報が、チャネル1,レイヤー2には高解像度の映像情報が割り当てられ、また、音情報を伝達するチャネル1にはステレオの音情報が、チャネル2にはモノラルの音情報が割り当てられている。   Further, in this embodiment, as in the embodiment, different video information or sound information at the same time of the media content is assigned to the channel or layer, for example, channel 1, layer 1 for transmitting moving images. Is assigned standard resolution video information, channel 1 and layer 2 are assigned high resolution video information, channel 1 for transmitting sound information is stereo sound information, and channel 2 is monaural sound information. Is assigned.

次に、本実施例の判定ステップ511の処理について、図114〜図118を参照して説明する。図114に示すように、ステップS401ではユーザからの要求があるかを判別する。このステップS401において、ユーザ要求があれば図116に示すユーザ要求による判定処理SR−Gを実行する。   Next, the process of the determination step 511 of the present embodiment will be described with reference to FIGS. 114 to 118. As shown in FIG. 114, it is determined in step S401 whether there is a request from the user. In step S401, if there is a user request, determination processing SR-G based on the user request shown in FIG. 116 is executed.

また、ステップS401において、ユーザ要求がなければステップS403に進み、受信可能な情報が映像情報のみか、音情報のみか、映像情報および音情報の両方であるかを判別する。このステップS403において、受信可能な情報が映像情報のみであるときは図117に示す映像情報に関する判定処理SR−Hを実行し、音情報のみであるときは図118に示す音情報に関する判定処理SR−Iを実行し、映像情報および音情報の両方であるときは図115に示すステップS405に進む。   In step S401, if there is no user request, the process proceeds to step S403, and it is determined whether the receivable information is only video information, only sound information, or both video information and sound information. In this step S403, when the receivable information is only the video information, the determination process SR-H related to the video information shown in FIG. 117 is executed. When only the sound information is received, the determination process SR related to the sound information shown in FIG. -I is executed, and when the information is both video information and sound information, the process proceeds to step S405 shown in FIG.

ステップS405は、受信端末の能力を判別するステップであるが、このステップS405を実行した後、順に回線の能力を判別するステップS407、回線が混雑しているかを判別するステップS409を実行する。本実施例の判別ステップ511は、これらのステップS405、S407およびS409を実行して、下記の表1に従うよう、受信する映像情報および音情報のチャネル,レイヤーまたは代表データを判別する。   Step S405 is a step for determining the capability of the receiving terminal. After executing step S405, step S407 for determining the capability of the line in order and step S409 for determining whether the line is congested are executed. The discrimination step 511 of this embodiment executes these steps S405, S407 and S409, and discriminates the channel, layer or representative data of the received video information and sound information according to the following Table 1.

Figure 2005166063
Figure 2005166063

次に、図116に示すユーザ要求による判定処理SR−Gについて説明する。まず、ステップS451では、ユーザによる要求が映像情報のみであるかを判別し、YESであれば映像情報に関する判定処理SR−Hを行い、NOであればステップS453に進む。ステップS453では、ユーザによる要求が音情報のみであるかを判別し、YESであれば音情報に関する判定処理SR−Iを行い、NOであればメインルーチンに戻り、ステップS405に進む。   Next, determination processing SR-G based on a user request shown in FIG. 116 will be described. First, in step S451, it is determined whether the user request is only video information. If YES, determination processing SR-H relating to video information is performed, and if NO, the process proceeds to step S453. In step S453, it is determined whether or not the user request is only sound information. If YES, the sound information determination process SR-I is performed. If NO, the process returns to the main routine and proceeds to step S405.

次に、図117に示す映像情報に関する判定処理SR−Hについて説明する。まず、ステップS461では受信端末の能力を判別するが、このステップS461を実行した後、順に回線の能力を判別するステップS463、回線が混雑しているかを判別するステップS465を実行する。本実施例の映像情報に関する判定処理SR−Hは、これらのステップS461、S463、S465を実行して、端末の能力が高く、回線の能力が高く、かつ回線が混雑してないとき、チャネル1,レイヤー2の映像情報のみを受信し(ステップS471)、また、端末の能力が低く、回線の能力が低く、かつ回線が混雑してないとき、映像情報の代表データのみを受信する(ステップS473)。また、上記の条件に該当しないときは、チャネル1,レイヤー1の映像情報のみを受信する(ステップS475)。   Next, determination processing SR-H regarding the video information shown in FIG. 117 will be described. First, in step S461, the capability of the receiving terminal is determined. After executing step S461, step S463 for determining the capability of the line in order, and step S465 for determining whether the line is congested are executed. The determination processing SR-H relating to the video information of this embodiment executes these steps S461, S463, and S465, and when the terminal capability is high, the channel capability is high, and the channel is not congested, the channel 1 , Only the video information of layer 2 is received (step S471), and only the representative data of the video information is received when the terminal capability is low, the line capability is low, and the line is not congested (step S473). ). If the above conditions are not met, only the video information of channel 1 and layer 1 is received (step S475).

次に、図118に示す音情報に関する判定処理SR−Iについて説明する。まず、ステップS471では受信端末の能力を判別するが、このステップS471を実行した後、順に回線の能力を判別するステップS473、回線が混雑しているかを判別するステップS475を実行する。本実施例の映像情報に関する判定処理SR−Iは、これらのステップS471、S473、S475を実行して、端末の能力が高く回線の能力が高いとき、および端末の能力が高く、回線の能力が低く、かつ回線が混雑していないとき、チャネル1の音情報のみを受信する(ステップS491)。また、端末の能力が低く、回線の能力が低く、回線が混雑しているとき、音情報の代表データのみを受信する(ステップS493)。また、上記の条件に該当しないときは、チャネル2の音情報のみを受信する(ステップS495)。   Next, determination processing SR-I regarding sound information shown in FIG. 118 will be described. First, in step S471, the capability of the receiving terminal is determined. After executing step S471, step S473 for determining the capability of the line in order and step S475 for determining whether the line is congested are executed. The determination processing SR-I relating to the video information of this embodiment executes these steps S471, S473, and S475, and when the terminal capability is high and the line capability is high, and when the terminal capability is high and the line capability is high. When it is low and the line is not congested, only the sound information of channel 1 is received (step S491). When the terminal capability is low, the line capability is low, and the line is congested, only representative data of sound information is received (step S493). If the above condition is not met, only the sound information of channel 2 is received (step S495).

(実施例5)
また、実施例5では、判定ステップ511が、受信端末の能力、配送する回線の能力、および回線の状況、回線の能力、およびユーザからの要求などの判定条件から、メディアセグメントの全体データ、該当するメディアセグメントの代表データのみ、または該当するメディアセグメントの全体データおよび代表データのいずれかを選択対象とするかを判定するステップである。
(Example 5)
Further, in the fifth embodiment, the determination step 511 includes the entire data of the media segment based on the determination conditions such as the reception terminal capability, the distribution line capability, and the line status, the line capability, and the request from the user, In this step, it is determined whether only the representative data of the media segment to be selected or the entire data and the representative data of the corresponding media segment are to be selected.

なお、本実施例においても実施例4と同様に、文脈内容記述データの最下位層の各要素に該当するメディアセグメントの代表データが属性として付加され、この代表データは、映像情報であれば、例えば各メディアセグメントごとの代表画像データや低解像度の映像データであり、音情報であれば、例えば各メディアセグメントごとのキーフレーズのデータである。   In this embodiment, as in the fourth embodiment, the representative data of the media segment corresponding to each element in the lowest layer of the context content description data is added as an attribute. If this representative data is video information, For example, representative image data for each media segment or low-resolution video data, and sound information, for example, key phrase data for each media segment.

次に、本実施例の判定ステップ511の処理について、図119〜図121を参照して説明する。図119に示すように、ステップS501ではユーザからの要求があるかを判別する。このステップS501において、ユーザ要求があれば図121に示すユーザ要求による判定処理SR−Jを実行する。   Next, the process of the determination step 511 of the present embodiment will be described with reference to FIGS. As shown in FIG. 119, it is determined in step S501 whether there is a request from the user. In step S501, if there is a user request, determination processing SR-J based on the user request shown in FIG. 121 is executed.

また、ステップS501において、ユーザ要求がなければステップS503に進み、受信可能なデータがメディアセグメントの代表データのみか、メディアセグメントの全体データのみか、代表データおよび全体データの両方であるかを判別する。このステップS503において、受信可能なデータが代表データのみであるときは、図120に示すステップS553に進んで代表データのみを選択対象と判定し、全体データのみであるときはステップS555に進んで全体データのみを選択対象と判定し、代表データおよび全体データの両方であるときはステップS505に進む。   In step S501, if there is no user request, the process proceeds to step S503 to determine whether the receivable data is only the representative data of the media segment, only the entire data of the media segment, or both the representative data and the entire data. . In this step S503, when the receivable data is only representative data, the process proceeds to step S553 shown in FIG. 120, and only the representative data is determined as a selection target. When only the entire data is received, the process proceeds to step S555. Only the data is determined as a selection target, and if both the representative data and the entire data are included, the process proceeds to step S505.

ステップS505では、回線の能力を判別し、回線の能力が高いときはステップS507に進み、低いときはステップS509に進む。ステップS507およびS509の両ステップとも、回線が混雑しているかを判別し、ステップS507において、回線が混雑していないと判別されればステップS551に進んで全体データおよび代表データを選択対象と判定し、ステップS509において、回線が混雑していると判別されればステップS553に進んで代表データを選択対象とする。また、ステップS507において回線が混雑していると判別されたとき、およびステップS509において回線が混雑していないと判別されたときは、ステップS555に進んで全体データを選択対象とする。   In step S505, the line capability is determined, and if the line capability is high, the process proceeds to step S507, and if low, the process proceeds to step S509. In both steps S507 and S509, it is determined whether or not the line is congested. If it is determined in step S507 that the line is not congested, the process proceeds to step S551 to determine the entire data and the representative data as selection targets. If it is determined in step S509 that the line is congested, the process proceeds to step S553, and representative data is selected. If it is determined in step S507 that the line is congested, or if it is determined in step S509 that the line is not congested, the process proceeds to step S555 and the entire data is selected.

また、ユーザ要求による判定処理SR−Jでは、まずステップS601において、ユーザ要求が代表データのみであるかを判別し、YESであればステップS553に進んで代表データのみを選択対象とし、NOであればステップS603に進む。ステップS603では、ユーザ要求が全体データのみであるかを判別し、YESであればステップS555に進んで全体データのみを選択対象とし、NOであればステップS551に進んで全体データおよび代表データの両方を選択対象とする。   In the determination process SR-J by user request, first, in step S601, it is determined whether or not the user request is only representative data. If YES, the process proceeds to step S553, where only representative data is selected, and NO. If so, the process proceeds to step S603. In step S603, it is determined whether the user request is only the entire data. If YES, the process proceeds to step S555 and only the entire data is selected. If NO, the process proceeds to step S551 and both the entire data and the representative data are selected. Is selected.

〔第18の実施の形態〕
以下、本発明に係る第18の実施の形態について述べる。図122は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを表す。なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であるため説明を省略する。
[Eighteenth Embodiment]
The eighteenth embodiment according to the present invention will be described below. FIG. 122 is a block diagram showing processing of the data processing method in the present embodiment. In the figure, 501 represents a selection step, 503 represents an extraction step, and 515 represents a configuration step. Note that the selection step 501 and the extraction step 503 are the same as the selection step and the extraction step shown in the fourteenth embodiment, and thus description thereof is omitted.

構成ステップ515は、抽出ステップ503が抽出した選択区間のデータからメディアコンテンツのストリームを構成するステップである。特に、構成ステップ515は、抽出ステップ503が出力したデータを多重化してストリームを構成する。   The configuration step 515 is a step of configuring a media content stream from the data of the selected section extracted by the extraction step 503. In particular, the configuration step 515 configures a stream by multiplexing the data output by the extraction step 503.

〔第19の実施の形態〕
以下、本発明に係る第19の実施の形態について述べる。図123は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを、517は配送ステップを表す。なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ515は第18の実施の形態に示した構成ステップと同様であるため説明を省略する。
[Nineteenth embodiment]
The nineteenth embodiment according to the present invention will be described below. FIG. 123 is a block diagram showing processing of the data processing method in the present embodiment. In the figure, 501 represents a selection step, 503 represents an extraction step, 515 represents a configuration step, and 517 represents a delivery step. The selection step 501 and the extraction step 503 are the same as the selection step and the extraction step shown in the fourteenth embodiment, and the configuration step 515 is the same as the configuration step shown in the eighteenth embodiment. Description is omitted.

配送ステップ517は、構成ステップ515が構成したストリームを回線を通じて配送するステップである。なお、配送ステップ517は配送する回線状況を判断するステップを有し、構成ステップ515は配送ステップ517が判断した回線状況からファイルを構成するデータ量を調整するステップを有しても良い。   The delivery step 517 is a step for delivering the stream formed by the configuration step 515 through a line. Note that the delivery step 517 may include a step of determining the status of the line to be delivered, and the configuration step 515 may include a step of adjusting the amount of data constituting the file from the status of the line determined by the delivery step 517.

〔第20の実施の形態〕
以下、本発明に係る第20の実施の形態について述べる。図124は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを、519は記録ステップを、521はデータ記録媒体を表す。記録ステップ519は、構成ステップ515が構成したストリームをデータ記録媒体521に記録するステップである。また、データ記録媒体521は、メディアコンテンツとその文脈内容記述データおよび物理内容記述データを記録するものであり、ハードディスクやメモリ、DVD−RAMなどである。なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ515は第18の実施の形態に示した構成ステップと同様であるため説明を省略する。
[20th embodiment]
The twentieth embodiment according to the present invention will be described below. FIG. 124 is a block diagram showing processing of the data processing method in the present embodiment. In the figure, reference numeral 501 denotes a selection step, 503 denotes an extraction step, 515 denotes a configuration step, 519 denotes a recording step, and 521 denotes a data recording medium. The recording step 519 is a step of recording the stream formed by the configuration step 515 on the data recording medium 521. The data recording medium 521 records media content, context content description data, and physical content description data, and is a hard disk, memory, DVD-RAM, or the like. The selection step 501 and the extraction step 503 are the same as the selection step and the extraction step shown in the fourteenth embodiment, and the configuration step 515 is the same as the configuration step shown in the eighteenth embodiment. Description is omitted.

〔第21の実施の形態〕
以下、本発明に係る第21の実施の形態について述べる。図125は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを、519は記録ステップを、521はデータ記録媒体を、523はデータ記録媒体管理ステップを表す。データ記録媒体管理ステップ523は、データ記録媒体521の残容量によって、すでに蓄積したメディアコンテンツおよび/または新規に蓄積するメディアコンテンツの再編成を行うステップである。より詳しくは、データ記録媒体管理ステップ523は、データ記録媒体521の残容量が少ないとき、新たに蓄積するコンテンツを編集が行われた後に蓄積する処理、および、すでに蓄積されているメディアコンテンツに対して、その文脈内容記述データと物理内容記述データとを選択ステップ501へ送り、前記メディアコンテンツと物理内容記述データとを抽出ステップ503へ送ることによって、このメディアコンテンツを再編成し、再編成したメディアコンテンツをデータ記録媒体521に記録すると共に、再編成前のメディアコンテンツを削除する処理の少なくとも一方を行う。
[Twenty-first embodiment]
The twenty-first embodiment according to the present invention will be described below. FIG. 125 is a block diagram showing processing of the data processing method in the present embodiment. In the figure, reference numeral 501 denotes a selection step, 503 denotes an extraction step, 515 denotes a configuration step, 519 denotes a recording step, 521 denotes a data recording medium, and 523 denotes a data recording medium management step. The data recording medium management step 523 is a step of reorganizing already accumulated media content and / or newly accumulated media content according to the remaining capacity of the data recording medium 521. More specifically, in the data recording medium management step 523, when the remaining capacity of the data recording medium 521 is small, the newly accumulated content is accumulated after editing, and the already accumulated media content is processed. The context content description data and the physical content description data are sent to the selection step 501, and the media content and the physical content description data are sent to the extraction step 503. The content is recorded on the data recording medium 521, and at least one of processing for deleting the media content before reorganization is performed.

なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ515は第18の実施の形態に示した構成ステップと同様であり、記録ステップ519およびデータ記録媒体521は第19の実施の形態に示した記録ステップおよびデータ記録媒体と同様であるため説明を省略する。   The selection step 501 and the extraction step 503 are the same as the selection step and the extraction step shown in the fourteenth embodiment, and the configuration step 515 is the same as the configuration step shown in the eighteenth embodiment. Since the recording step 519 and the data recording medium 521 are the same as the recording step and the data recording medium shown in the nineteenth embodiment, description thereof will be omitted.

〔第22の実施の形態〕
以下、本発明に係る第22の実施の形態について述べる。図126は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを、519は記録ステップを、521はデータ記録媒体を、525は蓄積コンテンツ管理ステップを表す。蓄積コンテンツ管理ステップ525は、データ記録媒体521に蓄積されているメディアコンテンツを、その蓄積期間によって再編成を行うステップである。より詳しくは、蓄積コンテンツ管理ステップ525は、データ記録媒体521に蓄積されたメディアコンテンツを管理して、一定の蓄積期間に達したメディアコンテンツに対して、その文脈内容記述データと物理内容記述データとを選択ステップへ501に送り、前記メディアコンテンツと物理内容記述データとを抽出ステップ503に送ることによって、このメディアコンテンツを再編成し、再編成したメディアコンテンツをデータ記録媒体521に記録すると共に、再編成前のメディアコンテンツを削除するステップである。
[Twenty-second embodiment]
The twenty-second embodiment according to the present invention will be described below. FIG. 126 is a block diagram showing processing of the data processing method in the present embodiment. In the figure, 501 represents a selection step, 503 represents an extraction step, 515 represents a configuration step, 519 represents a recording step, 521 represents a data recording medium, and 525 represents a stored content management step. The stored content management step 525 is a step of reorganizing the media content stored in the data recording medium 521 according to the storage period. More specifically, the stored content management step 525 manages the media content stored in the data recording medium 521, and with respect to the media content that has reached a certain storage period, its context content description data, physical content description data, Is sent to the selection step 501, and the media content and physical description data are sent to the extraction step 503, thereby reorganizing the media content, recording the reorganized media content on the data recording medium 521, and This is a step of deleting media content before organization.

なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ515は第18の実施の形態に示した構成ステップと同様であり、記録ステップ519およびデータ記録媒体521は第19の実施の形態に示した記録ステップおよびデータ記録媒体と同様であるため説明を省略する。   The selection step 501 and the extraction step 503 are the same as the selection step and the extraction step shown in the fourteenth embodiment, and the configuration step 515 is the same as the configuration step shown in the eighteenth embodiment. Since the recording step 519 and the data recording medium 521 are the same as the recording step and the data recording medium shown in the nineteenth embodiment, description thereof will be omitted.

以上の第14〜第22の実施の形態における選択ステップ501,513、抽出ステップ503、再生ステップ505、映像選択ステップ507、音選択ステップ509、判定ステップ511、構成ステップ515、配送ステップ517、記録ステップ519、データ記録媒体管理ステップ523および蓄積コンテンツ管理ステップ525は、それぞれ選択手段、抽出手段、再生手段、映像選択手段、音選択手段、判定手段、構成手段、配送手段、記録手段、データ記録媒体管理手段および蓄積コンテンツ管理手段として、これらの一部または全てを有したデータ処理装置として実現できる。   Selection steps 501 and 513, extraction step 503, reproduction step 505, video selection step 507, sound selection step 509, determination step 511, configuration step 515, delivery step 517, recording step in the above fourteenth to twenty-second embodiments. 519, data recording medium management step 523 and stored content management step 525 are respectively a selection means, an extraction means, a reproduction means, a video selection means, a sound selection means, a determination means, a configuration means, a delivery means, a recording means, and a data recording medium management. As the means and the stored content management means, it can be realized as a data processing apparatus having some or all of them.

なお、上記実施の形態においては、メディアコンテンツとして、映像情報や音情報以外のテキストデータ等のデータストリームを含んでも良い。また、上記実施の形態の各ステップは、ステップの全てまたは一部の動作をコンピュータで実行するためのプログラムをプログラム格納媒体に格納し、コンピュータを用いてソフトウェア的に実現することも、それらステップの機能を発揮する専用のハード回路を用いて実現しても構わない。   In the above embodiment, the media content may include a data stream such as text data other than video information and sound information. In addition, each step of the above-described embodiment can be realized by storing a program for executing all or part of the operation of the step by a computer in a program storage medium and using a computer to implement the software. You may implement | achieve using the hardware circuit for exclusive use which exhibits a function.

なお、上記実施の形態においては、文脈内容記述データと物理内容記述データをそれぞれ別の実体で記述したが、図127〜図132に示すように、ひとつにまとめたものを用いても良い。   In the above-described embodiment, the context content description data and the physical content description data are described as separate entities. However, as shown in FIGS.

以上説明したように、上述のデータ処理装置、データ処理方法、記録媒体およびプログラムによれば、階層構造の文脈内容記述データを用いて、選択手段(選択ステップ)により、文脈内容記述データに付加されたスコアに基づいてメディアコンテンツ中の少なくとも1つの区間を選択しており、特に、抽出手段(抽出ステップ)によって、選択手段(選択ステップ)が選択した区間に対応するデータのみを抽出するか、再生手段(再生ステップ)によって、選択手段(選択ステップ)が選択した区間に対応するデータのみを再生している。   As described above, according to the above data processing apparatus, data processing method, recording medium, and program, the context content description data having a hierarchical structure is added to the context content description data by the selection means (selection step). At least one section in the media content is selected based on the score, and in particular, only the data corresponding to the section selected by the selection means (extraction step) is extracted or reproduced by the extraction means (extraction step) Only the data corresponding to the section selected by the selection means (selection step) is reproduced by the means (reproduction step).

このため、より重要なシーンをメディアコンテンツの中から自由に選択することができ、この重要な選択された区間を抽出または再生することができる。また、文脈内容記述データが最上位層、最下位層およびその他の層から構成された階層構造であるため、章や節など任意の単位でシーンを選択することができ、ある節を選択してその中の不要な段落は削除するなど、多様な選択形式をとることができる。   Therefore, a more important scene can be freely selected from the media content, and this important selected section can be extracted or reproduced. In addition, since the context description data has a hierarchical structure composed of the top layer, the bottom layer, and other layers, you can select scenes in arbitrary units such as chapters and sections. Various selection formats can be taken, such as deleting unnecessary paragraphs.

また、スコアをメディアコンテンツの文脈内容に基づいた重要度を示すものとすることによって、このスコアを重要な場面を選択するよう設定しておくことによって、例えば、番組などのハイライトシーン集などの作成を容易に行うことができ、また、スコアを該当する場面におけるキーワードの観点に基づいた重要度を示すものとし、キーワードを決定することによってより自由度の高い区間の選択を行うことができる。例えば、キーワードを登場人物や事柄などの特定の観点によって決定することによって、ユーザが見たい場面だけを選び出すことができる。   Also, by setting the score to indicate the importance based on the context content of the media content, and setting this score to select important scenes, for example, highlight scene collections such as programs It can be easily created, and the score indicates the importance based on the viewpoint of the keyword in the corresponding scene. By determining the keyword, a section with a higher degree of freedom can be selected. For example, by determining a keyword from a specific viewpoint such as a character or a matter, only a scene that the user wants to see can be selected.

また、メディアコンテンツが同一時間においてそれぞれ異なる複数のメディア情報を有しているとき、判定手段(判定ステップ)が、判定条件からどのメディア情報を選択対象とするかを判定し、選択手段(選択ステップ)が判定手段(判定ステップ)によって判定されたデータからのみ選択処理を行っている。このため、判定手段(判定ステップ)は、判定条件に応じて、最適な区分のメディア情報を判定することができるため、選択手段(選択ステップ)は適切なデータ量のメディア情報を選択することができる。   When the media content has a plurality of different pieces of media information at the same time, the determination unit (determination step) determines which media information is to be selected from the determination condition, and selects the selection unit (selection step). ) Is selected only from the data determined by the determining means (determination step). For this reason, since the determination means (determination step) can determine the media information of the optimum classification according to the determination condition, the selection means (selection step) can select the media information of an appropriate data amount. it can.

また、判定手段(判定ステップ)が、判定条件から映像情報のみ、音情報のみ、または映像情報および音情報のいずれかを選択対象とするかを判定しているため、選択手段(選択ステップ)が行う区間の選択のために要する時間を短縮することができる。   Further, since the determination means (determination step) determines whether to select only video information, only sound information, or video information and sound information from the determination condition, the selection means (selection step) The time required for selecting a section to be performed can be shortened.

また、文脈内容記述データに代表データが属性として付加され、判定手段は、これら判定条件に応じて、最適な区分のメディア情報または代表データを判定することができる。   Also, representative data is added as an attribute to the context content description data, and the determining means can determine the media information or representative data of the optimum classification according to these determination conditions.

さらに、判定手段(判定ステップ)が、判定条件に応じて、該当するメディアセグメントの全体データのみ、代表データのみ、または全体データおよび代表データ両方のいずれかを選択対象と判定しているため、判定手段(判定ステップ)は、選択手段(選択ステップ)が行う区間の選択のために要する時間を短縮することができる。   Furthermore, the determination means (determination step) determines only the entire data of the corresponding media segment, only the representative data, or both the entire data and the representative data as selection targets according to the determination condition. The means (determination step) can shorten the time required for selecting the section performed by the selection means (selection step).

本発明は、メディアコンテンツのあらすじやハイライトシーン、あるいは、視聴者が希望するシーンを抽出することが可能な効果を有し、要約作成装置等に有用である。   INDUSTRIAL APPLICABILITY The present invention has an effect capable of extracting a synopsis of media content, a highlight scene, or a scene desired by a viewer, and is useful for a summary creation device or the like.

本発明の第1の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 1st Embodiment of this invention. 本発明の第1の実施の形態における文脈内容記述データのデータ構造を表す図である。It is a figure showing the data structure of the context content description data in the 1st Embodiment of this invention. 本発明の第1の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の一例である。It is an example of a part of XML DTD which expresses the context content description data in the 1st Embodiment of this invention on a computer, and the context content description data written by XML. 図3の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図4の続き部分である。It is a continuation part of FIG. 図5の続き部分である。It is a continuation part of FIG. 図6の続き部分である。It is a continuation part of FIG. 図7の続き部分である。It is a continuation part of FIG. 図8の続き部分である。It is a continuation part of FIG. 図3〜図9の文脈内容記述データに代表データを追加したXML文書の一部分と、該文脈内容記述データをコンピュータ上で表現するXMLで書かれたDTDの一例である。It is an example of a part of an XML document in which representative data is added to the context content description data of FIGS. 3 to 9 and a DTD written in XML that represents the context content description data on a computer. 図10の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図11の続き部分である。It is a continuation part of FIG. 図12の続き部分である。It is a continuation part of FIG. 図13の続き部分である。It is a continuation part of FIG. 図14の続き部分である。It is a continuation part of FIG. 図15の続き部分である。It is a continuation part of FIG. 図16の続き部分である。It is a continuation part of FIG. 図17の続き部分である。It is a continuation part of FIG. 図18の続き部分である。It is a continuation part of FIG. 図19の続き部分である。It is a continuation part of FIG. 図20の続き部分である。It is a continuation part of FIG. 本発明の第1の実施の形態における重要度の付け方を表す説明図である。It is explanatory drawing showing how to attach the importance in the 1st Embodiment of this invention. 本発明の第1の実施の形態における選択ステップの処理のフローチャートである。It is a flowchart of the process of the selection step in the 1st Embodiment of this invention. 本発明の第1の実施の形態における抽出ステップの構成図である。It is a block diagram of the extraction step in the 1st Embodiment of this invention. 本発明の第1の実施の形態における抽出ステップの分離手段の処理のフローチャートである。It is a flowchart of the process of the isolation | separation means of the extraction step in the 1st Embodiment of this invention. 本発明の第1の実施の形態における抽出ステップのビデオスキミング手段の処理のフローチャートである。It is a flowchart of the process of the video skimming means of the extraction step in the 1st Embodiment of this invention. MPEG1ビデオストリームの構成図である。It is a block diagram of an MPEG1 video stream. 本発明の第1の実施の形態における抽出ステップのオーディオスキミング手段の処理のフローチャートである。It is a flowchart of the process of the audio skimming means of the extraction step in the 1st Embodiment of this invention. MPEGオーディオのAAUの構成図である。It is a block diagram of AAU of MPEG audio. 本発明の第1の実施の形態におけるの応用のブロック図である。It is a block diagram of the application in the 1st Embodiment of this invention. 本発明の第2の実施の形態における重要度の処理の説明図である。It is explanatory drawing of the process of the importance in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における選択ステップの処理のフローチャートである。It is a flowchart of the process of the selection step in the 2nd Embodiment of this invention. 本発明の第3の実施の形態における選択ステップの処理のフローチャートである。It is a flowchart of the process of the selection step in the 3rd Embodiment of this invention. 本発明の第4の実施の形態における重要度の付け方を表す説明図である。It is explanatory drawing showing how to attach the importance in the 4th Embodiment of this invention. 本発明の第4の実施の形態における選択ステップの処理のフローチャートである。It is a flowchart of the process of the selection step in the 4th Embodiment of this invention. 本発明の第5の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 5th Embodiment of this invention. 本発明の第5の実施の形態における物理内容記述データのデータ構造を表す図である。It is a figure showing the data structure of the physical content description data in the 5th Embodiment of this invention. 本発明の第5の実施の形態における文脈内容記述データのデータ構造を表す図である。It is a figure showing the data structure of the context content description data in the 5th Embodiment of this invention. 本発明の第5の実施の形態における物理内容記述データをコンピュータ上で表現するXMLのDTDと、XML文書の一例である。It is an example of XML DTD and XML document which express the physical content description data in the 5th Embodiment of this invention on a computer. 本発明の第5の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XML文書の一例の前半部である。It is the first half of an example of the XML DTD and the XML document that express the context contents description data on the computer in the fifth embodiment of the present invention. 図40の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図41の続き部分である。It is a continuation part of FIG. 図42の続き部分である。It is a continuation part of FIG. 図43の続き部分である。It is a continuation part of FIG. 図44の続き部分である。It is a continuation part of FIG. 本発明の第5の実施の形態における選択ステップの出力の一例である。It is an example of the output of the selection step in the 5th Embodiment of this invention. 本発明の第5の実施の形態における抽出ステップのブロック図である。It is a block diagram of the extraction step in the 5th Embodiment of this invention. 本発明の第5の実施の形態における抽出ステップのインターフェース手段の処理のフローチャートである。It is a flowchart of a process of the interface means of the extraction step in the 5th Embodiment of this invention. 本発明の第5の実施の形態における抽出ステップのインターフェース手段が選択ステップの出力を変換した結果の一例である。It is an example of the result as which the interface means of the extraction step in the 5th Embodiment of this invention converted the output of the selection step. 本発明の第5の実施の形態における抽出ステップの分離手段の処理のフローチャートである。It is a flowchart of the process of the isolation | separation means of the extraction step in the 5th Embodiment of this invention. 本発明の第5の実施の形態における抽出ステップのビデオスキミング手段の処理のフローチャートである。It is a flowchart of the process of the video skimming means of the extraction step in the 5th Embodiment of this invention. 本発明の第5の実施の形態における抽出ステップのオーディオスキミング手段の処理のフローチャートである。It is a flowchart of the process of the audio skimming means of the extraction step in the 5th Embodiment of this invention. 本発明の第5の実施の形態における抽出ステップのビデオスキミング手段のもうひとつの処理のフローチャートである。It is a flowchart of another process of the video skimming means of the extraction step in the 5th Embodiment of this invention. 本発明の第6の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 6th Embodiment of this invention. 本発明の第6の実施の形態における構成ステップと配送ステップのブロック図である。It is a block diagram of a composition step and a delivery step in a 6th embodiment of the present invention. 本発明の第7の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 7th Embodiment of this invention. 本発明の第7の実施の形態における文脈内容記述データのデータ構造を表す図である。It is a figure showing the data structure of the context content description data in the 7th Embodiment of this invention. 本発明の第7の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の一例である。It is an example of a part of XML DTD which expresses the context content description data on the computer in the 7th Embodiment of this invention, and the context content description data written by XML. 図58の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図59の続き部分である。It is a continuation part of FIG. 図60の続き部分である。It is a continuation part of FIG. 図61の続き部分である。It is a continuation part of FIG. 図62の続き部分である。It is a continuation part of FIG. 図63の続き部分である。It is a continuation part of FIG. 図64の続き部分である。It is a continuation part of FIG. 図65の続き部分である。It is a continuation part of FIG. 図58〜図66の文脈内容記述データに代表データを追加したXML文書の一部分と、該文脈内容記述データをコンピュータ上で表現するXMLで書かれたDTDの一例である。FIG. 67 is an example of a part of an XML document in which representative data is added to the context content description data of FIGS. 58 to 66 and a DTD written in XML that represents the context content description data on a computer. 図67の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図68の続き部分である。It is a continuation part of FIG. 図69の続き部分である。It is a continuation part of FIG. 図70の続き部分である。It is a continuation part of FIG. 図71の続き部分である。It is a continuation part of FIG. 図72の続き部分である。It is a continuation part of FIG. 図73の続き部分である。It is a continuation part of FIG. 図74の続き部分である。74 is a continuation of FIG. 図75の続き部分である。It is a continuation part of FIG. 図76の続き部分である。76 is a continuation of FIG. 76. 図77の続き部分である。It is a continuation part of FIG. 図78の続き部分である。It is a continuation part of FIG. 図79の続き部分である。79 is a continuation of FIG. 79. 本発明の第7の実施の形態における選択ステップの処理のフローチャートである。It is a flowchart of the process of the selection step in the 7th Embodiment of this invention. 本発明の第7の実施の形態におけるの応用のブロック図である。It is a block diagram of the application in the 7th Embodiment of this invention. 本発明の第8の実施の形態における選択ステップの処理のフローチャートである。It is a flowchart of the process of the selection step in the 8th Embodiment of this invention. 本発明の第9の実施の形態における選択ステップの処理のフローチャートである。It is a flowchart of the process of the selection step in the 9th Embodiment of this invention. 本発明の第10の実施の形態における選択ステップの処理のフローチャートである。It is a flowchart of the process of the selection step in the 10th Embodiment of this invention. 本発明の第12の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 12th Embodiment of this invention. 本発明の第12の実施の形態における文脈内容記述データのデータ構造を表す図である。It is a figure showing the data structure of the context content description data in the 12th Embodiment of this invention. 本発明の第5の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XML文書の一例の一部である。It is a part of example of XML DTD which expresses context content description data in the 5th Embodiment of this invention on a computer, and an XML document. 図88の一例の続きの部分である。It is a continuation part of an example of FIG. 図89の一例の続きの部分である。FIG. 90 is a continuation of the example in FIG. 89. FIG. 図90の一例の続きの部分である。90 is a continuation of the example of FIG. 図91の一例の続きの部分である。FIG. 92 is a continuation of the example of FIG. 91. 図92の一例の続きの部分である。92 is a continuation of the example of FIG. 図93の一例の続きの部分である。It is a continuation part of an example of FIG. 図94の続きの部分である。It is a continuation part of FIG. 図95の続きの部分である。This is a continuation of FIG. 本発明の第13の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 13th Embodiment of this invention. 本発明の第14の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 14th Embodiment of this invention. 本発明の第15の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 15th Embodiment of this invention. 本発明の第16の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 16th Embodiment of this invention. 本発明の第17の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 17th Embodiment of this invention. チャネルおよびレイヤーを示す説明図である。It is explanatory drawing which shows a channel and a layer. 物理内容記述データをXMLで記述するためのDTDと、該DTDによる物理内容記述データの一部分の一例である。It is an example of DTD for describing physical content description data in XML, and a part of physical content description data by this DTD. 図103の物理内容記述データの続きの部分である。It is a continuation part of the physical content description data of FIG. 第17の実施の形態の実施例1の判定ステップの処理を示すフローチャートである。It is a flowchart which shows the process of the determination step of Example 1 of 17th Embodiment. 第17の実施の形態の実施例1の判定ステップが行うユーザ要求による判定処理を示すフローチャートである。It is a flowchart which shows the determination process by the user request | requirement which the determination step of Example 17 of 17th Embodiment performs. 第17の実施の形態の実施例1の判定ステップが行う映像情報に関する判定処理を示すフローチャートである。It is a flowchart which shows the determination process regarding the video information which the determination step of Example 1 of 17th Embodiment performs. 第17の実施の形態の実施例1の判定ステップが行う音情報に関する判定処理を示すフローチャートである。It is a flowchart which shows the determination process regarding the sound information which the determination step of Example 1 of 17th Embodiment performs. 第17の実施の形態の実施例2の判定ステップの処理を示すフローチャートの一部である。It is a part of flowchart which shows the process of the determination step of Example 2 of 17th Embodiment. 第17の実施の形態の実施例2の判定ステップの処理を示すフローチャートの一部である。It is a part of flowchart which shows the process of the determination step of Example 2 of 17th Embodiment. 第17の実施の形態の実施例3の判定ステップの処理を示すフローチャートである。It is a flowchart which shows the process of the determination step of Example 3 of 17th Embodiment. 第17の実施の形態の実施例3の判定ステップが行う映像情報に関する判定処理を示すフローチャートである。It is a flowchart which shows the determination process regarding the video information which the determination step of Example 3 of 17th Embodiment performs. 第17の実施の形態の実施例3の判定ステップが行う音情報に関する判定処理を示すフローチャートである。It is a flowchart which shows the determination process regarding the sound information which the determination step of Example 3 of 17th Embodiment performs. 第17の実施の形態の実施例4の判定ステップの処理を示すフローチャートの一部である。It is a part of flowchart which shows the process of the determination step of Example 4 of 17th Embodiment. 第17の実施の形態の実施例4の判定ステップの処理を示すフローチャートの一部である。It is a part of flowchart which shows the process of the determination step of Example 4 of 17th Embodiment. 第17の実施の形態の実施例4の判定ステップが行うユーザ要求による判定処理を示すフローチャートである。It is a flowchart which shows the determination process by the user request | requirement which the determination step of Example 4 of 17th Embodiment performs. 第17の実施の形態の実施例4の判定ステップが行う映像情報に関する判定処理を示すフローチャートである。It is a flowchart which shows the determination process regarding the video information which the determination step of Example 4 of 17th Embodiment performs. 第17の実施の形態の実施例4の判定ステップが行う音情報に関する判定処理を示すフローチャートである。It is a flowchart which shows the determination process regarding the sound information which the determination step of Example 4 of 17th Embodiment performs. 第17の実施の形態の実施例5の判定ステップの処理を示すフローチャートの一部である。It is a part of flowchart which shows the process of the determination step of Example 5 of 17th Embodiment. 第17の実施の形態の実施例5の判定ステップの処理を示すフローチャートの一部である。It is a part of flowchart which shows the process of the determination step of Example 5 of 17th Embodiment. 第17の実施の形態の実施例5の判定ステップが行うユーザ要求による判定処理を示すフローチャートである。It is a flowchart which shows the determination process by the user request | requirement which the determination step of Example 5 of 17th Embodiment performs. 本発明の第18の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 18th Embodiment of this invention. 本発明の第19の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 19th Embodiment of this invention. 本発明の第20の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 20th embodiment of this invention. 本発明の第21の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 21st Embodiment of this invention. 本発明の第22の実施の形態におけるデータ処理方法のブロック図である。It is a block diagram of the data processing method in the 22nd Embodiment of this invention. 文脈内容記述データと物理内容記述データとをひとつにまとめたDTDと、XML文書の一例である。It is an example of a DTD that combines contextual content description data and physical content description data into one, and an XML document. 図127のXML文書の続きの部分である。It is a continuation part of the XML document of FIG. 図128の続き部分である。It is a continuation part of FIG. 図129の続き部分である。It is a continuation part of FIG. 図130の続き部分である。It is a continuation part of FIG. 図131の続き部分である。It is a continuation part of FIG. 本発明の第11の実施の形態における文脈内容記述データのデータ構造を表す図である。It is a figure showing the data structure of the context content description data in the 11th Embodiment of this invention. 本発明の第11の実施の形態における観点を表す図である。It is a figure showing the viewpoint in the 11th Embodiment of this invention. 本発明の第11の実施の形態における重要度を表す図である。It is a figure showing the importance in the 11th Embodiment of this invention. 本発明の第11の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の一例である。It is an example of a part of XML DTD which expresses the context content description data on the computer in the 11th Embodiment of this invention, and the context content description data written by XML. 図136の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図137の続き部分である。137 is a continuation of FIG. 図138の続き部分である。FIG. 138 is a continuation of FIG. 138. FIG. 図139の続き部分である。It is a continuation part of FIG. 図140の続き部分である。It is a continuation part of FIG. 図141の続き部分である。It is a continuation part of FIG. 図142の続き部分である。It is a continuation part of FIG. 図143の続き部分である。It is a continuation part of FIG. 図144の続き部分である。It is a continuation part of FIG. 図145の続き部分である。It is a continuation part of FIG. 図146の続き部分である。FIG. 146 is a continuation of FIG. 図147の続き部分である。It is a continuation part of FIG. 図148の続き部分である。It is a continuation part of FIG. 図149の続き部分である。It is a continuation part of FIG. 図150の続き部分である。It is a continuation part of FIG. 図151の続き部分である。It is a continuation part of FIG. 図152の続き部分である。It is a continuation part of FIG. 図153の続き部分である。It is a continuation part of FIG. 図154の続き部分である。It is a continuation part of FIG. 図155の続き部分である。It is a continuation part of FIG. 図156の続き部分である。FIG. 156 is a continuation of FIG. 図157の続き部分である。It is a continuation part of FIG. 図158の続き部分である。It is a continuation part of FIG. 図159の続き部分である。It is a continuation part of FIG. 図160の続き部分である。It is a continuation part of FIG. 図161の続き部分である。It is a continuation part of FIG. 図162の続き部分である。It is a continuation part of FIG. 本発明の第11の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の他の例である。It is another example of the part of XML DTD which expresses the context content description data on the computer in the 11th Embodiment of this invention, and the context content description data written in XML. 図164の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図165の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図166の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図167の文脈内容記述データの続きの部分である。167 is a continuation of the context content description data of FIG. 図168の文脈内容記述データの続きの部分である。168 is a continuation of the context content description data of FIG. 図169の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図170の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図171の文脈内容記述データの続きの部分である。This is a continuation of the context content description data in FIG. 図172の文脈内容記述データの続きの部分である。172 is a continuation of the context content description data in FIG. 172. 図173の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図174の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図175の文脈内容記述データの続きの部分である。175 is a continuation of the context content description data of FIG. 図176の文脈内容記述データの続きの部分である。176 is a continuation of the context content description data of FIG. 図177の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図178の文脈内容記述データの続きの部分である。178 is a continuation of the context content description data in FIG. 178. 図179の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図180の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図181の文脈内容記述データの続きの部分である。181 is a continuation of the context content description data in FIG. 図182の文脈内容記述データの続きの部分である。18 is a continuation of the context content description data of FIG. 図183の文脈内容記述データの続きの部分である。183 is a continuation of the context content description data in FIG. 183. 図184の文脈内容記述データの続きの部分である。FIG. 184 is a continuation of the context content description data in FIG. 184. 図185の文脈内容記述データの続きの部分である。185 is a continuation of the context content description data in FIG. 185. 図186の文脈内容記述データの続きの部分である。186 is a continuation of the context content description data in FIG. 186. 図187の文脈内容記述データの続きの部分である。187 is a continuation of the context content description data in FIG. 187. 図188の文脈内容記述データの続きの部分である。FIG. 188 is a continuation of the context content description data in FIG. 188. 図189の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図190の文脈内容記述データの続きの部分である。This is a continuation of the context content description data of FIG. 図191の文脈内容記述データの続きの部分である。This is a continuation of the context content description data of FIG. 図192の文脈内容記述データの続きの部分である。This is a continuation of the context content description data of FIG. 図193の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図194の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図195の文脈内容記述データの続きの部分である。This is a continuation of the context content description data of FIG. 本発明の第11の実施の形態における他の態様の文脈内容記述データのデータ構造を表す図である。It is a figure showing the data structure of the context content description data of the other aspect in the 11th Embodiment of this invention. 本発明の第11の実施の形態における、図197に対応した、文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の一例である。19 is an example of an XML DTD that represents contextual content description data on a computer and a part of contextual content description data written in XML, corresponding to FIG. 197, in the eleventh embodiment of the present invention. 図198の文脈内容記述データの続きの部分である。This is a continuation of the context content description data of FIG. 図199の続き部分である。It is a continuation part of FIG. 図200の続き部分である。It is a continuation part of FIG. 図201の続き部分である。This is a continuation of FIG. 図202の続き部分である。It is a continuation part of FIG. 図203の続き部分である。It is a continuation part of FIG. 図204の続き部分である。It is a continuation part of FIG. 図205の続き部分である。This is a continuation of FIG. 図206の続き部分である。It is a continuation part of FIG. 図207の続き部分である。It is a continuation part of FIG. 図208の続き部分である。It is a continuation part of FIG. 図209の続き部分である。It is a continuation part of FIG. 図210の続き部分である。It is a continuation part of FIG. 図211の続き部分である。It is a continuation part of FIG. 図212の続き部分である。It is a continuation part of FIG. 図213の続き部分である。It is a continuation part of FIG. 図214の続き部分である。It is a continuation part of FIG. 図215の続き部分である。It is a continuation part of FIG. 図216の続き部分である。It is a continuation part of FIG. 図217の続き部分である。It is a continuation part of FIG. 図218の続き部分である。FIG. 218 is a continuation of FIG. 218. 図219の続き部分である。FIG. 219 is a continuation of FIG. 図220の続き部分である。It is a continuation part of FIG. 図221の続き部分である。It is a continuation part of FIG. 本発明の第11の実施の形態における、図197に対応した、文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の他の例である。FIG. 26 is another example of an XML DTD representing context content description data on a computer and a part of the context content description data written in XML, corresponding to FIG. 197 in the eleventh embodiment of the present invention. 図223の文脈内容記述データの続きの部分である。It is a continuation part of the context content description data of FIG. 図224の続き部分である。It is a continuation part of FIG. 図225の続き部分である。It is a continuation part of FIG. 図226の続き部分である。226 is a continuation of FIG. 図227の続き部分である。It is a continuation part of FIG. 図228の続き部分である。It is a continuation part of FIG. 図229の続き部分である。It is a continuation part of FIG. 図230の続き部分である。It is a continuation part of FIG. 図231の続き部分である。It is a continuation part of FIG. 図232の続き部分である。It is a continuation part of FIG. 図233の続き部分である。It is a continuation part of FIG. 図234の続き部分である。FIG. 234 is a continuation of FIG. 234. 図235の続き部分である。FIG. 235 is a continuation of FIG. 図236の続き部分である。236 is a continuation of FIG. 図237の続き部分である。237 is a continuation of FIG. 図238の続き部分である。It is a continuation part of FIG. 図239の続き部分である。It is a continuation part of FIG. 図240の続き部分である。It is a continuation part of FIG. 図241の続き部分である。It is a continuation part of FIG. 図242の続き部分である。It is a continuation part of FIG. 図243の続き部分である。It is a continuation part of FIG. 図244の続き部分である。It is a continuation part of FIG. 図245の続き部分である。It is a continuation part of FIG. 図246の続き部分である。It is a continuation part of FIG. 図247の続き部分である。It is a continuation part of FIG. 図248の続き部分である。It is a continuation part of FIG. 図249の続き部分である。It is a continuation part of FIG. 図250の続き部分である。It is a continuation part of FIG. 図251の続き部分である。It is a continuation part of FIG.

符号の説明Explanation of symbols

101 選択ステップ
102 抽出ステップ
501,513 選択ステップ
503 抽出ステップ
505 再生ステップ
507 映像選択ステップ
509 音選択ステップ
511 判定ステップ
515 構成ステップ
517 配送ステップ
519 記録ステップ
523 データ記録媒体管理ステップ
525 蓄積コンテンツ管理ステップ
601 分離手段
602 ビデオスキミング手段
603 オーディオスキミング手段
1301 節<section>
1302 節<section>
1301 節<section>
1301 葉<segment>
1801 選択ステップ
1802 抽出ステップ
1803 構成ステップ
1804 配送ステップ
1805 データベース
2401 インターフェース手段
2402 分離手段
2403 ビデオスキミング手段
2404 オーディオスキミング手段
3101 選択ステップ
3102 抽出ステップ
3103 構成ステップ
3104 配送ステップ
3105 データベース
3201 ストリーム選択手段
3202 多重化手段
3203 状況判定手段
3204 配送手段
4101 選択ステップ
4102 抽出ステップ
4103 構成ステップ
4104 配送ステップ
4105 データベース
4401 選択ステップ
4402 抽出ステップ
4403 構成ステップ
4404 配送ステップ
4405 データベース
101 Selection Step 102 Extraction Step 501 513 Selection Step 503 Extraction Step 505 Playback Step 507 Video Selection Step 509 Sound Selection Step 511 Determination Step 515 Configuration Step 517 Delivery Step 519 Recording Step 523 Data Recording Medium Management Step 525 Storage Content Management Step 601 Separation Means 602 Video skimming means 603 Audio skimming means 1301 Section
1302 <section>
1301 <section>
1301 Leaf <segment>
1801 selection step 1802 extraction step 1803 configuration step 1804 distribution step 1805 database 2401 interface unit 2402 separation unit 2403 video skimming unit 2404 audio skimming unit 3101 selection step 3102 extraction step 3103 configuration step 3104 distribution step 3105 database 3201 stream selection unit 3202 multiplexing unit 3203 Status determination means 3204 Delivery means 4101 Selection step 4102 Extraction step 4103 Configuration step 4104 Delivery step 4105 Database 4401 Selection step 4402 Extraction step 4403 Configuration step 4404 Delivery step 4405 Database

Claims (17)

複数の場面で構成されるメディアコンテンツの各場面を表すセグメントと、前記セグメントの属性情報である、場面の区切りを表す時間情報と、前記メディアコンテンツの文脈内容に基づいたスコアとが記述された文脈内容記述データを入力する手段と、
前記スコアに基づいてセグメントを選択する選択手段と、
前記文脈内容記述データと対応するメディアコンテンツを入力するコンテンツ入力手段と、
前記選択されたセグメントの時間情報から前記メディアコンテンツの区間を抽出する抽出手段と、
を備えた要約作成装置。
A context describing a segment representing each scene of media content composed of a plurality of scenes, time information representing scene breaks, which is attribute information of the segment, and a score based on the context content of the media content Means for inputting content description data;
Selecting means for selecting a segment based on the score;
Content input means for inputting media content corresponding to the context content description data;
Extraction means for extracting a section of the media content from the time information of the selected segment;
A summary creation device.
複数の場面で構成されるメディアコンテンツの各場面を表すセグメントと、前記セグメントの属性情報である、場面の区切りを表す時間情報と、場面を表す少なくとも1つのキーワードによって表される観点、及び各観点に基づいた前記セグメントのスコアとが記述された文脈内容記述データを入力する手段と、
前記観点及び前記スコアのうち少なくとも一方に基づいて前記セグメントを選択する選択手段と、
前記文脈内容記述データと対応するメディアコンテンツを入力するコンテンツ入力手段と、
前記選択されたセグメントの時間情報から前記メディアコンテンツの区間を抽出する抽出手段と、
を備えた要約作成装置。
Segments representing each scene of media content composed of a plurality of scenes, time information representing scene segmentation, which is attribute information of the segments, viewpoints represented by at least one keyword representing scenes, and each viewpoint Means for inputting contextual content description data describing the score of the segment based on
Selection means for selecting the segment based on at least one of the viewpoint and the score;
Content input means for inputting media content corresponding to the context content description data;
Extraction means for extracting a section of the media content from the time information of the selected segment;
A summary creation device.
前記文脈内容記述データ及び前記対応するメディアコンテンツを蓄積する蓄積手段を、さらに有する請求項1または2に記載の要約作成装置。   The summary creation device according to claim 1, further comprising storage means for storing the context content description data and the corresponding media content. 前記文脈内容記述データには、対応するメディアコンテンツのリンク先が記述されており、
抽出手段は、前記選択されたセグメントの時間情報から前記リンク先のメディアコンテンツの区間を抽出する請求項1または2に記載の要約作成装置。
In the context content description data, a link destination of the corresponding media content is described,
The summary creation device according to claim 1, wherein the extraction unit extracts a section of the linked media content from the time information of the selected segment.
前記時間情報は、前記各場面の開始時間及び終了時間を含む請求項1乃至4のいずれかに記載の要約作成装置。   The summary creation apparatus according to claim 1, wherein the time information includes a start time and an end time of each scene. 前記時間情報は、前記各場面の開始時間及び継続時間を含む請求項1乃至4のいずれかに記載の要約作成装置。   The summary creation device according to claim 1, wherein the time information includes a start time and a duration of each scene. 前記文脈内容記述データには、複数の前記セグメントが階層的に記述されている請求項1乃至6のいずれかに記載の要約作成装置。   The summary creation device according to any one of claims 1 to 6, wherein the context content description data includes a plurality of segments described hierarchically. 前記観点と前記スコアとの複数組が1つのセグメントに前記属性情報として記述されている請求項2に記載の要約作成装置。   The summary creation device according to claim 2, wherein a plurality of sets of the viewpoint and the score are described as the attribute information in one segment. 前記選択手段は、前記スコアがある閾値より大きいセグメントを選択する請求項1記載の要約作成装置。   The summary creation device according to claim 1, wherein the selection unit selects a segment whose score is larger than a certain threshold. 前記選択手段は、前記セグメントの継続時間の和が閾値以下で最大となる、前記セグメントのスコアが大きい順に選択する請求項1記載の要約作成装置。   The summary creation device according to claim 1, wherein the selection unit selects the segments in the descending order of the score of the segments in which the sum of durations of the segments is the maximum when the sum is not more than a threshold. 前記選択手段は、前記セグメントの継続時間の和が閾値近辺となる、前記セグメントのスコアが大きい順に選択する請求項1記載の要約作成装置。   The summary creation device according to claim 1, wherein the selection unit selects the sum of the durations of the segments in the descending order of the scores of the segments in the vicinity of a threshold value. 前記選択手段は、少なくとも1つ選択された観点のスコアが大きいものから順に、継続時間の総和が閾値以下で最大となるセグメントを選択する請求項2記載の要約作成装置。   The summary creation device according to claim 2, wherein the selection unit selects a segment in which the total sum of durations is equal to or less than a threshold value in descending order from the score of at least one selected viewpoint. 前記選択手段は、少なくとも1つ選択された観点のスコアが大きいものから順に、継続時間の総和が閾値近辺となるセグメントを選択する請求項2記載の要約作成装置。   The summary creation device according to claim 2, wherein the selection unit selects a segment in which the total sum of durations is in the vicinity of a threshold value in descending order from the score of at least one selected viewpoint. 複数の場面で構成されるメディアコンテンツの各場面を表すセグメントと、前記セグメントの属性情報である、場面の区切りを表す時間情報と、前記メディアコンテンツの文脈内容に基づいたスコアとが記述された文脈内容記述データを入力するステップと、
前記スコアに基づいてセグメントを選択するステップと、
前記文脈内容記述データと対応するメディアコンテンツを入力するステップと、
前記選択されたセグメントの時間情報から前記メディアコンテンツの区間を抽出するステップと、
を備えた要約作成方法。
A context describing a segment representing each scene of media content composed of a plurality of scenes, time information representing scene breaks, which is attribute information of the segment, and a score based on the context content of the media content Inputting content description data; and
Selecting a segment based on the score;
Inputting media content corresponding to the context content description data;
Extracting a section of the media content from time information of the selected segment;
A method for creating summaries.
複数の場面で構成されるメディアコンテンツの各場面を表すセグメントと、前記セグメントの属性情報である、場面の区切りを表す時間情報と、場面を表す少なくとも1つのキーワードによって表される観点、及び各観点に基づいた前記セグメントのスコアとが記述された文脈内容記述データを入力するステップと、
前記観点及び前記スコアのうち少なくとも一方に基づいて前記セグメントを選択するステップと、
前記文脈内容記述データと対応するメディアコンテンツを入力するステップと、
前記選択されたセグメントの時間情報から前記メディアコンテンツの区間を抽出するステップと、
を備えた要約作成方法。
Segments representing each scene of media content composed of a plurality of scenes, time information representing scene segmentation, which is attribute information of the segments, viewpoints represented by at least one keyword representing scenes, and each viewpoint Entering contextual content description data describing the score of the segment based on
Selecting the segment based on at least one of the viewpoint and the score;
Inputting media content corresponding to the context content description data;
Extracting a section of the media content from time information of the selected segment;
A method for creating summaries.
コンピュータに、請求項14または15に記載の各ステップを実行させる要約作成プログラム。   A summarizing program for causing a computer to execute each step according to claim 14 or 15. 請求項16に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。   The computer-readable recording medium which recorded the program of Claim 16.
JP2004369134A 1998-12-25 2004-12-21 Data processing apparatus, data processing method, recording medium, and program for making computer to execute the data processing method Pending JP2005166063A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004369134A JP2005166063A (en) 1998-12-25 2004-12-21 Data processing apparatus, data processing method, recording medium, and program for making computer to execute the data processing method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP37148398 1998-12-25
JP27140499 1999-09-24
JP2004369134A JP2005166063A (en) 1998-12-25 2004-12-21 Data processing apparatus, data processing method, recording medium, and program for making computer to execute the data processing method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP35047999A Division JP2001160066A (en) 1998-12-25 1999-12-09 Device and method for processing data and recording medium, and program for allowing computer to execute data processing method

Publications (1)

Publication Number Publication Date
JP2005166063A true JP2005166063A (en) 2005-06-23

Family

ID=34743319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004369134A Pending JP2005166063A (en) 1998-12-25 2004-12-21 Data processing apparatus, data processing method, recording medium, and program for making computer to execute the data processing method

Country Status (1)

Country Link
JP (1) JP2005166063A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198951A1 (en) * 2018-04-10 2019-10-17 삼성전자 주식회사 Electronic device and operation method thereof

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198951A1 (en) * 2018-04-10 2019-10-17 삼성전자 주식회사 Electronic device and operation method thereof
KR20190118415A (en) * 2018-04-10 2019-10-18 삼성전자주식회사 Electronic apparatus and operating method for the same
KR102464907B1 (en) * 2018-04-10 2022-11-09 삼성전자주식회사 Electronic apparatus and operating method for the same
US11627383B2 (en) 2018-04-10 2023-04-11 Samsung Electronics Co., Ltd. Electronic device and operation method thereof

Similar Documents

Publication Publication Date Title
KR100681300B1 (en) Data processing device, data processing method and storage medium, and program for causing computer to execute the data processing method
US7877676B2 (en) Data processing device and method for selecting media segments on the basis of a score
US7181757B1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
KR100771055B1 (en) Data processing apparatus and data processing method
JP4920395B2 (en) Video summary automatic creation apparatus, method, and computer program
JP2007150723A (en) Video viewing support system and method
EP1222634A1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
WO2011059029A1 (en) Video processing device, video processing method and video processing program
JP3824318B2 (en) Data processing apparatus, data processing method and recording medium
JP4598134B2 (en) Data processing apparatus and data processing method
JP2007074749A (en) Data processing apparatus, data processing method, and program for computer to execute data processing method
JP2005166063A (en) Data processing apparatus, data processing method, recording medium, and program for making computer to execute the data processing method
JP2007080290A (en) Summary creating apparatus, data processing method and program for causing computer to execute the data processing method
JP2004127324A (en) Data processing apparatus, data processing method, recording medium, and program for making computer to perform the data processing method
JP2004140875A (en) Data processing apparatus, data processing method and recording medium, and program for making computer execute the data processing method
CN100433015C (en) Data processing method and device
CN100474308C (en) Data processing method and storage medium, and program for causing computer to execute the data processing method
JP2007208876A (en) Content output apparatus, and content output method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060322

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060519

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060802

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060925

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20061011

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20061110

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071120