JP5424306B2 - Information processing apparatus and method, program, and recording medium - Google Patents
Information processing apparatus and method, program, and recording medium Download PDFInfo
- Publication number
- JP5424306B2 JP5424306B2 JP2009084935A JP2009084935A JP5424306B2 JP 5424306 B2 JP5424306 B2 JP 5424306B2 JP 2009084935 A JP2009084935 A JP 2009084935A JP 2009084935 A JP2009084935 A JP 2009084935A JP 5424306 B2 JP5424306 B2 JP 5424306B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- extracted
- frames
- program
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は情報処理装置および方法、プログラム、並びに記録媒体に関し、特に、コンテンツの分類に応じてコンテンツに対して所定の処理を行う場合において、その処理に最適なコンテンツの分類を識別し、識別した分類に応じた方法でその処理を実行することができるようにした情報処理装置および方法、プログラム、並びに記録媒体に関する。 The present invention relates to an information processing apparatus and method, a program, and a recording medium, and in particular, when performing predetermined processing on content according to content classification, identifies and identifies the optimal content classification for the processing The present invention relates to an information processing apparatus and method, a program, and a recording medium that can execute the processing by a method according to classification.
デジタルテレビジョン放送の普及に伴い電子番組表(EPG(Electric Program Guide))の利用も一般的なものとなってきている。EPGを構成するデータには、番組のタイトルや放送日時の他、番組がニュース番組であるかサッカー番組であるかなどのジャンルを示す情報(以下、ジャンル情報と称する)などの番組の分類を示す情報が含まれている。 With the spread of digital television broadcasting, the use of electronic program guides (EPG (Electric Program Guide)) has become common. In addition to the program title and broadcast date, the data constituting the EPG indicates program classification such as information indicating a genre such as whether the program is a news program or a soccer program (hereinafter referred to as genre information). Contains information.
ところでこのEPGから得られる番組のジャンル情報は、記録再生装置における各種の機能に利用されている。例えば、録画した大量の映像の内容を簡単に把握することができるように、録画した映像から、要約映像を作成して再生するいわゆるダイジェスト再生機能が存在するが、このダイジェスト再生では、その精度を向上させる用途として番組のジャンル情報が利用されている(例えば、特許文献1参照)。 By the way, the program genre information obtained from the EPG is used for various functions in the recording / reproducing apparatus. For example, there is a so-called digest playback function that creates and plays back summary video from recorded video so that the contents of a large amount of recorded video can be easily grasped. The genre information of the program is used for the purpose of improvement (see, for example, Patent Document 1).
特許文献1では、録画された映像から検出された所定の特徴量が、EPGから取得された番組のジャンル情報に基づいて重み付けされ、その結果に基づいてダイジェスト再生される映像が決定される。
しかしながら、EPGは、主として、視聴者が番組選択するのに便利なように、例えば放送局側において作成されるものである。また、それに示されているジャンル情報も、視聴者の番組選択に対応した分類となっている。従ってその分類が、機器側の処理、例えば、ダイジェスト再生といった処理に必ずしも適していない場合がる。 However, the EPG is mainly created on the broadcast station side, for example, so as to be convenient for the viewer to select a program. The genre information shown therein is also classified according to the viewer's program selection. Therefore, the classification may not necessarily be suitable for processing on the device side, for example, digest playback.
本発明は、このような状況に鑑みてなされたものであり、機器側の処理に最適なコンテンツの分類を識別することができるようにするものである。 The present invention has been made in view of such a situation, and makes it possible to identify the most suitable content classification for processing on the device side.
本発明の一側面の情報処理装置は、複数の第1のコンテンツから、所定枚数のフレームが抽出され、その抽出されたそれぞれのフレームから特徴量が抽出され、その抽出された第1の特徴量から構成される複数次元のベクトルを記憶する記憶手段と、第2のコンテンツから所定枚数のフレームを抽出し、フレーム毎に第2の特徴量を抽出する抽出手段と、前記複数次元のベクトルを構成する複数の前記第1の特徴量のそれぞれと、前記第2のコンテンツから抽出された所定の枚数のフレームのうち、処理対象とされたフレームから抽出された前記第2の特徴量との距離を算出する算出手段と、前記算出手段により前記第2の特徴量毎に算出された距離のうち、最小の距離だけを保持し、その最小の距離から構成される特徴ベクトルを生成するベクトル生成手段と、前記生成手段により生成された前記特徴ベクトルを用いて所定のアルゴリズムに基づく処理を行い、コンテンツを分類するためのパラメータを生成するパラメータ生成手段とを備える。 An information processing apparatus according to an aspect of the present invention extracts a predetermined number of frames from a plurality of first contents, extracts feature amounts from the extracted frames, and extracts the extracted first feature amounts. A storage means for storing a multi-dimensional vector composed of: an extraction means for extracting a predetermined number of frames from the second content and extracting a second feature quantity for each frame; and the multi-dimensional vector to the each of the plurality of the first feature amount, of the frames of the second predetermined number extracted from the content, the distance between the second feature amounts extracted from the frames processed a calculating means for calculating for, among the distances calculated for each amount the second feature by the calculation means, and holds only the minimum distance, and generates a feature vector composed of the minimum distance Comprising a vector generation unit, using the feature vector generated by said generating means performs a process based on a predetermined algorithm and a parameter generating means for generating parameters for classifying the content.
前記抽出手段は、前記第2のコンテンツの所定の部分から、前記第2の特徴量を抽出するようにすることができる。 The extraction unit may extract the second feature amount from a predetermined part of the second content.
前記アルゴリズムは、最急降下法、サポートベクターマシン、バックプロパゲーションのうちのいずれかのアルゴリズムであるようにすることができる。 The algorithm may be one of a steepest descent method, a support vector machine, and backpropagation .
本発明の一側面の情報処理方法は、複数の第1のコンテンツから、所定枚数のフレームが抽出され、その抽出されたそれぞれのフレームから特徴量が抽出され、その抽出された第1の特徴量から構成される複数次元のベクトルを記憶手段に記憶し、第2のコンテンツから所定枚数のフレームを抽出し、フレーム毎に第2の特徴量を抽出し、前記複数次元のベクトルを構成する複数の前記第1の特徴量のそれぞれと、前記第2のコンテンツから抽出された所定の枚数のフレームのうち、処理対象とされたフレームから抽出された前記第2の特徴量との距離を算出し、前記第2の特徴量毎に算出された距離のうち、最小の距離だけを保持し、その最小の距離から構成される特徴ベクトルを生成し、前記生成された前記特徴ベクトルを用いて所定のアルゴリズムに基づく処理を行い、コンテンツを分類するためのパラメータを生成するステップを含む。 According to an information processing method of one aspect of the present invention, a predetermined number of frames are extracted from a plurality of first contents, a feature amount is extracted from each of the extracted frames, and the extracted first feature amount Are stored in the storage means, a predetermined number of frames are extracted from the second content, a second feature amount is extracted for each frame, and a plurality of the plurality of vectors constituting the multi-dimensional vector Calculating a distance between each of the first feature values and the second feature value extracted from a frame to be processed among a predetermined number of frames extracted from the second content; the second among the distances calculated for each feature quantity, retains only the minimum distance, and generates a feature vector composed of the minimum distance, given with reference to the feature vector the generated Performs processing based on the algorithm, comprises the step of generating a parameter for classifying the content.
本発明の一側面のプログラムは、複数の第1のコンテンツから、所定枚数のフレームが抽出され、その抽出されたそれぞれのフレームから特徴量が抽出され、その抽出された第1の特徴量から構成される複数次元のベクトルを記憶手段に記憶し、第2のコンテンツから所定枚数のフレームを抽出し、フレーム毎に第2の特徴量を抽出し、前記複数次元のベクトルを構成する複数の前記第1の特徴量のそれぞれと、前記第2のコンテンツから抽出された所定の枚数のフレームのうち、処理対象とされたフレームから抽出された前記第2の特徴量との距離を算出し、前記第2の特徴量毎に算出された距離のうち、最小の距離だけを保持し、その最小の距離から構成される特徴ベクトルを生成し、前記生成された前記特徴ベクトルを用いて所定のアルゴリズムに基づく処理を行い、コンテンツを分類するためのパラメータを生成するステップを含む処理を実行させるコンピュータが読み取り可能なプログラム。 A program according to an aspect of the present invention is configured by extracting a predetermined number of frames from a plurality of first contents, extracting feature amounts from the extracted frames, and configuring the extracted first feature amounts. A plurality of dimensional vectors stored in the storage means, a predetermined number of frames are extracted from the second content, a second feature amount is extracted for each frame, and a plurality of the second dimensional vectors constituting the multi-dimensional vector are extracted. Calculating a distance between each of the one feature quantity and the second feature quantity extracted from a frame to be processed among a predetermined number of frames extracted from the second content; of the distances calculated every two feature amounts, only holds the minimum distance, and generates a feature vector composed of the minimum distance, given a using the feature vectors the generated It performs processing based on Gorizumu, computer readable program for executing a process including the step of generating a parameter for classifying the content.
本発明の一側面の記録媒体は、前記プログラムを記録している。 A recording medium according to one aspect of the present invention records the program.
本発明の一側面の情報処理装置および方法、並びにプログラムにおいては、複数の第1のコンテンツから、所定枚数のフレームが抽出され、その抽出されたそれぞれのフレームから特徴量が抽出され、その抽出された第1の特徴量から構成される複数次元のベクトルが記憶され、第2のコンテンツから所定枚数のフレームが抽出され、フレーム毎に第2の特徴量が抽出され、複数次元のベクトルを構成する複数の第1の特徴量のそれぞれと、第2のコンテンツから抽出された所定の枚数のフレームのうち、処理対象とされたフレームから抽出された第2の特徴量との距離が算出され、第2の特徴量毎に算出された距離のうち、最小の距離だけが保持され、その最小の距離から構成される特徴ベクトルが生成される。 In the information processing apparatus, method, and program according to one aspect of the present invention , a predetermined number of frames are extracted from a plurality of first contents, and feature amounts are extracted from the extracted frames. A multi-dimensional vector composed of the first feature amount is stored , a predetermined number of frames are extracted from the second content, and a second feature amount is extracted for each frame to form a multi-dimensional vector. A distance between each of the plurality of first feature values and a second feature value extracted from a frame to be processed among a predetermined number of frames extracted from the second content is calculated . Of the distances calculated for each of the two feature amounts , only the minimum distance is retained, and a feature vector composed of the minimum distance is generated.
本発明の一側面によれば、実行される所定の処理に最適なコンテンツの分類を識別することができ、その分類に応じた方法で所定の処理をコンテンツに対して実行することができる。 According to one aspect of the present invention, it is possible to identify a content classification that is optimal for a predetermined process to be executed, and to execute the predetermined process on the content by a method according to the classification.
以下に、本発明の実施の形態について図面を参照して説明する。 Embodiments of the present invention will be described below with reference to the drawings.
[記録再生装置の構成について]
図1は、本発明を適用した記録再生装置1の構成例を示している。この記録再生装置1は、受信されたデジタルテレビジョン放送の番組を録画し、録画した番組をダイジェスト再生することができる機能を有している。記録再生装置1は、ダイジェスト再生を行うにあたり、チャプタの区切り点を検出するとともに、ダイジェスト再生において再生される映像を選択するための優先度を表すスコアを付与する。
[Configuration of recording / playback apparatus]
FIG. 1 shows a configuration example of a recording / reproducing
そのチャプタ区切り点およびスコアの付与は、後述するように、チャプタ区切り点およびスコア(以下、適宜、チャプタ情報と称する)の検出に適した番組の分類を識別し、識別したその番組の分類に応じた方法で、チャプタ情報を検出する。 As will be described later, the chapter breakpoints and scores are assigned by identifying the program classification suitable for detecting chapter breakpoints and scores (hereinafter referred to as chapter information as appropriate), and according to the identified program classification. Chapter information is detected by the method described above.
データ分離部11には、図示せぬ受信部から供給された、その受信部により受信された、例えばデジタルテレビジョン放送波のデジタルデータが入力される。データ分離部11は、入力されたデジタルデータをEPG(電子番組ガイド)データ、オーディオデータ、ビデオデータに分離する。以下、適宜、オーディオデータとビデオデータをまとめてAVデータと称する。
For example, digital data of a digital television broadcast wave received by the receiving unit supplied from a receiving unit (not shown) is input to the
データ分離部11は、分離したEPGデータを保持部22に供給して保持させ、分離したAVデータを、入力制御部12に供給する。入力制御部12は、受信された放送番組の録画が行われるとき、データ分離部11から供給されたAVデータを、保持部20に供給して保持させる。入力制御部12はまた、データ分離部11から供給されたAVデータを、チャプタ情報検出対象としてデコーダ13に供給する。
The
デコーダ13は、入力制御部12から供給されたチャプタ情報の検出対象としてのAVデータ、または保持部20からチャプタ情報の検出対象として読み出したAVデータを、オーディオデータとビデオデータに分離し、オーディオデータをオーディオ特徴量抽出部14に、ビデオデータをビデオ特徴量抽出部15に、それぞれ供給する。
The
オーディオ特徴量抽出部14は、デコーダ13から供給されたオーディオデータから、音量、周波数スペクトラム、左右チャンネル相関値などを、オーディオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
The audio feature
ビデオ特徴量抽出部15は、デコーダ13から供給されたビデオデータから、色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。なお、特徴量の抽出対象としてフレーム画像が使用される場合、フレームを小領域に分割し、それぞれの領域の特徴量を連結することで、1枚のフレームの特徴量とすることも可能である。特に、色ヒストグラム、色モーメントなど、それ自体では位置や形状の情報を持たない特徴量を使用するときに有効である。
The video feature
特徴ベクトル生成部16は、オーディオ特徴量抽出部14またはビデオ特徴量抽出部15から供給された特徴量の中から、識別部17において、チャプタ情報が付される番組の分類を識別するのに用いる所定の特徴量を選択し、選択した特徴量を要素とするベクトル(以下、特徴ベクトルと称する)を生成する。特徴ベクトル生成部16は、生成した特徴ベクトルを、識別部17に供給する。
The feature
識別部17は、特徴ベクトル生成部16から供給された特徴ベクトルに基づいて、番組の分類(いまの例の場合、チャプタ情報を検出するのに適した番組の分類)を識別する。例えば識別部17は、線形識別器、非線形識別器、またはニューラルネットなどの識別器で構成され、特徴ベクトルを構成する各要素を、学習器(後述する)により設定された識別パラメータに基づいて生成した直線や曲線等で分割した所定の特徴空間に配置し、配置した各要素の分布が属する特徴空間の分割領域に基づいて、番組の分類を識別する。
Based on the feature vector supplied from the feature
識別部17は、識別結果として、番組の分類を示す情報(以下、分類情報と称する)を、チャプタ情報検出部18に供給する。チャプタ情報検出部18は、識別部17から供給された分類情報が示す番組の分類に応じて、チャプタ情報を検出し、保持部19に供給して保持させる。
The
例えばチャプタ情報検出部18は、オーティオ特徴量抽出部14またはビデオ特徴量抽出部15から供給される特徴量の中から、番組の分類に応じた特徴量を選択するとともに、番組の分類に応じた演算処理を実行する。
For example, the chapter
すなわちこの場合、チャプタ情報検出部18は、番組の分類に応じた特徴量の選択および演算を実行するための実行データ(例えば、パラメータやアルゴリズムを含むプログラム)を、番組の分類毎に保持しており、番組の分類に応じた実行データを選択して実行することにより、チャプタ情報を検出する。
That is, in this case, the chapter
再生部21は、保持部20に保持されているAVデータを読み出して、通常の再生やダイジェスト再生を行う。ダイジェスト再生を行う際は、再生部21は、保持部19に保持されているチャプタ情報に基づき、チャプタに付与されたスコアが一定の値以上である映像区間を、保持部20から適宜読み出して再生する。すなわちチャプタ情報に基づいて映像が間引かれて再生される。
The
サッカーの試合を放送する番組では、図2に示すように、通常、グランドの映像を含むシーンが多く放送されるので、サッカーの試合を放送する番組からは、例えば緑色の頻度が高い色ヒストグラムが多く(例えば、連続して)得られる。 In a program that broadcasts a soccer game, as shown in FIG. 2, many scenes including a video of the ground are normally broadcasted. Therefore, from a program that broadcasts a soccer game, for example, a color histogram with a high green frequency is displayed. Many (eg continuously) are obtained.
そこで詳細は後述する学習器が行う学習においては、図2に示すようなグランドの映像を含むシーンから構成されるサッカーの試合を放送する番組を、分類が「サッカー番組」の教師データとし、その教師データから得られるフレーム毎の色ヒストグラムの特徴ベクトルが抽出される。 Therefore, in learning performed by a learning device, which will be described in detail later, a program that broadcasts a soccer game composed of a scene including a ground image as shown in FIG. 2 is set as teacher data whose classification is “soccer program”. A feature vector of the color histogram for each frame obtained from the teacher data is extracted.
そして、学習器は、分類が「サッカー番組」であると識別することができるような識別パラメータを生成する。すなわち、例えば色ヒストグラムから得られた緑色の頻度の特徴空間上の分布が、「サッカー番組」の領域内となるように特徴空間を分割する直線等を生成するための識別パラメータを生成する。そのように設定された識別パラメータが、識別部17に設定されている。
Then, the learning device generates an identification parameter capable of identifying that the classification is “soccer program”. That is, for example, an identification parameter is generated for generating a straight line or the like that divides the feature space so that the distribution of the green frequency obtained from the color histogram in the feature space is within the region of “soccer program”. The identification parameter set in such a manner is set in the
また、事件や出来事を報道する番組は、図3に示すように、人物とスタジオの映像を含むシーンが多く放送されるので、事件や出来事を報道する番組からは、人物とスタジオの特有の色の頻度が高い色ヒストグラムが多く得られる。 In addition, as shown in Fig. 3, programs that report incidents and events broadcast many scenes that include images of people and studios. A large number of color histograms with high frequency are obtained.
そこで詳細は後述する学習器が行う学習においては、図3に示すような人物とスタジオの映像を含むシーンから構成される事件や出来事を報道する番組を、分類が「ニュース番組」の教師データとし、その教師データから得られるフレーム毎の色ヒストグラムの特徴ベクトルが抽出される。 Therefore, in learning performed by a learning device, which will be described in detail later, a program that reports an incident or event composed of a scene including a person and a studio video as shown in FIG. Then, the feature vector of the color histogram for each frame obtained from the teacher data is extracted.
そして学習器は、分類が「ニュース番組」であると識別することができるような識別パラメータを生成する。すなわち、例えば特定の色の頻度の特徴空間上の分布が、「ニュース番組」の領域内となるように特徴空間を分割する直線等を生成するための識別パラメータを生成する。そのように設定された識別パラメータが、識別部17に設定されている。
Then, the learning device generates an identification parameter capable of identifying that the classification is “news program”. That is, for example, an identification parameter for generating a straight line or the like that divides the feature space so that the distribution of the frequency of a specific color on the feature space is within the area of the “news program” is generated. The identification parameter set in such a manner is set in the
図1の説明に戻り制御部41は、記録再生装置1全体を制御し、番組録画、通常再生、ダイジェスト再生等の処理を実行させる。
Returning to the description of FIG. 1, the control unit 41 controls the entire recording / reproducing
[学習器の構成について]
図4は、本発明を適用した学習器の一実施の形態の構成を示す図である。図4に示した学習器100は、入力制御部111、デコーダ112、フレーム抽出部113、ビデオ特徴量抽出部114、リファレンスデータ記憶部115、距離算出部116、最小距離保持部117、学習アルゴリズム処理部118、識別パラメータ保持部119、ドライブ120、通信部121を含む構成とされている。
[About the configuration of the learning device]
FIG. 4 is a diagram showing a configuration of an embodiment of a learning device to which the present invention is applied. The
入力制御部111は、外部から入力されるビデオデータの入力を制御する。ここでは、ビデオデータが入力され、そのビデオデータから識別パラメータが生成される例を挙げて説明をする。そのため、学習器100にはビデオデータが入力されるとして説明を続ける。また、図4に示した学習器100の構成も、ビデオストリームを処理する構成を示している。しかしながら、例えば、オーディオデータが学習器100に入力され、そのオーディオデータから識別パラメータが生成されるようにしてもよい。そのようにした場合、学習器100は、オーディオデータの入力を制御し、オーディオデータから識別パラメータを生成する構成とされる。
The
デコーダ112は、入力制御部111により入力が制御されたビデオデータをデコード(Decode)する。ビデオデータが何らかの符号化されている場合、その符号化に対応する復号が、デコード112において実行される。デコードされたビデオデータは、フレーム抽出部113に供給される。
The
フレーム抽出部113は、デコードされたビデオデータから、所定の条件に基づいて、フレームを抽出する。デコードされたビデオデータの全てのフレームを処理対処としても良いが、そのようにすると、処理負担の増大や、処理時間の増大につながるため、処理負担、処理時間の軽減をはかるために、ここでは、所定の条件に基づいて、所定枚数のフレームが処理対象として抽出されるとして説明を続ける。なお、所定の条件などについては、図5のフローチャートを参照した説明で明らかにする。
The
フレーム抽出部113により抽出されたフレームは処理対象のフレームとして、ビデオ特徴量抽出部114に供給される。ビデオ特徴量抽出部114は、供給されたフレームから特徴量を抽出する。
The frame extracted by the
デコーダ112は、記録再生装置1のデコーダ13(図1)と同様の処理を実行し、ビデオ特徴量抽出部114は、記録再生装置1のビデオ特徴量抽出部15(図1)と同様の処理を実行する。よって、ビデオ特徴量抽出部15が、上記したようにフレームから色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出する場合、ビデオ特徴量抽出部114も、フレームから色ヒストグラム、差分画像、縮小画像などを、ビデオの特徴量として抽出する。
The
ビデオ特徴量抽出部114からのビデオ特徴量は、リファレンスデータ記憶部115または距離算出部116に供給される。ビデオ特徴量が、リファレンスデータとして用いられる場合、リファレンスデータ記憶部115に供給され、記憶される。一方、ビデオ特徴量が、教師データとしてのビデオデータから抽出され、リファレンスデータとの比較対象とされるデータである場合、距離算出部116に供給される。
The video feature amount from the video feature
リファレンスデータ記憶部115は、リファレンスデータを記憶する。このリファレンスデータ記憶部115は、識別パラメータを生成するために、予め比較対象とされるデータとして記憶されているデータである。
The reference
リファレンスデータ記憶部115に記憶されるリファレンスデータは、入力制御部111により入力が制御されたビデオデータから作成されたデータでも良いし、予め他の装置などで作成されたデータであっても良い。他の装置で作成されたデータである場合、例えば、リムーバブルディスク141に記憶されて配布されるようにしても良い。そのような場合、ドライブ120に、そのリムーバブルディスク141がセットされ、そのセットされたリムーバブルディスク141から読み出されることで、リファレンスデータ記憶部115にリファレンスデータが供給され、記憶される。
The reference data stored in the reference
また、ネットワークを介してリファレンスデータが配信されるようにしても良い。ネットワークを介してリファレンスデータが配信される場合、通信部121により、配信されたリファレンスデータが受信され、その受信されたリファレンスデータが、リファレンスデータ記憶部115に供給されることで、記憶される。
Further, reference data may be distributed via a network. When the reference data is distributed via the network, the distributed reference data is received by the
このように、リファレンスデータは、学習器100で生成され、記憶されるようにしても良いし、リムーバブルディスク141などの記録媒体を介して、供給され、記憶されるようにしても良いし、ネットワークを介して供給され、記憶されるようにしても良い。
In this way, the reference data may be generated and stored by the
なお、学習器100は、記録再生装置1に備えることも可能である。学習器100が記録再生装置1に備えられ、学習器100自体でリファレンスデータを生成するように構成された場合、記録再生装置1に入力されたビデオデータからリファレンスデータを生成することができる。また、ネットワークを介して配信されるように構成した場合や、記録媒体を用いて配信されるように構成した場合、リファレンスデータを更新することが容易にできるようなる。
The
図4に示した学習器100の説明に戻り、距離算出部116は、リファレンスデータ記憶部115に記憶されているリファレンスデータと、ビデオ特徴量抽出部114からの処理対象とされているフレームとの距離を算出する。ここでは、リファレンスデータとしての特徴量と、フレームから抽出された特徴量とが用いられて距離が算出される。
Returning to the description of the
距離算出部116で算出された距離(距離のデータ)は、最小距離保持部117に供給される。最小距離保持部117は、処理対象とされた複数のフレームのうち、リファレンスデータとの距離が最小の距離であったフレームとの距離を保持する。例えば、リファレンスデータが、30フレーム分の特徴量から構成されている場合、それぞれのフレームとの最小距離が、最小距離保持部117に保持されるため、30個の最小距離が保持される。このようにして保持された、例えば、30個の最小距離が、特徴ベクトルとして、学習アルゴリズム処理部118に供給される。
The distance (distance data) calculated by the distance calculation unit 116 is supplied to the minimum
学習アルゴリズム処理部118は、所定のアルゴリズムに基づき、供給された特徴量ベクトルを用いて、識別パラメータを生成する。この生成された識別パラメータは、識別パラメータ保持部119に供給され、保持される。
The learning
識別パラメータ保持部119に保持された識別パラメータは、記録再生装置1の識別部17(図1)に供給され、保持される。例えば、ドライブ120に、リムーバブルディスク141がセットされ、そのセットされたリムーバブルディスク141に、識別パラメータ保持部119に保持されている識別パラメータが書き込まれる。そして、その識別パラメータが書き込まれたリムーバブルディスク141が、記録再生装置1にセットされることにより、識別パラメータが、識別部17に供給される。
The identification parameter held in the identification
また、ネットワークを介して識別パラメータが配信されるようにしても良い。この場合、識別パラメータ保持部119に保持されている識別パラメータが、通信部121に読み出され、通信部121の制御の基、記録再生装置1の識別部17に供給される。
Further, the identification parameter may be distributed via a network. In this case, the identification parameter held in the identification
このような構成を有する学習器100の学習について、以下に説明する。
Learning of the
[リファレンスデータの取得について]
まず、リファレンスデータ記憶部115に記憶されるリファレンスデータの取得に関する処理について説明する。リファレンスデータは、識別パラメータを生成する前の時点で、リファレンスデータ記憶部115に記憶されている必要がある。そこで、識別パラメータの生成に関する説明の前に、図5のフローチャートを参照し、学習器100でリファレンスデータを作成するときの処理について説明する。
[About obtaining reference data]
First, processing related to acquisition of reference data stored in the reference
ステップS101において、入力制御部111は、ビデオストリームを取得する。この取得されるビデオストリームは、カテゴリが予めわかっている番組のビデオストリームである。カテゴリとは、例えば、“ニュース”とか、“バラエティ”といった、番組が属するジャンルなどであり、分類に関する情報である。分類とは、上記した説明において、識別部17が、“特徴ベクトル生成部16から供給された特徴ベクトルに基づいて番組の分類を識別する”際の“分類”である。
In step S101, the
なお、この分類に関する情報、すなわちカテゴリは、詳細な分類の基、割り振られたカテゴリであることが望ましい。例えば、スポーツというカテゴリも、詳細に分類し、“スポーツ中継”、“スポーツニュース”、“スポーツに関するバラエティ”といったようなカテゴリであることが好ましい。 It should be noted that the information related to this classification, that is, the category, is preferably a category assigned based on a detailed classification. For example, the category of sports is also classified in detail, and is preferably a category such as “sports relay”, “sports news”, “sports variety”.
EPGには、番組に関する情報として、カテゴリに関する情報が記載されているが、その記載されている情報は、例えば、“スポーツ”といった大雑把な情報であることが多い。このような情報に基づいて、例えば、チャプタ情報を検出すると、適切なチャプタ情報を検出できなことがある。換言すれば、“スポーツ中継”の番組と“スポーツニュース”の番組とでは、チャプタ情報を検出するとき、同じアルゴリズムではなく、異なるアルゴリズムで検出した方が、それぞれの番組に適したチャプタ情報を検出できる。 In the EPG, information related to a category is described as information related to a program, and the described information is often rough information such as “sports”. For example, if chapter information is detected based on such information, it may not be possible to detect appropriate chapter information. In other words, when detecting chapter information for a “Sports Broadcast” program and a “Sports News” program, the chapter information that is more suitable for each program is detected if it is detected by a different algorithm rather than the same algorithm. it can.
このようなことを考慮したチャプタ情報が検出できるように、学習器100は学習を行う。よって、入力制御部111に入力されるビデオデータに関するカテゴリも、詳細に分類された結果のカテゴリ(その情報)であることが好ましく、以下の説明においては、そのような情報が入力されるとして説明を続ける。
The
ステップS101において、入力制御部111によりビデオストリームが取得されると、ステップS102において、デコード112は、ビデオデータをデコードし、フレームを生成する。さらに、フレーム抽出部113は、処理対象とするフレームを抽出する。処理対象とするフレームとは、換言すれば、リファレンスデータとして用いるリファレンスフレームである。
In step S101, when a video stream is acquired by the
ビデオデータから生成される全てのフレームを、リファレンスフレームとすると、後述する特徴ベクトル、そしてその特徴ベクトルから生成される識別パラメータを、それぞれ生成する時の処理などの負担が増大してしまう。このようなことを考慮し、カテゴリに含まれる全てのフレームから、所定の規則に基づき、複数のフレームが抽出されるようにする。所定の規則とは、例えば、ランダムに抽出する、所定の間隔(所定の時間間隔、所定のフレームの枚数での間隔)で抽出する、クラスタリング手法に基づき抽出するなどの規則である。 If all the frames generated from the video data are set as reference frames, the burden of processing when generating a feature vector described later and an identification parameter generated from the feature vector will be increased. Considering this, a plurality of frames are extracted from all frames included in the category based on a predetermined rule. The predetermined rule is, for example, a rule such as random extraction, extraction at a predetermined interval (predetermined time interval, predetermined number of frames), or extraction based on a clustering method.
また、クラスタリング手法でリファレンスフレームを抽出する場合、例えば、後述するフレームの特徴ベクトルを用いてクラスタリングを行い、構成要素数の多い順に所定数のクラスタを選択した後、各クラスタの重心に近いフレームを選択するなどの手法が考えられる。また、リファレンスフレームは一度選択されたら、そのフレームが用いられ、変更されないようにすることが好ましい。 In addition, when extracting a reference frame by a clustering method, for example, clustering is performed using a feature vector of a frame, which will be described later, and after selecting a predetermined number of clusters in descending order of the number of components, a frame close to the center of gravity of each cluster A method such as selection is conceivable. Moreover, it is preferable that once a reference frame is selected, that frame is used and not changed.
ステップS102において、フレーム抽出部113より抽出されたフレームは、ビデオ特徴量抽出部114に供給される。ステップS103において、ビデオ特徴量抽出部114は、供給されたフレーム(画像)から特徴量を抽出する。特徴量としては、例えば、色ヒストグラム、色モーメント、差分画像、縮小画像などである。ビデオ特徴量抽出部114により抽出された特徴量は、リファレンスデータ記憶部115に供給される。
In step S102, the frame extracted by the
ステップS104において、リファレンスデータ記憶部115は、ビデオ特徴量抽出部114で抽出された特徴量を、リファレンスデータとして記憶する。
In step S104, the reference
このようにして、1つのカテゴリにつき、複数のフレームからリファレンスデータが抽出される。例えば、1つのカテゴリから、N1枚のフレームが抽出された場合、N1枚分のリファレンスデータ(特徴量)が、リファレンスデータ記憶部115に、そのカテゴリのリファレンスデータとして記憶される。
In this way, reference data is extracted from a plurality of frames for one category. For example, when N1 frames are extracted from one category, N1 pieces of reference data (features) are stored in the reference
複数のカテゴリから、同じように、リファレンスデータが抽出されるため、例えば、M個のカテゴリからリファレンスデータが抽出された場合、M個のカテゴリ分のリファレンスデータが、リファレンスデータ記憶部115に記憶される。
Since reference data is similarly extracted from a plurality of categories, for example, when reference data is extracted from M categories, reference data for M categories is stored in the reference
なお、このリファレンスデータ記憶部115に記憶されるリファレンスデータでは、上記したように、他の装置で生成され、ネットワークを介して供給されたり、記録媒体に記録されて供給されたりしても良い。このような場合も、他の装置では、上記した処理と同様の処理が実行されることで、リファレンスデータが生成される。
Note that the reference data stored in the reference
[識別パラメータの生成について]
このようにして、リファレンスデータ記憶部115にリファレンスデータが記憶されているとき、学習器100は、学習、すなわちこの場合、識別パラメータの作成を行う。図6のフローチャートを参照し、識別パラメータの生成について説明する。
[Generation of identification parameters]
Thus, when the reference data is stored in the reference
ステップS151において、ビデオストリームが取得される。このビデオストリームは、教師データとされ、所定のカテゴリに属し、そのカテゴリは、リファレンスデータの生成時と同じく、細かなカテゴリに分類されている。ビデオストリームが取得されるとき、そのビデオストリームが属するカテゴリの情報も取得される。 In step S151, a video stream is acquired. This video stream is used as teacher data and belongs to a predetermined category, and the category is classified into fine categories as in the case of generating reference data. When a video stream is acquired, information on the category to which the video stream belongs is also acquired.
次に、ステップS152において、フレームが抽出される。デコーダ112は、入力制御部111により入力が制御されたビデオストリームをデコードする。そのデコードされたフレームのうちの所定の枚数のフレームが、フレーム抽出部113により抽出される。
Next, in step S152, a frame is extracted. The
所定のカテゴリに属する番組のビデオストリームの全てが処理対象とされても良い。例えば、60分の番組であるならば、60分ぶんのビデオストリームが処理対象とされても良い。しかしながら、このようにすると、処理対象となるフレーム数が増大し、処理負担の増大、処理時間の増大を招くことになる。 All of the video streams of programs belonging to a predetermined category may be processed. For example, if it is a 60-minute program, a 60-minute video stream may be processed. However, if this is done, the number of frames to be processed increases, leading to an increase in processing load and an increase in processing time.
そこで、所定のカテゴリに属する番組の所定の時間ぶんのビデオストリームが処理対象とされるようにする。例えば、番組の冒頭の10分間ぶんのビデオストリームが処理対象とされる。このようにした場合、入力制御部111は、番組の冒頭の10分間だけ、ビデオストリームが入力されるように制御する。
Therefore, a video stream for a predetermined time of a program belonging to a predetermined category is set as a processing target. For example, a 10-minute video stream at the beginning of a program is a processing target. In such a case, the
次に、その10分間ぶんのビデオストリームに含まれる全てのフレームを処理対象としても良い。しかしながら、上記の場合と同様に、処理負担や処理時間の増大を招くことになるため、所定の枚数のフレームが処理対象とされる。所定の枚数として、M枚のフレームが処理対象とされる場合、フレーム抽出部113は、デコーダ112からのビデオストリームから、M枚のフレームを抽出し、ビデオ特徴量抽出部114に出力する。M枚のフレームは、例えば、所定の時間間隔で抽出、ランダムに抽出、所定のフレームの枚数毎に抽出される。
Next, all the frames included in the 10-minute video stream may be processed. However, as in the above case, the processing load and the processing time are increased, so that a predetermined number of frames are processed. When M frames are processed as the predetermined number, the
フレーム抽出部113において抽出されたフレームは、処理対象のフレームとして、ビデオ特徴量抽出部114に出力される。ステップS153において、ビデオ特徴量抽出部114は、供給されたフレーム(画像)から、所定の特徴量を抽出する。この所定の特徴量は、色ヒストグラム、色モーメント、差分画像、縮小画像などである。また、この所定の特徴量は、リファレンスデータと同じ特徴量とされる。すなわち、例えば、リファレンスデータとしての特徴量が、色ヒストグラムでの特徴量である場合、ステップS153において、ビデオ特徴量抽出部114により抽出される特徴量も、色ヒストグラムでの特徴量とされる。
The frame extracted by the
ステップS154において、リファレンスデータRiが初期値である“1”に設定される。リファレンスデータは、複数のカテゴリ毎に、複数のフレームから抽出された特徴量で構成されている。M個のカテゴリ毎に、例えば、n1枚、n2枚、n3枚、・・・、nn枚のフレームからそれぞれ特徴量が抽出されている場合、(n1+n2+n3+・・・nn)個の特徴量がリファレンスデータとしてリファレンスデータ記憶部115に記憶されている。
In step S154, the reference data Ri is set to “1” which is an initial value. The reference data is composed of feature amounts extracted from a plurality of frames for a plurality of categories. For example, when feature values are extracted from n 1 frames, n 2 frames, n 3 frames,..., N n frames for each of M categories, (n 1 + n 2 + n 3 +. .. n n ) feature quantities are stored in the reference
この(n1+n2+n3+・・・nn)個の特徴量に、順に番号を割り振るとする。すなわち、1乃至(n1+n2+n3+・・・nn)番までの番号が、各特徴量に割り振られる。ステップS154においては、初期設定として、このリファレンスデータを構成する特徴量の1番目の特徴量が、処理対象のリファレンスデータとして設定される。 Assume that numbers are sequentially assigned to the (n 1 + n 2 + n 3 +... N n ) feature quantities. That is, numbers from 1 to (n 1 + n 2 + n 3 +... N n ) are assigned to each feature quantity. In step S154, as the initial setting, the first feature quantity of the feature quantity constituting the reference data is set as the reference data to be processed.
ステップS155において、距離算出部116は、ビデオ特徴量抽出部114から供給された特徴量と、リファレンスデータRiを用いて距離を算出する。すなわち、ビデオ特徴量抽出部114で処理対象とされたフレームと、リファレンスデータRiが抽出されたフレームとの類似度に関する距離が算出される。ここでは、距離が短いほど類似しているとして説明を続ける。
In step S155, the distance calculation unit 116 calculates the distance using the feature amount supplied from the video feature
ステップS155において、距離算出部116により算出された距離は、最小距離保持部117に供給される。最小距離保持部117は、ステップS156において、供給された距離と、保持されている距離を比較し、供給された距離の方が短いか否かを判断する。最小距離保持部117は、リファレンスデータRi毎に、距離を保持している。保持される距離は、処理過程のなかで、一番短いとされた距離である。
In step S <b> 155, the distance calculated by the distance calculation unit 116 is supplied to the minimum
例えば、リファレンスデータRiが“1”のとき(リファレンスデータR1が処理対象とされているとき)、そのリファレンスデータR1に関連付けられている距離と、供給された距離とを比較し、短い距離の方が保持される。よって、ステップS156において、保持されている距離よりも、供給された距離の方が短いか否かが判断され、短いと判断された場合、ステップS157に処理が進められる。 For example, when the reference data Ri is “1” (when the reference data R1 is a processing target), the distance associated with the reference data R1 is compared with the supplied distance, and the shorter distance is calculated. Is retained. Therefore, in step S156, it is determined whether or not the supplied distance is shorter than the held distance. If it is determined that the supplied distance is shorter, the process proceeds to step S157.
ステップS157において、その短いと判断された距離が、その時点で処理対象とされているリファレンスデータRiに関連付けられる。すなわちこの場合、その時点でリファレンスデータRiに関連付けられていた距離が、新たな距離に置き換えられる。置き換えが実行された後、処理は、ステップS158に進められる。 In step S157, the distance determined to be short is associated with the reference data Ri that is to be processed at that time. That is, in this case, the distance associated with the reference data Ri at that time is replaced with a new distance. After the replacement is executed, the process proceeds to step S158.
一方、ステップS156において、保持されている距離よりも、供給された距離の方が長いと判断された場合、ステップS157の処理はスキップされ、ステップS158に処理が進められる。すなわち、その時点で、リファレンスデータRiに関連付けられている距離が、そのまま関連付けられた状態が維持される。 On the other hand, if it is determined in step S156 that the supplied distance is longer than the held distance, the process in step S157 is skipped and the process proceeds to step S158. That is, at that time, the state in which the distance associated with the reference data Ri is directly associated is maintained.
ステップS158において、次のリファレンスデータRiがあるか否かが判断される。例えば、リファレンスデータR1が処理対象とされているときには、リファレンスデータR2があるか否かが判断される。ステップS158において、次のリファレンスデータRiがあると判断された場合、ステップS159に処理が進められる。 In step S158, it is determined whether there is next reference data Ri. For example, when the reference data R1 is a processing target, it is determined whether or not there is reference data R2. If it is determined in step S158 that there is the next reference data Ri, the process proceeds to step S159.
ステップS159において、次のリファレンスデータRiが、新たな処理対象のリファレンスデータRiに設定される。そして、新たに処理対象とされたリファレンスデータRiに対して、ステップS155以下の処理が繰り返される。 In step S159, the next reference data Ri is set as the new reference data Ri to be processed. And the process after step S155 is repeated with respect to the reference data Ri newly made into the process target.
このようにステップS155乃至S159の処理が繰り返されることにより、リファレンスデータ記憶部115に記憶されている全てのリファレンスデータRiと、1枚のフレームから抽出された特徴量との距離が算出される。換言すれば、リファレンスデータRiの基になった複数のフレームと、処理対象とされているビデオストリーム内の1つのフレームとの距離が、それぞれ算出され、最小距離のみが保持される。
As described above, by repeating the processes of steps S155 to S159, the distance between all the reference data Ri stored in the reference
一方、ステップS158において、次のリファレンスデータRiはないと判断された場合、ステップS152に処理が戻され、次のフレームが処理対象とされる。このように、ステップS152乃至S159の処理が繰り返されることにより、処理対象とされているビデオストリームから抽出された所定枚数のフレームと、リファレンスデータRiを抽出する基となったフレームとの距離が、それぞれ算出され、最小の距離の情報だけが保持される。 On the other hand, if it is determined in step S158 that there is no next reference data Ri, the process returns to step S152, and the next frame is set as a processing target. In this way, by repeating the processing of steps S152 to S159, the distance between the predetermined number of frames extracted from the video stream to be processed and the frame from which the reference data Ri is extracted is Each is calculated and only the minimum distance information is retained.
このような最小の距離から構成される特徴量ベクトルから、識別パラメータが生成されるが、その説明は、後述する。ここまでの処理について、再度、図7を参照して説明する。 An identification parameter is generated from a feature vector composed of such minimum distances, and the description thereof will be described later. The processing so far will be described again with reference to FIG.
図7を参照するに、カテゴリ1、カテゴリ2、・・・、カテゴリNが設定されている。これらのカテゴリは、詳細に分類されたカテゴリである。例えば、カテゴリ1は“スポーツニュース”であり、カテゴリ2は“スポーツ中継”であり、カテゴリ3は“スポーツバラエティ”といったように、“スポーツ”というジャンルであっても、さらに、どのような番組であるかを示す詳細なカテゴリとされている。
Referring to FIG. 7,
カテゴリ1には、複数枚のフレームが含まれる。その複数枚のフレームから、n1枚のフレームが抽出される。この処理は、図4のフローチャートを参照して説明したステップS101,S102の処理に対応する。同様に、カテゴリ2にも、複数枚のフレームが含まれ、その複数枚のフレームから、n2枚のフレームが抽出される。さらに同様に、カテゴリnにも、複数枚のフレームが含まれ、その複数枚のフレームから、nn枚のフレームが抽出される。
各カテゴリ1乃至nから抽出されたそれぞれのフレームは、リファレンスフレームとされる。このリファレンスフレームから、特徴量が抽出される。この処理は、上述したステップS103に相当し、リファレンスフレームから特徴量が抽出され、その特徴量がリファレンスデータとされる処理である。
Each frame extracted from each
よって、カテゴリ1から、n1枚のリファレンスフレームが抽出されるので、n1個のリファレンスデータが生成される。同様に、カテゴリ2から、n2枚のリファレンスフレームが抽出されるので、n2個のリファレンスデータが生成される。同様に、カテゴリnから、nn枚のリファレンスフレームが抽出されるので、nn個のリファレンスデータが生成される。よって、最終的には、(n1+n2+・・・+nn)個のリファレンスデータが生成される。
Therefore, from the
このように、リファレンスデータ(図7では、リファレンスフレームと記述し、フレームに見立てた四角形を図示してある)が生成され、リファレンスデータ記憶部115に記憶される。各リファレンスデータには、番号が割り振られる。ここでは、図7に示したように、カテゴリ1から抽出されたリファレンスデータを、リファレンスデータR1、リファレンスデータR2、リファレンスデータR3とする。他のリファレンスデータにも番号が割り振られるが、図7には図示していない。
In this way, reference data (in FIG. 7, described as a reference frame, and a quadrilateral resembling a frame is generated) is generated and stored in the reference
このような状態の時、ビデオストリームV1が取得される。このビデオストリームV1のうちの範囲が限定、例えば、上記したように、番組の先頭の10分間だけ、サンプリングが行われる。その結果、M枚のフレームが抽出される。これらのM枚のフレームのそれぞれから特徴量が抽出される。この処理は、図6のフローチャートにおけるステップS151乃至S153に相当する。 In such a state, the video stream V1 is acquired. The range of the video stream V1 is limited. For example, as described above, sampling is performed only for the first 10 minutes of the program. As a result, M frames are extracted. A feature amount is extracted from each of these M frames. This process corresponds to steps S151 to S153 in the flowchart of FIG.
図7においては、M個のフレームからそれぞれ抽出された特徴量を、特徴量M1、特徴量M2、特徴量M3、・・・、特徴量Mmと記述する。 In FIG. 7, feature amounts extracted from M frames are described as feature amount M1, feature amount M2, feature amount M3,..., Feature amount Mm.
まず、特徴量M1とリファレンスデータR1が用いられ、距離D1が算出される。同様に特徴量M1とリファレンスデータR2が用いられ、距離D2が算出される。さらに同様に、特徴量M1とリファレンスデータR3が用いられ、距離D3が算出される。このようにして、1つの特徴量M1と、全てのリファレンスデータRiとの距離が算出される。よって、この時点で、(n1+n2+・・・+nn)次元の特徴量ベクトルが生成されることになる。この処理は、ステップS154乃至S159の処理に対応する。 First, the feature amount M1 and the reference data R1 are used to calculate the distance D1. Similarly, the feature amount M1 and the reference data R2 are used to calculate the distance D2. Similarly, the distance D3 is calculated using the feature amount M1 and the reference data R3. In this way, the distance between one feature amount M1 and all reference data Ri is calculated. Therefore, at this point, a (n 1 + n 2 +... + N n ) -dimensional feature quantity vector is generated. This process corresponds to the processes of steps S154 to S159.
このようにして、1つの特徴量Mと、全てのリファレンスデータRiとの距離が求められると、次の特徴量Mと、全てのリファレンスデータRiとの距離が求められる。特徴量M1の後は、特徴量M2が処理対象とされ、リファレンスデータRiとの距離が算出される。 Thus, when the distance between one feature value M and all the reference data Ri is obtained, the distance between the next feature value M and all the reference data Ri is obtained. After the feature value M1, the feature value M2 is processed, and the distance from the reference data Ri is calculated.
ステップS156の処理として、特徴量M1とリファレンスデータR1との距離D1と、特徴量M2とリファレンスデータR1との距離D1’が比較される。その結果、距離D1’の方が、距離D1よりも短いと判断された場合、その時点で、リファレンスデータR1に関連付けられていた距離D1が、距離D1’に置き換えられる。また、距離D1’の方が、距離D1よりも長いと判断された場合、その時点で、リファレンスデータR1に関連付けられていた距離D1が、そのままリファレンスデータR1に関連付けられている状態が維持される。このようにして、各リファレンスデータRiには、特徴量M1乃至Mmのうちの、一番短いとされた距離の値が関連付けられる。 In step S156, the distance D1 between the feature quantity M1 and the reference data R1 is compared with the distance D1 'between the feature quantity M2 and the reference data R1. As a result, when it is determined that the distance D1 'is shorter than the distance D1, the distance D1 associated with the reference data R1 at that time is replaced with the distance D1'. Further, when it is determined that the distance D1 ′ is longer than the distance D1, the state where the distance D1 associated with the reference data R1 at that time is directly associated with the reference data R1 is maintained. . In this way, each reference data Ri is associated with the shortest distance value among the feature amounts M1 to Mm.
よって、最終的には、1つのビデオストリームから、(n1+n2+・・・+nn)次元の特徴ベクトルが1つ生成される。このような特徴ベクトルは、処理対象とされたビデオストリームV1の特徴を表すデータである。 Therefore, one (n 1 + n 2 +... + N n ) -dimensional feature vector is finally generated from one video stream. Such a feature vector is data representing the feature of the video stream V1 to be processed.
このような特徴ベクトルが、複数のビデオストリーム毎に生成されることで、最小距離保持部117には、複数のビデオストリームから生成された複数の特徴ベクトルが保持される。換言すれば、複数のカテゴリ毎に、1または複数の特徴ベクトルが保持される。ここで、1または複数としたのは、1つのカテゴリで1つの特徴ベクトルが生成されるようにしても良いし、1つのカテゴリで複数の特徴ベクトルが生成されるようにしても良いからである。
By generating such feature vectors for each of a plurality of video streams, the minimum
このようにして、生成された複数の特徴ベクトルが、最小距離保持部117(図4)に保持されている状態のとき、その特徴ベクトルを用いて、学習アルゴリズム処理部118は識別パラメータを生成する。
When the plurality of feature vectors generated in this way are held in the minimum distance holding unit 117 (FIG. 4), the learning
学習アルゴリズム処理部118は、所定のアルゴリズムに基づいて、また、最小距離保持部117に保持されている特徴ベクトルを用いて、識別パラメータを生成する。所定のアルゴリズムとしては、例えば、最急降下法、サポートベクターマシン、バックプロパゲーションといったアルゴリズムを用いることができる。これらのアルゴリズムに基づき算出された識別パラメータは、カテゴリを識別するパラメータとして識別パラメータ保持部119に保持される。
The learning
学習器100は、このようなモデルの学習処理を行い、学習の結果として識別部17において番組の分類の識別に用いられる識別パラメータ、すなわち例えば特徴空間を分割するための直線や曲線を生成するための識別パラメータを、識別部17に供給して設定する。その設定は、上記したように、ネットワークや記録媒体を介して行われたり、直接的に行われたりする。
The
[分類情報の生成について]
このように、識別パラメータが生成され、記録再生装置1の識別部17に保持されることで、記録再生装置1では、番組のカテゴリを識別することが可能となる。図8のフローチャートを参照し、記録再生装置1(図1)が番組を分類する識別処理について説明する。
[Generation of classification information]
As described above, the identification parameter is generated and held in the
ステップS201において、ビデオストリームが取得される。このビデオストリームは、入力制御部12により入力が制御されたビデオストリームであっても良いし、保存部20に保存されているビデオストリームであっても良い。ステップS202において、取得されたビデオストリームから、フレームが抽出される。入力されたビデオストリームから生成される全てのフレームを処理対象とする場合、フレームを抽出するといった処理を省略することが可能である。図1に示した記録再生装置1は、フレームを抽出する部分(フレーム抽出部)は図示していない。
In step S201, a video stream is acquired. This video stream may be a video stream whose input is controlled by the
しかしながら、所定のフレームが抽出され、処理対象とされる場合、例えば、デコーダ13とビデオ特徴量抽出部15との間に、フレーム抽出部が設けられ、そのフレーム抽出部によりフレームが抽出されるような構成とされる。図示はしていないが、ここでは、フレームが抽出されるとして説明を続ける。またここでは、ビデオ特徴量抽出部15が、デコーダ13から供給されるフレームを選択することで、フレームの抽出が行われるとする。
However, when a predetermined frame is extracted and processed, for example, a frame extraction unit is provided between the
また、フレームの抽出は、学習器100のフレーム抽出部113(図4)で行われる処理、換言すれば、ステップS102(図5)や、ステップS152(図6)で行われる処理と同様に行われる。すなわち、番組の冒頭の10分間分のフレームが処理対象とされたり、所定の時間間隔で抽出されたフレームが処理対象とされたりするなどである。
The frame extraction is performed in the same manner as the processing performed by the frame extraction unit 113 (FIG. 4) of the
ステップS202において、フレームが抽出されると、そのフレームが処理対象とされ、ステップS203に処理が進められる。ステップS203において、ビデオ特徴量抽出部15は、処理対象とされたフレームから特徴量を抽出する。この処理は、学習器100のビデオ特徴量抽出部114と同じく行われる。すなわち、フレームから、色ヒストグラム、色モーメント、差分画像、縮小画像などのビデオ特徴量が抽出される。
When a frame is extracted in step S202, the frame is set as a processing target, and the process proceeds to step S203. In step S203, the video feature
ステップS204において、特徴ベクトル生成部16により特徴ベクトルが生成される。特徴ベクトル生成部16は、ビデオ特徴量抽出部15から供給された特徴量の中から、識別部17において、チャプタ情報が付される番組の分類を識別するのに用いる所定の特徴量を選択し、選択した特徴量を要素とするベクトル(特徴ベクトル)を生成する。特徴ベクトル生成部16は、生成した特徴ベクトルを、識別部17に供給する。
In step S204, the feature
ステップS205において、識別部17は、カテゴリを識別する。識別部17は、特徴ベクトル生成部16から供給された特徴ベクトルと、保持されている識別パターンを用いて、入力されたビデオストリームの番組が属するカテゴリを識別する。例えば識別部17は、線形識別器、非線形識別器、またはニューラルネットなどの識別器で構成され、特徴ベクトルを構成する各要素を、学習器100により設定された識別パラメータに基づいて生成した直線や曲線等で分割した所定の特徴空間に配置し、配置した各要素の分布が属する特徴空間の分割領域に基づいて、番組のカテゴリを識別する。
In step S205, the
この識別されるカテゴリは、学習器100における学習で細かく分類されたカテゴリである。そして、そのように細かく分類されたカテゴリに基づいて生成された識別パラメータを用いて識別が行われるため、その識別結果も、細かいカテゴリでの結果とすることが可能となる。
This identified category is a category finely classified by learning in the
ステップS206において、識別結果としてのカテゴリが、分類情報として、チャプタ情報検出部18に対して出力される。
In step S206, the category as the identification result is output to the chapter
このようにして、チャプタ情報検出部18に、番組が属する細かく分類されたカテゴリに関する分類情報が供給されることで、以下に説明するような、詳細なチャプタ情報の検出が可能となる。すなわち、番組にもっとも適したチャプタ情報の検出を番組毎に行うことが可能となる。
In this way, the chapter
[チャプタ情報の検出について]
図9乃至図11を参照し、チャプタ情報の検出について説明する。図9に示すような、サッカーの試合を中継して放送する番組からチャプタ情報を検出する場合について説明する。図9の上段には、サッカーの試合を放送する番組を構成する映像が示され、図9の下段には、その映像と同時に出力される音声の音量が示されている。
[Detection of chapter information]
The detection of chapter information will be described with reference to FIGS. A case will be described in which chapter information is detected from a program broadcasted by broadcasting a soccer game as shown in FIG. The upper part of FIG. 9 shows a video that constitutes a program that broadcasts a soccer game, and the lower part of FIG. 9 shows the volume of audio that is output simultaneously with the video.
いまの場合、オーディオ特徴量抽出部14は、デコーダ13から供給された図9に示すように音量が変動する音声のオーディオデータから、音量、周波数スペクトラム、左右チャンネル相関値などを、オーディオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
In this case, the audio feature
ビデオ特徴量抽出部15は、デコーダ13から供給された図9に示す映像のビデオデータから、色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
The video feature
特徴ベクトル生成部16は、いまの例の場合、オーディオ特徴量抽出部14またはビデオ特徴量抽出部15から供給された特徴量のうち、ビデオ特徴量抽出部15から供給された色ヒストグラムを用いて、特徴ベクトルを生成し、識別部17に供給する。
In the present example, the feature
図9に示した映像からは、図2を参照して上述したように、例えば緑色の頻度が高い色ヒストグラムを多く含む特徴ベクトルが生成され、識別部17に供給される。識別部17は、緑色の頻度が高い色ヒストグラムを多く含む特徴ベクトルが特徴ベクトル生成部16から供給されると、上述したように、そのような特徴ベクトルからは、番組の分類が「サッカー番組」であることを識別できるように学習している(識別パラメータが取得されている)ので、番組の分類が「サッカー番組」であると識別し、その識別結果として、分類が「サッカー番組」であることを示す分類情報を、チャプタ情報検出部18に供給する。
From the video shown in FIG. 9, as described above with reference to FIG. 2, for example, a feature vector including many color histograms having a high green frequency is generated and supplied to the
サッカーの試合を放送する番組は、キックオフのとき、ゴールチャンスがあったとき、またはゴールがあったとき等の盛り上がっているシーン(図9の例では、図中、上向きの矢印が付されている映像F42,F51,F53)で音量が高くなる特徴がある。 A program that broadcasts a soccer game is a lively scene such as a kickoff, a goal chance, or a goal (in the example of FIG. 9, an upward arrow is attached in the figure) The image F42, F51, F53) has a feature that the volume is increased.
すなわちこの盛り上がっているシーンが、ユーザが興味を有する点であるので、ダイジェスト再生においてはこのシーンが再生されることが望ましい。そこで識別部17から番組の分類が「サッカー番組」であることを示す分類情報が供給された場合、チャプタ情報検出部18は、オーディオ特徴量抽出部14およびビデオ特徴量抽出部15から供給された特徴量の中から色ヒストグラム、差分画像、音量を選択し、それらを用いて、映像の連続性がない位置(例えば、フレーム)(以下、カット点と称する)を検出するとともに、カット点の検出結果と音量の変化を基にチャプタ区切り点を決定し、音量に基づく盛り上がりの度合いをチャプタのスコアとする演算を行う。チャプタ情報検出部18は、その演算の結果検出したチャプタ情報を、保持部19に供給して保持させる。
That is, since this exciting scene is a point that the user is interested in, it is desirable that this scene is reproduced in the digest reproduction. Therefore, when the classification information indicating that the classification of the program is “soccer program” is supplied from the
このように番組の分類が「サッカー番組」であると識別された場合、盛り上がりに基づいたチャプタ情報が検出されると、ダイジェスト再生において、キックオフのとき、ゴールチャンスがあったとき、またはゴールがあったとき等の盛り上がっているシーンの映像F42,F51,F53等が、ダイジェスト再生される。 As described above, when the program classification is identified as “soccer program”, when chapter information based on the excitement is detected, in digest playback, at the time of kick-off, when there is a goal chance, or there is a goal. The images F42, F51, F53, etc. of the scene that is rising when the video is played are digest-reproduced.
次に、図10に示すような、事件や出来事を報道する番組からチャプタ情報を検出する場合について説明する。オーディオ特徴量抽出部14は、デコーダ13から供給されたオーディオデータから、音量、周波数スペクトラム、左右チャンネル相関値などを、オーディオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
Next, a case where chapter information is detected from a program reporting an incident or event as shown in FIG. 10 will be described. The audio feature
ビデオ特徴量抽出部15は、デコーダ13から供給された図10に示す映像のビデオデータから、色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
The video feature
特徴ベクトル生成部16は、いまの例の場合、オーディオ特徴量抽出部14またはビデオ特徴量抽出部15から供給された特徴量のうち、ビデオ特徴量抽出部15から供給された色ヒストグラムを用いて、特徴ベクトルを生成し、識別部17に供給する。
In the present example, the feature
図10に示した映像からは、図3を参照して上述したように、人物とスタジオの特有の色の頻度が高い色ヒストグラムを多く含む特徴ベクトルが生成されて、識別部17に供給される。識別部17は、人物とスタジオの特有の色の頻度が高い色ヒストグラムを多く含む特徴ベクトルが特徴ベクトル生成部16から供給されると、上述したように、そのような特徴ベクトルからは、番組の分類が「ニュース番組」であることを識別できるように学習しているので、番組の分類が「ニュース番組」であると識別し、その識別結果として、分類が「ニュース番組」であることを示す分類情報を、チャプタ情報検出部18に供給する。
From the video shown in FIG. 10, as described above with reference to FIG. 3, a feature vector including a large number of color histograms with high frequency of specific colors of people and studios is generated and supplied to the
事件や出来事を報道する番組は、報道の内容を説明するアナウンサーの映像と事件等に応じた映像が順次切り替わる(図10の例では、図中、上向きの矢印が付されている映像F61,F63,F71,F72で切り替わっている)特徴がある。 In a program reporting an incident or an event, an announcer's video explaining the content of the report and a video corresponding to the event are sequentially switched (in the example of FIG. 10, video F61, F63 with an upward arrow in the figure). , F71, F72).
視聴者にとっては報道の内容を説明するアナウンサーの映像を視聴すればニュースの概要を把握することができるので、ダイジェスト再生においてはこのシーンが再生されることが望ましい。そこで識別部17から番組の分類が「ニュース番組」であることを示す分類情報が供給された場合、チャプタ情報検出部18は、オーディオ特徴量抽出部14およびビデオ特徴量抽出部15から供給された特徴量の中から色ヒストグラムと差分画像を選択し、それらを用いて、カット点を検出するとともに、色ヒストグラムの類似性から報道の内容を説明するアナウンサーの映像と報道に応じた映像が切り替わる位置を検出してチャプタ区切り点とし、アナウンサーの映像に高いスコアを与えるような演算を実行する。チャプタ情報検出部18は、その演算の結果検出したチャプタ情報を、保持部19に供給して保持させる。
Since the viewer can grasp the outline of the news by viewing the video of the announcer explaining the contents of the report, it is desirable that this scene is reproduced in the digest reproduction. Therefore, when the classification information indicating that the classification of the program is “news program” is supplied from the
このように番組が「ニュース番組」であると識別された場合、カット点と色ヒストグラムの類似性に基づいたチャプタ情報が検出されると、ダイジェスト再生において、報道の内容を説明するアナウンサーの映像F61、F62、F71が、ダイジェスト再生される。 In this way, when the program is identified as a “news program”, when chapter information based on the similarity between the cut point and the color histogram is detected, the video F61 of the announcer explaining the contents of the report in digest playback. , F62, and F71 are digest-reproduced.
次に、図11に示すような、サッカーの試合結果(いわゆるダイジェスト)を紹介する番組からチャプタ情報を検出する場合について説明する。オーディオ特徴量抽出部14は、デコーダ13から供給されたオーディオデータから、音量、周波数スペクトラム、左右チャンネル相関値などを、オーディオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
Next, a case where chapter information is detected from a program introducing a soccer game result (so-called digest) as shown in FIG. 11 will be described. The audio feature
ビデオ特徴量抽出部15は、デコーダ13から供給された図11に示す映像のビデオデータから、色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
The video feature
特徴ベクトル生成部16は、いまの例の場合、オーディオ特徴量抽出部14またはビデオ特徴量抽出部15から供給された特徴量のうち、ビデオ特徴量抽出部15から供給された色ヒストグラムを用いて、特徴ベクトルを生成し、識別部17に供給する。
In the present example, the feature
図11に示した映像からは、人物とスタジオの特有の色の頻度が高い色ヒストグラムと、緑色の頻度が高い色ヒストグラムが混在して生成されて、識別部17に供給される。識別部17は、人物とスタジオの特有の色の頻度が高い色ヒストグラムと緑色の頻度が高い色ヒストグラムが混在する特徴ベクトルが特徴ベクトル生成部16から供給されると、上述したように、そのような特徴ベクトルからは、番組の分類が「サッカーダイジェスト番組」であることを識別できるように学習しているので、番組の分類が「サッカーダイジェスト番組」であると識別し、その識別結果として、分類が「サッカーダイジェスト番組」であることを示す分類情報を、チャプタ情報検出部18に供給する。
From the video shown in FIG. 11, a color histogram with a high frequency of colors specific to the person and the studio and a color histogram with a high frequency of green are mixedly generated and supplied to the
識別部17から番組の分類が「サッカーダイジェスト番組」であることを示す分類情報が供給されると、チャプタ情報検出部18は、図10の例の場合と同様に、オーディオ特徴量抽出部14およびビデオ特徴量抽出部15から供給された特徴量の中から色ヒストグラムと差分画像を選択し、それらを用いて、カット点と色ヒストグラムの類似性に基づくチャプタ区切り点と、試合中の映像に高いスコアを与えるような演算を実行する。チャプタ情報検出部18は、その演算の結果検出したチャプタ情報を、保持部19に供給して保持させる。
When classification information indicating that the classification of the program is “soccer digest program” is supplied from the
サッカーの試合結果(いわゆるダイジェスト)を紹介する番組は、試合結果の内容を説明するアナウンサーの映像と試合の映像が順次切り替わる(図11の例では、図中、上向きの矢印が付されている映像F81,F82,F91,F92で切り替わっている)特徴がある。 In the program introducing soccer game results (so-called digest), the video of the announcer explaining the content of the game results and the video of the game are sequentially switched (in the example of FIG. 11, the video with an upward arrow in the figure) F81, F82, F91, and F92).
サッカーの試合結果を紹介する番組においては、アナウンサーの映像よりも試合の映像の方が視聴者にとっては重要である。従って、ダイジェスト再生においては試合の映像が優先的に再生されることが望ましい。 In a program introducing soccer game results, the video of the game is more important for the viewer than the video of the announcer. Therefore, it is desirable that the video of the game is preferentially reproduced in the digest reproduction.
このように番組が「サッカーダイジェスト番組」であると識別された場合、カット点と色ヒストグラムの類似性に基づいたチャプタ情報が検出されると、サッカーの試合結果を紹介する番組に対して最適なダイジェスト再生を行うことができる。図11の例の場合、試合シーンの映像F83,F92等が、ダイジェスト再生される。 In this way, when the program is identified as a “soccer digest program” and the chapter information based on the similarity between the cut points and the color histogram is detected, it is optimal for the program introducing the soccer game result. Digest playback can be performed. In the case of the example of FIG. 11, the game scene videos F83, F92, etc. are digest-reproduced.
例えば図11に示す番組に対して、EPGでの分類に応じて、図9の例の場合のように盛り上がり点をチャプタ情報として検出すると、ダイジェスト再生において適切な映像を再生することができない。 For example, for the program shown in FIG. 11, if a climax point is detected as chapter information as in the case of the example of FIG. 9 according to the EPG classification, an appropriate video cannot be reproduced in digest reproduction.
以上のようにして、ダイジェスト再生で利用されるチャプタ情報の検出に適した番組の分類識別が行われ、その分類に基づいてチャプタ情報が検出される。 As described above, program classification suitable for detection of chapter information used in digest reproduction is performed, and chapter information is detected based on the classification.
なお以上においては、放送番組をダイジェスト再生する場合に利用されるチャプタ情報検出を例として説明したが、他のコンテンツをダイジェスト再生する場合のチャプタ情報検出についても同様に適用することができる。例えばカムコーダで撮ったパーソナルコンテンツについても適用することができる。なおパーソナルコンテンツの分類用の学習が必要となるが、図1に示した記録再生装置1に学習器100が内蔵される構成とすることで、その学習を容易に行えるようになる。
In the above description, the chapter information detection used for digest playback of a broadcast program has been described as an example. However, the same can be applied to chapter information detection for digest playback of other content. For example, the present invention can also be applied to personal contents taken with a camcorder. Although learning for personal content classification is required, the
また以上においては、ダイジェスト再生で利用されるチャプタ情報の検出に適した番組の分類を識別する場合を例として説明したが、他の処理に適した分類が識別されるようにすることもできる。 In the above description, the case of identifying a program category suitable for detecting chapter information used in digest playback has been described as an example. However, a category suitable for other processing may be identified.
また以上においては、分類識別処理が実行されるタイミングについては言及しなかったが、番組を録画とすると同時に行うことができる。すなわち入力制御部12は、AVデータを保持部20に供給して記憶させるとともに(すなわち録画させるとともに)、デコーダ13に供給する。
In the above description, the timing at which the classification identification process is executed is not mentioned, but it can be performed simultaneously with recording a program. That is, the
デコーダ13乃至識別部17は、入力制御部12から供給されたAVデータに基づいて、上述したように分類識別処理を実行する。なおこの際、チャプタ情報検出部18は、動作せず、オーディオ特徴量抽出部14およびビデオ特徴量抽出部15から供給された特徴量は、例えばチャプタ情報検出部18に保持されるようにすることもできるし、破棄されるようにすることもできる。
Based on the AV data supplied from the
なおチャプタ情報検出は、番組の録画が完了し、番組の分類が識別された後、保持部20に保持されたAVデータがデコーダ13によって読み出され、オーディオ特徴量抽出部14およびビデオ特徴量抽出部15によって各特徴量が抽出され、チャプタ情報検出部18において、抽出された特徴量から先に識別された番組の分類に応じた特徴量が選択されて、チャプタ情報が検出される。
In the chapter information detection, after the recording of the program is completed and the classification of the program is identified, the AV data held in the holding
また分類識別に必要な特徴ベクトルの特徴量を、番組全体に渡って抽出することもできるし、例えば番組の先頭の所定の時間(例えば、10分間)の部分から抽出することもできる。番組全体に渡って特徴量を抽出する場合には、上述したように番組の録画が完了した後、分類識別が行われるが、番組の一部から特徴量を抽出する場合、オーディオ特徴量抽出部14およびビデオ特徴量抽出部15のそれぞれと、チャプタ情報検出部18の間にバッファを設け、特徴ベクトルが生成されて分類が識別されるまでの特徴量をバッファしておけば、分類が識別された後に、直ちにチャプタ情報検出を開始することができる。
Further, the feature amount of the feature vector necessary for classification and identification can be extracted over the entire program, or can be extracted from, for example, a predetermined time (for example, 10 minutes) portion at the beginning of the program. When extracting feature values over the entire program, classification is performed after the recording of the program is completed as described above. When extracting feature values from a part of the program, an audio feature
また以上においては、番組の分類が「ニュース番組」または「サッカー番組」である場合を例として説明したが、「音楽番組」など、他の分類に識別することができるようにすることができる。 In the above description, the case where the program category is “news program” or “soccer program” has been described as an example. However, the program category can be classified into other categories such as “music program”.
また分類は、いわゆるジャンルに相当するものに限らず、他のものであってもよい。歌や演奏を放送する番組には、以下に示すようなタイプがあるが、それらを分類として識別することができれば、ダイジェスト再生におけるチャプタ情報検出をさらに適切に行うことができる。
・司会者と出演者との会話などよりも、実際の歌や演奏の時間が長いタイプ
・司会者と出演者との会話などが長いタイプ
・ホールなどの収録であって、観客の声援や拍手が入るタイプ
The classification is not limited to what corresponds to a so-called genre, and may be other types. There are the following types of programs that broadcast songs and performances, but if they can be identified as classifications, chapter information detection in digest playback can be performed more appropriately.
・ The type of actual song and performance time is longer than the conversation between the moderator and the performer ・ The type of conversation between the moderator and the performer is long ・ The recording of the hall etc., and the cheering and applause of the audience Type that contains
また以上においては、分類識別にあたり、EPGデータを利用しなかったが、保持部22に保持されたEPG情報をさらに利用して番組の分類識別の精度を向上させることもできる。
In the above description, EPG data is not used for classification identification. However, the EPG information held in the holding
図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。 FIG. 12 is a block diagram illustrating a hardware configuration example of a computer that executes the above-described series of processing by a program.
コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
In a computer, a central processing unit (CPU) 201, a read only memory (ROM) 202, and a random access memory (RAM) 203 are connected to each other by a
バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207、ハードディスクや不揮発性のメモリなどよりなる記憶部208、ネットワークインタフェースなどよりなる通信部209、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどのリムーバブルメディア211を駆動するドライブ210が接続されている。
An input /
以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205およびバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
In the computer configured as described above, the
コンピュータ(CPU201)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
The program executed by the computer (CPU 201) is, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.), a magneto-optical disk, or a semiconductor. The program is recorded on a
そして、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、予めインストールしておくことができる。
The program can be installed in the
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。 The program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
1 記録再生装置, 11 データ分離部, 12 入力制御部, 13 デコーダ,
14 オーディオ特徴量抽出部, 15 ビデオ特徴量抽出部, 16 特徴ベクトル
生成部, 17 識別部, 18 チャプタ情報検出部, 19 保持部, 20 保持部, 21 再生部, 22 保持部, 41 制御部, 100 学習器, 111 入力制御部, 112 デコーダ, 113 フレーム抽出部, 114 ビデオ特徴量抽出部, 115 リファレンスデータ記憶部, 116 距離算出部, 117 最小距離保持部, 118 学習アルゴリズム処理部, 119 識別パラメータ保持部, 120 ドライブ, 121 通信部
1 recording / reproducing apparatus, 11 data separation unit, 12 input control unit, 13 decoder,
14 audio feature quantity extraction units, 15 video feature quantity extraction units, 16 feature vector generation units, 17 identification units, 18 chapter information detection units, 19 holding units, 20 holding units, 21 playback units, 22 holding units, 41 control units, 100 learning unit, 111 input control unit, 112 decoder, 113 frame extraction unit, 114 video feature amount extraction unit, 115 reference data storage unit, 116 distance calculation unit, 117 minimum distance holding unit, 118 learning algorithm processing unit, 119 identification parameter Holding unit, 120 drive, 121 communication unit
Claims (6)
第2のコンテンツから所定枚数のフレームを抽出し、フレーム毎に第2の特徴量を抽出する抽出手段と、
前記複数次元のベクトルを構成する複数の前記第1の特徴量のそれぞれと、前記第2のコンテンツから抽出された所定の枚数のフレームのうち、処理対象とされたフレームから抽出された前記第2の特徴量との距離を算出する算出手段と、
前記算出手段により前記第2の特徴量毎に算出された距離のうち、最小の距離だけを保持し、その最小の距離から構成される特徴ベクトルを生成するベクトル生成手段と、
前記生成手段により生成された前記特徴ベクトルを用いて所定のアルゴリズムに基づく処理を行い、コンテンツを分類するためのパラメータを生成するパラメータ生成手段と
を備える情報処理装置。 A predetermined number of frames are extracted from the plurality of first contents, a feature quantity is extracted from each of the extracted frames, and a multi-dimensional vector composed of the extracted first feature quantities is stored. Storage means;
Extracting means for extracting a predetermined number of frames from the second content and extracting a second feature amount for each frame;
Of each of the plurality of first feature amounts constituting the multi-dimensional vector and a predetermined number of frames extracted from the second content, the second extracted from a frame to be processed. Calculating means for calculating a distance from the feature amount of
Vector generation means for holding only the minimum distance among the distances calculated for each of the second feature amounts by the calculation means, and generating a feature vector composed of the minimum distance;
An information processing apparatus comprising: parameter generation means that performs processing based on a predetermined algorithm using the feature vector generated by the generation means, and generates parameters for classifying content.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the extraction unit extracts the second feature amount from a predetermined part of the second content.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the algorithm is one of a steepest descent method, a support vector machine, and backpropagation.
第2のコンテンツから所定枚数のフレームを抽出し、フレーム毎に第2の特徴量を抽出し、
前記複数次元のベクトルを構成する複数の前記第1の特徴量のそれぞれと、前記第2のコンテンツから抽出された所定の枚数のフレームのうち、処理対象とされたフレームから抽出された前記第2の特徴量との距離を算出し、
前記第2の特徴量毎に算出された距離のうち、最小の距離だけを保持し、その最小の距離から構成される特徴ベクトルを生成し、
前記生成された前記特徴ベクトルを用いて所定のアルゴリズムに基づく処理を行い、コンテンツを分類するためのパラメータを生成する
ステップを含む情報処理方法。 A predetermined number of frames are extracted from the plurality of first contents, a feature quantity is extracted from each of the extracted frames, and a multi-dimensional vector composed of the extracted first feature quantities is stored. Remember
Extract a predetermined number of frames from the second content, extract a second feature amount for each frame,
Of each of the plurality of first feature amounts constituting the multi-dimensional vector and a predetermined number of frames extracted from the second content, the second extracted from a frame to be processed. Calculate the distance from the feature amount of
Of the distances calculated for each of the second feature amounts, only the minimum distance is retained, and a feature vector composed of the minimum distance is generated ,
An information processing method including a step of generating a parameter for classifying content by performing processing based on a predetermined algorithm using the generated feature vector .
第2のコンテンツから所定枚数のフレームを抽出し、フレーム毎に第2の特徴量を抽出し、
前記複数次元のベクトルを構成する複数の前記第1の特徴量のそれぞれと、前記第2のコンテンツから抽出された所定の枚数のフレームのうち、処理対象とされたフレームから抽出された前記第2の特徴量との距離を算出し、
前記第2の特徴量毎に算出された距離のうち、最小の距離だけを保持し、その最小の距離から構成される特徴ベクトルを生成し、
前記生成された前記特徴ベクトルを用いて所定のアルゴリズムに基づく処理を行い、コンテンツを分類するためのパラメータを生成する
ステップを含む処理を実行させるコンピュータが読み取り可能なプログラム。 A predetermined number of frames are extracted from the plurality of first contents, a feature quantity is extracted from each of the extracted frames, and a multi-dimensional vector composed of the extracted first feature quantities is stored. Remember
Extract a predetermined number of frames from the second content, extract a second feature amount for each frame,
Of each of the plurality of first feature amounts constituting the multi-dimensional vector and a predetermined number of frames extracted from the second content, the second extracted from a frame to be processed. Calculate the distance from the feature amount of
Of the distances calculated for each of the second feature amounts, only the minimum distance is retained, and a feature vector composed of the minimum distance is generated ,
A computer-readable program for executing a process including a step of generating a parameter for classifying content by performing a process based on a predetermined algorithm using the generated feature vector .
記録媒体。 A recording medium on which the program according to claim 5 is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009084935A JP5424306B2 (en) | 2009-03-31 | 2009-03-31 | Information processing apparatus and method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009084935A JP5424306B2 (en) | 2009-03-31 | 2009-03-31 | Information processing apparatus and method, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010237946A JP2010237946A (en) | 2010-10-21 |
JP5424306B2 true JP5424306B2 (en) | 2014-02-26 |
Family
ID=43092201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009084935A Expired - Fee Related JP5424306B2 (en) | 2009-03-31 | 2009-03-31 | Information processing apparatus and method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5424306B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102193392B1 (en) | 2014-03-13 | 2020-12-22 | 더 닐슨 컴퍼니 (유에스) 엘엘씨 | Methods and apparatus to compensate impression data for misattribution and/or non-coverage by a database proprietor |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4979070B2 (en) * | 2007-03-28 | 2012-07-18 | Kddi株式会社 | Video presentation system |
JP4992592B2 (en) * | 2007-07-26 | 2012-08-08 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
-
2009
- 2009-03-31 JP JP2009084935A patent/JP5424306B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010237946A (en) | 2010-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9009054B2 (en) | Program endpoint time detection apparatus and method, and program information retrieval system | |
US8068719B2 (en) | Systems and methods for detecting exciting scenes in sports video | |
EP1067800A1 (en) | Signal processing method and video/voice processing device | |
JP5145939B2 (en) | Section automatic extraction system, section automatic extraction method and section automatic extraction program for extracting sections in music | |
JP4935355B2 (en) | Information signal processing method, information signal processing apparatus, and computer program recording medium | |
JP2005322401A (en) | Method, device, and program for generating media segment library, and custom stream generating method and custom media stream sending system | |
KR20060027826A (en) | Video processing apparatus, ic circuit for video processing apparatus, video processing method, and video processing program | |
JP2005173569A (en) | Apparatus and method for classifying audio signal | |
JP2003101939A (en) | Apparatus, method, and program for summarizing video information | |
WO2010140355A1 (en) | Acoustic signal processing device and methd | |
KR102255152B1 (en) | Contents processing device and method for transmitting segments of variable size and computer-readable recording medium | |
CN108307250B (en) | Method and device for generating video abstract | |
JP2008022103A (en) | Apparatus and method for extracting highlight of moving picture of television program | |
JP4992592B2 (en) | Information processing apparatus, information processing method, and program | |
EP1850322B1 (en) | Systems and methods for analyzing video content | |
CN102611863A (en) | Motion picture recording/reproducing apparatus | |
JP5424306B2 (en) | Information processing apparatus and method, program, and recording medium | |
KR20120137376A (en) | Category generating program, category generating device, and category generating method | |
JP2008153920A (en) | Motion picture list displaying apparatus | |
JP2009147775A (en) | Program reproduction method, apparatus, program, and medium | |
JP7480846B2 (en) | Cheering support method, cheering support device, and program | |
JP2005167456A (en) | Method and device for extracting interesting features of av content | |
JP4257563B2 (en) | Information processing apparatus and method, recording medium, and database construction apparatus | |
JP2009135754A (en) | Digest creating apparatus and method | |
JP4884163B2 (en) | Voice classification device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130430 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130516 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130808 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131121 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |