JP2013207530A - Information processing device, information processing method and program - Google Patents
Information processing device, information processing method and program Download PDFInfo
- Publication number
- JP2013207530A JP2013207530A JP2012074115A JP2012074115A JP2013207530A JP 2013207530 A JP2013207530 A JP 2013207530A JP 2012074115 A JP2012074115 A JP 2012074115A JP 2012074115 A JP2012074115 A JP 2012074115A JP 2013207530 A JP2013207530 A JP 2013207530A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- chapter
- feature
- content
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
Description
本開示は、情報処理装置、情報処理方法、及びプログラムに関し、特に、例えば、コンテンツ等の時系列データの大まかな内容がわかるダイジェストを容易に生成できるようにした情報処理装置、情報処理方法、及びプログラムに関する。 The present disclosure relates to an information processing device, an information processing method, and a program, and in particular, for example, an information processing device, an information processing method, and an information processing method that can easily generate a digest that understands the rough contents of time-series data such as content. Regarding the program.
例えば、サッカー等のスポーツを中継するスポーツ中継番組から、ハイライトシーンを検出することにより、スポーツ中継番組の大まかな内容が反映されたダイジェストを生成するダイジェスト生成技術が存在する。 For example, there is a digest generation technique for generating a digest in which a rough content of a sports broadcast program is reflected by detecting a highlight scene from a sports broadcast program that relays sports such as soccer.
このダイジェスト生成技術では、例えば、スポーツ中継番組において、音の盛り上がり(歓声)を特徴付ける特徴量を用いて、歓声があがるシーンを、スポーツ番組のハイライトシーンとして検出する(例えば、特許文献1参照)。 In this digest generation technology, for example, in a sports broadcast program, a scene where a cheer is raised is detected as a highlight scene of a sports program by using a feature value that characterizes the sound excitement (cheer) (see, for example, Patent Document 1). .
そして、検出したハイライトシーンをつなぎ合わせることにより、ダイジェストを生成するようにしている。 A digest is generated by connecting the detected highlight scenes.
しかしながら、上述のダイジェスト生成技術では、ダイジェストの生成対象が、ニュース番組等や、個人で撮影した動画等のコンテンツである場合、歓声があがるシーンは必ずしもハイライトシーンであるとは限らない。 However, in the above-described digest generation technique, when the digest generation target is a content such as a news program or a moving image shot by an individual, the scene where the cheer is raised is not necessarily a highlight scene.
このため、コンテンツのジャンルによっては、コンテンツの大まかな内容が反映されたダイジェストを生成できないことが生じ得る。 For this reason, depending on the genre of the content, it may not be possible to generate a digest reflecting the general content.
本開示は、このような状況に鑑みてなされたものであり、コンテンツ等の時系列データの大まかな内容がわかるダイジェストを容易に生成できるようにするものである。 The present disclosure has been made in view of such a situation, and makes it possible to easily generate a digest in which rough contents of time-series data such as content can be understood.
本開示の一側面の情報処理装置は、時系列に並ぶ複数のデータにより構成される時系列データを区分して得られる各チャプタから、前記チャプタを代表する予め決められた部分を表すチャプタセグメントを抽出するチャプタセグメント抽出部と、前記時系列データを区分して得られる各チャプタのうち、チャプタの特徴的な部分を表す特徴セグメントを有するチャプタから、前記特徴セグメントを抽出する特徴セグメント抽出部と、前記チャプタセグメントと前記特徴セグメントを時系列の順序で結合することにより、前記時系列データの大まかな内容を反映したダイジェストを生成する生成部とを含む情報処理装置である。 An information processing apparatus according to an aspect of the present disclosure includes a chapter segment representing a predetermined portion representing the chapter from each chapter obtained by dividing time-series data including a plurality of pieces of data arranged in time series. A chapter segment extracting unit for extracting, a feature segment extracting unit for extracting the feature segment from chapters having a feature segment representing a characteristic part of the chapter among the chapters obtained by dividing the time series data, and An information processing apparatus including a generation unit that generates a digest reflecting a rough content of the time-series data by combining the chapter segments and the feature segments in a time-series order.
前記生成部では、前記チャプタセグメントと前記特徴セグメントを時系列の順序で結合することにより、ユーザの設定操作により設定された長さの前記ダイジェストを生成することができる。 The generation unit can generate the digest having a length set by a user's setting operation by combining the chapter segment and the feature segment in chronological order.
前記時系列データに基づいて、前記複数のデータの属性をそれぞれ表すシンボルを時系列に並べたシンボル列を作成するシンボル列生成部と、前記シンボル列におけるシンボルの分散に基づいて、前記時系列データを複数のチャプタに区分する区分部とをさらに設けることができる。 Based on the time series data, a symbol string generation unit that creates a symbol string in which symbols representing the attributes of the plurality of data are arranged in time series, and the time series data based on the distribution of symbols in the symbol string And a partitioning section for partitioning into a plurality of chapters.
前記区分部では、前記シンボル列を構成する各シンボルの分散に基づいて、前記時系列データを、前記ユーザの設定操作により設定された長さに基づく区分数のチャプタに区分することができる。 The division unit can divide the time-series data into chapters having the number of divisions based on the length set by the user's setting operation based on the variance of each symbol constituting the symbol string.
前記時系列データから、前記時系列データの特徴を表す特徴量を抽出する特徴量抽出部をさらに設けることができ、前記特徴セグメント抽出部では、前記特徴量に基づいて、前記特徴セグメントを有するチャプタから、前記特徴セグメントを抽出することができる。 A feature quantity extraction unit that extracts a feature quantity representing the feature of the time series data from the time series data can be further provided, and the feature segment extraction section includes a chapter having the feature segment based on the feature quantity. From the above, the feature segment can be extracted.
前記特徴セグメント抽出部では、前記特徴量に基づいて、前記チャプタの開始から終了までの区間で前記特徴量が最大又は極大の一方となる箇所を含む前記特徴セグメントを、前記チャプタから抽出することができる。 The feature segment extraction unit may extract, from the chapter, the feature segment including a location where the feature amount is one of maximum or maximum in a section from the start to the end of the chapter based on the feature amount. it can.
前記特徴セグメント抽出部では、前記特徴量に基づいて、前記チャプタの開始から終了までの区間で前記特徴量が最大又は極大の一方となる箇所であって、且つ、前記特徴量が予め決められた閾値以上となる箇所を含む前記特徴セグメントを、前記チャプタから抽出することができる。 In the feature segment extraction unit, based on the feature amount, the feature amount is one of the maximum or maximum in a section from the start to the end of the chapter, and the feature amount is determined in advance. The feature segment including a portion that is equal to or greater than the threshold can be extracted from the chapter.
前記特徴セグメント抽出部では、複数の異なる前記特徴量に基づいて、前記複数の異なる特徴量のうち、前記チャプタの開始から終了までの区間で最大とされる前記特徴量が最大となる箇所を含む前記特徴セグメントを、前記チャプタから抽出することができる。 The feature segment extraction unit includes a portion where the maximum feature amount is maximized in a section from the start to the end of the chapter among the plurality of different feature amounts based on the plurality of different feature amounts. The feature segment can be extracted from the chapter.
前記生成部では、前記チャプタセグメントと特徴セグメントとのそれぞれに、対応する重みで予め用意された音声が付加された前記ダイジェストを生成することができる。 The generation unit can generate the digest in which a voice prepared in advance with a corresponding weight is added to each of the chapter segment and the feature segment.
前記特徴セグメント抽出部では、複数の異なる前記特徴量に基づいて、前記特徴セグメントを有するチャプタから、前記特徴セグメントを抽出し、前記生成部では、前記複数の異なる特徴量のうち、音声の特徴を表す特徴量に基づき抽出された前記特徴セグメントに、他の前記特徴セグメントよりも小さな重みで前記音声が付加された前記ダイジェストを生成することができる。 The feature segment extraction unit extracts the feature segment from chapters having the feature segment based on a plurality of different feature amounts, and the generation unit extracts a voice feature from the plurality of different feature amounts. The digest in which the voice is added to the feature segment extracted based on the feature quantity to be expressed with a weight smaller than that of the other feature segment can be generated.
前記生成部では、連続的に変化して切替わる重みで前記音声が付加された前記ダイジェストを生成することができる。 The generating unit can generate the digest to which the voice is added with a weight that is continuously changed and switched.
本開示の一側面の情報処理方法は、ダイジェストを生成する情報処理装置の情報処理方法であって、前記情報処理装置による、時系列に並ぶ複数のデータにより構成される時系列データを区分して得られる各チャプタから、前記チャプタの予め決められた部分を表すチャプタセグメントを抽出するチャプタセグメント抽出ステップと、前記時系列データを区分して得られる各チャプタのうち、チャプタの特徴的な部分を表す特徴セグメントを有するチャプタから、前記特徴セグメントを抽出する特徴セグメント抽出ステップと、前記チャプタセグメントと前記特徴セグメントを時系列の順序で結合することにより、前記時系列データの大まかな内容を反映したダイジェストを生成する生成ステップとを含む情報処理方法である。 An information processing method according to an aspect of the present disclosure is an information processing method of an information processing device that generates a digest, and classifies time-series data including a plurality of data arranged in time series by the information processing device. A chapter segment extraction step for extracting a chapter segment representing a predetermined part of the chapter from each obtained chapter, and a characteristic portion of the chapter among the chapters obtained by dividing the time-series data. A feature segment extracting step for extracting the feature segment from the chapter having the feature segment, and a digest reflecting a rough content of the time series data by combining the chapter segment and the feature segment in a time series order. An information processing method including a generation step of generating.
本開示の一側面のプログラムは、コンピュータを、時系列に並ぶ複数のデータにより構成される時系列データを区分して得られる各チャプタから、前記チャプタの予め決められた部分を表すチャプタセグメントを抽出するチャプタセグメント抽出部と、前記時系列データを区分して得られる各チャプタのうち、チャプタの特徴的な部分を表す特徴セグメントを有するチャプタから、前記特徴セグメントを抽出する特徴セグメント抽出部と、前記チャプタセグメントと前記特徴セグメントを時系列の順序で結合することにより、前記時系列データの大まかな内容を反映したダイジェストを生成する生成部として機能させるためのプログラムである。 A program according to an aspect of the present disclosure extracts a chapter segment representing a predetermined portion of the chapter from each chapter obtained by dividing time series data including a plurality of pieces of data arranged in time series by a computer. A feature segment extraction unit that extracts a feature segment from a chapter having a feature segment representing a characteristic part of the chapter among the chapters obtained by dividing the time series data, and This is a program for functioning as a generation unit that generates a digest reflecting the rough contents of the time-series data by combining the chapter segments and the feature segments in time-series order.
本開示によれば、時系列に並ぶ複数のデータにより構成される時系列データを区分して得られる各チャプタから、前記チャプタの予め決められた部分を表すチャプタセグメントが抽出され、前記時系列データを区分して得られる各チャプタのうち、チャプタの特徴的な部分を表す特徴セグメントを有するチャプタから、前記特徴セグメントが抽出され、前記チャプタセグメントと前記特徴セグメントが時系列の順序で結合されることにより、前記時系列データの大まかな内容を反映したダイジェストが生成される。 According to the present disclosure, a chapter segment representing a predetermined portion of the chapter is extracted from each chapter obtained by dividing time-series data including a plurality of data arranged in time series, and the time-series data Among the chapters obtained by classifying the feature segments, the feature segments are extracted from the chapters having the feature segments representing the characteristic portions of the chapters, and the chapter segments and the feature segments are combined in a time-series order. Thus, a digest reflecting the rough contents of the time series data is generated.
本開示によれば、コンテンツ等の時系列データの大まかな内容がわかるダイジェストを容易に生成することが可能となる。 According to the present disclosure, it is possible to easily generate a digest in which rough contents of time-series data such as content can be understood.
以下、本開示における実施の形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
1.第1の実施の形態(コンテンツを、意味的にまとまりのあるセグメントに区分するときの一例)
2.第2の実施の形態(コンテンツの大まかな内容がわかるダイジェストを生成するときの一例)
3.第3の実施の形態(コンテンツを構成する各チャプタのサムネイル画像を表示をするときの一例)
4.変形例
Hereinafter, embodiments of the present disclosure (hereinafter referred to as embodiments) will be described. The description will be given in the following order.
1. First embodiment (an example of dividing content into semantically coherent segments)
2. Second embodiment (an example of generating a digest that shows the general content)
3. Third embodiment (an example of displaying thumbnail images of chapters constituting a content)
4). Modified example
<1.第1の実施の形態>
[レコーダ1の構成例]
<1. First Embodiment>
[Configuration Example of Recorder 1]
図1は、第1の実施の形態であるレコーダ1の構成例を示している。
FIG. 1 shows a configuration example of a
図1のレコーダ1は、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画(記録)(記憶)することができる。
The
すなわち、図1において、レコーダ1は、コンテンツ記憶部11、コンテンツモデル学習部12、モデル記憶部13、シンボル列生成部14、分割部15、制御部16、及び操作部17から構成される。
1, the
コンテンツ記憶部11は、例えば、テレビジョン放送の番組等のコンテンツを記憶(記録)する。コンテンツ記憶部11へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ(コンテンツ記憶部11に記憶されたコンテンツ)は、例えば、操作部17を用いたユーザの再生操作に応じて再生される。
The
コンテンツモデル学習部12は、例えば、コンテンツ記憶部11に記憶されたコンテンツ等を、所定の特徴量空間において自己組織的に構造化し、コンテンツの構造(時空間構造)を表すモデル(以下、コンテンツモデルともいう)を求める学習(統計学習)を行う。コンテンツモデル学習部12は、学習の結果得られるコンテンツモデルを、モデル記憶部13に供給する。
For example, the content
モデル記憶部13は、コンテンツモデル学習部12から供給されるコンテンツモデルを記憶する。
The
シンボル列生成部14は、コンテンツ記憶部11からコンテンツを読み出す。そして、シンボル列生成部14は、読み出したコンテンツを構成する各フレーム(又はフィールド)の属性を表すシンボルを求め、各フレーム毎に求めた複数のシンボルを時系列に並べたシンボル列を作成(生成)し、分割部15に供給する。
The symbol
すなわち、例えば、シンボル列生成部14は、コンテンツ記憶部11に記憶されたコンテンツと、モデル記憶部13に記憶されたコンテンツモデルとを用いて、複数のシンボルから構成されるシンボル列を作成し、分割部15に供給する。
That is, for example, the symbol
ここで、シンボルとしては、例えば、特徴量空間を構成する各部分空間である複数のクラスタのうち、フレームの特徴量が含まれるクラスタを表すクラスタIDを採用することができる。 Here, as the symbol, for example, a cluster ID representing a cluster including the feature amount of the frame among a plurality of clusters that are the partial spaces constituting the feature amount space can be employed.
なお、クラスタIDは、そのクラスタIDが表すクラスタに応じた値とされる。すなわち、例えば、クラスタIDは、クラスタどうしの位置が近い程に、互いのクラスタIDは近い値とされる。したがって、フレームの特徴量が類似しているほどに、フレームどうしのクラスタIDは、近い値とされる。 The cluster ID is a value corresponding to the cluster represented by the cluster ID. That is, for example, the cluster IDs are closer to each other as the positions of the clusters are closer. Accordingly, the cluster IDs of frames are closer to each other as the feature amounts of the frames are more similar.
また、例えば、シンボルとしては、複数の異なる状態をそれぞれ表す状態IDのうち、フレームの状態を表す状態IDを採用するようにしてもよい。なお、状態IDは、その状態IDが表す状態に応じた値とされる。すなわち、例えば、状態IDは、フレームの状態が近い程に、互いの状態IDは近い値とされる。 Further, for example, as a symbol, a state ID representing a frame state among state IDs representing a plurality of different states may be adopted. The state ID is a value corresponding to the state represented by the state ID. That is, for example, the state IDs are closer to each other as the frame states are closer.
シンボルとしてクラスタIDを採用した場合、同一のシンボルに対応する各フレームは、フレームに表示されるオブジェクトが類似しているものとなる。 When a cluster ID is employed as a symbol, each frame corresponding to the same symbol has a similar object displayed in the frame.
また、シンボルとして状態IDを採用した場合、同一のシンボルに対応する各フレームは、フレームに表示されるオブジェクトが類似している他、時間的な前後関係も類似しているものとなる。 Further, when the state ID is adopted as the symbol, the frames corresponding to the same symbol have similar objects displayed in the frames and similar temporal relationships.
すなわち、例えば、シンボルとしてクラスタIDを採用した場合、発車寸前の電車が表示されたフレームと、停車寸前の電車が表示されたフレームとは、同一のシンボルとされる。 That is, for example, when the cluster ID is adopted as a symbol, the frame in which the train just before the departure is displayed and the frame in which the train just before the stop is displayed are the same symbol.
これは、シンボルとしてクラスタIDを採用した場合、オブジェクトが類似しているか否かのみで、フレームにシンボルが割り当てられることによる。 This is because when a cluster ID is adopted as a symbol, the symbol is assigned to the frame only depending on whether or not the objects are similar.
これに対して、シンボルとして状態IDを採用した場合、発車寸前の電車が表示されたフレームと、停車寸前の電車が表示されたフレームとは、異なるシンボルとされる。 On the other hand, when the state ID is adopted as the symbol, the frame in which the train just before the departure is displayed is different from the frame in which the train just before the stop is displayed.
これは、シンボルとして状態IDを採用した場合、オブジェクトが類似しているか否かの他、時間的な前後関係も考慮して、フレームにシンボルが割り当てられることによる。 This is because when the state ID is adopted as the symbol, the symbol is assigned to the frame in consideration of whether the object is similar or not, and also the temporal context.
したがって、シンボルとして状態IDを採用した場合、シンボルは、クラスタIDを採用した場合よりも、フレームの属性をより詳細に表したものとなる。 Therefore, when the state ID is employed as the symbol, the symbol represents the frame attributes in more detail than when the cluster ID is employed.
第1の実施の形態では、シンボル列における各シンボルのばらつき(分散)に基づいて、コンテンツを複数のセグメントに分割する点がポイントである。 In the first embodiment, the point is that the content is divided into a plurality of segments based on the variation (dispersion) of each symbol in the symbol string.
したがって、第1の実施の形態では、シンボルとして状態IDを採用した場合、シンボルとしてクラスタIDを採用した場合と比較して、精度良く、コンテンツを、意味的にまとまりのある複数のセグメントに分割できる。 Therefore, in the first embodiment, when the state ID is adopted as the symbol, the content can be divided into a plurality of segments that are semantically grouped with higher accuracy than when the cluster ID is adopted as the symbol. .
なお、モデル記憶部13に、学習済みのコンテンツモデルが、既に記憶されている場合には、コンテンツモデル学習部12を設けずに、レコーダ1を構成することができる。
If a learned content model is already stored in the
ここで、コンテンツ記憶部11に記憶されるコンテンツのデータは、画像、音声、及び、必要なテキスト(字幕)のデータ(ストリーム)を含むこととする。
Here, the content data stored in the
また、ここでは、コンテンツのデータのうちの、画像のデータだけを、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理に用いることとする。 Here, it is assumed that only the image data of the content data is used for the content model learning process and the process using the content model.
但し、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理には、画像のデータの他、音声やテキストのデータをも用いることが可能であり、この場合、処理の精度を向上させることができる。 However, it is possible to use not only image data but also audio and text data for the content model learning process and the process using the content model. In this case, the accuracy of the process can be improved. it can.
また、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理には、画像ではなく、音声のデータだけを用いることが可能である。 In addition, it is possible to use only audio data, not images, for the content model learning process and the process using the content model.
分割部15は、シンボル列生成部14からのシンボル列を生成する際に用いられたコンテンツと同一のコンテンツを、コンテンツ記憶部11から読み出す。そして、分割部15は、シンボル列生成部14からのシンボル列における各シンボルのばらつき(分散)に基づいて、読み出したコンテンツを、意味的にまとまりのある複数のセグメントに分割(区分)する。
The dividing
すなわち、例えば、分割部15は、意味的にまとまりのある複数のセグメントとして、番組のコーナー毎や、ニュースのトピック毎に、コンテンツを分割する。
That is, for example, the dividing
制御部16は、例えば、操作部17からの操作信号に基づいて、コンテンツモデル学習部12、シンボル列生成部14、及び分割部15を制御する。
For example, the
操作部17は、ユーザにより操作される操作ボタン等であり、ユーザにより操作されたことに対応して、ユーザの操作に対応する操作信号を、制御部16に供給する。
The
次に、図2は、シンボル列生成部14が生成するシンボル列の一例を示している。
Next, FIG. 2 shows an example of a symbol string generated by the
なお、図2において、横軸は時刻tを表しており、縦軸は、時刻tにおけるフレーム(フレームt)のシンボルを表している。 In FIG. 2, the horizontal axis represents time t, and the vertical axis represents the symbol of the frame (frame t) at time t.
ここで、時刻tとは、例えば、コンテンツの先頭を基準とする時刻であり、時刻tにおけるフレームtとは、コンテンツの先頭からt番目のフレームを意味する。なお、コンテンツの先頭のフレームは、フレーム0とされる。
Here, the time t is, for example, a time based on the beginning of the content, and the frame t at the time t means the t-th frame from the beginning of the content. Note that the top frame of the content is
また、シンボルは、シンボル(の値)どうしが近い程に、シンボルに対応するフレームどうしの属性は近いものとなる。 Further, as the symbols (values) are closer to each other, the attributes of the frames corresponding to the symbols are closer.
また、図2において、図中垂直方向に延びる太線の線分は、複数のシンボルから構成されるシンボル列を、6個の部分系列に分割する分割線を表す。 In FIG. 2, a thick line segment extending in the vertical direction in the drawing represents a dividing line that divides a symbol string composed of a plurality of symbols into six partial series.
このシンボル列は、図2に示されるように、比較的少ない種類のシンボルが頻繁に観測される第1の部分系列(「停留」的な特徴を持つ部分系列)と、比較的多くの種類のシンボルが観測される第2の部分系列(「大分散」的な特徴を持つ部分系列)とで構成される。 As shown in FIG. 2, this symbol string includes a first partial sequence (a partial sequence having a “rest” characteristic) in which relatively few types of symbols are frequently observed, and a relatively large number of types. It is composed of a second partial series (a partial series having “large variance” characteristics) in which symbols are observed.
図2では、第1の部分系列が4個、第2の部分系列が2個だけ示されている。 In FIG. 2, only four first partial series and two second partial series are shown.
本発明者らは、複数の被験者を対象として、図2に示されるようなシンボル列を、N個(図2の場合、N=6)に分割させるための分割線を引かせる実験を行なった。そして、本発明者らは、以下のような実験結果を得た。 The present inventors conducted an experiment for drawing a dividing line for dividing a symbol string as shown in FIG. 2 into N pieces (N = 6 in the case of FIG. 2) for a plurality of subjects. . And the present inventors obtained the following experimental results.
すなわち、被験者が、シンボル列のうち、第1の部分系列と第2の部分系列との境界や、第1の部分系列どうしの境界、第2の部分系列どうしの境界に、分割線を引くことが多いとの実験結果を得た。 That is, the subject draws a dividing line on the boundary between the first partial series and the second partial series, the boundary between the first partial series, and the boundary between the second partial series in the symbol string. The experiment result that there are many.
また、被験者が引いた分割線の位置で、図2に示されるシンボル列に対応するコンテンツを分割した場合にも、そのコンテンツは、概ね、意味的にまとまりのある複数のセグメントに分割されていることがわかった。 In addition, even when the content corresponding to the symbol string shown in FIG. 2 is divided at the position of the dividing line drawn by the subject, the content is generally divided into a plurality of segments that are semantically organized. I understood it.
したがって、分割部15は、シンボル列生成部14からのシンボル列に基づいて、被験者と同様の位置に分割線を引くことにより、コンテンツを、意味的にまとまりのある複数のセグメントに分割する。
Therefore, the dividing
なお、分割部15が行う具体的な処理は、図13乃至図15を参照して詳述する。
Specific processing performed by the dividing
[コンテンツモデル学習部12の構成例]
図3は、図1のコンテンツモデル学習部12の構成例を示している。
[Configuration Example of Content Model Learning Unit 12]
FIG. 3 shows a configuration example of the content
コンテンツモデル学習部12は、状態が遷移する状態遷移確率と、状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習(モデル学習)を行う。また、コンテンツモデル学習部12は、後述するクラスタ情報を得るためのクラスタ学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出する。さらに、コンテンツモデル学習部12は、学習用コンテンツの特徴量を用いて、クラスタ学習を行う。
The content
すなわち、コンテンツモデル学習部12は、学習用コンテンツ選択部21、特徴量抽出部22、特徴量記憶部26、及び、学習部27から構成される。
That is, the content
学習用コンテンツ選択部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、モデル学習及びクラスタ学習に用いるコンテンツを、学習用コンテンツとして選択し、特徴量抽出部22に供給する。
The learning
ここで、学習用コンテンツ選択部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、例えば、所定のカテゴリに属する1以上のコンテンツを、学習用コンテンツとして選択する。
Here, the learning
所定のカテゴリに属するコンテンツとは、例えば、ジャンルが同一の番組や、連続番組、毎週又は毎日その他周期的に放送される番組(タイトルが同一の番組)等の、コンテンツに潜む、コンテンツの構造が共通するコンテンツを意味する。 The content belonging to a predetermined category is, for example, a content structure hidden in the content such as a program of the same genre, a continuous program, a program broadcasted every week or every other day (a program having the same title), and the like. Means common content.
ジャンルとしては、例えば、スポーツ番組やニュース番組等といった、いわば大まかな分類を採用することもできるが、例えば、サッカーの試合の番組や野球の試合の番組等といった、いわば細かい分類であることが望ましい。 As the genre, for example, a rough classification such as a sports program or a news program can be adopted, but it is desirable that the classification is a fine classification such as a soccer game program or a baseball game program. .
また、例えば、サッカーの試合の番組であれば、チャンネル(放送局)が異なるごとに、異なるカテゴリに属するコンテンツに分類することもできる。 In addition, for example, a soccer game program can be classified into contents belonging to different categories every time the channel (broadcast station) is different.
なお、コンテンツのカテゴリとして、どのようなカテゴリを採用するかは、例えば、図1のレコーダ1に、あらかじめ設定されていることとする。
It is assumed that what category is adopted as the content category is set in advance in the
また、コンテンツ記憶部11に記憶されたコンテンツのカテゴリは、例えば、テレビジョン放送で番組とともに送信されてくる、番組のタイトルやジャンル等のメタデータや、インターネット上のサイトが提供する番組の情報等から認識することができる。
The content categories stored in the
特徴量抽出部22は、学習用コンテンツ選択部21からの学習用コンテンツを、画像と音声のデータに逆多重化(分離)し、画像の各フレームの特徴量を抽出して、特徴量記憶部26に供給する。
The feature
すなわち、特徴量抽出部22は、フレーム分割部23、サブ領域特徴量抽出部24、及び、結合部25から構成される。
That is, the feature
フレーム分割部23には、学習用コンテンツ選択部21からの学習用コンテンツの画像の各フレームが、時系列に供給される。
Each frame of the learning content image from the learning
フレーム分割部23は、学習用コンテンツ選択部21から時系列に供給される学習用コンテンツのフレームを、順次、注目フレームとする。そして、フレーム分割部23は、注目フレームを、複数の小領域であるサブ領域に分割し、サブ領域特徴量抽出部24に供給する。
The
サブ領域特徴量抽出部24は、フレーム分割部23からの注目フレームの各サブ領域から、そのサブ領域の特徴量(以下、サブ領域特徴量ともいう)を抽出し、結合部25に供給する。
The sub-region feature
結合部25は、サブ領域特徴量抽出部24からの注目フレームのサブ領域のサブ領域特徴量を結合し、その結合結果を、注目フレームの特徴量として、特徴量記憶部26に供給する。
The
特徴量記憶部26は、特徴量抽出部22(の結合部25)から供給される学習用コンテンツの各フレームの特徴量を時系列に記憶する。
The feature
学習部27は、特徴量記憶部26に記憶された学習用コンテンツの各フレームの特徴量を用いて、クラスタ学習を行う。
The
すなわち、学習部27は、特徴量記憶部26に記憶された学習用コンテンツの各フレームの特徴量(ベクトル)を用いて、その特徴量の空間である特徴量空間を、複数のクラスタに分割するクラスタ学習を行い、クラスタの情報であるクラスタ情報を求める。
That is, the
ここで、クラスタ学習としては、例えば、k-means法を採用することができる。クラスタ学習として、k-means法を採用する場合、クラスタ学習の結果得られるクラスタ情報は、特徴量空間のクラスタを代表する代表ベクトルと、その代表ベクトル(が代表するクラスタ)を表すコードとが対応付けられたコードブックとなる。 Here, as the cluster learning, for example, the k-means method can be adopted. When the k-means method is used for cluster learning, the cluster information obtained as a result of cluster learning corresponds to a representative vector that represents a cluster in the feature space and a code that represents the representative vector (the cluster that it represents). It will be a codebook attached.
なお、k-means法では、注目する注目クラスタの代表ベクトルは、学習用コンテンツの特徴量(ベクトル)の中で、注目クラスタに属する特徴量(コードブックの各代表ベクトルとの距離(ユークリッド距離)の中で、注目クラスタの代表ベクトルとの距離が最も短い特徴量)の平均値(ベクトル)となる。 In the k-means method, the representative vector of the target cluster of interest is the feature amount (distance from each representative vector of the codebook (Euclidean distance)) among the feature amount (vector) of the learning content. The average value (vector) of the feature amount having the shortest distance from the representative vector of the cluster of interest.
学習部27は、さらに、学習用コンテンツから得られたクラスタ情報を用いて、特徴量記憶部26に記憶された学習用コンテンツの各フレームの特徴量を複数のクラスタのうちのいずれかのクラスタにクラスタリングすることにより、その特徴量が属するクラスタを表すコードを求めることで、学習用コンテンツの特徴量の時系列を、コード系列に変換する(学習用コンテンツのコード系列を求める)。
The
ここで、クラスタ学習として、k-means法を採用する場合、そのクラスタ学習によって得られるクラスタ情報としてのコードブックを用いて行われるクラスタリングは、ベクトル量子化となる。 Here, when the k-means method is adopted as the cluster learning, the clustering performed using the code book as the cluster information obtained by the cluster learning is vector quantization.
ベクトル量子化では、コードブックの代表ベクトルそれぞれについて、特徴量(ベクトル)との距離が計算され、その距離が最小となる代表ベクトルのコードが、ベクトル量子化結果として出力される。 In vector quantization, for each representative vector of the codebook, the distance from the feature quantity (vector) is calculated, and the code of the representative vector that minimizes the distance is output as the vector quantization result.
学習部27は、学習用コンテンツの特徴量の時系列をクラスタリングすることにより、コード系列に変換すると、そのコード系列を用いて、状態遷移モデルの学習であるモデル学習を行う。
When the
そして、学習部27は、モデル学習後の状態遷移確率モデルと、クラスタ学習により得られるクラスタ情報とのセットを、コンテンツモデルとして、学習用コンテンツのカテゴリと対応付けて、モデル記憶部13に供給する。
Then, the
したがって、コンテンツモデルは、状態遷移確率モデルと、クラスタ情報とから構成される。 Therefore, the content model is composed of a state transition probability model and cluster information.
ここで、コンテンツモデルを構成する状態遷移確率モデル(コード系列を用いて学習が行われる状態遷移確率モデル)を、以下、コードモデルともいう。 Here, a state transition probability model (a state transition probability model in which learning is performed using a code sequence) constituting the content model is also referred to as a code model.
[状態遷移確率モデル]
図4乃至図7を参照して、図3の学習部27がモデル学習を行う状態遷移確率モデルについて説明する。
[State transition probability model]
A state transition probability model in which the
状態遷移確率モデルとしては、例えば、HMM(Hidden Marcov Model)を採用することができる。状態遷移確率モデルとして、HMMを採用する場合、HMMの学習は、例えば、Baum-Welchの再推定法によって行われる。 For example, an HMM (Hidden Marcov Model) can be adopted as the state transition probability model. When the HMM is adopted as the state transition probability model, the HMM learning is performed by, for example, the Baum-Welch re-estimation method.
図4は、left-to-right型のHMMの一例を示している。 FIG. 4 shows an example of a left-to-right type HMM.
left-to-right型のHMMは、状態が、左から右方向に、一直線上に並んだHMMであり、自己遷移(ある状態から、その状態への遷移)と、ある状態から、その状態よりも右側にある状態への遷移とを行うことができる。left-to-right型のHMMは、例えば、音声認識等で用いられる。 A left-to-right type HMM is an HMM in which the states are aligned in a straight line from left to right. From the state to the self-transition (transition from one state to the state) Can also transition to the state on the right. The left-to-right type HMM is used, for example, for speech recognition.
図4のHMMは、3つの状態s1,s2,s3から構成され、状態遷移として、自己遷移と、ある状態から、その右隣の状態への遷移とが許されている。 The HMM shown in FIG. 4 includes three states s1, s2, and s3. As a state transition, a self transition and a transition from a certain state to a state on the right side thereof are permitted.
なお、HMMは、状態siの初期確率πi、状態遷移確率aij、及び、状態siから、所定の観測値oが観測される観測確率bi(o)で規定される。 The HMM is defined by the initial probability π i of the state s i , the state transition probability a ij , and the observation probability b i (o) at which a predetermined observation value o is observed from the state s i .
ここで、初期確率πiは、状態siが、初期の状態(最初の状態)である確率であり、left-to-right型のHMMでは、最も左側の状態s1の初期確率π1は、1.0とされ、他の状態siの初期確率πiは、0.0とされる。 Here, the initial probability [pi i, the state s i is the probability of the initial state (initial state), the left-to-right type HMM, the initial probability [pi 1 of the leftmost state s 1 is is 1.0, the initial probability [pi i of the other state s i, it is 0.0.
状態遷移確率aijは、状態siから状態sjに遷移する確率である。 The state transition probability a ij is a probability of transition from the state s i to the state s j .
観測確率bi(o)は、状態siへの状態遷移時に、状態siから観測値oが観測される確率である。観測確率bi(o)としては、観測値oが離散値である場合には、確率となる値(離散値)が用いられるが、観測値oが連続値である場合には、確率分布関数が用いられる。確率分布関数としては、例えば、平均値(平均ベクトル)と分散(共分散行列)とで定義されるガウス分布等を採用することができる。なお、本実施の形態では、観測値oとして、離散値が用いられる。 Observation probability b i (o), upon state transition to the state s i, a probability that the observed value o is observed from the state s i. As the observation probability b i (o), when the observation value o is a discrete value, a probability value (discrete value) is used, but when the observation value o is a continuous value, the probability distribution function Is used. As the probability distribution function, for example, a Gaussian distribution defined by an average value (average vector) and a variance (covariance matrix) can be employed. In the present embodiment, a discrete value is used as the observed value o.
図5は、エルゴディック(Ergodic)型のHMMの一例を示している。 FIG. 5 shows an example of an Ergodic type HMM.
エルゴディック型のHMMは、状態遷移に制約がないHMM、すなわち、任意の状態siから任意の状態sjへの状態遷移が可能なHMMである。 An ergodic type HMM is an HMM with no restrictions on state transition, that is, an HMM capable of state transition from an arbitrary state s i to an arbitrary state s j .
図5のHMMは、3つの状態s1,s2,s3から構成され、任意の状態遷移が許されている。 The HMM in FIG. 5 includes three states s 1 , s 2 , and s 3 , and arbitrary state transitions are permitted.
エルゴディック型のHMMは、状態遷移の自由度が最も高いHMMであるが、状態数が多くなると、HMMのパラメータ(初期確率πi、状態遷移確率aij、及び、観測確率bi(o))の初期値によっては、ローカルミニマムに収束し、適切なパラメータを得られないことがある。 The ergodic HMM is the HMM having the highest degree of freedom of state transition. However, as the number of states increases, the HMM parameters (initial probability π i , state transition probability a ij , and observation probability b i (o) Depending on the initial value of), it may converge to the local minimum and an appropriate parameter may not be obtained.
そこで、「自然界の現象の殆どや、ビデオコンテンツを生み出すカメラワークや番組構成は、スモールワールドネットワークのようなスパースな結合によって表現可能である」という仮説を採用し、学習部27での学習には、状態遷移を、スパース(Sparse)な構造に制約したHMMを採用することとする。
Therefore, the
ここで、スパースな構造とは、ある状態から任意の状態への状態遷移が可能なエルゴディック型のHMMのような密な状態遷移ではなく、ある状態から状態遷移することができる状態が非常に限定されている構造(状態遷移が疎らな構造)である。 Here, a sparse structure is not a dense state transition such as an ergodic HMM that can make a state transition from a certain state to an arbitrary state, but a state that can make a state transition from a certain state is very It is a limited structure (a structure in which state transition is sparse).
なお、ここでは、スパースな構造であっても、他の状態への状態遷移は、少なくとも1つ存在し、また、自己遷移は存在することとする。 Note that here, even in a sparse structure, at least one state transition to another state exists, and a self-transition exists.
図6は、スパースな構造のHMMである2次元近傍拘束HMMの一例を示している。 FIG. 6 shows an example of a two-dimensional neighborhood constrained HMM that is an HMM having a sparse structure.
図6のA及び図6のBのHMMには、スパースな構造であることの他、HMMを構成する状態を、2次元平面上に、格子状に配置する制約が課されている。 In addition to the sparse structure, the HMM in FIG. 6A and FIG. 6B has a constraint that the states constituting the HMM are arranged in a lattice pattern on a two-dimensional plane.
ここで、図6のAのHMMでは、他の状態への状態遷移が、横に隣接する状態と、縦に隣接する状態とに制限されている。図6のBのHMMでは、他の状態への状態遷移が、横に隣接する状態、縦に隣接する状態、及び、斜めに隣接する状態に制限されている。 Here, in the HMM in FIG. 6A, the state transition to another state is limited to a horizontally adjacent state and a vertically adjacent state. In the HMM of FIG. 6B, the state transition to another state is limited to a horizontally adjacent state, a vertically adjacent state, and a diagonally adjacent state.
図7は、スパースな構造のHMMの、2次元近傍拘束HMM以外の一例を示している。 FIG. 7 shows an example of an HMM having a sparse structure other than the two-dimensional neighborhood constraint HMM.
すなわち、図7のAは、3次元グリッド制約によるHMMの例を示している。図7のBは、2次元ランダム配置制約によるHMMの例を示している。図7のCは、スモールワールドネットワークによるHMMの例を示している。 That is, A in FIG. 7 shows an example of an HMM with a three-dimensional grid constraint. FIG. 7B shows an example of an HMM based on a two-dimensional random arrangement constraint. FIG. 7C shows an example of an HMM by a small world network.
図3の学習部27では、状態が、例えば、100乃至数百個程度の、図6や図7に示したスパースな構造のHMMの学習が、特徴量記憶部26に記憶された画像の(フレームから抽出された)特徴量のコード系列を用い、Baum-Welchの再推定法によって行われる。
In the
学習部27での学習の結果得られるコードモデルであるHMMは、コンテンツの画像(Visual)の特徴量のみを用いた学習によって得られるので、Visual HMMと呼ぶことができる。
The HMM, which is a code model obtained as a result of learning in the
ここで、HMMの学習(モデル学習)に用いられる、特徴量のコード系列は、離散値であり、HMMの観測確率bi(o)としては、確率となる値が用いられる。 Here, the code sequence of the feature amount used for HMM learning (model learning) is a discrete value, and a probability value is used as the observation probability bi (o) of the HMM.
なお、HMMについては、例えば、Laurence Rabiner, Biing-Hwang Juang 共著、「音声認識の基礎(上・下)、NTTアドバンステクノロジ株式会社」や、本件出願人が先に提案した特願2008-064993号に記載されている。また、エルゴティック型のHMMや、スパースな構造のHMMの利用については、例えば、本件出願人が先に提案した特開2009-223444号公報に記載されている。 Regarding HMM, for example, co-authored by Laurence Rabiner and Biing-Hwang Juang, “Basics of Speech Recognition (Up / Down), NTT Advanced Technology Co., Ltd.” and Japanese Patent Application No. 2008-064993 previously proposed by the applicant. It is described in. The use of an ergotic type HMM or a sparse structure HMM is described in, for example, Japanese Unexamined Patent Application Publication No. 2009-223444 previously proposed by the present applicant.
[特徴量の抽出]
図8は、図3の特徴量抽出部22による特徴量の抽出の処理を示している。
[Feature extraction]
FIG. 8 shows a feature amount extraction process by the feature
特徴量抽出部22において、フレーム分割部23には、学習用コンテンツ選択部21からの学習用コンテンツの画像の各フレームが、時系列に供給される。
In the feature
フレーム分割部23は、学習用コンテンツ選択部21から時系列に供給される学習用コンテンツのフレームを、順次、注目フレームとし、注目フレームを、複数のサブ領域Rkに分割して、サブ領域特徴量抽出部24に供給する。
The
ここで、図8では、注目フレームが、横×縦が4×4個の16個のサブ領域R1,R2,・・・,R16に等分されている。 Here, in FIG. 8, the frame of interest is equally divided into 16 sub-regions R 1 , R 2 ,.
なお、1フレームをサブ領域Rkに分割するときの、サブ領域Rkの数は、4×4個の16個に限定されるものではない。すなわち、1フレームは、例えば、5×4個の20個のサブ領域Rkや、5×5個の25個のサブ領域Rk等に分割することができる。 Note that the number of sub-regions R k when dividing one frame into sub-regions R k is not limited to 16 of 4 × 4. That is, one frame can be divided into, for example, 5 × 4 20 sub-regions R k and 5 × 5 25 sub-regions R k .
また、図8では、1フレームが、同一のサイズのサブ領域Rkに分割(等分)されているが、サブ領域のサイズは、同一でなくても良い。すなわち、例えば、フレームの中央部分は、小さなサイズのサブ領域に分割し、フレームの周辺部分(画枠に隣接する部分等)は、大きなサイズのサブ領域に分割することができる。 Further, in FIG. 8, one frame have been divided into sub-regions R k of the same size (equal), the size of the sub regions may not be the same. That is, for example, the central portion of the frame can be divided into small-sized sub-regions, and the peripheral portion of the frame (such as a portion adjacent to the image frame) can be divided into large-sized sub-regions.
サブ領域特徴量抽出部24(図3)は、フレーム分割部23からの注目フレームの各サブ領域Rkのサブ領域特徴量fk=FeatExt(Rk)を抽出し、結合部25に供給する。
The sub-region feature quantity extraction unit 24 (FIG. 3) extracts the sub-region feature quantity f k = FeatExt (R k ) of each sub-region R k of the frame of interest from the
すなわち、サブ領域特徴量抽出部24は、サブ領域Rkの画素値(例えば、RGB成分や、YUV成分等)を用い、サブ領域Rkの大域的な特徴量を、サブ領域特徴量fkとして求める。
That is, the sub-region feature
ここで、サブ領域Rkの大域的な特徴量とは、サブ領域Rkを構成する画素の位置の情報を用いずに、画素値だけを用いて、加法的に計算される、例えば、ヒストグラムのような特徴量をいう。 Here, the global feature amount of the sub region R k, without using the information of the position of the pixels constituting the sub region R k, using only pixel values, is additively calculated, for example, a histogram This means the feature quantity.
大域的な特徴量としては、例えば、GISTと呼ばれる特徴量を採用することができる。GISTについては、例えば、A. Torralba, K. Murphy, W. Freeman, M. Rubin, "Context-based vision system for place and object recognition", IEEE Int. Conf. Computer Vision, vol. 1, no. 1, pp. 273-280, 2003.に、詳細が記載されている。 As the global feature quantity, for example, a feature quantity called GIST can be adopted. Regarding GIST, for example, A. Torralba, K. Murphy, W. Freeman, M. Rubin, "Context-based vision system for place and object recognition", IEEE Int. Conf. Computer Vision, vol. 1, no. 1 , pp. 273-280, 2003.
なお、大域的な特徴量は、GISTに限定されるものではない。すなわち、大域的な特徴量は、局所的な位置、明度、視点等の見えの変化に対して頑強な(変化を吸収するような)(Robustな)特徴量であれば良い。そのような特徴量としては、例えば、HLCA(局所高次相関)や、LBP(Local Binary Patterns)、カラーヒストグラム等がある。 The global feature amount is not limited to GIST. That is, the global feature value may be a feature value that is robust (absorbs change) (robust) with respect to changes in appearance such as local position, brightness, and viewpoint. Such feature amounts include, for example, HLCA (Local Higher Order Correlation), LBP (Local Binary Patterns), and a color histogram.
HLCAについては、例えば、N. Otsu, T. Kurita, "A new scheme for practical flexible and intelligent vision systems", Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988に、詳細が記載されている。LBPについては、例えば、Ojala T, Pietikainen M & Maenpaa T, "Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7):971-987に、詳細が記載されている(Pietikainen、及び、Maenpaaの"a"は、正確には、"a"の上部に、"・・"を付加した文字)。 Details of HLCA are described in, for example, N. Otsu, T. Kurita, "A new scheme for practical flexible and intelligent vision systems", Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988. . For details on LBP, see, for example, Ojala T, Pietikainen M & Maenpaa T, "Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence 24 (7): 971-987. (Pietikainen and Maenpaa's "a" is exactly the letter with "..." added to the top of "a").
ここで、上述のGISTや、LBP,HLCA、カラーヒストグラム等の大域的な特徴量は、次元数が大となる傾向があるが、次元間の相関が高い傾向もある。 Here, global feature quantities such as GIST, LBP, HLCA, and color histogram described above tend to have a large number of dimensions, but also tend to have a high correlation between dimensions.
そこで、サブ領域特徴量抽出部24(図3)では、サブ領域Rkから、GIST等を抽出した後、そのGIST等の主成分分析(PCA(principal component analysis))を行うことができる。そして、サブ領域特徴量抽出部24では、PCAの結果に基づき、累積寄与率が、ある程度高い値(例えば、95%等以上の値)となるように、GIST等の次元数を圧縮(制限)し、その圧縮結果を、サブ領域特徴量とすることができる。
Therefore, in the sub region feature amount extracting unit 24 (FIG. 3), from the sub-region R k, after extracting the GIST or the like, it is possible to perform a principal component analysis of the GIST or the like (PCA (principal component analysis)) . Then, the sub-region feature
この場合、GIST等を、次元数を圧縮したPCA空間に射影した射影ベクトルが、GIST等の次元数を圧縮した圧縮結果となる。 In this case, a projection vector obtained by projecting GIST or the like onto a PCA space in which the number of dimensions is compressed becomes a compression result obtained by compressing the number of dimensions such as GIST.
結合部25(図3)は、サブ領域特徴量抽出部24からの注目フレームのサブ領域R1乃至R16のサブ領域特徴量f1乃至f16を結合し、その結合結果を、注目フレームの特徴量として、特徴量記憶部26に供給する。
The combining unit 25 (FIG. 3) combines the sub-region feature amounts f 1 to f 16 of the sub-regions R 1 to R 16 of the target frame from the sub-region feature
すなわち、結合部25は、サブ領域特徴量抽出部24からのサブ領域特徴量f1乃至f16を結合することにより、そのサブ領域特徴量f1乃至f16をコンポーネントとするベクトルを生成し、そのベクトルを、注目フレームの特徴量Ftとして、特徴量記憶部26に供給する。
That is, the combining
ここで、図8では、時刻tのフレーム(フレームt)が、注目フレームとなっている。 Here, in FIG. 8, the frame at time t (frame t) is the frame of interest.
図3の特徴量抽出部22では、学習用コンテンツの各フレームが、先頭から順次、注目フレームとされ、上述したようにして、特徴量Ftが求められる。そして、学習用コンテンツの各フレームの特徴量Ftは、時系列に(時間的な前後関係を維持した状態で)、特徴量抽出部22から特徴量記憶部26に供給されて記憶される。
In the feature
以上のように、特徴量抽出部22では、サブ領域特徴量fkとして、サブ領域Rkの大域的な特徴量が求められ、そのサブ領域特徴量fkをコンポーネントとするベクトルが、フレームの特徴量Ftとして求められる。
As described above, the feature
したがって、フレームの特徴量Ftは、局所的な変化(サブ領域内で起こる変化)に対しては頑強であるが、フレーム全体としてのパターンの配置の変化に対してはディスクリミネイティブ(鋭敏に違いを見分ける性質)であるような特徴量となる。 Therefore, the frame feature value F t is robust against local changes (changes that occur within a sub-region), but is discriminative (sensitive) to changes in the pattern arrangement of the entire frame. It is a feature quantity that is a property that distinguishes differences.
[コンテンツモデル学習処理]
次に、図9のフローチャートを参照して、図3のコンテンツモデル学習部12が行う処理(コンテンツモデル学習処理)を説明する。
[Content model learning process]
Next, processing (content model learning processing) performed by the content
ステップS11において、学習用コンテンツ選択部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、所定のカテゴリに属する1以上のコンテンツを、学習用コンテンツとして選択する。
In step S <b> 11, the learning
すなわち、例えば、学習用コンテンツ選択部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、まだ、学習用コンテンツとしていない任意の1つのコンテンツを、学習用コンテンツとして選択する。
That is, for example, the learning
さらに、学習用コンテンツ選択部21は、学習用コンテンツとして選択した1つのコンテンツのカテゴリを認識し、そのカテゴリに属する他のコンテンツが、コンテンツ記憶部11に記憶されている場合には、そのコンテンツ(他のコンテンツ)を、さらに、学習用コンテンツとして選択する。
Furthermore, the learning
学習用コンテンツ選択部21は、学習用コンテンツを、特徴量抽出部22に供給し、処理は、ステップS11からステップS12に進む。
The learning
ステップS12では、特徴量抽出部22のフレーム分割部23が、学習用コンテンツ選択部21からの学習用コンテンツの中の、まだ、注目学習用コンテンツ(以下、注目コンテンツともいう)に選択していない学習用コンテンツの1つを、注目コンテンツに選択する。
In step S12, the
そして、処理は、ステップS12からステップS13に進み、フレーム分割部23は、注目コンテンツのフレームのうちの、まだ、注目フレームとしていない、時間的に最も先行するフレームを、注目フレームに選択し、処理は、ステップS14に進む。
Then, the process proceeds from step S12 to step S13, and the
ステップS14では、フレーム分割部23は、注目フレームを、複数のサブ領域に分割し、サブ領域特徴量抽出部24に供給して、処理は、ステップS15に進む。
In step S14, the
ステップS15では、サブ領域特徴量抽出部24は、フレーム分割部23からの複数のサブ領域それぞれのサブ領域特徴量を抽出し、結合部25に供給して、処理は、ステップS16に進む。
In step S15, the sub-region feature
ステップS16では、結合部25は、サブ領域特徴量抽出部24からの、注目フレームを構成する複数のサブ領域それぞれのサブ領域特徴量を結合することで、注目フレームの特徴量を生成し、処理は、ステップS17に進む。
In step S16, the combining
ステップS17では、フレーム分割部23は、注目コンテンツのすべてのフレームを注目フレームとしたかどうかを判定する。
In step S <b> 17, the
ステップS17において、注目コンテンツのフレームの中に、まだ、注目フレームとしていないフレームがあると判定された場合、処理は、ステップS13に戻り、以下、同様の処理が繰り返される。 If it is determined in step S17 that there is a frame that has not yet been set as the target frame among the frames of the target content, the process returns to step S13, and the same process is repeated thereafter.
また、ステップS17において、注目コンテンツのすべてのフレームを注目フレームとしたと判定された場合、処理は、ステップS18に進み、結合部25は、注目コンテンツについて求めた注目コンテンツの各フレームの特徴量(の時系列)を、特徴量記憶部26に供給して記憶させる。
If it is determined in step S17 that all the frames of the content of interest have been used as the frame of interest, the process proceeds to step S18, and the combining
そして、処理は、ステップS18からステップS19に進み、フレーム分割部23は、学習用コンテンツ選択部21からの学習用コンテンツのすべてを、注目コンテンツとしたかどうかを判定する。
Then, the process proceeds from step S18 to step S19, and the
ステップS19において、学習用コンテンツの中に、まだ、注目コンテンツとしていない学習用コンテンツがあると判定された場合、処理は、ステップS12に戻り、以下、同様の処理が繰り返される。 If it is determined in step S19 that there is a learning content that has not yet been set as the content of interest in the learning content, the processing returns to step S12, and the same processing is repeated thereafter.
また、ステップS19において、学習用コンテンツのすべてを、注目コンテンツとしたと判定された場合、処理は、ステップS20に進み、学習部27は、特徴量記憶部26に記憶された、学習用コンテンツの特徴量(各フレームの特徴量の時系列)を用いて、コンテンツモデルの学習を行う。
If it is determined in step S19 that all of the learning content is the content of interest, the process proceeds to step S20, and the
すなわち、学習部27は、特徴量記憶部26に記憶された学習用コンテンツの各フレームの特徴量(ベクトル)を用いて、その特徴量の空間である特徴量空間を、複数のクラスタに分割するクラスタ学習を、k-means法によって行い、既定数としての、例えば、100乃至数100のクラスタ(代表ベクトル)のコードブックを、クラスタ情報として求める。
That is, the
さらに、学習部27は、クラスタ学習によって得られたクラスタ情報としてのコードブックを用いて、特徴量記憶部26に記憶された学習用コンテンツの各フレームの特徴量をクラスタリングするベクトル量子化を行い、学習用コンテンツの特徴量の時系列を、コード系列に変換する。
Further, the
学習部27は、学習用コンテンツの特徴量の時系列をクラスタリングすることにより、コード系列に変換すると、そのコード系列を用いて、HMM(離散HMM)の学習であるモデル学習を行う。
The
そして、学習部27は、モデル学習後のHMMであるコードモデルと、クラスタ学習により得られるクラスタ情報としてのコードブックとのセットを、コンテンツモデルとして、学習用コンテンツのカテゴリと対応付けて、モデル記憶部13に出力(供給)し、コンテンツモデル学習処理を終了する。
Then, the
なお、コンテンツモデル学習処理は、任意のタイミングで開始することができる。 The content model learning process can be started at an arbitrary timing.
以上のコンテンツモデル学習処理によれば、コードモデルであるHMMにおいて、学習用コンテンツに潜む、コンテンツの構造(例えば、番組構成や、カメラワーク等が作り出す構造)が自己組織的に獲得される。 According to the content model learning process described above, in the HMM that is a code model, the content structure (for example, a program structure, a structure created by camera work, etc.) hidden in the learning content is acquired in a self-organizing manner.
その結果、コンテンツモデル学習処理よって得られるコンテンツモデルにおけるコードモデルとしてのHMMの各状態は、学習によって獲得されたコンテンツの構造の要素に対応し、状態遷移は、コンテンツの構造の要素どうしの間での、時間的な遷移を表現する。 As a result, each state of the HMM as a code model in the content model obtained by the content model learning process corresponds to an element of the content structure acquired by learning, and the state transition is between the elements of the content structure. Of time transitions.
そして、コードモデルの状態は、特徴量空間(特徴量抽出部22(図3)で抽出される特徴量の空間)において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群(つまり「似たシーン」)をまとめて表現する。 The state of the code model is close to the spatial distance in the feature amount space (the feature amount space extracted by the feature amount extraction unit 22 (FIG. 3)) and has similar temporal context. Represent a group of frames (ie “similar scenes”) together.
[シンボル列生成部14の構成例]
図10は、図1のシンボル列生成部14の構成例を示している。
[Configuration Example of Symbol Sequence Generation Unit 14]
FIG. 10 shows a configuration example of the symbol
シンボル列生成部14は、コンテンツ選択部31、モデル選択部32、特徴量抽出部33、及び最尤状態系列推定部34から構成される。
The symbol
コンテンツ選択部31は、制御部16からの制御に従い、コンテンツ記憶部11に記憶されたコンテンツの中から、シンボル列を生成するためのコンテンツを、注目コンテンツとして選択する。
The
なお、制御部16は、例えば、操作部17からの、ユーザの選択操作に対応する操作信号に基づいて、コンテンツ選択部31を制御し、ユーザの選択操作により選択されたコンテンツを、注目コンテンツとして選択させる。
For example, the
また、コンテンツ選択部31は、注目コンテンツを、特徴量抽出部33に供給する。さらに、コンテンツ選択部31は、注目コンテンツのカテゴリを認識し、モデル選択部32に供給する。
In addition, the
モデル選択部32は、モデル記憶部13に記憶されたコンテンツモデルの中から、コンテンツ選択部31からの、注目コンテンツのカテゴリと一致するカテゴリのコンテンツモデル(注目コンテンツのカテゴリに対応付けられたコンテンツモデル)を、注目モデルに選択する。
The
そして、モデル選択部32は、注目モデルを、最尤状態系列推定部34に供給する。
Then, the
特徴量抽出部33は、コンテンツ選択部31から供給される注目コンテンツの(画像の)各フレームの特徴量を、図3の特徴量抽出部22と同様にして抽出し、注目コンテンツの各フレームの特徴量(の時系列)を、最尤状態系列推定部34に供給する。
The feature
最尤状態系列推定部34は、モデル選択部32からの注目モデルのクラスタ情報を用いて、特徴量抽出部33からの注目コンテンツの特徴量(の時系列)をクラスタリングし、注目コンテンツの(特徴量の)コード系列を求める。
The maximum likelihood state
さらに、最尤状態系列推定部34は、例えば、Viterbiアルゴリズムに従い、モデル選択部32からの注目モデルのコードモデルにおいて、特徴量抽出部33からの注目コンテンツの(特徴量の)コード系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列(いわゆるビタビパスを構成する状態の系列)を推定する。
Further, the maximum likelihood state
そして、最尤状態系列推定部34は、注目モデルのコードモデル(以下、注目コードモデルともいう)において、注目コンテンツのコード系列が観測される場合の最尤状態系列(以下、注目コンテンツに対する注目コードモデルの最尤状態系列ともいう)を、シンボル列として、分割部15に供給する。
The maximum likelihood
なお、最尤状態系列推定部34は、注目コンテンツに対する注目コードモデルの最尤状態系列に代えて、クラスタリングにより求めた注目コンテンツのコード系列(クラスタIDの系列)を、シンボル列として、分割部15に供給するようにしてもよい。
The maximum likelihood state
ここで、注目コンテンツに対する注目コードモデルの最尤状態系列の先頭を基準とする時刻tの状態(最尤状態系列を構成する、先頭からt番目の状態)を、s(t)と表すとともに、注目コンテンツのフレーム数を、Tと表すこととする。 Here, the state at time t (t-th state from the top constituting the maximum likelihood state sequence) with respect to the top of the maximum likelihood state sequence of the attention code model for the attention content is expressed as s (t), Let T denote the number of frames of the content of interest.
この場合、注目コンテンツに対する注目コードモデルの最尤状態系列は、T個の状態s(1),S(2),・・・,s(T)の系列であり、そのうちのt番目の状態(時刻tの状態)s(t)は、注目コンテンツの時刻tのフレーム(フレームt)に対応する。 In this case, the maximum likelihood state sequence of the attention code model for the attention content is a sequence of T states s (1), S (2),..., S (T), of which the t-th state ( The state (time t) s (t) corresponds to the frame (frame t) of the content of interest at time t.
また、注目コードモデルの状態の総数をNと表すこととすると、時刻tの状態s(t)は、N個の状態s1,s2,・・・,sNのうちのいずれかである。 Also, if it represents the total number of states of the attention code model and N, the state at time t s (t) is the one of N states s 1, s 2, ···, s N .
さらに、N個の状態s1,s2,・・・,sNのそれぞれには、状態を特定するインデクスである状態ID(Identification)が付されている。 Furthermore, each of the N states s 1 , s 2 ,..., S N is assigned a state ID (Identification) that is an index for specifying the state.
いま、注目コンテンツに対する注目コードモデルの最尤状態系列の時刻tの状態s(t)が、N個の状態s1乃至sNのうちのi番目の状態siであるとすると、時刻tのフレームは、状態siに対応する。 Assuming that the state s (t) at the time t of the maximum likelihood state sequence of the code model of interest for the content of interest is the i-th state s i of the N states s 1 to s N , The frame corresponds to state s i .
したがって、注目コンテンツの各フレームは、N個の状態s1乃至sNのうちのいずれかに対応する。 Therefore, each frame of the content of interest corresponds to one of N states s 1 to s N.
注目コンテンツに対する注目コードモデルの最尤状態系列の実体は、注目コンテンツの各時刻tのフレームが対応する、N個の状態s1乃至sNのうちのいずれかの状態の状態IDの系列である。 The entity of the maximum likelihood state sequence of the attention code model for the attention content is a state ID sequence of one of the N states s 1 to s N corresponding to the frame at each time t of the attention content. .
図11は、図10のシンボル列生成部14が行うシンボル列生成処理の概要を示している。
FIG. 11 shows an outline of the symbol string generation process performed by the symbol
図11のAは、コンテンツ選択部31において注目コンテンツとして選択されたコンテンツのフレームの時系列を示している。
11A shows a time series of frames of content selected as content of interest by the
図11のBは、特徴量抽出部33において抽出された、図11のAのフレームの時系列の特徴量の時系列を示している。
B of FIG. 11 shows a time series of time-series feature amounts extracted by the feature
図11のCは、最尤状態系列推定部34において、図11のBの特徴量の時系列をクラスタリングすることにより得られるコードのコード系列を示している。
C of FIG. 11 shows a code sequence of a code obtained by clustering the time series of the feature values of B of FIG. 11 in the maximum likelihood state
図11のDは、最尤状態系列推定部34において推定される、注目コードモデルにおいて、図11のCの注目コンテンツの(特徴量の時系列の)コード系列が観測される最尤状態系列(注目コンテンツに対する注目コードモデルの最尤状態系列)を示している。
D in FIG. 11 is a maximum likelihood state sequence in which the code sequence (of the feature amount time series) of the content of interest in FIG. 11C is observed in the attention code model estimated by the maximum likelihood state
シンボル列生成部14は、図11のCに示されるコード系列をシンボル列として、分割部15に供給する場合、コード系列を構成する各コード(クラスタID)を、シンボルとして、分割部15に供給する。
When the code sequence shown in C of FIG. 11 is supplied as a symbol sequence to the dividing
また、シンボル列生成部14は、図11のDに示される最尤状態系列をシンボル列として、分割部15に供給する場合、最尤状態系列を構成する各状態IDを、シンボルとして、分割部15に供給する。
In addition, when the symbol
[シンボル列生成部14の動作説明]
次に、図12のフローチャートを参照して、シンボル列生成部14が行うシンボル列生成処理を説明する。
[Description of operation of symbol string generation unit 14]
Next, a symbol string generation process performed by the symbol
このシンボル列生成処理は、例えば、ユーザが、操作部17を用いて、コンテンツ記憶部11に記憶されたコンテンツの中から、シンボル列を生成するためのコンテンツを選択する選択操作を行ったときに開始される。
This symbol sequence generation processing is performed when, for example, the user performs a selection operation for selecting content for generating a symbol sequence from the content stored in the
このとき、操作部17は、ユーザの選択操作に対応する操作信号を、制御部16に供給する。制御部16は、操作部17からの操作信号に基づいて、コンテンツ選択部31を制御する。
At this time, the
すなわち、ステップS41では、コンテンツ選択部31は、制御部16からの制御に従い、コンテンツ記憶部11に記憶されたコンテンツの中から、シンボル列を生成するためのコンテンツを、注目コンテンツとして選択する。
That is, in step S <b> 41, the
そして、コンテンツ選択部31は、注目コンテンツを、特徴量抽出部33に供給する。また、コンテンツ選択部31は、注目コンテンツのカテゴリを認識し、モデル選択部32に供給する。
Then, the
ステップS42では、モデル選択部32は、モデル記憶部13に記憶されたコンテンツモデルの中から、コンテンツ選択部31からの、注目コンテンツのカテゴリと一致するカテゴリのコンテンツモデル(注目コンテンツのカテゴリに対応付けられたコンテンツモデル)を、注目モデルに選択する。
In step S42, the
そして、モデル選択部32は、注目モデルを、最尤状態系列推定部34に供給する。
Then, the
ステップS43では、特徴量抽出部33は、コンテンツ選択部31から供給される注目コンテンツの(画像の)各フレームの特徴量を、図3の特徴量抽出部22と同様にして抽出し、注目コンテンツの各フレームの特徴量(の時系列)を、最尤状態系列推定部34に供給する。
In step S43, the feature
ステップS44では、最尤状態系列推定部34は、モデル選択部32からの注目モデルのクラスタ情報を用いて、特徴量抽出部33からの注目コンテンツの特徴量(の時系列)をクラスタリングし、注目コンテンツの(特徴量の)コード系列を求める。
In step S44, the maximum likelihood state
さらに、最尤状態系列推定部34は、例えば、Viterbiアルゴリズムに従い、モデル選択部32からの注目モデルのコードモデルにおいて、特徴量抽出部33からの注目コンテンツの(特徴量の)コード系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列(いわゆるビタビパスを構成する状態の系列)を推定する。
Further, the maximum likelihood state
そして、最尤状態系列推定部34は、注目モデルのコードモデル(以下、注目コードモデルともいう)において、注目コンテンツのコード系列が観測される場合の最尤状態系列(以下、注目コンテンツに対する注目コードモデルの最尤状態系列ともいう)を、シンボル列として、分割部15に供給する。
The maximum likelihood
なお、最尤状態系列推定部34は、注目コンテンツに対する注目コードモデルの最尤状態系列に代えて、クラスタリングにより求めた注目コンテンツのコード系列を、シンボル列として、分割部15に供給するようにしてもよい。以上でシンボル列生成処理は終了される。
The maximum likelihood state
次に、図13は、分割部15が、シンボル列生成部14からのシンボル列に基づいて、コンテンツを意味的にまとまりのある複数のセグメントに分割するときの一例を示している。
Next, FIG. 13 shows an example when the dividing
なお、図13は、図2と同様に構成されている。すなわち、例えば、図13において、横軸は時刻tを表しており、縦軸はフレームtのシンボルを表している。 Note that FIG. 13 is configured in the same manner as FIG. That is, for example, in FIG. 13, the horizontal axis represents time t, and the vertical axis represents the symbol of frame t.
また、図13には、コンテンツを6個のセグメントS1,S2,S3,S4,S5,S6に分割するための分割線(太い線分で示す)が示されている。なお、分割線は、任意の時刻tに配置される(引かれる)。 FIG. 13 also shows a dividing line (indicated by a thick line segment) for dividing the content into six segments S 1 , S 2 , S 3 , S 4 , S 5 , S 6 . The dividing line is arranged (drawn) at an arbitrary time t.
ここで、シンボル列としてコード系列が採用される場合、シンボルは、コード系列を構成する各コード(図11のCに示されるコード)となる。また、シンボル列として最尤状態系列が採用される場合、シンボルは、最尤状態系列を構成するコード(図11のDに示されるコード)となる。 Here, when a code sequence is adopted as the symbol sequence, the symbol is each code (code indicated by C in FIG. 11) constituting the code sequence. Further, when the maximum likelihood state sequence is adopted as the symbol string, the symbol is a code constituting the maximum likelihood state sequence (a code indicated by D in FIG. 11).
分割部15は、図2を参照して説明したように、第1の部分系列と第2の部分系列との境界や、第1の部分系列どうしの境界、第2の部分系列どうしの境界に、分割線を引くようにして、コンテンツを分割する。
As described with reference to FIG. 2, the dividing
すなわち、例えば、分割部15は、図13に示される各セグメントSi(i=1,2,…,6)のエントロピ(entropy)H(Si)の総和Qが最小となるように、分割線を引けばよい。ここで、セグメントSiのエントロピとは、セグメントSiにおけるシンボルのばらつきの程度を表す。
That is, for example, the dividing
なお、分割線が、任意の時刻tの位置に配置された場合、フレームtを境界として、コンテンツが分割される。すなわち、例えば、まだ分割されていないコンテンツにおいて、分割線が任意の時刻tの位置に配置された場合、そのコンテンツは、先頭のフレーム0からフレームt-1までを含むセグメントと、フレームtから最後のフレームTまでを含むセグメントに分割される。
When the dividing line is arranged at an arbitrary time t, the content is divided with the frame t as a boundary. That is, for example, in content that has not yet been divided, if the dividing line is placed at the position of an arbitrary time t, the content includes the segment including the
分割部15は、シンボル列生成部14からの、図13に示されるようなシンボル列における各シンボルのばらつき(分散)に基づいて、コンテンツを分割すべき分割位置(分割線を引くべき位置)を算出する。
The dividing
そして、分割部15は、シンボル列生成部14からのシンボル列に対応するコンテンツを、コンテンツ記憶部11から読み出し、算出した分割位置で、複数のセグメントに分割する。
Then, the dividing
すなわち、例えば、分割部15は、操作部17を用いたユーザの指定操作により指定された総分割数Dで、コンテンツを、D個のセグメントSi(i=1,2,…,D)に分割する。
That is, for example, the dividing
具体的には、例えば、分割部15は、次式(1)により、セグメントSi毎のエントロピH(Si)を算出する。
Specifically, for example, the dividing
ここで、式(1)において、確率P[Si](k)は、セグメントSiにおいて、例えばシンボルを昇順に並べたときの、k番目のシンボル(k番目に小さい値とされるシンボル)が出現する確率を表す。 Here, in equation (1), the probability P [Si] (k) is the kth symbol (symbol with the kth smallest value), for example, when symbols are arranged in ascending order in the segment Si. Represents the probability of
さらに、式(1)において、P[Si](k)=(セグメントSi内における、k番目のシンボルの出現頻度数)/(セグメントSi内におけるシンボルの総数)である。 Further, in the equation (1), P [Si] (k) = (number of appearance frequencies of k-th symbol in segment Si) / (total number of symbols in segment Si).
また分割部15は、次式(2)を用いて、全てのセグメントS1乃至SDのエントロピH(S1)乃至H(SD)の総和Qを算出する。
Further, the dividing
この総和Qが最小となるときのセグメントS1,S2,S3,S4,S5,S6,…SDが、図13に示されるような分割線で分割されたセグメントS1,S2,S3,S4,S5,S6,…SDとなる。
Segments S 1 , S 2 , S 3 , S 4 , S 5 , S 6 ,... S D when the total sum Q is minimum are divided by segment lines S 1 , S 2, S 3, S 4 ,
したがって、分割部15は、算出した総和Qを最小化する最小化問題を解くことにより、コンテンツを複数のセグメントS1乃至SDに分割し、分割後のコンテンツを、コンテンツ記憶部11に供給して記憶させる。
Therefore, the dividing
なお、総和Qの最小化問題を解くには、例えば、再帰二分割処理や、焼きなまし分割処理を用いることができる。なお、総和Qの最小化問題を解く方法は、これに限定されず、例えばタブーサーチや遺伝的アルゴリズム等を利用して、最小化問題を解くこともできる。 In order to solve the minimization problem of the sum Q, for example, recursive bisection processing or annealing division processing can be used. Note that the method for solving the minimization problem of the sum Q is not limited to this, and the minimization problem can also be solved by using, for example, a tabu search or a genetic algorithm.
ここで、再帰二分割処理とは、分割後の各セグメントのエントロピの総和が最小となる分割位置で、コンテンツを分割する処理を再帰的に(繰り返して)行うことにより、コンテンツ、複数のセグメントに分割する処理をいう。再帰二分割処理は、図14を参照して詳述する。 Here, the recursive bisection process is a process of dividing the content recursively (repeatedly) at a division position where the total entropy of each segment after division is the minimum, thereby dividing the content into a plurality of segments. The process to divide. The recursive bisection process will be described in detail with reference to FIG.
また、焼きなまし分割処理とは、コンテンツを任意に分割した分割位置を、エントロピの総和を最小化する分割位置に変更していく処理を行うことにより、コンテンツを、複数のセグメントに分割する処理をいう。焼きなまし分割処理は、図15を参照して詳述する。 The annealing division process is a process of dividing the content into a plurality of segments by performing a process of changing the division position where the content is arbitrarily divided into division positions that minimize the total entropy. . The annealing division process will be described in detail with reference to FIG.
[分割部15の動作説明]
次に、図14のフローチャートを参照して、分割部15が行う再帰二分割処理を説明する。
[Description of operation of dividing unit 15]
Next, the recursive bisection process performed by the dividing
この再帰二分割処理は、例えば、ユーザが、操作部17を用いて、コンテンツの総分割数Dを指定する指定操作をしたときに開始される。このとき、操作部17は、ユーザの指定操作に対応する操作信号を、制御部16に供給する。
This recursive bisection process is started, for example, when the user performs a designation operation for designating the total content division number D using the
制御部16は、操作部17からの操作信号に応じて、分割部15を制御し、ユーザにより指定された総分割数Dで、分割部15にシンボル列を分割させる。
The
すなわち、ステップS81では、分割部15は、図示せぬ内蔵のメモリに予め保持している分割数dを1に設定する。この分割数dは、再帰二分割処理において、シンボル列を分割した分割数を表す。なお、分割数d=1であるとき、シンボル列はまだ分割されていないことを表す。
That is, in step S81, the dividing
ステップS82では、分割部15は、シンボル列生成部14からのシンボル列における各シンボルの分散に基づいて、分割線を追加可能な時刻を表す追加ポイントLiのうち、まだ分割線が追加されていない追加ポイントLi毎に、分割線を追加したときのエントロピの総和Q=Q(Li)を算出する。
In step S82, the dividing
ここで、追加ポイントLiは、コンテンツを構成する各フレーム0乃至Tのうち、フレーム1乃至Tに対応するの時刻tとされる。
Here, the additional point Li is the time t corresponding to the
ステップS83では、分割部15は、ステップS82で算出したエントロピの総和Q(Li)のうち、総和Q(Li)が最小となるときのLiを、L*とする。そして、ステップS84では、分割部15は、追加ポイントL*に、分割線を追加し、ステップS85において分割数dに1を加算(インクリメント)する。
In step S83, the dividing
これにより、分割部15は、シンボル列生成部14からのシンボル列を、追加ポイントL*で分割したこととなる。
Thereby, the dividing
ステップS86では、分割部15は、分割数dが、ユーザの指定操作により指定された総分割数Dと等しいか否かを判定し、分割数dが総分割数Dと等しくないと判定した場合、処理をステップS82に戻し、それ以降、同様の処理を繰り返す。
In step S86, the dividing
また、ステップS86では、分割部15は、分割数dが総分割数Dと等しいと判定した場合、すなわち、シンボル列をD個のセグメントS1乃至SDに分割したと判定した場合、再帰二分割処理を終了する。
In step S86, if the
そして、分割部15は、コンテンツ記憶部11から、シンボル列生成部14でシンボル列に変換されたコンテンツと同一のコンテンツを読み出し、読み出したコンテンツを、シンボル列を分割した分割位置と同一の分割位置で分割する。分割部15は、複数のセグメントS1乃至SDに分割したコンテンツを、コンテンツ記憶部11に供給して記憶させる。
Then, the dividing
以上説明したように、図14の再帰二分割処理によれば、コンテンツを、エントロピH(Si)の総和Qが最小となるD個のセグメントS1乃至SDに分割するようにした。 As described above, according to the recursive bisection processing of FIG. 14, the content is divided into D segments S 1 to S D having the minimum total Q of entropy H (Si).
したがって、図14の再帰二分割処理によれば、被験者と同様にして、コンテンツを、意味的にまとまりのあるセグメントに分割することが可能となる。 Therefore, according to the recursive bisection process of FIG. 14, it is possible to divide the content into segments that are semantically coherent in the same manner as the subject.
すなわち、例えば、コンテンツを、複数のセグメントとして、番組のコーナーや、ニュースの各トピックに、分割することができる。 That is, for example, the content can be divided into a plurality of segments into program corners and news topics.
また、図14の再帰二分割処理によれば、比較的単純なアルゴリズムを用いて、コンテンツを分割するようにしている。このため、再帰二分割処理では、比較的少ない計算量で、迅速に、コンテンツを分割することが可能となる。 Further, according to the recursive bisection process of FIG. 14, the content is divided using a relatively simple algorithm. For this reason, in the recursive two-division process, it is possible to divide content quickly with a relatively small amount of calculation.
[分割部15の他の動作説明]
次に、図15のフローチャートを参照して、分割部15が行う焼きなまし分割処理を説明する。
[Description of Other Operations of Dividing Unit 15]
Next, the annealing division process performed by the dividing
この焼きなまし分割処理は、例えば、ユーザが、操作部17を用いて、コンテンツの総分割数Dを指定する指定操作をしたときに開始される。このとき、操作部17は、ユーザの指定操作に対応する操作信号を、制御部16に供給する。制御部16は、操作部17からの操作信号に応じて、分割部15を制御し、ユーザにより指定された総分割数Dで、分割部15にシンボル列を分割させる。
This annealing division process is started, for example, when the user performs a designation operation for designating the total division number D of content using the
ステップS111では、分割部15は、分割線を追加可能な時刻を表す追加ポイントLiのうち、任意にD-1個の追加ポイントLiを選択し、選択したD-1個の追加ポイントLiに分割線を追加(配置)する。これにより、分割部15は、シンボル列生成部14からのシンボル列を、暫定的に、D個のセグメントS1乃至SDに分割したこととなる。
In step S111, the dividing
ステップS112では、分割部15は、図示せぬ内蔵のメモリに予め保持している変数t及びjをそれぞれ1に設定する。また、分割部15は、図示せぬ内蔵のメモリに予め保持している温度パラメータtempを所定の値に設定(初期化)する。
In step S112, the dividing
ステップS113では、分割部15は、変数tが予め決められた閾値NREPであるか否かを判定し、変数tが閾値NREPではないと判定した場合、処理をステップS114に進める。
In step S113, the dividing
ステップS114では、分割部15は、変数jが予め決められた閾値NIREPであるか否かを判定し、変数jが閾値NIREPであると判定した場合、処理をステップS115に進める。なお、閾値NIREPは、閾値NREPよりも十分に大きな値とされることが望ましい。
In step S114, the dividing
ステップS115では、分割部15は、図示せぬ内蔵のメモリに予め保持している温度パラメータtempに0.9を乗算して得られる乗算結果temp×0.9を、変更後のtempとする。また、ステップS116では、分割部15は、変数tに1を加算(インクリメント)し、ステップS117において、変数jを1とする。
In step S115, the dividing
その後、処理は、ステップS113に戻され、分割部15は、それ以降同様の処理を行う。
Thereafter, the process returns to step S113, and the dividing
ステップS114において、分割部15は、変数jが閾値NIREPではないと判定した場合、処理をステップS118に進める。
In step S114, when the dividing
ステップS118では、分割部15は、分割線を追加済みのD-1個の追加ポイントLiのうち、任意の追加ポイントLiを決定し、決定した追加ポイントLiの前後RNG幅を算出する。ここで、前後RNG幅とは、追加ポイントLi-xから追加ポイントLi+xまでの範囲を表す。なお、自然数xは、分割部15で予め設定されているものとする。
In step S118, the dividing
ステップS119では、分割部15は、ステップS118で決定した追加ポイントLiを、同じくステップS118で算出した前後RNG幅に含まれる追加ポイントLn(nはi-xからi+xまでの自然数とされる)に移動したときのQ(Ln)を算出する。
In step S119, the dividing
ステップS120では、分割部15は、ステップS119で算出した複数のQ(Ln)のうち、Q(Ln)が最小となるときのLnをL*に決定し、Q(L*)を算出する。また、分割部15は、分割線が移動前のQ(Li)を算出する。
In step S120, the dividing
ステップS121では、分割部15は、分割線を移動後のQ(L*)から、分割線を移動前のQ(Li)を差し引いて得られる差分ΔQ=Q(L*)-Q(Li)を算出する。
In step S121, the dividing
ステップS122では、分割部15は、ステップS121で算出した差分ΔQが0未満であるか否かを判定し、差分ΔQが0未満であると判定した場合、処理をステップS123に進める。
In step S122, the dividing
ステップS123では、分割部15は、ステップS118で決定した追加ポイントLiに配置されている分割線を、ステップS120で決定した追加ポイントL*に移動させ、処理をステップS125に進める。
In step S123, the dividing
また、ステップS122において、分割部15は、差分ΔQが0未満ではない(0以上である)と判定した場合、処理をステップS124に進める。
In step S122, when the dividing
ステップS124では、分割部15は、exp(ΔQ/temp)(=自然対数の底eのΔQ/temp乗)の確率で、ステップS118で決定した追加ポイントLiに配置されている分割線を、ステップS120で決定した追加ポイントL*に移動させ、処理をステップS125に進める。
In step S124, the dividing
ステップS125では、分割部15は、変数jに1を加算し、処理をステップS114に戻し、それ以降、同様の処理を行う。
In step S125, the dividing
なお、ステップS113において、分割部15は、変数tが予め決められた閾値NREPであると判定した場合、図15の焼きなまし分割処理は終了される。
In step S113, when the dividing
そして、分割部15は、コンテンツ記憶部11から、シンボル列生成部14でシンボル列に変換されたコンテンツと同一のコンテンツを読み出し、読み出したコンテンツを、シンボル列を分割した分割位置と同一の分割位置で分割する。分割部15は、複数のセグメントS1乃至SDに分割したコンテンツを、コンテンツ記憶部11に供給して記憶させる。
Then, the dividing
以上説明したように、図15の焼きなまし分割処理によれば、図14の再帰二分割処理と同様、コンテンツを、意味的にまとまりのあるセグメントに分割することが可能となる。 As described above, according to the annealing division process of FIG. 15, it is possible to divide the content into semantically coherent segments as in the recursive bisection process of FIG.
ところで、分割部15は、ユーザの指定操作により指定された総分割数Dで、コンテンツ記憶部11から読み出したコンテンツを分割するようにした。しかしながら、その他、例えば、分割部15は、コンテンツを分割可能な総分割数のうち、エントロピの総和Qが最小となる総分割数Dで、コンテンツを分割するようにしてもよい。
By the way, the dividing
また、例えば、ユーザの指定操作により、総分割数Dが指定されたときには、指定された総分割数Dで、総分割数Dが指定されなかったときには、エントロピの総和Qが最小となる総分割数Dで分割するようにしてもよい。 Also, for example, when the total number of divisions D is specified by the user's specifying operation, the total number of divisions D is specified, and when the total number of divisions D is not specified, the total division that minimizes the total entropy Q You may make it divide | segment by the number D. FIG.
[レコーダ1の動作説明]
次に、図16のフローチャートを参照して、レコーダ1が、ユーザの指定操作により、総分割数Dが指定されたときには、指定された総分割数Dで、総分割数Dが指定されなかったときには、エントロピの総和Qが最小となる総分割数Dで分割するコンテンツ分割処理を説明する。
[Description of operation of recorder 1]
Next, referring to the flowchart of FIG. 16, when the total number of divisions D is designated by the user's designation operation, the
ステップS151では、コンテンツモデル学習部12は、図9を参照して説明したコンテンツモデル学習処理を行う。
In step S151, the content
ステップS152では、シンボル列生成部14は、図12を参照して説明したシンボル列生成処理を行う。
In step S152, the symbol
ステップS153では、制御部16は、操作部17からの操作信号に基づいて、ユーザの指定操作により、予め決められた期間内に総分割数Dが指定されたか否かを判定する。
In step S153, based on the operation signal from the
そして、制御部16は、操作部17からの操作信号に基づいて、ユーザの指定操作により、総分割数Dが指定されたと判定した場合、分割部15を制御して、分割部15に、ユーザの指定操作により指定された総分割数Dでコンテンツを分割させる。
Then, when the
すなわち、例えば、分割部15は、図14の再帰二分割処理や図15の焼きなまし分割処理により得られる分割位置(分割線が配置される位置)で、コンテンツを分割する。そして、分割部15は、総分割数Dのセグメントに分割したコンテンツを、コンテンツ記憶部11に供給して記憶させる。
That is, for example, the dividing
また、ステップS153では、制御部16は、操作部17からの操作信号に基づいて、ユーザの指定操作により、総分割数Dが指定されなかったと判定した場合、処理をステップS155に進める。
In step S153, when the
ステップS155以降の処理では、制御部16は、分割部15を制御して、コンテンツを分割可能な総分割数のうち、エントロピの総和Qが最小となる総分割数Dを算出し、算出した総分割数Dで、分割対象のコンテンツを分割させる。
In the processing after step S155, the
すなわち、ステップS155では、分割部15は、例えば、再帰二分割処理や焼きなまし分割処理の一方である分割処理を用いて、所定の総分割数D(例えば、D=2)でシンボル列を分割するときのエントロピの総和QDを算出する。
That is, in step S155, the dividing
ステップS156では、分割部15は、算出した総和QDに基づいて、平均エントロピmean(QD)= QD/Dを算出する。
In step S156, the dividing
ステップS157では、分割部15は、ステップS155と同一の分割処理を用いて、総分割数D+1でシンボル列を分割するときのエントロピの総和QD+1を算出する。
In step S157, the dividing
ステップS158では、分割部15は、算出したQD+1に基づいて、平均エントロピmean(QD+1)=QD+1/(D+1)を算出する。
In step S158, the dividing
ステップS159では、分割部15は、ステップS158で算出した平均エントロピmean(QD+1)から、ステップS156で算出した平均エントロピmean(QD)を差し引いて得られる差分Δmeanを算出する。
In step S159, the dividing
ステップS160では、分割部15は、ステップS159で算出した差分Δmeanが予め決められた閾値TH未満であるか否かを判定し、差分Δmeanが閾値TH未満ではない(閾値TH以上である)と判定した場合、処理をステップS161に進める。
In step S160, the dividing
ステップS161では、分割部15は、所定の総分割数Dに1を加算して得られる加算結果D+1を、新たな所定の総分割数Dとし、処理をステップS157に戻し、それ以降同様の処理を行う。
In step S161, the dividing
ステップS160では、分割部15は、ステップS159で算出した差分Δmeanが閾値TH未満であると判定した場合、所定の総分割数Dでシンボル列を分割するときのエントロピの総和Qが最小であるものとし、処理をステップS162に進める。
In step S160, when the dividing
ステップS162では、分割部15は、シンボル列を分割した分割位置と同一の分割位置で、コンテンツを分割し、その分割により得られる、所定の総分割数Dで分割されたコンテンツを、コンテンツ記憶部11に供給して記憶させる。以上で、図16のコンテンツ分割処理は終了される。
In step S162, the dividing
以上説明したように、図16のコンテンツ分割処理では、ユーザの指定操作により、総分割数Dが指定されたときには、指定された総分割数Dでコンテンツを分割した。このため、ユーザが指定した所望の総分割数Dでコンテンツを分割できる。 As described above, in the content division processing of FIG. 16, when the total division number D is designated by the user's designation operation, the content is divided by the designated total division number D. For this reason, the content can be divided by the desired total division number D designated by the user.
また、図16のコンテンツ分割処理によれば、ユーザの指定操作により、総分割数Dが指定されなかったときには、シンボル列のエントロピの総和Qが最小となる総分割数Dでコンテンツを分割するようにした。このため、コンテンツを分割する際に、ユーザが総分割数Dを指定する手間を省くことが可能となる。 Further, according to the content division processing of FIG. 16, when the total number of divisions D is not specified by the user's designation operation, the content is divided by the total number of divisions D that minimizes the total entropy Q of the symbol string I made it. Therefore, it is possible to save the user from specifying the total number of divisions D when dividing the content.
第1の実施の形態では、レコーダ1は、コンテンツを、意味的にまとまりのある複数のセグメントに分割するようにした。これにより、レコーダ1のユーザは、意味的にまとまりのある複数のセグメントの中から、所望のセグメント(例えば、番組の一部分である所定のコーナー)を選択して再生させることがきる。
In the first embodiment, the
第1の実施の形態では、レコーダ1が、コンテンツを複数のセグメントに分割するようにしたが、分割の対象はコンテンツに限定されず、例えば、音声データや、脳波の波形などであってもよい。すなわち、分割の対象は、データが時系列に並ぶ時系列データであれば、どのようなデータであってもよい。
In the first embodiment, the
ところで、セグメント毎に、そのセグメントのダイジェスト(要約)を生成すれば、ユーザは、生成されたダイジェストを参照することにより、所望のセグメントをより容易に選択して再生させることができる。 By the way, if a digest (summary) of the segment is generated for each segment, the user can select and reproduce a desired segment more easily by referring to the generated digest.
このため、コンテンツを意味的にまとまりのある複数のセグメントに分割する他、複数のセグメント毎にダイジェストを生成することが望ましい。 For this reason, it is desirable to generate a digest for each of the plurality of segments in addition to dividing the content into a plurality of segments that are semantically grouped.
次に、図17乃至図25を参照して、コンテンツを意味的にまとまりのある複数のセグメントに分割する他、複数のセグメント毎にダイジェストを生成するようにしたレコーダ51について説明する。
Next, with reference to FIGS. 17 to 25, a
<2.第2の実施の形態>
[レコーダ51の構成例]
次に、図17は、第2の実施の形態であるレコーダ51の構成例を示している。
<2. Second Embodiment>
[Configuration Example of Recorder 51]
Next, FIG. 17 shows a configuration example of the
なお、図17のレコーダ51では、第1の実施の形態であるレコーダ1(図1)と同様に構成される部分について同一の符号を付すようにしているので、それらの説明は、以下、適宜省略する。
In the
すなわち、レコーダ51において、図1の分割部15に代えて分割部71が設けられているとともに、新たにダイジェスト生成部72が設けられている他は、図1のレコーダ1と同様に構成される。
That is, the
分割部71は、図1の分割部15と同様の処理を行う。そして、分割部71は、複数のセグメントに分割後のコンテンツを、ダイジェスト生成部72を介して、コンテンツ記憶部11に供給して記憶させる。
The dividing unit 71 performs the same processing as the dividing
また、分割部71は、コンテンツを複数のセグメントに分割したときの、各セグメントの先頭のフレーム(分割線が配置された時刻tのフレームt)を一意に識別するためのチャプタIDを、チャプタポイントデータとして生成し、ダイジェスト生成部72に供給する。
In addition, the dividing unit 71 assigns a chapter ID for uniquely identifying the first frame of each segment (the frame t at the time t at which the dividing line is arranged) when the content is divided into a plurality of segments. Data is generated and supplied to the digest
以下の説明では、分割部71がコンテンツを分割することにより得られるセグメントを、チャプタともいう。 In the following description, a segment obtained by dividing the content by the dividing unit 71 is also referred to as a chapter.
次に、図18は、分割部71により生成されるチャプタポイントデータの一例を示している。 Next, FIG. 18 shows an example of chapter point data generated by the dividing unit 71.
図18には、コンテンツを構成する複数のフレームのうち、フレーム番号300,720,1115,1431に対応する各フレームの時刻に、分割線が配置されたときの一例を示している。
FIG. 18 shows an example in which a dividing line is arranged at the time of each frame corresponding to frame
すなわち、コンテンツが、フレーム番号0乃至299に対応する各フレームから構成されるチャプタ(セグメント)、フレーム番号300乃至719に対応する各フレームから構成されるチャプタ、フレーム番号720乃至1114に対応する各フレームから構成されるチャプタ、フレーム番号1115乃至1430に対応する各フレームから構成されるチャプタ、・・・に分割されたときの一例を示している。
That is, a chapter (segment) whose content is composed of frames corresponding to frame
ここで、フレーム番号tとは、コンテンツの先頭からt番目のフレームtを一意に識別するための番号をいう。 Here, the frame number t is a number for uniquely identifying the t-th frame t from the beginning of the content.
チャプタIDは、チャプタを構成する各フレームのうち、先頭のフレーム(フレーム番号が最小のフレーム)に対応付けられている。すなわち、チャプタID「0」は、フレーム番号0のフレーム0に対応付けられ、チャプタID「1」は、フレーム番号300のフレーム300に対応付けられる。また、チャプタID「2」は、フレーム番号720のフレーム720に対応付けられ、チャプタID「3」は、フレーム番号1115のフレーム1115に対応付けられ、チャプタID「4」は、フレーム番号1431のフレーム1431に対応付けられる。
The chapter ID is associated with the first frame (frame with the smallest frame number) among the frames constituting the chapter. That is, chapter ID “0” is associated with
分割部71は、図18に示されるような複数のチャプタIDを、チャプタポイントデータとして、図17のダイジェスト生成部72に供給する。
The dividing unit 71 supplies a plurality of chapter IDs as shown in FIG. 18 to the digest generating
図17に戻る。ダイジェスト生成部72は、コンテンツ記憶部11から、分割部71が読み出したコンテンツと同一のコンテンツを読み出す。
Returning to FIG. The digest
また、ダイジェスト生成部72は、分割部71からのチャプタポイントデータに基づいて、コンテンツ記憶部11から読み出したコンテンツの各チャプタを識別する。そして、ダイジェスト生成部72は、識別した各チャプタから、予め決められた長さ(基本セグメント長)のチャプタセグメントを抽出する。
Further, the digest generating
すなわち、ダイジェスト生成部72は、識別した各チャプタから、チャプタを代表する部分、つまり、例えば、チャプタの先頭から基本セグメント長までの予め決められた部分などを、チャプタセグメントとして抽出する。
That is, the digest
なお、基本セグメント長は、例えば、5乃至10秒の範囲とされる。また、基本セグメント長は、操作部17を用いたユーザの変更操作により変更することができる。
The basic segment length is, for example, in the range of 5 to 10 seconds. The basic segment length can be changed by a user changing operation using the
さらに、ダイジェスト生成部72は、読み出したコンテンツから、特徴量時系列データを抽出し、抽出した特徴量時系列データに基づいて、各チャプタから、基本セグメント長の、特徴的な部分である特徴ピークセグメントを抽出する。
Furthermore, the digest
なお、特徴量時系列データとは、特徴ピークセグメントを抽出する際に用いられる時系列の特徴量を表す。特徴量時系列データの詳細は後述する。 The feature amount time-series data represents time-series feature amounts used when extracting feature peak segments. Details of the feature amount time-series data will be described later.
また、ダイジェスト生成部72は、特徴ピークセグメントを、チャプタセグメントとは異なる長さで抽出するようにしてもよい。すなわち、チャプタセグメントの基本セグメント長と、特徴ピークセグメントの基本セグメント長とは、異なる長さとすることができる。
Moreover, the digest production |
さらに、ダイジェスト生成部72は、1個のチャプタから、1個の特徴ピークセグメントを抽出するようにしてもよいし、複数の特徴ピークセグメントを抽出するようにしてもよい。また、ダイジェスト生成部72は、必ずしも、各チャプタから、特徴ピークセグメントを抽出する必要はない。
Furthermore, the digest
ダイジェスト生成部72は、各チャプタから抽出したチャプタセグメントと特徴ピークセグメントを、時系列に並べることにより、コンテンツの大まかな内容を表すダイジェストを生成し、コンテンツ記憶部11に供給して記憶させる。
The digest
なお、ダイジェスト生成部72は、チャプタセグメントとして抽出すべき期間内に、著しいシーンの切替わりが発生している場合、シーンの切替わりの直前までを、チャプタセグメントとして抽出することができる。
In addition, the digest production |
これにより、ダイジェスト生成部72は、区切りのよいところで分割されたチャプタセグメントを抽出することが可能となる。このことは、特徴ピークセグメントについても同様である。
Thereby, the digest production |
なお、ダイジェスト生成部72は、例えば、時間的に隣接するフレームどうしの各画素の差分絶対値和が、所定の閾値以上であるか否かに基づいて、著しいシーンの切替わりが発生しているか否かを判定する。
Note that the digest
また、例えば、ダイジェスト生成部72は、識別したチャプタの音声データに基づいて、そのチャプタで発話が行なわれている発話区間を検出するようにしてもよい。
Further, for example, the digest
そして、ダイジェスト生成部72は、チャプタセグメントとして抽出すべき期間を経過しても、発話が行われているときには、その発話が終了するまでを、チャプタセグメントとして抽出するように構成することができる。このことは、特徴ピークセグメントについても同様である。
And the digest production |
また、発話区間が、基本セグメント長よりも十分に長い場合、すなわち、例えば、発話区間が、基本セグメント長の2倍以上である場合、ダイジェスト生成部72は、発話の途中で切られたチャプタセグメントを抽出するようにしてもよい。このことは、特徴ピークセグメントについても同様である。
In addition, when the utterance section is sufficiently longer than the basic segment length, that is, for example, when the utterance section is twice or more the basic segment length, the digest
この場合、チャプタセグメントが、発話の途中で途切れることによる違和感を、ユーザに感じさせないようなエフェクトを、チャプタセグメントに追加することが望ましい。 In this case, it is desirable to add to the chapter segment an effect that does not make the user feel uncomfortable due to the chapter segment being interrupted in the middle of speech.
すなわち、例えば、ダイジェスト生成部72は、抽出したチャプタセグメントにおける発話を、チャプタセグメントの終了に伴ってフェードアウトさせる(発話の音声を徐々に小さくする)様なエフェクトを掛ける等することが望ましい。
That is, for example, it is desirable that the digest generating
ところで、ダイジェスト生成部72は、分割部71により分割されたコンテンツから、チャプタセグメントや特徴ピークセグメントを抽出するようにしている。
Incidentally, the digest
しかしながら、例えば、ユーザが編集ソフトなどを用いて、コンテンツを複数のチャプタに分割した場合、そのコンテンツを対象として、チャプタセグメントや特徴ピークセグメントを抽出することができる。なお、チャプタポイントデータは、ユーザが編集ソフトなどを用いて、コンテンツを複数のチャプタに分割した際に、編集ソフトなどにより生成されるものとする。 However, for example, when the user divides content into a plurality of chapters using editing software or the like, chapter segments and feature peak segments can be extracted for the content. Note that chapter point data is generated by editing software or the like when a user divides content into a plurality of chapters using editing software or the like.
以下、ダイジェスト生成部72は、各チャプタから、それぞれ、1個のチャプタセグメントと1個の特徴ピークセグメントを抽出するとともに、生成したダイジェストにBGMのみを付加するものとして説明する。
In the following description, it is assumed that the digest
次に、図19は、ダイジェスト生成部72が行うダイジェスト生成処理の概要を示している。
Next, FIG. 19 shows an outline of the digest generation process performed by the
図19には、ダイジェストの抽出対象とされたコンテンツを、複数のチャプタに分割するための分割線が示されている。この分割線の上には、対応するチャプタIDが示されている。 FIG. 19 shows dividing lines for dividing the content to be digest extracted into a plurality of chapters. A corresponding chapter ID is shown on the dividing line.
また、図19には、特徴量時系列データとして、例えば音声パワー時系列データ91及び顔領域時系列データ92が示されている。
In FIG. 19, for example, voice power
ここで、音声パワー時系列データ91とは、フレームtの音声が大であるほどに大きな値とされる時系列のデータをいう。また、顔領域時系列データとは、フレームtに表示される顔(の割合)が大であるほどに大きな値とされる時系列のデータをいう。
Here, the audio power time-
なお、図19において、横軸はコンテンツを再生する際の時刻tを表し、縦軸は特徴量時系列データを表す。 In FIG. 19, the horizontal axis represents time t when content is reproduced, and the vertical axis represents feature amount time series data.
さらに、図19において、白色の矩形は、チャプタの先頭部分を示すチャプタセグメントを表し、斜線で示される矩形は、音声パワー時系列データ91に基づき抽出される特徴ピークセグメントを表す。また、黒色の矩形は、顔領域時系列データ92に基づき抽出される特徴ピークセグメントを表す。
Further, in FIG. 19, a white rectangle represents a chapter segment indicating the head portion of the chapter, and a rectangle indicated by diagonal lines represents a feature peak segment extracted based on the audio power
ダイジェスト生成部72は、分割部71からのチャプタポイントデータ(チャプタID)に基づいて、コンテンツ記憶部11から読み出したコンテンツの各チャプタを識別し、識別した各チャプタのチャプタセグメントを抽出する。
The digest generating
また、ダイジェスト生成部72は、コンテンツ記憶部11から読み出したコンテンツから、例えば、図19に示されるような音声パワー時系列データ91を抽出する。
Moreover, the digest production |
さらに、ダイジェスト生成部72は、識別した各チャプタにおいて、音声パワー時系列データ91が最大値となるときのフレームを、ピーク特徴フレームとして抽出する。
Further, the digest
そして、ダイジェスト生成部72は、抽出したピーク特徴フレームを含む特徴ピークセグメント(例えば、ピーク特徴フレームを先頭とする特徴ピークセグメント)を、チャプタから抽出する。
Then, the digest generating
なお、例えば、ダイジェスト生成部72は、一定間隔で、ピーク特徴フレームの抽出ポイントを決定する。そして、ダイジェスト生成部72は、決定した抽出ポイントに基づき決まる範囲において、音声パワー時系列データ91が最大値となるときのフレームを、ピーク特徴フレームとして抽出してもよい。
For example, the digest
また、例えば、ダイジェスト生成部72は、音声パワー時系列データ91の最大値が、予め決められた閾値以下である場合、ピーク特徴フレームの抽出を行わないようにしてもよい。この場合、ダイジェスト生成部72は、特徴ピークセグメントを抽出しないこととなる。
For example, the digest
さらに、例えば、ダイジェスト生成部72は、音声パワー時系列データ91の最大値に代えて、音声パワー時系列データ91が極大値となるときのフレームを、ピーク特徴フレームとして抽出するようにしてもよい。
Further, for example, the digest
なお、ダイジェスト生成部72は、例えば、1個の音声パワー時系列データ91を用いて、特徴ピークセグメントを抽出する他、複数の特徴量時系列データを用いて、特徴ピークセグメントを抽出するようにしてもよい。
For example, the digest
すなわち、例えば、ダイジェスト生成部72は、コンテンツ記憶部11から読み出したコンテンツから、音声パワー時系列データ91の他、顔領域時系列データ92を抽出する。
That is, for example, the digest
また、ダイジェスト生成部72は、音声パワー時系列データ91及び顔領域時系列データ92のうち、チャプタにおける最大値が大となる方の特徴量時系列データを選択する。
Moreover, the digest production |
そして、ダイジェスト生成部72は、チャプタにおいて、選択した特徴量時系列データが最大値となるときのフレームを、ピーク特徴フレームとして抽出し、抽出したピーク特徴フレームを含む特徴ピークセグメントを、チャプタから抽出する。
Then, the digest
この場合、ダイジェスト生成部72は、所定のチャプタにおいて、音声が大きくなっている部分を特徴ピークセグメントとして抽出し、他のチャプタにおいて、顔の割合が多くなっている部分を特徴ピークセグメントとして抽出することとなる。
In this case, the digest
このため、ダイジェスト生成部72において、例えば音声が大きくなっている部分のみが、特徴ピークセグメントとして抽出されることにより、単調なダイジェストが生成されることを防止できる。
For this reason, in the digest production |
すなわち、ダイジェスト生成部72は、あたかも特徴ピークセグメントがランダムに抽出されたものであるかのようなランダム性のあるダイジェストを生成することができる。
That is, the digest
これにより、ダイジェスト生成部72では、生成されるダイジェストがパターン化することにより、ダイジェストを視聴するユーザが飽きてしまうような事態を防止できる。
Thereby, the digest production |
その他、例えば、ダイジェスト生成部72は、複数の特徴時系列データ毎に、特徴ピークセグメントを抽出するようにしてもよい。
In addition, for example, the digest
すなわち、例えば、ダイジェスト生成部72は、識別した各チャプタにおいて、音声パワー時系列データ91が最大値となるときのフレームを、ピーク特徴フレームとして含む特徴ピークセグメントを抽出する。また、ダイジェスト生成部72は、顔領域時系列データ92が最大値となるときのフレームを、ピーク特徴フレームとして含む特徴ピークセグメントも抽出する。この場合、ダイジェスト生成部72は、1個のチャプタから、2個の特徴ピークセグメントを抽出することとなる。
That is, for example, the digest
なお、図19の右下に示されるように、チャプタID=4に対応する分割線から、チャプタID=5に対応する分割線までのチャプタからは、チャプタセグメント(白色の矩形で示す)と特徴ピークセグメント(斜線の矩形で示す)とが重複した状態で抽出されることとなる。 Note that, as shown in the lower right of FIG. 19, chapter segments (shown in white rectangles) and features from the dividing line corresponding to chapter ID = 4 to the dividing line corresponding to chapter ID = 5 The peak segment (indicated by the hatched rectangle) is extracted in an overlapping state.
この場合、ダイジェスト生成部72は、チャプタセグメントと特徴ピークセグメントとを、1個のセグメントとして取り扱う。
In this case, the digest
ダイジェスト生成部72は、例えば、図19に示されるようにして抽出したチャプタセグメント及び特徴ピークセグメントを、時系列につなぎ合わせることにより、ダイジェストを生成する。
For example, the digest generating
そして、ダイジェスト生成部72は、生成したダイジェストに、BGM(background music)等を付加し、BGMが付加されたダイジェストを、コンテンツ記憶部11に供給して記憶させる。
The digest
[ダイジェスト生成部72の詳細]
次に、図20は、ダイジェスト生成部72の詳細な構成例を示している。
[Details of digest generation unit 72]
Next, FIG. 20 illustrates a detailed configuration example of the digest
ダイジェスト生成部72は、チャプタセグメント抽出部111、特徴量抽出部112、特徴ピークセグメント抽出部113、及びエフェクト追加部114から構成される。
The digest
なお、チャプタセグメント抽出部111及び特徴量抽出部112には、コンテンツ記憶部11からコンテンツが供給される。
The content is supplied from the
また、チャプタセグメント抽出部111及び特徴ピークセグメント抽出部113には、分割部71からチャプタポイントデータが供給される。
Further, chapter point data is supplied from the dividing unit 71 to the chapter
チャプタセグメント抽出部111は、分割部71からのチャプタポイントデータに基づいて、コンテンツ記憶部11から供給されるコンテンツの各チャプタを識別する。そして、チャプタセグメント抽出部111は、識別した各チャプタから、チャプタセグメントを抽出し、エフェクト追加部114に供給する。
The chapter
特徴量抽出部112は、コンテンツ記憶部11から供給されるコンテンツから、例えば複数の特徴量時系列データを抽出し、特徴ピークセグメント抽出部113に供給する。なお、特徴量時系列データについては、図21乃至図23を参照して詳述する。
The feature
また、特徴量抽出部112は、スムージングフィルタ(平滑化フィルタ)等を用いて、抽出した特徴量時系列データを平滑化することにより、特徴量時系列データに生じているノイズを除去した上で、特徴ピークセグメント抽出部113に供給するようにしてもよい。
The feature
さらに、特徴量抽出部112は、コンテンツ記憶部11からのコンテンツを、そのまま、特徴ピークセグメント抽出部113に供給する。
Further, the feature
特徴ピークセグメント抽出部113は、分割部71からのチャプタポイントデータに基づいて、コンテンツ記憶部11から特徴量抽出部112を介して供給されるコンテンツの各チャプタを識別する。
The feature peak
また、特徴ピークセグメント抽出部113は、特徴量抽出部112から供給される複数の特徴量時系列データに基づいて、図19を参照して説明したように、識別した各チャプタから、特徴ピークセグメントを抽出して、エフェクト追加部114に供給する。
Further, the feature peak
エフェクト追加部114は、例えば、図19に示されるようにして抽出したチャプタセグメント及び特徴ピークセグメントを、時系列につなぎ合わせることにより、ダイジェストを生成する。
For example, the
また、エフェクト追加部114は、生成したダイジェストにBGM等を付加し、コンテンツ記憶部11に供給して記憶させる。なお、エフェクト追加部114が、ダイジェストにBGM等を付加する処理は、図24を参照して詳述する。
Further, the
さらに、エフェクト追加部114は、生成したダイジェストを構成する各セグメント(チャプタセグメントや特徴ピークセグメント)の終了間際のフレームをフェードアウトさせたり、開始直後のフレームをフェードインさせる等のエフェクトも付加することができる。
Further, the
[特徴量時系列データの例]
次に、図21乃至図23を参照して、図20の特徴量抽出部112が、コンテンツから特徴量時系列データを抽出(生成)する方法を説明する。
[Example of feature time-series data]
Next, with reference to FIGS. 21 to 23, a method in which the feature
なお、特徴量抽出部112は、特徴量時系列データとして、例えば、顔領域時系列データ、音声パワー時系列データ、ズームイン強度時系列データ、又はズームアウト強度時系列データの少なくとも1つを、コンテンツから抽出する。
Note that the feature
ここで、顔領域時系列データは、特徴ピークセグメント抽出部113において、フレーム上に表示される顔の領域(顔領域)の割合が多くなったときのフレームを含むセグメントを、特徴ピークセグメントとして、チャプタから抽出する際に用いられる。
Here, in the face area time-series data, the segment including the frame when the ratio of the face area (face area) displayed on the frame is increased in the feature peak
特徴量抽出部112は、コンテンツを構成する各フレームtから、人間の顔が存在する領域である顔領域(のピクセル数)を検出する。そして、特徴量抽出部112は、その検出結果に基づいて、フレームt毎に顔領域特徴値f1(t)=Rt-ave(Rt')を算出することにより、フレームtの時系列に、顔領域特徴値f1(t)を並べて得られる顔領域時系列データを生成する。
The feature
なお、割合Rt=顔領域のピクセル数/フレームの総ピクセル数であり、ave(Rt')は、区間[t-WL,t+WL]に存在するフレームt'から得られる割合Rt'の平均を表す。また、時刻tはフレームtが表示される時刻を表し、値WL(>0)は予め設定された値である。 Note that the ratio R t = the number of pixels in the face area / the total number of pixels in the frame, and ave (R t ′ ) is the ratio R t obtained from the frame t ′ existing in the section [tW L , t + W L ]. Represents the average of ' . The time t represents the time at which the frame t is displayed, and the value W L (> 0) is a preset value.
次に、図21は、特徴量抽出部112が、特徴量時系列データとして、音声パワー時系列データを生成するときの一例を示している。
Next, FIG. 21 illustrates an example when the feature
図21において、音声データx(t)は、時刻tsから時刻teまでの全区間[ts,te]で再生される音声データを表している。なお、横軸は時刻tを表しており、縦軸は音声データx(t)を表す。 In Figure 21, the audio data x (t) is the entire interval [t s, t e] from time t s to time t e represents the audio data to be reproduced in. The horizontal axis represents time t, and the vertical axis represents audio data x (t).
ここで、音声パワー時系列データは、特徴ピークセグメント抽出部113において、音声(音量)が大きくなったときのフレームを含むセグメントを、特徴ピークセグメントとして、チャプタから抽出する際に用いられる。
Here, the voice power time-series data is used when the segment including the frame when the voice (volume) is increased is extracted from the chapter as the feature peak segment in the feature peak
特徴量抽出部112は、次式(3)により、コンテンツを構成する各フレームtの音声パワーP(t)を算出する。
The feature
ここで、式(3)において、音声パワーP(t)は、区間[t-W,t+W]における各音声データx(τ)の自乗和の平方根を表す。また、τはt-Wからt+Wまでの値とされ、Wは予め設定される。 Here, in Expression (3), the voice power P (t) represents the square root of the square sum of each voice data x (τ) in the section [t−W, t + W]. Also, τ is a value from t−W to t + W, and W is preset.
そして、特徴量抽出部112は、区間[t-W,t+W]で算出した音声パワーP(t)の平均値から、全区間[ts,te]で算出した音声パワーP(t)の平均値を差し引くことにより得られる差分値を、フレームtにおける音声パワー特徴量値f2(t)として算出する。
Then, the
特徴量抽出部112は、各フレームt毎に、音声パワー特徴量値f2(t)を算出することにより、フレームtの時系列に、音声パワー特徴量値f2(t)を並べて得られる音声パワー時系列データを生成する。
The feature
次に、図22及び図23を参照して、特徴量抽出部112が、特徴量時系列データとして、ズームイン強度時系列データを生成する方法を説明する。
Next, a method in which the feature
なお、ズームイン強度時系列データは、特徴ピークセグメント抽出部113において、ズームイン(ズームアップ)されたときのフレームを含むセグメントを、特徴ピークセグメントとして、チャプタから抽出する際に用いられる。
Note that the zoom-in intensity time-series data is used when the segment including the frame when zoomed in (zoomed up) is extracted from the chapter as the feature peak segment by the feature peak
図22は、フレームtの動きベクトルの一例を示している。 FIG. 22 shows an example of the motion vector of frame t.
図22には、複数のブロックに区分されたフレームtが示されている。また、フレームtの各ブロックには、そのブロックの動きベクトルが示されている。 FIG. 22 shows a frame t divided into a plurality of blocks. Each block of the frame t shows a motion vector of the block.
特徴量抽出部112は、コンテンツを構成する各フレームtを、図22に示されるような、複数のブロックに区分する。そして、特徴量抽出部112は、コンテンツを構成する各フレームtを用いて、複数のブロック毎に、ブロックマッチングなどにより、ブロックの動きベクトルを検出する。
The feature
ここで、フレームtにおけるブロックの動きベクトルとは、例えば、フレームtからフレームt+1に対する、ブロックの動きを表すベクトルをいう。
Here, the motion vector of the block in the frame t is, for example, a vector representing the motion of the block from the frame t to the
次に、図23は、フレームtの各ブロックの動きベクトルとの内積が計算される動きベクトルから構成されるズームインテンプレートの一例を示している。 Next, FIG. 23 shows an example of a zoom-in template composed of motion vectors for which the inner product with the motion vector of each block of the frame t is calculated.
このズームインテンプレートは、図23に示されるように、ズームインされたときの各ブロックの動きを表す動きベクトルにより構成される。 As shown in FIG. 23, this zoom-in template is composed of motion vectors representing the motion of each block when zoomed in.
特徴量抽出部112は、フレームtにおける各ブロックの動きベクトルat(図22)と、それぞれ対応する、ズームインテンプレートの各ブロックの動きベクトルb(図23)との内積at・bを計算し、その計算結果の総和sum(at・b)を算出する。
Feature
また、特徴量抽出部112は、区間[t-W,t+W]に含まれるフレームt'毎に算出される総和sum(at'・b)の平均値ave(sum(at'・b))を算出する。
In addition, the feature
そして、特徴量抽出部112は、総和sum(at・b)から平均値ave(sum(at'・b))を差し引くことにより得られる差分値を、フレームtにおけるズームイン特徴量値f3(t)として算出する。ズームイン特徴量値f3(t)は、フレームtにおけるズームインの大きさに比例する。
Then, the feature
特徴量抽出部112は、各フレームt毎に、ズームイン特徴量値f3(t)を算出することにより、フレームtの時系列に、ズームイン特徴量値f3(t)を並べて得られるズームイン強度時系列データを生成する。
The feature
ここで、ズームアウト強度時系列データは、特徴ピークセグメント抽出部113において、ズームアウトされたときのフレームを含むセグメントを、特徴ピークセグメントとして、チャプタから抽出する際に用いられる。
Here, the zoom-out intensity time-series data is used when the segment including the frame when zoomed out is extracted from the chapter as the feature peak segment in the feature peak
特徴量抽出部112は、ズームアウト強度時系列データを生成する場合、図23に示されるようなズームインテンプレートに代えて、図23に示されたテンプレートの動きベクトルとは逆向きの動きベクトルを、ズームアップテンプレートとして用いる。
When generating the zoom-out intensity time-series data, the feature
すなわち、特徴量抽出部112は、ズームイン強度時系列データを生成する場合と同様に、ズームアウトテンプレートを用いて、ズームアップ強度時系列データを生成する。
That is, the feature
次に、図24は、エフェクト追加部114が、生成したダイジェストにBGMを付加するときの詳細を説明する。
Next, FIG. 24 illustrates details when the
図24の上側には、ダイジェストを構成する各セグメント(チャプタセグメント及び特徴ピークセグメント)の音量の重みが示されている。 On the upper side of FIG. 24, the weight of the volume of each segment (chapter segment and feature peak segment) constituting the digest is shown.
図24の下側には、図19に示されるチャプタセグメント及び特徴ピークセグメントを結合して得られるダイジェストが示されている。 24 shows a digest obtained by combining the chapter segment and the characteristic peak segment shown in FIG.
エフェクト追加部114は、チャプタセグメント抽出部111からのチャプタセグメントと、特徴ピークセグメント抽出部113からの特徴ピークセグメントを、図24の下側に示されるように、時系列に結合することにより、約L秒のダイジェストを生成する。
The
ここで、ダイジェストの長さLは、チャプタセグメント抽出部111により抽出されるチャプタセグメントの個数や長さ、及び特徴ピークセグメント抽出部113により抽出される特徴ピークセグメントの個数や長さにより決まる。
Here, the length L of the digest is determined by the number and length of chapter segments extracted by the chapter
また、例えば、ユーザは、操作部17を用いて、ダイジェストの長さLを設定することができる。すなわち、操作部17は、ユーザによる長さLの設定操作に対応する操作信号を、制御部16に供給する。制御部16は、操作部17からの操作信号に基づいて、ダイジェスト生成部72を制御して、設定操作で設定された長さLのダイジェストを、ダイジェスト生成部72に生成させる。
For example, the user can set the digest length L using the
ダイジェスト生成部72は、抽出したセグメントの総延長(長さの総和)が長さLとなるまで、チャプタセグメントや特徴ピークセグメントを抽出していくこととなる。
The digest
この場合、ダイジェスト生成部72は、各チャプタからチャプタセグメントを優先して抽出していき、その後、特徴ピークセグメントを抽出するようにして、各チャプタから少なくともチャプタセグメントが抽出されるようにすることが望ましい。
In this case, the digest
また、例えば、ダイジェスト生成部72は、各チャプタからチャプタセグメントを優先して抽出した後、特徴ピークセグメントを抽出する際には、1又は複数の特徴量時系列データにおいて、極大値が大きい順に、対応する特徴ピークセグメントを抽出していく。
In addition, for example, when the digest
さらに、例えば、ユーザは、操作部17を用いて、ダイジェストの長さLとともに、1個のチャプタから抽出されるセグメントの長さの和Sを設定する設定操作を行うことによっても、所望の長さLのダイジェストを、ダイジェスト生成部72に生成させられる。
Further, for example, the user can perform a desired length by performing a setting operation for setting the sum S of the lengths of segments extracted from one chapter together with the length L of the digest using the
この場合、操作部17は、ユーザの設定操作に対応する操作信号を、制御部16に供給する。制御部16は、操作部17からの操作信号に基づいて、ユーザにより設定されたL及びSを識別し、識別したL及びSに基づいて、総分割数Dを算出(逆算)する。
In this case, the
すなわち、総分割数Dは、L/Sに最も近い整数値(例えば、L/Sを四捨五入した値)とされる。例えば、いま、ユーザの設定操作により、L=30に設定された他、チャプタから、7.5秒のチャプタセグメントと、7.5秒の特徴ピークセグメントを抽出するように設定された場合、つまり、S=15(7.5+7.5)に設定された場合を考える。 That is, the total division number D is an integer value closest to L / S (for example, a value obtained by rounding L / S). For example, when the setting operation by the user is set to L = 30 and the chapter segment of 7.5 seconds and the feature peak segment of 7.5 seconds are set to be extracted from the chapter, that is, S = 15 Consider the case where (7.5 + 7.5) is set.
この場合、制御部16は、L=30及びS=15に基づいて、L/S=30/15=2を算出し、L/S=2に最も近い整数値2を、総分割数Dとして算出する。
In this case, the
制御部16は、分割部71を制御し、分割部71に、算出した総分割数Dに対応するチャプタポイントデータを生成させる。これにより、分割部71は、制御部16からの制御に従い、算出された総分割数Dに対応するチャプタポイントデータを生成し、ダイジェスト生成部72に供給する。
The
ダイジェスト生成部72は、分割部71からのチャプタポイントデータと、コンテンツ記憶部11から読み出したコンテンツとに基づいて、ユーザにより設定された長さLのダイジェストを生成し、コンテンツ記憶部11に供給して記憶させる。
The digest
また、エフェクト追加部114は、図24の上側に示したような重みαで、ダイジェストを構成する各セグメント(チャプタセグメントや特徴ピークセグメント)の音声データにαの重み付けをし、BGM(のデータ)に1-αの重み付けをする。
Further, the
そして、エフェクト追加部114は、重み付け後の音声データと、重み付け後のBGMとを混合し、その結果得られる混合音声データを、ダイジェストを構成する各セグメントの音声データとして、ダイジェストを構成する各フレームに対応付ける。
Then, the
なお、エフェクト追加部114は、図示せぬ内蔵のメモリに、BGM(のデータ)を予め保持しているものとし、ユーザの操作に応じて、付加されるBGMが指定されるものとする。
The
すなわち、例えば、エフェクト追加部114は、白色の矩形で示されるチャプタセグメントにBGMを付加する場合、BGMの音量を大きめに設定するために、チャプタセグメントの音声データに、0.5よりも小さな重みを重み付け(乗算)をする。
That is, for example, when adding BGM to a chapter segment indicated by a white rectangle, the
具体的には、例えば、エフェクト追加部114は、図24において、チャプタセグメントの音声データに0.2の重み付けをし、付加するBGM(のデータ)に0.8の重み付けをする。
Specifically, for example, in FIG. 24, the
また、例えば、エフェクト追加部114は、複数の特徴量時系列データのうち、音声パワー時系列データとは異なる特徴量時系列データに基づき抽出された特徴ピークセグメントにBGMを付加する場合、チャプタセグメントにBGMを付加する場合と同様の重み付けで付加する。
In addition, for example, when the
具体的には、例えば、エフェクト追加部114は、図24において、顔領域時系列データに基づき抽出された特徴ピークセグメント(黒色の矩形で示される)の音声データに0.2の重み付けをし、付加するBGMに0.8の重み付けをする。
Specifically, for example, in FIG. 24, the
また、例えば、エフェクト追加部114は、音声パワー時系列データに基づき抽出された特徴ピークセグメント(斜線の矩形で示される)にBGMを付加する場合、BGMの音量を小さめに設定するために、その特徴ピークセグメントの音声データに、0.5よりも大きな重みを重み付けをする。
Further, for example, when adding the BGM to the feature peak segment (indicated by the hatched rectangle) extracted based on the audio power time-series data, the
具体的には、例えば、エフェクト追加部114は、図24において、音声パワー時系列データに基づき抽出された特徴ピークセグメントの音声データに0.8の重み付けをし、付加するBGMに0.2の重み付けをする。
Specifically, for example, in FIG. 24, the
なお、図19に示されるように、例えば、チャプタセグメントと特徴ピークセグメントとがオーバラップした(重なった)状態で抽出された場合、1個のセグメントとして抽出されることとなる。 As shown in FIG. 19, for example, when the chapter segment and the feature peak segment are extracted in an overlapped (overlapped) state, they are extracted as one segment.
この場合、エフェクト追加部114において、チャプタセグメントと特徴ピークセグメントから構成される1個のセグメントの音声データに適用する重みとして、先頭のフレームの時刻が時間的に後の特徴ピークセグメントに適用すべき重みが用いられる。
In this case, the
また、例えば、エフェクト追加部114は、図24の上側に示されるように、重みの切替わりを、不連続ではなく連続的に変化させる。
Further, for example, as shown in the upper side of FIG. 24, the
すなわち、例えば、エフェクト追加部114は、ダイジェストの音声データに対する重みを、0.2から0.8に不連続に切り替えるのではなく、所定時間(例えば、500ミリ秒)で、0.2から0.8に向かって線形に変化させる。なお、エフェクト追加部114は、重みを線形に変化させる他、非線形に変化(例えば、時間の2乗に比例するように重みを変化させるなど)させるようにしてもよい。
That is, for example, the
これにより、重み付けの切替わり時に、ダイジェストの音量やBGMの音量が急激に大きくなる等の事態を防止できるので、音量の急激な変化により、ユーザが不愉快な思いをしなくてすむ。 As a result, it is possible to prevent a situation in which the volume of the digest or the volume of the BGM suddenly increases when the weighting is switched, so that the user does not have to feel unpleasant due to a sudden change in the volume.
[レコーダ51の動作説明]
次に、図25のフローチャートを参照して、レコーダ51(特に分割部71及びダイジェスト生成部72)が行うダイジェスト生成処理を説明する。
[Description of operation of recorder 51]
Next, digest generation processing performed by the recorder 51 (particularly, the dividing unit 71 and the digest generating unit 72) will be described with reference to the flowchart of FIG.
ステップS191では、分割部71は、図1の分割部15と同様の処理を行う。そして、分割部71は、コンテンツを複数のセグメントに分割したときの、各セグメントの先頭のフレームを一意に識別するためのチャプタIDを、チャプタポイントデータとして生成する。
In step S191, the dividing unit 71 performs the same process as the dividing
分割部71は、生成したチャプタポイントデータを、ダイジェスト生成部72のチャプタセグメント抽出部111及び特徴ピークセグメント抽出部113に供給する。
The dividing unit 71 supplies the generated chapter point data to the chapter
ステップS192では、チャプタセグメント抽出部111は、分割部71からのチャプタポイントデータに基づいて、コンテンツ記憶部11から供給されるコンテンツの各チャプタを識別する。そして、チャプタセグメント抽出部111は、識別した各チャプタから、チャプタの先頭部分を表すチャプタセグメントを抽出し、エフェクト追加部114に供給する。
In step S 192, the chapter
ステップS193では、特徴量抽出部112は、例えば、コンテンツ記憶部11から供給されるコンテンツから、例えば複数の特徴量時系列データを抽出し、特徴ピークセグメント抽出部113に供給する。
In step S 193, the feature
なお、特徴量抽出部112は、スムージングフィルタ(平滑化フィルタ)等を用いて、抽出した特徴量時系列データを平滑化することにより、特徴量時系列データに生じているノイズを除去した上で、特徴ピークセグメント抽出部113に供給するようにしてもよい。
Note that the feature
さらに、特徴量抽出部112は、コンテンツ記憶部11からのコンテンツを、そのまま、特徴ピークセグメント抽出部113に供給する。
Further, the feature
ステップS194では、特徴ピークセグメント抽出部113は、分割部71からのチャプタポイントデータに基づいて、コンテンツ記憶部11から特徴量抽出部112を介して供給されるコンテンツの各チャプタを識別する。
In step S194, the feature peak
そして、特徴ピークセグメント抽出部113は、特徴量抽出部112から供給される複数の特徴量時系列データに基づいて、識別した各チャプタから、特徴ピークセグメントを抽出して、エフェクト追加部114に供給する。
The feature peak
ステップS195では、エフェクト追加部114は、例えば、図19に示されるようにして抽出したチャプタセグメント及び特徴ピークセグメントを、時系列につなぎ合わせることにより、ダイジェストを生成する。
In step S195, the
そして、エフェクト追加部114は、生成したダイジェストにBGM(background music)等を付加し、コンテンツ記憶部11に供給して記憶させる。以上で、図25のダイジェスト生成処理は終了される。
Then, the
以上説明したように、ダイジェスト生成処理によれば、チャプタセグメント抽出部111は、各チャプタから、チャプタセグメントを抽出するようにした。そして、エフェクト追加部114は、抽出されたチャプタセグメントを少なくとも有するダイジェストを生成するようにした。
As described above, according to the digest generation process, the chapter
このため、ユーザは、例えば、ダイジェストを再生することにより、コンテンツの各チャプタの先頭部分であるチャプタセグメントを視聴できるようになるので、コンテンツの大まかな内容(あらすじ)を容易に把握することが可能となる。 For this reason, for example, the user can view the chapter segment that is the head of each chapter of the content by playing the digest, for example, so that the user can easily grasp the rough content (summary) of the content. It becomes.
また、ダイジェスト生成処理によれば、特徴ピークセグメント抽出部113は、例えば、複数の特徴量時系列データに基づいて、特徴ピークセグメントとして抽出するようにしている。
Further, according to the digest generation process, the feature peak
このため、ダイジェストの生成対象とされたコンテンツにおいて、例えば、山場となるような場面を、特徴ピークセグメントとして含むダイジェストを生成することが可能となる。 For this reason, it is possible to generate a digest that includes, for example, a scene that is a mountainous area as a feature peak segment in the content that is the digest generation target.
ここで、特徴ピークセグメントとして、例えば、音声が大となっている場面、ズームインやズームアウトが行われている場面、人間の顔の割合が多くなっている場面などが抽出される。 Here, as the feature peak segment, for example, a scene in which the voice is loud, a scene in which zoom-in or zoom-out is performed, a scene in which the ratio of human faces is increased, and the like are extracted.
また、例えば、エフェクト追加部114は、BGM等のエフェクトを付加したダイジェストを生成するようにした。このため、ダイジェスト生成処理によれば、コンテンツの内容をより容易に理解し易いダイジェストが生成されることとなる。
For example, the
さらに、エフェクト追加部114は、BGMを混合する際の重み付けを、緩やかに切り替えるようにしたので、重み付けの切替わり時に、BGMの音声や、ダイジェスト本来の音声が急に大きくなる事態を防止することが可能となる。
Furthermore, since the
ところで、ユーザにおいては、コンテンツ記憶部11に記憶されているコンテンツを再生する際、所望の再生位置からコンテンツを容易に再生できることが望ましい。
By the way, it is desirable that the user can easily reproduce the content from a desired reproduction position when reproducing the content stored in the
次に、図26乃至図41を参照して、ユーザが、所望の再生位置を容易に検索できるようにした表示画面を表示させるレコーダ131を説明する。
Next, a
<3.第3の実施の形態>
[レコーダ131の構成例]
図26は、第3の実施の形態であるレコーダ131の構成例を示している。
<3. Third Embodiment>
[Configuration Example of Recorder 131]
FIG. 26 shows a configuration example of the
なお、図26のレコーダ131では、第1の実施の形態であるレコーダ1(図1)と同様に構成される部分について同一の符号を付すようにしているので、それらの説明は、以下、適宜省略する。
In the
すなわち、レコーダ131において、図1の分割部15に代えて分割部151が設けられているとともに、新たに提示部152が設けられている他は、図1のレコーダ1と同様に構成される。
That is, the
また、レコーダ131には、画像を表示する表示部132が接続されている。さらに、レコーダ131は、図17のダイジェスト生成部72を省略しているが、図17の場合と同様に、ダイジェスト生成部72を設けるようにしてもよい。
The
分割部151は、図1の分割部15と同様の処理を行う。また、分割部151は、図17の分割部71と同様にして、チャプタポイントデータ(チャプタID)を生成し、提示部152に供給する。
The dividing
さらに、分割部151は、シンボル列生成部14から供給されるシンボル列を構成する各シンボルを、対応する、コンテンツを構成する各フレームに対応付けて、提示部152に供給する。
Furthermore, the dividing
また、分割部151は、コンテンツ記憶部11から読み出したコンテンツを、提示部152に供給する。
In addition, the dividing
提示部152は、分割部151からのチャプタポイントデータに基づいて、同じく分割部151から供給されるコンテンツの各チャプタを、行状に配置するように、表示部132に表示させる。
Based on the chapter point data from the dividing
すなわち、例えば、提示部152は、操作部17を用いたユーザの指定操作に応じて変化する総分割数Dのチャプタを、行状に配置するように、表示部132に表示させる。
That is, for example, the
具体的には、例えば、分割部151は、ユーザの指定操作により、総分割数Dが変化したことに対応して、変化後の総分割数Dに対応する新たなチャプタポイントデータを生成し、提示部152に供給する。
Specifically, for example, the dividing
提示部152は、分割部151から供給される新たなチャプタポイントデータに基づいて、ユーザの指定操作により指定された総分割数Dのチャプタを表示部132に表示させる。
The
また、提示部152は、後述の図39に示されるように、分割部151からのシンボルを用いて、ユーザにより選択されたフレームと同じシンボルを有するフレームをタイル状に表示させる。
In addition, as illustrated in FIG. 39 described later, the
次に、図27は、ユーザの指定操作により、総分割数Dが変化することに応じて、対応するチャプタポイントデータが変化する様子の一例を示している。 Next, FIG. 27 shows an example of how the corresponding chapter point data changes in accordance with the change of the total number of divisions D by the user's designation operation.
図27のAには、総分割数Dと、総分割数Dに対応するチャプタポイントデータとの組合せの一例が示されている。 FIG. 27A shows an example of a combination of the total number of divisions D and chapter point data corresponding to the total number of divisions D.
また、図27のBには、コンテンツの時間軸上に配置されたチャプタポイントの一例が示されている。ここで、チャプタポイントとは、チャプタを構成する各フレームのうち、先頭のフレームが配置される位置を表す。 FIG. 27B shows an example of chapter points arranged on the content time axis. Here, the chapter point represents the position where the first frame is arranged among the frames constituting the chapter.
図27のAに示されるように、総分割数D=2のとき、フレーム番号0のフレームの他、フレーム番号720のフレームが、チャプタポイントとされる。
As shown in FIG. 27A, when the total division number D = 2, in addition to the frame with
総分割数D=2のとき、コンテンツは、図27のBの1行目に示されるように、フレーム番号0のフレームを先頭とするチャプタ、及びフレーム番号720のフレームを先頭とするチャプタに分割されていることとなる。
When the total number of divisions D = 2, as shown in the first row of B in FIG. 27, the content is divided into chapters starting with the
なお、フレーム番号0のフレームは、必ず、チャプタポイントとされるため、図27のA及びBでは、フレーム番号0の図示を省略している。
Since the frame with
そして、総分割数D=2から総分割数D=3とされるとき、フレーム番号300のフレームが、新たにチャプタポイントとされる。
When the total division number D = 2 to the total division number D = 3, the frame with the
総分割数D=3のとき、コンテンツは、図27のBの2行目に示されるように、フレーム番号0のフレームを先頭とするチャプタ、フレーム番号300のフレームを先頭とするチャプタ、及びフレーム番号720のフレームを先頭とするチャプタに分割されていることとなる。
When the total number of divisions D = 3, as shown in the second row of B in FIG. 27, the content includes a chapter that starts with a frame with
また、総分割数D=3から総分割数D=4とされるとき、フレーム番号1431のフレームが、新たにチャプタポイントとされる。
When the total number of divisions D = 3 to total number of divisions D = 4, the frame with
総分割数D=4のとき、コンテンツは、図27のBの3行目に示されるように、フレーム番号0のフレームを先頭とするチャプタ、フレーム番号300のフレームを先頭とするチャプタ、フレーム番号720のフレームを先頭とするチャプタ、及びフレーム番号1431のフレームを先頭とするチャプタに分割されていることとなる。
When the total number of divisions D = 4, as shown in the third row of B in FIG. 27, the content is a chapter starting from the frame with
さらに、総分割数D=4から総分割数D=5とされるとき、フレーム番号1115のフレームが、新たにチャプタポイントとされる。
Further, when the total number of divisions D = 4 to the total number of divisions D = 5, the frame with
総分割数D=5のとき、コンテンツは、図27のBの4行目に示されるように、フレーム番号0のフレームを先頭とするチャプタ、フレーム番号300のフレームを先頭とするチャプタ、フレーム番号720のフレームを先頭とするチャプタ、フレーム番号1115のフレームを先頭とするチャプタ、及びフレーム番号1431のフレームを先頭とするチャプタに分割されていることとなる。
When the total number of divisions D = 5, as shown in the fourth line of B of FIG. 27, the content is a chapter starting from the frame with
次に、図28乃至図30を参照して、提示部152が、表示部132に表示させるための表示用データを生成する処理を説明する。なお、図28乃至図30では、総分割数D=5であるときの表示用データを、提示部152が生成する様子を説明する。
Next, a process in which the
図28は、チャプタポイントとされたフレームの一例を示している。 FIG. 28 shows an example of a frame that is a chapter point.
なお、図28において、矩形はフレームを表しており、矩形内に記載された番号は、フレーム番号を表す。 In FIG. 28, a rectangle represents a frame, and a number written in the rectangle represents a frame number.
提示部152は、分割部151からのチャプタポイントデータに基づいて、分割部151から供給されるコンテンツから、チャプタポイントとされたフレーム番号0,300,720,1115,1431の各フレームを抽出する。
The
なお、いまの場合、チャプタポイントデータは、総分割数D=5に対応するものであり、フレーム番号0,300,720,1115,1431の各フレームが、チャプタポイントとされているものとする。
In this case, it is assumed that the chapter point data corresponds to the total number of divisions D = 5, and each frame of
提示部152は、抽出した各フレームを縮小してサムネイル画像とし、フレーム番号0,300,720,1115,1431の順序で、図28に示されるように、表示部132の表示画面に、上から下方向に表示させる。
The
そして、提示部152は、表示部132の表示画面に、左から右方向に、例えば50フレームの間隔で、チャプタを構成するフレームを、サムネイル画像として表示させる。
Then, the
次に、図29は、チャプタポイントとされたフレームの右方向に、50フレームの間隔で、サムネイル画像を表示させるときの一例を示している。 Next, FIG. 29 shows an example in which thumbnail images are displayed at intervals of 50 frames in the right direction of the frame set as the chapter point.
提示部152は、分割部151からのチャプタポイントデータに基づいて、分割部151から供給されるコンテンツから、チャプタポイントとされたフレーム番号0のフレームの他、フレーム番号50,100,150,200,250の各フレームを抽出する。
Based on the chapter point data from the dividing
そして、提示部152は、抽出した各フレームを縮小してサムネイル画像とし、フレーム番号50,100,150,200,250の順序で、フレーム番号0のフレームから右方向に表示させる。
Then, the
また、提示部152は、フレーム番号300のフレームから右方向に、フレーム番号350,400,450,500,550,600,650,700の各フレームを、サムネイル画像として、フレーム番号の小さい順に表示させる。
In addition, the
さらに、提示部152は、同様にして、フレーム番号720のフレームから右方向に、フレーム番号770,820,870,920,970,1020,1070の各フレームを、サムネイル画像として、フレーム番号の小さい順に表示させる。また提示部152は、フレーム番号1115のフレームから右方向に、フレーム番号1165,1215,1265,1315,1365,1415の各フレームを、サムネイル画像として、フレーム番号の小さい順に表示させる。さらに提示部152は、フレーム番号1431のフレームから右方向に、フレーム番号1481,1531,1581,1631,…の各フレームを、サムネイル画像として、フレーム番号の小さい順に表示させる。
Further, the
これにより、提示部152は、図30に示されるように、各チャプタ毎に、チャプタのサムネイル画像を行状に配置した表示を、表示部132に表示させることができる。
Thereby, as shown in FIG. 30, the
なお、提示部152は、チャプタのサムネイル画像を行状に配置する他、そのサムネイル画像に重ねるようにして、他のサムネイル画像を配置するようにしてもよい。
In addition to arranging the thumbnail images of chapters in a row, the
具体的には、例えば、提示部152は、フレーム番号300のフレームをサムネイル画像として表示し、そのフレームに隠れるように、フレーム番号301乃至349の各フレームのサムネイル画像を配置するようにしてもよい。
Specifically, for example, the
次に、図30は、表示部132の表示画面の一例を示している。
Next, FIG. 30 shows an example of the display screen of the
この表示画面には、図30に示されるように、各チャプタのサムネイル画像が、チャプタ毎に設けられたチャプタ表示領域(チャプタ番号1,2,3,4,5がそれぞれ付加された横長の矩形)に、行状に表示される。
In this display screen, as shown in FIG. 30, the thumbnail images of each chapter are displayed in chapter display areas (
すなわち、1行目には、コンテンツの先頭から1番目のチャプタ1のサムネイル画像として、フレーム番号0,50,100,150,200,…の各フレームが、その順序で、図中左から右方向に配置される。
That is, in the first row, frames of
つまり、表示部132は、サムネイル画像を、チャプタ1の各シーンを代表する代表画像として表示する。
That is, the
具体的には、例えば、表示部132は、フレーム番号0のフレームに対応するサムネイル画像を、フレーム番号0乃至49の各フレームから構成されるシーンを代表する代表画像として表示する。このことは、図30に示されるチャプタ2乃至5についても同様である。
Specifically, for example, the
また、2行目には、コンテンツの先頭から2番目のチャプタ2のサムネイル画像として、フレーム番号300,350,400,450,500,…の各フレームが、その順序で、図中左から右方向に配置される。
In the second row, frames of
さらに、3行目には、コンテンツの先頭から3番目のチャプタ3のサムネイル画像として、フレーム番号720,770,820,870,920,…の各フレームが、その順序で、図中左から右方向に配置される。また4行目には、コンテンツの先頭から4番目のチャプタ4のサムネイル画像として、フレーム番号1115,1165,1215,1265,1315,…の各フレームが、その順序で、図中左から右方向に配置される。
Further, in the third row, frames of
また、5行目には、コンテンツの先頭から5番目のチャプタ5のサムネイル画像として、フレーム番号1431,1481,1531,1581,1631,…の各フレームが、その順序で、図中左から右方向に配置される。
Also, in the fifth line, as thumbnail images of the
なお、表示部132の表示画面には、図30に示されるように、スライダ171も表示させることができる。このスライダ171は、総分割数Dを設定する際に、図中左右方向に移動(スライド)されるものであり、スライダ171の位置に応じて、総分割数Dを変更させることができる。
In addition, as shown in FIG. 30, a
すなわち、例えば、スライダ171が図中左方向に移動するほど、総分割数Dは減少し、スライダ171が図中右方向に移動するほど、総分割数Dは増加する。
That is, for example, the total division number D decreases as the
したがって、例えば、ユーザが、操作部17を用いて、図30に示される表示画面のスライダ171を、図中左方向に移動させる操作を行うと、その操作に対応して、表示部132には、図31に示されるような表示画面が表示される。
Therefore, for example, when the user performs an operation of moving the
なお、分割部151は、スライダ171を用いたユーザのスライド操作に応じて、そのスライド操作に対応する総分割数Dのチャプタポイントデータを生成し、生成したチャプタポイントデータを、提示部152に供給する。
The dividing
提示部152は、分割部151からのチャプタポイントデータに基づいて、図31に示されるような表示画面を生成して、表示部132に表示させる。
The
また、分割部151は、ユーザのスライド操作が行われる毎に、そのスライド操作に対応する総分割数Dのチャプタポイントデータを生成するようにしてもよいし、複数の異なる総分割数D毎に、チャプタポイントデータを予め生成しておいてもよい。
Further, each time the user performs a slide operation, the dividing
分割部151は、複数の異なる総分割数D毎のチャプタポイントデータを、予め生成した場合、複数の異なる総分割数D毎のチャプタポイントデータを、提示部152に供給する。
The
この場合、提示部152は、分割部151から供給される、複数の異なる総分割数D毎のチャプタポイントデータのうち、スライダ171を用いたユーザのスライド操作に対応する総分割数Dのチャプタポイントを選択する。そして、提示部152は、選択したチャプタポイントデータに基づいて、表示部132に表示させる表示画面を生成し、表示部132に供給して表示させる。
In this case, the
次に、図31は、スライダ171を、総分割数Dが減少する方向に移動させたときに、表示部132に表示される表示画面の一例を示している。
Next, FIG. 31 shows an example of a display screen displayed on the
図31に示される表示画面は、図30に示された表示画面と比較して、チャプタ数(総分割数D)が、5個から3個に減少していることがわかる。 The display screen shown in FIG. 31 shows that the number of chapters (total number of divisions D) is reduced from 5 to 3 compared to the display screen shown in FIG.
その他、例えば、提示部152は、図20の特徴量抽出部112と同様にして、分割部151からのコンテンツから、特徴量時系列データを抽出するようにしてもよい。そして、提示部152は、抽出した特徴量時系列データの強度(大きさ)に応じて、表示部132に表示されるサムネイル画像を修飾するようにしてもよい。
In addition, for example, the
次に、図32は、特徴量時系列データの強度に応じて修飾されたサムネイル画像が表示される、表示部132の表示画面の他の一例を示している。
Next, FIG. 32 shows another example of the display screen of the
なお、図32に示されるサムネイル画像には、適宜、そのサムネイル画像に対応するフレームを含むシーン(例えば、サムネイル画像に対応するフレームを先頭とする50フレーム)の特徴に応じて、帯表示が付加される。 Note that a band display is appropriately added to the thumbnail image shown in FIG. 32 according to the characteristics of a scene including a frame corresponding to the thumbnail image (for example, 50 frames starting from the frame corresponding to the thumbnail image). Is done.
帯表示191a乃至191fは、それぞれ、顔領域の割合が比較的高いシーンを代表するサムネイル画像に付加される。 The band displays 191a to 191f are respectively added to thumbnail images representing scenes with a relatively high face area ratio.
いま、フレーム番号100,150,350,400,450,1581の各サムネイル画像に、帯表示191a乃至191fが付加されている。
Now,
また、帯表示192a乃至192dは、それぞれ、顔領域の割合が比較的高いとともに、音声パワーが比較的大きいシーンを代表するサムネイル画像に付加される。
Further, the
さらに、帯表示193a及び193bは、それぞれ、音声パワーが比較的大きいシーンを代表するサムネイル画像に付加される。 Furthermore, the band displays 193a and 193b are respectively added to thumbnail images representing scenes with relatively high audio power.
なお、帯表示191a乃至191fは、例えば、シーンを構成する各フレームのうち、顔領域の割合が所定の閾値以上となるフレームの枚数が、予め決められた枚数閾値以上となる場合に、そのシーンを代表するサムネイル画像に付加される。
The
その他、例えば、帯表示191a乃至191fにおいて、例えば、シーンを構成する各フレームのうち、顔領域の割合が所定の閾値以上となるフレームの枚数が多くなるほどに、帯表示191a乃至191fの色を濃くするようにしてもよい。
In addition, for example, in the
これらのことは、帯表示192a乃至192d、並びに帯表示193a及び193bについても同様である。
The same applies to the
また図32では、サムネイル画像に帯表示を付加するようにしたが、その他、例えば、帯表示191a乃至191fに代えて、人間の顔を付加するようにしてもよい。すなわち、シーンの特徴を表すようなものであれば、どのような表示方法で表示するようにしてもよい。
In FIG. 32, the band display is added to the thumbnail image. However, for example, a human face may be added instead of the
なお、図32は、各サムネイル画像を識別するために、フレーム番号を付すようにしているが、実際には、表示部132の表示画面は、例えば図33に示されるような表示とされる。
In FIG. 32, a frame number is assigned to identify each thumbnail image, but in reality, the display screen of the
[提示部152の詳細]
次に、図34は、図26の提示部152の詳細な構成例を示している。
[Details of presentation unit 152]
Next, FIG. 34 shows a detailed configuration example of the
提示部152は、特徴量抽出部211、表示データ生成部212、及び表示制御部213から構成される。
The
特徴量抽出部211には、分割部151からコンテンツが供給される。特徴量抽出部211は、図20の特徴量抽出部112と同様にして、特徴量時系列データを抽出して、表示データ生成部212に供給する。
Content is supplied from the dividing
すなわち、例えば、特徴量抽出部211は、分割部151からのコンテンツから、顔領域時系列データ、音声パワー時系列データ、ズームイン強度時系列データ、又はズームアウト強度時系列データの少なくとも1つを抽出し、表示データ生成部212に供給する。
That is, for example, the feature
表示データ生成部212には、特徴量抽出部211からの特徴量時系列データの他、分割部151からチャプタポイントデータが供給される。
In addition to the feature amount time-series data from the feature
表示データ生成部212は、特徴量抽出部211からの特徴量時系列データと、分割部151からのチャプタポイントデータに基づいて、表示部132の表示画面に、図31乃至図33に示したような表示をさせるための表示データを生成し、表示制御部213に供給する。
Based on the feature time series data from the feature
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面に、図31乃至図33に示したような表示をさせる。
The
なお、表示データ生成部212は、ユーザの操作に応じた表示データを生成し、表示制御部213に供給する。
Note that the display
そして、表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、ユーザの操作に応じて変化させる。
Then, the
すなわち、表示制御部213が、コンテンツのチャプタの表示の制御を行うときの表示モードとしては、レイヤ0モード、レイヤ1モード、及びレイヤ2モードの3つのモードがある。
In other words, there are three display modes when the
レイヤ0モードでは、表示部132は、図31乃至図33に示したような表示とされる。
In the
次に、図35は、レイヤ0モードにおいて、ユーザが、表示部132の表示画面上の位置を指示したときの様子の一例を示している。
Next, FIG. 35 illustrates an example of a state when the user indicates the position on the display screen of the
ここで、以下では、説明を分かり易くするために、操作部17として、例えばマウスが採用されていることとする。ユーザは、マウスとしての操作部17を用いて、例えば、シングルクリックやダブルクリックを行うことができる。なお、操作部17は、マウスに限定されない。
Here, in order to make the explanation easy to understand, it is assumed that, for example, a mouse is employed as the
レイヤ0モードでは、ユーザが、マウスとしての操作部17を操作して、ポインタ(カーソル)231を、チャプタ4の、図35の左から5番目のサムネイル画像上に移動させたとき、表示制御部213は、表示部132の表示画面を、図35に示されるような表示とする。
In the
すなわち、レイヤ0モードでは、ポインタ231により指示されるサムネイル画像232が、強調して表示される。図35の例では、ポインタ231により指示されたサムネイル画像232が、例えば、黒色の枠で囲まれた状態で、他のサムネイル画像よりも大きく表示されている。
That is, in the
これにより、ユーザは、ポインタ231により指示しているサムネイル画像232を、容易に把握できる。
Thereby, the user can easily grasp the
次に、図36は、レイヤ0モードにおいて、ポインタ231でサムネイル画像232を指示した状態で、ダブルクリックをしたときの様子の一例を示している。
Next, FIG. 36 illustrates an example of a state in which double-clicking is performed in the state in which the
サムネイル画像232が、ポインタ231により指示されている状態で、ユーザがダブルクリックをした場合、サムネイル画像232に対応するフレームから、コンテンツが再生される。
When the user double-clicks while the
すなわち、表示制御部213は、例えば、図36に示されるように、表示部132の表示画面において、図中左上にウインドウ233を配置させる。このウインドウ233には、サムネイル画像232に対応するフレームから再生されたコンテンツ233aが表示される。
That is, for example, as shown in FIG. 36, the
また、ウインドウ233において、コンテンツ233aの上部には、図中左から右方向に、時計マーク233b、タイムラインバー233c、再生位置表示233d、及び音量ボタン233eが配置される。
In the
時計マーク233bは、コンテンツ233aの総再生時間のうち、コンテンツ233aが再生されている再生位置(再生時刻)を、時計の針で表示するアイコンである。なお、時計マーク233bでは、コンテンツ233aの総再生時間が、例えば、時計の針の1周の時間(0分から60分までの1時間)に割り当てられている。
The
タイムラインバー233cは、横長のバーであり、時計マーク233bと同様に、コンテンツ233aの再生位置を表示するものである。なお、タイムラインバー233cには、コンテンツ233aの総再生時間が、タイムラインバー233cの左端から右端までに割り当てられており、コンテンツ233aの再生位置に応じた位置に、再生位置表示233dが配置される。
The
なお、図36において、再生位置表示233dを、スライダとして移動可能とするように構成することができる。この場合、ユーザは、操作部17を用いて、再生位置表示233dをスライダとして移動させる移動操作を行うことにより、移動後の再生位置表示233dの位置から、コンテンツ233aを再生させることができる。
In FIG. 36, the
音量ボタン233eは、再生中のコンテンツ233aの音量をミュート(消音)する際や、音量を変更する際に操作されるアイコンである。
The
すなわち、例えば、ユーザは、操作部17を用いて、ポインタ231を音量ボタン233e上に移動させ、シングルクリックをした場合、再生中のコンテンツ233aの音量はミュートされる。
That is, for example, when the user moves the
また、例えば、ユーザは、操作部17を用いて、ポインタ231を音量ボタン233e上に移動させ、ダブルクリックをした場合、再生中のコンテンツ233aの音量を変更するためのウインドウが新たに表示される。
For example, when the user moves the
次に、図37は、レイヤ0モードにおいて、ポインタ231でサムネイル画像232を指示した状態で、シングルクリックをしたときの様子の一例を示している。
Next, FIG. 37 shows an example of a state when a single click is performed in the state in which the
レイヤ0モードにおいて、ポインタ231でサムネイル画像232を指示した状態(図35)で、ユーザがシングルクリックをしたとき、表示制御部213は、表示モードを、レイヤ0モードからレイヤ1モードに移行する。
In the
そして、表示制御部213は、例えば、図37に示されるように、表示部132の表示画面において、図中下側にウインドウ251を配置させる。このウインドウ251には、タイル画像251a、時計マーク251b、タイムラインバー251c、及び再生位置表示251dが配置される。
Then, for example, as shown in FIG. 37, the
タイル画像251aは、サムネイル画像232に畳み込まれたサムネイル画像の一覧の画像(サムネイル画像232により代表されるシーンのサムネイル画像)を表す。
The
なお、例えば、サムネイル画像232が、フレーム番号300のフレームに対応するサムネイル画像である場合、サムネイル画像232には、図29に示されるように、フレーム番号301乃至349の各フレームに対応するサムネイル画像が畳み込まれている。
For example, when the
また、ウインドウ251に、サムネイル画像232に畳み込まれたサムネイル画像の一覧の画像全てを、タイル画像251aとして表示できない場合、例えば、一部のサムネイル画像が間引かれて表示される。
In addition, when all the images in the list of thumbnail images convolved with the
その他、例えば、ウインドウ251にスクロールバーが表示され、そのスクロールバーを移動させることにより、サムネイル画像232に畳み込まれたサムネイル画像の一覧の画像全てを見られるようにしてもよい。
In addition, for example, a scroll bar may be displayed in the
時計マーク251bは、コンテンツ233aの総再生時間のうち、シングルクリックされたサムネイル画像232に対応するフレームが再生される再生位置を、時計の針で表示するアイコンであり、図36の時計マーク233bと同様に構成される。
The clock mark 251b is an icon for displaying the playback position at which the frame corresponding to the single-clicked
タイムラインバー251cは、コンテンツ233aの総再生時間のうち、シングルクリックされたサムネイル画像232に対応するフレームが再生される再生位置を、再生位置表示251dで表示するものであり、図36のタイムラインバー233cと同様に構成される。
The
さらに、タイムラインバー251cは、タイル画像251aを構成するサムネイル画像(サムネイル画像232以外)にそれぞれ対応する各フレームの再生位置も、再生位置表示251dと同様の再生位置表示を用いて表示する。
Further, the
図37では、図面が煩雑になるのをさけるため、サムネイル画像232の再生位置表示251dのみを記載し、他の再生位置表示は記載していない。
In FIG. 37, only the
また、ユーザは、操作部17を用いて、タイル画像251aを構成する複数のサムネイル画像のうち、所定のサムネイル画像を、ポインタ231で指示するマウスオン操作を行うと、ポインタ231で指示された所定のサムネイル画像が強調して表示される。
In addition, when the user performs a mouse-on operation for designating a predetermined thumbnail image with a
すなわち、例えば、ユーザが、操作部17を用いて、タイル画像251a内のサムネイル画像271を、ポインタ231で指示するマウスオン操作を行うと、サムネイル画像271を強調したサムネイル画像271'が表示される。
That is, for example, when the user performs a mouse-on operation for pointing the
このとき、タイムラインバー251cにおいて、サムネイル画像271'の再生位置表示は、サムネイル画像271'と同様に強調して表示される。すなわち、例えば、サムネイル画像271'の再生位置表示は、他の再生位置表示とは異なる色等とされ、強調して表示される。
At this time, in the
また、タイムラインバー251cにおいて、強調して表示された再生位置表示を、スライダとして移動可能とするように構成することができる。
Further, the playback position display highlighted in the
この場合、ユーザは、操作部17を用いて、強調して表示された再生位置表示をスライダとして移動させる移動操作を行うことにより、例えば、移動後の再生位置表示に対応するサムネイル画像により代表されるシーンを、タイル画像251aとして表示させることができる。
In this case, the user performs a moving operation for moving the highlighted reproduction position display as a slider using the
なお、サムネイル画像271は、強調されたサムネイル画像271'を表示する他、図35を参照して説明したサムネイル画像232と同様の方法で、強調して表示させるようにしてもよい。
Note that the
ユーザは、強調表示されたサムネイル画像271'をポインタ231で指示した状態で、操作部17を用いたダブルクリックを行うと、図38に示されるように、サムネイル画像271'(271)に対応するフレームから、コンテンツ233aの再生が行われる。
When the user double-clicks using the
次に、図38は、レイヤ1モードにおいて、ポインタ231でサムネイル画像271'を指示した状態で、ダブルルクリックをしたときの様子の一例を示している。
Next, FIG. 38 shows an example of a state in which double-clicking is performed in a state in which the
レイヤ1モードにおいて、ポインタ231でサムネイル画像271'を指示した状態(図37)で、ユーザがダブルクリックをしたとき、表示制御部213は、表示モードを、レイヤ1モードからレイヤ0モードに移行する。
In the
そして、表示制御部213は、例えば、図38に示されるように、表示部132の表示画面において、図中左上にウインドウ233を配置させる。このウインドウ233には、サムネイル画像271'(271)に対応するフレームから再生されたコンテンツ233aが表示される。
And the
次に、図39は、レイヤ1モードにおいて、ポインタ231でサムネイル画像271'を指示した状態で、シングルクリックをしたときの様子の一例を示している。
Next, FIG. 39 shows an example of a state when a single click is performed in a state in which the
レイヤ1モードにおいて、ポインタ231でサムネイル画像271'を指示した状態(図37)で、ユーザがシングルクリックをしたとき、表示制御部213は、表示モードを、レイヤ1モードからレイヤ2モードに移行する。
In the
そして、表示制御部213は、例えば、図39に示されるように、表示部132の表示画面において、ウインドウ291を配置させる。このウインドウ291には、タイル画像291a、時計マーク291b、及びタイムラインバー291cが配置される。
And the
タイル画像291aは、サムネイル画像271'(271)に表示された表示内容と同様の表示内容とされたサムネイル画像の一覧を表す。
The
すなわち、タイル画像291aは、コンテンツ233aを構成する各フレームのうち、サムネイル画像271'に対応するフレームのシンボルと同一のシンボルを有するフレームのサムネイル画像の一覧である。
That is, the
ここで、表示データ生成部212には、分割部151からのチャプタポイントデータの他、コンテンツ233aと、コンテンツ233aのシンボル列が供給される。
Here, in addition to the chapter point data from the dividing
表示データ生成部212は、分割部151からのシンボル列に基づいて、サムネイル画像271'に対応するフレームのシンボルと同一のシンボルを有するフレームを、分割部151からのコンテンツ233aから抽出する。
Based on the symbol string from the dividing
そして、表示データ生成部212は、抽出した各フレームをそれぞれサムネイル画像とし、それらのサムネイル画像の一覧であるタイル画像291aを生成し、生成したタイル画像291aを含む表示データを、表示制御部213に供給する。
Then, the display
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132を制御し、表示部132の表示画面に、タイル画像291aを含むウインドウ291を表示させる。
The
なお、ウインドウ291に、タイル画像291aを構成するサムネイル画像全てを表示できない場合、ウインドウ291にはスクロールバー等が追加される。その他、例えば、一部分のサムネイル画像を省略するようにして、ウインドウ291に、タイル画像291aが収まるようしてもよい。
Note that if not all the thumbnail images constituting the
時計マーク291bは、コンテンツ233aの総再生時間のうち、シングルクリックされたサムネイル画像271'に対応するフレームが再生される再生位置を、時計の針で表示するアイコンであり、図36の時計マーク233bと同様に構成される。
The
タイムラインバー291cは、コンテンツ233aの総再生時間のうち、タイル画像291aとしての複数のサムネイル画像に対応する各フレームが再生される再生位置を表示するものであり、図36のタイムラインバー233cと同様に構成される。
The
したがって、タイムラインバー291cには、例えば、タイル画像291aとしての複数のサムネイル画像の枚数と同じ個数だけ、再生位置が表示される。
Accordingly, the
また、ユーザは、操作部17を用いて、タイル画像291aを構成する複数のサムネイル画像のうち、所定のサムネイル画像を、ポインタ231で指示するマウスオン操作を行うと、ポインタ231で指示された所定のサムネイル画像が強調して表示される。
In addition, when the user performs a mouse-on operation for designating a predetermined thumbnail image with a
このとき、タイムラインバー291cでは、ポイント231で指示された所定のサムネイル画像の再生位置が、例えば、他の再生位置とは異なる色等とされることにより、強調して表示される。
At this time, on the
図39では、例えば、サムネイル画像271をポインタ231で指示するマウスオン操作を行ったときに、強調されたサムネイル画像271'が表示される場合(図37)と同様にして、所定のサムネイル画像が強調して表示される。
In FIG. 39, for example, when a mouse-on operation for pointing the
そして、ユーザは、強調表示された所定のサムネイル画像をポインタ231で指示した状態で、操作部17を用いたダブルクリックを行うと、図38を参照して説明した場合と同様にして、所定のサムネイル画像に対応するフレームから、コンテンツ233aの再生が行われる。
Then, when the user double-clicks using the
[レコーダ131の動作説明]
次に、図40のフローチャートを参照して、図26のレコーダ131(特に提示部152)が行う提示処理について説明する。
[Description of operation of recorder 131]
Next, a presentation process performed by the recorder 131 (particularly the presentation unit 152) in FIG. 26 will be described with reference to the flowchart in FIG.
ステップS221では、分割部151は、図1の分割部15と同様の処理を行う。また、分割部151は、図17の分割部71と同様にして、チャプタポイントデータ(チャプタID)を生成し、提示部152の表示データ生成部212に供給する。
In step S221, the dividing
さらに、分割部151は、シンボル列生成部14からのシンボル列における各シンボルを、対応する、コンテンツの各フレームに対応付けて、提示部152の表示データ生成部212に供給する。
Further, the dividing
また、分割部151は、コンテンツ記憶部11から読み出したコンテンツを、提示部152の特徴量抽出部211に供給する。
The dividing
ステップS222では、特徴量抽出部211は、図20の特徴量抽出部112と同様にして、特徴量時系列データを抽出して、表示データ生成部212に供給する。
In step S222, the feature
すなわち、例えば、特徴量抽出部211は、分割部151からのコンテンツから、顔領域時系列データ、音声パワー時系列データ、ズームイン強度時系列データ、又はズームアウト強度時系列データの少なくとも1つを抽出し、表示データ生成部212に供給する。
That is, for example, the feature
ステップS223では、表示データ生成部212は、特徴量抽出部211からの特徴量時系列データと、分割部151からのチャプタポイントデータに基づいて、例えば、図31乃至図33に示したような表示をさせるための表示データを生成し、表示制御部213に供給する。
In step S223, the display
また例えば、表示データ生成部212は、制御部16からの制御に従い、ユーザの操作に応じて、表示部132の表示画面に表示させるための表示データを生成し、表示制御部213に供給する。
In addition, for example, the display
すなわち、例えば、図39に示されるように、サムネイル画像271'がポイント231で指示された状態でシングルクリックが行われた場合、表示データ生成部212は、分割部151からのシンボルを用いて、タイル画像291aを含むウインドウ291を表示させるための表示データを生成し、表示制御部213に供給する。
That is, for example, as illustrated in FIG. 39, when a single click is performed in a state where the
ステップS224では、表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面に、表示データに対応する表示をさせる。以上で、図40の提示処理は終了される。
In step S224, the
以上説明したように、図40の提示処理によれば、表示制御部213が、表示部132の表示画面に、コンテンツを構成する各チャプタ毎に、サムネイル画像を表示させるようにした。
As described above, according to the presentation process of FIG. 40, the
このため、ユーザは、表示部132の表示画面を参照することにより、所定のチャプタにおける所望の再生位置からコンテンツを再生することが可能となる。
For this reason, the user can reproduce content from a desired reproduction position in a predetermined chapter by referring to the display screen of the
さらに、例えば、図40の提示処理によれば、表示制御部213が、帯表示が付加されたサムネイル画像を表示させるようにした。このため、サムネイル画像に対応するシーンの特徴を、帯表示により容易に認識できるようになる。
Further, for example, according to the presentation process of FIG. 40, the
特に、ユーザは、サムネイル画像から、音声についての情報を得ることができないため、音声が大であるとの特徴を表す帯表示が、サムネイル画像に付加されることにより、シーンを再生することなく、シーンの特徴を容易に認識できるようになる。 In particular, since the user cannot obtain information about the sound from the thumbnail image, a band display representing the feature that the sound is loud is added to the thumbnail image without reproducing the scene. Scene features can be easily recognized.
さらに図40の提示処理によれば、表示部132が、例えば、図37に示されるように、サムネイル画像232に代表されるシーンのサムネイル画像を、その再生位置とともに、タイル画像251aとして表示するようにした。
Further, according to the presentation process of FIG. 40, for example, as shown in FIG. 37, the
また、図40の提示処理によれば、表示制御部213が、例えば、図39に示されるように、サムネイル画像271'に対応するフレームのシンボルと同じシンボルとされた各フレームのサムネイル画像を、その再生位置とともに、タイル画像291aとして表示するようにした。
In addition, according to the presentation process of FIG. 40, the
これにより、ユーザは、コンテンツ233aを構成する複数のフレームの中から、再生を開始したいフレームの再生位置を、容易に検索することが可能となる。よって、ユーザは、所望の開始位置から、コンテンツ233aを容易に再生することができる。
As a result, the user can easily search for the playback position of the frame to start playback from among the plurality of frames constituting the
次に、図41は、表示部制御部213の表示モードが移行する様子の一例を示している。
Next, FIG. 41 shows an example of how the display mode of the
ステップST1において、表示制御部213の表示モードは、レイヤ0モードである。このため、表示制御部213は、表示部132を制御し、表示部132の表示画面を、図33に示したような表示とする。
In step ST1, the display mode of the
例えば、制御部16は、操作部17からの操作信号に基づいて、いずれのサムネイル画像もポインタ231で指示されていない状態で、ユーザにより操作部17を用いたダブルクリックが行われたと判別した場合、処理をステップST1からステップST2に進める。
For example, when the
そして、ステップST2では、制御部16は、コンテンツ233aを再生中のウインドウ233が存在する場合、表示データ生成部212を制御し、そのウインドウ233を前面に表示させるための表示データを生成させ、表示制御部213に供給させる。
In step ST2, if there is a
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、ウインドウ233が前面に表示された表示画面に変更させ、処理はステップST2からステップST1に戻る。
Based on the display data from the display
また、ステップST1において、制御部16は、適宜、処理をステップST3に進める。
Moreover, in step ST1, the
ステップST3では、制御部16は、操作部17からの操作信号に基づいて、ユーザにより、スライダ171をスライドさせるスライド操作等が行われたか否かを判別する。そして、制御部16は、操作部17からの操作信号に基づいて、ユーザによるスライド操作等が行われたと判別した場合、表示データ生成部212に、ユーザのスライド操作等に応じた表示データを生成させ、表示制御部213に供給する。
In step ST3, the
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、ユーザのスライド操作等に応じた表示画面に変更させる。これにより、表示部132の表示画面は、例えば、図30に示された表示画面から、図31に示された表示画面に変更する。その後、処理は、ステップST3からステップST1に戻る。
Based on the display data from the display
さらに、ステップST1において、制御部16は、適宜、処理をステップST4に進める。
Furthermore, in step ST1, the
ステップST4では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231との距離が予め決められた閾値以下となるサムネイル画像232が存在するか否かを判別する。制御部16は、そのようなサムネイル画像232が存在しないと判別した場合、処理を、ステップST1に戻す。
In step ST4, based on the operation signal from the
また、ステップST4では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231との距離が予め決められた閾値以下となるサムネイル画像232が存在すると判別した場合、処理を、ステップST5に進める。
Further, in step ST4, when the
ここで、ポインタ231とサムネイル画像232との距離とは、例えば、ポインタ231の重心(又は矢印としてのポインタ231の先端部分)と、サムネイル画像232の重心との距離を表す。
Here, the distance between the
ステップST5では、制御部16は、表示データ生成部212に、サムネイル画像232を強調して表示させるための表示データを生成させ、表示制御部213に供給させる。
In step ST5, the
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図35に示したような表示画面に変更させる。
Based on the display data from the display
また、ステップST5では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像232との距離が閾値以下の状態で、ユーザによる操作部17を用いたダブルクリック又はシングルクリックの一方が行われたか否かを判別する。
Further, in step ST5, the
なお、ステップST5では、制御部16は、操作部17からの操作信号に基づいて、ユーザによる操作部17を用いたダブルクリック及びシングルクリックのいずれも行われていないと判別した場合、適宜、処理をステップST4に戻す。
In step ST5, if the
ステップST5では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像232との距離が閾値以下の状態で、ユーザによる操作部17を用いたダブルクリックが行われたと判別した場合、処理を、ステップST6に進める。
In step ST5, the
ステップST6では、制御部16は、表示データ生成部212に、サムネイル画像232に対応するフレームの再生位置から、コンテンツ233aを再生させる際の表示データを生成させ、表示制御部213に供給させる。
In step ST6, the
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図36に示したような表示画面に変更させ、処理はステップST1に戻る。
The
また、ステップST5では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像232との距離が閾値以下の状態で、ユーザによる操作部17を用いたシングルクリックが行われたと判別した場合、処理を、ステップST7に進める。
In step ST5, the
ステップST7では、制御部16は、表示制御部213を制御し、表示制御部213の表示モードを、レイヤ0モードからレイヤ1モードに移行させる。また、表示制御部213は、制御部16からの制御に従い、表示部132の表示画面を、例えば、図33に示される表示画面に、図37のウインドウ251が追加された表示画面に変更させる。
In step ST7, the
また、ステップST7では、制御部16は、操作部17からの操作信号に基づいて、ユーザによる操作部17を用いたダブルクリックが行われたか否かを判別し、ユーザによるダブルクリックが行われたと判別した場合、処理をステップST8に進める。
In step ST7, the
ステップST8では、制御部16は、表示データ生成部212に、ポインタ231に最も近いサムネイル画像に対応するフレームの再生位置から、コンテンツ233aを再生させる際の表示データを生成させ、表示制御部213に供給させる。
In step ST8, the
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図36に示したよう表示画面に表示させ、処理はステップST1に戻る。
Based on the display data from the display
さらに、ステップST7では、制御部16は、操作部17からの操作信号に基づいて、ユーザによる操作部17を用いたダブルクリックが行われていないと判別した場合、適宜、処理をステップST9に進める。
Furthermore, in step ST7, when it is determined that the double click using the
ステップST9では、制御部16は、操作部17からの操作信号に基づいて、例えば、ウインドウ251において、ポインタ231との距離が予め決められた閾値以下となるサムネイル画像271が存在するか否かを判別する。制御部16は、そのようなサムネイル画像271が存在しないと判別した場合、処理を、ステップST10に進める。
In step ST9, based on the operation signal from the
ステップST10では、制御部16は、操作部17からの操作信号に基づいて、レイヤ1モードで表示されるウインドウ251のエリア外に、ポインタ231が移動したか否かを判別し、ウインドウ251のエリア外に、ポインタ231が移動したと判別した場合、処理をステップST1に戻す。
In step ST10, the
ステップST1では、制御部16は、表示データ生成部212に、レイヤ0モードに対応する表示をさせるための表示データを生成させ、表示制御部213に供給させる。
In step ST1, the
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、例えば、図33に示されるような表示画面に変更させる。なお、この場合、表示制御部213は、表示モードを、レイヤ1モードからレイヤ0モードに移行する。
Based on the display data from the display
また、ステップST10では、制御部16は、操作部17からの操作信号に基づいて、ウインドウ251のエリア外に、ポインタ231が移動していないと判別した場合、処理をステップST7に戻す。
In step ST10, when the
ステップST9では、制御部16は、操作部17からの操作信号に基づいて、例えば、ウインドウ251において、ポインタ231との距離が予め決められた閾値以下となるサムネイル画像271が存在すると判別した場合、処理を、ステップST11に進める。
In step ST9, when the
ステップST11では、制御部16は、表示データ生成部212に、サムネイル画像271を強調して表示させるための表示データを生成させ、表示制御部213に供給させる。
In step ST11, the
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図37に示したような、サムネイル画像271を強調したサムネイル画像271'が表示される表示画面に変更させる。
Based on the display data from the display
また、ステップST11では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像271'との距離が閾値以下の状態で、ユーザによる操作部17を用いたダブルクリック又はシングルクリックの一方が行われたか否かを判別する。
In step ST11, the
なお、ステップST11では、制御部16は、操作部17からの操作信号に基づいて、ユーザによる操作部17を用いたダブルクリック及びシングルクリックのいずれも行われていないと判別した場合、適宜、処理をステップST9に戻す。
In step ST11, when the
ステップST11では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像271'との距離が閾値以下の状態で、ユーザによる操作部17を用いたダブルクリックが行われたと判別した場合、処理を、ステップST12に進める。
In step ST11, based on the operation signal from the
ステップST12では、制御部16は、表示データ生成部212に、サムネイル画像271'に対応するフレームの再生位置から、コンテンツ233aを再生させる際の表示データを生成させ、表示制御部213に供給させる。
In step ST12, the
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図38に示したような表示画面に変更させ、処理はステップST7に戻る。
The
また、ステップST11では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像271'との距離が閾値以下の状態で、ユーザによる操作部17を用いたシングルクリックが行われたと判別した場合、処理を、ステップST13に進める。
Further, in step ST11, the
ステップST13では、制御部16は、表示制御部213を制御し、表示制御部213の表示モードを、レイヤ1モードからレイヤ2モードに移行させる。また、表示制御部213は、制御部16からの制御に従い、表示部132の表示画面を、例えば、図39に示されるような、ウインドウ291が表示される表示画面に変更させる。
In step ST13, the
また、ステップST13では、制御部16は、操作部17からの操作信号に基づいて、ユーザによる操作部17を用いたダブルクリックが行われたか否かを判別し、ユーザによるダブルクリックが行われたと判別した場合、処理をステップST14に進める。
In step ST13, the
ステップST14では、制御部16は、表示データ生成部212に、ポインタ231に最も近いサムネイル画像に対応するフレームの再生位置から、コンテンツ233aを再生させる際の表示データを生成させ、表示制御部213に供給させる。
In step ST14, the
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図36に示したよう表示画面に表示させ、処理はステップST1に戻る。
Based on the display data from the display
さらに、ステップST13では、制御部16は、操作部17からの操作信号に基づいて、ユーザによる操作部17を用いたダブルクリックが行われていないと判別した場合、適宜、処理をステップST15に進める。
Furthermore, in step ST13, when it is determined that the double click using the
ステップST15では、制御部16は、操作部17からの操作信号に基づいて、例えば、ウインドウ291において、ポインタ231との距離が予め決められた閾値以下となる所定のサムネイル画像(タイル画像291aに含まれる画像)が存在するか否かを判別する。制御部16は、そのような所定のサムネイル画像が存在すると判別した場合、処理を、ステップST16に進める。
In step ST15, based on the operation signal from the
ステップST16では、制御部16は、表示データ生成部212に、ウインドウ291において、ポインタ231との距離が閾値以下となる所定のサムネイル画像を強調して表示させるための表示データを生成させ、表示制御部213に供給させる。
In step ST16, the
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、所定のサムネイル画像が強調して表示される表示画面に変更させる。
Based on the display data from the display
また、ステップST16では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像との距離が閾値以下の状態で、ユーザによる操作部17を用いたダブルクリックが行われたか否かを判別する。そして、制御部16は、ダブルクリックが行われたと判定した場合、処理をステップST17に進める。
In step ST16, the
ステップST17では、制御部16は、表示データ生成部212に、サムネイル画像に対応するフレームの再生位置から、コンテンツ233aを再生させる際の表示データを生成させ、表示制御部213に供給させる。
In step ST17, the
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図36に示したような表示画面に変更させ、処理はステップST1に戻る。
The
また、ステップST15では、制御部16は、操作部17からの操作信号に基づいて、例えば、ウインドウ291において、ポインタ231との距離が予め決められた閾値以下となる所定のサムネイル画像(タイル画像291aに含まれる画像)が存在しないと判定した場合、処理を、ステップST18に進める。
In step ST15, the
ステップST18では、制御部16は、操作部17からの操作信号に基づいて、レイヤ2モードで表示されるウインドウ291のエリア外に、ポインタ231が移動したか否かを判別し、ウインドウ291のエリア外に、ポインタ231が移動したと判別した場合、処理をステップST1に戻す。
In step ST18, based on the operation signal from the
ステップST1では、制御部16は、表示制御部213を制御し、表示モードを、レイヤ2モードからレイヤ0モードに移行させ、それ以降、同様の処理が行われる。
In step ST1, the
また、ステップST18では、制御部16は、操作部17からの操作信号に基づいて、レイヤ2モードで表示されるウインドウ291のエリア外に、ポインタ231が移動していないと判別した場合、処理をステップST13に戻し、それ以降同様の処理が行われる。
In step ST18, when the
<4.変形例>
ところで、本技術は、以下の構成をとることができる。
(1)時系列に並ぶ複数のデータにより構成される時系列データを区分して得られる各チャプタから、前記チャプタを代表する予め決められた部分を表すチャプタセグメントを抽出するチャプタセグメント抽出部と、前記時系列データを区分して得られる各チャプタのうち、チャプタの特徴的な部分を表す特徴セグメントを有するチャプタから、前記特徴セグメントを抽出する特徴セグメント抽出部と、前記チャプタセグメントと前記特徴セグメントを時系列の順序で結合することにより、前記時系列データの大まかな内容を反映したダイジェストを生成する生成部とを含む情報処理装置。
(2)前記生成部は、前記チャプタセグメントと前記特徴セグメントを時系列の順序で結合することにより、ユーザの設定操作により設定された長さの前記ダイジェストを生成する前記(1)に記載の情報処理装置。
(3)前記時系列データに基づいて、前記複数のデータの属性をそれぞれ表すシンボルを時系列に並べたシンボル列を作成するシンボル列生成部と、前記シンボル列におけるシンボルの分散に基づいて、前記時系列データを複数のチャプタに区分する区分部とをさらに含む前記(2)に記載の情報処理装置。
(4)前記区分部は、前記シンボル列を構成する各シンボルの分散に基づいて、前記時系列データを、前記ユーザの設定操作により設定された長さに基づく区分数のチャプタに区分する前記(3)に記載の情報処理装置。
(5)前記時系列データから、前記時系列データの特徴を表す特徴量を抽出する特徴量抽出部をさらに含み、前記特徴セグメント抽出部は、前記特徴量に基づいて、前記特徴セグメントを有するチャプタから、前記特徴セグメントを抽出する前記(1)乃至(4)に記載の情報処理装置。
(6)前記特徴セグメント抽出部は、前記特徴量に基づいて、前記チャプタの開始から終了までの区間で前記特徴量が最大又は極大の一方となる箇所を含む前記特徴セグメントを、前記チャプタから抽出する前記(5)に記載の情報処理装置。
(7)前記特徴セグメント抽出部は、前記特徴量に基づいて、前記チャプタの開始から終了までの区間で前記特徴量が最大又は極大の一方となる箇所であって、且つ、前記特徴量が予め決められた閾値以上となる箇所を含む前記特徴セグメントを、前記チャプタから抽出する前記(6)に記載の情報処理装置。
(8)前記特徴セグメント抽出部は、複数の異なる前記特徴量に基づいて、前記複数の異なる特徴量のうち、前記チャプタの開始から終了までの区間で最大とされる前記特徴量が最大となる箇所を含む前記特徴セグメントを、前記チャプタから抽出する前記(7)に記載の情報処理装置。
(9)前記生成部は、前記チャプタセグメントと特徴セグメントとのそれぞれに、対応する重みで予め用意された音声が付加された前記ダイジェストを生成する前記(5)乃至(8)に記載の情報処理装置。
(10)前記特徴セグメント抽出部は、複数の異なる前記特徴量に基づいて、前記特徴セグメントを有するチャプタから、前記特徴セグメントを抽出し、前記生成部は、前記複数の異なる特徴量のうち、音声の特徴を表す特徴量に基づき抽出された前記特徴セグメントに、他の前記特徴セグメントよりも小さな重みで前記音声が付加された前記ダイジェストを生成する前記(9)に記載の情報処理装置。
(11)前記生成部は、連続的に変化して切替わる重みで前記音声が付加された前記ダイジェストを生成する前記(10)に記載の情報処理装置。
(12)ダイジェストを生成する情報処理装置の情報処理方法において、前記情報処理装置による、時系列に並ぶ複数のデータにより構成される時系列データを区分して得られる各チャプタから、前記チャプタの予め決められた部分を表すチャプタセグメントを抽出するチャプタセグメント抽出ステップと、前記時系列データを区分して得られる各チャプタのうち、チャプタの特徴的な部分を表す特徴セグメントを有するチャプタから、前記特徴セグメントを抽出する特徴セグメント抽出ステップと、前記チャプタセグメントと前記特徴セグメントを時系列の順序で結合することにより、前記時系列データの大まかな内容を反映したダイジェストを生成する生成ステップとを含む情報処理方法。
(13)コンピュータを、時系列に並ぶ複数のデータにより構成される時系列データを区分して得られる各チャプタから、前記チャプタの予め決められた部分を表すチャプタセグメントを抽出するチャプタセグメント抽出部と、前記時系列データを区分して得られる各チャプタのうち、チャプタの特徴的な部分を表す特徴セグメントを有するチャプタから、前記特徴セグメントを抽出する特徴セグメント抽出部と、前記チャプタセグメントと前記特徴セグメントを時系列の順序で結合することにより、前記時系列データの大まかな内容を反映したダイジェストを生成する生成部として機能させるためのプログラム。
<4. Modification>
By the way, this technique can take the following structures.
(1) a chapter segment extraction unit that extracts a chapter segment representing a predetermined portion representing the chapter from each chapter obtained by dividing time series data composed of a plurality of data arranged in time series; Of the chapters obtained by classifying the time series data, a feature segment extracting unit that extracts the feature segment from chapters having a feature segment representing a characteristic part of the chapter, and the chapter segment and the feature segment. An information processing apparatus including: a generation unit that generates a digest reflecting a rough content of the time-series data by combining in time-series order.
(2) The information according to (1), wherein the generation unit generates the digest having a length set by a user setting operation by combining the chapter segment and the feature segment in time series order. Processing equipment.
(3) Based on the time series data, a symbol string generation unit that creates a symbol string in which symbols representing the attributes of the plurality of data are arranged in time series, and based on the variance of symbols in the symbol string, The information processing apparatus according to (2), further including a classification unit that classifies the time series data into a plurality of chapters.
(4) The division unit divides the time-series data into chapters having the number of divisions based on a length set by the user's setting operation based on a variance of each symbol constituting the symbol string. The information processing apparatus according to 3).
(5) It further includes a feature amount extraction unit that extracts a feature amount representing the feature of the time series data from the time series data, and the feature segment extraction unit includes a chapter having the feature segment based on the feature amount. The information processing device according to any one of (1) to (4), wherein the feature segment is extracted from the information segment.
(6) The feature segment extraction unit extracts, from the chapter, the feature segment including a portion where the feature amount is one of maximum or maximum in a section from the start to the end of the chapter based on the feature amount. The information processing apparatus according to (5).
(7) The feature segment extraction unit is a location where the feature amount is one of the maximum or maximum in a section from the start to the end of the chapter based on the feature amount, and the feature amount is The information processing apparatus according to (6), wherein the feature segment including a portion that is equal to or greater than a predetermined threshold is extracted from the chapter.
(8) The feature segment extraction unit maximizes the feature amount that is maximized in a section from the start to the end of the chapter among the plurality of different feature amounts based on the plurality of different feature amounts. The information processing apparatus according to (7), wherein the feature segment including a location is extracted from the chapter.
(9) The information processing according to (5) to (8), wherein the generation unit generates the digest in which speech prepared in advance with a corresponding weight is added to each of the chapter segment and the feature segment. apparatus.
(10) The feature segment extraction unit extracts the feature segment from a chapter having the feature segment based on a plurality of different feature amounts, and the generation unit includes a voice of the plurality of different feature amounts. The information processing apparatus according to (9), wherein the digest is generated by adding the voice to the feature segment extracted based on the feature amount representing the feature of the feature with a weight smaller than that of the other feature segment.
(11) The information processing apparatus according to (10), wherein the generation unit generates the digest to which the voice is added with a weight that is continuously changed and switched.
(12) In the information processing method of the information processing apparatus for generating a digest, from each chapter obtained by dividing time series data composed of a plurality of data arranged in time series by the information processing apparatus, the chapters in advance A chapter segment extraction step for extracting a chapter segment representing a determined portion, and a chapter having a feature segment representing a characteristic portion of the chapter among the chapters obtained by dividing the time-series data. A feature segment extracting step of extracting a chapter, and a generating step of generating a digest reflecting a rough content of the time series data by combining the chapter segment and the feature segment in a time series order .
(13) a chapter segment extraction unit that extracts a chapter segment representing a predetermined portion of the chapter from each chapter obtained by dividing the time series data including a plurality of pieces of data arranged in time series by the computer; Among the chapters obtained by classifying the time-series data, a feature segment extracting unit that extracts the feature segment from chapters having a feature segment representing a characteristic portion of the chapter, the chapter segment, and the feature segment A program for functioning as a generation unit that generates a digest reflecting the rough contents of the time-series data by combining them in time-series order.
[本技術を適用したコンピュータの構成例]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
[Example of computer configuration to which this technology is applied]
Next, the series of processes described above can be performed by hardware or software. When a series of processing is performed by software, a program constituting the software is installed in a general-purpose computer or the like.
そこで、図42は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。 Therefore, FIG. 42 shows a configuration example of an embodiment of a computer in which a program for executing the series of processes described above is installed.
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク305やROM303に予め記録しておくことができる。
The program can be recorded in advance on a
あるいはまた、プログラムは、ドライブ309に装着されるリムーバブル記録媒体311に格納(記録)しておくことができる。このようなリムーバブル記録媒体311は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体311としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
Alternatively, the program can be stored (recorded) in a
なお、プログラムは、上述したようなリムーバブル記録媒体311からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク305にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
In addition to installing the program from the
コンピュータは、CPU(Central Processing Unit)302を内蔵しており、CPU302には、バス301を介して、入出力インタフェース310が接続されている。
The computer includes a CPU (Central Processing Unit) 302, and an input /
CPU302は、入出力インタフェース310を介して、ユーザによって、入力部307が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)303に格納されているプログラムを実行する。あるいは、CPU302は、ハードディスク305に格納されたプログラムを、RAM(Random Access Memory)304にロードして実行する。
The
これにより、CPU302は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU302は、その処理結果を、必要に応じて、例えば、入出力インタフェース310を介して、出力部306から出力、あるいは、通信部308から送信、さらには、ハードディスク305に記録等させる。
Thereby, the
なお、入力部307は、キーボードや、マウス、マイク等で構成される。また、出力部306は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
Note that the
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。 Here, in the present specification, the processing performed by the computer according to the program does not necessarily have to be performed in time series in the order described as the flowchart. That is, the processing performed by the computer according to the program includes processing executed in parallel or individually (for example, parallel processing or object processing).
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。 Further, the program may be processed by one computer (processor) or may be distributedly processed by a plurality of computers. Furthermore, the program may be transferred to a remote computer and executed.
なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。 The embodiment of the present disclosure is not limited to the above-described embodiment, and various modifications can be made without departing from the gist of the present disclosure.
1 レコーダ, 11 コンテンツ記憶部, 12 コンテンツモデル学習部, 13 モデル記憶部, 14 シンボル列生成部, 15 分割部, 16 制御部, 17 操作部, 21 学習用コンテンツ選択部, 22 特徴量抽出部, 23 フレーム分割部, 24 サブ領域特徴量抽出部, 25 結合部, 26 特徴量記憶部, 27 学習部, 31 コンテンツ選択部, 32 モデル選択部, 33 特徴量抽出部, 34 最尤状態系列推定部, 51 レコーダ, 71 分割部, 72 ダイジェスト生成部, 111 チャプタセグメント抽出部, 112 特徴量抽出部, 113 特徴ピークセグメント抽出部, 114 エフェクト追加部, 131 レコーダ, 132 表示部, 151 分割部, 152 提示部, 211 特徴量抽出部, 212 表示データ生成部, 213 表示制御部
DESCRIPTION OF
Claims (13)
前記時系列データを区分して得られる各チャプタのうち、チャプタの特徴的な部分を表す特徴セグメントを有するチャプタから、前記特徴セグメントを抽出する特徴セグメント抽出部と、
前記チャプタセグメントと前記特徴セグメントを時系列の順序で結合することにより、前記時系列データの大まかな内容を反映したダイジェストを生成する生成部と
を含む情報処理装置。 A chapter segment extraction unit that extracts a chapter segment representing a predetermined portion representing the chapter from each chapter obtained by dividing time series data composed of a plurality of data arranged in time series; and
Of each chapter obtained by classifying the time series data, a feature segment extraction unit that extracts the feature segment from a chapter having a feature segment representing a characteristic part of the chapter;
An information processing apparatus comprising: a generating unit that generates a digest reflecting a rough content of the time-series data by combining the chapter segments and the feature segments in a time-series order.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the generation unit generates the digest having a length set by a user's setting operation by combining the chapter segment and the feature segment in time series order.
前記シンボル列におけるシンボルの分散に基づいて、前記時系列データを複数のチャプタに区分する区分部と
をさらに含む請求項2に記載の情報処理装置。 A symbol string generation unit that creates a symbol string in which symbols representing the attributes of the plurality of data are arranged in time series based on the time series data;
The information processing apparatus according to claim 2, further comprising: a division unit that divides the time-series data into a plurality of chapters based on symbol dispersion in the symbol string.
請求項3に記載の情報処理装置。 The division unit divides the time-series data into chapters of a division number based on a length set by the user's setting operation based on a variance of each symbol constituting the symbol string. Information processing device.
前記特徴セグメント抽出部は、前記特徴量に基づいて、前記特徴セグメントを有するチャプタから、前記特徴セグメントを抽出する
請求項4に記載の情報処理装置。 A feature amount extraction unit for extracting a feature amount representing the feature of the time series data from the time series data;
The information processing apparatus according to claim 4, wherein the feature segment extraction unit extracts the feature segment from a chapter having the feature segment based on the feature amount.
請求項5に記載の情報処理装置。 The feature segment extraction unit extracts, based on the feature amount, the feature segment including a portion where the feature amount is one of maximum or maximum in a section from the start to the end of the chapter from the chapter. 5. The information processing apparatus according to 5.
請求項6に記載の情報処理装置。 The feature segment extraction unit is a location where the feature value is one of maximum or maximum in a section from the start to the end of the chapter based on the feature value, and the feature value is determined in advance. The information processing apparatus according to claim 6, wherein the feature segment including a portion that is equal to or greater than a threshold is extracted from the chapter.
請求項7に記載の情報処理装置。 The feature segment extraction unit includes a location where the feature amount maximized in a section from the start to the end of the chapter among the plurality of different feature amounts is based on the plurality of different feature amounts. The information processing apparatus according to claim 7, wherein the feature segment is extracted from the chapter.
請求項5に記載の情報処理装置。 The information processing apparatus according to claim 5, wherein the generation unit generates the digest in which a voice prepared in advance with a corresponding weight is added to each of the chapter segment and the feature segment.
前記生成部は、前記複数の異なる特徴量のうち、音声の特徴を表す特徴量に基づき抽出された前記特徴セグメントに、他の前記特徴セグメントよりも小さな重みで前記音声が付加された前記ダイジェストを生成する
請求項9に記載の情報処理装置。 The feature segment extraction unit extracts the feature segment from chapters having the feature segment based on a plurality of different feature quantities,
The generator generates the digest in which the speech is added to the feature segment extracted based on a feature amount representing a feature of speech among the plurality of different feature amounts with a weight smaller than that of the other feature segment. The information processing apparatus according to claim 9.
請求項10に記載の情報処理装置。 The information processing apparatus according to claim 10, wherein the generation unit generates the digest to which the voice is added with a weight that continuously changes and switches.
前記情報処理装置による、
時系列に並ぶ複数のデータにより構成される時系列データを区分して得られる各チャプタから、前記チャプタの予め決められた部分を表すチャプタセグメントを抽出するチャプタセグメント抽出ステップと、
前記時系列データを区分して得られる各チャプタのうち、チャプタの特徴的な部分を表す特徴セグメントを有するチャプタから、前記特徴セグメントを抽出する特徴セグメント抽出ステップと、
前記チャプタセグメントと前記特徴セグメントを時系列の順序で結合することにより、前記時系列データの大まかな内容を反映したダイジェストを生成する生成ステップと
を含む情報処理方法。 In an information processing method of an information processing apparatus that generates a digest,
According to the information processing apparatus,
A chapter segment extraction step for extracting a chapter segment representing a predetermined portion of the chapter from each chapter obtained by dividing time series data composed of a plurality of data arranged in time series, and
Of the chapters obtained by classifying the time series data, a feature segment extracting step of extracting the feature segment from chapters having a feature segment representing a characteristic part of the chapter;
An information processing method comprising: generating a digest reflecting a rough content of the time-series data by combining the chapter segments and the feature segments in a time-series order.
時系列に並ぶ複数のデータにより構成される時系列データを区分して得られる各チャプタから、前記チャプタの予め決められた部分を表すチャプタセグメントを抽出するチャプタセグメント抽出部と、
前記時系列データを区分して得られる各チャプタのうち、チャプタの特徴的な部分を表す特徴セグメントを有するチャプタから、前記特徴セグメントを抽出する特徴セグメント抽出部と、
前記チャプタセグメントと前記特徴セグメントを時系列の順序で結合することにより、前記時系列データの大まかな内容を反映したダイジェストを生成する生成部と
して機能させるためのプログラム。 Computer
A chapter segment extraction unit for extracting a chapter segment representing a predetermined portion of the chapter from each chapter obtained by dividing time series data composed of a plurality of pieces of data arranged in time series; and
Of each chapter obtained by classifying the time series data, a feature segment extraction unit that extracts the feature segment from a chapter having a feature segment representing a characteristic part of the chapter;
A program for functioning as a generation unit that generates a digest reflecting the rough contents of the time-series data by combining the chapter segments and the feature segments in time-series order.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012074115A JP2013207530A (en) | 2012-03-28 | 2012-03-28 | Information processing device, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012074115A JP2013207530A (en) | 2012-03-28 | 2012-03-28 | Information processing device, information processing method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013207530A true JP2013207530A (en) | 2013-10-07 |
Family
ID=49526223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012074115A Pending JP2013207530A (en) | 2012-03-28 | 2012-03-28 | Information processing device, information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013207530A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017108326A (en) * | 2015-12-11 | 2017-06-15 | キヤノンマーケティングジャパン株式会社 | Information processing device, control method thereof, and program |
CN111145344A (en) * | 2019-12-30 | 2020-05-12 | 哈尔滨工业大学 | Structured light measuring method for snow carving 3D reconstruction |
JP2021027417A (en) * | 2019-08-01 | 2021-02-22 | 株式会社シグマ | Image signal processing device and processing method |
JP2022088304A (en) * | 2020-12-17 | 2022-06-14 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Method for processing video, device, electronic device, medium, and computer program |
-
2012
- 2012-03-28 JP JP2012074115A patent/JP2013207530A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017108326A (en) * | 2015-12-11 | 2017-06-15 | キヤノンマーケティングジャパン株式会社 | Information processing device, control method thereof, and program |
JP2021027417A (en) * | 2019-08-01 | 2021-02-22 | 株式会社シグマ | Image signal processing device and processing method |
JP7381053B2 (en) | 2019-08-01 | 2023-11-15 | 株式会社シグマ | Image signal processing device and processing method |
CN111145344A (en) * | 2019-12-30 | 2020-05-12 | 哈尔滨工业大学 | Structured light measuring method for snow carving 3D reconstruction |
JP2022088304A (en) * | 2020-12-17 | 2022-06-14 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Method for processing video, device, electronic device, medium, and computer program |
JP7394809B2 (en) | 2020-12-17 | 2023-12-08 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Methods, devices, electronic devices, media and computer programs for processing video |
US11856277B2 (en) | 2020-12-17 | 2023-12-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing video, electronic device, medium and product |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013207529A (en) | Display control device, display control method and program | |
JP4683031B2 (en) | Electronic device, content classification method and program thereof | |
JP5533861B2 (en) | Display control apparatus, display control method, and program | |
US8503770B2 (en) | Information processing apparatus and method, and program | |
US8935169B2 (en) | Electronic apparatus and display process | |
JP5691289B2 (en) | Information processing apparatus, information processing method, and program | |
US20120057775A1 (en) | Information processing device, information processing method, and program | |
US8166420B2 (en) | Electronic apparatus and image display control method of the electronic apparatus | |
JP4166707B2 (en) | Video content recognition device, video recording device, video content recognition method, video recording method, video content recognition program, and video recording program | |
JP2013206104A (en) | Information processing device, information processing method, and program | |
WO2012020667A1 (en) | Information processing device, information processing method, and program | |
JP5845801B2 (en) | Image processing apparatus, image processing method, and program | |
US8201105B2 (en) | Electronic apparatus and image display control method of the electronic apparatus | |
US20110243529A1 (en) | Electronic apparatus, content recommendation method, and program therefor | |
US20090089837A1 (en) | Electronic Apparatus and Display Method | |
US20100092037A1 (en) | Method and system for video indexing and video synopsis | |
US20120155829A1 (en) | Electronic apparatus and face image display method | |
JP2004508757A (en) | A playback device that provides a color slider bar | |
TW200921454A (en) | Method and apparatus for video digest generation | |
US20080320046A1 (en) | Video data management apparatus | |
JP2013207530A (en) | Information processing device, information processing method and program | |
JP2010081531A (en) | Video processor and method of processing video | |
CN115407912A (en) | Interacting with semantic video segments through interactive tiles | |
Taschwer | A key-frame-oriented video browser |