JP2008148121A - Motion picture summary automatic generation apparatus and method, and computer program - Google Patents

Motion picture summary automatic generation apparatus and method, and computer program Download PDF

Info

Publication number
JP2008148121A
JP2008148121A JP2006334555A JP2006334555A JP2008148121A JP 2008148121 A JP2008148121 A JP 2008148121A JP 2006334555 A JP2006334555 A JP 2006334555A JP 2006334555 A JP2006334555 A JP 2006334555A JP 2008148121 A JP2008148121 A JP 2008148121A
Authority
JP
Japan
Prior art keywords
data
scene
image data
important word
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006334555A
Other languages
Japanese (ja)
Other versions
JP2008148121A5 (en
JP4920395B2 (en
Inventor
Yu Miyazaki
祐 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006334555A priority Critical patent/JP4920395B2/en
Publication of JP2008148121A publication Critical patent/JP2008148121A/en
Publication of JP2008148121A5 publication Critical patent/JP2008148121A5/ja
Application granted granted Critical
Publication of JP4920395B2 publication Critical patent/JP4920395B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a motion picture summary automatic generation apparatus for automatically generating a motion picture summary. <P>SOLUTION: An outline generating device 10 comprises: a scene extraction unit 51 which divides motion picture data into scenes and extracts scene motion picture data for each of the divided scenes; an audio recognition unit 53 which recognizes audio data contained in the scene motion picture data and generates text data from the audio data; an important word extraction unit 53 which extracts an important word that becomes a keyword, from the text data; a representative image extraction unit 54 which extracts representative image data that become an image representing the scenes from the scene motion picture data; and a scene merging unit 55 which merges the important word and the representative image data for each scene and creates motion picture summary data as a plot. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、動画要約自動作成装置、方法、及びコンピュータ・プログラムに関する。より詳しくは、動画の要約を自動作成する装置、動画の要約を自動作成する方法、及びそのコンピュータ・プログラムに関する。   The present invention relates to a moving picture summary automatic creation apparatus, method, and computer program. More particularly, the present invention relates to an apparatus for automatically creating a summary of a moving image, a method for automatically creating a summary of a moving image, and a computer program thereof.

従来、DVD等のメディアに収められた動画には、シーンごとに分割して1つのまとまりとし、その1つを章とし、章ごとにその章の最初の画像もしくはメディア作成者が指定した場面の画像を表示するダイジェストを作成したものが存在する。そして、この作成されたダイジェストを、動画が収められたDVD等に動画にプラスして収録することによって、該当の章の動画の頭出しを可能にする等のユーザの使い勝手を良くした方法が用いられている。   Conventionally, a moving image stored on a medium such as a DVD is divided into scenes into one unit, one of which is a chapter, and for each chapter, the first image of the chapter or the scene specified by the media creator Some have created a digest that displays an image. A method that improves user convenience, such as enabling the cueing of a moving image of the corresponding chapter, is used by recording the created digest in addition to the moving image on a DVD containing the moving image. It has been.

また、映像の自動要約方法について、字幕付きの映像の中に話題転換語を検出することにより、映像要約画像を出力する映像の自動要約方法が開示されている(例えば、特許文献1)。この特許文献1によれば、「次に」「ところで」等の話題を切り替える言葉である話題転換語を検出することにより、話題転換信号を出力し、話題転換信号が出力された時点での画像、又は一定時間後の画像を要約に使用する画像としている。これは、字幕情報付き映像の変わり目ごとの画像を集めることで、より少ない画像で映像の要約を生成するものである。   As an automatic video summarization method, an automatic video summarization method for outputting a video summary image by detecting a topic conversion word in a video with captions is disclosed (for example, Patent Document 1). According to this Patent Document 1, a topic conversion word that is a word for switching topics such as “next” and “by the way” is detected, thereby outputting a topic conversion signal and an image at the time when the topic conversion signal is output. Or, an image after a certain time is used as an image for summarization. In this method, a summary of a video is generated with fewer images by collecting images at every turn of video with caption information.

さらに、別の文献では、放送電波を受信し、その信号に含まれる代表的な部分の映像情報と音声情報とを別々に抽出した上で、それらの映像情報及び音声情報を合成して要約を作成する方法が開示されている(例えば、特許文献2)。
特開平11−331761号公報 特開2002−149672号公報
In another document, a broadcast radio wave is received, video information and audio information of a representative part included in the signal are extracted separately, and then the video information and audio information are synthesized and summarized. A creating method is disclosed (for example, Patent Document 2).
Japanese Patent Application Laid-Open No. 11-333161 JP 2002-149672 A

しかし、特許文献1は、字幕付きの映像についてのものであり、例えば、テレビやインターネットで放映されている映像や、邦画等では、字幕のないものが多く存在する。このような、日本国内で広く放映されている字幕のない映像では、特許文献1に記載の方法を使用できない。また、話題転換語が出現した時点での画像又は一定時間後の画像を要約に使用するが、特許文献1は、字幕付きのニュース等の報道番組を前提としたものであり、洋画等にこの方法を用いても、必ずしも代表画像を表示できない。   However, Patent Document 1 relates to video with subtitles. For example, there are many non-captioned videos, such as video broadcast on television and the Internet, and Japanese movies. The method described in Patent Document 1 cannot be used for such a video without captions that is widely broadcast in Japan. In addition, an image at the time when a topic conversion word appears or an image after a certain period of time is used for summarization. However, Patent Document 1 is premised on a news program with subtitles and the like. Even if this method is used, a representative image cannot always be displayed.

また、特許文献2は、映像情報と音声情報とを別々に抽出しているが、音声情報については、音声の一部をそのまま切り出したものである。従って、複数の音声、例えば、雑音が入力されている場合には、雑音を含んだ音声をそのまま抽出することとなり、聞きづらく、結果として、重要でない音声を含んだものとなる。   Further, Patent Document 2 extracts video information and audio information separately, but the audio information is obtained by extracting a part of the audio as it is. Therefore, when a plurality of voices, for example, noises are input, the voices containing the noises are extracted as they are, and it is difficult to hear them. As a result, the voices that are not important are included.

発明者は、上述の問題点に鑑み、要約を作成するにあたって、字幕のないものや、複数の音声が入力されている動画であっても、要約を作成可能な方法として、音声認識を用いて音声データをテキスト化し、重要語を抽出して使用することを考えた。また、動画の画像から代表画像を見つけ出すことに関して、テキストデータから重要語を抽出するのと同様の考えに基づき行うことを見出した。   In view of the above-mentioned problems, the inventor used speech recognition as a method for creating a summary even when there is no subtitles or a video in which a plurality of sounds are input. We considered using voice data as text and extracting important words. In addition, the present inventors have found out that a representative image is found from a moving image based on the same idea as extracting a key word from text data.

そこで、本発明は、音声認識を用いて音声データをテキスト化したテキストデータから重要語を抽出し、抽出した重要語と、テキストデータから重要語を抽出するのと同様の考えに基づき抽出した代表画像と、を統合して動画の要約を自動作成する動画要約自動作成装置等を提供することを目的とする。   Therefore, the present invention extracts important words from text data obtained by converting speech data into text using speech recognition, and extracts extracted important words and representatives extracted based on the same idea as extracting important words from text data. An object of the present invention is to provide an apparatus for automatically creating a moving picture summary that integrates images and automatically creates a moving picture summary.

上記目的のため、具体的には以下のようなものを提供する。   For the above purpose, the following are specifically provided.

(1) 複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成する動画要約自動作成装置であって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するシーン抽出部と、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成する音声認識部と、
前記テキストデータからキーワードとなる重要語を抽出する重要語抽出部と、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出する代表画像抽出部と、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するシーン統合部と、を備える動画要約自動作成装置。
(1) A moving picture summary automatic creation device that automatically creates a moving picture summary for each scene constituted by a group of the image data from moving picture data constituted by a plurality of image data,
A scene extracting unit that divides the moving image data into the scenes and extracts scene moving image data for each of the divided scenes;
A voice recognition unit that recognizes voice data included in the scene video data and generates text data from the voice data;
An important word extraction unit for extracting an important word as a keyword from the text data;
A representative image extraction unit for extracting representative image data to be an image representing the scene from the scene video data;
A moving picture summary automatic creation apparatus comprising: a scene integration unit that creates the moving picture summary data by integrating the important word and the representative image data for each scene.

(1)の構成によれば、動画要約自動作成装置は、シーン抽出部を備える。シーンとは、ひとかたまりの画像データから構成され、動画データの一部分を示す。また、音声認識部と、重要語抽出部と、代表画像抽出部と、を備える。音声データから生成された重要語と、代表画像データとは、別個に抽出される。そして、シーン統合部は、抽出された重要語と、代表画像データと、はシーンごとに統合して動画要約データを作成する。   According to the configuration of (1), the moving image summary automatic creating apparatus includes the scene extraction unit. A scene is composed of a group of image data and indicates a part of moving image data. In addition, a speech recognition unit, an important word extraction unit, and a representative image extraction unit are provided. The important words generated from the audio data and the representative image data are extracted separately. The scene integration unit integrates the extracted important words and the representative image data for each scene to create moving image summary data.

よって、動画データからシーンを抽出し、シーンごとに重要語と代表画像とを抽出し、それらを統合することで、動画の要約であるあらすじを自動で作成することができる。   Therefore, by extracting a scene from moving image data, extracting an important word and a representative image for each scene, and integrating them, an outline that is a summary of a moving image can be automatically created.

重要語を抽出する方法として音声データを用いることは、音声データが有する豊富な情報量を活用できるという利点がある。一方で、現状では音声認識の認識率が低いという問題を含む。音声認識の認識率が低いと、正確な文書を生成できないため、そのままでは使用することが難しい。しかし、生成されたテキストデータからキーワードとなる重要語を抽出することで、認識率が低い弱点を吸収することができる。   Using voice data as a method for extracting an important word has an advantage that an abundant amount of information included in the voice data can be utilized. On the other hand, there is a problem that the recognition rate of voice recognition is low at present. If the recognition rate of voice recognition is low, an accurate document cannot be generated, so it is difficult to use it as it is. However, weak points with low recognition rates can be absorbed by extracting key words as keywords from the generated text data.

(2) 前記動画データは、前記画像データと共に文字データをさらに有し、
前記重要語抽出部は、前記文字データと、前記音声認識部により生成された前記テキストデータと、から重要語を抽出する、(1)記載の動画要約自動作成装置。
(2) The moving image data further includes character data together with the image data,
The video summary automatic creation device according to (1), wherein the important word extraction unit extracts an important word from the character data and the text data generated by the voice recognition unit.

(2)の構成によれば、動画データが、画像データと共に文字データをさらに有する場合において、動画要約自動作成装置が備える重要語抽出部は、文字データと、音声認識部により生成されたテキストデータと、から重要語を抽出する。   According to the configuration of (2), when the moving image data further includes character data together with the image data, the important word extraction unit included in the moving image summary automatic creation device includes the character data and the text data generated by the voice recognition unit. And extract important words.

よって、例えば字幕付きの洋画等、日本語の音声データではない場合において、字幕である文字データを用いることにより、シーンごとの重要語を抽出することができ、シーン内の代表的なキーワードをあらすじに用いることができる。また、字幕付きで日本語の音声データを含む映像においても、字幕と音声データから変換されたテキストデータとを用いることにより、重要語をさらに的確に抽出することができる。   Therefore, for example, when the audio data is not Japanese, such as a Western movie with subtitles, it is possible to extract important words for each scene by using character data that is subtitles. Can be used. Further, even in a video including Japanese audio data with subtitles, it is possible to more accurately extract important words by using subtitles and text data converted from the audio data.

(3) 前記代表画像抽出部は、前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出す、(1)又は(2)記載の動画要約自動作成装置。   (3) The representative image extraction unit extracts an object from the image data constituting the scene moving image data, and displays the entire display area of the image data, the display area of the object, the number of image data including the object, and the The apparatus for automatically creating a moving picture summary according to (1) or (2), wherein the moving picture summary is derived from the number of image data constituting the scene moving picture data using a result calculated by a predetermined calculation formula.

(3)の構成によれば、動画要約自動作成装置が備える代表画像抽出部は、シーン動画データを構成する画像データからオブジェクトを抽出し、画像データの全体の表示面積、オブジェクトの表示面積、オブジェクトを含む画像データ数、及びシーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出すことができる。   According to the configuration of (3), the representative image extraction unit provided in the video summary automatic creation device extracts an object from the image data constituting the scene video data, and displays the entire display area of the image data, the display area of the object, the object Can be derived from the number of image data including the image data and the number of image data constituting the scene moving image data, using a result calculated by a predetermined calculation formula.

画像データの全体の表示面積、オブジェクトの表示面積、オブジェクトを含む画像データ数、及びシーン動画データを構成する画像データ数は、容易に取得可能な情報である。よって、容易に取得できる画像に関する特定の情報を用いて、一定の算出式に代入するだけで、代表画像を抽出することができる。   The entire display area of the image data, the display area of the object, the number of image data including the object, and the number of image data constituting the scene moving image data are easily obtainable information. Therefore, a representative image can be extracted simply by substituting it into a certain calculation formula using specific information regarding an image that can be easily acquired.

(4) 前記重要語抽出部は、前記テキストデータに対してTF*IDF法を用いて前記重要語を抽出する、(1)乃至(3)記載の動画要約自動作成装置。   (4) The moving picture summary automatic creation device according to (1) to (3), wherein the important word extraction unit extracts the important words from the text data using a TF * IDF method.

(4)の構成によれば、動画要約自動作成装置が備える重要語抽出部は、テキストデータに対してTF*IDF法を用いて重要語を抽出することができる。よって、特定の場所に偏って出現している言葉を重要語として抽出することができる。   According to the configuration of (4), the important word extraction unit provided in the video summary automatic creation device can extract the important words from the text data using the TF * IDF method. Therefore, words that appear biased at a specific place can be extracted as important words.

(5) 前記シーン統合部は、前記シーン動画データごとに作成された前記動画要約データを、さらに前記動画データの最初に表示されるように統合する、(1)乃至(4)記載の動画要約自動作成装置。   (5) The moving image summary according to (1) to (4), wherein the scene integration unit integrates the moving image summary data generated for each scene moving image data so that the moving image data is displayed first. Automatic creation device.

(5)の構成によれば、動画要約自動作成装置が備えるシーン統合部は、シーン動画データごとに作成された動画要約データを、さらに動画データの最初に表示されるように統合することができる。よって、動画の要約(あらすじ)である動画要約データを作成し、動画データの最初に表示されることにより、あらすじをダイジェスト版として、ユーザ最初に見ることができる。   According to the configuration of (5), the scene integration unit included in the video summary automatic creation device can further integrate the video summary data created for each scene video data so that the video summary data is displayed first. . Therefore, by creating moving image summary data that is a summary of a moving image and displaying it at the beginning of the moving image data, the user can see the summary as a digest version first.

(6) 複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成する動画要約自動作成方法であって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するステップと、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成するステップと、
前記テキストデータからキーワードとなる重要語を抽出するステップと、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出するステップと、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するステップと、を含む動画要約自動作成方法。
(6) A moving picture summary automatic creation method for automatically creating a moving picture summary for each scene constituted by a set of image data from moving picture data constituted by a plurality of image data,
Dividing the video data into the scenes, and extracting scene video data for each of the divided scenes;
Recognizing audio data included in the scene video data and generating text data from the audio data;
Extracting an important word as a keyword from the text data;
Extracting representative image data to be an image representing the scene from the scene video data;
A method of automatically creating a moving picture summary including the step of creating the moving picture summary data by integrating the important word and the representative image data for each scene.

(6)の構成によれば、上記(1)と同様な作用・効果を有する方法を提供することができる。   According to the structure of (6), the method which has the same effect | action and effect as said (1) can be provided.

(7) 前記動画データは、前記画像データと共に文字データをさらに有し、
前記重要語を抽出するステップは、前記文字データと、前記テキストデータを生成するステップにより生成された前記テキストデータと、から重要語を抽出する、(6)記載の動画要約自動作成方法。
(7) The moving image data further includes character data together with the image data,
The method for automatically creating a moving picture summary according to (6), wherein the step of extracting the important word extracts the important word from the character data and the text data generated by the step of generating the text data.

(7)の構成によれば、上記(2)と同様な作用・効果を有する方法を提供することができる。   According to the structure of (7), the method which has the same effect | action and effect as said (2) can be provided.

(8) 前記代表画像データを抽出するステップは、前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出す、(6)又は(7)記載の動画要約自動作成方法。   (8) The step of extracting the representative image data includes extracting an object from the image data constituting the scene moving image data, and displaying the entire display area of the image data, the display area of the object, and the number of image data including the object And a method for automatically creating a moving picture summary according to (6) or (7), which is derived from the number of image data constituting the scene moving picture data using a result calculated by a predetermined calculation formula.

(8)の構成によれば、上記(3)と同様な作用・効果を有する方法を提供することができる。   According to the structure of (8), the method which has the same effect | action and effect as said (3) can be provided.

(9) 前記重要語を抽出するステップは、前記テキストデータに対してTF*IDF法を用いて前記重要語を抽出する、(6)乃至(8)記載の動画要約自動作成方法。   (9) The moving picture summary automatic creating method according to (6) to (8), wherein the step of extracting the important word extracts the important word from the text data by using a TF * IDF method.

(9)の構成によれば、上記(4)と同様な作用・効果を有する方法を提供することができる。   According to the structure of (9), the method which has the same effect | action and effect as said (4) can be provided.

(10) 前記動画要約データを作成するステップは、前記シーン動画データごとに作成された前記動画要約データを、さらに前記動画データの最初に表示されるように統合する、(6)乃至(9)記載の動画要約自動作成方法。   (10) The step of creating the moving image summary data integrates the moving image summary data created for each scene moving image data so as to be further displayed at the beginning of the moving image data. Automatic video summary creation method described.

(10)の構成によれば、上記(5)と同様な作用・効果を有する方法を提供することができる。   According to the structure of (10), the method which has the effect | action and effect similar to said (5) can be provided.

(11) 複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成させるコンピュータ・プログラムであって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するステップと、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成するステップと、
前記テキストデータからキーワードとなる重要語を抽出するステップと、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出するステップと、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するステップと、をコンピュータに実行させるコンピュータ・プログラム。
(11) A computer program for automatically creating a summary of a moving image for each scene formed of a group of the image data from moving image data including a plurality of image data,
Dividing the video data into the scenes, and extracting scene video data for each of the divided scenes;
Recognizing audio data included in the scene video data and generating text data from the audio data;
Extracting an important word as a keyword from the text data;
Extracting representative image data to be an image representative of the scene from the scene video data;
A computer program for causing a computer to execute the step of integrating the important word and the representative image data for each scene to create moving image summary data.

(11)の構成によれば、上記(1)と同様な作用・効果を有するコンピュータ・プログラムを提供することができる。   According to the configuration of (11), it is possible to provide a computer program having the same operation and effect as the above (1).

本発明によれば、音声認識を用いて音声データをテキスト化したテキストデータから重要語を抽出し、抽出した重要語と、テキストデータから重要語を抽出するのと同様の考えに基づき抽出した代表画像と、を統合して動画の要約を自動作成する動画要約自動作成装置等を提供することができる。   According to the present invention, an important word is extracted from text data obtained by converting speech data into text using speech recognition, the extracted important word, and a representative extracted based on the same idea as extracting the important word from the text data. It is possible to provide a moving picture summary automatic creation device or the like that automatically creates a moving picture summary by integrating images.

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。   Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.

[システムの全体構成]
図1は、本発明の好適な実施形態の一例に係るコンピュータ・システム1の全体構成、及びあらすじ作成装置10の機能構成を示すブロック図である。
[System overall configuration]
FIG. 1 is a block diagram showing the overall configuration of a computer system 1 and the functional configuration of a synopsis creation device 10 according to an example of a preferred embodiment of the present invention.

本発明のあらすじ作成装置10は、動画の要約を自動的に作成する装置であって、通信回線30を介して、ユーザ端末20と接続されている。ユーザ端末20は、PCの他、携帯電話機やPDA等の携帯端末であってもよい。通信回線30は、例えばインターネットを指す。   The synopsis creation device 10 of the present invention is a device that automatically creates a summary of a moving image and is connected to a user terminal 20 via a communication line 30. The user terminal 20 may be a mobile terminal such as a mobile phone or a PDA in addition to the PC. The communication line 30 indicates the Internet, for example.

この実施例においては、あらすじ作成装置10は、例えばサーバ等のハードウェアにより実現される。ここで、サーバの物理的な構成はこれに限定されるものではない。あらすじ作成装置10は、ハードウェアの数に制限はなく、必要に応じて1又は複数で構成してよい。また、あらすじ作成装置10のハードウェアは、必要に応じてWebサーバ、DBサーバ、アプリケーションサーバを含んで構成してよく、1台のサーバで構成しても、それぞれ別のサーバで構成してもよい。   In this embodiment, the synopsis creation device 10 is realized by hardware such as a server. Here, the physical configuration of the server is not limited to this. The synopsis creation device 10 is not limited in the number of hardware, and may be configured by one or more as necessary. Further, the hardware of the synopsis creation device 10 may be configured to include a Web server, a DB server, and an application server as necessary, and may be configured with one server or different servers. Good.

あらすじ作成装置10は、制御部50を有し、制御部50は、少なくとも動画データをシーンに分割し、分割したシーンごとにシーン動画データを抽出するシーン抽出部51、抽出されたシーン動画データに含まれる音声データを認識し、認識した音声データからテキストデータを生成する音声認識部52、生成されたテキストデータからキーワードとなる重要語を抽出する重要語抽出部53、シーン動画データからシーンを代表する画像となる代表画像データを抽出する代表画像抽出部54、及び、抽出された重要語と、抽出された代表画像データと、をシーンごとに統合した動画要約データを作成するシーン統合部55を備える。   The synopsis creation apparatus 10 includes a control unit 50. The control unit 50 divides at least moving image data into scenes, and extracts a scene moving image data for each divided scene. A speech recognition unit 52 that recognizes included speech data and generates text data from the recognized speech data, a keyword extraction unit 53 that extracts a keyword as a keyword from the generated text data, and a scene from scene video data A representative image extraction unit 54 that extracts representative image data to be an image to be processed, and a scene integration unit 55 that creates moving image summary data in which the extracted key words and the extracted representative image data are integrated for each scene. Prepare.

さらに、あらすじ作成装置10は、記憶部60を有し、記憶部60は、少なくとも動画DB62、代表画像抽出DB64、及びあらすじDB66を含む。   The synopsis creation device 10 further includes a storage unit 60. The storage unit 60 includes at least a moving image DB 62, a representative image extraction DB 64, and a synopsis DB 66.

あらすじ作成装置10により作成された動画要約データ(あらすじ)は、通信回線30を介してユーザ端末20にダウンロードされる。このことにより、通信回線30に接続されたユーザ端末20のユーザが、あらすじを見ることができる。また、動画要約データ(あらすじ)をDVD等のメディアに記憶した上でユーザに配布することで、配布されたメディアをユーザ端末20等で再生することができる。   The moving image summary data (summary) created by the synopsis creation device 10 is downloaded to the user terminal 20 via the communication line 30. Thus, the user of the user terminal 20 connected to the communication line 30 can see the outline. Further, by storing the moving image summary data (summary) in a medium such as a DVD and distributing it to the user, the distributed medium can be reproduced on the user terminal 20 or the like.

[概念図]
図2は、本発明の好適な実施形態の一例に係るあらすじ作成装置10によりあらすじが作成されるまでの概念図を示したものである。
[Conceptual diagram]
FIG. 2 shows a conceptual diagram until a synopsis is created by the synopsis creation apparatus 10 according to an example of a preferred embodiment of the present invention.

動画データは、複数の画像データにより構成されている。この画像データは、基本的に映画であれば1秒間に24コマ(24個の画像データ)、テレビであれば1秒間に30コマ(30個の画像データ)存在する。動画の1秒間のコマ数(画像データ数)は、FPS(Frame Per Second)で表し、数が多い(FPSの値が大きい)ほど、滑らかな動画となり、その分ファイルサイズが大きくなる。よって、映画は24FPSと、テレビは30FPSと表記できる。   The moving image data is composed of a plurality of image data. This image data is basically 24 frames (24 image data) per second for a movie and 30 frames (30 image data) per second for a television. The number of frames (number of image data) per second of a moving image is represented by FPS (Frame Per Second), and the larger the number (the larger the FPS value), the smoother the moving image, and the correspondingly the file size increases. Therefore, a movie can be expressed as 24 FPS, and a television can be expressed as 30 FPS.

ここで、複数の画像データの集合である1つの動画データを、あるまとまりのあるシーンごとに分割する。そして、それぞれのシーンについて番号を振る。そのシーンには、音声データ及び画像データが含まれる。音声データは、例えば映像に関するセリフやナレーションであり、音声データからテキストデータを生成する。その後、テキストデータから重要語を抽出する。また、画像データから、代表画像データを抽出する。   Here, one moving image data, which is a set of a plurality of image data, is divided for each certain scene. A number is assigned to each scene. The scene includes audio data and image data. The audio data is, for example, a speech or narration related to video, and text data is generated from the audio data. After that, important words are extracted from the text data. Also, representative image data is extracted from the image data.

シーン1の音声データであるセリフ1からテキスト1を生成し、重要語1を抽出する。また、シーン1の画像データから代表画像1を抽出する。同様に、シーン2、及びシーン3についても同様の処理を行う。   Text 1 is generated from speech 1 that is audio data of scene 1, and important word 1 is extracted. Further, the representative image 1 is extracted from the image data of the scene 1. Similarly, the same processing is performed for scene 2 and scene 3.

作成された重要語と代表画像とを統合し、あらすじを作成する。その場合、各シーンについてのあらすじを並列に表示してもよいし、シーンごとに場面転換するようにあらすじを表示してもよい。   Integrate the created key words and representative images to create a synopsis. In that case, the synopsis for each scene may be displayed in parallel, or the synopsis may be displayed so that the scene changes for each scene.

このように、シーンごとに音声データと画像データとからそれぞれの代表的なデータを抽出し、統合することで、あらすじを作成することが可能となる。   As described above, it is possible to create a synopsis by extracting and integrating representative data of each scene from the audio data and the image data.

[シーン切り分け例]
図3は、本発明の好適な実施形態の一例に係るあらすじ作成装置10によりシーンを切り分ける例を示したものである。
[Scene separation example]
FIG. 3 shows an example in which a scene is cut by the synopsis creation device 10 according to an example of a preferred embodiment of the present invention.

図3の右には、動画データの一部である画像データが示されている。図3の(a)及び(b)は、うさぎが野原を飛び跳ねている様子を表しており、他方、図3の(c)及び(d)は、人物が家から出てきた様子を表している。この場合、全く異なる画像に切り替わっている。そこで、この図3の(b)と(c)との間がシーンの変わり目であると判断し、図3の左に示すように、(a)及び(b)を含む画像データを「シーン1」、(c)及び(d)を含む画像データを「シーン2」としている。   The right side of FIG. 3 shows image data that is part of the moving image data. 3 (a) and 3 (b) show how a rabbit is jumping over the field, while FIGS. 3 (c) and 3 (d) show how a person has left the house. Yes. In this case, it is switched to a completely different image. Therefore, it is determined that the transition between the scenes (b) and (c) in FIG. 3 is a scene change, and as shown on the left in FIG. ”, (C), and (d) are“ scene 2 ”.

[処理フロー]
図4は、本発明の好適な実施形態の一例に係るメイン処理であるあらすじ作成処理についてのメインフローを示したものである。
[Processing flow]
FIG. 4 shows the main flow of the synopsis creation process which is the main process according to an example of the preferred embodiment of the present invention.

先ず、ステップS1では、制御部50は、動画DB62に格納された動画データを取出す。その後、制御部50は、処理をステップS2に移す。   First, in step S <b> 1, the control unit 50 takes out moving image data stored in the moving image DB 62. Thereafter, the control unit 50 moves the process to step S2.

ステップS2では、制御部50(シーン抽出部51)は、ステップS1により取り出した動画データを、シーンに分割する。シーン分割処理については後述の図5で説明する。その後、制御部50は、処理をステップS3に移す。   In step S2, the control unit 50 (scene extraction unit 51) divides the moving image data extracted in step S1 into scenes. The scene division process will be described later with reference to FIG. Thereafter, the control unit 50 moves the process to step S3.

ステップS3では、制御部50は、ステップS2で分割したシーンに、順番に番号を振る。その後、制御部50は、処理をステップS4に移す。   In step S3, the control unit 50 assigns numbers to the scenes divided in step S2 in order. Thereafter, the control unit 50 moves the process to step S4.

ステップS4では、制御部50は、分割したシーンのうち1つのシーン(シーンi)を取出す。その後、制御部50は、処理をステップS5に移す。   In step S4, the control unit 50 extracts one scene (scene i) from the divided scenes. Thereafter, the control unit 50 moves the process to step S5.

ステップS5では、制御部50(音声認識部52)は、取り出したシーンiの音声データから、音声認識によりテキストデータを生成する。音声認識処理については、後述の図6で説明する。その後、制御部50は、処理をステップS6に移す。   In step S5, the control unit 50 (voice recognition unit 52) generates text data by voice recognition from the extracted voice data of the scene i. The voice recognition process will be described later with reference to FIG. Thereafter, the control unit 50 moves the process to step S6.

ステップS6では、制御部50(重要語抽出部53)は、生成されたテキストデータから重要語を抽出する。重要語抽出処理については、後述の図7で説明する。その後、制御部50は、処理をステップS7に移す。   In step S6, the control unit 50 (important word extracting unit 53) extracts an important word from the generated text data. The important word extraction process will be described later with reference to FIG. Thereafter, the control unit 50 moves the process to step S7.

ステップS7では、制御部50(代表画像抽出部54)は、ステップS4で取り出したシーンiの動画データを構成する複数の画像データから、その動画データを代表する場面である代表画像データを抽出する。代表画像抽出処理については、後述の図8で説明する。その後、制御部50は、処理をステップS8に移す。   In step S7, the control unit 50 (representative image extraction unit 54) extracts representative image data, which is a scene representing the moving image data, from the plurality of image data constituting the moving image data of the scene i extracted in step S4. . The representative image extraction process will be described later with reference to FIG. Thereafter, the control unit 50 moves the process to step S8.

ステップS8では、制御部50は、全てのシーンiについて処理を行ったか否かを判断する。全てのシーンiについて処理を行った場合(ステップS8の処理でYESが判断される場合)には、制御部50は、処理をステップS9に移す。他方、全てのシーンiについて未だ処理を行っていない場合(ステップS8の処理でNOが判断される場合)には、制御部50は、処理をステップS5に移し、処理をしていないシーンiについて、引き続き処理を行う。   In step S8, the control unit 50 determines whether or not processing has been performed for all scenes i. When the process is performed for all scenes i (when YES is determined in the process of step S8), the control unit 50 moves the process to step S9. On the other hand, when all the scenes i have not been processed yet (when NO is determined in the process of step S8), the control unit 50 moves the process to step S5, and for the scene i that has not been processed. Continue processing.

ステップS9では、制御部50(シーン統合部55)は、シーンiについて、重要語と代表画像データとをつなぎ合わせ、統合データを作成する。その後、制御部50は、処理をステップS10に移す。   In step S <b> 9, the control unit 50 (scene integration unit 55) connects the important word and the representative image data for the scene i to create integrated data. Thereafter, the control unit 50 moves the process to step S10.

ステップS10では、制御部50(シーン統合部55)は、作成された統合データを順番につなぎ合わせ、あらすじデータを作成し、あらすじDB66に格納する。その後、制御部50は、本処理を終了する。   In step S10, the control unit 50 (scene integration unit 55) connects the generated integrated data in order, generates synopsis data, and stores the synopsis data in the synopsis DB 66. Thereafter, the control unit 50 ends this process.

次に図5に基づき、シーン分割処理について説明する。   Next, the scene division process will be described with reference to FIG.

先ず、ステップS21では、制御部50(シーン抽出部51)は、シーンiの動画データを進める。具体的には、動画データを構成する画像データを順番に送り進めていく。その後、制御部50(シーン抽出部51)は、処理をステップS22に移す。   First, in step S21, the control unit 50 (scene extraction unit 51) advances the moving image data of the scene i. Specifically, the image data constituting the moving image data is sent in order. Thereafter, the control unit 50 (scene extraction unit 51) moves the process to step S22.

ステップS22では、制御部50(シーン抽出部51)は、全く異なる画像に切り替わったか否かを判断する。具体的には、現在の画像データと、その1つ前の画像データとの間に1つも、画像データに含まれる一部を占めるデータである部分画像データが重複していない場合等が該当する。全く異なる画像に切り替わった場合(ステップS22の処理でYESが判断される場合)には、制御部50(シーン抽出部51)は、処理をステップS23に移す。他方、全く異なる画像に切り替わっていない場合(ステップS22の処理でNOが判断される場合)には、制御部50(シーン抽出部51)は、処理をステップS26に移す。   In step S22, the control unit 50 (scene extraction unit 51) determines whether or not a completely different image has been switched. Specifically, this corresponds to a case where there is no overlap between partial image data, which occupies a part of the image data, between the current image data and the previous image data. . When the image is switched to a completely different image (when YES is determined in the process of step S22), the control unit 50 (scene extraction unit 51) moves the process to step S23. On the other hand, when the image has not been switched to a completely different image (when NO is determined in the process of step S22), the control unit 50 (scene extraction unit 51) moves the process to step S26.

ステップS23では、制御部50(シーン抽出部51)は、全く異なる画像に切り替わった場所の前後で、動画データを分割する。これにより、場面転換の場所で、別シーンとすることができる。その後、制御部50(シーン抽出部51)は、処理をステップS24に移す。   In step S23, the control unit 50 (scene extraction unit 51) divides the moving image data before and after the place where the image is completely different. Thereby, it can be set as another scene in the place of a scene change. Thereafter, the control unit 50 (scene extraction unit 51) moves the process to step S24.

ステップS24では、制御部50(シーン抽出部51)は、分割した前半の動画データを記憶部60のWKに保存する。WKとは、記憶部60に有する一時領域を指す。その後、制御部50(シーン抽出部51)は、処理をステップS25に移す。   In step S24, the control unit 50 (scene extraction unit 51) stores the divided first half of the moving image data in the WK of the storage unit 60. WK refers to a temporary area in the storage unit 60. Thereafter, the control unit 50 (scene extraction unit 51) moves the process to step S25.

ステップS25では、制御部50(シーン抽出部51)は、分割した後半の動画データについて、動画データを進める。その後、制御部50(シーン抽出部51)は、処理をステップS22に移す。以降、動画データが終了するまで処理を繰り返す。   In step S25, the control unit 50 (scene extraction unit 51) advances the moving image data for the divided latter half moving image data. Thereafter, the control unit 50 (scene extraction unit 51) moves the process to step S22. Thereafter, the process is repeated until the moving image data ends.

他方、ステップS26では、制御部50(シーン抽出部51)は、動画データの映像が終了したか否かを判断する。動画データの映像が終了した場合(ステップS26の処理でYESが判断された場合)には、制御部50(シーン抽出部51)は、本処理を終了し、メイン処理に戻る。他方、動画データの映像が終了していない場合(ステップS26の処理でNOが判断された場合)には、制御部50(シーン抽出部51)は、処理をステップS22に移し、動画データが終了するまで処理を繰り返す。   On the other hand, in step S26, the control unit 50 (scene extraction unit 51) determines whether or not the video of the moving image data has ended. When the video of the moving image data has ended (when YES is determined in the process of step S26), the control unit 50 (scene extraction unit 51) ends this process and returns to the main process. On the other hand, when the video of the moving image data has not ended (when NO is determined in the process of step S26), the control unit 50 (scene extraction unit 51) moves the process to step S22, and the moving image data ends. Repeat the process until

次に、図6に基づき、音声認識処理について説明する。   Next, the speech recognition process will be described with reference to FIG.

先ず、ステップS51では、制御部50(音声認識部52)は、シーンiの動画データから音声データを抽出する。その後、制御部50(音声認識部52)は、処理をステップS52に移す。   First, in step S51, the control unit 50 (voice recognition unit 52) extracts voice data from the moving image data of the scene i. Thereafter, the control unit 50 (voice recognition unit 52) moves the process to step S52.

ステップS52では、制御部50(音声認識部52)は、ステップS51で抽出した音声データを入力し、音声データに合致したテキストデータを抽出する。具体的には、音声データの入力に対し、音声データとテキストデータとを関連付けた変換テーブルを利用して、入力された音声データに該当するテキストデータを抽出する。その後、制御部50(音声認識部52)は、処理をステップS53に移す。   In step S52, the control unit 50 (voice recognition unit 52) inputs the voice data extracted in step S51, and extracts text data that matches the voice data. Specifically, text data corresponding to the input voice data is extracted by using a conversion table in which the voice data and the text data are associated with the input of the voice data. Thereafter, the control unit 50 (voice recognition unit 52) moves the process to step S53.

ステップS53では、制御部50(音声認識部52)は、ステップS52により抽出したテキストデータを結合させた文書を生成する。その後、制御部50(音声認識部52)は、本処理を終了し、メイン処理に戻る。   In step S53, the control unit 50 (voice recognition unit 52) generates a document in which the text data extracted in step S52 is combined. Thereafter, the control unit 50 (voice recognition unit 52) ends this processing and returns to the main processing.

次に、図7に基づき、重要語抽出処理について説明する。   Next, the keyword extraction process will be described with reference to FIG.

先ず、ステップS61では、制御部50(重要語抽出部53)は、テキストデータの形態素解析を行う。具体的には、テキストデータを名詞等の品詞に分割する。その後、制御部50(重要語抽出部53)は、処理をステップS62に移す。   First, in step S61, the control unit 50 (important word extraction unit 53) performs morphological analysis of text data. Specifically, the text data is divided into parts of speech such as nouns. Thereafter, the control unit 50 (important word extraction unit 53) moves the process to step S62.

ステップS62では、制御部50(重要語抽出部53)は、ステップS61により解析された結果データを記憶部60のWKに入れる。その後、制御部50(重要語抽出部53)は、処理をステップS63に移す。   In step S62, the control unit 50 (important word extraction unit 53) puts the result data analyzed in step S61 into the WK of the storage unit 60. Thereafter, the control unit 50 (important word extraction unit 53) moves the process to step S63.

ステップS63では、制御部50(重要語抽出部53)は、WKに入れた結果データから1つのデータを取り出して、TF*IDF値を算出する。その後、制御部50(重要語抽出部53)は、処理をステップS64に移す。   In step S63, the control unit 50 (important word extraction unit 53) extracts one piece of data from the result data put in WK and calculates a TF * IDF value. Thereafter, the control unit 50 (important word extracting unit 53) moves the process to step S64.

なお、TF*IDF値とは、TF−IDF法により算出された値であり、TF(Term Frequency)という指標と、IDF(Inverse Document Frequency)という指標の2つの指標を用いたアルゴリズムにより算出された値である。この値は、個々のキーワードに対するスコアリングを行うことができるものである。このTF*IDF値が高いものほど、重要なキーワードということになる。   The TF * IDF value is a value calculated by the TF-IDF method, and is calculated by an algorithm using two indexes, an index called TF (Term Frequency) and an index called IDF (Inverse Document Frequency). Value. This value can be scored for each keyword. The higher the TF * IDF value, the more important the keyword.

ステップS64では、制御部50(重要語抽出部53)は、記憶部60のWKに保存した結果データが空か否かを判断する。WKに保存した結果データについて全て処理を行い空である場合(ステップS64の処理でYESが判断される場合)には、制御部50(重要語抽出部53)は、処理をステップS65に移す。他方。WKに保存した結果データについて全て処理をしておらず、空でない場合(ステップS64の処理でNOが判断された場合)には、制御部50(重要語抽出部53)は、処理をステップS63に移す。   In step S64, the control unit 50 (important word extraction unit 53) determines whether or not the result data stored in the WK of the storage unit 60 is empty. If all the result data stored in WK are processed and are empty (when YES is determined in step S64), control unit 50 (important word extraction unit 53) moves the process to step S65. On the other hand. If all the result data stored in the WK has not been processed and is not empty (NO is determined in the process of step S64), the control unit 50 (important word extracting unit 53) performs the process in step S63. Move to.

ステップS65では、制御部50(重要語抽出部53)は、ステップS63で算出したTF*IDF値に基づきランク付けを行う。その後、制御部50(重要語抽出部53)は、処理をステップS66に移す。   In step S65, the control unit 50 (important word extraction unit 53) performs ranking based on the TF * IDF value calculated in step S63. Thereafter, the control unit 50 (important word extraction unit 53) moves the process to step S66.

ステップS66では、制御部50(重要語抽出部53)は、最上位のデータを重要語として抽出する。その後、制御部50(重要語抽出部53)は、本処理を終了し、メイン処理に戻る。   In step S66, the control unit 50 (important word extracting unit 53) extracts the most significant data as an important word. Thereafter, the control unit 50 (important word extraction unit 53) ends this processing and returns to the main processing.

最後に、図8に基づいて、代表画像抽出処理について説明する。   Finally, representative image extraction processing will be described with reference to FIG.

先ず、ステップS71では、制御部50(代表画像抽出部54)は、シーンiの動画データから、1つの画像データを抽出する。その後、制御部50(代表画像抽出部54)は、処理をステップS72に移す。   First, in step S71, the control unit 50 (representative image extraction unit 54) extracts one image data from the moving image data of the scene i. Thereafter, the control unit 50 (representative image extraction unit 54) moves the process to step S72.

ステップS72では、制御部50(代表画像抽出部54)は、抽出した画像データから、部分画像データをさらに抽出し、部分画像データごとに代表画像抽出DB64に格納する。その後、制御部50(代表画像抽出部54)は、処理をステップS73に移す。   In step S72, the control unit 50 (representative image extraction unit 54) further extracts partial image data from the extracted image data, and stores the partial image data in the representative image extraction DB 64 for each partial image data. Thereafter, the control unit 50 (representative image extraction unit 54) shifts the processing to step S73.

ステップS73では、制御部50(代表画像抽出部54)は、ステップS72で抽出し、代表画像抽出DB64に格納された部分画像データごとに、面積比を算出する。面積比は、算出された部分画像データの面積から、画像データ全体の面積を除算することにより求められる。その後、制御部50(代表画像抽出部54)は、処理をステップS74に移す。   In step S73, the control unit 50 (representative image extraction unit 54) calculates an area ratio for each partial image data extracted in step S72 and stored in the representative image extraction DB 64. The area ratio is obtained by dividing the area of the entire image data from the calculated area of the partial image data. Thereafter, the control unit 50 (representative image extraction unit 54) shifts the processing to step S74.

ステップS74では、制御部50(代表画像抽出部54)は、ステップS72で抽出された全ての部分画像データについて、面積比を算出する処理を行ったか否かを判断する。制御部50(代表画像抽出部54)が、全ての部分画像データについて、面積比の算出処理を行った場合(ステップS74の処理でYESが判断された場合)には、制御部50(代表画像抽出部54)は、処理をステップS75に移す。他方、制御部50(代表画像抽出部54)が、全ての部分画像データについて、面積比の算出処理を行っていない場合(ステップS74の処理でNOが判断された場合)には、制御部50(代表画像抽出部54)は、処理をステップS73に移す。   In step S74, the control unit 50 (representative image extraction unit 54) determines whether or not the processing for calculating the area ratio has been performed for all the partial image data extracted in step S72. When the control unit 50 (representative image extraction unit 54) performs the area ratio calculation processing for all partial image data (when YES is determined in the process of step S74), the control unit 50 (representative image). The extraction unit 54) moves the process to step S75. On the other hand, when the control unit 50 (representative image extraction unit 54) has not performed the area ratio calculation process for all the partial image data (when NO is determined in the process of step S74), the control unit 50 The (representative image extraction unit 54) moves the process to step S73.

ステップS75では、制御部50(代表画像抽出部54)は、同一の部分画像データが連続した複数のコマ(画像データ)に存在した場合に、そのコマ数(画像データ数)をカウントする。その後、制御部50(代表画像抽出部54)は、処理をステップS76に移す。   In step S75, when the same partial image data exists in a plurality of continuous frames (image data), the control unit 50 (representative image extraction unit 54) counts the number of frames (number of image data). Thereafter, the control unit 50 (representative image extraction unit 54) shifts the processing to step S76.

ステップS76では、制御部50(代表画像抽出部54)は、シーンiの全ての画像データについて処理を行ったか否かを判断する。全ての画像データについて処理を行った場合(ステップS76の処理でYESが判断された場合)には、制御部50(代表画像抽出部54)は、処理をステップS77に移す。他方、全ての画像データについて処理を行っていない場合(ステップS76の処理でNOが判断された場合)には、制御部50(代表画像抽出部54)は、処理をステップS71に移し、残りの画像データについて、ステップS71からステップS75までの処理を行う。   In step S76, the control unit 50 (representative image extraction unit 54) determines whether or not processing has been performed for all image data of the scene i. If all image data has been processed (YES is determined in step S76), control unit 50 (representative image extraction unit 54) moves the process to step S77. On the other hand, when the processing has not been performed for all the image data (when NO is determined in the process of step S76), the control unit 50 (representative image extraction unit 54) moves the process to step S71 and performs the remaining processing. The process from step S71 to step S75 is performed on the image data.

ステップS77では、制御部50(代表画像抽出部54)は、代表画像抽出DB64に格納されている部分画像データについてOS*iIF値を算出する。そして、算出したOS*iIF値に基づいて、値の大きい順にランク付けをする。その後、制御部50(代表画像抽出部54)は、処理をステップS78に移す。   In step S77, the control unit 50 (representative image extraction unit 54) calculates an OS * iIF value for the partial image data stored in the representative image extraction DB 64. Based on the calculated OS * iIF value, ranking is performed in descending order. Thereafter, the control unit 50 (representative image extraction unit 54) shifts the processing to step S78.

なお、OS*iIF値とは、下記の計算式により算出した値である。

Figure 2008148121
The OS * iIF value is a value calculated by the following calculation formula.
Figure 2008148121

ここで、OS*iIFとは、OS(Ojbect Space)とiIF(inverse Image Frequency)とを乗じたものである。OSは、部分画像データの全体の画像データの面積に占める割合である面積比を指し、Nは、シーンiの動画データが有する全画像データのコマ数(画像データ数)を示す。また、IFは、対象の部分画像データが出現するコマ数(画像データ数)を示す。短時間に表示される面積比の大きい部分画像データは、OS*iIF値が大きくなる。従って、動画データに含まれる個々の部分画像データのスコアリングを、OS*iIF値が大きいものを高いスコアとなる本計算式を用いることにより、代表画像データを抽出することができる。   Here, OS * iIF is obtained by multiplying OS (Object Space) and iIF (inverse image frequency). OS indicates an area ratio that is a ratio of the partial image data to the entire image data area, and N indicates the number of frames (number of image data) of all image data included in the moving image data of the scene i. IF indicates the number of frames (number of image data) in which the target partial image data appears. Partial image data with a large area ratio displayed in a short time has a large OS * iIF value. Therefore, the representative image data can be extracted by scoring each partial image data included in the moving image data by using this calculation formula in which the OS * iIF value has a high score.

ステップS78では、制御部50(代表画像抽出部54)は、ステップS77でランク付けされたOS*iIF値の上位のデータを取得し、これを代表画像データとして抽出する。その後、制御部50(代表画像抽出部54)は、本処理を終了し、メイン処理に戻る。   In step S78, the control unit 50 (representative image extraction unit 54) acquires the higher-order data of the OS * iIF values ranked in step S77, and extracts this as representative image data. Thereafter, the control unit 50 (representative image extraction unit 54) ends this processing and returns to the main processing.

以上、図5から図8にわたって、図4のメイン処理から呼び出されるサブルーチンについて説明したが、これらの処理に限らず、周知の他の方法を用いてよい。   As described above, the subroutine called from the main process of FIG. 4 has been described with reference to FIGS. 5 to 8. However, the subroutine is not limited to these processes, and other known methods may be used.

例えば、シーン分割処理に関して、全く異なる画像に切り替わったことを契機として分割処理を行うものとしているが、これに限らず、例えば、カメラを連続的に動かして撮影した動画像の期間中で、移動体の存在の有無を推定し、撮影者が特定の被写体を追尾するためにカメラを動かしたシーンと、別の被写体に視線を移すためにカメラを動かしたシーンとを判別し、別の被写体に視線を移すためにカメラを動かしたものに関して分割処理を行うこととしてもよい。   For example, regarding the scene division processing, the division processing is performed in response to switching to a completely different image. However, the present invention is not limited to this. For example, during the period of a moving image captured by continuously moving the camera, Estimate the presence / absence of the body, determine the scene where the photographer moved the camera to track a specific subject and the scene where the camera moved to move the line of sight to another subject. It is good also as performing a division | segmentation process regarding what moved the camera in order to move a line of sight.

[あらすじ作成装置10のハードウェア構成]
図9は、本発明の好適な実施形態の一例に係るあらすじ作成装置10のハードウェア構成を示す図である。あらすじ作成装置10は、シーン抽出部51、音声認識部52、重要語抽出部53、代表画像抽出部54、及びシーン統合部55を含む、制御部50を構成するCPU(Central Processing Unit)110(マルチプロセッサ構成ではCPU120等複数のCPUが追加されてもよい)、バスライン105、通信I/F140、メインメモリ150、BIOS(Basic Input Output System)160、USBポート190、I/Oコントローラ170、並びにキーボード及びマウス180等の入力手段や表示装置122を備える。
[Hardware Configuration of Synopsis Creation Device 10]
FIG. 9 is a diagram showing a hardware configuration of the synopsis creation device 10 according to an example of the preferred embodiment of the present invention. The synopsis creation apparatus 10 includes a central processing unit (CPU) 110 (a central processing unit) that includes a scene extraction unit 51, a voice recognition unit 52, an important word extraction unit 53, a representative image extraction unit 54, and a scene integration unit 55. In a multiprocessor configuration, a plurality of CPUs such as the CPU 120 may be added), a bus line 105, a communication I / F 140, a main memory 150, a BIOS (Basic Input Output System) 160, a USB port 190, an I / O controller 170, and Input means such as a keyboard and mouse 180 and a display device 122 are provided.

I/Oコントローラ170には、テープドライブ172、ハードディスク174、光ディスクドライブ176、半導体メモリ178、等の記憶部60を構成する記憶手段を接続することができる。   The I / O controller 170 can be connected to storage means constituting the storage unit 60 such as a tape drive 172, a hard disk 174, an optical disk drive 176, and a semiconductor memory 178.

BIOS160は、あらすじ作成装置10の起動時にCPU110が実行するブートプログラムや、あらすじ作成装置10のハードウェアに依存するプログラム等を格納する。   The BIOS 160 stores a boot program executed by the CPU 110 when the synopsis creation device 10 is started, a program depending on the hardware of the synopsis creation device 10, and the like.

ハードディスク174は、あらすじ作成装置10として機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、さらに必要に応じて各種データベースを構成可能である。   The hard disk 174 stores various programs for functioning as the synopsis creation device 10 and programs for executing the functions of the present invention, and can configure various databases as necessary.

光ディスクドライブ176としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク177を使用する。光ディスク177から光ディスクドライブ176によりプログラム又はデータを読み取り、I/Oコントローラ170を介してメインメモリ150又はハードディスク174に提供することもできる。また、同様にテープドライブ172に対応したテープメディア171を主としてバックアップのために使用することもできる。   As the optical disk drive 176, for example, a DVD-ROM drive, a CD-ROM drive, a DVD-RAM drive, or a CD-RAM drive can be used. In this case, the optical disk 177 corresponding to each drive is used. A program or data may be read from the optical disk 177 by the optical disk drive 176 and provided to the main memory 150 or the hard disk 174 via the I / O controller 170. Similarly, the tape medium 171 corresponding to the tape drive 172 can be used mainly for backup.

また、あらすじ作成装置10により作成され、あらすじDB66に記憶されたあらすじを、光ディスクドライブ176を介して光ディスク177に書き出すことができる。   The synopsis created by the synopsis creation device 10 and stored in the synopsis DB 66 can be written to the optical disc 177 via the optical disc drive 176.

あらすじ作成装置10に提供されるプログラムは、ハードディスク174、光ディスク177、又はメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ170を介して、記録媒体から読み出され、又は通信I/F140を介してダウンロードされることによって、あらすじ作成装置10にインストールされ実行されてもよい。   The program provided to the synopsis creation device 10 is provided by being stored in a recording medium such as the hard disk 174, the optical disk 177, or a memory card. This program may be read from the recording medium via the I / O controller 170 or downloaded via the communication I / F 140 to be installed and executed in the synopsis creation apparatus 10.

上述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、動画DB62、代表画像抽出DB64、及びあらすじDB66を含む記憶部60を構成する記憶媒体としては、ハードディスク174、光ディスク177、又はメモリーカードの他に、MD等の光磁気記録媒体、テープメディア171を用いることができる。また、専用通信回線やインターネット等の通信回線に接続されたサーバシステムに設けたハードディスク174又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをあらすじ作成装置10に提供してもよい。   The above program may be stored in an internal or external storage medium. Here, as a storage medium constituting the storage unit 60 including the moving image DB 62, the representative image extraction DB 64, and the synopsis DB 66, in addition to the hard disk 174, the optical disk 177, or the memory card, a magneto-optical recording medium such as an MD, a tape medium 171 can be used. Further, a storage device such as a hard disk 174 or an optical disk library provided in a server system connected to a communication line such as a dedicated communication line or the Internet is used as a recording medium, and a program is provided to the synopsis creation apparatus 10 via the communication line. May be.

ここで、表示装置122は、あらすじ作成装置10の管理者にデータの入力を受け付ける画面を表示したり、あらすじ作成装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。   Here, the display device 122 displays a screen for accepting data input to the administrator of the synopsis creation device 10 or displays a calculation processing result screen by the synopsis creation device 10. CRT) and display devices such as a liquid crystal display (LCD).

ここで、入力手段は、あらすじ作成装置10の管理者による入力の受け付けを行うものであり、キーボード及びマウス180等により構成してよい。   Here, the input means accepts input by the administrator of the synopsis creation device 10 and may be configured by a keyboard and a mouse 180 or the like.

また、通信I/F140は、あらすじ作成装置10を専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F140は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。   The communication I / F 140 is a network adapter for enabling the synopsis creation apparatus 10 to be connected to a terminal via a dedicated network or a public network. The communication I / F 140 may include a modem, a cable modem, and an Ethernet (registered trademark) adapter.

以上の例は、あらすじ作成装置10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをあらすじ作成装置10として動作させることにより上記で説明した機能を実現することもできる。従って、本発明において一実施形態として説明したあらすじ作成装置10により実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。   In the above example, the synopsis creation device 10 has been mainly described. However, the functions described above can also be realized by installing a program in a computer and causing the computer to operate as the synopsis creation device 10. Therefore, the functions realized by the synopsis creation apparatus 10 described as an embodiment in the present invention are executed by executing the above-described method by the computer, or by introducing the above-described program into the computer and executing it. Is also feasible.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。   As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.

本発明の好適な実施形態の一例に係るコンピュータ・システムの全体構成及びあらすじ作成装置の機能構成を示す図である。1 is a diagram illustrating an overall configuration of a computer system and a functional configuration of a synopsis creation apparatus according to an example of a preferred embodiment of the present invention. 本発明の好適な実施形態の一例に係るあらすじ作成装置によりあらすじが作成されるまでの概念図である。It is a conceptual diagram until an outline is produced by the outline production apparatus which concerns on an example of suitable embodiment of this invention. 本発明の好適な実施形態の一例に係るあらすじ作成装置によりシーンを切り分ける例を示す図である。It is a figure which shows the example which isolates a scene with the synopsis production apparatus which concerns on an example of suitable embodiment of this invention. 本発明の好適な実施形態の一例に係るあらすじ作成処理についてのメインフローを示す図である。It is a figure which shows the main flow about the synopsis creation process which concerns on an example of suitable embodiment of this invention. 本発明の好適な実施形態の一例に係るシーン分割処理についてのフローを示す図である。It is a figure which shows the flow about the scene division | segmentation process which concerns on an example of suitable embodiment of this invention. 本発明の好適な実施形態の一例に係る音声認識処理についてのフローを示す図である。It is a figure which shows the flow about the speech recognition process which concerns on an example of suitable embodiment of this invention. 本発明の好適な実施形態の一例に係る重要語抽出処理についてのフローを示す図である。It is a figure which shows the flow about the important word extraction process which concerns on an example of suitable embodiment of this invention. 本発明の好適な実施形態の一例に係る代表画像抽出処理についてのフローを示す図である。It is a figure which shows the flow about the representative image extraction process which concerns on an example of suitable embodiment of this invention. 本発明の好適な実施形態の一例に係るあらすじ作成装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the synopsis preparation apparatus which concerns on an example of suitable embodiment of this invention.

符号の説明Explanation of symbols

1 コンピュータ・システム
10 あらすじ作成装置
20 ユーザ端末
30 通信回線
50 制御部
51 シーン抽出部
52 音声認識部
53 重要語抽出部
54 代表画像抽出部
55 シーン統合部
60 記憶部
62 動画DB
64 代表画像抽出DB
66 あらすじDB
DESCRIPTION OF SYMBOLS 1 Computer system 10 Synopsis production apparatus 20 User terminal 30 Communication line 50 Control part 51 Scene extraction part 52 Speech recognition part 53 Important word extraction part 54 Representative image extraction part 55 Scene integration part 60 Storage part 62 Movie DB
64 Representative image extraction DB
66 Synopsis DB

Claims (11)

複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成する動画要約自動作成装置であって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するシーン抽出部と、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成する音声認識部と、
前記テキストデータからキーワードとなる重要語を抽出する重要語抽出部と、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出する代表画像抽出部と、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するシーン統合部と、を備える動画要約自動作成装置。
A moving picture summary automatic creation device that automatically creates a moving picture summary for each scene constituted by a group of the image data from moving picture data constituted by a plurality of image data,
A scene extracting unit that divides the moving image data into the scenes and extracts scene moving image data for each of the divided scenes;
A voice recognition unit that recognizes voice data included in the scene video data and generates text data from the voice data;
An important word extraction unit for extracting an important word as a keyword from the text data;
A representative image extraction unit for extracting representative image data to be an image representing the scene from the scene video data;
A moving picture summary automatic creation apparatus comprising: a scene integration unit that creates the moving picture summary data by integrating the important word and the representative image data for each scene.
前記動画データは、前記画像データと共に文字データをさらに有し、
前記重要語抽出部は、前記文字データと、前記音声認識部により生成された前記テキストデータと、から重要語を抽出する、請求項1記載の動画要約自動作成装置。
The moving image data further includes character data together with the image data,
The video summary automatic creation device according to claim 1, wherein the important word extraction unit extracts an important word from the character data and the text data generated by the voice recognition unit.
前記代表画像抽出部は、前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出す、請求項1又は2記載の動画要約自動作成装置。   The representative image extraction unit extracts an object from image data constituting the scene moving image data, and displays the entire display area of the image data, the display area of the object, the number of image data including the object, and the scene moving image data. 3. The moving picture summary automatic creating apparatus according to claim 1, wherein the moving picture summary automatic creating apparatus derives from the number of image data constituting the image using a result calculated by a predetermined calculation formula. 前記重要語抽出部は、前記テキストデータに対してTF*IDF法を用いて前記重要語を抽出する、請求項1乃至3記載の動画要約自動作成装置。   4. The moving picture summary automatic creating apparatus according to claim 1, wherein the important word extraction unit extracts the important words from the text data using a TF * IDF method. 前記シーン統合部は、前記シーン動画データごとに作成された前記動画要約データを、さらに前記動画データの最初に表示されるように統合する、請求項1乃至4記載の動画要約自動作成装置。   5. The moving image summary automatic creation device according to claim 1, wherein the scene integration unit further integrates the moving image summary data generated for each scene moving image data so that the moving image data is displayed at the beginning of the moving image data. 複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成する動画要約自動作成方法であって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するステップと、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成するステップと、
前記テキストデータからキーワードとなる重要語を抽出するステップと、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出するステップと、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するステップと、を含む動画要約自動作成方法。
A video summary automatic creation method for automatically creating a video summary for each scene constituted by a group of image data from video data constituted by a plurality of image data,
Dividing the video data into the scenes, and extracting scene video data for each of the divided scenes;
Recognizing audio data included in the scene video data and generating text data from the audio data;
Extracting an important word as a keyword from the text data;
Extracting representative image data to be an image representing the scene from the scene video data;
A method of automatically creating a moving picture summary including the step of creating the moving picture summary data by integrating the important word and the representative image data for each scene.
前記動画データは、前記画像データと共に文字データをさらに有し、
前記重要語を抽出するステップは、前記文字データと、前記テキストデータを生成するステップにより生成された前記テキストデータと、から重要語を抽出する、請求項6記載の動画要約自動作成方法。
The moving image data further includes character data together with the image data,
7. The moving picture summary automatic creation method according to claim 6, wherein the step of extracting the important word extracts the important word from the character data and the text data generated by the step of generating the text data.
前記代表画像データを抽出するステップは、前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出す、請求項6又は7記載の動画要約自動作成方法。   The step of extracting the representative image data includes extracting an object from the image data constituting the scene video data, and displaying the entire display area of the image data, the display area of the object, the number of image data including the object, and the 8. The moving image summary automatic creation method according to claim 6 or 7, wherein the method is derived from the number of image data constituting the scene moving image data, using a result calculated by a predetermined calculation formula. 前記重要語を抽出するステップは、前記テキストデータに対してTF*IDF法を用いて前記重要語を抽出する、請求項6乃至8記載の動画要約自動作成方法。   9. The moving image summary automatic creating method according to claim 6, wherein the step of extracting the important word extracts the important word from the text data by using a TF * IDF method. 前記動画要約データを作成するステップは、前記シーン動画データごとに作成された前記動画要約データを、さらに前記動画データの最初に表示されるように統合する、請求項6乃至9記載の動画要約自動作成方法。   10. The video summary automatic according to claim 6, wherein the step of creating the video summary data further integrates the video summary data created for each scene video data so as to be displayed at the beginning of the video data. How to make. 複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成させるコンピュータ・プログラムであって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するステップと、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成するステップと、
前記テキストデータからキーワードとなる重要語を抽出するステップと、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出するステップと、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するステップと、をコンピュータに実行させるコンピュータ・プログラム。
A computer program that automatically creates a summary of a moving picture from a moving picture data constituted by a plurality of image data, for each scene constituted by a group of the image data,
Dividing the video data into the scenes, and extracting scene video data for each of the divided scenes;
Recognizing audio data included in the scene video data and generating text data from the audio data;
Extracting an important word as a keyword from the text data;
Extracting representative image data to be an image representative of the scene from the scene video data;
A computer program for causing a computer to execute the step of integrating the important word and the representative image data for each scene to create moving image summary data.
JP2006334555A 2006-12-12 2006-12-12 Video summary automatic creation apparatus, method, and computer program Expired - Fee Related JP4920395B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006334555A JP4920395B2 (en) 2006-12-12 2006-12-12 Video summary automatic creation apparatus, method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006334555A JP4920395B2 (en) 2006-12-12 2006-12-12 Video summary automatic creation apparatus, method, and computer program

Publications (3)

Publication Number Publication Date
JP2008148121A true JP2008148121A (en) 2008-06-26
JP2008148121A5 JP2008148121A5 (en) 2009-05-07
JP4920395B2 JP4920395B2 (en) 2012-04-18

Family

ID=39607780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006334555A Expired - Fee Related JP4920395B2 (en) 2006-12-12 2006-12-12 Video summary automatic creation apparatus, method, and computer program

Country Status (1)

Country Link
JP (1) JP4920395B2 (en)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012010265A (en) * 2010-06-28 2012-01-12 Nippon Hoso Kyokai <Nhk> Summary video generating apparatus and summary video generating program
US8422860B2 (en) 2009-08-28 2013-04-16 Sanyo Electric Co., Ltd. Image processing apparatus
KR20130039575A (en) * 2011-10-12 2013-04-22 엘지전자 주식회사 Image display apparatus, and method for operating the same
KR20140060659A (en) * 2012-11-12 2014-05-21 한국전자통신연구원 Method and apparatus for generating summarized data, and a server for the same
JP2014146066A (en) * 2013-01-25 2014-08-14 Canon Inc Document data generation device, document data generation method, and program
WO2016076540A1 (en) * 2014-11-14 2016-05-19 Samsung Electronics Co., Ltd. Electronic apparatus of generating summary content and method thereof
WO2016103457A1 (en) * 2014-12-26 2016-06-30 Necディスプレイソリューションズ株式会社 Video record creating device, video record creating method and program
KR20170005741A (en) * 2015-07-06 2017-01-16 한국과학기술원 Method and system for providing video content based on image
JP2017058978A (en) * 2015-09-16 2017-03-23 富士ゼロックス株式会社 Information processing device and program
US9906820B2 (en) 2015-07-06 2018-02-27 Korea Advanced Institute Of Science And Technology Method and system for providing video content based on image
JP2019198074A (en) * 2018-05-10 2019-11-14 ネイバー コーポレーションNAVER Corporation Scene meta information generation apparatus and scene meta information generating method
JP2020162138A (en) * 2015-09-16 2020-10-01 富士ゼロックス株式会社 Information processing device and program
JP7164698B1 (en) 2021-12-27 2022-11-01 株式会社博報堂Dyホールディングス Information processing system, data processing method, and computer program
JP7225460B1 (en) 2021-12-27 2023-02-20 株式会社博報堂Dyホールディングス Information processing system, data processing method, and computer program
JP2023043782A (en) * 2021-09-16 2023-03-29 ヤフー株式会社 Information processing device, information processing method and information processing program
US11721323B2 (en) 2020-04-28 2023-08-08 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
KR102652009B1 (en) * 2023-09-07 2024-03-27 아이보람 주식회사 Method and apparatus for providing a video-based an e-book applying native language acquisition principles to a user terminal using a neural network
WO2024162498A1 (en) * 2023-02-01 2024-08-08 주식회사 엔씨소프트 Method and device for extracting information from video data and analyzing same

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101804383B1 (en) 2014-01-14 2017-12-04 한화테크윈 주식회사 System and method for browsing summary image

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09214866A (en) * 1996-01-30 1997-08-15 Mitsubishi Electric Corp Method, device for displaying representative image and moving image retrieving device using the same device
JPH09247597A (en) * 1996-03-11 1997-09-19 Mitsubishi Electric Corp Magnetic recording method and magnetic recording and reproducing device
JPH1139343A (en) * 1997-07-17 1999-02-12 Media Rinku Syst:Kk Video retrieval device
JPH11177915A (en) * 1997-12-11 1999-07-02 Hitachi Ltd Photographing device
JP2002125199A (en) * 2000-06-30 2002-04-26 Toshiba Corp Frame information description method, frame information generating device and method, video reproducing device and method, and recording medium
JP2002150751A (en) * 2000-11-07 2002-05-24 Sony Corp Recording/reproducing device and recording method
JP2002223412A (en) * 2001-01-26 2002-08-09 Canon Inc Image processor, image processing system, image processing method, storage medium, and program software
JP2004023661A (en) * 2002-06-19 2004-01-22 Ricoh Co Ltd Recorded information processing method, recording medium, and recorded information processor
JP2005064600A (en) * 2003-08-15 2005-03-10 Toshiba Corp Information processing apparatus, information processing method, and program
JP2005173731A (en) * 2003-12-08 2005-06-30 Ricoh Co Ltd Contents condensation device, method, and program
JP2005210573A (en) * 2004-01-26 2005-08-04 Mitsubishi Electric Corp Video image display system
JP2006166407A (en) * 2004-11-09 2006-06-22 Canon Inc Imaging device and its control method

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09214866A (en) * 1996-01-30 1997-08-15 Mitsubishi Electric Corp Method, device for displaying representative image and moving image retrieving device using the same device
JPH09247597A (en) * 1996-03-11 1997-09-19 Mitsubishi Electric Corp Magnetic recording method and magnetic recording and reproducing device
JPH1139343A (en) * 1997-07-17 1999-02-12 Media Rinku Syst:Kk Video retrieval device
JPH11177915A (en) * 1997-12-11 1999-07-02 Hitachi Ltd Photographing device
JP2002125199A (en) * 2000-06-30 2002-04-26 Toshiba Corp Frame information description method, frame information generating device and method, video reproducing device and method, and recording medium
JP2002150751A (en) * 2000-11-07 2002-05-24 Sony Corp Recording/reproducing device and recording method
JP2002223412A (en) * 2001-01-26 2002-08-09 Canon Inc Image processor, image processing system, image processing method, storage medium, and program software
JP2004023661A (en) * 2002-06-19 2004-01-22 Ricoh Co Ltd Recorded information processing method, recording medium, and recorded information processor
JP2005064600A (en) * 2003-08-15 2005-03-10 Toshiba Corp Information processing apparatus, information processing method, and program
JP2005173731A (en) * 2003-12-08 2005-06-30 Ricoh Co Ltd Contents condensation device, method, and program
JP2005210573A (en) * 2004-01-26 2005-08-04 Mitsubishi Electric Corp Video image display system
JP2006166407A (en) * 2004-11-09 2006-06-22 Canon Inc Imaging device and its control method

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8422860B2 (en) 2009-08-28 2013-04-16 Sanyo Electric Co., Ltd. Image processing apparatus
JP2012010265A (en) * 2010-06-28 2012-01-12 Nippon Hoso Kyokai <Nhk> Summary video generating apparatus and summary video generating program
KR20130039575A (en) * 2011-10-12 2013-04-22 엘지전자 주식회사 Image display apparatus, and method for operating the same
KR101883178B1 (en) * 2011-10-12 2018-07-30 엘지전자 주식회사 Image display apparatus, and method for operating the same
KR20140060659A (en) * 2012-11-12 2014-05-21 한국전자통신연구원 Method and apparatus for generating summarized data, and a server for the same
KR101956373B1 (en) * 2012-11-12 2019-03-08 한국전자통신연구원 Method and apparatus for generating summarized data, and a server for the same
JP2014146066A (en) * 2013-01-25 2014-08-14 Canon Inc Document data generation device, document data generation method, and program
US9654845B2 (en) 2014-11-14 2017-05-16 Samsung Electronics Co., Ltd. Electronic apparatus of generating summary content and method thereof
WO2016076540A1 (en) * 2014-11-14 2016-05-19 Samsung Electronics Co., Ltd. Electronic apparatus of generating summary content and method thereof
JPWO2016103457A1 (en) * 2014-12-26 2017-09-28 Necディスプレイソリューションズ株式会社 Video recording creation apparatus, video recording creation method and program
WO2016103457A1 (en) * 2014-12-26 2016-06-30 Necディスプレイソリューションズ株式会社 Video record creating device, video record creating method and program
KR101770094B1 (en) * 2015-07-06 2017-08-21 한국과학기술원 Method and system for providing video content based on image
KR101700040B1 (en) * 2015-07-06 2017-01-25 한국과학기술원 Method and system for providing video content based on image
US9906820B2 (en) 2015-07-06 2018-02-27 Korea Advanced Institute Of Science And Technology Method and system for providing video content based on image
KR20170005741A (en) * 2015-07-06 2017-01-16 한국과학기술원 Method and system for providing video content based on image
JP2020162138A (en) * 2015-09-16 2020-10-01 富士ゼロックス株式会社 Information processing device and program
JP2017058978A (en) * 2015-09-16 2017-03-23 富士ゼロックス株式会社 Information processing device and program
US11350178B2 (en) 2018-05-10 2022-05-31 Naver Corporation Content providing server, content providing terminal and content providing method
JP2019198074A (en) * 2018-05-10 2019-11-14 ネイバー コーポレーションNAVER Corporation Scene meta information generation apparatus and scene meta information generating method
US11721323B2 (en) 2020-04-28 2023-08-08 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
JP2023043782A (en) * 2021-09-16 2023-03-29 ヤフー株式会社 Information processing device, information processing method and information processing program
JP7164698B1 (en) 2021-12-27 2022-11-01 株式会社博報堂Dyホールディングス Information processing system, data processing method, and computer program
JP7225460B1 (en) 2021-12-27 2023-02-20 株式会社博報堂Dyホールディングス Information processing system, data processing method, and computer program
JP2023096949A (en) * 2021-12-27 2023-07-07 株式会社博報堂Dyホールディングス Information processing system, data processing method and computer program
JP2023097326A (en) * 2021-12-27 2023-07-07 株式会社博報堂Dyホールディングス Information processing system, data processing method and computer program
WO2024162498A1 (en) * 2023-02-01 2024-08-08 주식회사 엔씨소프트 Method and device for extracting information from video data and analyzing same
KR102652009B1 (en) * 2023-09-07 2024-03-27 아이보람 주식회사 Method and apparatus for providing a video-based an e-book applying native language acquisition principles to a user terminal using a neural network

Also Published As

Publication number Publication date
JP4920395B2 (en) 2012-04-18

Similar Documents

Publication Publication Date Title
JP4920395B2 (en) Video summary automatic creation apparatus, method, and computer program
KR102080315B1 (en) Method for providing vedio service and service server using the same
CN113709561B (en) Video editing method, device, equipment and storage medium
KR100684484B1 (en) Method and apparatus for linking a video segment to another video segment or information source
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
US7181757B1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
KR102028198B1 (en) Device for authoring video scene and metadata
Truong et al. Video abstraction: A systematic review and classification
US8204317B2 (en) Method and device for automatic generation of summary of a plurality of images
JP4635891B2 (en) Information processing apparatus and method, and program
TW202002611A (en) Video subtitle display method and apparatus
JP2004533756A (en) Automatic content analysis and display of multimedia presentations
CN113626641B (en) Method for generating video abstract based on neural network of multi-modal data and aesthetic principle
CN110781328A (en) Video generation method, system, device and storage medium based on voice recognition
KR20160057864A (en) Electronic apparatus for generating summary contents and methods thereof
US9558784B1 (en) Intelligent video navigation techniques
CN103984772A (en) Method and device for generating text retrieval subtitle library and video retrieval method and device
KR20010050596A (en) A Video Summary Description Scheme and A Method of Video Summary Description Generation for Efficient Overview and Browsing
JP2004274768A (en) Method for preparing annotated video file
KR20020072111A (en) Method for detecting caption synthetic key frame in video stream
Bost A storytelling machine?: automatic video summarization: the case of TV series
CN117319765A (en) Video processing method, device, computing equipment and computer storage medium
JP2021012466A (en) Metadata generation system, video content management system, and program
Li et al. Bridging the semantic gap in sports
Bost A storytelling machine?

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090318

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110208

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120201

R150 Certificate of patent or registration of utility model

Ref document number: 4920395

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350