JP2019160071A - Summary creation system and summary creation method - Google Patents

Summary creation system and summary creation method Download PDF

Info

Publication number
JP2019160071A
JP2019160071A JP2018048417A JP2018048417A JP2019160071A JP 2019160071 A JP2019160071 A JP 2019160071A JP 2018048417 A JP2018048417 A JP 2018048417A JP 2018048417 A JP2018048417 A JP 2018048417A JP 2019160071 A JP2019160071 A JP 2019160071A
Authority
JP
Japan
Prior art keywords
text
unit
content
telop
video signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018048417A
Other languages
Japanese (ja)
Inventor
孝利 石井
Takatoshi Ishii
孝利 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JCC KK
Original Assignee
JCC KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JCC KK filed Critical JCC KK
Priority to JP2018048417A priority Critical patent/JP2019160071A/en
Publication of JP2019160071A publication Critical patent/JP2019160071A/en
Pending legal-status Critical Current

Links

Abstract

To provide a summary creation system and a summary creation method for creating a correct and optimal summary from video data including moving image data and voice data.SOLUTION: A summary creation system 10 comprises: text integration means for integrating an utterance text, a telop text, a background image text and a logo mark text which are created from content and outputting the integrated text; and summary creation means for outputting a summary text obtained by summarizing the integrated text. The text integration means includes text integration setting means which learns an optimal text integration setting using accumulated past input data and output data of text integration processing as teaching material. The summary creation means includes summary setting learning means which learns an optimal summary creation setting using accumulated past input data and output data of summary creation results as teaching material.SELECTED DRAWING: Figure 1

Description

本発明は、コンテンツについてのビデオ信号からコンテンツの要約テキストを作成する要約作成システム、及び要約作成方法に関する。   The present invention relates to a summary creation system and a summary creation method for creating summary text of content from a video signal of the content.

テレビ放送番組やインターネット配信動画に関するメタデータの重要性が高まってきている。メタデータとは、あるデータそのものではなく、そのデータに関連する情報のことをいう。メタデータは、データの作成日時や作成者、データ形式、タイトル、注釈、要約を含む。これはデータを効率的に管理したり検索したりするために重要な情報である。   The importance of metadata related to TV broadcast programs and Internet distribution videos is increasing. Metadata refers to information related to the data, not the data itself. The metadata includes data creation date and time, creator, data format, title, annotation, and summary. This is important information for efficiently managing and retrieving data.

本件特許出願人は、映像を録画する録画ファイルを有する録画手段と、前記録画ファイルに録画された映像から文字情報を取得する文字情報取得手段と、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する文字情報文章化手段と、前記文字情報文章化手段によって文章化された前記文字情報を前記録画ファイルに録画された映像のメタデータとしてメタデータ格納ファイルに格納するメタデータ格納手段とを備えるメタデータ生成システムを提案している(特許文献1参照)。   The present patent applicant includes a recording unit having a recording file for recording a video, a character information acquiring unit for acquiring character information from the video recorded in the recording file, and the character information acquired by the character information acquiring unit. Text information means for gathering texts into text, and metadata for storing the text information text-written by the text information text means in a metadata storage file as video metadata recorded in the recording file A metadata generation system including storage means is proposed (see Patent Document 1).

特開2018−33048公報JP 2018-33048 A

しかし、特許文献1に記載の技術にあっては、映像に表示されたテキストや音声からの文字情報を照合してメタデータとして生成するものであるが、メタデータの生成の精度をより向上させたいという要望がある。   However, in the technique described in Patent Document 1, text information displayed on video and text information from speech are collated and generated as metadata. However, the accuracy of metadata generation is further improved. There is a desire to want.

本発明は上述した課題に鑑みてなされたものであり、動画データ及び音声データを含む映像データから正確かつ最適な要約を生成する要約作成システム、及び要約作成方法を提供することを目的とする。   SUMMARY An advantage of some aspects of the invention is that it provides a summary creation system and a summary creation method for generating an accurate and optimal summary from video data including moving image data and audio data.

前記課題を解決する請求項1に記載の発明は、コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、のうち少なくとも2つのテキストを統合して統合テキストを出力するテキスト統合手段と、前記統合テキストを要約した要約テキストを出力する要約作成手段と、を備え、前記テキスト統合手段は、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習するテキスト統合設定手段を備え、前記要約作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備えることを特徴とする要約作成システムである。   The invention according to claim 1, which solves the problem, describes utterance text describing a person's utterance content in the content extracted from the video signal about the content, and display contents of a telop in the content extracted from the video signal. Telop text, background image text that describes at least one of scenes, situations, articles, and events that appear in the video signal, logo that appears in the video signal, a logo that describes a mark that includes a trademark, symbol, or sign A text integration unit that integrates at least two texts of the mark text and outputs an integrated text; and a summary creation unit that outputs a summary text summarizing the integrated text, the text integration unit being stored Input data and output data for past text integration processing Text summarization setting means for learning the optimum text integration setting using the data as the teaching material, and the summary creation means sets the optimum summarization setting using the accumulated input data and output data of the past summary creation results as the teaching material. A summary creation system comprising summary setting learning means for learning.

本発明によれば、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキスト、のうち少なくとも2つのテキストはテキスト統合手段で統合されて統合テキストとして出力され、この統合テキストは要約作成手段で要約されて要約テキストが出力される。このときテキスト統合手段は、テキスト統合設定手段を備え、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習している。また、要約作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備え、最適な要約作製設定を学習している。このため、当該コンテンツの場面やシチュエーションに最適なテキスト統合設定及び要約作成状態とされている。   According to the present invention, at least two of the utterance text, the telop text, the background image text, and the logo mark text are integrated by the text integration means and output as the integrated text, and the integrated text is summarized by the summary creation means. Summary text is output. At this time, the text integration means includes text integration setting means, and learns the optimal text integration setting using the accumulated input data and output data of the past text integration processing as teaching materials. The summary creation means includes summary setting learning means for learning the optimum summary creation setting using the accumulated past summary creation result input data and output data as learning materials, and learns the optimum summary creation setting. . For this reason, it is set as the text integration setting and summary creation state that are optimal for the scene and situation of the content.

よって、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキストを統合した、コンテンツの場面やシチュエーションに最適な要約テキストを作成することができる。   Therefore, it is possible to create a summary text that is optimal for a scene or situation of a content, in which speech text, telop text, background image text, and logo mark text are integrated.

同じく請求項2に記載の発明は、前記コンテンツについての前記ビデオ信号の音声信号から発話情報を抽出する手段、前記発話情報から発話内容を認識する手段、及び、前記発話内容をテキスト化して発話テキストを出力する手段を備えた発話テキスト化部と、前記ビデオ信号の映像信号から、テロップを表示するテロップ情報を抽出する手段、前記テロップ情報からテロップ内容を認識する手段、及び、前記テロップ内容をテキスト化してテロップテキストを出力する手段、を備えたテロップテキスト化部と、前記ビデオ信号の映像信号から、背景画像情報を抽出する手段、前記背景画像情報から背景画像内容を認識する手段、及び前記背景画像内容をテキスト化して背景テキストを出力する手段、を備えた背景画像テキスト化部と、前記ビデオ信号の映像信号から、ロゴマーク画像情報を抽出する手段、前記ロゴマーク画像情報からロゴマーク内容を認識する手段、及び前記ロゴマーク内容をテキスト化してロゴマークテキストを出力する手段を備えるロゴマークテキスト化部と、から選択した少なくとも2つのテキスト化部を備えることを特徴とする。   The invention according to claim 2 also includes means for extracting utterance information from an audio signal of the video signal for the content, means for recognizing utterance contents from the utterance information, and utterance text by converting the utterance contents into text. A text-to-speech unit comprising: means for outputting telop; means for extracting telop information for displaying a telop from the video signal of the video signal; means for recognizing the telop content from the telop information; and A telop text converting unit comprising: a means for outputting a telop text, a means for extracting background image information from the video signal of the video signal, a means for recognizing the background image content from the background image information, and the background Means for converting the image content into text and outputting a background text; Logo mark comprising means for extracting logo mark image information from a video signal of a video signal, means for recognizing the logo mark content from the logo mark image information, and means for converting the logo mark content into text and outputting the logo mark text And a text forming unit, and at least two text converting units selected from the text forming unit.

本発明によれば、発話内容テキスト化部では、ビデオ信号の音声信号から発話情報が抽出され発話内容が認識され発話テキストが生成される。また、テロップテキスト化部ではビデオ信号の映像信号からテロップ情報が抽出され、テロップの表示内容が認識され、テロップテキスト生成される。また、背景画像テキスト化部ではビデオ信号の映像信号から背景画像情報が抽出され、背景画像の内容が認識され、背景テキストが生成される。また、ロゴマークテキスト化部ではビデオ信号の映像信号からロゴマークテキスト情報が認識されロゴマークテキストが生成される。   According to the present invention, the utterance content text conversion unit extracts the utterance information from the audio signal of the video signal, recognizes the utterance content, and generates the utterance text. Also, the telop text conversion unit extracts telop information from the video signal of the video signal, recognizes the display content of the telop, and generates telop text. The background image text converting unit extracts background image information from the video signal of the video signal, recognizes the content of the background image, and generates a background text. Further, the logo mark text converting unit recognizes the logo mark text information from the video signal of the video signal and generates the logo mark text.

よって、発話情報、テロップ情報、背景画像情報、及びロゴマーク情報からそれぞれテキストが生成され、コンテンツのビデオ信号から多様な情報をもとにテキストが生成され、コンテンツの場面やシチュエーションに最適な要約を作成できる。   Therefore, text is generated from speech information, telop information, background image information, and logo mark information, and text is generated based on various information from the video signal of the content. Can be created.

同じく請求項3に記載の発明は、請求項2に記載の要約作成システムにおいて、発話内容テキスト化部、テロップテキスト化部、背景画像テキスト化部、及びロゴマークテキスト化部のうち少なくとも一つは、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するテキスト化学習手段を備えることを特徴とする。   Similarly, the invention described in claim 3 is the summary creating system according to claim 2, wherein at least one of the utterance content text conversion unit, the telop text conversion unit, the background image text conversion unit, and the logo mark text conversion unit is provided. And a text-learning means for learning an optimum text creation setting from the input data and output data in the past text-processing stored.

本発明によれば、各テキスト化部は、テキスト化学習手段により蓄積された過去のテキスト化処理の入力データと出力データに基づいて学習を行う。   According to the present invention, each text unit performs learning based on input data and output data of past text processing accumulated by the text learning unit.

よって、過去に実行された多数の要約作成から最適なテキスト化作成の設定を学習し、でき、設定に同様のコンテンツの場面やシチュエーションに最適な要約を作成できる。   Accordingly, it is possible to learn the setting for creating the most suitable text from a number of summaries created in the past, and it is possible to create the optimum summaries for scenes and situations of content similar to the settings.

同じく請求項4に記載の発明は、請求項1に記載の要約作成システムにおいて、前記ビデオ信号は、テレビ放送局が放送する放送番組から取得することを特徴とする。   Similarly, the invention described in claim 4 is the summarizing system according to claim 1, wherein the video signal is obtained from a broadcast program broadcast by a television broadcast station.

同じく請求項5に記載の発明は、請求項1に記載の要約作成システムにおいて、前記ビデオ信号は、インターネットによって配信される動画映像から取得することを特徴とする。   Similarly, the invention described in claim 5 is characterized in that, in the summary creation system according to claim 1, the video signal is obtained from a moving image distributed by the Internet.

同じく請求項6に記載の発明は、コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、のうち少なくとも2つのテキストを統合して統合テキストを出力するステップと、前記統合テキストの要約を作成して要約テキストを出力するステップとを備え、前記テキストを統合するステップには、蓄積された過去のテキスト統合処理の入力データと出力データとから最適なテキスト統合設定を予め学習するステップを含み、前記要約を作成するステップには、蓄積された過去の要約作成結果の入力データと出力データとから最適な要約設定を予め学習するステップを含む、ことを特徴とする要約作成方法である。
本発明によれば、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキスト、のうち少なくとも2つのテキストは統合されて統合テキストとされ、この統合テキストが要約されて要約テキストとされる。このときテキスト統合に際しては、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習している。また、要約作成に際しては蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習している。このため、当該コンテンツの場面やシチュエーションに最適なテキスト統合設定及び要約作成状態とされている。
Similarly, the invention according to claim 6, utterance text describing the utterance content of a person in the content extracted from the video signal about the content, telop text describing the display content of the telop in the content extracted from the video signal, Background image text describing at least one description of scenes, situations, articles and events appearing in the video signal, logo mark text describing a logo, a mark, a mark, a mark including a symbol appearing in the video signal, A step of integrating at least two of the texts to output an integrated text; and a step of creating a summary of the integrated text and outputting a summary text, wherein the step of integrating the texts includes the accumulated past Input data and output data for text integration processing Pre-learning optimal text integration settings, and the step of creating the summary includes pre-learning optimal summary settings from input data and output data of accumulated past summary creation results, This is a summary creation method characterized by this.
According to the present invention, at least two of the utterance text, the telop text, the background image text, and the logo mark text are integrated into an integrated text, and the integrated text is summarized into a summary text. At this time, in the text integration, the optimum text integration setting is learned using the accumulated input data and output data of the past text integration processing as teaching materials. Also, when creating summaries, the optimum summary creation settings are learned using the accumulated input data and output data of past summary creation results as teaching materials. For this reason, it is set as the text integration setting and summary creation state that are optimal for the scene and situation of the content.

よって、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキストを統合した、コンテンツの場面やシチュエーションに最適な要約テキストを作成することができる。   Therefore, it is possible to create a summary text that is optimal for a scene or situation of a content, in which speech text, telop text, background image text, and logo mark text are integrated.

同じく請求項7に記載の発明は、請求項6に記載の要約作成方法において、前記コンテンツについての前記ビデオ信号の音声信号から発話情報を抽出し、前記発話情報から発話内容を認識し、前記発話内容をテキスト化し、発話テキストを出力するステップと、前記ビデオ信号の映像信号から、テロップを表示するテロップ情報を抽出し、前記テロップ情報からテロップ内容を認識し、前記テロップ内容をテキスト化してテロップテキストを出力するステップと、前記ビデオ信号の映像信号から、背景画像情報を抽出し、前記背景画像情報から背景画像内容を認識し、前記背景画像内容をテキスト化して背景テキストを出力するステップ、前記ビデオ信号の映像信号から、ロゴマーク画像情報を抽出し、前記ロゴマーク画像情報からロゴマーク内容を認識し、前記ロゴマーク内容をテキスト化してロゴマークテキストを出力するステップと、から選択した少なくとも2つのステップを備えることを特徴とする。   Similarly, the invention according to claim 7 is the summary creation method according to claim 6, wherein utterance information is extracted from an audio signal of the video signal for the content, the utterance content is recognized from the utterance information, and the utterance Converting the content into text and outputting the utterance text; extracting telop information for displaying the telop from the video signal of the video signal; recognizing the telop content from the telop information; converting the telop content into text; Outputting the background image information from the video signal of the video signal, recognizing the background image content from the background image information, converting the background image content into text, and outputting the background text, the video The logo mark image information is extracted from the video signal of the signal, and the logo mark image information is extracted from the logo mark image information. Recognizing the contents, characterized in that it comprises at least two steps selected the logo content and outputting the logo text and text data, from.

本発明によれば、ビデオ信号の音声信号から発話情報が抽出され発話内容が認識され発話テキストが生成される。また、ビデオ信号の映像信号からテロップ情報が抽出され、テロップの表示内容が認識され、テロップテキスト生成される。また、ビデオ信号の映像信号から背景画像情報が抽出され、背景画像の内容が認識され、背景テキストが生成される。   According to the present invention, utterance information is extracted from an audio signal of a video signal, the utterance content is recognized, and an utterance text is generated. Also, telop information is extracted from the video signal of the video signal, the display content of the telop is recognized, and telop text is generated. Also, background image information is extracted from the video signal of the video signal, the content of the background image is recognized, and background text is generated.

よって、発話情報、テロップ情報、背景画像情報、及びロゴマーク情報からそれぞれテキストが生成され、コンテンツのビデオ信号から多様な情報をもとにテキストが生成され、コンテンツの場面やシチュエーションに最適な要約を作成できる。   Therefore, text is generated from speech information, telop information, background image information, and logo mark information, and text is generated based on various information from the video signal of the content. Can be created.

同じく請求項8に記載の発明は、請求項6に記載の要約作成方法において、発話内容をテキスト化するステップ、前記テロップをテキスト化するステップ、前記背景画像をテキスト化するステップ、及びロゴマークをテキスト化するステップのうち少なくとも一つのステップは、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するステップを備えることを特徴とする。   Similarly, the invention of claim 8 is the summary creating method according to claim 6, wherein the utterance content is converted into text, the telop is converted into text, the background image is converted into text, and a logo mark is added. At least one of the steps of converting to text is characterized by comprising learning an optimal text creation setting from the input data and output data in the past text processing accumulated.

本発明によれば、それぞれのテキスト化に際しては、蓄積された過去のテキスト化処理の入力データと出力データに基づいて学習を行う。   According to the present invention, learning is performed on the basis of the input data and output data of the past text processing accumulated in each text.

よって、過去に実行された多数の要約作成から最適なテキスト化作成の設定を学習し、でき、設定に同様のコンテンツの場面やシチュエーションに最適な要約を作成できる。   Accordingly, it is possible to learn the setting for creating the most suitable text from a number of summaries created in the past, and it is possible to create the optimum summaries for scenes and situations of content similar to the settings.

同じく請求項9に記載の発明は、請求項6に記載の要約作成方法において、前記ビデオ信号は、テレビ放送局が放送する放送番組から取得することを特徴とする。   Similarly, the invention described in claim 9 is the summarizing method according to claim 6, wherein the video signal is acquired from a broadcast program broadcast by a television broadcasting station.

同じく請求項10に記載の発明は、請求項6に記載の要約作成方法において、前記ビデオ信号は、インターネットによって配信される動画映像から取得することを特徴とする。   Similarly, the invention described in claim 10 is characterized in that, in the summary creating method according to claim 6, the video signal is obtained from a moving image distributed by the Internet.

本発明に係る要約作成システム、及び要約作成方法によれば、動画データ及び音声データを含む映像データから正確かつ最適な要約を生成することができる。   According to the summary creation system and the summary creation method according to the present invention, an accurate and optimal summary can be generated from video data including moving image data and audio data.

即ち、請求項1に記載の要約作成システムによれば、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキスト、のうち少なくとも2つのテキストはテキスト統合手段で統合されて統合テキストとして出力され。この統合テキストは要約作成手段で要約されて要約テキストが出力される。このときテキスト統合手段は、テキスト統合設定手段を備え、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習している。また、要約作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備え、最適な要約作製設定を学習している。このため、当該コンテンツの場面やシチュエーションに最適なテキスト統合設定及び要約作成状態とされている。   That is, according to the summary creation system of claim 1, at least two texts among the utterance text, the telop text, the background image text, and the logo mark text are integrated by the text integration unit and output as the integrated text. The integrated text is summarized by the summary creation means, and the summary text is output. At this time, the text integration means includes text integration setting means, and learns the optimal text integration setting using the accumulated input data and output data of the past text integration processing as teaching materials. The summary creation means includes summary setting learning means for learning the optimum summary creation setting using the accumulated past summary creation result input data and output data as learning materials, and learns the optimum summary creation setting. . For this reason, it is set as the text integration setting and summary creation state that are optimal for the scene and situation of the content.

よって、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキストを統合した、コンテンツの場面やシチュエーションに最適な要約テキストを作成することができる。   Therefore, it is possible to create a summary text that is optimal for a scene or situation of a content, in which speech text, telop text, background image text, and logo mark text are integrated.

また、請求項2に記載の要約作成システムによれば、発話内容テキスト化部では、ビデオ信号の音声信号から発話情報が抽出され発話内容が認識され発話テキストが生成される。また、テロップテキスト化部ではビデオ信号の映像信号からテロップ情報が抽出され、テロップの表示内容が認識され、テロップテキスト生成される。また、背景画像テキスト化部ではビデオ信号の映像信号から背景画像情報が抽出され、背景画像の内容が認識され、背景テキストが生成される。また、ロゴマークテキスト化部ではビデオ信号の映像信号からロゴマークテキスト情報が認識されロゴマークテキストが生成される。   According to the summary creation system of claim 2, the utterance content text conversion unit extracts the utterance information from the audio signal of the video signal, recognizes the utterance content, and generates the utterance text. Also, the telop text conversion unit extracts telop information from the video signal of the video signal, recognizes the display content of the telop, and generates telop text. The background image text converting unit extracts background image information from the video signal of the video signal, recognizes the content of the background image, and generates a background text. Further, the logo mark text converting unit recognizes the logo mark text information from the video signal of the video signal and generates the logo mark text.

よって、発話情報、テロップ情報、背景画像情報、及びロゴマーク情報からそれぞれテキストが生成され、コンテンツのビデオ信号から多様な情報をもとにテキストが生成され、コンテンツの場面やシチュエーションに最適な要約を作成できる。   Therefore, text is generated from speech information, telop information, background image information, and logo mark information, and text is generated based on various information from the video signal of the content. Can be created.

また、請求項3に記載の要約作成システムによれば、各テキスト化部は、テキスト化学習手段により蓄積された過去のテキスト化処理の入力データと出力データに基づいて学習を行う。   According to the summary creation system of the third aspect, each text unit learns based on the input data and output data of the past text processing accumulated by the text learning unit.

よって、過去に実行された多数の要約作成から最適なテキスト化作成の設定を学習し、でき、設定に同様のコンテンツの場面やシチュエーションに最適な要約を作成できる。   Accordingly, it is possible to learn the setting for creating the most suitable text from a number of summaries created in the past, and it is possible to create the optimum summaries for scenes and situations of content similar to the settings.

また、請求項4に記載の要約作成システムによれば、テレビ番組から要約を作成することができる。   Moreover, according to the summary creation system of Claim 4, a summary can be created from a television program.

また、請求項5に記載の要約作成システムによれば、インターネット動画番組から要約を作成することができる。   In addition, according to the summary creation system described in claim 5, it is possible to create a summary from an Internet video program.

また、請求項6に記載の要約作成方法によれば、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキスト、のうち少なくとも2つのテキストは統合されて統合テキストとされ、この統合テキストが要約されて要約テキストとされる。
このときテキスト統合に際しては、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習している。また、要約作成に際しては蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習している。このため、当該コンテンツの場面やシチュエーションに最適なテキスト統合設定及び要約作成状態とされている。
According to the summary creation method of claim 6, at least two of the utterance text, telop text, background image text, and logo mark text are integrated into an integrated text, and the integrated text is summarized. To be summarized text.
At this time, in the text integration, the optimum text integration setting is learned using the accumulated input data and output data of the past text integration processing as teaching materials. Also, when creating summaries, the optimum summary creation settings are learned using the accumulated input data and output data of past summary creation results as teaching materials. For this reason, it is set as the text integration setting and summary creation state that are optimal for the scene and situation of the content.

よって、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキストを統合した、コンテンツの場面やシチュエーションに最適な要約テキストを作成することができる。   Therefore, it is possible to create a summary text that is optimal for a scene or situation of a content, in which speech text, telop text, background image text, and logo mark text are integrated.

更に、請求項7に記載の要約作成方法によれば、ビデオ信号の音声信号から発話情報が抽出され発話内容が認識され発話テキストが生成される。また、ビデオ信号の映像信号からテロップ情報が抽出され、テロップの表示内容が認識され、テロップテキスト生成される。また、ビデオ信号の映像信号から背景画像情報が抽出され、背景画像の内容が認識され、背景テキストが生成される。   Furthermore, according to the summary creation method of the seventh aspect, the utterance information is extracted from the audio signal of the video signal, the utterance content is recognized, and the utterance text is generated. Also, telop information is extracted from the video signal of the video signal, the display content of the telop is recognized, and telop text is generated. Also, background image information is extracted from the video signal of the video signal, the content of the background image is recognized, and background text is generated.

よって、発話情報、テロップ情報、背景画像情報、及びロゴマーク情報からそれぞれテキストが生成され、コンテンツのビデオ信号から多様な情報をもとにテキストが生成され、コンテンツの場面やシチュエーションに最適な要約を作成できる。   Therefore, text is generated from speech information, telop information, background image information, and logo mark information, and text is generated based on various information from the video signal of the content. Can be created.

そして、請求項8に記載の要約作成方法によれば、それぞれのテキスト化に際しては、蓄積された過去のテキスト化処理の入力データと出力データに基づいて学習を行う。   According to the summary creation method of the eighth aspect, learning is performed based on the accumulated input data and output data of the past text conversion process when converting each text.

よって、過去に実行された多数の要約作成から最適なテキスト化作成の設定を学習し、でき、設定に同様のコンテンツの場面やシチュエーションに最適な要約を作成できる。   Accordingly, it is possible to learn the setting for creating the most suitable text from a number of summaries created in the past, and it is possible to create the optimum summaries for scenes and situations of content similar to the settings.

また、請求項9に記載の要約作成システムによれば、テレビ番組から要約を作成することができる。   Moreover, according to the summary creation system of Claim 9, a summary can be created from a television program.

また、請求項10に記載の要約作成システムによれば、インターネット動画番組から要約を作成することができる。   Moreover, according to the summary creation system of Claim 10, a summary can be created from an Internet moving image program.

本発明の実施形態に係る要約作成システムの全体構成を示すブロック図である。It is a block diagram which shows the whole structure of the summary production system which concerns on embodiment of this invention. 同要約作成システムの発話テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。The utterance text conversion part of the same summary preparation system is shown, (a) is a block diagram, (b) is a figure which shows the flow of a process. 同要約作成システムのテロップテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。The telop text conversion part of the summary production system is shown, (a) is a block diagram, and (b) is a diagram showing the flow of processing. 同要約作成システムの背景画像テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。The background image text-izing part of the same summary preparation system is shown, (a) is a block diagram, (b) is a figure which shows the flow of a process. 同要約作成システムのロゴマークテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。The logo mark text conversion part of the same summary preparation system is shown, (a) is a block diagram, (b) is a figure which shows the flow of a process. 同要約作成システムのテキスト統合部を示すブロック図である。It is a block diagram which shows the text integration part of the summary production system. 同要約作成システムの要約作成部を示すブロック図である。It is a block diagram which shows the summary preparation part of the summary preparation system. 同要約作成システムの処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the summary production system. 同要約作成システムの処理例を示す図である。It is a figure which shows the process example of the summary preparation system.

[第1実施形態]
本発明を実施するための形態に係る要約作成システム、及び要約作成方法について説明する。まず第1実施形態に係る要約作成システムの全体構成について説明する。図1は本発明の実施形態に係る要約作成システムの全体構成を示すブロック図である。
[First Embodiment]
A summary creation system and a summary creation method according to an embodiment for carrying out the present invention will be described. First, the overall configuration of the summary creation system according to the first embodiment will be described. FIG. 1 is a block diagram showing the overall configuration of a summary creation system according to an embodiment of the present invention.

<要約作製システム10の全体構成>
図1に示すように、要約作製システム10は、ビデオ信号分離部20、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400、テキスト統合手段であるテキスト統合部500、及び要約作成手段である要約作成部600を備える。本実施形態では要約作製システム10はビデオ信号をテレビ放送局30からの放送番組やインターネット40で配信される動画映像から取得する。なお、ビデオ信号は、インターネットにおける動画から取得することができる。なお、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400、及びテキスト統合部500から選択した少なくとも2つの部分を備えるものとすることができる。
<Overall Configuration of Summary Production System 10>
As shown in FIG. 1, the summary generation system 10 is a video signal separation unit 20, an utterance text unit 100, a telop text unit 200, a background image text unit 300, a logo mark text unit 400, and a text integration unit. A text integration unit 500 and a summary creation unit 600 as summary creation means are provided. In the present embodiment, the summary generation system 10 acquires a video signal from a broadcast program from the television broadcast station 30 or a moving image distributed on the Internet 40. The video signal can be obtained from a moving image on the Internet. It should be noted that at least two parts selected from the telop text unit 200, the background image text unit 300, the logo mark text unit 400, and the text integration unit 500 may be provided.

音声信号と映像信号を含むビデオ信号Vは、ビデオ信号分離部20で音声信号Aと映像信号Bとに分離される。音声信号Aは発話テキスト化部100に入力され、映像信号Bはテロップテキスト化部200、背景画像テキスト化部300、及びロゴマークテキスト化部400に入力される。   The video signal V including the audio signal and the video signal is separated into the audio signal A and the video signal B by the video signal separation unit 20. The audio signal A is input to the utterance text unit 100, and the video signal B is input to the telop text unit 200, the background image text unit 300, and the logo mark text unit 400.

<発話テキスト化部100>
発話テキスト化部100は音声信号Aを受けてコンテンツ中における人の発話内容を記述したテキストである発話テキストを出力する。発話テキスト化部100は、発話情報抽出部110、発話内容認識部120、発話内容テキスト化部130を備える。
<Speech text unit 100>
The speech text unit 100 receives the audio signal A and outputs speech text that is text describing the content of a person's speech in the content. The utterance text conversion unit 100 includes an utterance information extraction unit 110, an utterance content recognition unit 120, and an utterance content text conversion unit 130.

発話情報抽出部110は、ビデオ信号Vの音声信号Aから発話情報を抽出する。即ち、音声信号A中の雑音を取り除き、人の発話音声の情報を抽出する。この発話情報として効果音や特徴的な音楽を含むことができる。   The utterance information extraction unit 110 extracts utterance information from the audio signal A of the video signal V. That is, the noise in the voice signal A is removed, and the information of the human speech voice is extracted. The utterance information can include sound effects and characteristic music.

発話内容認識部120は、発話情報から発話内容を認識する。即ち、発話情報を音響的、文法的に解析して発話内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの生成データから機械学習により生成できる。   The utterance content recognition unit 120 recognizes the utterance content from the utterance information. That is, the utterance information is acoustically and grammatically analyzed to recognize the utterance content as a language. Parameters, conditions, and the like used for this recognition can be generated by machine learning from the past speech text generation data accumulated as described later.

発話内容テキスト化部130は発話内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの入力データ及び生成データから機械学習により生成できる。   The utterance content text conversion unit 130 converts the utterance content into text and outputs it. The parameters, conditions, and the like used for this recognition can be generated by machine learning from past speech text input data and generation data accumulated as described later.

<テロップテキスト化部200>
テロップテキスト化部200は映像信号Bを受けてコンテンツ中におけるテロップ内容を記述したテキストであるテロップテキストを出力する。テロップテキスト化部200は、テロップ情報抽出部210、テロップ内容認識部220、テロップ内容テキスト化部230を備える。
<Telop text converter 200>
The telop text converting unit 200 receives the video signal B and outputs telop text that is text describing the telop content in the content. The telop text conversion unit 200 includes a telop information extraction unit 210, a telop content recognition unit 220, and a telop content text conversion unit 230.

テロップ情報抽出部210は、ビデオ信号Vの映像信号Bからテロップ情報を抽出する。即ち、映像信号B中の背景を取り除き、テロップ画像だけの情報を抽出する。   The telop information extraction unit 210 extracts telop information from the video signal B of the video signal V. That is, the background in the video signal B is removed, and only the telop image information is extracted.

発話内容認識部120は、テロップ画像情報からテロップ内容を認識する。即ち、テロップ情報を言語的、文法的に解析してテロップ表示内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。   The utterance content recognition unit 120 recognizes the telop content from the telop image information. That is, the telop information is analyzed linguistically and grammatically to recognize the telop display content as a language. Parameters, conditions, and the like used for this recognition can be generated by machine learning from the past telop text input data and generation data accumulated as described later.

テロップ内容テキスト化部230はテロップ内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。   The telop content text conversion unit 230 converts the telop content into text and outputs it. Parameters, conditions, and the like used for this recognition can be generated by machine learning from the past telop text input data and generation data accumulated as described later.

<背景画像テキスト化部300>
背景画像テキスト化部300は映像信号Bを受けてコンテンツ中における背景画像内容を記述したテキストである背景画像テキストを出力する。背景画像としては、場面、状況、物品、及び事象のうち少なくとも一つ、例えば、人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗物、その他の物品を挙げることができる。背景画像テキスト化部300は、背景画像情報抽出部310、背景画像内容認識部320、背景画像内容テキスト化部330を備える。
<Background image text unit 300>
The background image text conversion unit 300 receives the video signal B and outputs a background image text that is a text describing the background image content in the content. The background image includes at least one of a scene, a situation, an article, and an event, for example, a person, a person's belongings, a person's facial expression, a landscape, a building situation, an indoor situation, an animal, a vehicle, and other articles. Can be mentioned. The background image text conversion unit 300 includes a background image information extraction unit 310, a background image content recognition unit 320, and a background image content text conversion unit 330.

背景画像情報抽出部310は、ビデオ信号Vの映像信号Bから背景画像情報を抽出する。即ち、映像信号B中のテロップや不鮮明な画像を取り除き、認識可能な背景画像だけの情報を抽出する。   The background image information extraction unit 310 extracts background image information from the video signal B of the video signal V. That is, the telop and unclear image in the video signal B are removed, and only the recognizable background image information is extracted.

背景画像内容認識部320は、背景画像情報から背景画像の内容を認識する。即ち、背景画像情報を解析して表されている人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗物、その他の物品を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。   The background image content recognition unit 320 recognizes the content of the background image from the background image information. That is, a person, a personal belonging, a facial expression, a landscape, a building situation, an indoor situation, an animal, a vehicle, and other articles represented by analyzing background image information are recognized. Parameters, conditions, and the like used for this recognition can be generated by machine learning from input data and generation data of past background image text accumulated as will be described later.

背景画像内容テキスト化部330は背景画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。   The background image content text unit 330 converts the background image content into text and outputs it. Parameters, conditions, and the like used for this recognition can be generated by machine learning from input data and generation data of past background image text accumulated as will be described later.

<ロゴマークテキスト化部400>
ロゴマークテキスト化部400は映像信号Bを受けてコンテンツ中におけるロゴマーク内容を記述したテキストであるロゴマークテキストを出力する。ロゴマークとしては、商品の出所を表示する商標、記号、符号を含むマーク、その他の標章を挙げることができる。ロゴマークテキスト化部400は、ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420、ロゴマーク内容テキスト化部430を備える。
<Logo Mark Textification Unit 400>
The logo mark text converting unit 400 receives the video signal B and outputs a logo mark text which is a text describing the logo mark contents in the content. Examples of the logo mark include a mark, a mark including a mark, and a mark indicating the origin of the product, and other marks. The logo mark text conversion unit 400 includes a logo mark image information extraction unit 410, a logo mark content recognition unit 420, and a logo mark content text conversion unit 430.

ロゴマーク画像情報抽出部410は、ビデオ信号Vの映像信号Bからロゴマーク画像情報を抽出する。即ち、映像信号B中のテロップや背景画像を取り除き、認識可能なロゴマーク画像だけの情報を抽出する。   The logo mark image information extraction unit 410 extracts logo mark image information from the video signal B of the video signal V. That is, the telop and the background image in the video signal B are removed, and only the recognizable logo mark image information is extracted.

ロゴマーク内容認識部420は、ロゴマーク画像情報からロゴマークの内容を認識する。即ち、ロゴマーク画像情報を解析して表されている商品、サービス、店舗、施設等を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。   The logo mark content recognition unit 420 recognizes the content of the logo mark from the logo mark image information. That is, it recognizes products, services, stores, facilities, etc. represented by analyzing logo mark image information. Parameters, conditions, and the like used for this recognition can be generated by machine learning from the past logo mark text input data and generation data accumulated as described later.

ロゴマーク内容テキスト化部430はロゴマーク画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。   The logo mark content text conversion unit 430 converts the logo mark image content into text and outputs it. Parameters, conditions, and the like used for this recognition can be generated by machine learning from the past logo mark text input data and generation data accumulated as described later.

<テキスト統合部500>
テキスト統合部500は、発話テキスト化部100からの発話テキスト、テロップテキスト化部200からのテロップテキスト、背景画像テキスト化部300からの背景テキスト、ロゴマークテキスト化部400からの背景テキストを統合する。即ち、各テキストにおける矛盾や誤りを訂正して、統合テキストを生成する。このテキストの統合に使用するパラメータ、条件等は後述するように蓄積された過去のテキスト統合の入力、出力データから機械学習により生成できる。
<Text integration unit 500>
The text integration unit 500 integrates the utterance text from the utterance text conversion unit 100, the telop text from the telop text conversion unit 200, the background text from the background image text conversion unit 300, and the background text from the logo mark text conversion unit 400. . That is, inconsistencies and errors in each text are corrected, and an integrated text is generated. Parameters, conditions, and the like used for text integration can be generated by machine learning from past text integration input and output data accumulated as described later.

<要約作成部600>
要約作成部600は、テキスト統合部500からの統合テキストを要約する。即ち、要約テキストの内容を要約して指定された文字数とする。この要約に使用するパラメータ、条件等は後述するように蓄積された過去のようよう役処理の入力データ、出力データから機械学習により生成できる。
<Summary creation unit 600>
The summary creation unit 600 summarizes the integrated text from the text integration unit 500. In other words, the content of the summary text is summarized to the number of characters designated. Parameters, conditions, and the like used for this summarization can be generated by machine learning from input data and output data of combination processing such as the past accumulated as will be described later.

次に、各部の機械学習処理について説明する。
<発話テキスト化部100の機械学習処理>
図2は同要約作成システムの発話テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、発話テキスト化部100は、発話情報抽出部110、発話内容認識部120、発話内容テキスト化部130の他、テキスト化学習手段である機械学習部140、内容認識テキスト作成設定部150、比較評価部160を備える。また発話テキスト化部100には、既存データ格納部700が接続されている。
Next, machine learning processing of each unit will be described.
<Machine learning process of speech text unit 100>
2A and 2B show an utterance text conversion unit of the summary creation system. FIG. 2A is a block diagram, and FIG. 2B is a diagram showing a flow of processing. As shown in FIG. 6A, the utterance text conversion unit 100 includes a utterance information extraction unit 110, an utterance content recognition unit 120, and an utterance content text conversion unit 130, as well as a machine learning unit 140, which is a text conversion learning unit, and contents A recognition text creation setting unit 150 and a comparative evaluation unit 160 are provided. Further, an existing data storage unit 700 is connected to the speech text unit 100.

発話テキスト化部100は既存データ格納部700が格納する既存のビデオデータと既存の発話テキストに基づいて機械学習を行い、発話内容認識部120及び発話内容テキスト化部130を最適化する。既存データ格納部700には、過去に人が発話テキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部710と、このビデオデータの発話内容から作成した発話テキストを格納した既存発話テキスト格納部720を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。   The utterance text conversion unit 100 performs machine learning based on the existing video data stored in the existing data storage unit 700 and the existing utterance text, and optimizes the utterance content recognition unit 120 and the utterance content text conversion unit 130. The existing data storage unit 700 stores an existing video data storage unit 710 that stores a large number of video data that has been used when a person has created an utterance text in the past, and an utterance text created from the utterance content of the video data. An existing utterance text storage unit 720 is provided. These video data and utterance texts are used as machine learning materials.

また、発話テキスト化部100には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部170、180を備える。   Further, the utterance text conversion unit 100 includes switching units 170 and 180 that perform data output switching when machine learning is performed and when an utterance content text is created from new video data.

内容認識テキスト作成設定部150は、発話情報抽出部110の発話情報の抽出処理の設定と、発話内容認識部120の発話内容認識処理の設定と、発話内容テキスト化部130のテキスト化処理の設定とが格納されている。発話情報抽出部110、発話内容認識部120及び発話内容テキスト化部130は内容認識テキスト作成設定部150の設定した条件、パラメータに従って発話情報抽出と、発話内容の認識、テキスト化とを行う。   The content recognition text creation setting unit 150 sets the speech information extraction processing of the speech information extraction unit 110, the speech content recognition processing setting of the speech content recognition unit 120, and the text conversion processing setting of the speech content text conversion unit 130. And are stored. The utterance information extraction unit 110, the utterance content recognition unit 120, and the utterance content text conversion unit 130 perform utterance information extraction, utterance content recognition, and text conversion according to the conditions and parameters set by the content recognition text creation setting unit 150.

比較評価部160は、比較部161と評価部162とを備える。比較部161は、既存ビデオデータ格納部710からの既存ビデオデータを受けて発話内容テキスト化部130が作成した発話テキストと、既存発話テキスト格納部720からの既存発話テキストとを比較する。評価部162は比較部161の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。   The comparative evaluation unit 160 includes a comparison unit 161 and an evaluation unit 162. The comparison unit 161 receives the existing video data from the existing video data storage unit 710 and compares the utterance text created by the utterance content text conversion unit 130 with the existing utterance text from the existing utterance text storage unit 720. The evaluation unit 162 performs an evaluation based on the comparison result of the comparison unit 161, and gives a high score when the values match well.

機械学習部140は、評価部162からの評価を受け、内容認識テキスト作成設定部150の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部162の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。   The machine learning unit 140 receives the evaluation from the evaluation unit 162 and changes the setting state of the content recognition text creation setting unit 150. This process is repeated for the same video data to make the evaluation value of the evaluation unit 162 as high as possible. This process can be repeated for a plurality of video data.

このような機械学習を行うことにより、発話内容認識部120及び発話内容テキスト化部130の能力が向上する。所定の機械学習を終了した後、発話テキスト化部100は新規ビデオデータを処理して、最適な発話テキストを出力できる状態となる。   By performing such machine learning, the abilities of the utterance content recognition unit 120 and the utterance content text conversion unit 130 are improved. After the predetermined machine learning is completed, the utterance text converting unit 100 processes the new video data and is in a state where the optimum utterance text can be output.

発話テキスト化部100の処理について説明する。図2(b)に示すように、まず内容認識テキスト作成設定部150に音声認識及びテキスト化の特徴量を設定する(ステップSA1)。この設定は機械学習部140の学習結果により行う。   Processing of the utterance text unit 100 will be described. As shown in FIG. 2B, first, a feature amount for speech recognition and text conversion is set in the content recognition text creation setting unit 150 (step SA1). This setting is performed based on the learning result of the machine learning unit 140.

次いで、発話情報抽出部110が、設定された特徴に基づいて音声を大量の音声信号の中から抽出する(ステップSA2)。   Next, the utterance information extraction unit 110 extracts speech from a large amount of speech signals based on the set features (step SA2).

更に、発話内容認識部120が、設定された特徴に基づいて抽出した音声を解析する(ステップSA3)。   Further, the utterance content recognition unit 120 analyzes the extracted voice based on the set feature (step SA3).

そして、発話内容テキスト化部130が、設定された特徴に基づいて音声をテキスト化して発話テキストを出力する(ステップSA4)。   Then, the utterance content text conversion unit 130 converts the voice into text based on the set feature and outputs the utterance text (step SA4).

<テロップテキスト化部200の機械学習>
図3は同要約作成システムのテロップテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、テロップテキスト化部200は、テロップ情報抽出部210、テロップ内容認識部220、テロップ内容テキスト化部230の他、機械学習部240、内容認識テキスト作成設定部250、比較評価部260を備える。またテロップテキスト化部200には、既存データ格納部700が接続されている。
<Machine learning of telop text unit 200>
FIG. 3 shows a telop text conversion unit of the summary creation system, where (a) is a block diagram and (b) is a diagram showing a flow of processing. As shown in FIG. 6A, the telop text conversion unit 200 includes a telop information extraction unit 210, a telop content recognition unit 220, and a telop content text conversion unit 230, as well as a machine learning unit 240 and a content recognition text creation setting unit 250. The comparison evaluation unit 260 is provided. An existing data storage unit 700 is connected to the telop text conversion unit 200.

テロップテキスト化部200は既存データ格納部700が格納する既存のビデオデータと既存のテロップテキストに基づいて機械学習を行い、テロップ内容認識部220及びテロップ内容テキスト化部230を最適化する。既存データ格納部700には、過去に人がテロップテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部710と、このビデオデータの発話内容から作成したテロップテキストを格納した既存テロップテキスト格納部730を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。   The telop text conversion unit 200 performs machine learning based on the existing video data stored in the existing data storage unit 700 and the existing telop text, and optimizes the telop content recognition unit 220 and the telop content text conversion unit 230. The existing data storage unit 700 stores an existing video data storage unit 710 that stores a large number of video data used when a telop text was created by a person in the past, and a telop text created from the utterance content of the video data. An existing telop text storage unit 730 is provided. These video data and utterance texts are used as machine learning materials.

また、テロップテキスト化部200には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部270、280を備える。   The telop text conversion unit 200 includes switching units 270 and 280 that perform data output switching when machine learning is performed and when an utterance content text is created from new video data.

内容認識テキスト作成設定部250は、テロップ情報抽出部210のテロップ情報抽出の設定と、テロップ内容認識部220のテキスト内容認識処理の設定と、テロップ内容テキスト化部230のテキスト化処理の設定とが格納されている。テロップ情報抽出部210、テロップ内容認識部220及びテロップ内容テキスト化部230は内容認識テキスト作成設定部250の設定した条件、パラメータに従ってテロップの抽出、内容認識、及びテキスト化を行う。   The content-recognized text creation setting unit 250 includes a setting of telop information extraction by the telop information extraction unit 210, a setting of text content recognition processing by the telop content recognition unit 220, and a setting of text conversion processing by the telop content text conversion unit 230. Stored. The telop information extraction unit 210, the telop content recognition unit 220, and the telop content text conversion unit 230 perform telop extraction, content recognition, and text conversion according to the conditions and parameters set by the content recognition text creation setting unit 250.

比較評価部260は、比較部261と評価部262とを備える。比較部261は、既存ビデオデータ格納部710からの既存ビデオデータを受けてテロップ内容テキスト化部230が作成したテロップテキストと、既存テロップテキスト格納部730からの既存テロップテキストとを比較する。評価部262は比較部261の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。   The comparative evaluation unit 260 includes a comparison unit 261 and an evaluation unit 262. The comparison unit 261 receives the existing video data from the existing video data storage unit 710 and compares the telop text created by the telop content text unit 230 with the existing telop text from the existing telop text storage unit 730. The evaluation unit 262 performs an evaluation based on the comparison result of the comparison unit 261, and gives a high score when the values match well.

機械学習部240は、評価部262からの評価を受け、内容認識テキスト作成設定部250の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部262の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。   The machine learning unit 240 receives the evaluation from the evaluation unit 262 and changes the setting state of the content recognition text creation setting unit 250. This process is repeated for the same video data to make the evaluation value of the evaluation unit 262 as high as possible. This process can be repeated for a plurality of video data.

このような機械学習を行うことにより、テロップ内容認識部220及びテロップ内容テキスト化部230の能力が向上する。所定の機械学習を終了した後、テロップテキスト化部200は新規ビデオデータを処理して、最適なテロップテキストを出力できる状態となる。   By performing such machine learning, the capabilities of the telop content recognition unit 220 and the telop content text conversion unit 230 are improved. After completing the predetermined machine learning, the telop text conversion unit 200 processes the new video data and is in a state where it can output the optimum telop text.

テロップテキスト化部200の処理について説明する。図3(b)に示すように、まず内容認識テキスト作成設定部250にテロップ情報抽出、内容抽出、及びテキスト化の特徴量を設定する(ステップSB1)。この設定は機械学習部240の学習結果により行う(ステップSB2)。   The processing of the telop text conversion unit 200 will be described. As shown in FIG. 3B, first, telop information extraction, content extraction, and text conversion feature amounts are set in the content recognition text creation setting unit 250 (step SB1). This setting is performed based on the learning result of the machine learning unit 240 (step SB2).

次いで、テロップ情報抽出部210が、設定された特徴に基づいてテロップを大量の映像信号の中から抽出する(ステップSB2)。   Next, the telop information extraction unit 210 extracts a telop from a large amount of video signals based on the set feature (step SB2).

更に、テロップ内容認識部220が、設定された特徴に基づいて抽出したテロップを解析する(ステップSB3)。   Further, the telop content recognition unit 220 analyzes the telop extracted based on the set feature (step SB3).

そして、テロップ内容テキスト化部230が、設定された特徴に基づいてテロップの内容をテキスト化してテロップテキストとして出力する(ステップSB4)。   Then, the telop content text conversion unit 230 converts the telop content into text based on the set feature and outputs it as telop text (step SB4).

<背景画像テキスト化部300の機械学習>
図4は同要約作成システムの背景画像テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、背景画像テキスト化部300は、背景画像情報抽出部310、背景画像内容認識部320、背景画像内容テキスト化部330の他、テキスト統合設定手段である機械学習部340、内容認識テキスト作成設定部350、比較評価部360を備える。また背景画像テキスト化部300には、既存データ格納部700が接続されている。
<Machine learning of background image text unit 300>
4A and 4B show a background image text conversion unit of the summary creation system. FIG. 4A is a block diagram and FIG. 4B is a diagram showing a flow of processing. As shown in FIG. 6A, the background image text conversion unit 300 is a machine learning which is a text integration setting unit in addition to the background image information extraction unit 310, the background image content recognition unit 320, and the background image content text conversion unit 330. A unit 340, a content recognition text creation / setting unit 350, and a comparative evaluation unit 360. An existing data storage unit 700 is connected to the background image text unit 300.

背景画像テキスト化部300は既存データ格納部700が格納する既存のビデオデータと既存の背景画像テキストに基づいて機械学習を行い、背景画像内容認識部320及び背景画像内容テキスト化部330を最適化する。既存データ格納部700には、過去に人がテロップテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部710と、このビデオデータの発話内容から作成した背景画像テキストを格納した既存背景画像テキスト格納部740を備える。これらのビデオデータ及び背景画像テキストは機械学習の教材となる。   The background image text conversion unit 300 performs machine learning based on the existing video data stored in the existing data storage unit 700 and the existing background image text, and optimizes the background image content recognition unit 320 and the background image content text conversion unit 330. To do. The existing data storage unit 700 stores an existing video data storage unit 710 that stores a large number of video data used when a person created telop text in the past, and a background image text created from the utterance content of the video data. The existing background image text storage unit 740 is provided. These video data and background image text serve as machine learning materials.

また、背景画像テキスト化部300には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部370、380を備える。   The background image text converting unit 300 includes switching units 370 and 380 that perform data output switching when machine learning is performed and when an utterance content text is created from new video data.

内容認識テキスト作成設定部350は、背景画像情報抽出部310の背景画像抽出処理の設定と、背景画像内容認識部320の背景画像内容認識処理の設定と、背景画像内容テキスト化部330のテキスト化処理の設定とが格納されている。背景画像情報抽出部310、背景画像内容認識部320及び背景画像内容テキスト化部330は内容認識テキスト作成設定部350の設定した条件、パラメータに従って背景画像の抽出、背景画像の内容認識及びテキスト化を行う。   The content recognition text creation setting unit 350 sets the background image extraction processing of the background image information extraction unit 310, the background image content recognition processing of the background image content recognition unit 320, and the text conversion of the background image content text conversion unit 330. Stores processing settings. The background image information extraction unit 310, the background image content recognition unit 320, and the background image content text conversion unit 330 perform background image extraction, background image content recognition, and text conversion according to the conditions and parameters set by the content recognition text creation setting unit 350. Do.

比較評価部360は、比較部361と評価部362とを備える。比較部361は、既存ビデオデータ格納部710からの既存ビデオデータを受けて背景画像内容テキスト化部330が作成した背景画像テキストと、既存背景画像テキスト格納部740からの既存背景画像テキストとを比較する。評価部362は比較部361の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。   The comparative evaluation unit 360 includes a comparison unit 361 and an evaluation unit 362. The comparison unit 361 compares the background image text generated by the background image content text unit 330 upon receiving the existing video data from the existing video data storage unit 710 and the existing background image text from the existing background image text storage unit 740. To do. The evaluation unit 362 performs an evaluation based on the comparison result of the comparison unit 361, and gives a high score when the values match well.

機械学習部340は、評価部362からの評価を受け、内容認識テキスト作成設定部350の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部362の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。   The machine learning unit 340 receives the evaluation from the evaluation unit 362 and changes the setting state of the content recognition text creation setting unit 350. This process is repeated for the same video data to make the evaluation value of the evaluation unit 362 as high as possible. This process can be repeated for a plurality of video data.

このような機械学習を行うことにより、背景画像内容認識部320及び背景画像内容テキスト化部330の能力が向上する。所定の機械学習を終了した後、背景画像テキスト化部300は新規ビデオデータを処理して、最適な背景画像テキストを出力できる状態となる。   By performing such machine learning, the capabilities of the background image content recognition unit 320 and the background image content text conversion unit 330 are improved. After the predetermined machine learning is completed, the background image text converting unit 300 processes the new video data and can output an optimum background image text.

背景画像テキスト化部300の処理について説明する。図4(b)に示すように、まず内容認識テキスト作成設定部350に背景画像情報抽出、背景画像認識、及びテキスト化の特徴量を設定する(ステップSC1)。この設定は機械学習部340の学習結果により行う。   The process of the background image text unit 300 will be described. As shown in FIG. 4B, first, background image information extraction, background image recognition, and text conversion feature quantities are set in the content recognition text creation setting unit 350 (step SC1). This setting is performed based on the learning result of the machine learning unit 340.

次いで、背景画像情報抽出部310が、設定された特徴に基づいて背景画像を大量の映像信号の中から抽出する(ステップSC2)。   Next, the background image information extraction unit 310 extracts a background image from a large amount of video signals based on the set feature (step SC2).

更に、背景画像内容認識部320が、設定された特徴に基づいて抽出した背景画像を解析する(ステップSC3)。   Further, the background image content recognition unit 320 analyzes the background image extracted based on the set feature (step SC3).

そして、背景画像内容テキスト化部330が、設定された特徴に基づいて背景画像の内容をテキスト化して背景画像テキストとして出力する(ステップSC4)。   Then, the background image content text conversion unit 330 converts the content of the background image into text based on the set feature and outputs it as background image text (step SC4).

<ロゴマークテキスト化部400の機械学習>
図5は同要約作成システムのロゴマークテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。ロゴマークテキスト化部400は、ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420、ロゴマーク内容テキスト化部430の他、機械学習部440、内容認識テキスト作成設定部450、比較評価部460を備える。またロゴマークテキスト化部400には、既存データ格納部700が接続されている。
<Machine learning of logo mark text unit 400>
5A and 5B show a logo mark text conversion unit of the summary creation system, where FIG. 5A is a block diagram and FIG. 5B is a diagram showing a flow of processing. In addition to the logo mark image information extraction unit 410, the logo mark content recognition unit 420, and the logo mark content text conversion unit 430, the logo mark text conversion unit 400 includes a machine learning unit 440, a content recognition text creation setting unit 450, and a comparative evaluation unit 460. Is provided. Further, an existing data storage unit 700 is connected to the logo mark text unit 400.

ロゴマークテキスト化部400は既存データ格納部700が格納する既存のビデオデータと既存のロゴマークテキストに基づいて機械学習を行い、ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420及びロゴマーク内容テキスト化部430を最適化する。既存データ格納部700には、過去に人がロゴマークテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部710と、このビデオデータの発話内容から作成したロゴマークテキストを格納した既存ロゴマークテキスト格納部750を備える。これらのビデオデータ及びロゴマークテキストは機械学習の教材となる。   The logo mark text conversion unit 400 performs machine learning based on the existing video data stored in the existing data storage unit 700 and the existing logo mark text, and performs the logo mark image information extraction unit 410, the logo mark content recognition unit 420, and the logo mark. The content text unit 430 is optimized. In the existing data storage unit 700, an existing video data storage unit 710 storing a large number of video data used when a person has created logo mark text in the past, and a logo mark text created from the utterance content of the video data are stored. The stored existing logo mark text storage unit 750 is provided. These video data and logo mark text are used as machine learning materials.

また、ロゴマークテキスト化部400には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部470、480を備える。   In addition, the logo mark text converting unit 400 includes switching units 470 and 480 that switch data output when machine learning is performed and when an utterance content text is created from new video data.

内容認識テキスト作成設定部450は、ロゴマーク内容認識部420のロゴマーク画像内容認識処理の設定と、ロゴマーク内容テキスト化部430のテキスト化処理の設定が格納されている。ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420及びロゴマーク内容テキスト化部430は内容認識テキスト作成設定部450の設定した条件、パラメータに従ってロゴマークの抽出、内容認識及びテキスト化を行う。   The content recognition text creation setting unit 450 stores the settings of the logo mark image content recognition processing of the logo mark content recognition unit 420 and the settings of the text conversion processing of the logo mark content text conversion unit 430. The logo mark image information extraction unit 410, the logo mark content recognition unit 420, and the logo mark content text conversion unit 430 perform logo mark extraction, content recognition, and text conversion according to the conditions and parameters set by the content recognition text creation setting unit 450.

比較評価部460は、比較部461と評価部462とを備える。比較部461は、既存ビデオデータ格納部710からの既存ビデオデータを受けてロゴマーク内容テキスト化部430が作成したテキストと、既存ロゴマークテキスト格納部750からの既存背景画像テキストとを比較する。評価部462は比較部461の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。   The comparative evaluation unit 460 includes a comparison unit 461 and an evaluation unit 462. The comparison unit 461 receives the existing video data from the existing video data storage unit 710 and compares the text created by the logo mark content text conversion unit 430 with the existing background image text from the existing logo mark text storage unit 750. The evaluation unit 462 performs an evaluation based on the comparison result of the comparison unit 461, and gives a high score when the values match well.

機械学習部440は、評価部462からの評価を受け、内容認識テキスト作成設定部450の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部462の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。   The machine learning unit 440 receives the evaluation from the evaluation unit 462 and changes the setting state of the content recognition text creation setting unit 450. This process is repeated for the same video data to make the evaluation value of the evaluation unit 462 as high as possible. This process can be repeated for a plurality of video data.

このような機械学習を行うことにより、ロゴマーク内容認識部420及びロゴマーク内容テキスト化部430の能力が向上する。所定の機械学習を終了した後、ロゴマークテキスト化部400は新規ビデオデータを処理して、最適な背景画像テキストを出力できる状態となる。   By performing such machine learning, the ability of the logo mark content recognition unit 420 and the logo mark content text conversion unit 430 is improved. After the predetermined machine learning is completed, the logo mark text conversion unit 400 processes the new video data and is in a state where it can output the optimum background image text.

ロゴマークテキスト化部400の処理について説明する。図5(b)に示すように、まず内容認識テキスト作成設定部450にロゴマークの特徴量を設定する(ステップSC1)。この設定は機械学習部340の学習結果により行う。   Processing of the logo mark text conversion unit 400 will be described. As shown in FIG. 5B, first, a feature amount of a logo mark is set in the content recognition text creation setting unit 450 (step SC1). This setting is performed based on the learning result of the machine learning unit 340.

次いで、ロゴマーク画像情報抽出部410が、設定された特徴に基づいてロゴマークを大量の映像信号の中から抽出する(ステップSD2)。   Next, the logo mark image information extraction unit 410 extracts a logo mark from a large amount of video signals based on the set feature (step SD2).

更に、ロゴマーク内容認識部420が、設定された特徴に基づいて抽出した背景画像を解析し、自動的に確認して登録する(ステップSD3)。   Further, the logo mark content recognition unit 420 analyzes the background image extracted based on the set feature, and automatically confirms and registers it (step SD3).

更に、ロゴマーク内容認識部420が、登録されたロゴマークや特定のロゴマークに合致したものをロゴマークとして認識する(ステップSD4)。   Further, the logo mark content recognition unit 420 recognizes a registered logo mark or a thing that matches a specific logo mark as a logo mark (step SD4).

そして、ロゴマーク内容テキスト化部430が設定された特徴に基づいてロゴマークの内容をテキスト化してロゴマークテキストとして出力する(ステップSD5)。   Then, the logo mark content text converting unit 430 converts the logo mark content into text based on the set feature and outputs it as logo mark text (step SD5).

<テキスト統合部500の機械学習>
図6は同要約作成システムのテキスト統合部を示すブロック図である。テキスト統合部500は、統合テキスト作成部510、統合テキスト作成設定部520、機械学習部530、比較評価部540を備える。テキスト統合部500には、既存データ格納部700が接続されている。
<Machine learning of text integration unit 500>
FIG. 6 is a block diagram showing a text integration unit of the summary creation system. The text integration unit 500 includes an integrated text creation unit 510, an integrated text creation setting unit 520, a machine learning unit 530, and a comparative evaluation unit 540. An existing data storage unit 700 is connected to the text integration unit 500.

テキスト統合部500は既存データ格納部700が格納する既存の各種、即ち、発話テキスト、テロップテキスト、背景テキスト及びロゴマークテキストと既存の統合テキストに基づいて機械学習を行い、統合テキスト作成部510の動作を最適化する。既存データ格納部700には、過去に統合テキストを作成したときに使用した各種テキストデータを格納した既存各種テキスト格納部760と、この各種テキストから作成した統合テキストを格納した既存統合テキスト格納部770とを備える。これらの各種テキスト及び統合テキストは機械学習の教材となる。   The text integration unit 500 performs machine learning on the basis of various existing types stored in the existing data storage unit 700, that is, speech text, telop text, background text, logo mark text, and existing integrated text. Optimize operation. The existing data storage unit 700 stores an existing various text storage unit 760 that stores various text data used when an integrated text was created in the past, and an existing integrated text storage unit 770 that stores an integrated text created from the various texts. With. These various texts and integrated texts serve as machine learning materials.

また、テキスト統合部500には、機械学習を行うときと、新規の各種テキストから新たな統合テキストを作成するときにデータ出力の切り換えを行う切換部570、580を備える。   In addition, the text integration unit 500 includes switching units 570 and 580 that perform data output switching when performing machine learning and when creating a new integrated text from various new texts.

統合テキスト作成設定部520は、統合テキスト作成部510のテキスト統合処理の設定が格納されている。統合テキスト作成部510は統合テキスト作成設定部520の設定した条件、パラメータに従ってテキスト統合処理を行う。   The integrated text creation setting unit 520 stores text integration processing settings of the integrated text creation unit 510. The integrated text creation unit 510 performs text integration processing according to the conditions and parameters set by the integrated text creation setting unit 520.

比較評価部540は、比較部541と評価部542とを備える。比較部541は、既存各種テキスト格納部760からの既存各種テキストを受けて統合テキスト作成部510が作成した統合テキストと、既存統合テキスト格納部770からの既存統合テキストとを比較する。評価部542は比較部541の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。   The comparative evaluation unit 540 includes a comparison unit 541 and an evaluation unit 542. The comparison unit 541 receives the existing various texts from the existing various text storage units 760 and compares the integrated text created by the integrated text creation unit 510 with the existing integrated texts from the existing integrated text storage unit 770. The evaluation unit 542 performs an evaluation based on the comparison result of the comparison unit 541, and gives a high score when the values match well.

機械学習部530は、評価部542からの評価を受け、統合テキスト作成設定部520の設定状態を変更する。この処理を同一の各種テキストデータについて繰り返し行い、評価部542の評価値をできるだけ高いものとする。この処理は複数の各種テキストデータについて繰り返し行うことができる。   The machine learning unit 530 receives the evaluation from the evaluation unit 542 and changes the setting state of the integrated text creation setting unit 520. This process is repeated for the same various text data to make the evaluation value of the evaluation unit 542 as high as possible. This process can be repeated for a plurality of various text data.

このような機械学習を行うことにより、統合テキスト作成部510の能力が向上する。所定の機械学習を終了した後、テキスト統合部500は新規ビデオデータを処理して、最適な統合テキストを出力できる状態となる。   By performing such machine learning, the ability of the integrated text creation unit 510 is improved. After completing the predetermined machine learning, the text integration unit 500 processes the new video data and is in a state where it can output the optimum integrated text.

<要約作成部600の機械学習>
図7は同要約作成システムの要約作成部を示すブロック図である。要約作成部600は、要約テキスト作成部610、要約作成設定部620、要約設定学習手段である機械学習部630、比較評価部640を備える。要約作成部600には、既存データ格納部700が接続されている。
<Machine learning of summary creation unit 600>
FIG. 7 is a block diagram showing a summary creation unit of the summary creation system. The summary creation unit 600 includes a summary text creation unit 610, a summary creation setting unit 620, a machine learning unit 630 that is summary setting learning means, and a comparative evaluation unit 640. An existing data storage unit 700 is connected to the summary creation unit 600.

要約作成部600は既存データ格納部700が格納する統合テキストと要約テキストに基づいて機械学習を行い、要約テキスト作成部610の動作を最適化する。既存データ格納部700には、過去に要約テキストを作成したときに使用した統合テキストデータを格納した既存統合テキスト格納部770と、この統合テキストから作成した要約テキストを格納した過去の要約作成結果である既存要約テキスト格納部780とを備える。これらの統合テキスト及び要約テキストは機械学習の教材となる。   The summary creation unit 600 performs machine learning based on the integrated text and summary text stored in the existing data storage unit 700, and optimizes the operation of the summary text creation unit 610. The existing data storage unit 700 includes an existing integrated text storage unit 770 that stores the integrated text data used when the summary text was created in the past, and past summary creation results that store the summary text created from the integrated text. And an existing summary text storage unit 780. These integrated texts and summary texts serve as machine learning materials.

また、要約作成部600には、機械学習を行うときと、新規の統合テキストから新たな要約テキストを作成するときにデータ出力の切り換えを行う切換部670、680を備える。   The summary creation unit 600 includes switching units 670 and 680 that perform data output switching when machine learning is performed and when a new summary text is created from a new integrated text.

要約作成設定部620には、要約テキスト作成部610の要約処理の設定が格納されている。要約テキスト作成部610は要約作成設定部620の設定した条件、パラメータに従ってテキスト要約処理を行う。   The summary creation setting unit 620 stores the summary processing settings of the summary text creation unit 610. The summary text creation unit 610 performs text summary processing according to the conditions and parameters set by the summary creation setting unit 620.

比較評価部640は、比較部641と評価部642とを備える。比較部641は、既存統合テキスト格納部770からの既存統合テキストを受けて要約テキスト作成部610が作成した要約テキストと、既存要約テキスト格納部780からの要約テキストとを比較する。評価部642は比較部641の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。   The comparative evaluation unit 640 includes a comparison unit 641 and an evaluation unit 642. The comparison unit 641 compares the summary text created by the summary text creation unit 610 in response to the existing integration text from the existing integration text storage unit 770 and the summary text from the existing summary text storage unit 780. The evaluation unit 642 performs an evaluation based on the comparison result of the comparison unit 641 and gives a high score when the values match well.

機械学習部630は、評価部642からの評価を受け、要約作成設定部620の設定状態を変更する。この処理を同一の各種テキストデータについて繰り返し行い、評価部642の評価値をできるだけ高いものとする。この処理は複数の統合テキストデータについて繰り返し行うことができる。   The machine learning unit 630 receives the evaluation from the evaluation unit 642 and changes the setting state of the summary creation setting unit 620. This process is repeated for the same various text data to make the evaluation value of the evaluation unit 642 as high as possible. This process can be repeated for a plurality of integrated text data.

このような機械学習を行うことにより、要約テキスト作成部610の能力が向上する。所定の機械学習を終了した後、要約作成部600は新規ビデオデータを処理して、最適な要約テキストを出力できる状態となる。   By performing such machine learning, the capability of the summary text creation unit 610 is improved. After completing the predetermined machine learning, the summary creation unit 600 can process the new video data and output an optimum summary text.

次に要約作製システム10の処理について説明する。図8は同要約作成システムの動作を示すフローチャートである。
まず、既存データ格納部700の既存ビデオデータ格納部710、既存発話テキスト格納部720、既存テロップテキスト格納部730、既存背景画像テキスト格納部740、既存ロゴマークテキスト格納部750、既存各種テキスト格納部760、既存統合テキスト格納部770、既存要約テキスト格納部780に既存のビデオ信号、各種テキストデータを読み込む(ステップST1)。
Next, processing of the summary production system 10 will be described. FIG. 8 is a flowchart showing the operation of the summary creation system.
First, the existing video data storage unit 710, the existing utterance text storage unit 720, the existing telop text storage unit 730, the existing background image text storage unit 740, the existing logo mark text storage unit 750, and the existing various text storage units of the existing data storage unit 700 760, an existing video signal and various text data are read into the existing integrated text storage unit 770 and the existing summary text storage unit 780 (step ST1).

次いで発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400において、機械学習処理を行う(ステップST2a、ST2b、ST2c、ST2d)。この学習処理は逐次的に行うこともできる。   Next, machine learning processing is performed in the speech text unit 100, the telop text unit 200, the background image text unit 300, and the logo mark text unit 400 (steps ST2a, ST2b, ST2c, and ST2d). This learning process can also be performed sequentially.

次に、テキスト統合部500の既存データ格納部550、要約作成部600の既存データ格納部650に既存の入力データ、出力データを読み込む(ステップST3)。次いで、テキスト統合部500、要約作成部600において機械学習処理を行う(ステップST3a、3b)。この学習処理は逐次的に行うこともできる。なお、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、及びロゴマークテキスト化部400の機械学習処理と、及びテキスト統合部500及び要約作成部600の機械学習処理とは処理の順序を問わず、逆の順序で行うことができる。   Next, the existing input data and output data are read into the existing data storage unit 550 of the text integration unit 500 and the existing data storage unit 650 of the summary creation unit 600 (step ST3). Next, machine learning processing is performed in the text integration unit 500 and the summary creation unit 600 (steps ST3a and 3b). This learning process can also be performed sequentially. Note that the machine learning processing of the utterance text conversion unit 100, the telop text conversion unit 200, the background image text conversion unit 300, and the logo mark text conversion unit 400 and the machine learning processing of the text integration unit 500 and the summary creation unit 600 are as follows. Regardless of the order of processing, it can be performed in the reverse order.

学習処理が終了すると(ステップST4のyes)、処理対象となるビデオ信号をビデオ信号分離部20に入力する(ステップST5)。これにより、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400は、テキスト化処理を実行する(ステップST6a、ST6b、ST6c、ST6d)   When the learning process is completed (yes in step ST4), the video signal to be processed is input to the video signal separation unit 20 (step ST5). Thereby, the utterance text conversion unit 100, the telop text conversion unit 200, the background image text conversion unit 300, and the logo mark text conversion unit 400 execute text conversion processing (steps ST6a, ST6b, ST6c, ST6d).

そして、各テキストをテキスト統合部500で統合処理し(ステップST7)、更に統合されたテキストを要約作成部600で要約処理し(ステップST8)、要約テキストを出力し、要約作製システム10の処理は終了する。   Each text is integrated by the text integration unit 500 (step ST7), the integrated text is further summarized by the summary creation unit 600 (step ST8), and summary text is output. finish.

次の要約作成処理からは、機械学習処理(ステップST1〜ST4)は行わなくて直ちに要約作成の対象ビデオ信号を入力(ステップST5)するだけで最適な要約作成を行うことができる。また、機械学習処理は必要に応じて行うことができる。   From the next summarization process, the optimum summarization can be performed only by inputting the target video signal for summarization (step ST5) without performing the machine learning process (steps ST1 to ST4). The machine learning process can be performed as necessary.

以下、要約作製システム10の処理の一例について説明する。図9は同要約作成システムの処理例を示す図である。図9にはビデオデータが記載されている。ビデオデータには、映像810を含む映像データとナレーション850を含む音声データが格納されている。この例は、テニストーナメントの結果を知らせるニュース番組の一部を例とする。   Hereinafter, an example of processing of the summary production system 10 will be described. FIG. 9 is a diagram showing a processing example of the summary creation system. FIG. 9 shows video data. In the video data, video data including a video 810 and audio data including a narration 850 are stored. In this example, a part of a news program that informs the result of a tennis tournament is taken as an example.

まず、発話テキスト化部100において、発話情報抽出部110が音声データからナレーション850を抽出し、発話内容認識部120が内容を認識する。そして、この認識された内容が発話内容テキスト化部130がテキスト化する。   First, in the utterance text conversion unit 100, the utterance information extraction unit 110 extracts the narration 850 from the voice data, and the utterance content recognition unit 120 recognizes the content. The recognized content is converted into text by the utterance content text converting unit 130.

この例では、発話内容テキスト化部130は、発話テキストとして「▲▲で開催されている、××オープン選手権で○月○日、日本の○○選手は準決勝に勝利し決勝に進出しました。決勝は来る○日□時から行われます。△△テレビでは◆時からこのゲームを生中継します。」を出力する。   In this example, the utterance content text generation unit 130, as an utterance text, “XX Open Championship held in ▲▲, XX month ○ day, Japan XX player won the semi-final and advanced to the final. The final will start from ** day *. △△ On TV, the game will be broadcast live from ** ".

また、テロップテキスト化部200において、テロップ情報抽出部210が映像データからテロップ画像を抽出する。本例では、テロップ表示部811に表示されたテロップ、映像810上部に表示されたニュース名812、提供会社名813を抽出する。更に、テロップ内容認識部220がテロップの内容を認識し、テロップ内容認識部220がテロップの内容を認識する。そして、この認識した内容を背景画像内容テキスト化部330がテキスト化する。   In the telop text converting unit 200, the telop information extracting unit 210 extracts a telop image from the video data. In this example, the telop displayed on the telop display unit 811, the news name 812 and the provider company name 813 displayed on the upper part of the video 810 are extracted. Further, the telop content recognition unit 220 recognizes the content of the telop, and the telop content recognition unit 220 recognizes the content of the telop. The recognized content is converted into text by the background image content text unit 330.

この例では、テロップ内容テキスト化部230は、テロップ表示部811の「速報 ○○選手 ××オープン決勝進出!」、ニュース名812として「△△ニュース」、提供会社名813として「提供◆◆株式会社」がテロップテキストとして出力する。   In this example, the telop content text conversion unit 230 displays “breaking news XX player XX open final advance!” In the telop display unit 811, “△ News” as the news name 812, and “Provision ◆◆ Stock” as the provider name 813 "Company" is output as telop text.

更に、背景画像テキスト化部300において、背景画像情報抽出部310が背景画像820から人物、物品、状況等を抽出する。本例では、テニスプレーヤー830、顔831、キャップ832、テニスウエア833、テニスパンツ834、ラケット835、ボール836、テニスコート837等の画像を抽出する。この抽出された画像に基づいて、背景画像内容認識部320が各背景画像の内容を認識する。たとえば、テニスプレーヤー830の画像及び顔831から性別、人種、年齢、表情を認識する。また、キャップ832、テニスウエア833、テニスパンツ834のスタイル、色等を認識する。更に、ラケット835、ボール836についてもそれらの色、型番等を認識する。そして、この認識した内容を背景画像内容テキスト化部330がテキスト化する。   Further, in the background image text converting unit 300, the background image information extracting unit 310 extracts a person, an article, a situation, and the like from the background image 820. In this example, images of a tennis player 830, a face 831, a cap 832, tennis wear 833, tennis pants 834, a racket 835, a ball 836, a tennis court 837, and the like are extracted. Based on the extracted image, the background image content recognition unit 320 recognizes the content of each background image. For example, gender, race, age, and facial expression are recognized from the image and face 831 of the tennis player 830. In addition, the style, color, and the like of the cap 832, tennis wear 833, and tennis pants 834 are recognized. Further, the color, model number, and the like of the racket 835 and the ball 836 are recognized. The recognized content is converted into text by the background image content text unit 330.

この例では、テニスプレーヤー830について「男性」、「○○系」、「20代」等、顔831から「汗」、「苦しい」、キャップ832について「白色」、テニスウエア833について「白」、「半袖」、テニスパンツ834について「白色」、「半ズボン」、ラケット835について「メーカー」、「型番」、ボール836について「黄色」、テニスコート837について「クレイ」等が背景画像テキストとして出力される。   In this example, “male”, “XX”, “20s”, etc. for the tennis player 830, “sweat”, “suffer” from the face 831, “white” for the cap 832, “white” for the tennis wear 833, “White”, “shorts” for tennis shorts 834, “maker”, “model” for racket 835, “yellow” for ball 836, “clay” for tennis court 837, etc. are output as background image text. The

そして、ロゴマークテキスト化部400において、ロゴマーク画像情報抽出部410が映像810からロゴマークを抽出する。本例では、映像810の上部にニュース名812と共に付されたロゴマーク841、テニスウエア833に付されたロゴマーク842、テニスパンツ834に付されたロゴマーク843を抽出する。このとき、ロゴマーク842及びロゴマーク843は衣服に記載されているから、テニスプレーヤー830の運動により変形する。本例では、この変形も考慮して、抽出おこなう。そして、この抽出されたロゴマークに基づいて、背景画像内容認識部320が各ロゴマークの内容を認識する。そして、この認識したロゴマークの内容をロゴマーク内容テキスト化部430がテキスト化する。   Then, in the logo mark text converting unit 400, the logo mark image information extracting unit 410 extracts the logo mark from the video 810. In this example, a logo mark 841 attached to the upper part of the video 810 together with the news name 812, a logo mark 842 attached to the tennis wear 833, and a logo mark 843 attached to the tennis pants 834 are extracted. At this time, since the logo mark 842 and the logo mark 843 are written on the clothes, they are deformed by the movement of the tennis player 830. In this example, extraction is performed in consideration of this deformation. Based on the extracted logo mark, the background image content recognition unit 320 recognizes the content of each logo mark. Then, the logo mark content text conversion unit 430 converts the recognized logo mark content into text.

この例では、背景画像内容テキスト化部330は、ロゴマーク841について「△△N」の記載があり「△△テレビ株式会社」、ロゴマーク842について「AAA」の記載であり「株式会社BBB」の「AAAブランド」、ロゴマーク843について「BB」の記載であり「CC株式会社」の「BBブランド」をロゴマークテキストとして出力する。   In this example, the background image content text conversion unit 330 has “ΔΔN” for the logo mark 841 and “AAA” for the logo mark 842 and “BBB” for the logo mark 842. “AAA brand” and logo mark 843 are “BB” and “CC brand” “BB brand” is output as logo mark text.

テキスト統合部500は、発話テキスト化部100からの発話テキスト、テロップテキスト化部200からのテロップテキスト、背景画像テキスト化部300からの背景画像テキスト、ロゴマークテキスト化部400からのロゴマークテキストを統合する。   The text integration unit 500 receives the utterance text from the utterance text conversion unit 100, the telop text from the telop text conversion unit 200, the background image text from the background image text conversion unit 300, and the logo mark text from the logo mark text conversion unit 400. Integrate.

この例では、「▲▲で開催されている、××オープン選手権で○月○日、日本の○○選手は準決勝に勝利し決勝に進出しました。決勝は来る○日□時から行われます。△△テレビでは◆時からこのゲームを生中継します。」、速報 ○○選手 ××オープン決勝進出!」、「△△ニュース」、「提供◆◆株式会社」、「男性」、「○○系」、「20代」、「汗」、「苦しい」、「キャップ白色」、「テニスウエア白」、「テニスウエア半袖」、「テニスパンツ白色」、「半ズボン」、「ラケットメーカー」、「型番」、「ボール黄色」、「テニスコートクレイ」、「△△N」、「△△テレビ株式会社」、「ロゴマークAAA」の記載であり「株式会社BBB」、「AAAブランド」、「ロゴマークBB」、「CC株式会社」、「BBブランド」等のテキストを網羅的に統合して出力する。
この統合用テキストは膨大なデータとなるが、機械検索に適している。
In this example, “XX Open Championship held in ▲▲, XX month, XX player in Japan won the semi-final and advanced to the final. The final will be held from XX day □ △△ On TV, this game will be broadcast live from time to time. ”, Breaking News ○○ Player XX Advance to the Open Finals! ”,“ △△ News ”,“ Provision ◆◆ Co., Ltd. ”,“ Male ”,“ XX ”,“ 20's ”,“ Sweat ”,“ Bad ”,“ Cap White ”,“ Tennis Wear White ” "Tennis Wear Short Sleeve", "Tennis Pants White", "Shorts", "Racquet Maker", "Model Number", "Ball Yellow", "Tennis Court Clay", "△△ N", "△△ Television Inc." , Which is a description of “Logo Mark AAA”, and texts such as “BBB Co., Ltd.”, “AAA Brand”, “Logo Mark BB”, “CC Co., Ltd.”, “BB Brand” are comprehensively integrated and output.
This integration text is enormous data, but is suitable for machine search.

要約作成部600はテキスト統合部500からの統合テキストを受け、所定の文字数、例えば200字以内に要約し出力する。この例では、要約作成部600は、「日本の○○選手は○月○日、××オープン選手権の準決勝に勝利し、決勝に進出した。××オープン選手権は、▲▲で開催されており、クレーコートで行われる。○○選手は、白のキャップ、AAAブランドの白色のテニスウエアとBBブランドの白色のテニスパンツを着用し、勝利を得た。決勝戦は、○月○日、◆時から△△テレビで生中継される。」と出力する。要約は内容を把握しやすいため、人が一見して理解できる。   The summary creation unit 600 receives the integrated text from the text integration unit 500 and summarizes and outputs it within a predetermined number of characters, for example, 200 characters. In this example, the summary generation unit 600 says, “Japan XX player won the semi-final of the XX Open Championship on XX month, and advanced to the final. The XX Open Championship was held in ▲▲. The XX player won a victory by wearing a white cap, AAA brand white tennis wear, and BB brand white tennis pants. Will be broadcast live on TV. The summary is easy to understand and can be understood at a glance.

以上のシステムは、処理装置としてのCPU(Central Processing Unit)、記憶装置としてRAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disc Drive)、SSD(Solid State Drive)等を備えたコンピュータシステムでアプリケーションションソフトウエアを実行して実現できる。また、各部は同一ヶ所に配置される必要はなく、一部をクラウド上に配置してネットワークで接続して実現することができる。また、これらの処理は、多量のデータを対象とするためGPU(Graphics Processing Unit)を使用して処理することが好ましい。   The above system includes a CPU (Central Processing Unit) as a processing device, a RAM (Random Access Memory), a ROM (Read Only Memory), an HDD (Hard Disc Drive), an SSD (Solid State Drive), and the like as a storage device. It can be realized by executing application software on a computer system. Moreover, each part does not need to be arrange | positioned in the same place, and it can implement | achieve by arrange | positioning a part on cloud and connecting with a network. In addition, since these processes target a large amount of data, it is preferable to perform processing using a GPU (Graphics Processing Unit).

即ち、統合テキストは、単に、音声、文字,背景映像等の文字化してものであり、膨大な文章についてのデータである。このため、GPUをテキスト処理に特化することにより高速に処理できる。   That is, the integrated text is simply converted into characters such as voice, characters, background video, etc., and is data on a huge amount of text. For this reason, GPU can be processed at high speed by specializing in text processing.

更に、テキスト統合部500には、発話テキスト、テロップテキスト、背景画像テキスト及びロゴマークテキストの他、テレビ番組を対象とするする場合、電子番組表データから取得したテキストを入力することができる。更に、インターネットで配信される動画映像の場合には第三者の評価や評判をテキストとしして取得して入力できる。これにより、統合テキストの質と量を向上させることができる。   Furthermore, in addition to speech text, telop text, background image text, and logo mark text, the text integration unit 500 can input text acquired from electronic program guide data when targeting a TV program. Furthermore, in the case of a moving image distributed on the Internet, it is possible to acquire and input a third party's evaluation and reputation as text. This can improve the quality and quantity of integrated text.

[他の実施形態]
本発明にあってはデータ処理をAI(人工知能:artificial intelligence)により高速かつ適切に処理して要約化する。AI処理は、上述した機械学習(ML:machine Learning)により実現できる。更に、機械学習として、既存データを正解とする教師有り学習が採用できる。また、機械学習としてディープラーニング(深層学習:DL:Deep Learning)により行うと効果的である。
[Other Embodiments]
In the present invention, data processing is summarized at high speed and appropriately by AI (artificial intelligence). The AI process can be realized by the machine learning (ML) described above. Furthermore, supervised learning with existing data as correct answers can be adopted as machine learning. Further, it is effective to perform deep learning (DL: Deep Learning) as machine learning.

ディープラーニングでは、既存の多数のビデオデータ、各ビデオデータに対応する各種テキストデータ、統合テキスト、要約テキストをビッグデータとして学習を行う。この、各機械学習部は、入力層、複数の中間層、出力層を備え、多数のニューロンを備えたニューラルネットワークにより処理を行い。即ち、本発明に係る要約作成システムに入力された新規ビデオデータ、このビデオデータによる各種テキスト、統合テキスト、要約を入力とした出力が、既存の各種テキスト、統合テキスト、要約に近づくように中間層のニューロンにおける重み、パラメータを最小二乗法等の手法で適正化する。   In deep learning, a large number of existing video data, various text data corresponding to each video data, integrated text, and summary text are learned as big data. Each machine learning unit includes an input layer, a plurality of intermediate layers, and an output layer, and performs processing by a neural network including a large number of neurons. That is, the new video data input to the summary creation system according to the present invention, various texts based on the video data, the integrated text, and the output of the summary as input are the intermediate layers so as to approach the existing various texts, the integrated text, and the summary. The weights and parameters in the neurons are optimized by a method such as the least square method.

本発明は、ビデオ信号に要約を作成してメタデータを付与するシステムや装置に広く適用可能であり、産業上の利用可能性がある。 The present invention can be widely applied to systems and apparatuses that create a summary and add metadata to a video signal, and has industrial applicability.

10:要約作製システム
20:ビデオ信号分離部
30:テレビ放送局
40:インターネット
100:発話テキスト化部
110:発話情報抽出部
120:発話内容認識部
130:発話内容テキスト化部
140:機械学習部
150:内容認識テキスト作成設定部
160:比較評価部
161:比較部
162:評価部
170:切換部
180:切換部
200:テロップテキスト化部
210:テロップ情報抽出部
220:テロップ内容認識部
230:テロップ内容テキスト化部
240:機械学習部
250:内容認識テキスト作成設定部
260:比較評価部
261:比較部
262:評価部
270:切換部
280:切換部
300:背景画像テキスト化部
310:背景画像情報抽出部
320:背景画像内容認識部
330:背景画像内容テキスト化部
340:機械学習部
350:内容認識テキスト作成設定部
360:比較評価部
361:比較部
362:評価部
370:切換部
380:切換部
400:ロゴマークテキスト化部
410:ロゴマーク画像情報抽出部
420:ロゴマーク内容認識部
430:ロゴマーク内容テキスト化部
440:機械学習部
450:内容認識テキスト作成設定部
460:比較評価部
461:比較部
462:評価部
470:切換部
480:切換部
500:テキスト統合部
510:統合テキスト作成部
520:統合テキスト作成設定部
530:機械学習部
540:比較評価部
541:比較部
542:評価部
550:既存データ格納部
570:切換部
580:切換部
600:要約作成部
610:要約テキスト作成部
620:要約作成設定部
630:機械学習部
640:比較評価部
641:比較部
642:評価部
650:既存データ格納部
670:切換部
680:切換部
700:既存データ格納部
710:既存ビデオデータ格納部
720:既存発話テキスト格納部
730:既存テロップテキスト格納部
740:既存背景画像テキスト格納部
750:既存ロゴマークテキスト格納部
760:既存各種テキスト格納部
770:既存統合テキスト格納部
780:既存要約テキスト格納部
10: summary production system 20: video signal separation unit 30: TV broadcasting station 40: Internet 100: utterance text conversion unit 110: utterance information extraction unit 120: utterance content recognition unit 130: utterance content text conversion unit 140: machine learning unit 150 : Content recognition text creation setting unit 160: comparative evaluation unit 161: comparison unit 162: evaluation unit 170: switching unit 180: switching unit 200: telop text converting unit 210: telop information extracting unit 220: telop content recognizing unit 230: telop content Text conversion unit 240: Machine learning unit 250: Content recognition text creation setting unit 260: Comparison evaluation unit 261: Comparison unit 262: Evaluation unit 270: Switching unit 280: Switching unit 300: Background image text conversion unit 310: Background image information extraction Unit 320: Background image content recognition unit 330: Background image content text conversion unit 340: Machine Learning part 350: Content recognition text creation setting part 360: Comparative evaluation part 361: Comparison part 362: Evaluation part 370: Switching part 380: Switching part 400: Logo mark text converting part 410: Logo mark image information extracting part 420: Logo mark Content recognition unit 430: Logo mark content text conversion unit 440: Machine learning unit 450: Content recognition text creation setting unit 460: Comparison evaluation unit 461: Comparison unit 462: Evaluation unit 470: Switching unit 480: Switching unit 500: Text integration unit 510: Integrated text creation unit 520: Integrated text creation setting unit 530: Machine learning unit 540: Comparison evaluation unit 541: Comparison unit 542: Evaluation unit 550: Existing data storage unit 570: Switching unit 580: Switching unit 600: Summary creation unit 610: Summary text creation unit 620: Summary creation setting unit 630: Machine learning unit 640: Comparative evaluation unit 641 Comparison unit 642: Evaluation unit 650: Existing data storage unit 670: Switching unit 680: Switching unit 700: Existing data storage unit 710: Existing video data storage unit 720: Existing utterance text storage unit 730: Existing telop text storage unit 740: Existing Background image text storage unit 750: Existing logo mark text storage unit 760: Existing various text storage unit 770: Existing integrated text storage unit 780: Existing summary text storage unit

Claims (10)

コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、
前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、
前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、
前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、
のうち少なくとも2つのテキストを統合して統合テキストを出力するテキスト統合手段と、
前記統合テキストを要約した要約テキストを出力する要約作成手段と、
を備え、
前記テキスト統合手段は、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習するテキスト統合設定手段を備え、
前記要約作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備えることを特徴とする要約作成システム。
Utterance text describing the utterance content of the person in the content extracted from the video signal about the content,
Telop text describing the display content of the telop in the content extracted from the video signal,
Background image text describing at least one description of scenes, situations, articles and events appearing in the video signal;
Logo mark text describing a logo, trademark, symbol, mark including a mark appearing in the video signal,
A text integration means for integrating at least two of the texts and outputting an integrated text;
Summary generating means for outputting a summary text summarizing the integrated text;
With
The text integration means comprises text integration setting means for learning the optimal text integration setting using the accumulated input data and output data of past text integration processing as teaching materials,
The summary creation means comprises summary setting learning means for learning optimal summary creation settings using the input data and output data of the past summary creation results accumulated as teaching materials.
前記コンテンツについての前記ビデオ信号の音声信号から発話情報を抽出する手段、前記発話情報から発話内容を認識する手段、及び、前記発話内容をテキスト化して発話テキストを出力する手段を備えた発話テキスト化部と、
前記ビデオ信号の映像信号から、テロップを表示するテロップ情報を抽出する手段、前記テロップ情報からテロップ内容を認識する手段、及び、前記テロップ内容をテキスト化してテロップテキストを出力する手段、を備えたテロップテキスト化部と、
前記ビデオ信号の映像信号から、背景画像情報を抽出する手段、前記背景画像情報から背景画像内容を認識する手段、及び前記背景画像内容をテキスト化して背景テキストを出力する手段、を備えた背景画像テキスト化部と、
前記ビデオ信号の映像信号から、ロゴマーク画像情報を抽出する手段、前記ロゴマーク画像情報からロゴマーク内容を認識する手段、及び前記ロゴマーク内容をテキスト化してロゴマークテキストを出力する手段を備えるロゴマークテキスト化部と、
から選択した少なくとも2つのテキスト化部を備えることを特徴とする請求項1に記載の要約作成システム。
Speech text conversion comprising means for extracting speech information from the audio signal of the video signal for the content, means for recognizing speech content from the speech information, and means for converting the speech content into text and outputting speech text And
A telop comprising means for extracting telop information for displaying a telop from the video signal of the video signal, means for recognizing telop contents from the telop information, and means for converting the telop contents into text and outputting telop text A texting part;
A background image comprising means for extracting background image information from the video signal of the video signal, means for recognizing the background image content from the background image information, and means for converting the background image content into text and outputting the background text A texting part;
Logo comprising: means for extracting logo mark image information from the video signal of the video signal; means for recognizing logo mark content from the logo mark image information; and means for converting the logo mark content into text and outputting logo mark text Mark text conversion part,
The summary creation system according to claim 1, further comprising at least two text conversion units selected from the above.
発話内容テキスト化部、テロップテキスト化部、背景画像テキスト化部、及びロゴマークテキスト化部のうち少なくとも一つは、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するテキスト化学習手段を備えることを特徴とする請求項2に記載の要約作成システム。   At least one of the utterance content text unit, the telop text unit, the background image text unit, and the logo mark text unit is an optimal text creation setting from the input data and output data in the past text processing accumulated The summary creation system according to claim 2, further comprising text learning means for learning 前記ビデオ信号は、テレビ放送局が放送する放送番組から取得することを特徴とする請求項1に記載の要約作成システム。   2. The summary creation system according to claim 1, wherein the video signal is obtained from a broadcast program broadcast by a television broadcasting station. 前記ビデオ信号は、インターネットによって配信される動画映像から取得することを特徴とする請求項1に記載の要約作成システム。   The summary creation system according to claim 1, wherein the video signal is obtained from a moving image distributed via the Internet. コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、
前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、
前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、
前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、
のうち少なくとも2つのテキストを統合して統合テキストを出力するステップと、
前記統合テキストの要約を作成して要約テキストを出力するステップとを備え、
前記テキストを統合するステップには、蓄積された過去のテキスト統合処理の入力データと出力データとから最適なテキスト統合設定を予め学習するステップを含み、
前記要約を作成するステップには、蓄積された過去の要約作成結果の入力データと出力データとから最適な要約設定を予め学習するステップを含む、ことを特徴とする要約作成方法。
Utterance text describing the utterance content of the person in the content extracted from the video signal about the content,
Telop text describing the display content of the telop in the content extracted from the video signal,
Background image text describing at least one description of scenes, situations, articles and events appearing in the video signal;
Logo mark text describing a logo, trademark, symbol, mark including a mark appearing in the video signal,
Integrating at least two of the texts and outputting the integrated text;
Creating a summary of the integrated text and outputting the summary text;
The step of integrating the text includes a step of previously learning an optimal text integration setting from the input data and output data of the past text integration processing accumulated,
The step of creating a summary includes a step of previously learning an optimum summary setting from input data and output data of past summary creation results accumulated.
前記コンテンツについての前記ビデオ信号の音声信号から発話情報を抽出し、前記発話情報から発話内容を認識し、前記発話内容をテキスト化し、発話テキストを出力するステップと、
前記ビデオ信号の映像信号から、テロップを表示するテロップ情報を抽出し、前記テロップ情報からテロップ内容を認識し、前記テロップ内容をテキスト化してテロップテキストを出力するステップと、
前記ビデオ信号の映像信号から、背景画像情報を抽出し、前記背景画像情報から背景画像内容を認識し、前記背景画像内容をテキスト化して背景テキストを出力するステップ、
前記ビデオ信号の映像信号から、ロゴマーク画像情報を抽出し、前記ロゴマーク画像情報からロゴマーク内容を認識し、前記ロゴマーク内容をテキスト化してロゴマークテキストを出力するステップと、
から選択した少なくとも2つのステップを備えることを特徴とする請求項6に記載の要約作成方法。
Extracting utterance information from the audio signal of the video signal for the content, recognizing the utterance content from the utterance information, textifying the utterance content, and outputting the utterance text;
Extracting telop information for displaying a telop from the video signal of the video signal, recognizing the telop content from the telop information, converting the telop content into text and outputting the telop text;
Extracting background image information from the video signal of the video signal, recognizing the background image content from the background image information, converting the background image content into text and outputting the background text;
Extracting logo mark image information from the video signal of the video signal, recognizing the logo mark content from the logo mark image information, converting the logo mark content into text and outputting the logo mark text;
The summary creation method according to claim 6, comprising at least two steps selected from:
発話内容をテキスト化するステップ、前記テロップをテキスト化するステップ、前記背景画像をテキスト化するステップ、及びロゴマークをテキスト化するステップのうち少なくとも一つのステップは、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するステップを備えることを特徴とする請求項6に記載の要約作成方法。   At least one of the steps of converting the utterance contents into text, converting the telop into text, converting the background image into text, and converting the logo mark into text is a process in the accumulated past text processing. The summary creation method according to claim 6, further comprising the step of learning an optimum text creation setting from the input data and the output data. 前記ビデオ信号は、テレビ放送局が放送する放送番組から取得することを特徴とする請求項1に記載の要約作成方法。   2. The summary creation method according to claim 1, wherein the video signal is acquired from a broadcast program broadcast by a television broadcasting station. 前記ビデオ信号は、インターネットによって配信される動画映像から取得することを特徴とする請求項6に記載の要約作成方法。   The summary creation method according to claim 6, wherein the video signal is obtained from a moving image distributed via the Internet.
JP2018048417A 2018-03-15 2018-03-15 Summary creation system and summary creation method Pending JP2019160071A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018048417A JP2019160071A (en) 2018-03-15 2018-03-15 Summary creation system and summary creation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018048417A JP2019160071A (en) 2018-03-15 2018-03-15 Summary creation system and summary creation method

Publications (1)

Publication Number Publication Date
JP2019160071A true JP2019160071A (en) 2019-09-19

Family

ID=67997082

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018048417A Pending JP2019160071A (en) 2018-03-15 2018-03-15 Summary creation system and summary creation method

Country Status (1)

Country Link
JP (1) JP2019160071A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115460433A (en) * 2021-06-08 2022-12-09 京东方科技集团股份有限公司 Video processing method and device, electronic equipment and storage medium
CN117596433A (en) * 2024-01-19 2024-02-23 自然语义(青岛)科技有限公司 International Chinese teaching audiovisual courseware editing system based on time axis fine adjustment

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309427A (en) * 2000-12-12 2005-11-04 Nec Corp Method and device for audio-visual summary creation
US20100005485A1 (en) * 2005-12-19 2010-01-07 Agency For Science, Technology And Research Annotation of video footage and personalised video generation
JP2013097723A (en) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> Text summarization apparatus, method and program
US20150194146A1 (en) * 2014-01-03 2015-07-09 Futurewei Technologies, Inc. Intelligent Conversion of Internet Content
JP2018033048A (en) * 2016-08-25 2018-03-01 Jcc株式会社 Metadata generation system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309427A (en) * 2000-12-12 2005-11-04 Nec Corp Method and device for audio-visual summary creation
US20100005485A1 (en) * 2005-12-19 2010-01-07 Agency For Science, Technology And Research Annotation of video footage and personalised video generation
JP2013097723A (en) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> Text summarization apparatus, method and program
US20150194146A1 (en) * 2014-01-03 2015-07-09 Futurewei Technologies, Inc. Intelligent Conversion of Internet Content
JP2018033048A (en) * 2016-08-25 2018-03-01 Jcc株式会社 Metadata generation system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
佐野 雅規: "情報統合機能を実装したメタデータエディタ", FIT2005 第4回情報科学技術フォーラム 一般講演論文集 第3分冊 画像認識・メディア理解 グラ, JPN6022004915, 22 August 2005 (2005-08-22), pages 69 - 70, ISSN: 0004857640 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115460433A (en) * 2021-06-08 2022-12-09 京东方科技集团股份有限公司 Video processing method and device, electronic equipment and storage medium
CN117596433A (en) * 2024-01-19 2024-02-23 自然语义(青岛)科技有限公司 International Chinese teaching audiovisual courseware editing system based on time axis fine adjustment
CN117596433B (en) * 2024-01-19 2024-04-05 自然语义(青岛)科技有限公司 International Chinese teaching audiovisual courseware editing system based on time axis fine adjustment

Similar Documents

Publication Publication Date Title
CN103559214B (en) Method and device for automatically generating video
CN111541910B (en) Video barrage comment automatic generation method and system based on deep learning
US20190043500A1 (en) Voice based realtime event logging
US20230232078A1 (en) Method and data processing apparatus
TW201117114A (en) System, apparatus and method for message simulation
CN110602516A (en) Information interaction method and device based on live video and electronic equipment
US20240070397A1 (en) Human-computer interaction method, apparatus and system, electronic device and computer medium
US11790271B2 (en) Automated evaluation of acting performance using cloud services
CN110781328A (en) Video generation method, system, device and storage medium based on voice recognition
US9525841B2 (en) Imaging device for associating image data with shooting condition information
CN106777040A (en) A kind of across media microblogging the analysis of public opinion methods based on feeling polarities perception algorithm
CN110691271A (en) News video generation method, system, device and storage medium
CN108091334A (en) Identification device, recognition methods and storage medium
CN113190712A (en) System and method for creating short video based on big data and machine learning algorithm
JP2018033048A (en) Metadata generation system
CN112182297A (en) Training information fusion model, and method and device for generating collection video
CN113392273A (en) Video playing method and device, computer equipment and storage medium
JP2019160071A (en) Summary creation system and summary creation method
CN116311456A (en) Personalized virtual human expression generating method based on multi-mode interaction information
JPWO2015136587A1 (en) Information distribution apparatus, information distribution method and program
CN114598933A (en) Video content processing method, system, terminal and storage medium
Park et al. Multimodal learning model based on video–audio–chat feature fusion for detecting e-sports highlights
Jitaru et al. Lrro: a lip reading data set for the under-resourced romanian language
JP7137815B2 (en) Recording playback system
Salman et al. Style extractor for facial expression recognition in the presence of speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210303

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220204

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220404

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220826