JP7137815B2 - Recording playback system - Google Patents

Recording playback system Download PDF

Info

Publication number
JP7137815B2
JP7137815B2 JP2018080934A JP2018080934A JP7137815B2 JP 7137815 B2 JP7137815 B2 JP 7137815B2 JP 2018080934 A JP2018080934 A JP 2018080934A JP 2018080934 A JP2018080934 A JP 2018080934A JP 7137815 B2 JP7137815 B2 JP 7137815B2
Authority
JP
Japan
Prior art keywords
text
content
unit
telop
background image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018080934A
Other languages
Japanese (ja)
Other versions
JP2019191712A (en
Inventor
孝利 石井
Original Assignee
Jcc株式会社
Jcc株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jcc株式会社, Jcc株式会社 filed Critical Jcc株式会社
Priority to JP2018080934A priority Critical patent/JP7137815B2/en
Publication of JP2019191712A publication Critical patent/JP2019191712A/en
Application granted granted Critical
Publication of JP7137815B2 publication Critical patent/JP7137815B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、録画したコンテンツから所望のコンテンツを選択して再生する録画再生システムに関する。 The present invention relates to a recording/playback system for selecting and playing back desired content from recorded content.

従来、大量に撮りためたコンテンツから所望のコンテンツを選択して再生する技術が知られている。 2. Description of the Related Art Conventionally, there has been known a technique for selecting and playing back desired content from a large amount of captured content.

即ち、このような技術では、コンテンツに含まれる字幕テキスト、放送番組のコーナーごとの放送開始時刻、放送終了時刻、出演者、及び、コーナーの要約等のメタデータを収集し、入力されたキーワードに基づいてメタデータを検索して所望のコンテンツを選択して再生する。このメタデータは、放送番組の終了後に配信する有料サービス(番組メタデータサービスとも称される)のサービス提供者が提供するデータや、ユーザがキーボード等を操作することによって入力する(例えば、特許文献1参照)。 That is, in such a technology, metadata such as caption text included in the content, broadcast start time, broadcast end time for each corner of the broadcast program, performers, and a summary of the corner are collected, and based on the input keyword The desired content is selected and reproduced by retrieving the metadata based on the information. This metadata may be data provided by a service provider of a paid service (also called a program metadata service) delivered after the end of a broadcast program, or input by a user operating a keyboard or the like. 1).

また、本件特許出願人は、映像を録画する録画ファイルを有する録画手段と、前記録画ファイルに録画された映像から文字情報を取得する文字情報取得手段と、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する文字情報文章化手段と、前記文字情報文章化手段によって文章化された前記文字情報を前記録画ファイルに録画された映像のメタデータとしてメタデータ格納ファイルに格納するメタデータ格納手段とを備えるメタデータ生成システムを提案している(特許文献2参照)。 In addition, the applicant of the present patent has a recording means having a recording file for recording video, a character information obtaining means for obtaining character information from the video recorded in the recording file, and the character information obtained by the character information obtaining means. Character information documenting means for aggregating and documenting character information, and storing the character information documented by the character information documenting means in a metadata storage file as metadata of video recorded in the recording file. proposed a metadata generation system including metadata storage means (see Patent Document 2).

特開2010-262413号公報JP 2010-262413 A 特開2018-33048号公報JP-A-2018-33048

これらの技術は、映像に表示されたテキストや音声からの文字情報を照合してメタデータとして生成するものであるが、メタデータの生成の精度及びコンテンツ選択の適正をより向上させ、希望するコンテンツを的確に再生したという要望がある。 These technologies collate the text displayed in the video and character information from the audio to generate metadata. There is a demand for accurately reproducing the

本発明は上述した課題に鑑みてなされたものであり、録画したコンテンツから希望する内容のコンテンツを的確に再生できる録画再生システムを提供することを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to provide a recording/reproducing system capable of accurately reproducing desired contents from recorded contents.

前記課題を解決する請求項1に記載の発明は、映像データからなるコンテンツを録画する録画手段と、録画されたコンテンツの送出元、送出日時、タイトル、出演者、送出予定テキスト、音声及びコンテンツ内容の要約を含むメタデータを作成するメタデータ作成手段と、前記メタデータを格納するメタデータ格納手段とを備え、前記メタデータ作成手段は、前記コンテンツの内容を要約した要約テキストを出力する要約作成手段を備え、前記要約作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備え、指示情報が入力された場合には、前記指示情報を解釈してコンテンツ特定情報を認識する特定情報認識手段と、前記コンテンツ特定情報に基づいて前記メタデータを検索して前記コンテンツの少なくとも一部を特定するコンテンツ特定手段と、特定されたコンテンツの映像データを送出する映像データ送出手段と、を備え、前記特定情報認識手段は、蓄積された過去の特定情報認識処理の入力データと出力データとを教材として最適な特定情報認識処理設定を学習する特定情報認識設定学習手段を備え、前記コンテンツ特定手段は、蓄積された過去のコンテンツ特定結果の入力データと出力データとを教材として最適なコンテンツ特定設定を学習するコンテンツ特定設定学習手段を備え、前記要約作成手段は、前記コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、のうち少なくとも2つのテキストを統合して統合テキストを出力するテキスト統合手段と、前記統合テキストを要約した要約テキストを出力する要約テキスト作成手段と、を備え、前記テキスト統合手段は、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習するテキスト統合設定手段を備え、前記要約テキスト作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備えることを特徴とする録画再生システムである。 The invention according to claim 1 for solving the above-mentioned problem is a video recording means for recording content consisting of video data, a transmission source of the recorded content, transmission date and time, title, performers, scheduled transmission text, voice and content content. and metadata storage means for storing the metadata, wherein the metadata creation means outputs summary text summarizing the contents of the content. said summary creation means comprises summary setting learning means for learning optimum settings for creating a summary by using input data and output data of accumulated past summary creation results as teaching materials; specific information recognition means for interpreting the instruction information to recognize content specific information; content specific means for identifying at least part of the content by searching the metadata based on the content specific information; video data transmission means for transmitting video data of the specified content, wherein the specific information recognition means performs optimal specific information recognition using input data and output data of accumulated past specific information recognition processing as teaching materials. Specific information recognition setting learning means for learning processing settings, wherein the content specifying means learns optimum content specifying settings using input data and output data of accumulated past content specifying results as teaching materials. wherein the summary creation means is composed of speech text describing human utterances in the content extracted from a video signal of the content, and telop text describing display content of telops in the content extracted from the video signal. , a background image text describing at least one description of scenes, situations, articles, and events appearing in the video signal; logo mark text describing marks including logo marks, trademarks, symbols, and symbols appearing in the video signal; text integration means for integrating at least two texts from among and outputting an integrated text; text integration setting means for learning optimum text integration settings by using the input data and output data of the text integration process as teaching materials; and as teaching materials to learn the optimal summarization settings. The video recording/playback system is characterized by comprising summary setting learning means for learning .

本発明によれば、要約作成手段は、コンテンツの内容を要約して要約テキストを出力する。ここで要約作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備え、最適な要約作製設定を学習している。このため、当該コンテンツの場面やシチュエーションに最適な要約作成状態とされている。よって、最適な要約テキストを作成することができる。According to the present invention, the summary creation means summarizes the content and outputs the summary text. Here, the summarization means has summarization setting learning means for learning optimal summarization settings by using input data and output data of accumulated past summarization results as teaching materials, and learns the optimal summarization settings. . For this reason, the optimal summary creation state is set for the scenes and situations of the content. Therefore, an optimal summary text can be created.

同じく請求項1に記載の発明は、特定情報認識手段は、蓄積された過去の特定情報認識処理の入力データと出力データとを教材として最適な特定情報認識処理設定を学習する特定情報認識設定学習手段を備える。According to the first aspect of the present invention, the specific information recognition means learns the optimum specific information recognition processing settings using input data and output data of past specific information recognition processing stored as teaching materials. Have the means.

本発明によれば、特定情報認識手段は、特定情報認識手段設定学習手段により、蓄積された過去の特定情報認識処理における入力データと出力データとを教材として最適な特定情報認識設定を学習する。このため、最も適した特定情報を認識することができる。よって、入力された指示情報から最適な特定情報が認識される。According to the present invention, the specific information recognition means learns the optimum specific information recognition setting by using the input data and the output data accumulated in the past specific information recognition processing by the specific information recognition means setting learning means. Therefore, the most suitable specific information can be recognized. Therefore, the optimum specific information is recognized from the input instruction information.

請求項1に記載の録画再生システムにおいて、前記コンテンツ特定手段は、蓄積された過去のコンテンツ特定結果の入力データと出力データとを教材として最適なコンテンツ特定設定を学習するコンテンツ特定設定学習手段を備える。2. The recording/playback system according to claim 1, wherein said content identification means comprises content specific setting learning means for learning optimum content specific settings using input data and output data of accumulated past content identification results as teaching materials. .

本発明によれば、コンテンツ特定手段は、コンテンツ特定設定学習手段により、蓄積された過去のコンテンツ特定結果の入力データと出力データとを教材として最適なコンテンツ特定設定を学習する。このため、最も適したコンテンツを特定することができる。よって、入力された指示情報から最適なコンテンツが選択される。According to the present invention, the content specifying means learns the optimum content specifying settings by using the input data and the output data of the accumulated past content specifying results by the content specifying setting learning means as teaching materials. Therefore, the most suitable content can be identified. Therefore, the optimum content is selected from the input instruction information.

請求項1に記載の録画再生システムにおいて、前記要約作成手段は、前記コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、のうち少なくとも2つのテキストを統合して統合テキストを出力するテキスト統合手段と、前記統合テキストを要約した要約テキストを出力する要約テキスト作成手段と、を備え、前記テキスト統合手段は、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習するテキスト統合設定手段を備え、前記要約テキスト作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備える。2. The recording/reproducing system according to claim 1, wherein said summary creation means includes a speech text describing human utterances in said content extracted from a video signal of said content, and a telop in said content extracted from said video signal. telop text describing display content, background image text describing at least one of scenes, situations, goods, and events appearing in the video signal, and marks including logo marks, trademarks, symbols, and symbols appearing in the video signal. and text integration means for outputting an integrated text by integrating at least two texts of the logo mark text describing the text integration; The means comprises text integration setting means for learning optimal text integration settings using accumulated past input data and output data of text integration processing as teaching materials, and said summary text creation means is adapted to create summaries of the accumulated past text integration settings. A summary setting learning means is provided for learning optimum settings for creating a summary using the resulting input data and output data as teaching materials.

本発明によれば、録画再生システムにおいて、テキスト統合手段は、前記要約作成手段、コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、のうち少なくとも2つのテキストを統合する。According to the present invention, in the video recording/playback system, the text integration means includes: the summarization means; the utterance text describing the content uttered by a person in the content extracted from the video signal of the content; and the content extracted from the video signal. telop text describing the display content of the telop in the video signal, background image text describing at least one of scenes, situations, goods, and events appearing in the video signal, logo marks, trademarks, symbols, and codes appearing in the video signal Integrate at least two of the logomark texts that describe the mark containing the

そして、テキスト統合手段は、テキスト統合設定手段を備えるから、テキスト統合設定手段は、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習する。Since the text integration means includes the text integration setting means, the text integration setting means learns the optimum text integration settings using the input data and output data of the past text integration processing that have been accumulated as teaching materials.

よって、テキスト統合手段は、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキストを最適な状態で生成し、各テキストの統合を行うことができる。Therefore, the text integration means can generate the speech text, the telop text, the background image text, and the logo mark text in an optimal state, and integrate each text.

また、請求項2に記載の発明は、請求項1に記載の録画再生システムにおいて、前記コンテンツについての前記ビデオ信号の音声信号から発話情報を抽出する手段、前記発話情報から前記発話内容を認識する手段、及び、前記発話内容をテキスト化して発話テキストを出力する手段を備えた発話テキスト化部と、前記ビデオ信号の映像信号から、テロップを表示するテロップ情報を抽出する手段、前記テロップ情報からテロップ内容を認識する手段、及び、前記テロップ内容をテキスト化してテロップテキストを出力する手段、を備えたテロップテキスト化部と、前記ビデオ信号の映像信号から、背景画像情報を抽出する手段、前記背景画像情報から背景画像内容を認識する手段、及び前記背景画像内容をテキスト化して背景テキストを出力する手段、を備えた背景画像テキスト化部と、前記ビデオ信号の映像信号から、ロゴマーク画像情報を抽出する手段、前記ロゴマーク画像情報からロゴマーク内容を認識する手段、及び前記ロゴマーク内容をテキスト化してロゴマークテキストを出力する手段を備えるロゴマークテキスト化部と、から選択した少なくとも2つのテキスト化部を備え、前記発話テキスト化部、テロップテキスト化部、背景画像テキスト化部、及びロゴマークテキスト化部のうち少なくとも一つは、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するテキスト化学習手段を備えることを特徴とする。According to a second aspect of the present invention, there is provided, in the recording/reproducing system of the first aspect, means for extracting speech information from an audio signal of the video signal of the content, and recognizing the content of the speech from the speech information. an utterance-to-text conversion unit comprising means for converting the content of the utterance into text and outputting the utterance text; means for extracting telop information for displaying a telop from the video signal of the video signal; and a telop from the telop information. A telop text conversion unit comprising: means for recognizing content; and means for converting the content of the telop into text and outputting the telop text; means for extracting background image information from the video signal of the video signal; A background image text converting unit comprising means for recognizing background image content from information and means for converting the background image content into text and outputting the background text, and extracting logo mark image information from the video signal of the video signal. means for recognizing the contents of the logo mark from the logo mark image information; and means for converting the contents of the logo mark into text and outputting the logo mark text. at least one of the utterance text conversion unit, the telop text conversion unit, the background image text conversion unit, and the logo mark text conversion unit is optimized from input data and output data accumulated in past text conversion processing. text conversion learning means for learning text creation settings.

本発明によれば、発話内容テキスト化部では、ビデオ信号の音声信号から発話情報が抽出され発話内容が認識され発話テキストが生成される。また、テロップテキスト化部ではビデオ信号の映像信号からテロップ情報が抽出され、テロップの表示内容が認識され、テロップテキスト生成される。また、背景画像テキスト化部ではビデオ信号の映像信号から背景画像情報が抽出され、背景画像の内容が認識され、背景テキストが生成される。また、ロゴマークテキスト化部ではビデオ信号の映像信号からロゴマークテキスト情報が認識されロゴマークテキストが生成される。According to the present invention, the utterance content text conversion unit extracts utterance information from the audio signal of the video signal, recognizes the utterance content, and generates the utterance text. In addition, the telop text conversion unit extracts telop information from the video signal of the video signal, recognizes the display contents of the telop, and generates telop text. The background image text conversion unit extracts background image information from the video signal of the video signal, recognizes the content of the background image, and generates background text. Further, in the logo mark text conversion unit, logo mark text information is recognized from the video signal of the video signal to generate the logo mark text.

よって、発話情報、テロップ情報、背景画像情報、及びロゴマーク情報からそれぞれテキストが生成され、コンテンツのビデオ信号から多様な情報をもとにテキストが生成され、コンテンツの場面やシチュエーションに最適な要約を作成できる。Therefore, text is generated from speech information, telop information, background image information, and logo mark information, respectively, and text is generated based on various information from the video signal of the content, and the optimal summary for the scene and situation of the content is generated. can be created.

また、本発明によれば、各テキスト化部は、テキスト化学習手段により蓄積された過去のテキスト化処理の入力データと出力データに基づいて学習を行う。Further, according to the present invention, each text conversion unit learns based on the input data and output data of the past text conversion processing accumulated by the text conversion learning means.

よって、過去に実行された多数の要約作成から最適なテキスト化作成の設定を学習し、でき、設定に同様のコンテンツの場面やシチュエーションに最適な要約を作成できる。Therefore, it is possible to learn optimal settings for creating text from a large number of summaries created in the past, and to create optimal summaries for scenes and situations of content similar to the settings.

また、請求項3に記載の発明は、請求項1に記載の録画再生システムにおいて、前記コンテンツは、テレビ放送局が放送する放送番組、又は、インターネットによって配信される動画映像から取得することを特徴とする。Further, according to the invention of claim 3, in the recording/playback system of claim 1, the content is acquired from a broadcast program broadcast by a television broadcasting station or a video image distributed over the Internet. and
よって、録画再生システムは多様なコンテンツを対象として録画再生をすることができる。Therefore, the recording/reproducing system can record/reproduce various contents.

更に、請求項4に記載の発明は、請求項1に記載の録画再生システムにおいて、前記録画手段、前記メタデータ作成手段、前記メタデータ格納手段、特定情報認識手段、前記コンテンツ特定手段、及び前記映像データ送出手段は、一つの箇所に配置されていることを特徴する。Further, according to a fourth aspect of the present invention, in the recording/playback system of the first aspect, the recording means, the metadata creating means, the metadata storing means, the specific information recognition means, the content specifying means, and the The image data sending means is characterized by being arranged at one place.

本発明によれば、すべての手段は一箇所に配置されているから、例えば自宅で独立して録画再生システムを構築でき、使用者の音声やテキストによる指示で録画されたコンテンツから最も適切なコンテンツのビデオ信号が再生される。According to the present invention, since all the means are arranged in one place, for example, a recording/playback system can be constructed independently at home, and the most appropriate content can be selected from the recorded content according to the voice or text instructions of the user. video signal is played.

また、請求項5に記載の発明は、請求項1に記載の録画再生システムにおいて、少なくとも前記メタデータ作成手段は、前記録画手段と異なる箇所に配置され、インターネットで接続されていることを特徴とする。Further, the invention according to claim 5 is the recording/playback system according to claim 1, wherein at least the metadata creating means is arranged in a different location from the recording means and is connected to the Internet. do.

本発明によれば、最も処理能力を必要とするメタデータ生成手段を外部のサーバ装置におき、これに自宅からインターネットで接続して処理を行うことができ、録画再生システムを手軽に構築できる。According to the present invention, the metadata generating means that requires the most processing power is installed in an external server device, and processing can be performed by connecting to the server device from home via the Internet, and a recording/playback system can be easily constructed.

本発明に係る録画再生システムによれば、録画したコンテンツから希望する内容のコンテンツを的確に再生できる。According to the recording/reproducing system of the present invention, it is possible to accurately reproduce desired contents from recorded contents.

即ち、請求項1に記載の録画再生システムによれば、要約作成手段は、コンテンツの内容を要約して要約テキストを出力する。ここで要約作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備え、最適な要約作製設定を学習している。このため、当該コンテンツの場面やシチュエーションに最適な要約作成状態とされている。よって、最適な要約テキストを作成することができる。That is, according to the recording/reproducing system of claim 1, the summary creation means summarizes the details of the content and outputs the summary text. Here, the summarization means has summarization setting learning means for learning optimal summarization settings by using input data and output data of accumulated past summarization results as teaching materials, and learns the optimal summarization settings. . For this reason, the optimal summary creation state is set for the scenes and situations of the content. Therefore, an optimal summary text can be created.

よって、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキストを統合した、コンテンツの場面やシチュエーションに最適な要約テキストを作成することができる。Therefore, it is possible to create a summary text that is optimal for the scene or situation of the content by integrating the spoken text, the telop text, the background image text, and the logo mark text.

また、請求項1に記載の録画再生システムによれば、特定情報認識手段は、特定情報認識手段設定学習手段により、蓄積された過去の特定情報認識処理における入力データと出力データとを教材として最適な特定情報認識設定を学習する。このため、最も適した特定情報を認識することができる。よって、入力された指示情報から最適な特定情報が認識される。Further, according to the recording/reproducing system of claim 1, the specific information recognition means optimizes the input data and output data accumulated in the past specific information recognition processing as teaching materials by the specific information recognition means setting learning means. specific information recognition settings. Therefore, the most suitable specific information can be recognized. Therefore, the optimum specific information is recognized from the input instruction information.

また、請求項1に記載の録画再生システムによれば、コンテンツ特定手段は、コンテンツ特定設定学習手段により、蓄積された過去のコンテンツ特定結果の入力データと出力データとを教材として最適なコンテンツ特定設定を学習する。このため、最も適したコンテンツを特定することができる。よって、入力された指示情報から最適なコンテンツが選択される。Further, according to the recording/reproducing system of claim 1, the content specifying means uses the input data and output data of the accumulated past content specifying results as teaching materials by the content specifying setting learning means to obtain optimum content specifying settings. to learn. Therefore, the most suitable content can be identified. Therefore, the optimum content is selected from the input instruction information.

また、請求項1に記載の録画再生システムによれば、録画再生システムにおいて、テキスト統合手段は、前記要約作成手段、コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、のうち少なくとも2つのテキストを統合する。Further, according to the video recording/playback system of claim 1, in the video recording/playback system, the text integration means includes the summary creation means, the utterance text describing the content uttered by the person in the content extracted from the video signal of the content. , a telop text describing display contents of a telop in the content extracted from the video signal, a background image text describing at least one of scenes, situations, articles, and events appearing in the video signal; At least two texts of a logomark, a trademark, a symbol, a logomark text describing a mark containing a code appearing are integrated.

ここでテキスト統合手段は、テキスト統合設定手段を備える。テキスト統合設定手段は、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習する。Here, the text integration means comprises text integration setting means. The text integration setting means learns the optimum text integration setting using the accumulated input data and output data of past text integration processing as teaching materials.

よって、テキスト統合手段は、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキストを最適な状態で生成し、各テキストの統合を行うことができる。Therefore, the text integration means can generate the speech text, the telop text, the background image text, and the logo mark text in an optimal state, and integrate each text.

また、請求項2に記載の録画再生システムによれば、発話内容テキスト化部では、ビデオ信号の音声信号から発話情報が抽出され発話内容が認識され発話テキストが生成される。また、テロップテキスト化部ではビデオ信号の映像信号からテロップ情報が抽出され、テロップの表示内容が認識され、テロップテキスト生成される。また、背景画像テキスト化部ではビデオ信号の映像信号から背景画像情報が抽出され、背景画像の内容が認識され、背景テキストが生成される。また、ロゴマークテキスト化部ではビデオ信号の映像信号からロゴマークテキスト情報が認識されロゴマークテキストが生成される。Further, according to the recording/playback system of claim 2, the speech content text conversion unit extracts speech information from the audio signal of the video signal, recognizes the speech content, and generates the speech text. In addition, the telop text conversion unit extracts telop information from the video signal of the video signal, recognizes the display contents of the telop, and generates telop text. The background image text conversion unit extracts background image information from the video signal of the video signal, recognizes the content of the background image, and generates background text. Further, in the logo mark text conversion unit, logo mark text information is recognized from the video signal of the video signal to generate the logo mark text.

よって、発話情報、テロップ情報、背景画像情報、及びロゴマーク情報からそれぞれテキストが生成され、コンテンツのビデオ信号から多様な情報をもとにテキストが生成され、コンテンツの場面やシチュエーションに最適な要約を作成できる。Therefore, text is generated from speech information, telop information, background image information, and logo mark information, respectively, and text is generated based on various information from the video signal of the content, and the optimal summary for the scene and situation of the content is generated. can be created.

また、本発明によれば、各テキスト化部は、テキスト化学習手段により蓄積された過去のテキスト化処理の入力データと出力データに基づいて学習を行う。Further, according to the present invention, each text conversion unit learns based on the input data and output data of the past text conversion processing accumulated by the text conversion learning means.

よって、過去に実行された多数の要約作成から最適なテキスト化作成の設定を学習し、でき、設定に同様のコンテンツの場面やシチュエーションに最適な要約を作成できる。Therefore, it is possible to learn optimal settings for creating text from a large number of summaries created in the past, and to create optimal summaries for scenes and situations of content similar to the settings.

また、請求項3に記載の録画再生システムによれば、テレビ放送局が放送する放送番組、又は、インターネットによって配信される動画映像から取得することができる。よって、録画再生システムは多様なコンテンツを対象として録画再生をすることができる。Further, according to the recording/reproducing system of claim 3, it is possible to acquire from a broadcast program broadcast by a television broadcasting station or from a video image distributed over the Internet. Therefore, the recording/reproducing system can record/reproduce various contents.

また、請求項4に記載の録画再生システムによれば、すべての手段は一箇所に配置されているから、例えば自宅で独立して録画再生システムを構築でき、使用者の音声やテキストによる指示で録画されたコンテンツから最も適切なコンテンツのビデオ信号が再生される。Further, according to the recording/reproducing system of claim 4, since all the means are arranged in one place, for example, the recording/reproducing system can be constructed independently at home, and the user can instruct by voice or text. A video signal of the most suitable content is reproduced from the recorded content.

更に、請求項5に記載の録画再生システムによれば、最も処理能力を必要とするメタデータ生成手段を外部のサーバ装置におき、これに自宅からインターネットで接続して処理を行うことができ、録画再生システムを手軽に構築できる。Furthermore, according to the recording/playback system of claim 5, the metadata generation means that requires the most processing power is placed in an external server device, and processing can be performed by connecting to this from home via the Internet, You can easily build a recording and playback system.

本発明の実施形態に係る録画再生システムの全体構成を示すブロック図である。1 is a block diagram showing the overall configuration of a recording/playback system according to an embodiment of the present invention; FIG. 同録画再生システムの動作を示すフローチャートである。It is a flowchart which shows operation|movement of the same recording reproduction system. 同録画再生システムにおけるメタデータ作成部の要約作成システムを示すブロック図である。FIG. 4 is a block diagram showing a summary creating system of a metadata creating unit in the recording/playback system; 同要約作成システムの発話テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。FIG. 2 shows an utterance-to-text part of the summary creation system, where (a) is a block diagram and (b) is a diagram showing the flow of processing. 同要約作成システムのテロップテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。FIG. 2 shows a telop-text conversion unit of the summary creation system, where (a) is a block diagram and (b) is a diagram showing the flow of processing. 同要約作成システムの背景画像テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。FIG. 2 shows a background image text conversion unit of the abstract creation system, where (a) is a block diagram and (b) is a diagram showing the flow of processing. 同要約作成システムのロゴマークテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。FIG. 2 shows a logo mark text conversion unit of the abstract creation system, where (a) is a block diagram and (b) is a diagram showing the flow of processing. 同要約作成システムのテキスト統合部を示すブロック図である。It is a block diagram which shows the text integration part of the same summary creation system. 同要約作成システムの要約作成部を示すブロック図である。It is a block diagram which shows the summary preparation part of the same summary preparation system. 同要約作成システムの処理手順を示すフローチャートである。It is a flowchart which shows the processing procedure of the same abstract creation system. 同要約作成システムの処理例を示す図である。It is a figure which shows the example of a process of the same abstract creation system.

[第1実施形態]
本発明を実施するための形態に係る録画再生システムについて説明する。まず第1実施形態に係る録画再生システムの全体構成について説明する。図1は本発明の実施形態に係る要約作成システムの全体構成を示すブロック図である。
[First Embodiment]
A recording/playback system according to an embodiment of the present invention will be described. First, the overall configuration of the recording/playback system according to the first embodiment will be described. FIG. 1 is a block diagram showing the overall configuration of a summary creation system according to an embodiment of the present invention.

<録画再生システム900の全体構成>
本実施形態に係る録画再生システム900は、図1に示すように、映像データ取得部910、メタデータ作成手段であるメタデータ作成部920、メタデータ格納手段であるメタデータ格納部930、録画手段である録画部940、映像データ送出手段である映像データ送出部950を備える。また、録画再生システム900は、使用者入力手段960、特定情報認識手段である特定情報認識部970、メタデータ検索部980、コンテンツ特定手段であるコンテンツ特定部990を備える。
<Overall Configuration of Recording/Playback System 900>
As shown in FIG. 1, the recording/playback system 900 according to the present embodiment includes a video data acquisition unit 910, a metadata creation unit 920 as metadata creation means, a metadata storage unit 930 as metadata storage means, and a recording means. and a video data sending unit 950 serving as video data sending means. The recording/playback system 900 also includes user input means 960, a specific information recognition section 970 as specific information recognition means, a metadata search section 980, and a content identification section 990 as content identification means.

映像データ取得部910は、テレビ放送局30又はインターネット40から送出されるコンテンツの映像データを取得する。映像データ取得部910は、例えば複数のテレビ局からの映像データを取得するマルチチューナーや、インターネットを介して送出されるネット動画を取得するウェブブラウザにより実現される。 The video data acquisition unit 910 acquires video data of content transmitted from the television broadcasting station 30 or the Internet 40 . The video data acquisition unit 910 is realized, for example, by a multi-tuner that acquires video data from a plurality of television stations, or a web browser that acquires net moving images transmitted via the Internet.

メタデータ作成部920は、メタデータを作成する。このメタデータは、放送番組のコーナーごとの放送開始時刻データ、放送終了時刻データ、放送番組の終了後に有料サービスから取得されるテキストデータ、ユーザがキーボード等を操作することによって入力するテキストデータ、メタデータ作成部920に内蔵された要約作製システム10で生成される各種のテキストデータ、これらを要約した要約テキストデータ、メタデータ作成部920が外部から取得したデータを含む。 The metadata creating unit 920 creates metadata. This metadata includes broadcast start time data, broadcast end time data, text data obtained from a pay service after the end of the broadcast program, text data entered by the user by operating a keyboard or the like, and metadata. It includes various text data generated by the summary creation system 10 incorporated in the data generation unit 920, abstract text data summarizing these data, and data externally acquired by the metadata generation unit 920. FIG.

要約作製システム10は、コンテンツにおける人の発話内容、コンテンツにおけるテロップの表示内容、場面、状況、物品、及び事象のうち少なくとも一つの説明、ロゴマーク、商標、記号、符号を含むマークについての説明のうち少なくとも2つを統合して要約した要約テキストを出力する。 The summary creation system 10 includes a description of at least one of the content uttered by a person in the content, the display content of the telop in the content, the scene, the situation, the article, and the event, and the description of the mark including the logo mark, trademark, symbol, and code. At least two of them are integrated to output a summarized text.

メタデータ格納部930はメタデータ作成部920が生成したメタデータを格納する。このメタデータはコンテンツに関連付けられている。 The metadata storage section 930 stores metadata generated by the metadata creation section 920 . This metadata is associated with the content.

録画部940は、同時に取得される複数のコンテンツを録画でき、例えばマルチチャンネルビデオレコーダで構成される。複数コンテンツの画像データはハードディスクドライブに格納される。各コンテンツには上述したメタデータがタグとして格納されている。 The recording unit 940 can record a plurality of contents acquired at the same time, and is composed of, for example, a multi-channel video recorder. Image data of multiple contents are stored in the hard disk drive. Each content stores the metadata described above as a tag.

映像データ送出部950は、指定されたコンテンツの映像データを映像音声再生部50に送出して、映像と音声を出力する。映像音声再生部50は例えば液晶表示装置及びスピーカ又はテレビジョン装置で構成される。 The video data sending unit 950 sends the video data of the designated content to the video/audio reproducing unit 50 to output video and audio. The video/audio reproducing unit 50 is composed of, for example, a liquid crystal display device and a speaker or a television device.

使用者入力手段960は、使用者が再生を希望するコンテンツを指定するため、放送日時、放送局、キーワード、その他のデータを入力する機器で構成される。使用者入力手段960は、例えば、マイク、キーボード、マウス、ジョイスティックにより実現される。マイクからは音声が入力され、キーボードからはテキストが入力される。マウスやジョイスティックは、映像音声再生部50に表示される画像から所定の位置を選択することで情報が入力される。 The user input means 960 is composed of a device for inputting broadcast date and time, broadcast station, keywords, and other data in order for the user to specify the content that the user desires to reproduce. User input means 960 are implemented by, for example, a microphone, keyboard, mouse, and joystick. Voice is input from the microphone and text is input from the keyboard. Information is input by selecting a predetermined position from the image displayed on the video/audio reproducing unit 50 with the mouse or joystick.

特定情報認識部970は、使用者入力手段960からの指示情報を解釈してコンテンツを特定するための情報であるコンテンツ特定情報を認識して出力する。特定情報認識部970により、放送日時、放送局、キーワード、その他のデータからコンテンツを特定する情報を認識する。羅列された単語等の情報からコンテンツを特定するために最も適切な情報を生成する。 The specific information recognition unit 970 interprets instruction information from the user input means 960 to recognize and output content specific information that is information for specifying content. A specific information recognition unit 970 recognizes information for specifying content from broadcast date/time, broadcasting station, keywords, and other data. To generate the most appropriate information for specifying contents from information such as listed words.

指定情報は音声の場合、話し言葉で入力されることが多い。特定情報認識部970はこの話し言葉を解釈してコンテンツを特定する最適な特定情報を出力する。例えば「先月の○○テニス大会での××選手を見たい」と入力されたとする。特定情報認識部970はこの発話を含む音声情報から発話情報を抽出し、更に言語解釈をする。これにより特定情報として「●月」「○○テニス大会」、「××選手」等を抽出する。なお、テキスト入力された場合はこの処理を行わないことができる。 In the case of voice, the specified information is often input in spoken language. The specific information recognition unit 970 interprets this spoken language and outputs the optimum specific information that identifies the content. For example, it is assumed that "I want to see XX player in XX tennis tournament last month" is input. The specific information recognition unit 970 extracts utterance information from the voice information including this utterance, and further interprets the language. As a result, "month", "○○ tennis tournament", "XX player", etc. are extracted as specific information. Note that this process may not be performed when text is input.

この抽出の精度を向上させるため本実施形態に係る録画再生システム900にあっては特定情報認識部970に、特定情報認識設定学習手段として学習部971を設けている。 In order to improve the accuracy of this extraction, in the recording/playback system 900 according to this embodiment, the specific information recognition section 970 is provided with a learning section 971 as specific information recognition setting learning means.

学習部971は、蓄積された過去の特定情報認識のための入力データと、認識結果である出力データとを教材として最適な特定情報認識のための設定を学習する。学習は、データ処理をAI(人工知能:Artificial Intelligence)により高速かつ適切に処理する。AI処理は、上述した機械学習(ML:Machine Learning)により実現できる。更に、機械学習として、既存データを正解とする教師有り学習が採用できる。また、機械学習としてディープラーニング(深層学習:DL:Deep Learning)により行うと効果的である。 The learning unit 971 learns optimal settings for recognizing specific information using accumulated past input data for specific information recognition and output data as recognition results as teaching materials. In learning, data processing is processed quickly and appropriately by AI (Artificial Intelligence). AI processing can be realized by the above-described machine learning (ML). Furthermore, as machine learning, supervised learning can be employed in which existing data is the correct answer. Moreover, it is effective to use deep learning (DL: Deep Learning) as machine learning.

メタデータ検索部980は、特定情報認識部970の特定した情報に基づいて、メタデータ格納部930を参照してメタデータを検索する。検索されたメタデータはコンテンツ特定部990に送出される。 The metadata search unit 980 refers to the metadata storage unit 930 and searches for metadata based on the information specified by the specific information recognition unit 970 . The retrieved metadata is sent to the content specifying section 990 .

コンテンツ特定部990はメタデータ検索部980が検索したメタデータで特定される多数のコンテンツから所定のコンテンツを特定する。 The content identification unit 990 identifies predetermined content from a large number of contents identified by the metadata searched by the metadata search unit 980 .

コンテンツ特定部990は、多数のコンテンツを特定することがある。例えば「●月」「○○テニス大会」、「××選手」をメタデータに持つコンテンツは、生中継、ニュース、その他の番組と多岐にわたる。 The content identifier 990 may identify multiple pieces of content. For example, content having metadata such as "month", "○○ tennis tournament", and "XX player" is a wide variety of programs such as live broadcasts, news, and other programs.

コンテンツ特定部990は選定された多数のコンテンツから指定者(使用者)の関心が高いコンテンツを選定するものである。この選定基準は選定者により異なる。このためコンテンツ特定部990は選定者の傾向を学習するためコンテンツ特定設定学習手段として学習部991を備える。 The content specifying unit 990 selects content of which the designator (user) has a high interest from a large number of selected contents. This selection criterion varies depending on the selector. For this reason, the content specifying unit 990 includes a learning unit 991 as content specifying setting learning means for learning the tendency of the selector.

学習部991は、蓄積された過去のコンテンツ特定のための入力データと、認識結果である出力データとを教材として最適な特定情報認識のための設定を学習する。学習は、データ処理をAI(人工知能:Artificial Intelligence)により高速かつ適切に処理する。AI処理は、上述した機械学習(ML:Machine Learning)により実現できる。更に、機械学習として、既存データを正解とする教師有り学習が採用できる。また、機械学習としてディープラーニング(深層学習:DL:Deep Learning)により行うと効果的である。 The learning unit 991 learns settings for optimum specific information recognition using accumulated past input data for content specification and output data as recognition results as teaching materials. In learning, data processing is processed quickly and appropriately by AI (Artificial Intelligence). AI processing can be realized by the above-described machine learning (ML). Furthermore, as machine learning, supervised learning can be employed in which existing data is the correct answer. Moreover, it is effective to use deep learning (DL: Deep Learning) as machine learning.

上記の場合例えば、指定者が恒に特定のニュース番組を選定していると判定した場合は、△△局の××時のニュースで「○○テニス大会における××選手の試合結果」を紹介するコーナーを選定する。選択したコンテンツが複数の場合、再生するコンテンツの候補を表示して音声やキーボード、マウス等で指定する構成にすることができる。 In the above case, for example, if it is determined that the designated person constantly selects a specific news program, the XX news of the XX station will introduce "the result of the XX player's match at the XX tennis tournament". Select a corner to do. When a plurality of contents are selected, it is possible to display candidates of contents to be played back and designate them by voice, keyboard, mouse, or the like.

そして、コンテンツ特定部990で選択されたコンテンツが録画部940から映像データ送出部950を経て映像音声再生部50に出力され、映像音声再生部50から所望の映像及び音声が出力される。 Then, the content selected by the content specifying unit 990 is output from the recording unit 940 to the video/audio reproducing unit 50 via the video data transmitting unit 950, and the desired video and audio are output from the audio/video reproducing unit 50.

次に録画再生システム900の処理の流れについて説明する。図2は同録画再生システムの動作を示すフローチャートである。 Next, the processing flow of the recording/playback system 900 will be described. FIG. 2 is a flow chart showing the operation of the recording/playback system.

本実施形態に係る録画再生システム900では、まず各部、即ち、要約作製システム10、特定情報認識部970、コンテンツ特定部990において学習が行われる(ステップS1)。この学習は録画再生システム900の運用中にも行うことができる。 In the recording/playback system 900 according to the present embodiment, learning is first performed in each unit, that is, the summary creation system 10, the specific information recognition unit 970, and the content identification unit 990 (step S1). This learning can also be performed while the recording/playback system 900 is in operation.

録画再生システム900では、各部の学習と並行して、映像データ取得部910から取得した映像データが録画部940によって録画されていく(ステップS2)。そして、直ちにメタデータ作成部920がこの映像データから要約作製システム10による要約テキストやその他のテキストを取得してこれらをメタデータとしてメタデータ格納部930に格納する(ステップS3)。コンテンツの録画とメタデータの格納は、停止指示があるまで続行される。 In the recording/playback system 900, in parallel with the learning of each unit, the video data acquired from the video data acquisition unit 910 is recorded by the recording unit 940 (step S2). Then, the metadata creating section 920 immediately acquires the summary text by the summary creating system 10 and other texts from the video data and stores them as metadata in the metadata storage section 930 (step S3). Content recording and metadata storage continue until instructed to stop.

この状態で、使用者が録画された多数のコンテンツから所望のコンテンツ又はコンテンツの部分を再生できる状態となる。例えば、使用者が音声で入力する(ステップS4)と、使用者入力手段960から入力された音声は、特定情報認識部970で認識され(ステップS5)、コンテンツを特定する特定情報指定が出力される。すると、メタデータ検索部980は、メタデータ格納部930を参照して、1又は複数のコンテンツ及びコンテンツの部分、例えばニュースやワイドショーのコーナーを候補として選択する。 In this state, the user can reproduce the desired content or portion of the content from a large number of recorded contents. For example, when the user inputs by voice (step S4), the voice input from the user input means 960 is recognized by the specific information recognition unit 970 (step S5), and the specific information designation for specifying the content is output. be. Then, the metadata search unit 980 refers to the metadata storage unit 930 and selects one or a plurality of contents and content parts, such as news and wide show corners, as candidates.

コンテンツ特定部990はこのコンテンツの候補から最適なコンテンツを特定し(ステップS7)、録画部940から映像データ送出部950に送出させ、映像音声再生部50で再生する(ステップS8)。終了の指示がなければ(ステップS9のNo)必要に応じてステップS4からステップS8を繰り返す。再生終了の指示があった場合(ステップS9のYes)、再生を終了する。 The content specifying unit 990 specifies the optimum content from the content candidates (step S7), and causes the video data transmitting unit 950 to transmit the content from the recording unit 940 to be reproduced by the video/audio reproducing unit 50 (step S8). If there is no instruction to end (No in step S9), steps S4 to S8 are repeated as necessary. If there is an instruction to end the reproduction (Yes in step S9), the reproduction ends.

以上のように、録画再生システム900によれば、録画したコンテンツから使用者が希望する内容のコンテンツを迅速かつ的確に再生できる。 As described above, according to the recording/playback system 900, it is possible to quickly and accurately play back the content desired by the user from the recorded content.

なお、録画再生システム900の映像データ取得部910、メタデータ作成部920、メタデータ格納部930、録画部940、使用者入力手段960、特定情報認識部970、メタデータ検索部980及びコンテンツ特定部990を一台の装置として一箇所(例えば使用者の自宅)に配置することができる。即ち、録画再生システム900を、例えばマルチチャンネルのデジタルレコーダとして構成することができる。これにより、録画再生システム900を自宅で独立して使用でき、使用者の音声やテキストによる指示で録画されたコンテンツから最も適切なコンテンツのビデオ信号が再生することができる。 The video data acquisition unit 910, the metadata creation unit 920, the metadata storage unit 930, the recording unit 940, the user input means 960, the specific information recognition unit 970, the metadata search unit 980, and the content identification unit of the recording/playback system 900 990 can be located at one location (eg, the user's home) as a single device. That is, the recording/playback system 900 can be configured as, for example, a multi-channel digital recorder. As a result, the recording/playback system 900 can be used independently at home, and the video signal of the most appropriate content can be played back from the recorded content according to the user's voice or text instructions.

また、録画再生システム900のうち、映像データ取得部910、使用者入力手段960、録画部940、映像データ送出部950を一台の装置として一箇所(使用者の自宅)に配置し、その他の部分、即ちメタデータ作成部920、メタデータ格納部930、特定情報認識部970、メタデータ検索部980、コンテンツ特定部990を他の箇所例えばサービス提供会社に配置しインターネットで接続することができる。最も処理能力を必要とするメタデータ生成手段を外部(クラウド)におき、これに自宅からインターネットで接続して処理を行うことができ、録画再生システムを手軽に構築できる。 Further, in the recording/playback system 900, the video data acquisition unit 910, the user input means 960, the recording unit 940, and the video data transmission unit 950 are arranged as one device in one place (user's home), and the other The parts, that is, the metadata creating section 920, the metadata storing section 930, the specific information recognizing section 970, the metadata searching section 980, and the content identifying section 990, can be arranged at other locations, such as a service provider company, and connected via the Internet. The metadata generation means that requires the most processing power is placed outside (in the cloud), and processing can be performed by connecting to it from home via the Internet, making it possible to easily build a recording/playback system.

<要約作製システム10>
以下、実施形態に係る録画再生システム900におけるメタデータ作成部920に配置される要約作製システム10について説明する。
<Summary Production System 10>
The summary creation system 10 arranged in the metadata creating section 920 in the recording/playback system 900 according to the embodiment will be described below.

<要約作製システム10の全体構成>
図3は同録画再生システムにおけるメタデータ作成部の要約作成システムを示すブロック図である。図3に示すように、要約作製システム10は、ビデオ信号分離部20、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400、テキスト統合手段であるテキスト統合部500、及び要約作成手段である要約作成部600を備える。本実施形態では要約作製システム10はビデオ信号をテレビ放送局30からの放送番組やインターネット40で配信される動画映像から取得する。なお、ビデオ信号は、インターネットにおける動画から取得することができる。なお、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400、及びテキスト統合部500から選択した少なくとも2つの部分を備えるものとできる。
<Overall Configuration of Abstract Production System 10>
FIG. 3 is a block diagram showing a summary creating system of the metadata creating section in the recording/playback system. As shown in FIG. 3, the summary production system 10 includes a video signal separation unit 20, a speech text conversion unit 100, a telop text conversion unit 200, a background image text conversion unit 300, a logo mark text conversion unit 400, and text integration means. It comprises a text integration section 500 and a summary creation section 600 which is a summary creation means. In this embodiment, the digest production system 10 acquires video signals from broadcast programs from television stations 30 and moving images distributed over the Internet 40 . Note that the video signal can be obtained from moving images on the Internet. At least two portions selected from the telop text conversion unit 200, the background image text conversion unit 300, the logo mark text conversion unit 400, and the text integration unit 500 can be provided.

音声信号と映像信号を含むビデオ信号Vは、ビデオ信号分離部20で音声信号Aと映像信号Bとに分離される。音声信号Aは発話テキスト化部100に入力され、映像信号Bはテロップテキスト化部200、背景画像テキスト化部300、及びロゴマークテキスト化部400に入力される。 A video signal V including an audio signal and a video signal is separated into an audio signal A and a video signal B by a video signal separating section 20 . The audio signal A is input to the speech text conversion unit 100 , and the video signal B is input to the telop text conversion unit 200 , the background image text conversion unit 300 , and the logo mark text conversion unit 400 .

<発話テキスト化部100>
発話テキスト化部100は音声信号Aを受けてコンテンツ中における人の発話内容を記述したテキストである発話テキストを出力する。発話テキスト化部100は、発話情報抽出部110、発話内容認識部120、発話内容テキスト化部130を備える。
<Speech text conversion unit 100>
The speech-to-text conversion unit 100 receives the audio signal A and outputs a speech text, which is a text describing the contents of a person's speech in the content. The speech text conversion unit 100 includes a speech information extraction unit 110 , a speech content recognition unit 120 , and a speech content text conversion unit 130 .

発話情報抽出部110は、ビデオ信号Vの音声信号Aから発話情報を抽出する。即ち、音声信号A中の雑音を取り除き、人の発話音声の情報を抽出する。この発話情報として効果音や特徴的な音楽を含むことができる。 The speech information extraction unit 110 extracts speech information from the audio signal A of the video signal V. FIG. Namely, the noise in the audio signal A is removed, and the information of the human speech is extracted. This speech information can include sound effects and characteristic music.

発話内容認識部120は、発話情報から発話内容を認識する。即ち、発話情報を音響的、文法的に解析して発話内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの生成データから機械学習により生成できる。 The utterance content recognition unit 120 recognizes the utterance content from the utterance information. That is, the utterance information is acoustically and grammatically analyzed to recognize the contents of the utterance as language. The parameters, conditions, and the like used for this recognition can be generated by machine learning from accumulated past speech text generation data, as will be described later.

発話内容テキスト化部130は発話内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの入力データ及び生成データから機械学習により生成できる。 The utterance content text conversion unit 130 converts the utterance content into text and outputs it. The parameters, conditions, and the like used for this recognition can be generated by machine learning from input data and generated data of past voice texts that have been accumulated as will be described later.

<テロップテキスト化部200>
テロップテキスト化部200は映像信号Bを受けてコンテンツ中におけるテロップ内容を記述したテキストであるテロップテキストを出力する。テロップテキスト化部200は、テロップ情報抽出部210、テロップ内容認識部220、テロップ内容テキスト化部230を備える。
<telop text conversion unit 200>
A telop text converting unit 200 receives the video signal B and outputs telop text, which is text describing the content of the telop in the content. The telop text conversion unit 200 includes a telop information extraction unit 210 , a telop content recognition unit 220 , and a telop content text conversion unit 230 .

テロップ情報抽出部210は、ビデオ信号Vの映像信号Bからテロップ情報を抽出する。即ち、映像信号B中の背景を取り除き、テロップ画像だけの情報を抽出する。 The telop information extraction unit 210 extracts telop information from the video signal B of the video signal V. FIG. That is, the background in the video signal B is removed and the information of only the telop image is extracted.

発話内容認識部120は、テロップ画像情報からテロップ内容を認識する。即ち、テロップ情報を言語的、文法的に解析してテロップ表示内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。 The utterance content recognition unit 120 recognizes the telop content from the telop image information. That is, the telop information is linguistically and grammatically analyzed to recognize the telop display content as a language. The parameters, conditions, and the like used for this recognition can be generated by machine learning from accumulated past telop text input data and generated data, as will be described later.

テロップ内容テキスト化部230はテロップ内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。 The telop content text conversion unit 230 converts the telop content into text and outputs it. The parameters, conditions, and the like used for this recognition can be generated by machine learning from accumulated past telop text input data and generated data, as will be described later.

<背景画像テキスト化部300>
背景画像テキスト化部300は映像信号Bを受けてコンテンツ中における背景画像内容を記述したテキストである背景画像テキストを出力する。背景画像としては、場面、状況、物品、及び事象のうち少なくとも一つ、例えば、人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗り物、その他の物品を挙げることができる。背景画像テキスト化部300は、背景画像情報抽出部310、背景画像内容認識部320、背景画像内容テキスト化部330を備える。
<Background image text conversion unit 300>
The background image text conversion unit 300 receives the video signal B and outputs background image text, which is text describing the background image content in the content. Background images include at least one of scene, situation, article, and event, such as a person, a person's belongings, a person's facial expression, a landscape, a building situation, an indoor situation, an animal, a vehicle, and other articles. can be mentioned. The background image text conversion unit 300 includes a background image information extraction unit 310 , a background image content recognition unit 320 , and a background image content text conversion unit 330 .

背景画像情報抽出部310は、ビデオ信号Vの映像信号Bから背景画像情報を抽出する。即ち、映像信号B中のテロップや不鮮明な画像を取り除き、認識可能な背景画像だけの情報を抽出する。 Background image information extraction section 310 extracts background image information from video signal B of video signal V. FIG. That is, telops and unclear images in the video signal B are removed, and information of only the recognizable background image is extracted.

背景画像内容認識部320は、背景画像情報から背景画像の内容を認識する。即ち、背景画像情報を解析して表されている人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗り物、その他の物品を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。 The background image content recognition unit 320 recognizes the content of the background image from the background image information. That is, the person, the belongings of the person, the expression of the person, the scenery, the state of the building, the state of the room, the animal, the vehicle, and other articles represented by analyzing the background image information are recognized. The parameters, conditions, and the like used for this recognition can be generated by machine learning from past background image text input data and generated data that have been accumulated as will be described later.

背景画像内容テキスト化部330は背景画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。 The background image content text conversion unit 330 converts the background image content into text and outputs it. The parameters, conditions, and the like used for this recognition can be generated by machine learning from past background image text input data and generated data that have been accumulated as will be described later.

<ロゴマークテキスト化部400>
ロゴマークテキスト化部400は映像信号Bを受けてコンテンツ中におけるロゴマーク内容を記述したテキストであるロゴマークテキストを出力する。ロゴマークとしては、商品の出所を表示する商標、記号、符号を含むマーク、その他の標章を挙げることができる。ロゴマークテキスト化部400は、ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420、ロゴマーク内容テキスト化部430を備える。
<Logo Mark Text Conversion Unit 400>
A logo mark text conversion unit 400 receives the video signal B and outputs logo mark text, which is text describing the content of the logo mark in the content. Logomarks may include trademarks, symbols, marks containing symbols, and other indicia that indicate the origin of goods. The logo mark text conversion unit 400 includes a logo mark image information extraction unit 410 , a logo mark content recognition unit 420 , and a logo mark content text conversion unit 430 .

ロゴマーク画像情報抽出部410は、ビデオ信号Vの映像信号Bからロゴマーク画像情報を抽出する。即ち、映像信号B中のテロップや背景画像を取り除き、認識可能なロゴマーク画像だけの情報を抽出する。 The logo mark image information extraction unit 410 extracts logo mark image information from the video signal B of the video signal V. FIG. That is, telops and background images in the video signal B are removed, and information of only recognizable logo mark images is extracted.

ロゴマーク内容認識部420は、ロゴマーク画像情報からロゴマークの内容を認識する。即ち、ロゴマーク画像情報を解析して表されている商品、サービス、店舗、施設等を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。 The logo mark content recognition unit 420 recognizes the content of the logo mark from the logo mark image information. That is, the product, service, store, facility, etc. represented by analyzing the logo mark image information are recognized. The parameters, conditions, and the like used for this recognition can be generated by machine learning from past logo mark text input data and generated data accumulated as will be described later.

ロゴマーク内容テキスト化部430はロゴマーク画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。 The logo mark content text conversion unit 430 converts the content of the logo mark image into text and outputs the text. The parameters, conditions, and the like used for this recognition can be generated by machine learning from past logo mark text input data and generated data accumulated as will be described later.

<テキスト統合部500>
テキスト統合部500は、発話テキスト化部100からの発話テキスト、テロップテキスト化部200からのテロップテキスト、背景画像テキスト化部300からの背景テキスト、ロゴマークテキスト化部400からの背景テキストを統合する。即ち、各テキストにおける矛盾や誤りを訂正して、統合テキストを生成する。このテキストの統合に使用するパラメータ、条件等は後述するように蓄積された過去のテキスト統合の入力、出力データから機械学習により生成できる。
<Text Integration Unit 500>
The text integration unit 500 integrates the speech text from the speech text conversion unit 100, the telop text from the telop text conversion unit 200, the background text from the background image text conversion unit 300, and the background text from the logo mark text conversion unit 400. . That is, it corrects contradictions and errors in each text to generate an integrated text. The parameters, conditions, etc. used for this text integration can be generated by machine learning from the input and output data of past text integration, which has been accumulated as described later.

<要約作成部600>
要約作成部600は、テキスト統合部500からの統合テキストを要約する。即ち、要約テキストの内容を要約して指定された文字数とする。この要約に使用するパラメータ、条件等は後述するように蓄積された過去のようよう役処理の入力データ、出力データから機械学習により生成できる。
<Summary Creation Unit 600>
Summarizer 600 summarizes the integrated text from text integrator 500 . That is, the contents of the summary text are summarized to the specified number of characters. The parameters, conditions, etc. used for this summarization can be generated by machine learning from the input data and output data of past winning combination processing accumulated as will be described later.

次に、各部の機械学習処理について説明する。
<発話テキスト化部100の機械学習処理>
図4は同要約作成システムの発話テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、発話テキスト化部100は、発話情報抽出部110、発話内容認識部120、発話内容テキスト化部130の他、テキスト化学習手段である機械学習部140、内容認識テキスト作成設定部150、比較評価部160を備える。また発話テキスト化部100には、既存データ格納部700が接続されている。
Next, machine learning processing of each unit will be described.
<Machine learning processing of the speech-to-text unit 100>
FIG. 4 shows an utterance-to-text unit of the same summary creation system, where (a) is a block diagram and (b) is a diagram showing the flow of processing. As shown in FIG. 1(a), the utterance text conversion unit 100 includes an utterance information extraction unit 110, an utterance content recognition unit 120, an utterance content text conversion unit 130, a machine learning unit 140 as text conversion learning means, a content A recognition text creation setting unit 150 and a comparison evaluation unit 160 are provided. An existing data storage unit 700 is also connected to the speech text conversion unit 100 .

発話テキスト化部100は既存データ格納部700が格納する既存のビデオデータと既存の発話テキストに基づいて機械学習を行い、発話内容認識部120及び発話内容テキスト化部130を最適化する。既存データ格納部700には、過去に人が発話テキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部710と、このビデオデータの発話内容から作成した発話テキストを格納した既存発話テキスト格納部720を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。 The speech text conversion unit 100 performs machine learning based on the existing video data stored in the existing data storage unit 700 and the existing speech text, and optimizes the speech content recognition unit 120 and the speech content text conversion unit 130 . An existing data storage unit 700 stores an existing video data storage unit 710 storing a large number of video data used when a person created an utterance text in the past, and an utterance text created from the utterance contents of this video data. An existing speech text storage unit 720 is provided. These video data and spoken texts serve as teaching materials for machine learning.

また、発話テキスト化部100には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部170、180を備える。 The speech-to-text unit 100 also includes switching units 170 and 180 for switching data output when performing machine learning and when creating speech content text from new video data.

内容認識テキスト作成設定部150は、発話情報抽出部110の発話情報の抽出処理の設定と、発話内容認識部120の発話内容認識処理の設定と、発話内容テキスト化部130のテキスト化処理の設定とが格納されている。発話情報抽出部110、発話内容認識部120及び発話内容テキスト化部130は内容認識テキスト作成設定部150の設定した条件、パラメータに従って発話情報抽出と、発話内容の認識、テキスト化とを行う。 The content recognition text creation setting unit 150 sets the utterance information extraction processing of the utterance information extraction unit 110, sets the utterance content recognition processing of the utterance content recognition unit 120, and sets the text conversion processing of the utterance content text conversion unit 130. and are stored. The utterance information extraction unit 110 , the utterance content recognition unit 120 , and the utterance content text conversion unit 130 perform speech information extraction, speech content recognition, and text conversion according to the conditions and parameters set by the content recognition text creation setting unit 150 .

比較評価部160は、比較部161と評価部162とを備える。比較部161は、既存ビデオデータ格納部710からの既存ビデオデータを受けて発話内容テキスト化部130が作成した発話テキストと、既存発話テキスト格納部720からの既存発話テキストとを比較する。評価部162は比較部161の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。 The comparison evaluation section 160 includes a comparison section 161 and an evaluation section 162 . The comparison unit 161 compares the speech text created by the speech content text conversion unit 130 upon receiving the existing video data from the existing video data storage unit 710 and the existing speech text from the existing speech text storage unit 720 . The evaluation unit 162 evaluates based on the comparison result of the comparison unit 161, and gives a high score when there is a good match.

機械学習部140は、評価部162からの評価を受け、内容認識テキスト作成設定部150の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部162の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。 The machine learning unit 140 receives the evaluation from the evaluation unit 162 and changes the setting state of the content recognition text creation setting unit 150 . This processing is repeated for the same video data, and the evaluation value of the evaluation unit 162 is made as high as possible. This process can be repeated for multiple pieces of video data.

このような機械学習を行うことにより、発話内容認識部120及び発話内容テキスト化部130の能力が向上する。所定の機械学習を終了した後、発話テキスト化部100は新規ビデオデータを処理して、最適な発話テキストを出力できる状態となる。 By performing such machine learning, the capabilities of the utterance content recognition unit 120 and the utterance content text conversion unit 130 are improved. After completing the predetermined machine learning, the speech-to-text conversion unit 100 processes the new video data and is ready to output the optimum speech text.

発話テキスト化部100の処理について説明する。図4(b)に示すように、まず内容認識テキスト作成設定部150に音声認識及びテキスト化の特徴量を設定する(ステップSA1)。この設定は機械学習部140の学習結果により行う。 Processing of the speech-to-text conversion unit 100 will be described. As shown in FIG. 4B, first, feature amounts for speech recognition and text conversion are set in the content recognition text creation setting unit 150 (step SA1). This setting is performed based on the learning result of the machine learning unit 140 .

次いで、発話情報抽出部110が、設定された特徴に基づいて音声を大量の音声信号の中から抽出する(ステップSA2)。 Next, utterance information extraction section 110 extracts speech from a large amount of speech signals based on the set features (step SA2).

更に、発話内容認識部120が、設定された特徴に基づいて抽出した音声を解析する(ステップSA3)。 Furthermore, the utterance content recognition unit 120 analyzes the extracted voice based on the set features (step SA3).

そして、発話内容テキスト化部130が、設定された特徴に基づいて音声をテキスト化して発話テキストを出力する(ステップSA4)。 Then, the utterance content text conversion unit 130 converts the voice into text based on the set features and outputs the utterance text (step SA4).

<テロップテキスト化部200の機械学習>
図5は同要約作成システムのテロップテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、テロップテキスト化部200は、テロップ情報抽出部210、テロップ内容認識部220、テロップ内容テキスト化部230の他、機械学習部240、内容認識テキスト作成設定部250、比較評価部260を備える。またテロップテキスト化部200には、既存データ格納部700が接続されている。
<Machine learning of telop text conversion unit 200>
FIG. 5 shows the telop-text conversion unit of the summary creation system, where (a) is a block diagram and (b) is a diagram showing the flow of processing. As shown in FIG. 2A, the telop text conversion unit 200 includes a telop information extraction unit 210, a telop content recognition unit 220, a telop content text conversion unit 230, a machine learning unit 240, and a content recognition text creation setting unit 250. , and a comparison evaluation unit 260 . An existing data storage unit 700 is also connected to the telop text conversion unit 200 .

テロップテキスト化部200は既存データ格納部700が格納する既存のビデオデータと既存のテロップテキストに基づいて機械学習を行い、テロップ内容認識部220及びテロップ内容テキスト化部230を最適化する。既存データ格納部700には、過去に人がテロップテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部710と、このビデオデータの発話内容から作成したテロップテキストを格納した既存テロップテキスト格納部730を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。 The telop text conversion unit 200 performs machine learning based on existing video data and existing telop text stored in the existing data storage unit 700 to optimize the telop content recognition unit 220 and the telop content text conversion unit 230 . An existing data storage unit 700 stores an existing video data storage unit 710 storing a large number of video data used when a person created telop text in the past, and telop text created from the utterance content of this video data. An existing telop text storage unit 730 is provided. These video data and spoken texts serve as teaching materials for machine learning.

また、テロップテキスト化部200には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部270、280を備える。 Further, the telop text conversion unit 200 includes switching units 270 and 280 for switching data output when performing machine learning and when creating speech content text from new video data.

内容認識テキスト作成設定部250は、テロップ情報抽出部210のテロップ情報抽出の設定と、テロップ内容認識部220のテキスト内容認識処理の設定と、テロップ内容テキスト化部230のテキスト化処理の設定とが格納されている。テロップ情報抽出部210、テロップ内容認識部220及びテロップ内容テキスト化部230は内容認識テキスト作成設定部250の設定した条件、パラメータに従ってテロップの抽出、内容認識、及びテキスト化を行う。 The content recognition text creation setting unit 250 sets the telop information extraction of the telop information extraction unit 210, the text content recognition processing setting of the telop content recognition unit 220, and the text conversion setting of the telop content text conversion unit 230. stored. The telop information extractor 210, the telop content recognition section 220, and the telop content text conversion section 230 perform telop extraction, content recognition, and text conversion according to the conditions and parameters set by the content recognition text creation setting section 250. FIG.

比較評価部260は、比較部261と評価部262とを備える。比較部261は、既存ビデオデータ格納部710からの既存ビデオデータを受けてテロップ内容テキスト化部230が作成したテロップテキストと、既存テロップテキスト格納部730からの既存テロップテキストとを比較する。評価部262は比較部261の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。 The comparison evaluation section 260 includes a comparison section 261 and an evaluation section 262 . The comparison unit 261 compares the telop text created by the telop content text conversion unit 230 upon receiving the existing video data from the existing video data storage unit 710 and the existing telop text from the existing telop text storage unit 730 . The evaluation unit 262 evaluates based on the comparison result of the comparison unit 261, and gives a high score when there is a good match.

機械学習部240は、評価部262からの評価を受け、内容認識テキスト作成設定部250の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部262の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。 The machine learning section 240 receives the evaluation from the evaluation section 262 and changes the setting state of the content recognition text creation setting section 250 . This processing is repeated for the same video data, and the evaluation value of the evaluation unit 262 is made as high as possible. This process can be repeated for multiple pieces of video data.

このような機械学習を行うことにより、テロップ内容認識部220及びテロップ内容テキスト化部230の能力が向上する。所定の機械学習を終了した後、テロップテキスト化部200は新規ビデオデータを処理して、最適なテロップテキストを出力できる状態となる。 By performing such machine learning, the capabilities of the telop content recognition unit 220 and the telop content text conversion unit 230 are improved. After completing the predetermined machine learning, the telop text conversion unit 200 processes the new video data and is ready to output the optimum telop text.

テロップテキスト化部200の処理について説明する。図5(b)に示すように、まず内容認識テキスト作成設定部250にテロップ情報抽出、内容抽出、及びテキスト化の特徴量を設定する(ステップSB1)。この設定は機械学習部240の学習結果により行う(ステップSB2)。 The processing of the telop text conversion unit 200 will be described. As shown in FIG. 5B, first, feature amounts for telop information extraction, content extraction, and text conversion are set in the content recognition text creation setting unit 250 (step SB1). This setting is performed according to the learning result of the machine learning unit 240 (step SB2).

次いで、テロップ情報抽出部210が、設定された特徴に基づいてテロップを大量の映像信号の中から抽出する(ステップSB2)。 Next, the telop information extraction unit 210 extracts telops from a large amount of video signals based on the set features (step SB2).

更に、テロップ内容認識部220が、設定された特徴に基づいて抽出したテロップを解析する(ステップSB3)。 Further, the telop content recognition unit 220 analyzes the extracted telop based on the set features (step SB3).

そして、テロップ内容テキスト化部230が、設定された特徴に基づいてテロップの内容をテキスト化してテロップテキストとして出力する(ステップSB4)。 Then, the telop content text conversion unit 230 converts the content of the telop into text based on the set features and outputs it as telop text (step SB4).

<背景画像テキスト化部300の機械学習>
図6は同要約作成システムの背景画像テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、背景画像テキスト化部300は、背景画像情報抽出部310、背景画像内容認識部320、背景画像内容テキスト化部330の他、テキスト統合設定手段である機械学習部340、内容認識テキスト作成設定部350、比較評価部360を備える。また背景画像テキスト化部300には、既存データ格納部700が接続されている。
<Machine learning of the background image text conversion unit 300>
FIG. 6 shows a background image text conversion unit of the same summary creation system, where (a) is a block diagram and (b) is a diagram showing the flow of processing. As shown in FIG. 4A, the background image text conversion unit 300 includes a background image information extraction unit 310, a background image content recognition unit 320, a background image content text conversion unit 330, and a machine learning function as text integration setting means. It comprises a section 340 , a content recognition text creation setting section 350 and a comparative evaluation section 360 . An existing data storage unit 700 is connected to the background image text converting unit 300 .

背景画像テキスト化部300は既存データ格納部700が格納する既存のビデオデータと既存の背景画像テキストに基づいて機械学習を行い、背景画像内容認識部320及び背景画像内容テキスト化部330を最適化する。既存データ格納部700には、過去に人がテロップテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部710と、このビデオデータの発話内容から作成した背景画像テキストを格納した既存背景画像テキスト格納部740を備える。これらのビデオデータ及び背景画像テキストは機械学習の教材となる。 The background image text conversion unit 300 performs machine learning based on the existing video data stored in the existing data storage unit 700 and the existing background image text, and optimizes the background image content recognition unit 320 and the background image content text conversion unit 330. do. The existing data storage unit 700 stores an existing video data storage unit 710 storing a large number of video data used when a person created telop text in the past, and a background image text created from the utterance content of this video data. An existing background image text storage unit 740 is provided. These video data and background image text serve as teaching materials for machine learning.

また、背景画像テキスト化部300には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部370、380を備える。 The background image text conversion unit 300 also includes switching units 370 and 380 for switching data output when machine learning is performed and when speech content text is created from new video data.

内容認識テキスト作成設定部350は、背景画像情報抽出部310の背景画像抽出処理の設定と、背景画像内容認識部320の背景画像内容認識処理の設定と、背景画像内容テキスト化部330のテキスト化処理の設定とが格納されている。背景画像情報抽出部310、背景画像内容認識部320及び背景画像内容テキスト化部330は内容認識テキスト作成設定部350の設定した条件、パラメータに従って背景画像の抽出、背景画像の内容認識及びテキスト化を行う。 The content recognition text creation setting unit 350 sets the background image extraction processing of the background image information extraction unit 310, sets the background image content recognition processing of the background image content recognition unit 320, and sets the text conversion of the background image content text conversion unit 330. Processing settings are stored. The background image information extraction unit 310, the background image content recognition unit 320, and the background image content text conversion unit 330 perform background image extraction, background image content recognition, and text conversion according to the conditions and parameters set by the content recognition text creation setting unit 350. conduct.

比較評価部360は、比較部361と評価部362とを備える。比較部361は、既存ビデオデータ格納部710からの既存ビデオデータを受けて背景画像内容テキスト化部330が作成した背景画像テキストと、既存背景画像テキスト格納部740からの既存背景画像テキストとを比較する。評価部362は比較部361の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。 The comparison evaluation section 360 includes a comparison section 361 and an evaluation section 362 . The comparison unit 361 compares the background image text created by the background image content text conversion unit 330 upon receiving the existing video data from the existing video data storage unit 710 and the existing background image text from the existing background image text storage unit 740. do. The evaluation unit 362 performs evaluation based on the comparison result of the comparison unit 361, and gives a high score when there is a good match.

機械学習部340は、評価部362からの評価を受け、内容認識テキスト作成設定部350の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部362の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。 The machine learning section 340 receives the evaluation from the evaluation section 362 and changes the setting state of the content recognition text creation setting section 350 . This processing is repeated for the same video data, and the evaluation value of the evaluation unit 362 is made as high as possible. This process can be repeated for multiple pieces of video data.

このような機械学習を行うことにより、背景画像内容認識部320及び背景画像内容テキスト化部330の能力が向上する。所定の機械学習を終了した後、背景画像テキスト化部300は新規ビデオデータを処理して、最適な背景画像テキストを出力できる状態となる。 By performing such machine learning, the capabilities of the background image content recognition unit 320 and the background image content text conversion unit 330 are improved. After completing the predetermined machine learning, the background image text conversion unit 300 is ready to process the new video data and output the optimum background image text.

背景画像テキスト化部300の処理について説明する。図6(b)に示すように、まず内容認識テキスト作成設定部350に背景画像情報抽出、背景画像認識、及びテキスト化の特徴量を設定する(ステップSC1)。この設定は機械学習部340の学習結果により行う。 Processing of the background image text conversion unit 300 will be described. As shown in FIG. 6B, first, the feature amounts for background image information extraction, background image recognition, and text conversion are set in the content recognition text creation setting unit 350 (step SC1). This setting is performed based on the learning result of the machine learning unit 340 .

次いで、背景画像情報抽出部310が、設定された特徴に基づいて背景画像を大量の映像信号の中から抽出する(ステップSC2)。 Next, the background image information extraction unit 310 extracts a background image from a large amount of video signals based on the set features (step SC2).

更に、背景画像内容認識部320が、設定された特徴に基づいて抽出した背景画像を解析する(ステップSC3)。 Further, the background image content recognition unit 320 analyzes the extracted background image based on the set features (step SC3).

そして、背景画像内容テキスト化部330が、設定された特徴に基づいて背景画像の内容をテキスト化して背景画像テキストとして出力する(ステップSC4)。 Then, the background image content text conversion unit 330 converts the content of the background image into text based on the set features and outputs the text as background image text (step SC4).

<ロゴマークテキスト化部400の機械学習>
図7は同要約作成システムのロゴマークテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。ロゴマークテキスト化部400は、ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420、ロゴマーク内容テキスト化部430の他、機械学習部440、内容認識テキスト作成設定部450、比較評価部460を備える。またロゴマークテキスト化部400には、既存データ格納部700が接続されている。
<Machine learning of the logo mark text conversion unit 400>
FIG. 7 shows a logo mark text conversion unit of the abstract creation system, where (a) is a block diagram and (b) is a diagram showing the flow of processing. The logo mark text conversion unit 400 includes a logo mark image information extraction unit 410 , a logo mark content recognition unit 420 , a logo mark content text conversion unit 430 , a machine learning unit 440 , a content recognition text creation setting unit 450 , a comparison evaluation unit 460 . Prepare. An existing data storage unit 700 is connected to the logo mark text conversion unit 400 .

ロゴマークテキスト化部400は既存データ格納部700が格納する既存のビデオデータと既存のロゴマークテキストに基づいて機械学習を行い、ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420及びロゴマーク内容テキスト化部430を最適化する。既存データ格納部700には、過去に人がロゴマークテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部710と、このビデオデータの発話内容から作成したロゴマークテキストを格納した既存ロゴマークテキスト格納部750を備える。これらのビデオデータ及びロゴマークテキストは機械学習の教材となる。 The logo mark text conversion unit 400 performs machine learning based on the existing video data stored in the existing data storage unit 700 and the existing logo mark text. Optimize the content texting unit 430 . The existing data storage unit 700 stores an existing video data storage unit 710 storing a large number of video data used when people created logo mark texts in the past, and a logo mark text created from the utterance content of this video data. A stored existing logo mark text storage unit 750 is provided. These video data and logo mark text serve as teaching materials for machine learning.

また、ロゴマークテキスト化部400には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部470、480を備える。 Further, the logo mark text conversion unit 400 is provided with switching units 470 and 480 for switching data output when performing machine learning and when creating speech content text from new video data.

内容認識テキスト作成設定部450は、ロゴマーク内容認識部420のロゴマーク画像内容認識処理の設定と、ロゴマーク内容テキスト化部430のテキスト化処理の設定が格納されている。ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420及びロゴマーク内容テキスト化部430は内容認識テキスト作成設定部450の設定した条件、パラメータに従ってロゴマークの抽出、内容認識及びテキスト化を行う。 The content recognition text creation setting section 450 stores the settings of the logo mark image content recognition processing of the logo mark content recognition section 420 and the settings of the text conversion processing of the logo mark content text conversion section 430 . The logo mark image information extraction unit 410 , the logo mark content recognition unit 420 , and the logo mark content text conversion unit 430 perform logo mark extraction, content recognition, and text conversion according to the conditions and parameters set by the content recognition text creation setting unit 450 .

比較評価部460は、比較部461と評価部462とを備える。比較部461は、既存ビデオデータ格納部710からの既存ビデオデータを受けてロゴマーク内容テキスト化部430が作成したテキストと、既存ロゴマークテキスト格納部750からの既存背景画像テキストとを比較する。評価部462は比較部461の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。 The comparison evaluation section 460 includes a comparison section 461 and an evaluation section 462 . The comparison unit 461 compares the text created by the logo mark content text conversion unit 430 upon receiving the existing video data from the existing video data storage unit 710 and the existing background image text from the existing logo mark text storage unit 750 . The evaluation unit 462 evaluates based on the comparison result of the comparison unit 461, and gives a high score when there is a good match.

機械学習部440は、評価部462からの評価を受け、内容認識テキスト作成設定部450の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部462の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。 The machine learning section 440 receives the evaluation from the evaluation section 462 and changes the setting state of the content recognition text creation setting section 450 . This processing is repeated for the same video data, and the evaluation value of the evaluation unit 462 is made as high as possible. This process can be repeated for multiple pieces of video data.

このような機械学習を行うことにより、ロゴマーク内容認識部420及びロゴマーク内容テキスト化部430の能力が向上する。所定の機械学習を終了した後、ロゴマークテキスト化部400は新規ビデオデータを処理して、最適な背景画像テキストを出力できる状態となる。 By performing such machine learning, the capabilities of the logo mark content recognition unit 420 and the logo mark content text conversion unit 430 are improved. After completing the predetermined machine learning, the logo mark text conversion unit 400 is ready to process the new video data and output the optimum background image text.

ロゴマークテキスト化部400の処理について説明する。図7(b)に示すように、まず内容認識テキスト作成設定部450にロゴマークの特徴量を設定する(ステップSC1)。この設定は機械学習部340の学習結果により行う。 Processing of the logo mark text conversion unit 400 will be described. As shown in FIG. 7B, first, the feature amount of the logo mark is set in the content recognition text creation setting unit 450 (step SC1). This setting is performed based on the learning result of the machine learning unit 340 .

次いで、ロゴマーク画像情報抽出部410が、設定された特徴に基づいてロゴマークを大量の映像信号の中から抽出する(ステップSD2)。 Next, the logo mark image information extraction unit 410 extracts the logo mark from a large amount of video signals based on the set features (step SD2).

更に、ロゴマーク内容認識部420が、設定された特徴に基づいて抽出した背景画像を解析し、自動的に確認して登録する(ステップSD3)。 Further, the logo mark content recognition unit 420 analyzes the extracted background image based on the set features, automatically confirms and registers it (step SD3).

更に、ロゴマーク内容認識部420が、登録されたロゴマークや特定のロゴマークに合致したものをロゴマークとして認識する(ステップSD4)。 Further, the logo mark content recognition unit 420 recognizes a registered logo mark or a specific logo mark as a logo mark (step SD4).

そして、ロゴマーク内容テキスト化部430が設定された特徴に基づいてロゴマークの内容をテキスト化してロゴマークテキストとして出力する(ステップSD5)。 Then, the logo mark content text conversion unit 430 converts the content of the logo mark into text based on the set features and outputs it as logo mark text (step SD5).

<テキスト統合部500の機械学習>
図8は同要約作成システムのテキスト統合部を示すブロック図である。テキスト統合部500は、統合テキスト作成部510、統合テキスト作成設定部520、機械学習部530、比較評価部540を備える。テキスト統合部500には、既存データ格納部700が接続されている。
<Machine Learning of Text Integration Unit 500>
FIG. 8 is a block diagram showing the text integration section of the summary creation system. The text integration unit 500 includes an integrated text creation unit 510 , an integrated text creation setting unit 520 , a machine learning unit 530 and a comparison evaluation unit 540 . An existing data storage unit 700 is connected to the text integration unit 500 .

テキスト統合部500は既存データ格納部700が格納する既存の各種、即ち、発話テキスト、テロップテキスト、背景テキスト及びロゴマークテキストと既存の統合テキストに基づいて機械学習を行い、統合テキスト作成部510の動作を最適化する。既存データ格納部700には、過去に統合テキストを作成したときに使用した各種テキストデータを格納した既存各種テキスト格納部760と、この各種テキストから作成した統合テキストを格納した既存統合テキスト格納部770とを備える。これらの各種テキスト及び統合テキストは機械学習の教材となる。 The text integration unit 500 performs machine learning based on existing integrated texts stored in the existing data storage unit 700, namely, speech text, telop text, background text, logo mark text, and existing integrated texts. Optimize behavior. The existing data storage unit 700 includes an existing text storage unit 760 that stores various text data used when integrated texts were created in the past, and an existing integrated text storage unit 770 that stores integrated texts created from these various texts. and These various texts and integrated texts serve as teaching materials for machine learning.

また、テキスト統合部500には、機械学習を行うときと、新規の各種テキストから新たな統合テキストを作成するときにデータ出力の切り換えを行う切換部570、580を備える。 The text integration unit 500 also includes switching units 570 and 580 for switching data output when performing machine learning and when creating a new integrated text from various new texts.

統合テキスト作成設定部520は、統合テキスト作成部510のテキスト統合処理の設定が格納されている。統合テキスト作成部510は統合テキスト作成設定部520の設定した条件、パラメータに従ってテキスト統合処理を行う。 The integrated text creation setting section 520 stores settings for text integration processing of the integrated text creation section 510 . The integrated text creation section 510 performs text integration processing according to the conditions and parameters set by the integrated text creation setting section 520 .

比較評価部540は、比較部541と評価部542とを備える。比較部541は、既存各種テキスト格納部760からの既存各種テキストを受けて統合テキスト作成部510が作成した統合テキストと、既存統合テキスト格納部770からの既存統合テキストとを比較する。評価部542は比較部541の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。 The comparison evaluation section 540 includes a comparison section 541 and an evaluation section 542 . The comparison unit 541 compares the integrated text created by the integrated text creation unit 510 upon receipt of the various existing texts from the existing various text storage unit 760 and the existing integrated text from the existing integrated text storage unit 770 . The evaluation unit 542 performs evaluation based on the comparison result of the comparison unit 541, and gives a high score when there is a good match.

機械学習部530は、評価部542からの評価を受け、統合テキスト作成設定部520の設定状態を変更する。この処理を同一の各種テキストデータについて繰り返し行い、評価部542の評価値をできるだけ高いものとする。この処理は複数の各種テキストデータについて繰り返し行うことができる。 The machine learning section 530 receives the evaluation from the evaluation section 542 and changes the setting state of the integrated text creation setting section 520 . This processing is repeated for the same text data, and the evaluation value of the evaluation unit 542 is made as high as possible. This process can be repeated for a plurality of various text data.

このような機械学習を行うことにより、統合テキスト作成部510の能力が向上する。所定の機械学習を終了した後、テキスト統合部500は新規ビデオデータを処理して、最適な統合テキストを出力できる状態となる。 By performing such machine learning, the ability of the integrated text creation unit 510 is improved. After completing the predetermined machine learning, the text integrator 500 is ready to process the new video data and output the optimal integrated text.

<要約作成部600の機械学習>
図9は同要約作成システムの要約作成部を示すブロック図である。要約作成部600は、要約テキスト作成部610、要約作成設定部620、要約設定学習手段である機械学習部630、比較評価部640を備える。要約作成部600には、既存データ格納部700が接続されている。
<Machine learning of summary creation unit 600>
FIG. 9 is a block diagram showing the abstract creating section of the same abstract creating system. The summary creation section 600 includes a summary text creation section 610 , a summary creation setting section 620 , a machine learning section 630 as summary setting learning means, and a comparison evaluation section 640 . An existing data storage unit 700 is connected to the summary creation unit 600 .

要約作成部600は既存データ格納部700が格納する統合テキストと要約テキストに基づいて機械学習を行い、要約テキスト作成部610の動作を最適化する。既存データ格納部700には、過去に要約テキストを作成したときに使用した統合テキストデータを格納した既存統合テキスト格納部770と、この統合テキストから作成した要約テキストを格納した過去の要約作成結果である既存要約テキスト格納部780とを備える。これらの統合テキスト及び要約テキストは機械学習の教材となる。 The summary creation section 600 performs machine learning based on the integrated text and the summary text stored in the existing data storage section 700 to optimize the operation of the summary text creation section 610 . The existing data storage unit 700 contains an existing integrated text storage unit 770 that stores integrated text data used when summarizing texts were created in the past, and past summary creation results that store summary texts created from this integrated text. and an existing summary text store 780 . These integrated texts and summary texts serve as teaching materials for machine learning.

また、要約作成部600には、機械学習を行うときと、新規の統合テキストから新たな要約テキストを作成するときにデータ出力の切り換えを行う切換部670、680を備える。 The summary creation unit 600 also includes switching units 670 and 680 for switching data output when performing machine learning and when creating a new summary text from a new integrated text.

要約作成設定部620には、要約テキスト作成部610の要約処理の設定が格納されている。要約テキスト作成部610は要約作成設定部620の設定した条件、パラメータに従ってテキスト要約処理を行う。 The summary creation setting section 620 stores the settings of the summary processing of the summary text creation section 610 . The summary text creation section 610 performs text summary processing according to the conditions and parameters set by the summary creation setting section 620 .

比較評価部640は、比較部641と評価部642とを備える。比較部641は、既存統合テキスト格納部770からの既存統合テキストを受けて要約テキスト作成部610が作成した要約テキストと、既存要約テキスト格納部780からの要約テキストとを比較する。評価部642は比較部641の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。 The comparison evaluation section 640 includes a comparison section 641 and an evaluation section 642 . The comparison unit 641 compares the summary text created by the summary text creation unit 610 upon receiving the existing integrated text from the existing integrated text storage unit 770 and the summary text from the existing summary text storage unit 780 . The evaluation unit 642 evaluates based on the comparison result of the comparison unit 641, and gives a high score when there is a good match.

機械学習部630は、評価部642からの評価を受け、要約作成設定部620の設定状態を変更する。この処理を同一の各種テキストデータについて繰り返し行い、評価部642の評価値をできるだけ高いものとする。この処理は複数の統合テキストデータについて繰り返し行うことができる。 The machine learning section 630 receives the evaluation from the evaluation section 642 and changes the setting state of the summary creation setting section 620 . This processing is repeated for the same text data, and the evaluation value of the evaluation unit 642 is made as high as possible. This process can be repeated for a plurality of integrated text data.

このような機械学習を行うことにより、要約テキスト作成部610の能力が向上する。所定の機械学習を終了した後、要約作成部600は新規ビデオデータを処理して、最適な要約テキストを出力できる状態となる。 By performing such machine learning, the ability of the summary text creation unit 610 is improved. After completing the predetermined machine learning, the digester 600 is ready to process the new video data and output the optimal text summary.

次に要約作製システム10の処理について説明する。図10は同要約作成システムの動作を示すフローチャートである。まず、既存データ格納部700の既存ビデオデータ格納部710、既存発話テキスト格納部720、既存テロップテキスト格納部730、既存背景画像テキスト格納部740、既存ロゴマークテキスト格納部750、既存各種テキスト格納部760、既存統合テキスト格納部770、既存要約テキスト格納部780に既存のビデオ信号、各種テキストデータを読み込む(ステップST1)。 Next, the processing of abstract production system 10 will be described. FIG. 10 is a flow chart showing the operation of the abstract creation system. First, an existing video data storage unit 710, an existing speech text storage unit 720, an existing telop text storage unit 730, an existing background image text storage unit 740, an existing logo mark text storage unit 750, and various existing text storage units of the existing data storage unit 700. 760, the existing integrated text storage section 770, and the existing summary text storage section 780, the existing video signal and various text data are read (step ST1).

次いで発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400において、機械学習処理を行う(ステップST2a、ST2b、ST2c、ST2d)。この学習処理は逐次的に行うこともできる。 Next, machine learning processing is performed in the speech text conversion unit 100, the telop text conversion unit 200, the background image text conversion unit 300, and the logo mark text conversion unit 400 (steps ST2a, ST2b, ST2c, ST2d). This learning process can also be performed sequentially.

次に、テキスト統合部500の既存データ格納部550、要約作成部600の既存データ格納部650に既存の入力データ、出力データを読み込む(ステップST3)。次いで、テキスト統合部500、要約作成部600において機械学習処理を行う(ステップST3a、3b)。この学習処理は逐次的に行うこともできる。なお、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、及びロゴマークテキスト化部400の機械学習処理と、及びテキスト統合部500及び要約作成部600の機械学習処理とは処理の順序を問わず、逆の順序で行うことができる。 Next, existing input data and output data are read into the existing data storage unit 550 of the text integration unit 500 and the existing data storage unit 650 of the summary creation unit 600 (step ST3). Next, machine learning processing is performed in the text integration section 500 and the summary creation section 600 (steps ST3a and ST3b). This learning process can also be performed sequentially. What is the machine learning processing of the utterance text conversion unit 100, the telop text conversion unit 200, the background image text conversion unit 300, and the logo mark text conversion unit 400, and the machine learning processing of the text integration unit 500 and the summary creation unit 600? Regardless of the order of processing, it can be performed in the reverse order.

学習処理が終了すると(ステップST4のyes)、処理対象となるビデオ信号をビデオ信号分離部20に入力する(ステップST5)。これにより、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400は、テキスト化処理を実行する(ステップST6a、ST6b、ST6c、ST6d) When the learning process is completed (yes in step ST4), the video signal to be processed is input to the video signal separating section 20 (step ST5). As a result, the speech text conversion unit 100, the telop text conversion unit 200, the background image text conversion unit 300, and the logo mark text conversion unit 400 execute text conversion processing (steps ST6a, ST6b, ST6c, ST6d).

そして、各テキストをテキスト統合部500で統合処理し(ステップST7)、更に統合されたテキストを要約作成部600で要約処理し(ステップST8)、要約テキストを出力し、要約作製システム10の処理は終了する。 Then, each text is integrated by the text integration unit 500 (step ST7), the integrated text is summarized by the summary generation unit 600 (step ST8), and the summary text is output. finish.

次の要約作成処理からは、機械学習処理(ステップST1~ST4)は行わなくて直ちに要約作成の対象ビデオ信号を入力(ステップST5)するだけで最適な要約作成を行うことができる。また、機械学習処理は必要に応じて行うことができる。 From the next digest creation process, the machine learning process (steps ST1 to ST4) is not performed, and the optimum digest can be created by simply inputting the video signal to be summarized (step ST5). Also, machine learning processing can be performed as needed.

以下、要約作製システム10の処理の一例について説明する。図11は同要約作成システムの処理例を示す図である。ビデオデータには、映像810を含む映像データとナレーション850を含む音声データが格納されている。この例は、テニストーナメントの結果を知らせるニュース番組の一部を例とする。 An example of processing of the abstract production system 10 will be described below. FIG. 11 is a diagram showing a processing example of the same abstract creation system. Video data includes video data including video 810 and audio data including narration 850 . This example is a part of a news program announcing the results of a tennis tournament.

まず、発話テキスト化部100において、発話情報抽出部110が音声データからナレーション850を抽出し、発話内容認識部120が内容を認識する。そして、この認識された内容が発話内容テキスト化部130によりテキスト化される。 First, in the utterance text conversion unit 100, the utterance information extraction unit 110 extracts the narration 850 from the voice data, and the utterance content recognition unit 120 recognizes the content. Then, this recognized content is converted into text by the utterance content text conversion unit 130 .

この例では、発話内容テキスト化部130は、発話テキストとして「▲▲で開催されている、××オープン選手権で○月○日、日本の○○選手は準決勝に勝利し決勝に進出しました。決勝は来る○日□時から行われます。△△テレビでは◆時からこのゲームを生中継します。」を出力する。 In this example, the utterance content text conversion unit 130 generates the utterance text as follows: "At the XX Open Championship held in ▲▲, on XX day on XX, Japan's XX player won the semi-finals and advanced to the finals. The final will be held on the coming day at □.The game will be broadcast live on △△ TV from ♦." is output.

また、テロップテキスト化部200において、テロップ情報抽出部210が映像データからテロップ画像を抽出する。本例では、テロップ表示部811に表示されたテロップ、映像810上部に表示されたニュース名812、提供会社名813を抽出する。更に、テロップ内容認識部220がテロップの内容を認識し、テロップ内容認識部220がテロップの内容を認識する。そして、この認識した内容を背景画像内容テキスト化部330がテキスト化する。 Also, in the telop text conversion unit 200, the telop information extraction unit 210 extracts a telop image from the video data. In this example, the telop displayed in the telop display portion 811, the news name 812 displayed above the video 810, and the provider company name 813 are extracted. Further, the telop content recognition unit 220 recognizes the content of the telop, and the telop content recognition unit 220 recognizes the content of the telop. Then, the background image content text conversion unit 330 converts the recognized content into text.

この例では、テロップ内容テキスト化部230は、テロップ表示部811の「速報 ○○選手 ××オープン決勝進出!」、ニュース名812として「△△ニュース」、提供会社名813として「提供◆◆株式会社」がテロップテキストとして出力する。 In this example, the telop content text conversion unit 230 displays the telop display unit 811 with “Breaking news ○○ player XX open finals!” Company” is output as telop text.

更に、背景画像テキスト化部300において、背景画像情報抽出部310が背景画像820から人物、物品、状況等を抽出する。本例では、テニスプレーヤー830、顔831、キャップ832、テニスウエア833、テニスパンツ834、ラケット835、ボール836、テニスコート837等の画像を抽出する。この抽出された画像に基づいて、背景画像内容認識部320が各背景画像の内容を認識する。例えば、テニスプレーヤー830の画像及び顔831から性別、人種、年齢、表情を認識する。また、キャップ832、テニスウエア833、テニスパンツ834のスタイル、色等を認識する。更に、ラケット835、ボール836についてもそれらの色、型番等を認識する。そして、この認識した内容を背景画像内容テキスト化部330がテキスト化する。 Furthermore, in the background image text conversion unit 300 , the background image information extraction unit 310 extracts the person, the article, the situation, etc. from the background image 820 . In this example, images of a tennis player 830, face 831, cap 832, tennis wear 833, tennis pants 834, racket 835, ball 836, tennis court 837, etc. are extracted. Based on this extracted image, the background image content recognition unit 320 recognizes the content of each background image. For example, gender, race, age, and expression are recognized from the image and face 831 of the tennis player 830 . Also, the style, color, etc. of the cap 832, tennis wear 833, and tennis pants 834 are recognized. Further, the color, model number, etc. of the racket 835 and the ball 836 are also recognized. Then, the background image content text conversion unit 330 converts the recognized content into text.

この例では、テニスプレーヤー830について「男性」、「○○系」、「20代」等、顔831から「汗」、「苦しい」、キャップ832について「白色」、テニスウエア833について「白」、「半袖」、テニスパンツ834について「白色」、「半ズボン」、ラケット835について「メーカー」、「型番」、ボール836について「黄色」、テニスコート837について「クレイ」等が背景画像テキストとして出力される。 In this example, the tennis player 830 is "male", "○○ type", "twenties", etc.; "Short sleeve", "white" and "shorts" for tennis pants 834, "manufacturer" and "model number" for racket 835, "yellow" for ball 836, and "clay" for tennis court 837 are output as background image text. be.

そして、ロゴマークテキスト化部400において、ロゴマーク画像情報抽出部410が映像810からロゴマークを抽出する。本例では、映像810の上部にニュース名812と共に付されたロゴマーク841、テニスウエア833に付されたロゴマーク842、テニスパンツ834に付されたロゴマーク843を抽出する。このとき、ロゴマーク842及びロゴマーク843は衣服に記載されているから、テニスプレーヤー830の運動により変形する。本例では、この変形も考慮して、抽出をおこなう。そして、この抽出されたロゴマークに基づいて、背景画像内容認識部320が各ロゴマークの内容を認識する。そして、この認識したロゴマークの内容をロゴマーク内容テキスト化部430がテキスト化する。 Then, in the logo mark text conversion unit 400 , the logo mark image information extraction unit 410 extracts the logo mark from the image 810 . In this example, the logo mark 841 attached to the top of the video 810 together with the news name 812, the logo mark 842 attached to the tennis wear 833, and the logo mark 843 attached to the tennis pants 834 are extracted. At this time, since the logo mark 842 and the logo mark 843 are written on the clothes, they are deformed by the movement of the tennis player 830 . In the present example, the extraction is performed in consideration of this deformation. Based on the extracted logo marks, the background image content recognition unit 320 recognizes the content of each logo mark. Then, the content of the recognized logo mark is converted into text by the logo mark content text conversion unit 430 .

この例では、背景画像内容テキスト化部330は、ロゴマーク841について「△△N」の記載があり「△△テレビ株式会社」、ロゴマーク842について「AAA」の記載であり「株式会社BBB」の「AAAブランド」、ロゴマーク843について「BB」の記載であり「CC株式会社」の「BBブランド」をロゴマークテキストとして出力する。 In this example, the background image content text conversion unit 330 has the logo mark 841 described as “ΔΔN” and is “ΔΔ Television Co., Ltd.”, and the logo mark 842 as “AAA” and “BBB Inc.”. and "BB" for the logo mark 843, which is the description of "BB brand" of "CC Co., Ltd.", are output as the logo mark text.

テキスト統合部500は、発話テキスト化部100からの発話テキスト、テロップテキスト化部200からのテロップテキスト、背景画像テキスト化部300からの背景画像テキスト、ロゴマークテキスト化部400からのロゴマークテキストを統合する。 The text integration unit 500 combines the speech text from the speech text conversion unit 100, the telop text from the telop text conversion unit 200, the background image text from the background image text conversion unit 300, and the logo mark text from the logo mark text conversion unit 400. Integrate.

この例では、「▲▲で開催されている、××オープン選手権で○月○日、日本の○○選手は準決勝に勝利し決勝に進出しました。決勝は来る○日□時から行われます。△△テレビでは◆時からこのゲームを生中継します。」、「速報 ○○選手 」、オープン決勝進出!」、「△△ニュース」、「提供◆◆株式会社」、「男性」、「○○系」、「20代」、「汗」、「苦しい」、「キャップ白色」、「テニスウエア白」、「テニスウエア半袖」、「テニスパンツ白色」、「半ズボン」、「ラケットメーカー」、「型番」、「ボール黄色」、「テニスコートクレイ」、「△△N」、「△△テレビ株式会社」、「ロゴマークAAA」の記載であり「株式会社BBB」、「AAAブランド」、「ロゴマークBB」、「CC株式会社」、「BBブランド」等のテキストを網羅的に統合して出力する。
この統合用テキストは膨大なデータとなるが、機械検索に適している。
In this example, "At the XX Open Championship held in ▲▲, on XX, XX, Japan won the semi-finals and advanced to the finals. The finals will be held on the coming XX days △△TV will be broadcasting this game live from ◆.”, “Breaking news ○○ player”, advanced to the open finals! ”, “△△ News”, “Provided ◆◆ Co., Ltd.”, “Male”, “○○ system”, “20s”, “Sweat”, “Painful”, “Cap white”, “Tennis wear white”, "Tennis Wear Short Sleeves", "Tennis Pants White", "Shorts", "Racquet Maker", "Model Number", "Ball Yellow", "Tennis Court Clay", "△△N", "△△ Television Co., Ltd." , "logomark AAA", and texts such as "BBB Co., Ltd.", "AAA brand", "logomark BB", "CC Co., Ltd.", and "BB brand" are comprehensively integrated and output.
Although this text for integration is a huge amount of data, it is suitable for machine search.

要約作成部600はテキスト統合部500からの統合テキストを受け、所定の文字数、例えば200字以内に要約し出力する。この例では、要約作成部600は、「日本の○○選手は○月○日、××オープン選手権の準決勝に勝利し、決勝に進出した。××オープン選手権は、▲▲で開催されており、クレイコートで行われる。○○選手は、白のキャップ、AAAブランドの白色のテニスウエアとBBブランドの白色のテニスパンツを着用し、勝利を得た。決勝戦は、○月○日、◆時から△△テレビで生中継される。」と出力する。要約は内容を把握しやすいため、人が一見して理解できる。 The summarizing unit 600 receives the integrated text from the text integrating unit 500, summarizes it within a predetermined number of characters, for example, 200 characters, and outputs it. In this example, the summary creation unit 600 writes, "Japanese XX player won the semi-finals of the XX Open Championship on XX day and advanced to the final. The XX Open Championship is being held in ▲▲. , held on a clay court.○○ won the match wearing a white cap, AAA brand white tennis wear, and BB brand white tennis pants.The final match will be held on Monday, December, at will be broadcast live on △△ TV from Since the summary is easy to grasp the content, people can understand it at a glance.

以上の録画再生システムは、処理装置としてのCPU(Central Processing Unit)、記憶装置としてRAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disc Drive)、SSD(Solid State Drive)等を備えたコンピュータシステムでアプリケーションションソフトウエアを実行して実現できる。また、各部は同一箇所に配置される必要はなく、一部をクラウド上に配置してネットワークで接続して実現することができる。また、これらの処理は、大量のデータを対象とするためGPU(Graphics Processing Unit)を使用して処理することが望ましい。 The recording/playback system described above includes a CPU (Central Processing Unit) as a processing device, and RAM (Random Access Memory), ROM (Read Only Memory), HDD (Hard Disc Drive), SSD (Solid State Drive), etc. as storage devices. It can be realized by executing application software on a computer system equipped with. Moreover, each part does not need to be arranged at the same place, and a part thereof can be arranged on the cloud and connected by a network. Moreover, since these processes target a large amount of data, it is desirable to process them using a GPU (Graphics Processing Unit).

即ち、統合テキストは、単に、音声、文字,背景映像等の文字化してものであり、膨大な文章についてのデータである。このため、GPUをテキスト処理に特化することにより高速に処理できる。 That is, the integrated text is simply textualization of voices, characters, background images, etc., and is data about a huge amount of sentences. Therefore, high-speed processing can be achieved by specializing the GPU to text processing.

更に、テキスト統合部500には、発話テキスト、テロップテキスト、背景画像テキスト及びロゴマークテキストの他、テレビ番組を対象とする場合、電子番組表データから取得したテキストを入力することができる。更に、インターネットで配信される動画映像の場合には第三者の評価や評判をテキストとして取得して入力できる。これにより、統合テキストの質と量を向上させることができる。 Furthermore, the text integration unit 500 can be input with text obtained from electronic program guide data in addition to speech text, telop text, background image text, and logo mark text in the case of television programs. Furthermore, in the case of moving images distributed over the Internet, evaluations and reputations of third parties can be acquired as text and input. This can improve the quality and quantity of the integrated text.

[他の実施形態]
本発明に係る録画再生システムあってはデータ処理をAI(人工知能:Artificial Intelligence)により高速かつ適切に処理する。AI処理は、上述した機械学習(ML:Machine Learning)により実現できる。更に、機械学習として、既存データを正解とする教師有り学習が採用できる。また、機械学習としてディープラーニング(深層学習:DL:Deep Learning)により行うと効果的である。
[Other embodiments]
In the recording/reproducing system according to the present invention, data processing is performed at high speed and appropriately by AI (Artificial Intelligence). AI processing can be realized by the above-described machine learning (ML). Furthermore, as machine learning, supervised learning can be employed in which existing data is the correct answer. Moreover, it is effective to use deep learning (DL: Deep Learning) as machine learning.

ディープラーニングでは、既存の多数のビデオデータ、各ビデオデータに対応する各種テキストデータ、統合テキスト、要約テキストをビッグデータとして学習を行う。この各機械学習部は、入力層、複数の中間層、出力層を備え、多数のニューロンを備えたニューラルネットワークにより処理を行い。即ち、本発明に係る要約作成システムに入力された新規ビデオデータ、このビデオデータによる各種テキスト、統合テキスト、要約を入力とした出力が、既存の各種テキスト、統合テキスト、要約に近づくように中間層のニューロンにおける重み、パラメータを最小二乗法等の手法で適正化する。 In deep learning, learning is performed using a large number of existing video data, various text data corresponding to each video data, integrated text, and summary text as big data. Each machine learning unit has an input layer, multiple intermediate layers, and an output layer, and performs processing using a neural network with a large number of neurons. That is, the new video data input to the abstract creation system according to the present invention, various texts, integrated texts, and abstracts based on this video data are input, and the intermediate layer is added so that the output approaches the existing various texts, integrated texts, and abstracts. The weights and parameters in the neurons of are optimized by methods such as the method of least squares.

本発明は、テレビやインターネット動画の録画再生システム及び録画再生装置に広く適用可能であり、産業上の利用可能性がある。 INDUSTRIAL APPLICABILITY The present invention is widely applicable to recording/reproducing systems and recording/reproducing devices for television and Internet moving images, and has industrial applicability.

10:要約作製システム
20:ビデオ信号分離部
30:テレビ放送局
40:インターネット
50:映像音声再生部
100:発話テキスト化部
110:発話情報抽出部
120:発話内容認識部
130:発話内容テキスト化部
140:機械学習部
150:内容認識テキスト作成設定部
160:比較評価部
161:比較部
162:評価部
170:切換部
180:切換部
200:テロップテキスト化部
210:テロップ情報抽出部
220:テロップ内容認識部
230:テロップ内容テキスト化部
240:機械学習部
250:内容認識テキスト作成設定部
260:比較評価部
261:比較部
262:評価部
270:切換部
280:切換部
300:背景画像テキスト化部
310:背景画像情報抽出部
320:背景画像内容認識部
330:背景画像内容テキスト化部
340:機械学習部
350:内容認識テキスト作成設定部
360:比較評価部
361:比較部
362:評価部
370:切換部
380:切換部
400:ロゴマークテキスト化部
410:ロゴマーク画像情報抽出部
420:ロゴマーク内容認識部
430:ロゴマーク内容テキスト化部
440:機械学習部
450:内容認識テキスト作成設定部
460:比較評価部
461:比較部
462:評価部
470:切換部
480:切換部
500:テキスト統合部
510:統合テキスト作成部
520:統合テキスト作成設定部
530:機械学習部
540:比較評価部
541:比較部
542:評価部
550:既存データ格納部
570:切換部
580:切換部
600:要約作成部
610:要約テキスト作成部
620:要約作成設定部
630:機械学習部
640:比較評価部
641:比較部
642:評価部
650:既存データ格納部
670:切換部
680:切換部
700:既存データ格納部
710:既存ビデオデータ格納部
720:既存発話テキスト格納部
730:既存テロップテキスト格納部
740:既存背景画像テキスト格納部
750:既存ロゴマークテキスト格納部
760:既存各種テキスト格納部
770:既存統合テキスト格納部
780:既存要約テキスト格納部
810:映像
811:テロップ表示部
812:ニュース名
813:提供会社名
820:背景画像
830:テニスプレーヤー
831:顔
832:キャップ
833:テニスウエア
834:テニスパンツ
835:ラケット
836:ボール
837:テニスコート
841:ロゴマーク
842:ロゴマーク
843:ロゴマーク
850:ナレーション
900:録画再生システム
910:映像データ取得部
920:メタデータ作成部
930:メタデータ格納部
940:録画部
950:映像データ送出部
960:使用者入力手段
970:特定情報認識部
971:学習部(特定情報認識設定学習手段)
980:メタデータ検索部
990:コンテンツ特定部
991:学習部(コンテンツ特定設定学習手段)
10: Summary Production System 20: Video Signal Separating Section 30: Television Broadcasting Station 40: Internet 50: Video/Audio Reproducing Section 100: Speech Text Conversion Section 110: Speech Information Extraction Section 120: Speech Content Recognition Section 130: Speech Content Text Conversion Section 140: machine learning unit 150: content recognition text creation setting unit 160: comparison evaluation unit 161: comparison unit 162: evaluation unit 170: switching unit 180: switching unit 200: telop text conversion unit 210: telop information extraction unit 220: telop content Recognition unit 230: Telop content text conversion unit 240: Machine learning unit 250: Content recognition text creation setting unit 260: Comparative evaluation unit 261: Comparison unit 262: Evaluation unit 270: Switching unit 280: Switching unit 300: Background image text conversion unit 310: Background image information extraction unit 320: Background image content recognition unit 330: Background image content text conversion unit 340: Machine learning unit 350: Content recognition text creation setting unit 360: Comparative evaluation unit 361: Comparison unit 362: Evaluation unit 370: Switching section 380: Switching section 400: Logo mark text conversion section 410: Logo mark image information extraction section 420: Logo mark content recognition section 430: Logo mark content text conversion section 440: Machine learning section 450: Content recognition text creation setting section 460 : Comparative evaluation unit 461: Comparison unit 462: Evaluation unit 470: Switching unit 480: Switching unit 500: Text integration unit 510: Integrated text creation unit 520: Integrated text creation setting unit 530: Machine learning unit 540: Comparative evaluation unit 541: Comparison unit 542: Evaluation unit 550: Existing data storage unit 570: Switching unit 580: Switching unit 600: Summary creation unit 610: Summary text creation unit 620: Summary creation setting unit 630: Machine learning unit 640: Comparative evaluation unit 641: Comparison Unit 642: Evaluation unit 650: Existing data storage unit 670: Switching unit 680: Switching unit 700: Existing data storage unit 710: Existing video data storage unit 720: Existing speech text storage unit 730: Existing telop text storage unit 740: Existing background Image text storage unit 750: Existing logo mark text storage unit 760: Existing various text storage unit 770: Existing integrated text storage unit 780: Existing summary text storage unit 810: Video 811: Telop display unit 812: News name 813: Provider company name 820: Background image 830: Tennis player 831: Face 832: Cap 833: Tennis wear 834: Tennis pants 835: Racket 836: Ball 837: Tennis court 841: Logo mark 842: Logo mark 843: Logo mark 850: Narration 900: Recording/playback system 910: Video data acquisition unit 920: Metadata creation unit 930: Metadata storage unit 940: Recording unit 950: Video data transmission unit 960: User input means 970: Specific information recognition unit 971: Learning Part (specific information recognition setting learning means)
980: metadata search unit 990: content identification unit 991: learning unit (content identification setting learning means)

Claims (5)

映像データからなるコンテンツを録画する録画手段と、 a recording means for recording content consisting of video data;
録画されたコンテンツの送出元、送出日時、タイトル、出演者、送出予定テキスト、音声及びコンテンツ内容の要約を含むメタデータを作成するメタデータ作成手段と、 Metadata creation means for creating metadata including the source of recorded content, date and time of transmission, title, performers, scheduled transmission text, audio, and a summary of the contents of the recorded content;
前記メタデータを格納するメタデータ格納手段とを備え、 and metadata storage means for storing the metadata,
前記メタデータ作成手段は、前記コンテンツの内容を要約した要約テキストを出力する要約作成手段を備え、 the metadata creation means comprises summary creation means for outputting a summary text summarizing the contents of the content;
前記要約作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備え、 The summarization means comprises summarization setting learning means for learning optimal summarization settings using input data and output data of accumulated past summarization results as teaching materials,
指示情報が入力された場合には、前記指示情報を解釈してコンテンツ特定情報を認識する特定情報認識手段と、 specific information recognition means for interpreting the instruction information and recognizing the content specific information when the instruction information is input;
前記コンテンツ特定情報に基づいて前記メタデータを検索して前記コンテンツの少なくとも一部を特定するコンテンツ特定手段と、 content identification means for identifying at least part of the content by searching the metadata based on the content identification information;
特定されたコンテンツの映像データを送出する映像データ送出手段と、 video data sending means for sending video data of the identified content;
を備え、with
前記特定情報認識手段は、 The specific information recognition means is
蓄積された過去の特定情報認識処理の入力データと出力データとを教材として最適な特定情報認識処理設定を学習する特定情報認識設定学習手段を備え、 a specific information recognition setting learning means for learning an optimum specific information recognition process setting using accumulated past input data and output data of specific information recognition process as teaching materials;
前記コンテンツ特定手段は、 The content specifying means is
蓄積された過去のコンテンツ特定結果の入力データと出力データとを教材として最適なコンテンツ特定設定を学習するコンテンツ特定設定学習手段を備え、 a content specific setting learning means for learning optimum content specific settings using input data and output data of accumulated past content specific results as teaching materials;
前記要約作成手段は、 The summary creation means is
前記コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、 an utterance text describing human utterances in said content extracted from a video signal of said content;
前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、 a telop text describing display contents of a telop in the content extracted from the video signal;
前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、 background image text describing at least one of scenes, situations, objects and events appearing in said video signal;
前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、 Logomark text describing marks, including logomarks, trademarks, symbols, and symbols appearing in the video signal;
のうち少なくとも2つのテキストを統合して統合テキストを出力するテキスト統合手段と、 a text integration means for integrating at least two texts among and outputting an integrated text;
前記統合テキストを要約した要約テキストを出力する要約テキスト作成手段と、 summary text creation means for outputting a summary text summarizing the integrated text;
を備え、with
前記テキスト統合手段は、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習するテキスト統合設定手段を備え、 The text integration means comprises text integration setting means for learning optimal text integration settings using the accumulated input data and output data of past text integration processing as teaching materials,
前記要約テキスト作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備えることを特徴とする録画再生システム。 The recording/playback system, wherein the summary text creating means comprises a summary setting learning means for learning optimum settings for creating the summary using input data and output data of accumulated past summary creation results as teaching materials.
前記コンテンツについての前記ビデオ信号の音声信号から発話情報を抽出する手段、前記発話情報から前記発話内容を認識する手段、及び、前記発話内容をテキスト化して発話テキストを出力する手段を備えた発話テキスト化部と、 An utterance text comprising means for extracting utterance information from the audio signal of the video signal of the content, means for recognizing the utterance content from the utterance information, and means for converting the utterance content into text and outputting the utterance text. chemical department and
前記ビデオ信号の映像信号から、テロップを表示するテロップ情報を抽出する手段、前記テロップ情報からテロップ内容を認識する手段、及び、前記テロップ内容をテキスト化してテロップテキストを出力する手段、を備えたテロップテキスト化部と、 A telop comprising: means for extracting telop information for displaying a telop from a video signal of said video signal; means for recognizing telop content from said telop information; and means for converting said telop content into text and outputting telop text. a textualization unit;
前記ビデオ信号の映像信号から、背景画像情報を抽出する手段、前記背景画像情報から背景画像内容を認識する手段、及び前記背景画像内容をテキスト化して背景テキストを出力する手段、を備えた背景画像テキスト化部と、 A background image comprising means for extracting background image information from the video signal of the video signal, means for recognizing background image content from the background image information, and means for converting the background image content into text and outputting the background text. a textualization unit;
前記ビデオ信号の映像信号から、ロゴマーク画像情報を抽出する手段、前記ロゴマーク画像情報からロゴマーク内容を認識する手段、及び前記ロゴマーク内容をテキスト化してロゴマークテキストを出力する手段を備えるロゴマークテキスト化部と、 A logo comprising means for extracting logo mark image information from the video signal of said video signal, means for recognizing logo mark content from said logo mark image information, and means for converting said logo mark content into text and outputting logo mark text. a mark textualization unit;
から選択した少なくとも2つのテキスト化部を備え、 comprising at least two textualizations selected from
前記発話テキスト化部、前記テロップテキスト化部、前記背景画像テキスト化部、及び前記ロゴマークテキスト化部のうち少なくとも一つは、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するテキスト化学習手段を備えることを特徴とする請求項1に記載の録画再生システム。 At least one of the utterance text conversion unit, the telop text conversion unit, the background image text conversion unit, and the logo mark text conversion unit selects an optimum text conversion unit from input data and output data accumulated in past text conversion processing. 2. The recording/reproducing system according to claim 1, further comprising text conversion learning means for learning text creation settings.
前記コンテンツは、テレビ放送局が放送する放送番組、又は、インターネットによって配信される動画映像から取得することを特徴とする請求項1に記載の録画再生システム。 2. The recording/reproducing system according to claim 1, wherein said content is acquired from a broadcast program broadcast by a television broadcasting station or a video image distributed over the Internet. 前記録画手段、前記メタデータ作成手段、前記メタデータ格納手段、特定情報認識手段、前記コンテンツ特定手段、及び前記映像データ送出手段は、一つの箇所に配置されていることを特徴する請求項1に記載の録画再生システム。 2. The apparatus according to claim 1, wherein said recording means, said metadata creating means, said metadata storing means, specific information recognizing means, said content specifying means, and said video data transmitting means are arranged in one place. The recording and playback system described. 少なくとも前記メタデータ作成手段は、前記録画手段と異なる箇所に配置され、インターネットで接続されていることを特徴とする請求項1に記載の録画再生システム。 2. The recording/playback system according to claim 1, wherein at least said metadata creating means is arranged at a location different from said recording means and is connected to the Internet.
JP2018080934A 2018-04-19 2018-04-19 Recording playback system Active JP7137815B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018080934A JP7137815B2 (en) 2018-04-19 2018-04-19 Recording playback system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018080934A JP7137815B2 (en) 2018-04-19 2018-04-19 Recording playback system

Publications (2)

Publication Number Publication Date
JP2019191712A JP2019191712A (en) 2019-10-31
JP7137815B2 true JP7137815B2 (en) 2022-09-15

Family

ID=68390283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018080934A Active JP7137815B2 (en) 2018-04-19 2018-04-19 Recording playback system

Country Status (1)

Country Link
JP (1) JP7137815B2 (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000244838A (en) 1998-12-22 2000-09-08 Pioneer Electronic Corp Program selector and program selecting method
JP2006025120A (en) 2004-07-07 2006-01-26 Casio Comput Co Ltd Recording and reproducing device, and remote controller
JP2006053876A (en) 2004-08-11 2006-02-23 Jcc Kk Method for consulting website related to recorded image when user is watching it
US20110029499A1 (en) 2009-08-03 2011-02-03 Fujitsu Limited Content providing device, content providing method, and recording medium
JP2013097723A (en) 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> Text summarization apparatus, method and program
JP2013198085A (en) 2012-03-22 2013-09-30 Sony Corp Information processing device, information processing method, information processing program and terminal device
JP2014103544A (en) 2012-11-20 2014-06-05 Samsung R&D Institute Japan Co Ltd Program recommendation apparatus and program for the same
JP2018033048A (en) 2016-08-25 2018-03-01 Jcc株式会社 Metadata generation system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101754473B1 (en) * 2015-07-01 2017-07-05 네이버 주식회사 Method and system for automatically summarizing documents to images and providing the image-based contents

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000244838A (en) 1998-12-22 2000-09-08 Pioneer Electronic Corp Program selector and program selecting method
JP2006025120A (en) 2004-07-07 2006-01-26 Casio Comput Co Ltd Recording and reproducing device, and remote controller
JP2006053876A (en) 2004-08-11 2006-02-23 Jcc Kk Method for consulting website related to recorded image when user is watching it
US20110029499A1 (en) 2009-08-03 2011-02-03 Fujitsu Limited Content providing device, content providing method, and recording medium
JP2013097723A (en) 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> Text summarization apparatus, method and program
JP2013198085A (en) 2012-03-22 2013-09-30 Sony Corp Information processing device, information processing method, information processing program and terminal device
JP2014103544A (en) 2012-11-20 2014-06-05 Samsung R&D Institute Japan Co Ltd Program recommendation apparatus and program for the same
JP2018033048A (en) 2016-08-25 2018-03-01 Jcc株式会社 Metadata generation system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
奥村学ほか,テキスト自動要約に関する研究動向(巻頭言に代えて),自然言語処理,言語処理学会,1999年07月10日,第6巻,第6号,pp.1-26
廣嶋 伸章、外2名,統計的手法に基づくWebページからのヘッドライン生成,情報処理学会研究報告,日本,社団法人情報処理学会,2002年05月24日,第2002巻,第44号,p.45-50
木村 晋太,自動認識機器のトレンド情報,月刊バーコード,日本,日本工業出版株式会社,2003年09月02日,第16巻,第11号,p.41-44

Also Published As

Publication number Publication date
JP2019191712A (en) 2019-10-31

Similar Documents

Publication Publication Date Title
US11170819B2 (en) Dynamic video highlight
JP5691289B2 (en) Information processing apparatus, information processing method, and program
JP4873018B2 (en) Data processing apparatus, data processing method, and program
US20050114357A1 (en) Collaborative media indexing system and method
JP6824399B2 (en) Voice guide generator, voice guide generation method and broadcasting system
WO2012020667A1 (en) Information processing device, information processing method, and program
CN103765910B (en) For video flowing and the method and apparatus of the nonlinear navigation based on keyword of other guide
JP2007041988A (en) Information processing device, method and program
JP2001333379A (en) Device and method for generating audio-video signal
MXPA97002675A (en) System and method for examining digital audio / video data
JP2007519987A (en) Integrated analysis system and method for internal and external audiovisual data
US20180332357A1 (en) Information processing apparatus, information processing method, and program
JP2004528640A (en) Method, system, architecture and computer program product for automatic video retrieval
Brown et al. Playing a part: Speaker verification at the movies
KR20200049192A (en) Providing Method for virtual advertisement and service device supporting the same
KR102261539B1 (en) System for providing artificial intelligence based korean culture platform service
CN106713973A (en) Program searching method and device
JP7137815B2 (en) Recording playback system
JP2019160071A (en) Summary creation system and summary creation method
Baughman et al. Detection of tennis events from acoustic data
Otani et al. Textual description-based video summarization for video blogs
KR100768074B1 (en) System for offering advertisement moving picture and service method thereof
JP2004015523A (en) Apparatus, method, and program for video related content generation
TWI497959B (en) Scene extraction and playback system, method and its recording media
Janin et al. Joke-o-Mat HD: browsing sitcoms with human derived transcripts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210303

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220328

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220829

R150 Certificate of patent or registration of utility model

Ref document number: 7137815

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150