JP2006343941A - Content retrieval/reproduction method, device, program, and recording medium - Google Patents

Content retrieval/reproduction method, device, program, and recording medium Download PDF

Info

Publication number
JP2006343941A
JP2006343941A JP2005168270A JP2005168270A JP2006343941A JP 2006343941 A JP2006343941 A JP 2006343941A JP 2005168270 A JP2005168270 A JP 2005168270A JP 2005168270 A JP2005168270 A JP 2005168270A JP 2006343941 A JP2006343941 A JP 2006343941A
Authority
JP
Japan
Prior art keywords
content
search
playback
subtitle
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005168270A
Other languages
Japanese (ja)
Inventor
Keiko Watanuki
啓子 綿貫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2005168270A priority Critical patent/JP2006343941A/en
Publication of JP2006343941A publication Critical patent/JP2006343941A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To retrieve all of a desired content section(scene) even when there is any difference on a style(expression) between a character string to be input by a user and a character string included in the subtitle data of a content. <P>SOLUTION: A content retrieval/reproduction device 10 includes a content DB11 for storing the content of a received broadcast signal, a title data decoder part 13 for decoding the title data of content to extract a title text, and for executing the morphemic analysis of the title text, a dictionary DB 12 for morphemic analysis for storing the invariant vocabulary information of conjugated words with self-contained words, an input part 14 for inputting a retrieval keyword, a keyword extracting part 15 for acquiring the invariant vocabulary information corresponding to each conjugated words from the dictionary DB12 when the input retrieval keyword includes the conjugated words with self-contained words and a retrieval part 16 for retrieving the title text including a matched character string, based on the acquired invariant vocabulary information, and for detecting the pertinent content section(scene), based on the retrieval result. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、テレビジョン装置などのデジタル放送信号を受信・記録した記録媒体から、所望の部分を検索・再生するためのコンテンツ検索・再生方法、装置、プログラム、及び該プログラムを記録した記録媒体に関する。   The present invention relates to a content search / playback method, a device, a program, and a recording medium on which the program is recorded, for searching and playing back a desired part from a recording medium that receives and records a digital broadcast signal such as a television device. .

従来、放送された映像を記録したものの中から自分の見たい場面を見つけるには、早送りを行うなどしていた。しかしながら、ストレージメディアが大容量化するなかで、記録されたすべての番組の中から、このような早送り再生で所望の部分を探すのは時間も労力もかかり、面倒である。   Conventionally, fast-forwarding has been performed in order to find a scene that one wants to see from a recorded video. However, as the capacity of a storage medium increases, searching for a desired part by such fast-forward playback from all recorded programs is time consuming and laborious.

例えば、特許文献1に記載されている文書処理装置は、語句の語幹と活用の種類、および活用形と活用語尾とを辞書に持たせ、文書中の指定された語句に対して、活用形を保持したまま、その類義語や反対語に変換できるようにしたものである。   For example, the document processing apparatus described in Patent Document 1 has a dictionary with word stems and types of utilization, utilization forms and utilization endings, and uses utilization forms for specified phrases in the document. It can be converted to its synonyms and antonyms while retaining them.

また、特許文献2に記載されている電子辞書検索装置は、例えば日本語の文章から英語の文章に翻訳する場合、使用者が入力した文字列を形態素解析し、活用語を基本形に補正して見出しとして取得し、辞書を検索するようにしたものである。   In addition, the electronic dictionary search device described in Patent Document 2, for example, when translating from a Japanese sentence to an English sentence, performs a morphological analysis on a character string input by the user, and corrects a word to be used as a basic form. It is obtained as a headline and searched for a dictionary.

また、特許文献3に記載されている映像情報検索再生方法は、字幕の文字列とタイムコードを組みとするレコードリストを作成し、台詞を検索キーとしてその場面から再生することを可能にしたものである。
特許第2898983号公報 特許第3377942号公報 特開平11−184867号公報
In addition, the video information search / playback method described in Patent Document 3 makes it possible to create a record list in which a subtitle character string and a time code are combined, and to play back from the scene using dialogue as a search key. It is.
Japanese Patent No. 2898983 Japanese Patent No. 3377742 JP-A-11-184867

上記特許文献1に記載の発明は、活用語のすべての活用形と活用語尾を辞書に持たせることで検索漏れを解決しようとするものであるが、話し言葉の活用語尾はくだけた口調・改まった口調、男性口調・女性口調などさまざまであり、すべての活用語尾を辞書に持たせることは難しい。   The invention described in the above-mentioned Patent Document 1 is intended to solve a search omission by providing a dictionary with all the usage forms and endings of the usage words. There are various tone such as tone, man tone, and woman tone, and it is difficult to have all the endings in the dictionary.

また、上記特許文献2に記載の発明は、活用語を基本形に補正することで辞書検索を確実に行おうとするものであるが、検索対象が字幕テキストの場合、基本形に補正することでかえってマッチングできなくなる場合が生じる。   In the invention described in Patent Document 2, the dictionary search is surely performed by correcting the utilization word to the basic form. However, when the search target is subtitle text, the matching is performed by correcting to the basic form. It may become impossible.

また、上記特許文献3に記載の発明は、使用者の入力する文字列が字幕の文字列と一致する部分を検出するものであり、使用者の入力する文字列のスタイル(言い回し)と字幕の文字列のスタイルと一致しない場合は検出されないという問題点がある。   The invention described in Patent Document 3 detects a portion where the character string input by the user matches the character string of the caption, and the character string style (phrase) input by the user and the caption There is a problem that it is not detected if it does not match the character string style.

テレビジョン放送信号に重畳されて伝送される字幕データは基本的に、コンテンツ(番組)の出演者やナレータが発話した口語体(話し言葉)であるため、くだけた口調や改まった口調、男性口調、女性口調などさまざまなスタイルを含む。一方、使用者が検索のため入力する要求文は、文字入力した場合は書き言葉調になり、音声入力した場合は話し言葉調になることが推測される。このように、さまざまなスタイル(言い回し)が出現すると、使用者所望のコンテンツ部分を検索する場合、ユーザが入力する文字列とコンテンツの字幕データに含まれる文字列との間にスタイル上のミスマッチが生じ、検索漏れを引き起こす可能性がある。   Subtitle data transmitted superimposed on a television broadcast signal is basically a colloquial style (spoken language) spoken by the performer of the content (program) or a narrator. Including various styles such as tone. On the other hand, it is presumed that the request sentence that the user inputs for the search is written in tone when characters are input, and in spoken language when voice is input. As described above, when various styles (phrases) appear, when searching for a user-desired content portion, there is a style mismatch between the character string input by the user and the character string included in the caption data of the content. And may cause a search omission.

本発明は、上述のごとき実情に鑑みてなされたものであり、使用者が入力する文字列とコンテンツの字幕データに含まれる文字列との間にスタイル(言い回し)上の違いがあっても所望のコンテンツ部分を漏れなく検索し、さらに、検索された文字列を含むコンテンツ部分から再生する際に、ある程度区切りの良い位置から再生できるようにすること、を目的とする。   The present invention has been made in view of the above circumstances, and is desirable even if there is a difference in style (phrase) between the character string input by the user and the character string included in the caption data of the content. It is an object of the present invention to make it possible to search the content part without any omission, and to reproduce the content part from a position with a certain degree of separation when reproducing from the content part including the searched character string.

上記課題を解決するために、本発明の第1の技術手段は、放送信号に重畳されて伝送される字幕データを取得し、該字幕データと使用者が入力する検索キーワードとを照合することにより、前記放送信号のコンテンツから使用者所望のコンテンツ部分を検索・再生するコンテンツ検索・再生方法において、テキストの形態素解析用の辞書データベースに、自立語で活用語の不変語彙情報を格納して有し、使用者が入力する検索キーワードが自立語で活用語を含む場合、各活用語に対応する不変語彙情報を前記辞書データベースから取得し、該取得した不変語彙情報を基に一致する文字列を含む字幕データを検索し、その検索結果に基づいて該当するコンテンツ部分を検出することを特徴としたものである。これにより、コンテンツ中の字幕テキストにさまざまなスタイル(言い回し)の語彙が出現していても、漏れなく所望のコンテンツ部分を検索することが可能となる。   In order to solve the above-mentioned problem, the first technical means of the present invention obtains subtitle data to be transmitted while being superimposed on a broadcast signal, and collates the subtitle data with a search keyword input by a user. In the content search / playback method for searching / playing back a user-desired content portion from the content of the broadcast signal, the dictionary database for text morphological analysis stores invariant vocabulary information of words used in independent words When the search keyword input by the user is an independent word and includes a usage word, invariant vocabulary information corresponding to each usage word is acquired from the dictionary database, and includes a matching character string based on the acquired invariant vocabulary information. This is characterized in that subtitle data is searched and a corresponding content portion is detected based on the search result. Thereby, even if vocabulary of various styles (phrase) appears in the subtitle text in the content, it is possible to search for a desired content portion without omission.

第2の技術手段は、第1の技術手段において、前記不変語彙情報は、自立語で活用語である動詞、形容詞、形容動詞のいずれか1つ又は複数の各活用形において不変部分の語彙情報であることを特徴としたものである。   A second technical means is the first technical means, wherein the invariant vocabulary information is vocabulary information of an invariant part in any one or a plurality of inflection forms of a verb, an adjective, and an adjective verb that are inflected words in independent words. It is characterized by being.

第3の技術手段は、第1の技術手段において、前記字幕データは、画面への表示単位である少なくとも1つの字幕文データユニットで構成され、前記検索された文字列を含む字幕文データユニットを単位として該当するコンテンツ部分を再生することを特徴としたものである。これにより、ある程度区切りの良い位置から再生できるようになり、使用者は見たい部分を適切な位置から視聴することができる。   According to a third technical means, in the first technical means, the subtitle data is composed of at least one subtitle sentence data unit which is a display unit on the screen, and the subtitle sentence data unit including the searched character string is included. The content portion corresponding to the unit is reproduced. Thereby, it becomes possible to reproduce from a position with a good separation to some extent, and the user can view a desired portion from an appropriate position.

第4の技術手段は、第3の技術手段において、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、コンテンツ毎に、字幕文データユニットを単位として、時系列順に順送りあるいは逆送りで順次再生することを特徴としたものである。   In the fourth technical means, in the third technical means, when reproducing a plurality of content parts in a single content or a plurality of content parts extending over a plurality of contents, a subtitle sentence data unit is provided for each content. As described above, the reproduction is sequentially performed by forward or backward feeding in time series order.

第5の技術手段は、第3の技術手段において、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、コンテンツ毎に、字幕文データユニットを単位として、使用者の操作に従って、時系列順に順送りあるいは逆送りにザッピング可能としたことを特徴としたものである。   In the fifth technical means, in the third technical means, when reproducing a plurality of content parts in a single content or a plurality of content parts extending over a plurality of contents, a subtitle sentence data unit is provided for each content. As described above, according to the operation of the user, it is possible to perform zapping in forward or backward in order of time series.

第6の技術手段は、第3の技術手段において、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、当該コンテンツ部分を所定の条件に従ってクラス分けし、そのクラス毎に、字幕文データユニットを単位として、時系列順に順送りあるいは逆送りに順次再生することを特徴としたものである。   According to the sixth technical means, in the third technical means, when reproducing a plurality of content parts in a single content or a plurality of content parts extending over a plurality of contents, the content parts are classified according to a predetermined condition. In addition, for each class, subtitle sentence data units are used as a unit, and playback is performed in order of forward or backward in chronological order.

第7の技術手段は、第3の技術手段において、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、当該コンテンツ部分を所定の条件に従ってクラス分けし、そのクラス毎に、字幕文データユニットを単位として、使用者の操作に従って、時系列順に順送りあるいは逆送りにザッピング可能としたことを特徴としたものである。   According to the third technical means, in the third technical means, when reproducing a plurality of content parts in a single content or a plurality of content parts extending over a plurality of contents, the content parts are classified according to a predetermined condition. In each class, the subtitle sentence data unit is used as a unit, and zapping can be performed in forward or backward in chronological order according to the user's operation.

第8の技術手段は、放送信号に重畳されて伝送される字幕データを取得し、該字幕データと使用者が入力する検索キーワードとを照合することにより、前記放送信号のコンテンツから使用者所望のコンテンツ部分を検索・再生するコンテンツ検索・再生装置において、自立語で活用語の不変語彙情報を格納した形態素解析用の辞書データベースと、検索キーワードを入力する入力手段と、該入力された検索キーワードが自立語で活用語を含む場合、各活用語に対応する不変語彙情報を前記辞書データベースから取得する手段と、該取得した不変語彙情報を基に一致する文字列を含む字幕データを検索し、その検索結果に基づいて該当するコンテンツ部分を検出する検索手段とを備えていることを特徴としたものである。   The eighth technical means obtains subtitle data to be transmitted while being superimposed on the broadcast signal, and collates the subtitle data with a search keyword input by the user, thereby determining the user-desired content from the content of the broadcast signal. In a content search / playback apparatus for searching / playing back a content part, a dictionary database for morphological analysis storing invariant vocabulary information of a use word as an independent word, input means for inputting a search keyword, and the input search keyword In the case where independent words include inflected words, means for acquiring invariant vocabulary information corresponding to each inflected word from the dictionary database, and searching for subtitle data including a matching character string based on the acquired invariant vocabulary information, Searching means for detecting a corresponding content portion based on the search result is provided.

第9の技術手段は、第8の技術手段において、前記不変語彙情報は、自立語で活用語である動詞、形容詞、形容動詞のいずれか1つ又は複数の各活用形において不変部分の語彙情報であることを特徴としたものである。   A ninth technical means is the eighth technical means, wherein the invariant vocabulary information is vocabulary information of an invariant part in any one or a plurality of inflection forms of a verb, an adjective, and an adjective verb that are inflected words in independent words. It is characterized by being.

第10の技術手段は、第8の技術手段において、前記字幕データは、画面への表示単位である少なくとも1つの字幕文データユニットで構成され、前記検索手段により検索された文字列を含む字幕文データユニットを単位として該当するコンテンツ部分を再生する再生手段を備えていることを特徴としたものである。   According to a tenth technical means, in the eighth technical means, the subtitle data is composed of at least one subtitle sentence data unit which is a display unit on the screen, and includes a subtitle sentence including a character string searched by the search means. The present invention is characterized in that a reproduction means for reproducing a corresponding content portion in units of data units is provided.

第11の技術手段は、第10の技術手段において、前記再生手段は、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、コンテンツ毎に、字幕文データユニットを単位として、時系列順に順送りあるいは逆送りで順次再生することを特徴としたものである。   According to an eleventh technical means, in the tenth technical means, the reproduction means reproduces a plurality of content parts in a single content or a plurality of content parts extending over a plurality of contents by subtitles for each content. A sentence data unit is used as a unit, and playback is performed sequentially in forward or reverse order in time series.

第12の技術手段は、第10の技術手段において、前記再生手段は、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、コンテンツ毎に、字幕文データユニットを単位として、使用者の操作に従って、時系列順に順送りあるいは逆送りにザッピング可能としたことを特徴としたものである。   According to a twelfth technical means, in the tenth technical means, the reproduction means reproduces a plurality of content parts within a single content or a plurality of content parts extending over a plurality of contents, with subtitles for each content. It is characterized in that zapping can be performed in forward or backward in chronological order according to a user's operation in units of sentence data units.

第13の技術手段は、第10の技術手段において、前記再生手段は、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、当該コンテンツ部分を所定の条件に従ってクラス分けし、そのクラス毎に、字幕文データユニットを単位として、時系列順に順送りあるいは逆送りに順次再生することを特徴としたものである。   According to a thirteenth technical means, in the tenth technical means, when the reproducing means reproduces a plurality of content parts in a single content or a plurality of content parts extending over a plurality of contents, the content part is predetermined. According to the above conditions, classification is performed, and for each class, reproduction is performed in order of forward or reverse in time series in units of caption text data units.

第14の技術手段は、第10の技術手段において、前記再生手段は、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、当該コンテンツ部分を所定の条件に従ってクラス分けし、そのクラス毎に、字幕文データユニットを単位として、使用者の操作に従って、時系列順に順送りあるいは逆送りにザッピング可能としたことを特徴としたものである。   According to a fourteenth technical means, in the tenth technical means, when the reproducing means reproduces a plurality of content parts in a single content or a plurality of content parts extending over a plurality of contents, the content part is predetermined. According to the above conditions, classification is performed, and for each class, zapping can be performed in forward or backward in chronological order according to the user's operation in units of caption text data units.

第15の技術手段は、第1乃至第7の技術手段のいずれか1に記載のコンテンツ検索・再生方法を実行するためのプログラムである。   A fifteenth technical means is a program for executing the content search / playback method described in any one of the first to seventh technical means.

第16の技術手段は、第15の技術手段に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。   The sixteenth technical means is a computer-readable recording medium recording the program described in the fifteenth technical means.

本発明によれば、放送信号に重畳されて伝送される字幕データを取得し、該字幕データと使用者が入力する検索キーワードとを照合することにより、放送信号のコンテンツから使用者所望のコンテンツ部分を検索・再生する方法において、検索に不変語彙情報を用いることにより、使用者が入力する要求文とコンテンツの字幕に含まれる文字列との間にミスマッチがあっても、所望のコンテンツ部分を漏れなく抽出することができる。   According to the present invention, subtitle data transmitted by being superimposed on a broadcast signal is obtained, and the subtitle data and a search keyword input by the user are collated, so that a content portion desired by the user can be obtained from the content of the broadcast signal. By using invariant vocabulary information for the search, even if there is a mismatch between the request text entered by the user and the character string included in the subtitles of the content, the desired content portion is leaked. Can be extracted.

また、画面上への表示単位である字幕文データユニットを利用することにより、ある程度区切りの良い位置から再生できるため、使用者は見たい部分を適切な位置から視聴することができる。   Further, by using the caption text data unit which is a display unit on the screen, it is possible to reproduce from a position with a certain degree of separation, so that the user can view a desired portion from an appropriate position.

また、複数の候補が検出されたとき、字幕文データユニット単位でザッピング(飛ばし見)できるため、より早く所望の部分を見つけることが可能となる。   In addition, when a plurality of candidates are detected, zapping can be performed in units of caption text data units, so that a desired portion can be found more quickly.

本発明は、放送信号に重畳されて伝送される字幕データを取得し、該字幕データと使用者が入力する検索キーワードとを照合することにより、放送信号のコンテンツから使用者所望のコンテンツ部分を検索・再生する方法において、テキストの形態素解析用の辞書に、自立語で活用語の不変語彙情報を格納して有し、使用者が入力する検索キーワードが自立語で活用語を含む場合、各活用語に対応する不変語彙情報を辞書から取得し、その不変語彙情報を基に一致する文字列を含む字幕データを検索し、検索結果に基づいて該当するコンテンツ部分を検出できるようにしたものである。なお、所望のコンテンツ部分とは、コンテンツ内に含まれる場面やシーンを指すものとする。   The present invention retrieves subtitle data that is superimposed on a broadcast signal and transmits the subtitle data to a search keyword input by the user, thereby searching for a content portion desired by the user from the content of the broadcast signal.・ In the playback method, invariant vocabulary information of words used in independent words is stored in the dictionary for text morphological analysis, and each keyword is used when the search keyword input by the user contains words in words. Invariant vocabulary information corresponding to a word is acquired from a dictionary, subtitle data including a matching character string is searched based on the invariant vocabulary information, and the corresponding content portion can be detected based on the search result. . The desired content part refers to a scene or scene included in the content.

上記の自立語で活用語とは、動詞、形容詞、形容動詞であり、自立語で非活用語には、名詞、代名詞、連体詞、副詞、接続詞、感動詞が含まれる。一般に、活用語の変化しない語頭の基幹部を語幹というが、本発明における不変語彙情報はこの語幹をベースにしたもので、くだけた口調や改まった口調、男性口調、女性口調などさまざまなスタイル(言い回し)において変化しない不変な部分を指す。なお、変化する語尾部分は活用語尾といい、活用語は基本的に、「語幹+活用語尾」から構成される。   The inflected words in the above independent words are verbs, adjectives, and adjective verbs, and the inflected words in the independent words include nouns, pronouns, conjunctions, adverbs, conjunctions, and moving verbs. In general, the basic part of the beginning of the word that does not change is called the word stem, but the invariant vocabulary information in the present invention is based on this word stem, and various styles such as a complex tone, a modified tone, a male tone, and a woman tone ( This refers to the unchanging part that does not change in the wording. Note that the ending part that changes is called an inflection ending, and the inflection word basically consists of “stem + inflection ending”.

また、字幕文データユニットとは、ここでは、放送信号に重畳されて送られてくる字幕データの画面上への表示単位のことをいう。デジタル放送システムにおいて、放送局は、字幕データを、映像や音情報とは別のPES(Packetized Elementary Stream)中に格納してトランスポートストリームに多重して送出しており、デジタル放送受信装置はこのデータをトランスポートストリームから分離・解析して、字幕を画面上に表示している。本発明では、この字幕PESデータから字幕データを、画面上への表示開始時刻とともに、あるいは表示開始時刻・表示終了時刻とともに取り出して、利用する。   In addition, the subtitle text data unit herein refers to a unit of display on the screen of subtitle data transmitted while being superimposed on a broadcast signal. In a digital broadcast system, a broadcast station stores subtitle data in a PES (Packetized Elementary Stream) separate from video and sound information, and multiplexes and sends the subtitle data to a transport stream. Data is separated from the transport stream and analyzed, and subtitles are displayed on the screen. In the present invention, subtitle data is extracted from the subtitle PES data together with the display start time on the screen, or together with the display start time and display end time, and used.

(第1の実施例)
図1は、本発明の第1の実施例に係るコンテンツ検索・再生装置の構成例を示すブロック図で、図中、10はコンテンツ検索・再生装置で、該コンテンツ検索・再生装置10は、コンテンツDB11、辞書DB12、字幕データデコーダ部13、入力部14、キーワード抽出部15、検索部16、再生部17を備えている。なお、図1は、本発明に係るコンテンツ検索・再生装置10を説明するために必要な基本的な回路ブロックのみについて、その構成例を示す。
(First embodiment)
FIG. 1 is a block diagram showing a configuration example of a content search / playback apparatus according to a first embodiment of the present invention. In the figure, 10 is a content search / playback apparatus, and the content search / playback apparatus 10 is a content DB 11, dictionary DB 12, caption data decoder unit 13, input unit 14, keyword extraction unit 15, search unit 16, and playback unit 17 are provided. FIG. 1 shows a configuration example of only basic circuit blocks necessary for explaining the content search / playback apparatus 10 according to the present invention.

本実施例において、使用者が見たい部分(場面、シーン)を示唆する要求文を入力すると、コンテンツ(テレビ番組など)の字幕データ中から当該要求文に含まれる文字列を含む部分を検索し、使用者に提示する場合について説明する。   In this embodiment, when a request sentence suggesting a part (scene, scene) that the user wants to see is input, a part including a character string included in the request sentence is searched from subtitle data of the content (such as a TV program). The case where it is presented to the user will be described.

図1において、コンテンツDB11は、デジタル放送信号を受信し、そのコンテンツ(テレビ番組など)を蓄積する手段である。辞書DB12は、形態素解析用の辞書で、名詞等の自立語非活用語と、動詞や形容詞、形容動詞等の自立語活用語を含み、活用語については不変語彙情報も格納されている。   In FIG. 1, a content DB 11 is means for receiving a digital broadcast signal and storing the content (such as a television program). The dictionary DB 12 is a dictionary for morphological analysis, and includes independent word non-use words such as nouns and independent word use words such as verbs, adjectives and adjective verbs, and invariant vocabulary information is also stored for the use words.

字幕データデコーダ部13は、デジタル放送信号に多重化されている字幕データ(例えば、クローズドキャプションデータなど)をデコードして、字幕テキストと画面表示上の単位である各字幕文データユニットの表示開始時刻、あるいは、表示開始時刻・表示終了時刻(いずれもタイムコードTと呼ぶ)を抽出する手段である。さらに、抽出した字幕テキストを、辞書DB12を参照して形態素解析する。また、入力部14は、使用者が要求文を入力するための手段である。   The subtitle data decoder unit 13 decodes subtitle data (for example, closed caption data) multiplexed on the digital broadcast signal, and displays the start time of the subtitle text and each subtitle sentence data unit that is a unit on the screen display. Alternatively, it is means for extracting the display start time and display end time (both are referred to as time code T). Further, the extracted subtitle text is subjected to morphological analysis with reference to the dictionary DB 12. The input unit 14 is a means for the user to input a request sentence.

キーワード抽出部15は、入力部14から入力された要求文を、辞書DB12を参照して形態素解析し、名詞、形容詞、形容動詞、動詞などの自立語を抽出し、さらに、抽出された文字列が、動詞等の活用語の場合は、辞書DB12を参照して不変語彙情報を取得して、これらを検索キーワード(以下、検索KWと呼ぶ)とする。   The keyword extraction unit 15 performs morphological analysis on the request sentence input from the input unit 14 with reference to the dictionary DB 12, extracts independent words such as nouns, adjectives, adjective verbs, and verbs, and further extracts the extracted character string. However, in the case of an inflection word such as a verb, invariant vocabulary information is acquired with reference to the dictionary DB 12, and these are used as search keywords (hereinafter referred to as search KW).

検索部16は、上記検索KWを基に字幕データデコーダ部13に格納されている字幕テキストを検索し、その文字列を含む字幕文データユニットのタイムコードTを取得する手段である。再生部17は、検索部16で取得されたタイムコードTの位置からコンテンツを再生する手段である。   The search unit 16 is means for searching the subtitle text stored in the subtitle data decoder unit 13 based on the search KW and obtaining the time code T of the subtitle sentence data unit including the character string. The playback unit 17 is a unit that plays back content from the position of the time code T acquired by the search unit 16.

次に、辞書DB12について詳細に説明する。辞書DB12は、コンテンツの字幕データおよび使用者が入力する要求文を形態素解析し、さらに、使用者が入力する要求文に自立語で活用語が含まれる場合、その不変語彙情報を取得するために用いられる。ここで用いる不変語彙情報は、一般に利用される語幹とは異なる。以下、本発明における辞書DB12に登録する不変語彙情報について説明する。   Next, the dictionary DB 12 will be described in detail. The dictionary DB 12 performs morphological analysis on the caption data of the content and the request sentence input by the user, and further acquires the invariant vocabulary information when the requested sentence input by the user includes a use word as an independent word. Used. The invariant vocabulary information used here is different from a commonly used stem. Hereinafter, invariant vocabulary information registered in the dictionary DB 12 in the present invention will be described.

例えば、使用者が要求文として「チーズケーキを焼く」と入力した場合、この文字列は辞書DB12を用いて、形態素解析により、「チーズケーキ/を/焼く」のように分割される。辞書DB12は、それぞれの語に対して、例えば以下の情報を含む。
チーズケーキ(名詞)
を(格助詞)
焼く(動詞・五段活用・終止形)
For example, when the user inputs “bake cheesecake” as a request sentence, this character string is divided into “cheesecake / bake” by morphological analysis using the dictionary DB 12. The dictionary DB 12 includes, for example, the following information for each word.
Cheese cake (noun)
(Case particle)
Bake (verb, five-stage use, final form)

一方、コンテンツ内に含まれる字幕データ中で、「焼く」に関連するフレーズとしては以下のようなものが考えられる。
これをオーブンで焼きます
焼く場合に注意すべき点は、
強火で焼いてください。
では、焼いてみましょう。
そのまま焼いちゃって構いません。
焼き損なうことは、まずありません。
焼きあがりましたら、今度は、
これを丸ごと、焼いていくんです。
先日、子供と一緒にケーキを焼こうということになったんです。
すぐに焼かないで、まず1時間このまま寝かせます。
On the other hand, in the subtitle data included in the content, the following phrases can be considered as phrases related to “burn”.
Bake this in the oven.
What should be noted when baking
Bake on high heat.
Let's bake it .
You can bake it as it is.
It is unlikely that it will burn out.
Once baked , this time,
I bake this whole.
The other day, I decided to bake a cake with my child.
Don't bake immediately, first let it sleep for 1 hour.

上記のようにさまざまな言い回しがあるが、「焼く」は五段活用であるため、以下のように活用することが知られている。
yak−a−nai/−a−zu(未然形:否定の形)
yak−i−masu/ya(k)−i−ta(連用形)
yak−u(終止形)
yak−u−toki(連体形:名詞が後続する)
yak−e−ba(仮定形)
yak−e(命令形)
yak−o−o(志向形:意思)
There are various expressions as mentioned above, but “baking” is a five-stage use, so it is known to use it as follows.
yak-a-nai / -a-zu (form: negative form)
yak-i-masu / ya (k) -i-ta (continuous use type)
yak-u (end type)
yak-u-toki (continuous form: followed by a noun)
yak-e-ba (assumed form)
yak-e (instruction type)
yak-o-o (oriented form: intention)

これらに共通する部分は“yak−”である。この部分が、一般に語幹と呼ばれているものである。そこで、「焼く」に関連するすべての語彙を漏れなく字幕テキスト中で検索するには、このyak−を用いればよい。しかしながら、テキストマッチングで照合すると、「焼」のみで照合することになり、たとえば、「焼失」、「燃焼」などの単語もマッチングしてしまう。そこで、yak−に、活用語尾にあたるa,i,u,e,oを加えて、「焼か」,「焼き」,「焼く」,「焼け」,「焼こ」を不変語彙情報として辞書DB12に登録しておく。   The part common to these is “yak−”. This part is what is generally called a word stem. Therefore, this yak- can be used to search all vocabulary related to “baking” in the subtitle text without omission. However, when collation is performed by text matching, collation is performed only by “burning”. For example, words such as “burnt” and “burning” are also matched. Therefore, “a”, “i”, “u”, “e”, “o” corresponding to the use endings are added to “yak-”, and “baked”, “baked”, “baked”, “burned”, and “baked” are registered in the dictionary DB 12 as invariant vocabulary information. Keep it.

さらに、五段活用動詞の場合、yak−の語尾の子音(この場合はk)によってさまざまな音便化が起こる。たとえば、yak−にta(た)が後続すると、イ音便化して、yai−(焼い)となる。そこで、このような音便化を考慮した語彙(この場合は「焼い」)も不変語彙情報として辞書DB12に登録しておく。なお、音便化はイ音便化のほかに、促音便(例:「買った」)、撥音便(例:「読んだ」)がある。このように、自立語で活用語が五段活用の場合は、一般的に語幹と呼ばれている部分(「焼く」の場合はyak)にa,i,u,e,oを加えた文字列と、音便化を考慮した文字列とを不変語彙情報として辞書DB12に登録しておく。すなわち、動詞「焼く」の不変語彙情報としては、「焼か」,「焼き」,「焼く」,「焼け」,「焼こ」,「焼い」が辞書DB12に登録される。この6種類が登録されていれば、上記であげたさまざまな言い回しすべてを漏れなく検索することが可能となる。   Furthermore, in the case of a five-stage verb, various stool conversions occur due to the consonant at the end of yak- (in this case k). For example, when ta (ta) follows yak-, it is turned into stool and becomes yai- (baked). Therefore, the vocabulary (in this case, “baked”) taking into account such stool conversion is also registered in the dictionary DB 12 as invariant vocabulary information. In addition to sound stool conversion, there are sound stool (e.g. "bought") and sound-repellent stool (e.g. "read"). In this way, if the word is a self-supporting word and the fifth word is used, the characters that are generally called stems (yak for “baked”) plus a, i, u, e, o A string and a character string in consideration of stool conversion are registered in the dictionary DB 12 as invariant vocabulary information. That is, as the invariant vocabulary information of the verb “baked”, “baked”, “baked”, “baked”, “burned”, “baked”, and “baked” are registered in the dictionary DB 12. If these six types are registered, it is possible to search all of the various phrases mentioned above without omission.

なお、五段活用以外の活用形では以下のようになる。上一段活用の、例えば「媚びる」の場合、
kob−i−nai
kob−i−rimasu/kab−i−ta
kob−i−ru
kob−i−rutoki
kob−i−reba
kob−i−ro
kob−i−yoo
In addition, the usage forms other than the 5-stage utilization are as follows. For example, in the case of “Pleasant”
kob-i-nai
kob-i-rimasu / kab-i-ta
kob-i-ru
kob-i-rutoki
kob-i-reba
kob-i-ro
kob-i-yo

この場合、共通部分であるkobi−(「媚び」)を不変語彙情報として辞書DB12に登録する。なお、上一段活用の場合は、音便化は起こらない。したがって、動詞「媚びる」の不変語彙情報としては、「媚び」のみを登録しておけばよい。   In this case, kobi- (“apore”), which is a common part, is registered in the dictionary DB 12 as invariant vocabulary information. In addition, in the case of the upper one use, the stool conversion does not occur. Therefore, it is only necessary to register “aporie” as the invariant vocabulary information of the verb “aporie”.

また、下一段活用の、例えば「炒める」の場合、
itam−e−nai
itam−e−masu/itam−e−ta
itam−e−ru
itam−e−rutoki
itam−e−reba
itam−e−ro
itam−e−yoo
In addition, in the case of “stir fry”, for example,
itam-e-nai
itam-e-masu / itam-e-ta
itam-e-ru
itam-e-rutoki
itam-e-reba
itam-e-ro
itam-e-yoo

この場合、共通部分であるitame−(「炒め」)を不変語彙情報として辞書DB12に登録する。なお、下一段活用の場合も音便化は起こらないため、動詞「炒める」の不変語彙情報としては、「炒め」のみを登録しておけばよい。   In this case, “item-” (“fried”), which is a common part, is registered in the dictionary DB 12 as invariant vocabulary information. In the case of the lower one, the stool conversion does not occur, so it is only necessary to register “stir fry” as the invariant vocabulary information of the verb “stir fry”.

また、カ変動詞の場合、このカ変動詞は「来る」のみである。しかし、この場合は、単語全体が変化するため、所謂、語幹がない。
ko−nai/−zu
ko−saseru
ki−masu/−ta
ku−ru
kuru−toki
kure−ba
ko−i
ko−yoo
Further, in the case of a ka-variator, this ka-variator is only “coming”. However, in this case, since the whole word changes, there is no so-called word stem.
ko-nai / -zu
ko-saseru
ki-masu / -ta
ku-ru
kuru-toki
kure-ba
ko-i
ko-yoo

したがって、この場合は、以下に示すすべての活用(下線部)を不変語彙情報として辞書DB12に登録する。
誰も来(こ)ない、来(こ)ずに、来(こ)させる、先に来(こ)られては大変だ、
来(こ)れる日はいつ、来(き)ます、来(き)たよ、来(き)てみれば、来(く)るだろう、来(く)る日は、来(く)ればわかる、来(こ)い来(こ)ようと思った、来(き)ちゃった、
Therefore, in this case, all utilizations (underlined parts) shown below are registered in the dictionary DB 12 as invariant vocabulary information.
Anyone come have a (child), to not a come (this), to come (this), it is very has been found previously to come (this),
Come (this) Re that day when, come (-out) or be, I was coming (-out), Mireba Te came (-out), will Ru come (Ku), come (Ku) Ru day, come ( Ku) Re Bawakaru, have come (this), I thought intends good come (this), come (-out) was Chi Ya',

また、サ変動詞の、例えば「熱する」の場合、
ness−i−nai/−e−zu/−a−reru
ness−i−masu/−i−ta
ness−u−ru
ness−u−rutoki
ness−u−reba
ness−i−ro/−e−yo
ness−i−yoo
Also, in the case of the sa variable, for example, “to heat”,
ness-i-nai / -e-zu / -a-reru
ness-i-masu / -i-ta
ness-u-ru
ness-u-rutoki
ness-u-reba
ness-i-ro / -e-yo
ness-i-yo

この場合は、共通部分であるness−に、これに続いて出現し得るa,i,u,eを加えて、「熱さ」,「熱し」,「熱す」,「熱せ」を不変語彙情報として辞書DB12に登録する。   In this case, a, i, u, and e that can appear subsequently are added to the common part ness-, and “heat”, “heat”, “heat”, and “heat” are invariant vocabulary information. Is registered in the dictionary DB 12 as

検索部16は、キーワード抽出部15に格納されている検索KW(自立語)を基に、字幕データデコーダ部13に格納されている字幕データを照合・検索する。その際、検索KWに自立語で活用語が含まれる場合は、その照合には、これら辞書DB12に登録された不変語彙情報を利用して文字列検索をおこなう。すなわち、使用者が要求文として「チーズケーキを焼く」と入力した場合、この要求文には、検索KWとして自立語で活用語の「焼く」が含まれるため、その照合には、辞書DB12に登録された不変語彙情報「焼か」,「焼き」,「焼く」,「焼け」,「焼こ」,「焼い」すべてに対し、文字列検索を行う。その結果、たとえば、「先週、初めてチーズケーキを焼いちゃったよ」や「俺たちだって、チーズケーキぐらい焼けるぜ」といった、さまざまな表現の字幕テキストが出現しても、漏れなく所望のコンテンツ部分を検索することができる。   The search unit 16 collates and searches the caption data stored in the caption data decoder unit 13 based on the search KW (independent word) stored in the keyword extraction unit 15. At this time, if the search KW includes an inflected word as an independent word, a character string search is performed using the invariant vocabulary information registered in the dictionary DB 12 for the collation. That is, when the user inputs “bake cheesecake” as a request sentence, this request sentence includes the word “baked” as an independent word as a search KW. Character string search is performed for all registered invariant vocabulary information “baked”, “baked”, “baked”, “burned”, “baked”, and “baked”. As a result, even if subtitle texts with various expressions such as “I baked cheesecake for the first time last week” and “We can bake cheesecake for the first time” appear, search for the desired content part without omission. can do.

次に、コンテンツ検索・再生装置10のハードウエア構成の具体例について説明する。図2は、図1に示したコンテンツ検索・再生装置10の具体的なシステム構成例を示すブロック図で、コンテンツ検索・再生装置10は、CPU1、ワークメモリ2、入力部3、データベース4、表示部5、音響出力部6、外部記憶ドライブ7、受信部8を備えている。CPU1は、内蔵のシステムプログラムに従ってコンテンツ検索・再生装置10のシステム全体の制御を行なう他、図1に示した検索部16に相当する検索処理プログラムなどの各種プログラムを実行する。また、受信部8で受信したテレビ番組などのコンテンツは、図1に示したコンテンツDB11に相当するデータベース4に蓄積される。CPU1は、データベース4に蓄積されたコンテンツを処理して、ワークメモリ2上に処理結果を作成する。   Next, a specific example of the hardware configuration of the content search / playback apparatus 10 will be described. FIG. 2 is a block diagram showing a specific system configuration example of the content search / playback apparatus 10 shown in FIG. 1. The content search / playback apparatus 10 includes a CPU 1, a work memory 2, an input unit 3, a database 4, and a display. Unit 5, sound output unit 6, external storage drive 7, and reception unit 8. The CPU 1 controls the entire system of the content search / playback apparatus 10 according to a built-in system program, and executes various programs such as a search processing program corresponding to the search unit 16 shown in FIG. Further, content such as a television program received by the receiving unit 8 is stored in the database 4 corresponding to the content DB 11 shown in FIG. The CPU 1 processes the content stored in the database 4 and creates a processing result on the work memory 2.

ワークメモリ2は、前述した検索KWに関するデータや、演算に使用するデータ、演算結果等を一時的に記憶するいわゆる作業用のメモリであり、CPU1により実行される検索プログラムや、その検索プログラムにおいて利用されるデータやプログラム処理結果等を格納する。なお、上記検索プログラムのうち、変更の可能性が低い一部のプログラムは、システムプログラムと同様に、図示していないROMに格納するようにしても良い。   The work memory 2 is a so-called working memory that temporarily stores data related to the above-described search KW, data used for calculation, calculation results, and the like, and is used in the search program executed by the CPU 1 and the search program. Stored data, program processing results, and the like. Note that some of the search programs that are unlikely to be changed may be stored in a ROM (not shown) as in the case of the system program.

また、ワークメモリ2として用いられるRAMの一部の記憶領域は、電源バックアップされているか、あるいは、EEPROM(Electrically Erasable Programmable ROM)やフラッシュメモリ等の不揮発性メモリにより構成されていて、電源オフの状態にあっても、記憶内容をそのまま保持することが可能である。この不揮発性の記憶領域には、電源オフであっても記憶内容を保持する必要がある検索KWを含む各種データや処理データ、プログラム等が格納される。   In addition, a part of the RAM used as the work memory 2 is backed up by power, or is configured by a non-volatile memory such as an EEPROM (Electrically Erasable Programmable ROM) or a flash memory, and the power is off. Even in this case, it is possible to retain the stored contents as they are. In this nonvolatile storage area, various data including processing KW, processing data, programs, and the like that need to retain stored contents even when the power is turned off are stored.

入力部3は、図1に示した入力部14に対応しており、使用者が要求文を入力するリモコンのキーやマイク、カメラ、センサなどから成る。なお、カメラやセンサは、文字認識機能を備え、新聞や雑誌等の文字を入力できるようにしてもよい。入力部3から入力した文字列はCPU1において処理されて、ワークメモリ2に検索KWとして記憶される。   The input unit 3 corresponds to the input unit 14 shown in FIG. 1, and includes a remote controller key, a microphone, a camera, a sensor, and the like for inputting a request text by the user. The camera or sensor may be provided with a character recognition function so that characters such as newspapers and magazines can be input. The character string input from the input unit 3 is processed by the CPU 1 and stored in the work memory 2 as a search KW.

表示部5と音響出力部6は、図1に示した再生部17に対応しており、受信部8で受信された放送信号の中からテレビ画面表示用の映像信号と音響信号を抽出して表示すると共に、データベース4に格納された各種情報やCPU1の演算処理結果を出力する。表示部5は、液晶ディスプレイやプラズマディスプレイなどから構成され、音響出力部6は、スピーカやヘッドホンなどから構成されている。また、外部記憶ドライブ7は、CPU1で実行されるプログラムを含む各種の放送受信プログラムを記録した外部記憶媒体(記録媒体)9の読み取り手段である。   The display unit 5 and the audio output unit 6 correspond to the reproduction unit 17 shown in FIG. 1 and extract a video signal and an audio signal for TV screen display from the broadcast signal received by the receiving unit 8. While displaying, the various information stored in the database 4 and the arithmetic processing result of CPU1 are output. The display unit 5 includes a liquid crystal display or a plasma display, and the sound output unit 6 includes a speaker, headphones, or the like. The external storage drive 7 is a reading unit of an external storage medium (recording medium) 9 in which various broadcast reception programs including programs executed by the CPU 1 are recorded.

外部記憶媒体(記録媒体)9は、例えば、各種のメモリカード、ハードディスク、DVD−ROM等の記録媒体からなっている。ここで、外部記憶媒体(記録媒体)9には、後述する実施の形態におけるコンテンツ検索・再生処理プログラム等が記憶されており、外部記憶ドライブ7に装着することにより外部記憶媒体(記録媒体)9に格納されている各種の情報が読み取られて、ワークメモリ2などに格納される。   The external storage medium (recording medium) 9 includes recording media such as various memory cards, hard disks, and DVD-ROMs. Here, the external storage medium (recording medium) 9 stores a content search / playback processing program or the like in an embodiment to be described later, and the external storage medium (recording medium) 9 is attached to the external storage drive 7. Various information stored in the memory is read and stored in the work memory 2 or the like.

以下、前述の図1を用いて、コンテンツ検索・再生装置10の動作例について説明する。本発明は、前述したように、放送信号に含まれて送信されてくる字幕データを利用して、放送信号として受信したコンテンツ(テレビ番組など)に対し、使用者が視聴を所望する部分(場面、シーン)を検索し、使用者に提示することを目的としている。以下、使用者がリモコンのキーなどを用いて入力した要求文に基づいて所望の部分を検索し、使用者に提示する場合を例にして説明する。   Hereinafter, an operation example of the content search / playback apparatus 10 will be described with reference to FIG. As described above, according to the present invention, a portion (scene) that a user desires to view content (such as a TV program) received as a broadcast signal using subtitle data included in the broadcast signal and transmitted. , Scene) and is intended to be presented to the user. Hereinafter, a case where a desired portion is searched based on a request sentence input by the user using a key on the remote controller and presented to the user will be described as an example.

まず、図1に示したコンテンツ検索・再生装置10の各ブロックの基本動作例について述べる。コンテンツDB11は、受信したデジタルコンテンツ(放送番組など)を蓄積する。ここに蓄積されるデータは、前述したように、映像・音データの他、受信した放送信号に多重化されている字幕データが含まれる。辞書DB12は、形態素解析用の辞書で、自立語で活用語の不変語彙情報を含む。字幕データデコーダ部13は、コンテンツDB11に含まれる字幕データ(クローズドキャプションデータなど)をデコードし、字幕テキストと、画面表示上の単位である各字幕文データユニットの表示開始時刻、あるいは、表示開始時刻・表示終了時刻(タイムコードT)を取り出す。さらに、取り出した字幕テキストを、辞書DB12を参照して形態素解析する。入力部14は、使用者が見たい部分(場面、シーン)に関する要求文(テキスト)をリモコンのキーなどで入力する。入力された要求文はキーワード抽出部15に対して出力される。   First, a basic operation example of each block of the content search / reproduction device 10 shown in FIG. 1 will be described. The content DB 11 stores received digital content (such as broadcast programs). As described above, the data stored here includes subtitle data multiplexed with the received broadcast signal in addition to the video / sound data. The dictionary DB 12 is a dictionary for morphological analysis, and includes invariant vocabulary information of words used as independent words. The caption data decoder unit 13 decodes the caption data (closed caption data and the like) included in the content DB 11, and displays the caption text and the display start time or the display start time of each caption sentence data unit that is a unit on the screen display. -Take out the display end time (time code T). Further, the extracted subtitle text is subjected to morphological analysis with reference to the dictionary DB 12. The input unit 14 inputs a request sentence (text) related to a portion (scene, scene) that the user wants to see with a key on the remote controller or the like. The input request sentence is output to the keyword extraction unit 15.

キーワード抽出部15は、入力部14から入力された使用者の要求文を辞書DB12を参照して形態素解析し、名詞や形容詞、動詞など自立語を抽出する。さらに、活用語については、辞書DB12を参照して不変語彙情報を取得する。例えば、要求文が「キムチの漬け方」であった場合は、/キムチ(名詞)/の(助詞)/漬け(動詞:下一段活用)/方(付属語)/、のように形態素解析され、まず、自立語である名詞の「キムチ」と動詞の「漬け」が抽出され、さらに、活用語である動詞「漬ける」の不変語彙情報である「漬け」が検索KWとして取得される。ここで、動詞「漬ける」は下一段活用であるため、不変語彙情報は「漬け」のみである。抽出された検索KW「キムチ」と「漬け」は検索部16に対して出力される。   The keyword extraction unit 15 performs morphological analysis on the user's request sentence input from the input unit 14 with reference to the dictionary DB 12, and extracts independent words such as nouns, adjectives, and verbs. Further, for inflected words, invariant vocabulary information is acquired with reference to the dictionary DB 12. For example, if the request sentence is “how to pickle kimchi”, the morphological analysis is as follows: / kimchi (noun) / no (participant) / pick (verb: lower one step utilization) / method (adjunct) / First, the noun “Kimchi” which is an independent word and the verb “Kizuke” are extracted, and “zuke” which is invariant vocabulary information of the verb “Kizuke” is acquired as a search KW. Here, since the verb “pickle” is used further below, the only invariant vocabulary information is “pickle”. The extracted search KW “kimchi” and “duke” are output to the search unit 16.

検索部16は、キーワード抽出部15で抽出された検索KWを基に、字幕データデコーダ部13に格納されている字幕データを検索する。すなわち、「キムチ」、「漬け」に一致する文字列がコンテンツの字幕データ中に存在するか否かを検索する。一致する文字列が検出されたときは、その文字列を含む字幕文データユニットのタイムコードTを取得し、そのタイムコードTを再生部17に対して出力する。   The search unit 16 searches the caption data stored in the caption data decoder unit 13 based on the search KW extracted by the keyword extraction unit 15. That is, it is searched whether or not a character string matching “Kimchi” and “Zuke” exists in the caption data of the content. When a matching character string is detected, the time code T of the caption text data unit including the character string is acquired, and the time code T is output to the playback unit 17.

再生部17は、コンテンツDB11に格納されたコンテンツを、検索部16で抽出されたタイムコードTの位置から再生出力する。このとき、字幕データは再生してもしなくてもよい。また、必要であれば、ユーザはリモコン操作等で、タイムコードTに相当する位置より前に戻って見ることも可能とする。タイムコードTが表示終了時刻を含む場合は、当該時刻で再生を停止する。タイムコードTが表示終了時刻を含まない場合は、使用者がリモコン等で停止しない限り、コンテンツの最後まで再生される。   The reproduction unit 17 reproduces and outputs the content stored in the content DB 11 from the position of the time code T extracted by the search unit 16. At this time, the caption data may or may not be reproduced. Further, if necessary, the user can return to a position before the position corresponding to the time code T by a remote control operation or the like. When the time code T includes the display end time, the reproduction is stopped at the time. When the time code T does not include the display end time, the content is played to the end unless the user stops it with a remote controller or the like.

ここで、字幕文データユニットについて、図3に示す模式図を用いて説明する。コンテンツDB11に入力されてくる放送受信信号は、映像データ、音データ(音声及び音)、字幕データなどから構成されている。ここで、字幕文データユニットは画面上への表示単位で、表示開始時刻(タイムコードT)=101、102、・・・とともに伝送されてくる。例えば、図3において、時刻T=102から時刻T=103の間、字幕データ「続いて、白菜キムチを作ります」が表示され、続いて、時刻T=103から時刻T=104の間、字幕データ「まず、前日に塩漬けした白菜を塩抜きします」が表示される。すなわち、後続の字幕文データユニットの表示開始時刻が、その前の字幕文データユニットの表示終了時刻になる。   Here, the caption text data unit will be described with reference to the schematic diagram shown in FIG. The broadcast reception signal input to the content DB 11 is composed of video data, sound data (sound and sound), caption data, and the like. Here, the caption text data unit is a display unit on the screen and is transmitted together with the display start time (time code T) = 101, 102,. For example, in FIG. 3, the caption data “Continue to make Chinese cabbage kimchi” is displayed from time T = 102 to time T = 103, and then the caption is displayed from time T = 103 to time T = 104. The data “First, salt the Chinese cabbage salted the previous day” is displayed. That is, the display start time of the subsequent caption text data unit is the display end time of the previous caption text data unit.

検索部16は、キーワード抽出部15で抽出された検索KWを基に、字幕データデコーダ部13に格納されている字幕データを検索し、検索KWに一致する文字列が検出されたときは、その文字列を含む字幕文データユニットのタイムコードTを取得し、そのタイムコードTを再生部17に対して出力する。これにより、ある程度区切りの良い位置から再生することが可能となる。   The search unit 16 searches subtitle data stored in the subtitle data decoder unit 13 based on the search KW extracted by the keyword extraction unit 15, and when a character string that matches the search KW is detected, The time code T of the caption text data unit including the character string is acquired, and the time code T is output to the playback unit 17. As a result, it is possible to reproduce from a position with a good separation.

次に、検索部16の動作例について詳細に説明する。検索部16は、字幕データデコーダ部13中の字幕データを検索し、まず、検索KWを含むコンテンツが存在するか否かを調べる。検索KWが複数ある場合は、すべての検索KWを含むコンテンツが存在するか否かを調べる。(ただし、ひとつの字幕文データユニット内にすべての検索KWが含まれている必要はない)。コンテンツが存在する場合は、そのコンテンツ内の、各検索KWに一致する文字列を含む字幕文データユニットのタイムコードTを取得し、そのタイムコードTを再生部17に出力する。   Next, an operation example of the search unit 16 will be described in detail. The search unit 16 searches the subtitle data in the subtitle data decoder unit 13 and first checks whether there is content including the search KW. If there are a plurality of search KWs, it is checked whether there is content including all the search KWs. (However, not all search KWs need to be included in one caption text data unit). If the content exists, the time code T of the subtitle sentence data unit including the character string that matches each search KW in the content is acquired, and the time code T is output to the playback unit 17.

例えば、検索KWが「キムチ」、「漬け」であったとすると、図3において検出される字幕文データユニットは、「続いて、白菜キムチを作ります」と、「これで、美味しい白菜キムチが漬けあがります」であり、それぞれのタイムコードT「102−103」、「106−107」が取得されて、再生部17に対して出力される。なお、タイムコードTは表示開始時刻のみでもよい。   For example, if the search KW is “Kimchi” and “Kizuke”, the subtitle sentence data unit detected in FIG. 3 is “Next, we will make a Chinese cabbage kimchi” and “Now, the delicious Chinese cabbage kimchi is soaked. The time codes T “102-103” and “106-107” are acquired and output to the reproduction unit 17. The time code T may be only the display start time.

再生部17は、上記タイムコードTを基に、字幕文データユニットを単位に、コンテンツDB11内のコンテンツを再生する。すなわち、再生部17は、「続いて、白菜キムチを作ります」と、「これで、美味しい白菜キムチが漬けあがります」に相当する部分を再生出力する。   Based on the time code T, the playback unit 17 plays back the content in the content DB 11 in units of caption text data units. That is, the reproduction unit 17 reproduces and outputs a portion corresponding to “Continue to make Chinese cabbage kimchi” and “Now, delicious Chinese cabbage kimchi is pickled.”

前述したように、再生部17は、検索部16で取得したタイムコードTを基に、字幕文データユニットを単位に、コンテンツDB11内のコンテンツを再生する。図4は、コンテンツ検索・再生装置10において再生処理するときの画面例を示す図である。画面上には、検出されたコンテンツ名(本例では料理番組)21と、そのコンテンツ名21のコンテンツに対応する複数の字幕文データユニットからなる字幕文データユニット群22と、再生映像23がその上部に表示される。字幕文データユニット群22は、検索部16で検出された字幕文データユニットを中心にその前後の字幕文データユニットがサムネイル表示されたものである。図4中のTは検出された字幕文データユニットのタイムコードTを表す。もちろん、タイムコードTに相当する部分のみサムネイル表示してもよい。このとき、字幕は表示してもしなくてもよい。また、字幕と映像を別ウインドウに表示するようにしてもよい。また、サムネイルなしでもよい。   As described above, the playback unit 17 plays back the content in the content DB 11 in units of subtitle sentence data units based on the time code T acquired by the search unit 16. FIG. 4 is a diagram illustrating an example of a screen when the content search / playback apparatus 10 performs playback processing. On the screen, a detected content name (a cooking program in this example) 21, a caption text data unit group 22 including a plurality of caption text data units corresponding to the content of the content name 21, and a playback video 23 are displayed. Displayed at the top. The subtitle sentence data unit group 22 is a subtitle sentence data unit detected by the search unit 16 as a center and the subtitle sentence data units before and after the subtitle sentence data unit are displayed as thumbnails. T in FIG. 4 represents the time code T of the detected caption text data unit. Of course, only the portion corresponding to the time code T may be displayed as a thumbnail. At this time, subtitles may or may not be displayed. Further, the subtitle and the video may be displayed in separate windows. Also, there may be no thumbnail.

図4において、コンテンツを再生するときは、使用者がリモコン操作等で任意のサムネイルを選択すると、選択された位置Tから開始するようにしてもよいし(この場合、字幕文データユニット単位で停止してもよいし、使用者がリモコン操作等で停止するまで、コンテンツの終わりまで再生を継続するようにしてもよい)、タイムコードTの時系列順に、字幕文データユニット単位に自動コマ送り再生するようにしてもよい。   In FIG. 4, when playing back the content, if the user selects an arbitrary thumbnail by remote control operation or the like, it may be started from the selected position T (in this case, stopped in units of subtitle sentence data units). Alternatively, playback may be continued until the end of the content until the user stops by remote control operation or the like), and automatic frame-by-frame playback in units of subtitle sentence data units in time-sequential order of time code T You may make it do.

なお、再生途中に、使用者がリモコン操作等により、当該タイムコードTの位置より前に戻ることができるようにしてもよいし、また、再生途中に、使用者がリモコン操作等により再生停止できるようにしてもよい。また、再生開始位置は、タイムコードTに一致させてもよいし、あるいは、ある一定時間(例えば、1秒)前から再生するようにしてもよい。   During playback, the user may return to the position of the time code T by operating the remote control or the like, or during playback, the user can stop playback by operating the remote control or the like. You may do it. Further, the reproduction start position may be made coincident with the time code T, or may be reproduced from a certain fixed time (for example, 1 second).

また、映像情報や音情報を用いて再生開始位置を調整してもよい。すなわち、検出された字幕文データユニット22のタイムコードTに加えて、映像情報や音情報を用いることにより、視聴し始めるのにより適切な位置を決めることができる。音情報としては、例えば、背景音の有無や変化、雑音レベルの変化、音声認識を利用した話者の変化、無音状態の変化などを利用して、より適切な再生開始位置を決めることができる。映像情報としては、例えば、動きベクトル、輝度レベル、色度ヒストグラムの変化量などを利用して、より適切な再生開始位置を決めることができる。したがって、字幕文データユニットを含み、かつ、映像情報および/または音情報の観点から最適な再生開始位置を決定してもよい。   Further, the playback start position may be adjusted using video information or sound information. In other words, by using video information and sound information in addition to the detected time code T of the caption text data unit 22, it is possible to determine a more appropriate position for starting viewing. As sound information, for example, it is possible to determine a more appropriate playback start position by using the presence / absence or change of background sound, change of noise level, change of speaker using voice recognition, change of silence state, etc. . As video information, for example, a more appropriate reproduction start position can be determined by using a motion vector, a luminance level, a change amount of a chromaticity histogram, and the like. Therefore, an optimal playback start position may be determined from the viewpoint of video information and / or sound information, including a caption text data unit.

次に、図1に示したコンテンツ検索・再生装置10における検索部16の動作例について、更に説明する。まず、コンテンツ検索・再生装置10が起動されると、放送受信信号はコンテンツDB11に蓄積され、更に、放送受信信号に含まれている字幕データ(クローズドキャプションデータなど)を字幕データデコーダ部13に対して出力する。字幕データデコーダ部13では、入力された字幕データをテキスト形式にデコードし、字幕テキストと、字幕文データユニットのタイムコードTを取り出す。さらに、取り出した字幕テキストを、辞書DB12を参照して形態素解析する。字幕データデコーダ部13での処理は、コンテンツDB11に新たなコンテンツが受信される度に逐次実行してもよいし、ある一定時間間隔毎に実行するようにしてもよい。   Next, an operation example of the search unit 16 in the content search / playback apparatus 10 shown in FIG. 1 will be further described. First, when the content search / playback apparatus 10 is activated, the broadcast reception signal is stored in the content DB 11, and further, caption data (such as closed caption data) included in the broadcast reception signal is transmitted to the caption data decoder unit 13. Output. The subtitle data decoder 13 decodes the input subtitle data into a text format, and extracts the subtitle text and the time code T of the subtitle sentence data unit. Further, the extracted subtitle text is subjected to morphological analysis with reference to the dictionary DB 12. The processing in the caption data decoder unit 13 may be executed sequentially every time new content is received in the content DB 11 or may be executed at certain time intervals.

図5は、図1に示したコンテンツ検索・再生装置10の検索部16における動作例を説明するためのフロー図である。ここでは、使用者が要求文「キムチの漬け方」を入力した場合の検索動作の一例について説明する。まず、入力部14が使用者の入力する文字列を受け取ると(ステップS1)、キーワード抽出部15は辞書DB12を用いて要求文を形態素解析し(ステップS2)、名詞等の自立語非活用語と自立語活用語(動詞、形容詞、形容動詞)の不変語彙情報を取得して、検索KWとして検索部16に対して出力する(ステップS3)。すなわち、この例では、「キムチ」、「漬け」が検索KWとして検索部16に出力される。   FIG. 5 is a flowchart for explaining an operation example in the search unit 16 of the content search / playback apparatus 10 shown in FIG. Here, an example of a search operation when the user inputs a request sentence “how to pickle kimchi” will be described. First, when the input unit 14 receives a character string input by the user (step S1), the keyword extraction unit 15 performs a morphological analysis of the request sentence using the dictionary DB 12 (step S2), and uses an independent word non-use word such as a noun. And invariant vocabulary information of the independent word utilization words (verbs, adjectives, adjective verbs) are acquired and output to the search unit 16 as a search KW (step S3). That is, in this example, “kimchi” and “duke” are output to the search unit 16 as the search KW.

なお、ここで、使用者の要求文が例えば「キムチの漬け方を知りたい」の場合、この要求文において、「知りたい」はコンテンツの内容とは無関係であるため、検索KWとはならない。このように、「を知りたい」、「を見たい」などの使用者の要求を表す表現は検索KWには含めない処理をする。   Here, when the user's request sentence is, for example, “I want to know how to pickle kimchi”, in this request sentence, “I want to know” is irrelevant to the content of the content, so it is not a search KW. In this way, processing that does not include expressions representing user requests such as “I want to know” and “I want to see” in the search KW.

検索部16は、抽出された検索KWと、字幕データデコーダ部13で分析して抽出した字幕データ中のテキストとを照合して、字幕データ中に検索KWすべてを含むコンテンツが存在するか否かを判別する(ステップS4)。すなわち、この例では、検索KW「キムチ」、「漬け」を両方とも含むコンテンツが存在するか否かを判別する。   The search unit 16 collates the extracted search KW with the text in the subtitle data analyzed and extracted by the subtitle data decoder unit 13 to determine whether or not there is content including all the search KWs in the subtitle data. Is discriminated (step S4). That is, in this example, it is determined whether or not there is content including both of the search KW “Kimchi” and “Kizuke”.

上記ステップS4において、検索KWすべてを含むコンテンツが検出された場合(YESの場合)、検索KWそれぞれを含む字幕文データユニットを検索し、タイムコードTを取得して、再生部17に対して出力する(ステップS5)。再生部17では、当該タイムコードTに相当する部分を、コンテンツDB11内に蓄積されているコンテンツから再生出力し(ステップS6)、当該処理を終了する。   In step S4, when content including all of the search KWs is detected (in the case of YES), the subtitle sentence data unit including each of the search KWs is searched, the time code T is acquired, and output to the playback unit 17 (Step S5). The reproduction unit 17 reproduces and outputs the portion corresponding to the time code T from the content stored in the content DB 11 (step S6), and ends the process.

一方、上記ステップS4において、検索KWすべてを含むコンテンツが存在しないと判定した場合(NOの場合)、再生部17はコンテンツを再生出力することなく、ステップS1の要求文受付状態に戻り、使用者に別の語彙を含む要求文の入力を促す。   On the other hand, if it is determined in step S4 that there is no content including all of the search KWs (in the case of NO), the playback unit 17 returns to the request text accepting state in step S1 without playing back the content, and the user Prompts for a request sentence containing another vocabulary.

なお、ステップS4における検索KWと字幕データとの照合処理は、所謂テキスト検索処理であり、インターネット上でのホームページ検索等で行なわれている検索手法を利用することが可能である。即ち、検索KWと完全に一致する字幕データの語彙(単語や句など)を検出することにしても良いし、あるいは、意味的な(又は、形態的な)類似度を求めて、予め定めた或る閾値以上の類似度を有する語彙を検出することとしても良い。   Note that the matching process between the search KW and the caption data in step S4 is a so-called text search process, and it is possible to use a search technique that is used in a homepage search or the like on the Internet. That is, the vocabulary (word, phrase, etc.) of subtitle data that completely matches the search KW may be detected, or a semantic (or morphological) similarity is obtained and determined in advance. It is also possible to detect a vocabulary having a similarity greater than a certain threshold.

(第2の実施例)
本実施例では、複数の部分(場面、シーン)が検出された場合の再生方法の一例について説明する。前述の図5に示したフローのステップS4において複数の部分(場面、シーン)が検出された場合、検索部16は複数のタイムコードTを取得する。この場合、次の2通りの場合が考えられる。
(1)一つのコンテンツ内の複数の部分(場面、シーン)
(2)複数のコンテンツにまたがる複数の部分(場面、シーン)
(Second embodiment)
In the present embodiment, an example of a reproduction method when a plurality of parts (scenes, scenes) are detected will be described. When a plurality of portions (scenes, scenes) are detected in step S4 of the flow shown in FIG. 5, the search unit 16 acquires a plurality of time codes T. In this case, the following two cases can be considered.
(1) Multiple parts (scenes, scenes) in one content
(2) Multiple parts (scenes, scenes) that span multiple contents

このように複数の部分(場面、シーン)が候補となった場合は、次のような再生方法が考えられる。画面上の表示の方法は以下に示す例に限らないが、例えばコンテンツが2つ検出された場合は、図6に示すように、画面上には、検出された2つのコンテンツ名(本例では料理番組、バラエティ)31と、そのコンテンツ名31の各コンテンツに対応する複数の字幕文データユニットからなる字幕文データユニット群32と、再生映像33が各字幕文データユニット群32の上部に表示される。字幕文データユニット群32は、コンテンツ毎に、検索部16で検出された字幕文データユニットを中心にその前後の字幕文データユニットがサムネイル表示されたものである。図6に示した例では検出された字幕文データユニットの前後のサムネイルも表示し、タイムコードTに相当する部分に色づけ等して目立たせるようにしているが、タイムコードTに相当する部分のみをサムネイル表示してもよい。このとき、字幕は表示してもしなくてもよい。この状態で、使用者にリモコン操作等で所望のコンテンツを選択してもらい、選択されたコンテンツ毎に、タイムコードTの時系列順に当該字幕文データユニットを自動コマ送りして提示する。あるいは、使用者自身がリモコン操作等により、タイムコードTの時系列順に当該字幕文データユニットをザッピングできるようにしてもよい。   When a plurality of parts (scenes, scenes) are candidates as described above, the following reproduction method can be considered. The display method on the screen is not limited to the example shown below. For example, when two contents are detected, as shown in FIG. 6, two detected content names (in this example, (Cooking program, variety) 31, a caption text data unit group 32 composed of a plurality of caption text data units corresponding to each content of the content name 31, and a playback video 33 are displayed at the top of each caption text data unit group 32. The The subtitle sentence data unit group 32 is a subtitle sentence data unit before and after the subtitle sentence data unit detected by the search unit 16 displayed as a thumbnail for each content. In the example shown in FIG. 6, thumbnails before and after the detected caption text data unit are also displayed to make the portion corresponding to the time code T stand out by coloring or the like, but only the portion corresponding to the time code T is displayed. May be displayed as thumbnails. At this time, subtitles may or may not be displayed. In this state, the user selects a desired content by operating a remote controller or the like, and the subtitle sentence data unit is automatically framed and presented for each selected content in chronological order of the time code T. Alternatively, the subtitle sentence data units may be zapped by the user himself / herself through remote control operation or the like in the time-series order of the time code T.

また、例えば、図7に示すように、抽出された字幕文データユニット(すなわち、コンテンツの部分、あるいは字幕文データユニットを含むコンテンツ全体)をジャンルやトピック(話題)などの、あるまとまりごとにクラス分けして提示し(図中のクラス41)、使用者が選択したクラス(本例では音楽、バラエティ、ドラマのいずれか)毎に、自動的あるいは使用者自身のリモコン操作等により、各コンテンツのタイムコードTの時系列順に当該字幕文データユニットをザッピングできるようにしてもよい。特に、大量の候補が抽出された場合は、時系列順に視聴するのも時間がかかるが、このようにクラス分けすることにより、使用者は所望の部分(場面、シーン)をより早く見つけることが可能となる。   Further, for example, as shown in FIG. 7, the extracted caption text data unit (that is, the content part or the entire content including the caption sentence data unit) is classified into classes for each unit such as a genre and a topic (topic). It is presented separately (class 41 in the figure), and for each class selected by the user (in this example, one of music, variety, or drama), each content is automatically or by remote control by the user. The subtitle sentence data units may be zapped in time sequence of the time code T. In particular, when a large number of candidates are extracted, it takes time to view in chronological order, but by classifying in this way, the user can find a desired part (scene, scene) faster. It becomes possible.

なお、各クラス内の使用者に提示するコンテンツの順番については、制作日や放送日等の時系列順に提示してもよいし、あるいは、抽出された字幕文データユニットをより多く(長く)含むコンテンツの優先度を高くして提示するようにしてもよい。あるいは、視聴者が視聴済み・未視聴の別に分けて提示してもよい。   The order of contents to be presented to users in each class may be presented in chronological order such as production date or broadcast date, or includes more (longer) extracted subtitle sentence data units. The content may be presented with a higher priority. Alternatively, the viewer may present it separately according to whether it has been viewed or not viewed.

以上、本発明のコンテンツ検索・再生装置における各機能を中心に各実施形態を説明してきたが、本発明は、コンテンツ検索・再生装置における各ステップを実行する方法としても説明したように、コンテンツ検索・再生方法としての形態もとることができる。また、このコンテンツ検索・再生方法を、コンピュータに実行させるためのプログラムとしての形態も、また、そのプログラムを記録した記録媒体としての形態も可能である。   As described above, each embodiment has been described centering on each function in the content search / playback apparatus of the present invention. However, as described above, the present invention is also a content search as a method for executing each step in the content search / playback apparatus. -It can take the form as a reproduction method. In addition, a form as a program for causing a computer to execute the content search / playback method, and a form as a recording medium on which the program is recorded are possible.

本発明によるコンテンツ検索・再生の機能を実現するためのプログラムやデータを記憶した記録媒体の実施形態について説明する。記録媒体としては、具体的には、CD−ROM(−R/−RW)、光磁気ディスク、DVD−ROM(−R/−RW)、FD、HD、フラッシュメモリ、メモリカードや、メモリスティック及びその他各種ROMやRAM等が想定でき、これら記録媒体に上述した本発明の各実施形態のコンテンツ検索・再生装置としての機能をコンピュータに実行させ、コンテンツ検索・再生の機能を実現するためのプログラムを記録して流通させることにより、当該機能の実現を容易にする。そしてコンピュータ等の情報処理装置に上記のごとくの記録媒体を装着して情報処理装置によりプログラムを読み出すか、若しくは情報処理装置が備えている記憶媒体に当該プログラムを記憶させておき、必要に応じて読み出すことにより、本発明に関わるコンテンツ検索・再生の機能を実行することができる。   An embodiment of a recording medium storing a program and data for realizing a content search / playback function according to the present invention will be described. Specific examples of the recording medium include CD-ROM (-R / -RW), magneto-optical disk, DVD-ROM (-R / -RW), FD, HD, flash memory, memory card, memory stick, Various other ROMs, RAMs, and the like can be assumed. A program for causing a computer to execute the functions as the content search / playback apparatus according to each embodiment of the present invention described above on these recording media and realizing the content search / playback functions is provided. By recording and distributing, it is easy to realize the function. Then, the recording medium as described above is mounted on an information processing apparatus such as a computer and the program is read by the information processing apparatus, or the program is stored in a storage medium provided in the information processing apparatus. By reading, it is possible to execute the content search / playback function according to the present invention.

本発明の第1の実施例に係るコンテンツ検索・再生装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the content search / reproduction apparatus based on 1st Example of this invention. 図1に示したコンテンツ検索・再生装置の具体的なシステム構成例を示すブロック図である。FIG. 2 is a block diagram illustrating a specific system configuration example of the content search / playback apparatus illustrated in FIG. 1. 字幕文データユニットを模式的に示した図である。It is the figure which showed the caption text data unit typically. コンテンツ検索・再生装置において再生処理するときの画面例を示す図である。It is a figure which shows the example of a screen when reproducing | regenerating processing in a content search / reproducing apparatus. 図1に示したコンテンツ検索・再生装置の検索部における動作例を説明するためのフロー図である。It is a flowchart for demonstrating the operation example in the search part of the content search / reproducing apparatus shown in FIG. コンテンツ検索・再生装置において再生処理するときの他の画面例を示す図である。It is a figure which shows the other example of a screen at the time of reproducing | regenerating processing in a content search / reproducing apparatus. コンテンツ検索・再生装置において再生処理するときの他の画面例を示す図である。It is a figure which shows the other example of a screen at the time of performing a reproduction process in a content search / reproduction device.

符号の説明Explanation of symbols

1…CPU、2…ワークメモリ、3,14…入力部、4…データベース、5…表示部、6…音響出力部、7…外部記憶ドライブ、8…受信部、9…外部記憶媒体(記録媒体)、10…コンテンツ検索・再生装置、11…コンテンツDB、12…辞書DB、13…字幕データデコーダ部、15…キーワード抽出部、16…検索部、17…再生部、21,31…コンテンツ名、22,32…字幕文データユニット群、23,33…再生映像、41…クラス、101〜107…表示開始時刻(タイムコードT)。 DESCRIPTION OF SYMBOLS 1 ... CPU, 2 ... Work memory, 3,14 ... Input part, 4 ... Database, 5 ... Display part, 6 ... Sound output part, 7 ... External storage drive, 8 ... Receiving part, 9 ... External storage medium (recording medium) ) 10 ... content search / playback device, 11 ... content DB, 12 ... dictionary DB, 13 ... subtitle data decoder section, 15 ... keyword extraction section, 16 ... search section, 17 ... playback section, 21, 31 ... content name, 22, 32 ... subtitle sentence data unit group, 23, 33 ... reproduced video, 41 ... class, 101 to 107 ... display start time (time code T).

Claims (16)

放送信号に重畳されて伝送される字幕データを取得し、該字幕データと使用者が入力する検索キーワードとを照合することにより、前記放送信号のコンテンツから使用者所望のコンテンツ部分を検索・再生するコンテンツ検索・再生方法において、テキストの形態素解析用の辞書データベースに、自立語で活用語の不変語彙情報を格納して有し、使用者が入力する検索キーワードが自立語で活用語を含む場合、各活用語に対応する不変語彙情報を前記辞書データベースから取得し、該取得した不変語彙情報を基に一致する文字列を含む字幕データを検索し、その検索結果に基づいて該当するコンテンツ部分を検出することを特徴とするコンテンツ検索・再生方法。   By retrieving subtitle data that is superimposed on the broadcast signal and transmitting it, and collating the subtitle data with a search keyword input by the user, a user-desired content portion is retrieved and reproduced from the content of the broadcast signal. In the content search / playback method, if the dictionary database for morphological analysis of text has invariant vocabulary information of inflected words stored in independent words, and the search keyword input by the user includes inflected words in autonomous words, Invariant vocabulary information corresponding to each utilized word is acquired from the dictionary database, subtitle data including a matching character string is searched based on the acquired invariant vocabulary information, and the corresponding content portion is detected based on the search result A content search / playback method characterized by: 請求項1に記載のコンテンツ検索・再生方法において、前記不変語彙情報は、自立語で活用語である動詞、形容詞、形容動詞のいずれか1つ又は複数の各活用形において不変部分の語彙情報であることを特徴とするコンテンツ検索・再生方法。   2. The content search / playback method according to claim 1, wherein the invariant vocabulary information is vocabulary information of an invariant part in any one or more of verbs, adjectives, and adjective verbs that are inflected words as independent words. A content search / playback method characterized by being. 請求項1に記載のコンテンツ検索・再生方法において、前記字幕データは、画面への表示単位である少なくとも1つの字幕文データユニットで構成され、前記検索された文字列を含む字幕文データユニットを単位として該当するコンテンツ部分を再生することを特徴とするコンテンツ検索・再生方法。   The content search / playback method according to claim 1, wherein the subtitle data is composed of at least one subtitle sentence data unit that is a display unit on a screen, and the subtitle sentence data unit including the searched character string is a unit. A content search / playback method characterized in that the corresponding content portion is played back. 請求項3に記載のコンテンツ検索・再生方法において、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、コンテンツ毎に、字幕文データユニットを単位として、時系列順に順送りあるいは逆送りで順次再生することを特徴とするコンテンツ検索・再生方法。   4. The content search / playback method according to claim 3, wherein when a plurality of content parts in a single content or a plurality of content parts extending over a plurality of contents are played back, a subtitle sentence data unit is used for each content as a unit. A content search / reproduction method, wherein reproduction is performed sequentially in forward or backward in time series order. 請求項3に記載のコンテンツ検索・再生方法において、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、コンテンツ毎に、字幕文データユニットを単位として、使用者の操作に従って、時系列順に順送りあるいは逆送りにザッピング可能としたことを特徴とするコンテンツ検索・再生方法。   4. The content search / playback method according to claim 3, wherein when a plurality of content parts in a single content or a plurality of content parts extending over a plurality of contents are played back, a subtitle sentence data unit is used for each content as a unit. A content search / playback method characterized in that zapping can be performed in forward or backward in chronological order according to a user's operation. 請求項3に記載のコンテンツ検索・再生方法において、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、当該コンテンツ部分を所定の条件に従ってクラス分けし、そのクラス毎に、字幕文データユニットを単位として、時系列順に順送りあるいは逆送りに順次再生することを特徴とするコンテンツ検索・再生方法。   4. The content search / reproduction method according to claim 3, wherein when reproducing a plurality of content parts in a single content or a plurality of content parts extending over a plurality of contents, the content parts are classified according to a predetermined condition. A content search / playback method, wherein for each class, a subtitle sentence data unit is used as a unit, and playback is performed in order of forward or backward in chronological order. 請求項3に記載のコンテンツ検索・再生方法において、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、当該コンテンツ部分を所定の条件に従ってクラス分けし、そのクラス毎に、字幕文データユニットを単位として、使用者の操作に従って、時系列順に順送りあるいは逆送りにザッピング可能としたことを特徴とするコンテンツ検索・再生方法。   4. The content search / reproduction method according to claim 3, wherein when reproducing a plurality of content parts in a single content or a plurality of content parts extending over a plurality of contents, the content parts are classified according to a predetermined condition. A content search / playback method characterized in that, for each class, zapping can be performed forward or backward in chronological order according to a user's operation in units of subtitle sentence data units. 放送信号に重畳されて伝送される字幕データを取得し、該字幕データと使用者が入力する検索キーワードとを照合することにより、前記放送信号のコンテンツから使用者所望のコンテンツ部分を検索・再生するコンテンツ検索・再生装置において、自立語で活用語の不変語彙情報を格納した形態素解析用の辞書データベースと、検索キーワードを入力する入力手段と、該入力された検索キーワードが自立語で活用語を含む場合、各活用語に対応する不変語彙情報を前記辞書データベースから取得する手段と、該取得した不変語彙情報を基に一致する文字列を含む字幕データを検索し、その検索結果に基づいて該当するコンテンツ部分を検出する検索手段とを備えていることを特徴とするコンテンツ検索・再生装置。   By retrieving subtitle data that is superimposed on the broadcast signal and transmitting it, and collating the subtitle data with a search keyword input by the user, a user-desired content portion is retrieved and reproduced from the content of the broadcast signal. In the content search / playback device, a dictionary database for morphological analysis storing invariant vocabulary information of words used in independent words, input means for inputting search keywords, and the input search keywords include words used in words independent In this case, a means for acquiring invariant vocabulary information corresponding to each utilization word from the dictionary database, and subtitle data including a character string that matches based on the acquired invariant vocabulary information are searched, and the corresponding result is obtained based on the search result. A content search / playback apparatus comprising search means for detecting a content portion. 請求項8に記載のコンテンツ検索・再生装置において、前記不変語彙情報は、自立語で活用語である動詞、形容詞、形容動詞のいずれか1つ又は複数の各活用形において不変部分の語彙情報であることを特徴とするコンテンツ検索・再生装置。   9. The content search / playback apparatus according to claim 8, wherein the invariant vocabulary information is vocabulary information of an invariant part in any one or more of verbs, adjectives, and adjective verbs that are inflected words as independent words. A content search / playback device characterized by being. 請求項8に記載のコンテンツ検索・再生装置において、前記字幕データは、画面への表示単位である少なくとも1つの字幕文データユニットで構成され、前記検索手段により検索された文字列を含む字幕文データユニットを単位として該当するコンテンツ部分を再生する再生手段を備えていることを特徴とするコンテンツ検索・再生装置。   9. The content search / playback apparatus according to claim 8, wherein the subtitle data includes at least one subtitle text data unit that is a display unit on a screen, and includes subtitle text data searched by the search means. A content search / playback apparatus comprising playback means for playing back a corresponding content portion in units. 請求項10に記載のコンテンツ検索・再生装置において、前記再生手段は、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、コンテンツ毎に、字幕文データユニットを単位として、時系列順に順送りあるいは逆送りで順次再生することを特徴とするコンテンツ検索・再生装置。   11. The content search / playback apparatus according to claim 10, wherein the playback unit plays back a subtitle sentence for each content when playing back a plurality of content parts in a single content or a plurality of content parts that span a plurality of contents. A content search / playback apparatus, which plays back data in units of data units in time-sequential order and forward or backward. 請求項10に記載のコンテンツ検索・再生装置において、前記再生手段は、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、コンテンツ毎に、字幕文データユニットを単位として、使用者の操作に従って、時系列順に順送りあるいは逆送りにザッピング可能としたことを特徴とするコンテンツ検索・再生装置。   11. The content search / playback apparatus according to claim 10, wherein the playback unit plays back a subtitle sentence for each content when playing back a plurality of content parts in a single content or a plurality of content parts that span a plurality of contents. A content search / playback apparatus characterized in that zapping can be performed in forward or backward in chronological order according to a user's operation in units of data units. 請求項10に記載のコンテンツ検索・再生装置において、前記再生手段は、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、当該コンテンツ部分を所定の条件に従ってクラス分けし、そのクラス毎に、字幕文データユニットを単位として、時系列順に順送りあるいは逆送りに順次再生することを特徴とするコンテンツ検索・再生装置。   11. The content search / playback apparatus according to claim 10, wherein when the playback unit plays back a plurality of content parts in a single content or a plurality of content parts spanning a plurality of contents, A content search / reproduction apparatus, wherein classification is performed according to conditions, and reproduction is sequentially performed in forward or backward in time series in units of subtitle sentence data units for each class. 請求項10に記載のコンテンツ検索・再生装置において、前記再生手段は、単一コンテンツ内の複数のコンテンツ部分または複数のコンテンツにまたがった複数のコンテンツ部分を再生する際に、当該コンテンツ部分を所定の条件に従ってクラス分けし、そのクラス毎に、字幕文データユニットを単位として、使用者の操作に従って、時系列順に順送りあるいは逆送りにザッピング可能としたことを特徴とするコンテンツ検索・再生装置。   11. The content search / playback apparatus according to claim 10, wherein when the playback unit plays back a plurality of content parts in a single content or a plurality of content parts spanning a plurality of contents, A content search / playback apparatus characterized in that it is classified according to conditions and zapping can be performed in forward or backward in chronological order according to a user's operation in units of subtitle sentence data units for each class. 請求項1乃至7のいずれか1に記載のコンテンツ検索・再生方法を実行するためのプログラム。   A program for executing the content search / playback method according to any one of claims 1 to 7. 請求項15に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。   The computer-readable recording medium which recorded the program of Claim 15.
JP2005168270A 2005-06-08 2005-06-08 Content retrieval/reproduction method, device, program, and recording medium Pending JP2006343941A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005168270A JP2006343941A (en) 2005-06-08 2005-06-08 Content retrieval/reproduction method, device, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005168270A JP2006343941A (en) 2005-06-08 2005-06-08 Content retrieval/reproduction method, device, program, and recording medium

Publications (1)

Publication Number Publication Date
JP2006343941A true JP2006343941A (en) 2006-12-21

Family

ID=37640879

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005168270A Pending JP2006343941A (en) 2005-06-08 2005-06-08 Content retrieval/reproduction method, device, program, and recording medium

Country Status (1)

Country Link
JP (1) JP2006343941A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008219343A (en) * 2007-03-02 2008-09-18 Sony Corp Information processor and method, and program
JP2009118168A (en) * 2007-11-06 2009-05-28 Hitachi Ltd Program recording/reproducing apparatus and program recording/reproducing method
JP2010035109A (en) * 2008-07-31 2010-02-12 Kddi Corp Program playback apparatus
JP2014102825A (en) * 2012-11-21 2014-06-05 Hon Hai Precision Industry Co Ltd Video content search system and method thereof
EP2846331A1 (en) * 2013-09-06 2015-03-11 Kabushiki Kaisha Toshiba Electronic apparatus, control method, and computer-readable storage medium
WO2019176816A1 (en) * 2018-03-12 2019-09-19 株式会社Jvcケンウッド Subtitle generation device, subtitle generation method and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08235191A (en) * 1995-02-27 1996-09-13 Toshiba Corp Method and device for document retrieval
JPH10285528A (en) * 1997-04-03 1998-10-23 Sony Corp Recording and reproducing device for television program
JPH11184867A (en) * 1997-12-19 1999-07-09 Toshiba Corp Video information retrieval/reproduction method/device and record medium programming and recording the method
JP2004080476A (en) * 2002-08-20 2004-03-11 Sanyo Electric Co Ltd Digital video reproducing device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08235191A (en) * 1995-02-27 1996-09-13 Toshiba Corp Method and device for document retrieval
JPH10285528A (en) * 1997-04-03 1998-10-23 Sony Corp Recording and reproducing device for television program
JPH11184867A (en) * 1997-12-19 1999-07-09 Toshiba Corp Video information retrieval/reproduction method/device and record medium programming and recording the method
JP2004080476A (en) * 2002-08-20 2004-03-11 Sanyo Electric Co Ltd Digital video reproducing device

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008219343A (en) * 2007-03-02 2008-09-18 Sony Corp Information processor and method, and program
CN101256822B (en) * 2007-03-02 2012-05-02 索尼株式会社 Information processing apparatus, information processing method
US8397263B2 (en) 2007-03-02 2013-03-12 Sony Corporation Information processing apparatus, information processing method and information processing program
JP2009118168A (en) * 2007-11-06 2009-05-28 Hitachi Ltd Program recording/reproducing apparatus and program recording/reproducing method
JP2010035109A (en) * 2008-07-31 2010-02-12 Kddi Corp Program playback apparatus
JP2014102825A (en) * 2012-11-21 2014-06-05 Hon Hai Precision Industry Co Ltd Video content search system and method thereof
EP2846331A1 (en) * 2013-09-06 2015-03-11 Kabushiki Kaisha Toshiba Electronic apparatus, control method, and computer-readable storage medium
WO2019176816A1 (en) * 2018-03-12 2019-09-19 株式会社Jvcケンウッド Subtitle generation device, subtitle generation method and program

Similar Documents

Publication Publication Date Title
US11197036B2 (en) Multimedia stream analysis and retrieval
US7698721B2 (en) Video viewing support system and method
JP4635891B2 (en) Information processing apparatus and method, and program
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
US20080059526A1 (en) Playback apparatus, searching method, and program
JP4873018B2 (en) Data processing apparatus, data processing method, and program
US20060004871A1 (en) Multimedia data reproducing apparatus and multimedia data reproducing method and computer-readable medium therefor
CN105488094A (en) Voice searching metadata through media content
JP2007150723A (en) Video viewing support system and method
JP2010154397A (en) Data processor, data processing method, and program
JP2010124224A (en) Program information display device and method
JP2006343941A (en) Content retrieval/reproduction method, device, program, and recording medium
US8781301B2 (en) Information processing apparatus, scene search method, and program
US8332891B2 (en) Information processing apparatus and method, and program
JP2006186426A (en) Information retrieval display apparatus, information retrieval display method, and information retrieval display program
KR20060089922A (en) Data abstraction apparatus by using speech recognition and method thereof
US20100131464A1 (en) Method and apparatus for enabling simultaneous reproduction of a first media item and a second media item
US20040193592A1 (en) Recording and reproduction apparatus
WO2009113505A1 (en) Video splitting device, method, and program
US20080016068A1 (en) Media-personality information search system, media-personality information acquiring apparatus, media-personality information search apparatus, and method and program therefor
JP5025398B2 (en) Image reproducing apparatus and program
JP2007519321A (en) Method and circuit for creating a multimedia summary of an audiovisual data stream
JP2009118206A (en) Image recording/reproducing apparatus
JP2007165981A (en) Information processing apparatus and control program thereof
JP2008171024A (en) Electronic dictionary device, electronic dictionary retrieval method, electronic dictionary retrieval program, recording medium and integrated circuit

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060919

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100803