JP5439050B2 - Related content display device and computer program - Google Patents
Related content display device and computer program Download PDFInfo
- Publication number
- JP5439050B2 JP5439050B2 JP2009148687A JP2009148687A JP5439050B2 JP 5439050 B2 JP5439050 B2 JP 5439050B2 JP 2009148687 A JP2009148687 A JP 2009148687A JP 2009148687 A JP2009148687 A JP 2009148687A JP 5439050 B2 JP5439050 B2 JP 5439050B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- vector
- sentence
- text information
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004590 computer program Methods 0.000 title claims description 6
- 239000013598 vector Substances 0.000 claims description 291
- 238000004458 analytical method Methods 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 7
- 238000000034 method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Management Or Editing Of Information On Record Carriers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Description
本発明は、放送番組などの映像コンテンツを多数蓄積して視聴するシステムにおいて、ユーザが所望の映像コンテンツを好みの時間に視聴することを支援するために、関連するコンテンツを検索して提示する関連コンテンツ表示装置及びコンピュータプログラムに関する。 The present invention relates to a system for accumulating and viewing a large number of video contents such as broadcast programs in order to search and present related contents in order to support a user to view desired video contents at a desired time. The present invention relates to a content display device and a computer program.
ウェブコンテンツなどを対象にした検索サービスにおいて提供される従来の検索機能は、ユーザが検索キーワードを指定することによって所望のコンテンツを見つけ出すものである。しかし、放送番組などの映像コンテンツの視聴時に検索を行なう場合、文字の入力は煩雑な操作であるとともに、文字の入力中は視聴中の映像コンテンツから目を離さなければならないこともあり、文字入力などを行なわない検索操作を可能とすることが望ましい。このためには、視聴中の番組など、任意の番組を検索キーとして、内容的関連の大きい番組や、一部のシーンを検索する機能が有効である。 A conventional search function provided in a search service for web content or the like finds desired content by a user specifying a search keyword. However, when searching for video content such as broadcast programs, entering characters is a cumbersome operation, and while entering characters, it may be necessary to keep an eye on the video content being viewed. It is desirable to be able to perform a search operation without performing the above. For this purpose, it is effective to use a search key as an arbitrary program, such as a program being viewed, to search a program having a high content relation or a part of scenes.
デジタル放送では、番組内容の概略を記述する文章(以下、「番組概要テキスト」と記載)が、電子番組表(EPG:Electronic Program Guide)として配信されている。そこで、検索キーとなる番組の番組概要テキストと、データベースに蓄積されている検索対象の番組の番組概要テキストとの関連度を数値化して評価することにより、検索キーとなる番組に関連度の高い番組を検索することができる。この機能により、ユーザは明示的に検索キーワードを入力することなく、例えば、使用中の報道番組を検索キーとして指定するだけで、取り上げられた話題をより詳しく説明している特集番組や教育番組を検索することができる。 In digital broadcasting, text describing the outline of program content (hereinafter referred to as “program summary text”) is distributed as an electronic program guide (EPG). Therefore, the degree of relevance between the program outline text of the program serving as the search key and the program outline text of the program to be searched stored in the database is quantified and evaluated, so that the degree of relevance to the program serving as the search key is high. You can search for programs. With this function, users can select featured programs and educational programs that explain the topics covered in more detail by, for example, specifying the news program in use as a search key without explicitly entering a search keyword. You can search.
一方、特許文献1には、受信した放送番組に関連したキーワードの中からユーザが選択したキーワードと、当該キーワードの関連キーワードの中からユーザが選択した関連キーワードとを用いて番組情報を検索する技術が記載されている。 On the other hand, Patent Literature 1 discloses a technique for searching program information using a keyword selected by a user from keywords related to a received broadcast program and a related keyword selected by the user from related keywords of the keyword. Is described.
上述したように、キーワードを用いずに、放送番組などのコンテンツに関連した他のコンテンツを検索するためには、番組概要テキスト等、コンテンツの概要や内容等を記述したテキストを対象としたベクトル空間法による関連コンテンツ検索機能がある。そして、関連度の高い番組を関連する番組として選択する。このベクトル空間法では、コンテンツに付随するテキスト間の多数の単語の共起に基づいて関連度を計算するため、数個のキーワードの出現に的を絞って検索するキーワード検索に比べて、検索結果に多種のコンテンツが含まれることになる。そのため、ユーザによる検索結果の把握が阻害されるという欠点がある。 As described above, in order to search for other content related to content such as a broadcast program without using a keyword, a vector space targeted for text describing the outline and details of the content, such as program summary text There is a related content search function by law. Then, a program having a high degree of association is selected as a related program. In this vector space method, the relevance is calculated based on the co-occurrence of a large number of words between the texts accompanying the content. Therefore, the search results are compared with the keyword search that searches for the occurrence of several keywords. A variety of contents are included. For this reason, there is a drawback in that the grasp of the search result by the user is hindered.
そこで、関連コンテンツの検索を提供する際のユーザインタフェースの質を向上させるために、検索結果として検出された関連コンテンツがどのような観点から関連していると判定されたかを、わかりやすく表示する必要がある。しかし、キーワード列の表示以外に、検出された関連コンテンツがどのような観点から関連しているかを表示する有効な技術はなかった。特許文献1は、ユーザに関連する番組情報を検索するためのキーワードや関連キーワードを表示して選択させるものであり、このような問題を解決するものではない。 Therefore, in order to improve the quality of the user interface when providing related content searches, it is necessary to display in an easy-to-understand manner the related content detected as a search result is determined to be related. There is. However, there is no effective technique for displaying from what viewpoint the detected related content is related other than displaying the keyword string. Patent Document 1 displays and selects keywords for searching for program information related to a user and related keywords, and does not solve such a problem.
本発明は、このような事情を考慮してなされたもので、その目的は、関連コンテンツを提示する際に、どのような観点から当該関連コンテンツが関連しているかの情報をわかりやすく提示することができる関連コンテンツ表示装置及びコンピュータプログラムを提供することにある。 The present invention has been made in consideration of such circumstances, and its purpose is to present in an easy-to-understand manner information on what the related content is related from when the related content is presented. An object of the present invention is to provide a related content display device and a computer program.
[1] 本発明の一態様は、コンテンツ識別情報と、コンテンツの内容を表したテキスト情報とを対応付けて記憶するテキスト情報蓄積部と、ベクトル間の関連度を算出するベクトル間関連度解析部と、指定されたコンテンツ識別情報に対応付けられた前記テキスト情報の言語的特徴を表したキーコンテンツベクトルを生成する第1コンテンツベクトル生成部と、他のコンテンツ識別情報に対応付けられた前記テキスト情報の言語的特徴を表した候補コンテンツベクトルを生成する第2コンテンツベクトル生成部と、前記ベクトル間関連度解析部によって算出された前記キーコンテンツベクトルとそれぞれの前記候補コンテンツベクトルとの関連度に基づいて、前記キーコンテンツベクトルと関連性の高い前記候補コンテンツベクトルを関連コンテンツベクトルとして選択する関連コンテンツ選択部と、前記キーコンテンツベクトル及び前記関連コンテンツベクトルを基に、前記キーコンテンツベクトルに対応した前記テキスト情報と前記関連コンテンツベクトルに対応した前記テキスト情報とで共起する単語の特徴を表した単語共起ベクトルを生成する共起ベクトル生成部と、前記関連コンテンツベクトルに対応した前記テキスト情報に含まれるそれぞれの文について、前記文の言語的特徴を表した関連コンテンツ文ベクトルを生成する第1文ベクトル生成部と、前記ベクトル間関連度解析部によって算出された前記単語共起ベクトルとそれぞれの前記関連コンテンツ文ベクトルとの関連度に基づいて、前記単語共起ベクトルと関連性の高い前記関連コンテンツ文ベクトルを選択し、選択された前記関連コンテンツ文ベクトルに対応する前記文を関連コンテンツの関連表示文として特定する関連表示文選択部と、前記関連表示文選択部により特定された関連コンテンツの関連表示文を出力する関連コンテンツ出力部と、を備えることを特徴とする関連コンテンツ表示装置である。
この発明によれば、指定されたコンテンツの内容を示す文章と、関連コンテンツの候補となるコンテンツの内容を示す文章との言語的な類似度に基づいて関連コンテンツを選択し、当該関連コンテンツの内容を示す文章を構成する文の中から、指定されたコンテンツの内容を示す文章と関連コンテンツとして選択された文章とに共通した言語的特徴を最もよく表す文を選択して、出力する。
これにより、テレビやパソコンなどのコンテンツ表示装置によりユーザが視聴しているコンテンツに関連したコンテンツが、どのような観点において関連しているかの情報を提示することが可能となり、ユーザは、興味を惹く関連コンテンツを見つけ易くなる。
[1] According to one aspect of the present invention, a text information storage unit that stores content identification information and text information that represents the content in association with each other, and an inter-vector relevance analysis unit that calculates the relevance between vectors A first content vector generation unit that generates a key content vector representing a linguistic feature of the text information associated with the specified content identification information, and the text information associated with other content identification information A second content vector generation unit that generates a candidate content vector representing the linguistic features of the key content vector based on the relevance between the key content vector calculated by the inter-vector relevance analysis unit and each of the candidate content vectors The candidate content vector highly related to the key content vector Co-occurs with the related content selection unit selected as the content vector, the text information corresponding to the key content vector, and the text information corresponding to the related content vector based on the key content vector and the related content vector A co-occurrence vector generation unit that generates a word co-occurrence vector that represents the characteristics of the word, and a related content sentence that represents the linguistic characteristics of the sentence for each sentence included in the text information corresponding to the related content vector A first sentence vector generation unit for generating a vector, and the word co-occurrence vector based on the degree of association between the word co-occurrence vector calculated by the inter-vector relevance analysis unit and each of the related content sentence vectors; Select the related content sentence vector that is highly relevant. A related display sentence selection unit that specifies the sentence corresponding to the selected related content sentence vector as a related display sentence of the related content, and a relation that outputs a related display sentence of the related content specified by the related display sentence selection unit A related content display device comprising: a content output unit.
According to the present invention, the related content is selected based on the linguistic similarity between the text indicating the content of the designated content and the text indicating the content of the content that is a candidate for the related content, and the content of the related content is selected. The sentence that best represents the linguistic features common to the sentence indicating the content of the designated content and the sentence selected as the related content is selected and output from the sentences constituting the sentence indicating the content.
As a result, it is possible to present information about what kind of viewpoint the content related to the content viewed by the user using a content display device such as a television or a personal computer is related, and the user is interested. Easier to find related content.
[2] 本発明の一態様は、上述する関連コンテンツ表示装置であって、前記キーコンテンツベクトルに対応した前記テキスト情報に含まれるそれぞれの文について、前記文の言語的特徴を表したキーコンテンツ文ベクトルを生成する第2文ベクトル生成部をさらに備え、前記関連表示文選択部は、前記ベクトル間関連度解析部によって算出された前記単語共起ベクトルとそれぞれの前記キーコンテンツ文ベクトルとの関連度に基づいて、前記単語共起ベクトルと関連性の高い前記キーコンテンツ文ベクトルを選択し、選択された前記キーコンテンツ文ベクトルに対応する前記文をキーコンテンツの関連表示文として特定し、前記関連コンテンツ出力部は、前記関連表示文選択部により特定されたキーコンテンツの関連表示文を出力する、ことを特徴とする。
この発明によれば、指定されたコンテンツの内容を示す文章を構成する文の中から、当該指定されたコンテンツの内容を示す文章と関連コンテンツとして選択された文章とに共通した言語的特徴を最もよく表す文を選択して、出力する。
これにより、ユーザが現在視聴しているコンテンツが、検索結果として得られた関連コンテンツとどのような観点において関連しているかの情報を提示することが可能となり、ユーザは、興味を惹く関連コンテンツを見つけ易くなる。
[2] One aspect of the present invention is the related content display device described above, wherein for each sentence included in the text information corresponding to the key content vector, a key content sentence representing a linguistic feature of the sentence. A second sentence vector generation unit that generates a vector, and the related display sentence selection unit includes a degree of association between the word co-occurrence vector calculated by the inter-vector relation analysis unit and each of the key content sentence vectors. The key content sentence vector highly relevant to the word co-occurrence vector is selected, the sentence corresponding to the selected key content sentence vector is specified as a related display sentence of the key content, and the related content The output unit outputs a related display sentence of the key content specified by the related display sentence selection unit ; It is characterized by.
According to the present invention, the linguistic feature common to the text indicating the content of the specified content and the text selected as the related content is the most common among the sentences constituting the text indicating the content of the specified content. Select a sentence that is well represented and output it.
As a result, it is possible to present information on what kind of viewpoint the content that the user is currently viewing is related to the related content obtained as a search result. It becomes easy to find.
[3] 本発明の一態様は、上述する関連コンテンツ表示装置であって、コンテンツ識別情報と、当該コンテンツの関連情報とを対応付けて記憶するコンテンツ蓄積部をさらに備え、前記関連コンテンツ出力部は、前記関連コンテンツベクトルに対応した前記テキスト情報と同じコンテンツ識別情報と対応付けられた関連情報を前記コンテンツ蓄積部から読み出し、読み出した関連情報あるいは当該関連情報に基づいて生成した情報を前記関連表示文と併せて出力する、ことを特徴とする。
この発明によれば、検索の結果得られた関連コンテンツに関する情報や、当該情報を加工した情報を関連表示文に付加して出力する。
これにより、検索結果として得られた関連コンテンツのタイトルやサムネイル等をコンテンツ表示装置に提示させることができ、ユーザが興味を惹く関連コンテンツを見つけ易くなる。
[3] One aspect of the present invention is the related content display device described above, further including a content storage unit that stores content identification information and related information of the content in association with each other, and the related content output unit includes The related information associated with the same content identification information as the text information corresponding to the related content vector is read from the content storage unit, and the read related information or information generated based on the related information is read from the related display text. It is output together with.
According to the present invention, information related to related content obtained as a result of search and information obtained by processing the information are added to the related display text and output.
As a result, the title, thumbnail, etc. of the related content obtained as a search result can be presented on the content display device, and it becomes easy to find the related content that the user is interested in.
[4] 本発明の一態様は、関連コンテンツ表示装置として用いられるコンピュータを、コンテンツ識別情報と、コンテンツの内容を表したテキスト情報とを対応付けて記憶するテキスト情報蓄積部、ベクトル間の関連度を算出するベクトル間関連度解析部、指定されたコンテンツ識別情報に対応付けられた前記テキスト情報の言語的特徴を表したキーコンテンツベクトルを生成する第1コンテンツベクトル生成部、他のコンテンツ識別情報に対応付けられた前記テキスト情報の言語的特徴を表した候補コンテンツベクトルを生成する第2コンテンツベクトル生成部、前記ベクトル間関連度解析部によって算出された前記キーコンテンツベクトルとそれぞれの前記候補コンテンツベクトルとの関連度に基づいて、前記キーコンテンツベクトルと関連性の高い前記候補コンテンツベクトルを関連コンテンツベクトルとして選択する関連コンテンツ選択部、前記キーコンテンツベクトル及び前記関連コンテンツベクトルを基に、前記キーコンテンツベクトルに対応した前記テキスト情報と前記関連コンテンツベクトルに対応した前記テキスト情報とで共起する単語の特徴を表した単語共起ベクトルを生成する共起ベクトル生成部、前記関連コンテンツベクトルに対応した前記テキスト情報に含まれるそれぞれの文について、前記文の言語的特徴を表した関連コンテンツ文ベクトルを生成する第1文ベクトル生成部、前記ベクトル間関連度解析部によって算出された前記単語共起ベクトルとそれぞれの前記関連コンテンツ文ベクトルとの関連度に基づいて、前記単語共起ベクトルと関連性の高い前記関連コンテンツ文ベクトルを選択し、選択された前記関連コンテンツ文ベクトルに対応する前記文を関連コンテンツの関連表示文として特定する関連表示文選択部、前記関連表示文選択部により特定された関連コンテンツの関連表示文を出力する関連コンテンツ出力部、として機能させることを特徴とするコンピュータプログラムである。
この発明によれば、指定されたコンテンツの内容を示す文章と、関連コンテンツの候補となるコンテンツの内容を示す文章との言語的な類似度に基づいて関連コンテンツを選択し、当該関連コンテンツの内容を示す文章を構成する文の中から、指定されたコンテンツの内容を示す文章と関連コンテンツとして選択された文章とに共通した言語的特徴を最もよく表す文を選択して、出力する。
これにより、テレビやパソコンなどのコンテンツ表示装置によりユーザが視聴しているコンテンツに関連したコンテンツが、どのような観点において関連しているかの情報を提示することが可能となり、ユーザは、興味を惹く関連コンテンツを見つけ易くなる。
[4] According to one aspect of the present invention, a computer used as a related content display device stores a text information storage unit that stores content identification information and text information that represents the content in association with each other, and a degree of association between vectors An inter-vector relevance analysis unit that calculates a first content vector generation unit that generates a key content vector representing a linguistic feature of the text information associated with the specified content identification information, and other content identification information A second content vector generation unit that generates a candidate content vector representing a linguistic feature of the associated text information, the key content vector calculated by the inter-vector relevance analysis unit, and each of the candidate content vectors Based on the relevance of the key content vector and Corresponding to the text information and the related content vector corresponding to the key content vector based on the related content selection unit that selects the candidate content vector having high relevance as the related content vector, the key content vector, and the related content vector A co-occurrence vector generation unit that generates a word co-occurrence vector representing the characteristics of the words that co-occur with the text information, and for each sentence included in the text information corresponding to the related content vector, the language of the sentence A first sentence vector generation unit that generates a related content sentence vector representing a characteristic, and a degree of association between the word co-occurrence vector calculated by the inter-vector relevance analysis part and each of the related content sentence vectors The relevance of the word co-occurrence vector A related display sentence selection unit that selects the related content sentence vector selected and specifies the sentence corresponding to the selected related content sentence vector as a related display sentence of the related content; A computer program that functions as a related content output unit that outputs a related display sentence of content.
According to the present invention, the related content is selected based on the linguistic similarity between the text indicating the content of the designated content and the text indicating the content of the content that is a candidate for the related content, and the content of the related content is selected. The sentence that best represents the linguistic features common to the sentence indicating the content of the designated content and the sentence selected as the related content is selected and output from the sentences constituting the sentence indicating the content.
As a result, it is possible to present information about what kind of viewpoint the content related to the content viewed by the user using a content display device such as a television or a personal computer is related, and the user is interested. Easier to find related content.
本発明によれば、コンテンツに付随し、当該コンテンツの内容等が記述されたテキスト間の関連度に基づいて、キーとなるコンテンツの関連コンテンツを検索し、検索の結果得られた関連コンテンツがどのような観点から関連していると判断されたかの情報を示す文を当該関連コンテンツに付随するテキストから抽出し、検索結果の関連コンテンツに併せてユーザに提示することが可能となる。よって、ユーザは、どのような観点から検索結果の関連コンテンツがキーとなるコンテンツと関連しているのかの情報を得ることができ、興味を惹く関連コンテンツを見つけ易くなる。 According to the present invention, the related content of the key content is searched based on the degree of relevance between the texts accompanying the content and describing the content of the content, and the related content obtained as a result of the search is searched. A sentence indicating information as to whether it is determined to be related from such a viewpoint can be extracted from the text accompanying the related content and presented to the user together with the related content of the search result. Therefore, the user can obtain information on from which point of view the related content of the search result is related to the key content, and it is easy to find related content that attracts interest.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態による関連コンテンツ表示装置1の構成を示す機能ブロック図であり、発明と関係する機能ブロックのみ抽出して示してある。同図において、関連コンテンツ表示装置1は、テキスト情報蓄積部2、コンテンツ蓄積部3、関連コンテンツ検索部4、ベクトル間関連度解析部5、検索結果解析部6、及び、関連コンテンツ出力部7を含んで構成される。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a functional block diagram showing a configuration of a related content display device 1 according to an embodiment of the present invention, and only functional blocks related to the invention are extracted and shown. In the figure, a related content display device 1 includes a text information storage unit 2, a content storage unit 3, a related content search unit 4, an intervector
テキスト情報蓄積部2及びコンテンツ蓄積部3は、ハードディスク装置や半導体メモリなどで実現される。テキスト情報蓄積部2は、コンテンツを特定する識別情報であるコンテンツIDと、当該コンテンツの内容に関する情報を記述した文章を示すテキスト情報データとを対応付けて記憶する。コンテンツ蓄積部3は、コンテンツIDと、コンテンツ本体のデジタルデータであるコンテンツデータとを対応付けて記憶する。 The text information storage unit 2 and the content storage unit 3 are realized by a hard disk device, a semiconductor memory, or the like. The text information storage unit 2 stores a content ID, which is identification information for specifying the content, and text information data indicating text describing information related to the contents of the content in association with each other. The content storage unit 3 stores a content ID and content data that is digital data of the content body in association with each other.
ベクトル間関連度解析部5は、ベクトルの組を受信し、これらのベクトル間の関連度を算出する。
The inter-vector
関連コンテンツ検索部4は、第1コンテンツベクトル生成部41、第2コンテンツベクトル生成部42、及び、関連コンテンツ選択部43を備える。
第1コンテンツベクトル生成部41は、検索キーとなるコンテンツIDにより特定されるテキスト情報データをテキスト情報蓄積部2から取得すると、取得したテキスト情報データにより示される文章中に出現する各単語に対して重要度に応じた重みを付与し、この重みの数値に基づいて当該文章の言語的な特徴をベクトルで表現したコンテンツベクトルを生成する。以下、検索キーとなるコンテンツIDにより特定されるコンテンツを「キーコンテンツ」、当該コンテンツIDにより特定されるテキスト情報データを「キーコンテンツテキスト情報データ」、キーコンテンツテキスト情報データにより示される文章から生成されたコンテンツベクトルを「キーコンテンツベクトル」と記載する。
The related content search unit 4 includes a first content
When the first content
第2コンテンツベクトル生成部42は、キーコンテンツの関連コンテンツの候補として検索対象となるコンテンツのテキスト情報データをテキスト情報蓄積部2から取得すると、キーコンテンツベクトルの生成と同様の手法により、取得したテキスト情報データにより示される文章それぞれからコンテンツベクトルを生成する。以下、関連コンテンツの候補となるコンテンツを「候補コンテンツ」、候補コンテンツのテキスト情報データを「候補コンテンツテキスト情報データ」、候補コンテンツテキスト情報データにより示される文章から生成されたコンテンツベクトルを「候補コンテンツベクトル」と記載する。
When the second content
関連コンテンツ選択部43は、第1コンテンツベクトル生成部41が生成したキーコンテンツベクトルと、第2コンテンツベクトル生成部42が生成した各候補コンテンツベクトルとの関連度をベクトル間関連度解析部5から取得し、取得した関連度に基づいて候補コンテンツの中から関連コンテンツを選択すると、この選択された候補コンテンツの候補コンテンツテキスト情報データ、候補コンテンツベクトルをそれぞれ関連コンテンツテキスト情報データ、関連コンテンツベクトルとして検索結果解析部6に出力する。
The related
検索結果解析部6は、共起ベクトル生成部61、第1文ベクトル生成部62、第2文ベクトル生成部63、及び、関連表示文選択部64を備える。
共起ベクトル生成部61は、キーコンテンツベクトル及び候補コンテンツベクトルから、キーコンテンツテキスト情報データで示される文章と関連コンテンツテキスト情報データで示される文章に共通して含まれる単語の特徴を表す単語共起ベクトルを生成する。
The search
The co-occurrence
第1文ベクトル生成部62は、関連コンテンツテキスト情報データで示される文章内の各文それぞれについて、キーコンテンツベクトルや候補コンテンツベクトルの生成と同様の手法により、各文の言語的特徴をベクトルで表現した文ベクトルを生成する。以下、関連コンテンツテキスト情報データで示される文章内の文から生成した文ベクトルを「関連コンテンツ文ベクトル」と記載する。
The first sentence
第2文ベクトル生成部63は、キーコンテンツテキスト情報データで示される文章内の各文それぞれについて、キーコンテンツベクトルや候補コンテンツベクトルの生成と同様の手法により、各文の言語的特徴をベクトルで表現した文ベクトルを生成する。以下、キーコンテンツテキスト情報データで示される文章内の文から生成した文ベクトルを「キーコンテンツ文ベクトル」と記載する。
The second sentence
関連表示文選択部64は、単語共起ベクトルと、各関連コンテンツ文ベクトル、及び、各キーコンテンツ文ベクトルとの関連度をベクトル間関連度解析部5から取得し、取得した関連度に基づいて、関連コンテンツテキスト情報データ、キーコンテンツテキスト情報データで示される文章それぞれから、キーコンテンツと関連コンテンツの関連性を最もよく示す文である関連表示文を選択する。
The related display
関連コンテンツ出力部7は、コンテンツ蓄積部3からコンテンツの関連情報として関連コンテンツのタイトルやコンテンツデータを取得すると、当該タイトルや、当該コンテンツデータに基づいて生成したサムネイルなどの画像データ、及び、検索結果解析部6により選択された関連表示文を出力し、ユーザがコンテンツを視聴しているテレビジョン受信機やパーソナルコンピュータなどのコンテンツ表示装置のディスプレイに表示させる。
When the related
なお、以下では、コンテンツ表示装置とネットワークを介して接続される1または複数台のサーバに、テキスト情報蓄積部2、コンテンツ蓄積部3、関連コンテンツ検索部4、ベクトル間関連度解析部5、検索結果解析部6、及び、関連コンテンツ出力部7を備える場合について説明する。ただし、テキスト情報蓄積部2、コンテンツ蓄積部3、関連コンテンツ検索部4、ベクトル間関連度解析部5、検索結果解析部6、及び、関連コンテンツ出力部7の全てをコンテンツ表示装置に備えてもよく、任意の一部の機能部をコンテンツ表示装置に備えてもよい。例えば、テキスト情報蓄積部2及びコンテンツ蓄積部3をサーバに、他の機能部をコンテンツ表示装置に備えてもよく、コンテンツ蓄積部3のみをサーバに、他の機能部をコンテンツ表示装置に備えてもよい。
In the following description, the text information storage unit 2, the content storage unit 3, the related content search unit 4, the inter-vector
図2は、テキスト情報蓄積部2に蓄積されるデータの例を示す図である。同図に示すように、テキスト情報蓄積部2には、コンテンツIDと、テキスト情報データLとが対応づけて記憶されている。ここでは、テキスト情報データLとして、電子番組表(EPG:Electronic Program Guide)など、放送番組の番組内容を説明する番組概要テキストをファイル形式で蓄積する。番組概要テキストは複数の文からなる。 FIG. 2 is a diagram illustrating an example of data stored in the text information storage unit 2. As shown in the figure, the text information storage unit 2 stores a content ID and text information data L in association with each other. Here, as text information data L, program summary text explaining the program content of a broadcast program such as an electronic program guide (EPG) is stored in a file format. The program summary text consists of a plurality of sentences.
図3は、コンテンツ蓄積部3に蓄積されるデータの例を示す図である。同図に示すように、コンテンツ蓄積部3には、コンテンツIDと、コンテンツデータと、コンテンツのタイトルを示すデータとが対応づけて記憶されている。コンテンツデータは、例えば、放送番組の番組映像を構成する動画像データや音声データのファイルである。 FIG. 3 is a diagram illustrating an example of data stored in the content storage unit 3. As shown in the figure, the content storage unit 3 stores a content ID, content data, and data indicating the title of the content in association with each other. The content data is, for example, a moving image data or audio data file that constitutes a program video of a broadcast program.
図4は、関連コンテンツ表示装置1の処理フローを示す図である。
同図において、関連コンテンツ表示装置1の関連コンテンツ検索部4は、コンテンツ表示装置から、キーコンテンツのコンテンツIDが設定された検索キーを受信する(ステップS105)。例えば、コンテンツ表示装置は、ユーザによって視聴が選択された放送番組のコンテンツID、ユーザによって入力されたコンテンツID、あるいは、ユーザによって検索指示が入力されたときに表示していた放送番組のコンテンツIDを送信する。ここでは、検索キーには、キーコンテンツkのコンテンツIDが設定されているものとする。
FIG. 4 is a diagram illustrating a processing flow of the related content display device 1.
In the figure, the related content search unit 4 of the related content display device 1 receives the search key in which the content ID of the key content is set from the content display device (step S105). For example, the content display device displays the content ID of a broadcast program selected for viewing by the user, the content ID input by the user, or the content ID of the broadcast program displayed when a search instruction is input by the user. Send. Here, it is assumed that the content ID of the key content k is set in the search key.
関連コンテンツ検索部4の第1コンテンツベクトル生成部41は、ステップS105において検索要求として受信した検索キーからコンテンツIDを取得し、当該コンテンツIDにより特定されるテキスト情報データLであるキーコンテンツテキスト情報データLkをテキスト情報蓄積部2から読み出す。続いて、第2コンテンツベクトル生成部42は、ステップS110において読み出したキーコンテンツテキスト情報データLk以外のコンテンツテキスト情報データLである、候補コンテンツテキスト情報データLj(1≦j≦m、かつ、j≠k)をテキスト情報蓄積部2から読み出す(ステップS110)。但し、mはテキスト情報蓄積部2に記憶されているテキスト情報データLの数である。
The first content
第1コンテンツベクトル生成部41は、キーコンテンツテキスト情報データLkにより示される番組概要テキストからコンテンツベクトルを生成する(ステップS115)。また、第2コンテンツベクトル生成部42は、各候補コンテンツテキスト情報データLjにより示される番組概要テキストそれぞれからコンテンツベクトルを生成する(ステップS120)。
First content
あるコンテンツpのテキスト情報データLpにより示される文章のコンテンツベクトルwpは、以下の(式1)のように表される。 A content vector w p of a sentence indicated by the text information data L p of a certain content p is expressed as (Equation 1) below.
コンテンツベクトルwp=(wp1,…,wpi,…,wpN) ・・・(式1) Content vector w p = (w p1 ,..., W pi ,..., W pN ) (Expression 1)
要素wpiは、コンテンツpのテキスト情報データLpが示す文章における単語i(1≦i≦N)の重要度であり、テキスト情報データLpが示す文章に単語iが出現しないときはwpi=0、出現するときにはwpi>0となる。また、Nは、全テキスト情報データLにより示される文章中に出現する異なる単語の数である。コンテンツベクトルは、例えば、TF/IDF(単語重要度の評価手法)を用いたベクトル表現とすることができる。このベクトル表現については、例えば、(文献)徳永 健伸著、「情報検索と言語処理」、東京大学出版会、第2章、p.32−33、ISBN:4130654055に記載されている。 The element w pi is the importance of the word i (1 ≦ i ≦ N) in the sentence indicated by the text information data L p of the content p. When the word i does not appear in the sentence indicated by the text information data L p, w pi = 0, and when it appears, w pi > 0. N is the number of different words that appear in the sentence indicated by the entire text information data L. The content vector can be a vector expression using TF / IDF (word importance evaluation method), for example. For this vector expression, see, for example, Takenobu Tokunaga, “Information Retrieval and Language Processing”, University of Tokyo Press, Chapter 2, p. 32-33, ISBN: 4130654055.
TF/IDFでは、複数(DN個)の文書からなる文書群がある場合、ある文書中にある単語i(キーワード)が出現する数を示すTF(i)値と、文書群の中でその単語iが含まれている文書数を示すDF(i)値とを用いて、当該文書における単語iのTF−IDF値をTF(i)×log(DN/DF(i))により算出する。各文書の特徴を表すベクトル表現は、各単語のTF−IDF値を要素として表される。つまり、コンテンツベクトルwpの要素wpiは、単語iのTF−IDF値となる。 In TF / IDF, when there is a document group composed of a plurality (DN) of documents, a TF (i) value indicating the number of occurrences of a word i (keyword) in a document and the word in the document group. Using the DF (i) value indicating the number of documents including i, the TF-IDF value of the word i in the document is calculated by TF (i) × log (DN / DF (i)). The vector expression representing the characteristics of each document is expressed by using the TF-IDF value of each word as an element. That is, the element w pi of the content vector w p is the TF-IDF value of the word i.
具体的には、第1コンテンツベクトル生成部41は、ステップS110において読み出したキーコンテンツテキスト情報データLkを形態素解析し、第2コンテンツベクトル生成部42は、ステップS110において読み出した候補コンテンツテキスト情報データLjにより示される番組概要テキストそれぞれを形態素解析する。第1コンテンツベクトル生成部41は、これらの形態素解析の結果から名詞などの特定の品詞を抽出することによりキーワードとなる単語を決定し、各単語とベクトルの要素との対応を決定する。続いて、キーコンテンツテキスト情報データLk、各候補コンテンツテキスト情報データLjにより示される番組概要テキストからキーワードとなる各単語i(i=1〜N)のTF(i)値を取得するととともに、当該単語iについてのDF(i)値を取得する。そして、テキスト情報蓄積部2に記憶されているコンテンツテキスト情報データLの数をDNとして読み出すと、第1コンテンツベクトル生成部41は、キーコンテンツテキスト情報データLkについて各単語iのTF−IDF値を算出し、第2コンテンツベクトル生成部42は、各候補コンテンツテキスト情報データLjにより示される番組概要テキストそれぞれについて各単語iのTF−IDF値を算出する。
Specifically, the first content
以下、キーコンテンツテキスト情報データLkに基づいて生成されたコンテンツベクトルをキーコンテンツベクトルwk、候補コンテンツテキスト情報データLjから生成されたコンテンツベクトルを候補コンテンツベクトルwjとする。 Hereinafter, a content vector generated based on the key content text information data L k is referred to as a key content vector w k , and a content vector generated from the candidate content text information data L j is referred to as a candidate content vector w j .
続いて、関連コンテンツ選択部43は、ステップS120において生成した候補コンテンツベクトルwjの中から1つを選択すると、キーコンテンツベクトルwkと、選択した候補コンテンツベクトルwjとをベクトル間関連度解析部5へ出力する。ベクトル間関連度解析部5は、以下の(式2)のwa,wbに、受信したキーコンテンツベクトルwk、候補コンテンツベクトルwjを代入し、コサイン尺度である関連度R(wk,wj)を算出する。両ベクトルが類似しているほどこれらのベクトル間の成す角が狭くなるため、関連度の値は大きくなる。
Subsequently, when the related
関連度R(wa,wb)=(wa・wb)/(|wa||wb|) ・・・(式2)
但し、wa・wbはベクトルwaとベクトルwbの内積である。
Relevance R (w a , w b ) = (w a · w b ) / (| w a || w b |) (Expression 2)
However, w a · w b is the inner product of the vector w a and the vector w b .
ベクトル間関連度解析部5は、算出した関連度R(wk,wj)を関連コンテンツ選択部43に出力する。
関連コンテンツ選択部43は、まだキーコンテンツベクトルwkとの関連度を算出していない候補コンテンツベクトルがあれば、そのうちの1を選択して上記処理を繰り返し、全ての候補コンテンツベクトルwjそれぞれについて、キーコンテンツベクトルwkと候補コンテンツベクトルwjとの関連度R(wk,wj)を取得する(ステップS125)。
The inter-vector
If there is a candidate content vector for which the degree of association with the key content vector w k has not yet been calculated, the related
関連コンテンツ選択部43は、ステップS125において取得した関連度R(wk,wjの中から、最も高い1つの関連度、あるいは、最も高いものから所定数の関連度を選択する(ステップS130)。ここでは、1つの関連度R(wk,wj)が選択されたものとする。関連コンテンツ選択部43は、選択された関連度R(wk,wj)が算出されたときの候補コンテンツベクトルwjを特定すると、当該候補コンテンツベクトルwjの生成元となった候補コンテンツテキスト情報データLj、及び、当該候補コンテンツテキスト情報データLjと対応付けられているコンテンツIDを特定する。関連コンテンツ選択部43は、特定したコンテンツID、特定した候補コンテンツテキスト情報データLj、特定した候補コンテンツベクトルwjをそれぞれ、関連コンテンツrのコンテンツID、関連コンテンツテキスト情報データLr、関連コンテンツベクトルwrとして検索結果解析部6へ出力するとともに、キーコンテンツkのコンテンツID、キーコンテンツベクトルwk及びキーコンテンツテキスト情報データLkを検索結果解析部6へ出力する(ステップS135)。
The related
検索結果解析部6の共起ベクトル生成部61は、受信したキーコンテンツベクトルwk=(wk1,…,wri,…,wkN)と、関連コンテンツベクトルwr=(wr1,…,wri,…,wrN)とから単語共起ベクトルwkrを以下の(式3)によって生成する(ステップS140)。
The co-occurrence
単語共起ベクトルwkr=(wk1・wr1,…,wki・wri,…,wkN・wrN) ・・・(式3) Word co-occurrence vector w kr = (w k1 · w r1 ,..., W ki · w ri ,..., W kN · w rN ) (Equation 3)
単語共起ベクトルwkrは、キーコンテンツテキスト情報データLkにより示される番組概要テキストと、関連コンテンツテキスト情報データLrにより示される番組概要テキストとに共通して含まれる単語の特徴を表す。単語共起ベクトルwkrでは、共起しない単語の要素は0、共起する単語の要素は正の値となる。共起する単語の要素の値が大きいほど、キーコンテンツテキスト情報データLk、及び、関連コンテンツテキスト情報データLrが示す両番組概要テキストにおいて重要度が高いことを示す。 The word co-occurrence vector w kr represents the characteristics of a word included in common in the program summary text indicated by the key content text information data L k and the program summary text indicated by the related content text information data L r . In the word co-occurrence vector w kr , the element of the word that does not co-occur is 0, and the element of the word that co-occurs has a positive value. The larger the value of the co-occurring word element, the higher the importance of both program summary texts indicated by the key content text information data L k and the related content text information data L r .
次に、第1文ベクトル生成部62は、関連コンテンツテキスト情報データLrにより示される番組概要テキストを構成する各文sから、コンテンツベクトルと同様の方法により、各文中に出現する各単語の重要度に基づいた以下の関連コンテンツ文ベクトルwrsを生成する(ステップS145)。関連コンテンツ文ベクトルwrsは、以下の(式4)のように表される。
Next, the first sentence
関連コンテンツ文ベクトルwrs=(wrs1,…,wrsi,…,wrsN) ・・・(式4) Related content sentence vector w rs = (w rs1 ,..., W rsi ,..., W rsN ) (Expression 4)
要素wrsiは、関連コンテンツテキスト情報データLrが示す番組概要テキスト中の文sにおける単語i(1≦i≦N)の重要度であり、当該文sに単語iが出現しないときはwrsi=0、出現するときにはwrsi>0となる。
関連コンテンツ文ベクトルにTF/IDFを用いる場合、第1文ベクトル生成部62は、関連コンテンツテキスト情報データLrにより示される番組概要テキストを形態素解析した結果に基づき、各文sについて、各単語iのTF(i)値を取得し、関連コンテンツ文ベクトルを生成する。各単語iのDF(i)値、文書数DNは、関連コンテンツ検索部4から受信してもよく、テキスト情報蓄積部2に記憶されているテキスト情報データLを解析して取得することでもよい。
The element w rsi is the importance of the word i (1 ≦ i ≦ N) in the sentence s in the program summary text indicated by the related content text information data L r , and when the word i does not appear in the sentence s, w rsi = 0, and when it appears, w rsi > 0.
When TF / IDF is used for the related content sentence vector, the first sentence
続いて、関連表示文選択部64は、ステップS145において生成した関連コンテンツ文ベクトルwrsの中から1つを選択すると、単語共起ベクトルwkrと選択した関連コンテンツ文ベクトルwrsとをベクトル間関連度解析部5へ出力する。ベクトル間関連度解析部5は、上述した(式2)のwa,wbに、受信した単語共起ベクトルwkr、関連コンテンツ文ベクトルwrsを代入して関連度R(wkr,wrs)を算出すると、関連表示文選択部64に出力する。
Subsequently, when the related display
関連表示文選択部64は、まだ単語共起ベクトルwkrとの関連度を算出していない関連コンテンツ文ベクトルwrsがあれば、そのうちの1を選択して上記処理を繰り返し、全ての関連コンテンツ文ベクトルwrsそれぞれについて、単語共起ベクトルwkrと関連コンテンツ文ベクトルwrsとの関連度R(wkr,wrs)を取得する(ステップS150)。
If there is a related content sentence vector w rs for which the degree of relevance with the word co-occurrence vector w kr has not yet been calculated, the related display
関連表示文選択部64は、ステップS150において取得した関連度R(wkr,wrs)の中から、最も高い関連度を選択する。関連表示文選択部64は、選択された関連度が算出された関連コンテンツ文ベクトルwrsの生成元となった番組概要テキストの文を、関連コンテンツrの関連表示文として選択する(ステップS155)。これにより、キーコンテンツテキスト情報データLkにより示される番組概要テキストと、関連コンテンツテキスト情報データLrにより示される番組概要テキストとに共通して含まれる単語の特徴を最もよく表す文が、関連コンテンツテキスト情報データLrにより示される番組概要テキストから選択される。
The related display
続いて、第2文ベクトル生成部63は、キーコンテンツテキスト情報データLkにより示される番組概要テキストを構成する各文sから、関連コンテンツ文ベクトルwrsと同様の処理により、各文中に出現する各単語の重要度に基づいたキーコンテンツ文ベクトルwks=(wks1,…,wksi,…,wksN)を生成する(ステップS160)。要素wksiは、キーコンテンツテキスト情報データLkが示す番組概要テキスト中の文sにおける単語i(1≦i≦N)の重要度であり、当該文sに単語iが出現しないときはwksi=0、出現するときにはwksi>0となる。
Subsequently, the second sentence
続いて、関連表示文選択部64は、ステップS160において生成したキーコンテンツ文ベクトルwksの中から1つを選択すると、単語共起ベクトルwkrと選択したキーコンテンツ文ベクトルwksとをベクトル間関連度解析部5へ出力する。ベクトル間関連度解析部5は、上述した(式2)のwa,wbに、受信した単語共起ベクトルwkr、キーコンテンツ文ベクトルwksに代入して関連度R(wkr,wks)を算出すると、算出結果を関連表示文選択部64に出力する。
Subsequently, when the related display
関連表示文選択部64は、まだ単語共起ベクトルwkrとの関連度を算出していないキーコンテンツ文ベクトルwksがあれば、そのうちの1を選択して上記処理を繰り返し、全てのキーコンテンツ文ベクトルwksそれぞれについて、単語共起ベクトルwkrとキーコンテンツ文ベクトルwksとの関連度R(wkr,wks)を取得する(ステップS165)
If there is a key content sentence vector w ks for which the degree of association with the word co-occurrence vector w kr has not yet been calculated, the related display
関連表示文選択部64は、ステップS165において取得した関連度R(wkr,wks)の中から、最も高い関連度を選択する。関連表示文選択部64は、選択された関連度が算出されたキーコンテンツ文ベクトルwksの生成元となった番組概要テキストの文を、キーコンテンツkの関連表示文として選択する(ステップS170)。これにより、キーコンテンツテキスト情報データLkにより示される番組概要テキストと、関連コンテンツテキスト情報データLrにより示される番組概要テキストとに共通して含まれる単語の特徴を最もよく表す文が、キーコンテンツテキスト情報データLkにより示される番組概要テキストから選択される。
The related display
関連表示文選択部64は、キーコンテンツkのコンテンツIDと、関連コンテンツrのコンテンツIDと、ステップS160において選択された関連コンテンツrの関連表示文と、ステップS170において選択されたキーコンテンツkの関連表示文とを関連コンテンツ出力部7に出力する(ステップS175)。
The related display
関連コンテンツ出力部7は、コンテンツ蓄積部3からキーコンテンツkのコンテンツIDに対応したタイトルを読み出すとともに、関連コンテンツrのコンテンツIDに対応したコンテンツデータ及びタイトルを読み出し、読み出した関連コンテンツrのコンテンツデータに基づいてサムネイルなどの静止画を生成する(ステップS180)。関連コンテンツ出力部7は、キーコンテンツkのタイトル及び関連表示文、関連コンテンツrのタイトル、関連表示文及びサムネイルを表示する検索結果表示画面の画面データを生成し、コンテンツ表示装置に出力する(ステップS185)。コンテンツ表示装置は、受信した画面データをディスプレイに表示する。これにより、ユーザは、現在視聴しているキーコンテンツkの関連コンテンツrと、当該関連コンテンツrがどのような観点から類似していると判断されたかの情報を把握する。
The related
なお、ステップS130において、関連コンテンツ選択部43が複数の関連コンテンツrを選択した場合、各関連コンテンツrについてステップS140〜S180の処理を行う。そして、ステップS185においては、関連度の高い順に関連コンテンツrを表示する検索結果表示画面の画面データを生成する。
In step S130, when the related
図5は、コンテンツ表示装置に表示される検索結果表示画面の例を示す図である。同図において、検索結果表示画面には、キーコンテンツkのタイトルg1と、キーコンテンツkの関連表示文g2、g3とが表示されている。キーコンテンツkの関連表示文g2、g3は、関連度の高い関連コンテンツrに対応した順に表示されている。同図においては、最も関連度の高いキーコンテンツの関連表示文g2が強調表示されており、最も関連度の高い関連コンテンツrのタイトルg4、関連コンテンツrの関連表示文g5、及び、当該関連コンテンツrのサムネイルg6が表示されている。 FIG. 5 is a diagram illustrating an example of a search result display screen displayed on the content display device. In the figure, the title g1 of the key content k and the related display sentences g2 and g3 of the key content k are displayed on the search result display screen. The related display sentences g2 and g3 of the key content k are displayed in the order corresponding to the related content r having a high degree of relevance. In the figure, the related display sentence g2 of the key content having the highest degree of relevance is highlighted, the title g4 of the related content r having the highest degree of relevance, the related display sentence g5 of the related content r, and the related content. A thumbnail g6 of r is displayed.
ユーザが、キーコンテンツの関連表示文g3をマウス等によりクリックすると、コンテンツ表示装置から、2番目に関連度の高い関連コンテンツの表示指示が関連コンテンツ出力部7へ送信される。この場合、関連コンテンツ出力部7は、キーコンテンツkの関連表示文g3を強調表示し、キーコンテンツkのタイトルg1、キーコンテンツkの関連表示文g2、g3、2番目に関連度の高い関連コンテンツrのタイトルg4、当該関連コンテンツrの関連表示文g5、及び、当該関連コンテンツrのサムネイルg6を表示する検索結果表示画面の画面データを生成してコンテンツ表示装置へ返送する。
When the user clicks the related display sentence g3 of the key content with a mouse or the like, a display instruction for the related content having the second highest degree of relevance is transmitted from the content display device to the related
なお、ユーザのコンテンツ表示装置から検索キーを取得するかわりに、ユーザのコンテンツ表示装置へコンテンツを配信している外部のコンテンツ配信装置から、現在配信しているコンテンツやコンテンツ表示装置から受信したコンテンツIDを検索キーとして受信するようにしてもよい。この場合、関連コンテンツ出力部7は、検索結果表示画面をコンテンツ配信装置に出力し、コンテンツ配信装置からこの検索結果表示画面をコンテンツ表示装置へ送信してもよい。また、コンテンツ配信装置に関連コンテンツ表示装置1の一部または全ての機能部を備えてもよい。
Instead of acquiring a search key from the user's content display device, the content ID currently received from the external content distribution device that distributes the content to the user's content display device or the content ID received from the content display device May be received as a search key. In this case, the related
なお、上記においては、コンテンツとして放送番組を例に説明したが、インターネット等により配信される動画であってもよく、静止画、テキスト、あるいは、音声のデータやそれらの組み合わせであってもよい。 In the above description, a broadcast program has been described as an example of content. However, it may be a moving image distributed over the Internet or the like, or may be a still image, text, audio data, or a combination thereof.
なお、上記においては、コンテンツベクトルを生成する際、形態素解析の結果からキーワードとなる単語を抽出しているが、キーワードとなる単語i、各単語iに対応したベクトルの要素の情報を予めテキスト情報蓄積部2に記憶しておいてもよい。
また、予めテキスト情報蓄積部2に、テキスト情報データが示す番組概要テキストに基づいて生成されたコンテンツベクトルと、当該テキスト情報データのコンテンツIDとを対応付けて記憶させておき、ステップS105において受信したコンテンツIDに対応づけて記憶されているコンテンツベクトルをキーコンテンツベクトルwkとして、他のコンテンツIDに対応づけて記憶されているコンテンツベクトルを候補コンテンツベクトルwjとして読み出すようにしてもよい。
同様に、予めテキスト情報蓄積部2に、テキスト情報データが示す番組概要テキストの各文に基づいて生成された文ベクトルと、当該テキスト情報データのコンテンツIDとを対応付けて記憶させておき、関連コンテンツrのコンテンツIDと対応づけて記憶されている文ベクトルを関連コンテンツ文ベクトルwrs、キーコンテンツkのコンテンツIDと対応づけて記憶されている文ベクトルをキーコンテンツ文ベクトルwksとして読み出すようにしてもよい。
In the above, when generating a content vector, a word as a keyword is extracted from the result of morphological analysis. However, word information as a keyword and information on vector elements corresponding to each word i are previously stored as text information. It may be stored in the storage unit 2.
In addition, the content information generated based on the program summary text indicated by the text information data and the content ID of the text information data are stored in advance in the text information storage unit 2 and received in step S105. The content vector stored in association with the content ID may be read as the key content vector w k , and the content vector stored in association with the other content ID may be read out as the candidate content vector w j .
Similarly, a text vector generated based on each sentence of the program summary text indicated by the text information data and the content ID of the text information data are stored in the text information storage unit 2 in association with each other. The sentence vector stored in association with the content ID of the content r is read out as the related content sentence vector w rs , and the sentence vector stored in association with the content ID of the key content k is read out as the key content sentence vector w ks. May be.
また、上記においては、コンテンツベクトルの生成にTF/IDFを用いているが、文章中に出現する各単語の重要度に基づいて言語的な特徴を示すベクトル表現を生成する任意の方法を用いることができる。例えば、予め新聞記事等の任意の文章群を解析してキーワードとなる各単語とその重みを決めておき、テキスト情報データに当該単語が出現する場合、当該単語に対応する重みをコンテンツベクトルやコンテンツ文ベクトルの要素として用いるようにしてもよい。 In the above, TF / IDF is used to generate the content vector, but any method for generating a vector expression indicating a linguistic feature based on the importance of each word appearing in the sentence is used. Can do. For example, an arbitrary sentence group such as a newspaper article is analyzed in advance to determine each word to be a keyword and its weight, and when the word appears in text information data, the weight corresponding to the word is set as a content vector or content. It may be used as an element of a sentence vector.
本実施形態によれば、コンテンツに付随し、当該コンテンツの内容等が記述されたテキスト間の関連度に基づいて関連する他のコンテンツを検索し、検索の結果得られた他のコンテンツがどのような観点から関連していると判断されたかの情報を示す文を当該他のコンテンツに付随するテキストから抽出し、検索の結果のコンテンツとともにユーザに提示することが可能となる。よって、ユーザは、どのような観点から検索結果のコンテンツが関連しているのかを把握することができる。 According to the present embodiment, other content that is associated with the content and is related based on the degree of relevance between the texts in which the content of the content is described is searched, and how is the other content obtained as a result of the search? It is possible to extract a sentence indicating information that is determined to be related from various viewpoints from the text accompanying the other content, and present it to the user together with the content as a result of the search. Therefore, the user can grasp from what point of view the content of the search result is related.
従来は、関連コンテンツを検索する際、「○○大統領」、「△△首相」のようなキーワードのみがユーザに提示されていた。一方、本実施形態では、「○○大統領は△△首相との会談に向けて準備を行った。」、「○○大統領は△△首相との会談は行なわれなかった。」などのように、これらのキーとなるコンテンツと検索結果のコンテンツに共通して含まれる特徴的なキーワードを多く含む文を併せて提示する。特に、「行なわれなかった」などのような否定の表現は、キーワードのみの表示では検索できないことが多いが、本実施形態では、文によってコンテンツ間の関連性を示すことによって、ユーザは、単なるキーワード列の提示では得られなかった情報を得ることができ、興味を惹くコンテンツを見つけ易くなる。 Conventionally, when searching for related content, only keywords such as “President XX” and “Prime Minister” are presented to the user. On the other hand, in this embodiment, “President XX prepared for a meeting with the Prime Minister △”, “President XX did not meet with the Prime Minister △,” and so on. , A sentence including many characteristic keywords included in both the key content and the search result content is presented together. In particular, a negative expression such as “not done” is often not searchable by displaying only keywords, but in this embodiment, by indicating the relationship between contents by sentences, the user can simply Information that cannot be obtained by presenting keyword strings can be obtained, and it becomes easier to find interesting content.
なお、上述の関連コンテンツ表示装置1は、内部にコンピュータシステムを有している。そして、関連コンテンツ表示装置1の関連コンテンツ検索部4、ベクトル間関連度解析部5、検索結果解析部6、及び、関連コンテンツ出力部7の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
The related content display device 1 described above has a computer system therein. The operation processes of the related content search unit 4, the inter-vector
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
1…関連コンテンツ表示装置
2…テキスト情報蓄積部
3…コンテンツ蓄積部
4…関連コンテンツ検索部
41…第1コンテンツベクトル生成部
42…第2コンテンツベクトル生成部
43…関連コンテンツ選択部
5…ベクトル間関連度解析部
6…検索結果解析部
61…共起ベクトル生成部
62…第1文ベクトル生成部
63…第2文ベクトル生成部
64…関連表示文選択部
7…関連コンテンツ出力部
DESCRIPTION OF SYMBOLS 1 ... Related content display apparatus 2 ... Text information storage part 3 ... Content storage part 4 ... Related
Claims (4)
ベクトル間の関連度を算出するベクトル間関連度解析部と、
指定されたコンテンツ識別情報に対応付けられた前記テキスト情報の言語的特徴を表したキーコンテンツベクトルを生成する第1コンテンツベクトル生成部と、
他のコンテンツ識別情報に対応付けられた前記テキスト情報の言語的特徴を表した候補コンテンツベクトルを生成する第2コンテンツベクトル生成部と、
前記ベクトル間関連度解析部によって算出された前記キーコンテンツベクトルとそれぞれの前記候補コンテンツベクトルとの関連度に基づいて、前記キーコンテンツベクトルと関連性の高い前記候補コンテンツベクトルを関連コンテンツベクトルとして選択する関連コンテンツ選択部と、
前記キーコンテンツベクトル及び前記関連コンテンツベクトルを基に、前記キーコンテンツベクトルに対応した前記テキスト情報と前記関連コンテンツベクトルに対応した前記テキスト情報とで共起する単語の特徴を表した単語共起ベクトルを生成する共起ベクトル生成部と、
前記関連コンテンツベクトルに対応した前記テキスト情報に含まれるそれぞれの文について、前記文の言語的特徴を表した関連コンテンツ文ベクトルを生成する第1文ベクトル生成部と、
前記ベクトル間関連度解析部によって算出された前記単語共起ベクトルとそれぞれの前記関連コンテンツ文ベクトルとの関連度に基づいて、前記単語共起ベクトルと関連性の高い前記関連コンテンツ文ベクトルを選択し、選択された前記関連コンテンツ文ベクトルに対応する前記文を関連コンテンツの関連表示文として特定する関連表示文選択部と、
前記関連表示文選択部により特定された関連コンテンツの関連表示文を出力する関連コンテンツ出力部と、
を備えることを特徴とする関連コンテンツ表示装置。 A text information storage unit that stores content identification information and text information that represents the content in association with each other;
An inter-vector relevance analysis unit for calculating the relevance between vectors;
A first content vector generation unit that generates a key content vector representing the linguistic characteristics of the text information associated with the specified content identification information;
A second content vector generation unit that generates a candidate content vector representing the linguistic features of the text information associated with other content identification information;
The candidate content vector having high relevance to the key content vector is selected as a related content vector based on the relevance between the key content vector calculated by the inter-vector relevance analysis unit and each of the candidate content vectors. A related content selection section;
Based on the key content vector and the related content vector, a word co-occurrence vector representing the characteristics of the words that co-occur in the text information corresponding to the key content vector and the text information corresponding to the related content vector A co-occurrence vector generation unit to generate;
A first sentence vector generation unit that generates a related content sentence vector representing a linguistic feature of the sentence for each sentence included in the text information corresponding to the related content vector;
Based on the relevance between the word co-occurrence vector calculated by the inter-vector relevance analysis unit and each of the related content sentence vectors, the related content sentence vector highly relevant to the word co-occurrence vector is selected. A related display sentence selection unit that identifies the sentence corresponding to the selected related content sentence vector as a related display sentence of the related content;
A related content output unit that outputs a related display sentence of the related content specified by the related display sentence selection unit;
A related content display device comprising:
前記関連表示文選択部は、前記ベクトル間関連度解析部によって算出された前記単語共起ベクトルとそれぞれの前記キーコンテンツ文ベクトルとの関連度に基づいて、前記単語共起ベクトルと関連性の高い前記キーコンテンツ文ベクトルを選択し、選択された前記キーコンテンツ文ベクトルに対応する前記文をキーコンテンツの関連表示文として特定し、
前記関連コンテンツ出力部は、前記関連表示文選択部により特定されたキーコンテンツの関連表示文を出力する、
ことを特徴とする請求項1に記載の関連コンテンツ表示装置。 For each sentence included in the text information corresponding to the key content vector, further comprising a second sentence vector generation unit that generates a key content sentence vector representing a linguistic feature of the sentence,
The related display sentence selection unit is highly related to the word co-occurrence vector based on the degree of association between the word co-occurrence vector calculated by the inter-vector relevance analysis unit and each of the key content sentence vectors. Selecting the key content sentence vector, specifying the sentence corresponding to the selected key content sentence vector as a related display sentence of the key content;
The related content output unit outputs a related display text of the key content specified by the related display text selection unit ;
The related content display device according to claim 1.
前記関連コンテンツ出力部は、前記関連コンテンツベクトルに対応した前記テキスト情報と同じコンテンツ識別情報と対応付けられた関連情報を前記コンテンツ蓄積部から読み出し、読み出した関連情報あるいは当該関連情報に基づいて生成した情報を前記関連表示文と併せて出力する、
ことを特徴とする請求項1または請求項2に記載の関連コンテンツ表示装置。 A content storage unit that stores the content identification information and the related information of the content in association with each other;
The related content output unit reads the related information associated with the same content identification information as the text information corresponding to the related content vector from the content storage unit, and generates based on the read related information or the related information Outputting information together with the related display sentence;
The related content display device according to claim 1 or 2, wherein
コンテンツ識別情報と、コンテンツの内容を表したテキスト情報とを対応付けて記憶するテキスト情報蓄積部、
ベクトル間の関連度を算出するベクトル間関連度解析部、
指定されたコンテンツ識別情報に対応付けられた前記テキスト情報の言語的特徴を表したキーコンテンツベクトルを生成する第1コンテンツベクトル生成部、
他のコンテンツ識別情報に対応付けられた前記テキスト情報の言語的特徴を表した候補コンテンツベクトルを生成する第2コンテンツベクトル生成部、
前記ベクトル間関連度解析部によって算出された前記キーコンテンツベクトルとそれぞれの前記候補コンテンツベクトルとの関連度に基づいて、前記キーコンテンツベクトルと関連性の高い前記候補コンテンツベクトルを関連コンテンツベクトルとして選択する関連コンテンツ選択部、
前記キーコンテンツベクトル及び前記関連コンテンツベクトルを基に、前記キーコンテンツベクトルに対応した前記テキスト情報と前記関連コンテンツベクトルに対応した前記テキスト情報とで共起する単語の特徴を表した単語共起ベクトルを生成する共起ベクトル生成部、
前記関連コンテンツベクトルに対応した前記テキスト情報に含まれるそれぞれの文について、前記文の言語的特徴を表した関連コンテンツ文ベクトルを生成する第1文ベクトル生成部、
前記ベクトル間関連度解析部によって算出された前記単語共起ベクトルとそれぞれの前記関連コンテンツ文ベクトルとの関連度に基づいて、前記単語共起ベクトルと関連性の高い前記関連コンテンツ文ベクトルを選択し、選択された前記関連コンテンツ文ベクトルに対応する前記文を関連コンテンツの関連表示文として特定する関連表示文選択部、
前記関連表示文選択部により特定された関連コンテンツの関連表示文を出力する関連コンテンツ出力部、
として機能させることを特徴とするコンピュータプログラム。 A computer used as a related content display device,
A text information storage unit that stores content identification information and text information that represents the content in association with each other;
A relevance analysis unit for calculating relevance between vectors,
A first content vector generation unit that generates a key content vector representing a linguistic feature of the text information associated with the specified content identification information;
A second content vector generation unit that generates a candidate content vector representing a linguistic feature of the text information associated with other content identification information;
The candidate content vector having high relevance to the key content vector is selected as a related content vector based on the relevance between the key content vector calculated by the inter-vector relevance analysis unit and each of the candidate content vectors. Related content selection section,
Based on the key content vector and the related content vector, a word co-occurrence vector representing the characteristics of the words that co-occur in the text information corresponding to the key content vector and the text information corresponding to the related content vector A co-occurrence vector generation unit to generate,
A first sentence vector generation unit that generates a related content sentence vector representing a linguistic feature of the sentence for each sentence included in the text information corresponding to the related content vector;
Based on the relevance between the word co-occurrence vector calculated by the inter-vector relevance analysis unit and each of the related content sentence vectors, the related content sentence vector highly relevant to the word co-occurrence vector is selected. A related display sentence selection unit that identifies the sentence corresponding to the selected related content sentence vector as a related display sentence of the related content;
A related content output unit that outputs a related display sentence of the related content specified by the related display sentence selection unit;
A computer program that functions as a computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009148687A JP5439050B2 (en) | 2009-06-23 | 2009-06-23 | Related content display device and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009148687A JP5439050B2 (en) | 2009-06-23 | 2009-06-23 | Related content display device and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011008334A JP2011008334A (en) | 2011-01-13 |
JP5439050B2 true JP5439050B2 (en) | 2014-03-12 |
Family
ID=43564963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009148687A Expired - Fee Related JP5439050B2 (en) | 2009-06-23 | 2009-06-23 | Related content display device and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5439050B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5160659B2 (en) * | 2011-03-09 | 2013-03-13 | 株式会社エヌ・ティ・ティ・ドコモ | Evaluation apparatus and evaluation method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000105768A (en) * | 1998-09-28 | 2000-04-11 | Nippon Telegr & Teleph Corp <Ntt> | Device for calculating feature amount of inquiry document, and method therefor |
JP2000331027A (en) * | 1999-05-21 | 2000-11-30 | Toshiba Corp | Similar document retrieving device and similar document retrieving method |
JP2002215676A (en) * | 2001-01-12 | 2002-08-02 | Hitachi Tohoku Software Ltd | Related information retrieval method, related information storage method, related information retrieval device and recording medium for related information retrieval |
JP4813312B2 (en) * | 2006-09-29 | 2011-11-09 | 株式会社エヌ・ティ・ティ・データ | Electronic document search method, electronic document search apparatus and program |
-
2009
- 2009-06-23 JP JP2009148687A patent/JP5439050B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011008334A (en) | 2011-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240347053A1 (en) | Generating topic-specific language models | |
US8745039B2 (en) | Method and system for user guided search navigation | |
US6442540B2 (en) | Information retrieval apparatus and information retrieval method | |
JP4359787B2 (en) | Information processing apparatus, content reputation search method, and content reputation search system | |
JP5171718B2 (en) | Content recommendation device, method, and program | |
JP2011529600A (en) | Method and apparatus for relating datasets by using semantic vector and keyword analysis | |
WO2002101588A1 (en) | Content management system | |
JP2009043156A (en) | Apparatus and method for searching for program | |
JP6429382B2 (en) | Content recommendation device and program | |
JP4734048B2 (en) | Information search device, information search method, and information search program | |
JP4883644B2 (en) | RECOMMENDATION DEVICE, RECOMMENDATION SYSTEM, RECOMMENDATION DEVICE CONTROL METHOD, AND RECOMMENDATION SYSTEM CONTROL METHOD | |
JP6188222B2 (en) | Topic extraction apparatus and program | |
JP5439050B2 (en) | Related content display device and computer program | |
JP2017134675A (en) | Device and program for searching for information | |
JP4755834B2 (en) | Attribute evaluation apparatus, attribute evaluation method, and attribute evaluation program | |
JP2004362121A (en) | Information retrieval device, mobile information terminal device, information search method, information search program, and recording medium | |
JP5600498B2 (en) | Information selection device, server device, information selection method, and program | |
JP5246932B2 (en) | Search device and method, and computer program | |
JP2001229167A (en) | System and method for browsing relative discovery type information and recording medium | |
JP6188226B2 (en) | Related word extraction apparatus and program | |
JP2005115791A (en) | Information search method, information acquisition device, and program | |
JP2007052693A (en) | Webpage information display apparatus, processing method and program | |
JP6440459B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM | |
JP2012243130A (en) | Information retrieval device, method and program | |
JP5903370B2 (en) | Information search apparatus, information search method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130611 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5439050 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |