JP2018092367A - Related word extracting device and program - Google Patents

Related word extracting device and program Download PDF

Info

Publication number
JP2018092367A
JP2018092367A JP2016235181A JP2016235181A JP2018092367A JP 2018092367 A JP2018092367 A JP 2018092367A JP 2016235181 A JP2016235181 A JP 2016235181A JP 2016235181 A JP2016235181 A JP 2016235181A JP 2018092367 A JP2018092367 A JP 2018092367A
Authority
JP
Japan
Prior art keywords
time
content
text
unit
related word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016235181A
Other languages
Japanese (ja)
Inventor
菊佳 三浦
Kikuka Miura
菊佳 三浦
住吉 英樹
Hideki Sumiyoshi
英樹 住吉
太郎 宮▲崎▼
Taro Miyazaki
太郎 宮▲崎▼
後藤 淳
Atsushi Goto
淳 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2016235181A priority Critical patent/JP2018092367A/en
Publication of JP2018092367A publication Critical patent/JP2018092367A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To enable an extraction of a related word regardless of a co-occurrence and a concept dictionary.SOLUTION: A time-series text storing unit 122 of a related word extracting device 10 stores a time-series text that is text data in association with time information, and a time-series frequency extracting unit 124 extracts an appearance frequency of each letter string in time series contained in the time-series text. A correlation value calculating unit 125 calculates, for each of the different letter strings, a correlation value that is a value indicating a strength of a causal relation between the different letter strings in a quantitative manner using the appearance frequency in time series extracted by the time-series frequency extracting unit 124, and determines whether or not those different letter strings are related to each other on the basis of the calculated correlation value. An output unit 13 outputs, as the related word, the other letter string determined as being related to the letter string of a keyword by the correlation value calculating unit 125.SELECTED DRAWING: Figure 1

Description

本発明は、関連語抽出装置及びプログラムに関する。   The present invention relates to a related word extraction device and a program.

これまでの一般的な関連語提示技術では、語の共起を元にした指標を用いてある語の関連語を算出していた(例えば、特許文献1参照)。このような語の共起を元にした関連語提示技術には、dice係数、ニューラルネットを用いたword2vecなどもある。この関連語提示技術では、同一文書内に互いの語が出現しないと、指標により表される関連度が高くならない。   In conventional related word presentation techniques, a related word of a word is calculated using an index based on the co-occurrence of the word (see, for example, Patent Document 1). Related word presentation techniques based on co-occurrence of such words include dice coefficients and word2vec using a neural network. In this related word presentation technique, the degree of relevance represented by the index does not increase unless mutual words appear in the same document.

一方、概念辞書を用いた関連語提示技術がある(例えば、特許文献2参照)。この関連語提示技術では、予め概念辞書を用意する必要がある。既存の概念辞書には、上位下位関係、因果関係など、なんらかの既知の関係がある語が列挙される。   On the other hand, there is a related word presentation technique using a concept dictionary (for example, see Patent Document 2). In this related word presentation technique, it is necessary to prepare a concept dictionary in advance. In the existing concept dictionary, words having some known relations such as upper and lower relations and causal relations are listed.

特許第3598211号公報Japanese Patent No. 3598211 特開2015−130111号公報JP2015-130111A

共起を元にした関連語提示技術では、似た意味の語が関連語として提示されることが多い傾向にある。しかし、実際には「プール」と「朝顔」は意味も分野も違うが、毎年夏に特徴的な語であり、同様に「鏡餅」と「こたつ」は冬に特徴的な語であることから、これらの語の間には関連性があると思われる。共起を元にした関連語提示技術では、同一文書内にこれらの単語同士が出現していないと、関連語として得られなかった。また、このような2語の間には明示的な関係が表現できないものも多く、既存の概念辞書に含まれにくいため、概念辞書を用いた関連語提示技術でも関連語として得られなかった。   In related word presentation technology based on co-occurrence, words having similar meanings tend to be presented as related words in many cases. In reality, however, “pool” and “morning glory” have different meanings and fields, but each year is a characteristic word in summer, and “Kagamine” and “kotatsu” are also characteristic words in winter. There seems to be a relationship between these words. The related word presentation technology based on co-occurrence cannot be obtained as related words unless these words appear in the same document. In addition, there are many cases in which an explicit relationship cannot be expressed between these two words, and it is difficult to be included in an existing concept dictionary. Therefore, the related word presentation technique using the concept dictionary cannot be obtained as a related word.

時系列を考慮したトピックを基に単語の生起確率を求めるモデルとして、DTM(Dynamic Topic Model)がある。しかし、DTMは、毎年のこの時期、といった周期には対応していないため、離散フーリエ変換などを用いて周期性を特定する必要があった。また、ある語が常に同じ周期で出現するとは限らない。例えば、ある事件が起こり、それ以降は、その事件が起こった時期になると出現が多くなる語や、ある時点で話題の流行が終わり、出現しなくなる語もある。   There is a DTM (Dynamic Topic Model) as a model for obtaining a word occurrence probability based on a topic in consideration of time series. However, since DTM does not correspond to a period such as this time of year, it is necessary to specify periodicity using a discrete Fourier transform or the like. Moreover, a certain word does not always appear in the same cycle. For example, there are some words that appear after an incident, and after that, the words appear more frequently, and the word that the trend of the topic ends at some point stops appearing.

本発明は、このような事情を考慮してなされたもので、語の共起や概念辞書によらずに関連語を抽出することができる関連語抽出装置及びプログラムを提供する。   The present invention has been made in view of such circumstances, and provides a related word extraction apparatus and program capable of extracting related words without using word co-occurrence or concept dictionaries.

本発明の一態様は、テキストデータに含まれる各文字列の関連語を抽出する関連語抽出装置であって、所定のキーワードを入力する入力部と、時刻情報と対応付けられた前記テキストデータである時系列テキストを記憶する記憶部と、前記時系列テキストに含まれる前記各文字列が時系列で出現するときの出現頻度である時系列頻度を抽出する時系列頻度抽出部と、前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、異なる前記文字列の間の因果関係の強さを定量的に表す値である相関値を算出し、算出された前記相関値に基づいて異なる前記文字列が関連するか否かを判定する相関値算出部と、前記相関値算出部が前記キーワードの文字列に関連すると判定した他の前記文字列を関連語として出力する出力部と、を備えることを特徴する関連語抽出装置である。
この発明によれば、関連語抽出装置は、時刻情報と対応付けられたテキストデータである時系列テキストを参照し、各文字列の時系列の出現頻度を算出する。関連語抽出装置は、算出した時系列の出現頻度を用いて文字列間に因果関係があるか否かを判定し、キーワードと因果関係があると判定した文字列を関連語として出力する。
これより、関連語抽出装置は、語の共起や概念辞書を用いることなく、キーワードと時期を同じくして話題となる語や、キーワードに関する事象と因果関係がある事象に関する語を関連語として提示することができる。
One aspect of the present invention is a related word extraction device that extracts related words of each character string included in text data, the input unit for inputting a predetermined keyword, and the text data associated with time information. A storage unit for storing a certain time series text, a time series frequency extraction unit for extracting a time series frequency that is an appearance frequency when each character string included in the time series text appears in a time series, and the time series Using the time series frequency extracted by the frequency extraction unit, a correlation value that is a value that quantitatively represents the strength of the causal relationship between the different character strings is calculated, and the correlation value is different based on the calculated correlation value A correlation value calculating unit that determines whether or not the character string is related; and an output unit that outputs the other character string that the correlation value calculating unit determines to be related to the character string of the keyword as a related word; Specially prepared It is a related term extraction apparatus to be.
According to this invention, the related word extracting device calculates the appearance frequency of the time series of each character string with reference to the time series text that is text data associated with the time information. The related word extraction device determines whether or not there is a causal relationship between character strings using the calculated time-series appearance frequency, and outputs a character string determined to have a causal relationship with a keyword as a related word.
As a result, the related word extraction device presents words related to events that have the same time as keywords and events that have a causal relationship with keywords as related words without using word co-occurrence or concept dictionaries. can do.

本発明の一態様は、上述する関連語抽出装置であって、コンテンツに関する情報を示すテキストデータであるコンテンツテキスト情報を記憶するコンテンツ情報記憶部と、前記関連語を用いて前記コンテンツテキスト情報を検索するコンテンツ検索部とをさらに備え、前記出力部は、前記コンテンツ検索部が検索した結果得られた前記コンテンツテキスト情報により特定される前記コンテンツの情報を出力する、ことを特徴とする。
この発明によれば、関連語抽出装置は、キーワードの関連語を用いてコンテンツを検索し、検索により特定されたコンテンツの情報をユーザに提示する。
本実施形態によれば、関連語抽出装置は、キーワードに関連したコンテンツをユーザに提示することができる。
One aspect of the present invention is the related word extraction device described above, wherein a content information storage unit that stores content text information that is text data indicating information related to content, and the content text information is searched using the related words. The content search unit further includes a content search unit that outputs the content information specified by the content text information obtained as a result of the search by the content search unit.
According to this invention, the related word extraction device searches for content using the related word of the keyword, and presents information on the content specified by the search to the user.
According to the present embodiment, the related word extraction device can present content related to the keyword to the user.

本発明の一態様は、上述する関連語抽出装置であって、前記記憶部は、インターネット上のウェブページに含まれる前記テキストデータ及び前記時刻情報を含む第1の時系列テキストと、コンテンツに関する情報を示すテキストデータ及び時刻情報を含む第2の時系列テキストとを記憶し、当該関連語抽出装置は、前記第1の時系列テキストからキーワードを抽出するキーワード抽出部をさらに有し、前記時系列頻度抽出部は、前記第1の時系列テキストに含まれる前記キーワードの時系列頻度と、前記第2の時系列テキストに含まれる各文字列の時系列頻度とを抽出し、前記相関値算出部は、前記キーワードと前記文字列のそれぞれについて前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、前記キーワードと前記文字列との相関値とを算出し、算出された当該相関値に基づいて前記文字列が前記キーワードに関連するか否かを判定し、前記出力部は、前記相関値算出部により前記キーワードに関連すると判定された前記文字列をコンテンツのテーマを表す関連語として出力し、出力した当該関連語を含む前記第2の時系列テキストにより特定される前記コンテンツの情報を出力する。
この発明によれば、関連語抽出装置は、インターネットで話題となっている語をキーワードとして抽出し、そのキーワードのインターネット上での時系列の出現頻度と、コンテンツに関する情報から得られた各文字列の時系列の出現頻度とを用いて、コンテンツに関する情報からキーワードの関連語を取得する。関連語抽出装置は、取得した関連語を用いてコンテンツを検索し、関連語により示されるコンテンツのテーマと、その関連語が得られた時系列テキストにより特定されるコンテンツの情報を、ユーザに提示する。
これにより、関連語抽出装置は、インターネット上で話題となっている事象に関連するコンテンツと、そのコンテンツのテーマとをユーザに提示することができる。
One aspect of the present invention is the related word extraction device described above, in which the storage unit includes the first time-series text including the text data and the time information included in a web page on the Internet, and information related to the content. And a second time-series text including time information, and the related word extraction device further includes a keyword extraction unit that extracts a keyword from the first time-series text, and the time series The frequency extraction unit extracts a time series frequency of the keyword included in the first time series text and a time series frequency of each character string included in the second time series text, and the correlation value calculation unit Is a correlation between the keyword and the character string using the time series frequency extracted by the time series frequency extraction unit for each of the keyword and the character string. And determining whether or not the character string is related to the keyword based on the calculated correlation value, and the output unit is determined to be related to the keyword by the correlation value calculation unit A character string is output as a related word representing the theme of the content, and information on the content specified by the second time-series text including the output related word is output.
According to the present invention, the related word extracting device extracts words that are hot topics on the Internet as keywords, and each character string obtained from the time-series appearance frequency of the keywords on the Internet and the information related to the contents. The related word of the keyword is acquired from the information related to the content using the appearance frequency of the time series. The related word extraction device searches the content using the acquired related words, and presents to the user the content theme indicated by the related words and the content information specified by the time-series text from which the related words are obtained. To do.
Thereby, the related word extraction apparatus can present to the user content related to an event that is a topic on the Internet and the theme of the content.

本発明の一態様は、コンピュータを、上述したいずれかの関連語抽出装置として機能させるためのプログラムである。   One embodiment of the present invention is a program for causing a computer to function as any one of the related word extraction devices described above.

本発明によれば、語の共起や概念辞書によらずに関連語を抽出することができる。   According to the present invention, related words can be extracted regardless of word co-occurrence or concept dictionary.

本発明の第1の実施形態による関連語抽出装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the related word extraction apparatus by the 1st Embodiment of this invention. 同実施形態による時系列文字列テーブルの例を示す図である。It is a figure which shows the example of the time series character string table by the embodiment. 同実施形態による関連語テーブルの例を示す図である。It is a figure which shows the example of the related word table by the embodiment. 同実施形態による関連語抽出装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the related word extraction apparatus by the same embodiment. 同実施形態による時系列頻度抽出部の時系列文字列テーブル作成処理を示すフローチャートである。It is a flowchart which shows the time series character string table preparation process of the time series frequency extraction part by the embodiment. 2つの文字列の時系列の頻度の例を表す図である。It is a figure showing the example of the time series frequency of two character strings. 第2の実施形態による関連語抽出装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the related word extraction apparatus by 2nd Embodiment. 同実施形態による関連語抽出装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the related word extraction apparatus by the same embodiment. 第3の実施形態による関連語抽出装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the related word extraction apparatus by 3rd Embodiment. 第4の実施形態による関連語抽出装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the related word extraction apparatus by 4th Embodiment. 第5の実施形態による関連語抽出装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the related word extraction apparatus by 5th Embodiment. 同実施形態による関連語抽出装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the related word extraction apparatus by the same embodiment.

以下、図面を参照しながら本発明の実施形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

[第1の実施形態]
本実施形態では、ユーザが指定したキーワードの関連語を抽出する。
図1は、第1の実施形態による関連語抽出装置10の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。関連語抽出装置10は、入力部11と、関連語抽出部12と、出力部13とを備え、関連語抽出部12は、時系列テキスト記憶部122と時系列文字列テーブル記憶部123とを備える。
[First Embodiment]
In the present embodiment, related words of keywords specified by the user are extracted.
FIG. 1 is a functional block diagram showing the configuration of the related word extraction apparatus 10 according to the first embodiment, and shows only functional blocks related to the present embodiment. The related word extraction device 10 includes an input unit 11, a related word extraction unit 12, and an output unit 13. The related word extraction unit 12 includes a time series text storage unit 122 and a time series character string table storage unit 123. Prepare.

関連語抽出装置10は、時刻情報と対応付けられたテキストデータである時系列テキストを記憶し、時系列テキストに含まれる各文字列の時系列の出現頻度を抽出する。そして、関連語抽出装置10は、異なる文字列の間の因果関係の強さを定量的に表す値である相関値を、それら異なる文字列のそれぞれについて時系列の出現頻度を用いて算出し、算出された相関値に基づいてそれら異なる文字列が関連するか否かを判定し、関連すると判定された異なる文字列同士を関連語とする。関連語抽出装置10は、所定のキーワードが入力されると、そのキーワードの文字列に関連すると判定された他の文字列を関連語として出力する。   The related word extraction device 10 stores time series text that is text data associated with time information, and extracts the appearance frequency of each character string included in the time series text. Then, the related word extraction device 10 calculates a correlation value, which is a value that quantitatively represents the strength of the causal relationship between different character strings, using the appearance frequency of the time series for each of the different character strings, It is determined whether or not these different character strings are related based on the calculated correlation value, and different character strings determined to be related are used as related words. When a predetermined keyword is input, the related word extraction device 10 outputs another character string determined to be related to the character string of the keyword as a related word.

入力部11は、例えば、ネットワークを介して接続される端末からキーワードなどの入力データを受信する。入力部11は、関連語抽出装置10が備えるキーボードなどの入力装置から入力データを受信してもよく、コンピュータ読み取り可能な記憶媒体から入力データを読み出してもよい。   The input unit 11 receives input data such as a keyword from a terminal connected via a network, for example. The input unit 11 may receive input data from an input device such as a keyboard provided in the related word extraction device 10 or may read input data from a computer-readable storage medium.

関連語抽出部12は、入力部11が入力を受けたキーワードの関連語を抽出する。関連語抽出部12は、記憶部121と、時系列頻度抽出部124と、相関値算出部125とを備える。   The related word extraction unit 12 extracts a related word of the keyword input by the input unit 11. The related word extraction unit 12 includes a storage unit 121, a time series frequency extraction unit 124, and a correlation value calculation unit 125.

記憶部121は、時系列テキスト記憶部122と、時系列文字列テーブル記憶部123とを備え、各種データを記憶する。なお、関連語抽出装置10とネットワークを介して接続されるサーバ装置などに時系列テキスト記憶部122を備えてもよい。   The storage unit 121 includes a time-series text storage unit 122 and a time-series character string table storage unit 123, and stores various data. The time series text storage unit 122 may be provided in a server device connected to the related word extraction device 10 via a network.

時系列テキスト記憶部122は、時刻情報と対応付けられたテキストデータを含む文書データである時系列テキストを記憶する。時系列テキストは、例えば、ニュース記事、ウェブテキスト、番組字幕、電子番組表(EPG:Electronic Program Guide)などを含む。例えば、時系列テキストがニュース記事である場合には、テキストデータはニュース記事の内容を含み、時刻情報はニュース記事の内容に含まれる日時の情報、あるいは、ニュース記事の作成日時又は公開日時を含む。また、時系列テキストが、インターネット上のウェブで公開したブログである場合には、テキストデータはブログの投稿内容の文章を含み、時刻情報は、ブログの投稿日時又は公開日時を含む。さらに、時系列テキストが番組字幕の場合には、テキストデータは字幕の内容を含み、時刻情報は、番組の放送開始日時または、字幕の提示時刻としてもよい。また、時系列テキストが電子番組表の場合には、テキストデータは番組名、番組のサブタイトル、番組概要などを含み、時刻情報は番組の放送開始日時を含む。   The time series text storage unit 122 stores time series text that is document data including text data associated with time information. The time series text includes, for example, news articles, web texts, program subtitles, an electronic program guide (EPG), and the like. For example, when the time series text is a news article, the text data includes the content of the news article, and the time information includes information on the date and time included in the content of the news article, or the creation date and release date and time of the news article. . In addition, when the time series text is a blog published on the web on the Internet, the text data includes a sentence of the posted content of the blog, and the time information includes the posted date / time or published date / time of the blog. Furthermore, when the time-series text is a program subtitle, the text data may include the content of the subtitle, and the time information may be the broadcast start date and time of the program or the subtitle presentation time. When the time series text is an electronic program guide, the text data includes a program name, a program subtitle, a program summary, and the like, and the time information includes the broadcast start date and time of the program.

時系列文字列テーブル記憶部123は、各文字列の時系列の出現頻度(以下、単に「頻度」ともいう。)を示すデータである時系列文字列テーブルを記憶する。頻度は、文字列が出現した時系列テキストの数としてもよく、全時系列テキストにおいて文字列が出現した数としてもよい。いずれを頻度とするかを、ユーザが設定してもよい。   The time-series character string table storage unit 123 stores a time-series character string table that is data indicating the frequency of appearance of each character string (hereinafter also simply referred to as “frequency”). The frequency may be the number of time-series texts in which character strings appear, or may be the number of character strings that appear in all time-series texts. The user may set which frequency is used.

時系列頻度抽出部124は、時系列テキスト記憶部122に記憶される時系列テキストから各文字列の時系列の頻度を算出し、時系列文字列テーブルを作成する。
相関値算出部125は、時系列文字列テーブルが示す各文字列の時系列の頻度に基づいて、文字列同士の相関値を算出する相関値算出処理を行う。ここで、相関値は、文字列間の因果関係の強さを定量的に表す値である。
相関値算出部125は、算出された相関値に基づいて一定以上の相関があると判断した文字列同士を対応づけた関連語テーブルを生成する。相関値算出部125は、入力されたキーワードの関連語を関連語テーブルから抽出する。
The time series frequency extraction unit 124 calculates the time series frequency of each character string from the time series text stored in the time series text storage unit 122, and creates a time series character string table.
The correlation value calculation unit 125 performs a correlation value calculation process for calculating a correlation value between character strings based on the time-series frequency of each character string indicated by the time-series character string table. Here, the correlation value is a value that quantitatively represents the strength of the causal relationship between the character strings.
The correlation value calculation unit 125 generates a related word table in which character strings determined to have a certain level of correlation based on the calculated correlation value are associated with each other. The correlation value calculation unit 125 extracts a related word of the input keyword from the related word table.

出力部13は、ネットワークを介して接続される端末へ相関値算出部125が抽出した関連語などのデータを送信し、表示させる。なお、出力部13は、関連語抽出装置10が備えるディスプレイなどの表示装置に出力データを表示してもよく、コンピュータ読取可能な記憶媒体へ出力データを書き込んでもよい。   The output unit 13 transmits data such as related words extracted by the correlation value calculation unit 125 to a terminal connected via a network and displays the data. The output unit 13 may display the output data on a display device such as a display provided in the related word extraction device 10 or may write the output data to a computer-readable storage medium.

図2は、時系列文字列テーブルの例を示す図である。同図に示す時系列文字列テーブルは、n個(nは2以上)の異なる文字列W1、W2、…、Wnの頻度を、2016年1月1日から1日単位で示している。   FIG. 2 is a diagram illustrating an example of a time-series character string table. The time-series character string table shown in the figure shows the frequency of n (n is 2 or more) different character strings W1, W2,..., Wn in units of 1 day from January 1, 2016.

図3は、関連語テーブルの例を示す図である。関連語テーブルは、文字列と、その文字列に関連する他の文字列である関連語とを対応付けたデータである。文字列及び関連語は、時系列テキスト記憶部122が記憶する時系列テキストに出現する文字列である。   FIG. 3 is a diagram illustrating an example of a related word table. The related word table is data in which a character string is associated with a related word that is another character string related to the character string. The character string and the related word are character strings that appear in the time series text stored in the time series text storage unit 122.

<関連語抽出装置10の動作>
続いて、関連語抽出装置10の動作を説明する。
図4は、関連語抽出装置10の動作を示すフローチャートである。
まず、ステップS105において、関連語抽出装置10の入力部11は、キーワードの入力を受ける。例えば、関連語抽出装置10の入力部11は、ユーザが入力したキーワードを端末から受信し、関連語抽出部12に出力する。
ステップS110において、関連語抽出部12の時系列頻度抽出部124は、図5に示す時系列文字列テーブル作成処理を行う。
<Operation of Related Word Extraction Device 10>
Next, the operation of the related word extraction device 10 will be described.
FIG. 4 is a flowchart showing the operation of the related word extraction device 10.
First, in step S105, the input unit 11 of the related word extraction device 10 receives an input of a keyword. For example, the input unit 11 of the related word extraction device 10 receives a keyword input by the user from the terminal and outputs the keyword to the related word extraction unit 12.
In step S110, the time-series frequency extraction unit 124 of the related word extraction unit 12 performs a time-series character string table creation process shown in FIG.

図5は、時系列頻度抽出部124の時系列文字列テーブル作成処理を示すフローチャートである。
ステップS205において、時系列頻度抽出部124は、時系列テキスト記憶部122に記憶される時系列テキストのうち、未選択の一つを選択して読み出す。
ステップS210において、時系列頻度抽出部124は、選択した時系列テキストから時刻情報を取得する。
FIG. 5 is a flowchart showing the time-series character string table creation process of the time-series frequency extraction unit 124.
In step S <b> 205, the time-series frequency extracting unit 124 selects and reads one unselected time-series text stored in the time-series text storage unit 122.
In step S210, the time series frequency extraction unit 124 acquires time information from the selected time series text.

ステップS215において、時系列頻度抽出部124は、取得した時刻情報と対応付けて時系列テキストに記述されているテキストデータを文字列に切り分ける。文字列は、例えば、名詞など所定の品詞の形態素、文字ngram、名詞のペアである。文字列とする名詞のペアは、例えば「夏の風物詩」のように、名詞とその名詞に係る語のペアである。文字列への切り分けには、形態素解析、文字ngram解析等の従来技術を用いることができる。   In step S215, the time-series frequency extraction unit 124 cuts text data described in the time-series text in association with the acquired time information into character strings. The character string is, for example, a morpheme of a predetermined part of speech such as a noun, a character gram, and a noun pair. A pair of nouns used as character strings is a pair of a noun and a word related to the noun, such as “summer feature poem”. Conventional techniques such as morphological analysis and character gramm analysis can be used for dividing into character strings.

ステップS220において、時系列頻度抽出部124は、時刻情報と対応付けられたテキストデータを切り分けて得られた文字列が、その時刻情報により示される時刻に出現したものとし、異なる各文字列の頻度を計算する。時系列頻度抽出部124は、時刻情報と対応付けられたテキストデータに1回以上出現する全ての文字列それぞれの頻度を「1」としてもよく、時刻情報と対応付けられたテキストデータに文字列が出現する回数を、その文字列の頻度としてもよい。   In step S220, the time-series frequency extraction unit 124 assumes that the character string obtained by segmenting the text data associated with the time information appears at the time indicated by the time information, and the frequency of each different character string. Calculate The time-series frequency extraction unit 124 may set the frequency of each character string that appears at least once in the text data associated with the time information to “1”, and the character string is included in the text data associated with the time information. The number of occurrences of may be used as the frequency of the character string.

時系列頻度抽出部124は、時系列文字列テーブルが作成されていなければ、新たに時系列文字列テーブルを生成し、時系列文字列テーブル記憶部123に書き込む。時系列文字列テーブルに設定する単位時間は予め記憶部121に記憶されており、1か月、1週間、1日、1時間など、ユーザの設定により可変とする。   If the time-series character string table has not been created, the time-series frequency extraction unit 124 generates a new time-series character string table and writes it in the time-series character string table storage unit 123. The unit time set in the time-series character string table is stored in the storage unit 121 in advance, and is variable according to user settings such as one month, one week, one day, and one hour.

ステップS225において、時系列頻度抽出部124は、ステップS220において得られた各文字列の頻度に基づいて、時系列文字列テーブル記憶部123に記憶される時系列文字列テーブルを更新する。   In step S225, the time-series frequency extraction unit 124 updates the time-series character string table stored in the time-series character string table storage unit 123 based on the frequency of each character string obtained in step S220.

具体的には、時系列頻度抽出部124は、ステップS215において得られた文字列のうち、まだ時系列文字列テーブルに登録されていない文字列があれば、追加登録する。時系列頻度抽出部124は、ステップS210において得られた時刻情報が含まれる時間帯に対応して時系列文字列テーブルに設定されている文字列の頻度を、ステップS220において計算したその文字列の頻度を加算した値に更新する。   Specifically, if there is a character string that has not been registered in the time-series character string table among the character strings obtained in step S215, the time-series frequency extraction unit 124 additionally registers the character string. The time series frequency extraction unit 124 calculates the frequency of the character string set in the time series character string table corresponding to the time zone including the time information obtained in step S210, for the character string calculated in step S220. Update to a value that adds the frequency.

ステップS230において、時系列頻度抽出部124は、選択した時系列テキストが時系列テキスト記憶部122に記憶される最後の時系列テキストであるか否かを判定する。時系列頻度抽出部124は、選択した時系列テキストが時系列テキスト記憶部122に記憶される最後の時系列テキストではないと判定した場合(ステップS230:NO)、ステップS205からの処理を繰り返す。そして、時系列頻度抽出部124は、選択した時系列テキストが時系列テキスト記憶部122に記憶される最後の時系列テキストであると判定した場合(ステップS230:NO)、関連語抽出装置10は、図4に示すステップS115からの処理を行う。   In step S230, the time-series frequency extracting unit 124 determines whether or not the selected time-series text is the last time-series text stored in the time-series text storage unit 122. When the time series frequency extraction unit 124 determines that the selected time series text is not the last time series text stored in the time series text storage unit 122 (step S230: NO), the processing from step S205 is repeated. When the time-series frequency extraction unit 124 determines that the selected time-series text is the last time-series text stored in the time-series text storage unit 122 (step S230: NO), the related word extraction apparatus 10 The process from step S115 shown in FIG. 4 is performed.

図4のステップS115において、時系列頻度抽出部124は、時系列文字列テーブル記憶部123に記憶される時系列文字列テーブルを相関値算出部125に出力する。このとき、相関値算出部125は、時系列文字列テーブルに設定される各文字列の時系列の頻度のうち、条件を満たす文字列の時系列の頻度のみを抽出して相関値算出部125に出力してもよい。例えば、相関値算出部125は、時系列文字列テーブルから、低頻度の文字列についての情報を除く。低頻度は、例えば、所定期間における頻度の合計が所定値以下である、所定期間における頻度の平均が全文字列の頻度の平均以下である、所定期間における頻度の合計が多い順に順位付けしたときの順位が所定以下である、などによって判断される。あるいは、DTM(Dynamic Topic Model)などのトピックモデルを利用し、各トピックの中で確率値が高い上位のm個の文字列についての頻度のみを抽出する、時期により頻度が変動する文字列をバースト検知などで抽出する、などの処理が考えられる。ただし、時系列頻度抽出部124は、ステップS105において入力されたキーワードに一致する文字列の頻度の情報については削除しないようにしてもよい。   4, the time-series frequency extraction unit 124 outputs the time-series character string table stored in the time-series character string table storage unit 123 to the correlation value calculation unit 125. At this time, the correlation value calculation unit 125 extracts only the time-series frequency of the character string satisfying the condition from the time-series frequencies of each character string set in the time-series character string table, and the correlation value calculation unit 125. May be output. For example, the correlation value calculation unit 125 excludes information about low-frequency character strings from the time-series character string table. The low frequency is, for example, when ranking is performed in descending order of the total frequency in a predetermined period where the total frequency in the predetermined period is less than or equal to a predetermined value, the average frequency in the predetermined period is less than or equal to the average frequency of all character strings Is determined to be less than or equal to a predetermined order. Alternatively, use a topic model such as DTM (Dynamic Topic Model) to extract only the frequency of the top m character strings with high probability values in each topic. Burst the character string whose frequency varies with time Processing such as extraction by detection is conceivable. However, the time-series frequency extraction unit 124 may not delete information on the frequency of the character string that matches the keyword input in step S105.

ステップS120において、相関値算出部125は、時系列頻度抽出部124から入力した時系列文字列テーブル内に設定される文字列間に因果関係が成立するか否かを判定する相関判定処理を行う。なお、相関値算出部125は、時系列文字列テーブルに設定される全ての文字列の組について相関判定処理を行ってもよく、ステップS105において入力されたキーワードと一致する文字列と、そのキーワードとは異なる全ての文字列のそれぞれとの間の相関判定処理を行ってもよい。   In step S120, the correlation value calculation unit 125 performs a correlation determination process for determining whether a causal relationship is established between the character strings set in the time-series character string table input from the time-series frequency extraction unit 124. . The correlation value calculation unit 125 may perform correlation determination processing for all character string sets set in the time-series character string table. The character string that matches the keyword input in step S105 and the keyword A correlation determination process may be performed between each of all character strings different from the above.

相関値算出部125は、相関判定処理の対象の2つの文字列それぞれの時系列の頻度を用いて、Granger因果性検定を行う。Granger因果性検定は、経済学でよく用いられている既存の手法であり、背景知識を用いずに、売上高の時系列変化などの数値データからのみ、因果関係の有無を判断するために用いられる。例えば、Granger因果性検定を用いることにより、アイスクリームの売り上げが高い→水の事故が増える、などのように、因果関係を時系列データのみで検定できる。因果関係には、2項間の因果関係の向きも含まれる。しかし、アイスクリームと水の事故の本来の意味に因果関係があるわけではない。   The correlation value calculation unit 125 performs the Granger causality test using the time-series frequencies of the two character strings to be subjected to correlation determination processing. The Granger causality test is an existing method that is often used in economics, and is used to determine the existence of a causal relationship only from numerical data such as changes in sales over time, without using background knowledge. It is done. For example, by using the Granger causality test, it is possible to test the causal relationship only with time series data, such as high sales of ice cream → increased water accidents. The causal relationship includes the direction of the causal relationship between the two terms. However, the original meaning of an ice cream and water accident is not causal.

文字列Wi(i=1,2,…,n)の時刻tにおける頻度をx、文字列Wj(i≠j、j=1,2,…,n)の時刻tにおける頻度をzとしたときに、以下の式(1)及び式(2)のベクトル自己回帰モデル(VAR)モデルを考える。 The frequency at time t of the character string Wi (i = 1, 2,..., N) is x t , and the frequency at time t of the character string Wj (i ≠ j, j = 1, 2,..., N) is z t . Then, consider the vector autoregressive model (VAR) model of the following equations (1) and (2).

=at−1+…+at−p+bt−1+…+bt−p+u1t …(1) x t = a 1 x t- 1 + ... + a p x t-p + b 1 z t-1 + ... + b p z t-p + u 1t ... (1)

=ct−1+…+ct−p+dt−1+…+dt−p+u2t …(2) z t = c 1 x t- 1 + ... + c p x t-p + d 1 z t-1 + ... + d p z t-p + u 2t ... (2)

、b、c、d(i=1,2,…,p)は定数であり、u1t,u2tはノイズである。式(1)は、時刻tにおける文字列Wiの頻度xは、過去の文字列Wiの頻度xt−1〜xt−pと、過去の文字列Wjの頻度zt−1〜zt−pで説明されることを表し、b〜bが0の場合は文字列Wiと文字列Wjに因果関係がない。式(2)は、時刻tにおける文字列Wjの頻度zは、過去の文字列Wjの頻度zt−1〜zt−pと、過去の文字列Wiの頻度xt−1〜xt−pで説明されることを表し、c〜cが0の場合は文字列Wjと文字列Wiに因果関係はない。 a i , b i , c i , d i (i = 1, 2,..., p) are constants, and u 1t and u 2t are noises. Equation (1), the frequency x t string Wi at time t, and frequency x t-1 ~x t-p of the past string Wi, frequency of past string Wj z t-1 ~z t It indicates that described in -p, b 1 ~b p is no causal relationship strings Wi and string Wj if 0. Equation (2), the frequency z t string Wj at time t, and frequency z t-1 ~z t-p past string Wj, frequency x t-1 ~x t past string Wi It indicates that described in -p, c 1 ~c p is not causal relationship string Wj and string Wi if 0.

相関値算出部125は、文字列W1〜Wnから異なる2つの文字列の組を全て生成し、各組の文字列をWi、Wjとして、以下の処理を行う。なお、相関値算出部125は、文字列Wiの時系列の頻度x〜xt−pと、文字列Wjの時系列の頻度z〜zt−pを、時系列文字列テーブルから取得する。 The correlation value calculation unit 125 generates all sets of two different character strings from the character strings W1 to Wn, and performs the following processing with the character strings of each set as Wi and Wj. Incidentally, the correlation value calculation unit 125 obtains a frequency x t ~x t-p the time series of strings Wi, the frequency z t ~z t-p time series string Wj, from the time series string table To do.

相関値算出部125は、文字列Wi、Wjの時系列の頻度を用いて最小二乗回帰により式(1)を推定し、推定した式(1)の残差平方和USSを求める。さらに、相関値算出部125は、b=…=b=0とし、文字列Wiの頻度を用いて最小二乗回帰により式(1)を推定し、推定した式(1)の残差平方和RSSを算出する。相関値算出部125は、以下の式(3)を検定統計量Fとする。 The correlation value calculation unit 125 estimates Equation (1) by least square regression using the time series frequencies of the character strings Wi and Wj, and obtains the residual sum of squares USS x of the estimated Equation (1). Further, the correlation value calculation unit 125 assumes b 1 =... = B p = 0, estimates Equation (1) by least square regression using the frequency of the character string Wi, and calculates the residual square of the estimated Equation (1). The sum RSS x is calculated. Correlation value calculating section 125, the following equation (3) and the test statistic F x.

=((RSS−USS)/p)/(USS/(n−2p)) …(3) F x = ((RSS x −USS x ) / p) / (USS x / (n−2p)) (3)

相関値算出部125は、pFをχ(p)の95%点と比較するχ(カイ二乗)検定を行い、pFの方が大きければ、文字列Wjから文字列Wiへの因果関係が存在し、小さければ文字列Wjから文字列Wiへの因果関係が存在しないと判断する。 The correlation value calculation unit 125 performs a χ 2 (chi-square) test that compares pF x with the 95% point of χ 2 (p). If pF x is larger, the causal from the character string Wj to the character string Wi If the relationship exists and is small, it is determined that there is no causal relationship from the character string Wj to the character string Wi.

同様に、相関値算出部125は、文字列Wi、Wjの頻度を用いて最小二乗回帰により式(2)を推定し、推定した式(2)の残差平方和USSを求める。さらに、相関値算出部125は、c=…=c=0とし、文字列Wjの頻度を用いて最小二乗回帰により式(2)を推定し、推定した式(2)の残差平方和RSSを算出する。相関値算出部125は、以下の式(4)を検定統計量Fとする。 Similarly, correlation value calculation section 125 estimates equation (2) by least square regression using the frequencies of character strings Wi and Wj, and obtains residual square sum USS y of estimated equation (2). Furthermore, correlation value calculation section 125 assumes c 1 =... = C p = 0, estimates equation (2) by least square regression using the frequency of character string Wj, and calculates the residual square of estimated equation (2). The sum RSS y is calculated. The correlation value calculation unit 125 sets the following equation (4) as the test statistic Fy .

=((RSS−USS)/p)/(USS/(n−2p)) …(4) F y = ((RSS y -USS y) / p) / (USS y / (n-2p)) ... (4)

相関値算出部125は、pFをχ(p)の95%点と比較するχ検定を行い、pFの方が大きければ、文字列Wiから文字列Wjへの因果関係が存在し、小さければ文字列Wiから文字列Wjへの因果関係が存在しないと判断する。 The correlation value calculation unit 125 performs a χ 2 test that compares pF y with the 95% point of χ 2 (p). If pF y is larger, there is a causal relationship from the character string Wi to the character string Wj. If it is smaller, it is determined that there is no causal relationship from the character string Wi to the character string Wj.

相関値算出部125は、文字列Wiから文字列Wjへの因果関係と、文字列Wjから文字列Wiへの因果関係との少なくとも一方が存在する場合、文字列Wjを文字列Wiの関連語とし、文字列Wiを文字列Wjの関連語とする。なお、上記では、相関値算出部125は、有意水準を95%とし、その水準を満たす文字列ペアを因果関係ありと判断しているが、有意水準は予め記憶部121に記憶され、ユーザにより可変に設定される。   When at least one of the causal relationship from the character string Wi to the character string Wj and the causal relationship from the character string Wj to the character string Wi exist, the correlation value calculation unit 125 converts the character string Wj into a related word of the character string Wi. And the character string Wi is a related word of the character string Wj. In the above description, the correlation value calculation unit 125 determines that the significance level is 95% and character string pairs that satisfy the level are causal, but the significance level is stored in the storage unit 121 in advance and is determined by the user. Set to variable.

ステップS125において、相関値算出部125は、各文字列について、その文字列と因果関係ありと判断された他の文字列とを対応付けた関連語テーブルを作成する。このとき、相関値算出部125は、文字列の間の因果関係の強さを定量的に表す値である検定統計量F又はFとして表される相関値の情報と、因果関係の向きの情報とを付加して関連語テーブルに関連語を設定する。また、相関値算出部125は、相関値の高い順に関連語を並べて関連語テーブルに設定してもよい。 In step S125, the correlation value calculation unit 125 creates, for each character string, a related word table that associates the character string with another character string that has been determined to have a causal relationship. At this time, the correlation value calculation unit 125 includes information on the correlation value expressed as a test statistic F x or F y that is a value that quantitatively represents the strength of the causal relationship between the character strings, and the direction of the causal relationship. And the related word is set in the related word table. Further, the correlation value calculation unit 125 may arrange related words in descending order of correlation values and set them in the related word table.

相関値算出部125は、生成した関連語テーブルから、ステップS105において入力されたキーワードと、そのキーワードに対応した関連語が設定されている部分を抽出してキーワード関連語テーブルを生成し、出力部13に出力する。   The correlation value calculation unit 125 generates a keyword-related word table by extracting the keyword input in step S105 and the part where the related word corresponding to the keyword is set from the generated related word table, and outputs the keyword-related word table. 13 is output.

ステップS130において、出力部13は、相関値算出部125が抽出したキーワード関連語テーブルを提示する。具体的には、出力部13は、キーワードの送信元の端末にキーワード関連語テーブルを送信し、端末は、受信したキーワード関連語テーブルをディスプレイに表示する。   In step S130, the output unit 13 presents the keyword-related word table extracted by the correlation value calculation unit 125. Specifically, the output unit 13 transmits the keyword-related word table to the keyword transmission source terminal, and the terminal displays the received keyword-related word table on the display.

なお、キーワードに代えて、文章等のテキストデータを関連語抽出装置10に入力してもよい。時系列頻度抽出部124又は図示しないキーワード抽出部が、図4のステップS215の処理と同様に、入力されたテキストデータから文字列を取得し、取得した文字列をキーワードとする。   Instead of keywords, text data such as sentences may be input to the related word extraction device 10. The time series frequency extraction unit 124 or a keyword extraction unit (not shown) acquires a character string from the input text data, and uses the acquired character string as a keyword, as in the process of step S215 in FIG.

また、キーワードが2つ以上ある場合、出力部13は、関連するキーワードが多い関連語ほど優先度を高くし、優先度の順に関連語を表示させてもよく、優先度が所定よりも高い関連語の色を変えて表示させてもよく、関連するキーワードの数を付加して関連語を表示させてもよい。また、出力部13は、関連語にキーワードとの間の因果関係の向きを表す文字や図形などの情報を付加して表示させてもよい。   When there are two or more keywords, the output unit 13 may increase the priority of related words with more related keywords, and display related words in order of priority. The color of the word may be changed and displayed, or the number of related keywords may be added to display the related word. Further, the output unit 13 may display the related words with information such as characters and figures representing the direction of the causal relationship between the keywords.

また、相関値算出部125は、キーワードとの因果関係の向きが所定方向の関連語のみ関連語テーブルに設定してもよく、関連語テーブルからキーワードとの因果関係の向きが所定方向の関連語のみを抽出してキーワード関連語テーブルに設定してもよい。   In addition, the correlation value calculation unit 125 may set only the related words whose direction of the causal relationship with the keyword is in the predetermined direction in the related word table, and the related word whose direction of the causal relationship with the keyword is the predetermined direction from the related word table. May be extracted and set in the keyword-related word table.

なお、異なるキーワードにより図4の処理を繰り返し行う場合、既に時系列文字列テーブルが生成されていることがある。この場合、図5のステップS205において、時系列頻度抽出部124は、前回図4の処理を行った後に時系列テキスト記憶部122に新たに登録された時系列テキストを一つずつ選択し、生成済みの時系列文字列テーブルを更新すればよい。   Note that when the process of FIG. 4 is repeated with different keywords, a time-series character string table may already be generated. In this case, in step S205 in FIG. 5, the time series frequency extraction unit 124 selects and generates one time series text newly registered in the time series text storage unit 122 after the previous processing in FIG. What is necessary is just to update the completed time series character string table.

本実施形態の関連語抽出装置10によれば、同じ時期に話題となる語(文字列)を関連語として抽出することができる。また、関連語抽出装置10は、ある事象に関する語(文字列)と、その事象が起こった結果として時期をずらして発生する事象に関する語(文字列)とを関連語として抽出することができる。これについて、図6を用いて説明する。   According to the related word extraction device 10 of the present embodiment, words (character strings) that become topics at the same time can be extracted as related words. Further, the related word extraction apparatus 10 can extract a word (character string) related to a certain event and a word (character string) related to an event that occurs at different times as a result of the occurrence of the event as related words. This will be described with reference to FIG.

図6は、2つの文字列Wi、Wjの時系列の頻度の例を表す図である。文字列Wiが表す事象が発生したことが原因となって、文字列Wjが表わす事象が発生する場合、文字列Wiの頻度と文字列Wjの頻度とは時期をずらしてピークが現れる。例えば、「株価の上昇」がきっかけで景気が回復し、「海外旅行」に行く人が増えた場合、「株価の上昇」と「海外旅行」とは因果関係があるものの、概念的には異なっており、かつ、時期をずらして頻度のピークが発生する。また、頻度のピークが異なっていることから、同一文書に共起する機会も少ないと考えられる。関連語抽出装置10は、Granger因果性検定を用いて因果関係を判定することにより、過去に、キーワードに関する事象に対して、時間をずらして発生したことがある因果関係のある事象に関する語を関連語として得ることができる。   FIG. 6 is a diagram illustrating an example of time-series frequencies of two character strings Wi and Wj. When the event represented by the character string Wj occurs due to the occurrence of the event represented by the character string Wi, the frequency of the character string Wi and the frequency of the character string Wj appear at different timings. For example, when the economy recovers due to the rise in stock prices and the number of people going to travel abroad increases, the rise in stock prices and overseas travel are causally related, but they are conceptually different. In addition, frequency peaks occur at different times. In addition, since the frequency peaks are different, it is considered that there are few opportunities to co-occur in the same document. The related word extraction device 10 determines a causal relationship using the Granger causality test, thereby associating a word related to a causal event that has occurred in the past with respect to an event related to a keyword. Can be obtained as a word.

[第2の実施形態]
本実施形態では、第1の実施形態と同様の処理により抽出した関連語を用いて検索したコンテンツをユーザに推薦する。以下では、第1の実施形態との差分を中心に記載する。
[Second Embodiment]
In this embodiment, the content searched using the related word extracted by the process similar to 1st Embodiment is recommended to a user. In the following, the difference from the first embodiment will be mainly described.

図7は、第2の実施形態による関連語抽出装置20の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図1に示す第1の実施形態による関連語抽出装置10と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置20と、図1に示す関連語抽出装置10とが異なる点は、コンテンツ情報記憶部21及びコンテンツ検索部22をさらに備える点である。   FIG. 7 is a functional block diagram showing the configuration of the related word extracting apparatus 20 according to the second embodiment, and only the functional blocks related to this embodiment are extracted and shown. In this figure, the same parts as those in the related word extracting apparatus 10 according to the first embodiment shown in FIG. The difference between the related word extraction device 20 and the related word extraction device 10 shown in FIG. 1 is that a content information storage unit 21 and a content search unit 22 are further provided.

コンテンツ情報記憶部21は、ユーザへ紹介する候補となる各コンテンツデータ(以下、「コンテンツ」とも記載する。)のコンテンツIDとコンテンツテキスト情報とを対応付けて記憶する。コンテンツIDは、コンテンツを一意に特定する識別情報であり、コンテンツテキスト情報は、コンテンツに関する情報を示すテキストデータである。例えば、コンテンツテキスト情報は、コンテンツのタイトルや説明などを示すテキストデータでもよく、テキストデータを含むコンテンツデータ自体でもよく、コンテンツデータに含まれるテキストデータの全部又は一部でもよい。   The content information storage unit 21 stores the content ID and content text information of each piece of content data (hereinafter also referred to as “content”) to be introduced to the user in association with each other. The content ID is identification information that uniquely identifies the content, and the content text information is text data indicating information about the content. For example, the content text information may be text data indicating the title or description of the content, the content data itself including the text data, or all or part of the text data included in the content data.

例えば、コンテンツが番組であれば、コンテンツテキスト情報として、番組サブタイトル、番組概要文などが記述されたテキストデータを用いてもよく、番組に含まれる字幕テキストを用いてもよい。また、コンテンツが音楽、電子図書などであれば、コンテンツの紹介や概要などが記述されたテキストデータをコンテンツテキスト情報として用いる。また、コンテンツがテキストデータを含んだウェブページや電子図書などである場合、そのコンテンツデータ自体、又は、そのコンテンツに含まれるテキストデータの全文又は一部をコンテンツテキスト情報として用いてもよい。   For example, if the content is a program, text data describing a program subtitle, a program summary sentence, or the like may be used as the content text information, or subtitle text included in the program may be used. If the content is music, electronic books, etc., text data describing the content introduction or summary is used as the content text information. Further, when the content is a web page or an electronic book containing text data, the content data itself or the whole or part of the text data included in the content may be used as the content text information.

コンテンツ情報記憶部21はさらに、コンテンツIDと対応付けてコンテンツ紹介情報を記憶する。コンテンツ紹介情報は、ユーザにコンテンツを紹介するために提示する情報である。例えば、コンテンツが番組の場合、コンテンツ紹介情報は、番組名、放送日時、チャネル、番組概要、サムネイル画像、番組視聴サイトのURL(Universal Resource Locator)などを含む。また、コンテンツが音楽、電子図書などの場合、コンテンツ紹介情報は、例えば、コンテンツのタイトル、紹介文、価格、購入サイト又はダウンロードサイトのURLなどの情報を含み、コンテンツがウェブページの場合、コンテンツ紹介情報はそのウェブページのURLなどの情報を含む。コンテンツテキスト情報の一部又は全部がコンテンツ紹介情報として用いられてもよい。   The content information storage unit 21 further stores content introduction information in association with the content ID. The content introduction information is information presented to introduce content to the user. For example, when the content is a program, the content introduction information includes a program name, broadcast date / time, channel, program overview, thumbnail image, URL (Universal Resource Locator) of a program viewing site, and the like. If the content is music, electronic books, etc., the content introduction information includes information such as the content title, introduction text, price, URL of the purchase site or download site, and if the content is a web page, the content introduction information The information includes information such as the URL of the web page. Part or all of the content text information may be used as the content introduction information.

なお、コンテンツ情報記憶部21は、関連語抽出装置20とネットワークを介して接続されるサーバに備えられてもよい。   The content information storage unit 21 may be provided in a server connected to the related word extraction device 20 via a network.

<関連語抽出装置20の動作>
図8は、関連語抽出装置20の動作を示すフローチャートである。同図において、図4に示すフローチャートと同一の処理には同一の符号を付し、その説明を省略する。関連語抽出装置20は、図4のステップS105〜ステップS125と同様の処理を行う。
<Operation of Related Word Extraction Device 20>
FIG. 8 is a flowchart showing the operation of the related word extraction device 20. In this figure, the same processes as those in the flowchart shown in FIG. The related word extraction device 20 performs the same processing as steps S105 to S125 of FIG.

ステップS305において、相関値算出部125は、生成した関連語テーブルから、ステップS105において入力されたキーワードと、そのキーワードに対応した関連語が設定されている部分を抽出してキーワード関連語テーブルを生成し、コンテンツ検索部22に出力する。   In step S305, the correlation value calculation unit 125 generates a keyword-related word table by extracting the keyword input in step S105 and the part where the related word corresponding to the keyword is set from the generated related word table. And output to the content search unit 22.

ステップS310において、コンテンツ検索部22は、キーワード関連語テーブルからキーワードを取得し、取得したキーワードを検索キーとして用いて、コンテンツ情報記憶部21に記憶されるコンテンツテキスト情報を検索する。コンテンツ検索部22は、検索の結果得られたコンテンツテキスト情報と同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部21から読み出す。   In step S310, the content search unit 22 acquires a keyword from the keyword-related word table, and searches the content text information stored in the content information storage unit 21 using the acquired keyword as a search key. The content search unit 22 reads content introduction information associated with the same content ID as the content text information obtained as a result of the search from the content information storage unit 21.

続いて、ステップS315において、コンテンツ検索部22は、キーワード関連語テーブルから関連語を取得し、取得した関連語を検索キーとして用いて、コンテンツ情報記憶部21に記憶されるコンテンツテキスト情報を検索する。コンテンツ検索部22は、検索の結果得られたコンテンツテキスト情報と同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部21から読み出す。   Subsequently, in step S315, the content search unit 22 acquires a related word from the keyword related word table, and searches the content text information stored in the content information storage unit 21 using the acquired related word as a search key. . The content search unit 22 reads content introduction information associated with the same content ID as the content text information obtained as a result of the search from the content information storage unit 21.

コンテンツ検索部22は、ステップS310において読み出したコンテンツ紹介情報と、ステップS315において読み出したコンテンツ紹介情報を出力部13に出力する。   The content search unit 22 outputs the content introduction information read in step S310 and the content introduction information read in step S315 to the output unit 13.

ステップS320において、出力部13は、コンテンツ検索部22から受信したコンテンツ紹介情報を提示する。具体的には、出力部13は、キーワードの送信元の端末にコンテンツ紹介情報を送信し、端末は、受信したコンテンツ紹介情報をディスプレイに表示する。   In step S320, the output unit 13 presents the content introduction information received from the content search unit 22. Specifically, the output unit 13 transmits the content introduction information to the keyword transmission source terminal, and the terminal displays the received content introduction information on the display.

キーワードが2以上である場合、コンテンツ検索部22は、より多くのキーワードに関連するコンテンツほど順位が高くなるように優先度をつけ、優先度の順にコンテンツ提示情報を表示させるようにしてもよい。また、コンテンツ検索部22は、より多くの関連語に関連するコンテンツほど順位が高くなるように優先度をつけ、優先度の順にコンテンツ提示情報を表示させるようにしてもよい。また、同じ数の関連語と関連するコンテンツが複数ある場合、コンテンツ検索部22は、関連語とキーワードとの相関値を合計又は乗算した結果に基づき優先度を決定してもよい。   When the number of keywords is two or more, the content search unit 22 may assign priorities so that the content related to more keywords is higher in order and display the content presentation information in order of priority. In addition, the content search unit 22 may prioritize the content so that the content related to more related words is higher in order and display the content presentation information in the order of priority. Further, when there are a plurality of contents related to the same number of related words, the content search unit 22 may determine the priority based on the result of summing or multiplying the correlation values between the related words and the keywords.

本実施形態では、例えば、インターネット上で公開されている膨大な情報などを用いてキーワードの関連語を取得し、コンテンツの推薦に利用することが可能となる。また、キーワードに関する事象の原因となった事象に関連するコンテンツや、キーワードに関係する事象の次に発生することが予想される事象に関するコンテンツをユーザに推薦することができる。   In the present embodiment, for example, it is possible to acquire a keyword-related word using a vast amount of information published on the Internet and use it for content recommendation. In addition, it is possible to recommend to the user content related to an event that causes an event related to a keyword or content related to an event that is expected to occur next to an event related to a keyword.

[第3の実施形態]
第2の実施形態では時系列テキストとコンテンツテキスト情報とが異なるデータであるが、本実施形態では、時系列テキストとコンテンツテキスト情報とが同一のデータである。以下では、第2の実施形態との差分を中心に記載する。
[Third Embodiment]
In the second embodiment, the time-series text and the content text information are different data, but in this embodiment, the time-series text and the content text information are the same data. Hereinafter, differences from the second embodiment will be mainly described.

図9は、第3の実施形態による関連語抽出装置30の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図7に示す第2の実施形態による関連語抽出装置20と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置30と、図7に示す関連語抽出装置20とが異なる点は、関連語抽出部12、コンテンツ情報記憶部21及びコンテンツ検索部22に代えて、関連語抽出部32、コンテンツ情報記憶部33及びコンテンツ検索部34を備える点である。   FIG. 9 is a functional block diagram showing the configuration of the related word extracting device 30 according to the third embodiment, and only functional blocks related to the present embodiment are extracted and shown. In this figure, the same parts as those in the related word extracting apparatus 20 according to the second embodiment shown in FIG. The related word extracting device 30 and the related word extracting device 20 shown in FIG. 7 are different from the related word extracting unit 12, the content information storage unit 21, and the content search unit 22 in that the related word extracting unit 32, the content information It is a point provided with the memory | storage part 33 and the content search part 34. FIG.

関連語抽出部32が、図7に示す関連語抽出部12と異なる点は、記憶部121に代えて記憶部321を備える点である。記憶部321は、時系列テキスト記憶部322及び時系列文字列テーブル記憶部123を備える。時系列テキスト記憶部322は、コンテンツIDに対応付けられた時系列テキストを記憶する。時系列テキストは、時刻情報が含まれた又は付加されたコンテンツテキスト情報である。   The related word extraction unit 32 is different from the related word extraction unit 12 illustrated in FIG. 7 in that a storage unit 321 is provided instead of the storage unit 121. The storage unit 321 includes a time series text storage unit 322 and a time series character string table storage unit 123. The time series text storage unit 322 stores the time series text associated with the content ID. The time-series text is content text information including or adding time information.

コンテンツ情報記憶部33は、コンテンツIDに対応付けられたコンテンツ紹介情報を記憶する。コンテンツテキスト情報とコンテンツ紹介情報とが同一の情報である場合、関連語抽出装置30はコンテンツ情報記憶部33を設けなくてもよい。   The content information storage unit 33 stores content introduction information associated with the content ID. When the content text information and the content introduction information are the same information, the related word extraction device 30 may not provide the content information storage unit 33.

コンテンツ検索部34は、キーワードに基づく検索対象及び関連語に基づく検索対象を、時系列テキスト記憶部322に記憶される時系列テキスト情報とする以外は第2の実施形態のコンテンツ検索部22と同様の処理を行う。   The content search unit 34 is the same as the content search unit 22 of the second embodiment except that the search target based on keywords and the search target based on related terms are time-series text information stored in the time-series text storage unit 322. Perform the process.

関連語抽出装置30は、図8に示す処理と同様の処理を行う。ただし、ステップS310において、関連語抽出装置30のコンテンツ検索部34は、キーワード関連語テーブルから取得したキーワードを検索キーとして用いて、時系列テキスト記憶部322に記憶される時系列テキストを検索する。コンテンツ検索部34は、検索の結果得られた時系列テキストと同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。また、ステップS315において、コンテンツ検索部34は、キーワード関連語テーブルから取得した関連語を検索キーとして用いて、時系列テキスト記憶部322に記憶される時系列テキストを検索する。コンテンツ検索部34は、検索の結果得られた時系列テキストと同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。ステップS315において、出力部13は、コンテンツ検索部34が読み出したコンテンツ紹介情報を提示する。   The related word extraction device 30 performs the same process as the process shown in FIG. However, in step S310, the content search unit 34 of the related word extraction device 30 searches the time series text stored in the time series text storage unit 322 using the keyword acquired from the keyword related word table as a search key. The content search unit 34 reads content introduction information associated with the same content ID as the time-series text obtained as a result of the search from the content information storage unit 33. In step S315, the content search unit 34 searches the time series text stored in the time series text storage unit 322 using the related words acquired from the keyword related word table as a search key. The content search unit 34 reads content introduction information associated with the same content ID as the time-series text obtained as a result of the search from the content information storage unit 33. In step S315, the output unit 13 presents the content introduction information read by the content search unit 34.

本実施形態では、ユーザに紹介可能なコンテンツや、そのコンテンツに関する情報を用いてキーワードの関連語を取得し、コンテンツの推薦に利用することが可能となる。   In this embodiment, it is possible to acquire a keyword-related word using content that can be introduced to the user and information related to the content, and use it for content recommendation.

[第4の実施形態]
本実施形態では、最近話題となっている語をキーワードとして用い、関連語の抽出と、コンテンツの推薦を行う。以下では、第2の実施形態との差分を中心に記載する。
[Fourth Embodiment]
In the present embodiment, recently used words are used as keywords, and related words are extracted and contents are recommended. Hereinafter, differences from the second embodiment will be mainly described.

図10は、第4の実施形態による関連語抽出装置40の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図7に示す第2の実施形態による関連語抽出装置20と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置40と、図7に示す関連語抽出装置20とが異なる点は、時系列テキスト記憶部41と、キーワード抽出部42とをさらに備える点である。なお、関連語抽出装置40を、図9に示す第3の実施形態による関連語抽出装置30に、時系列テキスト記憶部41と、キーワード抽出部42とをさらに備えた構成としてもよい。   FIG. 10 is a functional block diagram showing the configuration of the related word extracting device 40 according to the fourth embodiment, and only functional blocks related to the present embodiment are extracted and shown. In this figure, the same parts as those in the related word extracting apparatus 20 according to the second embodiment shown in FIG. The related word extraction device 40 is different from the related word extraction device 20 shown in FIG. 7 in that it further includes a time-series text storage unit 41 and a keyword extraction unit 42. The related word extraction device 40 may be configured to further include a time-series text storage unit 41 and a keyword extraction unit 42 in the related word extraction device 30 according to the third embodiment shown in FIG.

時系列テキスト記憶部41は、ユーザが検索対象を行う時刻付近で公開されたウェブテキスト、番組字幕、ニュース記事、ソーシャルネットワークサービスの投稿テキストなどの時系列テキストである。時系列テキスト記憶部41は、例えば、現在時刻から1日、1週間、1ヶ月など、比較的短い期間の時系列テキストを記憶する。期間は、予め記憶部121に記憶され、可変とすることができる。   The time-series text storage unit 41 is time-series text such as web text, program subtitles, news articles, and posted texts of social network services that are published near the time when the user searches. The time series text storage unit 41 stores, for example, time series text of a relatively short period such as one day, one week, and one month from the current time. The period is stored in advance in the storage unit 121 and can be variable.

入力部11により検索開始が入力された場合、キーワード抽出部42は、時系列テキスト記憶部41に記憶される各時系列テキストを、第1の実施形態におけるステップS215と同様の処理により文字列に切り分ける。キーワード抽出部42は、既存の任意のバースト検知処理により時系列テキストからキーワードとなる文字列を抽出する。あるいは、キーワード抽出部42は、頻度が他の文字列よりも所定より高い文字列を抽出してもよく、頻度が過去の平均と比較して所定割合又は所定数だけ高い文字列をキーワードとして抽出してもよい。関連語抽出装置40は、抽出されたキーワードを用いて、図8のステップS110以降の処理を行う。   When the search start is input by the input unit 11, the keyword extraction unit 42 converts each time-series text stored in the time-series text storage unit 41 into a character string by the same process as step S 215 in the first embodiment. Carve out. The keyword extraction unit 42 extracts a character string as a keyword from the time series text by an existing arbitrary burst detection process. Alternatively, the keyword extraction unit 42 may extract a character string whose frequency is higher than a predetermined value than other character strings, and extracts a character string whose frequency is higher by a predetermined ratio or a predetermined number than a past average as a keyword. May be. The related word extraction device 40 performs the processing after step S110 in FIG. 8 using the extracted keyword.

これにより、関連語抽出装置40は、現在の時期に沿ったキーワードと、そのキーワードの関連語を抽出する。関連語抽出装置40は、抽出したキーワードとその関連語のそれぞれにより検索したコンテンツをユーザに提示することができる。例えば、夏の時期には「プール」、「花火大会」など、少し前から現在にかけて話題となっているキーワードが選択され、これらキーワードと同じような頻度の分布をする(つまり、夏に頻度が高くなる)語に関するコンテンツをユーザに推薦することができる。あるいは、現在「株価の上昇」が話題となっている場合に、過去の実績から将来的に話題となることが予測される「海外旅行」に関するコンテンツをユーザに推薦することができる。   Thereby, the related word extraction apparatus 40 extracts the keyword according to the present time, and the related word of the keyword. The related word extraction device 40 can present to the user the content retrieved by each of the extracted keyword and the related word. For example, during the summer season, keywords such as “pool” and “fireworks display” are selected from a short time ago to the present, and have the same frequency distribution as these keywords (that is, the frequency in summer It is possible to recommend content related to (higher) words to the user. Alternatively, when “a rise in stock prices” is currently a topic, it is possible to recommend content related to “overseas travel” that is predicted to be a topic in the future based on past results to the user.

なお、ユーザは、入力部11により時刻の情報を入力してもよい。この場合、時系列テキスト記憶部41に、検索可能な期間の時系列テキストを記憶しておく。キーワード抽出部42は、入力された時刻の情報から1日、1週間、1ヶ月などの比較的短い期間の時系列テキストを時系列テキスト記憶部41から読み出してキーワードを抽出する。この場合、時系列テキスト記憶部41を設けず、キーワード抽出部42は、入力された時刻に基づいて時系列テキスト記憶部122から読み出した時系列テキストを用いてキーワードを抽出してもよい。   The user may input time information using the input unit 11. In this case, the time-series text storage unit 41 stores time-series text for a searchable period. The keyword extraction unit 42 reads the time series text of a relatively short period such as one day, one week, one month or the like from the input time information from the time series text storage unit 41 and extracts the keywords. In this case, the time series text storage unit 41 may not be provided, and the keyword extraction unit 42 may extract keywords using the time series text read from the time series text storage unit 122 based on the input time.

[第5の実施形態]
本実施形態では、最近インターネットで話題となっている語をキーワードとして用い、関連語の抽出と、コンテンツの推薦を行う。
[Fifth Embodiment]
In the present embodiment, words that have recently become a hot topic on the Internet are used as keywords, and related words are extracted and contents are recommended.

図11は、第5の実施形態による関連語抽出装置50の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図9に示す第3の実施形態による関連語抽出装置30と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置50は、入力部11と、キーワード抽出部51と、関連語抽出部52と、コンテンツ情報記憶部33と、コンテンツ検索部54と、出力部13とを備える。関連語抽出部52は、記憶部521−1、521−2と、時系列頻度抽出部524−1、524−2と、相関値算出部525とを備える。記憶部521−1は、時系列テキスト記憶部522−1及び時系列文字列テーブル記憶部523−1を有し、記憶部521−2は、時系列テキスト記憶部522−2及び時系列文字列テーブル記憶部523−2を有する。   FIG. 11 is a functional block diagram showing the configuration of the related word extracting device 50 according to the fifth embodiment, and only the functional blocks related to the present embodiment are extracted and shown. In this figure, the same parts as those in the related word extracting device 30 according to the third embodiment shown in FIG. The related word extraction device 50 includes an input unit 11, a keyword extraction unit 51, a related word extraction unit 52, a content information storage unit 33, a content search unit 54, and an output unit 13. The related word extraction unit 52 includes storage units 521-1 and 521-2, time-series frequency extraction units 524-1 and 524-2, and a correlation value calculation unit 525. The storage unit 521-1 includes a time series text storage unit 522-1 and a time series character string table storage unit 523-1, and the storage unit 521-2 includes a time series text storage unit 522-2 and a time series character string. It has a table storage unit 523-2.

キーワード抽出部51は、時系列テキスト記憶部522−1に記憶される時系列テキストを用いて、キーワードを抽出する。時系列テキスト記憶部522−1は、インターネット上で時系列テキストとして公開されているブログなどのSNSのウェブページを記憶する。時系列文字列テーブル記憶部523−1は、時系列頻度抽出部524−1により作成される時系列文字列テーブルを記憶する。時系列頻度抽出部524−1は、時系列テキスト記憶部522−1に記憶される時系列テキストを用いて抽出されたキーワードの時系列文字列テーブルを作成する。   The keyword extraction unit 51 extracts keywords using the time series text stored in the time series text storage unit 522-1. The time-series text storage unit 522-1 stores an SNS web page such as a blog published as a time-series text on the Internet. The time-series character string table storage unit 523-1 stores the time-series character string table created by the time-series frequency extraction unit 524-1. The time series frequency extraction unit 524-1 creates a time series character string table of keywords extracted using the time series text stored in the time series text storage unit 522-1.

時系列テキスト記憶部522−2は、コンテンツIDに対応付けられた時系列テキストを記憶する。時系列テキストは、時刻情報が含まれた又は付加されたコンテンツテキスト情報である。例えば、時系列テキスト記憶部522−2は、字幕など番組に関する時系列テキストを記憶する。時系列文字列テーブル記憶部523−2は、時系列頻度抽出部524−2により作成される時系列文字列テーブルを記憶する。時系列頻度抽出部524−2は、時系列テキスト記憶部522−2に記憶される時系列テキストを用いて、図1に示す第1の実施形態の時系列頻度抽出部124と同様の処理により、時系列文字列テーブルを作成する。   The time series text storage unit 522-2 stores the time series text associated with the content ID. The time-series text is content text information including or adding time information. For example, the time-series text storage unit 522-2 stores time-series text relating to programs such as subtitles. The time-series character string table storage unit 523-2 stores the time-series character string table created by the time-series frequency extraction unit 524-2. The time series frequency extraction unit 524-2 uses the time series text stored in the time series text storage unit 522-2 and performs the same processing as the time series frequency extraction unit 124 of the first embodiment shown in FIG. Create a time series string table.

相関値算出部525は、時系列頻度抽出部524−1が作成した時系列文字列テーブルに設定されている各キーワードの時系列の頻度と、時系列頻度抽出部524−2に設定されている各文字列の時系列の頻度とを用いてGranger因果性検定を行う。相関値算出部525は、検定結果に基づいて各キーワードの関連語を抽出し、コンテンツ検索部54に出力する。   The correlation value calculation unit 525 is set in the time series frequency of each keyword set in the time series character string table created by the time series frequency extraction unit 524-1 and the time series frequency extraction unit 524-2. The Granger causality test is performed using the time series frequency of each character string. Correlation value calculation section 525 extracts the related words of each keyword based on the test result, and outputs them to content search section 54.

コンテンツ情報記憶部33は、時系列テキスト記憶部522−2に時系列テキストが蓄積されている番組のコンテンツ紹介情報を記憶する。
コンテンツ検索部54は、関連語が得られた時系列テキストに対応付けられたコンテンツIDを時系列テキスト記憶部522−2から読み出し、読み出したコンテンツIDに対応付けられた番組のコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。コンテンツ検索部54は、読み出したコンテンツ紹介情報と、そのコンテンツ紹介情報と同じコンテンツIDに対応付けられた時系列テキストに含まれる関連語とを関連付けて出力部13に出力する。この関連語は、コンテンツのテーマを表す。
The content information storage unit 33 stores content introduction information of programs in which time-series text is stored in the time-series text storage unit 522-2.
The content search unit 54 reads the content ID associated with the time-series text from which the related word is obtained from the time-series text storage unit 522-2, and stores the content introduction information of the program associated with the read content ID as the content. Read from the information storage unit 33. The content search unit 54 associates the read content introduction information with related words included in the time-series text associated with the same content ID as the content introduction information, and outputs the related information to the output unit 13. This related term represents the theme of the content.

<関連語抽出装置50の動作>
図12は、関連語抽出装置50の動作を示すフローチャートである。
ステップS505において、入力部11により検索開始が入力されると、キーワード抽出部51は、時系列テキスト記憶部522−1に記憶される時系列テキストのうち、現在から1日、1週間、1ヶ月などの比較的期間の時系列テキストを特定する。キーワード抽出部51は、特定した時系列テキストを用いて、第3の実施形態のキーワード抽出部42と同様の処理により、キーワードWa1、Wa2、…、Wam(mは1以上の整数)となる文字列を抽出し、時系列頻度抽出部524−1に出力する。
<Operation of Related Word Extraction Device 50>
FIG. 12 is a flowchart showing the operation of the related word extraction device 50.
In step S505, when the search start is input by the input unit 11, the keyword extraction unit 51 includes the time series text stored in the time series text storage unit 522-1 for one day, one week, one month from the present time. Identify time-series text for relatively long periods. The keyword extraction unit 51 uses the specified time series text to perform the same processing as the keyword extraction unit 42 of the third embodiment, and the characters that become the keywords Wa1, Wa2,..., Wam (m is an integer of 1 or more) A column is extracted and output to the time-series frequency extraction unit 524-1.

ステップS510において、時系列頻度抽出部524−1は、時系列テキスト記憶部522−1に記憶される時系列テキストを用いて各キーワードWa1、Wa2、…、Wamの時系列の頻度を算出し、時系列文字列テーブルT1を作成する。   In step S510, the time series frequency extraction unit 524-1 calculates the time series frequency of each keyword Wa1, Wa2,..., Wam using the time series text stored in the time series text storage unit 522-1. A time series character string table T1 is created.

続いて、ステップS515において、時系列頻度抽出部524−2は、時系列テキスト記憶部522−2に記憶される時系列テキストを用いて、図4のステップS115と同様の時系列文字列テーブル作成処理により、文字列Wb1、Wb2、…、Wbn(nは1以上の整数)の時系列の頻度を設定した時系列文字列テーブルT2を作成する。文字列Wb1、Wb2、…、Wbnは、キーワードの関連語候補である。   Subsequently, in step S515, the time-series frequency extraction unit 524-2 uses the time-series text stored in the time-series text storage unit 522-2 to create a time-series character string table similar to step S115 in FIG. By processing, a time-series character string table T2 in which the time-series frequency of the character strings Wb1, Wb2,..., Wbn (n is an integer of 1 or more) is set is created. Character strings Wb1, Wb2,..., Wbn are keyword related word candidates.

ステップS520において、相関値算出部525は、時系列文字列テーブルT1に設定される各キーワードWa1、Wa2、…、Wamの時系列の頻度と、時系列文字列テーブルT2に設定される各文字列Wb1、Wb2、…、Wbnの時系列の頻度とを用いて、キーワードWai(i=1,2,…,m)と文字列Wbj(j=1,2,…,n)の全ての組み合わせについてGranger因果性検定を行う。   In step S520, the correlation value calculation unit 525 sets the time series frequency of the keywords Wa1, Wa2,..., Wam set in the time series character string table T1 and the character strings set in the time series character string table T2. All combinations of the keyword Wai (i = 1, 2,..., M) and the character string Wbj (j = 1, 2,..., N) using the time series frequency of Wb1, Wb2,. Granger causality test is performed.

ステップS525において、相関値算出部525は、検定結果に基づいて、文字列Wb1,Wb2,…,Wbnの中から各キーワードWaiの関連語を抽出する。抽出された関連語をWi1,Wi2,…,Wik(kは1以上n以下の整数)とする。相関値算出部525は、キーワードWai(i=1,2,…,m)と、その関連語Wi1,Wi2,…,Wikとを対応付けた関連語テーブルを生成する。
ステップS530において、相関値算出部525は、生成した関連語テーブルをコンテンツ検索部54に出力する。
In step S525, the correlation value calculation unit 525 extracts a related word of each keyword Wai from the character strings Wb1, Wb2,..., Wbn based on the test result. The extracted related term Wi1, Wi2, ..., Wik i (k i is an integer from 1 to n) it is. Correlation value calculating section 525, a keyword Wai (i = 1,2, ..., m) and its associated word Wi1, Wi2, ..., and generates a related word table that associates Wik i.
In step S530, the correlation value calculation unit 525 outputs the generated related word table to the content search unit 54.

ステップS535において、コンテンツ検索部54は、関連語Wik(i=1,2,…,m、k=1,2,…,k)のそれぞれを検索キーとして用いて、時系列テキスト記憶部522−2に記憶される時系列テキストを検索する。コンテンツ検索部54は、検索の結果得られた時系列テキストと同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。コンテンツ検索部54は、コンテンツ紹介情報が得られたときに検索キーとして用いた関連語Wikをコンテンツのテーマとする。つまり、コンテンツ紹介情報によりユーザに紹介するコンテンツは、関連語Wikをテーマとして扱った過去のコンテンツである。コンテンツ検索部54は、コンテンツ紹介情報と、コンテンツのテーマとを出力部13に出力する。 In step S535, the content search unit 54 uses the related words Wik (i = 1, 2,..., M, k = 1, 2,..., K i ) as search keys, and the time-series text storage unit 522. Search for time-series text stored in -2. The content search unit 54 reads content introduction information associated with the same content ID as the time-series text obtained as a result of the search from the content information storage unit 33. The content search unit 54 uses the related word Wik used as a search key when content introduction information is obtained as a content theme. In other words, the content introduced to the user by the content introduction information is past content that uses the related word Wik as a theme. The content search unit 54 outputs the content introduction information and the content theme to the output unit 13.

ステップS540において、出力部13は、コンテンツ紹介情報と、コンテンツのテーマとを提示する。出力部13は、より多くの関連語Wikと対応するコンテンツ紹介情報の優先度を高くして提示してもよい。   In step S540, the output unit 13 presents content introduction information and a content theme. The output unit 13 may present the content introduction information corresponding to more related words Wik with a higher priority.

なお、コンテンツ検索部54は、キーワードWaiから関連語Wikへの方向へ因果関係がある関連語Wikを用いてコンテンツ紹介情報を検索することにより、現在話題になっている事象の次に発生すると予想される事象をテーマとしたコンテンツの紹介情報を取得することができる。また、コンテンツ検索部54は、関連語WikからキーワードWaiへの方向へ因果関係がある関連語Wikを用いてコンテンツ紹介情報を検索することにより、現在話題になっている事象の原因であると考えられる事象をテーマとしたコンテンツの紹介情報を取得することができる。   Note that the content search unit 54 searches the content introduction information using the related word Wik that has a causal relationship in the direction from the keyword Wai to the related word Wik, so that the content search unit 54 is expected to occur next to the current topical event. Introductory information on content with the theme of events to be acquired can be acquired. In addition, the content search unit 54 searches the content introduction information using the related word Wik that has a causal relationship in the direction from the related word Wik to the keyword Wai, and thus considers that it is the cause of the current topic. Introductory information on content with the theme of events can be acquired.

本実施形態によれば、関連語抽出装置50は、最近のSNSにおいて多く出現する文字列の関連語を、テーマとして提示することができる。このとき、関連語抽出装置50そのテーマを扱った過去の番組の情報を同時に提示してもよい。過去のSNSと番組の間の時系列相関を算出することによって、最近のSNSの話題から、次に取り上げるべき番組のテーマを提示することができる。   According to this embodiment, the related word extraction device 50 can present related words of character strings that frequently appear in recent SNSs as a theme. At this time, the related word extracting device 50 may simultaneously present information on past programs dealing with the theme. By calculating the time series correlation between the past SNS and the program, the theme of the program to be picked up next can be presented from the topic of the recent SNS.

以上説明した実施形態によれば、関連語抽出装置は、共起や概念辞書によらずに関連語を抽出することができる。   According to the embodiment described above, the related word extraction device can extract related words without using co-occurrence or a concept dictionary.

なお、上述の関連語抽出装置10、20、30、40、50は、内部にコンピュータシステムを有している。そして、関連語抽出装置10、20、30、40、50の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。   Note that the related word extraction devices 10, 20, 30, 40, 50 described above have a computer system therein. The operation process of the related word extraction device 10, 20, 30, 40, 50 is stored in a computer-readable recording medium in the form of a program, and this program is read and executed by the computer system. The above processing is performed. The computer system here includes a CPU, various memories, an OS, and hardware such as peripheral devices.

また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.

10、20、30、40、50…関連語抽出装置
11…入力部
12、32、52…関連語抽出部
13…出力部
21、33…コンテンツ情報記憶部
22、34、54…コンテンツ検索部
41…時系列テキスト記憶部
42、51…キーワード抽出部
121、321、521−1、521−2…記憶部
122、322、522−1、522−2…時系列テキスト記憶部
123、523−1、523−2…時系列文字列テーブル記憶部
124、524−1、524−2…時系列頻度抽出部
125、525…相関値算出部
10, 20, 30, 40, 50 ... related word extraction device 11 ... input unit 12, 32, 52 ... related word extraction unit 13 ... output unit 21, 33 ... content information storage unit 22, 34, 54 ... content search unit 41 ... time-series text storage units 42, 51 ... keyword extraction units 121, 321, 521-1, 521-2 ... storage units 122, 322, 522-1, 522-2 ... time-series text storage units 123, 523-1, 523-2 ... Time-series character string table storage unit 124, 524-1, 524-2 ... Time-series frequency extraction unit 125, 525 ... Correlation value calculation unit

Claims (4)

テキストデータに含まれる各文字列の関連語を抽出する関連語抽出装置であって、
所定のキーワードを入力する入力部と、
時刻情報と対応付けられた前記テキストデータである時系列テキストを記憶する記憶部と、
前記時系列テキストに含まれる前記各文字列が時系列で出現するときの出現頻度である時系列頻度を抽出する時系列頻度抽出部と、
前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、異なる前記文字列の間の因果関係の強さを定量的に表す値である相関値を算出し、算出された前記相関値に基づいて異なる前記文字列が関連するか否かを判定する相関値算出部と、
前記相関値算出部が前記キーワードの文字列に関連すると判定した他の前記文字列を関連語として出力する出力部と、
を備えることを特徴する関連語抽出装置。
A related word extraction device that extracts related words of each character string included in text data,
An input unit for inputting a predetermined keyword;
A storage unit for storing time-series text that is the text data associated with time information;
A time series frequency extraction unit that extracts a time series frequency that is an appearance frequency when each of the character strings included in the time series text appears in a time series;
Using the time series frequency extracted by the time series frequency extraction unit, a correlation value that is a value that quantitatively represents the strength of the causal relationship between the different character strings is calculated, and the calculated correlation value A correlation value calculating unit that determines whether or not the different character strings are related based on each other;
An output unit that outputs, as a related word, another character string that the correlation value calculation unit determines to be related to the character string of the keyword;
A related word extraction device comprising:
請求項1に記載の関連語抽出装置において、
コンテンツに関する情報を示すテキストデータであるコンテンツテキスト情報を記憶するコンテンツ情報記憶部と、
前記関連語を用いて前記コンテンツテキスト情報を検索するコンテンツ検索部とをさらに備え、
前記出力部は、
前記コンテンツ検索部が検索した結果得られた前記コンテンツテキスト情報により特定される前記コンテンツの情報を出力する、
ことを特徴とする関連語抽出装置。
The related word extraction device according to claim 1,
A content information storage unit that stores content text information that is text data indicating information about the content;
A content search unit that searches the content text information using the related terms;
The output unit is
Outputting the information of the content specified by the content text information obtained as a result of the search by the content search unit;
The related word extraction device characterized by this.
請求項1に記載の関連語抽出装置において、
前記記憶部は、
インターネット上のウェブページに含まれる前記テキストデータ及び前記時刻情報を含む第1の時系列テキストと、コンテンツに関する情報を示すテキストデータ及び時刻情報を含む第2の時系列テキストとを記憶し、
当該関連語抽出装置は、
前記第1の時系列テキストからキーワードを抽出するキーワード抽出部をさらに有し、
前記時系列頻度抽出部は、
前記第1の時系列テキストに含まれる前記キーワードの時系列頻度と、前記第2の時系列テキストに含まれる各文字列の時系列頻度とを抽出し、
前記相関値算出部は、
前記キーワードと前記文字列のそれぞれについて前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、前記キーワードと前記文字列との相関値とを算出し、算出された当該相関値に基づいて前記文字列が前記キーワードに関連するか否かを判定し、
前記出力部は、
前記相関値算出部により前記キーワードに関連すると判定された前記文字列をコンテンツのテーマを表す関連語として出力し、出力した当該関連語を含む前記第2の時系列テキストにより特定される前記コンテンツの情報を出力する、
ことを特徴とする関連語抽出装置。
The related word extraction device according to claim 1,
The storage unit
Storing the first time series text including the text data and the time information included in the web page on the Internet, and the second time series text including the text data indicating the information about the content and the time information;
The related word extraction device is
A keyword extraction unit for extracting a keyword from the first time-series text;
The time series frequency extraction unit
Extracting the time series frequency of the keyword included in the first time series text and the time series frequency of each character string included in the second time series text;
The correlation value calculation unit
Using the time-series frequency extracted by the time-series frequency extraction unit for each of the keyword and the character string, a correlation value between the keyword and the character string is calculated, and based on the calculated correlation value Determine whether the string is related to the keyword;
The output unit is
The character string determined to be related to the keyword by the correlation value calculation unit is output as a related word representing the theme of the content, and the content of the content specified by the second time-series text including the output related word Output information,
The related word extraction device characterized by this.
コンピュータを、請求項1から請求項3のいずれか一項に記載の関連語抽出装置として機能させるためのプログラム。   The program for functioning a computer as a related word extraction apparatus as described in any one of Claims 1-3.
JP2016235181A 2016-12-02 2016-12-02 Related word extracting device and program Pending JP2018092367A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016235181A JP2018092367A (en) 2016-12-02 2016-12-02 Related word extracting device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016235181A JP2018092367A (en) 2016-12-02 2016-12-02 Related word extracting device and program

Publications (1)

Publication Number Publication Date
JP2018092367A true JP2018092367A (en) 2018-06-14

Family

ID=62566196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016235181A Pending JP2018092367A (en) 2016-12-02 2016-12-02 Related word extracting device and program

Country Status (1)

Country Link
JP (1) JP2018092367A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021051368A (en) * 2019-09-20 2021-04-01 ヤフー株式会社 Provision device, provision method and provision program

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092491A (en) * 2003-09-17 2005-04-07 Fujitsu Ltd Server and related word proposal method
JP2007257390A (en) * 2006-03-24 2007-10-04 Internatl Business Mach Corp <Ibm> System for extracting new compound word
WO2008087728A1 (en) * 2007-01-18 2008-07-24 Fujitsu Limited Keyword management program, keyword management system, and keyword management method
WO2009096523A1 (en) * 2008-01-30 2009-08-06 Nec Corporation Information analysis device, search system, information analysis method, and information analysis program
US20120215792A1 (en) * 2011-02-18 2012-08-23 Hon Hai Precision Industry Co., Ltd. Electronic device and method for searching related terms
JP2013254366A (en) * 2012-06-07 2013-12-19 Ntt Docomo Inc Information processing device and related word determination method
JP2016197332A (en) * 2015-04-03 2016-11-24 エヌ・ティ・ティ・コミュニケーションズ株式会社 Information processing system, information processing method, and computer program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092491A (en) * 2003-09-17 2005-04-07 Fujitsu Ltd Server and related word proposal method
JP2007257390A (en) * 2006-03-24 2007-10-04 Internatl Business Mach Corp <Ibm> System for extracting new compound word
WO2008087728A1 (en) * 2007-01-18 2008-07-24 Fujitsu Limited Keyword management program, keyword management system, and keyword management method
WO2009096523A1 (en) * 2008-01-30 2009-08-06 Nec Corporation Information analysis device, search system, information analysis method, and information analysis program
US20120215792A1 (en) * 2011-02-18 2012-08-23 Hon Hai Precision Industry Co., Ltd. Electronic device and method for searching related terms
JP2013254366A (en) * 2012-06-07 2013-12-19 Ntt Docomo Inc Information processing device and related word determination method
JP2016197332A (en) * 2015-04-03 2016-11-24 エヌ・ティ・ティ・コミュニケーションズ株式会社 Information processing system, information processing method, and computer program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
橋本 隆子、外2名: "ソーシャルメディアにおけるバーストパターンの共起に基づく新概念抽出", 第91回 人工知能基本問題研究会資料, JPN6020032097, 26 November 2013 (2013-11-26), JP, pages 47 - 52, ISSN: 0004458694 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021051368A (en) * 2019-09-20 2021-04-01 ヤフー株式会社 Provision device, provision method and provision program

Similar Documents

Publication Publication Date Title
CN109690529B (en) Compiling documents into a timeline by event
WO2017020451A1 (en) Information push method and device
US9122680B2 (en) Information processing apparatus, information processing method, and program
JP6381775B2 (en) Information processing system and information processing method
JP5143057B2 (en) Important keyword extraction apparatus, method and program
US8983997B2 (en) Information processing apparatus, information processing method, and program
JP6394388B2 (en) Synonym relation determination device, synonym relation determination method, and program thereof
Pope et al. An Analysis of Online Twitter Sentiment Surrounding the European Refugee Crisis.
US20130173605A1 (en) Extracting Query Dimensions from Search Results
JP5679194B2 (en) Information processing apparatus, information processing method, and program
KR101606758B1 (en) Issue data extracting method and system using relevant keyword
JP5427694B2 (en) Related content presentation apparatus and program
JP5964149B2 (en) Apparatus and program for identifying co-occurrence words
JP5942052B1 (en) Data analysis system, data analysis method, and data analysis program
Ibrahim et al. Scientometric re-ranking approach to improve search results
JP2008262506A (en) Information extraction system, information extraction method, and information extraction program
JP2018092367A (en) Related word extracting device and program
US9305103B2 (en) Method or system for semantic categorization
JP2016177690A (en) Service recommendation device, service recommendation method, and service recommendation program
JP4938515B2 (en) Word correlation calculation device and method, program, and recording medium
Bi et al. Automatically generating descriptions for resources by tag modeling
JP5411802B2 (en) Representative word extraction device, representative word extraction method, and representative word extraction program
US20140122460A1 (en) Assistance for video content searches over a communication network
JP6188226B2 (en) Related word extraction apparatus and program
Gandy et al. Shout out: integrating news and reader comments

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191028

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210309