JP2018092367A - Related word extracting device and program - Google Patents
Related word extracting device and program Download PDFInfo
- Publication number
- JP2018092367A JP2018092367A JP2016235181A JP2016235181A JP2018092367A JP 2018092367 A JP2018092367 A JP 2018092367A JP 2016235181 A JP2016235181 A JP 2016235181A JP 2016235181 A JP2016235181 A JP 2016235181A JP 2018092367 A JP2018092367 A JP 2018092367A
- Authority
- JP
- Japan
- Prior art keywords
- time
- content
- text
- unit
- related word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、関連語抽出装置及びプログラムに関する。 The present invention relates to a related word extraction device and a program.
これまでの一般的な関連語提示技術では、語の共起を元にした指標を用いてある語の関連語を算出していた(例えば、特許文献1参照)。このような語の共起を元にした関連語提示技術には、dice係数、ニューラルネットを用いたword2vecなどもある。この関連語提示技術では、同一文書内に互いの語が出現しないと、指標により表される関連度が高くならない。 In conventional related word presentation techniques, a related word of a word is calculated using an index based on the co-occurrence of the word (see, for example, Patent Document 1). Related word presentation techniques based on co-occurrence of such words include dice coefficients and word2vec using a neural network. In this related word presentation technique, the degree of relevance represented by the index does not increase unless mutual words appear in the same document.
一方、概念辞書を用いた関連語提示技術がある(例えば、特許文献2参照)。この関連語提示技術では、予め概念辞書を用意する必要がある。既存の概念辞書には、上位下位関係、因果関係など、なんらかの既知の関係がある語が列挙される。 On the other hand, there is a related word presentation technique using a concept dictionary (for example, see Patent Document 2). In this related word presentation technique, it is necessary to prepare a concept dictionary in advance. In the existing concept dictionary, words having some known relations such as upper and lower relations and causal relations are listed.
共起を元にした関連語提示技術では、似た意味の語が関連語として提示されることが多い傾向にある。しかし、実際には「プール」と「朝顔」は意味も分野も違うが、毎年夏に特徴的な語であり、同様に「鏡餅」と「こたつ」は冬に特徴的な語であることから、これらの語の間には関連性があると思われる。共起を元にした関連語提示技術では、同一文書内にこれらの単語同士が出現していないと、関連語として得られなかった。また、このような2語の間には明示的な関係が表現できないものも多く、既存の概念辞書に含まれにくいため、概念辞書を用いた関連語提示技術でも関連語として得られなかった。 In related word presentation technology based on co-occurrence, words having similar meanings tend to be presented as related words in many cases. In reality, however, “pool” and “morning glory” have different meanings and fields, but each year is a characteristic word in summer, and “Kagamine” and “kotatsu” are also characteristic words in winter. There seems to be a relationship between these words. The related word presentation technology based on co-occurrence cannot be obtained as related words unless these words appear in the same document. In addition, there are many cases in which an explicit relationship cannot be expressed between these two words, and it is difficult to be included in an existing concept dictionary. Therefore, the related word presentation technique using the concept dictionary cannot be obtained as a related word.
時系列を考慮したトピックを基に単語の生起確率を求めるモデルとして、DTM(Dynamic Topic Model)がある。しかし、DTMは、毎年のこの時期、といった周期には対応していないため、離散フーリエ変換などを用いて周期性を特定する必要があった。また、ある語が常に同じ周期で出現するとは限らない。例えば、ある事件が起こり、それ以降は、その事件が起こった時期になると出現が多くなる語や、ある時点で話題の流行が終わり、出現しなくなる語もある。 There is a DTM (Dynamic Topic Model) as a model for obtaining a word occurrence probability based on a topic in consideration of time series. However, since DTM does not correspond to a period such as this time of year, it is necessary to specify periodicity using a discrete Fourier transform or the like. Moreover, a certain word does not always appear in the same cycle. For example, there are some words that appear after an incident, and after that, the words appear more frequently, and the word that the trend of the topic ends at some point stops appearing.
本発明は、このような事情を考慮してなされたもので、語の共起や概念辞書によらずに関連語を抽出することができる関連語抽出装置及びプログラムを提供する。 The present invention has been made in view of such circumstances, and provides a related word extraction apparatus and program capable of extracting related words without using word co-occurrence or concept dictionaries.
本発明の一態様は、テキストデータに含まれる各文字列の関連語を抽出する関連語抽出装置であって、所定のキーワードを入力する入力部と、時刻情報と対応付けられた前記テキストデータである時系列テキストを記憶する記憶部と、前記時系列テキストに含まれる前記各文字列が時系列で出現するときの出現頻度である時系列頻度を抽出する時系列頻度抽出部と、前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、異なる前記文字列の間の因果関係の強さを定量的に表す値である相関値を算出し、算出された前記相関値に基づいて異なる前記文字列が関連するか否かを判定する相関値算出部と、前記相関値算出部が前記キーワードの文字列に関連すると判定した他の前記文字列を関連語として出力する出力部と、を備えることを特徴する関連語抽出装置である。
この発明によれば、関連語抽出装置は、時刻情報と対応付けられたテキストデータである時系列テキストを参照し、各文字列の時系列の出現頻度を算出する。関連語抽出装置は、算出した時系列の出現頻度を用いて文字列間に因果関係があるか否かを判定し、キーワードと因果関係があると判定した文字列を関連語として出力する。
これより、関連語抽出装置は、語の共起や概念辞書を用いることなく、キーワードと時期を同じくして話題となる語や、キーワードに関する事象と因果関係がある事象に関する語を関連語として提示することができる。
One aspect of the present invention is a related word extraction device that extracts related words of each character string included in text data, the input unit for inputting a predetermined keyword, and the text data associated with time information. A storage unit for storing a certain time series text, a time series frequency extraction unit for extracting a time series frequency that is an appearance frequency when each character string included in the time series text appears in a time series, and the time series Using the time series frequency extracted by the frequency extraction unit, a correlation value that is a value that quantitatively represents the strength of the causal relationship between the different character strings is calculated, and the correlation value is different based on the calculated correlation value A correlation value calculating unit that determines whether or not the character string is related; and an output unit that outputs the other character string that the correlation value calculating unit determines to be related to the character string of the keyword as a related word; Specially prepared It is a related term extraction apparatus to be.
According to this invention, the related word extracting device calculates the appearance frequency of the time series of each character string with reference to the time series text that is text data associated with the time information. The related word extraction device determines whether or not there is a causal relationship between character strings using the calculated time-series appearance frequency, and outputs a character string determined to have a causal relationship with a keyword as a related word.
As a result, the related word extraction device presents words related to events that have the same time as keywords and events that have a causal relationship with keywords as related words without using word co-occurrence or concept dictionaries. can do.
本発明の一態様は、上述する関連語抽出装置であって、コンテンツに関する情報を示すテキストデータであるコンテンツテキスト情報を記憶するコンテンツ情報記憶部と、前記関連語を用いて前記コンテンツテキスト情報を検索するコンテンツ検索部とをさらに備え、前記出力部は、前記コンテンツ検索部が検索した結果得られた前記コンテンツテキスト情報により特定される前記コンテンツの情報を出力する、ことを特徴とする。
この発明によれば、関連語抽出装置は、キーワードの関連語を用いてコンテンツを検索し、検索により特定されたコンテンツの情報をユーザに提示する。
本実施形態によれば、関連語抽出装置は、キーワードに関連したコンテンツをユーザに提示することができる。
One aspect of the present invention is the related word extraction device described above, wherein a content information storage unit that stores content text information that is text data indicating information related to content, and the content text information is searched using the related words. The content search unit further includes a content search unit that outputs the content information specified by the content text information obtained as a result of the search by the content search unit.
According to this invention, the related word extraction device searches for content using the related word of the keyword, and presents information on the content specified by the search to the user.
According to the present embodiment, the related word extraction device can present content related to the keyword to the user.
本発明の一態様は、上述する関連語抽出装置であって、前記記憶部は、インターネット上のウェブページに含まれる前記テキストデータ及び前記時刻情報を含む第1の時系列テキストと、コンテンツに関する情報を示すテキストデータ及び時刻情報を含む第2の時系列テキストとを記憶し、当該関連語抽出装置は、前記第1の時系列テキストからキーワードを抽出するキーワード抽出部をさらに有し、前記時系列頻度抽出部は、前記第1の時系列テキストに含まれる前記キーワードの時系列頻度と、前記第2の時系列テキストに含まれる各文字列の時系列頻度とを抽出し、前記相関値算出部は、前記キーワードと前記文字列のそれぞれについて前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、前記キーワードと前記文字列との相関値とを算出し、算出された当該相関値に基づいて前記文字列が前記キーワードに関連するか否かを判定し、前記出力部は、前記相関値算出部により前記キーワードに関連すると判定された前記文字列をコンテンツのテーマを表す関連語として出力し、出力した当該関連語を含む前記第2の時系列テキストにより特定される前記コンテンツの情報を出力する。
この発明によれば、関連語抽出装置は、インターネットで話題となっている語をキーワードとして抽出し、そのキーワードのインターネット上での時系列の出現頻度と、コンテンツに関する情報から得られた各文字列の時系列の出現頻度とを用いて、コンテンツに関する情報からキーワードの関連語を取得する。関連語抽出装置は、取得した関連語を用いてコンテンツを検索し、関連語により示されるコンテンツのテーマと、その関連語が得られた時系列テキストにより特定されるコンテンツの情報を、ユーザに提示する。
これにより、関連語抽出装置は、インターネット上で話題となっている事象に関連するコンテンツと、そのコンテンツのテーマとをユーザに提示することができる。
One aspect of the present invention is the related word extraction device described above, in which the storage unit includes the first time-series text including the text data and the time information included in a web page on the Internet, and information related to the content. And a second time-series text including time information, and the related word extraction device further includes a keyword extraction unit that extracts a keyword from the first time-series text, and the time series The frequency extraction unit extracts a time series frequency of the keyword included in the first time series text and a time series frequency of each character string included in the second time series text, and the correlation value calculation unit Is a correlation between the keyword and the character string using the time series frequency extracted by the time series frequency extraction unit for each of the keyword and the character string. And determining whether or not the character string is related to the keyword based on the calculated correlation value, and the output unit is determined to be related to the keyword by the correlation value calculation unit A character string is output as a related word representing the theme of the content, and information on the content specified by the second time-series text including the output related word is output.
According to the present invention, the related word extracting device extracts words that are hot topics on the Internet as keywords, and each character string obtained from the time-series appearance frequency of the keywords on the Internet and the information related to the contents. The related word of the keyword is acquired from the information related to the content using the appearance frequency of the time series. The related word extraction device searches the content using the acquired related words, and presents to the user the content theme indicated by the related words and the content information specified by the time-series text from which the related words are obtained. To do.
Thereby, the related word extraction apparatus can present to the user content related to an event that is a topic on the Internet and the theme of the content.
本発明の一態様は、コンピュータを、上述したいずれかの関連語抽出装置として機能させるためのプログラムである。 One embodiment of the present invention is a program for causing a computer to function as any one of the related word extraction devices described above.
本発明によれば、語の共起や概念辞書によらずに関連語を抽出することができる。 According to the present invention, related words can be extracted regardless of word co-occurrence or concept dictionary.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[第1の実施形態]
本実施形態では、ユーザが指定したキーワードの関連語を抽出する。
図1は、第1の実施形態による関連語抽出装置10の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。関連語抽出装置10は、入力部11と、関連語抽出部12と、出力部13とを備え、関連語抽出部12は、時系列テキスト記憶部122と時系列文字列テーブル記憶部123とを備える。
[First Embodiment]
In the present embodiment, related words of keywords specified by the user are extracted.
FIG. 1 is a functional block diagram showing the configuration of the related
関連語抽出装置10は、時刻情報と対応付けられたテキストデータである時系列テキストを記憶し、時系列テキストに含まれる各文字列の時系列の出現頻度を抽出する。そして、関連語抽出装置10は、異なる文字列の間の因果関係の強さを定量的に表す値である相関値を、それら異なる文字列のそれぞれについて時系列の出現頻度を用いて算出し、算出された相関値に基づいてそれら異なる文字列が関連するか否かを判定し、関連すると判定された異なる文字列同士を関連語とする。関連語抽出装置10は、所定のキーワードが入力されると、そのキーワードの文字列に関連すると判定された他の文字列を関連語として出力する。
The related
入力部11は、例えば、ネットワークを介して接続される端末からキーワードなどの入力データを受信する。入力部11は、関連語抽出装置10が備えるキーボードなどの入力装置から入力データを受信してもよく、コンピュータ読み取り可能な記憶媒体から入力データを読み出してもよい。
The
関連語抽出部12は、入力部11が入力を受けたキーワードの関連語を抽出する。関連語抽出部12は、記憶部121と、時系列頻度抽出部124と、相関値算出部125とを備える。
The related
記憶部121は、時系列テキスト記憶部122と、時系列文字列テーブル記憶部123とを備え、各種データを記憶する。なお、関連語抽出装置10とネットワークを介して接続されるサーバ装置などに時系列テキスト記憶部122を備えてもよい。
The
時系列テキスト記憶部122は、時刻情報と対応付けられたテキストデータを含む文書データである時系列テキストを記憶する。時系列テキストは、例えば、ニュース記事、ウェブテキスト、番組字幕、電子番組表(EPG:Electronic Program Guide)などを含む。例えば、時系列テキストがニュース記事である場合には、テキストデータはニュース記事の内容を含み、時刻情報はニュース記事の内容に含まれる日時の情報、あるいは、ニュース記事の作成日時又は公開日時を含む。また、時系列テキストが、インターネット上のウェブで公開したブログである場合には、テキストデータはブログの投稿内容の文章を含み、時刻情報は、ブログの投稿日時又は公開日時を含む。さらに、時系列テキストが番組字幕の場合には、テキストデータは字幕の内容を含み、時刻情報は、番組の放送開始日時または、字幕の提示時刻としてもよい。また、時系列テキストが電子番組表の場合には、テキストデータは番組名、番組のサブタイトル、番組概要などを含み、時刻情報は番組の放送開始日時を含む。
The time series
時系列文字列テーブル記憶部123は、各文字列の時系列の出現頻度(以下、単に「頻度」ともいう。)を示すデータである時系列文字列テーブルを記憶する。頻度は、文字列が出現した時系列テキストの数としてもよく、全時系列テキストにおいて文字列が出現した数としてもよい。いずれを頻度とするかを、ユーザが設定してもよい。
The time-series character string
時系列頻度抽出部124は、時系列テキスト記憶部122に記憶される時系列テキストから各文字列の時系列の頻度を算出し、時系列文字列テーブルを作成する。
相関値算出部125は、時系列文字列テーブルが示す各文字列の時系列の頻度に基づいて、文字列同士の相関値を算出する相関値算出処理を行う。ここで、相関値は、文字列間の因果関係の強さを定量的に表す値である。
相関値算出部125は、算出された相関値に基づいて一定以上の相関があると判断した文字列同士を対応づけた関連語テーブルを生成する。相関値算出部125は、入力されたキーワードの関連語を関連語テーブルから抽出する。
The time series
The correlation
The correlation
出力部13は、ネットワークを介して接続される端末へ相関値算出部125が抽出した関連語などのデータを送信し、表示させる。なお、出力部13は、関連語抽出装置10が備えるディスプレイなどの表示装置に出力データを表示してもよく、コンピュータ読取可能な記憶媒体へ出力データを書き込んでもよい。
The
図2は、時系列文字列テーブルの例を示す図である。同図に示す時系列文字列テーブルは、n個(nは2以上)の異なる文字列W1、W2、…、Wnの頻度を、2016年1月1日から1日単位で示している。 FIG. 2 is a diagram illustrating an example of a time-series character string table. The time-series character string table shown in the figure shows the frequency of n (n is 2 or more) different character strings W1, W2,..., Wn in units of 1 day from January 1, 2016.
図3は、関連語テーブルの例を示す図である。関連語テーブルは、文字列と、その文字列に関連する他の文字列である関連語とを対応付けたデータである。文字列及び関連語は、時系列テキスト記憶部122が記憶する時系列テキストに出現する文字列である。
FIG. 3 is a diagram illustrating an example of a related word table. The related word table is data in which a character string is associated with a related word that is another character string related to the character string. The character string and the related word are character strings that appear in the time series text stored in the time series
<関連語抽出装置10の動作>
続いて、関連語抽出装置10の動作を説明する。
図4は、関連語抽出装置10の動作を示すフローチャートである。
まず、ステップS105において、関連語抽出装置10の入力部11は、キーワードの入力を受ける。例えば、関連語抽出装置10の入力部11は、ユーザが入力したキーワードを端末から受信し、関連語抽出部12に出力する。
ステップS110において、関連語抽出部12の時系列頻度抽出部124は、図5に示す時系列文字列テーブル作成処理を行う。
<Operation of Related
Next, the operation of the related
FIG. 4 is a flowchart showing the operation of the related
First, in step S105, the
In step S110, the time-series
図5は、時系列頻度抽出部124の時系列文字列テーブル作成処理を示すフローチャートである。
ステップS205において、時系列頻度抽出部124は、時系列テキスト記憶部122に記憶される時系列テキストのうち、未選択の一つを選択して読み出す。
ステップS210において、時系列頻度抽出部124は、選択した時系列テキストから時刻情報を取得する。
FIG. 5 is a flowchart showing the time-series character string table creation process of the time-series
In step S <b> 205, the time-series
In step S210, the time series
ステップS215において、時系列頻度抽出部124は、取得した時刻情報と対応付けて時系列テキストに記述されているテキストデータを文字列に切り分ける。文字列は、例えば、名詞など所定の品詞の形態素、文字ngram、名詞のペアである。文字列とする名詞のペアは、例えば「夏の風物詩」のように、名詞とその名詞に係る語のペアである。文字列への切り分けには、形態素解析、文字ngram解析等の従来技術を用いることができる。
In step S215, the time-series
ステップS220において、時系列頻度抽出部124は、時刻情報と対応付けられたテキストデータを切り分けて得られた文字列が、その時刻情報により示される時刻に出現したものとし、異なる各文字列の頻度を計算する。時系列頻度抽出部124は、時刻情報と対応付けられたテキストデータに1回以上出現する全ての文字列それぞれの頻度を「1」としてもよく、時刻情報と対応付けられたテキストデータに文字列が出現する回数を、その文字列の頻度としてもよい。
In step S220, the time-series
時系列頻度抽出部124は、時系列文字列テーブルが作成されていなければ、新たに時系列文字列テーブルを生成し、時系列文字列テーブル記憶部123に書き込む。時系列文字列テーブルに設定する単位時間は予め記憶部121に記憶されており、1か月、1週間、1日、1時間など、ユーザの設定により可変とする。
If the time-series character string table has not been created, the time-series
ステップS225において、時系列頻度抽出部124は、ステップS220において得られた各文字列の頻度に基づいて、時系列文字列テーブル記憶部123に記憶される時系列文字列テーブルを更新する。
In step S225, the time-series
具体的には、時系列頻度抽出部124は、ステップS215において得られた文字列のうち、まだ時系列文字列テーブルに登録されていない文字列があれば、追加登録する。時系列頻度抽出部124は、ステップS210において得られた時刻情報が含まれる時間帯に対応して時系列文字列テーブルに設定されている文字列の頻度を、ステップS220において計算したその文字列の頻度を加算した値に更新する。
Specifically, if there is a character string that has not been registered in the time-series character string table among the character strings obtained in step S215, the time-series
ステップS230において、時系列頻度抽出部124は、選択した時系列テキストが時系列テキスト記憶部122に記憶される最後の時系列テキストであるか否かを判定する。時系列頻度抽出部124は、選択した時系列テキストが時系列テキスト記憶部122に記憶される最後の時系列テキストではないと判定した場合(ステップS230:NO)、ステップS205からの処理を繰り返す。そして、時系列頻度抽出部124は、選択した時系列テキストが時系列テキスト記憶部122に記憶される最後の時系列テキストであると判定した場合(ステップS230:NO)、関連語抽出装置10は、図4に示すステップS115からの処理を行う。
In step S230, the time-series
図4のステップS115において、時系列頻度抽出部124は、時系列文字列テーブル記憶部123に記憶される時系列文字列テーブルを相関値算出部125に出力する。このとき、相関値算出部125は、時系列文字列テーブルに設定される各文字列の時系列の頻度のうち、条件を満たす文字列の時系列の頻度のみを抽出して相関値算出部125に出力してもよい。例えば、相関値算出部125は、時系列文字列テーブルから、低頻度の文字列についての情報を除く。低頻度は、例えば、所定期間における頻度の合計が所定値以下である、所定期間における頻度の平均が全文字列の頻度の平均以下である、所定期間における頻度の合計が多い順に順位付けしたときの順位が所定以下である、などによって判断される。あるいは、DTM(Dynamic Topic Model)などのトピックモデルを利用し、各トピックの中で確率値が高い上位のm個の文字列についての頻度のみを抽出する、時期により頻度が変動する文字列をバースト検知などで抽出する、などの処理が考えられる。ただし、時系列頻度抽出部124は、ステップS105において入力されたキーワードに一致する文字列の頻度の情報については削除しないようにしてもよい。
4, the time-series
ステップS120において、相関値算出部125は、時系列頻度抽出部124から入力した時系列文字列テーブル内に設定される文字列間に因果関係が成立するか否かを判定する相関判定処理を行う。なお、相関値算出部125は、時系列文字列テーブルに設定される全ての文字列の組について相関判定処理を行ってもよく、ステップS105において入力されたキーワードと一致する文字列と、そのキーワードとは異なる全ての文字列のそれぞれとの間の相関判定処理を行ってもよい。
In step S120, the correlation
相関値算出部125は、相関判定処理の対象の2つの文字列それぞれの時系列の頻度を用いて、Granger因果性検定を行う。Granger因果性検定は、経済学でよく用いられている既存の手法であり、背景知識を用いずに、売上高の時系列変化などの数値データからのみ、因果関係の有無を判断するために用いられる。例えば、Granger因果性検定を用いることにより、アイスクリームの売り上げが高い→水の事故が増える、などのように、因果関係を時系列データのみで検定できる。因果関係には、2項間の因果関係の向きも含まれる。しかし、アイスクリームと水の事故の本来の意味に因果関係があるわけではない。
The correlation
文字列Wi(i=1,2,…,n)の時刻tにおける頻度をxt、文字列Wj(i≠j、j=1,2,…,n)の時刻tにおける頻度をztとしたときに、以下の式(1)及び式(2)のベクトル自己回帰モデル(VAR)モデルを考える。 The frequency at time t of the character string Wi (i = 1, 2,..., N) is x t , and the frequency at time t of the character string Wj (i ≠ j, j = 1, 2,..., N) is z t . Then, consider the vector autoregressive model (VAR) model of the following equations (1) and (2).
xt=a1xt−1+…+apxt−p+b1zt−1+…+bpzt−p+u1t …(1) x t = a 1 x t- 1 + ... + a p x t-p + b 1 z t-1 + ... + b p z t-p + u 1t ... (1)
zt=c1xt−1+…+cpxt−p+d1zt−1+…+dpzt−p+u2t …(2) z t = c 1 x t- 1 + ... + c p x t-p + d 1 z t-1 + ... + d p z t-p + u 2t ... (2)
ai、bi、ci、di(i=1,2,…,p)は定数であり、u1t,u2tはノイズである。式(1)は、時刻tにおける文字列Wiの頻度xtは、過去の文字列Wiの頻度xt−1〜xt−pと、過去の文字列Wjの頻度zt−1〜zt−pで説明されることを表し、b1〜bpが0の場合は文字列Wiと文字列Wjに因果関係がない。式(2)は、時刻tにおける文字列Wjの頻度ztは、過去の文字列Wjの頻度zt−1〜zt−pと、過去の文字列Wiの頻度xt−1〜xt−pで説明されることを表し、c1〜cpが0の場合は文字列Wjと文字列Wiに因果関係はない。
a i , b i , c i , d i (i = 1, 2,..., p) are constants, and u 1t and u 2t are noises. Equation (1), the frequency x t string Wi at time t, and frequency x t-1 ~x t-p of the past string Wi, frequency of past string Wj z t-1 ~z t It indicates that described in -p,
相関値算出部125は、文字列W1〜Wnから異なる2つの文字列の組を全て生成し、各組の文字列をWi、Wjとして、以下の処理を行う。なお、相関値算出部125は、文字列Wiの時系列の頻度xt〜xt−pと、文字列Wjの時系列の頻度zt〜zt−pを、時系列文字列テーブルから取得する。
The correlation
相関値算出部125は、文字列Wi、Wjの時系列の頻度を用いて最小二乗回帰により式(1)を推定し、推定した式(1)の残差平方和USSxを求める。さらに、相関値算出部125は、b1=…=bp=0とし、文字列Wiの頻度を用いて最小二乗回帰により式(1)を推定し、推定した式(1)の残差平方和RSSxを算出する。相関値算出部125は、以下の式(3)を検定統計量Fxとする。
The correlation
Fx=((RSSx−USSx)/p)/(USSx/(n−2p)) …(3) F x = ((RSS x −USS x ) / p) / (USS x / (n−2p)) (3)
相関値算出部125は、pFxをχ2(p)の95%点と比較するχ2(カイ二乗)検定を行い、pFxの方が大きければ、文字列Wjから文字列Wiへの因果関係が存在し、小さければ文字列Wjから文字列Wiへの因果関係が存在しないと判断する。
The correlation
同様に、相関値算出部125は、文字列Wi、Wjの頻度を用いて最小二乗回帰により式(2)を推定し、推定した式(2)の残差平方和USSyを求める。さらに、相関値算出部125は、c1=…=cp=0とし、文字列Wjの頻度を用いて最小二乗回帰により式(2)を推定し、推定した式(2)の残差平方和RSSyを算出する。相関値算出部125は、以下の式(4)を検定統計量Fyとする。
Similarly, correlation
Fy=((RSSy−USSy)/p)/(USSy/(n−2p)) …(4) F y = ((RSS y -USS y) / p) / (USS y / (n-2p)) ... (4)
相関値算出部125は、pFyをχ2(p)の95%点と比較するχ2検定を行い、pFyの方が大きければ、文字列Wiから文字列Wjへの因果関係が存在し、小さければ文字列Wiから文字列Wjへの因果関係が存在しないと判断する。
The correlation
相関値算出部125は、文字列Wiから文字列Wjへの因果関係と、文字列Wjから文字列Wiへの因果関係との少なくとも一方が存在する場合、文字列Wjを文字列Wiの関連語とし、文字列Wiを文字列Wjの関連語とする。なお、上記では、相関値算出部125は、有意水準を95%とし、その水準を満たす文字列ペアを因果関係ありと判断しているが、有意水準は予め記憶部121に記憶され、ユーザにより可変に設定される。
When at least one of the causal relationship from the character string Wi to the character string Wj and the causal relationship from the character string Wj to the character string Wi exist, the correlation
ステップS125において、相関値算出部125は、各文字列について、その文字列と因果関係ありと判断された他の文字列とを対応付けた関連語テーブルを作成する。このとき、相関値算出部125は、文字列の間の因果関係の強さを定量的に表す値である検定統計量Fx又はFyとして表される相関値の情報と、因果関係の向きの情報とを付加して関連語テーブルに関連語を設定する。また、相関値算出部125は、相関値の高い順に関連語を並べて関連語テーブルに設定してもよい。
In step S125, the correlation
相関値算出部125は、生成した関連語テーブルから、ステップS105において入力されたキーワードと、そのキーワードに対応した関連語が設定されている部分を抽出してキーワード関連語テーブルを生成し、出力部13に出力する。
The correlation
ステップS130において、出力部13は、相関値算出部125が抽出したキーワード関連語テーブルを提示する。具体的には、出力部13は、キーワードの送信元の端末にキーワード関連語テーブルを送信し、端末は、受信したキーワード関連語テーブルをディスプレイに表示する。
In step S130, the
なお、キーワードに代えて、文章等のテキストデータを関連語抽出装置10に入力してもよい。時系列頻度抽出部124又は図示しないキーワード抽出部が、図4のステップS215の処理と同様に、入力されたテキストデータから文字列を取得し、取得した文字列をキーワードとする。
Instead of keywords, text data such as sentences may be input to the related
また、キーワードが2つ以上ある場合、出力部13は、関連するキーワードが多い関連語ほど優先度を高くし、優先度の順に関連語を表示させてもよく、優先度が所定よりも高い関連語の色を変えて表示させてもよく、関連するキーワードの数を付加して関連語を表示させてもよい。また、出力部13は、関連語にキーワードとの間の因果関係の向きを表す文字や図形などの情報を付加して表示させてもよい。
When there are two or more keywords, the
また、相関値算出部125は、キーワードとの因果関係の向きが所定方向の関連語のみ関連語テーブルに設定してもよく、関連語テーブルからキーワードとの因果関係の向きが所定方向の関連語のみを抽出してキーワード関連語テーブルに設定してもよい。
In addition, the correlation
なお、異なるキーワードにより図4の処理を繰り返し行う場合、既に時系列文字列テーブルが生成されていることがある。この場合、図5のステップS205において、時系列頻度抽出部124は、前回図4の処理を行った後に時系列テキスト記憶部122に新たに登録された時系列テキストを一つずつ選択し、生成済みの時系列文字列テーブルを更新すればよい。
Note that when the process of FIG. 4 is repeated with different keywords, a time-series character string table may already be generated. In this case, in step S205 in FIG. 5, the time series
本実施形態の関連語抽出装置10によれば、同じ時期に話題となる語(文字列)を関連語として抽出することができる。また、関連語抽出装置10は、ある事象に関する語(文字列)と、その事象が起こった結果として時期をずらして発生する事象に関する語(文字列)とを関連語として抽出することができる。これについて、図6を用いて説明する。
According to the related
図6は、2つの文字列Wi、Wjの時系列の頻度の例を表す図である。文字列Wiが表す事象が発生したことが原因となって、文字列Wjが表わす事象が発生する場合、文字列Wiの頻度と文字列Wjの頻度とは時期をずらしてピークが現れる。例えば、「株価の上昇」がきっかけで景気が回復し、「海外旅行」に行く人が増えた場合、「株価の上昇」と「海外旅行」とは因果関係があるものの、概念的には異なっており、かつ、時期をずらして頻度のピークが発生する。また、頻度のピークが異なっていることから、同一文書に共起する機会も少ないと考えられる。関連語抽出装置10は、Granger因果性検定を用いて因果関係を判定することにより、過去に、キーワードに関する事象に対して、時間をずらして発生したことがある因果関係のある事象に関する語を関連語として得ることができる。
FIG. 6 is a diagram illustrating an example of time-series frequencies of two character strings Wi and Wj. When the event represented by the character string Wj occurs due to the occurrence of the event represented by the character string Wi, the frequency of the character string Wi and the frequency of the character string Wj appear at different timings. For example, when the economy recovers due to the rise in stock prices and the number of people going to travel abroad increases, the rise in stock prices and overseas travel are causally related, but they are conceptually different. In addition, frequency peaks occur at different times. In addition, since the frequency peaks are different, it is considered that there are few opportunities to co-occur in the same document. The related
[第2の実施形態]
本実施形態では、第1の実施形態と同様の処理により抽出した関連語を用いて検索したコンテンツをユーザに推薦する。以下では、第1の実施形態との差分を中心に記載する。
[Second Embodiment]
In this embodiment, the content searched using the related word extracted by the process similar to 1st Embodiment is recommended to a user. In the following, the difference from the first embodiment will be mainly described.
図7は、第2の実施形態による関連語抽出装置20の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図1に示す第1の実施形態による関連語抽出装置10と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置20と、図1に示す関連語抽出装置10とが異なる点は、コンテンツ情報記憶部21及びコンテンツ検索部22をさらに備える点である。
FIG. 7 is a functional block diagram showing the configuration of the related
コンテンツ情報記憶部21は、ユーザへ紹介する候補となる各コンテンツデータ(以下、「コンテンツ」とも記載する。)のコンテンツIDとコンテンツテキスト情報とを対応付けて記憶する。コンテンツIDは、コンテンツを一意に特定する識別情報であり、コンテンツテキスト情報は、コンテンツに関する情報を示すテキストデータである。例えば、コンテンツテキスト情報は、コンテンツのタイトルや説明などを示すテキストデータでもよく、テキストデータを含むコンテンツデータ自体でもよく、コンテンツデータに含まれるテキストデータの全部又は一部でもよい。
The content
例えば、コンテンツが番組であれば、コンテンツテキスト情報として、番組サブタイトル、番組概要文などが記述されたテキストデータを用いてもよく、番組に含まれる字幕テキストを用いてもよい。また、コンテンツが音楽、電子図書などであれば、コンテンツの紹介や概要などが記述されたテキストデータをコンテンツテキスト情報として用いる。また、コンテンツがテキストデータを含んだウェブページや電子図書などである場合、そのコンテンツデータ自体、又は、そのコンテンツに含まれるテキストデータの全文又は一部をコンテンツテキスト情報として用いてもよい。 For example, if the content is a program, text data describing a program subtitle, a program summary sentence, or the like may be used as the content text information, or subtitle text included in the program may be used. If the content is music, electronic books, etc., text data describing the content introduction or summary is used as the content text information. Further, when the content is a web page or an electronic book containing text data, the content data itself or the whole or part of the text data included in the content may be used as the content text information.
コンテンツ情報記憶部21はさらに、コンテンツIDと対応付けてコンテンツ紹介情報を記憶する。コンテンツ紹介情報は、ユーザにコンテンツを紹介するために提示する情報である。例えば、コンテンツが番組の場合、コンテンツ紹介情報は、番組名、放送日時、チャネル、番組概要、サムネイル画像、番組視聴サイトのURL(Universal Resource Locator)などを含む。また、コンテンツが音楽、電子図書などの場合、コンテンツ紹介情報は、例えば、コンテンツのタイトル、紹介文、価格、購入サイト又はダウンロードサイトのURLなどの情報を含み、コンテンツがウェブページの場合、コンテンツ紹介情報はそのウェブページのURLなどの情報を含む。コンテンツテキスト情報の一部又は全部がコンテンツ紹介情報として用いられてもよい。
The content
なお、コンテンツ情報記憶部21は、関連語抽出装置20とネットワークを介して接続されるサーバに備えられてもよい。
The content
<関連語抽出装置20の動作>
図8は、関連語抽出装置20の動作を示すフローチャートである。同図において、図4に示すフローチャートと同一の処理には同一の符号を付し、その説明を省略する。関連語抽出装置20は、図4のステップS105〜ステップS125と同様の処理を行う。
<Operation of Related
FIG. 8 is a flowchart showing the operation of the related
ステップS305において、相関値算出部125は、生成した関連語テーブルから、ステップS105において入力されたキーワードと、そのキーワードに対応した関連語が設定されている部分を抽出してキーワード関連語テーブルを生成し、コンテンツ検索部22に出力する。
In step S305, the correlation
ステップS310において、コンテンツ検索部22は、キーワード関連語テーブルからキーワードを取得し、取得したキーワードを検索キーとして用いて、コンテンツ情報記憶部21に記憶されるコンテンツテキスト情報を検索する。コンテンツ検索部22は、検索の結果得られたコンテンツテキスト情報と同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部21から読み出す。
In step S310, the
続いて、ステップS315において、コンテンツ検索部22は、キーワード関連語テーブルから関連語を取得し、取得した関連語を検索キーとして用いて、コンテンツ情報記憶部21に記憶されるコンテンツテキスト情報を検索する。コンテンツ検索部22は、検索の結果得られたコンテンツテキスト情報と同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部21から読み出す。
Subsequently, in step S315, the
コンテンツ検索部22は、ステップS310において読み出したコンテンツ紹介情報と、ステップS315において読み出したコンテンツ紹介情報を出力部13に出力する。
The
ステップS320において、出力部13は、コンテンツ検索部22から受信したコンテンツ紹介情報を提示する。具体的には、出力部13は、キーワードの送信元の端末にコンテンツ紹介情報を送信し、端末は、受信したコンテンツ紹介情報をディスプレイに表示する。
In step S320, the
キーワードが2以上である場合、コンテンツ検索部22は、より多くのキーワードに関連するコンテンツほど順位が高くなるように優先度をつけ、優先度の順にコンテンツ提示情報を表示させるようにしてもよい。また、コンテンツ検索部22は、より多くの関連語に関連するコンテンツほど順位が高くなるように優先度をつけ、優先度の順にコンテンツ提示情報を表示させるようにしてもよい。また、同じ数の関連語と関連するコンテンツが複数ある場合、コンテンツ検索部22は、関連語とキーワードとの相関値を合計又は乗算した結果に基づき優先度を決定してもよい。
When the number of keywords is two or more, the
本実施形態では、例えば、インターネット上で公開されている膨大な情報などを用いてキーワードの関連語を取得し、コンテンツの推薦に利用することが可能となる。また、キーワードに関する事象の原因となった事象に関連するコンテンツや、キーワードに関係する事象の次に発生することが予想される事象に関するコンテンツをユーザに推薦することができる。 In the present embodiment, for example, it is possible to acquire a keyword-related word using a vast amount of information published on the Internet and use it for content recommendation. In addition, it is possible to recommend to the user content related to an event that causes an event related to a keyword or content related to an event that is expected to occur next to an event related to a keyword.
[第3の実施形態]
第2の実施形態では時系列テキストとコンテンツテキスト情報とが異なるデータであるが、本実施形態では、時系列テキストとコンテンツテキスト情報とが同一のデータである。以下では、第2の実施形態との差分を中心に記載する。
[Third Embodiment]
In the second embodiment, the time-series text and the content text information are different data, but in this embodiment, the time-series text and the content text information are the same data. Hereinafter, differences from the second embodiment will be mainly described.
図9は、第3の実施形態による関連語抽出装置30の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図7に示す第2の実施形態による関連語抽出装置20と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置30と、図7に示す関連語抽出装置20とが異なる点は、関連語抽出部12、コンテンツ情報記憶部21及びコンテンツ検索部22に代えて、関連語抽出部32、コンテンツ情報記憶部33及びコンテンツ検索部34を備える点である。
FIG. 9 is a functional block diagram showing the configuration of the related
関連語抽出部32が、図7に示す関連語抽出部12と異なる点は、記憶部121に代えて記憶部321を備える点である。記憶部321は、時系列テキスト記憶部322及び時系列文字列テーブル記憶部123を備える。時系列テキスト記憶部322は、コンテンツIDに対応付けられた時系列テキストを記憶する。時系列テキストは、時刻情報が含まれた又は付加されたコンテンツテキスト情報である。
The related
コンテンツ情報記憶部33は、コンテンツIDに対応付けられたコンテンツ紹介情報を記憶する。コンテンツテキスト情報とコンテンツ紹介情報とが同一の情報である場合、関連語抽出装置30はコンテンツ情報記憶部33を設けなくてもよい。
The content information storage unit 33 stores content introduction information associated with the content ID. When the content text information and the content introduction information are the same information, the related
コンテンツ検索部34は、キーワードに基づく検索対象及び関連語に基づく検索対象を、時系列テキスト記憶部322に記憶される時系列テキスト情報とする以外は第2の実施形態のコンテンツ検索部22と同様の処理を行う。
The
関連語抽出装置30は、図8に示す処理と同様の処理を行う。ただし、ステップS310において、関連語抽出装置30のコンテンツ検索部34は、キーワード関連語テーブルから取得したキーワードを検索キーとして用いて、時系列テキスト記憶部322に記憶される時系列テキストを検索する。コンテンツ検索部34は、検索の結果得られた時系列テキストと同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。また、ステップS315において、コンテンツ検索部34は、キーワード関連語テーブルから取得した関連語を検索キーとして用いて、時系列テキスト記憶部322に記憶される時系列テキストを検索する。コンテンツ検索部34は、検索の結果得られた時系列テキストと同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。ステップS315において、出力部13は、コンテンツ検索部34が読み出したコンテンツ紹介情報を提示する。
The related
本実施形態では、ユーザに紹介可能なコンテンツや、そのコンテンツに関する情報を用いてキーワードの関連語を取得し、コンテンツの推薦に利用することが可能となる。 In this embodiment, it is possible to acquire a keyword-related word using content that can be introduced to the user and information related to the content, and use it for content recommendation.
[第4の実施形態]
本実施形態では、最近話題となっている語をキーワードとして用い、関連語の抽出と、コンテンツの推薦を行う。以下では、第2の実施形態との差分を中心に記載する。
[Fourth Embodiment]
In the present embodiment, recently used words are used as keywords, and related words are extracted and contents are recommended. Hereinafter, differences from the second embodiment will be mainly described.
図10は、第4の実施形態による関連語抽出装置40の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図7に示す第2の実施形態による関連語抽出装置20と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置40と、図7に示す関連語抽出装置20とが異なる点は、時系列テキスト記憶部41と、キーワード抽出部42とをさらに備える点である。なお、関連語抽出装置40を、図9に示す第3の実施形態による関連語抽出装置30に、時系列テキスト記憶部41と、キーワード抽出部42とをさらに備えた構成としてもよい。
FIG. 10 is a functional block diagram showing the configuration of the related
時系列テキスト記憶部41は、ユーザが検索対象を行う時刻付近で公開されたウェブテキスト、番組字幕、ニュース記事、ソーシャルネットワークサービスの投稿テキストなどの時系列テキストである。時系列テキスト記憶部41は、例えば、現在時刻から1日、1週間、1ヶ月など、比較的短い期間の時系列テキストを記憶する。期間は、予め記憶部121に記憶され、可変とすることができる。
The time-series
入力部11により検索開始が入力された場合、キーワード抽出部42は、時系列テキスト記憶部41に記憶される各時系列テキストを、第1の実施形態におけるステップS215と同様の処理により文字列に切り分ける。キーワード抽出部42は、既存の任意のバースト検知処理により時系列テキストからキーワードとなる文字列を抽出する。あるいは、キーワード抽出部42は、頻度が他の文字列よりも所定より高い文字列を抽出してもよく、頻度が過去の平均と比較して所定割合又は所定数だけ高い文字列をキーワードとして抽出してもよい。関連語抽出装置40は、抽出されたキーワードを用いて、図8のステップS110以降の処理を行う。
When the search start is input by the
これにより、関連語抽出装置40は、現在の時期に沿ったキーワードと、そのキーワードの関連語を抽出する。関連語抽出装置40は、抽出したキーワードとその関連語のそれぞれにより検索したコンテンツをユーザに提示することができる。例えば、夏の時期には「プール」、「花火大会」など、少し前から現在にかけて話題となっているキーワードが選択され、これらキーワードと同じような頻度の分布をする(つまり、夏に頻度が高くなる)語に関するコンテンツをユーザに推薦することができる。あるいは、現在「株価の上昇」が話題となっている場合に、過去の実績から将来的に話題となることが予測される「海外旅行」に関するコンテンツをユーザに推薦することができる。
Thereby, the related
なお、ユーザは、入力部11により時刻の情報を入力してもよい。この場合、時系列テキスト記憶部41に、検索可能な期間の時系列テキストを記憶しておく。キーワード抽出部42は、入力された時刻の情報から1日、1週間、1ヶ月などの比較的短い期間の時系列テキストを時系列テキスト記憶部41から読み出してキーワードを抽出する。この場合、時系列テキスト記憶部41を設けず、キーワード抽出部42は、入力された時刻に基づいて時系列テキスト記憶部122から読み出した時系列テキストを用いてキーワードを抽出してもよい。
The user may input time information using the
[第5の実施形態]
本実施形態では、最近インターネットで話題となっている語をキーワードとして用い、関連語の抽出と、コンテンツの推薦を行う。
[Fifth Embodiment]
In the present embodiment, words that have recently become a hot topic on the Internet are used as keywords, and related words are extracted and contents are recommended.
図11は、第5の実施形態による関連語抽出装置50の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図9に示す第3の実施形態による関連語抽出装置30と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置50は、入力部11と、キーワード抽出部51と、関連語抽出部52と、コンテンツ情報記憶部33と、コンテンツ検索部54と、出力部13とを備える。関連語抽出部52は、記憶部521−1、521−2と、時系列頻度抽出部524−1、524−2と、相関値算出部525とを備える。記憶部521−1は、時系列テキスト記憶部522−1及び時系列文字列テーブル記憶部523−1を有し、記憶部521−2は、時系列テキスト記憶部522−2及び時系列文字列テーブル記憶部523−2を有する。
FIG. 11 is a functional block diagram showing the configuration of the related
キーワード抽出部51は、時系列テキスト記憶部522−1に記憶される時系列テキストを用いて、キーワードを抽出する。時系列テキスト記憶部522−1は、インターネット上で時系列テキストとして公開されているブログなどのSNSのウェブページを記憶する。時系列文字列テーブル記憶部523−1は、時系列頻度抽出部524−1により作成される時系列文字列テーブルを記憶する。時系列頻度抽出部524−1は、時系列テキスト記憶部522−1に記憶される時系列テキストを用いて抽出されたキーワードの時系列文字列テーブルを作成する。
The
時系列テキスト記憶部522−2は、コンテンツIDに対応付けられた時系列テキストを記憶する。時系列テキストは、時刻情報が含まれた又は付加されたコンテンツテキスト情報である。例えば、時系列テキスト記憶部522−2は、字幕など番組に関する時系列テキストを記憶する。時系列文字列テーブル記憶部523−2は、時系列頻度抽出部524−2により作成される時系列文字列テーブルを記憶する。時系列頻度抽出部524−2は、時系列テキスト記憶部522−2に記憶される時系列テキストを用いて、図1に示す第1の実施形態の時系列頻度抽出部124と同様の処理により、時系列文字列テーブルを作成する。
The time series text storage unit 522-2 stores the time series text associated with the content ID. The time-series text is content text information including or adding time information. For example, the time-series text storage unit 522-2 stores time-series text relating to programs such as subtitles. The time-series character string table storage unit 523-2 stores the time-series character string table created by the time-series frequency extraction unit 524-2. The time series frequency extraction unit 524-2 uses the time series text stored in the time series text storage unit 522-2 and performs the same processing as the time series
相関値算出部525は、時系列頻度抽出部524−1が作成した時系列文字列テーブルに設定されている各キーワードの時系列の頻度と、時系列頻度抽出部524−2に設定されている各文字列の時系列の頻度とを用いてGranger因果性検定を行う。相関値算出部525は、検定結果に基づいて各キーワードの関連語を抽出し、コンテンツ検索部54に出力する。
The correlation
コンテンツ情報記憶部33は、時系列テキスト記憶部522−2に時系列テキストが蓄積されている番組のコンテンツ紹介情報を記憶する。
コンテンツ検索部54は、関連語が得られた時系列テキストに対応付けられたコンテンツIDを時系列テキスト記憶部522−2から読み出し、読み出したコンテンツIDに対応付けられた番組のコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。コンテンツ検索部54は、読み出したコンテンツ紹介情報と、そのコンテンツ紹介情報と同じコンテンツIDに対応付けられた時系列テキストに含まれる関連語とを関連付けて出力部13に出力する。この関連語は、コンテンツのテーマを表す。
The content information storage unit 33 stores content introduction information of programs in which time-series text is stored in the time-series text storage unit 522-2.
The
<関連語抽出装置50の動作>
図12は、関連語抽出装置50の動作を示すフローチャートである。
ステップS505において、入力部11により検索開始が入力されると、キーワード抽出部51は、時系列テキスト記憶部522−1に記憶される時系列テキストのうち、現在から1日、1週間、1ヶ月などの比較的期間の時系列テキストを特定する。キーワード抽出部51は、特定した時系列テキストを用いて、第3の実施形態のキーワード抽出部42と同様の処理により、キーワードWa1、Wa2、…、Wam(mは1以上の整数)となる文字列を抽出し、時系列頻度抽出部524−1に出力する。
<Operation of Related
FIG. 12 is a flowchart showing the operation of the related
In step S505, when the search start is input by the
ステップS510において、時系列頻度抽出部524−1は、時系列テキスト記憶部522−1に記憶される時系列テキストを用いて各キーワードWa1、Wa2、…、Wamの時系列の頻度を算出し、時系列文字列テーブルT1を作成する。 In step S510, the time series frequency extraction unit 524-1 calculates the time series frequency of each keyword Wa1, Wa2,..., Wam using the time series text stored in the time series text storage unit 522-1. A time series character string table T1 is created.
続いて、ステップS515において、時系列頻度抽出部524−2は、時系列テキスト記憶部522−2に記憶される時系列テキストを用いて、図4のステップS115と同様の時系列文字列テーブル作成処理により、文字列Wb1、Wb2、…、Wbn(nは1以上の整数)の時系列の頻度を設定した時系列文字列テーブルT2を作成する。文字列Wb1、Wb2、…、Wbnは、キーワードの関連語候補である。 Subsequently, in step S515, the time-series frequency extraction unit 524-2 uses the time-series text stored in the time-series text storage unit 522-2 to create a time-series character string table similar to step S115 in FIG. By processing, a time-series character string table T2 in which the time-series frequency of the character strings Wb1, Wb2,..., Wbn (n is an integer of 1 or more) is set is created. Character strings Wb1, Wb2,..., Wbn are keyword related word candidates.
ステップS520において、相関値算出部525は、時系列文字列テーブルT1に設定される各キーワードWa1、Wa2、…、Wamの時系列の頻度と、時系列文字列テーブルT2に設定される各文字列Wb1、Wb2、…、Wbnの時系列の頻度とを用いて、キーワードWai(i=1,2,…,m)と文字列Wbj(j=1,2,…,n)の全ての組み合わせについてGranger因果性検定を行う。
In step S520, the correlation
ステップS525において、相関値算出部525は、検定結果に基づいて、文字列Wb1,Wb2,…,Wbnの中から各キーワードWaiの関連語を抽出する。抽出された関連語をWi1,Wi2,…,Wiki(kiは1以上n以下の整数)とする。相関値算出部525は、キーワードWai(i=1,2,…,m)と、その関連語Wi1,Wi2,…,Wikiとを対応付けた関連語テーブルを生成する。
ステップS530において、相関値算出部525は、生成した関連語テーブルをコンテンツ検索部54に出力する。
In step S525, the correlation
In step S530, the correlation
ステップS535において、コンテンツ検索部54は、関連語Wik(i=1,2,…,m、k=1,2,…,ki)のそれぞれを検索キーとして用いて、時系列テキスト記憶部522−2に記憶される時系列テキストを検索する。コンテンツ検索部54は、検索の結果得られた時系列テキストと同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。コンテンツ検索部54は、コンテンツ紹介情報が得られたときに検索キーとして用いた関連語Wikをコンテンツのテーマとする。つまり、コンテンツ紹介情報によりユーザに紹介するコンテンツは、関連語Wikをテーマとして扱った過去のコンテンツである。コンテンツ検索部54は、コンテンツ紹介情報と、コンテンツのテーマとを出力部13に出力する。
In step S535, the
ステップS540において、出力部13は、コンテンツ紹介情報と、コンテンツのテーマとを提示する。出力部13は、より多くの関連語Wikと対応するコンテンツ紹介情報の優先度を高くして提示してもよい。
In step S540, the
なお、コンテンツ検索部54は、キーワードWaiから関連語Wikへの方向へ因果関係がある関連語Wikを用いてコンテンツ紹介情報を検索することにより、現在話題になっている事象の次に発生すると予想される事象をテーマとしたコンテンツの紹介情報を取得することができる。また、コンテンツ検索部54は、関連語WikからキーワードWaiへの方向へ因果関係がある関連語Wikを用いてコンテンツ紹介情報を検索することにより、現在話題になっている事象の原因であると考えられる事象をテーマとしたコンテンツの紹介情報を取得することができる。
Note that the
本実施形態によれば、関連語抽出装置50は、最近のSNSにおいて多く出現する文字列の関連語を、テーマとして提示することができる。このとき、関連語抽出装置50そのテーマを扱った過去の番組の情報を同時に提示してもよい。過去のSNSと番組の間の時系列相関を算出することによって、最近のSNSの話題から、次に取り上げるべき番組のテーマを提示することができる。
According to this embodiment, the related
以上説明した実施形態によれば、関連語抽出装置は、共起や概念辞書によらずに関連語を抽出することができる。 According to the embodiment described above, the related word extraction device can extract related words without using co-occurrence or a concept dictionary.
なお、上述の関連語抽出装置10、20、30、40、50は、内部にコンピュータシステムを有している。そして、関連語抽出装置10、20、30、40、50の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
Note that the related
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
10、20、30、40、50…関連語抽出装置
11…入力部
12、32、52…関連語抽出部
13…出力部
21、33…コンテンツ情報記憶部
22、34、54…コンテンツ検索部
41…時系列テキスト記憶部
42、51…キーワード抽出部
121、321、521−1、521−2…記憶部
122、322、522−1、522−2…時系列テキスト記憶部
123、523−1、523−2…時系列文字列テーブル記憶部
124、524−1、524−2…時系列頻度抽出部
125、525…相関値算出部
10, 20, 30, 40, 50 ... related
Claims (4)
所定のキーワードを入力する入力部と、
時刻情報と対応付けられた前記テキストデータである時系列テキストを記憶する記憶部と、
前記時系列テキストに含まれる前記各文字列が時系列で出現するときの出現頻度である時系列頻度を抽出する時系列頻度抽出部と、
前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、異なる前記文字列の間の因果関係の強さを定量的に表す値である相関値を算出し、算出された前記相関値に基づいて異なる前記文字列が関連するか否かを判定する相関値算出部と、
前記相関値算出部が前記キーワードの文字列に関連すると判定した他の前記文字列を関連語として出力する出力部と、
を備えることを特徴する関連語抽出装置。 A related word extraction device that extracts related words of each character string included in text data,
An input unit for inputting a predetermined keyword;
A storage unit for storing time-series text that is the text data associated with time information;
A time series frequency extraction unit that extracts a time series frequency that is an appearance frequency when each of the character strings included in the time series text appears in a time series;
Using the time series frequency extracted by the time series frequency extraction unit, a correlation value that is a value that quantitatively represents the strength of the causal relationship between the different character strings is calculated, and the calculated correlation value A correlation value calculating unit that determines whether or not the different character strings are related based on each other;
An output unit that outputs, as a related word, another character string that the correlation value calculation unit determines to be related to the character string of the keyword;
A related word extraction device comprising:
コンテンツに関する情報を示すテキストデータであるコンテンツテキスト情報を記憶するコンテンツ情報記憶部と、
前記関連語を用いて前記コンテンツテキスト情報を検索するコンテンツ検索部とをさらに備え、
前記出力部は、
前記コンテンツ検索部が検索した結果得られた前記コンテンツテキスト情報により特定される前記コンテンツの情報を出力する、
ことを特徴とする関連語抽出装置。 The related word extraction device according to claim 1,
A content information storage unit that stores content text information that is text data indicating information about the content;
A content search unit that searches the content text information using the related terms;
The output unit is
Outputting the information of the content specified by the content text information obtained as a result of the search by the content search unit;
The related word extraction device characterized by this.
前記記憶部は、
インターネット上のウェブページに含まれる前記テキストデータ及び前記時刻情報を含む第1の時系列テキストと、コンテンツに関する情報を示すテキストデータ及び時刻情報を含む第2の時系列テキストとを記憶し、
当該関連語抽出装置は、
前記第1の時系列テキストからキーワードを抽出するキーワード抽出部をさらに有し、
前記時系列頻度抽出部は、
前記第1の時系列テキストに含まれる前記キーワードの時系列頻度と、前記第2の時系列テキストに含まれる各文字列の時系列頻度とを抽出し、
前記相関値算出部は、
前記キーワードと前記文字列のそれぞれについて前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、前記キーワードと前記文字列との相関値とを算出し、算出された当該相関値に基づいて前記文字列が前記キーワードに関連するか否かを判定し、
前記出力部は、
前記相関値算出部により前記キーワードに関連すると判定された前記文字列をコンテンツのテーマを表す関連語として出力し、出力した当該関連語を含む前記第2の時系列テキストにより特定される前記コンテンツの情報を出力する、
ことを特徴とする関連語抽出装置。 The related word extraction device according to claim 1,
The storage unit
Storing the first time series text including the text data and the time information included in the web page on the Internet, and the second time series text including the text data indicating the information about the content and the time information;
The related word extraction device is
A keyword extraction unit for extracting a keyword from the first time-series text;
The time series frequency extraction unit
Extracting the time series frequency of the keyword included in the first time series text and the time series frequency of each character string included in the second time series text;
The correlation value calculation unit
Using the time-series frequency extracted by the time-series frequency extraction unit for each of the keyword and the character string, a correlation value between the keyword and the character string is calculated, and based on the calculated correlation value Determine whether the string is related to the keyword;
The output unit is
The character string determined to be related to the keyword by the correlation value calculation unit is output as a related word representing the theme of the content, and the content of the content specified by the second time-series text including the output related word Output information,
The related word extraction device characterized by this.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016235181A JP2018092367A (en) | 2016-12-02 | 2016-12-02 | Related word extracting device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016235181A JP2018092367A (en) | 2016-12-02 | 2016-12-02 | Related word extracting device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018092367A true JP2018092367A (en) | 2018-06-14 |
Family
ID=62566196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016235181A Pending JP2018092367A (en) | 2016-12-02 | 2016-12-02 | Related word extracting device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018092367A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021051368A (en) * | 2019-09-20 | 2021-04-01 | ヤフー株式会社 | Provision device, provision method and provision program |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092491A (en) * | 2003-09-17 | 2005-04-07 | Fujitsu Ltd | Server and related word proposal method |
JP2007257390A (en) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | System for extracting new compound word |
WO2008087728A1 (en) * | 2007-01-18 | 2008-07-24 | Fujitsu Limited | Keyword management program, keyword management system, and keyword management method |
WO2009096523A1 (en) * | 2008-01-30 | 2009-08-06 | Nec Corporation | Information analysis device, search system, information analysis method, and information analysis program |
US20120215792A1 (en) * | 2011-02-18 | 2012-08-23 | Hon Hai Precision Industry Co., Ltd. | Electronic device and method for searching related terms |
JP2013254366A (en) * | 2012-06-07 | 2013-12-19 | Ntt Docomo Inc | Information processing device and related word determination method |
JP2016197332A (en) * | 2015-04-03 | 2016-11-24 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | Information processing system, information processing method, and computer program |
-
2016
- 2016-12-02 JP JP2016235181A patent/JP2018092367A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092491A (en) * | 2003-09-17 | 2005-04-07 | Fujitsu Ltd | Server and related word proposal method |
JP2007257390A (en) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | System for extracting new compound word |
WO2008087728A1 (en) * | 2007-01-18 | 2008-07-24 | Fujitsu Limited | Keyword management program, keyword management system, and keyword management method |
WO2009096523A1 (en) * | 2008-01-30 | 2009-08-06 | Nec Corporation | Information analysis device, search system, information analysis method, and information analysis program |
US20120215792A1 (en) * | 2011-02-18 | 2012-08-23 | Hon Hai Precision Industry Co., Ltd. | Electronic device and method for searching related terms |
JP2013254366A (en) * | 2012-06-07 | 2013-12-19 | Ntt Docomo Inc | Information processing device and related word determination method |
JP2016197332A (en) * | 2015-04-03 | 2016-11-24 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | Information processing system, information processing method, and computer program |
Non-Patent Citations (1)
Title |
---|
橋本 隆子、外2名: "ソーシャルメディアにおけるバーストパターンの共起に基づく新概念抽出", 第91回 人工知能基本問題研究会資料, JPN6020032097, 26 November 2013 (2013-11-26), JP, pages 47 - 52, ISSN: 0004458694 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021051368A (en) * | 2019-09-20 | 2021-04-01 | ヤフー株式会社 | Provision device, provision method and provision program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109690529B (en) | Compiling documents into a timeline by event | |
WO2017020451A1 (en) | Information push method and device | |
US9122680B2 (en) | Information processing apparatus, information processing method, and program | |
JP6381775B2 (en) | Information processing system and information processing method | |
JP5143057B2 (en) | Important keyword extraction apparatus, method and program | |
US8983997B2 (en) | Information processing apparatus, information processing method, and program | |
JP6394388B2 (en) | Synonym relation determination device, synonym relation determination method, and program thereof | |
Pope et al. | An Analysis of Online Twitter Sentiment Surrounding the European Refugee Crisis. | |
US20130173605A1 (en) | Extracting Query Dimensions from Search Results | |
JP5679194B2 (en) | Information processing apparatus, information processing method, and program | |
KR101606758B1 (en) | Issue data extracting method and system using relevant keyword | |
JP5427694B2 (en) | Related content presentation apparatus and program | |
JP5964149B2 (en) | Apparatus and program for identifying co-occurrence words | |
JP5942052B1 (en) | Data analysis system, data analysis method, and data analysis program | |
Ibrahim et al. | Scientometric re-ranking approach to improve search results | |
JP2008262506A (en) | Information extraction system, information extraction method, and information extraction program | |
JP2018092367A (en) | Related word extracting device and program | |
US9305103B2 (en) | Method or system for semantic categorization | |
JP2016177690A (en) | Service recommendation device, service recommendation method, and service recommendation program | |
JP4938515B2 (en) | Word correlation calculation device and method, program, and recording medium | |
Bi et al. | Automatically generating descriptions for resources by tag modeling | |
JP5411802B2 (en) | Representative word extraction device, representative word extraction method, and representative word extraction program | |
US20140122460A1 (en) | Assistance for video content searches over a communication network | |
JP6188226B2 (en) | Related word extraction apparatus and program | |
Gandy et al. | Shout out: integrating news and reader comments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181026 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191028 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200901 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210309 |