JP5289573B2 - 関連性提示装置、方法およびプログラム - Google Patents
関連性提示装置、方法およびプログラム Download PDFInfo
- Publication number
- JP5289573B2 JP5289573B2 JP2011524553A JP2011524553A JP5289573B2 JP 5289573 B2 JP5289573 B2 JP 5289573B2 JP 2011524553 A JP2011524553 A JP 2011524553A JP 2011524553 A JP2011524553 A JP 2011524553A JP 5289573 B2 JP5289573 B2 JP 5289573B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- keywords
- unit
- related word
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、関連性を提示する関連性提示装置、方法およびプログラムに関する。
コンテンツ推薦においては、利用者の興味に適合したコンテンツを提示するだけではなく利用者の興味を広げるコンテンツ推薦を実現するため、キーワード間の連想ネットワークを用いて主題キーワードに対するクエリ拡張を行い、関連コンテンツを検索するということが行われている(例えば、特許文献1参照)。
キーワード間の連想ネットワークとしては、オントロジが広く利用されている。しかしオントロジを連想ネットワークとして利用する場合、連想元ワードに対する関連ワードが多数存在する場合は連想先ワードとしてどれを選択すべきかの判断が難しい。また、何らかの手段によって選択した場合でも、連想元ワードに対する連想先ワードが利用者にとっては脈絡なく見えてしまいやすい。他方、世の中の話題を幅広く知るという観点からネットワーク上にある膨大な情報を集合知として捕らえ、頻出するキーワードを時事性に基づいて分類することで、ある時点での話題を構成するキーワードのネットワーク(時事ネットワーク)を構築するということが行われている。時事ネットワークを連想ネットワークとして利用する場合、オントロジと異なり直接的な意味のつながりはないが関連するコンテンツを検索することができる利点がある。しかし現時点ないし直近の時事ネットワークだけでは含まれるキーワードが乏しく、検索対象のコンテンツが限定され主題キーワードに対するクエリ拡張が行えないことが多いという欠点がある。また過去の時事ネットワークを用いる場合は、作成日が古くて現在の主題とは関連性が乏しいコンテンツまで検索されてしまい、利用者にとっては推薦コンテンツに関心を持ちづらい。
本発明は、上述の課題を解決するためになされたものであり、利用者にとって関連性が見えやすい適切なクエリ拡張、コンテンツ検索を行うことを可能にする関連性提示装置、方法およびプログラムを提供することを目的とする。
上述の課題を解決するため、本発明に係る関連性提示装置は、第1キーワード間の共起関係に基づいて、時事に関する該第1キーワードをクラスタリングしたネットワークである時事ネットワークを複数格納する第1格納部と、第2キーワード間の概念上のつながりを階層的に表現し、上層ほど上位概念に対応するネットワークであり、該第2キーワードがノードを示すオントロジを格納する第2格納部と、文書中から該文書内容の話題となる主題キーワードを抽出する抽出部と、前記主題キーワードが含まれる前記時事ネットワークから、該時事ネットワークに含まれる該主題キーワード以外の前記第1キーワードを第1関連ワードとして少なくとも1つ以上得る第1展開部と、前記主題キーワードを前記オントロジ上で検索し、該オントロジ上に該主題キーワードがある場合、同一階層のノードを取得し、該同一階層にある該ノードをすべて取得しても取得したノードの数が第1閾値に達しない場合、該数が該第1閾値に達するまで1つ上の階層にあるノードを取得する第2展開部と、前記第1関連ワードおよび前記ノードに共通するキーワードを共通関連ワードとして抽出し、該共通関連ワードの出現頻度が定常であるかどうかを判定する判定部と、前記出現頻度が定常であるかどうかに基づいて検索クエリを生成し、コンテンツの検索結果および該コンテンツの関連性の理由を生成する生成部と、を具備することを特徴とする。
本発明の関連性提示装置、方法およびプログラムによれば、利用者にとって関連性が見えやすい適切なクエリ拡張、コンテンツ検索を行うことを可能にする。
以下、図面を参照しながら本発明の実施形態に係る関連性提示装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
本実施形態に係る関連性提示装置の構成について図1を参照して詳細に説明する。
本実施形態に係る関連性提示装置100は、文書収集部101、時事性判定部102、時事ネットワーク格納部103、webページ表示部104、キーワード抽出部105、キーワード展開部106、オントロジ格納部109、定常性判定部110、クエリ生成部111を含む。さらにキーワード展開部106は、時事性展開部107、オントロジ展開部108を含む。
本実施形態に係る関連性提示装置の構成について図1を参照して詳細に説明する。
本実施形態に係る関連性提示装置100は、文書収集部101、時事性判定部102、時事ネットワーク格納部103、webページ表示部104、キーワード抽出部105、キーワード展開部106、オントロジ格納部109、定常性判定部110、クエリ生成部111を含む。さらにキーワード展開部106は、時事性展開部107、オントロジ展開部108を含む。
文書収集部101は、時事ネットワークを作成するために日時情報を持つ文書群の収集を行う。時事ネットワークは、ある時点で話題を構成するキーワード群のつながりを示す木構造のネットワークである。1つの時事ネットワークだけでは含まれるキーワードが乏しいことが多いため、観点ごとに時事ネットワークを作成する。そのため、テレビ放送の映像自体に重畳して毎日配信されているEPG(Electronic Program Guide)データや、web上のニュースサイトが数時間ごとに配信しているRSSデータなど、定期的に配信される複数の収集元を利用することが望ましい。収集間隔は、EPGデータの場合は配信間隔が1日であるため1日でよいが、RSSデータの場合は配信間隔がサイトによって異なるため、収集元ごとに設定を行う。
文書収集部101が収集する文書の配信元URL、種別、および収集間隔の一例を図2を参照して詳細に説明する。配信元URL201は、文書が保存されているURLを示す。種別202は、上述したEPGやRSSといった文書の収集元のデータ形式を示し、さらに各データ形式に含まれる文書内容の種類を含む。文書内容の種類とは、例えば、ニュース、スポーツ、教養、または地デジ、BSという種類である。収集間隔203は、配信元URL201から文書を取得する時間間隔である。文書収集部101は、図2に示すような文書収集に関するテーブルを有しており、このテーブルを参照して収集間隔に合わせて文書の収集を行う。図2の例では「http://aaa」という配信元URL201からEPGを1日に1回、「http://bbb」というURLからニュースに関するRSSを1時間に1回、「http://ccc」という配信元URL201から旅行に関するRSSを1週間に1回、文書の収集を行うように文書収集部101に設定する。また文書収集部101は、外部にあるメモリに配信元URL201およびそのURLから取得した文書群を関連付けて記憶させてもよい。
文書収集部101が収集する文書の配信元URL、種別、および収集間隔の一例を図2を参照して詳細に説明する。配信元URL201は、文書が保存されているURLを示す。種別202は、上述したEPGやRSSといった文書の収集元のデータ形式を示し、さらに各データ形式に含まれる文書内容の種類を含む。文書内容の種類とは、例えば、ニュース、スポーツ、教養、または地デジ、BSという種類である。収集間隔203は、配信元URL201から文書を取得する時間間隔である。文書収集部101は、図2に示すような文書収集に関するテーブルを有しており、このテーブルを参照して収集間隔に合わせて文書の収集を行う。図2の例では「http://aaa」という配信元URL201からEPGを1日に1回、「http://bbb」というURLからニュースに関するRSSを1時間に1回、「http://ccc」という配信元URL201から旅行に関するRSSを1週間に1回、文書の収集を行うように文書収集部101に設定する。また文書収集部101は、外部にあるメモリに配信元URL201およびそのURLから取得した文書群を関連付けて記憶させてもよい。
時事性判定部102は、文書収集部101から、配信元URLと収集間隔とを受け取り、後述するキーワード抽出部105からキーワードを受け取り、文書中でのキーワード(単語ないし複合語)の日時ごとの出現頻度分布を算出し、時事性のあるキーワードかどうかの時事性判定処理をおこなう。時事性判定処理により時事性があると判定されたキーワードについて、共起関係に基づきクラスタリングして得られた時事ネットワークを複数生成する。ここで、共起関係とは、複数の単語が同一文書中に出現することを示し、単語Aと単語Bが共起関係にあるとは、単語Aと単語Bが同一文書中に出現することを示す。時事性判定部102における時事性判定処理については図4を用いて詳細に後述する。また、時事性判定部102は、外部にあるメモリに時事性判定処理をおこなったキーワードおよび配信元URLを、文書収集部101が格納した配信元URLおよび文書群と関連付けて格納してもよい。すなわち、外部にあるメモリは、キーワード、配信元URL、文書群を関連付けて格納する。なお、時事性判定部102は、文書収集部101から配信元URLと収集間隔とを受け取るかわりに、キーワード抽出部105から配信元URLと収集間隔を受け取ってもよい。
時事ネットワーク格納部103は、時事性判定部102から、ある時点ごとに生成された複数の時事ネットワークと配信元URLとを受け取り、ある配信元URLに対して生成された時事ネットワークと、その時事ネットワーク生成の処理日時とを関連付けて格納する。
格納される時事ネットワークの一例を図3を参照して説明する。図3に示すように、ある配信元URL201に対して、時事ネットワーク生成の処理日時301とその時事ネットワーク302とを関連付けて格納する。また、ある時点の処理日時301において生成された時事ネットワークが複数ある場合もある。例えば、配信元URL201「http://aaa」から収集した処理日時301「2009/01/22 00:00:00」での時事ネットワーク302は1つだが、配信元URL201「http://bbb」から収集した処理日時301「2009/01/21 00:00:00」での時事ネットワーク302は2つある。このように各時点で生成された時事ネットワーク302は、すべて格納する。
格納される時事ネットワークの一例を図3を参照して説明する。図3に示すように、ある配信元URL201に対して、時事ネットワーク生成の処理日時301とその時事ネットワーク302とを関連付けて格納する。また、ある時点の処理日時301において生成された時事ネットワークが複数ある場合もある。例えば、配信元URL201「http://aaa」から収集した処理日時301「2009/01/22 00:00:00」での時事ネットワーク302は1つだが、配信元URL201「http://bbb」から収集した処理日時301「2009/01/21 00:00:00」での時事ネットワーク302は2つある。このように各時点で生成された時事ネットワーク302は、すべて格納する。
webページ表示部104は、利用者が所望のコンテンツを閲覧する際に、webページにあるコンテンツを表示する。
キーワード抽出部105は、文書収集部101が収集した文書群に含まれるテキストを形態素解析するなどしてキーワードを抽出し、抽出したキーワードを時事性判定部102へ送る。またキーワード抽出部105は、利用者がコンテンツを閲覧するたびに、webページ表示部104に表示されたコンテンツから、コンテンツの話題となるキーワードである主題キーワードを取得し、1つ以上の主題キーワードからなる主題キーワード集合を得て、主題キーワード集合をキーワード展開部106へ送る。キーワード抽出部105における主題キーワードの抽出処理については図6および図7を参照して後述する。
キーワード展開部106は、キーワード抽出部105から主題キーワード集合を受け取り、キーワード展開部106に含まれる時事性展開部107およびオントロジ展開部108によって、主題キーワードに関連づく語である関連ワードの展開処理を行う。そして、時事性展開部107およびオントロジ展開部108のそれぞれで、関連ワード集合を生成する。キーワード展開部106の動作、すなわち時事性展開部107およびオントロジ展開部108における関連ワードの展開処理は図8から図10を用いて詳細に後述する。
キーワード抽出部105は、文書収集部101が収集した文書群に含まれるテキストを形態素解析するなどしてキーワードを抽出し、抽出したキーワードを時事性判定部102へ送る。またキーワード抽出部105は、利用者がコンテンツを閲覧するたびに、webページ表示部104に表示されたコンテンツから、コンテンツの話題となるキーワードである主題キーワードを取得し、1つ以上の主題キーワードからなる主題キーワード集合を得て、主題キーワード集合をキーワード展開部106へ送る。キーワード抽出部105における主題キーワードの抽出処理については図6および図7を参照して後述する。
キーワード展開部106は、キーワード抽出部105から主題キーワード集合を受け取り、キーワード展開部106に含まれる時事性展開部107およびオントロジ展開部108によって、主題キーワードに関連づく語である関連ワードの展開処理を行う。そして、時事性展開部107およびオントロジ展開部108のそれぞれで、関連ワード集合を生成する。キーワード展開部106の動作、すなわち時事性展開部107およびオントロジ展開部108における関連ワードの展開処理は図8から図10を用いて詳細に後述する。
オントロジ格納部109では、様々なキーワードを含んだオントロジを格納しており、オントロジ展開部108の要求により格納しているオントロジをオントロジ展開部108へ送る。オントロジは、キーワード間の概念上のつながりを表現したものである。格納しているオントロジは、すべての概念を包含した一つの巨大なネットワークであってもよいし、カテゴリごとに分割されている複数のネットワークであってもよい。
定常性判定部110は、キーワード抽出部106から、時事性展開部107およびオントロジ展開部108において生成したそれぞれの関連ワード集合から共通部分を求め、共通の関連ワードである共通関連ワードが定常であるかどうかを判定する。定常性判定処理については図11を用いて詳細に後述する。
クエリ生成部111は、定常性判定部110から定常性を判定した共通関連ワードを受け取り、利用者に関連ワードを提示するためのクエリ生成を行い、生成したクエリを用いてコンテンツを検索する。クエリの検索結果に基づいて関連性の理由を示すテキストを生成する。クエリ生成部111におけるクエリ生成処理については図13を用いて詳細に後述する。
ここで、時事性判定部102およびキーワード抽出部105における時事性判定処理について図4のフローチャートを用いて詳細に説明する。
初めにステップS401では、キーワード抽出部105において、文書配信元の配信間隔に応じて、後のステップS404でキーワードの出現頻度分布を計算するための短期用期間Sおよび長期用期間Lを決定する。配信間隔は、文書収集部101が格納している図2のようなテーブルの収集間隔203を参照する。例えば、図2の例では「http://aaa」というURLからEPGを1日に1回収集するので、例えば短期用期間Sを3日、長期用期間Lを7日と設定する。
初めにステップS401では、キーワード抽出部105において、文書配信元の配信間隔に応じて、後のステップS404でキーワードの出現頻度分布を計算するための短期用期間Sおよび長期用期間Lを決定する。配信間隔は、文書収集部101が格納している図2のようなテーブルの収集間隔203を参照する。例えば、図2の例では「http://aaa」というURLからEPGを1日に1回収集するので、例えば短期用期間Sを3日、長期用期間Lを7日と設定する。
次にステップS402では、キーワード抽出部105において、短期用期間S、長期用期間Lの間に配信された文書群を形態素解析する。形態素解析は一般的な手法を用いればよいので、ここでの詳細な説明は省略する。
次にステップS403では、キーワード抽出部105において、助詞や記号など不要表現を除去し、形態素を連結してキーワードを抽出する。
最後にステップS404では、時事性判定部102において、キーワードごとに短期用期間Sでの出現頻度、および長期用期間Lでの出現頻度を算出し、短期的な出現頻度が長期的な出現頻度よりも有意に上昇しているかどうかを判定することで、各キーワードが時事的であるかどうかの時事性判定を行う。この判定の例として、長期的な出現確率は一様分布に従っていると仮定し「短期的な出現確率も平均が同じ一様分布に従う」という帰無仮説の検定を行うことで、各キーワードが時事的であるかどうかを判定する。具体的には、例えば、長期的な出現頻度をN(L)とすると、短期的な出現頻度N(S)は確率分布N(L)CN(S)(S/L)N(S)(1−S/L)N(L)−N(S)に従う。実際に観測された短期的な出現頻度のZ値が閾値よりも大きいかどうかによりZ検定を行ない、時事性を判定する。収集元によって配信間隔や文書の傾向が異なるため、収集元ごとに判定を行うほうがよいが、すべての文書群をまとめて行うようにしてもよい。
次にステップS403では、キーワード抽出部105において、助詞や記号など不要表現を除去し、形態素を連結してキーワードを抽出する。
最後にステップS404では、時事性判定部102において、キーワードごとに短期用期間Sでの出現頻度、および長期用期間Lでの出現頻度を算出し、短期的な出現頻度が長期的な出現頻度よりも有意に上昇しているかどうかを判定することで、各キーワードが時事的であるかどうかの時事性判定を行う。この判定の例として、長期的な出現確率は一様分布に従っていると仮定し「短期的な出現確率も平均が同じ一様分布に従う」という帰無仮説の検定を行うことで、各キーワードが時事的であるかどうかを判定する。具体的には、例えば、長期的な出現頻度をN(L)とすると、短期的な出現頻度N(S)は確率分布N(L)CN(S)(S/L)N(S)(1−S/L)N(L)−N(S)に従う。実際に観測された短期的な出現頻度のZ値が閾値よりも大きいかどうかによりZ検定を行ない、時事性を判定する。収集元によって配信間隔や文書の傾向が異なるため、収集元ごとに判定を行うほうがよいが、すべての文書群をまとめて行うようにしてもよい。
この処理によって、短期的な出現頻度のZ値が閾値よりも大きい場合は時事性があると判定され、現在盛り上がっている話題であるため、時事キーワードとして抽出し以降の処理を行う。また、短期的な出現頻度のZ値が閾値以下の場合は時事性がないと判定され、以降の処理を行わない。以上で時事性判定処理を終了する。また、この時事性のあるキーワードを時事キーワードと呼ぶ。
このようにして抽出された時事キーワードの集合に対して、時事性判定部102がすべての時事キーワード間の条件付出現確率を計算する。一例を挙げれば、ある時事キーワードKW1とKW2とに対し、それぞれが出現した文書の個数をN(KW1)、N(KW2)とし、KW1とKW2とが同時に出現した文書の個数をN(KW1、KW2)とする。このときKW1に対するKW2の条件付出現確率はP(KW2|KW1)=P(KW1、KW2)/P(KW1)=N(KW1、KW2)/N(KW1)となる。すべての時事キーワードを頂点とし、条件付出現確率があらかじめ設定された閾値αより大きいときに時事キーワード間に有向辺を引くことにすると、時事キーワード間の共起関係グラフを生成することができる。
次に、時事性判定部102が生成した共起関係グラフに基づき、関連度の高いキーワードを併合して次々と新しいグループにまとめる階層的クラスタリングを行う。このとき関連度は、両方向に有向辺がある場合は条件付確率の和を用いてもよいし、一方向にしかない場合は条件付確率に適当な係数をかけたものを用いてもよい。階層的クラスタリング方法は例えば以下のような手順で行えばよい。
1.共起関係グラフのそれぞれの時事キーワードに対し、それぞれのキーワードだけからなる要素数1のクラスタを生成する。
2.関連度のもっとも大きい時事キーワードKW1とKW2とを求める。
3.KW1とKW2との関連度と、ある閾値とを比較する。KW1とKW2との関連度が閾値以下の場合は、1つのクラスタにまとめるべきクラスタがすでになくなったものとしてクラスタリングを終了する。KW1とKW2との関連度が閾値より大きい場合は、特徴ベクトルAとBとからなる新しい特徴ベクトルC=A+Bのクラスタを生成し、もとの2つのクラスタを削除する。
4.特徴ベクトルAのクラスタと特徴ベクトルBのクラスタとが削除され、特徴ベクトルCのクラスタが追加されたクラスタ集合に対して、改めてもっとも関連度が大きいクラスタを求めることを繰り返す。
1.共起関係グラフのそれぞれの時事キーワードに対し、それぞれのキーワードだけからなる要素数1のクラスタを生成する。
2.関連度のもっとも大きい時事キーワードKW1とKW2とを求める。
3.KW1とKW2との関連度と、ある閾値とを比較する。KW1とKW2との関連度が閾値以下の場合は、1つのクラスタにまとめるべきクラスタがすでになくなったものとしてクラスタリングを終了する。KW1とKW2との関連度が閾値より大きい場合は、特徴ベクトルAとBとからなる新しい特徴ベクトルC=A+Bのクラスタを生成し、もとの2つのクラスタを削除する。
4.特徴ベクトルAのクラスタと特徴ベクトルBのクラスタとが削除され、特徴ベクトルCのクラスタが追加されたクラスタ集合に対して、改めてもっとも関連度が大きいクラスタを求めることを繰り返す。
以上の処理を行うことにより階層的クラスタリングを実行することができる。なお、クラスタリングを行うタイミングは、文書群の配信間隔に応じて決定すればよい。時事性判定部102は、例えば、図2の例では、配信元URL201が「http://aaa」というURLに対しては、収集間隔203が1日に1回なのでクラスタリングを行う間隔を1日に1回に設定する。また、階層的クラスタリングにおいて、キーワードによっては1つのクラスタのみからなる時事ネットワークが生成されてもよい。
ここで、ツリー形式で表現された階層的クラスタリングのある時点での時事ネットワークの一部を図5に示す。(a)は、「五輪」という上位キーワードに対して「女子」「運命」「予選」「ハンドボール」といった下位キーワードが階層的につながり、(b)は、「中国製ギョーザ」という上位キーワードに対して「重体」「農薬」「被害拡大」といった下位キーワードが階層的につながり階層的クラスタリングを生成する。
次に、キーワード抽出部105における主題キーワード集合抽出処理について図6および図7を参照して説明する。主題キーワード集合は、利用者が閲覧しているコンテンツの話題に関連するキーワードの集合である。
主題キーワード集合抽出処理は、利用者がコンテンツを閲覧するたびに行われる。まず利用者が閲覧しているコンテンツからヘッダやフッタ、広告、リンク集などそのコンテンツの主題ではないと考えられる箇所を削除し、画面の大きな領域を占めるなどレイアウト上重要である箇所を抽出することで主題テキストの抽出を行う。非常に長いコンテンツなど、中で話題が一つに定まっていないような場合は、段落ごとに分割し、話題ごとに一つ一つを主題テキストとして抽出してもよい。その後それぞれの主題テキストに対し、金額や時刻のような定型表現、人名や地名のような固有名詞、あるいは食物や動植物名のような事物のカテゴリといったキーワードを主題キーワードとする。そして主題テキストから主題キーワードとして取り得るすべて抽出し、抽出した主題キーワードの意味属性を含めて主題キーワード集合とする。主題キーワード集合抽出処理は、図6に示すように、キーワードをあらかじめ与えられた辞書とのマッチングにより抽出処理を行ってもよい。例えば、「イグアナ」という主題キーワードが抽出された場合、「イグアナ」の意味属性である「動物、爬虫類」を一緒に抽出する。この意味属性は、後述するオントロジ格納部109から概念の分類を選択する際に使用される。また図7に示すように、あらかじめ与えられた文字列の並び方、あるいは形態素の並び方のルールとのマッチングで行ってもよい。例えば、「神奈川県」という主題キーワードが抽出された場合、「神奈川県」のルールエントリは、「○○県」であり、この意味属性である「地名、日本の都市」を一緒に抽出する。この意味属性は、図6と同様にオントロジ格納部109から概念の分類を選択する際に使用される。
主題キーワード集合抽出処理は、利用者がコンテンツを閲覧するたびに行われる。まず利用者が閲覧しているコンテンツからヘッダやフッタ、広告、リンク集などそのコンテンツの主題ではないと考えられる箇所を削除し、画面の大きな領域を占めるなどレイアウト上重要である箇所を抽出することで主題テキストの抽出を行う。非常に長いコンテンツなど、中で話題が一つに定まっていないような場合は、段落ごとに分割し、話題ごとに一つ一つを主題テキストとして抽出してもよい。その後それぞれの主題テキストに対し、金額や時刻のような定型表現、人名や地名のような固有名詞、あるいは食物や動植物名のような事物のカテゴリといったキーワードを主題キーワードとする。そして主題テキストから主題キーワードとして取り得るすべて抽出し、抽出した主題キーワードの意味属性を含めて主題キーワード集合とする。主題キーワード集合抽出処理は、図6に示すように、キーワードをあらかじめ与えられた辞書とのマッチングにより抽出処理を行ってもよい。例えば、「イグアナ」という主題キーワードが抽出された場合、「イグアナ」の意味属性である「動物、爬虫類」を一緒に抽出する。この意味属性は、後述するオントロジ格納部109から概念の分類を選択する際に使用される。また図7に示すように、あらかじめ与えられた文字列の並び方、あるいは形態素の並び方のルールとのマッチングで行ってもよい。例えば、「神奈川県」という主題キーワードが抽出された場合、「神奈川県」のルールエントリは、「○○県」であり、この意味属性である「地名、日本の都市」を一緒に抽出する。この意味属性は、図6と同様にオントロジ格納部109から概念の分類を選択する際に使用される。
次に、時事性展開部107における関連ワードの展開処理を図8のフローチャートを用いて詳細に説明する。ここでは1つずつ主題キーワードXを取得し、時事ネットワーク格納部103に格納されている時事ネットワークNを現時点のものから一つずつ過去に遡りながら、当該主題キーワードが含まれているかどうかの判定を行う。
まず初めに、ステップS801では、[主題キーワード、配信元URL、時刻、関連ワード集合]の関連付けを格納する表Tを初期化する。
次に、ステップS802では、未処理の主題キーワードXがあるかどうかを判定する。未処理の主題キーワードXがある場合、その主題キーワードXをキーワード抽出部105から1つ取得して次のステップS803に進む。未処理の主題キーワードXがない場合、ステップS809に進む。
続いて、ステップS803では、未処理の主題キーワードXに対して、未処理の配信元URL Uがあるかどうかを判定する。未処理の配信元URL Uがある場合、ステップS804に進む。未処理の配信元URL Uがない場合、再度ステップS802に進み、次の主題キーワードXについて処理を繰り返す。
まず初めに、ステップS801では、[主題キーワード、配信元URL、時刻、関連ワード集合]の関連付けを格納する表Tを初期化する。
次に、ステップS802では、未処理の主題キーワードXがあるかどうかを判定する。未処理の主題キーワードXがある場合、その主題キーワードXをキーワード抽出部105から1つ取得して次のステップS803に進む。未処理の主題キーワードXがない場合、ステップS809に進む。
続いて、ステップS803では、未処理の主題キーワードXに対して、未処理の配信元URL Uがあるかどうかを判定する。未処理の配信元URL Uがある場合、ステップS804に進む。未処理の配信元URL Uがない場合、再度ステップS802に進み、次の主題キーワードXについて処理を繰り返す。
ステップS804では、未処理の配信元URL Uについて、時事ネットワーク格納部103に格納されている時事ネットワークの生成処理が行われた、処理日時が最新の処理日時を時刻M=0とし、最新の処理日時よりもQ回過去である処理日時はM=−Qで表現する。具体的には、例えば図3では、処理日時「2009/1/22 00:00:00」が時刻M=0であり、格納されている日時が1つ過去である処理日時「2009/1/21 00:00:00」が時刻M=−1に対応する。つまり、時刻Mの間隔はここでは1日である。
ステップS805では、着目した配信元URL Uについて、時事ネットワーク格納部103に時刻Mの時事ネットワークNがあるかどうかを判定する。すなわち、ステップS805の処理が1回目であれば、現時点(M=0)において時事ネットワークNがあるかどうかを判定する。現時点での時事ネットワークNがある場合、ステップS806に進む。現時点での時事ネットワークNがない場合、ステップS803に戻り、着目する主題キーワードXに対して未処理の配信元URLがあるかどうかを判定する。
ステップS805では、着目した配信元URL Uについて、時事ネットワーク格納部103に時刻Mの時事ネットワークNがあるかどうかを判定する。すなわち、ステップS805の処理が1回目であれば、現時点(M=0)において時事ネットワークNがあるかどうかを判定する。現時点での時事ネットワークNがある場合、ステップS806に進む。現時点での時事ネットワークNがない場合、ステップS803に戻り、着目する主題キーワードXに対して未処理の配信元URLがあるかどうかを判定する。
ステップS806では、時刻Mの時事ネットワークNに着目する主題キーワードXがあるかどうかを判定する。ステップS806の処理が1回目であれば、現時点の時事ネットワークNに主題キーワードXがあるかどうかを判定する。主題キーワードXがある場合、ステップS808に進む。主題キーワードXがない場合、ステップS807に進む。
ステップS807では、時刻Mを1減らして処理日時を1つ過去に遡り、遡った時刻Mが閾値以内であるかどうかを判定する。遡った時刻Mが閾値以内である場合、再度ステップS805に戻り、ステップS805およびステップS806における処理を1つ過去の時事ネットワークNについて同様の処理を繰り返す。遡った時刻Mが閾値以内でない場合、例えば、あるMまで遡っても主題キーワードXがない場合はステップS803に戻り、その主題キーワードXに対して他の未処理の配信元URLがあるかどうかを判定する。閾値は、例えば過去に遡る範囲を限定し、時事ネットワーク格納部103に格納されているすべてを対象にしてもよいし、1年前までなど判定する処理日時の期間でもよい。または、主題キーワードが1つ見つかるまでなどでもよい。
ステップS808では、主題キーワードXが属する時事ネットワークNに含まれる複数のキーワードを関連ワード集合Zsとして、表Tに[主題キーワードX,配信元URL U,時刻M,関連ワード集合Zs]を追加して、ステップS803からステップS808までの処理を繰り返す。なお、時事ネットワークNに含まれるキーワードをすべて関連ワード集合Zsとして抽出してもよいし、主題キーワードXが含まれるクラスタから、所定の階層目(例えば3階層目)までのクラスタに含まれるキーワードを抽出するとしてもよい。
ステップS809では、すべての主題キーワードXに対して処理を終了した場合に、主題キーワードX、配信元URL U、時刻M、および関連ワード集合Zsをそれぞれ関連付けた表Tを出力して関連ワード展開処理を終了する。
なおこのとき、すべての文書群をまとめて作成しているときは単純に時事ネットワークNを一つずつ過去に遡ってもよいが、配信元URLが異なる時事ネットワークNは分けて遡るようにする。例えば、図3の例では、2009/01/22の利用者の閲覧コンテンツから主題キーワードXとして「銀座」が得られた場合は、作成日時2009/01/22 00:00に対しては「大売出し」「大須」「泥棒」など、作成日時2009/01/21 00:00に対しては「元町」「イルミネーション」「ラーメン」などが関連ワードとして展開されることになる。
次に、オントロジ展開部108における関連ワードの展開処理を図9のフローチャートを用いて詳細に説明する。
初めにステップS901では、[主題キーワード、関連ワード集合]を保持しておく表Sを初期化する。
続いてステップS902では、未処理の主題キーワードXがあるかどうかを判定する。未処理の主題キーワードXがある場合、その主題キーワードXをキーワード抽出部105から1つ取得してステップS903に進む。未処理の主題キーワードXがない場合、ステップS909へ進む。
続いてステップS903では、オントロジ格納部109に格納しているオントロジ上に主題キーワードXがあるかどうかを判定する。この判定処理は、文字列としての完全マッチでもよいし曖昧マッチでもよい。オントロジが複数のネットワークから構成される場合は、それぞれに対して判定を行う。この判定処理によって、オントロジ上に主題キーワードXがある場合、ステップS904に進む。オントロジ上に主題キーワードXがない場合、ステップS902に戻り処理を繰り返す。
ステップS904では、同じ階層のノードYs、すなわち兄弟ノードであるノードYsに着目する。ここでノードYsは、1つのキーワードを表し、主題キーワードに対する関連ワードとなる。
次に、オントロジ展開部108における関連ワードの展開処理を図9のフローチャートを用いて詳細に説明する。
初めにステップS901では、[主題キーワード、関連ワード集合]を保持しておく表Sを初期化する。
続いてステップS902では、未処理の主題キーワードXがあるかどうかを判定する。未処理の主題キーワードXがある場合、その主題キーワードXをキーワード抽出部105から1つ取得してステップS903に進む。未処理の主題キーワードXがない場合、ステップS909へ進む。
続いてステップS903では、オントロジ格納部109に格納しているオントロジ上に主題キーワードXがあるかどうかを判定する。この判定処理は、文字列としての完全マッチでもよいし曖昧マッチでもよい。オントロジが複数のネットワークから構成される場合は、それぞれに対して判定を行う。この判定処理によって、オントロジ上に主題キーワードXがある場合、ステップS904に進む。オントロジ上に主題キーワードXがない場合、ステップS902に戻り処理を繰り返す。
ステップS904では、同じ階層のノードYs、すなわち兄弟ノードであるノードYsに着目する。ここでノードYsは、1つのキーワードを表し、主題キーワードに対する関連ワードとなる。
ステップS905では、兄弟ノードであるノードYsをオントロジ格納部109からすべて取得する。ここで、兄弟ノードの中でさらに下に階層を持つノードに関しては、そのノードが持つ下の階層についてもすべて取得する。兄弟ノードをすべて取得することにより、実質的に1つ上の親ノードを取得したことになる。
ステップS906では、取得したノードYsの個数が閾値よりも大きいかどうかを判定する。ノードYsの個数が閾値よりも大きければステップS908に進む。ノードYsの個数が閾値以下である場合、ステップS907に進み、注目しているノードYsよりも1つ上の階層を着目する。そしてステップS905に戻り同様の処理を繰り返す。具体的には、図10(a)の場合、あらかじめ与えた閾値を超えるまでTチームの選手→野球選手→スポーツ選手とノードYsの範囲を拡大することになる。
ステップS908では、表Sに[主題キーワードX、ノードYs]を関連付けて追加する。つまり、主題キーワードXに対し複数のノードYsが関連付けられることになり、この複数のノードYsが、時事性展開部107における関連ワード集合にあたる。そしてステップS902へ戻り、ステップS902からステップS908までの処理を同様に繰り返す。
最後にステップS909では、主題キーワードXとノードYsとを関連付けた表Sを出力して関連ワード展開処理を終了する。
ステップS906では、取得したノードYsの個数が閾値よりも大きいかどうかを判定する。ノードYsの個数が閾値よりも大きければステップS908に進む。ノードYsの個数が閾値以下である場合、ステップS907に進み、注目しているノードYsよりも1つ上の階層を着目する。そしてステップS905に戻り同様の処理を繰り返す。具体的には、図10(a)の場合、あらかじめ与えた閾値を超えるまでTチームの選手→野球選手→スポーツ選手とノードYsの範囲を拡大することになる。
ステップS908では、表Sに[主題キーワードX、ノードYs]を関連付けて追加する。つまり、主題キーワードXに対し複数のノードYsが関連付けられることになり、この複数のノードYsが、時事性展開部107における関連ワード集合にあたる。そしてステップS902へ戻り、ステップS902からステップS908までの処理を同様に繰り返す。
最後にステップS909では、主題キーワードXとノードYsとを関連付けた表Sを出力して関連ワード展開処理を終了する。
オントロジ格納部109に格納されているオントロジの一例を図10を用いて説明する。図10(a)のように、階層構造がしっかりしているオントロジの場合は、近隣ノード群が少数に限定されるため、利用者にとって関連性が見えやすい適切なクエリ拡張を実現できる。一方、図10(b)のように、階層構造がほとんどなく、兄弟ノードが多数存在するオントロジの場合は、それぞれの関係性が見えにくくなることがある。そのような場合は、本実施形態による処理を施すことが必要であり、オントロジ展開部108と時事性展開部107とから抽出される関連ワードとの共通部分を得ることで、兄弟ノードが多数存在する場合でも関連性を見えやすくする。
次に、定常性判定部110における関連ワードの定常性判定処理について図11のフローチャートを用いて詳細に説明する。
初めにステップS1101では、上述した時事性展開部107における時事ネットワーク展開処理およびオントロジ展開部108におけるオントロジ展開処理によって、主題キーワードに対する関連ワード集合が表Tと表Sとに求められているので、1つずつ主題キーワードXを取得し、表Tおよび表Sのそれぞれの関連ワード集合の共通部分である共通関連ワードZs’を取得する。例えば、2009/01/22の利用者の閲覧コンテンツから主題キーワードとして「銀座」が得られた場合は、オントロジ展開処理からは図10を参照すると「大須」「元町」などの日本の商店街名が得られる。また、時事ネットワーク展開処理からは図3を参照すると配信元URL201が「http://aaa」で、処理日時301が「2009/01/22 00:00:00」の時事ネットワーク302から「大売出し」「大須」「泥棒」などが得られ、同じ配信元URL201で処理日時301が1日前の時事ネットワーク302からは、「元町」「イルミネーション」「ラーメン」が得られる。よって、表Tと表Sとの共通関連ワードZs’としては「大須」「元町」が得られる。すなわち、「銀座」と「大須」は日本の商店街名という関連があるほか、「大売出し」「泥棒」という関連があることになる。同様に「銀座」と「元町」は日本の商店街名という関連があるほか、「イルミネーション」「ラーメン」という関連があることになる。
初めにステップS1101では、上述した時事性展開部107における時事ネットワーク展開処理およびオントロジ展開部108におけるオントロジ展開処理によって、主題キーワードに対する関連ワード集合が表Tと表Sとに求められているので、1つずつ主題キーワードXを取得し、表Tおよび表Sのそれぞれの関連ワード集合の共通部分である共通関連ワードZs’を取得する。例えば、2009/01/22の利用者の閲覧コンテンツから主題キーワードとして「銀座」が得られた場合は、オントロジ展開処理からは図10を参照すると「大須」「元町」などの日本の商店街名が得られる。また、時事ネットワーク展開処理からは図3を参照すると配信元URL201が「http://aaa」で、処理日時301が「2009/01/22 00:00:00」の時事ネットワーク302から「大売出し」「大須」「泥棒」などが得られ、同じ配信元URL201で処理日時301が1日前の時事ネットワーク302からは、「元町」「イルミネーション」「ラーメン」が得られる。よって、表Tと表Sとの共通関連ワードZs’としては「大須」「元町」が得られる。すなわち、「銀座」と「大須」は日本の商店街名という関連があるほか、「大売出し」「泥棒」という関連があることになる。同様に「銀座」と「元町」は日本の商店街名という関連があるほか、「イルミネーション」「ラーメン」という関連があることになる。
次に、ステップS1102では、共通関連ワードZs’を有する未処理の主題キーワードXがあるかどうかを判定する。共通関連ワードZs’がある場合、ステップ1103に進み、共通関連ワードZs’がない場合、主題キーワードに対して共通部分が存在しないので、以降の定常性判定処理を行わずに終了する。
ステップS1103では、未処理の主題キーワードXに対する配信元URL Uを取得する。すなわち、共通関連ワードZs’を含む時事ネットワークを作成するのに使われた文書群の配信元URLをキーワード展開部106から取得する。
ステップS1103では、未処理の主題キーワードXに対する配信元URL Uを取得する。すなわち、共通関連ワードZs’を含む時事ネットワークを作成するのに使われた文書群の配信元URLをキーワード展開部106から取得する。
ステップS1104では、ステップS1103で取得した配信元URL Uに対し、未処理の関連ワードZ’があるかどうかを判定する。ここでの未処理とは、時事ネットワークに含まれるキーワードのうち、主題キーワードXおよび共通関連ワードZs’ではないキーワードに対して処理がおこなわれていないことを指す。具体的には、関連ワード集合Zsのうちオントロジ展開部108で生成した表Sには含まれない未処理の関連ワードZ’があるかどうかを判定する。例えば図3では、配信元URL201が「http://aaa」で、処理日時301が「2009/01/22 00:00:00」の時事ネットワーク302について、共通関連ワードZs’として、「銀座」と「大須」があるので、オントロジ展開部108で生成した表Sに含まれない未処理の関連ワードZ’として、「大売出し」「泥棒」が選択される。未処理の関連ワードZ’がある場合、それを取得してステップS1105へ進み、未処理の関連ワードZ’がない場合、ステップS1102へ戻り、ステップS1102からステップS1104までの処理を繰り返す。
ステップS1105では、配信元URL Uの時事ネットワークに対し、関連ワードZ’の出現頻度分布を算出する。ただし、時事ネットワークにおける出現頻度は0または1の値しかとらない、すなわち時事ネットワークに出現しているかどうかであるため、後述する検定において判定が難しいことがある。そこで、時事ネットワーク作成に用いられた文書群における出現頻度を算出するようにしてもよい。これは外部にあるメモリからキーワード抽出部105がキーワードの抽出に使用した文書群を参照して、関連ワードZ’の出現頻度分布を算出してもよい。また、時事ネットワーク格納部103に時事ネットワークだけではなく、時事性判定部102が作成する際に用いた101からのすべての文書群も保持しておき、この文書群を参照して関連ワードZ’の出現頻度分布を計算してもよい。
ステップS1106では、関連ワードZ’の出現頻度分布と一様分布との差(以下、距離ともいう)を計算する。距離の計算は、K−L divergenceなどの手法を用いればよい。関連ワードZ’の出現頻度分布の一例として、「大売出し」「イルミネーション」「泥棒」の各関連ワードの出現頻度分布を図12を参照して説明する。
時事性判定部102における時事性判定処理と同じように、長期的な出現確率は一様分布に従っていると仮定し「実際の出現頻度分布も平均が同じ一様分布に従う」という帰無仮説の検定を行うことでキーワードの定常性を判定する。具体的に、例えば図12の場合、(a)「大売出し」は、すべての期間において平均して出現しているので、各時刻における出現頻度と一様分布との距離が小さくなる。一方(b)「イルミネーション」および(c)「泥棒」は、出現する回数が局所的にあるのみで一様分布はほぼ0に近くなり、出現頻度と一様分布との距離が大きくなる。
時事性判定部102における時事性判定処理と同じように、長期的な出現確率は一様分布に従っていると仮定し「実際の出現頻度分布も平均が同じ一様分布に従う」という帰無仮説の検定を行うことでキーワードの定常性を判定する。具体的に、例えば図12の場合、(a)「大売出し」は、すべての期間において平均して出現しているので、各時刻における出現頻度と一様分布との距離が小さくなる。一方(b)「イルミネーション」および(c)「泥棒」は、出現する回数が局所的にあるのみで一様分布はほぼ0に近くなり、出現頻度と一様分布との距離が大きくなる。
ステップS1107では、ステップS1106において計算した出現頻度分布と一様分布との距離を用いて閾値より小さいかどうかで定常性を判定する。距離が閾値よりも大きければ突発的であると判定し、距離が閾値以下であれば定常的であると判定する。例えば図12の場合、(a)「大売出し」は、出現頻度と一様分布との距離が小さいので閾値以下であれば、関連ワードは定常的であると判定される。(b)「イルミネーション」および(c)「泥棒」は、出現頻度と一様分布との距離が大きいので閾値より大きければ、関連ワードは突発的であると判定される。判定後はステップS1101へ戻り、ステップS1101からステップS1107までの処理を未処理の主題キーワードXが無くなるまで繰り返す。
次に、クエリ生成部111におけるクエリ生成処理について図13のフローチャートを用いて詳細に説明する。定常性判定部110で定常的であると判定された関連ワードは、いつでも起こっている事象であり過去に遡って関連コンテンツを提示しても利用者は関心を持ちづらい。逆に突発的であると判定された関連ワードは、あまり起こらない事象であり利用者の関心を持つ可能性があるという点で、過去に遡って関連コンテンツを提示する意味がある。
初めに、ステップS1301では、未処理の主題キーワードXがあるかどうかを判定する。未処理の主題キーワードXがある場合、取得してステップS1302へ進む。未処理の主題キーワードXがない場合、クエリ生成処理を終了する。
次に、ステップS1302では、共通関連ワードZs’のうち、表Sには含まれない未処理の関連ワードZ’があるかどうかを判定する。関連ワードZ’がある場合、ステップS1303に進む。関連ワードZ’がない場合、クエリ生成処理を終了する。
次に、ステップS1303では、関連ワードZ’が突発的であるか定常的であるかを判定する。この判定は定常性判定部110で行われた処理結果を参照すればよい。関連ワードZ’が突発的である場合、ステップS1304に進み、関連ワードZ’が定常的である場合、ステップS1306に進む。
ステップS1304では、関連ワードZ’と元々の主題キーワードX、および表Tに含まれる共通関連ワードZs’を組み合わせた「X and Zs’ and Z’」をクエリ文字列として生成し、検索対象のコンテンツの作成日時として時刻に関する条件に加えないようにする。これは、突発的な事象の場合はそれだけで利用者の興味を引くことができる可能性が高いので、過去のすべての関連コンテンツを提示するためである。ここでの関連ワードZは時事ネットワーク全部に含まれるキーワードを示す。
ステップS1305では、ステップS1304でクエリ処理した結果に対し、関連性の理由を付与する。例えば、「過去Z’で話題であったXとZs’に関するコンテンツ」というテキストを作成する。そして突発的な関連ワードZ’についての処理を終了し、ステップS1301に戻り未処理の主題キーワードXについて同様に処理を繰り返す。
ステップS1306では、定常的であると判定された関連ワードZ’が時刻M=0、つまり最新の処理日時の時事ネットワークに出現しているかどうかを判定する。これは、定常的な関連ワードは過去から常時出現しており、最新の処理日時でその関連ワードが話題でなければ、新たに利用者の関心を引くことは少なく、最新の処理日時よりも過去の事象を検索する意味が薄いと考えられるので、最新の処理日時より過去に遡ってまで関連コンテンツを提示しないようにするためである。最新の処理日時の時事ネットワークに出現している場合は、ステップS1307に進む。最新の処理日時の時事ネットワークに出現していない場合は、クエリ生成処理を行わずに、ステップS1302へ戻り同様の処理を繰り返す。
ステップS1307では、検索対象のコンテンツ作成日時として時刻M=0を条件に加えて、そして関連ワードZ’と元々の主題キーワードX、および表Tに含まれる共通関連ワードZs’を組み合わせた「X and Zs’ and Z’」クエリ文字列として生成する。ここでの関連ワードZはオントロジに含まれる全部のキーワードを示す。
ステップS1308では、ステップS1307でクエリ処理した結果に対し、関連性の理由を付与する。例えば、「現在Z’で話題であったXとZs’に関するコンテンツ」というテキストを作成する。そして定常的な関連ワードZ’についての処理を終了し、ステップS1301に戻り未処理の主題キーワードXについて同様に処理を繰り返す。
図12の例の場合、定常性判定処理で、定常的であると判定された関連ワード「大売出し」は時刻M=0、すなわち、最新の処理日時の時事ネットワークに出現しているためクエリ生成処理を継続する。そして、時刻M=0のコンテンツを対象に「銀座 and 大須 and 大売出し」で検索を行い、関連性の理由として「現在大売出しで話題である銀座と大須に関するコンテンツ」と利用者に提示することになる。なお関連性の理由において、「銀座」と「大須」は「日本の商店街名」というオントロジによる関連があるため、それを明示して「現在大売出しで話題である日本の商店街銀座と大須に関するコンテンツ」としてもよい。
一方、定常性判定処理で、突発的であると判定された「イルミネーション」「泥棒」のそれぞれの場合は、過去のすべての関連コンテンツを提示するため時刻に関する条件に加えずに、「銀座 and 元町 and イルミネーション」「銀座 and 元町 and 泥棒」で検索を行う。また検索結果のコンテンツを提示するときの関連性の理由として、「過去イルミネーションで話題であった銀座と元町に関するコンテンツ」「過去泥棒で話題であった銀座と元町に関するコンテンツ」と利用者に提示することになる。
最後に、関連性の提示方法の一例について図14を用いて詳細に説明する。図14に示すように、関連性の提示方法としてここでは3つの例を挙げる。
図14(a)は、推薦完了のアイコンのみを表示する。例えば、利用者がコンテンツを見ているのをなるべく妨げずに推薦するために、主題キーワードに対して推薦コンテンツが取得できた場合のみ画面の下部などに「推薦完了」アイコンを表示する。そして、利用者が明示的にクリックしたときのみ推薦画面を表示する。
図14(b)は、コンテンツの閲覧画面の隅に推薦コンテンツの関連性の理由またはスニペットを表示する。そして、利用者が明示的にクリックしたときのみ推薦画面を表示する。
図14(c)は、常に推薦コンテンツを表示する。これは、利用者が推薦対象を絶対に見逃したくないと望んでいる場合に有効であり、推薦コンテンツを表示する領域をあらかじめ確保しておき、常に推薦コンテンツを表示する。
図14(a)は、推薦完了のアイコンのみを表示する。例えば、利用者がコンテンツを見ているのをなるべく妨げずに推薦するために、主題キーワードに対して推薦コンテンツが取得できた場合のみ画面の下部などに「推薦完了」アイコンを表示する。そして、利用者が明示的にクリックしたときのみ推薦画面を表示する。
図14(b)は、コンテンツの閲覧画面の隅に推薦コンテンツの関連性の理由またはスニペットを表示する。そして、利用者が明示的にクリックしたときのみ推薦画面を表示する。
図14(c)は、常に推薦コンテンツを表示する。これは、利用者が推薦対象を絶対に見逃したくないと望んでいる場合に有効であり、推薦コンテンツを表示する領域をあらかじめ確保しておき、常に推薦コンテンツを表示する。
これらの表示方法は、あらかじめ利用者がシステムに対して設定しておいてもよいし、利用者が閲覧しているデバイスの種別や推薦コンテンツの種別などに応じて自動的に切り替えてもよい。なお、これらの提示方法に限らず、例えば音声による通知といった、利用者が関連性の提示を認知できる方法であればよい。
さらに、関連ワードZ’が突発的であると判定された場合は、強制的に利用者の関心をずらすために、主題キーワードを含めない「Zs’ and Z’」をクエリ文字列とし、関連性の理由を「過去XのようにZ’で話題であったZs’に関連するコンテンツ」などと表示してもよい。通常この場合はクエリ文字列に主題キーワードXが含まれないため、検索結果のコンテンツだけを見ると、利用者は現在閲覧中のコンテンツとの関連性がわかりづらいが、本実施形態による関連性の理由提示を行うことによって利用者にとって関連性がわかりやすい提示を実現することができる。
以上に示した実施形態によれば、関連性の見えにくい突発的な事象を表すキーワードについても、関連性の理由を明示的に表示することによって、利用者の関心を強制的にずらすことができ、関連性が見えやすい適切なクエリ拡張、コンテンツ検索を行うことが可能となり、関連性がわかりやすい提示を実現することができる。
本発明に係る関連例提示装置は、ユーザがコンテンツ検索する検索装置で利用される。
100・・・関連性提示装置、101・・・文書収集部、102・・・時事性判定部、103・・・時事ネットワーク格納部、104・・・webページ表示部、105・・・キーワード抽出部、106・・・キーワード展開部、107・・・時事性展開部、108・・・オントロジ展開部、109・・・オントロジ格納部、110・・・定常性判定部、111・・・クエリ生成部、201・・・配信元URL、202・・・種別、203・・・収集間隔、301・・・処理日時、302・・・時事ネットワーク。
Claims (7)
- 第1キーワード間の共起関係に基づいて、時事に関する該第1キーワードをクラスタリングしたネットワークである時事ネットワークを複数格納する第1格納部と、
第2キーワード間の概念上のつながりを階層的に表現し、上層ほど上位概念に対応するネットワークであり、該第2キーワードがノードを示すオントロジを格納する第2格納部と、
文書中から該文書内容の話題となる主題キーワードを抽出する抽出部と、
前記主題キーワードが含まれる前記時事ネットワークから、該時事ネットワークに含まれる該主題キーワード以外の前記第1キーワードを第1関連ワードとして少なくとも1つ以上得る第1展開部と、
前記主題キーワードを前記オントロジ上で検索し、該オントロジ上に該主題キーワードがある場合、同一階層のノードを取得し、該同一階層にある該ノードをすべて取得しても取得したノードの数が第1閾値に達しない場合、該数が該第1閾値に達するまで1つ上の階層にあるノードを取得する第2展開部と、
前記第1関連ワードおよび前記第2展開部で取得したノードに共通するキーワードを共通関連ワードとして抽出し、前記共通関連ワードを含む時事ネットワークのキーワードのうち前記第2展開部で取得したノードには含まれないキーワードを示す第2関連ワードの、出現頻度が定常であるかどうかを判定する判定部と、
前記出現頻度が定常であるかどうかに基づいて検索クエリを生成し、コンテンツの検索結果および該コンテンツの関連性の理由を生成する生成部と、を具備することを特徴とする関連性提示装置。 - 前記判定部は、前記第2関連ワードの出現頻度分布と該第2関連ワードの一様分布との距離が第2閾値以下であれば定常的であると判定し、該距離が該第2閾値よりも大きければ定常的でないと判定することを特徴とする請求項1に記載の関連性提示装置。
- 日時情報を持つ文書群の収集を行う収集部と、
前記第1キーワードの出現頻度分布を生成することで時事性を判定し、前記第1キーワードを得る判定部と、をさらに具備することを特徴とする請求項1に記載の関連性提示装置。 - 前記抽出部は、利用者がコンテンツを閲覧するたびに該コンテンツに含まれるテキストから、前記主題キーワードを抽出することを特徴とする請求項1に記載の関連性提示装置。
- 前記生成部は、前記第2関連ワードが突発的であると判定された場合は、第1格納部が格納する最新の時事ネットワークを生成した時刻と最新の1つ前に生成した時事ネットワークを生成した時刻との差である期間ごとに、該第2関連ワードを含む前記時事ネットワークを遡って検索クエリを生成し、該第2関連ワードが定常的であると判定された場合は、該第2関連ワードが該最新の時事ネットワークに含まれる場合のみ検索クエリを生成し、検索されたコンテンツごとに前記理由を合わせて提示することを特徴とする請求項1に記載の関連性提示装置。
- 第1格納部が、第1キーワード間の共起関係に基づいて、時事に関する該第1キーワードをクラスタリングしたネットワークである時事ネットワークを複数格納し、
第2格納部が、第2キーワード間の概念上のつながりを階層的に表現し、上層ほど上位概念に対応するネットワークであり、該第2キーワードがノードを示すオントロジを格納し、
抽出部が、文書中から該文書内容の話題となる主題キーワードを抽出し、
第1展開部が、前記主題キーワードが含まれる前記時事ネットワークから、該時事ネットワークに含まれる該主題キーワード以外の前記第1キーワードを第1関連ワードとして少なくとも1つ以上得、
第2展開部が、前記主題キーワードを前記オントロジ上で検索し、該オントロジ上に該主題キーワードがある場合、同一階層のノードを取得し、該同一階層にある該ノードをすべて取得しても取得したノードの数が第1閾値に達しない場合、該数が該第1閾値に達するまで1つ上の階層にあるノードを取得し、
判定部が、前記第1関連ワードおよび前記第2展開部が取得したノードに共通するキーワードを共通関連ワードとして抽出し、前記共通関連ワードを含む時事ネットワークのキーワードのうち前記第2展開部が取得したノードには含まれないキーワードを示す第2関連ワードの、出現頻度が定常であるかどうかを判定し、
生成部が、前記出現頻度が定常であるかどうかに基づいて検索クエリを生成し、コンテンツの検索結果および該コンテンツの関連性の理由を生成することを特徴とする関連性提示方法。 - コンピュータを、
第1キーワード間の共起関係に基づいて、時事に関する該第1キーワードをクラスタリングしたネットワークである時事ネットワークを複数格納する第1格納手段と、
第2キーワード間の概念上のつながりを階層的に表現し、上層ほど上位概念に対応するネットワークであり、該第2キーワードがノードを示すオントロジを格納する第2格納手段と、
文書中から該文書内容の話題となる主題キーワードを抽出する抽出手段と、
前記主題キーワードが含まれる前記時事ネットワークから、該時事ネットワークに含まれる該主題キーワード以外の前記第1キーワードを第1関連ワードとして少なくとも1つ以上得る第1展開手段と、
前記主題キーワードを前記オントロジ上で検索し、該オントロジ上に該主題キーワードがある場合、同一階層のノードを取得し、該同一階層にある該ノードをすべて取得しても取得したノードの数が第1閾値に達しない場合、該数が該第1閾値に達するまで1つ上の階層にあるノードを取得する第2展開手段と、
前記第1関連ワードおよび前記第2展開手段が取得したノードに共通するキーワードを共通関連ワードとして抽出し、前記共通関連ワードを含む時事ネットワークのキーワードのうち前記第2展開手段が取得したノードには含まれないキーワードを示す第2関連ワードの、出現頻度が定常であるかどうかを判定する判定手段と、
前記出現頻度が定常であるかどうかに基づいて検索クエリを生成し、コンテンツの検索結果および該コンテンツの関連性の理由を生成する生成手段として機能させるための関連性提示プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2009/063366 WO2011013191A1 (ja) | 2009-07-27 | 2009-07-27 | 関連性提示装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011013191A1 JPWO2011013191A1 (ja) | 2013-01-07 |
JP5289573B2 true JP5289573B2 (ja) | 2013-09-11 |
Family
ID=43528868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011524553A Expired - Fee Related JP5289573B2 (ja) | 2009-07-27 | 2009-07-27 | 関連性提示装置、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8452760B2 (ja) |
JP (1) | JP5289573B2 (ja) |
WO (1) | WO2011013191A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8954434B2 (en) * | 2010-01-08 | 2015-02-10 | Microsoft Corporation | Enhancing a document with supplemental information from another document |
JP5347083B2 (ja) * | 2011-09-29 | 2013-11-20 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体 |
JP5676552B2 (ja) * | 2012-12-17 | 2015-02-25 | 日本電信電話株式会社 | デイリーワード抽出装置、方法、及びプログラム |
CN103258045B (zh) * | 2013-05-24 | 2016-12-28 | 百度在线网络技术(北京)有限公司 | 推荐内容确定系统和方法 |
JP5522813B1 (ja) * | 2013-10-18 | 2014-06-18 | 株式会社エーエヌラボ | 情報抽出装置及び情報抽出プログラム |
US20150222958A1 (en) * | 2014-01-31 | 2015-08-06 | Kabushiki Kaisha Toshiba | Data display apparatus and data display method |
KR102244298B1 (ko) * | 2014-04-30 | 2021-04-23 | 삼성전자주식회사 | 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법 |
JP6632796B2 (ja) * | 2014-10-14 | 2020-01-22 | Kddi株式会社 | データベース評価装置、方法及びプログラム、並びにデータベース分割装置、方法及びプログラム |
US9721026B1 (en) | 2016-07-27 | 2017-08-01 | Searchmetrics Gmbh | Systems for topic exploration and related methods |
KR101958729B1 (ko) * | 2017-04-06 | 2019-03-18 | 네이버 주식회사 | 주제별 질의의 서브토픽 자동 추출 및 구조화 |
US10872107B2 (en) * | 2017-06-30 | 2020-12-22 | Keysight Technologies, Inc. | Document search system for specialized technical documents |
US10909210B2 (en) * | 2018-03-22 | 2021-02-02 | Ovh | Method and system for defining a web site development strategy |
US11042601B2 (en) * | 2018-11-15 | 2021-06-22 | Ovh | Method for attracting users to a web page and server implementing the method |
US11526565B2 (en) | 2019-04-05 | 2022-12-13 | Ovh | Method of and system for clustering search queries |
JP2022079010A (ja) * | 2020-11-15 | 2022-05-26 | 株式会社Personal AI | 情報選択支援システム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108937A (ja) * | 2000-09-27 | 2002-04-12 | Tsukuba Multimedia:Kk | インターネット最新トレンド解析及び表示システム |
JP2003108597A (ja) * | 2001-09-27 | 2003-04-11 | Toshiba Corp | 情報検索システム、情報検索方法及び情報検索プログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
JP2006338508A (ja) | 2005-06-03 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 関連コンテンツ探索装置及び方法 |
US7917519B2 (en) * | 2005-10-26 | 2011-03-29 | Sizatola, Llc | Categorized document bases |
US8036876B2 (en) * | 2005-11-04 | 2011-10-11 | Battelle Memorial Institute | Methods of defining ontologies, word disambiguation methods, computer systems, and articles of manufacture |
JP4807881B2 (ja) | 2006-12-19 | 2011-11-02 | 日本電信電話株式会社 | 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体 |
WO2009059297A1 (en) * | 2007-11-01 | 2009-05-07 | Textdigger, Inc. | Method and apparatus for automated tag generation for digital content |
US7831588B2 (en) * | 2008-02-05 | 2010-11-09 | Yahoo! Inc. | Context-sensitive query expansion |
JP5355949B2 (ja) | 2008-07-16 | 2013-11-27 | 株式会社東芝 | 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム |
US20110004588A1 (en) * | 2009-05-11 | 2011-01-06 | iMedix Inc. | Method for enhancing the performance of a medical search engine based on semantic analysis and user feedback |
WO2011160140A1 (en) * | 2010-06-18 | 2011-12-22 | Susan Bennett | System and method of semantic based searching |
-
2009
- 2009-07-27 WO PCT/JP2009/063366 patent/WO2011013191A1/ja active Application Filing
- 2009-07-27 JP JP2011524553A patent/JP5289573B2/ja not_active Expired - Fee Related
-
2012
- 2012-01-25 US US13/357,637 patent/US8452760B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108937A (ja) * | 2000-09-27 | 2002-04-12 | Tsukuba Multimedia:Kk | インターネット最新トレンド解析及び表示システム |
JP2003108597A (ja) * | 2001-09-27 | 2003-04-11 | Toshiba Corp | 情報検索システム、情報検索方法及び情報検索プログラム |
Non-Patent Citations (4)
Title |
---|
CSNG200501369001; 佐藤吉秀 他: '時系列ニュース記事における最新話題語抽出方法' 情報処理学会研究報告 Vol.2005,No.73, 20050722, p.1-6, 社団法人情報処理学会 * |
CSNG200800588015; 菊池匡晃 他: '階層型クラスタリングを用いた時系列テキスト集合からの話題推移抽出' Journal of the DBSJ Vol.7,No.1, 20080627, p.85-90, 日本データベース学会 * |
JPN6013007039; 菊池匡晃 他: '階層型クラスタリングを用いた時系列テキスト集合からの話題推移抽出' Journal of the DBSJ Vol.7,No.1, 20080627, p.85-90, 日本データベース学会 * |
JPN6013007040; 佐藤吉秀 他: '時系列ニュース記事における最新話題語抽出方法' 情報処理学会研究報告 Vol.2005,No.73, 20050722, p.1-6, 社団法人情報処理学会 * |
Also Published As
Publication number | Publication date |
---|---|
US20120185466A1 (en) | 2012-07-19 |
WO2011013191A1 (ja) | 2011-02-03 |
US8452760B2 (en) | 2013-05-28 |
JPWO2011013191A1 (ja) | 2013-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5289573B2 (ja) | 関連性提示装置、方法およびプログラム | |
JP5608286B2 (ja) | 無限ブラウズ | |
CN109033358B (zh) | 新闻聚合与智能实体关联的方法 | |
TWI493367B (zh) | 搜尋結果之先進過濾方法 | |
JP5921570B2 (ja) | 環境入力に基づいて情報を提供するために、知識表現を使用するシステム及び方法 | |
CN104111941B (zh) | 信息展示的方法及设备 | |
JP2011529600A (ja) | 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置 | |
JP2004348241A (ja) | 情報提供方法、サーバ及びプログラム | |
CN110633406B (zh) | 事件专题的生成方法、装置、存储介质和终端设备 | |
JP6429382B2 (ja) | コンテンツ推薦装置、及びプログラム | |
EP3008645A1 (en) | News results through query expansion | |
CN107463592B (zh) | 用于将内容项目与图像匹配的方法、设备和数据处理系统 | |
EP3642739A1 (en) | Methods and systems for identifying markers of coordinated activity in social media movements | |
JP2010225115A (ja) | コンテンツ推薦装置及び方法 | |
US20090043737A1 (en) | Systems and methods for providing a multi-function search box for creating word pages | |
US20130031458A1 (en) | Hyperlocal content determination | |
Zhang et al. | An approach of service discovery based on service goal clustering | |
Kim et al. | TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme | |
Bok et al. | Efficient graph-based event detection scheme on social media | |
Spitz et al. | Topexnet: entity-centric network topic exploration in news streams | |
Wasim et al. | Extracting and modeling user interests based on social media | |
Fung et al. | Discover information and knowledge from websites using an integrated summarization and visualization framework | |
JP2012242892A (ja) | 推薦データ成形方法、推薦データ成形装置および推薦データ成形プログラム | |
Yang et al. | KOSMOS: Knowledge-graph oriented social media and mainstream media overview system | |
Saleheen et al. | User centric dynamic web information visualization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130604 |
|
LAPS | Cancellation because of no payment of annual fees |