JP5341366B2 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP5341366B2
JP5341366B2 JP2008048270A JP2008048270A JP5341366B2 JP 5341366 B2 JP5341366 B2 JP 5341366B2 JP 2008048270 A JP2008048270 A JP 2008048270A JP 2008048270 A JP2008048270 A JP 2008048270A JP 5341366 B2 JP5341366 B2 JP 5341366B2
Authority
JP
Japan
Prior art keywords
associative
topics
degree
topic
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008048270A
Other languages
English (en)
Other versions
JP2009205517A (ja
Inventor
伸一 長野
真純 稲葉
祐美子 下郡
隆浩 川村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008048270A priority Critical patent/JP5341366B2/ja
Publication of JP2009205517A publication Critical patent/JP2009205517A/ja
Application granted granted Critical
Publication of JP5341366B2 publication Critical patent/JP5341366B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、特定のトピックに関する文書から、この特定のトピックに関連する他のトピックを抽出することが可能な情報処理装置及び情報処理方法に関する。
近時、ブログ(ウェブログ)やSNS(Social Network Service)等の消費者作成メディア(CGM:Consumer Generated Media)での口コミを参考にして、商品を購入する消費者が増えてきている。そのため、マーケティングの分野では、CGMを対象とした口コミマーケティングが重要になってきている。
CGMにおける口コミの分析は、基本的にCGMのテキストデータに対し自然言語処理を施すことで行われている。また、最近は分析結果の視覚化への要求が高まりつつあり、分析対象商品と比較されている関連商品や話題商品を抽出し、分析対象商品と対比させてポジショニングを分析することが行われている。以下、あるトピック(商品)について書かれた文書集合において、これら文書集合中に出現する関連商品や話題商品等の特徴的な語(商品名)を連想トピックと呼ぶ。
また従来、連想トピック間の表記の揺れ等を吸収するため、複数の連想トピックのうち、類似性を有する語や共起関係にある語の集合を複数の部分集合(クラスタ)に分割(clusterring)して利用することが行われている。例えば、非特許文献1には、語(用語)群の分割手法として、以下二つの手法が挙げられている。
1.語w1と語w2の他の語との共起の分布が似ていれば、同じクラスタとする手法。
2.語w1と語w2が頻繁に共起していれば、同じクラスタとする手法。
松尾豊、石塚満:語の共起の統計情報に基づく文書からのキーワード抽出アルゴリズム、人工知能学会誌、Vol.17、No.3、pp.213−227、2002.
しかしながら、連想トピックの中には、品詞、意味、分類の異なる語彙が含まれているためノイズが多く、従来の分割手法では扱いづらいという問題がある。特に、商品に特化した連想トピックの分析を行う場合、同じ商品分野の競合製品とそうでない製品とは共起の度合いが高くても、両製品を別のクラスタに分割することが望まれるが、上述した従来の手法では、共起間の関係にのみ基づいて分割を行うため対応することができないという問題がある。
本発明は上記に鑑みてなされたものであって、特定のトピックに関する文書から抽出した連想トピックの集合を、有意の単位で複数の部分集合に分割することが可能な情報処理装置及び情報処理方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、複数の語を夫々表すインスタンスを当該インスタンスが属するクラスと対応付けて定義するとともに、前記インスタンス間の関連性を当該インスタンス間の距離により定義したオントロジを記憶する記憶手段と、特定のトピックに関する複数の文書中に含まれた各語のうち、出現する頻度が所定の閾値以上となる各語を、当該特定のトピックに関連する連想トピックの集合として抽出する抽出手段と、前記連想トピックの集合の何れか二つの連想トピックの組毎に、当該連想トピックの組が同一の前記文書中に出現する頻度を共起度として夫々算出する第1算出手段と、前記連想トピックの集合の何れか二つの連想トピックの組毎に、当該連想トピックの組の各語を表す前記インスタンス間の距離を概念距離として夫々算出する第2算出手段と、前記連想トピックの組毎の共起度と概念距離とに基づいて、前記連想トピックの集合を複数の部分集合に分割する分割手段と、を備えたことを特徴とする。
また、本発明は、語の集合を複数の部分集合に分割する情報処理装置の情報処理方法であって、前記情報処理装置は、複数の語を夫々表すインスタンスを当該インスタンスが属するクラスと対応付けて定義するとともに、前記インスタンス間の関連性を当該インスタンス間の距離により定義したオントロジを記憶する記憶手段を備え、抽出手段が、特定のトピックに関する複数の文書中に含まれた各語のうち、出現する頻度が所定の閾値以上となる各語を、当該特定のトピックに関連する連想トピックの集合として抽出する抽出工程と、第1算出手段が、前記連想トピックの集合の何れか二つの連想トピックの組毎に、当該連想トピックの組が同一の前記文書中に出現する頻度を共起度として夫々算出する第1算出工程と、第2算出手段が、前記連想トピックの集合の何れか二つの連想トピックの組毎に、当該連想トピックの組の各語を表す前記インスタンス間の距離を概念距離として夫々算出する第2算出工程と、分割手段が、前記連想トピックの組毎の共起度と概念距離とに基づいて、前記連想トピックの集合を複数の部分集合に分割する分割工程と、を含むことを特徴とする。
本発明によれば、特定のトピックに関する文書から抽出した連想トピックの集合を、各連想トピック間の共起度と概念距離とに基づいて、複数の部分集合に分割することができるため、連想トピックの集合を有意の単位に分割することができる。
以下に添付図面を参照して、本発明にかかる情報処理装置及び情報処理方法の最良な実施形態を詳細に説明する。なお、以下では本発明にかかる情報処理装置及び情報処理方法をサーバ装置(連想トピック抽出サーバ10)に適用した例を説明するが、本発明が適用される対象はこの例に限定されないものとする。
図1は、情報提供システム100の構成を示したブロック図である。同図に示したように、情報提供システム100は、連想トピック抽出サーバ10と、クライアント端末20と、ブログ検索サーバ30と、複数のブログサイト40とを有しており、各装置はインターネット等のネットワークNを介して通信可能に接続されている。なお、ネットワークNに接続される各装置の個数は特に問わないものとする。
連想トピック抽出サーバ10は、クライアント端末20から送信される、分析対象となる特定のトピックを表したキーワード(例えば、特定の商品名等)に応じ、当該キーワードに関連する連想トピックの集合を、関連する連想トピック間の部分集合に分割した状態で提供するサーバ装置である。以下、連想トピック抽出サーバ10について詳細に説明する。
図2は、連想トピック抽出サーバ10のハードウェア構成を示したブロック図である。図2に示したように、連想トピック抽出サーバ10は、CPU(Central Processing Unit)11と、操作部12と、表示部13と、ROM(Read Only Memory)14と、RAM(Random Access Memory)15と、通信部16と、記憶部17とを備え、各部はバス18により接続されている。
CPU11は、RAM15の所定領域を作業領域として、ROM14又は記憶部17に予め記憶された各種制御プログラムとの協働により各種処理を実行し、連想トピック抽出サーバ10を構成する各部の動作を統括的に制御する。
また、CPU11は、ROM14又は記憶部17に予め記憶された所定のプログラムとの協働により、後述する各機能部(ブログ記事収集部111、トピック抽出部112、共起度算出部113、概念距離算出部114、競合度・相関度算出部115、クラスタリング部116、情報提供部117)の機能を実現させる。なお、各機能部の動作については後述する。
操作部12は、キーボードやマウス等の各種入力デバイスを備え、ユーザから操作入力された情報を指示信号として受け付け、その指示信号をCPU11に出力する。表示部13は、LCD(Liquid Crystal Display)等の表示デバイスを備え、CPU11からの表示信号に基づいて、各種情報を表示する。なお、表示部13は、操作部12と一体的にタッチパネルを構成する態様としてもよい。
ROM14は、連想トピック抽出サーバ10の制御にかかるプログラムや各種設定情報等を書き換え不可能に記憶する。RAM15は、SDRAM等の記憶手段であって、CPU11の作業領域として機能し、バッファの役割を果たす。通信部16は、ネットワークNを通じ外部の機器との間で通信を行うインタフェースである。
記憶部17は、磁気的又は光学的に記録可能な記憶媒体を有し、連想トピック抽出サーバ10の制御にかかるプログラムや各種設定情報等を書き換え可能に記憶する。また、記憶部17は、複数の商品名を夫々表すインスタンスを当該インスタンスが属するクラスと対応付けて定義するとともに、各インスタンス間の関連性をインスタンス間の距離、即ち、各インスタンスが属するクラス間の距離により定義した商品オントロジ171を予め記憶している。以下、商品オントロジ171について説明する。
商品オントロジ171は、オントロジ技術を利用したデータモデルにより構成されるツリー構造状のデータ群である。ここで「オントロジ」とは、対象世界を特定の観点から知識表現言語を用いてモデリングしたものであって、言葉の持つ概念(コンセプト)を体系的に整理したものである。概念には主にクラスとインスタンスの2種類が用いられ、クラスは概念の分類名を、インスタンスは概念の実例を表す。
図3は、商品オントロジ171の一例を模式的に示した図である。同図では、オントロジの対象を自動車としており、自動車の種別に基づいてクラス分けが行われている。
図3に示したように、商品オントロジ171は、4つのクラスC1〜C4と、9つのインスタンスI1〜I9とから構成されている。ここで、クラスC2〜C4は車種を表しており、“セダン”、“ミニバン”、“SUV(Sport Utility Vehicle)”が夫々定義されている。なお、クラスC1は商品オントロジ171のルートとなるクラスであって、本商品オントロジ171において最も上位概念となる“自動車”が定義されている。
また、インスタンスI1〜I9は各クラス(車種)に属する具体的な車名を夫々表している。例えば、クラスC2(セダン)に属する車名として“Car1”、“Car2”、“Car3”がインスタンスI1〜I3に夫々定義されている。また、クラスC3(ミニバン)に属する車名として“Car5”、“Car6”、“Car7”がインスタンスI4〜I6に夫々定義されている。また、クラスC4(SUV)に属する車名として“Car4”、“Car8”、“Car9”がインスタンスI7〜I9に夫々定義されている。なお、記憶部17に記憶される商品オントロジ171の態様は、図3の例に限定されず、自動車以外の商品や、商品以外の他の対象物について作成された商品オントロジ171を記憶することとしてもよい。
次に図4を参照して、CPU11とROM14又は記憶部17に記憶された所定のプログラムとの協働により実現される連想トピック抽出サーバ10の各機能部について説明する。
図4は、連想トピック抽出サーバ10の機能構成を示したブロック図である。同図に示したように、連想トピック抽出サーバ10は、ブログ記事収集部111と、トピック抽出部112と、共起度算出部113と、概念距離算出部114と、競合度・相関度算出部115と、クラスタリング部116と、情報提供部117とを備えている。
ブログ記事収集部111は、分析対象となる特定のトピックを表したキーワードを含む分析要求をクライアント端末20から受け付け、このキーワードを検索キーとしてブログ検索サーバ30に送信することで、当該キーワードに関係するブログ記事の取得先となるブログサイト40のURL(Uniform Resource Locator)の一覧を、ブログ検索サーバ30から取得する。
また、ブログ記事収集部111は、ブログ検索サーバ30から取得した各URLが示すブログサイト40のブログ記事にアクセスすることで、分析対象とされたトピック(キーワード)に関係するブログ記事を収集し、RAM15や記憶部17等の記憶装置に保持する。
なお、本実施形態では、ブログ記事の検索をブログ検索サーバ30が行う構成としているが、これに限らず、例えば、連想トピック抽出サーバ10がブログ検索サーバ30の機能を備えることで、連想トピック抽出サーバ10内でブログ記事の検索を行う態様としてもよい。
トピック抽出部112は、ブログ記事収集部111により収集されたブログ記事を分析し、当該ブログ記事中から特徴的な各語を連想トピックとして夫々抽出する。具体的に、トピック抽出部112は、商品オントロジ171の各インスタンスに定義された商品名がブログ記事中に出現する頻度(ブログ記事数)を、これら商品名の話題度を測るスコアとして夫々算出する。そして、トピック抽出部112は、算出したスコアのうち、スコアの値が所定の閾値以上となる商品名を連想トピックとして夫々抽出する。
なお、連想トピック抽出の指標となる閾値は、任意の値を設定することが可能であるとする。また、スコア算出の際に、各ブログ記事に付与されたトラックバックやコメントの数に応じたスコアの重み付けを行うこととしてもよい。また、本実施形態では、商品オントロジ171の各インスタンスに定義された商品名に基づいて連想トピックを抽出する態様としたが、これに限らず、例えば、各ブログ記事に含まれた語(商品名)を比較し、その出現頻度が所定の閾値以上となる語を連想トピックとしてもよい。
共起度算出部113は、トピック抽出部112により抽出された連想トピックの集合のうち何れか二つの連想トピックの組毎に、当該連想トピックの組が、ブログ記事収集部111により収集された同一のブログ記事中に出現する頻度(ブログ記事数)を共起度として夫々算出する。
概念距離算出部114は、商品オントロジ171上における、各連想トピック間の概念距離を夫々算出する。ここで「概念距離」は、二つの連想トピックに対応するインスタンス間の距離を意味し、概念距離算出部114は、トピック抽出部112により抽出された連想トピックの集合の何れか二つの連想トピックの組毎に、概念距離を夫々算出する。概念距離の算出は、例えば、商品オントロジ171をグラフと見なしたときのインスタンス間のホップ数(クラス数)を用いて算出することができる。
なお、概念距離の算出については、公知の技術を用いてもよく、例えば、Yumiko Mizoguchi, Toshiaki Nakamoto, Kazuma Asakawa, Shinichi Nagano, Masumi Inaba, Takahiro Kawamura:TV Navigation Agent for Measuring Semantic Similarity Between Programs,Proc. of OTM Workshops 2007, pp.75-84, 2007に記載の技術を用いてもよい。
競合度・相関度算出部115は、共起度算出部113及び概念距離算出部114が、連想トピックの組毎に算出した共起度及び概念距離に基づいて、各連想トピック間の「競合度」及び「相関度」を夫々算出する。
ここで「競合度」は、二つの連想トピックが競合する度合いを表す指標であって、下記(1)式により、各連想トピック間の共起度及び概念距離から夫々算出される値である。
競合度=共起度×概念的近さ (1)
上記(1)式において、「概念的近さ」は、概念距離算出部114が算出した概念距離の逆数であって、概念的近さの値が大きくなるほど、連想トピック間の概念距離が近いことを意味する。すなわち、共起度がより高く且つ概念距離がより近くなる場合、二つの連想トピック間の競合度は高くなる。これにより、例えば、異なる二つの自動車メーカのセダン車の商品名(例えば、Car1、Car3)が、高い頻度で同一のブログ記事内に出現するような場合、両セダン車は競合度が高い商品と見なすことができる。
なお、本実施形態では、上記(1)式により競合度を求めることとしたが、この例に限らないものとする。例えば、共起度や概念距離に応じた重み付けを行うこととしてもよいし、共起度及び概念距離を用いた異なる式により競合度を算出してもよい。
一方、「相関度」は、二つの連想トピックが相関する度合いを表す指標であって、下記(2)式により、各連想トピック間の共起度及び概念距離から夫々算出される値である。
相関度=共起度/概念的近さ (2)
上記(2)式から明らかなように、共起度がより高く且つ概念距離がより遠くなる場合、二つの連想トピック間の相関度は高くなる。これにより、例えば、自動車メーカA社のセダン車(例えば、Car2)と、B社のSUV車(Car28)との商品名が、高い頻度で同一ブログ記事に出現するような場合、両者は車種が異なる(セダン車とSUV車)ため直接競合する商品ではないものの、乗り換えの需要等何らかの相関関係があると見なすことができる。
なお、本実施形態では、上記(2)式により相関度を求めることとしたが、この例に限らないものとする。例えば、共起度や概念距離に応じた重み付けを行うこととしてもよいし、共起度及び概念距離を用いた異なる式により相関度を算出してもよい。
図5は、連想トピック間における、共起度及び概念距離の関係を模式的に示した図である。同図において、縦軸は共起度を表している。なお、共起度算出部113が算出した共起度のうち、最大のものが“1”、最小のものが“0”となるよう正規化している。また、横軸は概念的近さを表している。なお、概念距離算出部114が算出した概念距離のうち、最も近くを表す概念距離の逆数が“1”、最も遠くを表す概念距離の逆数が“0”となるよう正規化している。
上述したように、共起度がより高く且つ概念距離がより近くなるほど、即ち、共起度及び概念的近さが“1”に近づくほど、二つの連想トピックは競合関係にあることが分かる(図中、領域A1参照)。また、共起度がより高く且つ概念距離がより遠くなるほど、即ち、共起度が“1”、概念的近さが“0”に近づくほど、二つの連想トピックは相関関係にあることが分かる(図中、領域A2参照)。
なお、本実施形態では、競合度が高い関係にある二つの連想トピックを同一の部分集合とし、相関度が低い関係にある二つの連想トピックを同一の部分集合とする。
つまり、この図5から、共起度がより高く、且つ、概念距離がより近い関係にある二つの連想トピック、即ち、領域A1の関係にある二つの連想トピックを、同一の部分集合にする。反対に、共起度がより低く、且つ、概念距離がより遠い関係にある二つの連想トピック、即ち、領域A4の関係にある二つの連想トピックが、互いに異なる部分集合に属するよう分割する。
また、同様に、共起度がより低く、且つ、概念距離がより近い関係にある二つの連想トピック、即ち、領域A3の関係にある二つの連想トピックを、同一の部分集合にする。反対に、共起度がより高く、且つ、概念距離がより遠い関係にある二つの連想トピック、即ち、領域A2の関係にある二つの連想トピックが、互いに異なる部分集合に属するよう分割する。
これらの方針に沿って部分集合を構築することで、連想トピックの集合を有意の単位で分割できる。なお、図5において、領域A1〜A4の位置及び大きさは一例であって、本主旨を逸脱しない範囲で変更することが可能である。
図6−1は、競合度・相関度算出部115により算出された各連想トピック間の競合度の一例を示した図である。また、図6−2は、競合度・相関度算出部115により算出された各連想トピック間の相関度の一例を示した図である。なお、図6−1、図6−2では、連想トピックの集合が{Car1、Car2、Car3、Car4、Car5、Car6、Car7}で表される場合を示している。例えば、図6−1では、Car1とCar2の競合度は0.07であり、図6−2では、Car1とCar2の相関度は0.007である。相関度算出部115は、各連想トピック間について算出した競合度及び相関度を、図6−1、図6−2で示したような形態でRAM15又は記憶部17の所定の領域に保持する。
図4に戻り、クラスタリング部116は、競合度・相関度算出部115により算出された各連想トピック間の競合度及び相関度に基づいて、連想トピックを部分集合に分割する。
具体的に、クラスタリング部116は、各連想トピックをノードで表すとともに、これらノード間を、両ノードに対応する連想トピックの競合度及び相関度を付加したエッジで夫々接続することで、グラフ(以下、クラスタグラフという)を生成する。そして、クラスタリング部116は、このクラスタグラフから競合度が最小のエッジ、相関度が最大のエッジを順次削除して行くことで、クラスタグラフを構成するノード(連想トピック)群を、所定数のノードから構成される部分集合(クラスタ)に分割する。以下、クラスタリング部116の動作について説明する。
図7は、クラスタリング部116により生成されたクラスタグラフの一例を模式的に示した図である。なお、図7は、図6−1に示した競合度と、図6−2に示した相関度の値を用いて作成したもので、連想トピックの集合が{Car1、Car2、Car3、Car4、Car5、Car6、Car7}で表される場合を示している。同図において、各連想トピックを表すノードを矩形により表しており、各連想トピックに対応する商品名を矩形内に示している。また、各ノードを繋ぐエッジに付加された二つの数値のうち、下方の数値は、両ノードに対応する連想トピック間の競合度を表しており、上方の数値は、両ノードに対応する連想トピック間の相関度を表している。例えば、Car1とCar2の競合度は0.07であり、相関度は0.007である。なお、共起度が“0”、即ち、競合度及び相関度が“0”のエッジについては生成を省略している。
図7に示したように、クラスタグラフを構成する全てのノードは、エッジにより接続された状態、即ち、1つのクラスタCL1を構成していることが分かる。クラスタリング部116では、各ノードを接続するエッジから、競合度が最小のエッジ、相関度が最大のエッジを交互に削除して行くことで、クラスタグラフを構成するノード群を、二つ以上のクラスタに分割する。
ここで、クラスタグラフから競合度が最小のエッジを削除する処理は、共起度がより低く、且つ、概念距離がより遠い関係にある二つの連想トピックを、互いに異なる部分集合に属するよう分割することに相当するものである。即ち、図5の領域A4の関係にある二つの連想トピックを、互いに異なる部分集合に分割する。また、クラスタグラフから相関度が最大のエッジを削除する処理は、共起度がより高く、且つ、概念距離がより遠い関係にある二つの連想トピックを、互いに異なる部分集合に属するよう分割することに相当するものである。即ち、図5の領域A2の関係にある二つの連想トピックを、互いに異なる部分集合に分割する。これらの処理により、競合度が最小のエッジ、相関度が最大のエッジを順次削除して行くことで、連想トピックの集合を有意の単位に分割することができる。なお、複数クラスタへの分割にかかる処理の詳細については後述する。
図4に戻り、情報提供部117は、クラスタリング部116により分割された各部分集合を分析結果として、通信部16を介しクライアント端末20に送信する。なお、本実施形態では、トピック抽出部112により抽出された連想トピックの分割結果のみをクライアント端末20に送信する態様としたが、これに限らず、例えば、ブログ記事収集部111により収集されたブログ文書を併せて送信する態様としてもよい。
クライアント端末20は、情報提供システム100を利用するユーザが操作するPC(Personal Computer)等の端末装置である。クライアント端末20は、ユーザから分析対象となる特定のトピックを表すキーワードの入力を受け付けると、このキーワードを少なくとも含んだ分析要求を連想トピック抽出サーバ10に送信する。また、クライアント端末20は、分析要求に応じて連想トピック抽出サーバ10から送信される分析結果を受信すると、この分析結果を図示しない表示デバイス等に出力する。
なお、クライアント端末20は、CPU等により構成される制御部と、各種プログラム等を記憶するROM、RAM、HDD等から構成される記憶部と、外部装置と通信を行う通信部と、これらを接続するバス(何れも図示せず)とを備え、LCD等の表示デバイスから構成される表示部及びキーボードやマウス等の操作部(何れも図示せず)が接続された構成となっている。ここで、操作部は、ユーザからの操作を受け付ける入力デバイスである。
ブログ検索サーバ30は、ブログサイト40によりネットワークN上に公開された情報(ブログ記事)を、検索キーとなるキーワードを用いて検索を行うサーバ装置である。ここで、ブログ検索サーバ30は、ネットワークN上の各サイトを定期的に巡回(クロール)することで、各ブログサイト40が公開するブログ記事の索引と、そのブログ記事の取得先となるURLとを取得し、これらの情報を関連付けて図示しない記憶部にインデクスとして関連付けて記憶している。
また、ブログ検索サーバ30は、連想トピック抽出サーバ10から検索キーと指示されたキーワードを受信すると、このキーワードを含んだブログ記事の索引をインデクス中から検索し、該当するブログ記事の索引に関連付けられたURLの一覧を、連想トピック抽出サーバ10に送信する。
なお、ブログ検索サーバ30は、CPU等により構成される制御部と、各種プログラム等を記憶するROM、RAM、HDD等から構成される記憶部と、外部装置と通信を行う通信部と、これらを接続するバス(何れも図示せず)とを備え、LCD等の表示デバイスから構成される表示部及びキーボードやマウス等の操作部(何れも図示せず)が接続された構成となっている。
ブログサイト40は、一又は複数人のユーザにより記述された日記等のブログ記事を、ネットワークN上に公開するサーバ装置(Webサーバ)である。なお、各ブログサイト40及び各ブログ記事には、ネットワークN上における所在地を指示するためのURLが付与されているものとする。
また、ブログサイト40は、URLに基づき、外部装置(連想トピック抽出サーバ10等)から特定のブログ記事へのアクセスを受け付けると、アクセスが要求されたブログ記事を要求元の外部装置に送信することで、当該ブログ記事の提供を行う。
なお、ブログサイト40は、CPU等により構成される制御部と、各種プログラム等を記憶するROM、RAM、HDD等から構成される記憶部と、外部装置と通信を行う通信部と、これらを接続するバス(何れも図示せず)とを備え、LCD等の表示デバイスから構成される表示部及びキーボードやマウス等の操作部(何れも図示せず)が接続された構成となっている。
次に、情報提供システム100における、連想トピック抽出サーバ10の動作について説明する。まず、図8を参照して、情報提供システム100の全体動作について説明する。
図8は、情報提供システム100の各装置により実行される全体処理の手順を示したフローチャートである。同図において、ステップS11〜S13は、クライアント端末20の図示しない制御部と記憶部に記憶されたプログラムとの協働により実行される処理を示している。また、ステップS21〜S28は、連想トピック抽出サーバ10の各機能部により実行される処理を示している。また、ステップS31、S32は、ブログ検索サーバ30の図示しない制御部と記憶部に記憶されたプログラムとの協働により実行される処理を示している。また、ステップS41は、ブログサイト40の図示しない制御部と記憶部に記憶されたプログラムとの協働により実行される処理を示している。なお、本処理の前提として、ブログ検索サーバ30は、各ブログサイト40が提供するブログ記事のインデクスを予め保持しているものとする。
まず、クライアント端末20において、図示しない操作部を介し、ユーザから分析対象のキーワードが入力されると(ステップS11)、クライアント端末20は、このキーワードを少なくとも含んだ分析要求を連想トピック抽出サーバ10に送信する(ステップS12)。
一方、連想トピック抽出サーバ10では、ブログ記事収集部111がクライアント端末20から送信された分析要求を受け付けると、この分析要求に含まれたキーワードを検索キーとしてブログ検索サーバ30に送信する(ステップS21)。
ブログ検索サーバ30では、連想トピック抽出サーバ10から送信されたキーワードを受け付けると、図示しない記憶部に記憶されたインデクスから、このキーワードを含んだブログ記事の索引を検索する(ステップS31)。次いで、ブログ検索サーバ30は、検索したブログ記事の索引に関連付けて記憶されたURLの一覧を、連想トピック抽出サーバ10に送信する(ステップS32)。
一方、連想トピック抽出サーバ10では、ブログ記事収集部111が、URLの一覧をブログ検索サーバ30から取得すると、当該URLが示すブログサイト40及びブログ記事宛に夫々アクセスすることで、各ブログサイト40からブログ記事を収集する(ステップS22)。このとき、アクセス先となったブログサイト40では、連想トピック抽出サーバ10からのアクセスに応じ、このアクセスにより要求されたブログ記事を、連想トピック抽出サーバ10に送信(提供)する(ステップS41)。
トピック抽出部112は、ステップS22で収集されたブログ記事を、商品オントロジ171中に定義された各インスタンス(商品名)に基づいて分析することで、当該ブログ記事から連想トピックを抽出する(ステップS23)。続いて、共起度算出部113は、ステップS23で抽出された連想トピックにおいて、任意の二つの連想トピックが、ステップS22で収集された同一のブログ記事内に出現する頻度(ブログ記事)を共起度として夫々算出する(ステップS24)。
次に、概念距離算出部114は、ステップS23で抽出された各連想トピック間について、商品オントロジ171上における概念距離を夫々算出する(ステップS25)。次いで、競合度・相関度算出部115は、ステップS24で算出された共起度と、ステップS25で算出された概念距離とに基づき、上記(1)式、(2)式を用いることで、各連想トピック間の競合度及び相関度を夫々算出する(ステップS26)。
続いて、クラスタリング部116は、ステップS26で算出された競合度及び相関度に基づいて、連想トピックの部分集合化を行うクラスタリング処理を実行する(ステップS27)。以下、図9を参照して、ステップS27のクラスタリング処理について説明する。
図9は、クラスタリング処理の手順を示したフローチャートである。まず、クラスタリング部116は、ステップS23で抽出された全ての連想トピックをノードで表すとともに、これらノード間を、両ノードに対応する連想トピックの競合度及び相関度を付加したエッジで夫々接続することで、クラスタグラフを生成する(ステップS271)。
次に、クラスタリング部116は、クラスタグラフに含まれた各クラスタを構成するノードの数が、所定の閾値以上か否かを判定する(ステップS272)。ここで、何れかのクラスタにノード数が閾値以上含まれていると判定した場合(ステップS272;No)、クラスタリング部116は、ノード数が閾値以上含まれた1のクラスタを処理対象に設定する(ステップS273)。なお、ステップS272での判定の指標となる閾値は、任意の値を設定することが可能であるものとする。
続いて、クラスタリング部116は、処理対象のクラスタから競合度が最小のエッジを削除すると(ステップS274)、当該クラスタが複数のクラスタに分割されたか否かを判定する(ステップS275)。ここで、複数のクラスタに分割されたと判定した場合(ステップS275;Yes)、ステップS272の処理に再び戻る。
一方、ステップS275において、複数のクラスタに分割されていないと判定した場合(ステップS275;No)、クラスタリング部116は、処理対象のクラスタから相関度が最大のエッジを削除する(ステップS276)。続いて、クラスタリング部116は、処理対象のクラスタが複数のクラスタに分割されたか否かを判定する(ステップS277)。
クラスタリング部116は、ステップS277において、処理対象のクラスタが複数のクラスタに分割されていないと判定した場合(ステップS277;No)、ステップS274の処理に再び戻り、処理対象のクラスタから競合度が最小のエッジを削除する。また、クラスタリング部116は、ステップS277において、処理対象のクラスタが複数のクラスタに分割されたと判定した場合(ステップS277;Yes)、ステップS272の処理に再び戻る。
一方、ステップS272において、クラスタリング部116が、クラスタグラフに含まれた全てのクラスタを構成するノードの数が、夫々閾値未満と判定した場合には(ステップS272;Yes)、ステップS28の処理に移行する。
以下、図7、図10−1〜図10−7を参照し、クラスタリング処理の具体例について説明する。なお、以下の説明において、ステップS272での判定の指標となる閾値は“4”に設定されているものとする。
まず、クラスタリング部116は、ステップS271において、クラスタグラフを生成すると、続くステップS272で、クラスタグラフに含まれた各クラスタを構成するノードの数が、所定の閾値以上か否かを判定する。ここで、ステップS271で生成されたクラスタグラフが図7に示した状態であるとすると、このクラスタグラフには唯一のクラスタCL1が存在し、このクラスタCL1が7個のノードから構成されていることが分かる。そのため、クラスタリング部116は、ステップS273に移行し、クラスタCL1を処理対象に設定する。
続いて、クラスタリング部116は、ステップS274において、クラスタCL1から競合度が最小のエッジ、即ち、ノード「Car2」とノード「Car5」とを接続するエッジを削除すると、クラスタCL1は図10−1に示した状態となる。このとき、クラスタCL1は複数のクラスタに分割されていないため、クラスタリング部116は、ステップS275において“否”と判定し、ステップS276に移行する。
次いで、クラスタリング部116は、ステップS276において、クラスタCL1から相関度が最大のエッジ、即ち、ノード「Car4」とノード「Car7」とを接続するエッジを削除すると、クラスタCL1は図10−2に示した状態となる。図10−2に示したように、クラスタCL1は依然として複数のクラスタに分割されていないため、クラスタリング部116は、ステップS277において“否”と判定し、ステップS272に再び戻る。
クラスタリング部116は、2度目のステップS272において、クラスタCL1を構成するノードの数が閾値以上と判定するため、ステップS273では、このクラスタCL1を処理対象に再度設定する。
続くステップS274において、クラスタリング部116は、クラスタCL1から競合度が最小のエッジ、即ち、ノード「Car3」とノード「Car6」とを接続するエッジを削除すると、クラスタCL1は図10−3に示した状態となる。このとき、クラスタCL1は複数のクラスタに分割されていないため、クラスタリング部116は、ステップS275において“否”と判定し、ステップS276に移行する。
クラスタリング部116は、続くステップS276において、クラスタCL1から相関度が最大のエッジ、即ち、ノード「Car4」とノード「Car6」とを接続するエッジを削除すると、クラスタCL1は図10−4に示した状態となる。このとき、クラスタCL1は、図10−4に示したように、クラスタCL2とクラスタCL3とに分割されることにため、クラスタリング部116は、続くステップS275で“正”と判定し、ステップS272の処理に再び戻る。
続いて、クラスタリング部116は、3度目のステップS272において、クラスタグラフに含まれたクラスタのうち、クラスタCL2を構成するノードの数が閾値以上と判定するため、続くステップS273で、クラスタCL2を処理対象に設定する。
クラスタリング部116は、続くステップS274において、クラスタCL2から競合度が最小のエッジ、即ち、ノード「Car1」とノード「Car4」とを接続するエッジを削除すると、クラスタCL2は図10−5に示した状態となる。このとき、クラスタCL2は複数のクラスタに分割されていないため、クラスタリング部116は、ステップS275において“否”と判定し、ステップS276に移行する。
次いで、クラスタリング部116は、ステップS276において、クラスタCL2から相関度が最大のエッジ、即ち、ノード「Car2」とノード「Car4」とを接続するエッジを削除すると、クラスタCL2は図10−6に示した状態となる。このとき、クラスタCL2は依然として複数のクラスタに分割されていないため、クラスタリング部116は、ステップS277において“否”と判定し、ステップS272に再び戻る。
クラスタリング部116は、4度目のステップS272において、クラスタCL2を構成するノードの数が閾値以上と判定するため、続くステップS273で、クラスタCL2を処置対象に再度設定する。
続いて、クラスタリング部116は、ステップS274において、クラスタCL2から競合度が最小のエッジ、即ち、ノード「Car3」とノード「Car4」とを接続するエッジを削除すると、クラスタCL2は図10−7に示した状態となる。このとき、クラスタCL2は、クラスタCL4とクラスタCL5とに分割されることになるため、クラスタリング部116は、続くステップS275で“正”と判定し、ステップS272に再び戻る。
そして、クラスタリング部116は、5度目のステップS272において、クラスタグラフに含まれる全てのクラスタ、即ち、クラスタCL3、CL4、CL5を構成するノードの数が、夫々閾値未満と判定するため、ステップS28の処理に移行する。
図8に戻り、情報提供部117は、ステップS27の処理により分割された各クラスタに基づいて、各クラスタに含まれたノードが表す連想トピックの集合を分析結果として、通信部16を介しクライアント端末20に送信する(ステップS28)。
例えば、ステップS27の処理により、図10−7の状態が得られた場合、情報提供部117は、分析結果として以下の情報をクライアント端末20に送信する。

{Car1、Car2、Car3}、
{Car4}、
{Car5、Car6、Car7}、
一方、クライアント端末20では、連想トピック抽出サーバ10から送信された分析結果を受信すると、この分析結果を図示しない表示部に表示し(ステップS13)、本処理を終了する。
以上のように、本実施形態によれば、特定のトピックに関する文書から抽出した連想トピックの集合を、各連想トピック間の共起度と概念距離とに基づいて、複数の部分集合に分割することができるため、連想トピックの集合を有意の単位に分割することができる。
特に、本実施形態のように商品に特化した連想トピックを対象とする場合、商品間の競合度及び相関度に基づいて、連想トピックの集合を有意の単位に分割することができるため、ポジショニング分析等の商品間の分析に有用なデータを提供することができる。
なお、本実施形態では、クライアント端末20から送信された分析対象のキーワードに基づいて、連想トピック抽出サーバ10が各種の処理を行う態様としたが、これに限らず、例えば、連想トピック抽出サーバ10の操作部12を介し、分析対象のキーワードが直接入力される態様としてもよい。
以上、発明の実施の形態について説明したが、本発明はこれに限定されるものではなく、本発明の主旨を逸脱しない範囲での種々の変更、置換、追加などが可能である。
例えば、上記実施形態の処理にかかるプログラムを、コンピュータで読み取り可能な記憶媒体として提供することも可能である。記憶媒体としては、磁気ディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリ等、プログラムを記憶でき、且つ、コンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
また、上記実施形態の処理にかかるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
情報提供システムの構成を示した図である。 連想トピック抽出サーバのハードウェア構成を示した図である。 商品オントロジの一例を模式的に示した図である。 連想トピック抽出サーバの機能構成を示した図である。 共起度及び概念距離の関係を模式的に示した図である。 各連想トピック間についての競合度の一例を示した図である。 各連想トピック間についての相関度の一例を示した図である。 図6−1、図6−2の競合度及び相関度に基づいて生成されたクラスタグラフの一例を示した図である。 全体処理の手順を示したフローチャートである。 図8に示したクラスタリング処理の手順を示したフローチャートである。 クラスタリング処理の動作を説明するための図である。 クラスタリング処理の動作を説明するための図である。 クラスタリング処理の動作を説明するための図である。 クラスタリング処理の動作を説明するための図である。 クラスタリング処理の動作を説明するための図である。 クラスタリング処理の動作を説明するための図である。 クラスタリング処理の動作を説明するための図である。
符号の説明
100 情報提供システム
10 連想トピック抽出サーバ
20 クライアント端末
30 ブログ検索サーバ
40 ブログサイト
11 CPU
12 操作部
13 表示部
14 ROM
15 RAM
16 通信部
17 記憶部
171 商品オントロジ
18 バス
111 ブログ記事収集部
112 トピック抽出部
113 共起度算出部
114 概念距離算出部
115 競合度、相関度算出部
116 クラスタリング部
117 情報提供部

Claims (9)

  1. 複数の語を夫々表すインスタンスを当該インスタンスが属するクラスと対応付けて定義
    するとともに、前記インスタンス間の関連性を当該インスタンス間の距離により定義した
    オントロジを記憶する記憶手段と、
    特定のトピックに関する複数の文書中に含まれた各語のうち、出現する頻度が所定の閾
    値以上となる各語を、当該特定のトピックに関連する連想トピックの集合として抽出する
    抽出手段と、
    前記連想トピックの集合の何れか二つの連想トピックの組毎に、当該連想トピックの組
    が同一の前記文書中に出現する頻度を共起度として夫々算出する第1算出手段と、
    前記連想トピックの集合の何れか二つの連想トピックの組毎に、当該連想トピックの組
    の各語を表す前記インスタンス間の距離を概念距離として夫々算出する第2算出手段と、
    前記連想トピックの組毎の共起度と概念距離との重み付けに基づいて、前記連想トピッ
    クの集合を複数の部分集合に分割する分割手段と、
    を備えたことを特徴とする情報処理装置。
  2. 前記分割手段は、他の連想トピックの組と比較し、前記共起度がより低く、且つ、前記
    概念距離がより遠くなる二つの連想トピックが、異なる部分集合に属するよう分割するこ
    とを特徴とする請求項1に記載の情報処理装置。
  3. 前記分割手段は、他の連想トピックの組と比較し、前記共起度がより高く、且つ、前記
    概念距離がより遠くなる二つの連想トピックが、異なる部分集合に属するよう分割するこ
    とを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記連想トピックの組毎の共起度と概念距離との積に基づいて、一の連想トピックが他
    の連想トピックと競合する度合いを示した競合度を夫々算出する競合度算出手段と、
    前記連想トピックの組毎の共起度と概念距離との商に基づいて、一の連想トピックが他
    の連想トピックと相関する度合いを示した相関度を夫々算出する相関度度算出手段と、
    を備え、
    前記分割手段は、前記連想トピックの組毎の競合度と相関度とに基づいて、前記連想ト
    ピックの集合を複数の部分集合に分割することを特徴とする請求項1〜3の何れか一項に
    記載の情報処理装置。
  5. 前記連想トピックの集合と、前記連想トピックの組毎の競合度と相関度とに基づいて、
    各連想トピックをノードで表すとともに、これらノード間を両ノードに対応する連想トピ
    ックの競合度及び相関度を付加したエッジで接続したグラフを生成するグラフ生成手段を
    更に備え、
    前記分割手段は、前記エッジの各々に付加された競合度と相関度とに基づいて、当該エ
    ッジを順次削除し、前記連想トピックの集合を表すノードの集合を複数の部分集合に分割
    することを特徴とする請求項4に記載の情報処理装置。
  6. 前記分割手段は、前記グラフから前記競合度が最小となるエッジと、前記相関度が最大
    となるエッジとを交互に削除することで、前記ノードの集合を複数の部分集合に分割する
    ことを特徴とする請求項5に記載の情報処理装置。
  7. 前記特定のトピックの入力を受け付け、当該特定のトピックに関する文書をネットワー
    ク上から収集する収集手段を更に備え、
    前記抽出手段は、前記収集手段により収集された複数の文書中から、前記連想トピック
    を抽出することを特徴とする請求項1〜6の何れか一項に記載の情報処理装置。
  8. 前記抽出手段は、前記複数の文書中に含まれた前記インスタンスを表す各語のうち、そ
    の出現頻度が所定の閾値以上となる語を前記連想トピックとして抽出することを特徴とす
    る請求項1〜7の何れか一項に記載の情報処理装置。
  9. 語の集合を複数の部分集合に分割する情報処理装置の情報処理方法であって、
    前記情報処理装置は、複数の語を夫々表すインスタンスを当該インスタンスが属するク
    ラスと対応付けて定義するとともに、前記インスタンス間の関連性を当該インスタンス間
    の距離により定義したオントロジを記憶する記憶手段を備え、
    抽出手段が、特定のトピックに関する複数の文書中に含まれた各語のうち、出現する頻
    度が所定の閾値以上となる各語を、当該特定のトピックに関連する連想トピックの集合と
    して抽出する抽出工程と、
    第1算出手段が、前記連想トピックの集合の何れか二つの連想トピックの組毎に、当該
    連想トピックの組が同一の前記文書中に出現する頻度を共起度として夫々算出する第1算
    出工程と、
    第2算出手段が、前記連想トピックの集合の何れか二つの連想トピックの組毎に、当該
    連想トピックの組の各語を表す前記インスタンス間の距離を概念距離として夫々算出する
    第2算出工程と、
    分割手段が、前記連想トピックの組毎の共起度と概念距離との重み付けに基づいて、前
    記連想トピックの集合を複数の部分集合に分割する分割工程と、
    を含むことを特徴とする情報処理方法。
JP2008048270A 2008-02-28 2008-02-28 情報処理装置及び情報処理方法 Expired - Fee Related JP5341366B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008048270A JP5341366B2 (ja) 2008-02-28 2008-02-28 情報処理装置及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008048270A JP5341366B2 (ja) 2008-02-28 2008-02-28 情報処理装置及び情報処理方法

Publications (2)

Publication Number Publication Date
JP2009205517A JP2009205517A (ja) 2009-09-10
JP5341366B2 true JP5341366B2 (ja) 2013-11-13

Family

ID=41147693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008048270A Expired - Fee Related JP5341366B2 (ja) 2008-02-28 2008-02-28 情報処理装置及び情報処理方法

Country Status (1)

Country Link
JP (1) JP5341366B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294338A (zh) * 2015-05-12 2017-01-04 株式会社理光 信息处理方法和信息处理装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5434551B2 (ja) * 2009-12-11 2014-03-05 富士通株式会社 情報マップ作成装置、情報マップ作成方法、及びプログラム
JP5467062B2 (ja) * 2011-01-17 2014-04-09 日本電信電話株式会社 情報推薦装置及び方法及びプログラム
JP5587821B2 (ja) * 2011-04-11 2014-09-10 日本電信電話株式会社 文書トピック抽出装置及び方法及びプログラム
US9276892B2 (en) 2011-11-29 2016-03-01 Liquid Girds Social dialogue listening, analytics, and engagement system and method
JP2014002446A (ja) * 2012-06-15 2014-01-09 Sony Corp 情報処理装置およびプログラム
JP6280859B2 (ja) * 2014-11-20 2018-02-14 日本電信電話株式会社 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム
US10733221B2 (en) * 2016-03-30 2020-08-04 Microsoft Technology Licensing, Llc Scalable mining of trending insights from text
CN110544140A (zh) * 2018-05-29 2019-12-06 北京京东尚科信息技术有限公司 一种处理浏览数据的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294338A (zh) * 2015-05-12 2017-01-04 株式会社理光 信息处理方法和信息处理装置
CN106294338B (zh) * 2015-05-12 2019-08-30 株式会社理光 信息处理方法和信息处理装置

Also Published As

Publication number Publication date
JP2009205517A (ja) 2009-09-10

Similar Documents

Publication Publication Date Title
JP5341366B2 (ja) 情報処理装置及び情報処理方法
Yin et al. Joint modeling of user check-in behaviors for real-time point-of-interest recommendation
US10685065B2 (en) Method and system for recommending content to a user
Ma et al. Big graph search: challenges and techniques
US9946775B2 (en) System and methods thereof for detection of user demographic information
US20150058320A1 (en) Method and system for hybrid information query
WO2018040069A1 (zh) 信息推荐系统及方法
JP5615857B2 (ja) 分析装置、分析方法及び分析プログラム
CN112084413B (zh) 一种信息推荐的方法、装置及存储介质
Sloan et al. A term-based methodology for query reformulation understanding
US20230385317A1 (en) Information Retrieval Method, Related System, and Storage Medium
US20150302088A1 (en) Method and System for Providing Personalized Content
Bai et al. Service recommendation for mashup creation based on time-aware collaborative domain regression
WO2016137690A1 (en) Efficient retrieval of fresh internet content
Xie et al. Interactive resource recommendation algorithm based on tag information
Deiva Ganesh et al. Supply chain risk identification: a real-time data-mining approach
Xu et al. Leveraging app usage contexts for app recommendation: a neural approach
Lu et al. Multi-trends enhanced dynamic micro-video recommendation
Wei et al. Online education recommendation model based on user behavior data analysis
Thonet et al. Joint personalized search and recommendation with hypergraph convolutional networks
KR101910424B1 (ko) 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치
Suhaim et al. Directional user similarity model for personalized recommendation in online social networks
Xu et al. A novel travel group recommendation model based on user trust and social influence
Zeng et al. SQLG+: Efficient k-hop Query Processing on RDBMS
Parundekar et al. Learning driver preferences of pois using a semantic web knowledge system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130305

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130604

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130808

LAPS Cancellation because of no payment of annual fees