JP5170787B2 - 投稿文書分析装置、投稿文書分析方法、および、投稿文書分析装置用プログラム - Google Patents

投稿文書分析装置、投稿文書分析方法、および、投稿文書分析装置用プログラム Download PDF

Info

Publication number
JP5170787B2
JP5170787B2 JP2010016226A JP2010016226A JP5170787B2 JP 5170787 B2 JP5170787 B2 JP 5170787B2 JP 2010016226 A JP2010016226 A JP 2010016226A JP 2010016226 A JP2010016226 A JP 2010016226A JP 5170787 B2 JP5170787 B2 JP 5170787B2
Authority
JP
Japan
Prior art keywords
document
document data
post
clustering
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010016226A
Other languages
English (en)
Other versions
JP2011154586A (ja
Inventor
勇宇 平手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Priority to JP2010016226A priority Critical patent/JP5170787B2/ja
Publication of JP2011154586A publication Critical patent/JP2011154586A/ja
Application granted granted Critical
Publication of JP5170787B2 publication Critical patent/JP5170787B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、端末からユーザが投稿してくる文書の分析を行う投稿文章分析装置、投稿文章分析方法、および、投稿文章分析装置用プログラムに関する。
最近、ユーザは、ブログ(weblog)や商品レビューに掲載されている、いわゆる口コミ情報に基づき、インターネット上で、商品の購入を決定することが多くなってきた。そのため、新規顧客の獲得やリピータの確保の両面を強化し、集客率を向上する目的で、ブログ等が利用されており、対応する種々の技術が開発されている。例えば、特許文献1には、商品を購入した顧客が自己の個人ブログに当該商品のレビューを掲載し、これをオンライン商取引サイトが運営する商用ブログにおける同商品に関するエントリーにトラックバックさせる行為に対して報酬を付与するオンライン商取引システムが開示されている。
特開2007−156571号公報
ところで、ブログや商品レビューと、報酬等の利益とが関連付けられると、文章の手抜きや不適切な書き込みが行われる可能性があり、ブログや商品レビュー等の文章を判定するための分析を行う必要がある。また、多数のユーザから投稿されるブログや商品レビューに関する大量の文章を高速に処理する必要がある。しかしながら、上記従来技術では、十分に対処できなかった。
本発明は、このような問題に鑑みてなされたものであり、その課題の一例は、ユーザから投稿される文章を高速に分析できる投稿文章分析装置、投稿文章分析方法、および、投稿文章分析プログラムを提供することを目的とする。
上記課題を解決するために、請求項1に記載の発明は、ユーザ端末からユーザが投稿してくる文データを受信する文データ受信手段と、前記文書データを記憶する文書データ記憶手段と、前記文データに関する時間情報に基づき、前記文データを順序付けする文書順序付け手段と、前記順序で隣接する前記文データの文書間の文書間距離を算出する文書間距離算出手段と、前記文書間距離に基づき、前記文書データをクラスタリングするクラスタリング手段と、前記クラスタリング手段によりクラスタリングされた文書データ群に対して、前記文書データの投稿時間の関数とした投稿のパターンに応じて、前記文書データ群を類別する文書類別手段と、を備えたことを特徴とする。
請求項2に記載の発明は、請求項1に記載の投稿文分析装置において、前記文書類別手段が、前記文書データが、商品レビューに関する文書であって、前記文書データの投稿時間に関する投稿時間情報と商品の注文時間との関係を示す前記投稿のパターンに応じて、前記文書データ群を類別することを特徴とする。
請求項3に記載の発明は、請求項1または請求項2に記載の投稿文分析装置において、前記文書順序付け手段が、前記データの受信順序に基づき、前記文データを順序付けすることを特徴とする。
請求項4に記載の発明は、請求項1から請求項のいずれか1項に記載の投稿文分析装置において、前記文書間距離算出手段が、前記文書データを比較して、文書同士の類似性に基づき、文書間距離を算出することを特徴とする。
請求項5に記載の発明は、請求項1から請求項のいずれか1項に記載の投稿文分析装置において、前記文書間距離算出手段が、前記文書データの句読点を含めた文字列を比較して、文書間距離を算出することを特徴とする。
請求項6に記載の発明は、請求項1から請求項のいずれか1項に記載の投稿文分析装置において、前記クラスタリング手段が、クラスタリングのシーズとなる前記文書データから出発し、前記文書間距離に基づき接続関係にある他の前記文書データを探索してクラスタリングを行うことを特徴とする。
請求項7に記載の発明は、請求項1から請求項のいずれか1項に記載の投稿文分析装置において、前記クラスタリング手段により生成したクラスタにおいて、クラスタ間の距離を算出して、上位クラスタを算出する位クラスタリング手段を更に備えたことを特徴とする。
請求項8に記載の発明は、投稿文書分析装置が投稿された文書を分析する投稿文書分析方法であって、ユーザ端末からユーザが投稿してくる文データを受信する文データ受信ステップと、文書データを記憶する文書データ記憶ステップと、前記文データに関する時間情報に基づき、前記文データを順序付けする文書順序付けステップと、前記順序で隣接する前記文データの文書間の文書間距離を算出する文書間距離算出ステップと、前記文書間距離に基づき、前記文書データをクラスタリングするクラスタリングステップと、前記クラスタリングステップにおいて、クラスタリングされた文書データ群に対して、前記文書データの投稿時間の関数とした投稿のパターンに応じて、前記文書データ群を類別する文書類別ステップと、を有することを特徴とする。
請求項9に記載の発明は、コンピュータを、ユーザ端末からユーザが投稿してくる文データを受信する文データ受信手段、文書データを記憶する文書データ記憶手段、
前記文データに関する時間情報に基づき、前記文データを順序付けする文書順序付け手段、前記順序で隣接する前記文データの文書間の文書間距離を算出する文書間距離算出手段、前記文書間距離に基づき、前記文書データをクラスタリングするクラスタリング手段、および、前記クラスタリング手段によりクラスタリングされた文書データ群に対して、前記文書データの投稿時間の関数とした投稿のパターンに応じて、前記文書データ群を類別する文書類別手段として機能させることを特徴とする。
本発明によれば、ユーザ端末からユーザが投稿してくる文章データを受信して文書データを記憶し、文章データに関する時間情報に基づき、文章データを順序付けし、この順序で隣接する文章データの文書間の文書間距離を算出し、この文書間距離に基づき、文書データをクラスタリングすることにより、ユーザから投稿される文章を高速に分析できる。
本発明の実施形態に係る投稿文章分析システムの概要構成例を示す模式図である。 図1の投稿文章分析サーバの概要構成の一例を示すブロック図である。 図1のショッピングサーバの概要構成の一例を示すブロック図である。 図1の投稿文章分析サーバにおいて投稿文章を分析する動作例を示すフローチャートである。 図1の投稿文章分析サーバが受信した投稿文書の一例を示す説明図である。 図1の投稿文章分析サーバが受信した投稿文書の一例を示す説明図である。 図1の投稿文章分析サーバにおいて順序付けされた投稿文章の一例を示す模式図である。 図1の投稿文章分析サーバにおけるクラスタリングの結果の一例を示す説明図である。 投稿時間―注文時間の関係の一例を模式的に示す線図である。 投稿時間―注文時間の関係におけるグラフのパターンの一例を模式的に示す線図である。 図1の投稿文章分析サーバにおける投稿文章クラスタリングのサブルーチンの一例を示すフローチャートである。 図1の投稿文章分析サーバにおける上位クラスタリングの結果の一例を示す説明図である。 商品レビューに対して投稿時間―注文時間のグラフを求めた結果の一例を示す線図である。 商品レビューに対して投稿時間―注文時間のグラフを求めた結果の一例を示す線図である。 商品レビューに対して投稿時間―注文時間のグラフを求めた結果の一例を示す線図である。 商品レビューに対して投稿時間―注文時間のグラフを求めた結果の一例を示す線図である。 商品レビューに対して投稿時間―注文時間のグラフを求めた結果の一例を示す線図である。 商品レビューに対して投稿時間―注文時間のグラフを求めた結果の一例を示す線図である。
以下、図面を参照して本発明の実施形態について説明する。なお、以下に説明する実施の形態は、投稿文章分析システムに対して本発明を適用した場合の実施形態である。
[1.投稿文章分析システムの構成および機能概要]
まず、本発明の一実施形態に係る投稿文章分析システムの構成および概要機能について、図1を用いて説明する。
図1は、本発明の実施形態に係る投稿文章分析システムの概要構成例を示す模式図である。
図1に示すように、投稿文章分析システム1は、ユーザが投稿した商品レビューやブログを分析する投稿文章分析サーバ10と、商品等の購入の処理を行うショッピングサーバ20と、ユーザ端末30、31と、を備えている。
投稿文章分析サーバ10と、ショッピングサーバ20とは、ローカルエリアネットワーク等により接続され、相互にデータの送受信が可能になっていて、サーバシステム5を構成している。そして、サーバシステム5、ユーザ端末30は、ネットワーク3により接続され、例えば、通信プロトコルにTCP/IP等を用いて相互にデータの送受信が可能になっている。なお、ネットワーク3は、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、およびゲートウェイ等により構築されている。
ユーザが使用するユーザ端末30は、パーソナルコンピュータや携帯型無線電話機やPDA(Personal Digital Assistant)等の携帯端末である。ユーザはユーザ端末30を使用して、商品の購入を行ったり、商品レビューやブログを投稿等したりする。
[2.投稿文章分析サーバ10およびショッピングサーバ20の構成および機能]
(2.1 投稿文章分析サーバ10の構成および機能)
次に、投稿文章分析サーバ10の構成および機能について、図に基づき説明する。
図2は、投稿文章分析サーバ10の概要構成の一例を示すブロック図である。
図2に示すように、投稿文章分析装置の一例でコンピュータとして機能する投稿文章分析サーバ10は、通信部11と、記憶部12と、入出力インターフェース部13と、システム制御部14と、を備えている。そして、システム制御部14と入出力インターフェース部13とは、システムバス15を介して接続されている。
通信部11は、ネットワーク3に接続して、ユーザ端末30との通信状態を制御したり、ローカルエリアネットワーク等を通して、およびショッピングサーバ20と通信状態を制御したりするようになっている。
記憶部12は、例えば、ハードディスクドライブ等により構成されており、オペレーティングシステムおよびサーバプログラム等の各種プログラムやHTML等のマークアップ言語等により記述されたウェブページのファイル等を記憶する。なお、各種プログラムは、例えば、他のサーバ装置等からネットワーク3を介して取得されるようにしてもよいし、記録媒体に記録されてドライブ装置を介して読み込まれるようにしてもよい。
また、記憶部12には、文書データを記憶する文書データ記憶手段の一例として、商品レビュー・データベース(DB)12aや、ブログ・データベース(DB)12b等が構築されている。
商品レビュー・データベース12aには、ユーザが投稿してきた商品レビューの文書データ等が格納されている。また、ブログ・データベース12bには、ユーザが投稿してきたブログの文書データ等が格納されている。これらのデータベースの文章は、ユーザIDや文章を受信した時間等に関連付けられて記憶されている。
次に、入出力インターフェース部13は、通信部11および記憶部12とシステム制御部14との間のインターフェース処理を行うようになっている。
システム制御部14は、CPU(Central Processing Unit)14a、ROM(Read Only Memory)14b、RAM(Random Access Memory)14c等により構成されている。そして、システム制御部14は、CPU14aが、ROM14bや記憶部12に記憶された各種プログラムを読み出し実行することにより、文章データに関する時間情報に基づき文章データを順序付けする文書順序付け手段や、順序で隣接する文章データの文書間の文書間距離を算出する文書間距離算出手段や文書間距離に基づき文書データをクラスタリングするクラスタリング手段として機能する。
(2.2 ショッピングサーバ20の構成および機能)
次に、ショッピングサーバ20の構成および機能について、図に基づき説明する。
図4は、ショッピングサーバ20の概要構成の一例を示すブロック図である。
図4に示すように、ショッピングサーバ20は、通信部21と、記憶部22と、入出力インターフェース部23と、システム制御部24と、を備え、システム制御部24と入出力インターフェース部23とは、システムバス25を介して接続されている。なお、ショッピングサーバ20の構成および機能は、投稿文章分析サーバ10の構成および機能とほぼ同じであるので、投稿文章分析サーバ10の各構成や各機能において、異なるところを中心に説明する。
通信部21は、ネットワーク3やローカルエリアネットワーク等を通して、ユーザ端末30や投稿文章分析サーバ10等と通信状態を制御等するようになっている。
記憶部22には、商品データベース(DB)22aや、会員データベース(DB)22b等が構築されている。
商品データベース22aには、商品コードに関連付けられた商品関して、商品名、種類、商品の画像、スペック、および、商品紹介の要約文等の商品情報や、広告情報等が格納されている。
会員データベース22bには、会員登録されたユーザ(インターネットショップの利用者)のユーザID、名称、住所、電話番号、メールアドレス、届先名称、届先住所、および、届先電話番号等の属性情報(以下、「ユーザ情報」という)が登録されている。このようなユーザ情報は、ユーザIDによってユーザ毎に判別可能になっている。ここで、ユーザIDは、ユーザを識別するための識別子である。また、届先は、インターネットショップ等で購入した商品の配達先を意味する。また、会員データベースには、ユーザがユーザ端末30からインターネットショップのサイトにログインする際に必要な、ユーザID、ログインID、および、パスワードが登録されている。ここで、ログインIDおよびパスワードは、ログイン処理(ユーザの認証処理)に使用されるログイン情報である。
システム制御部24は、CPU24a、ROM24b、RAM24c等により構成されている。そして、システム制御部24は、CPU24aが、ROM24bや記憶部22に記憶された各種プログラムを読み出し実行することにより、購入処理や、商品の購買履歴をユーザID毎に記録させたりする。
[3.投稿文章分析システムの動作]
次に、本発明の一実施形態に係る投稿文章分析システム1の動作について図に基づき説明する。
(3.1 投稿文章を分析する動作例)
まず、投稿文章分析サーバ10における投稿文章分析の処理の流れについて、図に基づき説明する。
図4は、投稿文章分析サーバ10において投稿文章を分析する動作例を示すフローチャートである。図5Aは、投稿文章分析サーバ10が受信した投稿文書の一例を示す説明図である。図5Bは、投稿文章分析サーバ10が受信した投稿文書の一例を示す説明図である。図6は、投稿文章分析サーバ10において順序付けされた投稿文章の一例を示す模式図である。図7は、投稿文章分析サーバ10におけるクラスタリングの結果の一例を示す説明図である。
まず、ユーザは、ユーザ端末30を使用して、ショッピングサーバ20にアクセスして、商品データベース22aにある商品を選択し、商品の注文を行う。ショッピングサーバ20のシステム制御部24は、商品の購買履歴として、商品IDや注文番号や注文時間等をユーザ毎に会員データベース22bに記録する。商品が届いた後、ユーザは商品に関する感想やコメントを投稿するため、投稿文章分析サーバ10にアクセスして、商品レビューのためのウェブページをユーザ端末30に表示させ、商品に関するコメント等の文章を記載し投稿を行う。
次に、図4に示すように、投稿文章分析サーバ10は、投稿された文章の文書データをユーザ端末30から受信する(ステップS1)。具体的には、投稿文章分析サーバ10のシステム制御部14は、通信部11を通して、ユーザが投稿した文章の投稿文書データを受信する。このように、投稿文章分析サーバ10のシステム制御部14および通信部11は、ユーザ端末からユーザが投稿してくる文章データを受信する文章データ受信手段の一例として機能する。
次に、投稿文章分析サーバ10は、受信した文書データを保存する(ステップS2)。具体的には、システム制御部14が、図5Aおよび図5Bに示すように、ユーザ毎に、商品IDや商品の注文番号等の商品情報や、文章データに関する時間情報の一例としての投稿された時間、すなわち、受信した時間と共に、文書データを商品レビュー・データベース12aに保存する。このように、投稿文章分析サーバ10の商品レビュー・データベース12aは、文書データを記憶する文書データ記憶手段の一例として機能する。
次に、投稿文章分析サーバ10は、受信した文章群に対して、文書の受信順に順序付けを行う(ステップS3)。具体的には、システム制御部14が、図6に示すように、商品レビューの文章r1、r2、r3、・・・、rnを、文章が投稿された順に、すなわち文章データの受信順に、順序付けを行う。このように、投稿文章分析サーバ10のシステム制御部14は、文章データに関する時間情報に基づき、文章データを順序付けする文書順序付け手段の一例として機能する。また、投稿文章分析サーバ10のシステム制御部14は、文書データの受信順序に基づき、前記文章データを順序付けする文書順序付け手段の一例として機能する。なお、商品情報の商品IDに基づき、同じ商品を集めて、順序付けを行ってもよい。同じ商品であると、商品レビューが比較的同じ文章になりやすく、クラスタが形成しやすく分析しやすくなる可能性がある。
次に、投稿文章分析サーバ10は、隣接する文書間距離に基づき、文書データのクラスタリングを行う(ステップS4)。具体的には、システム制御部14は、受信順に並べられた文書において、文書r1と文書r2、文書r2と文書r3等のように隣接した文書間の距離を利用して文書データのクラスタリングの処理を行う。ここで、文書間距離は、文書間の類似性に関連した指標であり、文書同士が似ていると、文書間距離が短くなり、文書同士が異なるほど文書間距離が長くなる指標である(詳しくは後述)。また、文章r1、r2、r3、・・・、rnのクラスタリングを行う際、文章r1、r2、r3、・・・、rnの各文章間の距離を利用する必要はなく、図7に示すように、隣接する文章間の距離のみでクラスタリングを行う。このように、投稿文章分析サーバ10のシステム制御部14は、順序で隣接する前記文章データの文書間の文書間距離を算出する文書間距離算出手段の一例として機能する。また、投稿文章分析サーバ10のシステム制御部14は、文書間距離に基づき、文書データをクラスタリングするクラスタリング手段の一例として機能する。また、投稿文章分析サーバ10のシステム制御部14は、文書データを比較して、文書同士の類似性に基づき、文書間距離を算出する文書間距離算出手段の一例として機能する。
次に、投稿文章分析サーバ10は、クラスタが形成されたか否かを判定する(ステップS5)。具体的には、投稿文章分析サーバ10のシステム制御部14は、図7に示すように、”○”の部分があるか否かを判定する。ここで、図7中、”○”は、隣接する文章が接続関係にあること、”×”は、隣接する文章が接続関係にないことを示していて、接続関係にある文章同士は、同じクラスタに属する(接続関係については後述)。そして、いずれかに”○”があれば、クラスタが形成されたとする。また、図7に示すように、文書r1、r2、r3および文書r6、r7は、それぞれ、”クラスタ1”、”クラスタ2”のクラスタを形成している。
次に、クラスタが形成されたと判定され無い場合(ステップS5;NO)、投稿文章分析サーバ10のシステム制御部14は処理を終了する。
(3.2 投稿時間―注文時間の関係)
次に、クラスタリングが形成されたユーザの一連の文書に対して、更に、ユーザの動向を判別するために、投稿時間―注文時間の関係を利用する。
図8は、投稿時間―注文時間の関係の一例を模式的に示す線図である。図9は、投稿時間―注文時間の関係におけるグラフのパターンの一例を模式的に示す線図である。
図4に示すように、クラスタが形成されたと判定された場合(ステップS5;YES)、投稿文章分析サーバ10は、商品の注文時間と、商品レビュー投稿時間との関係グラフを生成する(ステップS6)。具体的には、投稿文章分析サーバ10のシステム制御部14は、商品レビュー・データベース12aより、ユーザIDのユーザに関して、文章データの受信時間(投稿日時)を取得する。また、システム制御部14は、ショッピングサーバ20と通信を行い、ユーザIDに基づき、会員データベース22bより、ユーザIDのユーザの商品の購買履歴を取得する。そして、図8に示すようにシステム制御部14は、商品の注文番号等に基づき、購買履歴の注文日時(注文時間)t1と投稿日時t2とから、商品の注文時間と、商品レビュー投稿時間との関係グラフを生成する。
次に、投稿文章分析サーバ10は、投稿時間−注文時間グラフのパターンを判別する(ステップS7)。具体的には、図9に示すように、投稿時間−注文時間グラフのパターンを予め類別しておき、どのパターンに属するか、投稿文章分析サーバ10のシステム制御部14が判別する。例えば、図9(A)に示すように、商品を定期的に購入してその都度商品レビューを書いたり、定期的な商品購入で無くても商品を購入して商品が届いたら直ぐに商品レビューを投稿したりする定期投稿型の場合や、図9(B)に示すように、定期的に購入したり、多くの商品を購入したりしていて、商品レビューのみ一気に投稿するサボり投稿型や、図9(C)に示すように、いわゆる大人買いのように一気に商品を注文して一気に商品レビューを書く集中型等がある。
このように、投稿文章分析サーバ10のシステム制御部14は、文章データが、商品レビューに関する文章であって、文章データに関する時間情報と商品の注文時間との関係に基づき、クラスタリング手段によりクラスタリングされた文書データ群に対して、文書データ群を類別する文書類別手段の一例として機能する。
(3.3 投稿文章のクラスタリングのサブルーチン)
次に、投稿文章のクラスタリングのサブルーチンについて説明する。
図10は、投稿文章分析サーバ10における投稿文章クラスタリングのサブルーチンの一例を示すフローチャートである。
ここで、本実施形態では、クラスタリング手法として、任意形状のクラスタを抽出する手法の一例のDBSCAN(Density-Based Spatial Clustering of Applications with Noise)を使用した。
まず、図10に示すように、投稿文章分析サーバ10は、DBSCANにおける閾値を設定する(ステップS10)。具体的には、投稿文章分析サーバ10のシステム制御部14は、文書間距離の閾値(Eps)と、クラスタリングにより分類される対象(文書データ)の対象数の閾値(MinPts)の2つのパラメータを設定する。
次に、投稿文章分析サーバ10は、対象数の初期値を設定する。(ステップS11)。具体的には、投稿文章分析サーバ10のシステム制御部14は、対象数の初期値として”1”を設定する。
次に、投稿文章分析サーバ10は、対象を設定する(ステップS12)。具体的には、投稿文章分析サーバ10のシステム制御部14は、対象数が”1”の場合、初期の対象としてのシードを決めたり、次の対象を決めたりする。初回の場合は、投稿文章分析サーバ10のシステム制御部14は、対象として文書r1を設定する。
次に、投稿文章分析サーバ10は、次の対象、すなわち、分類する対象がまだ存在するか否かを判定する(ステップS13)。具体的には、投稿文章分析サーバ10のシステム制御部14は、隣接する次の文章が存在するか否かを判定する。設定された対象が文章r1の場合、隣接する文書r2が存在する。
対象が存在する場合は(ステップS13;YES)、順序において隣接する文書の文書間距離の算出を行う(ステップS14)。具体的には、投稿文章分析サーバ10のシステム制御部14は、文書r1の文書データの文字列と、文書r2の文書データの文字列とのJaro−Winkler距離を計算する。ここで、文字列には、句読点や空白等も含まれる。また、Jaro−Winkler距離は、距離として0〜1で表現でき、図5Aに示すような文書の場合、文書r1と文書r2とは同じ文章なので、Jaro−Winkler距離は零となる。似ていない文章であればあるほど、Jaro−Winkler距離は1に近づく。このように投稿文章分析サーバ10のシステム制御部14は、文書データの句読点を含めた文字列を比較して、文書間距離を算出する文書間距離算出手段の一例として機能する。なお、文書間距離は、Jaro−Winkler距離に限らず、レーベンシュタイン距離により算出してよい。
次に、投稿文章分析サーバ10は、文書間距離が閾値以下であるか否かを判定する(ステップS15)。具体的には、投稿文章分析サーバ10のシステム制御部14は、文書間距離が閾値Eps以下であるか否かを判定し、文書間距離が閾値以下のように文書間距離が短い場合、対象をクラスタに含める候補とする。文書間距離がJaro−Winkler距離の場合、文書間距離の閾値Epsは、0〜1の値である。
文書間距離が閾値以下である場合(ステップS15;YES)、投稿文章分析サーバ10は、対象数が閾値以下であるか否かを判定する(ステップS16)。具体的には、投稿文章分析サーバ10のシステム制御部14は、対象数の閾値(MinPts)以下であるか否かを判定し、対象数が閾値以下のようにクラスタの最大要素数以下の場合、対象をクラスタに含める。ここで、対象数の閾値はクラスタの最大の大きさを規定している。
対象数が閾値以下である場合(ステップS16;YES)、投稿文章分析サーバ10は、対象をクラスタに含める(ステップS17)。具体的には、投稿文章分析サーバ10のシステム制御部14は、次の対象が文書r2の場合、文書r2を、文書r1をシードとするクラスタに含める。
ここで、ステップS14からステップS17は、対象である文書データの接続関係DDR(Directly Density Reachable)を、文書間距離の閾値Epsおよび対象数の閾値(MinPts)に基づき判定している。対象同士が文書データの接続関係にある場合、同じクラスタに属することになる。
次に、投稿文章分析サーバ10は、対象数のカウントを増やし(ステップS18)、ステップS12に戻る。具体的には、投稿文章分析サーバ10のシステム制御部14は、対象数のカウントを1つ増やし、次の対象(例えば、文書r2)に移る。
次に、文書間距離が閾値以下で無い場合や(ステップS15;NO)、対象数が閾値以下で無い場合は(ステップS16;YES)、ステップS11に戻り、投稿文章分析サーバ10のシステム制御部14は、対象数の初期値として”1”を設定する。ここで、文章データに関する時間情報に基づき、文章データが順序付けされていて探索領域が1次元なので、新たなクラスタの探索が開始される。
以上の処理を繰り返し、文章rnに達し、次の対象が存在しない場合は(ステップS13;NO)、1次のクラスタリングが終了する。そして、例えば、図7に示すようにクラスタリング結果が得られる。
これらのように、投稿文章分析サーバ10のシステム制御部14は、クラスタリングのシーズとなる文書データから出発し、文書間距離に基づき接続関係にある他の文書データを探索してクラスタリングを行うクラスタリング手段の一例として機能する。
次の対象が存在しない場合は(ステップS13;NO)、投稿文章分析サーバ10は、上位のクラスタの形成(ステップS19)。具体的には、投稿文章分析サーバ10のシステム制御部14は、図11に示すように、例えば、クラスタに含まれなかった文書r4、r5等を除き、1次のクラスタ間で隣接する文書同士(例えば文書r3−文書r6)の接続関係を判定する。接続関係にあれば、投稿文章分析サーバ10のシステム制御部14は、クラスタ同士を融合させ、上位のクラスタとする。ここで上位のクラスタリングにおいては、接続関係を判定するためのパラメータを1次のクラスタリングのパラメータと異なってもよい。また、上位のクラスタを求める際、クラスタ間の距離として、セントロイド等でもよい。
投稿文章分析サーバ10のシステム制御部14は、クラスタリング手段により生成したクラスタにおいて、クラスタ間の距離を算出して、上位クラスタを算出する前記上位クラスタリング手段の一例として機能する。
このように本実施形態によれば、ユーザ端末30からユーザが投稿してくる文章データを受信して文書データを記憶し、文章データに関する時間情報に基づき、文章データを順序付けし、この順序で隣接する文章データの文書間の文書間距離を算出し、この文書間距離に基づき、文書データをクラスタリングすることにより、ユーザから投稿される文章を高速に分析できる。また、クラスタの形成の有る無しや、クラスタの構成により、ユーザの文章の癖や性質や、文章の投稿における行動パターンを分類できる。
また、投稿文章分析サーバ10のシステム制御部14が、文章データの受信順序に基づき、文章データを順序付けする場合、ユーザの書き方の癖等の判別ができる。例えば、商品レビュー等の文章を一気に書いて投稿している場合、コピー&ペーストの機能を使う可能性や、前に書いた文章の影響があるため、似ている文書データは時系列上に連続して現れやすく、このような文章やユーザの行動パターンを判別に利用できる。
また、投稿文章分析サーバ10のシステム制御部14が、文書データを比較して、文書同士の類似性に基づき、文書間距離を算出する場合、文章の内容やスタイルが似た文章同士がクラスタを形成し、ユーザの書き方の癖等の判別がしやすくなる。
また、投稿文章分析サーバ10のシステム制御部14が、文書データの句読点を含めた文字列を比較して、文書間距離を算出する場合、特に文章のスタイルが似た文章同士がクラスタを形成させることができる。
また、投稿文章分析サーバ10のシステム制御部14が、クラスタリングのシーズとなる文書データから出発し、文書間距離に基づき接続関係にある他の文書データを探索してクラスタリングを行う場合、クラスタ対象のシーズから出発して、接続関係にある対象を拾っているので、任意の形状のクラスタを抽出できる。また、接続関係でクラスタを判定しているため、文書データが順序付けられ、1次元に並んでいるので、高速にクラスタリングができる。
また、投稿文章分析サーバ10のシステム制御部14が、生成したクラスタにおいて、クラスタ間の距離を算出して、上位クラスタを算出する場合、上位のクラスタを求めることにより、精度のよいクラスタが形成でき、分析の精度の向上を図ることができる。
また、投稿文章分析サーバ10のシステム制御部14が、文章データが、商品レビューに関する文章であって、文章データに関する時間情報と商品の注文時間との関係に基づき、クラスタリング手段によりクラスタリングされた文書データ群に対して、文書データ群を類別する場合、文書データ群をクラスタにより判別した上に、ユーザの注文行動と文章の投稿行動との行動パターンにより、より分析の精度を高めたり、ユーザのタイプの細かい分類ができたり、ユーザの書き方の癖等の判別がしやすくなったりする。
[4.本実施形態の適用例]
次に、本実施形態の適用例について説明する。
図12Aから図12Fは、ステップS5において、クラスタが形成された文章群に対して、商品レビューに対して投稿時間―注文時間のグラフを求めた結果の一例を示す線図である。
図12Aおよび図12Bは、図9(A)に示すような定期投稿型に分類される。図12Cおよび図12Dは、図9(B)に示すようなサボり投稿型に分類される。図12Cの場合は、ユーザが商品レビューをまとめて投稿している。図12Dの場合は、ユーザは、ある特定の日に商品レビューをまとめて投稿してくる傾向がある。
図12Eおよび図12Fは、図9(C)に示すような集中型に分類される。図12Eの場合は、いわゆる大人買いをして、一気に商品レビューを投稿してきた場合である。
図12Fの場合は、図5Aや図5Bに示したような文書を投稿してくるユーザに対応する。図5Aの文章のように、一部改変するタイプや、図5Bの文章のように、一部、文を加えてくるタイプであり、文章の内容を手抜きして商品レビューを投稿してくるユーザに見られるタイプである。
このように本適用例は、クラスタを形成した文書群に対して、さらにタイプ別に分類できたことを示している。
なお、本実施形態では、各ユーザに分けて、分析方法を適用したが、複数のユーザの文章に適用することも可能である。また、一人のユーザが複数のユーザIDを有する場合にもあり、ユーザIDによらず、ユーザを判定する際にも有効である。また、投稿順は、文章を作成された日時が特定されるならば、文章の作成順でもよい。
また、本実施形態では、主に商品レビューの文章に対する適用を示してきたが、ブログの分析も高速に行うことができる。また、注文時間の代わりに、ブログの書き込み間隔や、他人の書き込みに対するレスポンス時間等も用いてもよい。
さらに、本発明は、上記各実施形態に限定されるものでは無い。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
1:投稿文章分析システム
10:投稿文章分析サーバ
11:通信部
12:記憶部
12a:商品レビュー・データベース
12b:ブログ・データベース
14:システム制御部
30:ユーザ端末

Claims (9)

  1. ユーザ端末からユーザが投稿してくる文データを受信する文データ受信手段と、
    前記文書データを記憶する文書データ記憶手段と、
    前記文データに関する時間情報に基づき、前記文データを順序付けする文書順序付け手段と、
    前記順序で隣接する前記文データの文書間の文書間距離を算出する文書間距離算出手段と、
    前記文書間距離に基づき、前記文書データをクラスタリングするクラスタリング手段と、
    前記クラスタリング手段によりクラスタリングされた文書データ群に対して、前記文書データの投稿時間の関数とした投稿のパターンに応じて、前記文書データ群を類別する文書類別手段と、
    を備えたことを特徴とする投稿文分析装置。
  2. 請求項1に記載の投稿文分析装置において、
    前記文書類別手段が、前記文書データが、商品レビューに関する文書であって、前記文書データの投稿時間に関する投稿時間情報と商品の注文時間との関係を示す前記投稿のパターンに応じて、前記文書データ群を類別することを特徴とする投稿文分析装置。
  3. 請求項1または請求項2に記載の投稿文分析装置において、
    前記文書順序付け手段が、前記データの受信順序に基づき、前記文データを順序付けすることを特徴とする投稿文分析装置。
  4. 請求項1から請求項のいずれか1項に記載の投稿文分析装置において、
    前記文書間距離算出手段が、前記文書データを比較して、文書同士の類似性に基づき、文書間距離を算出することを特徴とする投稿文分析装置。
  5. 請求項1から請求項のいずれか1項に記載の投稿文分析装置において、
    前記文書間距離算出手段が、前記文書データの句読点を含めた文字列を比較して、文書間距離を算出することを特徴とする投稿文分析装置。
  6. 請求項1から請求項のいずれか1項に記載の投稿文分析装置において、
    前記クラスタリング手段が、クラスタリングのシーズとなる前記文書データから出発し、前記文書間距離に基づき接続関係にある他の前記文書データを探索してクラスタリングを行うことを特徴とする投稿文分析装置。
  7. 請求項1から請求項のいずれか1項に記載の投稿文分析装置において、
    前記クラスタリング手段により生成したクラスタにおいて、クラスタ間の距離を算出して、上位クラスタを算出する位クラスタリング手段を更に備えたことを特徴とする投稿文分析装置。
  8. 投稿文書分析装置が投稿された文書を分析する投稿文書分析方法であって、
    ユーザ端末からユーザが投稿してくる文データを受信する文データ受信ステップと、
    文書データを記憶する文書データ記憶ステップと、
    前記文データに関する時間情報に基づき、前記文データを順序付けする文書順序付けステップと、
    前記順序で隣接する前記文データの文書間の文書間距離を算出する文書間距離算出ステップと、
    前記文書間距離に基づき、前記文書データをクラスタリングするクラスタリングステップと、
    前記クラスタリングステップにおいて、クラスタリングされた文書データ群に対して、前記文書データの投稿時間の関数とした投稿のパターンに応じて、前記文書データ群を類別する文書類別ステップと、
    を有することを特徴とする投稿文分析方法。
  9. コンピュータを、
    ユーザ端末からユーザが投稿してくる文データを受信する文データ受信手段、
    文書データを記憶する文書データ記憶手段、
    前記文データに関する時間情報に基づき、前記文データを順序付けする文書順序付け手段、
    前記順序で隣接する前記文データの文書間の文書間距離を算出する文書間距離算出手段、
    前記文書間距離に基づき、前記文書データをクラスタリングするクラスタリング手段、および、
    前記クラスタリング手段によりクラスタリングされた文書データ群に対して、前記文書データの投稿時間の関数とした投稿のパターンに応じて、前記文書データ群を類別する文書類別手段として機能させることを特徴とする投稿文分析装置用プログラム。
JP2010016226A 2010-01-28 2010-01-28 投稿文書分析装置、投稿文書分析方法、および、投稿文書分析装置用プログラム Active JP5170787B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010016226A JP5170787B2 (ja) 2010-01-28 2010-01-28 投稿文書分析装置、投稿文書分析方法、および、投稿文書分析装置用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010016226A JP5170787B2 (ja) 2010-01-28 2010-01-28 投稿文書分析装置、投稿文書分析方法、および、投稿文書分析装置用プログラム

Publications (2)

Publication Number Publication Date
JP2011154586A JP2011154586A (ja) 2011-08-11
JP5170787B2 true JP5170787B2 (ja) 2013-03-27

Family

ID=44540486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010016226A Active JP5170787B2 (ja) 2010-01-28 2010-01-28 投稿文書分析装置、投稿文書分析方法、および、投稿文書分析装置用プログラム

Country Status (1)

Country Link
JP (1) JP5170787B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078878B (zh) * 2019-12-06 2023-07-04 北京百度网讯科技有限公司 文本处理方法、装置、设备及计算机可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204991A (ja) * 1992-01-30 1993-08-13 Hitachi Ltd 時系列データ検索方法およびこれを用いた検索システム
JP3489279B2 (ja) * 1995-07-21 2004-01-19 株式会社日立製作所 データ分析装置
JPH1153387A (ja) * 1997-08-06 1999-02-26 Ibm Japan Ltd 文書の関連付け方法及びそのシステム
JP2005063249A (ja) * 2003-08-18 2005-03-10 Fuji Xerox Co Ltd 分類結果表示装置および方法
JP4146326B2 (ja) * 2003-10-24 2008-09-10 株式会社東芝 時系列活動データ分析装置、方法及びプログラム
JP2008210024A (ja) * 2007-02-23 2008-09-11 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JP4936455B2 (ja) * 2007-03-22 2012-05-23 日本電信電話株式会社 文書分類装置、文書分類方法、プログラムおよび記録媒体
JP2010146031A (ja) * 2007-10-19 2010-07-01 Nec Corp 情報分析装置、情報分析方法、及び情報分析用プログラム

Also Published As

Publication number Publication date
JP2011154586A (ja) 2011-08-11

Similar Documents

Publication Publication Date Title
US11107118B2 (en) Management of the display of online ad content consistent with one or more performance objectives for a webpage and/or website
US20210158187A1 (en) System and method for detecting friction in websites
US8073865B2 (en) System and method for content extraction from unstructured sources
US8311957B2 (en) Method and system for developing a classification tool
US8355997B2 (en) Method and system for developing a classification tool
US20170053208A1 (en) Behavioral Prediction for Targeted End Users
US20190311395A1 (en) Estimating click-through rate
US11127063B2 (en) Product and content association
US20130282704A1 (en) Search system with query refinement
CN113077317B (zh) 基于用户数据的物品推荐方法、装置、设备及存储介质
JP2013517563A (ja) ユーザ通信の解析システムおよび方法
JP6373462B1 (ja) 予測装置、予測方法及び予測プログラム
JP2009193465A (ja) 情報処理装置、情報提供システム、情報処理方法、およびプログラム
JP6976207B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20140101293A1 (en) Apparatus and method for providing issue record, and generating issue record
CN109615437A (zh) 销售获客跟踪管理方法
JP2008146293A (ja) 閲覧対象情報の評価システム、方法、およびプログラム
JP2020013413A (ja) 判断支援装置および判断支援方法
KR20220102054A (ko) 사용자 분석 데이터를 활용하는 커머스 플랫폼 서버 및 이를 이용한 서비스 제공 방법
JP5293970B2 (ja) 商品推奨方法及び商品推奨システム
JP5170787B2 (ja) 投稿文書分析装置、投稿文書分析方法、および、投稿文書分析装置用プログラム
CN113127597A (zh) 搜索信息的处理方法、装置及电子设备
JP5787924B2 (ja) クラスタ形成装置、クラスタ形成方法及びクラスタ形成プログラム
Wu et al. [Retracted] Using the Mathematical Model on Precision Marketing with Online Transaction Data Computing
CN111460300B (zh) 网络内容推送方法、装置及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121221

R150 Certificate of patent or registration of utility model

Ref document number: 5170787

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250