JP5129082B2

JP5129082B2 - 引用判定方法及びそれを用いた評判抽出方法

Info

Publication number: JP5129082B2
Application number: JP2008265751A
Authority: JP
Inventors: 竜己小林
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2008-09-12
Filing date: 2008-09-12
Publication date: 2013-01-23
Anticipated expiration: 2028-09-12
Also published as: JP2010067243A

Description

本発明は、ブログなどの記事について、ニュースなどの引用の有無を判定する技術の改良に関する。

近年、インターネットと情報通信機器の普及成熟に伴い、企業など大規模組織からの情報発信にとどまらず、個々人のインターネットユーザから情報を発信する手段も急速に普及した。その一例は、ブログ、ＳＮＳ（ソーシャル・ネットワーキング・サービス）、電子掲示板などで、新形態も次々登場しているが、これらはＵＧＣ（ＵｓｅｒＧｅｎｅｒａｔｅｄＣｏｎｔｅｎｔ）と総称される。

これらＵＧＣの代表例はブログ（ウェブログ）であり、その典型的な形態は、サービス提供会社のウェブサーバ上に、個人が好みのテーマやタイトル、デザインでブログのウェブサイトを開設し、気の向いたテーマで日記風の記事を記述する。記事に対しては、ブログの設定に応じ、面識ある知人やその他の閲覧者が「コメント」などと呼ばれる応答記事を投稿できる。

なお、このようなＵＧＣにおける記事、コメント、トラックバック、レス（レスポンス）などの投稿単位を本出願では「ユーザ記事」と総称する。他方、報道機関などがニュースサイトで配信するようなニュース記事や、教育機関や学会などがウェブサイトに掲載する学術論文などの記事は、本出願では「公表記事」と総称して、前記ユーザ記事と区別することとする。

そして、上記のようなユーザ記事に企業や商品の好悪など評判が記述された場合の影響力増大に伴って、情報の収集や管理などのため、ブログなどのユーザ記事から、製品やサービスの名称、企業名などと共に、それらに対する「よい」「だめ」などの評判情報を抽出して、ポジティブ／ネガティブを判定する技術も登場し、評判判定と呼ばれている。

このような評判判定の技術の一例として、特許文献１では、ネットワーク上の文書から対象物と評価表現からなる評価対を抽出して、機械学習により評価対の規則を学習する例や、また、トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて評価対となりうる規則を学習し、未知の文書から評価対を抽出する例を示している。
特開２００７−２１９８８０号公報

しかし、ブログ等のユーザ記事は、必ずしも全文をユーザが独自に記述したものとは限らず、例えば、ニュース等を引用してコメントを記入するといったものもある。このようなユーザ記事に対して上記のような従来の評判抽出の技術をそのまま適用すると、ニュース等で記者等が記述している評判情報も抽出してしまうため、評判判定の精度が低下するという課題があった。

このため、ユーザ記事ごとに、ニュースなどが引用されているか否かの判定を行う必要があり、このような引用の有無を判定する基本的な手段としては、ニュース１件１件と、ブログなど全てのユーザ記事とを、文字列として比較照合することも考えられるが、この場合、その組合せ数の多さから処理量が膨大になるうえ、一部引用を考慮して一部一致の判定まで加えると、処理負荷はさらに飛躍的に膨張し、適用が現実的とはいえない。

また、ＳＶＭ（サポート・ベクター・マシン）などの機械学習を用い、ニュース等の特徴を表す教師データを作成して事前学習をさせたうえ、その教師データへの類似性を判定させる手法もありうるが、教師データの作成は非常に手間であり、事前のオフライントレーニングを要するため迅速性やリアルタイム性にも劣り、さらに、教師データに過剰適合して本番データの判定精度が落ちる等の弊害や、ネット上に流れる様々なニュース形態や記載スタイルの今後の変遷に対応するのは困難といった問題もあった。

本発明は、上記のような従来技術の課題を解決するもので、その目的は、教師データ作成や事前学習の負担や弊害無しで、ブログなどユーザ記事との類似性を迅速・高精度に判定可能にすることである。

上記の目的をふまえ、本発明は以下のような各態様を含むものであり、また、装置に加え、同様な方法及びコンピュータ・プログラムについても、以下の各態様に準ずるものである。

（１）本発明の一態様は、記事間の引用をコンピュータで判定する引用判定装置であって、引用する側として引用判定の対象とするユーザ記事をウェブ上からデータとして取得するユーザ記事収集手段と、引用される側として引用判定の対象とする公表記事をウェブ上からデータとして取得する公表記事取得手段と、前記ユーザ記事収集手段で収集した前記各ユーザ記事を記憶するユーザ記事記憶手段と、前記公表記事取得手段で取得した前記各公表記事を記憶する公表記事記憶手段と、前記ユーザ記事記憶手段に記憶されている前記各ユーザ記事の集合に、前記公表記事記憶手段に記憶されている前記各公表記事を教師データとして加えた全体集合にクラスタリングを行うことにより、前記ユーザ記事がいずれかの前記公表記事を引用しているか否かを判定する、引用判定手段と、を前記コンピュータの演算制御部で実現することを特徴とする。

このように、本番の引用判定において、判定対象のユーザ記事群についてニュースなどの公表記事自体との類似度を判断することにより、教師データや事前学習無しでユーザ記事とニュース等の引用有無を迅速かつ高精度に判定可能となる。しかも、実際のニュース等の本番データで教師データを兼ねることにより、人為的に教師データを作成する負担も無く、教師データに過剰適合し本番データの判定精度が落ちる等の弊害も避けながら、ネット上に登場する様々な記載スタイルのニュース形式にも柔軟に対応可能となる。
また、引用有無判定の対象とするユーザ記事群に、引用される側すなわちターゲットクラスである公表記事を加えた上で全体をクラスタリングし、公表記事を含むクラスタを取得することにより、公表記事への類似度すなわち引用可能性の高い高純度なユーザ記事を抽出できるうえ、ＳＶＭなどオフライントレーニングタイプの機械学習よりも、新規の様々なニュースへの対応が迅速容易になる。

（２）本発明の他の態様は、上記いずれかの態様において、前記ユーザ記事収集手段で収集した前記各ユーザ記事及び前記公表記事取得手段で取得した前記各公表記事を、それぞれ段落ごとに分割する段落分割手段、を前記演算制御部で実現すると共に、前記引用判定手段は、前記段落分割手段で分割された前記各ユーザ記事の各段落及び前記各公表記事の各段落を対象として、前記引用の判定を行うように構成したことを特徴とする。

このように、ユーザ記事と公表記事の双方を段落単位に分割のうえ類似度判断による引用判定を行うことにより、ニュース等の一部引用についても高精度に判定可能となる。

（３）本発明の他の態様は、上記いずれかの引用判定装置の構成に加え、記事から評判対象を抽出する評判対象抽出手段と、記事から前記評判対象に対する評判を表す評判情報を抽出する評判情報抽出手段と、前記評判対象抽出手段で抽出した評判対象と、この評判対象に対する評判として前記評判情報抽出手段で抽出した評判情報と、に基いて評判を判定する評判判定手段と、を前記演算制御部で実現すると共に、前記引用判定手段で前記公表記事が引用されていないと判定したユーザ記事について、評判対象抽出手段で評判対象を抽出し、評判情報抽出手段で前記評判対象に対する評判を表す評判情報を抽出することを特徴とする評判判定装置。

このように、本発明の引用判定で引用でないと判定したユーザ記事について、評判対象と評判情報の抽出対象とすることにより、ニュースなどに含まれる好悪等の評判情報を除いて評判抽出を行うこととなり、評判判定の精度を効果的に向上させることが可能となる。

（４）本発明の他の態様は、上記態様の評判判定装置において、ユーザ記事を分割した一部の段落が前記公表記事からの引用部分であると前記引用判定手段が判定した場合に、前記評判対象抽出手段は、その引用部分から評判対象を抽出する一方、前記評判情報抽出手段は、同じユーザ記事のうち前記引用部分を除く段落から評判情報を抽出するように構成したことを特徴とする。

このように、一部の段落が公表記事の引用と判定した場合に、引用されているニュース等から主題となる企業名、製品名、人名等の評判対象を抽出することで評判対象が明確となることに加え、引用以外の段落からはその対象についての評判情報を抽出するので、ニュース等を引用しているユーザ記事も評判判定に有効活用可能となる。

（５）本発明の他の態様は、上記態様の評判判定装置において、前記公表記事ごとに、一部の段落がその公表記事からの引用部分であると前記引用判定手段で判定した前記各ユーザ記事と、各ユーザ記事から前記評判情報抽出手段で抽出した前記評判情報と、を記憶する評判情報記憶手段と、前記コンピュータに設けた画面表示装置もしくは通信ネットワーク経由で接続される他のコンピュータに、前記評判情報を出力する情報出力手段と、を前記コンピュータの前記演算制御部で実現し、前記情報出力手段は、前記評判情報記憶手段に記憶されている各情報に基いて、前記公表記事ごとに、その公表記事からの引用部分を持つ各ユーザ記事と、前記評判情報と、を表示することを特徴とする。

このように、個々の公表記事に対して、その公表記事を引用した各ユーザ記事と、各ユーザ記事から抽出した評判情報と、を一画面で表示するユーザインタフェースにより、各公表記事に対するユーザの記述や評判が一見把握容易になり、広報等の情報政策への有効活用が容易になる。

以上のように、本発明によれば、教師データ作成や事前学習の負担や弊害無しで、ブログなどユーザ記事との類似性を迅速・高精度に判定可能となる。

次に、本発明を実施するための最良の形態（以下「本実施形態」と呼ぶ）について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。

本実施形態は、図１の構成図に示すように、記事間の引用をコンピュータで判定する引用判定装置１を含む評判判定装置（以下「本装置」と呼ぶ）２に関するものであるが、本発明は、引用判定装置１や評判判定装置２に対応する情報処理の方法及びコンピュータ・プログラムとしても把握可能である。

なお、本実施形態では、引用する側として引用判定の対象とするユーザ記事としてブログを例にとり、引用される側として引用判定の対象とする公表記事としてニュースを例にとるものとする。なお、ここで「ブログ」「ニュース」は、それぞれウェブサイトではなくウェブサイトにおける個別の記事を意味するものとする。

〔構成〕
まず、本装置は、ユーザ記事収集手段としてのブログ収集部５と、公表記事取得手段としてのニュース取得部１０と、段落分割手段としてのブログ分割部１５並びにニュース分割部２０と、ユーザ記事記憶手段としてのブログ記憶部２５と、公表記事記憶手段としてのニュース記憶部３０と、引用判定手段としての引用判定部４０と、評判情報抽出手段としての評判情報抽出部４５と、評判対象抽出手段としての評判対象抽出部５０と、評判判定手段としての評判判定部６０と、評判情報記憶手段としての評判情報記憶部６５と、情報出力手段としての情報出力部７０と、を有する。

これら各手段としての各部は、コンピュータの図示しない演算制御部（ＣＰＵなど）を所定のコンピュータ・プログラム（引用判定プログラムや評判判定プログラム）で制御することにより実現するもので、本発明や本実施形態を構成する以下のような各機能や処理ステップを実現・実行する処理手段である。

なお、本装置を実現している前記コンピュータは、ＨＤＤや主メモリ等の記憶装置、マウスや液晶表示装置などの入出力装置、ネットワークとの通信回路などを有し、前記演算制御部はこれらハードウェアを利用して前記各部や各手段を実現するが、これらハードウェア事態は一般的であるため、図示や詳説は省略する。

〔基本的な作用効果〕
上記のように構成した本装置における基本的な作用効果としては、まず、ブログ収集部５が、ユーザ記事であるブログＡ，Ｂ，Ｃ…をウェブ（ＷＷＷ：ＷｏｒｌｄＷｉｄｅＷｅｂ）上から、インターネットに代表される通信ネットワークＮ経由でデータとして取得し（ユーザ記事収集処理ステップ）、また、ニュース取得部１０が、ニュースＸ，Ｙ…を同様にウェブ上からデータとして取得し（公表記事取得処理ステップ）、それぞれブログ記憶部２５とニュース記憶部３０に記憶させる。

そして、引用判定部４０が、クラスタリングにより、ブログ記憶部２５に記憶されている各ブログについて、ニュース記憶部３０に記憶されている各ニュースとの類似度を判断することにより、いずれかのニュースを引用しているか否かを判定する（引用判定処理ステップ）。

このように、本番の引用判定において、判定対象のブログ群についてニュース自体との類似度を判断することにより、教師データや事前学習無しでブログとニュースの引用有無を迅速かつ高精度に判定可能となる。

しかも、実際のニュースの本番データで教師データを兼ねることにより、人為的に教師データを作成する負担も無く、教師データに過剰適合し本番データの判定精度が落ちる等の弊害も避けながら、ネット上に登場する様々な記載スタイルのニュース形式にも柔軟に対応可能となる。

〔引用判定の手法〕
また、引用判定には広義の機械学習を用いることも考えられるが、潜在的意味インデキシング（ＬＳＩ：ＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ）を用いたクラスタリングが最も望ましい。ここで、機械学習は、教師あり機械学習、教師なし機械学習、強化学習に分けることができ、教師あり機械学習の例は、バックプロパゲーション、サポートベクターマシン、ＩＤ３、単純ベイズ分類器、事例ベース推論、ブースティングなどがある。

教師あり学習の中でも、特に代表的なアルゴリズムであるサポートベクターマシン（ＳＶＭ：ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）は、ソフトウェアで実現され、高次元特徴空間において線形関数の仮説空間を用いる学習システムであり、その学習結果は、妥当データの集合と非妥当データの集合とを識別するための識別面、及びサポートベクターを含む。

また、教師なし機械学習の例は、クラスタリング（クラスター分析）、主成分分析、ベクトル量子化、自己組織化マップなどがあり、クラスタリングのなかでも、階層クラスタリングとして最短距離法（単連結法）、最長距離法（完全連結法）、群平均法、ウォード法などがあり、分割最適化クラスタリングとしてＫ平均法（ｋ−ｍｅａｎｓ）などがあり、ワンパス・クラスタリングなども含め、任意の公知の技術を用いることができる。

そして、ここでクラスタリングに用いる潜在的意味インデキシング（ＬＳＩ：ＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ）は、大規模なテキストデータ群から単語の意味を、意味空間上のベクトルとして表現するための数学的・統計的手法であり、文書ごとの特徴的な語句集合、類似の文脈で使用されている語句集合を抽出し、抽出された特徴語句でタグ付けされた類似文書ごとにクラスタリングするものである。

特に、階層的クラスタリングによって、ベクトルの類似度を用い、類似している文書（あるいは語句）をクラスタリングすることができ、図２（概念図）に例示するように、見たい所望のクラスタ階層で切り取ることができる。なお、各文書には、その文書を特徴付ける特徴語（概念語）が付与されているが、特徴語は、必ずしも文書内に直接明記されているものには限定されない。

但し、潜在的意味インデキシングを用いたクラスタリングは必須ではなく、他の機械学習アルゴリズムに置き換えたり組み合わせれば、それら他の機械学習アルゴリズムの利点も活用可能となる。すなわち、クラスタリングと他の機械学習は、いずれか一方のみを用いてもよいし、双方の手段を用意しておき、使い分けたり、組み合わせて併用してもよい。

例えば、図３の概念図は、引用判定部４０が、潜在的意味インデキシングを用いたクラスタリングを行うクラスタリング部４２と、他の機械学習を行う機械学習部４４と、を併有する可能性も示している。

そして、潜在的意味インデキシングを用いたクラスタリングでは、引用判定部４０（特にクラスタリング部４２）は、各ブログに各ニュースＸ１などを合わせた対象アイテム４１から、上記のような潜在的意味インデキシングを用いたクラスタリングにより、各ニュースを含むクラスタを取得することにより、ニュースに対し所定以上の類似度を持つ各ブログを抽出する。

例えば、ニュースＸ１と同じクラスタｘ１に含まれる各ブログは、ニュースＸ１の引用の可能性が高く、同様に、ニュースＹ１と同じクラスタｙ１に含まれる各ブログは、ニュースＹ１の引用の可能性が高い。これら各ブログは、ニュースからの引用と判定できる。一方、いずれのニュースとも異なるクラスタｂを構成する各ブログは、ニュースからの引用の可能性は低く、例えば、親記事であるブログや、ブログに対するコメントと判定できる。

このように、引用有無判定の対象とするブログ群に、引用される側すなわちターゲットクラスであるニュースを、いわば従来の教師データの役割を兼ねる本番データとして加えた上で全体をクラスタリングし、ニュースを含むクラスタを取得することにより、ニュースへの類似度すなわち引用可能性の高い高純度なブログを抽出できるうえ、ＳＶＭなどオフライントレーニングタイプの従来型機械学習よりも、新規の様々な内容や記載スタイルのニュースへの対応が迅速容易になる。

〔評判の抽出〕
本装置では、上記のような引用判定の結果を、評判抽出の高精度化に利用し、引用判定部４０で引用でないと判定したブログについて、通常の評判抽出を行う。すなわち、評判対象抽出部５０が、ブログから評判対象を抽出し（評判対象抽出処理ステップ）、評判情報抽出部４５が、前記評判対象に対する評判を表す評判情報をブログから抽出し（評判情報抽出処理ステップ）、評判判定部６０が、これら抽出した評判対象と評判情報と、に基いて評判を判定する（評判判定処理ステップ）。

評判の判定は、多数のブログをもとに、評判対象である会社名、組織名、サービス名、商品名、政策名などごとに、「良い」「悪い」「好き」「嫌い」「ヤバイ」「イマイチ」などの評判情報を、予め分類された肯定的、否定的評判情報の別ごとに集計したり、評判情報のレベル別に予め付与したスコアを集計するなどによって行う。

そして、このような評判情報やその判定結果は、表計算ワークシートなどのファイルや、グラフなどの表示等の形で、所定の評判情報記憶部６５に保存し、また、操作に応じて外部へ出力する。

〔段落への分割〕
以上のような処理は、ブログの全体、ニュースの全体に対して行っても、もちろん本発明の優れた効果を奏するが、ブログやニュースを段落単位に分割して適用すれば、一部引用についても優れた効果を奏する。

この場合、例えば、ブログ収集部５で収集した各ブログＡやニュース取得部１０で取得した各ニュースＸは、それぞれブログ分割部１５及びニュース分割部２０が段落ごとにブログＡ１とＡ２，ニュースＸ１とＸ２のように分割して（段落分割処理ステップ）、引用判定部４０は、このように分割された各ブログの各段落及び各ニュースの各段落を対象として、前記引用の判定を行う。

このように、ブログとニュースの双方を段落単位に分割のうえ類似度判断による引用判定を行うことにより、ニュースの一部引用についても高精度に判定可能となる。

また、ブログを分割した一部の段落がニュースからの引用部分であると引用判定部４０が判定した場合に、評判対象抽出部５０は、その引用部分から評判対象を抽出する一方、評判情報抽出部４５は、同じユーザ記事のうち前記引用部分を除く段落から評判情報を抽出する。

例えば、図１の例において、段落に分割されたブログＡ１，Ａ２，Ｂ１，Ｂ２，Ｃ１，Ｃ２のうち、ブログＡ１，Ｂ１がニュースからの引用部分と判定されたと仮定すると、評判情報抽出部４５が評判情報の抽出対象とするのは、引用でないブログＣ１，Ｃ２のほか、引用でない部分のブログＡ２，Ｂ２である。一方、評判対象抽出部５０が評判対象の抽出を行うのは、引用でないブログＣ１，Ｃ２のほか、引用部分であるブログＡ１，Ｂ１である。

〔フローの例〕
以上のような機能作用を実現する情報処理の手順を図４のフローチャートに例示する。この処理手順の例では、ブログの収集（ステップＳ１）及びニュースの収集を（ステップＳ２）所定のタイミングまで行ったうえ（ステップＳ３）、段落単位で処理する設定の場合は（ステップＳ４）収集・取得したブログ及びニュースを段落単位に分割する（ステップＳ５）。

そして、ブログとニュース全体又は上記のように分割した段落を単位として、各ブログがいずれかのニュースの引用かを判定し（ステップＳ６）、この判定結果に応じて各ブログから評判情報と評判対象とを抽出し（ステップＳ７）、抽出した評判情報と評判対象から評判を判定する（ステップＳ８）。

また、図４において判定結果に応じて各ブログから評判情報と評判対象とを抽出する処理（ステップＳ７）を、より具体化したフローチャートを図５に示す。すなわち、引用の判定済みで評判に関する抽出が未処理のブログ（段落単位の処理の場合はブログの段落）を一つ取り出し（ステップＳ７１）、それがニュースの引用についてどのように判定されたものかを判断する（ステップＳ７２）。

この判断で、ブログ全体がニュースの引用であれば（ステップＳ７２）、そのブログについては評判情報も評判対象も抽出しないが、引用無しとの判定であれば（ステップＳ７２）、そのブログ全体から評判情報と評判対象を抽出する（ステップＳ７３）。

また、一部段落が引用との判定だった場合は（ステップＳ７２）、引用でない段落からは評判情報を抽出する（ステップＳ７４）一方、同じブログのうち引用である段落からは評判対象を抽出する（ステップＳ７５）。いずれの場合も、その後、判定済みで未処理のブログがまだ残っていれば（ステップＳ７６）、次のブログ（又はその段落）の処理を続ける（ステップＳ７１以降）。

このように、一部の段落がニュースの引用と判定した場合に、引用されているニュースの部分からは、主題となる企業名、製品名、人名等の評判対象を抽出することで評判対象が明確となることに加え、引用以外の段落からはその対象についての評判情報を抽出することにより、ニュースを引用しているブログも評判判定に有効活用可能となる。

〔評判情報等の表示〕
上記のように抽出した評判情報は、ニュースごとに、関連する各ブログとともに画面表示することが望ましい。具体的には、評判情報記憶部６５に、ニュースごとに、一部の段落がそのニュースからの引用部分であると引用判定部４０で判定した各ブログ（ブログ内容ではなく、ブログを特定する識別情報でよい）と、各ブログから評判情報抽出部４５で抽出した前記評判情報と、を記憶しておき、情報出力部７０が、コンピュータに設けた図示しない画面表示装置もしくはインターネットＮ経由で接続される他のコンピュータであるクライアント端末Ｃに、前記評判情報を出力する。

この際、情報出力部７０は、評判情報記憶部６５に記憶されている上記各情報に基いて、図６の表示例に示すように、ニュース８０ごとに、そのニュースからの引用部分を持つ各ブログ、すなわち引用ブログ８１，８２，８３と、各ブログから評判情報抽出部４５で抽出した前記評判情報と、を表示する。記憶しておいたり表示出力する評判情報の態様は自由で、例えば、肯定的評価を「○」、否定的評価を「×」、中間的評価を「△」のようにブログ単位に表示してもよいし、それらの集計結果８５を数値やグラフなどとして表示してもよい。

このように、個々のニュースに対して、そのニュースを引用した各ブログと、各ブログから抽出した評判情報と、を一画面で表示するユーザインタフェースにより、各ニュースに対するユーザの記述や評判が一見把握容易になり、広報等の情報政策への有効活用が容易になる。

〔他の実施形態〕
なお、上記実施形態は例示に過ぎず、本発明は、以下の例及び他の実施形態も含むものである。例えば、ユーザ記事はブログに限らず電子掲示板の投稿など自由に選択可能であり、同様に、公表記事もニュースに限らず、学術論文や、白書のような公共機関による公表資料など、自由に選択可能である。

また、ユーザ記事や公表記事を段落単位に分割して扱う構成や処理は、必須ではなく省略も可能である。さらに、本発明は引用判定装置１のみでも実施可能であり、この場合、図１に示した評判判定装置２特有の構成である評判情報抽出部４５、評判対象抽出部５０、評判判定部６０、評判情報記憶部６５は省略可能である。

また、クラスタリングにおいて、共通のカテゴリタグを含むなど相互に類似ニュースと予め判っているものが一つのクラスタに存在する数の正確さで、全対象物を最適なクラスタ数、すなわち樹形図状の多段包含（統合）関係を有するクラスタに区分する適切な基準が判定可能である。

この場合のアルゴリズムの例としては、例えば、類似度が高いもの同士による部分集合の生成から始めて、ボトムアップ方向に、部分集合同士をまとめるクラスタリングを進める。そして、全てのクラスタを見て、同じカテゴリタグのニュースが全て含まれた時点でそのカテゴリについてはそのときのクラスタで決定とする。

一方、この際でも、他のカテゴリタグのニュースが、まだ異なる複数のカテゴリにわたって配分されていた場合は、そのカテゴリについては、もう一段上で統合されるクラスタに範囲を広げて確認を行う。

例えば、図７の例において、同じ「オリンピック」というカテゴリタグ（アスタリスク記号で表す）を含む文書を５つ含む文書群をクラスタリングした結果、語句集合に基づく各文書間の類似性に基づきボトムアップ式に、図７に例示するツリー構造が判明した場合を考える。

この場合、破線Ｌ１の位置で他と区切ることとなるクラスタＣＬ１（破線で囲んだ範囲）を採用すれば、同じ「オリンピック」カテゴリタグの文書５つがちょうど全部含まれることから、適切なクラスタ分けと判断できる。なお、共通のカテゴリタグを持つニュースの必ずしも全数を含むクラスタに限らず、若干の誤差を許容値としてクラスタを決定することも可能である。

本発明の実施形態の構成を示す機能ブロック図。クラスタリングの結果得た階層的なクラスタを、所望の見たいクラスタ階層で切り取ってまとめる様子を示す概念図。本発明の実施形態における引用判定を示す概念図。本発明の実施形態における処理手順を示すフローチャート。本発明の実施形態において、引用判定の結果に応じてブログから評判情報及び評判対象を抽出する処理手順を示すフローチャート。本発明の実施形態において、評判判定結果の画面表示例を示す図。本発明の実施形態におけるクラスタリングの一例を示す概念図。

符号の説明

Ｎインターネット
１引用判定装置
２評判判定装置
５ブログ収集部
１０ニュース取得部
１５ブログ分割部
２０ニュース分割部
２５ブログ記憶部
３０ニュース記憶部
４０引用判定部
４５評判情報抽出部
５０評判対象抽出部
６０評判判定部
６５評判情報記憶部
７０結果出力部

Claims

記事間の引用をコンピュータで判定する引用判定装置であって、
引用する側として引用判定の対象とするユーザ記事をウェブ上からデータとして取得するユーザ記事収集手段と、
引用される側として引用判定の対象とする公表記事を配信サイトからデータとして取得する公表記事取得手段と、
前記ユーザ記事収集手段で収集した前記各ユーザ記事を記憶するユーザ記事記憶手段と、
前記ユーザ記事記憶手段に記憶されている前記各ユーザ記事の集合に、前記取得された各公表記事を教師データとして加えた全体集合にクラスタリングを行うことにより、該公表記事を含むクラスタを取得し、該公表記事と同じクラスタに含まれているユーザ記事は、該公表記事を引用している可能性が高いと判定し、いずれの公表記事も含まれていないクラスタ内のユーザ記事は公表記事からの引用の可能性が低いと判定する引用判定手段と、
を前記コンピュータの演算制御部で実現することを特徴とする引用判定装置。
前記ユーザ記事収集手段で収集した前記各ユーザ記事及び前記公表記事取得手段で取得した前記各公表記事を、それぞれ段落ごとに分割する段落分割手段、を前記演算制御部で実現すると共に、
前記引用判定手段は、前記段落分割手段で分割された前記各ユーザ記事の各段落及び前記各公表記事の各段落を対象として、前記引用の判定を行うように構成した
ことを特徴とする請求項１記載の引用判定装置。
請求項１又は２記載の引用判定装置の構成に加え、
記事から評判対象を抽出する評判対象抽出手段と、
記事から前記評判対象に対する評判を表す評判情報を抽出する評判情報抽出手段と、
前記評判対象抽出手段で抽出した評判対象と、この評判対象に対する評判として前記評判情報抽出手段で抽出した評判情報と、に基いて評判を判定する評判判定手段と、
を前記演算制御部で実現すると共に、
前記引用判定手段で前記公表記事が引用されていないと判定したユーザ記事について、評判対象抽出手段で評判対象を抽出し、評判情報抽出手段で前記評判対象に対する評判を表す評判情報を抽出する
ことを特徴とする評判判定装置。
ユーザ記事を引用部分と被引用部分に分割した結果、該ユーザ記事の中から、該引用部分を評判対象として抽出し、該被引用部分を評判情報として抽出することを特徴とする請求項３記載の評判判定装置。
前記公表記事ごとに、一部の段落がその公表記事からの引用部分であると前記引用判定手段で判定した前記各ユーザ記事と、各ユーザ記事から前記評判情報抽出手段で抽出した前記評判情報と、を記憶する評判情報記憶手段と、
前記コンピュータに設けた画面表示装置もしくは通信ネットワーク経由で接続される他のコンピュータに、前記評判情報を出力する情報出力手段と、
を前記コンピュータの前記演算制御部で実現し、
前記情報出力手段は、前記評判情報記憶手段に記憶されている各情報に基づいて、前記公表記事ごとに、その公表記事からの引用部分を持つ各ユーザ記事と、前記評判情報と、を表示する
ことを特徴とする請求項４記載の評判判定装置
記事間の引用をコンピュータで判定する引用判定方法であって、
前記コンピュータの演算制御部により、ユーザ記事収集手段と、公表記事取得手段と、ユーザ記事記憶手段と、引用判定手段と、を実現するとともに、
前記ユーザ収集手段により、引用する側として引用判定の対象とするユーザ記事をウェブ上からデータとして取得する、ユーザ記事収集処理ステップを実行し、
前記公表記事取得手段により、引用される側として引用判定の対象とする公表記事を配信サイトからデータとして取得する、公表記事取得処理ステップを実行し、
前記ユーザ記事記憶手段に、前記ユーザ記事収集手段で収集した前記各ユーザ記事を記憶し、
前記引用判定手段により、前記ユーザ記事記憶手段に記憶されている前記各ユーザ記事の集合に、前記取得された各公表記事を教師データとして加えた全体集合にクラスタリングを行うことにより、該公表記事を含むクラスタを取得し、該公表記事と同じクラスタに含まれているユーザ記事は、該公表記事を引用している可能性が高いと判定し、いずれの公表記事も含まれていないクラスタ内のユーザ記事は公表記事からの引用の可能性が低いと判定する、引用判定処理ステップを実行する
ことを特徴とする引用判定方法。
コンピュータを制御することにより、記事間の引用を判定させる引用判定プログラムであって、
そのプログラムは、
前記コンピュータの前記演算制御部を制御することにより、ユーザ記事収集手段と、公表記事取得手段と、ユーザ記事記憶手段と、引用判定手段と、を実現させるとともに、
前記ユーザ収集手段により、引用する側として引用判定の対象とするユーザ記事をウェブ上からデータとして取得する、ユーザ記事収集処理ステップを実行させ、
前記公表記事取得手段により、引用される側として引用判定の対象とする公表記事を配信サイトからデータとして取得する、公表記事取得処理ステップを実行させ、
前記ユーザ記事収集手段で収集した前記各ユーザ記事を、前記ユーザ記事記憶手段に記憶させ、
前記引用判定手段により、前記ユーザ記事記憶手段に記憶されている前記各ユーザ記事の集合に、前記取得された各公表記事を教師データとして加えた全体集合にクラスタリングを行うことにより、該公表記事を含むクラスタを取得し、該公表記事と同じクラスタに含まれているユーザ記事は、該公表記事を引用している可能性が高いと判定し、いずれの公表記事も含まれていないクラスタ内のユーザ記事は公表記事からの引用の可能性が低いと判定する、引用判定処理ステップを実行させる
ことを特徴とする引用判定プログラム。