JP2007219880A

JP2007219880A - 評判情報処理プログラム、方法及び装置

Info

Publication number: JP2007219880A
Application number: JP2006040283A
Authority: JP
Inventors: Tetsuro Takahashi; 哲朗高橋; Kanji Uchino; 寛治内野; Aoshi Okamoto; 青史岡本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-02-17
Filing date: 2006-02-17
Publication date: 2007-08-30
Also published as: US20070198530A1; US7599926B2

Abstract

【課題】評判情報を高い精度と広い範囲で抽出し、評判情報の多様な分析を可能とし、更に評価表現から対象の属性の自動抽出を可能とする。
【解決手段】評価対抽出部１８はネットワーク上に存在する文書を解析して対象物と評価表現からなる評価対を抽出して評価対データベース２０に登録する。評価対分析部２４はデータベースの評価対を利用してカテゴリ推定、特異評価表現抽出、比較分析などの分析を実行する。評価対は対象物と評価表現を組み合わせたデータであり、対象物は、商品名、メーカ名等を含む評価を受けうる固有物であり、評価対の評価表現は、好きや使いにくい等を含む評価を表わす語句である。評価対抽出部１８はモデル文書から抽出した評価対を機械学習器に与えて評価対となりうる規則を学習させ、学習後に未知の文書から対象物と評価表現を正しく組合わせて評価対を抽出する。
【選択図】図１

Description

本発明は、インターネット上のウェブページのテキスト文書等からユーザの書いた評判情報を抽出して分析する評判情報処理プログラム、方法及び装置に関し、特に、ユーザの書いたテキスト文書から対象物と評価表現を組合わせた評価対を評判情報として抽出して分析する評判情報処理プログラム、方法及び装置に関する。

従来、インターネット上のウェブからユーザの書いたテキスト文書に含まれる商品やメーカ等の評判情報を抽出して分析やマーケティングに用いるデータマイニングの分野に属する処理方法は、これまでにいくつか存在し、例えば次に列挙する方法がある。

（１）対象物と評価表現が両方含まれる文書を検索する方法（特許文献１、２）。
（２）検索された語から一定距離以内に評価表現があればその評価表現を検索語の評判情報と判別する方法（特許文献３、４）。
（３）単語列の形式のパタンを用いて抽出する方法（特許文献５、６）。
（４）ユーザにより与えられた検索語に対する評判情報を抽出する方法（特許文献７〜１０）。
特開２００１-１５５０２１号公報特開２００５-０６３２４２号公報特開２００２-０９１９８１号公報特開２００２-１７５３３０号公報特開２００３-２７１６０９号公報特開２００４-１５７８４１号公報特開２００１-１５５０２１号公報特開２００２-０９１９８１号公報特開２００２-１７５３３０号公報特開２００５-０６３２４２号公報

しかしながら、このような従来のインターネット上のユーザの書いた評判情報を抽出し分析やマーケティングに用いる方法は、次のような問題がある。

（１）及び（２）の方法は、偶然に同一文書または同一文書内の近くに出現した対象物と評価表現も抽出してしまうため、抽出された評判情報の精度が低いという問題がある。

（３）の方法は、対象物とその評判がアンダーラインに示すように、
「日本は住みやすい」
のように連続して現われる場合にはパタンにより抽出が可能であるが、実際の文書では
「私は今、日本に住んでいますが、とても住みやすいです」
のように離れて出現することが多いので、パタンを使っただけでは拾い出しの精度が低いという問題がある。

（４）の方法は、ユーザが入力しなかった対象物についての評判情報を得ることができず、また複数の対象物間の比較が困難であるという欠点がある。

また、分析のために可視化する方法としては、意見の単純な分布や時系列上に意見の数をプロットする手法しか提案されていないが、それだけではマーケティングに十分な分析はできない。

更に、分析のための重要な情報として属性がある。例えば対象物「映画」についてはキャスティングや音楽、ストーリーがあり、また対象物「パソコン」についてはＣＰＵ速度、メモリ容量、ＨＤＤ容量などかある。しかしながら、これらの属性の情報は人手により与えるしかなく、大きなコストがかかる。

本発明は、評判情報を高い精度と広い範囲で抽出し、評判情報の多様な分析を可能とし、更に評価表現から対象の属性の自動抽出を可能とする評判情報処理プログラム、方法及び装置を提供することを目的とする。

（プログラム）
本発明は評判情報処理プログラムを提供する。本発明の評判情報処理プログラムは、コンピュータに、
ネットワーク上に存在する文書を解析して対象物と評価表現を組合わせた評価対を抽出してデータベースに登録する評価対抽出ステップと、
データベースの評価対を利用して所望の分析を実行する評価対分析ステップと、
を実行させることを特徴とする。

ここで、評価対の対象物は、商品名、メーカ名等を含む評価を受けうる固有物であり、評価対の評価表現は、好きや使いにくい等を含む評価を表わす語句である。

評価対抽出ステップは、
トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて評価対となりうる規則を学習させる評価対学習ステップと、
機械学習器に未知の文書を入力して学習した規則に基づいて評価対を抽出する評価対抽出実行ステップと、
を備える。

評価対学習ステップは、
モデル文書を形態素解析する形態素解析ステップと、
形態素解析されたモデル文書から固有表現と名詞句を抽出して対象物とする対象物抽出ステップと、
形態素解析されたモデル文書から評価表現辞書を用いて評価表現を抽出する評価表現抽出ステップと、
対象物と評価表現を組合わせた評価対候補を抽出し、評価対候補の特徴量を抽出すると共に評価対候補の組み合わせが正解か否かを設定する学習用評価対抽出ステップと、
学習用評価対の特徴量と正解を機械学習器に入力して学習用評価対となりうる規則を学習させた評価対分類モデルを生成するモデル作成ステップと、
を備える。

評価対抽出実行ステップは、
未知の文書を形態素解析する形態素解析ステップと、
形態素解析された未知の文書から固有表現と名詞句を抽出して対象物とする対象物抽出ステップと、
形態素解析された未知の文書から評価表現辞書を用いて評価表現を抽出する評価表現抽出ステップと、
対象物と評価表現を組合わせた評価対候補を抽出する評価対候補抽出ステップと、
評価対候補を前記機械学習器に入力し、評価対分類モデルを用いて評価対候補の特徴量を抽出し、所定値以上の特徴量をもつ評価対候補を未知の文書の評価対に決定してデータベースに登録する評価対決定ステップと、
を備える。

形態素解析ステップは、日本語、中国語、韓国語などの単語をスペースで区切らない言語の文書に対しのみ実行し、英語、ドイツ語、フランス語のように単語をスペースで区切る言語の文書は処理をスキップする。

評価対抽出ステップは、対象物と評価表現を組合わせた評価対に、更に、拡張情報として、文書ＩＤ、評価表現IＤ、ＵＲＬを含むネットワークアドレス、固有名詞か一般名詞かの対象物の種類を追加する。

評価対分析ステップは、
指定されたカテゴリを特定する１又は複数の評価表現を入力する入力ステップと、
入力した評価表現毎にデータベースから評価対を検索する評価対検索部と、
検索された評価対を指定カテゴリに属する評価対と推定してデータベースに登録するカテゴリ推定部と、
を備える。ここで、カテゴリ推定部は、検索された評価対の数が所定の最低要素数以上の場合、指定カテゴリに属する評価対と推定する。

評価対分析ステップは、カテゴリに属する複数の対象物の間の評価表現の分布の差に基づいて、対象物に特異な評価表現を判定する判定ステップを備える。この判定ステップは、評価表現の特異性を判定する特異度ＵＥ（Ｃ，ａ，ｅ）として、

但し、Ｃはカテゴリ
ａは対象物
ｅは評価表現
ｆｒ（ａ、ｅ）は対象物ａの評価対の数
ｆｒ（ｉ、ｅ）は対象物ａ以外の評価対の数
εは分母をゼロとしないための定数
を算出し、特異度が所定の閾値以上の場合に特異な評価表現と判定する。

評価対分析ステップは、カテゴリに属する複数の対象物が共通にもつ評価表現毎の出現回数を対象物毎に検出し、複数の対象物につき評価表現の度合いを比較表示させる評価度合判定ステップを備える。評価度合判定ステップは、対象物について検出した複数の評価表現の出現回数によりレーダーチャートを描画して表示する。

評価対分析ステップは、
指定された対象物と評価表現からなる評価対に付加された文書ＩＤをデータベースから検索し、文書ＩＤに対応する文書を取得する文書取得ステップと、
取得した文書に含まれる対象物以外の語句を抽出して出現回数を計数し、出現回数の多い語句を対象物の評価表現の原因又は理由となる共起語として抽出する共起語分析ステップと、
を備える。

評価対分析ステップは、
指定された対象物と評価表現からなる評価対に付加されたブログ等のネットワークアドレスをデータベースから検索し、ネットワークアドレスにアクセスして文書を取得するネットワーク文書取得ステップと、
取得した文書に含まれる評価表現の出現回数を計数し、ネットワークアドレスを書き手として評価表現の出現回数を登録したユーザプロファイルを作成するプロファイル作成ステップと、
を備える。

評価対分析ステップは、評価対データベースからネットワークアドレス毎に評価表現の出現数を計数し、所定閾値以上の出現数をもつネットワークアドレスをコマースサイトやスパムブログ等の不適切なサイトとし、その評価対を評価対データベースから削除する。

評価対分析ステップは、カテゴリに属する対象物の持つ属性を抽出する属性抽出ステップを備える。

属性抽出ステップは、
指定された対象物と評価表現からなる評価対に付加された文書ＩＤをデータベースから検索して対応した文書を取得する文書取得ステップと、
取得した文書に含まれる対象物以外の語句を抽出して出現回数を計数し、出現回数の多い語句を対象物の評価表現の原因又は理由となる共起語として抽出する共起語分析ステップと、
を備え、共起語分析ステップで抽出された共起語を前記対処物の属性とする。

属性抽出ステップは、指定された評価表現を含む評価対の組合せをデータベースから検索し、評価対の組合せに含まれる対象物の間に属性関係を設定する評価対組合せ分析ステップを備える。

属性抽出ステップは、
ネットワーク上に存在する文書を解析し、対象物と、変数Ｘに評価表現を組み合わせた拡張評価表現を組合わせた評価対を抽出してデータベースに登録する拡張評価対抽出ステップと、
指定された対象物の評価対をデータベースから検索し、検索した評価対の拡張評価表現の変数Ｘを対象物の属性として抽出する変数抽出ステップと、
を備える。

（方法）
本発明は評判情報処理方法を提供する。本発明の評判情報処理方法は、
ネットワーク上に存在する文書を解析して対象物と評価表現を組合わせた評価対を抽出してデータベースに登録する評価対抽出ステップと、
データベースの評価対を利用して所望の分析を実行する評価対分析ステップと、
を備えたことを特徴とする。

（装置）
本発明は評判情報処理装置を提供する。本発明は評判情報処理装置は、
ネットワーク上に存在する文書を解析して対象物と評価表現を組合わせた評価対を抽出してデータベースに登録する評価対抽出部と、
データベースの評価対を利用して所望の分析を実行する評価対分析部と、
を備えたことを特徴とする。

本発明によれば、インターネット等のネットワーク上に存在するウェブページから取得したユーザのテキスト文書を対象に、「メーカ」や「商品」などの対象物と、「よい」、「悪い」といったユーザの意見を示す評価表現とを組合わせた評価対を機械学習を用いて抽出してデータベースに登録することにより、ネットワーク上の評判情報を高い精度と広い範囲で効率的に自動収集することができる。

この場合、機械学習に基づいて評価対の抽出を行うことにより、抽出精度を上げることができる。また文書の形態素解析に基づき固有表現抽出と名詞句同定を行うことで、自動的に任意の対象物と評価表現からなる評価対を抽出することができる。

またデータベースに登録された対象物と評価表現でなる評価対を利用して多様な分析を行うことができる。この分析には、
（１）評価表現の種類による対象物のカテゴリ推定、
（２）特定の対象物に特異な評価表現の抽出、
（３）対象物に対する評価表現の比較、
（４）対象物に対する評価表現の原因や理由となる語句である共起語による分析、
（５）ブログなどのユーザプロファイルの作成、
（６）特定の対象物のカテゴリが持つ属性の抽出、
等が含まれる。

図１は本発明の評判情報処理プログラムにより実現される装置機能の実施形態を示したブロック図である。図１において、本発明の評判情報処理装置１０は、インターネットなどのネットワーク１２を介してウェブサーバ１４−１〜１４−４をアクセス可能であり、ウェブサーバ１４−１〜１４−４上のユーザの書いたテキスト文書１６−１〜１６−４を取得してテキスト文書１６−１〜１６−４から評判情報を抽出して、抽出した評判情報を分析する。

評判情報処理装置１０には、評価対抽出部１８、評価対データベース２０、アンカーマップ作成部２２及び評価対分析部２４が設けられている。

本実施形態にあっては、評価対とは対象物と評価表現を組合わせた組と定義する。対象物とは商品名やメーカー名などの評価を受けうる固有物を指す。また評価表現とは「好き」や「使いにくい」などのユーザの対象物に対する意見となる評価を表す語句を指す。

評価対抽出部１８には評価対学習部２６と評価対抽出実行部２８が設けられている。評価対学習部２６は、トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて、評価対となり得る規則を学習させる。評価対抽出実行部２８は、学習器械に未知の文書を入力して、学習した規則に基づいて評価対を抽出し、評価対データベース２０に登録する。

評判情報の分析のためには大量の評価対を精度良く抽出する必要がある。本実施形態にあっては、評価対を抽出するため機械学習器を用いて高い精度と広い範囲での評価対の抽出を行う。機械学習器を用いた評価対の抽出は、評価対学習部２６により評価対の情報を予め付与した文書を機械学習器に与え、機械学習器において評価対となり得る規則を学習させることで評価対分類モデルを生成する。

評価対抽出実行部２８は、評価対学習部２６で作成された学習規則である評価対学習モデルを用いて未知の文書から評価対を抽出して、評価対データベース２０に登録する。本実施形態の評価対抽出部１８で使用する機械学習器としては、例えばＢｏｏｓｔｉｎｇなどの既存の技術を適用することができる。

また評価対の抽出にあっては、対象文書の中から対象物を抽出する必要があるが、対象物の抽出には辞書に加えて固有表現抽出と名詞句同定を用いる。この固有表現抽出と名詞句同定により抽出された語句が対象物として扱われる。また対象文書から評価表現を抽出する場合には評価表現辞書を用いる。評価表現辞書には「良い」「きれい」などのポジティブな評価表現、「使いづらい」、「不便」のようなネガティブな評価表現、更にそれ以外の評価表現が予め登録されている。

アンカーマップ作成部２２は、評価対抽出部１８により抽出された評価対が登録された評価対データベース２０を対象に、例えばカテゴリ単位で分類された評価対を読み出し、対象物をアンカーとして固定することで対象物に対する評価表現の出現数をアンカーマップで表現したり、また評価表現をアンカーとして固定し対象物の出現数をアンカーマップで表現するといった評判情報のビジュアルマイニングに必要なアンカーマップを表示する。

評価対分析部２４には、カテゴリ推定部３０、特異評価表現抽出部３２、比較分析部３４、共起語分析部３６、ユーザプロファイル作成部３８、フィルタリング処理部４０、更に属性抽出部４２が設けられている。この評価対分析部２４にあっては、評価対データベース２０に登録された評価表現と対象物を組合わせた評価対を利用することにより、多種多様な分析を行う。

本実施形態にあっては、評価対分析部２４に設けられたカテゴリ推定部３０、特異評価表現抽出部３２、比較分析部３４、共起語分析部３６、ユーザプロファイル作成部３８及びフィルタリング処理部４０の機能により、次の分析を行う。

（１）評価表現の種類による対象物のカテゴリ推定
（２）特定の対象物に特異な評価表現の抽出
（３）評価表現の度合の比較
（４）共起語による分析（なお共起語とは評価対における対象物の評価表現の原因または理由となる文書中に高い頻度で出現する語句と定義される）。
（５）ユーザプロファイルの作成
（６）コマンスサイトやスワムプロムのフィルタリング

更に属性抽出部４０にあっては、評判情報の分析のための重要な情報として位置付けられる属性の抽出を行う。例えば対象物「映画」については属性として「キャスティング」、「音楽」、「ストーリー」などがあり、また対象物「パソコン」については属性として「ＣＰＵ速度」、「メモリ容量」、「ＨＤＤ容量」などがあるが、従来はこれらの属性の収集は人為的な操作で行うしかなかった。

本発明にあっては例えば共起語、評価対の組合せ、評価表現辞書のマッチング登録内容の拡張などを用いて、属性の自動抽出を行うことができる。本発明における属性の自動抽出は、例えば次の３つの手法をとっている。

（１）共起語による属性の抽出
（２）評価対の組合せによる属性の抽出
（３）評価表現、辞書、マッチング機能の拡張による属性の抽出
これら評判情報処理装置１０に設けられた評価対抽出部１８及び評価対分析部２４の詳細は後の説明で更に明らかにされる。

図２は本実施形態に使用されるコンピュータのハードウェア環境のブロック図である。図２において、ＣＰＵ４４のバスには、ＲＡＭ４８、ＲＯＭ５０、ハードディスクドライブ５２、キーボード５６，マウス５８及びディスプレイ６０を接続するデバイスインタフェース５４、更にネットワークアダプタ６２が設けられる。

ハードディスクドライブ５２には本実施形態の評判情報処理プログラムが格納されており、コンピュータを起動した際に、ブートアップに続くＲＡＭ４８へのＯＳの展開後にハードディスクドライブ５２からＲＡＭ４８上に読み出されてＣＰＵ４４により実行される。

図３は本実施形態による評判情報処理の基本的な手順のフローチャートであり、図１を参照して説明すると次のようになる。図３において、ステップＳ１で評価対学習部２６がトレーニング用のモデル文書から抽出した評価対を機械学習器に与えて評価対となり得る規則を学習させる。

続いてステップＳ２でインターネットのウェブページなどのテキスト文書を未知の文書として機械学習器に入力し、ステップＳ１で学習した規則に基づいて評価対を自動抽出して評価対データベース２０に登録する。

ステップＳ３にあっては、必要に応じてアンカーマップ作成部２２で評価対データベース２０に登録されている評価対の集合を対象に、評価対の対象物または評価表現のいずれか一方をアンカーとして固定してアンカーマップを作成表示する。

更にステップＳ４で、評価対分析部２４が評価対データベース２０に登録された自動収集された評価対を利用して多種多様な評判情報の分析処理を実行する。

図４は図１の評価対学習部２６の詳細を示したブロック図である。図４において、評価対学習部２６は、モデル文書データベース６４、形態素解析部６６、対象物抽出部６８、評価表現抽出部７４、評価表現辞書７６、評価対候補抽出部７８、機械学習器８０及び評価対分類モデル８２を備えている。更に対象物抽出部６８には固有表現抽出部７０と名詞句同定部７２が設けられている。

この機能構成を持つ評価対学習部２６にあっては、モデル文書データベース６４に対象物と評価表現、更に両者の関係について正解か不正解かが付与されたモデル文書が登録されており、このモデル文書を使用してトレーニングを行う。

形態素解析部６６は、モデル文書データベース６４からトレーニング用に読み出したモデル文書を対象に形態素解析を実行する。モデル文書の形態素解析は、モデル文書が日本語、中国語、ハングル語などのように、単語がスペースで区切られずに連続している言語の場合に使用される。英語やドイツ語などのように単語がスペースで区切られている言語の文書については形態素解析６６の処理は不要である。

対象物抽出部６８はモデル文書から商品名やメーカー名などの対象物を抽出する。対象物の抽出には、固有表現抽出部７０による固有表現を対象物として抽出する処理と、名詞句同定部７２による名詞句を対象物として抽出する処理が行われる。さらに一般名詞については辞書（図示せず）を使用して抽出される。

評価表現抽出部７４は、モデル文書から対象物に対するユーザの意見となる「好き」や「使いにくい」などの評価を表す語句を評価表現として抽出する。評価表現の抽出は評価表現辞書７６を使用して行われる。評価表現辞書７６には「好き」、「きれい」、「すごい」といったポジティブな評価表現、「陳腐」、「残念」、「最低」といったネガティブな表現、更には、いずれにも属さないその他の評価表現が予め登録されている。この評価表現辞書７６に登録している評価表現と対象文書中の語句とのマッチングにより評価表現を抽出する。

評価対候補抽出部７８は、対象物抽出部６８で抽出された対象物と評価表現抽出部７４で抽出された対象物を組み合わせて評価対候補を作成し、作成した評価対候補について特徴量を抽出すると共に、評価対候補の組み合わせが正しいか否か、即ち正解か不正解かの解答を設定し、各評価対候補について求めた特徴量と解答を機械学習器に入力して、評価対となり得る規則の学習結果である評価対分類モデルを作成する。

ここで評価対候補について抽出する特徴量としては
（１）評価表現と対象物との距離、
（２）評価表現と対象物の種類、
（３）評価表現と対象物の周りの語句、
などがあり、複数の特徴量ｆ１，ｆ２，ｆ３，・・・ｆｎを求め、予め判明している特徴量ｆ１〜ｆｎに対する「解答」を設定する。ここで特徴量に対する解答としては評価対候補における対象物と評価表現の組み合わせが正しければ「正解」を設定し、間違っていれば「不正解」を設定する。この場合、例えば「正解」は「１」で表現され、「不正解」は「０」で表現される。

一例として、ある対象物と評価表現の評価対につき特徴量ｆ１，ｆ２，ｆ３，・・・ｆｎが求められ、この評価対に正解が設定されたとすると、特徴量と正解の関係は
｛（ｆ１，ｆ２，ｆ３，・・・ｆｎ），（正解）｝
として表される。例えば特徴量ｆ１〜ｆｎを有り無しに対応した０，１で表現すると、
｛（１１０１・・・０），（１）｝
と表現することができる。

このようにして評価対候補について抽出された特徴量と解答との関係を機械学習器に入力することで、解答を得るための各特徴量の重みｗ１，ｗ２，・・・ｗｎを評価対分類モデル８２として生成する。この特徴量ｆ１〜ｆｎと学習により得られた重みｗ１〜ｗｎの関係は、評価対が正解か不正解かを示す特徴量のスコアＳとして例えば次式で与えられる。
Ｓ＝ｗ１・ｆ１＋ｗ２・ｆ２＋・・・＋ｗｎ・ｆｎ（１）
ここで、算出されたスコアＳが所定の閾値を超えていれば正解「１」、閾値以下であれば不正解「０」とすることになる。

したがって、学習処理にあっては、特徴量ｆ１〜ｆｎが既知で、スコアＳに基づく回答も正解「１」または不正解「０」と既知であることから、両者を学習器に入力して評価対となる得る規則である重みｗ１〜ｗｎの値を学習により決定し、決定した重みｗ１〜ｗｎを評価対分類モデル８２として登録する。

なお、上記の説明にあっては、特徴量について説明を簡単にするため、特徴量を閾値と比較して特徴量の有無を示す０又は１の２値で扱っているが、特徴量を連続的なアナログ量として扱うようにしても良いことはもちろんである。

図５及び図６は日本語のモデル文書を対象とした図４の評価対学習処理の説明図である。図５において、トレーニング用のモデル文書８４は、ユーザが映画「オペラ座の怪人」を観賞した際の意見が記述されている。このモデル文書８４につき、形態素解析処理８６により形態素解析文書８８を生成する。形態素解析文書８８は、文書を「／」で示すように区切って単語に分ける処理となる。

次に、形態素解析文書８８について対象物抽出処理９０を実行する。対象物抽出処理９０は、一般名詞を抽出する辞書を使用する以外に、本実施形態にあっては固有表現抽出処理と名詞句同定処理を実行している。対象物抽出処理９０の実行で得られた対象物抽出文書９２にあっては、例えば対象物９４として「オペラ座の怪人」と、対象物９６として「ファントム」が抽出されている。

続いて図６の評価表現抽出処理９８を実行する。評価表現抽出処理９８にあっては、図４に示した評価表現辞書７６を利用して図５の形態素解析文書８８からマッチングする評価表現を抽出して、評価表現抽出リスト１００を生成する。この例にあっては、評価表現抽出リスト１００には例えば、評価表現１０２，１０４，１０６，１０８として「まあまあ」、「面白い」、「すごい」、「陳腐」などが抽出されている。

次に評価対候補抽出処理１１０を実行する。評価対候補抽出処理１１０は、図５の対象物抽出文書９２から得られた対象物「オペラ座の怪人」と「ファントム」につき、図６の評価表現抽出リスト１００の評価表現１０２〜１０８を組み合わせて、評価対候補１１４−１〜１１４−４と評価対候補１１６−１〜１１６−４を抽出する。

ここで評価対候補１１４−１〜１１４−４は対象物９４が同じ「オペラ座の怪人」であり、これに組み合わせている評価表現がそれぞれ異なった評価表現１０２〜１０８となっている。評価対候補１１６−１〜１１６−４については、対象物９６が同じ「ファントム」であり、評価表現１０２〜１０８がそれぞれ異なっている。

次に特徴量抽出処理１１８を実行する。特徴量抽出処理１１８は、評価対候補リスト１１２の中の評価対候補１１４−１〜１１４−４及び１１６−１〜１１６−４を対象に、特徴量１２２と解答１２４を求める。例えば評価対１１４−１を例にとると、評価表現と対象物の距離ｆ１、評価表現と対象物の種類ｆ２などの特徴量ｆ１〜ｆｎと、その解答１２４が正解であることを示す＋１を設定している。

このような特徴量抽出リスト１２０における評価対候補１１４−１〜１１４−４及び１１６−１〜１１６−４のそれぞれの｛特徴量ｆ１〜ｆｎ，正解／不正解｝を学習処理１２６により機械学習器に入力して学習させることで、前記（１）式のスコア計算に用いる重みｗ１，ｗ２，ｗ３，・・・ｗｎのそれぞれの値を分類モデル１２８として作成する。

図７は図４の評価対学習処理のフローチャートである。図７において、評価対学習処理は、ステップＳ１でモデル文書データベース６４からトレーニング用のモデル文書を読み込み、ステップＳ２で形態素解析部６６がモデル文書の形態素解析を行う。続いてステップＳ３で対象物抽出部６８が固有表現と名詞句から対象物を抽出し、ステップＳ４で評価表現抽出部７４が評価表現辞書７６を用いて評価表現を抽出する。

続いてステップＳ５で対象物と評価表現を組み合わせた評価対候補を評価対候補抽出部７８で抽出し、ステップＳ６で評価対候補に特徴量ｆ１〜ｆｎと正解または不正解を付与した後、ステップＳ７で特徴量と正解または不正解の組を機械学習器に入力して、評価対が正解か不正解かを求めるためのスコア計算に使用する例えば重みｗ１〜ｗｎを学習により求めて、評価分類モデルを作成する。

図８及び図９は英語の文書をモデル文書とした図４の評価対学習部２６の処理の説明図である。図８にあっては、トレーニング用のモデル文書８４−１として対象物と評価表現の関係が特定された英文モデル文書８４−１を入力する。英文モデル文書８４−１は、図５の日本語のモデル文書と同じユーザが映画「オペラ座の怪人」を観賞したときの意見を記述している。

入力した英文モデル文書８４−１につき、英文の場合には単語がスペースで区切られていることから、形態素解析部６６による形態素解析は行わず、次の対象物抽出部６８による対象物抽出処理９０−１を実行する。これにより得られた対象物抽出リスト９２−１につき、対象物９４−１として「ＰｈａｎｔｏｍｏｆｔｈｅＯｐｅｒａ」と対象物９６−１として「Ｐｈａｎｔｏｍ」を抽出する。

続いて図９の評価表現抽出処理９８−１に進み、評価表現抽出リスト１００−１に示すように英文の評価表現１０２−１，１０４−１，１０６−１，１０８−１，・・・を抽出する。続いて評価対候補抽出処理１１０−１を実行し、評価対候補リスト１１２−１に示すように評価対候補１１４−１〜１１４−４及び１１６−１〜１１６−４を抽出する。

次に特徴量抽出処理１１８−１を行い、特徴量抽出リスト１２０−１に示すように、評価対候補１１４−１〜１１４−４及び１１６−１〜１１６−４のそれぞれにつき、特徴量１２２としてｆ１〜ｆｎ、及び解答１２４として正解である「＋１」または不正解である「−１」を設定する。

そして特徴量抽出リスト１２０−１の各評価対から特徴量（ｆ１〜ｆｎ）と正解（＋１または−１）の組を機械学習器に入力して学習処理１２６−１により学習させ、特徴量ｆ１〜ｆ３の重みｗ１〜ｗｎの乗算による累積としてスコアＳが求められることから、学習によりスコアＳを求めるための特徴量ｆ１〜ｆｎの重みｗ１〜ｗｎの値を分類モデル１２８−１として生成する。

このように評判情報の処理対象が英文文書であった場合にも、日本語文書の場合と基本的に同様に評価対学習処理を行うことができる。

図１０は図１の評価対抽出実行部２８の詳細を示したブロック図である。図１０において、評価対抽出実行部２８には、ウェブ文書データベース１３０、形態素解析部１３２、対象物抽出部１３４、評価表現抽出部１４０、評価表現辞書１４１、評価対候補抽出部１４２、機械学習器１４４、評価対分類モデル８２が設けられる。ウェブ文書データベース１３０には、図１に示したネットワーク１２上のウェブサーバ１４−１〜１４−４から収集されたテキスト文書１６−１〜１６−４が格納されている。

形態素解析部１３２、対象物抽出部１３４、評価表現抽出部１４１、評価表現辞書１４２及び評価対候補抽出部１４２は、図４の評価対学習部１２６に設けている形態素解析部６６、対象物抽出部６８、評価表現抽出部７４、評価表現辞書７６及び評価対候補抽出部７８と同じものである。

評価対抽出実行部２８にあっては、評価対候補抽出部１４２から出力される評価対ごとの特徴量（ｆ１〜ｆｎ）に対し解答が「未知数」となっている。一方、機械学習器１４４に対しては図４の評価対学習部２６で作成された評価対分類モデル８２による学習済みの規則が与えられ、この学習済の規則を使用して評価対の特徴量についてスコアを計算し、スコアが所定の閾値より大きければ正解として、評価対候補を正しい評価対として評価対データベース２０に登録する。一方、評価対候補のスコアＳが閾値以下であった場合には評価対として不正解であることから、これは破棄することになる。

図１１は日本語の文書を対象とした図１０の評価対抽出実行部２８の処理動作の説明図であり、形態素解析、対象物抽出及び評価表現抽出については、図４の評価対学習部２６と同じであることから省略し、それ以降の特徴量抽出処理と分類処理を示している。また評価対抽出実行部２８で処理する未知の文書としては、説明を簡単にするため、図５の評価対学習処理に使用したモデル文書８４と同じ文書を未知の文書として処理する場合を例にとっている。

図１１にあっては、図５のモデル文書８４と同じ未知の文書につき形態素解析、対象物抽出、更に評価対候補抽出処理を経た後、特徴量抽出処理１４６により特徴量抽出ファイル１４８を生成する。特徴量抽出ファイル１４８にあっては、評価対候補１５０−１〜１５０−４及び１５２−１〜１５２−４につき、特徴量１５４として（ｆ１〜ｆｎ）が得られているが、正解１５６については「正解」または「不正解」は不明である。

そこで特徴量抽出ファイル１４８の評価対１５０−１〜１５０−４及び１５２−１〜１５２−４のそれぞれの特徴量（ｆ１〜ｆｎ）を機械学習器に入力し、評価対学習で得られた重みｗ１〜ｗｎを持つ評価対分類モデル８２を用いた（１）式のスコア計算を分類処理として実行する。

この分類処理により分類リスト１６０が得られ、分類リストにあっては、評価対１５０−１〜１５０−４及び１５２−１〜１５２−４のそれぞれにつき、スコア１６２が算出されている。このような分類リスト１６０につき、スコア１６２を予め定めた閾値例えば「０．０」と比較し、閾値「０．０」を超えていれば正解「＋１」、閾値「０．０」以下であれば不正解「−１」と判定する。

このスコアに対する正解又は不正解の判定により、評価対１５０−１，１５０−２及び１５２−４の３つが正解「＋１」であり、未知の文書から抽出された正しい組み合せをもつ評価対として評価対データベース２０−１に登録される。評価対データベース２０−１にあっては、対象物１７２、評価表現１７４及びスコア１７６を登録している。

ここで、評価対データベース２０−１に登録するのは対象物１７２と評価表現１７４、更にスコア１７６の３つが基本であるが、評価対データベース２０−１を利用した様々な分析を行うためには、評価対データベース２０に示すように、対象物１７２、評価表現１７４、スコア１７６に対し更に拡張領域１７０を設けている。

拡張領域１７０の拡張情報としては、例えばドキュメントＩＤ１７８、評価表現ＩＤ１８０、ＵＲＬ１８２及びタイプ１８４を設ける。ドキュメントＩＤ１７８は評価表現を抽出した文書を示すＩＤである。評価表現ＩＤ１８０は評価表現１７４の種類ごとに付加されるＩＤである。なお、評価表現１７４のカッコ内に示した「ｐ，ｎ，ｏ」は、「ｐ」はポジティブ、「ｎ」はネガティブ、更に「ｏ」はその他を示している。

ＵＲＬ１８２は抽出対象としたテキスト文書を持っているウェブページのネットワークアドレスを示す。更にタイプ１８４は、固有表現抽出と名詞句同定により抽出された対象物については「固有名詞（ＮＥ）」を設定し、それ以外の対象物については「一般名詞（ＮＯＵＮ）」を設定している。

このように評価対データベース２０として対象物、評価表現、スコアに加えて、拡張領域１７０の拡張情報を付加することで、次に説明する本実施形態における評価対を利用した様々な分析が可能となる。

図１２は図１０の評価対抽出処理のフローチャートである。図１２において、評価対抽出処理は、ステップＳ１でインターネット上のウェブページなどの未知の文書を格納したウェブ文書データベース１３０から未知の文書を読み込み、日本語の文書モデルの場合には、ステップＳ２で形態素解析部１３２により形態素解析を行った後、ステップＳ３で対象物抽出部１３４により固有表現抽出及び名詞句同定により対象物を特定し、更にそれ以外については辞書などを用いて一般名詞としての対象物の抽出を行う。

次にステップＳ４で、評価表現辞書１４１を用いて評価表現抽出部１４０で文書中から評価表現を抽出する。続いてステップＳ５で、抽出した対象物と評価表現を組み合わせた評価対候補を抽出する。

次にステップＳ６で、評価対候補について特徴量ｆ１〜ｆｎを抽出し、解答を「未定」として機械学習器に入力し、学習処理で得られている評価対分類モデル８２を使用して評価対を求め、求めたスコアを閾値と比較することで正解か不正解かを決定し、正解となった評価対候補につき、抽出した評価対として、ステップＳ７で評価対データベース２０に登録する。

続いてステップＳ８で拡張情報の指定の有無をチェックし、拡張情報の指定があった場合には、ステップＳ９で図１１の評価対データベース２０の拡張領域１７０に示す拡張情報を登録する。このステップＳ１〜Ｓ９の処理を、ステップＳ１０で処理終了があるまで繰り返す。

図１３は英文の未知の文書を対象とした図１０の評価対抽出処理の説明図である。英文の文書の場合には形態素解析部１３２による処理が不要であることから、対象物抽出部１３４による処理から開始し、評価表現抽出部１４０で評価表現を抽出した後、評価対候補抽出部１４２で対象物と評価表現を組み合わせた評価対候補を抽出する。

この評価対候補の抽出までは図８及び図９に示した学習処理の際の英語の文書の処理と同じであることから省略しており、それ以降の評価対候補抽出部１４２による特徴量の抽出及び分類処理を取り出して示している。

英文文書における特徴量抽出処理１４６−１は、図１１の日本語を対象とした特徴量抽出処理と基本的に同じである。そして評価対データベース２０−１にあっては、対象物１７２、評価表現１７４及びスコア１７６の３つを登録しているが、評価対を用いた分析処理のため、評価対データベース２０に示すように拡張領域１７０を追加し、ドキュメントＩＤ１７８、評価表現ＩＤ１８０、ＵＲＬ１８２及びタイプ１８４を設けている。

図１４は本実施形態の評価対データベースを利用し、評価対の評価表現をアンカーとして固定して作成したアンカーマップの説明図である。

図１４において、アンカーマップ１９０は、アンカー１９２，１９４，１９６，１９８として４つの評価表現「安全」、「安心」、「不満」、「不安」を固定し、この４つの評価表現と組み合わされている対象物である「Ａ社」〜「Ｊ社」の出現頻度を、アンカー１９２〜１９８に対する例えば重心計算でマップ上に配置している。

図１５は評価対データベース２０の評価対の集合を対象に、「Ａ社」〜「Ｆ社」となる対象物をアンカー２０２〜２１０として固定し、対象物「Ａ社」〜「Ｆ社」と組み合わされている評価表現の出現数を求め、アンカー２０２〜２１０に対する評価表現の出現数の重心計算により、評価表現をアンカーマップ２００上に配置している。

この図１４のアンカーマップ１９０または図１５のアンカーマップ２００により、評価対を分析あるいは検索する際のビジュアルマイニングツールとして活用することができる。

次に図１の本実施形態の評価対分析部２４に設けたカテゴリ推定部３０の処理を説明する。評価対データベース２０に登録された評価対を利用して図１６に示すような円グラフ２１２を作成して対象物間の比較を行うためには、同一カテゴリに属する対象物の集合が必要である。

図１６の円グラフ２１２にあっては、対象物としてＡ社、Ｂ社、Ｃ社、Ｄ社について評価表現を「安全」としたときの各社毎の出現数の分布を示している。そこで本実施形態にあっては、評価対データベース２０に登録された評価対の集合をカテゴリ単位の評価対の集合に分類するカテゴリ分類処理を行う。

評価対のカテゴリの分類は、対象物に組み合わせている評価表現を使用することで推定できる。例えば評価表現「早い」は対象物「車」を評価する表現であり、対象物「食べ物」を評価する表現ではない。これに対し評価表現「おいしい」は対象物「食べ物」を評価する表現ではあるが、対象物「車」を評価する表現ではない。

このように評価対に使用している評価表現を用いることによって、車に属する対象物を持つ評価対のカテゴリと、食べ物に対する対象物を持つ評価対のカテゴリを分類する推定ができる。

図１７は本実施形態によるカテゴリ推定処理のフローチャートである。カテゴリ推定処理にあっては、ステップＳ１で分類するカテゴリを指定する。カテゴリが指定されるとステップＳ２で指定されたカテゴリを特定する１又は複数の評価表現を読み込む。カテゴリに対応した評価表現は、予めカテゴリと評価表現の対応関係を作成した辞書を準備しておけばよい。

続いてステップＳ３で読み込んだ評価表現ごとに、評価対データベース２０から評価対を抽出して評価対の集合を作成する。この評価表現ごとに表現した評価対をクラスタと定義する。

続いてステップＳ４で指定したカテゴリを特定するため入力した評価表現が複数であった場合には、ステップＳ５で複数の評価対を組み合わせる。例えば評価表現「かわいい」により抽出した評価対のクラスタと、別の評価表現「きれい」で抽出した評価対の集合のクラスタを組合せ、２つののクラスタの同一の対象物につき２つの評価表現「かわいい」「きれい」を持つ評価対を抽出する。

図１８はカテゴリ推定処理におけるクラスタとカテゴリの関係を示している。図１８において、データベース上の評価対集合２１５に対し、例えば３つの異なる評価表現を使用し、各評価表現ごとの評価対の集合であるクラスタ２１６，２１８，２２０が抽出される。３つのクラスタ２１６，２１８，２２０につき評価表現が一致する領域、すなわちクラスタ２１６，２１８，２２０が重複する斜線部の領域に含まれる評価対を、３つの評価表現により推定したカテゴリ２２２とする。

再び図１７を参照するに、ステップＳ５で複数の評価表現を組み合わせた後、ステップＳ６で例えば図１８のカテゴリ２２２に含まれる評価対の数、すなわち要素数がカテゴリとしての集合体を構築するに十分な所定の最小要素数以上か否かチェックし、最小要素数以上であればステップＳ７で指定カテゴリに属する評価対としてデータベースに登録する。評価対の数が最小要素数より少なければ、これはカテゴリとして構築することに無理があることからカテゴリとしての推定は行わない。

このような評価対データベース２０に対するカテゴリの推定により様々なカテゴリ、例えば車や食べ物といったカテゴリについての評価対の集合が構築されることで、続いて説明する特異評価表現抽出処理や比較分析処理が可能となる。

図１９は図１の特異評価表現抽出部３２による特異評価表現抽出処理のフローチャートである。評価対データベース２０に対し推定された特定のカテゴリに属する評価対において、特定の対象物が持つような評価表現は、その対象物を特徴づける評価として有用である。そこで評価対について対象物間の評価表現の分布の差を用いることにより、対象物を特徴づける評価表現、すなわち特異評価表現を抽出することができる。

例えば車のカテゴリに属する評価対の集合で「かわいい」という評価表現が特定の対象物のみに現れていたとすると、評価表現「かわいい」はその対象物を特徴づける特異評価表現と判断することができる。

この特徴対象物に対する特異評価表現の抽出は、あるカテゴリＣに属する対象物ａが評価表現ｅを持つとき、その評価表現ｅがどのくらい特異であるかを示す特異度ＵＥ（Ｃ，ａ，ｅ）を次式により求める。

但し、Ｃはカテゴリ
ａは対象物
ｅは評価表現
ｆｒ（ａ、ｅ）は対象物ａの評価対の数
ｆｒ（ｉ、ｅ）は対象物ａ以外の評価対の数
εは分母をゼロとしないための定数

この（２）式における右辺の分子は、対象物と評価表現の組合せが多いほど大きくなる。一方、右辺の分母はカテゴリ内の他の対象物と評価表現の組合せが多くなるほど大きくなる。その結果、評価表現について特定の対象物にだけ頻繁に現れると分子が大きくなり、他の対象物にはあまり現れることがなく分母が小さくなる場合については、その評価表現の特異度ＵＥ（Ｃ，ａ，ｅ）は大きな値をとることになる。

図１９の特異評価表現抽出処理はステップＳ１でカテゴリを指定した評価対の集合体をデータベースから読込み、ステップＳ２で評価対を取り出し、ステップＳ３で前記（２）式により特異度ＵＥを計算する。続いてステップＳ４で全ての評価対について処理が済んだか否かチェックし、処理が済んでなければステップＳ２に戻り次の評価対を取り出してステップＳ３で特異度ＵＥを計算する。

ステップＳ４で全ての評価対についての処理が済むと、ステップＳ５で計算された特異度の高い評価表現をその対象物に固有なユーザ意見すなわち対象物に特異な意見として抽出する。

図２０は図１９の処理で得られた特異度抽出リスト２２４の説明図である。特異度抽出リスト２２４にあっては、対象物２２６、評価表現２２８及び特異度２３０で構成されており、この例では対象物Ａの評価表現「かわいい」につき他の対象物に対し高い値が持つ特異度２３０が算出されており、この評価表現「かわいい」は対象物Ａに固有な対象物を特徴づける評価として抽出することができる。

図２１は図１の比較分析部３４による比較分析のフローチャートである。評価対データベース２０のカテゴリに分類された評価対の集合において、評価対が共通にもつ評価表現の出現数を計数することにより、対象物数ごとに評価表現についての出現の度合いを比較することができる。また特定の対象物について異なる評価表現ごとに求めた出現数を用いればデータチャートを描くことができる。

例えば車のカテゴリに属する評価対の集合について評価表現「速い」、「好き」、「おもしろい」のが複数の対象物について現れるとき、その評価表現の出現数を計数することにより、異なる対象物間において同じ評価表現たとえば「速い」の度合いを比較することができる。逆に特定の対象物である車について、評価表現毎に出現数を計数すれば、対象物「車」についてユーザがどのような評価をしているかの分布がわかる。

図２１の比較分析処理にあっては、ステップＳ１で評価対データベース２０から指定したカテゴリに属する評価対の集合を抽出し、この評価対の集合を対象に例えば図２２のような比較分析リスト２３２のように、比較対象物Ａ、Ｂ、Ｃのそれぞれにつき評価表現「速い」、「好き」、「おもしろい」、「安全」、「快適」ごとに評価対の出現数を抽出する。

このような比較分析リスト２３２が作成できたならば、ステップＳ３で例えば対象物Ａの各評価表現の出現数を使用して図２３のレーダーチャート２３８を描くことができる。このようなレーダーチャート２３８は、対象物Ｂ，Ｃについても同様に描くことで、評価対象が車であれば車Ａ，Ｂ，Ｃに対するユーザの評判を評価することができる。

図２４は図１の共起語分析部３６における共起語分析処理のフローチャートである。本実施形態において、共起語とは、評価対を取得した文書に含まれる評価対以外の出現数の多い語句であり、対象物の評価表現の原因または理由となる語句と定義することができる。

このような共起語を抽出して表示することにより、評価対における対象物の評価表現の評価の背景や根拠となる情報の分析が可能となる。更に対象物がポジティブあるいはネガティブな評価表現で評価されたときに発生する共起語、あるいは特定の評価表現で評価されたときに発生する共起語を抽出して表示することで、更に詳細な評価対の分析が可能となる。

例えば車のカテゴリに属する評価対の対象物「Ａ社」の評価表現「使いにくい」の出現数が高い場合、この評価対を使用した文書の単語を調べたときに例えば「シフトレバー」の語句が頻出していたとすると、「シフトレバー」に関して「使いにくい」という評価表現が出されていることがわかる。

図２４の共起語分析処理は次の処理を行う。まずステップＳ１で指定された対象物と評価表現を入力し、ステップＳ２で指定された対象物の評価表現を含む評価対をデータベースから検索する。

次にステップＳ３で検索した評価対の図１１の評価対データベース２０について示した拡張領域１７０からドキュメントＩＤ１７８のリストを取得し、このドキュメントＩＤのリストに該当する文書を文書データベースから読み込む。

続いてステップＳ５で読み込んだ文書に含まれる語句の出現数を計数し、例えば図２５に示すような共起語リスト２４０を作成する。共起語リスト２４０にあっては、単語２４２と出現２４４を設けている。続いてステップＳ６で共起語リスト２４０から出現数の高い語句を共起語として抽出し、ステップＳ７で共起語を分析データベースなどに登録する。

図２６は図1のユーザプロファイル作成部３８による処理のフローチャートである。本実施形態が対象とするユーザの各テキスト文書の対象的なものにブログが存在する。ブログのテキスト文書を評判処理の対象とした場合、ブログのネットワークアドレスにより書き手を特定することができる。

したがって、ブログのネットワークアドレスで特定される書き手ごとに、評価対データベースを利用して「特定の対象物に対し特定の評価表現を多くしているかどうか」といった出現数を調べ、出現数が多い場合には、その評価表現をそのブログの書き手のユーザプロファイルに登録する。

図２６のユーザプロファイルの作成処理にあっては、ステップＳ１で指定された対象物と評価表現を入力し、ステップＳ２で指定された評価表現と対象物を含む評価対を評価対データベースから検索する。続いてステップＳ３で検索した評価対の集合につき、図１１に示した拡張領域１７０からＵＲＬ１８２のリストを取得し、ステップＳ４で取得したＵＲＬリストによりウェブにアクセスしてブログなどの文書を取得する。

続いてステップＳ５で書き手を示すネットワークアドレスであるＵＲＬごとに指定した評価表現の出現数を計数し、図２７に示すようなＵＲＬリスト２４６を作成する。このＵＲＬリスト２４６につき、ステップＳ６で出現数の高いＵＲＬのユーザプロファイルにステップＳ１で指定した評価表現を登録する。尚、ステップＳ１で入力する対象物と評価表現は、必要に応じて複数としても良い。

図２８は図１のフィルタリング処理のフローチャートである。本実施形態にあっては、ウェブ上から評価対抽出のためにテキスト文書を取得するが、コマースサイトやスパムログといった恣意的に記事が書かれたサイトからテキスト文書を取得して評価対を自動収集する場合があり、恣意的な記事を記述したテキスト文書は評判文書の対象としては不適切である。一般的にコマースサイトやスパムログなどの記事は自動的に生成されており、このため、これらの文書からは同一の評価対が多数得られることになる。

そこで本実施形態のフィルタリング処理にあっては、特定のサイトから同一の評価対がある閾値を超えて抽出された場合、そのサイトから抽出される評価対は評判分析に不適切と判断して排除するフィルタリング処理を実行する。

図２８のフィルタリング処理にあっては、ステップＳ１で評価対データベース２０の拡張領域のＵＲＬごとに評価表現の出現数を計数し、例えば図２９のようにフィルタリングリスト２５２を作成する。フィルタリングリスト２５２はＵＲＬ２５４ごとに「大きい」、「かわいい」、「きれい」などの評価表現２５６についての出現数を計数している。

このようにして作成されたフィルタリングリスト２５２を対象に、ステップＳ２で閾値以上の出現数のＵＲＬがあるか否か判定し、そのようなＵＲＬが存在した場合にはステップＳ３で不適切な表現が評判情報であるとして、判定したＵＲＬに対応した評価対を評価対データベース２０から削除する。

このように不適切なＵＲＬの抽出ができれば、その後についてはフィルタリング対象となった不適切なＵＲＬのリストを作成しておくことで、インターネット上のブログからテキストページを抽出する際に、不適切なＵＲＬに対する文書収集を行わないようにすることができる。

図３０は図１の属性抽出部４２による属性抽出処理のフローチャートである。評価対データベース２０につき、特定のカテゴリに属する評価対の集合について、評価対の対象物の属性を抽出できれば、抽出した属性を軸としたより詳細な分析が可能となる。

ここで属性とは、例えば評価対の対象物「映画」については「キャスティング」、「音楽」、「ストーリー」などであり、対象物「パソコン」については「ＣＰＵ速度」、「メモリ容量」、「ＨＤＤ容量」などである。

このような属性抽出処理として本実施形態にあっては、ステップＳ１の共起語によるモード１の属性抽出処理、ステップＳ２の評価対の組合せによるモード２の属性抽出処理、さらにステップＳ３の拡張的評価表現によるモード３の属性抽出処理を行う。

ステップＳ１の共起語のモード１の属性抽出処理は、指定したカテゴリの対象物の評価表現を裏付けたりする共起語そのものを対象物の属性とする。したがって、ステップＳ１の共起語によるモード１による抽出処理にあっては、図２４に示した共起語分析処理のフローチャートの処理を実行し、例えば図２５のような共起語リスト２４０を生成し、出現数が所定値以上となる語句を属性として抽出することになる。

図３１は図３０のステップＳ２の評価対の組合せによるモード２の属性抽出処理のフローチャートである。評価対の組合せによる属性抽出処理は、ひとつの評価表現が複数の対象物と組み合わされて評価対を形成しているとき、評価表現を同一とする複数の対象物の間には属性関係が成り立っているとする。

例えば「製品Ａの音が良い」という文からは、
（対象物「製品Ａ」，評価表現「良い」）
（対象物「音」，評価表現「良い」）
というように２つの評価表現が抽出できる。

このような場合、図１１の評価対データベース２０における拡張領域１７０の中の評価表現ＩＤ１８０が同じ値であれば、両方の評価表現「良い」が同一であることが判定でき、これによって対象物「製品Ａ」と対象物「音」は属性関係にあることが判定できる。

そこで図３１のモード２の属性抽出処理にあっては、ステップＳ１で指定された評価表現を読み込み、ステップＳ２で指定された評価表現によりデータベースを検索して評価対を抽出し、ステップＳ３で抽出した評価対の対象物に属性関係を設定することになる。

図３２は図３０のステップＳ３におけるモード３の属性抽出処理のフローチャートである。モード３の属性抽出処理にあっては、図４の評価対学習処理で使用する評価表現辞書７６及び図１０の評価対抽出処理で使用する評価表現辞書１４１に拡張評価表現として「変数Ｘ」＋「評価表現」
となるパターン、例えば
「Ｘは良い」
のような変数Ｘを評価表現にもたせることにより、変数Ｘに当てはまる語句を抽出する。

例えば「製品Ａの音がよい」という文からは、評価表現を使っただけでは評価対は
｛対象物「製品Ａ」，評価表現「良い」｝
｛対象物「音」，評価表現「良い」｝
しか抽出できない。

しかしながら、拡張評価表現として「Ｘが良い」という変数Ｘを持った拡張評価表現を用いることで
｛対象物「製品Ａ」，拡張評価表現「Ｘ＝音」｝
というような評価対の抽出が実現できる。このような拡張評価表現を持つ評価対については、対象物「製品Ａ」は変数Ｘで与えられる「音」という属性を持つことがわかる。

そこで図３２のモード３の属性抽出処理にあっては、まずステップＳ１で評価表現辞書に
「変数Ｘ」＋「評価表現」
形式の拡張評価表現を登録する。このような拡張評価表現を持つ評価表現辞書を使用してステップＳ２で評価対学習処理を実行する。評価対学習処理は図７のフローチャートの内容となる。

次にステップＳ３でステップＳ２の学習処理で得られた分類モデルを使用して評価対抽出処理を実行する。この評価対抽出処理は図１２のフローチャートと同じである。このようにして評価対データベースは作成されたならば、ステップＳ４で指定された対象物を読み込み、ステップＳ５で指定対象物によって評価対データベースから評価対を抽出し、ステップＳ６で評価対に拡張評価表現があった場合には、拡張評価表現の「変数Ｘ」を抽出して指定対象物の属性として登録する。

尚、本実施形態は図１の評価対分析部２４に示す各種の分析を例にとるものであったが、評価対データベース２０を使用した分析は本実施形態にとどまらず、必要に応じて適宜の評判分析処理を行うことができる。

また本発明は評判情報処理に用いるプログラムに該当するものであり、このプログラムは本実施形態に示した各フローチャートの内容を持つことになる。

また本発明は評判情報処理プログラムを記録したコンピュータ登録の記録媒体を提供するものであり、この記録媒体としてはＣＤ−ＲＯＭ、フロッピー（Ｒ）ディスク、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの記録媒体や、コンピュータシステムの内外に備えられたハードディスクドライブなどの記録装置のほか、回線を介してプログラムを保持するデータベース、あるいは他のコンピュータシステム並びデータベースシステムや更には回線上の伝送媒体を含むものである。

また本発明はその目的と利点を損なうことのない適宜の変形を含み、上記の実施形態に示した数値による限定は受けない。

ここで本発明の特徴をまとめて列挙すると次の付記のようになる。
（付記）
（付記１）
コンピュータに、
ネットワーク上に存在する文書を解析して対象物と評価表現を組合わせた評価対を抽出してデータベースに登録する評価対抽出ステップと、
前記データベースの評価対を利用して所望の分析を実行する評価対分析ステップと、
を実行させることを特徴とする評判情報処理プログラム。（１）

（付記２）
付記１記載の評判情報処理プログラムに於いて、前記評価対の対象物は、商品名、メーカ名等を含む評価を受けうる固有物であり、前記評価対の評価表現は、好きや使いにくい等を含む評価を表わす語句であることを特徴とする評判情報処理プログラム。

（付記３）
付記１記載の評判情報処理プログラムに於いて、前記評価対抽出ステップは、
トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて前記評価対となりうる規則を学習させる評価対学習ステップと、
前記機械学習器に未知の文書を入力して前記学習した規則に基づいて評価対を抽出する評価対抽出実行ステップと、
を備えたことを特徴とする評判情報処理プログラム。（２）

（付記４）
付記３記載の評判情報処理プログラムに於いて、
前記評価対学習ステップは、
前記モデル文書を形態素解析する形態素解析ステップと、
前記形態素解析されたモデル文書から固有表現と名詞句を抽出して対象物とする対象物抽出ステップと、
前記形態素解析されたモデル文書から評価表現辞書を用いて評価表現を抽出する評価表現抽出ステップと、
前記対象物と評価表現を組合わせた評価対候補を抽出し、前記評価対候補の特徴量を抽出すると共に前記評価対候補の組み合わせが正解か否かを設定する学習用評価対抽出ステップと、
前記学習用評価対の特徴量と正解を前記機械学習器に入力して前記学習用評価対となりうる規則を学習させた評価対分類モデルを生成するモデル作成ステップと、
を備え、
前記評価対抽出実行ステップは、
未知の文書を形態素解析する形態素解析ステップと、
前記形態素解析された未知の文書から固有表現と名詞句を抽出して対象物とする対象物抽出ステップと、
前記形態素解析された未知の文書から評価表現辞書を用いて評価表現を抽出する評価表現抽出ステップと、
前記対象物と評価表現を組合わせた評価対候補を抽出する評価対候補抽出ステップと、
前記評価対候補を前記機械学習器に入力し、前記評価対分類モデルを用いて前記評価対候補に特徴量を付与し、所定値以上の特徴量をもつ評価対候補を前記未知の文書の評価対に決定して前記データベースに登録する評価対決定ステップと、
を備えことを特徴とする評判情報処理プログラム。（３）

（付記５）
付記１記載の評判情報処理プログラムに於いて、前記形態素解析ステップは、日本語、中国語、韓国語などの単語をスペースで区切らない言語の文書に対しのみ実行することを特徴とする評判情報処理プログラム。

（付記６）
付記１記載の評判情報処理プログラムに於いて、前記評価対抽出ステップは、前記対象物と評価表現を組合わせた評価対に、更に、拡張情報として、文書ＩＤ、評価表現IＤ、ＵＲＬを含むネットワークアドレス、固有名詞か一般名詞かの対象物の種類を追加したことを特徴とする評判情報処理プログラム。（４）

（付記７）
付記１記載の評判情報処理装置に於いて、前記評価対分析部は、
指定されたカテゴリを特定する１又は複数の評価表現を入力する入力ステップと、
前記入力した評価表現毎に前記データベースから評価対を検索する評価対検索部と、
前記検索された評価対を前記指定カテゴリに属する評価対と推定して前記データベースに登録するカテゴリ推定部と、
を備えたことを特徴とする評判情報処理プログラム。（５）

（付記８）
付記７記載の分析評判情報処理装置に於いて、
前記カテゴリ推定部は、前記検索された評価対の数が所定の最低要素数以上の場合、前記指定カテゴリに属する評価対と推定することを特徴とする評判情報処理装置。

（付記９）
付記７又は８記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
前記カテゴリに属する複数の対象物の間の評価表現の分布の差に基づいて、前記対象物に特異な評価表現を判定する判定ステップを備えたことを特徴とする評判情報処理プログラム。（６）

（付記１０）
付記９記載の分析評判情報処理プログラムに於いて、前記判定ステップは、評価表現の特異性を判定する特異度ＵＥ（Ｃ，ａ，ｅ）として、

但し、Ｃはカテゴリ
ａは対象物
ｅは評価表現
ｆｒ（ａ、ｅ）は対象物ａの評価対の数
ｆｒ（ｉ、ｅ）は対象物ａ以外の評価対の数
εは分母をゼロとしないための定数
を算出し、前記特異度が所定の閾値以上の場合に特異な評価表現と判定することを特徴とする分析評判情報処理プログラム。

（付記１１）
付記７又は８記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
前記カテゴリに属する複数の対象物が共通にもつ評価表現毎の出現回数を対象物毎に検出し、複数の対象物につき評価表現の度合いを比較表示させる評価度合判定ステップを備えたことを特徴とする評判情報処理プログラム。（７）

（付記１２）
付記１１記載の分析評判情報処理プログラムに於いて、前記評価度合判定ステップは、前記対象物について検出した複数の評価表現の出現回数によりレーダーチャートを描画して表示することを特徴とする評判情報処理プログラム。

（付記１３）
付記６記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
指定された対象物と評価表現からなる評価対に付加された文書ＩＤを前記データベースから検索し、前記文書ＩＤに対応する文書を取得する文書取得ステップと、
前記取得した文書に含まれる対象物以外の語句を抽出して出現回数を計数し、出現回数の多い語句を前記対象物の評価表現の原因又は理由となる共起語として抽出する共起語分析ステップと、
を備えたことを特徴とする評判情報処理プログラム。（８）

（付記１４）
付記６記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
指定された対象物と評価表現からなる評価対に付加されたブログ等のネットワークアドレスを前記データベースから検索し、前記ネットワークアドレスにアクセスして文書を取得するネットワーク文書取得ステップと、
前記取得した文書に含まれる前記評価表現の出現回数を計数し、前記ネットワークアドレスを書き手として前記評価表現の出現回数を登録したユーザプロファイルを作成するプロファイル作成ステップと、
を備えたことを特徴とする評判情報処理プログラム。（９）

（付記１５）
付記６記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
前記評価対データベースからネットワークアドレス毎に評価表現の出現数を計数し、所定閾値以上の出現数をもつネットワークアドレスの評価対を前記評価対データベースから削除するフィルタリング処理ステップを備えたことを特徴とする評判情報処理プログラム。

（付記１６）
付記７又は８記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、前記カテゴリに属する対象物の持つ属性を抽出する属性抽出ステップを備えたことを特徴とする評判情報処理プログラム。（１０）

（付記１７）
付記１６記載の評判情報処理プログラムに於いて、前記属性抽出ステップは、
指定された対象物と評価表現からなる評価対に付加された文書ＩＤを前記データベースから検索して対応する文書を取得する文書取得ステップと、
前記取得した文書に含まれる対象物以外の語句を抽出して出現回数を計数し、出現回数の多い語句を前記対象物の評価表現の原因又は理由となる共起語として抽出する共起語分析ステップと、
を備え、前記共起語分析ステップで抽出された共起語を前記対処物の属性とすることをことを特徴とする評判情報処理プログラム。

（付記１８）
付記１６記載の評判情報処理プログラムに於いて、前記属性抽出ステップは、指定された評価表現を含む評価対の組合せを前記データベースから検索し、前記評価対の組合せに含まれる対象物の間に属性関係を設定する評価対組合せ分析ステップを備えたことを特徴とする評判情報処理プログラム。

（付記１９）
付記１６記載の評判情報処理プログラムに於いて、前記属性抽出ステップは、
ネットワーク上に存在する文書を解析し、対象物と、変数に評価表現を組み合わせた拡張評価表現とを組合わせた評価対を抽出して前記データベースに登録する拡張評価対抽出ステップと、
指定された対象物の評価対を前記データベースから検索し、検索した評価対の拡張評価表現の変数を前記対象物の属性として抽出する変数抽出ステップと、
を備えたことを特徴とする評判情報処理プログラム。

（付記２０）
ネットワーク上に存在する文書を解析して対象物と評価表現を組合わせた評価対を抽出してデータベースに登録する評価対抽出ステップと、
前記データベースの評価対を利用して所望の分析を実行する評価対分析ステップと、
を備えたことを特徴とする評判情報処理方法。

（付記２１）
付記２０記載の評判情報処理方法に於いて、評価対抽出ステップは、
トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて前記評価対となりうる規則を学習させる評価対学習ステップと、
前記機械学習器に未知の文書を入力して前記学習した規則に基づいて評価対を抽出する評価対抽出実行ステップと、
を備えたことを特徴とする評判情報処理方法。

（付記２２）
付記２０記載の評判情報処理方法に於いて、前記評価対分析ステップは、
前記データベースからカテゴリを特定する評価表現を含む評価対を検索する評価対検索ステップと、
前記検索された評価対に含まれる対象物を同一カテゴリに属する対象物であると推定するカテゴリ推定ステップと、
を備えたことを特徴とする評判情報処理方法。

（付記２３）
付記２０記載の評判情報処理方法に於いて、前記評価対分析ステップは、前記カテゴリに属する対象物の持つ属性を抽出する属性抽出ステップを備えたことを特徴とする評判情報処理方法。

（付記２４）
ネットワーク上に存在する文書を解析して対象物と評価表現からなる評価対を抽出してデータベースに登録する評価対抽出部と、
前記データベースの評価対を利用して所望の分析を実行する評価対分析部と、
を備えたことを特徴とする評判情報処理装置。

（付記２５）
付記２４記載の評判情報処理装置に於いて、評価対抽出部は、
トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて前記評価対となりうる規則を学習させる評価対学習部と、
前記機械学習器に未知の文書を入力して前記学習した規則に基づいて評価対を抽出する評価対抽出実行部と、
を備えたことを特徴とする評判情報処理装置。

本発明の評判情報処理プログラムにより実現される装置機能の実施形態を示したブロック図本実施形態に使用されるコンピュータのハードウェア環境のブロック図本実施形態による評判情報処理の基本的な手順のフローチャート図１の評価対学習部の機能構成の詳細を示したブロック図日本語の文書を対象とした図４の形態素解析処理と対象物抽出処理の説明図図５に続く図４の評価表現抽出処理、評価対候補抽出処理、特徴量抽出処理及び学習処理の説明図図４の評価対学習処理のフローチャート英語の文書を対象とした図４の対象物抽出処理の説明図図８に続く図４の評価表現抽出処理、評価対候補抽出処理、特徴量抽出処理及び学習処理の説明図図１の評価対抽出実行部の機能構成の詳細を示したブロック図日本語の文書を対象とした図１０の特徴量抽出処理と分類処理の説明図図１０の評価対抽出処理のフローチャート英語の文書を対象とした図１０の特徴量抽出処理と分類処理の説明図本実施形態により評価対データベースから評価表現を固定して作成したアンカーマップの説明図本実施形態により評価対データベースから対象物を固定して作成したアンカーマップの説明図本実施形態の評価対のカテゴリ推定結果から作成された円グラフの説明図本実施形態によるカテゴリ推定処理のフローチャートカテゴリ推定処理における評価表現毎のクラスタの重複領域として推定されるカテゴリの説明図本実施形態による特異評価表現抽出処理のフローチャート図１９の処理で得られた特異度抽出リストの説明図本実施形態による比較分析処理のフローチャート図２１の処理で得られた比較分析リストの説明図図２２の比較分析リストから作成されたレーダーチャートの説明図本実施形態の共起語分析処理のフローチャート図２４の処理で作成された共起語リストの説明図本実施形態によるユーザプロファイル作成処理のフローチャート図２６の処理で作成されたＵＲＬリストの説明図本実施形態によるフィルタリング処理のフローチャート図２８の処理で作成されたフィルタリングリストの説明図本実施形態の属性抽出処理のフローチャート図３０におけるモード２の属性抽出処理のフローチャート図３０におけるモード３の属性抽出処理のフローチャート

符号の説明

１０：評判情報処理装置
１２：ネットワーク
１４−１〜１４−４：ウェブサーバ
１６−１〜１６−４：テキスト文書
２０：評価対データベース
２２：アンカーマップ作成部
２４：評価対分析部
２６：評価対学習部
２８：評価対抽出実行部
３０：カテゴリ推定部
３２：特異評価表現抽出部
３４：比較分析部
３６：共起語分析部
３８：ユーザプロファイル作成部
４０：フィルタリング処理部
４２：属性抽出部
４４：ＣＰＵ
４６：バス
４８：ＲＡＭ
５０：ＲＯＭ
５２：ハードディスクドライブ
５４：デバイスインタフェース
５６：キーボード
５８：マウス
６０：ディスプレイ
６２：ネットワークアダプタ
６４：モデル文書データベース
６６，１３２：形態素解析部
６８，１３４：対象物抽出部
７０，１３６：固有表現抽出部
７２，１３８：名詞句同定部
７４，１４０：評価表現抽出部
７６，１４２：評価表現辞書
７８，１４２：評価対候補抽出部
８０，１４４：機械学習器
８２：評価対分類モデル
８４，８４−１：モデル文書
８６：形態素解析処理
８８：形態素解析文書
９０：対象物抽出処理
９２：対象物抽出リスト
９４，９４−１，９６，９６−１：対象物
９８，９８−１：評価表現抽出処理
１０２〜１０８，１０２−１〜１０８−１：評価表現
１１０，１１０−１：評価対象候補抽出処理
１１２，１１２−１：評価対候補リスト
１１４−１〜１１４−４，１１６−１〜１１６−４，１５０−１〜１５０−４，１５２−１〜１５３−４：評価対
１１８，１１８−１，１４６，１４６−１：特徴量抽出処理
１２０：特徴量抽出リスト
１２２：特徴量
１２４：正解
１２６，１２６−１，１５８，１５８−１：学習処理
１２８，１２８−１：分類モデル
１３０：ウェブ文書データベース
１６０：分類リスト
１６２〜１６６，１７６：スコア
１７２−１：拡張評価対リスト
１７２：対象物
１７４：評価表現
１７６：スコア
１７８：ドキュメントＩＤ
１８０：評価表現ＩＤ
１８２：ＵＲＬ
１８４：タイプ
１９０，２００：アンカーマップ
１９２〜１９８：評価表現
２０２〜２１０：対象物
２１２：円グラフ
２１５：評価対集合
２１６〜２２０：クラスタ
２２２：カテゴリ
２２４：特異度抽出リスト
２２６，２３６，２４８：対象物
２２８，２３４，２４６：評価表現
２３０：特異度
２３２：比較分析リスト
２３８：レーダーチャート
２４０：共起語リスト
２４２：単語
２４４，２５０：出現数
２４６：ＵＲＬリスト
２５２：フィルタリングリスト
２５４：ＵＲＬ

Claims

コンピュータに、
ネットワーク上に存在する文書を解析して対象物と評価表現を組合わせた評価対を抽出してデータベースに登録する評価対抽出ステップと、
前記データベースの評価対を利用して所望の分析を実行する評価対分析ステップと、
を実行させることを特徴とする評判情報処理プログラム。
請求項１記載の評判情報処理プログラムに於いて、前記評価対抽出ステップは、
トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて前記評価対となりうる規則を学習させる評価対学習ステップと、
前記機械学習器に未知の文書を入力して前記学習した規則に基づいて評価対を抽出する評価対抽出実行ステップと、
を備えたことを特徴とする評判情報処理プログラム。
請求項１記載の評判情報処理プログラムに於いて、前記形態素解析ステップは、日本語、中国語、韓国語などの単語をスペースで区切らない言語の文書に対しのみ実行することを特徴とする評判情報処理プログラム。
請求項１記載の評判情報処理プログラムに於いて、前記評価対抽出ステップは、前記対象物と評価表現を組合わせた評価対に、更に、拡張情報として、文書ＩＤ、評価表現IＤ、ＵＲＬを含むネットワークアドレス、固有名詞か一般名詞かの対象物の種類を追加したことを特徴とする評判情報処理プログラム。
請求項１記載の評判情報処理プログラムに於いて、前記評価対分析部は、
指定されたカテゴリを特定する１又は複数の評価表現を入力する入力ステップと、
前記入力した評価表現毎に前記データベースから評価対を検索する評価対検索部と、
前記検索された評価対を前記指定カテゴリに属する評価対と推定して前記データベースに登録するカテゴリ推定部と、
を備えたことを特徴とする評判情報処理プログラム。
請求５記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
前記カテゴリに属する複数の対象物の間の評価表現の分布の差に基づいて、前記対象物に特異な評価表現を判定する判定ステップを備えたことを特徴とする評判情報処理プログラム。
請求項５記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
前記カテゴリに属する複数の対象物が共通にもつ評価表現毎の出現回数を対象物毎に検出し、複数の対象物につき評価表現の度合いを比較表示させる評価度合判定ステップを備えたことを特徴とする評判情報処理プログラム。
請求項４記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
指定された対象物と評価表現からなる評価対に付加された文書ＩＤを前記データベースから検索し、前記文書ＩＤに対応する文書を取得する文書取得ステップと、
前記取得した文書に含まれる対象物以外の語句を抽出して出現回数を計数し、出現回数の多い語句を前記対象物の評価表現の原因又は理由となる共起語として抽出する共起語分析ステップと、
を備えたことを特徴とする評判情報処理プログラム。
請求項４記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
指定された対象物と評価表現からなる評価対に付加されたブログ等のネットワークアドレスを前記データベースから検索し、前記ネットワークアドレスにアクセスして文書を取得するネットワーク文書取得ステップと、
前記取得した文書に含まれる前記評価表現の出現回数を計数し、前記ネットワークアドレスを書き手として前記評価表現の出現回数を登録したユーザプロファイルを作成するプロファイル作成ステップと、
を備えたことを特徴とする評判情報処理プログラム。
請求項７又は８記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、前記カテゴリに属する対象物の持つ属性を抽出する属性抽出ステップを備えたことを特徴とする評判情報処理プログラム。