JP2007219880A - 評判情報処理プログラム、方法及び装置 - Google Patents

評判情報処理プログラム、方法及び装置 Download PDF

Info

Publication number
JP2007219880A
JP2007219880A JP2006040283A JP2006040283A JP2007219880A JP 2007219880 A JP2007219880 A JP 2007219880A JP 2006040283 A JP2006040283 A JP 2006040283A JP 2006040283 A JP2006040283 A JP 2006040283A JP 2007219880 A JP2007219880 A JP 2007219880A
Authority
JP
Japan
Prior art keywords
evaluation
pair
expression
document
reputation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006040283A
Other languages
English (en)
Inventor
Tetsuro Takahashi
哲朗 高橋
Kanji Uchino
寛治 内野
Aoshi Okamoto
青史 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006040283A priority Critical patent/JP2007219880A/ja
Priority to US11/441,147 priority patent/US7599926B2/en
Publication of JP2007219880A publication Critical patent/JP2007219880A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Abstract

【課題】評判情報を高い精度と広い範囲で抽出し、評判情報の多様な分析を可能とし、更に評価表現から対象の属性の自動抽出を可能とする。
【解決手段】評価対抽出部18はネットワーク上に存在する文書を解析して対象物と評価表現からなる評価対を抽出して評価対データベース20に登録する。評価対分析部24はデータベースの評価対を利用してカテゴリ推定、特異評価表現抽出、比較分析などの分析を実行する。評価対は対象物と評価表現を組み合わせたデータであり、対象物は、商品名、メーカ名等を含む評価を受けうる固有物であり、評価対の評価表現は、好きや使いにくい等を含む評価を表わす語句である。評価対抽出部18はモデル文書から抽出した評価対を機械学習器に与えて評価対となりうる規則を学習させ、学習後に未知の文書から対象物と評価表現を正しく組合わせて評価対を抽出する。
【選択図】 図1

Description

本発明は、インターネット上のウェブページのテキスト文書等からユーザの書いた評判情報を抽出して分析する評判情報処理プログラム、方法及び装置に関し、特に、ユーザの書いたテキスト文書から対象物と評価表現を組合わせた評価対を評判情報として抽出して分析する評判情報処理プログラム、方法及び装置に関する。
従来、インターネット上のウェブからユーザの書いたテキスト文書に含まれる商品やメーカ等の評判情報を抽出して分析やマーケティングに用いるデータマイニングの分野に属する処理方法は、これまでにいくつか存在し、例えば次に列挙する方法がある。
(1)対象物と評価表現が両方含まれる文書を検索する方法(特許文献1、2)。
(2)検索された語から一定距離以内に評価表現があればその評価表現を検索語の評判情報と判別する方法(特許文献3、4)。
(3)単語列の形式のパタンを用いて抽出する方法(特許文献5、6)。
(4)ユーザにより与えられた検索語に対する評判情報を抽出する方法(特許文献7〜10)。
特開2001-155021号公報 特開2005-063242号公報 特開2002-091981号公報 特開2002-175330号公報 特開2003-271609号公報 特開2004-157841号公報 特開2001-155021号公報 特開2002-091981号公報 特開2002-175330号公報 特開2005-063242号公報
しかしながら、このような従来のインターネット上のユーザの書いた評判情報を抽出し分析やマーケティングに用いる方法は、次のような問題がある。
(1)及び(2)の方法は、偶然に同一文書または同一文書内の近くに出現した対象物と評価表現も抽出してしまうため、抽出された評判情報の精度が低いという問題がある。
(3)の方法は、対象物とその評判がアンダーラインに示すように、
日本住みやすい
のように連続して現われる場合にはパタンにより抽出が可能であるが、実際の文書では
「私は今、日本に住んでいますが、とても住みやすいです」
のように離れて出現することが多いので、パタンを使っただけでは拾い出しの精度が低いという問題がある。
(4)の方法は、ユーザが入力しなかった対象物についての評判情報を得ることができず、また複数の対象物間の比較が困難であるという欠点がある。
また、分析のために可視化する方法としては、意見の単純な分布や時系列上に意見の数をプロットする手法しか提案されていないが、それだけではマーケティングに十分な分析はできない。
更に、分析のための重要な情報として属性がある。例えば対象物「映画」についてはキャスティングや音楽、ストーリーがあり、また対象物「パソコン」についてはCPU速度、メモリ容量、HDD容量などかある。しかしながら、これらの属性の情報は人手により与えるしかなく、大きなコストがかかる。
本発明は、評判情報を高い精度と広い範囲で抽出し、評判情報の多様な分析を可能とし、更に評価表現から対象の属性の自動抽出を可能とする評判情報処理プログラム、方法及び装置を提供することを目的とする。
(プログラム)
本発明は評判情報処理プログラムを提供する。本発明の評判情報処理プログラムは、コンピュータに、
ネットワーク上に存在する文書を解析して対象物と評価表現を組合わせた評価対を抽出してデータベースに登録する評価対抽出ステップと、
データベースの評価対を利用して所望の分析を実行する評価対分析ステップと、
を実行させることを特徴とする。
ここで、評価対の対象物は、商品名、メーカ名等を含む評価を受けうる固有物であり、評価対の評価表現は、好きや使いにくい等を含む評価を表わす語句である。
評価対抽出ステップは、
トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて評価対となりうる規則を学習させる評価対学習ステップと、
機械学習器に未知の文書を入力して学習した規則に基づいて評価対を抽出する評価対抽出実行ステップと、
を備える。
評価対学習ステップは、
モデル文書を形態素解析する形態素解析ステップと、
形態素解析されたモデル文書から固有表現と名詞句を抽出して対象物とする対象物抽出ステップと、
形態素解析されたモデル文書から評価表現辞書を用いて評価表現を抽出する評価表現抽出ステップと、
対象物と評価表現を組合わせた評価対候補を抽出し、評価対候補の特徴量を抽出すると共に評価対候補の組み合わせが正解か否かを設定する学習用評価対抽出ステップと、
学習用評価対の特徴量と正解を機械学習器に入力して学習用評価対となりうる規則を学習させた評価対分類モデルを生成するモデル作成ステップと、
を備える。
評価対抽出実行ステップは、
未知の文書を形態素解析する形態素解析ステップと、
形態素解析された未知の文書から固有表現と名詞句を抽出して対象物とする対象物抽出ステップと、
形態素解析された未知の文書から評価表現辞書を用いて評価表現を抽出する評価表現抽出ステップと、
対象物と評価表現を組合わせた評価対候補を抽出する評価対候補抽出ステップと、
評価対候補を前記機械学習器に入力し、評価対分類モデルを用いて評価対候補の特徴量を抽出し、所定値以上の特徴量をもつ評価対候補を未知の文書の評価対に決定してデータベースに登録する評価対決定ステップと、
を備える。
形態素解析ステップは、日本語、中国語、韓国語などの単語をスペースで区切らない言語の文書に対しのみ実行し、英語、ドイツ語、フランス語のように単語をスペースで区切る言語の文書は処理をスキップする。
評価対抽出ステップは、対象物と評価表現を組合わせた評価対に、更に、拡張情報として、文書ID、評価表現ID、URLを含むネットワークアドレス、固有名詞か一般名詞かの対象物の種類を追加する。
評価対分析ステップは、
指定されたカテゴリを特定する1又は複数の評価表現を入力する入力ステップと、
入力した評価表現毎にデータベースから評価対を検索する評価対検索部と、
検索された評価対を指定カテゴリに属する評価対と推定してデータベースに登録するカテゴリ推定部と、
を備える。ここで、カテゴリ推定部は、検索された評価対の数が所定の最低要素数以上の場合、指定カテゴリに属する評価対と推定する。
評価対分析ステップは、カテゴリに属する複数の対象物の間の評価表現の分布の差に基づいて、対象物に特異な評価表現を判定する判定ステップを備える。この判定ステップは、評価表現の特異性を判定する特異度UE(C,a,e)として、
Figure 2007219880
但し、Cはカテゴリ
aは対象物
eは評価表現
fr(a、e)は対象物aの評価対の数
fr(i、e)は対象物a以外の評価対の数
εは分母をゼロとしないための定数
を算出し、特異度が所定の閾値以上の場合に特異な評価表現と判定する。
評価対分析ステップは、カテゴリに属する複数の対象物が共通にもつ評価表現毎の出現回数を対象物毎に検出し、複数の対象物につき評価表現の度合いを比較表示させる評価度合判定ステップを備える。評価度合判定ステップは、対象物について検出した複数の評価表現の出現回数によりレーダーチャートを描画して表示する。
評価対分析ステップは、
指定された対象物と評価表現からなる評価対に付加された文書IDをデータベースから検索し、文書IDに対応する文書を取得する文書取得ステップと、
取得した文書に含まれる対象物以外の語句を抽出して出現回数を計数し、出現回数の多い語句を対象物の評価表現の原因又は理由となる共起語として抽出する共起語分析ステップと、
を備える。
評価対分析ステップは、
指定された対象物と評価表現からなる評価対に付加されたブログ等のネットワークアドレスをデータベースから検索し、ネットワークアドレスにアクセスして文書を取得するネットワーク文書取得ステップと、
取得した文書に含まれる評価表現の出現回数を計数し、ネットワークアドレスを書き手として評価表現の出現回数を登録したユーザプロファイルを作成するプロファイル作成ステップと、
を備える。
評価対分析ステップは、評価対データベースからネットワークアドレス毎に評価表現の出現数を計数し、所定閾値以上の出現数をもつネットワークアドレスをコマースサイトやスパムブログ等の不適切なサイトとし、その評価対を評価対データベースから削除する。
評価対分析ステップは、カテゴリに属する対象物の持つ属性を抽出する属性抽出ステップを備える。
属性抽出ステップは、
指定された対象物と評価表現からなる評価対に付加された文書IDをデータベースから検索して対応した文書を取得する文書取得ステップと、
取得した文書に含まれる対象物以外の語句を抽出して出現回数を計数し、出現回数の多い語句を対象物の評価表現の原因又は理由となる共起語として抽出する共起語分析ステップと、
を備え、共起語分析ステップで抽出された共起語を前記対処物の属性とする。
属性抽出ステップは、指定された評価表現を含む評価対の組合せをデータベースから検索し、評価対の組合せに含まれる対象物の間に属性関係を設定する評価対組合せ分析ステップを備える。
属性抽出ステップは、
ネットワーク上に存在する文書を解析し、対象物と、変数Xに評価表現を組み合わせた拡張評価表現を組合わせた評価対を抽出してデータベースに登録する拡張評価対抽出ステップと、
指定された対象物の評価対をデータベースから検索し、検索した評価対の拡張評価表現の変数Xを対象物の属性として抽出する変数抽出ステップと、
を備える。
(方法)
本発明は評判情報処理方法を提供する。本発明の評判情報処理方法は、
ネットワーク上に存在する文書を解析して対象物と評価表現を組合わせた評価対を抽出してデータベースに登録する評価対抽出ステップと、
データベースの評価対を利用して所望の分析を実行する評価対分析ステップと、
を備えたことを特徴とする。
(装置)
本発明は評判情報処理装置を提供する。本発明は評判情報処理装置は、
ネットワーク上に存在する文書を解析して対象物と評価表現を組合わせた評価対を抽出してデータベースに登録する評価対抽出部と、
データベースの評価対を利用して所望の分析を実行する評価対分析部と、
を備えたことを特徴とする。
本発明によれば、インターネット等のネットワーク上に存在するウェブページから取得したユーザのテキスト文書を対象に、「メーカ」や「商品」などの対象物と、「よい」、「悪い」といったユーザの意見を示す評価表現とを組合わせた評価対を機械学習を用いて抽出してデータベースに登録することにより、ネットワーク上の評判情報を高い精度と広い範囲で効率的に自動収集することができる。
この場合、機械学習に基づいて評価対の抽出を行うことにより、抽出精度を上げることができる。また文書の形態素解析に基づき固有表現抽出と名詞句同定を行うことで、自動的に任意の対象物と評価表現からなる評価対を抽出することができる。
またデータベースに登録された対象物と評価表現でなる評価対を利用して多様な分析を行うことができる。この分析には、
(1)評価表現の種類による対象物のカテゴリ推定、
(2)特定の対象物に特異な評価表現の抽出、
(3)対象物に対する評価表現の比較、
(4)対象物に対する評価表現の原因や理由となる語句である共起語による分析、
(5)ブログなどのユーザプロファイルの作成、
(6)特定の対象物のカテゴリが持つ属性の抽出、
等が含まれる。
図1は本発明の評判情報処理プログラムにより実現される装置機能の実施形態を示したブロック図である。図1において、本発明の評判情報処理装置10は、インターネットなどのネットワーク12を介してウェブサーバ14−1〜14−4をアクセス可能であり、ウェブサーバ14−1〜14−4上のユーザの書いたテキスト文書16−1〜16−4を取得してテキスト文書16−1〜16−4から評判情報を抽出して、抽出した評判情報を分析する。
評判情報処理装置10には、評価対抽出部18、評価対データベース20、アンカーマップ作成部22及び評価対分析部24が設けられている。
本実施形態にあっては、評価対とは対象物と評価表現を組合わせた組と定義する。対象物とは商品名やメーカー名などの評価を受けうる固有物を指す。また評価表現とは「好き」や「使いにくい」などのユーザの対象物に対する意見となる評価を表す語句を指す。
評価対抽出部18には評価対学習部26と評価対抽出実行部28が設けられている。評価対学習部26は、トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて、評価対となり得る規則を学習させる。評価対抽出実行部28は、学習器械に未知の文書を入力して、学習した規則に基づいて評価対を抽出し、評価対データベース20に登録する。
評判情報の分析のためには大量の評価対を精度良く抽出する必要がある。本実施形態にあっては、評価対を抽出するため機械学習器を用いて高い精度と広い範囲での評価対の抽出を行う。機械学習器を用いた評価対の抽出は、評価対学習部26により評価対の情報を予め付与した文書を機械学習器に与え、機械学習器において評価対となり得る規則を学習させることで評価対分類モデルを生成する。
評価対抽出実行部28は、評価対学習部26で作成された学習規則である評価対学習モデルを用いて未知の文書から評価対を抽出して、評価対データベース20に登録する。本実施形態の評価対抽出部18で使用する機械学習器としては、例えばBoostingなどの既存の技術を適用することができる。
また評価対の抽出にあっては、対象文書の中から対象物を抽出する必要があるが、対象物の抽出には辞書に加えて固有表現抽出と名詞句同定を用いる。この固有表現抽出と名詞句同定により抽出された語句が対象物として扱われる。また対象文書から評価表現を抽出する場合には評価表現辞書を用いる。評価表現辞書には「良い」「きれい」などのポジティブな評価表現、「使いづらい」、「不便」のようなネガティブな評価表現、更にそれ以外の評価表現が予め登録されている。
アンカーマップ作成部22は、評価対抽出部18により抽出された評価対が登録された評価対データベース20を対象に、例えばカテゴリ単位で分類された評価対を読み出し、対象物をアンカーとして固定することで対象物に対する評価表現の出現数をアンカーマップで表現したり、また評価表現をアンカーとして固定し対象物の出現数をアンカーマップで表現するといった評判情報のビジュアルマイニングに必要なアンカーマップを表示する。
評価対分析部24には、カテゴリ推定部30、特異評価表現抽出部32、比較分析部34、共起語分析部36、ユーザプロファイル作成部38、フィルタリング処理部40、更に属性抽出部42が設けられている。この評価対分析部24にあっては、評価対データベース20に登録された評価表現と対象物を組合わせた評価対を利用することにより、多種多様な分析を行う。
本実施形態にあっては、評価対分析部24に設けられたカテゴリ推定部30、特異評価表現抽出部32、比較分析部34、共起語分析部36、ユーザプロファイル作成部38及びフィルタリング処理部40の機能により、次の分析を行う。
(1)評価表現の種類による対象物のカテゴリ推定
(2)特定の対象物に特異な評価表現の抽出
(3)評価表現の度合の比較
(4)共起語による分析(なお共起語とは評価対における対象物の評価表現の原因または理由となる文書中に高い頻度で出現する語句と定義される)。
(5)ユーザプロファイルの作成
(6)コマンスサイトやスワムプロムのフィルタリング
更に属性抽出部40にあっては、評判情報の分析のための重要な情報として位置付けられる属性の抽出を行う。例えば対象物「映画」については属性として「キャスティング」、「音楽」、「ストーリー」などがあり、また対象物「パソコン」については属性として「CPU速度」、「メモリ容量」、「HDD容量」などがあるが、従来はこれらの属性の収集は人為的な操作で行うしかなかった。
本発明にあっては例えば共起語、評価対の組合せ、評価表現辞書のマッチング登録内容の拡張などを用いて、属性の自動抽出を行うことができる。本発明における属性の自動抽出は、例えば次の3つの手法をとっている。
(1)共起語による属性の抽出
(2)評価対の組合せによる属性の抽出
(3)評価表現、辞書、マッチング機能の拡張による属性の抽出
これら評判情報処理装置10に設けられた評価対抽出部18及び評価対分析部24の詳細は後の説明で更に明らかにされる。
図2は本実施形態に使用されるコンピュータのハードウェア環境のブロック図である。図2において、CPU44のバスには、RAM48、ROM50、ハードディスクドライブ52、キーボード56,マウス58及びディスプレイ60を接続するデバイスインタフェース54、更にネットワークアダプタ62が設けられる。
ハードディスクドライブ52には本実施形態の評判情報処理プログラムが格納されており、コンピュータを起動した際に、ブートアップに続くRAM48へのOSの展開後にハードディスクドライブ52からRAM48上に読み出されてCPU44により実行される。
図3は本実施形態による評判情報処理の基本的な手順のフローチャートであり、図1を参照して説明すると次のようになる。図3において、ステップS1で評価対学習部26がトレーニング用のモデル文書から抽出した評価対を機械学習器に与えて評価対となり得る規則を学習させる。
続いてステップS2でインターネットのウェブページなどのテキスト文書を未知の文書として機械学習器に入力し、ステップS1で学習した規則に基づいて評価対を自動抽出して評価対データベース20に登録する。
ステップS3にあっては、必要に応じてアンカーマップ作成部22で評価対データベース20に登録されている評価対の集合を対象に、評価対の対象物または評価表現のいずれか一方をアンカーとして固定してアンカーマップを作成表示する。
更にステップS4で、評価対分析部24が評価対データベース20に登録された自動収集された評価対を利用して多種多様な評判情報の分析処理を実行する。
図4は図1の評価対学習部26の詳細を示したブロック図である。図4において、評価対学習部26は、モデル文書データベース64、形態素解析部66、対象物抽出部68、評価表現抽出部74、評価表現辞書76、評価対候補抽出部78、機械学習器80及び評価対分類モデル82を備えている。更に対象物抽出部68には固有表現抽出部70と名詞句同定部72が設けられている。
この機能構成を持つ評価対学習部26にあっては、モデル文書データベース64に対象物と評価表現、更に両者の関係について正解か不正解かが付与されたモデル文書が登録されており、このモデル文書を使用してトレーニングを行う。
形態素解析部66は、モデル文書データベース64からトレーニング用に読み出したモデル文書を対象に形態素解析を実行する。モデル文書の形態素解析は、モデル文書が日本語、中国語、ハングル語などのように、単語がスペースで区切られずに連続している言語の場合に使用される。英語やドイツ語などのように単語がスペースで区切られている言語の文書については形態素解析66の処理は不要である。
対象物抽出部68はモデル文書から商品名やメーカー名などの対象物を抽出する。対象物の抽出には、固有表現抽出部70による固有表現を対象物として抽出する処理と、名詞句同定部72による名詞句を対象物として抽出する処理が行われる。さらに一般名詞については辞書(図示せず)を使用して抽出される。
評価表現抽出部74は、モデル文書から対象物に対するユーザの意見となる「好き」や「使いにくい」などの評価を表す語句を評価表現として抽出する。評価表現の抽出は評価表現辞書76を使用して行われる。評価表現辞書76には「好き」、「きれい」、「すごい」といったポジティブな評価表現、「陳腐」、「残念」、「最低」といったネガティブな表現、更には、いずれにも属さないその他の評価表現が予め登録されている。この評価表現辞書76に登録している評価表現と対象文書中の語句とのマッチングにより評価表現を抽出する。
評価対候補抽出部78は、対象物抽出部68で抽出された対象物と評価表現抽出部74で抽出された対象物を組み合わせて評価対候補を作成し、作成した評価対候補について特徴量を抽出すると共に、評価対候補の組み合わせが正しいか否か、即ち正解か不正解かの解答を設定し、各評価対候補について求めた特徴量と解答を機械学習器に入力して、評価対となり得る規則の学習結果である評価対分類モデルを作成する。
ここで評価対候補について抽出する特徴量としては
(1)評価表現と対象物との距離、
(2)評価表現と対象物の種類、
(3)評価表現と対象物の周りの語句、
などがあり、複数の特徴量f1,f2,f3,・・・fnを求め、予め判明している特徴量f1〜fnに対する「解答」を設定する。ここで特徴量に対する解答としては評価対候補における対象物と評価表現の組み合わせが正しければ「正解」を設定し、間違っていれば「不正解」を設定する。この場合、例えば「正解」は「1」で表現され、「不正解」は「0」で表現される。
一例として、ある対象物と評価表現の評価対につき特徴量f1,f2,f3,・・・fnが求められ、この評価対に正解が設定されたとすると、特徴量と正解の関係は
{(f1,f2,f3,・・・fn),(正解)}
として表される。例えば特徴量f1〜fnを有り無しに対応した0,1で表現すると、
{(1101・・・0),(1)}
と表現することができる。
このようにして評価対候補について抽出された特徴量と解答との関係を機械学習器に入力することで、解答を得るための各特徴量の重みw1,w2,・・・wnを評価対分類モデル82として生成する。この特徴量f1〜fnと学習により得られた重みw1〜wnの関係は、評価対が正解か不正解かを示す特徴量のスコアSとして例えば次式で与えられる。
S=w1・f1+w2・f2+・・・+wn・fn (1)
ここで、算出されたスコアSが所定の閾値を超えていれば正解「1」、閾値以下であれば不正解「0」とすることになる。
したがって、学習処理にあっては、特徴量f1〜fnが既知で、スコアSに基づく回答も正解「1」または不正解「0」と既知であることから、両者を学習器に入力して評価対となる得る規則である重みw1〜wnの値を学習により決定し、決定した重みw1〜wnを評価対分類モデル82として登録する。
なお、上記の説明にあっては、特徴量について説明を簡単にするため、特徴量を閾値と比較して特徴量の有無を示す0又は1の2値で扱っているが、特徴量を連続的なアナログ量として扱うようにしても良いことはもちろんである。
図5及び図6は日本語のモデル文書を対象とした図4の評価対学習処理の説明図である。図5において、トレーニング用のモデル文書84は、ユーザが映画「オペラ座の怪人」を観賞した際の意見が記述されている。このモデル文書84につき、形態素解析処理86により形態素解析文書88を生成する。形態素解析文書88は、文書を「/」で示すように区切って単語に分ける処理となる。
次に、形態素解析文書88について対象物抽出処理90を実行する。対象物抽出処理90は、一般名詞を抽出する辞書を使用する以外に、本実施形態にあっては固有表現抽出処理と名詞句同定処理を実行している。対象物抽出処理90の実行で得られた対象物抽出文書92にあっては、例えば対象物94として「オペラ座の怪人」と、対象物96として「ファントム」が抽出されている。
続いて図6の評価表現抽出処理98を実行する。評価表現抽出処理98にあっては、図4に示した評価表現辞書76を利用して図5の形態素解析文書88からマッチングする評価表現を抽出して、評価表現抽出リスト100を生成する。この例にあっては、評価表現抽出リスト100には例えば、評価表現102,104,106,108として「まあまあ」、「面白い」、「すごい」、「陳腐」などが抽出されている。
次に評価対候補抽出処理110を実行する。評価対候補抽出処理110は、図5の対象物抽出文書92から得られた対象物「オペラ座の怪人」と「ファントム」につき、図6の評価表現抽出リスト100の評価表現102〜108を組み合わせて、評価対候補114−1〜114−4と評価対候補116−1〜116−4を抽出する。
ここで評価対候補114−1〜114−4は対象物94が同じ「オペラ座の怪人」であり、これに組み合わせている評価表現がそれぞれ異なった評価表現102〜108となっている。評価対候補116−1〜116−4については、対象物96が同じ「ファントム」であり、評価表現102〜108がそれぞれ異なっている。
次に特徴量抽出処理118を実行する。特徴量抽出処理118は、評価対候補リスト112の中の評価対候補114−1〜114−4及び116−1〜116−4を対象に、特徴量122と解答124を求める。例えば評価対114−1を例にとると、評価表現と対象物の距離f1、評価表現と対象物の種類f2などの特徴量f1〜fnと、その解答124が正解であることを示す+1を設定している。
このような特徴量抽出リスト120における評価対候補114−1〜114−4及び116−1〜116−4のそれぞれの{特徴量f1〜fn,正解/不正解}を学習処理126により機械学習器に入力して学習させることで、前記(1)式のスコア計算に用いる重みw1,w2,w3,・・・wnのそれぞれの値を分類モデル128として作成する。
図7は図4の評価対学習処理のフローチャートである。図7において、評価対学習処理は、ステップS1でモデル文書データベース64からトレーニング用のモデル文書を読み込み、ステップS2で形態素解析部66がモデル文書の形態素解析を行う。続いてステップS3で対象物抽出部68が固有表現と名詞句から対象物を抽出し、ステップS4で評価表現抽出部74が評価表現辞書76を用いて評価表現を抽出する。
続いてステップS5で対象物と評価表現を組み合わせた評価対候補を評価対候補抽出部78で抽出し、ステップS6で評価対候補に特徴量f1〜fnと正解または不正解を付与した後、ステップS7で特徴量と正解または不正解の組を機械学習器に入力して、評価対が正解か不正解かを求めるためのスコア計算に使用する例えば重みw1〜wnを学習により求めて、評価分類モデルを作成する。
図8及び図9は英語の文書をモデル文書とした図4の評価対学習部26の処理の説明図である。図8にあっては、トレーニング用のモデル文書84−1として対象物と評価表現の関係が特定された英文モデル文書84−1を入力する。英文モデル文書84−1は、図5の日本語のモデル文書と同じユーザが映画「オペラ座の怪人」を観賞したときの意見を記述している。
入力した英文モデル文書84−1につき、英文の場合には単語がスペースで区切られていることから、形態素解析部66による形態素解析は行わず、次の対象物抽出部68による対象物抽出処理90−1を実行する。これにより得られた対象物抽出リスト92−1につき、対象物94−1として「Phantom of the Opera」と対象物96−1として「Phantom」を抽出する。
続いて図9の評価表現抽出処理98−1に進み、評価表現抽出リスト100−1に示すように英文の評価表現102−1,104−1,106−1,108−1,・・・を抽出する。続いて評価対候補抽出処理110−1を実行し、評価対候補リスト112−1に示すように評価対候補114−1〜114−4及び116−1〜116−4を抽出する。
次に特徴量抽出処理118−1を行い、特徴量抽出リスト120−1に示すように、評価対候補114−1〜114−4及び116−1〜116−4のそれぞれにつき、特徴量122としてf1〜fn、及び解答124として正解である「+1」または不正解である「−1」を設定する。
そして特徴量抽出リスト120−1の各評価対から特徴量(f1〜fn)と正解(+1または−1)の組を機械学習器に入力して学習処理126−1により学習させ、特徴量f1〜f3の重みw1〜wnの乗算による累積としてスコアSが求められることから、学習によりスコアSを求めるための特徴量f1〜fnの重みw1〜wnの値を分類モデル128−1として生成する。
このように評判情報の処理対象が英文文書であった場合にも、日本語文書の場合と基本的に同様に評価対学習処理を行うことができる。
図10は図1の評価対抽出実行部28の詳細を示したブロック図である。図10において、評価対抽出実行部28には、ウェブ文書データベース130、形態素解析部132、対象物抽出部134、評価表現抽出部140、評価表現辞書141、評価対候補抽出部142、機械学習器144、評価対分類モデル82が設けられる。ウェブ文書データベース130には、図1に示したネットワーク12上のウェブサーバ14−1〜14−4から収集されたテキスト文書16−1〜16−4が格納されている。
形態素解析部132、対象物抽出部134、評価表現抽出部141、評価表現辞書142及び評価対候補抽出部142は、図4の評価対学習部126に設けている形態素解析部66、対象物抽出部68、評価表現抽出部74、評価表現辞書76及び評価対候補抽出部78と同じものである。
評価対抽出実行部28にあっては、評価対候補抽出部142から出力される評価対ごとの特徴量(f1〜fn)に対し解答が「未知数」となっている。一方、機械学習器144に対しては図4の評価対学習部26で作成された評価対分類モデル82による学習済みの規則が与えられ、この学習済の規則を使用して評価対の特徴量についてスコアを計算し、スコアが所定の閾値より大きければ正解として、評価対候補を正しい評価対として評価対データベース20に登録する。一方、評価対候補のスコアSが閾値以下であった場合には評価対として不正解であることから、これは破棄することになる。
図11は日本語の文書を対象とした図10の評価対抽出実行部28の処理動作の説明図であり、形態素解析、対象物抽出及び評価表現抽出については、図4の評価対学習部26と同じであることから省略し、それ以降の特徴量抽出処理と分類処理を示している。また評価対抽出実行部28で処理する未知の文書としては、説明を簡単にするため、図5の評価対学習処理に使用したモデル文書84と同じ文書を未知の文書として処理する場合を例にとっている。
図11にあっては、図5のモデル文書84と同じ未知の文書につき形態素解析、対象物抽出、更に評価対候補抽出処理を経た後、特徴量抽出処理146により特徴量抽出ファイル148を生成する。特徴量抽出ファイル148にあっては、評価対候補150−1〜150−4及び152−1〜152−4につき、特徴量154として(f1〜fn)が得られているが、正解156については「正解」または「不正解」は不明である。
そこで特徴量抽出ファイル148の評価対150−1〜150−4及び152−1〜152−4のそれぞれの特徴量(f1〜fn)を機械学習器に入力し、評価対学習で得られた重みw1〜wnを持つ評価対分類モデル82を用いた(1)式のスコア計算を分類処理として実行する。
この分類処理により分類リスト160が得られ、分類リストにあっては、評価対150−1〜150−4及び152−1〜152−4のそれぞれにつき、スコア162が算出されている。このような分類リスト160につき、スコア162を予め定めた閾値例えば「0.0」と比較し、閾値「0.0」を超えていれば正解「+1」、閾値「0.0」以下であれば不正解「−1」と判定する。
このスコアに対する正解又は不正解の判定により、評価対150−1,150−2及び152−4の3つが正解「+1」であり、未知の文書から抽出された正しい組み合せをもつ評価対として評価対データベース20−1に登録される。評価対データベース20−1にあっては、対象物172、評価表現174及びスコア176を登録している。
ここで、評価対データベース20−1に登録するのは対象物172と評価表現174、更にスコア176の3つが基本であるが、評価対データベース20−1を利用した様々な分析を行うためには、評価対データベース20に示すように、対象物172、評価表現174、スコア176に対し更に拡張領域170を設けている。
拡張領域170の拡張情報としては、例えばドキュメントID178、評価表現ID180、URL182及びタイプ184を設ける。ドキュメントID178は評価表現を抽出した文書を示すIDである。評価表現ID180は評価表現174の種類ごとに付加されるIDである。なお、評価表現174のカッコ内に示した「p,n,o」は、「p」はポジティブ、「n」はネガティブ、更に「o」はその他を示している。
URL182は抽出対象としたテキスト文書を持っているウェブページのネットワークアドレスを示す。更にタイプ184は、固有表現抽出と名詞句同定により抽出された対象物については「固有名詞(NE)」を設定し、それ以外の対象物については「一般名詞(NOUN)」を設定している。
このように評価対データベース20として対象物、評価表現、スコアに加えて、拡張領域170の拡張情報を付加することで、次に説明する本実施形態における評価対を利用した様々な分析が可能となる。
図12は図10の評価対抽出処理のフローチャートである。図12において、評価対抽出処理は、ステップS1でインターネット上のウェブページなどの未知の文書を格納したウェブ文書データベース130から未知の文書を読み込み、日本語の文書モデルの場合には、ステップS2で形態素解析部132により形態素解析を行った後、ステップS3で対象物抽出部134により固有表現抽出及び名詞句同定により対象物を特定し、更にそれ以外については辞書などを用いて一般名詞としての対象物の抽出を行う。
次にステップS4で、評価表現辞書141を用いて評価表現抽出部140で文書中から評価表現を抽出する。続いてステップS5で、抽出した対象物と評価表現を組み合わせた評価対候補を抽出する。
次にステップS6で、評価対候補について特徴量f1〜fnを抽出し、解答を「未定」として機械学習器に入力し、学習処理で得られている評価対分類モデル82を使用して評価対を求め、求めたスコアを閾値と比較することで正解か不正解かを決定し、正解となった評価対候補につき、抽出した評価対として、ステップS7で評価対データベース20に登録する。
続いてステップS8で拡張情報の指定の有無をチェックし、拡張情報の指定があった場合には、ステップS9で図11の評価対データベース20の拡張領域170に示す拡張情報を登録する。このステップS1〜S9の処理を、ステップS10で処理終了があるまで繰り返す。
図13は英文の未知の文書を対象とした図10の評価対抽出処理の説明図である。英文の文書の場合には形態素解析部132による処理が不要であることから、対象物抽出部134による処理から開始し、評価表現抽出部140で評価表現を抽出した後、評価対候補抽出部142で対象物と評価表現を組み合わせた評価対候補を抽出する。
この評価対候補の抽出までは図8及び図9に示した学習処理の際の英語の文書の処理と同じであることから省略しており、それ以降の評価対候補抽出部142による特徴量の抽出及び分類処理を取り出して示している。
英文文書における特徴量抽出処理146−1は、図11の日本語を対象とした特徴量抽出処理と基本的に同じである。そして評価対データベース20−1にあっては、対象物172、評価表現174及びスコア176の3つを登録しているが、評価対を用いた分析処理のため、評価対データベース20に示すように拡張領域170を追加し、ドキュメントID178、評価表現ID180、URL182及びタイプ184を設けている。
図14は本実施形態の評価対データベースを利用し、評価対の評価表現をアンカーとして固定して作成したアンカーマップの説明図である。
図14において、アンカーマップ190は、アンカー192,194,196,198として4つの評価表現「安全」、「安心」、「不満」、「不安」を固定し、この4つの評価表現と組み合わされている対象物である「A社」〜「J社」の出現頻度を、アンカー192〜198に対する例えば重心計算でマップ上に配置している。
図15は評価対データベース20の評価対の集合を対象に、「A社」〜「F社」となる対象物をアンカー202〜210として固定し、対象物「A社」〜「F社」と組み合わされている評価表現の出現数を求め、アンカー202〜210に対する評価表現の出現数の重心計算により、評価表現をアンカーマップ200上に配置している。
この図14のアンカーマップ190または図15のアンカーマップ200により、評価対を分析あるいは検索する際のビジュアルマイニングツールとして活用することができる。
次に図1の本実施形態の評価対分析部24に設けたカテゴリ推定部30の処理を説明する。評価対データベース20に登録された評価対を利用して図16に示すような円グラフ212を作成して対象物間の比較を行うためには、同一カテゴリに属する対象物の集合が必要である。
図16の円グラフ212にあっては、対象物としてA社、B社、C社、D社について評価表現を「安全」としたときの各社毎の出現数の分布を示している。そこで本実施形態にあっては、評価対データベース20に登録された評価対の集合をカテゴリ単位の評価対の集合に分類するカテゴリ分類処理を行う。
評価対のカテゴリの分類は、対象物に組み合わせている評価表現を使用することで推定できる。例えば評価表現「早い」は対象物「車」を評価する表現であり、対象物「食べ物」を評価する表現ではない。これに対し評価表現「おいしい」は対象物「食べ物」を評価する表現ではあるが、対象物「車」を評価する表現ではない。
このように評価対に使用している評価表現を用いることによって、車に属する対象物を持つ評価対のカテゴリと、食べ物に対する対象物を持つ評価対のカテゴリを分類する推定ができる。
図17は本実施形態によるカテゴリ推定処理のフローチャートである。カテゴリ推定処理にあっては、ステップS1で分類するカテゴリを指定する。カテゴリが指定されるとステップS2で指定されたカテゴリを特定する1又は複数の評価表現を読み込む。カテゴリに対応した評価表現は、予めカテゴリと評価表現の対応関係を作成した辞書を準備しておけばよい。
続いてステップS3で読み込んだ評価表現ごとに、評価対データベース20から評価対を抽出して評価対の集合を作成する。この評価表現ごとに表現した評価対をクラスタと定義する。
続いてステップS4で指定したカテゴリを特定するため入力した評価表現が複数であった場合には、ステップS5で複数の評価対を組み合わせる。例えば評価表現「かわいい」により抽出した評価対のクラスタと、別の評価表現「きれい」で抽出した評価対の集合のクラスタを組合せ、2つののクラスタの同一の対象物につき2つの評価表現「かわいい」「きれい」を持つ評価対を抽出する。
図18はカテゴリ推定処理におけるクラスタとカテゴリの関係を示している。図18において、データベース上の評価対集合215に対し、例えば3つの異なる評価表現を使用し、各評価表現ごとの評価対の集合であるクラスタ216,218,220が抽出される。3つのクラスタ216,218,220につき評価表現が一致する領域、すなわちクラスタ216,218,220が重複する斜線部の領域に含まれる評価対を、3つの評価表現により推定したカテゴリ222とする。
再び図17を参照するに、ステップS5で複数の評価表現を組み合わせた後、ステップS6で例えば図18のカテゴリ222に含まれる評価対の数、すなわち要素数がカテゴリとしての集合体を構築するに十分な所定の最小要素数以上か否かチェックし、最小要素数以上であればステップS7で指定カテゴリに属する評価対としてデータベースに登録する。評価対の数が最小要素数より少なければ、これはカテゴリとして構築することに無理があることからカテゴリとしての推定は行わない。
このような評価対データベース20に対するカテゴリの推定により様々なカテゴリ、例えば車や食べ物といったカテゴリについての評価対の集合が構築されることで、続いて説明する特異評価表現抽出処理や比較分析処理が可能となる。
図19は図1の特異評価表現抽出部32による特異評価表現抽出処理のフローチャートである。評価対データベース20に対し推定された特定のカテゴリに属する評価対において、特定の対象物が持つような評価表現は、その対象物を特徴づける評価として有用である。そこで評価対について対象物間の評価表現の分布の差を用いることにより、対象物を特徴づける評価表現、すなわち特異評価表現を抽出することができる。
例えば車のカテゴリに属する評価対の集合で「かわいい」という評価表現が特定の対象物のみに現れていたとすると、評価表現「かわいい」はその対象物を特徴づける特異評価表現と判断することができる。
この特徴対象物に対する特異評価表現の抽出は、あるカテゴリCに属する対象物aが評価表現eを持つとき、その評価表現eがどのくらい特異であるかを示す特異度UE(C,a,e)を次式により求める。
Figure 2007219880
但し、Cはカテゴリ
aは対象物
eは評価表現
fr(a、e)は対象物aの評価対の数
fr(i、e)は対象物a以外の評価対の数
εは分母をゼロとしないための定数
この(2)式における右辺の分子は、対象物と評価表現の組合せが多いほど大きくなる。一方、右辺の分母はカテゴリ内の他の対象物と評価表現の組合せが多くなるほど大きくなる。その結果、評価表現について特定の対象物にだけ頻繁に現れると分子が大きくなり、他の対象物にはあまり現れることがなく分母が小さくなる場合については、その評価表現の特異度UE(C,a,e)は大きな値をとることになる。
図19の特異評価表現抽出処理はステップS1でカテゴリを指定した評価対の集合体をデータベースから読込み、ステップS2で評価対を取り出し、ステップS3で前記(2)式により特異度UEを計算する。続いてステップS4で全ての評価対について処理が済んだか否かチェックし、処理が済んでなければステップS2に戻り次の評価対を取り出してステップS3で特異度UEを計算する。
ステップS4で全ての評価対についての処理が済むと、ステップS5で計算された特異度の高い評価表現をその対象物に固有なユーザ意見すなわち対象物に特異な意見として抽出する。
図20は図19の処理で得られた特異度抽出リスト224の説明図である。特異度抽出リスト224にあっては、対象物226、評価表現228及び特異度230で構成されており、この例では対象物Aの評価表現「かわいい」につき他の対象物に対し高い値が持つ特異度230が算出されており、この評価表現「かわいい」は対象物Aに固有な対象物を特徴づける評価として抽出することができる。
図21は図1の比較分析部34による比較分析のフローチャートである。評価対データベース20のカテゴリに分類された評価対の集合において、評価対が共通にもつ評価表現の出現数を計数することにより、対象物数ごとに評価表現についての出現の度合いを比較することができる。また特定の対象物について異なる評価表現ごとに求めた出現数を用いればデータチャートを描くことができる。
例えば車のカテゴリに属する評価対の集合について評価表現「速い」、「好き」、「おもしろい」のが複数の対象物について現れるとき、その評価表現の出現数を計数することにより、異なる対象物間において同じ評価表現たとえば「速い」の度合いを比較することができる。逆に特定の対象物である車について、評価表現毎に出現数を計数すれば、対象物「車」についてユーザがどのような評価をしているかの分布がわかる。
図21の比較分析処理にあっては、ステップS1で評価対データベース20から指定したカテゴリに属する評価対の集合を抽出し、この評価対の集合を対象に例えば図22のような比較分析リスト232のように、比較対象物A、B、Cのそれぞれにつき評価表現「速い」、「好き」、「おもしろい」、「安全」、「快適」ごとに評価対の出現数を抽出する。
このような比較分析リスト232が作成できたならば、ステップS3で例えば対象物Aの各評価表現の出現数を使用して図23のレーダーチャート238を描くことができる。このようなレーダーチャート238は、対象物B,Cについても同様に描くことで、評価対象が車であれば車A,B,Cに対するユーザの評判を評価することができる。
図24は図1の共起語分析部36における共起語分析処理のフローチャートである。本実施形態において、共起語とは、評価対を取得した文書に含まれる評価対以外の出現数の多い語句であり、対象物の評価表現の原因または理由となる語句と定義することができる。
このような共起語を抽出して表示することにより、評価対における対象物の評価表現の評価の背景や根拠となる情報の分析が可能となる。更に対象物がポジティブあるいはネガティブな評価表現で評価されたときに発生する共起語、あるいは特定の評価表現で評価されたときに発生する共起語を抽出して表示することで、更に詳細な評価対の分析が可能となる。
例えば車のカテゴリに属する評価対の対象物「A社」の評価表現「使いにくい」の出現数が高い場合、この評価対を使用した文書の単語を調べたときに例えば「シフトレバー」の語句が頻出していたとすると、「シフトレバー」に関して「使いにくい」という評価表現が出されていることがわかる。
図24の共起語分析処理は次の処理を行う。まずステップS1で指定された対象物と評価表現を入力し、ステップS2で指定された対象物の評価表現を含む評価対をデータベースから検索する。
次にステップS3で検索した評価対の図11の評価対データベース20について示した拡張領域170からドキュメントID178のリストを取得し、このドキュメントIDのリストに該当する文書を文書データベースから読み込む。
続いてステップS5で読み込んだ文書に含まれる語句の出現数を計数し、例えば図25に示すような共起語リスト240を作成する。共起語リスト240にあっては、単語242と出現244を設けている。続いてステップS6で共起語リスト240から出現数の高い語句を共起語として抽出し、ステップS7で共起語を分析データベースなどに登録する。
図26は図1のユーザプロファイル作成部38による処理のフローチャートである。本実施形態が対象とするユーザの各テキスト文書の対象的なものにブログが存在する。ブログのテキスト文書を評判処理の対象とした場合、ブログのネットワークアドレスにより書き手を特定することができる。
したがって、ブログのネットワークアドレスで特定される書き手ごとに、評価対データベースを利用して「特定の対象物に対し特定の評価表現を多くしているかどうか」といった出現数を調べ、出現数が多い場合には、その評価表現をそのブログの書き手のユーザプロファイルに登録する。
図26のユーザプロファイルの作成処理にあっては、ステップS1で指定された対象物と評価表現を入力し、ステップS2で指定された評価表現と対象物を含む評価対を評価対データベースから検索する。続いてステップS3で検索した評価対の集合につき、図11に示した拡張領域170からURL182のリストを取得し、ステップS4で取得したURLリストによりウェブにアクセスしてブログなどの文書を取得する。
続いてステップS5で書き手を示すネットワークアドレスであるURLごとに指定した評価表現の出現数を計数し、図27に示すようなURLリスト246を作成する。このURLリスト246につき、ステップS6で出現数の高いURLのユーザプロファイルにステップS1で指定した評価表現を登録する。尚、ステップS1で入力する対象物と評価表現は、必要に応じて複数としても良い。
図28は図1のフィルタリング処理のフローチャートである。本実施形態にあっては、ウェブ上から評価対抽出のためにテキスト文書を取得するが、コマースサイトやスパムログといった恣意的に記事が書かれたサイトからテキスト文書を取得して評価対を自動収集する場合があり、恣意的な記事を記述したテキスト文書は評判文書の対象としては不適切である。一般的にコマースサイトやスパムログなどの記事は自動的に生成されており、このため、これらの文書からは同一の評価対が多数得られることになる。
そこで本実施形態のフィルタリング処理にあっては、特定のサイトから同一の評価対がある閾値を超えて抽出された場合、そのサイトから抽出される評価対は評判分析に不適切と判断して排除するフィルタリング処理を実行する。
図28のフィルタリング処理にあっては、ステップS1で評価対データベース20の拡張領域のURLごとに評価表現の出現数を計数し、例えば図29のようにフィルタリングリスト252を作成する。フィルタリングリスト252はURL254ごとに「大きい」、「かわいい」、「きれい」などの評価表現256についての出現数を計数している。
このようにして作成されたフィルタリングリスト252を対象に、ステップS2で閾値以上の出現数のURLがあるか否か判定し、そのようなURLが存在した場合にはステップS3で不適切な表現が評判情報であるとして、判定したURLに対応した評価対を評価対データベース20から削除する。
このように不適切なURLの抽出ができれば、その後についてはフィルタリング対象となった不適切なURLのリストを作成しておくことで、インターネット上のブログからテキストページを抽出する際に、不適切なURLに対する文書収集を行わないようにすることができる。
図30は図1の属性抽出部42による属性抽出処理のフローチャートである。評価対データベース20につき、特定のカテゴリに属する評価対の集合について、評価対の対象物の属性を抽出できれば、抽出した属性を軸としたより詳細な分析が可能となる。
ここで属性とは、例えば評価対の対象物「映画」については「キャスティング」、「音楽」、「ストーリー」などであり、対象物「パソコン」については「CPU速度」、「メモリ容量」、「HDD容量」などである。
このような属性抽出処理として本実施形態にあっては、ステップS1の共起語によるモード1の属性抽出処理、ステップS2の評価対の組合せによるモード2の属性抽出処理、さらにステップS3の拡張的評価表現によるモード3の属性抽出処理を行う。
ステップS1の共起語のモード1の属性抽出処理は、指定したカテゴリの対象物の評価表現を裏付けたりする共起語そのものを対象物の属性とする。したがって、ステップS1の共起語によるモード1による抽出処理にあっては、図24に示した共起語分析処理のフローチャートの処理を実行し、例えば図25のような共起語リスト240を生成し、出現数が所定値以上となる語句を属性として抽出することになる。
図31は図30のステップS2の評価対の組合せによるモード2の属性抽出処理のフローチャートである。評価対の組合せによる属性抽出処理は、ひとつの評価表現が複数の対象物と組み合わされて評価対を形成しているとき、評価表現を同一とする複数の対象物の間には属性関係が成り立っているとする。
例えば「製品Aの音が良い」という文からは、
(対象物「製品A」,評価表現「良い」)
(対象物「音」 ,評価表現「良い」)
というように2つの評価表現が抽出できる。
このような場合、図11の評価対データベース20における拡張領域170の中の評価表現ID180が同じ値であれば、両方の評価表現「良い」が同一であることが判定でき、これによって対象物「製品A」と対象物「音」は属性関係にあることが判定できる。
そこで図31のモード2の属性抽出処理にあっては、ステップS1で指定された評価表現を読み込み、ステップS2で指定された評価表現によりデータベースを検索して評価対を抽出し、ステップS3で抽出した評価対の対象物に属性関係を設定することになる。
図32は図30のステップS3におけるモード3の属性抽出処理のフローチャートである。モード3の属性抽出処理にあっては、図4の評価対学習処理で使用する評価表現辞書76及び図10の評価対抽出処理で使用する評価表現辞書141に拡張評価表現として「変数X」+「評価表現」
となるパターン、例えば
「Xは良い」
のような変数Xを評価表現にもたせることにより、変数Xに当てはまる語句を抽出する。
例えば「製品Aの音がよい」という文からは、評価表現を使っただけでは評価対は
{対象物「製品A」,評価表現「良い」}
{対象物「音」 ,評価表現「良い」}
しか抽出できない。
しかしながら、拡張評価表現として「Xが良い」という変数Xを持った拡張評価表現を用いることで
{対象物「製品A」,拡張評価表現「X=音」}
というような評価対の抽出が実現できる。このような拡張評価表現を持つ評価対については、対象物「製品A」は変数Xで与えられる「音」という属性を持つことがわかる。
そこで図32のモード3の属性抽出処理にあっては、まずステップS1で評価表現辞書に
「変数X」+「評価表現」
形式の拡張評価表現を登録する。このような拡張評価表現を持つ評価表現辞書を使用してステップS2で評価対学習処理を実行する。評価対学習処理は図7のフローチャートの内容となる。
次にステップS3でステップS2の学習処理で得られた分類モデルを使用して評価対抽出処理を実行する。この評価対抽出処理は図12のフローチャートと同じである。このようにして評価対データベースは作成されたならば、ステップS4で指定された対象物を読み込み、ステップS5で指定対象物によって評価対データベースから評価対を抽出し、ステップS6で評価対に拡張評価表現があった場合には、拡張評価表現の「変数X」を抽出して指定対象物の属性として登録する。
尚、本実施形態は図1の評価対分析部24に示す各種の分析を例にとるものであったが、評価対データベース20を使用した分析は本実施形態にとどまらず、必要に応じて適宜の評判分析処理を行うことができる。
また本発明は評判情報処理に用いるプログラムに該当するものであり、このプログラムは本実施形態に示した各フローチャートの内容を持つことになる。
また本発明は評判情報処理プログラムを記録したコンピュータ登録の記録媒体を提供するものであり、この記録媒体としてはCD−ROM、フロッピー(R)ディスク、DVDディスク、光磁気ディスク、ICカードなどの記録媒体や、コンピュータシステムの内外に備えられたハードディスクドライブなどの記録装置のほか、回線を介してプログラムを保持するデータベース、あるいは他のコンピュータシステム並びデータベースシステムや更には回線上の伝送媒体を含むものである。
また本発明はその目的と利点を損なうことのない適宜の変形を含み、上記の実施形態に示した数値による限定は受けない。
ここで本発明の特徴をまとめて列挙すると次の付記のようになる。
(付記)
(付記1)
コンピュータに、
ネットワーク上に存在する文書を解析して対象物と評価表現を組合わせた評価対を抽出してデータベースに登録する評価対抽出ステップと、
前記データベースの評価対を利用して所望の分析を実行する評価対分析ステップと、
を実行させることを特徴とする評判情報処理プログラム。(1)
(付記2)
付記1記載の評判情報処理プログラムに於いて、前記評価対の対象物は、商品名、メーカ名等を含む評価を受けうる固有物であり、前記評価対の評価表現は、好きや使いにくい等を含む評価を表わす語句であることを特徴とする評判情報処理プログラム。
(付記3)
付記1記載の評判情報処理プログラムに於いて、前記評価対抽出ステップは、
トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて前記評価対となりうる規則を学習させる評価対学習ステップと、
前記機械学習器に未知の文書を入力して前記学習した規則に基づいて評価対を抽出する評価対抽出実行ステップと、
を備えたことを特徴とする評判情報処理プログラム。(2)
(付記4)
付記3記載の評判情報処理プログラムに於いて、
前記評価対学習ステップは、
前記モデル文書を形態素解析する形態素解析ステップと、
前記形態素解析されたモデル文書から固有表現と名詞句を抽出して対象物とする対象物抽出ステップと、
前記形態素解析されたモデル文書から評価表現辞書を用いて評価表現を抽出する評価表現抽出ステップと、
前記対象物と評価表現を組合わせた評価対候補を抽出し、前記評価対候補の特徴量を抽出すると共に前記評価対候補の組み合わせが正解か否かを設定する学習用評価対抽出ステップと、
前記学習用評価対の特徴量と正解を前記機械学習器に入力して前記学習用評価対となりうる規則を学習させた評価対分類モデルを生成するモデル作成ステップと、
を備え、
前記評価対抽出実行ステップは、
未知の文書を形態素解析する形態素解析ステップと、
前記形態素解析された未知の文書から固有表現と名詞句を抽出して対象物とする対象物抽出ステップと、
前記形態素解析された未知の文書から評価表現辞書を用いて評価表現を抽出する評価表現抽出ステップと、
前記対象物と評価表現を組合わせた評価対候補を抽出する評価対候補抽出ステップと、
前記評価対候補を前記機械学習器に入力し、前記評価対分類モデルを用いて前記評価対候補に特徴量を付与し、所定値以上の特徴量をもつ評価対候補を前記未知の文書の評価対に決定して前記データベースに登録する評価対決定ステップと、
を備えことを特徴とする評判情報処理プログラム。(3)
(付記5)
付記1記載の評判情報処理プログラムに於いて、前記形態素解析ステップは、日本語、中国語、韓国語などの単語をスペースで区切らない言語の文書に対しのみ実行することを特徴とする評判情報処理プログラム。
(付記6)
付記1記載の評判情報処理プログラムに於いて、前記評価対抽出ステップは、前記対象物と評価表現を組合わせた評価対に、更に、拡張情報として、文書ID、評価表現ID、URLを含むネットワークアドレス、固有名詞か一般名詞かの対象物の種類を追加したことを特徴とする評判情報処理プログラム。(4)
(付記7)
付記1記載の評判情報処理装置に於いて、前記評価対分析部は、
指定されたカテゴリを特定する1又は複数の評価表現を入力する入力ステップと、
前記入力した評価表現毎に前記データベースから評価対を検索する評価対検索部と、
前記検索された評価対を前記指定カテゴリに属する評価対と推定して前記データベースに登録するカテゴリ推定部と、
を備えたことを特徴とする評判情報処理プログラム。(5)
(付記8)
付記7記載の分析評判情報処理装置に於いて、
前記カテゴリ推定部は、前記検索された評価対の数が所定の最低要素数以上の場合、前記指定カテゴリに属する評価対と推定することを特徴とする評判情報処理装置。
(付記9)
付記7又は8記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
前記カテゴリに属する複数の対象物の間の評価表現の分布の差に基づいて、前記対象物に特異な評価表現を判定する判定ステップを備えたことを特徴とする評判情報処理プログラム。(6)
(付記10)
付記9記載の分析評判情報処理プログラムに於いて、前記判定ステップは、評価表現の特異性を判定する特異度UE(C,a,e)として、
Figure 2007219880
但し、Cはカテゴリ
aは対象物
eは評価表現
fr(a、e)は対象物aの評価対の数
fr(i、e)は対象物a以外の評価対の数
εは分母をゼロとしないための定数
を算出し、前記特異度が所定の閾値以上の場合に特異な評価表現と判定することを特徴とする分析評判情報処理プログラム。
(付記11)
付記7又は8記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
前記カテゴリに属する複数の対象物が共通にもつ評価表現毎の出現回数を対象物毎に検出し、複数の対象物につき評価表現の度合いを比較表示させる評価度合判定ステップを備えたことを特徴とする評判情報処理プログラム。(7)
(付記12)
付記11記載の分析評判情報処理プログラムに於いて、前記評価度合判定ステップは、前記対象物について検出した複数の評価表現の出現回数によりレーダーチャートを描画して表示することを特徴とする評判情報処理プログラム。
(付記13)
付記6記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
指定された対象物と評価表現からなる評価対に付加された文書IDを前記データベースから検索し、前記文書IDに対応する文書を取得する文書取得ステップと、
前記取得した文書に含まれる対象物以外の語句を抽出して出現回数を計数し、出現回数の多い語句を前記対象物の評価表現の原因又は理由となる共起語として抽出する共起語分析ステップと、
を備えたことを特徴とする評判情報処理プログラム。(8)
(付記14)
付記6記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
指定された対象物と評価表現からなる評価対に付加されたブログ等のネットワークアドレスを前記データベースから検索し、前記ネットワークアドレスにアクセスして文書を取得するネットワーク文書取得ステップと、
前記取得した文書に含まれる前記評価表現の出現回数を計数し、前記ネットワークアドレスを書き手として前記評価表現の出現回数を登録したユーザプロファイルを作成するプロファイル作成ステップと、
を備えたことを特徴とする評判情報処理プログラム。(9)
(付記15)
付記6記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
前記評価対データベースからネットワークアドレス毎に評価表現の出現数を計数し、所定閾値以上の出現数をもつネットワークアドレスの評価対を前記評価対データベースから削除するフィルタリング処理ステップを備えたことを特徴とする評判情報処理プログラム。
(付記16)
付記7又は8記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、前記カテゴリに属する対象物の持つ属性を抽出する属性抽出ステップを備えたことを特徴とする評判情報処理プログラム。(10)
(付記17)
付記16記載の評判情報処理プログラムに於いて、前記属性抽出ステップは、
指定された対象物と評価表現からなる評価対に付加された文書IDを前記データベースから検索して対応する文書を取得する文書取得ステップと、
前記取得した文書に含まれる対象物以外の語句を抽出して出現回数を計数し、出現回数の多い語句を前記対象物の評価表現の原因又は理由となる共起語として抽出する共起語分析ステップと、
を備え、前記共起語分析ステップで抽出された共起語を前記対処物の属性とすることをことを特徴とする評判情報処理プログラム。
(付記18)
付記16記載の評判情報処理プログラムに於いて、前記属性抽出ステップは、指定された評価表現を含む評価対の組合せを前記データベースから検索し、前記評価対の組合せに含まれる対象物の間に属性関係を設定する評価対組合せ分析ステップを備えたことを特徴とする評判情報処理プログラム。
(付記19)
付記16記載の評判情報処理プログラムに於いて、前記属性抽出ステップは、
ネットワーク上に存在する文書を解析し、対象物と、変数に評価表現を組み合わせた拡張評価表現とを組合わせた評価対を抽出して前記データベースに登録する拡張評価対抽出ステップと、
指定された対象物の評価対を前記データベースから検索し、検索した評価対の拡張評価表現の変数を前記対象物の属性として抽出する変数抽出ステップと、
を備えたことを特徴とする評判情報処理プログラム。
(付記20)
ネットワーク上に存在する文書を解析して対象物と評価表現を組合わせた評価対を抽出してデータベースに登録する評価対抽出ステップと、
前記データベースの評価対を利用して所望の分析を実行する評価対分析ステップと、
を備えたことを特徴とする評判情報処理方法。
(付記21)
付記20記載の評判情報処理方法に於いて、評価対抽出ステップは、
トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて前記評価対となりうる規則を学習させる評価対学習ステップと、
前記機械学習器に未知の文書を入力して前記学習した規則に基づいて評価対を抽出する評価対抽出実行ステップと、
を備えたことを特徴とする評判情報処理方法。
(付記22)
付記20記載の評判情報処理方法に於いて、前記評価対分析ステップは、
前記データベースからカテゴリを特定する評価表現を含む評価対を検索する評価対検索ステップと、
前記検索された評価対に含まれる対象物を同一カテゴリに属する対象物であると推定するカテゴリ推定ステップと、
を備えたことを特徴とする評判情報処理方法。
(付記23)
付記20記載の評判情報処理方法に於いて、前記評価対分析ステップは、前記カテゴリに属する対象物の持つ属性を抽出する属性抽出ステップを備えたことを特徴とする評判情報処理方法。
(付記24)
ネットワーク上に存在する文書を解析して対象物と評価表現からなる評価対を抽出してデータベースに登録する評価対抽出部と、
前記データベースの評価対を利用して所望の分析を実行する評価対分析部と、
を備えたことを特徴とする評判情報処理装置。
(付記25)
付記24記載の評判情報処理装置に於いて、評価対抽出部は、
トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて前記評価対となりうる規則を学習させる評価対学習部と、
前記機械学習器に未知の文書を入力して前記学習した規則に基づいて評価対を抽出する評価対抽出実行部と、
を備えたことを特徴とする評判情報処理装置。
本発明の評判情報処理プログラムにより実現される装置機能の実施形態を示したブロック図 本実施形態に使用されるコンピュータのハードウェア環境のブロック図 本実施形態による評判情報処理の基本的な手順のフローチャート 図1の評価対学習部の機能構成の詳細を示したブロック図 日本語の文書を対象とした図4の形態素解析処理と対象物抽出処理の説明図 図5に続く図4の評価表現抽出処理、評価対候補抽出処理、特徴量抽出処理及び学習処理の説明図 図4の評価対学習処理のフローチャート 英語の文書を対象とした図4の対象物抽出処理の説明図 図8に続く図4の評価表現抽出処理、評価対候補抽出処理、特徴量抽出処理及び学習処理の説明図 図1の評価対抽出実行部の機能構成の詳細を示したブロック図 日本語の文書を対象とした図10の特徴量抽出処理と分類処理の説明図 図10の評価対抽出処理のフローチャート 英語の文書を対象とした図10の特徴量抽出処理と分類処理の説明図 本実施形態により評価対データベースから評価表現を固定して作成したアンカーマップの説明図 本実施形態により評価対データベースから対象物を固定して作成したアンカーマップの説明図 本実施形態の評価対のカテゴリ推定結果から作成された円グラフの説明図 本実施形態によるカテゴリ推定処理のフローチャート カテゴリ推定処理における評価表現毎のクラスタの重複領域として推定されるカテゴリの説明図 本実施形態による特異評価表現抽出処理のフローチャート 図19の処理で得られた特異度抽出リストの説明図 本実施形態による比較分析処理のフローチャート 図21の処理で得られた比較分析リストの説明図 図22の比較分析リストから作成されたレーダーチャートの説明図 本実施形態の共起語分析処理のフローチャート 図24の処理で作成された共起語リストの説明図 本実施形態によるユーザプロファイル作成処理のフローチャート 図26の処理で作成されたURLリストの説明図 本実施形態によるフィルタリング処理のフローチャート 図28の処理で作成されたフィルタリングリストの説明図 本実施形態の属性抽出処理のフローチャート 図30におけるモード2の属性抽出処理のフローチャート 図30におけるモード3の属性抽出処理のフローチャート
符号の説明
10:評判情報処理装置
12:ネットワーク
14−1〜14−4:ウェブサーバ
16−1〜16−4:テキスト文書
20:評価対データベース
22:アンカーマップ作成部
24:評価対分析部
26:評価対学習部
28:評価対抽出実行部
30:カテゴリ推定部
32:特異評価表現抽出部
34:比較分析部
36:共起語分析部
38:ユーザプロファイル作成部
40:フィルタリング処理部
42:属性抽出部
44:CPU
46:バス
48:RAM
50:ROM
52:ハードディスクドライブ
54:デバイスインタフェース
56:キーボード
58:マウス
60:ディスプレイ
62:ネットワークアダプタ
64:モデル文書データベース
66,132:形態素解析部
68,134:対象物抽出部
70,136:固有表現抽出部
72,138:名詞句同定部
74,140:評価表現抽出部
76,142:評価表現辞書
78,142:評価対候補抽出部
80,144:機械学習器
82:評価対分類モデル
84,84−1:モデル文書
86:形態素解析処理
88:形態素解析文書
90:対象物抽出処理
92:対象物抽出リスト
94,94−1,96,96−1:対象物
98,98−1:評価表現抽出処理
102〜108,102−1〜108−1:評価表現
110,110−1:評価対象候補抽出処理
112,112−1:評価対候補リスト
114−1〜114−4,116−1〜116−4,150−1〜150−4,152−1〜153−4:評価対
118,118−1,146,146−1:特徴量抽出処理
120:特徴量抽出リスト
122:特徴量
124:正解
126,126−1,158,158−1:学習処理
128,128−1:分類モデル
130:ウェブ文書データベース
160:分類リスト
162〜166,176:スコア
172−1:拡張評価対リスト
172:対象物
174:評価表現
176:スコア
178:ドキュメントID
180:評価表現ID
182:URL
184:タイプ
190,200:アンカーマップ
192〜198:評価表現
202〜210:対象物
212:円グラフ
215:評価対集合
216〜220:クラスタ
222:カテゴリ
224:特異度抽出リスト
226,236,248:対象物
228,234,246:評価表現
230:特異度
232:比較分析リスト
238:レーダーチャート
240:共起語リスト
242:単語
244,250:出現数
246:URLリスト
252:フィルタリングリスト
254:URL

Claims (10)

  1. コンピュータに、
    ネットワーク上に存在する文書を解析して対象物と評価表現を組合わせた評価対を抽出してデータベースに登録する評価対抽出ステップと、
    前記データベースの評価対を利用して所望の分析を実行する評価対分析ステップと、
    を実行させることを特徴とする評判情報処理プログラム。
  2. 請求項1記載の評判情報処理プログラムに於いて、前記評価対抽出ステップは、
    トレーニング用のモデル文書から抽出した評価対を機械学習器に与えて前記評価対となりうる規則を学習させる評価対学習ステップと、
    前記機械学習器に未知の文書を入力して前記学習した規則に基づいて評価対を抽出する評価対抽出実行ステップと、
    を備えたことを特徴とする評判情報処理プログラム。
  3. 請求項1記載の評判情報処理プログラムに於いて、前記形態素解析ステップは、日本語、中国語、韓国語などの単語をスペースで区切らない言語の文書に対しのみ実行することを特徴とする評判情報処理プログラム。
  4. 請求項1記載の評判情報処理プログラムに於いて、前記評価対抽出ステップは、前記対象物と評価表現を組合わせた評価対に、更に、拡張情報として、文書ID、評価表現ID、URLを含むネットワークアドレス、固有名詞か一般名詞かの対象物の種類を追加したことを特徴とする評判情報処理プログラム。
  5. 請求項1記載の評判情報処理プログラムに於いて、前記評価対分析部は、
    指定されたカテゴリを特定する1又は複数の評価表現を入力する入力ステップと、
    前記入力した評価表現毎に前記データベースから評価対を検索する評価対検索部と、
    前記検索された評価対を前記指定カテゴリに属する評価対と推定して前記データベースに登録するカテゴリ推定部と、
    を備えたことを特徴とする評判情報処理プログラム。
  6. 請求5記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
    前記カテゴリに属する複数の対象物の間の評価表現の分布の差に基づいて、前記対象物に特異な評価表現を判定する判定ステップを備えたことを特徴とする評判情報処理プログラム。
  7. 請求項5記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
    前記カテゴリに属する複数の対象物が共通にもつ評価表現毎の出現回数を対象物毎に検出し、複数の対象物につき評価表現の度合いを比較表示させる評価度合判定ステップを備えたことを特徴とする評判情報処理プログラム。
  8. 請求項4記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
    指定された対象物と評価表現からなる評価対に付加された文書IDを前記データベースから検索し、前記文書IDに対応する文書を取得する文書取得ステップと、
    前記取得した文書に含まれる対象物以外の語句を抽出して出現回数を計数し、出現回数の多い語句を前記対象物の評価表現の原因又は理由となる共起語として抽出する共起語分析ステップと、
    を備えたことを特徴とする評判情報処理プログラム。
  9. 請求項4記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、
    指定された対象物と評価表現からなる評価対に付加されたブログ等のネットワークアドレスを前記データベースから検索し、前記ネットワークアドレスにアクセスして文書を取得するネットワーク文書取得ステップと、
    前記取得した文書に含まれる前記評価表現の出現回数を計数し、前記ネットワークアドレスを書き手として前記評価表現の出現回数を登録したユーザプロファイルを作成するプロファイル作成ステップと、
    を備えたことを特徴とする評判情報処理プログラム。
  10. 請求項7又は8記載の評判情報処理プログラムに於いて、前記評価対分析ステップは、前記カテゴリに属する対象物の持つ属性を抽出する属性抽出ステップを備えたことを特徴とする評判情報処理プログラム。
JP2006040283A 2006-02-17 2006-02-17 評判情報処理プログラム、方法及び装置 Pending JP2007219880A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006040283A JP2007219880A (ja) 2006-02-17 2006-02-17 評判情報処理プログラム、方法及び装置
US11/441,147 US7599926B2 (en) 2006-02-17 2006-05-26 Reputation information processing program, method, and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006040283A JP2007219880A (ja) 2006-02-17 2006-02-17 評判情報処理プログラム、方法及び装置

Publications (1)

Publication Number Publication Date
JP2007219880A true JP2007219880A (ja) 2007-08-30

Family

ID=38429596

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006040283A Pending JP2007219880A (ja) 2006-02-17 2006-02-17 評判情報処理プログラム、方法及び装置

Country Status (2)

Country Link
US (1) US7599926B2 (ja)
JP (1) JP2007219880A (ja)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140359A (ja) * 2006-11-08 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 評価情報抽出装置、評価情報抽出方法およびそのプログラム
WO2009051261A1 (ja) * 2007-10-18 2009-04-23 Nec Corporation 情報影響力評価方法、情報影響力評価システム及び情報影響力評価用プログラム
WO2009060888A1 (ja) * 2007-11-08 2009-05-14 Nec Corporation 著者影響判定システム、著者影響判定方法、及びプログラム
JP2009134637A (ja) * 2007-11-30 2009-06-18 Dainippon Printing Co Ltd 評価情報作成装置および評価情報提示装置
JP2010061332A (ja) * 2008-09-03 2010-03-18 Nifty Corp ブランド分析方法及び装置
KR101005337B1 (ko) 2008-09-29 2011-01-04 주식회사 버즈니 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
JP2011076398A (ja) * 2009-09-30 2011-04-14 Fujitsu Ltd グラフ表示プログラムおよびグラフ表示方法
US8244773B2 (en) 2007-05-08 2012-08-14 Fujitsu Limited Keyword output apparatus and method
JP2012174104A (ja) * 2011-02-23 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 苦情検索装置、苦情検索方法、及びそのプログラム
JP2013164687A (ja) * 2012-02-09 2013-08-22 Ricoh Co Ltd 検索対象評価装置、検索対象評価方法
JP2014153862A (ja) * 2013-02-07 2014-08-25 Nippon Telegr & Teleph Corp <Ntt> 情報抽出装置、情報抽出方法及び情報抽出プログラム
JP2014228993A (ja) * 2013-05-21 2014-12-08 日本電信電話株式会社 情報抽出方法、情報抽出装置及び情報抽出プログラム
JP2014229047A (ja) * 2013-05-22 2014-12-08 日本電信電話株式会社 イベント情報抽出装置、その動作方法およびコンピュータプログラム
JP2016095862A (ja) * 2013-12-20 2016-05-26 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、制御方法、及びプログラム
JP2016162357A (ja) * 2015-03-04 2016-09-05 Kddi株式会社 商品に対するユーザの感情分析装置及びプログラム
JP6096368B1 (ja) * 2016-11-10 2017-03-15 株式会社バリュープレス 商品情報評価装置、商品情報評価システム、及び商品情報評価方法
JPWO2016016974A1 (ja) * 2014-07-30 2017-06-01 株式会社Ubic データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
WO2017094169A1 (ja) * 2015-12-03 2017-06-08 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
JP2018190462A (ja) * 2017-04-24 2018-11-29 ヤフー株式会社 提供装置、提供方法、及び提供プログラム
US10303709B2 (en) 2015-07-01 2019-05-28 Fujitsu Limited Population formation method, population formation apparatus, and computer-readable recording medium
WO2023119496A1 (ja) * 2021-12-22 2023-06-29 日本電気株式会社 抽出装置
JP7372707B2 (ja) 2019-09-05 2023-11-01 エスツーダブリュー インコーポレイテッド 暗号通貨取引を分析するためのデータ取得方法及び装置

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008504275A (ja) * 2004-06-24 2008-02-14 インサイト・コーポレイション N−置換ピペリジンおよびその医薬としての使用
JP4444893B2 (ja) * 2005-08-31 2010-03-31 富士通株式会社 拡張ポートフォリオチャート描画装置
WO2008075524A1 (ja) * 2006-12-18 2008-06-26 Nec Corporation 極性推定システム、情報配信システム、極性推定方法及び、極性推定用プログラム、及び評価極性推定用プログラム
US8280871B2 (en) * 2006-12-29 2012-10-02 Yahoo! Inc. Identifying offensive content using user click data
US8010524B2 (en) * 2007-10-29 2011-08-30 International Business Machines Corporation Method of monitoring electronic media
US8150842B2 (en) * 2007-12-12 2012-04-03 Google Inc. Reputation of an author of online content
US8484225B1 (en) 2009-07-22 2013-07-09 Google Inc. Predicting object identity using an ensemble of predictors
CN102609424B (zh) * 2011-01-21 2014-10-08 日电(中国)有限公司 评价信息抽取方法和设备
US8515828B1 (en) * 2012-05-29 2013-08-20 Google Inc. Providing product recommendations through keyword extraction from negative reviews
JP5526209B2 (ja) * 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US20150161686A1 (en) * 2013-07-26 2015-06-11 Kurtis Williams Managing Reviews
EP3092581A4 (en) * 2014-01-10 2017-10-18 Cluep Inc. Systems, devices, and methods for automatic detection of feelings in text
JP6365032B2 (ja) * 2014-07-08 2018-08-01 富士通株式会社 データ分類方法、データ分類プログラム、及び、データ分類装置
CN105630788B (zh) * 2014-10-28 2019-05-03 佳能株式会社 用于确定具有区别性事实的近似判断的方法和装置
KR101741509B1 (ko) * 2015-07-01 2017-06-15 지속가능발전소 주식회사 뉴스의 데이터마이닝을 통한 기업 평판 분석 장치 및 방법, 그 방법을 수행하기 위한 기록 매체

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282940A (ja) * 2000-03-31 2001-10-12 Waag Technologies Kk 製品評価システム
JP2002092004A (ja) * 2000-09-13 2002-03-29 Nec Corp 情報分類装置
JP2004164137A (ja) * 2002-11-11 2004-06-10 Ricoh Co Ltd テキスト分類結果表示装置、テキスト分類結果表示方法、及び記録媒体
JP2005032197A (ja) * 2003-07-11 2005-02-03 Nippon Telegr & Teleph Corp <Ntt> 情報解析システム及び方法
JP2005202535A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
JP2005284776A (ja) * 2004-03-30 2005-10-13 Honda Motor Co Ltd テキストマイニング装置及びテキスト分析方法
JP2005322239A (ja) * 2000-08-21 2005-11-17 Fujitsu Ltd 自然文処理装置、自然言語処理方法及び自然文処理用プログラム
JP2005339419A (ja) * 2004-05-31 2005-12-08 Nomura Research Institute Ltd Webページ評価システム及びWebページ評価方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050005266A1 (en) * 1997-05-01 2005-01-06 Datig William E. Method of and apparatus for realizing synthetic knowledge processes in devices for useful applications
CN1652107A (zh) * 1998-06-04 2005-08-10 松下电器产业株式会社 语言变换规则产生装置、语言变换装置及程序记录媒体
JP4417497B2 (ja) 1999-11-25 2010-02-17 株式会社ニューズウォッチ 情報検索装置及びプログラムを記憶した記憶媒体
CN100495391C (zh) * 2000-07-06 2009-06-03 金时焕 信息查询系统及其方法
JP3843719B2 (ja) 2000-09-13 2006-11-08 日本電気株式会社 情報検索装置
JP3820878B2 (ja) 2000-12-06 2006-09-13 日本電気株式会社 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
US6732090B2 (en) * 2001-08-13 2004-05-04 Xerox Corporation Meta-document management system with user definable personalities
US6778979B2 (en) * 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries
US6820075B2 (en) * 2001-08-13 2004-11-16 Xerox Corporation Document-centric system with auto-completion
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
JP2003271609A (ja) 2002-03-12 2003-09-26 Mitsubishi Electric Corp 情報監視装置及び情報監視方法
JP3988622B2 (ja) 2002-11-07 2007-10-10 日本電気株式会社 意見抽出装置、意見抽出プログラム
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
JP4170296B2 (ja) * 2003-03-19 2008-10-22 富士通株式会社 事例分類装置および方法
JP2004310561A (ja) * 2003-04-09 2004-11-04 Hitachi Ltd 情報検索方法、情報検索システム及び検索サーバ
JP4225128B2 (ja) * 2003-06-13 2009-02-18 ソニー株式会社 規則音声合成装置及び規則音声合成方法
JP2005010691A (ja) * 2003-06-20 2005-01-13 P To Pa:Kk 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
JP2005063242A (ja) 2003-08-15 2005-03-10 Nippon Telegr & Teleph Corp <Ntt> 情報解析システム及び方法
JP2005122295A (ja) * 2003-10-14 2005-05-12 Fujitsu Ltd 関係図作成プログラム、関係図作成方法、および関係図作成装置
WO2006008871A1 (ja) * 2004-07-21 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声合成装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282940A (ja) * 2000-03-31 2001-10-12 Waag Technologies Kk 製品評価システム
JP2005322239A (ja) * 2000-08-21 2005-11-17 Fujitsu Ltd 自然文処理装置、自然言語処理方法及び自然文処理用プログラム
JP2002092004A (ja) * 2000-09-13 2002-03-29 Nec Corp 情報分類装置
JP2004164137A (ja) * 2002-11-11 2004-06-10 Ricoh Co Ltd テキスト分類結果表示装置、テキスト分類結果表示方法、及び記録媒体
JP2005032197A (ja) * 2003-07-11 2005-02-03 Nippon Telegr & Teleph Corp <Ntt> 情報解析システム及び方法
JP2005202535A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
JP2005284776A (ja) * 2004-03-30 2005-10-13 Honda Motor Co Ltd テキストマイニング装置及びテキスト分析方法
JP2005339419A (ja) * 2004-05-31 2005-12-08 Nomura Research Institute Ltd Webページ評価システム及びWebページ評価方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140359A (ja) * 2006-11-08 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 評価情報抽出装置、評価情報抽出方法およびそのプログラム
JP4576397B2 (ja) * 2006-11-08 2010-11-04 日本電信電話株式会社 評価情報抽出装置、評価情報抽出方法およびそのプログラム
US8244773B2 (en) 2007-05-08 2012-08-14 Fujitsu Limited Keyword output apparatus and method
WO2009051261A1 (ja) * 2007-10-18 2009-04-23 Nec Corporation 情報影響力評価方法、情報影響力評価システム及び情報影響力評価用プログラム
JP5206686B2 (ja) * 2007-10-18 2013-06-12 日本電気株式会社 情報影響力評価方法、情報影響力評価システム及び情報影響力評価用プログラム
WO2009060888A1 (ja) * 2007-11-08 2009-05-14 Nec Corporation 著者影響判定システム、著者影響判定方法、及びプログラム
JP5206996B2 (ja) * 2007-11-08 2013-06-12 日本電気株式会社 著者影響判定システム、著者影響判定方法、及びプログラム
JP2009134637A (ja) * 2007-11-30 2009-06-18 Dainippon Printing Co Ltd 評価情報作成装置および評価情報提示装置
JP2010061332A (ja) * 2008-09-03 2010-03-18 Nifty Corp ブランド分析方法及び装置
KR101005337B1 (ko) 2008-09-29 2011-01-04 주식회사 버즈니 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
JP2011076398A (ja) * 2009-09-30 2011-04-14 Fujitsu Ltd グラフ表示プログラムおよびグラフ表示方法
JP2012174104A (ja) * 2011-02-23 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 苦情検索装置、苦情検索方法、及びそのプログラム
JP2013164687A (ja) * 2012-02-09 2013-08-22 Ricoh Co Ltd 検索対象評価装置、検索対象評価方法
JP2014153862A (ja) * 2013-02-07 2014-08-25 Nippon Telegr & Teleph Corp <Ntt> 情報抽出装置、情報抽出方法及び情報抽出プログラム
JP2014228993A (ja) * 2013-05-21 2014-12-08 日本電信電話株式会社 情報抽出方法、情報抽出装置及び情報抽出プログラム
JP2014229047A (ja) * 2013-05-22 2014-12-08 日本電信電話株式会社 イベント情報抽出装置、その動作方法およびコンピュータプログラム
JP2016095862A (ja) * 2013-12-20 2016-05-26 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、制御方法、及びプログラム
JPWO2016016974A1 (ja) * 2014-07-30 2017-06-01 株式会社Ubic データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
JP2016162357A (ja) * 2015-03-04 2016-09-05 Kddi株式会社 商品に対するユーザの感情分析装置及びプログラム
US10303709B2 (en) 2015-07-01 2019-05-28 Fujitsu Limited Population formation method, population formation apparatus, and computer-readable recording medium
WO2017094169A1 (ja) * 2015-12-03 2017-06-08 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
JPWO2017094169A1 (ja) * 2015-12-03 2018-09-20 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
JP6096368B1 (ja) * 2016-11-10 2017-03-15 株式会社バリュープレス 商品情報評価装置、商品情報評価システム、及び商品情報評価方法
JP2018190462A (ja) * 2017-04-24 2018-11-29 ヤフー株式会社 提供装置、提供方法、及び提供プログラム
JP7372707B2 (ja) 2019-09-05 2023-11-01 エスツーダブリュー インコーポレイテッド 暗号通貨取引を分析するためのデータ取得方法及び装置
WO2023119496A1 (ja) * 2021-12-22 2023-06-29 日本電気株式会社 抽出装置

Also Published As

Publication number Publication date
US20070198530A1 (en) 2007-08-23
US7599926B2 (en) 2009-10-06

Similar Documents

Publication Publication Date Title
JP2007219880A (ja) 評判情報処理プログラム、方法及び装置
JP5085708B2 (ja) キーワード提示装置、方法及びプログラム
JPWO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
JP2008198132A (ja) 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
JP2021114057A (ja) 文書表示支援システム及び文書表示支援方法並びに該方法を実行するためのプログラム
JP2021136027A (ja) 文書のテーマ・カバレッジの分析
US10198497B2 (en) Search term clustering
JP2022042497A (ja) コーパスに格納された既存の械学習プロジェクトのパイプラインからの新しい機械学習プロジェクトのパイプラインの自動生成
JP2022042495A (ja) 新しい械学習プロジェクトにおける使用のために適応可能なコーパスへの既存機械学習プロジェクトの自動キュレーション
JP5226241B2 (ja) タグを付与する方法
JP2009199302A (ja) ドキュメントを解析するためのプログラム,装置および方法
KR20180127840A (ko) 논문 평가 방법 및 전문가 추천 방법
JP5427119B2 (ja) 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体
JP2016162357A (ja) 商品に対するユーザの感情分析装置及びプログラム
JP4938515B2 (ja) 単語間相関度計算装置および方法、プログラム並びに記録媒体
JP2009064191A (ja) 情報検索支援装置、情報検索支援方法、プログラムおよび記録媒体
JP7117168B2 (ja) 情報処理装置および情報処理方法
JP5977199B2 (ja) 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP5594225B2 (ja) 知識獲得装置、知識取得方法、及びプログラム
JP2010267047A (ja) 類義語辞書構築装置及び方法、コンピュータプログラム
JP4953459B2 (ja) 文字ベクトルを用いた略語生成装置、方法及びプログラム
CN106708808B (zh) 一种信息挖掘方法及装置
JP7032582B1 (ja) 情報解析プログラム、情報解析方法及び情報解析装置
JP6153262B2 (ja) 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110111