JP5724878B2 - 文書分析装置、文書分析方法、及びプログラム - Google Patents

文書分析装置、文書分析方法、及びプログラム Download PDF

Info

Publication number
JP5724878B2
JP5724878B2 JP2011543197A JP2011543197A JP5724878B2 JP 5724878 B2 JP5724878 B2 JP 5724878B2 JP 2011543197 A JP2011543197 A JP 2011543197A JP 2011543197 A JP2011543197 A JP 2011543197A JP 5724878 B2 JP5724878 B2 JP 5724878B2
Authority
JP
Japan
Prior art keywords
reputation information
event
document
analysis target
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011543197A
Other languages
English (en)
Other versions
JPWO2011065211A1 (ja
Inventor
聡 中澤
聡 中澤
安藤 真一
真一 安藤
善雄 石澤
善雄 石澤
穣 岡嶋
穣 岡嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011543197A priority Critical patent/JP5724878B2/ja
Publication of JPWO2011065211A1 publication Critical patent/JPWO2011065211A1/ja
Application granted granted Critical
Publication of JP5724878B2 publication Critical patent/JP5724878B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、文書分析装置、文書分析方法、及びプログラムに関し、特に分析対象に関する記述を含む文書と分析対象に関係するイベントの情報とが与えられたときに、分析対象がそのイベントから受けた影響を分析する分析技術に関する。
近年、マーケティング又は世論調査等を目的として、事件、広告キャンペーン等、ユーザが指定する、ある特定のイベントが、着目する対象に与えた影響を分析・評価したいというニーズがある。例えば、あるユーザが分析対象として「製品Xのダイエット効果」に着目し、そして、製品Xに関係する事件(例えば、製品Xの製造会社の不祥事等)があったとする。この場合、事件後に分析対象「製品Xのダイエット効果」に対する世間的なイメージ及び評価が事件からどのような影響を受けたのかを測りたいというニーズが存在する。
このようなニーズに応える既存の手法として、「評判情報抽出技術」を応用した従来技術が存在する。非特許文献1及び非特許文献2は、「評判情報抽出技術」の一例を開示している。ここで「評判情報抽出技術」とは、文書からその中に記述された文書作成者の評価(価値判断を含む)を示している表現(以後「評判情報」と称する)を抽出する技術をいう。更に、この評判情報抽出技術としては、抽出した評判情報を、肯定的な評価を示す表現と、中立の評価を示す表現と、否定的な評価を示す表現とにグループ分けする手法も公開されている。
また、例えば、非特許文献3及び非特許文献4は、インターネット上のブログ等、文書の発信日付が付与されている文書集合に対して、上述の非特許文献1及び非特許文献2に開示された評判情報抽出技術を適用した技術を開示している。非特許文献3及び非特許文献4に開示された技術では、文書集合中に出現する肯定的な評価を示す評判情報と、否定的な評価を示す評判情報とを抽出した後、それらの評判情報の発信日付毎の出現回数が計数され、その時間変遷の様子がグラフ等に出力される。
例えば、ユーザは、分析対象に関して記述されている文書(以下、「分析対象文書」と称する)に対して、上記の非特許文献3及び非特許文献4に開示の技術を適用することで、分析対象に対する評判情報の出現数の変遷を可視化することができる。そして、ユーザは、可視化された評判情報の出現数の変遷を分析することにより、着目しているイベントが、ある分析対象の世間的な評価に対して、どのような影響を与えているのかを調査することができる。
更に、ユーザは、着目しているイベントの日時を知っていれば、可視化された評判情報の出現数の変遷から、その日時以後における、分析対象文書に含まれる肯定的な評判情報、又は否定的な評判情報の分量及び増減の様子を読み取ることができる。具体的には、ユーザは、簡単には、イベント以後、肯定的な評判情報が増えていれば、そのイベントにより分析対象の評価が良い方に変わったと判断することができる。逆に、ユーザは、イベント以後、否定的な評判情報が増えていれば、イベントにより分析対象の評価が悪い方に変わったと判断することができる。また、肯定的な評判情報又は否定的な評判情報の増加分が、イベントによる影響の大きさを示している。このように、ユーザは、非特許文献3及び非特許文献4に開示された技術を用いることで、イベントの影響の大きさ及び影響の方向等を判断することができる。
立石健二、石黒義英、福島俊一、「インターネットからの評判情報検索」、電子情報通信学会、信学技報、2001年7月、NLC 2001-19、pp.75-82 小林のぞみ、乾健太郎、松本裕治、立石健二、福島俊一、「テキストマイニングによる評価表現の収集」、「自然言語処理」研究報告、2003年、No.154、p.9-16 「感°Report 活用法3 キャンペーンの効果測定に」、[online]、NEC BIGLOBE、[2009年9月18日検索]、インターネット(URL: <http://kandoreport.jp/work/work.html#level03>) 南野朋之、鈴木泰裕、藤木稔明、奥村学、「blogの自動収集と監視」、人工知能学会論文誌、2004年、Vol. 19、No. 6、pp.511-520
上述したように、上記非特許文献3及び4に開示された技術を用いれば、分析を行うユーザは、イベントの発生後に発信(作成)された分析対象文書から抽出した評判情報の出現数を、イベント発生前の評判情報の出現数と比較することで、イベントの影響を読み取ることができる。しかしながら、抽出された評判情報には、着目するイベントの発生によって生じた、分析対象に関する評判情報のみではなく、これとは異なる評判情報も混入してしまう。このため、非特許文献3及び4に開示された技術には、ユーザが正確にイベントの影響を読み取ることができないという問題がある。
上記の問題が生じる理由の一つとしては、たとえ、イベントからそれほど時間が経過していない時期に作成された分析対象文書であっても、その全てがイベントに影響を受けて作成された文書ではないことが挙げられる。このような文書が用いられると、着目するイベントとは無関係な(時には他のイベントに関係する)評判情報が抽出され、そして、このような評判情報が、結果としてイベント後の評判情報の増減に混じって計数されてしまうためである。また、他のイベントに関係する評判情報は、着目するイベントの発生後の数結果だけでなく、イベントの発生以前の計数結果にも同様に混入し得る。
また、上記の問題が生じる別の理由としては、たとえ着目するイベントを切っ掛けとして作成された分析対象文書であっても、そこには分析対象に関する記述だけでなく、そのイベントそのものに関しての記述及び感想が多く述べられていることも挙げられる。分析対象文書に、分析対象以外に関する記述が多く含まれていると、評判情報に、分析対象に関する評判情報だけではなく、イベントに対する評判情報等も混入してしまうためである。
更に、上記問題においては、分析対象文書の作成期間がイベント直後の期間に近い程、後者の理由による混入が強く影響する。一方、分析対象文書の作成期間が、イベントが発生した時点から、ある程度の時間が経過した後の期間であるならば、上述したイベントと無関係な評判情報が混じった評判情報が抽出される確率が高くなり、前者の理由による影響が強くなる。
ここで、上記問題の具体例について説明する。例えば「製品Xのダイエット効果」を分析対象とし、「タレントTさんが、製品Xのお試しキャンペーンを、代々木公園で10月に行った」というイベントの分析対象に対する影響をユーザが測りたいとする。この場合、「製品X」、「ダイエット」、及び「効果」というキーワードを含み、且つ、イベントが開催された10月の前後3ヶ月間に作成された文書が、分析対象文書として収集される。そして、10月以後の評判情報の出現回数がどのように増減したかを、上記非特許文献3及び4に開示された技術を利用して調査することが考えられる。
しかしながら、イベントを切っ掛けとして作成された文書には、「代々木公園、広くて良かった」、「配布の手際が悪くて苛立った」、「リアルのTさん、かわいかった」、「Tさん、つけていたネックレスもセンスが良かった」といったイベントにのみ関係し、分析対象とは直接関係しない評判情報が含まれる。このため、これらの文書に出現した評判情報を含めた増減を分析しても、分析対象の影響を測りたいという目的にそぐわないことは明確である。
また、偶然、着目するイベントから日を置かないうちに、大型小売店にて製品Xの価格が値上げされた、という別のイベント(以下「値上げイベント」)が生じたものとする。その結果、値上げイベントの発生以降の分析対象文書においては、「値上げショックだった」、「買いづらくなった」といった製品Xに対する否定的な評判情報が増大する。上記非特許文献3及び4に開示された技術を利用した場合は、このような結果もイベント以後の結果として観察されてしまうが、このような結果は、着目するイベントの分析対象に対する影響を示すものではない。
本発明は、上記問題を解消し、特定のイベントが分析対象文書に与えた影響を精度良く分析し得る、文書分析装置、文書分析方法、及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明における文書分析装置は、特定のイベントが分析対象に与える影響を分析する文書分析装置であって、
分析対象に関する記述を含む分析対象文書に出現している第1の評判情報の中から、指定された前記イベントに関する記述を含むイベント関連文書に出現している第2の評判情報と一致する情報を特定し、特定した情報を共通評判情報として選別する共通評判情報選別部と、
前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数し、前記計数の結果に基づいて、前記影響を表す指標を導出するイベント影響分析部と、を備えていることを特徴とする。
また、上記目的を達成するため、本発明における文書分析方法は、特定のイベントが分析対象に与える影響を分析するための方法であって、
(a)分析対象に関する記述を含む分析対象文書に出現している第1の評判情報の中から、指定された前記イベントに関する記述を含むイベント関連文書に出現している第2の評判情報と一致する情報を特定し、特定した情報を共通評判情報として選別する、ステップと、
(b)前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数し、前記計数の結果に基づいて、前記影響を表す指標を導出する、ステップと、
を有する、ことを特徴とする。
更に、上記目的を達成するため、本発明におけるプログラムは、コンピュータによって、特定のイベントが分析対象に与える影響を分析するためのプログラムであって、
前記コンピュータに、
(a)分析対象に関する記述を含む分析対象文書に出現している第1の評判情報の中から、指定された前記イベントに関する記述を含むイベント関連文書に出現している第2の評判情報と一致する情報を特定し、特定した情報を共通評判情報として選別する、ステップと、
(b)前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数し、前記計数の結果に基づいて、前記影響を表す指標を導出する、ステップと、
を実行させることを特徴とする。
本発明における文書分析装置、文書分析方法、及びプログラムによれば、特定のイベントが分析対象文書に与えた影響を精度良く分析することができる。
図1は、本発明の実施の形態における文書分析装置の構成を示すブロック図である。 図2は、分析対象文書から抽出された第1の評判情報の一例を示す図である。 図3は、イベント関連文書から抽出された第2の評判情報の一例(抽出例1)を示す図である。 図4は、イベント関連文書から抽出された第2の評判情報の他の例(抽出例2)を示す図である。 図5は、分析対象文書から抽出された第1の評判情報とイベント関連文書から抽出された第2の評判情報との重なりを概念的に示す模式図である。 図6は、イベントの発生前後における評判情報の出現回数の遷移を表す図である。 図7は、本発明の実施の形態における文書分析装置による分析結果の一例を示す図である。 図8は、本発明の実施の形態における第1の評判情報の抽出処理を示すフロー図である。 図9は、本発明の実施の形態における第2の評判情報の抽出処理を示すフロー図である。 図10は、本発明の実施の形態における文書分析処理を示すフロー図である。 図11は、本発明の実施の形態におけるプログラムを実行可能なコンピュータを示すブロック図である。
(実施の形態)
以下、本発明の実施の形態における文書分析装置、文書分析方法、及びプログラムについて、図1〜図10を参照しながら説明する。最初に、図1を用いて、本実施の形態における文書分析装置1の構成を説明する。図1は、本発明の実施の形態における文書分析装置の構成を示すブロック図である。
図1に示す本実施の形態における文書分析装置1は、特定のイベントが分析対象に与える影響を分析するための装置である。図1に示すように、文書分析装置1は、共通評判情報選別部90と、イベント影響分析部100とを備えている。共通評判情報選別部90は、第1の評判情報の中から、第2の評判情報と一致する情報を特定し、特定した情報を共通評判情報として選別する。
ここで、第1の評判情報(以下「分析対象評判情報」と称する。)とは、分析対象に関する記述を含む分析対象文書に出現している情報をいう。本実施の形態では、分析対象評判情報は、分析対象文書中の作成者による評価を含んでいる。また、第2の評判情報(以下「イベント評判情報」と称する。)とは、指定された特定のイベントに関する記述を含むイベント関連文書に出現している情報をいう。本実施の形態では、イベント評判情報は、イベント関連文書中の作成者による評価を含んでいる。なお、作成者による評価には、作成者による価値判断も含まれている。
イベント影響分析部100は、共通評判情報が、イベントの発生前に作成された分析対象文書中に出現している回数と、共通評判情報が、イベントの発生後に作成された分析対象文書中に出現している回数とをそれぞれ計数する。また、イベント影響分析部100は、計数の結果に基づいて、特定のイベントが分析対象に与える影響を表す指標を導出する。
このように、文書分析装置1は、分析対象評判情報及びイベント評判情報から、分析対象文書とイベント関連文書との両方に共通して出現する共通評判情報を選別し、共通評判情報のみに着目して、イベント前後の分析対象文書における、共通評判情報の出現回数を計数する。このため、他のイベントのために生じた評判情報、及びイベントそのものに関係はしてはいるが、分析対象の評価及び評判とは関係のない評判情報等が除外されて、計数が行われる。よって、ユーザは、文書分析装置1によれば、このような計数結果を用いることで、分析対象文書の評価がイベントから受けた影響を精度良く分析することができる。
ここで、図1に加えて図2〜図7を用いて文書分析装置1の構成を更に具体的に説明する。図1に示すように、本実施の形態では、文書分析装置1は、共通評判情報選別部90及びイベント影響分析部100に加え、分析対象入力部10と、分析対象文書取得部20と、文書データベース30と、分析対象評判情報抽出部40と、評価表現辞書50と、イベント入力部60と、イベント関連文書取得部70と、イベント評判情報抽出部80と、影響出力部110とを備えている。
分析対象入力部10は、分析対象文書を取得するための条件を入力として受け付ける。分析対象文書取得部20は、入力された条件に従って、文書データベース30から、分析対象文書を取得する。文書データベース30は、分析対象文書取得部20が分析対象文書を取得する際の基となる大量の文書を格納している。また、分析対象評判情報抽出部40は、評価表現辞書50を用いて、分析対象文書から分析対象評判情報を抽出する。評価表現辞書50には、分析対象評判情報を抽出する際に使用される表現が格納されている。
イベント入力部60は、ユーザが着目するイベントを規定する情報を入力として受け付ける。イベント関連文書取得部70は、イベント入力部60に入力されたイベント情報に従って、文書データベース30から、イベント関連文書を取得する。イベント評判情報抽出部80は、イベント関連文書からイベント評判情報を抽出する。影響出力部110は、イベント影響分析部100が導出した指標を出力する。以下、各部について更に詳細に説明する。
分析対象入力部10は、本実施の形態における文書分析装置1を使用するユーザが分析対象としたい事柄及び観点に関する情報を、後述する分析対象文書取得部20によって取得される分析対象文書を規定する検索条件の形式で、入力として受け付けることができる。また、分析対象入力部10は、ユーザが適切な文書選別条件を選んでいるという前提の下、入力された条件を受け付け、受け付けた条件を後述する分析対象文書取得部20に受け渡す。
例えば、ユーザが、「製品Xのダイエット効果」について主婦層が抱く評価及びイメージを分析したいものとする。ユーザはこの目的のために、「製品X」、「ダイエット」、及び「効果」といったAND条件の検索キーワードと、「文書検索対象:発信者のプロフィール欄に「主婦」と記載されているブログ」のような文書を選別するための条件とを入力する。ユーザの分析目的をどのような文書選別条件に変換するかはユーザに任されている。
分析対象入力部10によって入力が受け付けられる条件は、分析対象文書を規定する検索条件であれば良く、任意の形式であっても良い。また、条件の例としては、AND条件の検索キーワード、OR条件の検索キーワード、検索キーワードに共起したキーワード、類似文書の検索用キーワード、文書の発信日付範囲等の時間的条件、文書検索を行う文書母集団を特定する条件、文書発信者又は作者を特定する条件等が挙げられる。本実施の形態では、このような既存の技術として公開されている文書検索条件を利用することができる。また、本実施の形態では、このような既存の文書検索条件のうち、ユーザが意図している用途又は目的に応じた条件が、分析対象入力部10に対して事前に設定される。
分析対象入力部10によって入力が受け付けられる条件の他の例としては、下記の例が挙げられる。下記の例は、「S社が2007年4月1日に販売開始した「ボイルシューマイ」に関する一般消費者の評判を分析したい」というニーズを前提としている。この例では、ユーザは、検索キーワード「ボイルシューマイ」、発信日付条件「2007年4月1日以降」、文書検索対象条件「同一発信者のブログサイト内にアフェリエイト広告が一定数以内しか存在しないブログ」を検索条件として入力する。
また、分析対象入力部10に条件を入力するための入力手段(図示せず)としては、キーボード及びマウスといった入力機器、文書分析装置1にネットワークを介して接続された他の機器(コンピュータ)等が挙げられる。ユーザは、このような入力手段の中から、適宜最適な手段を選択して利用する。
分析対象文書取得部20は、分析対象入力部10に入力された分析対象とする文書の条件を受け付け、後述する文書データベース30から、受け付けた条件に応じて、文書の検索を行い、条件に合う文書を取得する。また、分析対象文書取得部20は、取得した文書を、分析対象に関する記述を含む「分析対象文書」として、分析対象評判情報抽出部40に出力する。なお、本実施の形態では、分析対象文書を検索するための条件を分析対象入力部10の入力とし、入力された検索条件に従って、分析対象文書取得部20において分析対象文書が取得される構成が取られている。しかし、本実施の形態は、必ずしもこうした構成をとる必要はなく、文書分析装置1を利用するユーザが、分析対象文書を直接、文書分析装置1に入力する構成をとることもできる。
文書データベース30は、分析対象文書及びイベント関連文書を取得するための母集団となる文書集合を、検索可能な状態で格納するデータベースである。文書データベース30に格納される文書集合の具体例は、特に限定されるものではなく、文書分析装置1を使用する際の用途又は目的に応じて、適宜選択される。また、文書データベース30には、分析対象文書及びイベント関連文書が十分な数となるように、予め多くの文書が格納される。
また、本実施の形態では、文書分析装置1は、文書データベース30を備えておらず、代わりに、インターネット等を介して、外部に設置された文書データベースを利用することもできる。更に、外部の文書データベースは、インターネット上に公開されている一般の文書検索サービスで利用可能なデータベースであっても良い。この場合、母集団となる文書集合は、外部に設置された文書データベースに保管される。また、この場合において、文書分析装置1には、外部の文書データベースを対象として文書検索を実行するためのインターフェースが備えられる。
なお、文書データベース30から、分析対象文書取得部20及び後述するイベント関連文書取得部70に出力される文書には、ブログの発信日付のような文書の発信時間、文書の作成時間、又は文書の更新時間等の時間情報が付与されているのが好ましい。具体的にどのような精度及び粒度で、各文書に時間情報が付与されているかは、保管されている文書の母集団によって決定される。また、粒度とは、付与されている時間単位の細かさ、例えば、月単位、週単位、日単位、時間単位等をいう。
分析対象評判情報抽出部40は、後述の評価表現辞書50を用いて、分析対象文書取得部20で取得された分析対象文書から、各分析対象文書の作成者による評価が記述されている箇所を、分析対象評判情報として抽出する。また、分析対象評判情報抽出部40による分析対象評判情報の具体的な抽出は、例えば、上述した非特許文献1及び非特許文献2が開示している既存の評判情報抽出技術を用いて行われる。
具体的には、一般的な人間による評価が含まれた表現を評価表現として事前に定義し、そして、分析対象文書の中から、事前に定義された評価表現と一致する表現、及びその表現の近傍でその表現を修飾している表現を抽出する技術が挙げられる。
また、評判情報抽出技術を用いて分析対象文書から分析対象評判情報を抽出する際において、分析対象文書に属する全文書を対象として、分析対象評判情報を抽出する必要はない。本実施の形態では、分析対象文書とイベント関連文書との両方に属している文書を分析対象評判情報の抽出対象から除いて、分析対象評判情報の抽出を行うこともできる。
このように両方の文書集合に属している文書の除外を行うのは、分析対象評判情報抽出部40が、イベントに関する評判情報を抽出対象としておらず、純粋に、分析対象に対しての評価が行われた評判情報を抽出することを目的としているからである。但し、分析対象文書とイベント関連文書との両方に属している文書の数が少ないことが想定される場合は、こうした除外処理は省略されても良い。
更に、本実施の形態では、分析対象入力部10から分析対象を規定する検索キーワードが入力されている場合には、分析対象文書に属する各文書の全テキストから評判情報の抽出を行う必要はない。この場合は、文書中に出現している分析対象を規定した検索キーワードから一定距離に位置している近傍のテキスト、又は分析対象を規定した検索キーワードを修飾している表現からのみ、分析対象評判情報が抽出されていても良い。このような抽出対象とするテキストの制限を実行した場合は、分析対象文書に含まれているが、分析対象との関係性が低い評判情報が誤って抽出される可能性を低くすることができる。
ここで、図2を用いて、分析対象文書から分析対象評判情報の抽出を行った場合の具体例について説明する。図2は、分析対象文書から抽出された第1の評判情報(分析対象評判情報)の一例を示す図である。図2に示す例では、S社が2007年4月1日に販売開始した「ボイルシューマイ」という製品に関する一般消費者の評判を分析したいというニーズを前提としている。この例では、ユーザは、検索キーワード「ボイルシューマイ」、発信日付条件「2007年4月1日以降」、文書検索対象条件「同一発信者のブログサイト内にアフェリエイト広告が一定数以内しか存在しないブログ」を検索条件として、分析対象入力部10に入力する。これにより、分析対象文書取得部20は、一般に公開されているブログサイトを文書母集団として、上記検索条件を満たすブログ文書を取得し、分析対象文書として出力する。
そして、図2に示すように、このような分析対象文書から抽出した評判情報が1行につき、1件記載されている。図2中において「行ID」は、抽出した評判情報を区別するためのIDである。また、「時間情報」は、個々の評判情報が抽出された基の文書に付与されている時間情報である。この時間情報は、抽出された個々の評判情報の時間情報として取り扱われる。更に、図2中の「文書中の表現」とある列は、各分析対象文書中におけるその作者による評価が述べられている箇所を示している。
更に、図2に示すように、分析対象評判情報は、作成者による評価の対象(以下「評価対象」)と、同評価の属性と、同評価を表す表現(以下「評価表現」)と、同評価の分類とを要素として含んでいる。即ち、図2の例では、文書の作成者による評価が述べられている箇所のテキストは、構造化され、「評価対象」、「属性」、「評価表現」、及び「分類」の4つのカテゴリで構成された「評判情報」に整形されている。
ここで「評価対象」とは、上述したように、文書の作成者による評価が指している対象をいう。更に、文書の作成者による評価が評価対象の特定の性質に関して述べられている場合、その性質が「属性」に相当する。「属性」の例としては、評価対象の「機能」に関しての記述、評価対象の「外見」に関する記述、評価対象の「価格」に関する記述等が挙げられる。
「評価表現」とは、文書の作成者による評価を表す最小の表現をいう。多くの場合、評価表現は、形容詞又は形容動詞の1語によって構成される。「評価表現」の例としては、「感情的」な表現、「定量的」な表現等が挙げられる。「分類」は、抽出された分析対象評判情報をいくつかのグループに分類した結果を示している。図2の例では、各分析対象評判情報は、その内容から、「肯定的」評判、「否定的」評判、「中立的」評判の3つのグループに分類されている。
更に、グループ分けは、評判情報の「属性」と「評価表現」との組み合わせ、評価表現の種類、評価表現の強さ又は激しさの程度、といった任意の基準に基づいて行うこともできる。
また、後述するように、本実施の形態では、イベント影響分析部100は、「分類」を構成するグループ毎に、評判情報の計数を行うことができる。また、イベントが分析対象に与える影響の分析として、単に評判情報の増減を調査することのみが求められている場合には、評判情報は図2に示すように分類されていなくても良い。この場合、分析対象評判情報は、1つのグループにまとめられても良い。
ところで、一般に、分析対象文書中に含まれる、文書の作成者による評価が述べられている箇所のテキストには、そのままでは無数の表現のバリエーションが存在する。このため、この箇所を、他の評価が述べられている箇所と区別したり、同一の内容であると判断したりすることは、簡単ではない。このため、本実施の形態では、図2に示したように、評価が述べられている元のテキストは統一的な形式に構造化され、構造化によって作成された「評判情報」に対して区別又は一致の判定が行われる。具体的には、図2の例では上述したように、「評判情報」は、「評価対象」、「属性」、「評価表現」、「分類」の4つのカテゴリで構成されている。
分析対象文書中に含まれるテキストを構造化し、「評判情報」を作成する手段としては、公開されている既存の評判情報抽出技術が挙げられる。例えば、上述の非特許文献2は、テキストを「評価対象」、「属性」、及び「評価表現」の3つのカテゴリに分類して構造化する技術を開示している。また、上述の非特許文献1は、評判情報を「肯定的」又は「否定的」にグループ分けする技術を開示している。
なお、本実施の形態にて取り扱われる「評判情報」の構造は、図2の例に示された構造に限定されることはなく、本実施の形態における文書分析装置1を使用する際の用途及び目的に応じて任意の構造とされれば良い。評判情報の構造は、事前に定められる。また、文書中で作成者による評価が述べられている箇所のテキストを、評判情報として取り扱わられる形式へと構造化するための技術としては、自然言語処理技術における構文解析技術及び情報抽出技術等が挙げられる。
評価表現辞書50は、分析対象評判情報抽出部40及び後述するイベント評判情報抽出部80によって利用される辞書であり、これらが評判情報を抽出する際に使用する評価表現を記録している。また、評価表現辞書50の内容は、分析対象評判情報抽出部40及びイベント評判情報抽出部80で用いられる評判情報抽出技術の具体的な手段に対応するように設定される。なお、分析対象評判情報抽出部40及びイベント評判情報抽出部80で用いられる評判情報抽出技術において、評価表現辞書が使用されない場合は、文書分析装置1は、評価表現辞書50を備えていない態様となる。
イベント入力部60は、本実施の形態における文書分析装置1を使用するユーザが着目するイベントに関する情報を、後述するイベント関連文書取得部70が取得するイベント関連文書を規定する検索条件の形式で、入力として受け付けることができる。更に、イベント入力部60は、イベント関連文書を規定する検索条件とは別に、イベントの発生時間も入力として受け付けることができる。受け付けられたイベントの発生時間は、後述するイベント影響分析部100が、イベントの発生前の分析対象文書とイベントの発生後の分析対象文書とを区別するために使用される。
例えば、図2の例で分析対象文書とした「ボイルシューマイ」に関する文書に対して、影響を与えた可能性があるイベントとして、ユーザが「タレントA子さんを起用して、2007年10月1日から2007年10月14日にかけて行われたボイルシューマイの販売促進キャンペーン」に着目しているとする。以後の説明において、このイベント例を「ボイルシューマイ・キャンペーン」と称する。
ユーザは、例えば、このイベントに関連する文書を規定する検索条件として、検索キーワード「ボイルシューマイ・キャンペーン」又は「A子 AND キャンペーン」、及び文書の発信日時の範囲「2007年10月1日から2007年10月14日」をイベント入力部60に入力する。また、ユーザは、イベントの発生時間「2007年10月1日」もイベント入力部60に入力する。
また、同じく図2の例で分析対象文書とした「ボイルシューマイ」に関する文書に対して、影響を与えた可能性がある別のイベントの例として、ユーザが「複数メーカーの冷凍シューマイにおいて、材料の豚肉に産地偽装と添加物混入の報道(報道日:2007年11月10日)」と、「業界で例外的にS社のボイルシューマイには偽装が発見されなかった旨の報道」とに着目しているものとする。以後の説明において、この二つの報道を合わせたイベント例を「シューマイ産地偽装事件」と称する。
ユーザは、例えば、このイベントに関連する文書を規定する検索条件として、検索キーワード「シューマイ AND 産地偽装」又は「シューマイ AND 添加物混入」、及び文書の発信日時の範囲「2007年11月10日以後の文書」をイベント入力部60に入力する。また、ユーザは、イベントの発生時間「2007年11月10日」もイベント入力部60に入力する。
また、イベント入力部60に条件を入力するための入力手段(図示せず)としては、キーボード及びマウスといった入力機器、文書分析装置1にネットワークを介して接続された他の機器(コンピュータ)等が挙げられる。ユーザは、このような入力手段の中から、適宜最適な手段を選択して利用する。
イベント関連文書取得部70は、イベント入力部60に入力されたイベントに関連する文書の条件を受け付け、文書データベース30から、受け付けた条件に応じて、文書の検索を行い、条件に合う文書を取得する。また、イベント関連文書取得部70は、取得した文書を、「イベント関連文書」として、イベント評判情報抽出部80に出力する。なお、本実施の形態では、イベントに関連する文書を検索するための条件をイベント入力部60の入力とし、イベント関連文書取得部70では、入力された検索条件に従って、イベント関連文書を取得する構成が取られている。しかし、本実施の形態は、必ずしもこうした構成をとる必要はなく、文書分析装置1を利用するユーザが、イベント関連文書とイベント発生時間とを、直接、文書分析装置1に入力する構成をとることもできる。
イベント評判情報抽出部80は、評価表現辞書50を用いて、イベント関連文書取得部70で取得されたイベント関連文書から、各イベント関連文書の作成者による評価が記述されている箇所を、イベント評判情報として抽出する。また、イベント評判情報抽出部80によるイベント評判情報の具体的な抽出は、例えば、上述した非特許文献1及び非特許文献2が開示している既存の評判情報抽出技術を用いて行われる。なお、本実施の形態では、この既存の評判情報抽出技術は、分析対象評判情報抽出部40において用いられている評判情報抽出技術と同一である。
また、本実施の形態では、イベント入力部60からイベント関連文書を規定する検索キーワードが入力されている場合には、イベント関連文書に属する各文書の全テキストから評判情報の抽出を行う必要はない。この場合は、文書中に出現しているイベント関連文書を規定した検索キーワードから一定距離に位置している近傍のテキスト、又はイベント関連文書を規定した検索キーワードを修飾している表現からのみ、イベント評判情報が抽出されていても良い。このような抽出対象とするテキストの制限を実行した場合は、イベント関連文書に含まれているが、そのイベントとの関係性が低い評判情報が誤って抽出される可能性を低くすることができる。
ここで、図3及び図4を用いて、イベント関連文書からイベント評判情報の抽出を行った場合の具体例について説明する。図3は、イベント関連文書から抽出された第2の評判情報(イベント評判情報)の一例(抽出例1)を示す図である。図4は、イベント関連文書から抽出された第2の評判情報(イベント評判情報)の他の例(抽出例2)を示す図である。
図3に示す例では、イベント入力部60の説明で取り上げた「ボイルシューマイ・キャンペーン」イベントに対する検索条件が用いられている。図3には、イベント関連文書取得部70によって、一般に公開されているブログを母集団として取得されているイベント関連文書から抽出された、イベント評判情報の例が示されている。なお、図3における「行」及び「列」は、図2における「行」及び「列」と同様のものを意味している。
また、図4に示す例では、イベント入力部60の説明で取り上げた「シューマイ産地偽装事件」イベントに対する検索条件が用いられている。図4にも、イベント関連文書取得部70によって、一般に公開されているブログを母集団として取得されているイベント関連文書から抽出された、評判情報の例が示されている。なお、図4における「行」及び「列」も、図2における「行」及び「列」と同様のものを意味している。
共通評判情報選別部90は、分析対象評判情報抽出部40で抽出された分析対象評判情報を第1の評判情報抽出結果として受け取り、イベント評判情報抽出部80で抽出されたイベント評判情報を第2の評判情報抽出結果として受け取る。そして、共通評判情報選別部90は、第1の評判情報抽出結果に含まれる分析対象評判情報のうち、第2の評判情報抽出結果に含まれるイベント評判情報と一致する情報を、共通する評判情報として選別する。
なお、図1に示した例では、分析対象評判情報抽出部40とイベント評判情報抽出部80とによって、評判情報の抽出及び共通評判情報選別部90への入力が行われているが、本実施の形態は、この構成に限定されるものではない。本実施の形態は、ユーザが別途、第1の評判情報抽出結果及び第2の評判情報抽出結果を用意する場合には、文書分析装置1は、それらの結果が、直接、共通評判情報選別部90へ入力される構成を有していても良い。但し、ユーザが、第1の評判情報抽出結果と第2の評判情報抽出結果とを直接入力する場合であっても、そうでない場合であっても、共通評判情報選別部90、後述するイベント影響分析部100及び影響出力部110で実行される処理は同じである。
また、共通評判情報選部90は、上述したように、評判情報と他の評判情報との一致(分析対象評判情報とイベント評判情報との一致)を判定している。このとき、本実施の形態では、構造化された評判情報同士を比較し、一部の構造化された要素同士、又は全部の構造化された要素同士が一致した場合に、二つの評判情報が一致すると判定する。以下に、評判情報間の一致判定について説明する。
各評判情報は、分析対象評判情報抽出部40と、イベント評判情報抽出部80とによって、元のテキストから抽出される際に、評判情報を構成するいくつかの要素を含むように構造化されている。図2の例では、文書の作成者による評価が述べられている箇所は、4つのカテゴリ(評価対象、属性、評価表現、分類)に構造化され、評判情報は、「評価対象」、「属性」、「評価表現」、及び「分類」のそれぞれを要素として含んでいる。
そして、評判情報を構成する要素のうち、どの要素間で一致が生じた場合に、二つの評判情報が一致していると判定するルールは、分析対象評判情報抽出部40及びイベント評判情報抽出部80が利用する評判情報抽出技術の具体的な内容に応じて、事前に定めることができる。
例えば、図2〜図4に示された例では、評判情報同士において、それぞれを構成する要素のうち「評価表現」のみが互いに一致すれば、評判情報同士も一致すると判断することができる。なお、この場合は、後述するように、「評価表現」に対して、活用語の正規化が実行された上で判断が行われるのが好ましい。また、その他、「属性」と「評価表現」との両方が一致した場合、「属性」のみが一致した場合、又は、「評価対象」、「属性」、及び「評価表現」の3つが一致した場合に、評判情報同士も一致すると判断することができる。
一致の条件をより厳しくするほど、評判の内容及び評価の観点が異なる評判情報が誤って一致と見なされる可能性は低くなるが、一方で、データスパースネスの問題から一致条件を厳しくすると、一致する評判情報が殆ど選別されないという結果となってしまう。このため、一致条件の設定は、文書分析装置1を使用する際に想定される分析対象文書及びイベント関連文書の分量に基づき、一致する評判情報が選別されるように行う必要がある。
また、通常、イベント関連文書には、イベントそのものに関する評判情報、イベントと分析対象との両方に関する評判情報、更には、どちらにも無関係な評判情報が含まれている。例えば、図3に示した評判情報の抽出結果例において、行ID2、ID3、ID4、ID8、ID22の評判情報には、ボイルシューマイ・キャンペーンのCM等を見て、視聴者がCMに対して抱いた印象及び評価が述べられている。
行ID2、ID3、ID4、ID8、ID22の評判情報により、ボイルシューマイの認知度が高まる可能性はあるものの、これらの評判情報は、直接的にはイベントそのものに関する評判情報である。従って、これらの評判情報が、ボイルシューマイの世間的な評価に良い影響を与えたとは言えない。また、これらの評判情報に含まれる「評価対象」、「属性」、「評価表現」は、イベントから抱いたA子さん及びCM中に映るキッチン等についての印象及び評価を示している。よって、これらの評判情報に含まれる「評価対象」、「属性」、「評価表現」は、偶然語彙が一致する場合を除いて、ボイルシューマイを評価している評判情報に通常含まれる「評価対象」、「属性」、「評価表現」とは一致しない。
このような一致判定処理により、共通評判情報選別部90は、分析対象文書から抽出された分析対象評判情報と、イベント関連文書から抽出されたイベント評判情報とに共通する評判情報を選別する。この結果、イベントそのものに関しての評判情報ではあるが、分析対象の直接的な評判には相当しない評判情報は除外されることになる。
また、分析対象文書から抽出された分析対象評判情報には、着目するイベントとは関係のない評判情報が含まれる。例えば、図2の例に示す行ID54及びID88は、ボイルシューマイ・キャンペーンイベントではなく、シューマイ産地偽装事件の影響を受けて記述された評判情報であると考えられる。
いま、ユーザがボイルシューマイ・キャンペーンの効果を測定する目的で、ボイルシューマイ・キャンペーンがボイルシューマイの評価に与えた影響の度合いを知りたいとする。この場合、図2の例に示す行ID54及びID88のような評判情報は、例えボイルシューマイに対して肯定的な評判であっても、除外する必要がある。本実施の形態では、共通評判情報選別部90が、分析対象文書から抽出された分析対象評判情報と、着目するイベント関連文書から抽出されたイベント評判情報とに共通する評判情報(共通評判情報)とを選別することにより、こうした着目するイベントとは無関係の評判情報は除外される。
ここで、図5を用いて、こうした共通する評判情報を選別することによる効果について説明する。図5は、分析対象文書から抽出された第1の評判情報とイベント関連文書から抽出された第2の評判情報との重なりを概念的に示す模式図である。
図5に示すように、分析対象の評判に対して、着目するイベントが強く関係する場合、つまり、元々分析対象に関して述べられていた評価及び評判がイベント中でも共通して述べられる場合、共通の評判情報は多くなると考えられる。このような場合の例としては、イベント後にイベントとは独立した分析対象文書において、以前に増して(又は以前より減少して)述べられるようになる場合が考えられる。また、イベント以前には分析対象に関して述べられていなかった評価及び評判が、新たにイベントにより取り上げられることで定着し、イベント後にイベントとは独立した分析対象文書においても述べられるようになる場合も考えられる。これらの場合においては、共通の評判情報が用いられる。
具体的には、図4に示したシューマイ産地偽装事件により、これまであまり述べられていなかった、産地が「本物」かどうかという観点での評価、又は「安心」できるかどうかという観点での評価が、ボイルシューマイに関する分析対象文書中に出現するようになることが想定される。そして、「本物」又は「安心」といった評判情報(この例では正確には、一致条件として使用される評判情報の要素である「評価表現」)は、イベント関連文書にも、イベントの発生以後に作成されたイベントとは直接関係のない分析対象文書にも共通して出現する。一方、図5に示すように、分析対象の評判に対して、着目するイベントの関係が弱い場合は、イベント関連文書と、分析対象文書とで共通に述べられる評判情報は少なくなる。
更に、評判情報が一致するかどうかを判定する際は、評判情報の要素の表記(表現)が一致するかどうかではなく、評価の観点が一致するかどうかを見て判定することが望ましい。例えば、分析対象とする音楽プレーヤーに対して、「突然爆発する恐れがあるため、危険性が高い」という報道があったとする。この報道イベントの結果、これまで音楽プレーヤーを評価する観点として取り上げられなかった「安全性」という観点が生まれ、以後、この音楽プレーヤーが改良されて「安全性」が高まったという評判情報が多くなったものとする。
この場合、イベント関連文書中に出現する評判情報は「危険性」であり、このイベントの影響から生じた分析対象文書に出現する評判情報は「安全性」であり、表記(表現)としては一致しない。しかし、どちらもこの報道イベントで生じた「安全か」又は「危険か」という観点での評価を述べているものであり、このような例を一致すると判定する方が、本実施の形態での目的に適している。
このような評判情報の一致の判定を行うための手法としては、評判情報の一致の判定の際に、一致判定で使用する各要素に対して同義語処理技術を適用する手法がある。また、図2の例での「評価表現」のような活用語が含まれる評判情報の要素に対して、肯定形、否定形を同一視する、又はモダリティの違いを同一視する等の目的で、活用語に付随する付属語を除外し、そして活用語を原形に戻して、正規化を行う手法もある。また、このような正規化によって得られた要素が図2〜図4における「分類」に相当する。更には、事前に用意された共通の反意語辞書を用いて、分析対象評判情報とイベント評判情報との抽出を行い、一方の評判情報の要素と他方の評判情報の要素とが反意語の関係にある場合に、これらの要素が一致すると見なす手法も考えられる。
また、本実施の形態では、分析対象評判情報の中からイベント評判情報に一致する共通評判情報を選別する際に、分析対象評判情報が共通評判情報に一致する回数に応じて、共通評判情報に重み付けを行うこともできる。このようにして付与された重みは、後述するイベント影響分析部100が、共通評判情報が分析対象文書中に出現する回数を計数する際に、係数として使用される。
イベント影響分析部100は、共通評判情報選別部90で選別された共通評判情報に着目する。そして、イベント影響分析部100は、上述したように、共通評判情報が、分析対象文書のうち着目するイベントの発生前に作成された文書中に出現する回数と、分析対象文書のうち着目するイベントの発生後に作成された文書中に出現する回数とをそれぞれ計数する。更に、本実施の形態では、イベント影響分析部100は、この計数結果を、分析対象が着目するイベントから受けた影響を表す指標とする。
本実施の形態では、イベント影響分析部100は、共通評判情報選別部90から、それが選別した共通評判情報(又は共通評判情報を特定するための情報)を受け取る。そして、イベント影響分析部100は、分析対象文書の中に出現する評判情報であって、共通評判情報選別部90で選別された共通評判情報のどれか一つと一致する評判情報を検出する度に、その出現回数をカウントする。
また、本実施の形態では、イベント影響分析部100は、共通評判情報を計数するに際して、予め設定された分類基準に従って、計数される共通評判情報を複数のグループに細分化したり、又はまとめ上げたりすることができる。例えば、共通評判情報選別部90が、図2〜図4に示した例において、評判情報の要素「評価対象」「属性」「評価表現」を用いて一致するかどうかを判定し、共通情報の選別を行っているとする。この場合、イベント影響分析部100は、計数を行う際に、評判情報の要素「評価表現」を正規化して得られた要素「分類」を用いて、共通評判情報のグループ分けを行うことができる。
例えば、共通評判情報として、評価表現が「安全」となった共通評判情報が存在しているとする。このとき、共通評判情報選別部90は、分析対象文書中に出現する評判情報(評価表現「安全」、分類「否定的」)と、イベント関連文書中に出現する評判情報(評価表現「安全」、分類「肯定的」)とは、一致すると判断する。そして、イベント影響分析部100は、計数の際において、「分類」を用いて共通評判情報を「否定的」と「肯定的」とに分類する。その後、イベント影響分析部100は、存在している共通評判情報の分類結果に応じて、「否定的」グループの評判情報を+1件、又は「肯定的」グループの評判情報を+1件のように計数する。
また、本実施の形態において、分析対象文書の中から検出した共通評判情報をグループ分けするための分類基準は、本実施形態における文書分析装置1を使用する際の用途及び目的に応じて事前に適宜設定される。例えば、製品について評判情報が存在し、これらが「機能」又は「価格」と表記される「分類」を要素として含んでいるとする。この場合、イベント影響分析部100は、この「分類」で規定されるグループ毎に共通評判情報の出現回数を計数する。この結果、着目するイベント後、「機能」に関する評判が増えたのか減ったのか、また「価格」に関する評判が増えたのか減ったのかが、ユーザに提示され、ユーザは、製品に対するイベントによる影響をより簡単に分析することができる。
また、イベント影響分析部100は、分析対象文書がイベントの発生前のものであるのか、イベントの発生後のものであるのかを、各分析対象文書に付与されている時間情報を用いて判断することができる。更に、本実施の形態において、イベントの発生前、発生後、それぞれどの程度の期間の分析対象文書から、共通評判情報の出現を調べて計数するかは、本実施の形態における文書分析装置1を使用する際に、予めパラメータとして別途定められるのが良い。なお、イベントの発生前、発生後を特定するための時間情報としては、イベント入力部60で入力されたイベント発生時間が用いられる。
ここで、図6を用いて、図2〜図4の例に示された評判情報が存在する場合の共通評判情報の計数の例について説明する。図6は、イベントの発生前後における評判情報の出現回数の遷移を表す図である。図6に示すように、この例では、分析対象文書中の評判情報を「肯定的」のグループと、「否定的」のグループとに分けて、共通評判情報の計数が行われている。図6において、グラフの縦軸は、評判情報の時点毎の出現回数を表し、グラフの横軸は、時間を表している。図6に示すグラフ中の各折れ線の意味は、以下の通りである。
図6において「マークのついていない実線」は、本実施の形態を使用せずに得られた計数結果であって、分析対象文書に含まれている、分類が「肯定的」となる全ての評判情報の計数結果を示している。また、「菱形マークのついた破線」は、本実施の形態を使用せずに得られた計数結果であって、分析対象文書に含まれている、分類が「否定的」となる全ての評判情報の計数結果を示している。
図6において、「三角マークのついた実線」は、「ボイルシューマイ・キャンペーン」についてのイベント関連文書から得られた共通評判情報であって、分類が「肯定的」となる評判情報の計数結果を示している。また、「丸マークのついた破線」は、「ボイルシューマイ・キャンペーン」についてのイベント関連文書から得られた共通評判情報であって、分類が「否定的」となる評判情報の計数結果を示している。
図6において、「四角マークのついた実線」は、「シューマイ産地偽装事件」についてのイベント関連文書から得られた共通評判情報であって、分類が「肯定的」となる評判情報の計数結果を示している。また、「逆三角マークのついた破線」は、「シューマイ産地偽装事件」についてのイベント関連文書から得られた共通評判情報であって、分類が「否定的」となる評判情報の計数結果を示している。
この図6に示す例では、本実施の形態が使用されていないグラフ(「マークのついていない実線」、「菱形マークのついた破線」)から、10月上旬に起きた「ボイルシューマイ・キャンペーン」イベントによる評判情報の変化が、11月中旬におきた「シューマイ産地偽装事件」イベントによる評判情報の変化よりも大きいことが見て取れる。
ところで、図3の例を用いて述べたように、「ボイルシューマイ・キャンペーン」についてのイベント関連文書から抽出された評判情報の多くは、イベントそのものに対する評判情報である。また、分析対象文書において増加している評判情報の多くも、イベントそのものに対する評判情報であると考えられる。一方、「シューマイ産地偽装事件」イベントにより増大した評判情報の多くは、分析対象である「ボイルシューマイ」に直接関係する評判情報である。
本実施の形態では、イベント関連文書中に出現するイベント評判情報と一致する分析対象評判情報が計数されるため、上述した傾向は、図6に示すグラフにも現われている。図6に示すように、「ボイルシューマイ・キャンペーン」イベントにより、「シューマイ産地偽装事件」についてのイベント関連文書から得られた共通評判情報は、肯定的な場合及び否定的な場合の両方共に、「ボイルシューマイ・キャンペーン」イベントの発生前後で大きく変動していない。しかしながら、図6に示すように、「シューマイ産地偽装事件」についてのイベント関連文書から得られた共通評判情報は、「シューマイ産地偽装事件」イベントによっては、特に肯定的な場合において大きく増加していることが分かる。
ここで、図7を用いて、文書分析装置1におけるイベント影響分析部100による分析結果について説明する。図7は、本発明の実施の形態における文書分析装置による分析結果の一例を示す図である。図7には、図6に示した事例においてイベント毎に前後1ヶ月の期間で区切って得られた、肯定的な評判情報と、否定的な評判情報との計数結果が示されている。また、図7において、「全評価表現」は、本実施の形態を使用せずに得られた計数結果を示しており、図6中の「マークのついていない実線」及び「菱形マークのついた破線」に対応する。更に、図7において、「選別評価表現のみ」は、選別された共通評判情報から得られた計数結果を示している。
イベント影響分析部100は、図7に示すように、単なる計数結果だけでなく、イベント前後の差分、及びイベント発生前の計数結果に対するイベント発生後の計数結果の倍率、といった共通評判情報の出現傾向を示す数値を、計数結果を用いて算出することもできる。この場合、イベント影響分析部100は、単なる計数結果だけでなく、共通評判情報の出現傾向を示す数値も、イベントの分析対象への影響度を示す指標として出力することができる。
更には、イベント影響分析部100は、分析対象文書の数、及び分析対象文書中に評判情報が出現する期待値を用いて、計数結果を正規化し、計数する評判情報のグループ毎の出現確率をイベントの発生前後それぞれで算出することもできる。この場合、イベント影響分析部100は、単純な計数結果だけでなく、出現確率も、イベントの分析対象への影響度を示す指標として出力することができる。
なお、本実施の形態において、イベントが分析対象に与える影響を表す指標、及びその算出方法は、上述した例に限定されることはない。イベントが分析対象の評価に与える影響を表す指標は、統計学における時系列分析技術で使用される任意の手法を用いて算出することもできる。
影響出力部110は、イベント影響分析部100が導出した、イベントが分析対象に与えた影響を表す指標を、外部の出力手段へと出力する。具体的な、指標の出力先となる出力手段(図示せず)としては、ディスプレイ装置、プリンタ、ネットワークで接続された他のコンピュータ等の電子機器等が挙げられる。本実施の形態では、これらの出力手段の中から、文書分析装置1の使用目的等に応じて適切な出力手段が選択される。
次に、本発明の実施の形態における文書分析装置1の動作について図8〜図10を用いて説明する。図8は、本発明の実施の形態における第1の評判情報の抽出処理を示すフロー図であり、図9は、本発明の実施の形態における第2の評判情報の抽出処理を示すフロー図である。図10は、本発明の実施の形態における文書分析処理を示すフロー図である。なお、以下の説明においては、適宜図1〜図7を参酌する。また、本実施の形態では、文書分析装置1を動作させることによって、文書分析方法が実施される。よって、本実施の形態における文書分析方法の説明は、以下の文書分析装置1の動作説明に代える。
先ず、図8を用いて、分析対象評判情報の抽出処理について説明する。図8に示すように、最初に、ユーザが分析対象文書を規定する条件を外部から入力すると、分析対象入力部10が、入力された条件を受け付ける(ステップA1)。次いで、分析対象文書取得部20が、受け付けた条件に基づいて、分析対象文書の集合を取得する(ステップA2)。
次に、分析対象評判情報抽出部40が、ステップA2で取得された分析対象文書から、評判情報(分析対象文書評判情報)を抽出する(ステップA3)。ステップA1からステップA3までが終了すると、分析対象評判情報の抽出処理は終了となる。
ステップA3では、上述の分析対象評判情報抽出部40の説明において述べたように、分析対象文書に属する全文書を対象として評判情報の抽出が行われない態様であっても良い。即ち、ステップA3では、分析対象文書のうちイベント関連文書にも属している文書が、抽出対象から除外され、残った分析対象文書を対象として評判情報の抽出が行われても良い。このような処理が行われる場合は、分析対象評判情報抽出部40は、ステップA3において、後述するステップB2の結果であるイベント関連文書を特定する情報を受け取り、評判情報の抽出の対象から、分析対象文書とイベント関連文書との両方に属する文書を除外する。
また、ステップA3において上述の除外処理を実行する場合は、ステップA3を実行する前にステップB2が終了している必要がある。但し、この条件を除き、分析対象評判情報の抽出処理と、イベント評判情報の抽出処理とは独立に実行されていても良く、また、どちらが先に実行されていても良い。
なお、分析対象評判情報抽出部40が、分析対象文書全体から評判情報を抽出する場合は、ステップA3の実行前にステップB2が終了しなければならないという条件は存在せず、分析対象評判情報の抽出処理とイベント評判情報の抽出処理とは、完全に独立に処理されても良いこととなる。
続いて、図9を用いて、イベント評判情報の抽出処理について説明する。図9に示すように、最初に、ユーザが、イベント関連文書を規定する条件とイベントの発生時間とを外部から入力すると、イベント入力部60が、入力された条件及び発生時間を受け付ける(ステップB1)。次いで、イベント関連文書取得部70が、イベント入力部60によって受け付けられた条件に基づいて、イベント関連文書の集合を取得する(ステップB2)。
次に、イベント評判情報抽出部80が、ステップB2で取得されたイベント関連文書から、評判情報(イベント評判情報)を抽出する(ステップB3)。ステップB1からステップB3までが終了すると、イベント評判情報の抽出処理は終了となる。
続いて、図10を用いて、文書分析処理について説明する。なお、文書分析処理が実行される前に、分析対象評判情報の抽出処理とイベント評判情報の抽出処理との両方が既に終了しているものとする。また、これら二つの処理と同様の処理が別で行われ、これら二つの処理で得られる結果と同等の結果が、直接、文書分析処理の入力として与えられていても良い。
図10に示すように、最初に、共通評判情報選別部90が、分析対象評判情報の抽出処理によって得られた分析対象評判情報の中から、イベント評判情報の抽出処理によって得られたイベント評判情報と一致する評判情報を選別する(ステップC1)。ステップC1で選別された評判情報が共通評判情報となる。
次いで、イベント影響分析部100は、共通評判情報が、イベントの発生前に作成(又は発信)された分析対象文書で出現している回数と、イベントの発生後に作成(又は発信)された分析対象文書で出現している回数とを計数する。そして、イベント影響分析部100は、得られた二つの計数結果そのもの、又は計数結果を用いて算出された値を、イベントが分析対象文書に与えた影響を示す指標として求める(ステップC2)。イベント影響分析部100が、ステップC2で求めた指標を、影響出力部100に出力する。
その後、影響出力部100は、文書分析装置1が用いられる用途及び目的に合致した形式で、ステップC2で求められた指標を外部に出力する(ステップC3)。ステップC3の実行が終了すると、文書分析装置1における処理は全て終了となる。
以上のように、本実施の形態によれば、ユーザが着目するイベントから分析対象が受けた影響を測定するため、分析対象文書中の評判情報の時間変遷を抽出するが、その際、他のイベントのため生じた評判情報、及びイベントそのものに関係しているが、分析対象の評価及び評判とは関係のない評判情報についての時間変遷は除外される。このため、本実施の形態によれば、上述したように、分析対象文書がイベントから受けた影響を精度良く分析することができる。
本発明の実施の形態におけるプログラムは、コンピュータに、図8に示すステップA1〜A3、図9に示すB1〜B3、及び図10に示すC1〜C3を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における文書分析装置1と文書分析方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、分析対象入力部10、分析対象文書取得部20、分析対象評判情報抽出部40、イベント入力部60、イベント関連文書取得部70、イベント評判情報抽出部80、共通評判情報選別部90、イベント影響分析部100及び影響出力部110として機能し、処理を行なう。
また、本実施の形態では、文書データベース30及び評価表現辞書50は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。なお、文書データベース30及び評価表現辞書50を実現する記憶装置は、本実施の形態におけるプログラムを実行するコンピュータとは別のコンピュータに備えられていても良い。
ここで、実施の形態におけるプログラムを実行することによって、文書分析装置を実現するコンピュータについて図11を用いて説明する。図11は、本発明の実施の形態におけるプログラムを実行可能なコンピュータを示すブロック図である。
図11に示すように、コンピュータ120は、CPU121と、メインメモリ122と、記憶装置123と、入力インターフェイス124と、表示コントローラ125と、データリーダ/ライタ126と、通信インターフェイス127とを備える。これらの各部は、バス131を介して、互いにデータ通信可能に接続される。
CPU121は、記憶装置123に格納された、本実施の形態におけるプログラム(コード)をメインメモリ122に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ122は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体130に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス127を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置123の具体例としては、ハードディスクの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス124は、CPU121と、キーボード及びマウスといった入力機器128との間のデータ伝送を仲介する。表示コントローラ125は、ディスプレイ装置129と接続され、ディスプレイ装置129での表示を制御する。データリーダ/ライタ126は、CPU121と記録媒体130との間のデータ伝送を仲介し、記録媒体130からのプログラムの読み出し、及び処理結果の記録媒体130への書き込みを実行する。通信インターフェイス127は、CPU121と、他のコンピュータとの間のデータ伝送を仲介する。
記録媒体130の具体例としては、CF(Compact Flash)及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD-ROM(Compact Disk Read Only Memory)等の光学記憶媒体が挙げられる。
また、上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記24)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
特定のイベントが分析対象に与える影響を分析する文書分析装置であって、
分析対象に関する記述を含む分析対象文書に出現している第1の評判情報の中から、指定された前記イベントに関する記述を含むイベント関連文書に出現している第2の評判情報と一致する情報を特定し、特定した情報を共通評判情報として選別する共通評判情報選別部と、
前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数し、前記計数の結果に基づいて、前記影響を表す指標を導出するイベント影響分析部と、を備えていることを特徴とする文書分析装置。
(付記2)
前記第1の評判情報が、前記分析対象文書中の作成者による評価を含み、前記第2の評判情報が、前記イベント関連文書中の作成者による評価を含む、付記1に記載の文書分析装置。
(付記3)
前記第1の評判情報及び前記第2の評判情報それぞれが、前記評価の対象と、前記評価の属性と、前記評価を表す表現とを少なくとも要素として含み、
前記共通評判情報選別部が、
前記第1の評判情報及び前記第2の評判情報それぞれにおける前記対象が一致する場合、
前記第1の評判情報及び前記第2の評判情報それぞれにおける前記属性が一致する場合、
前記第1の評判情報及び前記第2の評判情報それぞれにおける前記表現に対して、付属語の除外、及び活用を原形に戻した状態での正規化を行って得られた表現が一致する、又は一方が他方の反意表現となる場合、
のうち少なくとも一つに該当することを条件に、前記第1の評判情報が前記第2の評判情報と一致すると判定して、前記共通情報を選別する、付記2に記載の文書分析装置。
(付記4)
前記分析対象文書から、前記分析対象文書の作成者による評価が記述されている箇所を前記第1の評判情報として抽出する、分析対象評判情報抽出部と、
前記イベント関連文書から、前記イベント関連文書の作成者による評価が記述されている箇所を前記第2の評判情報として抽出する、イベント評判情報抽出部とを更に備え、
前記分析対象評判情報抽出部は、前記分析対象文書のうち、前記イベント関連文書にも該当する文書を除外して、前記第1の評判情報の抽出を行う、付記2または付記3に記載の文書分析装置。
(付記5)
前記イベント影響分析部が、前記分析対象文書中に出現する前記共通評判情報を、予め設定された分類基準に従ってグループ分けし、前記グループ毎に、当該グループに属する前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、当該グループに属する前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数する、付記2〜付記4のいずれかに記載の文書分析装置。
(付記6)
前記イベント影響分析部が、前記分析対象文書中に出現する前記共通評判情報を、前記分析対象文書中の作成者による評価が肯定的評価のグループと、前記分析対象文書中の作成者による評価が否定的評価のグループと、が含まれるようにグループ分けを行う、付記5に記載の文書分析装置。
(付記7)
前記イベント影響分析部が、前記計数によって得られた値を、前記影響を表す指標として導出する、付記1〜付記6のいずれかに記載の文書分析装置。
(付記8)
前記イベント影響分析部が、前記影響を表す指標として、前記計数の結果を用いて、前記共通評判情報の出現確率、又は前記共通評判情報の出現傾向を示す数値を導出する、付記1〜付記6のいずれかに記載の文書分析装置。
(付記9)
特定のイベントが分析対象に与える影響を分析するための方法であって、
(a)分析対象に関する記述を含む分析対象文書に出現している第1の評判情報の中から、指定された前記イベントに関する記述を含むイベント関連文書に出現している第2の評判情報と一致する情報を特定し、特定した情報を共通評判情報として選別する、ステップと、
(b)前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数し、前記計数の結果に基づいて、前記影響を表す指標を導出する、ステップと、
を有する、ことを特徴とする文書分析方法。
(付記10)
前記第1の評判情報が、前記分析対象文書中の作成者による評価を含み、
前記第2の評判情報が、前記イベント関連文書中の作成者による評価及び価値判断を含む、付記9に記載の文書分析方法。
(付記11)
前記第1の評判情報及び前記第2の評判情報それぞれが、前記評価の対象と、前記評価の属性と、前記評価に用いられた表現とを少なくとも要素として含み、
前記(a)のステップにおいて、
前記第1の評判情報及び前記第2の評判情報それぞれにおける前記対象が一致する場合、
前記第1の評判情報及び前記第2の評判情報それぞれにおける前記属性が一致する場合、
前記第1の評判情報及び前記第2の評判情報それぞれにおける前記表現に対して、付属語の除外、及び活用を原形に戻した状態での正規化を行って得られた表現が一致する、又は一方が他方の反意表現となる場合、
のうち少なくとも一つに該当することを条件に、前記第1の評判情報が前記第2の評判情報と一致すると判定して、前記共通情報を選別する、付記10に記載の文書分析方法。
(付記12)
(c)前記分析対象文書から、前記分析対象文書の作成者による評価が記述されている箇所を前記第1の評判情報として抽出する、ステップと、
(d)前記イベント関連文書から、前記イベント関連文書の作成者による評価が記述されている箇所を前記第2の評判情報として抽出する、ステップとを、更に有し、
前記(c)及び(d)のステップは、前記(a)及び(b)のステップの実行前に、実行され、
前記(c)のステップにおいて、前記分析対象文書のうち、前記イベント関連文書にも該当する文書を除外して、前記第1の評判情報の抽出を行う、付記10または11に記載の文書分析方法。
(付記13)
前記(b)のステップにおいて、
前記分析対象文書中に出現する前記共通評判情報を、予め設定された分類基準に従ってグループ分けし、前記グループ毎に、当該グループに属する前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、当該グループに属する前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数する、付記10〜12のいずれかに記載の文書分析方法。
(付記14)
前記(b)のステップにおいて、
前記分析対象文書中に出現する前記共通評判情報を、前記分析対象文書中の作成者による評価が肯定的評価のグループと、前記分析対象文書中の作成者による評価が否定的評価のグループと、が含まれるようにグループ分けを行う、付記13に記載の文書分析方法。
(付記15)
前記(b)のステップにおいて、前記計数によって得られた値を、前記影響を表す指標として導出する、付記9〜14のいずれかに記載の文書分析方法。
(付記16)
前記(b)のステップにおいて、前記影響を表す指標として、前記計数の結果を用いて、前記共通評判情報の出現確率、又は前記共通評判情報の出現傾向を示す数値を導出する、付記9〜14のいずれかに記載の文書分析方法。
(付記17)
コンピュータによって、特定のイベントが分析対象に与える影響を分析するための、プログラムであって、
前記コンピュータに、
(a)分析対象に関する記述を含む分析対象文書に出現している第1の評判情報の中から、指定された前記イベントに関する記述を含むイベント関連文書に出現している第2の評判情報と一致する情報を特定し、特定した情報を共通評判情報として選別する、ステップと、
(b)前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数し、前記計数の結果に基づいて、前記影響を表す指標を導出する、ステップと、
を実行させる、プログラム。
(付記18)
前記第1の評判情報が、前記分析対象文書中の作成者による評価を含み、
前記第2の評判情報が、前記イベント関連文書中の作成者による評価及び価値判断を含む、付記17に記載のプログラム
(付記19)
前記第1の評判情報及び前記第2の評判情報それぞれが、前記評価の対象と、前記評価の属性と、前記評価に用いられた表現とを少なくとも要素として含み、
前記(a)のステップにおいて、
前記第1の評判情報及び前記第2の評判情報それぞれにおける前記対象が一致する場合、
前記第1の評判情報及び前記第2の評判情報それぞれにおける前記属性が一致する場合、
前記第1の評判情報及び前記第2の評判情報それぞれにおける前記表現に対して、付属語の除外、及び活用を原形に戻した状態での正規化を行って得られた表現が一致する、又は一方が他方の反意表現となる場合、
のうち少なくとも一つに該当することを条件に、前記第1の評判情報が前記第2の評判情報と一致すると判定して、前記共通情報を選別する、付記18に記載のプログラム
(付記20)
(c)前記分析対象文書から、前記分析対象文書の作成者による評価が記述されている箇所を前記第1の評判情報として抽出する、ステップと、
(d)前記イベント関連文書から、前記イベント関連文書の作成者による評価が記述されている箇所を前記第2の評判情報として抽出する、ステップとを、前記(a)及び(b)のステップの実行前に、更に前記コンピュータに実行させ、
前記(c)のステップにおいて、前記分析対象文書のうち、前記イベント関連文書にも該当する文書を除外して、前記第1の評判情報の抽出を行う、付記18または19に記載のプログラム
(付記21)
前記(b)のステップにおいて、
前記分析対象文書中に出現する前記共通評判情報を、予め設定された分類基準に従ってグループ分けし、前記グループ毎に、当該グループに属する前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、当該グループに属する前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数する、付記18〜20のいずれかに記載のプログラム
(付記22)
前記(b)のステップにおいて、
前記分析対象文書中に出現する前記共通評判情報を、前記分析対象文書中の作成者による評価が肯定的評価のグループと、前記分析対象文書中の作成者による評価が否定的評価のグループと、が含まれるようにグループ分けを行う、付記21に記載のプログラム
(付記23)
前記(b)のステップにおいて、前記計数によって得られた値を、前記影響を表す指標として導出する、付記17〜22のいずれかに記載のプログラム
(付記24)
前記(b)のステップにおいて、前記影響を表す指標として、前記計数の結果を用いて、前記共通評判情報の出現確率、又は前記共通評判情報の出現傾向を示す数値を導出する、付記17〜22のいずれかに記載のプログラム
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2009年11月25日に出願された日本出願特願2009−267266を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、ブログ等のインターネット上のテキストを用いた、着目する対象の市場分析に適用できる。また、定期的に実行されるアンケート調査の結果の分析にも適用できる。例えば、分析対象に関して記述されているブログを分析することで、分析対象に対してこれまで行われた複数の広告及びキャンペーンの影響の度合いを調べ、更に、これらをランク付けすることができる。ユーザは、効果の高かった広告及びキャンペーンを知ることができる。
また、本発明によれば、分析対象となる事件の発生後の評判情報の変遷を精度良く調べることが可能であるため、過去の事件の発生により、どのような影響がどの程度生じたのかを分析することができる。ユーザは、分析結果を、今後、緊急時の事件対応方針を策定する際の参考とすることができる。
1 文書分析装置
10 分析対象入力部
20 分析対象文書取得部
30 文書データベース
40 分析対象評判情報抽出部
50 評価表現辞書
60 イベント入力部
70 イベント関連文書取得部
80 イベント評判情報抽出部
90 共通評判情報選別部
100 イベント影響分析部
110 影響出力部
120 コンピュータ
121 CPU
122 メインメモリ
123 記憶装置
124 入力インターフェイス
125 表示コントローラ
126 データリーダ/ライタ
127 通信インターフェイス
128 入力機器
129 ディスプレイ装置
130 記録媒体
131 バス

Claims (18)

  1. コンピュータによって、特定のイベントが分析対象に与える影響を分析するための、プログラムであって、
    前記コンピュータに、
    (a)分析対象に関する記述を含む分析対象文書に出現し、且つ前記分析対象文書中の作成者による評価を含む、第1の評判情報の中から、指定された前記イベントに関する記述を含むイベント関連文書に出現し、且つ、前記イベント関連文書中の作成者による評価及び価値判断を含む、第2の評判情報と一致する情報を特定し、特定した情報を共通評判情報として選別する、ステップと、
    (b)前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数し、前記計数の結果に基づいて、前記影響を表す指標を導出する、ステップと、
    を実行させ
    更に、前記コンピュータに、前記(a)及び(b)のステップの実行前に、
    (c)前記分析対象文書から、前記分析対象文書の作成者による評価が記述されている箇所を前記第1の評判情報として抽出する、ステップと、
    (d)前記イベント関連文書から、前記イベント関連文書の作成者による評価が記述されている箇所を前記第2の評判情報として抽出する、ステップと、を実行させ、
    前記(c)のステップにおいて、前記分析対象文書のうち、前記イベント関連文書にも該当する文書を除外して、前記第1の評判情報の抽出を行う、プログラム。
  2. 前記第1の評判情報及び前記第2の評判情報それぞれが、前記評価の対象と、前記評価の属性と、前記評価に用いられた表現とを少なくとも要素として含み、
    前記(a)のステップにおいて、
    前記第1の評判情報及び前記第2の評判情報それぞれにおける前記対象が一致する場合、
    前記第1の評判情報及び前記第2の評判情報それぞれにおける前記属性が一致する場合、
    前記第1の評判情報及び前記第2の評判情報それぞれにおける前記表現に対して、付属語の除外、及び活用を原形に戻した状態での正規化を行って得られた表現が一致する、又は一方が他方の反意表現となる場合、
    のうち少なくとも一つに該当することを条件に、前記第1の評判情報が前記第2の評判情報と一致すると判定して、前記共通評判情報を選別する、請求項に記載のプログラム。
  3. 前記(b)のステップにおいて、
    前記分析対象文書中に出現する前記共通評判情報を、予め設定された分類基準に従ってグループ分けし、前記グループ毎に、当該グループに属する前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、当該グループに属する前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数する、請求項1または2に記載のプログラム。
  4. 前記(b)のステップにおいて、
    前記分析対象文書中に出現する前記共通評判情報を、前記分析対象文書中の作成者による評価が肯定的評価のグループと、前記分析対象文書中の作成者による評価が否定的評価のグループと、が含まれるようにグループ分けを行う、請求項に記載のプログラム。
  5. 前記(b)のステップにおいて、前記計数によって得られた値を、前記影響を表す指標として導出する、請求項1〜のいずれかに記載のプログラム。
  6. 前記(b)のステップにおいて、前記影響を表す指標として、前記計数の結果を用いて、前記共通評判情報の出現確率、又は前記共通評判情報の出現傾向を示す数値を導出する、請求項1〜のいずれかに記載のプログラム。
  7. 特定のイベントが分析対象に与える影響を分析する文書分析装置であって、
    分析対象に関する記述を含む分析対象文書に出現し、且つ前記分析対象文書中の作成者による評価を含む、第1の評判情報の中から、指定された前記イベントに関する記述を含むイベント関連文書に出現し、且つ、前記イベント関連文書中の作成者による評価及び価値判断を含む、第2の評判情報と一致する情報を特定し、特定した情報を共通評判情報として選別する共通評判情報選別部と、
    前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数し、前記計数の結果に基づいて、前記影響を表す指標を導出するイベント影響分析部と、
    前記分析対象文書から、前記分析対象文書の作成者による評価が記述されている箇所を前記第1の評判情報として抽出する、分析対象評判情報抽出部と、
    前記イベント関連文書から、前記イベント関連文書の作成者による評価が記述されている箇所を前記第2の評判情報として抽出する、イベント評判情報抽出部と、
    を備え
    前記分析対象評判情報抽出部は、前記分析対象文書のうち、前記イベント関連文書にも該当する文書を除外して、前記第1の評判情報の抽出を行う、
    ことを特徴とする文書分析装置。
  8. 前記第1の評判情報及び前記第2の評判情報それぞれが、前記評価の対象と、前記評価の属性と、前記評価を表す表現とを少なくとも要素として含み、
    前記共通評判情報選別部が、
    前記第1の評判情報及び前記第2の評判情報それぞれにおける前記対象が一致する場合、前記第1の評判情報及び前記第2の評判情報それぞれにおける前記属性が一致する場合、前記第1の評判情報及び前記第2の評判情報それぞれにおける前記表現に対して、付属語の除外、及び活用を原形に戻した状態での正規化を行って得られた表現が一致する、又は一方が他方の反意表現となる場合、
    のうち少なくとも一つに該当することを条件に、前記第1の評判情報が前記第2の評判情報と一致すると判定して、前記共通評判情報を選別する、請求項に記載の文書分析装置。
  9. 前記イベント影響分析部が、前記分析対象文書中に出現する前記共通評判情報を、予め設定された分類基準に従ってグループ分けし、前記グループ毎に、当該グループに属する前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、当該グループに属する前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数する、請求項7または8に記載の文書分析装置。
  10. 前記イベント影響分析部が、前記分析対象文書中に出現する前記共通評判情報を、前記分析対象文書中の作成者による評価が肯定的評価のグループと、前記分析対象文書中の作成者による評価が否定的評価のグループと、が含まれるようにグループ分けを行う、請求項に記載の文書分析装置。
  11. 前記イベント影響分析部が、前記計数によって得られた値を、前記影響を表す指標として導出する、請求項10のいずれかに記載の文書分析装置。
  12. 前記イベント影響分析部が、前記影響を表す指標として、前記計数の結果を用いて、前記共通評判情報の出現確率、又は前記共通評判情報の出現傾向を示す数値を導出する、請求項10のいずれかに記載の文書分析装置。
  13. 特定のイベントが分析対象に与える影響を分析するための方法であって、
    (a)分析対象に関する記述を含む分析対象文書に出現し、且つ前記分析対象文書中の作成者による評価を含む、第1の評判情報の中から、指定された前記イベントに関する記述を含むイベント関連文書に出現し、且つ、前記イベント関連文書中の作成者による評価及び価値判断を含む、第2の評判情報と一致する情報を特定し、特定した情報を共通評判情報として選別する、ステップと、
    (b)前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数し、前記計数の結果に基づいて、前記影響を表す指標を導出する、ステップと、
    (c)前記分析対象文書から、前記分析対象文書の作成者による評価が記述されている箇所を前記第1の評判情報として抽出する、ステップと、
    (d)前記イベント関連文書から、前記イベント関連文書の作成者による評価が記述されている箇所を前記第2の評判情報として抽出する、ステップとを、
    を有し、
    前記(c)及び(d)のステップは、前記(a)及び(b)のステップの実行前に、実行され、
    前記(c)のステップにおいて、前記分析対象文書のうち、前記イベント関連文書にも該当する文書を除外して、前記第1の評判情報の抽出を行う
    ことを特徴とする文書分析方法。
  14. 前記第1の評判情報及び前記第2の評判情報それぞれが、前記評価の対象と、前記評価の属性と、前記評価に用いられた表現とを少なくとも要素として含み、
    前記(a)のステップにおいて、
    前記第1の評判情報及び前記第2の評判情報それぞれにおける前記対象が一致する場合、
    前記第1の評判情報及び前記第2の評判情報それぞれにおける前記属性が一致する場合、
    前記第1の評判情報及び前記第2の評判情報それぞれにおける前記表現に対して、付属語の
    除外、及び活用を原形に戻した状態での正規化を行って得られた表現が一致する、又は一方が他方の反意表現となる場合、
    のうち少なくとも一つに該当することを条件に、前記第1の評判情報が前記第2の評判情報
    と一致すると判定して、前記共通評判情報を選別する、請求項13に記載の文書分析方法。
  15. 前記(b)のステップにおいて、
    前記分析対象文書中に出現する前記共通評判情報を、予め設定された分類基準に従ってグループ分けし、前記グループ毎に、当該グループに属する前記共通評判情報が、前記イベントの発生前に作成された前記分析対象文書中に出現している回数と、当該グループに属する前記共通評判情報が、前記イベントの発生後に作成された前記分析対象文書中に出現している回数とをそれぞれ計数する、請求項13または14に記載の文書分析方法。
  16. 前記(b)のステップにおいて、
    前記分析対象文書中に出現する前記共通評判情報を、前記分析対象文書中の作成者による評価が肯定的評価のグループと、前記分析対象文書中の作成者による評価が否定的評価のグループと、が含まれるようにグループ分けを行う、請求項15に記載の文書分析方法。
  17. 前記(b)のステップにおいて、前記計数によって得られた値を、前記影響を表す指標として導出する、請求項1316のいずれかに記載の文書分析方法。
  18. 前記(b)のステップにおいて、前記影響を表す指標として、前記計数の結果を用いて、前記共通評判情報の出現確率、又は前記共通評判情報の出現傾向を示す数値を導出する、請求項1316のいずれかに記載の文書分析方法。
JP2011543197A 2009-11-25 2010-11-08 文書分析装置、文書分析方法、及びプログラム Active JP5724878B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011543197A JP5724878B2 (ja) 2009-11-25 2010-11-08 文書分析装置、文書分析方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009267266 2009-11-25
JP2009267266 2009-11-25
PCT/JP2010/069788 WO2011065211A1 (ja) 2009-11-25 2010-11-08 文書分析装置、文書分析方法、及びコンピュータ読み取り可能な記録媒体
JP2011543197A JP5724878B2 (ja) 2009-11-25 2010-11-08 文書分析装置、文書分析方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2011065211A1 JPWO2011065211A1 (ja) 2013-04-11
JP5724878B2 true JP5724878B2 (ja) 2015-05-27

Family

ID=44066314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011543197A Active JP5724878B2 (ja) 2009-11-25 2010-11-08 文書分析装置、文書分析方法、及びプログラム

Country Status (3)

Country Link
US (1) US9104761B2 (ja)
JP (1) JP5724878B2 (ja)
WO (1) WO2011065211A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013033375A (ja) * 2011-08-02 2013-02-14 Sony Corp 情報処理装置、情報処理方法、および、プログラム
JP5801252B2 (ja) * 2012-05-17 2015-10-28 日本電信電話株式会社 イベント抽出装置及び方法及びプログラム
JP5929532B2 (ja) * 2012-06-12 2016-06-08 日本電気株式会社 イベント検出装置、イベント検出方法およびイベント検出プログラム
US9785317B2 (en) 2013-09-24 2017-10-10 Palantir Technologies Inc. Presentation and analysis of user interaction data
US8812960B1 (en) 2013-10-07 2014-08-19 Palantir Technologies Inc. Cohort-based presentation of user interaction data
JP6525624B2 (ja) * 2015-02-09 2019-06-05 キヤノン株式会社 文書管理システム、文書登録装置、文書登録方法
WO2016147220A1 (ja) * 2015-03-18 2016-09-22 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、記録媒体
JP6342027B1 (ja) * 2017-02-21 2018-06-13 ヤフー株式会社 提供装置、提供方法および提供プログラム
JP6664600B2 (ja) * 2018-01-24 2020-03-13 ヤフー株式会社 提供装置、提供方法および提供プログラム
JP7001509B2 (ja) * 2018-03-19 2022-01-19 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438469B1 (en) * 2005-09-30 2013-05-07 Google Inc. Embedded review and rating information
WO2008136421A1 (ja) * 2007-04-27 2008-11-13 Nec Corporation 情報分析システム、情報分析方法及び情報分析用プログラム

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
CSNG200300257010; 立石健二、外2名: 'インターネットからの評判情報検索' 電子情報通信学会技術研究報告[NLC2001-9〜21] 第101巻,第189号, 20010709, p.75-82, 社団法人電子情報通信学会 *
CSNG200900092023; 大西貴士、外4名: '時系列分析によるWeb文書の情報信頼性判断支援:時系列変化からの重要トピックの抽出' 言語処理学会第15回年次大会発表論文集 , 20090302, p.104-107, 言語処理学会 *
CSNH200800078002; 浅野久子、外3名: 'Web上の口コミを分析する 評判情報インデクシング技術' NTT技術ジャーナル 第20巻,第6号, 20080601, p.12-15, 社団法人電気通信協会 *
JPN6010069194; 大西貴士、外4名: '時系列分析によるWeb文書の情報信頼性判断支援:時系列変化からの重要トピックの抽出' 言語処理学会第15回年次大会発表論文集 , 20090302, p.104-107, 言語処理学会 *
JPN6010069198; 立石健二、外2名: 'インターネットからの評判情報検索' 電子情報通信学会技術研究報告[NLC2001-9〜21] 第101巻,第189号, 20010709, p.75-82, 社団法人電子情報通信学会 *
JPN6010069202; 浅野久子、外3名: 'Web上の口コミを分析する 評判情報インデクシング技術' NTT技術ジャーナル 第20巻,第6号, 20080601, p.12-15, 社団法人電気通信協会 *
JPN6010069206; Sadao Kurohashi、外6名: 'Information Credibility Analysis of Web Contents' 2008 Second International Symposium on Universal Communication (ISUC'08) [online] , 20081216, p.146-153, IEEE *
JPN6010069208; NECビッグローブ株式会社: 'ブログクチコミ分析サービス「感°Report(かんどれぽーと)」の提供を開始' プレスリリース [online] , 20081031, NECビッグローブ *

Also Published As

Publication number Publication date
WO2011065211A1 (ja) 2011-06-03
US20120278327A1 (en) 2012-11-01
US9104761B2 (en) 2015-08-11
JPWO2011065211A1 (ja) 2013-04-11

Similar Documents

Publication Publication Date Title
JP5724878B2 (ja) 文書分析装置、文書分析方法、及びプログラム
Chen et al. A survey on the use of topic models when mining software repositories
Elgendy et al. Big data analytics in support of the decision making process
US20210158187A1 (en) System and method for detecting friction in websites
Vincent et al. Measuring the importance of user-generated content to search engines
CN101408885B (zh) 利用统计分布对主题进行建模
Qu et al. Matchmaking in reward-based crowdfunding platforms: A hybrid machine learning approach
CN107077486A (zh) 情感评价系统和方法
Yang et al. Large language models can rate news outlet credibility
KR20200048004A (ko) 사용자 구매 기준 및 상품 리뷰 기반 상품 추천 시스템 및 방법
CN102177514A (zh) 用于利用现有的域定义来进行语义概念定义和语义概念关系综合的系统和方法
Ismail et al. Data mining in electronic commerce: benefits and challenges
CN107153656A (zh) 一种信息搜索方法和装置
CN114942971B (zh) 一种结构化数据的抽取方法及装置
JP4970919B2 (ja) 閲覧対象情報の評価システム、方法、およびプログラム
CN109783638A (zh) 一种基于半监督学习的用户评论聚类方法
Stanik et al. Unsupervised topic discovery in user comments
Tiwary Learning apache mahout
CN110222180A (zh) 一种文本数据分类与信息挖掘方法
Bhattarai et al. Open-source code repository attributes predict impact of computer science research
KR102299525B1 (ko) 제품 평가 마이닝 방법 및 이를 수행하는 장치
Girish et al. Mining the web data for classifying and predicting users’ requests
van der Spek et al. Applying a dynamic threshold to improve cluster detection of LSI
Zhang et al. Data mining model for food safety incidents based on structural analysis and semantic similarity
Bevendorff et al. The Impact Of Online Affiliate Marketing On Web Search

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141113

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20150123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150316

R150 Certificate of patent or registration of utility model

Ref document number: 5724878

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150