JP2007334603A - 情報抽出支援装置 - Google Patents

情報抽出支援装置 Download PDF

Info

Publication number
JP2007334603A
JP2007334603A JP2006165230A JP2006165230A JP2007334603A JP 2007334603 A JP2007334603 A JP 2007334603A JP 2006165230 A JP2006165230 A JP 2006165230A JP 2006165230 A JP2006165230 A JP 2006165230A JP 2007334603 A JP2007334603 A JP 2007334603A
Authority
JP
Japan
Prior art keywords
information
axis
display
electronic
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006165230A
Other languages
English (en)
Inventor
Kazutaka Hayashi
千登 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006165230A priority Critical patent/JP2007334603A/ja
Publication of JP2007334603A publication Critical patent/JP2007334603A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 現実社会での出来事との対応をとりながら電子的な空間に発信された情報を分析し有用な情報を抽出することを支援する情報抽出支援装置を提供する。
【解決手段】 情報抽出支援装置は、電子社会での情報を数値化して表現可能な電社軸と、当該電子社会での情報に対する現実社会での出来事を数値化して表現可能な実社軸とによって表される2次元もしくは3次元空間に、電子社会での情報の分布表示を作成する第一表示作成手段120と、少なくとも第一表示作成手段によって作成された分布表示を表示する表示手段190と、第一表示作成手段120により作られた表示に対し範囲を入力する表示操作手段180と、前記入力された範囲を表示する第二表示作成手段130と、前記入力された範囲の現実社会の出来事または電子社会での情報の少なくとも一方を抽出するための管理手段160、170とを有する。
【選択図】 図2

Description

本発明は、インターネットなどに大量に存在する文書情報を分析して情報を抽出するための技術に関する。
企業活動における市場調査や顧客満足度調査などの際には、多くの人の声を集めるためにアンケート等を実施して、潜在的な顧客を含めた多くの人からの意見やニーズなどの収集集が行われてきた。
一方、最近のインターネット技術の普及に伴い、一般のユーザらが自らの意見や体験を自発的に発信するようになってきた。電子上のコミュニティ等に自発的に発信された情報を、積極的に企業活動などに活用することが行われ始めており、インターネット上にユーザーコミュニティを作り、ニーズを集めて製品の企画に生かすなどの動きが起こっている。また逆に、インターネットに発信された情報が発端となって不買運動などの社会現象も現れるようになってきており、電子空間に一般の多くの人々が発信した情報は、企業活動などにおいて無視できない情報源となってきている。
しかし、インターネット上に発信される情報は日々増加しているため、蓄積された情報の全体を概観したり特定の事柄に関係する有用な情報を後から探しだすことは容易ではない。調査したい情報を探すために通常は、調査したい内容に関連する言葉を用いて検索を行い、抽出した情報を丹念に分析することが試行錯誤的に繰り返し行われる。しかし、インターネット上に発信されている情報、特に不特定多数の発信者から自発的に発信された情報においてはその表現が非常に多岐にわたるため、抽出して分析したい情報を見つけ出すために必要な検索語などを推測することは難しかった。
このような問題に対して、電子コミュニティで話されている内容を代表する言葉を選び出す技術がいくつか提示されてきている。例えば、特許文献1では、インターネット上の複数の指定されたサイトをクローリングして、集めた大量の情報について共通して頻出する語を重要語として抽出する技術を開示している。また、特許文献2は、コミュニティに新しく参加する人が概要をつかめるように、出現する語の最初の登場日時と最後の登場日時から語の寿命という値を割り振り、これの長い語で常識、短い語を変遷する話題として、コミュニティの話題の変遷を表す言葉等を言葉の出現範囲の計算から選び出す技術を開示している。さらに、特許文献3は、指定された複数の対象に対する評判情報を、評判情報の表現パターンを用いて抽出する技術を開示している。
特開2002−230035号公報 特開平11−143796号公報 特開2003−203136号公報
上記した特許文献3ではあらかじめ評判情報の表現パターンを用意する必要があった。特許文献2は、コミュニティに新しく参加しようとする人がコミュニティの様子をつかむことを支援することを主眼としているため、電子的なコミュニティ上での言葉の出現傾向だけが注目されている。この点は、特許文献1でも同様であり、指定した複数のサイトで共通する出現傾向を語の選定基準に用いている。
しかし、企業活動や行政活動の関心は実際には現実社会にあり、電子的な空間に発信されている情報を分析する際にも、現実社会での出来事との関係で分析し、情報を抽出することが重要である。電子的な空間では、調査を行いたい現実社会での出来事と直接の関係が薄い内容も大量に流通している。たとえば発言者間での意見の食い違いなどから起きるフレーミングのような場面においては現実社会での出来事とは直接関係なく大量の情報が発信される。一方で、同じ現実社会での出来事に対して必ずしも全てのコミュニティが同様に反応するわけでもない。このため、電子的な空間に発信されている情報を単純に押しなべて集計しても、抽出したい現実社会の出来事を説明する有用な情報が必ずしも得られるものではなかった。
本発明の目的は、電子的な空間に発信された情報を現実社会での出来事との対応をとりながら選択的に分析し有用な情報を抽出することを支援する情報抽出支援装置を提供することにある。
本発明に係る情報抽出支援装置は、現実社会での情報を収集する第1の情報収集手段と、電子社会での情報を収集する第2の情報収集手段と、第1の情報収集手段により収集された現実社会の情報の属性を選択する第1の選択手段と、第1の選択手段によって選択された属性を第1の軸上に対応付ける第1の対応付け手段と、第2の情報収集手段により収集された電子社会の情報の属性を選択する第2の選択手段と、 第2の選択手段によって選択された属性を第2の軸上に対応付ける第2の対応付け手段と、第1および第2の対応付け手段手段によって対応付けされた第1および第2の軸空間に少なくとも電子社会の情報の分布を表示する表示手段とを有する。これにより、電子社会の情報を活用する場合に、現実社会の情報(出来事など)と関連付けまたは対応付けして電子社会の情報を理解し、抽出することができる。
好ましくは、第1の選択手段は、第1の情報収集手段により収集された現実社会の情報に含まれる複数の属性から属性候補を抽出し、抽出した属性候補の中から属性を選択するようにしてもよい。現実社会の情報をベースにし、そこから電子社会の情報を抽出できる。
好ましくは第2の選択手段は、第2の情報収集手段により収集された電子社会の情報に含まれる複数の属性から属性候補を抽出し、抽出した属性候補の中から属性を選択する。また、第1および第2の情報収集手段は、現実情報の情報および電子社会の情報を検索する第1および第2の検索手段を含み、第1の選択手段または第2の選択手段は、前記第1および第2の検索手段の共通の検索項目から属性候補を選択するようにしてもよい。、例えば、現実社会の情報の属性が時間であれば、電子社会の情報の属性として時間を選択する。勿論、共通の属性以外の属性をユーザ入力等によって適宜指示するようにしてもよい。これにより、現実社会の情報をベースに、電子社会の情報の切り口を種々変更することができる。
好ましくは電子社会の情報の分布は、電子社会におけるメッセージまたは言葉の出現状態を表す。表示態様は、2次元空間に限らず、3次元空間であってもよい。
さらに表示手段によって表示された電子社会の情報の分布から範囲を指定し、当該範囲に含まれる電子社会の情報または現実社会を抽出し、抽出した情報を表示する第2の表示手段を含む。分布表示を理解し、その中からさらに情報を抽出することで、電子社会の情報と現実社会との情報との関連性を理解することができる。さらに、第1の選択手段によって選択された属性を持つ軸の情報に基づいて第1の情報収集手段から抽出した情報を表示する第3の表示手段を含むようにしてもよい。
好ましくは、情報抽出支援装置はさらに、前記表示手段により表示された分布において強調すべき表示を指示するための分布表示指示手段を含むようにしてもよい。例えば、分布表示指示手段は、電子社会の情報に含まれる電子化された文または文章の表現を指示する。分布表示において、所望の単語や記号等を強調表示させることで、全体の分布表示の中から所望の単語や記号の分布を容易に識別できる。また、強調表示を参照できるので、分布表示に対する範囲の入力が容易になる。
好ましくは、電子社会の情報の属性は、電子情報の発信時刻、または編集時刻などの時刻情報の軸を含み、現実社会の情報の属性は、日、週、月などの日の整数倍の単位からなる時間軸を含む。時間軸により分布表示を行うと、電子社会におけるコミュニティ等での生活リズムを反映することができる。また、電子社会の情報の属性は、電子情報が予め定められた参照情報と比較したときの類似度を含むものであってもよい。電子情報が特定の情報を一定以上含むことを示す軸を用いることができる。これにより、電子社会での情報の内容を分布表示させることができる。
本発明に係る情報抽出支援プログラム(または方法)は、現実社会での情報を収集する第1の情報収集ステップと、電子社会での情報を収集する第2の情報収集ステップと、第1の情報収集手段により収集された現実社会の情報の属性を選択する第1の選択ステップと、第1の選択ステップにより選択された属性を第1の軸上に対応付けるステップと、第1の選択手段によって選択された属性に基づき前記電子社会の情報の属性を選択する第2の選択ステップと、第2の選択ステップにより選択された属性を第2の軸上に対応付けるステップと、対応付けられた軸空間に少なくとも電子社会の情報の分布を表示する表示ステップとを有する。情報抽出支援装置は、ハードウエアによる実現のほか、電子処理装置におけるソフトウエハ(プログラム)によって実現することができる。
また本発明では現実社会での出来事と対応をとるための第1の属性を持つ軸と、電子空間での挙動と対応をとる第二の属性を持つ軸をそれぞれ管理する表示軸管理手段と、少なくとも一つの第一の属性を持つ軸を座標軸として持つ表示手段と、第一の属性を持つ軸に対する指定に対応する現実社会での出来事を取り出すための現実社会情報格納手段と、第二の属性を持つ軸に対する指定に対応する電子空間の情報を管理する電子空間情報管理手段と、表示に対するユーザの操作を受け付ける表示操作手段と、受け付けた表示に対する入力から表示上の座標を取り出し、それぞれの軸管理手段に問い合わせて現実社会の情報を問い合わせて表示する第二表示手段とを有する。
本発明では、電子社会での言葉などの分布を現実社会での情報(出来事)と関連付けて表示することにより、電子コミュニティなどネットワーク上に大量に存在する電子社会の情報から現実社会での出来事に反応した手がかりを早期かつ容易に選択して情報を分析し、企業活動など現実社会での活動に有用な情報を抽出することを効率的かつ効果的に行うことを支援することができる。すなわち、従来であれば、電子的なドキュメントの中での重要な表現を頻度や出現期間から導き出そうとしていた。このため、現実世界での出来事の掘り出しや、現実世界での特定の出来事に関して記述された情報の抽出などにおいては、適切な重要表現を抽出提示することはできなかった。これに対し、本発明では、電子的な世界だけでなく現実世界との対応をとる属性または軸を用意し、両方の属性または軸に関する電子ドキュメントの傾向を提示して、その枠組みのなかで重要表現を抽出する。現実世界の出来事の探求や確認、現実世界の出来事に特別に関係する表現の抽出などを効率的に行うことができるようになることに加え、現実社会側でのものや出来事に関して詳しい分析の依頼者に対しては電子社会における現象の説明を分かりやすいものとすることができる。また、現実社会側でのものや出来事に関して詳しい分析者においては、知っている現実の事実に照らして仮説をたてながら電子社会の情報を探るということが容易になる。このことにより、単に作業の効率化が図られるだけでなく、従来はあきらめられていた種類の情報抽出を実現できるようになる。
以下、本発明の最良の実施形態について図面を参照して説明する。
本実施例の説明に先立って、「電社情報」と「実社情報」という言葉について説明を加える。本実施例と後続の実施例においては、電子掲示板やメーリングリストに代表される電子コミュニティや日記形式に情報を発信しているブログ(blog)などから入手したデータと入手したデータに解析処理を施した情報、例えばテキストデータ部分に自然言語処理技術として開示されている様々な処理を施した情報をあわせて、電子社会からの情報という意味をこめて「電社情報」と呼ぶ。一方、「実社情報」とは、情報の入手先よりも実社会の物や出来事、イベント等についての内容を持った情報を指している。例えば、記述されている内容等が実社会の出来事と対応が取れる、新聞等に掲載されたニュースや、新製品のリリースに関して発表されたインターネット上の記事等は実社情報として扱う。これに対し、例えば電子コミュニティに昼間に投稿したのか深夜に投稿したのかなど、情報の発信者個々と電子コミュニティなどの電子空間との間での関係が強いものを電社情報としてあつかう。
図1は、本発明の実施例に係る情報抽出支援訳装置の構成例を示す図である。情報抽出支援装置10は、入力装置12、表示装置14、主記憶装置16、記憶装置18、中央処理装置(CPU)20、これらを接続するバス22を含んでいる。
入力装置12は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取る光学式読取装置(スキャナ)、外部装置やインターネット等と接続しそれらからのデータを入力するインターフェース等を含む。
表示装置14は、収集した電社情報や実社情報を表示するディスプレイ等を含む。主記憶装置16は、ROMまたはRAMを含み、情報抽出支援を行うプログラムや演算処理されたデータ等を記憶する。さらに好ましくは、表示装置14にイメージを表示するためのイメージバッファを含む。記憶装置18は、例えばハードディスク等の大容量記憶装置を含み、インターネット等を介して収集された大量のデータを蓄積する。CPU(Central Processing Unit)20は、主記憶装置16に記憶されたプログラムに従い各部を制御する。
図2は、本実施例の情報抽出支援装置の機能的な構成を示すブロック図である。同図において、軸指定手段100は、第一および第二表示情報作成手段120、130においてどの軸を使用し、それぞれの軸をどう配置するかを指定する軸指定情報を軸情報管理手段110に通知する。
電社情報記憶手段140は、電子コミュニティなどへの投稿情報などの電子社会の出来事についての情報を記憶する手段であり、実社情報記憶手段150は、調査分析する対象と関連する実社会での出来事や確認された事実や公式、非公式に発表された情報等を記憶する手段である。電社情報記憶手段140および実社情報記憶手段150はそれぞれ言語で表現された情報を記憶できることが望ましく、更には分析対象とする文書集合を、各文書の属性やテキストの形態素解析結果や係り受け解析結果や意味解析結果などのいずれかの解析結果と共に保存してもよい。
電社情報管理手段160は、軸情報管理手段110の電社軸管理部112からの要求に応えて電社情報記憶手段140から情報を抽出して電社軸管理部112に送信する。同様に、実社情報管理手段170は、軸情報管理手段110の実社軸管理部114からの要求に応えて実社情報記憶手段150から情報を抽出して実社軸管理部114に送信する。
軸情報管理手段110は、上記したように、内部に電社軸管理部112、実社軸管理部114、および実社情報候補調整部116を備え、電社情報や実社情報と表示の位置関係を管理、計算処理を行う。電社軸管理部112は、電社情報に関して表示と電社情報の位置関係を管理、計算処理を行い、実社軸管理部114は、電社情報の実社軸に対応付けられる属性と表示の位置関係を管理、計算処理を行う。また、実社軸管理部114は、実社情報について表示との位置関係を管理、計算処理を行う。実社情報候補管理部116は、電社情報管理手段160や実社情報管理手段170が提供する検索入力の共通項目等に従い実社軸の選定等を行う。
第一表示情報作成手段120は、実社軸と電社軸を交えた座標軸に、電社情報の分布を示したイメージ情報を作成する。表示操作手段180は、表示された電社情報の分布のイメージ上の範囲を入力し、第二表示情報作成手段130への入力データを供給する。また、表示操作手段180は、第二表示情報作成手段130の生成した情報への選択操作に対する第一表示情報作成手段120の更新要求や、直接の文字列などの入力に対する第一表示情報作成手段120の更新要求を受け付けて第一表示情報作成手段120に更新要求を発行する。
表示部190は、第一表示情報作成手段120、第二表示情報作成手段130で作成された表示情報をユーザに表示する手段である。電社情報収集部200は、電社情報記憶手段140に不足する情報があった場合や、明示的に情報の更新をユーザから指示された際に、外部から入手するための手段である。特定のサイトを指定して新規の情報を入手したり、不足する属性情報を要求して入手する処理を行う。電社情報収集部200は、例えば、電子掲示板やメーリングリスト等の電子コミュニティから、あるいはブログ(blog)などからの電社情報を収集し、収集した電社情報を電社情報記憶手段140へ提供する。
実社情報収集部210は、実社軸上の指定された範囲について、外部に検索処理の発行や追加データの入力要求などを発行して情報を追加する手段である。追加した情報は、実社情報記憶手段150に一時的に格納され、図示しない表示手段によりユーザに提示された後、実社情報記憶手段150に登録される。実社軸の範囲指定に対して検索条件、実社情報記憶手段150に記録する内容に対して検索結果が適合する情報提供サービスがある場合には、ユーザからの登録を待つことなく実社情報記憶手段150に登録してもよいし、実社情報記憶手段を内部に持つことをやめて、その情報提供サービスと実社情報管理手段とをつないでもよい。
実社推定情報入力部220は、分析の過程でユーザが推定した現実社会での出来事を実社情報記憶手段150に登録するための入力手段である。分析の過程ではしばしば、電社情報に記載された内容を参照することで現実世界でイベントが起きていたことを発見するような場合は必ずしも珍しいことではない。分布表示指示部230は、電社情報の分布表示において、強調すべき単語等の表示を指示する入力であり、入力された強調すべき単語等の表示の指示は、第一表示情報作成手段120へ与えられる。
次に、本実施例の情報抽出支援装置の動作について図3のフローチャートを参照して説明する。
分析対象指示入力処理(ステップS101):
分析対象とする文書情報集合と、実社会での出来事について、図1に示す入力装置12を介して行う。例えば、分析対象とする電子コミュニティやblog等の文書情報の情報源のリストを、予め用意されたリストから選択するなどして入力し、分析対象として特定の製品と比較対象の製品を選択する。
電社情報確保処理(ステップS102):
電社情報確保処理は、電社情報管理手段160により行われ、分析対象とする文書情報集合について文書情報と分析に利用可能な属性情報を電社情報記憶手段140に確保する。電子コミュニティなどから収集する必要な電社情報が既に後続の処理において利用可能な状態で、既に電社情報記憶手段140に格納されている場合には、電社情報に関しては何もしない。
図示しない判定装置や入力装置により追加入力が指示された場合には電社情報をインターネット経由で、あるいはオフラインでの記録媒体の送受信などを介して収集し、それらを電社情報記憶手段140に格納し、さらに後続の処理のために必要な前処理、例えばテキスト情報部分に形態素解析や係り受け解析を施して解析結果を検索可能な形で電社情報記録手段140に格納する。
電社情報管理手段160は、この段階で電社軸として選択可能な情報の候補を抽出し、電社軸管理部112に送信する。電社軸として選択可能であるか否かは、各文書情報に対する値が決まること、軸上で指定されたある範囲に対して対応する文書集合が決定できることが条件の一つである。
実社情報確認処理(ステップS103):
実社情報確認処理は、実社情報管理手段170により行われる。実社情報についても電社情報と同様にこのステップにおいて必要なものを取得しても良いが、ここでは説明の簡単のために、分析対象とする実社会の出来事に関する情報が完全でなくても、ある適度に収集され、これらが実社情報記憶手段150に記憶されているものとする。
実社情報管理手段170は、実社軸として選択可能な情報の種類の抽出を行い、実社軸管理部114に送信する。実社軸として選択可能であるか否かは、軸上で指定された値に対して実社情報記憶手段150に格納されている実社会の個々の出来事に関する情報との対応が決まるか、さらには電社情報の個々に対しても値が定まるか、軸上の範囲に対する電社情報の集合を対応付けることができるかが条件の一つである。この実現には、軸情報管理手段110内に実社情報候補調整部116を設け、例えば、実社情報管理手段170が提供する検索入力と電社情報管理手段160の検索入力の共通項目から実社軸の候補を選定してもよい。また、実社情報管理手段170が選択した実社軸候補への対応を電社情報管理手段160に生成させてもよい。これは例えば実社情報管理手段170が調査対象の関連部品のリストやその供給もとのリストを軸候補として提示した場合に、実社情報候補調整部116が図示しない制御装置あるいは入力装置を通じたユーザの指示にしたがって、電社情報管理手段160に関連部品あるいは供給もとでの情報抽出手段を用意させる。この電社情報管理手段160での情報抽出手段の用意は、簡単には属性情報などでの一致を探す、テキスト情報の検索結果のリストを用意するなどで実現することができる。実社情報候補調整部116は図示しない入力装置から入力された変換情報を内部に保持しておいてもよく、例えば上記例では供給もとのリストを受けた際に変換情報に基づいて関連会社・系列会社に変換して電社情報管理手段に情報抽出手段を用意させてもよい。この際、表示に用いられる軸が変換前の情報に基づいている場合と変換後の情報に基づく場合がありえるが、変換後の情報に基づいて表示された場合には、軸上の特定の位置や範囲に対する実社軸の情報を抽出する際に、該変換情報が逆方向に用いられる。なお、実社軸の抽出は実社情報管理手段170が検索などの情報抽出の切り口として用意しているもの以外にも、調査・分析の対象に合わせて図示しない入力装置から入力されたユーザから指示に従って抽出が行われてもよい。
軸選定およびレイアウト指定処理(ステップS104):
軸情報管理手段110は、電社軸管理部112と実社軸管理部114の情報を元に、軸指定手段100に向けて軸を選択するための情報を送信する。受け取った情報を元に、軸指定手段100は、図4に例示するような画面をディスプレイに提示して入力を促し、ユーザからの入力を受け付ける。
軸指定手段100による入力画面は、XY座標(2次元座標)または極座標を選択したり、第1軸に電社軸または実社軸を選択したり、第2軸に電社軸または実社軸を選択したり、比較すべき項目を選択することを可能にしている。実社軸はここでは説明の簡単のために現実の出来事との関連がわかりやすく、かつ電子コミュニティへの投稿の属性情報として簡単に得られるもとして、月日、地域、発信者の所属、会社、団体などで説明を行う。電社軸は、電子コミュニティの挙動から情報を探る際には例えば、ユーザ層の発信頻度、ユーザ層の参照度、ユーザ層の年齢、発信時刻、発信アドレス範囲、地域、所属等やネットワーク分析などにより得られる数値などを用いることができるし、テキストに記述された情報から探る際には単語や係り受け、その出現頻度、特定の文書情報との類似計算などの計算値などを用いることができる。実社軸および電社軸の項目は、予め登録したり、あるいは、ユーザが適宜登録または修正できるようにしてもよい。さらに、比較すべき項目は、例えば図4に示すように、サイトグループ毎、対象製品別サイト毎、対象企業別サイト毎などの項目を含み、これらの項目は、ユーザによって適宜追加、変更できるようにしてもよい。
軸指定手段100はさらに、表示の際のレイアウト情報も入力することができる。例えば、図4に例示したような選択を行った場合には、図5に示すような概略のレイアウト(配置)にて電社情報が表示されることになる。図5では、比較すべき項目として、製品Aユーザサイト、製品BユーザML(メーリングリスト)、製品CユーザML、製品Dユーザサイトを選択し、それぞれの項目について、縦軸(電社軸)に発信時刻を、横軸(実社軸)に年月日を選択している。これにより、製品Aユーザサイトでの文書の分布状態、製品BユーザMLでの文書の分布状態、製品CユーザMLでの文書の分布状態、製品Dユーザサイトでの文書の分布状態がディスプレイに表示される。軸指定手段100によって入力された情報は、軸情報管理手段110に送られる。
表示前準備処理(ステップS105):
第一表示情報作成手段120は、入力装置12あるいは記憶装置16から、表示イメージを作成するために必要な情報、例えば画面サイズの指定等の情報を読み出して、イメージ作成用のバッファメモリなどの処理に必要なリソースを確保する。そして、読み出した画面サイズを軸情報管理手段110に送信することで、文書情報からイメージ上の座標値、表示する図形の位置を求めるための計算を行うオブジェクトを軸情報管理手段110に用意させる。前処理をここまでとして表示処理に移ってもよいが、ここでは処理速度を上げるための前処理について説明を加える。
本実施例では、指定した範囲の全ての電社情報の存在範囲を表示画面上に示す例を説明する。電社情報の存在箇所を示すことは、記事の存在しない部分を選択することを回避するのに役立つが、一方で大量の電社情報に対応する図形を描画処理する必要が生じる。このため、表示を行うたびに全ての電社情報についてデータ読み出し、座標計算、描画処理を繰り返さなくてはならない。この処理は表示用の画像のサイズに対して全体の電社情報の個数が十分に小さければ毎回計算しなおしても無視できるが、全体の電社情報の個数が大きなものになると、毎回の描画時に全ての電社情報を処理し直すことは小さくないオーバーヘッドとなる。
一方、全体の電社情報の存在範囲は軸を指定してしまえば変化しないので、軸の指定に対応したイメージ用メモリ領域に前もって全体の電社情報について描画したものを保存しておくことにより、毎回の表示のオーバーヘッドを削減することができる。
表示情報作成処理(ステップS106):
最初の段階では表示前準備処理で作成された全体の電社情報の分布を表すイメージを表示用イメージバッファに複写する。
表示(ステップS107)
第一表示情報作成手段120は、表示用イメージバッファに格納された電社情報の分布イメージを表示部190へ送り、ディスプレイに表示させる。
領域選択処理(ステップS108):
イメージが表示されたインターフェースを介して(図2の入力装置)、ポインティングデバイスなどで、表示画像中の注目する範囲領域を選択し入力する。選択する領域の指定は、様々な形状の指定が可能であるが、ここでは簡単のために矩形形状での選択が行われるものとして説明する。これにより、選択された範囲領域の指示は2点の座標値の組で表現でき、[指示点1のX座標,指示点1のY座標]−[指示点2のX座標,指示点2のY座標]という4つの数値データの組であらわすことができる(以降、表示選択範囲データと呼ぶ)。表示選択範囲データは、第一表示情報作成手段120に送信され、選択された範囲領域の指定を可視化する(例えば、表示画像上に選択した範囲領域を示す矩形を表示する)。
実社情報表示および電社情報表示(ステップS109、S110):
表示選択範囲データは、第二表示情報作成手段130に送信され、第二表示情報作成手段130は、受け取った表示選択範囲データに含まれる座標値を軸情報管理手段110に問い合わせて、設定してある軸上の値に変換する。例えば[軸1の範囲、軸2の範囲、軸3の範囲]といった指定した軸上の範囲を表す情報の組となる(以降、説明の簡単のために軸上選択範囲データと呼ぶ)。
第二表示情報作成手段130は、軸上選択範囲データからそれぞれの軸が実社情報に対応するか電社情報に対応するかを考慮して範囲情報を予め定められた方法で組み合わせることで、電社情報管理部160、実社情報管理部170のそれぞれに範囲を指定して情報の抽出を要求する。そして、第二表示情報作成手段130は、受け取った電社情報および実社情報を表示部190に送信する。
分布表示指示入力(ステップS111):
電社情報と実社情報を表示すると、第一表示情報作成手段120からの表示を修正する指示を受け付ける。具体的には第一表示情報作成手段120により作成された表示は、電社情報の分布を表すものであり、ここでの分布表示指示部230は、電社情報の一部について選択的に強調表示の指示を入力するものである。入力される指示は、例えば、選択する電社情報に含まれる単語や係り受け関係や一定距離内の関係などにある単語の組などを指定できる。
先の電社情報表示のステップで表示された情報が、軸上選択範囲データに該当する範囲の電社情報集合における頻出、あるいは特徴表現のリスト等である場合には、表示されたリストから選択して入力するという方法でも分布表示指示入力を実現することができる。
分布表示指示部230から入力されたデータに対応して、第一表示情報作成部120での処理が行われる。表示用のイメージバッファに表示前準備処理で作成された全体の電社情報の分布を表すイメージを転送する。その上に分布表示指示部230により指定されている1種類、あるいは数種類の強調表示用のイメージを重ねてイメージバッファに描画する。
分布表示指示部230からの指示は、例えば[強調表示順、強調表示色、強調表示図形、含まれる表現列]といった一組あるいは複数組の情報で実現できる。第一表示情報作成部120は、例えば、分布表示指示部230からの強調表示指示のデータそれぞれに対して、強調表示イメージを作成して表示用イメージバッファに上書きするということを繰り返すことで実現できる。該当する電社情報が無い領域は透過的であるとしておけば、このように強調表示イメージを作成した後でのイメージの上書きという方法をとれるため、強調表示指示ごとに集計等を行って色を変化させたイメージを作成したうえで表示用イメージバッファに重ねる等、実現する処理の選択範囲を広げることができる。
指定された範囲の実社情報を表示する際には、実社情報記憶手段150内の情報から抽出するが、このステップにおいて、実社情報収集部210を介して外部の情報を収集して実社情報記憶手段150に情報を追加してもよい。また、自動的に追加するだけでなく、外部から収集した情報を実社推定情報入力手段を介してユーザが実社情報記憶手段に追加してもよい。
終了判定(ステップS112):
ここで、終了を指示された場合には処理を終了する。
次に、本実施例の情報抽出支援装置における具体的な例を説明する。図6は、架空の製品A、B、C、Dに関する架空のコミュニティについての電社情報の分布表示の例を示したものである。横方向に実社軸として投稿の日付(200X年4月、5月、6月)を、縦方向に電社軸として投稿時刻を24時間表示で示してある。例示の架空のシナリオは、新しいバージョンを出荷したばかりの製品Bについて調べるものである。
図6に示すように、図5のレイアウトに従い、製品Aユーザサイトにおける電社情報の分布が表示され、1つの黒いドットが1つの投稿メッセージを示している。同様に、製品BユーザML、製品CユーザML、製品Dユーザサイトでの投稿メッセージの分布が表示されている。
図6の左よりの矩形領域に特徴的な分布がみえるため、表示操作手段180によりその領域P1を指定し、電社情報と実社情報を画面の右側に表示している。右上には、指定された領域、すなわち実社軸の[製品BユーザML、200X年5月13日−200X年5月18日、7時〜19時]に該当する電社情報に含まれる頻度の多い単語をリスト化して表示している。ここには、「製品B、バージョン3、キャンペーン、割引、連携・・・」の単語がリストされている。
その下方には、実社軸の範囲[200X年5月13日−200X年5月18日]に対応して、実社情報記憶手段150に格納されていたイベント情報がリスト化して表示されている。ここには、「製品Bバージョン3アップグレード、キャンペーン開始、製品Bバージョン3発表、製品Cアップデートモジュールの配布」がリストされている。
これらのリスト表示を参照して、製品Bの新バージョンの新機能として他のソフトとの連携機能の評判が高いのではないかと想定し、「連携」という表現を含むものについて強調表示を指示した結果の仮想的な例が図7である。「連携」の指示は、分布表示指示部230によって行われる。
「連携」は、例えば赤いドットや形状の異なる記号によって強調されることで、図6の分布表示から識別される。図7に示される「連携」の強調表示をみると、「連携」は発表当初ほどの反響は起きておらず、他の製品Aや製品Bでも同じような分布が見られることが分かる。
そこで、図7に示したように、製品CユーザMLの表示領域で領域P2の選択を行うと、表計算ソフトZや無料セミナーの関連が伺われる。そこで次に「表計算ソフトZ」を含む表現について強調表示を指示する。その架空の結果表示が図8である。
図8では表計算ソフトZについては製品A、製品Cに関しては頻出しているが、製品Bでは早く収束している。この違いを調べるために、製品Bで表計算ソフトZに関する電社情報が減った領域P3を選択してみると、製品Bでの新機能である「簡易表入力」などの関心が高まり、表計算ソフトZについての関心が減っているらしいことが分かる。この先の調査では、「簡易表入力」機能が表計算ソフトZとの連携を上回る好評を得ているのか(差別化ポイントとして考えられるのか)、それとも表計算ソフトZとの連携に問題があったのかという観点に絞った調査をはじめることができる。
図6ないし図8は、架空の例であるが、この例のシナリオのように電社情報と実社情報を関連付けて表示することで、分析の切り口を発見し、選び出すことを支援することができる。
なお、表示を行う形式は、図6に示した2次元の散布図的なものに限定されるものではなく、例えば図9に示すように、3次元的に表示してもよいし、対話的に回転、移動、拡縮などの操作を行える表示でもよい。図9は、図6と同等の製品Bと製品Cに関する架空のデータについて、第3軸を設けて3次元的に表示した例である。第3軸は、例えばユーザの層別といった電社情報であったり、販売店の地域番号や店舗番号といった実社情報であってもよい。
上記実施例では、実社軸に日付情報を用いた。現実の出来事などと対応付けるには、この日付情報が有用であるが、地域コミュニティなどを分析対象にした場合には、現社軸に地域の種類などを用いることもできる。
また、電社軸にはサイトと投稿時間の例を示した。投稿時間で範囲指定することは、発信している人の生活リズムがあることを利用した情報の選定と関係している。例えば、昼間に家からインターネット上の会話を行っている人もいれば、会社の仕事が終わった後で夜に参加するのが日課になっている人もいる。生活リズムが全ての人で固定化していることは仮定していないが、おおまかな傾向があることは仮定することができるであろう。
また、コミュニティ自体のリズムも存在し、例えば午後に投稿が多く、明け方には投稿がほとんどなくなるといったパターンはしばしば観測される。このようなコミュニティでは例えば、明け方の時間帯までめずらしく投稿が分布しているところでは、単に投稿数が増えたという状況とは異なり、なんらかの議論が白熱していることを推測することができる。時間軸上でのリズムの乱れにはしばしば何らかの出来事が起因しており、現実社会での出来事との関連の確認を用意にしたことでフレーミングなどの現象を排除して現実社会での出来事に関する白熱した議論を効率的に探し出すことができる。
また、電社軸に時間を例としたのは、完全に重なることが少なく、かつ、数値情報であるために軸に対応付けることが簡単であり、分布イメージを作成することが容易であるためでもある。電社軸としては他に発信者のIDや所属団体などの発信者の属性や、ネットワーク分析などの技術を用いて発信者を分類した値などを用いることができるが、個々のメッセージに対応する表示が重なり合わないようばらつきのある属性が望ましい。この重なり合わないという目的のために複数の属性、例えば発信者のIDを数値の上位桁に時刻を下位桁になるように組み合わせるなど、組み合わせて算出したものを用いてもよい。
また、例では製品への評判などの情報に着目した例を挙げたが、企業や公共機関などに関して記述された情報、地方自治体や政治家など行政にかかわる対象に関して記述された情報等、現実世界に対象が存在する、製品以外に関する情報であっても同様に用いることができる。
次に、本発明の第2の実施例について説明する。図10は、第2の実施例に係る情報抽出支援装置の機能ブロック図であり、ここには、参照情報を記憶する参照情報記憶手段300が追加されている。参照情報記憶手段300には、電社情報の内容と比較するための単語、文、または文章等のドキュメントが格納されている。
軸指定手段100により、電社情報の内容をマッピングするような電社軸が選択されると、第一表示情報作成手段120は、電社情報を、参照情報記憶手段300に格納された参照情報と比較し、参照情報に類似する電社情報の分布表示を行う。例えば、参照情報が、「劣悪、悪い、よくない」のような単語を含んでいるとき、これらの単語を含む電社情報は類似するものとして、その分布が表示される。この場合、第二軸には、実社軸として例えば日時や地域情報や店舗情報が選択される。あるいは、第一表示情報作成手段120は、電社情報に含まれる単語の特徴ベクトルと参照情報に含まれる単語の特徴ベクトルを比較して、両者が類似するか否かを判定し、類似するものを電社軸上にマッピングするようにしてもよい。
第2の実施例によれば、電社情報の内容を、参照情報との比較を用いて実社軸との関係においてマッピングすることで、例えば競合する製品と比べるという始点で実社情報との関連において、情報の抽出を行うことができる。
ここまでの実施例においては、現実社会の関心事をイベントとしたために主に実社軸を月日ととり、電子社会側での分布が広がる値を用いるために電社軸に時刻をとった例を用いて説明を行った。しかし、調べたい現実社会のことがらや電子社会の情報の中の手がかりとしたい情報の種類により、この組み合わせは変更することができる。
たとえば、多くの店舗や商品を持つ企業が、その評判を知りたい場合には、実社軸側に店舗や商品の名前や識別子をあらかじめ定めた方法で線状に軸として配置することができ、電社軸側には評判として注目する表現をあらかじめ定めた方法で線状に軸として配置することができる。実社軸側に設定する商品や識別子は実社情報候補調整部により抽出方法が判定・用意される。たとえば、入手されている電子情報が各店舗や商品について議論されているコミュニティからのものであれば、実社情報候補調整部は個々のデータの属性情報を用いて各データの実社軸側の値と関連付ける情報抽出手段を電社情報管理手段に用意させる。また、たとえば入手されている電子情報が一般の口コミサイトや多くのブログからの情報である場合のように個々のデータの属性情報として商品や店舗に関する情報が得られることは期待しにくいような場合には、実社情報候補調整部は実社情報管理手段から、管理している店舗や商品の名前やニックネームあるいはURIなどテキスト中からその商品に関する記述であることを識別できる情報を得て、電社情報管理手段に渡しテキスト中を検索させるなどして、実社軸側の値と関連付ける情報抽出手段を用意させる。収集している電子情報にテキスト以外、たとえば画像や音声が含まれており、実社情報管理手段が画像や音声に関する識別子を備え、電社情報管理手段が画像や音声に関する情報検索手段あるいは含む/含まないの判定手段を備えることでテキスト以外の情報に対しても同様の機能を実現することができる。
また別に、実社軸を大学・学科・授業に取り、電社軸側にコミュニティの投稿に関する発言数やネットワーク分析の指標を用いて値を算出したものを用いることも一例として挙げることができる。このように軸をとり、例えば大学の授業について意見を交わすコミュニティから情報を入手し、各投稿に対し実社軸としての値に投稿が関している大学・学科・授業を、電社軸側として投稿者の中心性や媒介中心性の値を用いることができる。このように軸をとることで、例えばある授業に関しての投稿に多くの人が反応している(中心性が比較的高く投稿数の少ないという電社軸に対応するデータ)や、投稿されてもほとんど反応がない授業(電社軸側の値が中心性の値や媒介中心性の値が低くいことを示す領域にしかない授業)とその具体的な情報を簡単に参照することができるようになる。また例えば、別途うわさなどの情報を入手していた場合にはその対象に関する電子情報を容易に選び出すことができるし、表示における分布の特徴に類似する部分をもつ対象を容易に選択することができる。これにより、分布の特徴を手がかりとして似た状況にある別の対象を探索することも容易にできるようになる。さらに、このようにして探索する際に、現実社会側の情報を適時参照しながら探索することも容易になっているため、現実社会における出来事に関して仮説の立案・確認を行ないながら情報を探っていくことも効率的に行なえる。この例の場合、電社軸側の値は通常のネットワーク分析の方法で算出が可能であり、実社軸側の値は前記の例と同様に属性として得られる場合もテキストなどの情報を照らして得られる場合もあり得る。
また、電社軸、実社軸が離散的な値となる場合には、表示する各データに対してそれぞれ揺らぎとなる値を加味して配置を決めてもよい。例えば、実社軸を店舗としてとった場合には実社軸側の値は離散的になるので、他の店舗に対応する領域に入らない範囲で乱数などを用いて配置位置の揺らぎを与えてもよい。また、この揺らぎを単なる乱数であたえるのでなく、各データの属性値や内容から抽出した値から算出したものを用いてもよい。こうすることで、軸の値が離散的であっても、データが重なり合うことを防いで量の多い/少ないという状態を視覚的に示すことができる。
以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
本発明は、インターネット上のいくつもの電子コミュニティやblogなどに公開された意見や情報から、調査・分析の関心の対象に関する現実社会での出来事などと関係する情報を効率的に抽出することを支援することにより、市場調査やユーザ満足度調査など様々な調査において利用できる。
本発明の実施例に係る情報抽出支援装置の構成を示す図である。 本実施例に係る情報抽出支援装置の機能的なブロック図である。 本実施例に係る情報抽出支援装置の動作フローチャートである。 軸指定手段における軸の設定入力画面を示す図である。 図4の設定入力に対応するレイアウト例を示す図である。 本実施例の情報抽出支援装置による、架空の製品A、B、C、Dに関する架空のコミュニティについての電社情報の分布表示の例を示す図である。 「連携」の強調表示を指示した結果を示す分布表示の例である。 「表計算ソフトZ」の強調表示を指示した結果を示す分布表示の例である。 電社情報を3次元空間において分布表示する例である。 本発明の第2の実施例に係る情報抽出支援装置の機能ブロック図である。
符号の説明
100:軸指定手段 110:軸情報管理手段
112:電社軸管理部 114:実社軸管理部
120:第一表示情報作成手段 130:第二表示情報作成手段
140:電社情報記憶手段 150:実社情報記憶手段
160:電社情報管理手段 170:実社情報管理手段
180:表示操作手段 190:表示部
200:電社情報収集部 210:実社情報収集部
220:実社推定情報入力部 230:分布表示指示部
300:参照情報記憶手段

Claims (12)

  1. 現実社会での情報を収集する第1の情報収集手段と、
    電子社会での情報を収集する第2の情報収集手段と、
    第1の情報収集手段により収集された現実社会の情報の属性を選択する第1の選択手段と、
    第1の選択手段によって選択された属性を第1の軸上に対応付ける第1の対応付け手段と、
    第2の情報収集手段により収集された電子社会の情報の属性を選択する第2の選択手段と、
    第2の選択手段によって選択された属性を第2の軸上に対応付ける第2の対応付け手段と、
    第1および第2の対応付け手段によって対応付けされた第1および第2の軸空間に少なくとも電子社会の情報の分布を表示する表示手段と、
    を有する情報抽出支援装置。
  2. 前記第1の選択手段は、第1の情報収集手段により収集された現実社会の情報に含まれる複数の属性から属性候補を抽出し、抽出した属性候補の中から属性を選択する、請求項1に記載の情報抽出支援装置。
  3. 前記第2の選択手段は、第2の情報収集手段により収集された電子社会の情報に含まれる複数の属性から属性候補を抽出し、抽出した属性候補の中から属性を選択する、請求項1に記載の情報抽出支援装置。
  4. 第1および第2の情報収集手段は、現実情報の情報および電子社会の情報を検索する第1および第2の検索手段を含み、第1の選択手段または第2の選択手段は、前記第1および第2の検索手段の共通の検索項目から属性候補を選択する、請求項1ないし3いずれか1つに記載の情報抽出支援装置。
  5. 前記電子社会の情報の分布は、電子社会におけるメッセージまたは言葉の出現状態を表す、請求項1に記載の情報抽出支援装置。
  6. 前記表示手段によって表示された電子社会の情報の分布から範囲を指定し、当該範囲に含まれる電子社会の情報から第1の選択手段によって選択された属性を持つ軸の情報を抽出し、抽出した第1の選択手段によって選択された属性を持つ軸の情報を表示する第2の表示手段を含む、請求項1に記載の情報抽出支援装置。
  7. 前記第1の選択手段によって選択された属性を持つ軸の情報に基づいて第1の情報収集手段から抽出した情報を表示する第3の表示手段を含む、請求項1に記載の情報抽出支援装置。
  8. 情報抽出支援装置はさらに、前記表示手段により表示された分布において強調すべき表示を指示するための分布表示指示手段を含む、請求項1に記載の情報抽出支援装置。
  9. 前記分布表示指示手段は、電子社会の情報に含まれる電子化された文または文章の表現を指示する、請求項6に記載の情報抽出支援装置。
  10. 電子社会の情報の属性は、電子情報の発信時刻、または編集時刻などの時刻情報の軸を含み、現実社会の情報の属性は、日、週、月などの日の整数倍の単位からなる時間軸を含む、請求項1に記載の情報抽出支援装置。
  11. 電子社会の情報の属性は、電子情報が予め定められた参照情報と比較したときの類似度を含む、請求項1に記載の情報抽出支援装置。
  12. 現実社会での情報を収集する第1の情報収集ステップと、
    電子社会での情報を収集する第2の情報収集ステップと、
    第1の情報収集手段により収集された現実社会の情報の属性を選択する第1の選択ステップと、
    第1の選択ステップにより選択された属性を第1の軸上に対応付けるステップと、
    第1の選択手段によって選択された属性に基づき前記電子社会の情報の属性を選択する第2の選択ステップと、
    第2の選択ステップにより選択された属性を第2の軸上に対応付けるステップと、
    対応付けられた第1および第2の軸空間に少なくとも電子社会の情報の分布を表示する表示ステップと、
    を有する情報抽出支援プログラム。
JP2006165230A 2006-06-14 2006-06-14 情報抽出支援装置 Pending JP2007334603A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006165230A JP2007334603A (ja) 2006-06-14 2006-06-14 情報抽出支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006165230A JP2007334603A (ja) 2006-06-14 2006-06-14 情報抽出支援装置

Publications (1)

Publication Number Publication Date
JP2007334603A true JP2007334603A (ja) 2007-12-27

Family

ID=38934033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006165230A Pending JP2007334603A (ja) 2006-06-14 2006-06-14 情報抽出支援装置

Country Status (1)

Country Link
JP (1) JP2007334603A (ja)

Similar Documents

Publication Publication Date Title
US12079845B1 (en) System and method for targeting information based on message content in a reply
US11861150B2 (en) Methods and apparatus for managing and exchanging information using information objects
US6128617A (en) Data display software with actions and links integrated with information
JP5302759B2 (ja) 文書作成支援装置、文書作成支援方法及び文書作成支援プログラム
US20070073581A1 (en) System and method for delivering pay for performance advertising in conjunction with distributed media content
US10375006B2 (en) Systems and methods of redactive messaging
KR100521297B1 (ko) 커뮤니케이션 시스템 및 기록 매체
JP5001846B2 (ja) ニュース見出しを管理するためのシステム及び方法
US9002725B1 (en) System and method for targeting information based on message content
CN101194277A (zh) 在基于对话的电子邮件系统中显示对话
CN102521733A (zh) 在基于对话的电子邮件系统中标注对话和消息
JP2007148963A (ja) 営業支援方法、営業支援システム及びコンピュータプログラム
KR101007613B1 (ko) 키워드를 이용한 데이터의 등록, 검색을 지원하는 장치
JP2021124914A (ja) 情報処理システム、情報処理方法
JP2000242655A (ja) 情報処理装置、情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000298690A (ja) 見込み顧客リスト作成システム及び情報提供システム
KR100443151B1 (ko) 컴퓨터 네트워크를 이용하여 지리정보시스템을 포함한건축물의 종합정보를 제공하는 방법 및 그 장치
JP2004054799A (ja) ネットワーク電子手帳およびスケジュール予約方法
JP2007334603A (ja) 情報抽出支援装置
Shimazu et al. Interdisciplinary contents management using 5W1H interface for metadata
Grasso et al. Extending the services and the accessibility of community networks
EP1188128A1 (en) System and method for publishing documents
KR20070110953A (ko) 개인화된 포털서비스 제공시스템
JP7325139B1 (ja) 情報提供装置、電子端末及びシステム
JP2002123476A (ja) 電子メールデータ管理システム