JP2009277098A - イベント抽出装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents

イベント抽出装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JP2009277098A
JP2009277098A JP2008128855A JP2008128855A JP2009277098A JP 2009277098 A JP2009277098 A JP 2009277098A JP 2008128855 A JP2008128855 A JP 2008128855A JP 2008128855 A JP2008128855 A JP 2008128855A JP 2009277098 A JP2009277098 A JP 2009277098A
Authority
JP
Japan
Prior art keywords
page
article
exchange
characteristic
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008128855A
Other languages
English (en)
Inventor
Akihiro Miyata
章裕 宮田
Harumi Kawashima
晴美 川島
Hidenori Okuda
英範 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008128855A priority Critical patent/JP2009277098A/ja
Publication of JP2009277098A publication Critical patent/JP2009277098A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】オンライン個人サイトに含まれる記事ページの中から非日常的なイベントに言及していると思われる記事ページを発見する。
【解決手段】本発明は、記事ページから該ブログサイトに対してコメント、トラックバックを含む交流行動を起こした交流相手の読者IDを抽出し、読者ID毎に、当該交流相手がコメント、トラックバックを含む交流行動を起こした記事ページに対する、コメントやトラックバックを含む交流行動の属性として抽出し、記事ページに対する交流行動の各属性の値と、サイト作成者と読者IDの交流相手との親密度を求め、該属性の値と該親密度から集約スコアを求め、記事ページ毎の集約スコアを読み出して、該集約スコアに基づいて、交流相手が他の記事ページとは異なるような特徴的な交流行動を行っている記事ページを抽出して出力する。
【選択図】図1

Description

本発明は、イベント抽出装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、交流相手のプロファイリングによるコミュニケーション型オンライン個人サイトからの非日常イベントを抽出するためのイベント抽出装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に関する。
詳しくは、コミュニケーション型オンライン個人サイトサービスの作者と交流を行った読者の行動をプロファイリングし、この情報に基づいてオンライン個人サイトに含まれる記事ページ中から非日常的な内容を含むと思われるものを抽出するためのイベント抽出装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に関する。
コミュニケーション型オンライン個人サイト(以下、「オンライン個人サイト」と記す)とは、個人がネットワーク上に保持しているサイトであり、サイト内に定常的に記事ページを追加することができ、各記事ページを基点として読者と交流を行うことができるものである。具体的な事例としては、Webログ(以下、「ブログ」と記す)やソーシャルネットワーキングサービス(以下、「SNS」と記す)がある。ブログやSNSでは、個人がインターネット上、あるいは、イントラネット上等に自身のサイトを公開することができ、任意のタイミングで記事ページをサイトに追加することができ、当該サイト作成者と読者は各記事ページにコメント送信等を行うことができる。
ブログやSNS等のオンライン個人サイトを利用するユーザは増加の一途を辿っている。オンライン個人サイトのユーザは、日々起こった出来事を日記形式で書き溜めることが多い。そして、このように書き溜められた記事ページ群の中から、非日常的なイベントについて言及したものを発見することへの需要が高まっている。
このような需要に応えるための一手法として、テキスト検索技術がある。例えば、「結婚」や「優勝」といった非日常的なイベントと思われる言葉を検索語とし、該検索語を含む記事ページを文字列一致判定技術で発見することができる。検索の精度を向上させるために、記事ページが含む単語を形態素解析技術で抽出して各単語のTF・IDF値を事前に求めておき、検索語のTF・IDF値が高い記事ページを優先的に発見することもできる。
一方、ブログやSNS等のオンライン個人サイトでは、コメント等を用いて該サイト作成者と読者が交流を行うことができ、この交流の様子を分析することで非日常的な記事ページを発見する手法もある。例えば、記事ページの種類によって読者の交流行動が異なることに着目し、短期間に大勢の読者が交流行動を起こした記事を発見することができる。このような記事では非日常的なイベントが言及されている可能性がある(例えば、非特許文献1参照)。
宮田章裕、松岡寿延、岡野真一、山田節夫、石打智美、荒川則泰、加藤泰久「反響特性分析を利用したブログ記事検索手法」、情報処理学会論文誌、Vol. 48, No. 12, pp. 4041-4050, 2007年12月
しかしながら、上記従来の技術では、オンライン個人サイトの中から非日常的なイベントに言及した記事ページを十分に発見することができない。
前述のとおり、「結婚」や「優勝」等の非日常的なイベントを表すと思われる単語のリストを事前に作成しておき、テキスト検索技術を用いてこのような単語を用いて検索を行えば、非日常的なイベントに言及している記事ページを発見できると思われる。しかし、この方法によって発見できる非日常的なイベントは、世間一般に非日常とみなされているものに制限されるという欠点がある。
例えば、学校のクラスで異性から一番人気の高いAさんがおり、クラス内では目立たない存在のB君が「Aさんと映画を観に行った」という内容の記事ページを作成したとする。このとき、同じクラスの友人にとってはAさんとB君がデートしたことは衝撃的な事実であり、これについて述べた記事は非日常的なイベントに言及した記事ページであると判断できる。しかし、これはこのクラスを知っている人であれば非日常だと判断できるが、「映画を観に行く」という文章には何ら非日常的と思われる単語が含まれていないため、事前に非日常的なイベントを表すと思われる単語のリストを作成してテキスト検索を行う手法では、非日常的であると判断することができない。
さらに、世間一般には非日常的なイベントと思われる「結婚」という単語も、結婚式場に勤務する人におっては日常的なイベントであるため、この単語を含む記事ページがこの人にとって非日常的なイベントについて言及しているとは限らない。
また、前述の非特許文献1の技術のように、オンライン個人サイト作成者と読者の交流に着目する手法であれば、前述の事例のようにAさんとB君がデートしたことに言及する記事ページには短期間のうちにクラスメイトの多くがコメント送信等を行うと思われるので、このような記事には非日常的なイベントが言及されていると判断できる可能性がある。しかし、その読者の全てがB君の背景を知っているとは限らない。例えば、B君が「Aさんと映画を観に行った」と記述した記事ページに対して、B君のことを全く知らない読者はAさんとB君のデートが衝撃的であることを知る由もなく、「この映画は面白かったですか?」というコメントをすることも考えられる。コメント数等を用いて記事ページが非日常的なイベントに言及しているかどうか判断するのであれば、コメント送信者が該サイト作成者のことをどの程度把握しているか考慮しなければ高い分析精度は実現できない。
本発明は、上記の点に鑑みなされたもので、オンライン個人サイトに含まれる記事ページの中から非日常的なイベントに言及していると思われる記事ページを発見することが可能なイベント抽出装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、コミュニケーション型オンライン個人サイトに含まれる記事ページ中から非日常的なイベントを抽出するイベント抽出装置であって、
分析対象のブログサイトに含まれる記事ページが入力されると、該記事ページから該ブログサイトに対してコメント、トラックバックを含む交流行動を起こした交流相手の読者IDを抽出し、記憶手段17に格納する交流相手抽出手12段と、
記憶手段17に格納されている読者ID毎に、当該交流相手がコメント、トラックバックを含む交流行動を起こした記事ページに対する、コメントやトラックバックを含む交流行動の属性として抽出し、記憶手段17に格納する交流相手分析手段13と、
記憶手段17に格納されている記事ページに対する交流行動の各属性の値と、サイト作成者と読者IDの交流相手との親密度を求め、該属性の値と該親密度から集約スコアを求め、記憶手段15に格納するページ情報分析手段15と、
記憶手段15から記事ページ毎の集約スコアを読み出して、該集約スコアに基づいて、交流相手が他の記事ページとは異なるような特徴的な交流行動を行っている記事ページを抽出して出力する特徴的ページ抽出手段16と、を有する。
また、本発明(請求項2)は、特徴的ページ抽出手段16において、
一定の条件を満たす集約スコアを持つ記事ページを特徴的なページとして抽出する手段を含む。
また、本発明(請求項3)は、特徴的ページ抽出手段16において、
記事ページの各集約スコアを素性とみなし、既存の機械学習手法を用いて特徴的な素性を持つ記事ページを特徴的なページとして抽出する手段を含む。
図2は、本発明の原理を説明するための図である。
本発明(請求項4)は、コミュニケーション型オンライン個人サイトに含まれる記事ページ中から非日常的なイベントを抽出するイベント抽出方法であって、
交流相手抽出手段が、分析対象のブログサイトに含まれる記事ページが入力されると(ステップ1)、該記事ページから該ブログサイトに対してコメント、トラックバックを含む交流行動を起こした交流相手の読者IDを抽出し、記憶手段に格納する交流相手抽出ステップ(ステップ2)と、
交流相手分析手段が、記憶手段に格納されている読者ID毎に、当該交流相手がコメント、トラックバックを含む交流行動を起こした記事ページに対する、コメントやトラックバックを含む交流行動の属性として抽出し、記憶手段に格納する交流相手分析ステップ(ステップ3)と、
ページ情報分析手段が、記憶手段に格納されている記事ページに対する交流行動の各属性の値と、サイト作成者と読者IDの交流相手との親密度を求め、該属性の値と該親密度から集約スコアを求め、記憶手段に格納するページ情報分析ステップ(ステップ4)と、
特徴的ページ抽出手段が、記憶手段から記事ページ毎の集約スコアを読み出して、該集約スコアに基づいて、交流相手が他の記事ページとは異なるような特徴的な交流行動を行っている記事ページを抽出して(ステップ5)出力する(ステップ6)特徴的ページ抽出ステップと、を行う。
また、本発明(請求項5)は、特徴的ページ抽出ステップにおいて、
一定の条件を満たす集約スコアを持つ記事ページを特徴的なページとして抽出する。
また、本発明(請求項6)は、特徴的ページ抽出ステップにおいて、
記事ページの各集約スコアを素性とみなし、既存の機械学習手法を用いて特徴的な素性を持つ記事ページを特徴的なページとして抽出する。
本発明(請求項7)は、請求項1乃至3のいずれか1項記載のイベント抽出装置を構成する各手段としてコンピュータを機能させるためのイベント抽出プログラムである。
本発明(請求項8)は、請求項7記載のイベント抽出プログラムを格納したコンピュータ読み取り可能な記録媒体である。
上述のように本発明では、コミュニケーション型オンライン個人サイトでは、当該サイト作成者が非日常的なイベントに言及する記事ページを作成すると、読者が普段と異なる交流行動(大勢が短期間でコメントを送信する等)をとることに着目し、分析対象記事ページが他の記事ページとは異なる交流行動が行われているかどうかを分析する。さらに、当該サイト作成者の非日常的なイベントに関する記事ページへの各読者の反応の様子は、各読者と該作成者との過去の付き合い方の影響を受ける点に着目し、読者毎に過去の交流履歴をプロファイリングし、この情報に基づいて交流行動のスコアを評価している。
本発明によれば、オンライン個人サイトに含まれる記事ページの中から非日常的なイベントに言及していると思われる記事ページを発見することが可能になる。特に、当該サイト作成者のバックグラウンドを知る人でなければ分からないような、当該サイト作成者にとっての非日常的なイベントを検出することができる。これにより、以下のような効果を奏する。
・当該サイト作成者が、自身が作成した膨大な量の記事ページの中から、非日常的なイベントに言及したものを発見することが容易になり、自分の経験を再確認し易くなる。
・当該サイトを初めて訪れた読者が、当該サイト作成者が過去に経験した非日常的イベントを発見することが容易になり、これにより、当該作成者の履歴を短時間で把握できたり、当該作成者との交流開始時の話のネタになったりするので、当該サイトと読者はコミュニケーションを開始しやすくなる。
また、社内SNS等の組織内オンライン個人サイトサービスの管理者が、該サービス内のユーザが経験した非日常的なイベントを素早く発見できるようになり、当該組織において発生した重要事項・重大な問題を把握しやすくなる。
・本発明は、言語情報に依存しない分析手法であるため、未知の文書表現や外国語で記述された記事ページも分析できる。また、言語情報を利用する手法と衝突するものではないため、言語情報を利用する手法と併用することが可能である。
以下、図面と共に本発明の実施の形態を説明する。
以下では、オンライン個人ページの一例としてブログサイトを用いて説明する。多くの場合、ブログサイトは1人のユーザによって運営されており、ブログサイト内にはユーザが作成した記事ページが、作成時間情報と共に保存されている。また、記事ページに対する交流手段としては、コメント・トラックバック・ソーシャルブックマーク登録・リンク等があるが、ここでは、ブログサイトだけでなく、SNSやBBS等でも利用できることが多い「コメント」を事例にして説明を行う。ブログサイトでは、ブログサイト作成者がコメント受信拒否設定を行っていない限り、読者はブログサイトに含まれる各記事ページに自らのハンドルネーム等の読者IDを付与したコメントを送信することができる。
図3は、本発明の一実施の形態における装置構成を示す。
同図に示す装置は、分析対象入力部10、交流情報分析部11、非日常イベント抽出部14、抽出結果出力部18、データ記憶部17から構成される。
分析対象入力部10は、分析対象であるブログサイトに関する情報が入力される部分である。具体的には、文書パーサ等の一般装置を用いて、分析対象ブログサイトに含まれる記事ページURL、本文部分、交流部分(この場合はコメント送信者のハンドルネーム、コメント本文等を含むコメント部分)が分離され、一意のIDで関連付けられて、図4のような構造でデータ記録部17(一般装置であり、磁気ディスク、あるいはメモリ上のデータ格納領域により実現される)に格納される。入力される記事ページは、当該ブログサイトに含まれるすべて、あるいは、任意の条件(「指定期間内に作成された」「特定キーワードを含む」、「コメントが1つ以上ある」等)を1つ以上満たすものが対象となる。
交流情報分析部11は、分析対象ブログサイト内で発生した交流に関する情報を分析する部分であり、交流相手抽出部12と交流相手分析部13からなる。
交流相手抽出部12は、分析対象ブログサイト内でブログサイト作成者と交流を行った読者を抽出する部分である。具体的には、まず、分析対象入力部10から入力された分析対象ブログサイト内に含まれる各記事の交流部分をデータ記録部17から取得する。次に、文書パーサ等の一般装置を用いて、各交流部分からコメントを送信した読者のID(ハンドルネーム等)を抽出し、重複するIDを取り除いて図5のようなリスト構造でデータ記録部17に格納する。このとき、文献「Roland Hui, Akihiro Miyata, Harumi Kawashima, Hidenori Okuda: Blog Owner Detection :User Reference Matrix. The 70th National Convention of IPSJ, March, 2008」の技術等を用いてブログサイト作成者のIDを特定し、これを読者のIDに含めないようにしても構わない。また、ハンドルネームが異なっていても、何らかの手段を用いてそれらのIDが同一人物のものと特定できる場合は、それらを1つのIDに集約しても構わない。
交流相手分析部13は、各交流相手が当該ブログサイト内のどの記事ページでどのような交流を行っているかを取得・分析し、図6のような構造でデータ記録部17に格納する。まず、交流相手抽出部12で作成した該ブログサイト内に含まれる記事ページに対してコメントを送信した読者のIDをデータ記録部17から取得する。次に、分析対象入力部10から入力された分析対象ブログサイト内に含まれる各記事のIDと交流部分をデータ記録部17から取得する。そして、文書パーサ等の一般装置を用いて、読者毎に、交流行動を起こした記事ページIDと交流行動の情報を走査し、図6のように集計する。交流情報にはコメント数、総コメント文字数、総コメント絵文字数、トラックバック数等があるが、図6では、読者ID毎に、交流した記事ページID、及び交流属性としてコメント数、総コメント文字数のみを抽出する例が示されている。
非日常イベント抽出部14は、分析対象ブログサイト内に含まれる記事ページの中で、非日常的な出来事に言及していると思われる記事ページを抽出する部分であり、ページ情報分析部15と特徴的ページ抽出部16からなる。
ページ情報分析部15は、分析対象ブログサイト内に含まれる各記事ページの交流情報の分析を行う。具体的には図7に示す処理を行う。
図7は、本発明の一実施の形態におけるページ情報分析部の動作のフローチャートである。
同図において、[A−1]の処理では、ブログの読者が当該ブログサイト内に含まれるすべて、あるいは、特定条件を満たす記事ページで起こした交流行動の情報に基づいて、当該読者と当該ブログサイト作成者の親密度を求める。本実施の形態では、図7の処理Aを含むループにおいて、分析対象になっている記事ページ、及び、この記事ページよりも過去に作成されたすべての記事ページ上で当該読者が起こした交流行動を利用して親密度を求めることとする。この例では、当該読者がコメントを送信した記事ページ数が多いほど、当該読者と当該ブログ作成者の親密度が高くなるものとする。例えば、当該読者がコメントを送信した記事ページ数をそのまま親密度とする。より具体的には、読者「Alice」が当該記事ページよりも過去に作成された記事ページに送信したコメント数の合計が「100」であった場合は、親密度を「100」とする。また、当該読者が送信したコメント文字数が多いほど、親密度を高めても構わないし、その他の指標(トラックバック数等)を鑑みても構わない。
同図の[A−2]の処理では、当該読者が当該記事ページ上で起こした交流行動の各属性の値と、該読者と該ブログ作成者の親密度を利用して、該読者が起こした交流行動のスコアを算出する。ここでは、当該読者が当該記事ページ上で起こした交流行動の各属性の値と、当該読者と当該作成者の親密度を掛け合わせたものをスコアとするものとする。例えば、読者「Alice」と作成者の親密度が「100」であり、当該記事ページに対して「Alice」が送信したコメント数が「3」、総コメント文字数が「50」である場合は、図8のように交流行動の各属性のスコアが算出される。
分析対象記事ページで交流行動を起こしている各読者に対する処理のループの後の、[処理B]では、当該記事ページ上で交流行動を起こした全読者の交流行動のスコアを集約する。ここでは、図9のように、全読者のスコアを足し合わせたものを集約スコアとし、メモリ(図示せず)に格納する。または、当該作成者との親密度が閾値を超えた読者のスコアを足し合わせても構わないし、任意のアルゴリズムに基づいて全読者の交流行動のスコアが集約されても構わない。
図7の処理によって求められ、メモリ(図示せず)に格納された、分析対象ブログサイトに含まれる各記事ページに対して交流行動の集約スコアは、図10のような形式でデータ記録部17に格納される。
特徴的ページ抽出部16は、分析対象ブログサイトに含まれる各記事ページの交流行動を集約スコアをデータ記録部17から取得し、何らかの分析を行って特徴的なページを抽出し、図11のような形式でデータ記録部17に格納する。以降、2パターンの分析方法を例示する。
≪パターン1≫
特徴的ページ抽出部16は、特定の集約スコアに着目し、一定条件を満たす集約スコアを持つ記事ページを特徴的な記事ページと判定する方法がある。以下に示すのは、「総コメント文字数の集約スコア」に着目した場合の処理例である。
(1)まず、分析対象ブログサイトに含まれる記事ページの総コメント文字数の集約スコアをデータ記録部17から読み出して、平均値を求める。
(2)次に、当該集約スコアの標準偏差を求める。
(3)そして、総コメント文字数の集約スコアが、例えば、(1)で求めた平均値から(2)で求めた標準偏差の3倍以上離れている記事を特徴的な記事ページと判定する。
当該平均値が「10000」、当該標準偏差が「10000」であった場合、図10の例であれば、記事ページID2の記事が持つ総コメント文字数の集約スコア(60000)は、当該平均値から当該標準偏差の3倍以上離れているので、特徴的な記事ページと判定されることになる。このとき、当該記事ページがどの程度特徴的であるかを示すスコアを付与してもよく、例えば、当該集約スコアと当該平均値の差に比例して大きくなるようなスコア算出方法がある。
なお、この例では、総コメント文字数が集約スコアのみに着目したが、複数の集約スコアに着目してもよく、その場合、各集約スコアの重みを設定し、重みが大きい集約スコアが平均値から大きく外れているものほど、より特徴的な記事ページであると判定してもよい。
≪パターン2≫
特徴的ページ抽出部16は、記事ページが持つ各集約スコアを素性と見做し、クラスタリング等の機械学習手法を用いて特徴的な素性を持つ記事ページを発見し、これを特徴的な記事ページと判定する方法がある。以下に示すのは、「コメント数の集約スコア」と「総コメント文字数の集約スコア」を素性とみなしてクラスタリングを行う場合の処理例である。
まず、分析対象ブログサイトに含まれる記事ページの「記事ページID」をクラスタリング対象の識別子、図10に示す「コメント数の集約スコア」と「総コメント文字数の集約スコア」をクラスタリングに用いる素性に設定し、クラスタリングを行う。このとき、クラスタリングのパラメータ(k−means法のクラスタリングであればk値等)を任意に変動させ、図12のクラスタXのようにサイズが規定値以下(例えば、全記事ページの1%以下等)のクラスタが出現したら、このクラスタに含まれる記事ページを特徴的な記事ページと判定する。サイズが規定値以下のクラスタが複数出現する場合は、それらすべてを特徴的であると判定しても構わないし、サイズが最も小さいものを特徴的であると判定しても構わない。
または、図13のように、全クラスタの中心座標を求め、サイズが規定値以上のクラスタの中心座標から、より中心座標が離れている方の「サイズが規定値以下のクラスタ」(図13のクラスタY)に含まれる記事がより特徴的であると判定してもよい。
抽出結果出力部18は、特徴的ページ抽出部16により特徴的と判定された記事ページの記事ページIDをデータ記録部17から取得し、パーソナルコンピュータのディスプレイ等の一般装置に対して出力する。このとき、記事ページIDと関連付けられている記事ページURL、本文部分、交流部分やコメント数等をデータ記録部17から併せて取得して、記事ページIDと関連付けて出力してもよい。
なお、上記の図3に示す各構成要素の動作をプログラムとして構築し、イベント抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ブログのようなインターネット上の個人サイトの分析技術に適用可能である。
本発明の原理構成図である。 本発明の原理を説明するための図である。 本発明の一実施の形態における装置構成図である。 本発明の一実施の形態における入力情報の例である。 本発明の一実施の形態におけるコメント送信者IDの例である。 本発明の一実施の形態における交流情報の例である。 本発明の一実施の形態におけるページ情報分析部の動作のフローチャートである。 本発明の一実施の形態における交流行動の各属性のスコアの例である。 本発明の一実施の形態における集約スコアの例である。 本発明の一実施の形態における交流行動の集約スコアの例である。 本発明の一実施の形態における特徴的ページ抽出部で抽出された特徴的な記事ページIDの例である。 本発明の一実施の形態におけるクラスタリングの例(その1)である。 本発明の一実施の形態におけるクラスタリングの例(その2)である。
符号の説明
10 分析対象入力部
11 交流情報分析部
12 交流相手抽出手段、交流相手抽出部
13 交流相手分析手段、交流相手分析部
14 非日常イベント抽出部
15 ページ情報分析手段、ページ情報分析部
16 特徴的ページ抽出手段、特徴的ページ抽出部
17 記憶手段、データ記憶部
18 抽出結果出力部

Claims (8)

  1. コミュニケーション型オンライン個人サイトに含まれる記事ページ中から非日常的なイベントを抽出するイベント抽出装置であって、
    分析対象のブログサイトに含まれる記事ページが入力されると、該記事ページから該ブログサイトに対してコメント、トラックバックを含む交流行動を起こした交流相手の読者IDを抽出し、記憶手段に格納する交流相手抽出手段と、
    前記記憶手段に格納されている前記読者ID毎に、当該交流相手がコメント、トラックバックを含む交流行動を起こした記事ページに対する、コメントやトラックバックを含む交流行動の属性として抽出し、前記記憶手段に格納する交流相手分析手段と、
    前記記憶手段に格納されている前記記事ページに対する交流行動の各属性の値と、前記サイト作成者と前記読者IDの交流相手との親密度を求め、該属性の値と該親密度から集約スコアを求め、前記記憶手段に格納するページ情報分析手段と、
    前記記憶手段から前記記事ページ毎の前記集約スコアを読み出して、該集約スコアに基づいて、前記交流相手が他の記事ページとは異なるような特徴的な交流行動を行っている記事ページを抽出して出力する特徴的ページ抽出手段と、
    を有することを特徴とするイベント抽出装置。
  2. 前記特徴的ページ抽出手段は、
    一定の条件を満たす集約スコアを持つ記事ページを特徴的なページとして抽出する手段を含む
    請求項1記載のイベント抽出装置。
  3. 前記特徴的ページ抽出手段は、
    前記記事ページの各集約スコアを素性とみなし、既存の機械学習手法を用いて特徴的な素性を持つ記事ページを特徴的なページとして抽出する手段を含む
    請求項1記載のイベント抽出装置。
  4. コミュニケーション型オンライン個人サイトに含まれる記事ページ中から非日常的なイベントを抽出するイベント抽出方法であって、
    交流相手抽出手段が、分析対象のブログサイトに含まれる記事ページが入力されると、該記事ページから該ブログサイトに対してコメント、トラックバックを含む交流行動を起こした交流相手の読者IDを抽出し、記憶手段に格納する交流相手抽出ステップと、
    交流相手分析手段が、前記記憶手段に格納されている前記読者ID毎に、当該交流相手がコメント、トラックバックを含む交流行動を起こした記事ページに対する、コメントやトラックバックを含む交流行動の属性として抽出し、記憶手段に格納する交流相手分析ステップと、
    ページ情報分析手段が、前記記憶手段に格納されている前記記事ページに対する交流行動の各属性の値と、前記サイト作成者と前記読者IDの交流相手との親密度を求め、該属性の値と該親密度から集約スコアを求め、前記記憶手段に格納するページ情報分析ステップと、
    特徴的ページ抽出手段が、前記記憶手段から前記記事ページ毎の前記集約スコアを読み出して、該集約スコアに基づいて、前記交流相手が他の記事ページとは異なるような特徴的な交流行動を行っている記事ページを抽出して出力する特徴的ページ抽出ステップと、
    を行うことを特徴とするイベント抽出方法。
  5. 前記特徴的ページ抽出ステップにおいて、
    一定の条件を満たす集約スコアを持つ記事ページを特徴的なページとして抽出する
    請求項4記載のイベント抽出方法。
  6. 前記特徴的ページ抽出ステップにおいて、
    前記記事ページの各集約スコアを素性とみなし、既存の機械学習手法を用いて特徴的な素性を持つ記事ページを特徴的なページとして抽出する
    請求項4記載のイベント抽出方法。
  7. 請求項1乃至3のいずれか1項記載のイベント抽出装置を構成する各手段としてコンピュータを機能させるためのイベント抽出プログラム。
  8. 請求項7記載のイベント抽出プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2008128855A 2008-05-15 2008-05-15 イベント抽出装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 Pending JP2009277098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008128855A JP2009277098A (ja) 2008-05-15 2008-05-15 イベント抽出装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008128855A JP2009277098A (ja) 2008-05-15 2008-05-15 イベント抽出装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2009277098A true JP2009277098A (ja) 2009-11-26

Family

ID=41442452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008128855A Pending JP2009277098A (ja) 2008-05-15 2008-05-15 イベント抽出装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2009277098A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014029635A (ja) * 2012-07-31 2014-02-13 Konami Digital Entertainment Co Ltd 管理装置、サービス提供システム、管理装置の制御方法、及び、管理装置のプログラム
JP2014053839A (ja) * 2012-09-10 2014-03-20 Casio Comput Co Ltd 情報通知装置およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014029635A (ja) * 2012-07-31 2014-02-13 Konami Digital Entertainment Co Ltd 管理装置、サービス提供システム、管理装置の制御方法、及び、管理装置のプログラム
JP2014053839A (ja) * 2012-09-10 2014-03-20 Casio Comput Co Ltd 情報通知装置およびプログラム

Similar Documents

Publication Publication Date Title
KR102170929B1 (ko) 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체
Shen et al. Linking named entities in tweets with knowledge base via user interest modeling
Dewi et al. Social media web scraping using social media developers API and regex
Krstajic et al. Getting there first: Real-time detection of real-world incidents on Twitter
JP2017142796A (ja) 情報の特定及び抽出
CN103177052A (zh) 基于相关度的聚合社交馈送
Sawhney et al. Suicide ideation detection via social and temporal user representations using hyperbolic learning
CN103324665A (zh) 一种基于微博的热点信息提取的方法和装置
JP6252283B2 (ja) キュレーションされたコンテンツを評価する方法及びシステム
WO2014107441A2 (en) Social media impact assessment
CN110929145A (zh) 舆情分析方法、装置、计算机装置及存储介质
JP2014149713A (ja) 画像評価装置
JPWO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
Zhao et al. Text sentiment analysis algorithm optimization and platform development in social network
Gao et al. Topology imbalance and relation inauthenticity aware hierarchical graph attention networks for fake news detection
US20170235835A1 (en) Information identification and extraction
JP6699031B2 (ja) モデル学習方法、説明文評価方法、及び装置
JP2010072727A (ja) 履歴処理装置、履歴処理方法および履歴処理プログラム
JP2009211280A (ja) オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2014016916A (ja) ソーシャル・グラフの拡張方法、プログラム及びシステム
JP2009277098A (ja) イベント抽出装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
Hamasaki et al. Social Infobox: collaborative knowledge construction by social property tagging
JP6070951B2 (ja) 評価の分析を支援する装置及び方法
WO2015125209A1 (ja) 情報構造化システム及び情報構造化方法