JP2009026133A - 文書合致度合い評価方法 - Google Patents

文書合致度合い評価方法 Download PDF

Info

Publication number
JP2009026133A
JP2009026133A JP2007189761A JP2007189761A JP2009026133A JP 2009026133 A JP2009026133 A JP 2009026133A JP 2007189761 A JP2007189761 A JP 2007189761A JP 2007189761 A JP2007189761 A JP 2007189761A JP 2009026133 A JP2009026133 A JP 2009026133A
Authority
JP
Japan
Prior art keywords
document
group
player
unit
document group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007189761A
Other languages
English (en)
Inventor
Toshio Ikeda
利夫 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Electric Power Co Inc
Original Assignee
Kansai Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Electric Power Co Inc filed Critical Kansai Electric Power Co Inc
Priority to JP2007189761A priority Critical patent/JP2009026133A/ja
Publication of JP2009026133A publication Critical patent/JP2009026133A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ブログサイト等において互いに共感できる人物同士を特定することを可能とするために、文書同士の合致度合いを的確に評価することができる方法を提供する。
【解決手段】ブログサイトに存在する日記文書(共感先文書)群と、この日記文書に対するコメント文書(共感元文書)群とを文書解析する。共感先文書群又は共感元文書群に使用されている単語等の出現頻度と該単語等を含む日記文書又はコメント文書の数とから、その単語等の共感先文書群中又は共感元文書群中における重みをそれぞれ求める。そして、共感先文書群と共感元文書群とにおいて共通して使用されている共通単語等を特定し、共感先文書群と共感元文書群とに含まれる単語等の重み総計に対する、前記共通単語等が占める重みと、それ以外の単語等が占める重みとの割合から、共感先文書群と共感元文書群との合致度合いを評価する。
【選択図】図1

Description

本発明は、例えばブログサイト等において、互いに共感できる人物をマッチングさせることを可能とするための、文書合致度合い評価方法に関する。
昨今、インターネット上のブログサイト、SNS(Social Networking Service)等の利用者は爆発的に増加している。ブログ等のユーザの多くは、日記文書の公開を通して他人の共感を得ること、乃至は日記文書を閲覧して自分が共感できる他人と出会うことを望んでいると言うことができる。ブログ等は、日常問題や時事問題に関する体験、感想、意見等を含む日記文書等の投稿、その日記文書に対するコメント文書の投稿の機会を通して、人々に共感や安心感、問題解決の糸口を提供するといったような、社会的貢献の役割をいまや担っていると言える。
ところで、ブログサイト等において自分が共感できる他人を見つけるためには、何らかの検索を行う必要がある。このような検索の従来手法としては、無作為検索、カテゴリ検索、属性・キーワード検索を挙げることができる。無作為検索は、投稿日や投稿者を指定する程度の検索を行い手動でWebページを閲覧する手法である。カテゴリ検索は、「子育て」、「ボランティア」といったテーマ分類を活用して検索する手法である。属性・キーワード検索は、投稿者の年齢や性別、キーワードを利用して検索する手法である。ブログサイトのキーワード検索の手法として、例えば特許文献1を例示することができる。
特開2007−11651号公報
ところで、ブロガーの大量発生により、ブログサイトやSNSは巨大化する傾向があり、現に数百万人規模の会員を擁するサイトも存在する。このような巨大サイトにおいて、従来の検索手法に依拠して検索を行っても、ユーザは、自分が共感する人物を効率良く、また精度良く見つけ出すのは困難である。すなわち、無作為検索やカテゴリ検索では、検索がラフすぎてなかなか共感先を見つけられない。一方キーワード検索では、適切なキーワードを選択し複雑な検索設定を行わないと、的確な検索結果は得られない。或いは、複雑な検索設定を行ったとしても、ヒット件数が膨大になることがある。
このように、なかなか自分が共感できる人物が発見できない結果、ブログサイトの日記文書に対してのコメント投稿が停滞し、サイトの活性度が低下する懸念がある。サイト運営者においてこのような事態は望ましいことではない。
そこで、共感人物同士を特定するために、既にブログサイト上で文書交信の実績をもつ者が作成した文書、つまり実際に共感している者によって現に作成された文書を解析することで、共感度を数値判定するための判定式の類を導出し、この判定式にまだ出会っていない者同士の作成に係る文書を当てはめて、その者同士の共感度を自動判定する手法が考えられる。このような手法を取る場合、抽出された文書について合致度合いを的確に評価できる方法の確立が必要となる。
本発明は、上記の問題点に鑑みてなされたもので、ブログサイト等において互いに共感できる人物同士を特定することを可能とするために、文書同士の合致度合いを的確に評価することができる方法を提供することを目的とする。
本発明の一の局面に係る文書合致度合い評価方法は、第1カテゴリに属する複数の単位文書からなる第1文書群と、前記第1カテゴリとは異なる第2カテゴリに属する複数の単位文書からなる第2文書群とを抽出し、前記第1文書群の各単位文書を文書解析して、第1文書群に使用されている所定の文字区分の単位で、該文字区分の出現頻度と該文字区分を含む単位文書の数とから、その文字区分の第1文書群中における重みをそれぞれ求め、前記第2文書群の各単位文書を文書解析して、第2文書群に使用されている所定の文字区分の単位で、該文字区分の出現頻度と該文字区分を含む単位文書の数とから、その文字区分の第2文書群中における重みをそれぞれ求め、前記第1文書群と前記第2文書群とにおいて共通して使用されている共通文字区分を特定し、前記第1文書群と前記第2文書群とに含まれる文字区分の重み総計に対する、前記共通文字区分が占める重みと、それ以外の文字区分が占める重みとの割合から、前記第1文書群と第2文書群との合致度合いを評価することを特徴とする(請求項1)。
この方法によれば、第1文書群及び第2文書群について、所定の文字区分の出現頻度と該文字区分を含む単位文書の数とから、その文字区分の各文書群中における重みが求められる。このため、例えば「私」、「ありがとう」というような、どの文書にも出現するような一般的な単語(文字区分)には前記重みを小さく、本来的に特徴性の高い単語等には前記重みを大きく設定することが可能となる。また、一つの単位文書で重みを評価するのではなく、単位文書の集合体としての文書群で重みの評価を行うので、本来的に特徴性の高い単語等が小さい重みに評価されてしまうことを抑止することができる。そして、このようにして付与された重みを用い、共通文字区分が占める重み割合に基づいて第1文書群と第2文書群との合致度合いが評価されるので、特徴性の高い単語等の合致性などを考慮に入れて的確に文書群同士の合致度合いを評価することができる。
上記構成において、前記第1文書群又は第2文書群中における各文字区分の重みをwとするとき、該重みwは、前記文字区分の出現頻度をtf、前記文字区分を含む単位文書の数をdf、単位文書の総数をNとするとき、次の(1)式で求めるようにすることができる(請求項2)。
w=tf×(N/df) ・・・(1)
この構成によれば、上述の一般的な単語には比較的小さい重み数値を与え、特徴性の高い単語等には比較的大きい重み数値を与えることができる。従って、簡単な算術式にて、的確に各文字区分へ重み数値を付与することができる。
上記構成において、前記文字区分が、品詞単位の文字列であることが望ましい(請求項3)。この構成によれば、例えば名詞、動詞、形容詞、形容動詞、感嘆詞などの単位で合致度合いを評価でき、汎用の文書解析手法を援用して本発明に係る評価を容易に実行できるようになる。
上記構成において、前記単位文書が、一つの話題単位で作成された一又は複数の文章からなることが望ましい(請求項4)。一般に、一つの話題に関わる文章で使用された特徴性をもつ単語等は、他の話題に関わる文章で使用されることは少ない。一方、一般的な単語は、話題の如何に拘わらず、文章に登場すると言える。このことから、一つの話題に関わる文章(群)を前記単位文書と扱うことで、一層的確に重みを付与することができる。
上記構成において、前記第1文書群及び第2文書群は、インターネット上の特定のウエブサイトから選定されることが望ましい(請求項5)。また、前記ウエブサイトがブログサイトであって、前記単位文書が一つのブログ文書、若しくは一つのブログ文書に対するコメント文書であることが望ましい(請求項6)。
本発明は、異なるカテゴリに属する文書データ(例えば異なるプレイヤにより作成された文書データ)が存在すれば適用可能であり、例えば電子メール上の文書や、音声データのテキスト化文書にも適用可能である。しかし、本発明の適用用途としては、多数人の文書が存在するインターネット上の特定のウエブサイト文書に適用することが好適である。特にブログサイトには、交信文書が多数存在し、また「共感してほしいプレイヤ」、「共感する人を見つけたいプレイヤ」が多数潜在していると考えられることから、特に好ましい用途である。
上記構成において、前記ブログサイトに対する前記ブログ文書の書き込み数、書き込み文字数及び書き込み時間、若しくは前記コメント文書の書き込み数、書き込み文字数及び書き込み時間を含むデータから得られる第1変数群を導出し、前記第1文書群と前記第2文書群との合致度合いのデータから得られる第2変数群を導出し、前記第1変数群を目的変数とし、前記第2変数群を説明変数として、多変量解析を行うことが望ましい(請求項7)。この構成によれば、多変量解析を行うことにより、共感度を数値判定するための判定式を求めることが可能となる。
この場合、前記第1変数群を導出するデータは増減データを含み、該増減データには増加方向を統一する前処理が施されることが望ましい(請求項8)。この構成によれば、増減データの増加方向を統一することで、多変量解析の精度を高めることができる。
本発明によれば、異なるカテゴリに属する文書群同士について、両者の合致度合いを的確に評価できる。この評価値を用いて、例えば多変量解析を行い、共感度を評価するための適切な判定式を設定することが可能となる。さらには、当該判定式を適用して、交信実績のない者同士の共感度を評価することができる。従って、ブログサイト等において共感できる可能性のあるプレイヤ同士を的確に抽出し、これらプレイヤに情報を提供することができる。そして、共感者が高効率且つ高精度に検索できることでブログサイト等への投稿を促進でき、サイト運営者にとっても当該サイトが活性化されるという利点がある。
以下、図面に基づいて、本発明の実施形態につき説明する。図1は、本発明に係る文書合致度合い評価方法が適用されるネットワークシステムSのハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、解析処理装置10と、ネットワークシステムSのユーザである第1〜第4プレイヤに保有されている第1〜第4端末装置21〜24と、ブログサイト30(ブログサーバ31)とが、インターネットINを介してデータ通信可能に接続されてなる。
第1〜第4プレイヤは、例えばブログサイト30のサイト運営者に対して自身の属性情報を開示し、ブログサイト30の会員として登録されている者である。第1〜第4プレイヤは、第1〜第4端末装置21〜24を介して、ブログサイト30に日記文書を投稿したり、その日記文書に対してコメント文書を書き込んだり、或いはこれら文書を閲覧したりすることが可能とされている。第1〜第4端末装置21〜24は、代表的には、インターネット接続されたパーソナルコンピュータ、携帯電話機、携帯情報端末機等である。
なお、ここでは第1〜第4プレイヤのみを例示しているが、実際は多数のプレイヤが存在している。また、以下の説明では、第1プレイヤと第2プレイヤとが、相互間で文書交信の実績をもつプレイヤ同士(既に出会っている人々)であり、第3プレイヤと第4プレイヤとが、相互間で文書交信の実績をもたないプレイヤ同士(まだ出会っていない人々)であるものとする。
解析処理装置10は、相互間で文書交信の実績をもつプレイヤの属性、基本情報及びこれらプレイヤ間で作成されブログサイト30に投稿された文書を文書解析して得られたデータに基づいて多変量解析行い、その結果として得られた判定式を用いて、まだ交信実績のないプレイヤ同士の共感度を評価するための装置である。この解析処理装置10は、例えば上記解析処理等を行うCPU(中央演算処理装置)を備えた大型のコンピュータ装置である。
図2は、解析処理装置10の機能構成を示す機能ブロック図である。前記CPU等は、共感度判定を行うべくプログラミングされたソフトウェアが実行されることで、図2に示す機能部を具備するように動作する。解析処理装置10は、機能的に、選定部11、解析部12、評価部13、表示部14及び記憶部15を備える。この解析処理装置10には、会員サーバ100及びブログサーバ31が接続されている。
会員サーバ100は、ブログサイト30に会員登録されているプレイヤの属性情報(氏名、住所、アドレス、年齢、性別、興味関心事など)が蓄積されたサーバである。ブログサーバ31は、ブログサイト30に書き込まれた文書の文書データ、その文書の投稿日時、投稿者等の各種データを蓄積するサーバである。
解析処理装置10の選定部11は、解析すべき対象を特定するための機能部であり、プレイヤ選定部111と、データ抽出部112とを備える。プレイヤ選定部111は、ブログサーバ31の記録に基づいて、相互間で文書交信の実績をもつ第1プレイヤ及び第2プレイヤと、文書交信の実績をもたない第3プレイヤ及び第4プレイヤとを選定する。
データ抽出部112は、会員サーバ100及びブログサーバ31から、プレイヤ選定部111で選定されたプレイヤに関連付けて、解析パラメータとして利用されるデータを抽出する処理を行う。データ抽出部112は、プレイヤの属性情報や、ブログサイト30への書き込みに関する基本情報から、数値化可能なデータを抽出する。具体的にはデータ抽出部112は、会員サーバ100から、例えば属性合致率というパラメータを算出するために第1〜第4プレイヤの属性情報を抽出する。また、ブログサーバ31から、例えば書き込み回数というパラメータを算出するために、第1プレイヤと第2プレイヤとの間で交信された文書の数を抽出する。
解析部12は、多変量解析に用いられる各種の数量化された変数を生成する機能部である。解析部12は、文書抽出部121と、文書解析部122と、パラメータ算出部123とを含む。
文書抽出部121は、選定部11において、相互間で文書交信の実績をもつプレイヤとして選定された第1プレイヤ及び第2プレイヤに関し、第1プレイヤ又は第2プレイヤにより作成された(すなわち、第1端末装置21又は第2端末装置22を通してブログサイト30に書き込まれた;以下同じ)第1文書と、第2プレイヤ又は第1プレイヤにより作成され、前記第1文書に呼応して作成された第2文書をブログサーバ31から抽出する。
ここで、第1文書は、例えば日記文書(ブログ文書)であり、ブログサイト30においてプレイヤの共感を引きつける「共感先」となる文書である。また、第2文書は、例えばブログ公開された日記文書に対して書き込まれたコメント文書であり、プレイヤが共感を示した「共感元」の文書である。なお、コメント文書に対する再コメント文書が投稿された場合は、コメント文書が「共感先文書」、再コメント文書が「共感元文書」となる。
また、文書抽出部121は、選定部11において、相互間で文書交信の実績をもたないプレイヤとして選定された第3プレイヤ及び第4プレイヤに関し、第3プレイヤ又は第4プレイヤにより作成された第3文書と、第3プレイヤ又は第4プレイヤにより作成され、任意のプレイヤの作成に係る文書に呼応して作成された第4文書とを抽出する。ここで、第3文書は、例えば第3プレイヤ又は第4プレイヤの作成に係る日記文書(共感先文書)である。また、第4文書は、例えば任意のプレイヤの日記文書に対して投稿された、第3プレイヤ又は第4プレイヤの作成に係るコメント文書(共感元文書)である。
文書解析部122は、第1文書〜第4文書を文書解析して所定のデータを抽出する処理を行う。具体的には文書解析部122は、第1文書〜第4文書の正規化処理、文書構造解析処理、及び文書構造解析の結果に基づくデータ抽出処理などを行う。
正規化処理は、文書構造解析を正常に行い得るようにするために、第1文書〜第4文書から解析に不要な文字、記号等を削除すると共に、全角・半角文字の統一等を行う処理である。文書構造解析処理は、正規化処理後の第1文書〜第4文書に対しそれぞれ、例えば形態素解析を実施して文書を単語単位に分割する処理、構文解析処理を実施して単語間の係り受け(名詞と動詞との関係付け等)を特定する処理などである。このような文書構造解析処理のため、文書解析部122は、同義語及び表記の揺れを吸収するシソーラス(同義語辞書)を活用する。前記データ抽出処理は、例えばプレイヤ毎に共感先文書、共感元文書の単位で品詞の出現頻度や係り受けの出現頻度を求める等、数値化できるデータを抽出する処理である。なお、上記正規化処理の際に文書に含まれる顔文字や絵文字を抽出し、これらの出現頻度やカテゴリをデータ化するようにしても良い。
パラメータ算出部123は、データ抽出部112にてプレイヤの属性情報や、ブログサイト30への書き込みに関する基本情報から抽出されたデータ、文書解析部122での解析結果から得られたデータをベースにして、プレイヤのペア間における相関性を示す候補となりうる複数のパラメータ(数量化された複数の変数)を算出する。本実施形態では、前記ペアは、第1プレイヤと第2プレイヤとのペア、第3プレイヤと第4プレイヤとのペアである。
文書解析結果から得られるパラメータの例としては、文書中の品詞(名詞、形容詞、動詞)出現頻度の合致率、同一名詞の登場率、係り受けの合致率、文書意図(「〜しない」、「〜できる」のような意図句)の合致率等を例示することができる。なお、本実施形態では、上記の品詞単位の文字列(文字区分)の出現頻度と、その文字区分を含む単位文書の数とから、当該文字区分の重みを考慮して合致率が評価される。この点については、後記で詳述する。
また、属性情報や基本情報から得られるパラメータの例としては、年齢、性別、趣味等の属性合致率、日記文書やコメント文書の書き込み文字平均数、書き込み回数、書き込み応答時間(例えば、日記文書が投稿された後にコメントが投稿されるまでの時間間隔)等を例示することができる。一般に、書き込み文字平均数、回数が多いほど、書き込み応答時間が短いほど共感度が高いと推定できる。なお、品詞合致率等は、共感度の高さと相関性があるのか否か一概に言えないが、ここでのパラメータとしては相関性の確かさは必須ではなく、何らかの相関性を持ち得るものであれば、パラメータとして採用できる。
評価部13は、パラメータ算出部123にて得られたパラメータを用い、共感度を評価するための判定式の設定、及びこの判定式を用いて共感度を判定する機能部である。評価部13は、ファイル作成部131、多変量解析部132及び共感度判定部133を備えている。
ファイル作成部131は、第1プレイヤ及び第2プレイヤの各共感先文書、共感元文書の解析データに基づいて数量化された複数のパラメータ、第1プレイヤ及び第2プレイヤの属性情報や基本情報から得られたパラメータを含む、多変量解析のためのファイルを作成する。また、ファイル作成部131は、第3プレイヤ及び第4プレイヤの各共感先文書、共感元文書の解析データに基づいて数量化された複数のパラメータ、第3プレイヤ及び第4プレイヤの属性情報や基本情報から得られたパラメータを含む、パラメータファイルを作成する。
多変量解析部132は、前記第1多変量解析対象ファイルに含まれるパラメータ群を用いて多変量解析を行うことで、第1プレイヤと第2プレイヤとの間の共感度を数値判定するための判定式を設定する。多変量解析の手法としては、例えば重回帰分析、判別分析、数量化I類、数量化II類を採用することができる。
ファイル作成部131は、これらの解析を実行可能とするために、上記パラメータを適宜「目的変数」、「説明変数」として設定する。例えば、上記の書き込み回数等は目的変数として、品詞合致率等は説明変数として設定される。図3に、上記「目的変数」及び「説明変数」の設定例を示しておく。
いずれの多変量解析手法を採用するかについては、判定目的に応じて定めることが望ましい。例えば目的が、「ある人に対して、最も共感できる人を見つける」、「共感度合いを具体的に数値で予測する(例:共感人物ランキングを求める)」といったものである場合は、重回帰分析又は数量化I類が適している。さらに、説明変数が全て数量変数である場合、若しくは数量変数とカテゴリ変数との複合の場合は重回帰分析が、説明変数が全てカテゴリ変数である場合は数量化I類が選定される。一方、目的が「ある人に対して、共感できる人と共感できない人とを判別する」といったものである場合は、判別分析又は数量化II類が適している。さらに、説明変数が全て数量変数である場合、若しくは数量変数とカテゴリ変数との複合の場合は判別分析、説明変数が全てカテゴリ変数である場合は数量化II類が選定される。
このような多変量解析が実行された後、その解析精度が判定される。この解析精度判定は、上記多変量解析手法において一般的に用いられている精度判定手法を採用することができる。例えば重回帰分析の場合は次の通りである。先ず、解析結果から多重共腺性が発生していない目的変数と説明変数の組を抽出し、その組の中から例えばP値(危険率)が一定値以下の組を抽出する。その組の中から、例えば自由度修正済み決定係数が一定値以上で、最も数値が高い組を抽出する。この高数値の組の目的変数を左辺係数、説明変数と切片係数とを右辺係数に設定した回帰式を共感度の判定式と決定する。なお、P値若しくは自由度修正済み決定係数が一定値未満の場合は、低精度結果と判定し、この重回帰分析に基づいた判定式は用いないようにする。
また、判別分析の場合は、同様に解析結果から多重共腺性が発生していない目的変数と説明変数の組を抽出し、その組の中から、ボックスのM検定により、1群と2群との母分散共分散行列が異なっていない組(判別関数を抽出可能な組)を抽出する。その組の中から、判別的中率と相関比とが一定値以上で、最も数値が高い組を抽出する。この高数値の組の目的変数を左辺係数、説明変数と切片係数とを右辺係数に設定した回帰式を共感度の判定式と決定する。なお、ボックスのM検定若しくは判別的中率と相関比とが一定値未満の場合は、低精度結果と判定し、この判別分析に基づいた判定式は用いないようにする。以上のようにして決定された共感度判定式は、記憶部15に格納される。
共感度判定部133は、記憶部15に格納されている共感度判定式に、ファイル作成部131で作成された前記パラメータファイルに含まれるパラメータ群を代入して、第3プレイヤと第4プレイヤとの共感度を数値判定する処理を行う。その判定結果は、表示部14に表示される。或いは、第3、第4端末装置23、24へ向けて送信し、適宜な形態にてブログサイト30の入力画面等に表示させるようにしても良い。
判定結果の具体例は、重回帰分析又は数量化I類が用いられた場合、例えば目的変数が「コメント書き込み回数」である場合、特定のプレイヤのペアが日記文書投稿者とコメント書き込み者の関係になったと仮定したときの書き込み回数が予測数値として得られる。また、このような予測数値に基づき、特定のプレイヤに対しコメントを沢山書いてくれると予想されるプレイヤをランキング表示することも可能である。
また、判別分析又は数量化II類が用いられた場合、例えば目的変数が「第1群=コメント書き込み回数が1回、第2群=コメント書き込み回数が2回以上」と分類されているとき、特定のプレイヤのペアが日記文書投稿者とコメント書き込み者の関係になったと仮定したとき、前記第1群又は第2群のいずれに分類されるかを判定することができる。
以上説明した解析処理装置10の動作を、図4に示すフローチャートに基づいて説明する。大略的には、先ずブログサイト30において既に出会っている人々(共感している人)を対象とした解析処理を行い(ステップS1−0〜S1−12)、多変量解析を行って共感度判定式を求め(ステップS2−1〜S2−4)、次いでブログサイト30においてまだ出会っていない人々を対象とした解析処理を行い(ステップS3−0〜S3−12)、得られた共感度判定式を適用して出会っていない人々のペアについての共感度を判定する(ステップS4−1〜S4−2)というフローとなる。以下、これらのフローを順次説明する。
先ず、プレイヤ選定部111により、ブログサーバ31の記録等に基づいて、相互間で文書交信の実績をもつ第1プレイヤ及び第2プレイヤが選定される(ステップS1−0)。そして、データ抽出部112により、選定された第1プレイヤ及び第2プレイヤについての属性情報が会員サーバ100から抽出される(ステップS1−1、S1−2)。
次に、文書抽出部121により、第1プレイヤと第2プレイヤとの間で交わされた文書をブログサーバ31から抽出し、これら文書を「共感先文書」(第1文書)と「共感元文書」(第2文書)とに分類し、これら文書をプレイヤ毎に集約する処理が行われる(ステップS1−3)。
図5は、ステップS1−3の処理の具体例を模式的に示した図である。いま、ブログサイト30において、図5に示すように、第1プレイヤ又は第2プレイヤにより作成された第1文書と、第2プレイヤ又は第1プレイヤにより作成され、前記第1文書に呼応して作成された第2文書とからなる文書ペアP1〜P4が存在するものとする。
文書ペアP1は、第1プレイヤの日記文書d1と、これに対する第2プレイヤのコメント文書d2とからなるペアである。ここで、日記文書d1及びコメント文書d2は、特許請求の範囲の「単位文書」に相当する。文書ペアP2は、例えば日記文書d1とは別の日に作成された話題の異なる第1プレイヤの日記文書d3と、これに対する第2プレイヤのコメント文書d4とからなるペアである。また、文書ペアP3は、第2プレイヤの日記文書d5と、これに対する第1プレイヤのコメント文書d6とからなるペアである。さらに、文書ペアP4は、第2プレイヤのコメント文書d4と、これに対する第1プレイヤの再コメント文書d7とからなるペアである。つまり文書ペアP1〜P4は、話題単位で区別された一つの文書群である。
この場合、文書ペアP1、P2が第2プレイヤから第1プレイヤに向けた文書群Q1として集約され、また、文書ペアP3、P4が第1プレイヤから第2プレイヤに向けた文書群Q2として集約される。そして、文書群Q1について、日記文書d1、d3が「共感先文書」(特許請求の範囲の「第1カテゴリに属する第1文書群」に相当)、コメント文書d2、d4が「共感元文書」(特許請求の範囲の「第2カテゴリに属する第2文書群」に相当)と分類される。また、文書群Q2について、コメント文書d4及び日記文書d5が「共感先文書」、コメント文書d6及び再コメント文書d7が「共感元文書」と分類されるものである。これらの文書は、分類、集約された状態で記憶部15に一時的に格納される。以後、ここで分類、集約された「共感先文書」、「共感元文書」についての文書解析が行われるのであるが、文書群Q1又は文書群Q2のいずれか、或いは文書群Q1及び文書群Q2の両方の「共感先文書」、「共感元文書」を用いることができる。
この後、「共感先文書」について、文書解析部122により、上述した正規化処理(ステップS1−4)、文書構造解析処理(ステップS1−5)、及びデータ抽出処理(ステップS1−6)が順次実行される。また、データ抽出部112により「共感先文書」のブログサイト30への書き込みに関する基本情報から、数値化可能なデータが抽出される(ステップS1−7)。
同様に、「共感元文書」について、文書解析部122により、正規化処理(ステップS1−8)、文書構造解析処理(ステップS1−9)、及びデータ抽出処理(ステップS1−10)が順次実行される。また、データ抽出部112により「共感元文書」のブログサイト30への書き込みに関する基本情報から、数値化可能なデータが抽出される(ステップS1−11)。
続いて、パラメータ算出部123により、ステップS1−1〜S1−11の処理で得られたデータから、第1プレイヤと第2プレイヤとの間における相関性を示す候補となりうる複数のパラメータが算出される(ステップS1−12)。このパラメータは、図3に例示したような、多変量解析の目的変数又は説明変数となるパラメータである。
以下、図3に例示したパラメータの具体的な算出例について順次説明する。
<目的変数;パラメータy0〜y9>
目的変数は、上述のステップS1−7、S1−11で抽出された基本情報から専ら求められる。コメント書き込み回数(y0)は、共感元の共感先に対するコメント書き込み回数である。図5の例示ならば、文書群Q1における第2プレイヤのコメント文書d2、d4、…の総数である。或いは、文書群Q2における第1プレイヤのコメント文書d6、d7、…の総数である。
コメント書き込み回数[1日記あたり](y1)は、一つの文書ペア(単位文書)あたりに含まれるコメント書き込み回数である。例えば文書群Q1において、1つの文書ペアP1に、第2プレイヤが幾つのコメントを書き込んでいるかに着目した変数である。このパラメータy1は、次式
y1=y0/単位文書の全体数 ・・・(2)
で求めることができる。なお、パラメータy0,y1とも、共感度が高いほど、コメント書き込み回数が多くなるとの仮定に立脚している。
コメント書き込み文字数[平均](y2)、及びコメント書き込み文字数[標準偏差の逆数](y3)は、共感度が高いほど、コメント書き込み文字数が多くなるとの仮定に基づく。パラメータy2は、書き込み回数に対する単純平均で算出される。パラメータy3を求めるのは、書き込み文字数のバラツキを判定要素とするためである。これらパラメータから、書き込み文字数平均が多く、毎回の文字数のバラツキが少ないほど、共感度が高いと仮定している。
前記パラメータy3は、例えば次の(3)式で求めることができる。
y3=log(1/(σ+1)+1) ・・・(3)
但し、σは標準偏差
なお、上記(3)式において、標準偏差σの逆数を取っているのは、パラメータy3の増減方向を、増加方向へ統一するためである。これは、パラメータy3のような増減データにおいて増減方向がまちまちであると、多変量解析の精度が低下する懸念があるからである。また、書き込み回数=1のとき、σ=0とするが、分母が“0”となってしまうことを防止するために(σ+1)としている。さらに、logを取っている(例えば底=e)のは、増加傾向が現実離れした極端な曲線となり得ることから、これを直線に近づけるためである。なお、y3=0を避けるために、さらに“1”を加えるようにしている。
図6は、パラメータy2、y3の算出例を示す模式図である。ここでは、書き込み文字数の変化の、2つの類型として、パターン1とパターン2とを例示している。パターン1は、1回目のコメント文書の書き込み文字数=30文字、2回目=20文字、3回目=10文字、4回目=40文字である。一方、パターン2は、4回とも25文字である。この場合、パラメータy2でパターン1及び2を評価すると、いずれもy2=25となり区別がつかない。しかし、標準偏差σを採用した(3)式に基づくパラメータy3であれば、両者を区別することができる。
コメント書き込み文字数[変化係数:補正あり](y4)、コメント書き込み文字数[変化係数:補正なし](y5)は、時間の経過と共に文字数がどのように変化しているかに着目したパラメータであり、時間の経過と共に文字数が増加する傾向があれば、共感度が高いと仮定している。
図7の例示に基づき、パラメータy4、y5を説明する。図7(a)に示すように、コメント書き込み文字数が均等であるパターンA、書き込み文字数が回数を追う毎に(時間の経過と共に)拡大しているパターンB、及び、書き込み文字数が回数を追う毎に縮小しているパターンCを想定する。この場合、パターンBは、共感先への興味度の増加が書き込み文字数の増加に表れていると評価し得ることから、共感度が高いと推定できる。逆に、パターンCは、だんだん興味度が薄れていると評価し得ることから、共感度が低いと推定できる。
これらパターンA〜Cの変化類型は、図7(b)に示す傾きを持つ。この傾きは実際には、図7(c)に示すように、例えば文字数分布に基づき単回帰分析により求められる。このときの回帰式は、Y=aX+bで表現される。従って、パターンBのような増加傾向をもち、且つ、前記回帰式におけるa(回帰係数)が大きいほど、共感度が高いと推定できる。パラメータy4、y5は、以上の推定に鑑みたものである。
パラメータy4は、減少傾向を示す上記のパターンCを増加傾向に変換する補正(前処理)を行った上で求められるパラメータである。すなわち、回帰係数aがプラスであるかマイナスであるかに応じて、次の(4−1)、(4−2)式で求めることができる。
y4=a+1 但し、a≧0のとき ・・・(4−1)
y4=log(1/(1−a)+1) 但し、a<0のとき ・・・(4−2)
上記(4−2)式に基づけば、パターンCのような減少傾向をもつ傾きならば、(4−1)式で求められるy4に比べ、明らかに小さいプラスの値のy4として導出されるようになる。従って、パターンBとパターンCとを区別することが可能である。なお、(4−2)式において、logを取る(底=e)理由、“1”を加える理由は、上記の(3)式と同じである。
これに対し、コメント書き込み文字数[変化係数:補正なし](y5)は、上記のような補正を考慮しないパラメータであり、
y5=a ・・・(5)
により求められる。
コメント書き込み時間間隔[平均の逆数](y6)、及びコメント書き込み時間間隔[標準偏差の逆数](y7)は、共感度が高いほど、コメント書き込み時間間隔が短いとの仮定に基づく。なお、コメント書き込み時間間隔とは、例えば第1プレイヤの日記文書d1がブログ上にアップされた時刻(図8の丸数字1)から、当該日記文書d1に対する第2プレイヤのコメント文書d2がブログ上にアップされるまでの時刻(図8の丸数字2)を言う。
パラメータy6は、コメント書き込み時間間隔の単純平均(ave)、パラメータy7は、コメント書き込み時間間隔の標準偏差σをそれぞれベースとして、例えば次の(6)式、(7)で求めることができる。
y6=log(1/(ave+1)+1) ・・・(6)
y7=log(1/(σ+1)+1) ・・・(7)
なお、上記(6)式、(7)式において、標準偏差ave、σの逆数を取っているのは、パラメータy6、y7の増減方向を、増加方向へ統一するためである。また、書き込み回数=1のとき、ave、σ=0とするが、分母が“0”となってしまうことを防止するために、それぞれ分母に“1”を加えている。さらに、logを取る(底=e)ことでパラメータy6、y7を直線に近づけるためである。なお、y6=0、y7=0を避けるために、さらに“1”が加えられている。
図8は、パラメータy6、y7の算出例を示す模式図である。ここでは、書き込み時間間隔の変化の、2つの類型として、パターン3とパターン4とを例示している。パターン4は、1回目のコメント文書の書き込み時間間隔=40時間、2回目=10時間、3回目=20時間、4回目=30時間である。一方、パターン4は、4回とも25時間である。この場合、パラメータy6でパターン3及び4を評価すると、いずれもy6=0.0377となり区別がつかない。しかし、標準偏差σを採用したパラメータy7であれば、両者を区別することができる。
コメント書き込み時間間隔[変化係数:補正あり](y8)、コメント書き込み時間間隔[変化係数:補正なし](y9)は、時間の経過と共にコメント書き込み時間間隔がどのように変化しているかに着目したパラメータであり、時間の経過と共に時間間隔が減少する傾向があれば、共感度が高いと仮定している。
図9の例示に基づき、パラメータy8、y9を説明する。図9(a)に示すように、コメント書き込み時間間隔が均等であるパターンD、書き込み時間間隔が回数を追う毎に(時間の経過と共に)拡大しているパターンE、及び、書き込み時間間隔が回数を追う毎に縮小しているパターンFを想定する。この場合、パターンFは、共感先への興味度の増加が書き込み時間間隔の短縮化に表れていると評価し得ることから、共感度が高いと推定できる。逆に、パターンEは、だんだん興味度が薄れていると評価し得ることから、共感度が低いと推定できる。
これらパターンD〜Eの変化類型は、図9(b)に示す傾きを持つ。この傾きは実際には、図9(c)に示すように、例えば時間間隔分布に基づき単回帰分析により求められる。このときの回帰式は、Y=aX+bで表現される。パラメータy8は、減少傾向を示す上記のパターンFを増加傾向に変換する補正(前処理)を行った上で求められるパラメータである。すなわち、回帰係数aがプラスであるかマイナスであるかに応じて、次の(8−1)、(8−2)式で求めることができる。
y8=1−a 但し、a≦0のとき ・・・(8−1)
y8=log(1/(a+1)+1) 但し、a>0のとき ・・・(8−2)
上記(8−1)式に基づけば、パターンFのような減少傾向をもつ傾きならば、(8−2)式で求められるy8に比べ、明らかに小さいプラスの値のy8として導出されるようになる。ここでは、パラメータy4とは逆に、回帰係数aが小さいほど、共感度が高いこととなる。従って、パターンEとパターンFとを区別することが可能である。なお、(8−2)式において、logを取る(底=e)理由、“1”を加える理由は、上記の(3)式と同じである。
これに対し、コメント書き込み文字数[変化係数:補正なし](y9)は、上記のような補正を考慮しないパラメータであり、
y9=a ・・・(9)
により求められる。
<説明変数;パラメータx1〜x20>
説明変数は、共感度に影響を与える要因仮定されるパラメータであって、上述のステップS1−5、S1−6(S1−9、S1−10)の文書構造解析処理、データ抽出処理で得られたデータに基づき専ら求められる。図3では、各種文字区分(係り受け、品詞、顔文字、意図)の合致率をパラメータとして挙げている。この合致率は、例えば、第1プレイヤにより作成された日記文書で使用されている単語等(文字区分)と、第2プレイヤにより作成されたコメント文書で使用されている単語等(文字区分)とがどれだけ合致しているかの合致度合いを計る指標である。本実施形態では、この合致率の算出に際して、単語等の特徴量に応じた重みが与えられる。
かかる合致率パラメータとして、図3では、係り受け合致率(x1)、名詞合致率(x2)、感情品詞合致率(x6)、顔文字合致率(x10)、意図合致率(x14)を挙げている。なお、顔文字合致率は、顔文字自体の合致率でも良いし、顔文字の類型から推定される「うれしい」、「かなしい」、「好き」、「嫌い」というような感情カテゴリの合致率でも良い。また、意図合致率は、例えば上述の「〜しない」、「〜できる」のような意図句から推定される「否定」、「肯定」、「疑問」、「確認」、「推量」などの文書意図の合致率である。
各種の合致率パラメータのうち、名詞合致率を示すパラメータx2を取り上げ、図10〜図12に基づき詳述する。図10は、第1プレイヤにより作成された第1文書群(共感先文書;主に日記文書)において使用された各名詞に対する重み比率qの付与例を示す表形式の図である。一方、図11は、第2プレイヤにより作成された第2文書群(共感元文書;主にコメント文書)において使用された各名詞に対する重み比率rの付与例を示す表形式の図である。
図10、図11において、「名詞」の欄に列挙されている単語は、例えば上述の文書群Q1の中で第1プレイヤ及び第2プレイヤが作成した文書中で出現する単語であって、名詞に区分されるものである。第1プレイヤ及び第2プレイヤの双方に使用されている合致名詞には○印が付与されている。頻度tfは、その名詞の文書群Q1中における累積出現回数を示す。出現語を含む話題数dfは、その名詞を含む文書セット(例えば上述の文書ペアP1〜P4)の数である。なお、ここでは文書セットの総数、つまり全話題数N=100としている。
そして、上記頻度tf、出現語を含む話題数dfを用い、N/dfを求めて、各名詞の文書群Q1中における特徴性を評価している。また、単純にN/dfで評価したのでは数値が先鋭化するので、次式(10)により特徴量idfを求めている。
idf=log(N/df)+1 ・・・(10)
このような特徴量idfを求めた上で、第1プレイヤ及び第2プレイヤの頻度tfを用いて、次式(11)により、各名詞の重みwを導出している。
w=tf×idf ・・・(11)
この(11)式で求められる重みwは、限られた話題の中で高い頻度で出現する単語(名詞)ほど、その数値が高くなる。この(11)式は、上掲の(1)式に相当する。
上記特徴量idfの考え方は次の通りである。例えば「今日」、「私」、「ありがとう」というような単語は、どの文書にも出現するような一般的な単語である。このような汎用単語は、たとえ出現頻度が多くても、文書中での特徴性は低いと考えられる。これに対し、地名等の固有名詞や、「プルトニウム」といった専門用語は、通常は限られた話題の中にしか登場しないといえる。このため、文書中での特徴性は高いと評価できる。なお、特徴量idfを文書群Q1の単位で評価するのは、単位文書(文書ペアP1〜P4)ごとに評価してしまうと、一つの話題で括られる文章中に例えば上記の「プルトニウム」のような単語が頻出した場合、本来は特徴語であるにも拘わらず、低い重みに評価されてしまうからである。
つまり、話題が変われば、「プルトニウム」のような特徴的な語は使われることは少ないが、一般的な単語は話題が変わっても出現する。このことから、話題単位で特徴量idfを考えることで、本来、特徴のある単語は特徴性が高く、一般語の特徴性は低く評価(重み付け)することができる。
図10、図11における第1プレイヤの重み比率q、第2プレイヤの重み比率rは、それぞれ求められた重みwの合計を百分率化したものである。これにより、一つの文書群Q1中において、第1プレイヤ(共感先文書)及び第2プレイヤ(共感元文書)により使用した名詞について、それぞれ重みが求められたこととなる。さらに、第1プレイヤ及び第2プレイヤの双方が使用している共通名詞である「今日」、「成功」、「温水器」が、重みの総計に対して占める割合が、それぞれ第1プレイヤ及び第2プレイヤについて判明する。図10、図11の例では、重み比率の第1プレイヤの合致分合計は0.43、第2プレイヤの合致分合計は0.60である。この合致分合計の大きさは、両者の共感度に大きな影響を与える可能性を持っていると言える。
図12は、図10、図11に基づく名詞合致率uの算出例を示す表形式の図である。ここでは、まず第1プレイヤの重み比率qと第2プレイヤの重み比率rとから、平均重み比率sを算出している。そして、次の(12)式により、第1プレイヤと第2プレイヤとの共感度指標として、共感先文書と共感元文書との合致量tを導出している。
t=s×α ・・・(12)
但し、αは補正係数
図12の合致率uは、合致量tの合計を百分率化したものである。この結果、第1プレイヤと第2プレイヤとの名詞合致率は、両者間の共通名詞である「今日」、「成功」、「温水器」の合致率uの合計である“0.683”と評価されることとなる。この数値が、説明変数のパラメータx2として用いられる。なお、係り受け合致率(x1)、感情品詞合致率(x6)、顔文字合致率(x10)及び意図合致率(x14)も、図10〜図12と同様にして求めることができる。なお、顔文字合致率(x10)及び意図合致率(x14)については、上記特徴量idfは、(10)式に依らずに、定数が設定される。
名詞合致率[全体](x3)、感情品詞合致率[全体](x7)は、例えば文書群Q1中に登場する全品詞に対する、名詞又は感情品詞の出現率の合致度合いを表すパラメータである。なお、感情品詞とは、動詞、形容詞、形容動詞、感嘆詞をいう。
図13は、パラメータx3の算出例を示す模式図である。この場合、例えば第1プレイヤの日記文書51(共感先文書)及び第2プレイヤのコメント文書52(共感元文書)について、文書解析部122により求められた名詞の出現頻度のデータが使用される。かかるデータは、日記文書51の形態素解析処理(ステップS1−5)の後、全品詞の出現個数に対する名詞の出現個数の比を求める処理(ステップS1−6)を実行することで導出できる。同様に、コメント文書52についても、形態素解析処理(ステップS1−9)の後、全品詞の出現個数に対する名詞の出現個数の比を求める処理(ステップS1−10)を実行することで導出できる。
図13では、日記文書51について、名詞の出現個数=4000個、全品詞の出現個数=10000個であって、名詞の出現率=40%というデータが取得され、コメント文書52について、名詞の出現個数=2500個、全品詞の出現個数=5000個であって、名詞の出現率=50%というデータが取得されている例を示している。このようなデータから、例えば、
名詞合致率[全体]=(40%+50%)/2=45%
としてパラメータx3を算出することができる。パラメータx7も同様である。
名詞合致量(x4)及び名詞合致率[標準偏差](x5)は、図13に示した名詞の出現率の平均と、標準偏差とから算出されるパラメータである。感情品詞合致量(x8)及び感情品詞合致率[標準偏差](x9)も同様である。
図13に示した例を用いると、名詞の出現率の平均aは上述の通り45%であり、標準偏差σは0.071となる。これらのデータを用いて、例えば名詞合致量を示すパラメータx4は、次の(13)式により求めることができる。
x4=a×log(1/(σ+0.1)+1) ・・・(13)
上記(13)式において、分母に0.1を加えているのは、分母が“0”とならないようにするためであり、また、1を加えているのはx4=0を避けるためである。なお、パラメータx5は、標準偏差σをそのまま用いることができる。感情品詞についてのパラメータx8、x9についても、(13)式と同様にして求めることができる。
顔文字合致率[全体](x11)は、例えば文書群Q1中の共感先文書に登場する顔文字の総数と、共感先文書における全文章数とから求められる顔文字出現率と、同様にして求められる共感元文書における顔文字出現率との合致度合いを表すパラメータである。
図14は、パラメータx11の算出例を示す模式図である。この場合、例えば第1プレイヤの日記文書(共感先文書)及び第2プレイヤのコメント文書(共感元文書)について、それぞれ顔文字の出現個数が求められる。ここでは、第1プレイヤ=1000個、第2プレイヤ=1500個として例示している。さらに、共感先文書及び共感元文書の全文章数がそれぞれ求められる。文章区切りは、句点“。”で判定する。顔文字出現率を、全文章数に対する顔文字の出現頻度と定義すると、各々の顔文字出現率は図14に示す通り、第1プレイヤ=10%、第2プレイヤ=30%となる。
このようなデータから、例えば、
顔文字合致率[全体]=(10%+30%)/2=20%
としてパラメータx11を算出することができる。なお、顔文字が頻用されている場合は、顔文字出現率が100%を超過することが起こり得るが、その場合は100%として一律に扱えば良い。
顔文字合致量(x12)及び顔文字合致率[標準偏差](x13)は、図14に示した顔文字の出現率の平均と、標準偏差とから算出されるパラメータである。考え方は、上述のパラメータx4、x5と同じである。
図14に示した例を用いると、顔文字の出現率の平均aは上述の通り20%であり、標準偏差σは0.14となる。これらのデータを用いて、例えば顔文字合致量を示すパラメータx12は、次の(14)式により求めることができる。
x12=a×log(1/(σ+0.1)+1) ・・・(14)
なお、パラメータx13は、標準偏差σをそのまま用いることができる。
興味関心合致率(x15)は、図4のステップS1−1、S1−2で抽出された属性情報から求められるパラメータである。図15は、興味関心合致率の算出例を示す模式図である。ここでは、会員サーバ100に、第1プレイヤの興味関心項目53として“健康・医療”、“介護・福祉”、“暮らし”という3項目にチェック印が与えられた状態で登録されており、また第2プレイヤの興味関心項目54として“介護・福祉”、“住まい”、“暮らし”、“子育て・教育”、“趣味・教養”という5項目にチェック印が与えられた状態で登録されているものとする。かかるチェックデータは、データ抽出部112にて抽出される。
この場合、第1プレイヤから見ると、チェックした3項目のうち“介護・福祉”、“暮らし”という2項目で第2プレイヤと合致していることとなる。一方、第2プレイヤから見ると、チェックした5項目のうち上記の2項目が第1プレイヤと合致していることとなる。このようなデータから、例えば、
興味関心合致率=(2/3+2/5)/2=53%
として、パラメータx15を算出することができる。
興味関心合致量(x16)、興味関心合致率[標準偏差](x17)は、図15に示した合致率の平均と、標準偏差とから算出されるパラメータである。この考え方も、上述のパラメータx4、x5と同じである。
図15に示した例を用いると、興味関心合致率の平均aは上述の通り53%であり、標準偏差σは0.19となる。これらのデータを用いて、例えば興味関心合致量を示すパラメータx16は、次の(15)式により求めることができる。
x16=a×log(1/(σ+0.1)+1) ・・・(15)
なお、パラメータx17は、標準偏差σをそのまま用いることができる。
絶対年齢差(x18)、相対年齢差(x19)及び性別合致区分(x20)も、図4のステップS1−1、S1−2で抽出された属性情報から求められるパラメータである。例えば、第1プレイヤの年齢T=18(歳)、第2プレイヤの年齢T=24(歳)とすると、パラメータx18=|18−24|=6である。
で求められる。また、パラメータx19は、次の(16)式で求めることができる。
x19=|T−T|/((T+T)/2) ・・・(16)
従って、上記の年齢の場合、パラメータx19=0.27となる。性別合致区分(x20)は、例えば同性のときは“1”、異性のときは“0”というように、カテゴリ変数として設定することができる。
図4に戻って、以上のようにして目的変数、説明変数のパラメータ(上記y0〜y9、x1〜x20)がパラメータ算出部123にて求められると、ファイル作成部131により、これらパラメータを目的変数、説明変数に設定した多変量解析のためのファイルが作成される(ステップS2−1)。
図16は、多変量解析に先立ち、ファイル作成部131にて作成される多変量解析対象ファイル55を模式的に示す表形式の図である。図16に示すように、「共感先」と「共感元」との組み合わせ毎に、目的変数及び説明変数が設定される。ここでは、目的変数として“書き込み回数”、“書き込み文字数”・・・が、説明変数として“名詞合致率”、“形容詞合致率”、“興味関心合致率”・・・が各々設定されている例を示している。なお、解析手法によっては、これら変数が“0”又は“1”等のカテゴリ変数とされる。
次に、判定目的に応じて解析手法が選定される(ステップS2−2)。選択されるのは、例えば重回帰分析、判別分析、数量化I類、数量化II類のいずれかである。そして選択された解析手法にて、多変量解析部132により多変量解析が実行される(ステップS2−3)。しかる後、解析精度(予測性能)が上記のような方法で判定され、所定の要件を満たす共感度判定式が確定される(ステップS2−4)。
ここで導出される共感度判定式は、図16の多変量解析対象ファイル55が用いられた場合、例えば、
書き込み回数=(名詞合致率×n1)+(形容詞合致率×n2)+(興味関心合致率×n3)・・・+定数項
但し、n1、n2、n3・・・は解析の結果得られる数値
というような式となる。この共感度判定式は記憶部15に格納される。
続いて、プレイヤ選定部111により、ブログサーバ31の記録等に基づいて、相互間で文書交信の実績をもたない第3プレイヤ及び第4プレイヤが選定される(ステップS3−0)。そして、データ抽出部112により、選定された第3プレイヤ及び第4プレイヤについての属性情報が会員サーバ100から抽出される(ステップS3−1、S3−2)。
そして、文書抽出部121により、例えば第3プレイヤの日記文書と、第4プレイヤが他のプレイヤの日記文書に対して投稿したコメント文書とが、ブログサーバ31から抽出される。勿論、第3プレイヤが他のプレイヤの日記文書に対して投稿したコメント文書や第4プレイヤの日記文書、第3プレイヤ及び第4プレイヤの再コメント文書も併せて抽出するようにしても良い。これら抽出された文書は、上記ステップS1−3と同様にして、「共感先文書」(第3文書)と「共感元文書」(第4文書)とに分類され、これら文書がプレイヤ毎に集約される(ステップS3−3)。
この後、「共感先文書」及び「共感元文書」について各々、文書解析部122により、正規化処理(ステップS3−4、S3−8)、文書構造解析処理(ステップS3−5、S3−9)、及びデータ抽出処理(ステップS3−6、S3−10)が順次実行される。また、データ抽出部112により「共感先文書」及び「共感元文書」のブログサイト30への書き込みに関する基本情報から、数値化可能なデータが抽出される(ステップS3−7、S3−11)。
続いて、パラメータ算出部123により、ステップS3−1〜S3−11の処理で得られたデータから、複数のパラメータが算出される(ステップS3−12)。このパラメータは、ステップS1−12において、第1プレイヤと第2プレイヤとの関係において求められたものと同じ種類のパラメータである。当該パラメータは、その性質に応じて目的変数、説明変数に区分され、ファイル作成部131により、共感度判定式に当てはめるためのパラメータファイルが作成される。
その後、共感度判定部133により、記憶部15に格納されている共感度判定式が読み出され、その共感度判定式に前記パラメータファイルに含まれるパラメータ群の数値が入力される(ステップS4−1)。そして、演算が実行され、共感度判定式の数値結果が出力される(ステップS4−2)。上記に例示した共感度判定式であれば、右辺の説明変数の“名詞合致率”、“形容詞合致率”、“興味関心合致率”・・・が入力され、これによって左辺の目的変数“書き込み回数”の数値結果が求められることとなる。この数値結果に基づいて、第3プレイヤと第4プレイヤとの共感度が判定される。以後、この第3プレイヤ及び第4プレイヤを別のプレイヤの組み合わせに置換して、同様な共感度判定処理が行われるものである。
この場合、一般に書き込み回数や書き込み文字数は、共感度が高いほど増加する傾向があることから、数値結果が高い値であるほど、両者の共感度が高いと予想することが可能である。つまり、高数値が出た第3プレイヤと第4プレイヤとが出会うと、当該ブログサイト30において互いに文書交信を頻繁に行う可能性が高いと評価することができる。従って、このような共感度が高いと推定されるがまだ出会っていないプレイヤのペアに対し、適宜な方法で情報を提供して出会いを誘導することで、結果的にブログサイト30を活性化させることができる。
具体的には、第3、第4プレイヤに関連付けられた第3、第4端末装置23、24へ向けて共感度情報を送信し、適宜な形態、例えば第3、第4端末装置23、24にてブログサイト30が開かれたときに、入力画面の側方に、共感度が高いと数値評価されたプレイヤのアドレスをランキング表示する方法が例示できる。
以上説明した本実施形態に係る解析処理装置10によれば、相互間で文書交信の実績をもつ第1プレイヤ及び第2プレイヤの作成に係る第1文書及び第2文書を文書解析し、多変量解析して得られた判定式を用いて、まだ交信実績のない第3プレイヤと第4プレイヤとの共感度を評価することができる。従って、ブログサイト30において共感できる可能性のあるプレイヤ同士を的確に抽出し、これらプレイヤに情報を提供することができる。これにより終局的にブログサイト30への投稿を促進でき、サイト運営者は当該サイトが活性化されるという利点を享受することができる。
以上、本発明の具体的実施形態につき説明したが、これらは本発明の一例であり、発明の趣旨を逸脱しない範囲において上記実施形態とは異なる態様で実施することができる。例えば、上記実施形態では、ブログサイト30へ投稿される日記文書及びコメント文書を例示したが、本発明はプレイヤ間で交信された文書データが存在すれば適用可能であり、例えば電子メール上の文書や、音声データのテキスト化文書にも適用することができる。また、上記実施形態で具体的に示したパラメータ以外にも、様々なデータを用いて算出される各種パラメータを採用することができる。
本発明に係る文書合致度合い評価方法が適用されるネットワークシステムSのハードウェア構成を概略的に示す構成図である。 解析処理装置の機能構成を示す機能ブロック図である。 「目的変数」及び「説明変数」の設定例を示す表形式の図である。 解析処理装置の動作を示すフローチャートである。 文書の分類・集約処理の具体例を示す模式図である。 目的変数のパラメータの算出例を示す模式図である。 目的変数のパラメータの算出例を示す模式図である。 目的変数のパラメータの算出例を示す模式図である。 目的変数のパラメータの算出例を示す模式図である。 重み比率の付与例を示す表形式の図である。 重み比率の付与例を示す表形式の図である。 説明変数のパラメータの算出例を示す表形式の図である。 説明変数のパラメータの算出例を示す模式図である。 説明変数のパラメータの算出例を示す模式図である。 説明変数のパラメータの算出例を示す模式図である。 多変量解析対象ファイルの例を模式的に示す表形式の図である。
符号の説明
10 解析処理装置(共感度判定システム)
11 選定部
12 解析部
13 評価部
14 表示部
15 記憶部
21〜24 第1〜第4端末装置
30 ブログサイト(ウエブサイト)
31 ブログサーバ
100 会員サーバ
111 プレイヤ選定部
112 データ抽出部
121 文書抽出部
122 文書解析部
123 パラメータ算出部
131 ファイル作成部
132 多変量解析部
133 共感度判定部

Claims (8)

  1. 第1カテゴリに属する複数の単位文書からなる第1文書群と、前記第1カテゴリとは異なる第2カテゴリに属する複数の単位文書からなる第2文書群とを抽出し、
    前記第1文書群の各単位文書を文書解析して、第1文書群に使用されている所定の文字区分の単位で、該文字区分の出現頻度と該文字区分を含む単位文書の数とから、その文字区分の第1文書群中における重みをそれぞれ求め、
    前記第2文書群の各単位文書を文書解析して、第2文書群に使用されている所定の文字区分の単位で、該文字区分の出現頻度と該文字区分を含む単位文書の数とから、その文字区分の第2文書群中における重みをそれぞれ求め、
    前記第1文書群と前記第2文書群とにおいて共通して使用されている共通文字区分を特定し、
    前記第1文書群と前記第2文書群とに含まれる文字区分の重み総計に対する、前記共通文字区分が占める重みと、それ以外の文字区分が占める重みとの割合から、前記第1文書群と第2文書群との合致度合いを評価する、
    ことを特徴とする文書合致度合い評価方法。
  2. 前記第1文書群又は第2文書群中における各文字区分の重みをwとするとき、
    該重みwは、前記文字区分の出現頻度をtf、前記文字区分を含む単位文書の数をdf、単位文書の総数をNとするとき、次の(1)式で求められることを特徴とする請求項1に記載の文書合致度合い評価方法。
    w=tf×(N/df) ・・・(1)
  3. 前記文字区分が、品詞単位の文字列であることを特徴とする請求項1に記載の文書合致度合い評価方法。
  4. 前記単位文書が、一つの話題単位で作成された一又は複数の文章からなることを特徴とする請求項1に記載の文書合致度合い評価方法。
  5. 前記第1文書群及び第2文書群は、インターネット上の特定のウエブサイトから選定されることを特徴とする請求項1に記載の文書合致度合い評価方法。
  6. 前記ウエブサイトがブログサイトであって、前記単位文書が一つのブログ文書、若しくは一つのブログ文書に対するコメント文書であることを特徴とする請求項5に記載の文書合致度合い評価方法。
  7. 前記ブログサイトに対する前記ブログ文書の書き込み数、書き込み文字数及び書き込み時間、若しくは前記コメント文書の書き込み数、書き込み文字数及び書き込み時間を含むデータから得られる第1変数群を導出し、
    前記第1文書群と前記第2文書群との合致度合いのデータから得られる第2変数群を導出し、
    前記第1変数群を目的変数とし、前記第2変数群を説明変数として、多変量解析を行うことを特徴とする請求項5に記載の文書合致度合い評価方法。
  8. 前記第1変数群を導出するデータは増減データを含み、該増減データには増加方向を統一する前処理が施されることを特徴とする請求項7に記載の文書合致度合い評価方法。
JP2007189761A 2007-07-20 2007-07-20 文書合致度合い評価方法 Pending JP2009026133A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007189761A JP2009026133A (ja) 2007-07-20 2007-07-20 文書合致度合い評価方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007189761A JP2009026133A (ja) 2007-07-20 2007-07-20 文書合致度合い評価方法

Publications (1)

Publication Number Publication Date
JP2009026133A true JP2009026133A (ja) 2009-02-05

Family

ID=40397872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007189761A Pending JP2009026133A (ja) 2007-07-20 2007-07-20 文書合致度合い評価方法

Country Status (1)

Country Link
JP (1) JP2009026133A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282703A (ja) * 2008-05-21 2009-12-03 Hitachi Ltd 製造指示評価支援システム、製造指示評価支援方法、および製造指示評価支援プログラム
JP2018136760A (ja) * 2017-02-22 2018-08-30 株式会社エヌ・ティ・ティ・データ 文書処理装置、文書処理方法及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331070A (ja) * 2005-05-26 2006-12-07 Ntt Docomo Inc コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331070A (ja) * 2005-05-26 2006-12-07 Ntt Docomo Inc コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282703A (ja) * 2008-05-21 2009-12-03 Hitachi Ltd 製造指示評価支援システム、製造指示評価支援方法、および製造指示評価支援プログラム
JP2018136760A (ja) * 2017-02-22 2018-08-30 株式会社エヌ・ティ・ティ・データ 文書処理装置、文書処理方法及びプログラム

Similar Documents

Publication Publication Date Title
Boyd et al. Natural language analysis and the psychology of verbal behavior: The past, present, and future states of the field
Yazdavar et al. Semi-supervised approach to monitoring clinical depressive symptoms in social media
Han et al. Knowledge of words: An interpretable approach for personality recognition from social media
Montejo-Ráez et al. Ranked wordnet graph for sentiment polarity classification in twitter
US10642975B2 (en) System and methods for automatically detecting deceptive content
Nowson The Language of Weblogs: A study of genre and individual differences
Li et al. Contextual recommendation based on text mining
Shen et al. Emotion mining research on micro-blog
Shi et al. Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’
Suryadi et al. A data-driven approach to product usage context identification from online customer reviews
Schoene et al. Hierarchical multiscale recurrent neural networks for detecting suicide notes
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
Badugu et al. Emotion detection on twitter data using knowledge base approach
Wani et al. Depression screening in humans with AI and deep learning techniques
Wang et al. Leverage social media for personalized stress detection
Gao et al. SCOPE: the South Carolina psycholinguistic metabase
JP5371589B2 (ja) 幼児語彙発達データベース作成方法、幼児語彙発達データベース作成装置、幼児語彙発達データベース作成プログラム
Chen et al. Semantic Space models for classification of consumer webpages on metadata attributes
Al-Khatib et al. Authorship verification of opinion articles in online newspapers using the idiolect of author: a comparative study
Wilson et al. Measuring semantic relations between human activities
Trinh et al. Combining lexicon-based and learning-based methods for sentiment analysis for product reviews in Vietnamese language
Denning et al. A readability level prediction tool for K‐12 books
Cvrček et al. Author and register as sources of variation: A corpus-based study using elicited texts
Francisco et al. Emotag: An approach to automated markup of emotions in texts
Shi et al. EOSentiMiner: an opinion-aware system based on emotion ontology for sentiment analysis of Chinese online reviews

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120417

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120814