JP2010092217A - 文書処理方法 - Google Patents

文書処理方法 Download PDF

Info

Publication number
JP2010092217A
JP2010092217A JP2008260743A JP2008260743A JP2010092217A JP 2010092217 A JP2010092217 A JP 2010092217A JP 2008260743 A JP2008260743 A JP 2008260743A JP 2008260743 A JP2008260743 A JP 2008260743A JP 2010092217 A JP2010092217 A JP 2010092217A
Authority
JP
Japan
Prior art keywords
document
user
posted
diary
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008260743A
Other languages
English (en)
Inventor
Toshio Ikeda
利夫 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Electric Power Co Inc
Original Assignee
Kansai Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Electric Power Co Inc filed Critical Kansai Electric Power Co Inc
Priority to JP2008260743A priority Critical patent/JP2010092217A/ja
Publication of JP2010092217A publication Critical patent/JP2010092217A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ブログサイト等においてユーザ同士の共感度判定等を目的とした文書解析処理が効果的に行われるようにする。
【解決手段】ブログサイトに投稿された文書同士を相互に照合させて文書解析処理を行いユーザnとユーザmとの共感度を判定するに際し、ユーザn及びユーザmが当日、ブログサイトに投稿した日記文書及びコメント文書だけでなく、過去にブログサイトで投稿した日記文書及びコメント文書を対象として文書解析処理を行う。これにより、ブログサイトに頻繁に投稿するアクティブユーザに対してだけでなく、閲覧が主な非アクティブなユーザに対しても文書の照合結果を提示することができる。従って、ブログサイト全体の活性化を促進することができる。
【選択図】図11

Description

本発明は、通信ネットワーク上のサイトに多数の記述者から投稿された多数の文書が存在する場合において、異なる記述者が作成した文書同士を相互に照合させて所定の文書解析処理を行う際に実行される文書処理方法に関する。
昨今、インターネット上のブログサイト、SNS(Social Networking Service)等の利用者は爆発的に増加している。ブログ等のユーザの多くは、日記文書の公開を通して他人の共感を得ること、乃至は日記文書を閲覧して自分が共感できる他人と出会うことを望んでいると言うことができる。ブログ等は、日常問題や時事問題に関する体験、感想、意見等を含む日記文書等の投稿、その日記文書に対するコメント文書の投稿の機会を通して、人々に共感や安心感、問題解決の糸口を提供するといったような、社会的貢献の役割をいまや担っていると言える。
ところで、ブログサイト等において自分が共感できる他人を見つけるためには、何らかの検索を行う必要がある。このような検索の従来手法としては、無作為検索、カテゴリ検索、属性・キーワード検索を挙げることができる。無作為検索は、投稿日や投稿者を指定する程度の検索を行い手動でWebページを閲覧する手法である。カテゴリ検索は、「子育て」、「ボランティア」といったテーマ分類を活用して検索する手法である。属性・キーワード検索は、投稿者の年齢や性別、キーワードを利用して検索する手法である。ブログサイトのキーワード検索の手法として、例えば特許文献1を例示することができる。
特開2007−11651号公報
ところで、ブロガーの大量発生により、ブログサイトやSNSは巨大化する傾向があり、現に数百万人規模の会員を擁するサイトも存在する。このような巨大サイトにおいて、従来の検索手法に依拠して検索を行っても、ユーザは、自分が共感する人物を効率良く、また精度良く見つけ出すのは困難である。すなわち、無作為検索やカテゴリ検索では、検索がラフすぎてなかなか共感先を見つけられない。一方キーワード検索では、適切なキーワードを選択し複雑な検索設定を行わないと、的確な検索結果は得られない。或いは、複雑な検索設定を行ったとしても、ヒット件数が膨大になることがある。
このように、なかなか自分が共感できる人物が発見できない結果、ブログサイトの日記文書に対してのコメント投稿が停滞し、サイトの活性度が低下する懸念がある。サイト運営者においてこのような事態は望ましいことではない。
そこで、共感人物同士を特定するために、既にサイト上で文書交信の実績をもつ者が作成した文書、つまり実際に共感している者によって現に作成された文書を解析することで、共感度を数値判定するための判定式の類を導出し、この判定式にまだ出会っていない者同士の作成に係る文書を当てはめて、その者同士の共感度を自動判定する手法が考えられる。例えばブログサイトでは、日記記述者を共感先とし、その日記文書に対するコメント記述者を共感元として、2者の共感度判定が行われることとなる。
ここで、上記の共感度判定を、ブログサイトへの日記文書やコメント文書の投稿を契機として実行させる方法が第1に考えられる。しかし、この方法では、日々ブログサイトに日記文書やコメント文書を投稿しているアクティブユーザが主に判定対象となってしまう。ブログサイトの活性化を図るには、より多くのユーザに共感度判定結果を提示することが望ましいが、上記の方法では、「たまにしか書き込みを行わないユーザ」や「ブログの閲覧が主体のユーザ」等の非アクティブユーザに対しては共感度判定結果を積極的に提示できないことになる。
本発明は、上記の問題点に鑑みてなされたもので、ブログサイト等においてユーザ同士の共感度判定等を目的とした文書解析処理が効果的に行われることを可能とすることができる文書処理方法を提供することを目的とする。
本発明の一の局面に係る文書処理方法は、通信ネットワーク上のサイトに多数の記述者から投稿された多数の文書が存在する場合において、異なる記述者が作成した文書同士を相互に照合させて所定の文書解析処理を行う文書処理方法であって、第1の期間内に前記サイトへ投稿された文書群を第1文書群とし、前記第1の期間よりも過去の第2の期間内に前記サイトへ投稿された文書群を第2文書群とするとき、第1記述者の第1投稿文書が前記第1文書群に存在し、前記第1記述者とは異なる第2記述者の第2投稿文書が前記第1文書群に存在するときは、前記第1投稿文書と前記第2投稿文書とを照合させ、前記第1投稿文書が存在し、前記第2投稿文書が存在せず前記第2記述者の第3投稿文書が前記第2文書群に存在するときは、前記第1投稿文書と前記第3投稿文書とを照合させ、前記第1投稿文書が存在せず前記第1記述者の第4投稿文書が前記第2文書群に存在し、前記第2投稿文書が存在するときは、前記第2投稿文書と前記第4投稿文書とを照合させ、前記第1投稿文書が存在せず前記第4投稿文書が存在し、前記第2投稿文書が存在せず前記第3投稿文書が存在するときは、前記第3投稿文書と前記第4投稿文書とを照合させることを特徴とする(請求項1)。
この方法によれば、第1記述者及び第2記述者の投稿文書がいずれも第1文書群に存在する場合だけでなく、過去に投稿された第2文書群に第1記述者及び第2記述者の投稿文書が存在する場合にも、文書の照合が実行される。従って、サイトへの投稿を過去にしか行っていないユーザに対しても文書の照合結果を提示することができる。
上記構成において、前記第1の期間が、前記文書解析処理を実行する当日の1日間であり、前記第2の期間が、その当日よりも前の特定の1日間若しくは2日以上の期間であることが望ましい(請求項2)。この方法によれば、当日にサイトへ文書したユーザは勿論、当日にサイトへ文書の投稿をしていなくとも、当日以前の過去の所定期間に投稿した実績のあるユーザも対象として、照合結果を提示することができる。
上記構成において、前記サイトがブログサイトであって、前記第1投稿文書及び前記第4投稿文書が前記ブログサイトへ投稿された日記文書であり、前記第2投稿文書及び前記第3投稿文書が前記ブログサイトへ投稿されたコメント文書である、若しくは、前記第2投稿文書及び前記第3投稿文書が前記ブログサイトへ投稿された日記文書であり、前記第1投稿文書及び前記第4投稿文書が前記ブログサイトへ投稿されたコメント文書であることが望ましい(請求項3)。この方法によれば、日記文書とコメント文書とにカテゴリ分けした上で、つまり、一定の呼応関係が予定される文書群に分類した上で、所定の文書解析処理を実行させることができる。従って、文書解析処理の正確性を担保し易くなる。
この場合、前記文書解析処理が、前記第1記述者と前記第2記述者との共感度を判定するための文書解析処理であることが望ましい(請求項4)。この方法によれば、第1記述者及び第2記述者がサイトに投稿した文書の内容に基づいて、両者の共感度を評価し、その評価結果をこれらの者に提示することができる。
本発明によれば、アクティブユーザに対してだけでなく、サイトへの投稿を過去にしか行っていない非アクティブなユーザに対しても文書の照合結果を提示することができる。従って、サイト全体の活性化を促進することができる。
以下、図面に基づいて、本発明の実施形態につき説明する。図1は、本発明に係る文書処理方法が適用されるネットワークシステムSのハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、処理装置10と、インターネット上でブログサイト21を展開させるためのブログシステム20と、このブログサイト21の会員A、B、C、D、E・・・に保有されている会員端末装置31、32、33、34、35・・・を含む端末装置30とが、インターネットINを介してデータ通信可能に接続されてなる。
ブログサイト21(通信ネットワーク上のサイト)は、インターネット上に展開された特定のウエブサイトであって、日記文書や、日記文書に対するコメント文書等が掲載されるサイトである。
会員A〜Eは、ブログサイト21のサイト運営者に対して自身の属性情報を開示し、ブログサイト21の会員として登録されている者である。会員A〜Eは、各自の会員端末装置31〜35を介して、ブログサイト21に日記文書を投稿したり、その日記文書に対してコメント文書を投稿したり、このコメント文書に対してさらにコメント文書を投稿したり、或いはこれら文書を閲覧したりすることが可能とされている。端末装置30は、代表的には、インターネット接続されたパーソナルコンピュータ、携帯電話機、携帯情報端末機等である。
ブログシステム20は、ブログサーバ22及び会員サーバ23を備えている。ブログサーバ22は、ブログサイト21を運用するためのサーバであって、ブログサイト21に投稿された文書の文書データと、その文書の投稿日時、投稿者等の各種データとを関連付けて蓄積するサーバである。会員サーバ23は、ブログサイト21に登録されている会員(以下、ユーザという)、つまりブログサイト21への投稿が予定されている記述者の属性情報(氏名、会員番号、住所、端末装置のIPアドレス、年齢、性別、興味関心事など)が蓄積されたサーバである。
処理装置10は、相互間で文書交信の実績をもつユーザの属性、基本情報及びこれらユーザ間で作成されブログサイト21に投稿された文書を文書解析して得られたデータに基づいて多変量解析行い、その結果として得られた判定式を用いて、まだ交信実績のない会員同士の共感度を評価するための装置である。処理装置10は、ブログサイト21に対して多数のユーザ(記述者)から投稿された日記文書とコメント文書とを照合させ、文書解析処理(マッチング処理)を行うことによって、日記記述者(共感先)とコメント記述者(共感元)との共感度判定を行う。
この場合、処理装置10は、ブログサーバ22内に蓄積されている文書を対象として、次の照合1〜4を行う。ここで、処理が行われる当日内(第1の期間)にブログサイト21へ投稿された文書群を当日文書群(第1文書群)とし、当日よりも過去の所定期間内(第2の期間;例えば前日1日間、当日前2日間、当日前1週間、当日前1ヶ月など)にブログサイト21へ投稿された文書群を過去文書群(第2文書群)とする。
そして、2人のユーザA(第1記述者)とユーザB(第2記述者)との共感度を判定する場合には、以下の[照合1]〜[照合4]を実行する。
[照合1]ユーザAの当日日記文書又は当日コメント文書(第1投稿文書)が前記当日文書群に存在し、ユーザBの当日コメント文書又は当日日記文書(第2投稿文書)が前記当日文書群に存在するときは、ユーザAの当日日記文書とユーザBの当日コメント文書、若しくは、ユーザBの当日日記文書とユーザAの当日コメント文書とを照合させる;
[照合2]ユーザAの当日日記文書又は当日コメント文書が前記当日文書群に存在し、ユーザBの当日コメント文書又は当日日記文書が前記当日文書群には存在しないが、ユーザBの過去コメント文書又は過去日記文書(第3投稿文書)が存在するときは、ユーザAの当日日記文書とユーザBの過去コメント文書、若しくは、ユーザBの過去日記文書とユーザAの当日コメント文書とを照合させる;
[照合3]ユーザAの当日日記文書又は当日コメント文書が当日文書群に存在しないが、ユーザAの過去コメント文書又は過去日記文書(第4投稿文書)が過去文書群に存在し、ユーザBの当日コメント文書又は当日日記文書が当日文書群に存在するときは、ユーザAの過去日記文書とユーザBの当日コメント文書、若しくは、ユーザBの当日日記文書とユーザAの過去コメント文書とを照合させる;
[照合4]ユーザAの当日日記文書又は当日コメント文書が当日文書群に存在しないが、ユーザAの過去コメント文書又は過去日記文書が過去文書群に存在し、ユーザBの当日コメント文書又は当日日記文書が当日文書群に存在しないが、ユーザBの過去コメント文書又は過去日記文書が過去文書群に存在するときは、ユーザAの過去日記文書とユーザBの過去コメント文書、若しくは、ユーザBの過去日記文書とユーザAの過去コメント文書とを照合させる。
図2は、処理装置10の機能構成を示す機能ブロック図である。処理装置10は、例えば上記の分類処理等を行うCPU(中央演算処理装置)を備えた大型のコンピュータ装置であって、ブログサーバ22及び会員サーバ23に対してデータ通信可能に接続されている。前記CPUは、分類処理を行うべくプログラミングされたソフトウェアが実行されることで、図2に示す機能部を具備するように動作する。処理装置10は、機能的に、文書群抽出部11、分類処理部12、解析処理部13及び文書メモリ14を備える。
文書群抽出部11は、ブログサーバ22に蓄積されている文書データの中から、一人のユーザ毎に、当該ユーザが投稿した日記文書と、他人の日記文書又は他人のコメント文書に呼応して当該ユーザが投稿したコメント文書とを抽出する。文書群抽出部11により抽出された文書のファイルデータは、文書メモリ14に一時的に格納される。
分類処理部12は、文書群抽出部11により抽出された一人のユーザ単位の文書ファイルデータを、当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書のカテゴリに分類する処理を行う。
解析処理部13は、ブログサイト21において文書交信の実績をもつユーザ(例えばユーザAに対するユーザB、C、D)の投稿文書同士を文書解析し、つまり、既に共感している者同士の間で交わされた文書を文書解析し、これを多変量解析して共感度を評価するための判定式を導出する。この文書解析としては、各分類対象文書の正規化処理、文書構造解析処理などが行われる。正規化処理は、文書構造解析を正常に行い得るようにするために、分類対象文書から解析に不要な文字、記号等を削除すると共に、全角・半角文字の統一等を行う処理である。文書構造解析処理は、正規化処理後の分類対象文書に対しそれぞれ、例えば形態素解析を実施して文書を単語単位に分割する処理、構文解析処理を実施して単語間の係り受け(名詞と動詞との関係付け等)を特定する処理などである。このような文書構造解析処理のため、解析処理部13は、同義語及び表記の揺れを吸収するシソーラス(同義語辞書)を活用する。また、多変量解析の手法としては、例えば重回帰分析、判別分析、数量化I類、数量化II類を採用することができる。この際、前記文書解析で得られたパラメータが、適宜「目的変数」、「説明変数」として設定される。
さらに、解析処理部13は、上記判定式を用いて、まだ交信実績のないユーザ同士の共感度を評価する処理を行う。この際、分類処理部12により分類された当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書を用い、上記の[照合1]〜[照合4]を実行して解析すべき文書を特定する。そして、かかる文書について文書解析を行い、上記「目的変数」、「説明変数」となるパラメータを導出し、これを前記判定式に適用してユーザ同士の共感度を数値で評価する。そして、共感度が所定の閾値を超えるユーザの組み合わせが判明した場合、図略の表示手段にその旨を表示させる。
文書メモリ14は、ユーザ単位の文書ファイルデータ、若しくはカテゴリ分類された文書ファイルデータを一時的に記憶する記憶装置である。
続いて、本実施形態において、上記の[照合1]〜[照合4]を実行させる意義について説明する。図3及び図4は、1つの日記文書を起点とするスレッドの一例を示す模式的な図である。図3に示すスレッド1では、8月10日にユーザAがブログサイト21へ投稿した日記文書41が起点となっている。この日記文書41に呼応して、ユーザBとユーザCとがコメント文書42、43を同日に投稿している。さらに、翌8月11日に、ユーザAが、ユーザCが投稿したコメント文書43に呼応して、コメント文書44を投稿している。一方、ユーザDは、8月10日にこのスレッド1(ブログサイト21)の閲覧動作51を行い、またユーザEは、8月11日に閲覧動作52を行っている。
図4に示すスレッド2では、8月12日にユーザBがブログサイト21へ投稿した日記文書45が起点となっている。この日記文書45に呼応して、ユーザAがコメント文書46を同日に投稿している。さらに、翌8月13日に、ユーザCがコメント文書46に呼応して、コメント文書47を投稿している。一方、ユーザDは、8月12日にこのスレッド2(ブログサイト21)の閲覧動作53を行い、またユーザEは、8月13日に閲覧動作54を行っている。
このようなスレッド1、2に基づけば、ユーザA、B、Cは、日々ブログサイト21に日記文書やコメント文書を投稿しているアクティブユーザである一方で、ユーザD、Eはブログの閲覧が主体の非アクティブユーザと評価することができる。ここで、共感度判定処理の実行は、ユーザがブログサイト21へ文書を投稿したことをトリガにすることが最も容易である。この場合は、文書解析すべき日記文書又はコメント文書が当日確実に存在するからである。しかし、このような方式によれば、アクティブユーザ間における共感度判定のみが専ら実行され、非アクティブユーザに対しては共感度判定結果を提示できないことになる。これでは、ユーザD、Eのような非アクティブユーザにブログサイト21への投稿を誘発できず、ブログサイト全体の底上げ的な活性化に時間を要してしまう。
このような問題に鑑み本実施形態では、ユーザD、Eのような非アクティブユーザであっても、過去にブログサイト21に投稿した実績があれば、その過去投稿文書を利用して他人の文書と照合させ、共感度判定結果を導出するようにしている。これを実現するのが、上記[照合1]〜[照合4]の実行である。これにより、共感度判定を行う当日にブログサイト21へ投稿を行っていないユーザにも、とりわけ、たまにしかブログサイト21へ書き込みを行わずブログの閲覧が主体のユーザに対しても、共感度判定結果を提供できるようになる。従って、ブログサイト全体の活性化を促進することが可能となる。
図5は、上述の文書抽出部11がブログサーバ22から抽出する文書ファイルデータのデータ構造を模式的に示す図である。各々の文書ファイルデータには、ユーザ番号、ユーザ名、文書データのブログサイト21への投稿日時、日記文書又はコメント文書の別を示すカテゴリ、各文書ファイルに割り当てられるアドレスなどの整理データと、文書データとが含まれている。
図6は、分類処理部12の動作を説明するための模式的な図である。分類処理部12は、各文書ファイルデータの整理データを参照して、ユーザ毎に当日データと過去データとに分類すると共に、さらにこれらを当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書のカテゴリに分類する。そして、分類処理部12は、この分類に従ったカテゴリ識別子を各文書ファイルデータに付与し、文書メモリ14に一時的に各文書ファイルデータを記憶させる。
図6の例示では、ユーザA及びユーザBについては、当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書の全ての文書が存在している。これに対し、ユーザC、D、Eについては当日データが存在せず、ユーザCは過去日記文書及び過去コメント文書、ユーザDは過去日記文書のみ、ユーザEは過去コメント文書のみが存在している。
解析処理部13は、分類処理部12が図6に示すような分類処理を行った場合、ユーザのブログサイト21への投稿状況に応じて、例えば次のような照合処理(共感度判定のためのマッチング処理)を実行する。
(ユーザAとユーザBとの共感度判定)
ユーザAについては、当日日記文書a−d11、当日コメント文書a−c11、a−c12が存在する。また、ユーザBについても、当日日記文書b−d11、当日コメント文書b−c11、b−c12、b−c13が存在する。従って、解析処理部13は、ユーザAを共感元、ユーザBを共感先とするとき、ユーザAの当日コメント文書a−c11、a−c12とユーザBの当日日記文書b−d11とをマッチング処理する。また、ユーザBを共感元、ユーザAを共感先とするとき、ユーザBの当日コメント文書b−c11、b−c12、b−c13とユーザAの当日日記文書a−d11とをマッチング処理する(上記の「照合1」)。
なお、ユーザAの当日日記文書a−d11とユーザBの過去コメント文書b−c21〜b−c26とのマッチング処理、ユーザBの当日日記文書b−d11とユーザAの過去コメント文書a−c21〜a−c26・・・とのマッチング処理を実行させても良い。さらに、ユーザAの過去日記文書a−d21〜a−d26・・・とユーザBの過去コメント文書b−c21〜b−c26とのマッチング処理、ユーザBの過去日記文書b−d21〜b−d24とユーザAの過去コメント文書a−c21〜a−c26・・・とのマッチング処理を実行させても良い。ここで、過去データ同士の照合においては、過去にマッチング処理がすでに実行されている可能性があるため、マッチング処理済みの文書ペアについてはマッチング処理を実行させないようにすることが望ましい。
(ユーザAとユーザCとの共感度判定)
ユーザCについては、当日データは存在しないが、過去日記文書c−d21〜c−d23、及び過去コメント文書c−c21〜c−c25が存在する。従って、解析処理部13は、ユーザAを共感元、ユーザCを共感先とするとき、ユーザAの当日コメント文書a−c11、a−c12とユーザCの過去日記文書c−d21〜c−d23とをマッチング処理する。また、ユーザCを共感元、ユーザAを共感先とするとき、ユーザCの過去コメント文書c−c21〜c−c25とユーザAの当日日記文書a−d11とをマッチング処理する(上記の「照合2」と「照合3」)。なお、ユーザAとユーザCとの過去データ同士の照合も実行させても良い(以下のユーザD、Eについても同じ)。
(ユーザAとユーザDとの共感度判定)
ユーザDについては、当日データは存在しないが、過去日記文書d−d21〜d−d24のみが存在する。従って、解析処理部13は、ユーザAを共感元、ユーザDを共感先とする処理のために、ユーザAの当日コメント文書a−c11、a−c12とユーザDの過去日記文書d−d21〜d−d24とをマッチング処理する。なお、ユーザDを共感元とするマッチング処理は実行不能である。
(ユーザAとユーザEとの共感度判定)
ユーザEについては、当日データは存在しないが、過去コメント文書e−c21〜e−c23のみが存在する。従って、解析処理部13は、ユーザEを共感元、ユーザAを共感先とする処理のために、ユーザEの過去コメント文書e−c21〜e−c23とユーザAの当日日記文書a−d11とをマッチング処理する。なお、ユーザEを共感先とするマッチング処理は実行不能である。
(ユーザC、ユーザD、ユーザE間の共感度判定)
これらユーザについては当日データが存在しないので、解析処理部13は、過去データを用いてマッチング処理を実行する(上記の「照合4」)。例えば、ユーザCとユーザDとの共感度判定を実行する場合は、ユーザCの過去コメント文書c−c21〜c−c25とユーザDの過去日記文書d−d21〜d−d24とをマッチング処理する。また、ユーザCとユーザEとの共感度判定を実行する場合は、ユーザEの過去コメント文書e−c21〜e−c23とユーザCの過去日記文書c−d21〜c−d23とをマッチング処理する。さらに、ユーザDとユーザEとの共感度判定を実行する場合は、ユーザEの過去コメント文書e−c21〜e−c23とユーザDの過去日記文書d−d21〜d−d24とをマッチング処理する。なお、過去にマッチング処理済みの文書ペアについてはマッチング処理を実行させず、図略のメモリに記憶させておいたマッチング結果データを抽出させるようにすることが望ましい。
解析処理部13は、以上のような照合処理を、定期的に実行し、ブログサイト21へのユーザのアクセス(ブログサイトの閲覧)をトリガとしてその結果をユーザに報知する。アクティブユーザに対してだけでなく、ブログサイト21への投稿を過去にしか行っていない非アクティブなユーザ(ユーザD、E)に対しても文書の照合結果を提示することができる。従って、ブログサイト21全体の活性化を促進することができる。
以上説明した処理装置10の動作を、図7に示すフローチャートに基づいて説明する。先ず、文書抽出部11がブログサーバ22から文書データを抽出し、ユーザ毎に文書データを集積すると共にユーザ単位でナンバリングするソート処理を行う(ステップS1)。抽出された文書データは、文書メモリ14に格納される。
次に、分類処理部12が、カウンタをn=0に設定し(ステップS2)、その後n=n+1に設定する(ステップS3)。そして、分類処理部12は、n番目のユーザの文書を抽出し、これらを当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書の別に分類する処理を行う(ステップS4)。続いて、分類処理部12は、m=nに設定し(ステップS5)、その後m=m+1番目のユーザの文書を抽出し、これらを当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書の別に分類する処理を行う(ステップS6)。これにより、例えば上述のユーザAが1番目、ユーザBが2番目とナンバリングされている場合は、ユーザA及びユーザBの文書が、当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書にそれぞれ分類されることになる。
しかる後、解析処理部13により、n番目のユーザとm番目のユーザとの文書マッチング処理が実行される(ステップS7)。その後、m番目のユーザがナンバリングされたユーザのうちの最終ユーザであるか否かが確認される(ステップS8)。mが最終ユーザでない場合、ステップS6に戻り、mが1つインクリメントされて同じ処理が実行される。このループの実行により、例えばユーザAと、他のユーザとのマッチング処理が全て実行されることになる。
一方、ステップS8においてmが最終ユーザである場合、nが最終ユーザの1人前のユーザであるか否かが確認される(ステップS9)。nが最終ユーザの1人前ではない場合、ステップS3に戻り、nが1つインクリメントされて同じ処理が実行される。このループの実行により、2番目のユーザBと、ユーザAを除く他のユーザとのマッチング処理が実行されることになる。一方、nが最終ユーザの1人前である場合、全てのユーザの組み合わせのマッチング処理が完了したことになるので、処理を終える。
図8は、図7のステップS4における、分類処理部12の処理の詳細を示すフローチャートである。分類処理部12は、文書メモリ14からn番目のユーザの全文書を抽出する(ステップS41)。そして、このユーザが記述した文書(日記文書又はコメント文書)が存在するか否かを判定する(ステップS42)。文書が存在すれば(ステップS42でYES)、各文書につき日記文書であるか、又はコメント文書であるかを判定する(ステップS43)。文書が存在しなければ(ステップS42でNO)、図7のステップS9へスキップする。
さらに、日記文書と判定されたものの文書群(第1文書群)につき、処理を実行する当日の日記文書が存在するか否かを判定する(ステップS44)。当日の日記文書が存在する場合は(ステップS44でYES)、その文書を抽出し、「当日日記文書」に相当するカテゴリ識別子(例えば“n−d1”)を付与する(ステップS45)。ステップS45の後、又は当日の日記文書が存在しない場合は(ステップS44でNO)、過去の日記文書が存在するか否かを判定する(ステップS46)。過去の日記文書が存在する場合は(ステップS46でYES)、その文書を抽出し、「過去日記文書」に相当するカテゴリ識別子(例えば“n−d2”)を付与して(ステップS47)、処理を終える。過去の日記文書が存在しない場合は(ステップS46でNO)、そのまま処理を終える。
他方、コメント文書と判定されたものの文書群(第2文書群)につき、当日のコメント文書が存在するか否かを判定する(ステップS48)。当日のコメント文書が存在する場合は(ステップS48でYES)、その文書を抽出し、「当日コメント文書」に相当するカテゴリ識別子(例えば“n−c1”)を付与する(ステップS49)。ステップS49の後、又は当日のコメント文書が存在しない場合は(ステップS48でNO)、過去のコメント文書が存在するか否かを判定する(ステップS50)。過去のコメント文書が存在する場合は(ステップS50でYES)、その文書を抽出し、「過去コメント文書」に相当するカテゴリ識別子(例えば“n−c2”)を付与して(ステップS51)、処理を終える。過去のコメント文書が存在しない場合は(ステップS50でNO)、そのまま処理を終える。以上の処理により、n番目のユーザの文書群についての、当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書への分類が完了する。
図9は、図7のステップS6における、分類処理部12の処理の詳細を示すフローチャートである。分類処理部12は、文書メモリ14からm=m+1番目のユーザの全文書を抽出する(ステップS61)。そして、このユーザが記述した文書が存在するか否かを判定する(ステップS62)。文書が存在すれば(ステップS62でYES)、各文書につき日記文書であるか、又はコメント文書であるかを判定する(ステップS63)。文書が存在しなければ(ステップS62でNO)、図7のステップS8へスキップする。
さらに、日記文書と判定されたものの文書群につき、当日の日記文書が存在するか否かを判定する(ステップS64)。当日の日記文書が存在する場合は(ステップS64でYES)、その文書を抽出し、「当日日記文書」に相当するカテゴリ識別子(例えば“m−d1”)を付与する(ステップS65)。ステップS65の後、又は当日の日記文書が存在しない場合は(ステップS64でNO)、過去の日記文書が存在するか否かを判定する(ステップS66)。過去の日記文書が存在する場合は(ステップS66でYES)、その文書を抽出し、「過去日記文書」に相当するカテゴリ識別子(例えば“m−d2”)を付与して(ステップS67)、処理を終える。過去の日記文書が存在しない場合は(ステップS66でNO)、そのまま処理を終える。
他方、コメント文書と判定されたものの文書群につき、当日のコメント文書が存在するか否かを判定する(ステップS68)。当日のコメント文書が存在する場合は(ステップS68でYES)、その文書を抽出し、「当日コメント文書」に相当するカテゴリ識別子(例えば“m−c1”)を付与する(ステップS69)。ステップS69の後、又は当日のコメント文書が存在しない場合は(ステップS68でNO)、過去のコメント文書が存在するか否かを判定する(ステップS691)。過去のコメント文書が存在する場合は(ステップS691でYES)、その文書を抽出し、「過去コメント文書」に相当するカテゴリ識別子(例えば“m−c2”)を付与して(ステップS692)、処理を終える。過去のコメント文書が存在しない場合は(ステップS691でNO)、そのまま処理を終える。以上の処理により、m番目のユーザの文書群についての、当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書への分類が完了する。
図10は、図7のステップS7における、解析処理部13の処理の詳細を示すフローチャートである。解析処理部13は、先ず、n番目のユーザを共感元(コメント者)、m番目のユーザを共感先(日記記述者)とし、分類された文書同士を相互にマッチング処理する。解析処理部13は、n番目のユーザの当日コメント文書n−c1とm番目のユーザの当日日記文書m−d1の双方が存在するかを判定する(ステップS71)。双方存在する場合(ステップS71でYES)、解析処理部13は、文書n−c1と文書m−d1とのマッチング処理Iを実施し、結果を出力する(ステップS72)。
双方の当日データが存在しない場合は(ステップS71でNO)、次に解析処理部13は、n番目のユーザの当日コメント文書n−c1とm番目のユーザの過去日記文書m−d2の双方が存在するかを判定する(ステップS73)。双方存在する場合(ステップS73でYES)、解析処理部13は、文書n−c1と文書m−d2とのマッチング処理IIを実施し、結果を出力する(ステップS74)。
文書n−c1及び文書m−d2の双方が存在しない場合(ステップS73でNO)、次に解析処理部13は、n番目のユーザの過去コメント文書n−c2とm番目のユーザの当日日記文書m−d1の双方が存在するかを判定する(ステップS75)。双方存在する場合(ステップS75でYES)、解析処理部13は、文書n−c2と文書m−d1とのマッチング処理IIIを実施し、結果を出力する(ステップS76)。
文書n−c2及び文書m−d1の双方が存在しない場合(ステップS75でNO)、最後に解析処理部13は、n番目のユーザの過去コメント文書n−c2とm番目のユーザの過去日記文書m−d2の双方が存在するかを判定する(ステップS77)。双方存在する場合(ステップS77でYES)、解析処理部13は、過去に文書n−c2と文書m−d2とのマッチング処理実績があるか否かを判定する(ステップS78)。マッチング処理実績がない場合(ステップS78でNO)、マッチング処理IVを実施し、結果を出力する(ステップS79)。一方、文書n−c2及び文書m−d2の双方が存在しない場合(ステップS77でNO)、或いは、既にマッチング処理実績がある場合(ステップS78でYES)、マッチング処理IVは実施されない。
続いて解析処理部13は、m番目のユーザを共感元(コメント者)、n番目のユーザを共感先(日記記述者)とするマッチング処理を実行する。解析処理部13は、m番目のユーザの当日コメント文書m−c1とn番目のユーザの当日日記文書n−d1の双方が存在するかを判定する(ステップS80)。双方存在する場合(ステップS80でYES)、解析処理部13は、文書m−c1と文書n−d1とのマッチング処理Vを実施し、結果を出力する(ステップS81)。
双方の当日データが存在しない場合は(ステップS80でNO)、次に解析処理部13は、m番目のユーザの当日コメント文書m−c1とn番目のユーザの過去日記文書n−d2の双方が存在するかを判定する(ステップS82)。双方存在する場合(ステップS82でYES)、解析処理部13は、文書m−c1と文書n−d2とのマッチング処理VIを実施し、結果を出力する(ステップS83)。
文書m−c1及び文書n−d2の双方が存在しない場合(ステップS82でNO)、次に解析処理部13は、m番目のユーザの過去コメント文書m−c2とn番目のユーザの当日日記文書n−d1の双方が存在するかを判定する(ステップS84)。双方存在する場合(ステップS84でYES)、解析処理部13は、文書m−c2と文書n−d1とのマッチング処理VIIを実施し、結果を出力する(ステップS85)。
文書m−c2及び文書n−d1の双方が存在しない場合(ステップS84でNO)、最後に解析処理部13は、m番目のユーザの過去コメント文書m−c2とn番目のユーザの過去日記文書n−d2の双方が存在するかを判定する(ステップS86)。双方存在する場合(ステップS86でYES)、解析処理部13は、過去に文書m−c2と文書n−d2とのマッチング処理実績があるか否かを判定する(ステップS87)。マッチング処理実績がない場合(ステップS87でNO)、マッチング処理VIIIを実施し、結果を出力する(ステップS88)。一方、文書m−c2及び文書n−d2の双方が存在しない場合(ステップS86でNO)、或いは、既にマッチング処理実績がある場合(ステップS87でYES)、マッチング処理VIIIは実施されない。
以上で、n番目のユーザとm番目のユーザとの共感度判定処理が完了する。図11(a)、(b)は、図10のフローチャートで示した解析処理部13の処理内容をまとめた表形式の図である。当日データのみを処理対象とする場合、マッチング処理I及びマッチング処理Vのみしか実行されないことになるが、本実施形態では過去データも処理対象とするので、8つのマッチング処理I〜VIIIが実行される。これにより、当日に日記やコメントを投稿していないユーザに対しても、共感度判定を提供できる。従って、ブログサイト21全体の活性化に寄与することができる。
以上、本発明の具体的実施形態につき説明したが、これらは本発明の一例であり、発明の趣旨を逸脱しない範囲において上記実施形態とは異なる態様で実施することができる。例えば、上記実施形態では、ブログサイト21へ投稿される日記文書及びコメント文書を例示したが、本発明はサイト上で交信される文書データが存在すれば適用可能であり、必ずしも日記文書が対象でなくとも良い。また、記述者は個人でなく、企業、組合、その他コミュニティ等であっても良い。
本発明に係る文書処理方法が適用されるネットワークシステムSのハードウェア構成を概略的に示す構成図である。 処理装置の機能構成を示す機能ブロック図である。 1つの日記文書を起点とするスレッドの一例を示す模式的な図である。 1つの日記文書を起点とするスレッドの一例を示す模式的な図である。 文書抽出部がブログサーバから抽出する文書ファイルデータのデータ構造を模式的に示す図である。 分類処理部の動作を説明するための模式的な図である。 処理装置の全体動作を示すフローチャートである。 図7のステップS4における、分類処理部の処理の詳細を示すフローチャートである。 図7のステップS6における、分類処理部の処理の詳細を示すフローチャートである。 図7のステップS7における、解析処理部の処理の詳細を示すフローチャートである。 解析処理部の処理内容をまとめた表形式の図である。
符号の説明
10 処理装置
11 文書群抽出部
12 分類処理部
13 解析処理部
14 文書メモリ
20 ブログシステム
21 ブログサイト(サイト)
22 ブログサーバ
23 会員サーバ
30 端末装置

Claims (4)

  1. 通信ネットワーク上のサイトに多数の記述者から投稿された多数の文書が存在する場合において、異なる記述者が作成した文書同士を相互に照合させて所定の文書解析処理を行う文書処理方法であって、
    第1の期間内に前記サイトへ投稿された文書群を第1文書群とし、前記第1の期間よりも過去の第2の期間内に前記サイトへ投稿された文書群を第2文書群とするとき、
    第1記述者の第1投稿文書が前記第1文書群に存在し、前記第1記述者とは異なる第2記述者の第2投稿文書が前記第1文書群に存在するときは、前記第1投稿文書と前記第2投稿文書とを照合させ、
    前記第1投稿文書が存在し、前記第2投稿文書が存在せず前記第2記述者の第3投稿文書が前記第2文書群に存在するときは、前記第1投稿文書と前記第3投稿文書とを照合させ、
    前記第1投稿文書が存在せず前記第1記述者の第4投稿文書が前記第2文書群に存在し、前記第2投稿文書が存在するときは、前記第2投稿文書と前記第4投稿文書とを照合させ、
    前記第1投稿文書が存在せず前記第4投稿文書が存在し、前記第2投稿文書が存在せず前記第3投稿文書が存在するときは、前記第3投稿文書と前記第4投稿文書とを照合させる、
    ことを特徴とする文書処理方法。
  2. 前記第1の期間が、前記文書解析処理を実行する当日の1日間であり、
    前記第2の期間が、その当日よりも前の特定の1日間若しくは2日以上の期間である、
    ことを特徴とする請求項1に記載の文書処理方法。
  3. 前記サイトがブログサイトであって、
    前記第1投稿文書及び前記第4投稿文書が前記ブログサイトへ投稿された日記文書であり、前記第2投稿文書及び前記第3投稿文書が前記ブログサイトへ投稿されたコメント文書である、若しくは、
    前記第2投稿文書及び前記第3投稿文書が前記ブログサイトへ投稿された日記文書であり、前記第1投稿文書及び前記第4投稿文書が前記ブログサイトへ投稿されたコメント文書である、
    ことを特徴とする請求項1又は2に記載の文書処理方法。
  4. 前記文書解析処理が、前記第1記述者と前記第2記述者との共感度を判定するための文書解析処理であることを特徴とする請求項3に記載の文書処理方法。
JP2008260743A 2008-10-07 2008-10-07 文書処理方法 Pending JP2010092217A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008260743A JP2010092217A (ja) 2008-10-07 2008-10-07 文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008260743A JP2010092217A (ja) 2008-10-07 2008-10-07 文書処理方法

Publications (1)

Publication Number Publication Date
JP2010092217A true JP2010092217A (ja) 2010-04-22

Family

ID=42254874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008260743A Pending JP2010092217A (ja) 2008-10-07 2008-10-07 文書処理方法

Country Status (1)

Country Link
JP (1) JP2010092217A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185572A (ja) * 2002-12-06 2004-07-02 Nippon Telegr & Teleph Corp <Ntt> 口コミ情報解析方法及び装置
JP2005174149A (ja) * 2003-12-12 2005-06-30 Nippon Telegr & Teleph Corp <Ntt> インターネット上の情報解析システムおよび公開サーバ
JP2007011651A (ja) * 2005-06-30 2007-01-18 Nomura Research Institute Ltd 文書処理装置
JP2007140603A (ja) * 2005-11-14 2007-06-07 Nippon Telegr & Teleph Corp <Ntt> アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185572A (ja) * 2002-12-06 2004-07-02 Nippon Telegr & Teleph Corp <Ntt> 口コミ情報解析方法及び装置
JP2005174149A (ja) * 2003-12-12 2005-06-30 Nippon Telegr & Teleph Corp <Ntt> インターネット上の情報解析システムおよび公開サーバ
JP2007011651A (ja) * 2005-06-30 2007-01-18 Nomura Research Institute Ltd 文書処理装置
JP2007140603A (ja) * 2005-11-14 2007-06-07 Nippon Telegr & Teleph Corp <Ntt> アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム

Similar Documents

Publication Publication Date Title
Rudra et al. Identifying sub-events and summarizing disaster-related information from microblogs
Hassan et al. Toward automated fact-checking: Detecting check-worthy factual claims by claimbuster
CN109145216B (zh) 网络舆情监控方法、装置及存储介质
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
Uddin et al. Automatic summarization of API reviews
US9990356B2 (en) Device and method for analyzing reputation for objects by data mining
Stamatatos et al. Clustering by authorship within and across documents
Vu et al. Phrase-based extraction of user opinions in mobile app reviews
WO2015053236A1 (ja) 矛盾表現収集装置及びそのためのコンピュータプログラム
JP6719399B2 (ja) 解析装置、解析方法、およびプログラム
Sepehri Rad et al. Leveraging editor collaboration patterns in Wikipedia
Zhu et al. Tracking the evolution of social emotions: A time-aware topic modeling perspective
Hirlekar et al. Natural language processing based online fake news detection challenges–A detailed review
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN116151233A (zh) 数据标注、生成方法、模型训练方法、设备和介质
Al-Khatib et al. Authorship verification of opinion articles in online newspapers using the idiolect of author: a comparative study
Sohail et al. Anti-social behavior detection in urdu language posts of social media
Al Marouf et al. Looking behind the mask: A framework for detecting character assassination via troll comments on social media using psycholinguistic tools
US20200302076A1 (en) Document processing apparatus and non-transitory computer readable medium
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
Przybyła et al. Analysing utterances in polish parliament to predict speaker’s background
JP2010092217A (ja) 文書処理方法
JP4550939B1 (ja) 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム
Wilson et al. Keyword clouds: having very little effect on sensemaking in web search engines
Liu et al. Stratify Mobile App Reviews: E-LDA Model Based on Hot" Entity" Discovery

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110817

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130806