JP2010092217A

JP2010092217A - 文書処理方法

Info

Publication number: JP2010092217A
Application number: JP2008260743A
Authority: JP
Inventors: Toshio Ikeda; 利夫池田
Original assignee: Kansai Electric Power Co Inc
Current assignee: Kansai Electric Power Co Inc
Priority date: 2008-10-07
Filing date: 2008-10-07
Publication date: 2010-04-22

Abstract

【課題】ブログサイト等においてユーザ同士の共感度判定等を目的とした文書解析処理が効果的に行われるようにする。
【解決手段】ブログサイトに投稿された文書同士を相互に照合させて文書解析処理を行いユーザｎとユーザｍとの共感度を判定するに際し、ユーザｎ及びユーザｍが当日、ブログサイトに投稿した日記文書及びコメント文書だけでなく、過去にブログサイトで投稿した日記文書及びコメント文書を対象として文書解析処理を行う。これにより、ブログサイトに頻繁に投稿するアクティブユーザに対してだけでなく、閲覧が主な非アクティブなユーザに対しても文書の照合結果を提示することができる。従って、ブログサイト全体の活性化を促進することができる。
【選択図】図１１

Description

本発明は、通信ネットワーク上のサイトに多数の記述者から投稿された多数の文書が存在する場合において、異なる記述者が作成した文書同士を相互に照合させて所定の文書解析処理を行う際に実行される文書処理方法に関する。

昨今、インターネット上のブログサイト、ＳＮＳ（Social Networking Service）等の利用者は爆発的に増加している。ブログ等のユーザの多くは、日記文書の公開を通して他人の共感を得ること、乃至は日記文書を閲覧して自分が共感できる他人と出会うことを望んでいると言うことができる。ブログ等は、日常問題や時事問題に関する体験、感想、意見等を含む日記文書等の投稿、その日記文書に対するコメント文書の投稿の機会を通して、人々に共感や安心感、問題解決の糸口を提供するといったような、社会的貢献の役割をいまや担っていると言える。

ところで、ブログサイト等において自分が共感できる他人を見つけるためには、何らかの検索を行う必要がある。このような検索の従来手法としては、無作為検索、カテゴリ検索、属性・キーワード検索を挙げることができる。無作為検索は、投稿日や投稿者を指定する程度の検索を行い手動でＷｅｂページを閲覧する手法である。カテゴリ検索は、「子育て」、「ボランティア」といったテーマ分類を活用して検索する手法である。属性・キーワード検索は、投稿者の年齢や性別、キーワードを利用して検索する手法である。ブログサイトのキーワード検索の手法として、例えば特許文献１を例示することができる。
特開２００７−１１６５１号公報

ところで、ブロガーの大量発生により、ブログサイトやＳＮＳは巨大化する傾向があり、現に数百万人規模の会員を擁するサイトも存在する。このような巨大サイトにおいて、従来の検索手法に依拠して検索を行っても、ユーザは、自分が共感する人物を効率良く、また精度良く見つけ出すのは困難である。すなわち、無作為検索やカテゴリ検索では、検索がラフすぎてなかなか共感先を見つけられない。一方キーワード検索では、適切なキーワードを選択し複雑な検索設定を行わないと、的確な検索結果は得られない。或いは、複雑な検索設定を行ったとしても、ヒット件数が膨大になることがある。

このように、なかなか自分が共感できる人物が発見できない結果、ブログサイトの日記文書に対してのコメント投稿が停滞し、サイトの活性度が低下する懸念がある。サイト運営者においてこのような事態は望ましいことではない。

そこで、共感人物同士を特定するために、既にサイト上で文書交信の実績をもつ者が作成した文書、つまり実際に共感している者によって現に作成された文書を解析することで、共感度を数値判定するための判定式の類を導出し、この判定式にまだ出会っていない者同士の作成に係る文書を当てはめて、その者同士の共感度を自動判定する手法が考えられる。例えばブログサイトでは、日記記述者を共感先とし、その日記文書に対するコメント記述者を共感元として、２者の共感度判定が行われることとなる。

ここで、上記の共感度判定を、ブログサイトへの日記文書やコメント文書の投稿を契機として実行させる方法が第１に考えられる。しかし、この方法では、日々ブログサイトに日記文書やコメント文書を投稿しているアクティブユーザが主に判定対象となってしまう。ブログサイトの活性化を図るには、より多くのユーザに共感度判定結果を提示することが望ましいが、上記の方法では、「たまにしか書き込みを行わないユーザ」や「ブログの閲覧が主体のユーザ」等の非アクティブユーザに対しては共感度判定結果を積極的に提示できないことになる。

本発明は、上記の問題点に鑑みてなされたもので、ブログサイト等においてユーザ同士の共感度判定等を目的とした文書解析処理が効果的に行われることを可能とすることができる文書処理方法を提供することを目的とする。

本発明の一の局面に係る文書処理方法は、通信ネットワーク上のサイトに多数の記述者から投稿された多数の文書が存在する場合において、異なる記述者が作成した文書同士を相互に照合させて所定の文書解析処理を行う文書処理方法であって、第１の期間内に前記サイトへ投稿された文書群を第１文書群とし、前記第１の期間よりも過去の第２の期間内に前記サイトへ投稿された文書群を第２文書群とするとき、第１記述者の第１投稿文書が前記第１文書群に存在し、前記第１記述者とは異なる第２記述者の第２投稿文書が前記第１文書群に存在するときは、前記第１投稿文書と前記第２投稿文書とを照合させ、前記第１投稿文書が存在し、前記第２投稿文書が存在せず前記第２記述者の第３投稿文書が前記第２文書群に存在するときは、前記第１投稿文書と前記第３投稿文書とを照合させ、前記第１投稿文書が存在せず前記第１記述者の第４投稿文書が前記第２文書群に存在し、前記第２投稿文書が存在するときは、前記第２投稿文書と前記第４投稿文書とを照合させ、前記第１投稿文書が存在せず前記第４投稿文書が存在し、前記第２投稿文書が存在せず前記第３投稿文書が存在するときは、前記第３投稿文書と前記第４投稿文書とを照合させることを特徴とする（請求項１）。

この方法によれば、第１記述者及び第２記述者の投稿文書がいずれも第１文書群に存在する場合だけでなく、過去に投稿された第２文書群に第１記述者及び第２記述者の投稿文書が存在する場合にも、文書の照合が実行される。従って、サイトへの投稿を過去にしか行っていないユーザに対しても文書の照合結果を提示することができる。

上記構成において、前記第１の期間が、前記文書解析処理を実行する当日の１日間であり、前記第２の期間が、その当日よりも前の特定の１日間若しくは２日以上の期間であることが望ましい（請求項２）。この方法によれば、当日にサイトへ文書したユーザは勿論、当日にサイトへ文書の投稿をしていなくとも、当日以前の過去の所定期間に投稿した実績のあるユーザも対象として、照合結果を提示することができる。

上記構成において、前記サイトがブログサイトであって、前記第１投稿文書及び前記第４投稿文書が前記ブログサイトへ投稿された日記文書であり、前記第２投稿文書及び前記第３投稿文書が前記ブログサイトへ投稿されたコメント文書である、若しくは、前記第２投稿文書及び前記第３投稿文書が前記ブログサイトへ投稿された日記文書であり、前記第１投稿文書及び前記第４投稿文書が前記ブログサイトへ投稿されたコメント文書であることが望ましい（請求項３）。この方法によれば、日記文書とコメント文書とにカテゴリ分けした上で、つまり、一定の呼応関係が予定される文書群に分類した上で、所定の文書解析処理を実行させることができる。従って、文書解析処理の正確性を担保し易くなる。

この場合、前記文書解析処理が、前記第１記述者と前記第２記述者との共感度を判定するための文書解析処理であることが望ましい（請求項４）。この方法によれば、第１記述者及び第２記述者がサイトに投稿した文書の内容に基づいて、両者の共感度を評価し、その評価結果をこれらの者に提示することができる。

本発明によれば、アクティブユーザに対してだけでなく、サイトへの投稿を過去にしか行っていない非アクティブなユーザに対しても文書の照合結果を提示することができる。従って、サイト全体の活性化を促進することができる。

以下、図面に基づいて、本発明の実施形態につき説明する。図１は、本発明に係る文書処理方法が適用されるネットワークシステムＳのハードウェア構成を概略的に示す構成図である。このネットワークシステムＳは、処理装置１０と、インターネット上でブログサイト２１を展開させるためのブログシステム２０と、このブログサイト２１の会員Ａ、Ｂ、Ｃ、Ｄ、Ｅ・・・に保有されている会員端末装置３１、３２、３３、３４、３５・・・を含む端末装置３０とが、インターネットＩＮを介してデータ通信可能に接続されてなる。

ブログサイト２１（通信ネットワーク上のサイト）は、インターネット上に展開された特定のウエブサイトであって、日記文書や、日記文書に対するコメント文書等が掲載されるサイトである。

会員Ａ〜Ｅは、ブログサイト２１のサイト運営者に対して自身の属性情報を開示し、ブログサイト２１の会員として登録されている者である。会員Ａ〜Ｅは、各自の会員端末装置３１〜３５を介して、ブログサイト２１に日記文書を投稿したり、その日記文書に対してコメント文書を投稿したり、このコメント文書に対してさらにコメント文書を投稿したり、或いはこれら文書を閲覧したりすることが可能とされている。端末装置３０は、代表的には、インターネット接続されたパーソナルコンピュータ、携帯電話機、携帯情報端末機等である。

ブログシステム２０は、ブログサーバ２２及び会員サーバ２３を備えている。ブログサーバ２２は、ブログサイト２１を運用するためのサーバであって、ブログサイト２１に投稿された文書の文書データと、その文書の投稿日時、投稿者等の各種データとを関連付けて蓄積するサーバである。会員サーバ２３は、ブログサイト２１に登録されている会員（以下、ユーザという）、つまりブログサイト２１への投稿が予定されている記述者の属性情報（氏名、会員番号、住所、端末装置のＩＰアドレス、年齢、性別、興味関心事など）が蓄積されたサーバである。

処理装置１０は、相互間で文書交信の実績をもつユーザの属性、基本情報及びこれらユーザ間で作成されブログサイト２１に投稿された文書を文書解析して得られたデータに基づいて多変量解析行い、その結果として得られた判定式を用いて、まだ交信実績のない会員同士の共感度を評価するための装置である。処理装置１０は、ブログサイト２１に対して多数のユーザ（記述者）から投稿された日記文書とコメント文書とを照合させ、文書解析処理（マッチング処理）を行うことによって、日記記述者（共感先）とコメント記述者（共感元）との共感度判定を行う。

この場合、処理装置１０は、ブログサーバ２２内に蓄積されている文書を対象として、次の照合１〜４を行う。ここで、処理が行われる当日内（第１の期間）にブログサイト２１へ投稿された文書群を当日文書群（第１文書群）とし、当日よりも過去の所定期間内（第２の期間；例えば前日１日間、当日前２日間、当日前１週間、当日前１ヶ月など）にブログサイト２１へ投稿された文書群を過去文書群（第２文書群）とする。

そして、２人のユーザＡ（第１記述者）とユーザＢ（第２記述者）との共感度を判定する場合には、以下の［照合１］〜［照合４］を実行する。
［照合１］ユーザＡの当日日記文書又は当日コメント文書（第１投稿文書）が前記当日文書群に存在し、ユーザＢの当日コメント文書又は当日日記文書（第２投稿文書）が前記当日文書群に存在するときは、ユーザＡの当日日記文書とユーザＢの当日コメント文書、若しくは、ユーザＢの当日日記文書とユーザＡの当日コメント文書とを照合させる；
［照合２］ユーザＡの当日日記文書又は当日コメント文書が前記当日文書群に存在し、ユーザＢの当日コメント文書又は当日日記文書が前記当日文書群には存在しないが、ユーザＢの過去コメント文書又は過去日記文書（第３投稿文書）が存在するときは、ユーザＡの当日日記文書とユーザＢの過去コメント文書、若しくは、ユーザＢの過去日記文書とユーザＡの当日コメント文書とを照合させる；
［照合３］ユーザＡの当日日記文書又は当日コメント文書が当日文書群に存在しないが、ユーザＡの過去コメント文書又は過去日記文書（第４投稿文書）が過去文書群に存在し、ユーザＢの当日コメント文書又は当日日記文書が当日文書群に存在するときは、ユーザＡの過去日記文書とユーザＢの当日コメント文書、若しくは、ユーザＢの当日日記文書とユーザＡの過去コメント文書とを照合させる；
［照合４］ユーザＡの当日日記文書又は当日コメント文書が当日文書群に存在しないが、ユーザＡの過去コメント文書又は過去日記文書が過去文書群に存在し、ユーザＢの当日コメント文書又は当日日記文書が当日文書群に存在しないが、ユーザＢの過去コメント文書又は過去日記文書が過去文書群に存在するときは、ユーザＡの過去日記文書とユーザＢの過去コメント文書、若しくは、ユーザＢの過去日記文書とユーザＡの過去コメント文書とを照合させる。

図２は、処理装置１０の機能構成を示す機能ブロック図である。処理装置１０は、例えば上記の分類処理等を行うＣＰＵ（中央演算処理装置）を備えた大型のコンピュータ装置であって、ブログサーバ２２及び会員サーバ２３に対してデータ通信可能に接続されている。前記ＣＰＵは、分類処理を行うべくプログラミングされたソフトウェアが実行されることで、図２に示す機能部を具備するように動作する。処理装置１０は、機能的に、文書群抽出部１１、分類処理部１２、解析処理部１３及び文書メモリ１４を備える。

文書群抽出部１１は、ブログサーバ２２に蓄積されている文書データの中から、一人のユーザ毎に、当該ユーザが投稿した日記文書と、他人の日記文書又は他人のコメント文書に呼応して当該ユーザが投稿したコメント文書とを抽出する。文書群抽出部１１により抽出された文書のファイルデータは、文書メモリ１４に一時的に格納される。

分類処理部１２は、文書群抽出部１１により抽出された一人のユーザ単位の文書ファイルデータを、当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書のカテゴリに分類する処理を行う。

解析処理部１３は、ブログサイト２１において文書交信の実績をもつユーザ（例えばユーザＡに対するユーザＢ、Ｃ、Ｄ）の投稿文書同士を文書解析し、つまり、既に共感している者同士の間で交わされた文書を文書解析し、これを多変量解析して共感度を評価するための判定式を導出する。この文書解析としては、各分類対象文書の正規化処理、文書構造解析処理などが行われる。正規化処理は、文書構造解析を正常に行い得るようにするために、分類対象文書から解析に不要な文字、記号等を削除すると共に、全角・半角文字の統一等を行う処理である。文書構造解析処理は、正規化処理後の分類対象文書に対しそれぞれ、例えば形態素解析を実施して文書を単語単位に分割する処理、構文解析処理を実施して単語間の係り受け（名詞と動詞との関係付け等）を特定する処理などである。このような文書構造解析処理のため、解析処理部１３は、同義語及び表記の揺れを吸収するシソーラス（同義語辞書）を活用する。また、多変量解析の手法としては、例えば重回帰分析、判別分析、数量化Ｉ類、数量化II類を採用することができる。この際、前記文書解析で得られたパラメータが、適宜「目的変数」、「説明変数」として設定される。

さらに、解析処理部１３は、上記判定式を用いて、まだ交信実績のないユーザ同士の共感度を評価する処理を行う。この際、分類処理部１２により分類された当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書を用い、上記の［照合１］〜［照合４］を実行して解析すべき文書を特定する。そして、かかる文書について文書解析を行い、上記「目的変数」、「説明変数」となるパラメータを導出し、これを前記判定式に適用してユーザ同士の共感度を数値で評価する。そして、共感度が所定の閾値を超えるユーザの組み合わせが判明した場合、図略の表示手段にその旨を表示させる。

文書メモリ１４は、ユーザ単位の文書ファイルデータ、若しくはカテゴリ分類された文書ファイルデータを一時的に記憶する記憶装置である。

続いて、本実施形態において、上記の［照合１］〜［照合４］を実行させる意義について説明する。図３及び図４は、１つの日記文書を起点とするスレッドの一例を示す模式的な図である。図３に示すスレッド１では、８月１０日にユーザＡがブログサイト２１へ投稿した日記文書４１が起点となっている。この日記文書４１に呼応して、ユーザＢとユーザＣとがコメント文書４２、４３を同日に投稿している。さらに、翌８月１１日に、ユーザＡが、ユーザＣが投稿したコメント文書４３に呼応して、コメント文書４４を投稿している。一方、ユーザＤは、８月１０日にこのスレッド１（ブログサイト２１）の閲覧動作５１を行い、またユーザＥは、８月１１日に閲覧動作５２を行っている。

図４に示すスレッド２では、８月１２日にユーザＢがブログサイト２１へ投稿した日記文書４５が起点となっている。この日記文書４５に呼応して、ユーザＡがコメント文書４６を同日に投稿している。さらに、翌８月１３日に、ユーザＣがコメント文書４６に呼応して、コメント文書４７を投稿している。一方、ユーザＤは、８月１２日にこのスレッド２（ブログサイト２１）の閲覧動作５３を行い、またユーザＥは、８月１３日に閲覧動作５４を行っている。

このようなスレッド１、２に基づけば、ユーザＡ、Ｂ、Ｃは、日々ブログサイト２１に日記文書やコメント文書を投稿しているアクティブユーザである一方で、ユーザＤ、Ｅはブログの閲覧が主体の非アクティブユーザと評価することができる。ここで、共感度判定処理の実行は、ユーザがブログサイト２１へ文書を投稿したことをトリガにすることが最も容易である。この場合は、文書解析すべき日記文書又はコメント文書が当日確実に存在するからである。しかし、このような方式によれば、アクティブユーザ間における共感度判定のみが専ら実行され、非アクティブユーザに対しては共感度判定結果を提示できないことになる。これでは、ユーザＤ、Ｅのような非アクティブユーザにブログサイト２１への投稿を誘発できず、ブログサイト全体の底上げ的な活性化に時間を要してしまう。

このような問題に鑑み本実施形態では、ユーザＤ、Ｅのような非アクティブユーザであっても、過去にブログサイト２１に投稿した実績があれば、その過去投稿文書を利用して他人の文書と照合させ、共感度判定結果を導出するようにしている。これを実現するのが、上記［照合１］〜［照合４］の実行である。これにより、共感度判定を行う当日にブログサイト２１へ投稿を行っていないユーザにも、とりわけ、たまにしかブログサイト２１へ書き込みを行わずブログの閲覧が主体のユーザに対しても、共感度判定結果を提供できるようになる。従って、ブログサイト全体の活性化を促進することが可能となる。

図５は、上述の文書抽出部１１がブログサーバ２２から抽出する文書ファイルデータのデータ構造を模式的に示す図である。各々の文書ファイルデータには、ユーザ番号、ユーザ名、文書データのブログサイト２１への投稿日時、日記文書又はコメント文書の別を示すカテゴリ、各文書ファイルに割り当てられるアドレスなどの整理データと、文書データとが含まれている。

図６は、分類処理部１２の動作を説明するための模式的な図である。分類処理部１２は、各文書ファイルデータの整理データを参照して、ユーザ毎に当日データと過去データとに分類すると共に、さらにこれらを当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書のカテゴリに分類する。そして、分類処理部１２は、この分類に従ったカテゴリ識別子を各文書ファイルデータに付与し、文書メモリ１４に一時的に各文書ファイルデータを記憶させる。

図６の例示では、ユーザＡ及びユーザＢについては、当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書の全ての文書が存在している。これに対し、ユーザＣ、Ｄ、Ｅについては当日データが存在せず、ユーザＣは過去日記文書及び過去コメント文書、ユーザＤは過去日記文書のみ、ユーザＥは過去コメント文書のみが存在している。

解析処理部１３は、分類処理部１２が図６に示すような分類処理を行った場合、ユーザのブログサイト２１への投稿状況に応じて、例えば次のような照合処理（共感度判定のためのマッチング処理）を実行する。

（ユーザＡとユーザＢとの共感度判定）
ユーザＡについては、当日日記文書ａ−ｄ１１、当日コメント文書ａ−ｃ１１、ａ−ｃ１２が存在する。また、ユーザＢについても、当日日記文書ｂ−ｄ１１、当日コメント文書ｂ−ｃ１１、ｂ−ｃ１２、ｂ−ｃ１３が存在する。従って、解析処理部１３は、ユーザＡを共感元、ユーザＢを共感先とするとき、ユーザＡの当日コメント文書ａ−ｃ１１、ａ−ｃ１２とユーザＢの当日日記文書ｂ−ｄ１１とをマッチング処理する。また、ユーザＢを共感元、ユーザＡを共感先とするとき、ユーザＢの当日コメント文書ｂ−ｃ１１、ｂ−ｃ１２、ｂ−ｃ１３とユーザＡの当日日記文書ａ−ｄ１１とをマッチング処理する（上記の「照合１」）。

なお、ユーザＡの当日日記文書ａ−ｄ１１とユーザＢの過去コメント文書ｂ−ｃ２１〜ｂ−ｃ２６とのマッチング処理、ユーザＢの当日日記文書ｂ−ｄ１１とユーザＡの過去コメント文書ａ−ｃ２１〜ａ−ｃ２６・・・とのマッチング処理を実行させても良い。さらに、ユーザＡの過去日記文書ａ−ｄ２１〜ａ−ｄ２６・・・とユーザＢの過去コメント文書ｂ−ｃ２１〜ｂ−ｃ２６とのマッチング処理、ユーザＢの過去日記文書ｂ−ｄ２１〜ｂ−ｄ２４とユーザＡの過去コメント文書ａ−ｃ２１〜ａ−ｃ２６・・・とのマッチング処理を実行させても良い。ここで、過去データ同士の照合においては、過去にマッチング処理がすでに実行されている可能性があるため、マッチング処理済みの文書ペアについてはマッチング処理を実行させないようにすることが望ましい。

（ユーザＡとユーザＣとの共感度判定）
ユーザＣについては、当日データは存在しないが、過去日記文書ｃ−ｄ２１〜ｃ−ｄ２３、及び過去コメント文書ｃ−ｃ２１〜ｃ−ｃ２５が存在する。従って、解析処理部１３は、ユーザＡを共感元、ユーザＣを共感先とするとき、ユーザＡの当日コメント文書ａ−ｃ１１、ａ−ｃ１２とユーザＣの過去日記文書ｃ−ｄ２１〜ｃ−ｄ２３とをマッチング処理する。また、ユーザＣを共感元、ユーザＡを共感先とするとき、ユーザＣの過去コメント文書ｃ−ｃ２１〜ｃ−ｃ２５とユーザＡの当日日記文書ａ−ｄ１１とをマッチング処理する（上記の「照合２」と「照合３」）。なお、ユーザＡとユーザＣとの過去データ同士の照合も実行させても良い（以下のユーザＤ、Ｅについても同じ）。

（ユーザＡとユーザＤとの共感度判定）
ユーザＤについては、当日データは存在しないが、過去日記文書ｄ−ｄ２１〜ｄ−ｄ２４のみが存在する。従って、解析処理部１３は、ユーザＡを共感元、ユーザＤを共感先とする処理のために、ユーザＡの当日コメント文書ａ−ｃ１１、ａ−ｃ１２とユーザＤの過去日記文書ｄ−ｄ２１〜ｄ−ｄ２４とをマッチング処理する。なお、ユーザＤを共感元とするマッチング処理は実行不能である。

（ユーザＡとユーザＥとの共感度判定）
ユーザＥについては、当日データは存在しないが、過去コメント文書ｅ−ｃ２１〜ｅ−ｃ２３のみが存在する。従って、解析処理部１３は、ユーザＥを共感元、ユーザＡを共感先とする処理のために、ユーザＥの過去コメント文書ｅ−ｃ２１〜ｅ−ｃ２３とユーザＡの当日日記文書ａ−ｄ１１とをマッチング処理する。なお、ユーザＥを共感先とするマッチング処理は実行不能である。

（ユーザＣ、ユーザＤ、ユーザＥ間の共感度判定）
これらユーザについては当日データが存在しないので、解析処理部１３は、過去データを用いてマッチング処理を実行する（上記の「照合４」）。例えば、ユーザＣとユーザＤとの共感度判定を実行する場合は、ユーザＣの過去コメント文書ｃ−ｃ２１〜ｃ−ｃ２５とユーザＤの過去日記文書ｄ−ｄ２１〜ｄ−ｄ２４とをマッチング処理する。また、ユーザＣとユーザＥとの共感度判定を実行する場合は、ユーザＥの過去コメント文書ｅ−ｃ２１〜ｅ−ｃ２３とユーザＣの過去日記文書ｃ−ｄ２１〜ｃ−ｄ２３とをマッチング処理する。さらに、ユーザＤとユーザＥとの共感度判定を実行する場合は、ユーザＥの過去コメント文書ｅ−ｃ２１〜ｅ−ｃ２３とユーザＤの過去日記文書ｄ−ｄ２１〜ｄ−ｄ２４とをマッチング処理する。なお、過去にマッチング処理済みの文書ペアについてはマッチング処理を実行させず、図略のメモリに記憶させておいたマッチング結果データを抽出させるようにすることが望ましい。

解析処理部１３は、以上のような照合処理を、定期的に実行し、ブログサイト２１へのユーザのアクセス（ブログサイトの閲覧）をトリガとしてその結果をユーザに報知する。アクティブユーザに対してだけでなく、ブログサイト２１への投稿を過去にしか行っていない非アクティブなユーザ（ユーザＤ、Ｅ）に対しても文書の照合結果を提示することができる。従って、ブログサイト２１全体の活性化を促進することができる。

以上説明した処理装置１０の動作を、図７に示すフローチャートに基づいて説明する。先ず、文書抽出部１１がブログサーバ２２から文書データを抽出し、ユーザ毎に文書データを集積すると共にユーザ単位でナンバリングするソート処理を行う（ステップＳ１）。抽出された文書データは、文書メモリ１４に格納される。

次に、分類処理部１２が、カウンタをｎ＝０に設定し（ステップＳ２）、その後ｎ＝ｎ＋１に設定する（ステップＳ３）。そして、分類処理部１２は、ｎ番目のユーザの文書を抽出し、これらを当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書の別に分類する処理を行う（ステップＳ４）。続いて、分類処理部１２は、ｍ＝ｎに設定し（ステップＳ５）、その後ｍ＝ｍ＋１番目のユーザの文書を抽出し、これらを当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書の別に分類する処理を行う（ステップＳ６）。これにより、例えば上述のユーザＡが１番目、ユーザＢが２番目とナンバリングされている場合は、ユーザＡ及びユーザＢの文書が、当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書にそれぞれ分類されることになる。

しかる後、解析処理部１３により、ｎ番目のユーザとｍ番目のユーザとの文書マッチング処理が実行される（ステップＳ７）。その後、ｍ番目のユーザがナンバリングされたユーザのうちの最終ユーザであるか否かが確認される（ステップＳ８）。ｍが最終ユーザでない場合、ステップＳ６に戻り、ｍが１つインクリメントされて同じ処理が実行される。このループの実行により、例えばユーザＡと、他のユーザとのマッチング処理が全て実行されることになる。

一方、ステップＳ８においてｍが最終ユーザである場合、ｎが最終ユーザの１人前のユーザであるか否かが確認される（ステップＳ９）。ｎが最終ユーザの１人前ではない場合、ステップＳ３に戻り、ｎが１つインクリメントされて同じ処理が実行される。このループの実行により、２番目のユーザＢと、ユーザＡを除く他のユーザとのマッチング処理が実行されることになる。一方、ｎが最終ユーザの１人前である場合、全てのユーザの組み合わせのマッチング処理が完了したことになるので、処理を終える。

図８は、図７のステップＳ４における、分類処理部１２の処理の詳細を示すフローチャートである。分類処理部１２は、文書メモリ１４からｎ番目のユーザの全文書を抽出する（ステップＳ４１）。そして、このユーザが記述した文書（日記文書又はコメント文書）が存在するか否かを判定する（ステップＳ４２）。文書が存在すれば（ステップＳ４２でＹＥＳ）、各文書につき日記文書であるか、又はコメント文書であるかを判定する（ステップＳ４３）。文書が存在しなければ（ステップＳ４２でＮＯ）、図７のステップＳ９へスキップする。

さらに、日記文書と判定されたものの文書群（第１文書群）につき、処理を実行する当日の日記文書が存在するか否かを判定する（ステップＳ４４）。当日の日記文書が存在する場合は（ステップＳ４４でＹＥＳ）、その文書を抽出し、「当日日記文書」に相当するカテゴリ識別子（例えば“ｎ−ｄ１”）を付与する（ステップＳ４５）。ステップＳ４５の後、又は当日の日記文書が存在しない場合は（ステップＳ４４でＮＯ）、過去の日記文書が存在するか否かを判定する（ステップＳ４６）。過去の日記文書が存在する場合は（ステップＳ４６でＹＥＳ）、その文書を抽出し、「過去日記文書」に相当するカテゴリ識別子（例えば“ｎ−ｄ２”）を付与して（ステップＳ４７）、処理を終える。過去の日記文書が存在しない場合は（ステップＳ４６でＮＯ）、そのまま処理を終える。

他方、コメント文書と判定されたものの文書群（第２文書群）につき、当日のコメント文書が存在するか否かを判定する（ステップＳ４８）。当日のコメント文書が存在する場合は（ステップＳ４８でＹＥＳ）、その文書を抽出し、「当日コメント文書」に相当するカテゴリ識別子（例えば“ｎ−ｃ１”）を付与する（ステップＳ４９）。ステップＳ４９の後、又は当日のコメント文書が存在しない場合は（ステップＳ４８でＮＯ）、過去のコメント文書が存在するか否かを判定する（ステップＳ５０）。過去のコメント文書が存在する場合は（ステップＳ５０でＹＥＳ）、その文書を抽出し、「過去コメント文書」に相当するカテゴリ識別子（例えば“ｎ−ｃ２”）を付与して（ステップＳ５１）、処理を終える。過去のコメント文書が存在しない場合は（ステップＳ５０でＮＯ）、そのまま処理を終える。以上の処理により、ｎ番目のユーザの文書群についての、当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書への分類が完了する。

図９は、図７のステップＳ６における、分類処理部１２の処理の詳細を示すフローチャートである。分類処理部１２は、文書メモリ１４からｍ＝ｍ＋１番目のユーザの全文書を抽出する（ステップＳ６１）。そして、このユーザが記述した文書が存在するか否かを判定する（ステップＳ６２）。文書が存在すれば（ステップＳ６２でＹＥＳ）、各文書につき日記文書であるか、又はコメント文書であるかを判定する（ステップＳ６３）。文書が存在しなければ（ステップＳ６２でＮＯ）、図７のステップＳ８へスキップする。

さらに、日記文書と判定されたものの文書群につき、当日の日記文書が存在するか否かを判定する（ステップＳ６４）。当日の日記文書が存在する場合は（ステップＳ６４でＹＥＳ）、その文書を抽出し、「当日日記文書」に相当するカテゴリ識別子（例えば“ｍ−ｄ１”）を付与する（ステップＳ６５）。ステップＳ６５の後、又は当日の日記文書が存在しない場合は（ステップＳ６４でＮＯ）、過去の日記文書が存在するか否かを判定する（ステップＳ６６）。過去の日記文書が存在する場合は（ステップＳ６６でＹＥＳ）、その文書を抽出し、「過去日記文書」に相当するカテゴリ識別子（例えば“ｍ−ｄ２”）を付与して（ステップＳ６７）、処理を終える。過去の日記文書が存在しない場合は（ステップＳ６６でＮＯ）、そのまま処理を終える。

他方、コメント文書と判定されたものの文書群につき、当日のコメント文書が存在するか否かを判定する（ステップＳ６８）。当日のコメント文書が存在する場合は（ステップＳ６８でＹＥＳ）、その文書を抽出し、「当日コメント文書」に相当するカテゴリ識別子（例えば“ｍ−ｃ１”）を付与する（ステップＳ６９）。ステップＳ６９の後、又は当日のコメント文書が存在しない場合は（ステップＳ６８でＮＯ）、過去のコメント文書が存在するか否かを判定する（ステップＳ６９１）。過去のコメント文書が存在する場合は（ステップＳ６９１でＹＥＳ）、その文書を抽出し、「過去コメント文書」に相当するカテゴリ識別子（例えば“ｍ−ｃ２”）を付与して（ステップＳ６９２）、処理を終える。過去のコメント文書が存在しない場合は（ステップＳ６９１でＮＯ）、そのまま処理を終える。以上の処理により、ｍ番目のユーザの文書群についての、当日日記文書、当日コメント文書、過去日記文書及び過去コメント文書への分類が完了する。

図１０は、図７のステップＳ７における、解析処理部１３の処理の詳細を示すフローチャートである。解析処理部１３は、先ず、ｎ番目のユーザを共感元（コメント者）、ｍ番目のユーザを共感先（日記記述者）とし、分類された文書同士を相互にマッチング処理する。解析処理部１３は、ｎ番目のユーザの当日コメント文書ｎ−ｃ１とｍ番目のユーザの当日日記文書ｍ−ｄ１の双方が存在するかを判定する（ステップＳ７１）。双方存在する場合（ステップＳ７１でＹＥＳ）、解析処理部１３は、文書ｎ−ｃ１と文書ｍ−ｄ１とのマッチング処理Ｉを実施し、結果を出力する（ステップＳ７２）。

双方の当日データが存在しない場合は（ステップＳ７１でＮＯ）、次に解析処理部１３は、ｎ番目のユーザの当日コメント文書ｎ−ｃ１とｍ番目のユーザの過去日記文書ｍ−ｄ２の双方が存在するかを判定する（ステップＳ７３）。双方存在する場合（ステップＳ７３でＹＥＳ）、解析処理部１３は、文書ｎ−ｃ１と文書ｍ−ｄ２とのマッチング処理IIを実施し、結果を出力する（ステップＳ７４）。

文書ｎ−ｃ１及び文書ｍ−ｄ２の双方が存在しない場合（ステップＳ７３でＮＯ）、次に解析処理部１３は、ｎ番目のユーザの過去コメント文書ｎ−ｃ２とｍ番目のユーザの当日日記文書ｍ−ｄ１の双方が存在するかを判定する（ステップＳ７５）。双方存在する場合（ステップＳ７５でＹＥＳ）、解析処理部１３は、文書ｎ−ｃ２と文書ｍ−ｄ１とのマッチング処理IIIを実施し、結果を出力する（ステップＳ７６）。

文書ｎ−ｃ２及び文書ｍ−ｄ１の双方が存在しない場合（ステップＳ７５でＮＯ）、最後に解析処理部１３は、ｎ番目のユーザの過去コメント文書ｎ−ｃ２とｍ番目のユーザの過去日記文書ｍ−ｄ２の双方が存在するかを判定する（ステップＳ７７）。双方存在する場合（ステップＳ７７でＹＥＳ）、解析処理部１３は、過去に文書ｎ−ｃ２と文書ｍ−ｄ２とのマッチング処理実績があるか否かを判定する（ステップＳ７８）。マッチング処理実績がない場合（ステップＳ７８でＮＯ）、マッチング処理IVを実施し、結果を出力する（ステップＳ７９）。一方、文書ｎ−ｃ２及び文書ｍ−ｄ２の双方が存在しない場合（ステップＳ７７でＮＯ）、或いは、既にマッチング処理実績がある場合（ステップＳ７８でＹＥＳ）、マッチング処理IVは実施されない。

続いて解析処理部１３は、ｍ番目のユーザを共感元（コメント者）、ｎ番目のユーザを共感先（日記記述者）とするマッチング処理を実行する。解析処理部１３は、ｍ番目のユーザの当日コメント文書ｍ−ｃ１とｎ番目のユーザの当日日記文書ｎ−ｄ１の双方が存在するかを判定する（ステップＳ８０）。双方存在する場合（ステップＳ８０でＹＥＳ）、解析処理部１３は、文書ｍ−ｃ１と文書ｎ−ｄ１とのマッチング処理Vを実施し、結果を出力する（ステップＳ８１）。

双方の当日データが存在しない場合は（ステップＳ８０でＮＯ）、次に解析処理部１３は、ｍ番目のユーザの当日コメント文書ｍ−ｃ１とｎ番目のユーザの過去日記文書ｎ−ｄ２の双方が存在するかを判定する（ステップＳ８２）。双方存在する場合（ステップＳ８２でＹＥＳ）、解析処理部１３は、文書ｍ−ｃ１と文書ｎ−ｄ２とのマッチング処理VIを実施し、結果を出力する（ステップＳ８３）。

文書ｍ−ｃ１及び文書ｎ−ｄ２の双方が存在しない場合（ステップＳ８２でＮＯ）、次に解析処理部１３は、ｍ番目のユーザの過去コメント文書ｍ−ｃ２とｎ番目のユーザの当日日記文書ｎ−ｄ１の双方が存在するかを判定する（ステップＳ８４）。双方存在する場合（ステップＳ８４でＹＥＳ）、解析処理部１３は、文書ｍ−ｃ２と文書ｎ−ｄ１とのマッチング処理VIIを実施し、結果を出力する（ステップＳ８５）。

文書ｍ−ｃ２及び文書ｎ−ｄ１の双方が存在しない場合（ステップＳ８４でＮＯ）、最後に解析処理部１３は、ｍ番目のユーザの過去コメント文書ｍ−ｃ２とｎ番目のユーザの過去日記文書ｎ−ｄ２の双方が存在するかを判定する（ステップＳ８６）。双方存在する場合（ステップＳ８６でＹＥＳ）、解析処理部１３は、過去に文書ｍ−ｃ２と文書ｎ−ｄ２とのマッチング処理実績があるか否かを判定する（ステップＳ８７）。マッチング処理実績がない場合（ステップＳ８７でＮＯ）、マッチング処理VIIIを実施し、結果を出力する（ステップＳ８８）。一方、文書ｍ−ｃ２及び文書ｎ−ｄ２の双方が存在しない場合（ステップＳ８６でＮＯ）、或いは、既にマッチング処理実績がある場合（ステップＳ８７でＹＥＳ）、マッチング処理VIIIは実施されない。

以上で、ｎ番目のユーザとｍ番目のユーザとの共感度判定処理が完了する。図１１（ａ）、（ｂ）は、図１０のフローチャートで示した解析処理部１３の処理内容をまとめた表形式の図である。当日データのみを処理対象とする場合、マッチング処理Ｉ及びマッチング処理Ｖのみしか実行されないことになるが、本実施形態では過去データも処理対象とするので、８つのマッチング処理Ｉ〜VIIIが実行される。これにより、当日に日記やコメントを投稿していないユーザに対しても、共感度判定を提供できる。従って、ブログサイト２１全体の活性化に寄与することができる。

以上、本発明の具体的実施形態につき説明したが、これらは本発明の一例であり、発明の趣旨を逸脱しない範囲において上記実施形態とは異なる態様で実施することができる。例えば、上記実施形態では、ブログサイト２１へ投稿される日記文書及びコメント文書を例示したが、本発明はサイト上で交信される文書データが存在すれば適用可能であり、必ずしも日記文書が対象でなくとも良い。また、記述者は個人でなく、企業、組合、その他コミュニティ等であっても良い。

本発明に係る文書処理方法が適用されるネットワークシステムＳのハードウェア構成を概略的に示す構成図である。処理装置の機能構成を示す機能ブロック図である。１つの日記文書を起点とするスレッドの一例を示す模式的な図である。１つの日記文書を起点とするスレッドの一例を示す模式的な図である。文書抽出部がブログサーバから抽出する文書ファイルデータのデータ構造を模式的に示す図である。分類処理部の動作を説明するための模式的な図である。処理装置の全体動作を示すフローチャートである。図７のステップＳ４における、分類処理部の処理の詳細を示すフローチャートである。図７のステップＳ６における、分類処理部の処理の詳細を示すフローチャートである。図７のステップＳ７における、解析処理部の処理の詳細を示すフローチャートである。解析処理部の処理内容をまとめた表形式の図である。

符号の説明

１０処理装置
１１文書群抽出部
１２分類処理部
１３解析処理部
１４文書メモリ
２０ブログシステム
２１ブログサイト（サイト）
２２ブログサーバ
２３会員サーバ
３０端末装置

Claims

通信ネットワーク上のサイトに多数の記述者から投稿された多数の文書が存在する場合において、異なる記述者が作成した文書同士を相互に照合させて所定の文書解析処理を行う文書処理方法であって、
第１の期間内に前記サイトへ投稿された文書群を第１文書群とし、前記第１の期間よりも過去の第２の期間内に前記サイトへ投稿された文書群を第２文書群とするとき、
第１記述者の第１投稿文書が前記第１文書群に存在し、前記第１記述者とは異なる第２記述者の第２投稿文書が前記第１文書群に存在するときは、前記第１投稿文書と前記第２投稿文書とを照合させ、
前記第１投稿文書が存在し、前記第２投稿文書が存在せず前記第２記述者の第３投稿文書が前記第２文書群に存在するときは、前記第１投稿文書と前記第３投稿文書とを照合させ、
前記第１投稿文書が存在せず前記第１記述者の第４投稿文書が前記第２文書群に存在し、前記第２投稿文書が存在するときは、前記第２投稿文書と前記第４投稿文書とを照合させ、
前記第１投稿文書が存在せず前記第４投稿文書が存在し、前記第２投稿文書が存在せず前記第３投稿文書が存在するときは、前記第３投稿文書と前記第４投稿文書とを照合させる、
ことを特徴とする文書処理方法。
前記第１の期間が、前記文書解析処理を実行する当日の１日間であり、
前記第２の期間が、その当日よりも前の特定の１日間若しくは２日以上の期間である、
ことを特徴とする請求項１に記載の文書処理方法。
前記サイトがブログサイトであって、
前記第１投稿文書及び前記第４投稿文書が前記ブログサイトへ投稿された日記文書であり、前記第２投稿文書及び前記第３投稿文書が前記ブログサイトへ投稿されたコメント文書である、若しくは、
前記第２投稿文書及び前記第３投稿文書が前記ブログサイトへ投稿された日記文書であり、前記第１投稿文書及び前記第４投稿文書が前記ブログサイトへ投稿されたコメント文書である、
ことを特徴とする請求項１又は２に記載の文書処理方法。
前記文書解析処理が、前記第１記述者と前記第２記述者との共感度を判定するための文書解析処理であることを特徴とする請求項３に記載の文書処理方法。