JP2007188123A

JP2007188123A - 文書更新判定方法、システム及びその動作プログラム

Info

Publication number: JP2007188123A
Application number: JP2006003222A
Authority: JP
Inventors: Toshio Ikeda; 利夫池田; Hiroshi Ota; 弘太田
Original assignee: Kansai Electric Power Co Inc
Current assignee: Kansai Electric Power Co Inc
Priority date: 2006-01-11
Filing date: 2006-01-11
Publication date: 2007-07-26

Abstract

【課題】早い処理速度で、エラー率が低く、しかも著作権の保護に留意した文書更新判定方法を提供する。
【解決手段】比較元となる第１文書４１から所定の文字抽出条件に基づいて第１の比較文字４１ａ〜４１ｅを抽出すると共に、比較先となる第２文書４２からも同様な文字抽出条件に基づいて第２の比較文字４２ａ〜４２ｅを抽出し、各々第１の比較文字配列４１０と第２の比較文字配列４２０とを生成する。そして、第１の比較文字配列４１０と第２の比較文字配列４２０との同じ番目の比較文字同士を各々比較する。その結果、第１の比較文字配列４１０と第２の比較文字配列４２０とが全て同一であれば、第１文書４１と第２文書４２とは同一文書（更新なし）であると判定する。一方、両比較文字配列間に相違があれば、第１文書４１と第２文書４２とは異文書（更新あり）であると判定する。
【選択図】図２

Description

本発明は、電子的に作成された文書同士を比較して一方が他方に対して更新情報を含んでいるか否かを自動判定する文書更新判定方法及びシステムに関し、例えばインターネット上のＷＷＷ（World Wide Web）サイトに新規文書が掲載されたか否かの自動判定に好適に用いることができる文書更新判定方法、システム及びその動作プログラムに関するものである。

従来、電子的に作成された２つの文書を比較して、両者が同一文書であるか否かを自動判定する方法として、全文比較法、ハッシュ値比較法、形態素解析法、時間情報取得法及び暗号文比較法などが存在する。各々の方法の概要は次の通りである。

（１）全文比較法；２つの文書の全文字を比較して両者が同一の文章構成であるか否かを判定する方法。
（２）ハッシュ値比較法；２つの文書からそれぞれハッシュ関数によりハッシュ値を取得し、その値を比較することで両者の同一性を判定する方法。
（３）形態素解析法；２つの文書を各々形態素解析して品詞分解し、構成品詞配列レベルで文書同士の合致度を判定する方法。
（４）時間情報取得法；文書更新時に属性情報として記録される更新時間情報に基づいて同一文書であるか否かを判定する方法。
（５）暗号文比較法；文書を暗号化し、暗号化された文字数値配列同士を比較することで更新判定する方法。

因みに、比較すべき文書（文字列）を抽出するための方法も各種存在する。例えば特許文献１には、メモリに蓄積された電子メールのような文字列情報から特定の文字列を抽出する方法が開示されている。また、特許文献２には、ＷＷＷサイトから特定のＷＷＷ文書を取得する方法が開示されている。
特開平１１−２７２７０３号公報特許第２８６７９８６号公報

しかしながら、上記（１）〜（５）の方法には次のような不都合がある。先ず全文比較法は、全文比較を行うため判定エラーは発生しないものの、大量に文書比較を行う場合は処理時間が長くなる。また、処理過程において比較元となる文書を電子的に複写して保管する必要があるため、個人利用以外では著作権（複製権）上の問題が生じ得る。さらに、比較文書同士が実質的には同一文書であるにも拘わらず僅かな文字数差等が存在しているばかりに非同一文書と判定してしまうこととなり、いわゆる「裕度」がなく実質的な同一性判定が行えないという欠点がある。

ハッシュ値比較法は、著作権上の問題は生じないものの、全文比較法と同様に処理速度が遅く、裕度の点でも劣るという問題がある。形態素解析法も、品詞分解を行うため処理速度が非常に遅くなるという問題が有ると共に、品詞配列に関し著作権（複製権、翻案権、同一性保持権）上の問題も生じ得る。一方、時間情報取得法にはこのような問題は生じないが、判定の信頼性が低いという問題がある。すなわち、更新時間の相違が必ずしも両文書の非同一性を示すことにはならず、そもそも更新時間を属性情報として含んでいない文書も存在することから比較自体が行えないケースも生じるという不都合がある。さらに暗号文比較法も、暗号化処理を行うため相応の処理時間を要し、また復号化が可能であれば著作権（翻案権、同一性保持権）上の問題も生じ得る。

以上の通り、従来の文書更新判定方法には、いずれも処理速度やエラー率の問題、或いは著作権上の問題があり、大量の文書の高速更新判定を業として実行させるには不具合があった。本発明は、かかる事情に鑑みてなされたもので、早い処理速度で、エラー率が低く、しかも著作権上の問題も生じない文書更新判定方法、システム及びその動作プログラムを提供することを目的とする。

本発明の請求項１に係る文書更新判定方法は、比較元となる第１文書から所定の文字抽出条件に基づいて抽出された第１の比較文字と、比較先となる第２文書から前記文字抽出条件に基づいて抽出された第２の比較文字とを比較することで、前記第２文書が前記第１文書に対して更新部分を含んで生成された更新文書であるか否かを判定することを特徴とする。

この方法によれば、第１文書及び第２文書からそれぞれ抽出された第１の比較文字及び第２の比較文字の比較処理により更新文書判定が行われるので、上述の全文比較法等に比べて処理時間を大幅に短縮することが可能となる。また、比較元として保存しておくデータは、第１文書自身ではなく第１の比較文字で足りることから、例えば文字抽出を著作性に無関係な間欠抽出とすることで著作権の保護が可能となる。

また、本発明の請求項２に係る文書更新判定方法は、比較元となる第１文書の文字数と、比較先となる第２文書の文字数とを比較して、両者の文字数差が所定の裕度範囲内であるか否かを判定する第１ステップと、両者の文字数差が前記裕度範囲内である場合に、前記第１文書から所定の文字抽出条件に基づいて抽出された第１の比較文字と、前記第２文書から前記文字抽出条件に基づいて抽出された第２の比較文字とを比較することで、前記第２文書が前記第１文書に対して実質的に更新部分を含んで生成された更新文書であるか否かを判定する第２ステップとを含むことを特徴とする。

この方法によれば、先ず第１文書と第２文書との文字数差に基づいて簡易更新判定（第１ステップ）が行われ、両者の文字数差が前記裕度範囲内である場合に第１の比較文字と第２の比較文字との比較処理（第２ステップ）が行われる。すなわち、文字数差が所定の値以上であるときは両文書は非同一文書であると判定し、前記裕度範囲内であるときには比較処理を行って両文書の同一性を判定するものである。これにより、処理速度を一層高速化することができ、一方で裕度を考慮した実質的な同一性判定が行えるようになる。

この場合、前記文字抽出が、文書の先頭文字を基準として規則的に複数の文字を抽出するものである場合において、前記第１の比較文字と第２の比較文字とが同一でない場合に、前記第２文書から先頭文字となる文字位置をシフトさせて新たに第２の比較文字を抽出し、前記第１の比較文字と新たに抽出された第２の比較文字とを比較して前記第２文書が更新文書であるか否かを判定する動作を繰り返すようにすることが望ましい（請求項３）。

この方法によれば、第１の比較文字と第２の比較文字とが同一でない場合において、第２文書について先頭文字となる文字位置をシフトさせて新たな第２の比較文字が抽出され、当該新たな第２の比較文字と第１の比較文字との比較動作が繰り返される。これにより、第１文書と第２文書との間に僅かな相違は存在するものの実質的には同一文書の範疇であるというケースにおいて、両者が同一文書（文書更新なし）であるとする判定を的確に行うことが可能となる。

本発明の請求項４に係る文書更新判定システムは、比較元となる第１文書から所定の文字抽出条件に基づいて抽出された第１の比較文字を記憶する記憶手段と、比較先となる第２文書を取得する文書取得手段と、前記第２文書から前記文字抽出条件に基づいて第２の比較文字を抽出する比較文字抽出手段と、前記記憶手段に記憶されている第１の比較文字と、前記第２の比較文字とを比較することで、前記第２文書が前記第１文書に対して更新部分を含んで生成された更新文書であるか否かを判定する更新判定手段とを含むことを特徴とする。

この構成によれば、記憶手段に記憶されている第１文書の第１の比較文字と、文書取得手段にて取得された第２文書から比較文字抽出手段により抽出された第２の比較文字とが、更新判定手段により比較され、更新文書であるか否かが判定される。すなわち、抽出された比較文字同士の比較により文書更新判定がなされるので、従来の全文比較法等に比べて処理時間を大幅に短縮することが可能となる。また、記憶手段に保存されるデータは、第１文書自身ではなく第１の比較文字であるので、第三者の著作権に配慮した処理が可能となる。

本発明の請求項５に係る文書更新判定システムは、比較元となる第１文書の文字数と、当該第１文書から所定の文字抽出条件に基づいて抽出された第１の比較文字とを記憶する記憶手段と、比較先となる第２文書を取得する文書取得手段と、前記第２文書の文字数をカウントする文字数カウント手段と、前記記憶手段に記憶されている第１文書の文字数と、前記第２文書の文字数との比較結果に基づいて、前記第２文書が前記第１文書に対して更新部分を含んで生成された更新文書であるか否かを判定する第１の更新判定手段と、前記第２文書から前記文字抽出条件に基づいて第２の比較文字を抽出する比較文字抽出手段と、前記記憶手段に記憶されている第１の比較文字と、前記第２の比較文字とを比較することで、前記第２文書が前記更新文書であるか否かを判定する第２の更新判定手段とを含むことを特徴とする。

この構成によれば、記憶手段に記憶されている第１文書の文字数と、文書取得手段にて取得された第２文書について文字数カウント手段により求められた第２文書の文字数とが比較され、第１文書と第２文書との文字数差に基づいた更新判定が第１の更新判定手段により実行される。さらに、記憶手段に記憶されている第１文書の第１の比較文字と、比較文字抽出手段により抽出された第２文書の第２の比較文字との比較処理が第２の更新判定手段により実行可能とされている。これにより、まず第１の更新判定手段により両文書の文字数差を確認して同一性を判定し、明らかな文字数差が存在する場合に両文書は非同一文書であると判定し、そうでない場合については第２の更新判定手段による比較文字同士の比較処理により同一性を再判定するという判定動作を行わせることができる。従って、処理速度を一層高速化することができる文書更新判定システムを提供できるようになる。

この場合、前記第２の更新判定手段は、前記第１文書と第２文書との文字数差が所定の裕度範囲内である場合に判定動作を行うことが望ましい（請求項６）。この構成によれば、第１文書と第２文書との文字数差に鑑みて両文書間に実質的な相違（更新情報）が存在しているか否かを予見し、更新可能性があると予見される場合に第２の更新判定手段により比較文字同士の比較判定が行われる。従って、両文書の相違裕度を考慮した実質的な同一性判定が行えるようになる。

上記いずれかの構成において、前記文書取得手段は、ＷＷＷサイトから前記第２文書を取得することが望ましい（請求項７）。この構成によれば、ＷＷＷサイトに掲載される文書について、第三者の著作権を保護しつつ、高速で文書更新判定を行うことが可能となる。

この場合、前記文書取得手段は、インターネット上で所定のキーワードを用いた検索を所定のサンプリング時間毎に行うことで、ＷＷＷサイトから前記第２文書を取得することが望ましい（請求項８）。この構成によれば、ＷＷＷサイトに掲載される各種文書について、キーワード検索により関連文書に絞りを加えた上で、一定時間間隔で文書更新判定を行うことが可能となる。

上記いずれかの構成において、前記比較文字抽出手段が、文書の先頭文字を基準として規則的に複数の文字を抽出するものであって、前記第１の比較文字と第２の比較文字とが同一でない場合に、前記第２文書から先頭文字となる文字位置をシフトさせて前記比較文字抽出手段に新たな第２の比較文字を抽出させるシフト処理手段を有することを特徴とする（請求項９）。この構成によれば、シフト処理手段により、第１の比較文字と第２の比較文字とが同一でない場合において、第２文書について先頭文字となる文字位置をシフトさせて新たな第２の比較文字が抽出され、当該新たな第２の比較文字と第１の比較文字との比較動作が繰り返される。これにより、第１文書と第２文書との間に僅かな相違は存在するものの実質的には同一文書の範疇であるというケースにおいて、両者が同一文書（文書更新なし）であるとする判定を的確に行うことが可能となる。

この場合、シフト処理手段は、前記第１文書の文字数をｍ、第２文書の文字数をｎとするとき、第２の更新判定手段による初回の判定処理の後、最大でｎ−ｍ回だけ、先頭文字となる文字位置を１文字ずつシフトさせる処理を行う構成とすることができる（請求項１０）。この構成によれば、第１文書と第２文書との文字数差分だけシフト処理が行われるので、文字数差に所定の裕度を設けた場合でも確実に両文書の同一性判定が行えるようになる。

また、上記構成において、第１の更新判定手段は、前記第１文書の文字数をｍ、第２文書の文字数をｎとするとき、ｎ−ｍ＜０の条件のとき、第２文書が前記更新文書であると判定することが望ましい（請求項１１）。第１文書よりも第２文書の方が少ない文字数である場合（ｎ−ｍ＜０）、第２文書について第１文書と同じ条件で比較文字を抽出することが困難となる。つまり、第１の比較文字を流動化させないと第２の比較文字と単純比較ができなくなり、この場合第１の比較文字の流動化には第１文書を記録手段に格納しておくことが不可欠になり、著作権上の問題が生じ得る。上記構成によれば、このような場合に「更新有り」と判定することとなり、処理の適正化を図ることができる。

上記いずれかの構成において、前記第２文書が前記更新文書であると判定された場合に、少なくとも当該第２文書の所在地の記述情報が配信される端末装置を具備することが望ましい（請求項１２）。この構成によれば、例えば新規文書がＷＷＷサイトに掲載された場合に、当該新規文書のＵＲＬ（Uniform Resource Locator）等が端末装置に配信されることとなり、前記端末装置の保持者は、直ちに前記新規文書の存在並びに内容を知見できるようになる。

本発明の請求項１３に係る文書更新判定システムの動作プログラムは、電子情報として文字情報を記憶可能な記憶手段と、外部から文書情報を取得可能な文書取得手段と、所定の演算処理を行う処理手段とを備える文書更新判定システムを動作させるプログラムであって、前記記憶手段に、比較元となる第１文書から所定の文字抽出条件に基づいて抽出された第１の比較文字を記憶させる記憶処理、前記文書取得手段に、比較先となる第２文書を取得させる文書取得処理、前記処理手段に、前記第２文書から前記文字抽出条件に基づいて第２の比較文字を抽出する比較文字抽出処理、及び前記記憶手段に記憶されている第１の比較文字と、前記第２の比較文字とを比較することで、前記第２文書が前記第１文書に対して更新部分を含んで生成された更新文書であるか否かを判定する更新判定処理を実行させることを特徴とする。

また、本発明の請求項１４に係る文書更新判定システムの動作プログラムは、電子情報として文字情報を記憶可能な記憶手段と、外部から文書情報を取得可能な文書取得手段と、所定の演算処理を行う処理手段とを備える文書更新判定システムを動作させるプログラムであって、前記記憶手段に、比較元となる第１文書の文字数と、当該第１文書から所定の文字抽出条件に基づいて抽出された第１の比較文字とを記憶させる記憶処理、前記文書取得手段に、比較先となる第２文書を取得させる文書取得処理、前記処理手段に、前記第２文書の文字数をカウントする文字数カウント処理、前記記憶手段に記憶されている第１文書の文字数と、前記第２文書の文字数との比較結果に基づいて、前記第２文書が前記第１文書に対して更新部分を含んで生成された更新文書であるか否かを判定する第１の更新判定処理、前記第２文書から前記文字抽出条件に基づいて第２の比較文字を抽出する比較文字抽出処理、及び前記記憶手段に記憶されている第１の比較文字と、前記第２の比較文字とを比較することで、前記第２文書が前記更新文書であるか否かを判定する第２の更新判定処理を実行させることを特徴とする。

上記のような文書更新判定方法、システム及びその動作プログラムによれば、比較すべき文書から所定の文字抽出条件でそれぞれ比較文字を抽出し、これらを比較する構成であるので、比較処理を高速化することができる。従って、インターネット上のＷＷＷサイトに逐次掲載される更新文書（新規文書）情報を速やかに取得することができ、例えばユーザに関連深いニュース、ブログ、掲示板上への書き込み等を、ＷＷＷサイトを巡回検索して直ちに取得することが可能となる。また、記録データとして残存させるのは文書自身ではなく、第１文書から抽出した第１の比較文字（及び文字数）であるので、著作権を保護することができる。

以下、図面に基づいて、本発明の実施形態について説明する。
図１は、本発明に係る文書更新判定システムＳのハード構成を示す構成図である。この文書更新判定システムＳは、インターネット回線ＩＮに接続され、Ｗｅｂサイト３（ＷＷＷサイト）をブラウジング可能とされたサーバ装置１と、このサーバ装置１と通信可能とされたパーソナルコンピュータ２１、携帯電話機２２等の端末装置２とから構成されている。

サーバ装置１は、インターネット上で所定のキーワードを用いて一定のサンプリング時間毎に、Ｗｅｂサイト３に対して巡回検索を行い、各種のＷｅｂコンテンツから当該キーワードが含まれる文書データ（ＨＴＭＬファイル等）を抽出すると共に、後記で詳述する手法により更新文書（新規文書）がＷｅｂサイト３上に掲載されたか否かを判定する。そして、更新文書が検出された場合に、その文書の更新日時、ＵＲＬ（当該文書の所在地記述情報）等を前記端末装置２へ配信する。端末装置２は、配信されたＵＲＬに基づき、更新文書の内容を確認したり、或いは統計分析したりするためのもので、端末装置２を構成するパーソナルコンピュータ２１、携帯電話機２２等の保持者は、直ちに前記更新文書の存在並びに内容を知見し、また統計分析等を行うことができる。

Ｗｅｂサイト３は、インターネット回線ＩＮに接続されたコンピュータ（Ｗｅｂサーバ）に記録されているＨＴＭＬファイルや画像ファイル等の各種Ｗｅｂコンテンツが複数登録されている場所である。上述の通りＷｅｂサイト３は、サーバ装置１からのキーワード検索等、ユーザのリクエストに応じて、該当するＨＴＭＬファイルや画像ファイル等を提供する。図１では、「ニュース」に関するＷｅｂサイトＡ、「経済ニュース」に関するＷｅｂサイトＢ、「掲示板」としてのＷｅｂサイトＣ、「ブログ」としてのＷｅｂサイトＤを模式的に例示している。

ここで、本発明に係る文書更新判定システムＳに採用されている更新判定方法の概要を、図２に基づいて説明する。図２（ａ）に示すように、いま比較すべき第１文書４１と第２文書４２とが存在するものとする。例えば既存文書を第１文書４１とし、この第１文書４１に対して第２文書４２が何らかの更新情報を含んでいるか（更新文書若しくは新規文書であるか）を判定するならば、第１文書４１が比較元文書となり、第２文書４２は比較先文書となる。この場合、第１文書４１と第２文書４２との同一性を厳密に求めるならば、両文書の構成文字を全文対比させれば良い（全文比較法）。しかし、全文比較法では処理時間がどうしても長くなってしまう。

そこで本発明では、図２（ｂ）に示すように、比較元となる第１文書４１から所定の文字抽出条件に基づいて第１の比較文字４１ａ〜４１ｅを抽出すると共に、比較先となる第２文書４２からも同様な文字抽出条件に基づいて第２の比較文字４２ａ〜４２ｅを抽出する。ここでの文字抽出条件は、後記で詳述するが、第１文書４１及び第２文書４２の構成文字数（データ長Ｌ；変数）と固定化された抽出文字数（抜き取り文字数Ｃ）とに依存性をもつ間欠抜き取りの算術式で定められる。そして、第１の比較文字４１ａ〜４１ｅが順番に配列されて第１の比較文字配列４１０が生成され、また第２の比較文字４２ａ〜４２ｅが順番に配列されて第２の比較文字配列４２０が生成される。

しかる後、図２（ｃ）に示すように、第１の比較文字配列４１０における第１番目の比較文字４１ａと第２の比較文字配列４２０における第２番目の比較文字４２ａというように、第１の比較文字配列４１０と第２の比較文字配列４２０との同じ番目の比較文字同士が各々比較される。その結果、第１の比較文字配列４１０と第２の比較文字配列４２０とが全て同一であれば、第１文書４１と第２文書４２とは同一文書（更新なし）であると判定する。一方、第１の比較文字配列４１０と第２の比較文字配列４２０との間に相違があれば、第１文書４１と第２文書４２とは異文書（更新あり；更新部分を含んで生成された更新文書若しくは新規文書）であると判定するものである。

なお、第１文書４１と第２文書４２との同一性を判定する簡便な手法として、両文書の構成文字数を単純比較する方法がある。第２文書４２が、第１文書４１に何らかの書き込みを追加して作成された文書であるならば、当然に両文書の文字数に相違が生じるからである。従って、図２に示した更新判定の手法に文字数比較の要素を組み入れることにより、一層合理的な更新判定が行えるようになる。

以上説明した更新判定方法を実現する機能をサーバ装置１は具備する。図３は、サーバ装置１の機能構成を示す機能ブロック図である。このサーバ装置１は、送受信部１１、Ｗｅｂサイト検索部１２（文書取得手段）、文字数カウント部１３（文字数カウント手段）、文字数比較部１４、比較文字抽出部１５、更新判定部１６（更新判定手段）、シフト処理部１７（シフト処理手段）、揮発性のメモリである主記憶装置１８、不揮発性のメモリである外部記憶装置１９（記憶手段）及び全体制御部１００を備えて構成されている。

送受信部１１は、当該サーバ装置１とＬＡＮ等の所定の回線を介して端末装置２との間で、またインターネット回線ＩＮを介してＷｅｂサイト３との間でデータ通信を可能とするためのデータ通信部である。本実施形態において送受信部１１は、Ｗｅｂサイト３に対して検索キーワード等の検索条件情報を送信すると共に、その検索結果を受信する。また、端末装置２に対しては、文書更新ありと判定した場合に、当該文書の所在地を示すＵＲＬ等を送信する。

Ｗｅｂサイト検索部１２は、全体制御部１００から与えられるサンプリング時間毎に、所定の検索条件を設定してＷｅｂサイト３を巡回検索する。例えば法人ＸＹＺ○△社が、自社に関連する記事がインターネット上に掲載されているかを定期的にウォッチングする目的では、例えば検索キーワードを「ＸＹＺ○△」、「ＸＹＺ」、「○△」、「Ｘ○」などと設定してＷｅｂサイト３に対して検索を行う。これにより、図１に示したＷｅｂサイト３のＷｅｂサイトＡ，Ｂ，Ｃ，Ｄ・・・に各々含まれている文書１−１、１−２、文書２−１、２−２、２−３・・・の中から、上記キーワードが含まれている文書が抽出される。かかる検索を行うようにすれば、法人ＸＹＺ○△社に対する社会や顧客の評価情報を速やかに収集することができ、また予期せぬ風評などに対しても速やかな対応が行えるようになる。

文字数カウント部１３は、上記キーワード検索によりヒットした文書の構成文字数をカウントする。このカウントは、所定の文書区画単位で行われる。例えば図４に示すように、図１に示したＷｅｂサイトＡに「ＸＹＺ」というキーワードを含む文書が掲載され、時刻ｔ１におけるＷｅｂサイト検索部１２による検索でヒットした場合、ＷｅｂサイトＡ上の文書を改行タグ５１、５２の存在単位で文書１−１、１−２を区画し、「ＸＹＺ」というキーワードを含む文書１−２を特定して当該文書１−２の文字数をカウントする。

文字数カウント部１３による文字数のカウントは、揮発性のメモリである主記憶装置１８に前記文書１−２の文書情報を一時的に記憶させた上で行われる。ここで、例えばＷｅｂサイトＡ上において前記文書１−２が初めての検索ヒット文書であった場合は、当該文書１−２が今後の比較元となる第１文書と扱われる。そして、その文字数のカウント値が、後述の比較文字抽出部１５で抽出される比較文字と共に不揮発性のメモリである外部記憶装置１９に記憶される。なお、前記文書１−２の文書情報自体は、第三者の著作権に配慮して外部記憶装置１９には記憶させない。

文字数カウント部１３は、前記サンプリング時間毎に、検索ヒット文書について同様な文字数カウントを実行する。例えば時刻ｔ１において、図４に示したような文書１−２がキーワード検索で抽出された後、時刻ｔ１以降の時刻ｔ２において図５に示したように同じキーワード検索にて、前記文書１−２と新たな文書１−３がヒットしたものとする。この場合、時刻ｔ２でヒットした前記文書１−２及び文書１−３が比較先となる第２文書と扱われ、これら文書の文字数が文字数カウント部１３によってカウントされる。そして、その文字数のカウント値は、主記憶装置１８に一時的に格納される。

文字数比較部１４は、外部記憶装置１９に記憶されている第１文書の文字数カウント値と、主記憶装置１８に一時的に記憶されている第２文書の文字数カウント値とを比較する処理を行う。図４及び図５に示した例では、時刻ｔ１でヒットした文書１−２（第１文書）の文字数カウント値と、時刻ｔ２でヒットした前記文書１−２及び文書１−３（第２文書）の文字数カウント値とが比較されることとなる。かかる比較結果に基づいて、後述の更新判定部１６（文字数差判定部１６１；第１の更新判定手段）により、ＷｅｂサイトＡ上に更新文書（新規文書）が掲載されたか否かが第１ステップとして判定される。

比較文字抽出部１５は、第１文書と第２文書との同一性を判定するにあたり、所定の文字抽出条件に従って両文書から比較文字を抽出する処理を行う。すなわち、先に図２に基づいて説明したように、第１文書４１から第１の比較文字４１ａ〜４１ｆ（第１の比較文字配列４１０）を抽出し、また第２文書４２から第２の比較文字４２ａ〜４２ｆ（第２の比較文字配列４２０）を抽出する。

図４及び図５に示した例では、比較文字抽出部１５は、時刻ｔ１でヒットした文書１−２（第１文書）について第１の比較文字を抽出し、これを外部記憶装置１９に記憶させる。そして、時刻ｔ２でヒットした前記文書１−２及び文書１−３（第２文書）について第２の比較文字をそれぞれ抽出し、これを主記憶装置１８に一時的に記憶させる。このようにして抽出された第１及び第２の比較文字は、後述の更新判定部１６（差分判定部１６２；第２の更新判定手段）により同一性が判定され、ＷｅｂサイトＡ上に更新文書（新規文書）が掲載されたか否かが第２ステップとして判定されるものである。

ここで、比較文字抽出部１５による文字抽出手法の具体例について説明する。比較文字抽出部１５は、文書を構成する文字順列から、文書の文字総数（データ長Ｌ）に応じて可及的に一定間隔をおいて一定数（抜き取り文字数Ｃ）の比較文字を抽出することを基本としている。

先ず、抜き取り文字数Ｃ＝６（６文字抜き取り法）の場合を例に挙げて説明する。この場合、データ長Ｌが１〜１５文字である場合は、抜き取り文字数Ｃに比較してデータ長Ｌが少ないことから定間隔抽出ができない。このため、例えば図６に示したように、データ長Ｌに応じて個別に設定された抽出条件に従った文字順列上の位置から、比較文字を抽出する。なお、図６において、抽出位置の欄に描いている丸印は文書中の一つの文字を意味し、黒丸●は比較文字として抽出される文字を、白丸○は抽出されない文字をそれぞれ示す。かかる扱いは、以下の図においても同様である。

次にデータ長Ｌが１６文字以上である場合は、次の位置選定アルゴリズムによって定間隔抽出が実行される。
抜き取り間隔ｒ＝ｉｎｔ｛（Ｌ−１）／５｝
抽出文字位置ｐ＝ｒ＊ｎ＋１
但し、ｎ＝｛０，１，２，３，４，５｝

図７（ａ）〜（ｅ）は、データ長Ｌ＝１６〜２０の場合において、抽出される文字の位置を模式的に示す図である。この場合、抜き取り間隔ｒ＝３となり、文章中の１，４，７，１０，１３，１６番目の文字が抽出されることになる（抽出文字位置ｐ＝｛１，４，７，１０，１３，１６｝）。また、最終抽出文字位置ｐ１６からデータの最終位置までは、図７（ａ）のデータ長Ｌ＝１６のときは０、図７（ｅ）のデータ長Ｌ＝２０のときは４というように、最小＝０〜最大＝４の間で変化する。

抜き取り間隔ｒは、データ長Ｌが増加するにつれて広くなる。図８（ａ）、（ｂ）に示すように、データ長Ｌ＝２１〜２５の間にあっては、抜き取り間隔ｒ＝４となり、文章中の１，５，９，１３，１７，２１番目の文字が抽出されることになる（抽出文字位置ｐ＝｛１，５，９，１３，１７，２１｝）。また、図８（ｃ）、（ｄ）に示すように、データ長Ｌ＝２６〜３０の間にあっては、抜き取り間隔ｒ＝５となり、文章中の１，６，１１，１６，２１，２６番目の文字が抽出されることになる（抽出文字位置ｐ＝｛１，６，１１，１６，２１，２６｝）。なお、データ長Ｌが増加しても、最終抽出文字位置（ｐ２１又はｐ２６）からデータ最終位置までの文字数は、上記と同様に最小＝０〜最大＝４の間で変化することとなる。

このような文字抽出条件は、データ長Ｌが長大化しても同様である。例えば図９（ａ）に示すように、データ長Ｌ＝１００の場合は抜き取り間隔ｒ＝１９となり、文章中の１，２０，３９，５８，７７，９６番目の文字が抽出される（抽出文字位置ｐ＝｛１，２０，３９，５８，７７，９６｝）。また、データ長Ｌ＝１０１の場合は抜き取り間隔ｒ＝２０となり、文章中の１，２１，４１，６１，８１，１０１番目の文字が抽出されるものである（抽出文字位置ｐ＝｛１，２１，４１，６１，８１，１０１｝）。

続いて、図１０及び図１１に、抜き取り文字数Ｃ＝３（３文字抜き取り法）の場合を例示する。この場合、データ長Ｌが１〜６文字である場合は、抜き取り文字数Ｃに比較してデータ長Ｌが少ないことから定間隔抽出ができないので、例えば図１０に示したような抽出条件で、比較文字の抽出が行われる。一方、データ長Ｌが７文字以上である場合は、次の位置選定アルゴリズムによって定間隔抽出が実行される。
抜き取り間隔ｒ＝ｉｎｔ｛（Ｌ−１）／２｝
抽出文字位置ｐ＝ｒ＊ｎ＋１
但し、ｎ＝｛０，１，２｝

図１１（ａ）〜（ｃ）は、データ長Ｌ＝９〜１１の場合において、抽出される文字の位置を模式的に示す図である。図１１（ａ）、（ｂ）に示すように、データ長Ｌ＝９、１０の場合、抜き取り間隔ｒ＝４となり、文章中の１，５，９番目の文字が抽出される（抽出文字位置ｐ＝｛１，５，９｝）。そして、データ長Ｌ＝１１の場合は、抜き取り間隔ｒ＝５となり、文章中の１，６，１１番目の文字が抽出される（抽出文字位置ｐ＝｛１，６，１１｝）。また、この３文字抜き取り法においては、最終抽出文字位置からデータの最終位置までの文字数は、最小＝０、最大＝１のいずれかとなる。

さらに、図１２及び図１３に、抜き取り文字数Ｃ＝１２（１２文字抜き取り法）の場合を例示する。この場合、データ長Ｌが１〜３３文字である場合は、抜き取り文字数Ｃに比較してデータ長Ｌが少ないことから定間隔抽出ができないので、例えば図１２に示したような抽出条件で、比較文字の抽出が行われる。一方、データ長Ｌが３４文字以上である場合は、次の位置選定アルゴリズムによって定間隔抽出が実行される。
抜き取り間隔ｒ＝ｉｎｔ｛（Ｌ−１）／１１｝
抽出文字位置ｐ＝ｒ＊ｎ＋１
但し、ｎ＝｛０，１，２，３，４，５，６，７，８，９，１０，１１｝

図１３（ａ）〜（ｄ）は、データ長Ｌ＝３４，３５，４４，４５の場合において、抽出される文字の位置を模式的に示す図である。図１３（ａ）〜（ｃ）に示すように、データ長Ｌ＝３４，３５・・・４４の場合、抜き取り間隔ｒ＝３となり、文章中の１，４，７，１０，１３，１６，１９，２２，２５，２８，３１，３４番目の文字が抽出される（抽出文字位置ｐ＝｛１，４，７，１０，１３，１６，１９，２２，２５，２８，３１，３４｝）。そして、データ長Ｌ＝４５の場合は、抜き取り間隔ｒ＝４となり、文章中の１，５，９，１３，１７，２１，２５，２９，３３，３７，４１，４５番目の文字が抽出される（抽出文字位置ｐ＝｛１，５，９，１３，１７，２１，２５，２９，３３，３７，４１，４５｝）。また、この１２文字抜き取り法においては、最終抽出文字位置からデータの最終位置までの文字数は、最小＝０〜最大＝１０の間で変化することになる。

このように、文書の先頭文字を基準としてデータ長Ｌに応じた均等間隔で比較文字を抽出する位置選定アルゴリズムを用いて、比較文字抽出部１５は検索でヒットした文書からそれぞれ比較文字を抽出する。ここで挙げた位置選定アルゴリズムは一例であり、抜き取り文字数を変えたり、或いは各種公知の他の位置選定アルゴリズムを用いたりしても良い。

図３に戻って、更新判定部１６は、比較元の第１文書と比較先の第２文書との同一性を、文字数比較部１４による文字数カウント値の比較結果、及び比較文字抽出部１５で抽出された第１の比較文字と第２の比較文字との比較に基づいて、第２文書が前記第１文書に対して実質的に更新部分を含んで生成された更新文書（新規文書）であるか否かを判定する。この更新判定部１６は、文字数差判定部１６１、差分判定部１６２及びリライト部１６３を備えて構成されている。

文字数差判定部１６１は、文字数比較部１４による第１文書と第２文書との文字数カウント値比較結果に基づいて、第１文書と第２文書とが同一文書であるか否かを判定する。図４及び図５に示した例に当てはめるならば、時刻ｔ１でヒットした文書１−２（第１文書）の文字数カウント値と、時刻ｔ２でヒットした文書１−２及び文書１−３（第２文書）の文字数カウント値との比較結果に基づいて、時刻ｔ２における文書１−２及び文書１−３が更新文書であるか否かを判定する。例えば、時刻ｔ１でヒットした文書１−２と、時刻ｔ２でヒットした文書１−２とが同一文書であるならば、当然に両者の文字数カウント値も一致することから、この場合、文字数差判定部１６１は両文書を同一文書（更新なし）と判定する。

これに対し、時刻ｔ１〜ｔ２の間に文書１−２に何らかの文字が追記され文書更新されたときは、両者の文字数カウント値も異なることとなる。この場合、文字数差判定部１６１は所定の裕度範囲（図１４に基づき後述する）内である場合を除き、両文書を異文書（更新あり）と判定する。また、前記文書１−３が時刻ｔ２で初めてヒットした文書である場合、文書１−３と時刻ｔ１でヒットした文書１−２との文字数カウント値は、殆どの場合相違するのが一般的であるので、この場合も、文字数差判定部１６１は両文書を異文書（更新あり）と判定する。なお、たまたま文書１−２と文書１−３との文字数差が前記裕度範囲内にある場合は、両文書はこの段階においては異文書であるか否かの判定は留保され、差分判定部１６２による判定に委ねられる。

差分判定部１６２は、図２（ｃ）で説明したように、比較文字抽出部１５で抽出された第１文書４１の第１の比較文字４１ａ〜４１ｆ（第１の比較文字配列４１０）と、第２文書４２の第２の比較文字４２ａ〜４２ｆ（第２の比較文字配列４２０）とを比較することで、第１文書４１と第２文書４２との同一性を判定する。差分判定部１６２は、比較文字の全てが同一である場合は両文書を同一文書（更新なし）と判定し、いずれか一つでも比較文字が相違している場合は両文書を異文書（更新あり）と判定する。例えば、上記文書１−２と文書１−３との同一性判定が文字数差判定部１６１において留保された場合でも、両文書が異文書であれば各々の文書から抽出された比較文字同士がまず同一になることは無い。従って、時刻ｔ２で初めてヒットした文書１−３を更新文書（新規文書）と判定することができる。

リライト部１６３は、更新文書が新たに抽出された場合に、外部記憶装置１９に記憶されている文字数カウント値及びその比較文字についてのデータを、新たな文書についてのデータに書き換えたり、或いは新規登録したりする。図４及び図５に示した例ならば、ＷｅｂサイトＡにおいて時刻ｔ１で初めて文書１−２がヒットした場合、リライト部１６３は、この文書１−２について文字数カウント部１３で得られた文字数カウント値と、比較文字抽出部１５で抽出された比較文字とを新たに外部記憶装置１９に書き込む。

次に、時刻ｔ２でヒットした文書１−２及び／又は文書１−３が更新文書（新規文書）であると文字数差判定部１６１若しくは差分判定部１６２で判定された場合、リライト部１６３は、時刻ｔ２における文書１−２についての文字数カウント値と比較文字、及び／又は、文書１−３についての文字数カウント値と比較文字を外部記憶装置１９に書き込む。以上のような文字数の比較及び比較文字の比較に基づく文書更新判定と、データのリライトとが、サンプリング時間が到来する度に繰り返されるものである。

上記文字数差判定部１６１は、文字数比較部１４による第１文書と第２文書との文字数カウント値比較結果が１つでも相違していれば全て「更新あり」と判定するのではなく、両者の文字数差が所定の裕度範囲である場合は、カウント値が相違していても直ちに「更新あり」と判定せず、差分判定部１６２による比較文字判定に更新判定を委ねるように構成されている。これは、第１文書と第２文書との間に僅かな相違は存在するものの実質的には同一文書の範疇であるというケースにおいて、「更新なし」との判定を可能とする裕度を持たせるためである。

例えば図１４（ａ）に示すように、時刻ｔ１１で文書Ａ（第１文書）が所定のキーワード「ＸＹＺ」を含む文書としてＷｅｂサイト検索部１２により抽出されたものとする。そして、時刻ｔ１１より後の時刻ｔ１２で、図１４（ｂ）に示すように、同じくキーワード「ＸＹＺ」を含む文書として文書Ｂ（第２文書）が抽出されたものとする。ここで、文書Ｂの殆どの部分が文書Ａの引用で構成され、僅かな追加文章（「了解です。」という５文字）が付加されたに過ぎない場合、文書Ｂは文書Ａと実質的に同一文書と扱うことができる。この場合、文字数差に裕度を持たせないと文書Ｂは直ちに更新文書と判定され、更新文書情報が端末装置２に配信されてしまうことになり、端末装置２を保持するユーザに重複感を抱かせたり、実質に即した統計情報を生成できなくなったりする危惧がある。

このような問題を解消できるよう、文字数差判定部１６１には適宜な裕度が設定される。一例を挙げるならば、文書Ａの文字数カウント値に対して文書Ｂの文字数カウント値が５％以上増加している場合、又は文書Ｂの文字数カウント値が３０文字以上多い場合等について「更新あり」と判定し、それ以外は判定を留保するように判定基準を設定することができる。

文書Ａと文書Ｂとの文字数差が所定の裕度範囲である場合、シフト処理部１７（図３参照）により、文書Ｂについて先頭文字位置を１文字ずつシフトさせながら、比較文字抽出部１５に第２の比較文字を抽出させるシフト処理が、最大で文書Ａと文書Ｂとの文字数差回だけ実行される。そして、差分判定部１６２により、シフト処理の度に抽出される第２の比較文字と、外部記憶装置１９に記憶されている文書Ａについての第１の比較文字とが比較され、文書Ａと文書Ｂとの同一性が判定される。

図１５及び図１６は、シフト処理の具体例を説明するための模式図である。ここでは、６文字抜き取り法を採用し、図１５（ａ）、（ｂ）に示すように、文書Ａ（第１文書）の文字数ｍ＝９６文字、文書Ｂ（第２文書）の文字数ｎ＝１００文字である場合を想定する。６文字抜き取り法の場合、先に説明した文書抽出アルゴリズムによれば、文書Ａ及び文書Ｂのいずれも抜き取り間隔ｒ＝１９となり、文章中の１，２０，３９，５８，７７，９６番目の文字（ｐ１，ｐ２０，ｐ３９，ｐ５８，ｐ７７，ｐ９６）が、各々第１の比較文字及び第２の比較文字として抽出される。

この場合、シフト処理部１７は、先ず図１６（ａ）に示すように、先頭文字（ｐ１）の位置を一致させて第２の比較文字を抽出するよう比較文字抽出部１５に指示を与え、かかる指示に基づき抽出された文書Ａ及び文書Ｂの比較文字ｐ１，ｐ２０，ｐ３９，ｐ５８，ｐ７７，ｐ９６同士の同一性が差分判定部１６２にて判定される。ここで、両者の比較文字が同一であると判定された場合、シフト処理部１７はその後のシフト処理の実行を中止する。

一方、両者の比較文字が同一でないと判定された場合、図１６（ｂ）に示すように、シフト処理部１７は比較文字抽出部１５に、先頭文字となる文字位置を１文字分だけシフトさせて文書Ｂから第２の比較文字を抽出させる。従って、ここで抽出される第２の比較文字は、当初の抽出位置から１文字分シフトされた位置の比較文字ｐ１＋１，ｐ２０＋１，ｐ３９＋１，ｐ５８＋１，ｐ７７＋１，ｐ９６＋１が抽出されることとなる。これを模式的に説明すると、文書Ａの先頭文字位置を文書Ｂの先頭文字位置に対して１文字分だけシフトして重ね合わせ、比較文字同士を比較することとなる。図１６（ｂ）は、このような視点から描かれた図である。

その後、差分判定部１６２により、文書Ａの比較文字ｐ１と文書Ｂの比較文字ｐ１＋１、文書Ａの比較文字ｐ２０と文書Ｂの比較文字ｐ２０＋１というように、比較文字の同一性が判定される。ここでも、両者の比較文字が同一であると判定された場合、シフト処理部１７はその後のシフト処理の実行を中止する。一方、両者の比較文字が同一でないと判定された場合は、上記と同様にして１文字分シフトさせるシフト処理がシフト処理部１７により順次実行される。図１６（ｃ）は、４文字分シフトさせた状態を示す図である。この場合の第２の比較文字としては、当初の抽出位置から１文字分シフトされた位置の比較文字ｐ１＋４，ｐ２０＋４，ｐ３９＋４，ｐ５８＋４，ｐ７７＋４，ｐ９６＋４が抽出される。

このように、最大で文書Ｂの文字数ｎ（１００文字）と文書Ａの文字数ｍ（９６文字）の差である４回だけシフト処理が実行される（差分判定部１６２の比較判定処理は初回を含めて５回実行される）。かかるシフト処理を行うようにすることで、図１４に例示したように、文書Ａと文書Ｂとの間に僅かな相違は存在するものの実質的には同一文書の範疇であるというケースにおいて、両者が同一文書（文書更新なし）であるとする判定を的確に行えるようになる。特に、最大で文書Ａと文書Ｂとの文字数差分だけシフト処理を行うようにすることで、文字数差に所定の裕度を設けた場合でも確実に両文書の同一性判定が行えるようになる。

上記では、文書Ｂの文字数ｎが文書Ａの文字数ｍよりも多い（ｎ−ｍ＞０）ことを前提で説明したが、文書Ａの文字数ｍの方が文書Ｂの文字数ｎよりも多い（ｎ−ｍ＜０）場合は、文字数差判定部１６１は直ちに文書Ｂが更新文書であると判定する。このようなケースでは上述のシフト処理を行うことができず、文書Ｂについて文書Ａと同じ条件で比較文字を抽出することができないからである。対策として文書Ａから第１の比較文字を再抽出する方法（第１の比較文字の流動化）も考えられるが、これを実行するには文書Ａ自体の文字情報を外部記憶装置１９に保存させる必要が有ることから、著作権上の問題が生じ得る。従って、かかるケースでは、文書Ｂを更新文書として取り扱うことが便宜である。

図３に戻って、主記憶装置１８は、ＲＡＭ（Random Access Memory）等の揮発性メモリからなり、Ｗｅｂサイト検索部１２による検索によりヒットした文書（文書Ｂ）の文書情報、文字数カウント部１３によりカウントされたヒット文書の文字数カウント値、比較文字抽出部１５で抽出された比較文字（第２の比較文字）等が一時的に格納される。

外部記憶装置１９は、ＥＥＰＲＯＭ（Electrically Erasable and Programmable Read Only Memory）等の書き換え可能な不揮発性メモリからなり、比較元となる文書（文書Ａ）の文字数カウント値と比較文字（第１の比較文字）が格納される。

全体制御部１００は、ＣＰＵ（Central Processing Unit）等からなり、サーバ装置１内の各種機能部の動作を司る。例えば全体制御部１００は、Ｗｅｂサイト検索部１２に所定のサンプリング周期で検索指示信号を与え、送受信部１１を介してＷｅｂサイト３の検索を行わせたり、更新判定部１６において更新文書が検出された場合に、端末装置２に対して当該更新文書のＵＲＬ情報等を配信したりする制御を行う。

以上の通り構成された文書更新判定システムＳによれば、比較すべき文書Ａ及び文書Ｂから所定の文字抽出条件でそれぞれ比較文字を抽出し、これらを比較する構成であるので、従来の全文比較法等に比べて比較処理を高速化することができる。従って、Ｗｅｂサイト３に逐次掲載される更新文書（新規文書）情報を速やかに取得することができ、ユーザに関連深いニュース、ブログ、掲示板上への書き込み等を、巡回検索により直ちに取得して端末装置２へ配信することが可能となる。また、電源供給を停止しても記憶データが保持される不揮発性メモリ（外部記憶装置１９）に記録データとして残存させるのは文書Ａの文字情報自体ではなく、文書Ａから抽出された第１の比較文字及び文字数であるので、著作権も保護できるという利点がある。

ここで、本発明に係る文書更新判定システムＳの誤判定率について説明しておく。誤判定のパターンとしては、図１７に示すように、実際は同一文書であるにも拘わらず「更新あり」と判定してしまうエラーパターン（１）と、実際は更新文書であるにも拘わらず「更新なし」と判定してしまうエラーパターン（２）とがある。エラーパターン（１）では、端末装置２を保有するユーザは、過去に通知された更新文書情報を再度受け取ることになるが、この場合は影響度が小さいと言うことができる。これに対し、エラーパターン（２）では、極めて重要な更新文書情報をユーザが受け取れないという不具合が発生し得ることから、影響度が大きい。従って、エラーパターン（２）に係る誤判定の発生確率について検討する。

この場合、誤判定率Ｇは次に示す誤判定率計算式で一般的に求めることができる。

図１８は、６文字抜き取り法において、上記誤判定率計算式を用いて求めた誤判定率Ｇを示す表形式の図である。図１８に示すように、全体文字数（データ長）Ｌが４以下である場合、この文字抽出方式では全文字抽出となるので、誤判定率Ｇはゼロとなる。一方、部分抽出となる全体文字数Ｌ＞４の領域において、最大の誤差が表れるのは、Ｌ＝５の場合における１．６×１０Ｅ^−８である。

この誤判定率Ｇ＝１．６×１０Ｅ^−８という値は、１時間当たり５０回の文書更新判定を行うとした場合（年間で４×１０Ｅ^＋６回だけ文書更新判定を実行）、誤判定を行ってしまう確率は概ね１００年に１回であり、実用上は何ら問題にならない発生確率であると言うことができる。

さらに、図１９は、全体文字数と誤判定率Ｇとの関係を示すグラフである。この図１９に示すように、全体文字数が増加しても、６文字程度を抜き取って得た比較文字配列同士の比較で、実用上問題のない誤判定率Ｇを確保できることが分かる。

以上説明した本実施形態に係る文書更新判定システムＳの動作を、図２０、図２１に示すフローチャートに基づいて説明する。ここでは、比較元となる第１文書を「文書Ａ」、比較先となる第２文書を「文書Ｂ」とし、既に外部記憶装置１９（図３参照）に文書Ａの全体文字数ｍと、当該文書Ａから抽出された第１の比較文字とが記憶されているものとして、処理フローを説明する。

図２０は、文書更新判定システムＳの全体的な処理フローを示すフローチャートである。処理が開始されると、サーバ装置１の全体制御部１００により、予め設定されているサンプリング時間に基づいて、検索実行時刻であるか否かが確認される（ステップＳ１）。検索実行時刻が到来すると（ステップＳ１でＹＥＳ）、全体制御部１００はＷｅｂサイト検索部１２に検索指示信号を与え、これを受けてＷｅｂサイト検索部１２はＷｅｂサイト３に対してキーワード検索等を行う（ステップＳ２）。上記サンプリング時間は適宜に設定して良いが、例えば３０分〜３時間程度の範囲内で設定すれば良い。

Ｗｅｂサイト３の検索の結果、ヒット文書（文書Ｂ）が存在したか否かが全体制御部１００により確認される（ステップＳ３）。ヒット文書が存在した場合（ステップＳ３でＹＥＳ）、そのヒット文書の文字データが揮発性のメモリである主記憶装置１８に一時的に格納され、文書更新判定処理（図２１に詳細フローを示している）が実行される（ステップＳ４）。一方、ヒット文書が存在しなかった場合（ステップＳ３でＮＯ）、ステップＳ１へ戻り、次の検索実行時刻まで待機する。

続いて、ステップＳ４の文書更新判定処理において、「更新あり」との判定が行われたか否かが全体制御部１００により確認される（ステップＳ５）。判定結果＝「更新あり」であった場合（ステップＳ５でＹＥＳ）、全体制御部１００は、そのヒット文書の所在地の記述情報（ＵＲＬ等）を端末装置２に配信する（ステップＳ６）。そして、更新判定部１６のリライト部１６３により、前記ヒット文書の全体文字数（文書Ｂの全体文字数ｎ）と、当該ヒット文書から抽出された比較文字（第２の比較文字）とが、外部記憶装置１９に書き込まれる（ステップＳ７）。この際、主記憶装置１８に一時的に格納されたヒット文書の文字データは消去される。その後、ステップＳ１へ戻り、次の検索実行時刻まで待機する。なお、判定結果＝「更新なし」であった場合は（ステップＳ５でＮＯ）、上記ステップＳ６、ステップＳ７をスキップしてステップＳ１へ戻る。

次に、上記ステップＳ４の文書更新判定処理フローの詳細について、図２１に示すフローチャートに基づいて説明する。処理が開始されると、検索でのヒット文書であり比較先となる文書Ｂの全体文字数ｎが、文字数カウント部１３によりカウントされる（ステップＳ１１）。この文字数カウント値は、主記憶装置１８に一時的に格納される。

そして、第１ステップとして、文字数比較部４により文書Ｂの全体文字数ｎと、外部記憶装置１９に格納されている文書Ａの全体文字数ｍとが比較され、続いて更新判定部１６の文字数差判定部１６１により、両者の文字数差が所定の裕度範囲内であるか否かが確認される（ステップＳ１２）。ここでは、裕度の閾値として、カバー率９５％以上であるか否か（文字数ｎが文字数ｍに対して文字数差率で５％以上多いか）、又は文字数ｎが文字数ｍよりも３０文字以上多いか否かを設定している例を示している。この裕度は、適宜変更しても良い。

文字数差の比較の結果、所定の裕度範囲内に該当しない場合（ステップＳ１２でＮＯ）、文字数差判定部１６１は「更新あり」との判定を行う（ステップＳ１３）。このステップＳ１３の判定が行われる条件は、上記で例示した裕度閾値を用いると、次の条件式
ｎ−ｍ＜０ｏｒ（ｎ−ｍ）／ｎ≧０．０５ｏｒ（ｎ−ｍ）≧３０
を満たす場合となる。なお、ｎ−ｍ＜０の場合に直ちに「更新あり」と判定するのは、上述した通り文書Ａの文字データ自体を外部記憶装置１９では保管しないことによる。

一方ステップＳ１２において、ド・モルガンの定理より、例えば次の条件式を満たす場合は、所定の裕度範囲内に該当する（ステップＳ１２でＹＥＳ）ものとして、この第１ステップでは更新判定は留保される。
ｎ−ｍ≧０ａｎｄ（ｎ−ｍ）／ｎ＜０．０５ａｎｄ（ｎ−ｍ）＜３０

この場合、第２ステップとして、比較文字抽出部１５により文書Ｂから第２の比較文字を抽出する処理が実行される。先ず、文書Ａの全体文字数ｍと抜き取り文字数に応じた比較文字配置テーブル（図６〜図１３参照）から、文書Ｂの比較文字抽出位置が取得される（ステップＳ１４）。前記比較文字配置テーブルは、例えば外部記憶装置１９に記憶させておき、比較文字抽出部１５により適宜読み出されるように構成することが望ましい。

その後、シフト処理部１７により、シフト処理のためのカウンタｔ＝１が設定された上で（ステップＳ１５）、上記ステップＳ１４で特定された比較文字抽出位置＋（ｔ−１）を文書Ｂに適用して、比較文字抽出部１５により文書Ｂから第２の比較文字が抽出される（ステップＳ１６）。この第２の比較文字は、主記憶装置１８に一時的に格納される。

そして、先に図２で説明したように、差分判定部１６２により、前記第２の比較文字配列と、外部記憶装置１９に保管されている文書Ａについての第１の比較文字配列とが比較され、両者の同一性が判定される（ステップＳ１７）。ここで、両者の比較文字配列が同一である場合（ステップＳ１７でＹＥＳ）、差分判定部１６２は「更新なし」との判定を行う（ステップＳ１８）。

これに対し、両者の比較文字配列が同一でない場合（ステップＳ１７でＮＯ）、差分判定部１６２は「更新の可能性有り」との判定を行う。そして、シフト処理部１７により、カウンタｔの値が確認され（ステップＳ１９）、カウンタｔの値が文書Ａ、Ｂの文字数差（ｔ＝ｎ−ｍ）に達している場合（ステップＳ１９でＹＥＳ）は、所要のシフト処理が完了されていることになるので、「更新あり」との判定がなされる（ステップＳ２０）。

一方、カウンタｔの値が文書Ａ、Ｂの文字数差（ｔ＝ｎ−ｍ）まで達していない場合（ステップＳ１９でＮＯ）は、カウンタｔの値が１だけインクリメントされ（ステップＳ２１）、ステップＳ１６に戻って処理が繰り返される。例えば、２回目の比較処理の場合、ｔ＝２となるので、文字抽出位置は１文字分だけシフトされ（図１６（ａ）→（ｂ）参照）、新たに抽出された第２の比較文字配列と第１の比較文字配列とが比較されるものである。

以上、本発明の実施形態につき説明したが、本発明はこれに限定されるものではなく、種々の変形実施が可能である。例えば上記実施形態では、文書の取得先をＷｅｂサイト３としたが、ローカルな文書データベース等としても良い。また、キーワード検索の代わりに、他の検索キーを用いるようにしても良い。或いは、検索対象とするＷｅｂサイトに絞りを加える一方で、キーワード検索を行わず全文書を更新判定対象としても良い。

本発明に係る文書更新判定システムＳのハード構成を示す構成図である。本発明に係る更新判定方法の概要を説明するための説明図である。サーバ装置１の機能構成を示す機能ブロック図である。キーワード検索にて抽出される文書を説明するための説明図である。キーワード検索にて抽出される文書を説明するための説明図である。文字抽出手法（６文字抜き取り法）の具体例を模式的に示す模式図である。文字抽出手法（６文字抜き取り法）の具体例を模式的に示す模式図である。文字抽出手法（６文字抜き取り法）の具体例を模式的に示す模式図である。文字抽出手法（６文字抜き取り法）の具体例を模式的に示す模式図である。文字抽出手法（３文字抜き取り法）の具体例を模式的に示す模式図である。文字抽出手法（３文字抜き取り法）の具体例を模式的に示す模式図である。文字抽出手法（１２文字抜き取り法）の具体例を模式的に示す模式図である。文字抽出手法（１２文字抜き取り法）の具体例を模式的に示す模式図である。本実施形態で採用されている裕度の考え方を説明するための説明図である。本実施形態で採用されているシフト処理の一例を説明するための説明図である。本実施形態で採用されているシフト処理の一例を説明するための説明図である。文書更新判定システムＳの誤判定率について説明するための表形式の図である。６文字抜き取り法において、上記誤判定率計算式を用いて求めた誤判定率Ｇを示す表形式の図である。全体文字数と誤判定率Ｇとの関係を示すグラフである。文書更新判定システムＳの全体的な処理フローを示すフローチャートである。文書更新判定処理フローの詳細を示すフローチャートである。

符号の説明

１サーバ装置
１１送受信部
１２サイト検索部（文書取得手段）
１３文字数カウント部（文字数カウント手段）
１４文字数比較部
１５比較文字抽出部（比較文字抽出手段）
１６更新判定部（更新判定手段）
１６１文字数差判定部（第１の更新判定手段）
１６２差分判定部（第２の更新判定手段）
１６３リライト部
１７シフト処理部（シフト処理手段）
１８主記憶装置
１９外部記憶装置（記憶手段）
２端末装置
３Ｗｅｂサイト（ＷＷＷサイト）
４１第１文書
４２第２文書

Claims

比較元となる第１文書から所定の文字抽出条件に基づいて抽出された第１の比較文字と、比較先となる第２文書から前記文字抽出条件に基づいて抽出された第２の比較文字とを比較することで、前記第２文書が前記第１文書に対して更新部分を含んで生成された更新文書であるか否かを判定することを特徴とする文書更新判定方法。
比較元となる第１文書の文字数と、比較先となる第２文書の文字数とを比較して、両者の文字数差が所定の裕度範囲内であるか否かを判定する第１ステップと、
両者の文字数差が前記裕度範囲内である場合に、前記第１文書から所定の文字抽出条件に基づいて抽出された第１の比較文字と、前記第２文書から前記文字抽出条件に基づいて抽出された第２の比較文字とを比較することで、前記第２文書が前記第１文書に対して実質的に更新部分を含んで生成された更新文書であるか否かを判定する第２ステップと
を含むことを特徴とする文書更新判定方法。
前記文字抽出が、文書の先頭文字を基準として規則的に複数の文字を抽出するものである場合において、
前記第１の比較文字と第２の比較文字とが同一でない場合に、前記第２文書から先頭文字となる文字位置をシフトさせて新たに第２の比較文字を抽出し、
前記第１の比較文字と新たに抽出された第２の比較文字とを比較して前記第２文書が更新文書であるか否かを判定する動作を繰り返すことを特徴とする請求項１又は２に記載の文書更新判定方法。
比較元となる第１文書から所定の文字抽出条件に基づいて抽出された第１の比較文字を記憶する記憶手段と、
比較先となる第２文書を取得する文書取得手段と、
前記第２文書から前記文字抽出条件に基づいて第２の比較文字を抽出する比較文字抽出手段と、
前記記憶手段に記憶されている第１の比較文字と、前記第２の比較文字とを比較することで、前記第２文書が前記第１文書に対して更新部分を含んで生成された更新文書であるか否かを判定する更新判定手段と
を含むことを特徴とする文書更新判定システム。
比較元となる第１文書の文字数と、当該第１文書から所定の文字抽出条件に基づいて抽出された第１の比較文字とを記憶する記憶手段と、
比較先となる第２文書を取得する文書取得手段と、
前記第２文書の文字数をカウントする文字数カウント手段と、
前記記憶手段に記憶されている第１文書の文字数と、前記第２文書の文字数との比較結果に基づいて、前記第２文書が前記第１文書に対して更新部分を含んで生成された更新文書であるか否かを判定する第１の更新判定手段と、
前記第２文書から前記文字抽出条件に基づいて第２の比較文字を抽出する比較文字抽出手段と、
前記記憶手段に記憶されている第１の比較文字と、前記第２の比較文字とを比較することで、前記第２文書が前記更新文書であるか否かを判定する第２の更新判定手段と
を含むことを特徴とする文書更新判定システム。
前記第２の更新判定手段は、前記第１文書と第２文書との文字数差が所定の裕度範囲内である場合に判定動作を行うことを特徴とする請求項５に記載の文書更新判定システム。
前記文書取得手段は、ＷＷＷサイトから前記第２文書を取得することを特徴とする請求項４又は５に記載の文書更新判定システム。
前記文書取得手段は、インターネット上で所定のキーワードを用いた検索を所定のサンプリング時間毎に行うことで、ＷＷＷサイトから前記第２文書を取得することを特徴とする請求項７に記載の文書更新判定システム。
前記比較文字抽出手段が、文書の先頭文字を基準として規則的に複数の文字を抽出するものであって、
前記第１の比較文字と第２の比較文字とが同一でない場合に、前記第２文書から先頭文字となる文字位置をシフトさせて前記比較文字抽出手段に新たな第２の比較文字を抽出させるシフト処理手段を有することを特徴とする請求項４〜８のいずれかに記載の文書更新判定システム。
請求項５及び９に記載の文書更新判定システムにおいて、
シフト処理手段は、前記第１文書の文字数をｍ、第２文書の文字数をｎとするとき、第２の更新判定手段による初回の判定処理の後、最大でｎ−ｍ回だけ、先頭文字となる文字位置を１文字ずつシフトさせる処理を行うことを特徴とする文書更新判定システム。
請求項５に記載の文書更新判定システムにおいて、
第１の更新判定手段は、前記第１文書の文字数をｍ、第２文書の文字数をｎとするとき、ｎ−ｍ＜０の条件のとき、第２文書が前記更新文書であると判定することを特徴とする文書更新判定システム。
前記第２文書が前記更新文書であると判定された場合に、少なくとも当該第２文書の所在地の記述情報が配信される端末装置を具備することを特徴とする請求項４〜１１のいずれかに記載の文書更新判定システム。
電子情報として文字情報を記憶可能な記憶手段と、外部から文書情報を取得可能な文書取得手段と、所定の演算処理を行う処理手段とを備える文書更新判定システムを動作させるプログラムであって、
前記記憶手段に、比較元となる第１文書から所定の文字抽出条件に基づいて抽出された第１の比較文字を記憶させる記憶処理、
前記文書取得手段に、比較先となる第２文書を取得させる文書取得処理、
前記処理手段に、
前記第２文書から前記文字抽出条件に基づいて第２の比較文字を抽出する比較文字抽出処理、及び
前記記憶手段に記憶されている第１の比較文字と、前記第２の比較文字とを比較することで、前記第２文書が前記第１文書に対して更新部分を含んで生成された更新文書であるか否かを判定する更新判定処理
を実行させることを特徴とする文書更新判定システムの動作プログラム。
電子情報として文字情報を記憶可能な記憶手段と、外部から文書情報を取得可能な文書取得手段と、所定の演算処理を行う処理手段とを備える文書更新判定システムを動作させるプログラムであって、
前記記憶手段に、比較元となる第１文書の文字数と、当該第１文書から所定の文字抽出条件に基づいて抽出された第１の比較文字とを記憶させる記憶処理、
前記文書取得手段に、比較先となる第２文書を取得させる文書取得処理、
前記処理手段に、
前記第２文書の文字数をカウントする文字数カウント処理、
前記記憶手段に記憶されている第１文書の文字数と、前記第２文書の文字数との比較結果に基づいて、前記第２文書が前記第１文書に対して更新部分を含んで生成された更新文書であるか否かを判定する第１の更新判定処理、
前記第２文書から前記文字抽出条件に基づいて第２の比較文字を抽出する比較文字抽出処理、及び
前記記憶手段に記憶されている第１の比較文字と、前記第２の比較文字とを比較することで、前記第２文書が前記更新文書であるか否かを判定する第２の更新判定処理
を実行させることを特徴とする文書更新判定システムの動作プログラム。