JP2007188123A - 文書更新判定方法、システム及びその動作プログラム - Google Patents

文書更新判定方法、システム及びその動作プログラム Download PDF

Info

Publication number
JP2007188123A
JP2007188123A JP2006003222A JP2006003222A JP2007188123A JP 2007188123 A JP2007188123 A JP 2007188123A JP 2006003222 A JP2006003222 A JP 2006003222A JP 2006003222 A JP2006003222 A JP 2006003222A JP 2007188123 A JP2007188123 A JP 2007188123A
Authority
JP
Japan
Prior art keywords
document
character
comparison
characters
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006003222A
Other languages
English (en)
Inventor
Toshio Ikeda
利夫 池田
Hiroshi Ota
弘 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Electric Power Co Inc
Original Assignee
Kansai Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Electric Power Co Inc filed Critical Kansai Electric Power Co Inc
Priority to JP2006003222A priority Critical patent/JP2007188123A/ja
Publication of JP2007188123A publication Critical patent/JP2007188123A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】早い処理速度で、エラー率が低く、しかも著作権の保護に留意した文書更新判定方法を提供する。
【解決手段】比較元となる第1文書41から所定の文字抽出条件に基づいて第1の比較文字41a〜41eを抽出すると共に、比較先となる第2文書42からも同様な文字抽出条件に基づいて第2の比較文字42a〜42eを抽出し、各々第1の比較文字配列410と第2の比較文字配列420とを生成する。そして、第1の比較文字配列410と第2の比較文字配列420との同じ番目の比較文字同士を各々比較する。その結果、第1の比較文字配列410と第2の比較文字配列420とが全て同一であれば、第1文書41と第2文書42とは同一文書(更新なし)であると判定する。一方、両比較文字配列間に相違があれば、第1文書41と第2文書42とは異文書(更新あり)であると判定する。
【選択図】図2

Description

本発明は、電子的に作成された文書同士を比較して一方が他方に対して更新情報を含んでいるか否かを自動判定する文書更新判定方法及びシステムに関し、例えばインターネット上のWWW(World Wide Web)サイトに新規文書が掲載されたか否かの自動判定に好適に用いることができる文書更新判定方法、システム及びその動作プログラムに関するものである。
従来、電子的に作成された2つの文書を比較して、両者が同一文書であるか否かを自動判定する方法として、全文比較法、ハッシュ値比較法、形態素解析法、時間情報取得法及び暗号文比較法などが存在する。各々の方法の概要は次の通りである。
(1)全文比較法;2つの文書の全文字を比較して両者が同一の文章構成であるか否かを判定する方法。
(2)ハッシュ値比較法;2つの文書からそれぞれハッシュ関数によりハッシュ値を取得し、その値を比較することで両者の同一性を判定する方法。
(3)形態素解析法;2つの文書を各々形態素解析して品詞分解し、構成品詞配列レベルで文書同士の合致度を判定する方法。
(4)時間情報取得法;文書更新時に属性情報として記録される更新時間情報に基づいて同一文書であるか否かを判定する方法。
(5)暗号文比較法;文書を暗号化し、暗号化された文字数値配列同士を比較することで更新判定する方法。
因みに、比較すべき文書(文字列)を抽出するための方法も各種存在する。例えば特許文献1には、メモリに蓄積された電子メールのような文字列情報から特定の文字列を抽出する方法が開示されている。また、特許文献2には、WWWサイトから特定のWWW文書を取得する方法が開示されている。
特開平11−272703号公報 特許第2867986号公報
しかしながら、上記(1)〜(5)の方法には次のような不都合がある。先ず全文比較法は、全文比較を行うため判定エラーは発生しないものの、大量に文書比較を行う場合は処理時間が長くなる。また、処理過程において比較元となる文書を電子的に複写して保管する必要があるため、個人利用以外では著作権(複製権)上の問題が生じ得る。さらに、比較文書同士が実質的には同一文書であるにも拘わらず僅かな文字数差等が存在しているばかりに非同一文書と判定してしまうこととなり、いわゆる「裕度」がなく実質的な同一性判定が行えないという欠点がある。
ハッシュ値比較法は、著作権上の問題は生じないものの、全文比較法と同様に処理速度が遅く、裕度の点でも劣るという問題がある。形態素解析法も、品詞分解を行うため処理速度が非常に遅くなるという問題が有ると共に、品詞配列に関し著作権(複製権、翻案権、同一性保持権)上の問題も生じ得る。一方、時間情報取得法にはこのような問題は生じないが、判定の信頼性が低いという問題がある。すなわち、更新時間の相違が必ずしも両文書の非同一性を示すことにはならず、そもそも更新時間を属性情報として含んでいない文書も存在することから比較自体が行えないケースも生じるという不都合がある。さらに暗号文比較法も、暗号化処理を行うため相応の処理時間を要し、また復号化が可能であれば著作権(翻案権、同一性保持権)上の問題も生じ得る。
以上の通り、従来の文書更新判定方法には、いずれも処理速度やエラー率の問題、或いは著作権上の問題があり、大量の文書の高速更新判定を業として実行させるには不具合があった。本発明は、かかる事情に鑑みてなされたもので、早い処理速度で、エラー率が低く、しかも著作権上の問題も生じない文書更新判定方法、システム及びその動作プログラムを提供することを目的とする。
本発明の請求項1に係る文書更新判定方法は、比較元となる第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字と、比較先となる第2文書から前記文字抽出条件に基づいて抽出された第2の比較文字とを比較することで、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定することを特徴とする。
この方法によれば、第1文書及び第2文書からそれぞれ抽出された第1の比較文字及び第2の比較文字の比較処理により更新文書判定が行われるので、上述の全文比較法等に比べて処理時間を大幅に短縮することが可能となる。また、比較元として保存しておくデータは、第1文書自身ではなく第1の比較文字で足りることから、例えば文字抽出を著作性に無関係な間欠抽出とすることで著作権の保護が可能となる。
また、本発明の請求項2に係る文書更新判定方法は、比較元となる第1文書の文字数と、比較先となる第2文書の文字数とを比較して、両者の文字数差が所定の裕度範囲内であるか否かを判定する第1ステップと、両者の文字数差が前記裕度範囲内である場合に、前記第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字と、前記第2文書から前記文字抽出条件に基づいて抽出された第2の比較文字とを比較することで、前記第2文書が前記第1文書に対して実質的に更新部分を含んで生成された更新文書であるか否かを判定する第2ステップとを含むことを特徴とする。
この方法によれば、先ず第1文書と第2文書との文字数差に基づいて簡易更新判定(第1ステップ)が行われ、両者の文字数差が前記裕度範囲内である場合に第1の比較文字と第2の比較文字との比較処理(第2ステップ)が行われる。すなわち、文字数差が所定の値以上であるときは両文書は非同一文書であると判定し、前記裕度範囲内であるときには比較処理を行って両文書の同一性を判定するものである。これにより、処理速度を一層高速化することができ、一方で裕度を考慮した実質的な同一性判定が行えるようになる。
この場合、前記文字抽出が、文書の先頭文字を基準として規則的に複数の文字を抽出するものである場合において、前記第1の比較文字と第2の比較文字とが同一でない場合に、前記第2文書から先頭文字となる文字位置をシフトさせて新たに第2の比較文字を抽出し、前記第1の比較文字と新たに抽出された第2の比較文字とを比較して前記第2文書が更新文書であるか否かを判定する動作を繰り返すようにすることが望ましい(請求項3)。
この方法によれば、第1の比較文字と第2の比較文字とが同一でない場合において、第2文書について先頭文字となる文字位置をシフトさせて新たな第2の比較文字が抽出され、当該新たな第2の比較文字と第1の比較文字との比較動作が繰り返される。これにより、第1文書と第2文書との間に僅かな相違は存在するものの実質的には同一文書の範疇であるというケースにおいて、両者が同一文書(文書更新なし)であるとする判定を的確に行うことが可能となる。
本発明の請求項4に係る文書更新判定システムは、比較元となる第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字を記憶する記憶手段と、比較先となる第2文書を取得する文書取得手段と、前記第2文書から前記文字抽出条件に基づいて第2の比較文字を抽出する比較文字抽出手段と、前記記憶手段に記憶されている第1の比較文字と、前記第2の比較文字とを比較することで、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定する更新判定手段とを含むことを特徴とする。
この構成によれば、記憶手段に記憶されている第1文書の第1の比較文字と、文書取得手段にて取得された第2文書から比較文字抽出手段により抽出された第2の比較文字とが、更新判定手段により比較され、更新文書であるか否かが判定される。すなわち、抽出された比較文字同士の比較により文書更新判定がなされるので、従来の全文比較法等に比べて処理時間を大幅に短縮することが可能となる。また、記憶手段に保存されるデータは、第1文書自身ではなく第1の比較文字であるので、第三者の著作権に配慮した処理が可能となる。
本発明の請求項5に係る文書更新判定システムは、比較元となる第1文書の文字数と、当該第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字とを記憶する記憶手段と、比較先となる第2文書を取得する文書取得手段と、前記第2文書の文字数をカウントする文字数カウント手段と、前記記憶手段に記憶されている第1文書の文字数と、前記第2文書の文字数との比較結果に基づいて、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定する第1の更新判定手段と、前記第2文書から前記文字抽出条件に基づいて第2の比較文字を抽出する比較文字抽出手段と、前記記憶手段に記憶されている第1の比較文字と、前記第2の比較文字とを比較することで、前記第2文書が前記更新文書であるか否かを判定する第2の更新判定手段とを含むことを特徴とする。
この構成によれば、記憶手段に記憶されている第1文書の文字数と、文書取得手段にて取得された第2文書について文字数カウント手段により求められた第2文書の文字数とが比較され、第1文書と第2文書との文字数差に基づいた更新判定が第1の更新判定手段により実行される。さらに、記憶手段に記憶されている第1文書の第1の比較文字と、比較文字抽出手段により抽出された第2文書の第2の比較文字との比較処理が第2の更新判定手段により実行可能とされている。これにより、まず第1の更新判定手段により両文書の文字数差を確認して同一性を判定し、明らかな文字数差が存在する場合に両文書は非同一文書であると判定し、そうでない場合については第2の更新判定手段による比較文字同士の比較処理により同一性を再判定するという判定動作を行わせることができる。従って、処理速度を一層高速化することができる文書更新判定システムを提供できるようになる。
この場合、前記第2の更新判定手段は、前記第1文書と第2文書との文字数差が所定の裕度範囲内である場合に判定動作を行うことが望ましい(請求項6)。この構成によれば、第1文書と第2文書との文字数差に鑑みて両文書間に実質的な相違(更新情報)が存在しているか否かを予見し、更新可能性があると予見される場合に第2の更新判定手段により比較文字同士の比較判定が行われる。従って、両文書の相違裕度を考慮した実質的な同一性判定が行えるようになる。
上記いずれかの構成において、前記文書取得手段は、WWWサイトから前記第2文書を取得することが望ましい(請求項7)。この構成によれば、WWWサイトに掲載される文書について、第三者の著作権を保護しつつ、高速で文書更新判定を行うことが可能となる。
この場合、前記文書取得手段は、インターネット上で所定のキーワードを用いた検索を所定のサンプリング時間毎に行うことで、WWWサイトから前記第2文書を取得することが望ましい(請求項8)。この構成によれば、WWWサイトに掲載される各種文書について、キーワード検索により関連文書に絞りを加えた上で、一定時間間隔で文書更新判定を行うことが可能となる。
上記いずれかの構成において、前記比較文字抽出手段が、文書の先頭文字を基準として規則的に複数の文字を抽出するものであって、前記第1の比較文字と第2の比較文字とが同一でない場合に、前記第2文書から先頭文字となる文字位置をシフトさせて前記比較文字抽出手段に新たな第2の比較文字を抽出させるシフト処理手段を有することを特徴とする(請求項9)。この構成によれば、シフト処理手段により、第1の比較文字と第2の比較文字とが同一でない場合において、第2文書について先頭文字となる文字位置をシフトさせて新たな第2の比較文字が抽出され、当該新たな第2の比較文字と第1の比較文字との比較動作が繰り返される。これにより、第1文書と第2文書との間に僅かな相違は存在するものの実質的には同一文書の範疇であるというケースにおいて、両者が同一文書(文書更新なし)であるとする判定を的確に行うことが可能となる。
この場合、シフト処理手段は、前記第1文書の文字数をm、第2文書の文字数をnとするとき、第2の更新判定手段による初回の判定処理の後、最大でn−m回だけ、先頭文字となる文字位置を1文字ずつシフトさせる処理を行う構成とすることができる(請求項10)。この構成によれば、第1文書と第2文書との文字数差分だけシフト処理が行われるので、文字数差に所定の裕度を設けた場合でも確実に両文書の同一性判定が行えるようになる。
また、上記構成において、第1の更新判定手段は、前記第1文書の文字数をm、第2文書の文字数をnとするとき、n−m<0の条件のとき、第2文書が前記更新文書であると判定することが望ましい(請求項11)。第1文書よりも第2文書の方が少ない文字数である場合(n−m<0)、第2文書について第1文書と同じ条件で比較文字を抽出することが困難となる。つまり、第1の比較文字を流動化させないと第2の比較文字と単純比較ができなくなり、この場合第1の比較文字の流動化には第1文書を記録手段に格納しておくことが不可欠になり、著作権上の問題が生じ得る。上記構成によれば、このような場合に「更新有り」と判定することとなり、処理の適正化を図ることができる。
上記いずれかの構成において、前記第2文書が前記更新文書であると判定された場合に、少なくとも当該第2文書の所在地の記述情報が配信される端末装置を具備することが望ましい(請求項12)。この構成によれば、例えば新規文書がWWWサイトに掲載された場合に、当該新規文書のURL(Uniform Resource Locator)等が端末装置に配信されることとなり、前記端末装置の保持者は、直ちに前記新規文書の存在並びに内容を知見できるようになる。
本発明の請求項13に係る文書更新判定システムの動作プログラムは、電子情報として文字情報を記憶可能な記憶手段と、外部から文書情報を取得可能な文書取得手段と、所定の演算処理を行う処理手段とを備える文書更新判定システムを動作させるプログラムであって、前記記憶手段に、比較元となる第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字を記憶させる記憶処理、前記文書取得手段に、比較先となる第2文書を取得させる文書取得処理、前記処理手段に、前記第2文書から前記文字抽出条件に基づいて第2の比較文字を抽出する比較文字抽出処理、及び前記記憶手段に記憶されている第1の比較文字と、前記第2の比較文字とを比較することで、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定する更新判定処理を実行させることを特徴とする。
また、本発明の請求項14に係る文書更新判定システムの動作プログラムは、電子情報として文字情報を記憶可能な記憶手段と、外部から文書情報を取得可能な文書取得手段と、所定の演算処理を行う処理手段とを備える文書更新判定システムを動作させるプログラムであって、前記記憶手段に、比較元となる第1文書の文字数と、当該第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字とを記憶させる記憶処理、前記文書取得手段に、比較先となる第2文書を取得させる文書取得処理、前記処理手段に、前記第2文書の文字数をカウントする文字数カウント処理、前記記憶手段に記憶されている第1文書の文字数と、前記第2文書の文字数との比較結果に基づいて、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定する第1の更新判定処理、前記第2文書から前記文字抽出条件に基づいて第2の比較文字を抽出する比較文字抽出処理、及び前記記憶手段に記憶されている第1の比較文字と、前記第2の比較文字とを比較することで、前記第2文書が前記更新文書であるか否かを判定する第2の更新判定処理を実行させることを特徴とする。
上記のような文書更新判定方法、システム及びその動作プログラムによれば、比較すべき文書から所定の文字抽出条件でそれぞれ比較文字を抽出し、これらを比較する構成であるので、比較処理を高速化することができる。従って、インターネット上のWWWサイトに逐次掲載される更新文書(新規文書)情報を速やかに取得することができ、例えばユーザに関連深いニュース、ブログ、掲示板上への書き込み等を、WWWサイトを巡回検索して直ちに取得することが可能となる。また、記録データとして残存させるのは文書自身ではなく、第1文書から抽出した第1の比較文字(及び文字数)であるので、著作権を保護することができる。
以下、図面に基づいて、本発明の実施形態について説明する。
図1は、本発明に係る文書更新判定システムSのハード構成を示す構成図である。この文書更新判定システムSは、インターネット回線INに接続され、Webサイト3(WWWサイト)をブラウジング可能とされたサーバ装置1と、このサーバ装置1と通信可能とされたパーソナルコンピュータ21、携帯電話機22等の端末装置2とから構成されている。
サーバ装置1は、インターネット上で所定のキーワードを用いて一定のサンプリング時間毎に、Webサイト3に対して巡回検索を行い、各種のWebコンテンツから当該キーワードが含まれる文書データ(HTMLファイル等)を抽出すると共に、後記で詳述する手法により更新文書(新規文書)がWebサイト3上に掲載されたか否かを判定する。そして、更新文書が検出された場合に、その文書の更新日時、URL(当該文書の所在地記述情報)等を前記端末装置2へ配信する。端末装置2は、配信されたURLに基づき、更新文書の内容を確認したり、或いは統計分析したりするためのもので、端末装置2を構成するパーソナルコンピュータ21、携帯電話機22等の保持者は、直ちに前記更新文書の存在並びに内容を知見し、また統計分析等を行うことができる。
Webサイト3は、インターネット回線INに接続されたコンピュータ(Webサーバ)に記録されているHTMLファイルや画像ファイル等の各種Webコンテンツが複数登録されている場所である。上述の通りWebサイト3は、サーバ装置1からのキーワード検索等、ユーザのリクエストに応じて、該当するHTMLファイルや画像ファイル等を提供する。図1では、「ニュース」に関するWebサイトA、「経済ニュース」に関するWebサイトB、「掲示板」としてのWebサイトC、「ブログ」としてのWebサイトDを模式的に例示している。
ここで、本発明に係る文書更新判定システムSに採用されている更新判定方法の概要を、図2に基づいて説明する。図2(a)に示すように、いま比較すべき第1文書41と第2文書42とが存在するものとする。例えば既存文書を第1文書41とし、この第1文書41に対して第2文書42が何らかの更新情報を含んでいるか(更新文書若しくは新規文書であるか)を判定するならば、第1文書41が比較元文書となり、第2文書42は比較先文書となる。この場合、第1文書41と第2文書42との同一性を厳密に求めるならば、両文書の構成文字を全文対比させれば良い(全文比較法)。しかし、全文比較法では処理時間がどうしても長くなってしまう。
そこで本発明では、図2(b)に示すように、比較元となる第1文書41から所定の文字抽出条件に基づいて第1の比較文字41a〜41eを抽出すると共に、比較先となる第2文書42からも同様な文字抽出条件に基づいて第2の比較文字42a〜42eを抽出する。ここでの文字抽出条件は、後記で詳述するが、第1文書41及び第2文書42の構成文字数(データ長L;変数)と固定化された抽出文字数(抜き取り文字数C)とに依存性をもつ間欠抜き取りの算術式で定められる。そして、第1の比較文字41a〜41eが順番に配列されて第1の比較文字配列410が生成され、また第2の比較文字42a〜42eが順番に配列されて第2の比較文字配列420が生成される。
しかる後、図2(c)に示すように、第1の比較文字配列410における第1番目の比較文字41aと第2の比較文字配列420における第2番目の比較文字42aというように、第1の比較文字配列410と第2の比較文字配列420との同じ番目の比較文字同士が各々比較される。その結果、第1の比較文字配列410と第2の比較文字配列420とが全て同一であれば、第1文書41と第2文書42とは同一文書(更新なし)であると判定する。一方、第1の比較文字配列410と第2の比較文字配列420との間に相違があれば、第1文書41と第2文書42とは異文書(更新あり;更新部分を含んで生成された更新文書若しくは新規文書)であると判定するものである。
なお、第1文書41と第2文書42との同一性を判定する簡便な手法として、両文書の構成文字数を単純比較する方法がある。第2文書42が、第1文書41に何らかの書き込みを追加して作成された文書であるならば、当然に両文書の文字数に相違が生じるからである。従って、図2に示した更新判定の手法に文字数比較の要素を組み入れることにより、一層合理的な更新判定が行えるようになる。
以上説明した更新判定方法を実現する機能をサーバ装置1は具備する。図3は、サーバ装置1の機能構成を示す機能ブロック図である。このサーバ装置1は、送受信部11、Webサイト検索部12(文書取得手段)、文字数カウント部13(文字数カウント手段)、文字数比較部14、比較文字抽出部15、更新判定部16(更新判定手段)、シフト処理部17(シフト処理手段)、揮発性のメモリである主記憶装置18、不揮発性のメモリである外部記憶装置19(記憶手段)及び全体制御部100を備えて構成されている。
送受信部11は、当該サーバ装置1とLAN等の所定の回線を介して端末装置2との間で、またインターネット回線INを介してWebサイト3との間でデータ通信を可能とするためのデータ通信部である。本実施形態において送受信部11は、Webサイト3に対して検索キーワード等の検索条件情報を送信すると共に、その検索結果を受信する。また、端末装置2に対しては、文書更新ありと判定した場合に、当該文書の所在地を示すURL等を送信する。
Webサイト検索部12は、全体制御部100から与えられるサンプリング時間毎に、所定の検索条件を設定してWebサイト3を巡回検索する。例えば法人XYZ○△社が、自社に関連する記事がインターネット上に掲載されているかを定期的にウォッチングする目的では、例えば検索キーワードを「XYZ○△」、「XYZ」、「○△」、「X○」などと設定してWebサイト3に対して検索を行う。これにより、図1に示したWebサイト3のWebサイトA,B,C,D・・・に各々含まれている文書1−1、1−2、文書2−1、2−2、2−3・・・の中から、上記キーワードが含まれている文書が抽出される。かかる検索を行うようにすれば、法人XYZ○△社に対する社会や顧客の評価情報を速やかに収集することができ、また予期せぬ風評などに対しても速やかな対応が行えるようになる。
文字数カウント部13は、上記キーワード検索によりヒットした文書の構成文字数をカウントする。このカウントは、所定の文書区画単位で行われる。例えば図4に示すように、図1に示したWebサイトAに「XYZ」というキーワードを含む文書が掲載され、時刻t1におけるWebサイト検索部12による検索でヒットした場合、WebサイトA上の文書を改行タグ51、52の存在単位で文書1−1、1−2を区画し、「XYZ」というキーワードを含む文書1−2を特定して当該文書1−2の文字数をカウントする。
文字数カウント部13による文字数のカウントは、揮発性のメモリである主記憶装置18に前記文書1−2の文書情報を一時的に記憶させた上で行われる。ここで、例えばWebサイトA上において前記文書1−2が初めての検索ヒット文書であった場合は、当該文書1−2が今後の比較元となる第1文書と扱われる。そして、その文字数のカウント値が、後述の比較文字抽出部15で抽出される比較文字と共に不揮発性のメモリである外部記憶装置19に記憶される。なお、前記文書1−2の文書情報自体は、第三者の著作権に配慮して外部記憶装置19には記憶させない。
文字数カウント部13は、前記サンプリング時間毎に、検索ヒット文書について同様な文字数カウントを実行する。例えば時刻t1において、図4に示したような文書1−2がキーワード検索で抽出された後、時刻t1以降の時刻t2において図5に示したように同じキーワード検索にて、前記文書1−2と新たな文書1−3がヒットしたものとする。この場合、時刻t2でヒットした前記文書1−2及び文書1−3が比較先となる第2文書と扱われ、これら文書の文字数が文字数カウント部13によってカウントされる。そして、その文字数のカウント値は、主記憶装置18に一時的に格納される。
文字数比較部14は、外部記憶装置19に記憶されている第1文書の文字数カウント値と、主記憶装置18に一時的に記憶されている第2文書の文字数カウント値とを比較する処理を行う。図4及び図5に示した例では、時刻t1でヒットした文書1−2(第1文書)の文字数カウント値と、時刻t2でヒットした前記文書1−2及び文書1−3(第2文書)の文字数カウント値とが比較されることとなる。かかる比較結果に基づいて、後述の更新判定部16(文字数差判定部161;第1の更新判定手段)により、WebサイトA上に更新文書(新規文書)が掲載されたか否かが第1ステップとして判定される。
比較文字抽出部15は、第1文書と第2文書との同一性を判定するにあたり、所定の文字抽出条件に従って両文書から比較文字を抽出する処理を行う。すなわち、先に図2に基づいて説明したように、第1文書41から第1の比較文字41a〜41f(第1の比較文字配列410)を抽出し、また第2文書42から第2の比較文字42a〜42f(第2の比較文字配列420)を抽出する。
図4及び図5に示した例では、比較文字抽出部15は、時刻t1でヒットした文書1−2(第1文書)について第1の比較文字を抽出し、これを外部記憶装置19に記憶させる。そして、時刻t2でヒットした前記文書1−2及び文書1−3(第2文書)について第2の比較文字をそれぞれ抽出し、これを主記憶装置18に一時的に記憶させる。このようにして抽出された第1及び第2の比較文字は、後述の更新判定部16(差分判定部162;第2の更新判定手段)により同一性が判定され、WebサイトA上に更新文書(新規文書)が掲載されたか否かが第2ステップとして判定されるものである。
ここで、比較文字抽出部15による文字抽出手法の具体例について説明する。比較文字抽出部15は、文書を構成する文字順列から、文書の文字総数(データ長L)に応じて可及的に一定間隔をおいて一定数(抜き取り文字数C)の比較文字を抽出することを基本としている。
先ず、抜き取り文字数C=6(6文字抜き取り法)の場合を例に挙げて説明する。この場合、データ長Lが1〜15文字である場合は、抜き取り文字数Cに比較してデータ長Lが少ないことから定間隔抽出ができない。このため、例えば図6に示したように、データ長Lに応じて個別に設定された抽出条件に従った文字順列上の位置から、比較文字を抽出する。なお、図6において、抽出位置の欄に描いている丸印は文書中の一つの文字を意味し、黒丸●は比較文字として抽出される文字を、白丸○は抽出されない文字をそれぞれ示す。かかる扱いは、以下の図においても同様である。
次にデータ長Lが16文字以上である場合は、次の位置選定アルゴリズムによって定間隔抽出が実行される。
抜き取り間隔r=int{(L−1)/5}
抽出文字位置p=r*n+1
但し、n={0,1,2,3,4,5}
図7(a)〜(e)は、データ長L=16〜20の場合において、抽出される文字の位置を模式的に示す図である。この場合、抜き取り間隔r=3となり、文章中の1,4,7,10,13,16番目の文字が抽出されることになる(抽出文字位置p={1,4,7,10,13,16})。また、最終抽出文字位置p16からデータの最終位置までは、図7(a)のデータ長L=16のときは0、図7(e)のデータ長L=20のときは4というように、最小=0〜最大=4の間で変化する。
抜き取り間隔rは、データ長Lが増加するにつれて広くなる。図8(a)、(b)に示すように、データ長L=21〜25の間にあっては、抜き取り間隔r=4となり、文章中の1,5,9,13,17,21番目の文字が抽出されることになる(抽出文字位置p={1,5,9,13,17,21})。また、図8(c)、(d)に示すように、データ長L=26〜30の間にあっては、抜き取り間隔r=5となり、文章中の1,6,11,16,21,26番目の文字が抽出されることになる(抽出文字位置p={1,6,11,16,21,26})。なお、データ長Lが増加しても、最終抽出文字位置(p21又はp26)からデータ最終位置までの文字数は、上記と同様に最小=0〜最大=4の間で変化することとなる。
このような文字抽出条件は、データ長Lが長大化しても同様である。例えば図9(a)に示すように、データ長L=100の場合は抜き取り間隔r=19となり、文章中の1,20,39,58,77,96番目の文字が抽出される(抽出文字位置p={1,20,39,58,77,96})。また、データ長L=101の場合は抜き取り間隔r=20となり、文章中の1,21,41,61,81,101番目の文字が抽出されるものである(抽出文字位置p={1,21,41,61,81,101})。
続いて、図10及び図11に、抜き取り文字数C=3(3文字抜き取り法)の場合を例示する。この場合、データ長Lが1〜6文字である場合は、抜き取り文字数Cに比較してデータ長Lが少ないことから定間隔抽出ができないので、例えば図10に示したような抽出条件で、比較文字の抽出が行われる。一方、データ長Lが7文字以上である場合は、次の位置選定アルゴリズムによって定間隔抽出が実行される。
抜き取り間隔r=int{(L−1)/2}
抽出文字位置p=r*n+1
但し、n={0,1,2}
図11(a)〜(c)は、データ長L=9〜11の場合において、抽出される文字の位置を模式的に示す図である。図11(a)、(b)に示すように、データ長L=9、10の場合、抜き取り間隔r=4となり、文章中の1,5,9番目の文字が抽出される(抽出文字位置p={1,5,9})。そして、データ長L=11の場合は、抜き取り間隔r=5となり、文章中の1,6,11番目の文字が抽出される(抽出文字位置p={1,6,11})。また、この3文字抜き取り法においては、最終抽出文字位置からデータの最終位置までの文字数は、最小=0、最大=1のいずれかとなる。
さらに、図12及び図13に、抜き取り文字数C=12(12文字抜き取り法)の場合を例示する。この場合、データ長Lが1〜33文字である場合は、抜き取り文字数Cに比較してデータ長Lが少ないことから定間隔抽出ができないので、例えば図12に示したような抽出条件で、比較文字の抽出が行われる。一方、データ長Lが34文字以上である場合は、次の位置選定アルゴリズムによって定間隔抽出が実行される。
抜き取り間隔r=int{(L−1)/11}
抽出文字位置p=r*n+1
但し、n={0,1,2,3,4,5,6,7,8,9,10,11}
図13(a)〜(d)は、データ長L=34,35,44,45の場合において、抽出される文字の位置を模式的に示す図である。図13(a)〜(c)に示すように、データ長L=34,35・・・44の場合、抜き取り間隔r=3となり、文章中の1,4,7,10,13,16,19,22,25,28,31,34番目の文字が抽出される(抽出文字位置p={1,4,7,10,13,16,19,22,25,28,31,34})。そして、データ長L=45の場合は、抜き取り間隔r=4となり、文章中の1,5,9,13,17,21,25,29,33,37,41,45番目の文字が抽出される(抽出文字位置p={1,5,9,13,17,21,25,29,33,37,41,45})。また、この12文字抜き取り法においては、最終抽出文字位置からデータの最終位置までの文字数は、最小=0〜最大=10の間で変化することになる。
このように、文書の先頭文字を基準としてデータ長Lに応じた均等間隔で比較文字を抽出する位置選定アルゴリズムを用いて、比較文字抽出部15は検索でヒットした文書からそれぞれ比較文字を抽出する。ここで挙げた位置選定アルゴリズムは一例であり、抜き取り文字数を変えたり、或いは各種公知の他の位置選定アルゴリズムを用いたりしても良い。
図3に戻って、更新判定部16は、比較元の第1文書と比較先の第2文書との同一性を、文字数比較部14による文字数カウント値の比較結果、及び比較文字抽出部15で抽出された第1の比較文字と第2の比較文字との比較に基づいて、第2文書が前記第1文書に対して実質的に更新部分を含んで生成された更新文書(新規文書)であるか否かを判定する。この更新判定部16は、文字数差判定部161、差分判定部162及びリライト部163を備えて構成されている。
文字数差判定部161は、文字数比較部14による第1文書と第2文書との文字数カウント値比較結果に基づいて、第1文書と第2文書とが同一文書であるか否かを判定する。図4及び図5に示した例に当てはめるならば、時刻t1でヒットした文書1−2(第1文書)の文字数カウント値と、時刻t2でヒットした文書1−2及び文書1−3(第2文書)の文字数カウント値との比較結果に基づいて、時刻t2における文書1−2及び文書1−3が更新文書であるか否かを判定する。例えば、時刻t1でヒットした文書1−2と、時刻t2でヒットした文書1−2とが同一文書であるならば、当然に両者の文字数カウント値も一致することから、この場合、文字数差判定部161は両文書を同一文書(更新なし)と判定する。
これに対し、時刻t1〜t2の間に文書1−2に何らかの文字が追記され文書更新されたときは、両者の文字数カウント値も異なることとなる。この場合、文字数差判定部161は所定の裕度範囲(図14に基づき後述する)内である場合を除き、両文書を異文書(更新あり)と判定する。また、前記文書1−3が時刻t2で初めてヒットした文書である場合、文書1−3と時刻t1でヒットした文書1−2との文字数カウント値は、殆どの場合相違するのが一般的であるので、この場合も、文字数差判定部161は両文書を異文書(更新あり)と判定する。なお、たまたま文書1−2と文書1−3との文字数差が前記裕度範囲内にある場合は、両文書はこの段階においては異文書であるか否かの判定は留保され、差分判定部162による判定に委ねられる。
差分判定部162は、図2(c)で説明したように、比較文字抽出部15で抽出された第1文書41の第1の比較文字41a〜41f(第1の比較文字配列410)と、第2文書42の第2の比較文字42a〜42f(第2の比較文字配列420)とを比較することで、第1文書41と第2文書42との同一性を判定する。差分判定部162は、比較文字の全てが同一である場合は両文書を同一文書(更新なし)と判定し、いずれか一つでも比較文字が相違している場合は両文書を異文書(更新あり)と判定する。例えば、上記文書1−2と文書1−3との同一性判定が文字数差判定部161において留保された場合でも、両文書が異文書であれば各々の文書から抽出された比較文字同士がまず同一になることは無い。従って、時刻t2で初めてヒットした文書1−3を更新文書(新規文書)と判定することができる。
リライト部163は、更新文書が新たに抽出された場合に、外部記憶装置19に記憶されている文字数カウント値及びその比較文字についてのデータを、新たな文書についてのデータに書き換えたり、或いは新規登録したりする。図4及び図5に示した例ならば、WebサイトAにおいて時刻t1で初めて文書1−2がヒットした場合、リライト部163は、この文書1−2について文字数カウント部13で得られた文字数カウント値と、比較文字抽出部15で抽出された比較文字とを新たに外部記憶装置19に書き込む。
次に、時刻t2でヒットした文書1−2及び/又は文書1−3が更新文書(新規文書)であると文字数差判定部161若しくは差分判定部162で判定された場合、リライト部163は、時刻t2における文書1−2についての文字数カウント値と比較文字、及び/又は、文書1−3についての文字数カウント値と比較文字を外部記憶装置19に書き込む。以上のような文字数の比較及び比較文字の比較に基づく文書更新判定と、データのリライトとが、サンプリング時間が到来する度に繰り返されるものである。
上記文字数差判定部161は、文字数比較部14による第1文書と第2文書との文字数カウント値比較結果が1つでも相違していれば全て「更新あり」と判定するのではなく、両者の文字数差が所定の裕度範囲である場合は、カウント値が相違していても直ちに「更新あり」と判定せず、差分判定部162による比較文字判定に更新判定を委ねるように構成されている。これは、第1文書と第2文書との間に僅かな相違は存在するものの実質的には同一文書の範疇であるというケースにおいて、「更新なし」との判定を可能とする裕度を持たせるためである。
例えば図14(a)に示すように、時刻t11で文書A(第1文書)が所定のキーワード「XYZ」を含む文書としてWebサイト検索部12により抽出されたものとする。そして、時刻t11より後の時刻t12で、図14(b)に示すように、同じくキーワード「XYZ」を含む文書として文書B(第2文書)が抽出されたものとする。ここで、文書Bの殆どの部分が文書Aの引用で構成され、僅かな追加文章(「了解です。」という5文字)が付加されたに過ぎない場合、文書Bは文書Aと実質的に同一文書と扱うことができる。この場合、文字数差に裕度を持たせないと文書Bは直ちに更新文書と判定され、更新文書情報が端末装置2に配信されてしまうことになり、端末装置2を保持するユーザに重複感を抱かせたり、実質に即した統計情報を生成できなくなったりする危惧がある。
このような問題を解消できるよう、文字数差判定部161には適宜な裕度が設定される。一例を挙げるならば、文書Aの文字数カウント値に対して文書Bの文字数カウント値が5%以上増加している場合、又は文書Bの文字数カウント値が30文字以上多い場合等について「更新あり」と判定し、それ以外は判定を留保するように判定基準を設定することができる。
文書Aと文書Bとの文字数差が所定の裕度範囲である場合、シフト処理部17(図3参照)により、文書Bについて先頭文字位置を1文字ずつシフトさせながら、比較文字抽出部15に第2の比較文字を抽出させるシフト処理が、最大で文書Aと文書Bとの文字数差回だけ実行される。そして、差分判定部162により、シフト処理の度に抽出される第2の比較文字と、外部記憶装置19に記憶されている文書Aについての第1の比較文字とが比較され、文書Aと文書Bとの同一性が判定される。
図15及び図16は、シフト処理の具体例を説明するための模式図である。ここでは、6文字抜き取り法を採用し、図15(a)、(b)に示すように、文書A(第1文書)の文字数m=96文字、文書B(第2文書)の文字数n=100文字である場合を想定する。6文字抜き取り法の場合、先に説明した文書抽出アルゴリズムによれば、文書A及び文書Bのいずれも抜き取り間隔r=19となり、文章中の1,20,39,58,77,96番目の文字(p1,p20,p39,p58,p77,p96)が、各々第1の比較文字及び第2の比較文字として抽出される。
この場合、シフト処理部17は、先ず図16(a)に示すように、先頭文字(p1)の位置を一致させて第2の比較文字を抽出するよう比較文字抽出部15に指示を与え、かかる指示に基づき抽出された文書A及び文書Bの比較文字p1,p20,p39,p58,p77,p96同士の同一性が差分判定部162にて判定される。ここで、両者の比較文字が同一であると判定された場合、シフト処理部17はその後のシフト処理の実行を中止する。
一方、両者の比較文字が同一でないと判定された場合、図16(b)に示すように、シフト処理部17は比較文字抽出部15に、先頭文字となる文字位置を1文字分だけシフトさせて文書Bから第2の比較文字を抽出させる。従って、ここで抽出される第2の比較文字は、当初の抽出位置から1文字分シフトされた位置の比較文字p1+1,p20+1,p39+1,p58+1,p77+1,p96+1が抽出されることとなる。これを模式的に説明すると、文書Aの先頭文字位置を文書Bの先頭文字位置に対して1文字分だけシフトして重ね合わせ、比較文字同士を比較することとなる。図16(b)は、このような視点から描かれた図である。
その後、差分判定部162により、文書Aの比較文字p1と文書Bの比較文字p1+1、文書Aの比較文字p20と文書Bの比較文字p20+1というように、比較文字の同一性が判定される。ここでも、両者の比較文字が同一であると判定された場合、シフト処理部17はその後のシフト処理の実行を中止する。一方、両者の比較文字が同一でないと判定された場合は、上記と同様にして1文字分シフトさせるシフト処理がシフト処理部17により順次実行される。図16(c)は、4文字分シフトさせた状態を示す図である。この場合の第2の比較文字としては、当初の抽出位置から1文字分シフトされた位置の比較文字p1+4,p20+4,p39+4,p58+4,p77+4,p96+4が抽出される。
このように、最大で文書Bの文字数n(100文字)と文書Aの文字数m(96文字)の差である4回だけシフト処理が実行される(差分判定部162の比較判定処理は初回を含めて5回実行される)。かかるシフト処理を行うようにすることで、図14に例示したように、文書Aと文書Bとの間に僅かな相違は存在するものの実質的には同一文書の範疇であるというケースにおいて、両者が同一文書(文書更新なし)であるとする判定を的確に行えるようになる。特に、最大で文書Aと文書Bとの文字数差分だけシフト処理を行うようにすることで、文字数差に所定の裕度を設けた場合でも確実に両文書の同一性判定が行えるようになる。
上記では、文書Bの文字数nが文書Aの文字数mよりも多い(n−m>0)ことを前提で説明したが、文書Aの文字数mの方が文書Bの文字数nよりも多い(n−m<0)場合は、文字数差判定部161は直ちに文書Bが更新文書であると判定する。このようなケースでは上述のシフト処理を行うことができず、文書Bについて文書Aと同じ条件で比較文字を抽出することができないからである。対策として文書Aから第1の比較文字を再抽出する方法(第1の比較文字の流動化)も考えられるが、これを実行するには文書A自体の文字情報を外部記憶装置19に保存させる必要が有ることから、著作権上の問題が生じ得る。従って、かかるケースでは、文書Bを更新文書として取り扱うことが便宜である。
図3に戻って、主記憶装置18は、RAM(Random Access Memory)等の揮発性メモリからなり、Webサイト検索部12による検索によりヒットした文書(文書B)の文書情報、文字数カウント部13によりカウントされたヒット文書の文字数カウント値、比較文字抽出部15で抽出された比較文字(第2の比較文字)等が一時的に格納される。
外部記憶装置19は、EEPROM(Electrically Erasable and Programmable Read Only Memory)等の書き換え可能な不揮発性メモリからなり、比較元となる文書(文書A)の文字数カウント値と比較文字(第1の比較文字)が格納される。
全体制御部100は、CPU(Central Processing Unit)等からなり、サーバ装置1内の各種機能部の動作を司る。例えば全体制御部100は、Webサイト検索部12に所定のサンプリング周期で検索指示信号を与え、送受信部11を介してWebサイト3の検索を行わせたり、更新判定部16において更新文書が検出された場合に、端末装置2に対して当該更新文書のURL情報等を配信したりする制御を行う。
以上の通り構成された文書更新判定システムSによれば、比較すべき文書A及び文書Bから所定の文字抽出条件でそれぞれ比較文字を抽出し、これらを比較する構成であるので、従来の全文比較法等に比べて比較処理を高速化することができる。従って、Webサイト3に逐次掲載される更新文書(新規文書)情報を速やかに取得することができ、ユーザに関連深いニュース、ブログ、掲示板上への書き込み等を、巡回検索により直ちに取得して端末装置2へ配信することが可能となる。また、電源供給を停止しても記憶データが保持される不揮発性メモリ(外部記憶装置19)に記録データとして残存させるのは文書Aの文字情報自体ではなく、文書Aから抽出された第1の比較文字及び文字数であるので、著作権も保護できるという利点がある。
ここで、本発明に係る文書更新判定システムSの誤判定率について説明しておく。誤判定のパターンとしては、図17に示すように、実際は同一文書であるにも拘わらず「更新あり」と判定してしまうエラーパターン(1)と、実際は更新文書であるにも拘わらず「更新なし」と判定してしまうエラーパターン(2)とがある。エラーパターン(1)では、端末装置2を保有するユーザは、過去に通知された更新文書情報を再度受け取ることになるが、この場合は影響度が小さいと言うことができる。これに対し、エラーパターン(2)では、極めて重要な更新文書情報をユーザが受け取れないという不具合が発生し得ることから、影響度が大きい。従って、エラーパターン(2)に係る誤判定の発生確率について検討する。
この場合、誤判定率Gは次に示す誤判定率計算式で一般的に求めることができる。
Figure 2007188123
図18は、6文字抜き取り法において、上記誤判定率計算式を用いて求めた誤判定率Gを示す表形式の図である。図18に示すように、全体文字数(データ長)Lが4以下である場合、この文字抽出方式では全文字抽出となるので、誤判定率Gはゼロとなる。一方、部分抽出となる全体文字数L>4の領域において、最大の誤差が表れるのは、L=5の場合における1.6×10E−8である。
この誤判定率G=1.6×10E−8という値は、1時間当たり50回の文書更新判定を行うとした場合(年間で4×10E+6回だけ文書更新判定を実行)、誤判定を行ってしまう確率は概ね100年に1回であり、実用上は何ら問題にならない発生確率であると言うことができる。
さらに、図19は、全体文字数と誤判定率Gとの関係を示すグラフである。この図19に示すように、全体文字数が増加しても、6文字程度を抜き取って得た比較文字配列同士の比較で、実用上問題のない誤判定率Gを確保できることが分かる。
以上説明した本実施形態に係る文書更新判定システムSの動作を、図20、図21に示すフローチャートに基づいて説明する。ここでは、比較元となる第1文書を「文書A」、比較先となる第2文書を「文書B」とし、既に外部記憶装置19(図3参照)に文書Aの全体文字数mと、当該文書Aから抽出された第1の比較文字とが記憶されているものとして、処理フローを説明する。
図20は、文書更新判定システムSの全体的な処理フローを示すフローチャートである。処理が開始されると、サーバ装置1の全体制御部100により、予め設定されているサンプリング時間に基づいて、検索実行時刻であるか否かが確認される(ステップS1)。検索実行時刻が到来すると(ステップS1でYES)、全体制御部100はWebサイト検索部12に検索指示信号を与え、これを受けてWebサイト検索部12はWebサイト3に対してキーワード検索等を行う(ステップS2)。上記サンプリング時間は適宜に設定して良いが、例えば30分〜3時間程度の範囲内で設定すれば良い。
Webサイト3の検索の結果、ヒット文書(文書B)が存在したか否かが全体制御部100により確認される(ステップS3)。ヒット文書が存在した場合(ステップS3でYES)、そのヒット文書の文字データが揮発性のメモリである主記憶装置18に一時的に格納され、文書更新判定処理(図21に詳細フローを示している)が実行される(ステップS4)。一方、ヒット文書が存在しなかった場合(ステップS3でNO)、ステップS1へ戻り、次の検索実行時刻まで待機する。
続いて、ステップS4の文書更新判定処理において、「更新あり」との判定が行われたか否かが全体制御部100により確認される(ステップS5)。判定結果=「更新あり」であった場合(ステップS5でYES)、全体制御部100は、そのヒット文書の所在地の記述情報(URL等)を端末装置2に配信する(ステップS6)。そして、更新判定部16のリライト部163により、前記ヒット文書の全体文字数(文書Bの全体文字数n)と、当該ヒット文書から抽出された比較文字(第2の比較文字)とが、外部記憶装置19に書き込まれる(ステップS7)。この際、主記憶装置18に一時的に格納されたヒット文書の文字データは消去される。その後、ステップS1へ戻り、次の検索実行時刻まで待機する。なお、判定結果=「更新なし」であった場合は(ステップS5でNO)、上記ステップS6、ステップS7をスキップしてステップS1へ戻る。
次に、上記ステップS4の文書更新判定処理フローの詳細について、図21に示すフローチャートに基づいて説明する。処理が開始されると、検索でのヒット文書であり比較先となる文書Bの全体文字数nが、文字数カウント部13によりカウントされる(ステップS11)。この文字数カウント値は、主記憶装置18に一時的に格納される。
そして、第1ステップとして、文字数比較部4により文書Bの全体文字数nと、外部記憶装置19に格納されている文書Aの全体文字数mとが比較され、続いて更新判定部16の文字数差判定部161により、両者の文字数差が所定の裕度範囲内であるか否かが確認される(ステップS12)。ここでは、裕度の閾値として、カバー率95%以上であるか否か(文字数nが文字数mに対して文字数差率で5%以上多いか)、又は文字数nが文字数mよりも30文字以上多いか否かを設定している例を示している。この裕度は、適宜変更しても良い。
文字数差の比較の結果、所定の裕度範囲内に該当しない場合(ステップS12でNO)、文字数差判定部161は「更新あり」との判定を行う(ステップS13)。このステップS13の判定が行われる条件は、上記で例示した裕度閾値を用いると、次の条件式
n−m<0 or (n−m)/n≧0.05 or (n−m)≧30
を満たす場合となる。なお、n−m<0の場合に直ちに「更新あり」と判定するのは、上述した通り文書Aの文字データ自体を外部記憶装置19では保管しないことによる。
一方ステップS12において、ド・モルガンの定理より、例えば次の条件式を満たす場合は、所定の裕度範囲内に該当する(ステップS12でYES)ものとして、この第1ステップでは更新判定は留保される。
n−m≧0 and (n−m)/n<0.05 and (n−m)<30
この場合、第2ステップとして、比較文字抽出部15により文書Bから第2の比較文字を抽出する処理が実行される。先ず、文書Aの全体文字数mと抜き取り文字数に応じた比較文字配置テーブル(図6〜図13参照)から、文書Bの比較文字抽出位置が取得される(ステップS14)。前記比較文字配置テーブルは、例えば外部記憶装置19に記憶させておき、比較文字抽出部15により適宜読み出されるように構成することが望ましい。
その後、シフト処理部17により、シフト処理のためのカウンタt=1が設定された上で(ステップS15)、上記ステップS14で特定された比較文字抽出位置+(t−1)を文書Bに適用して、比較文字抽出部15により文書Bから第2の比較文字が抽出される(ステップS16)。この第2の比較文字は、主記憶装置18に一時的に格納される。
そして、先に図2で説明したように、差分判定部162により、前記第2の比較文字配列と、外部記憶装置19に保管されている文書Aについての第1の比較文字配列とが比較され、両者の同一性が判定される(ステップS17)。ここで、両者の比較文字配列が同一である場合(ステップS17でYES)、差分判定部162は「更新なし」との判定を行う(ステップS18)。
これに対し、両者の比較文字配列が同一でない場合(ステップS17でNO)、差分判定部162は「更新の可能性有り」との判定を行う。そして、シフト処理部17により、カウンタtの値が確認され(ステップS19)、カウンタtの値が文書A、Bの文字数差(t=n−m)に達している場合(ステップS19でYES)は、所要のシフト処理が完了されていることになるので、「更新あり」との判定がなされる(ステップS20)。
一方、カウンタtの値が文書A、Bの文字数差(t=n−m)まで達していない場合(ステップS19でNO)は、カウンタtの値が1だけインクリメントされ(ステップS21)、ステップS16に戻って処理が繰り返される。例えば、2回目の比較処理の場合、t=2となるので、文字抽出位置は1文字分だけシフトされ(図16(a)→(b)参照)、新たに抽出された第2の比較文字配列と第1の比較文字配列とが比較されるものである。
以上、本発明の実施形態につき説明したが、本発明はこれに限定されるものではなく、種々の変形実施が可能である。例えば上記実施形態では、文書の取得先をWebサイト3としたが、ローカルな文書データベース等としても良い。また、キーワード検索の代わりに、他の検索キーを用いるようにしても良い。或いは、検索対象とするWebサイトに絞りを加える一方で、キーワード検索を行わず全文書を更新判定対象としても良い。
本発明に係る文書更新判定システムSのハード構成を示す構成図である。 本発明に係る更新判定方法の概要を説明するための説明図である。 サーバ装置1の機能構成を示す機能ブロック図である。 キーワード検索にて抽出される文書を説明するための説明図である。 キーワード検索にて抽出される文書を説明するための説明図である。 文字抽出手法(6文字抜き取り法)の具体例を模式的に示す模式図である。 文字抽出手法(6文字抜き取り法)の具体例を模式的に示す模式図である。 文字抽出手法(6文字抜き取り法)の具体例を模式的に示す模式図である。 文字抽出手法(6文字抜き取り法)の具体例を模式的に示す模式図である。 文字抽出手法(3文字抜き取り法)の具体例を模式的に示す模式図である。 文字抽出手法(3文字抜き取り法)の具体例を模式的に示す模式図である。 文字抽出手法(12文字抜き取り法)の具体例を模式的に示す模式図である。 文字抽出手法(12文字抜き取り法)の具体例を模式的に示す模式図である。 本実施形態で採用されている裕度の考え方を説明するための説明図である。 本実施形態で採用されているシフト処理の一例を説明するための説明図である。 本実施形態で採用されているシフト処理の一例を説明するための説明図である。 文書更新判定システムSの誤判定率について説明するための表形式の図である。 6文字抜き取り法において、上記誤判定率計算式を用いて求めた誤判定率Gを示す表形式の図である。 全体文字数と誤判定率Gとの関係を示すグラフである。 文書更新判定システムSの全体的な処理フローを示すフローチャートである。 文書更新判定処理フローの詳細を示すフローチャートである。
符号の説明
1 サーバ装置
11 送受信部
12 サイト検索部(文書取得手段)
13 文字数カウント部(文字数カウント手段)
14 文字数比較部
15 比較文字抽出部(比較文字抽出手段)
16 更新判定部(更新判定手段)
161 文字数差判定部(第1の更新判定手段)
162 差分判定部(第2の更新判定手段)
163 リライト部
17 シフト処理部(シフト処理手段)
18 主記憶装置
19 外部記憶装置(記憶手段)
2 端末装置
3 Webサイト(WWWサイト)
41 第1文書
42 第2文書

Claims (14)

  1. 比較元となる第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字と、比較先となる第2文書から前記文字抽出条件に基づいて抽出された第2の比較文字とを比較することで、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定することを特徴とする文書更新判定方法。
  2. 比較元となる第1文書の文字数と、比較先となる第2文書の文字数とを比較して、両者の文字数差が所定の裕度範囲内であるか否かを判定する第1ステップと、
    両者の文字数差が前記裕度範囲内である場合に、前記第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字と、前記第2文書から前記文字抽出条件に基づいて抽出された第2の比較文字とを比較することで、前記第2文書が前記第1文書に対して実質的に更新部分を含んで生成された更新文書であるか否かを判定する第2ステップと
    を含むことを特徴とする文書更新判定方法。
  3. 前記文字抽出が、文書の先頭文字を基準として規則的に複数の文字を抽出するものである場合において、
    前記第1の比較文字と第2の比較文字とが同一でない場合に、前記第2文書から先頭文字となる文字位置をシフトさせて新たに第2の比較文字を抽出し、
    前記第1の比較文字と新たに抽出された第2の比較文字とを比較して前記第2文書が更新文書であるか否かを判定する動作を繰り返すことを特徴とする請求項1又は2に記載の文書更新判定方法。
  4. 比較元となる第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字を記憶する記憶手段と、
    比較先となる第2文書を取得する文書取得手段と、
    前記第2文書から前記文字抽出条件に基づいて第2の比較文字を抽出する比較文字抽出手段と、
    前記記憶手段に記憶されている第1の比較文字と、前記第2の比較文字とを比較することで、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定する更新判定手段と
    を含むことを特徴とする文書更新判定システム。
  5. 比較元となる第1文書の文字数と、当該第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字とを記憶する記憶手段と、
    比較先となる第2文書を取得する文書取得手段と、
    前記第2文書の文字数をカウントする文字数カウント手段と、
    前記記憶手段に記憶されている第1文書の文字数と、前記第2文書の文字数との比較結果に基づいて、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定する第1の更新判定手段と、
    前記第2文書から前記文字抽出条件に基づいて第2の比較文字を抽出する比較文字抽出手段と、
    前記記憶手段に記憶されている第1の比較文字と、前記第2の比較文字とを比較することで、前記第2文書が前記更新文書であるか否かを判定する第2の更新判定手段と
    を含むことを特徴とする文書更新判定システム。
  6. 前記第2の更新判定手段は、前記第1文書と第2文書との文字数差が所定の裕度範囲内である場合に判定動作を行うことを特徴とする請求項5に記載の文書更新判定システム。
  7. 前記文書取得手段は、WWWサイトから前記第2文書を取得することを特徴とする請求項4又は5に記載の文書更新判定システム。
  8. 前記文書取得手段は、インターネット上で所定のキーワードを用いた検索を所定のサンプリング時間毎に行うことで、WWWサイトから前記第2文書を取得することを特徴とする請求項7に記載の文書更新判定システム。
  9. 前記比較文字抽出手段が、文書の先頭文字を基準として規則的に複数の文字を抽出するものであって、
    前記第1の比較文字と第2の比較文字とが同一でない場合に、前記第2文書から先頭文字となる文字位置をシフトさせて前記比較文字抽出手段に新たな第2の比較文字を抽出させるシフト処理手段を有することを特徴とする請求項4〜8のいずれかに記載の文書更新判定システム。
  10. 請求項5及び9に記載の文書更新判定システムにおいて、
    シフト処理手段は、前記第1文書の文字数をm、第2文書の文字数をnとするとき、第2の更新判定手段による初回の判定処理の後、最大でn−m回だけ、先頭文字となる文字位置を1文字ずつシフトさせる処理を行うことを特徴とする文書更新判定システム。
  11. 請求項5に記載の文書更新判定システムにおいて、
    第1の更新判定手段は、前記第1文書の文字数をm、第2文書の文字数をnとするとき、n−m<0の条件のとき、第2文書が前記更新文書であると判定することを特徴とする文書更新判定システム。
  12. 前記第2文書が前記更新文書であると判定された場合に、少なくとも当該第2文書の所在地の記述情報が配信される端末装置を具備することを特徴とする請求項4〜11のいずれかに記載の文書更新判定システム。
  13. 電子情報として文字情報を記憶可能な記憶手段と、外部から文書情報を取得可能な文書取得手段と、所定の演算処理を行う処理手段とを備える文書更新判定システムを動作させるプログラムであって、
    前記記憶手段に、比較元となる第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字を記憶させる記憶処理、
    前記文書取得手段に、比較先となる第2文書を取得させる文書取得処理、
    前記処理手段に、
    前記第2文書から前記文字抽出条件に基づいて第2の比較文字を抽出する比較文字抽出処理、及び
    前記記憶手段に記憶されている第1の比較文字と、前記第2の比較文字とを比較することで、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定する更新判定処理
    を実行させることを特徴とする文書更新判定システムの動作プログラム。
  14. 電子情報として文字情報を記憶可能な記憶手段と、外部から文書情報を取得可能な文書取得手段と、所定の演算処理を行う処理手段とを備える文書更新判定システムを動作させるプログラムであって、
    前記記憶手段に、比較元となる第1文書の文字数と、当該第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字とを記憶させる記憶処理、
    前記文書取得手段に、比較先となる第2文書を取得させる文書取得処理、
    前記処理手段に、
    前記第2文書の文字数をカウントする文字数カウント処理、
    前記記憶手段に記憶されている第1文書の文字数と、前記第2文書の文字数との比較結果に基づいて、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定する第1の更新判定処理、
    前記第2文書から前記文字抽出条件に基づいて第2の比較文字を抽出する比較文字抽出処理、及び
    前記記憶手段に記憶されている第1の比較文字と、前記第2の比較文字とを比較することで、前記第2文書が前記更新文書であるか否かを判定する第2の更新判定処理
    を実行させることを特徴とする文書更新判定システムの動作プログラム。
JP2006003222A 2006-01-11 2006-01-11 文書更新判定方法、システム及びその動作プログラム Pending JP2007188123A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006003222A JP2007188123A (ja) 2006-01-11 2006-01-11 文書更新判定方法、システム及びその動作プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006003222A JP2007188123A (ja) 2006-01-11 2006-01-11 文書更新判定方法、システム及びその動作プログラム

Publications (1)

Publication Number Publication Date
JP2007188123A true JP2007188123A (ja) 2007-07-26

Family

ID=38343277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006003222A Pending JP2007188123A (ja) 2006-01-11 2006-01-11 文書更新判定方法、システム及びその動作プログラム

Country Status (1)

Country Link
JP (1) JP2007188123A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086944A (ja) * 2007-09-28 2009-04-23 Fuji Xerox Co Ltd 情報処理装置および情報処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001256100A (ja) * 1995-09-29 2001-09-21 Sony Corp ワールドワイドウェブブラウザ装置およびワールドワイドウェブの更新通知方法
JP2004086851A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001256100A (ja) * 1995-09-29 2001-09-21 Sony Corp ワールドワイドウェブブラウザ装置およびワールドワイドウェブの更新通知方法
JP2004086851A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086944A (ja) * 2007-09-28 2009-04-23 Fuji Xerox Co Ltd 情報処理装置および情報処理プログラム

Similar Documents

Publication Publication Date Title
US20220075900A1 (en) Tracing objects across different parties
US9984046B2 (en) Font delivery system and font delivery method
Sorokina et al. Plagiarism detection in arXiv
US20120192066A1 (en) Selecting portions of computer-accessible documents for post-selection processing
JP7297791B2 (ja) アプリケーションソフトウェアファイル内の難読化コードを検出するための方法、装置、およびシステム
TW201033900A (en) Methods and systems for power consumption management of a pattern-recognition processor
CN109977684A (zh) 一种数据传输方法、装置及终端设备
CN111797351A (zh) 页面数据管理方法、装置、电子设备及介质
US20200394308A1 (en) Blockchain-based state verifications of software component vulnerability database for software products
CN103491101A (zh) 钓鱼网站检测方法、装置及客户端
CN108304727A (zh) 数据处理的方法与装置
CN110232080B (zh) 一种基于区块链的快速检索方法
JP2007188123A (ja) 文書更新判定方法、システム及びその動作プログラム
US11868412B1 (en) Data enrichment systems and methods for abbreviated domain name classification
CN113434122A (zh) 多角色页面创建方法、装置、服务器及可读存储介质
CN113656466A (zh) 保单数据查询方法、装置、设备及存储介质
Lafaye et al. XML streams watermarking
CN110489386A (zh) 信息处理方法、装置、存储介质及电子设备
JP2020091607A (ja) 検索システム、及び検索方法
JP5971793B2 (ja) 検索式妥当性判断装置、検索式妥当性判断方法、およびプログラム
JP2018120567A5 (ja)
Watson A fast and simple algorithm for constructing minimal acyclic deterministic finite automata
JP2010044708A (ja) Web資源追跡管理プログラム、Web資源追跡管理装置及びWeb資源追跡管理方法
Haas Protocol to discover machine-readable entities of the ecosystem management actions taxonomy
JP6184331B2 (ja) 検索システム、検索装置、検索方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101116

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426