JP2007188123A - 文書更新判定方法、システム及びその動作プログラム - Google Patents
文書更新判定方法、システム及びその動作プログラム Download PDFInfo
- Publication number
- JP2007188123A JP2007188123A JP2006003222A JP2006003222A JP2007188123A JP 2007188123 A JP2007188123 A JP 2007188123A JP 2006003222 A JP2006003222 A JP 2006003222A JP 2006003222 A JP2006003222 A JP 2006003222A JP 2007188123 A JP2007188123 A JP 2007188123A
- Authority
- JP
- Japan
- Prior art keywords
- document
- character
- comparison
- characters
- update
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】比較元となる第1文書41から所定の文字抽出条件に基づいて第1の比較文字41a〜41eを抽出すると共に、比較先となる第2文書42からも同様な文字抽出条件に基づいて第2の比較文字42a〜42eを抽出し、各々第1の比較文字配列410と第2の比較文字配列420とを生成する。そして、第1の比較文字配列410と第2の比較文字配列420との同じ番目の比較文字同士を各々比較する。その結果、第1の比較文字配列410と第2の比較文字配列420とが全て同一であれば、第1文書41と第2文書42とは同一文書(更新なし)であると判定する。一方、両比較文字配列間に相違があれば、第1文書41と第2文書42とは異文書(更新あり)であると判定する。
【選択図】図2
Description
(2)ハッシュ値比較法;2つの文書からそれぞれハッシュ関数によりハッシュ値を取得し、その値を比較することで両者の同一性を判定する方法。
(3)形態素解析法;2つの文書を各々形態素解析して品詞分解し、構成品詞配列レベルで文書同士の合致度を判定する方法。
(4)時間情報取得法;文書更新時に属性情報として記録される更新時間情報に基づいて同一文書であるか否かを判定する方法。
(5)暗号文比較法;文書を暗号化し、暗号化された文字数値配列同士を比較することで更新判定する方法。
図1は、本発明に係る文書更新判定システムSのハード構成を示す構成図である。この文書更新判定システムSは、インターネット回線INに接続され、Webサイト3(WWWサイト)をブラウジング可能とされたサーバ装置1と、このサーバ装置1と通信可能とされたパーソナルコンピュータ21、携帯電話機22等の端末装置2とから構成されている。
抜き取り間隔r=int{(L−1)/5}
抽出文字位置p=r*n+1
但し、n={0,1,2,3,4,5}
抜き取り間隔r=int{(L−1)/2}
抽出文字位置p=r*n+1
但し、n={0,1,2}
抜き取り間隔r=int{(L−1)/11}
抽出文字位置p=r*n+1
但し、n={0,1,2,3,4,5,6,7,8,9,10,11}
n−m<0 or (n−m)/n≧0.05 or (n−m)≧30
を満たす場合となる。なお、n−m<0の場合に直ちに「更新あり」と判定するのは、上述した通り文書Aの文字データ自体を外部記憶装置19では保管しないことによる。
n−m≧0 and (n−m)/n<0.05 and (n−m)<30
11 送受信部
12 サイト検索部(文書取得手段)
13 文字数カウント部(文字数カウント手段)
14 文字数比較部
15 比較文字抽出部(比較文字抽出手段)
16 更新判定部(更新判定手段)
161 文字数差判定部(第1の更新判定手段)
162 差分判定部(第2の更新判定手段)
163 リライト部
17 シフト処理部(シフト処理手段)
18 主記憶装置
19 外部記憶装置(記憶手段)
2 端末装置
3 Webサイト(WWWサイト)
41 第1文書
42 第2文書
Claims (14)
- 比較元となる第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字と、比較先となる第2文書から前記文字抽出条件に基づいて抽出された第2の比較文字とを比較することで、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定することを特徴とする文書更新判定方法。
- 比較元となる第1文書の文字数と、比較先となる第2文書の文字数とを比較して、両者の文字数差が所定の裕度範囲内であるか否かを判定する第1ステップと、
両者の文字数差が前記裕度範囲内である場合に、前記第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字と、前記第2文書から前記文字抽出条件に基づいて抽出された第2の比較文字とを比較することで、前記第2文書が前記第1文書に対して実質的に更新部分を含んで生成された更新文書であるか否かを判定する第2ステップと
を含むことを特徴とする文書更新判定方法。 - 前記文字抽出が、文書の先頭文字を基準として規則的に複数の文字を抽出するものである場合において、
前記第1の比較文字と第2の比較文字とが同一でない場合に、前記第2文書から先頭文字となる文字位置をシフトさせて新たに第2の比較文字を抽出し、
前記第1の比較文字と新たに抽出された第2の比較文字とを比較して前記第2文書が更新文書であるか否かを判定する動作を繰り返すことを特徴とする請求項1又は2に記載の文書更新判定方法。 - 比較元となる第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字を記憶する記憶手段と、
比較先となる第2文書を取得する文書取得手段と、
前記第2文書から前記文字抽出条件に基づいて第2の比較文字を抽出する比較文字抽出手段と、
前記記憶手段に記憶されている第1の比較文字と、前記第2の比較文字とを比較することで、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定する更新判定手段と
を含むことを特徴とする文書更新判定システム。 - 比較元となる第1文書の文字数と、当該第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字とを記憶する記憶手段と、
比較先となる第2文書を取得する文書取得手段と、
前記第2文書の文字数をカウントする文字数カウント手段と、
前記記憶手段に記憶されている第1文書の文字数と、前記第2文書の文字数との比較結果に基づいて、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定する第1の更新判定手段と、
前記第2文書から前記文字抽出条件に基づいて第2の比較文字を抽出する比較文字抽出手段と、
前記記憶手段に記憶されている第1の比較文字と、前記第2の比較文字とを比較することで、前記第2文書が前記更新文書であるか否かを判定する第2の更新判定手段と
を含むことを特徴とする文書更新判定システム。 - 前記第2の更新判定手段は、前記第1文書と第2文書との文字数差が所定の裕度範囲内である場合に判定動作を行うことを特徴とする請求項5に記載の文書更新判定システム。
- 前記文書取得手段は、WWWサイトから前記第2文書を取得することを特徴とする請求項4又は5に記載の文書更新判定システム。
- 前記文書取得手段は、インターネット上で所定のキーワードを用いた検索を所定のサンプリング時間毎に行うことで、WWWサイトから前記第2文書を取得することを特徴とする請求項7に記載の文書更新判定システム。
- 前記比較文字抽出手段が、文書の先頭文字を基準として規則的に複数の文字を抽出するものであって、
前記第1の比較文字と第2の比較文字とが同一でない場合に、前記第2文書から先頭文字となる文字位置をシフトさせて前記比較文字抽出手段に新たな第2の比較文字を抽出させるシフト処理手段を有することを特徴とする請求項4〜8のいずれかに記載の文書更新判定システム。 - 請求項5及び9に記載の文書更新判定システムにおいて、
シフト処理手段は、前記第1文書の文字数をm、第2文書の文字数をnとするとき、第2の更新判定手段による初回の判定処理の後、最大でn−m回だけ、先頭文字となる文字位置を1文字ずつシフトさせる処理を行うことを特徴とする文書更新判定システム。 - 請求項5に記載の文書更新判定システムにおいて、
第1の更新判定手段は、前記第1文書の文字数をm、第2文書の文字数をnとするとき、n−m<0の条件のとき、第2文書が前記更新文書であると判定することを特徴とする文書更新判定システム。 - 前記第2文書が前記更新文書であると判定された場合に、少なくとも当該第2文書の所在地の記述情報が配信される端末装置を具備することを特徴とする請求項4〜11のいずれかに記載の文書更新判定システム。
- 電子情報として文字情報を記憶可能な記憶手段と、外部から文書情報を取得可能な文書取得手段と、所定の演算処理を行う処理手段とを備える文書更新判定システムを動作させるプログラムであって、
前記記憶手段に、比較元となる第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字を記憶させる記憶処理、
前記文書取得手段に、比較先となる第2文書を取得させる文書取得処理、
前記処理手段に、
前記第2文書から前記文字抽出条件に基づいて第2の比較文字を抽出する比較文字抽出処理、及び
前記記憶手段に記憶されている第1の比較文字と、前記第2の比較文字とを比較することで、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定する更新判定処理
を実行させることを特徴とする文書更新判定システムの動作プログラム。 - 電子情報として文字情報を記憶可能な記憶手段と、外部から文書情報を取得可能な文書取得手段と、所定の演算処理を行う処理手段とを備える文書更新判定システムを動作させるプログラムであって、
前記記憶手段に、比較元となる第1文書の文字数と、当該第1文書から所定の文字抽出条件に基づいて抽出された第1の比較文字とを記憶させる記憶処理、
前記文書取得手段に、比較先となる第2文書を取得させる文書取得処理、
前記処理手段に、
前記第2文書の文字数をカウントする文字数カウント処理、
前記記憶手段に記憶されている第1文書の文字数と、前記第2文書の文字数との比較結果に基づいて、前記第2文書が前記第1文書に対して更新部分を含んで生成された更新文書であるか否かを判定する第1の更新判定処理、
前記第2文書から前記文字抽出条件に基づいて第2の比較文字を抽出する比較文字抽出処理、及び
前記記憶手段に記憶されている第1の比較文字と、前記第2の比較文字とを比較することで、前記第2文書が前記更新文書であるか否かを判定する第2の更新判定処理
を実行させることを特徴とする文書更新判定システムの動作プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006003222A JP2007188123A (ja) | 2006-01-11 | 2006-01-11 | 文書更新判定方法、システム及びその動作プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006003222A JP2007188123A (ja) | 2006-01-11 | 2006-01-11 | 文書更新判定方法、システム及びその動作プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007188123A true JP2007188123A (ja) | 2007-07-26 |
Family
ID=38343277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006003222A Pending JP2007188123A (ja) | 2006-01-11 | 2006-01-11 | 文書更新判定方法、システム及びその動作プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007188123A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009086944A (ja) * | 2007-09-28 | 2009-04-23 | Fuji Xerox Co Ltd | 情報処理装置および情報処理プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001256100A (ja) * | 1995-09-29 | 2001-09-21 | Sony Corp | ワールドワイドウェブブラウザ装置およびワールドワイドウェブの更新通知方法 |
JP2004086851A (ja) * | 2002-06-27 | 2004-03-18 | Oki Electric Ind Co Ltd | 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体 |
-
2006
- 2006-01-11 JP JP2006003222A patent/JP2007188123A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001256100A (ja) * | 1995-09-29 | 2001-09-21 | Sony Corp | ワールドワイドウェブブラウザ装置およびワールドワイドウェブの更新通知方法 |
JP2004086851A (ja) * | 2002-06-27 | 2004-03-18 | Oki Electric Ind Co Ltd | 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009086944A (ja) * | 2007-09-28 | 2009-04-23 | Fuji Xerox Co Ltd | 情報処理装置および情報処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220075900A1 (en) | Tracing objects across different parties | |
US9984046B2 (en) | Font delivery system and font delivery method | |
Sorokina et al. | Plagiarism detection in arXiv | |
US20120192066A1 (en) | Selecting portions of computer-accessible documents for post-selection processing | |
JP7297791B2 (ja) | アプリケーションソフトウェアファイル内の難読化コードを検出するための方法、装置、およびシステム | |
TW201033900A (en) | Methods and systems for power consumption management of a pattern-recognition processor | |
CN109977684A (zh) | 一种数据传输方法、装置及终端设备 | |
CN111797351A (zh) | 页面数据管理方法、装置、电子设备及介质 | |
US20200394308A1 (en) | Blockchain-based state verifications of software component vulnerability database for software products | |
CN103491101A (zh) | 钓鱼网站检测方法、装置及客户端 | |
CN108304727A (zh) | 数据处理的方法与装置 | |
CN110232080B (zh) | 一种基于区块链的快速检索方法 | |
JP2007188123A (ja) | 文書更新判定方法、システム及びその動作プログラム | |
US11868412B1 (en) | Data enrichment systems and methods for abbreviated domain name classification | |
CN113434122A (zh) | 多角色页面创建方法、装置、服务器及可读存储介质 | |
CN113656466A (zh) | 保单数据查询方法、装置、设备及存储介质 | |
Lafaye et al. | XML streams watermarking | |
CN110489386A (zh) | 信息处理方法、装置、存储介质及电子设备 | |
JP2020091607A (ja) | 検索システム、及び検索方法 | |
JP5971793B2 (ja) | 検索式妥当性判断装置、検索式妥当性判断方法、およびプログラム | |
JP2018120567A5 (ja) | ||
Watson | A fast and simple algorithm for constructing minimal acyclic deterministic finite automata | |
JP2010044708A (ja) | Web資源追跡管理プログラム、Web資源追跡管理装置及びWeb資源追跡管理方法 | |
Haas | Protocol to discover machine-readable entities of the ecosystem management actions taxonomy | |
JP6184331B2 (ja) | 検索システム、検索装置、検索方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100824 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110426 |