JP6561529B2 - 文書検査装置、方法、及びプログラム - Google Patents
文書検査装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6561529B2 JP6561529B2 JP2015064889A JP2015064889A JP6561529B2 JP 6561529 B2 JP6561529 B2 JP 6561529B2 JP 2015064889 A JP2015064889 A JP 2015064889A JP 2015064889 A JP2015064889 A JP 2015064889A JP 6561529 B2 JP6561529 B2 JP 6561529B2
- Authority
- JP
- Japan
- Prior art keywords
- feature elements
- list
- hash value
- feature
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1に、第1の実施の形態における情報処理装置1の機能ブロック図を示す。情報処理装置1は、文書データ格納部101と、リスト生成部103と、リスト格納部105と、サブリスト生成部107と、サブリスト格納部109と、登録部111と、特徴データ格納部113と、抽出部115と、抽出結果格納部117とを含む。
図12に、第2の実施の形態における文書検査装置1000の機能ブロック図を示す。文書検査装置1000は、生成部1001と、分割部1003と、算出部1005と、比較部1007とを有する。
複数の文字列の各々について、当該文字列における複数の特徴要素を含むリストを生成する生成部と、
前記リストに含まれる複数の特徴要素の一部から算出したハッシュ値に基づき、前記リストを、各々が1又は複数の特徴要素を含む複数のブロックに分割する分割部と、
前記複数のブロックの各々についてハッシュ値を求める算出部と、
前記算出部が求めたハッシュ値を、文字列間で比較する比較部と、
を有する文書検査装置。
前記分割部は、
前記複数の特徴要素の一部から算出したハッシュ値に対して実行した演算処理の結果が所定条件を満たす場合に前記リスト内に区切りを設定することにより、前記リストを前記複数のブロックに分割する、
付記1記載の文書検査装置。
前記複数の特徴要素の一部は、前記文字列内での出現順序に従って抽出された複数の特徴要素である、
付記1又は2記載の文書検査装置。
前記複数の特徴要素の一部は、連続する複数の特徴要素である
付記1又は2記載の文書検査装置。
前記演算処理は、ハッシュ値を所定の値で除して剰余を求める演算処理であり、
前記所定条件は、前記剰余が所定の範囲に含まれるという条件を含む
付記2記載の文書検査装置。
前記分割部は、
前記連続する1又は複数の特徴要素のうち最初の特徴要素の前、又は、前記連続する1又は複数の特徴要素のうち最後の特徴要素の後に前記区切りを設定する
付記4記載の文書検査装置。
前記算出部は、
前記ブロックに含まれる特徴要素の数が閾値未満である場合、当該ブロックのハッシュ値を前記比較部による比較の対象から除外する、
付記1乃至6のいずれか1つ記載の文書検査装置。
前記特徴要素は名詞である
付記1乃至7のいずれか1つ記載の文書検査装置。
コンピュータが、
複数の文字列の各々について、当該文字列における複数の特徴要素を含むリストを生成し、
前記リストに含まれる複数の特徴要素の一部から算出したハッシュ値に基づき、前記リストを、各々が1又は複数の特徴要素を含む複数のブロックに分割し、
前記複数のブロックの各々についてハッシュ値を求め、
求められた前記ハッシュ値を、文字列間で比較する、
処理を実行する文書検査方法。
コンピュータに、
複数の文字列の各々について、当該文字列における複数の特徴要素を含むリストを生成し、
前記リストに含まれる複数の特徴要素の一部から算出したハッシュ値に基づき、前記リストを、各々が1又は複数の特徴要素を含む複数のブロックに分割し、
前記複数のブロックの各々についてハッシュ値を求め、
求められた前記ハッシュ値を、文字列間で比較する、
処理を実行させる文書検査プログラム。
103 リスト生成部 105 リスト格納部
107 サブリスト生成部 109 サブリスト格納部
111 登録部 113 特徴データ格納部
115 抽出部 117 抽出結果格納部
1000 文書検査装置 1001 生成部
1003 分割部 1005 算出部
1007 比較部
Claims (7)
- 複数の文字列の各々について、当該文字列における複数の特徴要素を含むリストを生成する生成部と、
前記リストに含まれる複数の特徴要素の一部から算出したハッシュ値に基づき、前記リストを、各々が1又は複数の特徴要素を含む複数のブロックに分割する分割部と、
前記複数のブロックの各々についてハッシュ値を求める算出部と、
前記算出部が求めたハッシュ値を、文字列間で比較する比較部と、
を有し、
前記複数の特徴要素の一部は、前記文字列内での出現順序に従って抽出された複数の特徴要素、または、連続する複数の特徴要素である
文書検査装置。 - 前記分割部は、
前記複数の特徴要素の一部から算出したハッシュ値に対して実行した演算処理の結果が所定条件を満たす場合に前記リスト内に区切りを設定することにより、前記リストを前記複数のブロックに分割する、
請求項1記載の文書検査装置。 - 前記演算処理は、ハッシュ値を所定の値で除して剰余を求める演算処理であり、
前記所定条件は、前記剰余が所定の範囲に含まれるという条件を含む
請求項2記載の文書検査装置。 - 前記分割部は、
前記連続する複数の特徴要素のうち最初の特徴要素の前、又は、前記連続する複数の特徴要素のうち最後の特徴要素の後に前記区切りを設定する
請求項1記載の文書検査装置。 - 前記算出部は、
前記ブロックに含まれる特徴要素の数が閾値未満である場合、当該ブロックのハッシュ値を前記比較部による比較の対象から除外する、
請求項1乃至4のいずれか1つ記載の文書検査装置。 - コンピュータが、
複数の文字列の各々について、当該文字列における複数の特徴要素を含むリストを生成し、
前記リストに含まれる複数の特徴要素の一部から算出したハッシュ値に基づき、前記リストを、各々が1又は複数の特徴要素を含む複数のブロックに分割し、
前記複数のブロックの各々についてハッシュ値を求め、
求められた前記ハッシュ値を、文字列間で比較する、
処理を実行し、
前記複数の特徴要素の一部は、前記文字列内での出現順序に従って抽出された複数の特徴要素、または、連続する複数の特徴要素である
文書検査方法。 - コンピュータに、
複数の文字列の各々について、当該文字列における複数の特徴要素を含むリストを生成し、
前記リストに含まれる複数の特徴要素の一部から算出したハッシュ値に基づき、前記リストを、各々が1又は複数の特徴要素を含む複数のブロックに分割し、
前記複数のブロックの各々についてハッシュ値を求め、
求められた前記ハッシュ値を、文字列間で比較する、
処理を実行させ、
前記複数の特徴要素の一部は、前記文字列内での出現順序に従って抽出された複数の特徴要素、または、連続する複数の特徴要素である
文書検査プログラム。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015064889A JP6561529B2 (ja) | 2015-03-26 | 2015-03-26 | 文書検査装置、方法、及びプログラム |
| EP16152542.3A EP3073390A1 (en) | 2015-03-26 | 2016-01-25 | Document checking device, method, and program |
| US15/009,162 US20160283472A1 (en) | 2015-03-26 | 2016-01-28 | Document checking device, method, and storage medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015064889A JP6561529B2 (ja) | 2015-03-26 | 2015-03-26 | 文書検査装置、方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016184334A JP2016184334A (ja) | 2016-10-20 |
| JP6561529B2 true JP6561529B2 (ja) | 2019-08-21 |
Family
ID=55272234
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015064889A Expired - Fee Related JP6561529B2 (ja) | 2015-03-26 | 2015-03-26 | 文書検査装置、方法、及びプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20160283472A1 (ja) |
| EP (1) | EP3073390A1 (ja) |
| JP (1) | JP6561529B2 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10572544B1 (en) * | 2015-12-14 | 2020-02-25 | Open Text Corporation | Method and system for document similarity analysis |
| CN110765011B (zh) * | 2019-10-15 | 2023-04-07 | 卡斯柯信号有限公司 | 一种配置库内测试运维数据自动获取和校验装置及方法 |
| US12093329B1 (en) * | 2020-01-30 | 2024-09-17 | Linkbox, Inc. A Delaware Corporation | Use of published electronic documents to enable automated communication between document users |
Family Cites Families (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6658626B1 (en) * | 1998-07-31 | 2003-12-02 | The Regents Of The University Of California | User interface for displaying document comparison information |
| US6594665B1 (en) * | 2000-02-18 | 2003-07-15 | Intel Corporation | Storing hashed values of data in media to allow faster searches and comparison of data |
| EP1401143B1 (en) * | 2002-09-17 | 2006-01-11 | Errikos Pitsos | Methods and system for providing a public key fingerprint list in a PK system |
| US7991751B2 (en) * | 2003-04-02 | 2011-08-02 | Portauthority Technologies Inc. | Method and a system for information identification |
| US7702628B1 (en) * | 2003-09-29 | 2010-04-20 | Sun Microsystems, Inc. | Implementing a fully dynamic lock-free hash table without dummy nodes |
| US7594277B2 (en) | 2004-06-30 | 2009-09-22 | Microsoft Corporation | Method and system for detecting when an outgoing communication contains certain content |
| JP2009048149A (ja) * | 2007-08-15 | 2009-03-05 | Mitsuru Fujitsuki | 自動写真撮影装置 |
| US8977949B2 (en) * | 2007-10-11 | 2015-03-10 | Nec Corporation | Electronic document equivalence determination system and equivalence determination method |
| US8312023B2 (en) * | 2007-12-21 | 2012-11-13 | Georgetown University | Automated forensic document signatures |
| US8386792B1 (en) * | 2008-06-10 | 2013-02-26 | Trend Micro Incorporated | Asymmetric content fingerprinting with adaptive window sizing |
| JP4831787B2 (ja) | 2009-02-09 | 2011-12-07 | 日本電信電話株式会社 | 引用検出装置、そのプログラム及び記録媒体 |
| JP5458880B2 (ja) | 2009-03-02 | 2014-04-02 | 富士通株式会社 | 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法 |
| JP5708107B2 (ja) * | 2011-03-23 | 2015-04-30 | 日本電気株式会社 | 重複ファイル検出装置 |
| US8543543B2 (en) * | 2011-09-13 | 2013-09-24 | Microsoft Corporation | Hash-based file comparison |
| JP5694989B2 (ja) * | 2012-05-08 | 2015-04-01 | 日本電信電話株式会社 | 文書分類装置及びプログラム |
| US9015269B2 (en) * | 2012-06-19 | 2015-04-21 | Canon Kabushiki Kaisha | Methods and systems for notifying a server with cache information and for serving resources based on it |
| US20160267065A1 (en) * | 2013-10-25 | 2016-09-15 | Leonard L. Drey | Method of Governing Content Presentation of Multi-Page Electronic Documents |
-
2015
- 2015-03-26 JP JP2015064889A patent/JP6561529B2/ja not_active Expired - Fee Related
-
2016
- 2016-01-25 EP EP16152542.3A patent/EP3073390A1/en not_active Ceased
- 2016-01-28 US US15/009,162 patent/US20160283472A1/en not_active Abandoned
Also Published As
| Publication number | Publication date |
|---|---|
| JP2016184334A (ja) | 2016-10-20 |
| EP3073390A1 (en) | 2016-09-28 |
| US20160283472A1 (en) | 2016-09-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN106294350B (zh) | 一种文本聚合方法及装置 | |
| US8955120B2 (en) | Flexible fingerprint for detection of malware | |
| US8344916B2 (en) | System and method for simplifying transmission in parallel computing system | |
| CN110222511A (zh) | 恶意软件家族识别方法、装置及电子设备 | |
| US11222131B2 (en) | Method for a secure storage of data records | |
| CN106557777B (zh) | 一种基于SimHash改进的Kmeans文档聚类方法 | |
| CN107526742B (zh) | 用于处理多语言文本的方法和设备 | |
| JP6561529B2 (ja) | 文書検査装置、方法、及びプログラム | |
| CN108280197B (zh) | 一种识别同源二进制文件的方法及系统 | |
| US9524354B2 (en) | Device, method, and program for processing data with tree structure | |
| JP4831787B2 (ja) | 引用検出装置、そのプログラム及び記録媒体 | |
| EP2819054B1 (en) | Flexible fingerprint for detection of malware | |
| CN112541062B (zh) | 平行语料对齐方法、装置、存储介质及电子设备 | |
| CN114138243A (zh) | 基于开发平台的功能调用方法、装置、设备及存储介质 | |
| KR102073833B1 (ko) | 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법 | |
| Steinebach et al. | Robust hash algorithms for text | |
| CN114254069A (zh) | 域名相似度的检测方法、装置和存储介质 | |
| CN106599320A (zh) | 一种文件信息摘要值计算方法及装置 | |
| CN111159996A (zh) | 一种基于改进的文本指纹算法的短文本集合相似度比较方法及系统 | |
| CN108536713B (zh) | 字符串审核方法、装置及电子设备 | |
| CN107491424B (zh) | 一种基于多权重体系的中文文档基因匹配方法 | |
| CN117370617A (zh) | 一种基于最小哈希的大规模冗余数据压缩方法 | |
| CN116204612A (zh) | 一种文本相似度计算方法及系统 | |
| CN115687979A (zh) | 威胁情报中指定技术的识别方法及装置、电子设备、存储介质 | |
| CN115481102B (zh) | 数据迁移方法、装置、计算机设备和计算机可读存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180115 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181130 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181211 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190115 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190625 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190708 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6561529 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |