JP5466187B2 - 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム - Google Patents
類似文書判定方法、類似文書判定装置及び類似文書判定プログラム Download PDFInfo
- Publication number
- JP5466187B2 JP5466187B2 JP2011024940A JP2011024940A JP5466187B2 JP 5466187 B2 JP5466187 B2 JP 5466187B2 JP 2011024940 A JP2011024940 A JP 2011024940A JP 2011024940 A JP2011024940 A JP 2011024940A JP 5466187 B2 JP5466187 B2 JP 5466187B2
- Authority
- JP
- Japan
- Prior art keywords
- determination
- document
- target document
- comparison target
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Ns={nsi|i=1,...,I} ・・・(2)
次式(3)で表されるrdsが閾値th+,th-を用いた次式(4)を満たすとき、被判定文書(d)と比較対象文書(s)が同じ文書である可能性があると判定する。
1−th- ≦ rds < 1+th+ ・・・(4)
閾値th+,th-は、類似判定基準として類似判定処理部12に格納しておく。
11…前処理部
12…類似判定処理部
13…判定処理用データ蓄積部
14…出力部
Claims (5)
- 文書を入力して当該文書を統計処理し、判定処理用データを得るステップと、
比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段から読み出した前記比較対象文書の判定処理用データと判定対象文書を統計処理して得られた判定対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定するステップと、を有し、
前記判定処理用データは、前記文書中に現れる各自立語の出現頻度であり、
前記判定するステップは、前記比較対象文書と前記判定対象文書の自立語の出現頻度の順位毎の出現頻度の比の積が所定の範囲内である場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする類似文書判定方法。 - 文書を入力して当該文書を統計処理し、判定処理用データを得るステップと、
比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段から読み出した前記比較対象文書の判定処理用データと判定対象文書を統計処理して得られた判定対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定するステップと、を有し、
前記判定処理用データは、前記文書の段落数、文の数であり、
前記判定するステップは、前記比較対象文書と前記判定対象文書の段落数、文の数が同じである場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする類似文書判定方法。 - 文書を入力して当該文書を統計処理し、判定処理用データを得る統計処理手段と、
前記統計処理手段により比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段と、
前記統計処理手段により判定対象文書を統計処理して得られた判定対象文書の判定処理用データと前記蓄積手段から読み出した前記比較対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定する類似判定手段と、を有し、
前記判定処理用データは、前記文書中に現れる各自立語の出現頻度であり、
前記類似判定手段は、前記比較対象文書と前記判定対象文書の自立語の出現頻度の順位毎の出現頻度の比の積が所定の範囲内である場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする類似文書判定装置。 - 文書を入力して当該文書を統計処理し、判定処理用データを得る統計処理手段と、
前記統計処理手段により比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段と、
前記統計処理手段により判定対象文書を統計処理して得られた判定対象文書の判定処理用データと前記蓄積手段から読み出した前記比較対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定する類似判定手段と、を有し、
前記判定処理用データは、前記文書の段落数、文の数であり、
前記類似判定手段は、前記比較対象文書と前記判定対象文書の段落数、文の数が同じである場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする類似文書判定装置。 - 請求項1又は2に記載の類似文書判定方法をコンピュータに実行させることを特徴とする類似文書判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011024940A JP5466187B2 (ja) | 2011-02-08 | 2011-02-08 | 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011024940A JP5466187B2 (ja) | 2011-02-08 | 2011-02-08 | 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012164193A JP2012164193A (ja) | 2012-08-30 |
JP5466187B2 true JP5466187B2 (ja) | 2014-04-09 |
Family
ID=46843517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011024940A Expired - Fee Related JP5466187B2 (ja) | 2011-02-08 | 2011-02-08 | 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5466187B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268959B (zh) * | 2021-05-25 | 2024-05-03 | 北京北大方正电子有限公司 | 文档处理方法、装置和电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198409A (ja) * | 1996-01-19 | 1997-07-31 | Hitachi Ltd | 酷似文書抽出方法 |
JP2006201926A (ja) * | 2005-01-19 | 2006-08-03 | Konica Minolta Holdings Inc | 類似文書検索システム、類似文書検索方法、およびプログラム |
JP2007018158A (ja) * | 2005-07-06 | 2007-01-25 | Canon Inc | 文字処理装置、文字処理方法及び記録媒体 |
US20070061319A1 (en) * | 2005-09-09 | 2007-03-15 | Xerox Corporation | Method for document clustering based on page layout attributes |
JP5245908B2 (ja) * | 2009-02-25 | 2013-07-24 | 富士通株式会社 | 検索方法及び装置 |
-
2011
- 2011-02-08 JP JP2011024940A patent/JP5466187B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012164193A (ja) | 2012-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kestemont et al. | Cross-genre authorship verification using unmasking | |
US9720904B2 (en) | Generating training data for disambiguation | |
US8521757B1 (en) | Method and apparatus for template-based processing of electronic documents | |
CN111581355B (zh) | 威胁情报的主题检测方法、装置和计算机存储介质 | |
US20130198268A1 (en) | Generation of a music playlist based on text content accessed by a user | |
US20140212106A1 (en) | Music soundtrack recommendation engine for videos | |
US20090089326A1 (en) | Method and apparatus for providing multimedia content optimization | |
US9043247B1 (en) | Systems and methods for classifying documents for data loss prevention | |
Shapira et al. | Content-based data leakage detection using extended fingerprinting | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
US9754023B2 (en) | Stochastic document clustering using rare features | |
Almishari et al. | Stylometric linkability of tweets | |
US9779363B1 (en) | Disambiguating personal names | |
Cen et al. | User Comment Analysis for Android apps and CSPI Detection with Comment Expansion. | |
CN109933691B (zh) | 用于内容检索的方法、装置、设备和存储介质 | |
Bost et al. | Serial speakers: a dataset of tv series | |
CA3012647A1 (en) | Content based image management and selection | |
US20160162930A1 (en) | Associating Social Comments with Individual Assets Used in a Campaign | |
US20100280984A1 (en) | Method for analyzing a multimedia content, corresponding computer program product and analysis device | |
Al-Nabki et al. | Short text classification approach to identify child sexual exploitation material | |
JP5466187B2 (ja) | 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム | |
US9946765B2 (en) | Building a domain knowledge and term identity using crowd sourcing | |
US9286349B2 (en) | Dynamic search system | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
US11868412B1 (en) | Data enrichment systems and methods for abbreviated domain name classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130121 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5466187 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |