JP2012164193A - 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム - Google Patents
類似文書判定方法、類似文書判定装置及び類似文書判定プログラム Download PDFInfo
- Publication number
- JP2012164193A JP2012164193A JP2011024940A JP2011024940A JP2012164193A JP 2012164193 A JP2012164193 A JP 2012164193A JP 2011024940 A JP2011024940 A JP 2011024940A JP 2011024940 A JP2011024940 A JP 2011024940A JP 2012164193 A JP2012164193 A JP 2012164193A
- Authority
- JP
- Japan
- Prior art keywords
- document
- determination
- target document
- similar
- determination processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】比較対象文書の判定処理用データを予め判定処理用データ蓄積部13に蓄積しておき、被判定文書を前処理部11へ入力して被判定文書の判定処理用データを生成し、類似判定処理部12が判定処理用データ蓄積部13から比較対象文書の判定処理用データを一つずつ読み出して被判定文書の判定処理用データと比較し、類似判定処理部12が保持する判定処理基準に基づいて類似判定処理を行う。これにより、被判定文書が比較対象文書を改変したものであるか否かを判定することができる。
【選択図】図1
Description
Ns={nsi|i=1,...,I} ・・・(2)
次式(3)で表されるrdsが閾値th+,th-を用いた次式(4)を満たすとき、被判定文書(d)と比較対象文書(s)が同じ文書である可能性があると判定する。
1−th- ≦ rds < 1+th+ ・・・(4)
閾値th+,th-は、類似判定基準として類似判定処理部12に格納しておく。
11…前処理部
12…類似判定処理部
13…判定処理用データ蓄積部
14…出力部
Claims (7)
- 文書を入力して当該文書を統計処理し、判定処理用データを得るステップと、
比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段から読み出した前記比較対象文書の判定処理用データと判定対象文書を統計処理して得られた判定対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定するステップと、
を有することを特徴とする類似文書判定方法。 - 前記判定処理用データは、前記文書中に現れる各自立語の出現頻度であり、
前記判定するステップは、前記比較対象文書と前記判定対象文書の自立語の出現頻度の順位毎の出現頻度の比の積が所定の範囲内である場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする請求項1記載の類似文書判定方法。 - 前記判定処理用データは、前記文書の段落数、文の数であり、
前記判定するステップは、前記比較対象文書と前記判定対象文書の段落数、文の数が同じである場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする請求項1又は2に記載の類似文書判定方法。 - 文書を入力して当該文書を統計処理し、判定処理用データを得る統計処理手段と、
前記統計処理手段により比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段と、
前記統計処理手段により判定対象文書を統計処理して得られた判定対象文書の判定処理用データと前記蓄積手段から読み出した前記比較対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定する類似判定手段と、
を有することを特徴とする類似文書判定装置。 - 前記判定処理用データは、前記文書中に現れる各自立語の出現頻度であり、
前記類似判定手段は、前記比較対象文書と前記判定対象文書の自立語の出現頻度の順位毎の出現頻度の比の積が所定の範囲内である場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする請求項4記載の類似文書判定装置。 - 前記判定処理用データは、前記文書の段落数、文の数であり、
前記類似判定手段は、前記比較対象文書と前記判定対象文書の段落数、文の数が同じである場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする請求項4又は5に記載の類似文書判定装置。 - 請求項1乃至3のいずれかに記載の類似文書判定方法をコンピュータに実行させることを特徴とする類似文書判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011024940A JP5466187B2 (ja) | 2011-02-08 | 2011-02-08 | 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011024940A JP5466187B2 (ja) | 2011-02-08 | 2011-02-08 | 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012164193A true JP2012164193A (ja) | 2012-08-30 |
JP5466187B2 JP5466187B2 (ja) | 2014-04-09 |
Family
ID=46843517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011024940A Expired - Fee Related JP5466187B2 (ja) | 2011-02-08 | 2011-02-08 | 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5466187B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268959A (zh) * | 2021-05-25 | 2021-08-17 | 北京北大方正电子有限公司 | 文档处理方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198409A (ja) * | 1996-01-19 | 1997-07-31 | Hitachi Ltd | 酷似文書抽出方法 |
JP2006201926A (ja) * | 2005-01-19 | 2006-08-03 | Konica Minolta Holdings Inc | 類似文書検索システム、類似文書検索方法、およびプログラム |
JP2007018158A (ja) * | 2005-07-06 | 2007-01-25 | Canon Inc | 文字処理装置、文字処理方法及び記録媒体 |
JP2007080263A (ja) * | 2005-09-09 | 2007-03-29 | Xerox Corp | ページレイアウト属性に基づく文書クラスタリングの方法 |
JP2010198288A (ja) * | 2009-02-25 | 2010-09-09 | Fujitsu Ltd | 検索方法及び装置 |
-
2011
- 2011-02-08 JP JP2011024940A patent/JP5466187B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198409A (ja) * | 1996-01-19 | 1997-07-31 | Hitachi Ltd | 酷似文書抽出方法 |
JP2006201926A (ja) * | 2005-01-19 | 2006-08-03 | Konica Minolta Holdings Inc | 類似文書検索システム、類似文書検索方法、およびプログラム |
JP2007018158A (ja) * | 2005-07-06 | 2007-01-25 | Canon Inc | 文字処理装置、文字処理方法及び記録媒体 |
JP2007080263A (ja) * | 2005-09-09 | 2007-03-29 | Xerox Corp | ページレイアウト属性に基づく文書クラスタリングの方法 |
JP2010198288A (ja) * | 2009-02-25 | 2010-09-09 | Fujitsu Ltd | 検索方法及び装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268959A (zh) * | 2021-05-25 | 2021-08-17 | 北京北大方正电子有限公司 | 文档处理方法、装置和电子设备 |
CN113268959B (zh) * | 2021-05-25 | 2024-05-03 | 北京北大方正电子有限公司 | 文档处理方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5466187B2 (ja) | 2014-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10565244B2 (en) | System and method for text categorization and sentiment analysis | |
Kestemont et al. | Cross-genre authorship verification using unmasking | |
US9720904B2 (en) | Generating training data for disambiguation | |
US8521757B1 (en) | Method and apparatus for template-based processing of electronic documents | |
US20130198268A1 (en) | Generation of a music playlist based on text content accessed by a user | |
US9043247B1 (en) | Systems and methods for classifying documents for data loss prevention | |
WO2017137859A1 (en) | Systems and methods for language feature generation over multi-layered word representation | |
KR102053635B1 (ko) | 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체 | |
Shapira et al. | Content-based data leakage detection using extended fingerprinting | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
US9754023B2 (en) | Stochastic document clustering using rare features | |
Almishari et al. | Stylometric linkability of tweets | |
US9779363B1 (en) | Disambiguating personal names | |
US8463725B2 (en) | Method for analyzing a multimedia content, corresponding computer program product and analysis device | |
CN109800429B (zh) | 主题挖掘方法、装置及存储介质、计算机设备 | |
JP5466187B2 (ja) | 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム | |
US9286349B2 (en) | Dynamic search system | |
Nurhasanah et al. | Comparing SVM and Naïve Bayes Classifier for Fake News Detection | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
US20160078036A1 (en) | Building a Domain Knowledge and Term Identity Using Crowd Sourcing | |
Khan et al. | Multimodal rule transfer into automatic knowledge based topic models | |
Chen et al. | Retrieving potential cybersecurity information from hacker forums | |
US9484033B2 (en) | Processing and cross reference of realtime natural language dialog for live annotations | |
Liu et al. | Identification of soundbite and its speaker name using transcripts of broadcast news speech | |
Portêlo et al. | Privacy-preserving query-by-example speech search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130121 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5466187 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |