JP2012164193A - 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム - Google Patents

類似文書判定方法、類似文書判定装置及び類似文書判定プログラム Download PDF

Info

Publication number
JP2012164193A
JP2012164193A JP2011024940A JP2011024940A JP2012164193A JP 2012164193 A JP2012164193 A JP 2012164193A JP 2011024940 A JP2011024940 A JP 2011024940A JP 2011024940 A JP2011024940 A JP 2011024940A JP 2012164193 A JP2012164193 A JP 2012164193A
Authority
JP
Japan
Prior art keywords
document
determination
target document
similar
determination processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011024940A
Other languages
English (en)
Other versions
JP5466187B2 (ja
Inventor
Tomoyuki Kiyosue
悌之 清末
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011024940A priority Critical patent/JP5466187B2/ja
Publication of JP2012164193A publication Critical patent/JP2012164193A/ja
Application granted granted Critical
Publication of JP5466187B2 publication Critical patent/JP5466187B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】被判定文書が比較対象の文書を改変したものであるか否かを判定する。
【解決手段】比較対象文書の判定処理用データを予め判定処理用データ蓄積部13に蓄積しておき、被判定文書を前処理部11へ入力して被判定文書の判定処理用データを生成し、類似判定処理部12が判定処理用データ蓄積部13から比較対象文書の判定処理用データを一つずつ読み出して被判定文書の判定処理用データと比較し、類似判定処理部12が保持する判定処理基準に基づいて類似判定処理を行う。これにより、被判定文書が比較対象文書を改変したものであるか否かを判定することができる。
【選択図】図1

Description

本発明は、テキスト文書の改変を検出する技術に関する。
今後普及が見込まれている電子書籍提供サービスにおいて、サービス実施企業が、提供する電子書籍の内容が既存の他の著作物と同一であるか否かを判定することが重要となる。例えば、他人の著作物を、悪意をもって、その著作物とは異なるように見せかける処理を施すことによって、不正な利益を得ることを防ぐ作業が必要である。
一方、文書を検索する技術としては、映像中の字幕(テロップ)や、プログラムのソースコードの一部など、少ない単語や単語群を用い、コンテンツ全体(字幕ならば映像、プログラムの一部なら全部)を入手することを目的とする技術や、限られた文字をキーワードとして入力し、文書のインデクスと照合することによって目的とする文書を抽出する技術が存在する。また、文書を検索するシステムの一つとして特許検索システムも存在する。
さらに、非特許文献1のように、統計情報を用いて作者の真贋性を判定する技術も知られている。
特開2003−296305号公報
金、「計量文体学から見たテキストマインニング」、ESTRELA、統計情報研究開発センター、2007年5月、No.158、p.2−7
しかしながら、従来の文書を検索する技術は、少ない情報を入力することによって、所望の文書を入手することが目的であり、手元にある文書と類似している別の文書を見つけ出すことを目的とするものではない。これは、手元には既に文書が存在しているので検索して入手する必要がないためである。
特許検索システムは、類似する文書(特許文書)を検索して入手することが目的であるが、全く同一の文書を抽出するものではなく、意味的に類似する部分が多い文書を抽出することを目的とするものであった。
統計情報を用いて作者の真贋性を判定する技術は、文書の統計的情報の傾向から著者を推定するものであり、処理時間を要して判定することを前提としていた。また、これも手元の文書と同一の文書がないかどうかを抽出することを目的とするものではない。
このように、いずれの技術も、悪意をもって改変された文書を対象として、改変される前の同一の文書を抽出する目的には適切とは言えない。
本発明は、上記に鑑みてなされたものであり、被判定文書が比較対象の文書を改変したものであるか否かを判定することを目的とする。
第1の類似文書判定方法は、文書を入力して当該文書を統計処理し、判定処理用データを得るステップと、比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段から読み出した前記比較対象文書の判定処理用データと判定対象文書を統計処理して得られた判定対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定するステップと、を有することを特徴とする。
上記類似文書判定方法において、前記判定処理用データは、前記文書中に現れる各自立語の出現頻度であり、前記判定するステップは、前記比較対象文書と前記判定対象文書の自立語の出現頻度の順位毎の出現頻度の比の積が所定の範囲内である場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする。
上記類似文書判定方法において、前記判定処理用データは、前記文書の段落数、文の数であり、前記判定するステップは、前記比較対象文書と前記判定対象文書の段落数、文の数が同じである場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする。
第2の本発明に係る類似文書判定装置は、文書を入力して当該文書を統計処理し、判定処理用データを得る統計処理手段と、前記統計処理手段により比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段と、前記統計処理手段により判定対象文書を統計処理して得られた判定対象文書の判定処理用データと前記蓄積手段から読み出した前記比較対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定する類似判定手段と、を有することを特徴とする。
上記類似文書判定装置において、前記判定処理用データは、前記文書中に現れる各自立語の出現頻度であり、前記類似判定手段は、前記比較対象文書と前記判定対象文書の自立語の出現頻度の順位毎の出現頻度の比の積が所定の範囲内である場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする。
上記類似文書判定装置において、前記判定処理用データは、前記文書の段落数、文の数であり、前記類似判定手段は、前記比較対象文書と前記判定対象文書の段落数、文の数が同じである場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする。
第3の本発明に係る類似文書判定プログラムは、上記類似文書判定方法をコンピュータに実行させることを特徴とする。
本発明によれば、被判定文書が比較対象の文書を改変したものであるか否かを判定することができる。
本実施の形態における類似文書判定装置の構成を示す機能ブロック図である。 本実施の形態における類似文書判定装置の処理の流れを示す説明図である。 文書中に出現する単語の数を出現回数の多い順に並べたヒストグラムである。
以下、本発明の実施の形態について図面を用いて説明する。
図1は、本実施の形態における類似文書判定装置の構成を示す機能ブロック図である。同図に示す類似文書判定装置1は、前処理部11、類似判定処理部12、判定処理用データ蓄積部13および出力部14を備える。類似文書判定装置1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは類似文書判定装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。
前処理部11は、文書を入力してその文書を統計処理し、文書中の単語出現頻度、段落数、文の数などの判定処理用データを得る。比較対象文書を前処理して得られた判定処理用データは、判定処理用データ蓄積部13に蓄積される。判定処理用データ蓄積部13には、複数の比較対象文書の判定処理用データを予め蓄積させておく。比較対象文書と類似判定しなければならない被判定文書を前処理して得られた判定処理用データは、類似判定処理部12へ送られる。
類似判定処理部12は、前処理部11から被判定文書の判定処理データを受け取り、判定処理用データ蓄積部13から比較対象文書の判定処理データを読み出して、類似判定処理部12が保持する類似判定基準に基づいて類似判定処理を行う。判定処理用データ、類似判定基準、類似判定処理の詳細については後述する。
出力部14は、類似判定処理部12の類似判定結果を表示する。
次に、類似文書判定装置1の処理の流れについて説明する。
図2は、本実施の形態における類似文書判定装置の処理の流れを示す説明図である。
予め、比較対象文書を前処理部11へ入力し、比較対象文書の判定処理用データを判定処理用データ蓄積部13に蓄積させておく(ステップS11)。
続いて、被判定文書が前処理部11へ入力されると、被判定文書を前処理して被判定文書の判定処理用データを類似判定処理部12へ送信する(ステップS12)。
類似判定処理部12は、被判定文書の判定処理用データを受信すると、判定処理用データ蓄積部13から比較対象文書の判定処理用データを一つずつ読み出し、類似判定処理部12が保持する判定処理基準に基づき、被判定文書の判定処理用データと読み出した比較対象文書の判定処理用データを用いて類似判定処理を行う(ステップS13)。
そして、出力部14が類似判定処理部の類似判定結果を表示する(ステップS14)。判定処理基準を満たす比較対象文書が存在した場合、つまり、被判定文書と同じ文書の可能性がある比較対象文書が存在する場合にその旨を出力する。
次に、判定処理用データ、類似判定基準、類似判定処理について説明する。
本実施の形態では、判定処理用データとして文書中の単語出現頻度を用いる。
図3は、文書中に出現する単語の数を出現回数の多い順に並べたものである。単語は、前処理部11が形態素解析処理を行って抽出する。また、語尾や助動詞など、特定の文書のみに出現する傾向が少ないものについては除外するなどの付帯処理を行ってもよいし、出現回数が少ないものについては、判定処理用データから除外する付帯処理を行ってもよい。本実施の形態では、出現回数が1番多いものから、I番目のものまでを用いて判定処理を行う。もちろん、任意のp番目からq番目のデータを用いてもよいし、その組み合わせ(例えばp〜q,r〜s番目)とすることも可能である。これらp,q、もしくは、r,s等の情報を関係者間の機密情報とすることで、判定のしくみ自体が公のものとなった場合でも対処できる。また、これらp,q,r,s等の情報が露見した場合でも、再度、異なるそれらの情報を設定することで対処できる。
判定処理用データとして単語出現頻度を用いた場合、以下のように類似判定処理を行う。
被判定文書(d)の単語出現ベクトルNd、一つの比較対象文書(s)の単語出現ベクトルNsそれぞれを次式(1),(2)と定義する。
d={ndi|i=1,...,I} ・・・(1)
s={nsi|i=1,...,I} ・・・(2)
次式(3)で表されるrdsが閾値th+,th-を用いた次式(4)を満たすとき、被判定文書(d)と比較対象文書(s)が同じ文書である可能性があると判定する。
ds=Π(nsi/ndi),(i=1,...,I) ・・・(3)
1−th- ≦ rds < 1+th+ ・・・(4)
閾値th+,th-は、類似判定基準として類似判定処理部12に格納しておく。
別の判定処理用データとして、文書中の段落数、文の数を用いることも可能である。この場合、比較対象文書から段落数、文の数を求めて判定処理用データとして判定処理用データ蓄積部13に蓄積しておき。被判定文書から段落数、文の数を求め、判定処理用データ蓄積部13に段落数、文の数が一致するものが存在するか否かを判定する。段落数、文の数が一致する比較対象文書が同じ文書である可能性があると判定する。
もちろん、複数の判定処理を組み合わせて類似判定してもよい。
以上説明したように、本実施の形態によれば、比較対象文書の判定処理用データを予め判定処理用データ蓄積部13に蓄積しておき、被判定文書を前処理部11へ入力して被判定文書の判定処理用データを生成し、類似判定処理部12が判定処理用データ蓄積部13から比較対象文書の判定処理用データを一つずつ読み出して被判定文書の判定処理用データと比較し、類似判定処理部12が保持する判定処理基準に基づいて類似判定処理を行うことにより、被判定文書が比較対象文書を改変したものであるか否かを判定することができる。判定処理用データとして文書中に現れる自立語のヒストグラムを用い、被判定文書と比較対象文書の単語出現回数の比の積が所定の範囲内である場合には、被判定文書と比較対象文書は類似すると判定する。あるいは、判定処理用データとして段落数、文の数を用い、これらの数が同一である場合には、被判定文書と比較対象文書は類似すると判定する。
本実施の形態における類似書類判定装置は、特に、元の文書中の特定の固有名詞を一括置換するなどの安易な改変をした被判定文書を発見する場合に有効である。
1…類似文書判定装置
11…前処理部
12…類似判定処理部
13…判定処理用データ蓄積部
14…出力部

Claims (7)

  1. 文書を入力して当該文書を統計処理し、判定処理用データを得るステップと、
    比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段から読み出した前記比較対象文書の判定処理用データと判定対象文書を統計処理して得られた判定対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定するステップと、
    を有することを特徴とする類似文書判定方法。
  2. 前記判定処理用データは、前記文書中に現れる各自立語の出現頻度であり、
    前記判定するステップは、前記比較対象文書と前記判定対象文書の自立語の出現頻度の順位毎の出現頻度の比の積が所定の範囲内である場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする請求項1記載の類似文書判定方法。
  3. 前記判定処理用データは、前記文書の段落数、文の数であり、
    前記判定するステップは、前記比較対象文書と前記判定対象文書の段落数、文の数が同じである場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする請求項1又は2に記載の類似文書判定方法。
  4. 文書を入力して当該文書を統計処理し、判定処理用データを得る統計処理手段と、
    前記統計処理手段により比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段と、
    前記統計処理手段により判定対象文書を統計処理して得られた判定対象文書の判定処理用データと前記蓄積手段から読み出した前記比較対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定する類似判定手段と、
    を有することを特徴とする類似文書判定装置。
  5. 前記判定処理用データは、前記文書中に現れる各自立語の出現頻度であり、
    前記類似判定手段は、前記比較対象文書と前記判定対象文書の自立語の出現頻度の順位毎の出現頻度の比の積が所定の範囲内である場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする請求項4記載の類似文書判定装置。
  6. 前記判定処理用データは、前記文書の段落数、文の数であり、
    前記類似判定手段は、前記比較対象文書と前記判定対象文書の段落数、文の数が同じである場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする請求項4又は5に記載の類似文書判定装置。
  7. 請求項1乃至3のいずれかに記載の類似文書判定方法をコンピュータに実行させることを特徴とする類似文書判定プログラム。
JP2011024940A 2011-02-08 2011-02-08 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム Expired - Fee Related JP5466187B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011024940A JP5466187B2 (ja) 2011-02-08 2011-02-08 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011024940A JP5466187B2 (ja) 2011-02-08 2011-02-08 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム

Publications (2)

Publication Number Publication Date
JP2012164193A true JP2012164193A (ja) 2012-08-30
JP5466187B2 JP5466187B2 (ja) 2014-04-09

Family

ID=46843517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011024940A Expired - Fee Related JP5466187B2 (ja) 2011-02-08 2011-02-08 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム

Country Status (1)

Country Link
JP (1) JP5466187B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268959A (zh) * 2021-05-25 2021-08-17 北京北大方正电子有限公司 文档处理方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法
JP2006201926A (ja) * 2005-01-19 2006-08-03 Konica Minolta Holdings Inc 類似文書検索システム、類似文書検索方法、およびプログラム
JP2007018158A (ja) * 2005-07-06 2007-01-25 Canon Inc 文字処理装置、文字処理方法及び記録媒体
JP2007080263A (ja) * 2005-09-09 2007-03-29 Xerox Corp ページレイアウト属性に基づく文書クラスタリングの方法
JP2010198288A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd 検索方法及び装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法
JP2006201926A (ja) * 2005-01-19 2006-08-03 Konica Minolta Holdings Inc 類似文書検索システム、類似文書検索方法、およびプログラム
JP2007018158A (ja) * 2005-07-06 2007-01-25 Canon Inc 文字処理装置、文字処理方法及び記録媒体
JP2007080263A (ja) * 2005-09-09 2007-03-29 Xerox Corp ページレイアウト属性に基づく文書クラスタリングの方法
JP2010198288A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd 検索方法及び装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268959A (zh) * 2021-05-25 2021-08-17 北京北大方正电子有限公司 文档处理方法、装置和电子设备
CN113268959B (zh) * 2021-05-25 2024-05-03 北京北大方正电子有限公司 文档处理方法、装置和电子设备

Also Published As

Publication number Publication date
JP5466187B2 (ja) 2014-04-09

Similar Documents

Publication Publication Date Title
US10565244B2 (en) System and method for text categorization and sentiment analysis
Kestemont et al. Cross-genre authorship verification using unmasking
US9720904B2 (en) Generating training data for disambiguation
US8521757B1 (en) Method and apparatus for template-based processing of electronic documents
US20130198268A1 (en) Generation of a music playlist based on text content accessed by a user
US9043247B1 (en) Systems and methods for classifying documents for data loss prevention
WO2017137859A1 (en) Systems and methods for language feature generation over multi-layered word representation
KR102053635B1 (ko) 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체
Shapira et al. Content-based data leakage detection using extended fingerprinting
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
US9754023B2 (en) Stochastic document clustering using rare features
Almishari et al. Stylometric linkability of tweets
US9779363B1 (en) Disambiguating personal names
US8463725B2 (en) Method for analyzing a multimedia content, corresponding computer program product and analysis device
CN109800429B (zh) 主题挖掘方法、装置及存储介质、计算机设备
JP5466187B2 (ja) 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム
US9286349B2 (en) Dynamic search system
Nurhasanah et al. Comparing SVM and Naïve Bayes Classifier for Fake News Detection
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
US20160078036A1 (en) Building a Domain Knowledge and Term Identity Using Crowd Sourcing
Khan et al. Multimodal rule transfer into automatic knowledge based topic models
Chen et al. Retrieving potential cybersecurity information from hacker forums
US9484033B2 (en) Processing and cross reference of realtime natural language dialog for live annotations
Liu et al. Identification of soundbite and its speaker name using transcripts of broadcast news speech
Portêlo et al. Privacy-preserving query-by-example speech search

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140123

R150 Certificate of patent or registration of utility model

Ref document number: 5466187

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees