JPH09198409A - 酷似文書抽出方法 - Google Patents

酷似文書抽出方法

Info

Publication number
JPH09198409A
JPH09198409A JP8026185A JP2618596A JPH09198409A JP H09198409 A JPH09198409 A JP H09198409A JP 8026185 A JP8026185 A JP 8026185A JP 2618596 A JP2618596 A JP 2618596A JP H09198409 A JPH09198409 A JP H09198409A
Authority
JP
Japan
Prior art keywords
document
words
word
sentence
operation instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8026185A
Other languages
English (en)
Inventor
Hisao Mase
久雄 間瀬
Hiroyuki Kinukawa
博之 絹川
Hiroshi Tsuji
洋 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8026185A priority Critical patent/JPH09198409A/ja
Publication of JPH09198409A publication Critical patent/JPH09198409A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ある文書に酷似した文書を精度良く抽出し、
また少ないノイズで抽出することにある。 【解決手段】 新規文書1を文書入力処理2し、辞書1
1,12を用いて特定品詞の単語抽出、不要語除去、単
語出現順序の認定等の単語出現パターン抽出処理3を
し、単語情報テーブル13を生成し、DB内の全文書に
ついて処理3を施して得られているDB情報テーブル1
4と照合し、文書単位毎に、共通して出現する単語と該
各単語の出現順序が同じである単語の列を抽出し、前記
共通して出現する単語の数に重みを付した値と、前記単
語の列を構成する単語の数を変数とする単調増加関数の
値を加算して文章単位毎に酷似度を計算し、あるしきい
値以上の酷似度を持つ文章単位がある長さ以上続く場合
に酷似文書と認定する酷似文書決定処理4をし、結果の
表示5をし、登録判定6をする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ある特定の電子化
文書の内容に酷似した文書を、ある電子化文書集合の中
から自動抽出する酷似文書抽出方法に関する。
【0002】
【従来の技術】社会の情報化や、情報ネットワークなど
の整備により、大量の電子化文書が氾濫するようになっ
た。その結果、大量の電子化文書集合の中から、必要な
文書のみを抽出する類似文書検索機能が不可欠となっ
た。これは、ある文書の「分野」や「意味内容」に「類
似,関連」している文書を抽出するものである。その実
現方法としては、例えば、情報処理学会第47回全国大
会講演論文集(3)3−161で公知であるように、そ
の文書を特徴付けるキーワードを自動抽出し、そのキー
ワードを多く含む文書を類似文書として抽出する方法な
どがある。一方、文書の電子化が進み、電子出版などが
普及すると、文書の違法コピーや、文書内容の一部を改
変して営利目的使用するなどの犯罪行為が増加すると予
想される。従って、この種の犯罪を防止するための対策
が必要である。しかし、大量の文書集合の中から違法文
書を見つける作業は、膨大な作業コストを要するため、
その作業を支援する計算機システムが必要である。上述
の類似文書検索が、主として文章の「主題」が類似して
いる文書を見つけるための機能であるのに対して、違法
文書の抽出は、文章全体の主題が類似しているか否かは
どうでもよく、その中で使用されている部分(主題とは
全く関係ない部分であることもある)が、別の文書から
違法に引用されているか否かを判別する機能が必要であ
る。従って、文章の局所的な部分をも解析する必要があ
る。このように、文章の主題の類似する文書を検索する
類似文書検索機能と、ある文書に酷似した文書を抽出す
る酷似文書抽出機能は、その目的,実現方法,効果が全
く異なるものである。
【0003】二つの文書が全く同じ文章であるならば、
両文書の字面を順に追跡していくことにより、同一文書
であることが容易に判別できる。しかし、実際には、一
方の文書の一部だけを引用したり、引用した部分に修正
を加えて使用したりすることが多いと考える。文書が電
子化されているので、文字列の変換などを容易に行うこ
とができることもこの一因である。このような違法文書
を抽出する方法の一つとして、例えば、The pro
ceedings of the Second An
nual Conference on the Th
eory and Practice of Digi
tal Libraries(1995,タイトル:S
CAM:A Copy Detection Mech
anism for Digital Documen
ts)に記載されている方法は、文書を単語単位に解析
し、その出現頻度の大小を考慮した類似度計算を行い、
酷似文書か否かを判定している。
【0004】
【発明が解決しようとする課題】ある文書が他の文書と
酷似しているか否かを判定する場合、段落や文を単位と
して照合する方法は、複写された文書を抽出するには有
効であるが、文章の一部を改変された場合には、対処で
きない。また、単語を単位として照合する方法の場合、
その文書にどんな単語がどのくらい出現するかという情
報だけでは、解析結果にノイズが多く含まれるため、不
十分である。本発明の目的は、ある文書に酷似した文書
を精度良く抽出することにある。本発明の他の目的は、
ある文書に酷似した文書を少ないノイズで抽出すること
にある。本発明のさらに他の目的は、オリジナル文書の
自立語をある程度修正したような文書でも、酷似した文
書として認定できるようにすることにある。
【0005】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、電子化文書集合と、前記電子化文書集合
を格納する文書格納手段と、文書を入力するための文書
入力手段と、ユーザが操作指示情報を入力するための操
作指示入力手段と、ユーザに報知するための出力手段と
を備えた文書抽出装置における文書抽出方法であり、前
記電子化文書集合内の電子化文書の各々に出現する語句
およびその出現順序に関するデータを格納する文書集合
情報テーブルを備え、予め語句の情報を格納した辞書を
参照して前記文書入力手段を介して入力された新規文書
に出現する語句を解析し、前記出現する語句のうち、ユ
ーザによって前記操作指示入力手段を介して予め指定さ
れた種類の語句に属する語句および該各語句の出現順序
を抽出し、単語情報テーブルを生成し、前記単語情報テ
ーブルと前記文書集合情報テーブルとを照合して、前記
新規文書を構成する文章構成単位と、前記電子化文書集
合内の電子化文書の各々を構成する文章構成単位とにお
いて、共通して出現する語句と該各語句の連続した出現
順序が同じである語句の列を抽出し、前記共通して出現
する語句の数に重みを付した値と、前記語句の列を構成
する語句の数を変数とする単調増加関数の値に基づき前
記文章構成単位毎に酷似度を計算し、ユーザによって前
記操作指示入力手段を介して予め指定されたしきい値以
上の酷似度を有する文章構成単位を持つ前記電子化文書
集合内の文書を抽出し、前記抽出結果を前記出力手段を
介してユーザに報知するようにしている。また、電子化
文書集合と、前記電子化文書集合を格納する文書格納手
段と、文書を入力するための文書入力手段と、ユーザが
操作指示情報を入力するための操作指示入力手段と、ユ
ーザに報知するための出力手段とを備えた文書抽出装置
における文書抽出方法であり、前記電子化文書集合内の
電子化文書の各々に出現する語句およびその出現順序に
関するデータを格納する文書集合情報テーブルを備え、
予め語句の情報を格納した辞書を参照して前記文書入力
手段を介して入力された新規文書に出現する語句を解析
し、前記出現する語句のうち、ユーザによって前記操作
指示入力手段を介して予め指定された種類の語句に属す
る語句および/または該各語句の出現順序を抽出し、単
語情報テーブルを生成し、前記単語情報テーブルと前記
文書集合情報テーブルとを照合して、前記新規文書を構
成する文章構成単位と、前記電子化文書集合内の電子化
文書の各々を構成する文章構成単位とにおいて、共通し
て出現する語句および/または該各語句の連続した出現
順序が同じである語句の列を抽出し、該抽出結果に基づ
き前記文章構成単位毎に酷似度を計算し、前記新規文書
に対して、ユーザによって前記操作指示入力手段を介し
て予め指定されたしきい値以上の酷似度を持つ文章構成
単位が、ユーザによって前記操作指示入力手段を介して
予め指定されたしきい値以上の「長さ」だけ連続して出
現する前記電子化文書集合内の文書を抽出し、前記抽出
結果を前記出力手段を介してユーザに報知するようにし
ている。また、電子化文書集合と、前記電子化文書集合
を格納する文書格納手段と、文書を入力するための文書
入力手段と、ユーザが操作指示情報を入力するための操
作指示入力手段と、ユーザに報知するための出力手段と
を備えた文書抽出装置における文書抽出方法であり、前
記電子化文書集合内の電子化文書の各々に出現する語句
およびその出現順序に関するデータを格納する文書集合
情報テーブルを備え、予め語句の情報を格納した辞書を
参照して前記文書入力手段を介して入力された新規文書
に出現する語句を解析し、前記出現する語句のうち、ユ
ーザによって前記操作指示入力手段を介して予め指定さ
れた種類の語句に属する語句および該各語句の出現順序
を抽出し、単語情報テーブルを生成し、前記単語情報テ
ーブルと前記文書集合情報テーブルとを照合して、前記
新規文書を構成する文章構成単位と、前記電子化文書集
合内の電子化文書の各々を構成する文章構成単位とにお
いて、共通して出現する語句と該各語句の連続した出現
順序が同じである語句の列を抽出し、前記共通して出現
する語句の数に重みを付した値と、前記語句の列を構成
する語句の数を変数とする単調増加関数の値に基づき前
記文章構成単位毎に酷似度を計算し、前記新規文書に対
して、ユーザによって前記操作指示入力手段を介して予
め指定されたしきい値以上の酷似度を持つ文章構成単位
が、ユーザによって前記操作指示入力手段を介して予め
指定されたしきい値以上の「長さ」だけ連続して出現す
る前記電子化文書集合内の文書を抽出し、前記抽出結果
を前記出力手段を介してユーザに報知するようにしてい
る。
【0006】
【発明の実施の形態】本発明の実施形態の一例につい
て、以下、図を用いて詳細に説明する。本実施例は、新
規文書をある文書データベース(DB)に登録する際
に、当該新規文書の中に違法に引用された部分があるか
否かを検出するシステムに関するものである。本発明
は、このシステムのほか、例えば、著者が自分の書いた
文書が違法に引用されていないかをチェックするため
に、既存の文書DBの各々にアクセスしてチェックする
ためのシステムなどにも有効であるが、これらのシステ
ムは、いずれも以下で説明する方法によって実現可能で
ある。また、本実施例では、日本語の文書を対象として
いるが、日本語以外の言語からなる文書についても適用
可能である。
【0007】図1は、本実施例の概要を示す図である。
文書入力処理2は、新規文書1を入力手段を介して計算
機内部に取り込む。入力の方法としては、光学文字認識
装置(OCR)を用いて印刷文書や手書き文書から文字
コードを認識する方法や、フロッピー,CD−ROMな
どの記録媒体を介する方法,LAN,WANなどのネッ
トワークを介して入力する方法などがあるが、どれを用
いても構わない。単語出現パターン抽出処理3では、計
算機内部に取り込まれた新規文書1から、自然言語処理
によって特定の品詞を持つ単語を抽出する(単語分割処
理)。単語分割処理では、単語の見出しおよび品詞,活
用情報などを予め格納した単語辞書11を参照する。そ
して、抽出された単語の中で、除外して考えるべき単語
(不要語)を除去する。不要語は、不要語辞書12に予
め定義し格納しておく。さらに、ある特定の文章単位毎
に、どんな単語がどんな順序で出現するかを認定し、単
語情報テーブル13に格納する。ここで、文章単位と
は、文章を構成する形式的あるいは意味的まとまり
(章,節,形式段落,文,文を構成する句や節など)を
さす。酷似文書決定処理4では、単語情報テーブル13
に格納された新規文書1に関する単語データを用いて、
文書集合を格納した文書DB15に既に格納済みの各々
の文書と、新規文書1との酷似度を算出する。文書DB
15に格納されている文書の各々に出現する単語の情報
は、その文書を文書DB15に登録する際に、DB情報
テーブル(文書集合情報テーブル)14に格納され、蓄
積されている。従って、ここでは、単語情報テーブル1
3に格納された新規文書1に関する単語情報と、単語情
報テーブル13を作成する方法と同様な方法で作成され
たDB情報テーブル14に格納された、文書DB15の
個々の文書に関する単語情報とを、後述する方法で照合
させることにより酷似度を文章単位毎に計算する。な
お、DB情報テーブル14には、単語情報テーブル13
の種々のバリエーション(ユーザが指定できる)に対応
できるような冗長な情報を持たせることが好ましい。そ
して、文書DB15に格納されている各々の文書につい
て、予め指定されたあるしきい値以上の酷似度を持つ文
章単位が、予め指定されたある長さ以上連続する場合、
文書DB15に格納されているその文書を、新規文書1
に酷似した文書と認定する。
【0008】結果表示処理5では、酷似文書と認定され
た文書のIDおよびその酷似度を、新規文書1と並べて
ユーザに表示する。ユーザは、必要に応じて文書内容を
表示させ、チェックすることができる。文書内容を表示
する際には、酷似度の高かった文章単位を、新規文書1
と並べてユーザに表示し、判断を促す。ユーザによって
著作権に抵触しないと判断された文書は、文書DB登録
処理7において、文書DB15に文書内容を登録・格納
する。この際に、単語情報テーブル13に格納されてい
る新規文書1に関する単語情報をDB情報テーブル14
に格納する。一方、著作権に抵触すると判断された場
合、文書DBへ登録されず、文書破棄処理8において破
棄される。
【0009】図2は、本実施例のハードウェアの構成を
示す図である。図2では、文書サーバ25と、0以上の
クライアント90からなり、両者は、ネットワークで接
続されている。文書サーバ25は、文書DB15を格納
し、新規文書の単語出現パターンを抽出し、酷似文書か
否かを判別する。クライアント90では、文書サーバ2
5に対して酷似文書の抽出を指示したり、結果を表示さ
せたりする。ネットワーク20は、ローカルなもの(L
AN)でも良いし、グローバルなもの(WAN)でも良
い。また、クライアント90の機能を文書サーバ25に
持たせ、文書サーバ25がクライアント90を兼ねる型
にすることも可能である。文書サーバ25は、キーボー
ド30,マウス40などの入力装置と、データの出力の
ためのディスプレイ50,データおよび処理部を格納し
た記憶装置70,記憶装置70から必要に応じてデータ
および処理部をロードして処理を実行する処理装置60
からなる。記憶装置70は、一時的なデータを格納する
ワークエリア71や、文書入力処理部格納エリア72、
単語出現パターン抽出処理部格納エリア73、酷似文書
決定処理部格納エリア74、結果表示処理部格納エリア
75、文書DB登録処理部格納エリア76、文書破棄処
理部格納エリア77、単語辞書格納エリア78、不要語
辞書格納エリア79、文書情報テーブル格納エリア8
0、DB情報テーブル格納エリア81、文書DB格納エ
リア82、ネットワーク制御部格納エリア83からな
る。記憶装置70は、内部記憶装置および外部記憶装置
を含めたものとして示している。
【0010】以下では、図1に記述した処理手順につい
て、具体的な文章を用いて詳細に説明する。図3は、新
規文書1の一例を示す図であり、以下、この文書を新規
文書として用いることとする。文書1001は、電子コ
ード化されている必要があるので、イメージデータの場
合、OCRなどによって文字コードに変換する必要があ
る。図4は、文書DB15に登録済みの文書の例であ
る。文章1は、図3の新規文書1を引用したものである
が、「てにをは」などの付属語の表現方法が修正されて
いる。また、文章2も図3の新規文書1を引用したもの
であるが、使用している名詞・動詞を変えている。どち
らの文章も、図3の新規文書1に酷似しているため、酷
似文書として抽出されるべき文書である。
【0011】図5は、単語辞書11の構成の一例を示す
図である。単語辞書11は、見出し文字列101,品詞
情報102,活用情報(活用種103,活用行104)
からなる。単語出現パターン抽出処理3では、この単語
辞書11を参照して文章を単語に分割し、分割された単
語に適切な品詞を割り当てる。文章を単語に分割して品
詞を割り当てる技術は、自然言語処理の基本的な技術で
あり、例えば、情報処理学会第44回全国大会講演論文
集3−181記載のものをはじめ、公知であるため、こ
こではこれ以上深く言及しない。
【0012】図6は、単語出現パターン抽出処理3にお
ける単語分割処理結果の一例を示す図であり、図3の新
規文書1の冒頭部分を単語分割した結果である。単語分
割処理により、図6の単語見出し3001とその品詞3
002,単語見出しの中で活用しても形が変化しない部
分(語幹3003)をワークエリア71に格納、保持す
る。
【0013】図7は、不要語辞書12の一例を示す図で
ある。不要語辞書は、酷似文書を抽出する際に、あまり
に一般的で出現頻度が高く、後述する酷似度計算におい
て、ノイズの一因となりやすい単語を予め取り除いてお
くためのものである。不要語辞書12は、不要語の見出
し3101の集合であり、単語出現パターン抽出処理3
における不要語除去処理において、これらの単語は除去
される。不要語辞書12に不要語を定義するのは、ユー
ザまたはシステム管理者であるが、必ずしも不要語を定
義する必要はない。この場合、不要語除去処理は無視さ
れる。
【0014】図8は、単語情報テーブル13の構成の一
例を示す図であり、図3の新規文書1を入力とした場合
に、前述の単語出現パターン抽出処理3により出力され
るデータである。単語情報テーブル13は、各文章構成
単位(以下、文章単位)(本実施例では、句点「。」を
境とする文を文章単位とするが、句読点を境にしたり、
形式段落を単位としたり、ある文字数毎あるいはある単
語数毎に区切ったりしてもよい)の記述順序を表す文章
単位番号3201,各文章単位内における単語の出現順
序を表す単語出現番号3202,単語文字列を格納する
単語見出し3203,単語見出しに対応する品詞320
4,各文章単位の文字列長を格納する文章単位長320
5からなる。本実施例では、酷似度計算の対象とする種
類の語句を、前述の単語出現パターン抽出処理3におい
て、名詞,サ変名詞(〜する),形容詞,動詞,形容動
詞,副詞,接続詞などの自立語(助詞,助動詞以外の単
語)に限定するようにしている。どの品詞を持つ単語を
酷似度計算の対象となる語句とするかは、ユーザが予め
指定できる。また、動詞や形容詞のように活用する単語
については、図8に示すように、その活用語尾を含めて
単語見出し3203に格納しているが、活用語尾を削除
して語幹のみを単語見出し3203とする方法でも良
い。
【0015】図9、図10は、DB情報テーブル14の
構成の一例を示す図であり、図9は、図4の文章1に対
応し、図10は、図4の文章2に対応する。DB情報テ
ーブル14は、文書DB15に格納された文書をユニー
クに識別するためのDB文書ID3301(340
1),文章単位番号3302(3402),単語出現番
号3303(3403),単語見出し3304(340
4),品詞3305(3405),文章単位長3306
(3406)からなる。単語情報テーブル13と同様、
単語見出しとして語幹を採用しても良い。
【0016】図11は、文章単位間の酷似度の計算方法
を示す図である。アルファベット1文字が1つの単語に
相当しており、図面に向かって左に位置するものほど、
出現順序が早いとする。図11では、a,b,c,d,
e,f,gの7つの自立語からなる新規文書中の文章単
位(文)と、k,a,b,c,f,g,h,i,e,j
の10の自立語からなる文書DB中の文書を構成する任
意の文章単位(文)との間の酷似度を計算する例であ
る。出現する単語を文頭(左側)から比較して、両方の
文章単位に共通して現れる単語を抽出する。二つ以上の
単語が共通して連続的に出現する場合、それらをひとま
とめにして抽出する。この場合、単語同士の相対的な出
現順序に基づいて抽出する。図11の場合、両方の文章
単位に、単語a,b,cがこの順序で連続して出現して
いる。また、単語f,gについても同様である。さら
に、単語eは、両方の文章単位に出現している。これら
の単語群を抽出する方法(アルゴリズム)としては、例
えば、図8の単語情報テーブル13の単語見出しと、図
9あるいは図10のDB情報テーブル14の単語見出し
とを各文章単位の先頭から文字照合をして、もし一致す
るならば一致しなくなるまで次の単語を照合し、一致し
ないならば、一方の単語をスライドすることにより、す
べての単語同士を照合するという方法がある。これは、
二つのテーブルの照合処理で、容易に実現可能であるの
で、これ以上言及しない。
【0017】両方の文章単位に共通して現れる単語群を
抽出した後、次の式により、当該文章単位間の酷似度を
計算する。 酷似度=(共通して出現する単語の種類数)×W+
(((N個の単語が共通して連続的に現れる回数)×(Nの
階乗))の総和)(ただし、N>=2) ここで、Wは、重み係数(本実施例ではW=1)であ
り、これをチューニングすることにより、上式右辺の第
1項と第2項の相対的ウエイトを変えられる。また、
(Nの階乗)=(N×(N−1)×・・・×1)であ
る。図11の場合、3個の単語が共通して連続的に現れ
たのが1回(単語a,b,c)であり、2個の単語が共
通して連続的に現れたのが1回(単語f,g)であり、
さらに、共通して出現する単語の種類数が6種類(a,
b,c,f,g,e)であるので、酷似度は、 6+(3の階乗)+(2の階乗)=6+3×2×1+2
×1=14 となる。
【0018】上記の計算方法によれば、同一順序で出現
する単語の数が多いほど、互いに酷似しているとみなさ
れる。また、同一順序でなくても、共通する単語の種類
数が多いほど、互いに酷似しているとみなされる。上記
の計算方法は、一つの例にすぎず、単語の出現順序を考
慮した酷似度を計算する方法は沢山ある。例えば、上式
においてはNの階乗を用いているが、他の単調増加関数
を用いてもよい。また、上式において計算される酷似度
を出現する単語数で割って補正する方法も考えられる。
上式に基づく酷似度計算を新規文書の中のすべての文章
単位と文書DB15の中のすべての文章を構成するすべ
ての文章単位との間について計算する。文書DB15に
格納されている文書数が多い場合は、DB情報テーブル
14に格納されている単語出現情報から、出現する単語
(例えば、単語‘予防’)とその単語を含む文章との対
応関係を表すインデクス(例えば、‘予防’を含めば
“1”、含まなければ“0”とする)を用意し、第1段
階として、新規文書のある文章単位を構成する単語をあ
る種類以上含む文書を抽出し、第2段階として、抽出さ
れた文書についてのみ酷似度を計算する方法が処理速度
向上の点で有効である。効率の良い単語マッチングアル
ゴリズムとしては、バイナリサーチ方式など有名な公知
例が多数あるので、ここではこれ以上深く言及しない。
【0019】図12は、酷似度計算結果の一例を示す図
であり、図8の単語情報テーブル13を構成する文章単
位と、図9のDB情報テーブル14(文章1)を構成す
る文章単位との間の酷似度を計算した結果の例である。
新規文書の文章単位番号1と、文書DBの中の文章(文
章1)の文章単位番号1との間の酷似度を計算すると、
共通する単語の種類数は5であり、これら5つの単語は
共通して連続的に出現するので、酷似度は、5×1+5
×4×3×2×1=125であり、両者の間の酷似性は
極めて高いと言える。同様に、図12から、文章単位番
号2同士,3同士,4同士,5同士の酷似度は、他と比
べてはるかに高くなっている。
【0020】図13は、酷似度計算結果の他の例を示す
図であり、図8の単語情報テーブル13を構成する文章
単位と、図10のDB情報テーブル14(文章2)を構
成する文章単位との間の酷似度を計算した結果の例であ
る。この例の場合、あまり酷似度が高くない。これは、
文章2は、図3の新規文書で使用している自立語を他の
単語に修正したもの(複写→コピー,防止→予防など)
であり、自立語があまりマッチしないためである。しか
し、内容は酷似しているので、酷似度は高くなければな
らない。文章2のようなタイプの文書の抽出方法につい
ては、本実施例の変形例において後述する。
【0021】図12あるいは図13において、酷似度が
ある一定のしきい値以上の文章単位を含む文書をユーザ
に出力することも可能であるが、大量のノイズが発生す
る可能性が高い。そこで、本実施例では、酷似度がある
一定のしきい値以上の文章単位が、予め設定された長さ
以上連続する文書のみをユーザに出力することにより、
ノイズを低くしている。「長さ」は、文字列の長さ(以
下ではこれを採用)でも良いし、文章単位の数、単語の
数などに着目して指定するのも良い。これらのしきい値
は、ユーザが入力手段を介して自由に設定することがで
きる。一度実行した結果、あまりにも多くの文書が出力
された場合には、しきい値を高くすることによりその数
を少なくでき、逆に一つも出力されなかった場合には、
しきい値を低く設定することにより、ある程度の数の文
書を抽出できる。なお、本実施例では、新規文書および
文書DB中の文書の両方において、文章単位が連続して
酷似していないといけないとしているが、どちらか一方
の文書を構成する文章単位と酷似する(酷似度がしきい
値を超える)文章単位が他方の文書のどこかに存在すれ
ば良いとする方法でも良い。
【0022】酷似度から酷似文書であるか否かを判別す
る方法を、図12の酷似度計算結果を例に説明する。仮
に酷似しているか否かを判定する酷似度のしきい値を1
0に設定する。新規文書の文章単位について、10以上
の酷似度を持つ最初の文章単位は、文章単位番号1であ
り、文書DBの文章1の文章単位番号1との間の酷似度
であることが分かる。また、新規文書の文章単位番号1
の文章単位長3205は、図8より、25文字であるこ
とも分かる。そこで、次の文章単位同士(文章単位番号
2同士)を比較してみると、その間の酷似度は28で、
しきい値10を超えており、これらも互いに酷似してい
ると言える。すなわち、二つの連続した文章単位(文章
単位番号1,2)からなる部分が酷似していることが分
かる。ここで、新規文書の文章単位番号2の文章単位長
3205は、図8より28文字であるので、文章単位番
号1の文字列と合わせて53文字分の部分が互いに酷似
していることが分かる。以下、同様にして考えると、図
12の場合、文章1のすべての部分(文章単位番号1〜
5)が文章2と酷似していることが分かる。
【0023】図13の類似度計算結果で考えると、酷似
度が10以上である文章単位は文章単位番号5のみであ
り、その文章単位長は64文字である。ここで、仮に、
酷似度が10以上である文章単位が100文字以上続く
場合に酷似文書であると判定するように設定した場合、
図12では、酷似する部分の文字列の合計が175文字
であり、しきい値100文字を超えているので、文章1
を図3の新規文書に酷似した文書としてユーザに出力す
る。しかし、図13では、酷似する部分の文字列の合計
が64文字であり、100文字を超えないので、酷似文
書とみなされない。しきい値が50文字以上と設定され
た場合には、酷似文書として出力される。
【0024】図14は、酷似文書判定結果の一例を示す
図である。これらの情報は、図15で示すように、結果
をユーザに出力するためのデータで、ワークエリア71
に一時的に保持する。酷似判定3703は、酷似した部
分を含んでいるかを示すフラグであり、酷似部分の長さ
3704は、しきい値を超える酷似度を持つ文章単位が
どのくらいの長さであったかを記憶する。「対応する新
規文書の文章単位番号3705」および「対応するDB
文章の文章単位番号3706」には、各文書において酷
似していると判定された部分の文章単位番号の範囲を格
納する。
【0025】図15は、処理結果の表示の一例を示す図
である。ディスプレイ3801には、ユーザからの操作
指示を受け付けるメニュー(3802〜3808)と、
しきい値を設定するための入力エリア3809,処理の
結果、酷似文書として抽出された文書の書誌情報および
酷似度を表示する検索結果表示用ウインドウ3810,
新規文書の内容を表示するウインドウ3811,ユーザ
によって指定された酷似文書の内容を表示するウインド
ウ3812が表示される。実行を指定した時点で、設定
されているしきい値をワークエリア71に格納し、それ
を参照して酷似文書を判別する。また、新規文書の文章
および文書DB15中の酷似文章の内容を表示する際、
図14の情報3705および3706と、単語情報テー
ブル13およびDB情報テーブル14の文章単位長の情
報を参照することにより、互いに酷似している文章単位
がそれぞれどこからどこまでであるかを認定できるの
で、その部分を並べて表示することができる。また、酷
似度の大小に応じて文章単位の表示態様を変えて文章内
容をひょうじする様にしてもよい。また、文章をスキッ
プ読みできるように構成し、スキップ読みを選択する度
に予め指定した値以上の酷似度を持つ次の文章単位まで
スキップして文章内容を表示するする様にしてもよい。
このように、本実施例によれば、単語が出現するか否か
だけでなく、その出現順序をも考慮しているので、酷似
文書の抽出精度が高い。また、使用する単語として、自
立語のみを用いているので、「てにをは」など付属語の
違いによらない、良好な抽出結果を得ることができる。
【0026】次に、上記実施例の変形例、拡張例につい
て述べる。 (1)同義語、類義語情報を利用して単語を正規化す
る。例えば、「複写」と「コピー」は、表記は異なる
が、ほぼ同じ意味であるので、酷似度計算をする前に、
どちらか一方に表記を統一することにより、単語照合精
度を向上させることができる。これを実現するには、予
め同義語辞書を設けて同義語関係にある単語の対を登録
し、図6に示す単語分割結果に対して、同義語辞書を参
照して単語を正規化する処理を施す(例えば、「コピ
ー」をすべて「複写」に変換する)ことにより、実現で
きる。
【0027】(2)ある一定以下の頻度でしか出現しな
い単語のみに着目する。ある文書が他の文書の内容を引
用したか否かを判定する場合、何回も出現する単語より
も、あまり出現しない単語の出現傾向を解析することが
有効である。その中には、他の文書ではあまり使われな
い特殊な単語が含まれていることが多く、これを手がか
りに酷似文書を判別することができる。図16は、図3
の新規文書に出現する単語の出現頻度である(図7の不
要語除去済み)。出現頻度は、単語分割結果から同一の
単語をカウントすることにより取得できる。ここで、図
16は、単語の語幹に基づいて出現頻度をカウントして
いることに注意されたい。語幹に基づいて出現頻度をカ
ウントする方が、正確に出現頻度を認定できるからであ
る。図16で、「情報」「違法」などは、出現頻度が高
いので、除去する。ここで、頻度2以上の単語を除去す
るとユーザが設定した場合(この値はユーザが設定可能
である)に、生成される単語情報テーブル13が、図1
8である。同様に、図17は、図4の文章2に出現する
単語の出現頻度であり、図17から出現頻度2以上の単
語を削除して生成されるDB情報テーブル14が、図1
9である。図20は、図18の単語情報テーブル13
(新規文書)の文章単位と、図19のDB情報テーブル
14(文章2)の文章単位との間の酷似度を示す図であ
る。図13に比べると、実際に酷似していない文章単位
間の酷似度の値が小さくなり、ノイズが減少しているこ
とがわかる。また、高頻度の単語が除去されて単語の数
が全体的に少なくなったために、酷似度が全体的に小さ
くなっているが、前述の酷似度計算式の重みWを増やし
たり、酷似しているか否かを判定するしきい値を低く設
定することにより解決する。なお、別の方法として、高
頻度の単語を削除してしまうのではなく、低頻度の単語
に比べて、それの占めるウエイトを小さくする方法があ
る。
【0028】(3)付属語の出現傾向に着目する。上記
実施例では、酷似度計算に使用する単語として、自立語
を採用したが、ここでは、付属語に着目する。図21
は、図3の新規文書から付属語のみを抽出した単語情報
テーブル13である。単語が自立語でなく、付属語にな
った以外は、図8と変わりないので、これまでに述べた
方法で実現可能である。図21の単語情報テーブル13
を作成する際、連続して出現する付属語については、一
つの付属語としてまとめあげる。以下、上述の方法と同
様に、酷似度を計算することにより、酷似する付属語を
持つ文書を抽出することができる。ただし、「てにを
は」を表す付属語は、酷似しているしていないにかかわ
らず高頻度で出現するので、図21の単語情報テーブル
13では、これらの付属語は不要語辞書12に登録して
除去している。
【0029】(4)誤字や脱字に着目する。ある文書に
おいて、例えば、「コピーする」と記述すべきところ
を、タイプミスにより、「コビ−する」とか「コピす
る」などと誤って記述したとする。この部分を含む文章
を違法に引用した場合、修正しない限り、間違った表現
がそのまま使われる。単語出現パターン抽出処理3にお
ける単語分割処理では、単語辞書11に登録されていな
い単語が出現する場合、品詞の代わりに未登録語を表す
フラグを付けることができるという技術が公知となって
いる。従って「コビ−」や「コピ」が単語辞書11に登
録されていないとすると、これらの単語は、未登録語で
あると認定される。そこで、これらの未登録語に着目し
て抽出し、他の文書の未登録語と比較することにより、
容易に酷似文書を抽出することができる。あるいは、上
述の方法と併用することにより、精度良く抽出すること
が可能である。
【0030】(5)上述の方法を組み合わせて酷似度を
計算する。上述のように、自立語の出現およびその出現
順序,付属語の出現およびその順序,誤字・脱字の出現
などにより、ある文書に酷似した文書を抽出できるが、
これらの方法のうちの複数を用いることも可能である。
それぞれについて独立に酷似度を計算し、その合計ある
いは最大値をもってその酷似度とする方法などが考えら
れる。また、上述のどの方法を採用するかを動的に変更
することが可能である。使用する単語の品詞の変更や、
文章単位の変更,しきい値の変更などを動的に可能とす
ることにより、ユーザの要求に応じた抽出結果を出力す
ることができる。ただし、この場合、動的に変更された
設定に対処するためには、文書DB15中の文書に関す
る単語情報を必要十分に格納しておかなければならな
い。図9や図10では、文を文章単位として、自立語に
関する単語情報のみが格納されているが、ここでは、文
書に出現するすべての単語に関する情報を保持する必要
がある。これは、単語出現パターン抽出処理3で単語を
抽出する際に、すべての単語に関する情報を保持してお
き、文書DB登録処理7で、新規文書を文書DB15に
登録する際に、すべての単語に関する情報を格納するこ
とにより容易に実現可能である。また、文章単位の変更
に対処できるように、ある単語が出現する場所に関する
情報を含めてDB情報テーブル14に格納しておく。図
22は、設定の動的な変更に対処できるDB情報テーブ
ル14の構成の例を示す図である。このテーブルから、
品詞情報や文章構成情報を参照して必要な情報を選択す
ることにより、さまざまな設定による酷似文書抽出が可
能となる。
【0031】
【発明の効果】本発明によれば、自立語(付属語でない
語)である単語が文書中に単に出現するか否かだけでな
く、ある文章単位中の自立語の出現順序を考慮すること
によって、その文章単位が他のある文書の文章単位と酷
似しているか否かを判別し、さらに、酷似していると判
別された文章単位がどのくらいの長さにわたって続いて
いるかに基づいて、ある文書が他のある文書と酷似して
いるかを認定するという2段階の判別方法を採ることが
できるので、ある文書に酷似した文書を精度良く抽出す
ることができる。また、本発明によれば、出現頻度の低
い単語に着目して、その出現傾向(出現するか否か,出
現する場合、その出現順序)に基づいて酷似文書を認定
することができるので、ある文書に酷似した文書を少な
いノイズで抽出できる。また、本発明によれば、付属語
の出現傾向に基づいて酷似文書を認定することができる
ので、オリジナル文書の自立語をある程度修正したよう
な文書でも、酷似した文書として認定することができ
る。さらに、本発明によれば、誤字・脱字を利用して酷
似文書を認定できるので、ある文書に酷似した文書を精
度良く抽出することができる。また、酷似しているか否
かを判別する際に用いる単語の品詞や、酷似度のしきい
値などの値をユーザが動的に自由に設定できるので、そ
れぞれの文書に応じた適切な量の酷似文書を抽出ができ
る。
【図面の簡単な説明】
【図1】本実施例の概要を示す図である。
【図2】本実施例のハードウェアの構成を示す図であ
る。
【図3】本実施例の新規文書の一例を示す図である。
【図4】本実施例の文書DBに登録済の文書例を示す図
である。
【図5】本実施例の単語辞書の構成の一例を示す図であ
る。
【図6】本実施例の単語分割処理結果の一例を示す図で
ある。
【図7】本実施例の不要語辞書の一例を示す図である。
【図8】本実施例の単語情報テーブルの一例を示す図で
ある。
【図9】本実施例のDB情報テーブルの一例を示す図で
ある。
【図10】本実施例のDB情報テーブルの他の一例を示
す図である。
【図11】本実施例の文章単位間の酷似度計算方法を説
明するための図である。
【図12】本実施例の酷似度計算結果の一例を示す図で
ある。
【図13】本実施例の酷似度計算結果の他の一例を示す
図である。
【図14】本実施例の酷似文書判定結果の一例を示す図
である。
【図15】本実施例の結果表示の一例を示す図である。
【図16】本実施例における単語の出現頻度の一例を示
す図である。
【図17】本実施例における単語の出現頻度の他の一例
を示す図である。
【図18】本実施例の単語情報テーブルの他の一例を示
す図である。
【図19】本実施例のDB情報テーブルの他の一例を示
す図である。
【図20】本実施例の酷似度計算結果の他の一例を示す
図である。
【図21】本実施例の単語情報テーブルの他の一例を示
す図である。
【図22】本実施例のDB情報テーブルの他の一例を示
す図である。
【符号の説明】
1 新規文書 2 文書入力処理 3 単語出現パターン抽出処理 4 酷似文書決定処理 5 結果表示処理 7 文書DB登録処理 8 文書破棄処理 11 単語辞書 12 不要語辞書 13 単語情報テーブル 14 DB情報テーブル 15 文書DB 20 ネットワーク 25 文書サーバ 30 キーボード 40 マウス 50 ディスプレイ 60 処理装置 70 記憶装置 71 ワークエリア 72 文書入力処理部格納エリア 73 単語出現パターン抽出処理部格納エリア 74 酷似文書決定処理部格納エリア 75 結果表示処理部格納エリア 76 文書DB登録処理部格納エリア 77 文書破棄処理部格納エリア 78 単語辞書格納エリア 79 不要語辞書格納エリア 80 文書情報テーブル格納エリア 81 DB情報テーブル格納エリア 82 文書DB格納エリア 83 ネットワーク制御部格納エリア 90 クライアント

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 電子化文書集合と、前記電子化文書集合
    を格納する文書格納手段と、文書を入力するための文書
    入力手段と、ユーザが操作指示情報を入力するための操
    作指示入力手段と、ユーザに報知するための出力手段と
    を備えた文書抽出装置における文書抽出方法であって、 前記電子化文書集合内の電子化文書の各々に出現する語
    句およびその出現順序に関するデータを格納する文書集
    合情報テーブルを備え、 予め語句の情報を格納した辞書を参照して前記文書入力
    手段を介して入力された新規文書に出現する語句を解析
    し、 前記出現する語句のうち、ユーザによって前記操作指示
    入力手段を介して予め指定された種類の語句に属する語
    句および該各語句の出現順序を抽出し、単語情報テーブ
    ルを生成し、 前記単語情報テーブルと前記文書集合情報テーブルとを
    照合して、前記新規文書を構成する文章構成単位と、前
    記電子化文書集合内の電子化文書の各々を構成する文章
    構成単位とにおいて、共通して出現する語句と該各語句
    の連続した出現順序が同じである語句の列を抽出し、前
    記共通して出現する語句の数に重みを付した値と、前記
    語句の列を構成する語句の数を変数とする単調増加関数
    の値に基づき前記文章構成単位毎に酷似度を計算し、 ユーザによって前記操作指示入力手段を介して予め指定
    されたしきい値以上の酷似度を有する文章構成単位を持
    つ前記電子化文書集合内の文書を抽出し、 前記抽出結果を前記出力手段を介してユーザに報知する
    ことを特徴とする酷似文書抽出方法。
  2. 【請求項2】 電子化文書集合と、前記電子化文書集合
    を格納する文書格納手段と、文書を入力するための文書
    入力手段と、ユーザが操作指示情報を入力するための操
    作指示入力手段と、ユーザに報知するための出力手段と
    を備えた文書抽出装置における文書抽出方法であって、 前記電子化文書集合内の電子化文書の各々に出現する語
    句およびその出現順序に関するデータを格納する文書集
    合情報テーブルを備え、 予め語句の情報を格納した辞書を参照して前記文書入力
    手段を介して入力された新規文書に出現する語句を解析
    し、 前記出現する語句のうち、ユーザによって前記操作指示
    入力手段を介して予め指定された種類の語句に属する語
    句および/または該各語句の連続した出現順序を抽出
    し、単語情報テーブルを生成し、 前記単語情報テーブルと前記文書集合情報テーブルとを
    照合して、前記新規文書を構成する文章構成単位と、前
    記電子化文書集合内の電子化文書の各々を構成する文章
    構成単位とにおいて、共通して出現する語句および/ま
    たは該各語句の連続した出現順序が同じである語句の列
    を抽出し、該抽出結果に基づき前記文章構成単位毎に酷
    似度を計算し、 前記新規文書に対して、ユーザによって前記操作指示入
    力手段を介して予め指定されたしきい値以上の酷似度を
    持つ文章構成単位が、ユーザによって前記操作指示入力
    手段を介して予め指定されたしきい値以上の「長さ」だ
    け連続して出現する前記電子化文書集合内の文書を抽出
    し、 前記抽出結果を前記出力手段を介してユーザに報知する
    ことを特徴とする酷似文書抽出方法。
  3. 【請求項3】 電子化文書集合と、前記電子化文書集合
    を格納する文書格納手段と、文書を入力するための文書
    入力手段と、ユーザが操作指示情報を入力するための操
    作指示入力手段と、ユーザに報知するための出力手段と
    を備えた文書抽出装置における文書抽出方法であって、 前記電子化文書集合内の電子化文書の各々に出現する語
    句およびその出現順序に関するデータを格納する文書集
    合情報テーブルを備え、 予め語句の情報を格納した辞書を参照して前記文書入力
    手段を介して入力された新規文書に出現する語句を解析
    し、 前記出現する語句のうち、ユーザによって前記操作指示
    入力手段を介して予め指定された種類の語句に属する語
    句および該各語句の出現順序を抽出し、単語情報テーブ
    ルを生成し、 前記単語情報テーブルと前記文書集合情報テーブルとを
    照合して、前記新規文書を構成する文章構成単位と、前
    記電子化文書集合内の電子化文書の各々を構成する文章
    構成単位とにおいて、共通して出現する語句と該各語句
    の連続した出現順序が同じである語句の列を抽出し、前
    記共通して出現する語句の数に重みを付した値と、前記
    語句の列を構成する語句の数を変数とする単調増加関数
    の値に基づき前記文章構成単位毎に酷似度を計算し、 前記新規文書に対して、ユーザによって前記操作指示入
    力手段を介して予め指定されたしきい値以上の酷似度を
    持つ文章構成単位が、ユーザによって前記操作指示入力
    手段を介して予め指定されたしきい値以上の「長さ」だ
    け連続して出現する前記電子化文書集合内の文書を抽出
    し、 前記抽出結果を前記出力手段を介してユーザに報知する
    ことを特徴とする酷似文書抽出方法。
  4. 【請求項4】 請求項1または請求項2または請求項3
    記載の酷似文書抽出方法において、 ユーザが前記操作指示入力手段を介して指定する前記文
    章構成単位として、文書全体,章,節,形式段落,文を
    含んでいることを特徴とする酷似文書抽出方法。
  5. 【請求項5】 請求項1または請求項2または請求項3
    記載の酷似文書抽出方法において、 前記ユーザが操作指示入力手段を介して指定する「長
    さ」の対象として、前記文章構成単位の数,文字数,語
    句数,文数,段落数を含み、ユーザが前記操作指示入力
    手段を介してこれらを選択できることを特徴とする酷似
    文書抽出方法。
  6. 【請求項6】 請求項1または請求項2または請求項3
    記載の酷似文書抽出方法において、 前記ユーザが操作指示入力手段を介して指定する種類の
    語句として、自立語か付属語の少なくとも一方を指定で
    きることを特徴とする酷似文書抽出方法。
  7. 【請求項7】 請求項1または請求項2または請求項3
    記載の酷似文書抽出方法において、 前記ユーザが操作指示入力手段を介して指定する種類の
    語句として、特定の品詞を持つ語句を指定できることを
    特徴とする酷似文書抽出方法。
  8. 【請求項8】 請求項1または請求項2または請求項3
    記載の酷似文書抽出方法において、 前記ユーザが操作指示入力手段を介して指定する種類の
    語句として、前記辞書に定義されていない語句を指定で
    きることを特徴とする酷似文書抽出方法。
  9. 【請求項9】 請求項1または請求項2または請求項3
    記載の酷似文書抽出方法において、 前記出現語句の解析において、ユーザが前記操作指示入
    力手段を介して予め指定した語句については前記解析結
    果から除去することを特徴とする酷似文書抽出方法。
  10. 【請求項10】 請求項1または請求項2または請求項
    3記載の酷似文書抽出方法において、 前記出現語句の解析において、同一の意味を持つ語句の
    対を格納した同義語辞書を備え、前記同義語辞書を参照
    して前記出現語句の解析によって抽出した語句の表記を
    統一することを特徴とする酷似文書抽出方法。
  11. 【請求項11】 請求項1または請求項3記載の酷似文
    書抽出方法において、 前記文章構成単位毎の酷似度の計算を前記共通して出現
    する語句の数に重みを付した値と、前記語句の列を構成
    する語句の数を変数とする単調増加関数の値の和とする
    ことを特徴とする酷似文書抽出方法。
  12. 【請求項12】 請求項1または請求項2または請求項
    3記載の酷似文書抽出方法において、 前記出現語句の解析において、ユーザが前記操作指示入
    力手段を介して予め指定した範囲外の出現頻度を持つ語
    句について前記解析結果から除去することを特徴とする
    酷似文書抽出方法。
  13. 【請求項13】 請求項1または請求項2または請求項
    3記載の酷似文書抽出方法において、 前記抽出結果の出力において、抽出された前記電子化文
    書集合内の電子化文書について、ユーザが前記操作指示
    入力手段を介して予め指定したしきい値以上の酷似度を
    持つ文章構成単位の数の多い順にソートして表示するこ
    とを特徴とする酷似文書抽出方法。
  14. 【請求項14】 請求項1または請求項2または請求項
    3記載の酷似文書抽出方法において、 前記抽出結果の出力において、ユーザが前記操作指示入
    力手段を介して予め指定した値以上の酷似度を持つ前記
    文章構成単位について、その酷似度の大小に応じて前記
    文章構成単位の表示態様を変えて文書内容を表示するこ
    とを特徴とする酷似文書抽出方法。
  15. 【請求項15】 請求項14記載の酷似文書抽出方法に
    おいて、 前記文書内容の表示において、ユーザが前記操作指示入
    力手段を介して予め指定した値以上の酷似度を持つ前記
    文章構成単位について、対応する新規文書の文章構成単
    位と電子化文書集合内の電子化文書の文章構成単位とを
    並べて表示することを特徴とする酷似文書抽出方法。
  16. 【請求項16】 請求項14記載の酷似文書抽出方法に
    おいて、 前記文書内容の表示において、文書をスキップ読みする
    手段を備え、ユーザが前記操作指示入力手段を介して前
    記スキップ読みを選択する度に、ユーザが前記操作指示
    入力手段を介して予め指定した値以上の酷似度を持つ次
    の文章構成単位までスキップして文書内容を表示するこ
    とを特徴とする文書抽出方法。
JP8026185A 1996-01-19 1996-01-19 酷似文書抽出方法 Pending JPH09198409A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8026185A JPH09198409A (ja) 1996-01-19 1996-01-19 酷似文書抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8026185A JPH09198409A (ja) 1996-01-19 1996-01-19 酷似文書抽出方法

Publications (1)

Publication Number Publication Date
JPH09198409A true JPH09198409A (ja) 1997-07-31

Family

ID=12186454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8026185A Pending JPH09198409A (ja) 1996-01-19 1996-01-19 酷似文書抽出方法

Country Status (1)

Country Link
JP (1) JPH09198409A (ja)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11134359A (ja) * 1997-10-31 1999-05-21 Nippon Telegr & Teleph Corp <Ntt> 文書類似度計算方法、文書類似度計算装置及び文書類似度計算プログラムを記録した記録媒体
JPH11288425A (ja) * 1998-01-06 1999-10-19 Fuji Xerox Co Ltd 走り読みを容易にする方法、装置及びグラフィカルユーザインタフェース
JPH11296551A (ja) * 1998-04-13 1999-10-29 Ricoh Co Ltd 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003058566A (ja) * 2001-08-20 2003-02-28 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
JP2006024071A (ja) * 2004-07-09 2006-01-26 Matsushita Electric Ind Co Ltd 自動回答検索装置
KR100588739B1 (ko) * 1999-11-23 2006-06-13 주식회사 케이티 문서처리시스템에서 문서의 중복 방지 방법
JP2006343870A (ja) * 2005-06-07 2006-12-21 Canon Inc 文書検索装置及び方法と記憶媒体
JP2009205674A (ja) * 2008-02-01 2009-09-10 Kanazawa Inst Of Technology 引用判定支援装置および引用判定支援プログラム
JP2009238131A (ja) * 2008-03-28 2009-10-15 Nomura Research Institute Ltd 著作物比較システム
JP2010507857A (ja) * 2006-10-23 2010-03-11 モンロ、ドナルド・マーティン 高速データベースマッチング
JP2010055373A (ja) * 2008-08-28 2010-03-11 Sky Co Ltd ノート評価装置またはノート評価プログラム
JP2010211354A (ja) * 2009-03-09 2010-09-24 Nomura Research Institute Ltd 著作物比較システム
JP2011076479A (ja) * 2009-09-30 2011-04-14 Canon It Solutions Inc 情報処理装置、情報処理方法及びプログラム
JP2012164193A (ja) * 2011-02-08 2012-08-30 Nippon Telegr & Teleph Corp <Ntt> 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム
JP2013149259A (ja) * 2013-02-14 2013-08-01 Canon Marketing Japan Inc 情報処理装置、制御方法及びプログラム
JP2013178633A (ja) * 2012-02-28 2013-09-09 Kddi Corp 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ
US8977949B2 (en) 2007-10-11 2015-03-10 Nec Corporation Electronic document equivalence determination system and equivalence determination method
JP2018170036A (ja) * 2012-09-07 2018-11-01 クロール・インフォメーション・アシュアランス,エルエルシー ファイル共有ネットワークにおけるスニペット照合
CN110134923A (zh) * 2018-02-08 2019-08-16 陈虎 一种电子文稿修改痕迹的查找方法
JP2021093163A (ja) * 2019-12-11 2021-06-17 ネイバー コーポレーションNAVER Corporation ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11134359A (ja) * 1997-10-31 1999-05-21 Nippon Telegr & Teleph Corp <Ntt> 文書類似度計算方法、文書類似度計算装置及び文書類似度計算プログラムを記録した記録媒体
JPH11288425A (ja) * 1998-01-06 1999-10-19 Fuji Xerox Co Ltd 走り読みを容易にする方法、装置及びグラフィカルユーザインタフェース
JPH11296551A (ja) * 1998-04-13 1999-10-29 Ricoh Co Ltd 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
KR100588739B1 (ko) * 1999-11-23 2006-06-13 주식회사 케이티 문서처리시스템에서 문서의 중복 방지 방법
JP2003058566A (ja) * 2001-08-20 2003-02-28 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
JP2006024071A (ja) * 2004-07-09 2006-01-26 Matsushita Electric Ind Co Ltd 自動回答検索装置
JP2006343870A (ja) * 2005-06-07 2006-12-21 Canon Inc 文書検索装置及び方法と記憶媒体
JP2010507857A (ja) * 2006-10-23 2010-03-11 モンロ、ドナルド・マーティン 高速データベースマッチング
US8977949B2 (en) 2007-10-11 2015-03-10 Nec Corporation Electronic document equivalence determination system and equivalence determination method
JP2014149848A (ja) * 2008-02-01 2014-08-21 Kanazawa Inst Of Technology 引用判定支援装置および引用判定支援プログラム
JP2009205674A (ja) * 2008-02-01 2009-09-10 Kanazawa Inst Of Technology 引用判定支援装置および引用判定支援プログラム
JP2009238131A (ja) * 2008-03-28 2009-10-15 Nomura Research Institute Ltd 著作物比較システム
JP2010055373A (ja) * 2008-08-28 2010-03-11 Sky Co Ltd ノート評価装置またはノート評価プログラム
JP2010211354A (ja) * 2009-03-09 2010-09-24 Nomura Research Institute Ltd 著作物比較システム
JP2011076479A (ja) * 2009-09-30 2011-04-14 Canon It Solutions Inc 情報処理装置、情報処理方法及びプログラム
JP2012164193A (ja) * 2011-02-08 2012-08-30 Nippon Telegr & Teleph Corp <Ntt> 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム
JP2013178633A (ja) * 2012-02-28 2013-09-09 Kddi Corp 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ
JP2018170036A (ja) * 2012-09-07 2018-11-01 クロール・インフォメーション・アシュアランス,エルエルシー ファイル共有ネットワークにおけるスニペット照合
JP2013149259A (ja) * 2013-02-14 2013-08-01 Canon Marketing Japan Inc 情報処理装置、制御方法及びプログラム
CN110134923A (zh) * 2018-02-08 2019-08-16 陈虎 一种电子文稿修改痕迹的查找方法
JP2021093163A (ja) * 2019-12-11 2021-06-17 ネイバー コーポレーションNAVER Corporation ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム

Similar Documents

Publication Publication Date Title
JPH09198409A (ja) 酷似文書抽出方法
US7584093B2 (en) Method and system for generating spelling suggestions
JP2742115B2 (ja) 類似文書検索装置
US6523000B1 (en) Translation supporting apparatus and method and computer-readable recording medium, wherein a translation example useful for the translation task is searched out from within a translation example database
JP5113750B2 (ja) 定義の抽出
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
US20080033714A1 (en) Acronym Extraction System and Method of Identifying Acronyms and Extracting Corresponding Expansions from Text
JPH10232866A (ja) データ処理方法及び装置
WO2007002456A1 (en) Method and apparatus for creating a language model and kana-kanji conversion
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
US20040193399A1 (en) System and method for word analysis
JP2001318792A (ja) 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置
JP3544749B2 (ja) キーワード自動抽出装置
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP4856573B2 (ja) 要約文生成装置及び要約文生成プログラム
Lopresti Performance evaluation for text processing of noisy inputs
JP3531222B2 (ja) 類似文字列検索装置
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH09325962A (ja) 文書校正装置およびプログラム記憶媒体
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP5445244B2 (ja) 音声合成装置、音声合成方法、及び音声合成プログラム
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
KR100283100B1 (ko) 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법