JP2003091557A - 文書照合装置 - Google Patents

文書照合装置

Info

Publication number
JP2003091557A
JP2003091557A JP2002159177A JP2002159177A JP2003091557A JP 2003091557 A JP2003091557 A JP 2003091557A JP 2002159177 A JP2002159177 A JP 2002159177A JP 2002159177 A JP2002159177 A JP 2002159177A JP 2003091557 A JP2003091557 A JP 2003091557A
Authority
JP
Japan
Prior art keywords
document
word
appearances
documents
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002159177A
Other languages
English (en)
Other versions
JP3719666B2 (ja
Inventor
Hiroshi Nakano
拓 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2002159177A priority Critical patent/JP3719666B2/ja
Publication of JP2003091557A publication Critical patent/JP2003091557A/ja
Application granted granted Critical
Publication of JP3719666B2 publication Critical patent/JP3719666B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 2つの文書を照合する際に、文書の内容に応
じて明確な差が表れる類似度、相違度を算出できる文書
照合装置を提供する。 【解決手段】 文書構成要素の出現回数を計数し、記憶
用出現回数閾値以上の出現回数を持つ文書構成要素を文
書構成要素記憶手段107に格納するとともに、類似度
算出用出現回数閾値以上の出現回数を持つ文書構成要素
を類似度の算出に使用し、相違度算出用出現回数閾値以
上の出現回数の差がある文書構成要素を対象として相違
度を算出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば特許文献等
の複数文書間の類似度、相違度を算出するための文書照
合装置に関するものである。
【0002】
【従来の技術】従来、ユーザが入力したキーワードを使
用して2つの文書の類似度が算出されてきた。これに対
してユーザがキーワードを与えないでも2つの文書の類
似度を算出するシステムの例として特開平11−734
22号(名称「類似文書検索システムおよびそれに用い
る記憶媒体」)がある。このシステムでは、内部に索引
を有し、文書を入力するときに、入力文書のテキストか
ら語を抽出して索引を更新し、索引に登録された語の頻
度情報を索引に保持して、頻度の最も大きい語の重要度
を1として、一般の語の重要度は頻度の最も大きい語に
対する比率で定義している。類似度の算出ではシステム
パラメータで指定できる整数をnとして比較の元となる
文書の重要度の高いものからn個の語について、2つの
文書でのn個の語の重要度を使用して類似度が算出され
ている。類似度の算出では分母に比較の元となる文書で
のn個の語の重要度の総和をとり、また各n個の語につ
いて2つの文書での重要度の小さい値を選び、その総和
を分子としている。
【0003】
【発明が解決しようとする課題】上記従来のシステムに
よると最も大きい重要度の語が文書比較において特徴を
与えないような語であり、かつ非常に多く使用されてい
る場合には、他のn−1個の重要度の値が小さくなり、
類似度は小さいと判定されることがある。また、この従
来システムは複数言語に対応していない。
【0004】本発明の目的は、2つの文書を照合する際
に、文書の内容に応じて明確な差が表れる類似度、相違
度を算出できるようにすることにある。
【0005】本発明の他の目的は、異言語文書の照合に
も適用可能な文書照合装置を提供することにある。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、本発明では、各文書から構成要素(単一の単語のみ
ならず、単語の一部分、複数の単語が繋がったもの等を
も含む。)を抽出した後、各々の文書構成要素の出現回
数を求め、文書構成要素と出現回数とを組にして文書構
成要素記憶手段に格納し、2つの文書に共通に含まれる
文書構成要素の出現回数の各々の総和を各々の文書の全
ての文書構成要素の出現回数の総和によって除算するこ
とにより各々の文書の類似度を算出するとともに、2つ
の文書に含まれる文書構成要素の出現回数の差をそれぞ
れ当該文書構成要素を多く含んでいる方の文書に振り当
てて総和をとり、当該総和を各々の文書の全ての文書構
成要素の出現回数の総和によって除算することにより相
違度を算出する。しかし、これだけでは内容が異なって
いても目立った類似度及び相違度の差異が現れないこと
があるので、無特徴文書構成要素記憶手段を備えて内容
の類似、相違には関係しない語を記憶させ、類似度、相
違度の算出の対象から除外している。更に出現回数の少
ない文書構成要素は文書の内容が異なっても2つの文書
の間で使用されて類似度を高く保つことがあるので、類
似度算出用出現回数閾値設定記憶手段を備えて類似度算
出用出現回数閾値よりも小さい出現回数の文書構成要素
は類似度の算出対象から除く。また、文書の内容に関係
なく一方の文書で2、3回多く使われ、これが相違度を
大きくすることがあるので、相違度算出用出現回数閾値
設定記憶手段を備えて相違度算出用出現回数閾値未満の
出現回数の文書構成要素は相違度の算出対象から除く。
更に多数の文書構成要素と出現回数とを記憶しなければ
いけないという点を軽減するために、記憶用出現回数閾
値設定記憶手段を備えて、出現回数の少ない文書構成要
素は記憶しないこととした。
【0007】また本発明では、異なる言語の間では名詞
と動詞を対象とし、更に動詞を対応する名詞に変換して
最終的には名詞で類似度、相違度を算出することとし
た。
【0008】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。ここでは、特許文献の照合の例を説
明する。
【0009】図1は、本発明の第1の実施形態の構成を
示すブロック図である。図1において、101は複数の
文書を格納する文書記憶手段、102は文書入力手段、
103は文書から構成要素を抽出する文書構成要素抽出
手段、104は文書構成要素毎の出現回数を計数する文
書構成要素計数手段、105は文書構成要素と出現回数
とを組として記憶する場合に記憶対象となる出現回数閾
値を与える記憶用出現回数閾値設定記憶手段、106は
文書の内容によらずに使用され、文書の内容に関する特
徴を表すことのない無特徴文書構成要素を記憶する手
段、107は文書構成要素と出現回数とを組として記憶
する文書構成要素記憶手段、108は文書構成要素と出
現回数とを組として読み出す文書構成要素入力手段、1
09は類似度算出の対象となる文書構成要素の出現回数
閾値を与えるための類似度算出用出現回数閾値設定記憶
手段、110は2つの文書の構成要素と出現回数から2
つの文書の類似度を算出する文書類似度算出手段、11
1は相違度算出の対象となる文書構成要素の出現回数閾
値を与えるための相違度算出用出現回数閾値設定記憶手
段、112は2つの文書の構成要素と出現回数から2つ
の文書の相違度を算出する文書相違度算出手段、113
はIPC(国際特許分類)コードを検出する手段、11
4はIPCコード解析手段である。
【0010】外部から新しい文書が文書記憶手段101
に記憶されるときには文書入力手段102が新しく記憶
した文書を読み出し、文書構成要素抽出手段103で文
書から構成要素を抽出する。文書構成要素の抽出には単
語辞書を使用しないで、図2に示す文字を空白に置き換
えることにより、文書構成要素を互いに分離する。図2
において、52個の英字“ A ”〜“ z ”につい
ては前後に1文字ずつの空白がある。
【0011】日本語において1回の文書走査で最初に被
置換文字が見つかったところで処理が終了となるような
仕様のコマンドを使用するときには、文書の文字数に等
しい回数だけ走査する。これにより、英字が記号として
1文字だけ使用されている場合には、英字の前後に空白
を挟んだ形となり、この場合も空白に置き換えられる。
また、日本語の場合には後述する無特徴文書構成要素の
ほとんどは平仮名で記述される場合が多く、英語と違っ
て区切り文字(デリミタ)を空白に置き換えることと無
特徴文書構成要素を検出することとは同じような処理と
なるので、本実施形態では特許明細書に共通して用いら
れる図2中の6個の言葉(“図”〜“請求項”)を文書
構成要素抽出段階で削除する。
【0012】日本語の場合、図2の文字を空白に置き換
える前後によって文がどう変わるか、特開平6−187
132号公報の要約書部分を例として図3に示す。
【0013】図3に示した空白に置き換えられた文には
単一の単語に分解されたものもあれば、複数の単語が繋
がったままのもの、漢字1字もあり、いろいろな形が残
っている。よって、単語という表現は避け、文書構成要
素と呼ぶことにした。
【0014】文書構成要素を抽出したあと、文書構成要
素計数手段104で文書構成要素毎に出現回数を計数す
る。記憶用出現回数閾値設定記憶手段105に記憶対象
となる出現回数閾値を設定しておき、また本実施形態は
英文をも対象としていることから、図4、図5及び図6
に示すような、文書の内容によらずに使用され、文書の
内容に関しての特徴を表すことのない文書構成要素を、
無特徴文書構成要素記憶手段106に予め格納してお
く。
【0015】図4、図5及び図6に示す無特徴文書構成
要素を削除することによって文書構成要素記憶手段10
7のファイル容量、文書構成要素種類数、文書構成要素
総数がどれだけ減少するかを、米国特許6,000,0
00号から6,000,019号までの20特許の合計
値について図7に示す。冠詞を例にとると、文書構成要
素種類数が項番0と項番1で60異なるのは20件とも
図4中の冠詞3個を使用しており、3×20=60個の
種類減となる。文書構成要素種類数減少率は0.4%と
小さいが文書構成要素総数減少率は13.3%にもな
り、英文特許明細書では冠詞が多く使われていることが
分かる。項番5の前置詞及び前置詞句では、種類数減少
率は冠詞の約10倍であり、文書構成要素総数減少率は
冠詞とほぼ同じの14.3%である。
【0016】文書構成要素記憶手段107には、新しい
文書の文書構成要素と出現回数との組が記憶用出現回数
閾値設定記憶手段105から出力される出現回数閾値以
上の出現回数であり、加えて無特徴文書構成要素記憶手
段106に記憶されていない文書構成要素のときに記憶
される。
【0017】出現回数についても文書構成要素記憶手段
107のファイル容量、文書構成要素種類数、文書構成
要素総数がどれだけ減少するかを1回以下から10回以
下の場合について、米国特許6,000,000号から
6,000,019号までの20特許の合計値を図8に
示す。
【0018】文書構成要素記憶手段107に格納される
文書構成要素と出現回数の例を前出の特開平6−187
132号公報の場合について順位を付加して52番目ま
で図9に示す。なお、同公報の場合、文書構成要素の種
類数は609、文書構成要素の総数は14,912であ
る。
【0019】同様に英文明細書の例として米国特許6,
000,000号の場合、文書構成要素の種類数は26
5、文書構成要素の総数は3,232であり、文書構成
要素と出現回数の52番目までを図10に示す。
【0020】2つの文書を照合するとき、文書構成要素
記憶手段107から文書構成要素入力手段108が2つ
の文書の文書構成要素と出現回数との組を読み出し、類
似度算出用出現回数閾値設定記憶手段109に設定され
た出現回数閾値以上の出現回数を持つ文書構成要素を類
似度算出対象として、文書類似度算出手段110では2
つの文書の類似度を、2つの文書に共通に含まれる文書
構成要素の出現回数の各々の総和を、各々の文書の全て
の文書構成要素の出現回数の総和によって除算すること
により算出する。
【0021】数式を用いて説明すると、ここでは文書A
の文書構成要素をEA(1)、EA(2)、…、EA
(m)、及びそれらからなる集合をSAとする。また、
文書Aに含まれている文書構成要素の数をNA(EA
(i))(1≦i≦m)で表す。一方、文書Bの文書構
成要素をEB(1)、EB(2)、…、EB(n)、及
びそれらからなる集合をSBとする。また、文書Bに含
まれている文書構成要素の数をNB(EB(j))(1
≦j≦n)で表す。AのBに対する類似度は数式1によ
り、またBのAに対する類似度は数式2によりそれぞれ
与えられる。ただし、類似度算出用出現回数閾値未満の
出現回数を持つ文書構成要素は数式1及び数式2の計算
において分母、分子ともに使用されない。
【0022】
【数1】
【0023】
【数2】
【0024】類似度の算出例を図11に示す。米国特許
6,000,000号から6,000,019号までの
20特許の間で互いの類似度を算出したところ、6,0
00,011号と6,000,012号との間の類似度
が100%近い値となったので、これ以外の組み合わせ
での最大値と最小値とを図11に示した。図11では無
特徴文書構成要素の削除、及び出現回数の少ない文書構
成要素の削除の効果を調査する目的で、図11の削除内
容に示すそれぞれの場合について類似度を求めた。文書
構成要素を何も削除しないときには、内容が似ていなく
ても英文に共通して用いられる言葉の影響で類似度が5
0%前後の値となり、利用するのに適当とは言えない
が、図4〜図6に示した無特徴文書構成要素を全て削除
し、出現回数2回以下の文書構成要素を削除したときに
は6,000,000号から6,000,019号まで
の間の類似度最小値が6.3%、これら20特許に対す
る6,000,067号の類似度最小値が0.7%、
6,000,067号に対する同20特許の類似度最小
値が1.4%となり、最小値については削除なしの場合
よりかなり小さくなる一方、最大値については6,00
0,000号から6,000,019号までの間では約
10%小さくなるだけである。
【0025】一方、図1中の文書相違度算出手段112
では、2つの文書に含まれる文書構成要素の出現回数の
差が相違度算出用出現回数閾値設定記憶手段111から
与えられる値以上の文書構成要素についての差を、それ
ぞれ当該文書構成要素を多く含んでいる方の文書に振り
当てて総和をとり、当該総和を各々の文書の全ての文書
構成要素の出現回数の総和によって除算することによ
り、各々の文書の相違度を算出する。
【0026】数式を用いて説明すると、ここでも文書A
の文書構成要素をEA(1)、EA(2)、…、EA
(m)、及びそれらからなる集合をSAとする。また、
文書Aに含まれている文書構成要素の数をNA(EA
(i))(1≦i≦m)で表す。一方、文書Bの文書構
成要素をEB(1)、EB(2)、…、EB(n)、及
びそれらからなる集合をSBとする。また、文書Bに含
まれている文書構成要素の数をNB(EB(j))(1
≦j≦n)で表す。相違度算出用出現回数閾値をTHと
するとき、AのBに対する相違度は数式3により、また
BのAに対する相違度は数式4によりそれぞれ与えられ
る。ただし、要素EA(i)が集合SBに属しないとき
NA(EA(i))=0とし、要素EB(j)が集合S
Aに属しないときNB(EB(j))=0とする。つま
り、2つの文書の少なくとも一方に含まれる文書構成要
素について他方には含まれない場合には、他方での出現
回数をゼロとするものとする。
【0027】
【数3】
【0028】
【数4】
【0029】米国特許6,000,011号と6,00
0,012号とについて相違度を求めると、 6,000,011号の6,000,012号に対する
相違度:17.7% 6,000,012号の6,000,011号に対する
相違度:0.2% となる。
【0030】相違度については次のような利用方法があ
る。まず、類似度が低いときには2つの文書の内容に共
通するところがないと判断されるが、相違度が高いこと
によってもこのことが裏付けられる。また、類似度が高
いときには2つの文書の内容に共通するところがいろい
ろあることが予想されるが、相違度がほぼ0%の場合に
は2つの文書の内容がほぼ等しいと予想される。
【0031】類似度が100%近くで相違度が0%から
少し離れている場合には、比較対象の文書よりも言葉数
をかけて詳しく説明しているか、又は比較対象の文書が
取り扱っていない内容を含んでいることが予想される。
例えば、米国特許6,000,011号と6,000,
012号のテキスト部分については、“RELATED APPLIC
ATION DATA”、“BACKGROUND OF THE INVENTION 1. Fi
eld of the Invention”、“Claims”が異なるだけで、
上記以外の相違は11ページ下から6〜7行目に6,0
00,011号には“in the command buffer 600”が
追加されているだけである。6,000,011号のク
レームは33個、シート約4枚、6,000,012号
のクレームは16個、シート約1枚で、クレームの違い
が17.7%、0.2%という相違度の原因となってい
る。
【0032】図1中の文書相違度算出手段112では出
現回数の差が大きい順に文書構成要素を出力する機能を
持たせており、図12及び図13のような出力が得られ
る。ここでは、TH=10としており、図12は6,0
00,011号(文献A)での出現回数の方が多い文書
構成要素のリストを、図13は6,000,012号
(文献B)での出現回数の方が多い文書構成要素のリス
トをそれぞれ示している。各文書構成要素について、
「差」は出現回数の差を、「回数A」は文献Aでの出現
回数を、「回数B」は文献Bでの出現回数をそれぞれ表
している。
【0033】IPCコード検出手段113は、文書入力
手段102を経由して読み出した特許明細書からIPC
コードを検出する。IPCコード解析手段114では、
照合する2つの明細書でIPCコードが一致しているか
どうか解析して、例えば米国特許6,000,011号
と6,000,012号との場合、 6,000,011号:G06F 13/14 6,000,012号:G06F 13/14 セクション、クラス、サブクラス、グループともに一致 のような解析結果を出力する。
【0034】なお、図1中の文書構成要素記憶手段10
7に格納すべき文書構成要素と出現回数とを文書記憶手
段101の文書中に含ませるようにしてもよい。
【0035】図14は、本発明の第2の実施形態の構成
を示すブロック図である。図14において、201は複
数の文書を格納する文書記憶手段、202は文書入力手
段、203は和文から単語とその品詞を解析する和文用
単語解析手段、204は品詞情報を複数持つ単語につい
ては品詞情報毎に、各々の単語が文書中に何個含まれて
いるか計数する和文用単語計数手段、205は英文から
単語とその品詞を解析する英文用単語解析手段、206
は品詞情報を複数持つ単語については品詞情報毎に、各
々の単語が文書中に何個含まれているか計数する英文用
単語計数手段、207は単語と品詞情報と出現回数とを
組として記憶する場合に記憶対象となる出現回数閾値を
与える記憶用出現回数閾値設定記憶手段、208は文書
の内容によらずに使用され、文書の内容に関する特徴を
表すことのない和文用無特徴単語を記憶する手段、20
9は文書の内容によらずに使用され、文書の内容に関す
る特徴を表すことのない英文用無特徴単語を記憶する手
段、210は単語と品詞情報と出現回数とを組として記
憶する単語記憶手段、211は単語と品詞情報と出現回
数とを組として読み出す単語入力手段、212は名詞と
動詞のときのみ処理の対象とするとともに動詞は対応す
る名詞に変換しかつ名詞の出現回数を修正加算する和文
用動詞名詞変換手段、213は名詞である単語を日本語
から英語に変換する名詞和英変換手段、214は名詞と
動詞のときのみ処理の対象とするとともに動詞は対応す
る名詞に変換しかつ名詞の出現回数を修正加算する英文
用動詞名詞変換手段、215は類似度算出の対象となる
単語の出現回数閾値を与えるための類似度算出用出現回
数閾値設定記憶手段、216は2つの文書の単語と出現
回数から2つの文書の類似度を算出する文書類似度算出
手段、217は相違度算出の対象となる単語の出現回数
閾値を与えるための相違度算出用出現回数閾値設定記憶
手段、218は2つの文書の単語と出現回数から2つの
文書の相違度を算出する文書相違度算出手段、219は
和文特許明細書からIPC(国際特許分類)コードを検
出する和文用IPCコード検出手段、220は英文特許
明細書からIPCコードを検出する英文用IPCコード
検出手段、221はIPCコード解析手段である。
【0036】外部から新しい文書が文書記憶手段201
に記憶されるときには文書入力手段202が新しく記憶
した文書を読み出し、和文の場合には和文用単語解析手
段203で文書から単語を抽出し、和文用単語計数手段
204で品詞情報を伴う単語の出現回数を計数する。他
方、文書が英文の場合には英文用単語解析手段205で
文書から単語を抽出し、英文用単語計数手段206で品
詞情報を伴う単語の出現回数を計数する。
【0037】なお、品詞解析システムとして日本語で
は、 ・奈良先端科学技術大学院大学の日本語形態素解析シス
テム「茶筌」 ・東京工業大学の形態素・構文解析用ツールMSLRパ
ーザ ・京都大学の日本語形態素解析システム JUMAN ・NTT基礎研究所の形態素解析システム「すもも」 などがあり、英語では、 ・米国ジョンホプキンス大学のTrainable Part of Spee
ch Tagger ・米国フランクリン大学のMXPOST(Maximum Entr
opy POS Tagger) ・英国ランカスター大学のCLAWS part-of-speech
tagger ・独国ザールランテ大学のTnT -- Statistical Pa
rt-of-Speech Tagging などがある。
【0038】第1の実施形態と大きく異なり、和文用単
語解析手段203では図15の項番1に示す無特徴な品
詞の単語を出現回数の計数の対象外として出力しない。
記憶用出現回数閾値設定記憶手段207には記憶対象と
なる出現回数閾値を設定しておき、和文用無特徴単語記
憶手段208には図15の項番2に示す特許明細書用無
特徴単語、項番3に示す特殊な動詞を格納しておく。英
文用無特徴単語記憶手段209には、図4〜図6の単
語、及び英字を格納しておく。
【0039】図15において和文中の「する」及び「す
る」の活用形を無特徴な単語としている理由は、次のと
おりである。すなわち、特開平9−292994号公報
の特許明細書を単語解析したあと、「する」及び「す
る」の活用形を削除しないで出現回数の多い順に30個
を図16に示している。3番目、6番目、12番目の
「する」、「さ」、「し」は「する」及びその活用形で
あり、非常に出現回数が多い。出現回数が多い理由は
「する」は「命令する」、「実行する」、「故障する」
などのように名詞に付けて使用される場合が多いからで
あり、本発明で異なる言語の間では名詞と動詞を対象と
し、更に動詞を対応する名詞に変換して最終的には名詞
で類似度、相違度を算出する理由もここにある。例を挙
げれば、英語の“execute”は日本語では「実
行」+「する」となるからである。
【0040】さて、単語記憶手段210には新しい文書
の単語と品詞情報と出現回数との組が、記憶用出現回数
閾値設定記憶手段207から出力される出現回数閾値以
上の出現回数であり、加えて和文の場合には和文用無特
徴単語記憶手段208に記憶されていない単語のとき
に、また英文の場合には英文用無特徴単語記憶手段20
9に記憶されていない単語のときにそれぞれ記憶され
る。
【0041】2つの文書を照合するとき、単語記憶手段
210から単語入力手段211が2つの文書の単語と品
詞情報と出現回数との組を読み出し、和文用動詞名詞変
換手段212で和文に対して動詞、名詞、品詞未定義以
外の単語は捨てられるとともに動詞は名詞に変換され、
更に名詞は名詞和英変換手段213によって英語に変換
されるとともに品詞未知語の英字単語はそのまま出力さ
れる一方、英文用動詞名詞変換手段214で英文に対し
て動詞、名詞、品詞未定義以外の単語は捨てられるとと
もに動詞は名詞に変換される。
【0042】そののち、類似度算出用出現回数閾値設定
記憶手段215に設定された出現回数閾値以上の出現回
数を持つ単語を類似度算出対象として、文書類似度算出
手段216では、2つの文書に共通に含まれる単語の出
現回数の各々の総和を各々の文書の全ての単語の出現回
数の総和によって除算することにより、各々の文書の類
似度を算出する。また、文書相違度算出手段218で
は、2つの文書に含まれる単語の出現回数の差が相違度
算出用出現回数閾値設定記憶手段217から与えられる
値以上の単語についての差を、それぞれ当該単語を多く
含んでいる方の文書に振り当てて総和をとり、当該総和
を各々の文書の全ての単語の出現回数の総和によって除
算することにより、各々の文書の相違度を算出する。
【0043】具体的な類似度の算出例を図17に、相違
度の算出例を図18にそれぞれ示す。日本国特許公開公
報と米国特許公報は、 日本国 特開平5−313861号:米国 特許5
278782号 日本国 特開平7−160481号:米国 特許5
537345号 日本国 特開平9−167093号:米国 特許5
774737号 日本国 特開平9−292994号:米国 特許6
021511号 のように対応している。図17、図18のそれぞれの値
を算出するにあたっては、2つの文書が異なる言語のと
きのみ、名詞と動詞を対象としている。
【0044】なお、、、、の発明の名称はそれ
ぞれ、 開平演算装置 テーブル情報を利用する数学関数演算装置 可変語長VLIW命令プロセッサ プロセッサ のようになっており、の数学関数演算装置の例として
開平演算装置を含んでいるため、との類似度が大き
く、また、は故障に対して縮退構成で稼動可能なプロ
セッサの例としてVLIW命令プロセッサを含んでいる
ため、との類似度が大きくなっている。
【0045】和文と英文の特許明細書に関してはと
、と、と、とがそれぞれ対応するが、日
本語の単語を英語の単語に1対1で変換したため、類似
度は大きい値になってはいるが90.0%を越えてはい
ない。1対Nの単語変換に対応できるようシソーラス辞
書を導入すれば改善される。
【0046】図14中の和文用IPCコード検出手段2
19は、文書入力手段202を経由して読み出した特許
明細書が和文のときにIPCコードを検出し、また英文
用IPCコード検出手段220は文書入力手段202を
経由して読み出した特許明細書が英文のときにIPCコ
ードを検出する。IPCコード解析手段221では、照
合する2つの明細書でIPCコードが一致しているかど
うか解析して、結果を出力する。
【0047】なお、図14中の単語記憶手段210に格
納すべき単語と出現回数とを文書記憶手段201の文書
中に含ませるようにしてもよい。
【0048】
【発明の効果】以上説明したように、本発明によれば、
文書の内容に関係せず、内容が似ていない文書に対して
大きい類似度を与える無特徴文書構成要素と、出現回数
の少ない文書構成要素とを類似度及び相違度の算出から
除外したことによって、似ているものと似ていないもの
との類似度、相違度の差が大きくなり、文書照合装置と
しての精度を向上させることができる。また、特に相違
度によって2つの文書がどの程度異なっているかを数値
で表わすことができ、2つの文書が似ていない場合には
類似度が低いだけでなくて相違度が高いことによっても
これを裏付け、2つの文書が似ている場合には類似度が
高いだけでなく、相違度の値によってほとんど同じなの
か、より詳細な記述があるのか、又は別の内容が含まれ
ているのかを推定できるようになる。したがって、本発
明の文書照合装置によれば、例えば特許文献サーチにお
いて担当者間の熟練度の差異を吸収できる等の効果が得
られる。
【0049】また、本発明によれば、異なる言語の間で
は名詞と動詞を対象とし、更に動詞を対応する名詞に変
換して最終的には名詞で類似度、相違度を算出すること
としたので、異言語文書の照合にも適用可能な文書照合
装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る文書照合装置の
構成を示すブロック図である。
【図2】図1中の文書構成要素抽出手段の説明図であ
る。
【図3】図1中の文書構成要素抽出手段による抽出結果
の一例を示す説明図である。
【図4】図1中の無特徴文書構成要素記憶手段の記憶内
容の例を示す説明図である。
【図5】図4に続く説明図である。
【図6】図5に続く説明図である。
【図7】図4〜図6中の無特徴文書構成要素の削除効果
を示す説明図である。
【図8】図1中の記憶用出現回数閾値設定記憶手段を設
けたことによる効果を示す説明図である。
【図9】ある和文特許文献の場合の図1中の文書構成要
素記憶手段の記憶内容の例を示す説明図である。
【図10】ある英文特許文献の場合の図1中の文書構成
要素記憶手段の記憶内容の例を示す説明図である。
【図11】英文特許文献の場合の図1の文書照合装置に
よる類似度の算出例を示す説明図である。
【図12】図1の文書照合装置において、ある2つの英
文特許文献A及びBの相違度の算出に用いられた、一方
の文献Aでの出現回数の方が多い文書構成要素のリスト
を示す説明図である。
【図13】他方の文献Bでの出現回数の方が多い文書構
成要素のリストを示す説明図である。
【図14】本発明の第2の実施形態に係る文書照合装置
の構成を示すブロック図である。
【図15】図14中の和文用単語解析手段及び和文用無
特徴単語記憶手段を用いて照合対象から除外される単語
を示す説明図である。
【図16】図14中の和文用単語解析手段及び和文用単
語計数手段による処理結果の一例を示す説明図である。
【図17】和文及び英文特許文献の場合の図14の文書
照合装置による類似度の算出例を示す説明図である。
【図18】和文及び英文特許文献の場合の図14の文書
照合装置による相違度の算出例を示す説明図である。
【符号の説明】
101 文書記憶手段 102 文書入力手段 103 文書構成要素抽出手段 104 文書構成要素計数手段 105 記憶用出現回数閾値設定記憶手段 106 無特徴文書構成要素記憶手段 107 文書構成要素記憶手段 108 文書構成要素入力手段 109 類似度算出用出現回数閾値設定記憶手段 110 文書類似度算出手段 111 相違度算出用出現回数閾値設定記憶手段 112 文書相違度算出手段 113 IPCコード検出手段 114 IPCコード解析手段 201 文書記憶手段 202 文書入力手段 203 和文用単語解析手段 204 和文用単語計数手段 205 英文用単語解析手段 206 英文用単語計数手段 207 記憶用出現回数閾値設定記憶手段 208 和文用無特徴単語記憶手段 209 英文用無特徴単語記憶手段 210 単語記憶手段 211 単語入力手段 212 和文用動詞名詞変換手段 213 名詞和英変換手段 214 英文用動詞名詞変換手段 215 類似度算出用出現回数閾値設定記憶手段 216 文書類似度算出手段 217 相違度算出用出現回数閾値設定記憶手段 218 文書相違度算出手段 219 和文用IPCコード検出手段 220 英文用IPCコード検出手段 221 IPCコード解析手段

Claims (35)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書を格納する文書記憶手段と、 前記文書記憶手段から文書を入力する文書入力手段と、 前記文書入力手段によって得られた文書から構成要素を
    抽出する文書構成要素抽出手段と、 各々の文書構成要素が文書中に何個含まれているか計数
    する文書構成要素計数手段と、 文書構成要素と出現回数とを組にして記憶する文書構成
    要素記憶手段と、 前記文書構成要素記憶手段から2つの文書に対する、文
    書構成要素とその出現回数とを入力する文書構成要素入
    力手段と、 2つの文書に共通に含まれる文書構成要素の出現回数の
    各々の総和を、各々の文書の全ての文書構成要素の出現
    回数の総和によって除算することにより、各々の文書の
    類似度を算出する類似度算出手段とを備えたことを特徴
    とする文書照合装置。
  2. 【請求項2】 請求項1記載の文書照合装置において、 記憶用出現回数閾値設定記憶手段を更に備え、当該記憶
    用出現回数閾値設定記憶手段から出力される記憶用出現
    回数閾値以上の出現回数を有する文書構成要素と出現回
    数とを前記文書構成要素記憶手段に記憶することを特徴
    とする文書照合装置。
  3. 【請求項3】 請求項1記載の文書照合装置において、 類似度算出用出現回数閾値設定手段を更に備え、前記文
    書構成要素入力手段から文書構成要素と出現回数とを入
    力して前記類似度算出手段で類似度を算出するときに、
    類似度算出用出現回数閾値未満の出現回数を有する文書
    構成要素を類似度の算出に使用しないことを特徴とする
    文書照合装置。
  4. 【請求項4】 請求項1記載の文書照合装置において、 無特徴文書構成要素記憶手段を更に備え、文書構成要素
    が当該無特徴文書構成要素記憶手段に格納されていると
    きには前記文書構成要素記憶手段に当該文書構成要素と
    出現回数とを格納しないことを特徴とする文書照合装
    置。
  5. 【請求項5】 請求項1記載の文書照合装置において、 無特徴文書構成要素記憶手段を更に備え、文書構成要素
    が当該無特徴文書構成要素記憶手段に格納されていると
    きには前記類似度算出手段での類似度の算出において当
    該文書構成要素と出現回数とを使用しないことを特徴と
    する文書照合装置。
  6. 【請求項6】 請求項1記載の文書照合装置において、 2つの文書の相違度を算出するときに対象となる文書構
    成要素の出現回数閾値を与えるための相違度算出用出現
    回数閾値設定記憶手段と、 2つの文書に含まれる文書構成要素の出現回数の差が前
    記相違度算出用出現回数閾値設定記憶手段から与えられ
    る値以上の文書構成要素についての差を、それぞれ当該
    文書構成要素を多く含んでいる方の文書に振り当てて総
    和をとり、当該総和を各々の文書の全ての文書構成要素
    の出現回数の総和によって除算することにより、各々の
    文書の相違度を算出する相違度算出手段とを更に備えた
    ことを特徴とする文書照合装置。
  7. 【請求項7】 請求項6記載の文書照合装置において、 無特徴文書構成要素記憶手段を更に備え、文書構成要素
    が当該無特徴文書構成要素記憶手段に格納されていると
    きには前記相違度算出手段での相違度の算出において当
    該文書構成要素と出現回数とを使用しないことを特徴と
    する文書照合装置。
  8. 【請求項8】 請求項1記載の文書照合装置において、 照合する2つの文書は特許明細書であり、 前記文書入力手段を経由して読み出した特許明細書から
    国際特許分類(IPC)コードを検出する手段と、 2つの文書に同一IPCコードが含まれているかどうか
    を検出するIPCコード解析手段とを更に備えたことを
    特徴とする文書照合装置。
  9. 【請求項9】 複数の文書を格納する文書記憶手段と、 前記文書記憶手段から文書を入力する文書入力手段と、 前記文書入力手段によって得られた文書から構成要素を
    抽出する文書構成要素抽出手段と、 各々の文書構成要素が文書中に何個含まれているか計数
    する文書構成要素計数手段と、 文書構成要素と出現回数とを組にして記憶する文書構成
    要素記憶手段と、 前記文書構成要素記憶手段から2つの文書に対する、文
    書構成要素とその出現回数とを入力する文書構成要素入
    力手段と、 2つの文書の相違度を算出するときに対象となる文書構
    成要素の出現回数閾値を与えるための相違度算出用出現
    回数閾値設定記憶手段と、 2つの文書に含まれる文書構成要素の出現回数の差が前
    記相違度算出用出現回数閾値設定記憶手段から与えられ
    る値以上の文書構成要素についての差を、それぞれ当該
    文書構成要素を多く含んでいる方の文書に振り当てて総
    和をとり、当該総和を各々の文書の全ての文書構成要素
    の出現回数の総和によって除算することにより、各々の
    文書の相違度を算出する相違度算出手段とを備えたこと
    を特徴とする文書照合装置。
  10. 【請求項10】 請求項9記載の文書照合装置におい
    て、 記憶用出現回数閾値設定記憶手段を更に備え、当該記憶
    用出現回数閾値設定記憶手段から出力される記憶用出現
    回数閾値以上の出現回数を有する文書構成要素と出現回
    数とを前記文書構成要素記憶手段に記憶することを特徴
    とする文書照合装置。
  11. 【請求項11】 請求項9記載の文書照合装置におい
    て、 無特徴文書構成要素記憶手段を更に備え、文書構成要素
    が当該無特徴文書構成要素記憶手段に格納されていると
    きには前記文書構成要素記憶手段に当該文書構成要素と
    出現回数とを格納しないことを特徴とする文書照合装
    置。
  12. 【請求項12】 請求項9記載の文書照合装置におい
    て、 無特徴文書構成要素記憶手段を更に備え、文書構成要素
    が当該無特徴文書構成要素記憶手段に格納されていると
    きには前記相違度算出手段での相違度の算出において当
    該文書構成要素と出現回数とを使用しないことを特徴と
    する文書照合装置。
  13. 【請求項13】 請求項9記載の文書照合装置におい
    て、 照合する2つの文書は特許明細書であり、 前記文書入力手段を経由して読み出した特許明細書から
    国際特許分類(IPC)コードを検出する手段と、 2つの文書に同一IPCコードが含まれているかどうか
    を検出するIPCコード解析手段とを更に備えたことを
    特徴とする文書照合装置。
  14. 【請求項14】 複数の文書を格納する文書記憶手段
    と、 前記文書記憶手段から文書を入力する文書入力手段と、 前記文書入力手段によって得られた文書から単語とその
    品詞を解析する単語解析手段と、 品詞情報を複数持つ単語については品詞情報毎に、各々
    の単語が文書中に何個含まれているか計数する単語計数
    手段と、 単語と品詞情報と出現回数とを組にして記憶する単語記
    憶手段と、 前記単語記憶手段から2つの文書に対する、単語と品詞
    情報と出現回数とを入力する単語入力手段と、 2つの文書に共通に含まれかつ品詞情報が一致している
    単語の出現回数の各々の総和を、各々の文書の全ての単
    語の出現回数の総和によって除算することにより、各々
    の文書の類似度を算出する類似度算出手段とを備えたこ
    とを特徴とする文書照合装置。
  15. 【請求項15】 請求項14記載の文書照合装置におい
    て、 記憶用出現回数閾値設定記憶手段を更に備え、当該記憶
    用出現回数閾値設定記憶手段から出力される記憶用出現
    回数閾値以上の出現回数を有する単語と品詞情報と出現
    回数とを前記単語記憶手段に記憶することを特徴とする
    文書照合装置。
  16. 【請求項16】 請求項14記載の文書照合装置におい
    て、 類似度算出用出現回数閾値設定手段を更に備え、前記単
    語入力手段から単語と出現回数とを入力して前記類似度
    算出手段で類似度を算出するときに、類似度算出用出現
    回数閾値未満の出現回数を有する単語を類似度の算出に
    使用しないことを特徴とする文書照合装置。
  17. 【請求項17】 請求項14記載の文書照合装置におい
    て、 無特徴単語記憶手段を更に備え、単語が当該無特徴単語
    記憶手段に格納されているときには前記単語記憶手段に
    当該単語と出現回数とを格納しないことを特徴とする文
    書照合装置。
  18. 【請求項18】 請求項14記載の文書照合装置におい
    て、 無特徴単語記憶手段を更に備え、単語が当該無特徴単語
    記憶手段に格納されているときには前記類似度算出手段
    での類似度の算出において当該単語と出現回数とを使用
    しないことを特徴とする文書照合装置。
  19. 【請求項19】 請求項14記載の文書照合装置におい
    て、 照合する2つの文書は特許明細書であり、 前記文書入力手段を経由して読み出した特許明細書から
    国際特許分類(IPC)コードを検出する手段と、 2つの文書に同一IPCコードが含まれているかどうか
    を検出するIPCコード解析手段とを更に備えたことを
    特徴とする文書照合装置。
  20. 【請求項20】 請求項14記載の文書照合装置におい
    て、 異なる言語間の名詞変換手段を更に備え、照合する2つ
    の文書が異なる言語で記述されているときには、前記類
    似度算出手段で類似度を算出する前に、前記単語記憶手
    段から出力された単語に付加された品詞情報から名詞と
    動詞以外は類似度の算出の対象外とするとともに、 動詞名詞変換手段を更に備え、動詞は対応する名詞に変
    換し、名詞の出現回数を修正加算したあと、一方の文書
    に含まれている単語を他方の言語に変換して類似度を算
    出することを特徴とする文書照合装置。
  21. 【請求項21】 請求項14記載の文書照合装置におい
    て、 動詞名詞変換手段を更に備え、名詞と動詞のときのみ、
    かつ動詞は対応する名詞に変換し、名詞の出現回数を修
    正加算したあと、前記単語記憶手段に格納することを特
    徴とする文書照合装置。
  22. 【請求項22】 請求項21記載の文書照合装置におい
    て、 異なる言語間の名詞変換手段を更に備え、照合する2つ
    の文書が異なる言語で記述されているときには、前記類
    似度算出手段で類似度を算出する前に、前記単語記憶手
    段から出力された一方の文書に含まれている単語を他方
    の言語に変換することを特徴とする文書照合装置。
  23. 【請求項23】 請求項14記載の文書照合装置におい
    て、 2つの文書の相違度を算出するときに対象となる単語の
    出現回数閾値を与えるための相違度算出用出現回数閾値
    設定記憶手段と、 2つの文書に含まれかつ品詞情報が一致している単語の
    出現回数の差が前記相違度算出用出現回数閾値設定記憶
    手段から与えられる値以上の単語についての差を、それ
    ぞれ当該単語を多く含んでいる方の文書に振り当てて総
    和をとり、当該総和を各々の文書の全ての単語の出現回
    数の総和によって除算することにより、各々の文書の相
    違度を算出する相違度算出手段とを更に備えたことを特
    徴とする文書照合装置。
  24. 【請求項24】 請求項23記載の文書照合装置におい
    て、 無特徴単語記憶手段を更に備え、単語が当該無特徴単語
    記憶手段に格納されているときには前記相違度算出手段
    での相違度の算出において当該単語と出現回数とを使用
    しないことを特徴とする文書照合装置。
  25. 【請求項25】 請求項23記載の文書照合装置におい
    て、 異なる言語間の名詞変換手段を更に備え、照合する2つ
    の文書が異なる言語で記述されているときには、前記相
    違度算出手段で相違度を算出する前に、前記単語記憶手
    段から出力された単語に付加された品詞情報から名詞と
    動詞以外は相違度の算出の対象外とするとともに、 動詞名詞変換手段を更に備え、動詞は対応する名詞に変
    換し、名詞の出現回数を修正加算したあと、一方の文書
    に含まれている単語を他方の言語に変換して相違度を算
    出することを特徴とする文書照合装置。
  26. 【請求項26】 請求項23記載の文書照合装置におい
    て、 動詞名詞変換手段を更に備え、名詞と動詞のときのみ、
    かつ動詞は対応する名詞に変換し、名詞の出現回数を修
    正加算したあと、前記単語記憶手段に格納することを特
    徴とする文書照合装置。
  27. 【請求項27】 請求項26記載の文書照合装置におい
    て、 異なる言語間の名詞変換手段を更に備え、照合する2つ
    の文書が異なる言語で記述されているときには、前記相
    違度算出手段で相違度を算出する前に、前記単語記憶手
    段から出力された一方の文書に含まれている単語を他方
    の言語に変換することを特徴とする文書照合装置。
  28. 【請求項28】 複数の文書を格納する文書記憶手段
    と、 前記文書記憶手段から文書を入力する文書入力手段と、 前記文書入力手段によって得られた文書から単語とその
    品詞を解析する単語解析手段と、 品詞情報を複数持つ単語については品詞情報毎に、各々
    の単語が文書中に何個含まれているか計数する単語計数
    手段と、 単語と品詞情報と出現回数とを組にして記憶する単語記
    憶手段と、 前記単語記憶手段から2つの文書に対する、単語と品詞
    情報と出現回数とを入力する単語入力手段と、 2つの文書の相違度を算出するときに対象となる単語の
    出現回数閾値を与えるための相違度算出用出現回数閾値
    設定記憶手段と、 2つの文書に含まれかつ品詞情報が一致している単語の
    出現回数の差が前記相違度算出用出現回数閾値設定記憶
    手段から与えられる値以上の単語についての差を、それ
    ぞれ当該単語を多く含んでいる方の文書に振り当てて総
    和をとり、当該総和を各々の文書の全ての単語の出現回
    数の総和によって除算することにより、各々の文書の相
    違度を算出する相違度算出手段とを備えたことを特徴と
    する文書照合装置。
  29. 【請求項29】 請求項28記載の文書照合装置におい
    て、 記憶用出現回数閾値設定記憶手段を更に備え、当該記憶
    用出現回数閾値設定記憶手段から出力される記憶用出現
    回数閾値以上の出現回数を有する単語と品詞情報と出現
    回数とを前記単語記憶手段に記憶することを特徴とする
    文書照合装置。
  30. 【請求項30】 請求項28記載の文書照合装置におい
    て、 無特徴単語記憶手段を更に備え、単語が当該無特徴単語
    記憶手段に格納されているときには前記単語記憶手段に
    当該単語と出現回数とを格納しないことを特徴とする文
    書照合装置。
  31. 【請求項31】 請求項28記載の文書照合装置におい
    て、 無特徴単語記憶手段を更に備え、単語が当該無特徴単語
    記憶手段に格納されているときには前記相違度算出手段
    での相違度の算出において当該単語と出現回数とを使用
    しないことを特徴とする文書照合装置。
  32. 【請求項32】 請求項28記載の文書照合装置におい
    て、 照合する2つの文書は特許明細書であり、 前記文書入力手段を経由して読み出した特許明細書から
    国際特許分類(IPC)コードを検出する手段と、 2つの文書に同一IPCコードが含まれているかどうか
    を検出するIPCコード解析手段とを更に備えたことを
    特徴とする文書照合装置。
  33. 【請求項33】 請求項28記載の文書照合装置におい
    て、 異なる言語間の名詞変換手段を更に備え、照合する2つ
    の文書が異なる言語で記述されているときには、前記相
    違度算出手段で相違度を算出する前に、前記単語記憶手
    段から出力された単語に付加された品詞情報から名詞と
    動詞以外は相違度の算出の対象外とするとともに、 動詞名詞変換手段を更に備え、動詞は対応する名詞に変
    換し、名詞の出現回数を修正加算したあと、一方の文書
    に含まれている単語を他方の言語に変換して相違度を算
    出することを特徴とする文書照合装置。
  34. 【請求項34】 請求項28記載の文書照合装置におい
    て、 動詞名詞変換手段を更に備え、名詞と動詞のときのみ、
    かつ動詞は対応する名詞に変換し、名詞の出現回数を修
    正加算したあと、前記単語記憶手段に格納することを特
    徴とする文書照合装置。
  35. 【請求項35】 請求項34記載の文書照合装置におい
    て、 異なる言語間の名詞変換手段を更に備え、照合する2つ
    の文書が異なる言語で記述されているときには、前記相
    違度算出手段で相違度を算出する前に、前記単語記憶手
    段から出力された一方の文書に含まれている単語を他方
    の言語に変換することを特徴とする文書照合装置。
JP2002159177A 2001-07-12 2002-05-31 文書照合装置 Expired - Lifetime JP3719666B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002159177A JP3719666B2 (ja) 2001-07-12 2002-05-31 文書照合装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001211632 2001-07-12
JP2001-211632 2001-07-12
JP2002159177A JP3719666B2 (ja) 2001-07-12 2002-05-31 文書照合装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005085434A Division JP3830503B2 (ja) 2001-07-12 2005-03-24 文書照合装置

Publications (2)

Publication Number Publication Date
JP2003091557A true JP2003091557A (ja) 2003-03-28
JP3719666B2 JP3719666B2 (ja) 2005-11-24

Family

ID=26618572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002159177A Expired - Lifetime JP3719666B2 (ja) 2001-07-12 2002-05-31 文書照合装置

Country Status (1)

Country Link
JP (1) JP3719666B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008541272A (ja) * 2005-05-09 2008-11-20 プロビラ,インク. 署名生成および関連性を有するマッチングエンジン
US8171002B2 (en) 2005-05-09 2012-05-01 Trend Micro Incorporated Matching engine with signature generation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554037A (ja) * 1991-08-28 1993-03-05 Fujitsu Ltd 文書分類方式
JPH09218879A (ja) * 1996-02-08 1997-08-19 Fuji Xerox Co Ltd 文書間類似度データ計算装置
JP2001134599A (ja) * 1999-11-08 2001-05-18 Nippon Telegr & Teleph Corp <Ntt> データベースの検索方法とその装置並びにデータベースの検索プログラムを記録した記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554037A (ja) * 1991-08-28 1993-03-05 Fujitsu Ltd 文書分類方式
JPH09218879A (ja) * 1996-02-08 1997-08-19 Fuji Xerox Co Ltd 文書間類似度データ計算装置
JP2001134599A (ja) * 1999-11-08 2001-05-18 Nippon Telegr & Teleph Corp <Ntt> データベースの検索方法とその装置並びにデータベースの検索プログラムを記録した記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008541272A (ja) * 2005-05-09 2008-11-20 プロビラ,インク. 署名生成および関連性を有するマッチングエンジン
US8171002B2 (en) 2005-05-09 2012-05-01 Trend Micro Incorporated Matching engine with signature generation

Also Published As

Publication number Publication date
JP3719666B2 (ja) 2005-11-24

Similar Documents

Publication Publication Date Title
US7010515B2 (en) Text comparison apparatus
US7269544B2 (en) System and method for identifying special word usage in a document
Srihari et al. Infoxtract: A customizable intermediate level information extraction engine
JP2742115B2 (ja) 類似文書検索装置
EP3016002A1 (en) Non-factoid question-and-answer system and method
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
Venkatapathy et al. Measuring the relative compositionality of verb-noun (VN) collocations by integrating features
US7475005B2 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
KR100481580B1 (ko) 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
JP5564705B2 (ja) 文構造解析装置、文構造解析方法および文構造解析プログラム
Akram et al. Word segmentation for Urdu OCR system
Nagalavi et al. N-gram Word prediction language models to identify the sequence of article blocks in English e-newspapers
Onyenwe et al. Toward an effective igbo part-of-speech tagger
Panahandeh et al. Correction of spaces in Persian sentences for tokenization
JP3719666B2 (ja) 文書照合装置
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
JP3830503B2 (ja) 文書照合装置
Taghva et al. Farsi searching and display technologies
JP2004280316A (ja) 分野判定装置及び言語処理装置
JP3752535B2 (ja) 訳語選択装置、及び翻訳装置
Minn et al. Myanmar word stemming and part-of-speech tagging using rule based approach
JPH08115330A (ja) 類似文書検索方法および装置
Amami et al. A framework for biological event extraction from text

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050902

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080916

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100916

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110916

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120916

Year of fee payment: 7