JPH06110948A

JPH06110948A - 文献を識別し、検索し、分類する方法

Info

Publication number: JPH06110948A
Application number: JP4301549A
Authority: JP
Inventors: Marc Damashek; ダマシエクマ−ク
Original assignee: Government of the United States of America
Current assignee: Government of the United States of America
Priority date: 1992-08-20
Filing date: 1992-10-15
Publication date: 1994-04-22
Anticipated expiration: 2015-10-03
Also published as: US5418951A; DE4232507A1; FR2694984B1; NL194809B; JP3095552B2; NL9201684A; FR2694984A1; NL194809C; GB9220404D0

Abstract

(57)【要約】【目的】与えられた文献の記載言語を識別する方法を
提供する。【構成】既知言語の参照文献の文字をｎ個づつ、例え
ば２個づつに分解（これをｎ−グラムという）して、ｎ
−グラム列を作り、また未識別文献についても同じくｎ
−グラムに分解する。各ｎ−グラムに対し、ウェ−トを
割当て、参照文献相互に含まれる共通性を示す要因、及
び各未識別文献の共通性を示す要因を数値化し、ｎ−グ
ラムから共通性を除去する。未識別文献を既知言語の各
参照文献と比較し、類似性の程度を示す点数を演算し、
類似性の点数に基づいて、未識別言語が既知言語の何で
あるかを識別する。この方法は文献又は論題を識別し、
検索し、又は分類する方法に適用できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は文献検索方法、特に、キ
−ワ−ド又は文脈に基づく情報によらずに、全テキスト
の検索を可能にする文献検索方法に関する。この方法
は、文献の論題（トピック）又は言語により文献を識別
し、検索し、かつ分類することに用いることができる。
また、この方法は、音響信号（例えば、スピ−チ）、及
び機械読み取り可能の形式で表現することができるグラ
フ状シンボル（例えば、絵）のような、如何なる形式の
コミユニケ−シヨンであつても、その識別、検索、及び
分類に用いることが可能である。

【０００２】

【従来の技術】１９９２年２月４日発行の“エレクトロ
ニツクエンジニアリングタイムズ”誌（Ｅｌｅｃｔ
ｒｏｎｉｃＥｎｇｉｎｅｅｒｉｎｇＴｉｍｅｓ）に
おけるＲ．ＣｏｌｉｎＪｏｈｎｓｏｎ氏の論文“ダパ
− アイズ・スマ−ト・テキストシフタ−ズ（ＤＡＰ
ＰＡＥｙｅｓＳｍａｒｔＴｅｘｔＳｉｆｔｅｒ
ｓ”第３５頁に、使用者に関する文献を検索するための
テキスト状のデ−タベ−スをサ−チするより良い方法を
発見するために、広汎な研究努力が費されたことが指摘
されてた。意味のある困難解決を実現する過程におい
て、いくつかの基本的問題のあることが指摘された。

【０００３】サ−チを改善する１つの技術は、情報をよ
り速く処理できる特殊のハ−ドウエアを開発することで
あつた。このアプロ−チにおける問題は、処理速度の改
善が、デ−タベ−ス情報の拡大する割合にスペ−スを合
わせることができないことであつた。膨大なデ−タベ−
スから情報を取出す方法を改善するためには、基本的な
理論的な解決が必要であることが述べられている。

【０００４】従来の情報検索システムは、所要の文献を
識別するために未だにキ−ワ−ドやオペレ−タ（操作
子）付きの句（例えば、アンド（ａｎｄ）、オア（ｏ
ｒ）、ノツト（ｎｏｔ））を用いることを基礎としてい
る。この技術の問題点は、文献がキ−ワ−ド自体［例え
ば、車（ｃａｒ）と自動車（ａｕｔｏｍｏｂｉｌ
ｅ）］、或いはキ−ワ−ドの変形［例えば、検索する
（ｒｅｔｒｉｅｂｉｎｇ）と検索（ｒｅｔｒｉｅｖ
ｅ）］よりも、むしろキ−ワ−ドの同義語を含むことが
あるということである。

【０００５】このようなシステムは、入力段階において
文字の綴り、又はデ−タ伝送の間違いに非常に敏感であ
るということである。また、オペレ−タ（操作子）を用
いることは困難である。その他の問題は、適当なキ−ワ
−ド識別、適当な同義語の識別、不十分で、膨大な及び
／又は無関係な文献の検索を包含することである。これ
らの問題を避けるために典型的には、膨大な同義語の表
が用いられる。しかし、この方法はメモリの必要性を増
大し、処理時間を遅らせることになる。

【０００６】その他のキ−ワ−ドサ−チの問題は、キ−
ワ−ドの意味が、通常、そのキ−ワ−ドの用いられる文
脈に依存することである。このため、キ−ワ−ドの使用
される文脈についての指示なしでは、必要としない文献
を検索してしまう機会が大きくなる。前述した従来の文
献検索のアプロ−チの問題点を克服するため、文脈ベク
トル、概念グラフ、意味論ネツトワ−ク、推論ネツトワ
−クなどの手法を使用した文脈の情報をサ−チに加える
ことが試みられてきた。

【０００７】これらの手法は、メモリの必要性や処理時
間を増大させる。また、文脈情報を追加することは、訓
練された個人による多大の時間を要する仕事でもある。

【０００８】Ｇ．Ｓａｌｔｏｎ及びＣ．Ｂｕｃｋｌｅｙ
の論文“情報検索のためのグロ−バルテキストマツ
チング”、サイエンス誌Ｖｏｌ．２５３、１９９１年
８月３０日発行、１０１２−１０１５頁には、同義語を
使用するテキスト解析はやつかいなもので、知識ベ−ス
によるテキスト解析は複雑であると述べている。またこ
の論文は、テキストの理解は文脈とテキストの部分の識
別（すなわちテキストのセクション、センテンスのパラ
グラフ）に基礎をおかねばならないと述べている。

【０００９】Ｇ．Ｓａｌｔｏｎの論文“自動テキスト検
索の発展”、サイエンス誌Ｖｏｌ．２５３、１９９１
年８月３０日発行、９７４−９８０頁には、文献検索の
現状が要約されている。これには、巨大なデ−タベ−ス
から関心のある文献のみを検索する必要があるからテキ
ストの解析は問題であると述べている。この問題の典型
的な解決は、内容識別子を創生することであつた。これ
は、単語の使用されている文脈を考慮することなしに辞
書を引くだけでは、単語の意味が適切に決定できないか
らである。この論文には、テキスト中の単語が文脈の識
別にも使用することができることが述べられている。こ
のような検索システムは、全テキスト検索システムとし
て定義されている。１９７９年４月発行のパタ−ン解析
と機械知能の関するＩＥＥＥ論文集、Ｖｏｌ．ＰＡＭＩ
−１、Ｎｏ．２に掲載された、Ｃ．Ｓｕｅｎの論文“自
然言語の理解とテキスト処理のためのｎ−グラム統計”
には、自然言語を処理する２つの方法が記載されたい
る。１つはキ−ワ−ドと辞書を用いる方法であり、もう
１つはｎ−グラムを使用する方法である。キ−ワ−ドに
よるアプロ−チにおいては、単語が比較される。ｎ−グ
ラムを使用するアプロ−チにおいては、文字列が比較さ
れる。文字列を比較する方法は、キ−ワ−ドや辞書を用
いる方法より迅速で、必要とするメモリはより小さい。

【００１０】米国特許第５，０２０，０１９号、発明の
名称“文献検索システム”には、それ以前のサ−チ結果
に応答して、異なるキ−ワ−ドにウェ−トを付けること
を使用者に認める学習機能を持つたキ−ワ−ドを使用す
る文献サ−チシステムが記載されている。本発明はキ−
ワ−ドによるアプロ−チは用いていない。

【００１１】米国特許第４，９８５，８６３号、発明の
名称“文献の蓄積と検索”には、文献をセクシヨン毎に
蓄積する方法が記載されている。キ−ワ−ドでなく、テ
キストのセクシヨンが、類似文献の検索に用いられてい
る。本発明は、キ−ワ−ド又はセクシヨンによるアプロ
−チを行なうものではない。

【００１２】米国特許第４，８４９，８９８号、発明の
名称“テキストの表現における単語間の意味の関係を識
別する方法と装置”には、キ−ワ−ドと単語が、同じこ
とを意味するか否かを決定するために、文献のキ−ワ−
ドと単語の文字−意味論的解析を使用する方法が記載さ
れている。この方法は、キ−ワ−ドと同じ論題（トピッ
ク）を取扱う文献、又は文献の部分を検索するために用
いられる。本発明は意味論的解析手法を用いるものでは
ない。

【００１３】

【本発明の目的】本発明の目的は、与えられた文献の記
載言語を識別する方法を提供することである。

【００１４】本発明の他の目的は、論題（トピック）の
デ−タベ−スから、特定の言語の文献を検索する方法を
提供することである。

【００１５】本発明の更に他の目的は、デ−タベ−ス中
の文献を、言語により分類する方法を提供することであ
る。

【００１６】本発明の更に他の目的は、デ−タベ−ス中
の文献を、論題により分類する方法を提供することであ
る。

【００１７】これら目的は、文献の識別、検索及び分類
に対する新しいアプロ−チによつて達成される。ここで
文献という用語は、機械読み取り可能のテキスト、スピ
−チ又はグラフを指す。本発明は、従来のキ−ワ−ド又
は文脈に基づくアプロ−チに代え、文献間のｎ−グラム
比較に基づくパタ−ン認識技術を使用するものである。
デ−タベ−ス文献の共通性の除去は、（キ−ワ−ド及び
辞書による方法に比較して）メモリについての要求を減
少させることを許容する一方、文献間の繊細な識別と、
処理の増大をもたらす。使用者は、文献が類似か否かを
決定するために使用する閾値を設定することができる。

【００１８】

【実施例】本発明は文献を識別し、サ−チし、かつ分類
する方法である。この方法は言語の識別、論題の識別、
文献検索及び文献分類ための敏感で、迅速で、経済的な
方法をもたらす。本明細書及びクレ−ムを通して、文献
という用語は、機械読み取り可能な形式における情報の
セツトを言及するために用いられる。文献はテキスト、
スピ−チ又はグラフからなるものとすることができる。

【００１９】本発明の方法は、たとえ文献が日本語のよ
うな表意文字（象形文字）であつても、文献の論題を識
別するような困難な仕事を実行するため、如何なるプロ
グラミング言語、又はハ−ドウエアにも容易に適用する
ことができる。本方法は、デ−タベ−ス内の文献を、そ
の中に包含されるカテゴリ−又は文献を前もつて識別す
る必要なしに、望むカテゴリ−に分類するためにも用い
ることができる。

【００２０】キ−ワ−ド、同義語の表、又は文脈の情報
に頼ることなく、本発明の目的はパタ−ン認識技術によ
り達成される。本発明は、言語、及び／又は似たように
見える論題において類似する文献には、多数の同じｎ−
グラム（すなわち、ｎ個の連続した文字列）を包含する
傾向があるという仮説に基いている。

【００２１】これら文献は、キ−ワ−ドにおいてのみで
なく、使用されるすべての用語において似たようにみえ
るのである。この仮説は、ある文献中に含まれるｎ−グ
ラムを数え、別の文献（参照文献）内に包含される数え
あげられたｎ−グラムの数と処理した結果を比較するこ
とにより、前記のある文献の論理を確実に推論すること
ができるという驚くべき結論を示唆するものである。

【００２２】この方法の実施は、関連文献を識別するた
めに用いられるサ−チアルゴリズムの単純化を許容す
る。これらの単純化は、文献の言語に関係なく文献を分
類する能力に影響する結果となる。

【００２３】原文のテキスト内の高いエラ−（“ｇａｒ
ｂｌｅ”）率も、寛大に扱われる。非類似の言語に対す
る最大の許容エラ−率は、類似の言語に対する最大の許
容エラ−率よりも大きい。例えば、ロシア語のテキスト
の最大の許容エラ−率をチエコ語のテキストと比較した
とき、エラ−結果をもたらすことなしに、許容エラ−率
は僅か１５％の高さであるに対し、スワヒリ語のテキス
トに対する最大の許容エラ−率をスウエ−デン語のテキ
ストと比較したとき、エラ−結果をもたらすことなし
に、許容エラ−率は２５％の高さである。

【００２４】図１は言語識別アルゴリズムの概略を示
す。第１のステツプは、未識別の言語で書かれたテキス
トをｎ−グラムに分解することから成る。ｎ−グラム
は、ｎ個の連続した文字の列である。ここで、ｎはゼロ
（０）より大きい任意の正の整数である。

【００２５】適度に長いｎ−グラム（例えば、ｎ＞３）
は、より短いｎ−グラムよりも情報が多い。前者はテキ
スト中にある単語の根源についての情報を具体化する傾
向にあるからである。

【００２６】第２のステツプは、既知の言語のテキスト
内のｎ−グラムの発生する頻度を、未識別テキスト内の
ｎ−グラムの発生する頻度と比較することである。この
結果、未識別のテキストは、未識別のテキストが最も良
く比較されるテキストの言語により記述されていると識
別される。

【００２７】許容し得るｎ−グラムの文字は使用者（ユ
−ザ）によつて決定される。例えば、特定の言語に対す
るｎ−グラム要素は、関心ある言語に対するアルフアベ
ツトの文字及びスペ−スに制限することができる。小文
字は大文字に代えることができ、可能なｎ−グラムの全
数を減少するため、多重スペ−スは、単一スペ−スに減
らすことができる。句読点も、メモリの必要性を最少限
にし実施を効率化するため、無視することができる。

【００２８】文字列も、使用者が定めた文字又は文字列
によつて、除去又は置き換えることができる。

【００２９】図２は文献の言語、論題などを識別するに
有用なアルゴリズムの概略を示す。主要なステツプを簡
単に図示したこの例により、以下にアルゴリズムの説明
をする。

【００３０】違つた言語又は論題の知られた文献のサン
プルが参照文献として集められる。これらの参照文献が
とる形式には制限はない。如何なる出所からのサンプル
テキストでも用いられる。参照文献の数、及びこれらの
文献に含まれるｎ−グラムの数は、統計上十分な数がな
ければならない。言語識別のためには、それぞれが約１
万の文字をもつ約１０件の文献が、統計上十分なサンプ
ルの大きさであることが経験的に決定されている。言語
識別よりも細かい区別である特定の言語内の論題識別に
は、それぞれが約１０００の文字をもつ５０の文献が、
統計上十分なサンプルの大きさである。

【００３１】参照文献はｎ−グラムに分解される。この
分解は、各参照文献について、その参照文献内で発生す
るすべてのユニ−クなｎ−グラムの個々のリストを作る
ことによつて達成される（ここで、ｎは有用なある値が
代表値として決定される、例えばｎ＝５）。未識別文献
も、ユニ−クなｎ−グラムのリストに分解される。

【００３２】各ユニ−クなｎ−グラムに対して、ウェ−
ト（重み）が割当てられる。このウェ−トは、特定の参
照文献におけるｎ−グラムの発生する相対的頻度により
決定される（すなわち、相対的頻度とは、ある特定の参
照文献における、ある１つのｎ−グラムが発生する度数
を、その参照文献内におけるすべてのｎ−グラムの発生
する総合計数で割つた値である）。ウェ−トは、各参照
文献における各ｎ−グラムと、未識別文献における各ｎ
−グラムとに割当てられる。

【００３３】次に、参照文献間の共通性が参照文献から
除去され、同様に未識別文献からも除去される。これ
は、まず、第１に、参照文献間のユニ−クなｎ−グラム
のリストを作ることにより行なわれる。第２に、共通性
ウェ−トが、その平的相対発生頻度に基づいて、特定の
参照文献におけるそれぞれのユニ−クなｎ−グラムに割
当てられる（すなわち、共通性ウェ−トとは、全参照文
献について１つのｎ−グラムに割当てられた個々のウェ
−トの合計を全参照文献数で割つた値である）。次い
で、各ｎ−グラムの共通性ウェ−トが、各参照文献の対
応するｎ−グラムのウェ−トと、未識別文献内の対応す
るｎ−グラムのウェ−トから差引かれる。

【００３４】それから、未識別文献が各参照文献と比較
される。これは各参照文献に対して未確認文献に点数を
付けることにより行なわれる。参照文献に対する未識別
文献の点数は、２つの文献間の類似性の程度を示すもの
となる。

【００３５】未識別文献の点数付けは、まず、上述した
ように、参照文献から導き出した共通性ウェ−トを、未
識別文献内の対応するｎ−グラムのウェ−トから差引い
て決定する。もし、ｎ−グラムが未識別文献に現れて参
照文献に現われないならば、そのｎ−グラムに対する共
通性ウエ−トはゼロに等しい。未識別文献（以下、Ｕｉ
という）の共通性を除去した各ｎ−グラムのウェ−ト
は、参照文献（以下、Ｒｉという）内の対応するｎ−グ
ラムの共通性を除去したｎ−グラムのウェ−トに掛けら
れ、これらの積は合計される（すなわち、“積の合計”
である）。

【００３６】この演算式は、以下の式（１）で表され
る。

【００３７】

【数１】参照文献における共通性を除去した各ｎ−グラムのウェ
−トは、２乗される（すなわち、Ｒｉ＊＊２）。次い
で、これら２乗した値は合計される。未識別文献中の共
通性を除去した各ｎ−グラムのウェ−トは２乗される
（すなわち、Ｕｉ＊＊２）。次いで、これら２乗した値
は合計される。これら２つの合計値は“合計値の積”を
形成するために掛けられる。

【００３８】この演算式は、以下の式（２）で表され
る。

【００３９】

【数２】最後に、“積の合計”を“合計値の積”の平方根で割つ
て、特定の参照文献に対する未識別文献の点数を得る。

【００４０】この演算式は、以下の式（３）で表わされ
る。

【００４１】

【数３】未識別文献には各参照文献に対して点数が与えられる。
使用者は、ある文献が、言語又は論題に関して参照文献
に類似することを識別するために、必要な閾値を決める
ことができる。使用者が決めた閾値が使用されるとき、
未識別文献が各参照文献のどれにも類似すると識別され
ない可能性がある。使用者はこの閾値を、未識別文献が
最高の点数を生じた参照文献と識別されるべきことを許
容することにより、この閾値の設定を避けることができ
る。

【００４２】以下の例は本発明に含まれる数値ステツプ
を示す。これら例はアルゴリズムの個々のステツプの適
切な例であることを意図したもので、クレ−ムされた発
明についての制限と考えてはならない。

【００４３】

【表１】表１はグリ−ンランド語の参照文献（すなわち、“Ｎａ
ｎｏｋｎｕｎａｎｅｉｓｓｉｇｔｕｎｅ”）を示す。
このサンプルの前処理は必要ない。このサンプルにおい
ては、２−グラムが用いられる。有り得ると考えられる
２−グラムの数を減らすため、小文字は大文字にされ、
多重のスペ−スは単一のスペ−ス（すなわち、“＿”）
に減らされる。かくして、グリ−ンランド語の参照文献
は、“ＮＡＮＯＫ＿ＮＵＮＡＮＥ＿ＩＳＳＩＧＴＵＮ
Ｅ”となる。

【００４４】グリ−ンランド語の文献のすべてのユニ−
クな２−グラムは表１に示される。それらは、ＮＡ，Ａ
Ｎ，ＮＯ，ＯＫ，Ｋ＿，＿Ｎ，ＮＵ，ＵＮ，ＮＥ，Ｅ
＿，＿Ｉ，ＩＳ，ＳＳ，ＳＩ，ＩＧ，ＧＴ，ＴＵ，であ
る。これら２−グラムの各々に対しウェ−トが付され
る。２−グラムのウェ−トは、特定の２−グラムの発生
頻度を、その参照文献中にある２−グラム（多分、非ユ
ニ−ク）の合計数により割ることによつて決定される
（すなわち、２−グラムのＮＡのウェ−トは２／２１＝
０．０９５である）。

【００４５】

【表２】表２はハワイ語（すなわち、“Ｉｈｅｌｅｍａｉ
ｎｅｉａｕｅｈａｉ”）の参照文献である。すべ
ての参照文献が同一のｎ−グラム構造（例えば、この例
では、２−グラム）を用いて分解されなければならな
い。再び、あり得ると考えられる２−グラムの数を減ら
すために、小文字は大文字にされ、多重のスペ−スは単
一のスペ−スに減らされる。かくして、ハワイ語の参考
文献は、“Ｉ＿ＨＥＬＥ＿ＭＡＩ＿ＮＥＩ＿ＡＵ＿Ｅ＿
ＨＡＩ”となる。

【００４６】ハワイ語のすべての２−グラムは表２に示
される。それらは、Ｉ＿，＿Ｈ，ＨＥ，ＥＬ，ＬＥ，Ｅ
＿，＿Ｍ，ＭＡ，ＡＩ，＿Ｈ，ＨＥ，ＥＩ，＿Ａ，Ａ
Ｕ，Ｕ＿，Ｅ＿，ＨＡ，である。上記のグリ−ンランド
語の参照文献において述べたと同じ方法で、各２−グラ
ムにウェ−ト付けが行なわれる（すなわち、２−グラム
のＩ＿のウェ−トは３／２２＝０．１３６である）。

【００４７】参照文献に含まれるｎ−グラムの数が類似
している必要性はない。また、アルゴリズムは文献の前
処理を必要としない。大文字化、多重スペ−スの単一ス
ペ−スへの減少処理も、この発明の適当な動作のために
必要なものではない。これらのステツプは、処理を強化
し、メモリに対する要求を減ずるために採用されている
ものである。

【００４８】その後、参照文献の共通性が除かれる。こ
れは、まず第１に、表３に示すように、参照文献の全て
に含まれる全てのユニ−クな２−グラムを表にすること
により達成される（すなわち、ＮＡ、ＡＮ、ＮＯ、Ｏ
Ｋ、Ｋ＿、＿Ｎ、ＮＵ、ＵＮ、ＮＥ、Ｅ＿、＿Ｉ、Ｉ
Ｓ、ＳＳ、ＳＩ、ＩＧ、ＧＴ、ＴＵ、Ｉ＿、＿Ｈ、Ｈ
Ｅ、ＥＬ、ＬＥ、＿Ｍ、ＭＡ、ＡＩ、ＥＩ、＿Ａ、Ａ
Ｕ、Ｕ＿、＿Ｅ、ＨＡ）。

【００４９】各ユニ−クな２−グラムの共通性ウェ−ト
は、各ユニ−クな２−グラムについての全参照文献に亙
るウェ−トの合計を、全参照文献の数で割ることで決定
される。例えば、２−グラムのＮＥについての共通性ウ
ェ−トは、（0.095+0.045)/2= 0.070 で、２−グラムの
ＮＡについての共通性のウェ−トは（0.095+0)/2=0.048
となる。２−グラムのＮＡはグリ−ンランド語の参照
文献についてはウェ−トが0.095 で、ハワイ語の参照文
献については２−グラムＮＡが現れないのでウェ−トが
0であるからである。

【００５０】共通性ウェ−トは、参照文献のそれぞれ対
し、特定の２−グラムの平均的な寄与の程度を示す。こ
の共通性は、１つの文献を他の文献からより明確に識別
するために、参照文献と未識別文献の両方から除かれ
る。

【００５１】１つの文献における対応する２−グラムの
ウェ−トから共通性ウェ−トを差引くことにより、その
文献内の２−グラムのウェ−トから共通性が除去され
る。

【００５２】例えば、グリ−ンランド語の参照文献から
２−グラムのＮＥについての共通性を除いたウェ−ト
は、0.095-0.070=0.025 で、ハワイ語の参照文献から２
−グラムのＮＥについての共通性を除いたウェ−トは、
0.045-0.070=-0.025となる。

【００５３】共通性を除くステツプは処理動作を改善
し、文献の識別処理を単純化する。

【００５４】

【表３】

【表４】

【表５】表３は、文献間にまたがる各ユニ−クな２−グラムの共
通性ウェ−トの表である。これらの共通性ウェ−トは、
各参照文献と未識別文献の対応する２−グラムのウェ−
トから除かれる。表４はグリ−ンランド語におけるユニ
−クな２−グラムについて共通性を除いたウェ−トの表
で、表５はハワイ語におけるユニ−クな２−グラムにつ
いて共通性を除いたウェ−トの表である。

【００５５】特定の参照文献についての共通性を除いた
ウェ−トは、未識別文献に対する参照文献の類似性の点
数を計算するために使用される。

【００５６】

【表６】表６は、未識別言語で書かれたテキスト（例えば“Ｍａ
ｒｔｓｉｍｅｎａｎｕｔ”）の例である。未識別のテ
キストは参照文献のｎ−グラム構造と同一のｎ−グラム
構造（例えば、２−グラム）に分解されなけらばならな
い。再度、可能な２−グラムの数を減ずるため、小文字
は大文字に変換され、多重スペ−スは単一スペ−スに減
らされる。これにより、未識別文献は“ＭＡＲＴＳＩＭ
Ｅ＿ＮＡＮＵＴ”となる。

【００５７】表６に掲げる未識別文献のユニ−クな２−
グラムの総数は、ＭＡ、ＡＲ、ＲＴ、ＴＳ、ＳＩ、Ｉ
Ｍ、ＭＥ、Ｅ＿、＿Ｎ、ＮＡ、ＡＮ、ＮＵ、ＵＴであ
る。ウェ−トが各２−グラムに割当てられる。再度、２
−グラムのウェ−トは、その２−グラムの発生頻度を、
未識別文献に現れた２−グラムの総数で割ることにより
決定される（例えば、未識別文献におけるＭＡのウェ−
トは、1/13=0.077) である。参照文献における共通性の
ウェ−トが、未識別文献における対応する２−グラムか
ら差引かれる（表６参照）。

【００５８】図３に、グリ−ンランド語の参照文献に対
する未識別文献の類似性の点数が計算される例を示す。
これは、前述した式（３）により計算される。

【００５９】ここで、Ｕｉは未識別文献の、共通性を除
去した２−グラムのウェ−トを示し、また、Ｒｉは未識
別文献と対比するグリ−ンランド語の参照文献の、共通
性を除去した２−グラムのウェ−トを示す。

【００６０】未識別文献の、共通性を除去した各２−グ
ラムのウェ−トは、グリ−ンランド語の参照文献の、対
応する共通性を除去した各２−グラムのウェ−トに掛け
られる。さらに、グリ−ンランド語の参照文献の共通性
を除去した各ｎ−グラムのウェ−トは２乗され、これら
の２乗された結果の数値は合計される。

【００６１】未識別文献の共通性を除去した各２−グラ
ムのウェ−トは２乗され、これらの２乗された結果の数
値は合計される。

【００６２】これらの合計値は“合計の積”を形成する
ために掛けられる。

【００６３】最後に、グリ−ンランド語の参照文献に対
する未識別文献の点数が、“積の合計”を“合計の積”
の平方根で割つて得られる。図３に示す結果は未識別文
献とグリ−ンランド語の参照文献との間の類似性を示す
点数である。

【００６４】類似性を示す点数は、各参照文献について
計算される。最高の点数が得られた未識別文献は、参照
文献と類似していると識別することができ、又は、使用
者の設定した閾値を越える点数が得られた未識別文献は
参照文献と類似していると識別することができる。

【００６５】後者のアプロ−チでは、識別は強制されな
い（例えば、未識別文献は参照文献の１つと類似してい
ると識別されなくともよい）。また、後者のアプロ−チ
では、多数の参照文献が使用者の設定した閾値を越える
点数を生ずるときは、未識別文献は多数の参照文献と類
似していると識別してもよい。

【００６６】特定の言語、例えば英語の“ｉｓ”、“ｔ
ｈｅ”、“ａｎｄ”、“ｗｉｔｈ”、“ｆｏｒ”等、言
語識別に有用なあるテキストの列は、通常その文献の論
題の識別には有用でない。この発明は、文献間の共通性
を除去することにより、論題についての文献間の区別を
見出だすという問題を解決するものである。

【００６７】文献間の共通性の除去は、全文献内のｎ−
グラムの発生頻度の平均値を計算し、この平均値を各文
献内の対応するｎ−グラムの発生頻度の平均値から差し
引くことで達成できる。もし、ある文献がもう１つの文
献に、単純に類似しているならば、共通性の除去は、類
似性を決定する仕事を作りだす。論題に対する（類似性
判断の）感度は、人間の介在なしに、文献の言語に無関
係に達成することができる。文献（複数）が論題に関し
て相互に類似であるときは、使用者は、類似性を判断す
るために、再び閾値を設定することができる。

【００６８】このアルゴリズムはいかなる言語にも等し
く働くが、論題の識別においては、共通言語（又はいく
つかの密に関連する言語）で記載された文献を比較する
ときにのみ働く。これは、論題がｎ−グラムによつて作
られたパタ−ンに関係するからである。ｎ−グラムによ
つて作られたパタ−ンは、文献の言語によりコントロ−
ルされる。

【００６９】論題の識別は、英語のように、相対的に少
ない文字からなる言語でも、表意文字（例えば、日本
語）のように、多くの文字からなる言語でも同様に実行
することができる。理論に拘束されることを望まない限
り、この発明の優れた結果が得られるものと信ずる。な
ぜならば、文献の論題は、その論題を討論するのに使用
されるｎ−グラムに拘束されるからである。論題の識別
は、その文献が使用されたｎ−グラムに類似する度合を
決定することになる。

【００７０】図４は、デ−タベ−スから文献を検索する
のに使用するアルゴリズムの概略を示す。文献は希望す
る言語、又は論題について検索することができる。

【００７１】デ−タベ−スは、典型的には、異なる言語
で記載された多数の論題に関する膨大な文献を含む。こ
れらの文献が特定の形式である必要はない。１つのｎ−
グラムの列は、各デ−タベ−スの文献について形成され
る。これは、各デ−タベ−スの文献について、その文献
に発生するユニ−クなｎ−グラムの表を作ることにより
達成される。

【００７２】ウェ−トは、それぞれのユニ−クなｎ−グ
ラムに割当てられる。ウェ−トは、特定の文献について
の、ｎ−グラムの発生頻度（例えば、特定の文献につい
て発生するｎ−グラムの数を、その文献内に発生する全
てのｎ−グラムの総数で割つた値）により決定される。
決定されたウェ−トは、各デ−タベ−スの文献における
それぞれのｎ−グラムに割当てられる。

【００７３】デ−タベ−スの文献間の共通性は、デ−タ
ベ−スの文献と質問文とから除かれる。これは、まず第
１に、全ての文献内の全てのユニ−クなｎ−グラムを表
にし、第２に、共通性のウェ−トを、その平均相対的発
生頻度に基づいて、それぞれのユニ−クなｎ−グラムに
割当てる。それぞれのｎ−グラムの共通性のウェ−ト
は、各デ−タベ−スの文献内の対応するｎ−グラムのウ
ェ−トから、及び、質問文内の対応するｎ−グラムのウ
ェ−トから差し引かれる。

【００７４】質問文は使用者により提出されるもので、
質問文は使用者がデ−タベ−スから検索することを希望
する文献の型（例えば、類似の論題又は言語に関する文
献）を表わす。

【００７５】関心ある論題に関する質問文は、質問文の
言語で記載された論題の文献を検索する結果となること
に注目すべきである。質問文の言語と異なる言語で記載
された論題の文献は、通常は検索されない。これは、異
なる言語では、同一論題を表現するのに、典型的には、
異なるｎ−グラムを使用するからである。

【００７６】つぎに、質問文はｎ−グラムに分解され
る。これは、質問文に発生する全てのユニ−クな全ての
ｎ−グラムを表にすることで、達成される。

【００７７】ウェ−トが、質問文内のそれぞれのユニ−
クなｎ−グラムに割当てられる。ウェ−トは、質問文に
ついての、ｎ−グラムの発生頻度により決定される。つ
いで、共通性のウェ−トが、質問文内の対応するｎ−グ
ラムから差引かれる。それから、デ−タベ−スの文献の
それぞれに対して、質問文の点数を付けることにより、
質問文がデ−タベ−スの文献と比較される。

【００７８】点数は、以下の処理で得られる。

【００７９】第１に、質問文（例えば、Ｑｉ）の、それ
ぞれの共通性を除去したｎ−グラムを、デ−タベ−スの
文献（例えば、Ｄｉ）の対応する共通性を除去したｎ−
グラムに掛け、得られた積は合計される（すなわち、
“積の合計”）。

【００８０】この演算式は、以下の式（４）で表わされ
る。

【００８１】

【数４】デ−タベ−スの文献のそれぞれのｎ−グラムは２乗され
る（例えば、Ｄｉ＊＊２）。これらの２乗された数値は
合計される（すなわち、“積の合計”）。

【００８２】質問文のそれぞれのｎ−グラムは２乗され
る（例えば、Ｑｉ＊＊２）。これらの２乗された数値は
合計される。これらの合計は“合計の積”を形成するた
めに、相互に掛けられる。

【００８３】この演算式は、以下の式（５）で表され
る。

【００８４】

【数５】最後に、質問文に対するデ−タベ−スの文献の点数が、
“積の合計”を“合計の積”の平方根で割つて得られ
る。

【００８５】この演算式は、以下の式（６）で表され
る。

【００８６】

【数６】点数は、質問文に対するそれぞれのデ−タベ−スの文献
について算出される。使用者は、デ−タベ−スの文献
が、言語又は論題に関して、質問文に類似しているか否
かを決定するのに使用するために、閾値を決定する。

【００８７】言語の識別を含む上記ステツプの例は、デ
−タベ−スから文献を検索するためのこのアルゴリズム
に含まれるステツプの叙述のために適用することができ
る。

【００８８】ｎ−グラムは、デ−タベ−スの文献を、文
献様のものを含むカテゴリ−に分類することに関連する
問題の解決にも使用することができる。この発明のアル
ゴリズムは、使用者にいかなる指針も、上述した処理を
越えるいかなるデ−タベ−スの前処理も必要としない。
デ−タベ−スは言語、又は論題のカテゴリ−に分類する
ことができる。文献は容易に異なるカテゴリ−にクロス
して参照することができる（すなわち、１つの文献は特
定の論題のカテゴリ−に分類できると同様に、特定の言
語のカテゴリ−に分類することができる）。

【００８９】図５は、デ−タベ−スの文献をカテゴリ−
に分類するのに使用されるアルゴリズムを示す。文献は
言語、又は論題について分類することができる。デ−タ
ベ−スは、典型的には、膨大な数の文献を包含する。こ
れらの文献は、異なる論題を扱うものでよく、異なる言
語で記載されていてもよい。これらの文献は特定の形式
で記載されている必要はない。

【００９０】１つのｎ−グラムの列がそれぞれのデ−タ
ベ−スの文献について形成される。これは、それぞれの
デ−タベ−スの文献について、その文献に発生するユニ
−クなｎ−グラムの表を、別々に作ることによつて達成
される。ウェ−トが各ユニ−クなｎ−グラムに割当てら
れる。ウェ−トは、その特定の文献のｎ−グラムの発生
頻度によつて決定される。そして、ウェ−トは、各デ−
タベ−スの文献のそれぞれのｎ−グラムに割当てられ
る。

【００９１】デ−タベ−ス文献間の共通性が、各デ−タ
ベ−ス文献から除去される。これは、まず第１に、文献
に発生するユニ−クなｎ−グラムを表にすることで達成
される（すなわち、仮に１つの大きな文献を、分離した
デ−タベ−ス文献として考え、この１つの文献内に発生
するユニ−クなｎ−グラムを表に作る）。第２に、共通
性のウェ−トを発生頻度（すなわち、全てのデ−タベ−
スの文献の特定のｎ−グラムの発生総数を、全てのデ−
タベ−スの文献内のユニ−クなｎ−グラムの総数で割つ
た値）に基づいて割当てる。

【００９２】それぞれの共通性のウェ−トは、デ−タベ
−スの文献の総数で割られる。それぞれのｎ−グラムの
共通性のウェ−トが、各デ−タベ−スの文献内の対応す
るｎ−グラムのウェ−トから差し引かれる。

【００９３】各デ−タベ−スの文献は、他のデ−タベ−
スの文献のそれぞれと比較される。これは、他のデ−タ
ベ−ス文献に対するそのデ−タベ−ス文献の点数を付け
ることで達成される。

【００９４】点数は、以下の処理で得られる。

【００９５】第１に、あるデ−タベ−スの文献（例え
ば、Ｄ１ｉ）から共通性を除去したｎ−グラムを、比較
すべきデ−タベ−スの文献（例えば、Ｄ２ｉ）の対応す
る共通性を除去したｎ−グラムと掛け、得られた積は合
計される（すなわち、“積の合計”）。この演算式は、
以下の式（７）で表される。

【００９６】

【数７】第１のデ−タベ−スの文献の、それぞれの共通性を除去
したｎ−グラムのウェ−トが２乗される（例えば、Ｄ１
ｉ＊＊２）。これらの２乗された数値は合計される（す
なわち、“積の合計”）。

【００９７】第１のデ−タベ−スの文献と比較される第
２のデ−タベ−スの文献の、それぞれの共通性を除去し
たｎ−グラムのウェ−トが２乗される（例えば、Ｄ２ｉ
＊＊２）。これらの２乗された数値は合計される（すな
わち、“積の合計”）。

【００９８】これらの２乗された数値は合計される。こ
れらの合計は“合計の積”を形成するために、相互に掛
けられる。

【００９９】この演算式は、以下の式（８）で表され
る。

【０１００】

【数８】最後に、第２のデ−タベ−スの文献に対する第１のデ−
タベ−スの文献の点数が、“積の合計”を“合計の積”
の平方根で割つて得られる。

【０１０１】この演算式は、以下の式（９）で表され
る。

【０１０２】

【数９】点数は、他のデ−タベ−スの文献のそれぞれに対するそ
れぞれのデ−タベ−ス文献について算出される。使用者
は、比較される２つのデ−タベ−スの文献が、類似して
いるか否かを宣言するために、閾値を決定する。類似の
文献が、言語又は論題についての類似のカテゴリ−に分
類される。

【０１０３】言語の識別を含む上記ステツプの例は、デ
−タベ−スの文献を分類するための、このアルゴリズム
に含まれるステツプの叙述のために適用することができ
る。

【０１０４】図６は、この発明の方法を実施するコンピ
ユ−タの構成の一例を示すブロツク図である。この発明
の方法を実施するコンピユ−タは、一般のデ−タ処理に
使用される汎用のコンピユ−タが使用できる。

【０１０５】図において、１は鍵盤、その他の入力装
置、２はプロセツサ、３は磁気デイスク、磁気テ−プ等
の外部記憶装置、４はＣＲＴなどの表示装置、５はプリ
ンタその他の出力装置を示す。

【０１０６】入力装置１はプロセツサ２へ各種の操作指
令を入力するほか、磁気デイスク、磁気テ−プ等の外部
記憶装置３へプログラム、処理すべき参照文献、未識別
文献の入力などにも使用される。

【０１０７】プロセツサ２は、この発明のアルゴリズム
に基づく処理プログラムによるデ−タ処理、接続された
入力装置１、外部記憶装置３、表示装置４、出力装置５
の制御を行う。また、プロセツサ２はその内部にランダ
ム記憶装置ＲＡＭを備え、ＲＡＭはプログラムの一時記
憶のほか、処理すべき参照文献、未識別文献の一時記
憶、表１乃至表６のような中間処理の結果の一時記憶、
演算式による演算結果の一時記憶などに使用される。

【０１０８】外部記憶装置３はこの発明のアルゴリズム
に基づく処理プログラムの記憶のほか、処理すべき参照
文献などのデ−タベ−ス、未識別文献などのデ−タの記
録、処理の結果得られたデ−タの記録等に使用される。

【０１０９】表示装置４は表１乃至表５のような中間処
理の結果、演算結果の表示、その他コンピユ−タ処理に
必要な表示に使用される。出力装置５は表１乃至表６の
ような中間処理の結果、演算結果のプリントに使用され
る。

【０１１０】デ−タ処理の概略は、先に説明した図１、
図２、図４、図５に示されている通りである。

【０１１１】特に記載された実施例中の変更や変形は、
特にこの発明を実施するために使用するプログラミング
言語と、ｎ−グラムのウェ−トから類似性の点数を導き
出す特定の数式については、添付されたクレ−ムの範囲
によつてのみ限定されることを意図したこの発明の範囲
から逸脱しない限り実施することができる。

【０１１２】

【発明の効果】テキスト処理に関する現在の研究活動
は、内容に基礎を置く（すなわち、言語学）解析に焦点
が当てられている。この発明は、単にパタ−ン認識（す
なわち、非言語学）に焦点が当てられている。この発明
は、構文、意味論、文法の属するいかなる追加情報も必
要としない。ｎ−グラム解析を論題の識別に適用する利
益は、現在まで完全には認められてきたものではなかつ
た。

【０１１３】この発明の論題識別方法は、いかなる言語
においても、等しい容易さ（ただし、１度に１つの言語
で）をもつて扱われる。それは、テキス言語を理解しな
い者によつて開始でき、特別の訓練を必要としない。こ
の方法は、歪められたテキスト（すなわち、誤りを含む
テキスト）の存在においても力強く作用する。使用者
は、もし、文献が類似の場合は、類似性の決定のために
閾値を設定する。情報的でない（情報を含まない）共通
性は自動的に文献から除去される。

【図面の簡単な説明】

【図１】言語識別アルゴリズムの概略を説明する図。

【図２】文献の言語、論題などを識別するアルゴリズム
の概略を説明する図。

【図３】グリ−ンランド語の参照文献に対する未識別文
献の類似性の点数の計算例を示す図。

【図４】デ−タベ−スから文献を検索するのに使用する
アルゴリズムの概略を説明する図。

【図５】デ−タベ−スの文献をカテゴリ−に分類するの
に使用されるアルゴリズムを概略を説明する図。

【図６】この発明の方法を実施するコンピユ−タの構成
の一例を示すブロツク図である。

【符号の説明】

１入力装置２プロセツサ３外部記憶装置４表示装置５出力装置

Claims

【特許請求の範囲】

【請求項１】次のステツプから成る、テキストの言語
を決定する方法。（ａ）ｎが少くとも１の値をもち、各
ｎ−グラムがテキスト本体のｎ個の連続した文字／スペ
−スの位置の内容から成る複数のｎ−グラムに上記テキ
スト本体を分解すること、（ｂ）前記各ｎ−グラムを、
各ｎ−グラムの組が異なる言語を表わす複数のｎ−グラ
ムの組と比較すること、（ｃ）特定のｎ−グラムの組に
対するステツプ（ｂ）の合致率が、そのｎ−グラムの組
に対する所定値に少くとも等しく、かつ他のｎ−グラム
の組に対するステツプ（ｂ）の合致率よりも大きいと
き、上記テキスト本体の言語を上記特定のｎ−グラムの
組の言語で書かれたものとして識別すること。
【請求項２】次のステツプから成る文献を識別する方
法。（ａ）機械読み取り可能な形式の複数の参照文献の各々
に対し、各ｎ−グラムが少くとも１つの連続した文献要
素から成る、ｎ−グラムの参照列を作ること。（ｂ）機械読み取り可能な形式の未識別文献を、各ｎ−
グラムが少くとも１つの連続した文献要素から成る、複
数のｎ−グラムに分解すること。（ｃ）ステツプ（ａ）の各ｎ−グラムにウェ−トを付け
ること。（ｄ）ステツプ（ｂ）の各ｎ−グラムにウェ−トを付け
ること。（ｅ）上記複数の参照列間の共通性を除去すること。（ｆ）各未識別文献のｎ−グラムを上記参照文献のｎ−
グラム列と比較し、上記未識別文献と上記各参照列との
間の類似性の程度を示す点数表を作成すること。（ｇ）ステツプ（ｆ）における点数が、使用者が決め
た、上記参照文献の列に対する値と少くとも等しいと
き、リストされた複数の参照文献の少くとも１つに類似
であると識別すること。
【請求項３】ｎ−グラム参照列を作成する上記ステツ
プが次のことにより行なわれる、請求項２記載の方法。（ａ）対応する参照文献内に発生するすべてのユニ−ク
なｎ−グラムをリストすること。（ｂ）上記参照文献の各ｎ−グラムにウェ−トを付ける
こと。
【請求項４】上記参照文献の各ｎ−グラムにウェ−ト
を付ける上記ステツプが、次のことにより行なわれる、
請求項３記載の方法。（ａ）上記参照文献における各ユニ−クなｎ−グラムの
発生回数を計算すること。（ｂ）上記参照文献における
ｎ−グラムの総数によりステツプ（ａ）の各計算値を割
ること。及び、（ｃ）ステツプ（ｂ）において計算された各商を、ｎ−
グラムのウェ−トとして対応するｎ−グラムに割当てる
こと。
【請求項５】上記共通性を除去するステツプが、次の
ことにより行なわれる請求項４記載の方法。（ａ）上記複数の参照文献内に発生するユニ−クなｎ−
グラムのリストを作ること。（ｂ）上記ｎ−グラムに対するウェ−トの合計を表わす
各ｎ−グラムの合計を上記複数の参照文献から作るこ
と。（ｃ）ステツプ（ｂ）の各合計を参照文献の総数により
割ること。（ｄ）上記複数の各参照文献内において対応するｎ−グ
ラムのウェ−トからステツプ（ｃ）の商を差引くこと。
【請求項６】上記未識別文献の各ｎ−グラムに対し、
ウェ−トを付けるステツプが、次のことにより行なわれ
る、請求項５記載の方法。（ａ）上記未識別文献内の各ユニ−クなｎ−グラムの発
生回数を計算すること。（ｂ）ステツプ（ａ）の各計算値を上記未識別文献内の
ｎ−グラムの総数により割ること。（ｃ）ステツプ（ｂ）における各商から対応するｎ−グ
ラムの共通性ウェ−トを差引くこと。及び、（ｇ）ステツプ（ｃ）の結果を、そのｎ−グラムのウェ
−トとして対応するｎ−グラムに割当てること。
【請求項７】点数表を作るために上記の比較するステ
ツプが、次のことにより行なわれる請求項６記載の方
法。（ａ）上記未識別文献内のｎ−グラムのウェ−トに上記
参照文献内の１つの列における対応するｎ−グラムのウ
ェ−トを掛けること。（ｂ）上記未識別文献からの各ｎ−グラムのウェ−ト
が、参照文献内に、もし対応するｎ−グラムのウェ−ト
があれば、そのウェ−トを掛け終るまで、ステツプ
（ａ）を反復すること。（ｃ）ステツプ（ａ）と（ｂ）との積を合計すること。（ｄ）上記未識別文献内の各ｎ−グラムのウェ−トを２
乗すること。（ｅ）ステツプ（ｄ）の上記未識別文献のウェ−トを２
乗したものを合計すること。（ｆ）ステツプ（ａ）の上記参照列の各ｎ−グラムのウ
ェ−トを２乗すること。（ｇ）ステツプ（ｆ）の上記参照列のウェ−トを２乗し
たものを合計すること。（ｈ）ステツプ（ｅ）の合計にステツプ（ｇ）の合計を
掛けること。（ｉ）ステツプ（ｈ）の積の平方根をとること。（ｊ）ステツプ（ｉ）において計算された数でステツプ
（ｃ）の合計を割り、ステツプ（ａ）の上記未識別文献
と上記参照文献との間の類似性の点数を作ること。
（ｋ）上記複数の参照文献に対する未識別文献の類似性
の点数を作るために、上記複数の参照文献に対しステツ
プ（ａ）から（ｊ）までを反復すること。
【請求項８】上記分解のステツプが、次のことにより
行なわれる、請求項７記載の方法。（ａ）使用者が決めた、文献要素の組に、許容し得る文
献要素を制限すること。（ｂ）少くとも１つの文献要素から成る、使用者が決め
た文献要素列を、少くとも１つの文献要素から成る、使
用者が決めた要素列で置き換えること。（ｃ）使用者が決めた文献要素列を削除すること。
【請求項９】許容し得る文献要素を、使用者が決めた
文献要素の組に制限するステツプが、許容し得る文献要
素を複数の言語の文字に制限することにより行なわれ
る、請求項８記載の方法。
【請求項１０】上記未識別文献を識別する上記ステツ
プが、上記未識別文献の言語を識別することにより行な
われる、請求項９記載の方法。
【請求項１１】上記識別文献を識別する上記ステツプ
が、上記未識別文献の論題を識別することにより行なわ
れる、請求項９記載の方法。
【請求項１２】次のステツプから成る文献検索方法。（ａ）機械読み取り可能な形式の複数の参照文献の各々
に対し、各ｎ−グラムが少くとも１つの連続した文献要
素から成るｎ−グラム参照列を作ること。（ｂ）ステツプ（ａ）の各ｎ−グラムにウェ−トを割当
てること。（ｃ）ステツプ（ａ）の複数の参照列間の共通性を除去
すること。（ｄ）機械読み取り可能の質問文を、各ｎ−グラムが少
くとも１つの連続した文献要素から成る複数のｎ−グラ
ムに分解すること。（ｅ）ステツプ（ｄ）の各ｎ−グラムにウェ−トを割当
てること。（ｆ）ステツプ（ｄ）の質問文の各ｎ−グラムをステツ
プ（ａ）の複数の参照列の各々のｎ−グラムと比較し
て、上記質問文と複数の参照文献の各々との間の類似度
を示す点数のリストを作成すること。及び、（ｇ）ステツプ（ｆ）における点数が、使用者が決めた
値に少くとも等しいとき、複数の参照文献を上記質問文
に類似であるとして識別すること。
【請求項１３】ｎ−グラム参照列を作る上記ステツプ
が、次のことにより行なわれる請求項１２記載の方法。（ａ）対応する参照文献内に発生するすべてのユニ−ク
なｎ−グラムをリストをすること。（ｂ）上記参照文献の各ｎ−グラムにウェ−トを割当て
ること。
【請求項１４】上記参照文献の各ｎ−グラムにウェ−
トを割当てる上記ステツプが、次のことにより行なわれ
る請求項１３記載の方法。（ａ）上記参照文献における各ｎ−グラムの発生数を計
算すること。（ｂ）上記参照文献における各ｎ−グラムの合計数でス
テツプ（ａ）の計算値を割ること。（ｃ）ステツプ（ｂ）で計算された各商を、そのｎ−グ
ラムのウェ−トとして、対応するｎ−グラムに割当てる
こと。
【請求項１５】上記共通性除去のステツプは、次のこ
とにより行なわれる請求項１４記載の方法。（ａ）上記複数の参照文献において発生するユニ−クな
ｎ−グラムのリストを作ること。（ｂ）上記複数の参照文献から上記ｎ−グラムのウェ−
トの合計を表わす各ｎ−グラムの合計を作ること。（ｃ）ステツプ（ｂ）の各合計値を参照文献の全数によ
り割ること。（ｄ）ステツプ（ｃ）の商を、複数の各参照文献におけ
る対応するｎ−グラムウェ−トから差引くこと。
【請求項１６】上記質問文の各ｎ−グラムにウェ−ト
を割当てるステツプは、次のことにより行なわれる請求
項１５記載の方法。（ａ）上記質問文における各ユニ−クなｎ−グラムの発
生数を計算すること。（ｂ）ステツプ（ａ）の各計算値を上記質問文の各ｎ−
グラムの合計数により割ること。（ｃ）ステツプ（ｂ）における各商から、対応するｎ−
グラムの共通性ウェ−トを差引くこと。（ｄ）ステツプ（ｃ）の結果をｎ−グラムウェ−トとし
て対応するｎ−グラムに割当てること。
【請求項１７】点数のリストを作るための比較ステツ
プは、次のことから成る請求項１６記載の方法。（ａ）上記質問文のｎ−グラムのウェ−トを上記参照列
の１つの対応するｎ−グラムのウェ−トによつて割るこ
と。（ｂ）質問文からのすべてのｎ−グラムのウェ−トが、
参照列内の対応するｎ−グラムのウェ−トにより割り終
るまで、ステツプ（ａ）を反復すること。（ｃ）ステツプ（ａ）と（ｂ）との積を加算すること。（ｄ）上記質問文における各ｎ−グラムのウェ−トを２
乗すること。（ｅ）ステツプ（ｄ）の上記質問文のウェ−トの２乗を
合計すること。（ｆ）ステツプ（ａ）の上記参照列内の各ｎ−グラムの
ウェ−トを２乗すること。（ｇ）ステツプ（ｆ）の上記
参照列のウェ−トを２乗すること。（ｈ）ステツプ（ｅ）の合計にステツプ（ｇ）の合計を
掛けること。（ｉ）ステツプ（ｈ）の積の平方根を求めること。（ｊ）上記質問文とステツプ（ａ）の上記参照情報との
間の類似性の点数を作るため、ステツプ（ｃ）の合計を
ステツプ（ｉ）の計算値により割ること。（ｋ）上記複数の参照文献の各々に関し上記質問文にお
ける類似性の点数を作るために、ステツプ（ａ）からス
テツプ（ｊ）までを反復すること。
【請求項１８】上記分解ステツプは次のことにより行
なわれる、請求項１７記載の方法。（ａ）許容し得る文献要素を使用者が決めた文献要素の
組に制限すること。（ｂ）少くとも１つの文献要素から成る、使用者が決め
た文献要素の列を、少くとも１つの文献要素から成る使
用者が決めた要素の列と置き換えること。（ｃ）使用者が決めた文献要素の列を削除すること。
【請求項１９】許容し得る文献要素を使用者が決めた
文献要素の組に制限する上記ステツプは、許容し得る文
献要素を複数の言語の文字に制限することにより行なわ
れる、請求項１８記載の方法。
【請求項２０】上記複数の参照文献を機械読み取り可
能な形式の質問文と類似として識別することにより行な
われる請求項１９記載の方法。
【請求項２１】上記複数の参照文献を上記質問文に類
似として識別するステツプは、上記複数の参照文献を上
記質問文の論題に類似として識別することにより行なわ
れる、請求項１９記載の方法。
【請求項２２】次のことから成る文献を分類する方
法。（ａ）機械読み取り可能な形式の複数の文献の各々に対
し、各ｎ−グラムが少くとも１つの連続した情報要素か
ら成るｎ−グラムを作ること。（ｂ）ステツプ（ａ）の各ｎ−グラムにウェ−トを割当
てること。（ｃ）上記複数の列間の共通性を除去すること。（ｄ）上記列の各々間の類似度を示す点数のリストを作
るために、各列をすべての他の列と比較すること。（ｅ）ステツプ（ｄ）の点数と使用者が決定可能の寛大
さに基づき上記文献をカテゴリ−に分類すること。
【請求項２３】ｎ−グラム列を作る上記ステツプは次
のことにより行なわれる請求項２２記載の方法。（ａ）対応する文献内に発生するすべてのｎ−グラムを
リストをすること。（ｂ）ステツプ（ａ）の各ｎ−グラムにウェ−トを割当
てること。
【請求項２４】上記列の各ｎ−グラムにウェ−トを割
当てる上記ステツプは次のことにより行なわれる請求項
２３記載の方法。（ａ）上記文献内の各ｎ−グラム発生度数を計算するこ
と。（ｂ）ステツプ（ａ）の各計算値を上記文献内のｎ−グ
ラムの総数で割ること。（ｃ）ステツプ（ｂ）の各商をそのｎ−グラムのウェ−
トとして対応するｎ−グラムに割当てること。
【請求項２５】上記共通性除去のステツプは次のこと
により行なわれる請求項２４記載の方法。（ａ）上記複数の文献内に発生するユニ−クなｎ−グラ
ムのリストを作ること。（ｂ）上記複数の文献から、そのｎ−グラムのウェ−ト
の合計を表わす各ｎ−グラムの合計を作ること。（ｃ）文献の総数によつて各合計を割ること。（ｄ）複数の上記各文献内の対応するｎ−グラムのウェ
−トから上記（ｃ）の商を差引くこと。
【請求項２６】点数のリストを作るための上記比較ス
テツプは次のことにより行なわれる、請求項２５記載の
方法。（ａ）上記複数の文献の１つ内のｎ−グラムのウェ−ト
に上記複数の文献の他の１つ内の対応するｎ−グラムの
ウェ−トを掛けること。（ｂ）第１の文献の各ｎ−グラムウェ−トに第２の文献
の対応するｎ−グラムのウェ−トを掛け終つてしまうま
でステツプ（ａ）を反復すること。（ｃ）ステツプ（ａ）とステツプ（ｂ）との積を合計す
ること。（ｄ）上記第１の文献内の各ｎ−グラムのウェ−トを２
乗すること。（ｅ）ステツプ（ｄ）内の上記第１の文献の各ｎ−グラ
ムのウェ−トを２乗したものを加算すること。（ｆ）ステツプ（ａ）の上記第２の文献の各ｎ−グラム
のウェ−トを２乗すること。（ｇ）ステツプ（ｆ）の第２の文献のウェ−トを２乗し
たものを加算すること。（ｈ）ステツプ（ｅ）の合計にステツプ（ｇ）の合計を
掛けること。（ｉ）ステツプ（ｈ）における積の平方根をとること。（ｊ）ステツプ（ａ）の上記第１の文献と上記第２の文
献との間の類似性の点数を作るために、ステツプ（ｃ）
の合計をステツプ（ｉ）において計算した数によつて割
ること。（ｋ）上記複数の文献の各々に関し各文献に対する類似
性の点数を作るために、各文献に対しステツプ（ａ）か
らステツプ（ｊ）までを反復すること。