JP3573688B2

JP3573688B2 - 類似文書検索装置及び関連キーワード抽出装置

Info

Publication number: JP3573688B2
Application number: JP2000195075A
Authority: JP
Inventors: 祐司菅野
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2000-06-28
Filing date: 2000-06-28
Publication date: 2004-10-06
Anticipated expiration: 2020-06-28
Also published as: US20020016787A1; US6671683B2; JP2002014999A; EP1168202A2; EP1168202A3

Description

【０００１】
【発明の属する技術分野】
本発明は、文字コードの列として電子化され蓄積された、機械処理可能な文書データベース（文書データの集合）から、当該文書データベース中の１つまたは複数の文書データ、あるいは当該文書データベースには無い任意の文章を「典型例」として指定して、指定した典型例に類似する文書を当該文書データベース中から検索する類似文書検索装置と、「典型例」に関連する、当該文書データベース中のキーワードを抽出して、検索結果の文書内容の理解を助ける目的、あるいは検索条件として好適なキーワードのヒントとして当該文書データベースの利用者に提示する関連キーワード抽出装置に関し、特に、高精度の文書検索やキーワード抽出を可能にするものである。
【０００２】
【従来の技術】
近年、ワードプロセッサやパーソナルコンピュータの普及、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等の大容量かつ低価格な記憶媒体の普及、イーサネットに代表されるネットワークの発達により、文書中のすべて、あるいは大部分の文字情報を文字コードの列で表わして蓄積した全文データベースが実用化され、広く利用されるようになってきた。
【０００３】
従来の全文データベースでは、文書を検索する際、キーワードの論理式を検索条件として指定し、文書中に指定したキーワードが現れるか否かを判定し、指定した論理式を満足する文書集合を求める方式が一般的である。
【０００４】
最近では、こうして得られた文書集合中の各文書について、検索条件との関連度を、いわゆるｔｆ・ｉｄｆ法などによって求め、関連度の高い文書から順に並べて利用者に提示する、いわゆる文書ランキングの技術が用いられるようになってきており、より精度の高い文書検索が可能になってきている。
【０００５】
しかしながら、このような従来の全文データベースシステムでは、
（１）適切なキーワードが思いつかない、あるいは分からないために、適切な検索条件が指定できない。
（２）複雑な論理式を記述するためのスキル、あるいは時間の余裕がない。
（３）少しでも表現の異なるキーワードを含む文書が検索されない。
などの問題が指摘されており、近年、文書の典型例を指定して、「これらに類似した文書を検索しなさい」という型の類似文書検索システムや、指定した文書や単語集合に関連する、関連キーワードの抽出・提示を行う、関連キーワード抽出システムの研究開発が盛んになっている。
【０００６】
そういった類似検索を基本とする文書検索手法の１つに、ＬＳＩ法（潜在意味索引付け法）と呼ばれる方法がある。米国特許第４８３９８５３号には、ＬＳＩ法による文書検索方法が開示されている。
【０００７】
ここでは、本発明との差異を明確にする目的で、その骨子を簡潔に説明する。ＬＳＩ法では、Ｎ個の文書データを含んだ文書データベースＤ中の各文書について、キーワード、即ち当該文書に特徴的な語句を機械的に抽出し、各文書中に、それぞれのキーワードが出現する度数（回数）を記録する。今、文書データベースＤから、合計でＭ種類のキーワードが抽出されたとする。
【０００８】
ｄ番目の文書中での、（辞書順など、適当な順序で）ｔ番目の種類のキーワードの出現頻度ｆ_ｄｔを、第ｄ行第ｔ列の要素とする行列Ｆで表し、この行列Ｆを、不完全特異値分解と呼ばれる行列演算によって、文書側特異ベクトルを各列に持つ、Ｎ行Ｋ列の行列Ｕと、特異値が対角要素に並んだ、Ｋ行Ｋ列の対角行列Λと、キーワード側特異ベクトルを各行に持つ、Ｋ行Ｍ列の行列Ｖの積に、近似的に分解する。このときＫは、ＮやＭに比べて十分小さく、結果的に元の出現頻度行列Ｆを、より階数の低い行列で近似することになる。
【０００９】
このような分解で得られたＫ個の文書側の特異ベクトルの第ｄ成分をＫ個並べたＫ次元ベクトルを文書ｄの特徴ベクトルＵ_ｄとし、Ｋ個のキーワード側の特異ベクトルの第ｔ成分をＫ個並べたＫ次元ベクトルをキーワードｔの特徴ベクトルＶ_ｄとする。
【００１０】
そして、以下の３点のように類似度、関連度を算出し、もっとも類似度／関連度の高い文書、キーワードを求めることにより、類似文書検索や、関連キーワード抽出を実現する。
（１）２つの文書ａ，ｂの類似度を、文書ａ，ｂに対応する文書特徴ベクトルＵ_ａ，Ｕ_ｂの内積Ｕ_ａ・Ｕ_ｂで求める。
（２）２つのキーワードα，βの関連度を、キーワードα，βに対応するキーワード特徴ベクトルＶα，Ｖβの内積Ｖα・Ｖβで求める。
（３）任意の（外部）文書からのキーワードの抽出結果を、Ｍ種類のキーワードの、当該外部文書中での出現度数を並べたＭ次元ベクトルをＥとすると、この外部文書に対応する検索条件文書特徴ベクトルＰ_ｅを、Ｕ_ｅ＝Λ^−１ＶＥで求め、この外部文書と、文書データベース中の文書ｄとの類似度を、Ｕ_ｄ・Ｕ_ｅで求める。以上が、ＬＳＩ法の基本的枠組みである。
【００１１】
実際の文書データベースにＬＳＩ法を適用する際には、キーワードの出現度数ｆ_ｄｔをそのまま用いると、長い文書や、高頻出するキーワードのみが重視された、偏った特徴ベクトルが求まってしまい、類似検索の精度が低下する。
【００１２】
そこで、ｆ_ｄｔを、従来の文書検索システムでの文書ランキングで用いられる、ＬＴＣなどの方式によって変換して出現頻度の変換（標準化）を行い、正規化した頻度を要素とする出現頻度行列Ｆを作成して不完全特異値分解を実行し、特徴ベクトルを得る。
【００１３】
例えば、ＬＴＣによる変換では、以下の式によって、実際の出現度数ｆ_ｄｔと、キーワードｔの出現文書数ｎ_ｔから出現度数ＬＴＣ（ｆ_ｄｔ）を算出し、この値を要素とする行列を不完全特異値分解する。
【００１４】
【数１】

【００１５】
【発明が解決しようとする課題】
しかしながら、このような従来のＬＳＩ法におけるキーワードの出現頻度の変換には、大きな課題がある。
【００１６】
ＬＳＩ法では、行列Ｆの第ｄ行が文書ｄの特徴を表し、行列Ｆの第ｔ列が単語ｔの特徴を表すとして、分析を行うが、数１の変換では、各行の要素の２乗和が１に正規化されるものの、各列の要素の２乗和は正規化されない。従って、文書側とキーワード側とで非対称な変換になっている。数１のような簡単な変換で、文書側、キーワード側の両方を１に正規化することは困難であり、この非対称性は、数１に限ったことではない。
【００１７】
さらに、数１のような、対数関数などの非線形な関数による変換では、ある文書ｄと、ｄを２つ繋げた文書ｄ’とが表す特徴が同一にはならず、文書の類似度が１にならない。同様に、同一の出現傾向を持ち、同一の意味を表す２つのキーワードｔ_１，ｔ_２を同一のキーワードだとして求めた出現頻度行列が元の出現頻度行列と食い違う。
【００１８】
これらの非対称性や、文書の類似度及びキーワードの関連度における文書やキーワードの併合に対する非安定性は、特に大規模な文書データベースを扱う際には、以下のような現象を生じる。
（１）正規化されない側（多くの場合はキーワード側）での検索／抽出時に、ノルム（Ｆの要素の２乗和）の大きなものが優先的に検索／抽出される。
（２）キーワード集合で文書を検索する際に、あるキーワードだけが非常に強く効き、他はほとんど無視される。
【００１９】
結果的に、検索意図から大きく掛け離れた検索結果となり、検索精度が大きく低下する、という課題がある。
【００２０】
本発明は、こうした従来の課題を解決するものであり、文書側及びキーワード側の両方を正規化し、高い検索精度を保持することができる類似文書検索装置及び関連キーワード抽出装置を提供することを目的としている。
【００２１】
【課題を解決するための手段】
そこで、本発明では、Ｎ個の文書データを集めた、合計Ｍ種類のキーワードを含む、機械処理可能な文書データベースＤから、前記文書データベースＤに含まれる１つ以上のキーワードｙ ₁ ，…，ｙ _sを検索条件として指定して、前記検索条件と関連する前記文書データベースＤ中の文書を検索する装置において、文書データベースＤ中の各文書ｄに出現する各キーワードｔの出現度数ｆ_dtを記録したキーワード出現度数データＦを算出するキーワード出現度数算定手段と、各文書ｄの長さｌ_dを記録した文書長データＬを算出する文書長算定手段と、文書データベースＤ中に出現する、Ｍ種類のキーワードについて、各キーワードｔの重みｗ_tを記録したキーワード重みデータＷを算出するキーワード重み算定手段と、各文書ｄについて、着目文書ｄ中の各キーワードｔの相対出現頻度ｐ_dtを成分とするＭ次元の文書プロファイルベクトルＰ_dを算出する文書プロファイルベクトル算定手段と、前記文書データベースＤ中に出現する各キーワードｔについて、各文書ｄ中での着目キーワードｔの相対出現頻度ｑ _dt を成分とするＮ次元のキーワードプロファイルベクトルＱ _t を算出するキーワードプロファイルベクトル算定手段と、文書データベースＤ中の文書群の文書プロファイルベクトル集団の主成分分析を実施して、各文書ｄについて、文書プロファイルベクトルＰ_dに対応する、固定（Ｋ）次元の文書特徴ベクトルＵ_dを求める文書主成分分析手段と、文書データベースＤ中のキーワード群のキーワードプロファイルベクトル集団の主成分分析を実施して、各キーワードｔについて、キーワードプロファイルベクトルＱ _t に対応する、前記文書特徴ベクトルと同一次元の、固定（Ｋ）次元のキーワード特徴ベクトルＶ _t と、各次元ｊのキーワード寄与度（相関行列の固有値）θ _j とを求めるキーワード主成分分析手段と、キーワードｙ ₁ ，…，ｙ _s を検索条件として受け取り、受け取ったキーワード群の前記単語重みデータと、前記キーワード特徴ベクトルと、前記キーワード寄与度とから、前記検索条件に対応する検索条件特徴ベクトルを算定する検索条件特徴ベクトル算定手段と、算定された前記検索条件特徴ベクトルと、各文書ｄの文書特徴ベクトルとを用いて、前記検索条件と各文書ｄとの類似度を算定し、類似度の高い文書から、指定された文書数だけ求めて出力する類似文書検索手段とを設けている。
【００２４】
また、Ｎ個の文書データを集めた、合計Ｍ種類のキーワードを含む、機械処理可能な文書データベースＤから、文書データベースＤに含まれる１つ以上の文書ｘ_１，…，ｘ_ｒを抽出条件として指定し、前記抽出条件の文書群と関連性のある、文書データベースＤ中に出現するキーワードを抽出する装置において、前記キーワード出現度数算定手段と、前記文書長算定手段と、前記キーワード重み算定手段と、前記文書プロファイルベクトル算定手段と、前記キーワードプロファイルベクトル算定手段と、文書データベースＤ中の文書群の文書プロファイルベクトル集団の主成分分析を実施して、各文書ｄについて、文書プロファイルベクトルＰ_ｄに対応する、固定（Ｋ）次元の文書特徴ベクトルＵ_ｄと、各次元ｊの文書寄与度（相関行列の固有値）λ_ｊとを求める文書主成分分析手段と、前記文書データベースＤ中のキーワード群のキーワードプロファイルベクトル集団の主成分分析を実施して、文書データベースＤ中の各キーワードｔについて、キーワードプロファイルベクトルＱ_ｔに対応する、前記文書特徴ベクトルと同一次元の、固定（Ｋ）次元のキーワード特徴ベクトルＶ_ｔを求めるキーワード主成分分析手段と、文書ｘ_１，…，ｘ_ｒを抽出条件として受け取り、受け取った文書群の文書長データと、文書特徴ベクトルと、文書寄与度とから、前記抽出条件に対応する、抽出条件特徴ベクトルを算定する、抽出条件特徴ベクトル算定手段と、算定された前記抽出条件特徴ベクトルと、文書データベースＤ中に出現する各キーワードｔのキーワード特徴ベクトルとを用いて、前記抽出条件と各キーワードｔとの関連度を算定し、関連度の高いキーワードから、指定されたキーワード数だけ求めて出力する関連キーワード抽出手段とを設けている。
【００２５】
この類似文書検索装置及び関連キーワード抽出装置では、着目した文書での各キーワードの出現頻度を文書プロファイルとしてベクトル表現し、また、着目したキーワードの各文書での出現頻度をキーワードプロファイルとしてベクトル表現し、それぞれ独立に、文書長、キーワード重みを考慮した重み付き主成分分析を行い、各文書／キーワードの特徴ベクトルを求めている。
【００２６】
この場合、文書プロファイル及びキーワードプロファイルでのベクトル表現は、出現頻度の変換（標準化）には依存せず、また、出現頻度の変換に関与する文書長、キーワード重みデータなどは、主成分分析時の重みとして間接的に作用させているため、各文書／キーワードの特徴ベクトルは、出現頻度の変換に依存せずに正規化することができる。
【００２７】
そのため、高精度な類似文書検索装置及び関連キーワード抽出装置を実現することができる。
【００２８】
【発明の実施の形態】
（第１の実施形態）
図１は、本発明の実施形態における類似文書検索装置及び関連キーワード抽出装置をディジタル電子計算機上の動作によって実現する類似文書検索・関連キーワード抽出システムの全体構成を表わすブロック図である。
【００２９】
このシステムは、新聞記事の文書番号、見出し及び本文を、１記事を１文書（検索の単位）として配列した新聞記事全文データベース１０１と、新聞記事全文データベース１０１中の各記事の本文の文字列を走査して、出現するキーワードを切り出すとともに、各記事に出現したキーワードと出現度数との組を集計するキーワード抽出集計手段１０２と、キーワード抽出集計手段１０２の抽出集計結果を格納するキーワード出現度数ファイル１０３と、外部パラメータである文書長算定モードに従って、各記事の文書長を、新聞記事全文データベース１０１中の各記事の本文の文字列の文字数、あるいはキーワード度数ファイル１０３中の各記事の出現キーワードの総数（のべ数）を基に算出する文書長算定手段１０４と、文書長算定手段１０４の算定結果を格納する文書長ファイル１０５と、キーワード出現度数ファイル１０３を参照して、各キーワードの重みを算定するキーワード重み算定手段１０６と、キーワード重み算定手段１０６の算定結果を格納するキーワード重みファイル１０７と、キーワード出現度数ファイル１０３と文書長ファイル１０５とから、各キーワードの特徴を表すキーワードプロファイルベクトルを作成するキーワードプロファイルベクトル作成手段１０８と、キーワードプロファイルベクトル作成手段１０８が作成したキーワードプロファイルベクトル群を格納するキーワードプロファイルベクトルファイル１０９と、キーワード出現度数ファイル１０３とキーワード重みファイル１０７とから、各文書の特徴を表す文書プロファイルベクトルを作成する文書プロファイルベクトル作成手段１１０と、文書プロファイルベクトル作成手段１１０が作成した文書プロファイルベクトル群を格納する文書プロファイルベクトルファイル１１１と、キーワード出現度数ファイル１０３と文書長ファイル１０５とキーワード重みファイル１０７とを参照して、キーワードプロファイルベクトルファイル１０９の、Ｋ次元（分析次元Ｋは予め定めた外部パラメータ）の重み付き主成分分析を行って、Ｋ本の主軸（即ち相関行列の固有ベクトル）と、Ｋ本の各主軸の寄与率（即ち相関行列の固有値）を求め、各キーワードの特徴ベクトル（即ちＫ本の主軸についての成分あるいは射影）を求めるキーワード主成分分析手段１１２と、キーワード主成分分析手段１１２の分析結果である、各キーワードの特徴ベクトルと各主軸の寄与率とを格納するキーワード主成分分析結果ファイル１１３と、キーワード出現度数ファイル１０３と文書長ファイル１０５とキーワード重みファイル１０７とを参照して、文書プロファイルベクトルファイル１１１の、Ｋ次元の重み付き主成分分析を行って、Ｋ本の主軸と、Ｋ本の各主軸の寄与率を求め、各文書の特徴ベクトルを求める文書主成分分析手段１１４と、文書主成分分析手段１１４の分析結果である、各文書の特徴ベクトルと各主軸の寄与率とを格納する文書主成分分析結果ファイル１１５と、文書番号の列、またはキーワードの列のいずれかの形式で新聞記事全文データベース１０１に対する類似記事検索・関連キーワード抽出条件を入力する条件入力手段１１６と、条件入力手段１１６から文書番号の列が入力された場合には、文書主成分分析結果ファイル１１５の該当する文書特徴ベクトルから入力された文書番号の列に対する検索条件特徴ベクトルを算出し、条件入力手段１１６からキーワードの列が入力された場合には、キーワード重みファイル１０７とキーワード主成分分析結果ファイル１１３とからキーワードの列に対する検索条件特徴ベクトルを算出する検索条件特徴ベクトル算定手段１１７と、条件入力手段１１６から文書番号の列が入力された場合には、文書長ファイル１０５と文書主成分分析結果ファイル１１５とを用いて入力された文書番号の列に対する抽出条件特徴ベクトルを算出し、条件入力手段１１６からキーワードの列が入力された場合には、キーワード主成分分析結果ファイル１１３の該当するキーワード特徴ベクトルから入力されたキーワードの列に対する抽出条件特徴ベクトルを算出する抽出条件特徴ベクトル算定手段１１８と、検索条件特徴ベクトル算定手段１１７が算出した検索条件特長ベクトルと、文書主成分分析結果ファイル１１５中の各文書特徴ベクトルとの内積（複数の文書が指定された場合には内積の最大値）を計算し、最も内積の大きいＲ個の文書（取得文書数Ｒは予め定めた外部パラメータ）の文書番号を決定する第１の類似文書検索手段１１９と、検索条件特徴ベクトル算定手段１１７が算出した検索条件特長ベクトルと、文書主成分分析結果ファイル１１５中の各文書特徴ベクトルとの距離（複数の文書が指定された場合には距離の最小値）を計算し、最も距離の小さいＲ個の文書の文書番号を決定する第２の類似文書検索手段１２０と、抽出条件特徴ベクトル算定手段１１８が算出した抽出条件特長ベクトルと、キーワード主成分分析結果ファイル１１３中の各キーワード特徴ベクトルとの内積（複数のキーワードが指定された場合には内積の最大値）を計算し、最も内積の大きいＳ個のキーワード（取得キーワード数Ｓは予め定めた外部パラメータ）を決定する第１の関連キーワード抽出手段１２１と、抽出条件特徴ベクトル算定手段１１８が算出した抽出条件特長ベクトルと、キーワード主成分分析結果ファイル１１３中の各キーワード特徴ベクトルとの距離（複数のキーワードが指定された場合には距離の最小値）を計算し、最も距離の小さいＳ個のキーワードを決定する第２の関連キーワード抽出手段１２２と、検索されたＲ件の類似記事の文書番号、見出し及び本文、並びに抽出されたＳ個の関連キーワードを、類似度とともに、類似度の高い順に表示する結果表示手段１２３とを備えている。
【００３０】
以上の構成を備えた類似文書検索・関連キーワード抽出システムの動作について説明する。
【００３１】
初めに、このシステムの動作の概略を説明する。このシステムでは、新聞記事全文データベース１０１の中から記事を検索する場合に、条件入力手段１１６から、検索しようとする記事に類似する記事の文書番号を、例えば（２，４，９，‥）と云うように入力すると、それらの記事に類似する記事が検索され、また、それらの記事に関連するキーワードが抽出され、結果表示手段１２３に、検索された類似文書と抽出された関連キーワードとが表示される。また、条件入力手段１１６から、キーワードの列を、例えば（ＩＴ，インターネット，‥）と云うように入力した場合には、それらのキーワードを含む記事に類似する記事が検索され、また、それらの記事に関連するキーワードが抽出され、検索された類似文書と抽出された関連キーワードとが結果表示手段１２３に表示される。
【００３２】
このシステムの動作は、全体として、以下の（イ）、（ロ）、（ハ）の３段階に分かれ、この順に行われる。
（イ）類似文書検索・関連キーワード抽出に先立って、新聞記事データベース１０１からキーワードを切り出し、キーワード出現度数、文書長、キーワード重みの３種のデータを作成する。
（ロ）文書、キーワードそれぞれについて、主成分分析の対象となるプロファイルベクトルデータを作成する。文書のプロファイルベクトルデータは、その文書中の各キーワードの相対出現頻度を成分とするベクトルであり、また、キーワードのプロファイルベクトルデータは、文書データベースの各文書におけるそのキーワードの相対出現頻度を成分とするベクトルである。次いで、文書長とキーワード重みとを考慮してそれぞれのプロファイルベクトルデータの主成分分析を行い、各文書及びキーワードの特徴ベクトル（特徴的な成分のみを持つベクトル）を求める。
（ハ）類似文書検索・関連キーワード抽出条件が入力されると、入力の種類（文書番号かキーワードか）に応じて、類似文書の検索条件及び関連キーワードの抽出条件の特徴ベクトルを、（ロ）の分析結果、文書長、及びキーワード重みを使って算出し、検索条件特徴ベクトルと各文書の文書特徴ベクトルとの類似度、また抽出条件特徴ベクトルと各キーワードのキーワード特徴ベクトルとの類似度、関連度をベクトル間の内積または距離から算出して、類似する文書、関連するキーワードを指定された個数だけ類似度と共に表示する。
【００３３】
また、上記の動作の前には、予め以下のパラメータを設定しておく。
・文書長算出モード（「文字数」、または「単語数」）
着目新聞記事の文書長の基になるデータを決めるパラメータで、「文字数」の場合には、着目新聞記事の文書長を、記事本文の文字数から算出し、「単語数」の場合には、着目新聞記事の文書長を、記事本文から切り出したキーワードの「のべ数」から算出する。
・文書長しきい値（ｌ_０）
着目新聞記事の文書長を算出する際に、文書長の下限を定める非負の整数値であるパラメータで、文字数またはキーワードのべ数が、文書長しきい値ｌ_０より小さければ、実際の文字数またはキーワードのべ数ではなく、文書長しきい値ｌ_０を用いて文書長を算出する。
・文書長べき乗根数（δ）
着目新聞記事の文書長を算出する際に、文書長の基になるデータから文書長の値を決める非負の整数値であるパラメータで、着目新聞記事の文書長を、文字数またはキーワードのべ数のδ乗根として算出する。ただし、文字数またはキーワードのべ数が文書長しきい値より小さい場合には、文書長しきい値のδ乗根として着目新聞記事の文書長を算出する。
・キーワード重み算出モード（「１＋ｌｏｇ」または「ｌｏｇ」）
着目キーワードの重みの算出方法を定める第１のパラメータで、「１＋ｌｏｇ」モードの場合には、全文書数Ｎを前記着目キーワードの出現する文書数ｎで除した値Ｎ／ｎの、２を底とする対数に１を加えた、１＋ｌｏｇ_２（Ｎ／ｎ）によって着目キーワードの重みを算出し、「ｌｏｇ」モードの場合には、全文書数Ｎに１を加えた（Ｎ＋１）を、前記着目キーワードの出現する文書数ｎで除した値（Ｎ＋１）／ｎの、２を底とする対数、ｌｏｇ_２（（Ｎ＋１）／ｎ）によって着目キーワードの重みを算出する。ただし、キーワード重みオフセットεが０でない場合には、全文書数Ｎ及び出現文書数ｎを修正した値を基にキーワード重みを算出する。
・キーワード重みオフセット（ε）
着目キーワードの重みの算出方法を定める第２のパラメータで、キーワード重みを算出する際、全文書数Ｎ及び着目キーワードの出現文書数ｎの双方に対し、キーワード重みオフセットεを加えたＮ＋ε、ｎ＋εを、全文書数、及び着目キーワードの出現文書数として用いて、前記キーワード重み算出モードに従ってキーワード重みを算出する。
・分析次元（Ｋ）
主成分分析を行う際の分析の次元を定める正の整数値であるパラメータで、相関行列データの固有値・固有ベクトルを、最大Ｋ個求め、文書、キーワードの特徴ベクトルをＫ次元で表現することを指定する。
・文書類似度算出モード（「内積」または「距離」）
第１の類似文書検索手段１１９、第２の類似文書検索手段１２０のいずれの結果を類似文書検索結果として結果表示手段１２３に表示するかを定めるパラメータで、「内積」モードの場合には、第１の類似文書検索手段１１９の検索結果を用い、「距離」モードの場合には、第２の類似文書検索手段１２０の検索結果を用いる。
・キーワード関連度算出モード（「内積」または「距離」）
第１の関連キーワード抽出手段１２１、第２の関連キーワード抽出手段１２２のいずれの結果を関連キーワード抽出結果として結果表示手段１２３に表示するかを定めるパラメータで、「内積」モードの場合には、第１の関連キーワード抽出手段１２１の抽出結果を用い、「距離」モードの場合には、第２の関連キーワード抽出手段１２２の抽出結果を用いる。
・表示類似文書数（α）
類似文書検索の結果の表示件数を定めるパラメータで、類似度の大きい順にα件の文書が表示される。
・表示関連キーワード数（β）
関連キーワード抽出の結果の表示キーワード数を定めるパラメータで、関連度の大きい順にβ個のキーワードが表示される。
【００３４】
上記のパラメータを設定したら、設定したパラメータに従って（イ）、（ロ）の動作を順に行い、新聞記事データベース１０１を分析し、類似文書検索・関連キーワード抽出の準備が完了する。この時点で、条件入力手段１１６から類似文書検索・関連キーワード抽出条件が入力されると、（イ）、（ロ）で分析した結果を用い、設定したパラメータに従って（ハ）の動作を行って類似する文書、関連するキーワードを求めて結果表示手段１２３に表示する。同一の新聞記事データベース１０１に対して複数回の類似文書検索・関連キーワード抽出を行う際には、（イ）、（ロ）の分析処理は１回でよく、（ハ）の処理が必要な回数だけ繰り返されることになる。
【００３５】
以上で、システムの動作の概略の説明を終わり、（イ）、（ロ）、（ハ）の順に、システムの動作の詳細を説明する。
【００３６】
はじめに、（イ）の処理である、新聞記事データベース１０１からのキーワードを切り出し、キーワード出現度数、文書長、キーワード重みの３種のデータの作成について、図面をもとに説明する。
【００３７】
図２は、新聞記事全文データベース１０１の内容の一部の例である。図のように、新聞記事全文データベース１０１は電子計算機で通常編集・閲覧が可能なテキスト形式であり、各新聞記事を１文書、即ち検索の単位として、合計２０万個の新聞記事が文書番号の昇順に配列されている。各新聞記事は、文書番号、見出し、本文という３つのフィールドに分かれており、３種のフィールドが、この順に、タブ文字（制御文字の一種、図中では＜ＴＡＢ＞と表記）で連結され、文書と次の文書は改ページ文字（やはり制御文字の一種、図中では＜ＦＦ＞と表記）で連結されているものとする。文書番号は先頭の新聞記事の文書番号を１とし、末尾（２０万番目）の新聞記事の文書番号を２０００００とした、連続する整数値を表す文字列になっているものとする。
【００３８】
この新聞記事全文データベースは、まずキーワード抽出集計手段１０２に入力される。
【００３９】
図３は、キーワード抽出集計手段１０２の内部構造を表すブロック図であり、破線の内部がキーワード抽出集計手段１０２に相当する。図において、３０１は単語切り出し手段、３０２は単語辞書、３０３はキーワード選別手段、３０４は不要語辞書、３０５はキーワード集計手段である。
【００４０】
まず、単語切り出し手段３０１で、新聞記事全文データベース１０１から１文書分を読み込み、キーワードの候補となる単語（形態素）が切り出される。本発明の類似文書検索装置及び関連キーワード抽出装置は、特定の単語切り出し方法に依存するものではなく、例えば「松本裕治、影山太郎、永田昌明、齋藤洋典、徳永健伸著、“岩波講座・言語の科学３・単語と辞書”、１９９７年岩波書店刊」に記載されている、辞書と、接続コストあるいは統計言語モデルとに基づく形態素解析による単語切り出し方法や、特開平１０−６９４９３号公報に開示されている、「極大切り出し」方式による、辞書のみを用いた単語切り出し方法など、従来から開発されてきた種々の方法を利用することができる。本実施例においては、特開平１０−６９４９３号公報に開示されている、「極大切り出し」方式により、単語辞書３０２を用いて単語を切り出すものとする。単語が切り出されると、キーワード選別手段３０３が、不要語辞書３０４を引いて、切り出された単語が不要語、即ち「類似文書検索や関連キーワード抽出に際して不要な単語であるか否か」を判定し、不要語ではないと判定した単語をキーワードとして認定し、新規のキーワードについては認定順に１からキーワード番号を付与するとともに、キーワード集計手段３０５によって１文書（１新聞記事）内のキーワードの出現度数を集計する。１文書の全ての文字列の処理が終了したら、１文書分の集計結果を、キーワード出現度数ファイル１０３に出力し、次の文書の処理を開始する。
【００４１】
以上のような動作によって、新聞記事全文データベース１０１中の全ての文書を文書番号の順に処理し、キーワード出現度数ファイル１０３が作成される。
【００４２】
図４は、このような処理の一例を示している。図の「単語切り出し結果」の中が、左側の単語辞書を用いて文書番号１の文書の本文フィールドから極大単語切り出し方式による切り出し結果の例（一部）であり、下線を引いた単語（文字列）が辞書にある単語であることを表し、四角で囲んだ文字列が、切り出し単語の文字列を表現している。この切り出し結果のうちで、不要語である「の」や「や」などを取り除き、出現度数を集計すると、「文書１のキーワード集計結果」が得られる。
【００４３】
次に、文書長算定手段１０４が、予め設定した、文書長算出モード、文書長しきい値（ｌ_０）及び文書長べき乗根数（δ）の３種のパラメータに従って、各文書の文書長を算出する。図５は、着目文書に対して文書長を算出する手順を示す流れ図である。図５において、
ステップ５０１：文書長算出モードが「文字数」か「単語数」かに応じて、それぞれステップ５０２及びステップ５０３に分岐する。
ステップ５０２：文書長算出モードが「文字数」の場合は、新聞記事全文データベース１０１を参照して得られる、着目文書の本文フィールドの文字数をｌとし、
ステップ５０３：文書長算出モードが「単語数」の場合は、キーワード出現度数ファイル１０３を参照して得られる、着目文書の本文フィールドから切り出されたキーワードの「のべ数」をｌとする。
ステップ５０４：ステップ５０２あるいはステップ５０３で算出したｌと文書長しきい値ｌ_０とを比較し、ｌがｌ_０未満であれば、
ステップ５０５：ｌ_０を改めてｌとし、
ステップ５０６：ｌのδ乗根を改めてｌとおき、このｌを着目文書の文書長として文書長ファイル１０５に記録する。
【００４４】
このような処理によって、例えば文書長算出モードを「文字数」に、文書長しきい値ｌ_０を２００に、文書長べき乗根数δを０．５に、それぞれ設定した場合には、図２の文書１の文書長は、本文フィールドの文字数が３９６文字なので、文書長は１９．９０と算出され、図２の文書３の文書長は、文字数が３０２なので、１７．３８と算出されることになる。上記の処理を、全ての文書について文書番号の順に行い、文書長ファイル１０５を作成する。
【００４５】
文書長の算定処理と並行して、キーワード重み算定手段１０６が、予め設定した、キーワード重み算出モードとキーワード重みオフセット（ε）の２種のパラメータに従って、各キーワードの重みを算出する。図６は、あるキーワードｔに対して、キーワード重みを算出する手順を示す流れ図である。図６において、
ステップ６０１：キーワード出現度数ファイル１０３を参照して、着目キーワードｔが出現する文書数ｒを算出し、
ステップ６０２：出現文書数ｒにキーワード重みオフセットεを加えた値を改めてｒとし、全文書数Ｎにキーワード重みオフセットεを加えた値をｓとする。
ステップ６０３：キーワード重み算出モードが「１＋ｌｏｇ」か「ｌｏｇ」かに応じて、それぞれステップ６０４及びステップ６０５に分岐する。
【００４６】
ステップ６０４：キーワード重み算出モードが「１＋ｌｏｇ」のときは、１＋ｌｏｇ_２（ｓ／ｒ）の値を計算してｗとし、
ステップ６０５：キーワード重み算出モードが「ｌｏｇ」のときは、ｌｏｇ_２（（ｓ＋１）／ｒ）の値を計算してｗとし、
ステップ６０６：算出した値ｗを、着目キーワードｔのキーワード重みとしてキーワード重みファイル１０７に出力する。
【００４７】
上記の処理を、全てのキーワードについて、キーワード番号の順に行い、キーワード重みファイル１０７を作成する。
【００４８】
このような処理によって、例えばキーワード重み算出モードを「１＋ｌｏｇ」に、キーワード重みオフセットεを１０に設定した場合、「ＩＴ技術」というキーワードが２２の新聞記事の本文に出現していたとすると、「ＩＴ技術」のキーワード重みは１３．６１となり、「国内」というキーワードが２５１９の新聞記事の本文に出現していたとすると、「国内」のキーワード重みは７．３１となる。このようにして、（イ）の処理が完了し、キーワード出現度数ファイル１０３、文書長ファイル１０５、及びキーワード重みファイル１０７が作成される。
【００４９】
続いて（ロ）の処理である、文書／キーワードのプロファイルベクトルデータの作成と、その主成分分析、ならびに各文書／キーワードの特徴ベクトルデータの作成について、図面をもとに説明する。
【００５０】
図７は、文書プロファイルベクトルデータ算出の手順を示す流れ図である。図７において、
ステップ７０１：プロファイルベクトルを作成すべき着目文書番号ｄを１に初期化し、
ステップ７０２：ｄが全文書数Ｎより大きい場合には、ステップ７０３に分岐して算出処理を終了させる。ｄがＮ以下の場合には、
ステップ７０４：キーワード番号ｔを１に、正規化因子ｓを０に、それぞれ初期化し、
ステップ７０５：文書ｄのキーワードｔの出現度数ｆ_ｄｔをキーワード出現度数ファイル１０３から取得して正規化因子ｓに足しこみ、
ステップ７０６：着目キーワード番号ｔを１増やし、
ステップ７０７：ｔが全キーワード数Ｍ以下の場合にはステップ７０５に戻って次のキーワードについての処理を行う。
【００５１】
こうして、ステップ７０４〜ステップ７０７では、文書ｄに出現するキーワードの「のべ数」を求め、これを正規化因子ｓとしていることになる。
【００５２】
このようにして、文書プロファイルベクトル算出モードに従って正規化因子ｓが求まったならば、
ステップ７０８：文書ｄの文書プロファイルベクトルを、相対出現頻度のベクトル（８ｆ_ｄ１／ｓ，…，ｆ_ｄＭ／ｓ）で算出して、文書プロファイルベクトルファイル１１１に出力し、
ステップ７０９：着目文書番号ｄを１増やし、ステップ７０２に戻って次の文書についての処理を続ける。
【００５３】
上記の処理によって、文書プロファイルベクトルファイル１１１を作成する。例えば、図２の新聞記事全文データベースの文書１の文書プロファイルベクトルは、正規化因子ｓの値の計算値が９２となったとすると、図４の単語辞書のキーワード番号を用いて、
（２／９２，０，１／９２，１／９２，１／９２，０，０，１／９２，……）
のように算出されることになる。ここで、上記の文書プロファイルベクトルの第１成分はキーワード番号１の「あいさつ」に、第２成分はキーワード番号２の「ＩＴ」に、第３成分はキーワード番号３の「ＩＴ技術」に、それぞれ対応している。
【００５４】
文書プロファイルベクトルファイル１１１の作成と並行して、キーワードプロファイルベクトルファイル１０９の作成を行う。図８は、キーワードプロファイルベクトルデータ算出の手順を示す流れ図である。図８において、
ステップ８０１：プロファイルベクトルを作成すべき、着目キーワード番号ｔを１に初期化し、
ステップ８０２：ｔが全キーワード数Ｍより大きい場合には、ステップ８０３に分岐して算出処理を終了させる。ｔがＭ以下の場合には、
ステップ８０４：文書番号ｄを１に、正規化因子ｓを０に、それぞれ初期化し、
ステップ８０５：キーワードｔの文書ｄ中での出現度数ｆ_ｄｔをキーワード出現度数ファイル１０３から取得して正規化因子ｓに足し込み、
ステップ８０６：着目文書番号ｄを１増やし、
ステップ８０７：ｄが全文書数Ｎ以下の場合にはステップ８０５に戻って次の文書についての処理を行う。
【００５５】
こうして、ステップ８０４〜ステップ８０７では、キーワードｔの出現する文書の「のべ数」を求め、これを正規化因子ｓとしていることになる。
【００５６】
このようにして、キーワードプロファイルベクトル算出モードに従って正規化因子ｓが求まったならば、
ステップ８０８：キーワードｔのキーワードプロファイルベクトルを、相対出現頻度のベクトル（ｆ_１ｔ／ｓ，…，ｆ_Ｎｔ／ｓ）で算出して、キーワードプロファイルベクトルファイル１０９に出力し、
ステップ８０９：着目キーワード番号ｔを１増やし、ステップ８０２に戻って次のキーワードについての処理を続ける。
【００５７】
上記の処理によって、キーワードプロファイルベクトルファイル１０９を作成する。
【００５８】
例えば、図２の新聞記事全文データベースのキーワード番号１の「あいさつ」のキーワードプロファイルベクトルは、正規化因子ｓの値の計算値が２８３となったとすると、
（１／２８３，０，０，０，０，０，１／２８３，……）
のように算出されることになる。ここで、上記のキーワードプロファイルベクトルの第１成分は文書番号１の新聞記事中での「あいさつ」の相対出現頻度に、第２成分は文書番号２の新聞記事中での「あいさつ」の相対出現頻度に、それぞれ対応する。
【００５９】
このように、「あいさつ」というキーワードの文書１での出現頻度の値が、文書側とキーワード側とで、異なる値に変換されてベクトルに組み込まれていることから、従来のＬＳＩ法でのキーワード出現度数データの変換方法とは異なり、主成分分析などの統計分析を施す前の文書、単語のベクトル表現が、本質的に異なるものになっていることが分かる。
【００６０】
さらに、文書プロファイルベクトル、キーワードプロファイルベクトルのいずれも、文書長やキーワード重みには依存せずに定まっていることが分かる。
【００６１】
文書、キーワードのそれぞれについてプロファイルベクトルファイルが作成できたら、次に、文書長とキーワード重みとを考慮してそれぞれのプロファイルベクトルデータの主成分分析を文書主成分分析手段１１４、キーワード主成分分析手段１１２において行い、各文書、キーワードの特徴ベクトル（Ｋ次元、「分析次元」パラメータとして予め定める）と、各次元の寄与度とを求める。
【００６２】
文書データの主成分分析にあたっては、
（１）新聞記事全文データベース１０１中の２つの文書ａ，ｂの文書プロファイルベクトルＰ_ａ，Ｐ_ｂ間の内積を、
・キーワード重みファイル１０７中に格納されている各キーワードｔの重みｗ_ｔ
・文書プロファイルベクトルＰ_ａ，Ｐ_ｂの成分ｐ_ａｔ，ｐ_ｂｔのばらつき度合い（即ち、標準偏差の評価値）である、キーワードｔの新聞記事全文データベース１０１中での全出現度数ｈ_ｔの、全キーワードの総出現度数ｆに対する割合ｈ_ｔ／ｆの平方根の２つの因子を考慮した、成分の重みつき積和
Σｗ_ｔ＊ｆ／ｈ_ｔ＊ｐ_ａｔ＊ｐ_ｂｔ［数２］
（Σはｔ＝１からＭまで加算）
で算出する。
（２）文書長ｌ_ｄの文書ｄの文書プロファイルベクトルが、文書ｄに出現する全キーワード数ｇ_ｄを文書ｄの文書長ｌ_ｄで除した、ｇ_ｄ／ｌ_ｄに比例した個数だけ、主成分分析対象となる文書プロファイルベクトル集団に含まれていると見なして、主成分分析を実行する。
の２点を基本方針として分析処理を行う。
【００６３】
上記２点の意味するところは以下のとおりである。まず、上記の（１）は、Ｍ次元の文書プロファイルベクトルの空間のＭ本の座標軸（各キーワードに対応する）の「目盛り」がそれぞれ異なっている「ゆがんだ空間」であって、かつ各キーワードｔに関する座標軸が１本ではなく、キーワードの重みｗ_ｔに比例した本数分ある、と見なして内積を求めることに相当する。即ち、出現頻度に応じた各成分（＝各キーワード）のばらつきが一定になるように、双方の文書プロファイルベクトルの成分を（ｈ_ｔ／ｆ）^１／２で除して掛け合わせ、さらにこの積がｗ_ｔ個あるとして、キーワード重みを文書プロファイルベクトル間の内積に直接的に反映させる。
【００６４】
また、上記の（２）は、各文書の重要度を、ｇ_ｄ／ｌ_ｄ、即ち単位文書長当たりに出現するキーワードの「のべ数」、つまりキーワードの出現密度として、Ｎ個の文書プロファイルベクトルの主成分分析の際に、各文書ｄのプロファイルベクトルが、この重要度に応じた本数だけ含まれているとして統計分析処理を行うことで、重要度の大きな文書を重視した分析がなされ、分析結果である特徴ベクトルに、間接的に各文書の重要度を反映させる。
【００６５】
なお、文書プロファイルベクトルＰ_ａ，Ｐ_ｂの成分ｐ_ａｔ，ｐ_ｂｔのばらつき度合い、即ち標準偏差の評価値である「ｈ_ｔ／ｆの平方根」という式は、各キーワードｔの文書ｄ中の出現確率を、平均及び分散が（ｇ_ｄ＊ｈ_ｔ）／ｆのポアソン分布で近似することによって導出することができる。ただし、ｇ_ｄは文書ｄ中に出現するキーワードの「のべ数」であり、ｆは新聞記事全文データベース中に出現するキーワードの「のべ数」である。
【００６６】
図９は、このような考え方をもとにして、文書主成分分析手段１１４において、主成分分析を実行する手順を示した流れ図である。図９において、
ステップ９０１：まず、上記（１）の「ゆがんだ空間」を通常の空間、即ち、ベクトルの内積が成分の積和で求まるような空間に変形するような座標変換を、各文書プロファイルベクトルＰ_ｄに施し、
Ｘｄ＝ｆ^１／２＊Ｗ^１／２＊Ｈ^−１／２＊Ｐ_ｄ［数３］
によって、変換後の文書プロファイルベクトルＸ_ｄを計算する。ただし、ｆ^１／２は新聞記事全文データベース中に出現するキーワードの「のべ数」ｆの平方根，Ｗ^１／２はキーワードｔのキーワード重みｗ_ｔの平方根ｗ_ｔ ^１／２をｔ行ｔ列の要素とするＭ行Ｍ列の対角行列、Ｈ^−１／２はキーワードｔの新聞記事全文データベース中での全出現度数ｈ_ｔの平方根の逆数ｈ_ｔ ^−１／２をｔ行ｔ列の要素とするＭ行Ｍ列の対角行列である。この変換を施すことにより、変換後の文書プロファイルベクトルＸ_ｄの内積が成分の積和で求まることは容易に確かめることができる。
【００６７】
ステップ９０２：次いで、数３のＸ_ｄを第ｄ列に持つＭ行Ｎ列の行列Ｘと、その転置行列Ｘ’から、
Ａ＝Ｘ＊（Ｇ＊Ｌ^−１）＊Ｘ’ ［数４］
という、重み付きの文書相関行列データＡを計算する。ただし、Ｇは、文書ｄ中に出現するキーワードの「のべ数」ｇ_ｄをｄ行ｄ列に持つＮ行Ｎ列の対角行列、Ｌ^−１は、文書ｄの文書長ｌ_ｄの逆数ｌ_ｄ ^−１をｄ行ｄ列に持つＮ行Ｎ列の対角行列である。
【００６８】
ステップ９０３：続いて、この行列Ａを数値的に固有値分解し、大きい方から順にＫ個の固有値λ_１，λ_２，…，λ_Ｋ及び、固有値に対応する正規化された（即ちノルムが１の）Ｋ本の固有ベクトルＴ_１，Ｔ_２，…Ｔ_Ｋを求める。
【００６９】
ステップ９０４：最後に、各文書ｄの特徴ベクトルＵ_ｄを、変換された文書プロファイルベクトルＸ_ｄの、ステップ９０３で求めたＫ本の固有ベクトルへの射影を成分とするＫ次元ベクトル
Ｕｄ＝（Ｔ_１・Ｘ_ｄ，Ｔ_２・Ｘ_ｄ，… ，Ｔ_Ｋ・Ｘ_ｄ）［数５］
として求めて、Ｋ個の固有値λ_１，λ_２，…，λ_Ｋを「寄与度」として、Ｎ本のＫ次元ベクトルＵ_ｄを各文書の「特徴ベクトル」として文書主成分分析結果ファイル１１５に格納する。
【００７０】
キーワードの主成分分析にあたっては、
（１）新聞記事全文データベース１０１中に現れる２つのキーワードａ，ｂのキーワードプロファイルベクトルＱａ，Ｑｂ間の内積を、
・文書長ファイル１０５中に格納されている各文書ｄの文書長ｌ_ｄ
・キーワードプロファイルベクトルＱ_ａ，Ｑ_ｂの成分ｑ_ａｄ，ｑ_ｂｄのばらつき度合い（即ち標準偏差の評価値）である、文書ｄに出現する、のべキーワード数ｇ_ｄの、全キーワードの総出現度数ｆに対する割合ｇ_ｄ／ｆの平方根
の２つの因子を考慮した、成分の重みつき積和
Σｆ／（ｌ_ｄ＊ｇ_ｄ）＊ｑ_ａｄ＊ｑ_ｂｄ［数６］
で算出する。
（２）キーワード重みｗ_ｔのキーワードｔのキーワードプロファイルベクトルが、キーワードｔの総出現度数ｈ_ｔにキーワードｔの重ｗ_ｔを乗じた、ｈ_ｔ＊ｗ_ｔに比例した個数だけ、主成分分析対象となるキーワードプロファイルベクトル集団に含まれていると見なして、主成分分析を実行する。
の２点を基本方針として分析処理を実行する。
【００７１】
上記２点の意味するところは以下のとおりである。
まず、上記の（１）は、Ｎ次元のキーワードプロファイルベクトルの空間のＮ本の座標軸（各文書に対応する）の「目盛り」がそれぞれ異なっている「ゆがんだ空間」であって、かつ各文書ｄに関する座標軸が１本ではなく、文書長ｌ_ｄの逆数に比例した本数分ある、と見なして内積を求めることに相当する。即ち、出現頻度に応じた各成分（＝各文書中での相対出現頻度）のばらつきが一定になるように、双方のキーワードプロファイルベクトルの成分を（ｇ_ｄ／ｆ）^１／２で除して掛け合わせ、さらにこの積がｌ_ｄ ^−１個あるとして、文書長をキーワードプロファイルベクトル間の内積に直接的に反映させる。
【００７２】
また、上記の（２）は、各キーワードの重要度を、ｈ_ｔ＊ｗ_ｔとして、Ｍ個のキーワードプロファイルベクトルの主成分分析の際に、各キーワードｔのプロファイルベクトルが、この重要度に応じた本数だけ含まれているとして統計分析処理を行うことで、重要度の大きなキーワードを重視した分析がなされ、分析結果である特徴ベクトルに、間接的に各キーワードの重要度を反映させる。
【００７３】
なお、キーワードプロファイルベクトルＱ_ａ，Ｑ_ｂの成分ｑ_ａｄ，ｑ_ｂｄのばらつき度合い、即ち標準偏差の評価値である「ｇ_ｄ／ｆの平方根」という式は、各キーワードｔの文書ｄ中での出現確率を、平均及び分散が（ｇ_ｄ＊ｈ_ｔ）／ｆのポアソン分布で近似することによって導出することができる。ただし、ｇ_ｄは文書ｄ中に出現するキーワードの「のべ数」であり、ｆは新聞記事全文データベース中に出現するキーワードの「のべ数」である。
【００７４】
なお、このキーワード側の分析処理は、従来のＬＳＩ法の場合とは異なり、文書側の分析処理に影響を与えることなく行うことが可能になっている。
【００７５】
図１０は、このような考え方をもとにして、キーワード主成分分析手段１１２において、主成分分析を実行する手順を示した流れ図である。図１０において、
ステップ１００１：まず、上記（１）の「ゆがんだ空間」を通常の空間、即ち、ベクトルの内積が成分の積和で求まるような空間に変形するような座標変換を、各キーワードプロファイルベクトルＱ_ｔに施し、
Ｙ_ｔ＝ｆ^１／２＊Ｌ^−１／２＊Ｇ^−１／２＊Ｑ_ｄ［数７］
によって、変換後のキーワードプロファイルベクトルＹ_ｔを計算する。ただし、ｆ^１／２は新聞記事全文データベース中に出現するキーワードの「のべ数」ｆの平方根、Ｌ^−１／２は文書ｄの文書長ｌ_ｄの平方根の逆数ｌ_ｄ ^−１／２をｄ行ｄ列の要素とするＮ行Ｎ列の対角行列，Ｇ^−１／２は文書ｄに出現するキーワードの「のべ数」ｇ_ｄの平方根の逆数ｇ_ｄ ^−１／２をｄ行ｄ列の要素とするＮ行Ｎ列の対角行列である。この変換を施すことにより、変換後のキーワードプロファイルベクトルＹ_ｔの内積が成分の積和で求まることは容易に確かめることができる。
【００７６】
ステップ１００２：次に、数７のＹ_ｔを第ｄ列に持つＭ行Ｎ列の行列Ｙと、その転置行列Ｙ’から、
Ｂ＝Ｙ＊（Ｈ＊Ｗ）＊Ｙ’ ［数８］
という、重み付きのキーワード相関行列データＢを計算する。ただし、Ｈは、キーワードｔの総出現度数ｈ_ｔをｔ行ｔ列に持つＭ行Ｍ列の対角行列、Ｗは、キーワードｔの重みｗ_ｔをｔ行ｔ列に持つＭ行Ｍ列の対角行列である。
【００７７】
ステップ１００３：続いて、この行列Ｂを数値的に固有値分解し、大きい方から順にＫ個の固有値θ_１，θ_２，…，θ_Ｋ及び、固有値に対応する正規化された（即ち、ノルムが１の）Ｋ本の固有ベクトルＺ_１，Ｚ_２，…Ｚ_Ｋを求める。
【００７８】
ステップ１００４：最後に、各キーワードｔの特徴ベクトルＶ_ｔを、変換されたキーワードプロファイルベクトルＹ_ｔの、ステップ１００３で求めたＫ本の固有ベクトルへの射影を成分とするＫ次元ベクトル
Ｖ_ｔ＝（Ｚ_１・Ｙ_ｔ，Ｚ_２・Ｙ_ｔ，… ，Ｚ_Ｋ・Ｙ_ｔ）［数９］
として求めて、Ｋ個の固有値θ_１，θ_２，…，θ_Ｋを「寄与度」として、Ｍ本のＫ次元ベクトルＶ_ｔを各キーワードの「特徴ベクトル」として、キーワード主成分分析結果ファイル１１３に格納する。
【００７９】
以上のようにして、（ロ）の処理が完了し、キーワードプロファイルベクトルファイル１０９、文書プロファイルベクトルファイル１１１を経由して、キーワード主成分分析結果ファイル１１３及び文書主成分分析結果ファイル１１５が作成され、検索／抽出条件を受け付ける準備が整ったことになる。
【００８０】
この時点で、類似文書検索・関連キーワード抽出条件が文書番号の列、またはキーワードの列のいずれかの形式で条件入力手段１１６に入力されると、（ハ）の類似文書検索・関連キーワード抽出処理が行われる。
【００８１】
このうち、まず類似文書検索処理について、図面をもとに説明する。図１１は、検索条件特徴ベクトル算定手段１１７における検索条件特徴ベクトル算出の手順を示す流れ図である。図１１において、
ステップ１１０１：条件入力手段１１６からの入力文字列が文書番号の列か否かを判定し、入力が文書番号の列であると判定した場合には、ステップ１１０２に分岐し、そうでない場合には、入力はキーワードの列であると見なしてステップ１１０３に分岐する。具体的には、「０」から「９」までの数字列が１個以上、カンマ「，」で結合された文字列の場合には、入力文字列は文書番号の列であると判定することにする。
【００８２】
ステップ１１０２：入力文字列が文書番号の列のときは、文書主成分分析結果ファイル１１５を参照して、入力された文書番号の列に含まれる文書ｄの特徴ベクトルＵ_ｄを取得し、その平均ベクトルＲ（各文書特徴ベクトルの和に、文書数ｒの逆数を乗じたベクトル）を算出する。
【００８３】
ステップ１１０３：入力文字列がキーワードの列のときは、入力されたキーワードの列に含まれるｒ個のキーワードのキーワード番号に相当する成分のみが１／ｒであるようなＭ次元のベクトルＥを作成し、
ステップ１１０４：キーワード主成分分析結果ファイル１１３、及びキーワード重みファイル１０７を参照して
Ｒ＝Θ^−１＊Ｖ＊Ｗ＊Ｅ［数１０］
によって、Ｋ次元のベクトルＲを算出する。ただし、Θ^−１はキーワード特徴ベクトルの各次元の寄与度θ_ｊの逆数θ_ｊ ^−１をｊ行ｊ列に持つＫ行Ｋ列の対角行列、Ｖは、キーワード番号ｔのキーワード特徴ベクトルＶ_ｔを第ｔ列に持つＫ行Ｍ列のキーワード特徴行列、Ｗは各キーワードの重みｗ_ｔをｔ行ｔ列に持つＭ行Ｍ列の対角行列である。
【００８４】
ステップ１１０５：ステップ１１０２、あるいはステップ１１０３〜１１０４で作成したＫ次元ベクトルＲを検索条件特徴ベクトルとして、第１、第２の類似文書検索手段１１９、１２０に出力する。
【００８５】
なお、ステップ１１０４においてベクトルＲを求める際には、０でないＥの成分に対応するキーワード重みｗ_ｔ、及びキーワード特徴ベクトルＶ_ｔのみを、それぞれキーワード重みファイル１０７及びキーワード主成分分析結果ファイル１１３から取得すればよく、入力キーワード数ｒが数十個以下の場合には、ベクトルＲの計算は高速に実行することができる。
【００８６】
このようにして、検索条件特徴ベクトル算定手段１１７において検索条件特徴ベクトルＲが求まると、第１の類似文書検索手段１１９では、文書主成分分析結果ファイル１１５に格納されている文書特徴ベクトルＵ_ｄとＲとの内積の値が最も大きいα個（αは予め「表示類似文書数」パラメータとして設定しておく）の文書が計算され、α個の組（文書番号、Ｒとの内積）が結果表示手段１２３に送られる。
【００８７】
同時に、第２の類似文書検索手段１２０では、文書主成分分析結果ファイル１１５に格納されている文書特徴ベクトルＵ_ｄとＲとの距離の値が最も小さいα個の文書が計算され、α個の組（文書番号、Ｒとの距離）が結果表示手段１２３に送られる。
【００８８】
ここで、ベクトルＲに対して、内積が最も大きい、あるいは距離が最も小さいベクトルを、多数のベクトル中から効率よく求める方法については、例えば特願平１１−３６３０５８号「ベクトル索引作成方法と類似ベクトル検索方法」に開示されており、この方法、あるいはその他、従来から知られているベクトル検索方法を援用することで、効率よくα個の類似文書を求めることができる。そのような類似ベクトルの高速検索方法の詳細は、本発明の骨子に影響を与えるものではないため、詳細な説明は省略する。
【００８９】
次に、関連キーワード抽出処理について、図面をもとに説明する。図１２は、抽出条件特徴ベクトル算定手段１１８における抽出条件特徴ベクトル算出の手順を示す流れ図である。図１２において、
ステップ１２０１：条件入力手段１１６からの入力文字列が文書番号の列か否かを判定し、入力がキーワードの列であると判定した場合には、ステップ１２０２に分岐し、そうでない場合には、入力は文書番号の列であると見なしてステップ１２０３に分岐する。具体的には、「０」から「９」までの数字列が１個以上、カンマ「，」で結合された文字列の場合には、入力文字列は文書番号の列であると判定し、それ以外の場合には入力文字列はキーワードの列であると判定することにする。
【００９０】
ステップ１２０２：入力文字列がキーワードの列であるときは、キーワード主成分分析結果ファイル１１３を参照して、入力されたキーワードの列に含まれるキーワードｔの特徴ベクトルＶ_ｔを取得し、その平均ベクトルＲ（各キーワード特徴ベクトルの和に、キーワード数ｒの逆数を乗じたベクトル）を算出する。
【００９１】
ステップ１２０３：入力文字列が文書番号の列であるときは、入力された文書番号の列に含まれるｒ個の文書の文書番号に相当する成分のみが１／ｒであるような、Ｎ次元のベクトルＥを作成し、
ステップ１２０４：文書主成分分析結果ファイル１１５、及び文書長ファイル１０５を参照して
Ｒ＝Λ^−１＊Ｕ＊Ｌ^−１＊Ｅ［数１１］
によって、Ｋ次元のベクトルＲを算出する。ただし、Λ^−１は文書特徴ベクトルの各次元の寄与度λ_ｊの逆数λ_ｊ ^−１をｊ行ｊ列に持つＫ行Ｋ列の対角行列、Ｕは、文書番号ｄの文書特徴ベクトルＵ_ｄを第ｄ列に持つＫ行Ｎ列の文書特徴行列、Ｌ^−１は各文書ｄの文書長ｌ_ｄをｄ行ｄ列に持つＮ行Ｎ列の対角行列である。
【００９２】
ステップ１２０５：ステップ１２０２、あるいはステップ１２０３〜１２０４で作成したＫ次元ベクトルＲを抽出条件特徴ベクトルとして、第１、第２の関連キーワード抽出手段１２１、１２２に出力する。
【００９３】
なお、ステップ１２０４においてベクトルＲを求める際には、０でないＥの成分に対応する文書長ｌ_ｄ、及び文書特徴ベクトルＵ_ｄのみを、それぞれ文書長ファイル１０５及び文書主成分分析結果ファイル１１５から取得すればよく、入力文書番号の個数ｒが数十個以下の場合には、ベクトルＲの計算は高速に実行することができる。
【００９４】
このようにして、抽出条件特徴ベクトル算定手段１１８において抽出条件特徴ベクトルＲが求まると、第１の関連キーワード抽出手段１２１では、キーワード主成分分析結果ファイル１１３に格納されているキーワード特徴ベクトルＶ_ｔとＲとの内積の値が最も大きいβ個（βは予め「表示関連キーワード数」パラメータとして設定しておく）のキーワードが計算され、β個の組（キーワード文字列、Ｒとの内積）が結果表示手段１２３に送られる。
【００９５】
同時に、第２の関連キーワード抽出手段１２２では、キーワード主成分分析結果ファイル１１３に格納されているキーワード特徴ベクトルＶ_ｔとＲとの距離の値が最も小さいβ個のキーワードが計算され、β個の組（キーワード文字列、Ｒとの距離）が結果表示手段１２３に送られる。
【００９６】
ここで、ベクトルＲに対して、内積が最も大きい、あるいは距離が最も小さいベクトルを、多数のベクトル中から効率よく求める方法については、例えば特願平１１−３６３０５８号「ベクトル索引作成方法と類似ベクトル検索方法」に開示されており、この方法、あるいはその他、従来から知られているベクトル検索方法を援用することで、効率よくβ個の関連キーワードを求めることができる。そのような類似ベクトルの高速検索方法の詳細は、本発明の骨子に影響を与えるものではないため、詳細な説明は省略する。
【００９７】
このようにして、２種類のα個の類似文書とβ個の関連キーワードとが求まったら、結果表示手段１２３において、文書類似度算出モード（「内積」または「距離」）及びキーワード関連度算出モード（「内積」または「距離」）の、２種のパラメータの設定値に応じて、内積、または距離による結果を選択し、β個のキーワードのキーワード文字列とその類似度の数値とを関連キーワード抽出結果として表示するとともに、α個の文書の文書番号から、新聞記事全文データベース１０１を参照して見出しを求め、α個の文書それぞれについて、「文書番号」、「見出し」、「類似度」の３項目を類似文書検索結果として表示する。
【００９８】
このようにして（ハ）の処理が完了し、ある入力に対する類似文書検索／関連キーワード抽出処理が終了する。
【００９９】
以上で、図１に示す類似文書検索・関連キーワード抽出システムの動作の説明を終わる。
【０１００】
このように、本発明の実施形態における類似文書検索装置及び関連キーワード抽出装置では、着目した文書での各キーワードの出現頻度を文書プロファイルとしてベクトル表現し、また、着目したキーワードの各文書での出現頻度をキーワードプロファイルとしてベクトル表現し、文書長データ、キーワード重みデータ及び成分のばらつき（標準偏差）は、前記ベクトル表現の間の内積（類似度の１つの尺度）計算時の重み（成分の個数）、及び主成分分析時の重み（ベクトルの個数）として各プロファイルに別々に作用させている。
【０１０１】
この場合、文書プロファイル及びキーワードプロファイルでのベクトル表現は、出現頻度の変換（標準化）には依存しない。また、出現頻度の変換に関与する文書長データ、キーワード重みデータ及び成分のばらつきは、前記ベクトルの間の内積計算時の重み、及び主成分分析時の重みとして間接的に作用させているため、各文書及びキーワードの特徴ベクトルは、出現頻度の変換に依存せずに正規化することができる。
【０１０２】
そのため、本発明では、キーワードの出現頻度データＦを直接変換した単一の行列データを統計分析する従来のＬＳＩ法による装置での基本的な課題、即ち、キーワードの出現頻度の変換に伴って生じていた非対称性や、文書の類似度や、キーワードの関連度が、文書／キーワードの併合によって食い違う非安定性などの課題を解決することができ、高精度な類似文書検索装置及び関連キーワード抽出装置を実現することができる。
【０１０３】
なお、本実施の形態においては、単語の切り出し、キーワードの抽出、文書長の算出、及びキーワード重みの算出を、特定の方法によって行っているが、本発明の骨子は、これらの特定の方法に依存するものではなく、文書データベースの種類や検索・抽出条件、検索・抽出意図などに応じて、種々の方法を用いることができ、その場合でも、従来のＬＳＩ法の場合とは異なって、主成分分析結果、ひいては類似文書検索結果や関連キーワード抽出結果に強い悪影響を及ぼすことがなく、いわゆる「穏やかな効き目」となって分析結果、検索／抽出結果に反映される。
【０１０４】
結果として、副作用を気にすることなく、文書データベースの種類や検索・抽出条件、検索・抽出意図などに応じた、単語の切り出し、キーワードの抽出、文書長の算出、キーワード重みの算出の方法を設定することができ、頑健なシステムの構築が可能となる。
【０１０５】
さらに、本実施の形態においては、内積、及び距離の両方の類似度に基づいて、類似文書の検索と関連キーワードの抽出との両方の処理を行うシステムについて説明したが、このうちの一部の機能が不要な場合には、不要な手段やファイルを省いた、図１のサブセットに当たるシステムを構築できることは言うまでもない。
【０１０６】
【発明の効果】
以上の説明から明らかなように、本発明の類似文書検索装置及び関連キーワード抽出装置は、従来技術の課題を克服し、高精度な類似文書の検索及び関連キーワードの抽出を実現することができる。
【０１０７】
特に、大規模な文書データベースを対象とする場合には、副作用を気にすることなく、文書データベースの種類や検索・抽出条件、検索・抽出意図などに応じた、単語の切り出し、キーワードの抽出、文書長の算出、キーワード重みの算出の方法を設定することができ、頑健で高精度なシステムの構築が可能となる。
【図面の簡単な説明】
【図１】第１の実施形態における類似文書検索・関連キーワード抽出システムの全体構成を表わすブロック図、
【図２】新聞記事全文データベースの内容の例、
【図３】キーワード抽出集計手段の内部構造を表わすブロック図、
【図４】キーワード抽出集計処理の一例を示す概念図、
【図５】文書長データの作成手順を記述した流れ図、
【図６】キーワード重みデータの作成手順を記述した流れ図、
【図７】文書プロファイルベクトルデータの作成手順を記述した流れ図、
【図８】キーワードプロファイルベクトルデータの作成手順を記述した流れ図、
【図９】文書プロファイルベクトルデータの主成分分析の手順を記述した流れ図、
【図１０】キーワードプロファイルベクトルデータの主成分分析の手順を記述した流れ図、
【図１１】検索条件特徴ベクトル算出の手順を示した流れ図、
【図１２】抽出条件特徴ベクトル算出の手順を示した流れ図である。
【符号の説明】
１０１新聞記事全文データベース
１０２キーワード抽出集計手段
１０３キーワード出現度数ファイル
１０４文書長算定手段
１０５文書長ファイル
１０６キーワード重み算定手段
１０７キーワード重みファイル
１０８キーワードプロファイルベクトル作成手段
１０９キーワードプロファイルベクトルファイル
１１０文書プロファイルベクトル作成手段
１１１文書プロファイルベクトルファイル
１１２キーワード主成分分析手段
１１３キーワード主成分分析結果ファイル
１１４文書主成分分析手段
１１５文書主成分分析結果ファイル
１１６条件入力手段
１１７検索条件特徴ベクトル算定手段
１１８抽出条件特徴ベクトル算定手段
１１９第１の類似文書検索手段
１２０第２の類似文書検索手段
１２１第１の関連キーワード抽出手段
１２２第２の関連キーワード抽出手段
１２３結果表示手段
３０１単語切り出し手段
３０２単語辞書
３０３キーワード選別手段
３０４不要語辞書
３０５キーワード集計手段

Claims

Ｎ個の文書データを集めた、合計Ｍ種類のキーワードを含む、機械処理可能な文書データベースＤから、前記文書データベースＤに含まれる１つ以上のキーワードｙ₁，…，ｙ_sを検索条件として指定して、前記検索条件と関連する前記文書データベースＤ中の文書を検索する装置であって、
前記文書データベースＤ中の各文書ｄに出現する各キーワードｔの出現度数ｆ_dtを記録したキーワード出現度数データＦを算出するキーワード出現度数算定手段と、
前記各文書ｄの長さｌ_dを記録した文書長データＬを算出する文書長算定手段と、
前記文書データベースＤ中に出現する、Ｍ種類のキーワードについて、各キーワードｔの重みｗ_tを記録したキーワード重みデータＷを算出するキーワード重み算定手段と、
前記各文書ｄについて、着目文書ｄ中の各キーワードｔの相対出現頻度ｐ_dtを成分とするＭ次元の文書プロファイルベクトルＰ_dを算出する文書プロファイルベクトル算定手段と、
前記文書データベースＤ中に出現する各キーワードｔについて、各文書ｄ中での着目キーワードｔの相対出現頻度ｑ_dtを成分とするＮ次元のキーワードプロファイルベクトルＱ_tを算出するキーワードプロファイルベクトル算定手段と、
前記文書データベースＤ中の文書群の文書プロファイルベクトル集団の主成分分析を実施して、前記各文書ｄについて、前記文書プロファイルベクトルＰdに対応する、固定（Ｋ）次元の文書特徴ベクトルＵ_dを求める文書主成分分析手段と、
前記文書データベースＤ中のキーワード群のキーワードプロファイルベクトル集団の主成分分析を実施して、前記各キーワードｔについて、前記キーワードプロファイルベクトルＱ_tに対応する、前記文書特徴ベクトルと同一次元の、固定（Ｋ）次元のキーワード特徴ベクトルＶ_tと、各次元ｊのキーワード寄与度θ_jとを求めるキーワード主成分分析手段と、
キーワードｙ₁，…，ｙ_sを検索条件として受け取り、受け取ったキーワード群の前記単語重みデータと、前記キーワード特徴ベクトルと、前記キーワード寄与度とから、前記検索条件に対応する検索条件特徴ベクトルを算定する検索条件特徴ベクトル算定手段と、
算定された前記検索条件特徴ベクトルと、前記各文書ｄの文書特徴ベクトルとを用いて、前記検索条件と各文書ｄとの類似度を算定し、類似度の高い文書から、指定された文書数だけ求めて出力する類似文書検索手段と
を備えることを特徴とする類似文書検索装置。
前記類似文書検索手段は、前記検索条件特徴ベクトルと、前記各文書ｄの文書特徴ベクトルとの内積の値から、前記検索条件と各文書ｄとの類似度を算定することを特徴とする請求項１に記載の類似文書検索装置。
前記類似文書検索手段は、前記検索条件特徴ベクトルと、前記各文書ｄの文書特徴ベクトルとの距離の値から、前記検索条件と各文書ｄとの類似度を算定することを特徴とする請求項１に記載の類似文書検索装置。
Ｎ個の文書データを集めた、合計Ｍ種類のキーワードを含む、機械処理可能な文書データベースＤから、前記文書データベースＤに含まれる１つ以上の文書ｘ₁，…，ｘ_rを抽出条件として指定し、前記抽出条件の文書群と関連性のある、前記文書データベースＤ中に出現するキーワードを抽出する装置であって、
前記文書データベースＤ中の各文書ｄに出現する各キーワードｔの出現度数ｆ_dtを記録したキーワード出現度数データＦを算出するキーワード出現度数算定手段と、
前記各文書ｄの長さｌ_dを記録した文書長データＬを算出する文書長算定手段と、
前記文書データベースＤ中に出現する、Ｍ種類のキーワードについて、各キーワードｔの重みｗ_tを記録したキーワード重みデータＷを算出するキーワード重み算定手段と、
前記各文書ｄについて、着目文書ｄ中の各キーワードｔの相対出現頻度ｐ_dtを成分とするＭ次元の文書プロファイルベクトルＰ_dを算出する文書プロファイルベクトル算定手段と、
前記文書データベースＤ中に出現する各キーワードｔについて、各文書ｄ中での着目キーワードｔの相対出現頻度ｑ_dtを成分とするＮ次元のキーワードプロファイルベクトルＱ_tを算出するキーワードプロファイルベクトル算定手段と、
前記文書データベースＤ中の文書群の文書プロファイルベクトル集団の主成分分析を実施して、前記各文書ｄについて、文書プロファイルベクトルＰ_dに対応する、固定（Ｋ）次元の文書特徴ベクトルＵ_dと、各次元ｊの文書寄与度λ_jとを求める文書主成分分析手段と、
前記文書データベースＤ中のキーワード群のキーワードプロファイルベクトル集団の主成分分析を実施して、前記文書データベースＤ中の各キーワードｔについて、キーワードプロファイルベクトルＱ_tに対応する、前記文書特徴ベクトルと同一次元の、固定（Ｋ）次元のキーワード特徴ベクトルＶ_tを求めるキーワード主成分分析手段と、
文書ｘ₁，…，ｘ_rを抽出条件として受け取り、受け取った文書群の前記文書長データと、前記文書特徴ベクトルと、前記文書寄与度とから、前記抽出条件に対応する、抽出条件特徴ベクトルを算定する、抽出条件特徴ベクトル算定手段と、
算定された前記抽出条件特徴ベクトルと、前記文書データベースＤ中に出現する各キーワードｔのキーワード特徴ベクトルとを用いて、前記抽出条件と各キーワードｔとの関連度を算定し、関連度の高いキーワードから、指定されたキーワード数だけ求めて出力する関連キーワード抽出手段とを備えることを特徴とする関連キーワード抽出装置。
前記関連キーワード抽出手段は、前記抽出条件特徴ベクトルと、前記文書データベースＤ中に出現する各キーワードｔのキーワード特徴ベクトルとの内積の値から、前記抽出条件と各キーワードｔとの関連度を算定することを特徴とする請求項４に記載の関連キーワード抽出装置。
前記類似文書検索手段は、前記抽出条件特徴ベクトルと、前記文書データベースＤ中に出現する各キーワードｔのキーワード特徴ベクトルとの距離の値から、前記抽出条件と各キーワードｔとの関連度を算定することを特徴とする請求項４に記載の関連キーワード抽出装置。
前記文書主成分分析手段は、前記文書データベースＤ中の２つの文書ａ，ｂの文書プロファイルベクトルＰ_a，Ｐ_b間の内積を、前記キーワード重みデータＷと、前記文書プロファイルベクトルＰ_a，Ｐ_bの成分ｐ_at，ｐ_btのばらつき度合いとを考慮した、成分の重みつき積和で算定し、かつ、文書長ｌ_dの文書ｄの文書プロファイルベクトルが、文書ｄに出現する全キーワード数ｇ_dを前記文書長ｌ_dで除した、ｇ_d／ｌ_dに比例した個数だけ前記文書プロファイルベクトル集団に含まれていると見なして、前記主成分分析を行うことを特徴とする請求項１に記載の類似文書検索装置。
前記キーワード主成分分析手段は、前記文書データベースＤ中の２つのキーワードα，βのキーワードプロファイルベクトルＱα，Ｑβ間の内積を、前記文書長データＬと、前記キーワードプロファイルベクトルＱα，Ｑβの成分ｑα_d，ｐβ_dのばらつき度合いとを考慮した、成分の重みつき積和で算定し、かつ、単語重みｗ_tのキーワードｔのキーワードプロファイルベクトルが、キーワードｔの全出現度数ｈ_tにキーワードの重みｗ_tを乗じた、ｈ_t＊ｗ_tに比例した個数だけ、主成分分析対象となるキーワードプロファイルベクトル集団に含まれていると見なして、前記主成分分析を行うことを特徴とする請求項１に記載の類似文書検索装置。
前記文書長算定手段は、着目文書ｄの文字数が、予め定めたしきい値ｌ₀未満の場合には、前記着目文書ｄの長さをｌ₀として記録し、前記しきい値ｌ₀以上の場合には、前記着目文書ｄの長さを、前記文字数のδ乗根（δは１以上の整数）として記録することを特徴とする請求項１に記載の類似文書検索装置。
前記文書長算定手段は、着目文書に出現するキーワードののべ数が、予め定めたしきい値ｌ₀未満の場合には、着目文書ｄの長さをｌ₀として記録し、前記しきい値ｌ₀以上の場合には、着目文書ｄの長さを、前記のべ数のδ乗根（δは１以上の整数）として記録することを特徴とする請求項１に記載の類似文書検索装置。
前記キーワード重み算定手段は、着目キーワードｔの重みｗ_tを、全文書数Ｎに一定値εを加えた数（Ｎ＋ε）を、前記着目キーワードｔの出現する文書数ｎに前記εを加えた値（ｎ＋ε）で除した値（Ｎ＋ε）／（ｎ＋ε）の、２を底とする対数に１を加えた、
１＋ｌｏｇ₂（（Ｎ＋ε）／（ｎ＋ε））
によって算出し記録することを特徴とする請求項１に記載の類似文書検索装置。
前記キーワード重み算定手段は、着目キーワードｔの重みｗtを、全文書数Ｎに一定値ε＋１を加えた数（Ｎ＋ε＋１）を、前記着目キーワードｔの出現する文書数ｎに前記εを加えた値（ｎ＋ε）で除した値（Ｎ＋ε＋１）／（ｎ＋ε）の、２を底とする対数
ｌｏｇ₂（（Ｎ＋ε＋１）／（ｎ＋ε））
によって算出し記録することを特徴とする請求項１に記載の類似文書検索装置。
前記文書プロファイルベクトル算出手段は、着目文書ｄ中の各キーワードｔの相対出現頻度ｐ_dtの算出を、着目文書ｄ中での各キーワードｔの出現度数ｆ_dtを、着目文書ｄ中に出現する全てのキーワードｊの出現度数の総和Σｆ_djで割ることによって行うことを特徴とする請求項１に記載の類似文書検索装置。
前記キーワードプロファイルベクトル算出手段は、各文書ｄ中での着目キーワードｔの相対出現頻度ｑ_dtの算出を、各文書ｄ中での着目キーワードｔの出現度数ｆ_dtを、着目キーワードｔが出現する全ての文書ｉ中での着目キーワードｔの出現度数の総和Σｆ_itで割ることによって行うことを特徴とする請求項１に記載の類似文書検索装置。
前記文書主成分分析手段は、前記文書データベースＤ中の各文書ｄの文書プロファイルベクトルＰ_dの、キーワードｔに対応する成分ｐ_dtのばらつき度合いを、キーワードｔの全出現度数ｈ_tの、全キーワードの総出現度数ｆに対する割合ｈ_t／ｆの平方根であるとして前記文書特徴ベクトルを求めることを特徴とする請求項７に記載の類似文書検索装置。
前記文書主成分分析手段は、前記文書データベースＤ中の２つの文書ａ，ｂの文書プロファイルベクトルＰ_a，Ｐ_b間の内積を、Ｐ_a，Ｐ_bの、キーワードｔに対応する成分ｐ_at，ｐ_btを、それぞれの成分のばらつき度合いで除してから掛け合わせ、さらに、キーワード重みデータｗ_tを乗じた値を、すべてのキーワードｔについて総和をとって算定することを特徴とする請求項７に記載の類似文書検索装置。
前記キーワード主成分分析手段は、前記文書データベースＤ中の各キーワードｔのキーワードプロファイルベクトルＱ_tの、文書ｄに対応する成分ｑ_tdのばらつき度合いを、文書ｄに出現する全キーワード数ｇ_dの、全キーワードの総出現度数ｆに対する割合ｇ_d／ｆの平方根であるとしてキーワード特徴ベクトルを求めることを特徴とする請求項８に記載の類似文書検索装置。
前記キーワード主成分分析手段は、前記文書データベースＤ中の２つのキーワードα，βのキーワードプロファイルベクトルＱα，Ｑβ間の内積を、Ｑα，Ｑβの、文書ｄに対応する成分ｑα_d，ｑβ_dを、それぞれの成分のばらつき度合いで除してから掛け合わせ、さらに、文書長ｌ_dで除した値を、すべての文書ｄについて総和をとって算定することを特徴とする請求項８に記載の類似文書検索装置。