JP2002014999A

JP2002014999A - 類似文書検索装置及び関連キーワード抽出装置

Info

Publication number: JP2002014999A
Application number: JP2000195075A
Authority: JP
Inventors: Yuji Sugano; 祐司菅野
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-06-28
Filing date: 2000-06-28
Publication date: 2002-01-18
Anticipated expiration: 2020-06-28
Also published as: JP3573688B2; US20020016787A1; EP1168202A3; EP1168202A2; US6671683B2

Abstract

(57)【要約】【課題】キーワード出現度数から、文書側，キーワー
ド側で独立に重み付き主成分分析を行って特徴ベクトル
を得、高精度で頑健な類似文書検索および関連キーワー
ド抽出を実現する。【解決手段】キーワード出現度数103，文書長105，キ
ーワード重み107の３種のデータを作成した後、文書／
キーワード双方のプロファイルベクトル111、109を算出
し、それぞれ独立に、文書長，キーワード重みを考慮し
た重み付き主成分分析112、114を行って各文書／キーワ
ードの特徴ベクトルを求め、検索／抽出条件から算出し
た特徴ベクトルとの類似度の高い文書／キーワードを求
めて表示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字コードの列と
して電子化され蓄積された、機械処理可能な文書データ
ベース（文書データの集合）から、当該文書データベー
ス中の１つまたは複数の文書データ、あるいは当該文書
データベースには無い任意の文章を「典型例」として指
定して、指定した典型例に類似する文書を当該文書デー
タベース中から検索する類似文書検索装置と、「典型
例」に関連する、当該文書データベース中のキーワード
を抽出して、検索結果の文書内容の理解を助ける目的、
あるいは検索条件として好適なキーワードのヒントとし
て当該文書データベースの利用者に提示する関連キーワ
ード抽出装置に関し、特に、高精度の文書検索やキーワ
ード抽出を可能にするものである。

【０００２】

【従来の技術】近年、ワードプロセッサやパーソナルコ
ンピュータの普及、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等の
大容量かつ低価格な記憶媒体の普及、イーサネット（登
録商標）に代表されるネットワークの発達により、文書
中のすべて、あるいは大部分の文字情報を文字コードの
列で表わして蓄積した全文データベースが実用化され、
広く利用されるようになってきた。

【０００３】従来の全文データベースでは、文書を検索
する際、キーワードの論理式を検索条件として指定し、
文書中に指定したキーワードが現れるか否かを判定し、
指定した論理式を満足する文書集合を求める方式が一般
的である。

【０００４】最近では、こうして得られた文書集合中の
各文書について、検索条件との関連度を、いわゆるｔｆ
・ｉｄｆ法などによって求め、関連度の高い文書から順
に並べて利用者に提示する、いわゆる文書ランキングの
技術が用いられるようになってきており、より精度の高
い文書検索が可能になってきている。

【０００５】しかしながら、このような従来の全文デー
タベースシステムでは、（１）適切なキーワードが思いつかない、あるいは分か
らないために、適切な検索条件が指定できない。（２）複雑な論理式を記述するためのスキル、あるいは
時間の余裕がない。（３）少しでも表現の異なるキーワードを含む文書が検
索されない。などの問題が指摘されており、近年、文書の典型例を指
定して、「これらに類似した文書を検索しなさい」とい
う型の類似文書検索システムや、指定した文書や単語集
合に関連する、関連キーワードの抽出・提示を行う、関
連キーワード抽出システムの研究開発が盛んになってい
る。

【０００６】そういった類似検索を基本とする文書検索
手法の１つに、ＬＳＩ法（潜在意味索引付け法）と呼ば
れる方法がある。米国特許第４８３９８５３号には、Ｌ
ＳＩ法による文書検索方法が開示されている。

【０００７】ここでは、本発明との差異を明確にする目
的で、その骨子を簡潔に説明する。ＬＳＩ法では、Ｎ個
の文書データを含んだ文書データベースＤ中の各文書に
ついて、キーワード、即ち当該文書に特徴的な語句を機
械的に抽出し、各文書中に、それぞれのキーワードが出
現する度数（回数）を記録する。今、文書データベース
Ｄから、合計でＭ種類のキーワードが抽出されたとす
る。

【０００８】ｄ番目の文書中での、（辞書順など、適当
な順序で）ｔ番目の種類のキーワードの出現頻度ｆ
_dtを、第ｄ行第ｔ列の要素とする行列Ｆで表し、この行
列Ｆを、不完全特異値分解と呼ばれる行列演算によっ
て、文書側特異ベクトルを各列に持つ、Ｎ行Ｋ列の行列
Ｕと、特異値が対角要素に並んだ、Ｋ行Ｋ列の対角行列
Λと、キーワード側特異ベクトルを各行に持つ、Ｋ行Ｍ
列の行列Ｖの積に、近似的に分解する。このときＫは、
ＮやＭに比べて十分小さく、結果的に元の出現頻度行列
Ｆを、より階数の低い行列で近似することになる。

【０００９】このような分解で得られたＫ個の文書側の
特異ベクトルの第ｄ成分をＫ個並べたＫ次元ベクトルを
文書ｄの特徴ベクトルＵ_dとし、Ｋ個のキーワード側の
特異ベクトルの第ｔ成分をＫ個並べたＫ次元ベクトルを
キーワードｔの特徴ベクトルＶ_dとする。

【００１０】そして、以下の３点のように類似度、関連
度を算出し、もっとも類似度／関連度の高い文書、キー
ワードを求めることにより、類似文書検索や、関連キー
ワード抽出を実現する。（１）２つの文書ａ，ｂの類似度を、文書ａ，ｂに対応
する文書特徴ベクトルＵ_a，Ｕ_bの内積Ｕ_a・Ｕ_bで求め
る。（２）２つのキーワードα，βの関連度を、キーワード
α，βに対応するキーワード特徴ベクトルＶα，Ｖβの
内積Ｖα・Ｖβで求める。（３）任意の（外部）文書からのキーワードの抽出結果
を、Ｍ種類のキーワードの、当該外部文書中での出現度
数を並べたＭ次元ベクトルをＥとすると、この外部文書
に対応する検索条件文書特徴ベクトルＰ_eを、Ｕ_e＝Λ^-1
ＶＥで求め、この外部文書と、文書データベース中の文
書ｄとの類似度を、Ｕ_d・Ｕ_eで求める。以上が、ＬＳＩ法の基本的枠組みである。

【００１１】実際の文書データベースにＬＳＩ法を適用
する際には、キーワードの出現度数ｆ_dtをそのまま用い
ると、長い文書や、高頻出するキーワードのみが重視さ
れた、偏った特徴ベクトルが求まってしまい、類似検索
の精度が低下する。

【００１２】そこで、ｆ_dtを、従来の文書検索システム
での文書ランキングで用いられる、ＬＴＣなどの方式に
よって変換して出現頻度の変換（標準化）を行い、正規
化した頻度を要素とする出現頻度行列Ｆを作成して不完
全特異値分解を実行し、特徴ベクトルを得る。

【００１３】例えば、ＬＴＣによる変換では、以下の式
によって、実際の出現度数ｆ_dtと、キーワードｔの出現
文書数ｎ_tから出現度数ＬＴＣ（ｆ_dt）を算出し、この
値を要素とする行列を不完全特異値分解する。

【００１４】

【数１】

【００１５】

【発明が解決しようとする課題】しかしながら、このよ
うな従来のＬＳＩ法におけるキーワードの出現頻度の変
換には、大きな課題がある。

【００１６】ＬＳＩ法では、行列Ｆの第ｄ行が文書ｄの
特徴を表し、行列Ｆの第ｔ列が単語ｔの特徴を表すとし
て、分析を行うが、数１の変換では、各行の要素の２乗
和が１に正規化されるものの、各列の要素の２乗和は正
規化されない。従って、文書側とキーワード側とで非対
称な変換になっている。数１のような簡単な変換で、文
書側、キーワード側の両方を１に正規化することは困難
であり、この非対称性は、数１に限ったことではない。

【００１７】さらに、数１のような、対数関数などの非
線形な関数による変換では、ある文書ｄと、ｄを２つ繋
げた文書ｄ’とが表す特徴が同一にはならず、文書の類
似度が１にならない。同様に、同一の出現傾向を持ち、
同一の意味を表す２つのキーワードｔ₁，ｔ₂を同一のキ
ーワードだとして求めた出現頻度行列が元の出現頻度行
列と食い違う。

【００１８】これらの非対称性や、文書の類似度及びキ
ーワードの関連度における文書やキーワードの併合に対
する非安定性は、特に大規模な文書データベースを扱う
際には、以下のような現象を生じる。（１）正規化されない側（多くの場合はキーワード側）
での検索／抽出時に、ノルム（Ｆの要素の２乗和）の大
きなものが優先的に検索／抽出される。（２）キーワード集合で文書を検索する際に、あるキー
ワードだけが非常に強く効き、他はほとんど無視され
る。

【００１９】結果的に、検索意図から大きく掛け離れた
検索結果となり、検索精度が大きく低下する、という課
題がある。

【００２０】本発明は、こうした従来の課題を解決する
ものであり、文書側及びキーワード側の両方を正規化
し、高い検索精度を保持することができる類似文書検索
装置及び関連キーワード抽出装置を提供することを目的
としている。

【００２１】

【課題を解決するための手段】そこで、本発明では、Ｎ
個の文書データを集めた、合計Ｍ種類のキーワードを含
む、機械処理可能な文書データベースＤから、前記文書
データベースＤに含まれる１つ以上の文書ｘ₁，…，ｘ_r
を検索条件として指定して、前記検索条件の文書群と類
似する前記文書データベースＤ中の文書を検索する装置
において、文書データベースＤ中の各文書ｄに出現する
各キーワードｔの出現度数ｆ_dtを記録したキーワード出
現度数データＦを算出するキーワード出現度数算定手段
と、各文書ｄの長さｌ_dを記録した文書長データＬを算
出する文書長算定手段と、文書データベースＤ中に出現
する、Ｍ種類のキーワードについて、各キーワードｔの
重みｗ_tを記録したキーワード重みデータＷを算出する
キーワード重み算定手段と、各文書ｄについて、着目文
書ｄ中の各キーワードｔの相対出現頻度ｐ_dtを成分とす
るＭ次元の文書プロファイルベクトルＰ_dを算出する文
書プロファイルベクトル算定手段と、文書データベース
Ｄ中の文書群の文書プロファイルベクトル集団の主成分
分析を実施して、各文書ｄについて、文書プロファイル
ベクトルＰ_dに対応する、固定（Ｋ）次元の文書特徴ベ
クトルＵ_dを求める文書主成分分析手段と、文書データ
ベースＤに含まれる１つ以上の文書ｘ₁，…，ｘ_rを検索
条件として受け取り、受け取った文書群の文書特徴ベク
トルと文書データベースＤ中の各文書ｄの文書特徴ベク
トルとを用いて、前記検索条件と各文書ｄとの類似度を
算定し、類似度の高い文書から、指定された文書数だけ
求めて出力する類似文書検索手段とを設けている。

【００２２】また、Ｎ個の文書データを集めた、合計Ｍ
種類のキーワードを含む、機械処理可能な文書データベ
ースＤから、文書データベースＤに含まれる１つ以上の
キーワードｙ₁，…，ｙ_sを検索条件として指定して、前
記検索条件と関連する文書データベースＤ中の文書を検
索する装置において、前記キーワード出現度数算定手段
と、前記文書長算定手段と、前記キーワード重み算定手
段と、前記文書プロファイルベクトル算定手段と、前記
文書データベースＤ中に出現する各キーワードｔについ
て、各文書ｄ中での着目キーワードｔの相対出現頻度ｑ
_dtを成分とするＮ次元のキーワードプロファイルベクト
ルＱ_tを算出するキーワードプロファイルベクトル算定
手段と、文書データベースＤ中の文書群の文書プロファ
イルベクトル集団の主成分分析を実施して、各文書ｄに
ついて、文書プロファイルベクトルＰ_dに対応する、固
定（Ｋ）次元の文書特徴ベクトルＵ_dを求める文書主成
分分析手段と、文書データベースＤ中のキーワード群の
キーワードプロファイルベクトル集団の主成分分析を実
施して、各キーワードｔについて、キーワードプロファ
イルベクトルＱ_tに対応する、前記文書特徴ベクトルと
同一次元の、固定（Ｋ）次元のキーワード特徴ベクトル
Ｖ_tと、各次元ｊのキーワード寄与度（相関行列の固有
値）θ_jとを求めるキーワード主成分分析手段と、キー
ワードｙ₁，…，ｙ_sを検索条件として受け取り、受け取
ったキーワード群の前記単語重みデータと、前記キーワ
ード特徴ベクトルと、前記キーワード寄与度とから、前
記検索条件に対応する検索条件特徴ベクトルを算定する
検索条件特徴ベクトル算定手段と、算定された前記検索
条件特徴ベクトルと、各文書ｄの文書特徴ベクトルとを
用いて、前記検索条件と各文書ｄとの類似度を算定し、
類似度の高い文書から、指定された文書数だけ求めて出
力する類似文書検索手段とを設けている。

【００２３】また、Ｎ個の文書データを集めた、合計Ｍ
種類のキーワードを含む、機械処理可能な文書データベ
ースＤから、文書データベースＤに含まれる１つ以上の
キーワードｙ₁，…，ｙ_sを抽出条件として指定し、前記
抽出条件のキーワード群と関連性のある、文書データベ
ースＤ中に出現するキーワードを抽出する装置におい
て、前記キーワード出現度数算定手段と、前記文書長算
定手段と、前記キーワード重み算定手段と、各キーワー
ドｔについて、各文書ｄ中での着目キーワードｔの相対
出現頻度ｑ_dtを成分とするＮ次元のキーワードプロファ
イルベクトルＱ_tを算出するキーワードプロファイルベ
クトル算定手段と、文書データベースＤ中のキーワード
群のキーワードプロファイルベクトル集団の主成分分析
を実施して、各キーワードｔについて、キーワードプロ
ファイルベクトルＱ_tに対応する、固定（Ｋ）次元のキ
ーワード特徴ベクトルＶ_tを求めるキーワード主成分分
析手段と、文書データベースＤに含まれる１つ以上のキ
ーワードｙ₁，…，ｙ_sを抽出条件として受け取り、これ
らの受け取ったキーワード群のキーワード特徴ベクトル
と文書データベースＤ中に出力する各キーワードｔのキ
ーワード特徴ベクトルとを用いて、前記抽出条件と、各
キーワードｔとの関連度を算定し、関連度の高いキーワ
ードから、指定されたキーワード数だけ求めて出力する
関連キーワード抽出手段とを設けている。

【００２４】また、Ｎ個の文書データを集めた、合計Ｍ
種類のキーワードを含む、機械処理可能な文書データベ
ースＤから、文書データベースＤに含まれる１つ以上の
文書ｘ₁，…，ｘ_rを抽出条件として指定し、前記抽出条
件の文書群と関連性のある、文書データベースＤ中に出
現するキーワードを抽出する装置において、前記キーワ
ード出現度数算定手段と、前記文書長算定手段と、前記
キーワード重み算定手段と、前記文書プロファイルベク
トル算定手段と、前記キーワードプロファイルベクトル
算定手段と、文書データベースＤ中の文書群の文書プロ
ファイルベクトル集団の主成分分析を実施して、各文書
ｄについて、文書プロファイルベクトルＰ_dに対応す
る、固定（Ｋ）次元の文書特徴ベクトルＵ_dと、各次元
ｊの文書寄与度（相関行列の固有値）λ_jとを求める文
書主成分分析手段と、前記文書データベースＤ中のキー
ワード群のキーワードプロファイルベクトル集団の主成
分分析を実施して、文書データベースＤ中の各キーワー
ドｔについて、キーワードプロファイルベクトルＱ_tに
対応する、前記文書特徴ベクトルと同一次元の、固定
（Ｋ）次元のキーワード特徴ベクトルＶ_tを求めるキー
ワード主成分分析手段と、文書ｘ₁，…，ｘ_rを抽出条件
として受け取り、受け取った文書群の文書長データと、
文書特徴ベクトルと、文書寄与度とから、前記抽出条件
に対応する、抽出条件特徴ベクトルを算定する、抽出条
件特徴ベクトル算定手段と、算定された前記抽出条件特
徴ベクトルと、文書データベースＤ中に出現する各キー
ワードｔのキーワード特徴ベクトルとを用いて、前記抽
出条件と各キーワードｔとの関連度を算定し、関連度の
高いキーワードから、指定されたキーワード数だけ求め
て出力する関連キーワード抽出手段とを設けている。

【００２５】この類似文書検索装置及び関連キーワード
抽出装置では、着目した文書での各キーワードの出現頻
度を文書プロファイルとしてベクトル表現し、また、着
目したキーワードの各文書での出現頻度をキーワードプ
ロファイルとしてベクトル表現し、それぞれ独立に、文
書長、キーワード重みを考慮した重み付き主成分分析を
行い、各文書／キーワードの特徴ベクトルを求めてい
る。

【００２６】この場合、文書プロファイル及びキーワー
ドプロファイルでのベクトル表現は、出現頻度の変換
（標準化）には依存せず、また、出現頻度の変換に関与
する文書長、キーワード重みデータなどは、主成分分析
時の重みとして間接的に作用させているため、各文書／
キーワードの特徴ベクトルは、出現頻度の変換に依存せ
ずに正規化することができる。

【００２７】そのため、高精度な類似文書検索装置及び
関連キーワード抽出装置を実現することができる。

【００２８】

【発明の実施の形態】（第１の実施形態）図１は、本発
明の実施形態における類似文書検索装置及び関連キーワ
ード抽出装置をディジタル電子計算機上の動作によって
実現する類似文書検索・関連キーワード抽出システムの
全体構成を表わすブロック図である。

【００２９】このシステムは、新聞記事の文書番号、見
出し及び本文を、１記事を１文書（検索の単位）として
配列した新聞記事全文データベース101と、新聞記事全
文データベース101中の各記事の本文の文字列を走査し
て、出現するキーワードを切り出すとともに、各記事に
出現したキーワードと出現度数との組を集計するキーワ
ード抽出集計手段102と、キーワード抽出集計手段102の
抽出集計結果を格納するキーワード出現度数ファイル10
3と、外部パラメータである文書長算定モードに従っ
て、各記事の文書長を、新聞記事全文データベース101
中の各記事の本文の文字列の文字数、あるいはキーワー
ド度数ファイル103中の各記事の出現キーワードの総数
（のべ数）を基に算出する文書長算定手段104と、文書
長算定手段104の算定結果を格納する文書長ファイル105
と、キーワード出現度数ファイル103を参照して、各キ
ーワードの重みを算定するキーワード重み算定手段106
と、キーワード重み算定手段106の算定結果を格納する
キーワード重みファイル107と、キーワード出現度数フ
ァイル103と文書長ファイル105とから、各キーワードの
特徴を表すキーワードプロファイルベクトルを作成する
キーワードプロファイルベクトル作成手段108と、キー
ワードプロファイルベクトル作成手段108が作成したキ
ーワードプロファイルベクトル群を格納するキーワード
プロファイルベクトルファイル109と、キーワード出現
度数ファイル103とキーワード重みファイル107とから、
各文書の特徴を表す文書プロファイルベクトルを作成す
る文書プロファイルベクトル作成手段110と、文書プロ
ファイルベクトル作成手段110が作成した文書プロファ
イルベクトル群を格納する文書プロファイルベクトルフ
ァイル111と、キーワード出現度数ファイル103と文書長
ファイル105とキーワード重みファイル107とを参照し
て、キーワードプロファイルベクトルファイル109の、
Ｋ次元（分析次元Ｋは予め定めた外部パラメータ）の重
み付き主成分分析を行って、Ｋ本の主軸（即ち相関行列
の固有ベクトル）と、Ｋ本の各主軸の寄与率（即ち相関
行列の固有値）を求め、各キーワードの特徴ベクトル
（即ちＫ本の主軸についての成分あるいは射影）を求め
るキーワード主成分分析手段112と、キーワード主成分
分析手段112の分析結果である、各キーワードの特徴ベ
クトルと各主軸の寄与率とを格納するキーワード主成分
分析結果ファイル113と、キーワード出現度数ファイル1
03と文書長ファイル105とキーワード重みファイル107と
を参照して、文書プロファイルベクトルファイル111
の、Ｋ次元の重み付き主成分分析を行って、Ｋ本の主軸
と、Ｋ本の各主軸の寄与率を求め、各文書の特徴ベクト
ルを求める文書主成分分析手段114と、文書主成分分析
手段114の分析結果である、各文書の特徴ベクトルと各
主軸の寄与率とを格納する文書主成分分析結果ファイル
115と、文書番号の列、またはキーワードの列のいずれ
かの形式で新聞記事全文データベース101に対する類似
記事検索・関連キーワード抽出条件を入力する条件入力
手段116と、条件入力手段116から文書番号の列が入力さ
れた場合には、文書主成分分析結果ファイル115の該当
する文書特徴ベクトルから入力された文書番号の列に対
する検索条件特徴ベクトルを算出し、条件入力手段116
からキーワードの列が入力された場合には、キーワード
重みファイル107とキーワード主成分分析結果ファイル1
13とからキーワードの列に対する検索条件特徴ベクトル
を算出する検索条件特徴ベクトル算定手段117と、条件
入力手段116から文書番号の列が入力された場合には、
文書長ファイル105と文書主成分分析結果ファイル115と
を用いて入力された文書番号の列に対する抽出条件特徴
ベクトルを算出し、条件入力手段116からキーワードの
列が入力された場合には、キーワード主成分分析結果フ
ァイル113の該当するキーワード特徴ベクトルから入力
されたキーワードの列に対する抽出条件特徴ベクトルを
算出する抽出条件特徴ベクトル算定手段118と、検索条
件特徴ベクトル算定手段117が算出した検索条件特長ベ
クトルと、文書主成分分析結果ファイル115中の各文書
特徴ベクトルとの内積（複数の文書が指定された場合に
は内積の最大値）を計算し、最も内積の大きいＲ個の文
書（取得文書数Ｒは予め定めた外部パラメータ）の文書
番号を決定する第１の類似文書検索手段119と、検索条
件特徴ベクトル算定手段117が算出した検索条件特長ベ
クトルと、文書主成分分析結果ファイル115中の各文書
特徴ベクトルとの距離（複数の文書が指定された場合に
は距離の最小値）を計算し、最も距離の小さいＲ個の文
書の文書番号を決定する第２の類似文書検索手段120
と、抽出条件特徴ベクトル算定手段118が算出した抽出
条件特長ベクトルと、キーワード主成分分析結果ファイ
ル113中の各キーワード特徴ベクトルとの内積（複数の
キーワードが指定された場合には内積の最大値）を計算
し、最も内積の大きいＳ個のキーワード（取得キーワー
ド数Ｓは予め定めた外部パラメータ）を決定する第１の
関連キーワード抽出手段121と、抽出条件特徴ベクトル
算定手段118が算出した抽出条件特長ベクトルと、キー
ワード主成分分析結果ファイル113中の各キーワード特
徴ベクトルとの距離（複数のキーワードが指定された場
合には距離の最小値）を計算し、最も距離の小さいＳ個
のキーワードを決定する第２の関連キーワード抽出手段
122と、検索されたＲ件の類似記事の文書番号、見出し
及び本文、並びに抽出されたＳ個の関連キーワードを、
類似度とともに、類似度の高い順に表示する結果表示手
段123とを備えている。

【００３０】以上の構成を備えた類似文書検索・関連キ
ーワード抽出システムの動作について説明する。

【００３１】初めに、このシステムの動作の概略を説明
する。このシステムでは、新聞記事全文データベース10
1の中から記事を検索する場合に、条件入力手段116か
ら、検索しようとする記事に類似する記事の文書番号
を、例えば（２，４，９，‥）と云うように入力する
と、それらの記事に類似する記事が検索され、また、そ
れらの記事に関連するキーワードが抽出され、結果表示
手段123に、検索された類似文書と抽出された関連キー
ワードとが表示される。また、条件入力手段116から、
キーワードの列を、例えば（ＩＴ，インターネット，
‥）と云うように入力した場合には、それらのキーワー
ドを含む記事に類似する記事が検索され、また、それら
の記事に関連するキーワードが抽出され、検索された類
似文書と抽出された関連キーワードとが結果表示手段12
3に表示される。

【００３２】このシステムの動作は、全体として、以下
の（イ）、（ロ）、（ハ）の３段階に分かれ、この順に
行われる。（イ）類似文書検索・関連キーワード抽出に先立って、
新聞記事データベース101からキーワードを切り出し、
キーワード出現度数、文書長、キーワード重みの３種の
データを作成する。（ロ）文書、キーワードそれぞれについて、主成分分析
の対象となるプロファイルベクトルデータを作成する。
文書のプロファイルベクトルデータは、その文書中の各
キーワードの相対出現頻度を成分とするベクトルであ
り、また、キーワードのプロファイルベクトルデータ
は、文書データベースの各文書におけるそのキーワード
の相対出現頻度を成分とするベクトルである。次いで、
文書長とキーワード重みとを考慮してそれぞれのプロフ
ァイルベクトルデータの主成分分析を行い、各文書及び
キーワードの特徴ベクトル（特徴的な成分のみを持つベ
クトル）を求める。（ハ）類似文書検索・関連キーワード抽出条件が入力さ
れると、入力の種類（文書番号かキーワードか）に応じ
て、類似文書の検索条件及び関連キーワードの抽出条件
の特徴ベクトルを、（ロ）の分析結果、文書長、及びキ
ーワード重みを使って算出し、検索条件特徴ベクトルと
各文書の文書特徴ベクトルとの類似度、また抽出条件特
徴ベクトルと各キーワードのキーワード特徴ベクトルと
の類似度、関連度をベクトル間の内積または距離から算
出して、類似する文書、関連するキーワードを指定され
た個数だけ類似度と共に表示する。

【００３３】また、上記の動作の前には、予め以下のパ
ラメータを設定しておく。・文書長算出モード（「文字数」、または「単語数」）着目新聞記事の文書長の基になるデータを決めるパラメ
ータで、「文字数」の場合には、着目新聞記事の文書長
を、記事本文の文字数から算出し、「単語数」の場合に
は、着目新聞記事の文書長を、記事本文から切り出した
キーワードの「のべ数」から算出する。・文書長しきい値（ｌ₀）着目新聞記事の文書長を算出する際に、文書長の下限を
定める非負の整数値であるパラメータで、文字数または
キーワードのべ数が、文書長しきい値ｌ₀より小さけれ
ば、実際の文字数またはキーワードのべ数ではなく、文
書長しきい値ｌ ₀を用いて文書長を算出する。・文書長べき乗根数（δ）着目新聞記事の文書長を算出する際に、文書長の基にな
るデータから文書長の値を決める非負の整数値であるパ
ラメータで、着目新聞記事の文書長を、文字数またはキ
ーワードのべ数のδ乗根として算出する。ただし、文字
数またはキーワードのべ数が文書長しきい値より小さい
場合には、文書長しきい値のδ乗根として着目新聞記事
の文書長を算出する。・キーワード重み算出モード（「１＋ｌｏｇ」または
「ｌｏｇ」）着目キーワードの重みの算出方法を定める第１のパラメ
ータで、「１＋ｌｏｇ」モードの場合には、全文書数Ｎ
を前記着目キーワードの出現する文書数ｎで除した値Ｎ
／ｎの、２を底とする対数に１を加えた、１＋ｌｏｇ₂
（Ｎ／ｎ）によって着目キーワードの重みを算出し、
「ｌｏｇ」モードの場合には、全文書数Ｎに１を加えた
（Ｎ＋１）を、前記着目キーワードの出現する文書数ｎ
で除した値（Ｎ＋１）／ｎの、２を底とする対数、ｌｏ
ｇ₂（（Ｎ＋１）／ｎ）によって着目キーワードの重み
を算出する。ただし、キーワード重みオフセットεが０
でない場合には、全文書数Ｎ及び出現文書数ｎを修正し
た値を基にキーワード重みを算出する。・キーワード重みオフセット（ε）着目キーワードの重みの算出方法を定める第２のパラメ
ータで、キーワード重みを算出する際、全文書数Ｎ及び
着目キーワードの出現文書数ｎの双方に対し、キーワー
ド重みオフセットεを加えたＮ＋ε、ｎ＋εを、全文書
数、及び着目キーワードの出現文書数として用いて、前
記キーワード重み算出モードに従ってキーワード重みを
算出する。・分析次元（Ｋ）主成分分析を行う際の分析の次元を定める正の整数値で
あるパラメータで、相関行列データの固有値・固有ベク
トルを、最大Ｋ個求め、文書、キーワードの特徴ベクト
ルをＫ次元で表現することを指定する。・文書類似度算出モード（「内積」または「距離」）第１の類似文書検索手段119、第２の類似文書検索手段1
20のいずれの結果を類似文書検索結果として結果表示手
段123に表示するかを定めるパラメータで、「内積」モ
ードの場合には、第１の類似文書検索手段119の検索結
果を用い、「距離」モードの場合には、第２の類似文書
検索手段120の検索結果を用いる。・キーワード関連度算出モード（「内積」または「距
離」）第１の関連キーワード抽出手段121、第２の関連キーワ
ード抽出手段122のいずれの結果を関連キーワード抽出
結果として結果表示手段123に表示するかを定めるパラ
メータで、「内積」モードの場合には、第１の関連キー
ワード抽出手段121の抽出結果を用い、「距離」モード
の場合には、第２の関連キーワード抽出手段122の抽出
結果を用いる。・表示類似文書数（α）類似文書検索の結果の表示件数を定めるパラメータで、
類似度の大きい順にα件の文書が表示される。・表示関連キーワード数（β）関連キーワード抽出の結果の表示キーワード数を定める
パラメータで、関連度の大きい順にβ個のキーワードが
表示される。

【００３４】上記のパラメータを設定したら、設定した
パラメータに従って（イ）、（ロ）の動作を順に行い、
新聞記事データベース101を分析し、類似文書検索・関
連キーワード抽出の準備が完了する。この時点で、条件
入力手段116から類似文書検索・関連キーワード抽出条
件が入力されると、（イ）、（ロ）で分析した結果を用
い、設定したパラメータに従って（ハ）の動作を行って
類似する文書、関連するキーワードを求めて結果表示手
段123に表示する。同一の新聞記事データベース101に対
して複数回の類似文書検索・関連キーワード抽出を行う
際には、（イ）、（ロ）の分析処理は１回でよく、
（ハ）の処理が必要な回数だけ繰り返されることにな
る。

【００３５】以上で、システムの動作の概略の説明を終
わり、（イ）、（ロ）、（ハ）の順に、システムの動作
の詳細を説明する。

【００３６】はじめに、（イ）の処理である、新聞記事
データベース101からのキーワードを切り出し、キーワ
ード出現度数、文書長、キーワード重みの３種のデータ
の作成について、図面をもとに説明する。

【００３７】図２は、新聞記事全文データベース101の
内容の一部の例である。図のように、新聞記事全文デー
タベース101は電子計算機で通常編集・閲覧が可能なテ
キスト形式であり、各新聞記事を１文書、即ち検索の単
位として、合計２０万個の新聞記事が文書番号の昇順に
配列されている。各新聞記事は、文書番号、見出し、本
文という３つのフィールドに分かれており、３種のフィ
ールドが、この順に、タブ文字（制御文字の一種、図中
では<TAB>と表記）で連結され、文書と次の文書は改ペ
ージ文字（やはり制御文字の一種、図中では<FF>と表
記）で連結されているものとする。文書番号は先頭の新
聞記事の文書番号を１とし、末尾（２０万番目）の新聞
記事の文書番号を２０００００とした、連続する整数値
を表す文字列になっているものとする。

【００３８】この新聞記事全文データベースは、まずキ
ーワード抽出集計手段102に入力される。

【００３９】図３は、キーワード抽出集計手段102の内
部構造を表すブロック図であり、破線の内部がキーワー
ド抽出集計手段102に相当する。図において、301は単語
切り出し手段、302は単語辞書、303はキーワード選別手
段、304は不要語辞書、305はキーワード集計手段であ
る。

【００４０】まず、単語切り出し手段301で、新聞記事
全文データベース101から１文書分を読み込み、キーワ
ードの候補となる単語（形態素）が切り出される。本発
明の類似文書検索装置及び関連キーワード抽出装置は、
特定の単語切り出し方法に依存するものではなく、例え
ば「松本裕治、影山太郎、永田昌明、齋藤洋典、徳永健
伸著、“岩波講座・言語の科学３・単語と辞書”、１９
９７年岩波書店刊」に記載されている、辞書と、接続コ
ストあるいは統計言語モデルとに基づく形態素解析によ
る単語切り出し方法や、特開平１０−６９４９３号公報
に開示されている、「極大切り出し」方式による、辞書
のみを用いた単語切り出し方法など、従来から開発され
てきた種々の方法を利用することができる。本実施例に
おいては、特開平１０−６９４９３号公報に開示されて
いる、「極大切り出し」方式により、単語辞書302を用
いて単語を切り出すものとする。単語が切り出される
と、キーワード選別手段303が、不要語辞書304を引い
て、切り出された単語が不要語、即ち「類似文書検索や
関連キーワード抽出に際して不要な単語であるか否か」
を判定し、不要語ではないと判定した単語をキーワード
として認定し、新規のキーワードについては認定順に１
からキーワード番号を付与するとともに、キーワード集
計手段305によって１文書（１新聞記事）内のキーワー
ドの出現度数を集計する。１文書の全ての文字列の処理
が終了したら、１文書分の集計結果を、キーワード出現
度数ファイル103に出力し、次の文書の処理を開始す
る。

【００４１】以上のような動作によって、新聞記事全文
データベース101中の全ての文書を文書番号の順に処理
し、キーワード出現度数ファイル103が作成される。

【００４２】図４は、このような処理の一例を示してい
る。図の「単語切り出し結果」の中が、左側の単語辞書
を用いて文書番号１の文書の本文フィールドから極大単
語切り出し方式による切り出し結果の例（一部）であ
り、下線を引いた単語（文字列）が辞書にある単語であ
ることを表し、四角で囲んだ文字列が、切り出し単語の
文字列を表現している。この切り出し結果のうちで、不
要語である「の」や「や」などを取り除き、出現度数を
集計すると、「文書１のキーワード集計結果」が得られ
る。

【００４３】次に、文書長算定手段104が、予め設定し
た、文書長算出モード、文書長しきい値（ｌ₀）及び文
書長べき乗根数（δ）の３種のパラメータに従って、各
文書の文書長を算出する。図５は、着目文書に対して文
書長を算出する手順を示す流れ図である。図５におい
て、ステップ501：文書長算出モードが「文字数」か「単語
数」かに応じて、それぞれステップ502及びステップ503
に分岐する。ステップ502：文書長算出モードが「文字数」の場合
は、新聞記事全文データベース101を参照して得られ
る、着目文書の本文フィールドの文字数をｌとし、ステップ503：文書長算出モードが「単語数」の場合
は、キーワード出現度数ファイル103を参照して得られ
る、着目文書の本文フィールドから切り出されたキーワ
ードの「のべ数」をｌとする。ステップ504：ステップ502あるいはステップ503で算出
したｌと文書長しきい値ｌ₀とを比較し、ｌがｌ₀未満で
あれば、ステップ505：ｌ₀を改めてｌとし、ステップ506：ｌのδ乗根を改めてｌとおき、このｌを
着目文書の文書長として文書長ファイル105に記録す
る。

【００４４】このような処理によって、例えば文書長算
出モードを「文字数」に、文書長しきい値ｌ₀を２００
に、文書長べき乗根数δを０．５に、それぞれ設定した
場合には、図２の文書１の文書長は、本文フィールドの
文字数が３９６文字なので、文書長は１９．９０と算出
され、図２の文書３の文書長は、文字数が３０２なの
で、１７．３８と算出されることになる。上記の処理
を、全ての文書について文書番号の順に行い、文書長フ
ァイル105を作成する。

【００４５】文書長の算定処理と並行して、キーワード
重み算定手段106が、予め設定した、キーワード重み算
出モードとキーワード重みオフセット（ε）の２種のパ
ラメータに従って、各キーワードの重みを算出する。図
６は、あるキーワードｔに対して、キーワード重みを算
出する手順を示す流れ図である。図６において、ステップ601：キーワード出現度数ファイル103を参照し
て、着目キーワードｔが出現する文書数ｒを算出し、ステップ602：出現文書数ｒにキーワード重みオフセッ
トεを加えた値を改めてｒとし、全文書数Ｎにキーワー
ド重みオフセットεを加えた値をｓとする。ステップ603：キーワード重み算出モードが「１＋ｌｏ
ｇ」か「ｌｏｇ」かに応じて、それぞれステップ604及
びステップ605に分岐する。

【００４６】ステップ604：キーワード重み算出モード
が「１＋ｌｏｇ」のときは、１＋ｌｏｇ₂（ｓ／ｒ）の
値を計算してｗとし、ステップ605：キーワード重み算出モードが「ｌｏｇ」
のときは、ｌｏｇ₂（（ｓ＋１）／ｒ）の値を計算して
ｗとし、ステップ606：算出した値ｗを、着目キーワードｔのキ
ーワード重みとしてキーワード重みファイル107に出力
する。

【００４７】上記の処理を、全てのキーワードについ
て、キーワード番号の順に行い、キーワード重みファイ
ル107を作成する。

【００４８】このような処理によって、例えばキーワー
ド重み算出モードを「１＋ｌｏｇ」に、キーワード重み
オフセットεを１０に設定した場合、「ＩＴ技術」とい
うキーワードが２２の新聞記事の本文に出現していたと
すると、「ＩＴ技術」のキーワード重みは１３．６１と
なり、「国内」というキーワードが２５１９の新聞記事
の本文に出現していたとすると、「国内」のキーワード
重みは７．３１となる。このようにして、（イ）の処理
が完了し、キーワード出現度数ファイル103、文書長フ
ァイル105、及びキーワード重みファイル107が作成され
る。

【００４９】続いて（ロ）の処理である、文書／キーワ
ードのプロファイルベクトルデータの作成と、その主成
分分析、ならびに各文書／キーワードの特徴ベクトルデ
ータの作成について、図面をもとに説明する。

【００５０】図７は、文書プロファイルベクトルデータ
算出の手順を示す流れ図である。図７において、ステップ701：プロファイルベクトルを作成すべき着目
文書番号ｄを１に初期化し、ステップ702：ｄが全文書数Ｎより大きい場合には、ス
テップ703に分岐して算出処理を終了させる。ｄがＮ以
下の場合には、ステップ704：キーワード番号ｔを１に、正規化因子ｓ
を０に、それぞれ初期化し、ステップ705：文書ｄのキーワードｔの出現度数ｆ_dtを
キーワード出現度数ファイル103から取得して正規化因
子ｓに足しこみ、ステップ706：着目キーワード番号ｔを１増やし、ステップ707：ｔが全キーワード数Ｍ以下の場合にはス
テップ705に戻って次のキーワードについての処理を行
う。

【００５１】こうして、ステップ704〜ステップ707で
は、文書ｄに出現するキーワードの「のべ数」を求め、
これを正規化因子ｓとしていることになる。

【００５２】このようにして、文書プロファイルベクト
ル算出モードに従って正規化因子ｓが求まったならば、ステップ708：文書ｄの文書プロファイルベクトルを、
相対出現頻度のベクトル（８ｆ_d1／ｓ，…，ｆ_dM／ｓ）
で算出して、文書プロファイルベクトルファイル111に
出力し、ステップ709：着目文書番号ｄを１増やし、ステップ702
に戻って次の文書についての処理を続ける。

【００５３】上記の処理によって、文書プロファイルベ
クトルファイル111を作成する。例えば、図２の新聞記
事全文データベースの文書１の文書プロファイルベクト
ルは、正規化因子ｓの値の計算値が９２となったとする
と、図４の単語辞書のキーワード番号を用いて、（２／
９２，０，１／９２，１／９２，１／９２，０，０，１
／９２，……）のように算出されることになる。ここ
で、上記の文書プロファイルベクトルの第１成分はキー
ワード番号１の「あいさつ」に、第２成分はキーワード
番号２の「ＩＴ」に、第３成分はキーワード番号３の
「ＩＴ技術」に、それぞれ対応している。

【００５４】文書プロファイルベクトルファイル111の
作成と並行して、キーワードプロファイルベクトルファ
イル109の作成を行う。図８は、キーワードプロファイ
ルベクトルデータ算出の手順を示す流れ図である。図８
において、ステップ801：プロファイルベクトルを作成すべき、着
目キーワード番号ｔを１に初期化し、ステップ802：ｔが全キーワード数Ｍより大きい場合に
は、ステップ803に分岐して算出処理を終了させる。ｔ
がＭ以下の場合には、ステップ804：文書番号ｄを１に、正規化因子ｓを０
に、それぞれ初期化し、ステップ805：キーワードｔの文書ｄ中での出現度数ｆ
_dtをキーワード出現度数ファイル103から取得して正規
化因子ｓに足し込み、ステップ806：着目文書番号ｄを１増やし、ステップ807：ｄが全文書数Ｎ以下の場合にはステップ8
05に戻って次の文書についての処理を行う。

【００５５】こうして、ステップ804〜ステップ807で
は、キーワードｔの出現する文書の「のべ数」を求め、
これを正規化因子ｓとしていることになる。

【００５６】このようにして、キーワードプロファイル
ベクトル算出モードに従って正規化因子ｓが求まったな
らば、ステップ808：キーワードｔのキーワードプロファイル
ベクトルを、相対出現頻度のベクトル（ｆ_1t／ｓ，…，
ｆ_Nt／ｓ）で算出して、キーワードプロファイルベクト
ルファイル109に出力し、ステップ809：着目キーワード番号ｔを１増やし、ステ
ップ802に戻って次のキーワードについての処理を続け
る。

【００５７】上記の処理によって、キーワードプロファ
イルベクトルファイル109を作成する。

【００５８】例えば、図２の新聞記事全文データベース
のキーワード番号１の「あいさつ」のキーワードプロフ
ァイルベクトルは、正規化因子ｓの値の計算値が２８３
となったとすると、（１／２８３，０，０，０，０，
０，１／２８３，……）のように算出されることにな
る。ここで、上記のキーワードプロファイルベクトルの
第１成分は文書番号１の新聞記事中での「あいさつ」の
相対出現頻度に、第２成分は文書番号２の新聞記事中で
の「あいさつ」の相対出現頻度に、それぞれ対応する。

【００５９】このように、「あいさつ」というキーワー
ドの文書１での出現頻度の値が、文書側とキーワード側
とで、異なる値に変換されてベクトルに組み込まれてい
ることから、従来のＬＳＩ法でのキーワード出現度数デ
ータの変換方法とは異なり、主成分分析などの統計分析
を施す前の文書、単語のベクトル表現が、本質的に異な
るものになっていることが分かる。

【００６０】さらに、文書プロファイルベクトル、キー
ワードプロファイルベクトルのいずれも、文書長やキー
ワード重みには依存せずに定まっていることが分かる。

【００６１】文書、キーワードのそれぞれについてプロ
ファイルベクトルファイルが作成できたら、次に、文書
長とキーワード重みとを考慮してそれぞれのプロファイ
ルベクトルデータの主成分分析を文書主成分分析手段11
4、キーワード主成分分析手段112において行い、各文
書、キーワードの特徴ベクトル（Ｋ次元、「分析次元」
パラメータとして予め定める）と、各次元の寄与度とを
求める。

【００６２】文書データの主成分分析にあたっては、（１）新聞記事全文データベース101中の２つの文書
ａ，ｂの文書プロファイルベクトルＰ_a，Ｐ_b間の内積
を、・キーワード重みファイル107中に格納されている各キ
ーワードｔの重みｗ_t ・文書プロファイルベクトルＰ_a，Ｐ_bの成分ｐ_at，ｐ_bt
のばらつき度合い（即ち、標準偏差の評価値）である、
キーワードｔの新聞記事全文データベース101中での全
出現度数ｈ_tの、全キーワードの総出現度数ｆに対する
割合ｈ_t／ｆの平方根の２つの因子を考慮した、成分の
重みつき積和 Σｗ_t＊ｆ／ｈ_t＊ｐ_at＊ｐ_bt ［数２］（Σはt=1からMまで加算）で算出する。（２）文書長ｌ_dの文書ｄの文書プロファイルベクトル
が、文書ｄに出現する全キーワード数ｇ_dを文書ｄの文
書長ｌ_dで除した、ｇ_d／ｌ_dに比例した個数だけ、主成
分分析対象となる文書プロファイルベクトル集団に含ま
れていると見なして、主成分分析を実行する。の２点を
基本方針として分析処理を行う。

【００６３】上記２点の意味するところは以下のとおり
である。まず、上記の（１）は、Ｍ次元の文書プロファ
イルベクトルの空間のＭ本の座標軸（各キーワードに対
応する）の「目盛り」がそれぞれ異なっている「ゆがん
だ空間」であって、かつ各キーワードｔに関する座標軸
が１本ではなく、キーワードの重みｗ_tに比例した本数
分ある、と見なして内積を求めることに相当する。即
ち、出現頻度に応じた各成分（＝各キーワード）のばら
つきが一定になるように、双方の文書プロファイルベク
トルの成分を（ｈ_t／ｆ）^1/2で除して掛け合わせ、さら
にこの積がｗ_t個あるとして、キーワード重みを文書プ
ロファイルベクトル間の内積に直接的に反映させる。

【００６４】また、上記の（２）は、各文書の重要度
を、ｇ_d／ｌ_d、即ち単位文書長当たりに出現するキーワ
ードの「のべ数」、つまりキーワードの出現密度とし
て、Ｎ個の文書プロファイルベクトルの主成分分析の際
に、各文書ｄのプロファイルベクトルが、この重要度に
応じた本数だけ含まれているとして統計分析処理を行う
ことで、重要度の大きな文書を重視した分析がなされ、
分析結果である特徴ベクトルに、間接的に各文書の重要
度を反映させる。

【００６５】なお、文書プロファイルベクトルＰ_a，Ｐ_b
の成分ｐ_at，ｐ_btのばらつき度合い、即ち標準偏差の評
価値である「ｈ_t／ｆの平方根」という式は、各キーワ
ードｔの文書ｄ中の出現確率を、平均及び分散が（ｇ_d
＊ｈ_t）／ｆのポアソン分布で近似することによって導
出することができる。ただし、ｇ_dは文書ｄ中に出現す
るキーワードの「のべ数」であり、ｆは新聞記事全文デ
ータベース中に出現するキーワードの「のべ数」であ
る。

【００６６】図９は、このような考え方をもとにして、
文書主成分分析手段114において、主成分分析を実行す
る手順を示した流れ図である。図９において、ステップ901：まず、上記（１）の「ゆがんだ空間」を
通常の空間、即ち、ベクトルの内積が成分の積和で求ま
るような空間に変形するような座標変換を、各文書プロ
ファイルベクトルＰ_dに施し、Ｘd＝ｆ^1/2＊Ｗ^1/2＊Ｈ^-1/2＊Ｐ_d ［数３］によって、変換後の文書プロファイルベクトルＸ_dを計
算する。ただし、ｆ^1/2は新聞記事全文データベース中
に出現するキーワードの「のべ数」ｆの平方根，Ｗ ^1/2
はキーワードｔのキーワード重みｗ_tの平方根ｗ_t ^1/2を
ｔ行ｔ列の要素とするＭ行Ｍ列の対角行列、Ｈ^-1/2はキ
ーワードｔの新聞記事全文データベース中での全出現度
数ｈ_tの平方根の逆数ｈ_t ^-1/2をｔ行ｔ列の要素とするＭ
行Ｍ列の対角行列である。この変換を施すことにより、
変換後の文書プロファイルベクトルＸ_dの内積が成分の
積和で求まることは容易に確かめることができる。

【００６７】ステップ902：次いで、数３のＸ_dを第ｄ列
に持つＭ行Ｎ列の行列Ｘと、その転置行列Ｘ’から、Ａ＝Ｘ＊（Ｇ＊Ｌ^-1）＊Ｘ’ ［数４］という、重み付きの文書相関行列データＡを計算する。
ただし、Ｇは、文書ｄ中に出現するキーワードの「のべ
数」ｇ_dをｄ行ｄ列に持つＮ行Ｎ列の対角行列、Ｌ
^-1は、文書ｄの文書長ｌ_dの逆数ｌ_d ^-1をｄ行ｄ列に持つ
Ｎ行Ｎ列の対角行列である。

【００６８】ステップ903：続いて、この行列Ａを数値
的に固有値分解し、大きい方から順にＫ個の固有値
λ₁，λ₂，…，λ_K及び、固有値に対応する正規化され
た（即ちノルムが１の）Ｋ本の固有ベクトルＴ₁，Ｔ₂，
…Ｔ_Kを求める。

【００６９】ステップ904：最後に、各文書ｄの特徴ベ
クトルＵ_dを、変換された文書プロファイルベクトルＸ_d
の、ステップ903で求めたＫ本の固有ベクトルへの射影
を成分とするＫ次元ベクトルＵd＝（Ｔ₁・Ｘ_d ，Ｔ₂・Ｘ_d ，… ，Ｔ_K・Ｘ_d）［数５］として求めて、Ｋ個の固有値λ₁，λ₂，…，λ_Kを「寄
与度」として、Ｎ本のＫ次元ベクトルＵ_dを各文書の
「特徴ベクトル」として文書主成分分析結果ファイル11
5に格納する。

【００７０】キーワードの主成分分析にあたっては、（１）新聞記事全文データベース101中に現れる２つの
キーワードａ，ｂのキーワードプロファイルベクトルＱ
a，Ｑb間の内積を、・文書長ファイル105中に格納されている各文書ｄの文
書長ｌ_d ・キーワードプロファイルベクトルＱ_a，Ｑ_bの成分
ｑ_ad，ｑ_bdのばらつき度合い（即ち標準偏差の評価値）
である、文書ｄに出現する、のべキーワード数ｇ_dの、
全キーワードの総出現度数ｆに対する割合ｇ_d／ｆの平
方根の２つの因子を考慮した、成分の重みつき積和 Σｆ／（ｌ_d＊ｇ_d）＊ｑ_ad＊ｑ_bd ［数６］で算出する。（２）キーワード重みｗ_tのキーワードｔのキーワード
プロファイルベクトルが、キーワードｔの総出現度数ｈ
_tにキーワードｔの重ｗ_tを乗じた、ｈ_t＊ｗ_tに比例した
個数だけ、主成分分析対象となるキーワードプロファイ
ルベクトル集団に含まれていると見なして、主成分分析
を実行する。の２点を基本方針として分析処理を実行す
る。

【００７１】上記２点の意味するところは以下のとおり
である。まず、上記の（１）は、Ｎ次元のキーワードプ
ロファイルベクトルの空間のＮ本の座標軸（各文書に対
応する）の「目盛り」がそれぞれ異なっている「ゆがん
だ空間」であって、かつ各文書ｄに関する座標軸が１本
ではなく、文書長ｌ_dの逆数に比例した本数分ある、と
見なして内積を求めることに相当する。即ち、出現頻度
に応じた各成分（＝各文書中での相対出現頻度）のばら
つきが一定になるように、双方のキーワードプロファイ
ルベクトルの成分を（ｇ_d／ｆ）^1/2で除して掛け合わ
せ、さらにこの積がｌ_d ^-1個あるとして、文書長をキー
ワードプロファイルベクトル間の内積に直接的に反映さ
せる。

【００７２】また、上記の（２）は、各キーワードの重
要度を、ｈ_t＊ｗ_tとして、Ｍ個のキーワードプロファイ
ルベクトルの主成分分析の際に、各キーワードｔのプロ
ファイルベクトルが、この重要度に応じた本数だけ含ま
れているとして統計分析処理を行うことで、重要度の大
きなキーワードを重視した分析がなされ、分析結果であ
る特徴ベクトルに、間接的に各キーワードの重要度を反
映させる。

【００７３】なお、キーワードプロファイルベクトルＱ
_a，Ｑ_bの成分ｑ_ad，ｑ_bdのばらつき度合い、即ち標準偏
差の評価値である「ｇ_d／ｆの平方根」という式は、各
キーワードｔの文書ｄ中での出現確率を、平均及び分散
が（ｇ_d＊ｈ_t）／ｆのポアソン分布で近似することによ
って導出することができる。ただし、ｇ_dは文書ｄ中に
出現するキーワードの「のべ数」であり、ｆは新聞記事
全文データベース中に出現するキーワードの「のべ数」
である。

【００７４】なお、このキーワード側の分析処理は、従
来のＬＳＩ法の場合とは異なり、文書側の分析処理に影
響を与えることなく行うことが可能になっている。

【００７５】図１０は、このような考え方をもとにし
て、キーワード主成分分析手段112において、主成分分
析を実行する手順を示した流れ図である。図１０におい
て、ステップ1001：まず、上記（１）の「ゆがんだ空間」を
通常の空間、即ち、ベクトルの内積が成分の積和で求ま
るような空間に変形するような座標変換を、各キーワー
ドプロファイルベクトルＱ_tに施し、Ｙ_t＝ｆ^1/2＊Ｌ^-1/2＊Ｇ^-1/2＊Ｑ_d ［数７］によって、変換後のキーワードプロファイルベクトルＹ
_tを計算する。ただし、ｆ^1/2は新聞記事全文データベー
ス中に出現するキーワードの「のべ数」ｆの平方根、Ｌ
^-1/2は文書ｄの文書長ｌ_dの平方根の逆数ｌ_d ^-1/2をｄ行
ｄ列の要素とするＮ行Ｎ列の対角行列，Ｇ^-1/2は文書ｄ
に出現するキーワードの「のべ数」ｇ_dの平方根の逆数
ｇ_d ^-1/2をｄ行ｄ列の要素とするＮ行Ｎ列の対角行列で
ある。この変換を施すことにより、変換後のキーワード
プロファイルベクトルＹ_tの内積が成分の積和で求まる
ことは容易に確かめることができる。

【００７６】ステップ1002：次に、数７のＹ_tを第ｄ列
に持つＭ行Ｎ列の行列Ｙと、その転置行列Ｙ’から、Ｂ＝Ｙ＊（Ｈ＊Ｗ）＊Ｙ’ ［数８］という、重み付きのキーワード相関行列データＢを計算
する。ただし、Ｈは、キーワードｔの総出現度数ｈ_tを
ｔ行ｔ列に持つＭ行Ｍ列の対角行列、Ｗは、キーワード
ｔの重みｗ_tをｔ行ｔ列に持つＭ行Ｍ列の対角行列であ
る。

【００７７】ステップ1003：続いて、この行列Ｂを数値
的に固有値分解し、大きい方から順にＫ個の固有値
θ₁，θ₂，…，θ_K及び、固有値に対応する正規化され
た（即ち、ノルムが１の）Ｋ本の固有ベクトルＺ₁，
Ｚ₂，…Ｚ_Kを求める。

【００７８】ステップ1004：最後に、各キーワードｔの
特徴ベクトルＶ_tを、変換されたキーワードプロファイ
ルベクトルＹ_tの、ステップ1003で求めたＫ本の固有ベ
クトルへの射影を成分とするＫ次元ベクトルＶ_t＝（Ｚ₁・Ｙ_t ，Ｚ₂・Ｙ_t ，… ，Ｚ_K・Ｙ_t）［数９］として求めて、Ｋ個の固有値θ₁，θ₂，…，θ_Kを「寄
与度」として、Ｍ本のＫ次元ベクトルＶ_tを各キーワー
ドの「特徴ベクトル」として、キーワード主成分分析結
果ファイル113に格納する。

【００７９】以上のようにして、（ロ）の処理が完了
し、キーワードプロファイルベクトルファイル109、文
書プロファイルベクトルファイル111を経由して、キー
ワード主成分分析結果ファイル113及び文書主成分分析
結果ファイル115が作成され、検索／抽出条件を受け付
ける準備が整ったことになる。

【００８０】この時点で、類似文書検索・関連キーワー
ド抽出条件が文書番号の列、またはキーワードの列のい
ずれかの形式で条件入力手段116に入力されると、
（ハ）の類似文書検索・関連キーワード抽出処理が行わ
れる。

【００８１】このうち、まず類似文書検索処理につい
て、図面をもとに説明する。図１１は、検索条件特徴ベ
クトル算定手段117における検索条件特徴ベクトル算出
の手順を示す流れ図である。図１１において、ステップ1101：条件入力手段116からの入力文字列が文
書番号の列か否かを判定し、入力が文書番号の列である
と判定した場合には、ステップ1102に分岐し、そうでな
い場合には、入力はキーワードの列であると見なしてス
テップ1103に分岐する。具体的には、「０」から「９」
までの数字列が１個以上、カンマ「，」で結合された文
字列の場合には、入力文字列は文書番号の列であると判
定することにする。

【００８２】ステップ1102：入力文字列が文書番号の列
のときは、文書主成分分析結果ファイル115を参照し
て、入力された文書番号の列に含まれる文書ｄの特徴ベ
クトルＵ_dを取得し、その平均ベクトルＲ（各文書特徴
ベクトルの和に、文書数ｒの逆数を乗じたベクトル）を
算出する。

【００８３】ステップ1103：入力文字列がキーワードの
列のときは、入力されたキーワードの列に含まれるｒ個
のキーワードのキーワード番号に相当する成分のみが１
／ｒであるようなＭ次元のベクトルＥを作成し、ステップ1104：キーワード主成分分析結果ファイル11
3、及びキーワード重みファイル107を参照してＲ＝Θ^-1＊Ｖ＊Ｗ＊Ｅ［数１０］によって、Ｋ次元のベクトルＲを算出する。ただし、Θ
^-1はキーワード特徴ベクトルの各次元の寄与度θ_jの逆
数θ_j ^-1をｊ行ｊ列に持つＫ行Ｋ列の対角行列、Ｖは、
キーワード番号ｔのキーワード特徴ベクトルＶ_tを第ｔ
列に持つＫ行Ｍ列のキーワード特徴行列、Ｗは各キーワ
ードの重みｗ_tをｔ行ｔ列に持つＭ行Ｍ列の対角行列で
ある。

【００８４】ステップ1105：ステップ1102、あるいはス
テップ1103〜1104で作成したＫ次元ベクトルＲを検索条
件特徴ベクトルとして、第１、第２の類似文書検索手段
119、120に出力する。

【００８５】なお、ステップ1104においてベクトルＲを
求める際には、０でないＥの成分に対応するキーワード
重みｗ_t、及びキーワード特徴ベクトルＶ_tのみを、それ
ぞれキーワード重みファイル107及びキーワード主成分
分析結果ファイル113から取得すればよく、入力キーワ
ード数ｒが数十個以下の場合には、ベクトルＲの計算は
高速に実行することができる。

【００８６】このようにして、検索条件特徴ベクトル算
定手段117において検索条件特徴ベクトルＲが求まる
と、第１の類似文書検索手段119では、文書主成分分析
結果ファイル115に格納されている文書特徴ベクトルＵ_d
とＲとの内積の値が最も大きいα個（αは予め「表示類
似文書数」パラメータとして設定しておく）の文書が計
算され、α個の組（文書番号、Ｒとの内積）が結果表示
手段123に送られる。

【００８７】同時に、第２の類似文書検索手段120で
は、文書主成分分析結果ファイル115に格納されている
文書特徴ベクトルＵ_dとＲとの距離の値が最も小さいα
個の文書が計算され、α個の組（文書番号、Ｒとの距
離）が結果表示手段123に送られる。

【００８８】ここで、ベクトルＲに対して、内積が最も
大きい、あるいは距離が最も小さいベクトルを、多数の
ベクトル中から効率よく求める方法については、例えば
特願平１１−３６３０５８号「ベクトル索引作成方法と
類似ベクトル検索方法」に開示されており、この方法、
あるいはその他、従来から知られているベクトル検索方
法を援用することで、効率よくα個の類似文書を求める
ことができる。そのような類似ベクトルの高速検索方法
の詳細は、本発明の骨子に影響を与えるものではないた
め、詳細な説明は省略する。

【００８９】次に、関連キーワード抽出処理について、
図面をもとに説明する。図１２は、抽出条件特徴ベクト
ル算定手段118における抽出条件特徴ベクトル算出の手
順を示す流れ図である。図１２において、ステップ1201：条件入力手段116からの入力文字列が文
書番号の列か否かを判定し、入力がキーワードの列であ
ると判定した場合には、ステップ1202に分岐し、そうで
ない場合には、入力は文書番号の列であると見なしてス
テップ1203に分岐する。具体的には、「０」から「９」
までの数字列が１個以上、カンマ「，」で結合された文
字列の場合には、入力文字列は文書番号の列であると判
定し、それ以外の場合には入力文字列はキーワードの列
であると判定することにする。

【００９０】ステップ1202：入力文字列がキーワードの
列であるときは、キーワード主成分分析結果ファイル11
3を参照して、入力されたキーワードの列に含まれるキ
ーワードｔの特徴ベクトルＶ_tを取得し、その平均ベク
トルＲ（各キーワード特徴ベクトルの和に、キーワード
数ｒの逆数を乗じたベクトル）を算出する。

【００９１】ステップ1203：入力文字列が文書番号の列
であるときは、入力された文書番号の列に含まれるｒ個
の文書の文書番号に相当する成分のみが１／ｒであるよ
うな、Ｎ次元のベクトルＥを作成し、ステップ1204：文書主成分分析結果ファイル115、及び
文書長ファイル105を参照してＲ＝Λ^-1＊Ｕ＊Ｌ^-1＊Ｅ［数１１］によって、Ｋ次元のベクトルＲを算出する。ただし、Λ
^-1は文書特徴ベクトルの各次元の寄与度λ_jの逆数λ_j ^-1
をｊ行ｊ列に持つＫ行Ｋ列の対角行列、Ｕは、文書番号
ｄの文書特徴ベクトルＵ_dを第ｄ列に持つＫ行Ｎ列の文
書特徴行列、Ｌ^-1は各文書ｄの文書長ｌ_dをｄ行ｄ列に
持つＮ行Ｎ列の対角行列である。

【００９２】ステップ1205：ステップ1202、あるいはス
テップ1203〜1204で作成したＫ次元ベクトルＲを抽出条
件特徴ベクトルとして、第１、第２の関連キーワード抽
出手段121、122に出力する。

【００９３】なお、ステップ1204においてベクトルＲを
求める際には、０でないＥの成分に対応する文書長
ｌ_d、及び文書特徴ベクトルＵ_dのみを、それぞれ文書長
ファイル105及び文書主成分分析結果ファイル115から取
得すればよく、入力文書番号の個数ｒが数十個以下の場
合には、ベクトルＲの計算は高速に実行することができ
る。

【００９４】このようにして、抽出条件特徴ベクトル算
定手段118において抽出条件特徴ベクトルＲが求まる
と、第１の関連キーワード抽出手段121では、キーワー
ド主成分分析結果ファイル113に格納されているキーワ
ード特徴ベクトルＶ_tとＲとの内積の値が最も大きいβ
個（βは予め「表示関連キーワード数」パラメータとし
て設定しておく）のキーワードが計算され、β個の組
（キーワード文字列、Ｒとの内積）が結果表示手段123
に送られる。

【００９５】同時に、第２の関連キーワード抽出手段12
2では、キーワード主成分分析結果ファイル113に格納さ
れているキーワード特徴ベクトルＶ_tとＲとの距離の値
が最も小さいβ個のキーワードが計算され、β個の組
（キーワード文字列、Ｒとの距離）が結果表示手段123
に送られる。

【００９６】ここで、ベクトルＲに対して、内積が最も
大きい、あるいは距離が最も小さいベクトルを、多数の
ベクトル中から効率よく求める方法については、例えば
特願平１１−３６３０５８号「ベクトル索引作成方法と
類似ベクトル検索方法」に開示されており、この方法、
あるいはその他、従来から知られているベクトル検索方
法を援用することで、効率よくβ個の関連キーワードを
求めることができる。そのような類似ベクトルの高速検
索方法の詳細は、本発明の骨子に影響を与えるものでは
ないため、詳細な説明は省略する。

【００９７】このようにして、２種類のα個の類似文書
とβ個の関連キーワードとが求まったら、結果表示手段
123において、文書類似度算出モード（「内積」または
「距離」）及びキーワード関連度算出モード（「内積」
または「距離」）の、２種のパラメータの設定値に応じ
て、内積、または距離による結果を選択し、β個のキー
ワードのキーワード文字列とその類似度の数値とを関連
キーワード抽出結果として表示するとともに、α個の文
書の文書番号から、新聞記事全文データベース101を参
照して見出しを求め、α個の文書それぞれについて、
「文書番号」、「見出し」、「類似度」の３項目を類似
文書検索結果として表示する。

【００９８】このようにして（ハ）の処理が完了し、あ
る入力に対する類似文書検索／関連キーワード抽出処理
が終了する。

【００９９】以上で、図１に示す類似文書検索・関連キ
ーワード抽出システムの動作の説明を終わる。

【０１００】このように、本発明の実施形態における類
似文書検索装置及び関連キーワード抽出装置では、着目
した文書での各キーワードの出現頻度を文書プロファイ
ルとしてベクトル表現し、また、着目したキーワードの
各文書での出現頻度をキーワードプロファイルとしてベ
クトル表現し、文書長データ、キーワード重みデータ及
び成分のばらつき（標準偏差）は、前記ベクトル表現の
間の内積（類似度の１つの尺度）計算時の重み（成分の
個数）、及び主成分分析時の重み（ベクトルの個数）と
して各プロファイルに別々に作用させている。

【０１０１】この場合、文書プロファイル及びキーワー
ドプロファイルでのベクトル表現は、出現頻度の変換
（標準化）には依存しない。また、出現頻度の変換に関
与する文書長データ、キーワード重みデータ及び成分の
ばらつきは、前記ベクトルの間の内積計算時の重み、及
び主成分分析時の重みとして間接的に作用させているた
め、各文書及びキーワードの特徴ベクトルは、出現頻度
の変換に依存せずに正規化することができる。

【０１０２】そのため、本発明では、キーワードの出現
頻度データＦを直接変換した単一の行列データを統計分
析する従来のＬＳＩ法による装置での基本的な課題、即
ち、キーワードの出現頻度の変換に伴って生じていた非
対称性や、文書の類似度や、キーワードの関連度が、文
書／キーワードの併合によって食い違う非安定性などの
課題を解決することができ、高精度な類似文書検索装置
及び関連キーワード抽出装置を実現することができる。

【０１０３】なお、本実施の形態においては、単語の切
り出し、キーワードの抽出、文書長の算出、及びキーワ
ード重みの算出を、特定の方法によって行っているが、
本発明の骨子は、これらの特定の方法に依存するもので
はなく、文書データベースの種類や検索・抽出条件、検
索・抽出意図などに応じて、種々の方法を用いることが
でき、その場合でも、従来のＬＳＩ法の場合とは異なっ
て、主成分分析結果、ひいては類似文書検索結果や関連
キーワード抽出結果に強い悪影響を及ぼすことがなく、
いわゆる「穏やかな効き目」となって分析結果、検索／
抽出結果に反映される。

【０１０４】結果として、副作用を気にすることなく、
文書データベースの種類や検索・抽出条件、検索・抽出
意図などに応じた、単語の切り出し、キーワードの抽
出、文書長の算出、キーワード重みの算出の方法を設定
することができ、頑健なシステムの構築が可能となる。

【０１０５】さらに、本実施の形態においては、内積、
及び距離の両方の類似度に基づいて、類似文書の検索と
関連キーワードの抽出との両方の処理を行うシステムに
ついて説明したが、このうちの一部の機能が不要な場合
には、不要な手段やファイルを省いた、図１のサブセッ
トに当たるシステムを構築できることは言うまでもな
い。

【０１０６】

【発明の効果】以上の説明から明らかなように、本発明
の類似文書検索装置及び関連キーワード抽出装置は、従
来技術の課題を克服し、高精度な類似文書の検索及び関
連キーワードの抽出を実現することができる。

【０１０７】特に、大規模な文書データベースを対象と
する場合には、副作用を気にすることなく、文書データ
ベースの種類や検索・抽出条件、検索・抽出意図などに
応じた、単語の切り出し、キーワードの抽出、文書長の
算出、キーワード重みの算出の方法を設定することがで
き、頑健で高精度なシステムの構築が可能となる。

【図面の簡単な説明】

【図１】第１の実施形態における類似文書検索・関連キ
ーワード抽出システムの全体構成を表わすブロック図、

【図２】新聞記事全文データベースの内容の例、

【図３】キーワード抽出集計手段の内部構造を表わすブ
ロック図、

【図４】キーワード抽出集計処理の一例を示す概念図、

【図５】文書長データの作成手順を記述した流れ図、

【図６】キーワード重みデータの作成手順を記述した流
れ図、

【図７】文書プロファイルベクトルデータの作成手順を
記述した流れ図、

【図８】キーワードプロファイルベクトルデータの作成
手順を記述した流れ図、

【図９】文書プロファイルベクトルデータの主成分分析
の手順を記述した流れ図、

【図１０】キーワードプロファイルベクトルデータの主
成分分析の手順を記述した流れ図、

【図１１】検索条件特徴ベクトル算出の手順を示した流
れ図、

【図１２】抽出条件特徴ベクトル算出の手順を示した流
れ図である。

【符号の説明】

101 新聞記事全文データベース 102 キーワード抽出集計手段 103 キーワード出現度数ファイル 104 文書長算定手段 105 文書長ファイル 106 キーワード重み算定手段 107 キーワード重みファイル 108 キーワードプロファイルベクトル作成手段 109 キーワードプロファイルベクトルファイル 110 文書プロファイルベクトル作成手段 111 文書プロファイルベクトルファイル 112 キーワード主成分分析手段 113 キーワード主成分分析結果ファイル 114 文書主成分分析手段 115 文書主成分分析結果ファイル 116 条件入力手段 117 検索条件特徴ベクトル算定手段 118 抽出条件特徴ベクトル算定手段 119 第１の類似文書検索手段 120 第２の類似文書検索手段 121 第１の関連キーワード抽出手段 122 第２の関連キーワード抽出手段 123 結果表示手段 301 単語切り出し手段 302 単語辞書 303 キーワード選別手段 304 不要語辞書 305 キーワード集計手段

Claims

【特許請求の範囲】

【請求項１】Ｎ個の文書データを集めた、合計Ｍ種類
のキーワードを含む、機械処理可能な文書データベース
Ｄから、前記文書データベースＤに含まれる１つ以上の
文書ｘ₁，…，ｘ_rを検索条件として指定して、前記検索
条件の文書群と類似する前記文書データベースＤ中の文
書を検索する装置であって、前記文書データベースＤ中の各文書ｄに出現する各キー
ワードｔの出現度数ｆ _dtを記録したキーワード出現度数
データＦを算出するキーワード出現度数算定手段と、前記各文書ｄの長さｌ_dを記録した文書長データＬを算
出する文書長算定手段と、前記文書データベースＤ中に出現する、Ｍ種類のキーワ
ードについて、各キーワードｔの重みｗ_tを記録したキ
ーワード重みデータＷを算出するキーワード重み算定手
段と、前記各文書ｄについて、着目文書ｄ中の各キーワードｔ
の相対出現頻度ｐ_dtを成分とするＭ次元の文書プロファ
イルベクトルＰ_dを算出する文書プロファイルベクトル
算定手段と、前記文書データベースＤ中の文書群の文書プロファイル
ベクトル集団の主成分分析を実施して、前記各文書ｄに
ついて、前記文書プロファイルベクトルＰ_dに対応す
る、固定（Ｋ）次元の文書特徴ベクトルＵ_dを求める文
書主成分分析手段と、前記文書データベースＤに含まれる１つ以上の文書
ｘ₁，…，ｘ_rを検索条件として受け取り、受け取った文
書群の文書特徴ベクトルと前記文書データベースＤ中の
各文書ｄの文書特徴ベクトルとを用いて、前記検索条件
と各文書ｄとの類似度を算定し、類似度の高い文書か
ら、指定された文書数だけ求めて出力する類似文書検索
手段とを備えることを特徴とする類似文書検索装置。
【請求項２】前記類似文書検索手段は、前記文書群の
文書特徴ベクトルと、前記各文書ｄの文書特徴ベクトル
との内積の値から、前記検索条件と各文書ｄとの類似度
を算定することを特徴とする請求項１に記載の類似文書
検索装置。
【請求項３】前記類似文書検索手段は、前記文書群の
文書特徴ベクトルと、前記各文書ｄの文書特徴ベクトル
との距離の値から、前記検索条件と各文書ｄとの類似度
を算定することを特徴とする請求項１に記載の類似文書
検索装置。
【請求項４】Ｎ個の文書データを集めた、合計Ｍ種類
のキーワードを含む、機械処理可能な文書データベース
Ｄから、前記文書データベースＤに含まれる１つ以上の
キーワードｙ₁，…，ｙ_sを検索条件として指定して、前
記検索条件と関連する前記文書データベースＤ中の文書
を検索する装置であって、前記文書データベースＤ中の各文書ｄに出現する各キー
ワードｔの出現度数ｆ _dtを記録したキーワード出現度数
データＦを算出するキーワード出現度数算定手段と、前記各文書ｄの長さｌ_dを記録した文書長データＬを算
出する文書長算定手段と、前記文書データベースＤ中に出現する、Ｍ種類のキーワ
ードについて、各キーワードｔの重みｗ_tを記録したキ
ーワード重みデータＷを算出するキーワード重み算定手
段と、前記各文書ｄについて、着目文書ｄ中の各キーワードｔ
の相対出現頻度ｐ_dtを成分とするＭ次元の文書プロファ
イルベクトルＰ_dを算出する文書プロファイルベクトル
算定手段と、前記文書データベースＤ中に出現する各キーワードｔに
ついて、各文書ｄ中での着目キーワードｔの相対出現頻
度ｑ_dtを成分とするＮ次元のキーワードプロファイルベ
クトルＱ_tを算出するキーワードプロファイルベクトル
算定手段と、前記文書データベースＤ中の文書群の文書プロファイル
ベクトル集団の主成分分析を実施して、前記各文書ｄに
ついて、前記文書プロファイルベクトルＰdに対応す
る、固定（Ｋ）次元の文書特徴ベクトルＵ_dを求める文
書主成分分析手段と、前記文書データベースＤ中のキーワード群のキーワード
プロファイルベクトル集団の主成分分析を実施して、前
記各キーワードｔについて、前記キーワードプロファイ
ルベクトルＱ_tに対応する、前記文書特徴ベクトルと同
一次元の、固定（Ｋ）次元のキーワード特徴ベクトルＶ
_tと、各次元ｊのキーワード寄与度（相関行列の固有
値）θ_jとを求めるキーワード主成分分析手段と、キーワードｙ₁，…，ｙ_sを検索条件として受け取り、受
け取ったキーワード群の前記単語重みデータと、前記キ
ーワード特徴ベクトルと、前記キーワード寄与度とか
ら、前記検索条件に対応する検索条件特徴ベクトルを算
定する検索条件特徴ベクトル算定手段と、算定された前記検索条件特徴ベクトルと、前記各文書ｄ
の文書特徴ベクトルとを用いて、前記検索条件と各文書
ｄとの類似度を算定し、類似度の高い文書から、指定さ
れた文書数だけ求めて出力する類似文書検索手段とを備
えることを特徴とする類似文書検索装置。
【請求項５】前記類似文書検索手段は、前記検索条件
特徴ベクトルと、前記各文書ｄの文書特徴ベクトルとの
内積の値から、前記検索条件と各文書ｄとの類似度を算
定することを特徴とする請求項４に記載の類似文書検索
装置。
【請求項６】前記類似文書検索手段は、前記検索条件
特徴ベクトルと、前記各文書ｄの文書特徴ベクトルとの
距離の値から、前記検索条件と各文書ｄとの類似度を算
定することを特徴とする請求項４に記載の類似文書検索
装置。
【請求項７】Ｎ個の文書データを集めた、合計Ｍ種類
のキーワードを含む、機械処理可能な文書データベース
Ｄから、前記文書データベースＤに含まれる１つ以上の
キーワードｙ₁，…，ｙ_sを抽出条件として指定し、前記
抽出条件のキーワード群と関連性のある、前記文書デー
タベースＤ中に出現するキーワードを抽出する装置であ
って、前記文書データベースＤ中の各文書ｄに出現する各キー
ワードｔの出現度数ｆ _dtを記録したキーワード出現度数
データＦを算出するキーワード出現度数算定手段と、前記各文書ｄの長さｌ_dを記録した文書長データＬを算
出する文書長算定手段と、前記文書データベースＤ中に出現する、Ｍ種類のキーワ
ードについて、各キーワードｔの重みｗ_tを記録したキ
ーワード重みデータＷを算出するキーワード重み算定手
段と、前記各キーワードｔについて、各文書ｄ中での着目キー
ワードｔの相対出現頻度ｑ_dtを成分とするＮ次元のキー
ワードプロファイルベクトルＱ_tを算出するキーワード
プロファイルベクトル算定手段と、前記文書データベースＤ中のキーワード群のキーワード
プロファイルベクトル集団の主成分分析を実施して、前
記各キーワードｔについて、前記キーワードプロファイ
ルベクトルＱ_tに対応する、固定（Ｋ）次元のキーワー
ド特徴ベクトルＶ_tを求めるキーワード主成分分析手段
と、前記文書データベースＤに含まれる１つ以上のキーワー
ドｙ1，…，ｙ_sを抽出条件として受け取り、これらの受
け取ったキーワード群のキーワード特徴ベクトルと前記
文書データベースＤ中に出力する各キーワードｔのキー
ワード特徴ベクトルとを用いて、前記抽出条件と、各キ
ーワードｔとの関連度を算定し、関連度の高いキーワー
ドから、指定されたキーワード数だけ求めて出力する関
連キーワード抽出手段とを備えることを特徴とする関連
キーワード抽出装置。
【請求項８】前記関連キーワード抽出手段は、前記キ
ーワード群のキーワード特徴ベクトルと前記文書データ
ベースＤ中に出力する各キーワードｔのキーワード特徴
ベクトルとの内積の値から、前記抽出条件と各キーワー
ドｔとの関連度を算定することを特徴とする請求項７に
記載の関連キーワード抽出装置。
【請求項９】前記関連キーワード抽出手段は、前記キ
ーワード群のキーワード特徴ベクトルと前記文書データ
ベースＤ中に出力する各キーワードｔのキーワード特徴
ベクトルとの距離の値から、前記抽出条件と各キーワー
ドｔとの関連度を算定することを特徴とする請求項７に
記載の関連キーワード抽出装置。
【請求項１０】Ｎ個の文書データを集めた、合計Ｍ種
類のキーワードを含む、機械処理可能な文書データベー
スＤから、前記文書データベースＤに含まれる１つ以上
の文書ｘ₁，…，ｘ_rを抽出条件として指定し、前記抽出
条件の文書群と関連性のある、前記文書データベースＤ
中に出現するキーワードを抽出する装置であって、前記文書データベースＤ中の各文書ｄに出現する各キー
ワードｔの出現度数ｆ _dtを記録したキーワード出現度数
データＦを算出するキーワード出現度数算定手段と、前記各文書ｄの長さｌ_dを記録した文書長データＬを算
出する文書長算定手段と、前記文書データベースＤ中に出現する、Ｍ種類のキーワ
ードについて、各キーワードｔの重みｗ_tを記録したキ
ーワード重みデータＷを算出するキーワード重み算定手
段と、前記各文書ｄについて、着目文書ｄ中の各キーワードｔ
の相対出現頻度ｐ_dtを成分とするＭ次元の文書プロファ
イルベクトルＰ_dを算出する文書プロファイルベクトル
算定手段と、前記文書データベースＤ中に出現する各キーワードｔに
ついて、各文書ｄ中での着目キーワードｔの相対出現頻
度ｑ_dtを成分とするＮ次元のキーワードプロファイルベ
クトルＱ_tを算出するキーワードプロファイルベクトル
算定手段と、前記文書データベースＤ中の文書群の文書プロファイル
ベクトル集団の主成分分析を実施して、前記各文書ｄに
ついて、文書プロファイルベクトルＰ_dに対応する、固
定（Ｋ）次元の文書特徴ベクトルＵ_dと、各次元ｊの文
書寄与度（相関行列の固有値）λ_jとを求める文書主成
分分析手段と、前記文書データベースＤ中のキーワード群のキーワード
プロファイルベクトル集団の主成分分析を実施して、前
記文書データベースＤ中の各キーワードｔについて、キ
ーワードプロファイルベクトルＱ_tに対応する、前記文
書特徴ベクトルと同一次元の、固定（Ｋ）次元のキーワ
ード特徴ベクトルＶ_tを求めるキーワード主成分分析手
段と、文書ｘ₁，…，ｘ_rを抽出条件として受け取り、受け取っ
た文書群の前記文書長データと、前記文書特徴ベクトル
と、前記文書寄与度とから、前記抽出条件に対応する、
抽出条件特徴ベクトルを算定する、抽出条件特徴ベクト
ル算定手段と、算定された前記抽出条件特徴ベクトルと、前記文書デー
タベースＤ中に出現する各キーワードｔのキーワード特
徴ベクトルとを用いて、前記抽出条件と各キーワードｔ
との関連度を算定し、関連度の高いキーワードから、指
定されたキーワード数だけ求めて出力する関連キーワー
ド抽出手段とを備えることを特徴とする関連キーワード
抽出装置。
【請求項１１】前記関連キーワード抽出手段は、前記
抽出条件特徴ベクトルと、前記文書データベースＤ中に
出現する各キーワードｔのキーワード特徴ベクトルとの
内積の値から、前記抽出条件と各キーワードｔとの関連
度を算定することを特徴とする請求項１０に記載の関連
キーワード抽出装置。
【請求項１２】前記類似文書検索手段は、前記抽出条
件特徴ベクトルと、前記文書データベースＤ中に出現す
る各キーワードｔのキーワード特徴ベクトルとの距離の
値から、前記抽出条件と各キーワードｔとの関連度を算
定することを特徴とする請求項１０に記載の関連キーワ
ード抽出装置。
【請求項１３】前記文書主成分分析手段は、前記文書
データベースＤ中の２つの文書ａ，ｂの文書プロファイ
ルベクトルＰ_a，Ｐ_b間の内積を、前記キーワード重みデ
ータＷと、前記文書プロファイルベクトルＰ_a，Ｐ_bの成
分ｐ_at，ｐ_btのばらつき度合い（即ち、標準偏差の評価
値）とを考慮した、成分の重みつき積和で算定し、か
つ、文書長ｌ_dの文書ｄの文書プロファイルベクトル
が、文書ｄに出現する全キーワード数ｇ_dを前記文書長
ｌ_dで除した、ｇ_d／ｌ_dに比例した個数だけ前記文書プ
ロファイルベクトル集団に含まれていると見なして、前
記主成分分析を行うことを特徴とする請求項１または４
に記載の類似文書検索装置もしくは請求項１０に記載の
関連キーワード抽出装置。
【請求項１４】前記キーワード主成分分析手段は、前
記文書データベースＤ中の２つのキーワードα，βのキ
ーワードプロファイルベクトルＱα，Ｑβ間の内積を、
前記文書長データＬと、前記キーワードプロファイルベ
クトルＱα，Ｑβの成分ｑα_d，ｐβ_dのばらつき度合い
（即ち、標準偏差の評価値）とを考慮した、成分の重み
つき積和で算定し、かつ、単語重みｗ_tのキーワードｔ
のキーワードプロファイルベクトルが、キーワードｔの
全出現度数ｈ_tにキーワードの重みｗ_tを乗じた、ｈ_t＊
ｗ_tに比例した個数だけ、主成分分析対象となるキーワ
ードプロファイルベクトル集団に含まれていると見なし
て、前記主成分分析を行うことを特徴とする請求項４に
記載の類似文書検索装置もしくは請求項７または１０に
記載の関連キーワード抽出装置。
【請求項１５】前記文書長算定手段は、着目文書ｄの
文字数が、予め定めたしきい値ｌ₀未満の場合には、前
記着目文書ｄの長さをｌ₀として記録し、前記しきい値
ｌ₀以上の場合には、前記着目文書ｄの長さを、前記文
字数のδ乗根（δは１以上の整数）として記録すること
を特徴とする請求項１または４に記載の類似文書検索装
置もしくは請求項７または１０に記載の関連キーワード
抽出装置。
【請求項１６】前記文書長算定手段は、着目文書に出
現するキーワードののべ数が、予め定めたしきい値ｌ₀
未満の場合には、着目文書ｄの長さをｌ₀として記録
し、前記しきい値ｌ₀以上の場合には、着目文書ｄの長
さを、前記のべ数のδ乗根（δは１以上の整数）として
記録することを特徴とする請求項１または４に記載の類
似文書検索装置もしくは請求項７または１０に記載の関
連キーワード抽出装置。
【請求項１７】前記キーワード重み算定手段は、着目
キーワードｔの重みｗ_tを、全文書数Ｎに一定値εを加
えた数（Ｎ＋ε）を、前記着目キーワードｔの出現する
文書数ｎに前記εを加えた値（ｎ＋ε）で除した値（Ｎ
＋ε）／（ｎ＋ε）の、２を底とする対数に１を加え
た、１＋ｌｏｇ₂（（Ｎ＋ε）／（ｎ＋ε））によって算出し記録することを特徴とする請求項１また
は４に記載の類似文書検索装置もしくは請求項７または
１０に記載の関連キーワード抽出装置。
【請求項１８】前記キーワード重み算定手段は、着目
キーワードｔの重みｗtを、全文書数Ｎに一定値ε＋１
を加えた数（Ｎ＋ε＋１）を、前記着目キーワードｔの
出現する文書数ｎに前記εを加えた値（ｎ＋ε）で除し
た値（Ｎ＋ε＋１）／（ｎ＋ε）の、２を底とする対数ｌｏｇ₂（（Ｎ＋ε＋１）／（ｎ＋ε））によって算出し記録することを特徴とする請求項１また
は４に記載の類似文書検索装置もしくは請求項７または
１０に記載の関連キーワード抽出装置。
【請求項１９】前記文書プロファイルベクトル算出手
段は、着目文書ｄ中の各キーワードｔの相対出現頻度ｐ
_dtの算出を、着目文書ｄ中での各キーワードｔの出現度
数ｆ_dtを、着目文書ｄ中に出現する全てのキーワードｊ
の出現度数の総和Σｆ_djで割ることによって行うことを
特徴とする請求項１または４に記載の類似文書検索装置
もしくは請求項７または１０に記載の関連キーワード抽
出装置。
【請求項２０】前記キーワードプロファイルベクトル
算出手段は、各文書ｄ中での着目キーワードｔの相対出
現頻度ｑ_dtの算出を、各文書ｄ中での着目キーワードｔ
の出現度数ｆ_dtを、着目キーワードｔが出現する全ての
文書ｉ中での着目キーワードｔの出現度数の総和Σｆ_it
で割ることによって行うことを特徴とする請求項１また
は４に記載の類似文書検索装置もしくは請求項７または
１０に記載の関連キーワード抽出装置。
【請求項２１】前記文書主成分分析手段は、前記文書
データベースＤ中の各文書ｄの文書プロファイルベクト
ルＰ_dの、キーワードｔに対応する成分ｐ_dtのばらつき
度合いを、キーワードｔの全出現度数ｈ_tの、全キーワ
ードの総出現度数ｆに対する割合ｈ_t／ｆの平方根であ
るとして前記文書特徴ベクトルを求めることを特徴とす
る請求項１３に記載の類似文書検索装置または関連キー
ワード抽出装置。
【請求項２２】前記文書主成分分析手段は、前記文書
データベースＤ中の２つの文書ａ，ｂの文書プロファイ
ルベクトルＰ_a，Ｐ_b間の内積を、Ｐ_a，Ｐ_bの、キーワー
ドｔに対応する成分ｐ_at，ｐ_btを、それぞれの成分のば
らつき度合いで除してから掛け合わせ、さらに、キーワ
ード重みデータｗ_tを乗じた値を、すべてのキーワード
ｔについて総和をとって算定することを特徴とする請求
項１３に記載の類似文書検索装置または関連キーワード
抽出装置。
【請求項２３】前記キーワード主成分分析手段は、前
記文書データベースＤ中の各キーワードｔのキーワード
プロファイルベクトルＱ_tの、文書ｄに対応する成分ｑ
_tdのばらつき度合いを、文書ｄに出現する全キーワード
数ｇ_dの、全キーワードの総出現度数ｆに対する割合ｇ_d
／ｆの平方根であるとしてキーワード特徴ベクトルを求
めることを特徴とする請求項１４に記載の類似文書検索
装置または関連キーワード抽出装置。
【請求項２４】前記キーワード主成分分析手段は、前
記文書データベースＤ中の２つのキーワードα，βのキ
ーワードプロファイルベクトルＱα，Ｑβ間の内積を、
Ｑα，Ｑβの、文書ｄに対応する成分ｑα_d，ｑβ_dを、
それぞれの成分のばらつき度合いで除してから掛け合わ
せ、さらに、文書長ｌ_dで除した値を、すべての文書ｄ
について総和をとって算定することを特徴とする請求項
１４に記載の類似文書検索装置または関連キーワード抽
出装置。