JP2003016092A - 類似文書検索方法及びその実施システム並びにその処理プログラム - Google Patents

類似文書検索方法及びその実施システム並びにその処理プログラム

Info

Publication number
JP2003016092A
JP2003016092A JP2001173407A JP2001173407A JP2003016092A JP 2003016092 A JP2003016092 A JP 2003016092A JP 2001173407 A JP2001173407 A JP 2001173407A JP 2001173407 A JP2001173407 A JP 2001173407A JP 2003016092 A JP2003016092 A JP 2003016092A
Authority
JP
Japan
Prior art keywords
document
word
processing unit
feature word
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001173407A
Other languages
English (en)
Inventor
Tadataka Matsubayashi
忠孝 松林
Katsumi Tada
勝己 多田
Yoshifumi Sato
佳史 里
Yasuhiko Inaba
靖彦 稲場
Jugo Noda
十悟 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001173407A priority Critical patent/JP2003016092A/ja
Publication of JP2003016092A publication Critical patent/JP2003016092A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索漏れの無い高精度な類似文書検索を実現
し、内容が特に関連した文書を精度良く検索することが
可能な技術を提供する。 【解決手段】 指定された文書と類似する文書を検索す
る類似文書検索方法において、所望の検索内容を含んだ
種文書から特徴語の候補となる特徴語候補を抽出するス
テップと、前記抽出された特徴語候補が複数の特徴語で
構成された複合特徴語である場合に当該特徴語候補から
複合特徴語及びその複合特徴語を構成する構成特徴語を
当該種文書の特徴語として抽出するステップと、前記抽
出された種文書の特徴語と登録文書の特徴語との間の類
似度を算出するステップと、前記算出された類似度算出
結果を検索結果として出力するステップとを有するもの
である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は指定された文書と類
似する文書を検索する類似文書検索技術に関し、特にユ
ーザから指定された文書に記述されている特徴語を含む
文書を類似文書として文書データベースの中から検索す
る類似文書検索システムに適用して有効な技術に関する
ものである。
【0002】
【従来の技術】近年、組織内での業務の効率化や、業務
の質を向上させる為に、組織内の個人の知識を共有し、
再利用することを目的とする知識管理システムへの要求
が高まってきている。
【0003】特に企業内で活用する知識管理システムに
対しては、有識者の経験やノウハウ等を文書化し、知識
として共有、活用することへの要望が高まっており、組
織内で非定型に蓄えられた大量の知識の中から、ユーザ
が所望するものを簡単にかつ適切に取得する高精度な検
索機能が重要になってきている。
【0004】この様な要求に応える技術として、ユーザ
が自分の所望する内容を含んだ文書(以下、種文書と呼
ぶ)を例示し、その文書と類似する文書を検索する類似
文書検索技術が注目されている。
【0005】類似文書検索の方法としては、例えば、文
書内に出現する単語(以下、特徴語と呼ぶ)の出現頻度
を要素とするベクトル(以下、特徴ベクトルと呼ぶ)を
用いて文書間の類似度を算出する技術(以下、従来技術
1と呼ぶ)が、“Information Retrieval”(William B.
Frakes、 Prentice Hall PTR、 pp.363〜376)に開示され
ている。
【0006】従来技術1の概要は次の通りである。文書
データベースに文書を登録する際に、登録対象となる文
書中に含まれる特徴語の出現頻度を登録文書の特徴ベク
トル(以下、登録文書特徴ベクトルと呼ぶ)として作成
しておく。
【0007】類似文書の検索時は、検索条件として指定
された種文書の特徴ベクトル(以下、種文書特徴ベクト
ルと呼ぶ)と各登録文書特徴ベクトルとのベクトル空間
内においてなす角度の余弦を、文書間の類似度として算
出する。
【0008】図20は従来技術1の処理手順の一例を示
す図である。以下、従来技術1の処理手順を図20のP
AD(Problem Analysis Diagram)図を用いて説明す
る。
【0009】まずステップ200において、文書の登録
処理か類似文書の検索処理かを判定する。そして、文書
の登録処理と判定された場合には登録文書特徴ベクトル
生成ステップ210を実行し、登録対象文書に対する登
録文書特徴ベクトルを生成する。
【0010】また、ステップ200において類似文書の
検索処理と判定された場合には、種文書特徴ベクトル生
成ステップ220を実行し、検索条件として指定された
種文書に対する種文書特徴ベクトルを作成する。
【0011】次にステップ221を実行し、全登録文書
に対して類似度算出ステップ222を繰り返し実行す
る。類似度算出ステップ222では、前記種文書特徴ベ
クトルと登録文書特徴ベクトルが、ベクトル空間内にお
いてなす角度の余弦を文書間の類似度として算出する。
【0012】図21は従来技術1における特徴ベクトル
生成処理の一例を示す図である。以下、図20に示した
登録文書特徴ベクトル生成ステップ210及び種文書特
徴ベクトル生成ステップ220として実行される従来技
術1における特徴ベクトル生成処理について、図21に
示したPAD図を用いて説明する。
【0013】特徴ベクトル生成処理では、まずステップ
301において、特徴ベクトルの生成処理対象となる文
書を読み込む。次にステップ302において、上記ステ
ップ301で読み込まれた処理対象文書から特徴語を抽
出する。
【0014】そしてステップ303において、上記ステ
ップ302で抽出された各特徴語の出現頻度を計数す
る。最後にステップ304において、上記ステップ30
2で抽出された各特徴語と、上記ステップ303で計数
した各特徴語の出現頻度を特徴ベクトルの要素として格
納する。以上が、従来技術1の処理手順である。
【0015】図22は従来技術1の概要を示す図であ
る。以下、図22を用いて従来技術1の処理例を説明す
る。
【0016】従来技術1では、まず処理要求判定ステッ
プ410において、入力された処理要求が登録処理であ
るか、或いは検索処理であるかを判定する。そして、入
力された処理要求が登録処理である場合には、ステップ
210が実行される。
【0017】ステップ210では、登録用文書1及び文
書2中に含まれる特徴語を抽出すると共に各文書内での
出現頻度を計数し、各文書に対応する登録文書特徴ベク
トル403及び404を生成する。
【0018】ここで、登録文書特徴ベクトル403“文
書1("LAN"、1)("構築"、
1)…”は、「文書1」の特徴ベクトルであり、特徴語
“LAN”が1回、特徴語“構築”が1回出現している
ことを表している。
【0019】また、前記処理要求判定ステップ410で
類似文書の検索処理と判定された場合には、検索条件で
指定された種文書406から特徴語を抽出し、ステップ
220で該種文書に対応する種文書特徴ベクトル407
を生成する。
【0020】次に、種文書特徴ベクトル407と前記ス
テップ210で生成された各登録文書の登録文書特徴ベ
クトルとのなす角の余弦を類似度として算出する。
【0021】一般に、2つのベクトルA及びベクトルB
のなす角の余弦は、数1の様に算出される。ここで“A
・B”は、ベクトルAとベクトルBの内積を表し、“|
A|”は、ベクトルAの大きさを表す。
【0022】
【数1】
【0023】図22に示した種文書特徴ベクトル407
と登録文書特徴ベクトル403及び登録文書特徴ベクト
ル404のなす角の余弦は、ベクトルAを種文書特徴ベ
クトル407、ベクトルBを登録文書特徴ベクトル40
3または登録文書特徴ベクトル404として、それぞれ
数2、数3の様に算出される。
【0024】
【数2】
【0025】
【数3】
【0026】この結果として、種文書に対する各登録文
書の類似度算出結果408が出力される。以上が、従来
技術1の処理例である。
【0027】以上説明した様に従来技術1によれば、登
録文書中に含まれる特徴語を抽出した登録文書特徴ベク
トルを予め作成しておき、検索条件として指定された種
文書に対応する種文書特徴ベクトルとの余弦を類似度と
して算出することで、文書データベース中から内容の類
似する文書を検索することができる。
【0028】
【発明が解決しようとする課題】しかし従来技術1で
は、特徴ベクトルの要素である特徴語が複数の単語で構
成されている場合に、検索漏れが発生するという問題が
ある。
【0029】図23は従来技術1の問題点を示す図であ
る。以下、図23を用いて、従来技術1の問題点を説明
する。本図では、文書3「地図情報閲覧ソフトを開発、
発売したA社は、・・・」及び文書4「多くの地図閲覧
ソフトが発売されているが、・・・」が登録された文書
データベースに対して、種文書「最新の地図閲覧ソフト
について」が入力された場合の例を表している。
【0030】まず文書の登録処理として、ステップ21
0が実行され、各文書に対応する登録文書特徴ベクトル
403a及び404aが生成される。本図に示した例で
は、文書3に対応する特徴ベクトル403aとして“文
書3("地図"、1)("閲覧"、1)
("ソフト"、1)("発売"、1)”
が生成され、文書4に対応する特徴ベクトル404aと
して“文書4("地図閲覧ソフト"、1)(&qu
ot;発売"、1)”が生成される。
【0031】次に類似文書の検索処理として、種文書特
徴ベクトル生成処理ステップ220が実行され、種文書
に対応する種文書特徴ベクトル407aが生成される。
本図に示した例では、種文書特徴ベクトル407aとし
て、“種文書("地図閲覧ソフト"、1)”が
生成される。
【0032】そして類似度算出ステップ222におい
て、種文書に対する各登録文書の類似度を算出する。こ
の結果、類似度算出結果408aが出力される。本図に
示した例では、数4及び数5に示す様に、文書3の類似
度0.000及び文書4の類似度0.710と算出され
る。
【0033】
【数4】
【0034】
【数5】
【0035】この結果、文書3の内容は種文書に対して
関連があるにも関わらず、従来技術1では文書3の内容
は種文書に対して全く類似していないものと算出されて
しまう。
【0036】これは、種文書の特徴ベクトルの要素とし
て抽出される特徴語が複数の単語で構成されているにも
かかわらず、最長一致の特徴語「地図閲覧ソフト」のみ
を特徴ベクトルの要素として類似度算出に用いた為に、
特徴語を構成する各単語の持つ個々の概念が類似度に反
映されないことによるものである。すなわち、特徴語を
構成する各単語それぞれを含む登録文書に対して類似度
が付与されず、検索漏れが発生してしまうことになる。
【0037】一方、前記の最長一致の特徴語「地図閲覧
ソフト」の代わりに、「地図閲覧ソフト」を構成する各
単語「地図」「閲覧」「ソフト」を用いることで前記の
様な検索漏れを防止することができるが、この場合には
「地図閲覧ソフト」とは類似度の低い文書がノイズとし
て検索される可能性が高くなる。以上が従来技術1の問
題点である。
【0038】本発明の目的は上記問題を解決し、検索漏
れの少ない類似文書検索を実現し、内容が関連した文書
を精度良く検索することが可能な技術を提供することに
ある。本発明の他の目的は検索漏れが少なくノイズの少
ない類似文書検索を実現することが可能な技術を提供す
ることにある。
【0039】
【課題を解決するための手段】本発明は、指定された文
書と類似する文書を検索する類似文書検索システムにお
いて、複合特徴語及びその複合特徴語を構成する構成特
徴語を含む文書を類似文書として検索するものである。
【0040】本発明の類似文書検索システムでは、処理
対象文書から抽出された特徴語候補が複数の特徴語から
構成されている複合特徴語であるか、単一の単語から構
成されている単独特徴語であるかを判定し、複合特徴語
と判定された場合には複合特徴語及びその複合特徴語を
構成する構成特徴語を特徴語として抽出し、単独特徴語
と判定された場合には該特徴語そのものを抽出する。
【0041】すなわち、複合特徴語とその複合特徴語を
構成する構成特徴語を抽出し、その抽出した複合特徴語
及び構成特徴語を類似度算出に使用することにより、検
索漏れの無い高精度な類似文書検索を実現することが可
能となる。
【0042】以上の様に本発明の類似文書検索システム
によれば、複合特徴語及びその複合特徴語を構成する構
成特徴語を含む文書を類似文書として検索するので、検
索漏れの無い高精度な類似文書検索を実現し、内容が特
に関連した文書を精度良く検索することが可能である。
【0043】
【発明の実施の形態】(実施形態1)以下に指定された
種文書中の複合特徴語及びその複合特徴語を構成する構
成特徴語を含む文書を類似文書として検索する実施形態
1の類似文書検索システムについて説明する。
【0044】図1は本実施形態の類似文書検索システム
の概略構成を示す図である。図1に示す様に本実施形態
の類似文書検索システムは、システム制御処理部110
と、登録制御処理部111と、検索制御処理部112
と、登録文書取得処理部120と、登録文書特徴ベクト
ル登録処理部121と、検索条件解析処理部130と、
種文書類似度算出処理部131と、検索結果出力処理部
132と、登録文書特徴ベクトル読込処理部160と、
類似度算出処理部161と、特徴ベクトル生成処理部1
70と、特徴語抽出処理部171と、文書解析処理部1
72と、複合特徴語判定処理部173と、出現頻度計数
処理部174とを有している。
【0045】システム制御処理部110は、キーボード
101から入力されたコマンドを解析し、登録制御処理
部111または検索制御処理部112を起動する処理部
である。登録制御処理部111は、登録文書取得処理部
120を起動し、登録対象として指定された文書の特徴
ベクトルの磁気ディスク装置103への格納を制御する
処理部である。
【0046】検索制御処理部112は、検索条件解析処
理部130、種文書類似度算出処理部131、検索結果
出力処理部132を起動し、検索条件で指定された種文
書に類似する文書の検索を制御する処理部である。
【0047】登録文書取得処理部120は、登録対象の
文書を取得する処理部である。登録文書特徴ベクトル登
録処理部121は、登録対象の文書の特徴ベクトルを磁
気ディスク装置103へ格納する処理部である。検索条
件解析処理部130は、検索条件で指定された種文書を
取得する処理部である。
【0048】種文書類似度算出処理部131は、登録文
書特徴ベクトル読込処理部160及び類似度算出処理部
161を起動し、種文書から抽出された特徴語と各登録
文書との間の類似度を算出する処理部である。検索結果
出力処理部132は、前記算出された類似度算出結果を
検索結果として出力する処理部である。
【0049】登録文書特徴ベクトル読込処理部160
は、磁気ディスク装置103に格納された登録文書特徴
ベクトルファイル180を読み込む処理部である。類似
度算出処理部161は、種文書特徴ベクトルに対する登
録文書特徴ベクトルのなす角度の余弦を算出し、種文書
に対する登録文書の類似度を算出する処理部である。
【0050】特徴ベクトル生成処理部170は、特徴語
抽出処理部171及び出現頻度計数処理部174を起動
し、処理対象文書の特徴語候補が複数の特徴語で構成さ
れた複合特徴語である場合に当該特徴語候補から複合特
徴語及びその複合特徴語を構成する構成特徴語を当該処
理対象文書の特徴語として抽出して処理対象文書の特徴
ベクトルを生成する処理部である。
【0051】特徴語抽出処理部171は、文書解析処理
部172及び複合特徴語判定処理部173を起動し、処
理対象文書から特徴語または複合特徴語及び構成特徴語
を抽出する処理部である。文書解析処理部172は、登
録対象の文書である登録文書や所望の検索内容を含んだ
種文書等の処理対象文書から特徴語の候補となる特徴語
候補を抽出する処理部である。
【0052】複合特徴語判定処理部173は、前記抽出
された特徴語候補に対応する特徴語にその構成特徴語を
示す構成特徴語情報としてそれらの構成特徴語のポイン
タ情報が登録されている場合に、当該特徴語候補が複合
特徴語であると判定する処理部である。出現頻度計数処
理部174は、処理対象文書から抽出された各特徴語の
当該処理対象文書における出現頻度を計数する処理部で
ある。
【0053】類似文書検索システムをシステム制御処理
部110、登録制御処理部111、検索制御処理部11
2、登録文書取得処理部120、登録文書特徴ベクトル
登録処理部121、検索条件解析処理部130、種文書
類似度算出処理部131、検索結果出力処理部132、
登録文書特徴ベクトル読込処理部160、類似度算出処
理部161、特徴ベクトル生成処理部170、特徴語抽
出処理部171、文書解析処理部172、複合特徴語判
定処理部173及び出現頻度計数処理部174として機
能させる為のプログラムは、CD−ROM等の記録媒体
に記録され磁気ディスク等に格納された後、メモリにロ
ードされて実行されるものとする。なお前記プログラム
を記録する記録媒体はCD−ROM以外の他の記録媒体
でも良い。また前記プログラムを当該記録媒体から情報
処理装置にインストールして使用しても良いし、ネット
ワークを通じて当該記録媒体にアクセスして前記プログ
ラムを使用するものとしても良い。
【0054】本実施形態の類似文書検索システムは、デ
ィスプレイ100、キーボード101、中央演算処理装
置であるCPU102、磁気ディスク装置103、フロ
ッピディスクドライブであるFDD104、主メモリ1
05、これらを結ぶバス106及び他の機器と本システ
ムを接続するネットワーク108から構成される。
【0055】磁気ディスク装置103は二次記憶装置の
一つであり、登録文書特徴ベクトルファイル180及び
特徴語辞書ファイル181が格納される。FDD104
を介してフロッピディスク107に格納されている情報
が、主メモリ105或いは磁気ディスク装置103へ読
み込まれる。
【0056】主メモリ105には、システム制御処理部
110、登録制御処理部111、検索制御処理部11
2、登録文書取得処理部120、登録文書特徴ベクトル
登録処理部121、検索条件解析処理部130、種文書
類似度算出処理部131、検索結果出力処理部132及
び共有ライブラリ140が格納されると共にワークエリ
ア141が確保される。共有ライブラリ140には、特
徴ベクトル生成処理部170、特徴語抽出処理部171
及び出現頻度計数処理部174が格納される。
【0057】種文書類似度算出処理部131は、登録文
書特徴ベクトル読込処理部160及び類似度算出処理部
161で構成される。特徴ベクトル生成処理部170
は、特徴語抽出処理部171及び出現頻度計数処理部1
74を呼び出す構成をとる。特徴語抽出処理部171
は、文書解析処理部172及び複合特徴語判定処理部1
73で構成される。
【0058】登録制御処理部111及び検索制御処理部
112は、キーボード101からのユーザによる指示に
応じてシステム制御処理部110によって起動され、そ
れぞれ登録文書取得処理部120、特徴ベクトル生成処
理部170及び登録文書特徴ベクトル登録処理部121
の制御と、検索条件解析処理部130、特徴ベクトル生
成処理部170、種文書類似度算出処理部131及び検
索結果出力処理部132の制御を行なう。
【0059】なお本実施形態では、キーボード101か
ら入力されたコマンドにより、登録制御処理部111や
検索制御処理部112が起動されるものとしたが、他の
入力装置を介して入力されたコマンド或いはイベントに
より起動されるものであっても構わない。
【0060】また、本実施形態の類似文書検索システム
をこれらの処理部として機能させる為のプログラムは、
磁気ディスク装置103、フロッピディスク107、或
いはMO、CD−ROM、DVD等の記録媒体(図1に
は示していない)に格納され、駆動装置を介して主メモ
リ105に読み込まれ、CPU102によって実行され
るものとするが、これらのプログラムをネットワーク1
08を介して主メモリ105に読み込み、CPU102
によって実行することも同様に可能である。
【0061】更に、本実施形態では登録文書特徴ベクト
ルファイル180及び特徴語辞書ファイル181を磁気
ディスク装置103に格納するものとしたが、フロッピ
ディスク107、MO、CD−ROM、DVD等の記録
媒体(図1には示していない)に格納し、駆動装置を介
して主メモリ105に読み込み利用することも可能であ
る。また、これらのファイルはネットワーク108を介
して、他のシステムに接続された記録媒体(図1には示
していない)に格納されるものとしても良いし、或いは
ネットワーク108に直接接続された記録媒体に格納さ
れるものとしても構わない。
【0062】以下、本実施形態における類似文書検索シ
ステムの処理手順について説明する。図本実施形態のシ
ステム制御処理部110の処理内容を示す図である。ま
ず、システム制御処理部110の処理手順について図2
のPAD図を用いて説明する。
【0063】システム制御処理部110は、まずステッ
プ800で、キーボード101から入力されたコマンド
を解析する。そしてステップ801で、この結果が登録
実行のコマンドであると解析された場合には、ステップ
802で登録制御処理部111を起動して文書の登録を
行なう。またステップ801で、検索実行のコマンドで
あると解析された場合には、ステップ803で検索制御
処理部112を起動して、類似文書の検索を行なう。以
上が、システム制御処理部110の処理手順である。
【0064】図3は本実施形態の登録制御処理部111
の処理内容を示す図である。図2に示したシステム制御
処理部110のステップ802で起動される登録制御処
理部111の処理手順について、図3のPAD図を用い
て説明する。
【0065】登録制御処理部111では、まずステップ
900において登録文書取得処理部120を起動し、登
録対象として指定された文書(以下、登録対象文書と呼
ぶ)を読み込み、ワークエリア141に格納する。
【0066】次に、ステップ901において、共有ライ
ブラリ140に格納されている特徴ベクトル生成処理部
170を起動し、登録対象文書に対する特徴ベクトルを
生成し、ワークエリア141に格納する。
【0067】そして、ステップ902において、登録文
書特徴ベクトル登録処理部121を起動し、ワークエリ
ア141に格納されている登録文書特徴ベクトルを磁気
ディスク装置103へ格納する。以上が、登録制御処理
部111の処理手順である。
【0068】図4は本実施形態の特徴ベクトル生成処理
部170の処理内容を示す図である。図3に示した登録
制御処理部111のステップ901で起動される特徴ベ
クトル生成処理部170の処理手順について、図4のP
AD図を用いて説明する。
【0069】特徴ベクトル生成処理部170では、まず
ステップ1000において特徴語抽出処理部171を起
動し、ワークエリア141に格納された処理対象文書か
ら特徴語を抽出する。次に、ステップ1001におい
て、出現頻度計数処理部174を起動し、ワークエリア
141に格納された各特徴語の処理対象文書における出
現頻度を計数する。以上が、特徴ベクトル生成処理部1
70の処理手順である。なお、本特徴ベクトル生成処理
部170は共有ライブラリ140に格納されており、後
述する文書検索処理における検索制御処理部112から
も実行され、種文書に対する特徴ベクトルの生成におい
ても使用される。
【0070】図5は本実施形態の特徴語抽出処理部17
1の処理内容を示す図である。図4に示した特徴ベクト
ル生成処理部170のステップ1000で起動される特
徴語抽出処理部171の処理手順について、図5のPA
D図を用いて説明する。
【0071】特徴語抽出処理部171は、まずステップ
1400において文書解析処理部172を起動し、ワー
クエリア141に格納された処理対象文書中の文字列と
特徴語辞書ファイル181中の特徴語とを比較し、特徴
語辞書ファイル181中の特徴語と一致する文字列を特
徴語候補として処理対象文書から抽出する。
【0072】次にステップ1401において、複合特徴
語判定処理部173を起動し、上記ステップ1400に
おいて抽出された特徴語候補に対応する特徴語辞書ファ
イル181中の特徴語に構成特徴語の格納位置を示すポ
インタ情報が登録されているかどうかを調べ、特徴語辞
書ファイル181中の特徴語に前記ポインタ情報が登録
されている場合には、当該特徴語候補が複合特徴語であ
ると判定する。
【0073】そして、特徴語候補が複合特徴語であると
判定された場合には、ステップ1402を実行し、前記
ポインタ情報で示された特徴語をその複合特徴語の構成
特徴語として読み出して、それらの複合特徴語及び構成
特徴語を処理対象文書の特徴語として抽出する。
【0074】前記の様に本実施形態では、抽出された特
徴語候補に対応する特徴語辞書ファイル181中の特徴
語に構成特徴語の格納位置を示すポインタ情報が登録さ
れているかどうかを調べることにより、当該特徴語候補
が複合特徴語であるかを判定し、前記ポインタ情報を用
いて構成特徴語の読み出しを行なうので、特徴語候補が
複合特徴語であるかの判定及び構成特徴語の読み出しを
高速に行なうことが可能である。なお、本実施形態では
複合特徴語に構成特徴語を示すポインタ情報を格納する
ものとしたが、複合特徴語内に分割位置を格納しておく
ものとしても良いし、構成特徴語そのものを格納してお
くものとしても良い。
【0075】また、ステップ1401において、特徴語
候補が複合特徴語でないと判定された場合にはステップ
1403を実行し、特徴語候補そのものを処理対象文書
の特徴語として抽出する。以上が、特徴語抽出処理部1
71の処理手順である。
【0076】図6は本実施形態の検索制御処理部112
の処理内容を示す図である。図2に示したシステム制御
処理部110のステップ803で起動される検索制御処
理部112の処理手順について、図6のPAD図を用い
て説明する。
【0077】検索制御処理部112は、まずステップ1
100において、検索条件解析処理部130を起動し、
検索条件で指定された種文書を取得する。そしてステッ
プ1101において、共有ライブラリ140に格納され
た特徴ベクトル生成処理部170を起動し、上記ステッ
プ1100で取得された種文書に対する種文書特徴ベク
トルを生成する。
【0078】次にステップ1102において、種文書類
似度算出処理部131を起動し、種文書に対する各登録
文書の類似度を算出する。そしてステップ1103にお
いて、検索結果出力処理部132を起動し、上記ステッ
プ1101で算出された類似度算出結果を検索結果とし
て出力する。
【0079】ここで、検索結果の出力先は、ディスプレ
イ100に表示するものとしても良いし、ワークエリア
141や磁気ディスク装置103上に格納するものとし
ても良い。また、類似度算出結果をディスプレイ100
に出力する場合には、類似度の降順に出力するものとし
ても良いし、文書に付与された管理番号の昇順或いは降
順に出力するものとしても良い。以上が検索制御処理部
112の処理手順である。
【0080】図7は本実施形態の種文書類似度算出処理
部131の処理内容を示す図である。図6に示した検索
制御処理部112のステップ1102で起動される種文
書類似度算出処理部131の処理手順について、図7の
PAD図を用いて説明する。
【0081】種文書類似度算出処理部131は、まずス
テップ1300において、登録文書特徴ベクトル読込処
理部160を起動し、磁気ディスク装置103に格納さ
れた登録文書特徴ベクトルファイル180を読み込み、
ワークエリア141に格納する。
【0082】そしてステップ1301において、ワーク
エリア141に格納された全ての登録文書特徴ベクトル
に対して、ステップ1302を繰り返し実行する。ステ
ップ1302では、類似度算出処理部161を起動し、
種文書特徴ベクトルに対する登録文書特徴ベクトルのな
す角度の余弦を算出し、種文書に対する登録文書の類似
度としてワークエリア141に格納する。以上が種文書
類似度算出処理部131の処理手順である。
【0083】以下、本実施形態における類似文書検索シ
ステムの具体的な処理手順を図8〜図11を用いて説明
する。まず、本実施形態における類似文書検索システム
における文書の登録処理について、図8を用いて説明す
る。
【0084】図8は本実施形態の文書の登録処理の処理
内容を示す図である。図8では、文書3「地図情報閲覧
ソフトを開発、発売したA社は、・・・」及び文書4
「多くの地図閲覧ソフトが発売されているが、・・・」
が文書データベースに登録される場合の処理の流れを表
している。
【0085】まず、本実施形態の類似文書検索システム
において、登録文書取得処理部120は、登録対象の文
書3及び文書4を読み込み、ワークエリア141に格納
する。次に特徴ベクトル生成処理部170は、登録対象
の文書3及び文書4に対応する登録文書特徴ベクトル4
03a及び404bを作成し、ワークエリア141に格
納する。そして、登録文書特徴ベクトル登録処理部12
1は、ワークエリア141上の登録文書特徴ベクトルを
登録文書特徴ベクトルファイル180に格納する。以上
が、本実施形態に示した類似文書検索システムにおける
文書の登録処理である。
【0086】次に、本実施形態における類似文書検索シ
ステムにおける類似文書の検索処理について、図9を用
いて説明する。
【0087】図9は本実施形態の類似文書の検索処理の
処理内容を示す図である。図9では、種文書「最新の地
図閲覧ソフトについて」が入力された場合の例を表して
いる。まず、検索条件解析処理部130は、検索条件で
指定された種文書を取得し、ワークエリア141に格納
する。
【0088】そして、特徴ベクトル生成処理部170
は、ワークエリア141に格納された種文書に対応する
種文書特徴ベクトル407bを生成し、ワークエリア1
41に格納する。
【0089】次に、登録文書特徴ベクトル読込処理部1
60は、前記文書の登録処理で作成された登録文書特徴
ベクトルファイル180を読み込み、登録文書特徴ベク
トル403a及び404bをワークエリア141に格納
する。
【0090】
【数6】
【0091】
【数7】
【0092】そして、類似度算出処理部161は、前記
ステップ170で生成された種文書特徴ベクトル407
bと登録文書特徴ベクトル403a及び404bのなす
角度の余弦を数6及び数7の様に算出し、種文書に対す
る登録文書の類似度算出結果408bを出力する。以上
が、本実施形態における類似文書検索システムにおける
類似文書の検索処理手順である。
【0093】次に、本実施形態における類似文書検索シ
ステムにおける特徴ベクトルの生成処理手順について図
10を用いて説明する。
【0094】図10は本実施形態の特徴ベクトルの生成
処理の処理内容を示す図である。図10では、種文書
「最新の地図閲覧ソフトについて」が入力された場合に
その特徴ベクトルが作成される手順を表している。
【0095】まず、文書解析処理部172は、ワークエ
リア141に格納された処理対象文書である種文書16
01“最新の地図閲覧ソフトについて”中の文字列と特
徴語辞書ファイル181中の特徴語とを比較し、特徴語
辞書ファイル181中の特徴語と一致する文字列“地図
閲覧ソフト”を特徴語候補1602として種文書160
1から抽出する。
【0096】そして、複合特徴語判定処理部173は、
特徴語辞書ファイル181中の特徴語“地図閲覧ソフ
ト”に構成特徴語の格納位置を示すポインタ情報が登録
されているかどうかを調べ、特徴語候補1602“地図
閲覧ソフト”が複数の特徴語で構成される複合特徴語で
あるかを判定する。この結果、特徴語候補1602“地
図閲覧ソフト”は複数の特徴語“地図”、“閲覧”、
“ソフト”から構成されるものと判定され、複合特徴語
と判定される。
【0097】次に、特徴語抽出処理部171は、上記複
合特徴語判定処理部173の結果、複合特徴語と判定さ
れた“地図閲覧ソフト”から、これを構成する特徴語1
604“地図”“閲覧”“ソフト”を前記ポインタ情報
により抽出する。そして、出現頻度計数処理部174
は、上記特徴語抽出処理部171で抽出された各特徴語
について、種文書1601内での出現頻度を計数し、特
徴語とその出現頻度を特徴ベクトル1605として出力
する。以上が、本実施形態における類似文書検索システ
ムにおける特徴ベクトルの生成処理手順である。
【0098】以上説明した様に本実施形態によれば、複
合特徴語だけでなく、複合特徴語を構成する構成特徴語
を特徴ベクトルの要素として類似度算出に使用する。こ
の結果として、最長一致の様に“地図閲覧ソフト”を含
むノイズの少ない類似文書検索を行なうと共に検索漏れ
の無い高精度な類似文書検索を実現することができる。
【0099】なお本実施形態では、登録対象文書や種文
書を文書としたが、文章或いは文字列であっても構わな
い。また、本実施形態における特徴ベクトル生成処理で
は、処理対象中に出現する複合特徴語から複合特徴語及
び複合特徴語に含まれる構成特徴語を全て抽出するもの
として説明したが、全ての構成特徴語を抽出するのでは
なく一部を抽出するものとしても構わない。この場合、
抽出する構成特徴語の指定方法としては、従来技術1の
参照文献等に記載されているIDF(InvertedDocument
Frequency)が予め定められた閾値を越えるものだけを
抽出するものとしても良いし、複合特徴語の中で先頭或
いは末尾等の予め定められた位置を構成する特徴語だけ
を抽出するものとしても良い。
【0100】また本実施形態では、登録対象文書に対す
る特徴ベクトルを予め作成しておくものとしたが、文書
の登録時には全文検索用インデクスを作成しておき、検
索時に該当する全文検索用インデクスを参照することに
より各登録対象文書に出現頻度を求め、類似度の算出を
行なうものとしても良い。更に本実施形態では、特徴語
の抽出に特徴語辞書を参照するものとして説明したが、
辞書を用いずに特徴語を抽出する技術等を用いることも
可能である。
【0101】辞書を用いずに特徴語を抽出する技術とし
ては、例えば「特開平11−338883」に、単語の
境界となりうる確率(以下、単語境界確率と呼ぶ)を用
いて特徴語の抽出を行なう技術(以下、従来技術2と呼
ぶ)が開示されている。
【0102】本従来技術2では、文書を登録する際に、
登録文書中に出現する文字列の単語境界確率を計数し、
蓄積しておく。
【0103】そして、類似文書の検索時には、まず種文
書のテキストから単一の文字種だけで構成される文字列
(以下、単一文字種文字列)を抽出する。次に、単一文
字種文字列の先頭から i文字目までが単語として存在す
る確率と(i+1)文字目までが単語として存在する確率を
比較し、確率の高い文字列を特徴語として抽出する。そ
して、種文書から抽出された特徴語を用いて、登録文書
との類似度を算出し、類似度の高い登録文書を種文書に
対する類似文書として出力する。
【0104】以下、図24を用いて従来技術2における
特徴語抽出処理の手順を、単一文字種文字列「携帯電
話」を例に具体的に説明する。
【0105】なお、本図に示す例では、出現確率ファイ
ル2400に格納されている最大n-gram長を 2とし、分
割確率を算出する i文字目を 1文字目とする。すなわ
ち、 1文字目での分割確率P(1)および 2文字目での分割
確率P(2)を算出するものとして、以下の説明を行なう。
【0106】まず、分割確率の算出位置である 1文字目
までの文字列の単独確率が出現確率ファイル2400に
格納されているかどうかを確認するために、出現確率フ
ァイル2400に格納されている最大n-gram長 2と分割
確率算出位置 1を比較する。その結果、格納されている
最大n-gram長の方が大きいので、 1文字目までの文字列
「携」の単独確率0.01を出現確率ファイル2400より
取得する。
【0107】次に、分割確率の算出位置の後方に何文字
存在するかを確認するために、単一文字種文字列「携帯
電話」の文字列長 4と分割確率算出位置 1を比較する。
その結果、 2文字以上の文字列「帯電話」が存在するた
め、「帯」の先頭確率0.11を出現確率ファイル2400
から取得する。そして、「携」の単独確率0.01と「帯」
の先頭確率0.11の積を算出し、 1文字目での分割確率P
(1)=0.001を得る。
【0108】同様に、分割確率の算出位置である 2文字
目までの文字列の単独確率が出現確率ファイル2400
に格納されているかを確認するために、出現確率ファイ
ル2400に格納されている最大n-gram長 2と分割確率
算出位置 2を比較する。その結果、格納されている最大
n-gram長と算出位置が等しいので、 2文字目までの文字
列「携帯」の単独確率0.10を出現確率ファイル2400
より取得する。
【0109】次に、分割確率の算出位置の後方に何文字
存在するかを確認するために、単一文字種文字列「携帯
電話」の文字列長 4と分割確率算出位置 2を比較する。
その結果、 2文字以上の文字列「電話」が存在するた
め、「電」の先頭確率0.36を出現確率ファイル2400
から取得する。そして、「携帯」の単独確率0.10と
「電」の先頭確率0.36の積を算出し、2文字目での分割
確率P(2)=0.036を得る。
【0110】次に、算出された 1文字目での分割確率P
(1)と 2文字目での分割確率P(2)を比較し、値の大きい
方で単一文字種文字列を分割する。この結果、単一文字
種文字列「携帯電話」から2つの特徴語「携帯」と「電
話」を抽出することができる。
【0111】以上が、従来技術2における特徴語抽出処
理の手順である。
【0112】以上説明したように従来技術2を用いるこ
とにより、文書の登録時に蓄積された単語境界確率を参
照することにより、辞書を用いずに特徴語を抽出し、こ
れを用いて類似文書を検索することができるようにな
る。
【0113】以下、従来技術2を用いた特徴ベクトル生
成手順について図25を用いて具体的に説明する。図2
5では、種文書「最新の地図閲覧ソフトについて」が入
力された場合の例に、検索特徴ベクトルが作成される手
順を示す。
【0114】まず単一文字種文字列抽出処理2501が
実行され、ワークエリア141に格納された処理対象文
書である種文書1701“最新の地図閲覧ソフトについ
て”から単一文字種文字列2510“最新”、“地図閲
覧”、“ソフト”が抽出される。
【0115】そして、複合特徴語判定処理2502が実
行され、単一文字種文字列2510が複数の特徴語で構
成される複合特徴語であるかを判定する。
【0116】次に、特徴語抽出処理2503が実行さ
れ、上記複合特徴語判定処理2502の結果、複合特徴
語と判定された“地図閲覧”から、これを構成する特徴
語“地図”“閲覧”が抽出され、単独特徴語と判定され
た“最新”および“ソフト”からは特徴語“最新”およ
び“ソフト”が抽出される。
【0117】そして、出現頻度計数処理174が実行さ
れ、上記特徴語抽出処理2503で抽出された各特徴語
について、処理対象文書1701内での出現頻度が計数
され、特徴ベクトル2513として出力される。
【0118】以上が、辞書を用いずに特徴語を抽出する
従来技術2を本発明に適用した場合の特徴ベクトル生成
処理手順である。
【0119】なお、特徴語の分割判定処理2502で使
用する各文字列の単語境界確率としては、従来技術2に
開示されるように登録文書中に含まれる各文字列の文字
種境界確率を使用してもよいし、他の文書データベース
に登録された文書に含まれる各文字列の文字種境界確率
を使用してもよい。
【0120】また、出現確率ファイル2400における
各n-gramの文字種境界確率の保持形式としては、図24
に示したように確率そのものを保持するものとしたが、
保持形式に影響されるものではなく、n-gramの出現回
数、単語の先頭出現回数、末尾出現回数および単独出現
回数を保持しておき、文字種境界確率の算出時に該出現
回数情報を用いて該文字種境界確率を算出するものとし
てもよい。
【0121】さらに、出現回数ファイル2400では表
形式で各n-gramの文字種境界確率を保持するものとした
が、同様に保持形式に影響を受けるものではなく、例え
ばトライ構造で保持するものとしてもよい。
【0122】また、従来技術2では種文書から単一文字
種文字列を抽出し、該単一文字種文字列に対して複合特
徴語かを判定していたが、種文書から抽出するのは単一
文字種文字列だけでなく複数の文字種で構成される文字
列(以下、複数文字種文字列と呼ぶ)を抽出するもので
あってもよい。
【0123】この複数文字種文字列の抽出方法として、
所定の文字種の組合せを抽出するものとすれば、単語辞
書を参照することなく特徴語を抽出することができる。
例えば、漢字とカタカナで構成される文字列を抽出する
という規則を作成しておくことにより、前述の種文書
「最新の地図閲覧ソフトについて」から特徴語候補文字
列として“地図閲覧ソフト”を抽出することができるよ
うになる。
【0124】また、本実施形態では日本語における類似
文書検索システムの例を説明したが、日本語に限らず他
言語であっても構わない。すなわち、前述の日本語にお
ける類似文書検索システムの場合には、種文書中に存在
する複合特徴語及び該複合特徴語を構成する単語を類似
度算出に使用することで検索漏れの無い類似文書検索を
実現していたが、例えば英語等の様に単語の境界が明確
な言語の場合には、複数の単語の組(一般にフレーズや
熟語と呼ばれる)を複合特徴語として取り扱い、フレー
ズや熟語を用いた検索を行なう際に、本実施形態を適用
することが可能となる。
【0125】これにより、他言語においても意味のつな
がりのある単語の組の内容を考慮した類似度算出を行な
うことができる様になり、検索漏れの少ない多言語対応
の類似文書検索を提供することができる様になる。
【0126】まず、従来技術1を英文対応類似文書検索
システムに適用した場合の問題点について図11を用い
て説明する。
【0127】図11は従来技術1を英文対応類似文書検
索システムに適用した場合の問題点を示す図である。本
図では、文書5「This juice is made of carrot...」
及び文書6「-- Carrot Juice -- 1. Cut carrot into
some pieces...」が登録された文書データベースに対し
て、種文書「How to make carrot juice 」が入力され
た場合の例を表している。
【0128】まず文書の登録処理として、ステップ21
0が実行され、各文書に対応する登録文書特徴ベクトル
1702及び1703が生成される。本図に示した例で
は、文書5に対応する登録文書特徴ベクトル1702と
して“文書5("carrot"、1)("juice&
quot;、1)”が生成され、文書6に対応する登録文書特
徴ベクトル1703として“文書6("carrot jui
ce"、1)("carrot"、1)”が生成され
る。
【0129】次に類似文書の検索処理として、ステップ
220が実行され、種文書に対応する種文書特徴ベクト
ル1706が生成される。本図に示した例では、種文書
特徴ベクトル1706として、“種文書("carrot
juice"、1)”が生成される。
【0130】そしてステップ222において、種文書に
対する各登録文書の類似度を算出する。この結果、類似
度算出結果1707が出力される。本図に示した例で
は、数8及び数9に示す様に、文書5の類似度0.00
0及び文書6の類似度0.710と算出される。
【0131】
【数8】
【0132】
【数9】
【0133】この結果、文書5の内容は種文書に対して
関連があるにも関わらず、従来技術1では文書5の内容
は種文書に対して全く類似していないものと算出されて
しまう。
【0134】これは、種文書の特徴ベクトルの要素とし
て抽出される特徴語が複数の単語の組で構成されている
にもかかわらず、該特徴語のみを特徴ベクトルの要素と
して類似度算出に用いた為に、特徴語を構成する各単語
の持つ個々の概念が類似度に反映されないことによるも
のである。
【0135】すなわち、ノイズ等を減らす為に複数の単
語の組である"carrot juice"等を特徴語とし
た場合には、"carrot juice"を含む文書6に
対する検索精度が向上し、"carrot juice"を
含まない登録文書は検索されなくなるが、その特徴語を
構成する各単語それぞれを含む登録文書の文書5に対し
て類似度が付与されず、検索漏れが発生してしまうこと
になる。
【0136】以上説明した様に従来技術1を英文対応類
似文書検索システムに適用した場合にも、日本語の場合
と同様の問題が生じてしまうことになる。上記問題に対
し、本実施形態を英文対応類似文書検索システムに適用
することにより、日本語の場合と同様に解決することが
できる様になる。
【0137】以下、図12に本実施形態を適用した英文
対応類似文書検索システムの処理概要を示す。
【0138】図12は本実施形態の英文対応類似文書検
索システムの処理概要を示す図である。図12は、文書
5「This juice is made of carrot...」及び文書6「-
- Carrot juice -- 1. Cut carrot into some piece
s...」が登録された文書データベースに対して、種文書
「How to make carrot juice」が入力された場合の例を
表している。
【0139】まず文書の登録処理のステップ210で
は、各文書に対応する登録文書特徴ベクトル1702及
び1703を生成する。本図に示した例では、文書5に
対応する登録文書特徴ベクトル1702として“文書5
("carrot"、1)("juice"、1)”
を生成し、文書6に対応する登録文書特徴ベクトル17
03aとして“文書6("carrot juice"、1)
("carrot"、2)("juice"、1)”
を生成する。
【0140】次に文書の検索処理のステップ220で
は、種文書に対応する種文書特徴ベクトル1706aを
生成する。本図に示した例では、種文書特徴ベクトル1
706aとして、“種文書("carrot juice&quo
t;、1)("carrot"、1)("juice"、
1)”を生成する。
【0141】そしてステップ222において、種文書に
対する各登録文書の類似度を算出する。この結果、類似
度算出結果1707aを出力する。数10及び数11に
示す様に、本図に示した例では文書5の類似度0.81
6及び文書6の類似度0.943と算出される。
【0142】
【数10】
【0143】
【数11】
【0144】以上が本実施形態を適用した英文対応類似
文書検索システムの処理概要である。前記の様に本実施
形態を適用した英文対応類似文書検索システムにおいて
も複合特徴語を考慮することにより、従来技術1では検
索することができない文書5を検索することができる様
になる。
【0145】以上説明した様に本実施形態の類似文書検
索システムによれば、複合特徴語及びその複合特徴語を
構成する構成特徴語を含む文書を類似文書として検索す
るので、検索漏れの無い高精度な類似文書検索を実現
し、内容が特に関連した文書を精度良く検索することが
可能である。
【0146】(実施形態2)以下に複合特徴語から抽出
された構成特徴語の登録文書内での出現距離を考慮した
重み付けを行なう実施形態2の類似文書検索システムに
ついて説明する。
【0147】本実施形態を適用した類似文書検索システ
ムでは、複合特徴語から抽出された構成特徴語の登録文
書内での出現距離を考慮した重み付けを行なうものであ
り、種文書の同一複合特徴語から抽出された関連性の高
い構成特徴語が、関連の高い出現関係にある登録文書に
対して高い類似度を付与することにより、より内容の近
い登録文書を検索し、高精度な検索結果を得ることがで
きる様になる。
【0148】図13は本実施形態の特徴ベクトル生成処
理部170aの構成を示す図である。図13に示す様に
本実施形態の類似文書検索システムは出現位置取得処理
部1900を有している。出現位置取得処理部1900
は、特徴語抽出処理部171で抽出された各特徴語につ
いて、処理対象文書内での出現位置を取得する処理部で
ある。
【0149】類似文書検索システムを出現位置取得処理
部1900として機能させる為のプログラムは、CD−
ROM等の記録媒体に記録され磁気ディスク等に格納さ
れた後、メモリにロードされて実行されるものとする。
なお前記プログラムを記録する記録媒体はCD−ROM
以外の他の記録媒体でも良い。また前記プログラムを当
該記録媒体から情報処理装置にインストールして使用し
ても良いし、ネットワークを通じて当該記録媒体にアク
セスして前記プログラムを使用するものとしても良い。
【0150】図14は本実施形態の種文書類似度算出処
理部131aの構成を示す図である。図14に示す様に
本実施形態の類似文書検索システムは重み係数算出処理
部2000を有している。重み係数算出処理部2000
は、種文書から抽出された構成特徴語に一致する登録文
書の特徴語について、同一の複合特徴語から抽出された
他の構成特徴語との間の距離に応じた重み係数を算出す
る処理部である。
【0151】類似文書検索システムを重み係数算出処理
部2000として機能させる為のプログラムは、CD−
ROM等の記録媒体に記録され磁気ディスク等に格納さ
れた後、メモリにロードされて実行されるものとする。
なお前記プログラムを記録する記録媒体はCD−ROM
以外の他の記録媒体でも良い。また前記プログラムを当
該記録媒体から情報処理装置にインストールして使用し
ても良いし、ネットワークを通じて当該記録媒体にアク
セスして前記プログラムを使用するものとしても良い。
【0152】本実施形態は、実施形態1(図1)とほぼ
同様の構成を取るが、特徴ベクトル生成処理部170及
び種文書類似度算出処理部131の構成が異なる。特徴
ベクトル生成処理部170aでは、図13に示す様に、
出現位置取得処理部1900が用いられる。また、種文
書類似度算出処理部131aでは、図14に示す様に重
み係数算出処理部2000が用いられる。
【0153】以下、本実施形態における処理手順の内、
まず実施形態1とは異なる特徴ベクトル生成処理部17
0aの処理手順について、図15に示すPAD図を用い
て説明する。
【0154】図15は本実施形態の特徴ベクトル生成処
理部170aの処理内容を示す図である。ここで、実施
形態1における特徴ベクトル生成処理部170(図4)
と異なる点は、出現位置取得ステップ2100が加わる
だけである。他の処理ステップの処理手順は、実施形態
1で説明した通りである。
【0155】出現位置取得ステップ2100では、出現
位置取得処理部1900を起動し、ワークエリア141
に格納された各単語の、処理対象文書における出現位置
を取得する。以上が、特徴ベクトル生成処理部170a
の処理手順である。
【0156】次に、本実施形態における種文書類似度算
出処理部131aの処理手順について、図16に示すP
AD図を用いて説明する。
【0157】図16は本実施形態の種文書類似度算出処
理部131aの処理内容を示す図である。ここで、実施
形態1における種文書類似度算出処理部131(図7)
と異なる点は、重み係数算出ステップ2200が加わる
だけである。他の処理ステップの処理手順は、実施形態
1で説明した通りである。
【0158】重み係数算出ステップ2200では、重み
係数算出処理部2000を起動し、種文書特徴ベクトル
の各要素の内、同一の複合特徴語から抽出された構成特
徴語の組に対して重み係数を算出し、種文書特徴ベクト
ルの要素に乗じる。以上が、種文書類似度算出処理部1
31aの処理手順である。
【0159】以下、本実施形態における類似文書検索シ
ステムの具体的な処理手順を図17〜図19を用いて説
明する。まず、本実施形態における類似文書検索システ
ムにおける文書の登録処理について、図17を用いて説
明する。
【0160】図17は本実施形態の文書登録処理の概要
を示す図である。図17では、文書3「地図情報閲覧ソ
フトを開発、発売したA社は、・・・」及び文書4「多
くの地図閲覧ソフトが発売されているが、・・・」が文
書データベースに登録される場合の処理の流れを表して
いる。
【0161】まず登録文書取得処理部120は、文書3
及び文書4を読み込み、ワークエリア141に格納す
る。次に特徴ベクトル生成処理部170aは、登録対象
の文書3及び文書4に対して対応する登録文書特徴ベク
トル2300及び2301を作成し、ワークエリア14
1に格納する。
【0162】本図に示した例では、文書3に対応する登
録文書特徴ベクトル2300として“文書3("地
図"、1)[1]、("閲覧"、1)[5]、("
ソフト"、1)[7]、("発売"、1)[14]”が
生成され、文書4に対応する登録文書特徴ベクトル23
01として“文書4("地図閲覧ソフト"、1)
[4]、("地図"、1)[4]、("閲覧"、
1)[6]、("ソフト"、1)[8]、("発売&qu
ot;、1)[12]”が生成される。なお、ここで“("
地図"、1)[1]”の丸括弧()内は特徴語“地図”
が1回出現することを表し、角括弧[]内の“1”は特
徴語“地図”の文字位置が1であることを表している。
【0163】そして、登録文書特徴ベクトル登録処理部
121は、ワークエリア141上の登録文書特徴ベクト
ルを登録文書特徴ベクトルファイル180として格納す
る。以上が、本実施形態に示した類似文書検索システム
における文書の登録処理である。
【0164】次に、本実施形態における類似文書検索シ
ステムにおける類似文書の検索処理について、図18を
用いて説明する。
【0165】図18は本実施形態の類似文書の検索処理
の処理内容を示す図である。図18では、種文書「最新
の地図閲覧ソフトについて」が入力された場合の例を表
している。まず、検索条件解析処理部130は、検索条
件で指定された種文書を取得し、ワークエリア141に
格納する。
【0166】そして、特徴ベクトル生成処理部170a
は、ワークエリア141に格納された種文書に対応する
種文書特徴ベクトル2400を生成し、ワークエリア1
41に格納する。
【0167】次に、登録文書特徴ベクトル読込処理部1
60は、前記文書の登録処理で作成された登録文書特徴
ベクトルファイル180を読み込み、登録文書特徴ベク
トル2300及び2301をワークエリア141に格納
する。
【0168】そして、重み係数算出処理部2000は、
種文書特徴ベクトル2400の各要素が構成特徴語であ
るかを判定し、該要素がある複合特徴語の構成特徴語で
ある場合には数12に基づいて重みを算出し、重み係数
2401として出力する。
【0169】
【数12】
【0170】本図では、数12(定数C=20とした)
に基づき各要素の重みを算出した場合の例を表してい
る。すなわち、種文書特徴ベクトル2400の要素“地
図”は複合特徴語“地図閲覧ソフト”の構成特徴語であ
るから、同じ複合特徴語“地図閲覧ソフト”から抽出さ
れた他の構成特徴語(以下、同親構成特徴語と呼ぶ)で
ある“閲覧”、“ソフト”との最短距離を取得する。本
図に示した例では文書3において、“地図”に対する
“閲覧”、“ソフト”の最短距離は“4”であるから、
重み係数“0.80”が算出されている。
【0171】そして、類似度算出処理部161におい
て、前記ステップ170aで生成された種文書特徴ベク
トル2400と登録文書特徴ベクトル2300及び23
01のなす角度の余弦が数13及び数14の様に算出さ
れ、種文書に対する登録文書の類似度算出結果2402
が出力される。
【0172】
【数13】
【0173】
【数14】
【0174】以上が、本実施形態における類似文書検索
システムにおける類似文書の検索処理手順である。
【0175】次に、本実施形態における類似文書検索シ
ステムにおける特徴ベクトルの生成処理手順について図
19を用いて説明する。
【0176】図19は本実施形態の特徴ベクトルの生成
処理の処理内容を示す図である。図19では、種文書
「最新の地図閲覧ソフトについて」が入力された場合の
例に、検索特徴ベクトルが作成される手順を表してい
る。
【0177】まず、文書解析処理部172は、ワークエ
リア141に格納された処理対象文書である種文書16
01“最新の地図閲覧ソフトについて”から特徴語候補
1602“地図閲覧ソフト”を抽出する。
【0178】そして、複合特徴語判定処理部173は、
特徴語候補1602“地図閲覧ソフト”が複数の特徴語
で構成される特徴語かを判定する。この結果、特徴語候
補1602“地図閲覧ソフト”は複数の特徴語“地
図”、“閲覧”、“ソフト”から構成されるものと判定
され、複合特徴語と判定される。
【0179】次に、特徴語抽出処理部171では、上記
複合特徴語判定処理部173の結果、複合特徴語と判定
された“地図閲覧ソフト”から、これを構成する特徴語
1604“地図”、“閲覧”、“ソフト”を抽出する。
そして、出現頻度計数処理部174は、上記特徴語抽出
処理で抽出された各特徴語について、種文書1601内
での出現頻度を計数する。
【0180】そして、出現位置取得処理部1900は、
上記特徴語抽出処理部171で抽出された各特徴語につ
いて、種文書1601内での出現位置を取得し、特徴ベ
クトル2500として出力する。以上が、本実施形態に
おける類似文書検索システムにおける特徴ベクトルの生
成処理手順である。
【0181】以上説明した様に、本実施形態によれば、
種文書から抽出された複合特徴語の構成特徴語間の距離
を考慮することにより、登録文書内での単語間の関係を
考慮した高精度な類似度算出を行なうことができる。す
なわち、複合特徴語及びその複合特徴語を構成する構成
特徴語を含む文書を類似文書として検索することによ
り、検索漏れの無い高精度な類似文書検索が可能となる
が、その際に構成特徴語間の距離を考慮して重み付けを
行なことにより、種文書との関連が低い登録文書の類似
度を下げて検索時のノイズを削減することが可能であ
る。
【0182】なお、本実施形態における特徴ベクトル生
成処理部170aでは、複合特徴語及び複合特徴語から
抽出された構成特徴語の両方を特徴語として抽出してい
たが、構成特徴語だけを抽出するものとして良い。この
場合、重み係数算出や類似度算出に使用される特徴語の
要素数が削減される為、より高速な検索を実現すること
ができる。
【0183】また、本実施形態における特徴ベクトル生
成処理部170aでは、各特徴語の出現位置取得処理部
1900を出現頻度計数処理部174の後に実施するも
のとしたが、種文書解析処理部172の実施時に各特徴
語候補を抽出するのに合わせて、各特徴語候補文字列の
出現位置を抽出しておくものとしても良い。
【0184】更に、本実施形態における特徴ベクトル2
500では、各要素に対応して出現頻度及び出現位置を
格納するものとしたが、種文書に対する特徴ベクトル作
成処理では同親構成特徴語をまとめて一つの要素として
管理するものとしても良い。この様にすることにより、
重み係数算出処理時に各要素が構成特徴語か否かを判断
する必要がない為、より高速な検索を実現することがで
きる。
【0185】以上説明した様に本実施形態の類似文書検
索システムによれば、同一の複合特徴語から抽出された
他の構成特徴語との間の距離に応じた重み係数を乗じた
類似度を算出するので、検索漏れが無くノイズの少ない
高精度な類似文書検索を実現することが可能である。
【0186】
【発明の効果】本発明によれば複合特徴語及びその複合
特徴語を構成する構成特徴語を含む文書を類似文書とし
て検索するので、検索漏れの無い高精度な類似文書検索
を実現し、内容が関連した文書を精度良く検索すること
が可能である。
【図面の簡単な説明】
【図1】実施形態1の類似文書検索システムの概略構成
を示す図である。
【図2】実施形態1のシステム制御処理部110の処理
内容を示す図である。
【図3】実施形態1の登録制御処理部111の処理内容
を示す図である。
【図4】実施形態1の特徴ベクトル生成処理部170の
処理内容を示す図である。
【図5】実施形態1の特徴語抽出処理部171の処理内
容を示す図である。
【図6】実施形態1の検索制御処理部112の処理内容
を示す図である。
【図7】実施形態1の種文書類似度算出処理部131の
処理内容を示す図である。
【図8】実施形態1の文書の登録処理の処理内容を示す
図である。
【図9】実施形態1の類似文書の検索処理の処理内容を
示す図である。
【図10】実施形態1の特徴ベクトルの生成処理の処理
内容を示す図である。
【図11】従来技術1を英文対応類似文書検索システム
に適用した場合の問題点を示す図である。
【図12】実施形態1の英文対応類似文書検索システム
の処理概要を示す図である。
【図13】実施形態2の特徴ベクトル生成処理部170
aの構成を示す図である。
【図14】実施形態2の種文書類似度算出処理部131
aの構成を示す図である。
【図15】実施形態2の特徴ベクトル生成処理部170
aの処理内容を示す図である。
【図16】実施形態2の種文書類似度算出処理部131
aの処理内容を示す図である。
【図17】実施形態2の文書登録処理の概要を示す図で
ある。
【図18】実施形態2の類似文書の検索処理の処理内容
を示す図である。
【図19】実施形態2の特徴ベクトルの生成処理の処理
内容を示す図である。
【図20】従来技術1の処理手順の一例を示す図であ
る。
【図21】従来技術1における特徴ベクトル生成処理の
一例を示す図である。
【図22】従来技術1の概要を示す図である。
【図23】従来技術1の問題点を示す図である。
【図24】従来技術2における特徴語の抽出処理手順の
概要を説明する図である。
【図25】本発明の第一の実施例における特徴ベクトル
生成処理に従来技術2を適用した場合の処理手順を説明
する図である。
【符号の説明】
100…ディスプレイ、101…キーボード、102…
CPU、103…磁気ディスク装置、104…FDD、
105…主メモリ、106…バス、107…フロッピデ
ィスク、108…ネットワーク、140…共有ライブラ
リ、141…ワークエリア、180…登録文書特徴ベク
トルファイル、181…特徴語辞書ファイル、110…
システム制御処理部、111…登録制御処理部、112
…検索制御処理部、120…登録文書取得処理部、12
1…登録文書特徴ベクトル登録処理部、130…検索条
件解析処理部、131…種文書類似度算出処理部、13
2…検索結果出力処理部、160…登録文書特徴ベクト
ル読込処理部、161…類似度算出処理部、170…特
徴ベクトル生成処理部、171…特徴語抽出処理部、1
72…文書解析処理部、173…複合特徴語判定処理
部、174…出現頻度計数処理部、1601…種文書、
1602…特徴語候補、1602及び1603…登録文
書特徴ベクトル、1603…特徴ベクトル、1604…
特徴語、1605…特徴ベクトル、1700及び170
1…登録文書、1702及び1703…登録文書特徴ベ
クトル、1705…種文書、1706…種文書特徴ベク
トル、1707…類似度算出結果、1900…出現位置
取得処理部、2000…重み係数算出処理部、2300
及び2301…登録文書特徴ベクトル、2400…種文
書特徴ベクトル、2401…重み係数、2402…類似
度算出結果、2500…特徴ベクトル、401及び40
2…登録文書、403及び404…登録文書特徴ベクト
ル、405…特徴語辞書、406…種文書、407…種
文書特徴ベクトル、408…類似度算出結果。
フロントページの続き (72)発明者 多田 勝己 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション事 業部内 (72)発明者 里 佳史 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション事 業部内 (72)発明者 稲場 靖彦 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション事 業部内 (72)発明者 野田 十悟 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B075 ND03 NK10 NK32 PP28 PQ02 PQ46 PQ74 PR06 QM08 UU06

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 指定された文書と類似する文書を検索す
    る類似文書検索方法において、 所望の検索内容を含んだ種文書から特徴語の候補となる
    特徴語候補を抽出するステップと、前記抽出された特徴
    語候補が複数の特徴語で構成された複合特徴語である場
    合に当該特徴語候補から複合特徴語及びその複合特徴語
    を構成する構成特徴語を当該種文書の特徴語として抽出
    するステップと、 前記抽出された種文書の特徴語と登録文書の特徴語との
    間の類似度を算出するステップと、前記算出された類似
    度算出結果を検索結果として出力するステップとを有す
    ることを特徴とする類似文書検索方法。
  2. 【請求項2】 前記抽出された特徴語候補に対応する特
    徴語にその構成特徴語を示す構成特徴語情報が登録され
    ている場合に、当該特徴語候補が複合特徴語であると判
    定することを特徴とする請求項1に記載された類似文書
    検索方法。
  3. 【請求項3】 前記抽出された種文書の構成特徴語に一
    致する登録文書の特徴語について、同一の複合特徴語か
    ら抽出された他の構成特徴語との間の距離に応じた重み
    係数を算出するステップを有し、前記重み係数を乗じた
    類似度を算出することを特徴とする請求項1または請求
    項2のいずれかに記載された類似文書検索方法。
  4. 【請求項4】 指定された文書と類似する文書を検索す
    る類似文書検索システムにおいて、 所望の検索内容を含んだ種文書から特徴語の候補となる
    特徴語候補を抽出する文書解析処理部と、前記抽出され
    た特徴語候補が複数の特徴語で構成された複合特徴語で
    ある場合に当該特徴語候補から複合特徴語及びその複合
    特徴語を構成する構成特徴語を当該種文書の特徴語とし
    て抽出する特徴語抽出処理部と、 前記抽出された種文書の特徴語と登録文書の特徴語との
    間の類似度を算出する種文書類似度算出処理部と、前記
    算出された類似度算出結果を検索結果として出力する検
    索結果出力処理部とを備えることを特徴とする類似文書
    検索システム。
  5. 【請求項5】 前記抽出された特徴語候補に対応する特
    徴語にその構成特徴語を示す構成特徴語情報が登録され
    ている場合に、当該特徴語候補が複合特徴語であると判
    定する複合特徴語判定処理部を備えることを特徴とする
    請求項4に記載された類似文書検索システム。
  6. 【請求項6】 前記抽出された種文書の構成特徴語に一
    致する登録文書の特徴語について、同一の複合特徴語か
    ら抽出された他の構成特徴語との間の距離に応じた重み
    係数を算出する重み係数算出処理部を備え、前記重み係
    数を乗じた類似度を算出することを特徴とする請求項4
    または請求項5のいずれかに記載された類似文書検索シ
    ステム。
  7. 【請求項7】 指定された文書と類似する文書を検索す
    る類似文書検索システムとしてコンピュータを機能させ
    る為のプログラムにおいて、 所望の検索内容を含んだ種文書から特徴語の候補となる
    特徴語候補を抽出する文書解析処理部と、前記抽出され
    た特徴語候補が複数の特徴語で構成された複合特徴語で
    ある場合に当該特徴語候補から複合特徴語及びその複合
    特徴語を構成する構成特徴語を当該種文書の特徴語とし
    て抽出する特徴語抽出処理部と、 前記抽出された種文書の特徴語と登録文書の特徴語との
    間の類似度を算出する種文書類似度算出処理部と、前記
    算出された類似度算出結果を検索結果として出力する検
    索結果出力処理部としてコンピュータを機能させること
    を特徴とするプログラム。
  8. 【請求項8】 前記抽出された特徴語候補に対応する特
    徴語にその構成特徴語を示す構成特徴語情報が登録され
    ている場合に、当該特徴語候補が複合特徴語であると判
    定する複合特徴語判定処理部としてコンピュータを機能
    させることを特徴とする請求項7に記載されたプログラ
    ム。
  9. 【請求項9】 前記抽出された種文書の構成特徴語に一
    致する登録文書の特徴語について、同一の複合特徴語か
    ら抽出された他の構成特徴語との間の距離に応じた重み
    係数を算出する重み係数算出処理部としてコンピュータ
    を機能させることを特徴とする請求項7または請求項8
    のいずれかに記載されたプログラム。
JP2001173407A 2001-04-26 2001-06-08 類似文書検索方法及びその実施システム並びにその処理プログラム Pending JP2003016092A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001173407A JP2003016092A (ja) 2001-04-26 2001-06-08 類似文書検索方法及びその実施システム並びにその処理プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001-128934 2001-04-26
JP2001128934 2001-04-26
JP2001173407A JP2003016092A (ja) 2001-04-26 2001-06-08 類似文書検索方法及びその実施システム並びにその処理プログラム

Publications (1)

Publication Number Publication Date
JP2003016092A true JP2003016092A (ja) 2003-01-17

Family

ID=26614257

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001173407A Pending JP2003016092A (ja) 2001-04-26 2001-06-08 類似文書検索方法及びその実施システム並びにその処理プログラム

Country Status (1)

Country Link
JP (1) JP2003016092A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008511081A (ja) * 2004-08-23 2008-04-10 トムソン グローバル リソーシーズ 重複する文書の検出および表示機能
US8977949B2 (en) 2007-10-11 2015-03-10 Nec Corporation Electronic document equivalence determination system and equivalence determination method
US9134622B2 (en) 2003-11-14 2015-09-15 Asml Netherlands B.V. Lithographic apparatus and device manufacturing method
KR20180035477A (ko) * 2016-09-29 2018-04-06 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9134622B2 (en) 2003-11-14 2015-09-15 Asml Netherlands B.V. Lithographic apparatus and device manufacturing method
JP2008511081A (ja) * 2004-08-23 2008-04-10 トムソン グローバル リソーシーズ 重複する文書の検出および表示機能
JP4919515B2 (ja) * 2004-08-23 2012-04-18 トムソン ルーターズ グローバル リソーシーズ 重複する文書の検出および表示機能
US8977949B2 (en) 2007-10-11 2015-03-10 Nec Corporation Electronic document equivalence determination system and equivalence determination method
KR20180035477A (ko) * 2016-09-29 2018-04-06 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
KR101931859B1 (ko) 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Similar Documents

Publication Publication Date Title
JP3918531B2 (ja) 類似文書検索方法およびシステム
JP3132738B2 (ja) テキスト検索方法
JP3695191B2 (ja) 翻訳支援装置及びその方法並びにコンピュータ可読記録媒体
JP4200645B2 (ja) 情報処理装置、情報処理方法および記録媒体
US20030065658A1 (en) Method of searching similar document, system for performing the same and program for processing the same
JP2006004399A (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JPWO2009048149A1 (ja) 電子文書の同等判定システムおよび同等判定方法
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JP2003016092A (ja) 類似文書検索方法及びその実施システム並びにその処理プログラム
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JPH06124305A (ja) 文書検索方法
JP4965766B2 (ja) 関係情報抽出装置および属性情報抽出装置
JP2001060199A (ja) 文書分類装置、文書分類方法および文書分類プログラムを格納したコンピュータ読取り可能な記録媒体
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JP4511274B2 (ja) 音声データ検索装置
JP2002132789A (ja) 文書検索方法
JPS61248160A (ja) 文書情報登録方式
JP2002073656A (ja) 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP2001092831A (ja) 文書検索装置及び文書検索方法
JP3939264B2 (ja) 形態素解析装置
JP2009289052A (ja) 姓名候補を生成する情報処理装置、情報処理方法、およびプログラム
JP2021018522A (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050317

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080603

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090414