JPH09218879A - 文書間類似度データ計算装置 - Google Patents

文書間類似度データ計算装置

Info

Publication number
JPH09218879A
JPH09218879A JP8045627A JP4562796A JPH09218879A JP H09218879 A JPH09218879 A JP H09218879A JP 8045627 A JP8045627 A JP 8045627A JP 4562796 A JP4562796 A JP 4562796A JP H09218879 A JPH09218879 A JP H09218879A
Authority
JP
Japan
Prior art keywords
document
similarity
data
word
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8045627A
Other languages
English (en)
Inventor
Hiroshi Masuichi
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP8045627A priority Critical patent/JPH09218879A/ja
Publication of JPH09218879A publication Critical patent/JPH09218879A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】文書間類似度データの再計算を高速に行うこ
と。 【解決手段】データ格納手段2は、弧(矢印)と状態
(丸印)からなる木構造で表現されるトライ構造を持
つ。このトライ構造では、単語の集合を前記弧のラベル
として保持し、1つの最終状態には1つの単語が対応す
る。また、最終状態は対応する単語を含む文書の格納位
置へ弧が張られている。その弧のラベルとして文書中に
その単語が出現した回数が保持される。さらに、各最終
状態には対応する単語の重要度を表す重みを表すデータ
が付与されている。類似度データ計算手段3は、類似度
データS(di,dj)=[Cij,Mij]を、前記
重みおよび前記出現回数を用いて次の計算により求め
る。 Mij=(文書di中に存在する全ての単語の重みの合
計)+(文書dj中に存在する全ての単語の重みの合
計) Cij=(文書diと文書djに共通して存在する全て
の単語の重みの合計)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、類似文書検索装置
や全文検索処理装置において用いる文書間類似度データ
計算装置に関する。
【0002】
【従来の技術】数多くの文書の中から利用者の求める文
書を検索する際に、関連する文書をいかに見出すかが重
要である。そのために、文書間の類似度を設定しておく
ことにより、類似する文書を検索し、関連する文書をよ
り正確に求めることが可能である。即ち、キーワードな
どによる通常の検索による検索結果として得られた文書
に対して、設定された類似度をもとに、類似度検索を行
うことにより、類似する文書を検索結果に付加すること
ができ、求める文書をより正確に得ることができる。ま
た、類似する文献をまとめる際に、類似度を利用するこ
とにより文書の自動分類が可能となる。例えば、特許マ
ップの自動生成を行うことも可能となる。
【0003】文書の類似度の設定は、従来の技術(例え
ば、Y.Kanbayashiet al.:Dat
abase−A Bibliography,198
0,Computer Science Press、
上林弥彦著、情報処理学会編、「巨大データの世
界」、(1994)P106〜110)では、文書中に
含まれる単語の重複数を数え挙げることが基本となる。
例えば、著者、キーワード、本文の3つの文書部品に構
造化されている2つの文書において、2つの文書の総著
者数がMauthorであり、そのうち両文書に共通す
る単語の総数がCauthor、2つの文書の総キーワ
ード数がMkey、そのうち両文書に共通するキーワー
ドの総数がCkey、2つの文書本文の総単語数がMb
odyであり、そのうち両文書に共通する単語の総数が
Cbodyである場合、その2文書間の類似度Sは以下
のように定義される。
【0004】S=(Wauthor×Uauthor+
Wkey×Ukey+Wbody×Ubody)/(W
author+Wkey+Wbody) Uauthor=Cauthor/Mauthor Ukey=Ckey/Mkey Uword=Cbody/Mbody ただし、Wauthor、Wkey、Wbodyは類似
度を決定する際の文書部品の重要度である。通常キーワ
ードや著者に対応する重みは、本文の重みよりも大きく
設定する。この例では、Sの値は0以上1以下となる。
【0005】また、多数の文書の中から利用者の求める
文書を検索する際に、高速の全文検索は効果的な技術で
あると言える。全文検索は、文書内に存在するいかなる
単語についても、その単語を含む文書を検索可能とする
ものである。全文検索を高速に実現するための従来の方
式として、形態素解析を利用して単語を切り出し、イン
デックスファイルを生成する手法を挙げることができ
る。即ち、全検索対象文書に形態素解析処理を施す等す
ることにより、日本語のように分かち書きされない言葉
であっても自動的に全単語を切り出すことが可能とな
る。切り出した各単語について、予め単語とその単語の
存在位置(単語を含む文書名等)の対を別のファイル
(即ち、インデックスファイル)に記述する。検索時に
インデックスファイルを利用することにより、単語入力
に対して、その存在位置を直ちに出力することができ
る。
【0006】
【発明が解決しようとする課題】前記文書の類似度を求
めるための従来技術では、各文書部品の類似度Uaut
hor等を求める際に単語単位の重み付けを考慮する。
例えば、「ます」や「た」といった助詞や助動詞等のあ
らゆる文書に共通して使用される語は、類似度計算の対
象とはしない(重みを0とする)。しかしながら、類似
度計算の対象としてどの語を使用すればよいかを決定す
ることは容易ではない。例えば間投詞や接続詞を対象と
するか否かの決定は容易ではない。また、本文中に「処
理」という単語が共通に現れる場合と、「有限オートマ
トン」といった専門的な単語が共通に現れる場合とで
は、後者の方がより類似度の高い文書である可能性が高
いと判断できる。したがって、単語単位に(0か1か以
外の)重み付けを行うことによって、より精度の高い文
書間類似度を決定することが可能となる。このような単
語単位の重み付けは、上記の類似度計算対象の決定と同
様に、容易に実現できるものではない。対象文書に精通
した人間が、重み付けと類似度計算を繰り返しながら試
行錯誤の結果得られるものである。したがって、類似度
計算を高速で実現できることは重要である。
【0007】しかしながら従来の技術では、文書間類似
度データの再計算を高速に行なうための機構が存在せ
ず、単語単位の重み付けを試行錯誤的に決定することが
困難であった。
【0008】本発明はかかる問題点を解決するためにな
されたものである。即ち、本発明は、文書間類似度デー
タの再計算を高速に行うことのできる文書間類似度デー
タ計算装置を提供することを目的とするものである。
【0009】
【課題を解決するための手段】本発明は、文書に含まれ
る語と文書とを対応づけて格納するとともに、その各語
に類似度決定のための語の重要度を示す重みを対応付
け、かつ各文書に各語が出現する回数を対応付けて格納
するデータ格納手段と、前記データ格納手段に格納され
た語と文書との対応付け、前記重み、および前記出現回
数を参照して、文書間の類似度データを計算する類似度
データ計算手段と、前記類似度データ計算手段により得
られた文書間の類似度データを格納する類似度データ格
納手段とを有する文書間類似度データ計算装置である。
【0010】また、本発明は、弧と状態からなる木構造
で表現されるトライ構造を持ち、単語の集合を前記弧の
ラベルとして保持し、1つの最終状態には1つの単語が
対応し、その単語の重みが対応する最終状態に対して付
加され、各最終状態からは、その最終状態に対応する単
語を含む文書の格納位置を示すデータへの結合を表す第
2の弧が張られ、これらの第2の弧のラベルとして、最
終状態に対応する単語が文書中に現れる回数を保持する
ように構成した全文検索用データを格納するデータ格納
手段と、検索対象のn個の文書における文書diと文書
djの間の類似度データS(di,dj)(i=2,
3,・・・,n;j=1,2,・・・,n−1;i>
j)を、文書diと文書djに共通して存在する全ての
単語重みの合計Cij、および文書di中に存在する全
ての単語の重みの合計と文書dj中に存在する全ての単
語の重みの合計との和Mijの組[Cij,Mij]に
よって表し、この類似度データS(di,dj)=[C
ij,Mij]を前記データ格納手段に格納されている
前記重みおよび前記出現回数を用いて計算する類似度デ
ータ計算手段と、前記類似度データ計算手段により得ら
れた文書間の類似度データを格納する類似度データ格納
手段とを有する文書間類似度データ計算装置である。
【0011】
【作用】データ格納手段は、検索対象の文書とその文書
に含まれる単語を対応させた全文検索用のデータ(いわ
ゆるインデックスデータ)を格納する。このデータに
は、本発明では単語の重要度を示す重みが各単語に対し
て付加され、また、単語の文書中での出現回数が付加さ
れる。類似度データ計算手段は、データ格納手段に格納
された語と文書との対応付け、前記重み、および前記出
現回数を参照して、文書間の類似度データを計算し、計
算結果を類似度データ格納手段に格納する。本発明は、
前記のように、全文検索用のデータの構造に最低限の変
更を加えることにより、全文検索用データとして利用で
きるだけでなく、単語の重みを変更する際に高速に類似
度の再計算を行うことができるようになる。
【0012】本発明の具体的態様では、データ格納手段
は、弧(矢印)と状態(丸印)からなる木構造で表現さ
れるトライ構造を持つ(図3参照)。このトライ構造で
は、単語の集合を前記弧のラベルとして保持し、1つの
最終状態(図3の2重丸◎)には1つの単語が対応す
る。最終状態は対応する単語を含む文書の格納位置と対
応づけられている。その対応を示すデータに文書中にそ
の単語が何度出現したかを示す出現回数が保持される。
さらに、各最終状態には対応する単語の重要度を表す重
みAgを表すデータが付与されている。類似度データ計
算手段は、類似度データS(di,dj)=[Cij,
Mij]を、前記データ格納手段に格納されている前記
重みおよび前記出現回数を用いて次の計算により求め
る。 Mij=(文書di中に存在する全ての単語の重みの合
計)+(文書dj中に存在する全ての単語の重みの合
計) Cij=(文書diと文書djに共通して存在する全て
の単語の重みの合計) なお、全ての単語とは、出現回数が複数である同一の単
語の場合は複数の単語として数える。従って、その際に
は、重みに出現回数を乗ずることによりその単語に関す
る重みを計算することができる。また、指定された単語
の重みの変更に伴う文書間類似度データの再計算の際に
は、元の重みと新たに指定された重みとの差によつて、
関連するMij、Cijの変化分を求めることにより、
再計算を行うようにすればよい。本発明は、全文検索用
のデータとして構成されたトライ構造データに重みおよ
び出現回数を付加するという最低限のデータ構造の変更
を加えることにより、その付加データを用いて高速に類
似度の再計算を行うことができる。本発明の類似度デー
タ計算装置を文書検索装置へ利用する場合には、データ
格納手段のデータを用いて全文検索を行い、さらに類似
度データ格納手段の類似度データを用いて類似度検索を
も行うことができ、しかも類似度データの再計算を高速
に実行することができる。
【0013】
【発明の実施の形態】
第1の実施形態 図1は、本発明による文書間類似度データ計算を行う機
能を有し、かつ、得られた文書間類似度データを用いて
類似度の検索を行うことができ、また全文検索をも行う
ことのできる文書検索装置の実施形態の構成を示すもの
である。この文書検索装置は、以下に示すように、全文
検索手段1、形態素解析データ格納手段2、類似度デー
タ計算手段3、類似度データ格納手段4、類似度検索手
段5、全文検索文字列入力表示手段6、全文検索結果表
示手段7、類似度データ変更入力表示手段8、類似度検
索データ入力表示手段9、類似度検索結果表示手段10
を備えている。
【0014】全文検索手段1は、全文検索文字列入力表
示手段6から検索文字列を受け取り、形態素解析データ
格納手段2中のデータから全文検索を行うプログラムモ
ジュールである。
【0015】形態素解析データ格納手段2は、全文検索
手段1および類似度データ計算手段3の両者によって利
用されるデータを保持する格納手段である。このデータ
は、検索対象となる文書について形態素解析により得ら
れた要素を後述する図3に例示するようなデータ構造
(即ちトライ構造)にして、全文検索用のインデックス
ファイルとしたものである。
【0016】類似度データ計算手段3は、類似度データ
変更入力表示手段8から類似度データの変更のためのデ
ータ(単語の重みの変更内容)を受け取り、形態素解析
データ格納手段2中のデータを更新すると共に、更新さ
れたデータを基に類似度データを再計算するプログラム
モジュールである。再計算された新しい類似度データで
それまでの類似度データを更新する。なお、最初に類似
度データを構築する際には、すべての文書間類似度デー
タを基に計算を行う。
【0017】類似度データ格納手段4は、類似度データ
計算手段3によって計算または再計算された類似度デー
タを保持する格納手段である。
【0018】類似度検索手段5は、類似度検索データ入
力表示手段9から類似度検索条件を受け取り、類似度デ
ータ格納手段4中のデータから類似度検索を行うプログ
ラムモジュールである。
【0019】全文検索文字列入力手段6は、全文検索を
行うための検索文字列を入力/表示するためのユーザー
インターフェースを持つプログラムモジュールである。
【0020】全文検索結果表示手段7は、全文検索手段
1による検索結果を表示するためのユーザーインターフ
ェースを持つプログラムモジュールである。
【0021】類似度データ変更入力表示手段8は、類似
度データを変更するための入力を受け取り、その内容お
よび変更前の内容を表示するためのユーザーインターフ
ェースを持つプログラムモジュールである。
【0022】類似度検索データ入力表示手段9は、類似
度検索を行うための検索条件を受け取り、その内容を表
示するためのユーザーインターフェースを持つプログラ
ムモジュールである。
【0023】類似度検索結果表示手段10は、類似度検
索手段5による検索結果を表示するためのユーザーイン
ターフェースを持つプログラムモジュールである。
【0024】これらの全文検索文字列入力手段6、全文
検索結果表示手段7、類似度データ変更入力表示手段
8、類似度検索データ入力表示手段9、および類似度検
索結果表示手段10は、図4に示すような共通のユーザ
インタフェースの画面イメージで表示される。
【0025】以上のように構成された本実施形態の処理
について説明する。この処理の流れは全文検索処理、類
似度データ変更処理、および類似度検索処理の3種に分
類できる。それぞれの流れは、利用者の指示に従って繰
り返し実行される。
【0026】全文検索処理は、次のステップからなる。 (ステップA1) 全文検索文字列入力表示手段6は、
利用者からの全文検索を行うための検索文字列を受け取
る。 (ステップA2) 全文検索手段1は、全文検索文字列
入力表示手段6から受け取った検索文字列を用いて、形
態素解析データ格納手段2のデータに対して全文検索を
実行する。 (ステップA3) 全文検索結果表示手段7は、全文検
索手段1による検索結果を表示する。
【0027】類似度データ変更処理は、次のステップか
らなる。 (ステップB1) 類似度データ変更入力表示手段8
は、利用者から類似度データを変更するための入力を受
け取る。 (ステップB2) 類似度データ計算手段3は、類似度
データ変更入力表示手段8により入力された類似度デー
タ変更データにより類似度データの再計算を行う。 (ステップB3) 類似度データ計算手段3は、計算結
果で類似度データ格納手段4中の類似度データを更新す
る。ただし、本装置を構築する初期段階において一度だ
け、利用者からの指示なしに類似度データを全て計算に
よって求めることが必要となる。
【0028】類似度検索処理は、次のステップからな
る。 (ステップC1) 類似度検索データ入力表示手段9
は、利用者から類似度検索を行うための検索条件を受け
取る。 (ステップC2) 類似度検索手段5は、類似度検索デ
ータ入力表示手段9からの検索条件を用いて、類似度デ
ータ格納手段4中のデータに対して類似度検索を実行す
る。 (ステップC3) 類似度検索結果表示手段10は、類
似度検索手段5による検索結果を表示する。
【0029】次に、具体的なデータの例により、本実施
形態の処理を詳細に説明する。 [形態素解析データ格納手段2に格納されるデータの構
造]図2は形態素解析データ格納手段2に格納されるデ
ータの例を示すもので、同図(a)は、文書d1,d
2,d3とのそれらの文書のテキスト部を形態素解析し
た結果得られた語とを対応させたテーブルであり、同図
(b)は各語の重みを示すデータである。図2のデータ
は、形態素解析データ格納手段2中に、図3に示すよう
なトライ構造をデータ構造として保持される。トライ構
造は弧(矢印)と状態(丸印)からなる木構造で表現さ
れるもので、文字列を比較的小容量で格納することが可
能で、かつ、高速に文字列を検索することができるデー
タ構造としてよく用いられるものである。図2中の単語
の集合は、図3に示すように木構造中に弧のラベルとし
て保持される。1つの最終状態には1つの単語が対応
し、単語の重みは対応する最終状態に対して付加され
る。単語の重みは0以上であるとする。各最終状態から
は、「その最終状態に対応する文字列を含む文書の格納
位置を示すデータ」への弧が張られる。これらの弧に付
加されるラベルは、最終状態に対応する文字列が文書中
に何度現れるかを示す。図3では、全ての単語が文書中
に一度だけ現れているものとして、全て「1」のラベル
が付加されている。
【0030】[全文検索手段1による検索アルゴリズ
ム]全文検索手段1による上記トライ構造のデータを検
索対象とする検索のアルゴリズムは、一般に用いられる
方法と同様のものを用いることができる。全文検索手段
1は、全文検索文字列入力表示手段6から検索条件とな
る文字列を受け取り、トライ構造中のラベルとの照合を
行ないつつ木構造を辿ることによって検索を実行する。
文字列の最終文字までの照合が可能であり、かつ、照合
後の状態が最終状態(2重丸印)であれば、単語の出現
回数をラベルとして持つ弧を辿り、文書の格納位置を得
る。これにより、入力文字列を含む文書を高速に検索す
ることができる。
【0031】[類似度データ格納手段4に格納されるデ
ータの構造]検索の対象となるn個の文書を、d1,d
2,・・・,dnとした時、文書diと文書djの間の
類似度データを、S(di,dj)(i=2,3,・・
・,n;j=1,2,・・・,n−1;i>j)で表記
することにする。S(di,dj)は以下に示す2つの
値Cij,Mijの組([Cij,Mij])である。 Mij=(文書di中に存在する全ての単語の重みの合
計)+(文書dj中に存在する全ての単語の重みの合
計) Cij=(文書diと文書djに共通して存在する全て
の単語重みの合計)
【0032】[類似度データ計算手段3による類似度デ
ータの算出アルゴリズム]類似度データ計算手段3によ
る類似度データを求めるアルゴリズムは以下の通りであ
る。 (ステップC1) 全てのS(di,dj)に関して、
Cij=Mij=0とする。また、カレントの状態を形
態素解析データ格納手段2に格納されるトライ構造の初
期状態とする。 (ステップC2) トライ構造を、カレントの状態から
縦型探索し、最初に発見した最終状態Aをカレントの状
態とする。状態Aに付加された語の重みをAgとする。
最終状態が発見されなかった場合ステップC6へ。 (ステップC3) ステップC2で得た最終状態Aから
k本の弧が張られている場合、以下の操作をk本の弧全
てについて行なう。1つの弧が指す格納位置に対応する
文書がdrであって、文書drの格納位置を指す弧に付
加されたラベル(最終状態Aに対応する文字列が文書d
rに出現する回数)をLrとすれば、 S(dr,dm)(m=1,2,・・・,r−1) S(dm,dr)(m=r+1,r+2,・・・,n) を満たす全てのS(dr,dm)(またはS(dm,d
r))において、Mrm+Ag×Lr(またはMmr+
Ag×Lr)を新たなMrm(またはMmr)の値とす
る。 (ステップC4) ステップC2で得た最終状態Aから
k本の弧が張られている場合、以下の操作をk本の弧の
k(k−1)/2個の2項組全てについて行なう。2つ
の弧が指す格納位置に対応する文書がdu,dvであっ
て、文書du,dvの格納位置を指す弧に付加されたラ
ベル(最終状態Aに対応する文字列が文書du,dvに
出現する回数)をLu,Lvとすれば、 S(du,dv)(u>v) S(dv,du)(u<v) において、Cuv+Ag×(Lu+Lv)(またはCv
u+Ag×(Lu+Lv))を新たなCuv(またはC
vu)の値とする。 (ステップ5) ステップ2へ戻る。 (ステップ6) 終了。
【0033】以上のアルゴリズムに従って、図3の形態
素解析データに対応する類似度データを計算した結果は
以下の通りである。 S(d2,d1)=[C21=12,M21=18] S(d3,d1)=[C31=8,M31=18] S(d3,d2)=[C32=2,M32=16]
【0034】[類似度検索手段5による検索アルゴリズ
ム]類似度検索手段5による検索のアルゴリズムは以下
の通りである。類似度検索データ入力表示手段9から検
索の条件として、1つの文書を受け取る。受け取った文
書をdsとすると、 S(ds,dm)(m=1,2,・・・,s−1) S(dm,ds)(m=s+1,s+2,・・・,n) を満たす全てのS(ds,dm)(またはS(dm,d
s))に対して類似度 Usm(またはUms)=Csm/Msm(またはCm
s/Mms) を求め、Usm(またはUms)の値が閾値Tよりも大
きい場合、dmを検索結果として出力する。ここで、U
sm(またはUms)の値は0以上1以下となるため、
閾値Tも0以上1以下の間の値を設定する必要がある。
以下の類似度データに基づいて、検索条件としてd2を
受け取った場合、U21=C21/M21=0.67,
U32=C32/M32=0.13となり、閾値が0.
5であれば、文書d2と類似度の高い文書としてd1が
得られる。 S(d2,d1)=[C21=12,M21=18] S(d3,d1)=[C31=8,M31=18] S(d3,d2)=[C32=2,M32=16]
【0035】[類似度データ計算手段3による類似度デ
ータの変更アルゴリズム]文字列(単語)aの重みをg
(≧0)に変更する場合の、類似度データ計算手段3に
よる類似度データ変更のアルゴリズムは以下の通りであ
る。 (ステップD1) 文字列aとトライ構造中のラベルと
の照合を行ないつつ木構造を辿り最終状態Aを得る。最
終状態に到達しなかった場合はステップD5へ。 (ステップD2) 最終状態Aに付加された文字列aの
重みをAgとし、これをgに変更する。ただし、Ag=
gであればステップD5へ。 (ステップD3) ステップD2で得た最終状態Aから
k本の弧が張られている場合、以下の操作をk本の弧全
てについて行なう。1つの弧が指す格納位置に対応する
文書がdrであって、文書drの格納位置を指す弧に付
加されたラベル(最終状態Aに対応する文字列が文書d
rに出現する回数)をLrとすれば、 S(dr,dm)(m=1,2,・・・,r−1) S(dm,dr)(m=r+1,r+2,・・・,n) を満たす全てのS(dr,dm)(またはS(dm,d
r))において、Mrm+(g−Ag)×Lr(または
Mmr+(g−Ag)×Lr)を新たなMrm(または
Mmr)の値とする。 (ステップD4) ステップD2で得た最終状態Aから
k本の弧が張られている場合、以下の操作をk本の弧の
k(k−1)/2個の2項組全てについて行なう。2つ
の弧が指す格納位置に対応する文書がdu,dvであっ
て、文書du,dvの格納位置を指す弧に付加されたラ
ベル(最終状態Aに対応する文字列が文書du,dvに
出現する回数)をLu,Lvとすれば、 S(du,dv)(u>v) S(dv,du)(u<v) において、Cuv+(g−Ag)×(Lu+Lv)(ま
たはCvu+(g−Ag)×(Lu+Lv))を新たな
Cuv(またはCvu)の値とする。 (ステップD5) 終了。
【0036】図3の形態素解析データにおいて、文字列
「文体論」の重みを「3」から「2」へ変更した場合、
以上のアルゴリズムに従って類似度データを更新した結
果は以下の通りである。 S(d2,d1)=[C21=10,M21=16] S(d3,d1)=[C31=8,M31=17] S(d3,d2)=[C32=2,M32=15]
【0037】次に、第1または第2の実施形態の装置に
おける全文検索文字列入力表示手段6、全文検索結果表
示手段7、類似度データ変更入力表示手段8、類似度検
索データ入力表示手段9および類似度検索結果表示手段
10各機能によるユーザインタフェースの画面イメージ
を図4(a)から図7(b)に示す。図4(a)に示す
ウィンドウの上部のポタン部41の「重み変更」「全文
検索」「類似度検索」の各ボタン411、412、41
3をクリックすることにより、それぞれ、類似度データ
変更処理、全文検索処理、類似度検索処理が実行され
る。
【0038】ボタン下部のテキスト入力アイテム42が
全文検索文字列入力表示手段6に対応し、リストアイテ
ム43が全文検索結果表示手段7、類似度検索データ入
力表示手段9、類似度検索結果表示手段10を兼ねてい
る。
【0039】図4(b)に示すように、テキスト入力ア
イテム42に全文検索の検索条件となる文字列(「辺縁
系」)を入力し、「全文検索」ボタン412を押すこと
により、全文検索処理が実行される。その結果、図5
(a)に示すように、文字列「辺縁系」を含む文書の文
書名がリストアイテム43上に表示される。なお、ウィ
ンドウの下部のメッセージ欄44には、実行された機能
(例では「全文検索」とその機能の遂行結果に対するコ
メント(例では、「4件検索されました」)が表示され
る。
【0040】全文検索の結果、リストアイテム43上に
得られた文書名のリストから、ユーザが、図5(b)に
示すように、マウスにより所望のリスト項目(例では
「海馬による記憶メカニズムの考察」)を選択すること
により、類似度検索処理の検索条件となる文書の指定が
行なわれる。そして、図6(a)に示すように、ユーザ
が「類似度検索」ボタン413をクリックすることによ
り、類似度検索手段5により類似度検索処理が実行され
る。検索結果として、指定された文書に類似する文書の
文書名が、図6(b)に示すように、リストアイテム4
3上に表示される。
【0041】図7(a)に示すように、ユーザがウィン
ドウ上の「重み変更」ボタン411をクリックすること
により、同図(b)に示すように、類似度データ変更入
力表示手段8に対応する「重み変更」ウィンドウ71が
表示される。ユーザが重みを変更する単語(例、「辺縁
系」)と新たに設定する重みの値(例、「9」)をそれ
ぞに対応する欄712および713に記入し、「実行」
ボタン711をクリックすることにより、類似度データ
計算手段3による類似度データ変更処理が実行される。
【0042】続いて、全文検索および類似度検索を行な
うことにより、類似度データの変更の効果を確認するこ
とができる。
【0043】なお、上記の例は、単語の重みを変更する
際に、利用者の指示によって1単語ずつの変更を行なう
ものであるが、他のファイル等から変更内容を受け取
り、一括して変更するものであってもよい。(例えば、
専門用語辞書に記載されている単語の重みを全て「5」
とする。)
【0044】また、前記の例は、類似度を「単一の文書
を対象とする類似文書検索」に利用するものであるが、
「特許マップの作成」等の他の用途に利用するものであ
っても、同様の効果が得られるものである。
【0045】第2の実施形態 以上に説明した第1の実施形態に対して、データ構造お
よび検索/計算アルゴリズムを以下のように変更を加え
ることにより、構造化文書を検索対象とする第2の実施
形態となる。
【0046】[形態素解析データ格納手段2に格納され
るデータの構造]対象文書が著者、キーワード、本文の
3つの文書部品に構造化されているとする。この場合、
形態素解析データ格納手段2に格納されるトライ構造は
以下の順序で構成される。 (ステップE1) 文書部品ごとに形態素解析を行な
い、第1の実施形態で説明したトライ構造と同様の構造
を文書部品に対応して3つ生成する。 (ステップE2) 初期状態から「3種の文書部品を特
定できる識別子をラベルとして持つ3本の弧」を張り、
それぞれの弧の指し示す先を、ステップE1で生成した
3つのトライ構造のうちの識別子に対応するトライ構造
の初期状態とする。
【0047】[全文検索手段1による検索アルゴリズ
ム]上記で生成した構造化文書に対応するトライ構造を
利用することにより、文書部品の範囲内での全文検索が
可能となる。例えば、著者の文書部品の範囲内で「山田
太郎」を入力文字列として検索を行なう場合、「<!著
者!>山田太郎」を入力文字列とすることにより、第1
の実施形態と同様のアルゴリズムによって検索が可能で
ある。ただし、<!著者!>は著者の文書部品を特定す
るための識別子であるとする。
【0048】[類似度データ格納手段4に格納されるデ
ータの構造]S(di,dj)は以下のように3つのフ
ィールドから構成され、それぞれのフィールドには3種
の文書部品ごとに求められた2値組[Cij,Mij]
が格納される。([Cauthorij,Mautho
rij],[Ckeyij,Mkeyij],[Cbo
dyij,Mbodyij]) Mauthorij=(文書diの著者の文書部品中に
存在する全ての単語の重みの合計)+(文書djの著者
の文書部品中に存在する全ての単語の重みの合計) Cauthorij=(文書diの著者の文書部品と文
書djの著者の文書部品に共通して存在する全ての単語
重みの合計) Mkeyij=(文書diのキーワードの文書部品中に
存在する全ての単語の重みの合計)+(文書djのキー
ワードの文書部品中に存在する全ての単語の重みの合
計) Ckeyij=(文書diのキーワードの文書部品と文
書djのキーワードの文書部品に共通して存在する全て
の単語重みの合計) ・・・・・・ ・・・・・・
【0049】[類似度データ計算手段3による類似度デ
ータの算出アルゴリズム]類似度データ計算手段3によ
る類似度データ計算のアルゴリズムは、S(di,d
j)の各フィールドごとに、第1の実施形態と同様のア
ルゴリズムを適用することによって実現できる。
【0050】[類似度検索手段5による検索アルゴリズ
ム]類似度検索手段5による検索のアルゴリズムは、各
フィールドごとに第1の実施形態と同様のアルゴリズム
を適用することによって、 Uauthorsm(またはUauthorms) Ukeysm(またはUkeyms) Ubodysm(またはUbodyms) を求め、以下の式から得られるUsm(またはUms)
が閾値Tよりも大きい場合、dmを検索結果として出力
する。
【0051】Usm=(Wauthor×Uautho
rsm+Wkey×Ukeysm+Wbody×Ubo
dysm)/(Wauthor+Wkey+Wbod
y)
【0052】Ums=(Wauthor×Uautho
rms+Wkey×Ukeyms+Wbody×Ubo
dyms)/(Wauthor+Wkey+Wbod
y) ただし、Wauthor、Wkey、Wbodyは定数
であって、類似度を決定する際の文書部品の重要度であ
る。
【0053】[類似度データ計算手段3による類似度デ
ータの変更アルゴリズム]単語の重みを変更する文字列
とともに、どの文書部品に対して変更を行なうかを入力
として受け取り、S(di,dj)の文書部品に対応す
るフィールドに対して、第1の実施形態と同様のアルゴ
リズムを適用することによって実現できる。
【0054】
【発明の効果】以上のように本発明によれば、類似度デ
ータを計算するためのデータを、全文検索用データとし
ても利用可能であり、かつ、高速の類似度再計算に用い
ることができる。また、本発明の類似度データ計算装置
を検索装置として用い、全文検索および類似度を利用し
た検索をともに可能にすることにより、類似度データの
試行錯誤による調整を支援することができる。
【図面の簡単な説明】
【図1】 本発明の実施形態の構成を示すブロック図
【図2】 (a)は文書とそれに含まれる語との対応を
示すデータの一例、(b)は、語とそれに対応する重み
のデータの一例を示す図
【図3】 トライ構造データの一例を示す図
【図4】 (a)および(b)は本実施形態のユーザイ
ンタフェースの画面イメージの一例を示す図
【図5】 本実施形態のユーザインタフェースの画面イ
メージの一例を示す図で、(a)は全文検索の結果が表
示されたところ、(b)は検索結果の1つを選択したと
ころを示す図
【図6】 本実施形態のユーザインタフェースの画面イ
メージの一例を示す図で、(a)は類似度検索を指示し
たところ、(b)は類似度検索結果を表示したところを
示す図
【図7】 本実施形態のユーザインタフェースの画面イ
メージの一例を示す図で、(a)は重み変更の指示をし
たところ、(b)は重み変更のポップアップメニューが
表示されたところを示す図
【符号の説明】
1…全文検索手段、2…形態素解析データ格納手段、3
…類似度データ計算手段、4…類似度データ格納手段、
5…類似度検索手段、6…全文検索文字列入力表示手
段、7…全文検索結果表示手段、8…類似度データ変更
入力表示手段、9…類似度検索データ入力表示手段、1
0…類似度検索結果表示手段。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 文書に含まれる語と文書とを対応づけて
    格納するとともに、その各語に類似度決定のための語の
    重要度を示す重みを対応付け、かつ各文書に各語が出現
    する回数を対応付けて格納するデータ格納手段と、 前記データ格納手段に格納された語と文書との対応付
    け、前記重み、および前記出現回数を参照して、文書間
    の類似度データを計算する類似度データ計算手段と、 前記類似度データ計算手段により得られた文書間の類似
    度データを格納する類似度データ格納手段とを有するこ
    とを特徴とする文書間類似度データ計算装置。
  2. 【請求項2】 データ格納手段のデータが、文書部品か
    らなる構造化された文書を対象とするものであり、 類似度データ計算手段が、文書部品の種類毎に文書間の
    類似度データを計算することを特徴とする請求項1記載
    の文書間類似度データ計算装置。
  3. 【請求項3】 弧と状態からなる木構造で表現されるト
    ライ構造を持ち、単語の集合を前記弧のラベルとして保
    持し、1つの最終状態には1つの単語が対応し、その単
    語の重みが対応する最終状態に対して付加され、各最終
    状態からは、その最終状態に対応する単語を含む文書の
    格納位置を示すデータへの結合を表す第2の弧が張ら
    れ、これらの第2の弧のラベルとして、最終状態に対応
    する単語が文書中に現れる回数を保持するように構成し
    た全文検索用データを格納するデータ格納手段と、 検索対象のn個の文書における文書diと文書djの間
    の類似度データS(di,dj)を、文書diと文書d
    jに共通して存在する全ての単語重みの合計Cij、お
    よび文書di中に存在する全ての単語の重みの合計と文
    書dj中に存在する全ての単語の重みの合計との和Mi
    jの組[Cij,Mij]によって表し、この類似度デ
    ータS(di,dj)=[Cij,Mij]を前記デー
    タ格納手段に格納されている前記重みおよび前記回数を
    用いて計算する類似度データ計算手段と、 前記類似度データ計算手段により得られた文書間の類似
    度データを格納する類似度データ格納手段とを有するこ
    とを特徴とする文書間類似度データ計算装置。
JP8045627A 1996-02-08 1996-02-08 文書間類似度データ計算装置 Pending JPH09218879A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8045627A JPH09218879A (ja) 1996-02-08 1996-02-08 文書間類似度データ計算装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8045627A JPH09218879A (ja) 1996-02-08 1996-02-08 文書間類似度データ計算装置

Publications (1)

Publication Number Publication Date
JPH09218879A true JPH09218879A (ja) 1997-08-19

Family

ID=12724615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8045627A Pending JPH09218879A (ja) 1996-02-08 1996-02-08 文書間類似度データ計算装置

Country Status (1)

Country Link
JP (1) JPH09218879A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194713A (ja) * 1998-12-25 2000-07-14 Nippon Telegr & Teleph Corp <Ntt> 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体
JP2001167113A (ja) * 1999-12-09 2001-06-22 Nec Corp 付与情報全文検索システムおよび付与情報全文検索方法
JP2003091557A (ja) * 2001-07-12 2003-03-28 Matsushita Electric Ind Co Ltd 文書照合装置
US7010515B2 (en) 2001-07-12 2006-03-07 Matsushita Electric Industrial Co., Ltd. Text comparison apparatus
CN110945496A (zh) * 2017-07-27 2020-03-31 思科技术公司 用于状态对象数据存储区的系统和方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194713A (ja) * 1998-12-25 2000-07-14 Nippon Telegr & Teleph Corp <Ntt> 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体
JP2001167113A (ja) * 1999-12-09 2001-06-22 Nec Corp 付与情報全文検索システムおよび付与情報全文検索方法
JP2003091557A (ja) * 2001-07-12 2003-03-28 Matsushita Electric Ind Co Ltd 文書照合装置
US7010515B2 (en) 2001-07-12 2006-03-07 Matsushita Electric Industrial Co., Ltd. Text comparison apparatus
CN110945496A (zh) * 2017-07-27 2020-03-31 思科技术公司 用于状态对象数据存储区的系统和方法

Similar Documents

Publication Publication Date Title
US7231375B2 (en) Computer aided query to task mapping
US7236972B2 (en) Identifier vocabulary data access method and system
US7769752B1 (en) Method and system for updating display of a hierarchy of categories for a document repository
US20110214080A1 (en) Taxonomy Editor
KR20080031262A (ko) 관계 네트워크
JPH1145284A (ja) プロファイルの作成方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH09218879A (ja) 文書間類似度データ計算装置
JPH07282079A (ja) リンク表示方法
JP2004145626A (ja) 文書分類支援装置およびコンピュータプログラム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JPH06251081A (ja) ハイパーメディア処理装置
CN110909128A (zh) 一种利用词根表进行数据查询的方法、设备、及存储介质
KR20080089580A (ko) 구조화된 데이터를 수신하는 컴퓨터로 구현된 방법 및시스템
JP2001167130A (ja) 加重値表現構造を含むマルチメディアデータ構造及びマルチメディアディスプレー方法
JPH1139327A (ja) リンク情報自動修復方法および装置
JPH10232871A (ja) 検索装置
JPH0934901A (ja) オブジェクト指向データベース
JP2000172710A (ja) 情報取得装置及び情報取得プログラムを記録した記録媒体
JPH09305619A (ja) 階層インデックス検索装置、及び文書検索方法
JP3225735B2 (ja) 情報検索装置
JP2010501927A (ja) コンテンツ検索システムを搭載した情報端末機
JP2006501545A (ja) オブジェクト分類のための顕著な特徴を自動的に判定する方法および装置
JP2006039811A (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JPH11134364A (ja) 体系化知識解析方法及び装置並びに分類方法及び装置
JPH0728834A (ja) 情報検索装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050301

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050524