JPH11110395A - 類似文書検索装置および類似文書検索方法 - Google Patents

類似文書検索装置および類似文書検索方法

Info

Publication number
JPH11110395A
JPH11110395A JP9266013A JP26601397A JPH11110395A JP H11110395 A JPH11110395 A JP H11110395A JP 9266013 A JP9266013 A JP 9266013A JP 26601397 A JP26601397 A JP 26601397A JP H11110395 A JPH11110395 A JP H11110395A
Authority
JP
Japan
Prior art keywords
word
document
data
vector data
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9266013A
Other languages
English (en)
Inventor
Yasuo Tanosaki
康雄 田野崎
Naohide Kubota
直秀 久保田
Yukio Nakamoto
幸夫 中本
Takuya Nishina
卓哉 仁科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP9266013A priority Critical patent/JPH11110395A/ja
Publication of JPH11110395A publication Critical patent/JPH11110395A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ベクトル空間法により、ある文書データに類
似する文書を検索する装置において、互いに共通する意
味を持ちながらも表記の異なる単語を含んで記述された
文書テータ間の類似度をより正当に求めることができ、
信頼性の高い類似文書検索を実現する。 【解決手段】 類義語の関係にある複数の種類の単語を
1種類の単語とみなして、その単語の出現頻度を含むベ
クトルデータ(更新ベクトルデータ)を作成し、このベ
クトルデータにより検索キー文書と検索対象文書間の類
似度を計算する。ことによって、同じ意味を持ちながら
表記が異なる単語が1文書中に混在する場合、或いは、
比較される各文書に含まれる単語が同じ意味を持ちなが
ら表記が異なる場合でも、信頼性の高い類似文書検索を
実現することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、電子化された文
書データの検索装置に係り、特にある文書データを検索
キーとしてこれと類似した文書データを自動検索する類
似文書検索装置および類似文書検索方法に関する。
【0002】
【従来の技術】近年、大量の電子化された文書データが
流通するようになり、自動分類等を行う目的で、文書デ
ータベース中から指定された文書(以下、検索キー文書
と呼ぶ。)に類似する文書の自動検索を行うシステムが
実用されてきている。従来の類似文書検索システムで
は、検索キー文書に含まれている単語と他の文書(以
下、検索対象文書と呼ぶ。)に含まれている単語とを比
較し、共通する単語の種類や出現回数・場所などからベ
クトル空間法により類似度(2文書間の内積から求めら
れる値)を算出し、最も類似度の高い検索対象文書を検
索結果として出力したり、類似度の高い文書から順に出
力していた。
【0003】ただし、このような従来の類似文書検索方
式では次のような課題が残されている。前述したよう
に、従来の類似文書検索方式では、2文書間に共通して
含まれている種類の単語の、各文書それぞれにおける出
現回数が2文書間の類似度の高さを決める要素となって
いる。しかしながら、ある特定の意味を持つ単語に対し
てはいくつかの類義語が存在することが多い。例えば、
電子ファイルの記録媒体として利用されている“光ディ
スク”を例にとると、この“光ディスク”に対する類義
語には例えば“記録媒体”“メディア”“光学ディス
ク”などが挙げられる。類似文書検索装置では、類似文
書検索を行うにあたって、予め、検索キー文書の内容を
表す種類の単語が検索キー単語として設定することが行
われるが、このとき検索キー単語として例えば“光ディ
スク”が設定された場合、この“光ディスク”という単
語が他の類義語により表記された検索対象文書について
は、検索キー文書との類似度が正当に求められない。
【0004】
【発明が解決しようとする課題】このように従来の類似
文書検索装置は、同じ意味を持つものの表記の異なる
(文字列が異なる)単語どうしを全く別の単語として判
定するので、検索キー文書と検索対象文書との正当な類
似度を求めることができない場合がある、という問題を
有している。
【0005】本発明は上記の事情を考慮してなされたも
ので、その目的とするところは、互いに共通する意味を
持ちながらも表記の異なる単語を含んで記述された文書
テータ間の類似度をより正当に求めることができ、信頼
性の高い類似文書検索を実現することのできる類似文書
検索装置と類似文書検索方法を提供することにある。ま
た、本発明は、同じ意味を持ちながら表記が異なる単語
が1文書中に混在する場合でも、信頼性の高い類似文書
検索を実現することのできる類似文書検索装置と類似文
書検索方法を提供することにある。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、本発明の類似文書検索装置は、類似検索の対象とな
る個々の文書データ毎に、予め指定された単語毎の出現
頻度を要素としたベクトルデータをそれぞれ作成するベ
クトルデータ作成手段と、前記文書データ毎に、前記指
定された単語群のなかで類義語の関係にある複数の単語
をそれぞれ検出する類義単語検出手段と、前記検出され
た類義語の関係にある単語毎の出現頻度の和をこれらを
代表する1単語の出現頻度として求め、この代表単語の
出現頻度により、前記作成されたベクトルデータをそれ
ぞれ更新するベクトルデータ更新手段と、前記更新され
た文書データ毎のベクトルデータに基づいて、前記各文
書データ間の類似度を計算する類似度計算手段とを具備
することを特徴とする。
【0007】本発明によれば、類義語の関係にある複数
の種類の単語を1種類の単語とみなしてベクトルデータ
を作成し、このベクトルデータにより各文書データ間の
類似度を計算することによって、同じ意味を持ちながら
表記が異なる単語が1文書中に混在する場合でも、或い
は、比較される各文書に含まれる単語が同じ意味を持ち
ながら表記が異なる場合でも、信頼性の高い類似文書検
索を実現することができる。
【0008】また、本発明の類似文書検索装置は、類似
検索の対象となる個々の文書データ毎に、予め指定され
た単語毎の出現頻度を要素としたベクトルデータをそれ
ぞれ作成するベクトルデータ作成手段と、前記文書デー
タ毎に、前記指定された単語群のなかで類義語の関係に
ある複数の単語をそれぞれ検出する類義単語検出手段
と、前記検出された類義語の関係にある単語毎の出現頻
度に予め該単語毎に設定された重みを付加する重み付加
手段と、前記重みが付加された単語毎の出現頻度の和を
前記類義語の関係にある複数の単語を代表する1単語の
出現頻度として求め、この代表単語の出現頻度により、
前記作成されたベクトルデータをそれぞれ更新するベク
トルデータ更新手段と、前記更新された文書データ毎の
ベクトルデータに基づいて、前記各文書データ間の類似
度を計算する類似度計算手段とを具備することを特徴と
する。
【0009】本発明によれば、類義語の関係にある単語
毎に重みを設定する、例えば、類義語において代表され
る1単語との意味の一致度が高い単語ほど大きい重みを
設定しておくことで、文書間の類似度としてより高い値
が得られるようになり、これにより、同じ意味を持ちな
がら表記が異なる単語が1文書中に混在する場合、或い
は、比較される各文書に含まれる単語が同じ意味を持ち
ながら表記が異なる場合の、より信頼性の高い類似文書
検索を実現することができる。
【0010】
【発明の実施の形態】以下、図面を参照して、本発明の
実施形態について説明する。
【0011】図1は本発明の一実施形態である類似文書
検索装置のハードウェア構成を示すブロック図である。
同図に示すように、この類似文書検索装置は、入力装置
1、表示装置2、制御装置3、メモリ装置4、外部記憶
装置5および通信装置6から構成されている。各装置は
バスを介して結合されている。
【0012】入力装置1は、例えばキーボード、マウ
ス、タブレットあるいはタッチパネルなどであり、この
入力装置1により、ユーザによる文字列の入力や各種の
データおよび命令の入力が行われる。
【0013】表示装置2は、例えばCRTや液晶ディス
プレイなどであり、この表示装置2により、文書検索結
果やシステムからユーザへの指示が表示される。
【0014】制御装置3は、CPUなどであり、この実
施形態の類似文書検索装置の全体的な制御を行う。
【0015】メモリ装置4は、RAMなどであり、制御
装置3が各種制御や処理を実行するために必要なプログ
ラムを格納するプログラム部と、処理の際に必要なデー
タを格納するためのバッファ部を有している。
【0016】外部記憶装置5は、例えばハードディス
ク、フラッシュメモリ、あるいは光磁気ディスクなどで
あり、検索キー文書および検索対象文書となる文書デー
タ、パラメータ設定ファイル、類義語辞書データ、単語
切り出しデータなどを格納する。類義語辞書データと
は、類義語つまり互いに共通する意味を持つが表記の異
なる複数の単語を定義したデータである。単語切り出し
データとは、類似文書検索の基準となる単語を定義した
データである。これら類義語辞書および単語切り出しデ
ータはユーザが任意に定義することが可能である。
【0017】通信装置6は、通信回線を介して外部とデ
ータのやりとりを行う装置であり、たとえばLAN回線
とLANコントローラ等から構成される。
【0018】図2にメモリ装置4のプログラム部および
バッファ部の構成を示す。
【0019】同図に示すように、プログラム部30は、
制御部300、初期化部310、パラメータ設定部32
0、検索キー文書入力部330、単語ID一覧リスト作
成部340、類義語辞書作成部350、ベクトルデータ
作成部360、ベクトルデータ更新部370、類似文書
検索部380、および検索結果出力部390を有してい
る。また、バッファ部40は、パラメータ設定バッファ
401、検索キー文書入力バッファ402、単語ID一
覧リストバッファ403、類義語辞書バッファ404、
ベクトルデータバッファ405、更新ベクトルデータバ
ッファ406、類似文書検索バッファ407、検索結果
出力バッファ408、作業用バッファ409を有してい
る。
【0020】プログラム部30の各部の機能は次の通り
である。
【0021】制御部300は、装置全体の制御を行うプ
ログラム部である。初期化部310は、各バッファ部の
初期化を行うプログラム部である。
【0022】パラメータ設定部320は、予めユーザに
よって記述されたパラメータ設定ファイルを外部記憶装
置5から読み込んでパラメータ設定バッファ401に格
納するプログラム部である。パラメータ設定ファイルに
は、検索対象文書および類義語辞書データの格納ディレ
クトリや、検索結果の表示件数などの各種パラメータ情
報が記述されている。
【0023】検索キー文書入力部330は、入力装置1
を通じてユーザによって指定された検索キー文書の外部
記憶装置5上の格納位置情報を検索文書入力バッファ4
02に格納するプログラム部である。
【0024】単語ID一覧リスト作成部340は、外部
記憶装置5に格納された全ての文書データの中から、予
め指定された切り出しデータ(単語)と表記(文字列)
が一致する単語を抽出し、これらの単語のIDを単語I
D一覧リストバッファ403へ格納するプログラム部で
ある。
【0025】類義語辞書作成部350は、単語ID一覧
リストバッファ403に格納された単語ID一覧リスト
の中から、類義語辞書データに定義される類義語と一致
する単語のIDを抽出して類義語辞書バッファ404へ
格納するプログラム部である。 ベクトルデータ作成部
360は、前記文書データ毎に、単語ID一覧リストバ
ッファ403に格納された単語ID一覧リスト中の単語
(単語ID)毎の出現頻度を求め、この単語出現頻度の
値を要素としたベクトルデータを作成してベクトルデー
タバッファ405にそれぞれ格納するプログラム部であ
る。
【0026】ベクトルデータ更新部370は、前記文書
データ毎に、類義語辞書バッファ404に類義語として
示される各単語それぞれの出現頻度の和を、この類義語
を代表する1つの単語の出現頻度として求め、この代表
単語の出現頻度の和の値によりベクトルデータバッファ
405に格納されたベクトルデータを更新して更新ベク
トルデータバッファ406へ格納するプログラム部であ
る。
【0027】類似文書検索部380は、更新ベクトルデ
ータバッファ406に格納された、各文書データの更新
ベクトルデータを用いて、検索キー文書指定バッファ4
02に示される検索キー文書と検索対象文書との類似度
を計算し、各文書データのIDとこれら文書データ間の
類似度計算結果とを対応付けて類似文書検索バッファ4
07へ格納するプログラム部である。
【0028】検索結果出力部390は、類似文書検索バ
ッファ407に格納された類似度計算結果を類似度の高
いものから順番に並び替え、そのうちのパラメータ設定
バッファ401に格納された表示件数分の結果を検索結
果出力バッファ408に格納するプログラム部である。
【0029】検索結果出力バッファ408に格納された
情報は類似文書検索結果として表示装置2へ出力され
る。
【0030】次に、本実施形態の類似文書検索装置の動
作を説明する。
【0031】まず、検索対象文書となる1つ以上の文書
データのベクトルデータを次のようにして作成する。図
3にこの動作の手順を示す。
【0032】初期化部310が起動されることで、各バ
ッファ部40の初期化が行われる(ステップS10
2)。
【0033】続いて、パラメータ設定部320が起動さ
れる。パラメータ設定部320は、予めユーザによって
記述されたパラメータ設定ファイルを外部記憶装置5か
ら読み込んでパラメータ設定バッファ401に格納する
(ステップS103)。図4にこのパラメータ設定バッ
ファ401に格納されたパラメータ設定ファイルの例を
示す。パラメータ設定ファイルには、検索対象文書およ
び類義語辞書データの外部記憶装置5上の格納位置情報
や、検索結果の表示件数などの各種パラメータ情報が記
述されている。
【0034】次に、単語ID一覧リスト作成部340が
起動され、単語ID一覧リスト作成部340は、外部記
憶装置5に格納された全ての文書データの中から、単語
切り出しデータと表記(文字列)が一致する単語を全て
抽出した後、抽出した単語を単語IDと対応付けて単語
ID一覧リストを作成し、作成した単語ID一覧リスト
を単語ID一覧リストバッファ403に格納する(ステ
ップS104)。図5に単語切り出しデータの例を示
す。また、図6に単語ID一覧リストバッファ403に
格納された単語ID一覧リストの例を示す。ここでW
1,W2,・・・,W7は単語IDである。
【0035】次に類義語辞書作成部350が起動され
る。類義語辞書作成部350は、単語ID一覧リストバ
ッファ403に格納された単語ID一覧リストの中か
ら、類義語辞書データに定義される類義語と一致する単
語の単語IDを抽出して類義語辞書バッファ404に格
納する(ステップS105)。図7に類義語辞書データ
の例を示す。ここで、例えば、「FD」と「フロッピー
ディスク」の各単語は類義語であって、これらの単語は
「フロッピーディスク」を代表単語としてこれに全て置
き換えられることを示している。また、図8は類義語辞
書バッファ404に格納された類義語単語の単語IDの
例である。
【0036】続いて、ベクトルデータ作成部360が起
動される。ベクトルデータ作成部360は、検索対象文
書毎に、単語ID一覧リストに挙げられた単語(単語I
D)毎の出現頻度を求めた後、この単語出現頻度の値を
要素としたベクトルデータを作成し、この検索対象文書
毎のベクトルデータをベクトルデータバッファ405に
それぞれ格納する(ステップS106)。図9に検索対
象文書の例と、この検索対象文書から得られたベクトル
データの例を示す。
【0037】この後、ベクトルデータ更新部370が起
動される。ベクトルデータ更新部370は、検索対象文
書毎に、類義語辞書バッファ404に類義語として示さ
れる各単語それぞれの出現頻度の和を、この類義語を代
表する1つの単語の出現頻度として求めた後、この代表
単語の出現頻度の値によりベクトルデータバッファ40
5に格納されたベクトルデータを更新し、更新したベク
トルデータを更新ベクトルデータバッファ406に格納
する(ステップS107)。図10にこのベクトルデー
タの更新の例を示す。ここで、単語IDがW1の「F
D」はその類義語でありかつ代表単語である単語IDが
W2の「フロッピーディスク」に置き換えられ、各単語
の出現頻度の値を合計した値(この例では2)がその代
表単語の出現頻度として求められる。
【0038】そして、この実施形態の類似文書検索装置
は、以上のようにして検索対象文書毎の更新ベクトルデ
ータを得た後、検索キー文書を入力して、この検索キー
文書に類似する文書の検索を前記各検索対象文書を対象
に次のように行う。
【0039】この動作を図11のフローチャートを参照
しつつ以下に説明する。
【0040】まず、初期化部310が起動されること
で、各バッファ部40の初期化が行われる(ステップS
202)。
【0041】続いて、パラメータ設定部320が起動さ
れる。パラメータ設定部320は、外部記憶装置5から
パラメータ設定ファイルを読み込み、予めユーザによっ
て指定された検索結果の表示件数などの情報をパラメー
タ設定バッファ401に格納する(ステップS20
3)。
【0042】次に、検索キー文書入力部330が起動さ
れ、入力装置1を通じてユーザによって指定された検索
キー文書の外部記憶装置5上の格納位置情報が検索文書
入力バッファ402に格納される(ステップS20
4)。
【0043】この後、ベクトルデータ作成部360が起
動される。ベクトルデータ作成部360は、検索キー文
書から、単語ID一覧リストに挙げられた単語(単語I
D)毎の出現頻度を求めた後、この単語出現頻度の値を
要素としたベクトルデータを作成し、この検索キー文書
のベクトルデータをベクトルデータバッファ405にそ
れぞれ格納する(ステップS205)。図12に検索キ
ー文書の例と、この検索キー文書から得られたベクトル
データの例を示す。
【0044】この後、ベクトルデータ更新部370が起
動される。ベクトルデータ更新部370は、検索キー文
書を構成する単語の中で、類義語辞書バッファ404に
類義語として示される各単語それぞれの出現頻度の和
を、この類義語を代表する1つの単語の出現頻度として
求めた後、この代表単語の出現頻度の値によりベクトル
データバッファ405に格納された検索キー文書ベクト
ルデータを更新し、更新したベクトルデータを更新ベク
トルデータバッファ406に格納する(ステップS20
6)。
【0045】このようにして、検索キー文書の更新ベク
トルデータの作成が終了すると、類似文書検索部380
が起動する。類似文書検索部380は、検索キー文書と
各検索対象文書との類似度をそれぞれ計算し、この類似
度計算結果と検索対象文書のIDとを対応付けて類似文
書検索バッファ407にこれを格納する(ステップ20
7)。図13に類似文書検索バッファ407に格納され
た類似度計算結果と検索対象文書IDの例を示す。
【0046】なお、文書間の類似度Sは、例えば、次の
計算式により求められる。
【0047】S=(A・B)/(‖A‖‖B‖) ただ
し、0≦S≦1 ここで、Aは検索キー文書の更新ベクトルデータ、Bは
検索対象文書の更新ベクトルデータである。
【0048】その後、検索結果出力部390が起動され
る。検索結果出力部390は、例えば図14に示すよう
に、類似文書検索バッファ407に格納された類似度計
算結果を類似度の高いものから順番に並び替え、そのう
ちのパラメータ設定バッファ401に格納された表示件
数分の結果を検索結果出力バッファ408に格納する。
検索結果出力バッファ408に格納された内容は、検索
結果として表示装置2へ出力される(ステップS20
8)。
【0049】引き続き検索を継続する場合には制御はス
テップS204へ戻され、検索キー文書の指定、ベクト
ルデータの作成、ベクトルデータの更新、類似度計算、
検索結果の出力が同様に行われる。
【0050】このように本実施形態の類似文書検索装置
は、類義語の関係にある複数の種類の単語を1種類の単
語とみなしてベクトルデータを作成し、このベクトルデ
ータにより各文書データ間の類似度を計算することによ
って、同じ意味を持ちながら表記が異なる単語が1文書
中に混在する場合、或いは、比較される各文書に含まれ
る単語が同じ意味を持ちながら表記が異なる場合でも、
信頼性の高い類似文書検索を実現することができる。
【0051】ところで、類義語の関係にある単語どうし
のなかでも、個々の単語の持つ意味や概念は単語間で微
妙に異なる場合がある。例えば、“光ディスク”を例に
とると、この“光ディスク”に対する類義語には例えば
“記録媒体”“メディア”“光学ディスク”などが挙げ
られる。この場合、一般的には、“光ディスク”と“光
学ディスク”との間の近似度は“光ディスク”と“記録
媒体”、或いは“光ディスク”と“メディア”との間の
近似度よりも高いと言える。すなわち、“記録媒体”や
“メディア”という単語の持つ意味は“光ディスク”を
下位概念的に含むことから、これらの類義語としての関
係は比較的弱い。
【0052】そこで、例えば“光ディスク”“記録媒
体”“メディア”“光学ディスク”を類義語辞書バッフ
ァ404に格納した場合、“光ディスク”を代表単語と
して、その他の単語それぞれ対し、代表単語との類義語
としての関係の強さ(意味の一致度)を示す重みを付加
する方式を本発明の第2の実施形態として挙げることが
できる。この重みはユーザが任意に設定することが可能
である。
【0053】本実施形態では、ベクトルデータ更新部3
70が、文書データ毎に、類義語辞書バッファ404に
類義語として示される各単語それぞれの出現頻度の和を
求める際に、それぞれの単語に設定された重み(係数)
をその単語の出現頻度の値に乗じることによって重み付
けされた出現頻度の値を得、このように重み付けされた
各出現頻度の値の和を求めて更新ベクトルデータを作成
する。この際、代表単語との意味の一致度が高い単語ほ
ど大きい重みを設定しておくことで、文書間の類似度と
してより高い値が得られるようになり、より正当な類似
文書検索を行うことが可能になる。最も単純な例を挙げ
ると、2つの検索対象文書から、互いに同義語の関係を
持ちながらも異なる重みが設定された単語が同じ数だけ
検出された場合、より大きな重みが設定された単語を含
む側の文書がより類似度の高い文書として判定される。
【0054】さらに、他の実施形態として、類義語毎に
重みを設定する方式が考えられる。この方式は、例え
ば、ある切り出し単語データを構成する個々の単語毎に
重みを設定する方式である。この方式は、例えば、個々
の単語の概念の大きさ、一般的な定義の明瞭さなどによ
って重みを変えるというものである。一般に、概念が大
きく定義があいまいな単語はその用途の範囲が広く、様
々な分野についての記述文書に使われる。そこで、この
ように概念が大きく定義があいまいな単語ほど重みを小
さくし、定義がより明瞭な単語の重みを大きくすること
で、より正当性に優れた類似文書検索を実現することが
可能となる。
【0055】なお、このように切り出し単語データを構
成する単語毎に重みを設定する方法としては、必ずしも
前記の方法に拠らず、様々な方法を考えることができ
る。例えば、単語の一般的な認知度、専門/一般用語に
よって重みを変えるなどの方法がある。
【0056】
【発明の効果】以上説明したように本発明によれば、類
義語の関係にある複数の種類の単語を1種類の単語とみ
なしてベクトルデータを作成し、このベクトルデータに
より各文書データ間の類似度を計算することによって、
同じ意味を持ちながら表記が異なる単語が1文書中に混
在する場合でも、或いは、比較される各文書に含まれる
単語が同じ意味を持ちながら表記が異なる場合でも、信
頼性の高い類似文書検索を実現することができる。
【0057】また、本発明によれば、類義語の関係にあ
る単語毎に重みを設定する、例えば、類義語において代
表される1単語との意味の一致度が高い単語ほど大きい
重みを設定しておくことで、文書間の類似度としてより
高い値が得られるようになり、これにより、同じ意味を
持ちながら表記が異なる単語が1文書中に混在する場
合、或いは、比較される各文書に含まれる単語が同じ意
味を持ちながら表記が異なる場合の、より信頼性の高い
類似文書検索を実現することができる。
【図面の簡単な説明】
【図1】本発明の実施形態である類似文書検索装置のハ
ードウェア構成を示すブロック図
【図2】本実施形態の類似文書検索装置のメモリ装置の
プログラム部およびバッファ部の構成を示すブロック図
【図3】本実施形態の類似文書検索装置による検索対象
文書データのベクトルデータの作成手順を示すフローチ
ャート
【図4】本実施形態の類似文書検索装置に入力されるパ
ラメータ設定ファイルの例を示す図
【図5】本実施形態の類似文書検索装置に入力される文
書データからの単語切り出し用のデータの例を示す図
【図6】本実施形態の類似文書検索装置の単語ID一覧
リストバッファに格納された単語ID一覧リストの例を
示す図
【図7】本実施形態の類似文書検索装置に入力される類
義語辞書データの例を示す図
【図8】本実施形態の類似文書検索装置の類義語辞書バ
ッファに格納された類義語単語IDの例を示す図
【図9】本実施形態の類似文書検索装置に入力された検
索対象文書の例とこの検索対象文書から得られたベクト
ルデータの例を示す図
【図10】本実施形態の類似文書検索装置における更新
前のベクトルデータと更新後のベクトルデータの例を示
す図
【図11】本実施形態の類似文書検索装置における検索
キー文書の入力と類似文書検索裏手順を示すフローチャ
ート
【図12】本実施形態の類似文書検索装置に入力された
検索キー文書の例とこの検索キー文書から得られたベク
トルデータの例を示す図
【図13】本実施形態の類似文書検索装置の類似文書検
索バッファに格納された類似度計算結果と検索対象文書
IDの例を示す図
【図14】本実施形態の類似文書検索装置の検索結果出
力バッファに類似度が高い順に格納された類似度計算結
果と検索対象文書IDの例を示す図
【符号の説明】
30……プログラム部 300……制御部 310……初期化部 320……パラメータ設定部 330……検索キー文書入力部 340……単語ID一覧リスト作成部 350……類義語辞書作成部 360……ベクトルデータ作成部 370……ベクトルデータ更新部 380……類似文書検索部 390……検索結果出力部 40……バッファ部 401……パラメータ設定バッファ 402……検索キー文書入力バッファ 403……単語ID一覧リストバッファ 404……類義語辞書バッファ 405……ベクトルデータバッファ 406……更新ベクトルデータバッファ 407……類似文書検索バッファ 408……検索結果出力バッファ 409……作業用バッファ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 久保田 直秀 東京都青梅市新町1381番地1 東芝コンピ ュータエンジニアリング株式会社内 (72)発明者 中本 幸夫 東京都青梅市新町1381番地1 東芝コンピ ュータエンジニアリング株式会社内 (72)発明者 仁科 卓哉 東京都青梅市新町1381番地1 東芝コンピ ュータエンジニアリング株式会社内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 類似検索の対象となる個々の文書データ
    毎に、予め指定された単語毎の出現頻度を要素としたベ
    クトルデータをそれぞれ作成するベクトルデータ作成手
    段と、 前記文書データ毎に、前記指定された単語群のなかで類
    義語の関係にある複数の単語をそれぞれ検出する類義単
    語検出手段と、 前記検出された類義語の関係にある単語毎の出現頻度の
    和をこれらを代表する1単語の出現頻度として求め、こ
    の代表単語の出現頻度により、前記作成されたベクトル
    データをそれぞれ更新するベクトルデータ更新手段と、 前記更新された文書データ毎のベクトルデータに基づい
    て、前記各文書データ間の類似度を計算する類似度計算
    手段とを具備することを特徴とする類似文書検索装置。
  2. 【請求項2】 類似検索の対象となる個々の文書データ
    毎に、予め指定された単語毎の出現頻度を要素としたベ
    クトルデータをそれぞれ作成するベクトルデータ作成手
    段と、 前記文書データ毎に、前記指定された単語群のなかで類
    義語の関係にある複数の単語をそれぞれ検出する類義単
    語検出手段と、 前記検出された類義語の関係にある単語毎の出現頻度に
    予め該単語毎に設定された重みを付加する重み付加手段
    と、 前記重みが付加された単語毎の出現頻度の和を前記類義
    語の関係にある複数の単語を代表する1単語の出現頻度
    として求め、この代表単語の出現頻度により、前記作成
    されたベクトルデータをそれぞれ更新するベクトルデー
    タ更新手段と、 前記更新された文書データ毎のベクトルデータに基づい
    て、前記各文書データ間の類似度を計算する類似度計算
    手段とを具備することを特徴とする類似文書検索装置。
  3. 【請求項3】 類似検索の対象となる個々の文書データ
    毎に、予め指定された単語毎の出現頻度を要素としたベ
    クトルデータをそれぞれ作成する工程と、 前記文書データ毎に、前記指定された単語群のなかで類
    義語の関係にある複数の単語をそれぞれ検出する工程
    と、 前記検出された類義語の関係にある単語毎の出現頻度の
    和をこれらを代表する1単語の出現頻度として求める工
    程と、 前記求めた代表単語の出現頻度により、前記作成された
    ベクトルデータをそれぞれ更新する工程と、 前記更新された文書データ毎のベクトルデータに基づい
    て、前記各文書データ間の類似度を計算する工程とを有
    することを特徴とする類似文書検索方法。
  4. 【請求項4】 類似検索の対象となる個々の文書データ
    毎に、予め指定された単語毎の出現頻度を要素としたベ
    クトルデータをそれぞれ作成する工程と、 前記文書データ毎に、前記指定された単語群のなかで類
    義語の関係にある複数の単語をそれぞれ検出する工程
    と、 前記検出された類義語の関係にある単語毎の出現頻度に
    予め該単語毎に設定された重みを付加する工程と、 前記重みが付加された単語毎の出現頻度の和を前記類義
    語の関係にある複数の単語を代表する1単語の出現頻度
    として求める工程と、 前記求めた代表単語の出現頻度により、前記作成された
    ベクトルデータをそれぞれ更新する工程と、 前記更新された文書データ毎のベクトルデータに基づい
    て、前記各文書データ間の類似度を計算する工程とを有
    することを特徴とする類似文書検索方法。
JP9266013A 1997-09-30 1997-09-30 類似文書検索装置および類似文書検索方法 Withdrawn JPH11110395A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9266013A JPH11110395A (ja) 1997-09-30 1997-09-30 類似文書検索装置および類似文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9266013A JPH11110395A (ja) 1997-09-30 1997-09-30 類似文書検索装置および類似文書検索方法

Publications (1)

Publication Number Publication Date
JPH11110395A true JPH11110395A (ja) 1999-04-23

Family

ID=17425170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9266013A Withdrawn JPH11110395A (ja) 1997-09-30 1997-09-30 類似文書検索装置および類似文書検索方法

Country Status (1)

Country Link
JP (1) JPH11110395A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003517686A (ja) * 1999-12-17 2003-05-27 キム、シハン 情報コード化および検索システムとその方法
US7010515B2 (en) 2001-07-12 2006-03-07 Matsushita Electric Industrial Co., Ltd. Text comparison apparatus
JP2007172315A (ja) * 2005-12-22 2007-07-05 Nec Corp 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
JP2010211267A (ja) * 2009-03-06 2010-09-24 Ricoh Co Ltd チーム抽出装置
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
JP2017156916A (ja) * 2016-03-01 2017-09-07 京セラコミュニケーションシステム株式会社 類似文書検索装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003517686A (ja) * 1999-12-17 2003-05-27 キム、シハン 情報コード化および検索システムとその方法
US7010515B2 (en) 2001-07-12 2006-03-07 Matsushita Electric Industrial Co., Ltd. Text comparison apparatus
JP2007172315A (ja) * 2005-12-22 2007-07-05 Nec Corp 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
JP2010211267A (ja) * 2009-03-06 2010-09-24 Ricoh Co Ltd チーム抽出装置
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105488023B (zh) * 2015-03-20 2019-01-11 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
JP2017156916A (ja) * 2016-03-01 2017-09-07 京セラコミュニケーションシステム株式会社 類似文書検索装置

Similar Documents

Publication Publication Date Title
US7130849B2 (en) Similarity-based search method by relevance feedback
US7769771B2 (en) Searching a document using relevance feedback
JP2832988B2 (ja) データ検索システム
US20020178135A1 (en) Image searching system and image searching method, and a recording medium storing an image searching program
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
JPH11203294A (ja) 情報検索システム、装置、方法及び記録媒体
JP2002230021A (ja) 情報検索装置及び情報検索方法並びに記憶媒体
JPH11110395A (ja) 類似文書検索装置および類似文書検索方法
JPH11259515A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JPH0773197A (ja) 異表記語辞書作成支援装置
JPH11218806A (ja) データ処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
CN116383340A (zh) 信息搜索方法、装置、电子设备和存储介质
JPH1173415A (ja) 類似文書検索装置及び類似文書検索方法
JPH08287086A (ja) 適合度順画像強調表示方法及び装置
JP2001147923A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP4010711B2 (ja) ターム評価プログラムを記憶した記憶媒体
JP3395232B2 (ja) 検索項目の決定方式
JP2002132789A (ja) 文書検索方法
JPH10254894A (ja) 類似文書検索装置、類似文書検索方法及び類似文書検索用記憶媒体
JP2002215672A (ja) 検索式拡張方法、検索システム及び検索式拡張コンピュータプログラム
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP3389285B2 (ja) 固有名詞特定方法
JP2001067364A (ja) 複合メディア検索方法および複合メディア検索用プログラム記録媒体
US20060048126A1 (en) Method and a system thereof for generating a homepage content file capable of dynamically linking with a plurality of on-demand knowledge bases
RU2266560C1 (ru) Способ поиска информации в политематических массивах неструктурированных текстов

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20041207