JP2002007468A - 類似文書検索装置、類似文書検索方法及び記録媒体 - Google Patents

類似文書検索装置、類似文書検索方法及び記録媒体

Info

Publication number
JP2002007468A
JP2002007468A JP2000183953A JP2000183953A JP2002007468A JP 2002007468 A JP2002007468 A JP 2002007468A JP 2000183953 A JP2000183953 A JP 2000183953A JP 2000183953 A JP2000183953 A JP 2000183953A JP 2002007468 A JP2002007468 A JP 2002007468A
Authority
JP
Japan
Prior art keywords
document
category
search
search key
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000183953A
Other languages
English (en)
Inventor
Tsutomu Kobayashi
勉 小林
Shigemi Nakazato
茂美 中里
Yukio Nakamoto
幸夫 中本
Takuya Nishina
卓哉 仁科
Hiroshi Yamazaki
弘 山崎
Takeshi Matsukuma
剛 松隈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000183953A priority Critical patent/JP2002007468A/ja
Publication of JP2002007468A publication Critical patent/JP2002007468A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 一定期間に蓄積されるカテゴリ毎の文書量の
相違を考慮し、検索対象期間を絞りつつもカテゴリ特定
の精度低下を抑え、検索処理速度の向上を図る。 【解決手段】 複数の検索対象文書を、カテゴリ毎且つ
各々を時系列に所定件数ずつに分割して格納するメモリ
1dのバッファ部2bに格納し、検索キー文書の時間情
報が示す時間を含む各カテゴリ内の、分割された所定件
数ずつの検索対象文書を決め、検索キー文書との類似度
に基づいて検索キー文書が属するカテゴリを特定し、そ
のカテゴリ内の検索対象文書から検索キー文書の類似文
書を抽出する。このように検索キー文書の時間情報に対
応する各カテゴリの分割範囲にはカテゴリ特定に十分な
件数の文書が存在するため、検索対象期間を絞りつつも
カテゴリ特定の精度低下を防止し、検索処理速度向上を
図ることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】 本発明は、データベースの
中から類似文書を検索する類似文書検索装置であって、
特にカテゴリ毎に分類された文書を対象として類似文書
を検索する場合に好適な類似文書検索装置と、この装置
に用いられる類似文書検索方法及び記録媒体に関する。
【0002】
【従来の技術】 従来、各種文書を多数データベース化
しておき、その中から指定された文書(以下、検索キー
文書と称す)に類似する文書を自動検索するシステムが
ある。このようなシステムでは、検索キー文書に含まれ
ている単語と検索対象となる文書に含まれている単語と
を比較し、共通する単語の種類、出現場所、出現回数な
どからベクトル空間法などにより類似度を算出して、類
似度の高い文書を検索結果として出力する。
【0003】ところで、この種のシステムでは、データ
ベース内の各種文書を所定のカテゴリ毎に分類してお
き、検索対象となる文書のカテゴリを特定してから、そ
のカテゴリに属する文書を対象として類似文書検索が行
なわれる。この場合、カテゴリの数や定義は常に固定な
ものではなく、年度等により更新されるものである。そ
こで本発明者らは、更新されたカテゴリと更新前の関連
カテゴリとの間でリンク付けを行ない、検索時には現在
のカテゴリから過去のカテゴリに遡って、リンク付けら
れた複数のカテゴリに含まれる文書を検索対象文書とす
る技術を開発した(特願平11−328330号)。
【0004】
【発明が解決しようとする課題】 従来の技術において
は、更新前後のリンク付けられた複数カテゴリに含まれ
る文書を検索対象文書として抽出できる点で効果があ
る。
【0005】しかしながら、類似文書検索において膨大
な量の文書を検索対象にした場合における処理速度の低
下を防止する点で改良の余地があった。一般的手法とし
て、対象とする文書について最新の所定期間分のみ対象
とすることにより処理速度の低下を防ぐことは良く知ら
れている。ところがこのような手法を用いると、カテゴ
リによっては5年に1件程度の対象文書しかない場合
や、逆に1年分の文書量が多すぎる場合等文書数にばら
つきが生じ、それによって分類精度が低下するという問
題があった。
【0006】本発明は、このような課題を解決するため
のもので、一定期間に蓄積されるカテゴリ毎の文書量の
相違を考慮し処理速度の低下を防止するにあたり、分類
精度の低下を抑えて検索処理速度の向上を図る類似文書
検索装置、及びこの装置に用いられる類似文書検索方法
を提供することを目的とする。
【0007】
【課題を解決するための手段】 上記目的を達成するた
めに、本発明の類似文書検索装置では、複数の検索対象
文書を、カテゴリ毎に、且つ各々を時系列に所定件数ず
つに分割して格納する記憶手段と、時間情報を有する検
索キー文書を入力する入力手段と、この入力手段にて入
力された検索キー文書の時間情報に基づき、この時間情
報が示す時間を含む上記各カテゴリ内の、分割された所
定件数ずつの検索対象文書を決定する決定手段と、この
決定手段にて決定された各検索対象文書と検索キー文書
との類似度に基づいて検索キー文書が属するカテゴリを
特定する特定手段と、この特定手段にて特定されたカテ
ゴリに含まれる検索対象文書をも対象として、検索キー
文書に類似する文書を抽出する手段と、を具備すること
を特徴とする。このような構成により、検索キー文書の
時間情報に対応する各カテゴリの分割範囲にはカテゴリ
特定に十分な所定件数の文書が存在することになり、検
索対象期間を絞りながらもカテゴリ特定の精度の低下を
抑え、検索処理速度の向上を図ることができる。
【0008】また本発明の類似文書検索装置では、複数
の検索対象文書を、カテゴリ毎に、且つ各々を時系列に
所定件数ずつに分割して格納する第1の記憶手段と、カ
テゴリ別に同義語情報を格納する第2の記憶手段と、時
間情報を有する検索キー文書を入力する入力手段と、こ
の入力手段にて入力された検索キー文書の時間情報に基
づき、この時間情報が示す時間を含む上記各カテゴリ内
の、分割された所定件数ずつの検索対象文書を決定する
決定手段と、この決定手段にて決定された各検索対象文
書を、上記第2の記憶手段に記憶された同義語情報に従
いカテゴリ毎の同義語を同一単語とみなして、検索キー
文書との類似度を算出し、検索キー文書が属するカテゴ
リを特定する特定手段と、この特定手段にて特定された
カテゴリに含まれ、上記決定手段にて決定された以外の
検索対象文書をも対象として、検索キー文書に類似する
文書を抽出する手段と、を具備することを特徴とする。
このような構成により、検索キー文書の時間情報に対応
する各カテゴリの分割範囲にはカテゴリ特定に十分な所
定件数の文書が存在し、且つ各カテゴリの時間軸におけ
る長短により生じる使用単語の変遷にも対応することが
でき、検索対象期間を絞りながらもカテゴリ特定の精度
低下をさらに抑え、検索処理速度の向上を図ることがで
きる。
【0009】
【発明の実施の形態】以下、本発明の類似文献検索機能
を一般的なアーキテクチャを持つコンピュータに適用し
た実施の形態について詳細に説明する。
【0010】図1は、本発明に係る一実施例であるハー
ドウェア構成を示している。本実施例である類似文書検
索装置は、制御装置1a、入力装置1b、表示装置1
c、メモリ1d、及び外部記憶装置1eを備え、さらに
各装置を互いに結合するバス1fを有している。
【0011】制御装置1aは中央演算処理装置であり、
各装置の制御および各装置間のデータ転送等の処理をお
こなうものである。
【0012】入力装置1bはキーボード、ペン、マウ
ス、タブレット、或いはタッチパネル等からなり、文字
列、各種データおよび命令の入力を行なうものである。
【0013】表示装置1cはCRT或いは液晶ディスプ
レイと表示コントローラとを含み、検索結果やシステム
からユーザへのメッセージ等を表示する。
【0014】メモリ1dはRAM等の記憶装置である。
【0015】図2に示すようにメモリ1dは、制御装置
1aが各種制御や処理を実行するためのプログラム部2
aと、処理の際に必要なデータを格納するためのバッフ
ァ部2bとからなる。
【0016】図3に示すように、プログラム部2aは、
その機能から区分けされる6種のプログラム領域、すな
わち検索キー入力部3a、表示処理部3b、類似度算出
部3c、文書時間属性取得部3d、検索対象データベー
ス分割処理部3e、カテゴリ内同義語同一視処理部3f
を備えている。検索キー入力部3aは、入力装置1bを
介して類似文書を検索するための検索キーとなる検索キ
ー文書の入力を行なう。表示処理部3bは、検索結果等
の表示データを表示装置cに表示させる。類似度算出部
3cは、検索キー文書と検索対象文書との類似度を算出
する。文書時間属性取得部3dは、検索キー文書や検索
対象文書に含まれる時間属性情報を取得する。検索対象
データベース分割処理部3eは、外部記憶装置内の検索
対象文書を格納するデータベース領域からカテゴリ別、
且つ各カテゴリの文書数がほぼ一定数になるように時間
軸上で検索対象文書群を分割しグループ化する。最後に
カテゴリ内同義語同一視処理部3fは、類似度算出部3
cの類似度算出時に外部記憶装置1e内に記憶されたカ
テゴリ別同義語辞書を参照してカテゴリ内の同義語を同
一の単語とみなして類似度の計算を実行させるプログラ
ム領域である。
【0017】図4に示すように、バッファ部2bは、6
領域に区分けされ、類似度格納バッファ4a、特定カテ
ゴリ格納バッファ4b、文書時間属性格納バッファ4
c、検索対象データベース分割結果格納バッファ4d、
検索キー格納バッファ4e、及び一時変数格納バッファ
4fを含んでいる。類似度格納バッファ4aには、検索
キー文書と検索対象文書データベース5a中の文書との
類似度算出結果を複数格納する。特定カテゴリ格納バッ
ファ4bは、検索キー文書が属するカテゴリが特定され
た後、この特定されたカテゴリ名を格納する。文書時間
属性格納バッファ4cは、検索キー文書に付与されてい
る時間属性情報を格納する。検索対象データベース分割
結果格納バッファ4dは、検索対象データベース分割処
理部3eが外部記憶装置1eに記憶された検索対象文書
をカテゴリ別、且つ各カテゴリの検索対象文書数がほぼ
一定数になるように時間軸上で分割した結果を格納す
る。検索キー格納バッファ4eは、検索キー入力部3a
で取得した検索キー文書を格納する。一時変数格納バッ
ファ4fは、その他計算処理に必要となる一時変数を格
納する。
【0018】外部記憶装置1eはハードディスク、フラ
ッシュメモリ或いは光磁気ディスクとコントローラから
なり、装置の電源断の後に永続的保存が必要なデータを
格納する。図5に示す通り、検索対象文書をデータベー
ス化した検索対象文書データベース5aと、カテゴリ内
同義語同一視処理部3fによって参照されるカテゴリ別
の同義語情報データを保持したカテゴリ別同義語辞書5
b、及び検索実行時にメモリ1dのプログラム部2aに
転送される図3のプログラムを格納したプログラム格納
部5cを含んでいる。
【0019】次に本実施例の動作を説明する。本実施例
における類似文書検索動作は、メモリ1dのプログラム
部2aに格納されるプログラムに従って、制御装置1a
が実行するものである。
【0020】まず、本実施例のコンピュータの電源が投
入されるとブートストラップ等の起動処理を経て図6に
示す処理を保持したプログラムを外部記憶装置1eから
メモリ1d中のプログラム部2aにロードして、実行す
る。この処理では、まず始めに入力装置1b及び表示装
置1cの初期化等の初期化処理を実行する(ステップ6
a)。初期化処理に続いて外部記憶装置1eの検索対象
文書データベース5aの複数の検索対象文書を、検索対
象データベース分割処理部3eによる検索対象データベ
ース分割処理、つまりカテゴリ別、且つ検索対象文書数
がカテゴリごとに定められた範囲に収まるように時間軸
上で分割する処理を行なう(ステップ6b)。この処理
を終えた後、検索キー文書入力処理へ進み、コンピュー
タが入力装置1bを介して検索キー入力部3aにより検
索キー文書を取得する(ステップ6c)。次にステップ
6dへ進み、本ルーチンの終了かどうかを判定し、終了
でなければ類似文書検索処理を実行した後(ステップ6
e)、再びステップ6cの検索キー文書入力処理に戻
る。終了であればステップ6fへ進み終了処理を行なっ
て装置の動作は終了する。
【0021】上述のステップ6bにおける検索対象デー
タベース分割処理の動作を図7を用いて詳細に説明す
る。まず外部記憶装置1eに保持されている検索対象文
書データベース5aをあらかじめ定められたカテゴリ別
に分割し、その結果を検索対象データベース分割結果格
納バッファ4dに格納する(ステップ7a)。分割結果
は文書そのものを格納しても良いが、メモリの浪費を抑
えるために文書を表す文書IDを保持する方が好まし
い。また、同じカテゴリに属する文書は後の処理のため
に文書時間属性取得部3dによって得た文書の時間属性
を用いて時系列順に保持する。ここで用いられる検索対
象文書及び検索キー文書は、図8に示すように文書I
D、カテゴリ、時間属性、及び本文の情報を含んでい
る。例えば特許公開公報のような文書も本件検索対象文
書に該当するものであり、特許公開公報の場合文書ID
は公開番号、カテゴリはIPC分類、時間属性は出願日
又は公開日、本文は特許請求の範囲や発明の詳細な説明
等の文書というように読み替えることができる。
【0022】上記処理の結果、検索対象データベース分
割結果格納バッファ4dには、図9に示すような状態で
データが格納される。尚、本実施例では、カテゴリの種
類は、カテゴリA、カテゴリB,カテゴリCの3種類と
する。
【0023】ステップ7aに続いてステップ7bでは、
一時変数バッファ4f内に一時変数N、I、Pを作成
し、一時変数Nにカテゴリ数、一時変数Iに初期値0、
一時変数Pに分割される文書数の設定値をそれぞれ代入
する。本実施例の場合カテゴリの種類が3種類なのでN
に3を、また文書数の設定値として1000をそれぞれ
代入する。この文書数の設定値は、検索の内容に応じて
適当と考えられる数が選ばれるものであり、カテゴリ毎
に異なる値を設定しても良い。
【0024】ステップ7cでは、一時変数Iと一時変数
Nとを比較し、I<Nの条件が成立している間はステッ
プ7dへ進む。ステップ7dではNの値に従い対象とす
べきカテゴリを選択する。つまりN=0であればカテゴ
リA、N=1であればカテゴリB、N=2であればカテ
ゴリCを対象とする。対象とするカテゴリを、ステップ
7eにおいて各文書数が時系列に設定値つまり1000
以下ずつになるように分割し、その結果を検索対象デー
タベース分割結果格納バッファ4dに格納してステップ
7fへ進む。尚、検索対象文書数が、カテゴリAに20
000件、カテゴリBに5000件、カテゴリCに20
00件含まれていたとすると、バッファ4dに格納され
た状態でカテゴリAは20分割、カテゴリBは5分割、
カテゴリCは2分割されることになる。この結果を模式
的に表したのが図10である。それぞれのカテゴリ内に
示した矩形の1つ1つが1000件の文書を表してい
る。
【0025】ステップ7eでは、一時変数Iに整数値1
を加算し、ステップ7cの判断ステップへ戻る。ステッ
プ7cでI<Nが成立しなくなる、すなわちI>=Nの
条件を満たすようになると(本実施例の場合I=3にな
った場合)、検索対象データベース分割処理は終了して
コール元にリターンし、図6のステップ6cの検索キー
入力処理へ進む。
【0026】尚、図7にて説明した検索対象データベー
ス分割処理をデータベース構築時に予め実施しておき、
外部記憶装置1eからロードされる時点で所望の分割済
データを取得するようにしても構わない。
【0027】続いて、図11を用いて検索キー入力処理
を詳細に説明する。
【0028】まず検索キー入力部3aを用いて入力装置
1bから検索キー文書を取得する(ステップ11a)。
次に入力装置1bから終了を示すファンクションが送ら
れたかどうかを判定し(ステップ11b)、終了でなけ
れば得られた検索キー文書を検索キー格納バッファ4e
に格納し(ステップ11c)、終了であれば終了である
ことを表す値を検索キー格納バッファ4eに格納し(ス
テップ11d)、サブルーチンを終了してコール元であ
る図6のフローにリターンし、ステップ6dへ進む。
【0029】次に図12を用いて類似文書検索処理を詳
細に説明する。まず前段として検索キー文書カテゴリ特
定処理を行なって類似文書を検索するカテゴリを特定し
(ステップ12a)、続く後段で前段で特定されたカテ
ゴリに属する検索対象文書から類似文書を検索する(ス
テップ12b)という2段階の処理をおこなう。
【0030】上記ステップ12aにおける検索キー文書
カテゴリ特定処理を図13を用いて説明する。初めに文
書時間属性取得部3dを用いて検索キー文書に含まれる
時間属性を取得し、その情報を文書時間属性格納バッフ
ァ4cに格納する(ステップ13a)。図10中におい
て「検索キー文書時間属性」と矢印で指示している時点
が、ステップ13aで得られた時間属性であり、時間軸
上のある一点を指示している。次に検索対象データベー
ス分割結果格納バッファ4dに格納されている検索対象
データベースの分割結果と文書時間属性バッファ4cに
格納されている検索キー文書の時間属性を比較し、カテ
ゴリA、B、Cのそれぞれから検索キー文書が該当する
カテゴリを調べるために類似度算出を行なう検索対象文
書の範囲を決定する(13b)。図10では、検索キー
文書時間属性が示す時間を含む各カテゴリの該当文書範
囲は黒塗部分である。この黒塗部分を含め各範囲はそれ
ぞれ上記設定値の件数(1000件)になっている。仮
にカテゴリの特定に必要な最低文書数を1000件と
し、単純に時間軸で区切った従来の手法の場合は、カテ
ゴリCの黒塗部分の期間に相当する範囲をカテゴリA、
Bの検索対象文書範囲にする必要があった。その場合、
カテゴリAにおいては、10000件の検索対象文書数
となり、本実施例と比較すると実に10倍のボリューム
となる。つまり従来の手法によれば、カテゴリの特定の
ために必要以上の類似度算出動作を実行していたことに
なる。
【0031】ステップ13bの処理が終わると、ステッ
プ13Cにおいて未処理カテゴリの有無を判別し、未処
理カテゴリがあればステップ13dへ進む。ステップ1
3dでは未処理カテゴリに対し、検索キー文書とステッ
プ13bで決定された検索対象文書群との類似度を算出
し、類似度格納バッファ4aに格納する。検索対象文書
群との類似度の算出を行なうにはさまざまな方法がある
が、本実施例ではソフトウェアの処理を軽くするために
簡便な方法を採用する。つまり、検索キー文書とステッ
プ13bで決定された検索対象文書群の各検索対象文書
との類似度を、類似度算出部3bを用いてベクトル空間
法を用いて算出した後、得られた各類似度の平均値を全
体の類似度とする。尚類似度算出部3bが類似度算出す
るに際し、カテゴリ内同義語同一視処理部3fの作用に
よりカテゴリ別同義語辞書5bに含まれる同義語を同一
単語とみなすため、時代の変遷等により生じる単語の変
化を吸収することになる。たとえばカテゴリCが電子計
算機に関するカテゴリであったとすると、「電算機」
「電子計算機」「計算機」「コンピューター」「コンピ
ュータ」が同一の単語として扱われ、類似度が算出され
る。このようなカテゴリ内同義語同一視処理部3bの処
理により、次のような効果がある。つまりカテゴリCの
ような単位時間当たりの検索対象文書数が比較的少なく
上記設定値の検索対象文書数が揃うのに何年もかかるよ
うなカテゴリと、カテゴリAのように単位時間当たりの
検索対象文書数が多く上記設定値の検索対象文書数が短
期間に揃うカテゴリとで、期間の違いにより生じる用語
変遷が文書同士の類似度の精度に悪影響を及ぼすことを
防止することができる。
【0032】ステップ13Cにおいて未処理カテゴリが
無いとを判断すると、各カテゴリにおける検索キー文書
との類似度(つまりカテゴリ内検索対象文書群の類似度
の平均値)の最大のものを検索キー文書のカテゴリであ
ると特定し、特定カテゴリ格納バッファ4bへそのカテ
ゴリ名を格納する(ステップ13e)。格納が終了する
と、サブルーチンを終了して、コール元の図12のフロ
ーへリターンし、後段の特定カテゴリ類似文書抽出処理
(ステップ12b)へ進む。
【0033】特定カテゴリ類似文書抽出処理を図14を
用いて詳細に説明する。
【0034】初めに特定カテゴリ格納バッファ4bから
検索キー文書が属するカテゴリの情報を取得し、検索文
書対象データベース5aの中でこのカテゴリに属する検
索対象文書を全て取得する(ステップ14a)。仮にカ
テゴリBに特定されているとすれば、カテゴリBに属す
る検索対象文書全てが対象となる。次に未処理検索対象
文書の有無を判別し(ステップ14b)、未処理検索対
象文書があれば、ステップ14cへ進む。ステップ14
cでは、検索キー文書と未処理の検索対象文書との類似
度を類似度算出手段3bを用いて算出し、結果を類似度
格納バッファ4aに格納する(ステップ14c)。文書
を示す文書IDと類似度とは対にして格納される。
【0035】ステップ14bにおいて全ての検索対象文
書に対する類似度算出が終了したと判別したら、類似度
格納バッファ4aに格納されたデータを類似度で降順に
ソートする(ステップ14d)。このソート処理によ
り、類似度格納バッファ4aは類似度の高い順に文書I
Dが並ぶことになる。ここで降順にソートされた文書の
内、類似文書とする範囲の決め方は種々あり、所定順位
までとする方法や類似度の所定閾値以上とする方法等が
ある。これらの内、どの方法を採用するかは検索の目的
により適宜選択されるべきであり、本実施例では、特に
高類似度の文書のみを抽出したい場合を想定して、所定
閾値以上の類似度を持つものを類似文書と判断し、表示
処理部3bを用いて表示装置1cに表示出力するともの
とする(ステップ14e)。このようにして表示処理が
終わると、本サブルーチンは終了し、コール元の図12
のフローへリターンする。そして図12のサブルーチン
もこれで終了となり、コール元の図6のフローへリター
ンし、ステップ6cへ進むことになる。
【0036】このように検索キー文書のカテゴリを特定
するに際し、どのカテゴリについても設定された所望の
件数で類似度を算出することができ、検索対象期間を絞
りながらもカテゴリ特定の精度低下を防止し、検索処理
速度の向上を図ることができる。
【0037】なお、本発明の類似文書検索装置は、その
主旨を逸脱しない範囲であれば、上記の実施例に限定さ
れるものではない。例えば特許分野における引用文献の
検索の他、一般的なパーソナルコンピュータ等における
ファイル管理など、検索を必要とする技術一般に広く適
用できるものである。
【0038】また、上述した実施形態において記載した
中で、特にプログラム部2aに格納されて用いられるプ
ログラムは、例えば磁気ディスク(フロッピー(登録商
標)ディスク、ハードディスク等)、光ディスク(CD
−ROM、DVD等)、半導体メモリなどの記憶媒体に
書き込んで各種装置に適用したり、通信媒体により伝送
して各種装置に適用することも可能である。本装置を実
現するコンピュータは、記録媒体に記録されたプログラ
ムを読み込み、このプログラムによって動作が制御され
ることにより、上述した処理を実行する。
【0039】
【発明の効果】以上詳述したように本発明によれば、カ
テゴリ毎に、且つ各々を時系列に所定件数ずつに分割し
て、検索キー文書の時間情報が示す時間を含む上記各カ
テゴリ内の、分割された所定件数ずつの検索対象文書か
ら検索キー文書が属するカテゴリを特定し、このカテゴ
リに含まれる検索対象文書から検索キー文書に類似する
文書を抽出するので、検索キー文書の時間情報に対応す
る各カテゴリの分割範囲にはカテゴリ特定に十分な所定
件数の文書が存在することになり、検索対象期間を絞り
ながらもカテゴリ特定の精度の低下を抑え、検索処理速
度の向上を図ることができる。
【0040】さらに本発明の類似文書検索装置では、上
記に加えカテゴリ別に同義語情報を格納しカテゴリを決
定するに際しこの同義語情報に従いカテゴリ毎の同義語
を同一単語とみなして検索キー文書との類似度を算出す
るため、各カテゴリの時間軸における長短により生じる
使用単語の変遷にも対応することができる。
【図面の簡単な説明】
【図1】本発明の類似文書検索装置の実施形態の構成を
示すブロック図
【図2】本実施形態の類似文書検索装置の制御装置の内
部機能を示すブロック図
【図3】本実施形態の制御装置内部のプログラム部を示
すブロック図
【図4】本実施形態の制御装置内部のバッファ部を示す
ブロック図
【図5】本実施形態の外部記憶装置の記憶内容を示すブ
ロック図
【図6】本実施形態の類似文書検索処理を示すフローチ
ャート
【図7】検索対象データベース分割処理を示すフローチ
ャート
【図8】検索キー文書及び検索対象文書に含まれる情報
を示す図
【図9】検索対象データベース分割結果のデータ例を示
す図
【図10】検索対象データベース分割結果を模式的に示
す図
【図11】検索キー文書入力処理を示すフローチャート
【図12】類似文書検索処理を示すフローチャート
【図13】検索キー文書カテゴリ特定処理を示すフロー
チャート
【図14】特定カテゴリ類似文書抽出処理を示すフロー
チャート
【符号の説明】
1a…制御装置 1c…メモリ 1e…外部記憶装置 2a…プログラム部 2b…バッファ部 3d…文書時間属性取得部 3e…検索対象データベース分割処理部 3f…カテゴリ内同義語同一視処理部 4b…特定カテゴリ格納バッファ 4c…文書時間属性格納バッファ 4d…検索対象データベース分割結果格納バッファ 4f…一時変数格納バッファ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中本 幸夫 東京都青梅市新町3丁目3番地の1 東芝 コンピュータエンジニアリング株式会社内 (72)発明者 仁科 卓哉 東京都青梅市新町3丁目3番地の1 東芝 コンピュータエンジニアリング株式会社内 (72)発明者 山崎 弘 東京都青梅市新町3丁目3番地の1 東芝 コンピュータエンジニアリング株式会社内 (72)発明者 松隈 剛 東京都青梅市新町3丁目3番地の1 東芝 コンピュータエンジニアリング株式会社内 Fターム(参考) 5B075 ND03 NK35 NK46 PP02 PP03 PQ02 PR06 QM08 QP03

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】複数の検索対象文書を、カテゴリ毎に、且
    つ各々を時系列に所定件数ずつに分割して格納する記憶
    手段と、時間情報を有する検索キー文書を入力する入力
    手段と、この入力手段にて入力された検索キー文書の時
    間情報に基づき、この時間情報が示す時間を含む上記各
    カテゴリ内の、分割された所定件数ずつの検索対象文書
    を決定する決定手段と、この決定手段にて決定された各
    検索対象文書と検索キー文書との類似度に基づいて検索
    キー文書が属するカテゴリを特定する特定手段と、この
    特定手段にて特定されたカテゴリに含まれる検索対象文
    書を対象として、検索キー文書に類似する文書を抽出す
    る手段と、を具備することを特徴とする類似文書検索装
    置。
  2. 【請求項2】カテゴリ情報及び時間情報を有する複数の
    検索対象文書を格納する記憶手段と、この記憶手段に記
    憶された複数の検索対象文書を、カテゴリ毎に、且つ各
    々を時系列に所定件数ずつに分割する分割手段と、時間
    情報を有する検索キー文書を入力する入力手段と、この
    入力手段にて入力された検索キー文書の時間情報に基づ
    き、この時間情報が示す時間を含む上記各カテゴリ内
    の、上記分割手段にて分割された所定件数ずつの検索対
    象文書を決定する決定手段と、この決定手段にて決定さ
    れた各検索対象文書と検索キー文書との類似度に基づい
    て検索キー文書が属するカテゴリを特定する特定手段
    と、この特定手段にて特定されたカテゴリに含まれ、上
    記決定手段にて決定された以外の検索対象文書をも対象
    として、検索キー文書に類似する文書を抽出する手段
    と、を具備することを特徴とする類似文書検索装置。
  3. 【請求項3】複数の検索対象文書を、カテゴリ毎に、且
    つ各々を時系列に所定件数ずつに分割して格納する第1
    の記憶手段と、カテゴリ別に同義語情報を格納する第2
    の記憶手段と、時間情報を有する検索キー文書を入力す
    る入力手段と、この入力手段にて入力された検索キー文
    書の時間情報に基づき、この時間情報が示す時間を含む
    上記各カテゴリ内の、分割された所定件数ずつの検索対
    象文書を決定する決定手段と、この決定手段にて決定さ
    れた各検索対象文書を、上記第2の記憶手段に記憶され
    た同義語情報に従いカテゴリ毎の同義語を同一単語とみ
    なして、検索キー文書との類似度を算出し、検索キー文
    書が属するカテゴリを特定する特定手段と、この特定手
    段にて特定されたカテゴリに含まれる検索対象文書を対
    象として、検索キー文書に類似する文書を抽出する手段
    と、を具備することを特徴とする類似文書検索装置。
  4. 【請求項4】カテゴリ毎に、且つ各々を時系列に所定件
    数ずつ複数の検索対象文書を格納した記憶装置の中から
    文書を検索する類似文書検索方法において、時間情報を
    有する検索キー文書を入力し、この入力された検索キー
    文書の時間情報に基づき、この時間情報が示す時間を含
    む上記各カテゴリ内の、分割された所定件数ずつの検索
    対象文書を決定し、この決定された各検索対象文書と検
    索キー文書との類似度に基づいて検索キー文書が属する
    カテゴリを特定し、この特定されたカテゴリに含まれる
    検索対象文書を対象として、検索キー文書に類似する文
    書を抽出することを特徴とする類似文書検索方法。
  5. 【請求項5】カテゴリ情報及び時間情報を有する複数の
    検索対象文書を格納した記憶装置の中から文書を検索す
    る類似文書検索方法において、上記記憶装置に記憶され
    た複数の検索対象文書を、カテゴリ毎に、且つ各々を時
    系列に所定件数ずつに分割し、時間情報を有する検索キ
    ー文書を入力し、この入力された検索キー文書の時間情
    報に基づき、上記各カテゴリ内の上記分割された内のい
    ずれかの範囲に含まれる所定件数ずつの検索対象文書を
    決定し、この決定された各検索対象文書と検索キー文書
    との類似度に基づいて検索キー文書が属するカテゴリを
    特定し、この特定されたカテゴリに含まれ、上記検索キ
    ー文書の時間情報に対応する以外の検索対象文書をも対
    象として、検索キー文書に類似する文書を抽出すること
    を特徴とする類似文書検索方法。
  6. 【請求項6】カテゴリ毎に、且つ各々を時系列に所定件
    数ずつ複数の検索対象文書とカテゴリ別の同義語情報と
    を格納した記憶装置の中から文書を検索する類似文書検
    索方法において、時間情報を有する検索キー文書を入力
    し、この入力された検索キー文書の時間情報に基づき、
    この時間情報が示す時間を含む上記各カテゴリ内の、分
    割された所定件数ずつの検索対象文書を決定し、この決
    定された各検索対象文書を、上記同義語情報に従いカテ
    ゴリ毎の同義語を同一単語とみなして、検索キー文書と
    の類似度を算出することにより検索キー文書が属するカ
    テゴリを特定し、この特定されたカテゴリに含まれる検
    索対象文書を対象として、検索キー文書に類似する文書
    を抽出することを特徴とする類似文書検索方法。
  7. 【請求項7】複数の検索対象文書を、カテゴリ毎に、且
    つ各々を時系列に所定件数ずつに分割して格納した記憶
    装置を備えたコンピュータに、時間情報を有する検索キ
    ー文書を入力する機能と、この入力された検索キー文書
    の時間情報に基づき、この時間情報が示す時間を含む上
    記各カテゴリ内の、分割された所定件数ずつの検索対象
    文書を決定する機能と、この決定された各検索対象文書
    と検索キー文書との類似度に基づいて検索キー文書が属
    するカテゴリを特定する機能と、この特定されたカテゴ
    リに含まれる検索対象文書を対象として、検索キー文書
    に類似する文書を抽出する機能と、を実行させるプログ
    ラムを記録したコンピュータ読取り可能な記録媒体。
  8. 【請求項8】カテゴリ情報及び時間情報を有する複数の
    検索対象文書を格納した記憶装置を備えたコンピュータ
    に、上記記憶装置に記憶された複数の検索対象文書を、
    カテゴリ毎に、且つ各々を時系列に所定件数ずつに分割
    する機能と、時間情報を有する検索キー文書を入力する
    機能と、この入力された検索キー文書の時間情報に基づ
    き、上記各カテゴリ内の上記分割された内のいずれかの
    範囲に含まれる所定件数ずつ検索対象文書を決定する機
    能と、この決定された各検索対象文書と検索キー文書と
    の類似度に基づいて検索キー文書が属するカテゴリを特
    定する機能と、この特定されたカテゴリに含まれ、上記
    検索キー文書の時間情報に対応する以外の検索対象文書
    をも対象として、検索キー文書に類似する文書を抽出す
    る機能と、を実行させるプログラムを記録したコンピュ
    ータ読取り可能な記録媒体。
  9. 【請求項9】カテゴリ毎に、且つ各々を時系列に所定件
    数ずつ複数の検索対象文書とカテゴリ別の同義語情報と
    格納した記憶装置を備えたコンピュータに、時間情報を
    有する検索キー文書を入力する機能と、この入力された
    検索キー文書の時間情報に基づき、この時間情報が示す
    時間を含む上記各カテゴリ内の、分割された所定件数ず
    つの検索対象文書を決定する機能と、この決定された各
    検索対象文書を、上記同義語情報に従いカテゴリ毎の同
    義語を同一単語とみなして、検索キー文書との類似度を
    算出することにより検索キー文書が属するカテゴリを特
    定する機能と、この特定されたカテゴリに含まれる検索
    対象文書を対象として、検索キー文書に類似する文書を
    抽出する機能と、を実行させるプログラムを記録したコ
    ンピュータ読取り可能な記録媒体。
JP2000183953A 2000-06-20 2000-06-20 類似文書検索装置、類似文書検索方法及び記録媒体 Pending JP2002007468A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000183953A JP2002007468A (ja) 2000-06-20 2000-06-20 類似文書検索装置、類似文書検索方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000183953A JP2002007468A (ja) 2000-06-20 2000-06-20 類似文書検索装置、類似文書検索方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2002007468A true JP2002007468A (ja) 2002-01-11

Family

ID=18684453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000183953A Pending JP2002007468A (ja) 2000-06-20 2000-06-20 類似文書検索装置、類似文書検索方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP2002007468A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113984A (ja) * 2004-10-18 2006-04-27 Sony Corp 情報提供システム,メタデータ収集解析サーバ,およびコンピュータプログラム
JP2009301447A (ja) * 2008-06-17 2009-12-24 Nec Corp 情報処理装置
JP2017068742A (ja) * 2015-10-01 2017-04-06 日本電信電話株式会社 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
WO2020004186A1 (ja) * 2018-06-25 2020-01-02 日本電信電話株式会社 情報検索装置、方法、及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113984A (ja) * 2004-10-18 2006-04-27 Sony Corp 情報提供システム,メタデータ収集解析サーバ,およびコンピュータプログラム
JP4661159B2 (ja) * 2004-10-18 2011-03-30 ソニー株式会社 情報提供システム,メタデータ収集解析サーバ,およびコンピュータプログラム
JP2009301447A (ja) * 2008-06-17 2009-12-24 Nec Corp 情報処理装置
JP2017068742A (ja) * 2015-10-01 2017-04-06 日本電信電話株式会社 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
WO2020004186A1 (ja) * 2018-06-25 2020-01-02 日本電信電話株式会社 情報検索装置、方法、及びプログラム

Similar Documents

Publication Publication Date Title
US6556986B2 (en) Database management method of invoking a function retrieving index type definition, cataloging particular index which has not yet been supported by a database system
US6604097B2 (en) Method, system, and program for using control data structures when performing operations with respect to a database
JP2001075969A (ja) 画像管理検索装置、画像管理検索方法及び記憶媒体
US20060106856A1 (en) Method and system for dynamic transform and load of data from a data source defined by metadata into a data store defined by metadata
CN117235226A (zh) 一种基于大语言模型的问题应答方法及装置
CN111858728A (zh) 不同数据源的数据抽取方法、装置、设备及存储介质
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
CN117688163A (zh) 基于指令微调和检索增强生成的在线智能问答方法及装置
JP2007299021A (ja) インデクス更新方法及びそのシステム
US11841841B2 (en) Stand in tables
JP2002007468A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP7256357B2 (ja) 情報処理装置、制御方法、プログラム
CN114676155A (zh) 代码提示信息的确定方法、数据集的确定方法及电子设备
CN113609841A (zh) 一种主题词生成模型的训练方法及计算设备
JP2001147923A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
CN112417131A (zh) 信息推荐方法和装置
CN115408491B (zh) 一种历史数据的文本检索方法及系统
JP2002132789A (ja) 文書検索方法
JP2831837B2 (ja) 文書検索装置
CN110019993B (zh) 一种基于海量标准文献数据的排序优化算法技术实现方法
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
CN117971873A (zh) 一种生成结构化查询语言sql的方法、装置及电子设备
JPH11338864A (ja) 学習機能付き検索装置
JP2003006214A (ja) 文書検索処理方法及び装置並びに記憶媒体

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050428

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606