JP2003345824A - 文書検索装置及び文書検索方法、文書検索プログラム - Google Patents
文書検索装置及び文書検索方法、文書検索プログラムInfo
- Publication number
- JP2003345824A JP2003345824A JP2002156686A JP2002156686A JP2003345824A JP 2003345824 A JP2003345824 A JP 2003345824A JP 2002156686 A JP2002156686 A JP 2002156686A JP 2002156686 A JP2002156686 A JP 2002156686A JP 2003345824 A JP2003345824 A JP 2003345824A
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- document
- words
- synonym
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 文書検索において、検索キーに関連する文書
について、検索時のもれや、ノイズを少なく検索する。 【解決手段】 検索キー文書に含まれる単語について、
シソーラス辞書6を用い、その単語の直系の上位語、直
系の下位語を展開する。検索対象文書についてはシソー
ラス辞書6を用いた単語の展開を行わない。
について、検索時のもれや、ノイズを少なく検索する。 【解決手段】 検索キー文書に含まれる単語について、
シソーラス辞書6を用い、その単語の直系の上位語、直
系の下位語を展開する。検索対象文書についてはシソー
ラス辞書6を用いた単語の展開を行わない。
Description
【0001】
【発明の属する技術分野】この発明は、文書検索に係わ
り、特に、シソーラス辞書を用いた文書検索装置及び文
書検索方法、文書検索プログラムに関する。
り、特に、シソーラス辞書を用いた文書検索装置及び文
書検索方法、文書検索プログラムに関する。
【0002】
【従来の技術】コンピュータに代表される情報処理装置
の処理速度の向上や、取り扱うデータ量の増加により、
情報処理装置の文書管理への応用が進められている。文
書管理への応用において特に、多数の文書の中からユー
ザが望む内容を有する文書を検索する、といった文書検
索に関する技術は、管理する文書の数量が増える程、重
要なものになっている。
の処理速度の向上や、取り扱うデータ量の増加により、
情報処理装置の文書管理への応用が進められている。文
書管理への応用において特に、多数の文書の中からユー
ザが望む内容を有する文書を検索する、といった文書検
索に関する技術は、管理する文書の数量が増える程、重
要なものになっている。
【0003】文書検索には、著者名や表題などの各種イ
ンデックスを用いた検索の他に、ユーザが所定の文書を
キー文書として入力し、このキー文書と類似した文書を
複数の検索対象文書から抽出するという類似文書検索が
ある。この類似文書検索は検索キーとなるキー文書から
取得された単語と、検索対象文書から取得された単語と
を比較し、検索キー文書と検索対象文書の類似度を算出
して、類似度の高いものを類似文書として検索対象文書
から抽出する。
ンデックスを用いた検索の他に、ユーザが所定の文書を
キー文書として入力し、このキー文書と類似した文書を
複数の検索対象文書から抽出するという類似文書検索が
ある。この類似文書検索は検索キーとなるキー文書から
取得された単語と、検索対象文書から取得された単語と
を比較し、検索キー文書と検索対象文書の類似度を算出
して、類似度の高いものを類似文書として検索対象文書
から抽出する。
【0004】この類似度の算出方法として、これまでキ
ー文書と検索対象文書から取得された単語の取得数や取
得場所(文書中の表題部、抄録部等)等をもとにベクト
ル空間法を用いて算出する方法等がある。ベクトル空間
法を用いた類似度算出を行う検索装置の例として、特開
平9−288675号公報に開示された検索装置があ
る。
ー文書と検索対象文書から取得された単語の取得数や取
得場所(文書中の表題部、抄録部等)等をもとにベクト
ル空間法を用いて算出する方法等がある。ベクトル空間
法を用いた類似度算出を行う検索装置の例として、特開
平9−288675号公報に開示された検索装置があ
る。
【0005】類似度の算出にあたっては、単語の比較が
重要になるが、この比較に際して、シソーラス辞書を用
いることにより、意味が類似していても表記が異なる単
語を含んだ文書が検索からもれることを防ぐことができ
るようになった。このシソーラス辞書は、各単語につい
て、その意味や分類が共通するものについて、類義語の
群としてまとめたものである。類義語の群においても、
上位概念となる単語から下位概念となる単語まで、階層
構造としてまとめている。このシソーラス辞書を用い
て、キー文書や検索対象文書に含まれる単語を展開し、
単語の類義語を含めた検索を行うことが可能となる。
重要になるが、この比較に際して、シソーラス辞書を用
いることにより、意味が類似していても表記が異なる単
語を含んだ文書が検索からもれることを防ぐことができ
るようになった。このシソーラス辞書は、各単語につい
て、その意味や分類が共通するものについて、類義語の
群としてまとめたものである。類義語の群においても、
上位概念となる単語から下位概念となる単語まで、階層
構造としてまとめている。このシソーラス辞書を用い
て、キー文書や検索対象文書に含まれる単語を展開し、
単語の類義語を含めた検索を行うことが可能となる。
【0006】このようにすると、検索のもれを減らすこ
とは可能となるが、シソーラス辞書に含まれる類義語を
制限無く使用すると、ノイズとなる文書についても類似
する文書として検索結果に含めてしまう可能性がある。
とは可能となるが、シソーラス辞書に含まれる類義語を
制限無く使用すると、ノイズとなる文書についても類似
する文書として検索結果に含めてしまう可能性がある。
【0007】
【発明が解決しようとする課題】上述したように、文書
検索においてキー文書と関連のある文書のもれを少なく
し、かつノイズとなる不要文書を減らすことは困難であ
った。本発明は、シソーラス辞書を利用し、検索もれと
ノイズを減らすことができる文書検索装置及び文書検索
方法、文書検索プログラムを提供することを目的とす
る。
検索においてキー文書と関連のある文書のもれを少なく
し、かつノイズとなる不要文書を減らすことは困難であ
った。本発明は、シソーラス辞書を利用し、検索もれと
ノイズを減らすことができる文書検索装置及び文書検索
方法、文書検索プログラムを提供することを目的とす
る。
【0008】
【課題を解決するための手段】この発明は、検索キーを
用いて検索対象文書から文書を検索する文書検索装置で
あって、前記検索対象文書の中から検索対象単語を取得
する検索対象単語取得手段と、前記検索キーから検索に
用いる単語を取得する検索キー単語取得手段と、所定単
語の上位語や下位語を格納したシソーラス辞書と、前記
検索キー単語取得手段により取得された単語と前記シソ
ーラス辞書に基づき、上位語については前記取得された
単語の上位方向のみに取得動作を行い、下位語について
は前記取得された単語の下位方向のみに取得動作を行っ
て類義語を取得する類義語取得手段と、前記検索キー単
語取得手段により得られた単語と前記類義語取得手段に
より得られた類義語と、前記検索対象単語取得手段によ
り得られた単語に基づき、前記検索キー文書と前記検索
対象文書の間の類似度を求める類似度算出手段と、前記
類似度算出手段により算出された類似度に基づき、検索
結果を出力する出力手段とを具備することを特徴とす
る。
用いて検索対象文書から文書を検索する文書検索装置で
あって、前記検索対象文書の中から検索対象単語を取得
する検索対象単語取得手段と、前記検索キーから検索に
用いる単語を取得する検索キー単語取得手段と、所定単
語の上位語や下位語を格納したシソーラス辞書と、前記
検索キー単語取得手段により取得された単語と前記シソ
ーラス辞書に基づき、上位語については前記取得された
単語の上位方向のみに取得動作を行い、下位語について
は前記取得された単語の下位方向のみに取得動作を行っ
て類義語を取得する類義語取得手段と、前記検索キー単
語取得手段により得られた単語と前記類義語取得手段に
より得られた類義語と、前記検索対象単語取得手段によ
り得られた単語に基づき、前記検索キー文書と前記検索
対象文書の間の類似度を求める類似度算出手段と、前記
類似度算出手段により算出された類似度に基づき、検索
結果を出力する出力手段とを具備することを特徴とす
る。
【0009】このような構成によれば、文書検索におい
て検索もれとノイズを減らすことが可能となる。
て検索もれとノイズを減らすことが可能となる。
【0010】また、この発明は、検索キーを用いて検索
対象文書から文書を検索する文書検索装置であって、前
記検索対象文書から検索対象単語を取得する検索対象単
語取得手段と、前記検索キーから検索に用いる単語を取
得する検索キー単語取得手段と、所定単語の上位語や下
位語を階層別に格納したシソーラス辞書と、前記検索キ
ー単語取得手段により取得された単語と前記シソーラス
辞書に基づき、上位語については前記取得された単語の
上位方向に取得を行い、下位語については前記取得され
た単語の下位方向に取得を行って類義語を取得する類義
語取得手段と、前記取得動作を行う階層数を入力する入
力手段と、前記検索キー単語取得手段が取得した単語
と、前記入力手段からの入力に応じ、前記類義語取得手
段が取得した類義語と前記検索対象単語取得手段が取得
した単語に基づき、前記検索キー文書と前記検索対象文
書の間の類似度を求める類似度算出手段と、前記類似度
算出手段により算出された類似度に基づき、検索結果を
出力する出力手段とを具備することを特徴とする。
対象文書から文書を検索する文書検索装置であって、前
記検索対象文書から検索対象単語を取得する検索対象単
語取得手段と、前記検索キーから検索に用いる単語を取
得する検索キー単語取得手段と、所定単語の上位語や下
位語を階層別に格納したシソーラス辞書と、前記検索キ
ー単語取得手段により取得された単語と前記シソーラス
辞書に基づき、上位語については前記取得された単語の
上位方向に取得を行い、下位語については前記取得され
た単語の下位方向に取得を行って類義語を取得する類義
語取得手段と、前記取得動作を行う階層数を入力する入
力手段と、前記検索キー単語取得手段が取得した単語
と、前記入力手段からの入力に応じ、前記類義語取得手
段が取得した類義語と前記検索対象単語取得手段が取得
した単語に基づき、前記検索キー文書と前記検索対象文
書の間の類似度を求める類似度算出手段と、前記類似度
算出手段により算出された類似度に基づき、検索結果を
出力する出力手段とを具備することを特徴とする。
【0011】このような構成によれば、文書検索におい
て検索もれとノイズを減らすことが可能となる。
て検索もれとノイズを減らすことが可能となる。
【0012】また、この発明は、検索キー及び、所定単
語の上位語や下位語を格納したシソーラス辞書とを用い
て検索対象文書から文書を検索する文書検索方法であっ
て、前記検索キーから検索に用いる単語を取得する検索
キー単語取得ステップと、前記検索対象文書から検索対
象単語を取得する検索対象単語取得ステップと、前記検
索キー単語取得ステップにより取得された単語と前記シ
ソーラス辞書に基づき、上位語については前記取得され
た単語の上位方向のみに取得動作を行い、下位語につい
ては前記取得された単語の下位方向のみに取得動作を行
って類義語を取得する類義語取得ステップと、前記検索
キー単語取得ステップにより得られた単語と前記類義語
取得ステップにより得られた類義語と、前記検索対象単
語取得ステップにより得られた単語に基づき、前記検索
キー文書と前記検索対象文書の間の類似度を求める類似
度算出ステップと、前記類似度算出ステップにより算出
された類似度に基づき、検索結果を出力する出力ステッ
プとを具備することを特徴とする。
語の上位語や下位語を格納したシソーラス辞書とを用い
て検索対象文書から文書を検索する文書検索方法であっ
て、前記検索キーから検索に用いる単語を取得する検索
キー単語取得ステップと、前記検索対象文書から検索対
象単語を取得する検索対象単語取得ステップと、前記検
索キー単語取得ステップにより取得された単語と前記シ
ソーラス辞書に基づき、上位語については前記取得され
た単語の上位方向のみに取得動作を行い、下位語につい
ては前記取得された単語の下位方向のみに取得動作を行
って類義語を取得する類義語取得ステップと、前記検索
キー単語取得ステップにより得られた単語と前記類義語
取得ステップにより得られた類義語と、前記検索対象単
語取得ステップにより得られた単語に基づき、前記検索
キー文書と前記検索対象文書の間の類似度を求める類似
度算出ステップと、前記類似度算出ステップにより算出
された類似度に基づき、検索結果を出力する出力ステッ
プとを具備することを特徴とする。
【0013】このような構成によれば、文書検索におい
て検索もれとノイズを減らすことが可能となる。
て検索もれとノイズを減らすことが可能となる。
【0014】また、この発明は、検索キー及び所定単語
の上位語や下位語を階層別に格納したシソーラス辞書と
を用いて検索対象文書から文書を検索する文書検索方法
であって、前記検索キーから検索に用いる単語を取得す
る検索キー単語取得ステップと、前記検索対象文書の中
から検索対象単語を取得する検索対象単語取得ステップ
と、前記検索キー単語取得ステップにより取得された単
語の類義語を取得するため、取得動作を行う階層数を入
力する入力ステップと、前記検索キー単語取得ステップ
により取得された単語と前記シソーラス辞書に基づき、
前記入力ステップで入力された階層数の範囲内で、上位
語については前記取得された単語の上位方向に取得を行
い、下位語については前記取得された単語の下位方向に
取得を行って類義語を取得する類義語取得ステップと、
前記検索キー単語取得ステップで取得した単語と、前記
入力ステップで入力された階層数に応じて前記類義語取
得ステップで取得した類義語と、前記検索対象単語取得
ステップで取得した単語に基づき、前記検索キー文書と
前記検索対象文書の間の類似度を求める類似度算出ステ
ップと、前記類似度算出ステップにより算出された類似
度に基づき、検索結果を出力する出力ステップとを具備
することを特徴とする。
の上位語や下位語を階層別に格納したシソーラス辞書と
を用いて検索対象文書から文書を検索する文書検索方法
であって、前記検索キーから検索に用いる単語を取得す
る検索キー単語取得ステップと、前記検索対象文書の中
から検索対象単語を取得する検索対象単語取得ステップ
と、前記検索キー単語取得ステップにより取得された単
語の類義語を取得するため、取得動作を行う階層数を入
力する入力ステップと、前記検索キー単語取得ステップ
により取得された単語と前記シソーラス辞書に基づき、
前記入力ステップで入力された階層数の範囲内で、上位
語については前記取得された単語の上位方向に取得を行
い、下位語については前記取得された単語の下位方向に
取得を行って類義語を取得する類義語取得ステップと、
前記検索キー単語取得ステップで取得した単語と、前記
入力ステップで入力された階層数に応じて前記類義語取
得ステップで取得した類義語と、前記検索対象単語取得
ステップで取得した単語に基づき、前記検索キー文書と
前記検索対象文書の間の類似度を求める類似度算出ステ
ップと、前記類似度算出ステップにより算出された類似
度に基づき、検索結果を出力する出力ステップとを具備
することを特徴とする。
【0015】このような構成によれば、文書検索におい
て検索もれとノイズを減らすことが可能となる。
て検索もれとノイズを減らすことが可能となる。
【0016】
【発明の実施の形態】以下、図面を参照して本発明の各
実施形態について以下の通り説明する。図1は、本発明
の実施形態の一つである検索装置の構成を示すブロック
図である。CPU、メモリから構成される制御装置1、
キーボードなどの入力装置2、類似検索結果などを表示
する表示装置3、検索データや、IDが付与された検索
対象文書などを格納する外部記憶装置4、単語の情報が
格納される形態素解析辞書5、類義語等、シソーラスの
情報が格納されるシソーラス辞書6から構成される。
実施形態について以下の通り説明する。図1は、本発明
の実施形態の一つである検索装置の構成を示すブロック
図である。CPU、メモリから構成される制御装置1、
キーボードなどの入力装置2、類似検索結果などを表示
する表示装置3、検索データや、IDが付与された検索
対象文書などを格納する外部記憶装置4、単語の情報が
格納される形態素解析辞書5、類義語等、シソーラスの
情報が格納されるシソーラス辞書6から構成される。
【0017】図2は、上述の制御装置1の詳細構成例を
示した図である。制御装置は制御部とメモリ部からなっ
ている。制御部は各種制御や処理を実行する部分で、メ
イン処理部200、初期化部201、入力部202、出
力部203、検索対象文書読み出し部204、検索対象
文書単語取得部205、検索キー文書入力部206、検
索キー単語取得部207、検索条件設定部208、上位
語取得部209、下位語取得部210、検索対象文書絞
り込み部211、類似度算出部212、ソート部21
3、検索結果出力部214から構成される。また、メモ
リ部は、検索条件設定バッファ部230、検索対象文書
格納バッファ部231、検索対象単語情報格納バッファ
部232、検索キー文書格納バッファ部233、検索キ
ー単語情報格納バッファ部234、上位語情報格納バッ
ファ部235、下位語情報格納バッファ部236、文書
絞り込み結果格納バッファ部237、類似度格納バッフ
ァ部238、ソート結果格納バッファ部239、検索結
果出力バッファ部240、作業バッファ部241から構
成される。
示した図である。制御装置は制御部とメモリ部からなっ
ている。制御部は各種制御や処理を実行する部分で、メ
イン処理部200、初期化部201、入力部202、出
力部203、検索対象文書読み出し部204、検索対象
文書単語取得部205、検索キー文書入力部206、検
索キー単語取得部207、検索条件設定部208、上位
語取得部209、下位語取得部210、検索対象文書絞
り込み部211、類似度算出部212、ソート部21
3、検索結果出力部214から構成される。また、メモ
リ部は、検索条件設定バッファ部230、検索対象文書
格納バッファ部231、検索対象単語情報格納バッファ
部232、検索キー文書格納バッファ部233、検索キ
ー単語情報格納バッファ部234、上位語情報格納バッ
ファ部235、下位語情報格納バッファ部236、文書
絞り込み結果格納バッファ部237、類似度格納バッフ
ァ部238、ソート結果格納バッファ部239、検索結
果出力バッファ部240、作業バッファ部241から構
成される。
【0018】初期化部201は、文書検索を開始するに
あたって、各バッファ部の初期化を行う。入力部202
は、入力装置2からユーザによって、検索キー文書の設
定や、各種設定、表示装置3への出力結果に対する回答
の入力制御を行う。出力部203は、入力部202が行
った検索キー文書や各種設定の入力内容を表示装置3に
出力する。
あたって、各バッファ部の初期化を行う。入力部202
は、入力装置2からユーザによって、検索キー文書の設
定や、各種設定、表示装置3への出力結果に対する回答
の入力制御を行う。出力部203は、入力部202が行
った検索キー文書や各種設定の入力内容を表示装置3に
出力する。
【0019】検索対象文書読み出し部204は、外部記
憶装置4に格納されている文書に関する情報を文書デー
タベース化するために、対象の文書を外部記憶装置4か
ら読み込み、そのテキスト文書情報を検索対象文書格納
バッファ部231に格納する。
憶装置4に格納されている文書に関する情報を文書デー
タベース化するために、対象の文書を外部記憶装置4か
ら読み込み、そのテキスト文書情報を検索対象文書格納
バッファ部231に格納する。
【0020】検索対象文書単語取得部205は、検索対
象文書格納バッファ部231に格納されているテキスト
文書情報の単語切りを行う。そして、その文書あるいは
項目の内容を表す上でキーとなる単語を取得し、取得さ
れた単語種を検索対象単語情報格納バッファ部232に
格納する。単語切りは、形態素解析辞書5に格納された
単語情報に基づいた形態素解析を用いて行う。なお、形
態素解析により取得される情報は、各単語の見出し、品
詞情報(例えば「名詞」や「サ変名詞」など)、代表語
などが含まれる。
象文書格納バッファ部231に格納されているテキスト
文書情報の単語切りを行う。そして、その文書あるいは
項目の内容を表す上でキーとなる単語を取得し、取得さ
れた単語種を検索対象単語情報格納バッファ部232に
格納する。単語切りは、形態素解析辞書5に格納された
単語情報に基づいた形態素解析を用いて行う。なお、形
態素解析により取得される情報は、各単語の見出し、品
詞情報(例えば「名詞」や「サ変名詞」など)、代表語
などが含まれる。
【0021】検索キー文書入力部206は、入力装置2
から入力された検索キー文書のテキスト情報を検索キー
文書格納バッファ部233に格納する。
から入力された検索キー文書のテキスト情報を検索キー
文書格納バッファ部233に格納する。
【0022】検索キー単語取得部207は、検索キー文
書格納バッファ部233に格納されているテキスト文書
情報の単語切りを行う。そして、その文書の内容を表す
上でキーとなる単語を取得し、取得された単語種を検索
キー単語情報格納バッファ部234に格納する。単語切
りは、上述の検索対象文書における単語切りと同様に、
形態素解析辞書5に格納された単語情報に基づいた形態
素解析を用いて行う。なお、形態素解析により取得され
る情報は、各単語の見出し、品詞情報(例えば「名詞」
や「サ変名詞」など)、代表語などが含まれる。
書格納バッファ部233に格納されているテキスト文書
情報の単語切りを行う。そして、その文書の内容を表す
上でキーとなる単語を取得し、取得された単語種を検索
キー単語情報格納バッファ部234に格納する。単語切
りは、上述の検索対象文書における単語切りと同様に、
形態素解析辞書5に格納された単語情報に基づいた形態
素解析を用いて行う。なお、形態素解析により取得され
る情報は、各単語の見出し、品詞情報(例えば「名詞」
や「サ変名詞」など)、代表語などが含まれる。
【0023】検索条件設定部208は、入力部202に
より、文書を絞り込む際の閾値の指定を行い、検索条件
の設定内容を検索条件設定バッファ部230に格納す
る。
より、文書を絞り込む際の閾値の指定を行い、検索条件
の設定内容を検索条件設定バッファ部230に格納す
る。
【0024】上位語取得部209は、検索キー単語情報
格納バッファ部234に格納された単語情報の上位語を
シソーラス辞書6から取得し、上位語情報格納バッファ
部235に格納する。
格納バッファ部234に格納された単語情報の上位語を
シソーラス辞書6から取得し、上位語情報格納バッファ
部235に格納する。
【0025】下位語取得部210は、検索キー単語情報
格納バッファ部234に格納された単語情報の下位語を
シソーラス辞書6から取得し、下位語情報格納バッファ
部236に格納する。
格納バッファ部234に格納された単語情報の下位語を
シソーラス辞書6から取得し、下位語情報格納バッファ
部236に格納する。
【0026】検索対象文書絞り込み部211は、検索キ
ー単語情報格納バッファ部234と検索対象単語情報格
納バッファ部232と上位語情報格納バッファ235に
それぞれ格納された単語情報から、後述するように検索
キー文書と検索対象文書の類似度を計り、検索対象文書
と検索キー文書の類似度が検索条件設定バッファ230
に指定された条件に合致する検索対象文書の文書情報
(例えば、文書ID)を文書絞り込み結果格納バッファ
部237に格納する。
ー単語情報格納バッファ部234と検索対象単語情報格
納バッファ部232と上位語情報格納バッファ235に
それぞれ格納された単語情報から、後述するように検索
キー文書と検索対象文書の類似度を計り、検索対象文書
と検索キー文書の類似度が検索条件設定バッファ230
に指定された条件に合致する検索対象文書の文書情報
(例えば、文書ID)を文書絞り込み結果格納バッファ
部237に格納する。
【0027】類似度算出部212は、検索キー単語情報
格納バッファ部234と検索対象単語情報格納バッファ
部232と上位語情報格納バッファ部235と下位語情
報格納バッファ部236にそれぞれ格納された単語情報
から、後述するように検索キー文書と文書絞り込み結果
格納バッファ部237に格納された検索対象文書の類似
度を計り、その類似度値を類似度格納バッファ部238
に格納する。
格納バッファ部234と検索対象単語情報格納バッファ
部232と上位語情報格納バッファ部235と下位語情
報格納バッファ部236にそれぞれ格納された単語情報
から、後述するように検索キー文書と文書絞り込み結果
格納バッファ部237に格納された検索対象文書の類似
度を計り、その類似度値を類似度格納バッファ部238
に格納する。
【0028】ソート部213は、類似度格納バッファ部
238に格納された類似度を元に、降順にソートを行
い、ソートを行った結果の文書情報(例えば、文書I
D)をソート結果格納バッファ部239に格納する。
238に格納された類似度を元に、降順にソートを行
い、ソートを行った結果の文書情報(例えば、文書I
D)をソート結果格納バッファ部239に格納する。
【0029】検索結果出力部214は、ソート結果格納
バッファ部239に格納されている類似度によりソート
済みの検索対象文書の情報(例えば、文書IDや類似
度)を検索結果出力バッファ部240に格納する。そし
て、検索結果出力バッファ部240の内容を表示装置3
に出力する。
バッファ部239に格納されている類似度によりソート
済みの検索対象文書の情報(例えば、文書IDや類似
度)を検索結果出力バッファ部240に格納する。そし
て、検索結果出力バッファ部240の内容を表示装置3
に出力する。
【0030】次に本発明の第一の実施形態である検索装
置の動作について図3のフローチャート図を参照して以
下の通り説明する。まず、ユーザの起動指示により、初
期化部201が起動してメモリ部のクリアなどの初期化
処理を行う(ステップ300)。続いて検索条件設定部
208が起動し、ユーザに第一の検索処理における検索
対象文書を絞り込むための条件(類似度による閾値な
ど)の入力を促す。ユーザはここで検索条件を入力装置
から入力する。入力した内容は検索条件設定バッファ部
230に格納される(ステップ301)。本実施例で
は、検索キー文書と検索対象文書の類似度を求め、その
類似度を文書の絞込条件に使用することとする。例え
ば、図4のように、「絞り込み閾値(類似度)= 0.
2」と設定されているとする。第一の検索処理で実行さ
れた類似度計算で、類似度が0.2に満たないものは絞
り込みの対象として、切り捨てられることを意味する。
この値を大きくするのは、絞り込みの条件を厳しくする
ことに相当し、この値を小さくするのは、絞り込みの条
件を緩くすることに相当する。
置の動作について図3のフローチャート図を参照して以
下の通り説明する。まず、ユーザの起動指示により、初
期化部201が起動してメモリ部のクリアなどの初期化
処理を行う(ステップ300)。続いて検索条件設定部
208が起動し、ユーザに第一の検索処理における検索
対象文書を絞り込むための条件(類似度による閾値な
ど)の入力を促す。ユーザはここで検索条件を入力装置
から入力する。入力した内容は検索条件設定バッファ部
230に格納される(ステップ301)。本実施例で
は、検索キー文書と検索対象文書の類似度を求め、その
類似度を文書の絞込条件に使用することとする。例え
ば、図4のように、「絞り込み閾値(類似度)= 0.
2」と設定されているとする。第一の検索処理で実行さ
れた類似度計算で、類似度が0.2に満たないものは絞
り込みの対象として、切り捨てられることを意味する。
この値を大きくするのは、絞り込みの条件を厳しくする
ことに相当し、この値を小さくするのは、絞り込みの条
件を緩くすることに相当する。
【0031】続いて、検索キー文書入力部206が起動
し、入力装置2より類似文書検索のキーとなる文書を読
み込み、検索キー文書格納バッファ部233へと格納す
る(ステップ302)。
し、入力装置2より類似文書検索のキーとなる文書を読
み込み、検索キー文書格納バッファ部233へと格納す
る(ステップ302)。
【0032】続いて、検索キー単語取得部207が起動
し、検索キー文書格納バッファ部233へ格納された文
書から、文章を切り出す。検索キー単語取得部207は
切り出した文章を更に形態素解析などにより単語毎に分
割し、取得した単語情報を検索キー単語情報格納バッフ
ァ部234へと格納する(ステップ303)。
し、検索キー文書格納バッファ部233へ格納された文
書から、文章を切り出す。検索キー単語取得部207は
切り出した文章を更に形態素解析などにより単語毎に分
割し、取得した単語情報を検索キー単語情報格納バッフ
ァ部234へと格納する(ステップ303)。
【0033】続いて、上位語取得部209が起動し、検
索キー単語情報格納バッファ部234に格納されている
単語の最上位語の取得を行う。この最上位語の取得には
シソーラス辞書6を用いる。取得された最上位語は上位
語情報格納バッファ部235へと格納される(ステップ
304)。
索キー単語情報格納バッファ部234に格納されている
単語の最上位語の取得を行う。この最上位語の取得には
シソーラス辞書6を用いる。取得された最上位語は上位
語情報格納バッファ部235へと格納される(ステップ
304)。
【0034】シソーラス辞書6の内容について、図5の
ような文書及び図6のようなシソーラス辞書を例に、以
下の通り説明する。シソーラス辞書とは、所定の分野ご
とに、その分野に関係する類義語を、グループとしてま
とめ、さらに類義語の間の上位概念・下位概念の関係を
階層として反映させた辞書である。この辞書は予め人が
作成する。図5に示したような文書に含まれた「肉料
理」という単語は図6に示した「料理」というグループ
に含まれている。このグループはシソーラス辞書の一部
を形成するものである。
ような文書及び図6のようなシソーラス辞書を例に、以
下の通り説明する。シソーラス辞書とは、所定の分野ご
とに、その分野に関係する類義語を、グループとしてま
とめ、さらに類義語の間の上位概念・下位概念の関係を
階層として反映させた辞書である。この辞書は予め人が
作成する。図5に示したような文書に含まれた「肉料
理」という単語は図6に示した「料理」というグループ
に含まれている。このグループはシソーラス辞書の一部
を形成するものである。
【0035】料理グループのシソーラス辞書には、「料
理」、「鍋料理」、「肉料理」、「鳥料理」、「湯豆
腐」、「石狩鍋」、「すき焼き」、「ステーキ」、「焼
き鳥」等の単語が含まれ、この例では上位概念・下位概
念の関係は3階層に分類されている。図6は例として挙
げているので、少数の単語しか含まれていないが、実際
には一つのグループについて数千語単位の単語が含まれ
ている。
理」、「鍋料理」、「肉料理」、「鳥料理」、「湯豆
腐」、「石狩鍋」、「すき焼き」、「ステーキ」、「焼
き鳥」等の単語が含まれ、この例では上位概念・下位概
念の関係は3階層に分類されている。図6は例として挙
げているので、少数の単語しか含まれていないが、実際
には一つのグループについて数千語単位の単語が含まれ
ている。
【0036】図6の例では、最上位の単語は「料理」で
あり、その直近の下位概念として「鍋料理」、「肉料
理」、「鳥料理」といった単語があり、更にその下位概
念として「湯豆腐」、「石狩鍋」、「すき焼き」、「ス
テーキ」、「焼き鳥」といった単語がある。料理のグル
ープでの例を説明したが、一般にはシソーラス辞書の概
念による階層数は5から6程度に収まることが多い。
あり、その直近の下位概念として「鍋料理」、「肉料
理」、「鳥料理」といった単語があり、更にその下位概
念として「湯豆腐」、「石狩鍋」、「すき焼き」、「ス
テーキ」、「焼き鳥」といった単語がある。料理のグル
ープでの例を説明したが、一般にはシソーラス辞書の概
念による階層数は5から6程度に収まることが多い。
【0037】図5のような文書及び図6のようなシソー
ラス辞書であった場合、ステップ303及びステップ3
04実行後の検索キー単語情報格納バッファ部234及
び上位語情報格納バッファ部235の内容は、図7のよ
うになる。ここで行われた上位語の取得は料理グループ
の単語「肉料理」に関するものであるが、同様に「使
う」、「道具」といった単語についての処理も並行して
行って構わない。本実施形態の説明では理解を助けるた
め、料理グループでの検索を中心に説明する。
ラス辞書であった場合、ステップ303及びステップ3
04実行後の検索キー単語情報格納バッファ部234及
び上位語情報格納バッファ部235の内容は、図7のよ
うになる。ここで行われた上位語の取得は料理グループ
の単語「肉料理」に関するものであるが、同様に「使
う」、「道具」といった単語についての処理も並行して
行って構わない。本実施形態の説明では理解を助けるた
め、料理グループでの検索を中心に説明する。
【0038】以下に説明するステップ306〜ステップ
311は、外部記憶装置4のデータベース(DB)に保
存されている文書について処理が終了するまで繰り返し
実行される(ステップ305)。
311は、外部記憶装置4のデータベース(DB)に保
存されている文書について処理が終了するまで繰り返し
実行される(ステップ305)。
【0039】検索対象文書読み出し部204が起動し、
外部記憶装置4から検索対象文書を読み出し、検索対象
文書格納バッファ部231へ格納する(ステップ30
6)。
外部記憶装置4から検索対象文書を読み出し、検索対象
文書格納バッファ部231へ格納する(ステップ30
6)。
【0040】続いて、検索対象文書単語取得部205が
起動し、検索対象文書格納バッファ部231に格納され
た文書から、形態素解析などにて切り出し・取得された
単語情報を検索対象単語情報格納バッファ部232へと
格納する(ステップ307)。
起動し、検索対象文書格納バッファ部231に格納され
た文書から、形態素解析などにて切り出し・取得された
単語情報を検索対象単語情報格納バッファ部232へと
格納する(ステップ307)。
【0041】続いて、上位語取得部209が起動し、検
索対象単語情報格納バッファ部232に格納されている
単語の最上位語の取得を行う。最上位語の取得にはシソ
ーラス辞書6を用いる。取得された最上位語は上位語情
報格納バッファ部235へと格納される(ステップ30
8)。この上位語情報格納バッファ部235内では、後
の処理で混乱しないように、検索キー文書に含まれた単
語の上位語と検索対象文書に含まれた単語の上位語とは
区別して格納する。
索対象単語情報格納バッファ部232に格納されている
単語の最上位語の取得を行う。最上位語の取得にはシソ
ーラス辞書6を用いる。取得された最上位語は上位語情
報格納バッファ部235へと格納される(ステップ30
8)。この上位語情報格納バッファ部235内では、後
の処理で混乱しないように、検索キー文書に含まれた単
語の上位語と検索対象文書に含まれた単語の上位語とは
区別して格納する。
【0042】例えば、図8に示した文書A及び文書Bに
対して、図6のようなシソーラス辞書を用いた場合、ス
テップ307及びステップ308実行後の検索対象単語
情報格納バッファ部232及び上位語情報格納バッファ
部235の内容は、図9のようになる。
対して、図6のようなシソーラス辞書を用いた場合、ス
テップ307及びステップ308実行後の検索対象単語
情報格納バッファ部232及び上位語情報格納バッファ
部235の内容は、図9のようになる。
【0043】ステップ304やステップ308におい
て、最上位語を取得することで、文書の分類として適切
な範囲のものを検索できるので、一次検索としてもれの
少ない検索を行うことが可能となる。
て、最上位語を取得することで、文書の分類として適切
な範囲のものを検索できるので、一次検索としてもれの
少ない検索を行うことが可能となる。
【0044】続いて、検索対象文書絞り込み部211が
起動し、検索対象文書の絞り込みを行う。絞り込みは、
検索キー単語情報格納バッファ部234と検索対象単語
情報格納バッファ部232と上位語情報格納バッファ部
235とを用いて、類似度計算を行う(ステップ30
9)。この類似度計算は、検索対象文書に含まれた単語
及びその上位語と、検索キー文書に含まれた単語及びそ
の上位語のうち、一致した単語数を、検索キー文書の単
語数で除算することで実行される。
起動し、検索対象文書の絞り込みを行う。絞り込みは、
検索キー単語情報格納バッファ部234と検索対象単語
情報格納バッファ部232と上位語情報格納バッファ部
235とを用いて、類似度計算を行う(ステップ30
9)。この類似度計算は、検索対象文書に含まれた単語
及びその上位語と、検索キー文書に含まれた単語及びそ
の上位語のうち、一致した単語数を、検索キー文書の単
語数で除算することで実行される。
【0045】図10を参照して類似度計算の例について
説明する。図10では、図5に示した検索キー文書「肉
料理で使う道具」と図8に示した検索対象文書A「鍋料
理で使う土鍋」、検索対象文書B「焼き鳥で使う網」と
の間の類似度の計算を行っている。上述したように、本
説明においては、「料理」グループの単語に関する処理
を中心に行っているので、「道具」「土鍋」「網」等の
「道具」に関するグループのシソーラス処理は行ってい
ない。
説明する。図10では、図5に示した検索キー文書「肉
料理で使う道具」と図8に示した検索対象文書A「鍋料
理で使う土鍋」、検索対象文書B「焼き鳥で使う網」と
の間の類似度の計算を行っている。上述したように、本
説明においては、「料理」グループの単語に関する処理
を中心に行っているので、「道具」「土鍋」「網」等の
「道具」に関するグループのシソーラス処理は行ってい
ない。
【0046】検索対象文書Aについては、文書中の単語
「使う」と、「鍋料理」の最上位語である「料理」とい
う単語が、検索キー文書中の単語「使う」と、「肉料
理」の上位語である「料理」という単語にそれぞれ一致
している。検索対象文書Aの総単語数は4であるため、
一致した単語数2を総単語数4で除算した商である0.
50が類似度となる。
「使う」と、「鍋料理」の最上位語である「料理」とい
う単語が、検索キー文書中の単語「使う」と、「肉料
理」の上位語である「料理」という単語にそれぞれ一致
している。検索対象文書Aの総単語数は4であるため、
一致した単語数2を総単語数4で除算した商である0.
50が類似度となる。
【0047】検索対象文書Bについても同様に、文書中
の単語「使う」と、「焼き鳥」の最上位語である「料
理」という単語が、検索キー文書中の単語「使う」と、
「肉料理」の上位語である「料理」という単語にそれぞ
れ一致している。検索対象文書Bの総単語数は4である
ため、一致した単語数2を総単語数4で除算した商であ
る0.50が類似度となる。
の単語「使う」と、「焼き鳥」の最上位語である「料
理」という単語が、検索キー文書中の単語「使う」と、
「肉料理」の上位語である「料理」という単語にそれぞ
れ一致している。検索対象文書Bの総単語数は4である
ため、一致した単語数2を総単語数4で除算した商であ
る0.50が類似度となる。
【0048】このようにして計算された類似度と、ステ
ップ301で入力し、検索条件設定バッファ230に格
納されている、文書の切り捨て対象となる類似度の閾値
を用いて、閾値に満たない文書は切り捨てを行い(ステ
ップ310)、閾値以上である文書の情報を文書絞り込
み結果格納バッファ237へ格納する(ステップ31
1)。本実施例では、文書絞り込み結果格納バッファ2
37へ文書のIDを格納し、後述する検索時に検索対象
文書を読み込むために用いる。
ップ301で入力し、検索条件設定バッファ230に格
納されている、文書の切り捨て対象となる類似度の閾値
を用いて、閾値に満たない文書は切り捨てを行い(ステ
ップ310)、閾値以上である文書の情報を文書絞り込
み結果格納バッファ237へ格納する(ステップ31
1)。本実施例では、文書絞り込み結果格納バッファ2
37へ文書のIDを格納し、後述する検索時に検索対象
文書を読み込むために用いる。
【0049】図11に文書絞り込み結果の格納例を示
す。類似度の高い順から文書IDとその検索キー文書に
対する類似度の値とを関連付けて格納している。ここま
でで一次検索が終了する。
す。類似度の高い順から文書IDとその検索キー文書に
対する類似度の値とを関連付けて格納している。ここま
でで一次検索が終了する。
【0050】続いて、ステップ312〜ステップ319
にて、検索キー単語の全ての上位語・下位語を取得す
る。検索キー単語情報格納バッファ部234に格納され
ている単語を、上位語の展開を行う対象の単語とする
(ステップ312)。ここで展開とは、所定の単語の上
位方向又は下位方向にシソーラス辞書中の関係がある単
語をたどって取得しようとする処理を指す。
にて、検索キー単語の全ての上位語・下位語を取得す
る。検索キー単語情報格納バッファ部234に格納され
ている単語を、上位語の展開を行う対象の単語とする
(ステップ312)。ここで展開とは、所定の単語の上
位方向又は下位方向にシソーラス辞書中の関係がある単
語をたどって取得しようとする処理を指す。
【0051】以下、ステップ314〜ステップ315
は、上位語の展開対象の単語に更に上位の単語情報が存
在しなくなるまで、繰り返し実行される(ステップ31
3)。
は、上位語の展開対象の単語に更に上位の単語情報が存
在しなくなるまで、繰り返し実行される(ステップ31
3)。
【0052】上位語取得部209が起動し、上位語展開
対象の単語の上位語を取得する。上位語の取得にはシソ
ーラス辞書6を用いる。取得された上位語は上位語情報
格納バッファ部235へと格納される(ステップ31
4)。上位語が取得されたならば、取得された上位語
を、次に上位語の展開を行う対象の単語とする(ステッ
プ315)。ここで、本実施形態の特徴として、上位方
向への展開の際には、上位方向のみに展開を進め、途中
で下位方向へ戻らないようにして、傍系となる単語を取
得しないようにする、ということが挙げられる。ここ
で、上位方向へのみの展開や下位方向へのみの展開で得
られた単語を直系の単語と称する。また、上位方向や下
位方向への展開を混在させて得られた単語を傍系の単語
と称する。
対象の単語の上位語を取得する。上位語の取得にはシソ
ーラス辞書6を用いる。取得された上位語は上位語情報
格納バッファ部235へと格納される(ステップ31
4)。上位語が取得されたならば、取得された上位語
を、次に上位語の展開を行う対象の単語とする(ステッ
プ315)。ここで、本実施形態の特徴として、上位方
向への展開の際には、上位方向のみに展開を進め、途中
で下位方向へ戻らないようにして、傍系となる単語を取
得しないようにする、ということが挙げられる。ここ
で、上位方向へのみの展開や下位方向へのみの展開で得
られた単語を直系の単語と称する。また、上位方向や下
位方向への展開を混在させて得られた単語を傍系の単語
と称する。
【0053】また、検索キー単語情報格納バッファ部2
34に格納されている単語を、下位語の展開を行う対象
の単語とする(ステップ316)。
34に格納されている単語を、下位語の展開を行う対象
の単語とする(ステップ316)。
【0054】以下、ステップ318〜ステップ319
は、下位語の展開対象の単語に下位の単語情報が存在し
なくなるまで、繰り返し実行される(ステップ31
7)。
は、下位語の展開対象の単語に下位の単語情報が存在し
なくなるまで、繰り返し実行される(ステップ31
7)。
【0055】下位語取得部210が起動し、下位語展開
対象の単語の下位語を取得する。下位語の取得にはシソ
ーラス辞書6を用いる。取得された下位語は下位語情報
格納バッファ部236へと格納される(ステップ31
8)。下位語が取得されたならば、取得された下位語
を、次に下位語の展開を行う対象の単語とする(ステッ
プ319)。上位方向への展開と同様、本実施形態の特
徴として、下位方向への展開の際には、下位方向のみに
展開を進め、途中で上位方向へ戻らないようにして、傍
系の単語を使用しないようにする、ということが挙げら
れる。
対象の単語の下位語を取得する。下位語の取得にはシソ
ーラス辞書6を用いる。取得された下位語は下位語情報
格納バッファ部236へと格納される(ステップ31
8)。下位語が取得されたならば、取得された下位語
を、次に下位語の展開を行う対象の単語とする(ステッ
プ319)。上位方向への展開と同様、本実施形態の特
徴として、下位方向への展開の際には、下位方向のみに
展開を進め、途中で上位方向へ戻らないようにして、傍
系の単語を使用しないようにする、ということが挙げら
れる。
【0056】例えば、図5のような文書及び図6のよう
なシソーラス辞書であった場合、ステップ312〜ステ
ップ319実行後の検索キー単語情報格納バッファ部2
34及び上位語情報格納バッファ部235、下位語情報
格納バッファ部236の内容は、図12のようになる。
なシソーラス辞書であった場合、ステップ312〜ステ
ップ319実行後の検索キー単語情報格納バッファ部2
34及び上位語情報格納バッファ部235、下位語情報
格納バッファ部236の内容は、図12のようになる。
【0057】「肉料理」という単語に対して、この上位
語である「料理」を取得する。取得した「料理」という
単語にはそれ以上の上位語はないため、上位語の展開は
ここで終了する。続いて、「肉料理」の下位語の取得を
行う。「肉料理」の下位語として、「ステーキ」、「す
き焼き」、「焼き鳥」といった単語を取得する。これら
の単語にはそれ以上の下位語はないため、下位語の展開
はここで終了する。上述のように、下位語の展開は下位
方向のみに行うので、「すき焼き」から更に「鍋料理」
へ展開し、「鍋料理」の下位語である「湯豆腐」を取得
することはない。
語である「料理」を取得する。取得した「料理」という
単語にはそれ以上の上位語はないため、上位語の展開は
ここで終了する。続いて、「肉料理」の下位語の取得を
行う。「肉料理」の下位語として、「ステーキ」、「す
き焼き」、「焼き鳥」といった単語を取得する。これら
の単語にはそれ以上の下位語はないため、下位語の展開
はここで終了する。上述のように、下位語の展開は下位
方向のみに行うので、「すき焼き」から更に「鍋料理」
へ展開し、「鍋料理」の下位語である「湯豆腐」を取得
することはない。
【0058】続いて、ステップ311にて抽出された、
所定の値以上の類似度を有する文書の情報を文書絞り込
み結果格納バッファ237より抽出する(ステップ32
0)。抽出する情報は文書のIDである。
所定の値以上の類似度を有する文書の情報を文書絞り込
み結果格納バッファ237より抽出する(ステップ32
0)。抽出する情報は文書のIDである。
【0059】以下、ステップ322〜ステップ324
は、ステップ320にて抽出された文書のID分、繰り
返し実行される(ステップ321)。
は、ステップ320にて抽出された文書のID分、繰り
返し実行される(ステップ321)。
【0060】検索対象文書読み出し部204が起動し、
外部記憶装置4より検索対象文書を読み出し、検索対象
文書格納バッファ部231へ格納する(ステップ32
2)。
外部記憶装置4より検索対象文書を読み出し、検索対象
文書格納バッファ部231へ格納する(ステップ32
2)。
【0061】続いて、検索対象文書単語取得部205が
起動し、検索対象文書格納バッファ部231へ格納され
た文書より、形態素解析などにて切り出し・取得された
単語情報を検索対象単語情報格納バッファ部232へと
格納する(ステップ323)。
起動し、検索対象文書格納バッファ部231へ格納され
た文書より、形態素解析などにて切り出し・取得された
単語情報を検索対象単語情報格納バッファ部232へと
格納する(ステップ323)。
【0062】次に、類似度算出部212が起動し、検索
キー文書から取得された単語情報を格納する検索キー単
語情報格納バッファ部234と上位語情報格納バッファ
部235と下位語情報格納バッファ部236と、検索対
象文書から取得された単語情報を格納する検索対象単語
情報格納バッファ部232とを用いて、共通して出現す
る単語の数により類似度を算出し、その類似度値を類似
度格納バッファ部238に格納する(ステップ32
4)。検索対象文書の単語についてはシソーラス展開を
行わないことで、ノイズを抑えることが可能となる。
キー文書から取得された単語情報を格納する検索キー単
語情報格納バッファ部234と上位語情報格納バッファ
部235と下位語情報格納バッファ部236と、検索対
象文書から取得された単語情報を格納する検索対象単語
情報格納バッファ部232とを用いて、共通して出現す
る単語の数により類似度を算出し、その類似度値を類似
度格納バッファ部238に格納する(ステップ32
4)。検索対象文書の単語についてはシソーラス展開を
行わないことで、ノイズを抑えることが可能となる。
【0063】図13に類似度計算の具体例を示す。図5
に示した検索キー文書の例と、図8に示した検索対象文
書の例に基づく計算である。検索対象文書Aの類似度計
算において、検索キー文書に含まれる「肉料理」の上位
語である「料理」、下位語である「ステーキ」、「すき
焼き」、「焼き鳥」を含めて、類似度の計算を行う。検
索キー文書に関する単語数は7であり、そのうち検索対
象文書Aと一致する単語は「使う」の1語だけであるた
め、類似度は1を7で除算した商、0.14となる。検
索対象文書Bに関して同様の計算を行うと、検索キー文
書に関する単語数は7であり、そのうち検索対象文書B
と一致する単語は「焼き鳥」と「使う」の2語である。
このため、類似度は2を7で除算した商、0.28とな
る。
に示した検索キー文書の例と、図8に示した検索対象文
書の例に基づく計算である。検索対象文書Aの類似度計
算において、検索キー文書に含まれる「肉料理」の上位
語である「料理」、下位語である「ステーキ」、「すき
焼き」、「焼き鳥」を含めて、類似度の計算を行う。検
索キー文書に関する単語数は7であり、そのうち検索対
象文書Aと一致する単語は「使う」の1語だけであるた
め、類似度は1を7で除算した商、0.14となる。検
索対象文書Bに関して同様の計算を行うと、検索キー文
書に関する単語数は7であり、そのうち検索対象文書B
と一致する単語は「焼き鳥」と「使う」の2語である。
このため、類似度は2を7で除算した商、0.28とな
る。
【0064】全ての類似文書が抽出されたら、ソート部
213が起動し、ステップ317で抽出された類似度格
納バッファ部238の内容を類似度上位から下位へと降
順にソートを行う。ソートを行った結果はソート結果格
納バッファ部239へ格納される(ステップ325)。
213が起動し、ステップ317で抽出された類似度格
納バッファ部238の内容を類似度上位から下位へと降
順にソートを行う。ソートを行った結果はソート結果格
納バッファ部239へ格納される(ステップ325)。
【0065】続いて、検索結果出力部214が起動さ
れ、類似度格納バッファ部238に格納されている検索
対象文書毎の類似度から検索キーとする文書情報(例え
ば、文書ID)を、ソート結果格納バッファ部239に
格納されたソート結果順に検索結果出力バッファ部24
0に格納する。そして、検索結果出力バッファ部240
の内容を表示装置3に出力する(ステップ326)。図
14は出力結果の例である。このようにして第一の実施
形態の検索が終了する。
れ、類似度格納バッファ部238に格納されている検索
対象文書毎の類似度から検索キーとする文書情報(例え
ば、文書ID)を、ソート結果格納バッファ部239に
格納されたソート結果順に検索結果出力バッファ部24
0に格納する。そして、検索結果出力バッファ部240
の内容を表示装置3に出力する(ステップ326)。図
14は出力結果の例である。このようにして第一の実施
形態の検索が終了する。
【0066】この実施形態によれば、図8に示したよう
な、文書の指し示す目的や分野が似通っていても、共通
となる単語が存在しないか少ないために従来の類似文書
検索手段では、絞り込みによる除外の対象となる文書で
あっても、上位語を用いる事で文書の類似度を上げる事
が可能となり、一次検索において絞り込みによる除外の
対象から外す事が可能である。
な、文書の指し示す目的や分野が似通っていても、共通
となる単語が存在しないか少ないために従来の類似文書
検索手段では、絞り込みによる除外の対象となる文書で
あっても、上位語を用いる事で文書の類似度を上げる事
が可能となり、一次検索において絞り込みによる除外の
対象から外す事が可能である。
【0067】更に、上位語や下位語の使用により単語の
一致する文書が増大しても、ノイズとなる文書が含まれ
る可能性も減らすことが可能である。例えば、検索キー
文書側の取得単語と検索対象文書側の単語との表記レベ
ルを同等にするため(例えば最下位の下位語)、検索対
象文書から取得された単語についても、シソーラス辞書
を用いて上位語や下位語への展開処理を行う、という場
合を考える。図8のような文書および図6のようなシソ
ーラス辞書であった場合、上位語や下位語に展開した後
の、検索対象単語情報格納バッファ部232および上位
語情報格納バッファ部234、下位語情報格納バッファ
部235の内容は、図15のようになる。
一致する文書が増大しても、ノイズとなる文書が含まれ
る可能性も減らすことが可能である。例えば、検索キー
文書側の取得単語と検索対象文書側の単語との表記レベ
ルを同等にするため(例えば最下位の下位語)、検索対
象文書から取得された単語についても、シソーラス辞書
を用いて上位語や下位語への展開処理を行う、という場
合を考える。図8のような文書および図6のようなシソ
ーラス辞書であった場合、上位語や下位語に展開した後
の、検索対象単語情報格納バッファ部232および上位
語情報格納バッファ部234、下位語情報格納バッファ
部235の内容は、図15のようになる。
【0068】これは、文書Aに含まれる「鍋料理」の下
位語である「湯豆腐」、「石狩鍋」、「すき焼き」や、
「鍋料理」の上位語である「料理」も検索対象に含めて
いる。同様に、文書Bについても、「焼き鳥」の上位語
である「料理」、「鳥料理」を検索対象に含めている。
位語である「湯豆腐」、「石狩鍋」、「すき焼き」や、
「鍋料理」の上位語である「料理」も検索対象に含めて
いる。同様に、文書Bについても、「焼き鳥」の上位語
である「料理」、「鳥料理」を検索対象に含めている。
【0069】このように検索キー単語、検索対象単語双
方を上位および下位に展開した単語を用いて類似度算出
を行った場合、図16に示すように図8の文書Aと文書
Bとでは同順位として扱われてしまう。これは、文書A
における単語「すき焼き」が、「肉料理」からの直系の
単語ではなく、「鍋料理」に由来しているため、検索キ
ー文書から見ると、傍系の単語になる「鍋料理」が類似
の範囲として含まれてしまうために起こる。検索キー文
書に含まれる「肉料理」の直系の単語となる「焼き鳥」
が含まれている文書Bと、文書Aとが同じ類似度とされ
てしまう点に問題がある。
方を上位および下位に展開した単語を用いて類似度算出
を行った場合、図16に示すように図8の文書Aと文書
Bとでは同順位として扱われてしまう。これは、文書A
における単語「すき焼き」が、「肉料理」からの直系の
単語ではなく、「鍋料理」に由来しているため、検索キ
ー文書から見ると、傍系の単語になる「鍋料理」が類似
の範囲として含まれてしまうために起こる。検索キー文
書に含まれる「肉料理」の直系の単語となる「焼き鳥」
が含まれている文書Bと、文書Aとが同じ類似度とされ
てしまう点に問題がある。
【0070】本発明の第一の実施形態では、類似度算出
の際に、検索対象文書の取得単語について上位語や下位
語への展開を行わずに、検索キー文書の取得単語のみを
上位や下位へ展開し最上位から最下位までに含まれる全
ての単語を用いることで、図16に示したように、検索
キー文書から取得された単語の直系にあたる単語の類似
度を上げることが可能となる。結果、例えば図17に示
したように図8の文書AとBに順位差を付けることがで
き、より狭義に類似性の高い文書の類似度順位を上げる
事が可能となる。
の際に、検索対象文書の取得単語について上位語や下位
語への展開を行わずに、検索キー文書の取得単語のみを
上位や下位へ展開し最上位から最下位までに含まれる全
ての単語を用いることで、図16に示したように、検索
キー文書から取得された単語の直系にあたる単語の類似
度を上げることが可能となる。結果、例えば図17に示
したように図8の文書AとBに順位差を付けることがで
き、より狭義に類似性の高い文書の類似度順位を上げる
事が可能となる。
【0071】本発明の第二の実施形態について、図面を
参照して以下の通り説明する。第二の実施形態は上位語
・下位語を取得する階層の範囲を制限して、ノイズを減
らそうとするものである。
参照して以下の通り説明する。第二の実施形態は上位語
・下位語を取得する階層の範囲を制限して、ノイズを減
らそうとするものである。
【0072】本発明の第二の実施形態における検索装置
の構成はほぼ第一の実施形態と共通である。同じ番号の
要素については特に言及しない限り、同じ機能を実現す
るので、説明を略す。第二の実施形態の検索装置のブロ
ック構成図は図1の通りであり、第一の実施形態と共通
である。図18は制御装置1の詳細構成を示す図であ
り、単語取得階層判定部215、及び単語取得階層格納
バッファ部242以外の要素は第一の実施形態と共通で
ある。
の構成はほぼ第一の実施形態と共通である。同じ番号の
要素については特に言及しない限り、同じ機能を実現す
るので、説明を略す。第二の実施形態の検索装置のブロ
ック構成図は図1の通りであり、第一の実施形態と共通
である。図18は制御装置1の詳細構成を示す図であ
り、単語取得階層判定部215、及び単語取得階層格納
バッファ部242以外の要素は第一の実施形態と共通で
ある。
【0073】単語取得階層判定部215は、上位語及び
下位語がその展開のもととなる単語から何階層目に有る
かを調べ、単語取得階層格納バッファ部242に格納す
るという役割を果たす。
下位語がその展開のもととなる単語から何階層目に有る
かを調べ、単語取得階層格納バッファ部242に格納す
るという役割を果たす。
【0074】続いて第二の実施形態における検索装置の
動作について図19のフローチャート図を参照して以下
の通り説明する。まず、ユーザの起動指示により、初期
化部201が起動してメモリ部のクリアなどの初期化処
理を行う(ステップ2100)。続いて検索条件設定部
208が起動し、ユーザに第一の検索処理における検索
対象文書を絞り込むための条件である、類似度による閾
値や、上位語や下位語の展開階層数(展開レベル)の入
力を促す。ユーザはここで検索条件を入力装置から入力
する。入力した内容は検索条件設定バッファ部230に
格納される(ステップ2101)。本実施形態でも、検
索キー文書と検索対象文書の類似度を求め、その類似度
を文書の絞込条件に使用することとする。例えば、図2
0のように、「絞り込み閾値(類似度)= 0.2、上
位語の展開数=0、下位語の展開数=全て」と設定され
ているとする。第一の検索処理で実行された類似度計算
で、類似度が0.2に満たないものは絞り込みの対象と
して切り捨てられ、後述する上位語の展開処理で検索キ
ー単語を基準にした階層の展開数を0段目まで、つま
り、上位語の取得は行わず下位語の展開処理では、シソ
ーラス辞書に登録されている全ての下位語を取得するこ
とを意味する。
動作について図19のフローチャート図を参照して以下
の通り説明する。まず、ユーザの起動指示により、初期
化部201が起動してメモリ部のクリアなどの初期化処
理を行う(ステップ2100)。続いて検索条件設定部
208が起動し、ユーザに第一の検索処理における検索
対象文書を絞り込むための条件である、類似度による閾
値や、上位語や下位語の展開階層数(展開レベル)の入
力を促す。ユーザはここで検索条件を入力装置から入力
する。入力した内容は検索条件設定バッファ部230に
格納される(ステップ2101)。本実施形態でも、検
索キー文書と検索対象文書の類似度を求め、その類似度
を文書の絞込条件に使用することとする。例えば、図2
0のように、「絞り込み閾値(類似度)= 0.2、上
位語の展開数=0、下位語の展開数=全て」と設定され
ているとする。第一の検索処理で実行された類似度計算
で、類似度が0.2に満たないものは絞り込みの対象と
して切り捨てられ、後述する上位語の展開処理で検索キ
ー単語を基準にした階層の展開数を0段目まで、つま
り、上位語の取得は行わず下位語の展開処理では、シソ
ーラス辞書に登録されている全ての下位語を取得するこ
とを意味する。
【0075】続いて、検索キー文書入力部206が起動
し、入力装置2より類似文書検索のキーとなる文書を読
み込み、検索キー文書格納バッファ部233へと格納す
る(ステップ2102)。
し、入力装置2より類似文書検索のキーとなる文書を読
み込み、検索キー文書格納バッファ部233へと格納す
る(ステップ2102)。
【0076】続いて、検索キー単語取得部207が起動
し、検索キー文書格納バッファ部233へ格納された文
書から、文章を切り出す。検索キー単語取得部207は
切り出した文章を更に形態素解析などにより単語毎に分
割し、取得した単語情報を検索キー単語情報格納バッフ
ァ部234へと格納する(ステップ2103)。
し、検索キー文書格納バッファ部233へ格納された文
書から、文章を切り出す。検索キー単語取得部207は
切り出した文章を更に形態素解析などにより単語毎に分
割し、取得した単語情報を検索キー単語情報格納バッフ
ァ部234へと格納する(ステップ2103)。
【0077】続いて、上位語取得部209が起動し、検
索キー単語情報格納バッファ部234に格納されている
単語の最上位語の取得を行う。この最上位語の取得には
シソーラス辞書6を用いる。取得された最上位語は上位
語情報格納バッファ部235へと格納される(ステップ
2104)。ここでシソーラス辞書の構成や最上位語の
取得動作等は第一の実施形態と共通である。
索キー単語情報格納バッファ部234に格納されている
単語の最上位語の取得を行う。この最上位語の取得には
シソーラス辞書6を用いる。取得された最上位語は上位
語情報格納バッファ部235へと格納される(ステップ
2104)。ここでシソーラス辞書の構成や最上位語の
取得動作等は第一の実施形態と共通である。
【0078】以下に説明するステップ2106〜ステッ
プ2111は、外部記憶装置4のデータベースに保存さ
れている文書の件数分だけ、繰り返し実行される(ステ
ップ2105)。
プ2111は、外部記憶装置4のデータベースに保存さ
れている文書の件数分だけ、繰り返し実行される(ステ
ップ2105)。
【0079】検索対象文書読み出し部204が起動し、
外部記憶装置4から検索対象文書を読み出し、検索対象
文書格納バッファ部231へ格納する(ステップ210
6)。
外部記憶装置4から検索対象文書を読み出し、検索対象
文書格納バッファ部231へ格納する(ステップ210
6)。
【0080】続いて、検索対象文書単語取得部205が
起動し、検索対象文書格納バッファ部231に格納され
た文書から、形態素解析などにて切り出し・取得された
単語情報を検索対象単語情報格納バッファ部232へと
格納する(ステップ2107)。
起動し、検索対象文書格納バッファ部231に格納され
た文書から、形態素解析などにて切り出し・取得された
単語情報を検索対象単語情報格納バッファ部232へと
格納する(ステップ2107)。
【0081】続いて、上位語取得部209が起動し、検
索対象単語情報格納バッファ部232に格納されている
単語の最上位語の取得を行う。最上位語の取得にはシソ
ーラス辞書6を用いる。取得された最上位語は上位語情
報格納バッファ部235へと格納される(ステップ21
08)。この上位語情報格納バッファ部235内では、
後の処理で混乱しないように、検索キー文書に含まれた
単語の上位語と検索対象文書に含まれた単語の上位語と
は区別して格納する。
索対象単語情報格納バッファ部232に格納されている
単語の最上位語の取得を行う。最上位語の取得にはシソ
ーラス辞書6を用いる。取得された最上位語は上位語情
報格納バッファ部235へと格納される(ステップ21
08)。この上位語情報格納バッファ部235内では、
後の処理で混乱しないように、検索キー文書に含まれた
単語の上位語と検索対象文書に含まれた単語の上位語と
は区別して格納する。
【0082】続いて、検索対象文書絞り込み部211が
起動し、検索対象文書の絞り込みを行う。絞り込みは、
検索キー単語情報格納バッファ部234と検索対象単語
情報格納バッファ部232と上位語情報格納バッファ部
235とを用いて、類似度計算を行う(ステップ210
9)。この類似度計算は、第一の実施形態と同様に、検
索対象文書に含まれた単語及びその上位語と、検索キー
文書に含まれた単語及びその上位語のうち、一致した単
語数を、検索キー文書の単語数で除算することで実行さ
れる。図10と同様の処理が行われる。
起動し、検索対象文書の絞り込みを行う。絞り込みは、
検索キー単語情報格納バッファ部234と検索対象単語
情報格納バッファ部232と上位語情報格納バッファ部
235とを用いて、類似度計算を行う(ステップ210
9)。この類似度計算は、第一の実施形態と同様に、検
索対象文書に含まれた単語及びその上位語と、検索キー
文書に含まれた単語及びその上位語のうち、一致した単
語数を、検索キー文書の単語数で除算することで実行さ
れる。図10と同様の処理が行われる。
【0083】このようにして計算された類似度と、ステ
ップ2101で入力し、検索条件設定バッファ230に
格納されている、文書の切り捨て対象となる類似度の閾
値を用いて、閾値に満たない文書は切り捨てを行い(ス
テップ2110)、閾値以上である文書の情報を文書絞
り込み結果格納バッファ237へ格納する(ステップ2
111)。本実施形態も、文書絞り込み結果格納バッフ
ァ237へ文書のIDを格納し、後述する検索時に検索
対象文書を読み込むために用いる。ここまでの一次検索
の処理は、検索条件の入力以外、第一の実施形態と共通
である。
ップ2101で入力し、検索条件設定バッファ230に
格納されている、文書の切り捨て対象となる類似度の閾
値を用いて、閾値に満たない文書は切り捨てを行い(ス
テップ2110)、閾値以上である文書の情報を文書絞
り込み結果格納バッファ237へ格納する(ステップ2
111)。本実施形態も、文書絞り込み結果格納バッフ
ァ237へ文書のIDを格納し、後述する検索時に検索
対象文書を読み込むために用いる。ここまでの一次検索
の処理は、検索条件の入力以外、第一の実施形態と共通
である。
【0084】続いて、ステップ2112〜ステップ21
25にて、検索キー単語の上位語・下位語を取得する。
第一の実施形態と異なるのは、検索キー単語の上位語・
下位語の取得にあたって、その階層に制限を設ける点で
ある。まず検索キー単語情報格納バッファ部234に格
納されている単語を、上位語の展開を行う対象の単語と
する(ステップ2112)。
25にて、検索キー単語の上位語・下位語を取得する。
第一の実施形態と異なるのは、検索キー単語の上位語・
下位語の取得にあたって、その階層に制限を設ける点で
ある。まず検索キー単語情報格納バッファ部234に格
納されている単語を、上位語の展開を行う対象の単語と
する(ステップ2112)。
【0085】上位語の取得に先立って、第二の実施形態
では単語取得階層格納バッファ部242の初期化を行
い、単語取得階層格納バッファ部242に設定される階
層数の値を0にする(ステップ2113)。
では単語取得階層格納バッファ部242の初期化を行
い、単語取得階層格納バッファ部242に設定される階
層数の値を0にする(ステップ2113)。
【0086】以下、ステップ2115〜ステップ211
8は、検索キー文書から切り出された各単語について、
上位語の展開が指定された階層に到達するか、展開対象
単語に上位語が存在しなくなるまで繰り返し実行される
(ステップ2114)。
8は、検索キー文書から切り出された各単語について、
上位語の展開が指定された階層に到達するか、展開対象
単語に上位語が存在しなくなるまで繰り返し実行される
(ステップ2114)。
【0087】上位語取得部209が起動し、上位語展開
対象の単語の上位語を取得する。上位語の取得にはシソ
ーラス辞書6を用いる。取得された上位語は上位語情報
格納バッファ部235へと格納される(ステップ211
5)。上位語が取得されたならば、取得された上位語
を、次に上位語の展開を行う対象の単語とする(ステッ
プ2116)。本実施形態においても、上位方向への展
開の際には、上位方向のみに展開を進め、途中で下位方
向へ戻らないようにして、傍系となる単語を取得しない
ようにする。このように上位語を取得するたびに、単語
取得階層格納バッファ部242に格納されている階層数
を1だけ加算する(ステップ2117)。ここで、単語
取得階層判定部215が、検索条件設定バッファ部23
0に格納された上位語の展開数と、単語取得階層格納バ
ッファ部242の階層数が一致したと判定した場合、上
位語の取得処理を終了する(ステップ2118)。な
お、上位語の展開階層数は0以上の任意の値を指定でき
るが、シソーラス辞書6の構成から、概念の階層数が全
体でも5から6程度であることが多いので、検索を試行
しつつ適切な値を設定することが好ましい。ここまでで
展開対象となる単語について、上位語の取得を実行して
おく。
対象の単語の上位語を取得する。上位語の取得にはシソ
ーラス辞書6を用いる。取得された上位語は上位語情報
格納バッファ部235へと格納される(ステップ211
5)。上位語が取得されたならば、取得された上位語
を、次に上位語の展開を行う対象の単語とする(ステッ
プ2116)。本実施形態においても、上位方向への展
開の際には、上位方向のみに展開を進め、途中で下位方
向へ戻らないようにして、傍系となる単語を取得しない
ようにする。このように上位語を取得するたびに、単語
取得階層格納バッファ部242に格納されている階層数
を1だけ加算する(ステップ2117)。ここで、単語
取得階層判定部215が、検索条件設定バッファ部23
0に格納された上位語の展開数と、単語取得階層格納バ
ッファ部242の階層数が一致したと判定した場合、上
位語の取得処理を終了する(ステップ2118)。な
お、上位語の展開階層数は0以上の任意の値を指定でき
るが、シソーラス辞書6の構成から、概念の階層数が全
体でも5から6程度であることが多いので、検索を試行
しつつ適切な値を設定することが好ましい。ここまでで
展開対象となる単語について、上位語の取得を実行して
おく。
【0088】続いて、検索キー単語情報格納バッファ部
234に格納されている単語を、下位語の展開を行う対
象の単語とする(ステップ2119)。下位語の取得に
先立って、単語取得階層格納バッファ部2037を初期
化する(ステップ2120)。以下、ステップ2122
〜ステップ2125は、検索キー文書から切り出された
各単語について、下位語の展開が指定された階層に到達
するか、展開対象単語に下位語が存在しなくなるまで繰
り返し実行される(ステップ2121)。
234に格納されている単語を、下位語の展開を行う対
象の単語とする(ステップ2119)。下位語の取得に
先立って、単語取得階層格納バッファ部2037を初期
化する(ステップ2120)。以下、ステップ2122
〜ステップ2125は、検索キー文書から切り出された
各単語について、下位語の展開が指定された階層に到達
するか、展開対象単語に下位語が存在しなくなるまで繰
り返し実行される(ステップ2121)。
【0089】下位語取得部210が起動し、下位語展開
対象の単語の下位語を取得する。下位語の取得にもシソ
ーラス辞書6を用いる。取得された下位語は下位語情報
格納バッファ部236へと格納される(ステップ212
2)。下位語が取得されたならば、取得された下位語
を、次に下位語の展開を行う対象の単語とする(ステッ
プ2123)。上位方向への展開と同様、下位方向への
展開の際も、下位方向のみに展開を進め、傍系の単語を
使用しないようにする、ということが挙げられる。
対象の単語の下位語を取得する。下位語の取得にもシソ
ーラス辞書6を用いる。取得された下位語は下位語情報
格納バッファ部236へと格納される(ステップ212
2)。下位語が取得されたならば、取得された下位語
を、次に下位語の展開を行う対象の単語とする(ステッ
プ2123)。上位方向への展開と同様、下位方向への
展開の際も、下位方向のみに展開を進め、傍系の単語を
使用しないようにする、ということが挙げられる。
【0090】下位語を取得するたびに、単語取得階層格
納バッファ部242に格納されている階層数を1つ加算
する(ステップ2124)。下位方向についても上位方
向と同様に数か大きいほどもとの単語から離れていると
する。ここで、単語取得階層判定部215が、検索条件
設定バッファ部230に格納された下位語の展開数が、
単語取得階層格納バッファ部242に格納された階層数
が一致したと判定した場合、下位語の取得処理を終了す
る(ステップ2125)。
納バッファ部242に格納されている階層数を1つ加算
する(ステップ2124)。下位方向についても上位方
向と同様に数か大きいほどもとの単語から離れていると
する。ここで、単語取得階層判定部215が、検索条件
設定バッファ部230に格納された下位語の展開数が、
単語取得階層格納バッファ部242に格納された階層数
が一致したと判定した場合、下位語の取得処理を終了す
る(ステップ2125)。
【0091】なお、下位語の展開階層数も0以上の任意
の値を指定できるが、シソーラス辞書6の構成から、概
念の階層数が全体でも5から6程度であることが多いの
で、検索を試行しつつ適切な値を設定することが好まし
い。
の値を指定できるが、シソーラス辞書6の構成から、概
念の階層数が全体でも5から6程度であることが多いの
で、検索を試行しつつ適切な値を設定することが好まし
い。
【0092】例えば、図5のような文書及び図6のよう
なシソーラス辞書であって、検索条件が図20に示した
ような条件であった場合、ステップ2112〜ステップ
2125実行後の検索キー単語情報格納バッファ部23
4及び上位語情報格納バッファ部235、下位語情報格
納バッファ部236の内容は、図21のようになる。下
位語については展開数を「全て」と設定していたので、
「肉料理」の下位語である「ステーキ」、「すき焼
き」、「焼き鳥」が格納される。また、上位語について
は、展開階層数を「0」としたため、取得が行われな
い。
なシソーラス辞書であって、検索条件が図20に示した
ような条件であった場合、ステップ2112〜ステップ
2125実行後の検索キー単語情報格納バッファ部23
4及び上位語情報格納バッファ部235、下位語情報格
納バッファ部236の内容は、図21のようになる。下
位語については展開数を「全て」と設定していたので、
「肉料理」の下位語である「ステーキ」、「すき焼
き」、「焼き鳥」が格納される。また、上位語について
は、展開階層数を「0」としたため、取得が行われな
い。
【0093】以下、ステップ2126からステップ21
32は第一の実施形態におけるステップ320からステ
ップ326までの操作と同じであるため、説明を略す。
32は第一の実施形態におけるステップ320からステ
ップ326までの操作と同じであるため、説明を略す。
【0094】図22に示すような検索対象文書を含めて
行った類似度計算の具体例を図23に示す。図5に示し
た検索キー文書の例と、図8に示した検索対象文書のう
ち検索対象文書B、図22に示した検索対象文書Cに基
づく計算である。検索対象文書Bの類似度計算におい
て、検索キー文書に含まれる「肉料理」の下位語である
「ステーキ」、「すき焼き」、「焼き鳥」を含めて、類
似度の計算を行う。検索キー文書に関する単語数は6で
あり、そのうち検索対象文書Bと一致する単語は「使
う」の1語だけであるため、類似度は1を6で除算した
商、0.17となる。検索対象文書Cに関して同様の計
算を行うと、検索キー文書に関する単語数は6であり、
そのうち検索対象文書Bと一致する単語は「焼き鳥」と
「使う」の2語である。このため、類似度は2を6で除
算した商、0.33となる。第一の実施形態と異なるの
は、上位語である「料理」が検索キー文書に関連する単
語に含まれていない点である。
行った類似度計算の具体例を図23に示す。図5に示し
た検索キー文書の例と、図8に示した検索対象文書のう
ち検索対象文書B、図22に示した検索対象文書Cに基
づく計算である。検索対象文書Bの類似度計算におい
て、検索キー文書に含まれる「肉料理」の下位語である
「ステーキ」、「すき焼き」、「焼き鳥」を含めて、類
似度の計算を行う。検索キー文書に関する単語数は6で
あり、そのうち検索対象文書Bと一致する単語は「使
う」の1語だけであるため、類似度は1を6で除算した
商、0.17となる。検索対象文書Cに関して同様の計
算を行うと、検索キー文書に関する単語数は6であり、
そのうち検索対象文書Bと一致する単語は「焼き鳥」と
「使う」の2語である。このため、類似度は2を6で除
算した商、0.33となる。第一の実施形態と異なるの
は、上位語である「料理」が検索キー文書に関連する単
語に含まれていない点である。
【0095】第一の実施形態のように、全ての上位語や
下位語を展開すると、図22で例に挙げた文書Cのよう
な広義の意味を持つ単語が記載されている文書も、図2
5で示すように狭義の意味を持つ単語が記載され、類似
性のある文書との差異が生じにくくなるという面があ
る。実際、このような検索を行うと、図26のような検
索結果となり、類似度の適切な評価がしにくくなる面が
ある。この第二の実施形態では、図20で示したように
ユーザが概念の展開階層数(レベル)について指定する
ことで、図21で例示したように上位語の生成を抑える
ことが可能となる。これにより、類似度を適切に算出す
ることが可能となる。
下位語を展開すると、図22で例に挙げた文書Cのよう
な広義の意味を持つ単語が記載されている文書も、図2
5で示すように狭義の意味を持つ単語が記載され、類似
性のある文書との差異が生じにくくなるという面があ
る。実際、このような検索を行うと、図26のような検
索結果となり、類似度の適切な評価がしにくくなる面が
ある。この第二の実施形態では、図20で示したように
ユーザが概念の展開階層数(レベル)について指定する
ことで、図21で例示したように上位語の生成を抑える
ことが可能となる。これにより、類似度を適切に算出す
ることが可能となる。
【0096】このように上位・下位の展開階層数を制限
する処理は、検索対象文書の単語についてシソーラス展
開を行うようなシステムにも適用することが可能であ
る。この場合、傍系の単語が検索に関与するので、上述
の実施形態よりはヒット数が増え、ノイズの発生も若干
増える。しかし上位・下位の展開階層数を抑えているた
めノイズの発生よりも検索もれが起こらないことを重視
するような場合などの、検索もれとノイズの発生とのバ
ランスを取りたい場合に適用することができる。
する処理は、検索対象文書の単語についてシソーラス展
開を行うようなシステムにも適用することが可能であ
る。この場合、傍系の単語が検索に関与するので、上述
の実施形態よりはヒット数が増え、ノイズの発生も若干
増える。しかし上位・下位の展開階層数を抑えているた
めノイズの発生よりも検索もれが起こらないことを重視
するような場合などの、検索もれとノイズの発生とのバ
ランスを取りたい場合に適用することができる。
【0097】本発明の第三の実施形態について、図面を
参照して以下の通り説明する。第三の実施形態は第二の
実施形態と同様に上位語・下位語を取得する階層の範囲
を制限して、更にノイズを減らそうとするものである
が、その制限の仕方が第二の実施形態と異なる。第二の
実施形態はシソーラス辞書を用いて展開する上位概念の
階層や下位概念の階層の数について、対象となる単語か
ら数えて制限を行うというものであったが、第三の実施
形態は、最上位の階層や最下位の階層から数えて制限を
行うというものである。
参照して以下の通り説明する。第三の実施形態は第二の
実施形態と同様に上位語・下位語を取得する階層の範囲
を制限して、更にノイズを減らそうとするものである
が、その制限の仕方が第二の実施形態と異なる。第二の
実施形態はシソーラス辞書を用いて展開する上位概念の
階層や下位概念の階層の数について、対象となる単語か
ら数えて制限を行うというものであったが、第三の実施
形態は、最上位の階層や最下位の階層から数えて制限を
行うというものである。
【0098】本発明の第三の実施形態における検索装置
の構成はほぼ第一、第二の実施形態と共通である。同じ
番号の要素については特に言及しない限り、同じ機能を
実現するので、説明を略す。第三の実施形態の検索装置
のブロック構成は図1の通りであり、第一、第二の実施
形態と共通である。図27は制御装置1の詳細構成を示
す図であり、最上位語判定部216や最下位語判定部2
17、最上位語判定情報格納バッファ部243や最下位
語判定情報格納バッファ部244以外の要素は第一の実
施形態と共通である。
の構成はほぼ第一、第二の実施形態と共通である。同じ
番号の要素については特に言及しない限り、同じ機能を
実現するので、説明を略す。第三の実施形態の検索装置
のブロック構成は図1の通りであり、第一、第二の実施
形態と共通である。図27は制御装置1の詳細構成を示
す図であり、最上位語判定部216や最下位語判定部2
17、最上位語判定情報格納バッファ部243や最下位
語判定情報格納バッファ部244以外の要素は第一の実
施形態と共通である。
【0099】第三の実施形態の検索装置の制御装置1に
設けられた、最上位語判定部216は、上位語情報格納
バッファ部235に格納された上位語のうち、最も上位
にある単語を取得し、最上位語判定情報格納バッファ部
243に格納する。最下位語判定部217は、下位語情
報格納バッファ部236に格納された下位語のうち、最
も下位にある単語を取得し、最下位語判定情報格納バッ
ファ部244に格納する。
設けられた、最上位語判定部216は、上位語情報格納
バッファ部235に格納された上位語のうち、最も上位
にある単語を取得し、最上位語判定情報格納バッファ部
243に格納する。最下位語判定部217は、下位語情
報格納バッファ部236に格納された下位語のうち、最
も下位にある単語を取得し、最下位語判定情報格納バッ
ファ部244に格納する。
【0100】続いて第三の実施形態における検索装置の
動作について図28のフローチャート図を参照して以下
の通り説明する。まず、ユーザの起動指示により、初期
化部201が起動してメモリ部のクリアなどの初期化処
理を行う(ステップ3100)。続いて検索条件設定部
208が起動し、第一の検索処理における検索対象文書
を絞り込むための条件である、類似度による閾値や、上
位語や下位語の展開階層数(展開レベル)、抑制しよう
とする、最上位や最下位の階層からの階層数の入力をユ
ーザに促す。ユーザはここで検索条件を入力装置から入
力する。入力した内容は検索条件設定バッファ部230
に格納される(ステップ3101)。本実施形態でも、
検索キー文書と検索対象文書の類似度を求め、その類似
度を文書の絞込条件に使用することとする。例えば、図
20のように、「絞り込み閾値(類似度)= 0.2、
上位語の展開数=0、最上位から1階層まで抑制、下位
語の展開数=全て、最下位から0階層まで抑制」と設定
されているとする。このような設定では、第一の検索処
理で実行された類似度計算で、類似度が0.2に満たな
いものは絞り込みの対象として、切り捨てられる。ま
た、後述する上位語の展開処理では、検索キー単語を基
準にした階層の展開数を0段目まで、つまり、上位語の
取得は行わず、下位語の展開処理では、シソーラス辞書
に登録されている全ての下位語を取得する。さらに、後
述する最上位や最下位からの抑制処理については、最上
位から1階層分を抑制し、最下位からは抑制処理を行わ
ない、ということを意味する。
動作について図28のフローチャート図を参照して以下
の通り説明する。まず、ユーザの起動指示により、初期
化部201が起動してメモリ部のクリアなどの初期化処
理を行う(ステップ3100)。続いて検索条件設定部
208が起動し、第一の検索処理における検索対象文書
を絞り込むための条件である、類似度による閾値や、上
位語や下位語の展開階層数(展開レベル)、抑制しよう
とする、最上位や最下位の階層からの階層数の入力をユ
ーザに促す。ユーザはここで検索条件を入力装置から入
力する。入力した内容は検索条件設定バッファ部230
に格納される(ステップ3101)。本実施形態でも、
検索キー文書と検索対象文書の類似度を求め、その類似
度を文書の絞込条件に使用することとする。例えば、図
20のように、「絞り込み閾値(類似度)= 0.2、
上位語の展開数=0、最上位から1階層まで抑制、下位
語の展開数=全て、最下位から0階層まで抑制」と設定
されているとする。このような設定では、第一の検索処
理で実行された類似度計算で、類似度が0.2に満たな
いものは絞り込みの対象として、切り捨てられる。ま
た、後述する上位語の展開処理では、検索キー単語を基
準にした階層の展開数を0段目まで、つまり、上位語の
取得は行わず、下位語の展開処理では、シソーラス辞書
に登録されている全ての下位語を取得する。さらに、後
述する最上位や最下位からの抑制処理については、最上
位から1階層分を抑制し、最下位からは抑制処理を行わ
ない、ということを意味する。
【0101】続いて、検索キー文書入力部206が起動
し、入力装置2より類似文書検索のキーとなる文書を読
み込み、検索キー文書格納バッファ部233へと格納す
る(ステップ3102)。
し、入力装置2より類似文書検索のキーとなる文書を読
み込み、検索キー文書格納バッファ部233へと格納す
る(ステップ3102)。
【0102】続いて、検索キー単語取得部207が起動
し、検索キー文書格納バッファ部233へ格納された文
書から、文章を切り出す。検索キー単語取得部207は
切り出した文章を更に形態素解析などにより単語毎に分
割し、取得した単語情報を検索キー単語情報格納バッフ
ァ部234へと格納する(ステップ3103)。
し、検索キー文書格納バッファ部233へ格納された文
書から、文章を切り出す。検索キー単語取得部207は
切り出した文章を更に形態素解析などにより単語毎に分
割し、取得した単語情報を検索キー単語情報格納バッフ
ァ部234へと格納する(ステップ3103)。
【0103】続いて、上位語取得部209が起動し、検
索キー単語情報格納バッファ部234に格納されている
単語の最上位語の取得を行う。この最上位語の取得には
シソーラス辞書6を用いる。取得された最上位語は上位
語情報格納バッファ部235へと格納される(ステップ
3104)。ここでシソーラス辞書の構成等は第一の実
施形態と共通である。
索キー単語情報格納バッファ部234に格納されている
単語の最上位語の取得を行う。この最上位語の取得には
シソーラス辞書6を用いる。取得された最上位語は上位
語情報格納バッファ部235へと格納される(ステップ
3104)。ここでシソーラス辞書の構成等は第一の実
施形態と共通である。
【0104】以下、ステップ3106〜ステップ311
1は、検索対象文書について処理が終了するまで繰り返
し実行される(ステップ3105)。
1は、検索対象文書について処理が終了するまで繰り返
し実行される(ステップ3105)。
【0105】検索対象文書読み出し部204が起動し、
外部記憶装置4から検索対象文書を読み出し、検索対象
文書格納バッファ部231へ格納する(ステップ310
6)。
外部記憶装置4から検索対象文書を読み出し、検索対象
文書格納バッファ部231へ格納する(ステップ310
6)。
【0106】続いて、検索対象文書単語取得部205が
起動し、検索対象文書格納バッファ部231に格納され
た文書から、形態素解析などにて切り出し・取得された
単語情報を検索対象単語情報格納バッファ部232へと
格納する(ステップ3107)。
起動し、検索対象文書格納バッファ部231に格納され
た文書から、形態素解析などにて切り出し・取得された
単語情報を検索対象単語情報格納バッファ部232へと
格納する(ステップ3107)。
【0107】続いて、上位語取得部209が起動し、検
索対象単語情報格納バッファ部232に格納されている
単語の最上位語の取得を行う。最上位語の取得にはシソ
ーラス辞書6を用いる。取得された最上位語は上位語情
報格納バッファ部235へと格納される(ステップ31
08)。この上位語情報格納バッファ部235内では、
後の処理で混乱しないように、検索キー文書に含まれた
単語の上位語と検索対象文書に含まれた単語の上位語と
は区別して格納する。
索対象単語情報格納バッファ部232に格納されている
単語の最上位語の取得を行う。最上位語の取得にはシソ
ーラス辞書6を用いる。取得された最上位語は上位語情
報格納バッファ部235へと格納される(ステップ31
08)。この上位語情報格納バッファ部235内では、
後の処理で混乱しないように、検索キー文書に含まれた
単語の上位語と検索対象文書に含まれた単語の上位語と
は区別して格納する。
【0108】続いて、検索対象文書絞り込み部211が
起動し、検索対象文書の絞り込みを行う。絞り込みは、
検索キー単語情報格納バッファ部234と検索対象単語
情報格納バッファ部232と上位語情報格納バッファ部
235とを用いて、類似度計算を行う(ステップ310
9)。この類似度計算は、第一の実施形態と同様に、検
索対象文書に含まれた単語及びその上位語と、検索キー
文書に含まれた単語及びその上位語のうち、一致した単
語数を、検索キー文書の単語数で除算することで実行さ
れる。図10と同様の処理が行われる。
起動し、検索対象文書の絞り込みを行う。絞り込みは、
検索キー単語情報格納バッファ部234と検索対象単語
情報格納バッファ部232と上位語情報格納バッファ部
235とを用いて、類似度計算を行う(ステップ310
9)。この類似度計算は、第一の実施形態と同様に、検
索対象文書に含まれた単語及びその上位語と、検索キー
文書に含まれた単語及びその上位語のうち、一致した単
語数を、検索キー文書の単語数で除算することで実行さ
れる。図10と同様の処理が行われる。
【0109】このようにして計算された類似度と、ステ
ップ3101で入力し、検索条件設定バッファ230に
格納されている、文書の切り捨て対象となる類似度の閾
値を用いて、閾値に満たない文書は切り捨てを行い(ス
テップ3110)、閾値以上である文書の情報を文書絞
り込み結果格納バッファ237へ格納する(ステップ3
111)。本実施形態も、文書絞り込み結果格納バッフ
ァ237へ文書のIDを格納し、後述する検索時に検索
対象文書を読み込むために用いる。ここまでの一次検索
の処理は検索条件の入力以外、第一の実施形態と共通で
ある。
ップ3101で入力し、検索条件設定バッファ230に
格納されている、文書の切り捨て対象となる類似度の閾
値を用いて、閾値に満たない文書は切り捨てを行い(ス
テップ3110)、閾値以上である文書の情報を文書絞
り込み結果格納バッファ237へ格納する(ステップ3
111)。本実施形態も、文書絞り込み結果格納バッフ
ァ237へ文書のIDを格納し、後述する検索時に検索
対象文書を読み込むために用いる。ここまでの一次検索
の処理は検索条件の入力以外、第一の実施形態と共通で
ある。
【0110】続いて、ステップ3112〜ステップ31
27にて、検索キー単語の上位語・下位語を取得する。
第一、第二の実施形態と異なるのは、ここで検索キー単
語の上位語・下位語の取得にあたって、その階層に制限
を設け、更に最上位・最下位の階層からの階層数によっ
て抑制を加えるという点である。まず検索キー単語情報
格納バッファ部234に格納されている単語を、上位語
の展開を行う対象の単語とする(ステップ3112)。
27にて、検索キー単語の上位語・下位語を取得する。
第一、第二の実施形態と異なるのは、ここで検索キー単
語の上位語・下位語の取得にあたって、その階層に制限
を設け、更に最上位・最下位の階層からの階層数によっ
て抑制を加えるという点である。まず検索キー単語情報
格納バッファ部234に格納されている単語を、上位語
の展開を行う対象の単語とする(ステップ3112)。
【0111】上位語の取得に先立って、第三の実施形態
では単語取得階層格納バッファ部242の初期化を行う
(ステップ3113)。
では単語取得階層格納バッファ部242の初期化を行う
(ステップ3113)。
【0112】以下、ステップ3115〜ステップ311
9は、上位語の展開が指定された階層に到達するまで繰
り返し実行される(ステップ3114)。
9は、上位語の展開が指定された階層に到達するまで繰
り返し実行される(ステップ3114)。
【0113】上位語取得部209が起動し、上位語展開
対象の単語の上位語を取得する。上位語の取得にはシソ
ーラス辞書6を用いる。取得された上位語は、文書に含
まれていたもとの単語からの階層数の情報と共に、上位
語情報格納バッファ部235へと格納される(ステップ
3115)。同じ単語について、階層数が異なる展開が
行われる場合があるが、その時は、異なる階層数ごとに
別の単語としてバッファに格納する。このような例とし
ては、図30に示したシソーラス辞書の例の中で「ミッ
クスグリル」から見た「肉料理」の階層が直接の上位語
としての階層数となる「1」と、「鳥料理」という単語
を介しての上位語としての階層数となる「2」の場合が
ある。図32を参照して後述する抑制処理のために、こ
の段階ではこれらの単語は別のものとして取り扱う。
対象の単語の上位語を取得する。上位語の取得にはシソ
ーラス辞書6を用いる。取得された上位語は、文書に含
まれていたもとの単語からの階層数の情報と共に、上位
語情報格納バッファ部235へと格納される(ステップ
3115)。同じ単語について、階層数が異なる展開が
行われる場合があるが、その時は、異なる階層数ごとに
別の単語としてバッファに格納する。このような例とし
ては、図30に示したシソーラス辞書の例の中で「ミッ
クスグリル」から見た「肉料理」の階層が直接の上位語
としての階層数となる「1」と、「鳥料理」という単語
を介しての上位語としての階層数となる「2」の場合が
ある。図32を参照して後述する抑制処理のために、こ
の段階ではこれらの単語は別のものとして取り扱う。
【0114】上位語が取得されたならば、取得された上
位語を、次に上位語の展開を行う対象の単語とする(ス
テップ3116)。本実施形態においても、上位方向へ
の展開の際には、上位方向のみに展開を進め、途中で下
位方向へ戻らないようにして、傍系となる単語を取得し
ないようにする。このように上位語を取得するたびに、
単語取得階層格納バッファ部242に格納されている階
層数を1だけ加算する(ステップ3117)。ここで、
単語取得階層判定部215が、検索条件設定バッファ部
230に格納された上位語の展開範囲が、単語取得階層
格納バッファ部242の階層数を超えたと判定した場
合、上位語の取得処理を終了する(ステップ311
8)。超えていない場合は、上位語情報格納バッファ2
35に上位語を設定する(ステップ3119)。なお、
上位語の展開階層数は0以上の任意の値を指定できる
が、シソーラス辞書6の構成から、概念の階層数が全体
でも5から6程度であることが多いので、検索を試行し
つつ適切な値を設定することが好ましい。
位語を、次に上位語の展開を行う対象の単語とする(ス
テップ3116)。本実施形態においても、上位方向へ
の展開の際には、上位方向のみに展開を進め、途中で下
位方向へ戻らないようにして、傍系となる単語を取得し
ないようにする。このように上位語を取得するたびに、
単語取得階層格納バッファ部242に格納されている階
層数を1だけ加算する(ステップ3117)。ここで、
単語取得階層判定部215が、検索条件設定バッファ部
230に格納された上位語の展開範囲が、単語取得階層
格納バッファ部242の階層数を超えたと判定した場
合、上位語の取得処理を終了する(ステップ311
8)。超えていない場合は、上位語情報格納バッファ2
35に上位語を設定する(ステップ3119)。なお、
上位語の展開階層数は0以上の任意の値を指定できる
が、シソーラス辞書6の構成から、概念の階層数が全体
でも5から6程度であることが多いので、検索を試行し
つつ適切な値を設定することが好ましい。
【0115】このようにして対象となる全ての上位語を
取得した後、最上位語判定部216が起動し、対象とな
るグループ(例:料理グループ)の最上位の単語を取得
し、最上位語判定情報格納バッファ部243へ最上位語
の情報を格納する。上位語情報格納バッファ部235に
格納された上位語の階層数が最上位語から数えていくつ
になるかを算出し、検索条件設定バッファ部230に格
納された抑制処理のための設定である階層数に含まれる
かどうかを確認する。抑制処理対象の階層数に含まれて
いた場合、その上位語は上位語情報格納バッファ部23
5から削除される(ステップ3120)。
取得した後、最上位語判定部216が起動し、対象とな
るグループ(例:料理グループ)の最上位の単語を取得
し、最上位語判定情報格納バッファ部243へ最上位語
の情報を格納する。上位語情報格納バッファ部235に
格納された上位語の階層数が最上位語から数えていくつ
になるかを算出し、検索条件設定バッファ部230に格
納された抑制処理のための設定である階層数に含まれる
かどうかを確認する。抑制処理対象の階層数に含まれて
いた場合、その上位語は上位語情報格納バッファ部23
5から削除される(ステップ3120)。
【0116】続いて、検索キー単語情報格納バッファ部
234に格納されている単語を、下位語の展開を行う対
象の単語とする(ステップ3121)。下位語の取得に
先立って、単語取得階層格納バッファ部242を初期化
する(ステップ3122)。以下、ステップ3124〜
ステップ3128は、下位語の展開対象の単語に下位の
単語情報が存在しなくなるまで、繰り返し実行される
(ステップ3123)。
234に格納されている単語を、下位語の展開を行う対
象の単語とする(ステップ3121)。下位語の取得に
先立って、単語取得階層格納バッファ部242を初期化
する(ステップ3122)。以下、ステップ3124〜
ステップ3128は、下位語の展開対象の単語に下位の
単語情報が存在しなくなるまで、繰り返し実行される
(ステップ3123)。
【0117】下位語取得部210が起動し、下位語展開
対象の単語の下位語を取得する。下位語の取得にもシソ
ーラス辞書6を用いる。取得された下位語は下位語情報
格納バッファ部236へと格納される(ステップ312
4)。下位語が取得されたならば、取得された下位語
を、次に下位語の展開を行う対象の単語とする(ステッ
プ3125)。上位方向への展開と同様、下位方向への
展開の際も、下位方向のみに展開を進め、傍系の単語を
使用しないようにする、ということが挙げられる。
対象の単語の下位語を取得する。下位語の取得にもシソ
ーラス辞書6を用いる。取得された下位語は下位語情報
格納バッファ部236へと格納される(ステップ312
4)。下位語が取得されたならば、取得された下位語
を、次に下位語の展開を行う対象の単語とする(ステッ
プ3125)。上位方向への展開と同様、下位方向への
展開の際も、下位方向のみに展開を進め、傍系の単語を
使用しないようにする、ということが挙げられる。
【0118】下位語を取得するたびに、単語取得階層格
納バッファ部242に格納されている階層数を1つ加算
する(ステップ3126)。ここで、単語取得階層判定
部215が、検索条件設定バッファ部230に格納され
た下位語の展開数を、単語取得階層格納バッファ部24
2に格納された階層数が超えたと判定した場合、下位語
の取得処理を終了する(ステップ3127)。超えてい
ない場合は、上位語情報格納バッファ235に上位語を
設定する(ステップ3128)。
納バッファ部242に格納されている階層数を1つ加算
する(ステップ3126)。ここで、単語取得階層判定
部215が、検索条件設定バッファ部230に格納され
た下位語の展開数を、単語取得階層格納バッファ部24
2に格納された階層数が超えたと判定した場合、下位語
の取得処理を終了する(ステップ3127)。超えてい
ない場合は、上位語情報格納バッファ235に上位語を
設定する(ステップ3128)。
【0119】なお、下位語の展開階層数も0以上の任意
の値を指定できるが、シソーラス辞書6の構成から、概
念の階層数が全体でも5から6程度であることが多いの
で、検索を試行しつつ適切な値を設定することが好まし
い。
の値を指定できるが、シソーラス辞書6の構成から、概
念の階層数が全体でも5から6程度であることが多いの
で、検索を試行しつつ適切な値を設定することが好まし
い。
【0120】このようにして対象となる全ての下位語を
取得した後、最下位語判定部217が起動し、対象とな
るグループ(例:料理グループ)の最下位の単語を取得
し、最下位語判定情報格納バッファ部244へ最下位語
の情報を格納する。下位語情報格納バッファ部236に
格納された下位語の階層数が最下位語から数えていくつ
になるかを算出し、検索条件設定バッファ部230に格
納された抑制処理のための設定である階層数に含まれる
かどうかを確認する。抑制処理対象の階層数に含まれて
いた場合、その下位語は下位語情報格納バッファ部23
6から削除される(ステップ3129)。
取得した後、最下位語判定部217が起動し、対象とな
るグループ(例:料理グループ)の最下位の単語を取得
し、最下位語判定情報格納バッファ部244へ最下位語
の情報を格納する。下位語情報格納バッファ部236に
格納された下位語の階層数が最下位語から数えていくつ
になるかを算出し、検索条件設定バッファ部230に格
納された抑制処理のための設定である階層数に含まれる
かどうかを確認する。抑制処理対象の階層数に含まれて
いた場合、その下位語は下位語情報格納バッファ部23
6から削除される(ステップ3129)。
【0121】例えば、図31に示したような文書及び図
30のようなシソーラス辞書であって、図29のような
検索設定を行った場合、ステップ3112〜ステップ3
127実行後の検索キー単語情報格納バッファ部234
及び上位語情報格納バッファ部235、下位語情報格納
バッファ部236の内容は、図32のようになる。検索
キー文書3aの場合、「焼き鳥」から始まる直系の上位
語は「鳥料理」、「肉料理」となる。展開レベルを2と
設定していたので展開はここで終わる。最上位の単語
「料理」から1階層分を抑制する設定になっているが、
この例では、「鳥料理」も「肉料理」も抑制の対象にな
らない。下位語については展開数を「全て」と設定して
いたが、「焼き鳥」が最下位のため、展開はこれ以上行
われない。最下位からの抑制も行われない設定となって
いる。同様に検索キー文書3Bについて処理を行うと、
「ミックスグリル」という単語から上位に展開される単
語として、「鳥料理」、「肉料理」のルートで展開され
るものと、「肉料理」、「料理」のルートで展開される
ものがある。この場合、「肉料理」についてはそれぞれ
のルートに対応するように階層数を「肉料理 1」、
「肉料理 2」と管理する。最上位から1階層分の抑制
が行われるので、「料理」だけが削除される。削除が終
わった後の検索では、「肉料理 1」「肉料理 2」の
情報から階層数の情報を除き、「肉料理」という単語だ
けで検索を行う。なお、抑制の方を展開よりも優先する
形にしているが、特例として、もとの文書中に最上位・
最下位の単語が含まれていた場合は抑制を行わない。抑
制による単語の情報の損失を防ぐことができる。
30のようなシソーラス辞書であって、図29のような
検索設定を行った場合、ステップ3112〜ステップ3
127実行後の検索キー単語情報格納バッファ部234
及び上位語情報格納バッファ部235、下位語情報格納
バッファ部236の内容は、図32のようになる。検索
キー文書3aの場合、「焼き鳥」から始まる直系の上位
語は「鳥料理」、「肉料理」となる。展開レベルを2と
設定していたので展開はここで終わる。最上位の単語
「料理」から1階層分を抑制する設定になっているが、
この例では、「鳥料理」も「肉料理」も抑制の対象にな
らない。下位語については展開数を「全て」と設定して
いたが、「焼き鳥」が最下位のため、展開はこれ以上行
われない。最下位からの抑制も行われない設定となって
いる。同様に検索キー文書3Bについて処理を行うと、
「ミックスグリル」という単語から上位に展開される単
語として、「鳥料理」、「肉料理」のルートで展開され
るものと、「肉料理」、「料理」のルートで展開される
ものがある。この場合、「肉料理」についてはそれぞれ
のルートに対応するように階層数を「肉料理 1」、
「肉料理 2」と管理する。最上位から1階層分の抑制
が行われるので、「料理」だけが削除される。削除が終
わった後の検索では、「肉料理 1」「肉料理 2」の
情報から階層数の情報を除き、「肉料理」という単語だ
けで検索を行う。なお、抑制の方を展開よりも優先する
形にしているが、特例として、もとの文書中に最上位・
最下位の単語が含まれていた場合は抑制を行わない。抑
制による単語の情報の損失を防ぐことができる。
【0122】以下、ステップ3128からステップ31
34は第一の実施形態におけるステップ320からステ
ップ326までの操作と同じであるため、説明を略す。
34は第一の実施形態におけるステップ320からステ
ップ326までの操作と同じであるため、説明を略す。
【0123】第二の実施形態のように、上位語や下位語
の展開階層数を指定した場合でも、図30のような複雑
な構造をもつシソーラス辞書の場合、適切な指定ができ
ない場合が起こり得る。すなわち、上述の検索キー文書
3bのように、「ミックスグリル」という単語から上位
2階層分の上位語を取得すると、「肉料理」程度の上位
概念で検索を行おうとしていたにも関わらず、「料理」
という最上位の単語が含まれてしまうことが起こり得
る。そこで、第三の実施形態においては、複雑な構造の
シソーラス辞書に対しても適切に展開範囲を指定できる
ように、最上位又は最下位からの抑制を行うことで、適
切な単語を用いた類似度算出を行うことが可能である。
の展開階層数を指定した場合でも、図30のような複雑
な構造をもつシソーラス辞書の場合、適切な指定ができ
ない場合が起こり得る。すなわち、上述の検索キー文書
3bのように、「ミックスグリル」という単語から上位
2階層分の上位語を取得すると、「肉料理」程度の上位
概念で検索を行おうとしていたにも関わらず、「料理」
という最上位の単語が含まれてしまうことが起こり得
る。そこで、第三の実施形態においては、複雑な構造の
シソーラス辞書に対しても適切に展開範囲を指定できる
ように、最上位又は最下位からの抑制を行うことで、適
切な単語を用いた類似度算出を行うことが可能である。
【0124】このように最上位又は最下位からの抑制を
行う処理は、検索対象文書の単語についてシソーラス展
開を行うようなシステムにも適用することが可能であ
る。この場合、傍系の単語が検索に関与するので、上述
の第三の実施形態よりはヒット数が増え、ノイズの発生
も若干増える。しかし最上位又は最下位からの抑制処理
を行っているため、ノイズの発生よりも検索もれが起こ
らないことを重視するような場合などの、検索もれとノ
イズの発生とのバランスを取りたい場合に適用すること
ができる。
行う処理は、検索対象文書の単語についてシソーラス展
開を行うようなシステムにも適用することが可能であ
る。この場合、傍系の単語が検索に関与するので、上述
の第三の実施形態よりはヒット数が増え、ノイズの発生
も若干増える。しかし最上位又は最下位からの抑制処理
を行っているため、ノイズの発生よりも検索もれが起こ
らないことを重視するような場合などの、検索もれとノ
イズの発生とのバランスを取りたい場合に適用すること
ができる。
【0125】第四の実施形態として、第三の実施形態と
構成を共通のものとし、検索設定時に最上位・最下位か
らの抑制のみの設定を行うような形態が考えられる。こ
の場合、第一の実施形態と同様に、検索キー文書に関し
て上位語、下位語の直系の展開を全て行う。第三の実施
形態での上位・下位の展開階層数の制限を行わない形で
ある。第三の実施形態に比べて、検索時のステップ数を
減らすことができ、システムの軽量化、動作の高速化を
図ることが可能となる。
構成を共通のものとし、検索設定時に最上位・最下位か
らの抑制のみの設定を行うような形態が考えられる。こ
の場合、第一の実施形態と同様に、検索キー文書に関し
て上位語、下位語の直系の展開を全て行う。第三の実施
形態での上位・下位の展開階層数の制限を行わない形で
ある。第三の実施形態に比べて、検索時のステップ数を
減らすことができ、システムの軽量化、動作の高速化を
図ることが可能となる。
【0126】上記実施形態の説明においては、検索のキ
ーとして文書を用いたが、単語だけを入力しても、同様
に上位語、下位語の展開を用いた検索が可能である。文
書から単語を取得するステップを省略するだけで対応す
ることができる。また、日本語によるシステムで説明を
したが、他言語にも同システムを適用することが可能で
ある。
ーとして文書を用いたが、単語だけを入力しても、同様
に上位語、下位語の展開を用いた検索が可能である。文
書から単語を取得するステップを省略するだけで対応す
ることができる。また、日本語によるシステムで説明を
したが、他言語にも同システムを適用することが可能で
ある。
【0127】
【発明の効果】以上説明したように、この発明によれ
ば、シソーラス辞書を利用し、検索もれとノイズを減ら
すことが可能となる。
ば、シソーラス辞書を利用し、検索もれとノイズを減ら
すことが可能となる。
【図1】本発明の実施形態に係わる文書検索装置の構成
を示すブロック図。
を示すブロック図。
【図2】本発明の第一の実施形態に係わる文書検索装置
の制御装置のブロック図。
の制御装置のブロック図。
【図3】本発明の第一の実施形態に係わる文書検索装置
の動作を示すフローチャート図。
の動作を示すフローチャート図。
【図4】本発明の第一の実施形態における文書検索時の
条件入力画面の例を示す図。
条件入力画面の例を示す図。
【図5】検索キー文書を入力した画面の例を示す図。
【図6】シソーラス辞書の内容の例を示す図。
【図7】検索キー単語情報格納バッファ部及び上位単語
情報バッファ部のデータ構造の例を示す図。
情報バッファ部のデータ構造の例を示す図。
【図8】検索対象文書の例を示す図。
【図9】検索対象単語情報格納バッファ部及び上位単語
情報バッファ部のデータ構造の例を示す図。
情報バッファ部のデータ構造の例を示す図。
【図10】類似度算出の例を示す図。
【図11】文書絞り込み結果格納バッファ部のデータ構
造の例を示す図。
造の例を示す図。
【図12】検索キー単語情報格納バッファ部及び上位単
語情報バッファ部、下位単語情報バッファ部のデータ構
造の例を示す図。
語情報バッファ部、下位単語情報バッファ部のデータ構
造の例を示す図。
【図13】本発明の第一の実施形態における類似度の算
出について示す図。
出について示す図。
【図14】本発明の第一の実施形態における検索結果表
示画面の例を示す図。
示画面の例を示す図。
【図15】検索対象単語情報格納バッファ部及び上位単
語情報バッファ部、下位単語情報バッファ部のデータ構
造の例を示す図。
語情報バッファ部、下位単語情報バッファ部のデータ構
造の例を示す図。
【図16】類似度の算出の例を示す図。
【図17】文書検索の結果画面の例を示す図。
【図18】本発明の第二の実施形態に係わる文書検索装
置の制御装置のブロック図。
置の制御装置のブロック図。
【図19】本発明の第二の実施形態に係わる文書検索装
置の動作を示すフローチャート図。
置の動作を示すフローチャート図。
【図20】本発明の第二の実施形態における文書検索時
の条件入力画面の例を示す図。
の条件入力画面の例を示す図。
【図21】本発明の第二の実施形態における検索キー単
語情報格納バッファ部及び上位単語情報バッファ部、下
位単語情報バッファ部のデータ構造の例を示す図。
語情報格納バッファ部及び上位単語情報バッファ部、下
位単語情報バッファ部のデータ構造の例を示す図。
【図22】検索対象文書の例を示す図。
【図23】本発明の第二の実施形態における類似度の算
出について示す図。
出について示す図。
【図24】本発明の第二の実施形態における検索結果表
示画面を示す図。
示画面を示す図。
【図25】類似度算出の例を示す図。
【図26】文書検索の結果画面の例を示す図。
【図27】本発明の第三の実施形態に係わる文書検索装
置の制御装置のブロック図。
置の制御装置のブロック図。
【図28】本発明の第三の実施形態に係わる文書検索装
置の動作を示すフローチャート図。
置の動作を示すフローチャート図。
【図29】本発明の第三の実施形態における文書検索時
の条件入力画面の例を示す図。
の条件入力画面の例を示す図。
【図30】シソーラス辞書の内容の例を示す図。
【図31】検索キー文書の例を示す図。
【図32】本発明の第三の実施形態における検索キー単
語情報格納バッファ部及び上位単語情報格納バッファ
部、下位単語情報格納バッファ部のデータ構造の例を示
す図。
語情報格納バッファ部及び上位単語情報格納バッファ
部、下位単語情報格納バッファ部のデータ構造の例を示
す図。
1…制御装置、2…入力装置、3…表示装置、4…外部
記憶装置、5…形態素解析辞書、6…シソーラス辞書、
200…メイン処理部、201…初期化部、202…入
力部、203…出力部、204…検索対象文書読み出し
部、205…検索対象文書単語取得部、206…検索キ
ー文書入力部、207…検索キー単語取得部、208…
検索条件設定部、209…上位語取得部、210…下位
語取得部、211…検索対象文書絞り込み部、212…
類似度算出部、213…ソート部、214…検索結果出
力部、230…検索条件設定バッファ部、231…検索
対象文書格納バッファ部、232…検索対象単語情報格
納バッファ部、233…検索キー文書格納バッファ部、
234…検索キー単語情報格納バッファ部、235…上
位語情報格納バッファ部、236…下位語情報格納バッ
ファ部、237…文書絞り込み結果格納バッファ部、2
38…類似度格納バッファ部、239…ソート結果格納
バッファ部、240…検索結果出力バッファ部、241
…作業バッファ部
記憶装置、5…形態素解析辞書、6…シソーラス辞書、
200…メイン処理部、201…初期化部、202…入
力部、203…出力部、204…検索対象文書読み出し
部、205…検索対象文書単語取得部、206…検索キ
ー文書入力部、207…検索キー単語取得部、208…
検索条件設定部、209…上位語取得部、210…下位
語取得部、211…検索対象文書絞り込み部、212…
類似度算出部、213…ソート部、214…検索結果出
力部、230…検索条件設定バッファ部、231…検索
対象文書格納バッファ部、232…検索対象単語情報格
納バッファ部、233…検索キー文書格納バッファ部、
234…検索キー単語情報格納バッファ部、235…上
位語情報格納バッファ部、236…下位語情報格納バッ
ファ部、237…文書絞り込み結果格納バッファ部、2
38…類似度格納バッファ部、239…ソート結果格納
バッファ部、240…検索結果出力バッファ部、241
…作業バッファ部
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 山崎 弘
東京都青梅市新町3丁目3番地の1 東芝
デジタルメディアエンジニアリング株式会
社内
(72)発明者 中本 幸夫
東京都青梅市新町3丁目3番地の1 東芝
デジタルメディアエンジニアリング株式会
社内
(72)発明者 松隈 剛
東京都青梅市新町3丁目3番地の1 東芝
デジタルメディアエンジニアリング株式会
社内
Fターム(参考) 5B075 ND03 NK32 NK35 QM08 UU06
Claims (11)
- 【請求項1】 検索キーを用いて検索対象文書から文書
を検索する文書検索装置であって、 前記検索キーから検索に用いる単語を取得する検索キー
単語取得手段と、 所定単語の上位語や下位語を格納したシソーラス辞書
と、 前記検索キー単語取得手段により取得された単語と前記
シソーラス辞書に基づき、上位語については前記取得さ
れた単語の上位方向のみに取得動作を行い、下位語につ
いては前記取得された単語の下位方向のみに取得動作を
行って類義語を取得する類義語取得手段と、 前記検索対象文書の中から検索対象単語を取得する検索
対象単語取得手段と、 前記検索キー単語取得手段により得られた単語と前記類
義語取得手段により得られた類義語と、前記検索対象単
語取得手段により得られた単語に基づき、前記検索キー
と前記検索対象文書の間の類似度を求める類似度算出手
段と、 前記類似度算出手段により算出された類似度に基づき、
検索結果を出力する出力手段とを具備することを特徴と
する文書検索装置。 - 【請求項2】 検索キーを用いて検索対象文書から文書
を検索する文書検索装置であって、 前記検索キーから検索に用いる単語を取得する検索キー
単語取得手段と、 所定単語の上位語や下位語を階層別に格納したシソーラ
ス辞書と、 前記検索キー単語取得手段により取得された単語と前記
シソーラス辞書に基づき、上位語については前記取得さ
れた単語の上位方向に取得を行い、下位語については前
記取得された単語の下位方向に取得を行って類義語を取
得する類義語取得手段と、 前記取得動作を行う階層数を入力する入力手段と、 前記検索対象文書から検索対象単語を取得する検索対象
単語取得手段と、 前記検索キー単語取得手段が取得した単語と、前記入力
手段からの入力に応じ、前記類義語取得手段が取得した
類義語と前記検索対象単語取得手段が取得した単語に基
づき、前記検索キーと前記検索対象文書の間の類似度を
求める類似度算出手段と、 前記類似度算出手段により算出された類似度に基づき、
検索結果を出力する出力手段とを具備することを特徴と
する文書検索装置。 - 【請求項3】 検索キーを用いて検索対象文書から文書
を検索する文書検索装置であって、 前記検索キーから検索に用いる単語を取得する検索キー
単語取得手段と、 所定単語の上位語や下位語を階層別に格納したシソーラ
ス辞書と、 前記検索キー単語取得手段により取得された単語と前記
シソーラス辞書に基づき、上位語については前記取得さ
れた単語の上位方向に取得を行い、下位語については前
記取得された単語の下位方向に取得を行って類義語を取
得する類義語取得手段と、 前記類義語取得手段が取得動作を行う階層数を入力する
入力手段と、 前記検索対象文書から検索対象単語を取得する検索対象
単語取得手段と、 前記検索キー単語取得手段が取得した単語と、前記入力
手段からの入力に応じ前記類義語取得手段が取得した類
義語と、前記検索対象単語取得手段が取得した単語に基
づき、前記検索キーと前記検索対象文書の間の類似度を
求める類似度算出手段と、 前記類似度算出手段により算出された類似度に基づき、
検索結果を出力する出力手段とを具備し、 前記類義語取得手段は、前記類義語を階層別に判別し、
最も上位の階層から下位方向へ所定階層数の範囲に含ま
れる類義語や、最も下位の階層から上位方向へ所定階層
数の範囲に含まれる類義語を除き、その中間の階層に含
まれる類義語を類似度算出に用いることを特徴とする文
書検索装置。 - 【請求項4】 検索キーを用いて検索対象文書から文書
を検索する文書検索装置であって、 前記検索キーから検索に用いる単語を取得する検索キー
単語取得手段と、 所定単語の上位語や下位語を階層別に格納したシソーラ
ス辞書と、 前記検索に用いる、所定単語からの上位語、下位語を取
得する階層範囲を設定する設定手段と、 前記検索キー単語取得手段により取得された単語と前記
シソーラス辞書に基づき、上位語については前記取得さ
れた単語の上位方向に前記設定手段によって設定された
階層範囲内で取得を行い、下位語については前記取得さ
れた単語の下位方向に前記設定手段によって設定された
階層範囲内で取得を行って類義語を取得する類義語取得
手段と、 前記検索対象文書から検索対象単語を取得する検索対象
単語取得手段と、 前記検索キー単語取得手段が取得した単語と、前記入力
手段からの入力に応じ前記類義語取得手段が取得した類
義語と、前記検索対象単語取得手段が取得した単語に基
づき、前記検索キーと前記検索対象文書の間の類似度を
求める類似度算出手段と、 前記類似度算出手段により算出された類似度に基づき、
検索結果を出力する出力手段とを具備し、 前記類義語取得手段は、前記類義語を階層別に判別し、
最も上位の階層から下位方向へ所定階層数の範囲に含ま
れる類義語や、最も下位の階層から上位方向へ所定階層
数の範囲に含まれる類義語を除き、その中間の階層に含
まれる類義語を類似度算出に用いることを特徴とする文
書検索装置。 - 【請求項5】 前記検索キーは文書であり、検索キー単
語取得手段は検索に用いる単語を当該文書から単語切り
により取得することを特徴とする請求項1乃至4記載の
文書検索装置。 - 【請求項6】 検索キー及び、所定単語の上位語や下位
語を格納したシソーラス辞書とを用いて検索対象文書か
ら文書を検索する文書検索方法であって、 前記検索キーから検索に用いる単語を取得する検索キー
単語取得ステップと、 前記検索キー単語取得ステップにより取得された単語と
前記シソーラス辞書に基づき、上位語については前記取
得された単語の上位方向のみに取得動作を行い、下位語
については前記取得された単語の下位方向のみに取得動
作を行って類義語を取得する類義語取得ステップと、 前記検索対象文書の中から検索対象単語を取得する検索
対象単語取得ステップと、 前記検索キー単語取得ステップにより得られた単語と前
記類義語取得ステップにより得られた類義語と、前記検
索対象単語取得ステップにより得られた単語に基づき、
前記検索キーと前記検索対象文書の間の類似度を求める
類似度算出ステップと、 前記類似度算出ステップにより算出された類似度に基づ
き、検索結果を出力する出力ステップとを具備すること
を特徴とする文書検索方法。 - 【請求項7】 検索キー及び所定単語の上位語や下位語
を階層別に格納したシソーラス辞書とを用いて検索対象
文書から文書を検索する文書検索方法であって、 前記検索キーから検索に用いる単語を取得する検索キー
単語取得ステップと、 前記検索キー単語取得ステップにより取得された単語の
類義語を取得するため 、取得動作を行う階層数を入力する入力ステップと、 前記検索キー単語取得ステップにより取得された単語と
前記シソーラス辞書に基づき、前記入力ステップで入力
された階層数の範囲内で、上位語については前記取得さ
れた単語の上位方向に取得を行い、下位語については前
記取得された単語の下位方向に取得を行って類義語を取
得する類義語取得ステップと、 前記検索対象文書から検索対象単語を取得する検索対象
単語取得ステップと、 前記検索キー単語取得ステップで取得した単語と、前記
入力ステップで入力された階層数に応じて前記類義語取
得ステップで取得した類義語と、前記検索対象単語取得
ステップで取得した単語に基づき、前記検索キーと前記
検索対象文書の間の類似度を求める類似度算出ステップ
と、 前記類似度算出ステップにより算出された類似度に基づ
き、検索結果を出力する出力ステップとを具備すること
を特徴とする文書検索方法。 - 【請求項8】 検索キー及び、所定単語の上位語や下位
語を階層別に格納したシソーラス辞書とを用いて検索対
象文書から文書を検索する文書検索方法であって、 前記検索キーから検索に用いる単語を取得する検索キー
単語取得ステップと、 類義語を取得する階層数を入力する入力ステップと、 前記検索キー単語取得ステップにより取得された単語と
前記シソーラス辞書に基づき、上位語については前記取
得された単語の上位方向に取得を行い、下位語について
は前記取得された単語の下位方向に取得を行って類義語
を取得する類義語取得ステップと、 前記検索対象文書から検索対象単語を取得する検索対象
単語取得ステップと、前記検索キー単語取得ステップで
取得した単語と、前記入力ステップでの入力に応じ前記
類義語取得ステップで取得した類義語と、前記検索対象
単語取得ステップが取得した単語に基づき、前記検索キ
ーと前記検索対象文書の間の類似度を求める類似度算出
ステップと、 前記類似度算出ステップにより算出された類似度に基づ
き、検索結果を出力する出力ステップとを具備し、 前記類義語取得ステップは、前記類義語を階層別に判別
し、最も上位の階層から下位方向へ所定階層数の範囲に
含まれる類義語や、最も下位の階層から上位方向へ所定
階層数の範囲に含まれる類義語を除き、その中間の階層
に含まれる類義語を類似度算出に用いることを特徴とす
る文書検索方法。 - 【請求項9】 検索キー及び、所定単語の上位語や下位
語を階層別に格納したシソーラス辞書とを用いて検索対
象文書から文書を検索する文書検索装置であって、 前記検索キーから検索に用いる単語を取得する検索キー
単語取得ステップと、 前記検索に用いる、所定単語からの上位語、下位語を取
得する階層範囲を入力する入力ステップと、 前記検索キー単語取得ステップにより取得された単語と
前記シソーラス辞書に基づき、上位語については前記取
得された単語の上位方向に前記設定手段によって設定さ
れた階層範囲内で取得を行い、下位語については前記取
得された単語の下位方向に前記設定手段によって設定さ
れた階層範囲内で取得を行って類義語を取得する類義語
取得ステップと、 前記検索対象文書から検索対象単語を取得する検索対象
単語取得ステップと、 前記検索キー単語取得ステップで取得した単語と、前記
入力ステップでの入力に応じ前記類義語取得ステップで
取得した類義語と、前記検索対象単語取得ステップで取
得した単語に基づき、前記検索キーと前記検索対象文書
の間の類似度を求める類似度算出ステップと、 前記類似度算出ステップにより算出された類似度に基づ
き、検索結果を出力する出力ステップとを具備し、 前記類義語取得ステップは、前記類義語を階層別に判別
し、最も上位の階層から下位方向へ所定階層数の範囲に
含まれる類義語や、最も下位の階層から上位方向へ所定
階層数の範囲に含まれる類義語を除き、その中間の階層
に含まれる類義語を類似度算出に用いることを特徴とす
る文書検索方法。 - 【請求項10】 前記検索キーは文書であり、前記検索
キー単語取得ステップは検索に用いる単語を当該文書か
ら単語切りにより取得することを特徴とする請求項6乃
至9記載の文書検索方法。 - 【請求項11】 コンピュータに対し、検索キー及び、
所定単語の上位語や下位語を格納したシソーラス辞書と
を用いて検索対象文書から文書を検索させる文書検索プ
ログラムであって、 前記検索キーから検索に用いる単語を取得する検索キー
単語取得ステップと、 前記検索キー単語取得ステップにより取得された単語と
前記シソーラス辞書に基づき、上位語については前記取
得された単語の上位方向のみに取得動作を行い、下位語
については前記取得された単語の下位方向のみに取得動
作を行って類義語を取得する類義語取得ステップと、 前記検索対象文書の中から検索対象単語を取得する検索
対象単語取得ステップと、 前記検索キー単語取得ステップにより得られた単語と前
記類義語取得ステップにより得られた類義語と、前記検
索対象単語取得ステップにより得られた単語に基づき、
前記検索キーと前記検索対象文書の間の類似度を求める
類似度算出ステップと、 前記類似度算出ステップにより算出された類似度に基づ
き、検索結果を出力する出力ステップとをコンピュータ
に実行させる文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002156686A JP2003345824A (ja) | 2002-05-30 | 2002-05-30 | 文書検索装置及び文書検索方法、文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002156686A JP2003345824A (ja) | 2002-05-30 | 2002-05-30 | 文書検索装置及び文書検索方法、文書検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003345824A true JP2003345824A (ja) | 2003-12-05 |
Family
ID=29772815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002156686A Pending JP2003345824A (ja) | 2002-05-30 | 2002-05-30 | 文書検索装置及び文書検索方法、文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003345824A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006099478A (ja) * | 2004-09-29 | 2006-04-13 | Toshiba Corp | 文書分類装置および文書分類方法 |
JP2009176274A (ja) * | 2007-10-05 | 2009-08-06 | Fujitsu Ltd | 拡張検索の実施及び拡張検索結果の提供 |
JP4637969B1 (ja) * | 2009-12-31 | 2011-02-23 | 株式会社Taggy | ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法 |
WO2013118435A1 (ja) * | 2012-02-09 | 2013-08-15 | 日本電気株式会社 | 意味的類似度計算方法、システム及びプログラム |
JP2020077128A (ja) * | 2018-11-06 | 2020-05-21 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、及びプログラム |
JP2020086740A (ja) * | 2018-11-21 | 2020-06-04 | 崇弘 浮舟 | 店舗検索方法、サーバおよびプログラム |
-
2002
- 2002-05-30 JP JP2002156686A patent/JP2003345824A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006099478A (ja) * | 2004-09-29 | 2006-04-13 | Toshiba Corp | 文書分類装置および文書分類方法 |
JP2009176274A (ja) * | 2007-10-05 | 2009-08-06 | Fujitsu Ltd | 拡張検索の実施及び拡張検索結果の提供 |
JP4637969B1 (ja) * | 2009-12-31 | 2011-02-23 | 株式会社Taggy | ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法 |
WO2011080899A1 (ja) * | 2009-12-31 | 2011-07-07 | 株式会社Taggy | 情報推薦方法 |
JP2011154668A (ja) * | 2009-12-31 | 2011-08-11 | Taggy Inc | ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法 |
US8812505B2 (en) | 2009-12-31 | 2014-08-19 | Taggy, Inc. | Method for recommending best information in real time by appropriately obtaining gist of web page and user's preference |
WO2013118435A1 (ja) * | 2012-02-09 | 2013-08-15 | 日本電気株式会社 | 意味的類似度計算方法、システム及びプログラム |
JP2020077128A (ja) * | 2018-11-06 | 2020-05-21 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、及びプログラム |
JP2020086740A (ja) * | 2018-11-21 | 2020-06-04 | 崇弘 浮舟 | 店舗検索方法、サーバおよびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3181548B2 (ja) | 情報検索装置及び情報検索方法 | |
US7440947B2 (en) | System and method for identifying query-relevant keywords in documents with latent semantic analysis | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
JP6260294B2 (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JPH06309362A (ja) | 情報検索方法 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP3198932B2 (ja) | 文書検索装置 | |
JP2003345824A (ja) | 文書検索装置及び文書検索方法、文書検索プログラム | |
JPH0844771A (ja) | 情報検索装置 | |
JP2005010848A (ja) | 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体 | |
JP3881638B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP3275813B2 (ja) | 文書検索装置、方法及び記録媒体 | |
JP2003108579A (ja) | 文書検索装置及び文書検索方法 | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP3558854B2 (ja) | データ検索装置及びコンピュータ読み取り可能な記録媒体 | |
JP5199968B2 (ja) | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
JP2002183195A (ja) | 概念検索方式 | |
JP2004133510A (ja) | 技術文献検索システム | |
JP2002215672A (ja) | 検索式拡張方法、検索システム及び検索式拡張コンピュータプログラム | |
JP2004118262A (ja) | 文書検索装置、文書検索方法及び文書検索プログラム | |
JP4384736B2 (ja) | 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2004062806A (ja) | 類似文書検索装置及び類似文書検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050415 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 |