JP2004118262A - 文書検索装置、文書検索方法及び文書検索プログラム - Google Patents

文書検索装置、文書検索方法及び文書検索プログラム Download PDF

Info

Publication number
JP2004118262A
JP2004118262A JP2002276638A JP2002276638A JP2004118262A JP 2004118262 A JP2004118262 A JP 2004118262A JP 2002276638 A JP2002276638 A JP 2002276638A JP 2002276638 A JP2002276638 A JP 2002276638A JP 2004118262 A JP2004118262 A JP 2004118262A
Authority
JP
Japan
Prior art keywords
word
search
document
synonym
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002276638A
Other languages
English (en)
Inventor
Tsutomu Kobayashi
小林 勉
Shigemi Nakazato
中里 茂美
Hiroshi Yamazaki
山崎 弘
Yukio Nakamoto
中本 幸夫
Takeshi Matsukuma
松隈 剛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002276638A priority Critical patent/JP2004118262A/ja
Publication of JP2004118262A publication Critical patent/JP2004118262A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】キー文書に類似する文書を検索する文書検索において、ノイズを減らす。
【解決手段】検索キー文書に含まれる単語について、シソーラス辞書6を用いて上位単語、下位単語を抽出する際に、検索対象文書の中に当該上位単語や下位単語を含む文書数を算出し、予め設定した抑制条件を上回る文書数である場合、当該上位単語や下位単語は検索に用いないようにする。
【選択図】 図4

Description

【0001】
【発明の属する技術分野】
この発明は、文書検索に係わり、特に、シソーラス辞書を用いた文書検索装置、文書検索方法及び文書検索プログラムに関する。
【0002】
【従来の技術】
コンピュータに代表される情報処理装置の処理速度の向上や、取り扱うデータ量の増加により、情報処理装置の文書管理への応用が進められている。文書管理への応用において特に、多数の文書の中からユーザが望む内容を有する文書を検索する、といった文書検索に関する技術は、管理する文書の数量が増えた現在、重要なものになっている。
【0003】
文書検索には、著者名や表題などの各種インデックスを用いた検索の他に、ユーザが所定の文書を検索キー文書として入力し、この検索キー文書と類似した文書を複数の検索対象文書から抽出するという類似文書検索がある。この類似文書検索は検索キーとなる検索キー文書から抽出された単語と、検索対象文書から抽出された単語とを比較し、検索キー文書と検索対象文書の類似度を算出して、類似度の高いものを類似文書として検索対象文書から抽出する。
【0004】
この類似度の算出方法として、これまで検索キー文書と検索対象文書から抽出された単語の抽出数や抽出場所(文書中の表題部、抄録部等)等をもとにベクトル空間法を用いて算出する方法等がある。ベクトル空間法を用いた類似度算出を行う検索装置は従来から存在している(例えば、特許文献1参照。)。
【0005】
類似度の算出にあたっては、単語の比較が重要になるが、この比較に際して、シソーラス辞書を用いることにより、意味が類似していても表記が異なる単語を含んだ文書が検索からもれることを防ぐことができるようになった。このシソーラス辞書は、各単語について、その意味や分類が共通するものについて、類義語の群としてまとめたものである。類義語の群においても、上位概念となる単語から下位概念となる単語まで、階層構造としてまとめている。このシソーラス辞書を用いて、検索キー文書や検索対象文書に含まれる単語を展開し、単語の類義語を含めた検索を行うことが可能となる。
【0006】
このようにすると、検索のもれを減らすことは可能となるが、シソーラス辞書に含まれる類義語を制限無く使用すると、ノイズとなる文書についても類似する文書として検索結果に含めてしまう可能性がある。このため、何らかの形で単語の展開を制御することが好ましい。
【0007】
なお、従来のシソーラス辞書を用いた文書検索装置において、単語の展開に制限を加えた発明として、シソーラス辞書の種類に応じて単語の展開を制御したものがある(例えば、特許文献2参照。)。
【0008】
【特許文献1】
特開平9−288675号公報(第2−6頁)
【0009】
【特許文献2】
特開平9−198396号公報(第6−7頁 図7)
【0010】
【発明が解決しようとする課題】
上述したように、シソーラス辞書に含まれる類義語を使用することで検索のもれを減らすことが出来るが、類義語について制限無く使用すると、ノイズが増える可能性があった。本発明は、シソーラス辞書を利用し、文書検索においてノイズを減らすことができる文書検索装置、文書検索方法及び文書検索プログラムを提供することを目的とする。
【0011】
【課題を解決するための手段】
この発明は、検索キーを用いて検索対象文書から文書を検索する文書検索装置であって、前記検索キーから検索に用いる単語を抽出する検索キー単語抽出手段と、類義語を格納したシソーラス辞書と、前記検索キー単語抽出手段により抽出された単語と前記シソーラス辞書に基づき、前記抽出された単語の上位概念方向に類義語の抽出動作を行う類義語抽出手段と、前記検索対象文書のうち、前記類義後抽出手段により抽出された類義語を含む文書の数を算出する算出手段と、前記算出手段により算出された文書の数に応じ、前記類義語を選別する選別手段と、前記検索対象文書の中から検索対象単語を抽出する検索対象単語抽出手段と、前記検索キー単語抽出手段により得られた単語と、前記選別手段により選別された類義語と、前記検索対象単語抽出手段により得られた単語に基づき、文書を検索する検索手段を具備することを特徴とする。
【0012】
このような構成によれば、文書検索においてノイズを減らすことが可能となる。
【0013】
また、この発明は、検索キーと、類義語を格納したシソーラス辞書とを用いて検索対象文書から文書を検索する文書検索方法であって、前記検索キーから検索に用いる単語を抽出する検索キー単語抽出ステップと、前記検索キー単語抽出ステップにより抽出された単語と前記シソーラス辞書に基づき、前記抽出された単語の上位概念方向に類義語を抽出する類義語抽出ステップと、前記検索対象文書のうち、前記類義後抽出ステップにより抽出された類義語を含む文書の数を算出する算出ステップと、前記算出ステップにより算出された文書の数に応じ、前記類義語を選別する選別ステップと、前記検索対象文書の中から検索対象単語を抽出する検索対象単語抽出ステップと、前記検索キー単語抽出ステップにより得られた単語と、前記選別ステップにより選別された類義語と、前記検索対象単語抽出ステップにより得られた単語に基づき、検索を行う検索ステップを具備することを特徴とする。
【0014】
このような構成によれば、文書検索においてノイズを減らすことが可能となる。
【0015】
また、この発明は、コンピュータに対し、検索キーと、類義語を格納したシソーラス辞書とを用いて検索対象文書から文書を検索させる文書検索プログラムであって、前記検索キーから検索に用いる単語を抽出する検索キー単語抽出ステップと、前記検索キー単語抽出ステップにより抽出された単語と前記シソーラス辞書に基づき、前記抽出された単語の上位概念方向に類義語を抽出する類義語抽出ステップと、前記検索対象文書のうち、前記類義後抽出ステップにより抽出された類義語を含む文書の数を算出する算出ステップと、前記算出ステップにより算出された文書の数に応じ、前記類義語を選別する選別ステップと、前記検索対象文書の中から検索対象単語を抽出する検索対象単語抽出ステップと、前記検索キー単語抽出ステップにより得られた単語と、前記選別ステップにより選別された類義語と、前記検索対象単語抽出ステップにより得られた単語に基づき、検索を行う検索ステップとをコンピュータに実行させることを特徴とする。
【0016】
このような構成によれば、文書検索においてノイズを減らすことが可能となる。
【0017】
【発明の実施の形態】
以下、図面を参照して本発明の各実施形態について以下の通り説明する。図1は、本発明の実施形態の一つである検索装置の構成を示すブロック図である。CPU、メモリから構成される制御装置1、キーボードなどの入力装置2、検索結果などを表示する表示装置3、検索データなどを格納する外部記憶装置4、単語の情報が格納される形態素解析辞書5、類義語等、シソーラスの情報が格納されるシソーラス辞書6から構成される。
【0018】
図2は、上述の制御装置1の詳細構成例を示した図である。制御装置は制御部とメモリ部からなっている。制御部は各種制御や処理を実行する部分で、メイン処理部200、初期化部201、入力部202、出力部203、検索対象文書読み出し部204、検索対象文書単語抽出部205、検索キー文書入力部206、検索キー単語抽出部207、検索キー単語展開抑制条件設定部208、上位単語抽出部209、下位単語抽出部210、単語出現文書数算出部211、上位単語展開抑制部212、下位単語展開抑制部213、類似度算出部214、ソート部215、検索結果出力部216から構成される。
【0019】
また、メモリ部は、検索キー単語展開抑制条件バッファ部250、検索対象文書格納バッファ部251、検索対象単語格納バッファ部252、検索キー文書格納バッファ部253、検索キー単語格納バッファ部254、上位単語格納バッファ部255、下位単語格納バッファ部256、単語出現文書数格納バッファ部257、類似度格納バッファ部258、ソート結果格納バッファ部259、検索結果出力バッファ部260などから構成される。
【0020】
初期化部201は、文書検索を開始するにあたって、各バッファ部の初期化を行う。入力部202は、ユーザによる入力装置2からの検索キー文書の設定や、各種設定の入力の制御を行う。出力部203は、入力部202が行った検索キー文書や各種設定の内容を表示装置3に出力する。
【0021】
検索対象文書読み出し部204は、外部記憶装置4に格納されている文書に関する情報を文書データベース化するために、対象の文書を外部記憶装置4から読み込み、そのテキスト文書情報を検索対象文書格納バッファ部251に格納する。
【0022】
検索対象文書単語抽出部205は、検索対象文書格納バッファ部251に格納されているテキスト文書情報の単語切りを行う。そして、その文書あるいは項目の内容を表す上でキーとなる単語を抽出し、抽出された単語を検索対象単語格納バッファ部252に格納する。単語切りは、形態素解析辞書5に格納された単語情報に基づいた形態素解析を用いて行う。なお、形態素解析で用いる情報は、各単語の見出し、品詞情報(例えば「名詞」や「サ変名詞」など)、代表語などが含まれる。
【0023】
検索キー文書入力部206は、入力装置2から入力された検索キー文書のテキスト情報を検索キー文書格納バッファ部253に格納する。
【0024】
検索キー単語抽出部207は、検索キー文書格納バッファ部253に格納されているテキスト文書情報の単語切りを行う。そして、その文書の内容を表す上でキーとなる単語を抽出し、抽出された単語を検索キー単語格納バッファ部254に格納する。単語切りは、上述の検索対象文書における単語切りと同様に、形態素解析辞書5に格納された単語情報に基づいた形態素解析を用いて行う。なお、形態素解析で用いる情報は、各単語の見出し、品詞情報(例えば「名詞」や「サ変名詞」など)、代表語などが含まれる。
【0025】
検索キー単語展開抑制条件設定部208は、入力部202により、上位単語への展開を抑制する条件と、下位単語への展開を抑制する条件を指定し、検索キー単語展開抑制条件の設定内容を検索キー単語展開抑制条件バッファ部250に格納する。後述するように、この条件として、文書の数に対応する数値を入力する。
【0026】
上位単語抽出部209は、検索キー単語格納バッファ部254に格納された単語の上位単語をシソーラス辞書6から抽出し、上位単語格納バッファ部255に格納する。
【0027】
下位単語抽出部210は、検索キー単語格納バッファ部254に格納された単語の下位単語をシソーラス辞書6から抽出し、下位単語格納バッファ部256に格納する。
【0028】
単語出現文書数算出部211は、上位単語格納バッファ部255もしくは下位単語格納バッファ部256に格納された単語が、検索対象文書格納バッファ部251に格納されているテキスト文書のうち幾つの文書に存在するか累計を取り、単語出現文書数格納バッファ部257に格納する。
【0029】
上位単語展開抑制部212は、単語出現文書数格納バッファ部257に格納された単語の出現文書数が検索キー単語展開抑制条件バッファ部250に格納された、展開を抑制する条件に合致するか判定し、合致しなければ再度、上位単語抽出部209を起動し、上位単語の展開を行い、合致すれば当該単語からの上位概念方向への上位単語の展開を停止する。
【0030】
下位単語展開抑制部213は、単語出現文書数格納バッファ部257に格納された単語の出現文書数が検索キー単語展開抑制条件バッファ部250に格納された、展開を抑制する条件に合致するか判定し、合致しなければ再度、下位単語抽出部210を起動し、下位単語の展開を行い、合致すれば当該単語からの下位概念方向への下位単語の展開を停止する。
【0031】
類似度算出部214は、検索キー単語格納バッファ部254と検索対象単語格納バッファ部252と上位単語格納バッファ部255と下位単語格納バッファ部256にそれぞれ格納された単語から、後述するように検索キー文書と検索対象文書との類似度を算出し、その類似度値を類似度格納バッファ部258に格納する。
【0032】
ソート部215は、類似度格納バッファ部258に格納された類似度を元に、降順にソートを行い、ソートを行った結果の文書情報(例えば、文書ID)をソート結果格納バッファ部259に格納する。
【0033】
検索結果出力部216は、ソート結果格納バッファ部259に格納されている類似度によりソート済みの検索対象文書の情報(例えば、文書IDや類似度)を表示装置3に出力する。
【0034】
次に本発明の実施形態の一つである検索装置の動作について図3から図5のフローチャート図を参照して以下の通り説明する。図3から図5のフローチャート図は一連のものであり、図3中のステップ306に続く「1」は、図4中のステップ307の前にある「1」に対応する。ステップ306からステップ307へ処理が続いていることを示す。図4中のステップ315に続く「2」も同様に、図5の「2」に対応する。ステップ315からステップ316へ処理が続いていることを示す。
【0035】
まず、ユーザの起動指示により、初期化部201が起動してメモリ部のクリアなどの初期化処理を行う(ステップ300)。続いて検索キー単語展開抑制条件設定部208が起動し、ユーザに検索キー単語展開抑制条件の入力を促す。ユーザはここで検索条件を入力装置2から入力する。入力した内容は検索キー単語展開抑制条件格納バッファ部250に格納される(ステップ301)。
【0036】
本実施例では、検索キー単語の上位概念の単語(上位単語)に関する展開抑制の条件や、下位概念の単語(下位単語)に関する展開抑制の条件として、その単語が出現する文書の数を用いる。ユーザが入力するのは、文書の数に関する値である。例えば、図6のように、上位単語展開抑制条件として、「抑制する単語の出現文書数 = 1000」と、また下位単語展開抑制条件として、「抑制する単語の出現文書数 = 500」と入力する。これは後述するように、上位単語についてある上位単語を含む文書の数が1000を超える場合、その上位単語自身を検索に用いず、また、その上位単語からの展開も行わない、という意味である。同様に、下位単語についてある下位単語を含む文書の数が500を超える場合、その下位単語自身を検索に用いず、また、その下位単語からの展開も行わない、ということを意味する。
【0037】
このような抑制条件を設けることで、多くの文書に出現するような単語を検索から外すことができる。多くの文書に出現する単語は、それだけ一般的に使用されている単語であると考えられる。一般的な単語を検索に導入することで、ノイズが発生する可能性が高くなるため、抑制条件を加えることで一般的な単語を検索から外してノイズを減らすことが可能となる。抑制条件における値を大きくするのは、抑制条件を緩くすることに相当し、この値を小さくするのは、抑制条件を厳しくすることに相当する。検索対象文書の数の25%から50%程度の値を設定するのが好ましい。一般に、上位単語の現れる文書の数は多く、下位単語の現れる文書の数は少ない、という傾向があるので、上位単語展開抑制条件を緩く、下位単語展開抑制条件を厳しくすることが検索の効率向上に寄与する。
【0038】
続いて、検索対象文書読み出し部204が起動し、外部記憶装置4より検索対象文書を読み出し、検索対象文書格納バッファ部251へ格納する(ステップ302)。次に、検索キー文書入力部206が起動し、入力装置2より類似文書検索のキーとなる文書を読み込み、検索キー文書格納バッファ部253へと格納する(ステップ303)。
【0039】
続いて、検索キー単語抽出部207が起動し、検索キー文書格納バッファ部253へ格納された文書から、単語を切り出し、抽出した単語を検索キー単語格納バッファ部254へと格納する(ステップ304)。これは、検索キー単語抽出部207が、文書から文章を切り出し、切り出された文章に対して形態素解析を行って単語毎に分割して抽出することで行われる。図7に示すような検索キー文書について、検索キー単語を抽出した結果の例を図8に示す。
【0040】
以下、ステップ306からステップ319は、検索キー単語格納バッファ部253に格納されている単語数分、繰り返し実行される(ステップ305「展開処理」〜図5のボックス「展開処理」)。
【0041】
まず検索装置は、検索キー単語を上位単語抽出のための元となる単語として設定する(ステップ306)。
【0042】
以下、ステップ308〜314の部分は、上位単語の抽出対象となる単語に更に上位単語が存在しなくなるまで、繰り返し実行される(ステップ307「上位展開」〜ボックス「上位展開」)。
【0043】
続いて、上位単語抽出部209が起動し、ステップ306にて設定された単語の上位単語の抽出を行う(ステップ308)。上位単語の抽出にはシソーラス辞書6を用いる。
【0044】
シソーラス辞書6について、図9を参照して以下の通り説明する。シソーラス辞書とは、所定の分野ごとに、その分野に関係する類義語を、グループとしてまとめ、さらに類義語の間の上位概念・下位概念の関係を階層として反映させた辞書である。この辞書は予め人が作成する。例えば図7に示したような文書に含まれた「フルート」という単語は図9のようなシソーラス辞書に含まれている。
【0045】
図9に示すシソーラス辞書は、梱包に関連する単語のグループにあたる。このシソーラス辞書には、「梱包部材」、「外箱」、「緩衝材」、「断熱材」、「プラスチック」、「ダンボール」、「エアキャップ」等の単語が含まれ、このそれぞれ他の単語との間で上位概念・下位概念の関係で接続されている。図9はシソーラス辞書の例として挙げているので、少数の単語しか含まれていないが、実際には一つのグループについて数千語単位の単語が含まれている。
【0046】
図9の例では、「フルート」という単語については、その上位単語として「ダンボール」があり、その下位単語として「Aフルート」、「Bフルート」、「ABフルート」といった単語がある。「ダンボール」という単語についても更に上位単語として「緩衝材」、「外箱」といった単語がある。このように、所定の単語から始めて、上位単語を抽出し、さらにその上位単語の上位概念を有する別の上位単語を抽出する、といった展開が可能である。図8に示した検索キー単語のうち、「フルート」という単語について、図9のシソーラス辞書に基づいて、抑制を行わずに上位単語への展開や下位単語への展開を行った例を図10に示す。本発明の実施形態においては、展開に抑制条件がかけられるため、このような展開が全て行われるという可能性は低い。
【0047】
ステップ308においては、検索装置はシソーラス辞書6を検索し、対象となる単語に対し、直接上位概念の関係で接続されている上位単語の一つを上位単語格納バッファ255へ格納する。
【0048】
続いて、単語出現文書数算出部211が起動し、検索対象文書格納バッファ部251に格納されている文書のうち、ステップ308で得られた上位単語が何文書に出現するかを算出する(ステップ309)。算出結果は単語出現文書数格納バッファ258に格納される。検索キー単語の一つ、「フルート」の上位単語である「ダンボール」の出現文書数を算出した後の単語出現文書数格納バッファ部258の例を図11に示す。ここでは、「ダンボール」という単語が出現する文書の数が2982件あることがわかる。
【0049】
次に、上位単語展開抑制部212が起動し、単語出現文書数格納バッファ部258に格納された上位単語の出現する文書数と、検索キー単語展開抑制条件格納バッファ部250に格納されている上位単語の展開抑制条件となる文書数とを比較し、上位単語の出現する文書数が上位単語展開抑制条件の文書数より多いかどうか判別する(ステップ310)。
【0050】
上位単語の出現する文書数が上位単語展開抑制条件の文書数以下の場合、上位単語展開抑制部212は抑制を行わず、抽出した上位単語を検索キー単語に加える(ステップ310のNoからステップ311)。さらに、検索装置はこの上位単語に基づいて更に上位方向へ展開を行うため、この抽出した上位単語を次の抽出対象単語とする(ステップ312)。続く処理は同様に行われる(ステップ307「上位展開」〜ボックス「上位展開」)。
【0051】
上位単語の出現する文書数が上位単語展開抑制条件の文書数より多い場合、上位単語展開抑制部は抑制を行う。まず、抽出した上位単語を検索キー単語に加えない(ステップ310のYesからステップ313)。抑制対象となった単語からの展開は行われない。検索装置は、ステップ308で抽出した上位単語の他に抽出対象単語に上位単語が存在するかどうかを判別する(ステップ314)。ステップ308で抽出した上位単語の他に抽出対象単語に上位単語が存在する場合、他の上位単語を抽出して、同様の処理を繰り返す(ステップ314のNoからステップ308)。例えば、「ポリカABS」の上位単語「ABS樹脂」について判別を行った後、他の上位単語である「ポリカーボネイド」について同様の処理を繰り返すという場合が相当する。ステップ308で抽出した上位単語の他に抽出対象単語に上位単語が存在しない場合、抽出対象単語の上位単語についての抽出が終わったことになり、次の処理へ進む(ステップ314のYesからステップ315)。
【0052】
図12に本実施形態における上位単語への展開の例を示す。検索キー単語「フルート」に対して、上位単語の抽出を行うと、シソーラス辞書6から「ダンボール」という上位単語が抽出される。単語出現文書数算出部211が、この「ダンボール」という上位単語を含む文書の数を2982件と算出する。この件数はユーザが設定した1000件という抑制条件(閾値)を上回るため、検索装置はこの「ダンボール」という単語を検索キー単語には加えず、「ダンボール」という単語からの更なる展開も行わない。
【0053】
このようにして、所定の検索キー単語の上位単語の抽出処理を行ったのち、検索装置は続いてこの検索キー単語の下位単語の抽出を行うため、検索キー単語を下位単語の抽出対象単語にする(ステップ315)。
【0054】
以下、ステップ317〜323の部分は、下位単語の抽出対象となる単語に下位単語が存在しなくなるまで、繰り返し実行される(ステップ316「下位展開」〜ボックス「下位展開」)。
【0055】
まず下位単語抽出部210が起動し、ステップ306にて設定された単語の下位単語の抽出を行う(ステップ317)。下位単語の抽出にはシソーラス辞書6を用いる。
【0056】
ステップ317においては、検索装置はシソーラス辞書6を検索し、対象となる単語に対し直接下位概念の関係で接続されている下位単語の一つを下位単語格納バッファ256へ格納する。
【0057】
続いて、単語出現文書数算出部211が起動し、検索対象文書格納バッファ部251に格納されている文書のうち、ステップ317で得られた下位単語が何文書に出現するかを算出する(ステップ318)。算出結果は単語出現文書数格納バッファ258に格納される。検索キー単語の一つ、「フルート」の下位単語である「ダンボール」の出現文書数を算出した後の単語出現文書数格納バッファ部258の例を図13に示す。ここでは、「フルートA」という単語が出現する文書の数が792件、「フルートB」という単語が出現する文書の数が320件、「フルートAB」という単語が出現する文書の数が61件あることがわかる。
【0058】
次に、下位単語展開抑制部213が起動し、単語出現文書数格納バッファ部258に格納された下位単語の出現する文書数と、検索キー単語展開抑制条件格納バッファ部250に格納されている下位単語の展開抑制条件である文書数とを比較し、下位単語の出現する文書数が下位単語展開抑制条件の文書数より多いかどうか判別する(ステップ319)。
【0059】
下位単語の出現する文書数が下位単語展開抑制条件の文書数以下の場合、下位単語展開抑制部213は抑制を行わず、抽出した下位単語を検索キー単語に加える(ステップ319のNoからステップ320)。さらに、検索装置はこの下位単語に基づいて更に下位方向へ展開を行うため、この抽出した下位単語を次の抽出対象単語とする(ステップ321)。続く処理は同様に行われる(ステップ316「下位展開」〜ボックス「下位展開」)。
【0060】
下位単語の出現する文書数が下位単語展開の抑制条件となる文書数より多い場合、下位単語展開抑制部は抑制を行う。まず、抽出した下位単語を検索キー単語に加えない(ステップ319のYesからステップ313)。抑制対象となった単語からの展開は行われない。検索装置は、ステップ317で抽出した下位単語の他に抽出対象単語に下位単語が存在するかどうかを判別する(ステップ323)。ステップ317で抽出した下位単語の他に抽出対象単語に下位単語が存在する場合、他の下位単語を抽出して、同様の処理を繰り返す(ステップ323のNoからステップ317)。例えば、「熱硬化性樹脂」の下位単語「ウレタン樹脂」について判別を行った後、他の下位単語である「エポキシ樹脂」について同様の処理を繰り返すという場合が相当する。ステップ317で抽出した下位単語の他に抽出対象単語に下位単語が存在しない場合、抽出対象単語の下位単語についての抽出が終わったことになる。この後、次の検索キー単語について、同様に上位単語、下位単語の抽出処理を行う(ステップ323のYesからステップ305「展開処理」〜ボックス「展開処理」のループ)。
【0061】
図14に本実施形態における下位単語への展開の例を示す。検索キー単語「フルート」に対して、下位単語の抽出を行うと、シソーラス辞書6から「フルートA」、「フルートB」、「フルートAB」という下位単語が抽出される。これらの下位単語を含む文書の数はそれぞれ、792件、320件、61件である。「フルートA」という下位単語については、ユーザが設定した下位単語に関する500件という抑制条件(閾値)を上回るため、検索装置はこの「フルートA」という単語を検索キー単語には加えず、「フルートA」という単語からの更なる展開も行わない。
【0062】
検索キー単語について、上述の上位単語、下位単語の抽出が終わると、検索装置は続いて検索キー文書と検索対象文書との間の類似度を求める処理を実行する。以下、ステップ325とステップ326は外部記憶装置4に保存されている検索対象文書の件数分だけ繰り返し実行される(ステップ324「検索処理」〜ボックス「検索処理」)。
【0063】
まず、検索装置は外部記憶装置4に保存されている検索対象文書から、検索対象文書格納バッファ部251へ文書を格納し、検索対象文書単語抽出部205がこの文書から単語を形態素解析により切り出し、抽出された単語を検索対象単語格納バッファ部252へと格納する(ステップ325)。図15に示すような検索対象文書A、B、C、Dがある場合、検索対象単語格納バッファ部には、図16のように単語が格納される。図15に示すように、ここで例として用いる文書は、検索対象文書Aが「外箱にダンボールを使い安価に耐衝撃性を高める」、検索対象文書Bが「フルートAとフルートBとをあわせることでさらに強度が上がる」、検索対象文書Cが「表面をコーティングされたダンボールをコートボールという」、検索対象文書Dが「緩衝材としてポリスチレンペーパを用いた容器トレー」というものである。
【0064】
図16は、検索対象単語としてそれぞれ、検索対象文書Aについて、「外箱」、「ダンボール」、「安価」、「耐衝撃性」という単語、検索対象文書Bについて、「フルートA」、「フルートB」、「強度」という単語、検索対象文書Cについて、「表面」、「コーティング」、「ダンボール」、「コートボール」という単語、検索対象文書Dについて、「緩衝材」、「ポリスチレンペーパ」、「容器トレー」という単語が抽出された状態を示す。
【0065】
次に類似度算出部214が起動し、検索キー文書から抽出された単語を格納する検索キー単語格納バッファ部254と、検索対象文書から抽出された単語を格納する検索対象単語格納バッファ部252とを用いて、共通して出現する単語の数により類似度を算出し、その類似度値を類似度格納バッファ部259に格納する(ステップ326)。
【0066】
図17を参照して、類似度計算の例を示す。この類似度計算は、検索キー文書に含まれた検索キー単語及びその上位単語、下位単語と、検索対象文書に含まれた単語との間で一致した単語数を、検索キー文書に含まれた単語及びその上位単語、下位単語の数で除算することで実行される。図17においては、検索キー文書に含まれた検索キー単語「ボール紙」、「フルート」、「細か」、「表面強度」、「建築資材」のうち、「フルート」という単語についてのみ上位単語、下位単語の抽出を行った例を示す。本来であれば、他の単語についても、上位単語、下位単語の抽出を行うのだが、説明をわかりやすくするために、簡略化したもので説明を行う。
【0067】
検索対象文書Aについては、検索キー文書の検索キー単語及びその上位単語、下位単語と、検索対象文書Aに含まれた単語との間で一致した単語が無いため、検索対象文書Aの類似度は0.00となる。
【0068】
検索対象文書Bについては、検索キー文書の検索キー単語及びその上位単語、下位単語のうち、「フルートB」という単語が、検索対象文書Bに含まれた「フルートB」という単語に一致している。検索キー文書の検索キー単語及びその上位単語、下位単語の総数は7であるため、一致した単語数1を総単語数7で除算した商である0.14が類似度となる。同様に検索対象文書C、検索対象文書Dは検索キー文書の検索キー単語及びその上位単語、下位単語と一致する単語が無いので、それぞれ類似度は0.00となる。なお、類似度算出の方法として、ここで例示した共通単語数に基づく方式以外に、ベクトル空間法等を用いる方式を採用しても構わない。
【0069】
全ての検索対象文書との類似度が算出されたら、ソート部215が起動し、ステップ326で抽出した類似度に基づき、類似度上位から類似度下位へと降順にソートを行う。ソートを行った結果はソート結果格納バッファ部260に格納される(ステップ327)。続いて、検索装置は検索結果出力部216を起動し、ソート結果格納バッファ部258に格納されたソート結果順に、類似度格納バッファ部259に格納された類似度や、検索対象文書の文書情報(例えば、文書ID)を表示装置3に出力する(ステップ328)。出力結果の例を図18に示す。この例では、検索対象文書Bが検索キー文書との類似度が0.14となり、類似度が最も高い文書であることを示している。以上で、一連の検索処理が終了する。
【0070】
本発明においては、検索キー単語の上位単語、下位単語を抽出するために、抑制条件を用いたが、このような抑制条件を用いない場合との比較について以下の通り説明する。検索キー文書や検索対象文書の例は上記実施形態の説明において使用した例を用いる。
【0071】
検索キー単語の上位単語、下位単語の抽出にあたり、抑制条件を用いない場合、図10に示したような展開が実行される。単語の出現する文書数に関係なく展開が行われる。先に述べたとおり、多くの文書に出現する単語はそれだけ、一般的な単語であると考えられる。一般的な単語による検索キー文書と検索対象文書間の一致はノイズとなる文書の類似度を上げてしまう可能性がある。
【0072】
図19を参照して具体例を示す。図19は抑制条件が無い状態で上位単語、下位単語の展開を行って、検索キー文書と検索対照文書との間の類似度を算出した例である。一般的な単語である「ダンボール」が比較的多くの文書に出現するため、検索対象文書Aの類似度が高くなっている。一方、検索対象文書Bについては、出現文書数が少なく、他の文書との差異を明瞭に示す単語「フルートB」という単語について一致しているのにも関わらず、検索対象文書Aと同じ類似度である。
【0073】
本発明の実施形態のように抑制条件による上位単語、下位単語の展開抑制により、より専門的な単語の優先度を上げることが可能となり、文書間の類似度算出時にノイズとなる単語を削減できるため、結果、類似文書の検索におけるノイズを削減することが可能となる。
【0074】
上述の実施形態においては、上位単語、下位単語の両方について単語の抽出と展開の抑制を行ったが、上位単語についてだけ抽出、展開の抑制を行う方法、下位単語についてだけ抽出、展開の抑制を行う方法ももちろん可能である。特に上位単語に関しては、上位単語の現れる文書の数は多いことが普通なので、上位単語について展開の抑制を行うことはノイズを減らす効果が大きい。
【0075】
また、上述の実施形態においては、抑制条件を適用する対象として、検索キー単語から展開した上位単語、下位単語を対象にしていたが、検索キー単語そのものを抑制対象とすることも可能である。この場合、検索キー単語についてもその検索キー単語を含む文書の数を算出し、この文書数が所定の値よりも大きい場合には、対象の検索キー単語そのものを検索に用いないようにする。
【0076】
さらに、他の実施形態として、上位単語、下位単語の展開を行い、全ての上位単語、下位単語を抽出した後、それぞれの単語を含む文書の数を算出して、抑制条件を適用する、という方法がある。この方法では、例えば「ダンボール」が抑制対象となった場合でも、その上位単語「緩衝材」が抑制条件の範囲内であれば、検索に用いる単語としてすくい上げることが可能となる。上述の実施形態に比べて処理時間はかかるが、よりきめの細かい検索が可能となる。
【0077】
なお、上記実施形態の説明においては、検索のキーとして文書を用いたが、単語だけを入力しても、同様に上位語、下位語の展開を用いた検索が可能である。文書から単語を抽出するステップを省略するだけで対応することができる。また、日本語によるシステムで説明をしたが、他言語にも同システムを適用することが可能である。
【0078】
【発明の効果】
以上説明したように、この発明によれば、文書検索においてノイズを減らすことが可能となる。
【図面の簡単な説明】
【図1】本発明の実施形態に係わる文書検索装置の構成を示すブロック図。
【図2】本発明の実施形態に係わる文書検索装置の制御装置のブロック図。
【図3】本発明の実施形態に係わる文書検索装置の動作を示すフローチャート図。
【図4】本発明の実施形態に係わる文書検索装置の動作を示すフローチャート図。
【図5】本発明の実施形態に係わる文書検索装置の動作を示すフローチャート図。
【図6】本発明の実施形態における文書検索時の条件入力画面の例を示す図。
【図7】検索キー文書の例を示す図。
【図8】検索キー文書からの単語抽出の例を示す図。
【図9】シソーラス辞書の内容の例を示す図。
【図10】検索キー単語格納バッファ部及び上位単語バッファ部、下位単語バッファ部のデータ構造の例を示す図。
【図11】検索キー単語より抽出された上位単語の出現文書数を算出した単語出現文書数格納バッファ例を示す図。
【図12】本発明による上位単語の展開を行った上位単語バッファ部のデータ構造の例を示す図。
【図13】検索キー単語より抽出された下位単語の出現文書数を算出した単語出現文書数格納バッファ例を示す図。
【図14】本発明による下位単語の展開を行った下位単語バッファ部のデータ構造の例を示す図。
【図15】検索対象文書の例を示す図。
【図16】検索対象から抽出した検索対象単語の格納バッファ例を示す図。
【図17】本発明の実施形態における類似度算出例を示す図。
【図18】類似文書検索結果の例を示す図。
【図19】展開の抑制を行わなかった場合の類似度算出例を示す図。
【符号の説明】
1…制御装置、2…入力装置、3…表示装置、4…外部記憶装置、5…形態素解析辞書、6…シソーラス辞書、200…メイン処理部、201…初期化部、202…入力部、203…出力部、204…検索対象文書読み出し部、205…検索対象文書単語抽出部、206…検索キー文書入力部、207…検索キー単語抽出部、208…検索キー単語展開抑制条件設定部、209…上位単語抽出部、210…下位単語抽出部、211…単語出現文書数算出部、212…上位単語展開抑制部、213…下位単語展開抑制部、214…類似度算出部、215…ソート部、216…検索結果出力部、250…検索キー単語展開抑制条件バッファ部、251…検索対象文書格納バッファ部、252…検索対象単語格納バッファ部、253…検索キー文書格納バッファ部、254…検索キー単語格納バッファ部、255…上位単語格納バッファ部、256…下位単語格納バッファ部、257…単語出現文書数格納バッファ部、258…類似度格納バッファ部、259…ソート結果格納バッファ部、260…検索結果出力バッファ部

Claims (10)

  1. 検索キーを用いて検索対象文書から文書を検索する文書検索装置であって、
    前記検索キーから検索に用いる単語を抽出する検索キー単語抽出手段と、
    類義語を格納したシソーラス辞書と、
    前記検索キー単語抽出手段により抽出された単語と前記シソーラス辞書に基づき、前記抽出された単語の上位概念方向に類義語の抽出動作を行う類義語抽出手段と、
    前記検索対象文書のうち、前記類義後抽出手段により抽出された類義語を含む文書の数を算出する算出手段と、
    前記算出手段により算出された文書の数に応じ、前記類義語を選別する選別手段と、
    前記検索対象文書の中から検索対象単語を抽出する検索対象単語抽出手段と、前記検索キー単語抽出手段により得られた単語と、前記選別手段により選別された類義語と、前記検索対象単語抽出手段により得られた単語に基づき、文書を検索する検索手段を具備することを特徴とする文書検索装置。
  2. 前記選別手段は、前記算出手段により算出された文書の数が、所定の閾値を上回る場合、前記算出手段による算出対象となった類義語を検索に使用しないように選別することを特徴とする請求項1記載の文書検索装置。
  3. 前記文書検索装置は更に、前記選別手段が前記類義語を選別する際に用いる前記閾値を入力する入力装置を具備することを特徴とする請求項2記載の文書検索装置。
  4. 前記類義語抽出手段は、類義語を抽出した後、当該類義語と前記シソーラス辞書に基づき、当該類義語の上位概念方向に更に類義語の抽出動作を行うことを特徴とする請求項1記載の文書検索装置。
  5. 前記類義語抽出手段は、類義語を抽出した後、当該類義語と前記シソーラス辞書に基づき、当該類義語の上位概念方向に更に類義語の抽出動作を行い、前記選別手段により類似度算出時に使用しないように選別された類義語については、その選別された類義語に基づく類義語の抽出動作を行わないことを特徴とする請求項1記載の文書検索装置。
  6. 前記文書検索装置は更に、前記検索キー単語抽出手段により抽出された単語を含む文書の数を算出する第二の算出手段と、
    前記第二の算出手段により算出された文書の数が、所定の閾値を上回る場合、前記第二の算出手段による算出対象となった単語を前記類似度算出時に使用しないように選別する第二の選別手段を具備することを特徴とする請求項1記載の文書検索装置。
  7. 前記検索手段は更に、前記検索キー文書と前記検索対象文書の間の類似度を求める類似度算出手段を具備し、
    前記文書検索装置は更に、前記類似度算出手段により算出された類似度に基づき、検索結果を出力する出力手段を具備することを特徴とする請求項1記載の文書検索装置。
  8. 検索キーを用いて検索対象文書から文書を検索する文書検索装置であって、
    前記検索キーから検索に用いる単語を抽出する検索キー単語抽出手段と、
    類義語を格納したシソーラス辞書と、
    前記検索キー単語抽出手段により抽出された単語と前記シソーラス辞書に基づき、前記抽出された単語の上位概念方向に類義語の抽出動作を行う第一の類義語抽出手段と、
    前記検索対象文書のうち、前記第一の類義後抽出手段により抽出された類義語を含む文書の数を算出する第一の算出手段と、
    前記第一の算出手段により算出された文書の数に応じ、前記類義語を選別する第一の選別手段と、
    前記検索キー単語抽出手段により抽出された単語と前記シソーラス辞書に基づき、前記抽出された単語の下位概念方向に類義語の抽出動作を行う第二の類義語抽出手段と、
    前記検索対象文書のうち、前記第二の類義後抽出手段により抽出された類義語を含む文書の数を算出する第二の算出手段と、
    前記第二の算出手段により算出された文書の数に応じ、前記類義語を選別する第二の選別手段と、
    前記検索対象文書の中から検索対象単語を抽出する検索対象単語抽出手段と、前記検索キー単語抽出手段により得られた単語と、前記第一の選別手段により選別された類義語と、前記第二の選別手段により選別された類義語と、前記検索対象単語抽出手段により得られた単語に基づき検索を行う検索手段とを具備することを特徴とする文書検索装置。
  9. 検索キーと、類義語を格納したシソーラス辞書とを用いて検索対象文書から文書を検索する文書検索方法であって、
    前記検索キーから検索に用いる単語を抽出する検索キー単語抽出ステップと、前記検索キー単語抽出ステップにより抽出された単語と前記シソーラス辞書に基づき、前記抽出された単語の上位概念方向に類義語を抽出する類義語抽出ステップと、
    前記検索対象文書のうち、前記類義後抽出ステップにより抽出された類義語を含む文書の数を算出する算出ステップと、
    前記算出ステップにより算出された文書の数に応じ、前記類義語を選別する選別ステップと、
    前記検索対象文書の中から検索対象単語を抽出する検索対象単語抽出ステップと、
    前記検索キー単語抽出ステップにより得られた単語と、前記選別ステップにより選別された類義語と、前記検索対象単語抽出ステップにより得られた単語に基づき、検索を行う検索ステップを具備することを特徴とする文書検索方法。
  10. コンピュータに対し、検索キーと、類義語を格納したシソーラス辞書とを用いて検索対象文書から文書を検索させる文書検索プログラムであって、
    前記検索キーから検索に用いる単語を抽出する検索キー単語抽出ステップと、前記検索キー単語抽出ステップにより抽出された単語と前記シソーラス辞書に基づき、前記抽出された単語の上位概念方向に類義語を抽出する類義語抽出ステップと、
    前記検索対象文書のうち、前記類義後抽出ステップにより抽出された類義語を含む文書の数を算出する算出ステップと、
    前記算出ステップにより算出された文書の数に応じ、前記類義語を選別する選別ステップと、
    前記検索対象文書の中から検索対象単語を抽出する検索対象単語抽出ステップと、
    前記検索キー単語抽出ステップにより得られた単語と、前記選別ステップにより選別された類義語と、前記検索対象単語抽出ステップにより得られた単語に基づき、検索を行う検索ステップとをコンピュータに実行させる文書検索プログラム。
JP2002276638A 2002-09-24 2002-09-24 文書検索装置、文書検索方法及び文書検索プログラム Pending JP2004118262A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002276638A JP2004118262A (ja) 2002-09-24 2002-09-24 文書検索装置、文書検索方法及び文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002276638A JP2004118262A (ja) 2002-09-24 2002-09-24 文書検索装置、文書検索方法及び文書検索プログラム

Publications (1)

Publication Number Publication Date
JP2004118262A true JP2004118262A (ja) 2004-04-15

Family

ID=32272455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002276638A Pending JP2004118262A (ja) 2002-09-24 2002-09-24 文書検索装置、文書検索方法及び文書検索プログラム

Country Status (1)

Country Link
JP (1) JP2004118262A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102487A (ja) * 2005-10-04 2007-04-19 Ricoh Co Ltd 蔵書検索方法、蔵書検索システム及び蔵書検索プログラム
WO2010106642A1 (ja) * 2009-03-17 2010-09-23 富士通株式会社 検索処理方法及び装置
US8572082B2 (en) 2011-03-24 2013-10-29 Casio Computer Co., Ltd Method and device for generating a similar meaning term list and search method and device using the similar meaning term list
WO2013162011A1 (ja) * 2012-04-27 2013-10-31 株式会社 東芝 文書成分分析装置およびプログラム
JP2014106723A (ja) * 2012-11-27 2014-06-09 Kddi Corp 検索情報難読化装置、検索情報難読化方法、およびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102487A (ja) * 2005-10-04 2007-04-19 Ricoh Co Ltd 蔵書検索方法、蔵書検索システム及び蔵書検索プログラム
WO2010106642A1 (ja) * 2009-03-17 2010-09-23 富士通株式会社 検索処理方法及び装置
GB2481333A (en) * 2009-03-17 2011-12-21 Fujitsu Ltd Search processing method and apparatus
US20120072406A1 (en) * 2009-03-17 2012-03-22 Fujitsu Limited Search processing method and apparatus
JP5110201B2 (ja) * 2009-03-17 2012-12-26 富士通株式会社 検索処理方法及び装置
US8572082B2 (en) 2011-03-24 2013-10-29 Casio Computer Co., Ltd Method and device for generating a similar meaning term list and search method and device using the similar meaning term list
WO2013162011A1 (ja) * 2012-04-27 2013-10-31 株式会社 東芝 文書成分分析装置およびプログラム
JP2013232058A (ja) * 2012-04-27 2013-11-14 Toshiba Corp 文書成分分析装置およびプログラム
JP2014106723A (ja) * 2012-11-27 2014-06-09 Kddi Corp 検索情報難読化装置、検索情報難読化方法、およびプログラム

Similar Documents

Publication Publication Date Title
Zhang et al. Keyword extraction using support vector machine
TWI536181B (zh) 在多語文本中的語言識別
US20090024385A1 (en) Semantic parser
US20060031207A1 (en) Content search in complex language, such as Japanese
Naidu et al. Text summarization with automatic keyword extraction in telugu e-newspapers
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
US20110282858A1 (en) Hierarchical Content Classification Into Deep Taxonomies
JP2011227688A (ja) テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
Krishnaveni et al. Automatic text summarization by local scoring and ranking for improving coherence
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN102262765A (zh) 一种发布商品信息的方法及装置
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
CN110019669A (zh) 一种文本检索方法及装置
JP2009129323A (ja) 同義語抽出装置
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
JP2004118262A (ja) 文書検索装置、文書検索方法及び文書検索プログラム
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2004030202A (ja) 特徴語抽出システム
Popova et al. Keyphrase extraction using extended list of stop words with automated updating of stop words list
CN115809328A (zh) 一种文本摘要的生成方法、装置及设备
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2003345824A (ja) 文書検索装置及び文書検索方法、文書検索プログラム
Testas Natural Language Processing with Pandas, Scikit-Learn, and PySpark

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606