JP2005050239A - 文書検索装置、文書検索方法および文書検索プログラム - Google Patents

文書検索装置、文書検索方法および文書検索プログラム Download PDF

Info

Publication number
JP2005050239A
JP2005050239A JP2003283493A JP2003283493A JP2005050239A JP 2005050239 A JP2005050239 A JP 2005050239A JP 2003283493 A JP2003283493 A JP 2003283493A JP 2003283493 A JP2003283493 A JP 2003283493A JP 2005050239 A JP2005050239 A JP 2005050239A
Authority
JP
Japan
Prior art keywords
document
word
search
search key
unnecessary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003283493A
Other languages
English (en)
Other versions
JP3881638B2 (ja
Inventor
Tsutomu Kobayashi
勉 小林
Yoshihisa Otake
能久 大嶽
Hiroshi Yamazaki
弘 山崎
Yukio Nakamoto
幸夫 中本
Takeshi Matsukuma
剛 松隈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003283493A priority Critical patent/JP3881638B2/ja
Publication of JP2005050239A publication Critical patent/JP2005050239A/ja
Application granted granted Critical
Publication of JP3881638B2 publication Critical patent/JP3881638B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】シソーラスを検索処理に用いた場合における不要語の判別を適切に実行することを可能とした文書検索装置を提供する。
【解決手段】制御装置1は、入力装置2により検索キー文書を入力すると、その文書の単語切りを形態素解析を用いて実行する。また、制御装置1は、外部記憶装置4に格納された検索対象文書の単語切りも形態素解析を用いて実行する。次に、制御装置1は、この単語切りによって抽出された各単語をシソーラス辞書6の同義語情報を用いて同義語グループへのまとめ上げを行った後、その検索キー単語それぞれがいくつの文書に出現するかを算出する。そして、制御装置1は、その出現頻度が所定の閾値を越える単語を不要語に設定したうえで、検索キー文書と各検索対象文書との類似度を算出する。
【選択図】 図1

Description

この発明は、文書データベース中から所望の内容をもつ文書を検出するための文書検索装置、文書検索方法および文書検索プログラムに関する。
複数の検索対象文書から所望の文書を抽出する技術として、検索キーとして与えられる文書と類似した文書を検索する手法が存在する。この類似文書検索を実行する類似文書検索装置は、検索キーである文書から抽出された単語と、検索対象文書から抽出された単語とを比較して、その検索キー文書と検索対象文書との類似度を算出し、類似度の高いものを類似文書として複数の検索対象文書中より抽出するのが一般的である。
また、この類似度の算出方法には、検索キー文書と検索対象文書とから抽出された単語の抽出数や抽出場所等を元にベクトル空間法を用いて算出する方法等がある(例えば非特許文献1参照)。
ところで、検索処理においては、検索に不適切または不要な単語、検索に用いるとノイズとなる可能性があるため使用することを抑えたい単語がある。これらをまとめて不要語という。そして、この検索処理に対してノイズとなる単語である不要語の判別および抑制処理は、辞書や情報ファイルに登録された不要語の情報を用いるか、検索実行時にユーザが入力インタフェースを介して指定するなどの方式がとられている(例えば特許文献1参照)。
このように、検索処理では、不要語を検索キーから除外して検索したいわけだが、特許文献1の方式では、不要語の判別処理は、事前に情報として登録しておくか、ユーザがインタフェースから指定するしかない。不要語の情報を事前に登録し、またはユーザが指定するにしても、不要語の判断は、検索対象の分野に対して広い知識と経験が必要で、難易度の高いものである。また、不要語の判断を行う者の、主観が入りやすく、他者には使い難い不要語の情報となってしまうことも有り得る。
このようなことから、ユーザが不要とすべき単語を1つ1つ登録しなくとも、不要語とすべき単語をリストアップする機能を備えた類似文書検索装置も開発されている(例えば特許文献2参照)。
特開2000−181925号公報 特開平11−259515号公報 全文検索システム協議会発行「『全文検索システムとは何か?』2002年版」(第12頁「・概念検索」)。
さらに、検索処理においては、シソーラスなどを用いる場合がある。検索装置に使用されるシソーラスは、その検索装置向けに作成されることもあるが、実用レベルのシソーラス構築には多大な労力がかかるため、汎用のシソーラスを使用することも多い。この汎用のシソーラスを組み込んで使用する場合、検索には不必要なデータがシソーラス中に存在することがある。そして、このような単語は、検索効率を落とす要因となりうるため、これら不要語の判別処理を容易かつ人手を煩わせずに実現したい。しかしながら、前述の特許文献2の類似文書検索装置における不要語のリストアップ手法では、シソーラスの利用が考慮されておらず、その適用は不可能である。
この発明はこのような事情を考慮してなされたものであり、シソーラスを検索処理に用いた場合における不要語の判別を適切に実行することを可能とした文書検索装置、文書検索方法および文書検索プログラムを提供することを目的とする。
前述した目的を達成するために、この発明は、与えられた文書の内容と類似する内容をもつ文書を文書データベース中から検出する文書検索装置において、前記文書データベース中の各文書からその内容を表す検索対象単語を抽出する検索対象単語抽出手段と、前記与えられた文書から検索キーとなる検索キー単語を抽出する検索キー単語抽出手段と、前記検索キー単語抽出手段により抽出された検索キー単語および前記検索対象単語抽出手段により抽出された検索対象単語をシソーラス情報により同義語グループにまとめ上げてその同義語グループを代表する単語に置き換える同義語統制手段と、前記同義語統制手段により同義語統制が施された後の各検索キー単語が前記文書データベース中のいくつの文書に存在するかの総計を取る出現文書数算出手段と、前記出現文書数算出手段により求められた出現文書数に基づき、前記検索キー単語それぞれについて不要語で有るか否かを判断する不要語判別手段と、前記検索キー文書と前記文書データベース中の各文書との類似度を前記不要語判別手段の判別結果を用いて算出する類似度算出手段とを具備することを特徴とする。
この発明の文書検索装置においては、文書データベースに登録された文献内の各単語の文書データベースに対する出現頻度をシソーラス情報により同義語グループにまとめ上げたうえで算出し、その出現頻度と例えばユーザから指定された閾値とを比較して、閾値を上回る出現頻度を持つ単語を不要語として扱う。この閾値は、例えば文献数やデータベースの登録文献数に対する割合などである。
これにより、不要語の判断がシソーラス情報を活用しつつ文書検索装置側で行われ、容易に不要語の特定を行えることとなり、また、人手を介さないため、客観的な不要語判断が実現される。
また、登録文書数の異なる複数のデータベースが検索対象であった場合、各々のデータベースに不要語の閾値をそれぞれ設定する必要があり、登録文書数が増減すれば、その都度、そのデータベースの閾値を設定し直さなければならないが、文書数に対する割合を閾値として指定可能とすることにより、データベース毎または登録文書数の増減に伴って閾値を指定し直すことを不要とすることができる。
以上のように、この発明によれば、シソーラスを検索処理に用いた場合における不要語の判別を適切に実行することを可能とした文書検索装置、文書検索方法および文書検索プログラムを提供できる。
以下、図面を参照しながら、この発明の実施形態を説明する。
(第1実施形態)
まず、この発明の第1実施形態について説明する。
図1は、この発明の第1実施形態に係る文書検索装置のブロック構成図である。図1に示すように、この文書検索装置は、CPUおよびメモリから構成される制御装置1、キーボードなどの入力装置2、類似検索結果などを表示する表示装置3、検索データなどを格納する外部記憶装置4、単語の情報が格納される形態素解析辞書5およびシソーラスの情報が格納されるシソーラス辞書6から構成される。
図2は、制御装置1の詳細構成例を示した図である。制御装置1は、制御部とメモリ部とからなっている。制御部は、各種制御や処理を実行する部分であり、メイン処理部200、初期化部201、入力部202、出力部203、検索対象文書読み出し部204、検索対象文書単語抽出部205、検索キー文書入力部206、検索キー単語抽出部207、出現文書数算出部208、不要語条件指定部209、不要語判別部210、類似度算出部211、ソート部212、検索結果出力部213および同義語統制部214等から構成される。
一方、メモリ部は、検索対象文書格納バッファ部250、検索対象単語情報格納バッファ部251、検索キー文書格納バッファ部252、検索キー単語格納バッファ部253、出現文書数格納バッファ部254、不要語条件格納バッファ部255、不要語格納バッファ部256、類似度格納バッファ部257、ソート結果格納バッファ部258、検索結果出力バッファ部259等から構成される。
メイン処理部200は、制御部全体の動作を司るものであり、その他の各制御部は、すべてこのメイン処理部200の制御下で動作する。初期化部201は、各バッファ部の初期化を行う。入力部202は、ユーザが入力装置2を操作することにより行う検索キー文書の設定等の各種設定を受け付ける。出力部203は、入力部202によって行った検索キー文書等の各種設定の内容を表示装置3に出力する。
検索対象文書読み出し部204は、外部記憶装置4に格納されている文書に関する情報を文書データベース化するために、対象の文書を外部記憶装置4から読み込み、そのテキスト文書情報を検索対象文書格納バッファ部250に格納する。検索対象文書単語抽出部205は、検索対象文書格納バッファ部250に格納されているテキスト文書情報の単語切りを行った後、その文書または項目の内容を表す上でキーとなる単語を抽出し、抽出された単語種を検索対象単語情報格納バッファ部251に格納する。この単語切りは、いわゆる形態素解析を用いて行う。なお、形態素解析により取得される情報には、各単語の見出し、品詞情報(例えば「名詞」や「サ変名詞」など)、代表語などが含まれる。また、これらの単語情報は形態素解析辞書5に格納されている。
検索キー文書入力部206は、入力装置2から入力された検索キー文書のテキスト情報を検索キー文書格納バッファ部252に格納する。検索キー単語抽出部207は、検索キー文書格納バッファ部252に格納されているテキスト文書情報の単語切りを行う。そして、その文書の内容を表す上でキーとなる単語を抽出し、抽出された単語情報を検索キー単語格納バッファ部253に格納する。この単語切りも、前述と同様に、形態素解析を用いて行い、この形態素解析により取得される情報には、各単語の見出し、品詞情報(例えば「名詞」や「サ変名詞」など)、代表語などが含まれる。また、これらの単語情報は形態素解析辞書5に格納されている。
同義語統制部214は、検索キー単語格納バッファ部253または検索対象単語情報格納バッファ部251に格納されている単語を、シソーラス辞書6の同義語情報により、代表的な単語(同義語グループ)へとまとめ上げを行う。出現文書数算出部208は、検索キー単語格納バッファ部253に格納されている単語または同義語グループが、検索対象単語情報格納バッファ部251のいくつの文書に出現するか(出現頻度)を求めて出現文書数格納バッファ部254に格納する。
不要語条件指定部209は、入力装置2から入力された不要語の判断に用いる閾値を不要語条件格納バッファ部255に格納する。不要語判別部210は、出現文書数格納バッファ部254に格納された単語の出現文書数と、不要語条件格納バッファ部255に格納された閾値とを比較して不要語の判断を行い、不要語と判断した単語を不要語格納バッファ部256に格納する。
類似度算出部211は、検索キー単語格納バッファ部253、検索対象単語情報格納バッファ部251および不要語格納バッファ部256から、検索キー文書と検索対象文書との類似度を算出し、その類似度値を類似度格納バッファ部257に格納する。ソート部212は、類似度格納バッファ部257に格納された類似度を元に降順にソートを行い、ソートを行った結果の文書情報(例えば、文書ID)をソート結果格納バッファ部258に格納する。そして、検索結果出力部213は、ソート結果格納バッファ部258に格納されている類似度によりソート済みの検索対象文書の情報(例えば文書IDや類似度)を表示装置3に出力する。
次に、図3のフローチャートを参照しながら、この第1実施形態の文書検索装置の動作手順について説明する。
この第1実施形態の文書検索装置では、まず、初期化部201が起動し、メモリ部のクリアなどを行う(ステップA1)。続いて、不要語条件指定部209が起動し、不要語を判断するための閾値を入力装置2より入力する(ステップA2)。この入力された不要語条件は、不要語条件格納バッファ部255に格納される。図4は、単語の出現頻度が1,000以上であった場合に不要語とする条件を設定した場合の例である。
次に、検索対象文書読み出し部204が起動し、外部記憶装置4より検索対象文書を読み出して検索対象文書格納バッファ部250へ格納する(ステップA3)。続いて、検索キー文書入力部206が起動し、入力装置2より類似文書検索のキーとなる文書を読み込み、検索キー文書格納バッファ部252へ格納する(ステップA4)。
さらに、検索キー単語抽出部207が起動し、検索キー文書格納バッファ部252へ格納された文書より文章を切り出す。ここで切り出された文章は、形態素解析などにより単語毎に分割され、抽出された単語情報が検索キー単語格納バッファ部253へと格納される(ステップA5)。例えば図5のような検索キー文書の場合、検索キー文書の形態素解析結果およびこの形態素解析結果より抽出されて検索キー単語格納バッファ部253に格納される検索キー単語は図6のようになる。図6中、(A)は、形態素解析結果、(B)は、検索キー単語格納バッファ部253の格納例である。
次に、同義語統制部214が起動し、シソーラス辞書6に登録された同義語情報を用いて、検索キー単語格納バッファ部253に格納された各単語の当該単語を代表する単語への置き換えを試みる(ステップA6)。例えばシソーラス辞書6の同義語情報が図7に示すようなものであった場合、「素材」「原料」「材料」は、一つの「素材」という単語にまとめ上げられ、「素材」グループを構成する。そして、このような同義語情報をもつシソーラス辞書6を用いて、図6に示した内容の検索キー単語格納バッファ部253に対して同義語による統制が行われると、図8のような変換がなされることになる。なお、シソーラス辞書6に同義語情報の無い単語は、その置き換えが発生しない。
次に、出現文書数算出部208が起動し、検索キー単語または同義語グループが、検索対象文書格納バッファ部250に登録された文書のうち、いくつの文献に出現するか出現頻度を求める(ステップA7)。このステップA7は、検索キー単語格納バッファ部253に格納されている単語数分繰り返し実行される。図6に示した内容の検索キー単語格納バッファ部253に格納の同義語グループの出現頻度を求めた結果、出現文書数格納バッファ部254の内容は図9のようになる。
次に、不要語判別部210が起動し、出現文書数格納バッファ部254に格納された出現頻度と、不要語条件格納バッファ部255に格納された不要語の閾値とを比較する(ステップA8)。そして、比較した結果、出現頻度が閾値を上回っていた場合(ステップA8のYES)、その単語を不要語とみなして不要語格納バッファ部256に格納する(ステップA9)。このステップA8〜ステップA9は、検索キー単語格納バッファ部253に格納されている同義語グループ数分繰り返し実行される。図10は、検索キー単語格納バッファ部253に格納されている単語に対してステップA8〜ステップA9の不要語判断処理を行った結果を格納した不要語格納バッファ部256を示す図である。
次に、検索対象文書単語抽出部205が起動し、検索対象文書格納バッファ部250へ格納された文書より形態素解析などによって切り出された単語情報を検索対象単語情報格納バッファ部251へと格納する(ステップA10。例えば図11に示すような検索対象文書A〜Dがあった場合、検索対象単語情報格納バッファ部251には、それぞれ図12のように単語が格納されることになる。
続いて、同義語統制部214が起動し、シソーラス辞書6に登録された同義語情報を用いて、検索対象単語情報格納バッファ部251に格納された各単語の当該単語を代表する単語への置き換えを試みる(ステップA11)。前述の図7に示した同義語情報をもつシソーラス辞書6の場合、図12に示した内容の検索キー単語格納バッファ部253に対して同義語による統制が行われると、それぞれ図13のように変換される。また、シソーラス辞書6に同義語情報の無い単語は、置き換えは発生しない。
続いて、類似度算出部211が起動し、検索キー単語格納バッファ部253に格納されている単語の中から不要語格納バッファ部256に格納された単語を除外する(ステップA12)。そして、不要語を除外した検索キー単語と、検索対象単語情報格納バッファ部251に格納された検索対象単語とを比較して、共通して出現する単語の数により類似度を算出し、その類似度値を類似度格納バッファ部257に格納する(ステップ13)。以上のステップA10〜ステップA13は、検索対象文書格納バッファ部250に格納されている検索対象文書の件数分繰り返し実行される。なお、類似度算出方式としては、ここに挙げた共通単語数から算出する以外に、ベクトル空間法などを用いてもよい。
図14は、この第1実施形態の文書検索装置による類似度の算出式の一例を示す図である。また、従来の方式による類似度算出例を図15に示す。
図5のような検索キー文書の場合、図11の検索対象文書A〜Dのうち、Dの類似度を高くしたい。「肉」という食材の「調理器具」であるためである。しかしながら、図15に示した従来の例では、「素材」や「装置」のような出現数の多い単語による共通単語により、検索対象文書Aや検索対象文書Bの類似度が高くなってしまっている。
これに対して、この第1実施形態の文書検索装置では、図14に示したように、シソーラス辞書6を活用して、出現数の多い単語による一致を無くすことにより、より意味の近い文書を類似度の上位に持ってくることが可能である。
また、図16は、ステップA10〜ステップA13を行った結果を格納した類似度格納バッファ部257の内容を示す図である。そして、全ての検索対象文書との類似度が算出されたら、ソート部212が起動し、ステップA13で取得された類似度格納バッファ部257の内容を類似度上位から下位へと降順にソートを行う。ソートを行った結果は、ソート結果格納バッファ部258へ格納される(ステップA14)。図17は、この場合のソート結果格納バッファ部258の内容を示す図である。
続いて、検索結果出力部213が起動され、ソート結果格納バッファ部258に格納されたソート結果順に、類似度格納バッファ部257に格納された類似度や検索対象文書の文書情報(例えば文書ID)を表示装置3に出力する(ステップA15)。図18は、その出力結果である。
このように、この第1実施形態の文書検索装置は、シソーラス辞書6を活用し、検索キー文書の単語から文書データベース中に多く出現する単語を不要語として抑制することにより、ノイズとなる文書との類似度を抑えることができる。また、不要語の判断基準を単語毎の出現文書数という統計的な値にすることにより、主観を排した不要語の判断が可能となる。
(第2実施形態)
次に、この発明の第2実施形態について説明する。
図19は、この発明の第2実施形態に係る文書検索装置のブロック構成図である。図19に示すように、この第2実施形態の文書検索装置では、複数のデータベースを検索対象とする。
また、図20は、この第2実施形態の文書検索装置における制御装置1の詳細構成例を示した図である。
この第2実施形態の文書検索装置における制御装置1の詳細構成と、前述した第1実施形態の文書検索装置における制御装置1の詳細構成との違いは、この第2実施形態の文書検索装置における制御装置1では、制御部に登録文書数算出部215、メモリ部に登録文書数格納バッファ部260がそれぞれ新設された点にある。
さらに、図21は、この第2実施形態の文書検索装置の動作手順を示すフローチャートである。図21中、ステップB1〜ステップB15は、図3のステップA1〜ステップA15にそれぞれ対応する。そして、その違いは、ステップB16〜ステップB17が、ステップB3とステップB34との間に介在する点にある。以下、この相違点を軸に、この第2実施形態の文書検索装置の動作原理を説明する。
この第2実施形態において、不要語条件指定部209は、不要語を判断するための閾値を図22に示すような条件として入力装置2より入力する(ステップB2)。この入力された不要語条件は、不要語条件格納バッファ部255に格納される。この図22に示した例では、単語の出現頻度がデータベース登録件数の10%以上であった場合に不要語とする条件が設定されている。
この不要語条件が設定された後、検索対象文書読み出し部204による検索対象文書の読み出しが行われると(ステップB3)、登録文書数算出部215が起動し、各々のデータベースに登録された検索対象文書の件数を算出する(ステップB16)。図23は、各データベースの登録文書件数を算出した結果を保持した登録文書数格納バッファ部260の例である。そして、この検索対象文書件数の算出を終えると、不要語判別部210が起動し、不要語条件格納バッファ部255に格納された条件と登録文書数格納バッファ部260に登録された文書件数とを掛け合わせることにより、データベース毎の不要語の閾値を算出する(ステップB17)。
つまり、この第2実施形態の文書検索装置は、複数のデータベースに対して検索を行う場合の便宜を図ったものであり、第1の実施形態の文書検索装置は、例えば図24に示すように、各データベースに対する閾値を指定しなければならないのに対し、この第2実施形態の文書検索装置では、図22に示したように、1つの閾値の指定で十分であり、各々のデータベースに指示を出す必要を無くすことができる。
(第3実施形態)
次に、この発明の第3実施形態について説明する。
この第3実施形態に係る文書検索装置のブロック構成図は、前述した第1実施形態と同様であるため、ここでは、その説明は省略する。また、図25は、この第3実施形態の文書検索装置における制御装置1の詳細構成例を示した図である。
この第3実施形態の文書検索装置における制御装置1の詳細構成と、前述した第1実施形態の文書検索装置における制御装置1の詳細構成との違いは、この第3実施形態の文書検索装置における制御装置1では、メモリ部に単語別出現文書数格納バッファ部261が新設された点にある。
さらに、図26は、この第3実施形態の文書検索装置の動作手順を示すフローチャートである。図26中、ステップC1〜ステップC15は、図3のステップA1〜ステップA15にそれぞれ対応する。そして、その違いは、ステップC7およびステップC8〜ステップC9が、各々の同義語グループを一纏めに取り扱うのではなく、その同義語グループに含まれる検索キー単語ごとに取り扱う点にある。以下、この相違点を軸に、この第3実施形態の文書検索装置の動作原理を説明する。
この第3実施形態において、出現文書数算出部208は、検索キー単語または同義語グループが、検索対象文書格納バッファ部250に登録された文書のうち、いくつの文献に出現するか出現頻度を求めるが(ステップC7)、同義語グループが出現頻度の算出対象であった場合、出現文書数算出部208は、その同義語グループに属する同義語の各々の出現頻度を求める。これにより、図6に示した内容の検索キー単語格納バッファ部253から検索キー単語および同義語グループに属する単語の出現頻度が求められ、単語別出現文書数格納バッファ部261の内容は、図27のようになる。
一方、不要語判別部210も、出現文書数格納バッファ部254に格納された出現頻度と、不要語条件格納バッファ部255に格納された不要語の閾値とを比較し、出現頻度が閾値を上回っていた場合、その単語を不要語とみなして不要語格納バッファ部256に格納するが(ステップC8〜ステップC9)、同義語グループが複数の同義語により構成されている場合、不要語判別部210は、各々の同義語について、不要語であるか否かを判断する。図28は、検索キー単語格納バッファ部253に格納されている単語に対してステップC8〜からステップC9の不要語判断処理を行った結果を格納した不要語格納バッファ部256の内容を示す図である。
つまり、この第3実施形態の文書検索装置は、汎用のシソーラス辞書を文書検索に用いる場合の便宜を図ったものである。汎用のシソーラス辞書の同義語情報は、すべての分野における文書の検索に必ずしも向いている訳ではなく、同義語グループにノイズとなる単語が含まれる場合が多い。そこで、その同義語グループに含まれる単語のうち、その分野の文書において出現頻度の高い単語を不要語とすることにより、この第3実施形態の文書検索装置は、汎用のシソーラス辞書の同義語情報を、各分野における文書検索に適合させることを可能とする。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
この発明の第1実施形態に係る文書検索装置のブロック構成図 同第1実施形態の文書検索装置制御装置の詳細構成例を示した図 同第1実施形態の文書検索装置の動作手順を示すフローチャート 同第1実施形態の文書検索の条件入力例を示す図 同第1実施形態の検索キー文書の例を示す図 同第1実施形態の検索キー文書からの単語抽出の例を示す図 同第1実施形態のシソーラス辞書の登録情報の例を示す図 同第1実施形態の検索キー単語格納バッファ部のデータ構造例を示す図 同第1実施形態の出現文書数格納バッファ部のデータ構造例を示す図 同第1実施形態の不要語格納バッファ部のデータ構造例を示す図 同第1実施形態の検索対象文書の例を示す図 同第1実施形態の検索対象から抽出した際の検索対象単語情報格納バッファ部のデータ構造例を示す図 同第1実施形態の同義語統制を行った際の検索対象単語情報格納バッファ部のデータ構造例を示す図 同第1実施形態による類似度算出例を示す図 従来方式による類似度算出例を示す図 同第1実施形態の検索キー文書と検索対象文書との類似度を収めた類似度格納バッファ部のデータ構造例を示す図 同第1実施形態の類似度算出結果をソートした際のソート結果格納バッファ部のデータ構造例を示す図 同第1実施形態の類似文書検索結果の例を示す図 第2実施形態に係る文書検索装置のブロック構成図 同第2実施形態の文書検索装置制御装置の詳細構成例を示した図 同第2実施形態の文書検索装置の動作手順を示すフローチャート 同第2実施形態の文書検索の条件入力例を示す図 同第2実施形態の登録文書数格納バッファ部のデータ構造例を示す図 同第1実施形態の文書検索装置において複数データベースを検索対象とした場合の文書検索の条件入力例を示す図 同第3実施形態の文書検索装置制御装置の詳細構成例を示した図 同第3実施形態の文書検索装置の動作手順を示すフローチャート 同第3実施形態の単語別出現文書数格納バッファ部のデータ構造例を示す図 同第3実施形態の不要語格納バッファ部のデータ構造例を示す図
符号の説明
1…制御装置、2…入力装置、3…表示装置、4…外部記憶装置、5…形態素解析辞書、6…シソーラス辞書、200…メイン処理部、201…初期化部、202…入力部、203…出力部、205…検索対象文書単語抽出部、206…検索キー文書入力部、207…検索キー単語抽出部、208…出現文書数算出部、209…不要語条件指定部、210…不要語判別部、211…類似度算出部、212…ソート部、213…検索結果出力部、214…同義語統制部、215…登録文書数算出部、250…検索対象文書格納バッファ部、251…検索対象単語情報格納バッファ部、252…検索キー文書格納バッファ部、253…検索キー単語格納バッファ部、254…出現文書数格納バッファ部、255…不要語条件格納バッファ部、256…不要語格納バッファ部、257…類似度格納バッファ部、258…ソート結果格納バッファ部、259…検索結果出力バッファ部、260…登録文書数格納バッファ部、261…単語別出現文書数格納バッファ部。

Claims (7)

  1. 与えられた文書の内容と類似する内容をもつ文書を文書データベース中から検出する文書検索装置において、
    前記文書データベース中の各文書からその内容を表す検索対象単語を抽出する検索対象単語抽出手段と、
    前記与えられた文書から検索キーとなる検索キー単語を抽出する検索キー単語抽出手段と、
    前記検索キー単語抽出手段により抽出された検索キー単語および前記検索対象単語抽出手段により抽出された検索対象単語をシソーラス情報により同義語グループにまとめ上げてその同義語グループを代表する単語に置き換える同義語統制手段と、
    前記同義語統制手段により同義語統制が施された後の各検索キー単語が前記文書データベース中のいくつの文書に存在するかの総計を取る出現文書数算出手段と、
    前記出現文書数算出手段により求められた出現文書数に基づき、前記検索キー単語それぞれについて不要語で有るか否かを判断する不要語判別手段と、
    前記検索キー文書と前記文書データベース中の各文書との類似度を前記不要語判別手段の判別結果を用いて算出する類似度算出手段と
    を具備することを特徴とする文書検索装置。
  2. 不要語と判断する出現文書数を設定する不要語条件指定手段をさらに具備し、
    前記不要語判別手段は、前記出現文書数算出手段により求められた出現文書数が前記不要語条件指定手段により指定された出現文書数以上であった場合に、その検索キー単語を不要語であると判断することを特徴とする請求項1記載の文書検索装置。
  3. 前記類似度算出手段により求められた類似度に基づき、検索対象文書をソートするソート手段と、
    前記ソート手段により得られた検索対象文書のソート結果を表示する類似文書検索結果表示手段と
    をさらに具備することを特徴とする請求項1または2記載の文書検索装置。
  4. 前記文書データベースに登録された文書の数を算出する登録文書数算出手段をさらに具備し、
    前記不要語条件指定手段は、文書データベースに登録された全文書数に対する出現文書数の割合を不要語の条件として入力し、各文書データベースにおいて不要語と判断する出現文書数を各々算出することを特徴とする請求項2記載の文書検索装置。
  5. 前記出現文書数算出手段は、前記検索キー単語のまとめ上げにより得られた同義語グループを構成する各単語それぞれについて出現文書数を算出し、
    前記不要語判別手段は、前記同義語グループを構成する各単語それぞれについて不要語か否かを判断することを特徴とする請求項1、2、3または4記載の文書検索装置。
  6. 与えられた文書の内容と類似する内容をもつ文書を文書データベース中から検出する文書検索方法であって、
    前記文書データベース中の各文書からその内容を表す検索対象単語を抽出する検索対象単語抽出ステップと、
    前記与えられた文書から検索キーとなる検索キー単語を抽出する検索キー単語抽出ステップと、
    前記検索キー単語抽出ステップにより抽出された検索キー単語および前記検索対象単語抽出ステップにより抽出された検索対象単語をシソーラス情報により同義語グループにまとめ上げてその同義語グループを代表する単語に置き換える同義語統制ステップと、
    前記同義語統制ステップにより同義語統制が施された後の各検索キー単語が前記文書データベース中のいくつの文書に存在するかの総計を取る出現文書数算出ステップと、
    前記出現文書数算出ステップにより求められた出現文書数に基づき、前記検索キー単語それぞれについて不要語で有るか否かを判断する不要語判別ステップと、
    前記検索キー文書と前記文書データベース中の各文書との類似度を前記不要語判別ステップの判別結果を用いて算出する類似度算出ステップと
    を具備することを特徴とする文書検索方法。
  7. 与えられた文書の内容と類似する内容をもつ文書を文書データベース中から検出させるためのコンピュータを、
    前記文書データベース中の各文書からその内容を表す検索対象単語を抽出する検索対象単語抽出手段、
    前記与えられた文書から検索キーとなる検索キー単語を抽出する検索キー単語抽出手段、
    前記検索キー単語抽出手段により抽出された検索キー単語および前記検索対象単語抽出手段により抽出された検索対象単語をシソーラス情報により同義語グループにまとめ上げてその同義語グループを代表する単語に置き換える同義語統制手段、
    前記同義語統制手段により同義語統制が施された後の各検索キー単語が前記文書データベース中のいくつの文書に存在するかの総計を取る出現文書数算出手段、
    前記出現文書数算出手段により求められた出現文書数に基づき、前記検索キー単語それぞれについて不要語で有るか否かを判断する不要語判別手段、
    前記検索キー文書と前記文書データベース中の各文書との類似度を前記不要語判別手段の判別結果を用いて算出する類似度算出手段
    として機能させるための文書検索プログラム。
JP2003283493A 2003-07-31 2003-07-31 文書検索装置、文書検索方法および文書検索プログラム Expired - Fee Related JP3881638B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003283493A JP3881638B2 (ja) 2003-07-31 2003-07-31 文書検索装置、文書検索方法および文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003283493A JP3881638B2 (ja) 2003-07-31 2003-07-31 文書検索装置、文書検索方法および文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2005050239A true JP2005050239A (ja) 2005-02-24
JP3881638B2 JP3881638B2 (ja) 2007-02-14

Family

ID=34268369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003283493A Expired - Fee Related JP3881638B2 (ja) 2003-07-31 2003-07-31 文書検索装置、文書検索方法および文書検索プログラム

Country Status (1)

Country Link
JP (1) JP3881638B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010033465A (ja) * 2008-07-30 2010-02-12 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2010049650A (ja) * 2008-08-25 2010-03-04 Fujitsu Ltd 検索方法および検索プログラム
JP2012037920A (ja) * 2010-08-03 2012-02-23 Yahoo Japan Corp 広告マッチング装置、方法及びプログラム
JP2013156692A (ja) * 2012-01-26 2013-08-15 Ntt Comware Corp 類似度算出装置、類似度算出方法、および類似度算出プログラム
JP2015138351A (ja) * 2014-01-21 2015-07-30 富士通株式会社 情報検索装置、情報検索方法および情報検索プログラム
CN111625621A (zh) * 2020-04-27 2020-09-04 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010033465A (ja) * 2008-07-30 2010-02-12 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2010049650A (ja) * 2008-08-25 2010-03-04 Fujitsu Ltd 検索方法および検索プログラム
JP2012037920A (ja) * 2010-08-03 2012-02-23 Yahoo Japan Corp 広告マッチング装置、方法及びプログラム
JP2013156692A (ja) * 2012-01-26 2013-08-15 Ntt Comware Corp 類似度算出装置、類似度算出方法、および類似度算出プログラム
JP2015138351A (ja) * 2014-01-21 2015-07-30 富士通株式会社 情報検索装置、情報検索方法および情報検索プログラム
CN111625621A (zh) * 2020-04-27 2020-09-04 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP3881638B2 (ja) 2007-02-14

Similar Documents

Publication Publication Date Title
JP4142881B2 (ja) 文書類似度算出装置、クラスタリング装置および文書抽出装置
JP2003030224A (ja) 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
JP4997892B2 (ja) 検索システム、検索方法及び検索プログラム
KR20200038984A (ko) 동의어 사전 작성 장치, 동의어 사전 작성 프로그램 및 동의어 사전 작성 방법
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
JP2011103082A (ja) マルチメディア検索システム
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
US20190362187A1 (en) Training data creation method and training data creation apparatus
CN110619212B (zh) 一种基于字符串的恶意软件识别方法、系统及相关装置
CN111680152A (zh) 目标文本的摘要提取方法及装置、电子设备、存储介质
JP3881638B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
JPH0736897A (ja) 文書分類装置
JP4389102B2 (ja) 技術文献検索システム
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置
JP2006293616A (ja) 文書集約方法及び装置及びプログラム
JP2001117930A (ja) 文書分類装置、文書分類方法および記録媒体
JP6081609B2 (ja) データ分析システム及びその方法
JP2003345824A (ja) 文書検索装置及び文書検索方法、文書検索プログラム
JP2007241636A (ja) 文書データ解析装置および文書データ解析プログラム
JP2002318812A (ja) 類似画像検索装置,類似画像検索方法並びに類似画像検索プログラム
JP2009271772A (ja) テキストマイニング方法、テキストマイニング装置、及びテキストマイニングプログラム
JP2009217406A (ja) 文書検索装置及び方法、並びに、プログラム
JP2003108579A (ja) 文書検索装置及び文書検索方法
JP2001101226A (ja) 文書群分類装置および文書群分類方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061110

R151 Written notification of patent or utility model registration

Ref document number: 3881638

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131117

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees