JP2008203997A - 文書検索装置及びプログラム - Google Patents
文書検索装置及びプログラム Download PDFInfo
- Publication number
- JP2008203997A JP2008203997A JP2007036791A JP2007036791A JP2008203997A JP 2008203997 A JP2008203997 A JP 2008203997A JP 2007036791 A JP2007036791 A JP 2007036791A JP 2007036791 A JP2007036791 A JP 2007036791A JP 2008203997 A JP2008203997 A JP 2008203997A
- Authority
- JP
- Japan
- Prior art keywords
- word
- word expansion
- search
- expansion result
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】人手によるメンテナンスが必要なデータを用いることなく多義語の解消を行う。
【解決手段】共起情報ファイル44は複数の単語間の共起関係を表す共起情報を記憶する。コンテキスト特定部53は、ユーザからの検索要求で指定された検索条件に含まれている検索の対象となる検索対象単語と共起情報ファイル44に記憶されている共起情報とを照合することにより、共起関係のある検索対象単語の組を共起単語グループとして抽出する。単語展開結果ファイル45は、検索対象単語の類義語または関連語への単語展開がなされた過去の単語展開結果を記憶する。単語展開部54は、抽出された共起単語グループを含む単語展開結果を単語展開結果ファイル45から取得して、上記検索要求で指定された検索条件に含まれている検索対象単語を、当該単語展開結果を含むように展開する。類似文書検索部55は、新たな単語展開結果に基づいて文書検索を行う。
【選択図】 図2
【解決手段】共起情報ファイル44は複数の単語間の共起関係を表す共起情報を記憶する。コンテキスト特定部53は、ユーザからの検索要求で指定された検索条件に含まれている検索の対象となる検索対象単語と共起情報ファイル44に記憶されている共起情報とを照合することにより、共起関係のある検索対象単語の組を共起単語グループとして抽出する。単語展開結果ファイル45は、検索対象単語の類義語または関連語への単語展開がなされた過去の単語展開結果を記憶する。単語展開部54は、抽出された共起単語グループを含む単語展開結果を単語展開結果ファイル45から取得して、上記検索要求で指定された検索条件に含まれている検索対象単語を、当該単語展開結果を含むように展開する。類似文書検索部55は、新たな単語展開結果に基づいて文書検索を行う。
【選択図】 図2
Description
本発明は、文書データベースから検索条件に合致する文書を検索するのに好適な文書検索装置及びプログラムに関する。
近年、コンピュータ及びコンピュータネットワークの発達に伴い、ネットワークを介して参照可能なロケーションに大量の文書が蓄積されてきている。このような動きに伴って、大量の電子化文書から所望の文書を検索するための情報検索の需要が高まってきている。この種の情報検索には、従来はキーワード検索、全文検索のように、検索条件を表すクエリ(問い合わせ)との表記の一致を前提とした検索手法を適用するのが主流であった。
また最近では、文書同士のハイパーリンク数等で代表される参照度数をランキングに使用したり、或いは特定のクエリや文書に類似している類似文書の検索を行う手法も提案されている。類似文書の検索を行う手法としては、ベクトル空間モデルを用いた手法、つまり文書或いは文書の特徴をn次元のベクトル空間上のベクトルで表し、ベクトル間の角度を用いて文書同士の類似性、或いはクエリと文書との類似性を算出する手法が知られている。
ベクトル空間モデルを用いた手法においては、クエリに含まれる単語のみではなく、その類義語や関連語も検索対象とすることにより、ユーザが所望している文書を漏れなく検索することができる。しかしながら、特に短い文章をクエリとして類似文書の検索を行った場合に、ユーザの所望しない文書が検索されることも多い。その要因は、クエリに使用される文字列は一般に多義性を有するため、クエリがユーザの所望する意味に解釈されなかったり、或いはクエリに使用される文字列の語義の解釈が不完全であったりすることにある。このためベクトル空間モデルでは、検索結果がユーザの意図通りにならない場合が多い。
そこで、例えば特許文献1は、ユーザが意図していない文書の検索を極力回避するために、クエリ中に含まれる単語を類義語で拡張する際に、単語間で共起性の低い類義語を展開対象から取り除くという技術(第1の従来技術)を開示している。この第1の従来技術は、クエリを構成するある単語を類義語展開した後で、別の単語との共起性の低い単語の類義語展開を抑制することにより、ユーザが所望していない文書の検索を回避することを図るものである。
また、例えば特許文献2は、多義語がどの意味内容で用いられているかを特定した上で検索を実行することにより、多義語による意味内容の拡散を防止する技術(第2の従来技術)を開示している。第2の従来技術においては、多義語の意味エントリ別に用意された類義語辞書と、どのような単語が共起するかを示す情報を格納した共起データベースと、ユーザの嗜好を表すユーザプロファイルとが用いられる。
第2の従来技術は、クエリ中に多義語が表れた場合には、まず共起データベースを用いて多義語を解消し、多義語が解消されなかった場合にユーザプロファイルにより多義語の解消を行うという2段階の処理で多義語による意味の拡散を防ぐ手法を適用している。この第2の従来技術について更に詳細に述べる。
第2の従来技術ではまず、ユーザの意図に即した情報検索を行うために、ユーザ指定のクエリから単語が抽出されて、単語間の係り受けが解析される。次に、係り受け解析の結果と共起データベースとに基づいて多義語解消が試みられる。多義語が解消された場合には直ちに類義語展開または関連語展開が行われる。これに対し、多義語が解消されなかった場合にはユーザプロファイル情報に基づいて多義語解消が試みられる。その後類義語展開または関連語展開が行われる。この類義語展開または関連語展開が終了した後に、ベクトル空間モデルによる類似文書検索を行うことにより、ユーザ所望の文書のみを検索することが可能となる。
特開平11−45274号公報
特開2002−230021号公報
上記したように第1の従来技術においては、クエリの意味を拡張するために類義語展開する際に、共起性の低い類義語が除外される。しかし、共起性の低い類義語を除外するだけでは、クエリ中の各単語の語義は特定されない。したがって第1の従来技術においては、各単語の多義性は依然として解消されず、ユーザの所望しない文書が検索結果として生じされることも多い。また第1の従来技術においては、クエリ中の単語と共起関係が薄い稀な文書を探す場合に所望の文書を見つけられないおそれもある。
次に上記した第2の従来技術においては、多義語の意味エントリ別に用意される類義語辞書、及び多義語の意味内容を特定するための共起データベースの存在が大前提となっている。しかし、これらの類義語辞書及び共起データベースのデータの作成及び保守は自動化が難しい。したがって類義語辞書及び共起データベースに対する人手によるメンテナンスが必須であ。このため第2の従来技術において、類義語辞書及び共起データベースのデータを、多分野に渡る電子化文書をカバーするように作成及び保守することは困難である。
本発明は上記事情を考慮してなされたものでその目的は、人手によるメンテナンスが必要なデータを用いることなく多義語の解消を行うことができる文書検索装置及びプログラムを提供することにある。
本発明の1つの観点によれば、文書データベースから検索条件に合致する文書を検索する文書検索装置が提供される。この文書検索装置は、複数の単語間の共起関係を表す共起情報を記憶する共起情報記憶手段と、ユーザからの検索要求を受け付ける要求受け付け手段と、前記検索要求で指定された検索条件に含まれている検索の対象となる検索対象単語と前記共起情報記憶手段に記憶されている共起情報とを照合することにより、共起関係のある検索対象単語の組を共起単語グループとして抽出する共起単語グループ抽出手段と、検索対象単語の類義語または関連語への単語展開がなされた過去の単語展開結果を記憶する単語展開結果記憶手段と、前記共起単語グループ抽出手段によって抽出された共起単語グループを含む単語展開結果を前記単語展開結果記憶手段から取得して、前記検索要求で指定された検索条件に含まれている検索対象単語を、当該単語展開結果を含むように展開する単語展開手段と、前記単語展開手段によって展開された新たな単語展開結果を拡張された検索条件として、当該新たな単語展開結果に基づいて前記データベースから文書を検索する検索手段とを具備する。
本発明によれば、過去になされた質の高い単語展開結果を利用した文書検索により、人手によるメンテナンスが必要なデータを用いることなく多義語を解消すると共に漏れの少ない検索を実現することが可能となる。
以下、本発明の実施の形態につき図面を参照して説明する。
図1は本発明の一実施形態に係るクライアント−サーバシステムのハードウェア構成を示すブロック図である。クライアント−サーバシステムは、主として、データベースサーバ(データベースサーバコンピュータ)10と、複数のクライアント端末とから構成される。複数のクライアント端末はクライアント端末20を含む。クライアント端末20上では、データベースサーバ10を利用するアプリケーション(アプリケーションプログラム)が動作する。クライアント端末20を含む複数のクライアント端末は、ローカルエリアネットワーク(LAN)のようなネットワーク30を介してデータベースサーバ10と接続されている。なお、図1にはクライアント端末20以外のクライアント端末は省略されている。
図1は本発明の一実施形態に係るクライアント−サーバシステムのハードウェア構成を示すブロック図である。クライアント−サーバシステムは、主として、データベースサーバ(データベースサーバコンピュータ)10と、複数のクライアント端末とから構成される。複数のクライアント端末はクライアント端末20を含む。クライアント端末20上では、データベースサーバ10を利用するアプリケーション(アプリケーションプログラム)が動作する。クライアント端末20を含む複数のクライアント端末は、ローカルエリアネットワーク(LAN)のようなネットワーク30を介してデータベースサーバ10と接続されている。なお、図1にはクライアント端末20以外のクライアント端末は省略されている。
データベースサーバ10は、ハードディスクドライブのような外部記憶装置40と接続されている。この外部記憶装置40は、データベース管理プログラム41、文書データベース42、形態素解析辞書43、共起情報ファイル44、単語展開結果ファイル45、単語展開結果履歴ファイル46及び単語展開結果登録条件ファイル47を格納する。
データベース管理プログラム41は、データベースサーバ10による文書データベース42の管理、及びクライアント端末からの検索要求に基づく検索処理に用いられる。文書データベース42は検索の対象となる複数の文書(電子文書)を蓄積する。本実施形態において文書データベース42は、ネットワーク30を介して収集された文書を蓄積する。
形態素解析辞書43は、ユーザによって指定された検索条件(クエリ)の形態素解析を行うのに用いられる単語辞書である。共起情報ファイル44は、文書データベース41に格納されている各文書中で共起する複数の単語の情報(共起情報)を記憶する。この共起情報は、複数の単語間の共起関係を表す。
単語展開結果ファイル45は、ユーザによって指定されたクエリから抽出された検索対象単語(共起性の高い単語)が類義語または関連語に拡張(単語展開)された結果(単語展開結果)のうち単語展開結果登録条件に合致する結果を記憶する。単語展開結果履歴ファイル46は、上述の単語展開結果の履歴を記憶する。単語展開結果履歴ファイル46に記憶される単語展開結果には、当該単語展開結果を検索条件として文書が検索された日時(検索日時)を表す日時情報、及び対応する単語展開のもととなったクエリを指定したユーザを識別するユーザID(またはユーザ名)が付されている。
単語展開結果登録条件ファイル47は、単語展開結果登録条件を記憶する。単語展開結果ファイル45には、単語展開結果履歴ファイル46に格納(蓄積)されている単語展開結果履歴のうち、単語展開結果登録条件ファイル47に格納されている単語展開結果登録条件に合致する単語展開結果だけが格納(登録)される。
本実施形態では、データベースサーバ10及び外部記憶装置40によって文書検索装置50が実現される。
図2は文書検索装置50の主として機能構成を示すブロック図である。文書検索装置50は、上述の文書データベース42、形態素解析辞書43、共起情報ファイル44、単語展開結果ファイル45、単語展開結果履歴ファイル46及び単語展開結果登録条件ファイル47に加えて、コマンド管理部51、形態素解析部52、コンテキスト特定部53、単語展開部54、類似文書検索部55、単語展開結果履歴採取部56、単語展開結果登録条件設定部57及び単語展開結果登録処理部58の各機能部(処理部)を含む。本実施形態において、これらの機能部51乃至58は、図1のデータベースサーバ10が外部記憶装置40に格納されているデータベース管理プログラム41を当該サーバ10内のメモリ(図示せず)に読み込んで実行することにより実現されるものとする。このプログラム41は、コンパクトディスク、或いはROMのような、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム41が、ネットワーク30を介してデータベースサーバ10にダウンロードされても構わない。
コマンド管理部51は、クライアント端末20に代表されるクライアント端末からネットワーク30を介して与えられる各種のコマンド(要求)を受け付けて当該コマンドの種別を判別する。コマンド管理部51は、コマンド種別の判別結果に基づいて形態素解析部52及び単語展開結果登録処理部58を含む複数の機能部(処理部)のいずれかを起動する。
形態素解析部52は、クライアント端末から与えられるコマンドによってクエリが指定されている場合、当該クエリを対象とする形態素解析により当該クエリから検索の対象となる単語(検索対象単語)を抽出する。コンテキスト特定部53は、形態素解析部52による形態素解析によって抽出された検索対象単語と共起情報ファイル44に格納されている共起情報とを照合することにより、当該検索対象単語のうち共起性の高い単語(共起語)の組により構成されるコンテキスト(文脈)を特定する。
単語展開部54は、特定されたコンテキストを構成する共起性の高い単語の組を、単語展開結果ファイル45に格納されている単語展開結果情報に基づいて類義語または関連語を含むように拡張(単語展開)する。つまり、単語展開部54は共起性の高い単語の組を含む検索対象単語(検索対象単語群)を類義語または関連語を含むように拡張(単語展開)することにより、当該検索対象単語(検索対象単語群)によって構成される検索条件を拡張する。
類似文書検索部55は、単語展開部54による単語展開結果を拡張された検索条件として用いることにより、ユーザによって指定されたクエリの示す文書(類似文書)を文書データベース42から検索する。単語展開結果履歴採取部56は類似文書検索部55による文書検索の検索条件として用いられた単語展開結果を含む単語展開結果情報を単語展開結果履歴ファイル46に格納する。この単語展開結果情報は日時情報及びユーザIDを含む。日時情報は、対応する単語展開結果情報に含まれる単語展開結果を検索条件とする文書検索が行われた日時を表す。ユーザIDは、この文書検索が行われるもととなったクエリを指定したユーザを表す。
単語展開結果登録条件設定部57は、クライアント端末から与えられるコマンドによって単語展開結果登録条件の設定が指示されている場合、当該コマンドで指定された単語展開結果登録条件を単語展開結果登録条件ファイル47に設定登録する。
単語展開結果登録処理部58は、単語展開結果登録条件ファイル47に登録されている単語展開結果登録条件に従って単語展開結果履歴ファイル46から当該登録条件に合致する単語展開結果を抽出して、単語展開結果ファイル45に登録(格納)する。
図3は、クライアント端末20が有する表示装置(図示せず)に表示される検索表示画面例を示す。図3の検索表示画面の上部にはクエリ入力表示領域31が配置され、画面下部には検索結果表示領域32が配置されている。クエリ入力表示領域31は、クライアント端末20が有するキーボードのような入力手段をユーザが操作してクエリを入力するのに用いられると共に、入力されたクエリを表示するのに用いられる。
図3の検索表示画面例では、クエリとして「CD キャッシュディスペンサー トランザクション」という3つの単語が空白文字で区切って並べられた形式の文字列がクエリ入力表示領域31に表示されている。また、検索結果表示領域32には、クエリ入力表示領域31に表示されているクエリに従う検索の結果として、文書名、文書表題及び類似度の項目からなる3つの検索結果が一覧表示されている。
図4は共起情報ファイル44の一例を示す。図4の共起情報ファイル44の例では、1行につき2つの単語が並んでおり、この2つの単語の組が1つのレコード(共起情報レコード)を構成している。共起情報レコードは、当該レコードに含まれている2つの単語(例えば、CDと音楽、CDと金融機関など)が文書データベース42に格納された文書(電子文書)の集合の中で同じ文書内に出現する率が偶然ではないこと、つまり2つの単語で、ある1つのコンテキストを構成し得ることを表す。このような単語は共起語と呼ばれる。共起語の抽出には相互情報量のような広く知られた統計指標を用いることが可能であるが、その抽出方法に関しては既存技術であるので、本実施形態では説明を省略する。本実施形態では、文書データベース42に新たに文書が登録(格納)される毎に、当該文書から共起語が抽出されて、対応する共起情報レコードが共起情報ファイル44に格納(追加)される。
図5は単語展開結果ファイル45の一例を示す。図5の単語展開結果ファイル45の例では、1行につき複数の単語が空白文字をセパレータ(区切り文字)として並んで1つのレコード(単語展開結果レコード)を構成している。
図5において、記号「||」は検索論理和を表し、当該「||」を含むレコードは、当該「||」で連ねられたいずれかの単語が存在する文書の検索を指定する検索条件として用いられた単語展開結果を示す。
一方、図5において空白文字のみで単語が区切られている場合、当該空白文字は検索論理積を表し、当該空白文字を含むレコードは、当該空白文字で連ねられた全ての単語が存在する文書の検索を指定する検索条件として用いられた単語展開結果を示す。
したがって図5の例えば1行目の「CD || コンパクトディスク 音楽 フォーマット」は、単語「CD」または単語「コンパクトディスク」を含み、且つ単語「音楽」及び単語「フォーマット」を含む文書の検索を指定する検索条件として用いられた単語展開結果を示す。同様に、図5の例えば5行目の「CD || キャッシュディスペンサー || ATM トランザクション」は、単語「CD」または単語「キャッシュディスペンサー」または単語「ATM」を含み、且つ単語「トランザクション」を含む文書の検索を指定する検索条件として用いられた単語展開結果を示す。
単語展開結果ファイル45内の各レコードは、過去に実際に文書が検索された際に用いられた検索条件を表す単語展開結果である。更に具体的に述べるならば、各レコードは、単語展開結果履歴ファイル46に累積的に格納されている過去に実際に用いられた単語展開結果の中から抽出された単語展開結果である。ここでは、単語展開結果登録条件ファイル47に格納されている単語展開結果登録条件に合致する単語展開結果が抽出される。
単語展開結果登録条件は、例えば管理者がクライアント端末20を操作することによって、当該クライアント端末20から文書検索装置50(データベースサーバ10)に対して与えられる。本実施形態で適用される単語展開結果登録条件は、検索スキルが高いと管理者によって認定されているユーザ(スキル上位者)のユーザIDを含む。この場合、単語展開結果登録条件に含まれるユーザIDで示されるユーザ(スキル上位者)が指定したクエリに基づく文書検索で実際に検索条件として使用された単語展開結果だけが、単語展開結果履歴ファイル46から抽出される。
このようなスキル上位者が指定したクエリ(検索条件)は、他のユーザの模範となる質の高いクエリ(検索条件)であることが期待される。このスキル上位者(つまり検索スキルの高いユーザ)が指定したクエリ(検索条件)には次に示す特徴
(1)検索漏れを回避するために類義語を一緒に検索することを指定する(例:CD || コンパクトディスク)
(2)「CD」のような多義語がクエリ中に含まれる場合、意味の分散を回避するために関連語との論理積(検索論理積)を用いてコンテキストを限定している(例:CD 売上げ)
が認められることが多い。
(1)検索漏れを回避するために類義語を一緒に検索することを指定する(例:CD || コンパクトディスク)
(2)「CD」のような多義語がクエリ中に含まれる場合、意味の分散を回避するために関連語との論理積(検索論理積)を用いてコンテキストを限定している(例:CD 売上げ)
が認められることが多い。
そこで本実施形態では、単語展開結果登録条件に含まれるユーザIDで示されるユーザ(スキル上位者)が指定したクエリに基づく文書検索で実際に検索条件として使用された、当該クエリから抽出された検索対象単語が拡張(単語展開)された結果(単語展開結果)が、単語展開結果履歴ファイル46から抽出される。このような単語展開結果は、上述の特徴から、検索対象単語の類義語または関連語への単語展開がなされたものとみなすことができる。
単語展開結果登録条件は更に、スキル上位者の意図した検索結果が得られた際の単語展開結果を推定するのに用いられる時間閾値Tを含む。本実施形態では、単語展開結果登録条件に含まれるユーザIDで示されるユーザが指定したクエリに基づく文書検索で使用された単語展開結果のうち、次の文書検索までの時間が時間閾値Tを超える文書検索で使用された単語展開結果だけが、単語展開結果履歴ファイル46から抽出される。抽出された単語展開結果は単語展開結果ファイル45に登録(格納)される。
あるクエリに基づく文書検索(第1の文書検索)から閾値T以内に別のクエリに基づく文書検索(第2の文書検索)が行われた場合、第1の文書検索の結果がユーザの意図したものではなかったために、第1の文書検索と同一目的の第2の文書検索がクエリを変えて直ちに行われたことが推測される。これに対し、第1の文書検索から閾値Tを超えて第2の文書検索が行われた場合、第1の文書検索の結果はユーザの意図したものであり、第2の文書検索は第1の文書検索とは別の目的で行われたことが推測される。このため本実施形態において単語展開結果登録処理部58は、単語展開結果登録条件に含まれるユーザIDで示されるユーザが指定したクエリに基づく文書検索で使用された単語展開結果のうち、次の文書検索までの時間が時間閾値Tを超えている文書検索で使用された単語展開結果だけを抽出する。これにより、質の高い単語展開結果だけを単語展開結果ファイル45に格納(登録)することができる。
次に本実施形態の動作について説明する。
今、クライアント端末20の表示装置に図3に示されるような検索表示画面が表示されているものとする。但し、この時点では、検索表示画面のクエリ入力表示領域31及び検索結果表示領域32には、図3と異なって何も表示されていないものとする。この状態で、ユーザがクライアント端末20の入力手段を操作して、クエリ入力表示領域31にクエリを入力し、しかる後に図示せぬ検索ボタンを例えばクリックしたものとする。
するとクライアント端末20から文書検索装置50(データベースサーバ10)に対し、クエリ入力表示領域31に入力されたクエリで指定される文書を検索することを指示する検索要求(検索コマンド)が発行される。この検索要求は、文書検索装置50のコマンド管理部51で受け取られる。
コマンド管理部51は、クライアント端末20からの検索要求(検索コマンド)を受け取ると、当該要求を解析する。コマンド管理部51は、クライアント端末20からの要求(コマンド)が検索要求(検索コマンド)である場合、検索要求受け付け手段として機能する。この場合、コマンド管理部51は検索要求を受け付けて、当該検索要求を最初に処理すべき機能部として形態素解析部52を選択(起動)する。そしてコマンド管理部51は、クライアント端末20からの検索要求で指定されたクエリを形態素解析部52に渡す。すると、類似文書検索処理が開始される。
以下、この類似文書検索処理について、図6のフローチャートを参照して説明する。
まず、形態素解析部52は、コマンド管理部51から渡されたクエリを形態素解析することによって、当該クエリに含まれている単語を検索対象単語として抽出する(ステップS1)。この形態素解析処理は、形態素解析辞書43を参照することで行われる。
まず、形態素解析部52は、コマンド管理部51から渡されたクエリを形態素解析することによって、当該クエリに含まれている単語を検索対象単語として抽出する(ステップS1)。この形態素解析処理は、形態素解析辞書43を参照することで行われる。
ここでは、図3に示されるような検索表示画面のクエリ入力表示領域31に、「CDにおけるトランザクション処理」という自然言語で記述されたクエリが、ユーザの入力操作によって入力されたものとする。この場合、形態素解析部52による形態素解析処理(ステップS1)では「CD(名詞)/における(助詞−格助詞連語)/トランザクション(名詞)/処理(名詞)」と単語分解される。ここで括弧内は単語の品詞を表す。本実施形態では名詞のみを検索対象単語とすることを想定している。したがって上述のクエリの場合、形態素解析部52は当該クエリから、「CD」「トランザクション」「処理」の3語を検索対象単語(検索対象単語群)として抽出する(ステップS1)。ここでは、「CD」「トランザクション」「処理」の3語は、検索論理積の対象となる単語として扱われる。つまり「CD」「トランザクション」「処理」の3語は、検索条件「CD トランザクション 処理」を構成する検索対象単語として扱われる。
形態素解析部52によってクエリから検索対象単語が抽出されると、コンテキスト特定部53が起動される。コンテキスト特定部53は、形態素解析部52によって抽出された検索対象単語(検索対象単語群)と共起情報ファイル44に格納されている共起情報(共起情報レコード)とを照合する処理(照合処理)を行う(ステップS2)。「CD」「トランザクション」「処理」の3語が検索対象単語である本実施形態において、コンテキスト特定部53は、「CD」「トランザクション」の2語(2つの検索対象単語)が図4の6行目の「CD トランザクション」という共起情報レコード(に含まれている共起語)と一致することを検出する。ステップS2においてコンテキスト特定部53は、上述の照合処理により共起情報レコードと一致する2つの検索対象単語「CD トランザクション」を検出すると、当該2つの検索対象単語は同一文書中で共に使用される頻度が高く、したがって当該2つの検索対象単語の組で、ある一定のコンテキスト(文脈)を構成する可能性が高いと認識する。このような検索対象単語の組を共起単語グループ(または共起ペア)と呼ぶ。
このようにコンテキスト特定部53は、検索対象単語(検索対象単語群)と共起情報ファイル44に格納されている共起情報レコードとを照合することにより、共起単語グループ(により構成されるコンテキスト)を特定(抽出)する(ステップS2)。つまりコンテキスト特定部53は共起単語グループ抽出手段として機能して、検索対象単語群の中から共起単語グループをなす検索対象単語の組を抽出する。
コンテキスト特定部53によって共起単語グループ(により構成されるコンテキスト)が特定されると、単語展開部54が起動される。単語展開部54は、形態素解析部52によって抽出された検索対象単語(検索対象他端語群)を、コンテキスト特定部53によって特定されたコンテキストに沿って展開することにより、当該検索対象単語(検索対象単語群)によって構成される検索条件を拡張する(ステップS3)。ここでは、検索対象単語(検索対象他端語群)のうち、上記特定されたコンテキストを構成する共起単語グループ(をなす検索対象単語の組)が、単語展開結果ファイル45に格納されている単語展開結果情報(単語展開結果レコード)を用いて展開(拡張)される。なお、共起単語グループ(により構成されるコンテキスト)が特定(抽出)されなかった場合、検索対象単語(検索対象他端語群)がそのまま単語展開結果となる。
単語展開部54による単語展開処理(ステップS3)の詳細を具体例を挙げて説明する。本実施形態では、クエリから「CD」「トランザクション」「処理」の3語が検索対象単語として抽出される(ステップS1)。また、抽出された検索対象単語(検索対象単語群)に含まれている「CD トランザクション」が共起単語グループ(をなす検索対象単語の組)として特定される(ステップS2)。
一方、図5に示される単語展開結果ファイル45の5行目には、特定された共起単語グループ「CD トランザクション」を含む過去の単語展開結果
「CD || キャッシュディスペンサー || ATM トランザクション」
が存在する。
「CD || キャッシュディスペンサー || ATM トランザクション」
が存在する。
そこで単語展開部54は、単語展開結果ファイル45から、当該ファイル45の5行目に存在する過去の展開結果「CD || キャッシュディスペンサー || ATM トランザクション」を取得して、上記特定された共起単語グループ「CD トランザクション」を当該過去の展開結果「CD || キャッシュディスペンサー || ATM トランザクション」に展開する。そして単語展開部54は、共起単語グループの単語「CD」「トランザクション」を含む過去の展開結果「CD || キャッシュディスペンサー || ATM トランザクション」に、当該展開結果に含まれていない検索対象単語「処理」を組み合わせて、新たな単語展開結果
「CD || キャッシュディスペンサー || ATM トランザクション 処理」
を生成する。
「CD || キャッシュディスペンサー || ATM トランザクション 処理」
を生成する。
このように単語展開部54は、特定された共起単語グループ「CD トランザクション」の単語を含む検索対象単語「CD」「トランザクション」「処理」から構成される検索条件「CD トランザクション 処理」を、単語展開結果ファイル45に格納されている過去の展開結果「CD || キャッシュディスペンサー || ATM トランザクション」を利用して、新たな検索条件
「CD || キャッシュディスペンサー || ATM トランザクション 処理」
に拡張する。
「CD || キャッシュディスペンサー || ATM トランザクション 処理」
に拡張する。
この検索条件(に含まれる共起単語グループ)の拡張(つまりユーザ指定のクエリから抽出された検索対象単語の展開)に用いられる過去の展開結果「CD || キャッシュディスペンサー || ATM トランザクション」は、単語展開結果登録条件ファイル47に設定されている単語展開結果登録条件に合致する展開結果である。このような過去の展開結果は、予め設定されているスキル上位者が指定したクエリに基づく文書検索で当該スキル上位者の意図した検索結果が得られた際に検索条件として用いられ、類義語や関連語を適切に含み、且つ多義語が持つ意味拡散性を抑制するための論理積単語を含んでいる可能性が極めて高い。
類似文書検索部55は、このような過去の展開結果を用いて検索対象単語が単語展開部54によって展開(拡張)された結果(新たな単語展開結果)を拡張された検索条件として、文書データベース42から当該拡張された検索条件に合致する文書(類似文書)を検索する(ステップS4)。ここでは、拡張された検索条件(新たな単語展開結果)
「CD || キャッシュディスペンサー || ATM トランザクション 処理」
に基づいて、単語「CD」または単語「キャッシュディスペンサー」または単語「ATM」を含み、且つ単語「トランザクション」及び単語「処理」を含む文書が検索される。
「CD || キャッシュディスペンサー || ATM トランザクション 処理」
に基づいて、単語「CD」または単語「キャッシュディスペンサー」または単語「ATM」を含み、且つ単語「トランザクション」及び単語「処理」を含む文書が検索される。
このように本実施形態においては、ユーザが指定したクエリから抽出される共起性の高い単語の組を含む過去になされた質の高い(必要十分な)単語展開結果を利用した文書検索により、当該クエリから抽出される検索対象単語によって構成される検索条件「CD トランザクション 処理」に基づく文書検索に比べて、多義語を解消すると共に漏れの少ない検索を実現できる。しかも本実施形態においては、このような質の高い検索を、類義語辞書のような人手によるメンテナンスが必要なデータを用いることなく実現できる。
類似文書検索部55による文書検索結果は、図示せぬ検索結果出力部によってクライアント端末20に返される。これにより、図3の検索表示画面の検索結果表示領域32に文書検索結果が表示される。
単語展開結果履歴採取部56は、類似文書検索部55による文書検索が行われると(ステップS4)、当該文書検索の検索条件として用いられた単語展開結果を含む単語展開結果情報を単語展開結果履歴ファイル46に格納する(ステップS5)。この単語展開結果情報は、文書検索が行われた日時を表す日時情報、及び当該文書検索が行われるもととなったクエリを指定したユーザのユーザIDを含む。
このように本実施形態では、類似文書検索処理の中で、文書検索の検索条件として用いられた単語展開結果を含む単語展開結果情報が単語展開結果履歴ファイル46に格納される。しかし、類似文書検索処理とは独立した処理の中で、単語展開結果情報が単語展開結果履歴ファイル46に格納されるようにしても構わない。
次に、単語展開結果登録処理部58による単語展開結果登録処理について、図7のフローチャートを参照して説明する。
本実施形態において単語展開結果登録処理部58は、単語展開結果履歴採取部56によって単語展開結果情報が単語展開結果履歴ファイル46に格納されると起動される。すると単語展開結果登録処理部58は、単語展開結果履歴ファイル46に格納された最新の単語展開結果情報(以下、第1の単語展開結果情報と称する)に含まれているユーザIDが、単語展開結果登録条件ファイル47に格納されている単語展開結果登録条件に含まれているかをチェックする(ステップS11)。
もし、第1の単語展開結果情報に含まれているユーザIDが単語展開結果登録条件に含まれていない場合、単語展開結果登録処理部58は、当該第1の単語展開結果情報に含まれている単語展開結果は、スキル上位者が指定したクエリに基づく文書検索で検索条件として使用されたものではないと判定する。この場合、単語展開結果登録処理部58は単語展開結果を単語展開結果ファイル45に登録せずに処理を終了する。
これに対し、第1の単語展開結果情報に含まれているユーザIDが単語展開結果登録条件に含まれている場合、単語展開結果登録処理部58は、当該第1の単語展開結果情報に含まれている単語展開結果は、スキル上位者が指定したクエリに基づく文書検索で検索条件として使用されたものであると判定する。この場合、単語展開結果登録処理部58は、第1の単語展開結果情報に含まれているユーザIDと同一のユーザIDを含み、且つ当該第1の単語展開結果情報に最も近い検索日時を表す日時情報を含む単語展開結果情報(以下、第2の単語展開結果情報と称する)を単語展開結果履歴ファイル46から探す(ステップS12)。
次に単語展開結果登録処理部58は、第1の単語展開結果情報に含まれている日時情報の示す日時t1と、第2の単語展開結果情報に含まれている日時情報の示す日時t2との時間間隔Δt=t1−t2を算出する(ステップS13)。そして単語展開結果登録処理部58は、算出された時間間隔Δtが閾値Tを超えているかを判定する(ステップS14)。
もし、ΔtがT以下であるならば、単語展開結果登録処理部58は、第2の単語展開結果情報に含まれている単語展開結果を検索条件とする文書検索の結果がユーザの意図したものではなかったと判定する。この場合、単語展開結果登録処理部58は単語展開結果を単語展開結果ファイル45に登録せずに処理を終了する。
これに対し、ΔtがTを超えているならば(ステップS14)、単語展開結果登録処理部58は、第2の単語展開結果情報に含まれている単語展開結果を検索条件とする文書検索の結果がユーザの意図したものであったと判定する。この場合、単語展開結果登録処理部58は、第2の単語展開結果情報に含まれている単語展開結果を単語展開レコードとして単語展開結果ファイル45に登録(格納)する(ステップS15)。
このように本実施形態では、単語展開結果登録処理部58による単語展開結果登録処理は、類似文書検索処理に同期して行われる。しかし、単語展開結果登録処理が、類似文書検索処理と非同期に行われても構わない。この場合、単語展開結果履歴採取部56が単語展開結果履歴ファイル46に単語展開結果情報を格納する際に、当該単語展開結果情報に例えばシリアル番号のようなユニークな単語展開結果情報IDを付与すると良い。このようにすると、単語展開結果登録処理部58は、最も最近に処理した単語展開結果情報を当該単語展開結果情報に付与されているIDで管理することにより、次に処理すべき単語展開結果情報を簡単に特定することができる。
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
10…データベースサーバ(データベースサーバコンピュータ)、20…クライアント端末、30…ネットワーク、40…外部記憶装置、41…データベース管理プログラム、42…文書データベース、43…形態素解析辞書、44…共起情報ファイル(共起情報記憶手段)、45…単語展開結果ファイル(単語展開結果記憶手段)、46…単語展開結果履歴ファイル(単語展開結果履歴記憶手段)、47単語展開結果登録条件ファイル、50…文書検索装置、51…コマンド管理部(要求受け付け手段)、52…形態素解析部、53…コンテキスト特定部(共起単語グループ抽出手段)、54…単語展開部、55…類似文書検索部、56…単語展開結果履歴採取部、57…単語展開結果登録条件設定部、58…単語展開結果登録処理部。
Claims (5)
- 文書データベースから検索条件に合致する文書を検索する文書検索装置において、
複数の単語間の共起関係を表す共起情報を記憶する共起情報記憶手段と、
ユーザからの検索要求を受け付ける要求受け付け手段と、
前記検索要求で指定された検索条件に含まれている検索の対象となる検索対象単語と前記共起情報記憶手段に記憶されている共起情報とを照合することにより、共起関係のある検索対象単語の組を共起単語グループとして抽出する共起単語グループ抽出手段と、
検索対象単語の類義語または関連語への単語展開がなされた過去の単語展開結果を記憶する単語展開結果記憶手段と、
前記共起単語グループ抽出手段によって抽出された共起単語グループを含む単語展開結果を前記単語展開結果記憶手段から取得して、前記検索要求で指定された検索条件に含まれている検索対象単語を、当該単語展開結果を含むように展開する単語展開手段と、
前記単語展開手段によって展開された新たな単語展開結果を拡張された検索条件として、当該新たな単語展開結果に基づいて前記データベースから文書を検索する検索手段と
を具備することを特徴とする文書検索装置。 - 前記単語展開手段による単語展開結果を累積的に記憶する単語展開結果履歴記憶手段と、
前記単語展開結果履歴記憶手段に記憶されている単語展開結果のうち予め定められた単語展開結果登録条件に合致する単語展開結果を前記単語展開結果記憶手段に登録する単語展開結果登録処理手段と
を更に具備することを特徴とする請求項1記載の文書検索装置。 - 前記単語展開結果履歴記憶手段に記憶される単語展開結果には、対応する単語展開のもととなった検索条件を指定したユーザを識別するユーザ識別情報が付されており、
前記単語展開結果登録条件はユーザ識別情報を含み、
前記単語展開結果登録処理手段は、前記単語展開結果履歴記憶手段に記憶されている単語展開結果のうち、前記単語展開結果登録条件に含まれているユーザ識別情報に一致するユーザ識別情報が付されている単語展開結果を前記単語展開結果記憶手段に登録する
ことを特徴とする請求項2記載の文書検索装置。 - 前記単語展開結果履歴記憶手段に記憶される単語展開結果には、対応する単語展開のもととなった検索条件を指定したユーザを識別するユーザ識別情報及び当該単語展開結果に基づいて文書検索が行われた日時を表す日時情報が付されており、
前記単語展開結果登録条件はユーザ識別情報及び時間閾値を含み、
前記単語展開結果登録処理手段は、前記単語展開結果履歴記憶手段に記憶されている単語展開結果のうち、前記単語展開結果登録条件に含まれているユーザ識別情報に一致するユーザ識別情報が付されている第1の単語展開結果と、当該第1の単語展開結果とユーザ識別情報が当該第1の単語展開結果に先行する第2の単語展開結果とにそれぞれ付されている前記日時情報の示す日時の間隔が前記単語展開結果登録条件に含まれている前記時間閾値を超えている場合に、前記第2の単語展開結果を前記単語展開結果記憶手段に登録する
ことを特徴とする請求項2記載の文書検索装置。 - 文書データベースから検索条件に合致する文書を検索するのに用いられるコンピュータを、
ユーザからの検索要求を受け付ける要求受け付け手段と、
前記検索要求で指定された検索条件に含まれている検索の対象となる検索対象単語と複数の単語間の共起関係を表す共起情報を記憶する共起情報記憶手段に記憶されている共起情報とを照合することにより、共起関係のある検索対象単語の組を共起単語グループとして抽出する共起単語グループ抽出手段と、
前記抽出された共起単語グループを含む単語展開結果を、検索対象単語の類義語または関連語への単語展開がなされた過去の単語展開結果を記憶する前記単語展開結果記憶手段から取得して、前記検索要求で指定された検索条件に含まれている検索対象単語を、当該単語展開結果を含むように展開する単語展開手段と、
前記単語展開手段によって展開された新たな単語展開結果を拡張された検索条件として、当該新たな単語展開結果に基づいて前記データベースから文書を検索する検索手段と
して機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007036791A JP2008203997A (ja) | 2007-02-16 | 2007-02-16 | 文書検索装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007036791A JP2008203997A (ja) | 2007-02-16 | 2007-02-16 | 文書検索装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008203997A true JP2008203997A (ja) | 2008-09-04 |
Family
ID=39781471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007036791A Pending JP2008203997A (ja) | 2007-02-16 | 2007-02-16 | 文書検索装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008203997A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014240999A (ja) * | 2013-06-11 | 2014-12-25 | コニカミノルタ株式会社 | 関心事判別装置、関心事判別方法、およびコンピュータプログラム |
JP2019139413A (ja) * | 2018-02-08 | 2019-08-22 | 富士通株式会社 | 検索処理プログラム、検索処理方法及び検索処理装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000222424A (ja) * | 1999-02-02 | 2000-08-11 | Amr Media Quest Inc | 情報検索装置及び情報管理装置 |
JP2001109752A (ja) * | 1999-10-14 | 2001-04-20 | Toshiba Corp | 情報検索方法及び情報管理方法及びシステム |
JP2005078334A (ja) * | 2003-08-29 | 2005-03-24 | Fujitsu Ltd | 文書管理システムにおける検索方法 |
JP2005275524A (ja) * | 2004-03-23 | 2005-10-06 | Techno Network Shikoku Co Ltd | 共起動詞情報による検索要求理解キーワード拡充システム |
WO2007001128A1 (en) * | 2005-06-27 | 2007-01-04 | Nhn Corporation | Method and system for determining relation between search terms in the internet search system |
-
2007
- 2007-02-16 JP JP2007036791A patent/JP2008203997A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000222424A (ja) * | 1999-02-02 | 2000-08-11 | Amr Media Quest Inc | 情報検索装置及び情報管理装置 |
JP2001109752A (ja) * | 1999-10-14 | 2001-04-20 | Toshiba Corp | 情報検索方法及び情報管理方法及びシステム |
JP2005078334A (ja) * | 2003-08-29 | 2005-03-24 | Fujitsu Ltd | 文書管理システムにおける検索方法 |
JP2005275524A (ja) * | 2004-03-23 | 2005-10-06 | Techno Network Shikoku Co Ltd | 共起動詞情報による検索要求理解キーワード拡充システム |
WO2007001128A1 (en) * | 2005-06-27 | 2007-01-04 | Nhn Corporation | Method and system for determining relation between search terms in the internet search system |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014240999A (ja) * | 2013-06-11 | 2014-12-25 | コニカミノルタ株式会社 | 関心事判別装置、関心事判別方法、およびコンピュータプログラム |
US9607076B2 (en) | 2013-06-11 | 2017-03-28 | Konica Minolta, Inc. | Device and method for determining interest, and computer-readable storage medium for computer program |
JP2019139413A (ja) * | 2018-02-08 | 2019-08-22 | 富士通株式会社 | 検索処理プログラム、検索処理方法及び検索処理装置 |
JP7091685B2 (ja) | 2018-02-08 | 2022-06-28 | 富士通株式会社 | 検索処理プログラム、検索処理方法及び検索処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
JP4467791B2 (ja) | 情報管理及び検索 | |
TWI431493B (zh) | 用於使用多階段方式之事實摘取的最佳化之方法、電腦可讀取儲存媒體及電腦系統 | |
US6947930B2 (en) | Systems and methods for interactive search query refinement | |
KR100396826B1 (ko) | 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법 | |
JP2010287020A (ja) | 同義語展開システム及び同義語展開方法 | |
JP4092933B2 (ja) | 文書情報検索装置及び文書情報検索プログラム | |
JP4969209B2 (ja) | 検索システム | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
JP2007025939A (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
JP2009086903A (ja) | 検索サービス装置 | |
JP2000331012A (ja) | 電子化文書検索方法 | |
JP2008203997A (ja) | 文書検索装置及びプログラム | |
JP2011090463A (ja) | 文書検索システム、情報処理装置およびプログラム | |
JPH11272709A (ja) | ファイル検索方式 | |
JPH11143902A (ja) | n−gramを用いた類似文書検索方法 | |
CN113806491A (zh) | 一种信息处理的方法、装置、设备和介质 | |
JP2004086307A (ja) | 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム | |
JP3848014B2 (ja) | 文書検索方法および文書検索装置 | |
CN111931026A (zh) | 一种基于词性扩展的搜索优化方法及系统 | |
JP2002117043A (ja) | 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体 | |
Taghva et al. | Farsi searching and display technologies | |
JP2008090396A (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
JP2005234772A (ja) | 文書管理装置および方法 | |
JPH07134720A (ja) | 文章作成システムにおける関連情報提示方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091124 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100316 |