JP4974436B2

JP4974436B2 - ファイル検索装置およびファイル検索方法

Info

Publication number: JP4974436B2
Application number: JP2002136320A
Authority: JP
Inventors: 直也植松
Original assignee: 株式会社ジャストシステム
Priority date: 2002-05-10
Filing date: 2002-05-10
Publication date: 2012-07-11
Anticipated expiration: 2022-05-10
Also published as: JP2003330940A

Description

【０００１】
【発明の属する技術分野】
この発明は、検索用索引データの生成方法および装置と、これらを利用可能なファイル検索装置に関する。この発明は特に、多数のファイルから効率よく目的のファイルを抽出する技術に関する。
【０００２】
【従来の技術】
近年、ＰＣ（パーソナルコンピュータ）の普及により、あらゆる書類の電子化が進んでいる。ワードプロセッサなどの文書作成ソフトウエアを用いてファイルを電子的に作成し、これがハードディスクに蓄積されていく。企業内の環境ではコンピュータ同士をネットワークで接続し、大量の文書ファイルを複数ユーザ間で共有することも多い。インターネットが普及した現在では、ウェブページや電子メールなどの社外から受け取るデータも増えている。こうした大量のファイルの中から誰でも所望のファイルを探せるように、所定の管理者が予め分類しておくこともある。
【０００３】
【発明が解決しようとする課題】
ここで、複数のファイルを分類する方法として、ファイルの内容に応じてグループ化してそれぞれを別々のフォルダに格納する方法がある。しかしながら、ファイルのグループを一義的に定めることは困難であるばかりか、大量のファイルを特定の管理者が予め分類したとしても分類の基準が管理者の主観に依存して却って検索が困難となる場合もある。こうして管理と検索の双方が容易でないために、貴重な資料が再利用されずに眠ったままになることは決して珍しくない。
【０００４】
一方、複数ユーザ間で共有されるファイルは、多くのユーザにとって利用価値の高いものもあれば、そもそもほんの一部のユーザにしか利用価値がないものもある。また、頻繁に再利用されるものやそうでないものも含まれる。したがって、大量のファイルのうち大半が各ユーザにとって不要である可能性が高い。そのようなファイルが混在した状態でファイルを種類別に分類しても、必ずしも検索の容易化にはつながらない。真に利用価値の高いファイルだけを簡単に探し出すことができれば、多くのユーザに作業効率の向上をもたらすことになる。
【０００５】
本発明者は以上の認識に基づき本発明をなしたもので、その目的は、利便性の高い方法で多数のファイルから効率よく目的のファイルを抽出するための技術の提供にある。本発明のまた別の目的は、処理の対象となるファイルの概念を示す索引データを精度よく生成する技術の提供にある。
【０００６】
【課題を解決するための手段】
本発明のある態様は、検索用索引データの生成方法に関する。この方法は、検索の対象となるファイルに含まれる語句を検索語句として参照するときに、用途に応じて語句の類否を判断するために、検索条件との比較に先立ち、検索語句の用途を表現した検索項目を特定し、検索語句を検索項目に対応付けて保持する。検索語句が検索項目に対応付けられたかたちで索引データが生成されてよい。
【０００７】
ファイルとは文書ファイル、ＨＴＭＬやＸＭＬなどの記述言語を用いて生成されたファイル、画像ファイルなど、多様な形式のファイルを含む。またここでいうファイルとは、複数の項目を含むレコードであってもよく、ある実体の属性からなる一まとまりのデータ群であってもよい。属性とは、実体の具体的な性質であってよい。なお、ここで検索項目とは、レコードにおける項目や実体の属性であってよい。ファイルは、自然文であってもよく、また予め設定された検索項目に対応づけて検索語句が入力された形式であってもよい。また、ファイルは自然文と予め設定された検索項目に対応づけて検索語句が入力された形式との組み合わせであってもよい。
【０００８】
本発明の別の態様は、検索の対象となるファイルにおいて、そのファイルに含まれる文字列の出現頻度に基づく統計的な処理によりそのファイルの索引データを生成する方法に関する。この方法は、同じ概念を表象する文字列であっても、用途が異なる場合は、それらの文字列を異なる文字列として統計的な処理を行う。
【０００９】
本発明の別の態様は、検索用索引データの生成装置に関する。この装置は、処理の対象となるファイルに含まれる語句を抽出する語句抽出部と、抽出された語句を検索語句として参照するときに、用途に応じて語句の類否を判断するために、検索語句の用途を表現した検索項目を特定する項目特定部と、検索語句を検索項目に対応付けて保持する索引データ保持部とを備える。
【００１０】
本発明の別の態様もまた検索用索引データの生成装置に関する。この装置は、検索時に参照する検索語句を、用途に応じて語句の類否を判断するために、検索語句の用途を表現した検索項目に対応づけられた所定の場所に入力させ、入力された検索語句をその検索項目に対応づけて取得する語句取得部と、検索語句を検索項目に対応づけて保持する索引データ保持部とを備える。
【００１１】
ここで、語句取得部は、予め設定された検索項目に対応づけて検索語句が入力されるアンケート、パンフレット、カタログ、規格表などの穴埋め形式で検索語句を取得してよい。なお、検索項目が特に設定されていない欄に自然文が入力された場合は、語句取得部はその自然文から検索語句を抽出し、抽出した検索語句の用途を表現した検索項目を特定してよい。このとき、語句取得部は、自然文に含まれる語句の出現頻度に基づく統計的な処理により検索語句を抽出してよい。また、検索項目は、同一ファイル中の他の欄や他のファイルにおいて予め設定された検索項目を参照して特定されてもよい。
【００１２】
この装置は、検索語句およびそれに対応付けられた検索項目との組み合わせごとの出現頻度に基づく統計的な処理を行う統計処理部をさらに備えてもよく、索引データ保持部は、統計的な処理の結果を保持してもよい。統計処理部は、同じ表現であっても、異なる検索項目に対応付けられた検索語句は、異なる語句として扱ってよい。また統計処理部は、異なる表現であっても、対応付けられた検索項目を考慮すると実質的に同義となる検索語句は、同一視して扱ってよい。
【００１３】
この装置は、検索語句が互いに異なる場合であっても、同一の検索項目に対応付けられ、その検索項目を考慮すると実質的に同義となる検索語句を同一視する処理を行う類似語句調整部をさらに有してよい。この装置は、検索項目に対して入力されるべき検索語句を検索項目に対応づけて保持する項目別の類似語句格納部をさらに有してよく、類似語句調整部は、同一の検索項目に対応付けられた検索語句の一方が抽象的な用語である場合に、類似語句格納部を参照して、検索語句を具体化した用語との対応付けを行う。
【００１４】
この装置は、検索条件の主題となる実体を設定する設定部をさらに備えてもよく、統計処理部は、検索語句に対応づけられた検索項目が実体に関連する場合は、その検索語句に対しては重み付けを高くして統計的な処理を行ってよい。実体に関連するとは、検索項目が実体を含む場合であってよく、また検索項目が実体の属性である場合であってもよい。
【００１５】
この装置は、処理の対象となるファイルの主題となる実体を設定する設定部をさらに備えてもよく、項目特定部は、実体の属性を考慮して検索項目を特定してもよい。属性とは、実体の具体的な性質であってよい。設定部は、ファイルに含まれる語句の出現頻度に基づく統計的な処理によりそのファイルの概念を特定し、その概念に基づき実体を設定してよい。また、検索項目は、同一ファイル中の予め設定された他の検索項目や、同一の実体が設定された他のファイルに含まれる検索項目を参照して特定されてもよい。
【００１６】
本発明の別の態様は、ファイル検索装置に関する。この装置は、検索の対象となる複数のファイルにおいて、ファイルごとに、そのファイルに含まれる語句を検索語句として参照するときに、用途に応じて語句の類否を判断するために、検索語句の用途を表現した検索項目を検索語句に対応づけて索引データとして取得する対象取得部と、検索条件を示す目標索引データを取得する条件取得部と、目標索引データと、複数のファイルの索引データとを比較して、索引データ間の類似度をもとに、複数のファイルの中から検索条件と概念的に内容が類似するファイルを抽出されたファイル抽出部と、抽出したファイルを提示する結果提示部とを備える。索引データは、検索に先立ち生成されてもよく、検索時に略リアルタイムで生成されてもよい。目標索引データは、検索の対象となる索引データと同様の手法で生成されてよい。
【００１７】
この装置は単体のＰＣで構成されてもよく、互いにネットワークで接続されたサーバおよびユーザ端末を組み合わせたシステムの形で構成してもよい。後者の場合、本装置に含まれるべき各機能ブロックを、システムを構成するサーバおよびユーザ端末のいずれに包含させてもよい。例えば、対象取得部、条件取得部、ファイル抽出部、および結果提示部は、それぞれサーバおよびユーザ端末のいずれか一方または双方に包含されてもよく、いずれの場合にも同一の呼称で表現してもよい。これらの機能をソフトウェアモジュールの形で提供する場合、サーバまたはユーザ端末のいずれにおいて実行してもよい。
【００１８】
なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。
【００１９】
【発明の実施の形態】
（前提技術）
この前提技術におけるファイル検索装置は、検索条件としてユーザが指定した文章に類似するファイルを複数のファイルの中から検索する。これにより、予め内容に応じてファイルを分類しておかなくともファイルの検索が容易となり、大量のファイルを管理する負担が軽減される。
【００２０】
図１は、前提技術におけるファイル検索装置の構成を示す機能ブロック図である。ファイル検索装置１０は、複数のファイルから所望のファイルを検索する際に参照される索引データの生成に必要な処理をなす処理ユニット２０と、ユーザから指定された条件に基づいて検索処理をなす検索ユニット３０と、検索対象となる複数のファイル（以下、「蓄積ファイル」という。）や検索処理に必要なデータを保持する保持ユニット４０と、本装置と外部との間でデータの入出力を処理する入出力処理部５０と、を有する。
【００２１】
このファイル検索装置１０は、ハードウエア的にはコンピュータのＣＰＵやメモリなどの構成で実現でき、ソフトウエア的にはファイル管理やファイル検索機能のあるプログラムなどによって実現できるが、本図ではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組み合わせによっていろいろなかたちで実現できる。
【００２２】
処理ユニット２０は、保持ユニット４０が保持する複数の蓄積ファイルを処理対象とし、それぞれから特徴的な文字列を複数抽出する。この複数の特徴的な文字列は、その蓄積ファイルの内容を端的に示したコンセプト（概念）を形成するものとし、このコンセプトを索引データとして記録する。処理ユニット２０は、蓄積ファイルに含まれる文字列を言語解析する解析処理部２２と、その解析結果に基づいて索引データを生成する生成処理部２４と、を含む。
【００２３】
解析処理部２２は、前処理部２６と文字列抽出部２７を含む。前処理部２６は、言語解析に先だって前処理を行う。例えば、処理対象となる蓄積ファイルからファイル形式や文書形式を検出し、これに基づいてその蓄積ファイルをテキスト形式などの非定型な形式に変換して解析容易な状態を形成してもよい。ひとつの蓄積ファイルを複数のブロックに分割して解析に適した状態を形成してもよい。このとき形態素解析、構文解析、意味解析などの技術を利用してもよい。
【００２４】
文字列抽出部２７は、処理対象の蓄積ファイルから複数の文字列を抽出する。後述する単語辞書に含まれる単語を抽出する形でもよいし、スペースやブランクで区切られた文字列を単語として認識してもよい。
【００２５】
生成処理部２４は、統計処理部２８と索引生成部２９を含む。統計処理部２８は、抽出された文字列のその蓄積ファイルにおける出現頻度を計数するとともに、ファイル格納部４２が保持する複数の蓄積ファイル全体にわたるその文字列の出現頻度を計数する。このとき文字列同士の類似性を考慮する。例えば、類義語、同義語、統制語として定義された相互に意味が近似する複数の単語間の相違を吸収して文字列の出現頻度を計数する。
【００２６】
索引生成部２９は、統計処理部２８によって計数された文字列の出現頻度に基づいて索引データを生成する。この索引データは、抽出された複数の文字列にそれぞれの出現頻度に応じた重み付けが付加された一覧として構成される。各文字列に対する重み付けは、処理対象の蓄積ファイルにおける出願頻度が高い文字列ほど重み付けを高くする一方で、ファイル格納部４２が保持する複数の蓄積ファイル全体にわたって出現頻度が高い文字列に対しては重み付けを低くする。その結果、その蓄積ファイルに特有な文字列を統計的な手法で顕在化させることができる。各蓄積ファイルが前処理部２６によって複数のブロックに分割された場合はブロックごとに索引データが生成される。
【００２７】
保持ユニット４０は、ファイル格納部４２、索引格納部４４、辞書格納部４６、および関連データ格納部４８を含む。ファイル格納部４２は、複数の蓄積ファイルを保持する。例えばワードプロセッサなどの文書作成ソフトウエアによって生成された文書ファイル、ＨＴＭＬ（Hyper Text Markup Language）やＸＭＬ（eXtensible Markup Language）などの記述言語を用いて生成されたファイルなど、多様な形式のファイルを含み、その内容は必ずしも文章でなくともよい。また、蓄積ファイル自体は、検索を前提とした分類および定型化が予めなされることを必要としない。
【００２８】
索引格納部４４は、処理ユニット２０によって生成された索引データを蓄積ファイルと対応づけられたかたちで保持する。辞書格納部４６は、単語辞書、類義語辞書、同義語辞書、統制語辞書など、処理ユニット２０による言語解析や統計処理において参照されるデータを保持する。関連データ格納部４８は、検索ユニット３０による処理においてオプション的に利用されるデータを保持する。例えば、検索条件として指定された言葉を上位概念の単語、下位概念の単語、関連性をもつ単語などに置き換えるために参照する関連辞書を保持する。こうしたデータを処理ユニット２０が蓄積ファイルから抽出して生成してもよい。
【００２９】
検索ユニット３０は、ユーザから検索条件を受け取り、これに適合する蓄積ファイルをファイル格納部４２から抽出する。検索ユニット３０は、検索条件と索引データを比較する比較処理部３２と、比較結果に基づいて検索条件に適合する蓄積ファイルをユーザに提示する結果処理部３４を含む。
【００３０】
比較処理部３２は、条件設定部３６および類似度判断部３７を含む。条件設定部３６は、ユーザから検索条件を取得する。この検索条件は、自然文によって記述された文章のかたちでもよいし、何らかの文字列を含んだファイルのかたちでもよい。その検索条件は処理ユニット２０に送られて前述した索引データの生成過程と同様の処理対象となり、その検索条件のコンセプトが生成される。
【００３１】
類似度判断部３７は、検索条件のコンセプトと索引データとして記録されたコンセプト同士を比較することにより、検索条件と蓄積ファイルの類似度を検出する。比較の際に、辞書格納部４６や関連データ格納部４８が保持する各種辞書に基づき、検索条件に含まれる文字列と関連する他の文字列を追加してその検索条件を補完してもよい。
【００３２】
ここで、検索条件と索引データの比較にはベクトル空間モデルを利用する。すなわち、検索条件のコンセプトと索引データのコンセプトをそれぞれ多次元空間上のベクトルとして表現し、これらを比較する。コンセプトにｎ個の文字列が含まれる場合はｎ次元のベクトル空間が形成され、各文字列の出現頻度に応じた重み付けが各成分に加えられる。こうして形成されるベクトル同士の近似度が検索条件と蓄積ファイルの類似度となる。
【００３３】
結果処理部３４は、一覧生成部３８および表示処理部３９を含む。一覧生成部３８は、類似度の高い順に蓄積ファイルの一覧を生成する。このとき一覧に含まれる蓄積ファイルの数が適当な数に限定されるよう調整してもよい。
【００３４】
表示処理部３９は、検索結果として蓄積ファイルの一覧を画面に表示させる。蓄積ファイルの一覧は、ファイル名とその内容の要約で構成してもよい。
【００３５】
入出力処理部５０は、ファイル検索装置１０に対する各種処理の指示、検索条件の入力、検索結果の出力など、ファイル検索装置１０とその外部との間でデータを入出力するインタフェイスである。ファイル検索装置１０がスタンドアロンで実現される場合にはユーザと本装置を結ぶインタフェイスとなり、ファイル検索装置１０がネットワークサーバとして実現される場合には本装置をクライアント端末とネットワークを介して接続させる通信インタフェイスとなる。
【００３６】
図２は、前提技術における索引データの生成過程を示すフローチャートである。まず、複数のファイルから処理対象となる蓄積ファイルを設定し（Ｓ１０）、その蓄積ファイルに前処理を施し（Ｓ１２）、その蓄積ファイルから形態素解析などの処理により文字列を抽出する（Ｓ１４）。抽出された文字列ごとに出現頻度などの統計的なデータを算出し（Ｓ１６）、これをもとに索引データを生成する（Ｓ１８）。まだ索引データ生成がされていない蓄積ファイルがファイル格納部４２に残っている場合（Ｓ２０Ｙ）、その残りファイルを処理対象にしてＳ１０〜Ｓ１８の処理を施し、すべての蓄積ファイルを処理するまでこれを繰り返す（Ｓ２０）。
【００３７】
図３は、前提技術における検索過程を示すフローチャートである。まず、検索条件となる文章をユーザが自然文の形で指定すると（Ｓ３０）、処理ユニット２０がその検索条件から文字列を抽出して索引データを生成する（Ｓ３２）。その索引データと索引格納部４４が保持する複数の索引データを照合してそれぞれの類似度を判断し（Ｓ３４）、その類似度の順に蓄積ファイルの一覧を生成し（Ｓ３６）、これを検索結果として画面に表示させる（Ｓ３８）。
【００３８】
以上の前提技術との対比において、以下、実施の形態を説明する。なお、前提技術に含まれる機能ブロックと同じ働きをなす機能ブロックに対しては同じ名称と符号を付すとともに、その説明を適宜省略する。
【００３９】
以下の実施の形態においては、上述した前提技術において説明した文字列と同様に、検索の対象となる蓄積ファイルや検索条件を示すファイルから検索語句を抽出して索引データを生成する。その際に、抽出した検索語句をその用途を表現した検索項目に対応付け、検索語句と検索項目との組み合わせを考慮して索引データを生成する。検索語句を検索項目に対応付けて取り扱うことにより、例えば同じ語句であっても用途が異なる語句を区別したり、異なる語句であっても実質的に同義である語句を同一視したりすることができるので、精度よく目的のファイルを抽出することができる。
【００４０】
（実施の形態）
本実施の形態においては、予め設定された検索項目に対応付けられた所定の場所に検索語句が入力された形式のファイルを対象として処理を行う。
【００４１】
図４は、本実施の形態における検索システムの全体構成を示す機能ブロック図である。検索システム８０において、ファイル検索サーバ１００はネットワーク９０を介して複数のユーザ端末９２と接続される。ファイル検索サーバ１００は、検索対象となる複数の蓄積ファイルを保持する。ユーザ端末９２は、ＰＣなどの情報処理装置である。ネットワーク９０は、例えばインターネットである。
【００４２】
図５は、ファイル検索サーバの構成を示す機能ブロック図である。ファイル検索サーバ１００は、前提技術において説明した検索装置１０と同様に処理ユニット２０、検索ユニット３０、保持ユニット４０、および入出力処理部５０を有する。入出力処理部５０は、ネットワーク９０を介してユーザ端末９２との間でデータを送受信する。
【００４３】
処理ユニット２０は、解析処理部２２および生成処理部２４を含む。本実施の形態において、解析処理部２２は前提技術の文字列抽出部２７に代えて、語句抽出部１０２、項目特定部１０４および対応リスト生成部１０６を含む。
【００４４】
語句抽出部１０２は、各ファイルに含まれる検索語句を抽出する。項目特定部１０４は、抽出された各検索語句の用途を表現した検索項目を特定する。また、項目特定部１０４は、例えば異なる語句であっても実質的に同義である検索項目の用語を統一するなど、検索項目の表現の調整を行う。項目特定部１０４は、処理の対象となるファイルの主題を考慮して検索項目の表現を調整してよい。対応リスト生成部１０６は、検索語句をその検索項目に対応付けたかたちの対応リストを生成する。
【００４５】
生成処理部２４は、前提技術の統計処理部２８および索引生成部２９に加えて、類似語句調整部１０８を含む。類似語句調整部１０８は、表現が異なる検索語句であっても、同一の検索項目に対応付けられ、その検索項目を考慮すると実質的に同義となる複数の検索語句を同一視する処理を行う。類似語句調整部１０８は、例えば同一の検索項目に対応付けられた検索語句の一方が抽象的な用語である場合に、検索項目に対して入力されるべき検索語句を具体化した用語全体を考慮して、それらの検索語句の対応付けを行う。
【００４６】
本実施の形態において、統計処理部２８は、抽出された検索語句とそれに対応付けられた検索項目との組み合わせごとの出現頻度を計数する。索引生成部２９は、検索語句をその検索項目に対応付けたかたちで索引データを生成する。索引データは、抽出された複数の検索語句とその検索項目との組み合わせに、それぞれの出現頻度に応じた重み付けが付加された一覧として構成される。また、重み付けは、そのファイルの主題および検索項目を考慮して行われてよい。例えば、そのファイルの主題に関連する検索項目に対応付けられた検索語句への重み付けは高くされてよい。このように重み付けを行うことにより、同じ語句であっても、重要な語句への重み付けを高くして重要でない語句への重み付けを低くすることができ、そのファイルの概念を精度よく示す索引データを生成することができる。
【００４７】
保持ユニット４０は、前提技術のファイル格納部４２、索引格納部４４、辞書格納部４６、および関連データ格納部４８に加えて、対応リスト格納部１１０、項目候補格納部１１２および類似語句格納部１１４を含む。
【００４８】
対応リスト格納部１１０は、対応リスト生成部１０６によって生成された対応リストを蓄積ファイルと対応付けたかたちで保持する。項目候補格納部１１２は、蓄積ファイルの主題となる実体を考慮して検索項目となり得る候補をその実体に対応づけて保持する。検索項目は、蓄積ファイルの実体の属性であってよい。また、項目候補格納部１１２は、表現が異なっていても実質的に同義である複数の検索項目を互いに対応づけて保持する。
【００４９】
項目特定部１０４は、項目候補格納部１１２を参照して検索項目を特定してもよい。また、項目特定部１０４は、項目候補格納部１１２に保持されていない検索項目を特定した場合には、その検索項目を実体に対応づけて保持させてよい。このように新たな検索項目を順次実体に対応付けて保持させることにより、その後の検索項目の特定を容易に行うことができる。
【００５０】
類似語句格納部１１４は、表現が異なる検索語句であっても、検索項目との組み合わせにおいて、その検索項目を考慮すると実質的に同義となる複数の検索語句を検索項目に対応づけて保持する。例えば検索項目が「年齢」である場合、検索語句としては具体的な数値が入力される場合と、「若い」、「中年」、「老人」などの抽象的な語句が入力される場合とがある。類似語句格納部１１４は、「若い」などの抽象的な用語と、「１５歳」などの数値を具体化した用語を互いに対応づけて保持する。この例のように具体化した用語が数値である場合は、例えば類似語句格納部１１４に中間となる数値を基準として保持させ、類似語句調整部１０８は、基準となる数値との比較で検索語句の類否判断を行ってよい。
【００５１】
検索ユニット３０は、前提技術の比較処理部３２および結果処理部３４に加えて、ファイル抽出部１１６および結果提示部１１８を含む。本実施の形態において、比較処理部３２の条件設定部３６は、アンケートなどのように、予め設定された検索項目に対応付けられた所定の場所に検索語句が入力された形式で検索条件を取得する。検索条件を示すファイルは処理ユニット２０に送られ、前述した蓄積ファイルと同様の処理により、検索条件の索引データが生成される。
【００５２】
ファイル抽出部１１６は、検索条件を示すファイルの索引データと、蓄積ファイルの索引データとを比較して、索引データ間の類似度をもとに、複数のファイルの中から検索条件と概念的に内容が類似するファイルを抽出する。結果提示部１１８は、抽出されたファイルを提示する。
【００５３】
なお、蓄積ファイルおよび検索条件を示すファイルには、備考欄やその他欄など、所定の検索項目に対応付けられていない自然文を入力する欄が設けられてもよい。この場合、語句抽出部１０２は自然文から検索語句を抽出する。検索語句は、前提技術で説明した文字列と同様にして抽出されてよい。項目特定部１０４は、抽出された検索語句の用途を示す検索項目を特定する。項目特定部１０４は、項目候補格納部１１２を参照して検索項目を特定してもよく、形態素解析、構文解析、意味解析などの技術を利用して検索項目を特定してもよい。
【００５４】
図６は、項目候補格納部１１２の内部構成の一例を示す図である。このファイルは車の商品案内が主題であり、実体は「車」である。項目候補格納部１１２は、「商品名」、「メーカー」、「生産国」、「車の色」などを検索項目の候補として実体に対応付けて保持する。また、例えば「商品名」と同義の検索項目として「車種」が、「車の色」と同義の検索項目として「車体カラー」などが保持される。このように、表現が異なっていても実質的に同義である複数の検索項目を互いに対応付けて保持しておくことにより、非定型のファイル間の比較を容易に行うことができる。
【００５５】
図７は、検索対象となる蓄積ファイルの一例を示す図である。検索対象となる蓄積ファイルは、例えば製品カタログやパンフレットである。ここでは、この蓄積ファイルは、車の商品案内画面１３０としてユーザ端末９２に表示される。画面１３０は、車種欄１３２、生産国欄１３４、メーカー欄１３６、ボディタイプ欄１３８、定員欄１４０、車体カラー欄１４２、価格欄１４４および備考欄１４６で構成される。語句抽出部１０２は、検索語句として「Ｂ２３４」、「ドイツ」、「Ｂ社」、「セダン」、「５人」、「赤」、「３００万円」などを抽出する。
【００５６】
また、語句抽出部１０２は、備考欄１４６に記入された自然文から、「スポーティー」、「赤い」、「ロゴマーク」などを検索語句として抽出する。項目特定部１０４は、「Ｂ２３４」の検索項目として「車種」、「ドイツ」の検索項目として「生産国」、「Ｂ社」の検索項目として「メーカー」、「セダン」検索項目として「ボディタイプ」、「定員」の検索項目として「５人」、「赤」の検索項目として「車体カラー」、「３００万円」の検索項目として「価格」を特定する。ここで、備考欄１４６は検索項目が設定されていないので、項目特定部１０４は、項目候補格納部１１２を参照するなどして、例えば「スポーティー」の検索項目として「車の形状」、「赤」の検索項目として「ロゴマークの色」、「ロゴマーク」の検索項目として「車の模様」を特定する。
【００５７】
図８は、図７に示した対象ファイルから生成された対応リストを示す図である。対応リスト１５０には、各検索語句にその検索項目が対応付けられる。ここで、例えば検索語句「赤」には、「車体カラー」と「ロゴマーク」が検索項目としてそれぞれ対応付けられる。このとき、これらの「赤」という検索語句は、異なる検索項目に対応付けられているので、同じ用語であっても区別して扱われる。
【００５８】
図９は、蓄積ファイルを検索するときに検索条件を入力する画面を示す。この検索画面１６０は、ユーザに欲しい車の条件を入力させるものである。検索画面１６０は、主題欄１６２、生産国欄１６４、メーカー欄１６６、ボディタイプ欄１６８、車体カラー欄１７０、定員欄１７２およびその他欄１７４で構成される。
【００５９】
ここで、ユーザは、生産国欄１６４およびメーカー欄１６６を無記入にし、ボディタイプ欄１６８に「セダン又は軽」、車体カラー欄１７０に「赤」、定員欄１７２に「普通」と入力している。語句抽出部１０２は、例えば辞書格納部４６の単語辞書を参照して検索語句として「セダン」、「軽」、「赤」、「普通」、「スポーツタイプ」などを抽出する。項目特定部１０４は、「セダン」および「軽」の検索項目としてそれぞれ「ボディタイプ」、「赤」の検索項目として「車体カラー」、「普通」の検索項目として「定員」を特定する。このとき、検索語句「普通」は検索項目「定員」に対応付けられている。例えば、自動車の定員として「５人」や「６人」が普通である場合、類似語句調整部１０８は、検索語句「普通」を同じ検索項目「定員」に対応付けられた検索項目「５人」や「６人」と同視する処理を行ってよい。
【００６０】
また、その他欄１７４は検索項目が設定されていないので、項目特定部１０４は、項目候補格納部１１２を参照するなどして、「スポーツタイプ」の検索項目として「車の形状」を特定する。
【００６１】
図１０は、図９に示した検索条件ファイルから生成された対応リストを示す図である。対応リスト１８０には、各検索語句にその検索項目が対応づけられる。ここで、検索項目「生産国」および「メーカー」には、検索語句として「ａｌｌ」が対応付けられる。比較処理部３２の類似度判断部３７は、蓄積ファイルの索引データにおいて、検索項目「生産国」および「メーカー」に対応付けられた検索語句がどのようなものであっても、検索条件に合致すると判断してよい。
【００６２】
図１１は、処理の対象となるファイルから索引データを生成する過程を示すフローチャートである。複数のファイルから処理対象となるファイルが設定されると（Ｓ１１０）、語句抽出部１０２はそのファイルから検索語句を抽出する（Ｓ１１２）。項目特定部１０４は、抽出された検索語句ごとに検索項目を特定し（Ｓ１１４）、項目候補格納部１１２を参照して検索項目の表現の調整を行う（Ｓ１１６）。対応リスト生成部１０６は対応リストを生成する（Ｓ１１８）。
【００６３】
類似語句調整部１０８は、実質的に同義となる検索語句間の調整処理を行い（Ｓ１２０）、統計処理部２８は各検索語句に対応付けられた検索項目をも考慮しつつ、各検索語句の出現頻度を計数する（Ｓ１２２）。索引生成部２９は、検索語句の出現頻度に基づいて索引データを生成する（Ｓ１２４）。
【００６４】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、変形例を挙げる。
【００６５】
実施の形態では、予め設定された検索項目に対応付けられた所定の場所に検索語句が入力された形式のファイルを対象とする処理を説明したが、自然文によって記述された文章からなるファイルを対象として索引データの生成および検索を行ってよい。この場合、ファイル検索サーバ１００は、処理の対象となるファイルの主題となる実体を設定する設定部を有してよい。この設定部は、例えば実体の設定をユーザに行わせてもよい。また、設定部は、自然文から文字列を抽出する前提技術を用いてこの自然文の概念を示す索引データを生成し、この索引データに基づいて、そのファイルの実体を特定してもよい。このとき、項目特定部１０４は、項目候補格納部１１２を参照して検索項目を特定してよい。また、項目特定部１０４は、また、検索項目は、同一ファイル中の予め設定された他の検索項目や、同一の実体が設定された他のファイルに含まれる検索項目を参照して検索項目を特定してもよい。
【００６６】
他の例として、ファイル抽出部１１６は、実施の形態で説明した検索項目との組み合わせごとの出現頻度に基づく統計処理により生成された索引データと、前提技術で説明したように、検索項目を考慮せず文字列単位での出現頻度に基づく統計処理により生成された索引データの両方に基づいて検索条件に類似するファイルを抽出してもよい。
【００６７】
例えば、実施の形態では自然文から抽出した検索語句であっても、検索項目を特定して検索項目に対応付ける処理を行ったが、自然文から抽出された検索語句については、検索項目を特定することなく、検索語句のみを考慮した処理を行ってもよい。ひとつのファイルに予め設定された検索項目に対応付けた所定の位置に検索語句が入力された部分と自然文により文章が入力された部分が含まれる場合、前者の部分については各検索語句をその検索項目に対応づけて処理し、後者の部分については前提技術で説明したのと同様に検索語句のみを考慮した処理を行ってよい。その場合、各検索語句を検索項目に対応づけた処理により生成された索引データは他のファイルにおいて同様に生成された索引データと比較し、検索語句のみを考慮した処理により生成された索引データは他のファイルにおいて同様に生成された索引データと比較し、ファイル抽出部１１６は、両方の比較結果を考慮して検索条件に類似するファイルを抽出してよい。
【００６８】
【発明の効果】
本発明によれば、利便性の高い方法で多数のファイルから検索条件に合致するファイルを抽出することができる。
【図面の簡単な説明】
【図１】前提技術におけるファイル検索装置の構成を示す機能ブロック図である。
【図２】前提技術における索引データの生成過程を示すフローチャートである。
【図３】前提技術における検索過程を示すフローチャートである。
【図４】本実施形態における検索システムの全体構成を示す機能ブロック図である。
【図５】本実施形態におけるファイル検索サーバの構成を示す機能ブロック図である。
【図６】項目候補格納部の内部構成を示す図である。
【図７】検索対象となる蓄積ファイルの一例を示す図である。
【図８】図７に示した対象ファイルから生成された対応リストを示す図である。
【図９】蓄積ファイルを検索するときに検索条件を入力する画面を示す図である。
【図１０】図９に示した検索条件ファイルから生成された対応リストを示す図である。
【図１１】処理の対象となるファイルから索引データを生成する過程を示すフローチャートである。
【符号の説明】
２０・・処理ユニット、２２・・解析処理部、２４・・生成処理部、２６・・前処理部、２８・・統計処理部、２９・・索引生成部、３０・・検索ユニット、３２・・比較処理部、３４・・結果処理部、４０・・保持ユニット、４２・・ファイル格納部、４４・・索引格納部、４６・・辞書格納部、４８・・関連データ格納部、５０・・入出力処理部、８０・・検索システム、９０・・ネットワーク、９２・・ユーザ端末、１００・・ファイル検索サーバ、１０２・・語句抽出部、１０４・・項目特定部、１０６・・対応リスト生成部、１０８・・類似語句調整部、１１０・・対応リスト格納部、１１２・・項目候補格納部、１１４・・類似語句格納部、１１６・・ファイル抽出部、１１８・・結果提示部。

Claims

検索の対象となる複数のファイルにおいて、ファイルごとに、そのファイルに含まれる語句を検索対象語句として参照するときに、用途に応じて語句の類比を判断するために、そのファイルにおける検索対象語句の用途を表現した検索対象項目を特定し、そのファイルにおいて検索対象項目に対して設定された検索対象語句を特定し、特定した検索対象項目と検索対象語句との組み合わせと、そのファイルにおける当該組み合わせの出現頻度に応じた重み付けデータとを対応づけて検索対象索引データとして取得する対象取得部と、
検索条件を示す語句である検索条件語句について、用途に応じて語句の類比を判断するために、その検索条件における検索条件語句の用途を表現した検索条件項目を特定し、その検索条件において検索条件項目に対して設定された検索条件語句を特定し、特定した検索条件項目と検索条件語句との組み合わせと、その検索条件における当該組み合わせの出現頻度に応じた重み付けデータとを対応づけて検索条件索引データとして取得する条件取得部と、
前記検索条件索引データと、前記複数のファイルの検索対象索引データとを比較して、前記検索条件索引データにおける前記検索条件項目および前記検索条件語句の組み合わせごとの重み付けデータと、前記複数のファイルそれぞれの検索対象索引データにおける前記検索対象項目および検索対象語句の組み合わせごとの重み付けデータとの間の類似度を検出し、その類似度をもとに、前記複数のファイルの中から前記検索条件と概念的に内容が類似するファイルを抽出するファイル抽出部と、
前記抽出されたファイルを提示する結果提示部と、
を備えることを特徴とするファイル検索装置。
前記検索の対象となるファイルの主題となる実体を設定する検索対象実体設定部をさらに備え、
前記対象取得部は、前記検索対象実体設定部において設定された実体の属性に応じて、前記ファイルにおける検索対象項目を特定することを特徴とする請求項１に記載のファイル検索装置。
前記条件取得部は、検索を実行するユーザによって前記検索条件項目に対応づけられた所定の場所に検索条件語句が入力されたとき、その場所に入力された検索条件語句をその場所に対応づけられた検索条件項目に対応づけて前記検索条件索引データとして取得することを特徴とする請求項１または２に記載のファイル検索装置。
前記検索対象語句およびそれに対応づけられた検索対象項目との組み合わせごとの出現頻度に基づく統計的な処理を行う統計処理部をさらに備え、
前記対象取得部は、前記検索対象語句と前記検索対象項目と前記統計的な処理の結果を前記検索対象索引データとして取得し、
前記ファイル抽出部は、前記検索条件索引データと、前記複数のファイルの検索対象索引データとを比較する際に、前記統計的な処理の結果に応じた類似度を検出することを特徴とする請求項１から３のいずれかに記載のファイル検索装置。
前記統計処理部は、同じ概念を表象する検索対象語句であっても検索対象項目が異なる場合は、それらの検索対象語句を異なる検索対象語句として前記統計的な処理を行うことを特徴とする請求項４に記載のファイル検索装置。
前記統計処理部は、前記検索対象語句が互いに異なる場合であっても、同一の検索対象項目に対応づけられ、その検索対象項目を考慮すると実質的に同義となる検索対象語句は、同一視して前記統計的な処理を行うことを特徴とする請求項４または５に記載のファイル検索装置。
検索条件の主題となる実体を設定する検索条件実体設定部をさらに備え、
前記統計処理部は、前記検索対象語句に対応づけられた検索対象項目が前記検索条件実体設定部において設定された実体に関連する場合は、その検索対象語句に対しては重み付けを高くして前記統計的な処理を行うことを特徴とする請求項４から６のいずれかに記載のファイル検索装置。
コンピュータを制御する方法であって、
対象取得部が、所定の記録媒体に格納された検索の対象となる複数のファイルについて、ファイルごとに、そのファイルに含まれる語句を検索対象語句として参照するときに、用途に応じて語句の類比を判断するために、そのファイルにおける検索対象語句の用途を表現した検索対象項目を特定し、そのファイルにおいて検索対象項目に対して設定された検索対象語句を特定し、特定した検索対象項目と検索対象語句との組み合わせと、そのファイルにおける当該組み合わせの出現頻度に応じた重み付けデータとを対応づけて検索対象索引データとしてメモリ上に生成するステップと、
条件取得部が、検索条件を示す語句である検索条件語句について、用途に応じて語句の類比を判断するために、その検索条件における検索条件語句の用途を表現した検索条件項目を特定し、その検索条件において検索条件項目に対して設定された検索条件語句を特定し、特定した検索条件項目と検索条件語句との組み合わせと、その検索条件における当該組み合わせの出現頻度に応じた重み付けデータとを対応づけて検索条件索引データとしてメモリ上に生成するステップと、
ファイル抽出部が、前記検索条件索引データと、前記複数のファイルの検索対象索引データとを比較して、前記検索条件索引データにおける前記検索条件項目および前記検索条件語句の組み合わせごとの重み付けデータと、前記複数のファイルそれぞれの検索対象索引データにおける前記検索対象項目および検索対象語句の組み合わせごとの重み付けデータとの間の類似度を検出し、その類似度をもとに、前記複数のファイルの中から前記検索条件と概念的に内容が類似するファイルを前記記録媒体からメモリに読み出すステップと、
結果提示部が、前記読み出されたファイルのデータを外部装置に送信するステップと、
を備えることを特徴とするファイル検索方法。
コンピュータにより実行されるプログラムであって、
対象取得部により、所定の記録媒体に格納された検索の対象となる複数のファイルについて、ファイルごとに、そのファイルに含まれる語句を検索対象語句として参照するときに、用途に応じて語句の類比を判断するために、そのファイルにおける検索対象語句の用途を表現した検索対象項目を特定し、そのファイルにおいて検索対象項目に対して設定された検索対象語句を特定し、特定した検索対象項目と検索対象語句との組み合わせと、そのファイルにおける当該組み合わせの出現頻度に応じた重み付けデータとを対応づけて検索対象索引データとしてメモリ上に生成させる処理と、
条件取得部により、検索条件を示す語句である検索条件語句について、用途に応じて語句の類比を判断するために、その検索条件における検索条件語句の用途を表現した検索条件項目を特定し、その検索条件において検索条件項目に対して設定された検索条件語句を特定し、特定した検索条件項目と検索条件語句との組み合わせと、その検索条件における当該組み合わせの出現頻度に応じた重み付けデータとを対応づけて検索条件索引データとしてメモリ上に生成させる処理と、
ファイル抽出部により、前記検索条件索引データと、前記複数のファイルの検索対象索引データとを比較して、前記検索条件索引データにおける前記検索条件項目および前記検索条件語句の組み合わせごとの重み付けデータと、前記複数のファイルそれぞれの検索対象索引データにおける前記検索対象項目および前記検索対象語句の組み合わせごとの重み付けデータとの間の類似度を検出し、その類似度をもとに、前記複数のファイルの中から前記検索条件と概念的に内容が類似するファイルを前記記録媒体からメモリに読み出させる処理と、
結果提示部により、前記読み出されたファイルのデータを外部装置に送信させる処理と、
を前記コンピュータに実行させるためのコンピュータプログラム。