JP4974436B2 - ファイル検索装置およびファイル検索方法 - Google Patents
ファイル検索装置およびファイル検索方法 Download PDFInfo
- Publication number
- JP4974436B2 JP4974436B2 JP2002136320A JP2002136320A JP4974436B2 JP 4974436 B2 JP4974436 B2 JP 4974436B2 JP 2002136320 A JP2002136320 A JP 2002136320A JP 2002136320 A JP2002136320 A JP 2002136320A JP 4974436 B2 JP4974436 B2 JP 4974436B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- file
- item
- search condition
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
この発明は、検索用索引データの生成方法および装置と、これらを利用可能なファイル検索装置に関する。この発明は特に、多数のファイルから効率よく目的のファイルを抽出する技術に関する。
【0002】
【従来の技術】
近年、PC(パーソナルコンピュータ)の普及により、あらゆる書類の電子化が進んでいる。ワードプロセッサなどの文書作成ソフトウエアを用いてファイルを電子的に作成し、これがハードディスクに蓄積されていく。企業内の環境ではコンピュータ同士をネットワークで接続し、大量の文書ファイルを複数ユーザ間で共有することも多い。インターネットが普及した現在では、ウェブページや電子メールなどの社外から受け取るデータも増えている。こうした大量のファイルの中から誰でも所望のファイルを探せるように、所定の管理者が予め分類しておくこともある。
【0003】
【発明が解決しようとする課題】
ここで、複数のファイルを分類する方法として、ファイルの内容に応じてグループ化してそれぞれを別々のフォルダに格納する方法がある。しかしながら、ファイルのグループを一義的に定めることは困難であるばかりか、大量のファイルを特定の管理者が予め分類したとしても分類の基準が管理者の主観に依存して却って検索が困難となる場合もある。こうして管理と検索の双方が容易でないために、貴重な資料が再利用されずに眠ったままになることは決して珍しくない。
【0004】
一方、複数ユーザ間で共有されるファイルは、多くのユーザにとって利用価値の高いものもあれば、そもそもほんの一部のユーザにしか利用価値がないものもある。また、頻繁に再利用されるものやそうでないものも含まれる。したがって、大量のファイルのうち大半が各ユーザにとって不要である可能性が高い。そのようなファイルが混在した状態でファイルを種類別に分類しても、必ずしも検索の容易化にはつながらない。真に利用価値の高いファイルだけを簡単に探し出すことができれば、多くのユーザに作業効率の向上をもたらすことになる。
【0005】
本発明者は以上の認識に基づき本発明をなしたもので、その目的は、利便性の高い方法で多数のファイルから効率よく目的のファイルを抽出するための技術の提供にある。本発明のまた別の目的は、処理の対象となるファイルの概念を示す索引データを精度よく生成する技術の提供にある。
【0006】
【課題を解決するための手段】
本発明のある態様は、検索用索引データの生成方法に関する。この方法は、検索の対象となるファイルに含まれる語句を検索語句として参照するときに、用途に応じて語句の類否を判断するために、検索条件との比較に先立ち、検索語句の用途を表現した検索項目を特定し、検索語句を検索項目に対応付けて保持する。検索語句が検索項目に対応付けられたかたちで索引データが生成されてよい。
【0007】
ファイルとは文書ファイル、HTMLやXMLなどの記述言語を用いて生成されたファイル、画像ファイルなど、多様な形式のファイルを含む。またここでいうファイルとは、複数の項目を含むレコードであってもよく、ある実体の属性からなる一まとまりのデータ群であってもよい。属性とは、実体の具体的な性質であってよい。なお、ここで検索項目とは、レコードにおける項目や実体の属性であってよい。ファイルは、自然文であってもよく、また予め設定された検索項目に対応づけて検索語句が入力された形式であってもよい。また、ファイルは自然文と予め設定された検索項目に対応づけて検索語句が入力された形式との組み合わせであってもよい。
【0008】
本発明の別の態様は、検索の対象となるファイルにおいて、そのファイルに含まれる文字列の出現頻度に基づく統計的な処理によりそのファイルの索引データを生成する方法に関する。この方法は、同じ概念を表象する文字列であっても、用途が異なる場合は、それらの文字列を異なる文字列として統計的な処理を行う。
【0009】
本発明の別の態様は、検索用索引データの生成装置に関する。この装置は、処理の対象となるファイルに含まれる語句を抽出する語句抽出部と、抽出された語句を検索語句として参照するときに、用途に応じて語句の類否を判断するために、検索語句の用途を表現した検索項目を特定する項目特定部と、検索語句を検索項目に対応付けて保持する索引データ保持部とを備える。
【0010】
本発明の別の態様もまた検索用索引データの生成装置に関する。この装置は、検索時に参照する検索語句を、用途に応じて語句の類否を判断するために、検索語句の用途を表現した検索項目に対応づけられた所定の場所に入力させ、入力された検索語句をその検索項目に対応づけて取得する語句取得部と、検索語句を検索項目に対応づけて保持する索引データ保持部とを備える。
【0011】
ここで、語句取得部は、予め設定された検索項目に対応づけて検索語句が入力されるアンケート、パンフレット、カタログ、規格表などの穴埋め形式で検索語句を取得してよい。なお、検索項目が特に設定されていない欄に自然文が入力された場合は、語句取得部はその自然文から検索語句を抽出し、抽出した検索語句の用途を表現した検索項目を特定してよい。このとき、語句取得部は、自然文に含まれる語句の出現頻度に基づく統計的な処理により検索語句を抽出してよい。また、検索項目は、同一ファイル中の他の欄や他のファイルにおいて予め設定された検索項目を参照して特定されてもよい。
【0012】
この装置は、検索語句およびそれに対応付けられた検索項目との組み合わせごとの出現頻度に基づく統計的な処理を行う統計処理部をさらに備えてもよく、索引データ保持部は、統計的な処理の結果を保持してもよい。統計処理部は、同じ表現であっても、異なる検索項目に対応付けられた検索語句は、異なる語句として扱ってよい。また統計処理部は、異なる表現であっても、対応付けられた検索項目を考慮すると実質的に同義となる検索語句は、同一視して扱ってよい。
【0013】
この装置は、検索語句が互いに異なる場合であっても、同一の検索項目に対応付けられ、その検索項目を考慮すると実質的に同義となる検索語句を同一視する処理を行う類似語句調整部をさらに有してよい。この装置は、検索項目に対して入力されるべき検索語句を検索項目に対応づけて保持する項目別の類似語句格納部をさらに有してよく、類似語句調整部は、同一の検索項目に対応付けられた検索語句の一方が抽象的な用語である場合に、類似語句格納部を参照して、検索語句を具体化した用語との対応付けを行う。
【0014】
この装置は、検索条件の主題となる実体を設定する設定部をさらに備えてもよく、統計処理部は、検索語句に対応づけられた検索項目が実体に関連する場合は、その検索語句に対しては重み付けを高くして統計的な処理を行ってよい。実体に関連するとは、検索項目が実体を含む場合であってよく、また検索項目が実体の属性である場合であってもよい。
【0015】
この装置は、処理の対象となるファイルの主題となる実体を設定する設定部をさらに備えてもよく、項目特定部は、実体の属性を考慮して検索項目を特定してもよい。属性とは、実体の具体的な性質であってよい。設定部は、ファイルに含まれる語句の出現頻度に基づく統計的な処理によりそのファイルの概念を特定し、その概念に基づき実体を設定してよい。また、検索項目は、同一ファイル中の予め設定された他の検索項目や、同一の実体が設定された他のファイルに含まれる検索項目を参照して特定されてもよい。
【0016】
本発明の別の態様は、ファイル検索装置に関する。この装置は、検索の対象となる複数のファイルにおいて、ファイルごとに、そのファイルに含まれる語句を検索語句として参照するときに、用途に応じて語句の類否を判断するために、検索語句の用途を表現した検索項目を検索語句に対応づけて索引データとして取得する対象取得部と、検索条件を示す目標索引データを取得する条件取得部と、目標索引データと、複数のファイルの索引データとを比較して、索引データ間の類似度をもとに、複数のファイルの中から検索条件と概念的に内容が類似するファイルを抽出されたファイル抽出部と、抽出したファイルを提示する結果提示部とを備える。索引データは、検索に先立ち生成されてもよく、検索時に略リアルタイムで生成されてもよい。目標索引データは、検索の対象となる索引データと同様の手法で生成されてよい。
【0017】
この装置は単体のPCで構成されてもよく、互いにネットワークで接続されたサーバおよびユーザ端末を組み合わせたシステムの形で構成してもよい。後者の場合、本装置に含まれるべき各機能ブロックを、システムを構成するサーバおよびユーザ端末のいずれに包含させてもよい。例えば、対象取得部、条件取得部、ファイル抽出部、および結果提示部は、それぞれサーバおよびユーザ端末のいずれか一方または双方に包含されてもよく、いずれの場合にも同一の呼称で表現してもよい。これらの機能をソフトウェアモジュールの形で提供する場合、サーバまたはユーザ端末のいずれにおいて実行してもよい。
【0018】
なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。
【0019】
【発明の実施の形態】
(前提技術)
この前提技術におけるファイル検索装置は、検索条件としてユーザが指定した文章に類似するファイルを複数のファイルの中から検索する。これにより、予め内容に応じてファイルを分類しておかなくともファイルの検索が容易となり、大量のファイルを管理する負担が軽減される。
【0020】
図1は、前提技術におけるファイル検索装置の構成を示す機能ブロック図である。ファイル検索装置10は、複数のファイルから所望のファイルを検索する際に参照される索引データの生成に必要な処理をなす処理ユニット20と、ユーザから指定された条件に基づいて検索処理をなす検索ユニット30と、検索対象となる複数のファイル(以下、「蓄積ファイル」という。)や検索処理に必要なデータを保持する保持ユニット40と、本装置と外部との間でデータの入出力を処理する入出力処理部50と、を有する。
【0021】
このファイル検索装置10は、ハードウエア的にはコンピュータのCPUやメモリなどの構成で実現でき、ソフトウエア的にはファイル管理やファイル検索機能のあるプログラムなどによって実現できるが、本図ではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組み合わせによっていろいろなかたちで実現できる。
【0022】
処理ユニット20は、保持ユニット40が保持する複数の蓄積ファイルを処理対象とし、それぞれから特徴的な文字列を複数抽出する。この複数の特徴的な文字列は、その蓄積ファイルの内容を端的に示したコンセプト(概念)を形成するものとし、このコンセプトを索引データとして記録する。処理ユニット20は、蓄積ファイルに含まれる文字列を言語解析する解析処理部22と、その解析結果に基づいて索引データを生成する生成処理部24と、を含む。
【0023】
解析処理部22は、前処理部26と文字列抽出部27を含む。前処理部26は、言語解析に先だって前処理を行う。例えば、処理対象となる蓄積ファイルからファイル形式や文書形式を検出し、これに基づいてその蓄積ファイルをテキスト形式などの非定型な形式に変換して解析容易な状態を形成してもよい。ひとつの蓄積ファイルを複数のブロックに分割して解析に適した状態を形成してもよい。このとき形態素解析、構文解析、意味解析などの技術を利用してもよい。
【0024】
文字列抽出部27は、処理対象の蓄積ファイルから複数の文字列を抽出する。後述する単語辞書に含まれる単語を抽出する形でもよいし、スペースやブランクで区切られた文字列を単語として認識してもよい。
【0025】
生成処理部24は、統計処理部28と索引生成部29を含む。統計処理部28は、抽出された文字列のその蓄積ファイルにおける出現頻度を計数するとともに、ファイル格納部42が保持する複数の蓄積ファイル全体にわたるその文字列の出現頻度を計数する。このとき文字列同士の類似性を考慮する。例えば、類義語、同義語、統制語として定義された相互に意味が近似する複数の単語間の相違を吸収して文字列の出現頻度を計数する。
【0026】
索引生成部29は、統計処理部28によって計数された文字列の出現頻度に基づいて索引データを生成する。この索引データは、抽出された複数の文字列にそれぞれの出現頻度に応じた重み付けが付加された一覧として構成される。各文字列に対する重み付けは、処理対象の蓄積ファイルにおける出願頻度が高い文字列ほど重み付けを高くする一方で、ファイル格納部42が保持する複数の蓄積ファイル全体にわたって出現頻度が高い文字列に対しては重み付けを低くする。その結果、その蓄積ファイルに特有な文字列を統計的な手法で顕在化させることができる。各蓄積ファイルが前処理部26によって複数のブロックに分割された場合はブロックごとに索引データが生成される。
【0027】
保持ユニット40は、ファイル格納部42、索引格納部44、辞書格納部46、および関連データ格納部48を含む。ファイル格納部42は、複数の蓄積ファイルを保持する。例えばワードプロセッサなどの文書作成ソフトウエアによって生成された文書ファイル、HTML(Hyper Text Markup Language)やXML(eXtensible Markup Language)などの記述言語を用いて生成されたファイルなど、多様な形式のファイルを含み、その内容は必ずしも文章でなくともよい。また、蓄積ファイル自体は、検索を前提とした分類および定型化が予めなされることを必要としない。
【0028】
索引格納部44は、処理ユニット20によって生成された索引データを蓄積ファイルと対応づけられたかたちで保持する。辞書格納部46は、単語辞書、類義語辞書、同義語辞書、統制語辞書など、処理ユニット20による言語解析や統計処理において参照されるデータを保持する。関連データ格納部48は、検索ユニット30による処理においてオプション的に利用されるデータを保持する。例えば、検索条件として指定された言葉を上位概念の単語、下位概念の単語、関連性をもつ単語などに置き換えるために参照する関連辞書を保持する。こうしたデータを処理ユニット20が蓄積ファイルから抽出して生成してもよい。
【0029】
検索ユニット30は、ユーザから検索条件を受け取り、これに適合する蓄積ファイルをファイル格納部42から抽出する。検索ユニット30は、検索条件と索引データを比較する比較処理部32と、比較結果に基づいて検索条件に適合する蓄積ファイルをユーザに提示する結果処理部34を含む。
【0030】
比較処理部32は、条件設定部36および類似度判断部37を含む。条件設定部36は、ユーザから検索条件を取得する。この検索条件は、自然文によって記述された文章のかたちでもよいし、何らかの文字列を含んだファイルのかたちでもよい。その検索条件は処理ユニット20に送られて前述した索引データの生成過程と同様の処理対象となり、その検索条件のコンセプトが生成される。
【0031】
類似度判断部37は、検索条件のコンセプトと索引データとして記録されたコンセプト同士を比較することにより、検索条件と蓄積ファイルの類似度を検出する。比較の際に、辞書格納部46や関連データ格納部48が保持する各種辞書に基づき、検索条件に含まれる文字列と関連する他の文字列を追加してその検索条件を補完してもよい。
【0032】
ここで、検索条件と索引データの比較にはベクトル空間モデルを利用する。すなわち、検索条件のコンセプトと索引データのコンセプトをそれぞれ多次元空間上のベクトルとして表現し、これらを比較する。コンセプトにn個の文字列が含まれる場合はn次元のベクトル空間が形成され、各文字列の出現頻度に応じた重み付けが各成分に加えられる。こうして形成されるベクトル同士の近似度が検索条件と蓄積ファイルの類似度となる。
【0033】
結果処理部34は、一覧生成部38および表示処理部39を含む。一覧生成部38は、類似度の高い順に蓄積ファイルの一覧を生成する。このとき一覧に含まれる蓄積ファイルの数が適当な数に限定されるよう調整してもよい。
【0034】
表示処理部39は、検索結果として蓄積ファイルの一覧を画面に表示させる。蓄積ファイルの一覧は、ファイル名とその内容の要約で構成してもよい。
【0035】
入出力処理部50は、ファイル検索装置10に対する各種処理の指示、検索条件の入力、検索結果の出力など、ファイル検索装置10とその外部との間でデータを入出力するインタフェイスである。ファイル検索装置10がスタンドアロンで実現される場合にはユーザと本装置を結ぶインタフェイスとなり、ファイル検索装置10がネットワークサーバとして実現される場合には本装置をクライアント端末とネットワークを介して接続させる通信インタフェイスとなる。
【0036】
図2は、前提技術における索引データの生成過程を示すフローチャートである。まず、複数のファイルから処理対象となる蓄積ファイルを設定し(S10)、その蓄積ファイルに前処理を施し(S12)、その蓄積ファイルから形態素解析などの処理により文字列を抽出する(S14)。抽出された文字列ごとに出現頻度などの統計的なデータを算出し(S16)、これをもとに索引データを生成する(S18)。まだ索引データ生成がされていない蓄積ファイルがファイル格納部42に残っている場合(S20Y)、その残りファイルを処理対象にしてS10〜S18の処理を施し、すべての蓄積ファイルを処理するまでこれを繰り返す(S20)。
【0037】
図3は、前提技術における検索過程を示すフローチャートである。まず、検索条件となる文章をユーザが自然文の形で指定すると(S30)、処理ユニット20がその検索条件から文字列を抽出して索引データを生成する(S32)。その索引データと索引格納部44が保持する複数の索引データを照合してそれぞれの類似度を判断し(S34)、その類似度の順に蓄積ファイルの一覧を生成し(S36)、これを検索結果として画面に表示させる(S38)。
【0038】
以上の前提技術との対比において、以下、実施の形態を説明する。なお、前提技術に含まれる機能ブロックと同じ働きをなす機能ブロックに対しては同じ名称と符号を付すとともに、その説明を適宜省略する。
【0039】
以下の実施の形態においては、上述した前提技術において説明した文字列と同様に、検索の対象となる蓄積ファイルや検索条件を示すファイルから検索語句を抽出して索引データを生成する。その際に、抽出した検索語句をその用途を表現した検索項目に対応付け、検索語句と検索項目との組み合わせを考慮して索引データを生成する。検索語句を検索項目に対応付けて取り扱うことにより、例えば同じ語句であっても用途が異なる語句を区別したり、異なる語句であっても実質的に同義である語句を同一視したりすることができるので、精度よく目的のファイルを抽出することができる。
【0040】
(実施の形態)
本実施の形態においては、予め設定された検索項目に対応付けられた所定の場所に検索語句が入力された形式のファイルを対象として処理を行う。
【0041】
図4は、本実施の形態における検索システムの全体構成を示す機能ブロック図である。検索システム80において、ファイル検索サーバ100はネットワーク90を介して複数のユーザ端末92と接続される。ファイル検索サーバ100は、検索対象となる複数の蓄積ファイルを保持する。ユーザ端末92は、PCなどの情報処理装置である。ネットワーク90は、例えばインターネットである。
【0042】
図5は、ファイル検索サーバの構成を示す機能ブロック図である。ファイル検索サーバ100は、前提技術において説明した検索装置10と同様に処理ユニット20、検索ユニット30、保持ユニット40、および入出力処理部50を有する。入出力処理部50は、ネットワーク90を介してユーザ端末92との間でデータを送受信する。
【0043】
処理ユニット20は、解析処理部22および生成処理部24を含む。本実施の形態において、解析処理部22は前提技術の文字列抽出部27に代えて、語句抽出部102、項目特定部104および対応リスト生成部106を含む。
【0044】
語句抽出部102は、各ファイルに含まれる検索語句を抽出する。項目特定部104は、抽出された各検索語句の用途を表現した検索項目を特定する。また、項目特定部104は、例えば異なる語句であっても実質的に同義である検索項目の用語を統一するなど、検索項目の表現の調整を行う。項目特定部104は、処理の対象となるファイルの主題を考慮して検索項目の表現を調整してよい。対応リスト生成部106は、検索語句をその検索項目に対応付けたかたちの対応リストを生成する。
【0045】
生成処理部24は、前提技術の統計処理部28および索引生成部29に加えて、類似語句調整部108を含む。類似語句調整部108は、表現が異なる検索語句であっても、同一の検索項目に対応付けられ、その検索項目を考慮すると実質的に同義となる複数の検索語句を同一視する処理を行う。類似語句調整部108は、例えば同一の検索項目に対応付けられた検索語句の一方が抽象的な用語である場合に、検索項目に対して入力されるべき検索語句を具体化した用語全体を考慮して、それらの検索語句の対応付けを行う。
【0046】
本実施の形態において、統計処理部28は、抽出された検索語句とそれに対応付けられた検索項目との組み合わせごとの出現頻度を計数する。索引生成部29は、検索語句をその検索項目に対応付けたかたちで索引データを生成する。索引データは、抽出された複数の検索語句とその検索項目との組み合わせに、それぞれの出現頻度に応じた重み付けが付加された一覧として構成される。また、重み付けは、そのファイルの主題および検索項目を考慮して行われてよい。例えば、そのファイルの主題に関連する検索項目に対応付けられた検索語句への重み付けは高くされてよい。このように重み付けを行うことにより、同じ語句であっても、重要な語句への重み付けを高くして重要でない語句への重み付けを低くすることができ、そのファイルの概念を精度よく示す索引データを生成することができる。
【0047】
保持ユニット40は、前提技術のファイル格納部42、索引格納部44、辞書格納部46、および関連データ格納部48に加えて、対応リスト格納部110、項目候補格納部112および類似語句格納部114を含む。
【0048】
対応リスト格納部110は、対応リスト生成部106によって生成された対応リストを蓄積ファイルと対応付けたかたちで保持する。項目候補格納部112は、蓄積ファイルの主題となる実体を考慮して検索項目となり得る候補をその実体に対応づけて保持する。検索項目は、蓄積ファイルの実体の属性であってよい。また、項目候補格納部112は、表現が異なっていても実質的に同義である複数の検索項目を互いに対応づけて保持する。
【0049】
項目特定部104は、項目候補格納部112を参照して検索項目を特定してもよい。また、項目特定部104は、項目候補格納部112に保持されていない検索項目を特定した場合には、その検索項目を実体に対応づけて保持させてよい。このように新たな検索項目を順次実体に対応付けて保持させることにより、その後の検索項目の特定を容易に行うことができる。
【0050】
類似語句格納部114は、表現が異なる検索語句であっても、検索項目との組み合わせにおいて、その検索項目を考慮すると実質的に同義となる複数の検索語句を検索項目に対応づけて保持する。例えば検索項目が「年齢」である場合、検索語句としては具体的な数値が入力される場合と、「若い」、「中年」、「老人」などの抽象的な語句が入力される場合とがある。類似語句格納部114は、「若い」などの抽象的な用語と、「15歳」などの数値を具体化した用語を互いに対応づけて保持する。この例のように具体化した用語が数値である場合は、例えば類似語句格納部114に中間となる数値を基準として保持させ、類似語句調整部108は、基準となる数値との比較で検索語句の類否判断を行ってよい。
【0051】
検索ユニット30は、前提技術の比較処理部32および結果処理部34に加えて、ファイル抽出部116および結果提示部118を含む。本実施の形態において、比較処理部32の条件設定部36は、アンケートなどのように、予め設定された検索項目に対応付けられた所定の場所に検索語句が入力された形式で検索条件を取得する。検索条件を示すファイルは処理ユニット20に送られ、前述した蓄積ファイルと同様の処理により、検索条件の索引データが生成される。
【0052】
ファイル抽出部116は、検索条件を示すファイルの索引データと、蓄積ファイルの索引データとを比較して、索引データ間の類似度をもとに、複数のファイルの中から検索条件と概念的に内容が類似するファイルを抽出する。結果提示部118は、抽出されたファイルを提示する。
【0053】
なお、蓄積ファイルおよび検索条件を示すファイルには、備考欄やその他欄など、所定の検索項目に対応付けられていない自然文を入力する欄が設けられてもよい。この場合、語句抽出部102は自然文から検索語句を抽出する。検索語句は、前提技術で説明した文字列と同様にして抽出されてよい。項目特定部104は、抽出された検索語句の用途を示す検索項目を特定する。項目特定部104は、項目候補格納部112を参照して検索項目を特定してもよく、形態素解析、構文解析、意味解析などの技術を利用して検索項目を特定してもよい。
【0054】
図6は、項目候補格納部112の内部構成の一例を示す図である。このファイルは車の商品案内が主題であり、実体は「車」である。項目候補格納部112は、「商品名」、「メーカー」、「生産国」、「車の色」などを検索項目の候補として実体に対応付けて保持する。また、例えば「商品名」と同義の検索項目として「車種」が、「車の色」と同義の検索項目として「車体カラー」などが保持される。このように、表現が異なっていても実質的に同義である複数の検索項目を互いに対応付けて保持しておくことにより、非定型のファイル間の比較を容易に行うことができる。
【0055】
図7は、検索対象となる蓄積ファイルの一例を示す図である。検索対象となる蓄積ファイルは、例えば製品カタログやパンフレットである。ここでは、この蓄積ファイルは、車の商品案内画面130としてユーザ端末92に表示される。画面130は、車種欄132、生産国欄134、メーカー欄136、ボディタイプ欄138、定員欄140、車体カラー欄142、価格欄144および備考欄146で構成される。語句抽出部102は、検索語句として「B234」、「ドイツ」、「B社」、「セダン」、「5人」、「赤」、「300万円」などを抽出する。
【0056】
また、語句抽出部102は、備考欄146に記入された自然文から、「スポーティー」、「赤い」、「ロゴマーク」などを検索語句として抽出する。項目特定部104は、「B234」の検索項目として「車種」、「ドイツ」の検索項目として「生産国」、「B社」の検索項目として「メーカー」、「セダン」検索項目として「ボディタイプ」、「定員」の検索項目として「5人」、「赤」の検索項目として「車体カラー」、「300万円」の検索項目として「価格」を特定する。ここで、備考欄146は検索項目が設定されていないので、項目特定部104は、項目候補格納部112を参照するなどして、例えば「スポーティー」の検索項目として「車の形状」、「赤」の検索項目として「ロゴマークの色」、「ロゴマーク」の検索項目として「車の模様」を特定する。
【0057】
図8は、図7に示した対象ファイルから生成された対応リストを示す図である。対応リスト150には、各検索語句にその検索項目が対応付けられる。ここで、例えば検索語句「赤」には、「車体カラー」と「ロゴマーク」が検索項目としてそれぞれ対応付けられる。このとき、これらの「赤」という検索語句は、異なる検索項目に対応付けられているので、同じ用語であっても区別して扱われる。
【0058】
図9は、蓄積ファイルを検索するときに検索条件を入力する画面を示す。この検索画面160は、ユーザに欲しい車の条件を入力させるものである。検索画面160は、主題欄162、生産国欄164、メーカー欄166、ボディタイプ欄168、車体カラー欄170、定員欄172およびその他欄174で構成される。
【0059】
ここで、ユーザは、生産国欄164およびメーカー欄166を無記入にし、ボディタイプ欄168に「セダン又は軽」、車体カラー欄170に「赤」、定員欄172に「普通」と入力している。語句抽出部102は、例えば辞書格納部46の単語辞書を参照して検索語句として「セダン」、「軽」、「赤」、「普通」、「スポーツタイプ」などを抽出する。項目特定部104は、「セダン」および「軽」の検索項目としてそれぞれ「ボディタイプ」、「赤」の検索項目として「車体カラー」、「普通」の検索項目として「定員」を特定する。このとき、検索語句「普通」は検索項目「定員」に対応付けられている。例えば、自動車の定員として「5人」や「6人」が普通である場合、類似語句調整部108は、検索語句「普通」を同じ検索項目「定員」に対応付けられた検索項目「5人」や「6人」と同視する処理を行ってよい。
【0060】
また、その他欄174は検索項目が設定されていないので、項目特定部104は、項目候補格納部112を参照するなどして、「スポーツタイプ」の検索項目として「車の形状」を特定する。
【0061】
図10は、図9に示した検索条件ファイルから生成された対応リストを示す図である。対応リスト180には、各検索語句にその検索項目が対応づけられる。ここで、検索項目「生産国」および「メーカー」には、検索語句として「all」が対応付けられる。比較処理部32の類似度判断部37は、蓄積ファイルの索引データにおいて、検索項目「生産国」および「メーカー」に対応付けられた検索語句がどのようなものであっても、検索条件に合致すると判断してよい。
【0062】
図11は、処理の対象となるファイルから索引データを生成する過程を示すフローチャートである。複数のファイルから処理対象となるファイルが設定されると(S110)、語句抽出部102はそのファイルから検索語句を抽出する(S112)。項目特定部104は、抽出された検索語句ごとに検索項目を特定し(S114)、項目候補格納部112を参照して検索項目の表現の調整を行う(S116)。対応リスト生成部106は対応リストを生成する(S118)。
【0063】
類似語句調整部108は、実質的に同義となる検索語句間の調整処理を行い(S120)、統計処理部28は各検索語句に対応付けられた検索項目をも考慮しつつ、各検索語句の出現頻度を計数する(S122)。索引生成部29は、検索語句の出現頻度に基づいて索引データを生成する(S124)。
【0064】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、変形例を挙げる。
【0065】
実施の形態では、予め設定された検索項目に対応付けられた所定の場所に検索語句が入力された形式のファイルを対象とする処理を説明したが、自然文によって記述された文章からなるファイルを対象として索引データの生成および検索を行ってよい。この場合、ファイル検索サーバ100は、処理の対象となるファイルの主題となる実体を設定する設定部を有してよい。この設定部は、例えば実体の設定をユーザに行わせてもよい。また、設定部は、自然文から文字列を抽出する前提技術を用いてこの自然文の概念を示す索引データを生成し、この索引データに基づいて、そのファイルの実体を特定してもよい。このとき、項目特定部104は、項目候補格納部112を参照して検索項目を特定してよい。また、項目特定部104は、また、検索項目は、同一ファイル中の予め設定された他の検索項目や、同一の実体が設定された他のファイルに含まれる検索項目を参照して検索項目を特定してもよい。
【0066】
他の例として、ファイル抽出部116は、実施の形態で説明した検索項目との組み合わせごとの出現頻度に基づく統計処理により生成された索引データと、前提技術で説明したように、検索項目を考慮せず文字列単位での出現頻度に基づく統計処理により生成された索引データの両方に基づいて検索条件に類似するファイルを抽出してもよい。
【0067】
例えば、実施の形態では自然文から抽出した検索語句であっても、検索項目を特定して検索項目に対応付ける処理を行ったが、自然文から抽出された検索語句については、検索項目を特定することなく、検索語句のみを考慮した処理を行ってもよい。ひとつのファイルに予め設定された検索項目に対応付けた所定の位置に検索語句が入力された部分と自然文により文章が入力された部分が含まれる場合、前者の部分については各検索語句をその検索項目に対応づけて処理し、後者の部分については前提技術で説明したのと同様に検索語句のみを考慮した処理を行ってよい。その場合、各検索語句を検索項目に対応づけた処理により生成された索引データは他のファイルにおいて同様に生成された索引データと比較し、検索語句のみを考慮した処理により生成された索引データは他のファイルにおいて同様に生成された索引データと比較し、ファイル抽出部116は、両方の比較結果を考慮して検索条件に類似するファイルを抽出してよい。
【0068】
【発明の効果】
本発明によれば、利便性の高い方法で多数のファイルから検索条件に合致するファイルを抽出することができる。
【図面の簡単な説明】
【図1】 前提技術におけるファイル検索装置の構成を示す機能ブロック図である。
【図2】 前提技術における索引データの生成過程を示すフローチャートである。
【図3】 前提技術における検索過程を示すフローチャートである。
【図4】 本実施形態における検索システムの全体構成を示す機能ブロック図である。
【図5】 本実施形態におけるファイル検索サーバの構成を示す機能ブロック図である。
【図6】 項目候補格納部の内部構成を示す図である。
【図7】 検索対象となる蓄積ファイルの一例を示す図である。
【図8】 図7に示した対象ファイルから生成された対応リストを示す図である。
【図9】 蓄積ファイルを検索するときに検索条件を入力する画面を示す図である。
【図10】 図9に示した検索条件ファイルから生成された対応リストを示す図である。
【図11】 処理の対象となるファイルから索引データを生成する過程を示すフローチャートである。
【符号の説明】
20・・処理ユニット、22・・解析処理部、24・・生成処理部、26・・前処理部、28・・統計処理部、29・・索引生成部、30・・検索ユニット、32・・比較処理部、34・・結果処理部、40・・保持ユニット、42・・ファイル格納部、44・・索引格納部、46・・辞書格納部、48・・関連データ格納部、50・・入出力処理部、80・・検索システム、90・・ネットワーク、92・・ユーザ端末、100・・ファイル検索サーバ、102・・語句抽出部、104・・項目特定部、106・・対応リスト生成部、108・・類似語句調整部、110・・対応リスト格納部、112・・項目候補格納部、114・・類似語句格納部、116・・ファイル抽出部、118・・結果提示部。
Claims (9)
- 検索の対象となる複数のファイルにおいて、ファイルごとに、そのファイルに含まれる語句を検索対象語句として参照するときに、用途に応じて語句の類比を判断するために、そのファイルにおける検索対象語句の用途を表現した検索対象項目を特定し、そのファイルにおいて検索対象項目に対して設定された検索対象語句を特定し、特定した検索対象項目と検索対象語句との組み合わせと、そのファイルにおける当該組み合わせの出現頻度に応じた重み付けデータとを対応づけて検索対象索引データとして取得する対象取得部と、
検索条件を示す語句である検索条件語句について、用途に応じて語句の類比を判断するために、その検索条件における検索条件語句の用途を表現した検索条件項目を特定し、その検索条件において検索条件項目に対して設定された検索条件語句を特定し、特定した検索条件項目と検索条件語句との組み合わせと、その検索条件における当該組み合わせの出現頻度に応じた重み付けデータとを対応づけて検索条件索引データとして取得する条件取得部と、
前記検索条件索引データと、前記複数のファイルの検索対象索引データとを比較して、前記検索条件索引データにおける前記検索条件項目および前記検索条件語句の組み合わせごとの重み付けデータと、前記複数のファイルそれぞれの検索対象索引データにおける前記検索対象項目および検索対象語句の組み合わせごとの重み付けデータとの間の類似度を検出し、その類似度をもとに、前記複数のファイルの中から前記検索条件と概念的に内容が類似するファイルを抽出するファイル抽出部と、
前記抽出されたファイルを提示する結果提示部と、
を備えることを特徴とするファイル検索装置。 - 前記検索の対象となるファイルの主題となる実体を設定する検索対象実体設定部をさらに備え、
前記対象取得部は、前記検索対象実体設定部において設定された実体の属性に応じて、前記ファイルにおける検索対象項目を特定することを特徴とする請求項1に記載のファイル検索装置。 - 前記条件取得部は、検索を実行するユーザによって前記検索条件項目に対応づけられた所定の場所に検索条件語句が入力されたとき、その場所に入力された検索条件語句をその場所に対応づけられた検索条件項目に対応づけて前記検索条件索引データとして取得することを特徴とする請求項1または2に記載のファイル検索装置。
- 前記検索対象語句およびそれに対応づけられた検索対象項目との組み合わせごとの出現頻度に基づく統計的な処理を行う統計処理部をさらに備え、
前記対象取得部は、前記検索対象語句と前記検索対象項目と前記統計的な処理の結果を前記検索対象索引データとして取得し、
前記ファイル抽出部は、前記検索条件索引データと、前記複数のファイルの検索対象索引データとを比較する際に、前記統計的な処理の結果に応じた類似度を検出することを特徴とする請求項1から3のいずれかに記載のファイル検索装置。 - 前記統計処理部は、同じ概念を表象する検索対象語句であっても検索対象項目が異なる場合は、それらの検索対象語句を異なる検索対象語句として前記統計的な処理を行うことを特徴とする請求項4に記載のファイル検索装置。
- 前記統計処理部は、前記検索対象語句が互いに異なる場合であっても、同一の検索対象項目に対応づけられ、その検索対象項目を考慮すると実質的に同義となる検索対象語句は、同一視して前記統計的な処理を行うことを特徴とする請求項4または5に記載のファイル検索装置。
- 検索条件の主題となる実体を設定する検索条件実体設定部をさらに備え、
前記統計処理部は、前記検索対象語句に対応づけられた検索対象項目が前記検索条件実体設定部において設定された実体に関連する場合は、その検索対象語句に対しては重み付けを高くして前記統計的な処理を行うことを特徴とする請求項4から6のいずれかに記載のファイル検索装置。 - コンピュータを制御する方法であって、
対象取得部が、所定の記録媒体に格納された検索の対象となる複数のファイルについて、ファイルごとに、そのファイルに含まれる語句を検索対象語句として参照するときに、用途に応じて語句の類比を判断するために、そのファイルにおける検索対象語句の用途を表現した検索対象項目を特定し、そのファイルにおいて検索対象項目に対して設定された検索対象語句を特定し、特定した検索対象項目と検索対象語句との組み合わせと、そのファイルにおける当該組み合わせの出現頻度に応じた重み付けデータとを対応づけて検索対象索引データとしてメモリ上に生成するステップと、
条件取得部が、検索条件を示す語句である検索条件語句について、用途に応じて語句の類比を判断するために、その検索条件における検索条件語句の用途を表現した検索条件項目を特定し、その検索条件において検索条件項目に対して設定された検索条件語句を特定し、特定した検索条件項目と検索条件語句との組み合わせと、その検索条件における当該組み合わせの出現頻度に応じた重み付けデータとを対応づけて検索条件索引データとしてメモリ上に生成するステップと、
ファイル抽出部が、前記検索条件索引データと、前記複数のファイルの検索対象索引データとを比較して、前記検索条件索引データにおける前記検索条件項目および前記検索条件語句の組み合わせごとの重み付けデータと、前記複数のファイルそれぞれの検索対象索引データにおける前記検索対象項目および検索対象語句の組み合わせごとの重み付けデータとの間の類似度を検出し、その類似度をもとに、前記複数のファイルの中から前記検索条件と概念的に内容が類似するファイルを前記記録媒体からメモリに読み出すステップと、
結果提示部が、前記読み出されたファイルのデータを外部装置に送信するステップと、
を備えることを特徴とするファイル検索方法。 - コンピュータにより実行されるプログラムであって、
対象取得部により、所定の記録媒体に格納された検索の対象となる複数のファイルについて、ファイルごとに、そのファイルに含まれる語句を検索対象語句として参照するときに、用途に応じて語句の類比を判断するために、そのファイルにおける検索対象語句の用途を表現した検索対象項目を特定し、そのファイルにおいて検索対象項目に対して設定された検索対象語句を特定し、特定した検索対象項目と検索対象語句との組み合わせと、そのファイルにおける当該組み合わせの出現頻度に応じた重み付けデータとを対応づけて検索対象索引データとしてメモリ上に生成させる処理と、
条件取得部により、検索条件を示す語句である検索条件語句について、用途に応じて語句の類比を判断するために、その検索条件における検索条件語句の用途を表現した検索条件項目を特定し、その検索条件において検索条件項目に対して設定された検索条件語句を特定し、特定した検索条件項目と検索条件語句との組み合わせと、その検索条件における当該組み合わせの出現頻度に応じた重み付けデータとを対応づけて検索条件索引データとしてメモリ上に生成させる処理と、
ファイル抽出部により、前記検索条件索引データと、前記複数のファイルの検索対象索引データとを比較して、前記検索条件索引データにおける前記検索条件項目および前記検索条件語句の組み合わせごとの重み付けデータと、前記複数のファイルそれぞれの検索対象索引データにおける前記検索対象項目および前記検索対象語句の組み合わせごとの重み付けデータとの間の類似度を検出し、その類似度をもとに、前記複数のファイルの中から前記検索条件と概念的に内容が類似するファイルを前記記録媒体からメモリに読み出させる処理と、
結果提示部により、前記読み出されたファイルのデータを外部装置に送信させる処理と、
を前記コンピュータに実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002136320A JP4974436B2 (ja) | 2002-05-10 | 2002-05-10 | ファイル検索装置およびファイル検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002136320A JP4974436B2 (ja) | 2002-05-10 | 2002-05-10 | ファイル検索装置およびファイル検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003330940A JP2003330940A (ja) | 2003-11-21 |
JP4974436B2 true JP4974436B2 (ja) | 2012-07-11 |
Family
ID=29698362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002136320A Expired - Fee Related JP4974436B2 (ja) | 2002-05-10 | 2002-05-10 | ファイル検索装置およびファイル検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4974436B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2732661B2 (ja) * | 1989-04-28 | 1998-03-30 | 日本電信電話株式会社 | テキスト型データベース装置 |
JP3123836B2 (ja) * | 1992-11-10 | 2001-01-15 | 日本電信電話株式会社 | テキスト型データベース装置 |
JPH08329165A (ja) * | 1995-05-31 | 1996-12-13 | Toshiba Corp | テキスト抽出処理装置及びテキスト抽出処理方法 |
JP2000172709A (ja) * | 1998-12-09 | 2000-06-23 | Hitachi Maxell Ltd | データベース管理方法および管理装置 |
JP3897494B2 (ja) * | 1999-08-31 | 2007-03-22 | キヤノン株式会社 | 画像管理検索装置、画像管理検索方法及び記憶媒体 |
-
2002
- 2002-05-10 JP JP2002136320A patent/JP4974436B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003330940A (ja) | 2003-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11748323B2 (en) | System and method of search indexes using key-value attributes to searchable metadata | |
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
US11853334B2 (en) | Systems and methods for generating and using aggregated search indices and non-aggregated value storage | |
US9703782B2 (en) | Associating media with metadata of near-duplicates | |
US8983963B2 (en) | Techniques for comparing and clustering documents | |
TW556085B (en) | File classification management system and method used in operating system | |
US9256649B2 (en) | Method and system of filtering and recommending documents | |
Deshpande et al. | Text summarization using clustering technique | |
CN111401045A (zh) | 一种文本生成方法、装置、存储介质和电子设备 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
Xu et al. | Extracting keywords from texts based on word frequency and association features | |
JP2003186888A (ja) | 部品情報分類装置、部品情報検索装置および部品情報検索サーバ | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP4974436B2 (ja) | ファイル検索装置およびファイル検索方法 | |
Anđelić et al. | Text classification based on named entities | |
Seenivasan | ETL in a World of Unstructured Data: Advanced Techniques for Data Integration | |
JP2004206571A (ja) | 文書情報提示方法及び装置並びにプログラム及び記録媒体 | |
JP2004220226A (ja) | 検索文書のための文書分類方法及び装置 | |
JP3881544B2 (ja) | ファイル検索方法と装置 | |
KR20080052173A (ko) | 자연어 분석을 통한 미디어 정보 검색 방법 | |
JP2005258910A (ja) | 階層キーワード抽出装置、方法、およびプログラム | |
Briscoe et al. | Intelligent information access from scientific papers | |
Chandra Mouli et al. | A Study Using Survey Cum Compilation in Text Summarizing Works in Automatically Generated Discourse Analyses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050412 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080603 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081021 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081216 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090210 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090409 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090422 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20090612 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120410 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150420 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |