JP2003030237A - ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ - Google Patents

ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ

Info

Publication number
JP2003030237A
JP2003030237A JP2001210832A JP2001210832A JP2003030237A JP 2003030237 A JP2003030237 A JP 2003030237A JP 2001210832 A JP2001210832 A JP 2001210832A JP 2001210832 A JP2001210832 A JP 2001210832A JP 2003030237 A JP2003030237 A JP 2003030237A
Authority
JP
Japan
Prior art keywords
file
character string
files
data storage
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001210832A
Other languages
English (en)
Inventor
Naoya Uematsu
直也 植松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2001210832A priority Critical patent/JP2003030237A/ja
Publication of JP2003030237A publication Critical patent/JP2003030237A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 大量のファイルを内容で分類して管理するの
は煩雑であった。 【解決手段】 ファイル検索装置10は、ユーザから検
索条件となるファイルを受け取り、これと類似するファ
イルを検索する。データ格納部36は、複数のファイル
を格納し、条件受付部16は検索条件となるファイルを
受け取る。文字列抽出部14は、それぞれのファイルか
ら特徴的な文字列を複数抽出し、これらを類似判定部1
8が比較することにより、類似するファイルを抽出す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ファイル検索方
法および装置に関する。この発明は特に、所望のファイ
ルを複数のファイルから抽出する技術に関する。
【0002】
【従来の技術】近年、コンピュータの普及により、あら
ゆる書類の電子化が進んでいる。ワードプロセッサなど
の文書作成ソフトウエアを用いてファイルを電子的に作
成し、これがハードディスクに蓄積されていく。企業内
などの環境ではコンピュータ同士をネットワークで接続
し、大量の文書ファイルを複数ユーザの間で共有するこ
とも多い。誰でも容易に所望のファイルを探せるよう
に、これらのファイルを管理者が予め分類しておくこと
もある。
【0003】一方、複数ユーザ間で共有されるのは文書
作成ソフトウエアで作成されたファイルばかりではな
い。ソフトウエアの開発現場ではプログラムソースファ
イルが共有されたり、電子部品のオープンマーケットで
は部品内容を示すCAD(Computer Aided Design)の
図面が共有されることもある。こうした環境でも、各ユ
ーザが所望のファイルを簡単に探し出せれば、作業効率
の向上や流通の迅速化が望める。
【0004】
【発明が解決しようとする課題】しかしながら、大量の
ファイルを特定の管理者が予め分類しても、分類の基準
が管理者の主観に依存して却って検索が困難となる場合
もある。客観的な基準としてファイルの作成者や作成日
などのパラメータで分類したとしても、内容による検索
には役立たない。プログラムソースの場合、作成者本人
でさえ一見しただけでは内容を理解できないものもあ
り、管理者による分類は困難である。プログラムソース
が数万行にも及ぶ場合や、オープンマーケットで管理さ
れる部品点数が数万にも及ぶ場合などは、内容に応じた
分類そのものが煩雑である。
【0005】本発明者は以上の認識に基づき本発明をな
したもので、その目的は、ユーザにとって利便性の高い
方法でファイルを検索する技術の提供にある。
【0006】
【課題を解決するための手段】本発明のある態様は、フ
ァイル検索方法に関する。この方法は、コンピュータで
の実行を前提とする記述言語により論理的な文字列構造
で作成された複数のファイルから、検索条件として指定
された目標ファイルと概念的に内容が類似するファイル
を検索するために、出現頻度に基づいて特徴的な文字列
を抽出し、その文字列によって形成される概念同士の類
似性を検出し、これにより複数のファイルから統計的な
手法でファイルを検索する。
【0007】ここで「記述言語」は、CやC++などの
プログラム言語、perlなどのスクリプト言語のよう
にコンピュータに実行させる動作や手順を記述するため
の言語を含む。その他、HTML(Hyper Text Markup
Language)やXML(eXtensible Markup Language)な
どの文書構造を記述するための言語、CAD図面を記述
するための言語、電子回路設計を記述するための言語な
ど、コンピュータ画面上にオブジェクトを表示するため
の言語も「記述言語」に含む。ただし、本発明のファイ
ル検索方法では、上記の記述言語で作成された文字列の
構造がもつ論理的な意味は検索に加味しなくてよく、あ
くまでも統計的に検索を処理する。
【0008】「目標ファイル」は、ユーザが指定するフ
ァイルであり、従来でいう検索キーワード的な検索条件
に相当する。ただし、「目標ファイル」には複数の文字
列または単語が含まれ、これらに重み付けをして一種の
「概念」を形成させる点で、検索キーワードによるブー
リアン検索とは異なる。この「目標ファイル」は、必ず
しもファイル形式である必要はなく、自然文による文章
の形で入力させた検索条件を「目標ファイル」として扱
ってもよい。
【0009】本発明の別の態様は、ファイル検索装置で
ある。本装置は、コンピュータでの実行を前提とする記
述言語によって作成された複数のファイルを記憶するデ
ータ格納部と、検索条件として指定された目標ファイル
の入力を受け付ける条件受付部と、データ格納部に含ま
れるファイルと目標ファイルのそれぞれから、出現頻度
に基づいた特徴的な文字列を複数抽出する文字列抽出部
と、抽出された複数の文字列によって形成される概念同
士の類似性を判定することにより、目標ファイルに類似
するファイルをデータ格納部から抽出する類似判定部
と、を有する。
【0010】本発明のさらに別の態様は、検索サーバで
ある。このサーバは、商品の内容を表示するために、コ
ンピュータでの実行を前提とする記述言語によって表現
した複数のファイルを記憶するデータ格納部と、検索条
件として指定された目標ファイルをユーザ端末から受信
する条件受付部と、データ格納部に含まれるファイルと
目標ファイルのそれぞれから、出現頻度に基づいた特徴
的な文字列を複数抽出する文字列抽出部と、抽出された
複数の文字列によって形成される概念同士の類似性を判
定することにより、目標ファイルに類似するファイルを
データ格納部から抽出する類似判定部と、抽出されたフ
ァイルによって示される商品の購入注文をユーザ端末か
ら受信する注文受付部と、を有する。
【0011】この検索サーバは、例えば電子部品やプロ
グラムモジュールのオープンマーケットにおいて、プロ
グラムソースやCAD図面の検索に用いることができ
る。「ユーザ端末」は、買い手の端末であり、インター
ネットなどのネットワークを経由して検索サーバに接続
される。
【0012】本発明のさらに別の態様は、コンピュータ
プログラムである。このプログラムは、コンピュータで
の実行を前提とする記述言語によって作成された複数の
ファイルを記憶する機能と、検索条件として指定された
目標ファイルの入力を受け付ける機能と、データ格納部
に含まれるファイルと目標ファイルのそれぞれから、出
現頻度に基づいた特徴的な文字列を複数抽出する機能
と、抽出された複数の文字列によって形成される概念同
士の類似性を判定することにより、目標ファイルに類似
するファイルをデータ格納部から抽出する機能と、をコ
ンピュータに発揮させる。
【0013】なお、以上の構成要素の任意の組合せや、
本発明の構成要素や表現を方法、装置、システム、コン
ピュータプログラム、コンピュータプログラムを格納し
た記録媒体などの間で相互に置換したものもまた、本発
明の態様として有効である。
【0014】
【発明の実施の形態】(第1実施形態)本実施形態のフ
ァイル検索装置は、複数のプログラムソースファイルを
データ格納部に保持し、検索条件としてユーザが指定し
たプログラムソースファイルに類似するファイルをデー
タ格納部から検索する。この装置は、プログラムソース
に含まれる文字列を抽出してそれぞれの出現頻度をカウ
ントし、その出現頻度に基づく重み付けをそれぞれの文
字列に与える。ただし、他のファイルにも共通して出現
頻度の高い文字列に対しては重み付けを低くする。重み
付けの高い文字列の単語は、そのファイルの内容を端的
に示す概念を形成する。この概念同士を比較して類似す
るファイルを抽出する。
【0015】類似するプログラムソースファイルを検索
する手法としては、プログラムの中で用いられた種々の
文字列やアルゴリズムを意味的に理解することにより、
そのプログラムの意図する内容を忠実に把握して比較す
る方法も考えられる。しかし、アルゴリズムには作成者
の個性や習慣が反映されている場合が多く、これを意味
的に正確に把握するのは困難である。しかも、言語が異
なるファイル同士では、アルゴリズムの類似性を容易に
比較できないことも予想される。
【0016】そこで、本実施形態では意味的な理解に拘
泥せず、出現頻度などの統計的な情報を用いて簡明に処
理する。実際にこの手法によると、予約語などの頻出語
よりも変数名やユーザが独自に定義した関数名などの方
が重み付けが高くなり、結果として特徴的な文字列を顕
在化させることができる。これにより、予め内容に応じ
てファイルを分類しておかなくともファイルの検索が容
易となり、大量のファイルを管理する負担が軽減され
る。
【0017】図1は、本実施形態におけるファイル検索
装置の構成を示す機能ブロック図である。ファイル検索
装置10は、条件受付部16、データ格納部36、類似
性記憶部12、文字列抽出部14、および類似判定部1
8を含む。
【0018】ファイル検索装置10は、ハードウエア的
には、コンピュータのCPUをはじめとする素子で実現
でき、ソフトウェア的にはデータ保持機能やデータ検索
機能のあるプログラムなどによって実現されるが、本図
ではそれらの連携によって実現される機能ブロックを描
いている。したがって、これらの機能ブロックはハード
ウエア、ソフトウエアの組合せによっていろいろなかた
ちで実現できる。
【0019】条件受付部16は、検索条件としてユーザ
から指定された目標ファイルの入力を受け付ける。デー
タ格納部36は、コンピュータに実行させるプログラム
のソースファイルを複数記憶する。類似性記憶部12
は、文字列同士の概念的な類似性に関する辞書を格納す
る。この辞書は、例えば類義語や同義語を定義してもよ
いし、同一概念で表記だけが異なる単語を一つの単語に
置き換える統制語を定義してもよい。
【0020】文字列抽出部14は、データ格納部36に
含まれるプログラムソースファイルと目標ファイルのそ
れぞれから、出現頻度に基づいた特徴的な文字列を複数
抽出する。文字列抽出部14は、ブロック処理部20、
概念管理部22、テキストデータ抽出部24、単語抽出
部26、出現頻度計数部28、および重み付け処理部3
0を含む。以下、各ブロックの説明では、データ格納部
36に格納されたファイルに対する処理を中心に記載す
るが、ファイル検索時にはこれと同様の処理を目標ファ
イルに対しても施す。
【0021】テキストデータ抽出部24は、データ格納
部36のファイルに含まれるプログラムソースをテキス
トデータとして抽出する。ブロック処理部20は、テキ
ストデータに含まれる文字列の行数が所定の基準を超え
た場合、そのテキストデータを複数のブロックに区切
る。このとき、関数による括りが分断されない形でブロ
ック分けする。関数による括りは、例えば「(・・
・)」や「{・・・}」のような括弧で囲まれた部分で
ある。
【0022】単語抽出部26は、テキストデータに含ま
れる文字列を複数抽出する。単語抽出部26は、スペー
スで区切られた文字列を単語として認識して抽出しても
よいし、単語辞書を保持してその辞書に含まれる単語を
抽出する形でもよい。出現頻度計数部28は、抽出され
た複数の文字列のそれぞれについて出現頻度をカウント
する。このとき、出現頻度計数部28は、文字列同士の
類似性、すなわち類義語、同義語、統制語を考慮する。
【0023】重み付け処理部30は、ひとつのファイル
に含まれる複数の文字列のそれぞれに出現頻度に応じた
重み付けを加える。ただし、各文字列に対する重み付け
は、データ格納部36に含まれる他のファイルにおける
出現頻度も考慮し、データ格納部36に格納されたファ
イル全体にわたって出現頻度が高い文字列に対しては重
み付けを低くする。その結果、そのファイルに特有な文
字列を統計的な手法で顕在化させることができる。顕在
化された複数の特徴的な文字列は、そのファイルの内容
を端的に示した概念を形成するものとし、そのような概
念をファイルごとに生成する。概念管理部22は、各フ
ァイルの概念をデータ格納部36に蓄積しておく。これ
らの概念はファイル検索時に参照される。ブロック処理
部20によって複数のブロックに区切られたファイルの
場合はブロックごとに概念が生成され、データ格納部3
6に蓄積される。
【0024】類似判定部18は、目標ファイルとデータ
格納部36に含まれるファイルとの間で概念同士の類似
性を判定することにより、目標ファイルに類似するファ
イルをデータ格納部36から抽出する。類似判定部18
は、比較処理部32および結果表示部34を含む。比較
処理部32は、各ファイルの概念同士を比較して類似性
を判定する。ブロック処理部20によって複数のブロッ
クに区切られたファイルの場合は、ブロックごとに概念
が比較され、類似性が判定される。比較処理部32は、
類似性記憶部12に格納された類義語、同義語、統制語
を考慮して概念を比較してもよい。結果表示部34は、
比較処理部32の判定結果として、類似度の高いファイ
ルまたはブロックをその類似度の高い順に画面に表示す
る。
【0025】図2は、概念が類似する文字列同士の対応
テーブルを示す。このテーブルに示される単語Aと単語
Bの組み合わせは、それぞれ類義語、同義語、統制語の
いずれかである。例えば、「num」と「numbe
r」はいずれも「数」の意味に使用されることが経験的
に認められるため統制語として扱う。
【0026】図3は、複数の特徴的な文字列によって形
成される概念をベクトル空間モデルで表す。各ファイル
の概念は、特徴的な文字列がそのファイルにn個含まれ
る場合、n次元のベクトル空間におけるベクトルで表さ
れる。図3(a)は検索条件として指定された目標ファ
イルにおけるベクトルを示し、(b)は検索時に目標フ
ァイルと比較されるファイルにおけるベクトルを示す。
【0027】本図においては、図を単純にするために各
空間を3次元で表現している。(a)では「companyNam
e」、「productManage」、「areaNumber」が特徴的な文
字列であり、(b)では「companyName」、「productMa
nage」、「areaNum」である。(a)の「areaNumber」
と(b)の「areaNum」は同義として扱う。それぞれの
文字列に対する重み付けはベクトルで表される。(a)
のベクトルVqと(b)のベクトルVaがそれぞれのフ
ァイルの概念を形成し、これらの近似度によりファイル
同士の類似度が判定される。
【0028】図4は、検索結果の表示画面を示す。本図
の「検索条件ファイル」は、検索条件である目標ファイ
ルであり、「/documents/programsources/test/main.
j」は、目標ファイルのディレクトリを示す。「検索結
果」には、検索されたファイル名が類似度の順序で表示
される。例えば、ファイル「testprogram.c」は、目標
ファイル「main.j」との類似度が「88」であり、最も
内容が類似するファイルとして判定されている。
【0029】以上の構成による動作を以下説明する。図
5は、ファイル検索装置における動作手順を示すフロー
チャートである。まず、ユーザが検索条件として目標フ
ァイルを指定し(S10)、その目標ファイルからテキ
ストデータが抽出される(S12)。テキストデータに
含まれる文字列の行数が所定の基準を超えている場合
(S13Y)、そのテキストデータは複数のブロックに
分けられる(S14)。テキストデータから複数の文字
列が抽出され(S16)、各文字列の出現頻度をカウン
トし(S18)、重み付けを加え(S20)、各ファイ
ルの概念を生成する。データ格納部36のファイルとの
間で概念の類似性に基づいたファイル同士の類似度を判
定し(S22)、類似度の高いファイルを画面にリスト
表示する(S24)。
【0030】(第2実施形態)本実施形態のファイル検
索装置は、図1のデータ格納部36が複数のCAD図面
ファイルを保持する点で第1実施形態と異なる。この装
置は、検索条件としてユーザが指定したCAD図面ファ
イルに類似するファイルをデータ格納部36から検索す
る。CAD図面ファイルに含まれるテキストデータから
文字列を抽出してそのファイルの概念を生成し、概念同
士の比較に基づいて類似のファイルを検索する。
【0031】類似するCAD図面を検索する手法として
は、CAD図面に含まれる図形同士を比較して幾何学的
な類似を判定する方法も考えられる。しかし、図形が複
雑になると比較が容易でなく、類似の度合いを数量化す
ることも困難である。しかも、概念的には類似していて
も形状が全く相違していれば幾何学的な比較では判定で
きない。
【0032】そこで、本実施形態では幾何学的な類似に
拘泥せず、文字列の出現頻度などの統計的な情報を用い
て簡明に処理する。この手法においては、図面中に付記
された説明書きなどの文字列のうち、そのファイルに特
有の文字列が抽出される。CAD図面を記述する言語に
よっては、関数の出現頻度に応じて形状の概略を結果的
に把握できる場合もある。例えば円を描く命令に「circ
le」のような関数を使用する場合、この関数が多ければ
「円が多い図形」と判定できる可能性がある。これによ
り、予め図面を内容で分類したり、検索用の説明を図面
にわざわざ追加する必要もない。
【0033】(第3実施形態)本実施形態の商品検索シ
ステムは、複数の買い手に向けて商品内容を公開する。
公開するサーバ上では、商品内容を画面に表示するため
に記述されたファイルを複数保持する。買い手は、指定
した目標ファイルに類似するファイルを検索することに
より所望の商品を探し出す。商品は、例えばプログラム
開発者向けに販売されるプログラムモジュールでもよい
し、電子機器メーカー向けに販売される電子部品でもよ
い。本システムは商品のオープンマーケットに用いられ
てもよい。
【0034】図6は、商品検索システムの構成を示す。
商品検索システム50は、インターネット44を介して
接続された商品検索サーバ42と複数の買い手の端末4
6を含む。これらの機能ブロックもまたハードウエア、
ソフトウエアの組合せによっていろいろなかたちで実現
できる。商品検索サーバ42は、注文受付部40、通信
部48およびファイル検索装置10を含む。各部は通信
部48を介してインターネット44に接続される。通信
部48は、データ送受信機能の他、ルータ機能やサーバ
機能を有してもよい。
【0035】ファイル検索装置10は第1および第2実
施形態におけるファイル検索装置10と同様の構成を有
する。ファイル検索装置10は、商品内容を表示するた
めに記述言語を用いて作成された複数のファイルを保持
する。このファイルは、例えばプログラムソースファイ
ルやCAD図面ファイルである。注文受付部40は、検
索結果として表示された商品に対する購入の注文を買い
手の端末46から受け取る。
【0036】以上、本発明を実施の形態をもとに説明し
た。この実施の形態は例示であり、それらの各構成要素
や各処理プロセスの組合せにいろいろな変形が可能なこ
と、またそうした変形例も本発明の範囲にあることは当
業者に理解されるところである。以下、変形例を挙げ
る。
【0037】上記の第1実施形態では、ファイル検索装
置をプログラムソースファイルの検索に用い、第2実施
形態では、ファイル検索装置をCAD図面ファイルの検
索に用いた。変形例においては、これらのファイルが混
在した中から目標ファイルに類似するファイルを検索す
る。他の記述言語で作成されたファイルがさらに混在し
た中から類似のファイルを検索してもよい。本装置は統
計的に比較処理をするので、様々なファイルが混在した
中から類似ファイルを見つけ出す用途にも強い。
【0038】第3実施形態における商品検索システム
は、販売対象の検索に用いられるが、これを無償でダウ
ンロードを許可するファイルの検索に用いてもよい。例
えば、プログラムモジュールを無償提供するオープンソ
ースコミュニティにおいてモジュールの検索に用いても
よい。
【0039】
【発明の効果】本発明によれば、予め分類することなく
大量のファイルを容易に管理できる。
【図面の簡単な説明】
【図1】 本実施形態におけるファイル検索装置の構成
を示す機能ブロック図である。
【図2】 概念が類似する文字列同士の対応テーブルを
示す図である。
【図3】 複数の特徴的な文字列によって形成される概
念をベクトル空間モデルで表した図である。
【図4】 検索結果の表示画面を示す図である。
【図5】 ファイル検索装置における動作手順を示すフ
ローチャートである。
【図6】 商品検索システムの構成を示す図である。
【符号の説明】
10 ファイル検索装置、 12 類似性記憶部、 1
4 文字列抽出部、16 条件受付部、 18 類似判
定部、 36 データ格納部、 42 商品検索サー
バ。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 コンピュータでの実行を前提とする記述
    言語により論理的な文字列構造で作成された複数のファ
    イルから、検索条件として指定された目標ファイルと概
    念的に内容が類似するファイルを検索するために、出現
    頻度に基づいて特徴的な文字列を抽出し、その文字列に
    よって形成される概念同士の類似性を検出し、これによ
    り前記複数のファイルから統計的な手法でファイルを検
    索することを特徴とするファイル検索方法。
  2. 【請求項2】 コンピュータでの実行を前提とする記述
    言語によって作成された複数のファイルを記憶するデー
    タ格納部と、 検索条件として指定された目標ファイルの入力を受け付
    ける条件受付部と、 前記データ格納部に含まれるファイルと前記目標ファイ
    ルのそれぞれから、出現頻度に基づいた特徴的な文字列
    を複数抽出する文字列抽出部と、 前記抽出された複数の文字列によって形成される概念同
    士の類似性を判定することにより、前記目標ファイルに
    類似するファイルを前記データ格納部から抽出する類似
    判定部と、 を有することを特徴とするファイル検索装置。
  3. 【請求項3】 前記データ格納部は、コンピュータに実
    行させるプログラムのソースファイルを前記複数のファ
    イルとして記憶し、 前記文字列抽出部は、前記ソースファイルに含まれるテ
    キストデータから前記特徴的な文字列を抽出することを
    特徴とする請求項2に記載のファイル検索装置。
  4. 【請求項4】 前記データ格納部は、複数のCAD図面
    ファイルを前記複数のファイルとして記憶し、 前記文字列抽出部は、前記CAD図面ファイルに含まれ
    るテキストデータから前記特徴的な文字列を抽出するこ
    とを特徴とする請求項2に記載のファイル検索装置。
  5. 【請求項5】 前記文字列抽出部は、ひとつのファイル
    に含まれる複数の文字列のそれぞれに出現頻度に応じた
    重み付けを加えるとともに、前記データ格納部全体にわ
    たって出現頻度が高い文字列に対しては重み付けを低く
    することによりそのファイルに特有の文字列を顕在化さ
    せることを特徴とする請求項2から4のいずれかに記載
    のファイル検索装置。
  6. 【請求項6】 前記文字列抽出部は、前記データ格納部
    に含まれるファイルを、関数による括りが分断されない
    形で複数のブロックに区切ってそれぞれから前記特徴的
    な文字列を抽出し、 前記類似判定部は、前記ブロックを単位として前記目標
    ファイルとの類似性を判定することを特徴とする請求項
    2から5のいずれかに記載のファイル検索装置。
  7. 【請求項7】 文字列同士の概念的な類似性に関する辞
    書を格納した類似性記憶部をさらに有し、 前記文字列抽出部は、前記文字列同士の類似性を考慮し
    て前記出現頻度を検出することを特徴とする請求項2か
    ら6のいずれかに記載のファイル検索装置。
  8. 【請求項8】 商品の内容を表示するために、コンピュ
    ータでの実行を前提とする記述言語によって表現した複
    数のファイルを記憶するデータ格納部と、 検索条件として指定された目標ファイルをユーザ端末か
    ら受信する条件受付部と、 前記データ格納部に含まれるファイルと前記目標ファイ
    ルのそれぞれから、出現頻度に基づいた特徴的な文字列
    を複数抽出する文字列抽出部と、 前記抽出された複数の文字列によって形成される概念同
    士の類似性を判定することにより、前記目標ファイルに
    類似するファイルを前記データ格納部から抽出する類似
    判定部と、 前記抽出されたファイルによって示される商品の購入注
    文を前記ユーザ端末から受信する注文受付部と、 を有することを特徴とする検索サーバ。
  9. 【請求項9】 コンピュータでの実行を前提とする記述
    言語によって作成された複数のファイルを記憶する機能
    と、 検索条件として指定された目標ファイルの入力を受け付
    ける機能と、 前記データ格納部に含まれるファイルと前記目標ファイ
    ルのそれぞれから、出現頻度に基づいた特徴的な文字列
    を複数抽出する機能と、 前記抽出された複数の文字列によって形成される概念同
    士の類似性を判定することにより、前記目標ファイルに
    類似するファイルを前記データ格納部から抽出する機能
    と、 をコンピュータに発揮させることを特徴とするコンピュ
    ータプログラム。
JP2001210832A 2001-07-11 2001-07-11 ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ Pending JP2003030237A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001210832A JP2003030237A (ja) 2001-07-11 2001-07-11 ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001210832A JP2003030237A (ja) 2001-07-11 2001-07-11 ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ

Publications (1)

Publication Number Publication Date
JP2003030237A true JP2003030237A (ja) 2003-01-31

Family

ID=19046242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001210832A Pending JP2003030237A (ja) 2001-07-11 2001-07-11 ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ

Country Status (1)

Country Link
JP (1) JP2003030237A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250682A (ja) * 2004-03-02 2005-09-15 Oki Electric Ind Co Ltd 情報抽出システム
WO2009005492A1 (en) * 2007-06-29 2009-01-08 United States Postal Service Systems and methods for validating an address
US7769778B2 (en) 2007-06-29 2010-08-03 United States Postal Service Systems and methods for validating an address

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153397A (ja) * 1997-07-29 1999-02-26 Just Syst Corp 文書処理装置、文書処理プログラムを記憶した記憶媒体、及び文書処理方法
JP2000112949A (ja) * 1998-09-30 2000-04-21 Fuji Xerox Co Ltd 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体
JP2000339342A (ja) * 1999-05-31 2000-12-08 Toshiba Corp 文書検索方法および文書検索装置
JP2001076000A (ja) * 1999-09-09 2001-03-23 Nippon Telegr & Teleph Corp <Ntt> コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法
JP2001117907A (ja) * 1999-10-21 2001-04-27 Internatl Business Mach Corp <Ibm> 多面体形状比較検索方法およびシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153397A (ja) * 1997-07-29 1999-02-26 Just Syst Corp 文書処理装置、文書処理プログラムを記憶した記憶媒体、及び文書処理方法
JP2000112949A (ja) * 1998-09-30 2000-04-21 Fuji Xerox Co Ltd 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体
JP2000339342A (ja) * 1999-05-31 2000-12-08 Toshiba Corp 文書検索方法および文書検索装置
JP2001076000A (ja) * 1999-09-09 2001-03-23 Nippon Telegr & Teleph Corp <Ntt> コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法
JP2001117907A (ja) * 1999-10-21 2001-04-27 Internatl Business Mach Corp <Ibm> 多面体形状比較検索方法およびシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250682A (ja) * 2004-03-02 2005-09-15 Oki Electric Ind Co Ltd 情報抽出システム
WO2009005492A1 (en) * 2007-06-29 2009-01-08 United States Postal Service Systems and methods for validating an address
US7769778B2 (en) 2007-06-29 2010-08-03 United States Postal Service Systems and methods for validating an address

Similar Documents

Publication Publication Date Title
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
US7650330B1 (en) Information extraction from a database
US9323794B2 (en) Method and system for high performance pattern indexing
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
US8370345B2 (en) Snippet based proximal search
US20060184517A1 (en) Answers analytics: computing answers across discrete data
JP3220886B2 (ja) 文書検索方法および装置
US20180004838A1 (en) System and method for language sensitive contextual searching
Im et al. Linked tag: image annotation using semantic relationships between image tags
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN101727447A (zh) 基于url的正则表达式的生成方法和装置
US20110307479A1 (en) Automatic Extraction of Structured Web Content
KR20180129001A (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
Manaf et al. Comparison of carp rabin algorithm and Jaro-Winkler distance to determine the equality of Sunda languages
JP2003186888A (ja) 部品情報分類装置、部品情報検索装置および部品情報検索サーバ
Kayest et al. Optimization driven cluster based indexing and matching for the document retrieval
CN113127641A (zh) 百科词条的展示方法、装置、设备、介质及程序产品
TWM423854U (en) Document analyzing apparatus
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
EP3644195A1 (en) System for storing and querying document collections
CN111143400A (zh) 一种全栈式检索方法、系统、引擎及电子设备
Sailaja et al. An overview of pre-processing text clustering methods
Moumtzidou et al. Discovery of environmental nodes in the web
JP2003030237A (ja) ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110222