JPH08329104A - 文書管理装置 - Google Patents

文書管理装置

Info

Publication number
JPH08329104A
JPH08329104A JP7133865A JP13386595A JPH08329104A JP H08329104 A JPH08329104 A JP H08329104A JP 7133865 A JP7133865 A JP 7133865A JP 13386595 A JP13386595 A JP 13386595A JP H08329104 A JPH08329104 A JP H08329104A
Authority
JP
Japan
Prior art keywords
entry
character
document
character string
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7133865A
Other languages
English (en)
Inventor
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP7133865A priority Critical patent/JPH08329104A/ja
Publication of JPH08329104A publication Critical patent/JPH08329104A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文字成分表における3文字以上の文字列エン
トリの選択及び柔軟な文字成分表の構成を可能とする手
法を提案し、効率的な文書管理を行う。 【構成】 文書登録手段2は、文書データベース9に登
録文書1の登録操作を行う。該文書データベース9に
は、文書本文データ8と文字成分表7と文字成分表定義
6とが含まれる。文字成分表7は、登録文書1に含まれ
る定義されたエントリ文字列の存在の有無を文書ごとに
記録した表である。文書登録手段2は、登録文書1を保
存するとともに、該登録文書1に含まれる前記エントリ
を前記文字成分表7に登録し記録する。文書検索手段4
は、前記文字成分表7を用いて検索条件3に該当する文
書5を高速に探し出す。文字成分表定義6により文字成
分表7のエントリ構成を変更可能で、さらに、基本エン
トリ、3文字以上の拡張エントリを効率的な処理を可能
とするように定義する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書管理装置に関し、
より詳細には、文字成分表を利用し、全文書に対して文
字列を検索する文書管理装置に関するもので、例えば、
文書管理システムや画像管理システム、データベース管
理システム等に適用し得るものである。
【0002】
【従来の技術】従来の文書管理装置について記載した公
知文献としては、例えば、特開平5−324722号公
報がある。この公報のものは、文書登録処理において、
登録する文書を文書データに登録するとともに、文書デ
ータよりエントリする文字成分を抽出して文字成分表と
して登録する。この文字成分表は、文字成分が文書中に
存在するか否かを示す1文字成分表及び隣接する文字か
ら抽出したあるビット列が文書中に存在するか否かを示
す隣接文字成分表から成り、入力部に入力された検索文
字列は、エントリを抽出するために処理され、文書検索
処理部において、データ部の前記文字成分表を利用して
検索文字列中のエントリを含む文書を検索する。すなわ
ち、文書ごとに出現した文字を記録した文字成分表を用
いて文書を高速に検索するシステムである。
【0003】この従来例においてもいえるが、検索文字
列(検索語)から抽出されるエントリが少ないほど検索
は高速化されるので、一つのエントリに対応する文字列
を長くすれば検索は高速化できる。しかし、一つのエン
トリに対応する文字列を長くすると、エントリの異なり
数が増大し、文字成分表が大きくなってしまうという問
題点がある。これに対処すべく、文字および二文字の文
字列の出現を文字成分表にすべて記録し、さらに三文字
以上の文字列について予め装置のシステムに登録してお
いたもののみとすることが考えられているが、文字成分
表の構成が固定的であるために多様な文書やユーザの要
求に対応できなかった。
【0004】
【発明が解決しようとする課題】本発明は、このような
従来における問題点を解決しようとするもので、その目
的は、1文字のエントリに付加されるエントリで検索性
能に大きく影響する長い文字列のエントリをより効率的
な長さにし、また検索性能を向上させる文字列の選択手
法、さらに、より柔軟な文字成分表の構成を可能とする
手法を提案することにある。
【0005】
【課題を解決するための手段】本発明は、上記課題を解
決するために、(1)登録文書を保存するとともに、該
文書に含まれる1文字以上の文字列から決定されるエン
トリ文字成分の出現を文書ごとに抽出した結果を、文字
成分表というテーブルに登録し記録する文書登録手段
と、前記文字成分表を用いて検索条件に該当する文書を
高速に捜し出す文書検索手段を有する文書管理装置にお
いて、前記エントリとしてn(n1)文字以上m(m
n)文字以下の文字列から決定される文字成分(「基
本エントリ」と呼ぶ)を用いること、或いは、(2)前
記文書検索手段において、検索条件をなす文字列から抽
出された複数のエントリとして他のエントリによって存
在が保障される別のエントリ(「冗長エントリ」と呼
ぶ)を用いないこと、或いは、(3)前記成分表におい
てm+1文字以上の辞書(「拡張エントリ辞書」と呼
ぶ)に登録された文字列から決定されるエントリ(「拡
張エントリ」と呼ぶ)を基本エントリとともに用いるこ
と、或いは、(4)前記(3)において、前記文書検索
手段において、検索条件をなす文字列から抽出された複
数のエントリとして他のエントリによって存在が保障さ
れる別の冗長エントリを用いないこと、或いは、(5)
前記(3)において、拡張エントリ辞書に前記拡張エン
トリ辞書において調査対象における文字列の使用頻度を
計数し、その計数結果に基づいて決定した文字列によっ
て構成される拡張エントリ辞書を用いること、或いは、
(6)前記(5)において、前記拡張エントリ辞書のた
めの文字列の使用頻度計数は前記拡張エントリ辞書のた
めの文字列の使用頻度計数において、調査対象中に存在
するm+1以上p(pm+1)以下の長さの全ての文
字列の頻度を、部分的に重複するものも含めて数えるこ
と、或いは、(7)前記(5)において、前記拡張エン
トリ辞書のための文字列の使用頻度計数は、前記拡張エ
ントリ辞書のための文字列の使用頻度計数において、調
査対象中に存在する同一文字種から構成されるm+1以
上p(pm+1)以下の長さの全ての文字列の頻度
を、部分的に重複するものも含めて数えること、或い
は、(8)前記(5)において、前記拡張エントリ辞書
のための文字列の使用頻度計数は、前記拡張エントリ辞
書のための文字列の使用頻度計数において、調査対象を
単語に分割し、m+1以上p(pm+1)以下の長さ
の全ての単語の頻度を数えること、或いは、(9)前記
(5)において、前記拡張エントリ辞書のための文字列
の決定は、前記拡張エントリ辞書のための文字列の使用
頻度計数において、調査対象を単語に分割し、m+1以
上p(pm+1)以下の長さの全ての単語の頻度を数
え、頻度が1以上の全て文字列について、その文字列が
他文字列に包含される場合、後者の頻度を前者の頻度に
加算すること、或いは、(10)前記(5)において、
前記拡張エントリ辞書のための文字列の決定は、前記拡
張エントリ辞書のための文字列の決定において、頻度の
大きい順に並び替えた文字列の上位D個選択すること、
或いは、(11)前記(5)において、前記拡張エント
リ辞書のための文字列の決定は、前記拡張エントリ辞書
のための文字列の決定において、頻度と、文字列長ある
いはそれから算出される値との積の大きい順に並び替え
た文字列の上位D個選択することを特徴とする手段を有
するものである。
【0006】
【作用】本発明の文書管理装置は、(1)文書登録手段
により登録文書を保存するとともに、該登録文書に含ま
れる1文字以上の文字列から決定される文字成分表のエ
ントリの出現を文書ごとに抽出した結果を文字成分表と
いうテーブルに登録し記録し、この文字成分表を用いて
検索条件に該当する文書を文書検索手段により高速に探
し出すが、前記文字成分表のエントリの決定をエントリ
文字列の長さを所定の長さに指定し、このようにして構
成される基本エントリを用いるとしているので、より柔
軟に文書に適合した文書成分表を構成できる。(2)ま
た、上記(1)において、冗長エントリを用いないの
で、検索をより高速化できる。
【0007】(3)また、上記(1)において基本エン
トリより長い文字列をなし、かつ、拡張エントリ辞書に
より決まる拡張エントリを基本エントリとともに用いる
ことにより、検索をより高速化できる。 (4)また、上記(3)において、冗長エントリを用い
ないので、検索をより高速化できる。
【0008】(5)また、上記(3)において、拡張エ
ントリ辞書が調査対象における文字列の使用頻度を計数
し、その結果によって決まる文字列によって作成される
ので、該辞書の作成が自動化できる。 (6)また、上記(5)において、前記使用頻度計数を
調査対象中に存在する基本エントリの文字列より長い所
定の長さまでの全ての文字列の頻度を部分的に重複する
ものをも含めて数えるという単純な計数手順としたので
計数が簡単に行える。 (7)また、上記(5)において、前記使用頻度計数を
調査対象中に存在する同一文字種から構成される文字列
で基本エントリの文字列より長い所定の長さまでの全て
の文字列の頻度を部分的に重複するものをも含めて数え
るとし、計数において文字種を考慮するので、検索に有
効な文字列の頻度を計数でき、効率的な拡張エントリ辞
書が作成できる。 (8)また、上記(5)において、前記使用頻度計数を
調電対象を単語に分割し、基本エントリの文字列の長さ
より大きい所定の長さまでの全ての単語の頻度を数える
とし計数において単語境界を考慮するので、検索に有効
な文字列の頻度を計数でき、効率的な拡張エントリ辞書
が作成できる。 (9)また、上記(5)において、前記使用頻度計数を
調査対象を単語に分割し、基本エントリの文字列の長さ
より大きい所定の長さまでの全ての単語の頻度を数え、
頻度が1以上の全ての文字列についてその文字列が他文
字列に包含される場合、後者の頻度を前者の頻度に加算
するとし、文字列の使用頻度の計数において複合語の構
成語を考慮するので、検索に有効な文字列の頻度を計数
でき、効率的な拡張エントリ辞書が作成できる。
【0009】(10)また、上記(5)において、前記
拡張エントリ辞書のための文字列の決定を頻度の大きい
順に並び替えた文字列の上位の所定個とするという単純
な決定の手順としたので、文字列決定が簡単である。 (11)また、上記(5)において、前記拡張エントリ
辞書のための文字列の決定を頻度と文字列長あるいはそ
れから算出される値との積の大きい順に並び替えた文字
列の上位の所定化とし、辞書文字列の決定において文字
列長を考慮するので、効率的な拡張エントリ辞書が作成
できる。
【0010】
【実施例】実施例について、図面を参照して以下に説明
する。図1は、本発明による文書管理装置の一実施例を
説明するための構成の概要を示す図で、図中、1は登録
文書、2は文書登録手段、3は検索条件、4は文書検索
手段、5は該当文書である。また、9は文書データベー
スで、6の文字成分表定義、7の文字成分表、8の文書
本文データを含み、これらのデータの保管管理をする。
文書登録手段2は、登録文書1を保存するとともに、該
登録文書1に含まれる文字を文字成分表定義6のエント
リ指定に従って文字成分表7に登録し記録する。ここ
に、文字成分表定義6とは、登録文書1あるいは検索文
字列(検索語)が検索条件3として与えられた際に抽出
すべきエントリを定義するものである。文書検索手段4
は、前記文字成分表7を用いて検索条件3に該当する文
書5を探し出し特定されたその文書集合を検索結果とす
る。
【0011】上記したところをより具体的に説明する
と、文字成分表7は、登録文書1ごとに、その文書に含
まれるn(n1)文字以上の文字列の出現を記録する
二次元の表である。文字成分表7の一つの次元は、文書
を特定するための文書番号が対応する。もう一つの次元
は、文字成分表定義6から決定されるエントリに対応す
るエントリ番号が対応する。文書登録時には、文字成分
表を文書番号方向に拡張し、文書から抽出された複数の
エントリに対応する各点に“1”をセットする。図2に
文字成分表への文書登録の様子を示す。ここでは、登録
文書の文書番号をd、文書から抽出したエントリのエン
トリ番号を{0,3,4…}としている。そこで、文字
成分表上の(d,0),(d,3),(d,4)…の各
点に“1”、それ以外の(d,1),(d,2),…の
各点に“0”をセットしている。文書検索時には、検索
文字列を含む文書を特定するため、検索文字列から抽出
した全てのエントリが“1”にセットされている文書を
求める。図3に文字成分表による文書検索を様子を示
す。ここでは、検索文字列から抽出したエントリのエン
トリ番号を{0,3,4}(図の太字)としており、検
索結果(文書番号の集合)は{2,…d}(図の太字)
となる。
【0012】上記したように、本発明の文字成分表を用
いた文書管理装置では、登録時には登録文書の文字列か
ら、検索時には検索文字列から文字成分表定義6にした
がってエントリ抽出しなければならない。以下で、文字
列からのエントリの抽出において、本発明が目的とする
より効率的な長さで検索性能を向上させる手法について
説明する。本発明の文字成分表には、n(n1)文字
以上m(mn)文字以下の文字列から決定される「基
本エントリ」と、m+1文字以上の辞書に登録された文
字列から決定される「拡張エントリ」の二種類のエント
リがある。ただし、基本エントリのみから文字成分表を
構成しても良い。
【0013】「基本エントリ」の抽出 まず、基本エントリの抽出手法を説明する。l(n
m)文字の文字列に対応する基本エントリはI個の文
字コードを入力とする関数fi()によって計算する。
l文字から算出されるエントリを「l次エントリ」と呼
ぶ。特に、1文字から算出されるエントリを「単一文字
エントリ」、2文字から算出されるエントリを「隣接文
字エントリ」と呼ぶこともある。N文字の文字列(実際
には、登録文書あるいは検索文字列が相当する)から抽
出される基本エントリ集合Ebはi番目の文字をCiと表
すこととすると、つぎのようになる。 Eb={fl(Ci,…,Ci+l−1)|nm,1(N−l+1)} (1) なお、同一のエントリが複数回抽出された場合、重複す
るエントリは一つにまとめる。文字成分表の一例とし
て、n=1,m=2、基本エントリのみから構成され、
エントリ決定関数がf1(x1)=94*(x1/256
−33)+x1%256−33、f2(x1,x2)=64
*(x1%64)+x2%64+7896である場合を示
す。エントリ決定関数では、文字コードはJISコー
ド、演算は整数の範囲で行ない、“/”は商、“%”は
余りを計算する。
【0014】このとき、「デジタルビデオ」という文字
列を例にとると、以下のエントリが抽出される。 ・1次エントリ(単一文字エントリ) f1(デ)=94*(0x2547/256−33)+
0x2547%256−33=414 f1(ジ)=94*(0x2538/256−33)+
0x2538%256−33=399 f1(タ)=94*(0x253f/256−33)+
0x253f%256−33=406 f1(ル)=94*(0x256b/256−33)+
0x256b%256−33=450 f1(ビ)=94*(0x2553/256−33)+
0x2553%256−33=426 f1(オ)=94*(0x252a/256−33)+
0x252a%256−33=385 ここで、「デ」は対象文字列の1文字目と6文字目に出
現しているが、エントリの重複は削除するので、6文字
目のf1(デ)は示していない。
【0015】・2次エントリ(隣接文字エントリ) f2(デ,ジ)=64*(0x2547/64)+0x
2538%64+7896=8400 f2(ジ,タ)=64*(0x2538/64)+0x
253f%64+7896=11543 f2(タ,ル)=64*(0x253f/64)+0x
256b%64+7896=11971 f2(ル,ビ)=64*(0x256b/64)+0x
2553%64+7896=10657 f2(ビ,デ)=64*(0x2553/64)+0x
2547%64+7896=9119 f2(デ,オ)=64*(0x2547/64)+0x
252a%64+7896=8386
【0016】文字成分表の構成によっては、文字列から
抽出されるp次のあるエントリがq(q<p)次の別の
エントリの存在を確実に示す場合がある。このような、
高次のエントリによって存在が保障される「冗長エント
リ」とよぶ低次のエントリは、検索結果の決定に有効な
働きをしない。一方、文字成分表により検索では、アク
セスするエントリ数は少ないほど検索は高速化される。
したがって、検索時にはこの冗長エントリは用いない。
冗長エントリの例を示すと、文字成分表の構成におい
て、隣接文字エントリの決定にf´2(x1,x2)=7
896*f1(x1)+f1(x2)+7896という関数
を用いた場合、二文字組とエントリ番号は一対一対応が
成立する。したがって、隣接文字エントリが与えられれ
ば、その構成文字に対応する単一文字エントリが抽出さ
れることが保障される。例えば、f´2(デ,ジ)に対
し、f1(デ)とf1(ジ)は冗長エントリになる。一
方、f2(デ,ジ)に対し、f1(デ)とf1(ジ)は冗
長エントリにならない。これはf2(デ,ジ)=840
0であるが、「デジ」以外にも8400となる二文字組
(例えば「デに」「ペジ」)があるため、f1(デ)と
1(ジ)の存在が保障されないからである。
【0017】「拡張エントリ」の抽出 拡張エントリは、m+1文字以上の文字列からなる適当
な拡張エントリ用辞書を用意しておき、その辞書に含ま
れる各文字列を個別のエントリとしたものである。拡張
エントリ用辞書をDic、辞書に含まれる文字列からエ
ントリ番号を計算する関数をg( )とする。また、N
文字から成る文字列のi番目からj番目までの文字で構
成される部分文字列をci…cjとする。このとき、この
文字列から抽出される拡張エントリの集合Exは、つぎ
のようになる。 Ex={g(ci…cj)|∀ci…cj∈Dic,1i<jN} (2) 基本エントリと合わせると、文字列から抽出されるエン
トリ集合Eは、つぎのようになる。 E=Eb∪Ex (3)
【0018】拡張エントリを持つ文字成分表の一例とし
て、前述の基本エントリ構成に加えて、Dic={トレ
ー、デジタル、プリン、プリント}を拡張エントリ辞書
を持つ文字成分表を取り上げる。ここで、dic(x)を
文字列xの拡張エントリ辞書の識別番号(0以上、拡張
エントリ辞書に含まれる文字列数引く1の範囲の値)を
返す関数とすれば、g(x)=dic(x)+11992
とできる。このとき、「デジタルビデオ」から抽出され
る拡張エントリは、つぎのようになる。 ・拡張エントリ g(デジタル)=dic(デジタル)+11992=11
993 検索時に冗長エントリを除去することは、基本エントリ
のみの文字成分表の場合と同じである。ただし、基本エ
ントリのみの場合、基本エントリ同士の包含関係から冗
長エントリの判定ができたが、拡張エントリを含む場
合、拡張エントリ同士および拡張エントリと基本エント
リ間の包含関係を考慮して冗長エントリの判定を行なわ
なければならない。すなわち、他の拡張エントリに包含
される別の拡張エントリ、および抽出された拡張エント
リ文字列から抽出される基本エントリも冗長エントリと
なる。このような冗長エントリも、検索結果の決定には
有効な働きはしないので、検索時には用いない。上の例
では、拡張エントリに対応する文字列「デジタル」から
抽出されるf1(デ),f1(ジ),f1(タ),f
1(ル)およびf2(デ,ジ),f2(ジ,タ),f
2(タ,ル)は冗長エントリとなる。したがって、検索
時に抽出・使用されるエントリはつぎの通りである。 ・1次エントリ(単一文字エントリ) f1(ビ),f1(オ) ・2次エントリ(隣接文字エントリ) f2(ル,ビ),f2(ビ,デ),f2(デ,オ) ・拡張エントリ g(デジタル)
【0019】別の例として、文字列「プリントレーザ」
を取り上げる。登録時にこの文字列から抽出されるエン
トリは、つぎの通りである。 ・1次エントリ(単一文字エントリ) f1(プ),f1(リ),f1(ン),f1(ト),f1(レ),
1(ー),f1(ザ) ・2次エントリ(隣接文字エントリ) f2(プ,リ),f2(リ,ン),f2(ン,ト),f2(ト,レ),f
2(レ,ー),f2(ー,ザ) ・拡張エントリ g(プリン),g(プリント),g(トレー) 一方、検索時には、「プリン」は「プリント」に包含さ
れるので排除される。さらに、残った拡張エントリ「プ
リント」「トレー」に包含される基本エントリも排除さ
れる。したがって、検索時に抽出されるエントリはつぎ
の通りである。 ・1次エントリ(単一文字エントリ) f1(ザ) ・2次エントリ)(隣接文字エントリ) f2(ー,ザ) ・拡張エントリ g(プリント),g(トレー)
【0020】「拡張エントリ辞書」の作成 拡張エントリを利用するためには、拡張エントリ辞書を
用意しなければならない。拡張エントリ文字列として
は、(1)使用頻度が高い、(2)長い、という条件が
望まれる。このような文字列を選択する手順はつぎのよ
うになる。 (1)調査対象の用意 調査対象は、これから登録する予定の文書、新聞記事デ
ータベース、特許データベース等である。 (2)文字列の使用頻度の計数 (3)計数結果に基づく文字列の決定
【0021】まず、上記文字列の使用頻度の計数手順を
示す。 (1)調査対象中に存在するm+1以上p(pm+
1)以下の長さの全ての文字列の頻度を、部分的に重複
するものも含めて数える。例えば、m=2,p=3と
し、調査対象を「デジタルビデオの研究開発が…」であ
るとする。この場合、「デジタ」「ジタル」「タルビ」
「ルビデ」「ビデオ」「デオの」…、および「デジタ
ル」「ジタルビ」「タルビデ」「ルビデオ」「ビデオ
の」…が文字列として抜き出され、頻度が数えられる。
上記方式では、「デオの」「ビデオの」などの文字種の
異なる文字から構成される文字列が抽出されている。し
かし、検索語は同一文字種から構成される文字列である
ことが多いので、上記方式は検索に有効でない文字列の
頻度を計測しており、無駄である。
【0022】この問題を解決するものとして、つぎの手
順が考えられる。 (1)調査対象中に存在する同一文字種から構成される
m+1以上p(pm+1)以下の長さの全ての文字列
の頻度を、部分的に重複するものも含めて数える。この
場合、「デジタ」「ジタル」「タルビ」「ルビデ」「ビ
デオ」「研究開」「究開発」…、および「デジタル」
「ジタルビ」「タルビデ」「ルビデオ」「研究開発」…
が文字列として抜き出され、頻度が数えられる。上記方
式では、「デジタ」「ジタル」など単語ではない短い文
字列の頻度が高くなる。その結果、辞書に含まれる文字
列が短くなるので高速化の効果が小さくなる。辞書に他
のエントリの冗長エントリになる文字列が多くなるので
検索に有効でない拡張エントリが増える、という問題が
発生する。
【0023】この問題を解決するものとして、つぎの手
順が考えられる。 (1)調査対象を単語に分割する。 (2)m+1以上p(pm+1)以下の長さの全ての
単語の頻度を数える。 単語に分割する方式としては、日本語形態素解析系を利
用する方法、文字種の変わり目を単語境界とする方法な
どがあり、そのいずれを用いてもよい。例えば、調査対
象「デジタルビデオの研究開発が…」が「デジタルビデ
オ|の|研究開発|が|…」(“|”が単語境界を示
す)と解析された場合、「デジタルビデオ」「研究開
発」…が文字列として抽出される。この方式では、「デ
ジタルビデオ」のような複合語が一つの固まりとして扱
われるので、複合語の構成単語の頻度が正しくが計数さ
れないという問題がある。しかし、複合語を構成単語に
正しく分割することは、現在の技術レベルでは難しい。
【0024】この問題を解決するものとして、つぎの手
順が考えられる。 (1)調査対象を単語に分割する。 (2)全てのm+1以上p(pm+1)以下の長さの
単語の頻度を数える。 (3)頻度が1以上の全て文字列について、その文字列
が他文字列に包含される場合、後者の頻度を前者の頻度
に加算する。 ステップ3について、例を用いて説明する。ステップ2
終了時点で、「デジタルビデオ」「デジタル」の頻度が
それぞれ10,100であったとする。このとき、「デ
ジタル」は「デジタルビデオ」に包含されるので、「デ
ジタル」の頻度は「デジタルビデオ」の頻度を加算した
110となる。
【0025】つぎに、頻度計測後の文字列の選択法を説
明する。 (1)頻度の大きい順に文字列を並び替える。 (2)上位D個選択する。 この方式は単純だが、文字列長が考慮されていない。そ
こで、つぎのようにすれば文字列長も考慮され、検索に
効果的な文字列が選択できる。 (1)頻度と、文字列長あるいはそれから算出される値
との積の大きい順に文字列を並び替える。 (2)上位D個選択する。
【0026】
【発明の効果】以上の説明から明らかなように、本発明
によって以下の効果がもたらされる。 (1)請求項1の文書管理装置では、文字成分表が、n
(n1)文字以上m(mn)文字以下の文字列から
決定される基本エントリのみで構成されているので、エ
ントリ抽出のための辞書が不要であり、文字成分表の構
成を簡単にできる。 (2)請求項2の文書管理装置では、検索時に冗長エン
トリを用いないので、検索が高速化できる。 (3)請求項3の文書管理装置では、m+1文字以上の
文字列から決定される拡張エントリも用いるので、検索
が高速化できる。 (4)請求項4の文書管理装置では、拡張エントリを用
いた文字成分表において、検索時に冗長エントリを用い
ないので、検索がさらに高速化できる。 (5)請求項5の文書管理装置では、文字列の使用頻度
に基づいて拡張エントリ辞書を作成できるので、拡張エ
ントリ作成が自動化できる。 (6)請求項6の文書管理装置では、文字列の使用頻度
の計数手順が単純なので、頻度計数が簡単である。 (7)請求項7の文書管理装置では、文字列の使用頻度
の計数において文字種を考慮するので、検索に有効な文
字列の頻度を計数でき、効率的な拡張エントリ辞書が作
成できる。 (8)請求項8の文書管理装置では、文字列の使用頻度
の計数において単語境界を考慮するので、検索に有効な
文字列の頻度を計数でき、効率的な拡張エントリ辞書が
作成できる。 (9)請求項9の文書管理装置では、文字列の使用頻度
の計数において複合語の構成語を考慮するので、検索に
有効な文字列の頻度を計数でき、効率的な拡張エントリ
辞書が作成できる。 (10)請求項10の文書管理装置では、辞書文字列の決
定手順が単純なので、文字列決定が簡単である。 (11)請求項11の文書管理装置では、辞書文字列の決
定において文字列長を考慮するので、効率的な拡張エン
トリ辞書が作成できる。
【図面の簡単な説明】
【図1】 本発明による文書管理装置の一実施例を説明
するための構成の概要を示す図である。
【図2】 本発明における文字成分表の実施例を説明す
る図である。
【図3】 本発明における文字成分表による文書検索の
実施例を説明する図である。
【符号の説明】
1…登録文書、2…文書登録手段、3…検索条件、4…
文書検索手段、5…該当文書、6…文字成分表定義、7
…文字成分表、8…文書本文データ、9…文書データベ
ース。
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成7年7月25日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】請求項1
【補正方法】変更
【補正内容】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0004
【補正方法】変更
【補正内容】
【0004】
【発明が解決しようとする課題】本発明は、このような
従来における問題点を解決しようとするもので、その目
的は、文字成分表の構成をより柔軟なものにし、さらに
検索性能向上に大きく影響する長い文字列に関する性能
向上の程度の大きい文字列の選択手法を提案することに
ある。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0005
【補正方法】変更
【補正内容】
【0005】
【課題を解決するための手段】本発明は、上記課題を解
決するために、(1)登録文書を保存するとともに、該
文書に含まれる1文字以上の文字列から決定される文字
成分表エントリの出現を文書ごとに抽出した結果を、文
字成分表というテーブルに登録し記録する文書登録手段
と、前記文字成分表を用いて検索条件に該当する文書を
高速に捜し出す文書検索手段を有する文書管理装置にお
いて、前記エントリとしてn(n1)文字以上m(m
n)文字以下の文字列から決定される文字成分(「基
本エントリ」と呼ぶ)を用いること、或いは、(2)前
記文書検索手段において、検索条件をなす文字列から抽
出された複数のエントリとして他のエントリによって存
在が保障される別のエントリ(「冗長エントリ」と呼
ぶ)を用いないこと、或いは、(3)前記成分表におい
てm+1文字以上の辞書(「拡張エントリ辞書」と呼
ぶ)に登録された文字列から決定されるエントリ(「拡
張エントリ」と呼ぶ)を基本エントリとともに用いるこ
と、或いは、(4)前記(3)において、前記文書検索
手段において、検索条件をなす文字列から抽出する複数
のエントリとして他のエントリによって存在が保障され
る別の冗長エントリを用いないこと、或いは、(5)前
記(3)において、拡張エントリ辞書に前記拡張エント
リ辞書において調査対象における文字列の使用頻度を計
数し、その計数結果に基づいて決定した文字列によって
構成される拡張エントリ辞書を用いること、或いは、
(6)前記(5)において、前記拡張エントリ辞書のた
めの文字列の使用頻度計数は前記拡張エントリ辞書のた
めの文字列の使用頻度計数において、調査対象中に存在
するm+1以上p(pm+1)以下の長さの全ての文
字列の頻度を、部分的に重複するものも含めて数えるこ
と、或いは、(7)前記(5)において、前記拡張エン
トリ辞書のための文字列の使用頻度計数は、前記拡張エ
ントリ辞書のための文字列の使用頻度計数において、調
査対象中に存在する同一文字種から構成されるm+1以
上p(pm+1)以下の長さの全ての文字列の頻度
を、部分的に重複するものも含めて数えること、或い
は、(8)前記(5)において、前記拡張エントリ辞書
のための文字列の使用頻度計数は、前記拡張エントリ辞
書のための文字列の使用頻度計数において、調査対象を
単語に分割し、m+1以上p(pm+1)以下の長さ
の全ての単語の頻度を数えること、或いは、(9)前記
(5)において、前記拡張エントリ辞書のための文字列
の決定は、前記拡張エントリ辞書のための文字列の使用
頻度計数において、調査対象を単語に分割し、m+1以
上p(pm+1)以下の長さの全ての単語の頻度を数
え、頻度が1以上の全て文字列について、その文字列が
他文字列に包含される場合、後者の頻度を前者の頻度に
加算すること、或いは、(10)前記(5)において、
前記拡張エントリ辞書のための文字列の決定は、前記拡
張エントリ辞書のための文字列の決定において、頻度の
大きい順に並び替えた文字列の上位D個選択すること、
或いは、(11)前記(5)において、前記拡張エント
リ辞書のための文字列の決定は、前記拡張エントリ辞書
のための文字列の決定において、頻度と、文字列長ある
いはそれから算出される値との積の大きい順に並び替え
た文字列の上位D個選択することを特徴とする手段を有
するものである。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0006
【補正方法】変更
【補正内容】
【0006】
【作用】本発明の文書管理装置は、(1)文書登録手段
により登録文書を保存するとともに、該登録文書に含ま
れる1文字以上の文字列から決定される文字成分表のエ
ントリの出現を文書ごとに抽出した結果を文字成分表と
いうテーブルに登録し記録し、この文字成分表を用いて
検索条件に該当する文書を文書検索手段により高速に探
し出すが、前記文字成分表のエントリの決定において、
エントリを計算する対象の文字列の長さを適当に指定す
ること、および、文字列からエントリの計算法を適当に
指定することができるようにし、このようにして構成さ
れる基本エントリを用いるとしているので、より柔軟に
文書に適合した文書成分表を構成できる。(2)また、
上記(1)において、冗長エントリを用いないので、検
索をより高速化できる。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0013
【補正方法】変更
【補正内容】
【0013】「基本エントリ」の抽出 まず、基本エントリの抽出手法を説明する。(n<k
m)文字の文字列に対応する基本エントリは個の文
字コードを入力とする関数()によって計算する。
文字から算出されるエントリを「次エントリ」と呼
ぶ。特に、1文字から算出されるエントリを「単一文字
エントリ」、2文字から算出されるエントリを「隣接文
字エントリ」と呼ぶこともある。N文字の文字列(実際
には、登録文書あるいは検索文字列が相当する)から抽
出される基本エントリ集合Eはi番目の文字をC
表すこととすると、つぎのようになる。 E={f (Ci,…,Ci+−1)|n<k<m,1(N−+ 1)} (1) なお、同一のエントリが複数回抽出された場合、重複す
るエントリは一つにまとめる。文字成分表の一例とし
て、n=1,m=2、基本エントリのみから構成され、
エントリ決定関数がf(x)=94*(x/25
6−33)+x%256−33、f(x,x
=64*(x%64)+x%64+7896である
場合を示す。エントリ決定関数では、文字コードはJI
Sコード、演算は整数の範囲で行ない、“/”は商、
“%”は余りを計算する。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0016
【補正方法】変更
【補正内容】
【0016】文字成分表の構成によっては、文字列から
抽出されるp次のあるエントリがq(q<p)次の別の
エントリの存在を確実に示す場合がある。このような、
高次のエントリによって存在が保障される「冗長エント
リ」とよぶ低次のエントリは、検索結果の決定に有効
な働きをしない。一方、文字成分表により検索では、ア
クセスするエントリ数は少ないほど検索は高速化され
る。したがって、検索時にはこの冗長エントリは用いな
い。冗長エントリの例を示すと、文字成分表の構成にお
いて、隣接文字エントリの決定にf′(x,x
=7896*f(x)+f(x)+7896と
いう関数を用いた場合、二文字組とエントリ番号は一対
一対応が成立する。したがって、隣接文字エントリが与
えられれば、その構成文字に対応する単一文字エントリ
が抽出されることが保障される。例えば、f′(デ,
ジ)に対し、f(デ)とf(ジ)は冗長エントリに
なる。一方、f(デ,ジ)に対し、f(デ) とf
(ジ)は冗長エントリにならない。これはf(デ,
ジ)=8400であるが、「デジ」以外にも8400と
なる二文字組(例えば「デに」「ペジ」)があるため、
(デ)とf(ジ)の存在が保障されないからであ
る。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 登録文書を保存するとともに、該文書に
    含まれる1文字以上の文字列から決定されるエントリ文
    字成分の出現を文書ごとに抽出した結果を、文字成分表
    というテーブルに登録し記録する文書登録手段と、前記
    文字成分表を用いて検索条件に該当する文書を高速に捜
    し出す文書検索手段を有する文書管理装置において、前
    記エントリとしてn(n1)文字以上m(mn)文
    字以下の文字列から決定される文字成分(「基本エント
    リ」と呼ぶ)を用いることを特徴とする文書管理装置。
  2. 【請求項2】 前記文書検索手段において、検索条件を
    なす文字列から抽出された複数のエントリとして他のエ
    ントリによって存在が保障される別のエントリ(「冗長
    エントリ」と呼ぶ)を用いないことを特徴とする請求項
    1記載の文書管理装置。
  3. 【請求項3】 前記文字成分表において、m+1文字以
    上の辞書(「拡張エントリ辞書」と呼ぶ)に登録された
    文字列から決定されるエントリ(「拡張エントリ」と呼
    ぶ)を基本エントリとともに用いることを特徴とする請
    求項1記載の文書管理装置。
  4. 【請求項4】 前記文書検索手段において、検索条件を
    なす文字列から抽出された複数のエントリとして他のエ
    ントリによって存在が保障される別の冗長エントリを用
    いないことを特徴とする請求項3記載の文書管理装置。
  5. 【請求項5】 前記拡張エントリ辞書において、調査対
    象における文字列の使用頻度を計数し、その計数結果に
    基づいて決定した文字列によって構成される拡張エント
    リ辞書を用いることを特徴とする請求項3記載の文書管
    理装置。
  6. 【請求項6】 前記拡張エントリ辞書のための文字列の
    使用頻度計数において、調査対象中に存在するm+1以
    上p(pm+1)以下の長さの全ての文字列の頻度
    を、部分的に重複するものも含めて数えることを特徴と
    する請求項5記載の文書管理装置。
  7. 【請求項7】 前記拡張エントリ辞書のための文字列の
    使用頻度計数において、調査対象中に存在する同一文字
    種から構成されるm+1以上p(pm+1)以下の長
    さの全ての文字列の頻度を、部分的に重複するものも含
    めて数えることを特徴とする請求項5記載の文書管理装
    置。
  8. 【請求項8】 前記拡張エントリ辞書のための文字列の
    使用頻度計数において、調査対象を単語に分割し、m+
    1以上p(pm+1)以下の長さの全ての単語の頻度
    を数えることを特徴とする請求項5記載の文書管理装
    置。
  9. 【請求項9】 前記拡張エントリ辞書のための文字列の
    使用頻度計数において、調査対象を単語に分割し、m+
    1以上p(pm+1)以下の長さの全ての単語の頻度
    を数え、頻度が1以上の全て文字列について、その文字
    列が他文字列に包含される場合、後者の頻度を前者の頻
    度に加算することを特徴とする請求項5記載の文書管理
    装置。
  10. 【請求項10】 前記拡張エントリ辞書のための文字列
    の決定において、頻度の大きい順に並び替えた文字列の
    上位D個選択することを特徴とする請求項5記載の文書
    管理装置。
  11. 【請求項11】 前記拡張エントリ辞書のための文字列
    の決定において、頻度と、文字列長あるいはそれから算
    出される値との積の大きい順に並び替えた文字列の上位
    D個選択することを特徴とする請求項5記載の文書管理
    装置。
JP7133865A 1995-05-31 1995-05-31 文書管理装置 Pending JPH08329104A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7133865A JPH08329104A (ja) 1995-05-31 1995-05-31 文書管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7133865A JPH08329104A (ja) 1995-05-31 1995-05-31 文書管理装置

Publications (1)

Publication Number Publication Date
JPH08329104A true JPH08329104A (ja) 1996-12-13

Family

ID=15114865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7133865A Pending JPH08329104A (ja) 1995-05-31 1995-05-31 文書管理装置

Country Status (1)

Country Link
JP (1) JPH08329104A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324722A (ja) * 1992-03-24 1993-12-07 Ricoh Co Ltd 文書検索方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324722A (ja) * 1992-03-24 1993-12-07 Ricoh Co Ltd 文書検索方式

Similar Documents

Publication Publication Date Title
JP5255766B2 (ja) 対話形サーチクエリー改良のためのシステム及び方法
JP2012533819A (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
JPH09288676A (ja) 全文インデックス作成装置および全文データベース検索装置
JPH0628403A (ja) 文書検索装置
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JPH0944523A (ja) 関連語提示装置
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
JPH0773197A (ja) 異表記語辞書作成支援装置
JP3558267B2 (ja) 文書検索装置
JPH08329104A (ja) 文書管理装置
JPH06348757A (ja) 文書検索装置および方法
JPH08190571A (ja) 文書検索方法
JPH0773187A (ja) 検索システム
JP2006073035A (ja) 電子化文書検索システム、検索装置、および記録媒体
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JP2003288366A (ja) 類似テキスト検索装置
JPH0750486B2 (ja) キ−ワ−ド抽出装置
Neufeld et al. Machine-aided title word indexing for a weekly current awareness publication
JPH09212523A (ja) 全文検索方法
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPH10149367A (ja) テキスト蓄積検索装置
KR20070072929A (ko) 데이터 처리 시스템 및 방법
JP2006178865A (ja) 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体
CN113918684A (zh) 一种信息搜索方法、装置及设备
JP2002032411A (ja) 関連文書検索方法および装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040622

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040816

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050201