JP3644765B2 - 文書管理方式および文書管理方法 - Google Patents

文書管理方式および文書管理方法 Download PDF

Info

Publication number
JP3644765B2
JP3644765B2 JP19054496A JP19054496A JP3644765B2 JP 3644765 B2 JP3644765 B2 JP 3644765B2 JP 19054496 A JP19054496 A JP 19054496A JP 19054496 A JP19054496 A JP 19054496A JP 3644765 B2 JP3644765 B2 JP 3644765B2
Authority
JP
Japan
Prior art keywords
document
data
search
character
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19054496A
Other languages
English (en)
Other versions
JPH1040256A (ja
Inventor
雅二郎 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP19054496A priority Critical patent/JP3644765B2/ja
Publication of JPH1040256A publication Critical patent/JPH1040256A/ja
Application granted granted Critical
Publication of JP3644765B2 publication Critical patent/JP3644765B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書管理方式および文書管理方法に係わり、特に、文字成分表を利用して全文書に対して文字列を検索する装置に関するものである。
【0002】
【従来の技術】
従来の文書管理方式では、文書管理部を一体化しており、そのため、システムで規定する文書IDのみしか利用できない。したがって、既存の文書管理部を持つアプリケーションと組み合わせる場合に文書データを二重に管理したり、文書IDを統一したりしなければならない。また、実際の文書検索を行う場面では、必ずしも文書全体を検索対象とせず、文書内の特定の領域のみに対して検索要求があるが、このような要求に対応できない。
【0003】
【発明が解決しようとする課題】
上述のように、従来の方法では様々なデータ形態を持つ文書データ及び文書IDに容易に対応ができない。また従来の方法では文書中の一部の領域及び複数の領域を対象に検索することができない。
【0004】
【課題を解決するための手段】
請求項1の発明は、指定された検索文字列を含む文書を検索し、その検索結果を出力する文書検索ライブラリを構成する文書管理方式であって、指定された文書IDに対する文書データを取得する文書取得関数と、動的に渡された前記文書取得関数を用いて、指定された文書IDに対する文書データを取得し、該取得した文書データより各文字コード成分及び2文字以上の隣接文字からビット列成分を算出し、各文書がそれぞれの成分を含むか否かを示す単一文字成分表及び一つ以上の隣接文字成分表を生成して、インデックスデータ部へ登録する登録処理部と、指定された検索語を前記登録処理と同様に文字成分に分解し、前記インデックスデータ部に登録された文字成分表を用いて文書を検索し、当該検索結果の文書を出力する検索処理部とを有し、前記登録処理部は、動的に渡された前記文書取得関数を通して文書IDに対応する文書データを取得するようにして、本文書管理方式の文書検索部分と前記文書データを保持管理する部分とを分離し、多様なアプリケーションに対応可能としたことを特徴としたものである。
【0005】
請求項2の発明は、請求項1の発明において、前記登録処理部は、前記指定された文書IDをバイナリ列で表し、当該登録処理部内では該文書IDの代わりに内部文書IDで管理するようにし、該内部文書IDと前記バイナリ列とを対応付けて保持する文書IDテーブルを有することで、アプリケーション依存する多様な文書IDに対応可能としたことを特徴としたものである。
【0006】
請求項3の発明は、指定された検索文字列を含む文書を検索し、その検索結果を出力する文書検索ライブラリを用いる文書管理方法であって、指定された文書IDに対する文書データを取得する文書取得関数を用意し、文書を登録する際には、動的に渡された前記文書取得関数を用いて、指定された文書IDに対する文書データを取得し、該取得した文書データより各文字コード成分及び2文字以上の隣接文字からビット列成分を算出し、各文書がそれぞれの成分を含むか否かを示す単一文字成分表及び一つ以上の隣接文字成分表を生成して、インデックスデータ部へ登録し、指定された検索語を前記文書の登録と同様に文字成分に分解し、前記インデックスデータ部に登録された文字成分表を用いて文書を検索し、当該検索結果の文書を出力するようにして、本文書管理方法の文書検索部分と前記文書データを保持管理する部分とを分離し、多様なアプリケーションに対応可能としたことを特徴としたものである。
【0007】
請求項4の発明は、請求項3の発明において、前記登録処理を行うときには、前記指定された文書IDをバイナリ列で表し、当該登録処理部内では該文書IDの代わりに内部文書IDで管理するようにし、該内部文書IDと前記バイナリ列とを対応付けて文書IDテーブルに保持することによって、アプリケーション依存する多様な文書IDに対応可能としたことを特徴としたものである。
【0008】
【発明の実施の形態】
図1は、本発明による文書管理方式が適用される一実施例を説明するための構成図で、図中、1は入力部、2は出力部、3は登録処理部、4は検索処理部、5は外部文書管理部、6はインデックスデータ部、7は文書データ部である。本文書管理方式は、図1のうち、登録処理部3、検索処理部4、インデックスデータ部6から構成される。
【0009】
文書登録時には、入力部1に入力された文書IDを登録処理部3において外部文書管理部5を介して文書データ部7から文書データを取得し該文書データに内部文書IDを付加し、該文書データから文字成分を抽出し、インデックスデータ部6に内部文書IDに対応させて文字成分を登録するとともに、文書IDテーブル6に文書IDを内部文書IDと対応付けて登録する。
【0010】
文書検索時には、検索処理部4はインデックスデータ部6の文字成分表6により、入力部1に入力された検索文字列を含む文書を検索し、文書IDテーブル6から文書IDを得て、出力部2は文書データ部7から文書管理部5を介して文書IDに対応する文書データを取得し出力する。
【0011】
以下の説明では対象文書は1バイト文字コード(例えば、ASCII)及び2バイト文字コード(EUC:Extended UNIX CODE)からなるテキストデータとする。しかし、対象とする文字コードはEUC以外にも容易に適用可能である。
【0012】
「登録処理」
文書をデータ部に登録する時には、単一文字成分及び隣接文字分を抽出し、文字成分表を作成する。単一文字成分は各内部文字コードの2バイトコードとし、隣接文字成分は隣接する2文字以上の内部文字コードから変換したコードである。この実施例では内部文字コードのビット成分を適当に抽出したビット列を隣接文字成分とする。上記方法で得られた文字成分及び隣接文字成分に対して、それぞれ単一文字成分表(図2)及び隣接文字成分表(図3)を生成する。図3では隣接する文字の下位1バイトを合わせて2バイトとしている。各文字成分表は、各単一文字成分または隣接文字成分が各文書に存在するか否かを0と1で示す。図3の隣接文字成分表を例とすると、a0a0(16進数)のビット列は文書1,2,3,nには存在せず、文書4,5には存在することを意味する。文書登録時に上記方法により文書から文字成分を抽出し各文字成分テーブルに加える。
【0013】
「検索処理」
検索時には指定された検索語を上記登録時と同様に単一成分及び隣接文字成分を抽出し上記単一文字成分表(図2)及び隣接文字成分表(図3)において抽出した成分に対応する0,1(存在を意味する)からなるビット列を得てandをとることによって各成分が存在する文書を得る。この文書集合が指定された検索語を含む文書として出力される。なお、文字成分表のみによる検索では誤検索を含む場合もあるので、必要に応じて文書データをサーチして誤検索を除去する後処理を行う。
【0014】
字成分表によるインデックス自体には登録時に文書データを保持する機能を持っていないので、実際に何らかのアプリケーションを構築する場合には文書を管理する部分(文書管理部)が必要となる。一つの方法として、検索のために必要なインデックス(文字成分表及び文書IDテーブルなど)の管理部分と文書管理部を一つのモジュールとして密に作り上げることが考えられる。この場合、文書管理部で要求する仕様とは異なる文書を管理できないという欠点が生ずる。また、既に文書管理機能を持ったアプリケーションの場合には重複して文書データを持つことにもなりかねない。そこで、文書管理部を独立し、かつ、外部の文書管理部と容易に結合できるような方式を提案する。
【0015】
登録処理部3や検索処理部4はインデックスデータ部6で管理されているIDに対応する文書データが必要になる場合がある。例えば、本文書管理方式において文字成分表のみの検索では検索結果に誤検索が含まれる場合がある。そこで、最終的に文書データをサーチして誤検索を除く必要がある。この時に、文書データが必要になる。外部の文書管理部は本文書管理方式が指定する呼び出しフォーマットに従って指定されたテキストIDに対応する文書データを返す関数を予め用意する。アプリケーションが本文書管理方式を起動する時(後述のフォルダのオープン時)にこの関数ポインタを渡すことによって動的に本文書管理方式は外部の文書管理部5と結合しデータのやりとりを行うことが可能となる。
【0016】
記のように構成することで文書管理部を独立し、かつ、実行時に動的に結合することが可能である。ただし、外部の文書管理部が本インデックスデータ部6と同じフォーマットの文書IDを有するとは限らない。例えば、インデックスデータ部6はlong形式(4バイトのバイナリ)で管理しているにも関わらず、外部の文書管理部が文字列を文書IDとしている可能性もある。この場合には、外部の文書管理部に合わせてインデックスデータの文書IDの管理部分を変更する必要が生じる。そこで、ユーザの文書IDに依存せず、かつ、ユーザが指定した文書IDにより文書IDを管理できる方式を提案する。
【0017】
ユーザは文書インデックスを生成する時点で外部の文書管理部5で使用している文書ID(今後ユーザ文書IDと呼ぶ)のバイト長を指定する。与えられたバイト長の内容については例えば文字列の場合や、構造体の場合も考えられるが、本文書管理方式では、その中身には関知せず、単にバイナリ列として管理する。インデックスデータはバイナリ列として図4aのような配列を生成し、インデックスデータ部6の内部で管理している文書ID(内部文書ID)とを対応付ける。
【0018】
文書検索や削除などの操作によって、ユーザ文書IDから内部文書IDを取り出す場合と、内部文書IDからユーザ文書IDを取り出す場合がある。内部文書IDからは前述の文書IDテーブル によって容易に外部文書IDを取り出すことができる。例えば、図4の例では内部文書IDが3の時には配列の3番目の内容の「X2」がユーザ文書IDとなる。しかし、ユーザ文書IDから内部文書IDを取得する場合、テーブル上でユーザ文書IDが意味のある順で並べられていないので、このテーブルからは高速に内部文書IDを取得することができない。そこで、例えば図4bのようなユーザ文書IDでソートされた逆テーブルを用意することでユーザ文書IDからも内部文書IDを容易に取得することが可能である。
【0019】
来技術では、与えられた文書の全体が検索の対象となり、文書内の一部の検索は不可能であった。そこで、文書内の複数の領域又は全体を検索対象とし、各領域(今後エリアと呼ぶ)ごとにインデックスを生成することで各エリア単位に検索することを可能とする。
ユーザは本文書管理方式により文書管理する場合に最初に文書を仮想的に格納する(実際に文書を管理する部分は外部の文書管理部である)場所(今後フォルダと呼ぶ)を生成する(図5)。次にテキストの検索対象とする領域エリアを生成する。生成時にはそれぞれのエリア毎にそれぞれ文字成分表が生成される。図5の場合には3つのエリアを生成したことになる。
【0020】
文書の登録時の処理を以下に示す。
1.フォルダをオープンする。この時に文書データ取得関数を指定する。
2.ユーザは登録する文書IDを指定する。
3.本管理装置では文書データを管理していないので既にフォルダをオープンする時に与えられている文書データ取得関数によって与えられた文書IDの文書データを取得する。
4.生成されているすべてのエリア単位の文字成分表に取得した文書データを登録する。
5.フォルダをクローズする。
文書検索時にはユーザが指定したエリアについてそのエリアに対応する文字成分表より検索結果を得る。
【0021】
記のようにユーザはエリア単位に検索を行うことができ、さらに、ユーザはエリア毎の検索結果集合の論理演算を行うことができる。例えば「Area1」,「Area2」,「Area3」の3つのエリアがある場合に、ユーザは以下のようにエリアの検索結果集合の論理演算を指定することができる。
Area1&(Area2|Area3)
上記式では&はand演算、|はor演算を示し、Area2とArea3の検索結果集合の論理和を取り、さらにArea1の検索結果集合論理積をとることを意味する。
例えばArea1の検索結果の文書ID集合が{1,5,7,10}、Area2の検索結果が{2,3,4}、Area3の検索結果が{3,4,5,7}の場合、演算結果は{5,7}となる。
【0022】
【発明の効果】
本発明によれば、アプリケーションにより様々なデータ形式をもつ文書データを分離して管理することが可能となり、多様なアプリケーションに対応することが可能となる。
【0023】
また、アプリケーション依存する多様な文書IDに対応することが可能とる。
【0024】
また、文書中の一部の領域及び複数の領域を対象に検索することが可能となる。
【図面の簡単な説明】
【図1】 本発明による文書管理方式が適用される一実施例を説明するための構成図である。
【図2】 単一文字成分表の例を示す図である。
【図3】 隣接文字成分表の例を示す図である。
【図4】 内部文書IDとユーザ文書IDの関係を示す図である。
【図5】 フォルダの一例を示す図である。
【符号の説明】
1…入力部、2…出力部、3…登録処理部、4…検索処理部、5…外部文書管理部、6…インデックスデータ部、7…文書データ部。

Claims (4)

  1. 指定された検索文字列を含む文書を検索し、その検索結果を出力する文書検索ライブラリを構成する文書管理方式であって、指定された文書IDに対する文書データを取得する文書取得関数と、動的に渡された前記文書取得関数を用いて、指定された文書IDに対する文書データを取得し、該取得した文書データより各文字コード成分及び2文字以上の隣接文字からビット列成分を算出し、各文書がそれぞれの成分を含むか否かを示す単一文字成分表及び一つ以上の隣接文字成分表を生成して、インデックスデータ部へ登録する登録処理部と、指定された検索語を前記登録処理と同様に文字成分に分解し、前記インデックスデータ部に登録された文字成分表を用いて文書を検索し、当該検索結果の文書を出力する検索処理部とを有し、前記登録処理部は、動的に渡された前記文書取得関数を通して文書IDに対応する文書データを取得するようにして、本文書管理方式の文書検索部分と前記文書データを保持管理する部分とを分離し、多様なアプリケーションに対応可能としたことを特徴とする文書管理方式。
  2. 請求項1記載の文書管理方式において、前記登録処理部は、前記指定された文書IDをバイナリ列で表し、当該登録処理部内では該文書IDの代わりに内部文書IDで管理するようにし、該内部文書IDと前記バイナリ列とを対応付けて保持する文書IDテーブルを有することで、アプリケーション依存する多様な文書IDに対応可能としたことを特徴とする文書管理方式。
  3. 指定された検索文字列を含む文書を検索し、その検索結果を出力する文書検索ライブラリを用いる文書管理方法であって、指定された文書IDに対する文書データを取得する文書取得関数を用意し、文書を登録する際には、動的に渡された前記文書取得関数を用いて、指定された文書IDに対する文書データを取得し、該取得した文書データより各文字コード成分及び2文字以上の隣接文字からビット列成分を算出し、各文書がそれぞれの成分を含むか否かを示す単一文字成分表及び一つ以上の隣接文字成分表を生成して、インデックスデータ部へ登録し、指定された検索語を前記文書の登録と同様に文字成分に分解し、前記インデックスデータ部に登録された文字成分表を用いて文書を検索し、当該検索結果の文書を出力するようにして、本文書管理方法の文書検索部分と前記文書データを保持管理する部分とを分離し、多様なアプリケーションに対応可能としたことを特徴とする文書管理方
  4. 請求項3記載の文書管理方において、前記登録処理を行うときには、前記指定された文書IDをバイナリ列で表し、当該登録処理部内では該文書IDの代わりに内部文書IDで管理するようにし、該内部文書IDと前記バイナリ列とを対応付けて文書IDテーブルに保持することによって、アプリケーション依存する多様な文書IDに対応可能としたことを特徴とする文書管理方
JP19054496A 1996-07-19 1996-07-19 文書管理方式および文書管理方法 Expired - Fee Related JP3644765B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19054496A JP3644765B2 (ja) 1996-07-19 1996-07-19 文書管理方式および文書管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19054496A JP3644765B2 (ja) 1996-07-19 1996-07-19 文書管理方式および文書管理方法

Publications (2)

Publication Number Publication Date
JPH1040256A JPH1040256A (ja) 1998-02-13
JP3644765B2 true JP3644765B2 (ja) 2005-05-11

Family

ID=16259855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19054496A Expired - Fee Related JP3644765B2 (ja) 1996-07-19 1996-07-19 文書管理方式および文書管理方法

Country Status (1)

Country Link
JP (1) JP3644765B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3333549B2 (ja) * 1992-03-24 2002-10-15 株式会社リコー 文書検索方式
JPH06290217A (ja) * 1993-03-31 1994-10-18 Ricoh Co Ltd 文書検索方式
JP3325677B2 (ja) * 1993-11-29 2002-09-17 株式会社リコー 文書検索装置
JP3563823B2 (ja) * 1994-06-02 2004-09-08 株式会社リコー 文書管理装置

Also Published As

Publication number Publication date
JPH1040256A (ja) 1998-02-13

Similar Documents

Publication Publication Date Title
JP2000231563A (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH08241332A (ja) 全文登録語検索装置および方法
JP4247108B2 (ja) 構造化文書検索方法、構造化文書検索装置、及びプログラム
JP2986865B2 (ja) データ検索方法および装置
JPH08329116A (ja) 構造化文書検索方法
JP3644765B2 (ja) 文書管理方式および文書管理方法
JP2004220176A (ja) データベース検索システム、その検索方法及び検索に用いられるデータファイルの作成方法並びにデータファイルを格納した記録媒体
JP3647940B2 (ja) データ管理装置
JP2002149676A (ja) マークアップ言語文書変換装置および方法
JP2000163445A (ja) データベース管理システム
JPH05135102A (ja) 文書検索方式
JPH1153400A (ja) 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体
JPS60129873A (ja) 文書保管検索システム
JP2001318935A (ja) 情報処理装置及び方法、情報処理用ソフトウェアを記録した記録媒体並びにリレーショナルデータベース
JP2827658B2 (ja) 図形解析装置及び図形検索装置
JPH03137772A (ja) データベース利用システム
JP3384017B2 (ja) データ抽出システム
JPH10301940A (ja) 情報処理装置及びその方法
JPH01286020A (ja) プログラム検索方式
JPH05298368A (ja) 電子ファイリングシステムの検索語入力方法
JPH05158984A (ja) 文字列抽出装置
JP2842611B2 (ja) 候補文生成による自然文意味解析処理装置
JPH05225244A (ja) アラビア語データの検索方式
JPH1021246A (ja) 文書検索システム
JPS61267828A (ja) 情報登録検索装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040713

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050201

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080210

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110210

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120210

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130210

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130210

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees