JP2001109768A - データベースの索引創成装置 - Google Patents

データベースの索引創成装置

Info

Publication number
JP2001109768A
JP2001109768A JP28870099A JP28870099A JP2001109768A JP 2001109768 A JP2001109768 A JP 2001109768A JP 28870099 A JP28870099 A JP 28870099A JP 28870099 A JP28870099 A JP 28870099A JP 2001109768 A JP2001109768 A JP 2001109768A
Authority
JP
Japan
Prior art keywords
character string
data
index
keyword
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP28870099A
Other languages
English (en)
Other versions
JP3780772B2 (ja
Inventor
Takeshi Murayama
健 村山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP28870099A priority Critical patent/JP3780772B2/ja
Publication of JP2001109768A publication Critical patent/JP2001109768A/ja
Application granted granted Critical
Publication of JP3780772B2 publication Critical patent/JP3780772B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来データベースの索引創成に於いて、キー
ワード文字列に於ける後部の特定桁のみに文字種の散ら
ばりがある様な場合に、検索時に無駄な文字比較を行
い、処理能力の低下を招いていたという問題があった。 【解決手段】 マスタデータと索引から成るデータベー
スの索引創成に於いて、マスタデータのキーワード文字
列から、複数の文字種を含んだキーワード文字列の桁位
置を特定する桁特定手段と、前記特定された桁位置の文
字列データを順次キーワード文字列の先頭方向へ移動す
る移動手段と、前記移動により並び替えられた新規のキ
ーワード文字列と、マスタデータの各レコードに付番さ
れたレコード番号を対に、索引データとして記憶する索
引記憶手段とを備えることにより課題を解決する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はマスタデータと索引
から成るデータベースの索引(インデックス)を創成す
る技術に関する。
【0002】
【従来の技術】昨今の急速な情報通信技術の発展に伴
い、各分野に於いて取り扱うデータ量も急激な増加を示
しており、その量は膨大なものとなっている。
【0003】本発明は、この様な各分野に於いて急激に
膨れ上がっているデータを体系的に整理されたデータベ
ースから、特定の条件に合ったデータを如何に効率的に
検索・処理するかという課題に関するものである。
【0004】現在この様なデータベースの検索法とし
て、その検索の対象となる元のデータ群(これを以降マ
スタデータと称す)に対しキーワードに対する索引(イ
ンデックス)を設け、検索の高速化を図る方法が主流と
なっている。
【0005】この検索法を説明した一例が図5であり、
図5(1)がマスタデータと索引データから成るデータ
ベースを表しており、図5(2)がトランザクションの
検索キーワードを表している。
【0006】検索の手順としては、トランザクションの
検索キーワード(検索条件)が与えられると、先ず索引
データを所定の方法で検索し、一致した索引レコードの
レコード番号から所望のマスタレコードを突き止めるも
のである。
【0007】この場合の索引データの創成は、マスタデ
ータからキーワードとレコード番号を対に1対1の形式
で索引レコードを抽出し、キーワードの文字列を対象に
昇順又は降順にソーティング(並べ替え)することによ
り作成される。或いはマスタデータから抽出された索引
データを、キーワードをもとに所定のハッシュ関数によ
りグルーピングするハッシュ法により作成される。
【0008】また、この様な方法で作成された索引デー
タの検索には、逐次探索法(順探索法)や2分探索法な
どが使用されるが、これ等は本発明の目的とは直接関係
がないため説明を省略する。
【0009】図5に示した検索例では、マスタレコード
に於ける「a〜k」で表現された11文字列をキーワー
ドとしたもので、索引データの創成はこのキーワードに
対し前述の方法で作成されるが、ここではキーワードを
降順にソーティングしたものを例示している。
【0010】そして検索キーワードとして「平成11年
06月20日」が与えられると、前記逐次探索法を想定
した場合、先ず索引データの先頭のレコード(平成11
年12月20日に相当)から順に下方へ条件が一致する
まで比較・検索を進める。
【0011】この時の比較は、キーワードの各文字に付
番した「a」から「k」に向けて文字単位に行われる。
【0012】従って索引データの先頭から2レコードに
関しては「a」から始まり「f」まで比較した段階で不
一致と判り、当レコードの検索を中止し次のレコード検
索に移る。同様に先頭から3レコード目に関しては
「g」まで比較した段階で不一致と判り当レコードの検
索を中止し、次の4レコード目の比較で始めて「平成1
1年06月20日」が検索され、そのレコードのレコー
ド番号「1」からマスタデータ中のレコード番号「1」
のマスタレコードが検索される仕組みである。
【0013】
【発明が解決しようとする課題】従来はこの様に検索キ
ーワードが与えられた時、先ず索引データの先頭のレコ
ードから順に文字比較を行い、不一致になった時点で当
該レコードの検索を中止し次のレコード検索に移るた
め、キーワード文字列に於ける後部の特定桁のみに文字
種の散らばりがある様な場合には、無駄な文字比較(検
索キーワードと索引データの同一文字列の比較)を行っ
ているという問題があった。
【0014】本発明はこのような点にかんがみて、キー
ワード文字列の特性に応じたデータベースの索引を創成
し、検索の処理性能向上と索引記憶領域の削減を図る手
段を提供することを目的とする。
【0015】
【課題を解決するための手段】上記の課題は下記の如く
に構成されたデータベースの索引創成装置によって解決
される。即ち図1は、本発明の原理図であり、マスタデ
ータと索引から成るデータベースの索引創成装置であっ
て、マスタデータのキーワード文字列から、複数の文字
種を含んだキーワード文字列の桁位置を特定する桁特定
手段10と、前記特定された桁位置の文字列データを順
次キーワード文字列の先頭方向へ移動する移動手段11
或いは前記特定された桁位置の文字列データを順次キー
ワード文字列の先頭方向へ移動し、非特定桁位置の文字
列データを削除する削除移動手段11と、前記移動によ
り並び替えられた新規のキーワード文字列と、マスタデ
ータの各レコードに付番されたレコード番号を対に、索
引データとして記憶する索引記憶手段12とを備えるこ
とにより、データベースの索引創成に於けるキーワード
文字列の特性、即ち文字列の特定桁のみに文字種の散ら
ばりがある様な場合に、キーワードの文字種の散らばり
がある特定桁の文字列をキーワード文字列の先頭方向に
移動した索引データを作成することにより、検索時の文
字比較回数を減少させ検索の処理時間短縮を図ると共
に、キーワードを一意に決める特定桁の文字列のみを抽
出した索引データを作成することにより、索引データ格
納の記憶領域を削減することが出来る。
【0016】
【発明の実施の形態】図2及び図3は具体的な実施例と
して本発明を説明するためのものであり、データ内容は
従来技術の説明で使用したものと同一である。
【0017】即ち、マスタデータに於けるキーワード文
字列は「a」〜「k」で表現されており、本例では
「f」及び「g」の桁位置のデータが前記桁特定手段に
より複数の文字種を含んだキーワード文字列として特定
されることになる。この特定された桁位置をここでは特
定桁と呼んでいる。
【0018】「f」及び「g」の桁位置を特定し設定す
る方法として、人手により外部で特定し、これを例えば
キーボードなどから与える方法と、コンピュータ内部の
プログラムによりキーワード文字列の各桁について複数
の文字種を含んでいるか否かを判定し設定する方法とが
ある。
【0019】この様にキーワードの特定桁が設定される
と、図2に示す本例(1)の場合、特定桁「f」及び
「g」のデータ内容が順次キーワード文字列の先頭方向
に移動され、移動により作成された新規のキーワード文
字列とマスタレコードのレコード番号とを対に索引デー
タとして記憶装置に格納される。尚、この時非特定桁に
ついては特定桁移動分右シフトされキーワード文字列と
してその儘残される。
【0020】また、この様にして作成された索引データ
は例えば降順にソーティングされ、本例(1)に於いて
はレコード番号「4」の新規に作成されたキーワード文
字列「12平成11年月20日」を先頭に、レコード番
号「5」、レコード番号「2」、レコード番号「1」、
そしてレコード番号「3」の「04平成11年月20
日」の順に並び替えされる。
【0021】次に図3の本例(2)は、本例(1)の方
法に加え、索引データとしてキーワードとして一意に決
まる特定桁「f」及び「g」のデータ内容のみをレコー
ド番号と共に記憶装置に格納した例であり、非特定桁に
ついては記憶の対象外で削除されたものである。
【0022】この様に本例(1)又は本例(2)の様に
作成された索引データをもとにマスタデータから条件に
合ったレコードを検索する場合、例えば検索条件として
キーワード「平成11年06月20日」が与えられる
と、図示を省略しているが、索引データ毎に記憶され特
定桁を示す制御情報をもとに、これを「06平成11年
月20日」と読み替え、索引データが検索される。
【0023】本例(1)又は本例(2)の何れに於いて
も、検索キーワードの先頭文字「0」と索引(データ)
レコードの先頭文字「f」が一致するまで索引データを
順次検索するが、索引データの最初の2レコードに関し
ては「f」が「1」で不一致であることによりその時点
で当該レコードの後ろの文字列に対する比較を打ち切
り、次のレコードの検索に移される。
【0024】そして索引データの3レコード目の「0」
で始めて一致したことにより、同様にして検索キーワー
ドの次の文字「6」と索引レコードの「g」が一致する
まで索引データを検索する。本例の場合3レコード目は
「8」で不一致であり、4レコード目で始めて一致する
ことにより検索を終了し、その4レコード目のレコード
番号「1」からマスタデータ中のレコード番号「1」の
マスタレコードが検索されるものである。
【0025】この様に図2及び図3による本発明の索引
データ作成の実施例及びこれを使用した検索の処理手順
から明らかな様に、本例いずれの場合に於いても、キー
ワード文字列の殆ど全桁に及んで特定桁である様な各桁
とも文字種が散らばっている様な場合には本発明による
効果はあまり期待出来ないが、キーワード文字列の桁数
に対し特定桁数が少なく、しかもその特定桁のキーワー
ド中の桁位置が後方に存在する様な場合には顕著な効果
が現れる。
【0026】従って特定桁の検出後に当該索引データの
作成方法を適用するか否か前記の事柄を考慮して何らか
の閾値を設定し運用することが必要である。即ち、キー
ワード文字列全体の桁数に対する特定桁の割合及び特定
桁のキーワード文字列内に於ける桁位置が後半に存在す
るなどの適用ルールである。
【0027】次に図4をもとに、前述の実施例で説明し
た内容を踏まえ、本発明の索引データの作成手順を纏め
ておく。
【0028】先ずステップ40に於いて、キーワード文
字列内に於ける特定桁の桁位置をコンピュータ外部又は
内部で予め特定・設定しておき、次にステップ41に於
いてマスタデータから1レコードをメモリに読み込み、
ステップ42のマスタレコード終了の判定がYesにな
るまで以下の処理を繰り返す。
【0029】即ち、読み込んだレコードについて、索引
データ毎に記憶され特定桁を示す制御情報に基づき、特
定桁文字列をキーワードの先頭方向に順次移動し、移動
が全て終わったら当該マスタレコードのレコード番号を
所定桁に移動(ステップ43)した後、索引データ形式
のモード判定(ステップ44)、即ちモード1の場合に
は非特定桁のデータも含めて索引データとして書き出
し、モード2の場合には非特定桁のデータを削除(ステ
ップ45)し特定桁データのみを索引データとして書き
出して、ステップ46でこれを各々記憶装置へ格納した
後、次のレコード処理のためステップ41へ戻り、全て
のマスタレコードが無くなるまで当処理を繰り返すもの
である。
【0030】この様にして作成された本発明の索引創成
手段は従来の索引データからの検索に比べ前記の例によ
れば、「a」〜「e」の非特定桁に対する文字比較が省
略され比較回数が削減される結果、大幅な検索処理性能
の向上が図れる共に、索引データとして本例(2)の様
にキーワードとして一意に決まる特定桁のデータ内容の
みをレコード番号と共に記憶装置に格納する方法を採る
ことにより記憶領域の大幅な削減が可能となる。
【0031】尚、本発明に於けるコンピュータ処理は、
コンピュータプログラムにより当該コンピュータの主記
憶装置上で実行されるが、このコンピュータプログラム
の提供形態は、当該コンピュータに接続された補助記憶
装置をはじめ、フロッピー(登録商標)ディスクやCD
−ROM等の可搬型記憶装置やネットワーク接続された
他のコンピュータの主記憶装置及び補助記憶装置等の各
記録媒体に格納されて提供されるもので、このコンピュ
ータプログラムの実行に際しては、当該コンピュータの
主記憶装置上にローディングされ実行されるものであ
る。
【0032】
【発明の効果】以上の説明から明らかなように本発明に
よれば、データベースの索引創成に際し、キーワード文
字列の特定桁のみに文字種の散らばりがある様なキーワ
ード特性の場合に、検索の処理能力向上が図れると共に
索引データの格納効率が向上するという著しい工業的効
果がある。
【図面の簡単な説明】
【図1】 本発明の原理図
【図2】 本発明の索引データ作成例(1)
【図3】 本発明の索引データ作成例(2)
【図4】 本発明の索引データ作成手順
【図5】 従来の索引によるデータベース検索例
【符号の説明】
10 キーワードの桁特定手段 11 特定桁の移動手段又は削除移動手段 12 新規キーワードの索引記憶手段

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 マスタデータと索引から成るデータベー
    スの索引創成装置であって、 マスタデータのキーワード文字列から、複数の文字種を
    含んだキーワード文字列の桁位置を特定する桁特定手段
    と、 前記特定された桁位置の文字列データを順次キーワード
    文字列の先頭方向へ移動する移動手段と、 前記移動により並び替えられた新規のキーワード文字列
    と、マスタデータの各レコードに付番されたレコード番
    号を対に、索引データとして記憶する索引記憶手段と、
    を備えたことを特徴とするデータベースの索引創成装
    置。
  2. 【請求項2】 マスタデータと索引から成るデータベー
    スの索引創成装置であって、 マスタデータのキーワード文字列から、複数の文字種を
    含んだキーワード文字列の桁位置を特定する桁特定手段
    と、 前記特定された桁位置の文字列データを順次キーワード
    文字列の先頭方向へ移動し、非特定桁位置の文字列デー
    タを削除する削除移動手段と、 前記特定された桁位置の文字列データのみ新規のキーワ
    ード文字列として、マスタデータの各レコードに付番さ
    れたレコード番号と対に、索引データとして記憶する索
    引記憶手段と、を備えたことを特徴とするデータベース
    の索引創成装置。
  3. 【請求項3】 複数の文字種を含んだキーワード文字列
    の桁位置を外部から入力又はコンピュータ内部で判定し
    特定することを特徴とする請求項1又は請求項2記載の
    データベースの索引創成装置。
  4. 【請求項4】 マスタデータと索引から成るデータベー
    スの索引をコンピュータに創成させるプログラムを記録
    した記録媒体であって、 マスタデータのキーワード文字列から、複数の文字種を
    含んだキーワード文字列の桁位置を特定する桁特定手段
    と、 前記特定された桁位置の文字列データを順次キーワード
    文字列の先頭方向へ移動する移動手段と、 前記移動により並び替えられた新規のキーワード文字列
    と、マスタデータの各レコードに付番されたレコード番
    号を対に、索引データとして記憶させる索引記憶手段
    と、を実現させることを特徴とするプログラムを記録し
    たコンピュータ読み取り可能な記録媒体。
JP28870099A 1999-10-08 1999-10-08 データベースの索引創成装置 Expired - Fee Related JP3780772B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28870099A JP3780772B2 (ja) 1999-10-08 1999-10-08 データベースの索引創成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28870099A JP3780772B2 (ja) 1999-10-08 1999-10-08 データベースの索引創成装置

Publications (2)

Publication Number Publication Date
JP2001109768A true JP2001109768A (ja) 2001-04-20
JP3780772B2 JP3780772B2 (ja) 2006-05-31

Family

ID=17733568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28870099A Expired - Fee Related JP3780772B2 (ja) 1999-10-08 1999-10-08 データベースの索引創成装置

Country Status (1)

Country Link
JP (1) JP3780772B2 (ja)

Also Published As

Publication number Publication date
JP3780772B2 (ja) 2006-05-31

Similar Documents

Publication Publication Date Title
CN1552032B (zh) 数据库
US20050027513A1 (en) Symbol dictionary compiling method and symbol dictionary retrieving method
KR100597513B1 (ko) 파일 처리 방법, 데이터 처리 장치 및 기억 매체
JPH04227550A (ja) データ処理装置
JP3452531B2 (ja) データ・マイニングする方法およびシステム
CN112231321B (zh) 一种Oracle二级索引及索引实时同步方法
CN105404677A (zh) 一种基于树形结构的检索方法
US7039646B2 (en) Method and system for compressing varying-length columns during index high key generation
CN105426490A (zh) 一种基于树形结构的索引方法
JP2925042B2 (ja) 情報リンク生成方法
JP2001109768A (ja) データベースの索引創成装置
JP3649472B2 (ja) 情報検索装置
KR101299555B1 (ko) 해시 함수 기반의 인덱스를 이용한 텍스트 검색 장치 및 방법
JPH04340163A (ja) キーワード検索方式
JP2000090091A5 (ja)
JP2002140218A (ja) データ処理方法、コンピュータ読み取り可能な記録媒体及びデータ処理装置
KR102593884B1 (ko) 문서 자동 작성 시스템 및 방법, 컴퓨터로 독출 가능한 기록 매체
JPH09305611A (ja) データベースの検索装置
JP2003122794A (ja) 全文検索装置、全文検索方法、プログラム、及び記録媒体
JPH0589174A (ja) 辞書検索方法
JP2669241B2 (ja) マイグレーション処理方式
JP2002197099A (ja) データベースの処理方法
JPH08115336A (ja) マルチメディア処理装置
JPH04156624A (ja) 知識ベースシステムにおける高速アクセス方式
JPH11306183A (ja) データベース検索システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051004

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060227

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100317

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100317

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110317

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110317

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120317

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130317

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130317

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140317

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees