JPH04175844A - 文章データ索引生成方式 - Google Patents

文章データ索引生成方式

Info

Publication number
JPH04175844A
JPH04175844A JP2298353A JP29835390A JPH04175844A JP H04175844 A JPH04175844 A JP H04175844A JP 2298353 A JP2298353 A JP 2298353A JP 29835390 A JP29835390 A JP 29835390A JP H04175844 A JPH04175844 A JP H04175844A
Authority
JP
Japan
Prior art keywords
text data
keyword
index
text
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2298353A
Other languages
English (en)
Inventor
Kenichi Nanri
南里 賢一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HOKKAIDO NIPPON DENKI SOFTWARE KK
NEC Solution Innovators Ltd
Original Assignee
HOKKAIDO NIPPON DENKI SOFTWARE KK
NEC Software Hokkaido Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HOKKAIDO NIPPON DENKI SOFTWARE KK, NEC Software Hokkaido Ltd filed Critical HOKKAIDO NIPPON DENKI SOFTWARE KK
Priority to JP2298353A priority Critical patent/JPH04175844A/ja
Publication of JPH04175844A publication Critical patent/JPH04175844A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文章データ索引生成方式に関し、特に文章デー
タベースに対して文章データを検索する索引を生成する
文章データ索引生成方式に関する。
〔従来の技術〕
従来の文章データ索引生成方式は、文章データベース中
の文章データを語あるいは文章の一部からなるキーワー
ドで検索する手段として、(1)キーワー・ド別フィー
ルド方式 利用者が文章データ中からキーワードとしたい語を文章
データ中の別フィールド′として登録する。
これによって、この別フィー/1Fを参照−i itば
、キーワードによる検索が可能で゛あるか、ヌ章データ
中のどこにあるのかを管理12でいないので、文章デー
タの更新時の保守か大変である。
また、1つの文章に設定できるキーワ〜用・′の数も制
限される。
(2)キーワード索引登録方式 前方式(1)で、文章データ中の別フィールドに登録し
ていたのを、索引ファイルとして登録する。
これによって、検索時に、索引を参照することにより、
望む文章データが分かるが、依然として、文章データ中
のどこにキーワードが存在しているのかが分からない。
(3)  フリーワード方式 文章データ中を、指定されたワードで、文章データの最
初から最後まで探す。
前の二つの方式(1)、 (2)に比べて、キーワード
の保守が不要となるが、すべての文章データの最初から
最後まで、文字列の検索を行うために、性能面で問題が
ある。
(4)  ワード自動抽出方式 あらかじめ設定した区切り記号やセパレータで1文章デ
ータをワードに分割して、分割された語のすべてを、キ
ーワードとして、索引ファイルに登録する。
利用者は、キーワードを意識する必要はないが、登録さ
れるワードが膨大な数となる。
また、区切り記号やセパレータにまyがった文章データ
中の文章の一部を、キーワードとすることかできない。
以上記したように、従来の文章データ索引生成方式は、
文章データ中の語あるいは文章の一部を自由にキーワー
ドとして設定することができない。
逆に、文章データベースに要求されるのは、文章データ
中の任意の範囲の文字列をキーワードとして設定できる
ことである。
〔発明が解決しようとする課題〕
従来の文章データ索引生成方式は、キーワードの設定に
おいて、文章データの別フィールドにキーワードを登録
するために、一つの文章データに登録できるキーワード
の数が制限されたり、文章データの先頭から最後まで指
定されたキーワードが存在するかどうかを検索するため
に、検索に時間がかかったり、区切り記号で語に分割さ
れたすべての語をキーワーFとするために、不必要なも
のまで、キーワードとして登録し、たりして、文章の一
部を任意にキーワードとして設定できないという欠点を
有している。
本発明の目的は、文章データ中の任意の範囲の語をいく
つでも、キーワードとして登録して、そのキーワードを
索引とすることにより性能向」を計るとともに、語に留
まらず文章データ中の一部の文章も、キーワードとして
登録することができる文章データ索引生成方式を提供す
ることにある。
〔課題を解決するための手段〕
本発明の文章データ索引生成方式は、文章データベース
が、文章データの集まりである文章データファイルと、
索引の集まりから作られた索引ファイルとを自するとJ
lもに、 文章データを入力する文章データ入力装置と、v1j記
友章テータ入力装置から入力された文章子−タを読み込
む文章データ入力手段と、前記文章フーータ人力手段で
読み込まれた文章データを、前記文章データベースの前
記文章ブータフアイルの形式に変換するチータレコード
変換手段と、η1」記チータレコート変換手段で作られ
たチータレ′コートを、前記文章データー\〜スの前記
文章チータフアイルに書き込むデータレコード出力手段
とをイタするデータベースシステムの文章データ索引生
成力式において、 文章データ中の文字列を索引とするために、索引となる
文字列の範囲の設定の入力を要求するキーワード設定入
力要求手段と、 1J記キ一ワード設定入力要求手段に対して、キーワー
ドの開始位置および終了位置を入力するキーワード設定
入力装置と、 前記キーワード設定入力装置より通知されたキーワード
の開始位置および終r位置を入力するキーワード設定開
始位置入力手段およびキー ・フード設定路r位置入力
手段と、 nij記キーワード設定開始位首人力十段およびr]記
キーワード設定終路下百人力手段から受けたキーワード
の開始位置および終f位置iコ、、、′!′7、文章デ
ータからキーワ・〜トとなる文字列を取りW、十キーワ
ード取り出し手段と、 前記キーワード取り出し7手段で取り出した一N・−ワ
ードとなる文字列を、Ff記文章テデーの前記索引ファ
イルの形式に変換する索引レコード変換手段と、 前記索引レコード変換手段で作られた索引レコードを、
前記文章データベースの前記索引ファイルに書き込む索
引レコード出力手段と、を有して構成されている。
〔実施例〕
′ 次に、本発明の実施例について図面を参照して説明
する。
第1図は本発明の文章データ索引生成方式の一実施例を
示すブロック図である。
第1図は、本発明をプログラム処理のレベルで表し、て
おり、文章データベースlは、文章データのI/コード
からなる文章データファイル2と文章データのし・コー
ドの任意の語あるいは文章の一部を必要に応じて取り出
して格納する索引ファイル3とから構成されている。
そして、文章データファイル2の生成は、文章データ入
力装置4と、文章データを入力する文章データ入力手段
5と、入力した文章データを文章チータフアイル2の形
式に変換するデータし・コード変換手段6と、変換した
文章データレコードを文章チータフアイル2に書き込む
チータレコード出力手段7とにより行われる。
一方、索引ファイル3の生成は、キーワードの設定を要
求するキーワード設定入力要求手段8と、キーワードの
文章データ中の開始位置および終了位置を通知するキー
ワード設定入力装置9と、キーワードの文章データ中の
開始位置を入力するキーワード設定開始位置入力手段1
0と、その終了位置を入力するキーワード設定終了位置
入力手段11と、入力したキーワードの文章データ中の
開始位置および終了位置からキーワー トを取り出すキ
ーワード取り出し手段12と、取り出したキーワードを
索引ファイル3の形式に変換する索引レコード変換手段
13と、変換した索引レコードを索引ファイル3に書き
込む索引レコード出力手段14とにより行われる。
第2図は本実施例の動作を具体的に説明するための文章
データ201の一例を示す図である。また、第3図は本
実施例で生成する索引レコー 1の形式の一例を示す図
である。
第3図に示すように、索引レコード゛は、キーワー。
ド開始位置301.キーワー ド終J′位置302゜キ
ーワード値303.対応する文章データの文章チータフ
アイル2内のアドレス304を有している。
最初に、文章データ201内の“コンピュータ″202
という語をキーワードとする場合を想定する。
文章データ入力装置4より入力された文章テ−タ201
を、文章テーク入力手段5で読入込んで、−γ−タレコ
ード変換手段6て文章データヘース1の文章データファ
イル2の形式に変換t=て、テークI5・コード出力手
段7によって、文章72〜タフアイル2に書き込む。
第4図は本実施例で文章データから生成されるキー ワ
ードおよび索引レコードの一例を示す図である。
次に、キーワード設定入力要求手段8によって、キーワ
ードの設定を要求する。キーワードの設定の要求に対し
で、キーワード設定入力装置9より、キーワードの開始
位置を、第4図に示すように、キーワードとして設定す
る語の最初の文字“コ”の位置401に位置付ける。次
に、キーワードの終r位置を、語の最後の文字“夕”の
位置402に位置+Jける。こうして位置付けられたキ
ーワードの最初の位置401と最後の位置402とをキ
ーワード設定開始位置入力手段10とキーワー・ド設定
終了位置入力手段11とで受は取り、対応する範囲の文
字列403の“コンピュータ”をキー ワー ド取り出
し2手段12で取り出す。
そして、索引し・コード変換1段13によって、キーワ
ード取り出1,5手段12によっで取り出したキーワー
ドとなる文字列4.03を、索引レコー l・のキーワ
ー 1・値303として、キーワードの文章ケータ中の
開始位置40]、終J“位置402を索引レコードのキ
ーワード開始位置301 、キーワード゛終了位百30
2として、索引I/コード404コード出力手段14て
、文章テークベース1の索引ファイル3に書き込む。
キーワードが複数になるときには、キーワード設定入力
装置9で設定された開始位置および終了位置をキーワー
ド設定開始位置入力手段10とキーワード設定終了位置
入力手段11とで受は取り、指定された範囲の文字列を
キーワード取り出し手段12で取り日3して、索引レコ
ード変換手段13で索引ファイル3の形式に変換1−5
て、索引1・・コード出力手段】4で、索引ファイル3
に書き込む処理を繰り返す。
〔発明の効果〕
以上説明1.たまうに、本発明の文ff′ヲータ索引生
成力式は、文章ケータ中のキーワードを索引ツーイルの
索引レコードに格納し、その索引レコードに文章データ
内の開始位置と終J′位置とを合わせて保持することに
より、文章ケータ中の任意の語あるいは文章の一部をキ
ーワード”として設定することができるという効果を為
し、ている。
また、本発明の文章データ索引生成力式は、一つの文章
データ中にいくつものキーワードを容易に設定すること
ができるとともに、区切り記号などを意識することもな
く、キーワードを語たけではなく、文章にまで拡大する
ことができるという効果を有している。
【図面の簡単な説明】
第1図は本発明の文章データ索引生成方式の一実施例を
示すブロック図、第2図は本実施例の動作を具体的に説
明するための文章データの一例を示−す図、第3図は本
実施例で生成する索引Lノ:7−Fの形式の一例を示す
図、第4図は本実施例で文章テークから生成されるキー
ワー )・および索引し・コートの一例を示す図である
。 1・・・・・文章テークベース、2・・文章チータフア
イル、3 ・・索引ファイル、4・・文章テーク入力装
置、5・・・・・・文章テーク入力手段、6・・・・・
データレコーF’f!手段、7・・・・データレコー 
1・出力手段、8・・・・・・キーワード設定入力要求
手段、9・・・・・・キーワード設定入力装置、]0・
・・・・キーワード設定開始位置入力手段、11・・・
・・・ギーワ・、−1・設定終了位置入力手段、12・
・・・・キーワード取り出し手段、13・・・・・・索
引レコード変換手段、14・・・・・索引レコード出力
手段。 代理人 弁理士  内 原   晋 301  ギーワード開始位置 第3図

Claims (1)

  1. 【特許請求の範囲】  文章データベースが、文章データの集まりである文章
    データファイルと、索引の集まりから作られた索引ファ
    イルとを有するとともに、 文章データを入力する文章データ入力装置と、前記文章
    データ入力装置から入力された文章データを読み込む文
    章データ入力手段と、前記文章データ入力手段で読み込
    まれた文章データを、前記文章データベースの前記文章
    データファイルの形式に変換するデータレコード変換手
    段と、前記データレコード変換手段で作られたデータレ
    コードを、前記文章データベースの前記文章データファ
    イルに書き込むデータレコード出力手段とを有するデー
    タベースシステムの文章データ索引生成方式において、 文章データ中の文字列を索引とするために、索引となる
    文字列の範囲の設定の入力を要求するキーワード設定入
    力要求手段と、 前記キーワード設定入力要求手段に対して、キーワード
    の開始位置および終了位置を入力するキーワード設定入
    力装置と、 前記キーワード設定入力装置より通知されたキーワード
    の開始位置および終了位置を入力するキーワード設定開
    始位置入力手段およびキーワード設定終了位置入力手段
    と、 前記キーワード設定開始位置入力手段および前記キーワ
    ード設定終了位置入力手段から受けたキーワードの開始
    位置および終了位置により、文章データからキーワード
    となる文字列を取り出すキーワード取り出し手段と、 前記キーワード取り出し手段で取り出したキーワードと
    なる文字列を、前記文章データの前記索引ファイルの形
    式に変換する索引レコード変換手段と、 前記索引レコード変換手段で作られた索引レコードを、
    前記文章データベースの前記索引ファイルに書き込む索
    引レコード出力手段と、 を有する事により、入力された文章データの語あるいは
    文章データ中の文章の一部を索引として設定できること
    によって、文章データベース中の文章データの検索効率
    および汎用性を高めることを特徴とする文章データ索引
    生成方式。
JP2298353A 1990-11-02 1990-11-02 文章データ索引生成方式 Pending JPH04175844A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2298353A JPH04175844A (ja) 1990-11-02 1990-11-02 文章データ索引生成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2298353A JPH04175844A (ja) 1990-11-02 1990-11-02 文章データ索引生成方式

Publications (1)

Publication Number Publication Date
JPH04175844A true JPH04175844A (ja) 1992-06-23

Family

ID=17858587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2298353A Pending JPH04175844A (ja) 1990-11-02 1990-11-02 文章データ索引生成方式

Country Status (1)

Country Link
JP (1) JPH04175844A (ja)

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
JP4073989B2 (ja) 自然言語検索入力装置
CN114676155A (zh) 代码提示信息的确定方法、数据集的确定方法及电子设备
JP2007133682A (ja) 全文検索システム、及び、その全文検索方法
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JPH04175844A (ja) 文章データ索引生成方式
JPH03260869A (ja) データ検索装置及びデータ検索方法
JPH04340163A (ja) キーワード検索方式
JP3239845B2 (ja) 全文検索装置および方法
JPH03268064A (ja) データ検索装置及びデータ検索方法
JP3328995B2 (ja) 情報検索システム
JP2009181524A (ja) 文書検索システム及び文書検索方法
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JPH02253474A (ja) テキストベース検索方法
JP2001195427A (ja) デジタルドキュメントのキー特徴の自動抽出方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2752864B2 (ja) テキストベース情報検索装置
JP3431618B2 (ja) データ検索装置および検索方法
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPS62282364A (ja) 文字列検索方式
JPH07152778A (ja) 文書検索装置
Guglielmo et al. Overview of natural language processing of captions for retrieving multimedia data
JPH02116972A (ja) プログラムデータベースの検索方式
JPH0721210A (ja) 文書処理装置