JPH06215038A - データベース検索装置 - Google Patents

データベース検索装置

Info

Publication number
JPH06215038A
JPH06215038A JP5036025A JP3602593A JPH06215038A JP H06215038 A JPH06215038 A JP H06215038A JP 5036025 A JP5036025 A JP 5036025A JP 3602593 A JP3602593 A JP 3602593A JP H06215038 A JPH06215038 A JP H06215038A
Authority
JP
Japan
Prior art keywords
keyword
file
search
storage means
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5036025A
Other languages
English (en)
Inventor
Kimio Arai
喜美雄 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Techno Research KK
Original Assignee
Techno Research KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Techno Research KK filed Critical Techno Research KK
Priority to JP5036025A priority Critical patent/JPH06215038A/ja
Publication of JPH06215038A publication Critical patent/JPH06215038A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】文書情報を記憶したテキストファイルからキー
ワードとなり得る単語を自動的に抽出し、抽出したキー
ワードをキーワードファイルに記憶することにより、キ
ーワードファイルを検索する検索時間を大幅に短縮する
ことができるデータベース検索装置を提供することを目
的とする。 【構成】単語を構成する文字列に符号が付与された文書
情報をテキストファイルとして複数個、記憶する記憶手
段9と、前記記憶手段9に対してユーザーがキーワード
検索を行うキーワード検索手段10とを有するデータベ
ース検索装置において、し、前記記憶手段9から読み出
したテキストファイルの前記符号と所定の位置関係にあ
る文字列をキーワードとして抽出するキーワード自動抽
出手段11と、抽出したキーワードをキーワード検索手
段10が検索できるように前記テキストファイル毎に抽
出したキーワードを記憶するキーワードファイル記憶手
段12とを設けた。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、特に記憶手段に記憶
した文書情報の中からキーワードを自動抽出できるよう
にしたデータベース検索装置に関する。
【0002】
【従来の技術】従来、文書情報を含む一次情報をCD−
ROM等の記憶媒体に記録した電子ファイルとして加工
し、これを情報の利用者(ユーザー)に提供する情報サ
ービス装置が開発されている。この種のCD−ROMの
一例として、最近、特許庁が提供を開始した特許情報の
電子ファイルとしてのCD−ROM公開公報がある。ユ
ーザーは、これら電子ファイル化したCD−ROM等の
記録媒体を活用することにより、ユーザーサイドでも比
較的、容易に且つ低コストでデータベース検索装置を構
築することが可能になった。
【0003】ところで、前記CD−ROM公間公報のデ
ータは、大別すると文字のデータを記憶したテキストフ
ァイルと図面や化学式等のデータを記憶したイメージフ
ァイル、それに公開公報の各要素(請求の範囲、要約、
図面等)の配列やレイアウトについての情報を記憶した
ポジショニングファイルの3つのファイルより構成され
ているが、主要な書誌事項を検索キーとして入力して、
指定の公報又は検索したい公報にアクセスできるように
インデックスファイルを有している。したがって、検索
に際しては、まず指定した書誌事項における検索キーと
しての文字列を入力して、対応するインデックス部分を
まず検索し、次にインデックス部分に格納されているフ
ァイル名を用いて必要なファイルにアクセスすることが
可能となる。前記CD−ROM公開公報おいて、書誌事
項における検索キーとしては、「出願番号、公開番号、
出願日、公開日、優先権主張番号、優先権主張日、優先
権主張国、IPC、IPC・展開記号、FI、ファセッ
ト、発明者、出願人、出願人コード、代理人、発明の名
称の語句」等がある。
【0004】
【発明が解決しようとする課題】このような仕様のCD
−ROM公開公報を利用したデータベース検索装置にお
いて、例えば「IPC、IPC・展開記号、FI、ファ
セット、発明者、出願人、出願人コード、代理人、発明
の名称の語句」以外を検索キーとして、特定な技術内容
(主題)を開示した公報を検索によりリストアップしよ
うとする場合には、「要約、請求の範囲、詳細な説明、
図面の説明」の文書情報を記憶したテキストファイルを
直接アセクセスする必要がある。しかし、1枚のCD−
ROM公開公報は約5000件の公開公報が記憶されて
おり、この全テキストファイルに対して特定の文字列を
検索キーとする文字列検索を行った場合には、検索に多
大な検索時間を必要とすることになり検索装置として実
用的でないことが判明した。
【0005】そこで本発明者は、文書情報を記憶したテ
キストファイルからキーワードとなり得る単語を自動抽
出し、このキーワードに対して文字列検索を行えば検索
時間を大幅に短縮することが可能となり実用的な検索装
置が構築できると確信した。ところで、このような特許
情報における実用的なデータベース検索装置としてPA
TOLIS検索システムがある。このシステムにおいて
は、キーワードが専門家(インデックサー)によって抽
出され30〜50個付与されている。また、キーワード
を自動的に抽出する方法として、まず特許公報の抄録を
作成し、この抄録からキーワードを自動的に抽出する方
法が考えられている。しかし、キーワードをインデック
サーによって抽出する方法や、作成した抄録に基づいて
キーワードを自動抽出する方法では、時間、労力が掛る
という不都合が予測された。このために本発明者は特許
公報の文書情報からキーワードを自動的に抽出すること
を研究した結果、特許公報にはキーワードとなり得る重
要な技術用語(文字列)に符号(図面番号)が必ず付与
されている文書作成様式に着目し、この符号と所定の文
字列位置にある文字列をキーワードとして自動的に抽出
すれば、キーワードを低コストで抽出可能であることを
つきとめ、また抽出したキーワードを蓄積してキーワー
ドファイルとし、このファイルに対してキーワード検索
を行うようにすれば、検索時間を大幅に短縮することが
でき、極めて実用的な検索装置を実現することができる
ことを見い出した。
【0006】本発明は、上述の観点から文書情報を記憶
したテキストファイルからキーワードとなり得る単語を
自動的に抽出し、抽出したキーワードをキーワードファ
イルに記憶することにより、キーワードファイルを検索
する検索時間を大幅に短縮することができるデータベー
ス検索装置を提供することを目的とする。
【0007】
【課題を解決するための手段】本発明は、単語を構成す
る文字列に符号が付与された文書情報をテキストファイ
ルとして複数個、記憶する記憶手段と、前記記憶手段に
対してユーザーがキーワード検索を行うキーワード検索
手段とを有するデータベース検索装置において、前記記
憶手段から読み出したテキストファイルの前記符号と所
定の位置関係にある文字列をキーワードとして抽出する
キーワード自動抽出手段と、抽出したキーワードをキー
ワード検索手段が検索できるように前記テキストファイ
ル毎に抽出したキーワードを記憶するキーワードファイ
ル記憶手段とを設けたことを特徴とする。
【0008】
【作用】上述のように構成された本発明のデータベース
検索装置によれば、キーワード自動抽出手段は記憶手段
に記憶した文書情報のテキストファイルの中から符号と
所定の文字列位置関係にある文字列をキーワードとして
自動的に抽出し、これを前記テキストファイル毎にキー
ワードファイルとしてキーワードファイル記憶手段に一
旦記憶する。このようにすれば、キーワード検索手段は
キーワードファイル記憶手段に記憶したキーワードファ
イルに対してキーワード検索を行うことができる。
【0009】
【実施例】以下、本発明を図示の実施例により説明す
る。図1は、データーベース検索装置の構成図であり、
各種演算処理あるいは判断処理を行うCPU1と、キー
ワード抽出プログラム、キーワード検索プログラム、検
索ファイル作成プログラム、作成されたファイル、各種
辞書ファイル等を記憶するメモリ2、キーボード3とデ
ィスプレイ4との入出力部5、外部記憶装置6を接続す
る外部記憶装置制御部7、及びCPU1、メモリ2、入
出力部5、外部記憶装置制御部7を接続する共通バス8
とを有する。外部記憶装置6としては、磁気ディスク、
CD−ROM装置等がある。
【0010】図2は、CD−ROM公開公報に記憶され
ている特許情報の第(n)番目のテキストファイル(t
n)の符号(fn)が付与された文節(文字列)と、こ
の文節の符号(fn)が付与された直前の技術用語(単
語)から抽出したキーワード(kn)との対応関係を示
す図である。メモリ2に記憶されたキーワード抽出プロ
グラムは、テキストファイル(tn)の最初の文節をま
ず認識した後、次に文節中の符号(fn)の位置を認識
する。この実施例では符号(fn)は数字(10・・・
・13・・・・)である。次に、認識した符号(fn)
の直前の文字列からキーワードとなる単語をキーワード
として認識しこれを抽出する。特許公報においては、技
術用語は漢字、又はカタカナ、英文字が大半であり、こ
のために単語の認識に際しては、文字コードと比較によ
って、またメモリ2に記憶されている技術用語の辞書フ
ァイルとの照合によって単語の抽出、認識が可能であ
る。
【0011】キーワードを自動抽出する動作を図3のフ
ローチャート用いて説明する。CD−ROM公開公報を
CD−ROM装置に装着した後、キーワード抽出プログ
ラムをスタート(S1)する。次に、CD−ROMに記
憶されている公開公報のn番目(n=1〜n)のテキス
トファイル(tn)をメモリ2に読み出す(S2)。読
み出したテキストファイル(tn)の符号(fn)が付
与された文節(文字列)から技術用語(単語)であるキ
ーワード(kn)を抽出(S3)する。抽出したキーワ
ード(kn)をテキストファイル(tn)のキーワード
ファイル(knf)として磁気ディスクに記憶(S4)
する。次に、符号(fn)が付与されている残りの文節
(文字列)があるか否を判定(S5)する。残りの文節
(文字列)がある場合(YES)には、(fn)−→
(fn+1)として(S6)、前記(S3)にジャンプ
する。残りの文節(文字列)がない場合(NO)には、
CD−ROMにテキストファイル(tn)にが残ってい
るか否かを判定(S7)する。残りのテキストファイル
(tn)がある場合(YES)には、(tn)−→(t
n+1)として(S8)、前記(S2)にジャンプす
る。残りのテキストファイル(tn)がない場合(N
O)には、キーワード抽出プログラムを終了(S9)す
る。
【0012】次に、キーワード検索の手順を図4のフロ
ーチャート用いて説明する。キーワード検索プログラム
を開始(S1)させた後、ユーザーは検索キーに必要な
キーワード(k)をメモリ2に設定(S2)する。次
に、磁気ディスクからキーワードファイル(knf)を
メモリ2に順次、読み出し前記キーワード(k)と比較
し該当公報の有無を検索(S3)する。キーワードファ
イル(knf)の中に該当公報が存在した場合には、そ
の該当公報、該当公報番号を磁気ディスクの検索結果フ
ァイルに記憶(S4)した後、全キーワードファイル
(knf)を全て検索したか否かを判断(S5)する。
未検索のキーワードファイル(knf)がある場合に
は、(knf)−→(kn+1f)として、次のキーワ
ードファイル(kn+1fをメモリ2に読み出した後、
前記(S3)にジャンプする。全キーワードファイル
(knf)を検索した場合には、キーワード検索プログ
ラムを終了(S7)する。
【0013】図5は、本発明の構成を示す機能ブロック
図であり、単語を構成する文字列に符号が付与された文
書情報をテキストファイルとして複数個、記憶する記憶
手段9と、前記記憶手段9に対してユーザーがキーワー
ド検索を行うキーワード検索手段10と、前記記憶手段
9から読み出したテキストファイルの前記符号と所定の
位置関係にある文字列をキーワードとして抽出するキー
ワード自動抽出手段11と、抽出したキーワードをキー
ワード検索手段10が検索できるように前記テキストフ
ァイル毎に抽出したキーワードを記憶するキーワードフ
ァイル記憶手段12とから構成される。また、キーワー
ドの自動抽出は、前記実施例の特許公報からの自動抽出
に限定されるものではなく、キーワードとなり得る技術
用語(単語)に符号等が付与されている文献情報のファ
イルであれば可能である。また、CD−ROM等の記憶
媒体に記憶されたテキストファイルからのキーワード抽
出に限定されず、光学式文字認識装置(OCR)を介し
て印刷書面媒体から直接、キーワードを自動抽出するこ
とも可能である。以上述べたように、本発明のデータベ
ース検索装置によれば、キーワード自動抽出手段は記憶
手段に記憶した文書情報のテキストファイルの中から符
号と所定の文字列位置にある文字列をキーワードとして
自動的に抽出し、これを前記テキストファイル毎にキー
ワードファイルとしてキーワード記憶手段に記憶する。
ユーザーは、キーワード検索手段によりキーワードファ
イル記憶手段に記憶したキーワードファイルに対してキ
ーワード検索を行うことができる。
【0014】
【発明の効果】以上のように本発明よれば、文書情報を
記憶したテキストファイルからキーワードとなり得る単
語を自動的に抽出するとこができる。また、ユーザー
は、記憶したキーワードファイルに対してキーワード検
索を行うことができ、これにより検索時間を大幅に短縮
することができるデータベース検索装置を提供できる。
【0015】
【図面の簡単な説明】
【図1】本発明のデータベース検索装置の構成を示すブ
ロック図である。
【図2】CD−ROM公開公報に記憶されている特許情
報の第(n)番目のテキストファイル(tn)の符号
(fn)が付与された文節(文字列)と、この文節の符
号(fn)が付与された直前の技術用語(単語)から抽
出したキーワード(kn)との対応関係を示す図であ
る。
【図3】キーワードを自動抽出する動作手順を示すフロ
ーチャートである。
【図4】キーワード検索の動作手順を示すフローチャー
トである。
【図5】本発明の構成を示す機能ブロック図である。
【符号の説明】
1・・・・CPU 2・・・・メモリ 3・・・・キーボード 4・・・・ディスプレイ 5・・・・入出力部 6・・・・外部記憶装置 7・・・・外部記憶装置制御部 8・・・・共通バス 9・・・・記憶手段 10・・・・キーワード検索手段 11・・・・キーワード自動抽出手段 12・・・・キーワードファイル記憶手段

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 単語を構成する文字列に符号が付与され
    た文書情報をテキストファイルとして複数個、記憶する
    記憶手段と、前記記憶手段に対してユーザーがキーワー
    ド検索を行うキーワード検索手段とを有するデータベー
    ス検索装置において、前記記憶手段から読み出したテキ
    ストファイルの前記符号と所定の位置関係にある文字列
    をキーワードとして抽出するキーワード自動抽出手段
    と、抽出したキーワードをキーワード検索手段が検索で
    きるように前記テキストファイル毎に抽出したキーワー
    ドを記憶するキーワードファイル記憶手段とを設けたこ
    とを特徴とするデータベース検索装置。
JP5036025A 1993-01-13 1993-01-13 データベース検索装置 Pending JPH06215038A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5036025A JPH06215038A (ja) 1993-01-13 1993-01-13 データベース検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5036025A JPH06215038A (ja) 1993-01-13 1993-01-13 データベース検索装置

Publications (1)

Publication Number Publication Date
JPH06215038A true JPH06215038A (ja) 1994-08-05

Family

ID=12458188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5036025A Pending JPH06215038A (ja) 1993-01-13 1993-01-13 データベース検索装置

Country Status (1)

Country Link
JP (1) JPH06215038A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134065A (ja) * 1996-10-29 1998-05-22 Nec Corp 索引情報生成装置、索引情報生成方法および索引情報生 成用 プログラムを記憶した記憶媒体
JP2020509519A (ja) * 2017-03-03 2020-03-26 パーキンエルマー インフォマティクス, インコーポレイテッド 化学情報を含む文書の検索および索引付けのためのシステムおよび方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134065A (ja) * 1996-10-29 1998-05-22 Nec Corp 索引情報生成装置、索引情報生成方法および索引情報生 成用 プログラムを記憶した記憶媒体
JP2020509519A (ja) * 2017-03-03 2020-03-26 パーキンエルマー インフォマティクス, インコーポレイテッド 化学情報を含む文書の検索および索引付けのためのシステムおよび方法
JP2021093227A (ja) * 2017-03-03 2021-06-17 パーキンエルマー インフォマティクス, インコーポレイテッド 化学情報を含む文書の検索および索引付けのためのシステムおよび方法

Similar Documents

Publication Publication Date Title
US5303150A (en) Wild-card word replacement system using a word dictionary
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US20060031207A1 (en) Content search in complex language, such as Japanese
JPH07160727A (ja) 電子マニュアルの表示方法
JP3945075B2 (ja) 辞書機能を備えた電子装置及び情報検索処理プログラムを記憶した記憶媒体
JPH06215038A (ja) データベース検索装置
JP3253657B2 (ja) 文書検索方法
JPH08263521A (ja) 文書登録検索システム
US20080319982A1 (en) Method and Apparatus for Manipulating Data Files
JP2000231560A (ja) 文書自動分類方式
JPS60176169A (ja) 文章処理装置
JPS61248160A (ja) 文書情報登録方式
JP3666066B2 (ja) 多言語文書登録検索装置
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
EP1072986A2 (en) System and method for extracting data from semi-structured text
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP3187671B2 (ja) 電子辞書表示装置
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JPH0635971A (ja) 文書検索装置
JPS6057421A (ja) 文書作成装置
JPH0821031B2 (ja) 言語解析装置
JP2000311170A (ja) テキスト情報抽出方法
JPH11306198A (ja) 検索データベース構築方法及び検索データ構築システム並びに記録媒体
JPH0991304A (ja) 情報検索方法、情報検索システム及び情報検索用記憶媒体