JPH06274541A - 文献検索システム - Google Patents

文献検索システム

Info

Publication number
JPH06274541A
JPH06274541A JP5084153A JP8415393A JPH06274541A JP H06274541 A JPH06274541 A JP H06274541A JP 5084153 A JP5084153 A JP 5084153A JP 8415393 A JP8415393 A JP 8415393A JP H06274541 A JPH06274541 A JP H06274541A
Authority
JP
Japan
Prior art keywords
term
unit
data
unit data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5084153A
Other languages
English (en)
Inventor
Kazuya Iwama
和也 岩間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Nippon Steel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Steel Corp filed Critical Nippon Steel Corp
Priority to JP5084153A priority Critical patent/JPH06274541A/ja
Publication of JPH06274541A publication Critical patent/JPH06274541A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 用語間の関連度を文献中の用語データの共出
現頻度を求めることにより自動生成し、シソーラスデー
タに代えて利用し、より広い検索を可能とする。 【構成】 関連用語表作成部16は文献データに記憶さ
れた文献ごとに用語を抽出して用語データを作成し、選
択された用語が登場する文献における他の用語の出現頻
度を用語データ格納部14に記憶された用語データから
求め、ある出現頻度以上の用語を選択された用語に対す
る関連用語として登録する。検索時には、関連用語展開
部28は入力された用語をキーとして、関連用語表記憶
部20に記憶された関連用語表を用いて入力された用語
に対応して共出現頻度の高い関連用語を関連用語表を参
照して抽出し、検索部18はこれに基づいて検索を行
う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、検索システムに関し、
特にキーワードを用いてデータベースを検索する文献検
索システムに関する。
【0002】
【従来の技術】従来、文献データの検索において、検索
の際に使用されるシソーラスは専門家の協議により作成
されていた。シソーラス自動生成の試みとしては、Sa
ltonの方法がある。
【0003】シソーラスの利用には次のような2通りの
方法がある。 (1)適切な用語を選択するために、シソーラスを参照
して用語を探し、次に検索を行う。 (2)検索対象の用語を与え、シソーラスデータからそ
の用語の関連語を自動的に展開し、展開された各語を用
いて検索を行う。
【0004】これはたとえば文献ごとに用語の出現頻度
を求め、2つの用語の出現頻度からこれらの用語間の関
連度を計算し、関連度にしきい値を用いて2つの用語の
関係を決めていた。
【0005】また、ファジィシソーラスは上記のSal
tonの方法にファジィを取り入れたもので、具体的に
は用語間の関係を求める演算をαカットで行っている。
【0006】
【発明が解決しようとする課題】上記のようなSalt
onの方法は用語間の関係の種類まで求めるため、処理
過程が複雑であるという欠点があった。
【0007】本発明は、上記のような複雑な処理過程を
用いることなく、用語間の関連度を文献中の用語データ
の共出現頻度を求めることにより自動生成し、シソーラ
スデータに代えて利用するもので、より広い検索を可能
とする検索システムを提供することを目的とする。
【0008】
【課題を解決するための手段】本発明の文献検索システ
ムは、文献データを格納する文献データ格納手段と、文
献データから抽出された単位データを記憶する単位デー
タ記憶手段と、単位データ記憶手段に記憶された特定の
単位データと共出現頻度の高い単位データを関連単位デ
ータとして作成する関連単位データ作成手段と、関連単
位データ作成手段により作成された関連単位データを記
憶する関連単位データ記憶手段と、関連単位データ記憶
手段に記憶された関連単位データを用いて検索を行う検
索手段と、検索される単位データを入力する入力手段
と、検索結果を出力する出力手段とを有し、検索手段
は、検索される単位データと関連単位データの組合せに
より検索を行う。
【0009】
【作用】本発明によれば、共出現頻度の高い用語を関連
用語として登録しておき、検索時には入力された用語と
ともに関連用語の出現する文献を検索するようにしてい
る。したがって、入力された特定の用語だけを用いた場
合に検索できない広い範囲で漏れのない検索を行うこと
ができる。また、文献データごとの出現頻度は問題とせ
ず共出現頻度の高いものを関連用語として登録すればよ
いから、関連用語表作成処理が複雑となることもない。
【0010】
【実施例】図1には、本発明によるシステムの一実施例
が示されている。同図に示すように、本システムは文献
データ格納部12、用語データ格納部14、関連用語表
作成部16、検索部18、関連用語表記憶部20、編集
機能部22、入力部24および出力部26を有する。
【0011】文献データ格納部12は、検索される文献
データを格納する。用語データ格納部14は文献データ
格納部12に格納された各文献データの用語が抽出され
格納される。関連用語表作成部16は、用語データ格納
部14に格納された各文献データの用語から特定の用語
の関連用語を作成する。関連用語表記憶部20は関連用
語表作成部16において作成された関連用語が記憶され
る。
【0012】検索部18は、関連用語表記憶部20に記
憶された関連用語表を用いて、入力部24から入力され
た用語について文献検索を行う。関連用語展開部28
は、入力部24から入力された用語について文献検索を
行う場合に、関連用語表記憶部20に記憶された関連用
語表を用いて入力された用語を後述のように展開する。
出力部26は、検索部18により検索された結果が出力
される出力手段であり、たとえばCRT等の画面に検索
結果が表示される。
【0013】図4のフローチャートにより、関連用語表
作成の動作について説明する。まず、関連用語表作成部
16は文献データに記憶された文献ごとに用語を抽出し
て用語データを作成する(ステップ102)。すなわ
ち、図2に示すように、文献1、2、3...の各文献
の用語(キーワード)を抽出し、用語データを作成して
用語データ格納部14に記憶させる。たとえば文献1の
用語としては、文献1に出現する用語が記憶される。同
様に他の文献に現れる用語も記憶される。
【0014】このように用語が作成され用語データ格納
部14に記憶された後、関連用語表を作成するため、所
定の用語が選択される(ステップ104)。次に選択さ
れた用語が登場する文献における他の用語の出現頻度を
用語データ格納部14に記憶された用語データから求め
る(ステップ106)。ある出現頻度以上の用語を選択
された用語に対する関連用語として登録する(ステップ
108)。たとえば文献データが新聞記事である場合
に、「コンピュータ」という用語が選択された場合、
「コンピュータ」と共に現れる用語として次のような用
語が出現頻度の上位を占めたとする。「電子計算機」、
「情報処理機器」、「東京」、「OA機器」、「パソコ
ン」。この場合には、図3に示すように、これらの用語
が用語「コンピュータ」の関連用語として関連用語表記
憶部20に記憶される。
【0015】このようにして関連用語の登録を行い、全
ての用語について関連用語の生成を終了したか否かを判
断し(ステップ110)、終了していない場合にはステ
ップ104に戻り、ステップ104から108の関連用
語の登録を繰り返す。全ての用語について関連用語の生
成が終了した場合には、関連用語表作成の動作が終了す
る。編集機能部22は入力部24から入力されたデータ
を基に、関連用語記憶部20の関連用語表に対して、修
正(追加・削除)を行う。前述の例を参照すると、入力
部24から削除機能が選択され、「コンピュータ」とそ
の次に「東京」が入力されると、関連用語表記憶部20
において、用語「コンピュータ」の関連用語から「東
京」が削除される。また入力部24から追加機能が選択
され、「コンピュータ」とその次に「パーソナルコンピ
ュータ」が入力されると関連用語表記憶部20において
用語「コンピュータ」に関連用語として「パーソナルコ
ンピュータ」が追加される。
【0016】次に図5のフローチャートにより、検索動
作を説明する。検索においては、入力部24から検索さ
れる用語が入力されると(ステップ202)、関連用語
展開部28は入力された用語をキーとして、関連用語表
記憶部20に記憶された関連用語表を用いて関連用語に
展開する。すなわち入力された用語に対応して共出現頻
度の高い関連用語を関連用語表を参照して抽出する(ス
テップ204)。
【0017】検索部18は入力された用語と展開された
関連用語を用いて文献データを検索する(ステップ20
6)。すなわち入力された用語または展開された関連用
語のいずれかが含まれる文献を文献データ格納部12に
記憶された文献データの中から検索する。検索部18は
検索結果を出力部26に出力する。出力部26はたとえ
ば検索結果をCRT画面に表示する(ステップ20
8)。
【0018】例えば入力部24から検索される用語とし
て「OPEC」が入力されると、関連用語展開部28は
関連用語表記憶部20に記憶された関連用語表を用いて
用語「OPEC」を展開し、関連度の高い上位2つの関
連用語として「オペック」「石油輸出国機構」を得る。
検索部18はこれらの用語「OPEC」「オペック」
「石油輸出国機構」を用いて文献データ格納部12に格
納された新聞データを検索し、これらの用語のいずれか
が出現した記事を検索する。検索部18による検索結果
は出力部26に送られ、出力部26により出力される。
【0019】このように関連用語も検索対象に含めるこ
とにより「OPEC」だけでは検索できないより広い範
囲の検索を行うことができる。
【0020】なお、関連用語表作成部16による関連用
語表の作成は検索対象データベースから作成してもよい
し、別のデータベースから作成してもよい。また、キー
ワードに代えて分類に対する検索にも適用してもよい。
【0021】
【発明の効果】本発明によれば、特定の用語と共に出現
する頻度の高い用語を関連用語として登録しておき、検
索時には入力された用語とともに関連用語の出現する文
献を検索するようにしている。したがって、入力された
特定の用語だけを用いた場合に検索できない広い範囲で
漏れのない検索を行うことができる。また、文献データ
ごとの出現頻度は問題とせず共出現頻度の高いものを関
連用語として登録すればよいから、関連用語表作成処理
が複雑となることもない。
【図面の簡単な説明】
【図1】本発明による検索システムの一実施例を示すブ
ロック図である。
【図2】図1の用語データ格納部の内容を示す図であ
る。
【図3】図1の関連用語表記憶部の内容の一例を示す図
である。
【図4】関連用語表作成の動作を示すフロー図である。
【図5】検索動作を示すフロー図である。
【符号の説明】 12 文献データ格納部 14 用語データ格納部 16 関連用語表作成部 18 検索部 20 関連用語表記憶部 22 編集機能部 24 入力部 26 出力部 28 関連用語展開部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 所定のデータが含まれる文献を検索する
    文献検索システムにおいて、 文献データを格納する文献データ格納手段と、 前記文献データから抽出された単位データを記憶する単
    位データ記憶手段と、 前記単位データ記憶手段に記憶された特定の単位データ
    と共出現頻度の高い単位データを関連単位データとして
    作成する関連単位データ作成手段と、 前記関連単位データ作成手段により作成された関連単位
    データを記憶する関連単位データ記憶手段と、 前記関連単位データ記憶手段に記憶された前記関連単位
    データを用いて検索を行う検索手段と、 検索される単位データを入力する入力手段と、 検索結果を出力する出力手段とを有し、 前記検索手段は、前記検索される単位データと前記関連
    単位データの組合せにより検索を行うことを特徴とする
    文献検索システム。
  2. 【請求項2】 前記単位データがキーワード(用語)で
    あることを特徴とする請求項1に記載の文献検索システ
    ム。
  3. 【請求項3】 前記関連単位データが検索対象データ以
    外のデータベースから作成されることを特徴とする請求
    項1に記載の文献検索システム。
  4. 【請求項4】 前記関連単位データへの修正(追加・削
    除)機能を有することを特徴とする請求項1に記載の文
    献検索システム。
JP5084153A 1993-03-17 1993-03-17 文献検索システム Pending JPH06274541A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5084153A JPH06274541A (ja) 1993-03-17 1993-03-17 文献検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5084153A JPH06274541A (ja) 1993-03-17 1993-03-17 文献検索システム

Publications (1)

Publication Number Publication Date
JPH06274541A true JPH06274541A (ja) 1994-09-30

Family

ID=13822567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5084153A Pending JPH06274541A (ja) 1993-03-17 1993-03-17 文献検索システム

Country Status (1)

Country Link
JP (1) JPH06274541A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153068A (ja) * 1995-11-29 1997-06-10 Oki Electric Ind Co Ltd 類似検索方法および装置
JPH1049543A (ja) * 1996-08-02 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JPH10260975A (ja) * 1997-03-18 1998-09-29 Minolta Co Ltd 情報処理装置および情報処理方法
JPH11203311A (ja) * 1998-01-13 1999-07-30 Fujitsu Ltd 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
JP2004164662A (ja) * 2003-12-24 2004-06-10 Just Syst Corp 検索装置、検索方法、ならびに、情報記録媒体
JP2004280259A (ja) * 2003-03-13 2004-10-07 National Institute Of Information & Communication Technology 検索装置
JP2005309853A (ja) * 2004-04-22 2005-11-04 Hewlett-Packard Development Co Lp 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム
US7054861B2 (en) 1998-09-30 2006-05-30 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
JP2008003656A (ja) * 2006-06-20 2008-01-10 Omron Corp 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法
JP2008192170A (ja) * 2008-03-28 2008-08-21 Nec Corp 用語関係辞書作成システム及び用語関係辞書作成方法並びにプログラムを記録した機械読み取り可能な記録媒体
US8892574B2 (en) 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04357568A (ja) * 1991-01-30 1992-12-10 Mitsubishi Electric Corp テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
JPH06168272A (ja) * 1992-11-30 1994-06-14 Fujitsu Ltd 関連語作成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04357568A (ja) * 1991-01-30 1992-12-10 Mitsubishi Electric Corp テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
JPH06168272A (ja) * 1992-11-30 1994-06-14 Fujitsu Ltd 関連語作成装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153068A (ja) * 1995-11-29 1997-06-10 Oki Electric Ind Co Ltd 類似検索方法および装置
JPH1049543A (ja) * 1996-08-02 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JPH10260975A (ja) * 1997-03-18 1998-09-29 Minolta Co Ltd 情報処理装置および情報処理方法
JPH11203311A (ja) * 1998-01-13 1999-07-30 Fujitsu Ltd 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
US7664803B2 (en) 1998-09-30 2010-02-16 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
US7054861B2 (en) 1998-09-30 2006-05-30 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
JP2004280259A (ja) * 2003-03-13 2004-10-07 National Institute Of Information & Communication Technology 検索装置
JP2004164662A (ja) * 2003-12-24 2004-06-10 Just Syst Corp 検索装置、検索方法、ならびに、情報記録媒体
JP2005309853A (ja) * 2004-04-22 2005-11-04 Hewlett-Packard Development Co Lp 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム
JP4634736B2 (ja) * 2004-04-22 2011-02-16 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム
JP2008003656A (ja) * 2006-06-20 2008-01-10 Omron Corp 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法
JP2008192170A (ja) * 2008-03-28 2008-08-21 Nec Corp 用語関係辞書作成システム及び用語関係辞書作成方法並びにプログラムを記録した機械読み取り可能な記録媒体
US8892574B2 (en) 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset

Similar Documents

Publication Publication Date Title
US6094649A (en) Keyword searches of structured databases
JP2783558B2 (ja) 要約生成方法および要約生成装置
JPH08255155A (ja) 全文登録語検索装置および方法
JPH06274541A (ja) 文献検索システム
JP3687118B2 (ja) 関連語辞書作成装置および関連語辞書作成方法
JP3281639B2 (ja) 文書検索システム
JP2011133928A (ja) 記憶装置に記憶してある文書ファイルを検索する検索装置、検索システム、検索方法及びコンピュータプログラム
JPH1145274A (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0773197A (ja) 異表記語辞書作成支援装置
JPH0581326A (ja) データベース検索装置
US20040054677A1 (en) Method for processing text in a computer and a computer
JP3222193B2 (ja) 情報検索装置
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP3135422B2 (ja) 文書検索装置及びその方法
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH09146968A (ja) 文書検索方法
JP3294966B2 (ja) 機械翻訳装置
JPH05189492A (ja) 検索式自動生成装置
JPH02116972A (ja) プログラムデータベースの検索方式
JPH02113368A (ja) 情報検索方法
JPH10222540A (ja) 文書検索方法、装置及び記録媒体
JPH0954781A (ja) 文書検索システム
JPH11224264A (ja) 文書検索装置および記録媒体
JPH07152778A (ja) 文書検索装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030311