JPH1125117A - 語検索装置 - Google Patents

語検索装置

Info

Publication number
JPH1125117A
JPH1125117A JP9182891A JP18289197A JPH1125117A JP H1125117 A JPH1125117 A JP H1125117A JP 9182891 A JP9182891 A JP 9182891A JP 18289197 A JP18289197 A JP 18289197A JP H1125117 A JPH1125117 A JP H1125117A
Authority
JP
Japan
Prior art keywords
word
search
abbreviation
basic
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9182891A
Other languages
English (en)
Inventor
Mitsuo Shimohata
光夫 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP9182891A priority Critical patent/JPH1125117A/ja
Publication of JPH1125117A publication Critical patent/JPH1125117A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 同義・類義情報をあらかじめ保持することな
く、正式名称と略称の表記上の差異を補い、表記上異な
るキーワードを収集する機能を有する語検索装置を提供
しようとする課題があった。 【解決手段】 検索語を入力する検索後入力部1と、検
索対象のキーワードが格納されたデータベース4と、入
力された検索語を複数の基本語に分割する語分割処理部
2と、分割された基本語に応じて元の検索語の略称を生
成する略称生成規則を格納した略称生成規則記憶部6
と、略称生成規則に基づき分割された基本語に応じて元
の検索語の略称を生成する略称生成処理部5と、入力さ
れた検索語と生成された略称との論理和によりデータベ
ースを検索して対応するキーワードを検索する検索処理
部7とを備えた語検索装置を提供する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書データ中から
検索語に適合する語を検索して収集する語検索装置に関
する。
【0002】
【従来の技術】一般的な語検索装置では、キーワードを
付加されたデータの集合体であるデータベースを保持し
ている。検索者は、収集したいデータに付加されている
と考える語を検索語として入力し、語検索装置は、検索
語をキーワードとしてもっているデータを収集して出力
する。しかし、検索者が適切な検索語を与えるとは限ら
ないので、検索をサポートする機能が望まれている。
【0003】その一つとして、類義語辞書を保持し、検
索者が入力した検索語の類義語を検索処理に追加すると
いう方法がある。この方法を実現する技術としては、例
えば、特開平8−77203号公報に記載のものが知ら
れている。かかる公報に記載のものでは、検索者が連続
して検索作業を行う前提とし、連続する検索作業の前回
の検索情報を記憶しておき、この前回の検索情報を考慮
して、今回の検索作業時に無駄な類義語を選択しないよ
うにしたものである。
【0004】
【発明が解決しようとする課題】一般に、表記上は異な
っているが同じ意味を表す言葉は多く存在する。例え
ば、「コンピュータ」と「電子計算機」のような英語
(外来語表記)、日本語での呼び方(日本語表記)であ
るとか、「日本銀行」と「日銀」のような正式名称、略
称といった場合がある。したがって、検索語と単に表記
上一致するキーワードを持つデータを収集しただけでは
有効なデータの検索漏れの可能性が大きくなってしま
う。
【0005】しかしながら、上記の従来の技術では、同
義・類義情報を保持することで、この解決を図っている
が、あらかじめ同義・類義情報を作成することは多大な
手間を要する問題がある。そこで、同義・類義情報をあ
らかじめ保持することなく、正式名称と略称の表記上の
差異を補い、表記上異なるキーワードを収集する機能を
提供することを目的とする。
【0006】
【課題を解決するための手段】そこで本発明は、検索語
を入力する入力部と、検索対象のキーワードが格納され
たデータベースと、入力された検索語を複数の基本語に
分割する語分割処理部と、分割された基本語に応じて元
の検索語の略称を生成する略称生成規則を格納した略称
生成規則記憶部と、略称生成規則に基づき分割された基
本語に応じて元の検索語の略称を生成する略称生成処理
部と、入力された検索語と生成された略称との論理和に
よりデータベースを検索して対応するキーワードを検索
する検索処理部とを備えた語検索装置を提供する。
【0007】さらに、本発明は、検索語を入力する入力
部と、検索対象のキーワードが格納されたデータベース
と、データベースに格納されたキーワードを複数の基本
語に分割する語分割処理部と、分割された基本語に応じ
てキーワードの略称を生成する略称生成規則を格納した
略称生成規則記憶部と、略称生成規則に基づき対象とす
る語が連結語である場合に分割された基本語に応じてキ
ーワードの略称を生成する略称生成処理部と、入力され
た検索語でデータベースを検索する際に、生成されたキ
ーワードの略称とマッチングして対応するキーワードを
検索する検索処理部とを備えた語検索装置を提供する。
【0008】なお、検索語またはキーワードを分割する
ための構成要素となる基本語を記述してある基本語辞書
を設け、語分割処理部では、入力された検索語またはデ
ータベースに格納されたキーワードが基本語辞書に記述
されている基本語を連結してできる連結語かどうかチェ
ックし、連結語である場合には基本語に分割するのが好
ましい。
【0009】また、略称生成規則として分割された各基
本語の先頭1文字を抽出し、結合することで略称を生成
するか、略称生成規則として分割された基本語の内、先
頭から最後の1つ前までの基本語からは先頭1文字を抽
出し、最後の基本語からは語全体を抽出し、結合するこ
とで略称を生成するようにしてもよい。
【0010】
【発明の実施の形態】以下に、図面を参照して、本発明
の実施の形態を説明する。図1は、ブロック構成図であ
る。図において、本発明の語検索装置は、検索語入力部
1、語分割処理部2、基本語辞書3、データベース4、
略称生成処理部5、略称生成規則記憶部6、検索処理部
7および検索結果出力部8から構成されている。
【0011】検索語入力部1は、検索者が所望のデータ
を収集するために検索語を入力するところである。語分
割処理部2は、入力された検索語を基本語辞書3に記載
された基本語にしたがって分割する。基本語辞書3は、
検索語を分割するための構成要素となる基本語を記述し
てある辞書である。データベース4は、検索対象となる
文書データ等のデータベースである。このデータベース
4内の各データにはキーワードを付与しておく。
【0012】略称生成処理部5は、基本語に分割された
語から略称生成規則記憶部6の略称生成規則にしたがっ
て略称を生成する。略称生成規則記憶部6には、略称を
生成するための規則が記述されている。検索処理部7に
は、データベース4中の各データとそれぞれに付加され
たキーワードの情報が記述されている。検索結果出力部
8は、検索結果を出力する。
【0013】図2は語検索処理のフローチャート、図3
はデータベースの検索処理のフローチャート、図4は基
本語辞書の例示図、図5はデータベースの例示図、図6
は略称生成規則の例示図、図7はキーワードから作成さ
れた略称の例示図、図8は、検索語から作成された略称
の例示図である。 S1:語検索装置の使用者は、所望のデータに付与され
ていると思われる検索語を検索語入力部1から語分割処
理部2に与える。ここでは例えば「日銀」または「生命
保険」を検索語として入力したとする。
【0014】S2:語分割処理部2では、基本語辞書3
から基本語のリストを読み込む。基本語辞書3には、例
えば、図4に示すように、「日本」「銀行」「安全」
「保障」「理事会」「生命」「保険」「損害」等の「基
本語」がリストアップされている。 S3:語分割処理部2では、入力された検索語が基本語
辞書3に記述されている基本語を連結してできる語かど
うかチェックする。例えば「日銀」という語は、基本語
に分割できないため、そのままの形で検索処理部7に渡
し、処理をS5に移す。また、「生命保険」は「生命」
と「保険」の連結語であるため、分割処理を施し、略称
生成処理部5にこれらの情報を渡し、処理をS4に移
す。
【0015】S4:略称生成処理部5は、略称生成規則
記憶部6から略称生成規則を読み出し略称の生成を行
う。その略称生成規則は、例えば、図6に示すように、
複数の規則が考えられる。図中、関数C(X,Y)は、
分割した基本語の内、X番目に位置する基本語のY番目
の文字を表す。Xが「A to B」となっている場合
は、A番目からB番目までの基本語に対し同じ条件で文
字を抽出することを意味する。「last」は分割基本語数
を表す。Yが「 all」である場合は、X番目の基本語全
体を指す。「+」は文字列の結合を意味する演算子であ
る。つまり、生成規則1は、分割された基本語それぞれ
から先頭1文字を抽出し、最後に位置する基本語からは
全体を抽出し結合することを意味する。例えば、「生命
保険」は「生命」と「保険」の連結語であるため、図8
に示すように、「生保」と「生保険」の2つの略称が生
成される。
【0016】S5:検索処理部7は、データベース4を
検索する検索語を確定する。上記S3で連結語でないと
判断された場合では、入力された検索語のみと確定す
る。例えば、「日銀」の場合では、この「日銀」のみと
確定する。また、上記S3で連結語であると判断され上
記S4で略称を生成された場合では、入力された検索語
と生成された略称の論理和、つまり検索語と略称の双方
で検索すると確定する。例えば、「生命保険」の場合で
は、「生命保険」「生保」「生保険」の3つと確定す
る。
【0017】S6:検索処理部7は、データベース4を
検索する。ここの処理は、S8〜S12に示す。 S7:検索結果出力部8は、検索結果を出力する。 S8:検索処理部7は、データベース4を読み込む。な
お、データベース4には、例えば、データ1として「日
本銀行」「安全保障理事会」、データ2として「生保」
「損保」が格納されているものとする。
【0018】S9:検索処理部7は、上記各ステップで
検索語に略称が生成されているか否かを判断する。「日
銀」のように生成されていない場合はS10に処理を移
し、「生命保険」のように生成されている場合には処理
をS12に移す。 S10:語分割処理部2では、データベース4から読み
出されたキーワードが基本語辞書3に記述されている基
本語を連結してできる語かどうかチェックする。例えば
「生保」という語は、基本語に分割できないため、その
ままの形で検索処理部7に渡し、処理をS12に移す。
また、「日本銀行」は「日本」と「銀行」の連結語であ
るため、分割処理を施し、略称生成処理部5にこれらの
情報を渡し、処理をS11に移す。
【0019】S11:略称生成処理部5は、略称生成規
則記憶部6から略称生成規則を読み出し略称の生成を行
う。その略称生成規則は、例えば、図6に示すように、
複数の規則が考えられる。その規則のパターン例は上述
と同様とし説明を省略する。例えば、図7に示すよう
に、「日本銀行」の場合には「日銀」と「日銀行」の2
つの略称を生成し、「安全保障理事会」の場合には「安
保理」と「安保理事会」の2つの略称を生成する。
【0020】S12:検索処理部7は、検索語として
「入力された検索語」または「生成されたその略称」
と、キーワードとして「元のキーワード」または「生成
されたその略称」との比較をすることにより、データベ
ース4の検索を行う。例えば、検索語が「日銀」のみ場
合には、データベース4のデータ1の中のキーワード
「日本銀行」の略称「日銀」が一致するため、「日本銀
行」を含むデータ1が抽出される。また、検索語が「日
本銀行」「日銀」「日銀行」の場合には、データベース
4のデータ1の中のキーワード「日本銀行」自体が一致
するため、「日本銀行」を含むデータ1が抽出される。
また、検索語が「生命保険」「生保」「生保険」の場合
には、データベース4のデータ2の中のキーワード「生
保」自体が一致するため、「生保」を含むデータ2が抽
出される。なお、データベース4のデータ番号の中に、
検索語と一致するキーワードが生じた場合には、そのキ
ーワードが属するデータ番号を検索結果出力部8から出
力させるものとした。
【0021】上記実施の形態によると、正式名称と略称
の違いによって表記が異なる場合について、正式名称か
ら略称を生成することにより、両者を一致させることが
できるようになる。また、基本語情報は、普遍性がある
ため、新しい組織名などが出現した場合にも変更なしに
対応できるという利点を有している。したがって、表記
が異なっているが、意味的に等価な略称が多く存在する
ことから、検索において使用者が入力した検索語と表記
上一致するキーワードを持つデータだけを収集した場合
に生じる検索漏れを防止することができる効果が得られ
る。
【0022】なお、上記実施の形態では、検索語、キー
ワードとして日本語を用いているが、対象言語は特に問
わない。例えば、英語でも組織名などは構成単語の頭文
字を取って略称とすることが多いことから効果は大きい
と考えられる。
【0023】
【発明の効果】以上説明したように本発明の語検索装置
によると、正式名称と略称の表記上の差異を補い、表記
上異なるキーワードを収集することができる効果が得ら
れる。したがって、表記が異なっているが、意味的に等
価な略称が多く存在することから、検索において使用者
が入力した検索語と表記上一致するキーワードを持つデ
ータだけを収集した場合に生じる検索漏れを防止するこ
とができる効果が得られる。
【図面の簡単な説明】
【図1】実施の形態のブロック構成図
【図2】語検索処理のフローチャート
【図3】データベースの検索処理のフローチャート
【図4】基本語辞書の例示図
【図5】データベースの例示図
【図6】略称生成規則の例示図
【図7】キーワードから作成された略称の例示図
【図8】検索語から作成された略称の例示図
【符号の説明】
1 検索語入力部 2 語分割処理部 3 基本語辞書 4 データベース 5 略称生成処理部 6 略称生成規則記憶部 7 検索処理部 8 検索結果記憶部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 検索語を入力する入力部と、検索対象の
    キーワードが格納されたデータベースと、入力された検
    索語を複数の基本語に分割する語分割処理部と、分割さ
    れた基本語に応じて元の検索語の略称を生成する略称生
    成規則を格納した略称生成規則記憶部と、略称生成規則
    に基づき分割された基本語に応じて元の検索語の略称を
    生成する略称生成処理部と、入力された検索語と生成さ
    れた略称との論理和によりデータベースを検索して対応
    するキーワードを検索する検索処理部とを備えたことを
    特徴とする語検索装置。
  2. 【請求項2】 検索語を入力する入力部と、検索対象の
    キーワードが格納されたデータベースと、データベース
    に格納されたキーワードを複数の基本語に分割する語分
    割処理部と、分割された基本語に応じてキーワードの略
    称を生成する略称生成規則を格納した略称生成規則記憶
    部と、略称生成規則に基づき対象とする語が連結語であ
    る場合に分割された基本語に応じてキーワードの略称を
    生成する略称生成処理部と、入力された検索語でデータ
    ベースを検索する際に、生成されたキーワードの略称と
    マッチングして対応するキーワードを検索する検索処理
    部とを備えたことを特徴とする語検索装置。
  3. 【請求項3】 請求項1または請求項2において、検索
    語またはキーワードを分割するための構成要素となる基
    本語を記述してある基本語辞書を設け、 語分割処理部では、入力された検索語またはデータベー
    スに格納されたキーワードが基本語辞書に記述されてい
    る基本語を連結してできる連結語かどうかチェックし、
    連結語である場合には基本語に分割するようにしたこと
    を特徴とする語検索装置。
  4. 【請求項4】 請求項1または請求項2において、略称
    生成規則として分割された各基本語の先頭1文字を抽出
    し、結合することで略称を生成することを特徴とする語
    検索装置。
  5. 【請求項5】 請求項1または請求項2において、略称
    生成規則として分割された基本語の内、先頭から最後の
    1つ前までの基本語からは先頭1文字を抽出し、最後の
    基本語からは語全体を抽出し、結合することで略称を生
    成することを特徴とする語検索装置。
JP9182891A 1997-07-08 1997-07-08 語検索装置 Pending JPH1125117A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9182891A JPH1125117A (ja) 1997-07-08 1997-07-08 語検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9182891A JPH1125117A (ja) 1997-07-08 1997-07-08 語検索装置

Publications (1)

Publication Number Publication Date
JPH1125117A true JPH1125117A (ja) 1999-01-29

Family

ID=16126213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9182891A Pending JPH1125117A (ja) 1997-07-08 1997-07-08 語検索装置

Country Status (1)

Country Link
JP (1) JPH1125117A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148674A (ja) * 2005-11-25 2007-06-14 Konica Minolta Business Technologies Inc 情報表示方法
JP2007200252A (ja) * 2006-01-30 2007-08-09 Ricoh Co Ltd 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP2009524852A (ja) * 2005-11-23 2009-07-02 ダン アンド ブラッドストリート インコーポレイテッド 表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法
JP2009217544A (ja) * 2008-03-11 2009-09-24 Yahoo Japan Corp 文字ベクトルを用いた略語生成装置、方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009524852A (ja) * 2005-11-23 2009-07-02 ダン アンド ブラッドストリート インコーポレイテッド 表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法
JP2007148674A (ja) * 2005-11-25 2007-06-14 Konica Minolta Business Technologies Inc 情報表示方法
JP2007200252A (ja) * 2006-01-30 2007-08-09 Ricoh Co Ltd 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP2009217544A (ja) * 2008-03-11 2009-09-24 Yahoo Japan Corp 文字ベクトルを用いた略語生成装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
US7389224B1 (en) Natural language search method and apparatus, including linguistically-matching context data
US20020169763A1 (en) Method and system for expanding document retrieval information
JPH05151253A (ja) 文書検索装置
JPH1125117A (ja) 語検索装置
JP2000132560A (ja) 中国語テレテキスト処理方法及び装置
JP2850952B2 (ja) 文書検索方法および装置
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
US20040054677A1 (en) Method for processing text in a computer and a computer
JPH10307835A (ja) 情報処理装置及びその方法
JPH08263521A (ja) 文書登録検索システム
JPH1069487A (ja) あいまい名称による情報の管理方法
JPH06251076A (ja) データ・ベース検索装置および方法
JPH02129756A (ja) 単語照合装置
JPS5856071A (ja) 日本語による検索システム
JP2000322416A (ja) 文書検索装置
US20050102278A1 (en) Expanded search keywords
JP2003288366A (ja) 類似テキスト検索装置
Takasu et al. Approximate matching for OCR-processed bibliographic data
JPH04262460A (ja) 情報検索装置
JPH07210565A (ja) 情報検索方法及び装置
JPH0728845A (ja) 文書検索装置及びその方法
JP3161660B2 (ja) キーワード検索方法
JPH09269952A (ja) 文書検索装置及びその方法
JP2666475B2 (ja) 漢字複合語キーワード検索装置
JPH04290158A (ja) 文書作成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060606

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070109