JP3350556B2 - 検索システム - Google Patents

検索システム

Info

Publication number
JP3350556B2
JP3350556B2 JP12684892A JP12684892A JP3350556B2 JP 3350556 B2 JP3350556 B2 JP 3350556B2 JP 12684892 A JP12684892 A JP 12684892A JP 12684892 A JP12684892 A JP 12684892A JP 3350556 B2 JP3350556 B2 JP 3350556B2
Authority
JP
Japan
Prior art keywords
synonym
word
keyword
search
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP12684892A
Other languages
English (en)
Other versions
JPH05298371A (ja
Inventor
美苗 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP12684892A priority Critical patent/JP3350556B2/ja
Publication of JPH05298371A publication Critical patent/JPH05298371A/ja
Application granted granted Critical
Publication of JP3350556B2 publication Critical patent/JP3350556B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、検索システムに関し、より詳細
には、同義語を文書より自動的に抽出して文書キーワー
ドとする自動同義語抽出手段と、検索語と文書キーワー
ドがマッチし、かつその文書キーワードが同義語を持つ
場合に、その同義語も新たな検索語として他の文書を検
索する検索手段を有する検索システムに関する。
【0002】
【従来技術】例えば、同義語辞書の自動生成同義語によ
る検索を可能にする方法を開示したものとしては、例え
ば、特開平3−14176号公報に「同義語参照による
検索装置」がある。この公報のものは、検索装置があら
かじめ同義語情報を格納している同義語ファイルを持
ち、検索語が入力されたらその同義語ファイルを参照
し、同義語があればそれも検索語とするものである。ま
た、特開平3−15980号公報の「文字列検索のため
の異表記及び同義語展開方法」は、検索装置へのユーザ
の入力語を異表記展開し、また同義語辞書を使って同義
語展開する。それによって違う表記や同義語による検索
可能とするものである。しかしながら、前記2つの公報
のものは、同義語ファイルや同義語辞書が必要である
が、その作成や保守が容易でないという欠点がある。
【0003】また、特開平2−148265号公報の
「自動索引システム」は、文書を形態素解析した後、格
助詞のつく名詞を取り出してキーワードとするものであ
る。しかしながら、品詞情報や文字列の特徴を利用して
キーワードを抽出しているが、キーワードとキーワード
の関係に関する情報は保持していない。
【0004】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、文書中の特殊記号である丸かっこに注目し、そ
の前後の語句が同義語であることが多いのを利用して同
義語を自動的に抽出し、また、検索時に同義語ファイル
あるいは辞書を参照するステップ無しで、同義語による
検索を可能にする検索システムを提供することを目的と
してなされたものである。
【0005】
【構成】本発明は、上記目的を達成するために、日本語
文書を入力する入力手段と、該入力手段により入力され
た文書を単語単位に分け、各々の単語に品詞を与える形
態素解析手段と、該形態素解析手段により与えられた品
詞情報にもとづいてキーワードを抽出し、同義語の認定
を行うキーワード・同義語抽出手段と、単語について同
義語になる語であるか否かを示す素性情報を記述した辞
書とから成り、前記同義語抽出手段が文書中に現れる特
殊記号を用いることにより同義語候補を抽出し、該抽出
した同義語候補から前記辞書を参照して同義語にならな
い語を除外して同義語を認定することを特徴としたもの
である。以下、本発明の実施例に基づいて説明する。
【0006】図1は、本発明による検索システムの一実
施例を説明するための構成図で、図中、1は文書入力手
段、2は形態素解析手段、3はキーワード・同義語抽出
手段、4は検索手段、5は出力手段、6は検索語入力手
段、7は検索語ファイル、8はキーワード・同義語ファ
イル、9は文書ファイルである。入力装置1により入力
された日本語文書は、形態素解析手段2により単語単位
に分けられ、それぞれの単語には品詞が与えられる。キ
ーワード抽出手段3においては、名詞,固有名詞,複合
名詞構成素など、定めた品詞(列)に該当する単語
(列)がキーワードとして抽出される。この処理中、同
義語の認定も行う。抽出されたキーワードと同義語情報
は、キーワード・同義語ファイル8に文書ごとに収めら
れる。検索手段4においては、検索語入力手段6より入
力された検索語によってキーワード・同義語ファイル8
を検索し、検索結果として文書データファイル9から文
書を出力する。キーワード・同義語ファイル8を参照し
たときに検索語が同義語を持つことがわかれば、その同
義語を検索語ファイル7に収め、新たに検索語とする。
【0007】図2は、キーワード抽出と同義語認定手段
の動作を説明するためのフローチャートである。以下、
各ステップに従って順に説明する。カウンターnの初期
値を0に、同義語認定処理フラグfはオフにしておく
(step1)。一語ずつ語をとり(step2,3)、キーワ
ードになるかは、品詞情報により判断する(step4)。
キーワードとなる語は、一般名詞,固有名詞,複合名詞
と、辞書未登録語だが名詞類と推定された語である。複
合名詞は、一般名詞と接辞などの複合名詞構成素から成
る。語がキーワードになる語である間、その語をスタッ
クに入れ、カウンターnに1を加えることを繰り返す
(step5)。語が名詞類または複合名詞構成素でなくな
ったら、スタックに積まれている語を取り出し、キーワ
ードとする(step7)。
【0008】取った語が開きかっこの時(step12)、
同義認定処理フラグを立て(step13)、次の語を取っ
てキーワード抽出処理を繰り返す。キーワードとして抽
出した語が開きかっこに先立たれている場合(つまり、
同義語処理認定フラグfが1の場合)(step8)、その
キーワードが同義語素性マイナスを持つ語を含むかどう
か辞書の素性情報(図4)を参照して調べ(step9)、
マイナスの素性があれば同義語とは認定せず、同義語処
理フラグをオフにする(step11)。同義語素性マイナ
スの語は数詞,地名などである。同義語素性マイナスの
語が含まれなければ、同義語と認定する(step10)。
その語を開き丸かっこの直前の語の同義語としてキーワ
ード・同義語テーブルに記録する。図5に示すように、
相互に同義語であるとわかるように記録する。キーワー
ド抽出処理を、さらに語を一つずつ取って進める。
【0009】図3は、検索手段の動作を説明するための
フローチャートである。以下、各ステップに従って順に
説明する。検索時には、検索手段が検索者の入力した検
索語と、文書キーワード・同義語ファイル中のキーワー
ド(すなわち、文書インデックス)とのマッチングを行
う。キーワードは文書ごとにつけられ、このファイルに
保持されている。始めに検索語種類識別フラグfを1に
しておく(step1)。マッチングにより、検索語がある
文書のキーワードと一致していることがわかった場合
(step5)、その文書番号を記憶し(step6)、後でそ
の文書を検索結果として文書データから取り出す。ま
た、その文書キーワードが同義語を持つかどうか同義語
の欄をチェックする(step8)。もしあれば、その同義
語を新たな検索語として検索語ファイルに保持する(st
ep9)。検索語種類識別フラグfを2にする(step1
0)。
【0010】検索者の入力した検索語と文書キーワード
とのマッチングが終わった後(step2)、検索語ファイ
ルに同義語があれば(つまり、フラグの値が2であれ
ば)(step3)、その同義語を新たな検索語として(st
ep4)、再び検索を行う(step2,5)。すなわち、新
しい検索語と文書キーワード・同義語ファイル中のキー
ワードとのマッチングを再び行う。この時、すでに最初
の検索語によってマッチされ、検索結果として得られた
文書は、対象から除外する。また、このマッチングを実
施するとき、文書キーワード・同義語ファイルの同義語
欄を参照することはしないで、マッチングだけを繰り返
す(step7)。もし参照した場合、得られる同義語は検
索者の最初に入力した検索語になるからである。以下に
同義語認定処理の実施例を示す。
【0011】実施例1 「RC総合研究所(本社東京、社長高原○×氏、資本金
八億五百万円)」「RC総合研究所」が固有名詞である
ため(図2−step4)、スタックに積みカウンターを1
とする(図2−step6)。次の語が開きかっこで、名詞
類,複合名詞構成要素ではないので、スタックに積んで
ある「RC総合研究所」を取り出し、キーワードとする
(図2−step7)。次の語は開きかっこなので、同義語
認定処理フラグを立てる(図2−step12,13)。さ
らに、次の語「本社」,「東京」が名詞なので、スタッ
クに順に積み(図2−step4,5)、次の語「、」が名
詞類または複合名詞構成素ではないので(図2−step
4)、スタックに積まれた「本社東京」をキーワードと
して取り出す(図2−step7)。同義語認定処理フラグ
がオンになっているので(図2−step8)、「本社東
京」が同義語素性マイナス(−)を持つ語を含んでいる
か辞書を参照して調べ(図2−step9,図4)、辞書に
同義語素性マイナスが記述されているので同義語としな
い。同義語認定処理フラグをオフにして、同義語認定処
理を終わる(図2−step11)。キーワード抽出処理は
さらに語を一つずつ取って進める(図2−step1)。
【0012】実施例2 「テック・アメリカ社(カリフォルニア州)」「テック
・アメリカ社」が固有名詞であり、キーワードとして抽
出される。次の語が開きかっこなので、同義語認定処理
用フラグを立てる。次の語「カリフォルニア」が名詞で
あり、キーワードとしては抽出するが、地名は同義語候
補とはしないので、同義語とはせず、同義語認定処理を
終わる。
【0013】実施例3 「四千百二十万円(消費税込み)」「四千百二十万円」
は開きかっこに先立つが、数詞や助数詞「円」は名詞類
ではないのでキーワードとしない。同義語認定処理も行
わない。
【0014】実施例4 「ブレイル・ブレーザー(三十八万円、消費税別)」
「ブレイル・ブレーザー」が固有名詞なので、スタック
に入れる。カウンターを1とする。次の語が開きかっこ
なので(図2−step4)、スタックに積んであった「ブ
レイル・ブレーザー」をキーワードとして抽出し、カウ
ンターは0に戻す(図2−step7)。開きかっこがあっ
たので、同義語認定処理用フラグを立てる(図2−step
12,13)。次の語「三十八」は数詞なのでキーワー
ドとしない。カウンターnが0なので(図2−step
6)、図2のstep11に進み、同義語認定処理用フラグ
をオフにし、同義語認定処理は終わる。キーワード抽出
処理は、図2のstep1に戻り続ける。
【0015】実施例5 「公衆網ではATM(非同期転送モード)交換機、企業
向けでは、」「ATM」が一般名詞なのでキーワードと
する(図2−step7)。次の語をとり、開きかっこなの
で同義語認定処理用フラグを立てる(図2−step1
3)。次の語を取り、キーワード条件を満たすか調べ
る。「非」は接辞で、複合名詞の構成素なのでスタック
に入れ、次の語をとる。「同期」,「転送」,「モード」
までが名詞なので、スタックに順に入れる。次の語が閉
じかっこで、名詞類または複合名詞構成素ではないの
で、「非同期転送モード」をスタックから取り出し、キ
ーワードとする(図2−step7)。同義語認定処理フラ
グが立っているので、キーワードの構成語が同義語マイ
ナス素性を持つか辞書を参照して調べる。持たないので
「ATM」の同義語であると認定する。図5に示すよう
に、キーワード・同義語テーブルにこの関係を記録す
る。又、「…非同期転送モード(ATM)交換機…」に
おいて、「ATM」が未登録語であるときは同義語マイ
ナス素性があるかどうか判断がつかない。このときは、
消極的意味において同義語マイナス素性を持たないと判
断し、「ATM」を「非同期転送モード」の同義語と認
定するようにする。以下に、上記「ATM(非同期転送
モード)」を例にとって、同義語による検索の実施例を
示す。
【0016】「ATM」という検索語に対し、キーワー
ド・同義語ファイルを照合すると(図3−step2,
5)、「非同期転送モード」が同義語であることがわか
る(図3−step8,図5)。これを検索語ファイルに保
持する(図3−step9)。検索語識別フラグfを2にす
る(step10)。「ATM」による検索が終わったら
(図3−step2)、検索語識別フラグfが2になってい
るので、検索語ファイルに保持された同義語「非同期転
送モード」を取り(図3−step4)、文書キーワード・
同義語ファイル中に一致するキーワードがあるかどうか
調べる(図3−step2,5)。この時、検索語識別フラ
グfが1ではないので、「非同期転送モード」に対して
同義語「ATM」があるが、これを再び検索語とするこ
とはしない(図3−step7)。この結果、検索語を「A
TM」と指定するだけで「非同期転送モード」は現われ
るが、「ATM」は現われない文書も検索結果として得
ることができる。キーワード・同義語ファイルに保持し
た同義語を検索者に示し、その語でも検索を行いたいか
確認を求め、行う必要があると検索者が要求したときの
み、その語による検索を実施するようにすることも可能
である。
【0017】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。書中に現われる特殊記
号である丸かっこのような特殊記号を用いることによ
り、自動的に同義語候補を抽出することができるので、
同義語辞書をあらかじめ作成する必要がない。また、検
索システム中に、同義語候補の単語についてその単語が
同義語になる語であるか否かを示す素性情報を記述した
辞書を備え、該辞書に記述された素性情報を参照して調
べ同義語候補の単語の中から同義語にはならない語は除
外するので、同義語の誤認定を防ぐことができる。
【図面の簡単な説明】
【図1】 本発明による検索システムの一実施例を説明
するための構成図である。
【図2】 本発明によるキーワード抽出と同義語認定処
理手段のフローチャートである。
【図3】 本発明による検索手段のフローチャートであ
る。
【図4】 本発明による辞書の一例を示す図である。
【図5】 本発明によるキーワード・同義語ファイルの
一例を示す図である。
【符号の説明】
1…文書入力手段、2…形態素解析手段、3…キーワー
ド・同義語抽出手段、4…検索手段、5…出力手段、6
…検索語入力手段、7…検索語ファイル、8…キーワー
ド・同義語ファイル、9…文書ファイル。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 日本語文書を入力する入力手段と、該入
    力手段により入力された文書を単語単位に分け、各々の
    単語に品詞を与える形態素解析手段と、該形態素解析手
    段により与えられた品詞情報にもとづいてキーワードを
    抽出し、同義語の認定を行うキーワード・同義語抽出手
    と、単語について同義語になる語であるか否かを示す
    素性情報を記述した辞書とから成り、前記同義語抽出手
    段が文書中に現れる特殊記号を用いることにより同義語
    候補を抽出し、該抽出した同義語候補から前記辞書を参
    照して同義語にならない語を除外して同義語を認定する
    ことを特徴とする検索システム。
JP12684892A 1992-04-20 1992-04-20 検索システム Expired - Fee Related JP3350556B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12684892A JP3350556B2 (ja) 1992-04-20 1992-04-20 検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12684892A JP3350556B2 (ja) 1992-04-20 1992-04-20 検索システム

Publications (2)

Publication Number Publication Date
JPH05298371A JPH05298371A (ja) 1993-11-12
JP3350556B2 true JP3350556B2 (ja) 2002-11-25

Family

ID=14945361

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12684892A Expired - Fee Related JP3350556B2 (ja) 1992-04-20 1992-04-20 検索システム

Country Status (1)

Country Link
JP (1) JP3350556B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152778A (ja) * 1993-11-29 1995-06-16 Sanyo Electric Co Ltd 文書検索装置
JP3333186B2 (ja) * 2001-09-12 2002-10-07 松下電器産業株式会社 文書検索システム
JP2006190044A (ja) * 2005-01-05 2006-07-20 Ricoh Co Ltd 関連文字列生成装置、プログラム、及び記憶媒体
JP5028823B2 (ja) * 2006-02-27 2012-09-19 沖電気工業株式会社 同義語対抽出装置及び同義語対抽出方法
US7831423B2 (en) 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
CN101876981B (zh) * 2009-04-29 2015-09-23 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
JP5145288B2 (ja) * 2009-05-14 2013-02-13 株式会社エヌ・ティ・ティ・データ 類義語辞書構築装置及び方法、コンピュータプログラム

Also Published As

Publication number Publication date
JPH05298371A (ja) 1993-11-12

Similar Documents

Publication Publication Date Title
US7120586B2 (en) Method and system for segmenting and identifying events in images using spoken annotations
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US6115683A (en) Automatic essay scoring system using content-based techniques
US6401061B1 (en) Combinatorial computational technique for transformation phrase text-phrase meaning
US8126897B2 (en) Unified inverted index for video passage retrieval
US20020048350A1 (en) Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
JP2012520527A (ja) ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法
JP3350556B2 (ja) 検索システム
JPH01217623A (ja) キーワード自動生成装置
JPH05120345A (ja) キーワード抽出装置
JP3544749B2 (ja) キーワード自動抽出装置
JPH10149370A (ja) 文脈情報を用いた文書検索方法および装置
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JPH08263521A (ja) 文書登録検索システム
JPS61248160A (ja) 文書情報登録方式
JPS5856071A (ja) 日本語による検索システム
JP2002183195A (ja) 概念検索方式
JPH07244669A (ja) 文書検索方式
JP3707506B2 (ja) 文書検索装置及び文書検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
Wutiwiwatchai et al. Hybrid statistical and structural semantic modeling for Thai multi-stage spoken language understanding
KR20020054244A (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JPH0773188A (ja) 情報抽出方法
JPH0749872A (ja) キーワード自動抽出方式
JPH05233689A (ja) 文書自動要約方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080913

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080913

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090913

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees