JPH06266769A - 同義語情報作成装置 - Google Patents

同義語情報作成装置

Info

Publication number
JPH06266769A
JPH06266769A JP5054399A JP5439993A JPH06266769A JP H06266769 A JPH06266769 A JP H06266769A JP 5054399 A JP5054399 A JP 5054399A JP 5439993 A JP5439993 A JP 5439993A JP H06266769 A JPH06266769 A JP H06266769A
Authority
JP
Japan
Prior art keywords
synonym
word
extraction
information
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5054399A
Other languages
English (en)
Other versions
JP3442422B2 (ja
Inventor
Kazuo Sumita
一男 住田
Seiji Miike
誠司 三池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP05439993A priority Critical patent/JP3442422B2/ja
Publication of JPH06266769A publication Critical patent/JPH06266769A/ja
Application granted granted Critical
Publication of JP3442422B2 publication Critical patent/JP3442422B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】文書データベースから、同義語情報を対話的に
作成する装置を提供する。この装置により自動的に作成
することが困難で、しかもすべて人手で作成しようとす
ると多大な手間を要する同義語辞書の作成を容易にす
る。 【構成】文書データを記憶する文書データ記憶部と、自
然言語文から抽出規則に基づいて同義語候補を抽出する
同義語候補抽出部、抽出した同義語候補の情報を表示
し、確認/修正/追加を行う表示・修正部を有する。 【効果】文書データとして記憶されている文書から、同
義語候補の情報を取り出し、確認/修正/追加を行いな
がら対話的に同義語辞書を構築する装置が提供できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書データベースに登
録される文書中の自然言語文を解析することにより、単
語もしくは複合語についての同義関係、上位−下位関係
などの同義語情報を取り出すための装置、並びに該同義
語情報作成装置で作成した同義語情報を用いて文書検索
を高精度に行う文書検索装置に関する。
【0002】
【従来の技術】従来より、同義語や上位概念語、下位概
念語を用いて文書検索の精度を向上させる試みがなされ
ている。しかしながら、従来の同義語情報を用いた文書
検索装置にあっては、同義語情報はすべて人手で準備
し、入力しなければならない。同義語情報は、文書デー
タベースに格納されている文書で用いられている語に強
く依存するため、一般的なものをあらかじめ準備するこ
とは不可能である。このため、取り扱う文書データベー
スごとに、同義語情報を準備する必要があり、正確な文
書検索を行う文書検索装置を実現するための同義語情報
作成に、多大な費用と手間がかかっていた。
【0003】このような同義語情報作成の一つとして、
国語辞書からシソーラスを作成する試みがなされている
(情報処理学会,自然言語処理研究会資料,83−1
6)。この文献では、国語辞書の語義文から、語間の上
位−下位関係を取り出し、これによりシソーラスを自動
的に構築しようとする方法が述べられている。しかし、
既に述べたように同義語情報として必要となる語は、検
索する文書データベースに依存する。このため、汎用の
シソーラスを作成しても、検索装置での利用価値は低い
といわざるを得ない。
【0004】また、上記の辞書の語義文からシソーラス
を構築する方法と同様の方法を利用して、同義語情報を
文から自動的に抽出する装置が開示されている(特開平
4−123264号公報)。この装置にあっては、あら
かじめ登録された同義関係を表現する構文パターンと入
力された文が照合する場合、照合した文中の対応する語
間に同義関係を自動的に付与する。そして、この同義関
係の情報を格納した同義語辞書を用いて文書を検索する
というものである。
【0005】しかしながら、自然言語解析の技術により
完全自動に正しい同義語情報を抽出することは、不可能
である。したがって、自動的な処理により同義語情報を
抽出した場合、正しくない同義関係や上位−下位関係に
ある語が取り出される場合がある。このような同義語情
報を格納した同義語辞書を用いて検索を行った場合、誤
った文書が検索されることになる。誤った文書を取り除
くというような手間がかえって増えてしまうという問題
があり、実用上の問題があった。
【0006】
【発明が解決しようとする課題】同義語情報をすべて人
手で入力する方法では多大な人件費が必要であり、現実
的ではない。また、辞書の語義文から同義語情報を作成
する方法においても、利用者にとって有用な同義語情報
を汎用的なものとして作成することはそもそも困難であ
るという問題から、利用者ごとに同義語情報を作成する
ことを効率化する装置の実現が望まれていた。加えて、
自然言語文から自動的に抽出した同義語情報には、誤り
が含まれており、自動的に同義語情報として、利用する
ことはできない。
【0007】本発明では、自然言語で書かれた文書から
同義語情報の候補を取り出し、その候補に基づいて修正
・追加を行い、文書検索のための同義語辞書を円滑に作
成する同義語情報作成装置を提供する。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、本発明における同義語情報作成装置においては、同
義語関係、上位−下位関係にある単語や複合語などの同
義語情報候補を自然言語文から抽出する手段、抽出した
同義語情報候補を表示する手段、表示した同義語情報候
補に対して修正・追加を施すための手段、修正・追加を
施した同義語情報候補を同義語辞書に登録する手段、さ
らに、同義関係を表現する自然言語文の代表例を入力す
ることにより、その文に対応する類似表現との照合をカ
バーする手段を有する。
【0009】加えて、本発明における同義語情報作成装
置においては、未登録語を検出する手段を有し、同義語
情報候補が抽出されなくても、未登録語について同義語
情報を入力することを促す。
【0010】また、同義語情報候補の高精度な抽出を可
能にするため、抽出規則に対して例外的な文パターンを
登録する手段を有し、ある文が例外的な文パターンに照
合した場合、対応する抽出規則に照合しても同義語情報
をその文から抽出しない。
【0011】
【作用】かくして同義語情報となる候補を文書から抽出
した後、利用者が確認するとともに修正、追加を行うこ
とができるので、高精度な文書検索を可能にするための
同義語辞書作成が容易に作成できるようになる。
【0012】
【実施例】まず、第1の実施例について説明する。本発
明の実施例を、図に基づいて説明する。図1に本発明の
実施例を構成するための機器構成図を図示する。
【0013】マウスなどのポインティングデバイスを含
むキーボードなどの入力手段101、CRTやビットマ
ップディスプレイなどの出力手段103、半導体メモリ
や磁気ディスク、光ディスクなどの記憶手段104、文
解析や同義語情報抽出の処理を行う処理手段102から
なる。
【0014】図2に機能構成図を図示する。文書データ
が格納されている文書データ記憶部205、一文ごとに
形態素解析、構文解析を行う文解析部201、同義語情
報の原語もしくは同義語として抽出する必要がない語を
登録する不要語辞書206、同義語情報を抽出するため
の構文パターンを記憶しておく抽出規則記憶部208、
抽出規則記憶部208ならびに不要語辞書に格納された
情報に従って、文解析部201から入力される構文構造
を解析し同語義候補を抽出し、同義語候補記憶部209
に格納する同義語候補抽出部202、同義語候補記憶部
209に格納されている候補をディスプレイ上に表示
し、同義語情報の追加・修正を行い、その結果を同義語
辞書207に格納する表示・修正部203、抽出規則記
憶部208に格納する抽出規則を入力する抽出規則入力
部204、同義語候補を記憶する同義語候補記憶部20
9、確定した同義語を格納する同義語辞書207、全体
の制御を行う制御部210からなる。
【0015】図2における、文書データ記憶部205、
不要語辞書206、抽出規則記憶部208、同義語辞書
207、同義語候補記憶部209は、図1における記憶
手段104に相当する。また、文解析部201、同義語
候補抽出部202、表示・修正部203、抽出規則記憶
部208、制御部210は、図1における処理手段10
2で実行される。
【0016】文解析部201の処理は、市販の機械翻訳
システムなどで用いられている形態素解析、構文解析の
技術を利用すれば良い。図3に、制御部210の処理の
流れを図示する。制御部210は、装置全体の制御を行
う要素モジュールである。制御部210は、キーボード
またはマウスからの入力待ちを行い、入力が行われた場
合、その入力コードに従って処理を行う。すなわち、
“抽出”命令の入力が行われた場合、図4(a)の抽出
処理を起動する。“規則入力”命令の入力が行われた場
合、図4(b)の規則入力処理を起動する。“表示・修
正”命令の入力が行われた場合、図4(c)の表示・修
正処理を起動する。さらに、“終了”命令の入力が行わ
れた場合、全体の処理を終える。
【0017】抽出処理の起動では、文書データ記憶部2
05に格納されている文を対象にして、文解析部201
を起動することにより構文解析を行う。次に、得られた
構文解析結果を入力として同義語候補抽出部202を起
動し、同義語候補抽出を行う。
【0018】図5に、同義語候補抽出部の処理の流れを
図示する。同義語候補抽出部202では、入力された構
文パターンが、抽出規則記憶部208に格納されている
抽出規則に照合するかどうかを調べ、照合する場合、
(原語,同義語候補,関係)の3つ組を同義語候補記憶
部209に格納する。なお、原語や同義語候補が、不要
語辞書206に登録されている場合や、取り出した原語
と同義語のペアが同義語候補記憶部209にすでに格納
されている場合については、同義語候補記憶部209に
格納しない。
【0019】図6に、不要語辞書206の形式、並びに
その格納内容の一例を図示する。不要語辞書206は、
検索にとってキーワードになり得ない語を登録する辞書
である。図示したように、見出しと、品詞から構成され
ている。図示した例では、例えば、「こと」や「もの」
などの名詞がキーワードとして不要であることを示す内
容が格納されている。
【0020】図7に、抽出規則記憶部208の形式、並
びにその格納内容の一例を図示する。抽出規則記憶部2
08は、同義語情報を抽出するための構文パターンと、
その構文パターンで取り出される語間の関係を格納して
おくものである。図示した例の規則1は、「A1はA2
の一種である。」という文についての構文パターンと、
その構文パターンが表現する関係は、上位関係であるこ
とを示している。ここで、“A1”と“A2”は特別な
意味を有しており、それぞれ原語とその原語に対する同
義語(上位語、下位語を含む)を表している。
【0021】また、“ga”,“dk”,“no”は、
構文における格を表現している。図8に、ある文に対し
て抽出処理を行った例を図示する。入力文に対して、図
4(a)に示したステップ302において文解析が行わ
れる。次に、ステップ303において同義語候補抽出部
202が起動される。
【0022】同義語候補抽出部202では、図5に図示
の処理フローに従い、抽出規則記憶部208に格納され
ている抽出規則と照合を行う。図8に図示した例では、
規則2が照合する。抽出規則の“A1”と“A2”に照
合する語は、それぞれ「CD」と「譲渡性預金」であ
る。したがって、同義語候補記憶部に格納される3つ組
は、(CD,譲渡性預金,同義)ということになる。
【0023】図9に、同義語候補記憶部の形式、並びに
その格納内容の一例を図示する。同義語候補記憶部に
は、最低限(原語,同義語,関係)の3つ組が格納され
るが、図示した例では、照合際の情報として照合に用い
られた規則のアイデンティファイアをも格納している。
【0024】図10乃至図13に、表示・修正部203
の処理の流れを図示する。また、表示と入力の例を図1
3に図示する。図13(b)において、1001の領域
は原語を表示する領域、1002の領域は上位語を表示
する領域、1003の領域は同義語を表示する領域、1
004の領域は下位語を表示する領域である。また、1
005の領域には表示・修正部に対するコマンド入力の
ためのボタンを配置している。図13では、上位語、下
位語、同義語などの種別を表す表示をしていないが、こ
れらの種別を表示しておいてもかまわない。
【0025】表示・修正部203は、起動された後、同
義語候補記憶部209に格納された原語リストを一覧表
示する(図13(a))。表示された一覧表示から原語
を選択することにより、その原語に対応する同義語情報
を表示する(図13(b))。
【0026】同義語情報を表示した時点で、図13
(b)で表示されているメニューに従い、“修正”命
令,“次”命令,“格納”命令,“関連語”命令,“終
了”命令のいずれかの入力が行われるのを待つ。
【0027】“修正”命令の場合、図10ステップ90
6において修正処理を実行する。修正処理は、図11及
び図12のステップ915以下のサブルーチンである。
“次”命令の場合、確認修正が行われていない原語につ
いて同義語情報を表示する。
【0028】“格納”命令の場合、現在表示している同
義語情報を同義語辞書に格納するとともに、同義語候補
記憶部209から削除する。“関連語”命令の場合、現
在確認修正中の同義語情報に含まれる語と関連する語
(他の同義語情報に存在する語)を、同義語候補記憶部
209ならびに同義語辞書207からすべて検索し、こ
れらの語の一覧を表示する(図13(d))。図13
(d)において、“→”は下位語から上位語への関係
を、“=”は同義関係をそれぞれ表現している。
【0029】“終了”命令の場合、同義語情報の表示を
消し、表示・修正部の処理を終える。“修正”命令の場
合、ステップ906により、ステップ915以下の処理
が行われる。ここでは、同義語情報として表示されてい
る個々の語が処理対象となる。このため、修正対象とす
る語を、“修正ポインタ”と呼ぶ変数により管理し、そ
のポインタで指し示されている語については、強調表示
を行う。
【0030】修正対象を移動するために、利用者が入力
する入力コードが、あらかじめ定められた“次単語”命
令,“前単語”命令,“次関係”命令,“前関係”命令
に対応するコードの場合、それぞれに対応して、修正ポ
インタの値を変更した後、ステップ916において強調
表示の位置を変更する。
【0031】なお、ここでの“次関係”というのは、修
正ポインタが上位語のフィールド内の語を指していれば
同義語のフィールドに、同義語のフィールド内の語を指
していれば下位語のフィールドに、下位語のフィールド
を指していれば上位語のフィールドに、修正ポインタの
指す語を変更する命令のことである。
【0032】なお、下位語の最終単語を修正ポインタが
指している場合、“次単語”命令が入力された場合は、
上位語の最初の単語に修正ポインタが移るというよう
に、サイクリックに移動する。
【0033】“単語修正”命令が入力された場合、図1
2のステップ927において単語の修正のための入力を
受けつける。すなわち、図13(c)のように、カーソ
ルが表示され、修正入力を受けつける。
【0034】“単語追加”命令が入力された場合、ステ
ップ929において単語を追加するための処理を行う。
例えば、図13において直前の修正ポインタの位置が
“預金”である場合図14(f)のように、直前のポイ
ンタが“譲渡性預金”である場合図14(g)のよう
に、入力の領域を確保し、カーソルを表示する。
【0035】“削除”命令が入力された場合は、修正ポ
インタが指し示す単語を削除する。なお、図13(e)
は、対象としている関係についての同義語候補が存在し
ない場合を示している(図では下位語)。この場合に、
“単語追加”命令を入力した場合は、同じ位置にカーソ
ルを表示し、単語の入力を受けつける。
【0036】本実施例の表示・修正部203では、原語
リストを始めに表示し、そのリストから修正する原語を
利用者が選択するものとしたが、同義語候補記憶部20
9に格納されている最初の原語についての同義語情報を
表示するように変形することも可能である。
【0037】図15に、同義語辞書207の形式、並び
にその格納内容の一例を図示する。同義語辞書は、原語
見出し、関係、同義語から構成されており、図15の例
では、例えば、「CD」という原語に対して「預金」と
いう語が上位語であり、「譲渡性預金」という語が同義
語であり、下位語に相当する語がないことを示してい
る。
【0038】図16に、抽出規則入力部204の処理の
流れを図示する。また、図18にその表示と入力例を図
示する。抽出規則入力部204では、入力する構文パタ
ーンならびに関係を、それぞれ構文パターン一時記憶と
関係一時記憶に格納して管理する。
【0039】抽出規則入力部204では、利用者の入力
する命令(“入力”命令,“関係入力”命令,“格納”
命令,“終了”命令のいずれか)に従って対応する処理
を行う。
【0040】“入力”命令の場合、図16のステップ1
204以下の処理を行う(図18(a))。すなわち、
利用者の入力を受けつけ(図18(b))、入力された
文に対して文解析を行った後、解析結果の構文パターン
を構文パターン一時記憶に格納する。ただし、入力文中
に、原語を意味する文字列“A1”や同義語を意味する
文字列“A2”が存在しない場合、その警告を表示する
(図18(d))。
【0041】“関係入力”として、“上位”,“同
義”,“下位”のいずれかが入力された場合、関係一時
記憶に格納し、図18(c)のように表示する。“格
納”命令が入力された場合、構文パターン一時記憶ある
いは関係一時記憶に各々のデータが格納されている場
合、抽出規則記憶部208にデータを格納する。一時記
憶にデータが設定されていない場合については、図18
(e)のように警告を表示する。
【0042】図17に、抽出規則入力部204で入力し
た文が規則に変換される例を図示する。入力文におい
て、文字列“A1”と“A2”はそれぞれ原語と同義語
とを意味する。
【0043】以上のように、本実施例では、文書データ
記憶部205に格納されている文書内の文から同義語候
補を抽出し、その情報の確認/修正/追加が容易に行え
る装置を提供することが可能となる。
【0044】次に、第2の実施例について説明する。実
施例2では、未登録語の処理を同義語候補抽出部202
に付け加える。一般に文書検索においては、重要なキー
ワードとなる語は、汎用で用意されている語ではない場
合が多い。例えば、新聞記事の検索を考えた場合、固有
名詞がキーワードとして重要となるし、新製品発売の記
事に特定した場合は、製品名がキーワードとして重要に
なる。このような語をあらかじめ準備しておくことはそ
もそも不可能である。したがって、形態素解析や構文解
析などでは、これらの語は未登録語として取り扱われる
ことになる。
【0045】これら未登録語に関して、同義語情報を入
力することが重要となる。図19に、実施例2について
の同義語候補抽出部202の処理の流れを図示する。ま
ず始めにステップ1501で入力された文中に未登録語
があるかどうかを判定し、存在しない場合については、
ステップ1506で図5で図示した処理を行う。
【0046】次に未登録語を原語とした場合に、抽出規
則と照合するかどうかを判定し(ステップ1502)、
同義語候補としてすでに取り出されていたり、原語ある
いは同義語候補が不要語辞書中に存在しない場合につい
て、(原語,同義語候補,関係)の3つ組を同義語候補
記憶部209へ格納する(ステップ1503、150
4、1505)。
【0047】抽出規則と照合しない場合については、ス
テップ1507において(原語,<null>,<nu
ll>)の3つ組を同義語候補記憶部へ格納する。他の
処理部については、実施例1とまったく同じであるので
詳細な説明は省略する。
【0048】以上のように実施例2では、未登録語につ
いても同義語候補記憶部209に格納するので、表示・
修正部303は実施例1とまったく同じ処理で行うこと
ができる。
【0049】なお、未登録語抽出を重要語抽出に置き換
えることも可能である。重要語抽出については、従来よ
り開示されている既存の処理(電子情報通信学会論文
誌,D−I,Vol.J74−D−I,No.8)を用
いれば良い。すなわち、あらかじめ文書データ記憶部2
05に格納されている文を解析して、重要語を判定し、
重要語テーブルを作成しておく。
【0050】同義語候補抽出部202では、入力文中に
重要語テーブルに含まれている重要語が存在する場合、
図19と同様の処理を行うように変形することが可能で
ある。
【0051】次に、第3の実施例について説明する。実
施例1では、陽の抽出規則に基づいて同義語情報を抽出
したが、抽出規則の構文パターンを陽に表現するだけで
は困難である。そこで、実施例3では、負の規則として
2つのタイプの規則を記述できるように変形する。1つ
は構文パターンの例外を表現するタイプであり、もう1
つはその構文パターンに照合した場合同義関係として取
り出さないことを意味するタイプである。
【0052】図20に、例外規則についての記憶の例を
図示する。規則15は、例外規則の記述例である。“n
ull−同義”という関係は、構文パターンと照合した
場合、対応する規則(規則2)と照合するが、その照合
を無効にすることを意味している。すなわち、「電子化
辞書とは電子的辞書のことでない。」という文は、「A
1とはA2のことである」という文の構文パターンに照
合するが、「電子化辞書」と「電子的辞書」を同義語と
して取り出さないことを意味する規則である。
【0053】このタイプの規則は、対応する規則につい
てのみ有効な規則である。また、規則16は、無効化規
則の記述例である。“not−同義”という関係は、構
文パターンと照合する場合、その語の組合せは、同義関
係にはならないということを意味する。この例は、「A
1はA2と違う。」というように表現された語の間に
は、同義語関係を一切設定しないということを意味して
いる。
【0054】この規則に照合した場合、無効語関係テー
ブル((原語,同義語,関係)の3つ組からなる)に各
データを格納する。そして、この組に照合する語につい
て以降、同義語候補として取り出さない。
【0055】例外規則についての処理を同義語候補抽出
部202に付加する。処理の流れを図21に図示する。
本実施例では、例外規則に無効化規則に入力文が照合し
た場合、それ以降の抽出処理でその情報が利用されるよ
うな構成になっている。しかし、これを例外規則や無効
化規則に入力文が照合した場合、同義語候補記憶部20
9を走査して、対応する同義語情報を探し出し、それら
を同義語候補記憶部209から削除するように変形する
ことは容易である。さらに、削除すべきであることを示
すフラグを格納するフィールドを(原語,同義語,関
係)の3つ組に対して新たに設けることにより、一括に
削除はせず対話的に削除確認ができるように、表示・修
正部を変形することも容易である。
【0056】次に、第4の実施例について説明する。実
施例4においては、同義語候補抽出部で抽出する同義語
情報を他の原語に対しても適応する処理を付加する。図
22に、本実施例の同義語候補抽出部202の処理の流
れを図示する。実施例2の同義語候補抽出部の処理の流
れを図示した図19との違いは、ステップ1808と1
809であり、それ以外のステップ(1801〜180
7)は図19のステップ(1501〜1507)とまっ
たく同じである。
【0057】入力文が抽出規則と照合しない場合、ステ
ップ1808において処理対象の未登録語と、同義語候
補記憶部209あるいは同義語辞書207に格納されて
いるすべての原語との文字列の一致度を計算する。この
一致度があらかじめ定めたしきい値を越え原語が存在す
る場合、ステップ1809において、その原語に付与さ
れている同義語情報(上位語、下位語、同義語)を読み
込み、処理対象となっている未登録語の同義語情報とし
て同義語候補記憶部209に格納する。
【0058】一致度の計算としては、例えば以下のよう
な式を用いる。 S(A,B) = C(A,B)/Max(A,B) …(1) 上の式において、AとBは一致度を計る単語であり、M
ax(A,B)はAかBの単語のうち長い文字列の側の
文字列長、C(A,B)はAとBとで一致する文字列長
である。例えば、A=“J3100”、B=“J310
0ZD”とした場合、次のように計算できる。
【0059】 S(“J3100”,“J3100ZD”)=5/7=
0.7 …(2) この値が、あらかじめ定めたしきい値より高い場合、ス
テップ1809を行う。例えば、同義語候補記憶部20
9に、(“J3100”,“パソコン”,上位)という
情報が格納されている場合、未登録語として新たに“J
3100ZD”が入力されることを仮定すると、同義語
候補記憶部209に格納されている文字列の一致度の高
い原語(“J3100”)の同義語情報(“パソコン”
上位)を読み込み、これから(“J3100ZD”,
“パソコン”,上位)を新たに同義語候補記憶部209
に格納する。
【0060】なお、式(1)は、文字列の一致を計るた
めの尺度として、種々の変形を行うことは可能であるこ
とはいうまでもない。実施例1から4では、抽出規則を
入力する手段を有していた。しかし、抽出規則はあらか
じめ格納しておくものとし、抽出規則入力部204を省
略した形で装置を構成することは可能である。すなわ
ち、抽出規則として汎用的に用意できるものは、あらか
じめ用意しておくことにより、利用者の手間は削減でき
る。
【0061】また、不要語辞書206を持たない構成と
することにより、より簡単な構成とすることも可能であ
る。さらに、説明した実施例では、同義語候補記憶部2
09と同義語辞書207とを別々にして構成したが、こ
れらを一つにまとめて構成することは可能である。この
場合、確認/修正/追加を終えたか否かの情報を、各原
語と同義語情報について付与できるようにする必要があ
る。
【0062】又、上記実施例では同義語辞書207は1
つであったが、複数のユーザが共通の辞書を使用するこ
とを想定し、同義語辞書207をユーザに応じて複数設
けても構成してもよい。
【0063】
【発明の効果】本発明によれば、文書データとして記憶
されている文書から、同義語候補の情報を取り出し、確
認/修正/追加を行いながら対話的に同義語辞書を構築
する装置が提供できる。この装置により、自動的に抽出
しては得らることができない高精度な同義語辞書を容易
に作成することができるようになる。
【図面の簡単な説明】
【図1】 機器構成を示す図。
【図2】 機能構成を示す図。
【図3】 制御部の処理の流れを示すフロー図。
【図4】 抽出処理,規則入力処理,表示・修正処理を
示すフロー図。
【図5】 同義語候補抽出部の処理の流れを示すフロー
図。
【図6】 不要語辞書の例を示す図。
【図7】 抽出規則記憶部の例を示す図。
【図8】 抽出処理例を示す図。
【図9】 同義語候補記憶部の例を示す図。
【図10】 表示・修正部の処理の流れを示すフロー
図。
【図11】 修正処理実行の流れを示すフロー図。
【図12】 修正処理実行の流れを示すフロー図。
【図13】 表示・修正部の表示例を示す図。
【図14】 表示・修正部の表示例を示す図。
【図15】 同義語辞書の例を示す図。
【図16】 抽出規則入力部の例を示す図。
【図17】 抽出規則入力部の解析例を示す図。
【図18】 抽出規則入力部の表示例を示す図。
【図19】 実施例2の同義語候補抽出部の処理の流れ
を示すフロー図。
【図20】 例外規則、無効化規則の記憶例を示すフロ
ー図。
【図21】 実施例3の同義語候補抽出部の処理の流れ
を示すフロー図。
【図22】 実施例4の同義語候補抽出部の処理の流れ
を示すフロー図。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】文書データを格納する文書データ記憶手段
    と、文書データ記憶手段中の文書内の各文に対して構文
    解析を行う構文解析手段と、かかる構文解析手段により
    得られる構文パターンから同義語候補を抽出する同義語
    候補抽出手段と、この同義語候補抽出手段により得られ
    る同義語候補を格納する同義語候補記憶手段と、この同
    義語候補記憶手段に格納する前記同義語候補に対し修正
    /確認/追加を行う修正手段を有することを特徴とする
    同義語情報作成装置。
  2. 【請求項2】同義語候補抽出手段において、構文パター
    ンと同義語関係の対を抽出規則としてあらかじめ格納し
    ておき、その抽出規則と照合することにより同義語候補
    抽出を行うことを特徴とする請求項1記載の同義語情報
    作成装置。
  3. 【請求項3】請求項1記載の同義語情報作成装置に文中
    の未登録語を検出する手段を設け、未登録語については
    抽出規則に照合しない場合についても同義語候補記憶手
    段に格納することを特徴とする請求項1の同義語情報作
    成装置。
  4. 【請求項4】請求項2記載の同義語情報作成装置に抽出
    規則の他に、対応する抽出規則の例外を記述する例外規
    則記憶手段と、照合する語の間については同義関係を結
    ばないことを記述する無効化規則記憶手段とを設けるこ
    とを特徴とする同義語情報作成装置。
  5. 【請求項5】請求項3記載の同義語情報作成装置に語間
    の文字列の一致度を判定する手段を設け、ある原語につ
    いて抽出した同義語情報を、その原語と一致度の高い語
    にも付与することを特徴とする同義語情報作成装置。
JP05439993A 1993-03-15 1993-03-15 同義語情報作成装置および方法 Expired - Fee Related JP3442422B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05439993A JP3442422B2 (ja) 1993-03-15 1993-03-15 同義語情報作成装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05439993A JP3442422B2 (ja) 1993-03-15 1993-03-15 同義語情報作成装置および方法

Publications (2)

Publication Number Publication Date
JPH06266769A true JPH06266769A (ja) 1994-09-22
JP3442422B2 JP3442422B2 (ja) 2003-09-02

Family

ID=12969617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05439993A Expired - Fee Related JP3442422B2 (ja) 1993-03-15 1993-03-15 同義語情報作成装置および方法

Country Status (1)

Country Link
JP (1) JP3442422B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287080A (ja) * 1995-04-11 1996-11-01 Fuji Xerox Co Ltd 関連語辞書作成装置
JPH11272695A (ja) * 1998-03-20 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置及びその方法並びに情報記憶媒体
JP2006163941A (ja) * 2004-12-08 2006-06-22 Nec Corp 重複レコード検出システム、および重複レコード検出プログラム
JP2010282517A (ja) * 2009-06-05 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> 言語資源情報生成装置、方法、プログラム、および記録媒体
US8812297B2 (en) 2010-04-09 2014-08-19 International Business Machines Corporation Method and system for interactively finding synonyms using positive and negative feedback
JP2020067971A (ja) * 2018-10-26 2020-04-30 株式会社日立製作所 情報処理システムおよび情報処理方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287080A (ja) * 1995-04-11 1996-11-01 Fuji Xerox Co Ltd 関連語辞書作成装置
JPH11272695A (ja) * 1998-03-20 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置及びその方法並びに情報記憶媒体
JP2006163941A (ja) * 2004-12-08 2006-06-22 Nec Corp 重複レコード検出システム、および重複レコード検出プログラム
JP2010282517A (ja) * 2009-06-05 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> 言語資源情報生成装置、方法、プログラム、および記録媒体
US8812297B2 (en) 2010-04-09 2014-08-19 International Business Machines Corporation Method and system for interactively finding synonyms using positive and negative feedback
JP2020067971A (ja) * 2018-10-26 2020-04-30 株式会社日立製作所 情報処理システムおよび情報処理方法

Also Published As

Publication number Publication date
JP3442422B2 (ja) 2003-09-02

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
EP0423683B1 (en) Apparatus for automatically generating index
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US6496820B1 (en) Method and search method for structured documents
JPH0630066B2 (ja) テーブル型言語翻訳方法
JPH09259140A (ja) 情報検索方法、情報検索装置及び情報検索プログラムを格納する媒体
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP3442422B2 (ja) 同義語情報作成装置および方法
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JPH0877196A (ja) 文書情報抽出装置
JP2003178055A (ja) 文書データの関連性抽出装置及び抽出プログラム
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP3266755B2 (ja) 中国語情報処理装置
JP7361525B2 (ja) 用語辞書作成装置、用語辞書作成方法、及びプログラム
JP3470930B2 (ja) 自然語解析方法及び装置
JP4922030B2 (ja) 文字列検索装置、方法及びプログラム
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JPH0561902A (ja) 機械翻訳システム
JPH04673A (ja) 連語登録方法および装置
JPH08263490A (ja) 法規文書更新システム
JPH03233669A (ja) 文書作成装置
JP3508312B2 (ja) キーワード抽出装置
JPH10149364A (ja) 訳語選択装置と記憶媒体
JPH05189485A (ja) キーワード検索方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees