JPH10207910A - 関連語辞書作成装置 - Google Patents

関連語辞書作成装置

Info

Publication number
JPH10207910A
JPH10207910A JP9019901A JP1990197A JPH10207910A JP H10207910 A JPH10207910 A JP H10207910A JP 9019901 A JP9019901 A JP 9019901A JP 1990197 A JP1990197 A JP 1990197A JP H10207910 A JPH10207910 A JP H10207910A
Authority
JP
Japan
Prior art keywords
related word
word dictionary
noun
verb
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9019901A
Other languages
English (en)
Other versions
JP3596210B2 (ja
Inventor
Mamiko Oka
満美子 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP1990197A priority Critical patent/JP3596210B2/ja
Publication of JPH10207910A publication Critical patent/JPH10207910A/ja
Application granted granted Critical
Publication of JP3596210B2 publication Critical patent/JP3596210B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 検索キーを検索に適した関連語に展開するた
めの関連語辞書を容易に作成する。 【解決手段】 形態素解析部21が情報記憶部1に記憶
された文書中のテキストデータから動詞語句及び名詞語
句を特定し、係り受け解析部24が同一の動詞語句に対
して係り受け関係を有する複数の名詞語句を解析し、情
報抽出部3が前記複数の名詞語句を抽出し、関連語セッ
ト登録部4が抽出された名詞語句同士を互いに関連付け
て関連語辞書5に登録する。したがって、種々の関連を
有する名詞語句同士互いに関連付けた関連語辞書を容易
に作成でき、当該関連語辞書を使って検索キーを関連語
に展開することによって、例えば、情報探索、或いは着
想及び発想支援等といったことを目的とした検索におい
ても、適切な検索を行うことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索キーとなる語
句を関連する他の語句に展開するための関連語辞書を作
成する関連語辞書作成装置に関する。
【0002】
【従来の技術】従来より、ユーザが必要とする文書を検
索する情報検索システムとして、ユーザが検索キーとな
る語句を指定した場合に、例えば、予め各文書に付与さ
れているキーワードと照合するもの(所謂、キーワード
検索)や、文書に含まれている語句と照合するもの(所
謂、全文検索)等といったものが提案されている。
【0003】この情報検索システムでは、ユーザが指定
した検索キーと、完全に一致するキーワード(例えば、
キーワード検索の場合には文書に付与されたキーワー
ド、全文検索の場合には文書中に含まれている語句)を
持った文書だけを検索していた。このような情報検索装
置に対して、指定した検索キーと完全に一致するキーワ
ードをもった文書だけでなく、指定した検索キーと関連
するキーワードをもった文書についても検索したいとい
った要求があり、ユーザが指定した検索キーをシソーラ
スによって類義語、上位概念、下位概念等といった関係
を有する語句(以下、関連語という。)に展開し、当該
関連語を使って検索する情報検索システムも提案されて
いる。ここで、関連語とは、語句と何らかの関連を有す
る他の語句のことをいい、上記した語句と類義語、上位
概念、下位概念等といった関係を有する他の語句のみな
らず、種々のものが考えられている。
【0004】以下、関連語に関する発明について例をあ
げて説明する。検索キーを展開するために関連語を抽出
する発明が特開平6−274541号公報(以下、文献
1という。)に記載されている。この発明は、文献ごと
に単語の出現頻度を抽出し、各単語と当該文献において
高い出現頻度を有する単語とを互いに関連語として登録
し、検索時における検索キーの展開においては前記関連
語を利用するものである。
【0005】また、関連語の抽出及び利用に関する発明
が特開昭63−311432号公報(以下、文献2とい
う。)に記載されている。この発明は、文書に対するキ
ーワードの付与又は検索時におけるキーワードの検出を
適切に行うという目的で提案されており、2つ以上の分
野が交わっている分野で使用される単語の関連語を探す
ものある。すなわち、複数の単語と、当該複数の単語か
ら連想される一つまたは複数の単語とのペアの情報が記
憶された連想語辞書を予め保持しておき、ユーザが思い
ついた複数のキーワードによって連想語辞書を検索する
ことで、キーワードのすべて又は一部に対する関連語
(文献2中では、連想語)を得て、当該関連語を前記キ
ーワードに加えて、終了条件を満たすまで前記連想語辞
書に対する検索を繰り返して関連語を得るものである。
【0006】なお、検索以外を目的とした発明ではある
が関連語を抽出するものが特開平7−28823号公報
(以下、文献3という。)及び特開平7−36883号
公報(以下、文献4という。)に記載されている。文献
3に記載された発明は、かな漢字変換における同音異義
語を区別するために用いる関連語(文献3中では、共起
語)を抽出するもので、予め同音語の候補を保持してお
き、当該同音語が出現した場合に、同一文中で出現する
他の単語を関連語として抽出するものである。また、文
献4に記載された発明は、かな漢字変換における変換効
率を向上させるためのもので、同一文中に出現するすべ
ての自立語のペアを関連語として取り出し、出現頻度を
カウントして共起辞書として登録するものである。
【0007】
【発明が解決しようとする課題】上記したシソーラスに
よって関連語を得るには、予めシソーラスを作成してお
かなければならず、人手でシソーラスを作成する場合に
は多大な手間と労力とを要してしまうといった問題があ
る。また、コンピュータ等によってシソーラスを作成す
る場合には、適切な関連語を得ることができるシソーラ
スを作成することは非常に困難である。
【0008】また、シソーラスによって得られる関連語
は、検索キーと概念体系上の同義関係、上下関係などを
持つものに限られており、例えば、検索キーが「車」の
場合における語句「渋滞」等といった検索キーと関連を
有するが前記概念体型上の関係を有さない語句について
は得ることができなかった。したがって、漠然とした知
りたい内容についての記述を探す情報探索の場合や、ア
イデアの断片や解決したい問題に関連する文書を発散的
に探す着想及び発想支援の場合等にあっては、検索キー
と概念の上下関係のような明確な関係を有した関連語し
か得られないために、必要とする文書を適切に検索する
ことができなかった。
【0009】これに対して、文献1に記載された発明で
は、文献中に出現する語句に対して当該文献中に高い割
合で出現する語句を関連語として登録するために容易に
関連語辞書を作成することができる。しかしながら、一
の語句に対する関連語は同一の文献に同時に出現する語
句であり、同一文献において同時に出現するからといっ
て、一の語句に強い関連を有する適切な関連語というこ
とはできない。例えば、文献が1つのテーマについて記
述されている場合には、一の語句と関連を有する可能性
があるものが関連語とされており、関連を有するとは限
らない。また、日記や手紙等といった個人が記述したテ
キストのように関連のない複数のテーマが記述されてい
る場合には、一の語句と全く関連を有さない語句が関連
語となってしまう。したがって、上記した関連語によっ
て検索を行うと、ユーザが必要とする文献を適切に検索
できるとは限らない。
【0010】また、文献2に記載された発明では、複数
の単語とその連想語(関連語)からなる連想語辞書に対
して検索キーを使って検索を行い、検索結果を前記検索
キーに加えるといったことを繰り返すことにより検索キ
ーにより展開される連想語を増やすところに特徴がある
が、増やされる連想語は連想語辞書から出てくるもので
あるので、検索に適した連想語を得るか否かは作成され
ている連想語辞書が鍵となっている。しかしながら、こ
の連想語辞書の作成方法に関しては何ら開示されていな
い。
【0011】本発明は上記した従来の事情に鑑みてなさ
れたものであり、検索キーを検索に適した関連語に展開
するための関連語辞書を容易に作成することのできる関
連語辞書作成装置を提供することを目的としている。
【0012】
【課題を解決するための手段】上記した目的を達成する
ために本発明は、文書中の一文において同一の動詞語句
に係り受け関係を有する名詞語句同士が互いに関連して
いるとともに、前記名詞語句同士の関連が、概念の上下
関係のような明確な関連に限らず、他の種々の関連を持
っていることに着目してなされたものである。例えば、
「箱根からAさんに湖の絵葉書を出した。」という文で
は、動詞語句「出す」に対して同時に係り受け関係を有
する3つの名詞語句「箱根」「Aさん」「絵葉書」が互
いに関連し、これら名詞語句の関連は概念の上下関係と
いった関連に限ったものではないことがわかる。
【0013】そこで、本発明に係る関連語辞書作成装置
は、検索キーとなる語句を関連する他の語句に展開する
ための関連語辞書を作成する関連語辞書作成装置におい
て、テキストデータを含む文書を記憶する情報記憶手段
と、文書中のテキストデータから動詞語句及び名詞語句
を特定する特定手段と、同一の動詞語句に対して係り受
け関係を有する複数の名詞語句を抽出する抽出手段と、
抽出された名詞語句同士を互いに関連付けて関連語辞書
に登録する登録手段と、を備えたことを特徴とする。こ
こで、名詞語句とは、名詞、名詞句、複合名詞等といっ
た名詞概念を持った語句のことをいい、また、動詞語句
とは、動詞、動詞句、複合動詞等といった動詞概念を持
った語句のことをいう。
【0014】上記した関連語辞書作成装置では、特定手
段が情報記憶手段に記憶された文書中のテキストデータ
から動詞語句及び名詞語句を特定し、抽出手段が同一の
動詞語句に対して係り受け関係を有する複数の名詞語句
を抽出し、登録手段が抽出された名詞語句同士を互いに
関連付けて関連語辞書に登録する。したがって、種々の
関連を有する名詞語句同士互いに関連付けた関連語辞書
を容易に作成でき、当該関連語辞書を使って検索キーを
関連語に展開することによって、例えば、情報探索、或
いは着想及び発想支援等といったことを目的とした検索
においても、適切な検索を行うことができる。
【0015】更に、本発明に係る関連語辞書作成装置
は、前記記憶手段は特定人によって作成されたテキスト
データを含む文書を記憶し、前記登録手段は、前記特定
人毎に関連語辞書を作成することを特徴とする。ここ
で、特定人とは、個人、或いは、同一の研究分野に属す
る人々、同一の会社に属する人々、等といった或る共通
する環境に属する人々を意味している。
【0016】上記した関連語辞書作成装置では、特定人
によって作成された文書に基づいて前記特定人毎の関連
語辞書を作成する。したがって、特定人によって関連が
あると把握されている名詞語句同士を互いに関連付けた
関連語辞書を作成でき、この関連語辞書によって特定人
の考えにあった適切な関連語に検索キーを展開させるこ
とができる。
【0017】
【発明の実施の形態】本発明の第1実施例に係る関連語
辞書作成装置を図1を参照して説明する。この関連語辞
書作成装置は、情報記憶部1と、テキスト解析部2と、
情報抽出部3と、関連語セット登録部4とを備えてい
る。
【0018】情報記憶部1は、例えば、磁気ディスク等
といった情報を記憶する装置を有し、特定人(例えば、
個人)によって書かれたテキストデータを含む文書を記
憶する。なお、情報を記憶する装置は、ネットワーク上
の離れた場所に設置してもよく、また、複数の装置によ
って構成してもよい。なお、上記した文書にはテキスト
データの他に絵や図形などのデータを含んでいてもよ
い。
【0019】テキスト解析部2は、形態素解析部21
と、名詞共起ルールテーブル22と、動詞共起ルールテ
ーブル23と、係り受け解析部24と、を備え、情報記
憶部1に記憶されている文書中のテキストデータを解析
する。形態素解析部21は、文書中のテキストデータが
表すテキストに対して形態素解析を行うことによって、
単語に分割し、各単語に品詞情報を付与する。なお、形
態素解析は、自然言語処理の基本技術として広く知られ
ており、例えば「自然言語処理の基礎技術」(野村浩郷
著、社団法人 電子情報通信学会、1988)や「情報
処理」(Vol.30、No.10、1989)の
「3.1形態論」等に記載されている方法により、容易
に実現することができる。
【0020】名詞共起ルールテーブル22は、テキスト
において名詞と名詞とが関連を有する場合の規則を記述
したテーブルであり、例えば、図2に示すように、名詞
と名詞との間に助詞「の」が存在する場合、名詞と名詞
との間に助詞「への」が存在する場合等といった規則が
記述されている。ここで、上記した名詞と名詞とが関連
を有する理由を以下に説明する。例えば、「の」を介し
て隣接する名詞同士「湖の絵葉書」といった語句を例に
とると、前記語句は「湖が写っている絵葉書」、「湖が
描いてある絵葉書」等と解釈でき、表層には現れていな
いが、「の」という助詞が「写る」或いは「描く」など
の動詞概念を内包しており、「湖」と「絵葉書」とは、
これらの動詞によって関連付けられているからである。
【0021】動詞共起ルールテーブル23は、テキスト
において名詞と動詞とが係り受け関係を有する場合の規
則を記述したテーブルであり、例えば、図3に示すよう
に、名詞、動詞の順番で並び、且つ、間に助詞「が」が
存在する場合、動詞、名詞の順番で並び、且つ、間にな
にもない場合或いは助動詞が存在する場合等といった規
則が記述されている。
【0022】係り受け解析部24は、名詞同士の関連を
解析する機能と、最も近い動詞と名詞との係り受け関係
を解析する機能と、間に他の動詞を挟んだ名詞と動詞と
の係り受け関係を解析する機能とを有する。なお、上記
した名詞に最も近い動詞とは、名詞と動詞との間が離れ
ていないといったことを意味するものではなく、名詞と
動詞との間に他の動詞が存在しないといったことを意味
している。
【0023】名詞同士の関連を解析する機能は、テキス
ト中の名詞、助詞(相当語)、名詞が隣接している部分
の中で、名詞共起ルールテーブル22に記述された規則
を満たす部分を解析し、当該規則を満たす部分に属する
名詞同士に対して関連を有することを表すリンクを張
る。
【0024】名詞と名詞に最も近い動詞との係り受け関
係を解析する機能は、テキスト中の、名詞、動詞の順番
に並び、且つ、名詞と動詞との間に他の動詞を含まない
部分と、動詞、名詞の順番に並び、且つ、直接又は助詞
等を介して隣接している部分との中で、動詞共起ルール
テーブル23に記述された規則を満たす部分を解析し、
当該規則を満たす部分に属する名詞と動詞とに対して係
り受け関係を有することを表すリンクを張る。
【0025】間に他の動詞を挟んだ名詞と動詞との係り
受け関係を解析する機能は、テキスト中の、名詞、動詞
の順番に並び、且つ、名詞と動詞との間に他の動詞を含
む部分の中で、動詞共起ルールテーブル23を満たす部
分を解析し、当該規則を満たす部分に属する前記他の動
詞を挟む名詞と動詞とをリンクさせた場合に、上記した
他のリンクと交差しないものについて係り受け関係を有
することを表すリンクを張る。なお、このように、他の
動詞を挟む名詞と動詞とをリンクさせた場合に、他のリ
ンクと交差するものに対して関連を有するリンクを張ら
ないのは、日本語において係り受け関係を有するものと
して一般的に知られている「非交差条件」を満たさない
ものを排除するためである。
【0026】情報抽出部3は、係り受け解析部24によ
って張られたリンクに基づいて、リンクが張られた名詞
同士を関連語セットとして抽出するとともに、同一の動
詞に対してリンクが張られた複数の名詞を関連語セット
として抽出する。関係語セット登録部4は、情報抽出部
3によって抽出された関連語セットの中の名詞同士を互
いに関連付け、文書を作成した特定人毎の関連語辞書5
に登録する。なお、関連語セットを登録する形式は、関
連語セットのうちの一つの語句をキーとして検索したと
きに、当該語句を含む関連語セットが検索できれば、ど
のような形式であってもよい。
【0027】次に、上記した関連語辞書作成装置の動作
を説明する。まず、形態素解析部21が情報記憶部1に
記憶されている文書中のテキストデータが表すテキスト
の一文に対して、形態素解析を行って、単語に分割し、
各単語に品詞情報を付与する。例えば、テキスト中に図
5(A)に示す一文があった場合には、形態素解析によ
って図5(B)に示す結果が得られる。なお、一文と
は、文書の頭から句点まで、或いは、句点の次から句点
までのことをいう。
【0028】次いで、形態素解析が行われたテキストの
一文毎に係り受け解析部24、情報抽出部3が以下の処
理を行う。係り受け解析部24による処理を、形態素解
析によって図5(B)に示す結果が得られた一文を例に
とって図4及び図5を参照して説明する。まず、係り受
け解析部24は、名詞共起ルールテーブル22の規則を
満たす名詞と名詞との組を解析し、前記名詞同士にリン
クを張る(ステップS1)。ここでは、「湖の絵葉書」
が規則を満たしており、図5(C1)に示すリンクが張
られる。
【0029】次に、動詞共起ルールテーブル23の規則
を満たす名詞と最も近い動詞との組を解析してリンクを
張る(ステップS2)。ここでは、動詞「出し(出
す)」については、直後に来る名詞はないので、前方の
動詞「旅行し(旅行する)」より後ろの名詞のうち、規
則を満たす名詞に対してリンクをはる。この結果、図5
(C2)に示すように「絵葉書(を)」「Aさん
(に)」「箱根(から)」と「出し(出す)」との間で
リンクがはられる。また、同様に動詞「旅行し(旅行す
る)」についてもリンクが張られる。次に、間に他の動
詞を挟んだ名詞と動詞とのうちで、動詞共起ルールテー
ブル23を満たし、且つ、上記した他のリンクと交差し
ないものを解析してリンクを張る(ステップS3)。こ
こでは、動詞「出し(出す)」と名詞「夏休み(に)」
がこれに該当し、図5(C3)に示すリンクが張られ
る。
【0030】上記した係り受け解析部24の一文に対す
る処理が終了すると、情報抽出部3による処理が開始さ
れる。当該処理では、まず、名詞同士に張られたリンク
を検出し、当該リンクによって結ばれている名詞同士を
関連語セットとして抽出する。図5に示すリンクが張ら
れている場合には、(湖、絵葉書)が関連語セットとし
て抽出される。次に、情報抽出部3は、名詞と動詞との
間で張られたリンクを検出し、同一の動詞とリンクが張
られている複数の名詞を関連語セットとして抽出する。
図5に示すリンクが張られている場合には、(夏休み、
家族)、(夏休み、箱根、Aさん、絵葉書)が関連語セ
ットとして抽出される。そして、関連語セット登録部4
が、情報抽出部3によって抽出された関連語セットをテ
キストを作成した特定人毎の関連語辞書5に登録する。
【0031】したがって、予め作成されているテキスト
データを含む文書を使うことによって容易に関連語辞書
を作成することができる。また、関連語辞書に保持され
る関連語セットには、概念の上下関係といった関連を有
している語句の組に限らず、種々の関連を有している語
句の組も含まれることとなるので、当該関連語辞書を使
って検索キーを展開すると、広範囲且つ関連を有する関
連語を得ることができ、例えば、情報探索或いは着想及
び発想支援等を目的とする検索を行う場合にあっても適
切に検索することができる。
【0032】また、作成された関連語辞書は、特定人の
作成した文書に基づいて当該特定人に対する関連語辞書
として作成されるので、検索キーを展開する場合には、
前記特定人が関連すると把握している関連語へ適切に展
開することができる。また、関連語辞書に格納される関
連語セットは、同一文中で関連を有しているものである
ために、文中のコンテクスト(文脈)に関する概念が含
まれており、当該関連語セットをまとめた形で検索に使
用することによって特定のコンテクストに関する文書を
得ることができる。
【0033】次に、本発明の第2実施例に係る関連語辞
書作成装置を図6を参照して説明する。なお、上記した
第1実施例と同一部分には同一符号を付し、重複する説
明は省略する。この関連語辞書作成装置は、上記した第
1実施例の関連語辞書作成装置に、更に出現頻度カウン
ト部6と、関連語セット登録部7とを備えたものであ
る。
【0034】出現頻度カウント部6は、情報抽出部3に
よって同一の関連語セットが抽出される出現回数をカウ
ントする。なお、或る関連語セットに対する出現回数
は、全く同一の関連語セットが抽出された場合だけに限
らず、当該関連語セットを包含する他の関連語セットが
抽出された場合にも反映させている。例えば、(夏休
み、箱根、絵葉書)という関連語セットの出現回数が”
3”となっている場合において、(夏休み、箱根、絵葉
書)という関連語セットを包含する新たな(夏休み、箱
根、Aさん、絵葉書)という関連語セットが抽出される
と、(夏休み、箱根、絵葉書)の出現回数をカウントし
て”4”とし、(夏休み、箱根、Aさん、絵葉書)の出
現回数を”1”とする。
【0035】関連語セット登録部7は、関連語セットを
抽出する対象となっている全文書に対して出現頻度カウ
ント部6による動作が終了した場合に、出現頻度カウン
ト部6でカウントされた出現回数と所定の回数とを比較
し、出現回数が所定の回数以上の関連語セットを当該出
現回数と対応付けて文書を作成した特定人に対する関連
語辞書8に登録する。
【0036】したがって、関連語辞書に対して、関連の
強い関連語セットを登録することができ、検索キーの展
開時において、より適切な関連語へ展開することができ
る。また、関連語セットとともに当該関連語セットに対
する検出頻度を登録したために、検索キーを展開する際
により適切な関連語を選択することができる。
【0037】なお、上記した第2実施例では、関連語セ
ットに対する出現頻度として出現回数を用いていたが、
例えば、抽出される関連語セットに占める或る関連語セ
ットの割合であってもよく、文書において関連語セット
が抽出される傾向等といった出現頻度であってもよい。
また、出現頻度と比較するしきい値としては、予め設定
された値であっても、予め設定された計算式によって計
算されるものであってもよい。なお、上記した第2実施
例では、関連語辞書に関連語セットとともに当該関連語
セットに関する出現頻度も登録して、検索時においてよ
り適切な関連語セットを選択できるようにしていたが、
関連語セットだけを登録するようにしても、関連の強い
関連語セットを選択して登録することができる。
【0038】また、上記した第2実施例では、関連語セ
ットを抽出する対象の全文書にわたって出現頻度が高い
関連語セットを選択するようにしていたが、予め、個々
の文書毎に出現頻度が高いものだけを選択し、更に、前
記選択されたものの中から全文書中で出現頻度が高いも
のを選択するようにしてもよい。また、上記した第2実
施例では、出現頻度のみに基づいて関連語セットを抽出
するようにしていたが、本発明はこれに限らず、出現頻
度と他の評価基準とを併用して、関連語セットを選択す
るようにしてもよい。
【0039】なお、上記した第1及び第2実施例では、
形態素解析部21、係り受け解析部24、情報抽出部
3、各部による処理をテキスト中の一文毎に逐次行うよ
うにしていたが、前記各部の処理をテキスト中の全文単
位毎に行うようにしてもよい。また、上記した第1及び
第2実施例では、テキスト中の名詞、動詞のすべて対象
としていたが、例えば、対象としない単語を不要語辞書
として予め保持し、当該不要語辞書に該当する単語を対
象から排除してもよく、また、所定の基準を満たす名
詞、動詞を対象にするようにしてもよい。
【0040】また、上記した第1及び第2実施例では、
名詞共起ルールテーブル22、動詞共起ルールテーブル
23を用いて語句の関連を解析していたが、本発明はこ
れに限らず、テキストを構文解析して語句の関連を解析
するようにしてもよい。また、この構文解析を行う場合
には、表記上の関係に限らず、テキストの内容に基づく
係り受け関係を解析するようにしてもよい。
【0041】また、上記した第1及び第2実施例では、
関連を解析する単位として動詞、名詞等を単位としてい
たが、本発明はこれに限らず、動詞句、名詞句、或い
は、全体として動詞概念、名詞概念を表す語句を単位と
してもよく、また、これらを混在させてもよい。なお、
上記した第1及び第2実施例では、特定人が作成した文
書に基づいて関連語辞書を作成することによって特定人
に適した関連語辞書を作成していたが、特定人の作成し
た文書に限らずとも容易に関連語辞書を作成することは
でき、例えば、情報探索或いは着想及び発想支援等を目
的とする検索を行う場合にあっても適切に検索すること
ができる。
【0042】なお、上記した第1及び第2実施例に示す
各機能手段はプロセッサが(ROM、RAM等に予め格
納された)制御プログラムを実行することにより構成さ
れるが、本発明ではこれら機能手段を独立したハードウ
エア回路として構成してもよい。また、本発明は上記の
制御プログラムをフロッピーディスクやCD−ROM等
の記憶媒体として把握させておき、当該制御プログラム
を記憶媒体から入力してプロセッサに実行させることに
より、本発明に係る処理を実行させることもできる。
【0043】次に、上記した第2実施例の関連語辞書作
成装置によって作成された関連語辞書を使って文書の検
索を行う情報検索システムを図7を参照して説明する。
この情報検索システムは、関連語辞書8と、情報記憶部
9と、入力部10と、関連語辞書検索部11と、検索部
12と、表示部13とを備えている。
【0044】関連語辞書8は、第2実施例に係る関連語
辞書作成装置によって作成された特定人毎の関連語辞書
であり、互いに関連を有する語句から成る関連語セット
と、当該関連語セットに対する出現頻度とが関連付けら
れたものが保持されている。情報記憶部9は、文書を記
憶している記憶装置であり、例えば、磁気ディスク等と
いった情報を記憶できる装置で構成されている。なお、
記憶されている文書としては、関連語辞書の作成時に利
用したものでもよく、共有情報或いは、一般的なデータ
ベースといったものでもよく、検索の目的に応じた種々
の情報源が利用できる。
【0045】入力部10は、ユーザからの検索キー等の
入力を受け付ける装置であり、例えば、キーボード、マ
ウス等といった一般的に知られている装置で構成されて
いる。関連語辞書検索部11は、ユーザが入力した検索
キーを使って関連語辞書8を検索し、当該検索キーが含
まれる関連語セットを抽出する。検索部12は、関連語
辞書検索部11によって得られた関連語セットに基づい
て情報記憶部9を検索する。表示部13は、検索部12
による情報記憶部9に対する検索結果を表示する装置で
あり、例えば、ディスプレイ装置等といった一般的な表
示装置で構成されている。
【0046】次に、上記した情報検索システムの動作を
説明する。入力部10がユーザからの検索キーの入力を
受け付けると、関連語辞書検索部11が関連語辞書8を
検索し、当該検索キーを含む関連語セットを取り出す。
ここで、取り出された関連語セットが1つしかない場合
には、検索部12が検索キーを当該関連語セット中の関
連語に展開して情報記憶部9を検索し、検索結果を表示
部13が表示する。一方、取り出された関連語セットが
複数ある場合には、複数の関連語セットを表示部13に
表示し、ユーザに所望の関連語セットを入力部10によ
って指定させる。指定があった場合には、検索部12が
指定された関連語セット中の関連語に検索キーを展開し
て、情報記憶部9を検索し、検索結果を表示部13が表
示する。なお、ユーザが結果に満足できない場合には、
更に別の関連語セットを指定して、再検索するようにす
ることもできる。
【0047】なお、上記した情報検索システムでは、複
数の関連語セットの中からユーザが所望のものを使って
検索キーを展開するようにしていたが、これに限らず、
例えば、関連語辞書に関連語セットと共に記憶されてい
る出現頻度が最も高いものを使って展開するようにして
もよい。また、出現頻度と他の評価基準を併用して関連
語セットを選択して、展開に使用するようにしてもよ
い。また、任意の関連語セットをシステムが選択して、
展開に利用するようにしてもよい。
【0048】
【発明の効果】以上説明したように、本発明に係る関連
語辞書作成装置では、テキストデータを含む文書から、
同一の動詞句に対して係り受け関係を有する複数の名詞
語句を抽出し、当該複数の名詞語句同士を互いに関連付
けて関連語辞書を作成するようにしたために、容易に関
連語辞書を作成することができる。また、当該関連語辞
書を使って検索キーを関連語へ展開することによって、
例えば、着想及び発想支援等を目的とする検索を行う場
合にあっても適切に検索することができる。更に、本発
明に係る関連語辞書作成装置では、特定人の作成した文
書に基づいて、特定人毎の関連語辞書を作成したため
に、当該関連語辞書を使って検索キーを展開する場合に
は、前記特定人が関連すると把握している関連語へ適切
に展開することができ、前記特定人の所望する文書を適
切に検索することができる。
【図面の簡単な説明】
【図1】 本発明の第1実施例に係る関連語辞書作成装
置の構成図である。
【図2】 本発明の第1実施例に係る名詞共起ルールテ
ーブルを説明する図である。
【図3】 本発明の第1実施例に係る動詞共起ルールテ
ーブルを説明する図である。
【図4】 本発明の第1実施例に係る係り受け解析部の
動作を説明する図である。
【図5】 本発明の第1実施例に係る係り受け関係の解
析を説明する図である。
【図6】 本発明の第2実施例に係る関連語辞書作成装
置の構成図である。
【図7】 関連語辞書作成装置によって作成された関連
語辞書を使って文書検索を行う情報検索システムの一例
である。
【符号の説明】
1、9・・情報記憶部、2・・テキスト解析部、21・
・形態素解析部、 22・・名詞共起ルールテ
ーブル、23・・動詞共起ルールテーブル、 24・・
係り受け解析部、3・・情報抽出部、4、7・・関連語
セット登録部、6・・出現頻度カウント部、5、8・・
関連語辞書。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】検索キーとなる語句を関連する他の語句に
    展開するための関連語辞書を作成する関連語辞書作成装
    置において、 テキストデータを含む文書を記憶する情報記憶手段と、 文書中のテキストデータから動詞語句及び名詞語句を特
    定する特定手段と、 同一の動詞語句に対して係り受け関係を有する複数の名
    詞語句を抽出する抽出手段と、 抽出された名詞語句同士を互いに関連付けて関連語辞書
    に登録する登録手段と、を備えたことを特徴とする関連
    語辞書作成装置。
  2. 【請求項2】請求項1に記載した関連語辞書作成装置に
    おいて、 前記記憶手段は、特定人によって作成されたテキストデ
    ータを含む文書を記憶しており、 前記登録手段は、前記特定人毎に関連語辞書を作成する
    ことを特徴とする関連語辞書作成装置。
  3. 【請求項3】請求項1又は請求項2に記載した関連語辞
    書作成装置において、 更に、動詞語句と名詞語句との係り受け関係の規則を記
    述した動詞ルールテーブルを備え、 前記特定手段は、形態素解析によって動詞語句及び名詞
    語句を特定し、 前記抽出手段は、動詞ルールテーブルに基づいて同一の
    動詞語句に対して係り受け関係を有する複数の名詞語句
    を抽出することを特徴とする関連語辞書作成装置。
  4. 【請求項4】請求項1乃至請求項3のいずれか1項に記
    載した関連語辞書作成装置において、 更に、前記抽出手段によって同一の名詞語句の組が抽出
    される頻度を検出する出現頻度カウント手段を備え、 前記登録手段は、前記頻度が所定のしきい値以上となっ
    た名詞語句の組を関連付けて関連語辞書に登録すること
    を特徴とする関連語辞書作成装置。
  5. 【請求項5】請求項4に記載した関連語辞書作成装置お
    いて、 前記登録手段は、名詞語句の組に対して、当該名詞語句
    の組に対して検出された抽出頻度を関連付けて関連語辞
    書に登録することを特徴とする関連語辞書作成装置。
JP1990197A 1997-01-16 1997-01-16 関連語辞書作成装置 Expired - Fee Related JP3596210B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1990197A JP3596210B2 (ja) 1997-01-16 1997-01-16 関連語辞書作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1990197A JP3596210B2 (ja) 1997-01-16 1997-01-16 関連語辞書作成装置

Publications (2)

Publication Number Publication Date
JPH10207910A true JPH10207910A (ja) 1998-08-07
JP3596210B2 JP3596210B2 (ja) 2004-12-02

Family

ID=12012117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1990197A Expired - Fee Related JP3596210B2 (ja) 1997-01-16 1997-01-16 関連語辞書作成装置

Country Status (1)

Country Link
JP (1) JP3596210B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099515A (ja) * 1998-09-21 2000-04-07 Nippon Telegr & Teleph Corp <Ntt> 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体
JP2001184351A (ja) * 1999-12-27 2001-07-06 Toshiba Corp 文書情報抽出装置および文書分類装置
JP2002041080A (ja) * 2000-07-11 2002-02-08 Internatl Business Mach Corp <Ibm> 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置
JP2003108582A (ja) * 2001-09-27 2003-04-11 Mitsubishi Electric Corp 類義語抽出方法および文書検索装置
JP2005519411A (ja) * 2002-03-05 2005-06-30 シーメンス メディカル ソルーションズ ヘルス サーヴィシズ コーポレイション 動的辞書及び用語蓄積システム
JP2008204133A (ja) * 2007-02-20 2008-09-04 National Institute Of Information & Communication Technology 回答検索装置及びコンピュータプログラム
JP2011138347A (ja) * 2009-12-28 2011-07-14 Yahoo Japan Corp 抽出装置、方法及びプログラム
JP2011210090A (ja) * 2010-03-30 2011-10-20 Nec Corp 情報推薦装置、情報推薦方法およびプログラム
US8280720B2 (en) 2005-01-07 2012-10-02 Panasonic Corporation Association dictionary creation apparatus
CN103324646A (zh) * 2012-03-19 2013-09-25 株式会社东芝 检索支援装置及检索支援方法
JP2018025975A (ja) * 2016-08-10 2018-02-15 日本電信電話株式会社 提示装置および提示方法
JP2020181367A (ja) * 2019-04-25 2020-11-05 みずほ情報総研株式会社 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム
JP2021093176A (ja) * 2015-12-14 2021-06-17 日本電気株式会社 セキュリティ情報分析方法、セキュリティ情報分析システム、及び、プログラム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099515A (ja) * 1998-09-21 2000-04-07 Nippon Telegr & Teleph Corp <Ntt> 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体
JP2001184351A (ja) * 1999-12-27 2001-07-06 Toshiba Corp 文書情報抽出装置および文書分類装置
JP2002041080A (ja) * 2000-07-11 2002-02-08 Internatl Business Mach Corp <Ibm> 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置
JP2003108582A (ja) * 2001-09-27 2003-04-11 Mitsubishi Electric Corp 類義語抽出方法および文書検索装置
JP2005519411A (ja) * 2002-03-05 2005-06-30 シーメンス メディカル ソルーションズ ヘルス サーヴィシズ コーポレイション 動的辞書及び用語蓄積システム
US8280720B2 (en) 2005-01-07 2012-10-02 Panasonic Corporation Association dictionary creation apparatus
JP2008204133A (ja) * 2007-02-20 2008-09-04 National Institute Of Information & Communication Technology 回答検索装置及びコンピュータプログラム
JP2011138347A (ja) * 2009-12-28 2011-07-14 Yahoo Japan Corp 抽出装置、方法及びプログラム
JP2011210090A (ja) * 2010-03-30 2011-10-20 Nec Corp 情報推薦装置、情報推薦方法およびプログラム
CN103324646A (zh) * 2012-03-19 2013-09-25 株式会社东芝 检索支援装置及检索支援方法
JP2013196358A (ja) * 2012-03-19 2013-09-30 Toshiba Corp 検索支援装置および検索支援方法
CN103324646B (zh) * 2012-03-19 2017-03-01 株式会社东芝 检索支援装置及检索支援方法
JP2021093176A (ja) * 2015-12-14 2021-06-17 日本電気株式会社 セキュリティ情報分析方法、セキュリティ情報分析システム、及び、プログラム
US11689547B2 (en) 2015-12-14 2023-06-27 Nec Corporation Information analysis system, information analysis method, and recording medium
JP2018025975A (ja) * 2016-08-10 2018-02-15 日本電信電話株式会社 提示装置および提示方法
JP2020181367A (ja) * 2019-04-25 2020-11-05 みずほ情報総研株式会社 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム

Also Published As

Publication number Publication date
JP3596210B2 (ja) 2004-12-02

Similar Documents

Publication Publication Date Title
US10296584B2 (en) Semantic textual analysis
Varma et al. IIIT Hyderabad at TAC 2009.
JPH0424869A (ja) 文書処理システム
KR20130036863A (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
Ahmed et al. Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness
JP3596210B2 (ja) 関連語辞書作成装置
JP2011118689A (ja) 検索方法及びシステム
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JP2010266971A (ja) 端末装置
Pai Text summarizer using abstractive and extractive method
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
Carvalho et al. Lexical to discourse-level corpus modeling for legal question answering
JP3682915B2 (ja) 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム
WO2008017188A1 (fr) Système et procédé pour réaliser un support d&#39;enseignement de cours de langue
JP3486406B2 (ja) 特許情報検索装置
Vickers Ontology-based free-form query processing for the semantic web
Ji et al. Applying coreference to improve name recognition
JP2002278963A (ja) 事例翻訳装置
JPH11338863A (ja) 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JP2004287696A (ja) 検索システム及び検索プログラム
JP2002366556A (ja) 情報検索方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040518

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040830

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees