JP3596210B2 - 関連語辞書作成装置 - Google Patents
関連語辞書作成装置 Download PDFInfo
- Publication number
- JP3596210B2 JP3596210B2 JP1990197A JP1990197A JP3596210B2 JP 3596210 B2 JP3596210 B2 JP 3596210B2 JP 1990197 A JP1990197 A JP 1990197A JP 1990197 A JP1990197 A JP 1990197A JP 3596210 B2 JP3596210 B2 JP 3596210B2
- Authority
- JP
- Japan
- Prior art keywords
- related word
- word dictionary
- noun
- verb
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、検索キーとなる語句を関連する他の語句に展開するための関連語辞書を作成する関連語辞書作成装置及び方法に関する。
【0002】
【従来の技術】
従来より、ユーザが必要とする文書を検索する情報検索システムとして、ユーザが検索キーとなる語句を指定した場合に、例えば、予め各文書に付与されているキーワードと照合するもの(所謂、キーワード検索)や、文書に含まれている語句と照合するもの(所謂、全文検索)等といったものが提案されている。
【0003】
この情報検索システムでは、ユーザが指定した検索キーと、完全に一致するキーワード(例えば、キーワード検索の場合には文書に付与されたキーワード、全文検索の場合には文書中に含まれている語句)を持った文書だけを検索していた。
このような情報検索装置に対して、指定した検索キーと完全に一致するキーワードをもった文書だけでなく、指定した検索キーと関連するキーワードをもった文書についても検索したいといった要求があり、ユーザが指定した検索キーをシソーラスによって類義語、上位概念、下位概念等といった関係を有する語句(以下、関連語という。)に展開し、当該関連語を使って検索する情報検索システムも提案されている。
ここで、関連語とは、語句と何らかの関連を有する他の語句のことをいい、上記した語句と類義語、上位概念、下位概念等といった関係を有する他の語句のみならず、種々のものが考えられている。
【0004】
以下、関連語に関する発明について例をあげて説明する。
検索キーを展開するために関連語を抽出する発明が特開平6−274541号公報(以下、文献1という。)に記載されている。
この発明は、文献ごとに単語の出現頻度を抽出し、各単語と当該文献において高い出現頻度を有する単語とを互いに関連語として登録し、検索時における検索キーの展開においては前記関連語を利用するものである。
【0005】
また、関連語の抽出及び利用に関する発明が特開昭63−311432号公報(以下、文献2という。)に記載されている。
この発明は、文書に対するキーワードの付与又は検索時におけるキーワードの検出を適切に行うという目的で提案されており、2つ以上の分野が交わっている分野で使用される単語の関連語を探すものある。
すなわち、複数の単語と、当該複数の単語から連想される一つまたは複数の単語とのペアの情報が記憶された連想語辞書を予め保持しておき、ユーザが思いついた複数のキーワードによって連想語辞書を検索することで、キーワードのすべて又は一部に対する関連語(文献2中では、連想語)を得て、当該関連語を前記キーワードに加えて、終了条件を満たすまで前記連想語辞書に対する検索を繰り返して関連語を得るものである。
【0006】
なお、検索以外を目的とした発明ではあるが関連語を抽出するものが特開平7−28823号公報(以下、文献3という。)及び特開平7−36883号公報(以下、文献4という。)に記載されている。
文献3に記載された発明は、かな漢字変換における同音異義語を区別するために用いる関連語(文献3中では、共起語)を抽出するもので、予め同音語の候補を保持しておき、当該同音語が出現した場合に、同一文中で出現する他の単語を関連語として抽出するものである。
また、文献4に記載された発明は、かな漢字変換における変換効率を向上させるためのもので、同一文中に出現するすべての自立語のペアを関連語として取り出し、出現頻度をカウントして共起辞書として登録するものである。
【0007】
【発明が解決しようとする課題】
上記したシソーラスによって関連語を得るには、予めシソーラスを作成しておかなければならず、人手でシソーラスを作成する場合には多大な手間と労力とを要してしまうといった問題がある。また、コンピュータ等によってシソーラスを作成する場合には、適切な関連語を得ることができるシソーラスを作成することは非常に困難である。
【0008】
また、シソーラスによって得られる関連語は、検索キーと概念体系上の同義関係、上下関係などを持つものに限られており、例えば、検索キーが「車」の場合における語句「渋滞」等といった検索キーと関連を有するが前記概念体系上の関係を有さない語句については得ることができなかった。したがって、漠然とした知りたい内容についての記述を探す情報探索の場合や、アイデアの断片や解決したい問題に関連する文書を発散的に探す着想及び発想支援の場合等にあっては、検索キーと概念の上下関係のような明確な関係を有した関連語しか得られないために、必要とする文書を適切に検索することができなかった。
【0009】
これに対して、文献1に記載された発明では、文献中に出現する語句に対して当該文献中に高い割合で出現する語句を関連語として登録するために容易に関連語辞書を作成することができる。
しかしながら、一の語句に対する関連語は同一の文献に同時に出現する語句であり、同一文献において同時に出現するからといって、一の語句に強い関連を有する適切な関連語ということはできない。例えば、文献が1つのテーマについて記述されている場合には、一の語句と関連を有する可能性があるものが関連語とされており、関連を有するとは限らない。また、日記や手紙等といった個人が記述したテキストのように関連のない複数のテーマが記述されている場合には、一の語句と全く関連を有さない語句が関連語となってしまう。
したがって、上記した関連語によって検索を行うと、ユーザが必要とする文献を適切に検索できるとは限らない。
【0010】
また、文献2に記載された発明では、複数の単語とその連想語(関連語)からなる連想語辞書に対して検索キーを使って検索を行い、検索結果を前記検索キーに加えるといったことを繰り返すことにより検索キーにより展開される連想語を増やすところに特徴があるが、増やされる連想語は連想語辞書から出てくるものであるので、検索に適した連想語を得るか否かは作成されている連想語辞書が鍵となっている。しかしながら、この連想語辞書の作成方法に関しては何ら開示されていない。
【0011】
本発明は上記した従来の事情に鑑みてなされたものであり、検索キーを検索に適した関連語に展開するための関連語辞書を容易に作成することのできる関連語辞書作成装置及び方法を提供することを目的としている。
【0012】
【課題を解決するための手段】
上記した目的を達成するために本発明は、文書中の一文において同一の動詞語句に係り受け関係を有する名詞語句同士が互いに関連しているとともに、前記名詞語句同士の関連が、概念の上下関係のような明確な関連に限らず、他の種々の関連を持っていることに着目してなされたものである。
例えば、「箱根からAさんに湖の絵葉書を出した。」という文では、動詞語句「出す」に対して同時に係り受け関係を有する3つの名詞語句「箱根」「Aさん」「絵葉書」が互いに関連し、これら名詞語句の関連は概念の上下関係といった関連に限ったものではないことがわかる。
【0013】
そこで、本発明に係る関連語辞書作成装置は、検索キーとなる語句を関連する他の語句に展開するための関連語辞書を作成する関連語辞書作成装置において、テキストデータを含む文書を記憶する情報記憶手段と、文書中のテキストデータから動詞語句及び名詞語句を特定する特定手段と、同一の動詞語句に対して係り受け関係を有する複数の名詞語句を抽出する抽出手段と、抽出された名詞語句同士を互いに関連付けて関連語辞書に登録する登録手段と、を備えたことを特徴とする。
ここで、名詞語句とは、名詞、名詞句、複合名詞等といった名詞概念を持った語句のことをいい、また、動詞語句とは、動詞、動詞句、複合動詞等といった動詞概念を持った語句のことをいう。
【0014】
上記した関連語辞書作成装置では、特定手段が情報記憶手段に記憶された文書中のテキストデータから動詞語句及び名詞語句を特定し、抽出手段が同一の動詞語句に対して係り受け関係を有する複数の名詞語句を抽出し、登録手段が抽出された名詞語句同士を互いに関連付けて関連語辞書に登録する。
したがって、種々の関連を有する名詞語句同士互いに関連付けた関連語辞書を容易に作成でき、当該関連語辞書を使って検索キーを関連語に展開することによって、例えば、情報探索、或いは着想及び発想支援等といったことを目的とした検索においても、適切な検索を行うことができる。
【0015】
更に、本発明に係る関連語辞書作成装置は、前記記憶手段は特定人によって作成されたテキストデータを含む文書を記憶し、前記登録手段は、前記特定人毎に関連語辞書を作成することを特徴とする。
ここで、特定人とは、個人、或いは、同一の研究分野に属する人々、同一の会社に属する人々、等といった或る共通する環境に属する人々を意味している。
【0016】
上記した関連語辞書作成装置では、特定人によって作成された文書に基づいて前記特定人毎の関連語辞書を作成する。
したがって、特定人によって関連があると把握されている名詞語句同士を互いに関連付けた関連語辞書を作成でき、この関連語辞書によって特定人の考えにあった適切な関連語に検索キーを展開させることができる。
【0017】
【発明の実施の形態】
本発明の第1実施例に係る関連語辞書作成装置を図1を参照して説明する。
この関連語辞書作成装置は、情報記憶部1と、テキスト解析部2と、情報抽出部3と、関連語セット登録部4とを備えている。
【0018】
情報記憶部1は、例えば、磁気ディスク等といった情報を記憶する装置を有し、特定人(例えば、個人)によって書かれたテキストデータを含む文書を記憶する。
なお、情報を記憶する装置は、ネットワーク上の離れた場所に設置してもよく、また、複数の装置によって構成してもよい。
なお、上記した文書にはテキストデータの他に絵や図形などのデータを含んでいてもよい。
【0019】
テキスト解析部2は、形態素解析部21と、名詞共起ルールテーブル22と、動詞共起ルールテーブル23と、係り受け解析部24と、を備え、情報記憶部1に記憶されている文書中のテキストデータを解析する。
形態素解析部21は、文書中のテキストデータが表すテキストに対して形態素解析を行うことによって、単語に分割し、各単語に品詞情報を付与する。
なお、形態素解析は、自然言語処理の基本技術として広く知られており、例えば「自然言語処理の基礎技術」(野村浩郷著、社団法人 電子情報通信学会、1988)や「情報処理」(Vol.30、No.10、1989)の「3.1 形態論」等に記載されている方法により、容易に実現することができる。
【0020】
名詞共起ルールテーブル22は、テキストにおいて名詞と名詞とが関連を有する場合の規則を記述したテーブルであり、例えば、図2に示すように、名詞と名詞との間に助詞「の」が存在する場合、名詞と名詞との間に助詞「への」が存在する場合等といった規則が記述されている。
ここで、上記した名詞と名詞とが関連を有する理由を以下に説明する。
例えば、「の」を介して隣接する名詞同士「湖の絵葉書」といった語句を例にとると、前記語句は「湖が写っている絵葉書」、「湖が描いてある絵葉書」等と解釈でき、表層には現れていないが、「の」という助詞が「写る」或いは「描く」などの動詞概念を内包しており、「湖」と「絵葉書」とは、これらの動詞によって関連付けられているからである。
【0021】
動詞共起ルールテーブル23は、テキストにおいて名詞と動詞とが係り受け関係を有する場合の規則を記述したテーブルであり、例えば、図3に示すように、名詞、動詞の順番で並び、且つ、間に助詞「が」が存在する場合、動詞、名詞の順番で並び、且つ、間になにもない場合或いは助動詞が存在する場合等といった規則が記述されている。
【0022】
係り受け解析部24は、名詞同士の関連を解析する機能と、最も近い動詞と名詞との係り受け関係を解析する機能と、間に他の動詞を挟んだ名詞と動詞との係り受け関係を解析する機能とを有する。なお、上記した名詞に最も近い動詞とは、名詞と動詞との間が離れていないといったことを意味するものではなく、名詞と動詞との間に他の動詞が存在しないといったことを意味している。
【0023】
名詞同士の関連を解析する機能は、テキスト中の名詞、助詞(相当語)、名詞が隣接している部分の中で、名詞共起ルールテーブル22に記述された規則を満たす部分を解析し、当該規則を満たす部分に属する名詞同士に対して関連を有することを表すリンクを張る。
【0024】
名詞と名詞に最も近い動詞との係り受け関係を解析する機能は、テキスト中の、名詞、動詞の順番に並び、且つ、名詞と動詞との間に他の動詞を含まない部分と、動詞、名詞の順番に並び、且つ、直接又は助詞等を介して隣接している部分との中で、動詞共起ルールテーブル23に記述された規則を満たす部分を解析し、当該規則を満たす部分に属する名詞と動詞とに対して係り受け関係を有することを表すリンクを張る。
【0025】
間に他の動詞を挟んだ名詞と動詞との係り受け関係を解析する機能は、テキスト中の、名詞、動詞の順番に並び、且つ、名詞と動詞との間に他の動詞を含む部分の中で、動詞共起ルールテーブル23を満たす部分を解析し、当該規則を満たす部分に属する前記他の動詞を挟む名詞と動詞とをリンクさせた場合に、上記した他のリンクと交差しないものについて係り受け関係を有することを表すリンクを張る。なお、このように、他の動詞を挟む名詞と動詞とをリンクさせた場合に、他のリンクと交差するものに対して関連を有するリンクを張らないのは、日本語において係り受け関係を有するものとして一般的に知られている「非交差条件」を満たさないものを排除するためである。
【0026】
情報抽出部3は、係り受け解析部24によって張られたリンクに基づいて、リンクが張られた名詞同士を関連語セットとして抽出するとともに、同一の動詞に対してリンクが張られた複数の名詞を関連語セットとして抽出する。
関係語セット登録部4は、情報抽出部3によって抽出された関連語セットの中の名詞同士を互いに関連付け、文書を作成した特定人毎の関連語辞書5に登録する。なお、関連語セットを登録する形式は、関連語セットのうちの一つの語句をキーとして検索したときに、当該語句を含む関連語セットが検索できれば、どのような形式であってもよい。
【0027】
次に、上記した関連語辞書作成装置の動作を説明する。
まず、形態素解析部21が情報記憶部1に記憶されている文書中のテキストデータが表すテキストの一文に対して、形態素解析を行って、単語に分割し、各単語に品詞情報を付与する。例えば、テキスト中に図5(A)に示す一文があった場合には、形態素解析によって図5(B)に示す結果が得られる。なお、一文とは、文書の頭から句点まで、或いは、句点の次から句点までのことをいう。
【0028】
次いで、形態素解析が行われたテキストの一文毎に係り受け解析部24、情報抽出部3が以下の処理を行う。
係り受け解析部24による処理を、形態素解析によって図5(B)に示す結果が得られた一文を例にとって図4及び図5を参照して説明する。
まず、係り受け解析部24は、名詞共起ルールテーブル22の規則を満たす名詞と名詞との組を解析し、前記名詞同士にリンクを張る(ステップS1)。ここでは、「湖の絵葉書」が規則を満たしており、図5(C1)に示すリンクが張られる。
【0029】
次に、動詞共起ルールテーブル23の規則を満たす名詞と最も近い動詞との組を解析してリンクを張る(ステップS2)。ここでは、動詞「出し(出す)」については、直後に来る名詞はないので、前方の動詞「旅行し(旅行する)」より後ろの名詞のうち、規則を満たす名詞に対してリンクをはる。この結果、図5(C2)に示すように「絵葉書(を)」「Aさん(に)」「箱根(から)」と「出し(出す)」との間でリンクがはられる。また、同様に動詞「旅行し(旅行する)」についてもリンクが張られる。
次に、間に他の動詞を挟んだ名詞と動詞とのうちで、動詞共起ルールテーブル23を満たし、且つ、上記した他のリンクと交差しないものを解析してリンクを張る(ステップS3)。ここでは、動詞「出し(出す)」と名詞「夏休み(に)」がこれに該当し、図5(C3)に示すリンクが張られる。
【0030】
上記した係り受け解析部24の一文に対する処理が終了すると、情報抽出部3による処理が開始される。
当該処理では、まず、名詞同士に張られたリンクを検出し、当該リンクによって結ばれている名詞同士を関連語セットとして抽出する。図5に示すリンクが張られている場合には、(湖、絵葉書)が関連語セットとして抽出される。
次に、情報抽出部3は、名詞と動詞との間で張られたリンクを検出し、同一の動詞とリンクが張られている複数の名詞を関連語セットとして抽出する。図5に示すリンクが張られている場合には、(夏休み、家族)、(夏休み、箱根、Aさん、絵葉書)が関連語セットとして抽出される。
そして、関連語セット登録部4が、情報抽出部3によって抽出された関連語セットをテキストを作成した特定人毎の関連語辞書5に登録する。
【0031】
したがって、予め作成されているテキストデータを含む文書を使うことによって容易に関連語辞書を作成することができる。
また、関連語辞書に保持される関連語セットには、概念の上下関係といった関連を有している語句の組に限らず、種々の関連を有している語句の組も含まれることとなるので、当該関連語辞書を使って検索キーを展開すると、広範囲且つ関連を有する関連語を得ることができ、例えば、情報探索或いは着想及び発想支援等を目的とする検索を行う場合にあっても適切に検索することができる。
【0032】
また、作成された関連語辞書は、特定人の作成した文書に基づいて当該特定人に対する関連語辞書として作成されるので、検索キーを展開する場合には、前記特定人が関連すると把握している関連語へ適切に展開することができる。
また、関連語辞書に格納される関連語セットは、同一文中で関連を有しているものであるために、文中のコンテクスト(文脈)に関する概念が含まれており、当該関連語セットをまとめた形で検索に使用することによって特定のコンテクストに関する文書を得ることができる。
【0033】
次に、本発明の第2実施例に係る関連語辞書作成装置を図6を参照して説明する。なお、上記した第1実施例と同一部分には同一符号を付し、重複する説明は省略する。
この関連語辞書作成装置は、上記した第1実施例の関連語辞書作成装置に、更に出現頻度カウント部6と、関連語セット登録部7とを備えたものである。
【0034】
出現頻度カウント部6は、情報抽出部3によって同一の関連語セットが抽出される出現回数をカウントする。なお、或る関連語セットに対する出現回数は、全く同一の関連語セットが抽出された場合だけに限らず、当該関連語セットを包含する他の関連語セットが抽出された場合にも反映させている。
例えば、(夏休み、箱根、絵葉書)という関連語セットの出現回数が”3”となっている場合において、(夏休み、箱根、絵葉書)という関連語セットを包含する新たな(夏休み、箱根、Aさん、絵葉書)という関連語セットが抽出されると、(夏休み、箱根、絵葉書)の出現回数をカウントして”4”とし、(夏休み、箱根、Aさん、絵葉書)の出現回数を”1”とする。
【0035】
関連語セット登録部7は、関連語セットを抽出する対象となっている全文書に対して出現頻度カウント部6による動作が終了した場合に、出現頻度カウント部6でカウントされた出現回数と所定の回数とを比較し、出現回数が所定の回数以上の関連語セットを当該出現回数と対応付けて文書を作成した特定人に対する関連語辞書8に登録する。
【0036】
したがって、関連語辞書に対して、関連の強い関連語セットを登録することができ、検索キーの展開時において、より適切な関連語へ展開することができる。
また、関連語セットとともに当該関連語セットに対する検出頻度を登録したために、検索キーを展開する際により適切な関連語を選択することができる。
【0037】
なお、上記した第2実施例では、関連語セットに対する出現頻度として出現回数を用いていたが、例えば、抽出される関連語セットに占める或る関連語セットの割合であってもよく、文書において関連語セットが抽出される傾向等といった出現頻度であってもよい。また、出現頻度と比較するしきい値としては、予め設定された値であっても、予め設定された計算式によって計算されるものであってもよい。
なお、上記した第2実施例では、関連語辞書に関連語セットとともに当該関連語セットに関する出現頻度も登録して、検索時においてより適切な関連語セットを選択できるようにしていたが、関連語セットだけを登録するようにしても、関連の強い関連語セットを選択して登録することができる。
【0038】
また、上記した第2実施例では、関連語セットを抽出する対象の全文書にわたって出現頻度が高い関連語セットを選択するようにしていたが、予め、個々の文書毎に出現頻度が高いものだけを選択し、更に、前記選択されたものの中から全文書中で出現頻度が高いものを選択するようにしてもよい。
また、上記した第2実施例では、出現頻度のみに基づいて関連語セットを抽出するようにしていたが、本発明はこれに限らず、出現頻度と他の評価基準とを併用して、関連語セットを選択するようにしてもよい。
【0039】
なお、上記した第1及び第2実施例では、テキスト中の名詞、動詞のすべて対象としていたが、例えば、対象としない単語を不要語辞書として予め保持し、当該不要語辞書に該当する単語を対象から排除してもよく、また、所定の基準を満たす名詞、動詞を対象にするようにしてもよい。
【0040】
また、上記した第1及び第2実施例では、名詞共起ルールテーブル22、動詞共起ルールテーブル23を用いて語句の関連を解析していたが、本発明はこれに限らず、テキストを構文解析して語句の関連を解析するようにしてもよい。また、この構文解析を行う場合には、表記上の関係に限らず、テキストの内容に基づく係り受け関係を解析するようにしてもよい。
【0041】
また、上記した第1及び第2実施例では、関連を解析する単位として動詞、名詞等を単位としていたが、本発明はこれに限らず、動詞句、名詞句、或いは、全体として動詞概念、名詞概念を表す語句を単位としてもよく、また、これらを混在させてもよい。
なお、上記した第1及び第2実施例では、特定人が作成した文書に基づいて関連語辞書を作成することによって特定人に適した関連語辞書を作成していたが、特定人の作成した文書に限らずとも容易に関連語辞書を作成することはでき、例えば、情報探索或いは着想及び発想支援等を目的とする検索を行う場合にあっても適切に検索することができる。
【0042】
なお、上記した第1及び第2実施例に示す各機能手段はプロセッサが(ROM、RAM等に予め格納された)制御プログラムを実行することにより構成されるが、本発明ではこれら機能手段を独立したハードウエア回路として構成してもよい。
また、本発明は上記の制御プログラムをフロッピーディスクやCD−ROM等の記憶媒体として把握させておき、当該制御プログラムを記憶媒体から入力してプロセッサに実行させることにより、本発明に係る処理を実行させることもできる。
【0043】
次に、上記した第2実施例の関連語辞書作成装置によって作成された関連語辞書を使って文書の検索を行う情報検索システムを図7を参照して説明する。
この情報検索システムは、関連語辞書8と、情報記憶部9と、入力部10と、関連語辞書検索部11と、検索部12と、表示部13とを備えている。
【0044】
関連語辞書8は、第2実施例に係る関連語辞書作成装置によって作成された特定人毎の関連語辞書であり、互いに関連を有する語句から成る関連語セットと、当該関連語セットに対する出現頻度とが関連付けられたものが保持されている。
情報記憶部9は、文書を記憶している記憶装置であり、例えば、磁気ディスク等といった情報を記憶できる装置で構成されている。なお、記憶されている文書としては、関連語辞書の作成時に利用したものでもよく、共有情報或いは、一般的なデータベースといったものでもよく、検索の目的に応じた種々の情報源が利用できる。
【0045】
入力部10は、ユーザからの検索キー等の入力を受け付ける装置であり、例えば、キーボード、マウス等といった一般的に知られている装置で構成されている。
関連語辞書検索部11は、ユーザが入力した検索キーを使って関連語辞書8を検索し、当該検索キーが含まれる関連語セットを抽出する。
検索部12は、関連語辞書検索部11によって得られた関連語セットに基づいて情報記憶部9を検索する。
表示部13は、検索部12による情報記憶部9に対する検索結果を表示する装置であり、例えば、ディスプレイ装置等といった一般的な表示装置で構成されている。
【0046】
次に、上記した情報検索システムの動作を説明する。
入力部10がユーザからの検索キーの入力を受け付けると、関連語辞書検索部11が関連語辞書8を検索し、当該検索キーを含む関連語セットを取り出す。
ここで、取り出された関連語セットが1つしかない場合には、検索部12が検索キーを当該関連語セット中の関連語に展開して情報記憶部9を検索し、検索結果を表示部13が表示する。
一方、取り出された関連語セットが複数ある場合には、複数の関連語セットを表示部13に表示し、ユーザに所望の関連語セットを入力部10によって指定させる。
指定があった場合には、検索部12が指定された関連語セット中の関連語に検索キーを展開して、情報記憶部9を検索し、検索結果を表示部13が表示する。
なお、ユーザが結果に満足できない場合には、更に別の関連語セットを指定して、再検索するようにすることもできる。
【0047】
なお、上記した情報検索システムでは、複数の関連語セットの中からユーザが所望のものを使って検索キーを展開するようにしていたが、これに限らず、例えば、関連語辞書に関連語セットと共に記憶されている出現頻度が最も高いものを使って展開するようにしてもよい。また、出現頻度と他の評価基準を併用して関連語セットを選択して、展開に使用するようにしてもよい。また、任意の関連語セットをシステムが選択して、展開に利用するようにしてもよい。
【0048】
【発明の効果】
以上説明したように、本発明に係る関連語辞書作成装置及び方法では、テキストデータを含む文書から、同一の動詞句に対して係り受け関係を有する複数の名詞語句を抽出し、当該複数の名詞語句同士を互いに関連付けて関連語辞書を作成するようにしたために、容易に関連語辞書を作成することができる。また、当該関連語辞書を使って検索キーを関連語へ展開することによって、例えば、着想及び発想支援等を目的とする検索を行う場合にあっても適切に検索することができる。
更に、本発明では、特定人の作成した文書に基づいて、特定人毎の関連語辞書を作成したために、当該関連語辞書を使って検索キーを展開する場合には、前記特定人が関連すると把握している関連語へ適切に展開することができ、前記特定人の所望する文書を適切に検索することができる。
【図面の簡単な説明】
【図1】本発明の第1実施例に係る関連語辞書作成装置の構成図である。
【図2】本発明の第1実施例に係る名詞共起ルールテーブルを説明する図である。
【図3】本発明の第1実施例に係る動詞共起ルールテーブルを説明する図である。
【図4】本発明の第1実施例に係る係り受け解析部の動作を説明する図である。
【図5】本発明の第1実施例に係る係り受け関係の解析を説明する図である。
【図6】本発明の第2実施例に係る関連語辞書作成装置の構成図である。
【図7】関連語辞書作成装置によって作成された関連語辞書を使って文書検索を行う情報検索システムの一例である。
【符号の説明】
1、9・・情報記憶部、
2・・テキスト解析部、
21・・形態素解析部、 22・・名詞共起ルールテーブル、
23・・動詞共起ルールテーブル、 24・・係り受け解析部、
3・・情報抽出部、
4、7・・関連語セット登録部、
6・・出現頻度カウント部、
5、8・・関連語辞書。
【発明の属する技術分野】
本発明は、検索キーとなる語句を関連する他の語句に展開するための関連語辞書を作成する関連語辞書作成装置及び方法に関する。
【0002】
【従来の技術】
従来より、ユーザが必要とする文書を検索する情報検索システムとして、ユーザが検索キーとなる語句を指定した場合に、例えば、予め各文書に付与されているキーワードと照合するもの(所謂、キーワード検索)や、文書に含まれている語句と照合するもの(所謂、全文検索)等といったものが提案されている。
【0003】
この情報検索システムでは、ユーザが指定した検索キーと、完全に一致するキーワード(例えば、キーワード検索の場合には文書に付与されたキーワード、全文検索の場合には文書中に含まれている語句)を持った文書だけを検索していた。
このような情報検索装置に対して、指定した検索キーと完全に一致するキーワードをもった文書だけでなく、指定した検索キーと関連するキーワードをもった文書についても検索したいといった要求があり、ユーザが指定した検索キーをシソーラスによって類義語、上位概念、下位概念等といった関係を有する語句(以下、関連語という。)に展開し、当該関連語を使って検索する情報検索システムも提案されている。
ここで、関連語とは、語句と何らかの関連を有する他の語句のことをいい、上記した語句と類義語、上位概念、下位概念等といった関係を有する他の語句のみならず、種々のものが考えられている。
【0004】
以下、関連語に関する発明について例をあげて説明する。
検索キーを展開するために関連語を抽出する発明が特開平6−274541号公報(以下、文献1という。)に記載されている。
この発明は、文献ごとに単語の出現頻度を抽出し、各単語と当該文献において高い出現頻度を有する単語とを互いに関連語として登録し、検索時における検索キーの展開においては前記関連語を利用するものである。
【0005】
また、関連語の抽出及び利用に関する発明が特開昭63−311432号公報(以下、文献2という。)に記載されている。
この発明は、文書に対するキーワードの付与又は検索時におけるキーワードの検出を適切に行うという目的で提案されており、2つ以上の分野が交わっている分野で使用される単語の関連語を探すものある。
すなわち、複数の単語と、当該複数の単語から連想される一つまたは複数の単語とのペアの情報が記憶された連想語辞書を予め保持しておき、ユーザが思いついた複数のキーワードによって連想語辞書を検索することで、キーワードのすべて又は一部に対する関連語(文献2中では、連想語)を得て、当該関連語を前記キーワードに加えて、終了条件を満たすまで前記連想語辞書に対する検索を繰り返して関連語を得るものである。
【0006】
なお、検索以外を目的とした発明ではあるが関連語を抽出するものが特開平7−28823号公報(以下、文献3という。)及び特開平7−36883号公報(以下、文献4という。)に記載されている。
文献3に記載された発明は、かな漢字変換における同音異義語を区別するために用いる関連語(文献3中では、共起語)を抽出するもので、予め同音語の候補を保持しておき、当該同音語が出現した場合に、同一文中で出現する他の単語を関連語として抽出するものである。
また、文献4に記載された発明は、かな漢字変換における変換効率を向上させるためのもので、同一文中に出現するすべての自立語のペアを関連語として取り出し、出現頻度をカウントして共起辞書として登録するものである。
【0007】
【発明が解決しようとする課題】
上記したシソーラスによって関連語を得るには、予めシソーラスを作成しておかなければならず、人手でシソーラスを作成する場合には多大な手間と労力とを要してしまうといった問題がある。また、コンピュータ等によってシソーラスを作成する場合には、適切な関連語を得ることができるシソーラスを作成することは非常に困難である。
【0008】
また、シソーラスによって得られる関連語は、検索キーと概念体系上の同義関係、上下関係などを持つものに限られており、例えば、検索キーが「車」の場合における語句「渋滞」等といった検索キーと関連を有するが前記概念体系上の関係を有さない語句については得ることができなかった。したがって、漠然とした知りたい内容についての記述を探す情報探索の場合や、アイデアの断片や解決したい問題に関連する文書を発散的に探す着想及び発想支援の場合等にあっては、検索キーと概念の上下関係のような明確な関係を有した関連語しか得られないために、必要とする文書を適切に検索することができなかった。
【0009】
これに対して、文献1に記載された発明では、文献中に出現する語句に対して当該文献中に高い割合で出現する語句を関連語として登録するために容易に関連語辞書を作成することができる。
しかしながら、一の語句に対する関連語は同一の文献に同時に出現する語句であり、同一文献において同時に出現するからといって、一の語句に強い関連を有する適切な関連語ということはできない。例えば、文献が1つのテーマについて記述されている場合には、一の語句と関連を有する可能性があるものが関連語とされており、関連を有するとは限らない。また、日記や手紙等といった個人が記述したテキストのように関連のない複数のテーマが記述されている場合には、一の語句と全く関連を有さない語句が関連語となってしまう。
したがって、上記した関連語によって検索を行うと、ユーザが必要とする文献を適切に検索できるとは限らない。
【0010】
また、文献2に記載された発明では、複数の単語とその連想語(関連語)からなる連想語辞書に対して検索キーを使って検索を行い、検索結果を前記検索キーに加えるといったことを繰り返すことにより検索キーにより展開される連想語を増やすところに特徴があるが、増やされる連想語は連想語辞書から出てくるものであるので、検索に適した連想語を得るか否かは作成されている連想語辞書が鍵となっている。しかしながら、この連想語辞書の作成方法に関しては何ら開示されていない。
【0011】
本発明は上記した従来の事情に鑑みてなされたものであり、検索キーを検索に適した関連語に展開するための関連語辞書を容易に作成することのできる関連語辞書作成装置及び方法を提供することを目的としている。
【0012】
【課題を解決するための手段】
上記した目的を達成するために本発明は、文書中の一文において同一の動詞語句に係り受け関係を有する名詞語句同士が互いに関連しているとともに、前記名詞語句同士の関連が、概念の上下関係のような明確な関連に限らず、他の種々の関連を持っていることに着目してなされたものである。
例えば、「箱根からAさんに湖の絵葉書を出した。」という文では、動詞語句「出す」に対して同時に係り受け関係を有する3つの名詞語句「箱根」「Aさん」「絵葉書」が互いに関連し、これら名詞語句の関連は概念の上下関係といった関連に限ったものではないことがわかる。
【0013】
そこで、本発明に係る関連語辞書作成装置は、検索キーとなる語句を関連する他の語句に展開するための関連語辞書を作成する関連語辞書作成装置において、テキストデータを含む文書を記憶する情報記憶手段と、文書中のテキストデータから動詞語句及び名詞語句を特定する特定手段と、同一の動詞語句に対して係り受け関係を有する複数の名詞語句を抽出する抽出手段と、抽出された名詞語句同士を互いに関連付けて関連語辞書に登録する登録手段と、を備えたことを特徴とする。
ここで、名詞語句とは、名詞、名詞句、複合名詞等といった名詞概念を持った語句のことをいい、また、動詞語句とは、動詞、動詞句、複合動詞等といった動詞概念を持った語句のことをいう。
【0014】
上記した関連語辞書作成装置では、特定手段が情報記憶手段に記憶された文書中のテキストデータから動詞語句及び名詞語句を特定し、抽出手段が同一の動詞語句に対して係り受け関係を有する複数の名詞語句を抽出し、登録手段が抽出された名詞語句同士を互いに関連付けて関連語辞書に登録する。
したがって、種々の関連を有する名詞語句同士互いに関連付けた関連語辞書を容易に作成でき、当該関連語辞書を使って検索キーを関連語に展開することによって、例えば、情報探索、或いは着想及び発想支援等といったことを目的とした検索においても、適切な検索を行うことができる。
【0015】
更に、本発明に係る関連語辞書作成装置は、前記記憶手段は特定人によって作成されたテキストデータを含む文書を記憶し、前記登録手段は、前記特定人毎に関連語辞書を作成することを特徴とする。
ここで、特定人とは、個人、或いは、同一の研究分野に属する人々、同一の会社に属する人々、等といった或る共通する環境に属する人々を意味している。
【0016】
上記した関連語辞書作成装置では、特定人によって作成された文書に基づいて前記特定人毎の関連語辞書を作成する。
したがって、特定人によって関連があると把握されている名詞語句同士を互いに関連付けた関連語辞書を作成でき、この関連語辞書によって特定人の考えにあった適切な関連語に検索キーを展開させることができる。
【0017】
【発明の実施の形態】
本発明の第1実施例に係る関連語辞書作成装置を図1を参照して説明する。
この関連語辞書作成装置は、情報記憶部1と、テキスト解析部2と、情報抽出部3と、関連語セット登録部4とを備えている。
【0018】
情報記憶部1は、例えば、磁気ディスク等といった情報を記憶する装置を有し、特定人(例えば、個人)によって書かれたテキストデータを含む文書を記憶する。
なお、情報を記憶する装置は、ネットワーク上の離れた場所に設置してもよく、また、複数の装置によって構成してもよい。
なお、上記した文書にはテキストデータの他に絵や図形などのデータを含んでいてもよい。
【0019】
テキスト解析部2は、形態素解析部21と、名詞共起ルールテーブル22と、動詞共起ルールテーブル23と、係り受け解析部24と、を備え、情報記憶部1に記憶されている文書中のテキストデータを解析する。
形態素解析部21は、文書中のテキストデータが表すテキストに対して形態素解析を行うことによって、単語に分割し、各単語に品詞情報を付与する。
なお、形態素解析は、自然言語処理の基本技術として広く知られており、例えば「自然言語処理の基礎技術」(野村浩郷著、社団法人 電子情報通信学会、1988)や「情報処理」(Vol.30、No.10、1989)の「3.1 形態論」等に記載されている方法により、容易に実現することができる。
【0020】
名詞共起ルールテーブル22は、テキストにおいて名詞と名詞とが関連を有する場合の規則を記述したテーブルであり、例えば、図2に示すように、名詞と名詞との間に助詞「の」が存在する場合、名詞と名詞との間に助詞「への」が存在する場合等といった規則が記述されている。
ここで、上記した名詞と名詞とが関連を有する理由を以下に説明する。
例えば、「の」を介して隣接する名詞同士「湖の絵葉書」といった語句を例にとると、前記語句は「湖が写っている絵葉書」、「湖が描いてある絵葉書」等と解釈でき、表層には現れていないが、「の」という助詞が「写る」或いは「描く」などの動詞概念を内包しており、「湖」と「絵葉書」とは、これらの動詞によって関連付けられているからである。
【0021】
動詞共起ルールテーブル23は、テキストにおいて名詞と動詞とが係り受け関係を有する場合の規則を記述したテーブルであり、例えば、図3に示すように、名詞、動詞の順番で並び、且つ、間に助詞「が」が存在する場合、動詞、名詞の順番で並び、且つ、間になにもない場合或いは助動詞が存在する場合等といった規則が記述されている。
【0022】
係り受け解析部24は、名詞同士の関連を解析する機能と、最も近い動詞と名詞との係り受け関係を解析する機能と、間に他の動詞を挟んだ名詞と動詞との係り受け関係を解析する機能とを有する。なお、上記した名詞に最も近い動詞とは、名詞と動詞との間が離れていないといったことを意味するものではなく、名詞と動詞との間に他の動詞が存在しないといったことを意味している。
【0023】
名詞同士の関連を解析する機能は、テキスト中の名詞、助詞(相当語)、名詞が隣接している部分の中で、名詞共起ルールテーブル22に記述された規則を満たす部分を解析し、当該規則を満たす部分に属する名詞同士に対して関連を有することを表すリンクを張る。
【0024】
名詞と名詞に最も近い動詞との係り受け関係を解析する機能は、テキスト中の、名詞、動詞の順番に並び、且つ、名詞と動詞との間に他の動詞を含まない部分と、動詞、名詞の順番に並び、且つ、直接又は助詞等を介して隣接している部分との中で、動詞共起ルールテーブル23に記述された規則を満たす部分を解析し、当該規則を満たす部分に属する名詞と動詞とに対して係り受け関係を有することを表すリンクを張る。
【0025】
間に他の動詞を挟んだ名詞と動詞との係り受け関係を解析する機能は、テキスト中の、名詞、動詞の順番に並び、且つ、名詞と動詞との間に他の動詞を含む部分の中で、動詞共起ルールテーブル23を満たす部分を解析し、当該規則を満たす部分に属する前記他の動詞を挟む名詞と動詞とをリンクさせた場合に、上記した他のリンクと交差しないものについて係り受け関係を有することを表すリンクを張る。なお、このように、他の動詞を挟む名詞と動詞とをリンクさせた場合に、他のリンクと交差するものに対して関連を有するリンクを張らないのは、日本語において係り受け関係を有するものとして一般的に知られている「非交差条件」を満たさないものを排除するためである。
【0026】
情報抽出部3は、係り受け解析部24によって張られたリンクに基づいて、リンクが張られた名詞同士を関連語セットとして抽出するとともに、同一の動詞に対してリンクが張られた複数の名詞を関連語セットとして抽出する。
関係語セット登録部4は、情報抽出部3によって抽出された関連語セットの中の名詞同士を互いに関連付け、文書を作成した特定人毎の関連語辞書5に登録する。なお、関連語セットを登録する形式は、関連語セットのうちの一つの語句をキーとして検索したときに、当該語句を含む関連語セットが検索できれば、どのような形式であってもよい。
【0027】
次に、上記した関連語辞書作成装置の動作を説明する。
まず、形態素解析部21が情報記憶部1に記憶されている文書中のテキストデータが表すテキストの一文に対して、形態素解析を行って、単語に分割し、各単語に品詞情報を付与する。例えば、テキスト中に図5(A)に示す一文があった場合には、形態素解析によって図5(B)に示す結果が得られる。なお、一文とは、文書の頭から句点まで、或いは、句点の次から句点までのことをいう。
【0028】
次いで、形態素解析が行われたテキストの一文毎に係り受け解析部24、情報抽出部3が以下の処理を行う。
係り受け解析部24による処理を、形態素解析によって図5(B)に示す結果が得られた一文を例にとって図4及び図5を参照して説明する。
まず、係り受け解析部24は、名詞共起ルールテーブル22の規則を満たす名詞と名詞との組を解析し、前記名詞同士にリンクを張る(ステップS1)。ここでは、「湖の絵葉書」が規則を満たしており、図5(C1)に示すリンクが張られる。
【0029】
次に、動詞共起ルールテーブル23の規則を満たす名詞と最も近い動詞との組を解析してリンクを張る(ステップS2)。ここでは、動詞「出し(出す)」については、直後に来る名詞はないので、前方の動詞「旅行し(旅行する)」より後ろの名詞のうち、規則を満たす名詞に対してリンクをはる。この結果、図5(C2)に示すように「絵葉書(を)」「Aさん(に)」「箱根(から)」と「出し(出す)」との間でリンクがはられる。また、同様に動詞「旅行し(旅行する)」についてもリンクが張られる。
次に、間に他の動詞を挟んだ名詞と動詞とのうちで、動詞共起ルールテーブル23を満たし、且つ、上記した他のリンクと交差しないものを解析してリンクを張る(ステップS3)。ここでは、動詞「出し(出す)」と名詞「夏休み(に)」がこれに該当し、図5(C3)に示すリンクが張られる。
【0030】
上記した係り受け解析部24の一文に対する処理が終了すると、情報抽出部3による処理が開始される。
当該処理では、まず、名詞同士に張られたリンクを検出し、当該リンクによって結ばれている名詞同士を関連語セットとして抽出する。図5に示すリンクが張られている場合には、(湖、絵葉書)が関連語セットとして抽出される。
次に、情報抽出部3は、名詞と動詞との間で張られたリンクを検出し、同一の動詞とリンクが張られている複数の名詞を関連語セットとして抽出する。図5に示すリンクが張られている場合には、(夏休み、家族)、(夏休み、箱根、Aさん、絵葉書)が関連語セットとして抽出される。
そして、関連語セット登録部4が、情報抽出部3によって抽出された関連語セットをテキストを作成した特定人毎の関連語辞書5に登録する。
【0031】
したがって、予め作成されているテキストデータを含む文書を使うことによって容易に関連語辞書を作成することができる。
また、関連語辞書に保持される関連語セットには、概念の上下関係といった関連を有している語句の組に限らず、種々の関連を有している語句の組も含まれることとなるので、当該関連語辞書を使って検索キーを展開すると、広範囲且つ関連を有する関連語を得ることができ、例えば、情報探索或いは着想及び発想支援等を目的とする検索を行う場合にあっても適切に検索することができる。
【0032】
また、作成された関連語辞書は、特定人の作成した文書に基づいて当該特定人に対する関連語辞書として作成されるので、検索キーを展開する場合には、前記特定人が関連すると把握している関連語へ適切に展開することができる。
また、関連語辞書に格納される関連語セットは、同一文中で関連を有しているものであるために、文中のコンテクスト(文脈)に関する概念が含まれており、当該関連語セットをまとめた形で検索に使用することによって特定のコンテクストに関する文書を得ることができる。
【0033】
次に、本発明の第2実施例に係る関連語辞書作成装置を図6を参照して説明する。なお、上記した第1実施例と同一部分には同一符号を付し、重複する説明は省略する。
この関連語辞書作成装置は、上記した第1実施例の関連語辞書作成装置に、更に出現頻度カウント部6と、関連語セット登録部7とを備えたものである。
【0034】
出現頻度カウント部6は、情報抽出部3によって同一の関連語セットが抽出される出現回数をカウントする。なお、或る関連語セットに対する出現回数は、全く同一の関連語セットが抽出された場合だけに限らず、当該関連語セットを包含する他の関連語セットが抽出された場合にも反映させている。
例えば、(夏休み、箱根、絵葉書)という関連語セットの出現回数が”3”となっている場合において、(夏休み、箱根、絵葉書)という関連語セットを包含する新たな(夏休み、箱根、Aさん、絵葉書)という関連語セットが抽出されると、(夏休み、箱根、絵葉書)の出現回数をカウントして”4”とし、(夏休み、箱根、Aさん、絵葉書)の出現回数を”1”とする。
【0035】
関連語セット登録部7は、関連語セットを抽出する対象となっている全文書に対して出現頻度カウント部6による動作が終了した場合に、出現頻度カウント部6でカウントされた出現回数と所定の回数とを比較し、出現回数が所定の回数以上の関連語セットを当該出現回数と対応付けて文書を作成した特定人に対する関連語辞書8に登録する。
【0036】
したがって、関連語辞書に対して、関連の強い関連語セットを登録することができ、検索キーの展開時において、より適切な関連語へ展開することができる。
また、関連語セットとともに当該関連語セットに対する検出頻度を登録したために、検索キーを展開する際により適切な関連語を選択することができる。
【0037】
なお、上記した第2実施例では、関連語セットに対する出現頻度として出現回数を用いていたが、例えば、抽出される関連語セットに占める或る関連語セットの割合であってもよく、文書において関連語セットが抽出される傾向等といった出現頻度であってもよい。また、出現頻度と比較するしきい値としては、予め設定された値であっても、予め設定された計算式によって計算されるものであってもよい。
なお、上記した第2実施例では、関連語辞書に関連語セットとともに当該関連語セットに関する出現頻度も登録して、検索時においてより適切な関連語セットを選択できるようにしていたが、関連語セットだけを登録するようにしても、関連の強い関連語セットを選択して登録することができる。
【0038】
また、上記した第2実施例では、関連語セットを抽出する対象の全文書にわたって出現頻度が高い関連語セットを選択するようにしていたが、予め、個々の文書毎に出現頻度が高いものだけを選択し、更に、前記選択されたものの中から全文書中で出現頻度が高いものを選択するようにしてもよい。
また、上記した第2実施例では、出現頻度のみに基づいて関連語セットを抽出するようにしていたが、本発明はこれに限らず、出現頻度と他の評価基準とを併用して、関連語セットを選択するようにしてもよい。
【0039】
なお、上記した第1及び第2実施例では、テキスト中の名詞、動詞のすべて対象としていたが、例えば、対象としない単語を不要語辞書として予め保持し、当該不要語辞書に該当する単語を対象から排除してもよく、また、所定の基準を満たす名詞、動詞を対象にするようにしてもよい。
【0040】
また、上記した第1及び第2実施例では、名詞共起ルールテーブル22、動詞共起ルールテーブル23を用いて語句の関連を解析していたが、本発明はこれに限らず、テキストを構文解析して語句の関連を解析するようにしてもよい。また、この構文解析を行う場合には、表記上の関係に限らず、テキストの内容に基づく係り受け関係を解析するようにしてもよい。
【0041】
また、上記した第1及び第2実施例では、関連を解析する単位として動詞、名詞等を単位としていたが、本発明はこれに限らず、動詞句、名詞句、或いは、全体として動詞概念、名詞概念を表す語句を単位としてもよく、また、これらを混在させてもよい。
なお、上記した第1及び第2実施例では、特定人が作成した文書に基づいて関連語辞書を作成することによって特定人に適した関連語辞書を作成していたが、特定人の作成した文書に限らずとも容易に関連語辞書を作成することはでき、例えば、情報探索或いは着想及び発想支援等を目的とする検索を行う場合にあっても適切に検索することができる。
【0042】
なお、上記した第1及び第2実施例に示す各機能手段はプロセッサが(ROM、RAM等に予め格納された)制御プログラムを実行することにより構成されるが、本発明ではこれら機能手段を独立したハードウエア回路として構成してもよい。
また、本発明は上記の制御プログラムをフロッピーディスクやCD−ROM等の記憶媒体として把握させておき、当該制御プログラムを記憶媒体から入力してプロセッサに実行させることにより、本発明に係る処理を実行させることもできる。
【0043】
次に、上記した第2実施例の関連語辞書作成装置によって作成された関連語辞書を使って文書の検索を行う情報検索システムを図7を参照して説明する。
この情報検索システムは、関連語辞書8と、情報記憶部9と、入力部10と、関連語辞書検索部11と、検索部12と、表示部13とを備えている。
【0044】
関連語辞書8は、第2実施例に係る関連語辞書作成装置によって作成された特定人毎の関連語辞書であり、互いに関連を有する語句から成る関連語セットと、当該関連語セットに対する出現頻度とが関連付けられたものが保持されている。
情報記憶部9は、文書を記憶している記憶装置であり、例えば、磁気ディスク等といった情報を記憶できる装置で構成されている。なお、記憶されている文書としては、関連語辞書の作成時に利用したものでもよく、共有情報或いは、一般的なデータベースといったものでもよく、検索の目的に応じた種々の情報源が利用できる。
【0045】
入力部10は、ユーザからの検索キー等の入力を受け付ける装置であり、例えば、キーボード、マウス等といった一般的に知られている装置で構成されている。
関連語辞書検索部11は、ユーザが入力した検索キーを使って関連語辞書8を検索し、当該検索キーが含まれる関連語セットを抽出する。
検索部12は、関連語辞書検索部11によって得られた関連語セットに基づいて情報記憶部9を検索する。
表示部13は、検索部12による情報記憶部9に対する検索結果を表示する装置であり、例えば、ディスプレイ装置等といった一般的な表示装置で構成されている。
【0046】
次に、上記した情報検索システムの動作を説明する。
入力部10がユーザからの検索キーの入力を受け付けると、関連語辞書検索部11が関連語辞書8を検索し、当該検索キーを含む関連語セットを取り出す。
ここで、取り出された関連語セットが1つしかない場合には、検索部12が検索キーを当該関連語セット中の関連語に展開して情報記憶部9を検索し、検索結果を表示部13が表示する。
一方、取り出された関連語セットが複数ある場合には、複数の関連語セットを表示部13に表示し、ユーザに所望の関連語セットを入力部10によって指定させる。
指定があった場合には、検索部12が指定された関連語セット中の関連語に検索キーを展開して、情報記憶部9を検索し、検索結果を表示部13が表示する。
なお、ユーザが結果に満足できない場合には、更に別の関連語セットを指定して、再検索するようにすることもできる。
【0047】
なお、上記した情報検索システムでは、複数の関連語セットの中からユーザが所望のものを使って検索キーを展開するようにしていたが、これに限らず、例えば、関連語辞書に関連語セットと共に記憶されている出現頻度が最も高いものを使って展開するようにしてもよい。また、出現頻度と他の評価基準を併用して関連語セットを選択して、展開に使用するようにしてもよい。また、任意の関連語セットをシステムが選択して、展開に利用するようにしてもよい。
【0048】
【発明の効果】
以上説明したように、本発明に係る関連語辞書作成装置及び方法では、テキストデータを含む文書から、同一の動詞句に対して係り受け関係を有する複数の名詞語句を抽出し、当該複数の名詞語句同士を互いに関連付けて関連語辞書を作成するようにしたために、容易に関連語辞書を作成することができる。また、当該関連語辞書を使って検索キーを関連語へ展開することによって、例えば、着想及び発想支援等を目的とする検索を行う場合にあっても適切に検索することができる。
更に、本発明では、特定人の作成した文書に基づいて、特定人毎の関連語辞書を作成したために、当該関連語辞書を使って検索キーを展開する場合には、前記特定人が関連すると把握している関連語へ適切に展開することができ、前記特定人の所望する文書を適切に検索することができる。
【図面の簡単な説明】
【図1】本発明の第1実施例に係る関連語辞書作成装置の構成図である。
【図2】本発明の第1実施例に係る名詞共起ルールテーブルを説明する図である。
【図3】本発明の第1実施例に係る動詞共起ルールテーブルを説明する図である。
【図4】本発明の第1実施例に係る係り受け解析部の動作を説明する図である。
【図5】本発明の第1実施例に係る係り受け関係の解析を説明する図である。
【図6】本発明の第2実施例に係る関連語辞書作成装置の構成図である。
【図7】関連語辞書作成装置によって作成された関連語辞書を使って文書検索を行う情報検索システムの一例である。
【符号の説明】
1、9・・情報記憶部、
2・・テキスト解析部、
21・・形態素解析部、 22・・名詞共起ルールテーブル、
23・・動詞共起ルールテーブル、 24・・係り受け解析部、
3・・情報抽出部、
4、7・・関連語セット登録部、
6・・出現頻度カウント部、
5、8・・関連語辞書。
Claims (6)
- 検索キーとなる語句を関連する他の語句に展開するための関連語辞書を作成する関連語辞書作成装置において、
テキストデータを含む文書を記憶する情報記憶手段と、
文書中のテキストデータから動詞語句及び名詞語句を特定する特定手段と、
前記テキストデータから特定された一文毎の動詞語句及び名詞語について、同一の動詞語句に対して係り受け関係を有する複数の名詞語句を抽出する抽出手段と、
前記一文から抽出された名詞語句同士を互いに関連付けて関連語辞書に登録する登録手段と、を備えたことを特徴とする関連語辞書作成装置。 - 請求項1に記載した関連語辞書作成装置において、
前記記憶手段は、特定人によって作成されたテキストデータを含む文書を記憶しており、
前記登録手段は、前記特定人毎に関連語辞書を作成することを特徴とする関連語辞書作成装置。 - 請求項1又は請求項2に記載した関連語辞書作成装置において、
更に、動詞語句と名詞語句との係り受け関係の規則を記述した動詞ルールテーブルを備え、
前記特定手段は、形態素解析によって動詞語句及び名詞語句を特定し、
前記抽出手段は、動詞ルールテーブルに基づいて同一の動詞語句に対して係り受け関係を有する複数の名詞語句を抽出することを特徴とする関連語辞書作成装置。 - 請求項1乃至請求項3のいずれか1項に記載した関連語辞書作成装置において、
更に、前記抽出手段によって同一の名詞語句の組が抽出される頻度を検出する出現頻度カウント手段を備え、
前記登録手段は、前記頻度が所定のしきい値以上となった名詞語句の組を関連付けて関連語辞書に登録することを特徴とする関連語辞書作成装置。 - 請求項4に記載した関連語辞書作成装置おいて、
前記登録手段は、名詞語句の組に対して、当該名詞語句の組に対して検出された抽出頻度を関連付けて関連語辞書に登録することを特徴とする関連語辞書作成装置。 - 特定手段と、抽出手段と、登録手段とを有するコンピュータにより、関連語辞書を作成する関連語辞書作成方法において、
前記特定手段が、文章中のテキストデータから動詞語句及び名詞語句を特定し、
前記抽出手段が、前記テキストデータから特定された一文毎の動詞語句及び名詞語に基づいて、同一の動詞語句に対して係り受け関係を有する複数の名詞語句を抽出し、
前記登録手段が、前記一文から抽出された名詞語句同士を互いに関連付けて関連語辞書に登録することを特徴とする関連語辞書作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1990197A JP3596210B2 (ja) | 1997-01-16 | 1997-01-16 | 関連語辞書作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1990197A JP3596210B2 (ja) | 1997-01-16 | 1997-01-16 | 関連語辞書作成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10207910A JPH10207910A (ja) | 1998-08-07 |
JP3596210B2 true JP3596210B2 (ja) | 2004-12-02 |
Family
ID=12012117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1990197A Expired - Fee Related JP3596210B2 (ja) | 1997-01-16 | 1997-01-16 | 関連語辞書作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3596210B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3518998B2 (ja) * | 1998-09-21 | 2004-04-12 | 日本電信電話株式会社 | 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体 |
JP3764618B2 (ja) * | 1999-12-27 | 2006-04-12 | 株式会社東芝 | 文書情報抽出装置および文書分類装置 |
JP4105841B2 (ja) * | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
JP2003108582A (ja) * | 2001-09-27 | 2003-04-11 | Mitsubishi Electric Corp | 類義語抽出方法および文書検索装置 |
EP1481332A2 (en) * | 2002-03-05 | 2004-12-01 | Siemens Medical Solutions Health Services Corporation | A dynamic dictionary and term repository system |
CN100454303C (zh) | 2005-01-07 | 2009-01-21 | 松下电器产业株式会社 | 联想辞典制作装置 |
JP2008204133A (ja) * | 2007-02-20 | 2008-09-04 | National Institute Of Information & Communication Technology | 回答検索装置及びコンピュータプログラム |
JP5068304B2 (ja) * | 2009-12-28 | 2012-11-07 | ヤフー株式会社 | 抽出装置、方法及びプログラム |
JP5565568B2 (ja) * | 2010-03-30 | 2014-08-06 | 日本電気株式会社 | 情報推薦装置、情報推薦方法およびプログラム |
JP5426710B2 (ja) * | 2012-03-19 | 2014-02-26 | 株式会社東芝 | 検索支援装置、検索支援方法およびプログラム |
JP6838560B2 (ja) | 2015-12-14 | 2021-03-03 | 日本電気株式会社 | 情報分析システム、情報分析方法、及び、プログラム |
JP6588405B2 (ja) * | 2016-08-10 | 2019-10-09 | 日本電信電話株式会社 | 提示装置および提示方法 |
JP6764973B1 (ja) * | 2019-04-25 | 2020-10-07 | みずほ情報総研株式会社 | 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム |
-
1997
- 1997-01-16 JP JP1990197A patent/JP3596210B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH10207910A (ja) | 1998-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10296584B2 (en) | Semantic textual analysis | |
Hammo et al. | QARAB: A: Question answering system to support the Arabic language | |
Varma et al. | IIIT Hyderabad at TAC 2009. | |
JPH0424869A (ja) | 文書処理システム | |
JP3596210B2 (ja) | 関連語辞書作成装置 | |
KR100396826B1 (ko) | 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법 | |
Sahu et al. | Prashnottar: a Hindi question answering system | |
JP2011118689A (ja) | 検索方法及びシステム | |
Prokopidis et al. | A Neural NLP toolkit for Greek | |
JP2001084250A (ja) | 膨大な文書データからの知識抽出方法、その装置及び媒体 | |
JPH05120345A (ja) | キーワード抽出装置 | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Reddy et al. | An efficient approach for web document summarization by sentence ranking | |
JP2010266971A (ja) | 端末装置 | |
JP4378106B2 (ja) | 文書検索装置、文書検索方法及びプログラム | |
MalarSelvi et al. | Analysis of Different Approaches for Automatic Text Summarization | |
JP2006119697A (ja) | 質問応答システム、質疑応答方法および質疑応答プログラム | |
JPH10149370A (ja) | 文脈情報を用いた文書検索方法および装置 | |
KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
Hu | A study on question answering system using integrated retrieval method | |
JP2002278963A (ja) | 事例翻訳装置 | |
Liu et al. | Domain phrase identification using atomic word formation in Chinese text | |
Bindu et al. | Design and development of a named entity based question answering system for Malayalam language | |
JP4262529B2 (ja) | 全文検索装置、方法、プログラム及び記録媒体 | |
JP2002366556A (ja) | 情報検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040518 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040817 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040830 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |