JP2007011775A - 辞書作成装置、辞書作成方法、プログラム及び記録媒体 - Google Patents

辞書作成装置、辞書作成方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2007011775A
JP2007011775A JP2005192905A JP2005192905A JP2007011775A JP 2007011775 A JP2007011775 A JP 2007011775A JP 2005192905 A JP2005192905 A JP 2005192905A JP 2005192905 A JP2005192905 A JP 2005192905A JP 2007011775 A JP2007011775 A JP 2007011775A
Authority
JP
Japan
Prior art keywords
semantic
meaning
relationship
dictionary
syntactic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005192905A
Other languages
English (en)
Inventor
Hiromi Nakaiwa
浩巳 中岩
Bond Francis
フランシス・ボンド
Takaaki Tanaka
貴秋 田中
Yasuhiro Akiba
泰弘 秋葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005192905A priority Critical patent/JP2007011775A/ja
Publication of JP2007011775A publication Critical patent/JP2007011775A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】従来よりも豊富な意味知識が登録されたオントロジー辞書を作成する。
【解決手段】辞書作成装置1は、自然言語の複数のテキスト4に記述された語義文を単語に分割する語義文分割部11と、語義文中の各単語に語義を付与する単語語義付与部12と、単語単位に分割され、単語毎に語義が付与された語義文を構文意味解析する構文意味解析部13と、単語が登録されている単語辞書15と、単語の語義が登録されている単語語義辞書16と、文法規則が登録されている文法辞書17と、同義語、類義語、及び意味的に上下関係にある上位語と下位語などが登録されているシソーラス18と、構文意味解析部13による構文意味解析結果とシソーラス18の登録内容に基づいてオントロジー辞書2を作成する知識獲得部14とを有する。
【選択図】 図1

Description

本発明は、例えば機械翻訳や情報検索を行う自然言語処理システムに係り、特にコンピュータが自然言語処理を行うためのオントロジー辞書を作成する辞書作成装置、辞書作成方法、プログラム及び記録媒体に関するものである。
従来より、自然言語のテキスト(例えば国語辞書)に記述された、単語の語義を説明する語義文を構文意味解析することより、自然言語の意味知識をコンピュータが理解可能な形式に構造化して定義した意味データベースであるオントロジー辞書を構築し、このオントロジー辞書を用いてコンピュータが自然言語処理を行う自然言語処理システムが知られている(例えば、非特許文献1、非特許文献2、非特許文献3参照)。
非特許文献1に開示された自然言語処理システムは、複数の電子化辞書を人の手で構造化して融合し、オントロジー辞書を構築するものである。
非特許文献2に開示された自然言語処理システムは、解析器により辞書の定義文や例文を解析し、定義文や例文の単語の意味的関係を自動的に構造化してオントロジー辞書を構築するものである。
非特許文献3に開示された自然言語処理システムは、国語辞書の語義文の表層的パターンから語義文中に存在する同義語、上位語など関連する語を自動抽出してオントロジー辞書を構築するものである。
Antonio Sanfilippo,et al.,"The Acquisition of Lexical Knowledge from Combined Machine-Readable Dictionary Sources",Proceedings of the third conference on Applied natural lnguage processing,Lexicon acquisition table of contents,1992,p.80-87 Stephen D.Richardson,et al.,"MindNet:acquiring and structuring semantic information from text",Proceedings of the 17th international conference on Computational linguistics,Volume 2,1998,p.1098-1102 鶴丸弘昭他,"単語間の上位−下位関係の自動抽出",情報処理学会情報学基礎研究会資料,Vol.1986,No.081,1986
しかしながら、従来の自然言語処理システムでは、1つのテキストに記述された語義文のみから自然言語の意味知識を獲得しているために、オントロジー辞書に登録された意味知識が不十分で、オントロジー辞書を用いた自然言語の構文意味解析精度が悪いという問題点があった。
本発明は、上記課題を解決するためになされたもので、従来よりも豊富な意味知識が登録されたオントロジー辞書を作成することができ、コンピュータによる構文意味解析精度を向上させることができる辞書作成装置、辞書作成方法、プログラム及び記録媒体を提供することを目的とする。
本発明は、自然言語の意味知識をコンピュータが理解可能な形式に構造化して定義した意味データベースであるオントロジー辞書を作成する辞書作成装置であって、単語の語義を説明する語義文が記述された自然言語の複数のテキストを入力として、これらのテキストに記述された各語義文の構文構造及び意味構造を解析する構文意味解析手段と、予め同義語、類義語、及び意味的に上下関係にある上位語と下位語が登録されたシソーラスと、前記複数のテキストにそれぞれ記述された複数の語義文を前記構文意味解析手段で解析した結果である構文意味解析結果と前記シソーラスの登録内容に基づいて前記オントロジー辞書を作成する知識獲得手段とを有するものである。
また、本発明の辞書作成装置の1構成例において、前記知識獲得手段は、前記複数の語義文の解析から得られた複数の構文意味解析結果と前記シソーラスの登録内容に基づいて、前記複数の語義文がそれぞれ説明対象としている複数の見出し語が、同義関係、上位下位関係、共通の上位語を持つ兄弟関係、又は反義関係にあるかどうかを判定する判定手段と、前記複数の見出し語が、同義関係、上位下位関係、兄弟関係、又は反義関係にあると判定された場合に、この複数の見出し語間の関係を前記オントロジー辞書に登録する関係登録手段とを備えるものである。
また、本発明の辞書作成装置の1構成例において、前記知識獲得手段は、前記複数の語義文の解析から得られた複数の構文意味解析結果と前記シソーラスの登録内容に基づいて、前記複数の語義文がそれぞれ説明対象としている複数の見出し語が、同義関係、上位下位関係、共通の上位語を持つ兄弟関係、又は反義関係にあるかどうかを判定する判定手段と、前記複数の見出し語が、同義関係、上位下位関係、兄弟関係、又は反義関係にあると判定された場合に、前記複数の構文意味解析結果が示す構文構造及び意味構造を抽象化して、この抽象化した構文構造及び意味構造を、前記判定された関係を表すパターンとして前記オントロジー辞書に登録するパターン登録手段と、前記シソーラスに登録されていない関係を有する複数の見出し語が入力されたときに、この複数の見出し語間の関係を前記パターンに基づいて判定して前記オントロジー辞書に登録するパターン判定登録手段とを備えるものである。
また、本発明は、中央処理装置と記憶装置とを備えたコンピュータにおいて、自然言語の意味知識をコンピュータが理解可能な形式に構造化して定義した意味データベースであるオントロジー辞書を作成する辞書作成方法であって、単語の語義を説明する語義文が記述された自然言語の複数のテキストを入力として、これらのテキストに記述された各語義文の構文構造及び意味構造を解析する構文意味解析手順と、前記複数のテキストにそれぞれ記述された複数の語義文を前記構文意味解析手順で解析した結果である構文意味解析結果と、予め同義語、類義語、及び意味的に上下関係にある上位語と下位語が登録されたシソーラスの登録内容に基づいて、前記オントロジー辞書を作成する知識獲得手順とを、前記記憶装置に記憶されたプログラムに従って前記中央処理装置に実行させるようにしたものである。
また、本発明の辞書作成方法の1構成例において、前記知識獲得手順は、前記複数の語義文の解析から得られた複数の構文意味解析結果と前記シソーラスの登録内容に基づいて、前記複数の語義文がそれぞれ説明対象としている複数の見出し語が、同義関係、上位下位関係、共通の上位語を持つ兄弟関係、又は反義関係にあるかどうかを判定する判定手順と、前記複数の見出し語が、同義関係、上位下位関係、兄弟関係、又は反義関係にあると判定された場合に、この複数の見出し語間の関係を前記オントロジー辞書に登録する関係登録手順とからなるものである。
また、本発明の辞書作成方法の1構成例において、前記知識獲得手順は、前記複数の語義文の解析から得られた複数の構文意味解析結果と前記シソーラスの登録内容に基づいて、前記複数の語義文がそれぞれ説明対象としている複数の見出し語が、同義関係、上位下位関係、共通の上位語を持つ兄弟関係、又は反義関係にあるかどうかを判定する判定手順と、前記複数の見出し語が、同義関係、上位下位関係、兄弟関係、又は反義関係にあると判定された場合に、前記複数の構文意味解析結果が示す構文構造及び意味構造を抽象化して、この抽象化した構文構造及び意味構造を、前記判定された関係を表すパターンとして前記オントロジー辞書に登録するパターン登録手順と、前記シソーラスに登録されていない関係を有する複数の見出し語が入力されたときに、この複数の見出し語間の関係を前記パターンに基づいて判定して前記オントロジー辞書に登録するパターン判定登録手順とからなるものである。
また、本発明は、辞書作成装置としてコンピュータを動作させる辞書作成プログラムであって、構文意味解析手順と、知識獲得手順とを、コンピュータの中央処理装置に実行させるようにしたものである。
また、本発明は、辞書作成プログラムを記録したことを特徴とする記録媒体である。
本発明によれば、自然言語の複数のテキストに記述された語義文から自然言語の意味知識を獲得するようにしたので、あるテキストに記述されていない単語の意味知識を別のテキストの語義文から獲得することができ、未知語を減らすことができる。その結果、本発明では、各単語に関する網羅的な意味知識を獲得することができ、各単語に関して従来よりも豊富な意味知識が登録されたオントロジー辞書を作成することができる。したがって、このようなオントロジー辞書を利用すれば、コンピュータによる構文意味解析精度を向上させることができる。
また、本発明では、複数の見出し語が同義関係、上位下位関係、兄弟関係、又は反義関係など既知の関係を有する場合に、この複数の見出し語に関する構文意味解析結果を抽象化してパターン化しておくことにより、シソーラスに登録されていない未知語がテキストに記述されている場合でも、この未知語と他の見出し語との関係をパターンに基づいて判定してオントロジー辞書に登録することができる。
以下、本発明の実施の形態について図面を参照して説明する。図1は、本発明の実施の形態となる自然言語処理システムの構成を示すブロック図である。自然言語処理システムは、辞書作成装置1と、自然言語の意味知識をコンピュータが理解可能な形式に構造化して定義した意味データベースであるオントロジー辞書2と、オントロジー辞書2を用いて自然言語処理を行う自然言語処理装置3とから構成される。
辞書作成装置1は、自然言語の複数のテキスト4(例えば電子化された国語辞書)に記述された語義文を単語に分割する語義文分割部11と、語義文中の各単語に語義を付与する単語語義付与部12と、単語単位に分割され、さらに単語毎に語義が付与された語義文を構文意味解析する構文意味解析部13と、構文意味解析部13による構文意味解析結果と後述するシソーラス(Thesaurus )の登録内容に基づいてオントロジー辞書2を作成する知識獲得部14と、予め単語が登録されている単語辞書15と、予め単語の語義が登録されている単語語義辞書16と、予め文法規則が登録されている文法辞書17と、予め同義語、類義語、及び意味的に上下関係にある上位語と下位語などが登録されているシソーラス18とから構成される。
語義文分割部11と単語語義付与部12と構文意味解析部13とは、語義文の構文構造及び意味構造を解析する構文意味解析手段を構成している。また、知識獲得部14は、複数の見出し語が同義関係、上位下位関係、共通の上位語を持つ兄弟関係、又は反義関係にあるかどうかを判定する判定手段(不図示)と、複数の見出し語間の関係をオントロジー辞書2に登録する関係登録手段(不図示)と、複数の見出し語が同義関係、上位下位関係、兄弟関係、又は反義関係にあると判定された場合に、この複数の見出し語に関する構文意味解析結果をパターン化してオントロジー辞書に登録するパターン登録手段(不図示)と、シソーラスに登録されていない未知の見出し語がテキスト4に記述されているときに、この未知語と他の見出し語との関係をパターンに基づいて判定してオントロジー辞書に登録するパターン判定登録手段(不図示)とを備えている。
次に、本実施の形態の自然言語処理システムの動作を説明する。図2は、自然言語処理システムの辞書作成装置1の動作を示すフローチャートである。
まず、辞書作成装置1の語義文分割部11は、人が作成した自然言語の複数のテキスト4を読み込む。各テキスト4には、単語の語義を説明する語義文が記述されている。以下、語義文が説明対象としている単語を見出し語と呼ぶ。語義文分割部11は、各テキスト4に記述された語義文をそれぞれ単語辞書15に基づいて単語に分割する(図2ステップS1)。語義文分割部11は、このような分割をテキスト4毎及び各テキスト4に記述されている語義文毎に行う。
図3はテキスト4に記述された見出し語とその語義文の1例を示す図である。テキスト4には、例えば「ドライバー1 」という見出し語に対して「車1/を/運転3/する/人1 」という語義文と、「ねじ回し1 」という語義文とが記述されていることになる。
なお、本実施の形態では、語義文中の各単語を「/」で区切って記載している。また、単語の後に付加した添え字は、同一の意味を表す単語が単語語義辞書16に登録されている順番を示している。例えば「動かす」という意味を表す単語として、単語語義辞書16には1番目に「ドライブ1 」という単語が登録され、3番目に「運転3 」という単語が登録されていることになる。ただし、図3に示した語義文は、単語とその語義を表すために、後述するステップS2の単語語義付与処理まで終了した時点での状態を示しており、テキスト4に記述されている実際の語義文には、「/」及び添え字は付与されていない。
続いて、単語語義付与部12は、単語単位に分割された語義文中の各単語の語義を単語語義辞書16から求める(ステップS2)。単語語義付与部12は、このような単語語義の付与をテキスト4毎及び各テキスト4に記述されている語義文毎に行う。このとき、単語語義付与部12は、1つの単語について複数の語義が単語語義辞書16に登録されている場合には、その全てを単語の語義としてもよいし、複数の語義の中から適切なものを選択するようにしてもよい。適切な語義を選択する方法としては、例えば自然言語処理システムの設計者に対して複数の語義を提示し、設計者が適切な語義を選択するインタラクション等の方法がある。なお、ここでは、複数の語義の中から適切な語義を設計者が選択しているが、単語語義付与部12が自動的に選択するようにしてもよい。適切な語義を自動的に選択する手法としては、過去の学習データから統計的に選択する手法があり、このような手法については、例えば文献「北研二他,“音声言語処理 コーパスに基づくアプローチ”,森北出版株式会社,1996年,p.107−126」に記載されている。
次に、構文意味解析部13は、単語単位に分割され、さらに単語毎に語義が付与された語義文を文法辞書17に基づいて構文意味解析する(ステップS3)。このとき、構文意味解析部13は、1つの語義文に関して1つ又は複数の構文意味解析結果候補を生成する。1つの構文意味解析結果候補は、語義文の構文構造を表す解析木と、語義文の意味構造を表す意味表現の2つの情報を持っている。図4に見出し語「ドライバー1 」に対する語義文「車1/を/運転3/する/人1 」を構文意味解析した結果得られた解析木の1例を示し、図5に語義文「車1/を/運転3/する/人1 」を構文意味解析した結果得られた意味表現の1例を示す。図4において、Nは名詞、Pは助詞、VNはサ変名詞、Vは動詞、PPは前置詞句、VPは動詞句、NPは名詞句を表す。このような構文意味解析は、例えば主辞駆動句構造文法(Head-Driven Phrase Structure Grammar:HPSG )等の手法により実現することができる。
構文意味解析部13は、1つの語義文から複数の構文意味解析結果候補が得られた場合、これらを設計者に提示し、設計者は複数の構文意味解析結果候補の中から正しいものを1つ選択する。こうして、解析木と意味表現とからなる構文意味解析結果が得られる。構文意味解析部13は、以上のような構文意味解析をテキスト4毎及び各テキスト4に記述されている語義文毎に行う。なお、ここでは、複数の構文意味解析結果候補の中から正しいものを設計者が選択しているが、構文意味解析部13が自動的に選択するようにしてもよい。適切な構文意味解析結果を自動的に選択する手法としては、過去の学習データから統計的に選択する手法があり、このような手法については、例えば文献「北研二他,“音声言語処理 コーパスに基づくアプローチ”,森北出版株式会社,1996年,p.43−56,p.98−100」に記載されている。
次に、知識獲得部14は、構文意味解析部13による構文意味解析結果とシソーラス18の登録内容とを統合して、単語同士を関係付けることにより、見出し語のオントロジー辞書2を作成する(ステップS4)。図6はオントロジー辞書2の1部を模式的に表す図、図7はシソーラス18の1部を模式的に表す図である。構文意味解析部13による構文意味解析結果からは単語間の意味関係(上位−下位、連想等)を取得することができ、また同義、反義、類義などの意味関係にある単語をシソーラス18から取得することができるので、これらを組み合わせることにより、オントロジー辞書2を作成することができる。
例えば図3に示す見出し語「ドライバー」の1番目の語義文「車1/を/運転3/する/人1 」においては、その構文意味解析結果から、語義文の1番最後に来る「人1 」が構造の主要素(構文解析では一般的に用いられる語であり、公知の用語)であることが分かる。これに対し、見出し語「ドライバー」の2番目の語義文は語義文全体が「ねじ回し1 」という単語となっている。よって、「ドライバー」の1番目の語義である「ドライバー1 」は「人1 」と関係がある語であり、2番目の語義である「ドライバー2 」は「ねじ回し1 」と関係がある語であることが分かる。また、1番目の語義文には「車1 」が含まれていることから、「ドライバー1 」と「車1 」は連想関係を持つと認定できる。
次に、知識獲得部14が「ドライバー」の意味をシソーラス18で調べると、“人<運輸業>”と“ねじ回し”の2種類の意味を持つことが分かる。そのうち、1番目の語義文「車1/を/運転3/する/人1 」の中にある「人1 」のシソーラス18の意味は“人”なので、1番目の語義文の「ドライバー1 」の意味は、“ねじ回し”の意味ではなく、“人”の下位の意味の“人<運輸業>”の意味を持つと認定できる。よって、「人1 」は「ドライバー1 」と上位の関係を持つと認定できる。さらに、1番目の語義文を構文意味解析した結果得られる意味表現(図5)を用いると、「ドライバー1 」の上位語の「人1 」は「運転3 」と動作の関係があることが分かるので、「ドライバー1 」と「運転3 」は動作の関係を持つと認定できる。
また、2番目の語義文「ねじ回し1 」のシソーラス18の意味は“ねじ回し”なので、2番目の語義文の「ドライバー2 」の意味は、“人〈運輸業〉”ではなく、“ねじ回し”の意味を持つと認定できる。よって、「ドライバー2 」と「ねじまわし1 」は類義の関係を持つと認定できる。以上の結果から、図6に示したオントロジー辞書2が得られる。
ここで、本実施の形態では、複数のテキスト4から語義文を読み込んでいるため、1つの見出し語に関して複数の語義文が得られることがあり、また互いに関連する複数の見出し語に関して複数の語義文が得られることがある。このとき、複数の語義文には以下のような関係があることが考えられる。
(a)定義する意味(意味的守備範囲)が同じで、表現が互いに異なる関係(以下、第1の関係と呼ぶ)にある複数の語義文。
(b)ある語義文が定義する意味が別の語義文が定義する意味に含まれ、かつ表現が互いに異なる関係(以下、第2の関係と呼ぶ)にある複数の語義文。
(c)表現の一部に共通性を有する関係(以下、第3の関係と呼ぶ)にある複数の語義文。
(d)見出し語が同じで、定義する意味が全く異なる関係(以下、第4の関係と呼ぶ)にある複数の語義文。
(e)定義する意味が反義の関係(以下、第5の関係と呼ぶ)にある複数の語義文。
(a)の第1の関係、(d)の第4の関係は見出し語が同一の場合であり、(e)の第5の関係は見出し語が反義の関係にある場合である。そして、(b)の第2の関係及び(c)の第3の関係は、見出し語が同一の場合もあれば、異なる場合もある。
知識獲得部14は、各語義文の単語・表現の一致度、各語義文の構文意味解析結果が示す構文構造及び意味構造、各語義文中に出現する同一語義の単語の数、及び各語義文中に出現する単語の語義の類似度に基づいて、テキスト4から得られた複数の語義文が前記第1〜第5の関係にあるかどうかを判定する。
そして、知識獲得部14は、複数の語義文が第1〜第5のいずれかの関係にあると判定した場合、判定結果に応じた処理を行い、オントロジー辞書2を作成する。このとき、知識獲得部14は、複数の語義文の構文意味解析結果を抽象化し、この抽象化した構文意味解析結果を、複数の語義文の関係を表すパターンとしてオントロジー辞書2に登録する。これにより、知識獲得部14は、シソーラス18に登録されていない関係を有する複数の見出し語についての構文意味解析結果が入力されたときには、この複数の見出し語間の関係を既に登録されているパターンに基づいて判定してオントロジー辞書2に登録する。
次に、複数の語義文が第1〜第5のいずれかの関係にあると判定した後の知識獲得部14の処理を具体的に説明する。まず、複数の語義文が(a)の第1の関係にあると判定した場合の処理について説明する。図8は第1の関係にある2つの語義文の構造を示す図であり、図8(A)は複数のテキスト4のうち1つのテキスト4に記述された「車1/を/運転3/する/人1 」という語義文の構造を示す図、図8(B)は別のテキスト4に記述された、図8(A)の語義文と第1の関係にある「車1/の/運転3/を/担当1/する/人1」という語義文の構造を示す図、図8(C)は図8(A)の語義文を抽象化した語義文の構造を示す図、図8(D)は図8(B)の語義文を抽象化した語義文の構造を示す図である。
知識獲得部14は、複数の語義文が第1の関係にあると判定した場合、同一の見出し語に関するこれら複数の語義文の構文意味解析結果とシソーラス18の登録内容に基づいてオントロジー辞書2を作成する。知識獲得部14は、例えば図8(A)の語義文の構文意味解析結果と図8(B)の語義文の構文意味解析結果とシソーラス18の登録内容から、見出し語「ドライバー1 」の上位語が「人1 」であり、この見出し語「ドライバー1 」から連想される単語が「車1 」であるという単語間の意味関係を取得して、オントロジー辞書2に登録する。以上の結果から、図9に示したオントロジー辞書2が得られる。
また、知識獲得部14は、図8(C)の語義文の構文意味解析結果と図8(D)の語義文の構文意味解析結果とを同義関係パターンとしてオントロジー辞書2に登録しておく。これにより、知識獲得部14は、図8(C)に示した構造を有する「A/を/B/する/C」という語義文と図8(D)に示した構造を有する「A/の/B/を/担当/する/C」という語義文とが現れたときには、これらの語義文に対応する2つの見出し語のうち少なくとも一方がシソーラス18に登録されていない未知の単語であっても、予め登録した同義関係パターンに基づいて、これらの見出し語が同義関係にあると推定して、これらの見出し語間の関係をオントロジー辞書2に登録することができる。
次に、複数の語義文が(b)の第2の関係にあると判定した場合の知識獲得部14の処理について説明する。図10は第2の関係にある2つの語義文の構造を示す図であり、図10(A)は複数のテキスト4のうち1つのテキスト4に記述された「車1/を/運転3/する/人1 」という語義文の構造を示す図、図10(B)は別のテキスト4に記述された、図10(A)の語義文と第2の関係にある「電車1や/車1/を/運転3/する/人1」という語義文の構造を示す図、図10(C)は図10(A)の語義文を抽象化した語義文の構造を示す図、図10(D)は図10(B)の語義文を抽象化した語義文の構造を示す図である。ここで、図10(A)に示した「車1/を/運転3/する/人1 」という語義文の見出し語は「ドライバー1 」で、図10(B)に示した「電車1や/車1/を/運転3/する/人1」という語義文の見出し語は「運転手1 」である。
知識獲得部14は、複数の語義文が第2の関係にあり、かつこれらの語義文の見出し語が異なる場合、これら複数の語義文の構文意味解析結果とシソーラス18の登録内容に基づいてオントロジー辞書2を作成する。知識獲得部14は、例えば図10(A)の語義文の構文意味解析結果とシソーラス18の登録内容から、見出し語「ドライバー1 」の上位語が「人1 」であり、この見出し語「ドライバー1 」から連想される単語が「車1 」であるという単語間の意味関係を取得して、オントロジー辞書2に登録する。
また、知識獲得部14は、図10(B)の語義文の構文意味解析結果とシソーラス18の登録内容から、見出し語「運転手1 」の上位語が「人1 」であり、この見出し語「運転手1 」から連想される単語が「電車1 」と「車1 」であるという単語間の意味関係を取得して、オントロジー辞書2に登録する。さらに、知識獲得部14は、見出し語「運転手1 」が上位語で、見出し語「ドライバー1 」が下位語であるという見出し語間の関係をシソーラス18から取得して、オントロジー辞書2に登録する。以上の結果から、図11に示したオントロジー辞書2が得られる。
また、知識獲得部14は、図10(C)の語義文の構文意味解析結果と図10(D)の語義文の構文意味解析結果とを上位下位関係パターンとしてオントロジー辞書2に登録しておく。これにより、知識獲得部14は、図10(C)に示した構造を有する「A/を/B/する/C」という語義文と図10(D)に示した構造を有する「D/や/A/を/B/する/C」という語義文とが現れたときには、これらの語義文に対応する2つの見出し語のうち少なくとも一方がシソーラス18に登録されていない未知の単語であっても、予め登録した上位下位関係パターンに基づいて、これらの見出し語が上位下位関係にあると推定して、これらの見出し語間の関係をオントロジー辞書2に登録することができる。
次に、複数の語義文が(c)の第3の関係にあると判定した場合の知識獲得部14の処理について説明する。図12は第3の関係にある2つの語義文の構造を示す図であり、図12(A)は複数のテキスト4のうち1つのテキスト4に記述された「バラ1/科/の/葉1/の/枯れ1/て/落ちる1/木1 」という語義文の構造を示す図、図12(B)は別のテキスト4に記述された、図12(A)の語義文と第3の関係にある「檜1/科/の/一年1/葉1/が/緑色1/の/木1 」という語義文の構造を示す図、図12(C)は図12(A)の語義文を抽象化した語義文の構造を示す図、図12(D)は図12(B)の語義文を抽象化した語義文の構造を示す図である。ここで、図12(A)に示した「バラ1/科/の/葉1/の/枯れ1/て/落ちる1/木1 」という語義文の見出し語は「桜1 」で、図12(B)に示した「檜1/科/の/一年1/葉1/が/緑色1/の/木1 」という語義文の見出し語は「檜1 」である。
知識獲得部14は、複数の語義文が第3の関係にあり、かつこれらの語義文の見出し語が異なる場合、これら複数の語義文の構文意味解析結果とシソーラス18の登録内容に基づいてオントロジー辞書2を作成する。知識獲得部14は、例えば図12(A)の語義文の構文意味解析結果とシソーラス18の登録内容から、見出し語「桜1 」の上位語が「木1 」であり、この見出し語「桜1 」から連想される単語が「バラ1 」と「葉1 」であるという単語間の意味関係を取得して、オントロジー辞書2に登録する。
また、知識獲得部14は、図12(B)の語義文の構文意味解析結果とシソーラス18の登録内容から、見出し語「檜1 」の上位語が「木1 」であり、この見出し語「檜1 」から連想される単語が「葉1 」と「緑色1 」であるという単語間の意味関係を取得して、オントロジー辞書2に登録する。さらに、知識獲得部14は、これらの意味関係から、見出し語「桜1 」と「檜1 」が共に「木1 」を共通の上位語とする兄弟関係にあるという見出し語間の関係を取得して、オントロジー辞書2に登録する。以上の結果から、図13に示したオントロジー辞書2が得られる。
また、知識獲得部14は、図12(C)の語義文の構文意味解析結果と図12(D)の語義文の構文意味解析結果とを兄弟関係パターンとしてオントロジー辞書2に登録しておく。これにより、知識獲得部14は、図12(C)に示した構造を有する「A/科/の/B/C」という語義文と図12(D)に示した構造を有する「D/科/の/E/C」という語義文とが現れたときには、これらの語義文に対応する2つの見出し語のうち少なくとも一方がシソーラス18に登録されていない未知の単語であっても、予め登録した兄弟関係パターンに基づいて、これらの見出し語が共に共通の上位語を持つ兄弟関係にあると推定して、これらの見出し語間の関係をオントロジー辞書2に登録することができる。
なお、知識獲得部14は、複数の語義文が第2の関係又は第3の関係にあり、かつこれらの語義文の見出し語が同じ場合、より広範囲の意味知識がオントロジー辞書2に登録されるように複数の語義文の構文意味解析結果を融合して、この融合の結果に基づいてオントロジー辞書2を作成する。複数の語義文の構文意味解析結果を融合するには、複数の語義文において異なる単語が同じ意味で使用されている場合、これらの単語のうち最も上位の単語を採用し、また複数の語義文が異なる構文構造を有している場合、これらの構文構造のうち最も上位の構文構造を採用すればよい。
次に、複数の語義文が(d)の第4の関係にあると判定した場合の知識獲得部14の処理について説明する。知識獲得部14は、複数の語義文が第4の関係にある場合、これら複数の語義文の構文意味解析結果とシソーラス18の登録内容に基づいてオントロジー辞書2を作成する。例えば「ドライバー1 」という見出し語に対して「車1/を/運転3/する/人1 」という語義文が得られ、また「ドライバー2 」という見出し語に対して「ねじ1/を差し入れ1/たり/、/抜き取っ1/たり/する/道具1」という語義文が得られた場合、知識獲得部14は、「車1/を/運転3/する/人1 」という語義文の構文意味解析結果とシソーラス18の登録内容から、見出し語「ドライバー1 」の上位語が「人1 」であり、この見出し語「ドライバー1 」から連想される単語が「車1 」であるという単語間の意味関係を取得して、オントロジー辞書2に登録する。
また、知識獲得部14は、「ねじ1/を差し入れ1/たり/、/抜き取っ1/たり/する/道具1」という語義文の構文意味解析結果とシソーラス18の登録内容から、見出し語「ドライバー2 」の上位語が「道具1 」であり、この見出し語「ドライバー2 」から連想される単語が「ねじ1 」であるという単語間の意味関係を取得して、オントロジー辞書2に登録する。以上の結果から、図14に示したオントロジー辞書2が得られる。
次に、複数の語義文が(e)の第5の関係にあると判定した場合の知識獲得部14の処理について説明する。図15は第5の関係にある2つの語義文の構造を示す図であり、図15(A)は複数のテキスト4のうち1つのテキスト4に記述された「下1/から/上1/へ/移る1/こと 」という語義文の構造を示す図、図15(B)は別のテキスト4に記述された、図15(A)の語義文と第5の関係にある「上1/から/下1/へ/移る1/こと 」という語義文の構造を示す図、図15(C)は図15(A)の語義文を抽象化した語義文の構造を示す図、図15(D)は図15(B)の語義文を抽象化した語義文の構造を示す図である。ここで、図15(A)に示した「下1/から/上1/へ/移る1/こと 」という語義文の見出し語は「上り1 」で、図15(B)に示した「上1/から/下1/へ/移る1/こと 」という語義文の見出し語は「下り1 」である。
知識獲得部14は、複数の語義文が第5の関係にある場合、これら複数の語義文の構文意味解析結果に基づいてオントロジー辞書2を作成する。すなわち、知識獲得部14は、図15(C)の語義文の構文意味解析結果と図15(D)の語義文の構文意味解析結果とを反義関係パターンとしてオントロジー辞書2に登録しておく。これにより、知識獲得部14は、図15(C)に示した構造を有する「A/から/B/へ/C/こと」という語義文と図15(D)に示した構造を有する「B/から/A/へ/C/こと」という語義文とが現れたときには、これらの語義文に対応する2つの見出し語のうち少なくとも一方がシソーラス18に登録されていない未知の単語であっても、予め登録した反義関係パターンに基づいて、これらの見出し語が反義関係にあると推定して、これらの見出し語間の関係をオントロジー辞書2に登録することができる。
自然言語処理装置3は、以上のようにして生成されたオントロジー辞書2を用いて自然言語処理を行う。自然言語処理の例としては、例えばユーザからの質問に対する応答、機械翻訳、ユーザからの問い合わせに応じた情報検索などがある。
以上のように、本実施の形態では、複数のテキスト4に記述された語義文から自然言語の意味知識を獲得するようにしたので、あるテキスト4に記述されていない単語の意味知識を別のテキスト4の語義文から獲得することができ、未知語を減らすことができる。その結果、本実施の形態では、各単語に関して従来よりも豊富な意味知識が登録されたオントロジー辞書2を作成することができ、このようなオントロジー辞書2を利用すれば、コンピュータによる構文意味解析精度を向上させることができる。
例えばユーザからの質問に対して応答する場合、ユーザからの質問内容をより正確に把握することができ、また回答候補の検索と絞り込みをより正確に行うことができる。機械翻訳を行う場合には、各単語の語義の意味知識がより正確になるため、より正確な翻訳が可能となる。検索単語と検索候補の文との単語の意味的近さにより情報検索を行う場合には、各単語の語義の意味知識がより正確になるため、より正確な検索が可能となる。
また、本実施の形態では、複数のテキスト4を用いて単語の語義を拡張できることから、特定分野向けのテキスト4を用いて得られた意味知識と一般向けのテキスト4を用いて得られた意味知識とを融合して、特定分野向けの意味知識を強化したオントロジー辞書2を作成することができる。
また、本実施の形態では、複数の見出し語が同義関係、上位下位関係、兄弟関係、又は反義関係など既知の関係を有する場合に、この複数の見出し語に関する構文意味解析結果を抽象化してパターン化しておくことにより、シソーラスに登録されていない未知語がテキスト4に記述されている場合でも、この未知語と他の見出し語との関係をパターンに基づいて判定してオントロジー辞書2に登録することができる。
なお、本実施の形態の自然言語処理システムは、中央処理装置、記憶装置および外部とのインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。このようなコンピュータにおいて、本発明の辞書作成方法を実現させるための辞書作成プログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供される。中央処理装置は、記録媒体から読み込んだプログラムを記憶装置に書き込み、プログラムに従って本実施の形態で説明した処理を実行する。辞書作成装置1を構成するコンピュータと自然言語処理装置3を構成するコンピュータとは、同一のコンピュータでもよいし、別々に設けられたものでもよい。
本発明は、自然言語処理システムに適用することができる。
本発明の実施の形態となる自然言語処理システムの構成を示すブロック図である。 図1の自然言語処理システムの辞書作成装置の動作を示すフローチャートである。 本発明の実施の形態においてテキストに記述された見出し語とその語義文の1例を示す図である。 本発明の実施の形態において構文意味解析部が語義文を構文意味解析した結果得られた解析木の1例を示す図である。 本発明の実施の形態において構文意味解析部が語義文を構文意味解析した結果得られた意味表現の1例を示す図である。 本発明の実施の形態におけるオントロジー辞書の1部を模式的に表す図である。 本発明の実施の形態におけるシソーラスの1部を模式的に表す図である。 本発明の実施の形態において第1の関係にある2つの語義文の構造を示す図である。 図8の語義文の構文意味解析結果を基に作成されたオントロジー辞書を示す図である。 本発明の実施の形態において第2の関係にある2つの語義文の構造を示す図である。 図10の語義文の構文意味解析結果を基に作成されたオントロジー辞書を示す図である。 本発明の実施の形態において第3の関係にある2つの語義文の構造を示す図である。 図12の語義文の構文意味解析結果を基に作成されたオントロジー辞書を示す図である。 本発明の実施の形態において第4の関係にある2つの語義文の構文意味解析結果を基に作成されたオントロジー辞書を示す図である。 本発明の実施の形態において第5の関係にある2つの語義文の構造を示す図である。
符号の説明
1…辞書作成装置、2…オントロジー辞書、3…自然言語処理装置、4…テキスト、11…語義文分割部、12…単語語義付与部、13…構文意味解析部、14…知識獲得部、15…単語辞書、16…単語語義辞書、17…文法辞書、18…シソーラス。

Claims (8)

  1. 自然言語の意味知識をコンピュータが理解可能な形式に構造化して定義した意味データベースであるオントロジー辞書を作成する辞書作成装置であって、
    単語の語義を説明する語義文が記述された自然言語の複数のテキストを入力として、これらのテキストに記述された各語義文の構文構造及び意味構造を解析する構文意味解析手段と、
    予め同義語、類義語、及び意味的に上下関係にある上位語と下位語が登録されたシソーラスと、
    前記複数のテキストにそれぞれ記述された複数の語義文を前記構文意味解析手段で解析した結果である構文意味解析結果と前記シソーラスの登録内容に基づいて前記オントロジー辞書を作成する知識獲得手段とを有することを特徴とする辞書作成装置。
  2. 請求項1記載の辞書作成装置において、
    前記知識獲得手段は、
    前記複数の語義文の解析から得られた複数の構文意味解析結果と前記シソーラスの登録内容に基づいて、前記複数の語義文がそれぞれ説明対象としている複数の見出し語が、同義関係、上位下位関係、共通の上位語を持つ兄弟関係、又は反義関係にあるかどうかを判定する判定手段と、
    前記複数の見出し語が、同義関係、上位下位関係、兄弟関係、又は反義関係にあると判定された場合に、この複数の見出し語間の関係を前記オントロジー辞書に登録する関係登録手段とを備えることを特徴とする辞書作成装置。
  3. 請求項1記載の辞書作成装置において、
    前記知識獲得手段は、
    前記複数の語義文の解析から得られた複数の構文意味解析結果と前記シソーラスの登録内容に基づいて、前記複数の語義文がそれぞれ説明対象としている複数の見出し語が、同義関係、上位下位関係、共通の上位語を持つ兄弟関係、又は反義関係にあるかどうかを判定する判定手段と、
    前記複数の見出し語が、同義関係、上位下位関係、兄弟関係、又は反義関係にあると判定された場合に、前記複数の構文意味解析結果が示す構文構造及び意味構造を抽象化して、この抽象化した構文構造及び意味構造を、前記判定された関係を表すパターンとして前記オントロジー辞書に登録するパターン登録手段と、
    前記シソーラスに登録されていない関係を有する複数の見出し語が入力されたときに、この複数の見出し語間の関係を前記パターンに基づいて判定して前記オントロジー辞書に登録するパターン判定登録手段とを備えることを特徴とする辞書作成装置。
  4. 中央処理装置と記憶装置とを備えたコンピュータにおいて、自然言語の意味知識をコンピュータが理解可能な形式に構造化して定義した意味データベースであるオントロジー辞書を作成する辞書作成方法であって、
    単語の語義を説明する語義文が記述された自然言語の複数のテキストを入力として、これらのテキストに記述された各語義文の構文構造及び意味構造を解析する構文意味解析手順と、
    前記複数のテキストにそれぞれ記述された複数の語義文を前記構文意味解析手順で解析した結果である構文意味解析結果と、予め同義語、類義語、及び意味的に上下関係にある上位語と下位語が登録されたシソーラスの登録内容に基づいて、前記オントロジー辞書を作成する知識獲得手順とを、前記記憶装置に記憶されたプログラムに従って前記中央処理装置に実行させることを特徴とする辞書作成方法。
  5. 請求項4記載の辞書作成方法において、
    前記知識獲得手順は、
    前記複数の語義文の解析から得られた複数の構文意味解析結果と前記シソーラスの登録内容に基づいて、前記複数の語義文がそれぞれ説明対象としている複数の見出し語が、同義関係、上位下位関係、共通の上位語を持つ兄弟関係、又は反義関係にあるかどうかを判定する判定手順と、
    前記複数の見出し語が、同義関係、上位下位関係、兄弟関係、又は反義関係にあると判定された場合に、この複数の見出し語間の関係を前記オントロジー辞書に登録する関係登録手順とからなることを特徴とする辞書作成方法。
  6. 請求項4記載の辞書作成方法において、
    前記知識獲得手順は、
    前記複数の語義文の解析から得られた複数の構文意味解析結果と前記シソーラスの登録内容に基づいて、前記複数の語義文がそれぞれ説明対象としている複数の見出し語が、同義関係、上位下位関係、共通の上位語を持つ兄弟関係、又は反義関係にあるかどうかを判定する判定手順と、
    前記複数の見出し語が、同義関係、上位下位関係、兄弟関係、又は反義関係にあると判定された場合に、前記複数の構文意味解析結果が示す構文構造及び意味構造を抽象化して、この抽象化した構文構造及び意味構造を、前記判定された関係を表すパターンとして前記オントロジー辞書に登録するパターン登録手順と、
    前記シソーラスに登録されていない関係を有する複数の見出し語が入力されたときに、この複数の見出し語間の関係を前記パターンに基づいて判定して前記オントロジー辞書に登録するパターン判定登録手順とからなることを特徴とする辞書作成方法。
  7. 自然言語の意味知識をコンピュータが理解可能な形式に構造化して定義した意味データベースであるオントロジー辞書を作成する辞書作成装置としてコンピュータを動作させる辞書作成プログラムであって、
    単語の語義を説明する語義文が記述された自然言語の複数のテキストを入力として、これらのテキストに記述された各語義文の構文構造及び意味構造を解析する構文意味解析手順と、
    前記複数のテキストにそれぞれ記述された複数の語義文を前記構文意味解析手順で解析した結果である構文意味解析結果と、予め同義語、類義語、及び意味的に上下関係にある上位語と下位語が登録されたシソーラスの登録内容に基づいて、前記オントロジー辞書を作成する知識獲得手順とを、コンピュータの中央処理装置に実行させることを特徴とする辞書作成プログラム。
  8. 請求項7記載の辞書作成プログラムを記録したことを特徴とする記録媒体。
JP2005192905A 2005-06-30 2005-06-30 辞書作成装置、辞書作成方法、プログラム及び記録媒体 Pending JP2007011775A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005192905A JP2007011775A (ja) 2005-06-30 2005-06-30 辞書作成装置、辞書作成方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005192905A JP2007011775A (ja) 2005-06-30 2005-06-30 辞書作成装置、辞書作成方法、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2007011775A true JP2007011775A (ja) 2007-01-18

Family

ID=37750169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005192905A Pending JP2007011775A (ja) 2005-06-30 2005-06-30 辞書作成装置、辞書作成方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2007011775A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008233964A (ja) * 2007-03-16 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体
JP2008293295A (ja) * 2007-05-24 2008-12-04 Fuji Xerox Co Ltd 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP2010108208A (ja) * 2008-10-30 2010-05-13 Hitachi Software Eng Co Ltd 文書処理装置
JP2011034262A (ja) * 2009-07-31 2011-02-17 National Institute Of Information & Communication Technology データ作成装置、上位語取得装置、データ作成方法、およびプログラム
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
WO2021235225A1 (ja) * 2020-05-21 2021-11-25 ソニーグループ株式会社 情報処理装置及び情報処理方法
US11409773B2 (en) 2017-09-20 2022-08-09 Yahoo Japan Corporation Selection device, selection method, and non-transitory computer readable storage medium
WO2022208822A1 (ja) * 2021-03-31 2022-10-06 富士通株式会社 情報処理プログラム、情報処理方法、情報処理装置および情報処理システム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008233964A (ja) * 2007-03-16 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体
JP2008293295A (ja) * 2007-05-24 2008-12-04 Fuji Xerox Co Ltd 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP2010108208A (ja) * 2008-10-30 2010-05-13 Hitachi Software Eng Co Ltd 文書処理装置
JP2011034262A (ja) * 2009-07-31 2011-02-17 National Institute Of Information & Communication Technology データ作成装置、上位語取得装置、データ作成方法、およびプログラム
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
JP5936698B2 (ja) * 2012-08-27 2016-06-22 株式会社日立製作所 単語意味関係抽出装置
JPWO2014033799A1 (ja) * 2012-08-27 2016-08-08 株式会社日立製作所 単語意味関係抽出装置
US11409773B2 (en) 2017-09-20 2022-08-09 Yahoo Japan Corporation Selection device, selection method, and non-transitory computer readable storage medium
WO2021235225A1 (ja) * 2020-05-21 2021-11-25 ソニーグループ株式会社 情報処理装置及び情報処理方法
WO2022208822A1 (ja) * 2021-03-31 2022-10-06 富士通株式会社 情報処理プログラム、情報処理方法、情報処理装置および情報処理システム

Similar Documents

Publication Publication Date Title
Gildea et al. The necessity of parsing for predicate argument recognition
CN108885617B (zh) 语句解析系统以及程序
JPH0447364A (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
JP2012520528A (ja) 自然言語テキストの自動的意味ラベリングのためのシステム及び方法
JP2007011775A (ja) 辞書作成装置、辞書作成方法、プログラム及び記録媒体
Guarasci et al. Assessing BERT’s ability to learn Italian syntax: A study on null-subject and agreement phenomena
Bakari et al. Logic-based approach for improving Arabic question answering
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP2003167898A (ja) 情報検索システム
Keezhatta Understanding EFL Linguistic Models through Relationship between Natural Language Processing and Artificial Intelligence Applications.
JP2008077512A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Zaenen et al. Language analysis and understanding
JP5245291B2 (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
Jagtman et al. Report-COMOLA: a computer system for the analysis of interlanguage data
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
KR950013129B1 (ko) 기계번역장치 및 방법
Bouziane et al. Question answering systems: the story till the Arabic linked data
JP4031492B2 (ja) テンプレート作成装置、辞書作成装置、テンプレート作成方法、辞書作成方法、テンプレート作成プログラム、辞書作成プログラムおよび記録媒体
JP7312354B2 (ja) 意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法
Atlam et al. Using Ontology and FA Term Methods to Develop Frameworks for Treating NLP Problems
Abdelkader et al. How Existing NLP Tools of Arabic Language Can Serve Hadith Processing
JP4033089B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム