JP4031492B2 - テンプレート作成装置、辞書作成装置、テンプレート作成方法、辞書作成方法、テンプレート作成プログラム、辞書作成プログラムおよび記録媒体 - Google Patents

テンプレート作成装置、辞書作成装置、テンプレート作成方法、辞書作成方法、テンプレート作成プログラム、辞書作成プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4031492B2
JP4031492B2 JP2005192885A JP2005192885A JP4031492B2 JP 4031492 B2 JP4031492 B2 JP 4031492B2 JP 2005192885 A JP2005192885 A JP 2005192885A JP 2005192885 A JP2005192885 A JP 2005192885A JP 4031492 B2 JP4031492 B2 JP 4031492B2
Authority
JP
Japan
Prior art keywords
template
semantic
dictionary
meaning
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005192885A
Other languages
English (en)
Other versions
JP2007011771A (ja
Inventor
浩巳 中岩
フランシス・ボンド
貴秋 田中
泰弘 秋葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005192885A priority Critical patent/JP4031492B2/ja
Publication of JP2007011771A publication Critical patent/JP2007011771A/ja
Application granted granted Critical
Publication of JP4031492B2 publication Critical patent/JP4031492B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、例えば機械翻訳や情報検索を行う自然言語処理システムにかかり、特にコンピュータが自然言語処理を行うためのオントロジ辞書を作成するためのテンプレート作成装置、辞書作成装置、テンプレート作成方法、辞書作成方法、プログラムおよび記憶媒体に関するものである。
従来より、例えば国語辞書などの自然言語のテキストに記述された単語の語義を説明する語義文を構文意味解析することよりオントロジ辞書を構築し、このオントロジ辞書を用いてコンピュータが自然言語処理を行う自然言語処理システムが知られている(例えば、非特許文献1〜3参照)。ここで、オントロジ辞書とは、自然言語の意味知識をコンピュータが理解可能な形式に構造化して定義した意味データベースであり、具体的には、同義、反義、類義、連想、意味的に上位・下位、意味的に兄弟の関係など、単語間の意味関係を定義したものである。
非特許文献1に開示された自然言語処理システムは、複数の電子化辞書を人の手で構造化して融合し、オントロジ辞書を構築するものである。
非特許文献2に開示された自然言語処理システムは、解析器により辞書の定義文や例文を解析し、定義文や例文の単語の意味的関係を自動的に構造化してオントロジ辞書を構築するものである。
非特許文献3に開示された自然言語処理システムは、国語辞書の語義文の表層的パターンから語義文中に存在する同義語、上位語など関連する語を自動抽出してオントロジ辞書を構築するものである。
Antonio Sanfilippo,et al.,"The Acquisition of Lexical Knowledge from Combined Machine-Readable Dictionary Sources",Proceedings of the third conference on Applied natural language processing,Lexicon acquisition table of contents,1992,p.80-87 Stephen D.Richardson,et al.,"MindNet:acquiring and structuring semantic information from text",Proceedings of the 17th international conference on Computational linguistics,Volume 2,1998,p.1098-1102 鶴丸弘昭他,"単語間の上位−下位関係の自動抽出",情報処理学会情報学基礎研究会資料,Vol.1986,No.081,1986
しかしながら、従来の自然言語処理システムでは、各単語の語義文のみからその単語の意味知識を獲得しているために、オントロジ辞書に登録された意味知識が不十分で、オントロジ辞書を用いた自然言語の構文意味解析精度が悪いという問題点があった。
そこで、本願発明は、上記課題を解決するためになされたもので、従来よりも豊富な意味知識が登録されたオントロジ辞書を作成することができ、コンピュータによる構文意味解析精度を向上させることができる辞書作成装置、辞書作成方法、テンプレート作成プログラム、辞書作成プログラムおよび記録媒体を提供することを目的とする。
上述したような課題を解決するために、本発明にかかるテンプレート作成装置は、入力された意味関係が既知の複数の単語それぞれの語義を説明する語義文を取得する取得手段と、この取得手段により取得された語義文の構文意味構造を解析する解析手段と、この解析手段により解析された構文意味構造と意味関係とを抽象化して対応付けたテンプレートを作成する特徴抽出手段と、この特徴抽出手段により作成されたテンプレートを記憶する記憶手段とを備えたことを特徴とする。ここで、取得手段は、同義語、反義語、意味的に兄弟関係にある語、および、意味的に上下関係にある上位語と下位語のうち何れかの意味関係にある複数の単語が入力されるようにしてもよい。
また、本発明にかかる辞書作成装置は、複数の単語を各単語間の意味関係に基づいて構造化して記憶したオントロジ辞書を作成する辞書作成装置であって、所定の構文意味構造と、この構文意味構造に対応する意味関係とを抽象化して対応付けたテンプレートを記憶する記憶手段と、外部より入力された複数の単語それぞれの語義を説明する語義文を外部より取得する取得手段と、この取得手段により取得された語義文の構文意味構造を解析する解析手段と、この解析手段により解析された構文意味構造と意味関係とを抽象化して対応付けたテンプレートを作成する特徴抽出手段と、この特徴抽出手段により作成されたテンプレートと、記憶手段に記憶されたテンプレートとに基づいて、複数の単語間の意味関係を検出する検出手段と、この検出手段による検出結果に基づいて複数の単語をオントロジ辞書に登録する辞書登録手段とを備えたことを特徴とする。上記辞書作成装置において、検出手段により検出された意味関係を確認する確認手段と、意味関係が正しいと確認されたときに、解析手段により解析された構文意味構造と意味関係とを対応付けたテンプレートを記憶手段に登録させるテンプレート登録手段とをさらに備えるようにしてもよい。
また、本発明に係るテンプレート作成方法は、単語の語義を説明する語義文を取得する取得手段と、文章の構文意味構造を解析する解析手段と、テンプレートを作成する特徴抽出手段と、テンプレートを記憶する記憶手段とを備えた辞書作成装置を用いてテンプレートを作成するテンプレート作成方法において、取得手段が、入力された意味関係が既知の複数の単語それぞれの語義を説明する語義文を取得する取得ステップと、解析手段が、取得手段が取得した語義文の構文意味構造を解析する解析ステップと、特徴抽出手段が、解析手段が解析た構文意味構造と意味関係とを抽象化して対応付けたテンプレートを作成する特徴抽出ステップと、記憶手段が、特徴抽出手段が作成したテンプレートを記憶する記憶ステップとを備えたことを特徴とする。
また、本発明に係る辞書作成方法は、テンプレートを記憶した記憶手段と、単語の語義を説明する語義文を取得する取得手段と、文章の構文意味構造を解析する解析手段と、テンプレートを作成する特徴抽出手段と、複数の単語間の意味関係を検出する検出手段と、複数の単語をオントロジ辞書に登録する辞書登録手段とを備えた辞書作成装置を用いてオントロジ辞書を作成する辞書作成方法であって、記憶手段が、所定の構文意味構造と、この構文意味構造に対応する意味関係とを抽象化して対応付けたテンプレートを記憶する記憶ステップと、取得手段が、外部より入力された複数の単語それぞれの語義を説明する語義文を外部より取得する取得ステップと、解析手段が、取得手段が取得た語義文の構文意味構造を解析する解析ステップと、特徴抽出手段が、解析手段が解析した構文意味構造と意味関係とを抽象化して対応付けたテンプレートを作成する特徴抽出ステップと、検出手段が、特徴抽出手段が作成したテンプレートと、記憶手段に記憶させたテンプレートとに基づいて、複数の単語間の意味関係を検出する検出ステップと、辞書登録手段が、検出手段による検出結果に基づいて複数の単語をオントロジ辞書に登録する辞書登録ステップとを備えたことを特徴とする。
また、本発明に係るテンプレートプログラムは、コンピュータを、上記テンプレート作成装置の各手段として機能させることを特徴とする。
また、本発明に係る辞書作成プログラムは、コンピュータを、上記辞書作成装置の各手段として機能させることを特徴とする。
また、本発明に係る記録媒体は、上記プログラムを記録したことを特徴とする。
本発明によれば、意味関係が既知の複数の単語の語義文の構文意味構造と当該意味関係とを対応付けたテンプレートを作成し、このテンプレートに基づいて他の複数の単語の意味関係を検出することにより、テキストに記述された語義文のみから得られた自然言語の意味知識だけでなく、他の単語の語義文の構文意味構造からも意味知識を獲得することができるので、従来よりも豊富な意味知識が登録されたオントロジ辞書を作成することができる。
[第1の実施の形態]
以下、図面を参照して、本発明の第1の実施の形態について図面を参照して説明する。図1は、本発明の第1の実施の形態となるテンプレート作成装置の構成を示すブロック図である。テンプレート作成装置1は、受付部11と、語義辞書12と、語義抽出部13と、文法辞書14と、解析部15と、特徴抽出部16と、テンプレート登録部17と、テンプレートDB(Data Base)18とから構成される。このようなテンプレート作成装置1は、CPU等の演算装置と、メモリ、HDD(Hard Disc Drive)等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)等の通信回線を介して各種情報の送受信を行うI/F装置と、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)またはFED(Field Emission Display)等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した受付部11、語義辞書12、語義抽出部13、文法辞書14、解析部15、特徴抽出部16、テンプレート登録部17、テンプレートDB18が実現される。なお、上記プログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供されるようにしてもよい。
受付部11は、キーボードやマウス等の入力装置や通信回線を介して、外部からテキストなどの電子化された単語を受け付けるインターフェース装置である。
語義辞書12は、単語と、この単語の語義を説明する語義文とが記憶されたデータベースである。このような語義辞書12は、例えば、電子化された国語辞書などから構成される。以下、語義文が説明対象としている単語を「見出し語」と呼ぶ。
語義抽出部13は、受付部11から入力された見出し語の語義文を語義辞書12から抽出する演算処理部である。なお、語義抽出部13は、受付部11から入力された見出し語の語義文として、例えばマウスやキーボードを介してユーザが入力した語義文を用いるようにしてもよい。
文法辞書14は、対象とする自然言語の文法規則が登録されているデータベースである。
解析部15は、語義抽出部13が抽出した語義文を文法辞書14に記憶された文法規則に基づいて構文意味解析する演算処理部である。ここで、構文意味解析とは、語義文を単語単位に分割し、各単語の品詞や意味等の語義を特定し、語義文の構文構造を表す解析木や語義文の意味構造を表す意味表現を特定することを意味する。
特徴抽出部16は、解析部15による構文意味解析の結果、特に解析木を抽象化する演算処理部である。
テンプレート登録部17は、特徴抽出部16により抽象化された構文意味解析結果(以下、「テンプレート」と呼ぶ。)をテンプレートDB18に登録する演算処理部である。
テンプレートDB18は、テンプレート登録部17により入力された抽象化された構文意味解析結果を記憶するデータベースである。
次に、本実施の形態にかかるテンプレート作成装置1の動作について、図2を参照して説明する。
まず、受付部11は、外部から入力された2つの見出し語およびこれらの見出し語の関係を読み込む(ステップS201)。ここで、受付部11には、例えば、同義語、類義語、および意味的に上下関係にある上位語と下位語など、所定の意味関係にある2つの見出し語と、これらの見出し語の関係に関する情報とが入力される。
2つの見出し語が入力されると、語義抽出部13は、その2つの見出し語の語義文を語義辞書12から抽出する(ステップS202)。例えば、受付部11に「ドライバ」という見出し語が入力された場合、語義抽出部13は、語義辞書12から「車を運転する人」という語義文を抽出する。
2つの語義文が抽出されると、解析部15は、その2つの語義文を文法辞書14に基づいて構文意味解析する(ステップS203)。例えば、見出し語「ドライバ」に対する語義文「車を運転する人」を構文意味解析した結果得られた解析木の一例を図3(A)に示す。このような構文意味解析は、例えば主辞駆動句構造文法(Head-Driven Phrase Structure Grammar:HPSG )等の手法により実現することができる。なお、図3および後述する図4〜6において、Nは名詞、Pは助詞、VNはサ変名詞、Vは動詞、PPは前置詞句、VPは動詞句、NPは名詞句を表す。
2つの解析木が生成されると、特徴抽出部16は、その2つの解析木から特徴を抽出する(ステップS204)。具体的には、特徴抽出部16は、2つの解析木を比較し、それぞれ共通する部分や特徴的な部分等を抽出して対応付けた2つの解析木(以下、「テンプレート」と呼ぶ)を生成する。すなわち、両解析木中において、同じ単語若しくは単語列、または、同義の単語若しくは単語列の部分に相当する単語若しくは解析木中の一部分(以下、「部分木」と呼ぶ。)を同じ変数名で変数化するとともに、同じではないまたは同義ではない単語または単語列の部分に相当する単語若しくは部分木を異なる変数名で変数化することにより、2つの解析木を対応付ける。以下に、図3〜6を参照して、同義、反義、上位・下位、兄弟の意味関係(以下、それぞれ「同義パターン」、「反義パターン」、「上位・下位パターン」、「兄弟パターン」と呼ぶ)にある見出し語のテンプレートを生成する例を示す。
(同義パターン)
図3(A)は、見出し語「ドライバ」の語義文「車を運転する人」の解析木、図3(B)は、見出し語「ドライバ」の他の語義文「車の運転を担当する人」の解析木、図3(C)は、図3(A),(B)を抽象化した解析木を示す図である。ここで、図3(A)と図3(B)に示す解析木は、何れも見出し語「ドライバ」の語義文から生成されたものである。これは、例えば、複数の辞書から語義文を抽出することにより、図3(A),(B)に示すように同じ見出し語であっても異なる語義文を抽出することができる。特徴抽出部16は、図3(A),(B)に示すように、同じまたは同義の見出し語に基づく解析木が入力された場合、図3(C)に示すように、それぞれの特徴を抽出して対応付けた2つの解析木を、同義パターンのテンプレートとして生成する。
ここで、特徴抽出部16は、図3(A)の「車」と図3(B)の「車」が同じ単語なので、それぞれを<A>と変数化している。また、図3(A)の「運転」と図3(B)の「運転」が同じ単語なので、それぞれを<B>と変数化している。また、図3(A)の「人」と図3(B)の「人」が同じ単語なので、それぞれを<C>と変数化している。これにより、特徴抽出部16は、図3(C)に示すような同義パターンのテンプレートを生成している。
(反義パターン)
図4(A)は、見出し語「上り」の語義文「下から上へ移ること」の解析木、図4(B)は、見出し語「下り」の語義文「上から下へ移ること」の解析木、図4(C)は、図4(A),(B)を抽象化した解析木を示す図である。ここで、図4(A)と図4(B)に示す解析木は、反義の関係にある「上り」と「下り」という見出し語の語義文から生成されたものである。特徴抽出部16は、図4(A),(B)に示すように、反義の見出し語に基づく解析木が入力された場合、図4(C)に示すように、それぞれの特徴を抽出して対応付けた2つの解析木を、反義パターンのテンプレートとして生成する。
ここで、特徴抽出部16は、図4(A)の「上」と図4(B)の「上」が同じ単語なので、それぞれを<A>と変数化している。また、図4(A)の「下」と図4(B)の「下」が同じ単語なので、それぞれを<B>と変数化している。また、図4(A)の「移る」と図4(B)の「移る」が同じ単語なので、それぞれを<C>と変数化している。これにより、図4(C)に示すような反義パターンのテンプレートを生成している。
(上位・下位パターン)
図5(A)は、見出し語「ドライバ」の語義文「車を運転する人」の解析木、図5(B)は、見出し語「運転手」の語義文「電車や車を運転する人」の解析木、図5(C)は、図5(A),(B)を抽象化した解析木を示す図である。ここで、図5(A)と図5(B)に示す解析木は、意味的に上位と下位の関係にある「ドライバ」と「運転手」という見出し語の語義文から生成されたものである。ここで、見出し語「運転手」の語義文が定義する意味は、見出し語「ドライバ」の語義文が定義する意味を包含しているので、見出し語「運転手」は見出し語「ドライバ」よりも上位にある。特徴抽出部16は、図5(A),(B)に示すように、上位と下位の関係にある見出し語に基づく解析木が入力された場合、図5(C)に示すように、それぞれの特徴を抽出して対応付けた2つの解析木を、上位・下位パターンのテンプレートとして生成する。
ここで、特徴抽出部16は、図5(A)の「車」と図5(B)の「車」が同じ単語なので、それぞれを<A>と変数化している。また、図5(A)の「運転」と図5(B)の「運転」が同じ単語なので、それぞれを<B>と変数化している。また、図5(A)の「人」と図5(B)の「人」が同じ単語なので、それぞれを<C>と変数化している。また、図5(B)の「電車」と同じまたは同義の単語が図5(A)中に存在しないので、図5(B)の「電車」を<D>と変数化している。これにより、図5(C)に示すような上位・下位パターンのテンプレートを生成している。
(兄弟パターン)
図6(A)は、見出し語「桜」の語義文「バラ科の葉が枯れて落ちる木」の解析木、図6(B)は、見出し語「檜」の語義文「檜科の一年葉が緑色の木」の解析木、図6(C)は、図6(A),(B)を抽象化した解析木を示す図である。ここで、図6(A)と図6(B)に示す解析木は、意味的に兄弟の関係、すなわち、共に共通の上位語を有する「桜」と「檜」という見出し語の語義文から生成されたものである。特徴抽出部16は、図6(A),(B)に示すように、兄弟の関係にある見出し語に基づく解析木が入力された場合、図6(C)に示すように、それぞれの特徴を抽出して対応付けた2つの解析木を、兄弟パターンのテンプレートとして生成する。
ここで、特徴抽出部16は、図6(A)の「バラ」と同じまたは同義の単語が図6(B)に存在しないので、図6(A)の「バラ」を<A>と変数化している。また、図6(A)の「葉/の/枯れて/落ちる」に相当する部分木VPと同じまたは同義の表現が図6(B)に存在しないので、図6(A)の「葉/の/枯れて/落ちる」に相当する部分木を<B>と変数化している。また、図6(A)の「木」と図6(B)の「木」とが同じ単語なので、それぞれを<C>と変数化している。また、図6(B)の「檜」と同じまたは同義の単語が図6(A)に存在しないので、図6(B)の「檜」を<D>と変数化している。また、図6(B)の「一年/葉/が/緑色/の」に相当する部分木PRと同じまたは同義の表現が図6(A)に存在しないので、図6(B)の「一年/葉/が/緑色/の」に相当する部分木を<E>と変数化している。これにより、図6(C)に示すような兄弟パターンのテンプレートを生成している。
なお、上述した各パターンのテンプレートを生成する際、変数化する対象となる単語の選択は、名詞、動詞、形容詞、形容動詞、副詞のような内容を示す語(以下、「内容語」と呼ぶ。)のみを対象とし、助詞、助動詞、接続詞などの機能を示す語(以下、「機能語」と呼ぶ。)を対象としないようにしてもよい。また、図3〜5では単語のみを変数化しているが、図6で示したように単語のみならず解析木中の部分木を変数化するようにしてもよい。
テンプレートが生成されると、テンプレート登録部17は、生成されたテンプレートと、このテンプレートの意味関係のパターンとを対応付けて、テンプレートDB18に記憶させる(ステップS205)。
このように、本実施の形態によれば、同義、反義、上位・下位または兄弟の意味関係を有する2つの見出し語を入力し、これらの見出し語の語義文に対して構造意味解析を行い、解析結果として得られる2つの解析木を抽象化して意味関係のパターン毎に対応付けて記憶することにより、各意味関係のパターンのテンプレートが作成され、これらがテンプレートDB18に記憶される。したがって、多数の見出し語について、上述したステップS201〜205を実行することにより、多数のテンプレートが記憶されたテンプレートDB18が構築される。
このように多数のテンプレートが記憶されたテンプレートDB18を用いれば、他の単語の語義文の構文意味構造からも意味知識を獲得することができるので、従来よりも豊富な意味知識が登録されたオントロジ辞書を作成することが可能となる。このようなオントロジ辞書を作成する辞書作成装置については、以下に説明する。
[第2の実施の形態]
次に、本発明の第2の実施の形態について詳細に説明する、図7は、本実施の形態にかかる辞書作成装置の構成を示すブロック図である。なお、本実施の形態にかかる辞書作成装置2は、第1の実施の形態のテンプレート作成装置1にさらに関係検出部21、辞書登録部22およびオントロジ辞書23を設けたもので、テンプレートDB18に記憶されたテンプレートを用いて単語の関係を検出し、それをオントロジ辞書に登録することにより、オントロジ辞書を作成するものである。したがって、本実施の形態において、第1の実施の形態と同等の構成要素については、同じ名称および符号を付し、適宜説明を省略する。
テンプレート作成装置1は、受付部11と、語義辞書12と、語義抽出部13と、文法辞書14と、解析部15と、特徴抽出部16と、テンプレート登録部17と、テンプレートDB18と、関係検出部21と、辞書登録部22と、オントロジ辞書23とから構成される。このようなテンプレート作成装置1は、CPU等の演算装置と、メモリ、HDD(Hard Disc Drive)等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)等の通信回線を介して各種情報の送受信を行うI/F装置と、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)またはFED(Field Emission Display)等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した受付部11、語義辞書12、語義抽出部13、文法辞書14、解析部15、特徴抽出部16、テンプレート登録部17、テンプレートDB18、関係検出部21、辞書登録部22およびオントロジ辞書23が実現される。なお、上記プログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供されるようにしてもよい。
関係検出部21は、特徴抽出部16により抽象化された構文意味解析結果と、テンプレートDB18に記憶されているテンプレートおよびこのテンプレートの意味関係とに基づいて、受付部11に入力された2つの見出し語の関係を検出する演算処理部である。
辞書登録部22は、関係検出部21による検出結果に基づいて、受付部11に入力された2つの見出し語をオントロジ辞書23に登録する演算処理部である。
オントロジ辞書23は、自然言語の意味知識をコンピュータが理解可能な形式に構造化して定義した意味データベースであり、具体的には、同義、反義、類義、連想、意味的に上位・下位、意味的に兄弟の関係など、単語間の意味関係を記憶したものである。
次に、本実施の形態にかかる辞書作成装置2の動作について、図8を参照して説明する。なお、本実施の形態において、テンプレートDB18には、第1の実施の形態で説明したテンプレート作成装置1により、既に各意味パターンのテンプレートが複数記憶されているものとする。
まず、受付部11は、外部から入力された2つの見出し語を読み込む(ステップS801)。ここで、受付部11には、オントロジ辞書23に登録したい2つの見出し語が入力される。
2つの見出し語が読み込まれると、語義抽出部13は、その2つの見出し語の語義文を語義辞書12から抽出する(ステップS802)。
2つの語義文が抽出されると、解析部15は、その2つの語義文を文法辞書14に基づいて構文意味解析する(ステップS803)。
2つの解析木が生成されると、特徴抽出部16は、その2つの解析木から特徴を抽出する(ステップS804)。具体的には、特徴抽出部16は、2つの解析木を比較し、それぞれ共通する部分や特徴的な部分等を抽出したテンプレートを生成する。
テンプレートが生成されると、関係検出部21は、特徴抽出部16により生成されたテンプレートと、テンプレートDB18に記憶されているテンプレートとに基づいて、受付部11に入力された2つの見出し語間の意味関係を検出する(ステップS805)。具体的には、関係検出部21は、テンプレートDB18に記憶されているテンプレートの中から、特徴抽出部16により生成されたテンプレートと同一または最も類似したテンプレートを抽出し、このテンプレートの意味関係のパターンを検出し、この検出したパターンを受付部11から入力された見出し語間の意味関係であると判定する。
意味関係が検出されると、辞書登録部22は、その意味関係に基づいて受付部11から入力された2つの見出し語を対応付けて、オントロジ辞書23に登録する(ステップS806)。これにより、受付部11から入力された見出し語間の意味関係が対応付けられた、見出し語のオントロジ辞書23が作成される。
例えば、上述したように、ある辞書(辞書A)から取得した見出し語「ドライバ」の語義文「車を運転する人」と、別の辞書(辞書B)から取得した見出し語「ドライバ」の語義文「車の運転を担当する人」とから生成された図3(C)に示す同義パターンのテンプレートがテンプレートDB18に記憶されているとする。なお、このテンプレートの由来となった辞書Aの見出し語「ドライバ」と辞書Bの見出し語「ドライバ」とをオントロジ辞書23に登録すると、図9(A)に示すように、それぞれが同義の意味関係にあることを意味する対応付けがなされる。このような図3(C)のテンプレートを用いることにより、同義関係を有する見出し語がオントロジ辞書23に追加登録される。一例として、対応する語義文が「食材を調理する人」である見出し語「料理人」と、対応する語義文が「食材の調理をする人」である見出し語「コック」とが受付部11に読み込まれた場合、解析部15は、それぞれの語義文から図9(B),(C)に示す構造の解析木を生成する。これらの解析木と図3(C)のテンプレートとを比較すると、それぞれの解析木の構造が同等であるので、関係検出部21は、見出し語「料理人」と見出し語「コック」とが同義の意味関係にあることを検出する。すると、辞書登録部22は、図9(D)に示すように、見出し語「料理人」と見出し語「コック」とが同義関係にあると対応付けてオントロジ辞書23に登録する。このようにして、同義関係にある新たな見出し語を追加登録することにより、オントロジ辞書23を拡充させることができる。
また、例えば、上述したように、見出し語「上り」の語義文「下から上へ移ること」と、見出し語「下り」の語義文「上から下へ移ること」とから生成された図4(C)に示す反義パターンのテンプレートがテンプレートDB18に記憶されているとする。なお、このテンプレートの由来となった見出し語「上り」と「下り」とをオントロジ辞書23に登録した場合、図10(A)に示すように、それぞれが反義関係にあることを意味する対応付けがなされる。このような図4(C)に示すテンプレートを用いることにより、反義の意味関係を有する見出し語がオントロジ辞書23に登録される。一例として、対応する語義文が「外から内へ移ること」である見出し語「入り」と、対応する語義文が「内から外へ移ること」である見出し語「出」とが受付部11に読み込まれた場合、解析部15は、それぞれの語義文から図10(B)、(C)に示す構造の解析木を生成する。これらの解析木と図4(C)のテンプレートとを比較すると、それぞれの解析木の構造が同等であるので、関係検出部21は、見出し語「入り」と見出し語「出」とが反義の意味関係にあることを検出する。すると、辞書登録部22は、図10(D)に示すように、見出し語「入り」と見出し語「出」とが反義関係にあると対応付けてオントロジ辞書23に登録する。これのようにして、反義関係にある新たな見出し語が追加登録することにより、オントロジ辞書23を拡充させることができる。
また、例えば、上述したように、見出し語「ドライバ」の語義文「車を運転する人」と、見出し語「運転手」の語義文「電車や車を運転する人」とから生成された図5(C)に示す上位・下位パターンのテンプレートがテンプレートDB18に記憶されているとする。なお、このテンプレートの由来となった見出し語「ドライバ」と「運転手」とをオントロジ辞書23に登録した場合、図11(A)に示すように、「運転手」が「ドライバ」よりも上位の関係にあることを意味する対応付けがなされる。このような図5(C)に示すテンプレートを用いることにより、上位・下位の意味関係を有する見出し語がオントロジ辞書23に登録される。一例として、対応する語義文が「ピアノを演奏する人」である見出し語「ピアニスト」と、対応する語義文が「オルガンやピアノを演奏する人」である見出し語「キーボーダー」とが受付部11に読み込まれた場合、解析部15は、それぞれの語義文から図11(B)、(C)に示す構造の解析木を生成する。これらの解析木と図5(C)のテンプレートとを比較すると、それぞれの解析木の構造が同等であるので、関係検出部21は、見出し語「ピアニスト」と見出し語「キーボーダー」とが上位・下位の意味関係にあることを検出する。すると、辞書登録部22は、図11(D)に示すように、見出し語「キーボーダー」が見出し語「ピアニスト」よりも上位にあると対応付けてオントロジ辞書23に登録する。このようにして、上位・下位関係にある新たな見出し語を追加登録することにより、オントロジ辞書23を拡充させることができる。
また、例えば、上述したように、見出し語「桜」の語義文「バラ科の葉の枯れて落ちる木」と、見出し語「檜」の語義文「檜科の一年葉が緑色の木」とから生成された図6(C)に示す兄弟パターンのテンプレートがテンプレートDB18に記憶されているとする。なお、このテンプレートの由来となった見出し語「桜」と「檜」とをオントロジ辞書23に登録した場合、図12(A)に示すように、それぞれが兄弟関係にあることを意味する対応付けがなされる。このような図6(C)に示すテンプレートを用いることにより、兄弟の意味関係を有する見出し語がオントロジ辞書23に登録される。一例として、対応する語義文が「キク科の一年で枯れる植物」である見出し語「向日葵」と、対応する語義文が「ラン科の多年性の植物」である見出し語「蘭」とが受付部11に読み込まれた場合、解析部15は、それぞれの語義文から図12(B)、(C)に示す構造の解析木を生成する。これらの解析木と図6(C)のテンプレートとを比較すると、それぞれの解析木の構造が同等であるので、関係検出部21は、見出し語「向日葵」と見出し語「蘭」とが兄弟の意味関係にあることを検出する。すると、辞書登録部22は、図12(D)に示すように、見出し語「向日葵」と見出し語「蘭」と兄弟関係にあると対応付けてオントロジ辞書23に登録する。このようにして、兄弟関係にある新たな見出し語を追加登録することにより、オントロジ辞書23を拡充することができる。
なお、図9(A)に示すように、辞書Aの見出し語「ドライバ」と辞書Bの見出し語「ドライバ」とが同義の関係にあることがオントロジ辞書23に登録されている場合において、図11(A)に示したように、見出し語「運転手」が見出し語「ドライバ」の上位にあることがオントロジ辞書23に登録されたとする。なお、図11(A)に示す見出し語「ドライバ」は辞書Aから取得したものとする。このような場合、まず、オントロジ辞書23には、図13(A)に示すように、辞書Aの見出し語「ドライバ」と辞書Bの見出し語「ドライバ」とが同義関係であり、かつ、見出し語「運転手」が辞書Aの見出し語「ドライバ」の上位にあると登録される。ここで、辞書Aの見出し語「ドライバ」と辞書Bの見出し語「ドライバ」とは同義の関係にあるので、見出し語「運転手」は辞書Bの見出し語「ドライバ」の上位にあることが判明する。したがって、オントロジ辞書23には、図13(B)に示すように、辞書Aの見出し語「ドライバ」と辞書Bの見出し語「ドライバ」とが同義関係であり、かつ、見出し語「運転手」が辞書Aの見出し語「ドライバ」および辞書Bの見出し語「ドライバ」の上位にあると登録される。このように新たな見出し語が追加登録される度に、既に登録されている見出し語との意味関係を対応付けることにより、オントロジ辞書23を拡充させることができる。
このように、本実施の形態によれば、多数のテンプレートが記憶されたテンプレートDB18を用いてオントロジ辞書を作成することにより、他の単語の語義文の構文意味構造からも意味知識を獲得することができるので、従来よりも豊富な意味知識が登録されたオントロジ辞書を作成することができる。したがって、このようなオントロジ辞書2を利用すれば、コンピュータによる構文意味解析精度を向上させることができる。
以上のようにして生成されたオントロジ辞書23は、例えばユーザからの質問に対する応答、機械翻訳、ユーザからの問い合わせに応じた情報検索などの自然言語処理を行う自然言語処理装置に用いられる。
なお、本実施の形態において、特徴抽出部16により生成されたテンプレートは、テンプレートDB18に登録するようにしてもよい。この場合、生成されたテンプレートの意味関係を確認する確認部をさらに設け、この確認部により意味関係が正しいと確認されたときに、当該テンプレートをテンプレート登録部17によりテンプレートDB18に登録するようにすればよい。これにより、オントロジ辞書の作成と共に、テンプレートDB18の充実を図ることが可能となる。結果として、従来よりも豊富な意味知識が登録されたオントロジ辞書を作成することができる。
ここで、意味関係を確認する方法としては、例えば、予め同義語、類義語、および意味的に上下関係にある上位語と下位語などが登録されているシソーラス(Thesaurus)をさらに設け、このシソーラスから入力された見出し語の意味関係を抽出したり、自然言語処理システムの設計者に対して入力された単語、テンプレート、意味関係等を提示し、設計者がテンプレートとして登録するか否かを選択するインタラクション等により実現することができる。
また、テンプレートを作成する際に変数化する対象となる単語の選択は、名詞、動詞、形容詞、形容動詞、副詞のような内容語のみを対象とし、助詞、助動詞、接続詞などの機能語を対象に含めないようにする。そして、同じまたは同義の単語の内容語は同じ変数名で変数化するとともに、異なる内容語は異なった変数名で変数化することにより、自動的なテンプレートの構築が可能となる。なお、変数化する単語の選択は、設計者によるインタラクションにより行うようにしてもよい。
また、上記確認部は、テンプレートを登録する際、生成された複数のテンプレートを比較し、他のテンプレートと構造が重なる頻度が所定のしきい値以上のテンプレートをオントロジ辞書23に登録するようにしてもよい。この場合、多数のテンプレートを比較することにより、構造が最適化されたテンプレートを登録することが可能となる。
また、本実施の形態において、関係抽出部21は、検出した意味関係が妥当ではなかった場合、この意味関係の判定に用いたテンプレートをテンプレートDB18から削除するようにしてもよい。これにより、テンプレートDB18に含まれるテンプレートの意味関係の正確さを向上させることが可能となり、結果として、従来よりも正確な意味知識が登録されたオントロジ辞書を作成することができる。
また、本実施の形態において、テンプレートDB18に記憶されている各テンプレートには、関係検出部21が受付部11から入力された見出し語の意味関係を検出するのに用いた頻度に関する情報を付与するようにしてもよい。これにより、例えば、入力された見出し語の意味関係を検出する際に、その見出し語の解析木の構造が複数のテンプレートの構造と同等である場合、関係検出部21は、頻度が高いテンプレートの意味関係を、その見出し語の意味関係として採用する。このように入力された見出し語の意味関係を判定する際に、使用頻度が高いテンプレートの意味関係を採用することにより、判定結果の正確性を向上させることが可能となる。なお、関係検出部21は、上記頻度が低いテンプレートをテンプレートDBから削除するようにしてもよい。
また、第1,2の実施の形態において、2つの見出し語を入力し、2つの見出し語の語義文に基づいてテンプレートを作成するようにしたが、入力する見出し語の数量は複数であるならば2つに限定されず、適宜自由に設定することができる。3つ以上の見出し語が入力された場合、3つ以上の解析木の特徴を抽出したテンプレートが生成される。
本発明は、自然言語処理システムに適用することができる。
本発明のテンプレート作成装置1の構成を示すブロック図である。 図1のテンプレート作成装置1の動作を示すフローチャートである。 同義パターンのテンプレート作成動作を説明するための図である。 反義パターンのテンプレート作成動作を説明するための図である。 上位・下位パターンのテンプレート作成動作を説明するための図である。 兄弟パターンのテンプレート作成動作を説明するための図である。 本発明の辞書作成装置2の構成を示すブロック図である。 図7の辞書作成装置2の動作を示すフローチャートである。 同義パターンの見出し語をオントロジ辞書に登録する動作を説明する図である。 反義パターンの見出し語をオントロジ辞書に登録する動作を説明する図である。 上位・下位パターンの見出し語をオントロジ辞書に登録する動作を説明する図である。 兄弟パターンの見出し語をオントロジ辞書に登録する動作を説明する図である。 オントロジ辞書の拡充を説明する図である。
符号の説明
1…テンプレート作成装置、2…辞書作成装置、11…受付部、12…語義辞書、13…語義抽出部、14…文法辞書、15…解析部、16…特徴抽出部、17…テンプレート登録部、18…テンプレートDB、21…関係検出部、22…辞書登録部、23…オントロジ辞書。

Claims (9)

  1. 入力された意味関係が既知の複数の単語それぞれの語義を説明する語義文を取得する取得手段と、
    この取得手段により取得された語義文の構文意味構造を解析する解析手段と、
    この解析手段により解析された前記構文意味構造と前記意味関係とを抽象化して対応付けたテンプレートを作成する特徴抽出手段と、
    この特徴抽出手段により作成されたテンプレートを記憶する記憶手段と
    を備えたことを特徴とするテンプレート作成装置。
  2. 前記取得手段は、同義語、反義語、意味的に兄弟関係にある語、および、意味的に上下関係にある上位語と下位語のうち何れかの意味関係にある複数の単語が入力される
    ことを特徴とする請求項1記載のテンプレート作成装置。
  3. 複数の単語を各単語間の意味関係に基づいて構造化して記憶したオントロジ辞書を作成する辞書作成装置であって、
    所定の構文意味構造と、この構文意味構造に対応する意味関係とを抽象化して対応付けたテンプレートを記憶する記憶手段と、
    外部より入力された複数の単語それぞれの語義を説明する語義文を外部より取得する取得手段と、
    この取得手段により取得された語義文の構文意味構造を解析する解析手段と、
    この解析手段により解析された前記構文意味構造と前記意味関係とを抽象化して対応付けたテンプレートを作成する特徴抽出手段と、
    この特徴抽出手段により作成されたテンプレートと、前記記憶手段に記憶されたテンプレートとに基づいて、前記複数の単語間の意味関係を検出する検出手段と、
    この検出手段による検出結果に基づいて前記複数の単語を前記オントロジ辞書に登録する辞書登録手段と
    を備えたことを特徴とする辞書作成装置。
  4. 前記検出手段により検出された意味関係を確認する確認手段と、
    前記意味関係が正しいと確認されたときに、前記解析手段により解析された構文意味構造と前記意味関係とを対応付けたテンプレートを前記記憶手段に登録させるテンプレート登録手段と
    をさらに備えることを特徴とする請求項3記載の辞書作成装置。
  5. 単語の語義を説明する語義文を取得する取得手段と、文章の構文意味構造を解析する解析手段と、テンプレートを作成する特徴抽出手段と、前記テンプレートを記憶する記憶手段とを備えた辞書作成装置を用いてテンプレートを作成するテンプレート作成方法において、
    前記取得手段が、入力された意味関係が既知の複数の単語それぞれの語義を説明する語義文を取得する取得ステップと、
    前記解析手段が、前記取得手段が取得した語義文の構文意味構造を解析する解析ステップと、
    前記特徴抽出手段が、前記解析手段が解析た前記構文意味構造と前記意味関係とを抽象化して対応付けたテンプレートを作成する特徴抽出ステップと、
    前記記憶手段が、前記特徴抽出手段が作成したテンプレートを記憶する記憶ステップと
    を備えたことを特徴とするテンプレート作成方法。
  6. テンプレートを記憶した記憶手段と、単語の語義を説明する語義文を取得する取得手段と、文章の構文意味構造を解析する解析手段と、前記テンプレートを作成する特徴抽出手段と、複数の単語間の意味関係を検出する検出手段と、複数の単語をオントロジ辞書に登録する辞書登録手段とを備えた辞書作成装置を用いてオントロジ辞書を作成する辞書作成方法であって、
    前記記憶手段が、所定の構文意味構造と、この構文意味構造に対応する意味関係とを抽象化して対応付けたテンプレートを記憶する記憶ステップと、
    前記取得手段が、外部より入力された複数の単語それぞれの語義を説明する語義文を外部より取得する取得ステップと、
    前記解析手段が、前記取得手段が取得た語義文の構文意味構造を解析する解析ステップと、
    前記特徴抽出手段が、前記解析手段が解析した前記構文意味構造と前記意味関係とを抽象化して対応付けたテンプレートを作成する特徴抽出ステップと、
    前記検出手段が、前記特徴抽出手段が作成したテンプレートと、前記記憶手段に記憶させたテンプレートとに基づいて、前記複数の単語間の意味関係を検出する検出ステップと、
    前記辞書登録手段が、前記検出手段による検出結果に基づいて前記複数の単語を前記オントロジ辞書に登録する辞書登録ステップと
    を備えたことを特徴とする辞書作成方法。
  7. コンピュータ、請求項またはに記載のテンプレート作成装置の各手段として機能させることを特徴とするテンプレート作成プログラム。
  8. コンピュータを、請求項3または4に記載の辞書作成装置の各手段として機能させることを特徴とする辞書作成プログラム
  9. 請求項7または8に記載のプログラムを記録したことを特徴とする記録媒体。
JP2005192885A 2005-06-30 2005-06-30 テンプレート作成装置、辞書作成装置、テンプレート作成方法、辞書作成方法、テンプレート作成プログラム、辞書作成プログラムおよび記録媒体 Expired - Fee Related JP4031492B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005192885A JP4031492B2 (ja) 2005-06-30 2005-06-30 テンプレート作成装置、辞書作成装置、テンプレート作成方法、辞書作成方法、テンプレート作成プログラム、辞書作成プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005192885A JP4031492B2 (ja) 2005-06-30 2005-06-30 テンプレート作成装置、辞書作成装置、テンプレート作成方法、辞書作成方法、テンプレート作成プログラム、辞書作成プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2007011771A JP2007011771A (ja) 2007-01-18
JP4031492B2 true JP4031492B2 (ja) 2008-01-09

Family

ID=37750165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005192885A Expired - Fee Related JP4031492B2 (ja) 2005-06-30 2005-06-30 テンプレート作成装置、辞書作成装置、テンプレート作成方法、辞書作成方法、テンプレート作成プログラム、辞書作成プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4031492B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7110554B2 (ja) * 2017-07-05 2022-08-02 富士通株式会社 オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法

Also Published As

Publication number Publication date
JP2007011771A (ja) 2007-01-18

Similar Documents

Publication Publication Date Title
KR101139903B1 (ko) 자연어 문서들에서 전체 부분 관계들을 인식하는 시만틱 프로세서
US7526474B2 (en) Question answering system, data search method, and computer program
JP4654745B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7844598B2 (en) Question answering system, data search method, and computer program
US8185377B2 (en) Diagnostic evaluation of machine translators
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
JP2012520528A (ja) 自然言語テキストの自動的意味ラベリングのためのシステム及び方法
US20070011160A1 (en) Literacy automation software
JP2016516247A (ja) 翻字、翻訳、書記素洞察のキュレーション及び統合による多言語ビジネスの印の向上
JP6466138B2 (ja) 外国語文作成支援装置、方法及びプログラム
JP3765799B2 (ja) 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
JP2007011775A (ja) 辞書作成装置、辞書作成方法、プログラム及び記録媒体
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
JP4031492B2 (ja) テンプレート作成装置、辞書作成装置、テンプレート作成方法、辞書作成方法、テンプレート作成プログラム、辞書作成プログラムおよび記録媒体
JP4054035B2 (ja) データベース構築装置、データベース構築方法、データベース構築プログラムおよび記録媒体
Souter et al. Using Parsed Corpora: A review of current practice
KR950013129B1 (ko) 기계번역장치 및 방법
Fehri et al. ARmed question answering system
Bouziane et al. Question answering systems: the story till the Arabic linked data
Chandra An intelligent natural language query processor for a relational database
JP3353647B2 (ja) 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体
Osenova et al. Bulgarian-english question answering: Adaptation of language resources
Narayan et al. Pre-Neural Approaches
RAO et al. A NEW FRAMEWORK: POST-POSITIONAL PARSER AND NALYZER FOR TELUGU PRONOUNS.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071018

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101026

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101026

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111026

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111026

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121026

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121026

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131026

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees