JP4054035B2 - データベース構築装置、データベース構築方法、データベース構築プログラムおよび記録媒体 - Google Patents

データベース構築装置、データベース構築方法、データベース構築プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4054035B2
JP4054035B2 JP2005260331A JP2005260331A JP4054035B2 JP 4054035 B2 JP4054035 B2 JP 4054035B2 JP 2005260331 A JP2005260331 A JP 2005260331A JP 2005260331 A JP2005260331 A JP 2005260331A JP 4054035 B2 JP4054035 B2 JP 4054035B2
Authority
JP
Japan
Prior art keywords
sentence
meaning
noun
dictionary
typical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005260331A
Other languages
English (en)
Other versions
JP2007072841A (ja
Inventor
重子 成山
フランシス・ボンド
貴秋 田中
浩巳 中岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005260331A priority Critical patent/JP4054035B2/ja
Publication of JP2007072841A publication Critical patent/JP2007072841A/ja
Application granted granted Critical
Publication of JP4054035B2 publication Critical patent/JP4054035B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、例えば機械翻訳や情報検索を行う自然言語処理システムに関するものである。
日本語や英語を始めとする各種言語で記述される自然言語は、本来抽象的で曖昧性が高い性質を持つが、文章を数学的に扱うことにより、コンピュータ処理を行うことができる。この結果、機械翻訳システム、対話システム、検索システム、質問応答システムなど、様々な自然言語処理システムが実現されている。
ところで、自然言語、特に日本語では、会話や文章の内容から既に分かっている単語などを、文章中から省略する現象が散見される。例えば、「警察が犯人を逮捕した」という文章の場合、「警察が」や「犯人を」といった「逮捕した」という述語に直接関係する主語や目的語を省略して、「逮捕した」という述語だけの文章で意味を伝えることがある。このような述語だけの文章に対して、人間は、自身が有する一般常識等に基づいて文章から欠落した主語や目的語を理解することができるが、機械は、人間と同様に行うことが困難である。そこで、自然言語処理システムにおいても欠落した主語や目的語の検出と補完ができるよう、様々な提案がなされている。例えば、非特許文献3には、名詞と述語との意味的関係を表した格フレーム辞書(例えば、非特許文献1,2参照。)に基づいて省略された主語や目的語の検出と補完を行うことが開示されている。
池原悟、外7名、「日本語語彙体系」、岩波書店、1997年 日本電子化辞書研究所、「EDR電子化辞書」 D.Kawahara and S.Kurohashi, "Improving Japanese zero pronoun resolution by global word sense disambiguation", In Proc. of COLING. 343-349, Geneva, 2004
しかしながら、従来の自然言語処理システムでは、格フレーム辞書から出力される対象区分が例えば「人」や「主体」など抽象的であるため、述語に対応して現れるより具体的な主語や目的語の検出と補完ができず、結果として、処理結果が曖昧なものとなっていた。
そこで、本願発明は、述語に対応して現れるより具体的な主語や目的語を抽出することができるータベース構築装置、データベース構築方法、データベース構築プログラム、および、記録媒体を提供することを目的とする。
上述したような課題を解決するために、本発明にかかるデータベース構築装置は、単語と、この単語の語義を説明する語義文とを記憶した語義辞書と、文法規則を登録した文法辞書と、個々の動詞について格フレームを記憶した格フレーム辞書と、前記語義辞書から述語の見出し語と、この見出し語の語義を説明する語義文とを取得する取得手段と、この取得手段により取得した語義文を前記文法辞書に登録された文法規則に基づいて構文解析する解析手段と、この解析手段により構文解析された語義文のうち、複文の語義文から主節または単文の語義文を抽出する主節抽出手段と、この主節抽出手段により抽出された主節または単文の語義文から名詞を抽出する名詞抽出手段と、この名詞抽出手段により抽出された名詞の中から、形式名詞以外の名詞を選択する選択手段と、前記格フレーム辞書に基づいて、前記選択手段により選択された名詞の中から、見出し語と組み合わせたときに文章として意味をなす名詞と、この名詞が含まれる語義文の見出し語とを対応づけて見出し語の語義毎に典型文データベースに登録する登録手段とを備えることを特徴とする。ここで、述語とは、動詞、サ変名詞、形容詞、形容動詞など述語となり得る単語を意味する。
上記データベース構築装置において、前記主節抽出手段により抽出された前記単文の語義文または前記主節に基づいて、当該単文の語義文または当該主節に対応する見出し語が説明文であるか否かを判定し、説明文である場合に当該単文の語義文または当該主節を削除する説明文削除手段をさらに備えるようにしてもよい。
また、上記データベース構築装置において、前記説明文削除手段は、前記主節抽出手段により抽出された前記単文の語義文または前記主節に含まれる述語が抽象動詞または状況の意味を持つ名詞である場合に、当該単文の語義文または当該主節が説明文であると判定するようにしてもよい
また、本発明に係るデータベース構築方法は、単語およびこの単語の語義を説明する語義文を記憶した語義辞書と、文法規則を登録した文法辞書と、個々の動詞について格フレームを記憶した格フレーム辞書と、前記語義辞書から単語および語義文を取得する取得手段と、文を構文解析する解析手段と、文から主節を抽出する主節抽出手段と、文から名詞を抽出する名詞抽出手段と、選択手段と、単語を典型文データベースに登録する登録手段とを備えたデータベース構築装置を用いて前記典型文データベースを構築するデータベース構築方法であって、前記取得手段が、前記語義辞書から述語の見出し語と、この見出し語の語義を説明する語義文とを取得する取得ステップと、前記解析手段が、前記取得ステップにより取得した語義文を前記文法辞書に登録された文法規則に基づいて構文解析する解析ステップと、前記主節抽出手段が、前記解析ステップにより構文解析された語義文のうち、複文の語義文から主節または単文の語義文を抽出する主節抽出ステップと、前記名詞抽出手段が、前記主節抽出ステップにより抽出された主節または単文の語義文から名詞を抽出する名詞抽出ステップと、前記選択手段が、前記名詞抽出ステップにより抽出された名詞の中から、形式名詞以外の名詞を選択する選択ステップと、前記登録手段が、前記格フレーム辞書に基づいて、前記選択ステップにより選択された名詞の中から、見出し語と組み合わせたときに文章として意味をなす名詞と、この名詞が含まれる語義文の見出し語とを対応づけて見出し語の語義毎に典型文データベースに登録する登録ステップとを有することを特徴とする。
また、本発明に係るデータベース構築プログラムは、コンピュータを、上記データベース構築装置の各手段として機能させることを特徴とする
また、本発明に係る記録媒体は、上記データベース構築プログラムが記録されたコンピュータ読み取り可能な記録媒体である
本発明によれば、述語とこの述語の語義文とを語義辞書から取得し、取得した語義文から名詞を抽出することにより、述語に対応して現れるより具体的な名詞を抽出することができる。これにより、文章から主語や目的語など欠落している場合であっても、その主語や目的語を補完することができるので、自然言語処理システムにおける処理の精度を向上させることができる。
[第1の実施の形態]
以下、図面を参照して、本発明の第1の実施の形態について図面を参照して説明する。図1は、本実施の形態におけるデータベース構築装置の構成を示すブロック図である。データベース構築装置1は、取得部11と、語義辞書12と、解析部13と、文法辞書14と、抽出部15と、登録部16と、格フレーム辞書17と、典型文DB(Data Base)18とから構成される。このようなデータベース構築装置1は、CPU等の演算装置と、メモリ、HDD(Hard Disc Drive)等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)等の通信回線を介して各種情報の送受信を行うI/F装置と、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)またはFED(Field Emission Display)等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した取得部11、語義辞書12、解析部13、文法辞書14、抽出部15、登録部16、格フレーム辞書17および典型文DB18が実現される。なお、上記プログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供されるようにしてもよい。
取得部11は、語義辞書12から述語と、この述語の語義を説明する語義文とを取得する演算処理部である。
語義辞書12は、単語と、この単語の語義を説明する語義文とが記憶されたデータベースである。このような語義辞書12は、例えば、電子化された国語辞書などから構成される。以下、語義文が説明対象としている単語を「見出し語」と呼ぶ。
解析部13は、取得部11が取得した語義文を文法辞書14に記憶された文法規則に基づいて構文解析する演算処理部である。ここで、構文解析とは、語義文を単語単位に分割し、各単語の品詞や意味等の語義を特定し、各単語間の係り受けを検出し、語義文の構文構造を表す解析木を特定することを意味する。
文法辞書14は、対象とする自然言語の文法規則が登録されているデータベースである。
抽出部15は、解析部13により構文解析が行われた語義文から、この語義文に対応する見出し語と関連のある具体的な主語や目的語となる名詞(以下、「典型的指示対象」と呼ぶ。)を抽出する演算処理部である。このような抽出部15は、主節抽出手段15aと、説明文削除手段15bと、名詞抽出手段15cと、選択手段15dとから構成される。
主節抽出手段15aは、解析部13により構文解析が行われた語義文のうち、複文の語義文から主節を抽出する。なお、語義文が単文の場合は、その単文をそのまま抽出する。
説明文削除手段15bは、主節抽出手段15aにより抽出された主節または単文に基づいて、取得部11が取得した語義文が説明文であるか否かを判定し、説明文と判定した語義文を削除するようにしてもよい。なお、説明文以外の語義文は、名詞抽出手段15dに送出される。
名詞抽出手段15cは、説明文削除手段15bから取得した主節または単文から名詞を抽出する。
選択手段15dは、名詞抽出手段15cにより抽出された名詞の中から、典型的指示対象となり得る名詞を選択する。
登録部16は、格フレーム辞書17に基づいて、抽出部15により抽出された名詞の中から、一般的ではなく、かつ、見出し語と組み合わせたときに文章として意味をなす名詞と、この名詞が含まれる語義文の見出し語とを対応付けて見出し語の語義毎に典型文DB18に登録する演算処理部である。
格フレーム辞書17は、個々の動詞について格フレームを記憶したデータベース(例えば、非特許文献1,2参照。)である。
典型文DB18は、登録部16により入力された典型的指示対象と、この典型的指示対象に対応する述語とを対応付けた典型文を述語毎および述語の語義毎に記憶するデータベースである。
次に、本実施の形態にかかるデータベース構築装置1の動作について、図2を参照して説明する。なお、本実施の形態において、データベース構築装置1は、言語として日本語を用いて以下に説明する処理を行うものとする。
まず、取得部11は、動詞、サ変名詞、形容詞、形容動詞など述語となる見出し語を語義辞書12から検索し、検索された見出し語と、この見出し語の語の語義文とを語義辞書12から取得する(ステップS201)。例えば、サ変名詞「解散」という見出し語を検索した場合、取得部11は、その見出し語と、この見出し語の語義文である「会合などで集まった人々が別れること」とを語義辞書12から取得する。
なお、1つの見出し語に対して複数の語義が存在する場合、取得部11は、各語義の語義文を語義辞書12から取得する。例えば、「片付ける」という見出し語は、「乱雑な状態にあるものを整頓する」、「親が娘を嫁に出す」、「邪魔になる人を取り除く」という3つの語義文を有する。この場合、取得部11は、語義が異なるその3つの語義文を語義辞書12から取得する。
述語となる見出し語と、この見出し語の語義文とが取得されると、解析部13は、その語義文を文法辞書14に基づいて構文解析する(ステップS202)。例えば、見出し語「解散」に対する語義文「会合などで集まった人々が別れること」を構文解析した結果得られた解析木の一例を図3に示す。このような構文解析は、例えば主辞駆動句構造文法(Head-Driven Phrase Structure Grammar:HPSG)等の手法により実現することができる。なお、図3において、Nは名詞、Pは助詞、Vは動詞、PPは前置詞句、VPは動詞句、NPは名詞句を表す。
語義文に対して構文解析が行われると、抽出部15の主節抽出手段15aは、その語義文が複文の場合、その複文から主節を抽出する(ステップS203)。ここで、複文とは、主語と述語とからなる文中で、その中にさらに主語と述語の関係が認められる構成の文を意味する。また、主節とは、解析木で最高位にあるVP直下の述語を含む節を意味し、一般に日本語では、最も右側にある述語を含む節が主節となる。例えば、図3に示す語義文の解析木の場合、最高位のVP直下の述語「別れる」を含む節「人々が別れること」が主節となる。なお、語義文が単文の場合、主節抽出手段15aは、その単文をそのまま抽出する。
したがって、例えば、上述した見出し語「片付ける」の3つの語義文に対して構文解析が行われた場合、主節抽出手段は15aは、それぞれの語義文から主節である「ものを整頓する」、「人を取り除く」と、単文である「親が娘を嫁に出す」とを抽出する。
なお、語義文が並列文の場合、主節抽出手段15aは、各節を主節として抽出する。ここで、並列文とは、「て」、「そして」、「が」など接続された複数の節を有する文のことを意味する。例えば、見出し語「診断」の語義文「医者が患者を診察して、その病状を判断すること」は、「医者が患者を診察して」と「その病状を判断すること」という2つの節を有する並列文である。この場合、主節抽出手段15aは、「医者が患者を診察して」と「その病状を判断すること」をそれぞれ主節として抽出する。
主節または単文が抽出されると、抽出部15の説明文削除手段15bは、その主節または単文に基づいて、説明文からなる語義文を削除する(ステップS204)。具体的には、説明文削除手段15bは、主節または単文に含まれる述語が、例えば、「ある」、「有る」、「する」、「なる」、「様」、「よう」、「様子」、「ようす(だ)」など、品詞を有し文法機能が有るが意味内容が希薄な単語の場合、その主節または単文に対応する語義文が説明文であると判断し、この語義文からは典型的指示対象を抽出しないようにしてもよい。一般的に、説明文からなる語義文には、見出し語に対応して現れるより具体的な名詞が含まれていない場合が多い。例えば、見出し語「残念」の語義文「心残りがする様子、望みが実現せず惜しく思う様子」から名詞を抽出すると、「心残りが」「望みが」となる。これらと「残念」とを組み合わせて作った文は、それぞれ「心残りが残念」、「望みが残念」となり、非文となる。したがって、本実施の形態では、説明文からなる語義文は削除する。
説明文からなる語義文が削除されると、抽出部15の名詞抽出手段15cは、主節抽出部15aにより抽出された主節または単文の中から名詞を抽出する(ステップS205)。具体的には、名詞抽出手段15cは、主節抽出部15aにより抽出された主節または単文の中から、「が」、「を」、「に」、「と」、「から」、「より」、「で」、「の」などの格助詞がついた名詞をその格助詞とともに抽出する。例えば、見出し語「逮捕」の語義文「警察が犯人を逮捕すること」の場合、名詞抽出部15cは、「警察が」,「犯人を」を抽出する。また、上述した見出し語「片付ける」の語義文の場合、名詞抽出手段15cは、「ものを」、「親が」、「娘を」、「嫁に」、「人を」をそれぞれから抽出する。
名詞が抽出されると、抽出部15の選択手段15dは、抽出された名詞の中から具体的な名詞を選択して抽出する(ステップS206)。具体的には、選択手段15dは、名詞抽出手段15cにより抽出された名詞の中から、「物」、「もの」、「事」、「こと」、「事柄」、「人」、「物事」、「所」、「ところ」、「状態」、「程度」、「感じ」、「ため」、「場所」など具体性がない名詞以外の名詞を選択し、その名詞に付随する格助詞とともに抽出する。例えば、見出し語「逮捕」から抽出された「警察が」、「犯人を」の場合、選択手段15dは、それぞれ具体性がある名詞なので、そのまま「警察が」、「犯人を」を抽出する。また、上述した見出し語「片付ける」から抽出された名詞、「ものを」、「親が」、「娘を」、「嫁に」、「人を」の場合、選択手段15dは、具体性のない「ものを」、「人を」を削除し、残った名詞「親が」、「娘を」、「嫁に」を抽出する。
なお、名詞抽出手段15cは、「の」、「など」、「のみ」、「と」、「だけ」などの単語を抽出する場合がある。このような場合、選択手段15dは、それらの単語の前の単語を名詞として選択し、この選択した名詞に対して上述したステップS206の具体性の判断を行う。例えば、語義文に「警察などが」という記載が存在する場合、名詞抽出手段15cは、その語義文から「などが」を抽出してしまう。この場合、選択手段15dは、「など」の前後の「警察」「が」を抽出し、これらを組み合わせた「警察が」について具体性の判断を行う。
名詞が抽出されると、登録部16は、格フレーム辞書17に基づいて、その名詞がより具体的な名詞であるか否か確認する(ステップS207)。具体的には、登録部17は、抽出された名詞が格フレーム辞書17に登録されていない場合、その名詞はより具体的な名詞であると判断する。一方、抽出された名詞が格フレーム辞書17に登録されている場合、登録部17は、その名詞はより具体的な名詞ではないと判断する。なお、抽出された名詞が格フレーム辞書17に登録されていても、格フレーム辞書17の下位の階層に位置する場合、登録部17は、その名詞はより具体的な名詞であると判断する。
抽出された名詞がより具体的な名詞ではない場合(ステップS207:NO)、登録部16は、その名詞を典型文DB18に登録しない。
一方、抽出された名詞がより具体的な名詞である場合(ステップS207:YES)、登録部16は、格フレーム辞書17に基づいて、その名詞と、この名詞が含まれる語義文の見出し語とが意味的に正しいか否か確認する(ステップS208)。具体的には、登録部17は、名詞と見出し語とを組み合わせた文章と、格フレーム辞書17に登録されているその見出し語の格フレームとを比較し、名詞およびこの名詞に付随する格助詞が文法的に正しいか否かを判断する。
例えば、見出し語「愛する」の語義文「異性に情をもつ」から「異性に」、「情を」が抽出され、格フレーム辞書17には、述語「愛する」に対して、「主体が主体を愛する」という格フレームが登録されている場合について説明する。まず、登録部17は、抽出された名詞と見出し語を組み合わせる。すると、「異性に愛する」、「情を愛する」という文章が生成される。次に、登録部17は、各文章に含まれる名詞と格フレームとを比較する。すると、「異性に愛する」に含まれる名詞「異性」は主体と成り得るので、登録部17は、「異性に」は意味的に正しいと判断する。一方、「情を愛する」に含まれる名詞「情」は主体とは成り得ないので、登録部17は、「情を」は意味的に正しくないと判断する。これにより、見出し語と意味的に関係のない名詞を省くことができる。なお、上記判断は、例えば、語義辞書12や文法辞書14などに基づいて、上記文章に含まれる各単語の格や品詞を特定することにより行うことができる。
ここで、登録部17は、抽出された名詞の格助詞が正しいか否かを判断するようにしてもよい。例えば、上述した文章「異性に愛する」と格フレーム「主体が主体を愛する」とに含まれる格助詞を比較すると、名詞「異性」に付随する「格助詞」は、見出し語「愛する」の格フレームには用いられていない。このような場合、登録部17は、格助詞を変更して出力する。すなわち、登録部17は、「異性に」に含まれる格助詞「に」を、「が」または「を」に変更した「異性が」、「異性を」を出力する。これにより、抽出された名詞に付随する格助詞と、その名詞が含まれる語義文の見出し語とが対応しない場合であっても、見出し語に対応する格助詞を出力することができる。
抽出された名詞と見出し語とが意味的に正しくない場合(ステップS208:NO)、登録部16は、その名詞を典型文DB18に登録しない。
一方、抽出された名詞と見出し語とが意味的に正しい場合(ステップS208:YES)、登録部16は、その名詞と、この名詞が含まれる語義文の見出し語とを対応付けて見出し語の語義毎に典型文DB18に登録する(ステップS209)。これにより、典型文DB18には、述語と、この述語の典型的指示対象とが対応付けた典型文が述語毎で、かつ、語義毎に登録される。例えば、述語である見出し語「逮捕」の語義文から典型的指示対象として「警察が」,「犯人を」が抽出された場合、登録部16は、図4に示すように、それぞれを対応付けて組み合わせた典型文である「警察が逮捕」、「犯人を逮捕」を述語「逮捕」と対応付けて典型文DB18に登録する。また、述語である見出し語「片付ける」の語義が異なる3つの語義文から典型的指示対象として「親が」、「娘を」、「嫁に」が抽出された場合、登録部16は、典型文として「親が片付ける」、「娘を片付ける」、「嫁に片付ける」を述語「片付ける」と対応付けて典型文DB18に登録する。このとき、それらの典型文は全て語義文「親が娘を嫁に出す」から抽出されたので、図4に示すように、語義毎に対応付けがなされた形態で典型文DB18に登録される。これにより、見出し語と典型的指示対象とを見出し語毎のみならず、語義毎に対応付けることができる。
このように述語と典型的指示対象を対応付けて典型文DB18に登録することにより、述語と典型的指示対象との意味関係を識別することができる。例えば、典型文「警察が逮捕」からは、「警察」と「逮捕」とが関連する単語であり、格助詞「が」が使われていることから「逮捕」の主語が「警察」であることを識別することができる。同様に、典型文「犯人を逮捕」からは、「犯人」と「逮捕」とが関連する単語であり、格助詞「を」が使われていることから「逮捕」の目的語が「犯人」であることを識別することができる。
上述したように、本実施の形態によれば、述語と、この述語の語義文とを語義辞書から取得することにより、その述語と関係の深い名詞を含む語義文を取得することができる。この語義文から名詞を抽出することにより、述語と関連するより具体的な主語や目的語を抽出することができる。抽出した主語や目的語を典型文DB18に登録することにより、述語と、この述語と対応して現れるより具体的な主語や目的語とが対応付けて登録された典型文DB18を構築することができる。
なお、上述した方法より構築された典型文DB18は、例えばフレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録することができる。このような記録媒体を介して、例えば、機械翻訳システム、対話システム、検索システム、質問応答システムなどの自然言語処理システムに典型文DB18を導入することにより、その自然言語処理システムでは、述語と対応して現れるより具体的な名詞を抽出することができるので、解析精度を向上させることができる。
また、上述したデータベース構築装置1は、1つの機能として自然言語処理システムに導入するようにしてもよい。これにより、自然言語処理システムでは、自然言語処理の際に述語に対応して現れるより具体的な名詞を抽出できない述語等が存在する場合、上記データベース構築装置1の機能によりその述語の典型的指示対象を抽出することが可能となるので、解析精度を向上させることができる。
また、取得部11は、複数の語義辞書12から述語となる見出し語およびこの見出し語の語義文を取得するようにしてもよい。同じ見出し語の語義文でも、ある辞書に記載されていない典型的指示対象が他の辞書に記載されている場合がある。そこで、複数の語義辞書から同じ見出し語について複数の語義辞書12から語義文を取得することにより、より多くの典型的指示対象を抽出することが可能となるので、典型文DB18の内容を充実させることができる。
また、本実施の形態では、典型文DB18は日本語に基づいて構築されているが、他の言語に基づいて構築するようにしてもよい。
[第2の実施の形態]
次に、本発明の第2の実施の形態について詳細に説明する、図5は、本実施の形態にかかるデータベース構築装置の構成を示すブロック図である。なお、本実施の形態にかかるデータベース構築装置2は、第1の実施の形態のデータベース構築装置1にさらに拡張部19および外国語辞書20を設けたものであり、典型文DB18に記憶された述語と典型的指示対象の意味関係を外国語に拡張するものである。したがって、本実施の形態において、第1の実施の形態と同等の構成要素については、同じ名称および符号を付し、適宜説明を省略する。
データベース構築装置2は、取得部11と、語義辞書12と、解析部13と、文法辞書14と、抽出部15と、登録部16と、格フレーム辞書17と、典型文DB18と、拡張部19と、外国語辞書20とから構成される。このようなデータベース構築装置1は、CPU等の演算装置と、メモリ、HDD等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、インターネット、LAN、WAN等の通信回線を介して各種情報の送受信を行うI/F装置と、CRT、LCDまたはFED等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した取得部11、語義辞書12、解析部13、文法辞書14、抽出部15、登録部16、格フレーム辞書17、典型文DB18、拡張部19および外国語辞書20が実現される。なお、上記プログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供されるようにしてもよい。
拡張部19は、述語取得手段19aと、翻訳手段19bと、判断手段19cと、登録手段19dとから構成される。述語取得手段19aは、典型文DB18から任意の述語を取得する。翻訳手段19bは、外国語辞書20に基づいて、述語取得手段19aが取得した述語を翻訳し、その述語の訳語を生成する。判断手段19cは、翻訳手段19bにより生成された訳語の単語数が所定の数量で有るか否かを判断する。登録部19cが、判断手段19cによる判断結果に基づいて、翻訳手段19bによる訳語を典型文DB18に登録する。
外国語辞書20は、1の言語の単語と、この単語に対応する他の言語の単語とが記憶されたデータベースであり、例えば、電子化された辞書などから構成される。上記他の言語としては、1カ国語のみならず複数の言語を設定することもできる。
次に、本実施の形態にかかるデータベース構築装置2の動作について図6を参照して説明する。なお、以下においては、典型文DB18は日本語に基づいて構築され、外国語辞書20は、上記1の言語として日本語、上記他の言語として英語が設定されている場合を例に説明する。
まず、拡張部19の述語取得手段19aは、典型文DB18に登録されている任意の述語を抽出する(ステップS601)。典型文DB18には、図4に示すように、述語と典型的指示対象との意味関係を示す典型文が述語毎に記憶されている。このような典型文DB18から、述語取得手段19aは、任意の述語を抽出する。
述語を抽出すると、拡張部19の翻訳手段19bは、外国語辞書20に基づいて、その述語を翻訳し、対応する訳語を抽出する(ステップS602)。例えば、述語「逮捕」が抽出された場合、翻訳手段19bは、その「逮捕」に対応する英語「arrest」を訳語として外国語辞書20から抽出する。
訳語が抽出されると、拡張部19の判断手段19cは、訳語を構成する単語の数量が2語以下であるか否かを判断する(ステップS603)。訳語を構成する単語の数量が多い場合は、その訳語が述語の意味を説明する説明文であり、述語に対応する概念がその言語にないことが表す。したがって、本実施の形態では、単語数が3語以上の訳語については、その訳語を典型文DB18に登録しない。
判断手段19cにより訳語の単語数が2語以下ではないと判断された場合(ステップS603:NO)、登録手段19dは、その訳語を典型文DB18に登録せず、削除する(ステップS605)。例えば、述語「論外」の訳語「be out of question」は、4つの単語から構成されるので、典型文DB18に登録しない。
判断手段19cにより訳語の単語数が2語以下であると判断された場合(ステップS603:YES)、登録手段は、その訳語をこの訳語に対応する述語と対応付けて、典型文DB18に登録する(ステップS604)。例えば、述語「逮捕」の訳語「arrest」は、1つの単語から構成されるので、図7に示すように、述語「逮捕」と対応付けて典型文DB18に登録される。
このように、典型文DB18に登録された述語の訳語を、その述語と対応付けて典型文DB18に登録することにより、訳語とこの訳語の典型的指示対象の関係を推定することができる。例えば、訳語「arrest」の場合、その主語が「警官が」、その目的語が「犯人を」となることを推定することができる。したがって、それらの典型的指示対象を訳語の言語に翻訳することにより、その訳語の言語における典型的指示対象の訳語を取得することが可能となる。このような典型文DB18を、機械翻訳システム、対話システム、検索システム、質問応答システムなどの自然言語処理システムに導入することにより、その自然言語処理システムでは、1の言語のみならず他の言語における自然言語処理の解析精度を向上させることが可能となる。
なお、本実施の形態のデータベース構築装置2は、1つの言語のみならず、複数の言語に典型文DB18に登録された述語を翻訳するようにしてもよい。これは、外国語辞書20に複数の言語を設定することにより実現することができる。この場合、典型文DB18には、各国語の訳語が述語毎に対応付けて登録される。例えば、図7に示すように、述語「逮捕」の場合、英語の訳語「arrest」、中国語の訳語「拘捕」、フランス語の訳語「arrestation」が、その述語「逮捕」のレコードに格納されており、それぞれが対応付けられた状態となっている。このように、多言語の訳語を典型文DB18に登録しておくことにより、1つの言語を多言語に翻訳することが可能となる。
また、本実施の形態では、典型文DB18は日本語に基づいて構築されているが、他の言語で構築される様にしてもよい。
また、本実施の形態では、訳語を構成する単語の数量が2個以下の訳語を典型文DB18に登録するようにしたが、その数量は2個以下に限定されず、適宜自由に設定することができる。
[第3の実施の形態]
次に、本発明の第3の実施の形態について詳細に説明する、図8は、本実施の形態にかかる推定装置の構成を示すブロック図である。なお、本実施の形態にかかる推論装置3は、第1,2の実施の形態のデータベース構築装置1により構築された典型文DB18に基づいて、外部から入力された文章が意味するところを検出する
推論を行うものである。したがって、本実施の形態において、第1,2の実施の形態と同等の構成要素については、同じ名称および符号を付し、適宜説明を省略する。
推論装置3は、典型文DB18と、入力部31と、解析部32と、文法辞書33と、推論部34と、出力部35とから構成される。このような推論装置3は、CPU等の演算装置と、メモリ、HDD等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、インターネット、LAN、WAN等の通信回線を介して各種情報の送受信を行うI/F装置と、CRT、LCDまたはFED等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した典型文DB18、入力部31、解析部32、文法辞書33、推論部34および出力部35が実現される。なお、上記プログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供されるようにしてもよい。
入力部31は、外部から入力される文章(以下、「入力文」と呼ぶ。)を受け付けるインターフェース装置である。
解析部32は、入力部31で受け付けられた入力文に対して、文法辞書14に記憶された文法規則に基づいて構文解析する演算処理部である。
文法辞書33は、対象とする自然言語の文法規則が登録されているデータベースである。
推論部34は、典型文抽出手段34aと、比較手段34bと、常識検出手段34cとから構成される。典型文抽出手段34aは、解析部32により構文解析が行われた入力文に含まれる述語を検出し、この述語の典型文を典型文DB18から抽出する。比較手段34bは、解析部32により構文解析が行われた入力文と、典型文抽出手段34aにより抽出された典型文とを比較し、典型的指示対象に対応する単語をその入力文中から抽出する。常識検出手段34cは、比較手段34bにより抽出された単語と、典型文抽出手段34aにより抽出された典型文とに基づいて、これらから導くことができる情報、すなわち常識を検出する。
出力部35は、推論部34による演算結果を表示画面に表示したり、プリントアウトしたり、外部装置に送信したりするインターフェース部である。
次に、図9を参照して、本実施の形態にかかる推論装置3の動作について説明する。図9は、推論装置3の動作を示すフローチャートである。まず、ユーザの操作入力、記録媒体、通信回線等を介して外部からテキストデータなどからなる入力文が入力されると、入力部31は、その入力文を受け付け、解析部32に送出する(ステップS901)。
入力文が受け付けられると、解析部32は、その入力文に対して構造解析を行う(ステップS902)。
構文解析が行われると、推論部34の典型文抽出手段34aは、構文解析が行われた入力文に含まれる述語の典型文を、典型文DB18から抽出する(ステップS903)。例えば、入力部31により「山田がその店の男を逮捕した」という入力文が受け付けられた場合、典型文抽出手段34aは、図4に示すように、その入力文に含まれる述語「逮捕」の典型文「警察が逮捕」、「犯人を逮捕」を典型文DB18から抽出する。
典型文が抽出されると、推論部34の比較手段34bは、入力文と典型文とを比較し、典型的指示対象に対応する単語を入力文から抽出する(ステップS904)。比較手段34bは、入力文から名詞を抽出し、この名詞に付随する格助詞と、典型文の典型的指示対象に付随する格助詞とを比較し、典型的指示対象と同じ格助詞を有する名詞を抽出する。
例えば、上述したように、入力文が「山田がその店の男を逮捕した」、典型文が「警察が逮捕」、「犯人を逮捕」の場合、比較手段34bは、図10(a)に示すように、上記入力文から「山田が」、「店の」、「男を」を抽出する。また、図10(b),(c)に示すように、上記典型文から典型的指示対象である「警察が」、「犯人を」を抽出する。次に、図10(d)に示すように、抽出した名詞と典型的指示対象とを比較し、典型的指示対象「警察が」と同じ格助詞を有する名詞「山田が」と、典型的指示対象「犯人を」と同じ格助詞を有する名詞「男を」とを抽出する。
名詞が抽出されると、推論部34の常識検出手段34cは、典型文抽出手段34aにより抽出された典型文に基づいて、その名詞から抽出される常識を検出する(ステップS905)。具体的には、常識検出手段34cは、入力文から抽出された名詞と、この名詞に対応する典型的指示対象とが同等であることを常識として検出する。
例えば、上述したように、典型文「警察が逮捕」、「犯人を逮捕」、名詞「山田が」、「男を」を抽出した場合、常識検出手段34cは、図10(e)に示すように、同じ格助詞を有する典型的指示対象「警察が」と名詞「山田が」が同等である、すなわち、「警察は山田である」という常識を検出する。同様に、同じ格助詞を有する典型的指示対象「犯人を」と名詞「男を」が同等である、すなわち、「犯人は男である」という常識を検出する。
常識が検出されると、出力部35は、その常識を外部に出力する(ステップS906)。例えば、上述したように、「警察は山田である」、「犯人は男である」という常識が検出された場合、出力部35は、その常識を推論装置3の表示画面に表示したり、プリントアウトしたりする。これにより、ユーザは、入力した文章から導き出される常識を認識することが可能となる。
このように本実施の形態によれば、入力文に含まれる述語の典型文を抽出し、入力文に含まれる名詞と典型文に含まれる典型的指示対象とを比較し、同じ格助詞を有する名詞と典型的指示対象とが同等であるという常識を出力することにより、入力文から自動的に常識を推論することができる。このような推論装置3は、例えば、質疑応答を行う自然言語処理システムに適用することにより、より高い解析結果を出力することができる。
なお、本実施の形態において、常識検出手段により検出された常識に対して、新たな知識を付与することにより、さらなる常識を導き出すことも可能となる。例えば、見出し語「生む」の語義文「母が子供をつくること」に基づく典型文「母が生む」、「子供を生む」が典型文DB18に登録されおり、入力部31が入力文「花子が太郎を生んだ」を受け付けた場合について説明する。この場合、常識検出手段34cは、典型文と入力文に基づいて「花子は母である」、「太郎は子供である」という常識を検出する。ここで、「花子は太郎の母親」、「太郎は花子の子供」という新たな知識を典型文DB18に登録し、この典型文DB18を質疑応答の自然言語処理システムに適用すると、例えば、「太郎の母親は誰?」という質問に対して、「太郎の母親は花子」という追加の常識を導き出すことができる。このとき、新たな知識の追加は、他の電子辞書から登録したり、オペレータが入力することにより行うことができる。このように典型文DB18に新たな知識を付与することにより、この典型文DB18を適用した自然言語処理システムでは、より高い解析結果を出力することが可能となる。
本発明は、自然言語処理システムに適用することができる。
データベース構築装置1の構成を示すブロック図である。 図1のデータベース構築装置1の動作を示すフローチャートである。 解析木の構成を示す図である。 データベース構築装置1により構築された典型文DB18に記憶されているデータの構成を示す模式図である。 データベース構築装置2の構成を示すブロック図である。 図5のデータベース構築装置2の動作を示すフローチャートである。 データベース構築装置2により構築された典型文DB18に記憶されているデータの構成を示す模式図である。 推論装置3の構成を示すブロック図である。 図8に示す推論装置3の動作を示すフローチャートである。 推論装置3による動作の具体例を示す図である。
符号の説明
1,2…データベース構築装置、3…推論装置、11…取得部、12…語義辞書、13…解析部、14…文法辞書、15…抽出部、15a…主節抽出手段、15b…説明文削除手段、15c…名詞抽出手段、15d…選択手段、16…登録部、17…格フレーム辞書、18…典型文DB、19…拡張部、19a…述語取得手段、19b…翻訳手段、19c…判断手段、19d…登録手段、20…外国語辞書、31…入力部、32…解析部、33…文法辞書、34…推論部、34a…典型文抽出手段、34b…比較手段、34c…常識検出手段、35…出力部。

Claims (6)

  1. 単語と、この単語の語義を説明する語義文とを記憶した語義辞書と、
    文法規則を登録した文法辞書と、
    個々の動詞について格フレームを記憶した格フレーム辞書と、
    前記語義辞書から述語の見出し語と、この見出し語の語義を説明する語義文とを取得する取得手段と、
    この取得手段により取得した語義文を前記文法辞書に登録された文法規則に基づいて構文解析する解析手段と、
    この解析手段により構文解析された語義文のうち、複文の語義文から主節または単文の語義文を抽出する主節抽出手段と、
    この主節抽出手段により抽出された主節または単文の語義文から名詞を抽出する名詞抽出手段と、
    この名詞抽出手段により抽出された名詞の中から、形式名詞以外の名詞を選択する選択手段と、
    前記格フレーム辞書に基づいて、前記選択手段により選択された名詞の中から、見出し語と組み合わせたときに文章として意味をなす名詞と、この名詞が含まれる語義文の見出し語とを対応づけて見出し語の語義毎に典型文データベースに登録する登録手段
    を備えることを特徴とするデータベース構築装置
  2. 前記主節抽出手段により抽出された前記単文の語義文または前記主節に基づいて、当該単文の語義文または当該主節に対応する見出し語が説明文であるか否かを判定し、説明文である場合に当該単文の語義文または当該主節を削除する説明文削除手段をさらに備え
    ことを特徴とする請求項1記載のデータベース構築装置
  3. 前記説明文削除手段は、前記主節抽出手段により抽出された前記単文の語義文または前記主節に含まれる述語が抽象動詞または状況の意味を持つ名詞である場合に、当該単文の語義文または当該主節が説明文であると判定する
    ことを特徴とする請求項2記載のデータベース構築装置
  4. 単語およびこの単語の語義を説明する語義文を記憶した語義辞書と、文法規則を登録した文法辞書と、個々の動詞について格フレームを記憶した格フレーム辞書と、前記語義辞書から単語および語義文を取得する取得手段と、文を構文解析する解析手段と、文から主節を抽出する主節抽出手段と、文から名詞を抽出する名詞抽出手段と、選択手段と、単語を典型文データベースに登録する登録手段とを備えたデータベース構築装置を用いて前記典型文データベースを構築するデータベース構築方法であって、
    前記取得手段が、前記語義辞書から述語の見出し語と、この見出し語の語義を説明する語義文とを取得する取得ステップと、
    前記解析手段が、前記取得ステップにより取得した語義文を前記文法辞書に登録された文法規則に基づいて構文解析する解析ステップと、
    前記主節抽出手段が、前記解析ステップにより構文解析された語義文のうち、複文の語義文から主節または単文の語義文を抽出する主節抽出ステップと、
    前記名詞抽出手段が、前記主節抽出ステップにより抽出された主節または単文の語義文から名詞を抽出する名詞抽出ステップと、
    前記選択手段が、前記名詞抽出ステップにより抽出された名詞の中から、形式名詞以外の名詞を選択する選択ステップと、
    前記登録手段が、前記格フレーム辞書に基づいて、前記選択ステップにより選択された名詞の中から、見出し語と組み合わせたときに文章として意味をなす名詞と、この名詞が含まれる語義文の見出し語とを対応づけて見出し語の語義毎に典型文データベースに登録する登録ステップと
    を有することを特徴とするデータベース構築方法。
  5. コンピュータを、請求項1乃至3の何れか1項に記載のデータベース構築装置の各手段として機能させることを特徴とするデータベース構築プログラム
  6. 請求項5記載のデータベース構築プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP2005260331A 2005-09-08 2005-09-08 データベース構築装置、データベース構築方法、データベース構築プログラムおよび記録媒体 Expired - Fee Related JP4054035B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005260331A JP4054035B2 (ja) 2005-09-08 2005-09-08 データベース構築装置、データベース構築方法、データベース構築プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005260331A JP4054035B2 (ja) 2005-09-08 2005-09-08 データベース構築装置、データベース構築方法、データベース構築プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2007072841A JP2007072841A (ja) 2007-03-22
JP4054035B2 true JP4054035B2 (ja) 2008-02-27

Family

ID=37934219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005260331A Expired - Fee Related JP4054035B2 (ja) 2005-09-08 2005-09-08 データベース構築装置、データベース構築方法、データベース構築プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4054035B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017172B2 (en) 2018-08-01 2021-05-25 Signals Analytics Ltd. Proposition identification in natural language and usage thereof for search and retrieval

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630313A (zh) * 2008-07-18 2010-01-20 富士施乐株式会社 单词对齐装置、例句对译词典及单词对齐方法
CN115304536B (zh) * 2022-07-26 2023-09-22 合肥工业大学 一种吲哚啉-2-酮化合物衍生物的制备及用途

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017172B2 (en) 2018-08-01 2021-05-25 Signals Analytics Ltd. Proposition identification in natural language and usage thereof for search and retrieval

Also Published As

Publication number Publication date
JP2007072841A (ja) 2007-03-22

Similar Documents

Publication Publication Date Title
McKeown et al. Collocations
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
JP2008276517A (ja) 訳文評価装置、訳文評価方法およびプログラム
Petrović et al. Extending lexical association measures for collocation extraction
US20120124467A1 (en) Method for automatically generating descriptive headings for a text element
Evans et al. Identifying signs of syntactic complexity for rule-based sentence simplification
Lee Using lexical bundle analysis as discovery tool for corpus-based translation research
Glass et al. A naive salience-based method for speaker identification in fiction books
JP4054035B2 (ja) データベース構築装置、データベース構築方法、データベース構築プログラムおよび記録媒体
Boulaknadel et al. Amazighe Named Entity Recognition using a A rule based approach
Radoev et al. AMAL: answering french natural language questions using DBpedia
Foufi et al. Multilingual parsing and MWE detection
Sánchez et al. An unsupervised method for automatic validation of verbal phraseological units
JPH0332106B2 (ja)
Lloret et al. Are better summaries also easier to understand? analyzing text complexity in automatic summarization
JPH09179875A (ja) 情報検索装置
Roberts et al. A large automatically-acquired all-words list of multiword expressions scored for compositionality
Subcommittee White Paper-Indian Language Resources--Text Processing Subcommittee Report
JPH0322083A (ja) 自然言語処理装置
JP2009223373A (ja) 曖昧性評価装置およびプログラム
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP3956730B2 (ja) 言語処理装置
Zakria et al. Semantic Representation Extraction from Unstructured Arabic Text
JP3109123B2 (ja) 画像処理装置
Bilal Detecting Location Names in French Life-Story Interview Transcripts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070911

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111214

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111214

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121214

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121214

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131214

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees