JP4054035B2

JP4054035B2 - データベース構築装置、データベース構築方法、データベース構築プログラムおよび記録媒体

Info

Publication number: JP4054035B2
Application number: JP2005260331A
Authority: JP
Inventors: 重子成山; フランシス・ボンド; 貴秋田中; 浩巳中岩
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-09-08
Filing date: 2005-09-08
Publication date: 2008-02-27
Anticipated expiration: 2025-09-08
Also published as: JP2007072841A

Description

本発明は、例えば機械翻訳や情報検索を行う自然言語処理システムに関するものである。

日本語や英語を始めとする各種言語で記述される自然言語は、本来抽象的で曖昧性が高い性質を持つが、文章を数学的に扱うことにより、コンピュータ処理を行うことができる。この結果、機械翻訳システム、対話システム、検索システム、質問応答システムなど、様々な自然言語処理システムが実現されている。

ところで、自然言語、特に日本語では、会話や文章の内容から既に分かっている単語などを、文章中から省略する現象が散見される。例えば、「警察が犯人を逮捕した」という文章の場合、「警察が」や「犯人を」といった「逮捕した」という述語に直接関係する主語や目的語を省略して、「逮捕した」という述語だけの文章で意味を伝えることがある。このような述語だけの文章に対して、人間は、自身が有する一般常識等に基づいて文章から欠落した主語や目的語を理解することができるが、機械は、人間と同様に行うことが困難である。そこで、自然言語処理システムにおいても欠落した主語や目的語の検出と補完ができるよう、様々な提案がなされている。例えば、非特許文献３には、名詞と述語との意味的関係を表した格フレーム辞書（例えば、非特許文献１，２参照。）に基づいて省略された主語や目的語の検出と補完を行うことが開示されている。

池原悟、外７名、「日本語語彙体系」、岩波書店、１９９７年日本電子化辞書研究所、「ＥＤＲ電子化辞書」 D.Kawahara and S.Kurohashi, "Improving Japanese zero pronoun resolution by global word sense disambiguation", In Proc. of COLING. 343-349, Geneva, 2004

しかしながら、従来の自然言語処理システムでは、格フレーム辞書から出力される対象区分が例えば「人」や「主体」など抽象的であるため、述語に対応して現れるより具体的な主語や目的語の検出と補完ができず、結果として、処理結果が曖昧なものとなっていた。

そこで、本願発明は、述語に対応して現れるより具体的な主語や目的語を抽出することができるデータベース構築装置、データベース構築方法、データベース構築プログラム、および、記録媒体を提供することを目的とする。

上述したような課題を解決するために、本発明にかかるデータベース構築装置は、単語と、この単語の語義を説明する語義文とを記憶した語義辞書と、文法規則を登録した文法辞書と、個々の動詞について格フレームを記憶した格フレーム辞書と、前記語義辞書から述語の見出し語と、この見出し語の語義を説明する語義文とを取得する取得手段と、この取得手段により取得した語義文を前記文法辞書に登録された文法規則に基づいて構文解析する解析手段と、この解析手段により構文解析された語義文のうち、複文の語義文から主節または単文の語義文を抽出する主節抽出手段と、この主節抽出手段により抽出された主節または単文の語義文から名詞を抽出する名詞抽出手段と、この名詞抽出手段により抽出された名詞の中から、形式名詞以外の名詞を選択する選択手段と、前記格フレーム辞書に基づいて、前記選択手段により選択された名詞の中から、見出し語と組み合わせたときに文章として意味をなす名詞と、この名詞が含まれる語義文の見出し語とを対応づけて見出し語の語義毎に典型文データベースに登録する登録手段とを備えることを特徴とする。ここで、述語とは、動詞、サ変名詞、形容詞、形容動詞など述語となり得る単語を意味する。

上記データベース構築装置において、前記主節抽出手段により抽出された前記単文の語義文または前記主節に基づいて、当該単文の語義文または当該主節に対応する見出し語が説明文であるか否かを判定し、説明文である場合に当該単文の語義文または当該主節を削除する説明文削除手段をさらに備えるようにしてもよい。

また、上記データベース構築装置において、前記説明文削除手段は、前記主節抽出手段により抽出された前記単文の語義文または前記主節に含まれる述語が抽象動詞または状況の意味を持つ名詞である場合に、当該単文の語義文または当該主節が説明文であると判定するようにしてもよい。

また、本発明に係るデータベース構築方法は、単語およびこの単語の語義を説明する語義文を記憶した語義辞書と、文法規則を登録した文法辞書と、個々の動詞について格フレームを記憶した格フレーム辞書と、前記語義辞書から単語および語義文を取得する取得手段と、文を構文解析する解析手段と、文から主節を抽出する主節抽出手段と、文から名詞を抽出する名詞抽出手段と、選択手段と、単語を典型文データベースに登録する登録手段とを備えたデータベース構築装置を用いて前記典型文データベースを構築するデータベース構築方法であって、前記取得手段が、前記語義辞書から述語の見出し語と、この見出し語の語義を説明する語義文とを取得する取得ステップと、前記解析手段が、前記取得ステップにより取得した語義文を前記文法辞書に登録された文法規則に基づいて構文解析する解析ステップと、前記主節抽出手段が、前記解析ステップにより構文解析された語義文のうち、複文の語義文から主節または単文の語義文を抽出する主節抽出ステップと、前記名詞抽出手段が、前記主節抽出ステップにより抽出された主節または単文の語義文から名詞を抽出する名詞抽出ステップと、前記選択手段が、前記名詞抽出ステップにより抽出された名詞の中から、形式名詞以外の名詞を選択する選択ステップと、前記登録手段が、前記格フレーム辞書に基づいて、前記選択ステップにより選択された名詞の中から、見出し語と組み合わせたときに文章として意味をなす名詞と、この名詞が含まれる語義文の見出し語とを対応づけて見出し語の語義毎に典型文データベースに登録する登録ステップとを有することを特徴とする。

また、本発明に係るデータベース構築プログラムは、コンピュータを、上記データベース構築装置の各手段として機能させることを特徴とする。

また、本発明に係る記録媒体は、上記データベース構築プログラムが記録されたコンピュータ読み取り可能な記録媒体である。

本発明によれば、述語とこの述語の語義文とを語義辞書から取得し、取得した語義文から名詞を抽出することにより、述語に対応して現れるより具体的な名詞を抽出することができる。これにより、文章から主語や目的語など欠落している場合であっても、その主語や目的語を補完することができるので、自然言語処理システムにおける処理の精度を向上させることができる。

［第１の実施の形態］
以下、図面を参照して、本発明の第１の実施の形態について図面を参照して説明する。図１は、本実施の形態におけるデータベース構築装置の構成を示すブロック図である。データベース構築装置１は、取得部１１と、語義辞書１２と、解析部１３と、文法辞書１４と、抽出部１５と、登録部１６と、格フレーム辞書１７と、典型文ＤＢ(Data Base)１８とから構成される。このようなデータベース構築装置１は、ＣＰＵ等の演算装置と、メモリ、ＨＤＤ（Hard Disc Drive）等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、インターネット、ＬＡＮ(Local Area Network)、ＷＡＮ(Wide Area Network)等の通信回線を介して各種情報の送受信を行うＩ／Ｆ装置と、ＣＲＴ(Cathode Ray Tube)、ＬＣＤ(Liquid Crystal Display)またはＦＥＤ(Field Emission Display)等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した取得部１１、語義辞書１２、解析部１３、文法辞書１４、抽出部１５、登録部１６、格フレーム辞書１７および典型文ＤＢ１８が実現される。なお、上記プログラムは、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカードなどの記録媒体に記録された状態で提供されるようにしてもよい。

取得部１１は、語義辞書１２から述語と、この述語の語義を説明する語義文とを取得する演算処理部である。

語義辞書１２は、単語と、この単語の語義を説明する語義文とが記憶されたデータベースである。このような語義辞書１２は、例えば、電子化された国語辞書などから構成される。以下、語義文が説明対象としている単語を「見出し語」と呼ぶ。

解析部１３は、取得部１１が取得した語義文を文法辞書１４に記憶された文法規則に基づいて構文解析する演算処理部である。ここで、構文解析とは、語義文を単語単位に分割し、各単語の品詞や意味等の語義を特定し、各単語間の係り受けを検出し、語義文の構文構造を表す解析木を特定することを意味する。

文法辞書１４は、対象とする自然言語の文法規則が登録されているデータベースである。

抽出部１５は、解析部１３により構文解析が行われた語義文から、この語義文に対応する見出し語と関連のある具体的な主語や目的語となる名詞（以下、「典型的指示対象」と呼ぶ。）を抽出する演算処理部である。このような抽出部１５は、主節抽出手段１５ａと、説明文削除手段１５ｂと、名詞抽出手段１５ｃと、選択手段１５ｄとから構成される。

主節抽出手段１５ａは、解析部１３により構文解析が行われた語義文のうち、複文の語義文から主節を抽出する。なお、語義文が単文の場合は、その単文をそのまま抽出する。
説明文削除手段１５ｂは、主節抽出手段１５ａにより抽出された主節または単文に基づいて、取得部１１が取得した語義文が説明文であるか否かを判定し、説明文と判定した語義文を削除するようにしてもよい。なお、説明文以外の語義文は、名詞抽出手段１５ｄに送出される。
名詞抽出手段１５ｃは、説明文削除手段１５ｂから取得した主節または単文から名詞を抽出する。
選択手段１５ｄは、名詞抽出手段１５ｃにより抽出された名詞の中から、典型的指示対象となり得る名詞を選択する。

登録部１６は、格フレーム辞書１７に基づいて、抽出部１５により抽出された名詞の中から、一般的ではなく、かつ、見出し語と組み合わせたときに文章として意味をなす名詞と、この名詞が含まれる語義文の見出し語とを対応付けて見出し語の語義毎に典型文ＤＢ１８に登録する演算処理部である。

格フレーム辞書１７は、個々の動詞について格フレームを記憶したデータベース（例えば、非特許文献１，２参照。）である。

典型文ＤＢ１８は、登録部１６により入力された典型的指示対象と、この典型的指示対象に対応する述語とを対応付けた典型文を述語毎および述語の語義毎に記憶するデータベースである。

次に、本実施の形態にかかるデータベース構築装置１の動作について、図２を参照して説明する。なお、本実施の形態において、データベース構築装置１は、言語として日本語を用いて以下に説明する処理を行うものとする。

まず、取得部１１は、動詞、サ変名詞、形容詞、形容動詞など述語となる見出し語を語義辞書１２から検索し、検索された見出し語と、この見出し語の語の語義文とを語義辞書１２から取得する（ステップＳ２０１）。例えば、サ変名詞「解散」という見出し語を検索した場合、取得部１１は、その見出し語と、この見出し語の語義文である「会合などで集まった人々が別れること」とを語義辞書１２から取得する。

なお、１つの見出し語に対して複数の語義が存在する場合、取得部１１は、各語義の語義文を語義辞書１２から取得する。例えば、「片付ける」という見出し語は、「乱雑な状態にあるものを整頓する」、「親が娘を嫁に出す」、「邪魔になる人を取り除く」という３つの語義文を有する。この場合、取得部１１は、語義が異なるその３つの語義文を語義辞書１２から取得する。

述語となる見出し語と、この見出し語の語義文とが取得されると、解析部１３は、その語義文を文法辞書１４に基づいて構文解析する（ステップＳ２０２）。例えば、見出し語「解散」に対する語義文「会合などで集まった人々が別れること」を構文解析した結果得られた解析木の一例を図３に示す。このような構文解析は、例えば主辞駆動句構造文法(Head-Driven Phrase Structure Grammar:HPSG)等の手法により実現することができる。なお、図３において、Ｎは名詞、Ｐは助詞、Ｖは動詞、ＰＰは前置詞句、ＶＰは動詞句、ＮＰは名詞句を表す。

語義文に対して構文解析が行われると、抽出部１５の主節抽出手段１５ａは、その語義文が複文の場合、その複文から主節を抽出する（ステップＳ２０３）。ここで、複文とは、主語と述語とからなる文中で、その中にさらに主語と述語の関係が認められる構成の文を意味する。また、主節とは、解析木で最高位にあるＶＰ直下の述語を含む節を意味し、一般に日本語では、最も右側にある述語を含む節が主節となる。例えば、図３に示す語義文の解析木の場合、最高位のＶＰ直下の述語「別れる」を含む節「人々が別れること」が主節となる。なお、語義文が単文の場合、主節抽出手段１５ａは、その単文をそのまま抽出する。

したがって、例えば、上述した見出し語「片付ける」の３つの語義文に対して構文解析が行われた場合、主節抽出手段は１５ａは、それぞれの語義文から主節である「ものを整頓する」、「人を取り除く」と、単文である「親が娘を嫁に出す」とを抽出する。

なお、語義文が並列文の場合、主節抽出手段１５ａは、各節を主節として抽出する。ここで、並列文とは、「て」、「そして」、「が」など接続された複数の節を有する文のことを意味する。例えば、見出し語「診断」の語義文「医者が患者を診察して、その病状を判断すること」は、「医者が患者を診察して」と「その病状を判断すること」という２つの節を有する並列文である。この場合、主節抽出手段１５ａは、「医者が患者を診察して」と「その病状を判断すること」をそれぞれ主節として抽出する。

主節または単文が抽出されると、抽出部１５の説明文削除手段１５ｂは、その主節または単文に基づいて、説明文からなる語義文を削除する（ステップＳ２０４）。具体的には、説明文削除手段１５ｂは、主節または単文に含まれる述語が、例えば、「ある」、「有る」、「する」、「なる」、「様」、「よう」、「様子」、「ようす（だ）」など、品詞を有し文法機能が有るが意味内容が希薄な単語の場合、その主節または単文に対応する語義文が説明文であると判断し、この語義文からは典型的指示対象を抽出しないようにしてもよい。一般的に、説明文からなる語義文には、見出し語に対応して現れるより具体的な名詞が含まれていない場合が多い。例えば、見出し語「残念」の語義文「心残りがする様子、望みが実現せず惜しく思う様子」から名詞を抽出すると、「心残りが」「望みが」となる。これらと「残念」とを組み合わせて作った文は、それぞれ「心残りが残念」、「望みが残念」となり、非文となる。したがって、本実施の形態では、説明文からなる語義文は削除する。

説明文からなる語義文が削除されると、抽出部１５の名詞抽出手段１５ｃは、主節抽出部１５ａにより抽出された主節または単文の中から名詞を抽出する（ステップＳ２０５）。具体的には、名詞抽出手段１５ｃは、主節抽出部１５ａにより抽出された主節または単文の中から、「が」、「を」、「に」、「と」、「から」、「より」、「で」、「の」などの格助詞がついた名詞をその格助詞とともに抽出する。例えば、見出し語「逮捕」の語義文「警察が犯人を逮捕すること」の場合、名詞抽出部１５ｃは、「警察が」，「犯人を」を抽出する。また、上述した見出し語「片付ける」の語義文の場合、名詞抽出手段１５ｃは、「ものを」、「親が」、「娘を」、「嫁に」、「人を」をそれぞれから抽出する。

名詞が抽出されると、抽出部１５の選択手段１５ｄは、抽出された名詞の中から具体的な名詞を選択して抽出する（ステップＳ２０６）。具体的には、選択手段１５ｄは、名詞抽出手段１５ｃにより抽出された名詞の中から、「物」、「もの」、「事」、「こと」、「事柄」、「人」、「物事」、「所」、「ところ」、「状態」、「程度」、「感じ」、「ため」、「場所」など具体性がない名詞以外の名詞を選択し、その名詞に付随する格助詞とともに抽出する。例えば、見出し語「逮捕」から抽出された「警察が」、「犯人を」の場合、選択手段１５ｄは、それぞれ具体性がある名詞なので、そのまま「警察が」、「犯人を」を抽出する。また、上述した見出し語「片付ける」から抽出された名詞、「ものを」、「親が」、「娘を」、「嫁に」、「人を」の場合、選択手段１５ｄは、具体性のない「ものを」、「人を」を削除し、残った名詞「親が」、「娘を」、「嫁に」を抽出する。

なお、名詞抽出手段１５ｃは、「の」、「など」、「のみ」、「と」、「だけ」などの単語を抽出する場合がある。このような場合、選択手段１５ｄは、それらの単語の前の単語を名詞として選択し、この選択した名詞に対して上述したステップＳ２０６の具体性の判断を行う。例えば、語義文に「警察などが」という記載が存在する場合、名詞抽出手段１５ｃは、その語義文から「などが」を抽出してしまう。この場合、選択手段１５ｄは、「など」の前後の「警察」「が」を抽出し、これらを組み合わせた「警察が」について具体性の判断を行う。

名詞が抽出されると、登録部１６は、格フレーム辞書１７に基づいて、その名詞がより具体的な名詞であるか否か確認する（ステップＳ２０７）。具体的には、登録部１７は、抽出された名詞が格フレーム辞書１７に登録されていない場合、その名詞はより具体的な名詞であると判断する。一方、抽出された名詞が格フレーム辞書１７に登録されている場合、登録部１７は、その名詞はより具体的な名詞ではないと判断する。なお、抽出された名詞が格フレーム辞書１７に登録されていても、格フレーム辞書１７の下位の階層に位置する場合、登録部１７は、その名詞はより具体的な名詞であると判断する。

抽出された名詞がより具体的な名詞ではない場合（ステップＳ２０７：ＮＯ）、登録部１６は、その名詞を典型文ＤＢ１８に登録しない。

一方、抽出された名詞がより具体的な名詞である場合（ステップＳ２０７：ＹＥＳ）、登録部１６は、格フレーム辞書１７に基づいて、その名詞と、この名詞が含まれる語義文の見出し語とが意味的に正しいか否か確認する（ステップＳ２０８）。具体的には、登録部１７は、名詞と見出し語とを組み合わせた文章と、格フレーム辞書１７に登録されているその見出し語の格フレームとを比較し、名詞およびこの名詞に付随する格助詞が文法的に正しいか否かを判断する。

例えば、見出し語「愛する」の語義文「異性に情をもつ」から「異性に」、「情を」が抽出され、格フレーム辞書１７には、述語「愛する」に対して、「主体が主体を愛する」という格フレームが登録されている場合について説明する。まず、登録部１７は、抽出された名詞と見出し語を組み合わせる。すると、「異性に愛する」、「情を愛する」という文章が生成される。次に、登録部１７は、各文章に含まれる名詞と格フレームとを比較する。すると、「異性に愛する」に含まれる名詞「異性」は主体と成り得るので、登録部１７は、「異性に」は意味的に正しいと判断する。一方、「情を愛する」に含まれる名詞「情」は主体とは成り得ないので、登録部１７は、「情を」は意味的に正しくないと判断する。これにより、見出し語と意味的に関係のない名詞を省くことができる。なお、上記判断は、例えば、語義辞書１２や文法辞書１４などに基づいて、上記文章に含まれる各単語の格や品詞を特定することにより行うことができる。

ここで、登録部１７は、抽出された名詞の格助詞が正しいか否かを判断するようにしてもよい。例えば、上述した文章「異性に愛する」と格フレーム「主体が主体を愛する」とに含まれる格助詞を比較すると、名詞「異性」に付随する「格助詞」は、見出し語「愛する」の格フレームには用いられていない。このような場合、登録部１７は、格助詞を変更して出力する。すなわち、登録部１７は、「異性に」に含まれる格助詞「に」を、「が」または「を」に変更した「異性が」、「異性を」を出力する。これにより、抽出された名詞に付随する格助詞と、その名詞が含まれる語義文の見出し語とが対応しない場合であっても、見出し語に対応する格助詞を出力することができる。

抽出された名詞と見出し語とが意味的に正しくない場合（ステップＳ２０８：ＮＯ）、登録部１６は、その名詞を典型文ＤＢ１８に登録しない。

一方、抽出された名詞と見出し語とが意味的に正しい場合（ステップＳ２０８：ＹＥＳ）、登録部１６は、その名詞と、この名詞が含まれる語義文の見出し語とを対応付けて見出し語の語義毎に典型文ＤＢ１８に登録する（ステップＳ２０９）。これにより、典型文ＤＢ１８には、述語と、この述語の典型的指示対象とが対応付けた典型文が述語毎で、かつ、語義毎に登録される。例えば、述語である見出し語「逮捕」の語義文から典型的指示対象として「警察が」，「犯人を」が抽出された場合、登録部１６は、図４に示すように、それぞれを対応付けて組み合わせた典型文である「警察が逮捕」、「犯人を逮捕」を述語「逮捕」と対応付けて典型文ＤＢ１８に登録する。また、述語である見出し語「片付ける」の語義が異なる３つの語義文から典型的指示対象として「親が」、「娘を」、「嫁に」が抽出された場合、登録部１６は、典型文として「親が片付ける」、「娘を片付ける」、「嫁に片付ける」を述語「片付ける」と対応付けて典型文ＤＢ１８に登録する。このとき、それらの典型文は全て語義文「親が娘を嫁に出す」から抽出されたので、図４に示すように、語義毎に対応付けがなされた形態で典型文ＤＢ１８に登録される。これにより、見出し語と典型的指示対象とを見出し語毎のみならず、語義毎に対応付けることができる。

このように述語と典型的指示対象を対応付けて典型文ＤＢ１８に登録することにより、述語と典型的指示対象との意味関係を識別することができる。例えば、典型文「警察が逮捕」からは、「警察」と「逮捕」とが関連する単語であり、格助詞「が」が使われていることから「逮捕」の主語が「警察」であることを識別することができる。同様に、典型文「犯人を逮捕」からは、「犯人」と「逮捕」とが関連する単語であり、格助詞「を」が使われていることから「逮捕」の目的語が「犯人」であることを識別することができる。

上述したように、本実施の形態によれば、述語と、この述語の語義文とを語義辞書から取得することにより、その述語と関係の深い名詞を含む語義文を取得することができる。この語義文から名詞を抽出することにより、述語と関連するより具体的な主語や目的語を抽出することができる。抽出した主語や目的語を典型文ＤＢ１８に登録することにより、述語と、この述語と対応して現れるより具体的な主語や目的語とが対応付けて登録された典型文ＤＢ１８を構築することができる。

なお、上述した方法より構築された典型文ＤＢ１８は、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカードなどの記録媒体に記録することができる。このような記録媒体を介して、例えば、機械翻訳システム、対話システム、検索システム、質問応答システムなどの自然言語処理システムに典型文ＤＢ１８を導入することにより、その自然言語処理システムでは、述語と対応して現れるより具体的な名詞を抽出することができるので、解析精度を向上させることができる。

また、上述したデータベース構築装置１は、１つの機能として自然言語処理システムに導入するようにしてもよい。これにより、自然言語処理システムでは、自然言語処理の際に述語に対応して現れるより具体的な名詞を抽出できない述語等が存在する場合、上記データベース構築装置１の機能によりその述語の典型的指示対象を抽出することが可能となるので、解析精度を向上させることができる。

また、取得部１１は、複数の語義辞書１２から述語となる見出し語およびこの見出し語の語義文を取得するようにしてもよい。同じ見出し語の語義文でも、ある辞書に記載されていない典型的指示対象が他の辞書に記載されている場合がある。そこで、複数の語義辞書から同じ見出し語について複数の語義辞書１２から語義文を取得することにより、より多くの典型的指示対象を抽出することが可能となるので、典型文ＤＢ１８の内容を充実させることができる。

また、本実施の形態では、典型文ＤＢ１８は日本語に基づいて構築されているが、他の言語に基づいて構築するようにしてもよい。

［第２の実施の形態］
次に、本発明の第２の実施の形態について詳細に説明する、図５は、本実施の形態にかかるデータベース構築装置の構成を示すブロック図である。なお、本実施の形態にかかるデータベース構築装置２は、第１の実施の形態のデータベース構築装置１にさらに拡張部１９および外国語辞書２０を設けたものであり、典型文ＤＢ１８に記憶された述語と典型的指示対象の意味関係を外国語に拡張するものである。したがって、本実施の形態において、第１の実施の形態と同等の構成要素については、同じ名称および符号を付し、適宜説明を省略する。

データベース構築装置２は、取得部１１と、語義辞書１２と、解析部１３と、文法辞書１４と、抽出部１５と、登録部１６と、格フレーム辞書１７と、典型文ＤＢ１８と、拡張部１９と、外国語辞書２０とから構成される。このようなデータベース構築装置１は、ＣＰＵ等の演算装置と、メモリ、ＨＤＤ等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、インターネット、ＬＡＮ、ＷＡＮ等の通信回線を介して各種情報の送受信を行うＩ／Ｆ装置と、ＣＲＴ、ＬＣＤまたはＦＥＤ等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した取得部１１、語義辞書１２、解析部１３、文法辞書１４、抽出部１５、登録部１６、格フレーム辞書１７、典型文ＤＢ１８、拡張部１９および外国語辞書２０が実現される。なお、上記プログラムは、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカードなどの記録媒体に記録された状態で提供されるようにしてもよい。

拡張部１９は、述語取得手段１９ａと、翻訳手段１９ｂと、判断手段１９ｃと、登録手段１９ｄとから構成される。述語取得手段１９ａは、典型文ＤＢ１８から任意の述語を取得する。翻訳手段１９ｂは、外国語辞書２０に基づいて、述語取得手段１９ａが取得した述語を翻訳し、その述語の訳語を生成する。判断手段１９ｃは、翻訳手段１９ｂにより生成された訳語の単語数が所定の数量で有るか否かを判断する。登録部１９ｃが、判断手段１９ｃによる判断結果に基づいて、翻訳手段１９ｂによる訳語を典型文ＤＢ１８に登録する。

外国語辞書２０は、１の言語の単語と、この単語に対応する他の言語の単語とが記憶されたデータベースであり、例えば、電子化された辞書などから構成される。上記他の言語としては、１カ国語のみならず複数の言語を設定することもできる。

次に、本実施の形態にかかるデータベース構築装置２の動作について図６を参照して説明する。なお、以下においては、典型文ＤＢ１８は日本語に基づいて構築され、外国語辞書２０は、上記１の言語として日本語、上記他の言語として英語が設定されている場合を例に説明する。

まず、拡張部１９の述語取得手段１９ａは、典型文ＤＢ１８に登録されている任意の述語を抽出する（ステップＳ６０１）。典型文ＤＢ１８には、図４に示すように、述語と典型的指示対象との意味関係を示す典型文が述語毎に記憶されている。このような典型文ＤＢ１８から、述語取得手段１９ａは、任意の述語を抽出する。

述語を抽出すると、拡張部１９の翻訳手段１９ｂは、外国語辞書２０に基づいて、その述語を翻訳し、対応する訳語を抽出する（ステップＳ６０２）。例えば、述語「逮捕」が抽出された場合、翻訳手段１９ｂは、その「逮捕」に対応する英語「arrest」を訳語として外国語辞書２０から抽出する。

訳語が抽出されると、拡張部１９の判断手段１９ｃは、訳語を構成する単語の数量が２語以下であるか否かを判断する（ステップＳ６０３）。訳語を構成する単語の数量が多い場合は、その訳語が述語の意味を説明する説明文であり、述語に対応する概念がその言語にないことが表す。したがって、本実施の形態では、単語数が３語以上の訳語については、その訳語を典型文ＤＢ１８に登録しない。

判断手段１９ｃにより訳語の単語数が２語以下ではないと判断された場合（ステップＳ６０３：ＮＯ）、登録手段１９ｄは、その訳語を典型文ＤＢ１８に登録せず、削除する（ステップＳ６０５）。例えば、述語「論外」の訳語「be out of question」は、４つの単語から構成されるので、典型文ＤＢ１８に登録しない。

判断手段１９ｃにより訳語の単語数が２語以下であると判断された場合（ステップＳ６０３：ＹＥＳ）、登録手段は、その訳語をこの訳語に対応する述語と対応付けて、典型文ＤＢ１８に登録する（ステップＳ６０４）。例えば、述語「逮捕」の訳語「arrest」は、１つの単語から構成されるので、図７に示すように、述語「逮捕」と対応付けて典型文ＤＢ１８に登録される。

このように、典型文ＤＢ１８に登録された述語の訳語を、その述語と対応付けて典型文ＤＢ１８に登録することにより、訳語とこの訳語の典型的指示対象の関係を推定することができる。例えば、訳語「arrest」の場合、その主語が「警官が」、その目的語が「犯人を」となることを推定することができる。したがって、それらの典型的指示対象を訳語の言語に翻訳することにより、その訳語の言語における典型的指示対象の訳語を取得することが可能となる。このような典型文ＤＢ１８を、機械翻訳システム、対話システム、検索システム、質問応答システムなどの自然言語処理システムに導入することにより、その自然言語処理システムでは、１の言語のみならず他の言語における自然言語処理の解析精度を向上させることが可能となる。

なお、本実施の形態のデータベース構築装置２は、１つの言語のみならず、複数の言語に典型文ＤＢ１８に登録された述語を翻訳するようにしてもよい。これは、外国語辞書２０に複数の言語を設定することにより実現することができる。この場合、典型文ＤＢ１８には、各国語の訳語が述語毎に対応付けて登録される。例えば、図７に示すように、述語「逮捕」の場合、英語の訳語「arrest」、中国語の訳語「拘捕」、フランス語の訳語「arrestation」が、その述語「逮捕」のレコードに格納されており、それぞれが対応付けられた状態となっている。このように、多言語の訳語を典型文ＤＢ１８に登録しておくことにより、１つの言語を多言語に翻訳することが可能となる。

また、本実施の形態では、典型文ＤＢ１８は日本語に基づいて構築されているが、他の言語で構築される様にしてもよい。

また、本実施の形態では、訳語を構成する単語の数量が２個以下の訳語を典型文ＤＢ１８に登録するようにしたが、その数量は２個以下に限定されず、適宜自由に設定することができる。

［第３の実施の形態］
次に、本発明の第３の実施の形態について詳細に説明する、図８は、本実施の形態にかかる推定装置の構成を示すブロック図である。なお、本実施の形態にかかる推論装置３は、第１，２の実施の形態のデータベース構築装置１により構築された典型文ＤＢ１８に基づいて、外部から入力された文章が意味するところを検出する
推論を行うものである。したがって、本実施の形態において、第１，２の実施の形態と同等の構成要素については、同じ名称および符号を付し、適宜説明を省略する。

推論装置３は、典型文ＤＢ１８と、入力部３１と、解析部３２と、文法辞書３３と、推論部３４と、出力部３５とから構成される。このような推論装置３は、ＣＰＵ等の演算装置と、メモリ、ＨＤＤ等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、インターネット、ＬＡＮ、ＷＡＮ等の通信回線を介して各種情報の送受信を行うＩ／Ｆ装置と、ＣＲＴ、ＬＣＤまたはＦＥＤ等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した典型文ＤＢ１８、入力部３１、解析部３２、文法辞書３３、推論部３４および出力部３５が実現される。なお、上記プログラムは、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカードなどの記録媒体に記録された状態で提供されるようにしてもよい。

入力部３１は、外部から入力される文章（以下、「入力文」と呼ぶ。）を受け付けるインターフェース装置である。

解析部３２は、入力部３１で受け付けられた入力文に対して、文法辞書１４に記憶された文法規則に基づいて構文解析する演算処理部である。

文法辞書３３は、対象とする自然言語の文法規則が登録されているデータベースである。

推論部３４は、典型文抽出手段３４ａと、比較手段３４ｂと、常識検出手段３４ｃとから構成される。典型文抽出手段３４ａは、解析部３２により構文解析が行われた入力文に含まれる述語を検出し、この述語の典型文を典型文ＤＢ１８から抽出する。比較手段３４ｂは、解析部３２により構文解析が行われた入力文と、典型文抽出手段３４ａにより抽出された典型文とを比較し、典型的指示対象に対応する単語をその入力文中から抽出する。常識検出手段３４ｃは、比較手段３４ｂにより抽出された単語と、典型文抽出手段３４ａにより抽出された典型文とに基づいて、これらから導くことができる情報、すなわち常識を検出する。

出力部３５は、推論部３４による演算結果を表示画面に表示したり、プリントアウトしたり、外部装置に送信したりするインターフェース部である。

次に、図９を参照して、本実施の形態にかかる推論装置３の動作について説明する。図９は、推論装置３の動作を示すフローチャートである。まず、ユーザの操作入力、記録媒体、通信回線等を介して外部からテキストデータなどからなる入力文が入力されると、入力部３１は、その入力文を受け付け、解析部３２に送出する（ステップＳ９０１）。

入力文が受け付けられると、解析部３２は、その入力文に対して構造解析を行う（ステップＳ９０２）。

構文解析が行われると、推論部３４の典型文抽出手段３４ａは、構文解析が行われた入力文に含まれる述語の典型文を、典型文ＤＢ１８から抽出する（ステップＳ９０３）。例えば、入力部３１により「山田がその店の男を逮捕した」という入力文が受け付けられた場合、典型文抽出手段３４ａは、図４に示すように、その入力文に含まれる述語「逮捕」の典型文「警察が逮捕」、「犯人を逮捕」を典型文ＤＢ１８から抽出する。

典型文が抽出されると、推論部３４の比較手段３４ｂは、入力文と典型文とを比較し、典型的指示対象に対応する単語を入力文から抽出する（ステップＳ９０４）。比較手段３４ｂは、入力文から名詞を抽出し、この名詞に付随する格助詞と、典型文の典型的指示対象に付随する格助詞とを比較し、典型的指示対象と同じ格助詞を有する名詞を抽出する。

例えば、上述したように、入力文が「山田がその店の男を逮捕した」、典型文が「警察が逮捕」、「犯人を逮捕」の場合、比較手段３４ｂは、図１０（ａ）に示すように、上記入力文から「山田が」、「店の」、「男を」を抽出する。また、図１０（ｂ），（ｃ）に示すように、上記典型文から典型的指示対象である「警察が」、「犯人を」を抽出する。次に、図１０（ｄ）に示すように、抽出した名詞と典型的指示対象とを比較し、典型的指示対象「警察が」と同じ格助詞を有する名詞「山田が」と、典型的指示対象「犯人を」と同じ格助詞を有する名詞「男を」とを抽出する。

名詞が抽出されると、推論部３４の常識検出手段３４ｃは、典型文抽出手段３４ａにより抽出された典型文に基づいて、その名詞から抽出される常識を検出する（ステップＳ９０５）。具体的には、常識検出手段３４ｃは、入力文から抽出された名詞と、この名詞に対応する典型的指示対象とが同等であることを常識として検出する。

例えば、上述したように、典型文「警察が逮捕」、「犯人を逮捕」、名詞「山田が」、「男を」を抽出した場合、常識検出手段３４ｃは、図１０（ｅ）に示すように、同じ格助詞を有する典型的指示対象「警察が」と名詞「山田が」が同等である、すなわち、「警察は山田である」という常識を検出する。同様に、同じ格助詞を有する典型的指示対象「犯人を」と名詞「男を」が同等である、すなわち、「犯人は男である」という常識を検出する。

常識が検出されると、出力部３５は、その常識を外部に出力する（ステップＳ９０６）。例えば、上述したように、「警察は山田である」、「犯人は男である」という常識が検出された場合、出力部３５は、その常識を推論装置３の表示画面に表示したり、プリントアウトしたりする。これにより、ユーザは、入力した文章から導き出される常識を認識することが可能となる。

このように本実施の形態によれば、入力文に含まれる述語の典型文を抽出し、入力文に含まれる名詞と典型文に含まれる典型的指示対象とを比較し、同じ格助詞を有する名詞と典型的指示対象とが同等であるという常識を出力することにより、入力文から自動的に常識を推論することができる。このような推論装置３は、例えば、質疑応答を行う自然言語処理システムに適用することにより、より高い解析結果を出力することができる。

なお、本実施の形態において、常識検出手段により検出された常識に対して、新たな知識を付与することにより、さらなる常識を導き出すことも可能となる。例えば、見出し語「生む」の語義文「母が子供をつくること」に基づく典型文「母が生む」、「子供を生む」が典型文ＤＢ１８に登録されおり、入力部３１が入力文「花子が太郎を生んだ」を受け付けた場合について説明する。この場合、常識検出手段３４ｃは、典型文と入力文に基づいて「花子は母である」、「太郎は子供である」という常識を検出する。ここで、「花子は太郎の母親」、「太郎は花子の子供」という新たな知識を典型文ＤＢ１８に登録し、この典型文ＤＢ１８を質疑応答の自然言語処理システムに適用すると、例えば、「太郎の母親は誰？」という質問に対して、「太郎の母親は花子」という追加の常識を導き出すことができる。このとき、新たな知識の追加は、他の電子辞書から登録したり、オペレータが入力することにより行うことができる。このように典型文ＤＢ１８に新たな知識を付与することにより、この典型文ＤＢ１８を適用した自然言語処理システムでは、より高い解析結果を出力することが可能となる。

本発明は、自然言語処理システムに適用することができる。

データベース構築装置１の構成を示すブロック図である。図１のデータベース構築装置１の動作を示すフローチャートである。解析木の構成を示す図である。データベース構築装置１により構築された典型文ＤＢ１８に記憶されているデータの構成を示す模式図である。データベース構築装置２の構成を示すブロック図である。図５のデータベース構築装置２の動作を示すフローチャートである。データベース構築装置２により構築された典型文ＤＢ１８に記憶されているデータの構成を示す模式図である。推論装置３の構成を示すブロック図である。図８に示す推論装置３の動作を示すフローチャートである。推論装置３による動作の具体例を示す図である。

符号の説明

１，２…データベース構築装置、３…推論装置、１１…取得部、１２…語義辞書、１３…解析部、１４…文法辞書、１５…抽出部、１５ａ…主節抽出手段、１５ｂ…説明文削除手段、１５ｃ…名詞抽出手段、１５ｄ…選択手段、１６…登録部、１７…格フレーム辞書、１８…典型文ＤＢ、１９…拡張部、１９ａ…述語取得手段、１９ｂ…翻訳手段、１９ｃ…判断手段、１９ｄ…登録手段、２０…外国語辞書、３１…入力部、３２…解析部、３３…文法辞書、３４…推論部、３４ａ…典型文抽出手段、３４ｂ…比較手段、３４ｃ…常識検出手段、３５…出力部。

Claims

単語と、この単語の語義を説明する語義文とを記憶した語義辞書と、
文法規則を登録した文法辞書と、
個々の動詞について格フレームを記憶した格フレーム辞書と、
前記語義辞書から述語の見出し語と、この見出し語の語義を説明する語義文とを取得する取得手段と、
この取得手段により取得した語義文を前記文法辞書に登録された文法規則に基づいて構文解析する解析手段と、
この解析手段により構文解析された語義文のうち、複文の語義文から主節または単文の語義文を抽出する主節抽出手段と、
この主節抽出手段により抽出された主節または単文の語義文から名詞を抽出する名詞抽出手段と、
この名詞抽出手段により抽出された名詞の中から、形式名詞以外の名詞を選択する選択手段と、
前記格フレーム辞書に基づいて、前記選択手段により選択された名詞の中から、見出し語と組み合わせたときに文章として意味をなす名詞と、この名詞が含まれる語義文の見出し語とを対応づけて見出し語の語義毎に典型文データベースに登録する登録手段と
を備えることを特徴とするデータベース構築装置。
前記主節抽出手段により抽出された前記単文の語義文または前記主節に基づいて、当該単文の語義文または当該主節に対応する見出し語が説明文であるか否かを判定し、説明文である場合に当該単文の語義文または当該主節を削除する説明文削除手段をさらに備える
ことを特徴とする請求項１記載のデータベース構築装置。
前記説明文削除手段は、前記主節抽出手段により抽出された前記単文の語義文または前記主節に含まれる述語が抽象動詞または状況の意味を持つ名詞である場合に、当該単文の語義文または当該主節が説明文であると判定する
ことを特徴とする請求項２記載のデータベース構築装置。
単語およびこの単語の語義を説明する語義文を記憶した語義辞書と、文法規則を登録した文法辞書と、個々の動詞について格フレームを記憶した格フレーム辞書と、前記語義辞書から単語および語義文を取得する取得手段と、文を構文解析する解析手段と、文から主節を抽出する主節抽出手段と、文から名詞を抽出する名詞抽出手段と、選択手段と、単語を典型文データベースに登録する登録手段とを備えたデータベース構築装置を用いて前記典型文データベースを構築するデータベース構築方法であって、
前記取得手段が、前記語義辞書から述語の見出し語と、この見出し語の語義を説明する語義文とを取得する取得ステップと、
前記解析手段が、前記取得ステップにより取得した語義文を前記文法辞書に登録された文法規則に基づいて構文解析する解析ステップと、
前記主節抽出手段が、前記解析ステップにより構文解析された語義文のうち、複文の語義文から主節または単文の語義文を抽出する主節抽出ステップと、
前記名詞抽出手段が、前記主節抽出ステップにより抽出された主節または単文の語義文から名詞を抽出する名詞抽出ステップと、
前記選択手段が、前記名詞抽出ステップにより抽出された名詞の中から、形式名詞以外の名詞を選択する選択ステップと、
前記登録手段が、前記格フレーム辞書に基づいて、前記選択ステップにより選択された名詞の中から、見出し語と組み合わせたときに文章として意味をなす名詞と、この名詞が含まれる語義文の見出し語とを対応づけて見出し語の語義毎に典型文データベースに登録する登録ステップと
を有することを特徴とするデータベース構築方法。
コンピュータを、請求項１乃至３の何れか１項に記載のデータベース構築装置の各手段として機能させることを特徴とするデータベース構築プログラム。
請求項５記載のデータベース構築プログラムが記録されたコンピュータ読み取り可能な記録媒体。