JP2012022599A - 文構造解析装置、文構造解析方法および文構造解析プログラム - Google Patents

文構造解析装置、文構造解析方法および文構造解析プログラム Download PDF

Info

Publication number
JP2012022599A
JP2012022599A JP2010161464A JP2010161464A JP2012022599A JP 2012022599 A JP2012022599 A JP 2012022599A JP 2010161464 A JP2010161464 A JP 2010161464A JP 2010161464 A JP2010161464 A JP 2010161464A JP 2012022599 A JP2012022599 A JP 2012022599A
Authority
JP
Japan
Prior art keywords
dependency
clause
phrase
analysis
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010161464A
Other languages
English (en)
Other versions
JP5564705B2 (ja
Inventor
Osamu Konichi
修 今一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010161464A priority Critical patent/JP5564705B2/ja
Publication of JP2012022599A publication Critical patent/JP2012022599A/ja
Application granted granted Critical
Publication of JP5564705B2 publication Critical patent/JP5564705B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】述語項構造解析において、大規模かつ高精度な格フレーム辞書を利用することなく、モデルの複雑さを回避し、計算効率を高める文構造解析装置を提供する。
【解決手段】入力された文章を、形態素を単位とした単語に分割する形態素解析手段と、形態素解析手段によって分割された各単語を基に、複数の文節からなる文節列を生成する文節解析手段と、文節解析手段によって生成された各文節間の係り受け関係を解析する係り受け解析手段と、を備え、係り受け解析手段は、文節解析手段によって生成された文節列から、任意の異なる文節のペアを選択し、選択された文節ペアのそれぞれに対して係り受けスコアを計算してメモリに格納し、所定の閾値以上の係り受けスコアを持つ文節ペアに係り受け関係があると解析する。
【選択図】図1

Description

本発明は、文構造解析装置に関し、特に、文を構成する文節の係り受け関係を解析する技術に関する。
自然言語で書かれた文(テキスト)を理解するためには、文の構造を明らかにする必要がある。文の構造を解析する技術として、文の構成要素(文節)間の係り受け関係(修飾・被修飾の関係)を解析する係り受け解析技術が知られている。ここで、文節とは、1個以上の自立語(動詞や名詞など)と、自立語に続く0個以上の機能語(助詞や助動詞など)から構成される単語列である。例えば、「太郎が本を読んだ」という文の係り受けを解析すると、「太郎が」、「本を」、「読んだ」が文節として同定され、「太郎が」が「読んだ」に係り、「本を」が「読んだ」に係る、という係り受け関係が同定される。
係り受け解析においては、係り先の曖昧性を解消することが課題である。例えば、「昨日買った漱石の本を読んだ」という文では、「買った」が「漱石」に係るのか、又は、「本」に係るのかという、係り先の曖昧性がある。近年、このような係り先の曖昧性を解消する技術として、統計的係り受け解析が主流である(非特許文献1参照)。統計的係り受け解析とは、係り受け関係が付与された文から、機械学習手法によって係り受け関係の統計モデルを学習し、学習結果を用いて曖昧性を解消しながら係り受けを解析する手法である。
係り受け関係のうち、係り先が述語(動詞や動作性名詞など)である係り受け関係を、特に、述語項構造と呼ぶ。述語項構造を明らかにすることによって、文に含まれる4W1Hの情報(誰が、いつ、どこで、何を、どうした)を抽出することができる。そのため、情報検索や情報抽出などの自然言語処理では、高精度な述語項構造解析の必要性が高まっている。
しかしながら、日本語では、文脈から推定可能な構成要素が省略されることが多い。そのため、表層の係り受け関係を解析するだけでは、必要な係り受け関係の情報が欠落してしまう。表層の係り受け関係とは、文中に明示的に示される係り受け関係である。例えば、「鈴木は京都で生まれ、神戸で育った」という文の表層の係り受け関係を解析すると、「鈴木は」及び「京都で」が「生まれ」に係り、「神戸で」が「育った」に係る、という表層の係り受け関係が同定される。一方、この例では、「育った」のガ格の格要素である「鈴木が」が省略されている。ここで、省略された格要素をゼロ代名詞と呼び、ゼロ代名詞の指示対象(この例では「鈴木」)を先行詞と呼ぶ。そうすると、ゼロ代名詞の係り先となる述語(この例では「育った」)と、先行詞(この例では「鈴木」)との間に係り受け関係が存在している。このような係り受け関係を暗黙の係り受け関係という。従来、照応解析と呼ばれる方法によって、ゼロ代名詞の先行詞を同定することによって、この暗黙の係り受け関係を解析していた。
照応解析では、文の係り受けを解析した後、動詞の格フレーム辞書(ガ格、ヲ格などの動詞がとるべき格を列挙した辞書)を用いてゼロ代名詞を検出し、センタリング理論などの言語学的な知識を用いた手法(非特許文献2参照)、統計的手法(非特許文献3参照)又はこれらを組み合わせた手法(特許文献1参照)によって先行詞を検出する。
なお、ゼロ代名詞を検出するためには、大規模且つ高精度な格フレーム辞書が必要である。しかしながら、人手によるこのような格フレーム辞書の構築はコストを要する。また、大規模コーパスから自動的に格フレーム辞書を構築する手法(非特許文献4参照)が提案されているが、現状では精度が不十分である。
特開2005−025659号公報
工藤 拓、松本 裕治:チャンキングの段階適用による日本語係り受け解析、情報処理学会論文誌、Vol.43、No.6、pp.1834−1842、2002. Barbara J. Grosz, Aravind K. Joshi, Scott Weinstein:Centering: A Framework for Modeling the Local Coherence of Discourse,Computational Linguistics, Vol.21, No.2, 1995. 飯田 龍、乾 健太郎、松本 裕治:文脈的手がかりを考慮した機械学習による日本語ゼロ代名詞の先行詞同定、情報処理学会論文誌、Vol.45、No.3、pp.906−918、2004. 河原 大輔、黒橋 禎夫:格フレーム辞書の漸次的自動獲得、自然言語処理、Vol.12、No.2、pp.109−131、2005.
ところで、上記従来技術において、高精度な述語項構造解析を実現するためには、高精度な照応解析が必要であり、高精度な照応解析を実現するためには、大規模かつ高精度な格フレーム辞書が必要である。
しかしながら、上述したように、大規模かつ高精度な格フレーム辞書の構築には各種の課題がある。また、文の係り受けを解析した後に、照応解析を実行するという処理の流れは、モデルが複雑であり、計算効率も好ましくないという問題がある。
本発明は、上述した課題を考慮したものであって、述語項構造解析において、大規模かつ高精度な格フレーム辞書を利用することなく、モデルの複雑さを回避し、計算効率を高める文構造解析装置を提供することを目的とする。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリとを備え、入力された文章の構造を解析する文構造解析装置であって、入力された文章を、形態素を単位とした単語に分割する形態素解析手段と、前記形態素解析手段によって分割された各単語を基に、複数の文節からなる文節列を生成する文節解析手段と、前記文節解析手段によって生成された各文節間の係り受け関係を解析する係り受け解析手段と、を備え、前記係り受け解析手段は、前記文節解析手段によって生成された文節列から、任意の異なる文節のペアを選択し、選択された文節ペアのそれぞれに対して係り受けスコアを計算して前記メモリに格納し、所定の閾値以上の係り受けスコアを持つ文節ペアに係り受け関係があると解析することを特徴とする。
本発明によれば、述語項構造解析において、大規模かつ高精度な格フレーム辞書を利用することなく、モデルの複雑さを回避し、計算効率を高めることができる。
本発明の第1の実施形態の文構造解析装置の概略構成を示す図である。 本発明の第1の実施形態の形態素解析手段の処理結果の一例を示す図である。 本発明の第1の実施形態の統合係り受け解析手段の詳細構成を示す図である。 本発明におけるハードウェアとソフトウェアの協働を示すシーケンス図である。 従来の係り受け解析の複数文に対する処理結果の一例を示す図である。 本発明の第1の実施形態の統合係り受け解析手段の複数文に対する処理結果の一例を示す図である。 図5Aの例において同定される係り受け関係を説明する図である。 図5Bの例において同定される係り受け関係を説明する図である。 従来の係り受け解析の一文に対する処理結果の一例を示す図である。 本発明の第1の実施形態の統合係り受け解析手段の一文に対する処理結果の一例を示す図である。 図7Aの例において同定される係り受け関係を説明する図である。 図7Bの例において同定される係り受け関係を説明する図である。 本発明の第2の実施形態の統合係り受け解析手段の詳細構成を示す図である。 本発明の第2の実施形態の統合係り受け解析手段の複数文に対する処理結果の一例を示す図である。 図10の例において同定される係り受け関係を説明する図である。 本発明の第2の実施形態の統合係り受け解析手段の一文に対する処理結果の一例を示す図である。 図12の例において同定される係り受け関係を説明する図である。
以下、本発明の実施の形態について、図面を参照して説明する。
(第1の実施形態)
まず、本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態の文構造解析装置1の概略構成を示す図である。文構造解析装置1は、それぞれバス30で相互に接続されたメモリ装置11、演算処理装置12、インターフェース装置13、補助記憶装置14、入力装置15、出力装置16を備えるコンピュータ装置である。
メモリ装置11は、文構造解析装置1の起動時に補助記憶装置14に記憶された文構造解析プログラム20等のプログラムを読み出して記憶するRAM(Random Access Memory)等の記憶装置である。このメモリ装置11は、文構造解析プログラム20等の実行に必要なファイル、データ等も記憶する。演算処理装置12は、メモリ装置11に格納されたプログラムを実行するCPU(Central Processing Unit)等の演算処理装置である。インターフェース装置13は、外部ネットワーク等に接続するためのインターフェース装置である。補助記憶装置14は、文構造解析プログラム20やファイル、データ等を記憶するHDD等の記憶装置である。入力装置15は、ユーザインターフェースを提供する入力装置(例えばキーボード、マウス)である。出力装置16は、ユーザインターフェースを提供する出力装置(例えばディスプレイ)である。
文構造解析プログラム20は、解析要求入力手段(解析要求入力部)21、形態素解析手段(形態素解析部)22、文節解析手段(文節解析部)23、統合係り受け解析手段(統合係り受け解析部)24、解析結果表示手段(解析結果表示部)25を含む。
解析要求入力手段21は、利用者が入力装置15(キーボード等)を用いて入力した解析対象のテキストを入力する。入力されるテキストは一文であってもよいし、複数文であってもよい。
形態素解析手段22は、解析要求入力手段21によって入力されたテキストに対して、形態素解析を実行する。形態素解析とは、入力されたテキスト(文字列)を単語に区切り、品詞を付与する処理である。
図2は、本発明の第1の実施形態の形態素解析手段22の処理結果の一例を示す図である。図2では、入力されたテキストが「太郎が学校から帰ってきた。すぐに外出した。」である場合を例に、形態素解析手段22の処理結果を示す。形態素解析手段22が実行する形態素解析は、オープンソースで公開されている形態素解析システム茶イ(http://chasen.naist.jp/hiki/ChaSen/)等の既存の手法によって実現可能である。
図1に戻り、文節解析手段23は、形態素解析手段23によって単語に区切られたテキスト、すなわち単語列に基づいて、文節列を同定する。
例えば図2の例では、単語列(「太郎」、「が」、「学校」、「から」、「帰っ」、「て」、「き」、「た」、「すぐ」、「に」、「外出」、「し」、「た」)に基づいて、(「太郎が」、「学校から」、「帰ってきた」、「すぐに」、「外出した」)という文節列が同定される。文節解析手段23の処理結果として得られる文節列は、統合係り受け解析手段24に送られる。同様に、各文節を構成する単語の情報も統合係り受け解析手段24に送られる。文節解析手段23が実行する文節解析は、オープンソースで公開されているチャンキングプログラムYamCha(http://chasen.org/~taku/software/YamCha/)等の既存の手法によって実現可能である。
統合係り受け解析手段24は、文節解析手段23から受け取った文節列に基づいて、文節間の係り受け関係を同定する。この統合係り受け解析手段24は、従来の係り受け解析によって同定される係り受け関係(表層の係り受け関係)に加えて、ゼロ代名詞の係り先となる述語と先行詞の関係(暗黙の係り受け関係)を同定する。すなわち、表層の係り受け関係と暗黙の係り受け関係とを、統合的に解析する。
解析結果表示手段25は、統合係り受け解析手段24による解析結果を、出力装置16(ディスプレイ等)に表示するためのデータを生成する及び表示する。表示例については後述する。
図3は、本発明の第1の実施形態の統合係り受け解析手段24の詳細構成を示す図である。統合係り受け解析手段24は、文節ペア選択手段(文節ペア選択部)401、係り受けスコア計算手段(係り受けスコア計算部)402、係り受け関係選択手段(係り受け関係選択部)403を含む。
文節ペア選択手段401は、文節解析手段23から受け取った文節列から、任意の方法で文節ペアを選択する。例えば、文頭の文節番号を1、文末の文節番号をNとした場合、はじめに、1と2、次に1と3、・・・、1とN、続いて、2と3、・・・、2とN、・・・、N−1とN、の順に文節ペアを選択する。なお、このように文節例の前から順に文節ペアを選択してもよいが、文節列の後ろから順に文節ペアを選択してもよい。特に、文節列の後ろから順に文節ペアを選択する場合には、前から順に選択した場合に係り受け関係の存在する文節ペアのみ選択してもよい(例えば図6Bの例では、「本を」と「読んだ」の文節ペア)。
係り受けスコア計算手段402は、文節ペア選択手段401によって選択された文節ペアのそれぞれに対して、係り受けスコアを計算する。係り受けスコアとは、係り受け関係のもっともらしさ(尤度)を示す数値指標である。すなわち、文節ペア選択手段401は、サポートベクターマシーンや決定木等の機械学習手法の結果として得られる係り受け関係の統計モデルに基づいて、各文節ペアの係り受けスコアを計算する。統計モデルは、各文節の付随情報(文字列、品詞名等)や文節間の距離、文節間にある別の文節の付随情報等を素性として機械学習手法を適用することによって作成される。例えば、係り受け関係にある文節に対しては、その素性集合に対して「+1」という正例を示すラベル、係り受け関係にない文節間に対しては、その素性集合に対して「−1」という負例を示すラベルを付与したものを機械学習プログラムへ入力し統計モデルを作成する。ある文節ペアの係り受けスコアを計算する場合、その文節ペアがもっている素性集合を機会学習プログラムへ入力すると、係り受け関係に応じたスコア(スコアの値は使用する機械学習アルゴリズムによって異なる)が得られる。
係り受け関係選択手段403は、係り受けスコア計算手段402で計算された各文節ペアの係り受けスコアに基づいて、予め定められた閾値を超える係り受けスコアを持つ係り受け関係(文節ペア)を選択する。予め定められた閾値を超える係り受けスコアを持つ係り受け関係が複数存在する場合は、それらすべての係り受け関係を選択する。
以上の構成により、統合係り受け解析手段24は、文節解析手段23から受け取った文節列に基づいて、高い係り受けスコアを持つ係り受け関係を選択する。
図4は、本発明におけるハードウェアとソフトウェアの協働を示すシーケンス図である。利用者が入力装置15に入力した文字列は文構造解析プログラム20に送られる(T1)。文構造解析手段20に入力された文字列は、上述のとおり、解析要求入力手段10、形態素解析手段20、文節解析手段30で処理され、その結果得られる文節列が文節ペア選択手段401に送られる。文節ペア選択手段401で選択された各文節ペアに対して、係り受けスコア計算手段402は、係り受け統計モデル405を用いて係り受けスコアを計算する(T2)。この処理を文節ペア選択手段401で選択される文節がなくなるまで繰り返す(T3)。結果として得られたスコア付きの係り受けペアから係り受け関係選択手段403が係り受け関係を選択し、その結果を解析結果表示手段25が出力装置16の送り返す(T4)。
以下、統合係り受け解析手段24の処理の流れを従来の係り受け解析の処理の流れと比較しながら説明する。
図5Aは、従来の係り受け解析の複数文に対する処理結果の一例を示す図である。図5Bは、本発明の第1の実施形態の統合係り受け解析手段24の複数文に対する処理結果の一例を示す図である。図5A及び図5Bでは、複数文(この例では2文)に含まれる文節列(「太郎が」、「学校から」、「帰ってきた」、「すぐに」、「外出した」)に対する係り受け解析の処理結果を示す。
従来の係り受け解析(図5A)では、文節列(「太郎が」、「学校から」、「帰ってきた」)が与えられると、「太郎が」と「学校から」が「帰ってきた」に係る、という係り受け関係が同定される。その後、文節列(「すぐに」、「外出した」)が与えられると、「すぐに」が「外出した」に係る、という係り受け関係が同定される。すなわち、従来の係り受け解析では、一文単位で係り受け関係が同定される。また、従来の係り受け解析は、表層の係り受け関係のみを同定する。
これに対して、統合係り受け解析手段24(図5B)では、図3を用いて説明した処理を実行することによって、上述の係り受け関係に加えて、「太郎が」が「外出した」に係る、という係り受け関係が同定される。すなわち、統合係り受け解析手段24は、一文内に係り受け関係を限定することなく、複数文単位で係り受け関係を同定する。また、統合係り受け解析手段24は、表層の係り受け関係だけでなく、暗黙の係り受け関係、すなわちゼロ代名詞の係り先となる述語(この例では「外出した」)と先行詞(この例では「太郎が」)の係り受け関係を同定している。
図6Aは、図5Aの例において同定される係り受け関係を説明する図である。図6Bは、図5Bの例において同定される係り受け関係を説明する図である。図6A及び図6Bでは、係り元の文節(縦)と係り先の文節(横)との係り受け関係を、行列形式で可視化している。図6Bに示すようなテーブルが、解析結果表示手段25によって出力装置16(ディスプレイ等)に表示される。なお、表示態様は、図6に示すようなテーブルに限定されるものではない。
従来の係り受け解析では、図6Aに示すように、「太郎が」と「帰ってきた」、「学校から」と「帰ってきた」、「すぐに」と「外出した」、という3つの係り受け関係(図中○の部分)が同定される。
これに対して、統合係り受け解析手段24では、図6Bに示すように、上述の係り受け関係に加えて、「太郎が」と「外出した」という係り受け関係(図中◎の部分)が同定される。なお、図中◎の部分で示される係り受け関係は、従来であれば、係り受け解析の後に、格フレーム解析と照応解析を実行することによって同定可能な暗黙の係り受け関係である。言い換えると、統合係り受け解析手段24は、図3を用いて説明した処理を実行することによって、格フレーム解析及び照応解析を実行することなく、暗黙の係り受け関係を同定することができる。
図7Aは、従来の係り受け解析の一文に対する処理結果の一例を示す図である。図7Bは、本発明の第1の実施形態の統合係り受け解析手段24の一文に対する処理結果の一例を示す図である。図7A及び図7Bでは、一文に含まれる文節列(「私は」、「昨日」、「東京で」、「買った」、「本を」、「読んだ」)に対する処理結果を示す。
従来の係り受け解析(図7A)では、文節列(「私は」、「昨日」、「東京で」、「買った」、「本を」、「読んだ」)が与えられると、「私は」と「本を」が「読んだ」に係り、「昨日」と「東京で」が「買った」に係り、「買った」が「本を」に係る、という係り受け関係が同定される。すなわち、従来の係り受け解析では、一文単位で係り受け関係が同定される。また、従来の係り受け解析は、表層の係り受け関係のみを同定する。しかしながら、「買った」のガ格及びヲ格については同定されておらず、照応解析を実行することによって同定する必要がある。
これに対して、統合係り受け解析手段24(図7B)では、図3を用いて説明した処理を実行することによって、上述の係り受け関係に加えて、「私は」が「買った」に係り、「本を」が「買った」に係る、という係り受け関係が同定される。すなわち、統合係り受け解析手段24は、一文内の係り受け関係においても、表層の係り受け関係だけでなく、暗黙の係り受け関係、すなわちゼロ代名詞の係り先となる述語(この例では「買った」)と先行詞(この例では、「私は」、「本を」)の係り受け関係を同定している。
図8Aは、図7Aの例において同定される係り受け関係を説明する図である。図8Bは、図7Bの例において同定される係り受け関係を説明する図である。図8A及び図8Bでは、係り元の文節(縦)と係り先の文節(横)との係り受け関係を、行列形式で可視化している。図8Bに示すようなテーブルが、解析結果表示手段25によって出力装置16(ディスプレイ等)に表示される。なお、表示態様は、図8に示すようなテーブルに限定されるものではない。
従来の係り受け解析では、図8Aに示すように、「私は」と「読んだ」、「昨日」と「買った」、「東京で」と「買った」、「買った」と「本を」、「本を」と「読んだ」、という5つの係り受け関係(図中○の部分)が同定される。
これに対して、統合係り受け解析手段24では、図8Bに示すように、上述の係り受け関係に加えて、「私は」と「買った」、「本を」と「買った」という係り受け関係(図中◎の部分)が同定される。なお、図中◎の部分で示される係り受け関係は、従来であれば、係り受け解析の後に、格フレーム解析と照応解析を実行することによって同定可能な暗黙の係り受け関係である。言い換えると、統合係り受け解析手段24は、図3を用いて説明した処理を実行することによって、格フレーム解析及び照応解析を実行することなく、暗黙の係り受け関係を同定することができる。
従来の係り受け解析においては、前述のように、統計的係り受け解析が主流である(非特許文献1参照)。統計的係り受け解析とは、係り受け関係が付与されたテキストから、機械学習手法によって係り受け関係の統計モデルを学習し、学習結果を用いて曖昧性を解消しながら係り受けを解析する手法である。代表的な機械学習手法には、サポートベクターマシーンや決定木などが挙げられる。図5Aに示す例では、「太郎が」の係り先候補として、「学校から」と「帰ってきた」があるが、統計モデルによる判定によって、それぞれの係り受け関係(「太郎が」と「学校から」、「太郎が」と「帰ってきた」)のもっともらしさ(係り受けスコア)を計算する。その後、もっともらしさの大きい係り受け関係を選択する。統計モデルは、「太郎が」や「学校から」が有する様々な情報(文字列、品詞名、助詞の種類、文節間の距離など)を素性として、機械学習手法を適用することによって作成することができる。
統合係り受け解析手段24による統合係り受け解析においては、従来の係り受け解析と同様に、係り受け関係が付与されたテキストから、機械学習手法によって係り受け関係の統計モデルを学習し、学習結果を用いて曖昧性を解消しながら係り受けを解析する。従来の係り受け解析との相違点は、以下の通りである。すなわち、テキストに付与される係り受け関係は、暗黙の係り受け関係を含む。従来の係り受け解析では、係り先に曖昧性が存在する場合、最ももっともらしい(係り受けスコアの高い)係り先を選択する。また、考慮される係り受け関係は、一文内の係り受け関係のみである。一方、統合係り受け解析手段24による係り受け解析では、考慮される係り受け関係は、一文内の係り受け関係に限定されず、複数文内の係り受け関係である。また、選択する係り先は一つに限定しないで、もっともらしい係り先を複数選択する。なお、複数の係り先を選択する場合、以下のようにして選択することができる。すなわち、まず、サポートベクターマシーンや決定木などの機械学習手法によって構築された係り受け関係の統計モデルに基づいて、解析対象の係り受け関係の各々について係り受けスコアを計算する。その後、係り受けスコアが所定の閾値以上の係り受け関係を選択する、又は、係り受けスコアが最も高い係り受け関係との差異が、所定の範囲内(絶対値又は相対値など)である係り受け関係を選択する。
以上説明してきた本発明の第1の実施形態によれば、述語項構造解析において、大規模かつ高精度な格フレーム辞書を利用することなく、述語項構造における情報の欠落を効率的に補完しながら、述語項構造を同定している。そのため、モデルの複雑さを回避し、計算効率を高めることができる。また、高精度な情報検索や情報抽出を実現することが可能となる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。
図9は、本発明の第2の実施形態の統合係り受け解析手段24の詳細構成を示す図である。統合係り受け解析手段24は、文節ペア選択手段(文節ペア選択部)401、係り受けスコア計算手段(係り受けスコア計算部)402、係り受け関係選択手段(係り受け関係選択部)403、先行詞生成手段(先行詞生成部)404を含む。図9において、図3と同一の構成要素には同一の符号を付して重複する説明を適宜省略する。
先行詞生成手段404は、文節解析手段23から受け取った文節列に含まれる各文節について、当該文節がゼロ代名詞の先行詞になりやすいか否かを判定し、判定結果に応じて先行詞を生成する。
具体的には先行詞生成手段404は、まず各文節について、ゼロ代名詞の先行詞へのなりやすさの度合いを計算する。ゼロ代名詞の先行詞へのなりやすさの度合いは、ゼロ代名詞の先行詞となっている文節に対して、その情報が付与されたテキストから、サポートベクターマシーンや決定木などの機械学習手法によって先行詞生成の統計モデルを学習し、学習結果を用いて計算される。ゼロ代名詞の先行詞になりやすいほど、当該度合いは大きい値となる。その後、計算されたゼロ代名詞の先行詞へのなりやすさの度合いが所定の閾値を超えた場合、当該文節に基づいて先行詞を生成する。生成された先行詞は、文節解析手段23から受け取った文節列に含まれる他の各文節と共に、文節ペア選択手段401に送信される。
以上の構成により、統合係り受け解析手段24は、先行詞生成手段403によって生成された先行詞と文節解析手段23から受け取った文節列とに基づいて、高い係り受けスコアを持つ係り受け関係を選択する。
図10は、本発明の第2の実施形態の統合係り受け解析手段24の複数文に対する処理結果の一例を示す図である。図10では、複数文(この例では2文)に含まれる文節列(「太郎が」、「学校から」、「帰ってきた」、「すぐに」、「外出した」)に対する処理結果を示す。
図10に示す例では、先行詞生成手段404は、図9を用いて説明した処理を実行することによって、文節「太郎が」が先行詞になりやすいと判定し、先行詞「太郎は」を生成する。生成された先行詞「太郎は」は、文節列に含まれる他の各文節(「太郎が」、「学校から」、「帰ってきた」、「すぐに」、「外出した」)と共に、文節ペア選択手段401に送信される。
文節ペア選択手段401及び文節係り受けスコア計算手段402は、前述の第1の実施形態(図3参照)と同様に機能する。一方、係り受け関係選択手段403は、前述の第1の実施形態と異なり、一つの係り受け関係を選択する。例えば、最も高い係り受けスコアを持つ係り受け関係を選択する。これにより、従来の係り受け解析手法で用いられる効率の良いアルゴリズムを利用することが可能となる。
図11は、図10の例において同定される係り受け関係を示す図である。図11では、係り元の文節(縦)と係り先の文節(横)との係り受け関係を、行列形式で可視化している。図11に示すようなテーブルが、解析結果表示手段25によって出力装置16(ディスプレイ等)に表示される。なお、表示態様は、図11に示すようなテーブルに限定されるものではない。図11において、下線付きの文字で示される「太郎は」は、先行詞生成手段404によって生成された先行詞である。
統合係り受け解析手段24では、図11に示すように、係り元の文節(縦)の各々について、高々1つの係り先の文節(横)との係り受け関係(図中○、◎の部分)が同定している。
図12は、本発明の第2の実施形態の統合係り受け解析手段24の一文に対する処理結果の一例を示す図である。図12では、一文に含まれる文節列(「私は」、「昨日」、「東京で」、「買った」、「本を」、「読んだ」)に対する処理結果を示す。
図12に示す例では、先行詞生成手段404は、図9を用いて説明した処理を実行することによって、文節(「私は」、「本を」)が先行詞になりやすいと判定し、先行詞(「私が」、「本を」)を生成する。生成された先行詞(「私が」、「本を」)は、文節列に含まれる他の各文節(「私は」、「昨日」、「東京で」、「買った」、「本を」、「読んだ」)と共に、文節ペア選択手段401に送信される。
文節ペア選択手段401及び文節係り受けスコア計算手段402は、前述の第1の実施形態(図3参照)と同様に機能する。一方、係り受け関係選択手段403は、前述の第1の実施形態と異なり、各々の先行詞について一つの係り受け関係(「私が」については「私が」と「買った」、「本を」については、「本を」と「買った」)を選択する。例えば、最も高い係り受けスコアを持つ係り受け関係を選択する。
図13は、図12の例において同定される係り受け関係を示す図である。図13では、係り元の文節(縦)と係り先の文節(横)との係り受け関係を、行列形式で可視化している。図13において、下線付きの文字で示される「私が」及び「本を」は、先行詞生成手段404によって生成された先行詞である。
統合係り受け解析手段24は、図13に示すように、係り元の文節(縦)の各々について、高々1つの係り先の文節(横)との係り受け関係(図中○、◎の部分)を同定している。
以上説明してきた本発明の第2の実施形態によれば、述語項構造解析において、大規模かつ高精度な格フレーム辞書を利用することなく、述語項構造における情報の欠落を効率的に補完しながら、述語項構造を同定している。そのため、モデルの複雑さを回避し、計算効率を高めることができる。また、高精度な情報検索や情報抽出を実現することが可能となる。
以上、本発明の各実施形態について説明したが、上記各実施形態は本発明の適用例の一つを示したものであり、本発明の技術的範囲を上記各実施形態の具体的構成に限定する趣旨ではない。本発明の要旨を逸脱しない範囲において種々変更可能である。
21 解析要求入力手段
22 形態素解析手段
23 文節解析手段
24 統合係り受け解析手段
25 解析結果表示手段
401 文節ペア選択手段
402 係り受けスコア計算手段
403 係り受け関係選択手段
404 先行詞生成手段
405 係り受け統計モデル

Claims (8)

  1. プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリとを備え、入力された文章の構造を解析する文構造解析装置であって、
    入力された文章を、形態素を単位とした単語に分割する形態素解析手段と、
    前記形態素解析手段によって分割された各単語を基に、複数の文節からなる文節列を生成する文節解析手段と、
    前記文節解析手段によって生成された各文節間の係り受け関係を解析する係り受け解析手段と、を備え、
    前記係り受け解析手段は、前記文節解析手段によって生成された文節列から、任意の異なる文節のペアを選択し、
    選択された文節ペアのそれぞれに対して係り受けスコアを計算して前記メモリに格納し、
    所定の閾値以上の係り受けスコアを持つ文節ペアに係り受け関係があると解析することを特徴とする文構造解析装置。
  2. 前記係り受け解析手段は、前記文節解析手段によって生成された文節列から、第1文節、及び、前記第1文節よりも後に位置する第2文節からなる文節のペアを選択し、
    選択された前記第1文節を係り元、前記第2文節を係り先とした場合の係り受けスコアを計算し、
    計算された係り受けスコアが所定の閾値以上である場合、前記第1文節を係り元、前記第2文節を係り先とする係り受け関係があると解析することを特徴とする請求項1に記載の文構造解析装置。
  3. 前記係り受け解析手段は、前記文節解析手段によって生成された文節列から、第1文節、及び、前記第1文節よりも前に位置する第2文節からなる文節のペアを選択し、
    選択された前記第1文節を係り先、前記第2文節を係り元とする係り受け関係が存在する場合、当該文節ペアに対して係り受けスコアを計算し、
    計算された係り受けスコアが所定の閾値以上である場合、前記第1文節を係り元、前記第2文節を係り先とする係り受け関係があると解析することを特徴とする請求項1に記載の文構造解析装置。
  4. 前記係り受け解析手段は、前記文節解析手段によって生成された文節列に基づいて、係り受け関係の統計モデルを生成し、生成された前記統計モデルに基づいて、前記選択された文節ペアの係り受けスコアを計算することを特徴とする請求項1に記載の文構造解析装置。
  5. 前記係り受け解析手段は、前記文節解析手段によって生成された文節列から、ゼロ代名詞の先行詞を生成する先行詞生成手段を含み、
    前記係り受け解析手段は、前記先行詞生成手段によって生成されたゼロ代名詞の先行詞と、前記文節解析手段によって生成された文節列に含まれる各文節とのペアを選択し、
    選択された文節ペアのそれぞれに対して係り受けスコアを計算し、
    最も高い係り受けスコアを持つ文節ペアに係り受け関係があると解析することを特徴とする請求項1に記載の文構造解析装置。
  6. 前記先行詞生成手段は、前記文節解析手段によって生成された文節列に基づいて、先行詞生成のための統計モデルを生成し、生成された前記統計モデルに基づいて、各文節の先行詞へのなりやすさの度合いを算出し、最も高い先行詞へのなりやすさの度合いを持つ文節を先行詞とすることを特徴とする請求項5に記載の文構造解析装置。
  7. プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリとを備えた文構造解析装置において、入力された文章の構造を解析する文構造解析方法であって、
    前記プロセッサが、
    入力された文章を、形態素を単位とした単語に分割する手順と、
    前記分割する手順によって分割された各単語を基に、複数の文節からなる文節列を生成する手順と、
    前記文節列を生成する手順によって生成された各文節間の係り受け関係を解析する手順と、を含み、
    前記係り受け関係を解析する手順において、前記プロセッサは、前記文節列を生成する手順によって生成された文節列から、任意の異なる文節のペアを選択し、
    選択された文節ペアのそれぞれに対して係り受けスコアを計算して前記メモリに格納し、
    所定の閾値以上の係り受けスコアを持つ文節ペアに係り受け関係があると解析することを特徴とする文構造解析方法。
  8. プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリとを備えた文構造解析装置において用いられ、入力された文章の構造を解析する文構造解析プログラムであって、
    入力された文章を、形態素を単位とした単語に分割する手順と、
    前記分割する手順によって分割された各単語を基に、複数の文節からなる文節列を生成する手順と、
    前記文節列を生成する手順によって生成された文節列から、任意の異なる文節のペアを選択する手順と、
    前記選択する手順によって選択された文節ペアのそれぞれに対して係り受けスコアを計算して前記メモリに格納する手順と、
    所定の閾値以上の係り受けスコアを持つ文節ペアに係り受け関係があると解析する手順と、
    を前記プロセッサに実行させることを特徴とする文構造解析プログラム。
JP2010161464A 2010-07-16 2010-07-16 文構造解析装置、文構造解析方法および文構造解析プログラム Active JP5564705B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010161464A JP5564705B2 (ja) 2010-07-16 2010-07-16 文構造解析装置、文構造解析方法および文構造解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010161464A JP5564705B2 (ja) 2010-07-16 2010-07-16 文構造解析装置、文構造解析方法および文構造解析プログラム

Publications (2)

Publication Number Publication Date
JP2012022599A true JP2012022599A (ja) 2012-02-02
JP5564705B2 JP5564705B2 (ja) 2014-08-06

Family

ID=45776823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010161464A Active JP5564705B2 (ja) 2010-07-16 2010-07-16 文構造解析装置、文構造解析方法および文構造解析プログラム

Country Status (1)

Country Link
JP (1) JP5564705B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014215920A (ja) * 2013-04-26 2014-11-17 日本電信電話株式会社 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム
JP2014238690A (ja) * 2013-06-07 2014-12-18 コニカミノルタ株式会社 操作支援プログラム及び操作支援方法並びに情報処理装置
JP2016057810A (ja) * 2014-09-09 2016-04-21 日本電信電話株式会社 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
US9436676B1 (en) 2014-11-25 2016-09-06 Truthful Speaking, Inc. Written word refinement system and method
CN110032726A (zh) * 2018-01-09 2019-07-19 尤菊芳 用于改进句子图表构造和分析的系统和方法
JP2020501230A (ja) * 2016-11-03 2020-01-16 セールスフォース ドット コム インコーポレイティッド 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル
US10740562B2 (en) 2016-07-19 2020-08-11 Fujitsu Limited Search apparatus, encoding method, and search method based on morpheme position in a target document

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007226636A (ja) * 2006-02-24 2007-09-06 Advanced Telecommunication Research Institute International 係り受け構造解析装置及びコンピュータプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007226636A (ja) * 2006-02-24 2007-09-06 Advanced Telecommunication Research Institute International 係り受け構造解析装置及びコンピュータプログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG199800302006; 山本 幹雄,小林 聡,中川 聖一: '音声対話文における助詞落ち・倒置の分析と解析手法' 情報処理学会論文誌 第33巻 第11号 第33巻第11号ISSN】0387-5806, 19921115, 1322-1330, 社団法人情報処理学会 *
CSNG200100240019; 春野 雅彦: '機械学習の手法による自然言語処理' 情報処理学会研究報告 Vol.99 No.108 第99巻第108号【ISSN】0919-6072, 19991221, p.133-p.138, 社団法人情報処理学会 *
CSNG200900465005; 西尾 公秀,村上 春佳,松田 源立,原田 実: '意味解析に基づく照応解析システムANASYS' 情報処理学会研究報告 平成21年度▲1▼ [CD-ROM] 【ISSN】1884-0930, 20090615, p.1-p.8, 社団法人情報処理学会 *
JPN6013054644; 春野 雅彦: '機械学習の手法による自然言語処理' 情報処理学会研究報告 Vol.99 No.108 第99巻第108号【ISSN】0919-6072, 19991221, p.133-p.138, 社団法人情報処理学会 *
JPN6013054648; 山本 幹雄,小林 聡,中川 聖一: '音声対話文における助詞落ち・倒置の分析と解析手法' 情報処理学会論文誌 第33巻 第11号 第33巻第11号ISSN】0387-5806, 19921115, 1322-1330, 社団法人情報処理学会 *
JPN6013054651; 西尾 公秀,村上 春佳,松田 源立,原田 実: '意味解析に基づく照応解析システムANASYS' 情報処理学会研究報告 平成21年度▲1▼ [CD-ROM] 【ISSN】1884-0930, 20090615, p.1-p.8, 社団法人情報処理学会 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014215920A (ja) * 2013-04-26 2014-11-17 日本電信電話株式会社 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム
JP2014238690A (ja) * 2013-06-07 2014-12-18 コニカミノルタ株式会社 操作支援プログラム及び操作支援方法並びに情報処理装置
JP2016057810A (ja) * 2014-09-09 2016-04-21 日本電信電話株式会社 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
US9436676B1 (en) 2014-11-25 2016-09-06 Truthful Speaking, Inc. Written word refinement system and method
US10740562B2 (en) 2016-07-19 2020-08-11 Fujitsu Limited Search apparatus, encoding method, and search method based on morpheme position in a target document
JP2020501230A (ja) * 2016-11-03 2020-01-16 セールスフォース ドット コム インコーポレイティッド 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル
US11222253B2 (en) 2016-11-03 2022-01-11 Salesforce.Com, Inc. Deep neural network model for processing data through multiple linguistic task hierarchies
JP7068296B2 (ja) 2016-11-03 2022-05-16 セールスフォース ドット コム インコーポレイティッド 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル
US11797825B2 (en) 2016-11-03 2023-10-24 Salesforce, Inc. Training a joint many-task neural network model using successive regularization
CN110032726A (zh) * 2018-01-09 2019-07-19 尤菊芳 用于改进句子图表构造和分析的系统和方法
CN110032726B (zh) * 2018-01-09 2023-11-03 尤菊芳 用于改进句子图表构造和分析的系统和方法

Also Published As

Publication number Publication date
JP5564705B2 (ja) 2014-08-06

Similar Documents

Publication Publication Date Title
Pianta et al. The TextPro Tool Suite.
Rashel et al. Building an Indonesian rule-based part-of-speech tagger
JP5564705B2 (ja) 文構造解析装置、文構造解析方法および文構造解析プログラム
Mohtaj et al. Parsivar: A language processing toolkit for Persian
Garcia et al. Yet another suite of multilingual NLP tools
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
Sibarani et al. A study of parsing process on natural language processing in bahasa Indonesia
Wintner Morphological processing of semitic languages
Tehseen et al. Neural POS tagging of shahmukhi by using contextualized word representations
JP2009181408A (ja) 単語意味付与装置、単語意味付与方法、プログラムおよび記録媒体
Kammoun et al. The MORPH2 new version: A robust morphological analyzer for Arabic texts
JP5291351B2 (ja) 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム
Koleva et al. An automatic part-of-speech tagger for Middle Low German
Ibrahim et al. Bel-Arabi: advanced Arabic grammar analyzer
Khoufi et al. Statistical-based system for morphological annotation of Arabic texts
KR102182248B1 (ko) 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램
Elsheikh Timeline of the development of Arabic PoS taggers and Morphological analysers
Ihsan et al. A Corpus-based Study of Reporting Verbs in Citation Texts Using Natural Language Processing
Rajendran Parsing in tamil: Present state of art
Mutuvi et al. Multilingual epidemic event extraction
Teodorescu et al. Part of speech tagging for romanian text-to-speech system
JP6298785B2 (ja) 自然言語解析装置、方法、及びプログラム
Boroş et al. RACAI GEC–a hybrid approach to grammatical error correction
Dione Finite-state tokenization for a deep Wolof LFG grammar

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120316

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140527

R150 Certificate of patent or registration of utility model

Ref document number: 5564705

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150