JP6298785B2 - 自然言語解析装置、方法、及びプログラム - Google Patents

自然言語解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP6298785B2
JP6298785B2 JP2015041680A JP2015041680A JP6298785B2 JP 6298785 B2 JP6298785 B2 JP 6298785B2 JP 2015041680 A JP2015041680 A JP 2015041680A JP 2015041680 A JP2015041680 A JP 2015041680A JP 6298785 B2 JP6298785 B2 JP 6298785B2
Authority
JP
Japan
Prior art keywords
chunk
analysis
unit
analysis unit
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015041680A
Other languages
English (en)
Other versions
JP2016162308A (ja
Inventor
貴秋 田中
貴秋 田中
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015041680A priority Critical patent/JP6298785B2/ja
Publication of JP2016162308A publication Critical patent/JP2016162308A/ja
Application granted granted Critical
Publication of JP6298785B2 publication Critical patent/JP6298785B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自然言語解析装置、方法、プログラムに係り、特に、入力されたテキストに対して依存構造解析を行う自然言語解析装置、方法、プログラムに関する。
従来、自然言語処理においては、対象とする自然言語に対して、文の構造を同定する構文解析が行われている。日本語においては、構文構造を文節間の依存関係として定義する文節係り受け解析が、標準的に行われている(非特許文献1)。
また、英語等の言語では、空白で区切られた字句を単語として、単語間に統語情報を表示する依存関係ラベル付きの依存構造を定義して構文解析をすることが行われている(非特許文献2)。
Taku Kudo and Yuji Matsumoto: Japanese dependency analysis using cascaded chunking, In Proc.of CoNLL 2002, Vol. 20, pp. 1−7 (2002). Marie-Catherine de Marneffe and Christopher D. Manning: The Stanford typed dependencies representation, In Proc. of COLING 2008 Workshop on Cross-framework and Cross-domain Parser Evaluation (2008).
しかし、上記非特許文献1の技術においては、文節という単位は統語的な機能を持つ単位と必ずしも一致しないため、文節間に統語情報を表示するためのラベル(依存関係ラベル)を定義するのが難しく、依存関係ラベル付きの依存構造を解析することは行われていない。
また、自然言語処理のタスクでは、構文解析結果として、詳細な統語情報を必要とする場合がある。例えば、日本語と英語のように語順の全く異なる言語間で統計翻訳を行う際には、原言語の語順をあらかじめ目的言語の語順に近いように並べ替える「事前並べ替え」を行うことが翻訳精度の向上に効果があることが分かっているが、事前並べ替えを行うには、原言語の詳細な統語情報が必要になる。
日本語を原言語、英語を目的言語とする場合、原言語に対して、従来の文節係り受け解析による構文解析では、述語と項の格関係等のような並べ替えに必要となる情報が不足するという問題がある(非特許文献3:Sho Hoshino et al.: Two-stage pre-ordering for Japanese-to-English statistical machine translation, In Proc. of IJCNLP 2013, pp.1062−1066 (2013).)。
また、構文構造を単語間の依存関係とする単語間の依存構造解析であれば、統語機能を表示するラベルを定義しやすいが、構文解析に使用する単位が文節に比較して短くなるため、複数の単語の結合による単位によって、単語単独とは異なる統語機能を持つ場合や、単語単独とは異なる意味(意味クラス)を持つ場合に、これらの特徴を適切に捉えて、構文解析を行うことが困難であるという問題がある。
例えば、「に/対し/て」のように、複数の単語の結合単位が一つの機能語のように振る舞う場合や、「国際/連合/児童/基金」のように全体として「組織」を表す固有表現を表す場合などである。
また、英語等で行われている単語間に依存関係を定義する依存構造解析においても、空白で区切られた単位を、単語をして扱っているため、“in spite of”のような群前置詞や“New York Times”のような固有表現のように、複数の単語から構成される単位について同様な問題が生じるという問題がある。
本発明では、上記問題点を解決するために成されたものであり、複数の粒度のチャンクを考慮して依存構造解析を行う自然言語解析装置、方法、プログラムを提供することを目的とする。
上記目的を達成するために、第1の発明の自然言語解析装置は、入力されたテキストについての、複数の粒度で1つ以上の単語を統合した単語の固まりである複数種類のチャンクの各々に対応する解析結果に基づいて、予め依存構造解析単位として定義された粒度で統合した解析単位チャンクに関する素性を抽出し、前記解析単位チャンクとの関係で表現される、前記解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性を抽出する素性抽出部と、前記素性抽出部により抽出された前記解析単位チャンクに関する素性と、前記解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性と、依存関係を表すラベルを付与するための予め定められた依存構造解析モデルとに基づいて、前記テキストの前記解析単位チャンク間の各々に、依存関係を表すラベルを付与する動作決定部と、を含んで構成されている。
第2の発明の自然言語解析方法は、素性抽出部と、動作決定部とを含む自然言語解析装置における、自然言語解析方法であって、前記素性抽出部は、入力されたテキストについての、複数の粒度で1つ以上の単語を統合した単語の固まりである複数種類のチャンクの各々に対応する解析結果に基づいて、予め依存構造解析単位として定義された解析単位チャンクに関する素性を抽出し、前記解析単位チャンクとの関係で表現される、前記解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性を抽出し、前記動作決定部は、前記素性抽出部により抽出された前記解析単位チャンクに関する素性と、前記解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性と、依存関係を表すラベルを付与するための予め定められた依存構造解析モデルとに基づいて、前記テキストの前記解析単位チャンク間の各々に、依存関係を表すラベルを付与する。
第1及び第2の発明によれば、素性抽出部により、入力されたテキストについての、複数の粒度で1つ以上の単語を統合した単語の固まりである複数種類のチャンクの各々に対応する解析結果に基づいて、予め依存構造解析単位として定義された解析単位チャンクに関する素性を抽出し、解析単位チャンクとの関係で表現される、解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性を抽出し、動作決定部により、抽出された解析単位チャンクに関する素性と、解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性と、依存関係を表すラベルを付与するための予め定められた依存構造解析モデルとに基づいて、テキストの解析単位チャンク間の各々に、依存関係を表すラベルを付与する。
このように、入力されたテキストについての、複数の粒度で1つ以上の単語を統合した単語の固まりである複数種類のチャンクの各々に対応する解析結果に基づいて、予め依存構造解析単位として定義された解析単位チャンクに関する素性を抽出し、解析単位チャンクで統合したチャンクとの関係で表現される、解析チャンクとは異なる粒度で統合されたチャンクに関する素性を抽出し、抽出された解析チャンクに関する素性と、解析チャンクとは異なる粒度で統合されたチャンクに関する素性と、依存関係を表すラベルを付与するための予め定められた依存構造解析モデルとに基づいて、テキストの解析チャンク間の各々に、依存関係を表すラベルを付与することにより、複数の粒度のチャンクを考慮して依存構造解析を行うことができる。
また、第1の発明において、前記複数種類のチャンクは、短単位、長単位、単名詞句、又は文節を含んでもよい。
また、第1の発明において、前記解析単位チャンクは、前記文節よりも短く、かつ、前記単語よりも長い粒度で統合されたチャンクとしてもよい。
また、第1の発明において、前記解析単位チャンクは、長単位であってもよい。
また、本発明のプログラムは、コンピュータを、上記の自然言語解析装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の自然言語解析装置、方法、及びプログラムによれば、入力されたテキストについての、複数の粒度で1つ以上の単語を統合した単語の固まりである複数種類のチャンクの各々に対応する解析結果に基づいて、予め依存構造解析単位として定義された解析単位チャンクに関する素性を抽出し、解析単位チャンクで統合したチャンクとの関係で表現される、解析チャンクとは異なる粒度で統合されたチャンクに関する素性を抽出し、抽出された解析チャンクに関する素性と、解析チャンクとは異なる粒度で統合されたチャンクに関する素性と、依存関係を表すラベルを付与するための予め定められた依存構造解析モデルとに基づいて、テキストの解析チャンク間の各々に、依存関係を表すラベルを付与することにより、複数の粒度のチャンクを考慮して依存構造解析を行うことができる。
本実施形態に係る自然言語解析装置の機能的構成を示すブロック図である。 BCCWJ規定の短単位を単語単位として形態素解析を行った例を示す図である。 チャンク解析として長単位、単名詞句、文節の単位を同定する解析を行った例を示す図である。 単語属性関数の例を示す図である。 素性テンプレートの例を示す図である。 ノード参照関数の例を示す図である。 解析器動作の例を示す図である。 抽出した素性の例を示す図である。 依存構造解析結果の例を示す図である。 抽出した素性の例を示す図である。 本実施形態に係る自然言語解析装置における自然言語解析処理ルーチンのフローチャート図である。 本実施形態に係る自然言語解析装置における依存構造解析処理のフローチャート図である。
以下、図面を参照して本発明の実施形態を詳細に説明する。
<本実施形態に係る自然言語解析装置の原理>
まず、本実施形態に係る自然言語解析装置の原理について説明する。本実施形態に係る自然言語解析装置は、ある特定の定義に従って、1語以上の単語を統合した単語の固まり(以後、チャンクとする)を定義し、該当するチャンクを単位として依存関係を求める構文解析を行う際に、構文解析器の素性として、「依存構造解析単位として定義されたチャンク」(依存構造解析単位)の情報のみではなく、複数の異なる定義からなるチャンクの情報を統合して利用し、解析単位チャンク間の依存関係を求める構文解析を行う。
これにより、解析器の素性として情報を利用したいチャンクを、依存構造解析単位として定義した解析単位チャンクに限定されず、柔軟に決定して素性設計を行うことができる。このように定めた依存構造解析単位間の依存構造に、依存関係のラベルを定義することにより、統計翻訳等で利用可能な、統語情報を表す依存関係ラベルを出力する依存構造解析を行うことができる。
なお、本実施形態においては、複数種類のチャンクを、単語の最小単位であるBCCWJ規定の短単位(非特許文献4:小椋秀樹, 小磯花絵, 冨士池優美他:『現代日本語書き言葉均衡コーパス』形態論情報規程(上), pp.3−8,人間文化研究機構国立国語研究所(2011).)、BCCWJ規定で規定している長単位(非特許文献4)、単名詞句、及び文節とする。また、本実施形態においては、依存構造解析単位として長単位のチャンクを用いる。依存構造解析結果は、長単位間の依存関係で表される一方で、後述する単語属性関数を用いることにより、長単位内部の短単位、単名詞句、及び文節などの他のチャンクの情報も解析のための素性として利用することができる。また、本実施形態においては、長単位を解析単位チャンクとする。また、上記の複数種類のチャンクは、異なる粒度で1つ以上の単語を統合した単語の固まりである。
<本実施形態に係る自然言語解析装置の構成>
次に、本実施形態に係る自然言語解析装置の構成について説明する。図1に示すように、本実施形態に係る自然言語解析装置100は、CPUと、RAMと、後述する自然言語解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この自然言語解析装置は、機能的には図1に示すように入力部10と、演算部20と、出力部90とを含んで構成されている。
入力部10は、自然言語からなる入力テキストを受け付ける。なお、本実施形態においては、入力テキスト「国土交通省が、西急電鉄に対する鉄道軌道整備法による助成についても柔軟に対応する」を受け付ける。
演算部20は、形態素解析部22と、チャンク解析モデル記憶部24と、チャンク解析部30と、依存構造解析部40と、依存構造解析モデル記憶部50と、素性テンプレート記憶部52と、を含んで構成されている。
形態素解析部22は、入力部10において受け付けた入力テキストについて形態素解析を行い、形態素解析結果をチャンク解析部30に出力する。本実施形態においては、形態素解析を行うことにより、解析単位チャンクとは異なる粒度で統合されたチャンクとして、短単位を取得する。図2に、BCCWJ規定の短単位を単語単位として形態素解析を行った例を示す。図2の各行は、分割した単語単位(短単位)を表し、「短単位(♯s)」の欄は、単語の先頭から順に付与した番号、「出現形(s_Form)」の欄は、文中で現れた形(BCCWJ規定では、書字形にあたる)、「標準形(s_Lemma)」の欄は、活用語の場合の基本形(BCCWJ規定では、語彙素にあたる)、「品詞(s_POS)」の欄は、短単位の品詞情報を表している。
チャンク解析モデル記憶部24には、長短位解析を行うための長短位解析モデル、単名詞句解析を行うための単名詞句解析モデル、及び文節解析を行うための文節解析モデルが記憶されている。なお、本実施形態においては、長単位解析モデル、単名詞句解析モデル、及び文節解析モデルを合わせてチャンク解析モデルとする。
チャンク解析部30は、形態素解析部22から入力される、形態素解析結果と、チャンク解析モデル記憶部24に記憶されているチャンク解析モデルとに基づいて、形態素解析結果から、短単位列を統合して、解析単位チャンクである長単位と、解析単位チャンクとは異なる粒度で統合されたチャンクである単名詞句及び文節とを取得するチャンク解析を行う。本実施形態において、チャンク解析は、条件付き確率場(CRF)などを用いて、系列ラベリングの問題を解く既存の方法により行う(非特許文献5:小澤俊介, 内元清貴, 伝康晴:BCCWJ に基づく長単位解析ツールComainu, 言語処理学会第20 回年次大会予稿集, pp.582−585 (2014).、非特許文献6:中野桂吾, 平井有三:日本語固有表現抽出における文節情報の利用,情報処理学会論文誌, Vol. 45, No.3, pp. 934−941 (2004))。
チャンク解析部30は、長単位解析部32と、単名詞句解析部34と、文節解析部36と、を含んで構成される。
長単位解析部32は、形態素解析部22から入力された形態素解析結果と、チャンク解析モデル記憶部24に記憶されている長単位解析モデルとに基づいて、長単位解析を行って、長単位を同定する。
単名詞句解析部34は、形態素解析部22から入力された形態素解析結果と、チャンク解析モデル記憶部24に記憶されている単名詞句解析モデルとに基づいて、単名詞句解析を行って、単名詞句を同定する。
文節解析部36は、形態素解析部22から入力された形態素解析結果と、チャンク解析モデル記憶部24に記憶されている文節解析モデルとに基づいて、文節解析を行って、文節を同定する。
図3に、長単位解析、単名詞句解析、及び文節解析を行った例を示す。図3の2列目「#l」から7列目「l_InfForm」までは長単位の情報、8列目「#n」及び9列目「NPClass」は単名詞句の情報、10列目「Bnst」は文節の情報を表す。
図3の2列目「#l」の数字は、長単位列に先頭から順に付与した番号で、数字の入っている行が、各長単位の先頭を構成する短単位であることを表す。例えば、1番目の長単位「国土交通省」は、1番目から3番目の各々の短単位「国土」、「交通」、及び「省」から構成されていることを表す。3列目「l_Form」は、長単位の出現形、3列目「l_Lemma」は、長単位の標準形、5列目「l_POS」から7列目「L_InfForm」まではそれぞれ、長単位の品詞、活用型、活用形を表す。長単位の品詞は、元の短単位の品詞と異なる場合がある。
8列目「#n」、及び9列名「NPClass」は、入力テキストに単名詞句が含まれる場合に、当該名詞句の分類と短単位の範囲を表す。単名詞句の分類「NPClass」の欄がが「−」になっている短単位は、名詞句以外であることを表す。単名詞句の分類は、単名詞句が固有表現の場合は、単名詞句の分類は、単名詞句が固有表現の場合には固有表現の分類「p:分類名」、一般名詞の場合には一般名詞の分類「g:分類名」を用いる。
例えば、短単位番号(#s)の1、2、及び3の欄に対応する「NPClass」の欄に「p:組織名」、「*」、及び「*」が表示されているのは、短単位番号(#s)の1〜3番目までの短単位が固有表現「国土交通省」を構成し、当該固有表現の分類が「組織名」であることを表している。
また、短単位番号(#s)の15の欄に対応する「NPClass」の欄に「g:人間活動」が表示されているのは、短単位番号(#s)の15番目の短単位が一般名詞「助成」であり、当該一般名詞の分類が「人間活動」ということを表している。なお、本実施形態において、固有名詞の分類(非特許文献7:Satoshi Sekine: Extended named entity ontology with attribute information, In Proc. of LREC 2008.)、一般名詞の分類(非特許文献8:池原悟他:日本語語彙大系, 岩波書店(1997). p.23-p.28)には,単語意味属性体系や固有名詞意味属性体系等の分類を用いる。
また、10列目「Bnst」は、文節の単位を表している。文節の末尾に位置する長単位には記号「E」が、末尾以外の長単位には、「I」が入っている。例えば、長単位番号「#l」の欄が4の「に対する」は、文節の欄に「E」が入っているので、文節の末尾に位置し、一つ前の「E」が入っている長単位番号「#l」の欄が2の、直後の長単位番号「#l」の欄が3の「西急電鉄」が先頭の文節であり、「西急電鉄に対する」が同一の文節であることを表す。チャンク解析部30は、チャンク解析を行った結果を、形態素解析結果とともに、依存構造解析部40に出力する。
依存構造解析部40は、チャンク解析部30から入力されたチャンク解析結果と、形態素解析結果と、依存構造解析モデル記憶部50に記憶されている依存構造解析モデルと、素性テンプレート記憶部52に記憶されている素性テンプレート及びノード参照関数とに基づいて、依存構造解析を行うための素性を抽出し、依存構造解析を行う。
本実施形態においては、図4に例を示すような、長単位番号「#l」、短単位番号「#s」、及び名詞句番号「#n」から各単位の属性を素性とし、図5に示すような、素性の抽出に用いる単語属性関数の各々をテンプレートにまとめた素性テンプレートを用いて、素性の各々を抽出する。なお、図5に示す素性テンプレートにおいて用いる部分グラフのノードを参照するためのノード参照関数の例を図6に示す。
ここで、単語属性関数の一例について説明する。例えば、図2の形態素解析結果と、図3のチャンク解析結果を受け取った場合、l_Form(3)は、長単位に関する素性として、3番目の長単位の書字系「西急電鉄」を出力する。l_POS(3)は、長単位に関する素性として、3番目の長単位の長単位品詞「名詞-固有名詞-一般」を出力する。n_NPClass(3)は、長単位に関する素性として、3番目の長単位の単名詞句クラス「P:組織名」を出力する。l_IR_bnst(3)は、長単位に関する素性として、3番目の長単位の文節内での位置「I」を出力する。
また、l_RM_suw(3)は、3番目の長単位を構成する最右の短単位番号6を返すので、s_Form(l_RM_suw(3))は、短単位に関する素性として、3番目の長単位を構成する最右の短単位の書字系「電鉄」を出力する。また、s_POS(l_RM_suw(3))は、短単位に関する素性として、3番目の長単位を構成する最右の短単位の短単位品詞「名詞-普通名詞-一般」を出力する。
また、依存構造解析部40は、素性テンプレートを用いて取得した長単位に関する素性、短単位に関する素性と、後述する依存構造解析モデル記憶部50に記憶されている、素性を用いて解析器の動作を決定する分類モデルである依存構造解析モデルとに基づいて、依存構造解析を行う。なお、本実施形態においては、MaltParser(非特許文献9:Joakim Nivre et al.: MaltParser: A language-independent system for data-driven dependency parsing, Natural Language Engineering, 13(2), pp. 95−135 (2007).)等の既存の解析器で用いられているshift−reduce法による依存構造解析器を用いる。shift−reduce法では、最初に入力バッファに入力テキストを単語単位で格納し、shift(入力バッファの先頭をスタックにpushする)、又はreduce(スタックの先頭と2番目の単語で弧を作る)のどちらかの動作を行うことを、依存構造モデルに基づいて決定する。shift−reduce法では、部分的に依存構造(グラフ)を作りながら解析を行うので、素性として部分グラフのノードの情報を参照することができる。そのため、ステップ毎に、素性テンプレートに従って各素性の値が決定され、各素性と、依存構造モデルとに基づいて、次の動作が決定される。
また、依存構造解析部40は、初期処理部42と、素性抽出部44と、動作決定部46と、終了判定部48とを含んで構成される。
初期処理部42は、shift−reduce法の初期動作を行う。具体的に、図7の場合について説明する。ここで、処理中の単語列を格納する配列であるスタック(St[])と、処理前の単語列を格納する配列である入力バッファ(La[])があり、初期状態(ステップ0)では、スタックに構造の最上位を表す「0/Root」を、入力バッファには文全体の単語列を格納する。「[]」内の数値は各配列の添字で、St[0]はスタックの先頭、La[0]は入力バッファの先頭を表している。
最初のステップ1では、無条件でshift動作(SH)を行い、入力バッファの先頭(La[0])の単語「1/国土交通省」を取り出して、スタックの先頭(St[0])にpushする。
素性抽出部44は、素性テンプレート記憶部52に記憶されている素性テンプレート、及びノード参照関数と、スタック及び入力バッファの状態に基づいて、現在のスタック及び入力バッファの状態に対して、各素性を抽出し、動作決定部46に出力する。具体的には、図7のステップ2について説明する。図7のステップ2において、スタックの状態は、St[2]=「0/Root」、St[1]=「1/国土交通省」、St[0]=「2/が」、入力バッファの状態は、La[0]=「3/西急電鉄」,La[1]=「4/に対する」,...となっている。ここで、各長単位の「/」の前の数字は、長単位番号を表している。当該状態において、図5に示す素性テンプレートに基づいて抽出した各素性を図8に示す。
動作決定部46は、素性抽出部44から入力された各素性と、依存構造解析モデル記憶部50に記憶されている依存構造解析モデルとに基づいて、動作を決定する。図7のステップ2について説明すると、素性抽出部44から入力された各素性と、依存構造解析モデル記憶部50に記憶されている依存構造解析モデルとに基づいて、次の動作が「RL(pоbj)」に決定されたとすると、St[0]の「2/が」からSt[1]の「1/国土交通省」にラベルpоbjの付いた弧を張り、「1/国土交通省」をスタックから取り除く。この状態を表したのが、図7のステップ3である。図7中の矢印は、RL、又はRRの操作により張られた弧を表している。但し、図7中においては一部を省略して表記してある。
ここで、動作について説明すると、動作は、「SH」、「RL(label)」、及び「RR(label)」の3種類があり、「SH」は、入力バッファの先頭La[0]を取り出し、スタックの先頭St[0]にpushする動作であり、「RL(label)」は、スタックの先頭St[0]からスタックの2番目St[1]へ、ラベルlabel付きの左向きの弧を張り、St[1]をスタックから取り除く動作であり、「RR(label)」は、[スタックの2番目St[1]からスタックの先頭St[0]へ、ラベルlabel付きの右向きの弧を張り、St[0]をスタックから取り除く動作である。また、ラベルの例として、助詞と名詞句との間の関係を表す「pоbj」、動詞と主語との関係を表す「nsubj」等を用いる。
終了判定部48は、現在のスタック、及び入力バッファの状態に基づいて、終了条件を満たしているか否かを判定する。終了判定部48が、終了条件を満たしていると判定した場合には、依存構造解析結果を出力部90から出力する。一方、終了判定部48が、終了条件を満たしていないと判定した場合には、素性抽出部44の処理、動作決定部46の処理、及び終了判定部48の処理を繰り返す。なお、本実施形態の終了条件は、「スタックの先頭St[0]がROOTかつ、入力バッファの先頭La[0]が空(NULL)であること」である。図9に依存構造解析結果を示す。図9に示すように、各ノードの弧を辿ったグラフが依存構造解析結果となる。
なお、終了条件を満たさない場合は、次の動作を決定するため、再び、素性抽出部44において各素性を抽出し、動作決定部46において動作を決定する。図7のステップ3において、図5、及び図6に示す素性テンプレート及びノード参照関数に基づいて取得した素性を、例えば図10に示す。図10の素性において、「2/が」から「1/国土交通省」へ左向きの弧が張られているため、ldep(「2/が」)は、「1/国土交通省」を返す。当該素性と、依存構造モデルとから、次の動作が「SH」に決定されたとすると、図7のステップ4に進む。素性抽出部44及び動作決定部46の処理を、終了条件を満たすまで繰り返す。
依存構造解析モデル記憶部50には、依存構造解析モデルが記憶されている。ここで、依存構造解析モデルは、図9に示すような依存構造解析の正解データを学習データとして大量に用意し、当該学習データから学習することにより予め学習される。すなわち、正解データから、解析の各ステップにおける素性の集合と正解の動作(SH、RL(label)、又はRR(label))の組を抽出し、Support Vector Machine(SVM)や対数線形モデルなどの一般的な依存構造モデル(分類モデル)を構築する既知の方法によって、依存構造解析モデルを学習する。
<本実施形態に係る自然言語解析装置の作用>
次に、本実施形態に係る自然言語解析装置100の作用について説明する。入力部10において自然言語の入力テキストを受け付けると、自然言語解析装置100によって図11に示す自然言語解析処理ルーチンを実行する。
まず、図11のステップS100で、チャンク解析モデル記憶部24からチャンク解析モデルを取得する。
次に、ステップS102で、依存構造解析モデル記憶部50から依存構造解析モデルを取得する。
次に、ステップS104で、素性テンプレート記憶部52から、素性テンプレート及びノード参照関数を取得する。
次に、ステップS106で、入力部10において受け付けた自然言語の入力テキストについて形態素解析を行い、解析単位チャンクとは異なる粒度で統合されたチャンクである短単位を取得する。
次に、ステップS108で、ステップS106において取得した形態素解析結果と、ステップS100において取得したチャンク解析モデルとに基づいて、短単位列を統合して、解析単位チャンクである長単位と、解析単位チャンクとは異なる粒度で統合されたチャンクである単名詞句及び文節とを取得するチャンク解析を行う。
次に、ステップS110で、ステップS104において取得した素性テンプレート及びノード参照関数と、ステップS106において取得した形態素解析結果と、ステップS108において取得したチャンク解析結果と、ステップS102において取得した依存構造解析モデルとに基づいて、依存構造解析を行う。
次に、ステップS112で、ステップS110において取得した依存構造解析結果を出力部90から出力して自然言語解析処理ルーチンを終了する。
上記ステップS110について、図12について詳細に説明する。
図12のステップS200で、スタックの先頭に「ROOT」を、入力バッファに入力テキストを格納する。
次に、ステップS202で、ステップS200において取得した、現在のスタック及び入力バッファの状態において、Shift動作を行う。
次に、ステップS204で、ステップS202、又は前回のステップS208、ステップS210、若しくはステップS212において取得した現在のスタック及び入力バッファの状態と、ステップS104において取得した素性テンプレート及びノード参照関数と、ステップS106において取得した形態素解析結果と、ステップS108において取得したチャンク解析結果と、ステップS102において取得した依存構造解析モデルとに基づいて、各素性を抽出し、次の動作を決定する。
次に、ステップS206で、ステップS204において取得した動作がRL(label)、SH、又はRR(label)のどれであるか判定する。RL(label)と判定した場合には、ステップS210へ移行する。SHと判定した場合には、ステップS208へ移行する。RR(label)と判定した場合には、ステップS212へ移行する。
ステップS208で、ステップS204で、ステップS202、又は前回のステップS208、ステップS210、若しくはステップS212において取得した現在のスタック及び入力バッファの状態において、Shift動作を行う。
ステップS210で、ステップS204で、ステップS202、又は前回のステップS208、ステップS210、若しくはステップS212において取得した現在のスタック及び入力バッファの状態において、RL(label)動作を行う。
ステップS212で、ステップS204で、ステップS202、又は前回のステップS208、ステップS210、若しくはステップS212において取得した現在のスタック及び入力バッファの状態において、RR(label)動作を行う。
次に、ステップS214で、終了条件を満たしているか否かを判定する。終了条件を満たしている場合には、依存構造処理ルーチンを終了する。一方、終了条件を満たしていない場合には、ステップS204へ移行し、ステップS204〜ステップS214までの処理を繰り返す。
以上説明したように、本実施形態に係る自然言語解析装置によれば、入力されたテキストについての、複数の粒度で1つ以上の単語を統合した単語の固まりである複数種類のチャンクの各々に対応する解析結果に基づいて、解析単位チャンクに関する素性を抽出し、解析単位チャンクとの関係で表現される、解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性を抽出し、抽出された解析単位チャンクに関する素性と、解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性と、依存関係を表すラベルを付与するための予め定められた依存構造解析モデルとに基づいて、テキストの解析単位チャンク間の各々に、依存関係を表すラベルを付与することにより、複数の粒度のチャンクを考慮して依存構造解析を行うことができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施形態においては、入力テキストは1つで有る場合について説明したが、これに限定されるものではなく、入力されるテキストが個々に独立な複数のテキストであってもよい。その場合、自然言語解析装置100は、1つのテキストずつ読み込み処理を行うものとする。また、複数のテキストを一括で読み込み自然言語解析装置内部に一時的に蓄積し1つのテキストずつ処理する等の、1つのテキストの処理を独立に複数回繰り返す機能を備えておれば、どのようなものであってもよい。
また、本実施形態に係る自然言語解析装置においては、複数種類のチャンクを短単位、長単位、単名詞句、及び文節とする場合について説明したが、これに限定されるものではない。例えば、チャンクは、1語以上の単語から構成されるという定義であれば、他の定義を使用してもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20 演算部
22 形態素解析部
24 チャンク解析モデル記憶部
30 チャンク解析部
32 長単位解析部
34 単名詞句解析部
36 文節解析部
40 依存構造解析部
42 初期処理部
44 素性抽出部
46 動作決定部
48 終了判定部
50 依存構造解析モデル記憶部
52 素性テンプレート記憶部
90 出力部
100 自然言語解析装置

Claims (8)

  1. 入力されたテキストについての、複数の粒度で1つ以上の単語を統合した単語の固まりである複数種類のチャンクの各々に対応する解析結果に基づいて、予め依存構造解析単位として定義された粒度で統合した解析単位チャンクに関する素性と、当該解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性として、チャンクの品詞、活用情報、及び分類のうち少なくとも一つに関する情報を抽出する素性抽出部と、
    前記素性抽出部により抽出された前記解析単位チャンクに関する素性と、当該解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性と、依存関係を表すラベルを付与するための予め定められた依存構造解析モデルとに基づいて、前記テキストの前記解析単位チャンク間の各々に、依存関係を表すラベルを付与する動作決定部と、
    を含む、自然言語解析装置。
  2. 前記複数種類のチャンクは、短単位、長単位、単名詞句、又は文節を含む請求項1記載の自然言語解析装置。
  3. 前記解析単位チャンクは、前記文節よりも短く、かつ、前記単語よりも長い粒度で統合されたチャンクである請求項2記載の自然言語解析装置。
  4. 前記解析単位チャンクは、長単位である請求項3記載の自然言語解析装置。
  5. 前記動作決定部は、前記解析単位チャンク毎に、前記依存関係を表すラベルを付与するための動作の決定、前記依存関係を表すラベルの付与、及び前記素性抽出部による素性の抽出を行う処理を繰り返すことにより、前記テキストの前記解析単位チャンク間の各々に、前記依存関係を表すラベルを付与し、
    前記素性抽出部は、前記解析単位チャンクに関する素性として、当該解析単位チャンクの情報、前記動作決定部により当該解析単位チャンクとそれ以外の解析単位チャンクとの間に既に付与された前記依存関係を表すラベル、及び当該解析単位チャンクと既に依存関係にあるとされた解析単位チャンクの情報を抽出し、
    当該解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性として、当該チャンクの情報、及び前記動作決定部により当該解析単位チャンクと依存関係にあるとされた解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクの情報を抽出する請求項1〜請求項4の何れか1項記載の自然言語解析装置。
  6. 前記素性抽出部は、当該解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性として、少なくとも、当該解析単位チャンクより大きい粒度で統合されたチャンクに関する素性を抽出する請求項1〜請求項5の何れか1項記載の自然言語解析装置。
  7. 素性抽出部と、動作決定部とを含む自然言語解析装置における、自然言語解析方法であって、
    前記素性抽出部は、入力されたテキストについての、複数の粒度で1つ以上の単語を統合した単語の固まりである複数種類のチャンクの各々に対応する解析結果に基づいて、予め依存構造解析単位として定義された解析単位チャンクに関する素性と、当該解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性として、チャンクの品詞、活用情報、及び分類のうち少なくとも一つに関する情報を抽出し、
    前記動作決定部は、前記素性抽出部により抽出された前記解析単位チャンクに関する素性と、当該解析単位チャンク中の単語の全部又は一部を含むように当該解析単位チャンクとは異なる粒度で統合されたチャンクに関する素性と、依存関係を表すラベルを付与するための予め定められた依存構造解析モデルとに基づいて、前記テキストの前記解析単位チャンク間の各々に、依存関係を表すラベルを付与する、
    自然言語解析方法。
  8. コンピュータを、請求項1〜の何れか1項記載の自然言語解析装置を構成する各部として機能させるためのプログラム。
JP2015041680A 2015-03-03 2015-03-03 自然言語解析装置、方法、及びプログラム Active JP6298785B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015041680A JP6298785B2 (ja) 2015-03-03 2015-03-03 自然言語解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015041680A JP6298785B2 (ja) 2015-03-03 2015-03-03 自然言語解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016162308A JP2016162308A (ja) 2016-09-05
JP6298785B2 true JP6298785B2 (ja) 2018-03-20

Family

ID=56847269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015041680A Active JP6298785B2 (ja) 2015-03-03 2015-03-03 自然言語解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6298785B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6665029B2 (ja) * 2016-05-20 2020-03-13 日本電信電話株式会社 言語解析装置、言語解析方法、及びプログラム
JP7707638B2 (ja) 2021-05-11 2025-07-15 富士通株式会社 機械学習プログラム、機械学習方法および情報処理装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844763A (ja) * 1994-08-02 1996-02-16 Ricoh Co Ltd キーワード自動抽出装置
JP4047900B1 (ja) * 2006-11-15 2008-02-13 日本電信電話株式会社 係り受け解析装置及びそのプログラム
JP5087994B2 (ja) * 2007-05-22 2012-12-05 沖電気工業株式会社 言語解析方法及びその装置
JP2009151630A (ja) * 2007-12-21 2009-07-09 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP2016162308A (ja) 2016-09-05

Similar Documents

Publication Publication Date Title
US10409911B2 (en) Systems and methods for text analytics processor
EP3016002A1 (en) Non-factoid question-and-answer system and method
Sedláček et al. A new Czech morphological analyser ajka
US11809820B2 (en) Language characteristic extraction device, named entity extraction device, extraction method, and program
JPWO2017163346A1 (ja) 文章解析システム及びプログラム
SABRIYE et al. AN APPROACH FOR DETECTING SYNTAX AND SYNTACTIC AMBIGUITY IN SOFTWARE REQUIREMENT SPECIFICATION.
Jayaweera et al. Hidden markov model based part of speech tagger for sinhala language
Sanyal et al. Natural language processing technique for generation of SQL queries dynamically
JP5564705B2 (ja) 文構造解析装置、文構造解析方法および文構造解析プログラム
Elbarougy et al. A proposed natural language processing preprocessing procedures for enhancing arabic text summarization
Kim et al. Training a korean srl system with rich morphological features
Scholivet et al. Identification of ambiguous multiword expressions using sequence models and lexical resources
KR102206742B1 (ko) 자연언어 텍스트의 어휘 지식 그래프 표현 방법 및 장치
JP6298785B2 (ja) 自然言語解析装置、方法、及びプログラム
Korobkin et al. Patent data analysis system for information extraction tasks
Kramer et al. Improvement of a naive Bayes sentiment classifier using MRS-based features
Korobkin et al. Technical function discovery in patent databases for generating innovative solutions
KR102661819B1 (ko) 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법
Gupta et al. A TENGRAM method based part-of-speech tagging of multi-category words in Hindi language
Khoufi et al. Chunking Arabic texts using conditional random fields
Ihsan et al. A Corpus-based Study of Reporting Verbs in Citation Texts Using Natural Language Processing
Praveena et al. Chunking based malayalam paraphrase identification using unfolding recursive autoencoders
ch Balabantaray et al. Case study of named entity recognition in Odia using CRF++ tool
Munir et al. Dependency parsing using the URDU. KON-TB treebank
JP2002334076A (ja) テキスト処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180226

R150 Certificate of patent or registration of utility model

Ref document number: 6298785

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350