JP6694987B2

JP6694987B2 - 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム

Info

Publication number: JP6694987B2
Application number: JP2019057331A
Authority: JP
Inventors: 克人別所; 平野　徹; 徹平野; 牧野　俊朗; 俊朗牧野; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2020-05-20
Anticipated expiration: 2036-07-13
Also published as: JP2019117657A

Description

本発明は、深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラムに関する。

従来の深層格解析技術としては、非特許文献１に記載されているような格フレームに基づくルールベースの手法がある。動詞ごとに、取りうる名詞の意味カテゴリと格助詞の対と、該対に対応する深層格の情報（格フレーム情報という）を、あらかじめ定めておく。例えば、動詞「食べる」に対しては、（名詞意味カテゴリ，格助詞，深層格）として、（動物，が，主格），（食物，を，対象格）といった情報を定めておく。入力となる（名詞，格助詞，動詞）が与えられると、該動詞の格フレーム情報から、該名詞の意味カテゴリと格助詞の対に対応する深層格を取得する。例えば、（ケーキ，を，食べる）が入力されると、「ケーキ」の意味カテゴリが食物であることから、「食べる」の格フレーム情報から、（食物，を）に対応する深層格である対象格を取得する。

長尾真編,"自然言語処理",岩波書店,岩波講座ソフトウェア科学15,1996.

格フレームに基づくルールベースの手法では、格フレーム情報の構築や新語に意味カテゴリを割り振ることなどにおいて、構築コストが大きくかかるという課題がある。また、一旦定めた意味カテゴリの体系や格フレーム情報と整合が取れない（名詞，格助詞，動詞）と深層格の組が出現し、的確な深層格を推定できず、深層格推定に必要な頑健性がないという課題がある。例えば、ある（名詞意味カテゴリＸ，格助詞，深層格）の組は、格フレーム情報にないが、名詞意味カテゴリがＸである特定の名詞に対しては、該組を格フレーム情報に含ませる必要が出てきたり、逆に、ある（名詞意味カテゴリＸ，格助詞，深層格）の組が、格フレーム情報にあるが、名詞意味カテゴリがＸである特定の名詞に対しては、該組の深層格は該当しないといったことが出てきたりする。また、特定の名詞に対しては、既存の意味カテゴリに当てはまらない意味カテゴリＸを創設した上で、（名詞意味カテゴリＸ，格助詞，深層格）の組を格フレーム情報に含ませる必要が出てくることもある。

本発明の目的は、上記課題を解決するためのものであり、頑健に深層格を推定するための深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラムを提供することにある。

上記課題を解決するため、第１の発明に係る深層格解析装置は、係り受け関係にある体言文節と用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置であって、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する正解付素性ベクトル集合生成部と、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、係り受け関係にある体言文節と用言文節のデータＡを入力とし、該データＡから素性ベクトルＢを生成する素性ベクトル生成部と、前記素性ベクトルＢと前記分類モデルとから、該データＡが各深層格に相当するスコアを算出する分類部と、を含んで構成されている。

第２の発明に係る深層格学習装置は、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する正解付素性ベクトル集合生成部と、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、を含んで構成されている。

第３の発明に係る深層格推定装置は、係り受け関係にある体言文節と用言文節のデータＡを入力とし、該データＡから素性及び素性値の組の集合である素性ベクトルＢを生成する素性ベクトル生成部と、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルＢとから、該データＡが各深層格に相当するスコアを算出する分類部と、を含んで構成されている。

また、第４の発明に係る深層格解析方法は、正解付素性ベクトル集合生成部、分類モデル生成部、素性ベクトル生成部、及び分類部を含み、係り受け関係にある体言文節と用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置における深層格解析方法であって、前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータＡを入力とし、該データＡから素性ベクトルＢを生成するステップと、前記分類部が、前記素性ベクトルＢと前記分類モデルとから、該データＡが各深層格に相当するスコアを算出するステップと、を含んで構成されている。

また、第５の発明に係る深層格学習方法は、正解付素性ベクトル集合生成部、及び分類モデル生成部を含む深層格学習装置における深層格学習方法であって、前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、を含んで構成されている。

また、第６の発明に係る深層格推定方法は、素性ベクトル生成部、及び分類部を含む深層格推定装置における深層格推定方法であって、前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータＡを入力とし、該データＡから素性及び素性値の組の集合である素性ベクトルＢを生成するステップと、前記分類部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルＢとから、該データＡが各深層格に相当するスコアを算出するステップと、を含んで構成されている。

また、本発明のプログラムは、コンピュータを、上記の深層格解析装置、上記の深層格学習装置、若しくは上記の深層格推定装置の各部として機能させるための、又はコンピュータに、上記の深層格解析方法、上記の深層格学習方法、若しくは上記の深層格推定方法の各ステップを実行させるためのプログラムである。

また、本発明の素性として、データ中に存在する表記文字列または品詞または意味カテゴリをとるようにしてもよい。

また、本発明の素性及び素性値の組の集合として、データ中の体言に対し、コーパスにおいて該体言を含む係り受け関係にある体言文節と用言文節からとった該体言文節付属部と用言文節または用言との対とその頻度の組の集合をとるか、または、データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節とその頻度の組の集合をとるか、または、データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節とその頻度の組の集合をとるか、または、前記いずれかの組の集合において、用言文節中の用言や体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して頻度は加算したものをとるようにしてもよい。

また、本発明の素性及び素性値の組の集合として、データ中の各形態素の概念ベクトルをとるようにしてもよい。

本発明では、大量の学習データから統計的手法により、データの大勢を反映した分類モデルを導出する。このため学習データの中に、素性値に不備がある等の多少のノイズがあったとしても、分類モデルは的確なものとなるため、頑健に深層格を推定できる。また、あらかじめ単語ごとに付与する意味カテゴリ以外にも、意味カテゴリのような単語の意味に相当し、かつ、自動的に獲得できる素性を始め、他の素性がある。このため、意味カテゴリ付与が完全でなくとも、他の素性の情報により、的確に深層格を推定でき、構築コストを従来手法よりも低減できる。

本発明によれば、頑健に深層格を推定することができる。

本発明の実施の形態に係る深層格解析装置の機能的構成を示すブロック図である。正解付データの集合の一例を示す図である。正解付素性ベクトル集合の一例を示す図である。深層格の推定対象であるデータＡの一例を示す図である。データＡから生成される素性ベクトルＢの一例を示す図である。体言文節付属部を「で」に固定した場合の正解付データ集合の一例を示す図である。体言文節付属部を「で」に固定した場合のデータＡの一例を示す図である。体言「鉛筆」と係り受け関係にある（体言文節付属部，用言（終止形））とその頻度の組の集合の一例を示す図である。用言「書く」と係り受け関係にある（体言，体言文節付属部）とその頻度の組の集合の一例を示す図である。意味カテゴリを用いて生成した共起ベクトルの一例を示す図である。本発明の実施の形態に係る深層格解析装置の学習部における学習処理ルーチンを示すフローチャート図である。本発明の実施の形態に係る深層格解析装置の推定部における推定処理ルーチンを示すフローチャート図である。

以下、図面とともに本発明の実施の形態を説明する。

＜本発明の実施の形態の概要＞
本発明の実施の形態は、係り受け関係にある体言文節と用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置、方法、及びプログラムに関する。

本発明の実施の形態でいう深層格とは、動詞を始めとする用言に対する名詞の意味役割を表している。例えば「部屋で箸で食べる」において、体言文節「部屋で」と「箸で」は、それぞれ用言文節「食べる」と係り受け関係にあり、体言文節における体言「部屋」や「箸」の表層格はデ格であるが、用言文節「食べる」の用言「食べる」にとっての深層格はそれぞれ、場所格、道具格となる。一般に深層格の種類としては、様々なものが提唱されており、例として、主格、対象格、道具格、源泉格、目標格、場所格、時間格、経験者格などがある。本発明の実施の形態は、深層格の種類を有限個、あらかじめ定めた上で、係り受け関係にある体言文節と用言文節に対し、対応する深層格を推定する深層格解析技術に関するものである。なお、本発明の実施の形態における用言文節には、「学生だ」のような「体言＋だ」も含むものとする。

＜深層格解析装置の構成＞
本発明の実施の形態に係る深層格解析装置の構成について説明する。図１は、本発明の請求項１記載の深層格解析装置の構成例である。図１に示すように、本発明の実施の形態に係る深層格解析装置１００は、ＣＰＵと、ＲＡＭと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この深層格解析装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部３０とを備えている。

入力部１０は、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力として受け付ける。また、入力部１０は、係り受け関係にある体言文節と用言文節のデータＡを入力として受け付ける。正解付データの集合とデータＡとについては後述する。

演算部２０は、学習部２２と、分類モデル記憶部２４と、推定部２６とを含んで構成されている。学習部２２は、学習データである正解付データの集合を入力とし、深層格を分類するための分類モデルを生成する。学習部２２の処理が終わった後、推定部２６にて、係り受け関係にある体言文節と用言文節のデータＡが入力部１０により入力されると、分類モデルを参照して、該データＡに対応する深層格を推定する。

学習部２２は、正解付素性ベクトル集合生成部２２０と分類モデル生成部２２２とを備えている。

正解付素性ベクトル集合生成部２２０は、入力部１０により受け付けた、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とする。図２は、正解付データの集合の例を示すものである。各正解付データは、体言文節における自立部である体言、体言文節付属部、用言文節における自立部である用言、用言文節付属部、及び深層格から成っている。体言は、最後の構成形態素のみをとるようにしてもよい。図２では用言は、終止形で示している。用言文節が「体言＋だ」の場合は、該体言を用言とする。6番目のデータは、「ねずみが食べられる」からとったものであり、用言としては、用言文節「食べられる」の自立部「食べ」の終止形「食べる」をとっている。用言「食べる」にとって、体言「ねずみ」は対象格に相当する。

この正解付データは、例えば、テキストコーパスを係り受け解析して抽出した係り受け関係にある体言文節と用言文節に対し、対応する正解の深層格を付与することにより作成する。

正解付素性ベクトル集合生成部２２０は、各正解付データに対し、該データである体言文節と用言文節から素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する。図３は、正解付素性ベクトル集合の例を示すものである。素性ベクトルの次元数はＮであり、各素性値は実数値をとる。

分類モデル生成部２２２は、正解付素性ベクトル集合生成部２２０によって生成された前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する。具体的には、深層格ごとに、正解付素性ベクトル集合を、該深層格の素性ベクトル群と、該深層格でない素性ベクトル群とに分け、該深層格か否かの２値分類を解くための分類モデルをサポートベクタマシン等の機械学習手法により生成する。このようにして、各深層格に対し、対応する分類モデルが生成される。

分類モデル記憶部２４には、分類モデル生成部２２２によって各深層格に対して生成された分類モデルが格納される。

推定部２６は、素性ベクトル生成部２６０と分類部２６２とを備えている。

素性ベクトル生成部２６０は、入力部１０により受け付けた、係り受け関係にある体言文節と用言文節のデータＡを入力とする。データＡの内容は、正解付素性ベクトル集合生成部２２０の入力である正解付データ集合のデータと同様である。図４は、データＡの例を示すものであり、データＡは、体言文節における自立部である体言、体言文節付属部、用言文節における自立部である用言、用言文節付属部から成っている。

素性ベクトル生成部２６０は、正解付素性ベクトル集合生成部２２０の、データから素性ベクトルを生成するアルゴリズムと同じアルゴリズムで、該データＡから素性ベクトルＢを生成する。素性ベクトルＢの内容は、正解付素性ベクトル集合生成部２２０の出力である正解付素性ベクトル集合の素性ベクトルと同様となる。図５は、素性ベクトルＢの例を示すものであり、素性ベクトルの次元数はＮであり、各素性値は実数値をとる。

分類部２６２は、素性ベクトル生成部２６０によって生成された前記素性ベクトルＢと分類モデル記憶部２４に格納された各深層格の分類モデルとから、該データＡが各深層格に相当するスコアを算出する。具体的には、深層格ごとに、素性ベクトルＢと該深層格に対応する分類モデルとから、素性ベクトルＢが該深層格に相当するスコアを算出する。ある閾値以上のスコアをもつ深層格を、推定深層格として出力する。図４のデータＡは、素性ベクトル生成部２６０により図５の素性ベクトルＢとなり、分類部２６２にて深層格が道具格であると推定される。

以上、本発明の請求項１記載の深層格解析装置の構成例を述べたが、体言文節付属部を一つに固定した上で、学習と推定を行ってもよい。即ち正解付データ集合を、固定した体言文節付属部をもつデータのみに限定した上で、学習を行う。推定も、該体言文節付属部をもつデータＡを入力として行う。体言文節付属部に関する素性は、全データで共通であり、分類素性として意味をなさないため、正解付素性ベクトル集合生成部２２０及び素性ベクトル生成部２６０において、体言文節付属部に関する素性は抽出しない。

例えば、体言文節付属部を「で」に固定すると、図２の正解付データ集合は、体言文節付属部が「で」のデータのみに限定した図６となる。推定は、図７のような体言文節付属部が「で」のデータＡを入力として行う。体言文節付属部に関する素性は抽出しないため、図６、図７では、体言文節付属部を記載していない。

次に、正解付素性ベクトル集合生成部２２０と素性ベクトル生成部２６０において、データから抽出する、深層格の分類に有効な素性及び素性値について、以下、詳細に述べる。

深層格が用言に対する名詞の意味役割であることから、各形態素の意味的な情報が分類に有効な素性となりうる。また、深層格決定が体言文節付属部や用言文節付属部に依存することから、これらの表記が分類に有効な素性となりうる。

そのため、素性として、データ中に存在する表記文字列または品詞または意味カテゴリをとることができる。これらの素性は、同一文字列であっても、抽出元の種別（体言、体言文節付属部、用言、用言文節付属部）が異なれば、別の素性として取り扱う。

表記としては、体言、体言文節付属部、用言（終止形）、用言文節付属部の文字列が挙げられる。また、それぞれの各構成形態素の表記も挙げられる。この場合、体言に関しては、最後の構成形態素の表記のみを素性としてとるというようにしてもよい。図２の６番目のデータの場合、体言文節付属部が「が」で、用言文節付属部が「られる」であるが、このような素性から、データが受動態や可能表現であることが識別でき、そのことを反映した深層格の学習及び推定ができる。

品詞としては、体言の最後の構成形態素の品詞、用言の品詞などが挙げられる。形態素解析器によっては、品詞が、複数の細品詞から構成されていることがあり、そのような場合、品詞全体を素性としてとることもできるし、各細品詞を素性としてとることもできる。細品詞には、人名や地名等に相当することを表すものもあり、そのような情報も、深層格の分類に有効な素性となる。

意味カテゴリとは、類義する単語を一つのカテゴリとしてまとめ上げたものを意味している。形態素解析用の単語辞書中の各単語に意味カテゴリを付与しておくことにより、体言の最後の構成形態素の意味カテゴリや、用言の意味カテゴリを素性としてとることができる。

学習データ中に存在する単語表記や品詞、意味カテゴリの異なりの全てが素性となり、対象データが該素性を含むとき該素性の素性値は１となり、含まないとき該素性の素性値は０となる。

また、素性ベクトルが表す素性及び素性値の組の集合として、データ中の体言に対し、コーパスにおいて該体言を含み、かつ、係り受け関係にある体言文節と用言文節からとった該体言文節付属部と用言文節または用言との対とその頻度の組の集合を含むことができる。ここで体言は、最後の構成形態素とするというようにしてもよい。図８は、体言「鉛筆」に対し、コーパスにおいて、「鉛筆」を含み、かつ、係り受け関係にある体言文節と用言文節からとった（体言文節付属部，用言（終止形））とその頻度の組の集合をとったものである。これを、体言「鉛筆」から抽出した素性及び素性値の組の集合とする。

また、素性ベクトルが表す素性及び素性値の組の集合として、データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節とその頻度の組の集合をとるか、または、データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節とその頻度の組の集合をとることができる。体言文節中の体言は、最後の構成形態素とするというようにしてもよい。図９は、用言「書く」に対し、コーパスにおいて、「書く」を含む用言文節と係り受け関係にある体言文節からとった（体言，体言文節付属部）とその頻度の組の集合である。これを、用言「書く」から抽出した素性及び素性値の組の集合とする。

上記で挙げた素性及び素性値の組の集合を共起ベクトルと呼ぶ。共起ベクトルが近い語句は、意味的に近いという性質に基づき、共起ベクトルを採用している。

また、素性ベクトルが表す素性及び素性値の組の集合として、前記いずれかの組の集合において、用言文節中の用言や体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して頻度は加算したものをとることができる。体言の意味カテゴリは、最後の構成形態素の意味カテゴリをとるというようにしてもよい。図１０は、図９の共起ベクトルにおいて、（学生，が）と（先生，が）に対し、「学生」と「先生」の意味カテゴリは［人］で同一であり、他の表記情報は「が」で同一であるため、素性を同一視して（［人］，が）とし、頻度は加算した１００としている。また、図９の共起ベクトルにおいて、（本，を）と（小説，を）に対し、「本」と「小説」の意味カテゴリは［書物］で同一であり、他の表記情報は「を」で同一であるため、素性を同一視して（［書物］，を）とし、頻度は加算した３７４としている。また、図９の共起ベクトルにおいて、（横浜，で）に対し、「横浜」の意味カテゴリは［地名］であるため、（［地名］，で）とその頻度２７をとっている。

また、素性ベクトルが表す素性及び素性値の組の集合として、データ中の各形態素の概念ベクトルをとることができる。非特許文献２の手法によって生成する単語概念ベクトルが概念ベクトルの一例であり、意味的に近い単語対の各概念ベクトルは近いという性質がある。

［非特許文献２］別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,“単語・意味属性間共起に基づくコーパス概念ベースの生成方式,”情報処理学会論文誌, Dec. 2008, Vol.49, No.12, pp.3997-4006.

例えば、素性ベクトルが表す素性及び素性値の組の集合として、体言の最後の構成形態素の概念ベクトルや、用言の概念ベクトルをとる。また、体言の各構成形態素の概念ベクトルを加算して長さ１に正規化した概念ベクトルをとってもよい。

図１１は、学習部２２の処理フローの一例である。入力部１０が、正解付データの集合を受け付けると、図１１に示す学習処理ルーチンが実行される。

まず、ステップＳ１００において、正解付素性ベクトル集合生成部２２０は、入力部１０によって受け付けた、正解付データの集合を取得する。

そして、ステップＳ１０２において、正解付素性ベクトル集合生成部２２０は、上記ステップＳ１００で受け付けた正解付データの集合の各正解付データに対し、該データである体言文節と用言文節から素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する。

ステップＳ１０４において、分類モデル生成部２２２は、正解付素性ベクトル集合生成部２２０によって生成された前記正解付素性ベクトル集合から、各深層格について、該深層格であるか否かを分類するための分類モデルを生成する。そして、分類モデル生成部２２２は、分類モデルを分類モデル記憶部２４に格納し、学習処理ルーチンを終了する。

図１２は、推定部２６の処理フローの一例である。入力部１０が、深層格の推定対象であるデータＡを受け付けると、図１２に示す推定処理ルーチンが実行される。

まず、ステップＳ２００において、素性ベクトル生成部２６０は、入力部１０によって受け付けたデータＡを取得する。

次に、ステップＳ２０２において、素性ベクトル生成部２６０は、正解付素性ベクトル集合生成部２２０の、データから素性ベクトルを生成するアルゴリズムと同じアルゴリズムで、上記ステップＳ２００で取得したデータＡから素性ベクトルＢを生成する。

次に、ステップＳ２０４において、分類部２６２は、上記ステップＳ２０２で生成された前記素性ベクトルＢと分類モデル記憶部２４に格納された各深層格の分類モデルとから、上記ステップＳ２００で取得したデータＡが各深層格に相当するスコアを算出する。そして、ある閾値以上のスコアをもつ深層格を推定深層格とする。

そして、ステップＳ２０６において、分類部２６２は、推定結果として、上記ステップＳ２０４で得られた推定深層格を出力し、推定処理ルーチンを終了する。

以上説明したように、本実施の形態の深層格解析装置によれば、的確な深層格を推定することにより、テキストを意味構造に変換した上で、テキスト間の意味構造レベルでの照合（検索等）や変換（生成、要約、翻訳等）を行う処理の精度を向上させることができるという効果を奏する。

本実施の形態の深層格解析装置は、構築コストを従来手法よりも低減でき、的確な深層格を推定するのに必要な頑健性をもつ。

これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、ＣＰＵ等の手段で実施することが可能である。

なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

例えば、本実施の形態では、分類モデルの学習処理と深層格の推定処理とを１つの装置として構成する場合を例に説明したが、これに限定されるものではない。例えば、分類モデルの学習処理と深層格の推定処理とを別々の装置として構成してもよい。この場合には、学習部２２を備えた深層格学習装置と、推定部２６を備えた深層格推定装置として構成してもよい。

本発明は、テキストを意味構造に変換した上で、テキスト間の意味構造レベルでの照合（検索等）や変換（生成、要約、翻訳等）を行う言語処理技術に適用可能である。

１０入力部
２０演算部
２２学習部
２４分類モデル記憶部
２６推定部
３０出力部
１００深層格解析装置
２２０正解付素性ベクトル集合生成部
２２２分類モデル生成部
２６０素性ベクトル生成部
２６２分類部

Claims

係り受け関係にある体言文節と用言文節のデータＡを入力とし、該データＡから素性及び素性値の組の集合である素性ベクトルＢを生成する素性ベクトル生成部と、
係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルＢとから、該データＡが各深層格に相当するスコアを算出する分類部と、
を含み、
前記素性は、前記データ中に存在する、体言、体言文節付属部、用言、及び用言文節付属部の表記文字列を含み、
前記表記文字列の素性は、前記表記文字列が同一文字列であっても、抽出元の種別が異なれば、別の素性として取り扱われ、
前記種別は、体言、体言文節付属部、用言、及び用言文節付属部の何れであるかを示す、
ことを特徴とする深層格推定装置。
前記素性は、前記データ中の、品詞及び細品詞を更に含み、
前記品詞の素性は、前記品詞が同一であっても、抽出元の前記種別が異なれば、別の素性として取り扱われ、
前記細品詞の素性は、前記細品詞が同一であっても、抽出元の前記種別が異なれば、別の素性として取り扱われる、
請求項１記載の深層格推定装置。
前記素性における、前記データ中の体言を抽出元とする素性については、体言の最後の構成形態素部の情報を用いる、
請求項１又は２記載の深層格推定装置。
係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する正解付素性ベクトル集合生成部と、
前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、
を含み、
前記素性は、前記データ中に存在する、体言、体言文節付属部、用言、及び用言文節付属部の表記文字列を含み、
前記表記文字列の素性は、前記表記文字列が同一文字列であっても、抽出元の種別が異なれば、別の素性として取り扱われ、
前記種別は、体言、体言文節付属部、用言、及び用言文節付属部の何れであるかを示す、
ことを特徴とする深層格学習装置。
素性ベクトル生成部、及び分類部を含む深層格推定装置における深層格推定方法であって、
前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータＡを入力とし、該データＡから素性及び素性値の組の集合である素性ベクトルＢを生成するステップと、
前記分類部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルＢとから、該データＡが各深層格に相当するスコアを算出するステップと、
を含み、
前記素性は、前記データ中に存在する、体言、体言文節付属部、用言、及び用言文節付属部の表記文字列を含み、
前記表記文字列の素性は、前記表記文字列が同一文字列であっても、抽出元の種別が異なれば、別の素性として取り扱われ、
前記種別は、体言、体言文節付属部、用言、及び用言文節付属部の何れであるかを示す、
ことを特徴とする深層格推定方法。
正解付素性ベクトル集合生成部、及び分類モデル生成部を含む深層格学習装置における深層格学習方法であって、
前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、
前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、
を含み、
前記素性は、前記データ中に存在する、体言、体言文節付属部、用言、及び用言文節付属部の表記文字列を含み、
前記表記文字列の素性は、前記表記文字列が同一文字列であっても、抽出元の種別が異なれば、別の素性として取り扱われ、
前記種別は、体言、体言文節付属部、用言、及び用言文節付属部の何れであるかを示す、
ことを特徴とする深層格学習方法。
コンピュータを、請求項１〜請求項３の何れか１項記載の深層格推定装置の各部として機能させるためのプログラム。
コンピュータを、請求項４記載の深層格学習装置の各部として機能させるためのプログラム。