JP6694987B2 - 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム - Google Patents

深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP6694987B2
JP6694987B2 JP2019057331A JP2019057331A JP6694987B2 JP 6694987 B2 JP6694987 B2 JP 6694987B2 JP 2019057331 A JP2019057331 A JP 2019057331A JP 2019057331 A JP2019057331 A JP 2019057331A JP 6694987 B2 JP6694987 B2 JP 6694987B2
Authority
JP
Japan
Prior art keywords
phrase
feature
data
deep case
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019057331A
Other languages
English (en)
Other versions
JP2019117657A (ja
Inventor
克人 別所
克人 別所
平野 徹
徹 平野
牧野 俊朗
俊朗 牧野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019057331A priority Critical patent/JP6694987B2/ja
Publication of JP2019117657A publication Critical patent/JP2019117657A/ja
Application granted granted Critical
Publication of JP6694987B2 publication Critical patent/JP6694987B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラムに関する。
従来の深層格解析技術としては、非特許文献1に記載されているような格フレームに基づくルールベースの手法がある。動詞ごとに、取りうる名詞の意味カテゴリと格助詞の対と、該対に対応する深層格の情報(格フレーム情報という)を、あらかじめ定めておく。例えば、動詞「食べる」に対しては、(名詞意味カテゴリ,格助詞,深層格)として、(動物,が,主格),(食物,を,対象格)といった情報を定めておく。入力となる(名詞,格助詞,動詞)が与えられると、該動詞の格フレーム情報から、該名詞の意味カテゴリと格助詞の対に対応する深層格を取得する。例えば、(ケーキ,を,食べる)が入力されると、「ケーキ」の意味カテゴリが食物であることから、「食べる」の格フレーム情報から、(食物,を)に対応する深層格である対象格を取得する。
長尾真編,"自然言語処理",岩波書店,岩波講座ソフトウェア科学15,1996.
格フレームに基づくルールベースの手法では、格フレーム情報の構築や新語に意味カテゴリを割り振ることなどにおいて、構築コストが大きくかかるという課題がある。また、一旦定めた意味カテゴリの体系や格フレーム情報と整合が取れない(名詞,格助詞,動詞)と深層格の組が出現し、的確な深層格を推定できず、深層格推定に必要な頑健性がないという課題がある。例えば、ある(名詞意味カテゴリX,格助詞,深層格)の組は、格フレーム情報にないが、名詞意味カテゴリがXである特定の名詞に対しては、該組を格フレーム情報に含ませる必要が出てきたり、逆に、ある(名詞意味カテゴリX,格助詞,深層格)の組が、格フレーム情報にあるが、名詞意味カテゴリがXである特定の名詞に対しては、該組の深層格は該当しないといったことが出てきたりする。また、特定の名詞に対しては、既存の意味カテゴリに当てはまらない意味カテゴリXを創設した上で、(名詞意味カテゴリX,格助詞,深層格)の組を格フレーム情報に含ませる必要が出てくることもある。
本発明の目的は、上記課題を解決するためのものであり、頑健に深層格を推定するための深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラムを提供することにある。
上記課題を解決するため、第1の発明に係る深層格解析装置は、係り受け関係にある体言文節と用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置であって、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する正解付素性ベクトル集合生成部と、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性ベクトルBを生成する素性ベクトル生成部と、前記素性ベクトルBと前記分類モデルとから、該データAが各深層格に相当するスコアを算出する分類部と、を含んで構成されている。
第2の発明に係る深層格学習装置は、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する正解付素性ベクトル集合生成部と、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、を含んで構成されている。
第3の発明に係る深層格推定装置は、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性及び素性値の組の集合である素性ベクトルBを生成する素性ベクトル生成部と、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出する分類部と、を含んで構成されている。
また、第4の発明に係る深層格解析方法は、正解付素性ベクトル集合生成部、分類モデル生成部、素性ベクトル生成部、及び分類部を含み、係り受け関係にある体言文節と用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置における深層格解析方法であって、前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性ベクトルBを生成するステップと、前記分類部が、前記素性ベクトルBと前記分類モデルとから、該データAが各深層格に相当するスコアを算出するステップと、を含んで構成されている。
また、第5の発明に係る深層格学習方法は、正解付素性ベクトル集合生成部、及び分類モデル生成部を含む深層格学習装置における深層格学習方法であって、前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、を含んで構成されている。
また、第6の発明に係る深層格推定方法は、素性ベクトル生成部、及び分類部を含む深層格推定装置における深層格推定方法であって、前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性及び素性値の組の集合である素性ベクトルBを生成するステップと、前記分類部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出するステップと、を含んで構成されている。
また、本発明のプログラムは、コンピュータを、上記の深層格解析装置、上記の深層格学習装置、若しくは上記の深層格推定装置の各部として機能させるための、又はコンピュータに、上記の深層格解析方法、上記の深層格学習方法、若しくは上記の深層格推定方法の各ステップを実行させるためのプログラムである。
また、本発明の素性として、データ中に存在する表記文字列または品詞または意味カテゴリをとるようにしてもよい。
また、本発明の素性及び素性値の組の集合として、データ中の体言に対し、コーパスにおいて該体言を含む係り受け関係にある体言文節と用言文節からとった該体言文節付属部と用言文節または用言との対とその頻度の組の集合をとるか、または、データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節とその頻度の組の集合をとるか、または、データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節とその頻度の組の集合をとるか、または、前記いずれかの組の集合において、用言文節中の用言や体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して頻度は加算したものをとるようにしてもよい。
また、本発明の素性及び素性値の組の集合として、データ中の各形態素の概念ベクトルをとるようにしてもよい。
本発明では、大量の学習データから統計的手法により、データの大勢を反映した分類モデルを導出する。このため学習データの中に、素性値に不備がある等の多少のノイズがあったとしても、分類モデルは的確なものとなるため、頑健に深層格を推定できる。また、あらかじめ単語ごとに付与する意味カテゴリ以外にも、意味カテゴリのような単語の意味に相当し、かつ、自動的に獲得できる素性を始め、他の素性がある。このため、意味カテゴリ付与が完全でなくとも、他の素性の情報により、的確に深層格を推定でき、構築コストを従来手法よりも低減できる。
本発明によれば、頑健に深層格を推定することができる。
本発明の実施の形態に係る深層格解析装置の機能的構成を示すブロック図である。 正解付データの集合の一例を示す図である。 正解付素性ベクトル集合の一例を示す図である。 深層格の推定対象であるデータAの一例を示す図である。 データAから生成される素性ベクトルBの一例を示す図である。 体言文節付属部を「で」に固定した場合の正解付データ集合の一例を示す図である。 体言文節付属部を「で」に固定した場合のデータAの一例を示す図である。 体言「鉛筆」と係り受け関係にある(体言文節付属部,用言(終止形))とその頻度の組の集合の一例を示す図である。 用言「書く」と係り受け関係にある(体言,体言文節付属部)とその頻度の組の集合の一例を示す図である。 意味カテゴリを用いて生成した共起ベクトルの一例を示す図である。 本発明の実施の形態に係る深層格解析装置の学習部における学習処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係る深層格解析装置の推定部における推定処理ルーチンを示すフローチャート図である。
以下、図面とともに本発明の実施の形態を説明する。
<本発明の実施の形態の概要>
本発明の実施の形態は、係り受け関係にある体言文節と用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置、方法、及びプログラムに関する。
本発明の実施の形態でいう深層格とは、動詞を始めとする用言に対する名詞の意味役割を表している。例えば「部屋で箸で食べる」において、体言文節「部屋で」と「箸で」は、それぞれ用言文節「食べる」と係り受け関係にあり、体言文節における体言「部屋」や「箸」の表層格はデ格であるが、用言文節「食べる」の用言「食べる」にとっての深層格はそれぞれ、場所格、道具格となる。一般に深層格の種類としては、様々なものが提唱されており、例として、主格、対象格、道具格、源泉格、目標格、場所格、時間格、経験者格などがある。本発明の実施の形態は、深層格の種類を有限個、あらかじめ定めた上で、係り受け関係にある体言文節と用言文節に対し、対応する深層格を推定する深層格解析技術に関するものである。なお、本発明の実施の形態における用言文節には、「学生だ」のような「体言+だ」も含むものとする。
<深層格解析装置の構成>
本発明の実施の形態に係る深層格解析装置の構成について説明する。図1は、本発明の請求項1記載の深層格解析装置の構成例である。図1に示すように、本発明の実施の形態に係る深層格解析装置100は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この深層格解析装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部30とを備えている。
入力部10は、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力として受け付ける。また、入力部10は、係り受け関係にある体言文節と用言文節のデータAを入力として受け付ける。正解付データの集合とデータAとについては後述する。
演算部20は、学習部22と、分類モデル記憶部24と、推定部26とを含んで構成されている。学習部22は、学習データである正解付データの集合を入力とし、深層格を分類するための分類モデルを生成する。学習部22の処理が終わった後、推定部26にて、係り受け関係にある体言文節と用言文節のデータAが入力部10により入力されると、分類モデルを参照して、該データAに対応する深層格を推定する。
学習部22は、正解付素性ベクトル集合生成部220と分類モデル生成部222とを備えている。
正解付素性ベクトル集合生成部220は、入力部10により受け付けた、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とする。図2は、正解付データの集合の例を示すものである。各正解付データは、体言文節における自立部である体言、体言文節付属部、用言文節における自立部である用言、用言文節付属部、及び深層格から成っている。体言は、最後の構成形態素のみをとるようにしてもよい。図2では用言は、終止形で示している。用言文節が「体言+だ」の場合は、該体言を用言とする。6番目のデータは、「ねずみが食べられる」からとったものであり、用言としては、用言文節「食べられる」の自立部「食べ」の終止形「食べる」をとっている。用言「食べる」にとって、体言「ねずみ」は対象格に相当する。
この正解付データは、例えば、テキストコーパスを係り受け解析して抽出した係り受け関係にある体言文節と用言文節に対し、対応する正解の深層格を付与することにより作成する。
正解付素性ベクトル集合生成部220は、各正解付データに対し、該データである体言文節と用言文節から素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する。図3は、正解付素性ベクトル集合の例を示すものである。素性ベクトルの次元数はNであり、各素性値は実数値をとる。
分類モデル生成部222は、正解付素性ベクトル集合生成部220によって生成された前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する。具体的には、深層格ごとに、正解付素性ベクトル集合を、該深層格の素性ベクトル群と、該深層格でない素性ベクトル群とに分け、該深層格か否かの2値分類を解くための分類モデルをサポートベクタマシン等の機械学習手法により生成する。このようにして、各深層格に対し、対応する分類モデルが生成される。
分類モデル記憶部24には、分類モデル生成部222によって各深層格に対して生成された分類モデルが格納される。
推定部26は、素性ベクトル生成部260と分類部262とを備えている。
素性ベクトル生成部260は、入力部10により受け付けた、係り受け関係にある体言文節と用言文節のデータAを入力とする。データAの内容は、正解付素性ベクトル集合生成部220の入力である正解付データ集合のデータと同様である。図4は、データAの例を示すものであり、データAは、体言文節における自立部である体言、体言文節付属部、用言文節における自立部である用言、用言文節付属部から成っている。
素性ベクトル生成部260は、正解付素性ベクトル集合生成部220の、データから素性ベクトルを生成するアルゴリズムと同じアルゴリズムで、該データAから素性ベクトルBを生成する。素性ベクトルBの内容は、正解付素性ベクトル集合生成部220の出力である正解付素性ベクトル集合の素性ベクトルと同様となる。図5は、素性ベクトルBの例を示すものであり、素性ベクトルの次元数はNであり、各素性値は実数値をとる。
分類部262は、素性ベクトル生成部260によって生成された前記素性ベクトルBと分類モデル記憶部24に格納された各深層格の分類モデルとから、該データAが各深層格に相当するスコアを算出する。具体的には、深層格ごとに、素性ベクトルBと該深層格に対応する分類モデルとから、素性ベクトルBが該深層格に相当するスコアを算出する。ある閾値以上のスコアをもつ深層格を、推定深層格として出力する。図4のデータAは、素性ベクトル生成部260により図5の素性ベクトルBとなり、分類部262にて深層格が道具格であると推定される。
以上、本発明の請求項1記載の深層格解析装置の構成例を述べたが、体言文節付属部を一つに固定した上で、学習と推定を行ってもよい。即ち正解付データ集合を、固定した体言文節付属部をもつデータのみに限定した上で、学習を行う。推定も、該体言文節付属部をもつデータAを入力として行う。体言文節付属部に関する素性は、全データで共通であり、分類素性として意味をなさないため、正解付素性ベクトル集合生成部220及び素性ベクトル生成部260において、体言文節付属部に関する素性は抽出しない。
例えば、体言文節付属部を「で」に固定すると、図2の正解付データ集合は、体言文節付属部が「で」のデータのみに限定した図6となる。推定は、図7のような体言文節付属部が「で」のデータAを入力として行う。体言文節付属部に関する素性は抽出しないため、図6、図7では、体言文節付属部を記載していない。
次に、正解付素性ベクトル集合生成部220と素性ベクトル生成部260において、データから抽出する、深層格の分類に有効な素性及び素性値について、以下、詳細に述べる。
深層格が用言に対する名詞の意味役割であることから、各形態素の意味的な情報が分類に有効な素性となりうる。また、深層格決定が体言文節付属部や用言文節付属部に依存することから、これらの表記が分類に有効な素性となりうる。
そのため、素性として、データ中に存在する表記文字列または品詞または意味カテゴリをとることができる。これらの素性は、同一文字列であっても、抽出元の種別(体言、体言文節付属部、用言、用言文節付属部)が異なれば、別の素性として取り扱う。
表記としては、体言、体言文節付属部、用言(終止形)、用言文節付属部の文字列が挙げられる。また、それぞれの各構成形態素の表記も挙げられる。この場合、体言に関しては、最後の構成形態素の表記のみを素性としてとるというようにしてもよい。図2の6番目のデータの場合、体言文節付属部が「が」で、用言文節付属部が「られる」であるが、このような素性から、データが受動態や可能表現であることが識別でき、そのことを反映した深層格の学習及び推定ができる。
品詞としては、体言の最後の構成形態素の品詞、用言の品詞などが挙げられる。形態素解析器によっては、品詞が、複数の細品詞から構成されていることがあり、そのような場合、品詞全体を素性としてとることもできるし、各細品詞を素性としてとることもできる。細品詞には、人名や地名等に相当することを表すものもあり、そのような情報も、深層格の分類に有効な素性となる。
意味カテゴリとは、類義する単語を一つのカテゴリとしてまとめ上げたものを意味している。形態素解析用の単語辞書中の各単語に意味カテゴリを付与しておくことにより、体言の最後の構成形態素の意味カテゴリや、用言の意味カテゴリを素性としてとることができる。
学習データ中に存在する単語表記や品詞、意味カテゴリの異なりの全てが素性となり、対象データが該素性を含むとき該素性の素性値は1となり、含まないとき該素性の素性値は0となる。
また、素性ベクトルが表す素性及び素性値の組の集合として、データ中の体言に対し、コーパスにおいて該体言を含み、かつ、係り受け関係にある体言文節と用言文節からとった該体言文節付属部と用言文節または用言との対とその頻度の組の集合を含むことができる。ここで体言は、最後の構成形態素とするというようにしてもよい。図8は、体言「鉛筆」に対し、コーパスにおいて、「鉛筆」を含み、かつ、係り受け関係にある体言文節と用言文節からとった(体言文節付属部,用言(終止形))とその頻度の組の集合をとったものである。これを、体言「鉛筆」から抽出した素性及び素性値の組の集合とする。
また、素性ベクトルが表す素性及び素性値の組の集合として、データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節とその頻度の組の集合をとるか、または、データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節とその頻度の組の集合をとることができる。体言文節中の体言は、最後の構成形態素とするというようにしてもよい。図9は、用言「書く」に対し、コーパスにおいて、「書く」を含む用言文節と係り受け関係にある体言文節からとった(体言,体言文節付属部)とその頻度の組の集合である。これを、用言「書く」から抽出した素性及び素性値の組の集合とする。
上記で挙げた素性及び素性値の組の集合を共起ベクトルと呼ぶ。共起ベクトルが近い語句は、意味的に近いという性質に基づき、共起ベクトルを採用している。
また、素性ベクトルが表す素性及び素性値の組の集合として、前記いずれかの組の集合において、用言文節中の用言や体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して頻度は加算したものをとることができる。体言の意味カテゴリは、最後の構成形態素の意味カテゴリをとるというようにしてもよい。図10は、図9の共起ベクトルにおいて、(学生,が)と(先生,が)に対し、「学生」と「先生」の意味カテゴリは[人]で同一であり、他の表記情報は「が」で同一であるため、素性を同一視して([人],が)とし、頻度は加算した100としている。また、図9の共起ベクトルにおいて、(本,を)と(小説,を)に対し、「本」と「小説」の意味カテゴリは[書物]で同一であり、他の表記情報は「を」で同一であるため、素性を同一視して([書物],を)とし、頻度は加算した374としている。また、図9の共起ベクトルにおいて、(横浜,で)に対し、「横浜」の意味カテゴリは[地名]であるため、([地名],で)とその頻度27をとっている。
また、素性ベクトルが表す素性及び素性値の組の集合として、データ中の各形態素の概念ベクトルをとることができる。非特許文献2の手法によって生成する単語概念ベクトルが概念ベクトルの一例であり、意味的に近い単語対の各概念ベクトルは近いという性質がある。
[非特許文献2]別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,“単語・意味属性間共起に基づくコーパス概念ベースの生成方式,”情報処理学会論文誌, Dec. 2008, Vol.49, No.12, pp.3997-4006.
例えば、素性ベクトルが表す素性及び素性値の組の集合として、体言の最後の構成形態素の概念ベクトルや、用言の概念ベクトルをとる。また、体言の各構成形態素の概念ベクトルを加算して長さ1に正規化した概念ベクトルをとってもよい。
図11は、学習部22の処理フローの一例である。入力部10が、正解付データの集合を受け付けると、図11に示す学習処理ルーチンが実行される。
まず、ステップS100において、正解付素性ベクトル集合生成部220は、入力部10によって受け付けた、正解付データの集合を取得する。
そして、ステップS102において、正解付素性ベクトル集合生成部220は、上記ステップS100で受け付けた正解付データの集合の各正解付データに対し、該データである体言文節と用言文節から素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する。
ステップS104において、分類モデル生成部222は、正解付素性ベクトル集合生成部220によって生成された前記正解付素性ベクトル集合から、各深層格について、該深層格であるか否かを分類するための分類モデルを生成する。そして、分類モデル生成部222は、分類モデルを分類モデル記憶部24に格納し、学習処理ルーチンを終了する。
図12は、推定部26の処理フローの一例である。入力部10が、深層格の推定対象であるデータAを受け付けると、図12に示す推定処理ルーチンが実行される。
まず、ステップS200において、素性ベクトル生成部260は、入力部10によって受け付けたデータAを取得する。
次に、ステップS202において、素性ベクトル生成部260は、正解付素性ベクトル集合生成部220の、データから素性ベクトルを生成するアルゴリズムと同じアルゴリズムで、上記ステップS200で取得したデータAから素性ベクトルBを生成する。
次に、ステップS204において、分類部262は、上記ステップS202で生成された前記素性ベクトルBと分類モデル記憶部24に格納された各深層格の分類モデルとから、上記ステップS200で取得したデータAが各深層格に相当するスコアを算出する。そして、ある閾値以上のスコアをもつ深層格を推定深層格とする。
そして、ステップS206において、分類部262は、推定結果として、上記ステップS204で得られた推定深層格を出力し、推定処理ルーチンを終了する。
以上説明したように、本実施の形態の深層格解析装置によれば、的確な深層格を推定することにより、テキストを意味構造に変換した上で、テキスト間の意味構造レベルでの照合(検索等)や変換(生成、要約、翻訳等)を行う処理の精度を向上させることができるという効果を奏する。
本実施の形態の深層格解析装置は、構築コストを従来手法よりも低減でき、的確な深層格を推定するのに必要な頑健性をもつ。
これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、CPU等の手段で実施することが可能である。
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
例えば、本実施の形態では、分類モデルの学習処理と深層格の推定処理とを1つの装置として構成する場合を例に説明したが、これに限定されるものではない。例えば、分類モデルの学習処理と深層格の推定処理とを別々の装置として構成してもよい。この場合には、学習部22を備えた深層格学習装置と、推定部26を備えた深層格推定装置として構成してもよい。
本発明は、テキストを意味構造に変換した上で、テキスト間の意味構造レベルでの照合(検索等)や変換(生成、要約、翻訳等)を行う言語処理技術に適用可能である。
10 入力部
20 演算部
22 学習部
24 分類モデル記憶部
26 推定部
30 出力部
100 深層格解析装置
220 正解付素性ベクトル集合生成部
222 分類モデル生成部
260 素性ベクトル生成部
262 分類部

Claims (8)

  1. 係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性及び素性値の組の集合である素性ベクトルBを生成する素性ベクトル生成部と、
    係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出する分類部と、
    を含み、
    前記素性は、前記データ中に存在する、体言、体言文節付属部、用言、及び用言文節付属部の表記文字列を含み、
    前記表記文字列の素性は、前記表記文字列が同一文字列であっても、抽出元の種別が異なれば、別の素性として取り扱われ、
    前記種別は、体言、体言文節付属部、用言、及び用言文節付属部の何れであるかを示す、
    ことを特徴とする深層格推定装置。
  2. 前記素性は、前記データ中の、品詞及び細品詞を更に含み、
    前記品詞の素性は、前記品詞が同一であっても、抽出元の前記種別が異なれば、別の素性として取り扱われ、
    前記細品詞の素性は、前記細品詞が同一であっても、抽出元の前記種別が異なれば、別の素性として取り扱われる、
    請求項1記載の深層格推定装置。
  3. 前記素性における、前記データ中の体言を抽出元とする素性については、体言の最後の構成形態素部の情報を用いる、
    請求項1又は2記載の深層格推定装置。
  4. 係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する正解付素性ベクトル集合生成部と、
    前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、
    を含み、
    前記素性は、前記データ中に存在する、体言、体言文節付属部、用言、及び用言文節付属部の表記文字列を含み、
    前記表記文字列の素性は、前記表記文字列が同一文字列であっても、抽出元の種別が異なれば、別の素性として取り扱われ、
    前記種別は、体言、体言文節付属部、用言、及び用言文節付属部の何れであるかを示す、
    ことを特徴とする深層格学習装置。
  5. 素性ベクトル生成部、及び分類部を含む深層格推定装置における深層格推定方法であって、
    前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性及び素性値の組の集合である素性ベクトルBを生成するステップと、
    前記分類部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出するステップと、
    を含み、
    前記素性は、前記データ中に存在する、体言、体言文節付属部、用言、及び用言文節付属部の表記文字列を含み、
    前記表記文字列の素性は、前記表記文字列が同一文字列であっても、抽出元の種別が異なれば、別の素性として取り扱われ、
    前記種別は、体言、体言文節付属部、用言、及び用言文節付属部の何れであるかを示す、
    ことを特徴とする深層格推定方法。
  6. 正解付素性ベクトル集合生成部、及び分類モデル生成部を含む深層格学習装置における深層格学習方法であって、
    前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、
    前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、
    を含み、
    前記素性は、前記データ中に存在する、体言、体言文節付属部、用言、及び用言文節付属部の表記文字列を含み、
    前記表記文字列の素性は、前記表記文字列が同一文字列であっても、抽出元の種別が異なれば、別の素性として取り扱われ、
    前記種別は、体言、体言文節付属部、用言、及び用言文節付属部の何れであるかを示す、
    ことを特徴とする深層格学習方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項記載の深層格推定装置の各部として機能させるためのプログラム。
  8. コンピュータを、請求項4記載の深層格学習装置の各部として機能させるためのプログラム。
JP2019057331A 2019-03-25 2019-03-25 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム Active JP6694987B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019057331A JP6694987B2 (ja) 2019-03-25 2019-03-25 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019057331A JP6694987B2 (ja) 2019-03-25 2019-03-25 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016138880A Division JP6586055B2 (ja) 2016-07-13 2016-07-13 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019117657A JP2019117657A (ja) 2019-07-18
JP6694987B2 true JP6694987B2 (ja) 2020-05-20

Family

ID=67304531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019057331A Active JP6694987B2 (ja) 2019-03-25 2019-03-25 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6694987B2 (ja)

Also Published As

Publication number Publication date
JP2019117657A (ja) 2019-07-18

Similar Documents

Publication Publication Date Title
Gal An HMM approach to vowel restoration in Arabic and Hebrew
JP2009521718A (ja) 分散収集された知識を用いる自動文法生成
Tsvetkov et al. Cross-lingual bridges with models of lexical borrowing
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
Lamb et al. Developing an automatic part-of-speech tagger for Scottish Gaelic
JP6586055B2 (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
KR20170008357A (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
Muljono et al. The development of Indonesian POS tagging system for computer-aided independent language learning
JP6694987B2 (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
Moore et al. Incremental dependency parsing and disfluency detection in spoken learner English
JP5823441B2 (ja) 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム
Lee et al. Detection of non-native sentences using machine-translated training data
Zhou et al. Statistical natural language generation for speech-to-speech machine translation
Rauf et al. Automated grammatical error correction: A comprehensive review
Mammadov et al. Part-of-speech tagging for azerbaijani language
Nishy Reshmi et al. Textual entailment classification using syntactic structures and semantic relations
Shquier et al. Fully automated Arabic to English machine translation system: transfer-based approach of AE-TBMT
JP3903820B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Barrie On reducing prosodic categories to phases
Shirko Part of speech tagging for wolaita language using transformation based learning (tbl) approach
JP7429352B2 (ja) 系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム
JP6674411B2 (ja) 発話生成装置、発話生成方法、及び発話生成プログラム
Quan et al. KU Leuven at HOO-2012: a hybrid approach to detection and correction of determiner and preposition errors in non-native English text
JP4812811B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP3850742B2 (ja) 言語モデルの適応化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200414

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200420

R150 Certificate of patent or registration of utility model

Ref document number: 6694987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150