JP7723939B2

JP7723939B2 - ゼロ代名詞同定装置、ゼロ代名詞同定方法、及びプログラム

Info

Publication number: JP7723939B2
Application number: JP2022034729A
Authority: JP
Inventors: 昌明永田; 晟岩田; 太郎渡辺
Original assignee: Nara Institute of Science and Technology NUC; Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: Nara Institute of Science and Technology NUC; NTT Inc; NTT Inc USA
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2025-08-15
Anticipated expiration: 2042-03-07
Also published as: JP2023130197A

Description

特許法第３０条第２項適用２０２１年７月２６日にＴｗｉｔｔｅｒにて公開。２０２１年３月８日に言語処理学会第２７回年次大会（予稿集）にて公開。

本発明は、ゼロ代名詞を同定する技術に関連するものである。

日本語、中国語、アラビア語などでは、文脈から了解可能な主語や目的語を省略することができる。これらは要素を省略することで代名詞(pronoun)と同様に照応等の役割を果たすことから、ゼロ代名詞(zero pronoun)又はpro(small pro)と呼ばれる。

例えば、以下の日本語（JA）の２つ目の文「私は気に入った」では目的語(object)が省略されている。日本語では、「ケーキ」を気に入っていることは１つ目の文から明らかであり、省略する方が自然である。しかし、英語（EN）では目的語を代名詞itで表出する必要がある。

JA このケーキは美味しい。私は(pro-OBJ)気に入った。

EN This cake is delicious. I like (it).
さらにこの例では、日本語の２つ目の文では、下記のように主語(subject)を省略して「気に入った」とした方が、もっと自然である。しかし、英語では主語の省略は許されない。

JA このケーキは美味しい。(pro-SBJ) (pro-OBJ)気に入った。

EN This cake is delicious. (I) like (it).
日本語のように主語や目的語の省略を許容する（ゼロ代名詞が存在する）言語をpro-drop言語、英語のように主語が必須である言語をnon-pro-drop言語という。pro-drop言語からnon-pro-drop言語への翻訳において、pro-drop言語の入力文のゼロ代名詞を同定する技術は、文脈や状況に基づいて文の意味を正しく翻訳するために必須の技術である。

ゼロ代名詞は空範疇(empty category)の一種である。空範疇とは、言語学、特に生成文法において、pro(又はsmall pro)と呼ばれる省略された代名詞(ゼロ代名詞)、PRO(又はbig pro)と呼ばれるコントロールされている明示されていない主語、及び、T(又はtrace)と呼ばれるWH疑問文・関係節などにおける移動の痕跡を表現する空要素(null element,音形を持たない要素)のことである。空範疇は空所(gap)と呼ばれることもある。

Linfeng Song, Kun Xu, Yue Zhang, Jianshu Chen, and Dong Yu. Zpr2: Joint zero pronoun recovery and resolution using multi-task learning and bert. In Proceedings of ACL-2020, pp. 5429-5434,2020. Wei Wu, Fei Wang, Arianna Yuan, Fei Wu, and Jiwei Li. Corefqa: Coreference resolution as query-based span prediction. In Proceedings of ACL-2020, pp. 6953-6963, 2020.

しかし、入力文のゼロ代名詞を同定するための従来技術においては、構文木を得るための構文解析等の外部ツールを必要とする等、複雑な仕組みが必要であるという課題があった。

本発明は上記の点に鑑みてなされたものであり、従来よりも簡単な仕組みで入力文のゼロ代名詞を同定するための技術を提供することを目的とする。

開示の技術によれば、入力された文を分割する単語分割部と、
前記単語分割部により単語分割された前記文から述語を同定する述語同定部と、
訓練済み言語モデルに出力層を追加したモデルであるゼロ代名詞同定モデルと、を備えるゼロ代名詞同定装置であって、
前記ゼロ代名詞同定モデルは、前記述語と前記文を入力とし、前記述語に対する項のスパンを求め、前記スパンのスコアと、前記述語に対する空範疇のスコアとを比較することにより、前記空範疇が存在するかどうかを判定し、前記空範疇が存在する場合に、前記空範疇がゼロ代名詞か否かを判定し、判定結果を出力し、
前記スパンのスコアは、前記項の開始位置が前記スパンの開始位置の単語である確率と、前記項の終了位置が前記スパンの終了位置の単語である確率との積であり、
前記空範疇のスコアは、前記項の開始位置が、前記ゼロ代名詞同定モデルへの入力系列における特殊トークンである確率と、前記項の終了位置が前記特殊トークンである確率との積である
ゼロ代名詞同定装置が提供される。

開示の技術によれば、従来よりも簡単な仕組みで入力文のゼロ代名詞を同定するための技術が提供される。

本発明の実施の形態におけるゼロ代名詞同定システム（ゼロ代名詞同定装置）の構成図である。ゼロ代名詞同定モデル学習部の構成図である。ゼロ代名詞同定モデルを学習する際の処理の流れを示す図である。ゼロ代名詞を同定する際の処理の流れを示す図である。装置のハードウェア構成を示す図である。 NPCMJとOntoNotes 5.0の文書数、文数、述語数を示す図である。 NPCMJとOntoNotesの訓練データにおけるゼロ代名詞の数と割合を示す図である。 NPCMJにおける項スパンの予測精度とゼロ代名詞の同定精度を示す図である。 NPCMJにおけるクラス別のゼロ代名詞の同定精度を示す図である。 OntoNotes 5.0における項スパンの予測精度とゼロ代名詞の同定精度を示す図である。

以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

また、本実施の形態で説明するシステムや装置はいずれも、非特許文献１、２の技術のような従来手法に対して特定の改善を提供するものであり、ゼロ代名詞同定に係る技術分野の向上を示すものである。

なお、以下の説明において引用する参考文献に記載された技術は公知技術であるが、参考文献に記載された技術に対する課題の説明の内容は公知技術ではない。参考文献の番号と文献名は、明細書の最後にまとめて記載した。下記の説明において挙げている参考文献の番号を"[1]"等のように示している。

（実施の形態の概要）
まず、本実施の形態の概要を説明する。本実施の形態では、訓練済み言語モデルを用いたスパン予測を行う仕組みを、課題解決のための基本的な仕組みとして使用する。これにより、簡単で高精度なゼロ代名詞同定を実現している。

後述するゼロ代名詞同定装置において、主語、直接目的語、間接目的語などの項のタイプごとに、述語に対する項のスパンを求め、項のスパンのスコアと項が空範疇であるスコアを比較して、述語の特定の項が空範疇であるかを判定し、さらにその空範疇がゼロ代名詞であるかを判定することによって、単純な系列ラベリングよりも高精度なゼロ代名詞同定を実現している。

以下では、まず、本実施の形態に係る技術を理解し易くするために、ゼロ代名詞同定に関連する種々の参考技術について説明する。その後に、課題、及び、本実施の形態に係る装置構成及びその動作を説明する。

（参考技術について）
＜ラベリング問題としてのゼロ代名詞同定＞
従来のゼロ代名詞同定手法の多くは、木又は系列のラベリング問題としてゼロ代名詞同定を扱っている。

Xiangら[7]や竹野ら[5]は、文の構文木を入力とし、述語の最大投射である節に対応するノードを、ゼロ代名詞の有無(二値)又はゼロ代名詞の種類(多値)に関して分類する。参考文献[7]、[5]における処理対象は、ゼロ代名詞だけでなく、移動の痕跡(trace)を含む空範疇(empty category)である。

Songら[4]は、単語の系列としての文を入力とし、すべての単語境界を、ゼロ代名詞の有無(二値)又はゼロ代名詞の種類(多値)に関して分類する。

＜訓練済み言語モデルを用いた質問応答＞
BERT[1]は、Transformerのエンコーダを用いて、入力系列の各単語に対して前後の文脈を考慮した単語ベクトルを出力する言語表現モデル(language representation model) である。近年では、言語表現モデルを単に言語モデル(language model)と呼ぶこともある。

マスクされた単語を前後の文脈から予測するクローズテスト(cloze test)又は穴埋め言語モデル(masked language model)タスク等を用いて大規模な言語データから言語モデルを作成することを事前訓練(pre-train)と呼び、作成された言語モデルを訓練済み言語モデル(pre-trained language model)と呼ぶ。

BERT等の訓練済み言語モデルに適当な出力層を加え、対象とするタスクの訓練データで転移学習(fine-tune, ファインチューン)すると、意味テキスト類似度、自然言語推論(テキスト含意認識)、質問応答、固有表現抽出など様々なタスクで最高精度を達成できると報告されている[1]。

例えば、SQuAD形式の質問応答(question answering, QA)は、テキストと質問(クエリ, query)が与えられ、質問に対する回答がテキストにある、言い換えれば、テキストの部分文字列(スパン,span)が回答であるようなタスクである[3]。

訓練済み言語モデルを用いたSQuAD形式の質問応答では、まず'[CLS]質問[SEP]テキスト[SEP]'のように質問とテキストの二つの系列を、特殊記号を用いて連結して一つの系列とし、訓練済み言語モデルに入力として与える。次に訓練済み言語モデルが入力系列の各単語に対して出力する単語ベクトルを用いて、その単語が質問に対する回答(スパン)の開始点になる確率及び終了点となる確率を予測し、最も確率が大きいスパンを質問に対する回答としてテキストから抽出する。

ここで[CLS]は二つの入力系列の情報を集約するベクトルを作成するための特殊なトークンであり、[SEP]は入力系列の区切りを表すトークンである。SQuAD v2.0[2]のように回答できない質問には回答できないことを示す必要がある場合には、[CLS]に対するベクトルの出力層に回答の可否を判定する分類器を配置する。

＜質問応答に基づく共参照解析＞
近年では、訓練済み言語モデルを用いた質問応答あるいはスパン予測を、様々な言語処理技術に応用する手法が提案されている。

ゼロ代名詞同定に比較的似ている問題では、Wu[6]らは、質問応答の枠組みを使って共参照解析を実現する方法を提案している。参考文献[6]に開示されている方法では、ある実体への言及(mention)を含む文について、言及を特殊トークン< mention>と</mention >で囲んだ文を質問として、質問に含まれる言及と同じ実体を指示する言及の集合をテキストから抽出する問題を、BIOタギングを用いたテキストの系列分類問題として扱う。

（課題、及びその解決手段について）
従来技術では、構文木を得るための構文解析等の外部ツールを必要とするなど、ゼロ代名詞同定を実現するために複雑な仕組みが必要であった。

そこで、本実施の形態では、訓練済み言語モデルを用いたスパン予測の枠組みを用いて、日本語のゼロ代名詞同定を実現することとしている。これにより、従来のように構文木を得るための構文解析等の外部ツールを必要とせず、訓練済み言語モデルとゼロ代名詞同定の正解データから簡単な仕組みで、系列ラベリングに基づく方法より高精度にゼロ代名詞同定を実現できる。

（実施の形態に係る技術の説明）
＜装置構成例＞
図１に、本実施の形態におけるゼロ代名詞同定システム（ゼロ代名詞同定装置と呼んでもよい）の全体構成例を示す。

図１に示すように、ゼロ代名詞同定システムは、入力部１１１、ゼロ代名詞同定モデル学習部１１０、出力部１１２、ゼロ代名詞同定訓練データＤＢ１２０、訓練済み多言語モデルＤＢ１３０、入力部２１１、単語分割部２１０、述語同定部２２０、ゼロ代名詞同定部２３０、出力部２３１、ゼロ代名詞同定モデルＤＢ２４０を備える。

また、図１に示す構成が１つの装置（コンピュータ）で実現されてもよいし、複数の装置（コンピュータ）で構成されてもよい。

また、図１において点線枠で示すように、入力部１１１、ゼロ代名詞同定モデル学習部１１０、出力部１１２、訓練済み多言語モデルＤＢ１３０を備える装置１００が構成されてもよい。装置１００は、学習装置と呼んでもよいし、ゼロ代名詞同定装置と呼んでもよい。

また、入力部２１１、単語分割部２１０、述語同定部２２０、ゼロ代名詞同定部２３０、出力部２３１、ゼロ代名詞同定モデルＤＢ２４０を備える装置２００が構成されてもよい。置２００は、推定装置と呼んでもよいし、ゼロ代名詞同定装置と呼んでもよい。

ゼロ代名詞同定訓練データＤＢ１２０には、訓練データとして、訓練（学習）用の文と、正解データが格納されている。訓練（学習）用の文は、単語分割及び述語同定が済んだ文であってもよいし、単語分割及び述語同定の処理の前の文であってもよい。

後述する学習時の処理では、学習時においても、推定時と同様に、単語分割及び述語同定を実施する場合の例を示している。この場合のゼロ代名詞同定モデル学習部１１０の構成例を図２に示す。図２に示すように、ゼロ代名詞同定モデル学習部１１０は、単語分割部１１３、述語同定部１１４、ゼロ代名詞同定部１１５、及びパラメータ更新部１１６を備える。単語分割部１１３、述語同定部１１４、ゼロ代名詞同定部１１５はそれぞれ、推定時に使用される単語分割部２１０、述語同定部２２０、ゼロ代名詞同定部２３０と同じ機能を含む。

＜概要動作例＞
ゼロ代名詞同定システムにおける各部の動作の概要を、図３、図４のフローチャートを参照して説明する。なお、各処理の内容の具体的説明は後述する。

まず、図３のフローチャートを参照して、ゼロ代名詞同定モデルを学習する際の動作を説明する。以下の処理において、ゼロ代名詞同定部１１５は、訓練済み言語モデルＤＢ１３０から訓練済み言語モデルを読み出し、訓練済み言語モデルに出力層を追加したゼロ代名詞同定モデル（学習前のモデル）をメモリ等の記憶部に保持しているとする。ゼロ代名詞同定部１１５による処理はゼロ代名詞同定モデルを用いて行われる。あるいは、ゼロ代名詞同定部１１５がゼロ代名詞同定モデルであると考えてもよい。

Ｓ１０１において、入力部１１１は、ゼロ代名詞同定訓練データＤＢ１２０からゼロ代名詞同定訓練データである文を読み出し、単語分割部１１３に入力する。

Ｓ１０２において、単語分割部１１３は、入力された文を単語分割し、述語同定部１１４が、文における述語を同定する。

ゼロ代名詞同定部１１５は、Ｓ１０３～Ｓ１０６の処理を、文中の全ての述語の全ての項タイプについて繰り返す。ゼロ代名詞同定部１１５は、Ｓ１０３において、述語に対して項のスコアが最大となるスパンを求め、Ｓ１０４において、述語に対して項が空範疇であるスコアを求める。

Ｓ１０５において、ゼロ代名詞同定部１１５は、スパンのスコアが空範疇のスコア以上か否かを判定し、判定結果がＮｏであればＳ１０６に進み、空範疇を分類してゼロ代名詞を同定する。

Ｓ１０５の判定結果がＹｅｓであれば次の処理対象の処理を行う。文中の全ての述語の全ての項タイプについての処理が終了するとＳ１０７に進む。

Ｓ１０７において、パラメータ更新部１１６は、学習処理が収束したかどうかを判定し、Ｎｏであれば、ゼロ代名詞同定モデルの学習パラメータを更新する（Ｓ１０８）。なお、学習処理が収束したかどうかの判定についてはどのような方法を用いてもよい。例えば、推定結果と正解データとの誤差が閾値以下になったことを収束と判断してもよいし、処理の繰り返し回数が予め定めた回数に達した場合に収束と判断してもよい。

Ｓ１０７の判定結果がＹｅｓである場合、ゼロ代名詞同定モデル学習部１１０は、現在のゼロ代名詞同定モデルの学習パラメータ（モデルパラメータ）を出力部１１２に渡し、出力部１１２は、学習パラメータをゼロ代名詞同定モデルＤＢ２４０に格納する。

なお、本実施の形態における"モデル"は、ニューラルネットワークのモデルであり、ＤＢ等の記憶部に格納される際には、重みのパラメータ等からなるデータとして格納されるものである。

次に、図４のフローチャートを参照して、入力文からゼロ代名詞を同定（推定）する際の動作を説明する。ここでの処理において、ゼロ代名詞同定部２３０は、ゼロ代名詞同定モデルＤＢ２４０から学習済みのゼロ代名詞同定モデルを読み出し、メモリ等の記憶部に保持しているとする。ゼロ代名詞同定部２３０による処理はゼロ代名詞同定モデルを用いて行われる。あるいは、ゼロ代名詞同定部２３０がゼロ代名詞同定モデルであると考えてもよい。

Ｓ２０１において、入力部２１１により、文を単語分割部２１０に入力する。Ｓ２０２において、単語分割部２１０が、入力された文を単語分割し、述語同定部２２０が、分割された単語群から文における述語を同定する。

ゼロ代名詞同定部２３０は、Ｓ２０３～Ｓ２０６の処理を、文中の全ての述語の全ての項タイプについて繰り返す。ゼロ代名詞同定部２３０は、Ｓ２０３において、述語に対して項のスコアが最大となるスパンを求め、Ｓ２０４において、述語に対して項が空範疇であるスコアを求める。

Ｓ２０５において、ゼロ代名詞同定部２３０は、スパンのスコアが空範疇のスコア以上か否かを判定し、判定結果がＮｏであればＳ２０６に進み、空範疇を分類してゼロ代名詞を同定する。

Ｓ２０５の判定結果がＹｅｓであれば次の処理対象の処理を行う。文中の全ての述語の全ての項タイプについての処理が終了するとＳ２０７に進む。

Ｓ２０７において、ゼロ代名詞同定部２３０は、ゼロ代名詞を出力部２３１に渡し、出力部２３１は、ゼロ代名詞を出力する。なお、ゼロ代名詞を出力するとは、述語に対するゼロ代名詞があることを示す情報を出力すること、ゼロ代名詞の種類を出力すること等、どのような出力形態であってもよい。

以下、ゼロ代名詞同定システムにおける処理動作に関わる内容をより詳細に説明する。

（空範疇とゼロ代名詞について）
前述したとおり、空範疇(empty category)とは、言語学、特に生成文法において、pro(又はsmall pro)と呼ばれる省略された代名詞(ゼロ代名詞)、PRO(又はbig pro)と呼ばれるコントロールされている明示されていない主語、及び、T(又はtrace)と呼ばれるWH疑問文・関係節などにおける移動の痕跡を表現する空要素(null element,音形を持たない要素)のことである。空範疇は空所(gap)と呼ばれることもある。

本実施の形態では、主語、直接目的語、間接目的語のような、述語に対する項(argument)の種類を項タイプと呼び、argで表すことにする。

ゼロ代名詞同定部１１５／２３０は、ある述語について、その述語が必要とする項タイプごとに項を入力文のスパンとして予測し、もしその項タイプのスパンが見つからなければ、その項タイプの項は空範疇であると判定する。

ゼロ代名詞同定部１１５／２３０は、ゼロ代名詞の有無を判定する場合には、空範疇をゼロ代名詞であるか否かの二値に分類する。後述するNPCMJのようにゼロ代名詞がさらにpro, speaker, hearerなどに細分化されている場合には、ゼロ代名詞以外の空範疇, pro, speaker, hearerのように空範疇を多値に分類する。

（質問応答に基づく日本語ゼロ代名詞同定について）
本実施の形態では、訓練済み言語モデルを用いた質問応答の実現方法[1]を日本語のゼロ代名詞同定に応用する。すなわち、ゼロ代名詞同定を、述語を質問とし、文をテキストとし、ゼロ代名詞を回答とするようなSQuAD形式の質問応答とみなす。

まず入力文となるテキストは、単語分割部１１３／２１０及び述語同定部１１４／２２０に相当する形態素解析ソフトウェア等を用いた前処理により、単語に分割され、入力文中の述語が同定されているとする。

ある文におけるゼロ代名詞を同定する場合、ゼロ代名詞同定部１１５／２３０（あるいは、ゼロ代名詞同定部１１５／２３０への入力を行う述語同定部１１４／２２０）は、'[CLS]質問[SEP]文[SEP]'という入力系列を作成する。

入力文ｘにおける質問は以下のように構成する。

{ x_qs-C:qs-1, [S-PRED], x_qs:qe, [E-PRED], x_qe+1:qe+C}
ここでCは、述語に対応するスパンx_qs:qeの前後の文脈窓(context window)の大きさ（単語数）である。スパンx_qs:qeにおけるqsはスパンの開始位置であり、qeはスパンの終了位置である。

[S-PRED]と[E-PRED]は述語の開始と終了を示す特殊記号(boundary marker)である。例えば以下の例文１では、ゼロ代名詞を表すφを除くと、「大学,へ,着き,まし,た」の５つの単語がある。

(例文１) (φ) 大学へ着きました
(pro)-SBJ university at VB AX AXD
例文１における「着き」を述語とし、文脈窓C=1の場合、x_qs-C:qs-1,は、「着き」の１つ前の単語になり、x_qe+1:qe+Cは、「着き」の１つ後の単語になるので、質問は以下のように構成される。

{"へ",[S-PRED],"着き", [E-PRED],"まし"}
以下、ゼロ代名詞同定部１１５／２３０に相当するゼロ代名詞同定モデルの構成及び動作について説明する。以下で説明するゼロ代名詞同定モデルの動作は全てニューラルネットワークで実現してもよいし、ニューラルネットワークと、ニューラルネットワーク以外のプログラムとの組み合わせで実現してもよい。

（スパン予測による項の抽出と空範疇の検出について）
本実施の形態では、ゼロ代名詞同定モデルへの入力となる述語に対して特定のタイプの項の開始位置と終了位置を予測するために、ゼロ代名詞同定モデルは、訓練済み言語モデルに追加する形で、二つの独立な出力層(線形層)を含む。二つの独立な出力層のうち、１つの出力層は項の開始位置を予測し、もう１つの出力層は項の終了位置を予測する。ゼロ代名詞同定モデルによる項の抽出と空範疇の検出は以下のようにして実行される。

入力文xにおいてスパンx_i:jが項タイプargのスパンであるスコアを式（１）に示す。式（１）に示すとおり、当該スコアscore_arg(i, j)は、項タイプargの項の開始位置がi番目の単語x_iである確率と、項タイプargの項の終了位置がj番目の単語x_jである確率の積と定義する。

また、式（２）に示すように、score_arg(i, j)を最大にする開始位置と終了位置を^iと^jとする。なお、本明細書のテキストにおいては、記載の便宜上、文字の頭に付される記号を文字の前に記載している。^iはその例である。

入力系列における文中に項タイプargのスパンが存在しない場合、項の開始位置と終了位置は特殊トークン[CLS]の位置だとみなし、空範疇nullのスコアを以下の式（３）のように定義する。

空範疇のスコアscore_nullと項のスコアscore_arg(^i,^j)の関係として以下の２つの場合を考える。

式（４）が成立する場合、つまり、項のスコアが空範疇のスコアより大きいか等しい場合、項タイプargの項がxの^i番目から^j番目に存在するとみなす。式（５）が成立する場合、つまり、項のスコアが空範疇のスコアより小さい場合、空範疇が存在するとみなす。

学習時（訓練時）における一つの述語に関する項のスパン予測に対する損失は、式（６）に示すとおり、正解の開始位置i´と終了位置j´に対するクロスエントロピー損失として定義する。

（空範疇の分類について）
ゼロ代名詞の有無又はゼロ代名詞の種類を判定するために、ゼロ代名詞同定モデルは、訓練済み言語モデルに追加する形で、更に、特殊トークン[CLS]に対して独立した出力層(線形層)を含む。当該出力層は、ゼロ代名詞の有無又はゼロ代名詞の種類を判定する。

項タイプargの空範疇がクラスclassである確率を以下の式（７）に示すように定義する。式（７）により、クラス毎の確率が出力される。

ここで、重みW_arg∈R^H×num_classとバイアスb_arg∈R^num_classはパラメータである。h_[CLS]∈R^Hは、[CLS]に対する訓練済み言語モデルのエンコーダの最終層の埋め込みベクトルである。Hは訓練済み言語モデルの隠れ層のサイズである。num_classはクラス数である。クラスclassは、ゼロ代名詞の有無を判定する場合には、ゼロ代名詞以外の空範疇とゼロ代名詞の二つのクラスを表す。また、クラスclassは、pro, speaker, hearerのようにゼロ代名詞の種類まで判定する場合には、n個のゼロ代名詞の種類にゼロ代名詞以外の空範疇を加えたn +1個のクラスを表す。例えば、最も高い確率のクラスを分類結果として出力することができる。

学習時における空範疇の分類に対する損失は、正解のクラスラベルに対するクロスエントロピー損失として式（８）に示すように定義する。

（ゼロ代名詞同定モデルの学習について）
学習時において、ゼロ代名詞同定モデルは、下記の式（９）のloss_totalを最適化（最小化）するように学習される。

すなわち、ゼロ代名詞同定モデルは、訓練データ（正解データ）に対して、項のスパン予測に関する損失loss_spanと空範疇の分類に関する損失loss_labelの重み付き和を目的関数(損失関数)として、これを最適化(最小化)するように学習される。

ここでα（０＜α＜２）は、二つの損失関数に対する重みを表すハイパーパラメータである。

（ハードウェア構成例）
以上説明したゼロ代名詞同定システム、装置１００、及び装置２００はいずれも、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。ゼロ代名詞同定システム、装置１００、及び装置２００を総称して「装置」と呼ぶ。

すなわち、当該装置は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

図５は、上記コンピュータのハードウェア構成例を示す図である。図５のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置１００５は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

（実施の形態の効果）
本実施の形態に係る技術の有効性を検証するために、評価実験を行ったので、以下にその内容を説明する。

＜評価実験に使用したデータについて＞
評価実験において、日本語については国立国語研究所が作成したNPCMJ(NINJAL Parsed Corpus of Modern Japanese)の2020年3月版、中国語については米国のLDC(Linguistic Data Consortium)が作成したOntoNotes 5.0を使用した。NPCMJとOntoNotes 5.0の文書数、文数、述語数を図６に示す。

NPCMJは日本語の文に対して空範疇の情報を含む句構造の構文木が付与されたコーパスである。このデータでは、ゼロ代名詞を含む述語に対する項に対して'-SBJ'(主語),'-OB1'(直接目的語),'OB2'(間接目的語)というタグが付与されている。またゼロ代名詞は、pro, speaker, hearerなどに分類されている。

OntoNotes 5.0は、英語、中国語、アラビア語に対して様々な言語情報が付与されたコーパスである。この中で本実験では、中国語の文に対して空範疇を含む句構造の構文木が付与されたデータを使用する。このデータでは、ゼロ代名詞を含む述語に対する項に対して'-SBJ'(主語), '-OBJ'(目的語), '-IO'(間接目的語)というタグが付与されている。

図７に、NPCMJとOntoNotesの訓練データにおけるゼロ代名詞の数を、主語、直接目的語、間接目的語に分けて示す。括弧の中は、それぞれの要素でゼロ代名詞が出現する割合である。主語については、日本語と英語はどちらも20%程度の省略がある。直接目的語や間接目的語は、主語に比べて省略される割合は小さい。特に中国語の場合、直接目的語や間接目的語が省略される割合は非常に小さい。

＜実験結果について＞
訓練済み言語モデルとして、日本語はNICT BERTを使用し、中国語はHuggingFace Transformersのbert-base-chineseを使用した。日本語の文はJuman辞書を使ったMeCab でトークン化し、中国語はBERT Tokenizerでトークン化した。なお、トークン化とは前述した単語分割に相当する。

ハイパーパラメータは、batchi_size=16、learning_rate=3e-5、training_epoch=4、C=2、α=1である。

ベースライン手法としては、BERTに基づく系列分類[1]を用いた。文に対して、特定のゼロ代名詞を持つ述語をBIOES形式の系列ラベリング問題として求める。また、ゼロ代名詞同定モデルとして、異なる項タイプに対して異なるモデルを作成した。

図８に、NPCMJにおける項スパンの予測精度とゼロ代名詞の同定精度を示す。ALLはSBJ, OB1, OB2の和を表す。本発明に係る技術では、系列ラベリングに基づくベースラインに比べて、ゼロ代名詞の同定精度がF1で4ポイント向上している。

図９に、NPCMJにおけるクラス別のゼロ代名詞の同定精度を示す。表の値は、SBJ,OB1,OB2の和に対する値を表す。pro, speaker, hearerのようにゼロ代名詞を細分化した場合でも、本発明に係る技術は、系列ラベリングに基づくベースラインに比べて、ゼロ代名詞の同定精度が高い。

図１０に、OntoNotes 5.0における項スパンの予測精度とゼロ代名詞の同定精度を示す。ALLはSBJ, OBJ,IOの和を表す。本発明は、系列ラベリングに基づくベースラインに比べて、ゼロ代名詞の同定精度がF1 で9ポイント向上している。

（付記）
以上の実施形態に関し、更に以下の付記項を開示する。
（付記項１）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、
前記プロセッサは、
入力された文を単語に分割し、
単語分割された前記文から述語を同定し、
訓練済み言語モデルに出力層を追加したモデルであるゼロ代名詞同定モデルを用いて、前記述語に対する項のスパンを求め、前記スパンのスコアと、前記述語に対する空範疇のスコアとを比較することにより、前記空範疇が存在するかどうかを判定し、前記空範疇が存在する場合に、前記空範疇を分類することによりゼロ代名詞の有無を判定する
ゼロ代名詞同定装置。
（付記項２）
前記プロセッサは、前記スパンのスコアよりも前記空範疇のスコアのほうが大きい場合に、前記空範疇が存在すると判定する
付記項１に記載のゼロ代名詞同定装置。
（付記項３）
前記スパンのスコアは、前記項の開始位置が前記スパンの開始位置の単語である確率と、前記項の終了位置が前記スパンの終了位置の単語である確率との積であり、
前記空範疇のスコアは、前記項の開始位置が、前記ゼロ代名詞同定モデルへの入力系列における特殊トークンである確率と、前記項の終了位置が前記特殊トークンである確率との積である
付記項１又は２に記載のゼロ代名詞同定装置。
（付記項４）
前記プロセッサは、前記空範疇を、複数個のゼロ代名詞の種類、及び、ゼロ代名詞以外の空範疇、のうちのいずれかのクラスに分類する
付記項１ないし３のうちいずれか１項に記載のゼロ代名詞同定装置。
（付記項５）
前記プロセッサは、正解データを用いて、スパン予測に関する損失と空範疇に関する損失の重み付き和が最小になるように、前記ゼロ代名詞同定モデルのパラメータを更新する
付記項１ないし４のうちいずれか１項に記載のゼロ代名詞同定装置。
（付記項６）
コンピュータのプロセッサが実行するゼロ代名詞同定方法であって、
入力された文を分割する単語分割ステップと、
前記単語分割ステップにより単語分割された前記文から述語を同定する述語同定ステップと、
訓練済み言語モデルに出力層を追加したモデルであるゼロ代名詞同定モデルを用いて、前記述語に対する項のスパンを求め、前記スパンのスコアと、前記述語に対する空範疇のスコアとを比較することにより、前記空範疇が存在するかどうかを判定し、前記空範疇が存在する場合に、前記空範疇を分類することによりゼロ代名詞の有無を判定するゼロ代名詞同定ステップと
を備えるゼロ代名詞同定方法。
（付記項７）
ゼロ代名詞同定処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記ゼロ代名詞同定処理は、
入力された文を単語に分割し、
単語分割された前記文から述語を同定し、
訓練済み言語モデルに出力層を追加したモデルであるゼロ代名詞同定モデルを用いて、前記述語に対する項のスパンを求め、前記スパンのスコアと、前記述語に対する空範疇のスコアとを比較することにより、前記空範疇が存在するかどうかを判定し、前記空範疇が存在する場合に、前記空範疇を分類することによりゼロ代名詞の有無を判定する
非一時的記憶媒体。
（参考文献）
[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the NAACL-2019, pp.4171-4186, 2019.
[2] Pranav Rajpurkar, Robin Jia, and Percy Liang. Know what you don't know: Unanswerable questions for squad. In Proceedings of the ACL-2018, pp. 784-789, 2018.
[3] Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Squad: 100,000+ questions for machine comprehension of text. In Proceedings of EMNLP-2016, pp. 2383-2392, 2016.
[4] Linfeng Song, Kun Xu, Yue Zhang, Jianshu Chen, and Dong Yu. Zpr2: Joint zero pronoun recovery and resolution using multi-task learning and bert. In Proceedings of ACL-2020, pp. 5429-5434,2020.
[5] Shunsuke Takeno, Masaaki Nagata, and Kazuhide Yamamoto. Empty category detection using path features and distributed case frames. In Proceedings of EMNLP-2015, pp. 1335-1340, 2015.
[6] Wei Wu, Fei Wang, Arianna Yuan, Fei Wu, and Jiwei Li. Corefqa: Coreference resolution as query-based span prediction. In Proceedings of ACL-2020, pp. 6953-6963, 2020.
[7] Bing Xiang, Xiaoqiang Lue, and Bowen Zhou. Enlisting the ghost: Modeling empty categories for machine translation. In ACL-2013, pp. 822-831, 2013.

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１１０ゼロ代名詞同定モデル学習部
１１１入力部
１１２出力部
１１３単語分割部
１１４述語同定部
１１５ゼロ代名詞同定部
１１６パラメータ更新部
１２０ゼロ代名詞同定訓練データＤＢ
１３０訓練済み多言語モデルＤＢ
２１０単語分割部
２１１入力部
２２０述語同定部
２３０ゼロ代名詞同定部
２３１出力部
２４０ゼロ代名詞同定モデルＤＢ
１０００ドライブ装置
１００１記録媒体
１００２補助記憶装置
１００３メモリ装置
１００４ＣＰＵ
１００５インタフェース装置
１００６表示装置
１００７入力装置
１００８出力装置

Claims

入力された文を分割する単語分割部と、
前記単語分割部により単語分割された前記文から述語を同定する述語同定部と、
訓練済み言語モデルに出力層を追加したモデルであるゼロ代名詞同定モデルと、を備えるゼロ代名詞同定装置であって、
前記ゼロ代名詞同定モデルは、前記述語と前記文を入力とし、前記述語に対する項のスパンを求め、前記スパンのスコアと、前記述語に対する空範疇のスコアとを比較することにより、前記空範疇が存在するかどうかを判定し、前記空範疇が存在する場合に、前記空範疇がゼロ代名詞か否かを判定し、判定結果を出力し、
前記スパンのスコアは、前記項の開始位置が前記スパンの開始位置の単語である確率と、前記項の終了位置が前記スパンの終了位置の単語である確率との積であり、
前記空範疇のスコアは、前記項の開始位置が、前記ゼロ代名詞同定モデルへの入力系列における特殊トークンである確率と、前記項の終了位置が前記特殊トークンである確率との積である
ゼロ代名詞同定装置。
前記ゼロ代名詞同定モデルは、前記スパンのスコアよりも前記空範疇のスコアのほうが大きい場合に、前記空範疇が存在すると判定する
請求項１に記載のゼロ代名詞同定装置。
前記ゼロ代名詞同定モデルは、前記空範疇を、複数個のゼロ代名詞の種類、及び、ゼロ代名詞以外の空範疇、のうちのいずれかのクラスに分類する
請求項１又は２に記載のゼロ代名詞同定装置。
正解データを用いて、スパン予測に関する損失と空範疇に関する損失の重み付き和が最小になるように、前記ゼロ代名詞同定モデルのパラメータを更新するパラメータ更新部
を更に備える請求項１ないし３のうちいずれか１項に記載のゼロ代名詞同定装置。
訓練済み言語モデルに出力層を追加したモデルであるゼロ代名詞同定モデルを備えるコンピュータが実行するゼロ代名詞同定方法であって、
前記コンピュータが、入力された文を分割する単語分割ステップと、
前記コンピュータが、前記単語分割ステップにより単語分割された前記文から述語を同定する述語同定ステップと、
前記コンピュータにおける前記ゼロ代名詞同定モデルが、前記述語と前記文を入力とし、前記述語に対する項のスパンを求め、前記スパンのスコアと、前記述語に対する空範疇のスコアとを比較することにより、前記空範疇が存在するかどうかを判定し、前記空範疇が存在する場合に、前記空範疇がゼロ代名詞か否かを判定し、判定結果を出力するゼロ代名詞同定ステップと、を備え、
前記スパンのスコアは、前記項の開始位置が前記スパンの開始位置の単語である確率と、前記項の終了位置が前記スパンの終了位置の単語である確率との積であり、
前記空範疇のスコアは、前記項の開始位置が、前記ゼロ代名詞同定モデルへの入力系列における特殊トークンである確率と、前記項の終了位置が前記特殊トークンである確率との積である
ゼロ代名詞同定方法。
コンピュータを、請求項１ないし４のうちいずれか１項に記載のゼロ代名詞同定装置における各部及び前記ゼロ代名詞同定モデルとして機能させるためのプログラム。