JP7723939B2 - ゼロ代名詞同定装置、ゼロ代名詞同定方法、及びプログラム - Google Patents
ゼロ代名詞同定装置、ゼロ代名詞同定方法、及びプログラムInfo
- Publication number
- JP7723939B2 JP7723939B2 JP2022034729A JP2022034729A JP7723939B2 JP 7723939 B2 JP7723939 B2 JP 7723939B2 JP 2022034729 A JP2022034729 A JP 2022034729A JP 2022034729 A JP2022034729 A JP 2022034729A JP 7723939 B2 JP7723939 B2 JP 7723939B2
- Authority
- JP
- Japan
- Prior art keywords
- zero pronoun
- identification
- zero
- span
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
さらにこの例では、日本語の2つ目の文では、下記のように主語(subject)を省略して「気に入った」とした方が、もっと自然である。しかし、英語では主語の省略は許されない。
日本語のように主語や目的語の省略を許容する(ゼロ代名詞が存在する)言語をpro-drop言語、英語のように主語が必須である言語をnon-pro-drop言語という。pro-drop言語からnon-pro-drop言語への翻訳において、pro-drop言語の入力文のゼロ代名詞を同定する技術は、文脈や状況に基づいて文の意味を正しく翻訳するために必須の技術である。
前記単語分割部により単語分割された前記文から述語を同定する述語同定部と、
訓練済み言語モデルに出力層を追加したモデルであるゼロ代名詞同定モデルと、を備えるゼロ代名詞同定装置であって、
前記ゼロ代名詞同定モデルは、前記述語と前記文を入力とし、前記述語に対する項のスパンを求め、前記スパンのスコアと、前記述語に対する空範疇のスコアとを比較することにより、前記空範疇が存在するかどうかを判定し、前記空範疇が存在する場合に、前記空範疇がゼロ代名詞か否かを判定し、判定結果を出力し、
前記スパンのスコアは、前記項の開始位置が前記スパンの開始位置の単語である確率と、前記項の終了位置が前記スパンの終了位置の単語である確率との積であり、
前記空範疇のスコアは、前記項の開始位置が、前記ゼロ代名詞同定モデルへの入力系列における特殊トークンである確率と、前記項の終了位置が前記特殊トークンである確率との積である
ゼロ代名詞同定装置が提供される。
まず、本実施の形態の概要を説明する。本実施の形態では、訓練済み言語モデルを用いたスパン予測を行う仕組みを、課題解決のための基本的な仕組みとして使用する。これにより、簡単で高精度なゼロ代名詞同定を実現している。
<ラベリング問題としてのゼロ代名詞同定>
従来のゼロ代名詞同定手法の多くは、木又は系列のラベリング問題としてゼロ代名詞同定を扱っている。
BERT[1]は、Transformerのエンコーダを用いて、入力系列の各単語に対して前後の文脈を考慮した単語ベクトルを出力する言語表現モデル(language representation model) である。近年では、言語表現モデルを単に言語モデル(language model)と呼ぶこともある。
近年では、訓練済み言語モデルを用いた質問応答あるいはスパン予測を、様々な言語処理技術に応用する手法が提案されている。
従来技術では、構文木を得るための構文解析等の外部ツールを必要とするなど、ゼロ代名詞同定を実現するために複雑な仕組みが必要であった。
<装置構成例>
図1に、本実施の形態におけるゼロ代名詞同定システム(ゼロ代名詞同定装置と呼んでもよい)の全体構成例を示す。
ゼロ代名詞同定システムにおける各部の動作の概要を、図3、図4のフローチャートを参照して説明する。なお、各処理の内容の具体的説明は後述する。
前述したとおり、空範疇(empty category)とは、言語学、特に生成文法において、pro(又はsmall pro)と呼ばれる省略された代名詞(ゼロ代名詞)、PRO(又はbig pro)と呼ばれるコントロールされている明示されていない主語、及び、T(又はtrace)と呼ばれるWH疑問文・関係節などにおける移動の痕跡を表現する空要素(null element,音形を持たない要素)のことである。空範疇は空所(gap)と呼ばれることもある。
本実施の形態では、訓練済み言語モデルを用いた質問応答の実現方法[1]を日本語のゼロ代名詞同定に応用する。すなわち、ゼロ代名詞同定を、述語を質問とし、文をテキストとし、ゼロ代名詞を回答とするようなSQuAD形式の質問応答とみなす。
ここでCは、述語に対応するスパンxqs:qeの前後の文脈窓(context window)の大きさ(単語数)である。スパンxqs:qeにおけるqsはスパンの開始位置であり、qeはスパンの終了位置である。
(pro)-SBJ university at VB AX AXD
例文1における「着き」を述語とし、文脈窓C=1の場合、xqs-C:qs-1,は、「着き」の1つ前の単語になり、xqe+1:qe+Cは、「着き」の1つ後の単語になるので、質問は以下のように構成される。
以下、ゼロ代名詞同定部115/230に相当するゼロ代名詞同定モデルの構成及び動作について説明する。以下で説明するゼロ代名詞同定モデルの動作は全てニューラルネットワークで実現してもよいし、ニューラルネットワークと、ニューラルネットワーク以外のプログラムとの組み合わせで実現してもよい。
本実施の形態では、ゼロ代名詞同定モデルへの入力となる述語に対して特定のタイプの項の開始位置と終了位置を予測するために、ゼロ代名詞同定モデルは、訓練済み言語モデルに追加する形で、二つの独立な出力層(線形層)を含む。二つの独立な出力層のうち、1つの出力層は項の開始位置を予測し、もう1つの出力層は項の終了位置を予測する。ゼロ代名詞同定モデルによる項の抽出と空範疇の検出は以下のようにして実行される。
ゼロ代名詞の有無又はゼロ代名詞の種類を判定するために、ゼロ代名詞同定モデルは、訓練済み言語モデルに追加する形で、更に、特殊トークン[CLS]に対して独立した出力層(線形層)を含む。当該出力層は、ゼロ代名詞の有無又はゼロ代名詞の種類を判定する。
学習時において、ゼロ代名詞同定モデルは、下記の式(9)のlosstotalを最適化(最小化)するように学習される。
以上説明したゼロ代名詞同定システム、装置100、及び装置200はいずれも、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。ゼロ代名詞同定システム、装置100、及び装置200を総称して「装置」と呼ぶ。
本実施の形態に係る技術の有効性を検証するために、評価実験を行ったので、以下にその内容を説明する。
評価実験において、日本語については国立国語研究所が作成したNPCMJ(NINJAL Parsed Corpus of Modern Japanese)の2020年3月版、中国語については米国のLDC(Linguistic Data Consortium)が作成したOntoNotes 5.0を使用した。NPCMJとOntoNotes 5.0の文書数、文数、述語数を図6に示す。
訓練済み言語モデルとして、日本語はNICT BERTを使用し、中国語はHuggingFace Transformersのbert-base-chineseを使用した。日本語の文はJuman辞書を使ったMeCab でトークン化し、中国語はBERT Tokenizerでトークン化した。なお、トークン化とは前述した単語分割に相当する。
以上の実施形態に関し、更に以下の付記項を開示する。
(付記項1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
入力された文を単語に分割し、
単語分割された前記文から述語を同定し、
訓練済み言語モデルに出力層を追加したモデルであるゼロ代名詞同定モデルを用いて、前記述語に対する項のスパンを求め、前記スパンのスコアと、前記述語に対する空範疇のスコアとを比較することにより、前記空範疇が存在するかどうかを判定し、前記空範疇が存在する場合に、前記空範疇を分類することによりゼロ代名詞の有無を判定する
ゼロ代名詞同定装置。
(付記項2)
前記プロセッサは、前記スパンのスコアよりも前記空範疇のスコアのほうが大きい場合に、前記空範疇が存在すると判定する
付記項1に記載のゼロ代名詞同定装置。
(付記項3)
前記スパンのスコアは、前記項の開始位置が前記スパンの開始位置の単語である確率と、前記項の終了位置が前記スパンの終了位置の単語である確率との積であり、
前記空範疇のスコアは、前記項の開始位置が、前記ゼロ代名詞同定モデルへの入力系列における特殊トークンである確率と、前記項の終了位置が前記特殊トークンである確率との積である
付記項1又は2に記載のゼロ代名詞同定装置。
(付記項4)
前記プロセッサは、前記空範疇を、複数個のゼロ代名詞の種類、及び、ゼロ代名詞以外の空範疇、のうちのいずれかのクラスに分類する
付記項1ないし3のうちいずれか1項に記載のゼロ代名詞同定装置。
(付記項5)
前記プロセッサは、正解データを用いて、スパン予測に関する損失と空範疇に関する損失の重み付き和が最小になるように、前記ゼロ代名詞同定モデルのパラメータを更新する
付記項1ないし4のうちいずれか1項に記載のゼロ代名詞同定装置。
(付記項6)
コンピュータのプロセッサが実行するゼロ代名詞同定方法であって、
入力された文を分割する単語分割ステップと、
前記単語分割ステップにより単語分割された前記文から述語を同定する述語同定ステップと、
訓練済み言語モデルに出力層を追加したモデルであるゼロ代名詞同定モデルを用いて、前記述語に対する項のスパンを求め、前記スパンのスコアと、前記述語に対する空範疇のスコアとを比較することにより、前記空範疇が存在するかどうかを判定し、前記空範疇が存在する場合に、前記空範疇を分類することによりゼロ代名詞の有無を判定するゼロ代名詞同定ステップと
を備えるゼロ代名詞同定方法。
(付記項7)
ゼロ代名詞同定処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記ゼロ代名詞同定処理は、
入力された文を単語に分割し、
単語分割された前記文から述語を同定し、
訓練済み言語モデルに出力層を追加したモデルであるゼロ代名詞同定モデルを用いて、前記述語に対する項のスパンを求め、前記スパンのスコアと、前記述語に対する空範疇のスコアとを比較することにより、前記空範疇が存在するかどうかを判定し、前記空範疇が存在する場合に、前記空範疇を分類することによりゼロ代名詞の有無を判定する
非一時的記憶媒体。
(参考文献)
[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the NAACL-2019, pp.4171-4186, 2019.
[2] Pranav Rajpurkar, Robin Jia, and Percy Liang. Know what you don't know: Unanswerable questions for squad. In Proceedings of the ACL-2018, pp. 784-789, 2018.
[3] Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Squad: 100,000+ questions for machine comprehension of text. In Proceedings of EMNLP-2016, pp. 2383-2392, 2016.
[4] Linfeng Song, Kun Xu, Yue Zhang, Jianshu Chen, and Dong Yu. Zpr2: Joint zero pronoun recovery and resolution using multi-task learning and bert. In Proceedings of ACL-2020, pp. 5429-5434,2020.
[5] Shunsuke Takeno, Masaaki Nagata, and Kazuhide Yamamoto. Empty category detection using path features and distributed case frames. In Proceedings of EMNLP-2015, pp. 1335-1340, 2015.
[6] Wei Wu, Fei Wang, Arianna Yuan, Fei Wu, and Jiwei Li. Corefqa: Coreference resolution as query-based span prediction. In Proceedings of ACL-2020, pp. 6953-6963, 2020.
[7] Bing Xiang, Xiaoqiang Lue, and Bowen Zhou. Enlisting the ghost: Modeling empty categories for machine translation. In ACL-2013, pp. 822-831, 2013.
111 入力部
112 出力部
113 単語分割部
114 述語同定部
115 ゼロ代名詞同定部
116 パラメータ更新部
120 ゼロ代名詞同定訓練データDB
130 訓練済み多言語モデルDB
210 単語分割部
211 入力部
220 述語同定部
230 ゼロ代名詞同定部
231 出力部
240 ゼロ代名詞同定モデルDB
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
Claims (6)
- 入力された文を分割する単語分割部と、
前記単語分割部により単語分割された前記文から述語を同定する述語同定部と、
訓練済み言語モデルに出力層を追加したモデルであるゼロ代名詞同定モデルと、を備えるゼロ代名詞同定装置であって、
前記ゼロ代名詞同定モデルは、前記述語と前記文を入力とし、前記述語に対する項のスパンを求め、前記スパンのスコアと、前記述語に対する空範疇のスコアとを比較することにより、前記空範疇が存在するかどうかを判定し、前記空範疇が存在する場合に、前記空範疇がゼロ代名詞か否かを判定し、判定結果を出力し、
前記スパンのスコアは、前記項の開始位置が前記スパンの開始位置の単語である確率と、前記項の終了位置が前記スパンの終了位置の単語である確率との積であり、
前記空範疇のスコアは、前記項の開始位置が、前記ゼロ代名詞同定モデルへの入力系列における特殊トークンである確率と、前記項の終了位置が前記特殊トークンである確率との積である
ゼロ代名詞同定装置。 - 前記ゼロ代名詞同定モデルは、前記スパンのスコアよりも前記空範疇のスコアのほうが大きい場合に、前記空範疇が存在すると判定する
請求項1に記載のゼロ代名詞同定装置。 - 前記ゼロ代名詞同定モデルは、前記空範疇を、複数個のゼロ代名詞の種類、及び、ゼロ代名詞以外の空範疇、のうちのいずれかのクラスに分類する
請求項1又は2に記載のゼロ代名詞同定装置。 - 正解データを用いて、スパン予測に関する損失と空範疇に関する損失の重み付き和が最小になるように、前記ゼロ代名詞同定モデルのパラメータを更新するパラメータ更新部
を更に備える請求項1ないし3のうちいずれか1項に記載のゼロ代名詞同定装置。 - 訓練済み言語モデルに出力層を追加したモデルであるゼロ代名詞同定モデルを備えるコンピュータが実行するゼロ代名詞同定方法であって、
前記コンピュータが、入力された文を分割する単語分割ステップと、
前記コンピュータが、前記単語分割ステップにより単語分割された前記文から述語を同定する述語同定ステップと、
前記コンピュータにおける前記ゼロ代名詞同定モデルが、前記述語と前記文を入力とし、前記述語に対する項のスパンを求め、前記スパンのスコアと、前記述語に対する空範疇のスコアとを比較することにより、前記空範疇が存在するかどうかを判定し、前記空範疇が存在する場合に、前記空範疇がゼロ代名詞か否かを判定し、判定結果を出力するゼロ代名詞同定ステップと、を備え、
前記スパンのスコアは、前記項の開始位置が前記スパンの開始位置の単語である確率と、前記項の終了位置が前記スパンの終了位置の単語である確率との積であり、
前記空範疇のスコアは、前記項の開始位置が、前記ゼロ代名詞同定モデルへの入力系列における特殊トークンである確率と、前記項の終了位置が前記特殊トークンである確率との積である
ゼロ代名詞同定方法。 - コンピュータを、請求項1ないし4のうちいずれか1項に記載のゼロ代名詞同定装置における各部及び前記ゼロ代名詞同定モデルとして機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022034729A JP7723939B2 (ja) | 2022-03-07 | 2022-03-07 | ゼロ代名詞同定装置、ゼロ代名詞同定方法、及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022034729A JP7723939B2 (ja) | 2022-03-07 | 2022-03-07 | ゼロ代名詞同定装置、ゼロ代名詞同定方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023130197A JP2023130197A (ja) | 2023-09-20 |
| JP7723939B2 true JP7723939B2 (ja) | 2025-08-15 |
Family
ID=88024776
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022034729A Active JP7723939B2 (ja) | 2022-03-07 | 2022-03-07 | ゼロ代名詞同定装置、ゼロ代名詞同定方法、及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7723939B2 (ja) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015052992A (ja) | 2013-09-09 | 2015-03-19 | 日本電信電話株式会社 | 述語項構造解析方法、モデル学習方法、装置、及びプログラム |
| US20160253309A1 (en) | 2015-02-26 | 2016-09-01 | Sony Corporation | Apparatus and method for resolving zero anaphora in chinese language and model training method |
| JP2017091155A (ja) | 2015-11-09 | 2017-05-25 | 日本電信電話株式会社 | 空範疇検出装置、空範疇検出モデル学習装置、方法、及びプログラム |
| CN112256868A (zh) | 2020-09-30 | 2021-01-22 | 华为技术有限公司 | 零指代消解方法、训练零指代消解模型的方法及电子设备 |
-
2022
- 2022-03-07 JP JP2022034729A patent/JP7723939B2/ja active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015052992A (ja) | 2013-09-09 | 2015-03-19 | 日本電信電話株式会社 | 述語項構造解析方法、モデル学習方法、装置、及びプログラム |
| US20160253309A1 (en) | 2015-02-26 | 2016-09-01 | Sony Corporation | Apparatus and method for resolving zero anaphora in chinese language and model training method |
| JP2017091155A (ja) | 2015-11-09 | 2017-05-25 | 日本電信電話株式会社 | 空範疇検出装置、空範疇検出モデル学習装置、方法、及びプログラム |
| CN112256868A (zh) | 2020-09-30 | 2021-01-22 | 华为技术有限公司 | 零指代消解方法、训练零指代消解模型的方法及电子设备 |
Non-Patent Citations (1)
| Title |
|---|
| 山城 颯太 外2名,大規模格フレームによる解候補削減を用いたニューラルネットゼロ照応解析,情報処理学会 研究報告 自然言語処理(NL) 2018-NL-238 [online] ,日本,情報処理学会,2018年12月06日,pp.1-9 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2023130197A (ja) | 2023-09-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20210124876A1 (en) | Evaluating the Factual Consistency of Abstractive Text Summarization | |
| Mikolov et al. | Advances in pre-training distributed word representations | |
| Kim et al. | Two-stage multi-intent detection for spoken language understanding | |
| US11030407B2 (en) | Computer system, method and program for performing multilingual named entity recognition model transfer | |
| Yeh | Speech act identification using semantic dependency graphs with probabilistic context-free grammars | |
| US10157171B2 (en) | Annotation assisting apparatus and computer program therefor | |
| Vinnarasu et al. | Speech to text conversion and summarization for effective understanding and documentation | |
| Ramisch et al. | mwetoolkit: A framework for multiword expression identification. | |
| US10282421B2 (en) | Hybrid approach for short form detection and expansion to long forms | |
| Adewumi et al. | Potential idiomatic expression (PIE)-english: Corpus for classes of idioms | |
| Taslimipoor et al. | Shoma at parseme shared task on automatic identification of vmwes: Neural multiword expression tagging with high generalisation | |
| Samih et al. | Detecting code-switching in moroccan Arabic social media | |
| Shynkarenko et al. | Constructive model of the natural language | |
| WO2021072851A1 (zh) | 中文语法错误的识别方法、装置、计算机设备和存储介质 | |
| George et al. | Survey on the design and development of Indian language chatbots | |
| JP7723939B2 (ja) | ゼロ代名詞同定装置、ゼロ代名詞同定方法、及びプログラム | |
| Celikyilmaz et al. | An empirical investigation of word class-based features for natural language understanding | |
| Uluslu | Automatic lexical simplification for Turkish | |
| Park et al. | Robust Multi-task Learning-based Korean POS Tagging to Overcome Word Spacing Errors | |
| Trye et al. | A hybrid architecture for labelling bilingual māori-english tweets | |
| Grissom II et al. | Incremental prediction of sentence-final verbs: Humans versus machines | |
| Banerjee et al. | Better Qualitative searching for effecting the performance of machine translation | |
| Hudhud et al. | ArabiaNer: A System to Extract Named Entities from Arabic Content. | |
| Sardarov | Development and design of deep learning-based parts-of-speech tagging system for azerbaijani language | |
| Deka et al. | A study of various natural language processing works for assamese language |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20220308 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220308 |
|
| A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20220308 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240419 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20240701 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240702 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20250121 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250225 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250425 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250722 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250725 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7723939 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |