JP7343050B2 - 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム - Google Patents

学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム Download PDF

Info

Publication number
JP7343050B2
JP7343050B2 JP2022524838A JP2022524838A JP7343050B2 JP 7343050 B2 JP7343050 B2 JP 7343050B2 JP 2022524838 A JP2022524838 A JP 2022524838A JP 2022524838 A JP2022524838 A JP 2022524838A JP 7343050 B2 JP7343050 B2 JP 7343050B2
Authority
JP
Japan
Prior art keywords
sentence
pseudo
sentences
input format
unnecessary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022524838A
Other languages
English (en)
Other versions
JPWO2021234950A1 (ja
Inventor
宏美 成松
弘晃 杉山
竜一郎 東中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021234950A1 publication Critical patent/JPWO2021234950A1/ja
Application granted granted Critical
Publication of JP7343050B2 publication Critical patent/JP7343050B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

特許法第30条第2項適用 (1)ウェブサイトの掲載日 2019年5月24日 ウェブサイトのアドレス https://confit.atlas.jp/guide/event/jsai2019/subject/3C4-J-9-01/advanced https://confit.atlas.jp/guide/event-img/jsai2019/3C4-J-9-01/public/pdf?type=in (2)ウェブサイトの掲載日 2019年11月18日 ウェブサイトのアドレス https://www.ntt.co.jp/news2019/1911/191118a.html (3)ウェブサイトの掲載日 2020年3月9日 ウェブサイトのアドレス https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/F1-3.pdf
本発明は、文章の流れの自然さを判定するための学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラムに関する。
自然言語処理モデルの従来技術として、例えばBERT(Bidirectional Encoder Representations from Transformers、非特許文献1)による双方向のエンコード表現やXLNet(非特許文献2)などがある。
"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", Jacob Devlin, Ming-Wei Chang, Kenton Lee , Kristina Toutanova, Google AI Language, arXiv 24 May 2019 "XLNet: Generalized Autoregressive Pretraining for Language Understanding", Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonel, Ruslan Salakhutdinov1, Quoc V. Le, arXiv 2 Jan 2020
従来の言語モデルは、自然な文書を教師データとして用いて予め学習することで、文書全体の自然な文書らしさのスコアを算出することができる。しかしながら従来の言語モデルは、文書全体の評価はできても、文書のどの部分が不自然であるかを判定することはできない。
そこで本発明では、文書のどの部分が不自然であるかを判定するための判定器の学習に用いる学習用データを生成することができる学習用データ生成装置を提供することを目的とする。
本発明の学習用データ生成装置は、本文抽出部と、不要文選択部と、不要文挿入部と、第1学習用データ生成部と、第2学習用データ生成部を含む。
本文抽出部は、文書の一部を本文として抽出する。不要文選択部は、文書のうち本文に含まれない一文を不要文として選択する。不要文挿入部は、本文に不要文を挿入して疑似問題を生成する。第1学習用データ生成部は、不要文の前後に存在する文章のつながりが自然であることを意味する第1のラベルを疑似問題に付して、第1の学習用データを生成する。第2学習用データ生成部は、本文のうちの一文の前後に存在する文章のつながりが不自然であることを意味する第2のラベルを疑似問題に付して、第2の学習用データを生成する。
本発明の学習用データ生成装置によれば、文書のどの部分が不自然であるかを判定するための判定器の学習に用いる学習用データを生成することができる。
文書、本文、不要文、疑似問題の例1を示す図。 文書、本文、不要文、疑似問題の例2を示す図。 疑似問題をBERT/XLNet入力フォーマットに変換する例1を示す図。 疑似問題をBERT/XLNet入力フォーマットに変換する例2を示す図。 実施例1の学習用データ生成装置の構成を示すブロック図。 実施例1の学習用データ生成装置の疑似問題生成動作を示すフローチャート。 実施例1の不要文選択部の構成を示すブロック図。 実施例1の不要文選択部の動作を示すフローチャート。 実施例1の不要文挿入部の構成を示すブロック図。 実施例1の不要文挿入部の動作を示すフローチャート。 実施例1の学習用データ生成装置の学習用データ生成動作を示す図。 実施例1の判定装置の構成を示すブロック図。 実施例1の判定装置の動作例1を示すフローチャート。 実施例1の判定装置の動作例2を示すフローチャート。 疑似問題をBERTに入力して出力Class Labelを得る例を示す図。 第1、第2の入力フォーマットを例示する図。 第3の入力フォーマットを例示する図。 第4の入力フォーマットを例示する図。 第5の入力フォーマットを例示する図。 コンピュータの機能構成例を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1から図4を参照して、実施例1における疑似問題の生成および入力フォーマットの作成について説明する。
<処理1>
まず、つながりが自然であるか否かを判断したい文(以下、本文という)を含み、本文よりも少し長い程度の文(以下、文書という、文書は例えば一つの短文、一つの段落程度の長さとすることができる)から、N個(Nは1以上の整数)の文(以下、N文ともいう)を抽出して本文とする。文書の例を図1の左側の枠内の文書として、本文の例を太字で例示する。
<処理2>
次に、文書の本文以外の箇所から不要な文(以下、不要文という)として挿入する文を選択する。選択はランダムに行われてもよいし、他の基準で行われてもよい(詳細は後述)。不要文の例を同図に下線で示す。
<処理3>
次に、不要文を本文中の何れかの文と文の間(文間)に挿入する。挿入位置はランダムに決定されてもよいし、他の基準で決定されてもよい(詳細は後述)。このように生成した複数の文を疑似問題と呼び、疑似問題と本文、不要文、不要文の挿入位置を紐づけて、ラベルを付して学習用データとして保持する。
図2は、図1と同じ文書内(「かぐや姫」)で別の疑似問題を生成した例を示したものである。同図に示すように、文書からすでに作成済の疑似問題の本文に合致しない連続するN文を選択して本文として抽出し、処理2~3を繰り返す。
<BERT/XLNet入力フォーマット>
図3、図4は、疑似問題をBERT/XLNet入力フォーマットに変換した例を示す図である。入力フォーマットというのは、図3、図4に示すtokensの形式のことである。ここで、CLSは文頭、SEPはセパレータを示すIDである。
[学習用データ生成装置1]
以下、図5を参照して、実施例1の学習用データ生成装置1の構成を説明する。同図に示すように本実施例の学習用データ生成装置1は、文書データベース10と、本文抽出部11と、不要文選択部12と、不要文挿入部13と、疑似問題データベース14と、第1学習用データ生成部15と、第2学習用データ生成部16を含む。
以下、図6を参照して、本実施例の学習用データ生成装置1の疑似問題生成動作を説明する。
<文書データベース10>
文書データベース10には、あらかじめ一般的な文書が蓄積されている。蓄積される文書は例えばWEB上から取得することができる。文書の長さが指定する範囲に含まれる場合、同図に示すステップS11~S14が実行される。
<本文抽出部11>
本文抽出部11は、文書データベース10に蓄積された文書のうちのいずれかの文書を入力とし、文書の一部であって、疑似問題に未使用の連続するN文を本文として抽出し、本文を出力する(S11)。
<不要文選択部12>
不要文選択部12は、ステップS11の処理を実行した文書と、ステップS11で抽出された本文を入力とし、文書のうち本文に含まれない一文を不要文として選択し、不要文を出力する(S12)。なお、不要文選択部12は、不要文をランダムに選択してもよいし、文書のうちの本文に含まれない一文のうち、本文との文間類似度が高い一文を不要文として選択してもよい(後述するステップS121~S125を参照)。
<不要文挿入部13>
不要文挿入部13は、ステップS11で出力された本文と、ステップS12で出力された不要文を入力とし、本文の何れかの文間に不要文を挿入して疑似問題を生成し、疑似問題と、不要文の挿入位置を出力する(S13)。なお、不要文挿入部13は、不要文の挿入位置をランダムに決定してもよいし、本文のうちの隣接する文のペアのうち、不要文との文間類似度が高いペアの間に不要文を挿入してもよい(後述するステップS131~S135を参照)。
<疑似問題データベース14>
疑似問題データベース14は、ステップS13で出力された疑似問題と、不要文の挿入位置とを入力とし、疑似問題と、不要文の挿入位置とを紐づけて蓄積する(S14)。
<繰り返し処理>
ステップS11で指定された文書に本文として使用していない連続するN文が存在する場合、ステップS11~S14が繰り返し実行される。
<不要文選択部12の詳細な構成例と動作>
以下、図7を参照して、不要文選択部12の詳細な構成例を示す。同図に示すように、本実施例の不要文選択部12は、第1文ベクトル算出部121と、第2文ベクトル算出部122と、文間類似度算出部123と、一時保持部124と、選択部125を含む。
以下、図8を参照して、本実施例の不要文選択部12の動作を説明する。
≪第1文ベクトル算出部121≫
第1文ベクトル算出部121は、本文を入力とし、本文の文ベクトルを算出し、本文の文ベクトルを出力する(S121)。
≪第2文ベクトル算出部122≫
第2文ベクトル算出部122は、文書と本文を入力とし、文書中の本文以外の、まだ文ベクトルを算出していない文を一文選択し、文ベクトルを算出し、文ベクトルを出力する(S122)。
≪文間類似度算出部123≫
文間類似度算出部123は、ステップS121で算出された本文の文ベクトルと、ステップS122で算出された一文の文ベクトルを入力とし、本文の文ベクトルと一文の文ベクトルから文間類似度を算出し、文間類似度を出力する(S123)。
≪一時保持部124≫
一時保持部124は、ステップS122で文ベクトルの算出対象となった一文と、対応する文間類似度を入力とし、ステップS122で文ベクトルの算出対象となった一文が最初の文である場合、または、ステップS122で文ベクトルの算出対象となった一文の本文との文間類似度が、これまでの一文の本文との文間類似度よりも高い場合、対象の一文を本文との文間類似度が最大のものとして保持する(S124)。
本文以外の文書中にまだ文ベクトルを算出していない一文がある場合には、ステップS122に戻る。本文以外の文書中にまだ文ベクトルを算出していない一文が存在しない場合には、一時保持部124は、文間類似度が最大のものとして保持している一文を出力する。
≪選択部125≫
選択部125は、文間類似度が最大のものとして保持されている一文を入力とし、これを不要文として選択して、出力する(S125)。
<不要文挿入部13の詳細な構成例と動作>
以下、図9を参照して、不要文挿入部13の詳細な構成例を示す。同図に示すように、本実施例の不要文挿入部13は、不要文ベクトル算出部131と、隣接文ベクトル算出部132と、文間類似度算出部133と、一時保持部134と、選択部135を含む。
以下、図10を参照して、本実施例の不要文挿入部13の動作を説明する。
≪不要文ベクトル算出部131≫
不要文ベクトル算出部131は、不要文を入力とし、不要文の文ベクトルを算出し、不要文の文ベクトルを出力する(S131)。
≪隣接文ベクトル算出部132≫
隣接文ベクトル算出部132は、本文を入力とし、本文中の、まだ文ベクトルを算出していない隣接する文のペアを選択し、隣接する文の各文ベクトルを算出し、隣接する文の各文ベクトルを出力する(S132)。
本文中にまだ文ベクトルを算出していない隣接する文のペアがある場合には、隣接文ベクトル算出部132は、ステップS132を繰り返し実行する。本文中にまだ文ベクトルを算出していない隣接する文のペアがない場合には、ステップS133に進む。
≪文間類似度算出部133≫
文間類似度算出部133は、ステップS131で算出された不要文の文ベクトルと、ステップS132で算出された隣接する文の各文ベクトルを入力とし、不要文の文ベクトルと隣接する文の各文ベクトルから文間類似度を算出し、文間類似度を出力する(S133)。
ステップS133の詳細な処理方法を以下に示す。不要文の文ベクトルをベクトル1とした場合、2つの方法が考えられる。
方法1)隣接する文ペア(文1,文2)の文ベクトルを足し合わせた(もしくは平均値をとった)値をベクトル2とする。文間類似度算出部133は、ベクトル1とベクトル2の文間類似度(たとえばコサイン類似度)を算出して出力する。
方法2)隣接する文ペア(文1,文2)の各文ベクトルを算出し、ベクトル4、ベクトル5とする。文間類似度算出部133は、ベクトル1とベクトル4、ベクトル1とベクトル5の文間類似度をそれぞれ算出し、その平均値を文間類似度として出力する。
≪一時保持部134≫
一時保持部134は、ステップS133で算出された文間類似度と、これに対応する隣接する文を入力とし、ステップS133が一回目の処理である場合、または、ステップS133で算出された文間類似度が、これまでの文間類似度よりも高い場合、対象の隣接する文の間の地点を文間類似度が最大の地点として保持する(S134)。
本文中にまだ文間類似度を算出していない隣接する文のペアがある場合には、ステップS133に戻る。本文中にまだ文間類似度を算出していない隣接する文のペアが存在しない場合には、一時保持部134は、文間類似度が最大のものとして保持している地点を出力する。
≪選択部135≫
選択部135は、本文と、不要文と、文間類似度が最大のものとして保持されている地点を入力とし、当該地点を不要文の挿入位置として選択し、本文に不要文を挿入して、疑似問題を生成し、出力する(S135)。
図10は、ステップS132を最初に繰り返すことで、本文中の全ての隣接する文のペアについて文ベクトルをまとめて算出する手法であるが、これに限定されず、ステップS132において、一つの隣接する文のペアに対して文ベクトルを算出した後、ステップS133において対応する文間類似度を算出し、算出した文間類似度が保持している文間類似度よりも高い場合、あるいは、文間類似度の算出が初回である場合に、ステップS134の保持を行い、次の隣接する文のペアに対して文ベクトルを算出して、対応する文間類似度を算出し、算出した文間類似度が保持している文間類似度よりも高い場合に、ステップS134の保持を行い、…という処理を繰り返し実行してもよい。
以下、図11を参照して、本実施例の学習用データ生成装置1の学習用データ生成動作を説明する。
<第1学習用データ生成部15>
第1学習用データ生成部15は、疑似問題データベース14に蓄積された疑似問題を入力とし、この疑似問題の不要文の前後に存在する文章のつながりが自然であることを意味する第1のラベルを当該疑似問題に付して、第1の学習用データを生成し、第1の学習用データを出力する(S15)。
<第2学習用データ生成部16>
第2学習用データ生成部16は、疑似問題データベース14に蓄積された疑似問題を入力とし、この疑似問題の本文のうちの一文の前後に存在する文章のつながりが不自然であることを意味する第2のラベルを当該疑似問題に付して、第2の学習用データを生成し、第2の学習用データを出力する(S16)。
学習していない疑似問題と文のペアがある場合には、学習していない疑似問題と文のペアに対してステップS15、S16が再度実行される。
<学習用データ生成部で用いる入力フォーマット>
上記の第1学習用データ生成部15と第2学習用データ生成部16で使用された入力フォーマット(一文を選び出し、選び出した文の前後の文を連結)は、あくまで一例である。上記の例に限定されず、学習用データ生成装置1の学習用データ生成部は、所定の入力フォーマットに従った文章と、文章のつながりが自然であるか不自然であるかのラベルを含むように、学習用データを生成すればよい。所定の入力フォーマットの例(入力フォーマット(1)~(5))については後述する。
[判定装置2]
以下、図12を参照して、実施例1の判定装置2の構成を説明する。同図に示すように本実施例の判定装置2は、入力フォーマット作成部21と、判定器21Aと、尤度取得部22と、判定部23を含む。
以下、図13、図14を参照して、本実施例の判定装置2の動作を説明する。
<入力フォーマット作成部21>
入力フォーマット作成部21は、判定対象の文章を入力とし、判定対象の文章から所定の入力フォーマットに従った判定用データを作成して、当該判定用データを出力する(S21)。所定の入力フォーマットのバリエーション(入力フォーマット(1)~(5))については後述する。
<判定器21A>
判定器21Aは、所定の入力フォーマットに従った文章と、文章のつながりが自然であるか不自然であるかのラベルを含む学習用データを用いて予め学習されているものとし、ステップS21で作成した判定用データを入力とし、判定対象の文章のつながりが自然であるか否かの尤度を出力する(S21A)。
<尤度取得部22>
尤度取得部22は、判定器21Aから判定対象の文章のつながりが自然であるか否かの尤度を取得して、当該尤度を出力する(S22)。
<判定部23>
判定部23は、尤度を入力として、尤度に基づいて判定対象の文章のつながりが自然であるか否かを判定し、判定結果を出力する(S23)。ステップS23に関しては、図13に示す動作例1のように、尤度とあらかじめ定めた閾値を比較して、尤度が閾値以上とならない場合に、判定対象の文章を自然な文でないと判定し(S23-1)、尤度が閾値以上となる場合に、判定対象の文章を自然な文であると判定してもよい(S23-2)。
またステップS23に関しては、図14に示す動作例2のように、自然かどうかの尤度がこれまでで最も高かった場合に、対象の文章と尤度を保持し(S23-3)、尤度を算出していない文章がなくなった場合に、現在保持している文章を自然な文と判定してもよい(S23-4)。このとき、自然かどうかの尤度は判定結果の信頼度として用いることができる。
<BERT>
以下、図15を参照してBERTについて説明する。BERTには、大量の自然文書を学習させたPretrainedモデル(汎用言語モデル)と、2文の結束性や含意関係、系列ラベリングなどを判定できるように適応(転移学習)させたfinetuneモデルの2種類が存在する。なお、BERTの出力は、クラスと尤度である。
BERTを用いるメリットは、大量の自然文書で言語モデルを学習させたPretrainedモデルを用いることで、解きたいタスクに対してそこまで大量の学習データがなくても転移学習によりある程度の精度の正解率を達成できることである。
BERTにおいて、2文の結束性(つながりが自然かどうか)を判定する判定器は同図に示す構造を持つ。
学習および判定時の入出力および手順1)~5)について以下に説明する。
1)BERTの中で結束性を判定するように転移学習するための入出力形式を用いる。
2)同図に示すように文1と文2の2文を用意し、セパレータ[SEP]で区切って入力する。入力の最初の[CLS]はクラスを表すベクトルである。例えば0,1で判定する場合には、0,1およびどちらのクラスが入力データのクラスとして正しいかの情報を入力する。
3)クラスラベルは例えば、0(自然),1(不自然)のように割り当てる。例えば、文1と文2が文章中の連続する2文であるとき、CLSラベルは0(自然)、ランダムに選択した2文であるときは、CLSラベルは1(不自然)とする。
4)クラスラベルおよびその尤度を出力する。
5)判定時はCLSラベルに正解の入力を含めない以外は、同様の入出力となる。
同図の[CLS]はクラスラベルであり、入力の先頭に配置する。[SEP]は、入力の区切り位置であることを示す。SegmentIDには、0か1が入る。一般に1を立てたところは、0の箇所と異なる性質をもつものであることを表す(ことが期待されて与えられたIDである)。例えば含意関係を判定するとき、文1に対して0を、文2に対して1を与える。
EはEmbeddingされた記号で、Tokenを数字で表されるIDに変換したものであり、SentencePieceなどを用いて変換する。
<本実施例におけるBERTの転移学習方法>
引き続き図15を参照して、本実施例におけるBERTの応用方法を説明する。BERTを用いて、文全体のつながりが自然かどうかを判定するようにデータおよび判定器を作成する場合、<BERT>で説明した、BERTの結束性判定の転移学習を行う入力形式を用いて、今回あらたに作成したデータを学習させる。
学習手順は以下のi)~iii)のとおりである。
i)例えば、同図左に示す疑似問題を用いて学習する場合、0(自然)のラベルが付与されるデータと1(不自然)のラベルが付与されるデータの2種類を作成できる。
ii)0(自然)のラベルが付与されるデータの作成方法:不要文より前のN文(図の本文の場合にはN=3)を文1、不要文より後ろのN文(図の本文の場合にはN=3)を文2として入力する。
iii)1(不自然)のラベルが付与されるデータの作成方法:不要文以外の文(例えばもともとある上から4つ目の本文)より前のN文(図の本文の場合にはN=4)を文1、当該不要文以外の文より後ろのN文(図の本文の場合にはN=2)を文2として入力する。
ただし、同図に示す入力フォーマットは一例であり、他の入力フォーマットも使用可能である。
BERTなどを用いた入力形式について、2つの着想が考えられる。一つの着想として、不要なものを見つけるという考え方(対象が不要かどうか、含意関係があるかを判定するという考え方)がある。もう一つの着想として、文書の流れの自然さを判定するという考え方(2つの文の繋がりの良さを判定するという考え方)がある。
不要なものを見つける方法として、判定時の工夫のみを検討してもよい。すなわち、学習を行わずに言語モデルの尤度だけを用いて、不要なものを見つけるという発想である。
<入力フォーマットの使い方>
1つの方法は、入力フォーマットごとに異なる判定器を作成する方法である。
もう一つの方法は、複数のモデルを組み合わせてアンサンブル学習をする方法である。「アンサンブル学習」とは、入力フォーマットごとに異なる判定器を作成しておき、入力フォーマットを判定器に合わせた入力を用いて判定し、各判定器の出力する尤度を重みづけ加算するなど統合するという意味である。
その場合には、各入力フォーマットで尤度を算出し、それぞれに重み付けをして算出したスコア(統合した尤度)を用いて、学習および判定を行う。
以降の入力形式では、BERTへの入力を想定しSegmentIDも含めて説明するが、BERTに限らず、XLNet等も使用できる。BERTの進化系として提案されたXLNetなどではSegmentIDを用いないため、SegmentIDはなくても良いものとする。
以下、入力フォーマットの例を図16~図19を参照して説明する。
<入力フォーマット(1)>
入力フォーマット(1)は、図16に示すように、疑似問題のうちの一文を選択して、選択した文を除く疑似問題全体と選択した文とを連結して生成する。このフォーマットを用いることにより、文書全体と選択した文の類似性や含意関係が学習され、無関係な文に対して、不要を判断できる。
<入力フォーマット(2)>
入力フォーマット(2)は、図16に示すように、疑似問題の各文を各選択肢とし、各選択肢から選びだした一つの文と、選び出されなかったすべての選択肢からなる選択肢群とを連結して生成する。このフォーマットを用いることにより、文書全体ではなく、選択肢のみに限定し比較することで、選択肢間の違いを分類する学習が効率的に行える。
<入力フォーマット(3)>
入力フォーマット(3)は、図17に示すように、疑似問題のうちの一文を選択して、疑似問題のうちの選択した文よりも前に存在する文と、選択した文と、疑似問題のうちの選択した文よりも後に存在する文とを連結して生成する。このフォーマットを用いることにより、選択した文の前後のつながりの自然さを評価できる。
<入力フォーマット(4)>
入力フォーマット(4)は、図18に示すように、疑似問題のうちの一文を選択して、疑似問題のうちの選択した文よりも前に存在する文と、疑似問題のうちの選択した文よりも後に存在する文とを連結して生成する。入力フォーマット(4)-1は、選択した文よりも後に存在する文にSegmentID=1を付すことにより、選択した文を抜いたときの後ろにつながる文としての妥当性を表現できる。入力フォーマット(4)-2は、全体にSegmentID=0を付すことにより、選択した文を抜いたときの全体のつながりの自然さを表現できる。
<入力フォーマット(5)>
入力フォーマット(5)は、図19に示すように、疑似問題のうちの一文を選択して、疑似問題のうちの選択した文よりも前に存在するN個(Nは1以上の整数)の文と、選択した文および選択した文よりも後に存在するN個の文を含む文とを連結した入力フォーマットAと、疑似問題のうちの選択した文よりも前に存在するN個(Nは1以上の整数)の文と、選択した文よりも後に存在するN+1個の文を含む文とを連結した入力フォーマットBの双方からなる。
入力フォーマットAから取得された尤度をSaとし、入力フォーマットBから取得された尤度をSbとすれば、選択した文=不自然な文である場合に、尤度Saと尤度Sbの尤度差|Sa-Sb|が大きくなるため、尤度差|Sa-Sb|が大きい選択した文を不自然な文と判断することができる。
実施例に記載の装置、方法は、不要な一文を選択するだけでなく、正しい文がどれかを選ぶ選択式の問題や、実世界の文章(例えば、エッセイなどにおいて綺麗な文書をかけているかを判定するようなタスク)にも応用できる。
その場合には、判定対象の文章と注目している一文および挿入位置のペアは以下のようになる。
(1)不要文を判定する場合:
(判定対象の文章、不要かどうか判定する一文、不要かどうか判定する一文の位置)を生成し、自然かどうかの尤度を算出する。尤度が閾値以下であれば、不要な文と判断する。択一式の問題であれば、尤度の算出を各文に対して実施し、最も尤度が低い文を不要な文であると判定する。
(2)必要な文を判定する場合:
(判定対象の文章、必要かどうか判定する一文、必要かどうか判定する一文の位置)を生成し、自然かどうかの尤度を算出する。尤度が閾値以上であれば、必要な文と判断する。択一式の問題であれば、尤度の算出を各文に対して実施し、最も尤度が高い文を必要な文であると判定する。
(3)判定対象の文章が綺麗かを判定する場合:
(判定対象の文章、判定対象の文章から選択した任意の一文、判定対象の文章から選択した任意の一文の位置)を判定対象の文章中の任意の文全てについて生成し、それぞれの自然かどうかの尤度を算出する。尤度が閾値以上であれば、判定対象の文章が自然な文章であると判定する。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
上述の各種の処理は、図20に示すコンピュータ10000の記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。図20の例に限らず、制御部10010をサーバ装置に配置し、入力部10030をクライアント装置に配置し、クライアント装置で入力された内容をサーバ装置が受け取り、判定して処理した結果をクライアント装置に返すという、サーバ・クライアント型で実施してもよい。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electrically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. 文書の一部を本文として抽出する本文抽出部と、
    前記文書のうち前記本文に含まれない一文を不要文として選択する不要文選択部と、
    前記本文に前記不要文を挿入して疑似問題を生成する不要文挿入部と、
    前記不要文の前後に存在する文章のつながりが自然であることを意味する第1のラベルを前記疑似問題に付して、第1の学習用データを生成する第1学習用データ生成部と、
    前記本文のうちの一文の前後に存在する文章のつながりが不自然であることを意味する第2のラベルを前記疑似問題に付して、第2の学習用データを生成する第2学習用データ生成部を含む
    学習用データ生成装置。
  2. 文書の一部を本文として抽出する本文抽出部と、
    前記文書のうち前記本文に含まれない一文を不要文として選択する不要文選択部と、
    前記本文に前記不要文を挿入して疑似問題を生成する不要文挿入部と、
    所定の入力フォーマットに従った文章と、前記文章のつながりが自然であるか不自然であるかのラベルを含む学習用データを生成する学習用データ生成部を含み、
    前記入力フォーマットは、
    前記疑似問題のうちの一文を選択し、選択した文を除く前記疑似問題全体と前記選択した文とを連結した第1の入力フォーマット、または
    前記疑似問題の各文を各選択肢とし、各選択肢から選びだした一つの文と、選び出されなかったすべての選択肢からなる選択肢群とを連結した第2の入力フォーマット、または
    前記疑似問題のうちの一文を選択して、前記疑似問題のうちの選択した文よりも前に存在する文と、前記選択肢と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第3の入力フォーマット、または
    前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在する文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第4の入力フォーマット、または
    前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在するN個(Nは1以上の整数)の文と、前記選択した文および前記選択した文よりも後に存在するN個の文を含む文とを連結した入力フォーマットAと、前記疑似問題のうちの前記選択した文よりも前に存在するN個(Nは1以上の整数)の文と、前記選択した文よりも後に存在するN+1個の文を含む文とを連結した入力フォーマットBの双方からなる第5の入力フォーマット、のいずれかである
    学習用データ生成装置。
  3. 請求項1または2に記載の学習用データ生成装置であって、
    前記不要文選択部は、
    前記文書のうちの前記本文に含まれない一文のうち、前記本文との文間類似度が高い一文を前記不要文として選択する
    学習用データ生成装置。
  4. 請求項1から3の何れかに記載の学習用データ生成装置であって、
    前記不要文挿入部は、
    前記本文のうちの隣接する文のペアのうち、前記不要文との文間類似度が高いペアの間に前記不要文を挿入する
    学習用データ生成装置。
  5. 所定の入力フォーマットに従った文章と、前記文章のつながりが自然であるか不自然であるかのラベルを含む学習用データを用いて学習された判定器と、
    判定対象の文章から前記所定の入力フォーマットに従った判定用データを作成して前記判定器に入力する入力フォーマット作成部と、
    前記判定器から前記判定対象の文章のつながりが自然であるか否かの尤度を取得する尤度取得部と、
    前記尤度に基づいて前記判定対象の文章のつながりが自然であるか否かを判定する判定部を含み、
    前記入力フォーマットは、
    文書の一部を本文とし、前記文書のうち前記本文に含まれない一文である不要文を前記本文に挿入して生成した疑似問題のうちの一文を選択し、選択した文を除く前記疑似問題全体と前記選択した文とを連結した第1の入力フォーマット、または
    前記疑似問題の各文を各選択肢とし、各選択肢から選びだした一つの文と、選び出されなかったすべての選択肢からなる選択肢群とを連結した第2の入力フォーマット、または
    前記疑似問題のうちの一文を選択して、前記疑似問題のうちの選択した文よりも前に存在する文と、前記選択した文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第3の入力フォーマット、または
    前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在する文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第4の入力フォーマット、または
    前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在するN個(Nは1以上の整数)の文と、前記選択した文および前記選択した文よりも後に存在するN個の文を含む文とを連結した入力フォーマットAと、前記疑似問題のうちの前記選択した文よりも前に存在するN個(Nは1以上の整数)の文と、前記選択した文よりも後に存在するN+1個の文を含む文とを連結した入力フォーマットBの双方からなる第5の入力フォーマット、のいずれかである
    判定装置。
  6. 学習用データ生成装置が実行する学習用データ生成方法であって、
    文書の一部を本文として抽出するステップと、
    前記文書のうち前記本文に含まれない一文を不要文として選択するステップと
    前記本文に前記不要文を挿入して疑似問題を生成するステップと、
    前記不要文の前後に存在する文章のつながりが自然であることを意味する第1のラベルを前記疑似問題に付して、第1の学習用データを生成するステップと、
    前記本文のうちの一文の前後に存在する文章のつながりが不自然であることを意味する第2のラベルを前記疑似問題に付して、第2の学習用データを生成するステップを含む
    学習用データ生成方法。
  7. 所定の入力フォーマットに従った文章と、前記文章のつながりが自然であるか不自然であるかのラベルを含む学習用データを用いて学習された判定器を含む判定装置が実行する判定方法であって、
    判定対象の文章から前記所定の入力フォーマットに従った判定用データを作成して前記判定器に入力するステップと、
    前記判定器から前記判定対象の文章のつながりが自然であるか否かの尤度を取得するステップと、
    前記尤度に基づいて前記判定対象の文章のつながりが自然であるか否かを判定するステップを含み、
    前記入力フォーマットは、
    文書の一部を本文とし、前記文書のうち前記本文に含まれない一文である不要文を前記本文に挿入して生成した疑似問題のうちの一文を選択し、選択した文を除く前記疑似問題全体と前記選択した文とを連結した第1の入力フォーマット、または
    前記疑似問題の各文を各選択肢とし、各選択肢から選びだした一つの文と、選び出されなかったすべての選択肢からなる選択肢群とを連結した第2の入力フォーマット、または
    前記疑似問題のうちの一文を選択して、前記疑似問題のうちの選択した文よりも前に存在する文と、前記選択した文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第3の入力フォーマット、または
    前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在する文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第4の入力フォーマット、または
    前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在するN個(Nは1以上の整数)の文と、前記選択した文および前記選択した文よりも後に存在するN個の文を含む文とを連結した入力フォーマットAと、前記疑似問題のうちの前記選択した文よりも前に存在するN個(Nは1以上の整数)の文と、前記選択した文よりも後に存在するN+1個の文を含む文とを連結した入力フォーマットBの双方からなる第5の入力フォーマット、のいずれかである
    判定方法。
  8. コンピュータを請求項1から4の何れかに記載の学習用データ生成装置として機能させるプログラム。
  9. コンピュータを請求項5に記載の判定装置として機能させるプログラム。
JP2022524838A 2020-05-22 2020-05-22 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム Active JP7343050B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/020334 WO2021234950A1 (ja) 2020-05-22 2020-05-22 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2021234950A1 JPWO2021234950A1 (ja) 2021-11-25
JP7343050B2 true JP7343050B2 (ja) 2023-09-12

Family

ID=78708372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022524838A Active JP7343050B2 (ja) 2020-05-22 2020-05-22 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム

Country Status (2)

Country Link
JP (1) JP7343050B2 (ja)
WO (1) WO2021234950A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140411A (ja) 2007-12-10 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> 文章要約装置および文章要約方法
CN111078892A (zh) 2019-11-25 2020-04-28 百度在线网络技术(北京)有限公司 对抗样本生成方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140411A (ja) 2007-12-10 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> 文章要約装置および文章要約方法
CN111078892A (zh) 2019-11-25 2020-04-28 百度在线网络技术(北京)有限公司 对抗样本生成方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
笹野遼平 他1名,文脈解析 -述語項構造・照応・談話構造の解析-,初版第2刷,株式会社コロナ社,2018年02月05日,4.6節

Also Published As

Publication number Publication date
JPWO2021234950A1 (ja) 2021-11-25
WO2021234950A1 (ja) 2021-11-25

Similar Documents

Publication Publication Date Title
CA2202696C (en) Method and apparatus for language translation
JP6842167B2 (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
US10832657B2 (en) Use of small unit language model for training large unit language models
JP6902945B2 (ja) テキスト要約システム
JP7337770B2 (ja) 文書レベルの自然言語処理モデルを訓練させる方法およびシステム
CN101266789A (zh) 语音合成设备及方法
WO2019065263A1 (ja) 発音誤り検出装置、発音誤り検出方法、プログラム
JP6957967B2 (ja) 生成プログラム、生成方法、生成装置、及びパラメータ生成方法
WO2020158409A1 (ja) 要約生成装置、方法、プログラム、及び記憶媒体
WO2021117180A1 (ja) 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム
JP4594885B2 (ja) 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
Zhu et al. Semantic parser enhancement for dialogue domain extension with little data
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
CN114974224A (zh) 语音意图识别模型的训练方法、语音意图识别方法和装置
CN109190112B (zh) 基于双通道特征融合的专利分类方法、系统及存储介质
JP5253317B2 (ja) 要約文作成装置、要約文作成方法、プログラム
JP7343050B2 (ja) 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム
Etxeberria et al. Weighted finite-state transducers for normalization of historical texts
JP2011227749A (ja) 略語完全語復元装置とその方法と、プログラム
CN110413779A (zh) 一种针对电力行业的词向量训练方法及其系统、介质
JP5980101B2 (ja) 音響モデル学習用テキスト作成装置とその方法とプログラム
US11675978B2 (en) Entity recognition based on multi-task learning and self-consistent verification
JP7235136B2 (ja) ポーズ推定モデル学習装置、ポーズ推定装置、それらの方法、およびプログラム
Bhawna et al. Natural Language Processing Based Two-Stage Machine Learning Model for Automatic Mapping of Activity Codes Using Drilling Descriptions
CN111324745A (zh) 词库生成方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220817

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20220817

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20220817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230814

R150 Certificate of patent or registration of utility model

Ref document number: 7343050

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150