JP7343050B2

JP7343050B2 - 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム

Info

Publication number: JP7343050B2
Application number: JP2022524838A
Authority: JP
Inventors: 宏美成松; 弘晃杉山; 竜一郎東中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-09-12
Anticipated expiration: 2040-05-22
Also published as: JPWO2021234950A1; WO2021234950A1

Description

特許法第３０条第２項適用（１）ウェブサイトの掲載日２０１９年５月２４日ウェブサイトのアドレスｈｔｔｐｓ：／／ｃｏｎｆｉｔ．ａｔｌａｓ．ｊｐ／ｇｕｉｄｅ／ｅｖｅｎｔ／ｊｓａｉ２０１９／ｓｕｂｊｅｃｔ／３Ｃ４－Ｊ－９－０１／ａｄｖａｎｃｅｄｈｔｔｐｓ：／／ｃｏｎｆｉｔ．ａｔｌａｓ．ｊｐ／ｇｕｉｄｅ／ｅｖｅｎｔ－ｉｍｇ／ｊｓａｉ２０１９／３Ｃ４－Ｊ－９－０１／ｐｕｂｌｉｃ／ｐｄｆ？ｔｙｐｅ＝ｉｎ（２）ウェブサイトの掲載日２０１９年１１月１８日ウェブサイトのアドレスｈｔｔｐｓ：／／ｗｗｗ．ｎｔｔ．ｃｏ．ｊｐ／ｎｅｗｓ２０１９／１９１１／１９１１１８ａ．ｈｔｍｌ（３）ウェブサイトの掲載日２０２０年３月９日ウェブサイトのアドレスｈｔｔｐｓ：／／ｗｗｗ．ａｎｌｐ．ｊｐ／ｐｒｏｃｅｅｄｉｎｇｓ／ａｎｎｕａｌ＿ｍｅｅｔｉｎｇ／２０２０／ｐｄｆ＿ｄｉｒ／Ｆ１－３．ｐｄｆ

本発明は、文章の流れの自然さを判定するための学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラムに関する。

自然言語処理モデルの従来技術として、例えばBERT（Bidirectional Encoder Representations from Transformers、非特許文献１）による双方向のエンコード表現やXLNet（非特許文献２）などがある。

"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", Jacob Devlin, Ming-Wei Chang, Kenton Lee , Kristina Toutanova, Google AI Language, arXiv 24 May 2019 "XLNet: Generalized Autoregressive Pretraining for Language Understanding", Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonel, Ruslan Salakhutdinov1, Quoc V. Le, arXiv 2 Jan 2020

従来の言語モデルは、自然な文書を教師データとして用いて予め学習することで、文書全体の自然な文書らしさのスコアを算出することができる。しかしながら従来の言語モデルは、文書全体の評価はできても、文書のどの部分が不自然であるかを判定することはできない。

そこで本発明では、文書のどの部分が不自然であるかを判定するための判定器の学習に用いる学習用データを生成することができる学習用データ生成装置を提供することを目的とする。

本発明の学習用データ生成装置は、本文抽出部と、不要文選択部と、不要文挿入部と、第１学習用データ生成部と、第２学習用データ生成部を含む。

本文抽出部は、文書の一部を本文として抽出する。不要文選択部は、文書のうち本文に含まれない一文を不要文として選択する。不要文挿入部は、本文に不要文を挿入して疑似問題を生成する。第１学習用データ生成部は、不要文の前後に存在する文章のつながりが自然であることを意味する第１のラベルを疑似問題に付して、第１の学習用データを生成する。第２学習用データ生成部は、本文のうちの一文の前後に存在する文章のつながりが不自然であることを意味する第２のラベルを疑似問題に付して、第２の学習用データを生成する。

本発明の学習用データ生成装置によれば、文書のどの部分が不自然であるかを判定するための判定器の学習に用いる学習用データを生成することができる。

文書、本文、不要文、疑似問題の例１を示す図。文書、本文、不要文、疑似問題の例２を示す図。疑似問題をBERT/XLNet入力フォーマットに変換する例１を示す図。疑似問題をBERT/XLNet入力フォーマットに変換する例２を示す図。実施例１の学習用データ生成装置の構成を示すブロック図。実施例１の学習用データ生成装置の疑似問題生成動作を示すフローチャート。実施例１の不要文選択部の構成を示すブロック図。実施例１の不要文選択部の動作を示すフローチャート。実施例１の不要文挿入部の構成を示すブロック図。実施例１の不要文挿入部の動作を示すフローチャート。実施例１の学習用データ生成装置の学習用データ生成動作を示す図。実施例１の判定装置の構成を示すブロック図。実施例１の判定装置の動作例１を示すフローチャート。実施例１の判定装置の動作例２を示すフローチャート。疑似問題をBERTに入力して出力Class Labelを得る例を示す図。第１、第２の入力フォーマットを例示する図。第３の入力フォーマットを例示する図。第４の入力フォーマットを例示する図。第５の入力フォーマットを例示する図。コンピュータの機能構成例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１から図４を参照して、実施例１における疑似問題の生成および入力フォーマットの作成について説明する。

＜処理１＞
まず、つながりが自然であるか否かを判断したい文（以下、本文という）を含み、本文よりも少し長い程度の文（以下、文書という、文書は例えば一つの短文、一つの段落程度の長さとすることができる）から、Ｎ個（Ｎは１以上の整数）の文（以下、Ｎ文ともいう）を抽出して本文とする。文書の例を図１の左側の枠内の文書として、本文の例を太字で例示する。

＜処理２＞
次に、文書の本文以外の箇所から不要な文（以下、不要文という）として挿入する文を選択する。選択はランダムに行われてもよいし、他の基準で行われてもよい（詳細は後述）。不要文の例を同図に下線で示す。

＜処理３＞
次に、不要文を本文中の何れかの文と文の間（文間）に挿入する。挿入位置はランダムに決定されてもよいし、他の基準で決定されてもよい（詳細は後述）。このように生成した複数の文を疑似問題と呼び、疑似問題と本文、不要文、不要文の挿入位置を紐づけて、ラベルを付して学習用データとして保持する。

図２は、図１と同じ文書内（「かぐや姫」）で別の疑似問題を生成した例を示したものである。同図に示すように、文書からすでに作成済の疑似問題の本文に合致しない連続するＮ文を選択して本文として抽出し、処理２～３を繰り返す。

＜BERT/XLNet入力フォーマット＞
図３、図４は、疑似問題をBERT/XLNet入力フォーマットに変換した例を示す図である。入力フォーマットというのは、図３、図４に示すtokensの形式のことである。ここで、CLSは文頭、SEPはセパレータを示すIDである。

［学習用データ生成装置１］
以下、図５を参照して、実施例１の学習用データ生成装置１の構成を説明する。同図に示すように本実施例の学習用データ生成装置１は、文書データベース１０と、本文抽出部１１と、不要文選択部１２と、不要文挿入部１３と、疑似問題データベース１４と、第１学習用データ生成部１５と、第２学習用データ生成部１６を含む。

以下、図６を参照して、本実施例の学習用データ生成装置１の疑似問題生成動作を説明する。

＜文書データベース１０＞
文書データベース１０には、あらかじめ一般的な文書が蓄積されている。蓄積される文書は例えばＷＥＢ上から取得することができる。文書の長さが指定する範囲に含まれる場合、同図に示すステップＳ１１～Ｓ１４が実行される。

＜本文抽出部１１＞
本文抽出部１１は、文書データベース１０に蓄積された文書のうちのいずれかの文書を入力とし、文書の一部であって、疑似問題に未使用の連続するＮ文を本文として抽出し、本文を出力する（Ｓ１１）。

＜不要文選択部１２＞
不要文選択部１２は、ステップＳ１１の処理を実行した文書と、ステップＳ１１で抽出された本文を入力とし、文書のうち本文に含まれない一文を不要文として選択し、不要文を出力する（Ｓ１２）。なお、不要文選択部１２は、不要文をランダムに選択してもよいし、文書のうちの本文に含まれない一文のうち、本文との文間類似度が高い一文を不要文として選択してもよい（後述するステップＳ１２１～Ｓ１２５を参照）。

＜不要文挿入部１３＞
不要文挿入部１３は、ステップＳ１１で出力された本文と、ステップＳ１２で出力された不要文を入力とし、本文の何れかの文間に不要文を挿入して疑似問題を生成し、疑似問題と、不要文の挿入位置を出力する（Ｓ１３）。なお、不要文挿入部１３は、不要文の挿入位置をランダムに決定してもよいし、本文のうちの隣接する文のペアのうち、不要文との文間類似度が高いペアの間に不要文を挿入してもよい（後述するステップＳ１３１～Ｓ１３５を参照）。

＜疑似問題データベース１４＞
疑似問題データベース１４は、ステップＳ１３で出力された疑似問題と、不要文の挿入位置とを入力とし、疑似問題と、不要文の挿入位置とを紐づけて蓄積する（Ｓ１４）。

＜繰り返し処理＞
ステップＳ１１で指定された文書に本文として使用していない連続するＮ文が存在する場合、ステップＳ１１～Ｓ１４が繰り返し実行される。

＜不要文選択部１２の詳細な構成例と動作＞
以下、図７を参照して、不要文選択部１２の詳細な構成例を示す。同図に示すように、本実施例の不要文選択部１２は、第１文ベクトル算出部１２１と、第２文ベクトル算出部１２２と、文間類似度算出部１２３と、一時保持部１２４と、選択部１２５を含む。

以下、図８を参照して、本実施例の不要文選択部１２の動作を説明する。

≪第１文ベクトル算出部１２１≫
第１文ベクトル算出部１２１は、本文を入力とし、本文の文ベクトルを算出し、本文の文ベクトルを出力する（Ｓ１２１）。

≪第２文ベクトル算出部１２２≫
第２文ベクトル算出部１２２は、文書と本文を入力とし、文書中の本文以外の、まだ文ベクトルを算出していない文を一文選択し、文ベクトルを算出し、文ベクトルを出力する（Ｓ１２２）。

≪文間類似度算出部１２３≫
文間類似度算出部１２３は、ステップＳ１２１で算出された本文の文ベクトルと、ステップＳ１２２で算出された一文の文ベクトルを入力とし、本文の文ベクトルと一文の文ベクトルから文間類似度を算出し、文間類似度を出力する（Ｓ１２３）。

≪一時保持部１２４≫
一時保持部１２４は、ステップＳ１２２で文ベクトルの算出対象となった一文と、対応する文間類似度を入力とし、ステップＳ１２２で文ベクトルの算出対象となった一文が最初の文である場合、または、ステップＳ１２２で文ベクトルの算出対象となった一文の本文との文間類似度が、これまでの一文の本文との文間類似度よりも高い場合、対象の一文を本文との文間類似度が最大のものとして保持する（Ｓ１２４）。

本文以外の文書中にまだ文ベクトルを算出していない一文がある場合には、ステップＳ１２２に戻る。本文以外の文書中にまだ文ベクトルを算出していない一文が存在しない場合には、一時保持部１２４は、文間類似度が最大のものとして保持している一文を出力する。

≪選択部１２５≫
選択部１２５は、文間類似度が最大のものとして保持されている一文を入力とし、これを不要文として選択して、出力する（Ｓ１２５）。

＜不要文挿入部１３の詳細な構成例と動作＞
以下、図９を参照して、不要文挿入部１３の詳細な構成例を示す。同図に示すように、本実施例の不要文挿入部１３は、不要文ベクトル算出部１３１と、隣接文ベクトル算出部１３２と、文間類似度算出部１３３と、一時保持部１３４と、選択部１３５を含む。

以下、図１０を参照して、本実施例の不要文挿入部１３の動作を説明する。

≪不要文ベクトル算出部１３１≫
不要文ベクトル算出部１３１は、不要文を入力とし、不要文の文ベクトルを算出し、不要文の文ベクトルを出力する（Ｓ１３１）。

≪隣接文ベクトル算出部１３２≫
隣接文ベクトル算出部１３２は、本文を入力とし、本文中の、まだ文ベクトルを算出していない隣接する文のペアを選択し、隣接する文の各文ベクトルを算出し、隣接する文の各文ベクトルを出力する（Ｓ１３２）。

本文中にまだ文ベクトルを算出していない隣接する文のペアがある場合には、隣接文ベクトル算出部１３２は、ステップＳ１３２を繰り返し実行する。本文中にまだ文ベクトルを算出していない隣接する文のペアがない場合には、ステップＳ１３３に進む。

≪文間類似度算出部１３３≫
文間類似度算出部１３３は、ステップＳ１３１で算出された不要文の文ベクトルと、ステップＳ１３２で算出された隣接する文の各文ベクトルを入力とし、不要文の文ベクトルと隣接する文の各文ベクトルから文間類似度を算出し、文間類似度を出力する（Ｓ１３３）。
ステップＳ１３３の詳細な処理方法を以下に示す。不要文の文ベクトルをベクトル１とした場合、２つの方法が考えられる。
方法１）隣接する文ペア（文１，文２）の文ベクトルを足し合わせた（もしくは平均値をとった）値をベクトル２とする。文間類似度算出部１３３は、ベクトル１とベクトル２の文間類似度（たとえばコサイン類似度）を算出して出力する。
方法２）隣接する文ペア（文１，文２）の各文ベクトルを算出し、ベクトル４、ベクトル５とする。文間類似度算出部１３３は、ベクトル１とベクトル４、ベクトル１とベクトル５の文間類似度をそれぞれ算出し、その平均値を文間類似度として出力する。

≪一時保持部１３４≫
一時保持部１３４は、ステップＳ１３３で算出された文間類似度と、これに対応する隣接する文を入力とし、ステップＳ１３３が一回目の処理である場合、または、ステップＳ１３３で算出された文間類似度が、これまでの文間類似度よりも高い場合、対象の隣接する文の間の地点を文間類似度が最大の地点として保持する（Ｓ１３４）。

本文中にまだ文間類似度を算出していない隣接する文のペアがある場合には、ステップＳ１３３に戻る。本文中にまだ文間類似度を算出していない隣接する文のペアが存在しない場合には、一時保持部１３４は、文間類似度が最大のものとして保持している地点を出力する。

≪選択部１３５≫
選択部１３５は、本文と、不要文と、文間類似度が最大のものとして保持されている地点を入力とし、当該地点を不要文の挿入位置として選択し、本文に不要文を挿入して、疑似問題を生成し、出力する（Ｓ１３５）。
図１０は、ステップＳ１３２を最初に繰り返すことで、本文中の全ての隣接する文のペアについて文ベクトルをまとめて算出する手法であるが、これに限定されず、ステップＳ１３２において、一つの隣接する文のペアに対して文ベクトルを算出した後、ステップＳ１３３において対応する文間類似度を算出し、算出した文間類似度が保持している文間類似度よりも高い場合、あるいは、文間類似度の算出が初回である場合に、ステップＳ１３４の保持を行い、次の隣接する文のペアに対して文ベクトルを算出して、対応する文間類似度を算出し、算出した文間類似度が保持している文間類似度よりも高い場合に、ステップＳ１３４の保持を行い、…という処理を繰り返し実行してもよい。

以下、図１１を参照して、本実施例の学習用データ生成装置１の学習用データ生成動作を説明する。

＜第１学習用データ生成部１５＞
第１学習用データ生成部１５は、疑似問題データベース１４に蓄積された疑似問題を入力とし、この疑似問題の不要文の前後に存在する文章のつながりが自然であることを意味する第１のラベルを当該疑似問題に付して、第１の学習用データを生成し、第１の学習用データを出力する（Ｓ１５）。

＜第２学習用データ生成部１６＞
第２学習用データ生成部１６は、疑似問題データベース１４に蓄積された疑似問題を入力とし、この疑似問題の本文のうちの一文の前後に存在する文章のつながりが不自然であることを意味する第２のラベルを当該疑似問題に付して、第２の学習用データを生成し、第２の学習用データを出力する（Ｓ１６）。

学習していない疑似問題と文のペアがある場合には、学習していない疑似問題と文のペアに対してステップＳ１５、Ｓ１６が再度実行される。

＜学習用データ生成部で用いる入力フォーマット＞
上記の第１学習用データ生成部１５と第２学習用データ生成部１６で使用された入力フォーマット（一文を選び出し、選び出した文の前後の文を連結）は、あくまで一例である。上記の例に限定されず、学習用データ生成装置１の学習用データ生成部は、所定の入力フォーマットに従った文章と、文章のつながりが自然であるか不自然であるかのラベルを含むように、学習用データを生成すればよい。所定の入力フォーマットの例（入力フォーマット（１）～（５））については後述する。

［判定装置２］
以下、図１２を参照して、実施例１の判定装置２の構成を説明する。同図に示すように本実施例の判定装置２は、入力フォーマット作成部２１と、判定器２１Ａと、尤度取得部２２と、判定部２３を含む。

以下、図１３、図１４を参照して、本実施例の判定装置２の動作を説明する。

＜入力フォーマット作成部２１＞
入力フォーマット作成部２１は、判定対象の文章を入力とし、判定対象の文章から所定の入力フォーマットに従った判定用データを作成して、当該判定用データを出力する（Ｓ２１）。所定の入力フォーマットのバリエーション（入力フォーマット（１）～（５））については後述する。

＜判定器２１Ａ＞
判定器２１Ａは、所定の入力フォーマットに従った文章と、文章のつながりが自然であるか不自然であるかのラベルを含む学習用データを用いて予め学習されているものとし、ステップＳ２１で作成した判定用データを入力とし、判定対象の文章のつながりが自然であるか否かの尤度を出力する（Ｓ２１Ａ）。

＜尤度取得部２２＞
尤度取得部２２は、判定器２１Ａから判定対象の文章のつながりが自然であるか否かの尤度を取得して、当該尤度を出力する（Ｓ２２）。

＜判定部２３＞
判定部２３は、尤度を入力として、尤度に基づいて判定対象の文章のつながりが自然であるか否かを判定し、判定結果を出力する（Ｓ２３）。ステップＳ２３に関しては、図１３に示す動作例１のように、尤度とあらかじめ定めた閾値を比較して、尤度が閾値以上とならない場合に、判定対象の文章を自然な文でないと判定し（Ｓ２３－１）、尤度が閾値以上となる場合に、判定対象の文章を自然な文であると判定してもよい（Ｓ２３－２）。

またステップＳ２３に関しては、図１４に示す動作例２のように、自然かどうかの尤度がこれまでで最も高かった場合に、対象の文章と尤度を保持し（Ｓ２３－３）、尤度を算出していない文章がなくなった場合に、現在保持している文章を自然な文と判定してもよい（Ｓ２３－４）。このとき、自然かどうかの尤度は判定結果の信頼度として用いることができる。

＜BERT＞
以下、図１５を参照してBERTについて説明する。BERTには、大量の自然文書を学習させたPretrainedモデル（汎用言語モデル）と、２文の結束性や含意関係、系列ラベリングなどを判定できるように適応（転移学習）させたfinetuneモデルの２種類が存在する。なお、BERTの出力は、クラスと尤度である。

BERTを用いるメリットは、大量の自然文書で言語モデルを学習させたPretrainedモデルを用いることで、解きたいタスクに対してそこまで大量の学習データがなくても転移学習によりある程度の精度の正解率を達成できることである。

BERTにおいて、２文の結束性（つながりが自然かどうか）を判定する判定器は同図に示す構造を持つ。

学習および判定時の入出力および手順１）～５）について以下に説明する。

１）BERTの中で結束性を判定するように転移学習するための入出力形式を用いる。

２）同図に示すように文１と文２の２文を用意し、セパレータ[SEP]で区切って入力する。入力の最初の[CLS]はクラスを表すベクトルである。例えば０，１で判定する場合には、０，１およびどちらのクラスが入力データのクラスとして正しいかの情報を入力する。

３）クラスラベルは例えば、０（自然），１（不自然）のように割り当てる。例えば、文１と文２が文章中の連続する２文であるとき、CLSラベルは０（自然）、ランダムに選択した２文であるときは、CLSラベルは１（不自然）とする。

４）クラスラベルおよびその尤度を出力する。

５）判定時はCLSラベルに正解の入力を含めない以外は、同様の入出力となる。

同図の[CLS]はクラスラベルであり、入力の先頭に配置する。[SEP]は、入力の区切り位置であることを示す。SegmentIDには、０か１が入る。一般に１を立てたところは、０の箇所と異なる性質をもつものであることを表す（ことが期待されて与えられたIDである）。例えば含意関係を判定するとき、文１に対して０を、文２に対して１を与える。

EはEmbeddingされた記号で、Tokenを数字で表されるIDに変換したものであり、SentencePieceなどを用いて変換する。

＜本実施例におけるBERTの転移学習方法＞
引き続き図１５を参照して、本実施例におけるBERTの応用方法を説明する。BERTを用いて、文全体のつながりが自然かどうかを判定するようにデータおよび判定器を作成する場合、＜BERT＞で説明した、BERTの結束性判定の転移学習を行う入力形式を用いて、今回あらたに作成したデータを学習させる。

学習手順は以下のｉ）～ｉｉｉ）のとおりである。

ｉ）例えば、同図左に示す疑似問題を用いて学習する場合、０（自然）のラベルが付与されるデータと１（不自然）のラベルが付与されるデータの２種類を作成できる。

ｉｉ）０（自然）のラベルが付与されるデータの作成方法：不要文より前のＮ文（図の本文の場合にはＮ＝３）を文１、不要文より後ろのＮ文（図の本文の場合にはＮ＝３）を文２として入力する。

ｉｉｉ）１（不自然）のラベルが付与されるデータの作成方法：不要文以外の文（例えばもともとある上から４つ目の本文）より前のＮ文（図の本文の場合にはＮ＝４）を文１、当該不要文以外の文より後ろのＮ文（図の本文の場合にはＮ＝２）を文２として入力する。

ただし、同図に示す入力フォーマットは一例であり、他の入力フォーマットも使用可能である。

BERTなどを用いた入力形式について、２つの着想が考えられる。一つの着想として、不要なものを見つけるという考え方（対象が不要かどうか、含意関係があるかを判定するという考え方）がある。もう一つの着想として、文書の流れの自然さを判定するという考え方（２つの文の繋がりの良さを判定するという考え方）がある。

不要なものを見つける方法として、判定時の工夫のみを検討してもよい。すなわち、学習を行わずに言語モデルの尤度だけを用いて、不要なものを見つけるという発想である。

＜入力フォーマットの使い方＞
１つの方法は、入力フォーマットごとに異なる判定器を作成する方法である。

もう一つの方法は、複数のモデルを組み合わせてアンサンブル学習をする方法である。「アンサンブル学習」とは、入力フォーマットごとに異なる判定器を作成しておき、入力フォーマットを判定器に合わせた入力を用いて判定し、各判定器の出力する尤度を重みづけ加算するなど統合するという意味である。

その場合には、各入力フォーマットで尤度を算出し、それぞれに重み付けをして算出したスコア（統合した尤度）を用いて、学習および判定を行う。

以降の入力形式では、BERTへの入力を想定しSegmentIDも含めて説明するが、BERTに限らず、XLNet等も使用できる。BERTの進化系として提案されたXLNetなどではSegmentIDを用いないため、SegmentIDはなくても良いものとする。

以下、入力フォーマットの例を図１６～図１９を参照して説明する。

＜入力フォーマット（１）＞
入力フォーマット（１）は、図１６に示すように、疑似問題のうちの一文を選択して、選択した文を除く疑似問題全体と選択した文とを連結して生成する。このフォーマットを用いることにより、文書全体と選択した文の類似性や含意関係が学習され、無関係な文に対して、不要を判断できる。

＜入力フォーマット（２）＞
入力フォーマット（２）は、図１６に示すように、疑似問題の各文を各選択肢とし、各選択肢から選びだした一つの文と、選び出されなかったすべての選択肢からなる選択肢群とを連結して生成する。このフォーマットを用いることにより、文書全体ではなく、選択肢のみに限定し比較することで、選択肢間の違いを分類する学習が効率的に行える。

＜入力フォーマット（３）＞
入力フォーマット（３）は、図１７に示すように、疑似問題のうちの一文を選択して、疑似問題のうちの選択した文よりも前に存在する文と、選択した文と、疑似問題のうちの選択した文よりも後に存在する文とを連結して生成する。このフォーマットを用いることにより、選択した文の前後のつながりの自然さを評価できる。

＜入力フォーマット（４）＞
入力フォーマット（４）は、図１８に示すように、疑似問題のうちの一文を選択して、疑似問題のうちの選択した文よりも前に存在する文と、疑似問題のうちの選択した文よりも後に存在する文とを連結して生成する。入力フォーマット（４）－１は、選択した文よりも後に存在する文にSegmentID=1を付すことにより、選択した文を抜いたときの後ろにつながる文としての妥当性を表現できる。入力フォーマット（４）－２は、全体にSegmentID=0を付すことにより、選択した文を抜いたときの全体のつながりの自然さを表現できる。

＜入力フォーマット（５）＞
入力フォーマット（５）は、図１９に示すように、疑似問題のうちの一文を選択して、疑似問題のうちの選択した文よりも前に存在するＮ個（Ｎは１以上の整数）の文と、選択した文および選択した文よりも後に存在するＮ個の文を含む文とを連結した入力フォーマットＡと、疑似問題のうちの選択した文よりも前に存在するＮ個（Ｎは１以上の整数）の文と、選択した文よりも後に存在するＮ＋１個の文を含む文とを連結した入力フォーマットＢの双方からなる。

入力フォーマットＡから取得された尤度をSaとし、入力フォーマットＢから取得された尤度をSbとすれば、選択した文＝不自然な文である場合に、尤度Saと尤度Sbの尤度差|Sa-Sb|が大きくなるため、尤度差|Sa-Sb|が大きい選択した文を不自然な文と判断することができる。

実施例に記載の装置、方法は、不要な一文を選択するだけでなく、正しい文がどれかを選ぶ選択式の問題や、実世界の文章（例えば、エッセイなどにおいて綺麗な文書をかけているかを判定するようなタスク）にも応用できる。

その場合には、判定対象の文章と注目している一文および挿入位置のペアは以下のようになる。

（１）不要文を判定する場合：
（判定対象の文章、不要かどうか判定する一文、不要かどうか判定する一文の位置）を生成し、自然かどうかの尤度を算出する。尤度が閾値以下であれば、不要な文と判断する。択一式の問題であれば、尤度の算出を各文に対して実施し、最も尤度が低い文を不要な文であると判定する。

（２）必要な文を判定する場合：
（判定対象の文章、必要かどうか判定する一文、必要かどうか判定する一文の位置）を生成し、自然かどうかの尤度を算出する。尤度が閾値以上であれば、必要な文と判断する。択一式の問題であれば、尤度の算出を各文に対して実施し、最も尤度が高い文を必要な文であると判定する。

（３）判定対象の文章が綺麗かを判定する場合：
（判定対象の文章、判定対象の文章から選択した任意の一文、判定対象の文章から選択した任意の一文の位置）を判定対象の文章中の任意の文全てについて生成し、それぞれの自然かどうかの尤度を算出する。尤度が閾値以上であれば、判定対象の文章が自然な文章であると判定する。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

上述の各種の処理は、図２０に示すコンピュータ１００００の記録部１００２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部１００１０、入力部１００３０、出力部１００４０などに動作させることで実施できる。図２０の例に限らず、制御部１００１０をサーバ装置に配置し、入力部１００３０をクライアント装置に配置し、クライアント装置で入力された内容をサーバ装置が受け取り、判定して処理した結果をクライアント装置に返すという、サーバ・クライアント型で実施してもよい。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electrically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

文書の一部を本文として抽出する本文抽出部と、
前記文書のうち前記本文に含まれない一文を不要文として選択する不要文選択部と、
前記本文に前記不要文を挿入して疑似問題を生成する不要文挿入部と、
前記不要文の前後に存在する文章のつながりが自然であることを意味する第１のラベルを前記疑似問題に付して、第１の学習用データを生成する第１学習用データ生成部と、
前記本文のうちの一文の前後に存在する文章のつながりが不自然であることを意味する第２のラベルを前記疑似問題に付して、第２の学習用データを生成する第２学習用データ生成部を含む
学習用データ生成装置。
文書の一部を本文として抽出する本文抽出部と、
前記文書のうち前記本文に含まれない一文を不要文として選択する不要文選択部と、
前記本文に前記不要文を挿入して疑似問題を生成する不要文挿入部と、
所定の入力フォーマットに従った文章と、前記文章のつながりが自然であるか不自然であるかのラベルを含む学習用データを生成する学習用データ生成部を含み、
前記入力フォーマットは、
前記疑似問題のうちの一文を選択して、選択した文を除く前記疑似問題全体と前記選択した文とを連結した第１の入力フォーマット、または
前記疑似問題の各文を各選択肢とし、各選択肢から選びだした一つの文と、選び出されなかったすべての選択肢からなる選択肢群とを連結した第２の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの選択した文よりも前に存在する文と、前記選択肢と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第３の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在する文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第４の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在するＮ個（Ｎは１以上の整数）の文と、前記選択した文および前記選択した文よりも後に存在するＮ個の文を含む文とを連結した入力フォーマットＡと、前記疑似問題のうちの前記選択した文よりも前に存在するＮ個（Ｎは１以上の整数）の文と、前記選択した文よりも後に存在するＮ＋１個の文を含む文とを連結した入力フォーマットＢの双方からなる第５の入力フォーマット、のいずれかである
学習用データ生成装置。
請求項１または２に記載の学習用データ生成装置であって、
前記不要文選択部は、
前記文書のうちの前記本文に含まれない一文のうち、前記本文との文間類似度が高い一文を前記不要文として選択する
学習用データ生成装置。
請求項１から３の何れかに記載の学習用データ生成装置であって、
前記不要文挿入部は、
前記本文のうちの隣接する文のペアのうち、前記不要文との文間類似度が高いペアの間に前記不要文を挿入する
学習用データ生成装置。
所定の入力フォーマットに従った文章と、前記文章のつながりが自然であるか不自然であるかのラベルを含む学習用データを用いて学習された判定器と、
判定対象の文章から前記所定の入力フォーマットに従った判定用データを作成して前記判定器に入力する入力フォーマット作成部と、
前記判定器から前記判定対象の文章のつながりが自然であるか否かの尤度を取得する尤度取得部と、
前記尤度に基づいて前記判定対象の文章のつながりが自然であるか否かを判定する判定部を含み、
前記入力フォーマットは、
文書の一部を本文とし、前記文書のうち前記本文に含まれない一文である不要文を前記本文に挿入して生成した疑似問題のうちの一文を選択して、選択した文を除く前記疑似問題全体と前記選択した文とを連結した第１の入力フォーマット、または
前記疑似問題の各文を各選択肢とし、各選択肢から選びだした一つの文と、選び出されなかったすべての選択肢からなる選択肢群とを連結した第２の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの選択した文よりも前に存在する文と、前記選択した文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第３の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在する文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第４の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在するＮ個（Ｎは１以上の整数）の文と、前記選択した文および前記選択した文よりも後に存在するＮ個の文を含む文とを連結した入力フォーマットＡと、前記疑似問題のうちの前記選択した文よりも前に存在するＮ個（Ｎは１以上の整数）の文と、前記選択した文よりも後に存在するＮ＋１個の文を含む文とを連結した入力フォーマットＢの双方からなる第５の入力フォーマット、のいずれかである
判定装置。
学習用データ生成装置が実行する学習用データ生成方法であって、
文書の一部を本文として抽出するステップと、
前記文書のうち前記本文に含まれない一文を不要文として選択するステップと、
前記本文に前記不要文を挿入して疑似問題を生成するステップと、
前記不要文の前後に存在する文章のつながりが自然であることを意味する第１のラベルを前記疑似問題に付して、第１の学習用データを生成するステップと、
前記本文のうちの一文の前後に存在する文章のつながりが不自然であることを意味する第２のラベルを前記疑似問題に付して、第２の学習用データを生成するステップを含む
学習用データ生成方法。
所定の入力フォーマットに従った文章と、前記文章のつながりが自然であるか不自然であるかのラベルを含む学習用データを用いて学習された判定器を含む判定装置が実行する判定方法であって、
判定対象の文章から前記所定の入力フォーマットに従った判定用データを作成して前記判定器に入力するステップと、
前記判定器から前記判定対象の文章のつながりが自然であるか否かの尤度を取得するステップと、
前記尤度に基づいて前記判定対象の文章のつながりが自然であるか否かを判定するステップを含み、
前記入力フォーマットは、
文書の一部を本文とし、前記文書のうち前記本文に含まれない一文である不要文を前記本文に挿入して生成した疑似問題のうちの一文を選択して、選択した文を除く前記疑似問題全体と前記選択した文とを連結した第１の入力フォーマット、または
前記疑似問題の各文を各選択肢とし、各選択肢から選びだした一つの文と、選び出されなかったすべての選択肢からなる選択肢群とを連結した第２の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの選択した文よりも前に存在する文と、前記選択した文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第３の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在する文と、前記疑似問題のうちの前記選択した文よりも後に存在する文とを連結した第４の入力フォーマット、または
前記疑似問題のうちの一文を選択して、前記疑似問題のうちの前記選択した文よりも前に存在するＮ個（Ｎは１以上の整数）の文と、前記選択した文および前記選択した文よりも後に存在するＮ個の文を含む文とを連結した入力フォーマットＡと、前記疑似問題のうちの前記選択した文よりも前に存在するＮ個（Ｎは１以上の整数）の文と、前記選択した文よりも後に存在するＮ＋１個の文を含む文とを連結した入力フォーマットＢの双方からなる第５の入力フォーマット、のいずれかである
判定方法。
コンピュータを請求項１から４の何れかに記載の学習用データ生成装置として機能させるプログラム。
コンピュータを請求項５に記載の判定装置として機能させるプログラム。