JP2022108008A

JP2022108008A - データ生成装置、方法および学習装置

Info

Publication number: JP2022108008A
Application number: JP2021002781A
Authority: JP
Inventors: 雅弘伊藤; Masahiro Ito; 智弘山崎; Toshihiro Yamazaki
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2022-07-25
Also published as: US20220222576A1

Abstract

【課題】データセットの品質を向上させることができる。【解決手段】本実施形態に係るデータ生成装置は、選択部と、決定部とを含む。選択部は、教示データの文書に対して定義された文字列の範囲である第１イベント範囲とは異なり、かつ前記文書に対して複数の異なる手法で推定された文字列の範囲である複数の第２イベント範囲の少なくとも一部が重複するイベントグループを選択する。決定部は、前記イベントグループから前記教示データに追加すべき第２イベント範囲である追加イベントを決定する。【選択図】図１

Description

本発明の実施形態は、データ生成装置、方法および学習装置に関する。

自然言語処理において注目されるタスクとして、いわゆる系列ラベリングを用いた固有表現抽出のようなテキスト範囲の抽出タスクがある。系列ラベリングに関する機械学習用に、予め文書にテキスト範囲を指定するラベルが付与されたデータセットが用意されるが、ラベル誤りが含まれる可能性もある。このようなデータセットに対し、ラベル誤りを含む可能性がある文を推定して、推定されたラベル誤りを含む文の重みを下げることにより、ラベル誤りの影響を低減し、データセットを用いて学習した学習済みモデルの推論時の主に適合率を向上させる手法がある。

しかし、系列ラベリングにより抽出されたテキスト範囲を前処理とする、因果関係抽出タスクなどを実行する場合、因果関係がありそうなテキスト範囲をもれなく抽出することが重要である。すなわち、付与されたラベルが正しい割合を示す適合率よりも、本来ラベルが付与されるべき文字列に正しくラベルが付与されているかを示す再現率が重視される。
よって、上述の手法では、ラベル誤りを含む文の重みを下げるだけであり、再現率を向上させることができない。

Zihan Wang et al., "CrossWeigh: Training Named Entity Tagger from Imperfect Annotations", Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Pages 5154-5163, Hong Kong, China, November 3-7, 2019.

本開示は、上述の課題を解決するためになされたものであり、データセットの品質を向上させることを目的とする。

本実施形態に係るデータ生成装置は、選択部と、決定部とを含む。教示データの文書に対して定義された文字列の範囲である第１イベント範囲とは異なり、かつ前記文書に対して複数の異なるモデルで推定された文字列の範囲である複数の第２イベント範囲の少なくとも一部が重複するイベントグループを選択する。決定部は、前記イベントグループから前記教示データに追加すべき第２イベント範囲である追加イベントを決定する。

本実施形態に係るデータ生成装置を示すブロック図。教示データ格納部に格納される教示データの一例を示す図。データ生成装置のイベント生成処理の一例を示すフローチャート。ｋ－分割交差検証の１回目の部分データの利用例を示す図。ｋ－分割交差検証の２回目の部分データの利用例を示す図。イベントグループの生成方法の一例を示す図。ベントグループから候補グループを選択する一例を示す図。追加イベントの決定例を示す図。イベント範囲の利用例を示す図。データ生成装置により追加イベントが追加された場合の一例を示す図。データ生成装置のハードウェア構成の一例を示す図。

以下、図面を参照しながら本実施形態に係るデータ生成装置、方法および学習装置について詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜省略する。

本実施形態に係るデータ生成装置について図１のブロック図を参照して説明する。
本実施形態に係るデータ生成装置１０は、教示データ格納部１０１と、分割部１０２と、学習部１０３と、推定部１０４と、推定結果格納部１０５と、選択部１０６と、決定部１０７と、追加部１０８とを含む。なお、教示データ格納部１０１と、学習部１０３とを併せて学習装置とも呼ぶ。

教示データ格納部１０１は、教示データを格納する。教示データは、複数の文を含む文書と、当該文書に含まれる文字列に対して任意に指定されたテキスト範囲（以下、イベント範囲という）とが対応付けられたデータセットである。本実施形態に係るイベントとは、文書に示される事象を示す。イベント範囲としては、例えばトラブルの原因や結果を示す文字列の範囲が想定されるが、イベントに限らず、固有表現が指定されるなど、他の目的で指定された任意のテキスト範囲であってもよい。データセットのイベント範囲は、例えば人手で付与されてもよい。

分割部１０２は、教示データ格納部１０１に格納される教示データを受け取り、教示データを複数の部分データに分割する。本実施形態では、例えばｋ－分割交差検証（ｋ-fold cross validation）（ｋは２以上の正数）を行うことを想定し、分割部１０２は、教示データをｋ個の部分データに分割する。また、分割部１０２は、教示データにおける分割位置を異ならせて、複数の部分データを複数セット生成する。

学習部１０３は、教示データを用いてモデルを学習し、学習済みモデルを生成する。学習部１０３は、例えば、ｋ個の部分データのうちの１つを推論用データとし、残りのｋ－１個の部分データを学習用データとしてモデルを学習し、ｋ個の学習済みモデルを生成する。さらに、ｋ個の学習済みモデルを１セットとして、ｋ個の部分データのセットごとに、学習済みモデルを生成する。なお、複数の部分データの１セットに対応して生成されたｋ個の学習済みモデルを、１つの学習済みモデルセットともいう。

推定部１０４は、教示データを用いて学習された複数の異なる学習済みモデルセットごとに、教示データの文書におけるイベント範囲を推定する。

推定結果格納部１０５は、推定部１０４により推定されたイベント範囲を、例えば文書中で対応する文字列の範囲を示すラベルとして当該文書に対応付けて格納する。

選択部１０６は、教示データで既に定義されているイベント範囲とは異なり、かつ教示データの文書に対して複数の異なる手法で推定された複数のイベント範囲の少なくとも一部が重複するイベントグループを選択する。複数の異なる手法で推定された複数のイベント範囲とは、例えば、推定部１０４により学習済みモデルセットごとに推定された複数のイベント範囲を示す。なお、複数の異なる手法とは、教示データについて異なる観点で複数回イベント範囲が推定されていればよい。つまり、教示データの文書中の文の出現位置を入れ替えてもよいし、モデルのネットワーク構造を変更してもよいし、モデルのハイパーパラメータを変更してもよいし、人手でもよい。

決定部１０７は、イベントグループから教示データに追加すべきイベント範囲である追加イベントを決定する。
追加部１０８は、追加イベントを教示データに追加し、教示データ格納部１０１に登録する。
なお、教示データ格納部１０１と推定結果格納部１０５とは、外部サーバなどデータ生成装置１０の外部に存在してもよく、必要に応じてデータ生成装置１０がアクセス可能であればよい。

次に、教示データ格納部１０１に格納される教示データの一例について図２を参照して説明する。
図２に示す教示データは、文書２１の文字列にラベル２２が付与されている例である。具体的には、文書２１を構成する文字または形態素などの構成単位（トークンともいう）に対して、イベント範囲２３を指定するように、ラベル２２が付与される。例えば、文書２１に「配管のクラック」および「水が漏洩した」というイベントがあると想定した場合、「その／結果／、／配管／の／クラック／に／より／、／水／が／漏洩／した／こと／が／分かった／。」という文書２１を構成する形態素に対し、「Ｂ－Ｅｖｅｎｔ」、「Ｉ－Ｅｖｅｎｔ」および「Ｏ」のラベル２２が付与され、イベント範囲２３が指定される。より具体的には、「配管／の／クラック」という形態素に、「Ｂ－Ｅｖｅｎｔ／Ｉ－Ｅｖｅｎｔ／Ｉ－Ｅｖｅｎｔ」がそれぞれ付与され、イベント範囲２３「配管のクラック」が定義される。同様に、イベント範囲２３「水が漏洩した」が定義される。

「Ｂ－Ｅｖｅｎｔ」は、文書２１中のイベントの開始位置を示す。「Ｉ－Ｅｖｅｎｔ」は、「Ｂ－Ｅｖｅｎｔ」が付与された構成単位に続く、イベントを構成する要素であることを示す。「Ｏ」は、イベントを構成する要素ではない、つまりイベント範囲外であることを示す。

次に、本実施形態に係るデータ生成装置１０の追加イベント生成処理の一例について図３のフローチャートを参照して説明する。

ステップＳ３０１では、分割部１０２が、教示データを複数の部分データに分割する。教示データの分割方法は、例えばｋ－分割交差検証を行うために均等にｋ個の部分データに分割すればよい。なお、ｋ－分割交差検証に限らず、複数の学習済みモデルセットを生成できるような適切な部分データが生成される方法であればよい。
ステップＳ３０２では、学習部１０３が、複数の部分データを用いてモデルを学習し、複数の学習済みモデルからなる１つの学習済みモデルセットを生成する。学習部１０３における学習処理については、図４および図５を参照して後述する。

ステップＳ３０３では、推定部１０４が、学習済みモデルセットを用いて教示データの文書に含まれるイベント範囲を推定する。推定されたイベント範囲は、推定結果格納部１０５に格納される。
ステップＳ３０４では、推定部１０４が、ステップＳ３０３における学習済みモデルセットを用いたイベント範囲の推定処理を、所定のイテレーション回数実行したか否かを判定する。具体的には、例えばカウンタを設定し、ステップＳ３０３のイベント範囲の推定処理を実行する度にカウンタの値を１つインクリメントし、カウンタの値が所定のイテレーション回数と一致するか否かを判定すればよい。イベント範囲の推定処理が所定のイテレーション回数実行された場合は、ステップＳ３０６に進み、所定のイテレーション回数実行されていない場合は、ステップＳ３０５に進む。

ステップＳ３０５では、分割部１０２が、教示データに対する以前の分割位置とは異なる分割位置で、再び複数の部分データに分割する。その後ステップＳ３０２に進み、同様の処理を繰り返す。
ステップＳ３０６では、選択部１０６が、学習済みモデルセットごとに推定された複数のイベント範囲を学習済みモデルセット間で比較する。選択部１０６は、比較の結果、教示データには含まれないイベント範囲を選択する。

ステップＳ３０７では、選択部１０６が、ステップＳ３０６で選択された複数のイベント範囲をグループ化した１以上のイベントグループを生成する。例えば、重複度が閾値以上である複数のイベント範囲をイベントグループとしてまとめる。なお、ステップＳ３０６およびステップＳ３０７のイベントグループの生成処理の詳細については図６を参照して後述する。
ステップＳ３０８では、選択部１０６が、１以上のイベントグループの中から、推定エラーではなく教示漏れとして、より確からしい１以上の候補グループを選択する。

ステップＳ３０９では、決定部１０７が、ステップＳ３０８で選択された１以上の候補グループから教示データに追加すべき追加イベントを決定する。
ステップＳ３１０では、追加部１０８が、決定された追加イベントを教示データに追加し、教示データ格納部１０１に登録する。つまり、教示データ格納部１０１に格納される教示データを更新する。なお、更新された教示データを更新教示データとも呼ぶ。

次に、ステップＳ３０１からステップＳ３０３までにおける複数の部分データを用いたモデルの学習および学習済みモデルを用いたイベントの推定について、図４および図５を参照して説明する。
図４上図は、教示データに対する部分データの概念図を示し、図４下図は、学習および推定に用いる部分データの割り当てを示すテーブルである。

本実施形態では、５分割交差検証を行うことを想定する。つまり、図４上図では、教示データを「Ａ」から「Ｅ」までの５つの部分データ４０１に分割される。ここで、５個の部分データ４０１について、４つの部分データ４０１は学習用データとし、残り１つの部分データ４０１は推定用データとする。例えば、教示データが一万文から成る文書であれば、二千文ずつ、５つの部分データに分割し、八千文を学習用データとし、残りの二千文を推定用データとすればよい。

具体的には、図４下図に示すように、学習用データとして部分データ「Ｂ，Ｃ，Ｄ，Ｅ」を用いる場合、モデルを学習用データ「Ｂ，Ｃ，Ｄ，Ｅ」の４つの部分データを用いて学習し、残りの部分データＡを推定用データ「Ａ」とする。モデルの学習方法については、既存の方法を用いればよい。例えば、学習用データ「Ｂ，Ｃ，Ｄ，Ｅ」のうちの文書のみを入力データとし、学習用データ「Ｂ，Ｃ，Ｄ，Ｅ」の文書および文書に付与されたラベルの組を正解データとしてモデルを学習させる。入力データに対するモデルからの出力データと正解データとの差分を誤差関数により評価し、誤差関数を最小化するようにバックプロパゲーション処理を行い、学習済みモデルを生成する。ここでは、説明の便宜上、推定用データＡを推定する学習済みモデルを「学習済みモデルＡ」と呼ぶ。推定部１０４は、学習済みモデルＡを用いて推定用データＡに含まれるイベント範囲を推定する。

次に、学習用データを入れ替え、学習用データとして「Ａ，Ｃ，Ｄ，Ｅ」を用いる場合、モデルを学習用データ「Ａ，Ｃ，Ｄ，Ｅ」の４つの部分データを用いて学習し、学習済みモデルＡと同様に、学習済みモデルＢを生成する。推定部１０４は、学習済みモデルＢを用いて推定用データ「Ｂ」に含まれるイベント範囲を推定する。

このように、全ての部分データが推定用データとして割り当てられるよう、順に学習用データおよび推定用データを入れ替えて、学習済みモデルによるイベント範囲の推定処理を実行する。結果として、学習済みモデルＡから学習済みモデルＥまでのイベント範囲推定処理によって、教示データの文書全体についてのイベント範囲の推定処理を一回実行できる。

なお、ここでは、図４に示す学習済みモデルＡから学習済みモデルＥまでの５つをまとめて学習済みモデルセット１と呼ぶ。図４の例では、学習済みモデルセット１を用いることで、１回目のイベント範囲の推定処理が実行される。

次に、分割部１０２が図４上図における教示データの分割位置とは異なる位置で教示データを分割した場合を図５に示す。
図５上図は、図４上図と同様の部分データの概念図であるが、教示データが図４上図とは異なる位置で分割される。破線は、図４上図に示される分割位置であり、実線は新たな分割位置である。例えば、教示データの先頭の一部分は、部分データ「Ｅ’」の一部である。このように、新たに複数の部分データ「Ａ’，Ｂ’，Ｃ’，Ｄ’，Ｅ’」が生成される。

図５下図は、図４下図同様、学習および推定に用いる部分データの割り当てを示すテーブルである。学習部１０３および推定部１０４は、モデルの学習および学習済みモデルを用いたイベント範囲の推定について、図４の場合と同様に処理する。結果として、学習済みモデルセット２「Ａ’，Ｂ’，Ｃ’，Ｄ’，Ｅ’」により、教示データの文書全体に対して２回目のイベント範囲の推定処理が実行される。

文書を異なる位置で分割するため、図４の場合と図５の場合とでは部分データに含まれる文（文字列）の集合が異なる。よって、部分データを用いた学習結果である学習済みモデルも図４の場合と図５の場合とでは異なる。このように、分割部１０２が、分割位置を異ならせた複数の部分データのセットを複数生成することで、ｋ－分割交差検証を複数回実行することができ、学習済みモデルごとの推定結果の揺れを平準化できる。

なお、図４および図５の例では、教示データにおける分割位置を異ならせることで、イベント範囲の推定処理の各回における部分データの内容を変更することを想定したが、これに限らない。例えば、教示データに対する分割位置は変更せずに、イベント範囲の推定処理の各回において、教示データの文をランダムに並べ替えてから部分データを生成してもよい。すなわち、イベント範囲の推定処理の各回において部分データに含まれる文が異なるように設定されれば、どのような部分データの生成方法でもよい。

さらに、教示データの文書全体に対して複数回イベント範囲の推定処理が実行されれば、部分データによるｋ－分割交差検証を複数回実行することに限らない。例えば、複数の異なるネットワーク構造を持つモデルを他の学習用データなどで予め学習し、異なるネットワーク構造の学習済みモデルを用いて、教示データの文書全体に対してイベント範囲の推定処理を実行してもよい。例えば、ＲＮＮ（Recuurent Neural Network）モデル、ＬＳＴＭ（Long short-term memory）モデル、Transformerモデル、ＢＥＲＴモデルといった異なるネットワーク構造を持つモデルを複数用意してイベント範囲の推定処理を実行させることで、異なるイベント範囲の推定結果を得ることができる。

また、あるモデルについて、ニューラルネットワークの層数、ユニット数、活性化関数、ドロップアウト率などのハイパーパラメータを異ならせて学習させることで、複数の異なる学習済みモデルを生成してもよい。ハイパーパラメータが異なることにより、学習済みモデルの出力結果もある程度異なると考えられるため、複数の異なるイベント範囲の推定結果を得ることができる。

さらには、複数のユーザにより、教示データの文書について人手でイベント範囲を設定した結果を用いてもよい。ユーザによってイベント範囲として認識する範囲が異なることが考えられるため、異なるイベント範囲の推定結果を得ることができる。

次に、イベントグループの生成方法について図６を参照して説明する。
図６は、学習済みモデルセット（図６では、単にモデルセットという）を用いて複数回のイベント範囲の推定処理により得られたイベント範囲を示す。図６の横方向は、教示データの文書における文の進む方向を示す。図６の縦方向は、学習済みモデルセットの種別を示す。

説明の便宜上、文字列を破線で図示し、教示データにおけるイベント範囲と、各モデルセットで推定されたイベント範囲６０１とを示す。ここでは、教示データに対して４回、異なる分割位置で複数の部分データを生成し、それぞれ異なる学習済みモデルセット１から学習済みモデルセット４を用いて、４回イベント範囲の推定処理を実行した場合を例に説明する。モデルセット１からモデルセット４までの学習済みモデルセットがそれぞれ異なるため、同じ文書に対しても推定されるイベント範囲６０１が異なる。

選択部１０６は、各モデルセットで推定されたイベント範囲６０１のうち、教示データに出現していない、推定されたイベント範囲を選択する。教示データに出現していないイベント範囲であるか否かの判定方法としては、例えば、学習済みモデルセットによりイベント範囲として推定された文字列の範囲が、教示データにおけるイベント範囲の文字列と一部でも重複する場合、選択部１０６は、推定されたイベント範囲は教示データに出現すると判定する。一方、推定された文字列の範囲が、教示データのイベント範囲と重複していない場合、選択部１０６は、推定されたイベント範囲が教示データに出現していないと判定すればよい。

また、選択部１０６は、推定されたイベント範囲と教示データのイベント範囲との重複度が閾値未満である場合、推定されたイベント範囲が教示データに出現していないと判定してもよい。また、推定されたイベント範囲における末尾からｎ個（ｎは１以上の正数）の形態素が教示データと重複していない場合、選択部１０６は、推定されたイベント範囲が教示データに出現していないと判定してもよい。

続いて、選択部１０６は、教示データに出現していないイベント範囲６０１の中で、イベント範囲６０１が類似するイベントをまとめ、イベントグループ６１０を生成する。
イベント範囲６０１が類似するか否かの判定方法としては、各学習済みモデルセットのイベント範囲を横断的に比較し、イベント範囲の文字列が１文字以上重複する場合にイベント範囲が類似すると判定されればよい。なお、イベント範囲６０１の文字列の重複度が閾値以上、例えば、ｎパーセント以上重複する場合にイベント範囲６０１が類似すると判定されてもよい。また、イベント範囲６０１における末尾からｎ個の形態素のいずれかが重複している場合にイベント範囲６０１が類似すると判定されてもよい。さらには、これらの判定方法の組み合わせでもよいし、他の判定方法でもよい。
なお、選択部１０６は、文の進む方向に沿った各モデルセットの３番目のイベント範囲６０１は教示データと重複した範囲を有するため、これらのイベント範囲についてはイベントグループを生成しない。

図６の例では、「イベント範囲の文字列が１文字以上重複する」場合にイベントグループを生成する判定方法を用いて、各学習済みモデルセットで推定されたイベント範囲が重複するグループである、３つのイベントグループ６１０，６１１および６１２が生成される。例えば、イベントグループ６１０では、各学習済みモデルセットで推定されたイベント範囲が同一の文字列ではなく、推定揺れを含んでいる。イベントグループ６１０を具体的に説明すると、例えば「配管の溶接不良はなかったが」という文に対して、各学習済みモデルセットがイベント範囲を推定した場合を想定する。モデルセット１では、「配管の溶接不良」がイベント範囲６０１として推定され、モデルセット３では、「不良は」がイベント範囲６０１として推定されるような場合である。

次に、イベントグループから追加すべきイベント範囲を含む候補グループを選択する一例を図７を参照して説明する。
選択部１０６は、閾値以上のイベント数を含むイベントグループを、候補グループ７０１として選択する。図７の例では、例えば閾値を「３」と設定した場合、イベントグループ６１０に含まれるイベント数が「４」、イベントグループ６１１に含まれるイベント数が「４」、イベントグループ６１２に含まれるイベント数が「２」であるため、選択部１０６は、イベントグループ６１０およびイベントグループ６１１を候補グループ７０１として選択する。なお、選択部１０６は、イベント範囲の推定処理の回数に対し、イベントグループに含まれるイベント範囲６０１の数が所定の割合以上となるイベントグループを候補グループ７０１として選択してもよい。具体的に例えば、所定の割合を７０パーセントとし、１０回イベント範囲の推定処理が実行された場合、選択部１０６は、イベント範囲が７つ以上含まれるイベントグループを候補グループ７０１として選択する。これにより、推定揺れを考慮しつつ、多数決で教示データには存在しないイベント範囲を特定できるため、学習済みモデルの推定誤りではなく教示漏れのみを追加できる可能性を向上させることができる。

次に、追加イベントの決定例について図８を参照して説明する。
図８は、図７に示される候補グループ７０１を示す。決定部１０７は、候補グループ７０１に含まれるイベント範囲から追加イベントを決定する。追加イベントの決定方法としては、例えば、候補グループ７０１に属するイベント範囲の中で、同一の文字列がイベント範囲として選択されている数が最も多いイベント範囲６０１を追加イベント８０１として決定する。例えば、図８の例では、文の進む方向の１つ目の候補グループ７０１（イベントグループ６１０）において、モデルセット３およびモデルセット４で推定されたイベント範囲６０１が同一の文字列範囲であるため、同一のイベント範囲が選択された数は「２」となる。他のモデルセット１およびモデルセット２で推定されたイベント範囲は、１つ目の候補グループ内の他のイベント範囲と同一の範囲ではないため、同一のイベント範囲が選択された数はそれぞれ「１」となる。よって、決定部１０７は、１つ目の候補グループ７０１において、モデルセット３およびモデルセット４で推定されたイベント範囲を追加イベント８０１として決定する。
同様に、２つ目の候補グループ７０１（イベントグループ６１１）において、モデルセット２およびモデルセット４で推定されたイベント範囲が同一の文字列範囲であり、選択された数が「２」である。また、他のモデルセット１およびモデルセット３のイベント範囲について選択された数が「１」であるため、モデルセット２およびモデルセット４で推定されたイベント範囲６０１が追加イベント８０１として決定される。

なお、決定部１０７は、上述の追加イベントの決定方法の条件を満たした対象となるイベント範囲であっても、末尾が助詞、コロンやカッコなどの特定の記号といった不自然な品詞で終わる場合は、当該イベント範囲を追加イベントとして決定しなくともよい。また、決定部１０７は、候補グループ内の重複するイベント範囲の数のランキング上位にイベント範囲が重複しない複数のイベント範囲が存在する場合、当該重複しない複数のイベント範囲を追加イベント８０１として決定してもよいし、これらの決定方法の少なくとも１つの組み合わせでもよい。

また、追加部１０８は、追加イベントを教示データに登録する際、文書を構成する文ごとに、イベントグループが生成されたイベント範囲を含む文に対する重みも登録してもよい。例えば、イベントグループが生成された場合、当該イベントグループに属するイベント範囲を含む文は、教示データにラベルが予め付与されていなかった部分であり、教示データとしての信頼度が低い可能性がある。よって、追加部１０８は、イベントグループが生成されたイベント範囲を含む文に対し、教示データに予め付与されていたイベント範囲を含む文よりも重みを低くするように重み付けしてもよい。また、文全体の重みではなく、追加イベントの範囲のみの重みを低くするようにトークンのラベルに対して重み付けしてもよい。また、ある文を構成する全てのトークンのラベルについて重みを低くするように重み付けをしてもよい。

次に、本実施形態に係るデータ生成装置１０により生成されるイベント範囲の利用例について図９および図１０を参照して説明する。
図９左図は、処理対象の文書であり、ここでは教示データのように既にイベント範囲が抽出された場合を想定する。抽出されたイベント範囲が囲みで表示される。このように、対象文書からイベント範囲を抽出する、いわゆる系列ラベリングが行われる。図９右図は、イベントの因果関係を示すグラフである。イベント間で因果関係を推定して、関係性を表示できる。

図９左図の対象文書に対して、データ生成装置１０により追加イベントが追加された場合について図１０に示す。
本実施形態に係るデータ生成装置１０により対象文書に対してイベント範囲の推定処理を実行し、「浸水対策を施した機種」というイベント範囲が追加イベント１００１として追加された場合を想定する。このように、対象文書が教示データであれば、教示データにイベント範囲の設定漏れがあった場合でも、本来ラベルが付与されるべきイベント範囲を追加イベント１００１として追加できる。
なお、イベント範囲の推定結果および追加イベントは、因果関係の推定に限らず、キーワード検索のための対象データとして用いられてもよく、イベント範囲をもれなく抽出することでメリットがある用途であれば、どのような用途にも適用できる。

なお、学習部１０３は、既存の教示データに追加イベントが追加されることで更新された更新教示データを用いてモデルを学習し、学習済みモデルを生成してもよい。更新教示データを用いて学習することにより、再現率の高い学習済みモデルを生成でき、適切なイベント範囲の抽出を実現できる。

次に、上述の実施形態に係るデータ生成装置のハードウェア構成の一例を図１１に示す。
データ解析装置は、ＣＰＵ（Central Processing Unit）３１と、ＲＡＭ（Random Access Memory）３２と、ＲＯＭ（Read Only Memory）３３と、ストレージ３４と、表示装置３５と、入力装置３６と、通信装置３７とを含み、それぞれバスにより接続される。なお、表示装置３５はデータ生成装置１０のハードウェア構成として含まれなくてもよい。

ＣＰＵ３１は、プログラムに従って演算処理および制御処理などを実行するプロセッサである。ＣＰＵ３１は、ＲＡＭ３２の所定領域を作業領域として、ＲＯＭ３３およびストレージ３４などに記憶されたプログラムとの協働により各種処理を実行する。
ＲＡＭ３２は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）などのメモリである。ＲＡＭ３２は、ＣＰＵ３１の作業領域として機能する。ＲＯＭ３３は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。

ストレージ３４は、ＨＤＤ等の磁気記録媒体、フラッシュメモリなどの半導体による記憶媒体、または、ＨＤＤ（Hard Disc Drive）などの磁気的に記録可能な記憶媒体、または光学的に記録可能な記憶媒体などにデータを書き込みおよび読み出しをする装置である。ストレージ３４は、ＣＰＵ３１からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。
表示装置３５は、ＬＣＤ（Liquid Crystal Display）などの表示デバイスである。表示装置３５は、ＣＰＵ３１からの表示信号に基づいて、各種情報を表示する。

入力装置３６は、マウスおよびキーボード等の入力デバイスである。入力装置３６は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をＣＰＵ３１に出力する。
通信装置３７は、ＣＰＵ３１からの制御に応じて外部機器とネットワークを介して通信する。

以上に示した本実施形態によれば、複数の異なる手法により、教示データの文書について複数のイベント範囲の推定処理を行い、各推定処理で得られたイベント範囲の重複度により、イベントグループを生成する。イベントグループから教示データに追加すべきイベント範囲である追加イベントを決定し、教示データに登録する。これにより、教示データにはイベント範囲としてラベルが付与されていないが、本来はイベント範囲のラベルを付与すべきデータを追加できる。
また、例えば単に学習済みモデルで推定された、教示データには無いイベント範囲を全て正例として追加してしまうと、再現率は上がるが、単なる推定誤りである可能性もあり、ノイズデータとして登録され適合率が下がる可能性があるが、本実施形態によれば、例えばｋ－分割交差検証を用いて、教示データの文書に対して異なる学習済みモデルセットによりイベント範囲の推定処理を複数回行い、それぞれの学習済みモデルセットで得られたイベント範囲の重複度を考慮することで、推定誤りではなく、より確からしいイベント範囲を追加イベントとして決定できる確率を高めることができる。
結果として、データセットの品質を向上させることができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述したデータ生成装置および学習装置の制御動作による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＤＶＤ－ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態のデータ生成装置および学習装置の制御と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…データ生成装置、２１…文書、２２…ラベル、２３，６０１…イベント範囲、３１…ＣＰＵ、３２…ＲＡＭ、３３…ＲＯＭ、３４…ストレージ、３５…表示装置、３６…入力装置、３７…通信装置、１０１…教示データ格納部、１０２…分割部、１０３…学習部、１０４…推定部、１０５…推定結果格納部、１０６…選択部、１０７…決定部、１０８…追加部、４０１…部分データ、６１０，６１１，６１２…イベントグループ、７０１…候補グループ、８０１，１００１…追加イベント

Claims

教示データの文書に対して定義された文字列の範囲である第１イベント範囲とは異なり、かつ前記文書に対して複数の異なる手法で推定された文字列の範囲である複数の第２イベント範囲の少なくとも一部が重複するイベントグループを選択する選択部と、
前記イベントグループから前記教示データに追加すべき第２イベント範囲である追加イベントを決定する決定部と、
を具備するデータ生成装置。
前記選択部は、前記複数の第２イベント範囲の重複度が閾値以上である場合に、当該複数の第２イベント範囲を前記イベントグループとして選択する、請求項１に記載のデータ生成装置。
前記決定部は、重複する前記第２イベント範囲の数が閾値以上である場合に、当該第２イベント範囲を前記追加イベントとして決定する、請求項１または請求項２に記載のデータ生成装置。
前記教示データを用いて学習された複数の異なる学習済みモデルごとに、前記文書について前記第２イベント範囲を推定する推定部をさらに具備する、請求項１から請求項３のいずれか１項に記載のデータ生成装置。
前記教示データを複数の部分データに分割する分割部と、
前記複数の部分データのうちの一部の部分データを用いてモデルを学習させ、学習済みモデルを生成する学習部と、
前記学習済みモデルを用いて、前記複数の部分データのうちの残りの部分データに対応する文について前記第２イベント範囲を推定する推定部と、をさらに具備し、
前記複数の部分データそれぞれについて前記第２イベント範囲が推定されるように、前記学習済みモデルの生成および前記第２イベント範囲の推定が繰り返される、請求項１から請求項３のいずれか１項に記載のデータ生成装置。
前記分割部は、前記教示データの分割位置を異ならせて前記複数の部分データのセットを複数セット生成し、
前記学習部は、前記複数の部分データのセットごとに、複数の学習済みモデルを含む学習済みモデルセットを生成し、
前記推定部は、前記複数の部分データのセットごとに、前記学習済みモデルセットを用いて前記複数の第２イベント範囲を推定する、請求項５に記載のデータ生成装置。
前記異なる手法で推定された複数の第２イベント範囲のそれぞれは、複数のユーザがそれぞれ前記文書に対して設定したイベント範囲である、請求項１から請求項３のいずれか１項に記載のデータ生成装置。
前記教示データは、前記文書を構成する文またはトークンごとに重みが付与される、請求項１から請求項７のいずれか１項に記載のデータ生成装置。
教示データの文書に対して定義された文字列の範囲である第１イベント範囲とは異なり、かつ前記文書に対して複数の異なる手法で推定された文字列の範囲である複数の第２イベント範囲の少なくとも一部が重複するイベントグループを選択し、
前記イベントグループから前記教示データに追加すべき第２イベント範囲である追加イベントを決定する、データ生成方法。
請求項１から請求項８のいずれか１項に記載のデータ生成装置により生成された前記追加イベントを前記教示データに追加した更新教示データを用いてモデルを学習し、学習済みモデルを生成する学習部を具備する、学習装置。