JP2022108008A - データ生成装置、方法および学習装置 - Google Patents

データ生成装置、方法および学習装置 Download PDF

Info

Publication number
JP2022108008A
JP2022108008A JP2021002781A JP2021002781A JP2022108008A JP 2022108008 A JP2022108008 A JP 2022108008A JP 2021002781 A JP2021002781 A JP 2021002781A JP 2021002781 A JP2021002781 A JP 2021002781A JP 2022108008 A JP2022108008 A JP 2022108008A
Authority
JP
Japan
Prior art keywords
event
data
range
ranges
teaching data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021002781A
Other languages
English (en)
Inventor
雅弘 伊藤
Masahiro Ito
智弘 山崎
Toshihiro Yamazaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2021002781A priority Critical patent/JP2022108008A/ja
Priority to US17/460,399 priority patent/US20220222576A1/en
Publication of JP2022108008A publication Critical patent/JP2022108008A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

【課題】データセットの品質を向上させることができる。【解決手段】本実施形態に係るデータ生成装置は、選択部と、決定部とを含む。選択部は、教示データの文書に対して定義された文字列の範囲である第1イベント範囲とは異なり、かつ前記文書に対して複数の異なる手法で推定された文字列の範囲である複数の第2イベント範囲の少なくとも一部が重複するイベントグループを選択する。決定部は、前記イベントグループから前記教示データに追加すべき第2イベント範囲である追加イベントを決定する。【選択図】図1

Description

本発明の実施形態は、データ生成装置、方法および学習装置に関する。
自然言語処理において注目されるタスクとして、いわゆる系列ラベリングを用いた固有表現抽出のようなテキスト範囲の抽出タスクがある。系列ラベリングに関する機械学習用に、予め文書にテキスト範囲を指定するラベルが付与されたデータセットが用意されるが、ラベル誤りが含まれる可能性もある。このようなデータセットに対し、ラベル誤りを含む可能性がある文を推定して、推定されたラベル誤りを含む文の重みを下げることにより、ラベル誤りの影響を低減し、データセットを用いて学習した学習済みモデルの推論時の主に適合率を向上させる手法がある。
しかし、系列ラベリングにより抽出されたテキスト範囲を前処理とする、因果関係抽出タスクなどを実行する場合、因果関係がありそうなテキスト範囲をもれなく抽出することが重要である。すなわち、付与されたラベルが正しい割合を示す適合率よりも、本来ラベルが付与されるべき文字列に正しくラベルが付与されているかを示す再現率が重視される。
よって、上述の手法では、ラベル誤りを含む文の重みを下げるだけであり、再現率を向上させることができない。
Zihan Wang et al., "CrossWeigh: Training Named Entity Tagger from Imperfect Annotations", Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Pages 5154-5163, Hong Kong, China, November 3-7, 2019.
本開示は、上述の課題を解決するためになされたものであり、データセットの品質を向上させることを目的とする。
本実施形態に係るデータ生成装置は、選択部と、決定部とを含む。教示データの文書に対して定義された文字列の範囲である第1イベント範囲とは異なり、かつ前記文書に対して複数の異なるモデルで推定された文字列の範囲である複数の第2イベント範囲の少なくとも一部が重複するイベントグループを選択する。決定部は、前記イベントグループから前記教示データに追加すべき第2イベント範囲である追加イベントを決定する。
本実施形態に係るデータ生成装置を示すブロック図。 教示データ格納部に格納される教示データの一例を示す図。 データ生成装置のイベント生成処理の一例を示すフローチャート。 k-分割交差検証の1回目の部分データの利用例を示す図。 k-分割交差検証の2回目の部分データの利用例を示す図。 イベントグループの生成方法の一例を示す図。 ベントグループから候補グループを選択する一例を示す図。 追加イベントの決定例を示す図。 イベント範囲の利用例を示す図。 データ生成装置により追加イベントが追加された場合の一例を示す図。 データ生成装置のハードウェア構成の一例を示す図。
以下、図面を参照しながら本実施形態に係るデータ生成装置、方法および学習装置について詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜省略する。
本実施形態に係るデータ生成装置について図1のブロック図を参照して説明する。
本実施形態に係るデータ生成装置10は、教示データ格納部101と、分割部102と、学習部103と、推定部104と、推定結果格納部105と、選択部106と、決定部107と、追加部108とを含む。なお、教示データ格納部101と、学習部103とを併せて学習装置とも呼ぶ。
教示データ格納部101は、教示データを格納する。教示データは、複数の文を含む文書と、当該文書に含まれる文字列に対して任意に指定されたテキスト範囲(以下、イベント範囲という)とが対応付けられたデータセットである。本実施形態に係るイベントとは、文書に示される事象を示す。イベント範囲としては、例えばトラブルの原因や結果を示す文字列の範囲が想定されるが、イベントに限らず、固有表現が指定されるなど、他の目的で指定された任意のテキスト範囲であってもよい。データセットのイベント範囲は、例えば人手で付与されてもよい。
分割部102は、教示データ格納部101に格納される教示データを受け取り、教示データを複数の部分データに分割する。本実施形態では、例えばk-分割交差検証(k-fold cross validation)(kは2以上の正数)を行うことを想定し、分割部102は、教示データをk個の部分データに分割する。また、分割部102は、教示データにおける分割位置を異ならせて、複数の部分データを複数セット生成する。
学習部103は、教示データを用いてモデルを学習し、学習済みモデルを生成する。学習部103は、例えば、k個の部分データのうちの1つを推論用データとし、残りのk-1個の部分データを学習用データとしてモデルを学習し、k個の学習済みモデルを生成する。さらに、k個の学習済みモデルを1セットとして、k個の部分データのセットごとに、学習済みモデルを生成する。なお、複数の部分データの1セットに対応して生成されたk個の学習済みモデルを、1つの学習済みモデルセットともいう。
推定部104は、教示データを用いて学習された複数の異なる学習済みモデルセットごとに、教示データの文書におけるイベント範囲を推定する。
推定結果格納部105は、推定部104により推定されたイベント範囲を、例えば文書中で対応する文字列の範囲を示すラベルとして当該文書に対応付けて格納する。
選択部106は、教示データで既に定義されているイベント範囲とは異なり、かつ教示データの文書に対して複数の異なる手法で推定された複数のイベント範囲の少なくとも一部が重複するイベントグループを選択する。複数の異なる手法で推定された複数のイベント範囲とは、例えば、推定部104により学習済みモデルセットごとに推定された複数のイベント範囲を示す。なお、複数の異なる手法とは、教示データについて異なる観点で複数回イベント範囲が推定されていればよい。つまり、教示データの文書中の文の出現位置を入れ替えてもよいし、モデルのネットワーク構造を変更してもよいし、モデルのハイパーパラメータを変更してもよいし、人手でもよい。
決定部107は、イベントグループから教示データに追加すべきイベント範囲である追加イベントを決定する。
追加部108は、追加イベントを教示データに追加し、教示データ格納部101に登録する。
なお、教示データ格納部101と推定結果格納部105とは、外部サーバなどデータ生成装置10の外部に存在してもよく、必要に応じてデータ生成装置10がアクセス可能であればよい。
次に、教示データ格納部101に格納される教示データの一例について図2を参照して説明する。
図2に示す教示データは、文書21の文字列にラベル22が付与されている例である。具体的には、文書21を構成する文字または形態素などの構成単位(トークンともいう)に対して、イベント範囲23を指定するように、ラベル22が付与される。例えば、文書21に「配管のクラック」および「水が漏洩した」というイベントがあると想定した場合、「その/結果/、/配管/の/クラック/に/より/、/水/が/漏洩/した/こと/が/分かった/。」という文書21を構成する形態素に対し、「B-Event」、「I-Event」および「O」のラベル22が付与され、イベント範囲23が指定される。より具体的には、「配管/の/クラック」という形態素に、「B-Event/I-Event/I-Event」がそれぞれ付与され、イベント範囲23「配管のクラック」が定義される。同様に、イベント範囲23「水が漏洩した」が定義される。
「B-Event」は、文書21中のイベントの開始位置を示す。「I-Event」は、「B-Event」が付与された構成単位に続く、イベントを構成する要素であることを示す。「O」は、イベントを構成する要素ではない、つまりイベント範囲外であることを示す。
次に、本実施形態に係るデータ生成装置10の追加イベント生成処理の一例について図3のフローチャートを参照して説明する。
ステップS301では、分割部102が、教示データを複数の部分データに分割する。教示データの分割方法は、例えばk-分割交差検証を行うために均等にk個の部分データに分割すればよい。なお、k-分割交差検証に限らず、複数の学習済みモデルセットを生成できるような適切な部分データが生成される方法であればよい。
ステップS302では、学習部103が、複数の部分データを用いてモデルを学習し、複数の学習済みモデルからなる1つの学習済みモデルセットを生成する。学習部103における学習処理については、図4および図5を参照して後述する。
ステップS303では、推定部104が、学習済みモデルセットを用いて教示データの文書に含まれるイベント範囲を推定する。推定されたイベント範囲は、推定結果格納部105に格納される。
ステップS304では、推定部104が、ステップS303における学習済みモデルセットを用いたイベント範囲の推定処理を、所定のイテレーション回数実行したか否かを判定する。具体的には、例えばカウンタを設定し、ステップS303のイベント範囲の推定処理を実行する度にカウンタの値を1つインクリメントし、カウンタの値が所定のイテレーション回数と一致するか否かを判定すればよい。イベント範囲の推定処理が所定のイテレーション回数実行された場合は、ステップS306に進み、所定のイテレーション回数実行されていない場合は、ステップS305に進む。
ステップS305では、分割部102が、教示データに対する以前の分割位置とは異なる分割位置で、再び複数の部分データに分割する。その後ステップS302に進み、同様の処理を繰り返す。
ステップS306では、選択部106が、学習済みモデルセットごとに推定された複数のイベント範囲を学習済みモデルセット間で比較する。選択部106は、比較の結果、教示データには含まれないイベント範囲を選択する。
ステップS307では、選択部106が、ステップS306で選択された複数のイベント範囲をグループ化した1以上のイベントグループを生成する。例えば、重複度が閾値以上である複数のイベント範囲をイベントグループとしてまとめる。なお、ステップS306およびステップS307のイベントグループの生成処理の詳細については図6を参照して後述する。
ステップS308では、選択部106が、1以上のイベントグループの中から、推定エラーではなく教示漏れとして、より確からしい1以上の候補グループを選択する。
ステップS309では、決定部107が、ステップS308で選択された1以上の候補グループから教示データに追加すべき追加イベントを決定する。
ステップS310では、追加部108が、決定された追加イベントを教示データに追加し、教示データ格納部101に登録する。つまり、教示データ格納部101に格納される教示データを更新する。なお、更新された教示データを更新教示データとも呼ぶ。
次に、ステップS301からステップS303までにおける複数の部分データを用いたモデルの学習および学習済みモデルを用いたイベントの推定について、図4および図5を参照して説明する。
図4上図は、教示データに対する部分データの概念図を示し、図4下図は、学習および推定に用いる部分データの割り当てを示すテーブルである。
本実施形態では、5分割交差検証を行うことを想定する。つまり、図4上図では、教示データを「A」から「E」までの5つの部分データ401に分割される。ここで、5個の部分データ401について、4つの部分データ401は学習用データとし、残り1つの部分データ401は推定用データとする。例えば、教示データが一万文から成る文書であれば、二千文ずつ、5つの部分データに分割し、八千文を学習用データとし、残りの二千文を推定用データとすればよい。
具体的には、図4下図に示すように、学習用データとして部分データ「B,C,D,E」を用いる場合、モデルを学習用データ「B,C,D,E」の4つの部分データを用いて学習し、残りの部分データAを推定用データ「A」とする。モデルの学習方法については、既存の方法を用いればよい。例えば、学習用データ「B,C,D,E」のうちの文書のみを入力データとし、学習用データ「B,C,D,E」の文書および文書に付与されたラベルの組を正解データとしてモデルを学習させる。入力データに対するモデルからの出力データと正解データとの差分を誤差関数により評価し、誤差関数を最小化するようにバックプロパゲーション処理を行い、学習済みモデルを生成する。ここでは、説明の便宜上、推定用データAを推定する学習済みモデルを「学習済みモデルA」と呼ぶ。推定部104は、学習済みモデルAを用いて推定用データAに含まれるイベント範囲を推定する。
次に、学習用データを入れ替え、学習用データとして「A,C,D,E」を用いる場合、モデルを学習用データ「A,C,D,E」の4つの部分データを用いて学習し、学習済みモデルAと同様に、学習済みモデルBを生成する。推定部104は、学習済みモデルBを用いて推定用データ「B」に含まれるイベント範囲を推定する。
このように、全ての部分データが推定用データとして割り当てられるよう、順に学習用データおよび推定用データを入れ替えて、学習済みモデルによるイベント範囲の推定処理を実行する。結果として、学習済みモデルAから学習済みモデルEまでのイベント範囲推定処理によって、教示データの文書全体についてのイベント範囲の推定処理を一回実行できる。
なお、ここでは、図4に示す学習済みモデルAから学習済みモデルEまでの5つをまとめて学習済みモデルセット1と呼ぶ。図4の例では、学習済みモデルセット1を用いることで、1回目のイベント範囲の推定処理が実行される。
次に、分割部102が図4上図における教示データの分割位置とは異なる位置で教示データを分割した場合を図5に示す。
図5上図は、図4上図と同様の部分データの概念図であるが、教示データが図4上図とは異なる位置で分割される。破線は、図4上図に示される分割位置であり、実線は新たな分割位置である。例えば、教示データの先頭の一部分は、部分データ「E’」の一部である。このように、新たに複数の部分データ「A’,B’,C’,D’,E’」が生成される。
図5下図は、図4下図同様、学習および推定に用いる部分データの割り当てを示すテーブルである。学習部103および推定部104は、モデルの学習および学習済みモデルを用いたイベント範囲の推定について、図4の場合と同様に処理する。結果として、学習済みモデルセット2「A’,B’,C’,D’,E’」により、教示データの文書全体に対して2回目のイベント範囲の推定処理が実行される。
文書を異なる位置で分割するため、図4の場合と図5の場合とでは部分データに含まれる文(文字列)の集合が異なる。よって、部分データを用いた学習結果である学習済みモデルも図4の場合と図5の場合とでは異なる。このように、分割部102が、分割位置を異ならせた複数の部分データのセットを複数生成することで、k-分割交差検証を複数回実行することができ、学習済みモデルごとの推定結果の揺れを平準化できる。
なお、図4および図5の例では、教示データにおける分割位置を異ならせることで、イベント範囲の推定処理の各回における部分データの内容を変更することを想定したが、これに限らない。例えば、教示データに対する分割位置は変更せずに、イベント範囲の推定処理の各回において、教示データの文をランダムに並べ替えてから部分データを生成してもよい。すなわち、イベント範囲の推定処理の各回において部分データに含まれる文が異なるように設定されれば、どのような部分データの生成方法でもよい。
さらに、教示データの文書全体に対して複数回イベント範囲の推定処理が実行されれば、部分データによるk-分割交差検証を複数回実行することに限らない。例えば、複数の異なるネットワーク構造を持つモデルを他の学習用データなどで予め学習し、異なるネットワーク構造の学習済みモデルを用いて、教示データの文書全体に対してイベント範囲の推定処理を実行してもよい。例えば、RNN(Recuurent Neural Network)モデル、LSTM(Long short-term memory)モデル、Transformerモデル、BERTモデルといった異なるネットワーク構造を持つモデルを複数用意してイベント範囲の推定処理を実行させることで、異なるイベント範囲の推定結果を得ることができる。
また、あるモデルについて、ニューラルネットワークの層数、ユニット数、活性化関数、ドロップアウト率などのハイパーパラメータを異ならせて学習させることで、複数の異なる学習済みモデルを生成してもよい。ハイパーパラメータが異なることにより、学習済みモデルの出力結果もある程度異なると考えられるため、複数の異なるイベント範囲の推定結果を得ることができる。
さらには、複数のユーザにより、教示データの文書について人手でイベント範囲を設定した結果を用いてもよい。ユーザによってイベント範囲として認識する範囲が異なることが考えられるため、異なるイベント範囲の推定結果を得ることができる。
次に、イベントグループの生成方法について図6を参照して説明する。
図6は、学習済みモデルセット(図6では、単にモデルセットという)を用いて複数回のイベント範囲の推定処理により得られたイベント範囲を示す。図6の横方向は、教示データの文書における文の進む方向を示す。図6の縦方向は、学習済みモデルセットの種別を示す。
説明の便宜上、文字列を破線で図示し、教示データにおけるイベント範囲と、各モデルセットで推定されたイベント範囲601とを示す。ここでは、教示データに対して4回、異なる分割位置で複数の部分データを生成し、それぞれ異なる学習済みモデルセット1から学習済みモデルセット4を用いて、4回イベント範囲の推定処理を実行した場合を例に説明する。モデルセット1からモデルセット4までの学習済みモデルセットがそれぞれ異なるため、同じ文書に対しても推定されるイベント範囲601が異なる。
選択部106は、各モデルセットで推定されたイベント範囲601のうち、教示データに出現していない、推定されたイベント範囲を選択する。教示データに出現していないイベント範囲であるか否かの判定方法としては、例えば、学習済みモデルセットによりイベント範囲として推定された文字列の範囲が、教示データにおけるイベント範囲の文字列と一部でも重複する場合、選択部106は、推定されたイベント範囲は教示データに出現すると判定する。一方、推定された文字列の範囲が、教示データのイベント範囲と重複していない場合、選択部106は、推定されたイベント範囲が教示データに出現していないと判定すればよい。
また、選択部106は、推定されたイベント範囲と教示データのイベント範囲との重複度が閾値未満である場合、推定されたイベント範囲が教示データに出現していないと判定してもよい。また、推定されたイベント範囲における末尾からn個(nは1以上の正数)の形態素が教示データと重複していない場合、選択部106は、推定されたイベント範囲が教示データに出現していないと判定してもよい。
続いて、選択部106は、教示データに出現していないイベント範囲601の中で、イベント範囲601が類似するイベントをまとめ、イベントグループ610を生成する。
イベント範囲601が類似するか否かの判定方法としては、各学習済みモデルセットのイベント範囲を横断的に比較し、イベント範囲の文字列が1文字以上重複する場合にイベント範囲が類似すると判定されればよい。なお、イベント範囲601の文字列の重複度が閾値以上、例えば、nパーセント以上重複する場合にイベント範囲601が類似すると判定されてもよい。また、イベント範囲601における末尾からn個の形態素のいずれかが重複している場合にイベント範囲601が類似すると判定されてもよい。さらには、これらの判定方法の組み合わせでもよいし、他の判定方法でもよい。
なお、選択部106は、文の進む方向に沿った各モデルセットの3番目のイベント範囲601は教示データと重複した範囲を有するため、これらのイベント範囲についてはイベントグループを生成しない。
図6の例では、「イベント範囲の文字列が1文字以上重複する」場合にイベントグループを生成する判定方法を用いて、各学習済みモデルセットで推定されたイベント範囲が重複するグループである、3つのイベントグループ610,611および612が生成される。例えば、イベントグループ610では、各学習済みモデルセットで推定されたイベント範囲が同一の文字列ではなく、推定揺れを含んでいる。イベントグループ610を具体的に説明すると、例えば「配管の溶接不良はなかったが」という文に対して、各学習済みモデルセットがイベント範囲を推定した場合を想定する。モデルセット1では、「配管の溶接不良」がイベント範囲601として推定され、モデルセット3では、「不良は」がイベント範囲601として推定されるような場合である。
次に、イベントグループから追加すべきイベント範囲を含む候補グループを選択する一例を図7を参照して説明する。
選択部106は、閾値以上のイベント数を含むイベントグループを、候補グループ701として選択する。図7の例では、例えば閾値を「3」と設定した場合、イベントグループ610に含まれるイベント数が「4」、イベントグループ611に含まれるイベント数が「4」、イベントグループ612に含まれるイベント数が「2」であるため、選択部106は、イベントグループ610およびイベントグループ611を候補グループ701として選択する。なお、選択部106は、イベント範囲の推定処理の回数に対し、イベントグループに含まれるイベント範囲601の数が所定の割合以上となるイベントグループを候補グループ701として選択してもよい。具体的に例えば、所定の割合を70パーセントとし、10回イベント範囲の推定処理が実行された場合、選択部106は、イベント範囲が7つ以上含まれるイベントグループを候補グループ701として選択する。これにより、推定揺れを考慮しつつ、多数決で教示データには存在しないイベント範囲を特定できるため、学習済みモデルの推定誤りではなく教示漏れのみを追加できる可能性を向上させることができる。
次に、追加イベントの決定例について図8を参照して説明する。
図8は、図7に示される候補グループ701を示す。決定部107は、候補グループ701に含まれるイベント範囲から追加イベントを決定する。追加イベントの決定方法としては、例えば、候補グループ701に属するイベント範囲の中で、同一の文字列がイベント範囲として選択されている数が最も多いイベント範囲601を追加イベント801として決定する。例えば、図8の例では、文の進む方向の1つ目の候補グループ701(イベントグループ610)において、モデルセット3およびモデルセット4で推定されたイベント範囲601が同一の文字列範囲であるため、同一のイベント範囲が選択された数は「2」となる。他のモデルセット1およびモデルセット2で推定されたイベント範囲は、1つ目の候補グループ内の他のイベント範囲と同一の範囲ではないため、同一のイベント範囲が選択された数はそれぞれ「1」となる。よって、決定部107は、1つ目の候補グループ701において、モデルセット3およびモデルセット4で推定されたイベント範囲を追加イベント801として決定する。
同様に、2つ目の候補グループ701(イベントグループ611)において、モデルセット2およびモデルセット4で推定されたイベント範囲が同一の文字列範囲であり、選択された数が「2」である。また、他のモデルセット1およびモデルセット3のイベント範囲について選択された数が「1」であるため、モデルセット2およびモデルセット4で推定されたイベント範囲601が追加イベント801として決定される。
なお、決定部107は、上述の追加イベントの決定方法の条件を満たした対象となるイベント範囲であっても、末尾が助詞、コロンやカッコなどの特定の記号といった不自然な品詞で終わる場合は、当該イベント範囲を追加イベントとして決定しなくともよい。また、決定部107は、候補グループ内の重複するイベント範囲の数のランキング上位にイベント範囲が重複しない複数のイベント範囲が存在する場合、当該重複しない複数のイベント範囲を追加イベント801として決定してもよいし、これらの決定方法の少なくとも1つの組み合わせでもよい。
また、追加部108は、追加イベントを教示データに登録する際、文書を構成する文ごとに、イベントグループが生成されたイベント範囲を含む文に対する重みも登録してもよい。例えば、イベントグループが生成された場合、当該イベントグループに属するイベント範囲を含む文は、教示データにラベルが予め付与されていなかった部分であり、教示データとしての信頼度が低い可能性がある。よって、追加部108は、イベントグループが生成されたイベント範囲を含む文に対し、教示データに予め付与されていたイベント範囲を含む文よりも重みを低くするように重み付けしてもよい。また、文全体の重みではなく、追加イベントの範囲のみの重みを低くするようにトークンのラベルに対して重み付けしてもよい。また、ある文を構成する全てのトークンのラベルについて重みを低くするように重み付けをしてもよい。
次に、本実施形態に係るデータ生成装置10により生成されるイベント範囲の利用例について図9および図10を参照して説明する。
図9左図は、処理対象の文書であり、ここでは教示データのように既にイベント範囲が抽出された場合を想定する。抽出されたイベント範囲が囲みで表示される。このように、対象文書からイベント範囲を抽出する、いわゆる系列ラベリングが行われる。図9右図は、イベントの因果関係を示すグラフである。イベント間で因果関係を推定して、関係性を表示できる。
図9左図の対象文書に対して、データ生成装置10により追加イベントが追加された場合について図10に示す。
本実施形態に係るデータ生成装置10により対象文書に対してイベント範囲の推定処理を実行し、「浸水対策を施した機種」というイベント範囲が追加イベント1001として追加された場合を想定する。このように、対象文書が教示データであれば、教示データにイベント範囲の設定漏れがあった場合でも、本来ラベルが付与されるべきイベント範囲を追加イベント1001として追加できる。
なお、イベント範囲の推定結果および追加イベントは、因果関係の推定に限らず、キーワード検索のための対象データとして用いられてもよく、イベント範囲をもれなく抽出することでメリットがある用途であれば、どのような用途にも適用できる。
なお、学習部103は、既存の教示データに追加イベントが追加されることで更新された更新教示データを用いてモデルを学習し、学習済みモデルを生成してもよい。更新教示データを用いて学習することにより、再現率の高い学習済みモデルを生成でき、適切なイベント範囲の抽出を実現できる。
次に、上述の実施形態に係るデータ生成装置のハードウェア構成の一例を図11に示す。
データ解析装置は、CPU(Central Processing Unit)31と、RAM(Random Access Memory)32と、ROM(Read Only Memory)33と、ストレージ34と、表示装置35と、入力装置36と、通信装置37とを含み、それぞれバスにより接続される。なお、表示装置35はデータ生成装置10のハードウェア構成として含まれなくてもよい。
CPU31は、プログラムに従って演算処理および制御処理などを実行するプロセッサである。CPU31は、RAM32の所定領域を作業領域として、ROM33およびストレージ34などに記憶されたプログラムとの協働により各種処理を実行する。
RAM32は、SDRAM(Synchronous Dynamic Random Access Memory)などのメモリである。RAM32は、CPU31の作業領域として機能する。ROM33は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。
ストレージ34は、HDD等の磁気記録媒体、フラッシュメモリなどの半導体による記憶媒体、または、HDD(Hard Disc Drive)などの磁気的に記録可能な記憶媒体、または光学的に記録可能な記憶媒体などにデータを書き込みおよび読み出しをする装置である。ストレージ34は、CPU31からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。
表示装置35は、LCD(Liquid Crystal Display)などの表示デバイスである。表示装置35は、CPU31からの表示信号に基づいて、各種情報を表示する。
入力装置36は、マウスおよびキーボード等の入力デバイスである。入力装置36は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をCPU31に出力する。
通信装置37は、CPU31からの制御に応じて外部機器とネットワークを介して通信する。
以上に示した本実施形態によれば、複数の異なる手法により、教示データの文書について複数のイベント範囲の推定処理を行い、各推定処理で得られたイベント範囲の重複度により、イベントグループを生成する。イベントグループから教示データに追加すべきイベント範囲である追加イベントを決定し、教示データに登録する。これにより、教示データにはイベント範囲としてラベルが付与されていないが、本来はイベント範囲のラベルを付与すべきデータを追加できる。
また、例えば単に学習済みモデルで推定された、教示データには無いイベント範囲を全て正例として追加してしまうと、再現率は上がるが、単なる推定誤りである可能性もあり、ノイズデータとして登録され適合率が下がる可能性があるが、本実施形態によれば、例えばk-分割交差検証を用いて、教示データの文書に対して異なる学習済みモデルセットによりイベント範囲の推定処理を複数回行い、それぞれの学習済みモデルセットで得られたイベント範囲の重複度を考慮することで、推定誤りではなく、より確からしいイベント範囲を追加イベントとして決定できる確率を高めることができる。
結果として、データセットの品質を向上させることができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述したデータ生成装置および学習装置の制御動作による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、Blu-ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態のデータ生成装置および学習装置の制御と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…データ生成装置、21…文書、22…ラベル、23,601…イベント範囲、31…CPU、32…RAM、33…ROM、34…ストレージ、35…表示装置、36…入力装置、37…通信装置、101…教示データ格納部、102…分割部、103…学習部、104…推定部、105…推定結果格納部、106…選択部、107…決定部、108…追加部、401…部分データ、610,611,612…イベントグループ、701…候補グループ、801,1001…追加イベント

Claims (10)

  1. 教示データの文書に対して定義された文字列の範囲である第1イベント範囲とは異なり、かつ前記文書に対して複数の異なる手法で推定された文字列の範囲である複数の第2イベント範囲の少なくとも一部が重複するイベントグループを選択する選択部と、
    前記イベントグループから前記教示データに追加すべき第2イベント範囲である追加イベントを決定する決定部と、
    を具備するデータ生成装置。
  2. 前記選択部は、前記複数の第2イベント範囲の重複度が閾値以上である場合に、当該複数の第2イベント範囲を前記イベントグループとして選択する、請求項1に記載のデータ生成装置。
  3. 前記決定部は、重複する前記第2イベント範囲の数が閾値以上である場合に、当該第2イベント範囲を前記追加イベントとして決定する、請求項1または請求項2に記載のデータ生成装置。
  4. 前記教示データを用いて学習された複数の異なる学習済みモデルごとに、前記文書について前記第2イベント範囲を推定する推定部をさらに具備する、請求項1から請求項3のいずれか1項に記載のデータ生成装置。
  5. 前記教示データを複数の部分データに分割する分割部と、
    前記複数の部分データのうちの一部の部分データを用いてモデルを学習させ、学習済みモデルを生成する学習部と、
    前記学習済みモデルを用いて、前記複数の部分データのうちの残りの部分データに対応する文について前記第2イベント範囲を推定する推定部と、をさらに具備し、
    前記複数の部分データそれぞれについて前記第2イベント範囲が推定されるように、前記学習済みモデルの生成および前記第2イベント範囲の推定が繰り返される、請求項1から請求項3のいずれか1項に記載のデータ生成装置。
  6. 前記分割部は、前記教示データの分割位置を異ならせて前記複数の部分データのセットを複数セット生成し、
    前記学習部は、前記複数の部分データのセットごとに、複数の学習済みモデルを含む学習済みモデルセットを生成し、
    前記推定部は、前記複数の部分データのセットごとに、前記学習済みモデルセットを用いて前記複数の第2イベント範囲を推定する、請求項5に記載のデータ生成装置。
  7. 前記異なる手法で推定された複数の第2イベント範囲のそれぞれは、複数のユーザがそれぞれ前記文書に対して設定したイベント範囲である、請求項1から請求項3のいずれか1項に記載のデータ生成装置。
  8. 前記教示データは、前記文書を構成する文またはトークンごとに重みが付与される、請求項1から請求項7のいずれか1項に記載のデータ生成装置。
  9. 教示データの文書に対して定義された文字列の範囲である第1イベント範囲とは異なり、かつ前記文書に対して複数の異なる手法で推定された文字列の範囲である複数の第2イベント範囲の少なくとも一部が重複するイベントグループを選択し、
    前記イベントグループから前記教示データに追加すべき第2イベント範囲である追加イベントを決定する、データ生成方法。
  10. 請求項1から請求項8のいずれか1項に記載のデータ生成装置により生成された前記追加イベントを前記教示データに追加した更新教示データを用いてモデルを学習し、学習済みモデルを生成する学習部を具備する、学習装置。
JP2021002781A 2021-01-12 2021-01-12 データ生成装置、方法および学習装置 Pending JP2022108008A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021002781A JP2022108008A (ja) 2021-01-12 2021-01-12 データ生成装置、方法および学習装置
US17/460,399 US20220222576A1 (en) 2021-01-12 2021-08-30 Data generation apparatus, method and learning apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021002781A JP2022108008A (ja) 2021-01-12 2021-01-12 データ生成装置、方法および学習装置

Publications (1)

Publication Number Publication Date
JP2022108008A true JP2022108008A (ja) 2022-07-25

Family

ID=82322886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021002781A Pending JP2022108008A (ja) 2021-01-12 2021-01-12 データ生成装置、方法および学習装置

Country Status (2)

Country Link
US (1) US20220222576A1 (ja)
JP (1) JP2022108008A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7376033B1 (ja) 2023-03-15 2023-11-08 株式会社Fronteo 情報処理装置及び情報処理方法
JP7391343B1 (ja) 2023-03-15 2023-12-05 株式会社Fronteo 情報処理装置及び情報処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7376033B1 (ja) 2023-03-15 2023-11-08 株式会社Fronteo 情報処理装置及び情報処理方法
JP7391343B1 (ja) 2023-03-15 2023-12-05 株式会社Fronteo 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
US20220222576A1 (en) 2022-07-14

Similar Documents

Publication Publication Date Title
US10585784B2 (en) Regression testing question answering cognitive computing systems by applying ground truth virtual checksum techniques
CN1457041B (zh) 为一个自然语言理解系统用来自动注解训练数据的一个系统
US11042794B2 (en) Extensible validation framework for question and answer systems
KR20180077689A (ko) 자연어 생성 장치 및 방법
US10567552B2 (en) Expanding an answer key to verify a question and answer system
JP2022108008A (ja) データ生成装置、方法および学習装置
US10540252B2 (en) Analytic and layer-based augmentation of code reviews
US11704506B2 (en) Learned evaluation model for grading quality of natural language generation outputs
US11551002B2 (en) Learned evaluation model for grading quality of natural language generation outputs
US10528660B2 (en) Leveraging word patterns in the language of popular influencers to predict popular trends
Breck et al. Data infrastructure for machine learning
US11243835B1 (en) Message-based problem diagnosis and root cause analysis
US10282066B2 (en) Dynamic threshold filtering for watched questions
US9471877B1 (en) Health checking a question answering cognitive computing system built on a baseline of ground truth virtual checksum
JP2013250926A (ja) 質問応答装置、方法、及びプログラム
Yakovlev et al. GEC-DePenD: Non-autoregressive grammatical error correction with decoupled permutation and decoding
US20180025274A1 (en) Dynamic threshold filtering for watched questions
US10115380B1 (en) Providing feedback on musical performance
US20230229861A1 (en) Systems and methods near negative distinction for evaluating nlp models
JP2023002475A (ja) コンピュータシステム、コンピュータプログラムおよびコンピュータで実装される方法(因果関係知識の識別および抽出)
Hirakawa et al. Software log anomaly detection through one class clustering of transformer encoder representation
US10824659B2 (en) Predicting the temporal stability of answers in a deep question answering system
US11087084B2 (en) Confidence models based on error-to-correction mapping
JP6907703B2 (ja) 解析装置、解析方法、および解析プログラム
WO2021053457A1 (en) Language statement processing in computing system

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240405