JP7364083B2

JP7364083B2 - 機械学習プログラム、機械学習方法および情報処理装置

Info

Publication number: JP7364083B2
Application number: JP2022536027A
Authority: JP
Inventors: 智哉野呂
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2023-10-18
Anticipated expiration: 2040-07-14
Also published as: US20230096957A1; EP4184397A1; EP4184397A4; JPWO2022013954A1; WO2022013954A1

Description

本発明の実施形態は、機械学習技術に関する。

従来、入力データが与えられたとき、それが予め定義されたカテゴリ集合の中のどのカテゴリに属するかを判定する分類タスク（例えば、文章に含まれる各単語の品詞推定、固有表現抽出、語義判定等）を機械学習により生成した機械学習モデルを用いて解く手法が知られている。

また、訓練データに対する第１機械学習モデルによる出力結果を、第２機械学習モデルへの入力として使用して機械学習を実行するスタッキングと呼ばれる機械学習の手法がある。一般的に、アンサンブル学習の１手法であるスタッキングを用いて積み重ねられた複数の機械学習モデルの推論精度は、単一の機械学習モデルの推論精度よりも良いことが知られている。

このスタッキングにおいては、例えば、第１機械学習モデルの判定結果の誤りを修正するように第２機械学習モデルの機械学習が実行されても良い。このような第２機械学習モデルを生成するための訓練データを生成する従来技術としては、訓練データをｋ個のサブセットに分割し、ｋ－１個のサブセットで生成した第１機械学習モデルを用いて残り１個のサブセットに判定結果を追加する。次いで、判定結果を追加する作業を判定結果の追加対象のサブセットを入れ替えながらｋ回繰り返すことで、第２機械学習モデルの訓練データを生成する手法が知られている。

Wu et al. N-fold Templated Piped Correction. Proc. of IJCNLP 2004

しかしながら、上記の従来技術では、分割したｋ個のサブセットを入れ替えながらｋ回繰り返すことで第１機械学習モデルをｋ個作らなければならず、効率よく機械学習を行うことが困難であるという問題がある。

１つの側面では、効率的な機械学習を実行できる機械学習プログラム、機械学習方法および情報処理装置を提供することを目的とする。

１つの案では、機械学習プログラムは、選択する処理と、第１の機械学習モデルを生成する処理と、第２の訓練データ群を生成する処理とをコンピュータに実行させる。選択する処理は、第１の訓練データ群に含まれる同一のラベルが付された同一のデータの出現頻度に基づいて、第１の訓練データ群から複数のデータを選択する。第１の機械学習モデルを生成する処理は、選択した複数のデータを用いた機械学習により第１の機械学習モデルを生成する。第２の訓練データ群を生成する処理は、第１の訓練データ群と、第１の訓練データ群に含まれるデータを入力した場合に第１の機械学習モデルが出力する結果とを合わせた第２の訓練データ群を生成する。

効率的な機械学習が実行される。

図１は、実施形態の概要を説明する説明図である。図２は、従来例を説明する説明図である。図３は、ノイズを加える場合の実施形態の概要を説明する説明図である。図４は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図５Ａは、訓練データセットの一例を説明する説明図である。図５Ｂは、出現頻度データの一例を説明する説明図である。図５Ｃは、エントロピーデータの一例を説明する説明図である。図５Ｄは、自己情報量データの一例を説明する説明図である。図５Ｅは、スコアデータの一例を説明する説明図である。図６Ａは、訓練データ安定性判定処理の一例を示すフローチャートである。図６Ｂは、訓練データ安定性判定処理の一例を示すフローチャートである。図７は、訓練データ安定性判定処理の変形例を示すフローチャートである。図８は、判定手法選択処理の概要を説明する説明図である。図９は、判定手法選択処理の一例を示すフローチャートである。図１０Ａは、判定結果の追加に関する処理例を示すフローチャートである。図１０Ｂは、結果データの一例を説明する説明図である。図１１Ａは、判定結果の追加に関する処理例を示すフローチャートである。図１１Ｂは、結果データの一例を説明する説明図である。図１２Ａは、判定結果の追加に関する処理例を示すフローチャートである。図１２Ｂは、結果データの一例を説明する説明図である。図１３は、コンピュータ構成の一例を示すブロック図である。

以下、図面を参照して、実施形態にかかる機械学習プログラム、機械学習方法および情報処理装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する機械学習プログラム、機械学習方法および情報処理装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

図１は、実施形態の概要を説明する説明図である。図１に示すように、本実施形態では、文章中の各単語（部分文字列）に対して固有表現を示す「固有表現ラベル」を割り当てる分類タスクを、スタッキングの手法を用いて機械学習された第１機械学習モデルＭ１および第２機械学習モデルＭ２により解く際の、第１機械学習モデルＭ１および第２機械学習モデルＭ２が、訓練データセットＤを用いた機械学習で生成される。

なお、分類タスクは、上記の例に限定するものではなく、単語の品詞推定や語義判定でもよい。また、分類タクスは、機械学習によって生成された機械学習モデルを用いて解くものであればよく、文書中の単語に関する分類以外にも、血圧、心拍数等の生体データより身体異常の有無を分類するものや、各教科の評価および中間・期末試験の得点などの成績データより対象者（受験者）の合否を分類するものであってもよい。よって、機械学習モデルの生成に用いる訓練データセットに含まれるデータ（以下、事例）については、分類タスクに応じて学習対象とする事例であればよい。例えば、身体異常の有無を分類する機械学習モデルを生成する場合は、学習対象ごとの生体データと、その生体データに対する正解（身体異常の有無）などが各事例に含まれることとなる。

訓練データセットＤには、各事例（例えば文章中の各単語）について、その事例における正解の「固有表現ラベル」を示す正解ラベルが付与されている。本実施形態では、訓練データセットＤを用いて教師あり学習を行うことで、勾配ブースティング木（ＧＢＴ）、ニューラルネットワークなどの第１機械学習モデルＭ１および第２機械学習モデルＭ２が生成される。

具体的には、本実施形態では、訓練データセットＤに含まれる各事例について、全事例の中で同じ正解ラベルが付与された同じ内容の事例が出現する頻度（出現頻度）をもとに、訓練データセットＤを用いた機械学習モデルによる判定の安定性を推定する（Ｓ１）。頻度は、絶対頻度、相対頻度、累積頻度のいずれかであっても良い。また、出現頻度に基づいて算出される割合をもとに、各事例の安定性が推定されても良い。また、「同じ内容の事例」は、同一のラベルが付された同一のデータであり、本実施形態では、このようなデータ毎の出現頻度をもとに安定性を推定するものとする。

訓練データセットＤに含まれる各事例についての、訓練データセットＤを用いた機械学習モデルによる判定の安定性とは、各事例が訓練データセットＤを用いた機械学習モデルで安定的に判定可能であるか否かを意味する。例えば、安定的に判定可能な事例では、ｋ分割交差検定においてどのように訓練データセットＤを分割・学習して得られた機械学習モデルであっても同じ判定結果が得られると推定される。この安定的に判定可能な事例は、訓練データセットＤにおいて同一の正解ラベルが付与された同じ内容の事例が多いものや、分類先カテゴリの曖昧性が低いものが相当することから、同じ正解ラベルが付与された同じ内容の事例の出現頻度をもとに推定可能である。逆に、判定結果が不安定な事例は、ｋ分割交差検定における分割方法によっては異なる判定結果が得られると推定される事例である。この判定結果が不安定な事例は、訓練データセットＤにおいて同じ内容の事例が少ないものや、分類先カテゴリの曖昧性が高いものが相当することから、同じ正解ラベルが付与された同じ内容の事例の出現頻度をもとに推定可能である。

本実施形態では、Ｓ１での推定結果をもとに、訓練データセットＤより、安定的に判定可能な事例を選択した訓練データセットＤ１と、訓練データセットＤ１以外の訓練データセットＤ２とに分ける。次いで、本実施形態では、安定的に判定可能と判断されたデータ（訓練データセットＤ１）で機械学習を行って第１機械学習モデルＭ１を生成する（Ｓ２）。次いで、本実施形態では、訓練データセットＤに含まれる各データを第１機械学習モデルＭ１に入力して、第１機械学習モデルＭ１が出力した第１の判定結果を訓練データセットＤに追加し、訓練データセットＤ３を生成する（Ｓ３）。次いで、本実施形態では、訓練データセットＤ３を用いた機械学習を行って第２機械学習モデルＭ２を生成する。

出現頻度をもとに安定的に判定可能と推定されたデータを用いた機械学習により生成した第１機械学習モデルＭ１では、訓練データセットＤを入力データとして推論した場合の第１の判定結果において、不安定になると推定された事例で正解ラベルとは異なる結果（判定結果の誤り）が得られやすくなる。このため、訓練データセットＤに第１の判定結果を追加した訓練データセットＤ３は、第１機械学習モデルＭ１の判定結果の誤りを修正するように最終判定結果を出力する第２機械学習モデルＭ２の生成に適したものとなる。

図２は、従来例を説明する説明図である。図２に示すように、従来例では、訓練データセットＤ１００をｋ個のサブセット（Ｄ１００_１…Ｄ１００_ｋ－１、Ｄ１００_ｋ）に分割し（Ｓ１０１）、ｋ－１個のサブセットで訓練して第１機械学習モデルＭ１０１を生成する（Ｓ１０２）。次いで、従来例では、残り１個のサブセットを入力として第１機械学習モデルＭ１０１が推論して得られた判定結果をそのサブセットに追加する（Ｓ１０３）。従来例では、このようにして判定結果を追加するデータを入れ替えながらＳ１０２、Ｓ１０３をｋ回繰り返すことで第２機械学習モデルＭ１０２の訓練データセットＤ１０１を生成する（Ｓ１０４）。次いで、従来例では、作成した訓練データセットＤ１０１を用いた機械学習によって第２機械学習モデルＭ１０２を作成する（Ｓ１０５）。

このように、従来例では、第２機械学習モデルＭ１０２の訓練データセットＤ１０１を生成する過程で、分割したｋ個のサブセット（Ｄ１００_１…Ｄ１００_ｋ－１、Ｄ１００_ｋ）を入れ替えながらｋ回繰り返すことから、第１機械学習モデルＭ１０１をｋ個作ることとなる。これに対し、本実施形態では、例えば、機械学習モデルＭ１を複数作成することなく、第２機械学習モデルＭ２の訓練データセットＤ３を効率的に作成することができ、効率的な機械学習を実行することができる。また、第１機械学習モデルＭ１および第２機械学習モデルＭ２それぞれの訓練データセットを事前に用意する単純な手法と比較しても、正解フラグを付与するデータ量が少なくて済むことから、効率的に機械学習を実行することができる。

図３は、ノイズを加える場合の実施形態の概要を説明する説明図である。図３に示すように、訓練データセットＤに第１機械学習モデルＭ１を適用した第１の判定結果を訓練データセットＤに追加し、第２機械学習モデルＭ２の訓練データセットＤ３を生成する際には、ノイズを加えてもよい。具体的には、第１機械学習モデルＭ１の入力にノイズを加えて得られた第１の判定結果を訓練データセットＤに追加してもよい（Ｓ５ａ）。または、訓練データセットＤに第１機械学習モデルＭ１を適用して第１機械学習モデルＭ１が出力する結果にノイズを加えて訓練データセットＤに追加してもよい（Ｓ５ｂ）。

このようにノイズを加えた場合、ノイズを加えても結果が変化しにくい事例は第１機械学習モデルＭ１で安定的に判定可能であり、ノイズを加えると結果が変化しやすい事例は第１機械学習モデルＭ１では判定結果が不安定となる。したがって、第１機械学習モデルＭ１による第１の判定結果を訓練データセットＤに追加することで、第１機械学習モデルＭ１の判定結果の誤りを修正するように第２機械学習モデルＭ２を生成するための訓練データセットＤ３を生成することができ、第２機械学習モデルＭ２による最終判定結果の精度を向上させることができる。

図４は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図４に示すように、情報処理装置１は、入出力部１０と、記憶部２０と、制御部３０とを有する。例えば、情報処理装置１は、ＰＣ（Personal Computer）などを適用できる。

入出力部１０は、制御部３０が各種情報の入出力を行う際の入出力インタフェースを司る。例えば、入出力部１０は、情報処理装置１に接続されるキーボードやマイク等の入力装置や液晶ディスプレイ装置などの表示装置との入出力インタフェースを司る。また、入出力部１０は、ＬＡＮ（Local Area Network）等の通信ネットワークを介して接続する外部機器との間でデータ通信を行う通信インタフェースを司る。

例えば、情報処理装置１は、入出力部１０を介して訓練データセットＤなどの入力を受け、記憶部２０に格納する。また、情報処理装置１は、生成した第１機械学習モデルＭ１および第２機械学習モデルＭ２に関する第１機械学習モデル情報２１および第２機械学習モデル情報２２を記憶部２０より読み出し、入出力部１０を介して外部に出力する。

記憶部２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置によって実現される。記憶部２０は、訓練データセットＤ、出現頻度データＳ_ｆ、エントロピーデータＳ_ｈ、自己情報量データＳ_ｉ、スコアデータＳ_ｄ、訓練データセットＤ３、第１機械学習モデル情報２１および第２機械学習モデル情報２２などを格納する。

訓練データセットＤは、学習対象とする事例（例えば複数の文章それぞれに含まれる各単語）と、その事例に付与された正解ラベル（例えば「固有表現ラベル」）の組（事例と正解ラベルとのペア）についての複数の訓練データの集合である。なお、訓練データは、１文章単位のデータであって、複数の事例と正解ラベルとのペアを含むものとする。

図５Ａは、訓練データセットＤの一例を説明する説明図である。図５Ａに示すように、訓練データセットＤには、複数の文章それぞれの訓練データに対応するデータＩＤごとに、文章に含まれる単語と、その単語に付与された正解ラベル（「固有表現ラベル」）との組、すなわち事例と正解ラベルとのペアが含まれる。

「固有表現ラベル」については、「Ｏ」、「Ｇｅｎｅｒａｌ」、「Ｍｏｌｅｃｕｌａｒ」がある。「Ｏ」は、固有表現（一部を含む）ではない単語を意味するラベルである。「Ｇｅｎｅｒａｌ」は、「Ｇｅｎｅｒａｌ」という型の固有表現（一部を含む）の単語を意味するラベルである。「Ｍｏｌｅｃｕｌａｒ」は、「Ｍｏｌｅｃｕｌａｒ」という型の固有表現（一部を含む）の単語を意味するラベルである。なお、「Ｇｅｎｅｒａｌ」および「Ｍｏｌｅｃｕｌａｒ」では、先頭の単語には「Ｂ－」という接頭辞を付与し、２番目以降の単語には「Ｉ－」という接頭辞を付与するものとする。

例えば、図示例における訓練データセットＤにおいて、「ｓｏｌｖｅｎｔｍｉｘｔｕｒｅ」という事例は、「Ｇｅｎｅｒａｌ」という型の固有表現が正解となる。また、「ｎ－ｐｒｏｐｙｌｂｒｏｍｉｄｅ」という事例は、「Ｍｏｌｅｃｕｌａｒ」という型の固有表現が正解となる。

図４に戻り、出現頻度データＳ_ｆは、訓練データセットＤに含まれる事例と正解ラベルとのペアの出現頻度を集計したデータである。

図５Ｂは、出現頻度データＳ_ｆの一例を説明する説明図である。図５Ｂに示すように、出現頻度データＳ_ｆは、訓練データセットＤに含まれる各事例について、正解ラベルごとに集計した出現頻度が含まれる。より具体的には、出現頻度データＳ_ｆは、同じ内容の事例と、同じ正解ラベル毎に集計した出現頻度が含まれる。例えば、「ｓｏｌｖｅｎｔｍｉｘｔｕｒｅ」という事例ついて、正解ラベルが「Ｇｅｎｅｒａｌ」の出現頻度は３である。同様に、「ｎ－ｐｒｏｐｙｌｂｒｏｍｉｄｅ」という事例について、正解ラベルが「Ｍｏｌｅｃｕｌａｒ」の出現頻度は５である。また、「ｗａｔｅｒ」という事例について、正解ラベルが「Ｍｏｌｅｃｕｌａｒ」の出現頻度は２０８３であり、正解ラベルが「Ｇｅｎｅｒａｌ」の出現頻度は５である。

図４に戻り、エントロピーデータＳ_ｈは、訓練データセットＤに含まれる各事例について、訓練データセットＤに含まれる事例の総事例数、同じ内容の事例と、同じ正解ラベル毎に集計した出現頻度などをもとに計算した情報理論におけるエントロピーを示す。

図５Ｃは、エントロピーデータＳ_ｈの一例を説明する説明図である。図５Ｃに示すように、エントロピーデータＳ_ｈは、「ｓｏｌｖｅｎｔｍｉｘｔｕｒｅ」、「ｎ－ｐｒｏｐｙｌｂｒｏｍｉｄｅ」、「ｗａｔｅｒ」等の各事例のエントロピーを示す。

図４に戻り、自己情報量データＳ_ｉは、訓練データセットＤに含まれる事例の総事例数、同じ内容の事例と、同じ正解ラベル毎の出現頻度などをもとに計算した自己情報量を示す。

図５Ｄは、自己情報量データＳ_ｉの一例を説明する説明図である。図５Ｄに示すように、自己情報量データＳ_ｉは、「ｓｏｌｖｅｎｔｍｉｘｔｕｒｅ」と「Ｇｅｎｅｒａｌ」、「ｎ－ｐｒｏｐｙｌｂｒｏｍｉｄｅ」と「Ｍｏｌｅｃｕｌａｒ」等の同じ内容の事例と、同じ正解ラベル毎の自己情報量を示す。

図４に戻り、スコアデータＳ_ｄは、訓練データセットＤに含まれる文章それぞれついて、前述した判定の安定性をスコア化したデータである。

図５Ｅは、スコアデータＳ_ｄの一例を説明する説明図である。図５Ｅに示すように、スコアデータＳ_ｄは、訓練データセットＤに含まれる複数の文章それぞれに対応するデータＩＤごとの、判定の安定性についてのスコアを示す。

図４に戻り、第１機械学習モデル情報２１は、教師あり学習を行うことで生成した第１機械学習モデルＭ１に関する情報である。第２機械学習モデル情報２２は、教師あり学習を行うことで生成した第２機械学習モデルＭ２に関する情報である。この第１機械学習モデル情報２１および第２機械学習モデル情報２２は、例えば勾配ブースティング木、ニューラルネットワークなどのモデルを構築するためのパラメータ等である。

制御部３０は、第１機械学習モデル生成部３１、訓練データ生成部３２および第２機械学習モデル生成部３３を有する。制御部３０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部３０は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

第１機械学習モデル生成部３１は、訓練データセットＤを用いて第１機械学習モデルＭ１を生成する処理部である。具体的には、第１機械学習モデル生成部３１は、訓練データセットＤに含まれる同じ正解ラベルが付された同じ内容の事例毎の出現頻度に基づいて、訓練データセットＤから複数の事例を選択する。これにより、第１機械学習モデル生成部３１は、訓練データセットＤより安定的に判定可能な事例を選択した訓練データセットＤ１を得る。次いで、第１機械学習モデル生成部３１は、訓練データセットＤ１に含まれる複数の事例を用いた機械学習により第１機械学習モデルＭ１を生成する。次いで、第１機械学習モデル生成部３１は、生成した第１機械学習モデルＭ１に関する第１機械学習モデル情報２１を記憶部２０に格納する。

訓練データ生成部３２は、第２機械学習モデルＭ２を生成するための訓練データセットＤ３を生成する処理部である。具体的には、訓練データ生成部３２は、第１機械学習モデル情報２１をもとに第１機械学習モデルＭ１を構築する。次いで、訓練データ生成部３２は、訓練データセットＤに含まれる各事例を構築した第１機械学習モデルＭ１に入力した場合に第１機械学習モデルＭ１が出力する結果を訓練データセットＤに追加して訓練データセットＤ３を生成する。

第２機械学習モデル生成部３３は、訓練データセットＤ３を用いて第２機械学習モデルＭ２を生成する処理部である。具体的には、第２機械学習モデル生成部３３は、訓練データセットＤ３に含まれる各事例と、その事例に対する第１機械学習モデルＭ１の判定結果（第１機械学習モデルＭ１が出力した結果）とを用いた機械学習により第２機械学習モデルＭ２を生成する。次いで、第２機械学習モデル生成部３３は、生成した第２機械学習モデルＭ２に関する第２機械学習モデル情報２２を記憶部２０に格納する。

ここで、第１機械学習モデル生成部３１および訓練データ生成部３２の処理の詳細を説明する。先ず、第１機械学習モデル生成部３１では、訓練データセットＤの中の各事例の出現頻度をもとに、各事例の判定結果の安定性を示すスコアを算出して訓練データセットＤ１を得る訓練データ安定性判定処理を行う（Ｓ１０）。

図６Ａ、図６Ｂは、訓練データ安定性判定処理の一例を示すフローチャートである。図６Ａに示すように、処理が開始されると、第１機械学習モデル生成部３１は、事例と正解ラベルとのペアを訓練データセットＤから収集してその出現頻度を集計する処理（Ｓ２０）を行う。

具体的には、第１機械学習モデル生成部３１は、訓練データセットＤ中のデータＩＤの集合を処理用の配列（Ｉ）等に格納する（Ｓ２１）。次いで、第１機械学習モデル生成部３１は、配列（Ｉ）内のデータＩＤが空であるか否かを判定し（Ｓ２２）、空と判定（Ｓ２２：Ｙｅｓ）されるまでＳ２３～Ｓ２５の処理を繰り返す。

配列（Ｉ）内のデータＩＤが空でないと判定された場合（Ｓ２２：Ｎｏ）、第１機械学習モデル生成部３１は、配列（Ｉ）からデータＩＤを１つ取得し、処理用の変数（ｉｄ）に格納する（Ｓ２３）。このとき、第１機械学習モデル生成部３１は、取得したデータＩＤを配列（Ｉ）から消去する。次いで、第１機械学習モデル生成部３１は、訓練データセットＤ中の変数（ｉｄ）に対応するデータから同じ内容の事例と、同じ正解ラベルのペアを取得し（Ｓ２４）、取得した数（出現頻度）をもとに出現頻度データＳ_ｆを更新する（Ｓ２５）。

配列（Ｉ）内のデータＩＤが空と判定された場合（Ｓ２２：Ｙｅｓ）、第１機械学習モデル生成部３１は、収集した事例ごとのエントロピーと、同じ内容の事例と、同じ正解ラベル毎の自己情報量を計算する処理（Ｓ３０）を行う。

具体的には、第１機械学習モデル生成部３１は、出現頻度データＳ_ｆ中の事例集合を処理用の配列（Ｅ）等の格納する（Ｓ３１）。次いで、第１機械学習モデル生成部３１は、配列（Ｅ）内の事例が空であるか否かを判定し（Ｓ３２）、空と判定（Ｓ３２：Ｙｅｓ）されるまでＳ３３～Ｓ３５の処理を繰り返す。

配列（Ｅ）内の事例が空でないと判定された場合（Ｓ３２：Ｎｏ）、第１機械学習モデル生成部３１は、第１機械学習モデル生成部３１は、配列（Ｅ）から事例を１つ取得し、処理用の変数（ｅｘ）に格納する（Ｓ３３）。このとき、第１機械学習モデル生成部３１は、取得した事例を配列（Ｅ）から消去する。次いで、第１機械学習モデル生成部３１は、訓練データセットＤ中の変数（ｅｘ）に対応する事例を検索し、正解ラベルごとに該当数を集計する（Ｓ３４）。次いで、第１機械学習モデル生成部３１は、Ｓ３４の集計結果をもとに、処理対象の事例と正解ラベルとのペアについて、公知の情報理論におけるエントロピーと自己情報量を計算し、計算結果をもとにエントロピーデータＳ_ｈおよび自己情報量データＳ_ｉを更新する（Ｓ３５）。

配列（Ｅ）内の事例が空と判定された場合（Ｓ３２：Ｙｅｓ）、図６Ｂに示すように、第１機械学習モデル生成部３１は、同じ内容の事例と、同じ正解ラベル毎の、前述した判定の安定性を推定する処理を行う（Ｓ４０）。

具体的には、第１機械学習モデル生成部３１は、訓練データセットＤ中のデータＩＤの集合を処理用の配列（Ｉ）等に格納する（Ｓ４１）。次いで、第１機械学習モデル生成部３１は、配列（Ｉ）内のデータＩＤが空であるか否かを判定し（Ｓ４２）、空と判定（Ｓ４２：Ｙｅｓ）されるまでＳ４３～Ｓ４６の処理を繰り返す。

配列（Ｉ）内のデータＩＤが空でないと判定された場合（Ｓ４２：Ｎｏ）、第１機械学習モデル生成部３１は、配列（Ｉ）からデータＩＤを１つ取得し、処理用の変数（ｉｄ）に格納する（Ｓ４３）。このとき、第１機械学習モデル生成部３１は、取得したデータＩＤを配列（Ｉ）から消去する。

次いで、第１機械学習モデル生成部３１は、訓練データセットＤ中の変数（ｉｄ）に対応するデータから同じ内容の事例と、同じ正解ラベルのペアを取得する（Ｓ４４）。すなわち、第１機械学習モデル生成部３１は、データＩＤの文章に関する同じ内容の事例と、同じ正解ラベル毎のペアを取得する。次いで、第１機械学習モデル生成部３１は、取得した同じ内容の事例と、同じ正解ラベル毎のペアの出現頻度データＳ_ｆ、エントロピーデータＳ_ｈ、自己情報量データＳ_ｉをもとに、同じ内容の事例と、同じ正解ラベル毎における前述した判定の安定性について、安定・不安定を判定する（Ｓ４５）。

例えば、第１機械学習モデル生成部３１は、出現頻度が閾値（ｆ）未満であり、訓練データセットＤにおいて稀な事例と正解ラベルとのペアを不安定な事例とする。または、第１機械学習モデル生成部３１は、自己情報量が閾値（ｉ）より大きく、かつ、エントロピーが閾値（ｈ）未満の曖昧性が高い事例と正解ラベルとのペアを不安定な事例とする。また、上記の条件に該当しない事例と正解ラベルとのペアについては、安定な事例とする。なお、この判定に関する閾値（ｆ）、（ｉ）、（ｈ）については、例えばユーザが任意に設定してもよい。

一例として、閾値それぞれがｆ＝４、ｉ＝１．０、ｈ＝０．８とすると、図５Ｂの出現頻度データＳ_ｆにおいては、「ｓｏｌｖｅｎｔｍｉｘｔｕｒｅ」・「Ｇｅｎｅｒａｌ」が不安定な事例となる。同様に、図５ＣのエントロピーデータＳ_ｈおよび図５Ｄの自己情報量データＳ_ｉにおいては、「ｗａｔｅｒ」・「Ｇｅｎｅｒａｌ」が不安定な事例となる。

次いで、第１機械学習モデル生成部３１は、データＩＤの文章に関する同じ内容の事例と、同じ正解ラベル毎について判定した安定・不安定の結果をもとに、変数（ｉｄ）に対応するデータ（文章）の安定性を示すスコアを計算し、計算結果をスコアデータＳ_ｄに追加する（Ｓ４６）。例えば、第１機械学習モデル生成部３１は、不安定な事例の数または全数に対する不安定な事例の割合を指標値とし、その指標値に応じた重み付けを行うことでスコアの計算を行う。

配列（Ｉ）内のデータＩＤが空と判定された場合（Ｓ４２：Ｙｅｓ）、第１機械学習モデル生成部３１は、スコアデータＳ_ｄをもとに、安定性の低い文章を除外した残りの文章のデータセットを第１機械学習モデルＭ１を生成するための訓練データセットＤ１とする処理を行う（Ｓ５０）。

具体的には、第１機械学習モデル生成部３１は、スコアデータＳ_ｄをソートし、スコアが低い不安定なデータ（文章）を訓練データセットＤから除外する（Ｓ５１）。次いで、第１機械学習モデル生成部３１は、残ったデータセットを訓練データセットＤ１として出力し（Ｓ５２）、処理を終了する。なお、第１機械学習モデル生成部３１は、スコアが低い不安定なデータ（文章）を除外する以外に、文章に含まれる一部の事例（例えば不安定な事例と判定された事例と正解ラベルとのペア）を選択して除外してもよい。

なお、前述したＳ３０、Ｓ４０については別の処理（別の選択方法）を行うことで、訓練データセットＤの中から第１機械学習モデルＭ１を生成するための訓練データセットＤ１を選択してもよい。

具体的には、第１機械学習モデル生成部３１は、収集した各事例と正解ラベルとのペアの安定性を表すスコアの初期値として、それぞれの自己情報量を設定し、以下の（・）の手順を予め指定した回数繰り返す。次いで、第１機械学習モデル生成部３１は、残った訓練データセットを第１機械学習モデルＭ１用の訓練データセットＤ１とする。
・各文章について、出現する各事例のスコアの総和をその文章のスコアとし、スコアが最大となる文章を安定性の低い文章として除外する。
・除外した文章に含まれる事例のスコアを、「自己情報量／（Ｎ＋１）」とする（Ｎは、これまでに除外した全ての文章中で該当事例が出現した回数）。

この別の選択方法において、第１機械学習モデル生成部３１は、予め指定した回数繰り返す代わりに、各文章のスコアの中の最大値が、予め指定した閾値を下回るまで繰り返してもよい。

上述した別の選択方法では、除外した文章に含まれる事例のスコアを下げることにより、同じ事例を含む文章が除外されにくくなる。すなわち、同じ事例が、除外される側の文章と残される側の文章の両方に含まれるようにする。なお、スコアの計算方法について、上記の例ではＮ＋１で自己情報量を割っているが、除外される度にスコアが小さくなるようなスコア更新方法であれば、いずれの計算方法であってもよい。

図７は、訓練データ安定性判定処理の変形例を示すフローチャートであり、上記の別の選択方法の一例である。図７に示すように、処理が開始されると、第１機械学習モデル生成部３１は、（出現）頻度を集計する処理（Ｓ２０）と、自己情報量を計算する処理（Ｓ３０）とを行った後、別の選択方法に関する処理（Ｓ３０ａ）を行う。

具体的には、第１機械学習モデル生成部３１は、訓練データセットＤ中のデータＩＤの集合を処理用の配列（Ｉ）等に格納する（Ｓ４１）。次いで、第１機械学習モデル生成部３１は、配列（Ｉ）内のデータＩＤが空であるか否かを判定し（Ｓ４２）、空と判定（Ｓ４２：Ｙｅｓ）されるまでＳ４３～Ｓ４６ａの処理を繰り返す。

次いで、第１機械学習モデル生成部３１は、訓練データセットＤ中の変数（ｉｄ）に対応するデータから事例と正解ラベルとのペアを取得する（Ｓ４４）。すなわち、第１機械学習モデル生成部３１は、データＩＤの文章に関する同じ内容の事例と、同じ正解ラベル毎のペアを取得する。次いで、第１機械学習モデル生成部３１は、前述したスコアの計算方法を用いて各事例と正解ラベルとのペアにおけるスコアＳ_ｉを求め、その総和をスコアデータＳ_ｄに加える（Ｓ４６ａ）。

配列（Ｉ）内のデータＩＤが空と判定された場合（Ｓ４２：Ｙｅｓ）、第１機械学習モデル生成部３１は、スコアデータＳ_ｄが最大のデータｄを訓練データセットＤから除外する（Ｓ５３）。次いで、第１機械学習モデル生成部３１は、除外したデータｄ中の各事例と正解ラベルとのペアに対応するスコアＳ_ｉを更新し（Ｓ５４）、前述した繰り返しの終了条件を満たすか否かを判定する（Ｓ５５）。

繰り返しの終了条件（例えば、予め指定した回数繰り返す、文章のスコアの中の最大値が予め指定した閾値を下回る等）を満たさない場合（Ｓ５５：Ｎｏ）、第１機械学習モデル生成部３１は、Ｓ４１に処理を戻す。繰り返しの終了条件を満たす場合（Ｓ５５：Ｙｅｓ）、第１機械学習モデル生成部３１は、残ったデータセットを訓練データセットＤ１として出力し（Ｓ５６）、処理を終了する。

図４に戻り、第１機械学習モデル生成部３１は、Ｓ１０に次いで、複数の判定手法の中からいずれかの判定手法を選択する判定手法選択処理を行う（Ｓ１１）。具体的には、判定手法選択処理では、Ｓ１０において前述した複数通りの選択方法のうち、どの方法を採用するかを決定する。なお、判定手法選択処理は、Ｓ１０において前述した複数通りの選択方法を実施している場合に行われる処理であり、Ｓ１０において一通りの選択方法を実施している場合にはスキップされる。

図８は、判定手法選択処理の概要を説明する説明図である。図８に示すように、判定手法選択処理では、訓練データセットＤをｋ個のサブセット（Ｄ_１…Ｄ_ｋ－１、Ｄ_ｋ）に分割し（Ｓ７１）、ｋ－１個のサブセットで学習して第１機械学習モデルＭ１を生成する（Ｓ７２）。次いで、残り１個のサブセットに第１機械学習モデルＭ１を適用して得られた判定結果と正解とを比較し（Ｓ７３）、各文章のスコアを計算してソートする（正解との一致率、正解のスコア等）。次いで、ソートした結果と、複数の判定手法による判定結果とを比較し、ａｖｅｒａｇｅｐｅｒｃｉｓｉｏｎ等を用いて最適な判定手法を選択する。

図９は、判定手法選択処理の一例を示すフローチャートである。図９に示すように、処理が開始されると、第１機械学習モデル生成部３１は、訓練データセットＤをｋ個のサブセットに分割する（Ｓ６１）。次いで、第１機械学習モデル生成部３１は、｛Ｄ_１…Ｄ_ｋ－１｝で第１機械学習モデルＭ１を生成し、生成した第１機械学習モデルＭ１にＤ_ｋを適用する（Ｓ６２）。

次いで、第１機械学習モデル生成部３１は、適用結果をもとにＤ_ｋの各データのスコアを計算してソートする（Ｓ６３）。次いで、第１機械学習モデル生成部３１は、各訓練データにおける安定性判定手法（Ｓ１０における選択方法）それぞれの結果と比較し、一致の度合をスコア化する（Ｓ６４）。次いで、第１機械学習モデル生成部３１は、Ｓ１０において実施した複数通りの選択方法の中で、最も一致の度合の高い手法（選択方法）の結果を採用する（Ｓ６５）。

図４に戻り、Ｓ１１に次いで、第１機械学習モデル生成部３１は、訓練データセットＤ１に含まれる複数の事例を用いた機械学習により第１機械学習モデルＭ１を生成し（Ｓ１２）、生成した第１機械学習モデルＭ１の関する第１機械学習モデル情報２１を記憶部２０に格納する。

次いで、訓練データ生成部３２は、第１機械学習モデル情報２１をもとに第１機械学習モデルＭ１を構築し、訓練データセットＤに含まれる各事例を構築した第１機械学習モデルＭ１に入力した場合に第１機械学習モデルＭ１が出力する判定結果を訓練データセットＤに追加する（Ｓ１３）。これにより、訓練データ生成部３２は、訓練データセットＤ３を生成する。

ここで、第２機械学習モデルＭ２の訓練データセットＤ３を生成する際にノイズを加える場合を説明する。図１０Ａは、判定結果の追加に関する処理例を示すフローチャートであり、第１機械学習モデルＭ１が出力する結果にノイズを加える場合の一例である。

図１０Ａに示すように、処理が開始されると、訓練データ生成部３２は、訓練データセットＤ中のデータＩＤの集合を処理用の配列（Ｉ）等に格納する（Ｓ８１）。次いで、訓練データ生成部３２は、配列（Ｉ）内のデータＩＤが空であるか否かを判定し（Ｓ８２）、空と判定（Ｓ８２：Ｙｅｓ）されるまでＳ８３～Ｓ８６の処理を繰り返す。

配列（Ｉ）内のデータＩＤが空でないと判定された場合（Ｓ８２：Ｎｏ）、訓練データ生成部３２は、配列（Ｉ）からデータＩＤを１つ取得し、処理用の変数（ｉｄ）に格納する（Ｓ８３）。このとき、訓練データ生成部３２は、取得したデータＩＤを配列（Ｉ）から消去する。

次いで、訓練データ生成部３２は、訓練データセットＤ中の変数（ｉｄ）に対応するデータに第１機械学習モデルＭ１を適用する（Ｓ８４）。次いで、訓練データ生成部３２は、第１機械学習モデルＭ１より得られた判定結果について、各単語（事例）に割り当てられる各ラベルのスコアをランダムに変化させる（Ｓ８５）。次いで、訓練データ生成部３２は、変化後のスコアをもとに、各単語に割り当てるラベルを決定する（Ｓ８６）。

図１０Ｂは、結果データの一例を説明する説明図である。図１０Ｂの結果データＫ１は、Ｓ８５によりスコアをランダムに変化させた後にラベルを決定した場合のデータ例である。

図１０Ｂに示すように、結果データＫ１では、第１機械学習モデルＭ１より得られた判定結果に含まれる推定スコアにランダムなノイズが加えられているため、スコア値が変化している。このため、Ｓ８６において、一部の事例では、スコアを変化させない場合とは異なる判定結果が得られる。例えば、「ｍｉｘｔｕｒｅ」では、スコアの変化前では「Ｉ－Ｇｅｎｅｒａｌ」と判定されるところ、スコアの変化により「Ｏ」と判定されている。

図１０Ａに戻り、配列（Ｉ）内のデータＩＤが空と判定された場合（Ｓ８２：Ｙｅｓ）、訓練データ生成部３２は、各事例について決定したラベルを訓練データセットＤに追加した訓練データセットＤ３を出力し（Ｓ８４）、処理を終了する。

図１１Ａは、判定結果の追加に関する処理例を示すフローチャートであり、第１機械学習モデルＭ１が出力する結果にノイズを加える場合の一例である。

図１１Ａに示すように、処理が開始されると、訓練データ生成部３２は、訓練データセットＤ中のデータＩＤの集合を処理用の配列（Ｉ）等に格納する（Ｓ８１）。次いで、訓練データ生成部３２は、配列（Ｉ）内のデータＩＤが空であるか否かを判定し（Ｓ８２）、空と判定（Ｓ８２：Ｙｅｓ）されるまでＳ８３～Ｓ８６ａの処理を繰り返す。

次いで、訓練データ生成部３２は、訓練データセットＤ中の変数（ｉｄ）に対応するデータに第１機械学習モデルＭ１を適用する（Ｓ８４）。次いで、訓練データ生成部３２は、第１機械学習モデルＭ１より得られた判定結果について、各単語（事例）に割り当てられる各ラベルのスコアを確率値に変換する（Ｓ８５ａ）。具体的には、スコアが高ければ選択されやすくなるような確率値となるように、スコアに応じた確率値に変換する。次いで、訓練データ生成部３２は、変換した確率値をもとに、各単語に割り当てるラベルを決定する（Ｓ８６ａ）。

図１１Ｂは、結果データの一例を説明する説明図である。図１１Ｂの結果データＫ２は、スコアから変換した後の確率値をもとにラベルを決定した場合のデータ例である。

図１０Ｂに示すように、結果データＫ２では、確率値に変換された推定スコアをもとに、確率的にラベルを決定（選択）している。このため、確率値が均衡する一部の事例では、スコアの大小を元にした判定結果とは異なる判定結果が得られる場合がある。例えば、「ｐｒｏｐｙｌ」では、スコアの大小では「Ｉ－Ｍｏｌｅｃｕｌａｒ」と判定されるところ、確率的な選択により「Ｂ－Ｍｏｌｅｃｕｌａｒ」とされている。

図１２Ａは、判定結果の追加に関する処理例を示すフローチャートであり、第１機械学習モデルＭ１の入力にノイズを加える場合の一例である。

図１２Ａに示すように、処理が開始されると、訓練データ生成部３２は、訓練データセットＤ中のデータＩＤの集合を処理用の配列（Ｉ）等に格納する（Ｓ８１）。次いで、訓練データ生成部３２は、配列（Ｉ）内のデータＩＤが空であるか否かを判定し（Ｓ８２）、空と判定（Ｓ８２：Ｙｅｓ）されるまでＳ８３～Ｓ８４ｃの処理を繰り返す。

次いで、訓練データ生成部３２は、訓練データセットＤ中の変数（ｉｄ）に対応するデータの一部の単語をランダムに選択し、選択した単語を別の単語に置換する（Ｓ８４ａ）。なお、置換対象の単語は、データの中からランダムに選んだり、推定結果の確信度（スコア）をもとに選んだりしてもよい。また、別の単語への置換は、任意の単語への置換であってもよい。または、類義語・関連語辞書を利用して置換対象の単語の類義語・関連語への置換であってもよいし、単語分散表現を利用して選択した単語への置換であってもよい。

次いで、訓練データ生成部３２は、置換後のデータに第１機械学習モデルＭ１を適用し（Ｓ８４ｂ）、第１機械学習モデルＭ１より得られた判定結果より各単語に割り当てるラベルを決定する（Ｓ８４ｃ）。

図１２Ｂは、結果データの一例を説明する説明図である。図１２Ｂの結果データＫ３は、置換後の単語（２列目の単語）をもとにラベルを決定した場合のデータ例である。

図１２Ｂに示すように、結果データＫ３では、一部の事例（単語）において、その内容が別の内容に置換されている。例えば、上から６段目の「ｍｉｘｔｕｒｅ」は「ｃｏｍｐｏｕｎｄ」に置換されている。このように、第１機械学習モデルＭ１に入力するデータに対してノイズを付加する構成であってもよい。

以上のように、情報処理装置１は、第１機械学習モデル生成部３１と、訓練データ生成部３２とに関する処理を実行する制御部３０を有する。第１機械学習モデル生成部３１は、訓練データセットＤに含まれる各事例の出現頻度に基づいて、訓練データセットＤから複数の事例を選択する。また、第１機械学習モデル生成部３１は、選択した複数の事例を用いた機械学習により第１機械学習モデルＭ１を生成する。訓練データ生成部３２は、訓練データセットＤと、訓練データセットＤに含まれる各事例を入力した場合に第１機械学習モデルＭ１が出力する結果とを合わせた訓練データセットＤ３を生成する。また、制御部３０は、訓練データセットＤ３を用いて第２機械学習モデルＭ２を生成する第２機械学習モデル生成部３３に関する処理を実行する。制御部３０では、分類対象のデータを分類する分類タスクにおいて、第１機械学習モデルＭ１に分類対象のデータを入力し、第１機械学習モデルＭ１の出力結果を得る。次いで、制御部３０では、第１機械学習モデルＭ１の出力結果を第２機械学習モデルＭ２に入力して、第２機械学習モデルＭ２より分類結果を得る。これにより、単一の機械学習モデルの分類精度よりも精度の良い分類結果を得ることができる。

このように、情報処理装置１では、訓練データセットＤに含まれる各事例の出現頻度に基づいて選択した複数の事例を用いた機械学習により第１機械学習モデルＭ１を生成するので、第２機械学習モデルＭ２を学習するための訓練データセットＤ３を生成する際に、例えば第１機械学習モデルＭ１をｋ回繰り返して生成することがない。したがって、情報処理装置１では、第２機械学習モデルＭ２を学習するための訓練データセットＤ３を効率的に生成することができ、効率的な機械学習を実行することができる。

また、第１機械学習モデル生成部３１は、訓練データセットＤのうち出現頻度が閾値未満の事例を選択対象から除外する。このように、情報処理装置１では、訓練データセットＤうち、出現頻度が閾値未満であり、第１機械学習モデルＭ１による判定結果が不安定になると推定される事例を選択対象から除外した上で第１機械学習モデルＭ１を生成する。このため、訓練データセットＤに含まれる各事例を入力した場合に第１機械学習モデルＭ１が出力する結果において、不安定になると推定される事例では、訓練データセットＤの正解ラベルとは異なる結果が得られやすくなる。したがって、情報処理装置１では、第１機械学習モデルＭ１の判定結果の誤りを修正するように第２機械学習モデルＭ２を生成するための訓練データセットＤ３を生成することができ、第２機械学習モデルＭ２による最終判定結果の精度を向上させることができる。

また、第１機械学習モデル生成部３１は、出現頻度に基づいて各事例のエントロピーおよび自己情報量を計算し、訓練データセットＤのうち、自己情報量が閾値より大きく、かつ、エントロピーが閾値未満の事例を選択対象から除外する。このように、情報処理装置１では、訓練データセットＤのうち、自己情報量が閾値より大きく、かつ、エントロピーが閾値未満の事例であり、第１機械学習モデルＭ１による判定結果が不安定になると推定される事例を選択対象から除外した上で第１機械学習モデルＭ１を生成する。このため、訓練データセットＤに含まれる各事例を入力した場合に第１機械学習モデルＭ１が出力する結果において、不安定になると推定される事例では、訓練データセットＤの正解ラベルとは異なる結果が得られやすくなる。したがって、情報処理装置１では、第１機械学習モデルＭ１の判定結果の誤りを修正するように第２機械学習モデルＭ２を生成するための訓練データセットＤ３を生成することができ、第２機械学習モデルＭ２による最終判定結果の精度を向上させることができる。

また、訓練データ生成部３２は、訓練データセットＤと、訓練データセットＤに含まれる各事例の一部の事例の内容を変更した後のデータセットに含まれる各事例を入力した場合に第１機械学習モデルＭ１が出力する結果とを合わせて第２機械学習モデルＭ２用の訓練データセットＤ３を生成する。このように、訓練データセットＤに含まれる各事例の一部の事例の内容を変更し、訓練データセットＤにノイズを加えることで、第１機械学習モデルＭ１の判定結果が変化しやすい事例では、第１機械学習モデルＭ１が出力する結果において、訓練データセットＤの正解ラベルとは異なる結果が得られやすくなる。したがって、情報処理装置１では、第１機械学習モデルＭ１の判定結果の誤りを修正するように第２機械学習モデルＭ２を生成するための訓練データセットＤ３を生成することができ、第２機械学習モデルＭ２による最終判定結果の精度を向上させることができる。

また、訓練データ生成部３２は、第１機械学習モデルＭ１が出力する結果に特定の割合でノイズを加えて訓練データセットＤ３を生成する。このように、情報処理装置１では、第１機械学習モデルＭ１が出力する結果に特定の割合でノイズを加え、第１機械学習モデルＭ１の判定結果の誤りを修正するように第２機械学習モデルＭ２を生成するための訓練データセットＤ３を生成してもよい。

また、制御部３０は、第２機械学習モデル生成部３３に関する処理を実行する。第２機械学習モデル生成部３３は、生成した訓練データセットＤ３に基づいた機械学習により第２機械学習モデルＭ２を生成する。これにより、情報処理装置１では、生成した訓練データセットＤ３により第２機械学習モデルＭ２を生成することができる。

また、訓練データセットＤに含まれる各事例は、教師とする複数の文章それぞれに含まれる単語である。これにより、情報処理装置１では、文章に含まれる各単語の品詞推定、固有表現抽出、語義判定等を最終結果として出力する第２機械学習モデルＭ２を生成するための訓練データセットＤ３を効率的に生成することができる。

なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、情報処理装置１で行われる各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）あるいはＧＰＵ（Graphics Processing Unit）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）あるいはＧＰＵで解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置１で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ（ハードウエア）の一例を説明する。図１３は、コンピュータ構成の一例を示すブロック図である。

図１３に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、画像処理や機械学習処理等の所定の演算処理に特化したＧＰＵ２０１ａと、データ入力を受け付ける入力装置２０２と、モニタ２０３と、スピーカ２０４とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読み取る媒体読取装置２０５と、各種装置と接続するためのインタフェース装置２０６と、有線または無線により外部機器と通信接続するための通信装置２０７とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０８と、ハードディスク装置２０９とを有する。また、コンピュータ２００内の各部（２０１～２０９）は、バス２１０に接続される。

ハードディスク装置２０９には、上記の実施形態で説明した制御部３０における第１機械学習モデル生成部３１、訓練データ生成部３２および第２機械学習モデル生成部３３等における各種の処理を実行するためのプログラム２１１が記憶される。また、ハードディスク装置２０９には、プログラム２１１が参照する訓練データセットＤ等の各種データ２１２が記憶される。入力装置２０２は、例えば、操作者から操作情報の入力を受け付ける。モニタ２０３は、例えば、操作者が操作する各種画面を表示する。インタフェース装置２０６は、例えば印刷装置等が接続される。通信装置２０７は、ＬＡＮ（Local Area Network）等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。

ＣＰＵ２０１あるいはＧＰＵ２０１ａは、ハードディスク装置２０９に記憶されたプログラム２１１を読み出して、ＲＡＭ２０８に展開して実行することで、第１機械学習モデル生成部３１、訓練データ生成部３２および第２機械学習モデル生成部３３等に関する各種の処理を行う。なお、プログラム２１１は、ハードディスク装置２０９に記憶されていなくてもよい。例えば、コンピュータ２００が読み取り可能な記憶媒体に記憶されたプログラム２１１を読み出して実行するようにしてもよい。コンピュータ２００が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこのプログラム２１１を記憶させておき、コンピュータ２００がこれらからプログラム２１１を読み出して実行するようにしてもよい。

１…情報処理装置
１０…入出力部
２０…記憶部
２１…第１機械学習モデル情報
２２…第２機械学習モデル情報
３０…制御部
３１…第１機械学習モデル生成部
３２…訓練データ生成部
３３…第２機械学習モデル生成部
２００…コンピュータ
２０１…ＣＰＵ
２０１ａ…ＧＰＵ
２０２…入力装置
２０３…モニタ
２０４…スピーカ
２０５…媒体読取装置
２０６…インタフェース装置
２０７…通信装置
２０８…ＲＡＭ
２０９…ハードディスク装置
２１０…バス
２１１…プログラム
２１２…各種データ
Ｄ、Ｄ１～Ｄ３、Ｄ１００、Ｄ１０１…訓練データセット
Ｋ１～Ｋ３…結果データ
Ｍ１、Ｍ１０１…第１機械学習モデル
Ｍ２、Ｍ１０２…第２機械学習モデル
Ｓ_ｆ…出現頻度データ
Ｓ_ｈ…エントロピーデータ
Ｓ_ｉ…自己情報量データ
Ｓ_ｄ…スコアデータ

Claims

第１の訓練データ群に含まれる同一のラベルが付された同一のデータの出現頻度に基づいて、前記第１の訓練データ群から複数のデータを選択し、
選択した前記複数のデータを用いた機械学習により第１の機械学習モデルを生成し、
前記第１の訓練データ群と、前記第１の訓練データ群に含まれるデータを入力した場合に前記第１の機械学習モデルが出力する結果とを合わせた第２の訓練データ群を生成する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
前記選択する処理は、前記第１の訓練データ群のうち前記出現頻度が閾値未満のデータを選択対象から除外する処理を含む、
ことを特徴とする請求項１に記載の機械学習プログラム。
前記選択する処理は、前記出現頻度に基づいて前記同一のラベルが付された同一のデータのエントロピーおよび自己情報量を計算し、前記第１の訓練データ群のうち、前記自己情報量が第１の閾値より大きく、かつ、前記エントロピーが第２の閾値未満のデータを選択対象から除外する処理を含む、
ことを特徴とする請求項１に記載の機械学習プログラム。
前記第２の訓練データ群を生成する処理は、前記第１の訓練データ群と、前記第１の訓練データ群に含まれる第１のデータの内容を変更して生成された第２のデータを入力した場合に前記第１の機械学習モデルが出力する第１の結果とを合わせて前記第２の訓練データ群を生成する処理を含む、
ことを特徴とする請求項１に記載の機械学習プログラム。
前記第２の訓練データ群を生成する処理は、前記第１の訓練データ群と、前記第１の訓練データ群に含まれる第１のデータを入力した場合に前記第１の機械学習モデルが出力する第１の結果の内容を変更して生成された第２の結果とを合わせて前記第２の訓練データ群を生成する処理を含む、
ことを特徴とする請求項１に記載の機械学習プログラム。
生成した前記第２の訓練データ群に基づいた機械学習により第２の機械学習モデルを生成する、
処理を前記コンピュータに実行させることを特徴とする請求項１に記載の機械学習プログラム。
第１の訓練データ群に含まれる同一のラベルが付された同一のデータの出現頻度に基づいて、前記第１の訓練データ群から複数のデータを選択し、
選択した前記複数のデータを用いた機械学習により第１の機械学習モデルを生成し、
前記第１の訓練データ群と、前記第１の訓練データ群に含まれるデータを入力した場合に前記第１の機械学習モデルが出力する結果とを合わせた第２の訓練データ群を生成する、
処理をコンピュータが実行することを特徴とする機械学習方法。
第１の訓練データ群に含まれる同一のラベルが付された同一のデータの出現頻度に基づいて、前記第１の訓練データ群から複数のデータを選択し、
選択した前記複数のデータを用いた機械学習により第１の機械学習モデルを生成し、
前記第１の訓練データ群と、前記第１の訓練データ群に含まれるデータを入力した場合に前記第１の機械学習モデルが出力する結果とを合わせた第２の訓練データ群を生成する、
処理を実行する制御部を含むことを特徴とする情報処理装置。