JP2022035325A

JP2022035325A - 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム

Info

Publication number: JP2022035325A
Application number: JP2020139560A
Authority: JP
Inventors: 一穂前田; Kazuho Maeda; 進遠藤; Susumu Endo
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2022-03-04

Abstract

【課題】判定精度を向上できる学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムを提供する。【解決手段】学習装置および判定装置の一例である情報処理装置１は、判定モデル生成部１０、判定部１１および判定結果統合部１２を有する。判定モデル生成部１０は、事例ごとに正例または負例の正解ラベルが付与された事例集合のデータである学習用データ２０から、第１の複数の事例と第２の複数の事例とを取得し、第１の複数の事例に基づいて機械学習を行い第１のモデルを生成し、第２の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が第１のモデルと異なる第２のモデルを生成する。【選択図】図１

Description

本発明の実施形態は、学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムに関する。

従来、窓口等で提出された種々の書類については、書類間の整合性をチェックし、不整合のある項目を職員が修正している。例えば、税業務の窓口では、毎年、多くの申告書類が提出されている。提出された書類は、職員が、住民の基本情報や雇用元の提出書類と突き合わせて、間違いが無いかをチェックしている。

図１７は、書類不備の修正を説明する説明図である。図１７に示すように、住民Ｈ１は、確定申告書Ｄ１および住民税申告書Ｄ２を市役所に提出する。また、住民Ｈ１の勤務先Ｋ１、Ｋ２は、住民Ｈ１に関する給与支払報告書Ｄ３、Ｄ４を提出する。また、年金機構Ｋ３は、住民Ｈ１に関する年金支払報告書Ｄ５を提出する。市役所の職員Ｈ２は、提出された確定申告書Ｄ１、住民税申告書Ｄ２、給与支払報告書Ｄ３、Ｄ４および年金支払報告書Ｄ５の各項目の記載を比較する。そして、職員Ｈ２は、不整合のある項目を検出し、その項目のデータを修正する。

このような、書類間の不備のチェック作業をサポートする従来技術としては、学習したモデルに基づいて識別対象データが正例（修正有り）であるか負例（修正なし）であるかを判定するデータ解析装置、方法、及びプログラムが知られている。

特開２０１５－１７０２８１号公報

しかしながら、上記の従来技術では、モデルを学習する際の事例において正例とする頻度が少ない条件については本来の正例（修正有り）と判定すべきところを負例（修正なし）と誤って判定され易くなるという問題（以下、正例の誤判定問題と呼ぶ）がある。このように、判定精度が悪くなると、例えば、修正を要する書類を修正なしと判定する修正漏れにつながる場合がある。

１つの側面では、判定精度を向上できる学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムを提供することを目的とする。

１つの案では、学習装置は、取得する処理と、生成する処理とを制御部が実行する。取得する処理は、事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得する。生成する処理は、第１の複数の事例に基づいて機械学習を行い第１のモデルを生成する。また、生成する処理は、第２の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が第１のモデルと異なる第２のモデルを生成する。

判定精度を向上できる。

図１は、第１の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図２は、学習用データおよび判定用データの一例を説明する説明図である。図３は、第１の実施形態にかかる情報処理装置の動作例を示すフローチャートである。図４は、判定結果の一例を説明する説明図である。図５は、判定結果の重ね合わせを説明する説明図である。図６は、総合判定結果の一例を説明する説明図である。図７は、第２の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図８は、第２の実施形態にかかる情報処理装置の動作例を示すフローチャートである。図９は、サンプル学習用データの一例を説明する説明図である。図１０は、第２の実施形態にかかる情報処理装置の動作の変形例を示すフローチャートである。図１１Ａは、サンプル学習用データの一例を説明する説明図である。図１１Ｂは、サンプル学習用データの一例を説明する説明図である。図１２は、総合判定結果の違いを説明する説明図である。図１３は、第３の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図１４は、第３の実施形態にかかる情報処理装置の動作例を示すフローチャートである。図１５は、融合判定結果の一例を説明する説明図である。図１６は、コンピュータ構成の一例を説明するブロック図である。図１７は、書類不備の修正を説明する説明図である。

以下、図面を参照して、実施形態にかかる学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムを説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムは、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

（第１の実施形態）
図１は、第１の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図１に示すように、情報処理装置１は、判定モデル生成部１０、判定部１１および判定結果統合部１２を有する。

この情報処理装置１は、学習装置および判定装置の一例である。なお、学習装置および判定装置は一つの情報処理装置１で実現してもよいが、判定モデル生成部１０、判定部１１および判定結果統合部１２を分散することで、複数の判定モデルＭ１を生成する学習装置と、生成した複数の判定モデルＭ１を用いて判定する判定装置とをそれぞれ異なる情報処理装置１で実現してもよい。

判定モデル生成部１０は、学習用データ２０をもとに、同一の入力に対して正例と判定する確度が互いに異なる複数の情報処理装置１を生成する処理部である。

具体的には、学習用データ２０は、事例ごとに正例または負例の正解ラベルが付与された事例集合のデータである。例えば、書類不備を検出するための判定モデルＭ１を生成する場合、学習用データ２０には、各事例の提出書類（例えば確定申告書Ｄ１、住民税申告書Ｄ２、給与支払報告書Ｄ３、Ｄ４および年金支払報告書Ｄ５）の特徴を示すデータと、その事例の正解ラベル（正例（修正有り）または負例（修正なし））とが含まれる。

図２は、学習用データおよび判定用データの一例を説明する説明図である。図２に示すように、学習用データ２０には、行ＩＤにより識別される事例ごとに、事例の特徴を示す説明変数（例えば提出書類の各項目の値）と、修正有りを「１」、修正なしを「０」とする正解ラベルとが含まれる。なお、図示例では、学習用データ２０は、１００事例分の事例集合であり、１０件の正例と、９０件の負例とが含まれている。

判定モデル生成部１０は、学習用データ２０より、少なくとも一部の事例を取得する。次いで、判定モデル生成部１０は、取得した一部の事例ごとに決定木、ランダムフォレスト、ディープラーニング等の公知の機械学習処理を行い、同一の入力に対して正例と判定する確度が互いに異なる複数の判定モデルＭ１を生成する。

例えば、判定モデル生成部１０は、学習用データ２０より、ランダム（任意）な行サンプリングを実施して一部の事例を取得する。ここで、判定モデル生成部１０は、行サンプリングの乱数種を変えながら事例を取得する処理を繰り返すことで、取得した一部の事例が互いに同一にならないようにする。次いで、判定モデル生成部１０は、繰り返し取得した事例ごとに、機械学習処理を行うことで、同一の入力に対して正例と判定する確度が互いに異なる複数の判定モデルＭ１を生成する。

なお、判定モデル生成部１０は、学習用データ２０より取得した事例から機械学習を行う際のパラメータを判定モデルＭ１を生成するたびに変更することで、同一の入力に対して正例と判定する確度が互いに異なるように複数の判定モデルＭ１を生成してもよい。例えば、決定木の場合、判定モデル生成部１０は、木の深さの上限などのパラメータを変更して複数の判定モデルＭ１を生成してもよい。

判定部１１は、判定モデル生成部１０が生成した複数の判定モデルＭ１に対して、判定対象の事例に関する判定用データ２１を入力する。これにより、判定部１１は、複数の判定モデルＭ１それぞれから、判定対象の事例について正例・負例と判定する確度を判定結果２２として取得する。例えば、判定部１１は、判定結果２２として、複数の判定モデルＭ１それぞれから、判定対象の事例について正例とする場合の確度を０～１の値で得る。

図２に示すように、判定用データ２１には、行ＩＤにより識別される判定対象の事例について、事例の特徴を示す説明変数（例えば判定対象の事例における提出書類の各項目の値）が含まれる。判定部１１は、判定用データ２１に含まれる説明変数を生成した判定モデルＭ１に入力することで、判定用データ２１の事例における正例の確度を判定結果２２として取得する。

判定結果統合部１２は、複数の判定モデルＭ１それぞれからの、正例と判定する確度を統合して判定対象の事例が正例または負例のいずれであるかを示す統合判定結果２３を出力する。具体的には、判定結果統合部１２は、複数の判定モデルＭ１のいずれかで正例と判定される場合は統合後も判定されるように、正例の確度の高い（負例の確度が低い）判定結果２２を重視し、例えば重ね合わせ（アンド）処理により統合する。

一例として、判定結果統合部１２は、判定結果２２の中で、最も正例の確度が高いものを採用する。また、判定結果統合部１２は、判定結果２２について、正例の確度が高いほど重みが大きくなるよう、判定結果２２における正例の確度の重み付き平均を算出して統合判定結果２３を求めてもよい。

例えば、判定結果統合部１２は、正例の確度を重みとして、重み付き平均（Σｐ（ｉ）^２／Σｐ（ｉ））を算出する。ここで、ｐ（ｉ）は、ｉ番目の判定結果２２の正例の確度を示す。

また、判定結果統合部１２は、正例の確度の順位を重みとして、重み付き平均（Σｒ（ｐ（ｉ））ｐ（ｉ）／Σｒ（ｐ（ｉ）））を算出する。ここで、ｒ（ｐ（ｉ））は、ｉ番目の判定結果２２の正例の確度の順位（確度が小さい順、最小の確度の順位が１）である。

なお、判定結果統合部１２が出力する統合判定結果２３は、統合後の正例の確度であってもよいし、統合後の正例の確度が所定の閾値を上回るか否かに基づき、判定対象の事例について正例・負例と判定した判定結果であってもよい。

図３は、第１の実施形態にかかる情報処理装置１の動作例を示すフローチャートである。図３に示すように、処理が開始されると、判定モデル生成部１０は、学習用データ２０から少なくとも一部の事例を取得し、取得した事例を用いて機械学習処理を行うことで、判定モデルＭ１を生成する（Ｓ１）。

次いで、判定モデル生成部１０は、複数の判定モデルＭ１の全てを生成したか否かを判定する（Ｓ２）。具体的には、学習用データ２０から繰り返して事例を取得する場合、判定モデル生成部１０は、取得した事例ごとの判定モデルＭ１を全て生成したか否かを判定する。また、パラメータを変更する場合、判定モデル生成部１０は、変更したパラメータごとの判定モデルＭ１を全て生成した否かを判定する。複数の判定モデルＭ１の全てを生成していない場合（Ｓ２：Ｎｏ）、判定モデル生成部１０は、Ｓ１へ処理を戻す。

複数の判定モデルＭ１の全てを生成した場合（Ｓ２：Ｙｅｓ）、判定部１１は、判定用データ２１と、判定モデル生成部１０が生成した判定モデルＭ１から判定対象の事例における正例の確度を算出する（Ｓ３）。

次いで、判定部１１は、判定用データ２１について全ての判定モデルＭ１で算出が完了したか否かを判定する（Ｓ４）。全ての判定モデルＭ１で算出が完了していない場合（Ｓ４：Ｎｏ）、判定部１１は、Ｓ３へ処理を戻し、算出をしていない別の判定モデルＭ１から判定対象の事例における正例の確度を算出する。

図４は、判定結果の一例を説明する説明図である。図４に示すように、判定部１１は、行ＩＤが１００００の判定対象の事例（図３参照）について、説明変数を複数の判定モデルＭ１それぞれに入力することで、正例の確度が異なる複数の判定結果２２を得る。

全ての判定モデルＭ１で算出が完了した場合（Ｓ４：Ｙｅｓ）、判定結果統合部１２は、全ての判定モデルＭ１それぞれの正例の確度を統合した正例の確度を算出し、統合した正例の確度に基づく統合判定結果２３を出力する（Ｓ５）。

図５は、判定結果の重ね合わせを説明する説明図である。図５の左側に示すように、複数の判定モデルＭ１については同一の入力に対して正例の確度が異なることから、例えば判定モデルＭ１ａ、Ｍ２ａの判定結果２２ａ、２２ｂでは、正例または負例と判定する境界が異なることとなる。ここで、学習用データ２０の事例集合に含まれる高頻度な修正条件については、判定モデルＭ１ａ、Ｍ１ｂともに正例（要修正）と判定される。しかしながら、学習用データ２０の事例集合に含まれる低頻度な修正条件については、判定モデルＭ１ｂでは正例（要修正）と判定されるが、判定モデルＭ１ａでは負例（修正不要）と判定される。

図５の右側に示すように、判定結果統合部１２は、全ての判定モデルＭ１それぞれの正例の確度を統合、すなわち判定結果２２ａ、２２ｂの重ね合わせを行う。これにより、情報処理装置１は、例えば、判定対象の事例が学習用データ２０の事例集合に含まれる低頻度な修正条件にマッチする場合であっても、判定モデルＭ１ｂの判定結果２２ｂを統合していることから、正例とする統合判定結果２３を得ることができる。このように、情報処理装置１では、本来の正例（例えば修正要）と判定すべきところを負例（例えば修正不要）と誤判定される正例の誤判定問題が生じることを抑止でき、判定精度を向上することができる。

図６は、統合判定結果の一例を説明する説明図である。図６に示すように、ケースＣ１では、複数の判定結果２２より（図４参照）、正例の確度について最大の確度を採用することで統合判定結果２３を得ている。

また、ケースＣ２では、複数の判定結果２２より（図４参照）、正例の確度を重みとして、重み付き平均を算出（（０＾２＋０．０１＾２＋０．１＾２）／（０＋０．１＋０．０１）＝０．０９２）することで、統合判定結果２３を得ている。

また、ケースＣ３では、複数の判定結果２２より（図４参照）、正例の確度の順位を重みとして、重み付き平均を算出（（１＊０＋２＊０．０１＋３＊０．１）／（１＋２＋３）＝０．０９１）することで、統合判定結果２３を得ている。

（第２の実施形態）
図７は、第２の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図７に示すように、情報処理装置１ａは、サンプリング部１０１と、サンプル判定モデル生成部１０２とを有する判定モデル生成部１０ａにより判定モデルＭ１を生成する点が、第１の実施形態にかかる情報処理装置１とは異なる。

サンプリング部１０１は、学習用データ２０より任意の行サンプリングを所定数（例えば１００行の学習用データ２０より８０行サンプリング）行ってサンプル学習用データ２０ａを生成する。また、サンプリング部１０１は、所定数のサンプリングごとに、行サンプリングに用いる乱数種を変えることで、複数のサンプル学習用データ２０ａを生成する。

サンプル判定モデル生成部１０２は、複数のサンプル学習用データ２０ａそれぞれについて機械学習処理を行うことで、複数の判定モデルＭ１を生成する。

図８は、第２の実施形態にかかる情報処理装置１ａの動作例を示すフローチャートである。図８に示すように、情報処理装置１ａの動作例では、Ｓ１ａ、Ｓ１ｂの処理が第１の実施形態にかかる情報処理装置１の動作例とは異なる。

具体的には、サンプリング部１０１は、学習用データ２０をサンプリング（任意の行サンプリング）してサンプル学習用データ２０ａを生成する（Ｓ１ａ）。次いで、サンプル判定モデル生成部１０２は、生成したサンプル学習用データ２０ａを用いて機械学習処理を行うことで、サンプル学習用データ２０ａから判定モデルＭ１を生成する（Ｓ１ｂ）。

次いで、判定モデル生成部１０ａは、学習用データ２０に対して所定数のサンプリングを実施して判定モデルＭ１を生成したか否かを判定することで、複数の判定モデルＭ１の全てを生成したか否かを判定する（Ｓ２）。複数の判定モデルＭ１の全てを生成していない場合（Ｓ２：Ｎｏ）、判定モデル生成部１０ａは、Ｓ１ａへ処理を戻す。

図９は、サンプル学習用データの一例を説明する説明図である。図９に示すように、サンプル学習用データ２０ａそれぞれは、例えば１００行の学習用データ２０（図２参照）より、任意の行サンプリングで８０行を取得したものである。具体的には、（正例８、負例７２）、（正例６、負例７４）、（正例８、負例７２）であり、正例、負例の組み合わせは互いに異なっている。したがって、サンプル学習用データ２０ａそれぞれより生成した判定モデルＭ１は、同一の入力に対して正例と判定する確度が互いに異なることとなる。

図１０は、第２の実施形態にかかる情報処理装置１ａの動作の変形例を示すフローチャートである。図１０に示すように、変形例では、Ｓ１ｃの処理を加えている点が上記の処理とは異なる。

具体的には、サンプリング部１０１は、学習用データ２０に存在し、サンプル学習用データ２０ａの存在しない正例、すなわち事例集合に含まれる正例の正解ラベルが付与された事例の中で、サンプル学習用データ２０ａから漏れた事例をサンプル学習用データ２０ａに追加する（Ｓ１ｃ）。

図１１Ａ、図１１Ｂは、サンプル学習用データの一例を説明する説明図である。図１１Ａに示すように、サンプリング部１０１は、学習用データ２０にあってサンプル学習用データ２０ａにない正例の行すべて（２行）をサンプル学習用データ２０ａに加える。または、図１１Ｂに示すように、サンプリング部１０１は、学習用データ２０にあってサンプル学習用データ２０ａにない正例の行から、ランダムに選んだ行（例えば２行の中から１行）をサンプル学習用データ２０ａに加えてもよい。

図１２は、統合判定結果２３の違いを説明する説明図である。学習用データ２０をサンプリングして生成したサンプル学習用データ２０ａには、学習用データ２０の事例集合の中の一部の正例が含まれない場合がある。このような、正例の漏れは、正例の誤判定問題が生じやすくなる。例えば、図１２の上段に示すように、低頻度な修正条件がサンプル学習用データ２０ａから外れ、正例を誤判定しやすい。したがって、Ｓ１ｃの処理により、学習用データ２０に存在し、サンプル学習用データ２０ａの存在しない正例をサンプル学習用データ２０ａに加えることで、低頻度な修正条件がサンプル学習用データ２０ａから外れなくなる。このため、正例を誤判定しにくくなる。

（第３の実施形態）
図１３は、第３の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図１３に示すように、情報処理装置１ｂは、別手法判定モデル生成部１３と、別手法判定部１４と、判定結果融合部１５とを有する点が、第１の実施形態にかかる情報処理装置１とは異なる。

別手法判定モデル生成部１３は、学習用データ２０の事例集合の中の、少なくとも一部の事例を用いて、判定モデル生成部１０における機械学習とは異なる手法の機械学習処理で判定モデルＭ２を生成する。なお、別手法判定モデル生成部１３が用いる機械学習処理は、例えば、決定木、ランダムフォレスト、ディープラーニング等の公知の機械学習処理のいずれであってもよい。

別手法判定部１４は、別手法判定モデル生成部１３が生成した判定モデルＭ２に対して、判定対象の事例に関する判定用データ２１を入力する。これにより、別手法判定部１４は、判定対象の事例について、判定モデルＭ１とは別手法の判定モデルＭ２から正例・負例と判定する確度を示す別手法判定結果２４を取得する。

判定結果融合部１５は、統合判定結果２３と、別手法判定結果２４とに基づいて、判定対象の事例が正例または負例のいずれであるかを示す融合判定結果２３ａを出力する。具体的には、判定結果融合部１５は、統合判定結果２３と、別手法判定結果２４とを所定の条件で融合した融合判定結果２３ａを出力する。

例えば、複数の判定結果２２を統合した統合判定結果２３は、正例の誤判定を抑制する、すなわち正解が正例の事例に対する高確度の負例判定を抑制するものであり、低確度の負例判定にはさほどの効果は見込めない。そこで、高確度に正例と判定（＝低確度に負例判定）されたか否かを鑑みるように、統合判定結果２３と別手法判定結果２４を融合して融合判定結果２３ａを求める。

具体的には、判定結果融合部１５は、融合判定結果２３ａを得る前の正例の仮の確度（ｒ）が低い場合は統合判定結果２３の正例の確度（ｐ）の影響を大きくし、正例の仮の確度（ｒ）が高い場合は別手法判定結果２４の正例の確度（ｑ）の影響を大きくして融合判定結果２３ａを求める。ここで、正例の仮の確度は（ｒ）は、ｐとｑの平均値で算出する。判定結果融合部１５は、融合判定結果２３ａの正例の確度（ｓ）を、例えば、ｐとｑのｒによる重み付き平均、すなわち、ｓ＝（１－ｒ）ｐ＋ｒｑにより算出する。

図１４は、第３の実施形態にかかる情報処理装置１ｂの動作例を示すフローチャートである。図１４に示すように、情報処理装置１ｂの動作例は、Ｓ１ｄ、Ｓ６、Ｓ７の処理を第１の実施形態にかかる情報処理装置１の動作例（図３参照）に加えたものである。

具体的には、別手法判定モデル生成部１３は、学習用データ２０から、判定モデル生成部１０とは別手法の判定モデルＭ２を生成する（Ｓ１ｄ）。また、別手法判定部１４は、判定用データ２１と、別手法の判定モデルＭ２から、判定対象の事例について、別手法による正例の確度を算出する（Ｓ６）。次いで、判定結果融合部１５は、判定結果統合部１２が統合した正例の確度と、別手法判定部１４が算出した別手法による正例の確度とを融合して、正例の確度を算出する（Ｓ７）。

図１５は、融合判定結果の一例を説明する説明図である。図１５に示すように、ケースＣ４は、統合判定結果２３における正例の確度（ｐ）が０．１０、別手法判定結果２４における正例の確度（ｑ）が０．０２であり、仮の正例の確度（ｒ＝（ｐ＋ｑ）／２＝（０．１０＋０．０２）／２＝０．０６）が低いケースである。また、ケースＣ５は、統合判定結果２３における正例の確度（ｐ）が１．０、別手法判定結果２４における正例の確度（ｑ）が０．２であり、仮の正例の確度（ｒ＝（ｐ＋ｑ）／２＝（０．１０＋０．０２）／２＝０．６）がケースＣ４よりも高いケースである。

ケースＣ４では、融合判定結果２３ａにおける正例の確度（ｓ）は、（１－０．０６）＊０．１＋０．０６＊０．０２＝０．０９５であり、統合判定結果２３の正例の確度（ｐ）の影響が大きくなっている。また、ケースＣ５では、融合判定結果２３ａにおける正例の確度（ｓ）は、（１－０．６）＊１．０＋０．６＊０．２＝０．５２であり、別手法判定結果２４の正例の確度（ｑ）の影響が大きくなっている。

（効果）
以上のように、情報処理装置１は、事例ごとに正例または負例の正解ラベルが付与された複数の事例（事例集合）の中から、第１の複数の事例と第２の複数の事例とを取得する。ついで、情報処理装置１は、第１の複数の事例に基づいて機械学習を行い第１のモデルを生成する。また、情報処理装置１は、第２の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が第１のモデルと異なる第２のモデルを生成する。このように生成した複数の判定モデルＭ１を用いた正例または負例の判定では、正例とする頻度が少ない条件についても、複数の判定モデルＭ１の中のいずれかで正例と判定され易くなる。したがって、複数の判定モデルＭ１の判定結果を統合することで、判定精度を向上することができる。

また、情報処理装置１ａでは、事例ごとに正例または負例の正解ラベルが付与された事例集合の中から任意に複数の事例を取得する処理を繰り返す。次いで、情報処理装置１ａは、繰り返して取得した複数の事例ごとに第１の機械学習を行って複数の判定モデルＭ１を生成する。これにより、事例集合に含まれる各事例を網羅しつつ、同一の入力に対して正例と判定する確度が互いに異なる複数の判定モデルＭ１を生成することができる。

また、情報処理装置１ａでは、事例集合に含まれる正例の正解ラベルが付与された事例の中で、任意に取得した複数の事例から漏れた事例がある場合、この漏れた事例を複数の事例に加える。これにより、事例集合に含まれる正例の事例をより多く含めた上で第１の機械学習を行って複数の判定モデルＭ１を生成することができる。したがって、複数の判定モデルＭ１を用いた正例または負例の判定では、複数の判定モデルＭ１の中のいずれかでより正例と判定され易くなる。

また、情報処理装置１は、生成した複数の判定モデルＭ１に対して、判定対象の事例に関する判定用データ２１を入力する。次いで、情報処理装置１は、複数の判定モデルＭ１それぞれからの、正例と判定する確度を統合して判定対象の事例が正例または負例のいずれであるかを示す統合判定結果２３を出力する。複数の判定モデルＭ１を用いた正例または負例の判定では、正例とする頻度が少ない条件についても、複数の判定モデルＭ１の中のいずれかで正例と判定され易くなる。したがって、複数の判定モデルＭ１それぞれからの、正例と判定する確度を統合することで、正例の誤判定問題が生じることを抑止でき、判定精度を向上することができる。

また、情報処理装置１は、正例と判定する確度が高いほど重みを大きくする重み付き平均により、複数の判定モデルＭ１それぞれからの、正例と判定する確度を統合する。これにより、より正例と判定され易くなり、正例の誤判定問題が生じることを抑止できる。

また、情報処理装置１は、複数の判定モデルＭ１それぞれからの、正例と判定する確度の中の最も高い確度に統合する。これにより、より正例と判定され易くなり、正例の誤判定問題が生じることを抑止できる。

また、情報処理装置１ｂは、事例集合の中の、少なくとも一部の事例を用いて第１の機械学習とは異なる第２の機械学習で生成した判定モデルＭ２に対して、判定対象の事例に関する判定用データ２１を入力し、別手法判定結果２４を求める。次いで、情報処理装置１ｂは、統合判定結果２３と、別手法判定結果２４とに基づいて判定対象の事例が正例または負例のいずれであるかを示す融合判定結果２３ａを出力する。このように、第１の機械学習とは異なる第２の機械学習で生成した判定モデルＭ２の別手法判定結果２４をさらに用いることで、判定精度をより向上させることができる。

（その他）
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。情報処理装置１、１ａ、１ｂについては、判定モデルＭ１、Ｍ２を生成する構成と、生成した判定モデルＭ１、Ｍ２をもとに判定する構成とを分散してもよい。

また、情報処理装置１、１ａ、１ｂの判定モデル生成部１０、１０ａ、判定部１１、判定結果統合部１２、別手法判定モデル生成部１３および別手法判定部１４の各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置１、１ａ、１ｂで行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

（コンピュータ構成例）
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ構成（ハードウエア）の一例を説明する。図１６は、コンピュータ構成の一例を示すブロック図である。

図１６に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、データ入力を受け付ける入力装置２０２と、モニタ２０３と、スピーカー２０４とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読み取る媒体読取装置２０５と、各種装置と接続するためのインタフェース装置２０６と、有線または無線により外部機器と通信接続するための通信装置２０７とを有する。また、情報処理装置１は、各種情報を一時記憶するＲＡＭ２０８と、ハードディスク装置２０９とを有する。また、コンピュータ２００内の各部（２０１～２０９）は、バス２１０に接続される。

ハードディスク装置２０９には、上記の実施形態で説明した機能構成（例えば判定モデル生成部１０、１０ａ、判定部１１、判定結果統合部１２、別手法判定モデル生成部１３および別手法判定部１４）における各種の処理を実行するためのプログラム２１１が記憶される。また、ハードディスク装置２０９には、プログラム２１１が参照する各種データ２１２が記憶される。入力装置２０２は、例えば、操作者から操作情報の入力を受け付ける。モニタ２０３は、例えば、操作者が操作する各種画面を表示する。インタフェース装置２０６は、例えば印刷装置等が接続される。通信装置２０７は、ＬＡＮ（Local Area Network）等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。

ＣＰＵ２０１は、ハードディスク装置２０９に記憶されたプログラム２１１を読み出して、ＲＡＭ２０８に展開して実行することで、上記の機能構成（例えば判定モデル生成部１０、１０ａ、判定部１１、判定結果統合部１２、別手法判定モデル生成部１３および別手法判定部１４）に関する各種の処理を行う。なお、プログラム２１１は、ハードディスク装置２０９に記憶されていなくてもよい。例えば、コンピュータ２００が読み取り可能な記憶媒体に記憶されたプログラム２１１を読み出して実行するようにしてもよい。コンピュータ２００が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこのプログラム２１１を記憶させておき、コンピュータ２００がこれらからプログラム２１１を読み出して実行するようにしてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得し、
前記第１の複数の事例に基づいて機械学習を行い第１のモデルを生成し、
前記第２の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が前記第１のモデルと異なる第２のモデルを生成する、
処理を制御部が実行することを特徴とする学習装置。

（付記２）前記取得する処理は、前記複数の事例に含まれる前記正例の正解ラベルが付与された事例の中で、前記第１の複数の事例又は前記第２の複数の事例から漏れた事例がある場合、当該漏れた事例を前記第１の複数の事例又は前記第２の複数の事例に加える、
ことを特徴とする付記１に記載の学習装置。

（付記３）事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得し、取得した前記第１の複数の事例に基づいて第１の機械学習を行い生成した第１のモデルと、前記第２の複数の事例に基づいて前記第１の機械学習を行い生成した、同一の入力に対して正例と判定する確度が前記第１のモデルと異なる第２のモデルとに対して、判定対象の事例に関するデータを入力し、
前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度を統合して前記判定対象の事例が正例または負例のいずれであるかを示す第１の判定結果を出力する、
処理を制御部が実行することを特徴とする判定装置。

（付記４）前記出力する処理は、前記正例と判定する確度が高いほど重みを大きくする重み付き平均により、前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度を統合する、
ことを特徴とする付記３に記載の判定装置。

（付記５）前記出力する処理は、前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度の中の最も高い確度に統合する、
ことを特徴とする付記３に記載の判定装置。

（付記６）事例ごとに正例または負例の正解ラベルが付与された複数の事例の中の、少なくとも一部の事例を用いて前記第１の機械学習とは異なる第２の機械学習で生成した第３のモデルに対して、前記判定対象の事例に関するデータを入力し、前記判定対象の事例が正例または負例のいずれであるかを示す第２の判定結果を求め、
前記第１の判定結果と、前記第２の判定結果とに基づいて前記判定対象の事例が正例または負例のいずれであるかを示す第３の判定結果を出力する、
各処理を前記制御部がさらに実行することを特徴とする付記３乃至５のいずれか一に記載の判定装置。

（付記７）事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得し、
前記第１の複数の事例に基づいて機械学習を行い第１のモデルを生成し、
前記第２の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が前記第１のモデルと異なる第２のモデルを生成する、
処理をコンピュータが実行することを特徴とする学習方法。

（付記８）前記取得する処理は、前記複数の事例に含まれる前記正例の正解ラベルが付与された事例の中で、前記第１の複数の事例又は前記第２の複数の事例から漏れた事例がある場合、当該漏れた事例を前記第１の複数の事例又は前記第２の複数の事例に加える、
ことを特徴とする付記７に記載の学習方法。

（付記９）事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得し、取得した前記第１の複数の事例に基づいて第１の機械学習を行い生成した第１のモデルと、前記第２の複数の事例に基づいて前記第１の機械学習を行い生成した、同一の入力に対して正例と判定する確度が前記第１のモデルと異なる第２のモデルとに対して、判定対象の事例に関するデータを入力し、
前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度を統合して前記判定対象の事例が正例または負例のいずれであるかを示す第１の判定結果を出力する、
処理をコンピュータが実行することを特徴とする判定方法。

（付記１０）前記出力する処理は、前記正例と判定する確度が高いほど重みを大きくする重み付き平均により、前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度を統合する、
ことを特徴とする付記９に記載の判定方法。

（付記１１）前記出力する処理は、前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度の中の最も高い確度に統合する、
ことを特徴とする付記９に記載の判定方法。

（付記１２）事例ごとに正例または負例の正解ラベルが付与された複数の事例の中の、少なくとも一部の事例を用いて前記第１の機械学習とは異なる第２の機械学習で生成した第３のモデルに対して、前記判定対象の事例に関するデータを入力し、前記判定対象の事例が正例または負例のいずれであるかを示す第２の判定結果を求め、
前記第１の判定結果と、前記第２の判定結果とに基づいて前記判定対象の事例が正例または負例のいずれであるかを示す第３の判定結果を出力する、
各処理を前記コンピュータがさらに実行することを特徴とする付記９乃至１１のいずれか一に記載の判定方法。

（付記１３）事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得し、
前記第１の複数の事例に基づいて機械学習を行い第１のモデルを生成し、
前記第２の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が前記第１のモデルと異なる第２のモデルを生成する、
処理をコンピュータに実行させることを特徴とする学習プログラム。

（付記１４）前記取得する処理は、前記複数の事例に含まれる前記正例の正解ラベルが付与された事例の中で、前記第１の複数の事例又は前記第２の複数の事例から漏れた事例がある場合、当該漏れた事例を前記第１の複数の事例又は前記第２の複数の事例に加える、
ことを特徴とする付記１３に記載の学習プログラム。

（付記１５）事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得し、取得した前記第１の複数の事例に基づいて第１の機械学習を行い生成した第１のモデルと、前記第２の複数の事例に基づいて前記第１の機械学習を行い生成した、同一の入力に対して正例と判定する確度が前記第１のモデルと異なる第２のモデルとに対して、判定対象の事例に関するデータを入力し、
前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度を統合して前記判定対象の事例が正例または負例のいずれであるかを示す第１の判定結果を出力する、
処理をコンピュータに実行させることを特徴とする判定プログラム。

（付記１６）前記出力する処理は、前記正例と判定する確度が高いほど重みを大きくする重み付き平均により、前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度を統合する、
ことを特徴とする付記１５に記載の判定プログラム。

（付記１７）前記出力する処理は、前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度の中の最も高い確度に統合する、
ことを特徴とする付記１５に記載の判定プログラム。

（付記１８）事例ごとに正例または負例の正解ラベルが付与された複数の事例の中の、少なくとも一部の事例を用いて前記第１の機械学習とは異なる第２の機械学習で生成した第３のモデルに対して、前記判定対象の事例に関するデータを入力し、前記判定対象の事例が正例または負例のいずれであるかを示す第２の判定結果を求め、
前記第１の判定結果と、前記第２の判定結果とに基づいて前記判定対象の事例が正例または負例のいずれであるかを示す第３の判定結果を出力する、
各処理を前記コンピュータにさらに実行させることを特徴とする付記１５乃至１７のいずれか一に記載の判定プログラム。

１、１ａ、１ｂ…情報処理装置
１０、１０ａ…判定モデル生成部
１１…判定部
１２…判定結果統合部
１３…別手法判定モデル生成部
１４…別手法判定部
１５…判定結果融合部
２０…学習用データ
２０ａ…サンプル学習用データ
２１…判定用データ
２２、２２ａ、２２ｂ…判定結果
２３…統合判定結果
２３ａ…融合判定結果
２４…別手法判定結果
１０１…サンプリング部
１０２…サンプル判定モデル生成部
２００…コンピュータ
２０１…ＣＰＵ
２０２…入力装置
２０３…モニタ
２０４…スピーカー
２０５…媒体読取装置
２０６…インタフェース装置
２０７…通信装置
２０８…ＲＡＭ
２０９…ハードディスク装置
２１０…バス
２１１…プログラム
２１２…各種データ
Ｃ１～Ｃ５…ケース
Ｄ１…確定申告書
Ｄ２…住民税申告書
Ｄ３、Ｄ４…給与支払報告書
Ｄ５…年金支払報告書
Ｈ１…住民
Ｈ２…職員
Ｋ１、Ｋ２…勤務先
Ｋ３…年金機構
Ｍ１、Ｍ１ａ、Ｍ１ｂ、Ｍ２…判定モデル

Claims

事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得し、
前記第１の複数の事例に基づいて機械学習を行い第１のモデルを生成し、
前記第２の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が前記第１のモデルと異なる第２のモデルを生成する、
処理を制御部が実行することを特徴とする学習装置。
前記取得する処理は、前記複数の事例に含まれる前記正例の正解ラベルが付与された事例の中で、前記第１の複数の事例又は前記第２の複数の事例から漏れた事例がある場合、当該漏れた事例を前記第１の複数の事例又は前記第２の複数の事例に加える、
ことを特徴とする請求項１に記載の学習装置。
事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得し、取得した前記第１の複数の事例に基づいて第１の機械学習を行い生成した第１のモデルと、前記第２の複数の事例に基づいて前記第１の機械学習を行い生成した、同一の入力に対して正例と判定する確度が前記第１のモデルと異なる第２のモデルとに対して、判定対象の事例に関するデータを入力し、
前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度を統合して前記判定対象の事例が正例または負例のいずれであるかを示す第１の判定結果を出力する、
処理を制御部が実行することを特徴とする判定装置。
前記出力する処理は、前記正例と判定する確度が高いほど重みを大きくする重み付き平均により、前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度を統合する、
ことを特徴とする請求項３に記載の判定装置。
前記出力する処理は、前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度の中の最も高い確度に統合する、
ことを特徴とする請求項３に記載の判定装置。
事例ごとに正例または負例の正解ラベルが付与された複数の事例の中の、少なくとも一部の事例を用いて前記第１の機械学習とは異なる第２の機械学習で生成した第３のモデルに対して、前記判定対象の事例に関するデータを入力し、前記判定対象の事例が正例または負例のいずれであるかを示す第２の判定結果を求め、
前記第１の判定結果と、前記第２の判定結果とに基づいて前記判定対象の事例が正例または負例のいずれであるかを示す第３の判定結果を出力する、
各処理を前記制御部がさらに実行することを特徴とする請求項３乃至５のいずれか一項に記載の判定装置。
事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得し、
前記第１の複数の事例に基づいて機械学習を行い第１のモデルを生成し、
前記第２の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が前記第１のモデルと異なる第２のモデルを生成する、
処理をコンピュータが実行することを特徴とする学習方法。
事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得し、取得した前記第１の複数の事例に基づいて機械学習を行い生成した第１のモデルと、前記第２の複数の事例に基づいて前記機械学習を行い生成した、同一の入力に対して正例と判定する確度が前記第１のモデルと異なる第２のモデルとに対して、判定対象の事例に関するデータを入力し、
前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度を統合して前記判定対象の事例が正例または負例のいずれであるかを示す第１の判定結果を出力する、
処理をコンピュータが実行することを特徴とする判定方法。
事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得し、
前記第１の複数の事例に基づいて機械学習を行い第１のモデルを生成し、
前記第２の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が前記第１のモデルと異なる第２のモデルを生成する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第１の複数の事例と第２の複数の事例とを取得し、取得した前記第１の複数の事例に基づいて機械学習を行い生成した第１のモデルと、前記第２の複数の事例に基づいて前記機械学習を行い生成した、同一の入力に対して正例と判定する確度が前記第１のモデルと異なる第２のモデルとに対して、判定対象の事例に関するデータを入力し、
前記第１のモデルおよび前記第２のモデルそれぞれからの、前記正例と判定する確度を統合して前記判定対象の事例が正例または負例のいずれであるかを示す第１の判定結果を出力する、
処理をコンピュータに実行させることを特徴とする判定プログラム。