JP2022035325A - 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム - Google Patents

学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム Download PDF

Info

Publication number
JP2022035325A
JP2022035325A JP2020139560A JP2020139560A JP2022035325A JP 2022035325 A JP2022035325 A JP 2022035325A JP 2020139560 A JP2020139560 A JP 2020139560A JP 2020139560 A JP2020139560 A JP 2020139560A JP 2022035325 A JP2022035325 A JP 2022035325A
Authority
JP
Japan
Prior art keywords
cases
case
determination
model
correct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020139560A
Other languages
English (en)
Inventor
一穂 前田
Kazuho Maeda
進 遠藤
Susumu Endo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020139560A priority Critical patent/JP2022035325A/ja
Publication of JP2022035325A publication Critical patent/JP2022035325A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】判定精度を向上できる学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムを提供する。【解決手段】学習装置および判定装置の一例である情報処理装置1は、判定モデル生成部10、判定部11および判定結果統合部12を有する。判定モデル生成部10は、事例ごとに正例または負例の正解ラベルが付与された事例集合のデータである学習用データ20から、第1の複数の事例と第2の複数の事例とを取得し、第1の複数の事例に基づいて機械学習を行い第1のモデルを生成し、第2の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が第1のモデルと異なる第2のモデルを生成する。【選択図】図1

Description

本発明の実施形態は、学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムに関する。
従来、窓口等で提出された種々の書類については、書類間の整合性をチェックし、不整合のある項目を職員が修正している。例えば、税業務の窓口では、毎年、多くの申告書類が提出されている。提出された書類は、職員が、住民の基本情報や雇用元の提出書類と突き合わせて、間違いが無いかをチェックしている。
図17は、書類不備の修正を説明する説明図である。図17に示すように、住民H1は、確定申告書D1および住民税申告書D2を市役所に提出する。また、住民H1の勤務先K1、K2は、住民H1に関する給与支払報告書D3、D4を提出する。また、年金機構K3は、住民H1に関する年金支払報告書D5を提出する。市役所の職員H2は、提出された確定申告書D1、住民税申告書D2、給与支払報告書D3、D4および年金支払報告書D5の各項目の記載を比較する。そして、職員H2は、不整合のある項目を検出し、その項目のデータを修正する。
このような、書類間の不備のチェック作業をサポートする従来技術としては、学習したモデルに基づいて識別対象データが正例(修正有り)であるか負例(修正なし)であるかを判定するデータ解析装置、方法、及びプログラムが知られている。
特開2015-170281号公報
しかしながら、上記の従来技術では、モデルを学習する際の事例において正例とする頻度が少ない条件については本来の正例(修正有り)と判定すべきところを負例(修正なし)と誤って判定され易くなるという問題(以下、正例の誤判定問題と呼ぶ)がある。このように、判定精度が悪くなると、例えば、修正を要する書類を修正なしと判定する修正漏れにつながる場合がある。
1つの側面では、判定精度を向上できる学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムを提供することを目的とする。
1つの案では、学習装置は、取得する処理と、生成する処理とを制御部が実行する。取得する処理は、事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得する。生成する処理は、第1の複数の事例に基づいて機械学習を行い第1のモデルを生成する。また、生成する処理は、第2の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が第1のモデルと異なる第2のモデルを生成する。
判定精度を向上できる。
図1は、第1の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。 図2は、学習用データおよび判定用データの一例を説明する説明図である。 図3は、第1の実施形態にかかる情報処理装置の動作例を示すフローチャートである。 図4は、判定結果の一例を説明する説明図である。 図5は、判定結果の重ね合わせを説明する説明図である。 図6は、総合判定結果の一例を説明する説明図である。 図7は、第2の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。 図8は、第2の実施形態にかかる情報処理装置の動作例を示すフローチャートである。 図9は、サンプル学習用データの一例を説明する説明図である。 図10は、第2の実施形態にかかる情報処理装置の動作の変形例を示すフローチャートである。 図11Aは、サンプル学習用データの一例を説明する説明図である。 図11Bは、サンプル学習用データの一例を説明する説明図である。 図12は、総合判定結果の違いを説明する説明図である。 図13は、第3の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。 図14は、第3の実施形態にかかる情報処理装置の動作例を示すフローチャートである。 図15は、融合判定結果の一例を説明する説明図である。 図16は、コンピュータ構成の一例を説明するブロック図である。 図17は、書類不備の修正を説明する説明図である。
以下、図面を参照して、実施形態にかかる学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムを説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムは、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
(第1の実施形態)
図1は、第1の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図1に示すように、情報処理装置1は、判定モデル生成部10、判定部11および判定結果統合部12を有する。
この情報処理装置1は、学習装置および判定装置の一例である。なお、学習装置および判定装置は一つの情報処理装置1で実現してもよいが、判定モデル生成部10、判定部11および判定結果統合部12を分散することで、複数の判定モデルM1を生成する学習装置と、生成した複数の判定モデルM1を用いて判定する判定装置とをそれぞれ異なる情報処理装置1で実現してもよい。
判定モデル生成部10は、学習用データ20をもとに、同一の入力に対して正例と判定する確度が互いに異なる複数の情報処理装置1を生成する処理部である。
具体的には、学習用データ20は、事例ごとに正例または負例の正解ラベルが付与された事例集合のデータである。例えば、書類不備を検出するための判定モデルM1を生成する場合、学習用データ20には、各事例の提出書類(例えば確定申告書D1、住民税申告書D2、給与支払報告書D3、D4および年金支払報告書D5)の特徴を示すデータと、その事例の正解ラベル(正例(修正有り)または負例(修正なし))とが含まれる。
図2は、学習用データおよび判定用データの一例を説明する説明図である。図2に示すように、学習用データ20には、行IDにより識別される事例ごとに、事例の特徴を示す説明変数(例えば提出書類の各項目の値)と、修正有りを「1」、修正なしを「0」とする正解ラベルとが含まれる。なお、図示例では、学習用データ20は、100事例分の事例集合であり、10件の正例と、90件の負例とが含まれている。
判定モデル生成部10は、学習用データ20より、少なくとも一部の事例を取得する。次いで、判定モデル生成部10は、取得した一部の事例ごとに決定木、ランダムフォレスト、ディープラーニング等の公知の機械学習処理を行い、同一の入力に対して正例と判定する確度が互いに異なる複数の判定モデルM1を生成する。
例えば、判定モデル生成部10は、学習用データ20より、ランダム(任意)な行サンプリングを実施して一部の事例を取得する。ここで、判定モデル生成部10は、行サンプリングの乱数種を変えながら事例を取得する処理を繰り返すことで、取得した一部の事例が互いに同一にならないようにする。次いで、判定モデル生成部10は、繰り返し取得した事例ごとに、機械学習処理を行うことで、同一の入力に対して正例と判定する確度が互いに異なる複数の判定モデルM1を生成する。
なお、判定モデル生成部10は、学習用データ20より取得した事例から機械学習を行う際のパラメータを判定モデルM1を生成するたびに変更することで、同一の入力に対して正例と判定する確度が互いに異なるように複数の判定モデルM1を生成してもよい。例えば、決定木の場合、判定モデル生成部10は、木の深さの上限などのパラメータを変更して複数の判定モデルM1を生成してもよい。
判定部11は、判定モデル生成部10が生成した複数の判定モデルM1に対して、判定対象の事例に関する判定用データ21を入力する。これにより、判定部11は、複数の判定モデルM1それぞれから、判定対象の事例について正例・負例と判定する確度を判定結果22として取得する。例えば、判定部11は、判定結果22として、複数の判定モデルM1それぞれから、判定対象の事例について正例とする場合の確度を0~1の値で得る。
図2に示すように、判定用データ21には、行IDにより識別される判定対象の事例について、事例の特徴を示す説明変数(例えば判定対象の事例における提出書類の各項目の値)が含まれる。判定部11は、判定用データ21に含まれる説明変数を生成した判定モデルM1に入力することで、判定用データ21の事例における正例の確度を判定結果22として取得する。
判定結果統合部12は、複数の判定モデルM1それぞれからの、正例と判定する確度を統合して判定対象の事例が正例または負例のいずれであるかを示す統合判定結果23を出力する。具体的には、判定結果統合部12は、複数の判定モデルM1のいずれかで正例と判定される場合は統合後も判定されるように、正例の確度の高い(負例の確度が低い)判定結果22を重視し、例えば重ね合わせ(アンド)処理により統合する。
一例として、判定結果統合部12は、判定結果22の中で、最も正例の確度が高いものを採用する。また、判定結果統合部12は、判定結果22について、正例の確度が高いほど重みが大きくなるよう、判定結果22における正例の確度の重み付き平均を算出して統合判定結果23を求めてもよい。
例えば、判定結果統合部12は、正例の確度を重みとして、重み付き平均(Σp(i)/Σp(i))を算出する。ここで、p(i)は、i番目の判定結果22の正例の確度を示す。
また、判定結果統合部12は、正例の確度の順位を重みとして、重み付き平均(Σr(p(i))p(i)/Σr(p(i)))を算出する。ここで、r(p(i))は、i番目の判定結果22の正例の確度の順位(確度が小さい順、最小の確度の順位が1)である。
なお、判定結果統合部12が出力する統合判定結果23は、統合後の正例の確度であってもよいし、統合後の正例の確度が所定の閾値を上回るか否かに基づき、判定対象の事例について正例・負例と判定した判定結果であってもよい。
図3は、第1の実施形態にかかる情報処理装置1の動作例を示すフローチャートである。図3に示すように、処理が開始されると、判定モデル生成部10は、学習用データ20から少なくとも一部の事例を取得し、取得した事例を用いて機械学習処理を行うことで、判定モデルM1を生成する(S1)。
次いで、判定モデル生成部10は、複数の判定モデルM1の全てを生成したか否かを判定する(S2)。具体的には、学習用データ20から繰り返して事例を取得する場合、判定モデル生成部10は、取得した事例ごとの判定モデルM1を全て生成したか否かを判定する。また、パラメータを変更する場合、判定モデル生成部10は、変更したパラメータごとの判定モデルM1を全て生成した否かを判定する。複数の判定モデルM1の全てを生成していない場合(S2:No)、判定モデル生成部10は、S1へ処理を戻す。
複数の判定モデルM1の全てを生成した場合(S2:Yes)、判定部11は、判定用データ21と、判定モデル生成部10が生成した判定モデルM1から判定対象の事例における正例の確度を算出する(S3)。
次いで、判定部11は、判定用データ21について全ての判定モデルM1で算出が完了したか否かを判定する(S4)。全ての判定モデルM1で算出が完了していない場合(S4:No)、判定部11は、S3へ処理を戻し、算出をしていない別の判定モデルM1から判定対象の事例における正例の確度を算出する。
図4は、判定結果の一例を説明する説明図である。図4に示すように、判定部11は、行IDが10000の判定対象の事例(図3参照)について、説明変数を複数の判定モデルM1それぞれに入力することで、正例の確度が異なる複数の判定結果22を得る。
全ての判定モデルM1で算出が完了した場合(S4:Yes)、判定結果統合部12は、全ての判定モデルM1それぞれの正例の確度を統合した正例の確度を算出し、統合した正例の確度に基づく統合判定結果23を出力する(S5)。
図5は、判定結果の重ね合わせを説明する説明図である。図5の左側に示すように、複数の判定モデルM1については同一の入力に対して正例の確度が異なることから、例えば判定モデルM1a、M2aの判定結果22a、22bでは、正例または負例と判定する境界が異なることとなる。ここで、学習用データ20の事例集合に含まれる高頻度な修正条件については、判定モデルM1a、M1bともに正例(要修正)と判定される。しかしながら、学習用データ20の事例集合に含まれる低頻度な修正条件については、判定モデルM1bでは正例(要修正)と判定されるが、判定モデルM1aでは負例(修正不要)と判定される。
図5の右側に示すように、判定結果統合部12は、全ての判定モデルM1それぞれの正例の確度を統合、すなわち判定結果22a、22bの重ね合わせを行う。これにより、情報処理装置1は、例えば、判定対象の事例が学習用データ20の事例集合に含まれる低頻度な修正条件にマッチする場合であっても、判定モデルM1bの判定結果22bを統合していることから、正例とする統合判定結果23を得ることができる。このように、情報処理装置1では、本来の正例(例えば修正要)と判定すべきところを負例(例えば修正不要)と誤判定される正例の誤判定問題が生じることを抑止でき、判定精度を向上することができる。
図6は、統合判定結果の一例を説明する説明図である。図6に示すように、ケースC1では、複数の判定結果22より(図4参照)、正例の確度について最大の確度を採用することで統合判定結果23を得ている。
また、ケースC2では、複数の判定結果22より(図4参照)、正例の確度を重みとして、重み付き平均を算出((0^2+0.01^2+0.1^2)/(0+0.1+0.01)=0.092)することで、統合判定結果23を得ている。
また、ケースC3では、複数の判定結果22より(図4参照)、正例の確度の順位を重みとして、重み付き平均を算出((1*0+2*0.01+3*0.1)/(1+2+3)=0.091)することで、統合判定結果23を得ている。
(第2の実施形態)
図7は、第2の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図7に示すように、情報処理装置1aは、サンプリング部101と、サンプル判定モデル生成部102とを有する判定モデル生成部10aにより判定モデルM1を生成する点が、第1の実施形態にかかる情報処理装置1とは異なる。
サンプリング部101は、学習用データ20より任意の行サンプリングを所定数(例えば100行の学習用データ20より80行サンプリング)行ってサンプル学習用データ20aを生成する。また、サンプリング部101は、所定数のサンプリングごとに、行サンプリングに用いる乱数種を変えることで、複数のサンプル学習用データ20aを生成する。
サンプル判定モデル生成部102は、複数のサンプル学習用データ20aそれぞれについて機械学習処理を行うことで、複数の判定モデルM1を生成する。
図8は、第2の実施形態にかかる情報処理装置1aの動作例を示すフローチャートである。図8に示すように、情報処理装置1aの動作例では、S1a、S1bの処理が第1の実施形態にかかる情報処理装置1の動作例とは異なる。
具体的には、サンプリング部101は、学習用データ20をサンプリング(任意の行サンプリング)してサンプル学習用データ20aを生成する(S1a)。次いで、サンプル判定モデル生成部102は、生成したサンプル学習用データ20aを用いて機械学習処理を行うことで、サンプル学習用データ20aから判定モデルM1を生成する(S1b)。
次いで、判定モデル生成部10aは、学習用データ20に対して所定数のサンプリングを実施して判定モデルM1を生成したか否かを判定することで、複数の判定モデルM1の全てを生成したか否かを判定する(S2)。複数の判定モデルM1の全てを生成していない場合(S2:No)、判定モデル生成部10aは、S1aへ処理を戻す。
図9は、サンプル学習用データの一例を説明する説明図である。図9に示すように、サンプル学習用データ20aそれぞれは、例えば100行の学習用データ20(図2参照)より、任意の行サンプリングで80行を取得したものである。具体的には、(正例8、負例72)、(正例6、負例74)、(正例8、負例72)であり、正例、負例の組み合わせは互いに異なっている。したがって、サンプル学習用データ20aそれぞれより生成した判定モデルM1は、同一の入力に対して正例と判定する確度が互いに異なることとなる。
図10は、第2の実施形態にかかる情報処理装置1aの動作の変形例を示すフローチャートである。図10に示すように、変形例では、S1cの処理を加えている点が上記の処理とは異なる。
具体的には、サンプリング部101は、学習用データ20に存在し、サンプル学習用データ20aの存在しない正例、すなわち事例集合に含まれる正例の正解ラベルが付与された事例の中で、サンプル学習用データ20aから漏れた事例をサンプル学習用データ20aに追加する(S1c)。
図11A、図11Bは、サンプル学習用データの一例を説明する説明図である。図11Aに示すように、サンプリング部101は、学習用データ20にあってサンプル学習用データ20aにない正例の行すべて(2行)をサンプル学習用データ20aに加える。または、図11Bに示すように、サンプリング部101は、学習用データ20にあってサンプル学習用データ20aにない正例の行から、ランダムに選んだ行(例えば2行の中から1行)をサンプル学習用データ20aに加えてもよい。
図12は、統合判定結果23の違いを説明する説明図である。学習用データ20をサンプリングして生成したサンプル学習用データ20aには、学習用データ20の事例集合の中の一部の正例が含まれない場合がある。このような、正例の漏れは、正例の誤判定問題が生じやすくなる。例えば、図12の上段に示すように、低頻度な修正条件がサンプル学習用データ20aから外れ、正例を誤判定しやすい。したがって、S1cの処理により、学習用データ20に存在し、サンプル学習用データ20aの存在しない正例をサンプル学習用データ20aに加えることで、低頻度な修正条件がサンプル学習用データ20aから外れなくなる。このため、正例を誤判定しにくくなる。
(第3の実施形態)
図13は、第3の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図13に示すように、情報処理装置1bは、別手法判定モデル生成部13と、別手法判定部14と、判定結果融合部15とを有する点が、第1の実施形態にかかる情報処理装置1とは異なる。
別手法判定モデル生成部13は、学習用データ20の事例集合の中の、少なくとも一部の事例を用いて、判定モデル生成部10における機械学習とは異なる手法の機械学習処理で判定モデルM2を生成する。なお、別手法判定モデル生成部13が用いる機械学習処理は、例えば、決定木、ランダムフォレスト、ディープラーニング等の公知の機械学習処理のいずれであってもよい。
別手法判定部14は、別手法判定モデル生成部13が生成した判定モデルM2に対して、判定対象の事例に関する判定用データ21を入力する。これにより、別手法判定部14は、判定対象の事例について、判定モデルM1とは別手法の判定モデルM2から正例・負例と判定する確度を示す別手法判定結果24を取得する。
判定結果融合部15は、統合判定結果23と、別手法判定結果24とに基づいて、判定対象の事例が正例または負例のいずれであるかを示す融合判定結果23aを出力する。具体的には、判定結果融合部15は、統合判定結果23と、別手法判定結果24とを所定の条件で融合した融合判定結果23aを出力する。
例えば、複数の判定結果22を統合した統合判定結果23は、正例の誤判定を抑制する、すなわち正解が正例の事例に対する高確度の負例判定を抑制するものであり、低確度の負例判定にはさほどの効果は見込めない。そこで、高確度に正例と判定(=低確度に負例判定)されたか否かを鑑みるように、統合判定結果23と別手法判定結果24を融合して融合判定結果23aを求める。
具体的には、判定結果融合部15は、融合判定結果23aを得る前の正例の仮の確度(r)が低い場合は統合判定結果23の正例の確度(p)の影響を大きくし、正例の仮の確度(r)が高い場合は別手法判定結果24の正例の確度(q)の影響を大きくして融合判定結果23aを求める。ここで、正例の仮の確度は(r)は、pとqの平均値で算出する。判定結果融合部15は、融合判定結果23aの正例の確度(s)を、例えば、pとqのrによる重み付き平均、すなわち、s=(1-r)p+rqにより算出する。
図14は、第3の実施形態にかかる情報処理装置1bの動作例を示すフローチャートである。図14に示すように、情報処理装置1bの動作例は、S1d、S6、S7の処理を第1の実施形態にかかる情報処理装置1の動作例(図3参照)に加えたものである。
具体的には、別手法判定モデル生成部13は、学習用データ20から、判定モデル生成部10とは別手法の判定モデルM2を生成する(S1d)。また、別手法判定部14は、判定用データ21と、別手法の判定モデルM2から、判定対象の事例について、別手法による正例の確度を算出する(S6)。次いで、判定結果融合部15は、判定結果統合部12が統合した正例の確度と、別手法判定部14が算出した別手法による正例の確度とを融合して、正例の確度を算出する(S7)。
図15は、融合判定結果の一例を説明する説明図である。図15に示すように、ケースC4は、統合判定結果23における正例の確度(p)が0.10、別手法判定結果24における正例の確度(q)が0.02であり、仮の正例の確度(r=(p+q)/2=(0.10+0.02)/2=0.06)が低いケースである。また、ケースC5は、統合判定結果23における正例の確度(p)が1.0、別手法判定結果24における正例の確度(q)が0.2であり、仮の正例の確度(r=(p+q)/2=(0.10+0.02)/2=0.6)がケースC4よりも高いケースである。
ケースC4では、融合判定結果23aにおける正例の確度(s)は、(1-0.06)*0.1+0.06*0.02=0.095であり、統合判定結果23の正例の確度(p)の影響が大きくなっている。また、ケースC5では、融合判定結果23aにおける正例の確度(s)は、(1-0.6)*1.0+0.6*0.2=0.52であり、別手法判定結果24の正例の確度(q)の影響が大きくなっている。
(効果)
以上のように、情報処理装置1は、事例ごとに正例または負例の正解ラベルが付与された複数の事例(事例集合)の中から、第1の複数の事例と第2の複数の事例とを取得する。ついで、情報処理装置1は、第1の複数の事例に基づいて機械学習を行い第1のモデルを生成する。また、情報処理装置1は、第2の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が第1のモデルと異なる第2のモデルを生成する。このように生成した複数の判定モデルM1を用いた正例または負例の判定では、正例とする頻度が少ない条件についても、複数の判定モデルM1の中のいずれかで正例と判定され易くなる。したがって、複数の判定モデルM1の判定結果を統合することで、判定精度を向上することができる。
また、情報処理装置1aでは、事例ごとに正例または負例の正解ラベルが付与された事例集合の中から任意に複数の事例を取得する処理を繰り返す。次いで、情報処理装置1aは、繰り返して取得した複数の事例ごとに第1の機械学習を行って複数の判定モデルM1を生成する。これにより、事例集合に含まれる各事例を網羅しつつ、同一の入力に対して正例と判定する確度が互いに異なる複数の判定モデルM1を生成することができる。
また、情報処理装置1aでは、事例集合に含まれる正例の正解ラベルが付与された事例の中で、任意に取得した複数の事例から漏れた事例がある場合、この漏れた事例を複数の事例に加える。これにより、事例集合に含まれる正例の事例をより多く含めた上で第1の機械学習を行って複数の判定モデルM1を生成することができる。したがって、複数の判定モデルM1を用いた正例または負例の判定では、複数の判定モデルM1の中のいずれかでより正例と判定され易くなる。
また、情報処理装置1は、生成した複数の判定モデルM1に対して、判定対象の事例に関する判定用データ21を入力する。次いで、情報処理装置1は、複数の判定モデルM1それぞれからの、正例と判定する確度を統合して判定対象の事例が正例または負例のいずれであるかを示す統合判定結果23を出力する。複数の判定モデルM1を用いた正例または負例の判定では、正例とする頻度が少ない条件についても、複数の判定モデルM1の中のいずれかで正例と判定され易くなる。したがって、複数の判定モデルM1それぞれからの、正例と判定する確度を統合することで、正例の誤判定問題が生じることを抑止でき、判定精度を向上することができる。
また、情報処理装置1は、正例と判定する確度が高いほど重みを大きくする重み付き平均により、複数の判定モデルM1それぞれからの、正例と判定する確度を統合する。これにより、より正例と判定され易くなり、正例の誤判定問題が生じることを抑止できる。
また、情報処理装置1は、複数の判定モデルM1それぞれからの、正例と判定する確度の中の最も高い確度に統合する。これにより、より正例と判定され易くなり、正例の誤判定問題が生じることを抑止できる。
また、情報処理装置1bは、事例集合の中の、少なくとも一部の事例を用いて第1の機械学習とは異なる第2の機械学習で生成した判定モデルM2に対して、判定対象の事例に関する判定用データ21を入力し、別手法判定結果24を求める。次いで、情報処理装置1bは、統合判定結果23と、別手法判定結果24とに基づいて判定対象の事例が正例または負例のいずれであるかを示す融合判定結果23aを出力する。このように、第1の機械学習とは異なる第2の機械学習で生成した判定モデルM2の別手法判定結果24をさらに用いることで、判定精度をより向上させることができる。
(その他)
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。情報処理装置1、1a、1bについては、判定モデルM1、M2を生成する構成と、生成した判定モデルM1、M2をもとに判定する構成とを分散してもよい。
また、情報処理装置1、1a、1bの判定モデル生成部10、10a、判定部11、判定結果統合部12、別手法判定モデル生成部13および別手法判定部14の各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置1、1a、1bで行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
(コンピュータ構成例)
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ構成(ハードウエア)の一例を説明する。図16は、コンピュータ構成の一例を示すブロック図である。
図16に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、データ入力を受け付ける入力装置202と、モニタ203と、スピーカー204とを有する。また、コンピュータ200は、記憶媒体からプログラム等を読み取る媒体読取装置205と、各種装置と接続するためのインタフェース装置206と、有線または無線により外部機器と通信接続するための通信装置207とを有する。また、情報処理装置1は、各種情報を一時記憶するRAM208と、ハードディスク装置209とを有する。また、コンピュータ200内の各部(201~209)は、バス210に接続される。
ハードディスク装置209には、上記の実施形態で説明した機能構成(例えば判定モデル生成部10、10a、判定部11、判定結果統合部12、別手法判定モデル生成部13および別手法判定部14)における各種の処理を実行するためのプログラム211が記憶される。また、ハードディスク装置209には、プログラム211が参照する各種データ212が記憶される。入力装置202は、例えば、操作者から操作情報の入力を受け付ける。モニタ203は、例えば、操作者が操作する各種画面を表示する。インタフェース装置206は、例えば印刷装置等が接続される。通信装置207は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
CPU201は、ハードディスク装置209に記憶されたプログラム211を読み出して、RAM208に展開して実行することで、上記の機能構成(例えば判定モデル生成部10、10a、判定部11、判定結果統合部12、別手法判定モデル生成部13および別手法判定部14)に関する各種の処理を行う。なお、プログラム211は、ハードディスク装置209に記憶されていなくてもよい。例えば、コンピュータ200が読み取り可能な記憶媒体に記憶されたプログラム211を読み出して実行するようにしてもよい。コンピュータ200が読み取り可能な記憶媒体は、例えば、CD-ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にこのプログラム211を記憶させておき、コンピュータ200がこれらからプログラム211を読み出して実行するようにしてもよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得し、
前記第1の複数の事例に基づいて機械学習を行い第1のモデルを生成し、
前記第2の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が前記第1のモデルと異なる第2のモデルを生成する、
処理を制御部が実行することを特徴とする学習装置。
(付記2)前記取得する処理は、前記複数の事例に含まれる前記正例の正解ラベルが付与された事例の中で、前記第1の複数の事例又は前記第2の複数の事例から漏れた事例がある場合、当該漏れた事例を前記第1の複数の事例又は前記第2の複数の事例に加える、
ことを特徴とする付記1に記載の学習装置。
(付記3)事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得し、取得した前記第1の複数の事例に基づいて第1の機械学習を行い生成した第1のモデルと、前記第2の複数の事例に基づいて前記第1の機械学習を行い生成した、同一の入力に対して正例と判定する確度が前記第1のモデルと異なる第2のモデルとに対して、判定対象の事例に関するデータを入力し、
前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度を統合して前記判定対象の事例が正例または負例のいずれであるかを示す第1の判定結果を出力する、
処理を制御部が実行することを特徴とする判定装置。
(付記4)前記出力する処理は、前記正例と判定する確度が高いほど重みを大きくする重み付き平均により、前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度を統合する、
ことを特徴とする付記3に記載の判定装置。
(付記5)前記出力する処理は、前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度の中の最も高い確度に統合する、
ことを特徴とする付記3に記載の判定装置。
(付記6)事例ごとに正例または負例の正解ラベルが付与された複数の事例の中の、少なくとも一部の事例を用いて前記第1の機械学習とは異なる第2の機械学習で生成した第3のモデルに対して、前記判定対象の事例に関するデータを入力し、前記判定対象の事例が正例または負例のいずれであるかを示す第2の判定結果を求め、
前記第1の判定結果と、前記第2の判定結果とに基づいて前記判定対象の事例が正例または負例のいずれであるかを示す第3の判定結果を出力する、
各処理を前記制御部がさらに実行することを特徴とする付記3乃至5のいずれか一に記載の判定装置。
(付記7)事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得し、
前記第1の複数の事例に基づいて機械学習を行い第1のモデルを生成し、
前記第2の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が前記第1のモデルと異なる第2のモデルを生成する、
処理をコンピュータが実行することを特徴とする学習方法。
(付記8)前記取得する処理は、前記複数の事例に含まれる前記正例の正解ラベルが付与された事例の中で、前記第1の複数の事例又は前記第2の複数の事例から漏れた事例がある場合、当該漏れた事例を前記第1の複数の事例又は前記第2の複数の事例に加える、
ことを特徴とする付記7に記載の学習方法。
(付記9)事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得し、取得した前記第1の複数の事例に基づいて第1の機械学習を行い生成した第1のモデルと、前記第2の複数の事例に基づいて前記第1の機械学習を行い生成した、同一の入力に対して正例と判定する確度が前記第1のモデルと異なる第2のモデルとに対して、判定対象の事例に関するデータを入力し、
前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度を統合して前記判定対象の事例が正例または負例のいずれであるかを示す第1の判定結果を出力する、
処理をコンピュータが実行することを特徴とする判定方法。
(付記10)前記出力する処理は、前記正例と判定する確度が高いほど重みを大きくする重み付き平均により、前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度を統合する、
ことを特徴とする付記9に記載の判定方法。
(付記11)前記出力する処理は、前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度の中の最も高い確度に統合する、
ことを特徴とする付記9に記載の判定方法。
(付記12)事例ごとに正例または負例の正解ラベルが付与された複数の事例の中の、少なくとも一部の事例を用いて前記第1の機械学習とは異なる第2の機械学習で生成した第3のモデルに対して、前記判定対象の事例に関するデータを入力し、前記判定対象の事例が正例または負例のいずれであるかを示す第2の判定結果を求め、
前記第1の判定結果と、前記第2の判定結果とに基づいて前記判定対象の事例が正例または負例のいずれであるかを示す第3の判定結果を出力する、
各処理を前記コンピュータがさらに実行することを特徴とする付記9乃至11のいずれか一に記載の判定方法。
(付記13)事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得し、
前記第1の複数の事例に基づいて機械学習を行い第1のモデルを生成し、
前記第2の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が前記第1のモデルと異なる第2のモデルを生成する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
(付記14)前記取得する処理は、前記複数の事例に含まれる前記正例の正解ラベルが付与された事例の中で、前記第1の複数の事例又は前記第2の複数の事例から漏れた事例がある場合、当該漏れた事例を前記第1の複数の事例又は前記第2の複数の事例に加える、
ことを特徴とする付記13に記載の学習プログラム。
(付記15)事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得し、取得した前記第1の複数の事例に基づいて第1の機械学習を行い生成した第1のモデルと、前記第2の複数の事例に基づいて前記第1の機械学習を行い生成した、同一の入力に対して正例と判定する確度が前記第1のモデルと異なる第2のモデルとに対して、判定対象の事例に関するデータを入力し、
前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度を統合して前記判定対象の事例が正例または負例のいずれであるかを示す第1の判定結果を出力する、
処理をコンピュータに実行させることを特徴とする判定プログラム。
(付記16)前記出力する処理は、前記正例と判定する確度が高いほど重みを大きくする重み付き平均により、前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度を統合する、
ことを特徴とする付記15に記載の判定プログラム。
(付記17)前記出力する処理は、前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度の中の最も高い確度に統合する、
ことを特徴とする付記15に記載の判定プログラム。
(付記18)事例ごとに正例または負例の正解ラベルが付与された複数の事例の中の、少なくとも一部の事例を用いて前記第1の機械学習とは異なる第2の機械学習で生成した第3のモデルに対して、前記判定対象の事例に関するデータを入力し、前記判定対象の事例が正例または負例のいずれであるかを示す第2の判定結果を求め、
前記第1の判定結果と、前記第2の判定結果とに基づいて前記判定対象の事例が正例または負例のいずれであるかを示す第3の判定結果を出力する、
各処理を前記コンピュータにさらに実行させることを特徴とする付記15乃至17のいずれか一に記載の判定プログラム。
1、1a、1b…情報処理装置
10、10a…判定モデル生成部
11…判定部
12…判定結果統合部
13…別手法判定モデル生成部
14…別手法判定部
15…判定結果融合部
20…学習用データ
20a…サンプル学習用データ
21…判定用データ
22、22a、22b…判定結果
23…統合判定結果
23a…融合判定結果
24…別手法判定結果
101…サンプリング部
102…サンプル判定モデル生成部
200…コンピュータ
201…CPU
202…入力装置
203…モニタ
204…スピーカー
205…媒体読取装置
206…インタフェース装置
207…通信装置
208…RAM
209…ハードディスク装置
210…バス
211…プログラム
212…各種データ
C1~C5…ケース
D1…確定申告書
D2…住民税申告書
D3、D4…給与支払報告書
D5…年金支払報告書
H1…住民
H2…職員
K1、K2…勤務先
K3…年金機構
M1、M1a、M1b、M2…判定モデル

Claims (10)

  1. 事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得し、
    前記第1の複数の事例に基づいて機械学習を行い第1のモデルを生成し、
    前記第2の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が前記第1のモデルと異なる第2のモデルを生成する、
    処理を制御部が実行することを特徴とする学習装置。
  2. 前記取得する処理は、前記複数の事例に含まれる前記正例の正解ラベルが付与された事例の中で、前記第1の複数の事例又は前記第2の複数の事例から漏れた事例がある場合、当該漏れた事例を前記第1の複数の事例又は前記第2の複数の事例に加える、
    ことを特徴とする請求項1に記載の学習装置。
  3. 事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得し、取得した前記第1の複数の事例に基づいて第1の機械学習を行い生成した第1のモデルと、前記第2の複数の事例に基づいて前記第1の機械学習を行い生成した、同一の入力に対して正例と判定する確度が前記第1のモデルと異なる第2のモデルとに対して、判定対象の事例に関するデータを入力し、
    前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度を統合して前記判定対象の事例が正例または負例のいずれであるかを示す第1の判定結果を出力する、
    処理を制御部が実行することを特徴とする判定装置。
  4. 前記出力する処理は、前記正例と判定する確度が高いほど重みを大きくする重み付き平均により、前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度を統合する、
    ことを特徴とする請求項3に記載の判定装置。
  5. 前記出力する処理は、前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度の中の最も高い確度に統合する、
    ことを特徴とする請求項3に記載の判定装置。
  6. 事例ごとに正例または負例の正解ラベルが付与された複数の事例の中の、少なくとも一部の事例を用いて前記第1の機械学習とは異なる第2の機械学習で生成した第3のモデルに対して、前記判定対象の事例に関するデータを入力し、前記判定対象の事例が正例または負例のいずれであるかを示す第2の判定結果を求め、
    前記第1の判定結果と、前記第2の判定結果とに基づいて前記判定対象の事例が正例または負例のいずれであるかを示す第3の判定結果を出力する、
    各処理を前記制御部がさらに実行することを特徴とする請求項3乃至5のいずれか一項に記載の判定装置。
  7. 事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得し、
    前記第1の複数の事例に基づいて機械学習を行い第1のモデルを生成し、
    前記第2の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が前記第1のモデルと異なる第2のモデルを生成する、
    処理をコンピュータが実行することを特徴とする学習方法。
  8. 事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得し、取得した前記第1の複数の事例に基づいて機械学習を行い生成した第1のモデルと、前記第2の複数の事例に基づいて前記機械学習を行い生成した、同一の入力に対して正例と判定する確度が前記第1のモデルと異なる第2のモデルとに対して、判定対象の事例に関するデータを入力し、
    前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度を統合して前記判定対象の事例が正例または負例のいずれであるかを示す第1の判定結果を出力する、
    処理をコンピュータが実行することを特徴とする判定方法。
  9. 事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得し、
    前記第1の複数の事例に基づいて機械学習を行い第1のモデルを生成し、
    前記第2の複数の事例に基づいて機械学習を行い、同一の入力に対して正例と判定する確度が前記第1のモデルと異なる第2のモデルを生成する、
    処理をコンピュータに実行させることを特徴とする学習プログラム。
  10. 事例ごとに正例または負例の正解ラベルが付与された複数の事例の中から、第1の複数の事例と第2の複数の事例とを取得し、取得した前記第1の複数の事例に基づいて機械学習を行い生成した第1のモデルと、前記第2の複数の事例に基づいて前記機械学習を行い生成した、同一の入力に対して正例と判定する確度が前記第1のモデルと異なる第2のモデルとに対して、判定対象の事例に関するデータを入力し、
    前記第1のモデルおよび前記第2のモデルそれぞれからの、前記正例と判定する確度を統合して前記判定対象の事例が正例または負例のいずれであるかを示す第1の判定結果を出力する、
    処理をコンピュータに実行させることを特徴とする判定プログラム。
JP2020139560A 2020-08-20 2020-08-20 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム Pending JP2022035325A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020139560A JP2022035325A (ja) 2020-08-20 2020-08-20 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020139560A JP2022035325A (ja) 2020-08-20 2020-08-20 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム

Publications (1)

Publication Number Publication Date
JP2022035325A true JP2022035325A (ja) 2022-03-04

Family

ID=80443366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020139560A Pending JP2022035325A (ja) 2020-08-20 2020-08-20 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム

Country Status (1)

Country Link
JP (1) JP2022035325A (ja)

Similar Documents

Publication Publication Date Title
WO2019117065A1 (ja) データ生成装置、データ生成方法及びデータ生成プログラム
US12001516B2 (en) Method and assistance system for parameterizing an anomaly detection method
CN111401472B (zh) 基于深度卷积神经网络的红外目标分类方法和装置
CN112149909A (zh) 船舶油耗预测方法、装置、计算机设备和存储介质
CN111767192B (zh) 基于人工智能的业务数据检测方法、装置、设备和介质
CN111914943B (zh) 倾倒式岩溶危岩稳定综合判别的信息向量机方法及装置
CN115408925A (zh) 用于隧道施工的岩体参数预测方法和装置
CN113127342A (zh) 基于电网信息系统特征选择的缺陷预测方法及装置
JP2020061007A (ja) 学習プログラム、学習方法および学習装置
US9619900B2 (en) Systems and methods for identifying anomalous test item renderings
CN113918471A (zh) 测试用例的处理方法、装置及计算机可读存储介质
JP2022035325A (ja) 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム
US20230385690A1 (en) Computer-readable recording medium storing determination program, determination apparatus, and method of determining
CN111858386A (zh) 数据测试方法、装置、计算机设备和存储介质
CN110569893A (zh) 一种配电设备缺陷分析管理方法及系统
JP2020086786A (ja) 検出装置及び機械学習方法
CN115797044A (zh) 基于聚类分析的信贷风控预警方法及系统
CN111679991B (zh) 一种利用大数据生成测试用例的方法及系统
CN110827144B (zh) 用户的申请风险评估方法、申请风险评估装置及电子设备
CN113590458A (zh) 用于检查技术系统的方法和设备
Saccomani et al. Calculating all multiple parameter solutions of ODE models to avoid biological misinterpretations
CN113378277B (zh) 基于bim技术的建筑装饰装修系统的用户验证方法
JP2020161044A (ja) データ管理システム、データ管理方法、およびデータ管理プログラム
WO2023073941A1 (ja) エラー要因推定装置、エラー要因推定方法及びコンピュータ可読媒体
JP7322918B2 (ja) プログラム、情報処理装置、及び学習モデルの生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240507