JP2022003446A - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP2022003446A
JP2022003446A JP2020107647A JP2020107647A JP2022003446A JP 2022003446 A JP2022003446 A JP 2022003446A JP 2020107647 A JP2020107647 A JP 2020107647A JP 2020107647 A JP2020107647 A JP 2020107647A JP 2022003446 A JP2022003446 A JP 2022003446A
Authority
JP
Japan
Prior art keywords
data
training data
classifier
error
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020107647A
Other languages
English (en)
Inventor
邦彦 田中
Kunihiko Tanaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2020107647A priority Critical patent/JP2022003446A/ja
Publication of JP2022003446A publication Critical patent/JP2022003446A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 訓練データに誤りが存在するか否かを事前に適切に判定し、不要な誤り検出処理を行わずに済む情報処理装置を得る。【解決手段】 分類器31は、入力データに対応して、複数の分類のそれぞれについての確信度を出力データとして導出する。機械学習処理部32は、訓練データ21に基づいて分類器31の機械学習を行う。誤りデータセット検出部33は、訓練データ21に含まれていないデータセットを訓練データ候補22とし、訓練データ候補22の入力データを分類器31に入力し、訓練データ候補22の入力データに対応する分類器31の出力データを取得し、取得した分類器31の出力データにおける確信度の最大値が所定閾値以上であり、かつ、訓練データ候補22の出力データの示す分類に基づき、その最大値を有する分類が正しくないと判定される場合、訓練データ21に誤りデータセットが存在すると判定する。【選択図】 図1

Description

本発明は、情報処理装置に関するものである。
ある分類器は、訓練データに基づく機械学習によって導出されたパラメーター値を使用して、適切な分類を行うようになっている。そのため、訓練データが適切ではない場合、分類器が適切な分類を行わない可能性がある。ある検出装置は、訓練データの一部を選択して得られる縮小訓練データで分類器の機械学習を行い、その機械学習後の分類器をテストすることで、訓練データにおける誤りを検出している(例えば特許文献1参照)。
特開2015−232847号公報
しかしながら、一般的に、訓練データ内のデータセット(入力データと出力データとの対)は非常に多いため、常に、上述のようにして分類器の訓練データ内の誤りを検出しようとすると、上述の処理(縮小訓練データでの機械学習およびテスト)の所要時間が長くなってしまい実用的ではない。
本発明は、上記の問題に鑑みてなされたものであり、訓練データに誤りが存在するか否かを事前に適切に判定し、不要な誤り検出処理を行わずに済む情報処理装置を得ることを目的とする。
本発明に係る情報処理装置は、入力データに対応して、複数の分類のそれぞれについての確信度を出力データとして導出する分類器と、訓練データに基づいて前記分類器の機械学習を行う機械学習処理部と、前記訓練データが誤りデータセットを含むことを検出する誤りデータセット検出部とを備える。そして、前記誤りデータセット検出部は、(a)前記訓練データに含まれていないデータセットを訓練データ候補とし、前記訓練データ候補の入力データを前記分類器に入力し、前記訓練データ候補の入力データに対応する前記分類器の出力データを取得し、(b)取得した前記分類器の出力データにおける確信度の最大値が所定閾値以上であり、かつ、前記訓練データ候補の出力データの示す分類に基づき、前記最大値を有する分類が正しくないと判定される場合、前記訓練データに誤りデータセットが存在すると判定する。
本発明によれば、訓練データに誤りが存在するか否かを事前に適切に判定し、不要な誤り検出処理を行わずに済む情報処理装置が得られる。
本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。
図1は、本発明の実施の形態に係る情報処理装置の構成を示すブロック図である。 図2は、図1における分類器31の入出力データについて説明する図である。 図3は、図1に示す情報処理装置1の動作について説明するフローチャートである。
以下、図に基づいて本発明の実施の形態を説明する。
図1は、本発明の実施の形態に係る情報処理装置の構成を示すブロック図である。図1に示す情報処理装置1は、例えば、パーソナルコンピューター、画像処理装置(スキャナー、複合機など)などであり、入力装置11、表示装置12、記憶装置13、通信装置14、および演算処理装置15を備える。
入力装置11は、ユーザー操作を検出し、ユーザー操作を示す情報を出力する、ハードキー、タッチパネルなどといった装置である。表示装置12は、ユーザーに対して各種情報を表示する、液晶ディスプレイなどといった装置である。例えば、入力装置11および表示装置12は、筐体の表面に設置されている操作パネルに配置される。
記憶装置13は、ハードディスク、フラッシュメモリーなどといった書換可能な不揮発性の記憶装置であって、プログラムやデータを記憶している。ここでは、記憶装置13は、後述の訓練データ21、訓練データ候補22などを記憶する。
通信装置14は、内部バス、周辺機器インターフェイス、ネットワークなどを介して他の装置(画像読取装置2など)との間でデータ通信を行う装置である。なお、画像読取装置2は、原稿の画像を光学的に読み取り、その画像の画像データを生成し出力する。
演算処理装置15は、各種プログラムを実行するコンピューター、ASIC(Application Specific Integrated Circuit)などを備え、コンピューター、ASICなどで、各種処理部として動作する。
ここでは、演算処理装置15は、分類器31、機械学習処理部32、および誤りデータセット検出部33として動作する。
分類器31は、入力データに対応して、所定の複数の分類のそれぞれについての確信度を出力データとして導出するデータ処理部である。
図2は、図1における分類器31の入出力データについて説明する図である。例えば図2に示すように、分類器31について、入力データとして原稿画像(例えば画像読取装置2で読み取られた原稿画像)の画像データが使用され、請求書、見積書、納品書、領収書などといった複数の分類の確信度(つまり、分類結果)が出力データとして導出される。
分類器31は、機械学習されたニューラルネットワーク(例えばディープニューラルネットワーク)、多クラス用のサポートベクターマシンなどを備え、機械学習処理部32により設定されるパラメーターに基づいて、上述の分類のデータ処理を行う。例えば、そのニューラルネットワークには、VGG16などといった既存の畳み込みニューラルネットワークを使用することができる。
機械学習処理部32は、分類器31の種別(ディープニューラルネットワーク、サポートベクターマシンなど)に応じた既知の機械学習方法で、訓練データ21に基づいて前記分類器の機械学習を行うデータ処理部である。
例えば、原稿画像を請求書、見積書、納品書、領収書などの複数の帳票種別のいずれかに分類する分類器31の場合、訓練データ21として、例えば入力データとしての請求書の画像データと、出力データ(ラベル)としての、請求書を示す分類結果(請求書の確信度が1でありその他の確信度が0であるデータ)を有するデータセットが使用される。
具体的には、分類器31がニューラルネットワークである場合、機械学習処理部32は、ニューロン間の結合係数、ニューロンのバイアスなどといったパラメーターの値を、訓練データ21に基づいて、既存のディープラーニングの方式で最適化することで、分類器31の機械学習を実行し、機械学習で得られたパラメーター値を分類器31に設定する。
誤りデータセット検出部33は、訓練データ21が誤りデータセットを含むことを検出する。具体的には、誤りデータセット検出部33は、(a)訓練データ21に含まれていないデータセット(正しい入力データと出力データとの対)を訓練データ候補22とし、訓練データ候補22の入力データを分類器31に入力し、訓練データ候補22の入力データに対応する分類器31の出力データを取得し、(b)取得した分類器31の出力データにおける確信度の最大値が所定閾値以上であり、かつ、訓練データ候補22の出力データの示す分類に基づき、その最大値を有する分類が正しくないと判定される場合、訓練データ21に誤りデータセットが存在すると判定する。
原稿画像を請求書、見積書、納品書、領収書などに分類する分類器31の場合、誤りデータセットは、例えば、請求書の画像データに対して、納品書のラベルが付されているデータセットである。
また、誤りデータセット検出部33は、取得した分類器31の出力データにおける確信度の最大値が上述の所定閾値未満であるか、上述の最大値を有する分類が正しいと判定される場合には、訓練データ21に誤りデータセットが存在しないと判定する。
さらに、この実施の形態では、誤りデータセット検出部33は、訓練データ21に誤りデータセットが存在すると判定した場合、既知の方法で、訓練データ21内の誤りデータセットを特定する。
また、機械学習処理部32は、取得した分類器31の出力データにおける確信度の最大値が上述の所定閾値未満である場合、訓練データ候補22を追加された訓練データに基づいて分類器31の機械学習を行い、その機械学習で得られたパラメーター値で、分類器31のパラメーター値を更新する。
次に、上記情報処理装置1の動作について説明する。図3は、図1に示す情報処理装置1の動作について説明するフローチャートである。
分類器31は、訓練データ21に基づく機械学習で得られたパラメーター値を予め適用される。
その後、誤りデータセット検出部33は、訓練データ21に含まれていないデータセットを訓練データ候補22とし、訓練データ候補22の入力データを分類器31に入力し、訓練データ候補22の入力データに対応する分類器31の出力データ(各分類の確信度)を取得する(ステップS1)。
次に、誤りデータセット検出部33は、複数の分類の確信度の最大値が所定閾値以上であるか否かを判定する(ステップS2)。
複数の分類の確信度の最大値が所定閾値以上であると判定した場合、誤りデータセット検出部33は、訓練データ候補22の出力データ(分類)と分類器31の分類結果(確信度が最大値である分類)とを比較し(ステップS3)、分類結果が正しいか否か(つまり、両者が一致するか否か)を判定する(ステップS4)。
分類結果が正しいと判定されなかった場合(つまり、両者が一致しなかった場合)、誤りデータセット検出部33は、現時点の訓練データ21に誤りデータセット(つまり、入力データに対して正しくない出力データが関連付けられているデータセット)が存在すると判定し(ステップS5)、既知の方法で、現時点の訓練データ21に含まれている誤りデータセットを特定する(ステップS6)。
なお、誤りデータセット検出部33が、誤りデータセットを自動的に特定せずに、(例えば表示装置12に警告メッセージを表示することで)現時点の訓練データ21に誤りデータセットが存在することをユーザーに報知し、ユーザーが現時点の訓練データ21に含まれている誤りデータセットを特定するようにしてもよい。
なお、このようにして、現時点の訓練データ21に含まれている誤りデータセットが特定された後、誤りデータセット検出部33は、その誤りデータセットを訓練データ21から除去し、機械学習処理部32は、除去後の訓練データ21で分類器31の機械学習を行い、その機械学習で得られたパラメーター値で、分類器31のパラメーター値を更新するようにしてもよい。
一方、ステップS2において、確信度の最大値が所定閾値未満である場合には、誤りデータセット検出部33は、訓練データ21に誤りデータセットが存在しないと判定し、また、訓練データ候補22を訓練データ21に追加し(ステップS7)、機械学習処理部32は、訓練データ候補22が追加された訓練データ21に基づいて分類器31の機械学習を行い、その機械学習で得られたパラメーター値で、分類器31のパラメーター値を更新する(ステップS8)。
また、ステップS4において、分類結果が正しいと判定した場合、誤りデータセット検出部33は、訓練データ21に誤りデータセットが存在しないと判定する。
なお、ステップS4において、分類結果が正しいと判定した場合、ステップS7,S8において、誤りデータセット検出部33が、訓練データ候補22を訓練データ21に追加し、機械学習処理部32が、訓練データ候補22が追加された訓練データ21に基づいて分類器31の機械学習を行い、その機械学習で得られたパラメーター値で、分類器31のパラメーター値を更新するようにしてもよい。
また、訓練データ候補22として複数のデータセットがある場合は、各データセットについて、上述の処理が順番に繰り返し実行される。その場合、各データセットについての上述の処理において機械学習処理(ステップS8)を実行せずに、複数のデータセットについての上述の処理が完了してから、その機械学習処理を実行するようにしてもよい。
以上のように、上記実施の形態によれば、分類器31は、入力データに対応して、複数の分類のそれぞれについての確信度を出力データとして導出する。機械学習処理部32は、訓練データ21に基づいて分類器31の機械学習を行う。誤りデータセット検出部33は、訓練データ21が誤りデータセットを含むことを検出する。誤りデータセット検出部33は、(a)訓練データ21に含まれていないデータセットを訓練データ候補22とし、訓練データ候補22の入力データを分類器31に入力し、訓練データ候補22の入力データに対応する分類器31の出力データを取得し、(b)取得した分類器31の出力データにおける確信度の最大値が所定閾値以上であり、かつ、訓練データ候補22の出力データの示す分類に基づき、その最大値を有する分類が正しくないと判定される場合、訓練データ21に誤りデータセットが存在すると判定する。
これにより、訓練データ21に誤りが存在するか否かが事前に適切に判定され、不要な誤り検出処理を行わずに済む。
なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。
本発明は、例えば、情報処理装置に適用可能である。
1 情報処理装置
31 分類器
32 機械学習処理部
33 誤りデータセット検出部

Claims (4)

  1. 入力データに対応して、複数の分類のそれぞれについての確信度を出力データとして導出する分類器と、
    訓練データに基づいて前記分類器の機械学習を行う機械学習処理部と、
    前記訓練データが誤りデータセットを含むことを検出する誤りデータセット検出部とを備え、
    前記誤りデータセット検出部は、(a)前記訓練データに含まれていないデータセットを訓練データ候補とし、前記訓練データ候補の入力データを前記分類器に入力し、前記訓練データ候補の入力データに対応する前記分類器の出力データを取得し、(b)取得した前記分類器の出力データにおける確信度の最大値が所定閾値以上であり、かつ、前記訓練データ候補の出力データの示す分類に基づき、前記最大値を有する分類が正しくないと判定される場合、前記訓練データに誤りデータセットが存在すると判定すること、
    を特徴とする情報処理装置。
  2. 前記誤りデータセット検出部は、取得した前記分類器の出力データにおける確信度の最大値が前記所定閾値未満であるか、前記最大値を有する分類が正しいと判定される場合には、前記訓練データに誤りデータセットが存在しないと判定することを特徴とする請求項1記載の情報処理装置。
  3. 前記機械学習処理部は、取得した前記分類器の出力データにおける確信度の最大値が前記所定閾値未満である場合、前記訓練データ候補を追加された前記訓練データに基づいて前記分類器の機械学習を行うことを特徴とする請求項1または請求項2記載の情報処理装置。
  4. 前記誤りデータセット検出部は、前記訓練データに誤りデータセットが存在すると判定した場合、前記訓練データ内の前記誤りデータセットを特定することを特徴とする請求項1から請求項3のうちのいずれか1項記載の情報処理装置。
JP2020107647A 2020-06-23 2020-06-23 情報処理装置 Pending JP2022003446A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020107647A JP2022003446A (ja) 2020-06-23 2020-06-23 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020107647A JP2022003446A (ja) 2020-06-23 2020-06-23 情報処理装置

Publications (1)

Publication Number Publication Date
JP2022003446A true JP2022003446A (ja) 2022-01-11

Family

ID=79246929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020107647A Pending JP2022003446A (ja) 2020-06-23 2020-06-23 情報処理装置

Country Status (1)

Country Link
JP (1) JP2022003446A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023181319A1 (ja) * 2022-03-25 2023-09-28 三菱電機株式会社 情報処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023181319A1 (ja) * 2022-03-25 2023-09-28 三菱電機株式会社 情報処理装置
JP7466815B2 (ja) 2022-03-25 2024-04-12 三菱電機株式会社 情報処理装置

Similar Documents

Publication Publication Date Title
US20180174062A1 (en) Root cause analysis for sequences of datacenter states
JP5079019B2 (ja) 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム
EP3869385B1 (en) Method for extracting structural data from image, apparatus and device
JP2016212812A (ja) 情報処理装置及び情報処理プログラム
US8793201B1 (en) System and method for seeding rule-based machine learning models
WO2021154428A1 (en) System and method for improving machine learning models based on confusion error evaluation
US20150254869A1 (en) Image processing apparatus, image processing method, and storage medium
US20150106080A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
WO2016200408A1 (en) Hybrid classification system
JP2022003446A (ja) 情報処理装置
US8577814B1 (en) System and method for genetic creation of a rule set for duplicate detection
KR102282025B1 (ko) 컴퓨터를 이용한 문서 분류 및 문자 추출 방법
JP7315022B2 (ja) 機械学習装置、機械学習方法、及び、機械学習プログラム
JP7027696B2 (ja) 情報処理装置及び情報処理プログラム
US11972208B2 (en) Information processing device and information processing method
CN112183714B (zh) 基于人工神经网络的自动化数据切片
CN111860861B (zh) 用于识别对预测器具有不利影响的数据漂移的方法和装置
JP2015166940A (ja) 画像処理装置及び画像処理プログラム
US20210056301A1 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
US11956400B2 (en) Systems and methods for measuring document legibility
US12094233B2 (en) Information processing apparatus and non-transitory computer readable medium
CN117992765B (zh) 基于动态新兴标记的偏标签学习方法、装置、设备及介质
JP6736742B1 (ja) 帳票処理プログラム、帳票処理装置、帳票処理方法
US20220092761A1 (en) Information processing apparatus and non-transitory computer readable medium
JP7342518B2 (ja) 画像処理装置及び画像処理プログラム