JP7456289B2 - 判定プログラム、判定方法および情報処理装置 - Google Patents
判定プログラム、判定方法および情報処理装置 Download PDFInfo
- Publication number
- JP7456289B2 JP7456289B2 JP2020093595A JP2020093595A JP7456289B2 JP 7456289 B2 JP7456289 B2 JP 7456289B2 JP 2020093595 A JP2020093595 A JP 2020093595A JP 2020093595 A JP2020093595 A JP 2020093595A JP 7456289 B2 JP7456289 B2 JP 7456289B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- model
- test data
- learning data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 56
- 238000000034 method Methods 0.000 title claims description 47
- 238000012360 testing method Methods 0.000 claims description 106
- 238000012937 correction Methods 0.000 claims description 92
- 238000010801 machine learning Methods 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 31
- 230000014509 gene expression Effects 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 20
- 238000012986 modification Methods 0.000 description 32
- 230000004048 modification Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 244000205754 Colocasia esculenta Species 0.000 description 3
- 235000006481 Colocasia esculenta Nutrition 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000275 quality assurance Methods 0.000 description 2
- 241001385733 Aesculus indica Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
機械学習により生成されるモデルの性能は、学習させるデータの質および量に寄与することから、多くの教師データを用いて機械学習を実行することが要求される。しかし、収集した教師データが、常に正しくアノテーションされているとは限らず、正解タグが間違って付与された教師データを用いたまま機械学習を実行すると、モデルの性能を上げることが難しい。
図4は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図4に示すように、情報処理装置10は、通信部11、表示部12、記憶部13、制御部20を有する。
次に、教師データの修正要否を判定する具体例を説明する。具体的には、情報処理装置10は、学習データ群16を用いたモデル14の学習、F値の算出、仮テストデータおよび仮学習データの生成、仮学習データを用いたモデル14の再学習、モデル14のF値の変化を特定、修正すべき教師データの判定を順次実行する。
図13は、教師データの修正処理の流れを示すフローチャートである。図13に示すように、管理者等により処理が開始されると(S101:Yes)、埋込表現生成部21は、学習データ群16及びテストデータ群17の各データに含まれる単語のベクトル表現を生成する(S102)。続いて、機械学習部22は、各学習データを用いてモデル14の学習を実行する(S103)。
上述したように、情報処理装置10は、教師データがモデル(学習器)の能力に与える影響を考慮しつつ、教師データの修正候補範囲を提示することで、効率的な教師データの修正を行うことができる。具体的には、特許文献3を例とすると、例えば全データ10,000件、その内テストデータ2,000件とした場合、最短5回は学習させることになる。これに対して、実施例1にかかる手法では、データ数に関係なく最短2回の学習で修正要否を判定することができ、一般技術の2/5の工数でデータ修正を行うことができる。したがって、情報処理装置10は、教師データの修正要否を効率的に判定することができる。
上記実施例で用いた対象とする教師データの種類、教師データの数、教師データのベクトル表現、タグ、次元数等は、あくまで一例であり、任意に変更することができる。また、上記実施例では、テキストデータの単語や文書をベクトル化して、テキスト分類を行うモデルの機械学習を例にして説明したが、これに限定されるものではなく、音声や画像などの分類等にも適用することができる。また、モデル14には、ニューラルネットワークを用いた畳み込みニューラルネットワークやオートエンコーダなどを採用することもでき、決定木やサポートベクタマシンなどを採用することもできる。
上記実施例では、未学習のモデル14を用いて、教師データの修正を行う例を説明したが、これに限定されるものではない。例えば、学習済みのモデルでもよく、学習が完了しているが性能が悪いので再生成の対象となっているモデルなどを用いることもできる。この場合、モデルに問題があったのか、教師データに問題があったのかを迅速に判定することができる。
上記実施例では、アノテーション作業により生成された教師データを含む複数の教師データから修正が必要な教師データを特定する例を説明したが、これに限定されるものではない。例えば、アノテーション作業により生成された教師データを含まない複数の教師データでもよく、アノテーション作業により生成された教師データを含んでいるのか不明である複数の教師データなど、アノテーション作業の有無に関わらず、様々な教師データを対象とすることができる。
上記実施例では、テストデータのベクトル空間において、正例と負例との境界付近でかつ推測結果が誤判定であるデータを含む範囲を「修正候補範囲」として選択する例を説明したが、これに限定されるものではない。例えば、推測結果が誤判定であるデータのうち、正例と負例との境界からの距離が近い順に所定数のデータを「修正候補範囲」のデータとして選択することもできる。また、正例と負例との境界付近でかつ推測結果が誤判定であるデータが所定数含まれる最小の範囲を「修正候補範囲」として選択することもできる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。なお、機械学習部22は、第1実行部と第2実行部の一例であり、埋込表現生成部21、修正候補作成部23と仮データ生成部24は、選択部の一例であり、修正要否判定部25は、特定部の一例である。
次に、情報処理装置10のハードウェア構成例を説明する。図15は、ハードウェア構成例を説明する図である。図15に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)(またはSSD:Solid State Drive)10b、メモリ10c、プロセッサ10dを有する。また、図15に示した各部は、バス等で相互に接続される。
11 通信部
12 表示部
13 記憶部
14 モデル
15 教師データDB
16 学習データ群
17 テストデータ群
20 制御部
21 埋込表現生成部
22 機械学習部
23 修正候補作成部
24 仮データ生成部
25 修正要否判定部
Claims (8)
- コンピュータに、
複数の学習データを含む学習データ群と複数のテストデータを含むテストデータ群とを含む教師データのうち、前記学習データ群を用いてモデルの機械学習を実行し、
前記テストデータ群を用いて学習後の前記モデルから得られた推測結果に基づき、前記モデルによる推測結果が誤判定である特定のテストデータを選択し、
前記特定のテストデータに対応する特定の学習データを、前記学習データ群から除外した更新後の学習データを用いて、前記モデルの再学習を実行し、
前記モデルの再学習の結果に応じて、修正対象の教師データを特定する
処理を実行させることを特徴とする判定プログラム。 - 前記特定する処理は、前記特定のテストデータを前記テストデータ群から除外した更新後のテストデータ群を用いて、再学習後の前記モデルを評価した結果に基づき、前記修正対象の教師データを特定することを特徴とする請求項1に記載の判定プログラム。
- 前記実行する処理は、前記教師データのベクトル表現を生成し、前記複数の学習データそれぞれから生成された各ベクトル表現を用いて前記モデルの機械学習を実行し、
前記選択する処理は、前記複数のテストデータそれぞれから生成された各ベクトル表現から、前記特定のテストデータのベクトル表現を選択し、
前記実行する処理は、前記特定のテストデータのベクトル表現に対応する前記特定の学習データを除外した前記更新後の学習データ群を用いて、前記モデルの再学習を実行することを特徴とする請求項2に記載の判定プログラム。 - 前記選択する処理は、前記教師データのベクトル空間上の前記テストデータ群のプロットに対して、正例と負例との境界において前記特定のテストデータのベクトル表現を含む所定範囲を選択し、
前記実行する処理は、前記教師データのベクトル空間上の前記学習データ群のプロットに対して前記所定範囲に属する学習データを前記特定の学習データに選択し、選択した前記特定の学習データを除外した前記更新後の学習データ群を用いて、前記モデルの再学習を実行することを特徴とする請求項3に記載の判定プログラム。 - 前記特定する処理は、前記テストデータ群を用いて前記学習後のモデルを評価したときの第1のF値と、前記更新後のテストデータ群を用いて前記再学習後のモデルを評価したときの第2のF値とを比較して、前記特定の学習データまたは前記特定のテストデータの修正要否を特定することを特徴とする請求項2から4のいずれか一つに記載の判定プログラム。
- 前記特定する処理は、前記第2のF値が前記第1のF値よりも大きな値であり、前記第1のF値と前記第2のF値との差が閾値以上である場合に、前記特定の学習データまたは前記特定のテストデータを修正対象と特定し、前記特定の学習データまたは前記特定のテストデータに設定される正解タグの修正を許容する画面を表示することを特徴とする請求項5に記載の判定プログラム。
- コンピュータが、
複数の学習データを含む学習データ群と複数のテストデータを含むテストデータ群とを含む教師データのうち、前記学習データ群を用いてモデルの機械学習を実行し、
前記テストデータ群を用いて学習後の前記モデルから得られた推測結果に基づき、前記モデルによる推測結果が誤判定である特定のテストデータを選択し、
前記特定のテストデータに対応する特定の学習データを、前記学習データ群から除外した更新後の学習データを用いて、前記モデルの再学習を実行し、
前記モデルの再学習の結果に応じて、修正対象の教師データを特定する
処理を実行することを特徴とする判定方法。 - 複数の学習データを含む学習データ群と複数のテストデータを含むテストデータ群とを含む教師データのうち、前記学習データ群を用いてモデルの機械学習を実行する第1実行部と、
前記テストデータ群を用いて学習後の前記モデルから得られた推測結果に基づき、前記モデルによる推測結果が誤判定である特定のテストデータを選択する選択部と、
前記特定のテストデータに対応する特定の学習データを、前記学習データ群から除外した更新後の学習データを用いて、前記モデルの再学習を実行する第2実行部と、
前記モデルの再学習の結果に応じて、修正対象の教師データを特定する特定部と
を有することを特徴とする情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020093595A JP7456289B2 (ja) | 2020-05-28 | 2020-05-28 | 判定プログラム、判定方法および情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020093595A JP7456289B2 (ja) | 2020-05-28 | 2020-05-28 | 判定プログラム、判定方法および情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021189685A JP2021189685A (ja) | 2021-12-13 |
JP7456289B2 true JP7456289B2 (ja) | 2024-03-27 |
Family
ID=78849600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020093595A Active JP7456289B2 (ja) | 2020-05-28 | 2020-05-28 | 判定プログラム、判定方法および情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7456289B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010119615A1 (ja) | 2009-04-15 | 2010-10-21 | 日本電気株式会社 | 学習データ生成装置、及び固有表現抽出システム |
US20180260735A1 (en) | 2017-03-08 | 2018-09-13 | International Business Machines Corporation | Training a hidden markov model |
JP2018155522A (ja) | 2017-03-16 | 2018-10-04 | 株式会社島津製作所 | データ解析装置 |
JP2019079167A (ja) | 2017-10-23 | 2019-05-23 | オリンパス株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び、プログラム |
-
2020
- 2020-05-28 JP JP2020093595A patent/JP7456289B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010119615A1 (ja) | 2009-04-15 | 2010-10-21 | 日本電気株式会社 | 学習データ生成装置、及び固有表現抽出システム |
US20180260735A1 (en) | 2017-03-08 | 2018-09-13 | International Business Machines Corporation | Training a hidden markov model |
JP2018155522A (ja) | 2017-03-16 | 2018-10-04 | 株式会社島津製作所 | データ解析装置 |
JP2019079167A (ja) | 2017-10-23 | 2019-05-23 | オリンパス株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2021189685A (ja) | 2021-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017216980A1 (ja) | 機械学習装置 | |
JP7353946B2 (ja) | アノテーション装置および方法 | |
US20140308650A1 (en) | Evaluation control | |
CN111328407A (zh) | 用于基于学习效率提供私人定制教育内容的机械学习方法、装置及计算机程序 | |
US11620558B1 (en) | Iterative machine learning based techniques for value-based defect analysis in large data sets | |
CN109616101B (zh) | 声学模型训练方法、装置、计算机设备和可读存储介质 | |
CN113723070B (zh) | 文本相似度模型训练方法、文本相似度检测方法及装置 | |
JP2020060970A (ja) | コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム | |
JP2019212115A (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
CN109564613A (zh) | 签名创建设备、签名创建方法、记录签名创建程序的记录介质、以及软件确定系统 | |
JP2019204214A (ja) | 学習装置、学習方法、プログラム及び推定装置 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN112119410A (zh) | 用于用覆盖引导模糊测试调试神经网络的系统和方法 | |
JP7456289B2 (ja) | 判定プログラム、判定方法および情報処理装置 | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
KR102546023B1 (ko) | 업무 프로세스 분석 방법 | |
US20070282536A1 (en) | Method and apparatus for evaluating interaction between protein complexes, and computer product | |
CN114626545A (zh) | 用于人工智能模型的数据准备 | |
CN113723436A (zh) | 数据的处理方法、装置、计算机设备和存储介质 | |
JP6768750B2 (ja) | 学習方法、誤り判定方法、学習システム、誤り判定システム、およびプログラム | |
CN112784015A (zh) | 信息识别方法和装置、设备、介质和程序 | |
CN115270802B (zh) | 一种问题语句的处理方法、电子设备及存储介质 | |
JP3833626B2 (ja) | テストケース生成装置及びテストケース生成方法 | |
JP2020095452A (ja) | 語彙抽出支援システムおよび語彙抽出支援方法 | |
US20240320585A1 (en) | Task process analysis method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230209 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240206 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7456289 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |