JP2019040335A - 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム - Google Patents

教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム Download PDF

Info

Publication number
JP2019040335A
JP2019040335A JP2017161140A JP2017161140A JP2019040335A JP 2019040335 A JP2019040335 A JP 2019040335A JP 2017161140 A JP2017161140 A JP 2017161140A JP 2017161140 A JP2017161140 A JP 2017161140A JP 2019040335 A JP2019040335 A JP 2019040335A
Authority
JP
Japan
Prior art keywords
image
label
teacher
teacher data
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017161140A
Other languages
English (en)
Other versions
JP6506360B2 (ja
Inventor
祐貴 徳田
Yuki Tokuda
祐貴 徳田
領 菊池
Ryo Kikuchi
領 菊池
啓紀 佐藤
Keiki Sato
啓紀 佐藤
光義 山足
Mitsuyoshi Yamatari
光義 山足
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Information Systems Corp
Original Assignee
Mitsubishi Electric Information Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Information Systems Corp filed Critical Mitsubishi Electric Information Systems Corp
Priority to JP2017161140A priority Critical patent/JP6506360B2/ja
Publication of JP2019040335A publication Critical patent/JP2019040335A/ja
Application granted granted Critical
Publication of JP6506360B2 publication Critical patent/JP6506360B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】正解ラベルを持つ教師データを大量に生成可能な、機械学習用の教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラムを提供する。
【解決手段】機械学習システム10は、機械学習用の教師画像Tを生成する。機械学習システム10は、「白杖」というラベルが与えられた白杖画像T1と、「白杖」というラベルが与えられていない非白杖画像T2とを用いて機械学習を行うことにより、教師データと「白杖」というラベルとの関係を表す第1ラベリングモデル(第1学習済みモデル)を生成する(第1学習ステップ)。機械学習システム10は、第1ラベリングモデルに基づいて、未分類教師画像TUに「白杖」というラベルを与えるべきか否かを判定する(判定ステップ)。
【選択図】図3

Description

本発明は機械学習に関し、とくに、教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラムに関する。
機械学習を用いてデータのラベリングを行う技術が公知である。たとえば、画像データに対するラベリングは、画像認識等に応用可能である。機械学習の一方法では、予め正しいラベルが付されたデータ(教師データ)を用いて、ラベリングモデルを定義するパラメータを機械的に学習しておき、学習されたラベリングモデルを用いて未知データのラベリングを行う。このような技術の例は、特許文献1および非特許文献1に開示される。特許文献1および非特許文献1では、データとして画像データが扱われている。
特開平10−21393号公報
岡谷貴之、「ディープラーニングと画像認識―基礎と最近の動向―」、[online]、[平成28年4月22日検索]、インターネット<URL:http://www.orsj.or.jp/archive2/or60-4/or60_4_198.pdf>
しかしながら、従来の構成では、正解ラベルを持つ教師データを大量に生成するのが困難であるという問題があった。
たとえば、データを大量に準備しておき、1件ずつ目視により正解ラベルを与えることにより教師データを生成することが考えられるが、作業量が膨大となるため実行するのは困難である。
この発明は、このような問題点を解決するためになされたものであり、正解ラベルを持つ教師データを大量に生成可能な、機械学習用の教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラムを提供することを目的とする。
上述の問題点を解決するため、この発明に係る方法は、
コンピュータが機械学習用の教師データを生成する方法であって、
第1ラベルが与えられた第1教師データと、前記第1ラベルが与えられていない第2教師データとを用いて機械学習を行うことにより、教師データと前記第1ラベルとの関係を表す第1学習済みモデルを生成する、第1学習ステップと、
前記第1学習済みモデルに基づいて、未分類の教師データに前記第1ラベルを与えるべきか否かを判定する、判定ステップと
を備える。
特定の態様によれば、前記判定ステップの結果に応じて、前記未分類の教師データに基づき、前記第1ラベルが与えられた第3教師データを生成するか、または、前記第1ラベルが与えられていない第4教師データを生成する、教師データ生成ステップを備える。
特定の態様によれば、
前記教師データ生成ステップの後に、
前記第3教師データに与えられていた前記第1ラベルを削除するか、または、前記第4教師データに前記第1ラベルを与える、修正ステップ
を備える。
また、この発明に係る方法は、コンピュータが機械学習によって学習済みモデルを生成する方法であって、
上述の方法を用いて教師データを生成するステップと、
前記第1教師データと、前記第2教師データと、前記第3教師データおよび前記第4教師データのうち少なくとも一方とを用いて機械学習を行うことにより、教師データと前記第1ラベルとの関係を表す第2学習済みモデルを生成する、第2学習ステップと
を備える。
特定の態様によれば、前記第1学習ステップおよび前記第2学習ステップは、同一の学習前モデルに基づいて実行される。
また、この発明に係る学習済みモデルは、上述の方法を用いて生成される第2学習済みモデルであって、教師データに基づいて、テストデータに前記第1ラベルを与えるべきか否かを判定するよう、コンピュータを機能させる。
また、この発明に係るコンピュータは、上述の方法を実行する。
また、この発明に係るプログラムは、上述の方法をコンピュータに実行させる。
この発明に係る技術によれば、教師データのうち分類済みの一部に基づいて、残る未分類の教師データを分類するので、容易に大量に教師データを生成できる。
本発明の実施の形態1に係る機械学習システムの構成の例を示す図である。 図1の機械学習システムが実行する処理の流れを説明するフローチャートである。 図2のステップS1〜S3の処理の入出力を説明する図である。 図2のステップS5およびS6の処理の入出力を説明する図である。
以下、この発明の実施の形態を添付図面に基づいて説明する。
実施の形態1.
図1に、本発明の実施の形態1に係る機械学習システム10の構成の例を示す。機械学習システム10は、機械学習方法を実行するシステムであり、データに対するラベリングを行うためのラベリングモデルを機械学習によって生成する。また、機械学習システム10は、本明細書に記載される方法を実行するコンピュータである。
「ラベリング」とは、各データについて何らかの判定を実行し、データに応じて異なり得る結果を得ることをいう。データはたとえば画像データである。画像データの表現形式はどのようなものであってもよいが、たとえばビットマップ形式であってもよく、公知の特徴量を用いた形式であってもよい。
画像データに対するラベリングは、たとえば、各画像データが何を表す画像であるか(白杖が現れているか、ベビーカーが現れているか、人が現れているか、物が現れているか、動物が現れているか、等)を判定する処理として実現することができる。判定はラベリングモデルに基づいて行われる。ラベリングモデルは、機械学習によって生成された学習済みモデルであり、たとえば1つ以上のパラメータを用いて表現することができる。
本実施形態では、ニューラルネットワークを用いて学習を実現する。たとえば、本実施形態におけるラベリングモデルは、複数のニューロン層を備えるニューラルネットワークにおいて、異なる層のニューロンを結合する重みを用いて定義される。このようなニューラルネットワークおよびラベリングモデルの具体例は、たとえば非特許文献1に開示される。非特許文献1には、ディープラーニングに係るラベリングモデルが開示されている。
図1に示すように、機械学習システム10は公知のコンピュータとしての構成を有し、演算を行う演算手段11と、情報を格納する記憶手段12とを備える。演算手段11はたとえばCPU(中央処理装置)を含み、記憶手段12はたとえば半導体メモリおよびHDD(ハードディスクドライブ)を含む。記憶手段12は、図1に示すように各種の画像データを格納する。機械学習システム10は、これらの画像データを用いて、本実施形態に係る方法を実行する。
記憶手段12はプログラム(図示せず)も格納しており、演算手段11がこのプログラムを実行することによって、機械学習システム10は本明細書に記載される機能を実現する。すなわち、このプログラムは、コンピュータに本明細書に記載の方法を実行させることにより、そのコンピュータを機械学習システム10として機能させる。
また、機械学習システム10は、公知のコンピュータが通常備える他の構成要素を備えてもよい。たとえば、出力装置であるディスプレイおよびプリンタ、入力装置であるキーボードおよびマウス、通信ネットワークに対する入力装置と出力装置とを兼ねるネットワークインタフェース、等を備えてもよい。
図1に示すように、画像データは、教師データを表す教師画像Tと、テストデータを表すテスト画像Eとを含む。教師画像Tは、ラベリングモデルを学習するために用いられるものである。テスト画像Eは、ラベリングモデルの精度を評価するために用いられるものである。
教師画像Tは、たとえば動画を構成する画像から抽出することにより生成することが可能である。この抽出は、機械学習システム10または他のコンピュータが自動的に行ってもよいし、機械学習システム10の使用者等が目視により行ってもよい。
教師画像Tは、分類済み教師画像TCと、未分類教師画像TUとを含む。分類済み教師画像TCは、正解ラベルとして特定のラベルが与えられた画像である。たとえば画像中に白杖が表れている場合には、その画像には「白杖」というラベルが与えられる。本実施形態では、分類済み教師画像TCのうち少なくとも1つは、「白杖」というラベル(第1ラベル)が与えられた白杖画像T1(第1教師データ)である。
また、分類済み教師画像TCのうち少なくとも1つは、「白杖」というラベルが与えられていない非白杖画像T2(第2教師データ)である。本実施形態では、非白杖画像T2の例として、別のラベルである「ベビーカー」というラベル(第2ラベル)が与えられたものを用いる。分類済み教師画像TCについては、「白杖」「ベビーカー」等のラベルは事前に付与されている。分類済み教師画像TCに対するラベルの付与は、たとえば目視により行うことができる。
なお、ラベルの付与は排反または選択的である必要はない。たとえば、分類済み教師画像TCは、いかなるラベルも持たない画像を含んでもよく、「白杖」というラベルおよび「ベビーカー」というラベルの双方を持つ画像を含んでもよく、さらに別のラベル(たとえば「人」)を持つ画像を含んでもよい。
未分類教師画像TUは、いずれのラベルも与えられていない画像である。または、ラベルを与えるための処理が行われていない画像である。または、ラベルを与えるか否かを決定するための処理が行われていない画像である。とくに、未分類教師画像TUについては、目視等によるラベル付与処理を事前に行う必要はない。
機械学習に係るラベルの種類は、教師画像Tおよびテスト画像Eを通じて共通である。たとえば本実施形態では、教師画像Tおよびテスト画像Eのいずれも、白杖を表すものと、ベビーカーを表すものとを含む。
以上のような構成を備える機械学習システム10の動作を、図2〜図4を用いて以下に説明する。
図2は、機械学習システム10が実行する処理の流れを説明するフローチャートである。図2のうち、とくにステップS1〜S3は、機械学習用の教師データを生成する方法に係る。
図3は、図2のステップS1〜S3の処理の入出力を説明する図である。
図2の処理において、まず機械学習システム10は、分類済み教師画像TCを用いて第1ラベリングモデル(第1学習済みモデル)を生成する(ステップS1、第1学習ステップ)。この第1ラベリングモデルは、白杖画像T1と非白杖画像T2とを用いて機械学習を行うことにより生成される学習済みモデルであって、教師画像T(厳密にはその一部である分類済み教師画像TC)と「白杖」というラベルとの関係を表す学習済みモデルである。
ステップS1は、たとえばニューラルネットワークを用いたディープラーニング技術を用いて実行することができる。この場合、第1ラベリングモデルは、複数のニューロン層を備えるニューラルネットワークにおいて、異なる層のニューロンを結合する重みを用いて定義することができる。たとえばcaffeフレームワークを用いてもよい。
次に、機械学習システム10は、第1ラベリングモデルに基づき、未分類教師画像TUを分類する(ステップS2、判定ステップ)。このステップS2では、未分類教師画像TUに「白杖」というラベルを与えるべきか否かが判定される。ステップS2は、たとえば、第1ラベリングモデルに未分類教師画像TUを入力し、出力されるラベルを取得することにより実行される。
次に、機械学習システム10は、ステップS2の結果に応じて、未分類教師画像TUに基づき、新たな分類された教師データを生成する(ステップS3、教師データ生成ステップ)。たとえば、ある未分類教師画像TUに、「白杖」というラベルを与えるべきであると判定された場合には、その未分類教師画像TUに基づいて、「白杖」というラベルが与えられた白杖画像T3(第3教師データ)を生成する。一方、ある未分類教師画像TUに「白杖」というラベルを与えるべきでないと判定された場合には、「白杖」というラベルが与えられていない画像(第4教師データ)を生成する。
「白杖」というラベルが与えられていない非白杖画像T4(第4教師データ)は、たとえば「ベビーカー」というラベルが与えられた画像である。ここで、第1ラベリングモデルの内容等によっては、ステップS2の判定が必ずしも正確ではなく、本来「白杖」というラベルを与えるべきであるのにそうでないと判定されたり、その逆が発生する可能性がある。このため、たとえばステップS3で生成される「非白杖画像T4」は、実際には「白杖」が表れた画像である可能性もあるが、少なくともある程度の精度をもってラベルの付与を行うことが可能である。
与えられたラベルを表す具体的なデータ形式は任意に設計可能であるが、たとえば白杖画像T1および非白杖画像T2と同一の形式としてもよい。その場合には、白杖画像T1と白杖画像T3とはデータ形式上区別不可能であり、また、非白杖画像T2と非白杖画像T4ともデータ形式上区別不可能である。
このように、本発明の実施の形態1に係る機械学習システム10は、教師画像Tの一部をなす分類済み教師画像TC(白杖画像T1および非白杖画像T2)に基づいて、残る未分類教師画像TUを分類するので、容易に大量に分類済みの教師画像T(白杖画像T3および非白杖画像T4)を生成できる。
たとえば、10000個の教師画像Tが存在する場合に、そのうちの500個にだけ目視でラベルを付与して分類済み教師画像TCとし、残る9500個を未分類教師画像TUとして本発明を適用すれば、効率的に10000個の教師画像Tのラベルを決定することができる。
なお、生成される白杖画像T3および非白杖画像T4は、必ずしもすべてが正しいラベルを持つものではない可能性もあるが、少なくとも概ね正しいラベルを持つものと考えることができる。このため、機械学習システム10によれば、概ね正しいラベルを持つ教師画像Tを容易かつ大量に生成することができる。
本発明による効果の一部は、ステップS3までの処理において得ることが可能であるが、さらに後続の処理を実行してもよい。
たとえば、ステップS3の後に、機械学習システム10は、白杖画像T3に与えられていた「白杖」というラベルを削除するか、または、非白杖画像T4に「白杖」というラベルを与える(ステップS4、修正ステップ)。
この修正ステップは、たとえば機械学習システム10の使用者の操作に応じて実行されてもよい。具体例として、機械学習システム10は、白杖画像T3と、白杖画像T3に「白杖」というラベルが与えられたことを示す情報と、非白杖画像T4と、非白杖画像T4に「白杖」というラベルが与えられなかったことを示す情報とを表示し、白杖画像T3または非白杖画像T4のいずれかを選択する操作と、選択した画像のラベルを変更するための操作を受け付ける機能を備えてもよい。また、機械学習システム10は、入力された操作に応じて、白杖画像T3および非白杖画像T4のラベルを修正してもよい。
たとえば、機械学習システム10の使用者は、白杖画像T3および非白杖画像T4を閲覧し、誤ったラベルが与えられているものを発見した場合には、ラベルを変更すべき教師画像Tを特定する情報(ファイル名等)と、ラベルの変更内容(特定のラベルを削除する、特定のラベルを与える、等)を表す情報とを、機械学習システム10に入力してもよい。ステップS4の結果として、ステップS3で生成された白杖画像T3が非白杖画像T4に変更されたり、逆にステップS3で生成された非白杖画像T4が白杖画像T3に変更されたりする可能性がある。
このような修正には、ある程度の目視作業が必要となるが、大量(たとえば9500個)の未分類教師画像TUをすべて目視によって分類する場合に比べると、作業効率が向上する。
また、ステップS4は、自動的に実行されてもよい。たとえば、機械学習システム10は、事前に決定される所定の基準に基づき、白杖画像T3に与えられていた「白杖」というラベルを削除するか、または、非白杖画像T4に「白杖」というラベルを与えてもよい。
ステップS1〜S3(またはステップS1〜S4)によって生成された教師画像Tは、様々な方法で利用することができる。たとえばテスト画像Eに対してラベリングを行う処理に利用することができる。ステップS5およびS6にこのような利用方法の一例を示す。
図4は、図2のステップS5およびS6の処理の入出力を説明する図である。ステップS3の後(またはステップS4の後)、機械学習システム10は、教師画像Tを用いて第2ラベリングモデル(第2学習済みモデル)を生成する(ステップS5、第2学習ステップ)。この第2ラベリングモデルは、白杖画像T1と、非白杖画像T2と、白杖画像T3と、非白杖画像T4とを用いて機械学習を行うことにより生成される学習済みモデルであって、教師画像Tと「白杖」というラベルとの関係を表す学習済みモデルである。すべての教師画像Tを用いてもよいが、必ずしもすべての教師画像Tを用いる必要はない。たとえば、白杖画像T3および非白杖画像T4の双方を用いる必要はなく、これらのうちいずれか一方のみを用いてもステップS5の処理は実行可能である。このようにして、機械学習システム10は、機械学習によって学習済みモデルを生成する。
ステップS5は、たとえばニューラルネットワークを用いたディープラーニング技術を用いて実行することができる。この場合、第2ラベリングモデルは、複数のニューロン層を備えるニューラルネットワークにおいて、異なる層のニューロンを結合する重みを用いて定義することができる。たとえばcaffeフレームワークを用いてもよい。
ここで、ステップS1およびS5は、同一の学習前モデルに基づいて実行されてもよい。「学習前モデル」の定義は当業者が適宜決定可能である。ニューラルネットワークを用いたディープラーニングの場合には、たとえば、誤差逆伝搬による重み付けの修正を開始する前のニューラルネットワークの具体的構造をいう。より具体的には、各ニューロンの出力を決定するための関数、階層数、各階層におけるニューロンの数、各ニューロン間の接続関係の有無、等が等しいものをいう。なお学習前モデルの一部が乱数を含む場合(重みの初期値等)には、乱数によるモデルの相違は考慮しない(たとえば、重みの初期値のみが異なる学習前モデルは、同一の学習前モデルである)。
次に、機械学習システム10は、第2ラベリングモデルに基づき、テスト画像Eを分類する(ステップS6)。このステップS6では、白杖画像T1またはT3と、非白杖画像T2またはT4とを用いて、テスト画像Eに「白杖」というラベルを与えるべきか否かが判定される。ステップS6は、たとえば、第2ラベリングモデルにテスト画像Eを入力し、出力されるラベルを取得することにより実行される。ここで、第2ラベリングモデルは、教師画像Tに基づいて、テスト画像Eに「白杖」というラベルを与えるべきか否かを判定するよう、コンピュータを機能させるための学習済みモデルであるということができる。
このようにしてテスト画像Eの分類が行われる。ステップS6の後に、判定結果に応じてテスト画像Eにラベルを与えてもよい。この処理はステップS3と同様に実行されてもよい。
上述の実施の形態1において、次のような変形を施すことができる。
判定されるラベルの種類の数および組合せは任意に設計可能である。単一のラベルを与えるか否かのみを判定してもよいし、複数のラベルのうちいずれを与えるか(またはいずれも与えないか)を選択してもよいし、複数のラベルのそれぞれについてそのラベルを与えるか否かを個別に判定してもよい。
実施の形態1では、データはすべて画像データであるが、機械学習によってラベリングを行うことが可能なデータであれば、任意の他の種類のデータ(文書データ、数値データ等)を用いてもよい。
図2を用いて説明した機械学習システム10の動作は、10000個の教師画像Tが存在し、500個が分類済み教師画像TCであり残る9500個が未分類教師画像TUであるとき、ステップS2の処理で全ての未分類教師画像TUを分類するように構成している。
変形例として、ステップS2〜ステップS3の処理を繰り返すように構成する。未分類教師画像TUを例えば500個ずつに分けてステップS2で500個について新たな分類された教師画像を生成し、ステップS3で新たに分類された教師データを生成する。ステップS3の次に、教師データの累積数を算出し、累積数が所定数に達しているかどうかの判定処理を加え、累積数が所定数に達していないと判定したときは、次の500個についてステップS2〜ステップS3の処理を繰り返すように構成する。ステップS3の次で、教師データの累積数が所定数に達すると判定したときは、処理を終了する。
未分類教師画像TUに関して一度の処理で教師画像TCを生成しようとすると処理時間を要してしまう可能性があるが、このように未分類教師画像TUの一定数を順次処理するように構成することで、所定数の教師画像TCを効率的に生成できる可能性が高まる。
またステップS2でまずは一定数(例えば500個)について教師画像を生成するように構成し、ステップS3の次に、ステップS3で累積される教師画像TCがステップS2で処理した未分類教師画像TU数と比例して増加しているかの判定処理を加え、未分類教師画像TU数と比例して増加していると判断したとき、次のステップS2からの処理で残りの未分類教師画像TUについてまとめて教師画像を生成するように構成してもよい。このような教師画像の場合は、未分類教師画像TU数と比例して効率的に教師画像TCの増加が見込まれるが、そのような教師画像の特性を持っているかどうかを予め確認することで、処理時間を短縮できる可能性が高まる。
なお所定数とは、予め設定している教師画像TCを必要とする数である。
比例原理をどのように利用するかは適宜設計可能であるが、具体例の1つを以下に説明する。まず、特定のラベルを持つ教師画像について目標数を設定する。たとえば、「白杖」というラベルを持つ教師画像が1000個必要な場合には、目標数は1000となる。次に、機械学習システム10は、ステップS2およびS3で、未分類教師画像TUのうち所定数(たとえば500個)について教師画像を生成し、それらのうちで「白杖」というラベルが与えられたものの比率を算出する。ステップS3で分類済み教師画像TCが500個生成され、そのうち100個が「白杖」に対応するものであった場合には、比率は100/500=0.2となる。そして、機械学習システム10は、この比率と、目標数とに基づき、追加で処理すべき分類済み教師画像TCの数を算出する。たとえば、最初に存在していた(すなわち目視により判定された)分類済み教師画像TC500個のうち200個が「白杖」に対応するものであったとすると、ステップS3で生成された100個と合わせて合計300個の「白杖」教師画像が存在することになり、残りは1000−300=700個となるので、この700個の「白杖」教師画像を得るために処理が必要となる未分類教師画像TUの数は、700/0.2=3500個となる。したがって、機械学習システム10は、新たに3500個の未分類教師画像TUについてステップS2およびS3を実行し、必要な数の「白杖」教師画像を得る。なお、ここで得られたものを含めた「白杖」教師画像の総数が結果として目標数に届かない場合等には、さらに同様の比例計算を行ってステップS2およびS3を繰り返し実行してもよい。
機械学習の具体的実現方法は、任意に設計可能である。実施の形態1では、ニューラルネットワークを用いたディープラーニングを用いたが、他の機械学習方法を用いてもよい。また、ディープラーニングを用いる場合についても、具体的な学習方法は任意に設計可能である。たとえば、学習回数、学習中の精度評価方法および評価基準、入出力データのディレクトリ構造およびファイル構造、等を任意に設計してもよい。また、たとえば、公知のcaffeフレームワークを利用してもよい。
10 機械学習システム(コンピュータ)、S1 第1学習ステップ、S2 判定ステップ、S3 教師データ生成ステップ、S4 修正ステップ、S5 第2学習ステップ、E テスト画像(テストデータ)、T 教師画像(教師データ)、T1 白杖画像(第1教師データ)、T2 非白杖画像(第2教師データ)、T3 白杖画像(第3教師データ)、T4 非白杖画像(第4教師データ)、TU 未分類教師画像(未分類の教師データ)。
上述の問題点を解決するため、この発明に係る方法は、
コンピュータが機械学習用の教師データを生成する方法であって、
第1ラベルが与えられた所定数A個の分類済み第1教師データと、前記第1ラベルが与えられていない分類済み第2教師データとを用いて機械学習を行うことにより、教師データと前記第1ラベルとの関係を表す第1学習済みモデルを生成する、第1学習ステップと、
前記第1学習済みモデルに基づいて、所定数B個の、未分類の教師データに前記第1ラベルを与えるべきか否かを判定する、判定ステップと
X個の、未分類の教師データに、前記判定ステップを実行すべきか否かを判定する、追加判定ステップと、
を備え
X=B・(C−A−D)/Dであり、
Cは、第1ラベルを与えられた分類済み教師データの必要数であり、
Dは、前記判定ステップにおいて第1ラベルを与えるべきと判定された教師データの数である。
特定の態様によれば、前記判定ステップの結果に応じて、前記未分類の教師データに基づき、前記第1ラベルが与えられた分類済み第3教師データを生成するか、または、前記第1ラベルが与えられていない分類済み第4教師データを生成する、教師データ生成ステップを備える。
特定の態様によれば、
前記教師データ生成ステップの後に、
前記分類済み第3教師データに与えられていた前記第1ラベルを削除するか、または、前記分類済み第4教師データに前記第1ラベルを与える、修正ステップ
を備える。
また、この発明に係る方法は、コンピュータが機械学習によって学習済みモデルを生成する方法であって、
上述の方法を用いて教師データを生成するステップと、
前記分類済み第1教師データと、前記分類済み第2教師データと、前記分類済み第3教師データおよび前記分類済み第4教師データのうち少なくとも一方とを用いて機械学習を行うことにより、教師データと前記第1ラベルとの関係を表す第2学習済みモデルを生成する、第2学習ステップと
を備える。
特定の態様によれば、前記第1学習ステップおよび前記第2学習ステップは、同一の学習前モデルに基づいて実行される。
また、この発明に係る学習済みモデルは、上述の方法を用いて生成される第2学習済みモデルであって、教師データに基づいて、テストデータに前記第1ラベルを与えるべきか否かを判定するよう、コンピュータを機能させる。
また、この発明に係るコンピュータは、上述の方法を実行する。
また、この発明に係るプログラムは、上述の方法をコンピュータに実行させる。

Claims (8)

  1. コンピュータが機械学習用の教師データを生成する方法であって、
    第1ラベルが与えられた第1教師データと、前記第1ラベルが与えられていない第2教師データとを用いて機械学習を行うことにより、教師データと前記第1ラベルとの関係を表す第1学習済みモデルを生成する、第1学習ステップと、
    前記第1学習済みモデルに基づいて、未分類の教師データに前記第1ラベルを与えるべきか否かを判定する、判定ステップと
    を備える、方法。
  2. 前記判定ステップの結果に応じて、前記未分類の教師データに基づき、前記第1ラベルが与えられた第3教師データを生成するか、または、前記第1ラベルが与えられていない第4教師データを生成する、教師データ生成ステップを備える、請求項1に記載の方法。
  3. 前記教師データ生成ステップの後に、
    前記第3教師データに与えられていた前記第1ラベルを削除するか、または、前記第4教師データに前記第1ラベルを与える、修正ステップ
    を備える、請求項2に記載の方法。
  4. コンピュータが機械学習によって学習済みモデルを生成する方法であって、
    請求項2に記載の方法を用いて教師データを生成するステップと、
    前記第1教師データと、前記第2教師データと、前記第3教師データおよび前記第4教師データのうち少なくとも一方とを用いて機械学習を行うことにより、教師データと前記第1ラベルとの関係を表す第2学習済みモデルを生成する、第2学習ステップと
    を備える、方法。
  5. 前記第1学習ステップおよび前記第2学習ステップは、同一の学習前モデルに基づいて実行される、請求項4に記載の方法。
  6. 請求項4または5に記載の方法を用いて生成される第2学習済みモデルであって、教師データに基づいて、テストデータに前記第1ラベルを与えるべきか否かを判定するよう、コンピュータを機能させるための学習済みモデル。
  7. 請求項1〜5のいずれか一項に記載の方法を実行するコンピュータ。
  8. 請求項1〜5のいずれか一項に記載の方法をコンピュータに実行させるプログラム。
JP2017161140A 2017-08-24 2017-08-24 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム Active JP6506360B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017161140A JP6506360B2 (ja) 2017-08-24 2017-08-24 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017161140A JP6506360B2 (ja) 2017-08-24 2017-08-24 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム

Publications (2)

Publication Number Publication Date
JP2019040335A true JP2019040335A (ja) 2019-03-14
JP6506360B2 JP6506360B2 (ja) 2019-04-24

Family

ID=65726569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017161140A Active JP6506360B2 (ja) 2017-08-24 2017-08-24 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム

Country Status (1)

Country Link
JP (1) JP6506360B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020255301A1 (ja) * 2019-06-19 2020-12-24
JP2021012494A (ja) * 2019-07-05 2021-02-04 公立大学法人会津大学 ラベリングプログラム、ラベリング装置及びラベリング方法
WO2022157892A1 (ja) * 2021-01-21 2022-07-28 日本電信電話株式会社 画像選出装置、画像選出方法、及び、画像選出プログラム
JP7355295B2 (ja) 2021-04-20 2023-10-03 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データラベリング方法、装置、電子機器、及び読み取り可能な記憶媒体
US11989799B2 (en) 2020-01-10 2024-05-21 Nec Corporation Visualized image display device
JP7492541B2 (ja) 2019-06-18 2024-05-29 モロコ,インコーポレイテッド 機械学習サービスを提供するための方法及びシステム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141498A (ja) * 2001-10-30 2003-05-16 Nippon Telegr & Teleph Corp <Ntt> 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体
JP2012150586A (ja) * 2011-01-18 2012-08-09 Toshiba Corp 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム
JP2015087903A (ja) * 2013-10-30 2015-05-07 ソニー株式会社 情報処理装置及び情報処理方法
JP2015129988A (ja) * 2014-01-06 2015-07-16 日本電気株式会社 データ処理装置
JP2017049681A (ja) * 2015-08-31 2017-03-09 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141498A (ja) * 2001-10-30 2003-05-16 Nippon Telegr & Teleph Corp <Ntt> 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体
JP2012150586A (ja) * 2011-01-18 2012-08-09 Toshiba Corp 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム
JP2015087903A (ja) * 2013-10-30 2015-05-07 ソニー株式会社 情報処理装置及び情報処理方法
JP2015129988A (ja) * 2014-01-06 2015-07-16 日本電気株式会社 データ処理装置
JP2017049681A (ja) * 2015-08-31 2017-03-09 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7492541B2 (ja) 2019-06-18 2024-05-29 モロコ,インコーポレイテッド 機械学習サービスを提供するための方法及びシステム
JPWO2020255301A1 (ja) * 2019-06-19 2020-12-24
WO2020255301A1 (ja) * 2019-06-19 2020-12-24 日本電信電話株式会社 学習データ生成装置、学習装置、学習データ生成方法、及び学習データ生成プログラム
JP7268731B2 (ja) 2019-06-19 2023-05-08 日本電信電話株式会社 学習データ生成装置、学習装置、学習データ生成方法、及び学習データ生成プログラム
JP2021012494A (ja) * 2019-07-05 2021-02-04 公立大学法人会津大学 ラベリングプログラム、ラベリング装置及びラベリング方法
JP7333496B2 (ja) 2019-07-05 2023-08-25 公立大学法人会津大学 ラベリングプログラム、ラベリング装置及びラベリング方法
US11989799B2 (en) 2020-01-10 2024-05-21 Nec Corporation Visualized image display device
WO2022157892A1 (ja) * 2021-01-21 2022-07-28 日本電信電話株式会社 画像選出装置、画像選出方法、及び、画像選出プログラム
JP7355295B2 (ja) 2021-04-20 2023-10-03 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データラベリング方法、装置、電子機器、及び読み取り可能な記憶媒体

Also Published As

Publication number Publication date
JP6506360B2 (ja) 2019-04-24

Similar Documents

Publication Publication Date Title
JP6506360B2 (ja) 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム
JP6182242B1 (ja) データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム
JP7177653B2 (ja) 敵対的ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善
JP6441980B2 (ja) 教師画像を生成する方法、コンピュータおよびプログラム
WO2021027256A1 (zh) 处理交互序列数据的方法及装置
EP3918472B1 (en) Techniques to detect fusible operators with machine learning
CN110276456A (zh) 一种机器学习模型辅助构建方法、系统、设备及介质
WO2018025706A1 (ja) テーブル意味推定システム、方法およびプログラム
US20190228302A1 (en) Learning method, learning device, and computer-readable recording medium
US20220414470A1 (en) Multi-Task Attention Based Recurrent Neural Networks for Efficient Representation Learning
JP2018206261A (ja) 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
JP2015036939A (ja) 特徴抽出プログラム及び情報処理装置
US20190205361A1 (en) Table-meaning estimating system, method, and program
CN114600196A (zh) 特定领域的人类模型协同注释工具
US20210304031A1 (en) Learning device and non-transitory computer readable medium
JP2019028484A (ja) 属性識別装置、属性識別モデル学習装置、方法、及びプログラム
EP4064038B1 (en) Automated generation and integration of an optimized regular expression
WO2021255778A1 (ja) 学習データ選択方法、学習データ選択装置、及び学習データ選択プログラム
JP2019106099A (ja) 提供プログラム、提供装置、および提供方法
JP7063397B2 (ja) 回答統合装置、回答統合方法および回答統合プログラム
JP2013156691A (ja) 購買予測装置、方法、及びプログラム
Fabian et al. Estimating the execution time of the coupled stage in multiscale numerical simulations
JPWO2011016281A1 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム
CN112183714A (zh) 基于人工神经网络的自动化数据切片

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190328

R150 Certificate of patent or registration of utility model

Ref document number: 6506360

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250