JP6622369B1 - 訓練データを生成する方法、コンピュータおよびプログラム - Google Patents
訓練データを生成する方法、コンピュータおよびプログラム Download PDFInfo
- Publication number
- JP6622369B1 JP6622369B1 JP2018184242A JP2018184242A JP6622369B1 JP 6622369 B1 JP6622369 B1 JP 6622369B1 JP 2018184242 A JP2018184242 A JP 2018184242A JP 2018184242 A JP2018184242 A JP 2018184242A JP 6622369 B1 JP6622369 B1 JP 6622369B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- computer
- training data
- conversion
- learned model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
コンピュータが、訓練データを用いて機械学習を行うことにより、第1学習済みモデルを生成するステップと、
コンピュータが、前記第1学習済みモデルを用いて、少なくとも1つの検証データについて出力値を取得するステップと、
前記第1学習済みモデルによる出力値が不適切であった検証データのうちから、コンピュータが、少なくとも1つの基準データを選択するステップと、
コンピュータが、前記基準データに対して複数の異なる変換を施すことにより、複数の異なる変換済データを生成するステップと、
コンピュータが、前記第1学習済みモデルを用いて、各前記変換済データについて出力値を取得するステップと、
コンピュータが、前記変換済データのうち出力値が適切であったものに施されていた前記変換の逆変換を、少なくとも1つの訓練データに対して施すことにより、少なくとも1つの新たな訓練データを生成するステップと、
を備える。
また、この発明に係る方法は、機械学習に用いられる学習データに含まれる訓練データを生成する方法であって、
コンピュータが、訓練データを用いて機械学習を行うことにより、第1学習済みモデルを生成するステップと、
コンピュータが、前記第1学習済みモデルを用いて、少なくとも1つの検証データについて出力値を取得するステップと、
前記第1学習済みモデルによる出力値が適切であった検証データのうちから、コンピュータが、少なくとも1つの基準データを選択するステップと、
コンピュータが、前記基準データに対して複数の異なる変換を施すことにより、複数の異なる変換済データを生成するステップと、
コンピュータが、前記第1学習済みモデルを用いて、各前記変換済データについて出力値を取得するステップと、
コンピュータが、前記変換済データのうち出力値が不適切であったものに施されていた前記変換を、少なくとも1つの訓練データに対して施すことにより、少なくとも1つの新たな訓練データを生成するステップと、
を備える。
特定の態様によれば、前記学習データに含まれる訓練データおよび検証データは2次元画像データであり、前記変換は、幾何学的線形変換または色値の変換、ニューラルネットで抽出した特徴量の追加や削除、ニューラルネットで抽出した特徴量の強調や弱める変換を含む。
特定の態様によれば、前記学習データに含まれる訓練データおよび検証データは音声データであり、前記変換は、音の高さの変更、音声の再生スピードの変更、雑音の付加、雑音の除去、ローパスフィルタの適用、またはハイパスフィルタの適用、ニューラルネットで抽出した特徴量の追加や削除、ニューラルネットで抽出した特徴量の強調や弱める変換を含む。
また、この発明に係るコンピュータは、上述の方法を実行する。
また、この発明に係るプログラムは、コンピュータに上述の方法を実行させる。
実施の形態1.
図1に、本発明の実施の形態1に係るデータ生成装置10の構成の例を示す。データ生成装置10は、機械学習に用いられる学習データを生成する装置(コンピュータ)として機能する。
図4に、基準データに対する変換の例を示す。検証データD1に対してコントラストを強調する変換を施すことにより、変換済データT1が生成される。同様に、検証データD1に対して縦方向に圧縮する変換を施すことにより、変換済データT2が生成され、検証データD1に対してコントラストを強調する変換および縦方向への圧縮に圧縮する変換を施すことにより、変換済データT3が生成される。
ステップS2で検証データD2、D3のように正しく分類されていた検証データが、ステップS5で正しく分類されなくなる場合はその検証データ数をカウントしてもよい。この検証データ数が一定値より多い場合は、ステップS6で変換の逆変換を施すことにより訓練データを増やしても、第1学習済みモデルM1の認識率が良くならない可能性がある。そこで、ステップS5で正しく分類されるようになった検証データ数と、ステップS5で正しく分類されなくなった検証データ数を比較して、ステップS5で正しく分類されるようになる検証データ数の差が大きい変換や、ステップS5で正しく分類されなくなる検証データがほとんど発生しない変換を優先して選択してもよい。
さらに、D1が正しく分類されるようになるほど大きな変化がない場合でも、正しいクラスである確率と正しくないクラスである確率が得られるので、それを比較するとD1の正しいクラスである確率が向上し、正しくないクラスである確率が低下する変換に着目し、逆に、D2、D3のように正しく分類されていた検証データについて、正しいクラスである確率が減少しないか減少が少ない変換を候補として選択してもよい。
実施の形態2は、実施の形態1で説明した、基準データの選択方法および新たな訓練データの生成方法を変更するものである。以下、実施の形態1との相違点を説明する。
選択の基準は適宜設計可能であり、たとえば正しく分類された検証データのうちからランダムに選択するようにしてもよいし、正しく分類された検証データをすべて基準データとして選択するようにしてもよい。
図8に、基準データに対する変換の例を示す。検証データD5に対してコントラストを緩和する変換を施すことにより、変換済データT4が生成される。同様に、検証データD5に対して縦方向に伸長する変換を施すことにより、変換済データT5が生成され、検証データD5に対して左右反転する変換を施すことにより、変換済データT6が生成される。
ステップS12で検証データD4、D6のように正しく分類されていなかった検証データが、ステップS15で正しく分類される場合はその検証データ数をカウントしてもよい。この検証データ数が一定値より多い場合は、ステップS16で変換を施すことにより訓練データを増やしても、第1学習済みモデルM1の認識率が良くならない可能性がある。そこで、ステップS12で正しく分類されなかった検証データ数と、ステップS15で正しく分類された検証データ数を比較して、ステップS15で正しく分類されなくなる検証データ数の差が大きい変換や、ステップS15で正しく分類されるようになる検証データがほとんど発生しない変換が有力と考えられる。
さらに、D5が正しく分類されなくなるほど大きな変化がない場合でも、正しいクラスである確率と正しくないクラスである確率が得られるので、それを比較するとD5の正しくないクラスである確率が向上し、正しいクラスである確率が低下する変換に着目し、逆に、D4、D6のように正しく分類されていなかった検証データについて、正しくないクラスである確率が減少しないか減少が少ない変換を候補として選択してもよい。
実施の形態1および2において、以下のような変形を施すことができる。
ステップS1、S7、S11およびS17は、データ生成装置10以外のコンピュータが実行してもよい。また、ステップS7を実行せず、他の用途に新たな訓練データN2〜N6を用いてもよい。
またデータ変換は、ニューラルネットで抽出した特徴量の追加や削除、ニューラルネットで抽出した特徴量の強調や弱める変換等を含んでもよい。
Claims (6)
- 機械学習に用いられる学習データに含まれる訓練データを生成する方法であって、
コンピュータが、訓練データを用いて機械学習を行うことにより、第1学習済みモデルを生成するステップと、
コンピュータが、前記第1学習済みモデルを用いて、少なくとも1つの検証データについて出力値を取得するステップと、
前記第1学習済みモデルによる出力値が不適切であった検証データのうちから、コンピュータが、少なくとも1つの基準データを選択するステップと、
コンピュータが、前記基準データに対して複数の異なる変換を施すことにより、複数の異なる変換済データを生成するステップと、
コンピュータが、前記第1学習済みモデルを用いて、各前記変換済データについて出力値を取得するステップと、
コンピュータが、前記変換済データのうち出力値が適切であったものに施されていた前記変換の逆変換を、少なくとも1つの訓練データに対して施すことにより、少なくとも1つの新たな訓練データを生成するステップと、
を備える、方法。 - 機械学習に用いられる学習データに含まれる訓練データを生成する方法であって、
コンピュータが、訓練データを用いて機械学習を行うことにより、第1学習済みモデルを生成するステップと、
コンピュータが、前記第1学習済みモデルを用いて、少なくとも1つの検証データについて出力値を取得するステップと、
前記第1学習済みモデルによる出力値が適切であった検証データのうちから、コンピュータが、少なくとも1つの基準データを選択するステップと、
コンピュータが、前記基準データに対して複数の異なる変換を施すことにより、複数の異なる変換済データを生成するステップと、
コンピュータが、前記第1学習済みモデルを用いて、各前記変換済データについて出力値を取得するステップと、
コンピュータが、前記変換済データのうち出力値が不適切であったものに施されていた前記変換を、少なくとも1つの訓練データに対して施すことにより、少なくとも1つの新たな訓練データを生成するステップと、
を備える、方法。 - 前記学習データに含まれる訓練データおよび検証データは2次元画像データであり、前記変換は、幾何学的線形変換、色値の変換、ニューラルネットで抽出した特徴量の追加や削除または、ニューラルネットで抽出した特徴量の強調や弱める変換を含む、請求項1または2に記載の方法。
- 前記学習データに含まれる訓練データおよび検証データは音声データであり、前記変換は、音の高さの変更、音声の再生スピードの変更、雑音の付加、雑音の除去、ローパスフィルタの適用、ハイパスフィルタの適用、ニューラルネットで抽出した特徴量の追加や削除または、ニューラルネットで抽出した特徴量の強調や弱める変換を含む、請求項1または2に記載の方法。
- 請求項1〜4のいずれか一項に記載の方法を実行するコンピュータ。
- コンピュータに請求項1〜4のいずれか一項に記載の方法を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018184242A JP6622369B1 (ja) | 2018-09-28 | 2018-09-28 | 訓練データを生成する方法、コンピュータおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018184242A JP6622369B1 (ja) | 2018-09-28 | 2018-09-28 | 訓練データを生成する方法、コンピュータおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6622369B1 true JP6622369B1 (ja) | 2019-12-18 |
JP2020052936A JP2020052936A (ja) | 2020-04-02 |
Family
ID=68917280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018184242A Active JP6622369B1 (ja) | 2018-09-28 | 2018-09-28 | 訓練データを生成する方法、コンピュータおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6622369B1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220120052A (ko) * | 2021-02-22 | 2022-08-30 | 삼성전자주식회사 | 데이터를 생성하는 전자 장치 및 그 동작 방법 |
JP2023030456A (ja) * | 2021-08-23 | 2023-03-08 | 富士通株式会社 | 機械学習プログラム、機械学習方法及び機械学習装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04295898A (ja) * | 1991-03-26 | 1992-10-20 | Sekisui Chem Co Ltd | 話者照合方式 |
JP4347226B2 (ja) * | 2004-05-20 | 2009-10-21 | 富士通株式会社 | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 |
JP2013125322A (ja) * | 2011-12-13 | 2013-06-24 | Olympus Corp | 学習装置、プログラム及び学習方法 |
JP6514503B2 (ja) * | 2014-12-25 | 2019-05-15 | クラリオン株式会社 | 意図推定装置、および意図推定システム |
JP6649124B2 (ja) * | 2015-05-25 | 2020-02-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機械翻訳方法、機械翻訳装置及びプログラム |
-
2018
- 2018-09-28 JP JP2018184242A patent/JP6622369B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020052936A (ja) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6441980B2 (ja) | 教師画像を生成する方法、コンピュータおよびプログラム | |
EP3483767B1 (en) | Device for detecting variant malicious code on basis of neural network learning, method therefor, and computer-readable recording medium in which program for executing same method is recorded | |
JP6182242B1 (ja) | データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム | |
JP6622369B1 (ja) | 訓練データを生成する方法、コンピュータおよびプログラム | |
CN111105375A (zh) | 图像生成方法及其模型训练方法、装置及电子设备 | |
WO2019196718A1 (zh) | 元素图像生成方法、装置及系统 | |
US9858293B2 (en) | Image processing apparatus and image processing method | |
JP2012043437A (ja) | 画像処理方法及び画像処理装置 | |
US11288534B2 (en) | Apparatus and method for image processing for machine learning | |
US20210042550A1 (en) | Information processing device, information processing method, and computer-readable recording medium recording information processing program | |
US11676050B2 (en) | Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees using leaf nodes | |
JP2022185799A (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
JP6831307B2 (ja) | 解算出装置、解算出方法及び解算出プログラム | |
CN112329715A (zh) | 一种人脸识别方法、装置、设备及存储介质 | |
JP5083162B2 (ja) | 画像データ判定装置、画像データ判定システム、及びプログラム | |
US20230385633A1 (en) | Training data generation device and method | |
WO2023067792A1 (ja) | 情報処理装置、情報処理方法、及び、記録媒体 | |
KR102321064B1 (ko) | 부호화된 네트워크 생성 장치 및 방법 | |
TWI748867B (zh) | 圖像瑕疵檢測方法、裝置、電子設備及存儲介質 | |
JP6611865B1 (ja) | 学習済みモデルを選定する方法、訓練データを生成する方法、学習済みモデルを生成する方法、コンピュータおよびプログラム | |
US20220245395A1 (en) | Computer-readable recording medium storing determination program, determination method, and determination device | |
US20220178814A1 (en) | Method for calculating a density of stem cells in a cell image, electronic device, and storage medium | |
CN111597373B (zh) | 基于卷积神经网络和连通图的图片归类方法及相关设备 | |
US20220375240A1 (en) | Method for detecting cells in images using autoencoder, computer device, and storage medium | |
WO2024103997A1 (zh) | 手写体识别方法、手写体识别模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180928 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6622369 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |