JP2019204392A - 学習用データ判別装置および学習用データ判別プログラム - Google Patents

学習用データ判別装置および学習用データ判別プログラム Download PDF

Info

Publication number
JP2019204392A
JP2019204392A JP2018100274A JP2018100274A JP2019204392A JP 2019204392 A JP2019204392 A JP 2019204392A JP 2018100274 A JP2018100274 A JP 2018100274A JP 2018100274 A JP2018100274 A JP 2018100274A JP 2019204392 A JP2019204392 A JP 2019204392A
Authority
JP
Japan
Prior art keywords
data set
learning
data
algorithm
storage format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018100274A
Other languages
English (en)
Other versions
JP7037180B2 (ja
Inventor
清水 亮
Akira Shimizu
亮 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ghelia Inc
Original Assignee
Ghelia Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ghelia Inc filed Critical Ghelia Inc
Priority to JP2018100274A priority Critical patent/JP7037180B2/ja
Publication of JP2019204392A publication Critical patent/JP2019204392A/ja
Application granted granted Critical
Publication of JP7037180B2 publication Critical patent/JP7037180B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】各種アルゴリズムの機械学習に習熟した開発者でなくても、データセットがどの学習アルゴリズムに適しているのかの判別を適切に行うことができるようにする。【解決手段】学習用に提供されたデータセットの保存形式としてフォルダの有無を判定する保存形式判定部22と、その判定の結果に応じて、データセットが適している学習のアルゴリズムを提示するアルゴリズム提示部24とを備え、学習用に提供されたデータセットがフォルダに保存されているか否かに応じて、そのデータセットが適している学習アルゴリズムを提示することにより、収集したデータセットをどのアルゴリズムの学習に使用することができるのかを開発者が手動で判別する必要をなくす。【選択図】図1

Description

本発明は、学習用データ判別装置および学習用データ判別プログラムに関し、特に、学習用として用意したデータセットがどの学習アルゴリズムに適しているかを判別する技術に関するものである。
近年、人工知能(AI)の一分野である機械学習への期待が高まっている。機械学習は、多数のデータからモデルを作成する処理のことをいい、学習に使用するデータの性質によって教師あり学習と教師なし学習とに大別される。教師あり学習と教師なし学習との中間的な学習法として、半教師あり学習や強化学習なども存在する。
機械学習は、様々な製品やサービスへの応用が急速に進められており、用途に応じて適切なアルゴリズムが適用されている。例えば、特許文献1には、学習アルゴリズムを複数種類用意した学習アルゴリズム群を設け、実際の学習に用いるアルゴリズムを、解決する問題に合わせて選択することが開示されている。
いずれの学習アルゴリズムを用いるにしても、モデルを構築するための学習に使用するデータの収集が必要である。そして、用途に応じて適切な学習アルゴリズムがあるのと同様に、学習アルゴリズムに応じてそのモデルを構築するのに適切なデータがある。従来は、収集したデータセットをどのアルゴリズムの学習に使用することができるのかを開発者が手動で判別していた。このため、各種アルゴリズムの機械学習に習熟した開発者でなければ、データセットを学習に適切に使うことができないという問題があった。
特開平5−298277号公報
本発明は、このような問題を解決するために成されたものであり、各種アルゴリズムの機械学習に習熟した開発者でなくても、データセットがどの学習アルゴリズムに適しているのかの判別を適切に行うことができるようにすることを目的とする。
上記した課題を解決するために、本発明では、学習用に提供されたデータセットの保存形式としてフォルダの有無を判定し、その判定の結果に応じて、データセットが適している学習アルゴリズムを提示するようにしている。
上記のように構成した本発明によれば、学習用に提供されたデータセットがフォルダに保存されているか否かに応じて、そのデータセットが適している学習アルゴリズムが提示されるので、収集したデータセットをどのアルゴリズムの学習に使用することができるのかを開発者が手動で判別する必要がなくなる。これにより、各種アルゴリズムの機械学習に習熟した開発者でなくても、データセットがどの学習アルゴリズムに適しているのかの判別を適切に行うことができるようになる。
本実施形態による学習用データ判別装置を適用した通信システムの構成例を示す図である。 本実施形態による学習用データ判別装置の機能構成例を示すブロック図である。
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態による学習用データ判別装置を適用した通信システムの構成例を示す図である。図1に示すように、本実施形態の通信システムは、ユーザ端末10およびサーバ装置20を備え、両者がインターネットや携帯電話網などの通信ネットワーク30を介して接続可能に構成されている。
サーバ装置20は、本実施形態の学習用データ判別装置に相当するものであり、ユーザ端末10から送信されるデータセットがどの学習アルゴリズムに適しているのかを判別する。例えば、ユーザがユーザ端末10を操作して、複数のデータから成るデータセットをまとめて圧縮ファイルに格納し、当該圧縮ファイルをサーバ装置20にアップロードする。サーバ装置20は、ユーザ端末10から送信された圧縮ファイルを解凍し、提供されたデータセットがどの学習アルゴリズムに適しているのかを判別する。
図2は、サーバ装置20に実装された本実施形態による学習用データ判別装置の機能構成例を示すブロック図である。図2に示すように、本実施形態の学習用データ判別装置は、その機能構成として、データセット取得部21、保存形式判定部22、データサイズ判定部23およびアルゴリズム提示部24を備えている。また、本実施形態の学習用データ判別装置は、記憶媒体として、対応テーブル記憶部25を備えている。
上記各機能ブロック21〜24は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック21〜24は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
データセット取得部21は、ユーザ端末10から学習用に提供されたデータセットを取得する。上述のように、データセットが圧縮ファイルとして送られてくる場合、データセット取得部21は、その圧縮ファイルを解凍してデータセットを取り出す。なお、本実施形態では、データセット取得部21が取得するデータセットは、複数の画像データの集合であるものとする。
保存形式判定部22は、データセット取得部21により取得されたデータセットの保存形式として、フォルダの有無を判定する。すなわち、ユーザがデータセットをユーザ端末10からサーバ装置20にアップロードする際に、複数のデータをフォルダに入れずに送信した場合、保存形式判定部22は、データセット取得部21により取得されたデータセットの保存形式を「フォルダなし」と判定する。一方、ユーザがデータセットをユーザ端末10からサーバ装置20にアップロードする際に、複数のデータを1つまたは複数のフォルダに入れて送信した場合、保存形式判定部22は、データセット取得部21により取得されたデータセットの保存形式を「フォルダあり」と判定する。
データサイズ判定部23は、保存形式判定部22によりデータセットの保存形式が「フォルダあり」と判定された場合に、データセットを構成している複数の画像データの縦横比が2:1または1:2で統一されているか否かを判定する。ここでいう画像データの縦横比とは、矩形形状をした画像の縦方向のサイズと横方向のサイズとの比率をいう。
アルゴリズム提示部24は、保存形式判定部22およびデータサイズ判定部23による判定の結果に応じて、データセットが適している学習アルゴリズムを判別して提示する。この判別の際に、アルゴリズム提示部24は、対応テーブル記憶部25を参照する。対応テーブル記憶部25は、フォルダの有無および画像データの縦横比から成る各判定要素と、当該各判定要素の内容に応じて適している学習アルゴリズムとの対応関係を示したテーブル情報を記憶している。
アルゴリズム提示部24は、このテーブル情報を用いて判別した好適な学習アルゴリズムを、例えばユーザ端末10に送信してユーザに提示する。その提示方法としては、例えば、学習アルゴリズムの名称をテキスト情報としてユーザ端末10の画面に表示するといった方法が考えられる。提示方法の別の例として、次のようにしてもよい。すなわち、アルゴリズム提示部24は、判別した好適な学習アルゴリズムを示す情報をサーバ装置20に保存し、ユーザ端末10からサーバ装置20に対するアクセスを通じて情報の提供要求が行われたときに、所定の提示画面を通じて学習アルゴリズムの情報をユーザ端末10に提供する。
以下に、アルゴリズム提示部24による具体的な処理内容を説明する。アルゴリズム提示部24は、保存形式判定部22によりデータセットの保存形式が「フォルダなし」と判定された場合、当該データセットが適している学習アルゴリズムとして、少なくとも教師なし学習を提示する。
一方、アルゴリズム提示部24は、保存形式判定部22によりデータセットの保存形式が「フォルダあり」と判定された場合、当該データセットが適している学習アルゴリズムとして、少なくとも教師あり学習を提示する。アルゴリズム提示部24は、教師あり学習の具体例として、画像分類、GANの少なくとも1つを提示するようにしてもよい。
ユーザがデータセットをフォルダに入れる場合、そのフォルダには必ずフォルダ名が付けられる。通常、フォルダ名は、その中に入れられるデータセットに共通する概念を表す名称とされる。この場合、フォルダ名を画像分類の教師データとして用いることができる可能性がある。よって、アルゴリズム提示部24は、保存形式判定部22によりデータセットの保存形式が「フォルダあり」と判定された場合、フォルダありのデータセットが適している学習アルゴリズムの1つとして、画像分類を提示する。
また、ユーザがデータセットをフォルダに入れる場合、同じフォルダに入れる画像データは何れも同じ概念の画像を示したものとする可能性がある。この場合、同じフォルダに入っている画像データをGANの正解データとして用いることができる可能性がある。例えば、データセットが複数のフォルダに分けられている場合は、その中の何れかのフォルダを特定してGANの学習を行うことが可能である。よって、アルゴリズム提示部24は、保存形式判定部22によりデータセットの保存形式が「フォルダあり」と判定された場合、フォルダありのデータセットが適している学習アルゴリズムの1つとして、GANを提示する。
なお、ここでは、フォルダありのデータセットが適している教師あり学習の具体例として、画像分類、GANの少なくとも1つを提示する例について説明したが、これ以外の教師あり学習のアルゴリズムを提示するようにしてもよい。例えば、データセット取得部21により取得されたデータセットが複数のフォルダに分けて格納されていた場合、GANのバリエーションであるCycleGANやDiscoGANを提示するようにしてもよい。
この場合は、複数のフォルダのうち何れか2つのフォルダを選択して学習を行うことが可能である。すなわち、複数のフォルダのうち何れか2つのフォルダを選択し、一方のフォルダに格納された画像データと他方のフォルダに格納された画像データとの間でスタイル変換を行うといったCycleGANの学習を行うことができる可能性がある。また、複数のフォルダのうち何れか2つのフォルダを選択し、一方のフォルダに格納された画像データと他方のフォルダに格納された画像データとの間の関係(属性)を把握するといったDiscoGANの学習を行うことができる可能性がある。
また、アルゴリズム提示部24は、保存形式判定部22によりデータセットの保存形式が「フォルダあり」と判定され、かつ、データサイズ判定部23により複数の画像データの縦横比が2:1または1:2で統一されていると判定された場合、当該データセットが適している学習のアルゴリズムとして、pix2pixを更に提示するようにしてもよい。
pix2pixの学習アルゴリズムは、2つの画像間に潜む画像変換をDNN(ディープニューラルネットワーク)で表現しようとするものである。フォルダに格納されている複数の画像データの縦横比が2:1または1:2で統一されている場合は、1つの画像データの中に、縦横比が1:1である2つの画像が上下または左右に並べて記録されている可能性があると推定することができる。よって、この場合は、並べて記録されている2つの画像を用いてpix2pixの学習を行うことができる可能性があり、アルゴリズム提示部24は、データセットが適している学習のアルゴリズムの1つとしてpix2pixを提示する。
以上のようなフォルダありのデータセットに対し、フォルダなしのデータセットの場合は、それらが共通の概念を持った画像データであるとは限らない。教師データとすべきフォルダ名が存在するわけでもない。よって、アルゴリズム提示部24は、保存形式判定部22によりデータセットの保存形式が「フォルダなし」と判定された場合、当該データセットが適している学習のアルゴリズムとして、基本的には教師なし学習を提示する。
ただし、アルゴリズム提示部24は、フォルダなしのデータセットが適している学習アルゴリズムとして、pix2pixを更に提示するようにしてもよい。1つの画像データの中に2つの画像が並べて記録されている可能性もあるからである。なお、フォルダなしのデータセットについても、それらの画像データの縦横比が2:1または1:2で統一されているか否かをデータサイズ判定部23により判定し、統一されていると判定された場合に、当該データセットが適している学習アルゴリズムとしてpix2pixを提示するようにしてもよい。
以上詳しく説明したように、本実施形態では、学習用に提供されたデータセットの保存形式としてフォルダの有無を判定し、その判定の結果に応じて、データセットが適している学習アルゴリズムを提示するようにしている。また、本実施形態では、データセットの保存形式に加え、複数の画像データのデータサイズも判定し、縦横比が2:1または1:2で統一されているか否かに応じて、データセットが適している学習アルゴリズムを提示するようにしている。
このように構成した本実施形態によれば、学習用に提供されたデータセットがフォルダに保存されているか否かとか、複数の画像データの縦横比が2:1または1:2で統一されているか否かなどに応じて、そのデータセットが適している学習アルゴリズムが提示されるので、ユーザが収集したデータセットをどのアルゴリズムの学習に使用することができるのかをユーザが手動で判別する必要がなくなる。これにより、各種アルゴリズムの機械学習に習熟した開発者でなくても、データセットがどの学習アルゴリズムに適しているのかの判別を適切に行うことができるようになる。
なお、上記実施形態では、ユーザ端末10とサーバ装置20とを通信ネットワーク30で接続したシステム構成において、サーバ装置20に本実施形態の学習用データ判別装置を実装し、サーバ装置20がユーザ端末10からデータセットを取得する例について説明したが、本発明はこれに限定されない。例えば、ユーザ端末10に本実施形態の学習用データ判別装置を実装し、ユーザ端末10が外部のサーバ装置やリムーバル記憶媒体などからデータセットを取得するようにしてもよい。
また、上記実施形態において示したデータサイズ判定部23は、本発明において必須の構成ではなく、これを省略してもよい。
また、上記実施形態では、データセットの一例として画像データを用いる例について説明したが、本発明はこれに限定されない。例えば、音声データやテキストデータ、あるいはその他の形式のデータを用いる場合にも本実施形態を適用することが可能である。
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
10 ユーザ端末
20 サーバ装置(学習用データ判別装置)
21 データセット取得部
22 保存形式判定部
23 データサイズ判定部
24 アルゴリズム提示部
25 対応テーブル記憶部

Claims (7)

  1. 学習用に提供されたデータセットを取得するデータセット取得部と、
    上記データセット取得部により取得されたデータセットの保存形式として、フォルダの有無を判定する保存形式判定部と、
    上記保存形式判定部による判定の結果に応じて、上記データセットが適している学習アルゴリズムを提示するアルゴリズム提示部とを備えたことを特徴とする学習用データ判別装置。
  2. 上記データセットは複数の画像データの集合であり、
    上記アルゴリズム提示部は、上記保存形式判定部により上記データセットの保存形式がフォルダなしと判定された場合、当該データセットが適している学習アルゴリズムとして少なくとも教師なし学習を提示し、上記保存形式判定部により上記データセットの保存形式がフォルダありと判定された場合、当該データセットが適している学習アルゴリズムとして少なくとも教師あり学習を提示することを特徴とする請求項1に記載の学習用データ判別装置。
  3. 上記アルゴリズム提示部は、上記保存形式判定部により上記データセットの保存形式がフォルダなしと判定された場合、当該データセットが適している学習アルゴリズムとしてpix2pixを更に提示することを特徴とする請求項2に記載の学習用データ判別装置。
  4. 上記アルゴリズム提示部は、上記保存形式判定部により上記データセットの保存形式がフォルダありと判定された場合、当該データセットが適している学習アルゴリズムとして、画像分類、GANの少なくとも1つを提示することを特徴とする請求項2または3に記載の学習用データ判別装置。
  5. 上記アルゴリズム提示部は、上記保存形式判定部により上記データセットの保存形式がフォルダありと判定され、かつ、上記データセットが複数のフォルダに分けて格納されていると判定され場合、当該データセットが適している学習アルゴリズムとして、CycleGAN、DiscoGANの少なくとも1つを提示することを特徴とする請求項2〜4の何れか1項に記載の学習用データ判別装置。
  6. 上記データセットを構成している複数の画像データの縦横比が2:1または1:2で統一されているか否かを判定するデータサイズ判定部を更に備え、
    上記アルゴリズム提示部は、上記データサイズ判定部により上記複数の画像データの縦横比が2:1または1:2で統一されていると判定された場合、当該データセットが適している学習アルゴリズムとして、pix2pixを更に提示することを特徴とする請求項2〜5の何れか1項に記載の学習用データ判別装置。
  7. 学習用に提供されたデータセットを取得するデータセット取得手段、
    上記データセット取得手段により取得されたデータセットの保存形式として、フォルダの有無を判定する保存形式判定手段、および
    上記保存形式判定手段による判定の結果に応じて、上記データセットが適している学習アルゴリズムを提示するアルゴリズム提示手段
    としてコンピュータを機能させるための学習用データ判別プログラム。
JP2018100274A 2018-05-25 2018-05-25 学習用データ判別装置および学習用データ判別プログラム Active JP7037180B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018100274A JP7037180B2 (ja) 2018-05-25 2018-05-25 学習用データ判別装置および学習用データ判別プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018100274A JP7037180B2 (ja) 2018-05-25 2018-05-25 学習用データ判別装置および学習用データ判別プログラム

Publications (2)

Publication Number Publication Date
JP2019204392A true JP2019204392A (ja) 2019-11-28
JP7037180B2 JP7037180B2 (ja) 2022-03-16

Family

ID=68727079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018100274A Active JP7037180B2 (ja) 2018-05-25 2018-05-25 学習用データ判別装置および学習用データ判別プログラム

Country Status (1)

Country Link
JP (1) JP7037180B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021186668A1 (ja) * 2020-03-19 2021-09-23
JP2021177266A (ja) * 2020-04-17 2021-11-11 株式会社鈴康 プログラム、情報処理装置、情報処理方法及び学習モデルの生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011141678A (ja) * 2010-01-06 2011-07-21 Sumitomo Electric Ind Ltd 情報処理装置、コンピュータプログラム及び情報処理方法
JP2016071412A (ja) * 2014-09-26 2016-05-09 キヤノン株式会社 画像分類装置、画像分類システム、画像分類方法、及びプログラム
US20170286839A1 (en) * 2016-04-05 2017-10-05 BigML, Inc. Selection of machine learning algorithms

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011141678A (ja) * 2010-01-06 2011-07-21 Sumitomo Electric Ind Ltd 情報処理装置、コンピュータプログラム及び情報処理方法
JP2016071412A (ja) * 2014-09-26 2016-05-09 キヤノン株式会社 画像分類装置、画像分類システム、画像分類方法、及びプログラム
US20170286839A1 (en) * 2016-04-05 2017-10-05 BigML, Inc. Selection of machine learning algorithms

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021186668A1 (ja) * 2020-03-19 2021-09-23
WO2021186668A1 (ja) * 2020-03-19 2021-09-23 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、情報処理方法およびプログラム
JP7277668B2 (ja) 2020-03-19 2023-05-19 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、情報処理方法およびプログラム
JP2021177266A (ja) * 2020-04-17 2021-11-11 株式会社鈴康 プログラム、情報処理装置、情報処理方法及び学習モデルの生成方法

Also Published As

Publication number Publication date
JP7037180B2 (ja) 2022-03-16

Similar Documents

Publication Publication Date Title
US11087222B2 (en) Providing intelligent storage location suggestions
JP2009163496A (ja) コンテンツ再生装置
WO2008013889A2 (en) Method and system for portable data aggregation
US10157190B2 (en) Image action based on automatic feature extraction
CN104834645B (zh) 用于展示版式文档的方法和装置
US9081801B2 (en) Metadata supersets for matching images
JP7037180B2 (ja) 学習用データ判別装置および学習用データ判別プログラム
US20220261527A1 (en) Information processing apparatus and non-transitory computer readable medium
US8719690B2 (en) Method and system for automatic data aggregation
JP5962449B2 (ja) 判定プログラム、判定方法及び判定装置
JP4770895B2 (ja) アドレス帳集約管理装置、同装置におけるアドレス帳作成方法及びアドレス帳作成プログラム
CN103530313A (zh) 应用信息的搜索方法及装置
JP2016085534A (ja) 画像処理装置、画像処理装置の制御方法およびプログラム
AU2014202622B2 (en) Information processing apparatus and program
CN104331342B (zh) 文件路径匹配的方法及其装置
US20170046350A1 (en) Media organization
WO2019119826A1 (zh) 图像处理方法及装置
CN110321882A (zh) 一种学习资源获取方法、装置、学习终端和存储介质
US9779263B2 (en) Access right estimation apparatus and non-transitory computer readable medium
JP2013152543A (ja) 画像蓄積プログラム、方法および装置
US9959249B2 (en) Information processing apparatus, document processing apparatus, information processing system, information processing method, and document processing method
US9552044B2 (en) Information processing apparatus, information processing system, information processing method, and non-transitory computer readable medium
JP5353427B2 (ja) 画像処理装置、プログラム及び画像処理システム
TWI813338B (zh) 影像處理系統以及處理影像的方法
US20190089670A1 (en) Information processing apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220225

R150 Certificate of patent or registration of utility model

Ref document number: 7037180

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150