JP2023047354A

JP2023047354A - 学習データ生成システム、学習データ生成方法及び学習データ生成プログラム

Info

Publication number: JP2023047354A
Application number: JP2021147524A
Authority: JP
Inventors: 裕也根本; Yuya Nemoto; 裕規杉原; Yuki Sugihara
Original assignee: Mizuho Research and Technologies Ltd
Current assignee: Mizuho Research and Technologies Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2023-04-06
Anticipated expiration: 2041-09-10
Also published as: JP7248755B1

Abstract

【課題】可変長次元のデータから固定長次元のデータを効率的に生成するための学習データ生成システム、学習データ生成方法及び学習データ生成プログラムを提供する。【解決手段】支援サーバ２０は、学習データを生成する制御部２１を備える。制御部２１は、複数の可変長次元の第１学習データを取得し、前記第１学習データを集約した集約データを用いて、固定長次元の順序性を有する第２学習データを生成する。【選択図】図１

Description

本開示は、機械学習に用いる学習データを生成する学習データ生成システム、学習データ生成方法及び学習データ生成プログラムに関する。

機械学習のために、学習データ（教師データ）を用いることがある。この場合、入力層において、固定長データを利用するためには、処理対象のデータが所定長よりも長い場合には、所定長を超えたデータを削除することがある。

また、可変長の入力に対する固定長のベクトル表現を取得する技術も検討されている（例えば、非特許文献１参照）。一方、データを固定長として扱うために、処理対象のデータが所定データ量未満である場合、データの前後にデータを追加して長さを合わせるパディングを行なうことがある。

坪井祐太，"自然言語処理におけるディープラーニングの発展"，［online］，２０１５年４月号，オペレーションズ・リサーチ，６０巻，４号，ｐ．２０５－２１１［令和３年８月６日検索］，インターネット＜URL：http://www.orsj.or.jp/archive2/or60-4/or60_4_205.pdf＞

上述のように、機械学習において利用する学習データにおいては、固定長データが利用しやすい。しかし、可変長データから固定長データへの変換時に、元データの性質が変化したのでは、的確な情報処理を実現できなくなる。

上記課題を解決する学習データ生成システムは、学習データを生成する制御部を備える。そして、前記制御部が、複数の可変長次元の第１学習データを取得し、前記第１学習データを集約した集約データを用いて、固定長次元の順序性を有する第２学習データを生成する。

本開示によれば、可変長次元のデータから固定長次元のデータを効率的に生成することができる。

第１の実施形態の学習データ生成システムの説明図である。第１の実施形態のハードウェア構成の説明図である。第１の実施形態の処理手順の説明図である。第１の実施形態の処理手順の説明図である。第２の実施形態の処理手順の説明図である。第２の実施形態の処理手順の説明図である。第２の実施形態の処理手順の説明図である。第２の実施形態の処理手順の説明図である。第１変更例の処理手順の説明図である。第１変更例の処理手順の説明図である。第２変更例の処理手順の説明図である。第３変更例の処理手順の説明図である。

（第１の実施形態）
図１～図４に従って、学習データ生成システム、学習データ生成方法及び学習データ生成プログラムを具体化した第１の実施形態を説明する。本実施形態では、順序性がある可変長次元の配列データ（第１学習データ）から固定長次元の配列データ（第２学習データ）を生成する場合を想定する。この配列データは、複数の構成要素の並びで構成されており、各構成要素の順番には意味がある。
図１に示すように、本実施形態の学習データ生成システムは、ユーザ端末１０、支援サーバ２０を用いる。

（ハードウェア構成例）
図２は、ユーザ端末１０、支援サーバ２０等として機能する情報処理装置Ｈ１０のハードウェア構成例である。

情報処理装置Ｈ１０は、通信装置Ｈ１１、入力装置Ｈ１２、表示装置Ｈ１３、記憶装置Ｈ１４、プロセッサＨ１５を有する。なお、このハードウェア構成は一例であり、他のハードウェアを有していてもよい。

通信装置Ｈ１１は、他の装置との間で通信経路を確立して、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースや無線インタフェース等である。

入力装置Ｈ１２は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置Ｈ１３は、各種情報を表示するディスプレイやタッチパネル等である。

記憶装置Ｈ１４は、ユーザ端末１０、支援サーバ２０の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶装置Ｈ１４の一例としては、ＲＯＭ、ＲＡＭ、ハードディスク等がある。

プロセッサＨ１５は、記憶装置Ｈ１４に記憶されるプログラムやデータを用いて、ユーザ端末１０、支援サーバ２０における各処理（例えば、後述する制御部２１における処理）を制御する。プロセッサＨ１５の一例としては、例えばＣＰＵやＭＰＵ等がある。このプロセッサＨ１５は、ＲＯＭ等に記憶されるプログラムをＲＡＭに展開して、各種処理に対応する各種プロセスを実行する。例えば、プロセッサＨ１５は、ユーザ端末１０、支援サーバ２０のアプリケーションプログラムが起動された場合、後述する各処理を実行するプロセスを動作させる。

プロセッサＨ１５は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサＨ１５は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路（例えば、特定用途向け集積回路：ＡＳＩＣ）を備えてもよい。すなわち、プロセッサＨ１５は、以下で構成し得る。

（１）コンピュータプログラム（ソフトウェア）に従って動作する１つ以上のプロセッサ
（２）各種処理のうち少なくとも一部の処理を実行する１つ以上の専用のハードウェア回路、或いは
（３）それらの組み合わせ、を含む回路（circuitry）
プロセッサは、ＣＰＵ並びに、ＲＡＭ及びＲＯＭ等のメモリを含み、メモリは、処理をＣＰＵに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。

（各情報処理装置の機能）
図１を用いて、ユーザ端末１０、支援サーバ２０の機能を説明する。

ユーザ端末１０は、本システムを利用するユーザが用いるコンピュータ端末である。
支援サーバ２０は、可変長データを固定長データに変換するコンピュータシステムである。この支援サーバ２０は、制御部２１、可変長データ記憶部２２、固定長データ記憶部２３を備えている。

制御部２１は、後述する処理（取得段階、変換段階等を含む処理）を行なう。このための学習データ生成プログラムを実行することにより、制御部２１は、取得部２１０、変換部２１１等として機能する。

取得部２１０は、ユーザ端末１０から可変長の処理対象データを取得する処理を実行する。
変換部２１１は、可変長データに基づいて固定長データを生成する処理を実行する。本実施形態では、周期関数を用いて、可変長データを固定長データに変換する。

可変長データ記憶部２２には、ユーザ端末１０から取得した処理対象データ（第１学習データ）が記録される。
固定長データ記憶部２３には、可変長次元データを、所定のデータ長に変換した、順序性を有する固定長次元データ（第２学習データ）が記録される。

（変換処理）
次に、図３及び図４を用いて、変換処理を説明する。
まず、支援サーバ２０の制御部２１は、可変長次元ベクトルの取得処理を実行する（ステップＳ１１）。具体的には、制御部２１の取得部２１０は、ユーザ端末１０から、可変長次元ベクトル（第１学習データ）を取得する。ここでは、機械学習に用いる複数の可変長次元ベクトルを取得する。次に、取得部２１０は、取得した可変長次元ベクトルを可変長データ記憶部２２に記録する。

可変長データ記憶部２２に記録された可変長次元ベクトルを、順次、処理対象ベクトルとして特定して、以下の処理を繰り返す。
まず、支援サーバ２０の制御部２１は、周期関数で信号の合成処理を実行する（ステップＳ１２）。具体的には、制御部２１の変換部２１１は、取得した可変長次元ベクトルの構成要素を振幅とした周期関数を用いて合成信号（集約データ）を生成する。ここでは、周期関数として三角関数を用いる。

例えば、可変長次元ベクトルXin1＝(x10,x11,x12,x13…)を取得した場合、集約データとして、下記の関数f(t)を生成する。
f(t)=x10*cos(α0*t)+x11*sin(α0*t)+x12*cos(α1*t)+x13*sin(α1*t)+…
なお、周波数αi（i=1,2,…,N）は相互に異なる値であり、周波数分解能を考慮して決定する。
この場合、図４に示すように、時間ｔを変数とする信号３００が生成される。

次に、支援サーバ２０の制御部２１は、サンプリング処理を実行する（ステップＳ１３）。具体的には、制御部２１の変換部２１１は、関数f(t）において、所定のサンプリング周期でサンプリング数Ｎ個（固定数）のサンプルの抽出（サンプリング）を行なう。

サンプリング数Ｎは、周波数αiに応じて、周波数分解能を考慮して決定する。例えば、αi＝i/2のとき、標本化定理より、サンプリング間隔Δｔ、サンプリング数Ｎの下限は、αiの最大周波数αmaxやその逆数を用いて、以下のように決める。
Δt=π／αmax
Ｎ=２αmax
ここでは、図４に示すように、t0,t2,…t(N-1)の各タイミング３０１でサンプリングを行なう。この結果、値f(t0),f(t1),f(t2),…,f(t(N-1))を取得する。

次に、支援サーバ２０の制御部２１は、固定長次元ベクトルの生成処理を実行する（ステップＳ１４）。具体的には、制御部２１の変換部２１１は、Ｎ次元の固定長次元ベクトルを生成する。
Xout1＝(f(t0),f(t1),f(t2),…f(t(N-1)))
そして、変換部２１１は、変換した固定長次元ベクトル（第２学習データ）を、固定長データ記憶部２３に記録する。

以上の処理を、可変長データ記憶部２２に記録されたすべての可変長次元ベクトルについて繰り返す。
そして、可変長データ記憶部２２に記録された固定長次元ベクトルを教師データとして用いて、機械学習を行なう。

本実施形態によれば、以下のような効果を得ることができる。
（１－１）本実施形態においては、支援サーバ２０の制御部２１は、周期関数で信号の合成処理を実行する（ステップＳ１２）。これにより、可変長データの構成要素が多い場合も少ない場合も、一つの信号に組み込むことができる。そして、周期関数を用いるため、順番が早い構成要素も、順番が遅い構成要素も同等に信号に組み込むことができる。

（１－２）本実施形態においては、支援サーバ２０の制御部２１は、サンプリング数Ｎのサンプリング処理（ステップＳ１３）、固定長次元ベクトルの生成処理（ステップＳ１４）を実行する。これにより、構成要素数が異なる可変長データを、サンプリング数Ｎに応じたＮ次元の固定長次元ベクトルに変換することができる。教師データが一定の固定長となっているため、効率的に機械学習を行なうことができる。

（第２の実施形態）
図５～図８に従って、学習データ生成システム、学習データ生成方法及び学習データ生成プログラムを具体化した第２の実施形態を説明する。第１の実施形態では、順序性がある可変長次元の配列データから固定長次元の配列データを生成する場合を想定する。一方、第２の実施形態では、順序性がない可変長次元の集合データ（第１学習データ）から固定長次元の集合データ（第２学習データ）を生成する場合を想定する。この集合データ（データセット）は、複数の構成要素の組み合わせで構成されており、各構成要素の順番には意味がない。第２の実施形態の支援サーバ２０は、第１の実施形態の学習データの構成が異なっているが、同様の部分については、同一の符号を付し、詳細な説明を省略する。

（変換処理）
次に、図５～図８を用いて、変換処理を説明する。
まず、支援サーバ２０の制御部２１は、可変長次元のデータセットの取得処理を実行する（ステップＳ２１）。具体的には、制御部２１の取得部２１０は、ユーザ端末１０から、可変長次元のデータセットを取得する。ここでは、Ｍ次元ベクトルxi（第１次元数のベクトル）を任意の数だけ要素として持つ集合ＤＳ１＝{x11,x12,x13,…}を取得する。次に、取得部２１０は、取得した可変長次元のデータセットを可変長データ記憶部２２に記録する。

次に、支援サーバ２０の制御部２１は、離散化空間の生成処理を実行する（ステップＳ２２）。具体的には、制御部２１の変換部２１１は、Ｍ次元空間（第１次元数の空間）が離散化された離散化空間を作成する。

図６に示すように、Ｍ次元空間５００を、Ｎ個（固定数）に分割した離散化空間５０１を生成する。
ここで、次元数Ｍが大きい場合、変換部２１１は、次元削減を行なう。具体的には、可変長次元のデータセットの構成要素となり得る十分な数のＭ次元ベクトルxiを用いて、離散化空間を作成するＬ次元（第２次元数）に次元削減を行なう。この場合、データ全体の分散が大きくなるようなＬ次元空間（第２次元数の空間）を用いる。例えば、主成分分析により、データ全体の分散が大きくなるようなＬ次元空間を生成し、このＬ次元空間をＮ個に分割した離散化空間５０１を生成する。

そして、可変長データ記憶部２２に記録された可変長次元のデータセットを、順次、処理対象データセットとして特定して、以下の処理を繰り返す。
ここでは、支援サーバ２０の制御部２１は、離散化処理を実行する（ステップＳ２３）。具体的には、制御部２１の変換部２１１は、処理対象データセットの構成要素（x10,x11,x12,x13,…）を離散化空間にマッピングする。
具体的には、図７に示すように、離散化空間５０１に、処理対象データセットの各構成要素（Ｍ次元ベクトル）を配置する。

そして、変換部２１１は、構成要素の配置の有無に応じて離散化空間のラベリングを行なう。例えば、構成要素が配置された離散化空間をラベル「１」、構成要素が配置されていない離散化空間をラベル「０」のラベル付けを行なう。
具体的には、図８に示すように、各構成要素が配置されていない離散化空間５０１にはラベル「０」、各構成要素が配置された離散化空間５０２にラベル「１」を設定する。

次に、支援サーバ２０の制御部２１は、固定長次元のデータセットの生成処理を実行する（ステップＳ２４）。具体的には、制御部２１の変換部２１１は、各離散化空間のラベルを取得して、順序性を有するＮ次元の固定長次元データセットを生成する。

そして、変換部２１１は、変換した固定長次元データセットを、固定長データ記憶部２３に記録する。
以上の処理を、可変長データ記憶部２２に記録されたすべての可変長次元データセットについて繰り返す。

そして、可変長データ記憶部２２に記録された固定長次元データセット（第２学習データ）を教師データとして用いて、機械学習を行なう。

本実施形態によれば、以下のような効果を得ることができる。
（２－１）本実施形態においては、支援サーバ２０の制御部２１は、離散化空間の生成処理を実行する（ステップＳ２２）。これにより、可変長データを割り振るために次元を削減した空間を設定できる。この場合、変換部２１１は、次元削減を行なう。これにより、次元数Ｍが大きい場合、固定長配列として扱う際のデータサイズを抑えることができる。

（２－２）本実施形態においては、支援サーバ２０の制御部２１は、離散化処理（ステップＳ２３）、固定長次元ベクトルの生成処理（ステップＳ２４）を実行する。これにより、構成要素数が異なる可変長データを、Ｎ個に離散化された固定長次元データセットに変換することができる。

本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記第１の実施形態では、支援サーバ２０の制御部２１は、周期関数で信号の合成処理を実行する（ステップＳ１２）。ここでは、周期関数として三角関数を用いるが、周期関数は三角関数に限定されるものではない。

・上記第２の実施形態では、支援サーバ２０の制御部２１は、離散化空間の生成処理を実行する（ステップＳ２２）。この場合、変換部２１１は、次元削減を行なう。固定長の次元数Ｎが大きくない場合には、次元削減を省略してもよい。

・上記第２の実施形態では、支援サーバ２０の制御部２１は、離散化処理を実行する（ステップＳ２３）。ここでは、構成要素が配置された離散化空間を「１」、構成要素が配置されていない離散化空間を「０」のラベル付けを行なう。ここで、離散化空間に配置された構成要素の個数でラベル付けを行なってもよい。

例えば、図９に示すように、データセットＤＳ２１は、ボール画像と、５枚の人物画像を構成要素とする。ここで、構成要素の特徴量を、各Ｎ次元空間に配置した場合、ボール画像由来の構成要素６００と、人物画像由来の構成要素６０１が配置される。この場合、構成要素が配置されていない離散化空間６１１と構成要素が配置された離散化空間６１２とが生成される。

そして、離散化空間６１２において配置された構成要素数をカウントする。ここで、固定長次元データセット（０，０，１，５）は「フットサル」と認識できる。
一方、図１０に示すように、データセットＤＳ２２は、ボール画像と、１１枚の人物画像を構成要素とする。この場合にも、離散化空間６１２において配置された構成要素数をカウントして、固定長次元データセット（０，０，１，１１）は「サッカー」と認識できる。

このように、離散化された構造要素数に応じて、固定長の教師データを生成することができる。

・上記第２の実施形態では、支援サーバ２０の制御部２１は、離散化処理を実行する（ステップＳ２３）。ここで用いる構成要素は、集合を表せれば、多様な特徴量を用いることができる。
例えば、図１１は、各国の国旗を表している。画像７０１はギニア共和国、画像７０２はカメルーン共和国、画像７０３はセネガル共和国、画像７０４はマリ共和国野各国旗を表している。この場合、各画像を表現するために、座標情報も含めた集合データを用いることができる。例えば、（赤四角重心座標，黄四角重心座標,緑四角重心座標、黄星重心座標）のように、各形状の色の重心位置で集約した離散化空間で、各画像を表現することができる。

・上記第２の実施形態では、支援サーバ２０の制御部２１は、離散化空間の生成処理を実行する（ステップＳ２２）。ここで、Ｍ次元データxiをＬ次元に次元削減する場合、深層学習を用いて作成したエンコーダを用いてもよい。

図１２に示すように、入力層のＭ次元ベクトルxiをＬ次元に圧縮し、出力層のＭ次元ベクトルxi’に復元する。この場合、Ｍ次元ベクトルxiとＭ次元ベクトルxi’とが一致するように機械学習を行なって、エンコーダ８００を生成する。

そして、Ｎ次元空間８１０において、各構成要素を配置して、離散化データ８２０を生成する。

１０…ユーザ端末、２０…支援サーバ、２１…制御部、２１０…取得部、２１１…変換部、２２…可変長データ記憶部、２３…固定長データ記憶部。

Claims

学習データを生成する制御部を備えた学習データ生成システムであって、
前記制御部が、
複数の可変長次元の第１学習データを取得し、
前記第１学習データを集約した集約データを用いて、固定長次元の順序性を有する第２学習データを生成することを特徴とする学習データ生成システム。
前記第１学習データの複数の構成要素は順序性を有しており、
前記制御部が、
前記構成要素を振幅として、周波数が異なる周期関数で合成信号を生成し、
前記合成信号から、予め定められたサンプリング周期で、固定数のサンプルを抽出し、
前記抽出したサンプルにより、前記固定長次元の前記第２学習データを生成することを特徴とする請求項１に記載の学習データ生成システム。
前記サンプリング周期を、前記周期関数の最大周波数の逆数で定めることを特徴とする請求項２に記載の学習データ生成システム。
前記周期関数は三角関数であることを特徴とする請求項２又は３に記載の学習データ生成システム。
前記第１学習データの複数の構成要素は、第１次元数のベクトルで構成され、
前記制御部が、
前記第１次元数の空間を固定数の離散化空間で分割して、前記第１学習データを前記離散化空間にマッピングし、
前記各離散化空間における前記第１学習データの構成要素の有無により、前記固定数に対応する固定長次元の前記第２学習データを生成することを特徴とする請求項１に記載の学習データ生成システム。
前記制御部が、
前記各離散化空間において配置された前記第１学習データの構成要素の個数により、前記固定数に対応する固定長次元の前記第２学習データを生成することを特徴とする請求項５に記載の学習データ生成システム。
前記制御部が、
前記第１学習データを、分散が大きい主成分で第２次元数の空間を構成し、
前記第２次元数の空間で、前記固定数の離散化空間を生成することを特徴とする請求項５又は６に記載の学習データ生成システム。
制御部を備えた学習データ生成システムを用いて、学習データを生成する方法であって、
前記制御部が、
複数の可変長次元の第１学習データを取得し、
前記第１学習データを集約した集約データを用いて、固定長次元の順序性を有する第２学習データを生成することを特徴とする学習データ生成方法。
制御部を備えた学習データ生成システムを用いて、学習データを生成するためのプログラムであって、
前記制御部を、
複数の可変長次元の第１学習データを取得し、
前記第１学習データを集約した集約データを用いて、固定長次元の順序性を有する第２学習データを生成する手段として機能させるための学習データ生成プログラム。