JP2023047354A - 学習データ生成システム、学習データ生成方法及び学習データ生成プログラム - Google Patents
学習データ生成システム、学習データ生成方法及び学習データ生成プログラム Download PDFInfo
- Publication number
- JP2023047354A JP2023047354A JP2021147524A JP2021147524A JP2023047354A JP 2023047354 A JP2023047354 A JP 2023047354A JP 2021147524 A JP2021147524 A JP 2021147524A JP 2021147524 A JP2021147524 A JP 2021147524A JP 2023047354 A JP2023047354 A JP 2023047354A
- Authority
- JP
- Japan
- Prior art keywords
- learning data
- control unit
- data
- length
- fixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000004931 aggregating effect Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 23
- 230000000737 periodic effect Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 30
- 230000008569 process Effects 0.000 description 24
- 238000006243 chemical reaction Methods 0.000 description 16
- 238000013500 data storage Methods 0.000 description 16
- 239000000470 constituent Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 8
- 230000009467 reduction Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Image Analysis (AREA)
Abstract
Description
図1~図4に従って、学習データ生成システム、学習データ生成方法及び学習データ生成プログラムを具体化した第1の実施形態を説明する。本実施形態では、順序性がある可変長次元の配列データ(第1学習データ)から固定長次元の配列データ(第2学習データ)を生成する場合を想定する。この配列データは、複数の構成要素の並びで構成されており、各構成要素の順番には意味がある。
図1に示すように、本実施形態の学習データ生成システムは、ユーザ端末10、支援サーバ20を用いる。
図2は、ユーザ端末10、支援サーバ20等として機能する情報処理装置H10のハードウェア構成例である。
(2)各種処理のうち少なくとも一部の処理を実行する1つ以上の専用のハードウェア回路、或いは
(3)それらの組み合わせ、を含む回路(circuitry)
プロセッサは、CPU並びに、RAM及びROM等のメモリを含み、メモリは、処理をCPUに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。
図1を用いて、ユーザ端末10、支援サーバ20の機能を説明する。
支援サーバ20は、可変長データを固定長データに変換するコンピュータシステムである。この支援サーバ20は、制御部21、可変長データ記憶部22、固定長データ記憶部23を備えている。
変換部211は、可変長データに基づいて固定長データを生成する処理を実行する。本実施形態では、周期関数を用いて、可変長データを固定長データに変換する。
固定長データ記憶部23には、可変長次元データを、所定のデータ長に変換した、順序性を有する固定長次元データ(第2学習データ)が記録される。
次に、図3及び図4を用いて、変換処理を説明する。
まず、支援サーバ20の制御部21は、可変長次元ベクトルの取得処理を実行する(ステップS11)。具体的には、制御部21の取得部210は、ユーザ端末10から、可変長次元ベクトル(第1学習データ)を取得する。ここでは、機械学習に用いる複数の可変長次元ベクトルを取得する。次に、取得部210は、取得した可変長次元ベクトルを可変長データ記憶部22に記録する。
まず、支援サーバ20の制御部21は、周期関数で信号の合成処理を実行する(ステップS12)。具体的には、制御部21の変換部211は、取得した可変長次元ベクトルの構成要素を振幅とした周期関数を用いて合成信号(集約データ)を生成する。ここでは、周期関数として三角関数を用いる。
f(t)=x10*cos(α0*t)+x11*sin(α0*t)+x12*cos(α1*t)+x13*sin(α1*t)+…
なお、周波数αi(i=1,2,…,N)は相互に異なる値であり、周波数分解能を考慮して決定する。
この場合、図4に示すように、時間tを変数とする信号300が生成される。
Δt=π/αmax
N=2αmax
ここでは、図4に示すように、t0,t2,…t(N-1)の各タイミング301でサンプリングを行なう。この結果、値f(t0),f(t1),f(t2),…,f(t(N-1))を取得する。
Xout1=(f(t0),f(t1),f(t2),…f(t(N-1)))
そして、変換部211は、変換した固定長次元ベクトル(第2学習データ)を、固定長データ記憶部23に記録する。
そして、可変長データ記憶部22に記録された固定長次元ベクトルを教師データとして用いて、機械学習を行なう。
(1-1)本実施形態においては、支援サーバ20の制御部21は、周期関数で信号の合成処理を実行する(ステップS12)。これにより、可変長データの構成要素が多い場合も少ない場合も、一つの信号に組み込むことができる。そして、周期関数を用いるため、順番が早い構成要素も、順番が遅い構成要素も同等に信号に組み込むことができる。
図5~図8に従って、学習データ生成システム、学習データ生成方法及び学習データ生成プログラムを具体化した第2の実施形態を説明する。第1の実施形態では、順序性がある可変長次元の配列データから固定長次元の配列データを生成する場合を想定する。一方、第2の実施形態では、順序性がない可変長次元の集合データ(第1学習データ)から固定長次元の集合データ(第2学習データ)を生成する場合を想定する。この集合データ(データセット)は、複数の構成要素の組み合わせで構成されており、各構成要素の順番には意味がない。第2の実施形態の支援サーバ20は、第1の実施形態の学習データの構成が異なっているが、同様の部分については、同一の符号を付し、詳細な説明を省略する。
次に、図5~図8を用いて、変換処理を説明する。
まず、支援サーバ20の制御部21は、可変長次元のデータセットの取得処理を実行する(ステップS21)。具体的には、制御部21の取得部210は、ユーザ端末10から、可変長次元のデータセットを取得する。ここでは、M次元ベクトルxi(第1次元数のベクトル)を任意の数だけ要素として持つ集合DS1={x11,x12,x13,…}を取得する。次に、取得部210は、取得した可変長次元のデータセットを可変長データ記憶部22に記録する。
ここで、次元数Mが大きい場合、変換部211は、次元削減を行なう。具体的には、可変長次元のデータセットの構成要素となり得る十分な数のM次元ベクトルxiを用いて、離散化空間を作成するL次元(第2次元数)に次元削減を行なう。この場合、データ全体の分散が大きくなるようなL次元空間(第2次元数の空間)を用いる。例えば、主成分分析により、データ全体の分散が大きくなるようなL次元空間を生成し、このL次元空間をN個に分割した離散化空間501を生成する。
ここでは、支援サーバ20の制御部21は、離散化処理を実行する(ステップS23)。具体的には、制御部21の変換部211は、処理対象データセットの構成要素(x10,x11,x12,x13,…)を離散化空間にマッピングする。
具体的には、図7に示すように、離散化空間501に、処理対象データセットの各構成要素(M次元ベクトル)を配置する。
具体的には、図8に示すように、各構成要素が配置されていない離散化空間501にはラベル「0」、各構成要素が配置された離散化空間502にラベル「1」を設定する。
以上の処理を、可変長データ記憶部22に記録されたすべての可変長次元データセットについて繰り返す。
(2-1)本実施形態においては、支援サーバ20の制御部21は、離散化空間の生成処理を実行する(ステップS22)。これにより、可変長データを割り振るために次元を削減した空間を設定できる。この場合、変換部211は、次元削減を行なう。これにより、次元数Mが大きい場合、固定長配列として扱う際のデータサイズを抑えることができる。
・上記第1の実施形態では、支援サーバ20の制御部21は、周期関数で信号の合成処理を実行する(ステップS12)。ここでは、周期関数として三角関数を用いるが、周期関数は三角関数に限定されるものではない。
一方、図10に示すように、データセットDS22は、ボール画像と、11枚の人物画像を構成要素とする。この場合にも、離散化空間612において配置された構成要素数をカウントして、固定長次元データセット(0,0,1,11)は「サッカー」と認識できる。
例えば、図11は、各国の国旗を表している。画像701はギニア共和国、画像702はカメルーン共和国、画像703はセネガル共和国、画像704はマリ共和国野各国旗を表している。この場合、各画像を表現するために、座標情報も含めた集合データを用いることができる。例えば、(赤四角重心座標,黄四角重心座標,緑四角重心座標、黄星重心座標)のように、各形状の色の重心位置で集約した離散化空間で、各画像を表現することができる。
Claims (9)
- 学習データを生成する制御部を備えた学習データ生成システムであって、
前記制御部が、
複数の可変長次元の第1学習データを取得し、
前記第1学習データを集約した集約データを用いて、固定長次元の順序性を有する第2学習データを生成することを特徴とする学習データ生成システム。 - 前記第1学習データの複数の構成要素は順序性を有しており、
前記制御部が、
前記構成要素を振幅として、周波数が異なる周期関数で合成信号を生成し、
前記合成信号から、予め定められたサンプリング周期で、固定数のサンプルを抽出し、
前記抽出したサンプルにより、前記固定長次元の前記第2学習データを生成することを特徴とする請求項1に記載の学習データ生成システム。 - 前記サンプリング周期を、前記周期関数の最大周波数の逆数で定めることを特徴とする請求項2に記載の学習データ生成システム。
- 前記周期関数は三角関数であることを特徴とする請求項2又は3に記載の学習データ生成システム。
- 前記第1学習データの複数の構成要素は、第1次元数のベクトルで構成され、
前記制御部が、
前記第1次元数の空間を固定数の離散化空間で分割して、前記第1学習データを前記離散化空間にマッピングし、
前記各離散化空間における前記第1学習データの構成要素の有無により、前記固定数に対応する固定長次元の前記第2学習データを生成することを特徴とする請求項1に記載の学習データ生成システム。 - 前記制御部が、
前記各離散化空間において配置された前記第1学習データの構成要素の個数により、前記固定数に対応する固定長次元の前記第2学習データを生成することを特徴とする請求項5に記載の学習データ生成システム。 - 前記制御部が、
前記第1学習データを、分散が大きい主成分で第2次元数の空間を構成し、
前記第2次元数の空間で、前記固定数の離散化空間を生成することを特徴とする請求項5又は6に記載の学習データ生成システム。 - 制御部を備えた学習データ生成システムを用いて、学習データを生成する方法であって、
前記制御部が、
複数の可変長次元の第1学習データを取得し、
前記第1学習データを集約した集約データを用いて、固定長次元の順序性を有する第2学習データを生成することを特徴とする学習データ生成方法。 - 制御部を備えた学習データ生成システムを用いて、学習データを生成するためのプログラムであって、
前記制御部を、
複数の可変長次元の第1学習データを取得し、
前記第1学習データを集約した集約データを用いて、固定長次元の順序性を有する第2学習データを生成する手段として機能させるための学習データ生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021147524A JP7248755B1 (ja) | 2021-09-10 | 2021-09-10 | 学習データ生成システム、学習データ生成方法及び学習データ生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021147524A JP7248755B1 (ja) | 2021-09-10 | 2021-09-10 | 学習データ生成システム、学習データ生成方法及び学習データ生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7248755B1 JP7248755B1 (ja) | 2023-03-29 |
JP2023047354A true JP2023047354A (ja) | 2023-04-06 |
Family
ID=85726023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021147524A Active JP7248755B1 (ja) | 2021-09-10 | 2021-09-10 | 学習データ生成システム、学習データ生成方法及び学習データ生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7248755B1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012088881A (ja) * | 2010-10-19 | 2012-05-10 | Nippon Hoso Kyokai <Nhk> | 人物動作検出装置およびそのプログラム |
JP2016168046A (ja) * | 2015-03-09 | 2016-09-23 | 学校法人法政大学 | 植物病診断システム、植物病診断方法、及びプログラム |
WO2020178936A1 (ja) * | 2019-03-04 | 2020-09-10 | 株式会社トランストロン | ニューラルネットワークモデルの生成方法、及びニューラルネットワークモデルを用いた制御装置 |
-
2021
- 2021-09-10 JP JP2021147524A patent/JP7248755B1/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012088881A (ja) * | 2010-10-19 | 2012-05-10 | Nippon Hoso Kyokai <Nhk> | 人物動作検出装置およびそのプログラム |
JP2016168046A (ja) * | 2015-03-09 | 2016-09-23 | 学校法人法政大学 | 植物病診断システム、植物病診断方法、及びプログラム |
WO2020178936A1 (ja) * | 2019-03-04 | 2020-09-10 | 株式会社トランストロン | ニューラルネットワークモデルの生成方法、及びニューラルネットワークモデルを用いた制御装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7248755B1 (ja) | 2023-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7163504B2 (ja) | 画像処理方法並びにその、装置、コンピュータプログラム及び電子機器 | |
US20180004730A1 (en) | Corpus generation device and method, human-machine interaction system | |
US9305083B2 (en) | Author disambiguation | |
CN115146488B (zh) | 基于大数据的可变业务流程智能建模系统及其方法 | |
US10832012B2 (en) | Method executed in translation system and including generation of translated text and generation of parallel translation data | |
US9977818B2 (en) | Local extrema based data sampling system | |
US11386114B2 (en) | Structure-based transformers with localization and encoding for chart question answering | |
JP2011103082A (ja) | マルチメディア検索システム | |
JP6911949B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
JP6712830B2 (ja) | 信号解析システムおよび信号解析方法 | |
CN110968697B (zh) | 文本分类方法、装置、设备及可读存储介质 | |
WO2020213158A1 (ja) | 特定方法、生成方法、次元圧縮方法、表示方法および情報処理装置 | |
JP5364996B2 (ja) | 類似ユーザ発見システム、類似ユーザ発見方法および類似ユーザ発見プログラム | |
JP7248755B1 (ja) | 学習データ生成システム、学習データ生成方法及び学習データ生成プログラム | |
WO2022003991A1 (ja) | 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム | |
WO2020208728A1 (ja) | 文書検索装置、文書検索方法、及び、文書検索プログラム | |
CN110069489A (zh) | 一种信息处理方法、装置、设备及计算机可读存储介质 | |
RU2677371C1 (ru) | Устройство сравнения двоичных чисел | |
JP2014106707A (ja) | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム | |
CN116127066A (zh) | 文本聚类方法、文本聚类装置、电子设备及存储介质 | |
Ahuja et al. | Using machine learning to accelerate data wrangling | |
JP6402637B2 (ja) | 分析プログラム、分析方法及び分析装置 | |
JP6979899B2 (ja) | 生成装置、学習装置、生成方法、学習方法、生成プログラム、及び学習プログラム | |
CN113778846A (zh) | 用于生成测试数据的方法和装置 | |
JP7000181B2 (ja) | 言語処理方法及び言語処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7248755 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |