JP2023112250A

JP2023112250A - データ処理装置、データ処理システム、及び、データ処理方法

Info

Publication number: JP2023112250A
Application number: JP2022013908A
Authority: JP
Inventors: 克也菅原; Katsuya Sugawara; 健一郎山田; Kenichiro Yamada; 知幸前田; Tomoyuki Maeda
Original assignee: Toshiba Corp; Toshiba Electronic Devices and Storage Corp
Current assignee: Toshiba Corp; Toshiba Electronic Devices and Storage Corp
Priority date: 2022-02-01
Filing date: 2022-02-01
Publication date: 2023-08-14
Also published as: US20230244959A1; CN116596082A

Abstract

【課題】精度の向上が可能なデータ処理装置、データ処理システム、及び、データ処理方法を提供する。
【解決手段】実施形態によれば、データ処理装置は、処理部を含む。処理部は、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を取得する。処理部は、複数の第１特徴量から複数の第１特徴量の少なくとも一部を選ぶ。複数の第２特徴量から複数の第２特徴量の少なくとも一部を選ぶ。処理部は、第１動作を実施する。第１動作において、選ばれた複数の第１特徴量の少なくとも一部の第１数は、選ばれた複数の第２特徴量の少なくとも一部の第２数の１．１倍以上２倍以下である。処理部は、選ばれた前記複数の第１特徴量の少なくとも一部、及び、選ばれた複数の第２特徴量の少なくとも一部と、に基づく第１教師データに基づいて、第１機械学習モデルを生成する。
【選択図】図１

Description

本発明の実施形態は、データ処理装置、データ処理システム、及び、データ処理方法に関する。

例えば、処理されたデータに基づいて機械学習モデルが生成される。機械学習モデルに基づいて、各種の事象の分類などが行われる。データ処理の精度の向上が望まれる。

特開２０１９－２８８７６号公報

本発明の実施形態は、精度の向上が可能なデータ処理装置、データ処理システム、及び、データ処理方法を提供する。

本発明の実施形態によれば、データ処理装置は、処理部を含む。前記処理部は、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を取得可能である。前記処理部は、前記複数の第１特徴量から前記複数の第１特徴量の少なくとも一部を選ぶことが可能である。前記複数の第２特徴量から前記複数の第２特徴量の少なくとも一部を選ぶことが可能である。前記処理部は、第１動作を実施可能である。前記第１動作において、前記選ばれた前記複数の第１特徴量の前記少なくとも一部の第１数は、前記選ばれた前記複数の第２特徴量の前記少なくとも一部の第２数の１．１倍以上２倍以下である。前記処理部は、前記選ばれた前記複数の第１特徴量の前記少なくとも一部、及び、前記選ばれた前記複数の第２特徴量の前記少なくとも一部と、に基づく第１教師データに基づいて、第１機械学習モデルを生成可能である。

図１は、第１実施形態に係るデータ処理装置を例示する模式的断面図である。図２（ａ）及び図２（ｂ）は、第１実施形態に係るデータ処理装置の動作を例示するフローチャートである。図３は、第１実施形態に係るデータ処理装置の動作を例示するフローチャートである。図４（ａ）～図４（ｃ）は、データ処理装置の特性を例示するグラフである。図５（ａ）～図５（ｃ）は、データ処理装置の特性を例示するグラフである。図６（ａ）及び図６（ｂ）は、データ処理装置の特性を例示するグラフである。

以下に、本発明の実施形態について図面を参照しつつ説明する。本願明細書と各図において、既出の図に関して前述したものと同様の要素には同一の符号を付して詳細な説明は適宜省略する。

（第１実施形態）
図１は、第１実施形態に係るデータ処理装置を例示する模式的断面図である。
図１に示すように、実施形態に係るデータ処理装置１１０は、処理部７０を含む。データ処理装置１１０に含まれる複数の要素が複数の異なる場所に設けられても良い。データ処理装置１１０は、データ処理システム２１０の一部でも良い。データ処理システム２１０は、例えば、複数の処理部７０を含んでも良い。複数の処理部７０の一部が、複数の処理部７０の別の一部と異なる場所に設けられても良い。

処理部７０は、例えば、ＣＰＵ（Central Processing Unit）などを含んで良い。処理部７０は、例えば電子回路などを含む。

この例では、データ処理装置１１０は、取得部７８を含む。取得部７８は、例えば、種々のデータを取得可能である。取得部７８は、例えば、Ｉ／Ｏポートなどを含む。取得部７８は、インタフェースである。取得部７８は、出力部の機能を有しても良い。取得部７８は、例えば、通信機能を有しても良い。

この例では、データ処理装置１１０は、記憶部７９ａを含む。記憶部７９ａは、種々のデータを保持可能である。記憶部７９ａは、例えば、メモリで良い。記憶部７９ａは、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）の少なくともいずれかを含んでも良い。

データ処理装置１１０は、表示部７９ｂ及び入力部７９ｃなどを含んでも良い。表示部７９ｂは、各種のディスプレイを含んで良い。入力部７９ｃは、例えば、操作機能を有する装置（例えばキーボート、マウス、タッチ式入力パネル、または音声認識入力装置など）を含む。

データ処理装置１１０に含まれる複数の要素において、無線及び有線の少なくともいずれかの方法により、互いに通信可能である。データ処理装置１１０に含まれる複数の要素が設けられる場所が、互いに異なっても良い。データ処理装置１１０として、例えば、汎用コンピュータが用いられても良い。データ処理装置１１０として、例えば、互いに接続された複数のコンピュータが用いられても良い。データ処理装置１１０の少なくとも一部（例えば、処理部７０など）として、専用の回路が用いられても良い。データ処理装置１１０として、例えば、互いに接続された複数の回路が用いられても良い。

以下、データ処理装置１１０（例えば、データ処理システム２１０）における処理部７０の動作の例について説明する。

図２（ａ）及び図２（ｂ）は、第１実施形態に係るデータ処理装置の動作を例示するフローチャートである。
これらの図は、処理部７０の動作を例示している。これらの図は、処理部７０で行われる学習動作の例を示している。

図２（ａ）に示すように、処理部７０は、データを取得可能である（ステップＳ１０）。例えば、データが、取得部７８（Ｉ／Ｏポートなど、図１参照）に供給される。取得部７８が取得したデータが、処理部７０に供給される。
データは、例えば、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を含む。第１分類ラベルは、例えば、第１クラス分類ラベルである。第２分類ラベルは、第２クラス分類ラベルである。複数の第１特徴量は、例えば、複数の第１特徴量ベクトルである。複数の第２特徴量は、例えば、複数の第２特徴量ベクトルである。複数の第１特徴量のそれぞれは、複数の要素を含んで良い。複数の第２特徴量のそれぞれは、複数の要素を含んで良い。

図２（ａ）に示すように、処理部７０は、複数の第１特徴量から複数の第１特徴量の少なくとも一部を選ぶことが可能であり、複数の第２特徴量から複数の第２特徴量の少なくとも一部を選ぶことが可能である（ステップＳ２０）。

選ぶ際に、処理部７０は、第１動作ＯＰ１を実施可能である。第１動作ＯＰ１において、選ばれた複数の第１特徴量の上記の少なくとも一部の第１数は、選ばれた複数の第２特徴量の上記の少なくとも一部の第２数の１．１倍以上２倍以下である。

図２（ａ）に示すように、処理部７０は、第１教師データに基づいて、第１機械学習モデルを生成可能である（ステップＳ３０）。第１教師データは、選ばれた複数の第１特徴量の上記の少なくとも一部、及び、選ばれた複数の第２特徴量の上記の少なくとも一部と、に基づく。

例えば、データ処理装置１１０は、複数の事象に関するデータを対象とする。対象とする複数の事象は、例えば、第１分類ラベルに対応する複数の第１事象と、第２分類ラベルに対応する複数の第２事象と、を含む。複数の第１事象は、例えば、対象物の正常品（良品）に対応する。複数の第２事象は、例えば、対象物の非正常品（不良品）に対応する。

例えば、正常品に分類される対象物に関する各種のデータが、複数の第１特徴量に対応する。例えば、非正常品に分類される対象物に関する各種のデータが、複数の第２特徴量に対応する。このような、複数の第１特徴量及び複数の第２特徴量を教師データとして機械学習モデルが生成される。

一般に、教師データを生成する際に、複数の第１特徴量の数は、複数の第２特徴量の数と同じされる。同じ数の複数の第１特徴量及び複数の第２特徴量を用いて、例えば、ハイパーパラメータなどを調整することで、機械学習モデルが生成される。機械学習モデルの生成は、例えば、識別関数の導出に対応する。

後述するように、発明者の検討によると、同じ数の複数の第１特徴量及び複数の第２特徴量を用いる場合には、高い精度の機械学習モデルの生成が困難であることが分かった。例えば、例えば、ハイパーパラメータなどを調整したとしても、高い精度の識別関数の導出が困難であることが分かった。

実施形態においては、同じ数の複数の第１特徴量及び複数の第２特徴量を用いない。実施形態においては、複数の第１特徴量の数を複数の第２特徴量の数とは異ならせる。異なる数になるように、複数の第１特徴量の少なくとも一部を選び、複数の第２特徴量の少なくとも一部を選ぶ。換言すると、取得したデータ（選ぶ前の複数の第１特徴量、及び、選ぶ前の複数の第２特徴量）の一部を教師データとして使わない。

第１動作ＯＰ１においては、選ばれた複数の第１特徴量の上記の少なくとも一部の第１数は、選ばれた複数の第２特徴量の上記の少なくとも一部の第２数の１．１倍以上２倍以下である。

このように、異なる数のデータを教師データとして用いることで、高い精度の機械学習モデルが得られる。例えば、高い精度の識別関数が得られる。実施形態によれば、例えば、精度の向上が可能なデータ処理装置及びデータ処理システムを提供できる。

既に説明したように、対象とする複数の事象は、例えば、第１分類ラベルに対応する複数の第１事象と、第２分類ラベルに対応する複数の第２事象と、を含む。例えば、複数の事象における複数の第１事象の第１発生率は、複数の事象における複数の第２事象の第２発生率よりも高い。例えば、第１事象（正常品）の第１発生率が、第２事象（非正常品）の第２発生率よりも高い。

例えば、このような状況において、例えば、第１動作ＯＰ１が実施される。すなわち、第１動作ＯＰ１において、複数の第１事象の第１発生率は、複数の事象における数の第２事象の第２発生率よりも高い。第１動作ＯＰ１において、第１数（選ばれた複数の第１特徴量の数）は、第２数（選ばれた複数の第２特徴量の数）よりも大きい。このような第１動作ＯＰ１により、高い精度が得られる。

１つの例において、第１動作ＯＰ１において、第１発生率は、対象物の正常品の発生率に対応し、第２発生率は、対象物の非正常品の発生率に対応する。

上記の第１動作ＯＰ１による第１機械学習モデルによれば、例えば、「正常」を高い精度で「正常」と判断できる。例えば、高い精度の真陰性率（ＴＮ：True Negative）が得られる。

図２（ａ）に示すように、処理部７０は、特徴量スケーリングを行っても良い（ステップＳ２５）。例えば、第１教師データは、前記複数の第１特徴量を特徴量スケーリング処理して得られる複数の量、及び、前記複数の第２特徴量を特徴量スケーリング処理して得られる複数の量と、に基づく。複数の量は、例えば、複数のベクトルである。特徴量スケーリング処理して得られる複数の量に基づいて、第１機械学習モデルの生成（ステップＳ３０）が行われる。特徴量スケーリング処理は、例えば、正規化及び標準化の少なくともいずれかを含んで良い。

図２（ａ）に示すように、第１機械学習モデルの生成（ステップＳ３０）は、選ばれた複数の第１特徴量の上記も少なくとも一部（例えば特徴量スケーリング処理された量でも良い）と、複数の第２特徴量の上記の少なくとも一部（例えば特徴量スケーリング処理された量でも良い）と、の特徴空間への写像演算（ステップＳ３１）を含んで良い。

写像演算は、例えば、カーネル関数及びニューラルネットワーク関数の少なくともいずれかの演算を含んで良い。写像演算は、例えば、カーネル関数、ｔ－ＳＮＥ(t-Distributed Stochastic Neighbor Embedding)、及び、ＵＭＡＰ(Uniform Manifold Approximation and Projection）の少なくともいずれかを含んで良い。

上記のカーネル関数は、例えば、線形カーネル、多項式カーネル、ガウスカーネル、シグモイドカーネル、ラプラスカーネル、及び、Maternカーネルの少なくともいずれかを含んで良い。

図２（ａ）に示すように、第１機械学習モデルの生成（ステップＳ３０）は、写像演算された後の量の第１識別関数の導出（ステップＳ３２）を含んで良い。第１識別関数は、第１分類ラベル及び第２分類ラベルに関する識別関数である。

第１識別関数の導出は、例えば、ＳＶＭ（Support Vector Machine）及びニューラルネットワーク（ＮＮ）、ＳＤＧ(Stochastic Gradient Descent) Classifier、ｋＮＮ（k-Nearest Neighbor）Classifier、及び、ナイーブベイズ分類器の少なくともいずれかに基づいて良い。例えば、ＳＶＭ及びＮＮの少なくともいずれかにより、第１識別関数が導出可能である。

データ処理装置１１０（及びデータ処理システム２１０）において、上記の第１動作ＯＰ１と異なる動作が実施されて良い。

図２（ｂ）に示すように、処理部７０は、データを取得可能である（ステップＳ１０Ａ）。データは、例えば、第１分類ラベルに対応する複数の第３特徴量と、第２分類ラベルに対応する複数の第４特徴量と、を含む。複数の第３特徴量は、例えば、複数の第３特徴量ベクトルである。複数の第４特徴量は、例えば、複数の第４特徴量ベクトルである。複数の第３特徴量のそれぞれは、複数の要素を含んで良い。複数の第４特徴量のそれぞれは、複数の要素を含んで良い。このように、処理部７０は、第１分類ラベルに対応する複数の第３特徴量と、第２分類ラベルに対応する複数の第４特徴量と、を取得することがさらに可能である（ステップＳ１０Ａ）。

図２（ｂ）に示すように、処理部７０は、複数の第３特徴量から複数の第３特徴量の少なくとも一部を選ぶことが可能であり、複数の第４特徴量から複数の第４特徴量の少なくとも一部を選ぶことが可能である（ステップＳ２０Ａ）。この際に、処理部７０は、第２動作ＯＰ２を実施可能である。第２動作ＯＰ２において、選ばれた複数の第３特徴量の上記の少なくとも一部の第３数は、選ばれた複数の第４特徴量の上記の少なくとも一部の第４数の０．１倍以上０．９倍以下である。このように第２動作ＯＰ２においては、第１分類ラベルに対応する選ばれた複数の第３特徴量の数（第３数）が、第２分類ラベルに対応する選ばれた複数の第４特徴量の数（第４数）よりも小さい。

処理部７０は、第２教師データに基づいて、第２機械学習モデルをさらに生成可能である（ステップＳ３０Ａ）。第２教師データは、選ばれた複数の第３特徴量の上記の少なくとも一部、及び、選ばれた複数の第４特徴量の上記の少なくとも一部と、に基づく。

例えば、対象とする複数の事象は、第１分類ラベルに対応する複数の第３事象と、第２分類ラベルに対応する複数の第４事象と、を含む。複数の第３事象は、例えば、正常品に対応する。複数の第４事象は、例えば、非正常品に対応する。

第２動作ＯＰ２において、複数の事象における複数の第３事象の発生率（第３発生率）は、例えば、複数の事象における複数の第４事象の発生率（第４発生率）よりも低い。例えば、第２動作ＯＰ２において、第３発生率は、対象物の正常品の発生率に対応する。第４発生率は、対象物の非正常品の発生率に対応する。

例えば、生産の初期段階において、正常品の発生率が非正常品の発生率よりも低い場合がある。このような場合、発生率が低い正常品（第３事象）に対応する複数の第３特徴量の数（第３数）と、発生率が高い非正常品（第４事象）に対応する複数の第４特徴量の数（第４数）よりも小さくする。これにより、より高い精度の機械学習モデルが生成できる。

上記の第２動作ＯＰ２による第２機械学習モデルによれば、例えば、「異常」を高い精度で「異常」と判断できる。例えば、高い精度の真陽性率（ＴＰ：True Positive）が得られる。

図２（ｂ）に示すように、処理部７０は、特徴量スケーリングを行っても良い（ステップＳ２５Ａ）。例えば、第２教師データは、前記複数の第３特徴量を特徴量スケーリング処理して得られる複数の量、及び、前記複数の第４特徴量を特徴量スケーリング処理して得られる複数の量と、に基づく。複数の量は、例えば、複数のベクトルである。特徴量スケーリング処理して得られる複数の量に基づいて、第２機械学習モデルの生成（ステップＳ３０Ａ）が行われる。特徴量スケーリング処理は、例えば、正規化及び標準化の少なくともいずれかを含んで良い。

図２（ｂ）に示すように、第２機械学習モデルの生成（ステップＳ３０Ａ）は、選ばれた複数の第３特徴量の上記も少なくとも一部（例えば特徴量スケーリング処理された量でも良い）と、複数の第４特徴量の上記の少なくとも一部（例えば特徴量スケーリング処理された量でも良い）と、の特徴空間への写像演算（ステップＳ３１Ａ）を含んで良い。

写像演算は、例えば、カーネル関数及びニューラルネットワーク関数の少なくともいずれかの演算を含んで良い。写像演算は、カーネル関数、t-ＳＮＥ(t-Distributed Stochastic Neighbor Embedding)、及び、ＵＭＡＰ(Uniform Manifold Approximation and Projection）の少なくともいずれかを含んで良い。

図２（ｂ）に示すように、第２機械学習モデルの生成（ステップＳ３０Ａ）は、写像演算された後の量の第２識別関数の導出（ステップＳ３２Ａ）を含んで良い。第２識別関数は、第１分類ラベル及び第２分類ラベルに関する識別関数である。

第２識別関数の導出は、例えば、ＳＶＭ（Support Vector Machine）及びニューラルネットワーク（ＮＮ）、ＳＤＧ(Stochastic Gradient Descent) Classifier、ｋＮＮ（k-Nearest Neighbor）Classifier、及び、ナイーブベイズ分類器の少なくともいずれかに基づいて良い。例えば、ＳＶＭ及びＮＮの少なくともいずれかにより、第２識別関数が導出可能である。

第１機械学習モデルの生成、及び、第２機械学習モデルの生成の少なくともいずれかは、ハイパーパラメータの調整を含んでも良い。

このような第１動作ＯＰ１及び第２動作ＯＰ２が切り替えられて実施されて良い。

図３は、第１実施形態に係るデータ処理装置の動作を例示するフローチャートである。図３は、処理部７０で行われる別の動作の例を示している。図３は、例えば、分類動作（または予測動作）を例示している。

処理部７０は、分類動作がさらに可能である。分類動作において、別のデータ（別の特徴量）を取得可能である（ステップＳ５０）。別の特徴量は、学習動作とは別に取得される新たな特徴量である。別の特徴量は、例えば、未知の特徴量である。別の特徴量は、例えば、別の特徴ベクトルである。別の特徴量は、例えば、複数の要素を含んで良い。

処理部７０は、学習動作で導出した第１識別関数に基づいて、別の特徴量を第１分類ラベルまたは第２分類ラベルに分類する（ステップＳ６０）。このように、処理部７０は、分類動作において、第１機械学習モデルに基づいて、別の特徴量を第１分類ラベルまたは第２分類ラベルに分類可能である。

図３に示すように、上記の別の特徴量は、処理部７０が入手した新たなデータを特徴量スケーリングする（ステップＳ６５）ことにより得られても良い。

実施形態においては、上記の第１動作ＯＰ１または第２動作ＯＰ２に基づく教師データにより、機械学習モデル（例えば識別関数）により、新たな別の特徴量が分類される。高い精度の分類が可能である。

実施形態において、複数の第１特徴量、及び、複数の第２特徴量は、磁気記録装置の特性に関する特徴量でも良い。例えば、分類動作における「別の特徴量」は、磁気記録装置の特性に関する特徴量でも良い。磁気記録装置の特性に関する特徴量は、例えば、Signal-Noise Ratio（ＳＮＲ）、Bit Error Rate（ＢＥＲ）、Fringe BER、Erase Width at AC erase（ＥＷＡＣ）、Magnetic write track width（ＭＷＷ）、Overwrite（ＯＷ）、及び、Soft Viterbi Algorithm-BER（ＳＯＶＡ－ＢＥＲ）、Viterbi Metric Margin（ＶＭＭ）、Repeatable RunOut（ＲＲＯ）、及び、Non-Repeatable RunOut（ＮＲＲＯ）の少なくともいずれかを含んで良い。

例えば、磁気記録装置において、記録特性不良が発生する磁気ヘッドがある。磁気ヘッドに関する試験データに基づいて、磁気ヘッドの特性を高い精度で予測することが望まれる。このような予測に機械学習が用いられる。一般的な機械学習の予測モデルでは、互いに同じ数の、正常品に関するデータ及び非正常に関するデータを教師データとして用いて、機械学習が行われる。そして、予測モデルの特性（性能）は、ハイパーパラメータ調整で行われる。

実施形態においては、上記のように、正常品に関するデータの数は、非正常に関するデータの数とは異なる。このようなデータを教師データとして用いた機械学習モデルが生成される。これにより、高い精度の予測が可能になる。

以下、データ処理装置における特性の例について説明する。
図４（ａ）～図４（ｃ）は、データ処理装置の特性を例示するグラフである。
これらの図の横軸は、複数のデータの番号Ｎ０（名前）に対応する。これらの図の横軸は、例えば、ハイパーパラメータの調整の値に対応する。これらの図の縦軸は、評価パラメータＰ１に対応する。これらの図は、真陰性率（ＴＮ）に関する。評価パラメータＰ１が１であることは、全ての正常品が正しく正常と判断されていることに対応する。評価パラメータＰ１が１よりも小さいときは、偽陽性（ＦＰ：False Positive、正常を誤って異常と判断）が発生していることに対応する。

図４（ａ）において、第１数は、第２数の０．５倍である。既に説明したように、第１数は、選ばれた複数の第１特徴量の少なくとも一部の数である。第２数は、選ばれた複数の第２特徴量の少なくとも一部の数である。

図４（ｂ）において、第１数は、第２数と同じである。図４（ｃ）において、第１数は、第２数の２倍である。図４（ｂ）は、一般的な機械学習におけるハイパーパラメータ調整で得られる真陰性率（ＴＮ）に対応する。図４（ｃ）は、評価パラメータＰ１が１となり、ＦＰが発生しない予測モデルが構築できる場合に対応する。

図４（ｃ）に示すように、第１数が第２数の２倍である場合、ハイパーパラメータの調整の値を大きくすることで、評価パラメータＰ１が１となる。ＦＰが発生することなく正常品が正しく正常と判断される。

これに対して、図４（ｂ）に示すように、第１数が第２数と同じ場合、評価パラメータＰ１は、約０．７程度である。第１数が第２数と同じ場合は、ハイパーパラメータを調整しても、高い精度を得ることは困難である。

実施形態において、第１数が第２数よりも大きい（例えば２倍）ときに、１の評価パラメータＰ１が得られるのは、以下に基づくと考えられる。例えば、予測モデルが正常品に関するデータを誤判定した際に、損失関数が大きくなる可能性が高い。第１数が第２数よりも大きい場合に、第１数が第２数と同じ場合と比べて、正常品の正答率が損失低下に寄与する程度がより大きくなる。これにより、第１数が第２数よりも大きい（例えば２倍）ときに、１の評価パラメータＰ１が得られると考えられる。

図５（ａ）～図５（ｃ）は、データ処理装置の特性を例示するグラフである。
これらの図の横軸は、複数のデータの番号Ｎ０（名前）に対応する。これらの図の横軸は、例えば、ハイパーパラメータの調整の値に対応する。これらの図の縦軸は、評価パラメータＰ２に対応する。これらの図は、真陽性率（ＴＰ）に関する。評価パラメータＰ２が１であることは、非正常品が正しく非正常と判断されていることに対応する。評価パラメータＰ２が１よりも小さいときは、偽陰性が発生していることに対応する。

図５（ａ）において、第１数は、第２数の０．５倍である。図５（ｃ）において、第１数は、第２数と同じである。図５（ｂ）において、第１数は、第２数の２倍である。図５（ｃ）は、一般的な機械学習におけるハイパーパラメータ調整で得られる真陽性率（ＴＰ）に対応する。

図５（ａ）に示すように、第１数が第２数の０．５倍である場合、ハイパーパラメータの調整と組み合わせることで、評価パラメータＰ２が１となる。非正常品が正しく非正常と判断される。

これに対して、図５（ｃ）に示すように、第１数が第２数と同じ場合、評価パラメータＰ２の最大値は、約０．７～０．８程度である。第１数が第２数と同じ場合は、ハイパーパラメータを調整しても、高い精度を得ることは困難である。

例えば、第１数が第２数と同じ場合、ハイパーパラメータ調整では、真陰性率（ＴＮ）及び真陽性率（ＴＰ）共に、パラメータＰ１及びＰ２は０．６～０．８程度である。第１数及び第２数を互いに異ならせることで、高い精度の真陰性率（ＴＮ）ＴＮまたは真陽性率（ＴＰ）が得られる。

実施形態において、第１数が第２数よりも小さい（例えば０．５倍）ときに、１の評価パラメータＰ２が得られるのは、以下に基づくと考えられる。例えば、予測モデルが異常品に関するデータを誤判定した際に損失関数が大きくなる可能性が高い。第１数が第２数よりも小さい場合に、第１数が第２数と同じ場合と比べて、異常品の正答率が損失低下に寄与する程度がより大きくなると考えられる。これにより、第１数が第２数よりも小さいときに、１の評価パラメータＰ２が得られると考えられる。

図６（ａ）及び図６（ｂ）は、データ処理装置の特性を例示するグラフである。
第１数をＮ１とする。第２数をＮ２とする。図６は、第１数の第２数に対する比（Ｎ１／Ｎ２）を変化させたときの特性を例示している。これらの図の横軸は、比（Ｎ１／Ｎ２）である。図６（ａ）の縦軸は、パラメータＣＮ１である。パラメータＣＮ１は、過学習を起こさない有効なハイパーパラメータの範囲内での真陰性率（ＴＮ）の平均値である。図６（ｂ）の縦軸は、パラメータＣＰ１である。パラメータＣＰ１は、過学習を起こさない有効なハイパーパラメータの範囲内での真陽性率（ＴＰ）の平均値である。

例えば、正常品の発生率が高い場合において、真陰性率（ＴＮ）は、０．９以上であることが好ましい。これにより、例えば、機械学習による故障検知後の歩留まりを向上し易くなる。図６（ａ）に示すように、比（Ｎ１／Ｎ２）が１．１以上２．０以下のときに、０．９以上の高いパラメータＣＮ１が得られる。実施形態に係る１つの例において、第１数は、第２数の１．１倍以上２倍以下であることが好ましい。０．９以上の高い真陰性率（ＴＮ）が得られる。

例えば、異常品の発生率が高い場合において、真陽性率（ＴＰ）は、０．９以上であることが好ましい。図６（ｂ）に示すように、比（Ｎ１／Ｎ２）が０．１以上０．９以下のときに、０．９以上のパラメータＣＰ１が得られる。実施形態に係る１つの例において、第１数は、第２数の０．１倍以上０．９倍以下であることが好ましい。０．９以上の高い真陽性率（ＴＰ）が得られる。

一般的な機械学習（参考例）では、第１数は第２数と同じである。この場合、真陽性率（ＴＰ）及び真陰性率（ＴＮ）の両方が、０．７～０．８程度である。第１数を第２数と同じとする参考例は、正常品の発生率が非正常品の発生率と同等程度の場合に適用されるのが適していると考えられる。

例えば、正常品の発生率が非正常品の発生率の１０００倍以上である場合に、１．１以上２．０以下の比（Ｎ１／Ｎ２）を適用するのが良いと考えられる。例えば、正常品の発生率が非正常品の発生率の１０００倍未満である場合に、０．１以上０．９以下の比（Ｎ１／Ｎ２）を適用するのが良いと考えられる。

実施形態において、例えば、クラス分類ラベルと、特徴量スケーリングされた特徴量ベクトルと、を含む組みを含む複数のデータを教師データとして、機械学習モデルが生成される。この際、第１クラスに対応する第１特徴量ベクトルの数が、第２クラスに対応する複数の第２特徴量ベクトルの量の数とは異ならせる。例えば、複数の特徴量ベクトルは、特徴空間に線形写像または非線形写像されて良い。生成された機械学習モデルにおいて生成された識別関数を用いて、別のデータ（別の特徴量）のクラス分類が予測される。このような動作が処理部７０において実施される。

実施形態に係るデータ処理装置１１０（及びデータ処理システム２１０）は、例えば、機械学習による分類問題（故障予知）に適用できる。実施形態において、教師データとなるデータの数がクラス間で異ならせる。数のクラス間比率が１：１ではない。数のクラス間比率が調整される。これにより、予測モデルの真陽性率及び真陰性率が調整可能である。実施形態において、ハイパーパラメータ調整による予測モデルの真陽性率及び真陰性率の調整が行われても良い。実施形態においては、ハイパーパラメータ調整だけでは得られない、高い精度の真陽性率及び真陰性率が得られる。

実施形態に係るデータ処理システム２１０（図１参照）は、１または複数の処理部７０（図１参照）を含む。データ処理システム２１０における処理部７０は、データ処理装置１１０に関して説明した上記の動作を実施可能である。

（第２実施形態）
第２実施形態は、プログラムに係る。プログラムは、処理部７０（コンピュータ）に、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を取得させる。プログラムは、処理部７０に、複数の第１特徴量から複数の第１特徴量の少なくとも一部を選ばせ、複数の第２特徴量から複数の第２特徴量の少なくとも一部を選ばせる。プログラムは、処理部７０に、第１動作ＯＰ１を実施させる。第１動作において、選ばれた複数の第１特徴量の上記の少なくとも一部の第１数は、選ばれた複数の第２特徴量の上記の少なくとも一部の第２数の１．１倍以上２倍以下である。プログラムは、処理部７０に、選ばれた複数の第１特徴量の上記の少なくとも一部、及び、選ばれた複数の第２特徴量の上記の少なくとも一部と、に基づく第１教師データに基づいて、第１機械学習モデルを生成させる。

実施形態は、上記のプログラムが記憶された記憶媒体を含んでも良い。

（第３実施形態）
第３実施形態は、データ処理方法に係る。データ処理方法は、処理部７０に、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を取得させる。データ処理方法は、処理部７０に、複数の第１特徴量から複数の第１特徴量の少なくとも一部を選ばせ、複数の第２特徴量から複数の第２特徴量の少なくとも一部を選ばせる。データ処理方法は、処理部７０に、第１動作ＯＰ１を実施させる。第１動作ＯＰ１において、選ばれた複数の第１特徴量の上記の少なくとも一部の第１数は、選ばれた複数の第２特徴量の上記の少なくとも一部の第２数の１．１倍以上２倍以下である。データ処理方法は、処理部７０に、選ばれた複数の第１特徴量の上記の少なくとも一部、及び、選ばれた複数の第２特徴量の上記の少なくとも一部と、に基づく第１教師データに基づいて、第１機械学習モデルを生成させる。

実施形態は、以下の構成（例えば技術案）を含んで良い。
（構成１）
処理部を備え、
前記処理部は、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を取得可能であり、
前記処理部は、前記複数の第１特徴量から前記複数の第１特徴量の少なくとも一部を選ぶことが可能であり、前記複数の第２特徴量から前記複数の第２特徴量の少なくとも一部を選ぶことが可能であり、前記処理部は、第１動作を実施可能であり、前記第１動作において、前記選ばれた前記複数の第１特徴量の前記少なくとも一部の第１数は、前記選ばれた前記複数の第２特徴量の前記少なくとも一部の第２数の１．１倍以上２倍以下であり、
前記処理部は、前記選ばれた前記複数の第１特徴量の前記少なくとも一部、及び、前記選ばれた前記複数の第２特徴量の前記少なくとも一部と、に基づく第１教師データに基づいて、第１機械学習モデルを生成可能である、データ処理装置。

（構成２）
前記処理部は、前記第１分類ラベルに対応する複数の第３特徴量と、前記第２分類ラベルに対応する複数の第４特徴量と、を取得することがさらに可能であり、
前記処理部は、前記複数の第３特徴量から前記複数の第３特徴量の少なくとも一部を選ぶことが可能であり、前記複数の第４特徴量から前記複数の第４特徴量の少なくとも一部を選ぶことが可能であり、前記処理部は、第２動作を実施可能であり、前記第２動作において、前記選ばれた前記複数の第３特徴量の前記少なくとも一部の第３数は、前記選ばれた前記複数の第４特徴量の前記少なくとも一部の第４数の０．１倍以上０．９倍以下であり、
前記処理部は、前記選ばれた前記複数の第３特徴量の前記少なくとも一部、及び、前記選ばれた前記複数の第４特徴量の前記少なくとも一部と、に基づく第２教師データに基づいて、第２機械学習モデルをさらに生成可能である、構成１に記載のデータ処理装置。

（構成３）
対象とする複数の事象は、前記第１分類ラベルに対応する複数の第３事象と、前記第２分類ラベルに対応する複数の第４事象と、を含み、
前記第２動作において、前記複数の事象における前記複数の第３事象の第３発生率は、前記複数の事象における前記複数の第４事象の第４発生率よりも低い、構成２に記載のデータ処理装置。

（構成４）
前記第２動作において、前記第３発生率は、対象物の正常品の発生率に対応し、前記第４発生率は、前記対象物の非正常品の発生率に対応する、構成３に記載のデータ処理装置。

（構成５）
対象とする複数の事象は、前記第１分類ラベルに対応する複数の第１事象と、前記第２分類ラベルに対応する複数の第２事象と、を含み、
前記第１動作において、前記複数の事象における前記複数の第１事象の第１発生率は、前記複数の事象における前記複数の第２事象の第２発生率よりも高い、構成１または２に記載のデータ処理装置。

（構成６）
前記第１動作において、前記第１発生率は、対象物の正常品の発生率に対応し、前記第２発生率は、前記対象物の非正常品の発生率に対応する、構成５に記載のデータ処理装置。

（構成７）
前記第１教師データは、前記複数の第１特徴量を特徴量スケーリング処理して得られる複数の量、及び、前記複数の第２特徴量を特徴量スケーリング処理して得られる複数の量と、に基づく、構成１～６のいずれか１つに記載のデータ処理装置。

（構成８）
前記特徴量スケーリング処理は、正規化及び標準化の少なくともいずれかを含む、構成７に記載のデータ処理装置。

（構成９）
前記第１機械学習モデルの前記生成は、前記選ばれた前記複数の第１特徴量の前記少なくとも一部と、前記複数の第２特徴量の前記少なくとも一部と、の特徴空間への写像演算を含む、構成１～８のいずれか１つに記載のデータ処理装置。

（構成１０）
前記写像演算は、カーネル関数、ｔ－ＳＮＥ(t-Distributed Stochastic Neighbor Embedding)、及び、ＵＭＡＰ(Uniform Manifold Approximation and Projection）の少なくともいずれかの演算を含む、構成９に記載のデータ処理装置。

（構成１１）
前記カーネル関数は、線形カーネル、多項式カーネル、及び、ガウスカーネル、シグモイドカーネル、ラプラスカーネル、及び、Maternカーネルの少なくともいずれかを含む、構成１０に記載のデータ処理装置。

（構成１２）
前記第１機械学習モデルの前記生成は、前記写像演算された後の量の、前記第１分類ラベル及び前記第２分類ラベルに関する第１識別関数の導出を含む、構成９または１０に記載のデータ処理装置。

（構成１３）
前記第１識別関数の前記導出は、ＳＶＭ（Support Vector Machine）及びニューラルネットワーク（ＮＮ）、ＳＤＧ(Stochastic Gradient Descent) Classifier、ｋＮＮ（k-Nearest Neighbor）Classifier、及び、ナイーブベイズ分類器の少なくともいずれかかに基づく、構成１２に記載のデータ処理装置。

（構成１４）
前記処理部は、分類動作がさらに可能であり、
前記分類動作において、前記処理部は、前記第１識別関数に基づいて、別の特徴量を前記第１分類ラベルまたは前記第２分類ラベルに分類する、構成１２または１３に記載のデータ処理装置。

（構成１５）
前記処理部は、分類動作がさらに可能であり、
前記分類動作において、前記処理部は、前記第１機械学習モデルに基づいて、別の特徴量を前記第１分類ラベルまたは前記第２分類ラベルに分類する、構成１～１３のいずれか１つに記載のデータ処理装置。

（構成１６）
前記別の特徴量は、前記処理部が入手した新たなデータを特徴量スケーリングすることにより得られた、構成１４または１５に記載のデータ処理装置。

（構成１７）
前記第１機械学習モデルの前記生成は、ハイパーパラメータの調整を含む、構成１～１６のいずれか１つに記載のデータ処理装置。

（構成１８）
前記複数の第１特徴量、及び、前記複数の第２特徴量は、磁気記録装置の特性に関する、構成１～１７のいずれか１つに記載のデータ処理装置。

（構成１９）
１または複数の処理部を備え、
前記処理部は、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を取得可能であり、
前記処理部は、前記複数の第１特徴量から前記複数の第１特徴量の少なくとも一部を選ぶことが可能であり、前記複数の第２特徴量から前記複数の第２特徴量の少なくとも一部を選ぶことが可能であり、前記処理部は、第１動作を実施可能であり、前記第１動作において、前記選ばれた前記複数の第１特徴量の前記少なくとも一部の第１数は、前記選ばれた前記複数の第２特徴量の前記少なくとも一部の第２数の１．１倍以上２倍以下であり、
前記処理部は、前記選ばれた前記複数の第１特徴量の前記少なくとも一部、及び、前記選ばれた前記複数の第２特徴量の前記少なくとも一部と、に基づく第１教師データに基づいて、第１機械学習モデルを生成可能である、データ処理システム。

（構成２０）
処理部に、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を取得させ、
前記処理部に、前記複数の第１特徴量から前記複数の第１特徴量の少なくとも一部を選ばせ、前記複数の第２特徴量から前記複数の第２特徴量の少なくとも一部を選ばせ、前記処理部に、第１動作を実施させ、前記第１動作において、前記選ばれた前記複数の第１特徴量の前記少なくとも一部の第１数は、前記選ばれた前記複数の第２特徴量の前記少なくとも一部の第２数の１．１倍以上２倍以下であり、
前記処理部に、前記選ばれた前記複数の第１特徴量の前記少なくとも一部、及び、前記選ばれた前記複数の第２特徴量の前記少なくとも一部と、に基づく第１教師データに基づいて、第１機械学習モデルを生成させるプログラムが記憶された、記憶媒体。

（構成２１）
処理部に、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を取得させ、
前記処理部に、前記複数の第１特徴量から前記複数の第１特徴量の少なくとも一部を選ばせ、前記複数の第２特徴量から前記複数の第２特徴量の少なくとも一部を選ばせ、前記処理部に、第１動作を実施させ、前記第１動作において、前記選ばれた前記複数の第１特徴量の前記少なくとも一部の第１数は、前記選ばれた前記複数の第２特徴量の前記少なくとも一部の第２数の１．１倍以上２倍以下であり、
前記処理部に、前記選ばれた前記複数の第１特徴量の前記少なくとも一部、及び、前記選ばれた前記複数の第２特徴量の前記少なくとも一部と、に基づく第１教師データに基づいて、第１機械学習モデルを生成させる、プログラム。

（構成２２）
処理部に、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を取得させ、
前記処理部に、前記複数の第１特徴量から前記複数の第１特徴量の少なくとも一部を選ばせ、前記複数の第２特徴量から前記複数の第２特徴量の少なくとも一部を選ばせ、前記処理部に、第１動作を実施させ、前記第１動作において、前記選ばれた前記複数の第１特徴量の前記少なくとも一部の第１数は、前記選ばれた前記複数の第２特徴量の前記少なくとも一部の第２数の１．１倍以上２倍以下であり、
前記処理部に、前記選ばれた前記複数の第１特徴量の前記少なくとも一部、及び、前記選ばれた前記複数の第２特徴量の前記少なくとも一部と、に基づく第１教師データに基づいて、第１機械学習モデルを生成させる、データ処理方法。

実施形態によれば、精度の向上が可能なデータ処理装置、データ処理システム、及び、データ処理方法が提供できる。

以上、例を参照しつつ、本発明の実施の形態について説明した。しかし、本発明は、これらの例に限定されるものではない。例えば、データ処理装置に含まれる処理部などの構成に関しては、当業者が公知の範囲から適宜選択することにより本発明を同様に実施し、同様の効果を得ることができる限り、本発明の範囲に包含される。

各例のいずれか２つ以上の要素を技術的に可能な範囲で組み合わせたものも、本発明の要旨を包含する限り本発明の範囲に含まれる。

本発明の実施の形態として上述したデータ処理装置、データ処理システム、及び、データ処理方法を基にして、当業者が適宜設計変更して実施し得る全てのデータ処理装置、データ処理システム、及び、データ処理方法も、本発明の要旨を包含する限り、本発明の範囲に属する。

本発明の思想の範疇において、当業者であれば、各種の変更例及び修正例に想到し得るものであり、それら変更例及び修正例についても本発明の範囲に属するものと了解される。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

７０…処理部、７８…取得部、７９ａ…記憶部、７９ｂ…表示部、７９ｃ…入力部、１１０…データ処理装置、２１０…データ処理システム、ＣＮ１、ＣＰ１…パラメータ、Ｎ０…番号、ＯＰ１、ＯＰ２…第１、第２動作、Ｐ１、Ｐ２…第１、第２評価パラメータ

Claims

処理部を備え、
前記処理部は、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を取得可能であり、
前記処理部は、前記複数の第１特徴量から前記複数の第１特徴量の少なくとも一部を選ぶことが可能であり、前記複数の第２特徴量から前記複数の第２特徴量の少なくとも一部を選ぶことが可能であり、前記処理部は、第１動作を実施可能であり、前記第１動作において、前記選ばれた前記複数の第１特徴量の前記少なくとも一部の第１数は、前記選ばれた前記複数の第２特徴量の前記少なくとも一部の第２数の１．１倍以上２倍以下であり、
前記処理部は、前記選ばれた前記複数の第１特徴量の前記少なくとも一部、及び、前記選ばれた前記複数の第２特徴量の前記少なくとも一部と、に基づく第１教師データに基づいて、第１機械学習モデルを生成可能である、データ処理装置。
前記処理部は、前記第１分類ラベルに対応する複数の第３特徴量と、前記第２分類ラベルに対応する複数の第４特徴量と、を取得することがさらに可能であり、
前記処理部は、前記複数の第３特徴量から前記複数の第３特徴量の少なくとも一部を選ぶことが可能であり、前記複数の第４特徴量から前記複数の第４特徴量の少なくとも一部を選ぶことが可能であり、前記処理部は、第２動作を実施可能であり、前記第２動作において、前記選ばれた前記複数の第３特徴量の前記少なくとも一部の第３数は、前記選ばれた前記複数の第４特徴量の前記少なくとも一部の第４数の０．１倍以上０．９倍以下であり、
前記処理部は、前記選ばれた前記複数の第３特徴量の前記少なくとも一部、及び、前記選ばれた前記複数の第４特徴量の前記少なくとも一部と、に基づく第２教師データに基づいて、第２機械学習モデルをさらに生成可能である、請求項１に記載のデータ処理装置。
対象とする複数の事象は、前記第１分類ラベルに対応する複数の第３事象と、前記第２分類ラベルに対応する複数の第４事象と、を含み、
前記第２動作において、前記複数の事象における前記複数の第３事象の第３発生率は、前記複数の事象における前記複数の第４事象の第４発生率よりも低い、請求項２に記載のデータ処理装置。
前記第２動作において、前記第３発生率は、対象物の正常品の発生率に対応し、前記第４発生率は、前記対象物の非正常品の発生率に対応する、請求項３に記載のデータ処理装置。
対象とする複数の事象は、前記第１分類ラベルに対応する複数の第１事象と、前記第２分類ラベルに対応する複数の第２事象と、を含み、
前記第１動作において、前記複数の事象における前記複数の第１事象の第１発生率は、前記複数の事象における前記複数の第２事象の第２発生率よりも高い、請求項１または２に記載のデータ処理装置。
前記第１動作において、前記第１発生率は、対象物の正常品の発生率に対応し、前記第２発生率は、前記対象物の非正常品の発生率に対応する、請求項５に記載のデータ処理装置。
前記第１教師データは、前記複数の第１特徴量を特徴量スケーリング処理して得られる複数の量、及び、前記複数の第２特徴量を特徴量スケーリング処理して得られる複数の量と、に基づく、請求項１～６のいずれか１つに記載のデータ処理装置。
前記処理部は、分類動作がさらに可能であり、
前記分類動作において、前記処理部は、前記第１機械学習モデルに基づいて、別の特徴量を前記第１分類ラベルまたは前記第２分類ラベルに分類する、請求項１～７のいずれか１つに記載のデータ処理装置。
１または複数の処理部を備え、
前記処理部は、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を取得可能であり、
前記処理部は、前記複数の第１特徴量から前記複数の第１特徴量の少なくとも一部を選ぶことが可能であり、前記複数の第２特徴量から前記複数の第２特徴量の少なくとも一部を選ぶことが可能であり、前記処理部は、第１動作を実施可能であり、前記第１動作において、前記選ばれた前記複数の第１特徴量の前記少なくとも一部の第１数は、前記選ばれた前記複数の第２特徴量の前記少なくとも一部の第２数の１．１倍以上２倍以下であり、
前記処理部は、前記選ばれた前記複数の第１特徴量の前記少なくとも一部、及び、前記選ばれた前記複数の第２特徴量の前記少なくとも一部と、に基づく第１教師データに基づいて、第１機械学習モデルを生成可能である、データ処理システム。
処理部に、第１分類ラベルに対応する複数の第１特徴量と、第２分類ラベルに対応する複数の第２特徴量と、を取得させ、
前記処理部に、前記複数の第１特徴量から前記複数の第１特徴量の少なくとも一部を選ばせ、前記複数の第２特徴量から前記複数の第２特徴量の少なくとも一部を選ばせ、前記処理部に、第１動作を実施させ、前記第１動作において、前記選ばれた前記複数の第１特徴量の前記少なくとも一部の第１数は、前記選ばれた前記複数の第２特徴量の前記少なくとも一部の第２数の１．１倍以上２倍以下であり、
前記処理部に、前記選ばれた前記複数の第１特徴量の前記少なくとも一部、及び、前記選ばれた前記複数の第２特徴量の前記少なくとも一部と、に基づく第１教師データに基づいて、第１機械学習モデルを生成させる、データ処理方法。