JP2019079536A

JP2019079536A - 連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法

Info

Publication number: JP2019079536A
Application number: JP2018199173A
Authority: JP
Inventors: 朱定局; Dingju Zhu
Original assignee: Daguo Innovation Intelligent Tech Dongguan Co Ltd
Current assignee: Daguo Innovation Intelligent Tech Dongguan Co Ltd
Priority date: 2017-10-23
Filing date: 2018-10-23
Publication date: 2019-05-23
Anticipated expiration: 2038-10-23
Also published as: CN107704888B; CN107704888A; JP6928206B2

Abstract

【課題】本発明は連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法を開示した。【解決手段】まずNクラスデータサンプルセットと対応するラベルセットを取得し前処理し、その同時にデータプリセットフォーマット、ラベルプリセットフォーマットを取得し、それから深層学習ニューラルネットワークに対し訓練を行い、それから各クラスの任意一つのテストデータを当該クラスのデータプリセットフォーマットに変換した後に当該クラスの深層学習ニューラルネットワークの入力とし、対応するテスト出力ラベルを取得し、それからテスト出力ラベルが存在するラベルセットの要素の数及びデータセットの間の類似度の計算に基づき、可能出力ラベル及び最優出力ラベルを確定し、それから各クラスの出力ラベルが一致すると一致しない確率を計算し、最後に可能、最優出力ラベル及び前記の確率を出力する。【選択図】図１

Description

本発明は連合クラスタリング深層学習方法に関し、具体的には連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法に関する。

既存の深層学習はデータ入力を通じて出力ラベルを取得でき（例えばプロフィール画像を通じて当該人のIDカード番号を取得し、または音声を通じて当該人のIDカード番号を取得し）、しかしトップダウン監督学習段階ではラベル付きのデータの監督を通じて学習する必要がある（例えばIDカード番号付きのプロフィール画像、またはIDカード番号付きの音声である）。IDカード番号付きのプロフィール画像とIDカード番号付きのプロフィール画像音声の両方が同時にある場合、一つのプロフィール画像をプロフィール画像クラスが対応する深層学習ニューラルネットワークに入力して出力されたIDカード番号を取得でき、一つの音声を音声クラスが対応する深層学習ニューラルネットワークに入力して出力されたIDカード番号を取得し、それからプロフィール画像と音声それぞれの入力によって取得した前記出力されたIDカード番号が同じかどうかを判断し、
イエスであれば、前記一つのプロフィール画像と前記一つの音声が同一人物に対応し、
そうでなければ、前記一つのプロフィール画像と前記一つの音声が異なった人に対応する。

しかし、深層学習ニューラルネットワークの適確率が100％に達することができないため、一つのプロフィール画像をプロフィール画像クラスに対応する深層学習ニューラルネットワークに入力すると、プロフィール画像が似ている他人のIDカード番号が出る可能性があり、一つの音声を音声クラスの対応する深層学習ニューラルネットワークに入力すると、音声が似ている他人のIDカード番号が出力される可能性もあり、そうすると、同一人物に属しない一つのプロフィール画像と一つの音声を同一人物に対応するという判断が出て、異なった人物に属する一つのプロフィール画像と一つの音声を同一人物に対応するという判断が出る恐れがある。一つのプロフィール画像と一つの音声が同じでない人に対応すると判断すると、当該プロフィール画像と当該音声が同じ人に対応する確率を計算できない。一つのプロフィール画像と一つの音声が同じ人に対応すると判断すると、当該プロフィール画像と当該音声が同じでない人あるいは他の人の確率を計算できない。

音声、プロフィール画像、またはもっと他のタイプのデータの一種あるいは多種によってオブジエクトを識別する時、既存の深層学習技術を使用し、類似度や多種の深層学習の結果を総合利用してほかの可能性出力及び最優出力を計算できなく、これによりより精確な識別と判断を行うことができない。

中国特許出願公開第104951403号明細書

本発明は解決する必要な技術問題が連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法を提供する。

本発明の目的を実現する技術解決プランは：連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法であり、下記のステップを含む：

ステップ1は、まずNクラスデータサンプルセットと各クラスのデータサンプルセットが対応するラベルセットを取得し、また前記Nクラスデータサンプルセットの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得し、それからNクラスデータサンプルセットとラベルセットを前処理し、前記Nが1以上である。その中に、

前記Nクラスの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得し、具体的には：

各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットを取得し、当該クラスの中の同じデータフォーマットを合併しS種のデータフォーマットを取得し、当該クラスのデータサンプルセットの中の各種のデータフォーマットPiが対応するデータサンプル数Miを統計し、一番大きなMiが対応データフォーマットPiを当該クラスのデータサンプルのデータプリセットフォーマットとし、その中に、sが1以上であり、iが1以上且つs以下であり、

各クラスのデータサンプルセットが対応するラベルセットの中の各ラベルのラベルフォーマットを取得し、すべてのクラスの同じのラベルフォーマットを合併して少なくともt種のラベルフォーマットを取得し、当該クラスのラベルセットの中の各種のラベルフォーマットQjが対応するラベル数Njを統計し、一番大きなNjが対応するラベルフォーマットQjをラベルプリセットフォーマットとし、その中に、tが1以上であり、jが1以上且つt以下である。

Nクラスデータサンプルセットとラベルセットを前処理し、具体的には：

ステップ1-1、各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットが当該クラスのデータサンプルのデータプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換し、

ステップ1-2、各クラスのデータサンプルセットの中の各データサンプルが対応するラベルのデータフォーマットがラベルプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルが対応するラベルのデータフォーマットをラベルプリセットフォーマットに変換し、

ステップ1-3、Nクラスデータサンプルセットの中の各クラスのデータサンプルセットをクラスタリング処理し、J個のクラスタ化されたデータサンプルセット及びそれに対応する出力ラベルセットを取得し、

ステップ1-4、J個のクラスタ化された出力ラベルセットの各クラスの同じのラベルを合併し、更新されたJ個の出力ラベルセットを取得し、

ステップ1-5、更新されたJ個の出力ラベルセットの同じのラベルを持つラベルセット及び対応のデータサンプルセットをそれぞれ合併し、前処理されたデータサンプルセット及びそれに対応する出力ラベルセットを取得する。

前記ステップ2は、Nクラスデータサンプルセットが対応するN個の深層学習ニューラルネットワークを初期化し、具体的にはステップ2-1〜2-3を含み、

前記ステップ2-1は、各クラスのデータサンプルのデータプリセットフォーマットを当該クラスの対応する深層学習ニューラルネットワークの入力フォーマットとし、

前記ステップ2-2は、ラベルプリセットフォーマットを各クラスの対応する深層学習ニューラルネットワークの出力フォーマットとし、

前記ステップ2-3は、各クラスの対応する深層学習ニューラルネットワークの構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークの構成情報とし、また当該クラスの対応する深層学習ニューラルネットワークを配置する。具体的にはステップ2-3-1〜2-3-4を含み、

前記ステップ2-3-1は、深層学習ニューラルネットワーク構成知識ベースから入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとが一番一致する深層学習ニューラルネットワークの対応する構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とし、

その中に、入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとのマッチング程度＝入力フォーマットが当該クラスのデータプリセットフォーマットとのマッチング程度×u％+出力フォーマットがラベルプリセットフォーマットとのマッチング程度×(1-u％)、uのデフォルト値が90であり、

前記ステップ2-3-2は、各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報をユーザーに出力し、

前記ステップ2-3-3は、ユーザーによっての各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報の変更を取得し、

前記ステップ2-3-4は、変更された各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報を、当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とする。

前記ステップ3は、ステップ1で取得した各クラスのデータサンプルセットを入力とし、それに対応するラベルセットを出力とし、当該クラスの対応する深層学習ニューラルネットワークを訓練し、N個の訓練された深層学習ニューラルネットワークを取得し、具体的にはステップ3-1〜3-2を含み、

前記ステップ3-1は、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスの対応する深層学習ニューラルネットワークに対してアセンディングオーダーの監督なし訓練を行い、

前記ステップ3-2は、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスのデータサンプルセットが対応するラベルセットの中の当該データサンプルが対応するラベルを出力とし、当該クラスの対応する深層学習ニューラルネットワークに対しトップダウンの監督学習を行い、N個の訓練された深層学習ニューラルネットワークを取得する。

前記ステップ4は、各クラスの対応する深層学習ニューラルネットワークのために一つのテストデータを取得し、各クラスのテストデータのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換し、それから当該テストデータを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該深層学習ニューラルネットワークの計算を通じて当該クラスが対応するテスト出力ラベルを取得し、

前記ステップ5は、ステップ1で前処理されたラベルセットの中で各クラスのテスト出力ラベルが存在するラベルセットを検索し、それから当該ラベルセットが一つのラベル要素しか持っていないかどうかを判断し、もし各クラスのテスト出力ラベルが存在するラベルセットが一つのラベル要素しか持っていなければ、各クラスのテスト出力ラベルを当該クラスの最優出力ラベルとし、そうでなければ次のステップに進み、

前記ステップ6は、各クラスのテスト出力ラベルが対応するデータサンプルセットと当該クラスのテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、それから当該類似度に基づいて各組の可能出力ラベルを計算して決定し、その中に、各組の可能出力ラベルの中には各クラスの一つの可能出力ラベルが含まれ、具体的には：

N＝1であれば、テスト出力ラベルが対応するデータサンプルセットとテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、類似度が第一プリセット値aを超えるすべてのラベル要素を一組の可能出力ラベルとし、

N>1であれば、第iクラスのテスト出力ラベルが対応するデータサンプルセットDiを取得し、第iクラスのテスト出力ラベルが存在するラベルセットの中のラベル要素の数miを取得し、第iクラスのテスト出力ラベルが存在するラベルセットの中の第j個のラベル要素が対応するデータサンプルセットDijを取得し、DiとDijの類似度Pijを計算し、その中に、iが1からNまでの各自然数であり、jが1からmiまでの各自然数であり、

k1、k2、…、kNの各値に対し、類似度第一綜合値f(P1k1、P2k2、…、PNkN)を計算し、もしf(P1k1、P2k2、…、PNkN)が第二プリセット値bより大きければ、第一クラスのテスト出力ラベルが存在するラベルセットの中の第k1番のラベル要素、第二クラスのテスト出力ラベルが存在するラベルセットの中の第k2番のラベル要素、…、第Nクラスのテスト出力ラベルが存在するラベルセットの中の第kN番のラベル要素を、一組の可能出力ラベルとし、その中に、k1が1からm1までの各自然数であり、k2が1からm2までの各自然数であり、…、kNが1からmNまでの各自然数であり、f(P1k1、P2k2、…、PNkN)が(P1k1、P2k2、…、PNkN)の乗積である。

前記ステップ7は、各組の可能出力ラベルの中の各クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、また当該類似度に基づいて一組の可能出力ラベルを計算決定して最優出力ラベルとし、具体的には：

N＝1の場合、各組の可能出力ラベルの中の可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、一番大きな類似度が対応する一組の可能出力ラベルを取得して一組の最優出力ラベルとし、

N>1の場合、各組の可能出力ラベルの中の第iクラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度Piを計算し、それから類似度第二綜合値g(P1、P2、…、PN)を計算し、一番大きな類似度第二綜合値が対応する一組の可能出力ラベルを取得し一組の最優出力ラベルとし、その中にg(P1、P2、…、PN)が(P1、P2、…、PN)の乗積であり、その中に、iが1からNまでの各自然数を取る。

前記ステップ8は、可能出力ラベルの中の各クラスの出力ラベルの一致する確率と一致しない確率を計算し、各クラスの出力ラベルの一致する確率と一致しない確率とし、具体的には：

N＝1の場合、一クラスの出力ラベルしかなく、従って各クラスの出力ラベルが一致する確率が100％であり、一致しない確率が0％であり、

N>1の場合、まず各組の可能出力ラベルの中の各クラスの可能出力ラベルが一致するかどうかを判断し、

また一致すると判断される各組の可能出力ラベルが対応する類似度第二綜合値の和をすべての可能出力ラベルが対応する類似度第二綜合値の和と除算し、各クラスの出力ラベルが一致する確率を取得し、

最後に100％から各クラスの出力ラベルが一致する確率を引いて各クラスの出力ラベルの一致しない確率を取得する。

前記ステップ9は、可能出力ラベル、最優出力ラベル、各クラスの出力ラベルの一致する確率及び一致しない確率を出力する。

本発明は現存の技術に比べて、下記の著しい効果を有する：本発明が深層学習ニューラルネットワークと類似度計算を有機的に結合し、出力の結果を豊かにし、出力の適確率を高める。本発明が類似度計算を結合する方法を採用し、長所を見習って短所を補い、これにより類似度計算を通じて深層学習ニューラルネットワークが出力ラベルの数が多く入力サンプルが足りないときの出力正確度の不足を補い、さらに出力の正確度を高める。

下記に附図をあわせて本発明について詳しく説明する。

図1は本発明の連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法のフローチャートである。図2は本発明の連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法の中のデータサンプルセットとラベルセットを前処理するフローチャートである。図3は本発明の連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法の中の深層学習ニューラルネットワーク訓練のフローチャートである。

附図を合わせて、本発明の連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法は、ステップ１〜９を含み、

前記ステップ1は、まずNクラスデータサンプルセットと各クラスのデータサンプルセットが対応するラベルセットを取得し、また前記Nクラスデータサンプルセットの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得し、それからNクラスデータサンプルセットとラベルセットを前処理し、前記Nが1以上であり、

前記Nクラスの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得するのは、具体的には：

Nクラスデータサンプルセットとラベルセットを前処理するのは、具体的には：

前記ステップ2は、Nクラスデータサンプルセットが対応するN個の深層学習ニューラルネットワークを初期化し、具体的には：

ステップ2-1、各クラスのデータサンプルのデータプリセットフォーマットを当該クラスの対応する深層学習ニューラルネットワークの入力フォーマットとし、

ステップ2-2、ラベルプリセットフォーマットを各クラスの対応する深層学習ニューラルネットワークの出力フォーマットとし、

ステップ2-3、各クラスの対応する深層学習ニューラルネットワークの構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークの構成情報とし、また当該クラスの対応する深層学習ニューラルネットワークを配置する。具体的には：

ステップ2-3-1、深層学習ニューラルネットワーク構成知識ベースから入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとが一番一致する深層学習ニューラルネットワークの対応する構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とし、

ステップ2-3-2、各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報をユーザーに出力し、

ステップ2-3-3、ユーザーによっての各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報の変更を取得し、

ステップ2-3-4、変更された各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報を、当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とする。

前記ステップ3は、ステップ1で取得した各クラスのデータサンプルセットを入力とし、それに対応するラベルセットを出力とし、当該クラスの対応する深層学習ニューラルネットワークを訓練し、N個の訓練された深層学習ニューラルネットワークを取得し、具体的には：

ステップ3-1、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスの対応する深層学習ニューラルネットワークに対してアセンディングオーダーの監督なし訓練を行い、

ステップ3-2、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスのデータサンプルセットが対応するラベルセットの中の当該データサンプルが対応するラベルを出力とし、当該クラスの対応する深層学習ニューラルネットワークに対しトップダウンの監督学習を行い、N個の訓練された深層学習ニューラルネットワークを取得する。

データサンプルセットAとデータサンプルセットBの類似度＝max(データサンプルセットAの中の各サンプルとデータサンプルセットBの中の各サンプルの類似度)。

本発明が深層学習ニューラルネットワークと類似度計算を有機的に結合し、出力の結果を豊かにし、出力の適確率を高める。本発明が類似度計算を結合する方法を採用し、長所を見習って短所を補い、これにより類似度計算を通じて深層学習ニューラルネットワークが出力ラベルの数が多く入力サンプルが足りないときの出力正確度の不足を補い、さらに出力の正確度を高める。

下記に附図及び具体的な実施方式をあわせて本発明について詳しく説明する。

実施例

二クラスのデータサンプルセットと、それが対応するラベルセットとを例とする。第一クラスのデータサンプルセットが「プロフィール画像11、プロフィール画像12、プロフィール画像13、プロフィール画像14、…、プロフィール画像1m」であり、対応する第一クラスの出力ラベルのセットが「IDカード番号11、IDカード番号12、IDカード番号13、IDカード番号14、…、IDカード番号1m」であり、その中に、プロフィール画像11がIDカード番号11に対応し、プロフィール画像12がIDカード番号12に対応し、プロフィール画像13がIDカード番号13に対応し、プロフィール画像14がIDカード番号14に対応し、……、プロフィール画像1nがIDカード番号1nに対応する。その中に同じIDカード番号が存在する可能性があり、例えばIDカード番号13とIDカード番号16が同じである。第二クラスのデータサンプルセットが「音声21、音声22、音声23、音声24、…、音声2n」であり、対応する第一クラスの出力ラベルのセットが「IDカード番号21、IDカード番号22、IDカード番号23、IDカード番号24、…、IDカード番号2n」であり、その中に、音声21がIDカード番号21に対応し、音声22がIDカード番号22に対応し、音声23がIDカード番号23に対応し、音声24がIDカード番号24に対応し、……、音声2nがIDカード番号2nに対応する。その中に同じIDカード番号が存在する可能性があり、例えばIDカード番号22とIDカード番号28が同じである。

図1を合わせて、本発明の連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法は、ステップ１〜９を含み、

前記ステップ1は、まず二クラスのデータサンプルセットと各クラスのデータサンプルセットが対応するラベルセットを取得し、また前記二クラスのデータサンプルセットの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得し、具体的には：

各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットを取得し、当該クラスの中の同じデータフォーマットを合併しs 種のデータフォーマットを取得し、当該クラスのデータサンプルセットの中の各種のデータフォーマットPiが対応するデータサンプル数Miを統計し、一番大きなMiが対応データフォーマットPiを当該クラスのデータサンプルのデータプリセットフォーマットとし、その中に、sが1以上であり、iが1以上且つs以下である。例えば、第一クラスのデータサンプルが画像サンプルであり、第二クラスのデータサンプルが音声サンプルである。第一クラスのデータサンプルを例とし、第一クラスのデータサンプルセットの中に480x 640ピクセルのJPEG画像データフォーマットのデータサンプルが809個あり、480x 640ピクセルのTIFF画像データフォーマットのデータサンプルが8367個あり、480x 640ピクセルのBMP画像データフォーマットのデータサンプルが67個あり、2576x 1932ピクセルのJPEG画像データフォーマットのデータサンプルが5362個あり、2576x 1932ピクセルのTIFF画像データフォーマットのデータサンプルが32個あり、2576x 1932ピクセルのBMP画像データフォーマットのデータサンプルが136個あり、その中にデータサンプル数が一番大きなデータフォーマットが480x 640ピクセルのTIFF画像データフォーマットであり、従って480x 640ピクセルのTIFF画像データフォーマットを第一クラスのデータサンプルのデータプリセットフォーマットとする。

各クラスのデータサンプルセットが対応するラベルセットの中の各ラベルのラベルフォーマットを取得し、すべてのクラスの同じのラベルフォーマットを合併して少なくともt種のラベルフォーマットを取得し、当該クラスのラベルセットの中の各種のラベルフォーマットQjが対応するラベル数Njを統計し、一番大きなNjが対応するラベルフォーマットQjをラベルプリセットフォーマットとし、その中に、tが1以上であり、jが1以上且つt以下である。例えば、データサンプルセットに対応するラベルセットが二クラスあり、第一クラスのデータサンプルセットが対応するラベルセットの中に、IDカード番号ラベルが5636個あり、名前ラベルが5426個あり、第二クラスのデータサンプルセットが対応するラベルセットの中に、IDカード番号ラベルが2654個あり、名前ラベルが235個あり、二クラスのデータサンプルセットが対応するラベルセットの中にIDカード番号ラベルが8290個あり、名前ラベルが5661個あり、従ってIDカード番号ラベルをラベルプリセットフォーマットとする。

それから入力する二クラスのデータサンプルセットとラベルセットを前処理し、図2を合わせて、第一クラスのデータサンプルセットとラベルセットを例とし、具体的な過程が下記の通りである：

ステップ1-1、各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットが当該クラスのデータサンプルのデータプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換する。例えば、480x 640ピクセルのTIFF画像データフォーマットが第一クラスのデータサンプルのデータプリセットフォーマットであり、第一クラスのデータサンプルセットの中の一つのデータサンプルのデータフォーマットも480x 640ピクセルのTIFF画像データフォーマットであれば、第一クラスのデータサンプルのデータプリセットフォーマットと同じであり、変換する必要がなく、第一クラスのデータサンプルセットの中の一つのデータサンプルのデータフォーマットが2576x 1932ピクセルのJPEG画像データフォーマットであれば、第一クラスのデータサンプルのデータプリセットフォーマットと違い、480x 640ピクセルのTIFF画像データフォーマットに変換する必要がある。

ステップ1-2、各クラスのデータサンプルセットの中の各データサンプルが対応するラベルのデータフォーマットがラベルプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルが対応するラベルのデータフォーマットをラベルプリセットフォーマットに変換する。例えば、IDカード番号ラベルがラベルプリセットフォーマットとして、第一クラスのデータサンプルセットの中の一つのデータサンプルが対応するラベルのデータフォーマットがIDカード番号フォーマットであれば、ラベルプリセットフォーマットと同じであり、変換する必要がなく、第一クラスのデータサンプルセットの中の一つのデータサンプルが対応するラベルのデータフォーマットが名前フォーマットであれば、ラベルプリセットフォーマットと違い、IDカード番号フォーマットに変換する必要がある。

ステップ1-3、第一クラスのデータサンプルセットをクラスタリング処理し、j個のクラスタ化されたデータサンプルセット及びそれに対応する出力ラベルセットを取得する。具体的には：

まず第一クラスのデータサンプルセット「プロフィール画像11、プロフィール画像12、プロフィール画像13、プロフィール画像14、…、プロフィール画像1m」をクラスタ化し、クラスタリングの規則が下記の通りである：類似度がプロフィール画像類似度プリセット閾値（デフォルト値が90％である）より大きであるプロフィール画像を同じクラスタリングに加入し（すなわち上記プロフィール画像内部に類似度計算を行い、類似度が90％より大きい場合、相応のプロフィール画像を一つのクラスタリングに加入し）、一つのクラスタリングの中の任意一つのプロフィール画像に対して当該クラスタリングで当該プロフィール画像との類似度がプロフィール画像類似度プリセット閾値（デフォルト値が90％である）より大きなもう一つのプロフィール画像が存在し、その同時に一つのクラスタリングの中の任意一つのプロフィール画像に対してもう一つのクラスタリングにおいて当該プロフィール画像との類似度がプロフィール画像類似度プリセット閾値（デフォルト値が90％である）より大きなプロフィール画像が存在しなく、各プロフィール画像が一つのクラスタリングにしか属しない。当該クラスタリングの規則に基づき、第一番のクラスタリング「プロフィール画像111、プロフィール画像112、…、プロフィール画像11m1」、第二番のクラスタリング「プロフィール画像211、プロフィール画像212、…、プロフィール画像21m2」、第三番のクラスタリング「プロフィール画像311、プロフィール画像312、…、プロフィール画像31m3」、 …、第j番のクラスタリング「プロフィール画像j11、プロフィール画像j12、…、プロフィール画像j1mj」を取得する。

それから第一クラスのデータサンプルセットが対応するラベルセットをクラスタ化する。第一クラスのデータサンプルセットの第一番のクラスタリング「プロフィール画像111、プロフィール画像112、…、プロフィール画像11m1」が対応する出力ラベルセットが「IDカード番号111、IDカード番号112、…、IDカード番号11m1」であり、第一クラスの出力ラベルの第一番のクラスタリングとし、データサンプルセットの第二番のクラスタリング「プロフィール画像211、プロフィール画像212、…、プロフィール画像21m2」が対応する出力ラベルセットが「IDカード番号211、IDカード番号212、…、IDカード番号21m2」であり、第一クラスの出力ラベルの第二番のクラスタリングとし、…、データサンプルセットの第j番のクラスタリング「プロフィール画像j11、プロフィール画像j12、…、プロフィール画像j1mj」が対応する出力ラベルセットが「IDカード番号j11、IDカード番号j12、…、IDカード番号j1mj」であり、第一クラスの出力ラベルの第j番のクラスタリングとする。

ステップ1-4、前記J個のクラスタ化された出力ラベルセットの各クラスの同じのラベルを合併し、更新されたJ個の出力ラベルセットを取得し、

ステップ1-5、更新されたJ個の出力ラベルセットの同じラベルを持つラベルセットと、対応のデータサンプルセットとをそれぞれ合併し、前処理されたデータサンプルセットと、それに対応する出力ラベルセットとを取得する。

例えば、第一クラスのデータサンプルセットの第一番のクラスタリング「プロフィール画像111、プロフィール画像112、…、プロフィール画像11m1」が対応する出力ラベルセットが「IDカード番号111、IDカード番号112、…、IDカード番号11m1」であり、データサンプルセットの第二番のクラスタリング「プロフィール画像211、プロフィール画像212、…、プロフィール画像21m2」が対応する出力ラベルセットが「IDカード番号211、IDカード番号212、…、IDカード番号21m2」であり、もし第二番のクラスタリングが対応する出力ラベルのセットの中のIDカード番号212と第一番のクラスタリングが対応する出力ラベルセットの中のIDカード番号116が同じであれば、第二番のクラスタリングが対応する出力ラベルのセットを第一番のクラスタリングが対応する出力ラベルセットに合併し、その同時に第二番のクラスタリングが対応するデータサンプルセットを第一番のクラスタリングが対応するデータサンプルセットに合併する。

ステップ2は、Nクラスデータサンプルセットが対応するN個の深層学習ニューラルネットワークを初期化する。

ステップ3は、ステップ1で取得した各クラスのデータサンプルセットを入力とし、それに対応するラベルセットを出力とし、当該クラスの対応する深層学習ニューラルネットワークに対し訓練を行い、二つの訓練された深層学習ニューラルネットワークを取得する。図3を合わせて、具体的には：

ステップ3-2、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、対応するラベルセットの中の対応するラベルを出力とし、当該クラスの対応する深層学習ニューラルネットワークに対しトップダウンの監督学習を行い、二つの訓練された深層学習ニューラルネットワークを取得する。

ステップ4は、各クラスの対応する深層学習ニューラルネットワークのために一つのテストデータを取得し、各クラスのテストデータのデータフォーマットを当該クラスのデータのデータプリセットフォーマットに変換する。例えば、480x 640ピクセルのTIFF画像データフォーマットが第一クラスのデータサンプルのデータプリセットフォーマットであり、もし第一クラスの当該一つのテストデータのデータフォーマットも480x640ピクセルのTIFF画像データフォーマットであれば、第一クラスのデータサンプルのデータプリセットフォーマットと同じであり、変換する必要がなく、もし第一クラスの当該一つのテストデータのデータフォーマットが2576x 1932ピクセルのJPEG画像データフォーマットであれば、第一クラスのデータサンプルのデータプリセットフォーマットと同じでなく、480x 640ピクセルのTIFF画像データフォーマットに変換する必要がある。

それから当該テストデータを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該深層学習ニューラルネットワークの計算を通じて当該クラスが対応するテスト出力ラベルを取得する。例えば、第一クラスの任意一つのテストデータ「プロフィール画像1p」を第一クラスが対応する深層学習ニューラルネットワークに入力し、テスト出力ラベル「張三のIDカード番号」を取得し、第二クラスの任意一つのテストデータ「音声2q」を第二クラスが対応する深層学習ニューラルネットワークに入力し、テスト出力ラベル「李四のIDカード番号」を取得する。

ステップ5は、ステップ1で前処理されたラベルセットの中から各クラスのテスト出力ラベルが存在するラベルセットを検索し、また当該ラベルセットが一つのラベル要素しか持っていないかどうかを判断し、もし各クラスのテスト出力ラベルが存在するラベルセットが一つのラベル要素しか持っていなければ、各クラスのテスト出力ラベルを当該クラスの最優出力ラベルとし、すなわちステップ4の中の「張三のIDカード番号」、「李四のIDカード番号」をそれぞれ第一クラス、第二クラスの最優出力ラベルとし、そうでなければ次のステップに進み、

ステップ6は、各クラスのテスト出力ラベルが対応するデータサンプルセットと当該クラスのテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、それから当該類似度に基づいて各組の可能出力ラベルを計算して決定し、その中に、各組の可能出力ラベルの中には各クラスの一つの可能出力ラベルが含まれる。例えば、ステップ4の中の「張三のIDカード番号」が存在する第一クラスの出力ラベルセットが「朱一のIDカード番号、鄭二のIDカード番号、張三のIDカード番号、呉七のIDカード番号」であり、対応するデータサンプルセットがそれぞれ「朱一のプロフィール画像セット、鄭二のプロフィール画像セット、張三のプロフィール画像セット、呉七のプロフィール画像セット」であり、「李四のIDカード番号」が存在する第二クラスの出力ラベルセットが「田一のIDカード番号、李四のIDカード番号、呉七のIDカード番号」であり、対応するデータサンプルセットがそれぞれ「田一の音声セット、李四の音声セット、呉七の音声セット」である。Nクラスデータサンプルセット及びそれに対応するラベルセットがあると仮定し、具体的な過程が下記二つの状況に分けられる：

(1)N＝1：一クラスのデータサンプルセット及び対応するラベルセットしかない。例えば上記第一クラスのデータサンプルセット及び対応するラベルセットしか存在しない。

テスト出力ラベルが対応するデータサンプルセット「張三のプロフィール画像セット」とテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算する。「張三のプロフィール画像セット」と「朱一のプロフィール画像セット」の類似度a1が80％、「張三のプロフィール画像セット」と「鄭二のプロフィール画像セット」の類似度a2が90％、「張三のプロフィール画像セット」と「張三のプロフィール画像セット」の類似度a3が100％、「張三のプロフィール画像セット」と「呉七のプロフィール画像セット」の類似度a4が92％であることが分かる。その中に、a2、a3、a4がいずれも第一プリセット値80％より大きく、従って3組の可能出力ラベルが存在し、それぞれ「鄭二のIDカード番号」、「張三のIDカード番号」、「呉七のIDカード番号」である。

(2)N>1：複数のクラスのデータサンプルセットと、対応するラベルセットとがある。例えばN＝2の場合、上記第一クラスのデータサンプルセット及び対応するラベルセット、第二クラスのデータサンプルセット及び対応するラベルセットを含む。

まず第一クラスのテスト出力ラベルが対応するデータサンプルセット「張三のプロフィール画像セット」とテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算する。類似度の計算結果が上記N＝1の状況と同じである。

それから第二クラスのテスト出力ラベルが対応するデータサンプルセット「李四の音声セット」とテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算する。「李四の音声セット」と「田一の音声セット」の類似度b1が95％、「李四の音声セット」と「李四の音声セット」の類似度b2が100％、「李四の音声セット」と「呉七の音声セット」の類似度b3が85％であることが分かる。

最後にすべての可能出力ラベル組のそれぞれの類似度第一綜合値を計算し、出力ラベル組c1「朱一のIDカード番号、田一のIDカード番号」の類似度第一綜合値f1が80％×95％＝76％であり、出力ラベル組c2「朱一のIDカード番号、李四のIDカード番号」の類似度第一綜合値f2が80％×100％＝80％であり、出力ラベル組c3「朱一のIDカード番号、呉七のIDカード番号」の類似度第一綜合値f3が80％×85％＝68％であり、出力ラベル組c4「鄭二のIDカード番号、田一のIDカード番号」の類似度第一綜合値f4が90％×95％＝85.5％であり、出力ラベル組c5「鄭二のIDカード番号、李四のIDカード番号」の類似度第一綜合値f5が90％×100％＝90％であり、出力ラベル組c6「鄭二のIDカード番号、呉七のIDカード番号」の類似度第一綜合値f6が90％×85％＝76.5％であり、出力ラベル組c7「張三のIDカード番号、田一のIDカード番号」の類似度第一綜合値f7が100％×95％＝95％であり、出力ラベル組c8「張三のIDカード番号、李四のIDカード番号」の類似度第一綜合値f8が100％×100％＝100％であり、出力ラベル組c9「張三のIDカード番号、呉七のIDカード番号」の類似度第一綜合値f9が100％×85％＝85％であり、出力ラベル組c10「呉七のIDカード番号、田一のIDカード番号」の類似度第一綜合値f10が92％×95％＝87.4％であり、出力ラベル組c11「呉七のIDカード番号、李四のIDカード番号」の類似度第一綜合値f11が92％×100％＝92％であり、出力ラベル組c12「呉七のIDカード番号、呉七のIDカード番号」の類似度第一綜合値p12が92％×85％＝78.2％である。その中にf4、f5、f7、f8、f10、f11がいずれも第二プリセット値85％より大きく、従って6組の可能出力ラベルがあり、それぞれc4、c5、c7、c8、c10、c11が対応する出力ラベル組である。

ステップ7は、ステップ6で取得した各組の可能出力ラベルの中の各クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、また当該類似度に基づき一組の可能出力ラベルを計算決定し最優出力ラベルとする。ステップ6の中の内容に対応し、具体的な過程が下記二つの状況に分けられる：

(1)N＝1：ステップ6からわかるように、それぞれ3組の可能出力ラベル「鄭二のIDカード番号」、「張三のIDカード番号」と「呉七のIDカード番号」がある。その中に可能出力ラベル「張三のIDカード番号」の類似度値が一番大きく、従ってそれを最優出力ラベル組とする。

(2)N>1：ステップ6からわかるように、c4、c5、c7、c8、c10、c11全部で6組の可能出力ラベルがあり、具体的な過程が下記の通りである：

まず各組の可能出力ラベルの中の第一クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセット「張三のプロフィール画像セット」の類似度を計算する。「鄭二のプロフィール画像セット」と「張三のプロフィール画像セット」の類似度が90％、「張三のプロフィール画像セット」と「張三のプロフィール画像セット」の類似度が100％、「呉七のプロフィール画像セット」と「張三のプロフィール画像セット」の類似度が92％であることが分かる。

それから各組の可能出力ラベルの中の第二クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセット「李四の音声セット」の類似度を計算する。「李四の音声セット」と「李四の音声セット」の類似度が100％、「田一の音声セット」と「李四の音声セット」の類似度が95％であることが分かる。

c4出力ラベル組「鄭二のIDカード番号、田一のIDカード番号」の類似度第二綜合値g4が90％×95％＝85.5％であり、c5出力ラベル組「鄭二のIDカード番号、李四のIDカード番号」の類似度第二綜合値g5が90％×100％＝90％であり、c7出力ラベル組「張三のIDカード番号、田一のIDカード番号」の類似度第二綜合値g7が100％×95％＝95％であり、c8出力ラベル組「張三のIDカード番号、李四のIDカード番号」の類似度第二綜合値g8が100％×100％＝100％であり、c10出力ラベル組「呉七のIDカード番号、田一のIDカード番号」の類似度第二綜合値g10が92％×95％＝87.4％であり、c11出力ラベル組「呉七のIDカード番号、李四のIDカード番号」の類似度第二綜合値g11が92％×100％＝92％である。その中に一番大きな類似度第二綜合値がg8であり、従ってc8出力ラベル組「張三のIDカード番号、李四のIDカード番号」を最優出力ラベル組とする。

ステップ8は、可能出力ラベルの中の各クラスの出力ラベルが一致する確率と一致しない確率を計算し、各クラスの出力ラベルが一致する確率と一致しない確率とする。ステップ6の中の内容に対応し、具体的な過程が下記二つの状況に分けられる：

(1)N＝1であれば、ステップ6からわかるように、一クラスの出力ラベルしかなく、従って各クラスの出力ラベルが一致する確率が100％であり、一致しない確率が0％であり、

(2)N>1：ステップ6からわかるように、c4、c5、c7、c8、c10、c11全部で6組の可能出力ラベルがある。その中にc4出力ラベル組「鄭二のIDカード番号、田一のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、c5出力ラベル組「鄭二のIDカード番号、李四のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、c7出力ラベル組「張三のIDカード番号、田一のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、c8出力ラベル組「張三のIDカード番号、李四のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、c10出力ラベル組「呉七のIDカード番号、田一のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、c11出力ラベル組「呉七のIDカード番号、李四のIDカード番号」の中に各クラスの可能出力ラベルが一致しない。上記からわかるように、すべての可能出力ラベル組の中に各クラスの可能出力ラベルがいずれも一致しなく、従って各クラスの出力ラベルが一致する確率が0％であり、一致しない確率が100％である。各クラスのテストサンプルが同じ人に対応する確率が0％であると表示する。

過程をさらに説明するため、四組の可能出力ラベルd4、d6、d10、d11があると仮定し、d4出力ラベル組「鄭二のIDカード番号、鄭二のIDカード番号」の中に各クラスの可能出力ラベルが一致し、対応する類似度第二綜合値が89％であり、d6出力ラベル組「張三のIDカード番号、張三のIDカード番号」の中に各クラスの可能出力ラベルが一致し、対応する類似度第二綜合値が53％であり、d10出力ラベル組「鄭二のIDカード番号、李四のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、対応する類似度第二綜合値が67％であり、d11出力ラベル組「張三のIDカード番号、鄭二のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、対応する類似度第二綜合値が75％である。

一致すると判断される各組の可能出力ラベルが対応する類似度第二綜合値の和(89％+53％)をすべての可能出力ラベルが対応する類似度第二綜合値の和(89％+53％+67％+75％)で割ると、各クラスの出力ラベルが一致する確率が50％であることが分かる。100％から各クラスの出力ラベルが一致する確率50％を引くと、各クラスの出力ラベルが一致しない確率が50％であることが分かる。

ステップ9は、可能出力ラベル、最優出力ラベル、各クラスの出力ラベルの一致する確率及び一致しない確率を出力する。

上記からわかるように、本発明が類似度計算を通じて、出力ラベルの数が多くて入力サンプルが足りないときの深層学習ニューラルネットワークの出力正確度の不足を補い、さらに出力の正確度を高める。

Claims

連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法は、ステップ１〜９を含み、
ステップ1は、まずNクラスデータサンプルセットと各クラスのデータサンプルセットが対応するラベルセットを取得し、また前記Nクラスデータサンプルセットの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得し、それからNクラスデータサンプルセットとラベルセットを前処理し、前記Nが1以上であり、
ステップ2は、Nクラスデータサンプルセットが対応するN個の深層学習ニューラルネットワークを初期化し、
ステップ3は、ステップ1で取得した各クラスのデータサンプルセットを入力とし、それに対応するラベルセットを出力とし、当該クラスの対応する深層学習ニューラルネットワークを訓練し、N個の訓練された深層学習ニューラルネットワークを取得し、
ステップ4は、各クラスの対応する深層学習ニューラルネットワークのために一つのテストデータを取得し、各クラスのテストデータのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換し、それから当該テストデータを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該深層学習ニューラルネットワークの計算を通じて当該クラスが対応するテスト出力ラベルを取得し、
ステップ5は、ステップ1で前処理されたラベルセットの中で各クラスのテスト出力ラベルが存在するラベルセットを検索し、それから当該ラベルセットが一つのラベル要素しか持っていないかどうかを判断し、もし各クラスのテスト出力ラベルが存在するラベルセットが一つのラベル要素しか持っていなければ、各クラスのテスト出力ラベルを当該クラスの最優出力ラベルとし、そうでなければ次のステップに進み、
ステップ6は、各クラスのテスト出力ラベルが対応するデータサンプルセットと当該クラスのテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、それから当該類似度に基づいて各組の可能出力ラベルを計算して決定し、その中に、各組の可能出力ラベルの中には各クラスの一つの可能出力ラベルが含まれ、
ステップ7は、各組の可能出力ラベルの中の各クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、また当該類似度に基づいて一組の可能出力ラベルを計算決定して最優出力ラベルとし、
ステップ8は、可能出力ラベルの中の各クラスの出力ラベルの一致する確率と一致しない確率を計算し、各クラスの出力ラベルの一致する確率と一致しない確率とし、
ステップ9は、可能出力ラベル、最優出力ラベル、各クラスの出力ラベルの一致する確率及び一致しない確率を出力し、
前記Nクラスの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得するのは、具体的には、
各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットを取得し、当該クラスの中の同じのデータフォーマットを合併してs 種のデータフォーマットを取得し、当該クラスのデータサンプルセットの中の各種のデータフォーマットPiが対応するデータサンプル数Miを統計し、一番大きなMiが対応データフォーマットPiを当該クラスのデータサンプルのデータプリセットフォーマットとするステップ（sが1以上であり、iが1以上且つs以下である）と、
各クラスのデータサンプルセットが対応するラベルセットの中の各ラベルのラベルフォーマットを取得し、すべてのクラスの同じのラベルフォーマットを合併して少なくともt種のラベルフォーマットを取得し、当該クラスのラベルセットの中の各種のラベルフォーマットQjが対応するラベル数Njを統計し、一番大きなNjが対応するラベルフォーマットQjをラベルプリセットフォーマットとする（tが1以上であり、jが1以上且つt以下である）ステップを含み、
Nクラスデータサンプルセットとラベルセットを前処理するステップ1は、具体的にはステップ1-1〜ステップ1-5を含み、
ステップ1-1、各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットが当該クラスのデータサンプルのデータプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換し、
ステップ1-2、各クラスのデータサンプルセットの中の各データサンプルが対応するラベルのデータフォーマットがラベルプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルが対応するラベルのデータフォーマットをラベルプリセットフォーマットに変換し、
ステップ1-3、Nクラスデータサンプルセットの中の各クラスのデータサンプルセットをクラスタリング処理し、J個のクラスタ化されたデータサンプルセット及びそれに対応する出力ラベルセットを取得し、
ステップ1-4、J個のクラスタ化された出力ラベルセットの各クラスの同じのラベルを合併し、更新されたJ個の出力ラベルセットを取得し、
ステップ1-5、更新されたJ個の出力ラベルセットの同じのラベルを持つラベルセット及び対応のデータサンプルセットをそれぞれ合併し、前処理されたデータサンプルセット及びそれに対応する出力ラベルセットを取得し、
Nクラスデータサンプルセットが対応するN個の深層学習ニューラルネットワークを初期化するのは、具体的にはステップ2-1〜2-3を含み、
ステップ2-1、各クラスのデータサンプルのデータプリセットフォーマットを当該クラスの対応する深層学習ニューラルネットワークの入力フォーマットとし、
ステップ2-2、ラベルプリセットフォーマットを各クラスの対応する深層学習ニューラルネットワークの出力フォーマットとし、
ステップ2-3、各クラスの対応する深層学習ニューラルネットワークの構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークの構成情報とし、また当該クラスの対応する深層学習ニューラルネットワークを配置し、
各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークの構成情報とするのは、具体的にはステップ2-3-1〜2-3-4を含み、
ステップ2-3-1、深層学習ニューラルネットワーク構成知識ベースから入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとが一番一致する深層学習ニューラルネットワークの対応する構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とし、
その中に、入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとのマッチング程度＝入力フォーマットが当該クラスのデータプリセットフォーマットとのマッチング程度×u％+出力フォーマットがラベルプリセットフォーマットとのマッチング程度×(1-u％)、uのデフォルト値が90であり、
ステップ2-3-2、各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報をユーザーに出力し、
ステップ2-3-3、ユーザーによっての各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報の変更を取得し、
ステップ2-3-4、変更された各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報を、当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とし、
ステップ1で取得した各クラスのデータサンプルセットを入力とし、それに対応するラベルセットを出力とし、当該クラスの対応する深層学習ニューラルネットワークを訓練し、N個の訓練された深層学習ニューラルネットワークを取得するのは、具体的にはステップ3-1〜3-2を含み、
ステップ3-1、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスの対応する深層学習ニューラルネットワークに対してアセンディングオーダーの監督なし訓練を行い、
ステップ3-2、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスのデータサンプルセットが対応するラベルセットの中の当該データサンプルが対応するラベルを出力とし、当該クラスの対応する深層学習ニューラルネットワークに対しトップダウンの監督学習を行い、N個の訓練された深層学習ニューラルネットワークを取得し、
各クラスのテスト出力ラベルが対応するデータサンプルセットと当該クラスのテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、それから当該類似度に基づいて各組の可能出力ラベルを計算決定するのは、具体的には：
N＝1であれば、テスト出力ラベルが対応するデータサンプルセットとテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、類似度が第一プリセット値aを超えるすべてのラベル要素を一組の可能出力ラベルとし、
N>1であれば、第iクラスのテスト出力ラベルが対応するデータサンプルセットDiを取得し、第iクラスのテスト出力ラベルが存在するラベルセットの中のラベル要素の数miを取得し、第iクラスのテスト出力ラベルが存在するラベルセットの中の第j個のラベル要素が対応するデータサンプルセットDijを取得し、DiとDijの類似度Pijを計算し、その中に、iが1からNまでの各自然数であり、jが1からmiまでの各自然数であり、
k1、k2、…、kNの各値に対し、類似度第一綜合値f(P1k1、P2k2、…、PNkN)を計算し、もしf(P1k1、P2k2、…、PNkN)が第二プリセット値bより大きければ、第一クラスのテスト出力ラベルが存在するラベルセットの中の第k1番のラベル要素、第二クラスのテスト出力ラベルが存在するラベルセットの中の第k2番のラベル要素、…、第Nクラスのテスト出力ラベルが存在するラベルセットの中の第kN番のラベル要素を、一組の可能出力ラベルとし、その中に、k1が1からm1までの各自然数であり、k2が1からm2までの各自然数であり、…、kNが1からmNまでの各自然数であり、f(P1k1、P2k2、…、PNkN)が(P1k1、P2k2、…、PNkN)の乗積であり、
データサンプルセットAとデータサンプルセットBの類似度＝max(データサンプルセットAの中の各サンプルとデータサンプルセットBの中の各サンプルの類似度)、
各組の可能出力ラベルの中の各クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、また当該類似度に基づいて一組の可能出力ラベルを計算決定して最優出力ラベルとするのは、具体的には：
N＝1の場合、各組の可能出力ラベルの中の可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、一番大きな類似度が対応する一組の可能出力ラベルを取得して一組の最優出力ラベルとし、
N>1の場合、各組の可能出力ラベルの中の第iクラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度Piを計算し、それから類似度第二綜合値g(P1、P2、…、PN)を計算し、一番大きな類似度第二綜合値が対応する一組の可能出力ラベルを取得し一組の最優出力ラベルとし、その中にg(P1、P2、…、PN)が(P1、P2、…、PN)の乗積であり、その中に、iが1からNまでの各自然数であり、
可能出力ラベルの中の各クラスの出力ラベルの一致する確率と一致しない確率を計算し、各クラスの出力ラベルの一致する確率と一致しない確率とするのは、具体的には：N＝1の場合、一クラスの出力ラベルしかなく、従って各クラスの出力ラベルが一致する確率が100％であり、一致しない確率が0％であり、
N>1の場合、まず各組の可能出力ラベルの中の各クラスの可能出力ラベルが一致するかどうかを判断し、また一致すると判断される各組の可能出力ラベルが対応する類似度第二綜合値の和をすべての可能出力ラベルが対応する類似度第二綜合値の和と除算し、各クラスの出力ラベルが一致する確率を取得し、最後に100％から各クラスの出力ラベルが一致する確率を引いて各クラスの出力ラベルの一致しない確率を取得する。