JP2019079536A - 連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法 - Google Patents

連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法 Download PDF

Info

Publication number
JP2019079536A
JP2019079536A JP2018199173A JP2018199173A JP2019079536A JP 2019079536 A JP2019079536 A JP 2019079536A JP 2018199173 A JP2018199173 A JP 2018199173A JP 2018199173 A JP2018199173 A JP 2018199173A JP 2019079536 A JP2019079536 A JP 2019079536A
Authority
JP
Japan
Prior art keywords
class
label
data
output
data sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018199173A
Other languages
English (en)
Other versions
JP6928206B2 (ja
Inventor
朱定局
Dingju Zhu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguo Innovation Intelligent Tech Dongguan Co Ltd
Original Assignee
Daguo Innovation Intelligent Tech Dongguan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daguo Innovation Intelligent Tech Dongguan Co Ltd filed Critical Daguo Innovation Intelligent Tech Dongguan Co Ltd
Publication of JP2019079536A publication Critical patent/JP2019079536A/ja
Application granted granted Critical
Publication of JP6928206B2 publication Critical patent/JP6928206B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

【課題】本発明は連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法を開示した。【解決手段】まずNクラスデータサンプルセットと対応するラベルセットを取得し前処理し、その同時にデータプリセットフォーマット、ラベルプリセットフォーマットを取得し、それから深層学習ニューラルネットワークに対し訓練を行い、それから各クラスの任意一つのテストデータを当該クラスのデータプリセットフォーマットに変換した後に当該クラスの深層学習ニューラルネットワークの入力とし、対応するテスト出力ラベルを取得し、それからテスト出力ラベルが存在するラベルセットの要素の数及びデータセットの間の類似度の計算に基づき、可能出力ラベル及び最優出力ラベルを確定し、それから各クラスの出力ラベルが一致すると一致しない確率を計算し、最後に可能、最優出力ラベル及び前記の確率を出力する。【選択図】図1

Description

本発明は連合クラスタリング深層学習方法に関し、具体的には連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法に関する。
既存の深層学習はデータ入力を通じて出力ラベルを取得でき(例えばプロフィール画像を通じて当該人のIDカード番号を取得し、または音声を通じて当該人のIDカード番号を取得し)、しかしトップダウン監督学習段階ではラベル付きのデータの監督を通じて学習する必要がある(例えばIDカード番号付きのプロフィール画像、またはIDカード番号付きの音声である)。IDカード番号付きのプロフィール画像とIDカード番号付きのプロフィール画像音声の両方が同時にある場合、一つのプロフィール画像をプロフィール画像クラスが対応する深層学習ニューラルネットワークに入力して出力されたIDカード番号を取得でき、一つの音声を音声クラスが対応する深層学習ニューラルネットワークに入力して出力されたIDカード番号を取得し、それからプロフィール画像と音声それぞれの入力によって取得した前記出力されたIDカード番号が同じかどうかを判断し、
イエスであれば、前記一つのプロフィール画像と前記一つの音声が同一人物に対応し、
そうでなければ、前記一つのプロフィール画像と前記一つの音声が異なった人に対応する。
しかし、深層学習ニューラルネットワークの適確率が100%に達することができないため、一つのプロフィール画像をプロフィール画像クラスに対応する深層学習ニューラルネットワークに入力すると、プロフィール画像が似ている他人のIDカード番号が出る可能性があり、一つの音声を音声クラスの対応する深層学習ニューラルネットワークに入力すると、音声が似ている他人のIDカード番号が出力される可能性もあり、そうすると、同一人物に属しない一つのプロフィール画像と一つの音声を同一人物に対応するという判断が出て、異なった人物に属する一つのプロフィール画像と一つの音声を同一人物に対応するという判断が出る恐れがある。一つのプロフィール画像と一つの音声が同じでない人に対応すると判断すると、当該プロフィール画像と当該音声が同じ人に対応する確率を計算できない。一つのプロフィール画像と一つの音声が同じ人に対応すると判断すると、当該プロフィール画像と当該音声が同じでない人あるいは他の人の確率を計算できない。
音声、プロフィール画像、またはもっと他のタイプのデータの一種あるいは多種によってオブジエクトを識別する時、既存の深層学習技術を使用し、類似度や多種の深層学習の結果を総合利用してほかの可能性出力及び最優出力を計算できなく、これによりより精確な識別と判断を行うことができない。
中国特許出願公開第104951403号明細書
本発明は解決する必要な技術問題が連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法を提供する。
本発明の目的を実現する技術解決プランは:連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法であり、下記のステップを含む:
ステップ1は、まずNクラスデータサンプルセットと各クラスのデータサンプルセットが対応するラベルセットを取得し、また前記Nクラスデータサンプルセットの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得し、それからNクラスデータサンプルセットとラベルセットを前処理し、前記Nが1以上である。その中に、
前記Nクラスの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得し、具体的には:
各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットを取得し、当該クラスの中の同じデータフォーマットを合併しS種のデータフォーマットを取得し、当該クラスのデータサンプルセットの中の各種のデータフォーマットPiが対応するデータサンプル数Miを統計し、一番大きなMiが対応データフォーマットPiを当該クラスのデータサンプルのデータプリセットフォーマットとし、その中に、sが1以上であり、iが1以上且つs以下であり、
各クラスのデータサンプルセットが対応するラベルセットの中の各ラベルのラベルフォーマットを取得し、すべてのクラスの同じのラベルフォーマットを合併して少なくともt種のラベルフォーマットを取得し、当該クラスのラベルセットの中の各種のラベルフォーマットQjが対応するラベル数Njを統計し、一番大きなNjが対応するラベルフォーマットQjをラベルプリセットフォーマットとし、その中に、tが1以上であり、jが1以上且つt以下である。
Nクラスデータサンプルセットとラベルセットを前処理し、具体的には:
ステップ1-1、各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットが当該クラスのデータサンプルのデータプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換し、
ステップ1-2、各クラスのデータサンプルセットの中の各データサンプルが対応するラベルのデータフォーマットがラベルプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルが対応するラベルのデータフォーマットをラベルプリセットフォーマットに変換し、
ステップ1-3、Nクラスデータサンプルセットの中の各クラスのデータサンプルセットをクラスタリング処理し、J個のクラスタ化されたデータサンプルセット及びそれに対応する出力ラベルセットを取得し、
ステップ1-4、J個のクラスタ化された出力ラベルセットの各クラスの同じのラベルを合併し、更新されたJ個の出力ラベルセットを取得し、
ステップ1-5、更新されたJ個の出力ラベルセットの同じのラベルを持つラベルセット及び対応のデータサンプルセットをそれぞれ合併し、前処理されたデータサンプルセット及びそれに対応する出力ラベルセットを取得する。
前記ステップ2は、Nクラスデータサンプルセットが対応するN個の深層学習ニューラルネットワークを初期化し、具体的にはステップ2-1〜2-3を含み、
前記ステップ2-1は、各クラスのデータサンプルのデータプリセットフォーマットを当該クラスの対応する深層学習ニューラルネットワークの入力フォーマットとし、
前記ステップ2-2は、ラベルプリセットフォーマットを各クラスの対応する深層学習ニューラルネットワークの出力フォーマットとし、
前記ステップ2-3は、各クラスの対応する深層学習ニューラルネットワークの構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークの構成情報とし、また当該クラスの対応する深層学習ニューラルネットワークを配置する。具体的にはステップ2-3-1〜2-3-4を含み、
前記ステップ2-3-1は、深層学習ニューラルネットワーク構成知識ベースから入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとが一番一致する深層学習ニューラルネットワークの対応する構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とし、
その中に、入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとのマッチング程度=入力フォーマットが当該クラスのデータプリセットフォーマットとのマッチング程度×u%+出力フォーマットがラベルプリセットフォーマットとのマッチング程度×(1-u%)、uのデフォルト値が90であり、
前記ステップ2-3-2は、各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報をユーザーに出力し、
前記ステップ2-3-3は、ユーザーによっての各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報の変更を取得し、
前記ステップ2-3-4は、変更された各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報を、当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とする。
前記ステップ3は、ステップ1で取得した各クラスのデータサンプルセットを入力とし、それに対応するラベルセットを出力とし、当該クラスの対応する深層学習ニューラルネットワークを訓練し、N個の訓練された深層学習ニューラルネットワークを取得し、具体的にはステップ3-1〜3-2を含み、
前記ステップ3-1は、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスの対応する深層学習ニューラルネットワークに対してアセンディングオーダーの監督なし訓練を行い、
前記ステップ3-2は、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスのデータサンプルセットが対応するラベルセットの中の当該データサンプルが対応するラベルを出力とし、当該クラスの対応する深層学習ニューラルネットワークに対しトップダウンの監督学習を行い、N個の訓練された深層学習ニューラルネットワークを取得する。
前記ステップ4は、各クラスの対応する深層学習ニューラルネットワークのために一つのテストデータを取得し、各クラスのテストデータのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換し、それから当該テストデータを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該深層学習ニューラルネットワークの計算を通じて当該クラスが対応するテスト出力ラベルを取得し、
前記ステップ5は、ステップ1で前処理されたラベルセットの中で各クラスのテスト出力ラベルが存在するラベルセットを検索し、それから当該ラベルセットが一つのラベル要素しか持っていないかどうかを判断し、もし各クラスのテスト出力ラベルが存在するラベルセットが一つのラベル要素しか持っていなければ、各クラスのテスト出力ラベルを当該クラスの最優出力ラベルとし、そうでなければ次のステップに進み、
前記ステップ6は、各クラスのテスト出力ラベルが対応するデータサンプルセットと当該クラスのテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、それから当該類似度に基づいて各組の可能出力ラベルを計算して決定し、その中に、各組の可能出力ラベルの中には各クラスの一つの可能出力ラベルが含まれ、具体的には:
N=1であれば、テスト出力ラベルが対応するデータサンプルセットとテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、類似度が第一プリセット値aを超えるすべてのラベル要素を一組の可能出力ラベルとし、
N>1であれば、第iクラスのテスト出力ラベルが対応するデータサンプルセットDiを取得し、第iクラスのテスト出力ラベルが存在するラベルセットの中のラベル要素の数miを取得し、第iクラスのテスト出力ラベルが存在するラベルセットの中の第j個のラベル要素が対応するデータサンプルセットDijを取得し、DiとDijの類似度Pijを計算し、その中に、iが1からNまでの各自然数であり、jが1からmiまでの各自然数であり、
k1、k2、…、kNの各値に対し、類似度第一綜合値f(P1k1、P2k2、…、PNkN)を計算し、もしf(P1k1、P2k2、…、PNkN)が第二プリセット値bより大きければ、第一クラスのテスト出力ラベルが存在するラベルセットの中の第k1番のラベル要素、第二クラスのテスト出力ラベルが存在するラベルセットの中の第k2番のラベル要素、…、第Nクラスのテスト出力ラベルが存在するラベルセットの中の第kN番のラベル要素を、一組の可能出力ラベルとし、その中に、k1が1からm1までの各自然数であり、k2が1からm2までの各自然数であり、…、kNが1からmNまでの各自然数であり、f(P1k1、P2k2、…、PNkN)が(P1k1、P2k2、…、PNkN)の乗積である。
前記ステップ7は、各組の可能出力ラベルの中の各クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、また当該類似度に基づいて一組の可能出力ラベルを計算決定して最優出力ラベルとし、具体的には:
N=1の場合、各組の可能出力ラベルの中の可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、一番大きな類似度が対応する一組の可能出力ラベルを取得して一組の最優出力ラベルとし、
N>1の場合、各組の可能出力ラベルの中の第iクラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度Piを計算し、それから類似度第二綜合値g(P1、P2、…、PN)を計算し、一番大きな類似度第二綜合値が対応する一組の可能出力ラベルを取得し一組の最優出力ラベルとし、その中にg(P1、P2、…、PN)が(P1、P2、…、PN)の乗積であり、その中に、iが1からNまでの各自然数を取る。
前記ステップ8は、可能出力ラベルの中の各クラスの出力ラベルの一致する確率と一致しない確率を計算し、各クラスの出力ラベルの一致する確率と一致しない確率とし、具体的には:
N=1の場合、一クラスの出力ラベルしかなく、従って各クラスの出力ラベルが一致する確率が100%であり、一致しない確率が0%であり、
N>1の場合、まず各組の可能出力ラベルの中の各クラスの可能出力ラベルが一致するかどうかを判断し、
また一致すると判断される各組の可能出力ラベルが対応する類似度第二綜合値の和をすべての可能出力ラベルが対応する類似度第二綜合値の和と除算し、各クラスの出力ラベルが一致する確率を取得し、
最後に100%から各クラスの出力ラベルが一致する確率を引いて各クラスの出力ラベルの一致しない確率を取得する。
前記ステップ9は、可能出力ラベル、最優出力ラベル、各クラスの出力ラベルの一致する確率及び一致しない確率を出力する。
本発明は現存の技術に比べて、下記の著しい効果を有する:本発明が深層学習ニューラルネットワークと類似度計算を有機的に結合し、出力の結果を豊かにし、出力の適確率を高める。本発明が類似度計算を結合する方法を採用し、長所を見習って短所を補い、これにより類似度計算を通じて深層学習ニューラルネットワークが出力ラベルの数が多く入力サンプルが足りないときの出力正確度の不足を補い、さらに出力の正確度を高める。
下記に附図をあわせて本発明について詳しく説明する。
図1は本発明の連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法のフローチャートである。 図2は本発明の連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法の中のデータサンプルセットとラベルセットを前処理するフローチャートである。 図3は本発明の連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法の中の深層学習ニューラルネットワーク訓練のフローチャートである。
附図を合わせて、本発明の連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法は、ステップ1〜9を含み、
前記ステップ1は、まずNクラスデータサンプルセットと各クラスのデータサンプルセットが対応するラベルセットを取得し、また前記Nクラスデータサンプルセットの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得し、それからNクラスデータサンプルセットとラベルセットを前処理し、前記Nが1以上であり、
前記Nクラスの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得するのは、具体的には:
各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットを取得し、当該クラスの中の同じデータフォーマットを合併しS種のデータフォーマットを取得し、当該クラスのデータサンプルセットの中の各種のデータフォーマットPiが対応するデータサンプル数Miを統計し、一番大きなMiが対応データフォーマットPiを当該クラスのデータサンプルのデータプリセットフォーマットとし、その中に、sが1以上であり、iが1以上且つs以下であり、
各クラスのデータサンプルセットが対応するラベルセットの中の各ラベルのラベルフォーマットを取得し、すべてのクラスの同じのラベルフォーマットを合併して少なくともt種のラベルフォーマットを取得し、当該クラスのラベルセットの中の各種のラベルフォーマットQjが対応するラベル数Njを統計し、一番大きなNjが対応するラベルフォーマットQjをラベルプリセットフォーマットとし、その中に、tが1以上であり、jが1以上且つt以下である。
Nクラスデータサンプルセットとラベルセットを前処理するのは、具体的には:
ステップ1-1、各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットが当該クラスのデータサンプルのデータプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換し、
ステップ1-2、各クラスのデータサンプルセットの中の各データサンプルが対応するラベルのデータフォーマットがラベルプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルが対応するラベルのデータフォーマットをラベルプリセットフォーマットに変換し、
ステップ1-3、Nクラスデータサンプルセットの中の各クラスのデータサンプルセットをクラスタリング処理し、J個のクラスタ化されたデータサンプルセット及びそれに対応する出力ラベルセットを取得し、
ステップ1-4、J個のクラスタ化された出力ラベルセットの各クラスの同じのラベルを合併し、更新されたJ個の出力ラベルセットを取得し、
ステップ1-5、更新されたJ個の出力ラベルセットの同じのラベルを持つラベルセット及び対応のデータサンプルセットをそれぞれ合併し、前処理されたデータサンプルセット及びそれに対応する出力ラベルセットを取得する。
前記ステップ2は、Nクラスデータサンプルセットが対応するN個の深層学習ニューラルネットワークを初期化し、具体的には:
ステップ2-1、各クラスのデータサンプルのデータプリセットフォーマットを当該クラスの対応する深層学習ニューラルネットワークの入力フォーマットとし、
ステップ2-2、ラベルプリセットフォーマットを各クラスの対応する深層学習ニューラルネットワークの出力フォーマットとし、
ステップ2-3、各クラスの対応する深層学習ニューラルネットワークの構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークの構成情報とし、また当該クラスの対応する深層学習ニューラルネットワークを配置する。具体的には:
ステップ2-3-1、深層学習ニューラルネットワーク構成知識ベースから入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとが一番一致する深層学習ニューラルネットワークの対応する構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とし、
その中に、入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとのマッチング程度=入力フォーマットが当該クラスのデータプリセットフォーマットとのマッチング程度×u%+出力フォーマットがラベルプリセットフォーマットとのマッチング程度×(1-u%)、uのデフォルト値が90であり、
ステップ2-3-2、各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報をユーザーに出力し、
ステップ2-3-3、ユーザーによっての各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報の変更を取得し、
ステップ2-3-4、変更された各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報を、当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とする。
前記ステップ3は、ステップ1で取得した各クラスのデータサンプルセットを入力とし、それに対応するラベルセットを出力とし、当該クラスの対応する深層学習ニューラルネットワークを訓練し、N個の訓練された深層学習ニューラルネットワークを取得し、具体的には:
ステップ3-1、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスの対応する深層学習ニューラルネットワークに対してアセンディングオーダーの監督なし訓練を行い、
ステップ3-2、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスのデータサンプルセットが対応するラベルセットの中の当該データサンプルが対応するラベルを出力とし、当該クラスの対応する深層学習ニューラルネットワークに対しトップダウンの監督学習を行い、N個の訓練された深層学習ニューラルネットワークを取得する。
前記ステップ4は、各クラスの対応する深層学習ニューラルネットワークのために一つのテストデータを取得し、各クラスのテストデータのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換し、それから当該テストデータを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該深層学習ニューラルネットワークの計算を通じて当該クラスが対応するテスト出力ラベルを取得し、
前記ステップ5は、ステップ1で前処理されたラベルセットの中で各クラスのテスト出力ラベルが存在するラベルセットを検索し、それから当該ラベルセットが一つのラベル要素しか持っていないかどうかを判断し、もし各クラスのテスト出力ラベルが存在するラベルセットが一つのラベル要素しか持っていなければ、各クラスのテスト出力ラベルを当該クラスの最優出力ラベルとし、そうでなければ次のステップに進み、
前記ステップ6は、各クラスのテスト出力ラベルが対応するデータサンプルセットと当該クラスのテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、それから当該類似度に基づいて各組の可能出力ラベルを計算して決定し、その中に、各組の可能出力ラベルの中には各クラスの一つの可能出力ラベルが含まれ、具体的には:
N=1であれば、テスト出力ラベルが対応するデータサンプルセットとテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、類似度が第一プリセット値aを超えるすべてのラベル要素を一組の可能出力ラベルとし、
N>1であれば、第iクラスのテスト出力ラベルが対応するデータサンプルセットDiを取得し、第iクラスのテスト出力ラベルが存在するラベルセットの中のラベル要素の数miを取得し、第iクラスのテスト出力ラベルが存在するラベルセットの中の第j個のラベル要素が対応するデータサンプルセットDijを取得し、DiとDijの類似度Pijを計算し、その中に、iが1からNまでの各自然数であり、jが1からmiまでの各自然数であり、
k1、k2、…、kNの各値に対し、類似度第一綜合値f(P1k1、P2k2、…、PNkN)を計算し、もしf(P1k1、P2k2、…、PNkN)が第二プリセット値bより大きければ、第一クラスのテスト出力ラベルが存在するラベルセットの中の第k1番のラベル要素、第二クラスのテスト出力ラベルが存在するラベルセットの中の第k2番のラベル要素、…、第Nクラスのテスト出力ラベルが存在するラベルセットの中の第kN番のラベル要素を、一組の可能出力ラベルとし、その中に、k1が1からm1までの各自然数であり、k2が1からm2までの各自然数であり、…、kNが1からmNまでの各自然数であり、f(P1k1、P2k2、…、PNkN)が(P1k1、P2k2、…、PNkN)の乗積である。
データサンプルセットAとデータサンプルセットBの類似度=max(データサンプルセットAの中の各サンプルとデータサンプルセットBの中の各サンプルの類似度)。
前記ステップ7は、各組の可能出力ラベルの中の各クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、また当該類似度に基づいて一組の可能出力ラベルを計算決定して最優出力ラベルとし、具体的には:
N=1の場合、各組の可能出力ラベルの中の可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、一番大きな類似度が対応する一組の可能出力ラベルを取得して一組の最優出力ラベルとし、
N>1の場合、各組の可能出力ラベルの中の第iクラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度Piを計算し、それから類似度第二綜合値g(P1、P2、…、PN)を計算し、一番大きな類似度第二綜合値が対応する一組の可能出力ラベルを取得し一組の最優出力ラベルとし、その中にg(P1、P2、…、PN)が(P1、P2、…、PN)の乗積であり、その中に、iが1からNまでの各自然数を取る。
前記ステップ8は、可能出力ラベルの中の各クラスの出力ラベルの一致する確率と一致しない確率を計算し、各クラスの出力ラベルの一致する確率と一致しない確率とし、具体的には:
N=1の場合、一クラスの出力ラベルしかなく、従って各クラスの出力ラベルが一致する確率が100%であり、一致しない確率が0%であり、
N>1の場合、まず各組の可能出力ラベルの中の各クラスの可能出力ラベルが一致するかどうかを判断し、
また一致すると判断される各組の可能出力ラベルが対応する類似度第二綜合値の和をすべての可能出力ラベルが対応する類似度第二綜合値の和と除算し、各クラスの出力ラベルが一致する確率を取得し、
最後に100%から各クラスの出力ラベルが一致する確率を引いて各クラスの出力ラベルの一致しない確率を取得する。
前記ステップ9は、可能出力ラベル、最優出力ラベル、各クラスの出力ラベルの一致する確率及び一致しない確率を出力する。
本発明が深層学習ニューラルネットワークと類似度計算を有機的に結合し、出力の結果を豊かにし、出力の適確率を高める。本発明が類似度計算を結合する方法を採用し、長所を見習って短所を補い、これにより類似度計算を通じて深層学習ニューラルネットワークが出力ラベルの数が多く入力サンプルが足りないときの出力正確度の不足を補い、さらに出力の正確度を高める。
下記に附図及び具体的な実施方式をあわせて本発明について詳しく説明する。
実施例
二クラスのデータサンプルセットと、それが対応するラベルセットとを例とする。第一クラスのデータサンプルセットが「プロフィール画像11、プロフィール画像12、プロフィール画像13、プロフィール画像14、…、プロフィール画像1m」であり、対応する第一クラスの出力ラベルのセットが「IDカード番号11、IDカード番号12、IDカード番号13、IDカード番号14、…、IDカード番号1m」であり、その中に、プロフィール画像11がIDカード番号11に対応し、プロフィール画像12がIDカード番号12に対応し、プロフィール画像13がIDカード番号13に対応し、プロフィール画像14がIDカード番号14に対応し、……、プロフィール画像1nがIDカード番号1nに対応する。その中に同じIDカード番号が存在する可能性があり、例えばIDカード番号13とIDカード番号16が同じである。第二クラスのデータサンプルセットが「音声21、音声22、音声23、音声24、…、音声2n」であり、対応する第一クラスの出力ラベルのセットが「IDカード番号21、IDカード番号22、IDカード番号23、IDカード番号24、…、IDカード番号2n」であり、その中に、音声21がIDカード番号21に対応し、音声22がIDカード番号22に対応し、音声23がIDカード番号23に対応し、音声24がIDカード番号24に対応し、……、音声2nがIDカード番号2nに対応する。その中に同じIDカード番号が存在する可能性があり、例えばIDカード番号22とIDカード番号28が同じである。
図1を合わせて、本発明の連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法は、ステップ1〜9を含み、
前記ステップ1は、まず二クラスのデータサンプルセットと各クラスのデータサンプルセットが対応するラベルセットを取得し、また前記二クラスのデータサンプルセットの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得し、具体的には:
各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットを取得し、当該クラスの中の同じデータフォーマットを合併しs 種のデータフォーマットを取得し、当該クラスのデータサンプルセットの中の各種のデータフォーマットPiが対応するデータサンプル数Miを統計し、一番大きなMiが対応データフォーマットPiを当該クラスのデータサンプルのデータプリセットフォーマットとし、その中に、sが1以上であり、iが1以上且つs以下である。例えば、第一クラスのデータサンプルが画像サンプルであり、第二クラスのデータサンプルが音声サンプルである。第一クラスのデータサンプルを例とし、第一クラスのデータサンプルセットの中に480x 640ピクセルのJPEG画像データフォーマットのデータサンプルが809個あり、480x 640ピクセルのTIFF画像データフォーマットのデータサンプルが8367個あり、480x 640ピクセルのBMP画像データフォーマットのデータサンプルが67個あり、2576x 1932ピクセルのJPEG画像データフォーマットのデータサンプルが5362個あり、2576x 1932ピクセルのTIFF画像データフォーマットのデータサンプルが32個あり、2576x 1932ピクセルのBMP画像データフォーマットのデータサンプルが136個あり、その中にデータサンプル数が一番大きなデータフォーマットが480x 640ピクセルのTIFF画像データフォーマットであり、従って480x 640ピクセルのTIFF画像データフォーマットを第一クラスのデータサンプルのデータプリセットフォーマットとする。
各クラスのデータサンプルセットが対応するラベルセットの中の各ラベルのラベルフォーマットを取得し、すべてのクラスの同じのラベルフォーマットを合併して少なくともt種のラベルフォーマットを取得し、当該クラスのラベルセットの中の各種のラベルフォーマットQjが対応するラベル数Njを統計し、一番大きなNjが対応するラベルフォーマットQjをラベルプリセットフォーマットとし、その中に、tが1以上であり、jが1以上且つt以下である。例えば、データサンプルセットに対応するラベルセットが二クラスあり、第一クラスのデータサンプルセットが対応するラベルセットの中に、IDカード番号ラベルが5636個あり、名前ラベルが5426個あり、第二クラスのデータサンプルセットが対応するラベルセットの中に、IDカード番号ラベルが2654個あり、名前ラベルが235個あり、二クラスのデータサンプルセットが対応するラベルセットの中にIDカード番号ラベルが8290個あり、名前ラベルが5661個あり、従ってIDカード番号ラベルをラベルプリセットフォーマットとする。
それから入力する二クラスのデータサンプルセットとラベルセットを前処理し、図2を合わせて、第一クラスのデータサンプルセットとラベルセットを例とし、具体的な過程が下記の通りである:
ステップ1-1、各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットが当該クラスのデータサンプルのデータプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換する。例えば、480x 640ピクセルのTIFF画像データフォーマットが第一クラスのデータサンプルのデータプリセットフォーマットであり、第一クラスのデータサンプルセットの中の一つのデータサンプルのデータフォーマットも480x 640ピクセルのTIFF画像データフォーマットであれば、第一クラスのデータサンプルのデータプリセットフォーマットと同じであり、変換する必要がなく、第一クラスのデータサンプルセットの中の一つのデータサンプルのデータフォーマットが2576x 1932ピクセルのJPEG画像データフォーマットであれば、第一クラスのデータサンプルのデータプリセットフォーマットと違い、480x 640ピクセルのTIFF画像データフォーマットに変換する必要がある。
ステップ1-2、各クラスのデータサンプルセットの中の各データサンプルが対応するラベルのデータフォーマットがラベルプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルが対応するラベルのデータフォーマットをラベルプリセットフォーマットに変換する。例えば、IDカード番号ラベルがラベルプリセットフォーマットとして、第一クラスのデータサンプルセットの中の一つのデータサンプルが対応するラベルのデータフォーマットがIDカード番号フォーマットであれば、ラベルプリセットフォーマットと同じであり、変換する必要がなく、第一クラスのデータサンプルセットの中の一つのデータサンプルが対応するラベルのデータフォーマットが名前フォーマットであれば、ラベルプリセットフォーマットと違い、IDカード番号フォーマットに変換する必要がある。
ステップ1-3、第一クラスのデータサンプルセットをクラスタリング処理し、j個のクラスタ化されたデータサンプルセット及びそれに対応する出力ラベルセットを取得する。具体的には:
まず第一クラスのデータサンプルセット「プロフィール画像11、プロフィール画像12、プロフィール画像13、プロフィール画像14、…、プロフィール画像1m」をクラスタ化し、クラスタリングの規則が下記の通りである:類似度がプロフィール画像類似度プリセット閾値(デフォルト値が90%である)より大きであるプロフィール画像を同じクラスタリングに加入し(すなわち上記プロフィール画像内部に類似度計算を行い、類似度が90%より大きい場合、相応のプロフィール画像を一つのクラスタリングに加入し)、一つのクラスタリングの中の任意一つのプロフィール画像に対して当該クラスタリングで当該プロフィール画像との類似度がプロフィール画像類似度プリセット閾値(デフォルト値が90%である)より大きなもう一つのプロフィール画像が存在し、その同時に一つのクラスタリングの中の任意一つのプロフィール画像に対してもう一つのクラスタリングにおいて当該プロフィール画像との類似度がプロフィール画像類似度プリセット閾値(デフォルト値が90%である)より大きなプロフィール画像が存在しなく、各プロフィール画像が一つのクラスタリングにしか属しない。当該クラスタリングの規則に基づき、第一番のクラスタリング「プロフィール画像111、プロフィール画像112、…、プロフィール画像11m1」、 第二番のクラスタリング「プロフィール画像211、プロフィール画像212、…、プロフィール画像21m2」、 第三番のクラスタリング「プロフィール画像311、プロフィール画像312、…、プロフィール画像31m3」、 …、第j番のクラスタリング「プロフィール画像j11、プロフィール画像j12、…、プロフィール画像j1mj」を取得する。
それから第一クラスのデータサンプルセットが対応するラベルセットをクラスタ化する。第一クラスのデータサンプルセットの第一番のクラスタリング「プロフィール画像111、プロフィール画像112、…、プロフィール画像11m1」が対応する出力ラベルセットが「IDカード番号111、IDカード番号112、…、IDカード番号11m1」であり、第一クラスの出力ラベルの第一番のクラスタリングとし、データサンプルセットの第二番のクラスタリング「プロフィール画像211、プロフィール画像212、…、プロフィール画像21m2」が対応する出力ラベルセットが「IDカード番号211、IDカード番号212、…、IDカード番号21m2」であり、第一クラスの出力ラベルの第二番のクラスタリングとし、…、データサンプルセットの第j番のクラスタリング「プロフィール画像j11、プロフィール画像j12、…、プロフィール画像j1mj」が対応する出力ラベルセットが「IDカード番号j11、IDカード番号j12、…、IDカード番号j1mj」であり、第一クラスの出力ラベルの第j番のクラスタリングとする。
ステップ1-4、前記J個のクラスタ化された出力ラベルセットの各クラスの同じのラベルを合併し、更新されたJ個の出力ラベルセットを取得し、
ステップ1-5、更新されたJ個の出力ラベルセットの同じラベルを持つラベルセットと、対応のデータサンプルセットとをそれぞれ合併し、前処理されたデータサンプルセットと、それに対応する出力ラベルセットとを取得する。
例えば、第一クラスのデータサンプルセットの第一番のクラスタリング「プロフィール画像111、プロフィール画像112、…、プロフィール画像11m1」が対応する出力ラベルセットが「IDカード番号111、IDカード番号112、…、IDカード番号11m1」であり、データサンプルセットの第二番のクラスタリング「プロフィール画像211、プロフィール画像212、…、プロフィール画像21m2」が対応する出力ラベルセットが「IDカード番号211、IDカード番号212、…、IDカード番号21m2」であり、もし第二番のクラスタリングが対応する出力ラベルのセットの中のIDカード番号212と第一番のクラスタリングが対応する出力ラベルセットの中のIDカード番号116が同じであれば、第二番のクラスタリングが対応する出力ラベルのセットを第一番のクラスタリングが対応する出力ラベルセットに合併し、その同時に第二番のクラスタリングが対応するデータサンプルセットを第一番のクラスタリングが対応するデータサンプルセットに合併する。
ステップ2は、Nクラスデータサンプルセットが対応するN個の深層学習ニューラルネットワークを初期化する。
ステップ3は、ステップ1で取得した各クラスのデータサンプルセットを入力とし、それに対応するラベルセットを出力とし、当該クラスの対応する深層学習ニューラルネットワークに対し訓練を行い、二つの訓練された深層学習ニューラルネットワークを取得する。図3を合わせて、具体的には:
ステップ3-1、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスの対応する深層学習ニューラルネットワークに対してアセンディングオーダーの監督なし訓練を行い、
ステップ3-2、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、対応するラベルセットの中の対応するラベルを出力とし、当該クラスの対応する深層学習ニューラルネットワークに対しトップダウンの監督学習を行い、二つの訓練された深層学習ニューラルネットワークを取得する。
ステップ4は、各クラスの対応する深層学習ニューラルネットワークのために一つのテストデータを取得し、各クラスのテストデータのデータフォーマットを当該クラスのデータのデータプリセットフォーマットに変換する。例えば、480x 640ピクセルのTIFF画像データフォーマットが第一クラスのデータサンプルのデータプリセットフォーマットであり、もし第一クラスの当該一つのテストデータのデータフォーマットも480x640ピクセルのTIFF画像データフォーマットであれば、第一クラスのデータサンプルのデータプリセットフォーマットと同じであり、変換する必要がなく、もし第一クラスの当該一つのテストデータのデータフォーマットが2576x 1932ピクセルのJPEG画像データフォーマットであれば、第一クラスのデータサンプルのデータプリセットフォーマットと同じでなく、480x 640ピクセルのTIFF画像データフォーマットに変換する必要がある。
それから当該テストデータを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該深層学習ニューラルネットワークの計算を通じて当該クラスが対応するテスト出力ラベルを取得する。例えば、第一クラスの任意一つのテストデータ「プロフィール画像1p」を第一クラスが対応する深層学習ニューラルネットワークに入力し、テスト出力ラベル「張三のIDカード番号」を取得し、第二クラスの任意一つのテストデータ「音声2q」を第二クラスが対応する深層学習ニューラルネットワークに入力し、テスト出力ラベル「李四のIDカード番号」を取得する。
ステップ5は、ステップ1で前処理されたラベルセットの中から各クラスのテスト出力ラベルが存在するラベルセットを検索し、また当該ラベルセットが一つのラベル要素しか持っていないかどうかを判断し、もし各クラスのテスト出力ラベルが存在するラベルセットが一つのラベル要素しか持っていなければ、各クラスのテスト出力ラベルを当該クラスの最優出力ラベルとし、すなわちステップ4の中の「張三のIDカード番号」、「李四のIDカード番号」をそれぞれ第一クラス、第二クラスの最優出力ラベルとし、そうでなければ次のステップに進み、
ステップ6は、各クラスのテスト出力ラベルが対応するデータサンプルセットと当該クラスのテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、それから当該類似度に基づいて各組の可能出力ラベルを計算して決定し、その中に、各組の可能出力ラベルの中には各クラスの一つの可能出力ラベルが含まれる。例えば、ステップ4の中の「張三のIDカード番号」が存在する第一クラスの出力ラベルセットが「朱一のIDカード番号、鄭二のIDカード番号、張三のIDカード番号、呉七のIDカード番号」であり、対応するデータサンプルセットがそれぞれ「朱一のプロフィール画像セット、鄭二のプロフィール画像セット、張三のプロフィール画像セット、呉七のプロフィール画像セット」であり、「李四のIDカード番号」が存在する第二クラスの出力ラベルセットが「田一のIDカード番号、李四のIDカード番号、呉七のIDカード番号」であり、対応するデータサンプルセットがそれぞれ「田一の音声セット、李四の音声セット、呉七の音声セット」である。Nクラスデータサンプルセット及びそれに対応するラベルセットがあると仮定し、具体的な過程が下記二つの状況に分けられる:
(1)N=1:一クラスのデータサンプルセット及び対応するラベルセットしかない。例えば上記第一クラスのデータサンプルセット及び対応するラベルセットしか存在しない。
テスト出力ラベルが対応するデータサンプルセット「張三のプロフィール画像セット」とテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算する。「張三のプロフィール画像セット」と「朱一のプロフィール画像セット」の類似度a1が80%、「張三のプロフィール画像セット」と「鄭二のプロフィール画像セット」の類似度a2が90%、「張三のプロフィール画像セット」と「張三のプロフィール画像セット」の類似度a3が100%、「張三のプロフィール画像セット」と「呉七のプロフィール画像セット」の類似度a4が92%であることが分かる。その中に、a2、a3、a4がいずれも第一プリセット値80%より大きく、従って3組の可能出力ラベルが存在し、それぞれ「鄭二のIDカード番号」、「張三のIDカード番号」、「呉七のIDカード番号」である。
(2)N>1:複数のクラスのデータサンプルセットと、対応するラベルセットとがある。例えばN=2の場合、上記第一クラスのデータサンプルセット及び対応するラベルセット、第二クラスのデータサンプルセット及び対応するラベルセットを含む。
まず第一クラスのテスト出力ラベルが対応するデータサンプルセット「張三のプロフィール画像セット」とテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算する。類似度の計算結果が上記N=1の状況と同じである。
それから第二クラスのテスト出力ラベルが対応するデータサンプルセット「李四の音声セット」とテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算する。「李四の音声セット」と「田一の音声セット」の類似度b1が95%、「李四の音声セット」と「李四の音声セット」の類似度b2が100%、「李四の音声セット」と「呉七の音声セット」の類似度b3が85%であることが分かる。
最後にすべての可能出力ラベル組のそれぞれの類似度第一綜合値を計算し、出力ラベル組c1「朱一のIDカード番号、田一のIDカード番号」の類似度第一綜合値f1が80%×95%=76%であり、出力ラベル組c2「朱一のIDカード番号、李四のIDカード番号」の類似度第一綜合値f2が80%×100%=80%であり、出力ラベル組c3「朱一のIDカード番号、呉七のIDカード番号」の類似度第一綜合値f3が80%×85%=68%であり、出力ラベル組c4「鄭二のIDカード番号、田一のIDカード番号」の類似度第一綜合値f4が90%×95%=85.5%であり、出力ラベル組c5「鄭二のIDカード番号、李四のIDカード番号」の類似度第一綜合値f5が90%×100%=90%であり、出力ラベル組c6「鄭二のIDカード番号、呉七のIDカード番号」の類似度第一綜合値f6が90%×85%=76.5%であり、出力ラベル組c7「張三のIDカード番号、田一のIDカード番号」の類似度第一綜合値f7が100%×95%=95%であり、出力ラベル組c8「張三のIDカード番号、李四のIDカード番号」の類似度第一綜合値f8が100%×100%=100%であり、出力ラベル組c9「張三のIDカード番号、呉七のIDカード番号」の類似度第一綜合値f9が100%×85%=85%であり、出力ラベル組c10「呉七のIDカード番号、田一のIDカード番号」の類似度第一綜合値f10が92%×95%=87.4%であり、出力ラベル組c11「呉七のIDカード番号、李四のIDカード番号」の類似度第一綜合値f11が92%×100%=92%であり、出力ラベル組c12「呉七のIDカード番号、呉七のIDカード番号」の類似度第一綜合値p12が92%×85%=78.2%である。その中にf4、f5、f7、f8、f10、f11がいずれも第二プリセット値85%より大きく、従って6組の可能出力ラベルがあり、それぞれc4、c5、c7、c8、c10、c11が対応する出力ラベル組である。
ステップ7は、ステップ6で取得した各組の可能出力ラベルの中の各クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、また当該類似度に基づき一組の可能出力ラベルを計算決定し最優出力ラベルとする。ステップ6の中の内容に対応し、具体的な過程が下記二つの状況に分けられる:
(1)N=1:ステップ6からわかるように、それぞれ3組の可能出力ラベル「鄭二のIDカード番号」、「張三のIDカード番号」と「呉七のIDカード番号」がある。その中に可能出力ラベル「張三のIDカード番号」の類似度値が一番大きく、従ってそれを最優出力ラベル組とする。
(2)N>1:ステップ6からわかるように、c4、c5、c7、c8、c10、c11全部で6組の可能出力ラベルがあり、具体的な過程が下記の通りである:
まず各組の可能出力ラベルの中の第一クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセット「張三のプロフィール画像セット」の類似度を計算する。「鄭二のプロフィール画像セット」と「張三のプロフィール画像セット」の類似度が90%、「張三のプロフィール画像セット」と「張三のプロフィール画像セット」の類似度が100%、「呉七のプロフィール画像セット」と「張三のプロフィール画像セット」の類似度が92%であることが分かる。
それから各組の可能出力ラベルの中の第二クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセット「李四の音声セット」の類似度を計算する。「李四の音声セット」と「李四の音声セット」の類似度が100%、「田一の音声セット」と「李四の音声セット」の類似度が95%であることが分かる。
c4出力ラベル組「鄭二のIDカード番号、田一のIDカード番号」の類似度第二綜合値g4が90%×95%=85.5%であり、c5出力ラベル組「鄭二のIDカード番号、李四のIDカード番号」の類似度第二綜合値g5が90%×100%=90%であり、c7出力ラベル組「張三のIDカード番号、田一のIDカード番号」の類似度第二綜合値g7が100%×95%=95%であり、c8出力ラベル組「張三のIDカード番号、李四のIDカード番号」の類似度第二綜合値g8が100%×100%=100%であり、c10出力ラベル組「呉七のIDカード番号、田一のIDカード番号」の類似度第二綜合値g10が92%×95%=87.4%であり、c11出力ラベル組「呉七のIDカード番号、李四のIDカード番号」の類似度第二綜合値g11が92%×100%=92%である。その中に一番大きな類似度第二綜合値がg8であり、従ってc8出力ラベル組「張三のIDカード番号、李四のIDカード番号」を最優出力ラベル組とする。
ステップ8は、可能出力ラベルの中の各クラスの出力ラベルが一致する確率と一致しない確率を計算し、各クラスの出力ラベルが一致する確率と一致しない確率とする。ステップ6の中の内容に対応し、具体的な過程が下記二つの状況に分けられる:
(1)N=1であれば、ステップ6からわかるように、一クラスの出力ラベルしかなく、従って各クラスの出力ラベルが一致する確率が100%であり、一致しない確率が0%であり、
(2)N>1:ステップ6からわかるように、c4、c5、c7、c8、c10、c11全部で6組の可能出力ラベルがある。その中にc4出力ラベル組「鄭二のIDカード番号、田一のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、c5出力ラベル組「鄭二のIDカード番号、李四のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、c7出力ラベル組「張三のIDカード番号、田一のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、c8出力ラベル組「張三のIDカード番号、李四のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、c10出力ラベル組「呉七のIDカード番号、田一のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、c11出力ラベル組「呉七のIDカード番号、李四のIDカード番号」の中に各クラスの可能出力ラベルが一致しない。上記からわかるように、すべての可能出力ラベル組の中に各クラスの可能出力ラベルがいずれも一致しなく、従って各クラスの出力ラベルが一致する確率が0%であり、一致しない確率が100%である。各クラスのテストサンプルが同じ人に対応する確率が0%であると表示する。
過程をさらに説明するため、四組の可能出力ラベルd4、d6、d10、d11があると仮定し、d4出力ラベル組「鄭二のIDカード番号、鄭二のIDカード番号」の中に各クラスの可能出力ラベルが一致し、対応する類似度第二綜合値が89%であり、d6出力ラベル組「張三のIDカード番号、張三のIDカード番号」の中に各クラスの可能出力ラベルが一致し、対応する類似度第二綜合値が53%であり、d10出力ラベル組「鄭二のIDカード番号、李四のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、対応する類似度第二綜合値が67%であり、d11出力ラベル組「張三のIDカード番号、鄭二のIDカード番号」の中に各クラスの可能出力ラベルが一致しなく、対応する類似度第二綜合値が75%である。
一致すると判断される各組の可能出力ラベルが対応する類似度第二綜合値の和(89%+53%)をすべての可能出力ラベルが対応する類似度第二綜合値の和(89%+53%+67%+75%)で割ると、各クラスの出力ラベルが一致する確率が50%であることが分かる。100%から各クラスの出力ラベルが一致する確率50%を引くと、各クラスの出力ラベルが一致しない確率が50%であることが分かる。
ステップ9は、可能出力ラベル、最優出力ラベル、各クラスの出力ラベルの一致する確率及び一致しない確率を出力する。
上記からわかるように、本発明が類似度計算を通じて、出力ラベルの数が多くて入力サンプルが足りないときの深層学習ニューラルネットワークの出力正確度の不足を補い、さらに出力の正確度を高める。

Claims (1)

  1. 連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法は、ステップ1〜9を含み、
    ステップ1は、まずNクラスデータサンプルセットと各クラスのデータサンプルセットが対応するラベルセットを取得し、また前記Nクラスデータサンプルセットの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得し、それからNクラスデータサンプルセットとラベルセットを前処理し、前記Nが1以上であり、
    ステップ2は、Nクラスデータサンプルセットが対応するN個の深層学習ニューラルネットワークを初期化し、
    ステップ3は、ステップ1で取得した各クラスのデータサンプルセットを入力とし、それに対応するラベルセットを出力とし、当該クラスの対応する深層学習ニューラルネットワークを訓練し、N個の訓練された深層学習ニューラルネットワークを取得し、
    ステップ4は、各クラスの対応する深層学習ニューラルネットワークのために一つのテストデータを取得し、各クラスのテストデータのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換し、それから当該テストデータを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該深層学習ニューラルネットワークの計算を通じて当該クラスが対応するテスト出力ラベルを取得し、
    ステップ5は、ステップ1で前処理されたラベルセットの中で各クラスのテスト出力ラベルが存在するラベルセットを検索し、それから当該ラベルセットが一つのラベル要素しか持っていないかどうかを判断し、もし各クラスのテスト出力ラベルが存在するラベルセットが一つのラベル要素しか持っていなければ、各クラスのテスト出力ラベルを当該クラスの最優出力ラベルとし、そうでなければ次のステップに進み、
    ステップ6は、各クラスのテスト出力ラベルが対応するデータサンプルセットと当該クラスのテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、それから当該類似度に基づいて各組の可能出力ラベルを計算して決定し、その中に、各組の可能出力ラベルの中には各クラスの一つの可能出力ラベルが含まれ、
    ステップ7は、各組の可能出力ラベルの中の各クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、また当該類似度に基づいて一組の可能出力ラベルを計算決定して最優出力ラベルとし、
    ステップ8は、可能出力ラベルの中の各クラスの出力ラベルの一致する確率と一致しない確率を計算し、各クラスの出力ラベルの一致する確率と一致しない確率とし、
    ステップ9は、可能出力ラベル、最優出力ラベル、各クラスの出力ラベルの一致する確率及び一致しない確率を出力し、
    前記Nクラスの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得するのは、具体的には、
    各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットを取得し、当該クラスの中の同じのデータフォーマットを合併してs 種のデータフォーマットを取得し、当該クラスのデータサンプルセットの中の各種のデータフォーマットPiが対応するデータサンプル数Miを統計し、一番大きなMiが対応データフォーマットPiを当該クラスのデータサンプルのデータプリセットフォーマットとするステップ(sが1以上であり、iが1以上且つs以下である)と、
    各クラスのデータサンプルセットが対応するラベルセットの中の各ラベルのラベルフォーマットを取得し、すべてのクラスの同じのラベルフォーマットを合併して少なくともt種のラベルフォーマットを取得し、当該クラスのラベルセットの中の各種のラベルフォーマットQjが対応するラベル数Njを統計し、一番大きなNjが対応するラベルフォーマットQjをラベルプリセットフォーマットとする(tが1以上であり、jが1以上且つt以下である)ステップを含み、
    Nクラスデータサンプルセットとラベルセットを前処理するステップ1は、具体的にはステップ1-1〜ステップ1-5を含み、
    ステップ1-1、各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットが当該クラスのデータサンプルのデータプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換し、
    ステップ1-2、各クラスのデータサンプルセットの中の各データサンプルが対応するラベルのデータフォーマットがラベルプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルが対応するラベルのデータフォーマットをラベルプリセットフォーマットに変換し、
    ステップ1-3、Nクラスデータサンプルセットの中の各クラスのデータサンプルセットをクラスタリング処理し、J個のクラスタ化されたデータサンプルセット及びそれに対応する出力ラベルセットを取得し、
    ステップ1-4、J個のクラスタ化された出力ラベルセットの各クラスの同じのラベルを合併し、更新されたJ個の出力ラベルセットを取得し、
    ステップ1-5、更新されたJ個の出力ラベルセットの同じのラベルを持つラベルセット及び対応のデータサンプルセットをそれぞれ合併し、前処理されたデータサンプルセット及びそれに対応する出力ラベルセットを取得し、
    Nクラスデータサンプルセットが対応するN個の深層学習ニューラルネットワークを初期化するのは、具体的にはステップ2-1〜2-3を含み、
    ステップ2-1、各クラスのデータサンプルのデータプリセットフォーマットを当該クラスの対応する深層学習ニューラルネットワークの入力フォーマットとし、
    ステップ2-2、ラベルプリセットフォーマットを各クラスの対応する深層学習ニューラルネットワークの出力フォーマットとし、
    ステップ2-3、各クラスの対応する深層学習ニューラルネットワークの構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークの構成情報とし、また当該クラスの対応する深層学習ニューラルネットワークを配置し、
    各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークの構成情報とするのは、具体的にはステップ2-3-1〜2-3-4を含み、
    ステップ2-3-1、深層学習ニューラルネットワーク構成知識ベースから入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとが一番一致する深層学習ニューラルネットワークの対応する構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とし、
    その中に、入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとのマッチング程度=入力フォーマットが当該クラスのデータプリセットフォーマットとのマッチング程度×u%+出力フォーマットがラベルプリセットフォーマットとのマッチング程度×(1-u%)、uのデフォルト値が90であり、
    ステップ2-3-2、各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報をユーザーに出力し、
    ステップ2-3-3、ユーザーによっての各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報の変更を取得し、
    ステップ2-3-4、変更された各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報を、当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とし、
    ステップ1で取得した各クラスのデータサンプルセットを入力とし、それに対応するラベルセットを出力とし、当該クラスの対応する深層学習ニューラルネットワークを訓練し、N個の訓練された深層学習ニューラルネットワークを取得するのは、具体的にはステップ3-1〜3-2を含み、
    ステップ3-1、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスの対応する深層学習ニューラルネットワークに対してアセンディングオーダーの監督なし訓練を行い、
    ステップ3-2、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスのデータサンプルセットが対応するラベルセットの中の当該データサンプルが対応するラベルを出力とし、当該クラスの対応する深層学習ニューラルネットワークに対しトップダウンの監督学習を行い、N個の訓練された深層学習ニューラルネットワークを取得し、
    各クラスのテスト出力ラベルが対応するデータサンプルセットと当該クラスのテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、それから当該類似度に基づいて各組の可能出力ラベルを計算決定するのは、具体的には:
    N=1であれば、テスト出力ラベルが対応するデータサンプルセットとテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、類似度が第一プリセット値aを超えるすべてのラベル要素を一組の可能出力ラベルとし、
    N>1であれば、第iクラスのテスト出力ラベルが対応するデータサンプルセットDiを取得し、第iクラスのテスト出力ラベルが存在するラベルセットの中のラベル要素の数miを取得し、第iクラスのテスト出力ラベルが存在するラベルセットの中の第j個のラベル要素が対応するデータサンプルセットDijを取得し、DiとDijの類似度Pijを計算し、その中に、iが1からNまでの各自然数であり、jが1からmiまでの各自然数であり、
    k1、k2、…、kNの各値に対し、類似度第一綜合値f(P1k1、P2k2、…、PNkN)を計算し、もしf(P1k1、P2k2、…、PNkN)が第二プリセット値bより大きければ、第一クラスのテスト出力ラベルが存在するラベルセットの中の第k1番のラベル要素、第二クラスのテスト出力ラベルが存在するラベルセットの中の第k2番のラベル要素、…、第Nクラスのテスト出力ラベルが存在するラベルセットの中の第kN番のラベル要素を、一組の可能出力ラベルとし、その中に、k1が1からm1までの各自然数であり、k2が1からm2までの各自然数であり、…、kNが1からmNまでの各自然数であり、f(P1k1、P2k2、…、PNkN)が(P1k1、P2k2、…、PNkN)の乗積であり、
    データサンプルセットAとデータサンプルセットBの類似度=max(データサンプルセットAの中の各サンプルとデータサンプルセットBの中の各サンプルの類似度)、
    各組の可能出力ラベルの中の各クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、また当該類似度に基づいて一組の可能出力ラベルを計算決定して最優出力ラベルとするのは、具体的には:
    N=1の場合、各組の可能出力ラベルの中の可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、一番大きな類似度が対応する一組の可能出力ラベルを取得して一組の最優出力ラベルとし、
    N>1の場合、各組の可能出力ラベルの中の第iクラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度Piを計算し、それから類似度第二綜合値g(P1、P2、…、PN)を計算し、一番大きな類似度第二綜合値が対応する一組の可能出力ラベルを取得し一組の最優出力ラベルとし、その中にg(P1、P2、…、PN)が(P1、P2、…、PN)の乗積であり、その中に、iが1からNまでの各自然数であり、
    可能出力ラベルの中の各クラスの出力ラベルの一致する確率と一致しない確率を計算し、各クラスの出力ラベルの一致する確率と一致しない確率とするのは、具体的には:N=1の場合、一クラスの出力ラベルしかなく、従って各クラスの出力ラベルが一致する確率が100%であり、一致しない確率が0%であり、
    N>1の場合、まず各組の可能出力ラベルの中の各クラスの可能出力ラベルが一致するかどうかを判断し、また一致すると判断される各組の可能出力ラベルが対応する類似度第二綜合値の和をすべての可能出力ラベルが対応する類似度第二綜合値の和と除算し、各クラスの出力ラベルが一致する確率を取得し、最後に100%から各クラスの出力ラベルが一致する確率を引いて各クラスの出力ラベルの一致しない確率を取得する。
JP2018199173A 2017-10-23 2018-10-23 連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法 Active JP6928206B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710994336.8 2017-10-23
CN201710994336.8A CN107704888B (zh) 2017-10-23 2017-10-23 一种基于联合聚类深度学习神经网络的数据识别方法

Publications (2)

Publication Number Publication Date
JP2019079536A true JP2019079536A (ja) 2019-05-23
JP6928206B2 JP6928206B2 (ja) 2021-09-01

Family

ID=61182830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018199173A Active JP6928206B2 (ja) 2017-10-23 2018-10-23 連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法

Country Status (2)

Country Link
JP (1) JP6928206B2 (ja)
CN (1) CN107704888B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112114360A (zh) * 2019-06-21 2020-12-22 中国石油天然气集团有限公司 一种地震波形分析方法及装置
CN112866156A (zh) * 2021-01-15 2021-05-28 浙江工业大学 一种基于深度学习的无线电信号聚类方法及系统
CN113313254A (zh) * 2021-06-10 2021-08-27 浙江工业大学 面向记忆增强元学习的深度学习模型去偏方法
CN114143210A (zh) * 2021-11-11 2022-03-04 中国电子科技集团公司第五十四研究所 一种基于深度学习的指挥控制网络关键节点识别方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108828948B (zh) * 2018-07-15 2021-06-18 大国创新智能科技(东莞)有限公司 基于深度学习的人工智能作战方法和机器人系统
CN109582795B (zh) * 2018-11-30 2021-01-05 奇安信科技集团股份有限公司 基于全生命周期的数据处理方法、设备、系统和介质
CN111435452B (zh) * 2019-01-11 2023-11-03 百度在线网络技术(北京)有限公司 模型训练方法、装置、设备和介质
CN110011942B (zh) * 2019-02-15 2021-07-23 中国人民解放军战略支援部队信息工程大学 基于深度学习的莫尔斯报文智能检测识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101028A (ja) * 1991-10-04 1993-04-23 Nippon Telegr & Teleph Corp <Ntt> 複数特徴量の統合判定方法
US20180247159A1 (en) * 2017-02-27 2018-08-30 Zecang Gu Method of constructing a neural network model for super deep confrontation learning

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836671B2 (en) * 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
CN105320967A (zh) * 2015-11-04 2016-02-10 中科院成都信息技术股份有限公司 基于标签相关性的多标签AdaBoost集成方法
CN106022380A (zh) * 2016-05-25 2016-10-12 中国科学院自动化研究所 基于深度学习的个体身份识别方法
CN107122396B (zh) * 2017-03-13 2019-10-29 西北大学 基于深度卷积神经网络的三维模型检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101028A (ja) * 1991-10-04 1993-04-23 Nippon Telegr & Teleph Corp <Ntt> 複数特徴量の統合判定方法
US20180247159A1 (en) * 2017-02-27 2018-08-30 Zecang Gu Method of constructing a neural network model for super deep confrontation learning
CN108510057A (zh) * 2017-02-27 2018-09-07 顾泽苍 一种超深度对抗学习的神经网络模型的构成方法
JP2018142323A (ja) * 2017-02-27 2018-09-13 澤蒼 顧 超深層競合学習のニューラルネットワークモデルの構築方法、その装置、及びそのモデルが搭載された汎用モバイル端末装置、及びそのプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112114360A (zh) * 2019-06-21 2020-12-22 中国石油天然气集团有限公司 一种地震波形分析方法及装置
CN112866156A (zh) * 2021-01-15 2021-05-28 浙江工业大学 一种基于深度学习的无线电信号聚类方法及系统
CN113313254A (zh) * 2021-06-10 2021-08-27 浙江工业大学 面向记忆增强元学习的深度学习模型去偏方法
CN113313254B (zh) * 2021-06-10 2024-03-29 浙江工业大学 面向记忆增强元学习的深度学习模型去偏方法
CN114143210A (zh) * 2021-11-11 2022-03-04 中国电子科技集团公司第五十四研究所 一种基于深度学习的指挥控制网络关键节点识别方法
CN114143210B (zh) * 2021-11-11 2024-05-03 中国电子科技集团公司第五十四研究所 一种基于深度学习的指挥控制网络关键节点识别方法

Also Published As

Publication number Publication date
JP6928206B2 (ja) 2021-09-01
CN107704888B (zh) 2021-04-16
CN107704888A (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
JP2019079536A (ja) 連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN104992191B (zh) 基于深度学习的特征和最大置信路径的图像分类方法
CN107918633B (zh) 基于语义分析技术的敏感舆情内容识别方法和预警系统
CN107562918A (zh) 一种数学题知识点发现与批量标签获取方法
CN107330109A (zh) 一种商标查询结果近似度评价和排序方法、装置
CN104199840B (zh) 基于统计模型的智能地名识别技术
CN109815336A (zh) 一种文本聚合方法及系统
CN107577665B (zh) 文本情感倾向的判别方法
KR101062672B1 (ko) 유해 동영상 검출장치 및 그 방법
CN106250925B (zh) 一种基于改进的典型相关分析的零样本视频分类方法
JP2017168057A (ja) 画像分類装置、画像分類システム及び画像分類方法
CN115374189B (zh) 基于区块链的食品安全溯源方法、装置及设备
CN108804591A (zh) 一种病历文本的文本分类方法及装置
CN110175229A (zh) 一种基于自然语言进行在线培训的方法和系统
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN109063743A (zh) 基于半监督多任务学习的医疗数据分类模型的构建方法
CN109902284A (zh) 基于论辩挖掘的一种无监督论点提取方法
CN109448154A (zh) 一种输电线路人员巡检方法及装置
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN110751191A (zh) 一种图像的分类方法及系统
WO2020054551A1 (ja) 情報処理装置、情報処理方法、プログラム
CN104850864A (zh) 一种基于卷积神经网络的非监督图像识别方法
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置
CN113420111A (zh) 一种用于多跳推理问题的智能问答方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210518

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210604

R150 Certificate of patent or registration of utility model

Ref document number: 6928206

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150