CN107704888B

CN107704888B - 一种基于联合聚类深度学习神经网络的数据识别方法

Info

Publication number: CN107704888B
Application number: CN201710994336.8A
Authority: CN
Inventors: 朱定局
Original assignee: Daguo Innovation Intelligent Technology Dongguan Co ltd
Current assignee: Daguo Innovation Intelligent Technology Dongguan Co ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2021-04-16
Anticipated expiration: 2037-10-23
Also published as: CN107704888A; JP2019079536A; JP6928206B2

Abstract

本发明公开了一种基于联合聚类深度学习神经网络的数据识别方法，步骤如下：首先获取N类数据样本集及对应的标签集并进行预处理，同时获取数据预设格式、标签预设格式；然后对深度学习神经网络进行训练；接着将每一类任一测试数据转化为该类数据预设格式后作为该类深度学习神经网络的输入，得到对应的测试输出标签；然后根据测试输出标签所在标签集的元素个数及数据集之间相似度的计算，确定可能输出标签及最优输出标签；然后计算各类输出标签一致和不一致的概率；最后将可能、最优输出标签及上步中的概率输出。本发明通过相似度计算弥补深度学习神经网络在输出标签数量多而输入样本量不足时输出准确性的不足，进而提高输出的准确性。

Description

一种基于联合聚类深度学习神经网络的数据识别方法

技术领域

本发明涉及一种联合聚类深度学习方法，特别是一种基于联合聚类深度学习神经网络的数据识别方法。

背景技术

现有深度学习能通过输入数据得到输出标签(例如通过头像得到该人身份证号，又如通过语音得到该人身份证号)，但在自顶向下的监督学习阶段必须要通过带标签数据的监督学习(例如带有身份证号的头像，又如带有身份证号的语音)。如果同时具备带有身份证号的头像和带有身份证号的头像语音，则可以将一个头像输入头像类对应的深度学习神经网络得到输出的身份证号，将一个语音输入语音类对应的深度学习神经网络得到输出的身份证号，然后判断通过输入头像和输入语音分别得到的所述输出的身份证号是否相同，如果相同则判断所述一个头像与所述一个语音对应的是同一人，如果不同则判断所述一个头像与所述一个语音对应的不是同一人。

但是，由于深度学习神经网络的准确率无法达到100％，所以一个头像输入头像类对应的深度学习神经网络后输出的身份证号可能是另一个头像相似的人的身份证号，一个语音输入语音类对应的深度学习神经网络后输出的身份证号可能是另一个语音相似的人的身份证号，那么就会导致不属于同一个人的一个头像和一个语音被判定为对应同一个人，也会导致属于不同人的一个头像和一个语音被判定为对应同一个人。当判断出一个头像和一个语音对应不同人时，却无法计算出该个头像和该个语音可能对应同一个人的概率。当判断出一个头像和一个语音对应同一个人时，却无法计算出该个头像和该个语音可能对应不同人的概率或其他人的概率。

当通过语音、头像、甚至更多其他类型的数据中的一种或多种来识别对象时，使用现有深度学习技术，无法综合利用相似度及多种深度学习的结果来计算出其他可能性输出及最优输出，从而无法进行进一步精准的识别和判断。

发明内容

本发明所解决的技术问题在于提供一种基于联合聚类深度学习神经网络的数据识别方法。

实现本发明目的的技术解决方案为：一种基于联合聚类深度学习神经网络的数据识别方法，包括以下步骤：

步骤1、先获取N类数据样本集及每一类数据样本集对应的标签集，再获取所述N类数据样本集中每一类数据样本的数据预设格式，并获取标签预设格式，然后对N类数据样本集和标签集进行预处理；所述N大于等于1。其中，

获取所述N类中每一类数据样本的数据预设格式，并获取标签预设格式，具体为：

获取每一类数据样本集中每一个数据样本的数据格式，将该类中相同的数据格式进行合并得到s种数据格式，统计该类数据样本集中每一种数据格式Pi对应的数据样本数量Mi，将最大的Mi对应的数据格式Pi作为该类数据样本的数据预设格式；其中，s大于或等于1,i大于或等于1且小于或等于s；

获取每一类数据样本集对应的标签集中每一个标签的标签格式，将所有类中相同的标签格式进行合并得到至少t种标签格式，统计该类标签集中每一种标签格式Qj对应的标签数量Nj，将最大的Nj对应的标签格式Qj作为标签预设格式；其中，t大于或等于1,j大于或等于1且小于或等于t。

对N类数据样本集和标签集进行预处理，具体为：

步骤1-1、判断每一类数据样本集中每一数据样本的数据格式是否与该类数据样本的数据预设格式一致，如果不一致，则将该类该数据样本的数据格式转化为该类数据样本的数据预设格式；

步骤1-2、判断每一类数据样本集中每一个数据样本对应的标签的数据格式是否与标签预设格式一致，如果不一致，则将该类该数据样本对应的标签的数据格式转化为标签预设格式；

步骤1-3、对N类数据样本集中的每类数据样本集进行聚类处理，获得J个聚类后的数据样本集及其对应的输出标签集；

步骤1-4、对J个聚类后的输出标签集中每个类中相同的标签进行合并，得到更新后的J个输出标签集；

步骤1-5、将更新后的J个输出标签集中具有相同标签的标签集及对应的数据样本集分别进行合并，得到预处理后的数据样本集及其对应的输出标签集。

步骤2、初始化N类数据样本集对应的N个深度学习神经网络。具体为：

步骤2-1、将每一类数据样本的数据预设格式作为该类对应的深度学习神经网络的输入格式；

步骤2-2、将标签预设格式作为每一类对应的深度学习神经网络的输出格式；

步骤2-3、获取每一类对应的深度学习神经网络的配置信息，将其作为该类对应的深度学习神经网络的配置信息，然后对该类对应的深度学习神经网络进行配置。具体为：

步骤2-3-1、从深度学习神经网络配置知识库中获取输入格式、输出格式与每一类数据预设格式及标签预设格式最为匹配的深度学习神经网络对应的配置信息，将其作为该类对应的深度学习神经网络的预设配置信息；

其中，输入格式、输出格式与每类数据预设格式及标签预设格式的匹配度＝输入格式与该类数据预设格式的匹配度×u％+输出格式与标签预设格式的匹配度×(1-u％)，u的缺省值为90；

步骤2-3-2、将每一类对应的深度学习神经网络的预设配置信息输出给用户；

步骤2-3-3、获取用户对每一类对应的深度学习神经网络的预设配置信息的修改；

步骤2-3-4、将修改后的每一类对应的深度学习神经网络的预设配置信息，作为该类对应的深度学习神经网络的预设配置信息。

步骤3、将步骤1获取的每一类数据样本集作为输入，将其对应的标签集作为输出，对该类对应的深度学习神经网络进行训练，得到N个训练后的深度学习神经网络。具体为：

步骤3-1、将每一类数据样本集中每一个数据样本作为该类对应的深度学习神经网络的输入，对该类对应的深度学习神经网络进行自下而上的无监督训练；

步骤3-2、将每一类数据样本集中每一个数据样本作为该类对应的深度学习神经网络的输入，将该类数据样本集对应的标签集中该个数据样本对应的标签作为输出，对该类对应的深度学习神经网络进行自顶向下的监督学习，得到N个训练后的深度学习神经网络。

步骤4、为每一类对应的深度学习神经网络获取一个测试数据，将每一类测试数据的数据格式转化为该类数据样本的数据预设格式，然后将该测试数据作为该类对应的深度学习神经网络的输入，通过该深度学习神经网络的计算得到该类对应的测试输出标签；

步骤5、在步骤1预处理的标签集中查找每一类的测试输出标签所在的标签集，之后判断该标签集是否只有一个标签元素；如果每一类的测试输出标签所在的标签集只有一个标签元素，则将每一类的测试输出标签作为该类的最优输出标签；否则执行下一步；

步骤6、计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度，并根据该相似度计算并确定每一组可能输出标签；其中，每一组可能输出标签中包含了每一类的一个可能输出标签。具体为：

如果N＝1，则计算测试输出标签所对应的数据样本集与测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度，将相似度大于第一预设值a的所有标签元素作为一组可能输出标签；

如果N>1，则获取第i类的测试输出标签所对应的数据样本集D_i；获取第i类测试输出标签所在的标签集中标签元素的个数m_i；获取第i类测试输出标签所在的标签集中第j个标签元素对应的数据样本集D_ij；计算D_i与D_ij的相似度P_ij；其中，i取从1到N中的每一个自然数，j取从1到m_i中的每一个自然数；

对k1，k2,…,kN的每一个取值，计算相似度第一综合值f(P_1k1,P_2k2,…,P_NkN)，如果f(P_1k1,P_2k2,…,P_NkN)大于第二预设值b，则将第1类测试输出标签所在的标签集中第k1个标签元素,第2类测试输出标签所在的标签集中第k2个标签元素,…,第N类测试输出标签所在的标签集中第kN个标签元素,作为一组可能输出标签；其中，k1取从1到m₁中的每一个自然数，k2取从1到m₂中的每一个自然数，…,kN取从1到m_N中的每一个自然数；f(P_1k1,P_2k2,…,P_NkN)是求(P_1k1,P_2k2,…,P_NkN)的乘积。

步骤7、计算每一组可能输出标签中每一类的可能输出标签对应的数据样本集与该一类的测试数据集的相似度，并根据该相似度计算并确定一组可能输出标签作为最优输出标签。具体为：

如果N＝1，则计算每一组可能输出标签中可能输出标签对应的数据样本集与该一类的测试数据集的相似度，获取最大相似度对应的一组可能输出标签作为一组最优输出标签；

如果N>1，则计算每一组可能输出标签中第i类的可能输出标签对应的数据样本集与该一类的测试数据集的相似度P_i，之后计算相似度第二综合值g(P₁,P₂,…,P_N)，获取最大相似度第二综合值对应的一组可能输出标签作为一组最优输出标签；其中g(P₁,P₂,…,P_N)是求(P₁,P₂,…,P_N)的乘积；其中，i取从1到N中的每一个自然数。

步骤8、计算可能输出标签中各类输出标签都一致的概率及不一致的概率，作为各类输出标签一致的概率及不一致的概率。具体为：

如果N＝1，则只有一类输出标签，因此各类输出标签一致的概率为100％，不一致的概率为0％；

如果N>1，则先判断每一组可能输出标签中各类可能输出标签是否一致；然后将判断结果为一致的各组可能输出标签对应的相似度第二综合值之和与所有可能输出标签对应的相似度第二综合值之和相除，得到各类输出标签一致的概率；最后通过100％减去各类输出标签一致的概率得到各类输出标签不一致的概率。

步骤9、将可能输出标签、最优输出标签、各类输出标签一致的概率及不一致的概率输出。

本发明与现有技术相比，其显著优点为：本发明将深度学习神经网络与相似度计算进行有机结合，丰富了输出的结果，提高了输出的准确率。本发明采用结合相似度计算的方法，取长补短，从而通过相似度计算来弥补深度学习神经网络在输出标签数量多而输入样本量不足时输出准确性的不足，进而提高输出的准确性。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明的基于联合聚类深度学习神经网络的数据识别方法流程图。

图2为本发明的基于联合聚类深度学习神经网络的数据识别方法中对数据样本集和输出标签集预处理的流程图。

图3为本发明的基于联合聚类深度学习神经网络的数据识别方法中深度学习神经网络训练的流程图。

具体实施方式

结合附图，本发明的一种基于联合聚类深度学习神经网络的数据识别方法，包括以下步骤：

步骤1、先获取N类数据样本集及每一类数据样本集对应的标签集，再获取所述N类数据样本集中每一类数据样本的数据预设格式，并获取标签预设格式，然后对N类数据样本集和标签集进行预处理；所述N大于等于1；

对N类数据样本集和标签集进行预处理，具体为：

步骤2、初始化N类数据样本集对应的N个深度学习神经网络；具体为：

步骤3、将步骤1获取的每一类数据样本集作为输入，将其对应的标签集作为输出，对该类对应的深度学习神经网络进行训练，得到N个训练后的深度学习神经网络；具体为：

步骤6、计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度，并根据该相似度计算并确定每一组可能输出标签；其中，每一组可能输出标签中包含了每一类的一个可能输出标签；具体为：

数据样本集A与数据样本集B的相似度＝max(数据样本集A中每一个样本与数据样本集B中每一个样本的相似度)。

步骤7、计算每一组可能输出标签中每一类的可能输出标签对应的数据样本集与该一类的测试数据集的相似度，并根据该相似度计算并确定一组可能输出标签作为最优输出标签；具体为：

步骤8、计算可能输出标签中各类输出标签都一致的概率及不一致的概率，作为各类输出标签一致的概率及不一致的概率；具体为：

本发明将深度学习神经网络与相似度计算进行有机结合，丰富了输出的结果，提高了输出的准确率。本发明采用结合相似度计算的方法，取长补短，从而通过相似度计算来弥补深度学习神经网络在输出标签数量多而输入样本量不足时输出准确性的不足，进而提高输出的准确性。

下面结合附图及具体实施方式对本发明作进一步详细说明。

实施例

以两类数据样本集及其对应的标签集为例。第一类数据样本集为“头像11、头像12、头像13、头像14、…、头像1m”，对应的第一类输出标签的集合为“身份证号11、身份证号12、身份证号13、身份证号14、…、身份证号1m”，其中，头像11与身份证号11对应，头像12与身份证号12对应，头像13与身份证号13对应，头像14与身份证号14对应，……，头像1n与身份证号1n对应。其中可能会存在相同的身份证号，例如身份证号13与身份证号16相同。第二类数据样本集为“语音21、语音22、语音23、语音24、…、语音2n”，对应的第一类输出标签的集合为“身份证号21、身份证号22、身份证号23、身份证号24、…、身份证号2n”，其中，语音21与身份证号21对应，语音22与身份证号22对应，语音23与身份证号23对应，语音24与身份证号24对应，……，语音2n与身份证号2n对应。其中可能会存在相同的身份证号，例如身份证号22与身份证号28相同。

结合图1，本发明基于联合聚类深度学习神经网络的数据识别方法，包括以下步骤：

步骤1、首先获取两类数据样本集及每类数据样本集对应的标签集，再获取所述两类数据样本集中每一类数据样本的数据预设格式，并获取标签预设格式，具体为:

获取每一类数据样本集中每一个数据样本的数据格式，将该类中相同的数据格式进行合并得到s种数据格式，统计该类数据样本集中每一种数据格式Pi对应的数据样本数量Mi，将最大的Mi对应的数据格式Pi作为该类数据样本的数据预设格式；其中，s大于或等于1,i大于或等于1且小于或等于s。例如，第一类数据样本为图像样本，第二类数据样本为语音样本。以第一类数据样本为例，第一类数据样本集中480x 640像素的JPEG图片数据格式的数据样本有809个、480x 640像素的TIFF图片数据格式的数据样本有8367个、480x 640像素的BMP图片数据格式的数据样本有67个、2576x 1932像素的JPEG图片数据格式的数据样本有5362个、2576x 1932像素的TIFF图片数据格式的数据样本有32个、2576x 1932像素的BMP图片数据格式的数据样本有136个,其中数据样本数量最大的数据格式是480x 640像素的TIFF图片数据格式，所以将480x 640像素的TIFF图片数据格式作为第一类数据样本的数据预设格式。

获取每一类数据样本集对应的标签集中每一个标签的标签格式，将所有类中相同的标签格式进行合并得到至少t种标签格式，统计该类标签集中每一种标签格式Qj对应的标签数量Nj，将最大的Nj对应的标签格式Qj作为标签预设格式；其中，t大于或等于1,j大于或等于1且小于或等于t。例如，共有两类数据样本集对应的标签集，第一类数据样本集对应的标签集中，身份证号标签有5636个，姓名标签有5426个，第二类数据样本集对应的标签集中，身份证号标签有2654个，姓名标签有235个，则两类数据样本集对应的标签集中身份证号标签有8290个，姓名标签有5661个，所以将身份证号标签作为标签预设格式。

然后对输入的两类数据样本集和标签集进行预处理，结合图2，以第一类数据样本集和标签集为例，具体过程为：

步骤1-1、判断每一类数据样本集中每一数据样本的数据格式是否与该类数据样本的数据预设格式一致，如果不一致，则将该类该数据样本的数据格式转化为该类数据样本的数据预设格式。例如，480x 640像素的TIFF图片数据格式是第一类数据样本的数据预设格式，如果第一类数据样本集中一个数据样本的数据格式也是480x 640像素的TIFF图片数据格式，与第一类数据样本的数据预设格式相同，则无需进行转化，如果第一类数据样本集中一个数据样本的数据格式是2576x 1932像素的JPEG图片数据格式，与第一类数据样本的数据预设格式不同，则需转化为480x 640像素的TIFF图片数据格式。

步骤1-2、判断每一类数据样本集中每一个数据样本对应的标签的数据格式是否与标签预设格式一致，如果不一致，则将该类该数据样本对应的标签的数据格式转化为标签预设格式。例如，身份证号标签作为标签预设格式，如果第一类数据样本集中一个数据样本对应的标签的数据格式是身份证号格式，与标签预设格式相同，则无需进行转化，如果第一类数据样本集中一个数据样本对应的标签的数据格式是姓名格式，与标签预设格式不同，则需转化为身份证号格式。

步骤1-3、对第一类数据样本集进行聚类处理，获得j个聚类后的数据样本集及其对应的输出标签集。具体为：

首先对第一类数据样本集“头像11、头像12、头像13、头像14、…、头像1m”进行聚类，聚类的规则是：将相似度大于头像相似度预设阈值(缺省值为90％)的头像加入到同一个聚类(就是将上述头像内部进行相似度计算，如果相似度大于90％，则将相应的头像加入一个聚类)，使得一个聚类中任一头像都在该个聚类中存在另一头像与该个头像的相似度大于头像相似度预设阈值(缺省值为90％)；同时使得一个聚类中任一头像都在另一个聚类中不存在任一头像与该个头像的相似度大于头像相似度预设阈值(缺省值为90％)；每一头像只属于一个聚类。根据该聚类规则，得到第一个聚类“头像111、头像112、…、头像11m₁”，第二个聚类“头像211、头像212、…、头像21m₂”，第三个聚类“头像311、头像312、…、头像31m₃”，…，第j个聚类“头像j11、头像j12、…、头像j1m_j”。

然后对第一类数据样本集对应的标签集进行聚类。第一类数据样本集的第一个聚类“头像111、头像112、…、头像11m₁”，对应的输出标签的集合为“身份证号111、身份证号112、…、身份证号11m₁”，作为第一类输出标签的第一个聚类；数据样本集的第二个聚类“头像211、头像212、…、头像21m₂”，对应的输出标签的集合为“身份证号211、身份证号212、…、身份证号21m₂”，作为第一类输出标签的第二个聚类；…；数据样本集的第j个聚类“头像j11、头像j12、…、头像j1m_j”，对应的输出标签的集合为“身份证号j11、身份证号j12、…、身份证号j1m_j”，作为第一类输出标签的第j个聚类。

步骤1-4、对上述j个聚类后的输出标签集中每个类中相同的标签进行合并，得到更新后的j个输出标签集；

例如，第一类数据样本集的第一个聚类“头像111、头像112、…、头像11m₁”，对应的输出标签的集合为“身份证号111、身份证号112、…、身份证号11m₁”；数据样本集的第二个聚类“头像211、头像212、…、头像21m₂”，对应的输出标签的集合为“身份证号211、身份证号212、…、身份证号21m₂”；如果第二个聚类对应的输出标签的集合中身份证号212与第一个聚类对应的输出标签的集合中身份证号116相同，则将第二个聚类对应的输出标签的集合与第一个聚类对应的输出标签的集合合并，同时将第二个聚类对应的数据样本集与第一个聚类对应的数据样本集合并。

步骤2、初始化N类数据样本集对应的N个深度学习神经网络。

步骤3、将步骤1获取的每类数据样本集作为输入，将其对应的标签集作为输出，对该类对应的深度学习神经网络进行训练，得到两个训练后的神经网络。结合图3，具体为：

步骤3-1、将每类数据样本集中每一个数据样本作为该类对应的深度学习神经网络的输入，对该类对应的深度学习神经网络进行自下而上的无监督训练；

步骤3-2、将每类数据样本集中每一个数据样本作为该类对应的深度学习神经网络的输入，将对应的标签集中的对应标签作为输出，对该类对应的深度学习神经网络进行自顶向下的监督学习，得到两个训练后的深度学习神经网络。

步骤4、为每一类对应的深度学习神经网络获取一个测试数据，将每一类测试数据的数据格式转化为该类数据的数据预设格式。例如，480x 640像素的TIFF图片数据格式是第一类数据样本的数据预设格式，如果第一类该一测试数据的数据格式也是480x640像素的TIFF图片数据格式，与第一类数据样本的数据预设格式相同，则无需进行转化，如果第一类该一测试数据的数据格式是2576x 1932像素的JPEG图片数据格式，与第一类数据样本的数据预设格式不同，则需转化为480x 640像素的TIFF图片数据格式。

然后将该测试数据作为该类对应的深度学习神经网络的输入，通过该深度学习神经网络的计算得到该类对应的测试输出标签。例如，输入第一类任一测试数据“头像1p”到第一类对应的深度学习神经网络，得到测试输出标签“张三身份证号”；输入第二类任一测试数据“语音2q”到第二类对应的深度学习神经网络，得到测试输出标签“李四身份证号”。

步骤5、在步骤1预处理的标签集中查找每一类的测试输出标签所在的标签集，之后判断该标签集是否只有一个标签元素；如果每一类的测试输出标签所在的标签集只有一个标签元素，则将每一类的测试输出标签作为该类的最优输出标签，即将步骤4中“张三身份证号”、“李四身份证号”分别作为第一类、第二类的最优输出标签；否则执行下一步；

步骤6、计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度，并根据该相似度计算并确定每一组可能输出标签；其中，每一组可能输出标签中包含了每一类的一个可能输出标签。例如，步骤4中“张三身份证号”所在第一类输出标签集为“朱一身份证号，郑二身份证号，张三身份证号，吴七身份证号”，对应的数据样本集分别为“朱一头像集，郑二头像集，张三头像集，吴七头像集”；“李四身份证号”所在第二类输出标签集为“田一身份证号，李四身份证号，吴七身份证号”，对应的数据样本集分别为“田一语音集，李四语音集，吴七语音集”。假设有N类数据样本集及对应的标签集，具体过程分为以下两种情况：

(1)N＝1：只有一类数据样本集及对应的标签集。例如仅存在上述第一类数据样本集及对应的标签集。

计算测试输出标签所对应的数据样本集“张三头像集”与测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度。则得到“张三头像集”与“朱一头像集”的相似度a1为80％，“张三头像集”与“郑二头像集”的相似度a2为90％，“张三头像集”与“张三头像集”的相似度a3为100％，“张三头像集”与“吴七头像集”的相似度a4为92％。其中a2、a3、a4均大于第一预设值80％，所以存在三组可能输出标签，分别为“郑二身份证号”、“张三身份证号”、“吴七身份证号”。

(2)N>1：有多类数据样本集及对应的标签集。例如N＝2，包括上述第一类数据样本集及对应的标签集、第二类数据样本集及对应的标签集。

首先计算第一类测试输出标签所对应的数据样本集“张三头像集”与测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度。相似度计算结果同上述N＝1的情况。

然后计算第二类测试输出标签所对应的数据样本集“李四语音集”与测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度。则得到“李四语音集”与“田一语音集”的相似度b1为95％，“李四语音集”与“李四语音集”的相似度b2为100％，“李四语音集”与“吴七语音集”的相似度b3为85％。

最后计算所有可能输出标签组各自的相似度第一综合值，输出标签组c1“朱一身份证号，田一身份证号”的相似度第一综合值f1为80％×95％＝76％，输出标签组c2“朱一身份证号，李四身份证号”的相似度第一综合值f2为80％×100％＝80％，输出标签组c3“朱一身份证号，吴七身份证号”的相似度第一综合值f3为80％×85％＝68％，输出标签组c4“郑二身份证号，田一身份证号”的相似度第一综合值f4为90％×95％＝85.5％，输出标签组c5“郑二身份证号，李四身份证号”的相似度第一综合值f5为90％×100％＝90％，输出标签组c6“郑二身份证号，吴七身份证号”的相似度第一综合值f6为90％×85％＝76.5％，输出标签组c7“张三身份证号，田一身份证号”的相似度第一综合值f7为100％×95％＝95％，输出标签组c8“张三身份证号，李四身份证号”的相似度第一综合值f8为100％×100％＝100％，输出标签组c9“张三身份证号，吴七身份证号”的相似度第一综合值f9为100％×85％＝85％，输出标签组c10“吴七身份证号，田一身份证号”的相似度第一综合值f10为92％×95％＝87.4％，输出标签组c11“吴七身份证号，李四身份证号”的相似度第一综合值f11为92％×100％＝92％，输出标签组c12“吴七身份证号，吴七身份证号”的相似度第一综合值p12为92％×85％＝78.2％。其中f4、f5、f7、f8、f10、f11均大于第二预设值85％，所以有6组可能输出标签，分别为c4、c5、c7、c8、c10、c11对应的输出标签组。

步骤7、计算由步骤6得到的每一组可能输出标签中每一类的可能输出标签对应的数据样本集与该一类的测试数据集的相似度，并根据该相似度计算并确定一组可能输出标签作为最优输出标签。对应步骤6中的内容，具体过程分为以下两种情况：

(1)N＝1：由步骤6可知，有三组可能输出标签分别为“郑二身份证号”、“张三身份证号”和“吴七身份证号”。其中可能输出标签“张三身份证号”的相似度值最大，因此将其作为最优输出标签组。

(2)N>1：由步骤6可知，有c4、c5、c7、c8、c10、c11共6组可能输出标签,具体过程如下：

首先计算每一组可能输出标签中第一类的可能输出标签对应的数据样本集与该一类的测试数据集“张三头像集”的相似度。则得到“郑二头像集”与“张三头像集”的相似度为90％，“张三头像集”与“张三头像集”的相似度为100％，“吴七头像集”与“张三头像集”的相似度为92％。

然后计算每一组可能输出标签中第二类的可能输出标签对应的数据样本集与该一类的测试数据集“李四语音集”的相似度。则得到“李四语音集”与“李四语音集”的相似度为100％，“田一语音集”与“李四语音集”的相似度为95％。

则c4输出标签组“郑二身份证号，田一身份证号”相似度第二综合值g₄为90％×95％＝85.5％,c5输出标签组“郑二身份证号，李四身份证号”相似度第二综合值g₅为90％×100％＝90％,c7输出标签组“张三身份证号，田一身份证号”相似度第二综合值g₇为100％×95％＝95％,c8输出标签组“张三身份证号，李四身份证号”相似度第二综合值g₈为100％×100％＝100％,c10输出标签组“吴七身份证号，田一身份证号”相似度第二综合值g₁₀为92％×95％＝87.4％,c11输出标签组“吴七身份证号，李四身份证号”相似度第二综合值g₁₁为92％×100％＝92％。其中相似度第二综合值最大的是g₈，因此将c8输出标签组“张三身份证号，李四身份证号”作为最优输出标签组。

步骤8、计算可能输出标签中各类输出标签都一致的概率及不一致的概率，作为各类输出标签一致的概率及不一致的概率。对应步骤6中的内容，具体过程分为以下两种情况：

(1)如果N＝1，由步骤6可知，只有一类输出标签，因此各类输出标签一致的概率为100％，不一致的概率为0％；

(2)N>1：由步骤6可知，有c4、c5、c7、c8、c10、c11共6组可能输出标签。其中c4输出标签组“郑二身份证号，田一身份证号”中各类可能输出标签不一致,c5输出标签组“郑二身份证号，李四身份证号”中各类可能输出标签不一致,c7输出标签组“张三身份证号，田一身份证号”中各类可能输出标签不一致,c8输出标签组“张三身份证号，李四身份证号”中各类可能输出标签不一致,c10输出标签组“吴七身份证号，田一身份证号”中各类可能输出标签不一致,c11输出标签组“吴七身份证号，李四身份证号”中各类可能输出标签不一致。由上述可知，所有可能输出标签组中各类可能输出标签均不一致，所以各类输出标签一致的概率为0％，不一致的概率为100％。说明各类测试样本对应同一个人的概率为0％。

为了进一步阐明过程，假设有四组可能输出标签d4、d6、d10、d11，d4输出标签组“郑二身份证号，郑二身份证号”中各类可能输出标签一致，对应的相似度第二综合值为89％；d6输出标签组“张三身份证号，张三身份证号”中各类可能输出标签一致，对应的相似度第二综合值为53％；d10输出标签组“郑二身份证号，李四身份证号”中各类可能输出标签不一致，对应的相似度第二综合值为67％；d11输出标签组“张三身份证号，郑二身份证号”中各类可能输出标签不一致，对应的相似度第二综合值为75％。

判断结果为一致的各组可能输出标签对应的相似度第二综合值之和(89％+53％)除以所有可能输出标签对应的相似度第二综合值之和(89％+53％+67％+75％)，得到各类输出标签一致的概率为50％。100％减去各类输出标签一致的概率50％，则得到各类输出标签不一致的概率为50％。

由上可知，本发明通过相似度计算弥补深度学习神经网络在输出标签数量多而输入样本量不足时输出准确性的不足，进而提高输出的准确性。

Claims

1.一种基于联合聚类深度学习神经网络的数据识别方法，其特征在于，包括以下步骤：

所述N类数据样本集包括第一类数据样本集，为图像样本集，包括“头像11、头像12、头像13、头像14、…、头像1m”，对应的第一类输出标签集为“身份证号11、身份证号12、身份证号13、身份证号14、…、身份证号1m”，其中，头像11与身份证号11对应，头像12与身份证号12对应，头像13与身份证号13对应，头像14与身份证号14对应，……，头像1n与身份证号1n对应；

还包括第二类数据样本集，为语音样本集，包括“语音21、语音22、语音23、语音24、…、语音2n”，对应的第二类输出标签集为“身份证号21、身份证号22、身份证号23、身份证号24、…、身份证号2n”，其中，语音21与身份证号21对应，语音22与身份证号22对应，语音23与身份证号23对应，语音24与身份证号24对应，……，语音2n与身份证号2n对应；

步骤2、初始化N类数据样本集对应的N个深度学习神经网络；

步骤3、将步骤1获取的每一类数据样本集作为输入，将其对应的标签集作为输出，对该类对应的深度学习神经网络进行训练，得到N个训练后的深度学习神经网络；

步骤6、计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度，并根据该相似度计算并确定每一组可能输出标签；其中，每一组可能输出标签中包含了每一类的一个可能输出标签；

步骤7、计算每一组可能输出标签中每一类的可能输出标签对应的数据样本集与该一类的测试数据集的相似度，并根据该相似度计算并确定一组可能输出标签作为最优输出标签；

步骤8、计算可能输出标签中各类输出标签都一致的概率及不一致的概率，作为各类输出标签一致的概率及不一致的概率；

2.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法，其特征在于，步骤1中获取所述N类中每一类数据样本的数据预设格式，并获取标签预设格式，具体为：

获取每一类数据样本集对应的标签集中每一个标签的标签格式，将该类中相同的标签格式进行合并得到t种标签格式，统计该类标签集中每一种标签格式Qj对应的标签数量Nj，将最大的Nj对应的标签格式Qj作为标签预设格式；其中，t大于或等于1,j大于或等于1且小于或等于t。

3.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法，其特征在于，步骤1对N类数据样本集和标签集进行预处理，具体为：

4.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法，其特征在于，步骤2中初始化N类数据样本集对应的N个深度学习神经网络，具体为：

步骤2-3、获取每一类对应的深度学习神经网络的配置信息，将其作为该类对应的深度学习神经网络的配置信息，然后对该类对应的深度学习神经网络进行配置。

5.根据权利要求4所述的基于联合聚类深度学习神经网络的数据识别方法，其特征在于，步骤2-3中获取每一类对应的深度学习神经网络的预设配置信息，将其作为该类对应的深度学习神经网络的配置信息，具体为：

6.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法，其特征在于，步骤3中将步骤1获取的每一类数据样本集作为输入，将其对应的标签集作为输出，对该类对应的深度学习神经网络进行训练，由此得到N个训练后的深度学习神经网络，具体为：

7.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法，其特征在于，步骤6中计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度，并根据该相似度计算并确定每一组可能输出标签，具体为：

8.根据权利要求7所述的基于联合聚类深度学习神经网络的数据识别方法，其特征在于，测试输出标签所对应的数据样本集与测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度＝max(测试输出标签所对应的数据样本集中每一个样本与测试输出标签所在的标签集中每一标签元素对应的数据样本集中每一个样本的相似度)。

9.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法，其特征在于，步骤7中计算每一组可能输出标签中每一类的可能输出标签对应的数据样本集与该一类的测试数据集的相似度，并根据该相似度计算并确定一组可能输出标签作为最优输出标签，具体为：

10.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法，其特征在于，步骤8中计算可能输出标签中各类输出标签都一致的概率及不一致的概率，作为各类输出标签一致的概率及不一致的概率，具体为：