CN113239128A

CN113239128A - 基于隐式特征的数据对分类方法、装置、设备和存储介质

Info

Publication number: CN113239128A
Application number: CN202110610118.6A
Authority: CN
Inventors: 汪涛
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-10
Anticipated expiration: 2041-06-01
Also published as: CN113239128B

Abstract

本申请涉及数据处理领域，公开了一种基于隐式特征的数据对分类方法、装置、设备和存储介质，其实现了提高数据分类的适应性与准确性，并减少了计算耗费。其中，本申请通过隐式特征生成模型对值域不确定的第一信息段进行处理，以转换为值域确定的隐性特征，再将所述隐式特征和所述第一原始数据的第二信息段共同输入预设的数据分类模型中，从而实现了对包括有域值不确定的信息段的数据的分类，提高了数据分类的准确性。并且，本申请以数据对作为分析单元，减少了分类过程的计算耗费。

Description

基于隐式特征的数据对分类方法、装置、设备和存储介质

技术领域

本申请涉及到数据处理领域，特别是涉及到一种基于隐式特征的数据对分类方法、装置、设备和存储介质。

背景技术

数据分类是数据保护工作中的一个关键部分，是建立统一、准确、完善的数据架构的基础。传统的数据分类的方法，是将值域确定的数据进行分类。其中，值域确定指取值的可能性是有限的，例如取值为低、中、高三者之一的特征，其取值只有三种可能。而值域不确定与值域确定相对，其取值可能无限。许多数据不仅包括了值域确定的信息段，还包括了值域不确定的信息段，然而传统的数据分类的方法，只能对值域确定的数据进行分类，而对于包括有值域不确定的信息段的数据无法分类或者分类准确性低。另外，传统的数据分类是以单个数据作为分类基础，分类过程需要的计算量大。因此，传统的数据分类方案，分类适应性与分类准确性不足，并且分类过程中计算耗费大。

发明内容

本申请的主要目的为提供一种基于隐式特征的数据对分类方法、装置、设备和存储介质，旨在解决现有数据分类准确性低，且计算耗费大的技术问题。

为了实现上述发明目的，本申请提出一种基于隐式特征的数据对分类方法，包括：

获取待分类的由第一原始数据和第二原始数据构成的原始数据对；所述第一原始数据和第二原始数据均由多个信息段构成；

判断所述第一原始数据和所述第二原始数据是否均存在值域不确定的第一信息段；

若所述第一原始数据和所述第二原始数据均存在值域不确定的第一信息段，则将所述第一原始数据划分为第一信息段和第二信息段，以及将所述第二原始数据划分为第一信息段和第二信息段；其中，所述第二信息段指值域确定的信息段；

将所述第一原始数据中所有的第一信息段输入预设的隐式特征生成模型中进行处理，从而得到所述隐式特征生成模型输出的隐式特征；其中，所述隐式特征生成模型基于卷积神经网络模型，并采用无监督学习的方式训练得到，所述隐式特征的值域确定；

将所述隐式特征和所述第一原始数据的第二信息段共同输入预设的数据分类模型中，从而得到所述数据分类模型输出的第一数据类别；其中，所述数据分类模型基于卷积神经网络模型，并采用有监督学习的方式训练得到；

将所述隐式特征和所述第二原始数据的第二信息段共同输入所述数据分类模型中，从而得到所述数据分类模型输出的第二数据类别；

将所述第一数据类别与所述第二数据类别组合形成所述原始数据对的类别对。

进一步地，所述获取待分类的由第一原始数据和第二原始数据构成的原始数据对的步骤，包括：

获取待分类的第一原始数据，并从预设的摘要数据库中，调取与所述第一原始数据对应的第一摘要文本；其中所述摘要数据库中存储有与多个原始数据分别对应的多个摘要文本；

从所述摘要数据库中，调取与预设的多个原始数据分别对应的多个第二摘要文本；

根据预设的向量映射方法，将所述第一摘要文本和所述多个第二摘要文本分别映映射为虚拟空间的第一文本向量和多个第二文本向量；

根据预设的相似度计算公式，计算所述第一文本向量与各所述第二文本向量之间的相似度，从而得到所述第一文本向量与多个所述第二文本向量分别对应的多个相似度值；

将所述多个相似度值中的最大值对应的原始数据记为第二原始数据，将第一原始数据和第二原始数据构成原始数据对，并获取所述原始数据对。

进一步地，在一个实施方式中，所述根据预设的相似度计算公式，计算第一文本向量与第二文本向量之间的相似度的步骤，包括：

S1041、根据公式：

计算第一文本向量与第二文本向量之间的相似度P，其中A为第一文本向量，Ai为第一文本向量的第i个分向量，B为第二文本向量，Bi为第二文本向量的第i个分向量，第一文本向量A和第二文本向量B均具有m个分向量。

进一步地，所述隐式特征生成模型由自然语言预处理模型和卷积神经网络模型顺序连接而成，所述将所述第一原始数据中所有的第一信息段输入预设的隐式特征生成模型中进行处理，从而得到所述隐式特征生成模型输出的隐式特征的步骤，包括：

将所述第一原始数据中所有的第一信息段输入所述自然语言预处理模型中，以使所述自然语言预处理模型依次进行分词和去除停用词处理，并根据预设的词向量生成方法，生成词向量序列；其中所述词向量序列中的单词分别对应于所述第一原始数据中所有的第一信息段；

将所述词向量序列输入所述隐式特征生成模型中的卷积神经网络模型中，基于所述卷积神经网络模型将所述词向量序列映射为一个值域确定的隐式特征。

进一步地，所述将所述隐式特征和所述第一原始数据的第二信息段共同输入预设的数据分类模型中，从而得到所述数据分类模型输出的第一数据类别的步骤之前，包括：

从预设的样本数据库中调取指定数量的样本数据，并将样本数据按预设比例划分为训练数据和验证数据；其中，所述样本数据已注明数据类别；

调取预设的卷积神经网络模型，并将所述训练数据输入卷积神经网络模型中进行训练，当所述预设的卷积神经网络模型的输出达到收敛要求，停止对所述预设的卷积神经网络模型训练，从而得到暂时模型；

采用所述验证数据对所述暂时模型进行验证，以得到验证结果，并判断验证结果是否为验证通过；

若验证结果为验证通过，则将所述暂时模型记为数据分类模型。

进一步地，所述将所述第一数据类别与所述第二数据类别组合形成所述原始数据对的类别对的步骤之后，包括：

将所述类别对存入预设的区块链网络中。

本申请还提供一种基于隐式特征的数据对分类装置，包括：

获取单元，用于获取待分类的由第一原始数据和第二原始数据构成的原始数据对；所述第一原始数据和第二原始数据均由多个信息段构成；

判断单元，用于判断所述第一原始数据和所述第二原始数据是否均存在值域不确定的第一信息段；

划分单元，用于若所述第一原始数据和所述第二原始数据均存在值域不确定的第一信息段，则将所述第一原始数据划分为第一信息段和第二信息段，以及将所述第二原始数据划分为第一信息段和第二信息段；其中，所述第二信息段指值域确定的信息段；

隐式特征计算单元，用于将所述第一原始数据中所有的第一信息段输入预设的隐式特征生成模型中进行处理，从而得到所述隐式特征生成模型输出的隐式特征；其中，所述隐式特征生成模型基于卷积神经网络模型，并采用无监督学习的方式训练得到，所述隐式特征的值域确定；

第一分类计算单元，用于将所述隐式特征和所述第一原始数据的第二信息段共同输入预设的数据分类模型中，从而得到所述数据分类模型输出的第一数据类别；其中，所述数据分类模型基于卷积神经网络模型，并采用有监督学习的方式训练得到；

第二分类计算单元，用于将所述隐式特征和所述第二原始数据的第二信息段共同输入所述数据分类模型中，从而得到所述数据分类模型输出的第二数据类别；

组合单元，用于将所述第一数据类别与所述第二数据类别组合形成所述原始数据对的类别对。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于隐式特征的数据对分类方法、装置、设备和存储介质，实现了提高数据分类的适应性与准确性，并减少了计算耗费。其中，本申请通过隐式特征生成模型对值域不确定的第一信息段进行处理，以转换为值域确定的隐性特征，再将所述隐式特征和所述第一原始数据的第二信息段共同输入预设的数据分类模型中，从而实现了对包括有域值不确定的信息段的数据的分类，提高了数据分类的准确性。并且，本申请以数据对作为分析单元，减少了分类过程的计算耗费。

附图说明

图1为本申请一实施例的基于隐式特征的数据对分类方法的流程示意图；

图2为本申请一实施例的基于隐式特征的数据对分类装置的结构示意图；

图3为本申请一实施例的计算机设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于隐式特征的数据对分类方法，包括：

S1、获取待分类的由第一原始数据和第二原始数据构成的原始数据对；所述第一原始数据和第二原始数据均由多个信息段构成；

S2、判断所述第一原始数据和所述第二原始数据是否均存在值域不确定的第一信息段；

S3、若所述第一原始数据和所述第二原始数据均存在值域不确定的第一信息段，则将所述第一原始数据划分为第一信息段和第二信息段，以及将所述第二原始数据划分为第一信息段和第二信息段；其中，所述第二信息段指值域确定的信息段；

S4、将所述第一原始数据中所有的第一信息段输入预设的隐式特征生成模型中进行处理，从而得到所述隐式特征生成模型输出的隐式特征；其中，所述隐式特征生成模型基于卷积神经网络模型，并采用无监督学习的方式训练得到，所述隐式特征的值域确定；

S5、将所述隐式特征和所述第一原始数据的第二信息段共同输入预设的数据分类模型中，从而得到所述数据分类模型输出的第一数据类别；其中，所述数据分类模型基于卷积神经网络模型，并采用有监督学习的方式训练得到；

S6、将所述隐式特征和所述第二原始数据的第二信息段共同输入所述数据分类模型中，从而得到所述数据分类模型输出的第二数据类别；

S7、将所述第一数据类别与所述第二数据类别组合形成所述原始数据对的类别对。

如上述步骤S1-S2所述，需要注意的是，本申请是以原始数据对为对象进行分类的，从而在分类过程中的计算耗费得到了减少；并且，在分类过程中，并不是机械地将第一原始数据的分类类别套在第二原始数据中(将在后文结合具体步骤详细介绍)，因此采用本申请的原始数据对为对象的分类方法，分类的准确性得到了保证。本申请中的所有原始数据为由多个信息段构成的数据，每个信息段由数字、文字和图片中的一种或多种构成。所述第一原始数据和第二原始数据可为任意可行数据，例如为每个信息段均相似的两个数据，或者为值域不确定的信息段相似的两个数据，从而强化所述第一原始数据和第二原始数据之间的数据纠缠，使得原始数据对的数据分类更准确。

因为上述所有原始数据为由多个信息段构成的数据，每个信息段由数字、文字和图片中的一种或多种构成，因此，在判断各信息段是否为值域不确定的过程中，先进行数据标准化处理，即将信息段中所有的信息转化成预设文字种类的文字表达(如纯中文表达、纯英文表达等)，然后基于上述文字表达判断信息段的值域是否确定。比如，信息段为图片构成，则识别图片中的信息，并将该信息转换成预设文字种类的文字表达，然后基于该文字表达判断该信息段值域是否确定等。

其中，信息段包括多种，例如为“数据应用类型、数据使用频率、数据量、保存介质、所属数据库、数据库类型、所属系统、系统类型、系统重要性、所属业务部门、业务类型、数据介绍”等。其中，“数据应用类型、数据使用频率、数据量、保存介质、所属数据库、数据库类型、所属系统、系统类型、系统重要性、所属业务部门、业务类型”由于取值的可能性是有限的，即值域确定，因此属于第二信息段；数据介绍等信息段是对数据的简要说明，其可用不确定数量的文字来描述，因此值域不确定，属于第一信息段。再判断所述第一原始数据和所述第二原始数据是否均存在值域不确定的第一信息段，以确定是否需要采用特别的数据分类方法来处理，即采用隐性特征生成的方法来处理。其中，所述第一原始数据和第二原始数据可通过人工选择，以将两个相似的原始数据构成原始数据对，从而提高最终分类的准确性，并减少计算耗费。其中，原始数据可为任意可行数据，例如为资产数据。值域确定指取值的可能性是有限的，例如取值为低、中、高三者之一的特征，其取值只有三种可能。而值域不确定与值域确定相对，其取值可能无限。

如上述步骤S3-S4所述，若所述第一原始数据和所述第二原始数据均存在值域不确定的第一信息段，表明采用传统的数据分类方法无法对原始数据对进行分类或者进行准确分类。此时，本申请采用隐式特征生成的方式，以将值域不确定的信息段，转化为值域确定的隐性特征，从而使得数据分类得以继续进行。其中，所述隐式特征生成模型基于卷积神经网络模型，并采用无监督学习的方式训练得到。由于隐式特征是多个第一信息段的映射，并不适合用人工标注标签，因此本申请采用无监督学习的方式训练得到的隐式特征生成模型，将多个第一信息段映射为隐式特征，并且隐式特征的值域确定。上述隐式特征生成模型的采用无监督学习的方式训练得到过程包括：获取值域不确定的信息段样本；将值域不确定的信息段样本输入到预设的卷积神经网络模型中，其中，卷积神经网络模型的前端设置有聚类模块，聚类模块对值域不确定的信息段样本进行聚类计算，然后将同一聚类的值域不确定信息段打上对应聚类的标签，然后输入到卷积神经网络模型的输入层，然后依次经过隐含层(至少一个卷积层和池化层的组合)、全连接层、Softmax层的前向传播过程，然后基于计算误差进行反向传播过程，对卷积神经网络模型种的各权值和阈值进行更新，直到卷积神经网络模型输出达到收敛要求，进而得到上述隐式特征生成模型。

如上述步骤S5-S7所述，由于所述隐式特征的值域确定，并且所述第二信息段的值域确定，因此所述隐式特征和所述第一原始数据的第二信息段能够全面代表第一原始数据，再将所述隐式特征和所述第一原始数据的第二信息段共同输入预设的数据分类模型中，从而得到所述数据分类模型输出的第一数据类别。此时，第一数据类别即为准确的数据分类；同理，第二数据类别也为准确的数据分类。其中，所述数据分类模型基于卷积神经网络模型，并采用有监督学习的方式训练得到，因此能够胜任数据分类任务(因为输入的数据为域值确定的隐式特征和所述第一原始数据的第二信息段，因此能够准确分类)。需要注意的是，本申请前后二次采用了卷积神经网络模型，但这两次采用的卷积神经网络模型的训练方式不同且不能替换。即，隐式特征生成模型基于的卷积神经网络模型必须采用无监督学习方式进行训练，而数据分类模型基于的卷积神经网络模型必须采用有监督学习方式进行训练，这是由于人工标注标签在这两个过程中的可行性所导致的，其中数据分类模型与上述隐式特征生成模型的训练过程的区别在于，减少聚类模块的聚类计算过程，而是使用带有具体分类标签的信息段作为样本数据进行训练，具体过程在此不在赘述。另外一个需要注意的地方在于，所述第二原始数据不需要进行隐式特征的提取，只需将第一原始数据的隐式特征替换第二原始数据的第一信息段即可，从而减少了再次隐式特征提取的计算耗费。并且，仍会利用数据分类模型进行第二原始数据的数据分类，以得到第二数据类别，以保证分类的准确性。

本申请的基于隐式特征的数据对分类方法，实现了提高数据分类的适应性与准确性，并减少了计算耗费。其中，本申请通过隐式特征生成模型对值域不确定的第一信息段进行处理，以转换为值域确定的隐性特征，再将所述隐式特征和所述第一原始数据的第二信息段共同输入预设的数据分类模型中，从而实现了对包括有域值不确定的信息段的数据的分类。并且，本申请以数据对作为分析单元，从而减少了分类过程的计算耗费。进一步地，本申请中的数据分类的方案，也可应用于数据分类分级中，即只需要在数据分类模型的训练数据上进行人工标注数据级别，即可实现数据分类分级。

在一个实施例中，上述将所述第一数据类别与所述第二数据类别组合形成所述原始数据对的类别对的步骤S7之后，包括：

S8、将所述类别对存入预设的区块链网络中。

将所述类别对存入预设的区块链网络中，从而利用区块链的难以篡改的特性，提高了信息安全。其中，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一个实施方式中，上述获取待分类的由第一原始数据和第二原始数据构成的原始数据对的步骤S1，包括：

S101、获取待分类的第一原始数据，并从预设的摘要数据库中，调取与所述第一原始数据对应的第一摘要文本；其中所述摘要数据库中存储有与多个原始数据分别对应的多个摘要文本；

S102、从所述摘要数据库中，调取与预设的多个原始数据分别对应的多个第二摘要文本；

S103、根据预设的向量映射方法，将所述第一摘要文本和所述多个第二摘要文本分别映映射为虚拟空间的第一文本向量和多个第二文本向量；

S104、根据预设的相似度计算公式，计算所述第一文本向量与各所述第二文本向量之间的相似度，从而得到所述第一文本向量与多个所述第二文本向量分别对应的多个相似度值；

S105、将所述多个相似度值中的最大值对应的原始数据记为第二原始数据，将第一原始数据和第二原始数据构成原始数据对，并获取所述原始数据对。

如上所述，实现了获取待分类的由第一原始数据和第二原始数据构成的原始数据对。本申请的第一原始数据和第二原始数据可为任意可行数据，但是，第一原始数据和第二原始数据之间的相似程度越高，则最终的分类结果越准确。其中，所述预设的向量映射方法可为任意可行方法，例如通过查询预设的词向量库，以将文本映射为由多个词向量顺序连接而成的文本向量。因此，本申请通过调取与所述第一原始数据对应的第一摘要文本；调取与预设的多个原始数据分别对应的多个第二摘要文本；根据预设的向量映射方法，将所述第一摘要文本和所述多个第二摘要文本分别映映射为虚拟空间的第一文本向量和多个第二文本向量；根据预设的相似度计算公式，计算第一文本向量与第二文本向量之间的相似度，从而得到第一文本向量与多个第二文本向量分别对应的多个相似度值；将所述多个相似度值中的最大值对应的原始数据记为第二原始数据的方式，选出与第一原始数据最相近的第二原始数据，再构成原始数据对。从而，以原始数据对的形式进行后续数据分类的准确性得到了提高。

在一个实施方式中，上述根据预设的相似度计算公式，计算第一文本向量与第二文本向量之间的相似度的步骤S104，包括：

S1041、根据公式：

如上所述，实现了根据预设的相似度计算公式，计算第一文本向量与第二文本向量之间的相似度。在相似度计算过程中，不仅考虑了向量间的数值差异，还考虑到了向量间的角度差异，因此提高了最终相似度P的准确性，从而保证了第一原始数据和第二原始数据的相似程度。

在一个实施方式中，上述隐式特征生成模型由自然语言预处理模型和卷积神经网络模型顺序连接而成，所述将所述第一原始数据中所有的第一信息段输入预设的隐式特征生成模型中进行处理，从而得到所述隐式特征生成模型输出的隐式特征的步骤S4，包括：

S401、将所述第一原始数据中所有的第一信息段输入所述自然语言预处理模型中，以使所述自然语言预处理模型依次进行分词和去除停用词处理，并根据预设的词向量生成方法，生成词向量序列；其中所述词向量序列中的单词分别对应于所述第一原始数据中所有的第一信息段；

S402、将所述词向量序列输入所述隐式特征生成模型中的卷积神经网络模型中，基于所述卷积神经网络模型将所述词向量序列映射为一个值域确定的隐式特征。

如上所述，实现了将所述第一原始数据中所有的第一信息段输入预设的隐式特征生成模型中进行处理，从而得到所述隐式特征生成模型输出的隐式特征。其中，所述第一信息段是由多个词语构成的，因此值域不确定，难以进行数据分类。而本申请采用所述隐式特征生成模型由自然语言预处理模型和卷积神经网络模型顺序连接而成，使得自然语言处理与隐式特征生成分为两个不同的过程，以使模型的训练速度更快，且更易纠错。其中，所述自然语言预处理模型可为任意可行模型，例如为非机器学习的模型，其只需要能够实现分词、去除停用词处理和生成词向量即可。其中分词可采用现有的分词工具来实现，去除停用词通过比对停用词数据库来实现，词向量生成方法可通过查询词向量数据库来实现。从而得到词向量序列。再将所述词向量序列输入所述隐式特征生成模型中的卷积神经网络模型中，以使卷积神经网络模型将所述词向量序列映射为一个值域确定的隐式特征，以将所有的第一信息段映射为一个隐式特征，从而为后续进行准确的数据分类提供了可能。

在一个实施方式中，上述将所述隐式特征和所述第一原始数据的第二信息段共同输入预设的数据分类模型中，从而得到所述数据分类模型输出的第一数据类别；其中，所述数据分类模型基于卷积神经网络模型，并采用有监督学习的方式训练得到的步骤S5之前，包括：

S41、从预设的样本数据库中调取指定数量的样本数据，并将样本数据按预设比例划分为训练数据和验证数据；其中，所述样本数据已注明数据类别；

S42、调取预设的卷积神经网络模型，并将所述训练数据输入卷积神经网络模型中进行训练，当所述预设的卷积神经网络模型的输出达到收敛要求，停止对所述预设的卷积神经网络模型训练，而得到暂时模型；

S43、采用所述验证数据对所述暂时模型进行验证，以得到验证结果，并判断验证结果是否为验证通过；

S44、若验证结果为验证通过，则将所述暂时模型记为数据分类模型。

如上所述，实现了将所述暂时模型记为数据分类模型。本申请通过有监督学习的方式，训练得到数据分类模型。具体地，上述指定数量可为任意可行数量，例如为10000-100000等，其与模型的准确性、训练速度等要求相关。指定数量的样本数据越多，则模型的准确性越高，但训练速度越慢。所述预设比例例如为0.8-0.99,0.9-0.95等。并在验证结果为验证通过的情况下，表明暂时模型能够胜任数据分类任务，因此将所述暂时模型记为数据分类模型。具体的验证过程可以为：将验证数据依次输入到暂时模型中，并检测每一个验证数据对应的输出的分类结果是否与其已注明数据类别相同，如果相同，则记一次验证成功，如果不相同，则记一次验证失败，当所有验证数据全部验证完成后，统计验证成功的次数占验证数据总数的百分比，如果该百分比大于预设的百分比阈值，则表明暂时模型通过验证，可以使用，否则暂时模型不能被使用，即不能作为数据分类模型在实际生产中使用。

在一个实施例中，上述判断所述第一原始数据和所述第二原始数据是否均存在值域不确定的第一信息段的步骤S2，包括：

S21、分别将所述述第一原始数据和所述第二原始数据进行标准化处理，得到对应的预设文字种类的第一文字表达和第二文字表达；

S22、分别对所述第一文字表达和第二文字表达进行信息分段，得到对应第一文字表达的至少一个第一文字信息段，以及对应第二文字表达的至少一个第二文字信息段；

S23、判断全部的所述第一文字信息段中是否包含值域不确定的第一信息段，以及判断全部的所述第二文字信息段中是否包含值域不确定的第一信息段。

在本实施例中，因为上述第一原始数据和所述第二原始数据可以是由数字、文字和图片中的一种或多种构成的数据，为了准确的判断各信息段的值域是否确定，本方案中先将第一原始数据和所述第二原始数据按照相同的标准化处理方式进行标准化处理，即将图片、文字等统一处理成指定文字种类的文字表达，比如将图片通过图片识别模型进行处理得到指定文字种类的文字表达，将不同的如中文、英文、阿拉伯文等进行翻译处理等转换成指定文字种类的文字表达，最终得到以预设文字种类的存文字表达。在得到第一文字表达和第二文字表达之后，对第一文字表达和第二文字表达进行信息分段，分段方法可以是基于符号进行分段，比如两个句号之间的文字为一段信息段，或者基于语义识别模型(现有技术中的任意一种可实现语义分段的模型)进行分段等。然后将第一文字信息段和第二文字信息段分别到预设的值域确定数据库(值域确定数据库中预存储有值域确定的类型数据)中进行匹配(匹配可以根据语义进行匹配、相似度进行匹配等；或者分别基于语义进行匹配和相似度进行匹配，只要有一种匹配成功，即认为该字段信息是值域确定信息)，匹配到对应的值域确定的类型数据，说明其值域确定，若未匹配到则说明值域不确定。需要说明的是，本申请使用值域确定数据库，而非值域不确定数据库，是因为值域确定的类型数据更容易确定，因此值域确定数据库的准确性更高，且建立更容易，而值域不确定的数据类型不易确定。最后基于各第一文字信息段和各第二文字信息段在上述值域确定数据库中的匹配结果，确定第一原始数据和所述第二原始数据是否均存在值域不确定的第一信息段。

参照图2，本申请还提供一种基于隐式特征的数据对分类装置，包括：

获取单元10，用于获取待分类的由第一原始数据和第二原始数据构成的原始数据对；所述第一原始数据和第二原始数据均由多个信息段构成；

判断单元20，用于判断所述第一原始数据和所述第二原始数据是否均存在值域不确定的第一信息段；

划分单元30，用于若所述第一原始数据和所述第二原始数据均存在值域不确定的第一信息段，则将所述第一原始数据划分为第一信息段和第二信息段，以及将所述第二原始数据划分为第一信息段和第二信息段；其中，所述第二信息段指值域确定的信息段；

隐式特征计算单元40，用于将所述第一原始数据中所有的第一信息段输入预设的隐式特征生成模型中进行处理，从而得到所述隐式特征生成模型输出的隐式特征；其中，所述隐式特征生成模型基于卷积神经网络模型，并采用无监督学习的方式训练得到，所述隐式特征的值域确定；

第一分类计算单元50，用于将所述隐式特征和所述第一原始数据的第二信息段共同输入预设的数据分类模型中，从而得到所述数据分类模型输出的第一数据类别；其中，所述数据分类模型基于卷积神经网络模型，并采用有监督学习的方式训练得到；

第二分类计算单元60，用于将所述隐式特征和所述第二原始数据的第二信息段共同输入所述数据分类模型中，从而得到所述数据分类模型输出的第二数据类别；

组合单元70，用于将所述第一数据类别与所述第二数据类别组合形成所述原始数据对的类别对。

在一个实施例中，上述获取单元10，包括：

获取模块，用于获取待分类的第一原始数据，并从预设的摘要数据库中，调取与所述第一原始数据对应的第一摘要文本；其中所述摘要数据库中存储有与多个原始数据分别对应的多个摘要文本；

调取模块，用于从所述摘要数据库中，调取与预设的多个原始数据分别对应的多个第二摘要文本；

向量映射模块，用于根据预设的向量映射方法，将所述第一摘要文本和所述多个第二摘要文本分别映映射为虚拟空间的第一文本向量和多个第二文本向量；

相似度计算模块，用于根据预设的相似度计算公式，计算所述第一文本向量与各所述第二文本向量之间的相似度，从而得到所述第一文本向量与多个所述第二文本向量分别对应的多个相似度值；

构造模块，用于将所述多个相似度值中的最大值对应的原始数据记为第二原始数据，将第一原始数据和第二原始数据构成原始数据对，并获取所述原始数据对。

在一个实施方式中，所述相似度计算模块，包括：

相似度计算子模块，用于根据公式：

在一个实施例中，上述隐式特征生成模型由自然语言预处理模型和卷积神经网络模型顺序连接而成，上述隐式特征计算单元40，包括：

处理模块，用于将所述第一原始数据中所有的第一信息段输入所述自然语言预处理模型中，以使所述自然语言预处理模型依次进行分词和去除停用词处理，并根据预设的词向量生成方法，生成词向量序列；其中所述词向量序列中的单词分别对应于所述第一原始数据中所有的第一信息段；

计算模块，用于将所述词向量序列输入所述隐式特征生成模型中的卷积神经网络模型中，以使卷积神经网络模型将所述词向量序列映射为一个值域确定的隐式特征。

在一个实施例中，上述基于隐式特征的数据对分类装置，包括：

样本获取单元，用于从预设的样本数据库中调取指定数量的样本数据，并将样本数据按预设比例划分为训练数据和验证数据；其中，所述样本数据已注明数据类别；

训练单元，用于调取预设的卷积神经网络模型，并将所述训练数据输入卷积神经网络模型中进行训练，从而得到暂时模型；

采验单元，用于用所述验证数据对所述暂时模型进行验证，以得到验证结果，并判断验证结果是否为验证通过；

确定单元，用于若验证结果为验证通过，则将所述暂时模型记为数据分类模型。

在一个实施例中，上述基于隐式特征的数据对分类装置，还包括：

存储单元，用于将所述类别对存入预设的区块链网络中。

上述各单元、模块、子模块等均为执行上述基于隐式特征的数据对分类方法的装置，在此不在一一展开说明。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储原始数据对等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于隐式特征的数据对分类方法。

上述处理器执行上述基于隐式特征的数据对分类方法，包括步骤：

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种上述基于隐式特征的数据对分类方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于隐式特征的数据对分类方法，其特征在于，包括：

2.根据权利要求1所述的基于隐式特征的数据对分类方法，其特征在于，所述获取待分类的由第一原始数据和第二原始数据构成的原始数据对的步骤，包括：

3.根据权利要求2所述的基于隐式特征的数据对分类方法，其特征在于，在一个实施方式中，所述根据预设的相似度计算公式，计算第一文本向量与第二文本向量之间的相似度的步骤，包括：

S1041、根据公式：

4.根据权利要求1所述的基于隐式特征的数据对分类方法，其特征在于，所述隐式特征生成模型由自然语言预处理模型和卷积神经网络模型顺序连接而成，所述将所述第一原始数据中所有的第一信息段输入预设的隐式特征生成模型中进行处理，从而得到所述隐式特征生成模型输出的隐式特征的步骤，包括：

5.根据权利要求1所述的基于隐式特征的数据对分类方法，其特征在于，所述将所述隐式特征和所述第一原始数据的第二信息段共同输入预设的数据分类模型中，从而得到所述数据分类模型输出的第一数据类别的步骤之前，包括：

调取预设的卷积神经网络模型，并将所述训练数据输入卷积神经网络模型中进行训练，当所述预设的卷积神经网络模型的输出达到收敛要求，停止对所述预设的卷积神经网络模型训练，得到暂时模型；

6.根据权利要求1所述的基于隐式特征的数据对分类方法，其特征在于，所述判断所述第一原始数据和所述第二原始数据是否均存在值域不确定的第一信息段的步骤，包括：

分别将所述述第一原始数据和所述第二原始数据进行标准化处理，得到对应的预设文字种类的第一文字表达和第二文字表达；

分别对所述第一文字表达和第二文字表达进行信息分段，得到对应第一文字表达的至少一个第一文字信息段，以及对应第二文字表达的至少一个第二文字信息段；

判断全部的所述第一文字信息段中是否包含值域不确定的第一信息段，以及判断全部的所述第二文字信息段中是否包含值域不确定的第一信息段。

7.一种基于隐式特征的数据对分类装置，其特征在于，包括：

8.根据权利要求7所述的基于隐式特征的数据对分类装置，其特征在于，所述获取单元，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。