CN112668857A

CN112668857A - 分阶段质检的数据分类方法、装置、设备及存储介质

Info

Publication number: CN112668857A
Application number: CN202011538857.0A
Authority: CN
Inventors: 赵焕丽; 徐国强
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-16
Also published as: WO2022134591A1

Abstract

本发明涉及人工智能技术领域，公开了分阶段质检的数据分类方法、装置、设备及存储介质，用于解决质检数据不均衡的问题，从而提高质检的准确率。分阶段质检的数据分类方法包括：获取待质检数据，待质检数据为文本数据；将待质检数据输入第一阶段的违规数据识别模型中，生成二分类数据，第一阶段的违规数据识别模型为二分类模型；根据二分类数据对待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型中结合注意力机制进行违规数据分类，生成违规类型数据，第二阶段的违规数据分类模型为BERT模型；将违规类型数据传输至目标终端，目标终端为发出待质检数据的终端。此外，本发明还涉及区块链技术，待质检数据可存储于区块链中。

Description

分阶段质检的数据分类方法、装置、设备及存储介质

技术领域

本发明涉及神经网络技术领域，尤其涉及一种分阶段质检的数据分类方法、装置、设备及存储介质。

背景技术

各行业产品的销售机构通常要通过录音、录像等技术手段采集视听资料、电子数据，从而记录和保存各行业产品销售过程中的关键环节，以便实现销售行为可回放、重要信息可查询、问题责任可确认的效果。在对这种记录销售过程进行质检时，存在速度慢、成本高的问题。因此很多公司引入计算机技术对销售过程的行为进行质检。

很多公司引入人工智能技术，从而实现业务数据实时对接、话术实时自动拼接、实时智能质检、后台话术模板自由配置，有效助力各行业交易规范化，提升各行业的经营效益。但是，在采用人工智能模型进行实时智能质检时，由于违规数据与无违规数据存在不均衡的问题，从而导致质检的准确率较低。

发明内容

本发明提供了一种分阶段质检的数据分类方法、装置、设备及存储介质，用于解决质检数据不均衡的问题，从而提高质检的准确率。

本发明第一方面提供了一种分阶段质检的数据分类方法，包括：获取待质检数据，所述待质检数据为文本数据；将所述待质检数据输入第一阶段的违规数据识别模型中，生成二分类数据，所述第一阶段的违规数据识别模型为二分类模型；根据所述二分类数据对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型中，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型；将所述违规类型数据传输至目标终端，所述目标终端为发出所述待质检数据的终端。

可选的，在本发明第一方面的第一种实现方式中，所述将所述待质检数据输入第一阶段的违规数据识别模型中，生成二分类数据，所述第一阶段的违规数据识别模型为二分类模型包括：将所述待质检数据输入第一阶段的违规数据识别模型，在循环神经网络中对所述待质检数据进行特征提取，生成第一文本特征向量，所述第一阶段的违规数据识别模型为二分类模型；将所述第一文本特征向量输入全连接层中，结合激活函数，生成二分类数据。

可选的，在本发明第一方面的第二种实现方式中，所述将所述待质检数据输入第一阶段的违规数据识别模型，在循环神经网络中对所述待质检数据进行特征提取，生成第一文本特征向量，所述第一阶段的违规数据识别模型为二分类模型包括：将所述待质检数据输入第一阶段的违规数据识别模型中，结合预置的向量空间模型生成文本向量矩阵，所述第一阶段的违规数据识别模型为二分类模型；将所述文本向量矩阵输入循环神经网络中结合激活函数进行特征提取，生成第一文本特征向量。

可选的，在本发明第一方面的第三种实现方式中，所述将所述第一文本特征向量输入全连接层中，结合激活函数，生成二分类数据包括：将所述第一文本特征向量输入全连接层中进行特征加权，生成文本分类得分；结合激活函数对所述文本分类得分进行计算，生成目标分类概率，并基于所述目标分类概率确定二分类数据。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述二分类数据对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型中，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型包括：判断所述二分类数据是否为违规数据；若所述二分类数据为违规数据，则对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型。

可选的，在本发明第一方面的第五种实现方式中，所述若所述二分类数据为违规数据，则对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型包括：若所述二分类数据为违规数据，则为所述待质检数据添加头部标识符和尾部标识符，生成处理后的待质检数据；将所述处理后的待质检数据输入第二阶段的违规数据分类模型，生成第二文本特征向量，所述第二文本特征向量包括多个单词特征向量；分别读取每两个相邻单词特征向量的向量距离，得到多个向量距离；结合注意力机制将所述多个向量距离转换为1，并结合所述头部标识符和所述尾部标识符对所述第二文本特征向量进行违规数据分类，生成违规类型数据。

可选的，在本发明第一方面的第六种实现方式中，在所述获取待质检数据，所述待质检数据为文本数据之前，所述分阶段质检的数据分类方法还包括：获取第一阶段训练数据以及第二阶段训练数据，所述第一阶段训练数据为二类标签数据，所述第二阶段训练数据为多类标签数据；采用所述第一阶段训练数据进行模型训练，生成第一阶段的违规数据识别模型，并采用所述第二阶段训练数据进行模型训练，生成第二阶段的违规数据分类模型。

本发明第二方面提供了一种分阶段质检的数据分类装置，包括：获取模块，用于获取待质检数据，所述待质检数据为文本数据；违规数据识别模块，用于将所述待质检数据输入第一阶段的违规数据识别模型中，生成二分类数据，所述第一阶段的违规数据识别模型为二分类模型；违规数据分类模块，用于根据所述二分类数据对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型中，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型；传输模块，用于将所述违规类型数据传输至目标终端，所述目标终端为发出所述待质检数据的终端。

可选的，在本发明第二方面的第一种实现方式中，所述违规数据识别模块包括：特征提取单元，用于将所述待质检数据输入第一阶段的违规数据识别模型，在循环神经网络中对所述待质检数据进行特征提取，生成第一文本特征向量，所述第一阶段的违规数据识别模型为二分类模型；二分类数据生成单元，用于将所述第一文本特征向量输入全连接层中，结合激活函数，生成二分类数据。

可选的，在本发明第二方面的第二种实现方式中，所述特征提取单元还可以具体用于：将所述待质检数据输入第一阶段的违规数据识别模型中，结合预置的向量空间模型生成文本向量矩阵，所述第一阶段的违规数据识别模型为二分类模型；将所述文本向量矩阵输入循环神经网络中结合激活函数进行特征提取，生成第一文本特征向量。

可选的，在本发明第二方面的第三种实现方式中，二分类数据生成单元还可以具体用于：将所述第一文本特征向量输入全连接层中进行特征加权，生成文本分类得分；结合激活函数对所述文本分类得分进行计算，生成目标分类概率，并基于所述目标分类概率确定二分类数据。

可选的，在本发明第二方面的第四种实现方式中，违规数据分类模块包括：判断单元，用于判断所述二分类数据是否为违规数据；违规数据分类单元，若所述二分类数据为违规数据，则用于对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型。

可选的，在本发明第二方面的第五种实现方式中，违规数据分类单元还可以具体用于：若所述二分类数据为违规数据，则为所述待质检数据添加头部标识符和尾部标识符，生成处理后的待质检数据；将所述处理后的待质检数据输入第二阶段的违规数据分类模型，生成第二文本特征向量，所述第二文本特征向量包括多个单词特征向量；分别读取每两个相邻单词特征向量的向量距离，得到多个向量距离；结合注意力机制将所述多个向量距离转换为1，并结合所述头部标识符和所述尾部标识符对所述第二文本特征向量进行违规数据分类，生成违规类型数据。

可选的，在本发明第二方面的第六种实现方式中，分阶段质检的数据分类装置还包括：训练数据获取模块，用于获取第一阶段训练数据以及第二阶段训练数据，所述第一阶段训练数据为二类标签数据，所述第二阶段训练数据为多类标签数据；模型训练模块，用于采用所述第一阶段训练数据进行模型训练，生成第一阶段的违规数据识别模型，并采用所述第二阶段训练数据进行模型训练，生成第二阶段的违规数据分类模型。

本发明第三方面提供了一种分阶段质检的数据分类设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述分阶段质检的数据分类设备执行上述的分阶段质检的数据分类方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的分阶段质检的数据分类方法。

本发明提供的技术方案中，获取待质检数据，所述待质检数据为文本数据；将所述待质检数据输入第一阶段的违规数据识别模型中，生成二分类数据，所述第一阶段的违规数据识别模型为二分类模型；根据所述二分类数据对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型中，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型；将所述违规类型数据传输至目标终端，所述目标终端为发出所述待质检数据的终端。本发明实施例中，利用第一阶段的质检模型生成二分类数据，当二分类数据为违规数据时，再通过第二阶段的质检模型进行违规分类，生成违规类型数据；通过使用两个阶段的质检模型，先识别违规数据，再识别违规数据对应的违规类型数据，使得第二阶段的质检模型能够专注于违规数据的分类，解决了质检数据不均衡的问题，从而提高了质检的准确率。

附图说明

图1为本发明实施例中分阶段质检的数据分类方法的一个实施例示意图；

图2为本发明实施例中分阶段质检的数据分类方法的另一个实施例示意图；

图3为本发明实施例中分阶段质检的数据分类装置的一个实施例示意图；

图4为本发明实施例中分阶段质检的数据分类装置的另一个实施例示意图；

图5为本发明实施例中分阶段质检的数据分类设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种分阶段质检的数据分类方法、装置、设备及存储介质，用于解决质检数据不均衡的问题，从而提高质检的准确率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中分阶段质检的数据分类方法的一个实施例包括：

101、获取待质检数据，待质检数据为文本数据；

服务器获取为文本数据的待质检数据。需要强调的是，为进一步保证上述待质检数据的私密和安全性，上述待质检数据还可以存储于一区块链的节点中。

待质检数据为查询销售行为、查询重要信息和确认问题责任的重要依据，待质检数据可以为证券场景下的待质检数据，也可以为保险场景下的待质检数据等，本实施例主要以保险场景下的待质检数据进行说明，待质检数据具体可以为“在您攒钱享受18％收益的同时，就可以直接享有了，您放心，这个不需要您额外花费一分钱，您可以放心地享有。”和“行，那这边给您最后说一下，因为您是积累高端年金合作客户，今后的话，我们第一次会有一个年金客户身份的一个经济审核。”等文本数据。

可以理解的是，本发明的执行主体可以为分阶段质检的数据分类装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、将待质检数据输入第一阶段的违规数据识别模型中，生成二分类数据，第一阶段的违规数据识别模型为二分类模型；

服务器将待质检数据输入为二分类模型的第一阶段的违规数据识别模型中进行违规数据识别，生成二分类数据。

在对待质检数据进行质检时，主要通过两个阶段对待质检数据进行质检，在第一阶段进行质检时，采用违规数据识别模型进行质检，服务器先将待质检数据输入违规数据识别模型中，进行违规数据与无违规数据的识别，从而生成二分类数据，其中，二分类数据为标签数据，用于指示待质检数据是否违规。

在一实施例中，假设待质检数据为“在您攒钱享受18％收益的同时，就可以直接享有了，您放心，这个不需要您额外花费一分钱，您可以放心地享有。”，在第一阶段，服务器将该待质检数据输入违规数据识别模型中进行违规数据识别，生成为“违规数据”的二分类数据；在另一实施例中，假设待质检数据为“行，那这边给您最后说一下，因为您是积累高端年金合作客户，今后的话，我们第一次会有一个年金客户身份的一个经济审核。”，服务器将该待质检数据输入违规数据识别模型中，生成为“无违规数据”的二分类数据。

103、根据二分类数据对待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型中，结合注意力机制进行违规数据分类，生成违规类型数据，第二阶段的违规数据分类模型为BERT模型；

服务器根据二分类数据在待质检数据的基础上添加头部标识符和尾部标识符，并将添加头部标识符和尾部标识符后的待质检数据输入为BERT模型的第二阶段的违规数据分类模型，结合注意力机制进行违规标签的分类，生成违规类型数据。

其中，BERT模型的全称为Bidirectional encoder representations fromtransformers，当二分类数据符合第二阶段的质检标准时，服务器在待质检数据的基础上添加用于分类的头部标识符，即头部token，以及用于语句分类的尾部标识符，即尾部token，然后将添加头部标识符和尾部标识符的待质检数据输入第二阶段的违规数据分类模型中，结合注意力机制、头部标识符和尾部标识符进行违规数据分类，生成违规类型数据。

104、将违规类型数据传输至目标终端，目标终端为发出待质检数据的终端。

服务器在得到违规类型数据之后，将该违规类型数据传输至发出待质检数据的目标终端。

服务器将违规类型数据传输至目标终端，终端为不同客户的终端，目标终端为发出待质检数据的客户终端，这种质检方式能够打破时间和地域的限制，从而达成与客户交流、查询销售人员行为的目的。

本发明实施例中，利用第一阶段的质检模型生成二分类数据，当二分类数据为违规数据时，再通过第二阶段的质检模型进行违规分类，生成违规类型数据；通过使用两个阶段的质检模型，先识别违规数据，再识别违规数据对应的违规类型数据，使得第二阶段的质检模型能够专注于违规数据的分类，解决了质检数据不均衡的问题，从而提高了质检的准确率。

请参阅图2，本发明实施例中分阶段质检的数据分类方法的另一个实施例包括：

201、获取第一阶段训练数据以及第二阶段训练数据，第一阶段训练数据为二类标签数据，第二阶段训练数据为多类标签数据；

服务器获取用于训练模型的第一阶段训练数据以及用于训练模型的第二阶段训练数据，其中，第一阶段训练数据为二类标签数据，二类标签数据为“违规”标签数据和“无违规”标签数据，第二阶段训练数据为多类标签数据，多类标签数据可以为“误导不花钱”、“误导钱可以随取随用”、“混淆返还年限”等约20种标签数据。

202、采用第一阶段训练数据进行模型训练，生成第一阶段的违规数据识别模型，并采用第二阶段训练数据进行模型训练，生成第二阶段的违规数据分类模型；

服务器分别采用第一阶段训练数据训练第一阶段的违规数据识别模型，第二阶段训练数据训练第二阶段的违规数据分类模型。

服务器采用“违规”标签数据和“无违规”标签数据进行二分类模型的训练，生成第一阶段的违规数据识别模型，通过该第一阶段的违规数据识别模型，能够识别出待质检数据是否为违规数据；服务器采用“误导不花钱”、“误导钱可以随取随用”、“混淆返还年限”等约20种标签数据进行第二阶段的模型训练，生成第二阶段的违规数据分类模型，通过该第二阶段的违规数据分类模型能够识别出为“违规数据”的待质检数据具体为哪个类型的违规数据。

203、获取待质检数据，待质检数据为文本数据；

204、将待质检数据输入第一阶段的违规数据识别模型中，生成二分类数据，第一阶段的违规数据识别模型为二分类模型；

具体的，服务器将待质检数据输入为二分类模型的第一阶段的违规数据识别模型，首先在循环神经网络中对待质检数据进行特征提取，生成第一文本特征向量；然后服务器将第一文本特征向量输入该模型的全连接层中，并结合激活函数进行数据处理，生成二分类数据。

例如，待质检数据为“在您攒钱享受18％收益的同时，就可以直接享有了，您放心，这个不需要您额外花费一分钱，您可以放心地享有。”，服务器首先将该待质检数据输入循环神经网络中进行特征提取，生成第一文本特征向量为[y₁y₂y₃…y_m]，然后服务器将该第一文本特征向量输入该模型中的全连接层中结合激活函数，生成二分类数据“违规数据”。

服务器将待质检数据输入为二分类模型的第一阶段的违规数据识别模型，首先在循环神经网络中对待质检数据进行特征提取，生成第一文本特征向量包括：

服务器将待质检数据输入为二分类模型的第一阶段的违规数据识别模型中，结合预置的向量空间模型生成文本向量矩阵；然后服务器将文本向量矩阵输入循环神经网络中结合激活函数进行特征提取，生成第一文本特征向量。

假设待质检数据为“在您攒钱享受18％收益的同时，就可以直接享有了，您放心，这个不需要您额外花费一分钱，您可以放心地享有。”，服务器将该待质检数据输入第一阶段的违规数据识别模型中，生成文本向量矩阵为：

服务器将该文本向量矩阵输入循环神经网络中结合激活函数生成第一文本特征向量[y₁y₂y₃…y_m]。需要说明的是，在采用循环神经网络结合激活函数将文本向量矩阵处理为文本特征向量的过程中，会删除冗余的文本特征，因此第一文本特征向量中的m小于文本向量矩阵中的k。

然后服务器将第一文本特征向量输入该模型的全连接层中，并结合激活函数进行数据处理，生成二分类数据包括：

服务器将第一文本特征向量输入全连接层中进行特征加权，生成文本分类得分；然后服务器结合激活函数对文本分类得分进行计算，生成目标分类概率，并基于目标分类概率确定二分类数据。

在本实施例中，假设第一文本特征向量为[y₁y₂y₃…y_m]，服务器将该第一文本特征向量输入全连接层中，按照预置加权公式进行加权，加权公式为：

S_i＝w_i·y+b_i，

其中，i＝0或者i＝1，w_i为全连接层中的预置的权重，b_i为全连接层中的预置的偏置，服务器经过该计算，生成文本分类得分，然后采用激活函数对文本分类得分进行计算，在本实施例中，激活函数为softmax函数，具体的为：

经过该激活函数，生成目标分类概率，由于softmax函数的概率和为1，因此在二分类中，只需要计算出其中一个分类概率，即可得到另一个分类概率，即1-P_i，服务器最后基于目标分类概率确定二分类数据。

205、根据二分类数据对待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型中，结合注意力机制进行违规数据分类，生成违规类型数据，第二阶段的违规数据分类模型为BERT模型；

具体的，服务器首先判断二分类数据是否为违规数据；若服务器判定二分类数据为违规数据，服务器则对待质检数据进行添加头部标识符和尾部标识符的处理，并将处理后的待质检数据输入为BERT模型第二阶段的违规数据分类模型，结合注意力机制、头部标识符和尾部标识符进行违规数据分类，生成违规类型数据。

若服务器判定二分类数据为违规数据，服务器则对待质检数据进行添加头部标识符和尾部标识符的处理，并将处理后的待质检数据输入为BERT模型第二阶段的违规数据分类模型，结合注意力机制、头部标识符和尾部标识符进行违规数据分类，生成违规类型数据包括：

若二分类数据为违规数据，服务器则为待质检数据添加头部标识符和尾部标识符，生成处理后的待质检数据；服务器将处理后的待质检数据输入第二阶段的违规数据分类模型，生成第二文本特征向量，第二文本特征向量包括多个单词特征向量；服务器分别读取每两个相邻单词特征向量的向量距离，得到多个向量距离；服务器结合注意力机制将多个向量距离转换为1，并结合头部标识符和尾部标识符对第二文本特征向量进行违规数据分类，生成违规类型数据。

假设基于“在您攒钱享受18％收益的同时，就可以直接享有了，您放心，这个不需要您额外花费一分钱，您可以放心地享有。”的待质检数据得到的二分类数据为违规数据，服务器则在该待质检数据的头部添加头部标识符，在待质检数据的尾部添加尾部标识符，从而生成处理后的待质检数据为“[CLS]在您攒钱享受18％收益的同时，就可以直接享有了，您放心，这个不需要您额外花费一分钱，您可以放心地享有。[SEP]”。其中头部标识符[CLS]为for classification，该头部标识符用于分类的临时标记，尾部标识符[SEP]为forsegmentation，该尾部标识符用于分割不同语句的临时标记。服务器将该处理后的待质检数据输入违规数据分类模型中，生成第二文本特征向量，服务器分别读取每两个相邻单词特征向量的向量距离，得到多个向量距离，服务器再结合注意力机制将每个向量距离转换为1，从而能够结合该模型所有层中的左右两侧语境进行分类。结合[CLS]算法的待质检数据生成的第二文本特征向量包括权重，其中权重越大，结合注意力机制对应的注意力越多，例如，“这个”单词文本特征向量对应的权重较小，因此对应的注意力较少，在后面进行分类识别时可以忽略不计该特征向量。最后服务器结合注意力机制对第二文本特征向量进行分类识别，生成违规类型数据“误导不花钱”。在其他实施例中，违规类型数据还可以为误导钱可以随取随用、混淆返还年限等。

206、将违规类型数据传输至目标终端，目标终端为发出待质检数据的终端。

上面对本发明实施例中分阶段质检的数据分类方法进行了描述，下面对本发明实施例中分阶段质检的数据分类装置进行描述，请参阅图3，本发明实施例中分阶段质检的数据分类装置一个实施例包括：

质检数据获取模块301，用于获取待质检数据，所述待质检数据为文本数据；

违规数据识别模块302，用于将所述待质检数据输入第一阶段的违规数据识别模型中，生成二分类数据，所述第一阶段的违规数据识别模型为二分类模型；

违规数据分类模块303，用于根据所述二分类数据对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型中，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型；

传输模块304，用于将所述违规类型数据传输至目标终端，所述目标终端为发出所述待质检数据的终端。

请参阅图4，本发明实施例中分阶段质检的数据分类装置的另一个实施例包括：

可选的，违规数据识别模块302包括：

特征提取单元3021，用于将所述待质检数据输入第一阶段的违规数据识别模型，在循环神经网络中对所述待质检数据进行特征提取，生成第一文本特征向量，所述第一阶段的违规数据识别模型为二分类模型；

二分类数据生成单元3022，用于将所述第一文本特征向量输入全连接层中，结合激活函数，生成二分类数据。

可选的，特征提取单元3021还可以具体用于：

将所述待质检数据输入第一阶段的违规数据识别模型中，结合预置的向量空间模型生成文本向量矩阵，所述第一阶段的违规数据识别模型为二分类模型；

将所述文本向量矩阵输入循环神经网络中结合激活函数进行特征提取，生成第一文本特征向量。

可选的，二分类数据生成单元3022还可以具体用于：

将所述第一文本特征向量输入全连接层中进行特征加权，生成文本分类得分；

结合激活函数对所述文本分类得分进行计算，生成目标分类概率，并基于所述目标分类概率确定二分类数据。

可选的，违规数据分类模块303包括：

判断单元3031，用于判断所述二分类数据是否为违规数据；

违规数据分类单元3032，若所述二分类数据为违规数据，则用于对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型。

可选的，违规数据分类单元3032还可以具体用于：

若所述二分类数据为违规数据，则为所述待质检数据添加头部标识符和尾部标识符，生成处理后的待质检数据；

将所述处理后的待质检数据输入第二阶段的违规数据分类模型，生成第二文本特征向量，所述第二文本特征向量包括多个单词特征向量；

分别读取每两个相邻单词特征向量的向量距离，得到多个向量距离；

结合注意力机制将所述多个向量距离转换为1，并结合所述头部标识符和所述尾部标识符对所述第二文本特征向量进行违规数据分类，生成违规类型数据。

可选的，分阶段质检的数据分类装置还包括：

训练数据获取模块305，用于获取第一阶段训练数据以及第二阶段训练数据，所述第一阶段训练数据为二类标签数据，所述第二阶段训练数据为多类标签数据；

模型训练模块306，用于采用所述第一阶段训练数据进行模型训练，生成第一阶段的违规数据识别模型，并采用所述第二阶段训练数据进行模型训练，生成第二阶段的违规数据分类模型。

上面图3和图4从模块化功能实体的角度对本发明实施例中的分阶段质检的数据分类装置进行详细描述，下面从硬件处理的角度对本发明实施例中分阶段质检的数据分类设备进行详细描述。

图5是本发明实施例提供的一种分阶段质检的数据分类设备的结构示意图，该分阶段质检的数据分类设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对分阶段质检的数据分类设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在分阶段质检的数据分类设备500上执行存储介质530中的一系列指令操作。

分阶段质检的数据分类设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的分阶段质检的数据分类设备结构并不构成对分阶段质检的数据分类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种分阶段质检的数据分类设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述分阶段质检的数据分类方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述分阶段质检的数据分类方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种分阶段质检的数据分类方法，其特征在于，所述分阶段质检的数据分类方法包括：

获取待质检数据，所述待质检数据为文本数据；

将所述待质检数据输入第一阶段的违规数据识别模型中，生成二分类数据，所述第一阶段的违规数据识别模型为二分类模型；

根据所述二分类数据对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型中，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型；

将所述违规类型数据传输至目标终端，所述目标终端为发出所述待质检数据的终端。

2.根据权利要求1所述的分阶段质检的数据分类方法，其特征在于，所述将所述待质检数据输入第一阶段的违规数据识别模型中，生成二分类数据，所述第一阶段的违规数据识别模型为二分类模型包括：

将所述待质检数据输入第一阶段的违规数据识别模型，在循环神经网络中对所述待质检数据进行特征提取，生成第一文本特征向量，所述第一阶段的违规数据识别模型为二分类模型；

将所述第一文本特征向量输入全连接层中，结合激活函数，生成二分类数据。

3.根据权利要求2所述的分阶段质检的数据分类方法，其特征在于，所述将所述待质检数据输入第一阶段的违规数据识别模型，在循环神经网络中对所述待质检数据进行特征提取，生成第一文本特征向量，所述第一阶段的违规数据识别模型为二分类模型包括：

4.根据权利要求2所述的分阶段质检的数据分类方法，其特征在于，所述将所述第一文本特征向量输入全连接层中，结合激活函数，生成二分类数据包括：

5.根据权利要求1所述的分阶段质检的数据分类方法，其特征在于，所述根据所述二分类数据对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型中，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型包括：

判断所述二分类数据是否为违规数据；

若所述二分类数据为违规数据，则对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型。

6.根据权利要求5所述的分阶段质检的数据分类方法，其特征在于，所述若所述二分类数据为违规数据，则对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型包括：

7.根据权利要求1-5中任意一项所述的分阶段质检的数据分类方法，其特征在于，在所述获取待质检数据，所述待质检数据为文本数据之前，所述分阶段质检的数据分类方法还包括：

获取第一阶段训练数据以及第二阶段训练数据，所述第一阶段训练数据为二类标签数据，所述第二阶段训练数据为多类标签数据；

采用所述第一阶段训练数据进行模型训练，生成第一阶段的违规数据识别模型，并采用所述第二阶段训练数据进行模型训练，生成第二阶段的违规数据分类模型。

8.一种分阶段质检的数据分类装置，其特征在于，所述分阶段质检的数据分类装置包括：

获取模块，用于获取待质检数据，所述待质检数据为文本数据；

违规数据识别模块，用于将所述待质检数据输入第一阶段的违规数据识别模型中，生成二分类数据，所述第一阶段的违规数据识别模型为二分类模型；

违规数据分类模块，用于根据所述二分类数据对所述待质检数据添加头部标识符和尾部标识符，并输入第二阶段的违规数据分类模型中，结合注意力机制进行违规数据分类，生成违规类型数据，所述第二阶段的违规数据分类模型为BERT模型；

传输模块，用于将所述违规类型数据传输至目标终端，所述目标终端为发出所述待质检数据的终端。

9.一种分阶段质检的数据分类设备，其特征在于，所述分阶段质检的数据分类设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述分阶段质检的数据分类设备执行如权利要求1-7中任意一项所述的分阶段质检的数据分类方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述分阶段质检的数据分类方法。