CN114691875A

CN114691875A - 一种数据分类分级处理方法及装置

Info

Publication number: CN114691875A
Application number: CN202210429645.1A
Authority: CN
Inventors: 孙亚东; 蔚晨; 谭咏茂; 吴海洋; 张荣臻; 向小佳; 黄时光; 丁永建; 李璠
Original assignee: Everbright Technology Co ltd
Current assignee: Everbright Technology Co ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-01

Abstract

本发明提供了一种数据分类分级处理方法及装置，其中，该方法包括：通过无监督算法构建样本库；基于该样本库，采用机器学习进行文档分类分级处理，可以解决相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题，基于监督算法构建样本库，基于样本库进行数据分类分级，实现了无样本依赖下的文档快速准确分类分级。

Description

一种数据分类分级处理方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据分类分级处理方法及装置。

背景技术

在文档语义特征表达层面，各领域文档形式多样、内容丰富、中文语体混杂的情况普遍存在，例如金融卷案形式多样、语体混杂，且上下文语义高度相关。而目前的语言模型建立在朴素贝叶斯独立性假设的基础上，现实情况明显无法满足独立性假设要求，从而导致文档分类分级的准确率较低。

在文档内容识别层面，敏感文档的分类检测技术分为有监督和无监督两种模式，无监督文档分类技术不需要样本但准确率很低。

有监督文档准确率相对较高，但存在样本标注工作量大、人工标注质量无法保证的问题，直接导致产品研发周期长、成本高的问题。

针对相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种数据分类分级处理方法及装置，以至少解决相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题。

根据本发明的一个实施例，提供了一种数据分类分级处理方法，包括：

通过无监督算法构建样本库；

基于所述样本库，采用机器学习进行文档分类分级处理。

可选地，通过无监督算法构建样本库包括：

重复以下步骤，直到所述样本库中的样本集Y的数量大于或等于预设数量：

从样本集Q中选取多个样本，分别使用预先根据样本集Y训练好的支持向量机模型、文本分类模型、邻近算法模型对所述多个样本进行预测，得到多组预测结果，其中，每组预测结果包括三个预测结果，所述样本集Q有采集的文档组成，初始的所述样本集Y是根据所述样本集Q聚类处理得到的；

从所述多组预测结果中选取至少有2个预测结果相同的目标样本，将所述目标样本合并到所述样本集Y中。

可选地，在重复以下步骤，直到所述样本库中的样本集Y的数量大于或等于预设数量之前，所述方法还包括：

将所述样本集Y划分为训练集和验证集；

分别使用所述训练集Y对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行训练；

使用所述验证集对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行验证；

在验证结果满足预设条件的情况下，确定模型训练完成，得到训练好的所述支持向量机模型、所述文本分类模型、所述邻近算法模型。

采集预定数量的文档，组成所述样本集Q；

根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类，得到聚类结果；

从所述聚类结果中选取一部分距离类族中心小于预设阈值的文档作为初始的所述样本集Y。

可选地，在根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类，得到聚类结果之前，所述方法还包括：

采用训练好的中文语言模型对所述样本Q中的文档进行特征提取，得到文档特征；

采用数据分析工具对所述样本集Q中的文档特征进行特征对齐；

采用非线性降维算法对所述文档特征进行降维处理。

可选地，所述方法还包括：

将语料库按领域和语体划分为多个语料库子集；

针对各个语料子集训练语言模型，得到训练好的多个语言模型；

利用线性插值法对训练好的所述多个语言模型进行整合，得到所述训练好的中文语言模型。

根据本发明的另一个实施例，还提供了一种数据分类分级处理装置，包括：

构建模块，用于通过无监督算法构建样本库；

分类分级处理模块，用于基于所述样本库，采用机器学习进行文档分类分级处理。

可选地，所述构建模块，还用于重复以下步骤，直到所述样本库中的样本集Y的数量大于或等于预设数量：

可选地，所述装置还包括：

第一划分模块，用于将所述样本集Y划分为训练集和验证集；

第一训练模块，用于分别使用所述训练集Y对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行训练；

验证模块，用于使用所述验证集对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行验证；

确定模块，用于在验证结果满足预设条件的情况下，确定模型训练完成，得到训练好的所述支持向量机模型、所述文本分类模型、所述邻近算法模型。

可选地，所述装置还包括：

采集模块，用于采集预定数量的文档，组成所述样本集Q；

聚类模块，用于根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类，得到聚类结果；

选取模块，用于从所述聚类结果中选取一部分距离类族中心小于预设阈值的文档作为初始的所述样本集Y。

可选地，所述装置还包括：

特征提取模块，用于采用训练好的中文语言模型对所述样本Q中的文档进行特征提取，得到文档特征；

特征对齐模块，用于采用数据分析工具对所述样本集Q中的文档特征进行特征对齐；

降维模块，用于采用非线性降维算法对所述文档特征进行降维处理。

可选地，所述装置还包括：

第二划分模块，用于将语料库按领域和语体划分为多个语料库子集；

第二训练模块，用于针对各个语料子集训练语言模型，得到训练好的多个语言模型；

整合模块，用于利用线性插值法对训练好的所述多个语言模型进行整合，得到所述训练好的中文语言模型。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，通过无监督算法构建样本库；基于所述样本库，采用机器学习进行文档分类分级处理，可以解决相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题，基于监督算法构建样本库，基于样本库进行数据分类分级，实现了无样本依赖下的文档快速准确分类分级。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的数据分类分级处理方法的移动终端的硬件结构框图；

图2是根据本发明实施例的数据分类分级处理方法的流程图；

图3是根据本发明实施例的数据分类分级处理装置的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的数据分类分级处理方法的移动终端的硬件结构框图，如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的数据分类分级处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端或网络架构的数据分类分级处理方法，图2是根据本发明实施例的数据分类分级处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，通过无监督算法构建样本库；

步骤S204，基于所述样本库，采用机器学习进行文档分类分级处理。

本发明实施例中，上述步骤S202具体可以包括：重复以下步骤，直到所述样本库中的样本集Y的数量大于或等于预设数量：从样本集Q中选取多个样本，分别使用预先根据样本集Y训练好的支持向量机模型、文本分类模型、邻近算法模型对所述多个样本进行预测，得到多组预测结果，其中，每组预测结果包括三个预测结果，所述样本集Q有采集的文档组成，初始的所述样本集Y是根据所述样本集Q聚类处理得到的；从所述多组预测结果中选取至少有2个预测结果相同的目标样本，将所述目标样本合并到所述样本集Y中。

通过上述步骤S202至S204，通过无监督算法构建样本库；基于所述样本库，采用机器学习进行文档分类分级处理，可以解决相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题，基于监督算法构建样本库，基于样本库进行数据分类分级，实现了无样本依赖下的文档快速准确分类分级。

在一可选的实施例中，将上述的样本集Y划分为训练集和验证集；分别使用所述训练集Y对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行训练；使用所述验证集对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行验证；在验证结果满足预设条件的情况下，确定模型训练完成，得到训练好的所述支持向量机模型、所述文本分类模型、所述邻近算法模型。

在另一可选的实施例中，采集预定数量的文档，组成所述样本集Q；采用训练好的中文语言模型对所述样本Q中的文档进行特征提取，得到文档特征；采用数据分析工具对所述样本集Q中的文档特征进行特征对齐；采用非线性降维算法对所述文档特征进行降维处理；之后根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类，得到聚类结果；从所述聚类结果中选取一部分距离类族中心小于预设阈值的文档作为初始的所述样本集Y。

在另一可选的实施例中，将语料库按领域和语体划分为多个语料库子集；针对各个语料子集训练语言模型，得到训练好的多个语言模型；利用线性插值法对训练好的所述多个语言模型进行整合，得到所述训练好的中文语言模型。

本发明实施例在统计语言模型的基础上提出多元中文语言模型，将语言模型划分为多个相互独立的子模型，分段训练，利用线性插值公式分步整合，实施过程如下：

将语料库按领域和语体划分为N个语料库子集；

针对各个语料子集训练语言模型；

使用线性插值公式，获得整个语言模型：

其中，0≤λ≤1，λ的期望最大值EM(Expectation-Maximum)，具体迭代计算方式如下：

对于N个语言模型，使用随机数初始化λ；

根据整个语言模型公式计算新的语言模型概率；

第r次迭代，第j个语言模型在第i(i<＝n)类上λ计算公式为：

(其中h为历史数据)；

不断迭代，直至收敛。

通过上述方法，将中文语言模型的困惑度值从320降低到150以下，为自然语言处理后续任务奠定基础。

本发明实施例中，基于无监督算法的样本库构建过程如下：

从生产环境网络出口收集大量文档，作为样本集Q；采用多元中文语言模型对样本Q中的文档进行特征提取。采用数据分析工具Pandas对样本集Q中的文档特征进行特征对齐。

采用非线性降维的算法(Uniform Manifold Approximation and Projectionfor Dimension Reduction，UMAP)降维文档特征，降低文档特征复杂性，提高聚类准确率。

确定K均值聚类算法的K值，具体原理和方法为：假设真实类别数为N，所有样本到其所属类族中心的距离的平方和为D，随着K值增加，样本划分的类族越来越精细，每个类族的内聚程度会越来越高，那么平方和D会越来越小；当K值小于N时，增加K值时会大幅增加每个族的聚合程度，故平方和D下降梯度会很大，当K值大于等于N时，继续增加K值，类族内部的聚合效果不再明显，所以平方和D下降梯度会急剧变小，平方和D下降梯度拐点即为真实聚类数K。

平方和

其中，i为类族编号，_Ci为第i个类族，P为_Ci中的某一个文档数据，_Mi为_Ci的类族中心点向量。D为所有样本到其所属类族中心的距离的平方和。

按照确定的K值，对样本集Q进行聚类，得到聚类结果，由于K均值聚类算法准确率离样本库准确率要求太远，优化K均值聚类算法提升准确率的投入大而回报小，所以不可取。因此采用将无监督转换为有监督，分批迭代，投票筛选样本的办法来解决此问题。

从K均值聚类结果中挑出一部分离类族中心距离小于预设阀值M的文档作为样本集Y，可以调节M的取值，确保挑中样本集Y的准确性。

将样本集Y分为训练集和验证集，分别采用支持向量机、文本分类、邻近算法建模，并使用样本集Y训练模型；从Q中取出一批样本，分别使用已训练的支持向量机、文本分类、邻近算法模型进行预测。

使用少数服从多数的投票法，对预测结果进行合并，挑出至少有2个模型预测结果均一样的样本，将这些样本合并到样本集Y中。重复执行，直至样本集Y中样本数量达到要求的数量。

本发明实施例基于无监督算法构建样本库的数据分类分级，可以解决无监督文档分类分级准确率低、有监督文档分类分级研发周期长成本高问题。无监督文档分类分级，已经是在基于关键字统计分析基础上的初步提升，但是这种提升依然无法达到实际应用过程中，对分类分级准确率的要求。

本发明提出的通过无监督构建样本库，即降低了机器学习领域的样本构建成本，同时又提升了分类分的准确率，解决了采用机器学习进行分类分级而带来的问题。

根据本发明的另一个实施例，还提供了一种数据分类分级处理装置，图3是根据本发明实施例的数据分类分级处理装置的框图，如图3所示，包括：

构建模块32，用于通过无监督算法构建样本库；

分类分级处理模块34，用于基于所述样本库，采用机器学习进行文档分类分级处理。

可选地，所述构建模块32，还用于重复以下步骤，直到所述样本库中的样本集Y的数量大于或等于预设数量：

可选地，所述装置还包括：

第一划分模块，用于将所述样本集Y划分为训练集和验证集；

可选地，所述装置还包括：

采集模块，用于采集预定数量的文档，组成所述样本集Q；

可选地，所述装置还包括：

第二划分模块，用于将语料库按领域和语体划分为多个语料库子集。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，通过无监督算法构建样本库；

S2，基于所述样本库，采用机器学习进行文档分类分级处理。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，通过无监督算法构建样本库；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据分类分级处理方法，其特征在于，包括：

通过无监督算法构建样本库；

基于所述样本库，采用机器学习进行文档分类分级处理。

2.根据权利要求1所述的方法，其特征在于，通过无监督算法构建样本库包括：

3.根据权利要求2所述的方法，其特征在于，在重复以下步骤，直到所述样本库中的样本集Y的数量大于或等于预设数量之前，所述方法还包括：

将所述样本集Y划分为训练集和验证集；

4.根据权利要求2所述的方法，其特征在于，在重复以下步骤，直到所述样本库中的样本集Y的数量大于或等于预设数量之前，所述方法还包括：

采集预定数量的文档，组成所述样本集Q；

5.根据权利要求4所述的方法，其特征在于，在根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类，得到聚类结果之前，所述方法还包括：

采用非线性降维算法对所述文档特征进行降维处理。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

将语料库按领域和语体划分为多个语料库子集；

7.一种数据分类分级处理装置，其特征在于，包括：

构建模块，用于通过无监督算法构建样本库；

8.根据权利要求7所述的装置，其特征在于，所述构建模块，还用于重复以下步骤，直到所述样本库中的样本集Y的数量大于或等于预设数量：

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6中任一项所述的方法。