CN114691875A - 一种数据分类分级处理方法及装置 - Google Patents

一种数据分类分级处理方法及装置 Download PDF

Info

Publication number
CN114691875A
CN114691875A CN202210429645.1A CN202210429645A CN114691875A CN 114691875 A CN114691875 A CN 114691875A CN 202210429645 A CN202210429645 A CN 202210429645A CN 114691875 A CN114691875 A CN 114691875A
Authority
CN
China
Prior art keywords
sample
classification
model
sample set
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210429645.1A
Other languages
English (en)
Inventor
孙亚东
蔚晨
谭咏茂
吴海洋
张荣臻
向小佳
黄时光
丁永建
李璠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everbright Technology Co ltd
Original Assignee
Everbright Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everbright Technology Co ltd filed Critical Everbright Technology Co ltd
Priority to CN202210429645.1A priority Critical patent/CN114691875A/zh
Publication of CN114691875A publication Critical patent/CN114691875A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据分类分级处理方法及装置,其中,该方法包括:通过无监督算法构建样本库;基于该样本库,采用机器学习进行文档分类分级处理,可以解决相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题,基于监督算法构建样本库,基于样本库进行数据分类分级,实现了无样本依赖下的文档快速准确分类分级。

Description

一种数据分类分级处理方法及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据分类分级处理方法及装置。
背景技术
在文档语义特征表达层面,各领域文档形式多样、内容丰富、中文语体混杂的情况普遍存在,例如金融卷案形式多样、语体混杂,且上下文语义高度相关。而目前的语言模型建立在朴素贝叶斯独立性假设的基础上,现实情况明显无法满足独立性假设要求,从而导致文档分类分级的准确率较低。
在文档内容识别层面,敏感文档的分类检测技术分为有监督和无监督两种模式,无监督文档分类技术不需要样本但准确率很低。
有监督文档准确率相对较高,但存在样本标注工作量大、人工标注质量无法保证的问题,直接导致产品研发周期长、成本高的问题。
针对相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种数据分类分级处理方法及装置,以至少解决相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题。
根据本发明的一个实施例,提供了一种数据分类分级处理方法,包括:
通过无监督算法构建样本库;
基于所述样本库,采用机器学习进行文档分类分级处理。
可选地,通过无监督算法构建样本库包括:
重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量:
从样本集Q中选取多个样本,分别使用预先根据样本集Y训练好的支持向量机模型、文本分类模型、邻近算法模型对所述多个样本进行预测,得到多组预测结果,其中,每组预测结果包括三个预测结果,所述样本集Q有采集的文档组成,初始的所述样本集Y是根据所述样本集Q聚类处理得到的;
从所述多组预测结果中选取至少有2个预测结果相同的目标样本,将所述目标样本合并到所述样本集Y中。
可选地,在重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量之前,所述方法还包括:
将所述样本集Y划分为训练集和验证集;
分别使用所述训练集Y对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行训练;
使用所述验证集对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行验证;
在验证结果满足预设条件的情况下,确定模型训练完成,得到训练好的所述支持向量机模型、所述文本分类模型、所述邻近算法模型。
可选地,在重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量之前,所述方法还包括:
采集预定数量的文档,组成所述样本集Q;
根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类,得到聚类结果;
从所述聚类结果中选取一部分距离类族中心小于预设阈值的文档作为初始的所述样本集Y。
可选地,在根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类,得到聚类结果之前,所述方法还包括:
采用训练好的中文语言模型对所述样本Q中的文档进行特征提取,得到文档特征;
采用数据分析工具对所述样本集Q中的文档特征进行特征对齐;
采用非线性降维算法对所述文档特征进行降维处理。
可选地,所述方法还包括:
将语料库按领域和语体划分为多个语料库子集;
针对各个语料子集训练语言模型,得到训练好的多个语言模型;
利用线性插值法对训练好的所述多个语言模型进行整合,得到所述训练好的中文语言模型。
根据本发明的另一个实施例,还提供了一种数据分类分级处理装置,包括:
构建模块,用于通过无监督算法构建样本库;
分类分级处理模块,用于基于所述样本库,采用机器学习进行文档分类分级处理。
可选地,所述构建模块,还用于重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量:
从样本集Q中选取多个样本,分别使用预先根据样本集Y训练好的支持向量机模型、文本分类模型、邻近算法模型对所述多个样本进行预测,得到多组预测结果,其中,每组预测结果包括三个预测结果,所述样本集Q有采集的文档组成,初始的所述样本集Y是根据所述样本集Q聚类处理得到的;
从所述多组预测结果中选取至少有2个预测结果相同的目标样本,将所述目标样本合并到所述样本集Y中。
可选地,所述装置还包括:
第一划分模块,用于将所述样本集Y划分为训练集和验证集;
第一训练模块,用于分别使用所述训练集Y对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行训练;
验证模块,用于使用所述验证集对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行验证;
确定模块,用于在验证结果满足预设条件的情况下,确定模型训练完成,得到训练好的所述支持向量机模型、所述文本分类模型、所述邻近算法模型。
可选地,所述装置还包括:
采集模块,用于采集预定数量的文档,组成所述样本集Q;
聚类模块,用于根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类,得到聚类结果;
选取模块,用于从所述聚类结果中选取一部分距离类族中心小于预设阈值的文档作为初始的所述样本集Y。
可选地,所述装置还包括:
特征提取模块,用于采用训练好的中文语言模型对所述样本Q中的文档进行特征提取,得到文档特征;
特征对齐模块,用于采用数据分析工具对所述样本集Q中的文档特征进行特征对齐;
降维模块,用于采用非线性降维算法对所述文档特征进行降维处理。
可选地,所述装置还包括:
第二划分模块,用于将语料库按领域和语体划分为多个语料库子集;
第二训练模块,用于针对各个语料子集训练语言模型,得到训练好的多个语言模型;
整合模块,用于利用线性插值法对训练好的所述多个语言模型进行整合,得到所述训练好的中文语言模型。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,通过无监督算法构建样本库;基于所述样本库,采用机器学习进行文档分类分级处理,可以解决相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题,基于监督算法构建样本库,基于样本库进行数据分类分级,实现了无样本依赖下的文档快速准确分类分级。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的数据分类分级处理方法的移动终端的硬件结构框图;
图2是根据本发明实施例的数据分类分级处理方法的流程图;
图3是根据本发明实施例的数据分类分级处理装置的框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的数据分类分级处理方法的移动终端的硬件结构框图,如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的数据分类分级处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端或网络架构的数据分类分级处理方法,图2是根据本发明实施例的数据分类分级处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,通过无监督算法构建样本库;
步骤S204,基于所述样本库,采用机器学习进行文档分类分级处理。
本发明实施例中,上述步骤S202具体可以包括:重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量:从样本集Q中选取多个样本,分别使用预先根据样本集Y训练好的支持向量机模型、文本分类模型、邻近算法模型对所述多个样本进行预测,得到多组预测结果,其中,每组预测结果包括三个预测结果,所述样本集Q有采集的文档组成,初始的所述样本集Y是根据所述样本集Q聚类处理得到的;从所述多组预测结果中选取至少有2个预测结果相同的目标样本,将所述目标样本合并到所述样本集Y中。
通过上述步骤S202至S204,通过无监督算法构建样本库;基于所述样本库,采用机器学习进行文档分类分级处理,可以解决相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题,基于监督算法构建样本库,基于样本库进行数据分类分级,实现了无样本依赖下的文档快速准确分类分级。
在一可选的实施例中,将上述的样本集Y划分为训练集和验证集;分别使用所述训练集Y对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行训练;使用所述验证集对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行验证;在验证结果满足预设条件的情况下,确定模型训练完成,得到训练好的所述支持向量机模型、所述文本分类模型、所述邻近算法模型。
在另一可选的实施例中,采集预定数量的文档,组成所述样本集Q;采用训练好的中文语言模型对所述样本Q中的文档进行特征提取,得到文档特征;采用数据分析工具对所述样本集Q中的文档特征进行特征对齐;采用非线性降维算法对所述文档特征进行降维处理;之后根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类,得到聚类结果;从所述聚类结果中选取一部分距离类族中心小于预设阈值的文档作为初始的所述样本集Y。
在另一可选的实施例中,将语料库按领域和语体划分为多个语料库子集;针对各个语料子集训练语言模型,得到训练好的多个语言模型;利用线性插值法对训练好的所述多个语言模型进行整合,得到所述训练好的中文语言模型。
本发明实施例在统计语言模型的基础上提出多元中文语言模型,将语言模型划分为多个相互独立的子模型,分段训练,利用线性插值公式分步整合,实施过程如下:
将语料库按领域和语体划分为N个语料库子集;
针对各个语料子集训练语言模型;
使用线性插值公式,获得整个语言模型:
Figure BDA0003611260400000081
其中,0≤λ≤1,λ的期望最大值EM(Expectation-Maximum),具体迭代计算方式如下:
对于N个语言模型,使用随机数初始化λ;
根据整个语言模型公式计算新的语言模型概率;
第r次迭代,第j个语言模型在第i(i<=n)类上λ计算公式为:
Figure BDA0003611260400000082
(其中h为历史数据);
不断迭代,直至收敛。
通过上述方法,将中文语言模型的困惑度值从320降低到150以下,为自然语言处理后续任务奠定基础。
本发明实施例中,基于无监督算法的样本库构建过程如下:
从生产环境网络出口收集大量文档,作为样本集Q;采用多元中文语言模型对样本Q中的文档进行特征提取。采用数据分析工具Pandas对样本集Q中的文档特征进行特征对齐。
采用非线性降维的算法(Uniform Manifold Approximation and Projectionfor Dimension Reduction,UMAP)降维文档特征,降低文档特征复杂性,提高聚类准确率。
确定K均值聚类算法的K值,具体原理和方法为:假设真实类别数为N,所有样本到其所属类族中心的距离的平方和为D,随着K值增加,样本划分的类族越来越精细,每个类族的内聚程度会越来越高,那么平方和D会越来越小;当K值小于N时,增加K值时会大幅增加每个族的聚合程度,故平方和D下降梯度会很大,当K值大于等于N时,继续增加K值,类族内部的聚合效果不再明显,所以平方和D下降梯度会急剧变小,平方和D下降梯度拐点即为真实聚类数K。
平方和
Figure BDA0003611260400000091
其中,i为类族编号,Ci为第i个类族,P为Ci中的某一个文档数据,MiCi的类族中心点向量。D为所有样本到其所属类族中心的距离的平方和。
按照确定的K值,对样本集Q进行聚类,得到聚类结果,由于K均值聚类算法准确率离样本库准确率要求太远,优化K均值聚类算法提升准确率的投入大而回报小,所以不可取。因此采用将无监督转换为有监督,分批迭代,投票筛选样本的办法来解决此问题。
从K均值聚类结果中挑出一部分离类族中心距离小于预设阀值M的文档作为样本集Y,可以调节M的取值,确保挑中样本集Y的准确性。
将样本集Y分为训练集和验证集,分别采用支持向量机、文本分类、邻近算法建模,并使用样本集Y训练模型;从Q中取出一批样本,分别使用已训练的支持向量机、文本分类、邻近算法模型进行预测。
使用少数服从多数的投票法,对预测结果进行合并,挑出至少有2个模型预测结果均一样的样本,将这些样本合并到样本集Y中。重复执行,直至样本集Y中样本数量达到要求的数量。
本发明实施例基于无监督算法构建样本库的数据分类分级,可以解决无监督文档分类分级准确率低、有监督文档分类分级研发周期长成本高问题。无监督文档分类分级,已经是在基于关键字统计分析基础上的初步提升,但是这种提升依然无法达到实际应用过程中,对分类分级准确率的要求。
本发明提出的通过无监督构建样本库,即降低了机器学习领域的样本构建成本,同时又提升了分类分的准确率,解决了采用机器学习进行分类分级而带来的问题。
根据本发明的另一个实施例,还提供了一种数据分类分级处理装置,图3是根据本发明实施例的数据分类分级处理装置的框图,如图3所示,包括:
构建模块32,用于通过无监督算法构建样本库;
分类分级处理模块34,用于基于所述样本库,采用机器学习进行文档分类分级处理。
可选地,所述构建模块32,还用于重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量:
从样本集Q中选取多个样本,分别使用预先根据样本集Y训练好的支持向量机模型、文本分类模型、邻近算法模型对所述多个样本进行预测,得到多组预测结果,其中,每组预测结果包括三个预测结果,所述样本集Q有采集的文档组成,初始的所述样本集Y是根据所述样本集Q聚类处理得到的;
从所述多组预测结果中选取至少有2个预测结果相同的目标样本,将所述目标样本合并到所述样本集Y中。
可选地,所述装置还包括:
第一划分模块,用于将所述样本集Y划分为训练集和验证集;
第一训练模块,用于分别使用所述训练集Y对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行训练;
验证模块,用于使用所述验证集对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行验证;
确定模块,用于在验证结果满足预设条件的情况下,确定模型训练完成,得到训练好的所述支持向量机模型、所述文本分类模型、所述邻近算法模型。
可选地,所述装置还包括:
采集模块,用于采集预定数量的文档,组成所述样本集Q;
聚类模块,用于根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类,得到聚类结果;
选取模块,用于从所述聚类结果中选取一部分距离类族中心小于预设阈值的文档作为初始的所述样本集Y。
可选地,所述装置还包括:
特征提取模块,用于采用训练好的中文语言模型对所述样本Q中的文档进行特征提取,得到文档特征;
特征对齐模块,用于采用数据分析工具对所述样本集Q中的文档特征进行特征对齐;
降维模块,用于采用非线性降维算法对所述文档特征进行降维处理。
可选地,所述装置还包括:
第二划分模块,用于将语料库按领域和语体划分为多个语料库子集。
第二训练模块,用于针对各个语料子集训练语言模型,得到训练好的多个语言模型;
整合模块,用于利用线性插值法对训练好的所述多个语言模型进行整合,得到所述训练好的中文语言模型。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,通过无监督算法构建样本库;
S2,基于所述样本库,采用机器学习进行文档分类分级处理。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,通过无监督算法构建样本库;
S2,基于所述样本库,采用机器学习进行文档分类分级处理。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据分类分级处理方法,其特征在于,包括:
通过无监督算法构建样本库;
基于所述样本库,采用机器学习进行文档分类分级处理。
2.根据权利要求1所述的方法,其特征在于,通过无监督算法构建样本库包括:
重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量:
从样本集Q中选取多个样本,分别使用预先根据样本集Y训练好的支持向量机模型、文本分类模型、邻近算法模型对所述多个样本进行预测,得到多组预测结果,其中,每组预测结果包括三个预测结果,所述样本集Q有采集的文档组成,初始的所述样本集Y是根据所述样本集Q聚类处理得到的;
从所述多组预测结果中选取至少有2个预测结果相同的目标样本,将所述目标样本合并到所述样本集Y中。
3.根据权利要求2所述的方法,其特征在于,在重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量之前,所述方法还包括:
将所述样本集Y划分为训练集和验证集;
分别使用所述训练集Y对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行训练;
使用所述验证集对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行验证;
在验证结果满足预设条件的情况下,确定模型训练完成,得到训练好的所述支持向量机模型、所述文本分类模型、所述邻近算法模型。
4.根据权利要求2所述的方法,其特征在于,在重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量之前,所述方法还包括:
采集预定数量的文档,组成所述样本集Q;
根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类,得到聚类结果;
从所述聚类结果中选取一部分距离类族中心小于预设阈值的文档作为初始的所述样本集Y。
5.根据权利要求4所述的方法,其特征在于,在根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类,得到聚类结果之前,所述方法还包括:
采用训练好的中文语言模型对所述样本Q中的文档进行特征提取,得到文档特征;
采用数据分析工具对所述样本集Q中的文档特征进行特征对齐;
采用非线性降维算法对所述文档特征进行降维处理。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将语料库按领域和语体划分为多个语料库子集;
针对各个语料子集训练语言模型,得到训练好的多个语言模型;
利用线性插值法对训练好的所述多个语言模型进行整合,得到所述训练好的中文语言模型。
7.一种数据分类分级处理装置,其特征在于,包括:
构建模块,用于通过无监督算法构建样本库;
分类分级处理模块,用于基于所述样本库,采用机器学习进行文档分类分级处理。
8.根据权利要求7所述的装置,其特征在于,所述构建模块,还用于重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量:
从样本集Q中选取多个样本,分别使用预先根据样本集Y训练好的支持向量机模型、文本分类模型、邻近算法模型对所述多个样本进行预测,得到多组预测结果,其中,每组预测结果包括三个预测结果,所述样本集Q有采集的文档组成,初始的所述样本集Y是根据所述样本集Q聚类处理得到的;
从所述多组预测结果中选取至少有2个预测结果相同的目标样本,将所述目标样本合并到所述样本集Y中。
9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6中任一项所述的方法。
CN202210429645.1A 2022-04-22 2022-04-22 一种数据分类分级处理方法及装置 Pending CN114691875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210429645.1A CN114691875A (zh) 2022-04-22 2022-04-22 一种数据分类分级处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210429645.1A CN114691875A (zh) 2022-04-22 2022-04-22 一种数据分类分级处理方法及装置

Publications (1)

Publication Number Publication Date
CN114691875A true CN114691875A (zh) 2022-07-01

Family

ID=82145593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210429645.1A Pending CN114691875A (zh) 2022-04-22 2022-04-22 一种数据分类分级处理方法及装置

Country Status (1)

Country Link
CN (1) CN114691875A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563941A (zh) * 2022-09-29 2023-01-03 壹沓科技(上海)有限公司 复合文档处理方法、装置、存储介质及计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528030A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种用于文本分类的半监督学习方法和系统
WO2021217930A1 (zh) * 2020-04-30 2021-11-04 深圳壹账通智能科技有限公司 基于分类模型的论文分类方法、装置、电子设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021217930A1 (zh) * 2020-04-30 2021-11-04 深圳壹账通智能科技有限公司 基于分类模型的论文分类方法、装置、电子设备及介质
CN112528030A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种用于文本分类的半监督学习方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘斌, 黄铁军, 程军, 高文: "一种新的基于统计的自动文本分类方法", 中文信息学报, no. 06, 25 June 2002 (2002-06-25) *
喻波 等: "非结构化文档敏感数据识别与异常行为分析", 职能系统学报, 30 September 2021 (2021-09-30), pages 1 - 8 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563941A (zh) * 2022-09-29 2023-01-03 壹沓科技(上海)有限公司 复合文档处理方法、装置、存储介质及计算机设备
CN115563941B (zh) * 2022-09-29 2024-02-13 壹沓科技(上海)有限公司 复合文档处理方法、装置、存储介质及计算机设备

Similar Documents

Publication Publication Date Title
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN110636445B (zh) 基于wifi的室内定位方法、装置、设备及介质
CN108804641A (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
CN111160191B (zh) 一种视频关键帧提取方法、装置及存储介质
CN110827924B (zh) 基因表达数据的聚类方法、装置、计算机设备及存储介质
EP4425376A1 (en) Method and apparatus for searching for neural network ensemble model, and electronic device
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN109492093A (zh) 基于高斯混合模型和em算法的文本分类方法及电子装置
CN101901251B (zh) 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法
CN110728313A (zh) 一种用于意图分类识别的分类模型训练方法及装置
CN109686402A (zh) 基于动态加权相互作用网络中关键蛋白质识别方法
CN112966072A (zh) 案件的预判方法、装置、电子装置和存储介质
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN111651624A (zh) 一种图像检索方法及装置
CN115982144A (zh) 相似文本去重方法、装置、存储介质及电子装置
CN111708890A (zh) 一种搜索词确定方法和相关装置
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN114691875A (zh) 一种数据分类分级处理方法及装置
CN117235137A (zh) 一种基于向量数据库的职业信息查询方法及装置
CN116561338A (zh) 工业知识图谱生成方法、装置、设备及存储介质
CN112463974A (zh) 知识图谱建立的方法和装置
CN117218472A (zh) 图像分类模型训练方法、图像分类方法及相关装置
CN110705258A (zh) 文本实体识别方法及装置
CN111737469A (zh) 数据挖掘方法、装置、终端设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination