CN114443840A - 一种文本分类方法、装置及设备 - Google Patents

一种文本分类方法、装置及设备 Download PDF

Info

Publication number
CN114443840A
CN114443840A CN202111617214.XA CN202111617214A CN114443840A CN 114443840 A CN114443840 A CN 114443840A CN 202111617214 A CN202111617214 A CN 202111617214A CN 114443840 A CN114443840 A CN 114443840A
Authority
CN
China
Prior art keywords
text
classification
vector
classified
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111617214.XA
Other languages
English (en)
Inventor
姚凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202111617214.XA priority Critical patent/CN114443840A/zh
Publication of CN114443840A publication Critical patent/CN114443840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本分类方法、装置及设备,该方法包括:获取待分类文本,获取所述待分类文本中出现的字形及读音对应的向量;将所述向量输入预先训练得到的文本分类模型,利用所述文本分类模型中的特征提取子模型对输入的向量进行上下文关系特征提取得到特征向量,利用分类子模型基于所述特征向量预测所述待分类文本属于各分类的概率;根据所述待分类文本属于各分类的概率,确定所述待分类文本的分类。以此解决在当前云存储和大数据的背景下对文本文件的高效审核的问题。

Description

一种文本分类方法、装置及设备
技术领域
本发明涉及文本分类技术领域,特别涉及一种文本分类方法、装置及设备。
背景技术
目前针对文本审核确定文本所属类别,主要通过文本分类模型进行分类,目前文本分类模型主要包括基于词频模型的贝叶斯分类器及基于DNN的文本分类模型。
基于词频模型的贝叶斯分类器包括基于简单词频的分类模型及基于TF-IDF的分类模型,基于简单词频的分类模型简单地使用词频来表征文本TF-IDF的分类模型倾向于过滤掉常见的词语,保留重要的词语。基于DNN的文本分类模型可以在多层网络结构中学习到文本词之间的序列关系。
目前的基于文本分类模型进行文本分类的方法,具有以下问题:
1)词频或者TF-IDF方法无法表征出句子中各词之间的上下文关系以及语序特征,因此基于词频的分类模型本质上将各词看做独立的特征来进行分类,导致当样本数量不足时,其分类效果较差;
2)无论是采取词频、TF-IDF以及DNN,在文本特征提取方面,均是在字或者词的粒度上进行特征提取,粒度比较单一。
发明内容
本申请的目的是提供一种文本审核方法、装置及设备。用于解决现有解决在当前云存储和大数据的背景下对文本文件分类精度差及分类效率低的问题。
第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:
获取待分类文本,获取所述待分类文本中出现的字形及读音对应的向量;
将所述向量输入预先训练得到的文本分类模型,利用所述文本分类模型中的特征提取子模型对输入的向量进行上下文关系特征提取得到特征向量,利用分类子模型基于所述特征向量预测所述待分类文本属于各分类的概率;
根据所述待分类文本属于各分类的概率,确定所述待分类文本的分类。
作为一种可能的实施方式,所述文本分类模型采用如下方式训练得到:
获取训练样本,所述训练样本包括多个文本样本及分类标签;
获取各文本样本中出现的字形及读音对应的向量并输入特征提取子模型,通过迭代方式调整特征提取子模型的参数至满足迭代结束条件,所述迭代结束条件包括相同分类的文本样本提取的特征向量间距小于第一阈值,不同分类的文本样本提取的特征向量间距大于第二阈值,所述第二阈值大于第一阈值;
利用训练后的特征提取子模型提取文本样本的向量的特征向量,并输入到分类子模型,以输出文本样本的分类标签为目标调整所述分类子模型的参数,调整结束后得到包括所述特征提取子模型及分类子模型的文本分类模型。
作为一种可能的实施方式,获取待分类文本/文本样本中出现的字形及读音对应的向量,包括:
对所述待分类文本/文本样本进行分词和去停用词的预处理,对预处理后得到的分词,确定各分词的笔画对应的第一向量及读音对应的第二向量;
对所述第一向量和第二向量进行加权求和,得到待分类文本/文本样本中出现的字形及读音对应的向量。
作为一种可能的实施方式,所述特征提取子模型为Doc2Vec模型,在训练过程中,通过迭代方式调整特征提取子模型的输入层到隐藏层的权重矩阵W至满足迭代结束条件。
作为一种可能的实施方式,所述分类子模型采用LightGBM,在所述LightGBM的训练过程中,通过构造高斯过程的回归模型拟合LightGBM的超参数与其负损失函数值之间的关系,根据拟合的所述关系,确定训练过程中使得负损失函数值最大的超参数。
作为一种可能的实施方式,通过构造高斯过程的回归模型拟合LightGBM的超参数与其负损失函数值之间的关系,包括:
根据向任一文本样本的特征向量输入到LightGBM的预测函数时,利用预测函数在第t+1次迭代时输出的负损失函数值f*与前t次迭代时超参数向量服从高斯分布的特性,拟合如下符合高斯分布的回归模型:
Figure BDA0003436649250000031
其中,K*为第t+1次迭代中的超参数向量θ与前t次迭代中的超参数向量θ之间的协方差矩阵的转置,K为前t次迭代中的超参数向量θ的协方差矩阵,μ*为t+1次迭代时输出的负损失函数值f*的均值。
作为一种可能的实施方式,所述损失函数值采用如下方式确定:
Figure BDA0003436649250000032
Figure BDA0003436649250000033
其中,
Figure BDA0003436649250000034
为在第i个文本样本训练过程中,迭代到第t次时对应的损失函数值,I为指示函数,其中在y(i)=k时取值为1,否则取值为0,K为文本样本分类的总数,
Figure BDA0003436649250000035
为第i个文本样本在第t-1次迭代时利用预测函数得到的属于第K类的概率,x(i)为第i个文本样本对应的特征向量,
Figure BDA0003436649250000036
为对第K个分类预测的超参数的转置,F为LightGBM的预测函数,
Figure BDA0003436649250000037
为对第m个分类预测的超参数的转置。
作为一种可能的实施方式,根据拟合的所述关系,确定训练过程中使得负损失函数值最大的超参数,包括:
根据向任一文本样本的特征向量输入到LightGBM的预测函数时,在第t次迭代过程中,确定采用使下次迭代时拥有负损失函数最大值概率最大采样位置为超参数的取值:
Figure BDA0003436649250000038
Figure BDA0003436649250000039
为第i个文本样本在第t次迭代时输出的负损失函数值,βt+1为设定的参数,σt(θ)为i个文本样本在第t次迭代时输出的负损失函数值的方差。
第二方面,本申请实施例提供了一种文本分类装置,所述装置包括:
向量确定模块,用于获取待分类文本,获取所述待分类文本中出现的字形及读音对应的向量;
分类预测模块,用于将所述向量输入预先训练得到的文本分类模型,利用所述文本分类模型中的特征提取子模型对输入的向量进行上下文关系特征提取得到特征向量,利用分类子模型基于所述特征向量预测所述待分类文本属于各分类的概率;
分类确定模块,用于根据所述待分类文本属于各分类的概率,确定所述待分类文本的分类。
第三方面,本申请另一实施例还提供了一种文本分类设备,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面提供的任一文本分类方法。
第四方面,本申请另一实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行第一方面提供的任一文本分类方法。
本申请实施例,特征化过程中,以字形和读音作为文本特征表征的最小的单元,充分学习文本的字形和读音特征,极大提升谐音和形似字噪声扰乱下的文本审核效果;使得文本向量化过程中,向量可以表征各词条之间的相关性和语序;可以提高文本分类的准确度及提高文本分类的效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请一个实施例中文本分类方法的流程示意图;
图2为根据本申请一个实施例中示例的超参数向量与负损失函数值之间的关系示意图;
图3为根据本申请一个实施例中基于高斯过程回归的贝叶斯超参数优化的过程示意图;
图4为根据本申请一个实施例文本分类方法整体过程示意图;
图5为根据本申请一个实施例文本分类模型训练详细过程示意图;
图6为根据本申请一个实施例基于高斯过程回归的贝叶斯超参数优化过程关系示意图;
图7为根据本申请一个实施例基于Doc2Vec的LightGBM文本分类结果指标示意图;
图8为根据本申请一个实施例中基于Doc2Vec的LightGBM非正常文本分类的ROC曲线示意图;
图9为基于TF-IDF的高斯贝叶斯分类模型的非正常文本分类的ROC曲线示意图;
图10为根据本申请一个实施例文本分类装置结构示意图;
图11为根据本申请一个实施例文本分类设备结构示意图。
具体实施方式
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。方法在实际的处理过程中或者控制设备执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。
目前相关技术中的文本分类模型主要包括以下两大类:
1)基于词频模型的贝叶斯分类器模型
a)是基于简单词频的分类模型,即在分词后,针对文档D中的每个词wi,计算出其在所有文档中的出现频次ci,作为该词的词频值,因此,可以将任意一个文档表示为在词典空间下的向量D=(c1,c2,c3,…cn),此处n表示词典空间的维度。将该向量和最终的文本分类标签作为训练样本输入到分类模型中进行训练即可,此处分类模型多以贝叶斯分类器为主。
b)基于TF-IDF的分类模型,如果简单地使用词频来表征文本,会出现特征偏差的问题,原因在于某些高频词汇可能大量的在各个文本中出现,则会导致文本向量中某些维度出现权重偏差,严重影响最终的分类效果。因此,又提出了TF-IDF来表征文本,TF-IDF计算方法如下:
Figure BDA0003436649250000061
Figure BDA0003436649250000062
分别计算出TF和IDF后,则可得TF-IDF如下所示:
TF-IDF=TF*IDF
如此即可很大程度上解决高频词的问题,某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
得到每个词的TF-IDF值wi之后,对于文档D=(w1,w2,…,wn),其中n为词典空间维度,然后将D作为训练样本输入贝叶斯分类器进行训练,得到分类模型。
2)基于DNN(Deep Neural Networks,深度神经网络)的文本分类模型:典型的有RNN(Recurrent Neural Network,循环神经网络)、Text-CNN(Text Convolutional NeuralNetwork,文本卷积神经网络)和LSTM(Long Short-Term Memory,长短时记忆模型)等,其中LSTM也是RNN的一种,可以在多层网络结构中学习到文本词之间的序列关系。
RNNs已经被在实践中证明对NLP(Natural Language Processing,自然语言处理)是非常成功的。如词向量表达、语句合法性检查、词性标注等。在RNNs中,目前使用最广泛最成功的模型便是LSTM模型,该模型通常比vanilla RNNs能够更好地对长短时依赖进行表达,该模型相对于一般的RNNs,只是在隐藏层做了一些优化。
目前的基于文本分类模型进行文本分类的方法,具有分类效果较差及特征向量粒度比较单一的问题,鉴于此,本申请实施例提供一种文本分类方法,如图1所示,该方法包括:
步骤101,获取待分类文本,获取所述待分类文本中出现的字形及读音对应的向量;
本申请实施例中文本中出现的字形,可以理解为文本中的分词的笔画及笔画的顺序,分词可以理解为一个字。
步骤102,将所述向量输入预先训练得到的文本分类模型,利用所述文本分类模型中的特征提取子模型对输入的向量进行上下文关系特征提取得到特征向量,利用分类子模型基于所述特征向量预测所述待分类文本属于各分类的概率;
步骤103,根据所述待分类文本属于各分类的概率,确定所述待分类文本的分类。
本申请实施例在特征提取阶段,以字形和读音作为文本特征表征的最小的单元,充分学习文本的字形和读音特征,极大提升谐音和形似字噪声扰乱下的文本审核效果;使得文本向量化过程中,向量可以表征各词条之间的相关性和语序;可以提高文本分类的准确度及提高文本分类的效率。
作为一种可选的实施方式,本申请实施例中的文本分类模型采用如下方式训练得到:
获取训练样本,所述训练样本包括多个文本样本及分类标签;
获取各文本样本中出现的字形及读音对应的向量并输入特征提取子模型,通过迭代方式调整特征提取子模型的参数至满足迭代结束条件,所述迭代结束条件包括相同分类的文本样本提取的特征向量间距小于第一阈值,不同分类的文本样本提取的特征向量间距大于第二阈值,所述第二阈值大于第一阈值;
利用训练后的特征提取子模型提取文本样本的向量的特征向量,并输入到分类子模型,以输出文本样本的分类标签为目标调整所述分类子模型的参数,调整结束后得到包括所述特征提取子模型及分类子模型的文本分类模型。
在实施例中,在文本分类模型的训练阶段和预测阶段,需要对获取的待分类样本或文本样本进行预处理以得到对应的向量,获取待分类文本/文本样本中出现的字形及读音对应的向量,包括以下两个步骤:
1)对所述待分类文本/文本样本进行分词和去停用词的预处理,对预处理后得到的分词,确定各分词的笔画对应的第一向量及读音对应的第二向量;
对待分类文本/文本样本进行分词、去停用词后进行字形编码和读音编码,如果是文本样本,则需要加上对应的分类标签Tagged。分词即将一个文本句按照词汇进行分割,去停用词是去掉分割后的词条集合中,高频使用的词汇,但不足以表征该句的一些词,例如“今天”、“的”、“那个”等,目的是去除噪声数据,提升文本分类的效果;字形和读音编码是将字的笔画和读音进行编码,目的是将字形和读音特征加入到模型中;Tagged目的是对每个Sentence进行标记,使其具有一个唯一的标识符,用于标记样本空间中每个Sentence。
2)对所述第一向量和第二向量进行加权求和,得到待分类文本/文本样本中出现的字形及读音对应的向量。
作为一种可选的实施方式,本申请实施例中特征提取子模型为Doc2Vec模型,在训练过程中,通过迭代方式调整特征提取子模型的输入层到隐藏层的权重矩阵W至满足迭代结束条件。
即对待分类样本分词、去停用词、字形读音编码以及Tagged后的Sentence作为训练样本,训练出一个Doc2Vec的模型。
Doc2Vec模型是一个三层的神经网络结构,其输入为该sentence的笔画和读音空间表达的加权求和,而神经网络的输出本句中的各词条和一个tag标签,这些词均采用词典空间的one-hot编码来表示。Doc2Vec模型采用自监督学习的方式进行训练,在整个训练集上,通过计算输入层到影藏层的权重矩阵W,得到Doc2Vec模型,从而将sentence转化为特征向量vector,由于神经网络的输入和输出决定了该vector包含了句子中的上下文信息;训练完毕后,保存Doc2Vec模型。需要说明的是,词典空间的维度v可以自定义,而矩阵W的列维度n也可以自定义,因此,每个句子的维度为1*v,而矩阵W的维度则为v*n,因此,在Doc2Vec中,每个sentence的向量经特征提取后表达维度为1*n。
从训练完毕的Doc2Vec模型中,通过sentence的tag来直接读取句向量,得到一个由句向量构成的带标签(如二分类标签0/1)的训练样本,并将该向量构成的样本集合按照7:3分割为训练集和测试集;
作为一种可选的实施方式,本实施例中分类子模型采用LightGBM,在所述LightGBM的训练过程中,通过构造高斯过程的回归模型拟合LightGBM的超参数与其负损失函数值之间的关系,根据拟合的所述关系,确定训练过程中使得负损失函数值最大的超参数。
为了提高文本分类模型的灵活性和适应性,本申请实施例在分类阶段时使用LightGBM来替代基于词频的文本分类模型中的贝叶斯分类器,以提高整个算法流程的效果和训练性能。主要原因在于LightGBM存在一下三点优势:
a)直方图优化:在LightGBM中没有使用传统的预排序的思路,而是将这些精确的连续的每一个value划分到一系列离散的域中,也就是筒子里。以浮点型数据来举例,一个区间的值会被作为一个筒,然后以这些筒为精度单位的直方图来做。这样一来,数据的表达变得更加简化,减少了内存的使用,而且直方图带来了一定的正则化的效果,能够使我们做出来的模型避免过拟合且具有更好的推广性。
b)存储记忆优化:当用数据的bin描述数据特征的时候带来的变化:首先是不需要像预排序算法那样去存储每一个排序后数据的序列,在LightGBM中,这部分的计算代价是0;第二个,一般bin会控制在一个比较小的范围,所以可以用更小的内存来存储;
c)并行学习:分为特征并行和数据并行。特征并行的主要思想是在不同机器、在不同的特征集合上分别寻找最优的分割点,然后在机器间同步最优的分割点。数据并行则是让不同的机器先在本地构造直方图,然后进行全局的合并,最后在合并的直方图上面寻找最优分割点。
相关技术中在分类阶段,采用了贝叶斯模型,其超参数仅有一个,在调整参数方面不具备灵活性,过度依赖于样本本身,而在不同样本上无法通过调整参数来使得模型更佳适应不同的样本空间;在使用具备高维度参数的分类器时(如XGBoost,GBDT等),通常多使用网格搜索,导致对于超参数过高时,时间复杂度极高,即O(nm)。或者使用简单的手动调整参数方法,由于参数过多,无法定位到最佳的参数组合;基于DNN的文本分类模型的缺陷:需要提供高性能的硬件计算资源,并且训练周期长,少则几小时,多则数天;对于长文本不能很好的支持,通常只能支持1000个字符以内的文本;模型复杂度较高,可能导致过拟合。
本申请实施例中分类子模型采用LightGBM,可以克服贝叶斯模型超参数单一的缺点;通过构造高斯过程的回归模型拟合LightGBM的超参数与其负损失函数值之间的关系,根据拟合的所述关系,确定训练过程中使得负损失函数值最大的超参数,通过启发式的优化算法来对LightGBM的参数进行调优,最终收敛到一个全局最优参数,在当前的样本空间下,得到最佳的文本分类模型;提高长文本场景下模型的泛化能力,使得分类正确率达到97%以上,AUC值达到0.99以上,各类别标签下F1值达到0.95以上。
作为一种可选的实施方式,通过构造高斯过程的回归模型拟合LightGBM的超参数与其负损失函数值之间的关系,包括:
根据向任一文本样本的特征向量输入到LightGBM的预测函数时,利用预测函数在第t+1次迭代时输出的负损失函数值f*与前t次迭代时超参数向量服从高斯分布的特性,拟合如下符合高斯分布的回归模型:
Figure BDA0003436649250000118
其中,K*为第t+1次迭代中的超参数向量θ与前t次迭代中的超参数向量θ之间的协方差矩阵的转置,K为前t次迭代中的超参数向量θ的协方差矩阵,μ*为t+1次迭代时输出的负损失函数值f*的均值。
为了达到LightGBM超参数寻优的目的,首先应指定优化的目标函数。因此,对于K分类问题,设对第k类预测的函数为F,超参数为θT k,则对于未知输出属于各分类的概率y的分类样本x,对其进行预测,可求得x属于第k类的概率,表示如下所示。
Figure BDA0003436649250000111
对于上式所示的概率分布,求其对数似然函数,且令
Figure BDA0003436649250000112
则损失函数值采用如下方式确定:
Figure BDA0003436649250000113
其中,
Figure BDA0003436649250000114
为在第i个文本样本训练过程中,迭代到第t次时对应的损失函数值,I为指示函数,其中在y(i)=k时取值为1,否则取值为0,K为文本样本分类的总数,
Figure BDA0003436649250000115
为第i个文本样本在第t-1次迭代时利用预测函数得到的属于第K类的概率,x(i)为第i个文本样本对应的特征向量,
Figure BDA0003436649250000116
为对第K个分类预测的超参数的转置,F为LightGBM的预测函数,
Figure BDA0003436649250000117
为对第m个分类预测的超参数的转置。
本实施例将负损失函数视值作为超参数的优化目标。设有超参数向量θ以及目标函数
Figure BDA0003436649250000125
即使用样本集和随机超参数θ可求得f(θ)的值,则可构建已知的超参数样本集,对于第i个分类样本,通过多次迭代过程中求得超参数的采样位置,对于未知超参数向量θ*,其第t+1次输出值f*与已知前t次随机变量联合服从高斯分布,设前t次随机变量为向量f,为了简化计算,不妨令向量f的每个随机变量均值为0,则其联合分布如下所示。
Figure BDA0003436649250000121
其中,K为前t次迭代时超参数向量θ的协方差矩阵,K*T表示第t+1次迭代中的超参数向量θ与前t次迭代中的超参数向量θ之间的协方差矩阵,K**则表示第t+1次迭代中的超参数向量θ自身之间的协方差向量。对于矩阵K中的元素k(θij),定义协方差函数如下所示。
k(θij)=exp(-λ||θij||2)
其中,为设定参数,利用边缘分布的属性可以求得t+1次迭代时输出的负损失函数值f*的均值μ*与其方差(σ*)2。则f*服从如式下所示的高斯分布:
f*|f~N(μ*,(σ*)2)
Figure BDA0003436649250000122
得到其分布之后,有
Figure BDA0003436649250000123
至此构造了一个高斯过程的回归模型用以拟合LightGBM超参数向量θ*与其负损失函数值f之间的关系,具体分布如图2所示。对于第1个分类样本,在多次迭代过程中其目标函数符合高斯分布,具体如虚线部分所示,通过上述迭代过程,求得使
Figure BDA0003436649250000124
最大的θ1,同理可以求得θ2和θ3
作为一种可选的实施方式,根据拟合的所述关系,确定训练过程中使得负损失函数值最大的超参数,包括:
根据向任一文本样本的特征向量输入到LightGBM的预测函数时,在第t次迭代过程中,确定采用使下次迭代时拥有负损失函数最大值概率最大采样位置为超参数的取值:
Figure BDA0003436649250000131
Figure BDA0003436649250000132
为第i个文本样本在第t次迭代时输出的负损失函数值,βt+1为设定的参数,σt(θ)为i个文本样本在第t次迭代时输出的负损失函数值的方差。
由上式可知,选取未知采样点需遵循两个原则:一个是尽可能探索未知的超参数空间,如此一来才可以使得f的后验概率更加接近真实值;另一个目标是强化已有的结果,在已有的最大负损失函数值附近搜索,保证能搜索到的f值更大。基于高斯过程回归的贝叶斯超参数优化的过程如图3所示,注意包括如下过程:随机产生若干初始超参数,在利用每个分类样本进行迭代训练过程中,每次迭代时计算对应的负损失函数值f,根据计算的负损失函数值及上述拟合的关系确定下一个采样参数点,并利用下一个采样参数点计算对应的负损失函数值f,并将此次的(θ,f)加入超参数样本集,利用最新的超参数样本集更新回归模型,确定是否迭代完毕,即是否完成所有分类样本的迭代,若是,则确定得到最优超参数。
通过上述训练过程,可以得到一个最优超参数的LightGBM分类,而后针对新的文本,通过刚才训练的Doc2Vec模型进行向量infer,得到一个vector后输入LightGBM进行文本的类别识别,从而到得该文本数据属于每个类别的概率分布。
如图4所示为本申请实施例文本分类方法整体过程示意图,待分类文本经预处理后输入到训练好的Doc2Vec模型,利用Doc2Vec模型获取文本向量,加上对应的分类标签分为训练集和测试集,利用训练集基于GPR的贝叶斯参数优化方法训练LightGBM。利用测试集评估分类效果,训练结束后,将待分类文本输入到Doc2Vec模型,经LightGBM得到分类结果。
如图5所示本实施例中文本分类模型训练详细过程示意图,其中70%作为训练集,30%作为测试集。
本申请实施例相对现有技术而言,具有以下技术效果:
相较于相关技术中以字或者词为粒度进行特征向量化处理,加入了字形和读音的特征,可很大程度上避免在文本审核中采用形似字和音似字绕过审核系统的情况;
相较于基于词频的文本分类方法而言,本申请实施例考虑到了文本中各词条的上下文关系和语序信息。因此,对于文本分类器而言,可以学习到更加准确的、合理的文本特征;
相较于基于词频的文本分类方法而言,使用LightGBM等高维超参数的分类器具有更好的灵活性,面对各类文本数据集时,亦可灵活地调整参数,使得分类器具有良好的效果。除此之外,在高维超参数优化时,本申请避免使用人工调整参数或者是网格搜索的方法,一方面提高了搜索效率,因为使用网格搜索,其时间复杂度随着参数数量的增多成指数级增长;另一方面提高了参数寻优的效果,如果采用人工搜索,往往无法找到最优解,而采用本申请中的基于GPR的贝叶斯参数寻优方法,利用其自学习的特性,可大概率地寻找到最优的参数组合。
相较于基于DNN的文本分类模型,本申请克服了其对于长文本无法较好支持的问题,并且克服了DNN中网络复杂度过高而导致模型过拟合的问题,在此同时,也保证了文本特征中包含了上下文信息。
本专申请实施例使用如下数据进行测试,通过结果来看达到的效果:
样本采用正常样本543260条和非正常样本103028条作为训练和测试数据,将其按照7:3分为训练集和测试集。设置Doc2Vec模型的参数如表1所示。
表1
Figure BDA0003436649250000141
Figure BDA0003436649250000151
推理函数参数设置如下表2所示:
表2
参数项 参数项
steps 500 alpha 0.015
经过多次迭代,基于GPR的贝叶斯寻优算法对LightGBM进行参数优化,高斯过程回归的初始样本点为50个,贝叶斯超参数优化迭代次数为70次,得到优化目标函数值与迭代次数的关系如图6所示。前50次将随机超参数与其对应的负损失函数值作为先验知识样本,因此,其值波动较大;第51~70次为使用高斯过程回归探索最优参数的过程,可以看到,在存在先验知识的前提下,其-Loss值总体是上升趋势,在第63次迭代时,出现-Loss的最大值,由于本专利所用数据集是仅包含两个类别的样本,因此,最佳超参数如表3所示。
表3
参数项 参数项
boosting_type dart min_child_weight 1e-3
num_leaves 20 min_child_samples 5
max_depth 100 subsample 0.6
learning_rate 0.7 subsample_freq 1
n_estimators 500 colsample_bytree 0.4
subsample_for_bin 5000 reg_alpha 0.
learning_rate 0.7 reg_lambda 1.
objective binary random_state 20
min_split_gain 0 n_jobs 2
early_stopping_rounds 20 eval_metric binary_logloss
训练完毕后,经过测试集对模型的评估,可得其正确率为97.2814%,分类结果指标如图7所示。由上述结果可得ROC曲线和AUC值为0.99,如图8所示。相应的,使用同样的样本来训练,基于TF-IDF的高斯贝叶斯分类模型的ROC曲线和AUC值为0.93,如图9所示。AUC值越接近于1,则表明分类器的效果越好。显然,本申请实施例方案所示的效果更好。
本申请实施例利用Python编程测试三种文本审核的效果指标,其中Text-CNN的迭代step数为10000次,最终指标如表4所示:
表4
Figure BDA0003436649250000161
由上表可知,在当前的样本空间中,本申请实施例所述的基于Doc2Vec和LightGBM相结合的文本审核方法具有显著的优势,分别表现在泛化能力(AUC值),准确程度(正确率、精确度、召回率和F1值),性能高(耗时)。
基于相同的发明构思,本申请还提供一种文本分类装置,图10所示,所述装置包括:
向量确定模块101,用于获取待分类文本,获取所述待分类文本中出现的字形及读音对应的向量;
分类预测模块102,用于将所述向量输入预先训练得到的文本分类模型,利用所述文本分类模型中的特征提取子模型对输入的向量进行上下文关系特征提取得到特征向量,利用分类子模型基于所述特征向量预测所述待分类文本属于各分类的概率;
分类确定模块103,用于根据所述待分类文本属于各分类的概率,确定所述待分类文本的分类。
本申请实施例中文本分类装置中各模块实现相应功能的实施方式,可以参见上述文本审核方法中相应部分,这里不再详述。
在介绍了本申请示例性实施方式的文本分类方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的文本分类设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本申请的文本分类设备可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的文本分类方法中的步骤。
下面参照图11来描述根据本申请的这种实施方式的文本分类设备130。图11显示的文本分类设备130仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,文本分类设备130以通用电子设备的形式表现。文本分类设备130的组件可以包括但不限于:上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。
总线133表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器132可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1321和/或高速缓存存储器1322,还可以进一步包括只读存储器(ROM)1323。
存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
文本分类设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与文本分类设备130交互的设备通信,和/或与使得该文本分类设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且,文本分类设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器136通过总线133与用于文本分类设备130的其它模块通信。应当理解,尽管图中未示出,可以结合文本分类设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本申请提供的一种文本分类方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种文本分类方法中的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于文本分类的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和方框图来描述的。应理解可由计算机程序指令实现流程图和方框图中的每一流程和/或方框、以及流程图和方框图中的流程和方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本,获取所述待分类文本中出现的字形及读音对应的向量;
将所述向量输入预先训练得到的文本分类模型,利用所述文本分类模型中的特征提取子模型对输入的向量进行上下文关系特征提取得到特征向量,利用分类子模型基于所述特征向量预测所述待分类文本属于各分类的概率;
根据所述待分类文本属于各分类的概率,确定所述待分类文本的分类。
2.根据权利要求1所述的方法,其特征在于,所述文本分类模型采用如下方式训练得到:
获取训练样本,所述训练样本包括多个文本样本及分类标签;
获取各文本样本中出现的字形及读音对应的向量并输入特征提取子模型,通过迭代方式调整特征提取子模型的参数至满足迭代结束条件,所述迭代结束条件包括相同分类的文本样本提取的特征向量间距小于第一阈值,不同分类的文本样本提取的特征向量间距大于第二阈值,所述第二阈值大于第一阈值;
利用训练后的特征提取子模型提取文本样本的向量的特征向量,并输入到分类子模型,以输出文本样本的分类标签为目标调整所述分类子模型的参数,调整结束后得到包括所述特征提取子模型及分类子模型的文本分类模型。
3.根据权利要求1或2所述的方法,其特征在于,获取待分类文本/文本样本中出现的字形及读音对应的向量,包括:
对所述待分类文本/文本样本进行分词和去停用词的预处理,对预处理后得到的分词,确定各分词的笔画对应的第一向量及读音对应的第二向量;
对所述第一向量和第二向量进行加权求和,得到待分类文本/文本样本中出现的字形及读音对应的向量。
4.根据权利要求1或2所述的方法,其特征在于,
所述特征提取子模型为Doc2Vec模型,在训练过程中,通过迭代方式调整特征提取子模型的输入层到隐藏层的权重矩阵W至满足迭代结束条件。
5.根据权利要求1或2所述的方法,其特征在于,所述分类子模型采用LightGBM,在所述LightGBM的训练过程中,通过构造高斯过程的回归模型拟合LightGBM的超参数与其负损失函数值之间的关系,根据拟合的所述关系,确定训练过程中使得负损失函数值最大的超参数。
6.根据权利要求5所述的方法,其特征在于,通过构造高斯过程的回归模型拟合LightGBM的超参数与其负损失函数值之间的关系,包括:
根据向任一文本样本的特征向量输入到LightGBM的预测函数时,利用预测函数在第t+1次迭代时输出的负损失函数值f*与前t次迭代时超参数向量服从高斯分布的特性,拟合如下符合高斯分布的回归模型:
Figure FDA0003436649240000021
其中,K*为第t+1次迭代中的超参数向量θ与前t次迭代中的超参数向量θ之间的协方差矩阵的转置,K为前t次迭代中的超参数向量θ的协方差矩阵,μ*为t+1次迭代时输出的负损失函数值f*的均值。
7.根据权利要求5所述的方法,其特征在于,所述损失函数值采用如下方式确定:
Figure FDA0003436649240000022
Figure FDA0003436649240000023
其中,
Figure FDA0003436649240000024
为在第i个文本样本训练过程中,迭代到第t次时对应的损失函数值,I为指示函数,其中在y(i)=k时取值为1,否则取值为0,K为文本样本分类的总数,
Figure FDA0003436649240000025
为第i个文本样本在第t-1次迭代时利用预测函数得到的属于第K类的概率,x(i)为第i个文本样本对应的特征向量,
Figure FDA0003436649240000026
为对第K个分类预测的超参数的转置,F为LightGBM的预测函数,
Figure FDA0003436649240000027
为对第m个分类预测的超参数的转置。
8.根据权利要求6所述的方法,其特征在于,根据拟合的所述关系,确定训练过程中使得负损失函数值最大的超参数,包括:
根据向任一文本样本的特征向量输入到LightGBM的预测函数时,在第t次迭代过程中,确定采用使下次迭代时拥有负损失函数最大值概率最大采样位置为超参数的取值:
Figure FDA0003436649240000031
Figure FDA0003436649240000032
为第i个文本样本在第t次迭代时输出的负损失函数值,βt+1为设定的参数,σt(θ)为i个文本样本在第t次迭代时输出的负损失函数值的方差。
9.一种文本分类装置,其特征在于,所述装置包括:
向量确定模块,用于获取待分类文本,获取所述待分类文本中出现的字形及读音对应的向量;
分类预测模块,用于将所述向量输入预先训练得到的文本分类模型,利用所述文本分类模型中的特征提取子模型对输入的向量进行上下文关系特征提取得到特征向量,利用分类子模型基于所述特征向量预测所述待分类文本属于各分类的概率;
分类确定模块,用于根据所述待分类文本属于各分类的概率,确定所述待分类文本的分类。
10.一种文本分类设备,其特征在于,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-8中任何一项所述的方法。
CN202111617214.XA 2021-12-27 2021-12-27 一种文本分类方法、装置及设备 Pending CN114443840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111617214.XA CN114443840A (zh) 2021-12-27 2021-12-27 一种文本分类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111617214.XA CN114443840A (zh) 2021-12-27 2021-12-27 一种文本分类方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114443840A true CN114443840A (zh) 2022-05-06

Family

ID=81365581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111617214.XA Pending CN114443840A (zh) 2021-12-27 2021-12-27 一种文本分类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114443840A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115243250A (zh) * 2022-07-25 2022-10-25 每日互动股份有限公司 一种获取wifi画像的方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309297A (zh) * 2018-03-16 2019-10-08 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110705641A (zh) * 2019-09-30 2020-01-17 河北工业大学 基于贝叶斯优化和电子鼻的葡萄酒分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309297A (zh) * 2018-03-16 2019-10-08 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110705641A (zh) * 2019-09-30 2020-01-17 河北工业大学 基于贝叶斯优化和电子鼻的葡萄酒分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙庞博 等: "基于组合预测模型的小样本轴承故障分类诊断", 《计算机工程与科学》, 15 September 2021 (2021-09-15), pages 1684 - 1691 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115243250A (zh) * 2022-07-25 2022-10-25 每日互动股份有限公司 一种获取wifi画像的方法、系统及存储介质
CN115243250B (zh) * 2022-07-25 2024-05-28 每日互动股份有限公司 一种获取wifi画像的方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN107256245B (zh) 面向垃圾短信分类的离线模型改进与选择方法
CN107590177B (zh) 一种结合监督学习的中文文本分类方法
CN110046943B (zh) 一种网络消费者细分的优化方法及优化系统
CN111782807A (zh) 一种基于多方法集成学习的自承认技术债务检测分类方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN109299263A (zh) 文本分类方法、电子设备及计算机程序产品
CN115994204A (zh) 适用于少样本场景的国防科技文本结构化语义分析方法
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
CN114443840A (zh) 一种文本分类方法、装置及设备
CN117975464A (zh) 基于U-Net的电气二次图纸文字信息的识别方法及系统
CN113312907A (zh) 基于混合神经网络的远程监督关系抽取方法及装置
Gao et al. An improved XGBoost based on weighted column subsampling for object classification
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
CN116431813A (zh) 智能客服问题分类方法、装置、电子设备及存储介质
CN116306606A (zh) 一种基于增量学习的金融合同条款提取方法和系统
CN115796635A (zh) 基于大数据和机器学习的银行数字化转型成熟度评价系统
CN115934936A (zh) 一种基于自然语言处理的智能交通文本分析方法
CN114626485A (zh) 一种基于改进knn算法的数据标签分类方法及装置
Li Textual Data Mining for Financial Fraud Detection: A Deep Learning Approach
Hamdy et al. Deep embedding of open source software bug repositories for severity prediction
Ma et al. Semi-supervised sentence classification based on user polarity in the social scenarios
CN116932767B (zh) 基于知识图谱的文本分类方法、系统、存储介质及计算机
CN113254596B (zh) 基于规则匹配和深度学习的用户质检需求分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination