CN115687625B - 文本分类方法、装置、设备及介质 - Google Patents

文本分类方法、装置、设备及介质 Download PDF

Info

Publication number
CN115687625B
CN115687625B CN202211421239.7A CN202211421239A CN115687625B CN 115687625 B CN115687625 B CN 115687625B CN 202211421239 A CN202211421239 A CN 202211421239A CN 115687625 B CN115687625 B CN 115687625B
Authority
CN
China
Prior art keywords
text
data
classification
text classification
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211421239.7A
Other languages
English (en)
Other versions
CN115687625A (zh
Inventor
洪智勇
陈钊鸿
曾志强
王铠尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuyi University
Original Assignee
Wuyi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuyi University filed Critical Wuyi University
Priority to CN202211421239.7A priority Critical patent/CN115687625B/zh
Publication of CN115687625A publication Critical patent/CN115687625A/zh
Application granted granted Critical
Publication of CN115687625B publication Critical patent/CN115687625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了文本分类方法、装置、设备及介质,其通过将训练文本数据输入至待训练的文本分类模型,根据训练文本数据得到词嵌入向量,根据词嵌入向量进行特征提取得到文本语义特征,根据文本语义特征进行文本分类预测得到预测结果以及预测结果与标签数据之间的置信度,根据置信度计算得到损失函数,并根据损失函数调参得到已训练的文本分类模型;通过损失函数的调制因子调节头部标签和尾部标签在损失函数的占比权重,提升尾部标签的占比权重,提升文本分类模型对尾部标签分类学习的关注,加强文本分类模型对尾部标签的分类学习能力,提升文本分类模型整体的分类性能。

Description

文本分类方法、装置、设备及介质
技术领域
本申请实施例涉及但不限于文本处理领域,尤其涉及一种文本分类方法、装置、设备及介质。
背景技术
在深度学习中,大规模多标签文本分类任务是从一个非常大的标签数据集中为每个文本找到最相关的标签的任务。大规模多标签文本分类任务具有大量的文本数据,每条文本数据拥有丰富的语义信息,因此在分类过程中更充分提取文本丰富的语义信息能帮助模型更全面理解文本的内容,对模型提高该任务的分类效果具有重要帮助。大规模多标签文本分类任务普遍存在标签数据长尾分布的情况,由于尾部标签仅有少量的文本数据,模型不能充分学习与尾部标签相关的文本语义特征,对尾部标签的分类能力低下,导致模型的整体分类性能不佳。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供了一种文本分类方法、装置、设备及介质。
本申请的第一方面的实施例,提供了一种文本分类方法,包括:
获取训练文本数据,所述训练文本数据包括标签数据;
将所述训练文本数据输入至待训练的文本分类模型,通过所述待训练的文本分类模型根据所述训练文本数据得到词嵌入向量,根据所述词嵌入向量进行特征提取得到文本语义特征,根据所述文本语义特征进行文本分类预测得到预测结果以及所述预测结果与所述标签数据之间的置信度,根据所述置信度计算得到损失函数,并根据所述损失函数对所述待训练的文本分类模型调参得到已训练的文本分类模型,其中,所述损失函数包括调制因子,所述调制因子用于调节头部标签在所述损失函数的第一占比权重和尾部标签在所述损失函数的第二占比权重;
获取待分类的文本数据;
将所述待分类的文本数据输入至所述已训练的文本分类模型进行文本分类,得到分类结果。
在一些实施例中,所述损失函数可以通过以下式子表示:其中,pi为预测第i个标签数据的置信度,γ为调制因子,yi为第i个标签数据。
在一些实施例中,在所述将所述训练文本数据输入至待训练的文本分类模型之前,所述文本分类方法还包括:
获取所述训练文本数据的空格位置;
根据所述空格位置对所述训练文本数据进行分割处理得到分割文本数据。
在一些实施例中,所述文本分类方法还包括:
获取所述分割文本数据的文本长度;
当所述文本长度大于预设的长度阈值,删除所述分割文本数据中超出长度阈值的文本部分,使所述分割文本数据的文本长度等于所述长度阈值;
当所述文本长度小于所述长度阈值,通过填充字符对所述分割文本数据进行文本填充,使所述分割文本数据的文本长度等于所述长度阈值。
在一些实施例中,所述根据所述训练文本数据得到词嵌入向量,包括:
在所述训练文本数据的最前端添加第一标记;
在所述训练文本数据的最末端添加第二标记,所述第二标记用于区分文本类型;
对已添加所述第一标记和所述第二标记的所述训练文本数据融合公共子词单元位置信息、单词位置信息和句子位置信息,得到词嵌入向量。
在一些实施例中,所述根据所述词嵌入向量进行特征提取得到文本语义特征,包括:
通过多头注意力机制学习得到多个关系矩阵,根据多个所述关系矩阵得到所述词嵌入向量在不同语义空间下的多个增强语义向量;
根据所述第一标记将多个所述增强语义向量进行线性组合,得到文本语义特征。
在一些实施例中,所述根据所述文本语义特征进行文本分类预测得到预测结果以及所述预测结果与所述标签数据之间的置信度,包括:
根据所述文本分类模型的分类器的分类参数和所述文本语义特征得到预测结果;
对比所述预测结果和所述标签数据,得到所述预测结果与所述标签数据之间的置信度。
本申请的第二方面的实施例,提供了一种文本分类装置,包括:
第一数据获取模块,用于获取训练文本数据,所述训练文本数据包括标签数据;
模型训练模块,用于将所述训练文本数据输入至待训练的文本分类模型,通过所述待训练的文本分类模型根据所述训练文本数据得到词嵌入向量,根据所述词嵌入向量进行特征提取得到文本语义特征,根据所述文本语义特征进行文本分类预测得到预测结果以及所述预测结果与所述标签数据之间的置信度,根据所述置信度计算得到损失函数,并根据所述损失函数对所述待训练的文本分类模型调参得到已训练的文本分类模型,其中,所述损失函数包括调制因子,所述调制因子用于调节头部标签在所述损失函数的第一占比权重和尾部标签在所述损失函数的第二占比权重;
第二数据获取模块,用于获取待分类的文本数据;
模型应用模块,用于将所述待分类的文本数据输入至所述已训练的文本分类模型进行文本分类,得到分类结果。
本申请的第三方面的实施例,提供了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如上所述的文本分类方法。
本申请的第四方面的实施例,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的文本分类方法。
上述方案至少具有以下的有益效果:通过在损失函数中添加调制因子,通过调制因子对不同标签赋予不同占比权重,调节头部标签在所述损失函数的第一占比权重和尾部标签在所述损失函数的第二占比权重,进而提升尾部标签的占比权重,提升文本分类模型对尾部标签分类学习的关注,加强文本分类模型对尾部标签的分类学习能力,提升文本分类模型整体的分类性能。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请的实施例所提供的文本分类方法的步骤图;
图2是根据训练文本数据得到词嵌入向量的子步骤图;
图3是根据词嵌入向量进行特征提取得到文本语义特征的子步骤图;
图4是根据文本语义特征进行文本分类预测得到预测结果以及预测结果与标签数据之间的置信度的子步骤图;
图5是本申请的实施例所提供的文本分类装置的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
下面结合附图,对本申请实施例作进一步阐述。
本申请的实施例,提供了一种文本分类方法。
参照图1,文本分类方法包括:
步骤S100,获取训练文本数据,训练文本数据包括标签数据;
步骤S200,将训练文本数据输入至待训练的文本分类模型,通过待训练的文本分类模型根据训练文本数据得到词嵌入向量,根据词嵌入向量进行特征提取得到文本语义特征,根据文本语义特征进行文本分类预测得到预测结果以及预测结果与标签数据之间的置信度,根据置信度计算得到损失函数,并根据损失函数对待训练的文本分类模型调参得到已训练的文本分类模型,其中,损失函数包括调制因子,调制因子用于调节头部标签在损失函数的第一占比权重和尾部标签在损失函数的第二占比权重;
步骤S300,获取待分类的文本数据;
步骤S400,将待分类的文本数据输入至已训练的文本分类模型进行文本分类,得到分类结果。
在该实施例中,通过在损失函数中添加调制因子,通过调制因子对不同标签赋予不同占比权重,调节头部标签在损失函数的第一占比权重和尾部标签在损失函数的第二占比权重,进而提升尾部标签的占比权重,提升文本分类模型对尾部标签分类学习的关注,加强文本分类模型对尾部标签的分类学习能力,提升文本分类模型整体的分类性能。
对于步骤S100,获取训练文本数据,训练文本数据可以来源于大规模多标签文本分类数据集Eurlex-4K或者Wiki10-31K。
对训练文本数据进行预处理包括内容小写化处理、空格分割处理和文本长度统一处理。
对训练文本数据进行空格分割处理,包括但不限于以下步骤:获取训练文本数据的空格位置;根据空格位置对训练文本数据进行分割处理得到分割文本数据。
对训练文本数据进行文本长度统一处理,包括但不限于以下步骤:获取分割文本数据的文本长度;当文本长度大于预设的长度阈值,删除分割文本数据中超出长度阈值的文本部分,使分割文本数据的文本长度等于长度阈值;当文本长度小于长度阈值,通过填充字符对分割文本数据进行文本填充,使分割文本数据的文本长度等于长度阈值。
例如,预设的长度阈值为5,一个分割文本数据为“回家吃饭”,该分割文本数据的文本长度为4,则通过填充字符“0”对该分割文本数据进行文本填充,得到“回家吃饭0”,使该分割文本数据的文本长度等于5。
一个分割文本数据为“我回家吃饭了”,该分割文本数据的文本长度为6,则将分割文本数据中超出长度阈值的文本部分“了”删除,得到“我回家吃饭”,使该分割文本数据的文本长度等于5。
对于步骤S200,将训练文本数据输入至待训练的文本分类模型,对文本分类模型进行训练。
在训练过程中,通过待训练的文本分类模型根据训练文本数据得到词嵌入向量,根据词嵌入向量进行特征提取得到文本语义特征,根据文本语义特征进行文本分类预测得到预测结果以及预测结果与标签数据之间的置信度,根据置信度计算得到损失函数,并根据损失函数对待训练的文本分类模型调参得到已训练的文本分类模型,其中,损失函数包括调制因子,调制因子用于调节头部标签在损失函数的第一占比权重和尾部标签在损失函数的第二占比权重
文本分类模型基于BERT模型。BERT模型是多个Transformer层的堆叠,在BERT模型会对训练文本中的单词进行随机掩码,在BERT模型的训练过程中根据上下文的特征预测被随机掩码的单词。将经随机掩码的训练文本输入给BERT模型,每个Transformer层输出相应数量的隐藏向量,并且上一层的Transformer层的输出作为下一层的Transformer层的输入,一层层传递,直至得到目标输出。
参照图2,其中,根据训练文本数据得到词嵌入向量,包括但不限于以下步骤:
步骤S211,在训练文本数据的最前端添加第一标记;
步骤S212,在训练文本数据的最末端添加第二标记,第二标记用于区分文本类型;
步骤S213,对已添加第一标记和第二标记的训练文本数据融合公共子词单元位置信息、单词位置信息和句子位置信息,得到词嵌入向量。
训练文本数据是计算机无法直接理解的数据,通过将训练文本数据转换为词嵌入向量,词嵌入向量是计算机能处理和理解的数据可表示文本。通过词嵌入方法将训练文本数据的每一个单词表示为一个低维、连续、稠密的向量,即词嵌入向量。
在训练文本数据的最前端添加第一标记[CLS],第一标记位居文本开头,第一标记用于后续的分类任务。在训练文本数据的最末端添加第二标记[SEP],第一标记位居文本末位,第二标记用于区分文本类型。
BERT模型的输入部分是个线性序列,两个句子通过分隔用的标识符号分割,最前面和最后面增加两个标识开头和结尾的标识符号。BERT模型通过查询字向量表将文本中的每个字转换为一维向量,作为模型输入;模型输出则是输入各字对应的融合全文语义信息后的向量表示。每个单词有三个位置信息,这是因为自然语言处理中单词顺序是很重要的特征,需要在这里对位置信息进行编码。三个位置信息分别为公共子词单元位置信息、单词位置信息和句子位置信息。公共子词单元位置信息的取值在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合。单词位置信息,由于出现在文本不同位置的字/词所携带的语义信息存在差异,因此BERT模型对不同位置的字/词分别附加一个不同的向量以作区分。
公共子词位置信息是单词本身的向量表示,将单词划分成一组有限的公共子词单元,能在单词的有效性和字符的灵活性之间取得一个折中的平衡。单词位置信息将单词的位置信息编码成特征向量。句子位置信息用于区分两个句子的向量表示。BERT模型的输入是由该三种不同的位置信息求和而成。
参照图3,根据词嵌入向量进行特征提取得到文本语义特征,包括但不限于以下步骤:
步骤S221,通过多头注意力机制学习得到多个关系矩阵,根据多个关系矩阵得到词嵌入向量在不同语义空间下的多个增强语义向量;
步骤S222,根据第一标记将多个增强语义向量进行线性组合,得到文本语义特征。
对于Transformer层,Transformer层具有注意力机制。注意力机制的主要作用是让BERT模型区分输入的不同部分对输出的影响。例如字词的上下文信息有助于增强其语义表示,同时上下文信息中不同字词对增强语义表示所起的作用往往不同。为了有区分地利用上下文字信息增强目标字的语义表示,就可以用到注意力机制。
注意力机制主要涉及到三个概念:Query、Key和Value。在上面增强文本的语义表示这个应用场景中,目标字及其上下文的字都有各自的原始Value,注意力机制将目标字作为Query、其上下文的各个字作为Key,并将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中。注意力机制将目标字和上下文各个字的语义向量表示作为输入,首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示,然后计算Query向量与各个Key向量的相似度作为权重,加权融合目标字的Value向量和各个上下文字的Value向量,作为注意力层的输出,即:目标字的增强语义向量表示。
注意力机制可以通过以下式子表示:其中, dn代表文本数据的统一输入长度,dk代表K矩阵的维度。
为了增强注意力机制的多样性,利用不同的自注意力模块获得文本中每个字在不同语义空间下的增强语义向量,并将每个字的多个增强语义向量进行线性组合,从而获得一个最终的与原始字向量长度相同的增强语义向量,并将模块的输入与该增强语义向量相加实现残差连接,并作为注意力模块的最终输出,其最终输出在形式上与输入是完全相同的。即输入为一维向量,则输出同样为一维向量,语义相近的字/词在特征向量空间上的距离会比较接近,如此一来,由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此,BERT模型的主要输入是对话信息中各个字/词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练以作为初始值;输出是文本中各个字/词融合了全文语义信息后的向量表示。
多头注意力机制可以通过以下式子表示:MHA=Concat(MH1,…MHm)Wo。其中,i∈(1,m),m是多头注意力机制的头数,/> dQ=dk=dv=dh/m。dh是词向量的隐藏维度。
Transformer层设有编码器,编码器用于生成文本,Transformer层在多头自注意力模块的基础上添加了三种操作。其中,通过残差连接将模块的输入和输出直接相加,作为最后的输出,只需修改输入,无需重构整个输出,使网络更容易训练。对神经网络节点作0均值1方差的标准化处理。对对每个字词的增强语义向量做两次线性变换,以增强整个模型的表达能力;并且使变换后的向量与原向量保持长度相同。
参照图4,根据文本语义特征进行文本分类预测得到预测结果以及预测结果与标签数据之间的置信度,包括但不限于以下步骤:
步骤S231,根据文本分类模型的分类器的分类参数和文本语义特征得到预测结果;
步骤S232,对比预测结果和标签数据,得到预测结果与标签数据之间的置信度。
BERT模型的最终输出由四部分组成,分别为模型最后一层输出的隐藏状态、序列的第一个公共子词单元的最后一层的隐藏状态、模型各层的隐藏状态和注意力模块的输出。将文本数据输入至BERT模型,BERT模型输出与对话信息维度相同的语义特征。
BERT模型对文本数据进行编码的常规方法是通过多层编码器的不断堆叠,利用最后一层的编码器输出作为文本向量表示。在堆叠的过程中,模型提取与分类最相关的文本语义信息作为下一层的输入,这会导致在堆叠过程中必然有一些与分类十分相关的文本语义信息被忽略,影响模型的分类性能。为了能够充分提取文本的语义信息以提高分类的精度,可以使用多层编码拼接输出作为文本的向量表示,多层编码拼接输出是指在多层编码器不断堆叠的同时,把每一层编码器堆叠得到的[CLS]向量拼接在一起,作为最后的输出,表示最终的文本特征向量。这种多层编码器拼接输出的方法能够考虑到充分利用堆叠过程中被忽略的文本语义信息,提高模型的分类能力。
另外,由于多层编码拼接输出后所包含的语义信息十分丰富,但并不是全部的语义信息对分类任务都有帮助,过多的层数拼接会造成文本语义信息冗余,这些冗余的文本语义信息会影响模型的分类效果,因此文本分类模型选择5层编码器的拼接输出作为最终输出,即预测结果,进而减少文本语义信息冗余。
通过全连接层作为分类器,根据文本语义特征进行文本分类预测。文本分类预测步骤可以通过以下式子表示:Z(e)=Wce+bc;其中,是BERT多层编码器拼接的文本语义特征的向量;I表示多层编码器的层数;dh代表词向量的隐藏维度。/>和/>均为文本分类模型的分类器的分类参数。
对比预测结果和标签数据,根据预测结果和标签数据之间的相似性,得到预测结果与标签数据之间的置信度。
对于根据置信度计算得到损失函数,并根据损失函数对待训练的文本分类模型调参得到已训练的文本分类模型,其中,损失函数包括调制因子,调制因子用于调节头部标签在损失函数的第一占比权重和尾部标签在损失函数的第二占比权重。
可以理解的是,头部标签为在文本分类模型的训练过程中常使用到的标签数据,尾部标签为在文本分类模型的训练过程中较少使用到的标签数据。
具体地,损失函数可以通过以下式子表示:其中,pi为预测第i个标签数据的置信度,γ为调制因子,yi为第i个标签数据。
该损失函数是一个动态缩放的损失函数,调制因子γ决定了损失衰减的程度。例如,γ可以取值为2。
动态缩放是指不同标签的损失衰减不同,当pi→1时,(1-pi)γ接近0,此时易区分样本中的头部标签损失及比重大大减小。当pi→0时,(1-pi)γ接近1,此时难区分样本中的尾部标签损失几乎不受影响,比重大大提升。直观来说,(1-pi)γ减少了来自头部标签对应的易区分样本的损失贡献。例如,当γ=2时,易区分样本的头部标签置信度pi若为0.9,那么损失占比将降低100倍,而难区分样本的尾部标签损失最多降低4倍(pi=0.5),增加了纠正难区分样本错误分类的重要性。因此,通过设置(1-pi)γ衰减易区分样本对应的头部标签损失权重,快速把模型的注意力放在难区分样本对应的尾部标签分类学习上,从而提高整体分类的性能;在标签数据长尾分布的现象下,通过提高尾部标签在训练损失中的占比权重,使模型更加关注尾部标签,提高尾部标签分类学习的能力。
在调参步骤完成之后,得到已训练的文本分类模型;将该已训练的文本分类模型进行线上应用。获取待分类的文本数据;将待分类的文本数据输入至已训练的文本分类模型进行文本分类,得到分类结果。
本申请的实施例,提供了一种文本分类装置。
参照图5,文本分类装置包括第一数据获取模块110、模型训练模块120、第二数据获取模块130和模型应用模块140。
其中,第一数据获取模块110用于获取训练文本数据,训练文本数据包括标签数据;模型训练模块120用于将训练文本数据输入至待训练的文本分类模型,通过待训练的文本分类模型根据训练文本数据得到词嵌入向量,根据词嵌入向量进行特征提取得到文本语义特征,根据文本语义特征进行文本分类预测得到预测结果以及预测结果与标签数据之间的置信度,根据置信度计算得到损失函数,并根据损失函数对待训练的文本分类模型调参得到已训练的文本分类模型,其中,损失函数包括调制因子,调制因子用于调节头部标签在损失函数的第一占比权重和尾部标签在损失函数的第二占比权重;第二数据获取模块130用于获取待分类的文本数据;模型应用模块140用于将待分类的文本数据输入至已训练的文本分类模型进行文本分类,得到分类结果。
在该实施例中,通过在损失函数中添加调制因子,通过调制因子对不同标签赋予不同占比权重,调节头部标签在损失函数的第一占比权重和尾部标签在损失函数的第二占比权重,进而提升尾部标签的占比权重,提升文本分类模型对尾部标签分类学习的关注,加强文本分类模型对尾部标签的分类学习能力,提升文本分类模型整体的分类性能。
可以理解的是,文本分类方法实施例中的内容均适用于本文本分类装置实施例中,本文本分类装置实施例所具体实现的功能与文本分类方法实施例相同,并且达到的有益效果与文本分类方法实施例所达到的有益效果也相同。
本申请的实施例还提供了一种电子设备。所述电子设备包括存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线,所述程序被处理器执行时实现如上的文本分类方法。
该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
总体而言,对于电子设备的硬件结构,处理器可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案。
存储器可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器中,并由处理器来调用执行本申请实施例的文本分类方法。
输入/输出接口用于实现信息输入及输出。
通信接口用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线在设备的各个组件(例如处理器、存储器、输入/输出接口和通信接口)之间传输信息。处理器、存储器、输入/输出接口和通信接口通过总线实现彼此之间在设备内部的通信连接。
本申请的实施例,提供了一种计算机可读存储介质。所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的文本分类方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于实施例,熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种文本分类方法,其特征在于,包括:
获取训练文本数据,所述训练文本数据包括标签数据;
将所述训练文本数据输入至待训练的文本分类模型,通过所述待训练的文本分类模型根据所述训练文本数据得到词嵌入向量,根据所述词嵌入向量进行特征提取得到文本语义特征,根据所述文本语义特征进行文本分类预测得到预测结果以及所述预测结果与所述标签数据之间的置信度,根据所述置信度计算得到损失函数,并根据所述损失函数对所述待训练的文本分类模型调参得到已训练的文本分类模型,其中,所述损失函数包括调制因子,所述调制因子用于调节头部标签在所述损失函数的第一占比权重和尾部标签在所述损失函数的第二占比权重;
获取待分类的文本数据;
将所述待分类的文本数据输入至所述已训练的文本分类模型进行文本分类,得到分类结果。
2.根据权利要求1所述的一种文本分类方法,其特征在于,所述损失函数可以通过以下式子表示:其中,pi为预测第i个标签数据的置信度,γ为调制因子,yi为第i个标签数据。
3.根据权利要求1所述的一种文本分类方法,其特征在于,在所述将所述训练文本数据输入至待训练的文本分类模型之前,所述文本分类方法还包括:
获取所述训练文本数据的空格位置;
根据所述空格位置对所述训练文本数据进行分割处理得到分割文本数据。
4.根据权利要求3所述的一种文本分类方法,其特征在于,所述文本分类方法还包括:
获取所述分割文本数据的文本长度;
当所述文本长度大于预设的长度阈值,删除所述分割文本数据中超出长度阈值的文本部分,使所述分割文本数据的文本长度等于所述长度阈值;
当所述文本长度小于所述长度阈值,通过填充字符对所述分割文本数据进行文本填充,使所述分割文本数据的文本长度等于所述长度阈值。
5.根据权利要求1所述的一种文本分类方法,其特征在于,所述根据所述训练文本数据得到词嵌入向量,包括:
在所述训练文本数据的最前端添加第一标记;
在所述训练文本数据的最末端添加第二标记,所述第二标记用于区分文本类型;
对已添加所述第一标记和所述第二标记的所述训练文本数据融合公共子词单元位置信息、单词位置信息和句子位置信息,得到词嵌入向量。
6.根据权利要求5所述的一种文本分类方法,其特征在于,所述根据所述词嵌入向量进行特征提取得到文本语义特征,包括:
通过多头注意力机制学习得到多个关系矩阵,根据多个所述关系矩阵得到所述词嵌入向量在不同语义空间下的多个增强语义向量;
根据所述第一标记将多个所述增强语义向量进行线性组合,得到文本语义特征。
7.根据权利要求6所述的一种文本分类方法,其特征在于,所述根据所述文本语义特征进行文本分类预测得到预测结果以及所述预测结果与所述标签数据之间的置信度,包括:
根据所述文本分类模型的分类器的分类参数和所述文本语义特征得到预测结果;
对比所述预测结果和所述标签数据,得到所述预测结果与所述标签数据之间的置信度。
8.一种文本分类装置,其特征在于,包括:
第一数据获取模块,用于获取训练文本数据,所述训练文本数据包括标签数据;
模型训练模块,用于将所述训练文本数据输入至待训练的文本分类模型,通过所述待训练的文本分类模型根据所述训练文本数据得到词嵌入向量,根据所述词嵌入向量进行特征提取得到文本语义特征,根据所述文本语义特征进行文本分类预测得到预测结果以及所述预测结果与所述标签数据之间的置信度,根据所述置信度计算得到损失函数,并根据所述损失函数对所述待训练的文本分类模型调参得到已训练的文本分类模型,其中,所述损失函数包括调制因子,所述调制因子用于调节头部标签在所述损失函数的第一占比权重和尾部标签在所述损失函数的第二占比权重;
第二数据获取模块,用于获取待分类的文本数据;
模型应用模块,用于将所述待分类的文本数据输入至所述已训练的文本分类模型进行文本分类,得到分类结果。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至7任一项所述的文本分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的文本分类方法。
CN202211421239.7A 2022-11-14 2022-11-14 文本分类方法、装置、设备及介质 Active CN115687625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211421239.7A CN115687625B (zh) 2022-11-14 2022-11-14 文本分类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211421239.7A CN115687625B (zh) 2022-11-14 2022-11-14 文本分类方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN115687625A CN115687625A (zh) 2023-02-03
CN115687625B true CN115687625B (zh) 2024-01-09

Family

ID=85051744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211421239.7A Active CN115687625B (zh) 2022-11-14 2022-11-14 文本分类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115687625B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910279B (zh) * 2023-09-13 2024-01-05 深圳市智慧城市科技发展集团有限公司 标签提取方法、设备及计算机可读存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508859A (zh) * 2011-09-29 2012-06-20 北京亿赞普网络技术有限公司 一种基于网页特征的广告分类方法及装置
CN108734212A (zh) * 2018-05-17 2018-11-02 腾讯科技(深圳)有限公司 一种确定分类结果的方法以及相关装置
CN110119786A (zh) * 2019-05-20 2019-08-13 北京奇艺世纪科技有限公司 文本话题分类方法及装置
CN110309514A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种语义识别方法及装置
CN110807333A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 一种语义理解模型的语义处理方法、装置及存储介质
CN111339305A (zh) * 2020-03-20 2020-06-26 北京中科模识科技有限公司 文本分类方法、装置、电子设备及存储介质
CN112069811A (zh) * 2020-08-24 2020-12-11 武汉大学 多任务交互增强的电子文本事件抽取方法
CN113064964A (zh) * 2021-03-22 2021-07-02 广东博智林机器人有限公司 文本分类方法、模型训练方法、装置、设备以及存储介质
CN113886601A (zh) * 2021-09-30 2022-01-04 武汉大学 电子文本事件抽取方法、装置、设备及存储介质
CN114580433A (zh) * 2022-05-05 2022-06-03 北京大学 基于动态权重对比学习的多标签文本分类方法和系统
CN114691860A (zh) * 2020-12-25 2022-07-01 北京达佳互联信息技术有限公司 文本分类模型的训练方法、装置、电子设备及存储介质
CN114706986A (zh) * 2022-06-02 2022-07-05 苏州大学 一种多类别情感分类方法、装置以及计算机存储介质
CN114757182A (zh) * 2022-04-06 2022-07-15 西安电子科技大学 一种改进训练方式的bert短文本情感分析方法
CN114781392A (zh) * 2022-04-06 2022-07-22 西安电子科技大学 一种基于bert改进模型的文本情感分析方法
CN114860930A (zh) * 2022-04-25 2022-08-05 桂林电子科技大学 一种文本分类方法、装置以及存储介质
CN115221325A (zh) * 2022-07-25 2022-10-21 中国人民解放军军事科学院军事科学信息研究中心 一种基于标签语义学习和注意力调整机制的文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110311116A1 (en) * 2010-06-17 2011-12-22 Creighton University System and methods for anatomical structure labeling

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508859A (zh) * 2011-09-29 2012-06-20 北京亿赞普网络技术有限公司 一种基于网页特征的广告分类方法及装置
CN108734212A (zh) * 2018-05-17 2018-11-02 腾讯科技(深圳)有限公司 一种确定分类结果的方法以及相关装置
CN110119786A (zh) * 2019-05-20 2019-08-13 北京奇艺世纪科技有限公司 文本话题分类方法及装置
CN110309514A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种语义识别方法及装置
CN110807333A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 一种语义理解模型的语义处理方法、装置及存储介质
CN111339305A (zh) * 2020-03-20 2020-06-26 北京中科模识科技有限公司 文本分类方法、装置、电子设备及存储介质
CN112069811A (zh) * 2020-08-24 2020-12-11 武汉大学 多任务交互增强的电子文本事件抽取方法
CN114691860A (zh) * 2020-12-25 2022-07-01 北京达佳互联信息技术有限公司 文本分类模型的训练方法、装置、电子设备及存储介质
CN113064964A (zh) * 2021-03-22 2021-07-02 广东博智林机器人有限公司 文本分类方法、模型训练方法、装置、设备以及存储介质
CN113886601A (zh) * 2021-09-30 2022-01-04 武汉大学 电子文本事件抽取方法、装置、设备及存储介质
CN114757182A (zh) * 2022-04-06 2022-07-15 西安电子科技大学 一种改进训练方式的bert短文本情感分析方法
CN114781392A (zh) * 2022-04-06 2022-07-22 西安电子科技大学 一种基于bert改进模型的文本情感分析方法
CN114860930A (zh) * 2022-04-25 2022-08-05 桂林电子科技大学 一种文本分类方法、装置以及存储介质
CN114580433A (zh) * 2022-05-05 2022-06-03 北京大学 基于动态权重对比学习的多标签文本分类方法和系统
CN114706986A (zh) * 2022-06-02 2022-07-05 苏州大学 一种多类别情感分类方法、装置以及计算机存储介质
CN115221325A (zh) * 2022-07-25 2022-10-21 中国人民解放军军事科学院军事科学信息研究中心 一种基于标签语义学习和注意力调整机制的文本分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Class-balanced loss based on effective number of samples;Cui Y;《Proceedings of the IEEE/ CVF conference on computer vision and pattern recognition》;第9268-9277页 *
基于多模型的新闻标题分类;董孝政;宋睿;洪宇;朱芬红;朱巧明;;中文信息学报(10);第73-81页 *
大规模分类任务的分层学习方法综述;胡清华;王煜;周玉灿;赵红;钱宇华;梁吉业;;中国科学:信息科学(05);第7-20页 *
数据集类别不平衡性对迁移学习的影响分析;程磊;吴晓富;张索非;;信号处理(01);第114-121页 *

Also Published As

Publication number Publication date
CN115687625A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN111666427B (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
CN112632225B (zh) 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN111914076B (zh) 一种基于人机对话的用户画像构建方法、系统、终端及存储介质
CN114444507A (zh) 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
CN111401064A (zh) 一种命名实体识别方法、装置及终端设备
CN115687625B (zh) 文本分类方法、装置、设备及介质
CN112948601A (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN114896434A (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN115759062A (zh) 基于知识注入的文图预训练模型处理方法和文图检索系统
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113297374B (zh) 一种基于bert和字词特征融合的文本分类方法
CN112667803A (zh) 一种文本情感分类方法及装置
CN109117471B (zh) 一种词语相关度的计算方法及终端
WO2022095370A1 (zh) 一种文本匹配方法、装置、终端设备和存储介质
CN112733505A (zh) 文档生成方法和装置、电子设备及存储介质
CN116842944A (zh) 一种基于词增强的实体关系抽取方法及装置
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN111814496B (zh) 文本处理方法、装置、设备及存储介质
CN112633394A (zh) 一种智能用户标签确定方法、终端设备及存储介质
CN111291788A (zh) 一种基于神经网络的图像描述方法、系统、设备以及介质
CN115329158B (zh) 一种基于多源异构电力数据的数据关联方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant