CN114969321A - 基于多权重自训练的环境类投诉举报文本分类方法 - Google Patents

基于多权重自训练的环境类投诉举报文本分类方法 Download PDF

Info

Publication number
CN114969321A
CN114969321A CN202210249762.XA CN202210249762A CN114969321A CN 114969321 A CN114969321 A CN 114969321A CN 202210249762 A CN202210249762 A CN 202210249762A CN 114969321 A CN114969321 A CN 114969321A
Authority
CN
China
Prior art keywords
weight
data
similarity
training
unlabeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210249762.XA
Other languages
English (en)
Other versions
CN114969321B (zh
Inventor
范青武
邱昌盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202210249762.XA priority Critical patent/CN114969321B/zh
Publication of CN114969321A publication Critical patent/CN114969321A/zh
Application granted granted Critical
Publication of CN114969321B publication Critical patent/CN114969321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于多权重自训练模型得环境类投诉举报文本分类方法,属于人工智能技术领域。具体包括以下步骤:首先使用基于HowNet语料库的相似度计算方法赋予每个无标签数据第一权重;然后使用自训练的方法为每个无标签数据添加第二权重;接着通过权重融合和阈值筛选为每个无标签数据赋予伪标签并利用其参与训练。最后使用训练好的分类器进行投诉举报文本分类。本文所使用的基于多权重自训练模型的环境类投诉举报文本分类方法,在解决投诉举报少样本分类的问题上取得显著效果。

Description

基于多权重自训练的环境类投诉举报文本分类方法
技术领域
本发明涉及一种环境类投诉举报文本分类方法,尤其涉及一种基于多权重自训练模型的环境类投诉举报文本分类方法。
背景技术
涉及环境类的投诉举报类型多种多样,将投诉举报经过分类,快速准确定位投诉原因后,再交由相应主管部门会提升事件处理效率。通过分析,投诉举报文本具有口语化严重、表述不清的特点,并且有标签数据极少,直接构建有监督分类器面临着诸多困难;而通过人工进行标注开销昂贵,费时费力,且容易受到标注者主观的影响。
针对上述投诉举报分类中的问题,使用基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进,通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类,为环境类投诉举报可信度分析提供新思路。
综上所述,基于多权重自训练模型的环境类投诉举报文本分类是一项创新的研究问题,具有重要的研究意义和应用价值。
发明内容
本发明的目的是解决环境类投诉举报文本分类中文本口语化严重、表述不清,并且有标签数据极少,通过传统分类方法无法对投诉举报数据进行有效分类的问题。针对上述投诉举报分类中的问题,本发明提出一种基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进,通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类。
基于多权重自训练模型的环境类投诉举报文本分类方法,该方法步骤如下:
S1原始数据收集;
S2从全部有标签数据集中为每个类随机抽取η个样本,作为目标集;
S3将目标集和无标签数据集中XU中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;
S4使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度;
S5计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重;
S6使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重;
S7然后将每个无标签样本的第一权重和第二权重进行叠加,并再次对叠加后的权重进行归一化得到最终权重;
S8对最大权重超过阈值的无标签文本添加相应的伪标签。将添加伪标签的样本添加到有标签数据集中,并从无标签数据集中剔除;
S9用更新后的有标签数据集训练一个学生模型。
S10重复S6到S9操作,直到全部无标签数据全部添加伪标签或程序运行完指定循环次数。将最后得到的分类器作为自训练模型的输出。
附图说明
图1为基于多权重自训练模型的环境类投诉举报文本分类模型示意图。
图2为基于多权重自训练模型的环境类投诉举报文本分类模型流程图。
具体实施方式
本发明提出一种基于多权重自训练模型的环境类投诉举报文本分类方法,
结合附图1详细说明本发明的具体实施方式:
步骤1,原始数据收集;
步骤2中,从全部有标签数据集XL中为每个类随机抽取η个样本,本实验中η取20,作为目标集xl={x1,x2,…,xn},其中n为投诉举报数据所包含的类别数,
Figure BDA0003546204710000021
其中
Figure BDA0003546204710000022
表示所抽取的第i个类别的第o个样本和标签。另外将全部无标签数据集作为无标签数据集
Figure BDA0003546204710000023
m为全部无标签数据的数量。
步骤3,将目标集和无标签数据集中XU中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;
步骤4,使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度,具体计算方式是:
步骤401,在义原树中两个义原节点之间的路径长度:两个义原的相似度大小与它们之间的路径距离的大小相关。义原节点w1与w2之间的相似度
Figure BDA0003546204710000031
其中,Dist(w1,w2)表示义原在HowNet的知识树中的路径距离(若w1,w2不在同一棵树,则取一个较大常数20),β为可调节参数,β取1;
步骤402,在两个义原节点之间的路径长度的基础上,加入义原节点的深度:在同一棵义原树中,两个义原的深度越大,表明义原包含的信息量越大,义原之间的相似度就越大。所以义原节点w1与w2之间的相似度也可以表示为:
Figure BDA0003546204710000032
其中,inf(w1),inf(w2)表示义原w1,w2在义原树中所有的父节点组成的集合。
步骤403,义原之间的相似度计算综合义原路径长度,义原深度因素,因此义原之间的相似度即可由以下公式计算得到:
Figure BDA0003546204710000033
其中α1与α2为可调节参数,0≤α1≤1,0≤α2≤1,α12=1。
从目标集和无标签数据集中各取出一条样本,分词去停用词之后得到
Figure BDA0003546204710000034
其中To,Tj分别表示抽取出的文本分词去停用词之后所剩的单词数,利用(3)公式分别计算
Figure BDA0003546204710000035
Figure BDA0003546204710000036
中每个单词之间的相似度,
Figure BDA0003546204710000037
之间的相似度记为
Figure BDA0003546204710000038
这样就可以得到两个文本单词之间的相似度集合
Figure BDA0003546204710000039
步骤5,计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重,具体方法如下:
步骤501:
Figure BDA0003546204710000041
其中1≤b≤Tj。将Tj个Sim(a)加入集合P;
Figure BDA0003546204710000042
其中1≤a≤To。将To个Sim(b)加入集合Q。
将P,Q集合所有元素之和的平均值作为
Figure BDA0003546204710000043
Figure BDA0003546204710000044
的相似度,即两个文本之间的相似度
Figure BDA0003546204710000045
其中,Sim(a)∈P,a=1,2,…,To,1≤o≤η,Sim(b)∈Q,b=1,2,…,Tj,1≤j≤m。
步骤502:使用上述方法从无标签数据集XU中依次抽取样
Figure BDA0003546204710000046
与目标集xl中的每个类的样本
Figure BDA0003546204710000047
(i∈[1,n],o∈[1,η],第i个类的第o个样本)做相似度计算,并计算
Figure BDA0003546204710000048
相对于目标集中第i类的平均相似度
Figure BDA0003546204710000049
Figure BDA00035462047100000410
相对于目标集中的每个类的平均相似度
Figure BDA00035462047100000411
在生成第一权重之前,为了提高模型的准确度,对
Figure BDA00035462047100000412
相对于每个类的平均相似度做一次相似度筛选,并设定筛选阈值λ(λ∈[0,1]),所用相似度筛选函数如下:
y=sgn(ReLU(x-λ)) (7)
其中λ(λ∈[0,1])为设定的筛选阈值。所以筛选后的相似度为
Figure BDA00035462047100000413
最后将筛选之后的相似度进行归一化处理作为最后
Figure BDA00035462047100000414
相对于每个类的权重
Figure BDA00035462047100000415
步骤6,使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重,具体步骤如下:
步骤601,将全部的有标签数据XL和全部带有第一权重的无标签数据进行向量化。本文使用哈工大的中文bert-wwm-ext预训练模型对文本进行向量化。向量化后的有标签数据表示为
Figure BDA0003546204710000051
其中
Figure BDA0003546204710000052
表示第t个向量化后的有标签数据及其标签,z表示有标签数据个数。
向量化后的无标签数据表示为
Figure BDA0003546204710000053
其中
Figure BDA0003546204710000054
表示第j个向量化后的无标签数据,m表示无标签样本的个数。
步骤602,用bert分类器作为自训练模型的教师和学生模型。将VL作为教师模型的输入,并使用交叉熵作为损失函数
Figure BDA0003546204710000055
其中:N为每个batch的大小;
M--表示类别个数;
yic--是符号函数(0或1),如果样本i的真实类别等于c,yic取1,否则取 0;
pic--观测样本i属于类别c的预测概率。
步骤603,使用训练好的教师模型计算出VU中样本数据
Figure BDA0003546204710000056
对于每个类的预测概率,即数据
Figure BDA0003546204710000057
的第二权重
Figure BDA0003546204710000058
步骤7,将第一权重与第二权重进行叠加并归一化得到数据
Figure BDA0003546204710000059
的最终权重
Figure BDA00035462047100000510
同样的,为了提高同化数据的准确率。在为无标签数据
Figure BDA00035462047100000511
添加伪标签之前,对最终生成的权重进行筛选,设定权重阈值为δ(δ∈[0,1])。因此,打标方式如下:
Figure BDA00035462047100000512
步骤8,对有标签数据集进行更新:将所有
Figure BDA00035462047100000513
对应的无标签样本数据
Figure BDA00035462047100000514
Figure BDA00035462047100000515
的形式添加到有标签数据集中,形成新的有标签数据集
Figure BDA0003546204710000061
并将其从无标签数据集中剔除。
步骤9,使用更新后的有标签数据集
Figure BDA0003546204710000062
训练学生模型,同样使用交叉熵作为损失函数。将训练好的学生模型替换教师模型,并返回到步骤6。直到
Figure BDA0003546204710000063
或者迭代达到最大迭代次数50次,模型停止训练,并将最后的教师模型作为模型的输出,用于对其他无标签数据分类。
本模型分类精确率(Precision)来表示模型的效果:
Figure BDA0003546204710000064
其中,为预测为正例且实际也为正例的样本数量;为预测为正例但实际为负例的样本数量。
本方法所用到的投诉举报数据集均来自于中国某环保相关部分所提供的真实数据。来自微信端、网页端、电话的环境类相关的投诉举报数据共计8910 条数据。为了更方便的将本文所提模型的性能与有监督模型进行对比,所选用的8910条数据全部为有标签数据。该数据用于半监督模型时,隐藏部分数据的标签当作无标签数据使用。
表1 MWST与有监督模型实验效果对比
Figure BDA0003546204710000065
如表1所示,基于多权重自训练的文本分类模型(MWST)在环境类投诉举报文本数据上的分类效果提升的较为明显。特别是在有标签数据较少而无标签数据较多的情况下,MWST模型的表现尤为突出。整体上,MWST与所对比的有监督模型效果高出12%以上;在L/U值小于1区间内,效果更为明显。与目前主流的几种半监督文本分类的模型进行对比,如表2所示,在环境类投诉举报文本数据上,MWST仍然具有一定的优势。在L/U值小于0.75区间内,MWST相比于其余模型优势明显。尤其在L/U值在0.2附近,MWST相比于其余模型高出10%以上。MWST在有标签数据较少,无标签数据较多时,可以利用相似度计算的方法为无标签提供有效的权重支持。相比于其他的半监督方法可以在不借助大量有标签数据学习的情况下获取更多类别信息,从而使其在小样本分类中取得更好的效果。
表2基于不同特征抽取器的MWST实验效果对比
Figure BDA0003546204710000071
表3基于不同相似度计算的MWST实验效果对比
Figure BDA0003546204710000072
表2,表3作为本文所提模型的验证实验。如表2所示,通过使用不同的特征抽取器来对比MWST模型的性能。从表中可以看出在所设计的对比实验中, BERT特征抽取器保持绝对优势。尤其在L/U较小阶段,BERT模型相比于卷积神经网络和循环神经网络,展现了其预训练的优势;并且BERT与Transfomer 相比,体量较小,可以在小样本的情况下有效的避免欠拟合的问题,从而体现出更好的特征抽取效果,因此本文所提模型中,采用BERT作为特征抽取器。
表3表示的是通过使用不同的相似度计算的方法来对比MWST模型的性能。从表中可以看出在所设计的比对实验中,基于HowNet的相似度计算方法在整体上有一定的优势。基于HowNet语料库可以轻松的获取词语义原之间的路径长度,层次深度,甚至是情感等信息。相比基于简单的文本编码表示的相似度计算,基于HowNet语料库的方法可以更好的从语义层面获取更多的信息,从而更有效的提高相似权重的准确性,为整体的模型效果提供更有效的帮助。
综上所述,本方法能够很好的利用多权重自训练模型,可以很好的完成投诉举报文本分类任务。

Claims (9)

1.一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于,具体步骤如下:
步骤1 原始数据收集;
步骤2 从全部有标签数据集中为每个类随机抽取η个样本,作为目标集;
步骤3 将目标集和无标签数据集中XU中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;
步骤4 使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度;
步骤5 计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重;
步骤6 使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重;
步骤7 然后将每个无标签样本的第一权重和第二权重进行叠加,并再次对叠加后的权重进行归一化得到最终权重;
步骤8 对最大权重超过阈值的无标签文本添加相应的伪标签;将添加伪标签的样本添加到有标签数据集中,并从无标签数据集中剔除;
步骤9 用更新后的有标签数据集训练一个学生模型;
步骤10 重复步骤6到步骤9操作,直到全部无标签数据全部添加伪标签或程序运行完指定循环次数;将最后得到的分类器作为自训练模型的输出;
其中,所述的原始数据是环境类投诉举报文本数据。
2.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤2中,从全部有标签数据集XL中为每个类随机抽取η个样本,作为目标集xl={x1,x2,…,xn},其中n为投诉举报数据所包含的类别数,
Figure FDA0003546204700000011
其中
Figure FDA0003546204700000012
表示所抽取的第i个类别的第o个样本和标签;另外将全部无标签数据集作为无标签数据集
Figure FDA0003546204700000013
m为全部无标签数据的数量。
3.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤4中,使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度,具体计算方式是:
步骤401在义原树中两个义原节点之间的路径长度:两个义原的相似度大小与它们之间的路径距离的大小相关;义原节点w1与w2之间的相似度
Figure FDA0003546204700000021
其中,Dist(w1,w2)表示义原在HowNet的知识树中的路径距离(若w1,w2不在同一棵树,路径距离取20),β为可调节参数,本发明中β取1;
步骤402在两个义原节点之间的路径长度的基础上,加入义原节点的深度:在同一棵义原树中,两个义原的深度越大,表明义原包含的信息量越大,义原之间的相似度就越大;所以义原节点w1与w2之间的相似度也可以表示为:
Figure FDA0003546204700000022
其中,inf(w1),inf(w2)表示义原w1,w2在义原树中所有的父节点组成的集合;
步骤403义原之间的相似度计算综合义原路径长度,义原深度因素,因此义原之间的相似度即可由以下公式计算得到:
Figure FDA0003546204700000023
其中α1与α2为可调节参数,0≤α1≤1,0≤α2≤1,α12=1;
从目标集和无标签数据集中各取出一条样本,分词去停用词之后得到
Figure FDA0003546204700000024
其中To,Tj分别表示抽取出的文本分词去停用词之后所剩的单词数,利用(3)公式分别计算
Figure FDA0003546204700000025
Figure FDA0003546204700000026
中每个单词之间的相似度,
Figure FDA0003546204700000027
之间的相似度记为
Figure FDA0003546204700000028
这样就可以得到两个文本单词之间的相似度集合
Figure FDA0003546204700000029
1≤a≤To,1≤b≤Tj
4.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤5中,计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重,具体方法如下:
步骤501:
Figure FDA0003546204700000031
其中1≤b≤Tj;将Tj个Sim(a)加入集合P;
Figure FDA0003546204700000032
其中1≤a≤To;将To个Sim(b)加入集合Q;
将P,Q集合所有元素之和的平均值作为
Figure FDA0003546204700000033
Figure FDA0003546204700000034
的相似度,即两个文本之间的相似度
Figure FDA0003546204700000035
其中,Sim(a)∈P,a=1,2,…,To,1≤o≤η,Sim(b)∈Q,b=1,2,…,Tj,1≤j≤m;
步骤502:使用上述方法从无标签数据集XU中依次抽取样
Figure FDA0003546204700000036
与目标集xl中的每个类的样本
Figure FDA0003546204700000037
做相似度计算,并计算
Figure FDA0003546204700000038
相对于目标集中第i类的平均相似度
Figure FDA0003546204700000039
Figure FDA00035462047000000310
相对于目标集中的每个类的平均相似度
Figure FDA00035462047000000311
在生成第一权重之前,为了提高模型的准确度,对
Figure FDA00035462047000000312
相对于每个类的平均相似度做一次相似度筛选,并设定筛选阈值λ,所用相似度筛选函数如下:
y=sgn(ReLU(x-λ)) (7)
其中λ为设定的筛选阈值;所以筛选后的相似度为
Figure FDA00035462047000000313
最后将筛选之后的相似度进行归一化处理作为最后
Figure FDA00035462047000000314
相对于每个类的权重
Figure FDA00035462047000000315
最终通过遍历无标签数据集中的数据得到每个无标签样本相对于每个类的第一权重。
5.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤6中,使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重,具体步骤如下:
步骤601,将全部的有标签数据XL和全部带有第一权重的无标签数据进行向量化;本文使用哈工大的中文bert-wwm-ext预训练模型对文本进行向量化;向量化后的有标签数据表示为
Figure FDA0003546204700000041
其中
Figure FDA0003546204700000042
yt表示第t个向量化后的有标签数据及其标签,z表示有标签数据个数;
向量化后的无标签数据表示为
Figure FDA0003546204700000043
其中
Figure FDA0003546204700000044
表示第j个向量化后的无标签数据,m表示无标签样本的个数;
步骤602,用bert分类器作为自训练模型的教师和学生模型;将VL作为教师模型的输入,并使用交叉熵作为损失函数
Figure FDA0003546204700000045
其中:N为每个batch的大小;
M--表示类别个数;
yic--是符号函数为0或1,如果样本i的真实类别等于c,yic取1,否则取0;
pic--观测样本i属于类别c的预测概率;
步骤603,使用训练好的教师模型计算出VU中样本数据
Figure FDA0003546204700000046
对于每个类的预测概率,即数据
Figure FDA0003546204700000047
的第二权重
Figure FDA0003546204700000048
6.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤7中,将第一权重与第二权重进行叠加并归一化得到数据
Figure FDA0003546204700000049
的最终权重
Figure FDA00035462047000000410
在为无标签数据
Figure FDA00035462047000000411
添加伪标签之前,对最终生成的权重进行筛选,设定权重阈值为δ;因此,打标方式如下:
Figure FDA00035462047000000412
7.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤8中,对有标签数据集进行更新:将所有
Figure FDA0003546204700000051
对应的无标签样本数据
Figure FDA0003546204700000052
Figure FDA0003546204700000053
的形式添加到有标签数据集中,形成新的有标签数据集
Figure FDA0003546204700000054
并将其从无标签数据集中剔除。
8.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤9中,使用更新后的有标签数据集
Figure FDA0003546204700000055
训练学生模型,同样使用交叉熵作为损失函数。
9.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤9中,将训练好的学生模型替换教师模型,并返回到步骤6;直到
Figure FDA0003546204700000056
或者迭代达到50次以上,模型停止训练,并将最后的教师模型作为模型的输出,用于对其他无标签数据分类。
CN202210249762.XA 2022-03-14 2022-03-14 基于多权重自训练的环境类投诉举报文本分类方法 Active CN114969321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210249762.XA CN114969321B (zh) 2022-03-14 2022-03-14 基于多权重自训练的环境类投诉举报文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210249762.XA CN114969321B (zh) 2022-03-14 2022-03-14 基于多权重自训练的环境类投诉举报文本分类方法

Publications (2)

Publication Number Publication Date
CN114969321A true CN114969321A (zh) 2022-08-30
CN114969321B CN114969321B (zh) 2024-03-22

Family

ID=82976133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210249762.XA Active CN114969321B (zh) 2022-03-14 2022-03-14 基于多权重自训练的环境类投诉举报文本分类方法

Country Status (1)

Country Link
CN (1) CN114969321B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214133A1 (zh) * 2018-05-08 2019-11-14 华南理工大学 一种大规模客户投诉数据自动分类方法
KR20200121206A (ko) * 2019-04-15 2020-10-23 계명대학교 산학협력단 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN113065341A (zh) * 2021-03-14 2021-07-02 北京工业大学 一种环境类投诉举报文本自动标注和分类方法
CN113064967A (zh) * 2021-03-23 2021-07-02 北京工业大学 基于深度迁移网络的投诉举报可信度分析方法
CN114168709A (zh) * 2021-12-03 2022-03-11 中国人民解放军国防科技大学 一种基于轻量化预训练语言模型的文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214133A1 (zh) * 2018-05-08 2019-11-14 华南理工大学 一种大规模客户投诉数据自动分类方法
KR20200121206A (ko) * 2019-04-15 2020-10-23 계명대학교 산학협력단 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN113065341A (zh) * 2021-03-14 2021-07-02 北京工业大学 一种环境类投诉举报文本自动标注和分类方法
CN113064967A (zh) * 2021-03-23 2021-07-02 北京工业大学 基于深度迁移网络的投诉举报可信度分析方法
CN114168709A (zh) * 2021-12-03 2022-03-11 中国人民解放军国防科技大学 一种基于轻量化预训练语言模型的文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
姚佳奇;徐正国;燕继坤;熊钢;李智翔;: "基于标签语义相似的动态多标签文本分类算法", 计算机工程与应用, no. 19, 31 December 2020 (2020-12-31) *
杨恒;颜宏文;: "基于DBM的电力投诉工单分类的应用研究", 计算技术与自动化, no. 03, 28 September 2020 (2020-09-28) *
线岩团;相艳;余正涛;文永华;王红斌;张亚飞;: "用于文本分类的均值原型网络", 中文信息学报, no. 06, 15 June 2020 (2020-06-15) *

Also Published As

Publication number Publication date
CN114969321B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN111597420B (zh) 基于深度学习的轨道交通规范关系抽取方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN108804651B (zh) 一种基于强化贝叶斯分类的社交行为检测方法
CN112149421A (zh) 一种基于bert嵌入的软件编程领域实体识别方法
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN113378563B (zh) 一种基于遗传变异和半监督的案件特征提取方法及装置
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN110263174A (zh) —基于焦点关注的主题类别分析方法
CN112925904A (zh) 一种基于Tucker分解的轻量级文本分类方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN116842194A (zh) 一种电力语义知识图谱系统及方法
CN117807232A (zh) 商品分类方法、商品分类模型构建方法及装置
CN111783464A (zh) 一种面向电力的领域实体识别方法、系统及存储介质
CN115221387A (zh) 一种基于深度神经网络的企业信息整合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant