CN114969321A - 基于多权重自训练的环境类投诉举报文本分类方法 - Google Patents
基于多权重自训练的环境类投诉举报文本分类方法 Download PDFInfo
- Publication number
- CN114969321A CN114969321A CN202210249762.XA CN202210249762A CN114969321A CN 114969321 A CN114969321 A CN 114969321A CN 202210249762 A CN202210249762 A CN 202210249762A CN 114969321 A CN114969321 A CN 114969321A
- Authority
- CN
- China
- Prior art keywords
- weight
- data
- similarity
- training
- unlabeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000007613 environmental effect Effects 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 230000004927 fusion Effects 0.000 abstract 1
- 238000013145 classification model Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012418 validation experiment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于多权重自训练模型得环境类投诉举报文本分类方法,属于人工智能技术领域。具体包括以下步骤:首先使用基于HowNet语料库的相似度计算方法赋予每个无标签数据第一权重;然后使用自训练的方法为每个无标签数据添加第二权重;接着通过权重融合和阈值筛选为每个无标签数据赋予伪标签并利用其参与训练。最后使用训练好的分类器进行投诉举报文本分类。本文所使用的基于多权重自训练模型的环境类投诉举报文本分类方法,在解决投诉举报少样本分类的问题上取得显著效果。
Description
技术领域
本发明涉及一种环境类投诉举报文本分类方法,尤其涉及一种基于多权重自训练模型的环境类投诉举报文本分类方法。
背景技术
涉及环境类的投诉举报类型多种多样,将投诉举报经过分类,快速准确定位投诉原因后,再交由相应主管部门会提升事件处理效率。通过分析,投诉举报文本具有口语化严重、表述不清的特点,并且有标签数据极少,直接构建有监督分类器面临着诸多困难;而通过人工进行标注开销昂贵,费时费力,且容易受到标注者主观的影响。
针对上述投诉举报分类中的问题,使用基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进,通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类,为环境类投诉举报可信度分析提供新思路。
综上所述,基于多权重自训练模型的环境类投诉举报文本分类是一项创新的研究问题,具有重要的研究意义和应用价值。
发明内容
本发明的目的是解决环境类投诉举报文本分类中文本口语化严重、表述不清,并且有标签数据极少,通过传统分类方法无法对投诉举报数据进行有效分类的问题。针对上述投诉举报分类中的问题,本发明提出一种基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进,通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类。
基于多权重自训练模型的环境类投诉举报文本分类方法,该方法步骤如下:
S1原始数据收集;
S2从全部有标签数据集中为每个类随机抽取η个样本,作为目标集;
S3将目标集和无标签数据集中XU中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;
S4使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度;
S5计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重;
S6使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重;
S7然后将每个无标签样本的第一权重和第二权重进行叠加,并再次对叠加后的权重进行归一化得到最终权重;
S8对最大权重超过阈值的无标签文本添加相应的伪标签。将添加伪标签的样本添加到有标签数据集中,并从无标签数据集中剔除;
S9用更新后的有标签数据集训练一个学生模型。
S10重复S6到S9操作,直到全部无标签数据全部添加伪标签或程序运行完指定循环次数。将最后得到的分类器作为自训练模型的输出。
附图说明
图1为基于多权重自训练模型的环境类投诉举报文本分类模型示意图。
图2为基于多权重自训练模型的环境类投诉举报文本分类模型流程图。
具体实施方式
本发明提出一种基于多权重自训练模型的环境类投诉举报文本分类方法,
结合附图1详细说明本发明的具体实施方式:
步骤1,原始数据收集;
步骤2中,从全部有标签数据集XL中为每个类随机抽取η个样本,本实验中η取20,作为目标集xl={x1,x2,…,xn},其中n为投诉举报数据所包含的类别数,其中表示所抽取的第i个类别的第o个样本和标签。另外将全部无标签数据集作为无标签数据集m为全部无标签数据的数量。
步骤3,将目标集和无标签数据集中XU中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;
步骤4,使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度,具体计算方式是:
其中,Dist(w1,w2)表示义原在HowNet的知识树中的路径距离(若w1,w2不在同一棵树,则取一个较大常数20),β为可调节参数,β取1;
步骤402,在两个义原节点之间的路径长度的基础上,加入义原节点的深度:在同一棵义原树中,两个义原的深度越大,表明义原包含的信息量越大,义原之间的相似度就越大。所以义原节点w1与w2之间的相似度也可以表示为:
其中,inf(w1),inf(w2)表示义原w1,w2在义原树中所有的父节点组成的集合。
步骤403,义原之间的相似度计算综合义原路径长度,义原深度因素,因此义原之间的相似度即可由以下公式计算得到:
其中α1与α2为可调节参数,0≤α1≤1,0≤α2≤1,α1+α2=1。
从目标集和无标签数据集中各取出一条样本,分词去停用词之后得到其中To,Tj分别表示抽取出的文本分词去停用词之后所剩的单词数,利用(3)公式分别计算和中每个单词之间的相似度,之间的相似度记为这样就可以得到两个文本单词之间的相似度集合
步骤5,计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重,具体方法如下:
步骤501:
其中,Sim(a)∈P,a=1,2,…,To,1≤o≤η,Sim(b)∈Q,b=1,2,…,Tj,1≤j≤m。
步骤502:使用上述方法从无标签数据集XU中依次抽取样与目标集xl中的每个类的样本(i∈[1,n],o∈[1,η],第i个类的第o个样本)做相似度计算,并计算相对于目标集中第i类的平均相似度和相对于目标集中的每个类的平均相似度
y=sgn(ReLU(x-λ)) (7)
其中λ(λ∈[0,1])为设定的筛选阈值。所以筛选后的相似度为
步骤6,使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重,具体步骤如下:
步骤601,将全部的有标签数据XL和全部带有第一权重的无标签数据进行向量化。本文使用哈工大的中文bert-wwm-ext预训练模型对文本进行向量化。向量化后的有标签数据表示为
向量化后的无标签数据表示为
步骤602,用bert分类器作为自训练模型的教师和学生模型。将VL作为教师模型的输入,并使用交叉熵作为损失函数
其中:N为每个batch的大小;
M--表示类别个数;
yic--是符号函数(0或1),如果样本i的真实类别等于c,yic取1,否则取 0;
pic--观测样本i属于类别c的预测概率。
步骤9,使用更新后的有标签数据集训练学生模型,同样使用交叉熵作为损失函数。将训练好的学生模型替换教师模型,并返回到步骤6。直到或者迭代达到最大迭代次数50次,模型停止训练,并将最后的教师模型作为模型的输出,用于对其他无标签数据分类。
本模型分类精确率(Precision)来表示模型的效果:
其中,为预测为正例且实际也为正例的样本数量;为预测为正例但实际为负例的样本数量。
本方法所用到的投诉举报数据集均来自于中国某环保相关部分所提供的真实数据。来自微信端、网页端、电话的环境类相关的投诉举报数据共计8910 条数据。为了更方便的将本文所提模型的性能与有监督模型进行对比,所选用的8910条数据全部为有标签数据。该数据用于半监督模型时,隐藏部分数据的标签当作无标签数据使用。
表1 MWST与有监督模型实验效果对比
如表1所示,基于多权重自训练的文本分类模型(MWST)在环境类投诉举报文本数据上的分类效果提升的较为明显。特别是在有标签数据较少而无标签数据较多的情况下,MWST模型的表现尤为突出。整体上,MWST与所对比的有监督模型效果高出12%以上;在L/U值小于1区间内,效果更为明显。与目前主流的几种半监督文本分类的模型进行对比,如表2所示,在环境类投诉举报文本数据上,MWST仍然具有一定的优势。在L/U值小于0.75区间内,MWST相比于其余模型优势明显。尤其在L/U值在0.2附近,MWST相比于其余模型高出10%以上。MWST在有标签数据较少,无标签数据较多时,可以利用相似度计算的方法为无标签提供有效的权重支持。相比于其他的半监督方法可以在不借助大量有标签数据学习的情况下获取更多类别信息,从而使其在小样本分类中取得更好的效果。
表2基于不同特征抽取器的MWST实验效果对比
表3基于不同相似度计算的MWST实验效果对比
表2,表3作为本文所提模型的验证实验。如表2所示,通过使用不同的特征抽取器来对比MWST模型的性能。从表中可以看出在所设计的对比实验中, BERT特征抽取器保持绝对优势。尤其在L/U较小阶段,BERT模型相比于卷积神经网络和循环神经网络,展现了其预训练的优势;并且BERT与Transfomer 相比,体量较小,可以在小样本的情况下有效的避免欠拟合的问题,从而体现出更好的特征抽取效果,因此本文所提模型中,采用BERT作为特征抽取器。
表3表示的是通过使用不同的相似度计算的方法来对比MWST模型的性能。从表中可以看出在所设计的比对实验中,基于HowNet的相似度计算方法在整体上有一定的优势。基于HowNet语料库可以轻松的获取词语义原之间的路径长度,层次深度,甚至是情感等信息。相比基于简单的文本编码表示的相似度计算,基于HowNet语料库的方法可以更好的从语义层面获取更多的信息,从而更有效的提高相似权重的准确性,为整体的模型效果提供更有效的帮助。
综上所述,本方法能够很好的利用多权重自训练模型,可以很好的完成投诉举报文本分类任务。
Claims (9)
1.一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于,具体步骤如下:
步骤1 原始数据收集;
步骤2 从全部有标签数据集中为每个类随机抽取η个样本,作为目标集;
步骤3 将目标集和无标签数据集中XU中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;
步骤4 使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度;
步骤5 计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重;
步骤6 使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重;
步骤7 然后将每个无标签样本的第一权重和第二权重进行叠加,并再次对叠加后的权重进行归一化得到最终权重;
步骤8 对最大权重超过阈值的无标签文本添加相应的伪标签;将添加伪标签的样本添加到有标签数据集中,并从无标签数据集中剔除;
步骤9 用更新后的有标签数据集训练一个学生模型;
步骤10 重复步骤6到步骤9操作,直到全部无标签数据全部添加伪标签或程序运行完指定循环次数;将最后得到的分类器作为自训练模型的输出;
其中,所述的原始数据是环境类投诉举报文本数据。
3.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤4中,使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度,具体计算方式是:
其中,Dist(w1,w2)表示义原在HowNet的知识树中的路径距离(若w1,w2不在同一棵树,路径距离取20),β为可调节参数,本发明中β取1;
步骤402在两个义原节点之间的路径长度的基础上,加入义原节点的深度:在同一棵义原树中,两个义原的深度越大,表明义原包含的信息量越大,义原之间的相似度就越大;所以义原节点w1与w2之间的相似度也可以表示为:
其中,inf(w1),inf(w2)表示义原w1,w2在义原树中所有的父节点组成的集合;
步骤403义原之间的相似度计算综合义原路径长度,义原深度因素,因此义原之间的相似度即可由以下公式计算得到:
其中α1与α2为可调节参数,0≤α1≤1,0≤α2≤1,α1+α2=1;
从目标集和无标签数据集中各取出一条样本,分词去停用词之后得到其中To,Tj分别表示抽取出的文本分词去停用词之后所剩的单词数,利用(3)公式分别计算和中每个单词之间的相似度,之间的相似度记为这样就可以得到两个文本单词之间的相似度集合
1≤a≤To,1≤b≤Tj。
4.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤5中,计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重,具体方法如下:
步骤501:
其中,Sim(a)∈P,a=1,2,…,To,1≤o≤η,Sim(b)∈Q,b=1,2,…,Tj,1≤j≤m;
步骤502:使用上述方法从无标签数据集XU中依次抽取样
y=sgn(ReLU(x-λ)) (7)
其中λ为设定的筛选阈值;所以筛选后的相似度为
最终通过遍历无标签数据集中的数据得到每个无标签样本相对于每个类的第一权重。
5.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤6中,使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重,具体步骤如下:
步骤601,将全部的有标签数据XL和全部带有第一权重的无标签数据进行向量化;本文使用哈工大的中文bert-wwm-ext预训练模型对文本进行向量化;向量化后的有标签数据表示为
向量化后的无标签数据表示为
步骤602,用bert分类器作为自训练模型的教师和学生模型;将VL作为教师模型的输入,并使用交叉熵作为损失函数
其中:N为每个batch的大小;
M--表示类别个数;
yic--是符号函数为0或1,如果样本i的真实类别等于c,yic取1,否则取0;
pic--观测样本i属于类别c的预测概率;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210249762.XA CN114969321B (zh) | 2022-03-14 | 2022-03-14 | 基于多权重自训练的环境类投诉举报文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210249762.XA CN114969321B (zh) | 2022-03-14 | 2022-03-14 | 基于多权重自训练的环境类投诉举报文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114969321A true CN114969321A (zh) | 2022-08-30 |
CN114969321B CN114969321B (zh) | 2024-03-22 |
Family
ID=82976133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210249762.XA Active CN114969321B (zh) | 2022-03-14 | 2022-03-14 | 基于多权重自训练的环境类投诉举报文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969321B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019214133A1 (zh) * | 2018-05-08 | 2019-11-14 | 华南理工大学 | 一种大规模客户投诉数据自动分类方法 |
KR20200121206A (ko) * | 2019-04-15 | 2020-10-23 | 계명대학교 산학협력단 | 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법 |
CN112232416A (zh) * | 2020-10-16 | 2021-01-15 | 浙江大学 | 一种基于伪标签加权的半监督学习方法 |
CN113065341A (zh) * | 2021-03-14 | 2021-07-02 | 北京工业大学 | 一种环境类投诉举报文本自动标注和分类方法 |
CN113064967A (zh) * | 2021-03-23 | 2021-07-02 | 北京工业大学 | 基于深度迁移网络的投诉举报可信度分析方法 |
CN114168709A (zh) * | 2021-12-03 | 2022-03-11 | 中国人民解放军国防科技大学 | 一种基于轻量化预训练语言模型的文本分类方法 |
-
2022
- 2022-03-14 CN CN202210249762.XA patent/CN114969321B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019214133A1 (zh) * | 2018-05-08 | 2019-11-14 | 华南理工大学 | 一种大规模客户投诉数据自动分类方法 |
KR20200121206A (ko) * | 2019-04-15 | 2020-10-23 | 계명대학교 산학협력단 | 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법 |
CN112232416A (zh) * | 2020-10-16 | 2021-01-15 | 浙江大学 | 一种基于伪标签加权的半监督学习方法 |
CN113065341A (zh) * | 2021-03-14 | 2021-07-02 | 北京工业大学 | 一种环境类投诉举报文本自动标注和分类方法 |
CN113064967A (zh) * | 2021-03-23 | 2021-07-02 | 北京工业大学 | 基于深度迁移网络的投诉举报可信度分析方法 |
CN114168709A (zh) * | 2021-12-03 | 2022-03-11 | 中国人民解放军国防科技大学 | 一种基于轻量化预训练语言模型的文本分类方法 |
Non-Patent Citations (3)
Title |
---|
姚佳奇;徐正国;燕继坤;熊钢;李智翔;: "基于标签语义相似的动态多标签文本分类算法", 计算机工程与应用, no. 19, 31 December 2020 (2020-12-31) * |
杨恒;颜宏文;: "基于DBM的电力投诉工单分类的应用研究", 计算技术与自动化, no. 03, 28 September 2020 (2020-09-28) * |
线岩团;相艳;余正涛;文永华;王红斌;张亚飞;: "用于文本分类的均值原型网络", 中文信息学报, no. 06, 15 June 2020 (2020-06-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN114969321B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN108399158B (zh) | 基于依存树和注意力机制的属性情感分类方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN112732934B (zh) | 电网设备分词词典和故障案例库构建方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN111597420B (zh) | 基于深度学习的轨道交通规范关系抽取方法 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN108804651B (zh) | 一种基于强化贝叶斯分类的社交行为检测方法 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN113378563B (zh) | 一种基于遗传变异和半监督的案件特征提取方法及装置 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN110263174A (zh) | —基于焦点关注的主题类别分析方法 | |
CN112925904A (zh) | 一种基于Tucker分解的轻量级文本分类方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN117807232A (zh) | 商品分类方法、商品分类模型构建方法及装置 | |
CN111783464A (zh) | 一种面向电力的领域实体识别方法、系统及存储介质 | |
CN115221387A (zh) | 一种基于深度神经网络的企业信息整合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |