CN114969321B - 基于多权重自训练的环境类投诉举报文本分类方法 - Google Patents

基于多权重自训练的环境类投诉举报文本分类方法 Download PDF

Info

Publication number
CN114969321B
CN114969321B CN202210249762.XA CN202210249762A CN114969321B CN 114969321 B CN114969321 B CN 114969321B CN 202210249762 A CN202210249762 A CN 202210249762A CN 114969321 B CN114969321 B CN 114969321B
Authority
CN
China
Prior art keywords
weight
data
unlabeled
similarity
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210249762.XA
Other languages
English (en)
Other versions
CN114969321A (zh
Inventor
范青武
邱昌盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202210249762.XA priority Critical patent/CN114969321B/zh
Publication of CN114969321A publication Critical patent/CN114969321A/zh
Application granted granted Critical
Publication of CN114969321B publication Critical patent/CN114969321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于多权重自训练模型得环境类投诉举报文本分类方法,属于人工智能技术领域。具体包括以下步骤:首先使用基于HowNet语料库的相似度计算方法赋予每个无标签数据第一权重;然后使用自训练的方法为每个无标签数据添加第二权重;接着通过权重融合和阈值筛选为每个无标签数据赋予伪标签并利用其参与训练。最后使用训练好的分类器进行投诉举报文本分类。本文所使用的基于多权重自训练模型的环境类投诉举报文本分类方法,在解决投诉举报少样本分类的问题上取得显著效果。

Description

基于多权重自训练的环境类投诉举报文本分类方法
技术领域
本发明涉及一种环境类投诉举报文本分类方法,尤其涉及一种基于多权重自训练模型的环境类投诉举报文本分类方法。
背景技术
涉及环境类的投诉举报类型多种多样,将投诉举报经过分类,快速准确定位投诉原因后,再交由相应主管部门会提升事件处理效率。通过分析,投诉举报文本具有口语化严重、表述不清的特点,并且有标签数据极少,直接构建有监督分类器面临着诸多困难;而通过人工进行标注开销昂贵,费时费力,且容易受到标注者主观的影响。
针对上述投诉举报分类中的问题,使用基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进,通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类,为环境类投诉举报可信度分析提供新思路。
综上所述,基于多权重自训练模型的环境类投诉举报文本分类是一项创新的研究问题,具有重要的研究意义和应用价值。
发明内容
本发明的目的是解决环境类投诉举报文本分类中文本口语化严重、表述不清,并且有标签数据极少,通过传统分类方法无法对投诉举报数据进行有效分类的问题。针对上述投诉举报分类中的问题,本发明提出一种基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进,通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类。
基于多权重自训练模型的环境类投诉举报文本分类方法,该方法步骤如下:
S1原始数据收集;
S2从全部有标签数据集中为每个类随机抽取η个样本,作为目标集;
S3将目标集和无标签数据集中XU中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;
S4使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度;
S5计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重;
S6使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重;
S7然后将每个无标签样本的第一权重和第二权重进行叠加,并再次对叠加后的权重进行归一化得到最终权重;
S8对最大权重超过阈值的无标签文本添加相应的伪标签。将添加伪标签的样本添加到有标签数据集中,并从无标签数据集中剔除;
S9用更新后的有标签数据集训练一个学生模型。
S10重复S6到S9操作,直到全部无标签数据全部添加伪标签或程序运行完指定循环次数。将最后得到的分类器作为自训练模型的输出。
附图说明
图1为基于多权重自训练模型的环境类投诉举报文本分类模型示意图。
图2为基于多权重自训练模型的环境类投诉举报文本分类模型流程图。
具体实施方式
本发明提出一种基于多权重自训练模型的环境类投诉举报文本分类方法,
结合附图1详细说明本发明的具体实施方式:
步骤1,原始数据收集;
步骤2中,从全部有标签数据集XL中为每个类随机抽取η个样本,本实验中η取20,作为目标集xl={x1,x2,…,xn},其中n为投诉举报数据所包含的类别数,其中/>表示所抽取的第i个类别的第o个样本和标签。另外将全部无标签数据集作为无标签数据集m为全部无标签数据的数量。
步骤3,将目标集和无标签数据集中XU中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;
步骤4,使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度,具体计算方式是:
步骤401,在义原树中两个义原节点之间的路径长度:两个义原的相似度大小与它们之间的路径距离的大小相关。义原节点w1与w2之间的相似度
其中,Dist(w1,w2)表示义原在HowNet的知识树中的路径距离(若w1,w2不在同一棵树,则取一个较大常数20),β为可调节参数,β取1;
步骤402,在两个义原节点之间的路径长度的基础上,加入义原节点的深度:在同一棵义原树中,两个义原的深度越大,表明义原包含的信息量越大,义原之间的相似度就越大。所以义原节点w1与w2之间的相似度也可以表示为:
其中,inf(w1),inf(w2)表示义原w1,w2在义原树中所有的父节点组成的集合。
步骤403,义原之间的相似度计算综合义原路径长度,义原深度因素,因此义原之间的相似度即可由以下公式计算得到:
其中α1与α2为可调节参数,0≤α1≤1,0≤α2≤1,α12=1。
从目标集和无标签数据集中各取出一条样本,分词去停用词之后得到其中To,Tj分别表示抽取出的文本分词去停用词之后所剩的单词数,利用(3)公式分别计算/>和/>中每个单词之间的相似度,/>之间的相似度记为/>这样就可以得到两个文本单词之间的相似度集合
步骤5,计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重,具体方法如下:
步骤501:
其中1≤b≤Tj。将Tj个Sim(a)加入集合P;
其中1≤a≤To。将To个Sim(b)加入集合Q。
将P,Q集合所有元素之和的平均值作为与/>的相似度,即两个文本之间的相似度
其中,Sim(a)∈P,a=1,2,…,To,1≤o≤η,Sim(b)∈Q,b=1,2,…,Tj,1≤j≤m。
步骤502:使用上述方法从无标签数据集XU中依次抽取样与目标集xl中的每个类的样本/>(i∈[1,n],o∈[1,η],第i个类的第o个样本)做相似度计算,并计算/>相对于目标集中第i类的平均相似度/>和/>相对于目标集中的每个类的平均相似度/>
在生成第一权重之前,为了提高模型的准确度,对相对于每个类的平均相似度做一次相似度筛选,并设定筛选阈值λ(λ∈[0,1]),所用相似度筛选函数如下:
y=sgn(ReLU(x-λ)) (7)
其中λ(λ∈[0,1])为设定的筛选阈值。所以筛选后的相似度为
最后将筛选之后的相似度进行归一化处理作为最后相对于每个类的权重
步骤6,使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重,具体步骤如下:
步骤601,将全部的有标签数据XL和全部带有第一权重的无标签数据进行向量化。本文使用哈工大的中文bert-wwm-ext预训练模型对文本进行向量化。向量化后的有标签数据表示为
其中/>表示第t个向量化后的有标签数据及其标签,z表示有标签数据个数。
向量化后的无标签数据表示为
其中/>表示第j个向量化后的无标签数据,m表示无标签样本的个数。
步骤602,用bert分类器作为自训练模型的教师和学生模型。将VL作为教师模型的输入,并使用交叉熵作为损失函数
其中:N为每个batch的大小;
M--表示类别个数;
yic--是符号函数(0或1),如果样本i的真实类别等于c,yic取1,否则取 0;
pic--观测样本i属于类别c的预测概率。
步骤603,使用训练好的教师模型计算出VU中样本数据对于每个类的预测概率,即数据/>的第二权重/>
步骤7,将第一权重与第二权重进行叠加并归一化得到数据的最终权重
同样的,为了提高同化数据的准确率。在为无标签数据添加伪标签之前,对最终生成的权重进行筛选,设定权重阈值为δ(δ∈[0,1])。因此,打标方式如下:
步骤8,对有标签数据集进行更新:将所有对应的无标签样本数据/>以/>的形式添加到有标签数据集中,形成新的有标签数据集/>并将其从无标签数据集中剔除。
步骤9,使用更新后的有标签数据集训练学生模型,同样使用交叉熵作为损失函数。将训练好的学生模型替换教师模型,并返回到步骤6。直到或者迭代达到最大迭代次数50次,模型停止训练,并将最后的教师模型作为模型的输出,用于对其他无标签数据分类。
本模型分类精确率(Precision)来表示模型的效果:
其中,为预测为正例且实际也为正例的样本数量;为预测为正例但实际为负例的样本数量。
本方法所用到的投诉举报数据集均来自于中国某环保相关部分所提供的真实数据。来自微信端、网页端、电话的环境类相关的投诉举报数据共计8910 条数据。为了更方便的将本文所提模型的性能与有监督模型进行对比,所选用的8910条数据全部为有标签数据。该数据用于半监督模型时,隐藏部分数据的标签当作无标签数据使用。
表1 MWST与有监督模型实验效果对比
如表1所示,基于多权重自训练的文本分类模型(MWST)在环境类投诉举报文本数据上的分类效果提升的较为明显。特别是在有标签数据较少而无标签数据较多的情况下,MWST模型的表现尤为突出。整体上,MWST与所对比的有监督模型效果高出12%以上;在L/U值小于1区间内,效果更为明显。与目前主流的几种半监督文本分类的模型进行对比,如表2所示,在环境类投诉举报文本数据上,MWST仍然具有一定的优势。在L/U值小于0.75区间内,MWST相比于其余模型优势明显。尤其在L/U值在0.2附近,MWST相比于其余模型高出10%以上。MWST在有标签数据较少,无标签数据较多时,可以利用相似度计算的方法为无标签提供有效的权重支持。相比于其他的半监督方法可以在不借助大量有标签数据学习的情况下获取更多类别信息,从而使其在小样本分类中取得更好的效果。
表2基于不同特征抽取器的MWST实验效果对比
表3基于不同相似度计算的MWST实验效果对比
表2,表3作为本文所提模型的验证实验。如表2所示,通过使用不同的特征抽取器来对比MWST模型的性能。从表中可以看出在所设计的对比实验中, BERT特征抽取器保持绝对优势。尤其在L/U较小阶段,BERT模型相比于卷积神经网络和循环神经网络,展现了其预训练的优势;并且BERT与Transfomer 相比,体量较小,可以在小样本的情况下有效的避免欠拟合的问题,从而体现出更好的特征抽取效果,因此本文所提模型中,采用BERT作为特征抽取器。
表3表示的是通过使用不同的相似度计算的方法来对比MWST模型的性能。从表中可以看出在所设计的比对实验中,基于HowNet的相似度计算方法在整体上有一定的优势。基于HowNet语料库可以轻松的获取词语义原之间的路径长度,层次深度,甚至是情感等信息。相比基于简单的文本编码表示的相似度计算,基于HowNet语料库的方法可以更好的从语义层面获取更多的信息,从而更有效的提高相似权重的准确性,为整体的模型效果提供更有效的帮助。
综上所述,本方法能够很好的利用多权重自训练模型,可以很好的完成投诉举报文本分类任务。

Claims (9)

1.一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于,具体步骤如下:
步骤1 原始数据收集;
步骤2 从全部有标签数据集中为每个类随机抽取η个样本,作为目标集;
步骤3 将目标集和无标签数据集中XU中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;
步骤4 使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度;
步骤5 计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重;
步骤6 使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重;
步骤7 然后将每个无标签样本的第一权重和第二权重进行叠加,并再次对叠加后的权重进行归一化得到最终权重;
步骤8 对最大权重超过阈值的无标签文本添加相应的伪标签;将添加伪标签的样本添加到有标签数据集中,并从无标签数据集中剔除;
步骤9 用更新后的有标签数据集训练一个学生模型;
步骤10 重复步骤6到步骤9操作,直到全部无标签数据全部添加伪标签或程序运行完指定循环次数;将最后得到的分类器作为自训练模型的输出;
其中,所述的原始数据是环境类投诉举报文本数据。
2.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤2中,从全部有标签数据集XL中为每个类随机抽取η个样本,作为目标集xl={x1,x2,…,xn},其中n为投诉举报数据所包含的类别数,
其中/>表示所抽取的第i个类别的第o个样本和标签;另外将全部无标签数据集作为无标签数据集m为全部无标签数据的数量。
3.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤4中,使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度,具体计算方式是:
步骤401在义原树中两个义原节点之间的路径长度:两个义原的相似度大小与它们之间的路径距离的大小相关;义原节点w1与w2之间的相似度
其中,Dist(w1,w2)表示义原在HowNet的知识树中的路径距离(若w1,w2不在同一棵树,路径距离取20),β为可调节参数,本发明中β取1;
步骤402在两个义原节点之间的路径长度的基础上,加入义原节点的深度:在同一棵义原树中,两个义原的深度越大,表明义原包含的信息量越大,义原之间的相似度就越大;所以义原节点w1与w2之间的相似度也可以表示为:
其中,inf(w1),inf(w2)表示义原w1,w2在义原树中所有的父节点组成的集合;
步骤403义原之间的相似度计算综合义原路径长度,义原深度因素,因此义原之间的相似度即可由以下公式计算得到:
其中α1与α2为可调节参数,0≤α1≤1,0≤α2≤1,α12=1;
从目标集和无标签数据集中各取出一条样本,分词去停用词之后得到
其中To,Tj分别表示抽取出的文本分词去停用词之后所剩的单词数,利用(3)公式分别计算/>和/>中每个单词之间的相似度,/>之间的相似度记为/>这样就可以得到两个文本单词之间的相似度集合/>
1≤a≤To,1≤b≤Tj
4.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤5中,计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重,具体方法如下:
步骤501:
其中1≤b≤Tj;将Tj个Sim(a)加入集合P;
其中1≤a≤To;将To个Sim(b)加入集合Q;
将P,Q集合所有元素之和的平均值作为与/>的相似度,即两个文本之间的相似度
其中,Sim(a)∈P,a=1,2,…,To,1≤o≤η,Sim(b)∈Q,b=1,2,…,Tj,1≤j≤m;
步骤502:使用上述方法从无标签数据集XU中依次抽取样
与目标集xl中的每个类的样本/>做相似度计算,并计算/>相对于目标集中第i类的平均相似度/>
相对于目标集中的每个类的平均相似度
在生成第一权重之前,为了提高模型的准确度,对相对于每个类的平均相似度做一次相似度筛选,并设定筛选阈值λ,所用相似度筛选函数如下:
y=sgn(ReLU(x-λ)) (7)
其中λ为设定的筛选阈值;所以筛选后的相似度为
最后将筛选之后的相似度进行归一化处理作为最后相对于每个类的权重
最终通过遍历无标签数据集中的数据得到每个无标签样本相对于每个类的第一权重。
5.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤6中,使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重,具体步骤如下:
步骤601,将全部的有标签数据XL和全部带有第一权重的无标签数据进行向量化;本文使用哈工大的中文bert-wwm-ext预训练模型对文本进行向量化;向量化后的有标签数据表示为
其中/>yt表示第t个向量化后的有标签数据及其标签,z表示有标签数据个数;
向量化后的无标签数据表示为
其中/>表示第j个向量化后的无标签数据,m表示无标签样本的个数;
步骤602,用bert分类器作为自训练模型的教师和学生模型;将VL作为教师模型的输入,并使用交叉熵作为损失函数
其中:N为每个batch的大小;
M--表示类别个数;
yic--是符号函数为0或1,如果样本i的真实类别等于c,yic取1,否则取0;
pic--观测样本i属于类别c的预测概率;
步骤603,使用训练好的教师模型计算出VU中样本数据对于每个类的预测概率,即数据/>的第二权重/>
6.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤7中,将第一权重与第二权重进行叠加并归一化得到数据的最终权重
在为无标签数据添加伪标签之前,对最终生成的权重进行筛选,设定权重阈值为δ;因此,打标方式如下:
7.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤8中,对有标签数据集进行更新:将所有对应的无标签样本数据/>的形式添加到有标签数据集中,形成新的有标签数据集/>并将其从无标签数据集中剔除。
8.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤9中,使用更新后的有标签数据集训练学生模型,同样使用交叉熵作为损失函数。
9.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:
步骤9中,将训练好的学生模型替换教师模型,并返回到步骤6;直到或者迭代达到50次以上,模型停止训练,并将最后的教师模型作为模型的输出,用于对其他无标签数据分类。
CN202210249762.XA 2022-03-14 2022-03-14 基于多权重自训练的环境类投诉举报文本分类方法 Active CN114969321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210249762.XA CN114969321B (zh) 2022-03-14 2022-03-14 基于多权重自训练的环境类投诉举报文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210249762.XA CN114969321B (zh) 2022-03-14 2022-03-14 基于多权重自训练的环境类投诉举报文本分类方法

Publications (2)

Publication Number Publication Date
CN114969321A CN114969321A (zh) 2022-08-30
CN114969321B true CN114969321B (zh) 2024-03-22

Family

ID=82976133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210249762.XA Active CN114969321B (zh) 2022-03-14 2022-03-14 基于多权重自训练的环境类投诉举报文本分类方法

Country Status (1)

Country Link
CN (1) CN114969321B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214133A1 (zh) * 2018-05-08 2019-11-14 华南理工大学 一种大规模客户投诉数据自动分类方法
KR20200121206A (ko) * 2019-04-15 2020-10-23 계명대학교 산학협력단 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN113065341A (zh) * 2021-03-14 2021-07-02 北京工业大学 一种环境类投诉举报文本自动标注和分类方法
CN113064967A (zh) * 2021-03-23 2021-07-02 北京工业大学 基于深度迁移网络的投诉举报可信度分析方法
CN114168709A (zh) * 2021-12-03 2022-03-11 中国人民解放军国防科技大学 一种基于轻量化预训练语言模型的文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214133A1 (zh) * 2018-05-08 2019-11-14 华南理工大学 一种大规模客户投诉数据自动分类方法
KR20200121206A (ko) * 2019-04-15 2020-10-23 계명대학교 산학협력단 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN113065341A (zh) * 2021-03-14 2021-07-02 北京工业大学 一种环境类投诉举报文本自动标注和分类方法
CN113064967A (zh) * 2021-03-23 2021-07-02 北京工业大学 基于深度迁移网络的投诉举报可信度分析方法
CN114168709A (zh) * 2021-12-03 2022-03-11 中国人民解放军国防科技大学 一种基于轻量化预训练语言模型的文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于DBM的电力投诉工单分类的应用研究;杨恒;颜宏文;;计算技术与自动化;20200928(第03期);全文 *
基于标签语义相似的动态多标签文本分类算法;姚佳奇;徐正国;燕继坤;熊钢;李智翔;;计算机工程与应用;20201231(第19期);全文 *
用于文本分类的均值原型网络;线岩团;相艳;余正涛;文永华;王红斌;张亚飞;;中文信息学报;20200615(第06期);全文 *

Also Published As

Publication number Publication date
CN114969321A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN110287320B (zh) 一种结合注意力机制的深度学习多分类情感分析模型
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN109697232A (zh) 一种基于深度学习的中文文本情感分析方法
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN111552803A (zh) 一种基于图小波网络模型的文本分类方法
CN112749562A (zh) 命名实体识别方法、装置、存储介质及电子设备
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN111026880B (zh) 基于联合学习的司法知识图谱构建方法
CN110851593B (zh) 一种基于位置与语义的复值词向量构建方法
CN113946677B (zh) 基于双向循环神经网络和注意力机制的事件识别分类方法
CN112732872B (zh) 面向生物医学文本的基于主题注意机制的多标签分类方法
CN110009025A (zh) 一种用于语音测谎的半监督加性噪声自编码器
CN111259153A (zh) 一种完全注意力机制的属性级情感分析方法
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN115221387A (zh) 一种基于深度神经网络的企业信息整合方法
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
Tianxiong et al. Identifying chinese event factuality with convolutional neural networks
CN116756347B (zh) 一种基于大数据的语义信息检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant