CN109739986A - 一种基于深度集成学习的投诉短文本分类方法 - Google Patents

一种基于深度集成学习的投诉短文本分类方法 Download PDF

Info

Publication number
CN109739986A
CN109739986A CN201811621438.6A CN201811621438A CN109739986A CN 109739986 A CN109739986 A CN 109739986A CN 201811621438 A CN201811621438 A CN 201811621438A CN 109739986 A CN109739986 A CN 109739986A
Authority
CN
China
Prior art keywords
text
classification
complaint
feature vector
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811621438.6A
Other languages
English (en)
Inventor
岳丹阳
方帅
王刚
岳学民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201811621438.6A priority Critical patent/CN109739986A/zh
Publication of CN109739986A publication Critical patent/CN109739986A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于深度集成学习的投诉短文本分类方法,包括:对客户投诉文本集进行预处理,得到预处理投诉文本集;根据预设的投诉文本的主题分类设计投诉分类标签,并将预处理投诉文本集打上相应的投诉分类标签,得到训练样本集;采用BTM主题模型对训练样本集进行文本特征提取,得到文本特征向量;采用卷积神经网络对训练样本集进行文本特征提取,得到卷积语义特征向量;采用归一化组合策略对文本特征向量和卷积语义特征向量进行归一化并融合,得到组合文本特征向量;将组合文本特征向量输入随机森林模型进行训练,根据不同决策树的差异性,采用加权法将多个决策树的分类结果进行组合,获取概率最大的类别作为训练样本集的文本分类结果。

Description

一种基于深度集成学习的投诉短文本分类方法
技术领域
本发明涉及文本分类技术领域,尤其涉及一种基于深度集成学习的投诉短文本分类方法。
背景技术
目前移动通信运营商进行客户投诉工单分类的方法主要是采用文本挖掘和人工智能算法建立投诉识别系统,对投诉工单进行智能分类,从而保证在短时间内将投诉工单分配给合适的技术支撑部门进行处理。由于客户投诉文本的长度短,数量大,而引起投诉的原因又多种多样。采用传统的文本分类方法在处理短文本分类任务时就遇到了很大的困难,如文本信息量少,数据稀疏,数据总量特别大但每个个体较短,采用词频-逆向文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法或者LDA(LatentDirichlet Allocation)主题模型进行文本分类时存在向量维度过高,分类效率低等特点。由于客户投诉短文本的信息单元少,词语较为开放,词语总量大,重复率低,且词语更新快,新词、怪词出现频繁等。词频已经区分不开差距,逆向文档频率也毫无区分度,这使得传统的文本分类方法在处理短文本时有非常大的挑战。
近年来,神经网络语言模型逐步被用于学习词的分布式表示。例如基于序列的循环神经网络(Recurrent Neural Network,RNN)可以学习词序信息,在句子或文档建模中有较好的分类效果。卷积神经网络(Convolutional Neural Network,CNN)通过卷积核提取文本的n-gram特征,在文本分类任务上效果也很好。但是如何利用已有的词分布式表示去构建短文本的分布式表示依然是目前的研究重点。因此,针对投诉短文本构建一种多分类算法对于电信企业客户投诉的自动分类、客户投诉处理的效率提升和服务改善有着重要意义。
发明内容
基于背景技术存在的技术主题,本发明提出了一种基于深度集成学习的投诉短文本分类方法;
本发明提出的一种基于深度集成学习的投诉短文本分类方法,包括:
S1、对客户投诉文本集进行预处理,得到预处理投诉文本集;
S2、根据预设的投诉文本的主题分类设计投诉分类标签,并将预处理投诉文本集打上相应的投诉分类标签,得到训练样本集;
S3、采用BTM主题模型对训练样本集进行文本特征提取,得到文本特征向量;
S4、采用卷积神经网络对训练样本集进行文本特征提取,得到卷积语义特征向量;
S5、采用归一化组合策略对文本特征向量和卷积语义特征向量进行归一化并融合,得到组合文本特征向量;
S6、将组合文本特征向量输入随机森林模型进行训练,根据不同决策树的差异性,采用加权法将多个决策树的分类结果进行组合,将组合后概率最大的类别作为训练样本集的文本分类结果并输出。
优选地,步骤S1,具体包括:
对客户投诉文本集中客户投诉文本进行文本筛选、脱敏处理、去除停用词、过滤敏感词、建立自定义词典,得到预处理投诉文本集。
优选地,步骤S3,具体包括:
采用BTM主题模型在训练样本集中寻找词对,并去除与预设的停用词或短文本匹配的停用词和短文本;
采用BTM主题模型无监督学习获得主题-词和文档-主题概率分布,并通过吉布斯采样获得文本特征向量。
优选地,步骤S4,具体包括:
采用卷积神经网络将训练样本集映射为词向量矩阵,经过卷积与池化提取特征值,得到卷积语义特征向量。
优选地,步骤S5,具体包括:
通过以下公式对文本特征向量和卷积语义特征向量进行归一化并融合,得到组合文本特征向量其中,zm为文本m的卷积语义特征向量,θm为文本m的文本特征向量。
优选地,步骤S6中,所述随机森林模型,具体包括:
采用分类回归树算法决策树作为基分类器,以Gini指数作为分裂标准选取划分属性,生成多棵决策树组成随机森林;
根据不同决策树的差异性,以每颗决策树的分类准确率作为该决策树的权重,采用加权法将多个决策树的分类结果进行组合;
将组合后概率最大的类别作为训练样本集的文本分类结果并输出。
本发明在文本特征提取时,采用BTM模型进行词对建模,强化了文本中词共现关系,更适合短文本的主题特征提取,采用卷积神经网络模型通过神经网络自动学习词和文本的向量表示,提取文本中最重要的信息,具有强大的特征提取能力,如此,既考虑了词与词之间的语义相关性,又充分提取特征进行文本的分布式表示,同时解决了短文本信息量较少和特征稀疏主题,采用随机森林分类器对客户投诉文本进行分类,提高了神经网络的泛化学习能力,通过集成学习方法组合多颗决策树,使分类模型对异常值和噪声具有较好的容忍性和鲁棒性。
附图说明
图1为本发明提出的一种基于深度集成学习的投诉短文本分类方法的流程示意图;
图2为本发明中BTM主题模型示意图。
具体实施方式
参照图1和图2,本发明提出的一种基于深度集成学习的投诉短文本分类方法,包括:
步骤S1,对客户投诉文本集进行预处理,得到预处理投诉文本集。
本步骤具体包括:对客户投诉文本集中客户投诉文本进行文本筛选、脱敏处理、去除停用词、过滤敏感词、建立自定义词典,得到预处理投诉文本集。
在具体方案中,首先对客户投诉文本集进行预处理,预处理过程包括文本筛选、脱敏处理、去除停用词、过滤敏感词、建立自定义词典。
例如:客户投诉文本主要面对移动通信行业,所以将移动通信业的特有名词如“大王卡”、“元卡”等定义为用户词典加入分词库中。
步骤S2,根据预设的投诉文本的主题分类设计投诉分类标签,并将预处理投诉文本集打上相应的投诉分类标签,得到训练样本集。
在具体方案中,根据已有投诉文本的主题分类,设计投诉分类标签,将预处理后的投诉文本集打上相应的标签,从而形成模型构建所需的训练样本集。
步骤S3,采用BTM主题模型对训练样本集进行文本特征提取,得到文本特征向量。
本步骤具体包括:采用BTM主题模型在训练样本集中寻找词对,并去除与预设的停用词或短文本匹配的停用词和短文本;采用BTM主题模型无监督学习获得主题-词和文档-主题概率分布,并通过吉布斯采样获得文本特征向量。
在具体方案中,为提高文本分类的准确性,减少无意义词语造成的噪音干扰,还需要去除停用词,选取1803个停用词,作为停用词表放在记事本文件里,以Python库中的jieba包作为分词工具,分词完毕后进一步去除停用词。
词对是指对文档预处理后,任意共现的两个词。对整个语料库中的词对进行建模学习,可以克服短文本稀疏主题并考虑词与词之间的语义联系。采用BTM方法在整个语料集中寻找词对,使用整个语料集中聚集的“词对”,来解决单个文本稀疏性强的问题,和LDA方法相比,它不是基于文档建模,而是在词对的基础上建模,利用整个语料集的词共现现象降低短文本的稀疏性,BTM主题模型如图2所示,在对文档建模前,,采用Gibbs抽样算法对BTM进行参数估计,确定最优主题数K。假设词对集B中包含多个词对b=(ωi,ωj),p(b)表示BTM模型产生词对b的概率,该模型的困惑度为:通过选取不同的主题数目进行Gibbs抽样,迭代次数以1000为例,当BTM模型对应的困惑度最小时,可以得到主题数K,预设先验参数α=50/K和β=0.01,由于语料库的主题分布θm(m=1,...,M)服从狄利克雷分布Dir(α),主题-词分布服从狄利克雷分布Dir(β),其中,M为数据集中总的文档数。经过Gibbs采样后,可以得到θm其中,θm=[θm,1,θm,2,…,θm,k]即文本特征向量。
步骤S4,采用卷积神经网络对训练样本集进行文本特征提取,得到卷积语义特征向量。
本步骤具体包括:采用卷积神经网络将训练样本集映射为词向量矩阵,经过卷积与池化提取特征值,得到卷积语义特征向量。
在具体方案中,为了增加文本特征向量对文本主题的区分性,在卷积语义特征的基础上加入主题建模信息,采用BTM主题模型与卷积神经网络相结合的方法进行文本特征提取,首先,采用BTM方法在整个语料集中寻找词对,消除不恰当的停用词和短文本对文本信息挖掘准确性的影响,通过BTM无监督的学习获得主题-词和文档-主题概率分布,并通过吉布斯采样获得文本特征向量,然后,通过卷积神经网络将训练样本集映射为词向量矩阵,经过卷积与池化提取特征值,获得卷积语义特征向量。
卷积神经网络包含三层神经网络:
词向量层,输入文本m被映射为词向量矩阵x1:n=[x1,x2,…,xn]∈Rn×k,其中,n表示输入文本的长度,k表示词向量的长度,xi代表第i个词对应的词向量;
卷积层,滤波器w∈Rh×k每一步在一个高度为h的窗口内进行卷积操作,提取出一个新的特征,直到完成所有的卷积运算,得到相应的特征图c∈R;
池化层,为了获取输入文本中最有用的文本片段,对时序特征图c进行最大池化操作,提取出最大值 即滤波器w提取的最终特征值,假设一共有m个滤波器,则通过卷积池化运算,这m个滤波器提取特征值,最终组成隐层的特征向量:zm=[c1,c2,…,cm],即卷积语义特征向量。
步骤S5,采用归一化组合策略对文本特征向量和卷积语义特征向量进行归一化并融合,得到组合文本特征向量。
本步骤具体包括:通过以下公式对文本特征向量和卷积语义特征向量进行归一化并融合,得到组合文本特征向量其中,zm为文本m的卷积语义特征向量,θm为文本m的文本特征向量。
在具体方案中,对训练样本集中任一文本m而言,在卷积语义特征向量zm的基础上加入BTM主题模型获得的潜在主题信息θm,得到组合文本特征向量υm=[zm,θm],通过这种组合方式,新的文本特征向量υm同时具备卷积语义特征信息和主题建模信息,为了消除zm和θm量级上的差异对组合语义特征造成的影响,采用归一化的组合策略,对两种特征分别进行归一化处理,然后再进行融合,得到组合文本特征向量
步骤S6,将组合文本特征向量输入随机森林模型进行训练,根据不同决策树的差异性,采用加权法将多个决策树的分类结果进行组合,将组合后概率最大的类别作为训练样本集的文本分类结果并输出。
本步骤中随机森林模型包括:采用分类回归树算法决策树作为基分类器,以Gini指数作为分裂标准选取划分属性,生成多棵决策树组成随机森林;根据不同决策树的差异性,以每颗决策树的分类准确率作为该决策树的权重,采用加权法将多个决策树的分类结果进行组合;将组合后概率最大的类别作为训练样本集的文本分类结果并输出。
在具体方案中,随机森林对高维稀疏情况下的文本分类有更高的性能,其在文本挖掘方面与其他算法相比有明显优势,采用随机森林模型替换CNN中的softmax模型,以Gini指数作为分裂标准来选取划分属性,Gini指数是一种不等性度量,可用于度量任何不均匀分布,数值介于0(表示完全相等)到1(表示完全不等)之间,用于描述一个集合的不纯度,即从数据集中随机抽取两个样本,其类别标记不一致的概率。假设数据集T{X,Y}中包含J个类别的样本,Gini指数的定义为:
其中,P(j|t)为类别j(j=1,…,J)在节点t处的概率,假设离散属性T有m个可能的取值,使用T对样本集进行划分,则会产生m个分支节点,将样本集合分成m个部分,则属性T的Gini指数为:其中m为子节点的数目;ni为子节点i处的样本数;n为母节点的样本数;
在候选属性集合中选择使得划分后Gini指数最小的属性作为最优划分属性,并根据其属性创建分支,每棵树都不进行任何剪枝操作。遍历已建好的决策树,组成随机森林;
对于随机森林的分类结果,采用加权融合的机制进行集成。假设决策树t(t=1,…,T)的分类结果为rt,其正确率归一化后为ωt,T棵决策树经过加权融合后的结果为:其中I(·)为示性函数,它的取值范围是0和1,Y为可能的类别集合Y={y1,y2,...,yJ},随机森林输出待测样本的分类结果是以加权合成后的分类结果中概率最大的类别作为训练样本集的文本分类结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于深度集成学习的投诉短文本分类方法,其特征在于,包括:
S1、对客户投诉文本集进行预处理,得到预处理投诉文本集;
S2、根据预设的投诉文本的主题分类设计投诉分类标签,并将预处理投诉文本集打上相应的投诉分类标签,得到训练样本集;
S3、采用BTM主题模型对训练样本集进行文本特征提取,得到文本特征向量;
S4、采用卷积神经网络对训练样本集进行文本特征提取,得到卷积语义特征向量;
S5、采用归一化组合策略对文本特征向量和卷积语义特征向量进行归一化并融合,得到组合文本特征向量;
S6、将组合文本特征向量输入随机森林模型进行训练,根据不同决策树的差异性,采用加权法将多个决策树的分类结果进行组合,将组合后概率最大的类别作为训练样本集的文本分类结果并输出。
2.根据权利要求1所述的基于深度集成学习的投诉短文本分类方法,其特征在于,步骤S1,具体包括:
对客户投诉文本集中客户投诉文本进行文本筛选、脱敏处理、去除停用词、过滤敏感词、建立自定义词典,得到预处理投诉文本集。
3.根据权利要求1所述的基于深度集成学习的投诉短文本分类方法,其特征在于,步骤S3,具体包括:
采用BTM主题模型在训练样本集中寻找词对,并去除与预设的停用词或短文本匹配的停用词和短文本;
采用BTM主题模型无监督学习获得主题-词和文档-主题概率分布,并通过吉布斯采样获得文本特征向量。
4.根据权利要求1所述的基于深度集成学习的投诉短文本分类方法,其特征在于,步骤S4,具体包括:
采用卷积神经网络将训练样本集映射为词向量矩阵,经过卷积与池化提取特征值,得到卷积语义特征向量。
5.根据权利要求1所述的基于深度集成学习的投诉短文本分类方法,其特征在于,步骤S5,具体包括:
通过以下公式对文本特征向量和卷积语义特征向量进行归一化并融合,得到组合文本特征向量其中,zm为文本m的卷积语义特征向量,θm为文本m的文本特征向量。
6.根据权利要求1所述的基于深度集成学习的投诉短文本分类方法,其特征在于,步骤S6中,所述随机森林模型,具体包括:
采用分类回归树算法决策树作为基分类器,以Gini指数作为分裂标准选取划分属性,生成多棵决策树组成随机森林;
根据不同决策树的差异性,以每颗决策树的分类准确率作为该决策树的权重,采用加权法将多个决策树的分类结果进行组合;
将组合后概率最大的类别作为训练样本集的文本分类结果并输出。
CN201811621438.6A 2018-12-28 2018-12-28 一种基于深度集成学习的投诉短文本分类方法 Pending CN109739986A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811621438.6A CN109739986A (zh) 2018-12-28 2018-12-28 一种基于深度集成学习的投诉短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811621438.6A CN109739986A (zh) 2018-12-28 2018-12-28 一种基于深度集成学习的投诉短文本分类方法

Publications (1)

Publication Number Publication Date
CN109739986A true CN109739986A (zh) 2019-05-10

Family

ID=66361789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811621438.6A Pending CN109739986A (zh) 2018-12-28 2018-12-28 一种基于深度集成学习的投诉短文本分类方法

Country Status (1)

Country Link
CN (1) CN109739986A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110289098A (zh) * 2019-05-17 2019-09-27 天津科技大学 一种基于临床检验和用药干预数据的风险预测方法
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110427959A (zh) * 2019-06-14 2019-11-08 合肥工业大学 投诉文本的分类方法、系统和存储介质
CN110472056A (zh) * 2019-08-21 2019-11-19 北京美住美宿科技有限公司 一种评论数据分类方法及系统
CN110472053A (zh) * 2019-08-05 2019-11-19 广联达科技股份有限公司 一种面向公共资源招投标公告数据的自动分类方法及其系统
CN110472045A (zh) * 2019-07-11 2019-11-19 中山大学 一种基于文档嵌入的短文本虚假问题分类预测方法及装置
CN110490686A (zh) * 2019-07-08 2019-11-22 西北大学 一种基于时间感知的商品评分模型构建、推荐方法及系统
CN110516748A (zh) * 2019-08-29 2019-11-29 泰康保险集团股份有限公司 业务处理方法、装置、介质及电子设备
CN111160439A (zh) * 2019-12-24 2020-05-15 西北工业大学 一种无人机系统自主能力评价方法、系统及可读存储介质
CN111159770A (zh) * 2019-12-31 2020-05-15 医渡云(北京)技术有限公司 文本数据脱敏方法、装置、介质及电子设备
CN111539612A (zh) * 2020-04-17 2020-08-14 支付宝(杭州)信息技术有限公司 一种风险分类模型的训练方法和系统
CN111611388A (zh) * 2020-05-29 2020-09-01 北京学之途网络科技有限公司 账号分类方法、装置和设备
CN111625650A (zh) * 2020-06-01 2020-09-04 领猎网络科技(上海)有限公司 一种文本归类方法
CN112307157A (zh) * 2019-07-29 2021-02-02 普天信息技术有限公司 申诉意见挖掘方法和装置
CN112632971A (zh) * 2020-12-18 2021-04-09 上海明略人工智能(集团)有限公司 一种用于实体匹配的词向量训练方法与系统
CN112860893A (zh) * 2021-02-08 2021-05-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN107766883A (zh) * 2017-10-13 2018-03-06 华中师范大学 一种基于加权决策树的优化随机森林分类方法及系统
US20180196815A1 (en) * 2012-03-13 2018-07-12 Oath Inc. Personalization of news articles based on news sources
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、系统及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180196815A1 (en) * 2012-03-13 2018-07-12 Oath Inc. Personalization of news articles based on news sources
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN107766883A (zh) * 2017-10-13 2018-03-06 华中师范大学 一种基于加权决策树的优化随机森林分类方法及系统
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、系统及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张芸: "基于BTM主题模型特征扩展的短文本相似度计算", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈培新等: "融合潜在主题信息和卷积语义特征的文本主题分类", 《信号处理》 *
马晓东: "基于加权决策树的随机森林模型优化", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110289098A (zh) * 2019-05-17 2019-09-27 天津科技大学 一种基于临床检验和用药干预数据的风险预测方法
CN110289098B (zh) * 2019-05-17 2022-11-25 天津科技大学 一种基于临床检验和用药干预数据的风险预测方法
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110427959A (zh) * 2019-06-14 2019-11-08 合肥工业大学 投诉文本的分类方法、系统和存储介质
CN110490686A (zh) * 2019-07-08 2019-11-22 西北大学 一种基于时间感知的商品评分模型构建、推荐方法及系统
CN110472045A (zh) * 2019-07-11 2019-11-19 中山大学 一种基于文档嵌入的短文本虚假问题分类预测方法及装置
CN110472045B (zh) * 2019-07-11 2023-02-03 中山大学 一种基于文档嵌入的短文本虚假问题分类预测方法及装置
CN112307157A (zh) * 2019-07-29 2021-02-02 普天信息技术有限公司 申诉意见挖掘方法和装置
CN110472053A (zh) * 2019-08-05 2019-11-19 广联达科技股份有限公司 一种面向公共资源招投标公告数据的自动分类方法及其系统
CN110472056A (zh) * 2019-08-21 2019-11-19 北京美住美宿科技有限公司 一种评论数据分类方法及系统
CN110516748A (zh) * 2019-08-29 2019-11-29 泰康保险集团股份有限公司 业务处理方法、装置、介质及电子设备
CN111160439A (zh) * 2019-12-24 2020-05-15 西北工业大学 一种无人机系统自主能力评价方法、系统及可读存储介质
CN111159770A (zh) * 2019-12-31 2020-05-15 医渡云(北京)技术有限公司 文本数据脱敏方法、装置、介质及电子设备
CN111159770B (zh) * 2019-12-31 2022-12-13 医渡云(北京)技术有限公司 文本数据脱敏方法、装置、介质及电子设备
CN111539612A (zh) * 2020-04-17 2020-08-14 支付宝(杭州)信息技术有限公司 一种风险分类模型的训练方法和系统
CN111539612B (zh) * 2020-04-17 2022-04-01 支付宝(杭州)信息技术有限公司 一种风险分类模型的训练方法和系统
CN111611388A (zh) * 2020-05-29 2020-09-01 北京学之途网络科技有限公司 账号分类方法、装置和设备
CN111625650A (zh) * 2020-06-01 2020-09-04 领猎网络科技(上海)有限公司 一种文本归类方法
CN112632971A (zh) * 2020-12-18 2021-04-09 上海明略人工智能(集团)有限公司 一种用于实体匹配的词向量训练方法与系统
CN112632971B (zh) * 2020-12-18 2023-08-25 上海明略人工智能(集团)有限公司 一种用于实体匹配的词向量训练方法与系统
CN112860893A (zh) * 2021-02-08 2021-05-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备
CN112860893B (zh) * 2021-02-08 2023-02-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备

Similar Documents

Publication Publication Date Title
CN109739986A (zh) 一种基于深度集成学习的投诉短文本分类方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
US11341330B1 (en) Applied artificial intelligence technology for adaptive natural language understanding with term discovery
Inzalkar et al. A survey on text mining-techniques and application
Tiedemann et al. Efficient discrimination between closely related languages
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
US20060089924A1 (en) Document categorisation system
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN109670014B (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
CN105335352A (zh) 基于微博情感的实体识别方法
CN105260437A (zh) 文本分类特征选择方法及其在生物医药文本分类中的应用
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN110222250B (zh) 一种面向微博的突发事件触发词识别方法
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN110472257A (zh) 一种基于句对的机器翻译引擎测评优选方法及系统
Bolaj et al. Text classification for Marathi documents using supervised learning methods
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN109299251A (zh) 一种基于深度学习算法的异常垃圾短信识别方法及系统
Keya et al. Fake news detection based on deep learning
Alam et al. Social media content categorization using supervised based machine learning methods and natural language processing in bangla language
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN109543049B (zh) 一种针对写作特点自动推送素材的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190510

RJ01 Rejection of invention patent application after publication