CN109657061B - 一种针对海量多词短文本的集成分类方法 - Google Patents

一种针对海量多词短文本的集成分类方法 Download PDF

Info

Publication number
CN109657061B
CN109657061B CN201811573390.6A CN201811573390A CN109657061B CN 109657061 B CN109657061 B CN 109657061B CN 201811573390 A CN201811573390 A CN 201811573390A CN 109657061 B CN109657061 B CN 109657061B
Authority
CN
China
Prior art keywords
word
short text
vector
ith
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811573390.6A
Other languages
English (en)
Other versions
CN109657061A (zh
Inventor
胡学钢
唐雪涛
朱毅
李培培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201811573390.6A priority Critical patent/CN109657061B/zh
Publication of CN109657061A publication Critical patent/CN109657061A/zh
Application granted granted Critical
Publication of CN109657061B publication Critical patent/CN109657061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对海量多词短文本的集成分类方法,包括:1获取多词短文本集合,并对多词短文本进行分词预处理;2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型;3基于词向量表示模型,利用Sentence2vec句向量表示方法中的PV‑DM模型,构建句向量表示;4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,具有较高的鲁棒性和实用性。

Description

一种针对海量多词短文本的集成分类方法
技术领域
本发明涉及文本表示和表示学习方法领域,具体是一种针对海量多词短文本的集成分类方法。
背景技术
随着商品经济的不断繁荣,各种新兴商品、服务不断涌现。依据国家规定,企业和个人在经营中需按照要求开具增值税发票,开具发票时票面上的商品应与税务总局核定的税收编码进行关联。然而,税务总局核定的税收编码有4200余类,种类繁多,传统的由人工手动选择税收分类编码的方式不仅要求纳税人有一定的专业知识,还容易出现填写错误的情况,增加企业经营时间成本,造成经济损失。随着信息化时代的到来,计算机技术的发展和数据资源的爆炸性增长,为解决这类问题提供了方法。
税收编码分类任务是要依据货物名称将货物和正确的税收分类编码进行匹配,本质上是文本分类问题,人工输入的货物名称较为混乱,长则数十字,短则两三个字,其中夹杂数字和各种符号。极短的不规则的文本为分类任务带来了难度。同时,分类任务需要处理650万经过人工标记的数据和1000万未标记数据,海量的数据也为表示学习带来了困难。在一些情况下,货物名称中很大一部分都是无用信息,通过提取关键词可以更好的对货物进行描述,例如“晨光(M&G)E01精英系列按动子弹头中性笔签字笔水笔0.5mm12支/盒黑色AGP89703”。但还有一些情况难以利用提取关键词的方法,例如“医用植入钢钉”,如果采取关键词方法,将“钢钉”作为关键字,最终的落点是归属建筑材料,造成错误。还有类似“滑板砖真空-压力沥青浸煮设备”和“精加工成品”的货物名称,难以找到合适的关键词或者信息过少,难以通过提取关键词的方法获得有效信息。最终我们采取了将货物名称作为一个整体进行文本表示学习,用于表示货物名称,以进一步进行分类。表示学习作为机器学习的基础,其结果直接影响着整个系统的分类效果。
针对文本表示学习方法,研究者们提出了许多方法。独热表示(one-hotrepresentation)将词语表示为向量,向量上只有某一维非零表示该词出现,其余维度上值均为零。Josef等人基于自然语言处理模型提出了词袋模型(Bag of Words),在one-hotrepresentation的基础上,词袋模型进一步考虑了词频因素,在对一段文本进行分词后,用向量对其进行表示,将词语出现的频数记录在向量上。独热表示和词袋模型的向量维度取决于整个文本的词汇数,在处理大规模数据时,维度过大难以处理。Sklearn提供了HashingVectorizer通过哈希函数映射来降低向量的维度。然而以上的表示学习方法表示的词向量之间是孤立的,都无法对到词汇之间的关系进行描述。另外虽然Hashing Vectorizer采取了降维的方法,但由于生成的是高维稀疏的向量,在处理大规模数据时仍然容易带来“维数灾难”问题。“维数灾难”是指在高维情况下出现数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍。
发明内容
本发明为解决上述现有技术的不足之处,提供一种针对海量多词短文本的集成分类方法,以期能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,并具有较高的鲁棒性和实用性。
为了达到上述目的,本发明所采用的技术方案为:
本发明一种针对海量多词短文本的集成分类方法的特点在于包括以下步骤:
步骤1、获取多词短文本集合,并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理,得到分词结果X={x1,x2,…,xi,…,xM+N},xi表示分词后的第i条短文本,并有:
Figure GDA0002663447590000021
Figure GDA0002663447590000022
表示第i条短文本xi中第k个词,所述分词结果X是由有标记的分词集合
Figure GDA0002663447590000023
和无标记的分词集合
Figure GDA0002663447590000024
构成,其中,
Figure GDA0002663447590000025
表示分词后的第m条有标记的短文本,且所述第m条有标记的短文本
Figure GDA0002663447590000026
所对应的类别记为ym
Figure GDA0002663447590000027
表示分词后的第n条无标记的短文本;m=1,2,…,M,n=1,2,…,N,k=1,2,…,K,i=1,2,…,M+N;
步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V:
步骤2.1、遍历所述分词结果X,并利用所述分词结果X中不同的词构造词典
Figure GDA0002663447590000028
步骤2.2、定义窗口大小为2c,向量维度为s;
步骤2.3、获取所述第i条短文本xi中第k个词
Figure GDA0002663447590000029
的上下文内容,记为
Figure GDA00026634475900000210
Figure GDA00026634475900000211
并将所述第i条短文本xi中第k个词
Figure GDA00026634475900000212
随机初始化为独热向量
Figure GDA00026634475900000213
从而随机初始化上下文内容
Figure GDA00026634475900000214
步骤2.4、以所述第i条短文本xi中第k个词
Figure GDA00026634475900000215
为目标词,并令目标词
Figure GDA00026634475900000216
为正样本,所述词典
Figure GDA00026634475900000217
中的其他词为负样本,并从负样本中选取部分词作为所述目标词
Figure GDA00026634475900000218
的负样本子集
Figure GDA00026634475900000219
步骤2.5、利用式(1)得到所述词典
Figure GDA0002663447590000031
中任意一个词w的标签L(w):
Figure GDA0002663447590000032
步骤2.6、最大化式(2)所示的目标词
Figure GDA0002663447590000033
的目标函数
Figure GDA0002663447590000034
Figure GDA0002663447590000035
式(2)中,u表示负样本子集
Figure GDA0002663447590000036
和目标词
Figure GDA0002663447590000037
所构成的集合中任意一个词;
Figure GDA0002663447590000038
表示词u在上下文内容
Figure GDA0002663447590000039
时出现的概率,并有:
Figure GDA00026634475900000310
式(3)中,θu表示词u对应的辅助向量,且
Figure GDA00026634475900000311
σ(·)表示Sigmoid函数;
Figure GDA00026634475900000312
表示词u的标签;
步骤2.7、通过随机梯度上升法对式(2)进行优化求解,得到优化后的第i条短文本xi中第k个词
Figure GDA00026634475900000313
的稠密向量
Figure GDA00026634475900000314
步骤2.8、根据2.3-步骤2.7,获得所述词典
Figure GDA00026634475900000315
中其他词的稠密向量,从而构成词向量表示模型V;
步骤3、基于所述词向量表示模型V,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示:
步骤3.1、将所述第i条短文本中第k个词
Figure GDA00026634475900000319
再次随机初始化为独热向量
Figure GDA00026634475900000316
从而随机初始化上下文内容
Figure GDA00026634475900000317
并初始化PV-DM模型中的参数;
步骤3.2、令ID(xi)表示第i条短文本xi的编号,d(xi)表示第i条短文本xi的编码向量,并利用式(4)得到第i条短文本xi的输入向量Wi
Figure GDA00026634475900000318
步骤3.3、将所述第i条短文本xi的输入向量Wi输入PV-DM模型的输入层中,由PV-DM模型的输出层得到第i棵二元Huffman编码树;
步骤3.4、根据所述第i棵二元Huffman编码树,利用Softmax函数计算给定目标词
Figure GDA0002663447590000041
在数据集合
Figure GDA0002663447590000042
中出现的概率
Figure GDA0002663447590000043
步骤3.5、利用式(5)得到优化的目标函数为:
Figure GDA0002663447590000044
步骤3.6、根据所述词向量表示模型V,通过随机梯度上升法对式(5)进行优化求解,得到第i条短文本xi的向量表示v(xi);从而得到分词结果X中每条短文本的向量表示;
步骤4、利用有标记的分词集合
Figure GDA0002663447590000045
中每条短文本的向量表示训练kNN分类器,得到训练后的分类器;并利用所述训练后的分类器对未标记的分词集合
Figure GDA0002663447590000046
中第n条无标记的短文本
Figure GDA0002663447590000047
与所述有标记的分词集合
Figure GDA00026634475900000410
中每条有标记的短文本的欧氏距离进行计算,选取最小欧式距离所对应的有标记的短文本的类别作为第n条无标记的短文本
Figure GDA0002663447590000048
的类别,从而实现对未标记的分词集合
Figure GDA0002663447590000049
的分类。
与现有技术相比,本发明的有益效果在于:
1、本发明方法从深度学习的角度出发,针对传统表示学习方法的“维数灾难”问题,设计了一种针对海量多词短文本的集成分类方法,在海量数据上训练得到的Word2vec词向量表示模型基础上,通过Sentence2vec句向量表示模型将短文本整体表示为稠密低维向量,获得了较为有效的表示,降低了短文本表示向量维度,避免了“维度灾难”问题,提高了文本表示效果,在分类器模型下取得了较好的分类结果。
2、本发明解决文本表示学习这一重要实际问题,通过在税收编码分类任务的1650万真实数据集上的实验结果表明,该方法可有效地提高海量多词短文本的分类效果。本发明可以直接应用在各种情况下的文本分类应用中,有着重要的应用价值,一旦研究成功并投入应用,将产生巨大的社会和经济效益。
附图说明
图1为本发明方法流程图;
图2为现有技术中CBOW模型层次结构示意图;
图3为现有技术中Skip-gram模型层次结构示意图;
图4为本发明中PV-DM模型层次结构示意图;
图5为本发明中PV-DBOW模型层次结构示意图;
图6为本发明在税收编码分类任务的1650万真实数据集上的分类实验结果图。
具体实施方式
本实施例中,一种针对海量多词短文本的集成分类方法,如图1所示,包括以下步骤:
步骤1、获取多词短文本集合,如表1所示,并利用jieba_fast分词方法在多进程的精准模式下对多词短文本集合进行分词处理,jieba_fast是一种基于jieba分词的改进版本,可以大幅度提升大数据量下的分词速度。采用多进程分词方法,提高CPU和内存的利用率,并通过添加自定义词库的方式增加分词精度,最终得到分词结果X={x1,x2,…,xi,…,xM+N},xi表示分词后的第i条短文本,并有:
Figure GDA0002663447590000051
Figure GDA0002663447590000052
表示第i条短文本xi中第k个词,分词结果X是由如表2所示的有标记的分词集合
Figure GDA0002663447590000053
和如表3所示的无标记的分词集合
Figure GDA0002663447590000054
构成,其中,
Figure GDA0002663447590000055
表示分词后的第m条有标记的短文本,且第m条有标记的短文本
Figure GDA0002663447590000056
所对应的类别记为ym,所有类别集合Y={y1,y2,…,ym,…,yM},
Figure GDA0002663447590000057
表示分词后的第n条无标记的短文本;m=1,2,…,M,n=1,2,…,N,k=1,2,…,K,i=1,2,…,M+N;
Figure GDA0002663447590000058
Figure GDA0002663447590000061
Figure GDA0002663447590000062
步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V,Word2vec词向量表示方法有CBOW(Continuous Bag-of-Words)连续词袋模型和连续Skip-gram模型两个模型,如图2和图3所示,本发明采用CBOW模型对海量货物名称数据进行训练:
步骤2.1、遍历分词结果X,并利用分词结果X中不同的词构造词典
Figure GDA0002663447590000063
步骤2.2、定义窗口大小为2c,向量维度为s;
步骤2.3、获取第i条短文本xi中第k个词
Figure GDA0002663447590000064
的上下文内容,记为
Figure GDA0002663447590000065
Figure GDA0002663447590000066
并将第i条短文本xi中第k个词
Figure GDA0002663447590000067
随机初始化为独热向量
Figure GDA0002663447590000068
从而随机初始化上下文内容
Figure GDA0002663447590000069
步骤2.4、Negative Sample(简称为NEG)负采样方法是一种在Word2vec上的加速方法,它是NCE(Noise Contrastive Estimation)的一个简化版本,是用来提高训练速度并改善所得词向量的质量。与分词Softmax相比,NEG不再使用复杂的Huffman树,而是利用相对简单的随机负采样,能大幅度提高性能,因而可作为分层Softmax的一种替代。以第i条短文本xi中第k个词
Figure GDA00026634475900000610
为目标词,并令目标词
Figure GDA00026634475900000611
为正样本,词典
Figure GDA00026634475900000612
中的其他词为负样本,并从负样本中选取部分词作为目标词
Figure GDA0002663447590000071
的负样本子集
Figure GDA0002663447590000072
词典
Figure GDA0002663447590000073
中的词在分词结果X中出现的次数有高有低,对于那些高频词,被选为负样本的概率就应该比较大,反之,对于那些低频词,其被选中的概率就应该比较小。采样问题本质是一个带权采样问题。
在采样过程中,记
Figure GDA0002663447590000074
其中
Figure GDA0002663447590000075
这里wj表示词典
Figure GDA0002663447590000076
中第j个词,D表示词典
Figure GDA0002663447590000077
中单词总数,词典
Figure GDA0002663447590000078
中任意一个词w,counter(·)表示一个词在分词结果X中出现的次数。则以
Figure GDA0002663447590000079
为剖分节点可得到区间[0,1]上的一个非等距剖分,Si=(si-1,si],i=1,2,…,D为其D个剖分区间。进一步引入区间[0,1]上的一个等距离剖分,剖分节点为
Figure GDA00026634475900000710
其中M>>D。
将内部剖分节点
Figure GDA00026634475900000711
投影到非等距剖分上,可建立
Figure GDA00026634475900000712
与区间
Figure GDA00026634475900000713
的映射关系:
Table(k)=wi,where tk∈Si,i=1,2,…,M-1
依据映射关系,每次生成一个[1,M-1]间的随机整数r,Table(r)即为一个样本。
步骤2.5、利用式(6)得到词典
Figure GDA00026634475900000714
中任意一个词w的标签L(w):
Figure GDA00026634475900000715
步骤2.6、最大化式(7)所示的目标词
Figure GDA00026634475900000716
的目标函数
Figure GDA00026634475900000717
Figure GDA00026634475900000718
式(7)中,u表示负样本子集
Figure GDA00026634475900000719
和目标词
Figure GDA00026634475900000720
所构成的集合中任意一个词;
Figure GDA00026634475900000721
表示词u在上下文内容
Figure GDA00026634475900000722
时出现的概率,并有:
Figure GDA00026634475900000723
式(8)中,
Figure GDA00026634475900000724
θu表示词u对应的辅助向量,且
Figure GDA00026634475900000725
σ(·)表示Sigmoid函数;
Figure GDA0002663447590000081
表示词u的标签;
步骤2.7、通过随机梯度上升法对式(7)进行优化求解,随机梯度上升法是每取一个样本
Figure GDA0002663447590000082
就对目标函数中的所有(相关)参数做一次刷新。设
Figure GDA0002663447590000083
将其作为整体优化函数:
Figure GDA0002663447590000084
利用随机梯度上升法对式(9)进行优化,得到更新公式:
Figure GDA0002663447590000085
式(10)中η表示学习率。依据式(10)得到优化后的第i条短文本xi中第k个词
Figure GDA0002663447590000086
的稠密向量
Figure GDA0002663447590000087
步骤2.8、根据2.3-步骤2.7,获得词典
Figure GDA0002663447590000088
中其他词的稠密向量,从而构成词向量表示模型V;
步骤3、Sentence2vec模型引入了一个段落向量,实现了对可变长度文本片段的连续分布式向量表示,即该方法可以用于短语或句子到大文档的向量表示。Sentence2vec也有两个模型,分别是PV-DM(Distributed Memory version of Paragraph Vector)和PV-DBOW(Distributed Bag of Words version of Paragraph Vector),如图4和图5所示。本发明基于词向量表示模型V,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示:
步骤3.1、将第i条短文本中第k个词
Figure GDA0002663447590000089
再次随机初始化为独热向量
Figure GDA00026634475900000810
从而随机初始化上下文内容
Figure GDA00026634475900000811
并初始化PV-DM模型中的参数;
步骤3.2、令ID(xi)表示第i条短文本xi的编号,d(xi)表示第i条短文本xi的编码向量,并利用式(11)得到第i条短文本xi的输入向量Wi
Figure GDA0002663447590000091
步骤3.3、将第i条短文本xi的输入向量Wi输入PV-DM模型的输入层中,由PV-DM模型的输出层得到第i棵二元Huffman编码树。对构造的Huffman树进一步采取分层Softmax结构,提高性能。对Huffman树的某个叶子节点,将一个节点进行分类时,分到左边是负类,分到右边是正类,假设该节点对应词典
Figure GDA0002663447590000092
中的词w,记:
1.pw:从根结点出发到达w对应的叶子结点的路径;
2.nw:路径pw中包含的结点个数;
3.
Figure GDA0002663447590000093
路径pw中的nw个结点其中
Figure GDA0002663447590000094
表示根结点,
Figure GDA0002663447590000095
表示词w对应的结点。
4.
Figure GDA0002663447590000096
w词的Huffman编码,它由lw-1位编码构成,
Figure GDA0002663447590000097
表示路径pw中第j个结点对应的编码(根结点不对应编码);
5.
Figure GDA0002663447590000098
路径pw中非叶子结点对应的向量,
Figure GDA0002663447590000099
表示路径pw中第j个非叶子结点对应的向量。
在Word2vec中将编码为1的结点定义为负类,将编码为0的结点定义为正类,约定
Figure GDA00026634475900000910
步骤3.4、根据第i棵二元Huffman编码树,利用Softmax函数计算给定目标词
Figure GDA00026634475900000911
在数据集合
Figure GDA00026634475900000912
中出现的概率:
Figure GDA00026634475900000913
式(12)中
Figure GDA00026634475900000914
或写成整体表达式
Figure GDA00026634475900000915
步骤3.5、利用式(13)得到优化的目标函数为:
Figure GDA0002663447590000101
步骤3.6、根据词向量表示模型V,通过随机梯度上升法对式(13)进行优化求解:
Figure GDA0002663447590000102
利用随机梯度上升法对式(14)进行优化,得到更新公式:
Figure GDA0002663447590000103
根据式(15)得到第i条短文本xi的向量表示v(xi);从而得到分词结果X中每条短文本的向量表示,形如[-0.04007446,0.02008997,……-0.01132657,-0.0229446];
步骤4、利用有标记的分词集合
Figure GDA0002663447590000104
中每条短文本的向量表示训练kNN分类器,得到训练后的分类器;并利用训练后的分类器对未标记的分词集合
Figure GDA0002663447590000105
中第n条无标记的短文本
Figure GDA0002663447590000106
与有标记的分词集合
Figure GDA0002663447590000107
中每条有标记的短文本的欧氏距离进行计算,选取最小欧式距离所对应的有标记的短文本的类别作为第n条无标记的短文本
Figure GDA0002663447590000108
的类别,从而实现对未标记的分词集合
Figure GDA0002663447590000109
的分类。
针对本发明方法进行实验论证,具体包括:
1、数据预处理:
税收编码分类任务的1650万真实数据集是来自真实税务发票系统的650万经过人工标记的数据和1000万未标记数据,共有4200余类标签。
2、评价指标:
本发明使用目前文本分类领域常用的评价指标:正确率(Precision),召回率(Recall)和Micro-F1值来评价分类效果,计算公式如式(16)、式(17)和式(18)所示:
Figure GDA0002663447590000111
Figure GDA0002663447590000112
Figure GDA0002663447590000113
Figure GDA0002663447590000114
Figure GDA0002663447590000115
Figure GDA0002663447590000116
3、实验流程
如图1所示,针对税收编码分类任务的1650万真实数据集进行数据预处理,为了训练更好的特征,先对有标记数据集和未标记数据集进行预处理,去除无用的数据项,例如货物单位,编码名称等。在数据预处理后,采用jieba_fast在多线程下的精准模式对货物名称进行分词。对分词处理过后的货物名称首先采用数据驱动的方法,在大量货物名称样本上训练得到Word2vec词向量表示模型。运用Word2vec模型中每个词的向量表示,在有标记数据和未标记数据上,通过Sentence2vec句向量表示模型将每个货物名称整体表示为一个稠密低维的向量。在有标记数据上,运用训练得到的向量表示和标记编码训练kNN分类器,得到分类器模型。在未标记数据上运用训练得到的向量表示和分类器模型,得到未标记数据的预测分类编码。
4、实验结果
为了验证本发明所提方法的有效性,本发明在税收编码分类任务数据集的不同数据量下进行了实验。实验结果如图6所示,随着数据量的增加,分类正确率虽有一定的波动但仍然保持在90%以上,实验结果验证了本发明方法的有效性。

Claims (1)

1.一种针对海量多词短文本的集成分类方法,其特征在于包括以下步骤:
步骤1、获取多词短文本集合,并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理,得到分词结果X={x1,x2,…,xi,…,xM+N},xi表示分词后的第i条短文本,并有:
Figure FDA0002663447580000011
Figure FDA0002663447580000012
表示第i条短文本xi中第k个词,所述分词结果X是由有标记的分词集合
Figure FDA0002663447580000013
和无标记的分词集合
Figure FDA0002663447580000014
构成,其中,
Figure FDA0002663447580000015
表示分词后的第m条有标记的短文本,且所述第m条有标记的短文本
Figure FDA0002663447580000016
所对应的类别记为ym
Figure FDA0002663447580000017
表示分词后的第n条无标记的短文本;m=1,2,…,M,n=1,2,…,N,k=1,2,…,K,i=1,2,…,M+N;
步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V:
步骤2.1、遍历所述分词结果X,并利用所述分词结果X中不同的词构造词典
Figure FDA0002663447580000018
步骤2.2、定义窗口大小为2c,向量维度为s;
步骤2.3、获取所述第i条短文本xi中第k个词
Figure FDA0002663447580000019
的上下文内容,记为
Figure FDA00026634475800000110
Figure FDA00026634475800000111
并将所述第i条短文本xi中第k个词
Figure FDA00026634475800000112
随机初始化为独热向量
Figure FDA00026634475800000113
从而随机初始化上下文内容
Figure FDA00026634475800000114
步骤2.4、以所述第i条短文本xi中第k个词
Figure FDA00026634475800000115
为目标词,并令目标词
Figure FDA00026634475800000116
为正样本,所述词典
Figure FDA00026634475800000117
中的其他词为负样本,并从负样本中选取部分词作为所述目标词
Figure FDA00026634475800000118
的负样本子集
Figure FDA00026634475800000119
步骤2.5、利用式(1)得到所述词典
Figure FDA00026634475800000120
中任意一个词w的标签L(w):
Figure FDA00026634475800000121
步骤2.6、最大化式(2)所示的目标词
Figure FDA00026634475800000122
的目标函数
Figure FDA00026634475800000123
Figure FDA00026634475800000124
式(2)中,u表示负样本子集
Figure FDA00026634475800000125
和目标词
Figure FDA00026634475800000126
所构成的集合中任意一个词;
Figure FDA0002663447580000021
表示词u在上下文内容
Figure FDA0002663447580000022
时出现的概率,并有:
Figure FDA0002663447580000023
式(3)中,θu表示词u对应的辅助向量,且
Figure FDA0002663447580000024
σ(·)表示Sigmoid函数;
Figure FDA0002663447580000025
表示词u的标签;
步骤2.7、通过随机梯度上升法对式(2)进行优化求解,得到优化后的第i条短文本xi中第k个词
Figure FDA0002663447580000026
的稠密向量
Figure FDA0002663447580000027
步骤2.8、根据2.3-步骤2.7,获得所述词典
Figure FDA0002663447580000028
中其他词的稠密向量,从而构成词向量表示模型V;
步骤3、基于所述词向量表示模型V,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示:
步骤3.1、将所述第i条短文本中第k个词
Figure FDA0002663447580000029
再次随机初始化为独热向量
Figure FDA00026634475800000210
从而随机初始化上下文内容
Figure FDA00026634475800000211
并初始化PV-DM模型中的参数;
步骤3.2、令ID(xi)表示第i条短文本xi的编号,d(xi)表示第i条短文本xi的编码向量,并利用式(4)得到第i条短文本xi的输入向量Wi
Figure FDA00026634475800000212
步骤3.3、将所述第i条短文本xi的输入向量Wi输入PV-DM模型的输入层中,由PV-DM模型的输出层得到第i棵二元Huffman编码树;
步骤3.4、根据所述第i棵二元Huffman编码树,利用Softmax函数计算给定目标词
Figure FDA00026634475800000213
在数据集合
Figure FDA00026634475800000214
中出现的概率
Figure FDA00026634475800000215
步骤3.5、利用式(5)得到优化的目标函数为:
Figure FDA00026634475800000216
步骤3.6、根据所述词向量表示模型V,通过随机梯度上升法对式(5)进行优化求解,得到第i条短文本xi的向量表示v(xi);从而得到分词结果X中每条短文本的向量表示;
步骤4、利用有标记的分词集合
Figure FDA0002663447580000031
中每条短文本的向量表示训练kNN分类器,得到训练后的分类器;并利用所述训练后的分类器对未标记的分词集合
Figure FDA0002663447580000032
中第n条无标记的短文本
Figure FDA0002663447580000033
与所述有标记的分词集合
Figure FDA0002663447580000034
中每条有标记的短文本的欧氏距离进行计算,选取最小欧式距离所对应的有标记的短文本的类别作为第n条无标记的短文本
Figure FDA0002663447580000035
的类别,从而实现对未标记的分词集合
Figure FDA0002663447580000036
的分类。
CN201811573390.6A 2018-12-21 2018-12-21 一种针对海量多词短文本的集成分类方法 Active CN109657061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811573390.6A CN109657061B (zh) 2018-12-21 2018-12-21 一种针对海量多词短文本的集成分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811573390.6A CN109657061B (zh) 2018-12-21 2018-12-21 一种针对海量多词短文本的集成分类方法

Publications (2)

Publication Number Publication Date
CN109657061A CN109657061A (zh) 2019-04-19
CN109657061B true CN109657061B (zh) 2020-11-27

Family

ID=66116306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811573390.6A Active CN109657061B (zh) 2018-12-21 2018-12-21 一种针对海量多词短文本的集成分类方法

Country Status (1)

Country Link
CN (1) CN109657061B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052671B (zh) * 2019-06-06 2023-10-27 阿里巴巴集团控股有限公司 负样本采样方法、文本处理方法、装置、设备及介质
CN110569330A (zh) * 2019-07-18 2019-12-13 华瑞新智科技(北京)有限公司 一种基于智能选词的文本标注系统及装置、设备、介质
CN113157901B (zh) * 2020-01-22 2024-02-23 腾讯科技(深圳)有限公司 用户产生内容过滤方法及相关装置
CN111259658B (zh) * 2020-02-05 2022-08-19 中国科学院计算技术研究所 一种基于类别稠密向量表示的通用文本分类方法及系统
CN113257410A (zh) * 2021-06-10 2021-08-13 南京大经中医药信息技术有限公司 一种基于中医临床医疗知识库和深度学习模型的问诊方法
CN114357171A (zh) * 2022-01-04 2022-04-15 中国建设银行股份有限公司 一种应急事件处理方法、装置、存储介质及电子设备
CN115099373B (zh) * 2022-08-26 2023-04-07 南京中孚信息技术有限公司 一种基于single-pass的文本聚类方法及其装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020712A (zh) * 2012-12-28 2013-04-03 东北大学 一种海量微博数据的分布式分类装置及方法
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN108268447A (zh) * 2018-01-22 2018-07-10 河海大学 一种藏文命名实体的标注方法
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、系统及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9575952B2 (en) * 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020712A (zh) * 2012-12-28 2013-04-03 东北大学 一种海量微博数据的分布式分类装置及方法
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN108268447A (zh) * 2018-01-22 2018-07-10 河海大学 一种藏文命名实体的标注方法
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、系统及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于文本语义离散度的自动作文评分关键技术研究;王耀华等;《中文信息学报》;20161130;第30卷(第6期);第173-181页 *
基于词向量的短文本分类方法研究;江大鹏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215;正文部分第34-44页 *

Also Published As

Publication number Publication date
CN109657061A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109657061B (zh) 一种针对海量多词短文本的集成分类方法
CN110532554B (zh) 一种中文摘要生成方法、系统及存储介质
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN108595706B (zh) 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN109190131B (zh) 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN109766277B (zh) 一种基于迁移学习与dnn的软件故障诊断方法
Alrobah et al. Arabic handwritten recognition using deep learning: A survey
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN105205124B (zh) 一种基于随机特征子空间的半监督文本情感分类方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN116070602B (zh) 一种pdf文档智能标注与抽取方法
CN112686044B (zh) 一种基于语言模型的医疗实体零样本分类方法
CN112905736B (zh) 一种基于量子理论的无监督文本情感分析方法
CN114969275A (zh) 一种基于银行知识图谱的对话方法及其系统
CN111753088A (zh) 一种自然语言信息的处理方法
CN115587207A (zh) 一种基于分类标签的深度哈希检索方法
CN113901211A (zh) 基于图注意力网络的多粒度汉越平行句对抽取方法
CN111881256A (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN110826298A (zh) 一种智能辅助定密系统中使用的语句编码方法
CN112784602A (zh) 基于远程监督的新闻情感实体抽取方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN115329120A (zh) 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构
CN110674293B (zh) 一种基于语义迁移的文本分类方法
CN111078874B (zh) 基于随机子空间的决策树分类的对外汉语难度评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant