CN109657061B - 一种针对海量多词短文本的集成分类方法 - Google Patents
一种针对海量多词短文本的集成分类方法 Download PDFInfo
- Publication number
- CN109657061B CN109657061B CN201811573390.6A CN201811573390A CN109657061B CN 109657061 B CN109657061 B CN 109657061B CN 201811573390 A CN201811573390 A CN 201811573390A CN 109657061 B CN109657061 B CN 109657061B
- Authority
- CN
- China
- Prior art keywords
- word
- short text
- vector
- ith
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对海量多词短文本的集成分类方法,包括:1获取多词短文本集合,并对多词短文本进行分词预处理;2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型;3基于词向量表示模型,利用Sentence2vec句向量表示方法中的PV‑DM模型,构建句向量表示;4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,具有较高的鲁棒性和实用性。
Description
技术领域
本发明涉及文本表示和表示学习方法领域,具体是一种针对海量多词短文本的集成分类方法。
背景技术
随着商品经济的不断繁荣,各种新兴商品、服务不断涌现。依据国家规定,企业和个人在经营中需按照要求开具增值税发票,开具发票时票面上的商品应与税务总局核定的税收编码进行关联。然而,税务总局核定的税收编码有4200余类,种类繁多,传统的由人工手动选择税收分类编码的方式不仅要求纳税人有一定的专业知识,还容易出现填写错误的情况,增加企业经营时间成本,造成经济损失。随着信息化时代的到来,计算机技术的发展和数据资源的爆炸性增长,为解决这类问题提供了方法。
税收编码分类任务是要依据货物名称将货物和正确的税收分类编码进行匹配,本质上是文本分类问题,人工输入的货物名称较为混乱,长则数十字,短则两三个字,其中夹杂数字和各种符号。极短的不规则的文本为分类任务带来了难度。同时,分类任务需要处理650万经过人工标记的数据和1000万未标记数据,海量的数据也为表示学习带来了困难。在一些情况下,货物名称中很大一部分都是无用信息,通过提取关键词可以更好的对货物进行描述,例如“晨光(M&G)E01精英系列按动子弹头中性笔签字笔水笔0.5mm12支/盒黑色AGP89703”。但还有一些情况难以利用提取关键词的方法,例如“医用植入钢钉”,如果采取关键词方法,将“钢钉”作为关键字,最终的落点是归属建筑材料,造成错误。还有类似“滑板砖真空-压力沥青浸煮设备”和“精加工成品”的货物名称,难以找到合适的关键词或者信息过少,难以通过提取关键词的方法获得有效信息。最终我们采取了将货物名称作为一个整体进行文本表示学习,用于表示货物名称,以进一步进行分类。表示学习作为机器学习的基础,其结果直接影响着整个系统的分类效果。
针对文本表示学习方法,研究者们提出了许多方法。独热表示(one-hotrepresentation)将词语表示为向量,向量上只有某一维非零表示该词出现,其余维度上值均为零。Josef等人基于自然语言处理模型提出了词袋模型(Bag of Words),在one-hotrepresentation的基础上,词袋模型进一步考虑了词频因素,在对一段文本进行分词后,用向量对其进行表示,将词语出现的频数记录在向量上。独热表示和词袋模型的向量维度取决于整个文本的词汇数,在处理大规模数据时,维度过大难以处理。Sklearn提供了HashingVectorizer通过哈希函数映射来降低向量的维度。然而以上的表示学习方法表示的词向量之间是孤立的,都无法对到词汇之间的关系进行描述。另外虽然Hashing Vectorizer采取了降维的方法,但由于生成的是高维稀疏的向量,在处理大规模数据时仍然容易带来“维数灾难”问题。“维数灾难”是指在高维情况下出现数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍。
发明内容
本发明为解决上述现有技术的不足之处,提供一种针对海量多词短文本的集成分类方法,以期能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,并具有较高的鲁棒性和实用性。
为了达到上述目的,本发明所采用的技术方案为:
本发明一种针对海量多词短文本的集成分类方法的特点在于包括以下步骤:
步骤1、获取多词短文本集合,并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理,得到分词结果X={x1,x2,…,xi,…,xM+N},xi表示分词后的第i条短文本,并有: 表示第i条短文本xi中第k个词,所述分词结果X是由有标记的分词集合和无标记的分词集合构成,其中,表示分词后的第m条有标记的短文本,且所述第m条有标记的短文本所对应的类别记为ym,表示分词后的第n条无标记的短文本;m=1,2,…,M,n=1,2,…,N,k=1,2,…,K,i=1,2,…,M+N;
步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V:
步骤2.2、定义窗口大小为2c,向量维度为s;
步骤3、基于所述词向量表示模型V,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示:
步骤3.2、令ID(xi)表示第i条短文本xi的编号,d(xi)表示第i条短文本xi的编码向量,并利用式(4)得到第i条短文本xi的输入向量Wi:
步骤3.3、将所述第i条短文本xi的输入向量Wi输入PV-DM模型的输入层中,由PV-DM模型的输出层得到第i棵二元Huffman编码树;
步骤3.5、利用式(5)得到优化的目标函数为:
步骤3.6、根据所述词向量表示模型V,通过随机梯度上升法对式(5)进行优化求解,得到第i条短文本xi的向量表示v(xi);从而得到分词结果X中每条短文本的向量表示;
步骤4、利用有标记的分词集合中每条短文本的向量表示训练kNN分类器,得到训练后的分类器;并利用所述训练后的分类器对未标记的分词集合中第n条无标记的短文本与所述有标记的分词集合中每条有标记的短文本的欧氏距离进行计算,选取最小欧式距离所对应的有标记的短文本的类别作为第n条无标记的短文本的类别,从而实现对未标记的分词集合的分类。
与现有技术相比,本发明的有益效果在于:
1、本发明方法从深度学习的角度出发,针对传统表示学习方法的“维数灾难”问题,设计了一种针对海量多词短文本的集成分类方法,在海量数据上训练得到的Word2vec词向量表示模型基础上,通过Sentence2vec句向量表示模型将短文本整体表示为稠密低维向量,获得了较为有效的表示,降低了短文本表示向量维度,避免了“维度灾难”问题,提高了文本表示效果,在分类器模型下取得了较好的分类结果。
2、本发明解决文本表示学习这一重要实际问题,通过在税收编码分类任务的1650万真实数据集上的实验结果表明,该方法可有效地提高海量多词短文本的分类效果。本发明可以直接应用在各种情况下的文本分类应用中,有着重要的应用价值,一旦研究成功并投入应用,将产生巨大的社会和经济效益。
附图说明
图1为本发明方法流程图;
图2为现有技术中CBOW模型层次结构示意图;
图3为现有技术中Skip-gram模型层次结构示意图;
图4为本发明中PV-DM模型层次结构示意图;
图5为本发明中PV-DBOW模型层次结构示意图;
图6为本发明在税收编码分类任务的1650万真实数据集上的分类实验结果图。
具体实施方式
本实施例中,一种针对海量多词短文本的集成分类方法,如图1所示,包括以下步骤:
步骤1、获取多词短文本集合,如表1所示,并利用jieba_fast分词方法在多进程的精准模式下对多词短文本集合进行分词处理,jieba_fast是一种基于jieba分词的改进版本,可以大幅度提升大数据量下的分词速度。采用多进程分词方法,提高CPU和内存的利用率,并通过添加自定义词库的方式增加分词精度,最终得到分词结果X={x1,x2,…,xi,…,xM+N},xi表示分词后的第i条短文本,并有: 表示第i条短文本xi中第k个词,分词结果X是由如表2所示的有标记的分词集合和如表3所示的无标记的分词集合构成,其中,表示分词后的第m条有标记的短文本,且第m条有标记的短文本所对应的类别记为ym,所有类别集合Y={y1,y2,…,ym,…,yM},表示分词后的第n条无标记的短文本;m=1,2,…,M,n=1,2,…,N,k=1,2,…,K,i=1,2,…,M+N;
步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V,Word2vec词向量表示方法有CBOW(Continuous Bag-of-Words)连续词袋模型和连续Skip-gram模型两个模型,如图2和图3所示,本发明采用CBOW模型对海量货物名称数据进行训练:
步骤2.2、定义窗口大小为2c,向量维度为s;
步骤2.4、Negative Sample(简称为NEG)负采样方法是一种在Word2vec上的加速方法,它是NCE(Noise Contrastive Estimation)的一个简化版本,是用来提高训练速度并改善所得词向量的质量。与分词Softmax相比,NEG不再使用复杂的Huffman树,而是利用相对简单的随机负采样,能大幅度提高性能,因而可作为分层Softmax的一种替代。以第i条短文本xi中第k个词为目标词,并令目标词为正样本,词典中的其他词为负样本,并从负样本中选取部分词作为目标词的负样本子集
在采样过程中,记其中这里wj表示词典中第j个词,D表示词典中单词总数,词典中任意一个词w,counter(·)表示一个词在分词结果X中出现的次数。则以为剖分节点可得到区间[0,1]上的一个非等距剖分,Si=(si-1,si],i=1,2,…,D为其D个剖分区间。进一步引入区间[0,1]上的一个等距离剖分,剖分节点为其中M>>D。
Table(k)=wi,where tk∈Si,i=1,2,…,M-1
依据映射关系,每次生成一个[1,M-1]间的随机整数r,Table(r)即为一个样本。
利用随机梯度上升法对式(9)进行优化,得到更新公式:
步骤3、Sentence2vec模型引入了一个段落向量,实现了对可变长度文本片段的连续分布式向量表示,即该方法可以用于短语或句子到大文档的向量表示。Sentence2vec也有两个模型,分别是PV-DM(Distributed Memory version of Paragraph Vector)和PV-DBOW(Distributed Bag of Words version of Paragraph Vector),如图4和图5所示。本发明基于词向量表示模型V,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示:
步骤3.2、令ID(xi)表示第i条短文本xi的编号,d(xi)表示第i条短文本xi的编码向量,并利用式(11)得到第i条短文本xi的输入向量Wi:
步骤3.3、将第i条短文本xi的输入向量Wi输入PV-DM模型的输入层中,由PV-DM模型的输出层得到第i棵二元Huffman编码树。对构造的Huffman树进一步采取分层Softmax结构,提高性能。对Huffman树的某个叶子节点,将一个节点进行分类时,分到左边是负类,分到右边是正类,假设该节点对应词典中的词w,记:
1.pw:从根结点出发到达w对应的叶子结点的路径;
2.nw:路径pw中包含的结点个数;
步骤3.5、利用式(13)得到优化的目标函数为:
步骤3.6、根据词向量表示模型V,通过随机梯度上升法对式(13)进行优化求解:
利用随机梯度上升法对式(14)进行优化,得到更新公式:
根据式(15)得到第i条短文本xi的向量表示v(xi);从而得到分词结果X中每条短文本的向量表示,形如[-0.04007446,0.02008997,……-0.01132657,-0.0229446];
步骤4、利用有标记的分词集合中每条短文本的向量表示训练kNN分类器,得到训练后的分类器;并利用训练后的分类器对未标记的分词集合中第n条无标记的短文本与有标记的分词集合中每条有标记的短文本的欧氏距离进行计算,选取最小欧式距离所对应的有标记的短文本的类别作为第n条无标记的短文本的类别,从而实现对未标记的分词集合的分类。
针对本发明方法进行实验论证,具体包括:
1、数据预处理:
税收编码分类任务的1650万真实数据集是来自真实税务发票系统的650万经过人工标记的数据和1000万未标记数据,共有4200余类标签。
2、评价指标:
本发明使用目前文本分类领域常用的评价指标:正确率(Precision),召回率(Recall)和Micro-F1值来评价分类效果,计算公式如式(16)、式(17)和式(18)所示:
3、实验流程
如图1所示,针对税收编码分类任务的1650万真实数据集进行数据预处理,为了训练更好的特征,先对有标记数据集和未标记数据集进行预处理,去除无用的数据项,例如货物单位,编码名称等。在数据预处理后,采用jieba_fast在多线程下的精准模式对货物名称进行分词。对分词处理过后的货物名称首先采用数据驱动的方法,在大量货物名称样本上训练得到Word2vec词向量表示模型。运用Word2vec模型中每个词的向量表示,在有标记数据和未标记数据上,通过Sentence2vec句向量表示模型将每个货物名称整体表示为一个稠密低维的向量。在有标记数据上,运用训练得到的向量表示和标记编码训练kNN分类器,得到分类器模型。在未标记数据上运用训练得到的向量表示和分类器模型,得到未标记数据的预测分类编码。
4、实验结果
为了验证本发明所提方法的有效性,本发明在税收编码分类任务数据集的不同数据量下进行了实验。实验结果如图6所示,随着数据量的增加,分类正确率虽有一定的波动但仍然保持在90%以上,实验结果验证了本发明方法的有效性。
Claims (1)
1.一种针对海量多词短文本的集成分类方法,其特征在于包括以下步骤:
步骤1、获取多词短文本集合,并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理,得到分词结果X={x1,x2,…,xi,…,xM+N},xi表示分词后的第i条短文本,并有: 表示第i条短文本xi中第k个词,所述分词结果X是由有标记的分词集合和无标记的分词集合构成,其中,表示分词后的第m条有标记的短文本,且所述第m条有标记的短文本所对应的类别记为ym,表示分词后的第n条无标记的短文本;m=1,2,…,M,n=1,2,…,N,k=1,2,…,K,i=1,2,…,M+N;
步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V:
步骤2.2、定义窗口大小为2c,向量维度为s;
步骤3、基于所述词向量表示模型V,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示:
步骤3.2、令ID(xi)表示第i条短文本xi的编号,d(xi)表示第i条短文本xi的编码向量,并利用式(4)得到第i条短文本xi的输入向量Wi:
步骤3.3、将所述第i条短文本xi的输入向量Wi输入PV-DM模型的输入层中,由PV-DM模型的输出层得到第i棵二元Huffman编码树;
步骤3.5、利用式(5)得到优化的目标函数为:
步骤3.6、根据所述词向量表示模型V,通过随机梯度上升法对式(5)进行优化求解,得到第i条短文本xi的向量表示v(xi);从而得到分词结果X中每条短文本的向量表示;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811573390.6A CN109657061B (zh) | 2018-12-21 | 2018-12-21 | 一种针对海量多词短文本的集成分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811573390.6A CN109657061B (zh) | 2018-12-21 | 2018-12-21 | 一种针对海量多词短文本的集成分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109657061A CN109657061A (zh) | 2019-04-19 |
CN109657061B true CN109657061B (zh) | 2020-11-27 |
Family
ID=66116306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811573390.6A Active CN109657061B (zh) | 2018-12-21 | 2018-12-21 | 一种针对海量多词短文本的集成分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657061B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052671B (zh) * | 2019-06-06 | 2023-10-27 | 阿里巴巴集团控股有限公司 | 负样本采样方法、文本处理方法、装置、设备及介质 |
CN110569330A (zh) * | 2019-07-18 | 2019-12-13 | 华瑞新智科技(北京)有限公司 | 一种基于智能选词的文本标注系统及装置、设备、介质 |
CN113157901B (zh) * | 2020-01-22 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 用户产生内容过滤方法及相关装置 |
CN111259658B (zh) * | 2020-02-05 | 2022-08-19 | 中国科学院计算技术研究所 | 一种基于类别稠密向量表示的通用文本分类方法及系统 |
CN113257410A (zh) * | 2021-06-10 | 2021-08-13 | 南京大经中医药信息技术有限公司 | 一种基于中医临床医疗知识库和深度学习模型的问诊方法 |
CN114357171A (zh) * | 2022-01-04 | 2022-04-15 | 中国建设银行股份有限公司 | 一种应急事件处理方法、装置、存储介质及电子设备 |
CN115099373B (zh) * | 2022-08-26 | 2023-04-07 | 南京中孚信息技术有限公司 | 一种基于single-pass的文本聚类方法及其装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020712A (zh) * | 2012-12-28 | 2013-04-03 | 东北大学 | 一种海量微博数据的分布式分类装置及方法 |
CN106897371A (zh) * | 2017-01-18 | 2017-06-27 | 南京云思创智信息科技有限公司 | 中文文本分类系统及方法 |
CN107291693A (zh) * | 2017-06-15 | 2017-10-24 | 广州赫炎大数据科技有限公司 | 一种改进词向量模型的语义计算方法 |
CN108268447A (zh) * | 2018-01-22 | 2018-07-10 | 河海大学 | 一种藏文命名实体的标注方法 |
CN108846120A (zh) * | 2018-06-27 | 2018-11-20 | 合肥工业大学 | 用于对文本集进行分类的方法、系统及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9575952B2 (en) * | 2014-10-21 | 2017-02-21 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
-
2018
- 2018-12-21 CN CN201811573390.6A patent/CN109657061B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020712A (zh) * | 2012-12-28 | 2013-04-03 | 东北大学 | 一种海量微博数据的分布式分类装置及方法 |
CN106897371A (zh) * | 2017-01-18 | 2017-06-27 | 南京云思创智信息科技有限公司 | 中文文本分类系统及方法 |
CN107291693A (zh) * | 2017-06-15 | 2017-10-24 | 广州赫炎大数据科技有限公司 | 一种改进词向量模型的语义计算方法 |
CN108268447A (zh) * | 2018-01-22 | 2018-07-10 | 河海大学 | 一种藏文命名实体的标注方法 |
CN108846120A (zh) * | 2018-06-27 | 2018-11-20 | 合肥工业大学 | 用于对文本集进行分类的方法、系统及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于文本语义离散度的自动作文评分关键技术研究;王耀华等;《中文信息学报》;20161130;第30卷(第6期);第173-181页 * |
基于词向量的短文本分类方法研究;江大鹏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215;正文部分第34-44页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109657061A (zh) | 2019-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657061B (zh) | 一种针对海量多词短文本的集成分类方法 | |
CN110532554B (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN111160037B (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN108595706B (zh) | 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置 | |
CN109190131B (zh) | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 | |
CN109766277B (zh) | 一种基于迁移学习与dnn的软件故障诊断方法 | |
Alrobah et al. | Arabic handwritten recognition using deep learning: A survey | |
CN111966917A (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN105205124B (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN116070602B (zh) | 一种pdf文档智能标注与抽取方法 | |
CN112686044B (zh) | 一种基于语言模型的医疗实体零样本分类方法 | |
CN112905736B (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN114969275A (zh) | 一种基于银行知识图谱的对话方法及其系统 | |
CN111753088A (zh) | 一种自然语言信息的处理方法 | |
CN115587207A (zh) | 一种基于分类标签的深度哈希检索方法 | |
CN113901211A (zh) | 基于图注意力网络的多粒度汉越平行句对抽取方法 | |
CN111881256A (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
CN110826298A (zh) | 一种智能辅助定密系统中使用的语句编码方法 | |
CN112784602A (zh) | 基于远程监督的新闻情感实体抽取方法 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN115329120A (zh) | 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 | |
CN110674293B (zh) | 一种基于语义迁移的文本分类方法 | |
CN111078874B (zh) | 基于随机子空间的决策树分类的对外汉语难度评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |