CN109657061A - 一种针对海量多词短文本的集成分类方法 - Google Patents

一种针对海量多词短文本的集成分类方法 Download PDF

Info

Publication number
CN109657061A
CN109657061A CN201811573390.6A CN201811573390A CN109657061A CN 109657061 A CN109657061 A CN 109657061A CN 201811573390 A CN201811573390 A CN 201811573390A CN 109657061 A CN109657061 A CN 109657061A
Authority
CN
China
Prior art keywords
word
short text
vector
participle
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811573390.6A
Other languages
English (en)
Other versions
CN109657061B (zh
Inventor
胡学钢
唐雪涛
朱毅
李培培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201811573390.6A priority Critical patent/CN109657061B/zh
Publication of CN109657061A publication Critical patent/CN109657061A/zh
Application granted granted Critical
Publication of CN109657061B publication Critical patent/CN109657061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种针对海量多词短文本的集成分类方法,包括:1获取多词短文本集合,并对多词短文本进行分词预处理;2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型;3基于词向量表示模型,利用Sentence2vec句向量表示方法中的PV‑DM模型,构建句向量表示;4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,具有较高的鲁棒性和实用性。

Description

一种针对海量多词短文本的集成分类方法
技术领域
本发明涉及文本表示和表示学习方法领域,具体是一种针对海量多词短文本的集成分类方法。
背景技术
随着商品经济的不断繁荣,各种新兴商品、服务不断涌现。依据国家规定,企业和个人在经营中需按照要求开具增值税发票,开具发票时票面上的商品应与税务总局核定的税收编码进行关联。然而,税务总局核定的税收编码有4200余类,种类繁多,传统的由人工手动选择税收分类编码的方式不仅要求纳税人有一定的专业知识,还容易出现填写错误的情况,增加企业经营时间成本,造成经济损失。随着信息化时代的到来,计算机技术的发展和数据资源的爆炸性增长,为解决这类问题提供了方法。
税收编码分类任务是要依据货物名称将货物和正确的税收分类编码进行匹配,本质上是文本分类问题,人工输入的货物名称较为混乱,长则数十字,短则两三个字,其中夹杂数字和各种符号。极短的不规则的文本为分类任务带来了难度。同时,分类任务需要处理650万经过人工标记的数据和1000万未标记数据,海量的数据也为表示学习带来了困难。在一些情况下,货物名称中很大一部分都是无用信息,通过提取关键词可以更好的对货物进行描述,例如“晨光(M&G)E01精英系列按动子弹头中性笔签字笔水笔0.5mm12支/盒黑色AGP89703”。但还有一些情况难以利用提取关键词的方法,例如“医用植入钢钉”,如果采取关键词方法,将“钢钉”作为关键字,最终的落点是归属建筑材料,造成错误。还有类似“滑板砖真空-压力沥青浸煮设备”和“精加工成品”的货物名称,难以找到合适的关键词或者信息过少,难以通过提取关键词的方法获得有效信息。最终我们采取了将货物名称作为一个整体进行文本表示学习,用于表示货物名称,以进一步进行分类。表示学习作为机器学习的基础,其结果直接影响着整个系统的分类效果。
针对文本表示学习方法,研究者们提出了许多方法。独热表示(one-hotrepresentation)将词语表示为向量,向量上只有某一维非零表示该词出现,其余维度上值均为零。Josef等人基于自然语言处理模型提出了词袋模型(Bag of Words),在one-hotrepresentation的基础上,词袋模型进一步考虑了词频因素,在对一段文本进行分词后,用向量对其进行表示,将词语出现的频数记录在向量上。独热表示和词袋模型的向量维度取决于整个文本的词汇数,在处理大规模数据时,维度过大难以处理。Sklearn提供了HashingVectorizer通过哈希函数映射来降低向量的维度。然而以上的表示学习方法表示的词向量之间是孤立的,都无法对到词汇之间的关系进行描述。另外虽然Hashing Vectorizer采取了降维的方法,但由于生成的是高维稀疏的向量,在处理大规模数据时仍然容易带来“维数灾难”问题。“维数灾难”是指在高维情况下出现数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍。
发明内容
本发明为解决上述现有技术的不足之处,提供一种针对海量多词短文本的集成分类方法,以期能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,并具有较高的鲁棒性和实用性。
为了达到上述目的,本发明所采用的技术方案为:
本发明一种针对海量多词短文本的集成分类方法的特点在于包括以下步骤:
步骤1、获取多词短文本集合,并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理,得到分词结果X={x1,x2,…,xi,…,xM+N},xi表示分词后的第i条短文本,并有: 表示第i条短文本xi中第k个词,所述分词结果X是由有标记的分词集合和无标记的分词集合构成,其中,表示分词后的第m条有标记的短文本,且所述第m条有标记的短文本所对应的类别记为ym表示分词后的第n条无标记的短文本;m=1,2,…,M,n=1,2,…,N,k=1,2,…,K,i=1,2,…,M+N;
步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V:
步骤2.1、遍历所述分词结果X,并利用所述分词结果X中不同的词构造词典
步骤2.2、定义窗口大小为2c,向量维度为s;
步骤2.3、获取所述第i条短文本xi中第k个词的上下文内容,记为并将所述第i条短文本xi中第k个词随机初始化为独热向量从而随机初始化上下文内容
步骤2.4、以所述第i条短文本xi中第k个词为目标词,并令目标词为正样本,所述词典中的其他词为负样本,并从负样本中选取部分词作为所述目标词的负样本子集
步骤2.5、利用式(1)得到所述词典中任意第一个词w的标签L(w):
步骤2.6、最大化式(2)所示的目标词的目标函数
式(2)中,u表示负样本子集和目标词所构成的集合中任意一个词;表示词u在上下文内容时出现的概率,并有:
式(3)中,θu表示词u对应的辅助向量,且σ(·)表示Sigmoid函数;表示词u的标签;
步骤2.7、通过随机梯度上升法对式(2)进行优化求解,得到优化后的第i条短文本xi中第k个词的稠密向量
步骤2.8、根据2.3-步骤2.7,获得所述词典中其他词的稠密向量,从而构成词向量表示模型V;
步骤3、基于所述词向量表示模型V,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示:
步骤3.1、将所述第i条短文本中第k个词再次随机初始化为独热向量从而随机初始化上下文内容并初始化PV-DM模型中的参数;
步骤3.2、令ID(xi)第i条短文本xi的编号,d(xi)表示第i条短文本xi的编码向量,并利用式(4)得到第i条短文本xi的输入向量Wi
步骤3.3、将所述第i条短文本xi的输入向量Wi输入PV-DM模型的输入层中,由PV-DM模型的输出层得到第i棵二元Huffman编码树;
步骤3.4、根据所述第i棵二元Huffman编码树,利用Softmax函数计算给定目标词在数据集合中出现的概率
步骤3.5、利用式(5)得到优化的目标函数为:
步骤3.6、根据所述词向量表示模型V,通过随机梯度上升法对式(5)进行优化求解,得到第i条短文本xi的向量表示v(xi);从而得到分词结果X中每条短文本的向量表示;
步骤4、利用有标记的分词集合中每条短文本的向量表示训练kNN分类器,得到训练后的分类器;并利用所述训练后的分类器对未标记的分词集合中第n条无标记的短文本与所述有标记的分词集合中每条有标记的短文本的欧氏距离进行计算,选取最小欧式距离所对应的有标记的短文本的类别作为第n条无标记的短文本的类别,从而实现对未标记的分词集合的分类。
与现有技术相比,本发明的有益效果在于:
1、本发明方法从深度学习的角度出发,针对传统表示学习方法的“维数灾难”问题,设计了一种针对海量多词短文本的集成分类方法,在海量数据上训练得到的Word2vec词向量表示模型基础上,通过Sentence2vec句向量表示模型将短文本整体表示为稠密低维向量,获得了较为有效的表示,降低了短文本表示向量维度,避免了“维度灾难”问题,提高了文本表示效果,在分类器模型下取得了较好的分类结果。
2、本发明解决文本表示学习这一重要实际问题,通过在税收编码分类任务的1650万真实数据集上的实验结果表明,该方法可有效地提高海量多词短文本的分类效果。本发明可以直接应用在各种情况下的文本分类应用中,有着重要的应用价值,一旦研究成功并投入应用,将产生巨大的社会和经济效益。
附图说明
图1为本发明方法流程图;
图2为现有技术中CBOW模型层次结构示意图;
图3为现有技术中Skip-gram模型层次结构示意图;
图4为本发明中PV-DM模型层次结构示意图;
图5为本发明中PV-DBOW模型层次结构示意图;
图6为本发明在税收编码分类任务的1650万真实数据集上的分类实验结果图。
具体实施方式
本实施例中,一种针对海量多词短文本的集成分类方法,如图1所示,包括以下步骤:
步骤1、获取多词短文本集合,如表1所示,并利用jieba_fast分词方法在多进程的精准模式下对多词短文本集合进行分词处理,jieba_fast是一种基于jieba分词的改进版本,可以大幅度提升大数据量下的分词速度。采用多进程分词方法,提高CPU和内存的利用率,并通过添加自定义词库的方式增加分词精度,最终得到分词结果X={x1,x2,…,xi,…,xM+N},xi表示分词后的第i条短文本,并有: 表示第i条短文本xi中第k个词,分词结果X是由如表2所示的有标记的分词集合和如表3所示的无标记的分词集合构成,其中,表示分词后的第m条有标记的短文本,且第m条有标记的短文本所对应的类别记为ym,所有类别集合Y={y1,y2,…,ym,…,yM},表示分词后的第n条无标记的短文本;m=1,2,…,M,n=1,2,…,N,k=1,2,…,K,i=1,2,…,M+N;
步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V,Word2vec词向量表示方法有CBOW(Continuous Bag-of-Words)连续词袋模型和连续Skip-gram模型两个模型,如图2和图3所示,本发明采用CBOW模型对海量货物名称数据进行训练:
步骤2.1、遍历分词结果X,并利用分词结果X中不同的词构造词典
步骤2.2、定义窗口大小为2c,向量维度为s;
步骤2.3、获取第i条短文本xi中第k个词的上下文内容,记为并将第i条短文本xi中第k个词随机初始化为独热向量从而随机初始化上下文内容
步骤2.4、Negative Sample(简称为NEG)负采样方法是一种在Word2vec上的加速方法,它是NCE(Noise Contrastive Estimation)的一个简化版本,是用来提高训练速度并改善所得词向量的质量。与分词Softmax相比,NEG不再使用复杂的Huffman树,而是利用相对简单的随机负采样,能大幅度提高性能,因而可作为分层Softmax的一种替代。以第i条短文本xi中第k个词为目标词,并令目标词为正样本,词典中的其他词为负样本,并从负样本中选取部分词作为目标词的负样本子集
词典中的词在分词结果X中出现的次数有高有低,对于那些高频词,被选为负样本的概率就应该比较大,反之,对于那些低频词,其被选中的概率就应该比较小。采样问题本质是一个带权采样问题。
在采样过程中,记其中这里wj表示词典中第j个词,D表示词典中单词总数,词典中任意一个词w,counter(·)表示一个词在分词结果X中出现的次数。则以为剖分节点可得到区间[0,1]上的一个非等距剖分,Si=(si-1,si],i=1,2,…,D为其D个剖分区间。进一步引入区间[0,1]上的一个等距离剖分,剖分节点为其中M>>D。
将内部剖分节点投影到非等距剖分上,可建立与区间的映射关系:
Table(k)=wi,where tk∈Si,i=1,2,…,M-1
依据映射关系,每次生成一个[1,M-1]间的随机整数r,Table(r)即为一个样本。
步骤2.5、利用式(6)得到词典中任意一个词w的标签L(w):
步骤2.6、最大化式(7)所示的目标词的目标函数
式(7)中,u表示负样本子集和目标词所构成的集合中任意一个词;表示词u在上下文内容时出现的概率,并有:
式(8)中,θu表示词u对应的辅助向量,且σ(·)表示Sigmoid函数;表示词u的标签;
步骤2.7、通过随机梯度上升法对式(7)进行优化求解,随机梯度上升法是每取一个样本就对目标函数中的所有(相关)参数做一次刷新。设将其作为整体优化函数:
利用随机梯度上升法对式(9)进行优化,得到更新公式:
式(10)中η表示学习率。依据式(10)得到优化后的第i条短文本xi中第k个词的稠密向量
步骤2.8、根据2.3-步骤2.7,获得词典中其他词的稠密向量,从而构成词向量表示模型V;
步骤3、Sentence2vec模型引入了一个段落向量,实现了对可变长度文本片段的连续分布式向量表示,即该方法可以用于短语或句子到大文档的向量表示。Sentence2vec也有两个模型,分别是PV-DM(Distributed Memory version of ParagraphVector)和PV-DBOW(Distributed Bag of Words version of Paragraph Vector),如图4和图5所示。本发明基于词向量表示模型V,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示:
步骤3.1、将第i条短文本中第k个词再次随机初始化为独热向量从而随机初始化上下文内容并初始化PV-DM模型中的参数;
步骤3.2、令ID(xi)第i条短文本xi的编号,d(xi)表示第i条短文本xi的编码向量,并利用式(11)得到第i条短文本xi的输入向量Wi
步骤3.3、将第i条短文本xi的输入向量Wi输入PV-DM模型的输入层中,由PV-DM模型的输出层得到第i棵二元Huffman编码树。对构造的Huffman树进一步采取分层Softmax结构,提高性能。对Huffman树的某个叶子节点,将一个节点进行分类时,分到左边是负类,分到右边是正类,假设该节点对应词典中的词w,记:
1.pw:从根结点出发到达w对应的叶子结点的路径;
2.nw:路径pw中包含的结点个数;
3.路径pw中的nw个结点其中表示根结点,表示词w对应的结点。
4.w词的Huffman编码,它由lw-1位编码构成,表示路径pw中第j个结点对应的编码(根结点不对应编码);
5.路径pw中非叶子结点对应的向量,表示路径pw中第j个非叶子结点对应的向量。
在Word2vec中将编码为1的结点定义为负类,将编码为0的结点定义为正类,约定
步骤3.4、根据第i棵二元Huffman编码树,利用Softmax函数计算给定目标词在数据集合中出现的概率:
式(12)中
或写成整体表达式
步骤3.5、利用式(13)得到优化的目标函数为:
步骤3.6、根据词向量表示模型V,通过随机梯度上升法对式(13)进行优化求解:
利用随机梯度上升法对式(14)进行优化,得到更新公式:
根据式(15)得到第i条短文本xi的向量表示v(xi);从而得到分词结果X中每条短文本的向量表示,形如[-0.04007446,0.02008997,……-0.01132657,-0.0229446];
步骤4、利用有标记的分词集合中每条短文本的向量表示训练kNN分类器,得到训练后的分类器;并利用训练后的分类器对未标记的分词集合中第n条无标记的短文本与有标记的分词集合中每条有标记的短文本的欧氏距离进行计算,选取最小欧式距离所对应的有标记的短文本的类别作为第n条无标记的短文本的类别,从而实现对未标记的分词集合的分类。
针对本发明方法进行实验论证,具体包括:
1、数据预处理:
税收编码分类任务的1650万真实数据集是来自真实税务发票系统的650万经过人工标记的数据和1000万未标记数据,共有4200余类标签。
2、评价指标:
本发明使用目前文本分类领域常用的评价指标:正确率(Precision),召回率(Recall)和Micro-F1值来评价分类效果,计算公式如式(16)、式(17)和式(18)所示:
3、实验流程
如图1所示,针对税收编码分类任务的1650万真实数据集进行数据预处理,为了训练更好的特征,先对有标记数据集和未标记数据集进行预处理,去除无用的数据项,例如货物单位,编码名称等。在数据预处理后,采用jieba_fast在多线程下的精准模式对货物名称进行分词。对分词处理过后的货物名称首先采用数据驱动的方法,在大量货物名称样本上训练得到Word2vec词向量表示模型。运用Word2vec模型中每个词的向量表示,在有标记数据和未标记数据上,通过Sentence2vec句向量表示模型将每个货物名称整体表示为一个稠密低维的向量。在有标记数据上,运用训练得到的向量表示和标记编码训练kNN分类器,得到分类器模型。在未标记数据上运用训练得到的向量表示和分类器模型,得到未标记数据的预测分类编码。
4、实验结果
为了验证本发明所提方法的有效性,本发明在税收编码分类任务数据集的不同数据量下进行了实验。实验结果如图6所示,随着数据量的增加,分类正确率虽有一定的波动但仍然保持在90%以上,实验结果验证了本发明方法的有效性。

Claims (1)

1.一种针对海量多词短文本的集成分类方法,其特征在于包括以下步骤:
步骤1、获取多词短文本集合,并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理,得到分词结果X={x1,x2,…,xi,…,xM+N},xi表示分词后的第i条短文本,并有: 表示第i条短文本xi中第k个词,所述分词结果X是由有标记的分词集合和无标记的分词集合构成,其中,表示分词后的第m条有标记的短文本,且所述第m条有标记的短文本所对应的类别记为ym表示分词后的第n条无标记的短文本;m=1,2,…,M,n=1,2,…,N,k=1,2,…,K,i=1,2,…,M+N;
步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V:
步骤2.1、遍历所述分词结果X,并利用所述分词结果X中不同的词构造词典
步骤2.2、定义窗口大小为2c,向量维度为s;
步骤2.3、获取所述第i条短文本xi中第k个词的上下文内容,记为并将所述第i条短文本xi中第k个词随机初始化为独热向量从而随机初始化上下文内容
步骤2.4、以所述第i条短文本xi中第k个词为目标词,并令目标词为正样本,所述词典中的其他词为负样本,并从负样本中选取部分词作为所述目标词的负样本子集
步骤2.5、利用式(1)得到所述词典中任意第一个词w的标签L(w):
步骤2.6、最大化式(2)所示的目标词的目标函数
式(2)中,u表示负样本子集和目标词所构成的集合中任意一个词;
表示词u在上下文内容时出现的概率,并有:
式(3)中,θu表示词u对应的辅助向量,且σ(·)表示Sigmoid函数;表示词u的标签;
步骤2.7、通过随机梯度上升法对式(2)进行优化求解,得到优化后的第i条短文本xi中第k个词的稠密向量
步骤2.8、根据2.3-步骤2.7,获得所述词典中其他词的稠密向量,从而构成词向量表示模型V;
步骤3、基于所述词向量表示模型V,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示:
步骤3.1、将所述第i条短文本中第k个词再次随机初始化为独热向量从而随机初始化上下文内容并初始化PV-DM模型中的参数;
步骤3.2、令ID(xi)第i条短文本xi的编号,d(xi)表示第i条短文本xi的编码向量,并利用式(4)得到第i条短文本xi的输入向量Wi
步骤3.3、将所述第i条短文本xi的输入向量Wi输入PV-DM模型的输入层中,由PV-DM模型的输出层得到第i棵二元Huffman编码树;
步骤3.4、根据所述第i棵二元Huffman编码树,利用Softmax函数计算给定目标词在数据集合中出现的概率
步骤3.5、利用式(5)得到优化的目标函数为:
步骤3.6、根据所述词向量表示模型V,通过随机梯度上升法对式(5)进行优化求解,得到第i条短文本xi的向量表示v(xi);从而得到分词结果X中每条短文本的向量表示;
步骤4、利用有标记的分词集合中每条短文本的向量表示训练kNN分类器,得到训练后的分类器;并利用所述训练后的分类器对未标记的分词集合中第n条无标记的短文本与所述有标记的分词集合中每条有标记的短文本的欧氏距离进行计算,选取最小欧式距离所对应的有标记的短文本的类别作为第n条无标记的短文本的类别,从而实现对未标记的分词集合的分类。
CN201811573390.6A 2018-12-21 2018-12-21 一种针对海量多词短文本的集成分类方法 Active CN109657061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811573390.6A CN109657061B (zh) 2018-12-21 2018-12-21 一种针对海量多词短文本的集成分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811573390.6A CN109657061B (zh) 2018-12-21 2018-12-21 一种针对海量多词短文本的集成分类方法

Publications (2)

Publication Number Publication Date
CN109657061A true CN109657061A (zh) 2019-04-19
CN109657061B CN109657061B (zh) 2020-11-27

Family

ID=66116306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811573390.6A Active CN109657061B (zh) 2018-12-21 2018-12-21 一种针对海量多词短文本的集成分类方法

Country Status (1)

Country Link
CN (1) CN109657061B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569330A (zh) * 2019-07-18 2019-12-13 华瑞新智科技(北京)有限公司 一种基于智能选词的文本标注系统及装置、设备、介质
CN111259658A (zh) * 2020-02-05 2020-06-09 中国科学院计算技术研究所 一种基于类别稠密向量表示的通用文本分类方法及系统
CN112052671A (zh) * 2019-06-06 2020-12-08 阿里巴巴集团控股有限公司 负样本采样方法、文本处理方法、装置、设备及介质
CN113157901A (zh) * 2020-01-22 2021-07-23 腾讯科技(深圳)有限公司 用户产生内容过滤方法及相关装置
CN113257410A (zh) * 2021-06-10 2021-08-13 南京大经中医药信息技术有限公司 一种基于中医临床医疗知识库和深度学习模型的问诊方法
CN114357171A (zh) * 2022-01-04 2022-04-15 中国建设银行股份有限公司 一种应急事件处理方法、装置、存储介质及电子设备
CN115099373A (zh) * 2022-08-26 2022-09-23 南京中孚信息技术有限公司 一种基于single-pass的文本聚类方法及其装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020712A (zh) * 2012-12-28 2013-04-03 东北大学 一种海量微博数据的分布式分类装置及方法
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
US20180157639A1 (en) * 2014-10-21 2018-06-07 At&T Intellectual Property I, L.P. Unsupervised Topic Modeling For Short Texts
CN108268447A (zh) * 2018-01-22 2018-07-10 河海大学 一种藏文命名实体的标注方法
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、系统及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020712A (zh) * 2012-12-28 2013-04-03 东北大学 一种海量微博数据的分布式分类装置及方法
US20180157639A1 (en) * 2014-10-21 2018-06-07 At&T Intellectual Property I, L.P. Unsupervised Topic Modeling For Short Texts
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN108268447A (zh) * 2018-01-22 2018-07-10 河海大学 一种藏文命名实体的标注方法
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、系统及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
江大鹏: "基于词向量的短文本分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王耀华等: "基于文本语义离散度的自动作文评分关键技术研究", 《中文信息学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052671A (zh) * 2019-06-06 2020-12-08 阿里巴巴集团控股有限公司 负样本采样方法、文本处理方法、装置、设备及介质
CN112052671B (zh) * 2019-06-06 2023-10-27 阿里巴巴集团控股有限公司 负样本采样方法、文本处理方法、装置、设备及介质
CN110569330A (zh) * 2019-07-18 2019-12-13 华瑞新智科技(北京)有限公司 一种基于智能选词的文本标注系统及装置、设备、介质
CN113157901A (zh) * 2020-01-22 2021-07-23 腾讯科技(深圳)有限公司 用户产生内容过滤方法及相关装置
CN113157901B (zh) * 2020-01-22 2024-02-23 腾讯科技(深圳)有限公司 用户产生内容过滤方法及相关装置
CN111259658A (zh) * 2020-02-05 2020-06-09 中国科学院计算技术研究所 一种基于类别稠密向量表示的通用文本分类方法及系统
CN113257410A (zh) * 2021-06-10 2021-08-13 南京大经中医药信息技术有限公司 一种基于中医临床医疗知识库和深度学习模型的问诊方法
CN114357171A (zh) * 2022-01-04 2022-04-15 中国建设银行股份有限公司 一种应急事件处理方法、装置、存储介质及电子设备
CN115099373A (zh) * 2022-08-26 2022-09-23 南京中孚信息技术有限公司 一种基于single-pass的文本聚类方法及其装置

Also Published As

Publication number Publication date
CN109657061B (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN109657061A (zh) 一种针对海量多词短文本的集成分类方法
CN109766277B (zh) 一种基于迁移学习与dnn的软件故障诊断方法
CN109697232A (zh) 一种基于深度学习的中文文本情感分析方法
Alexiou et al. Exploring synonyms as context in zero-shot action recognition
CN110083826A (zh) 一种基于Transformer模型的老汉双语对齐方法
CN109063743B (zh) 基于半监督多任务学习的医疗数据分类模型的构建方法
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN108829823A (zh) 一种文本分类方法
Nam et al. Padding methods in convolutional sequence model: an application in Japanese handwriting recognition
CN103020167A (zh) 一种计算机中文文本分类方法
CN109815478A (zh) 基于卷积神经网络的药化实体识别方法及系统
CN112784013A (zh) 一种基于上下文语义的多粒度文本推荐方法
CN112732872A (zh) 面向生物医学文本的基于主题注意机制的多标签分类方法
CN104462408A (zh) 一种基于主题建模的多粒度情感分析方法
CN113220865A (zh) 一种文本相似词汇检索方法、系统、介质及电子设备
CN103336830A (zh) 基于结构语义直方图的图像检索方法
CN109543038A (zh) 一种应用于文本数据的情感分析方法
Wei et al. Word image representation based on visual embeddings and spatial constraints for keyword spotting on historical documents
CN110674293A (zh) 一种基于语义迁移的文本分类方法
Zheng et al. Leaf recognition based on capsule network
CN112836507B (zh) 一种领域文本主题抽取方法
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
Feifei et al. Intelligent question and answer analysis model of power ICT based on BI-LSTM-CRF
Ma et al. Deep Hashing Similarity Learning for Cross-Modal Retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant