CN108595706B - 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置 - Google Patents

一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置 Download PDF

Info

Publication number
CN108595706B
CN108595706B CN201810443084.4A CN201810443084A CN108595706B CN 108595706 B CN108595706 B CN 108595706B CN 201810443084 A CN201810443084 A CN 201810443084A CN 108595706 B CN108595706 B CN 108595706B
Authority
CN
China
Prior art keywords
document
word
semantic representation
text
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810443084.4A
Other languages
English (en)
Other versions
CN108595706A (zh
Inventor
陈小军
王大魁
时金桥
白离
胡兰兰
文新
张闯
马建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201810443084.4A priority Critical patent/CN108595706B/zh
Publication of CN108595706A publication Critical patent/CN108595706A/zh
Application granted granted Critical
Publication of CN108595706B publication Critical patent/CN108595706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进而,通过计算文档的语义表示向量之间的相似性,实现文档的分类。本发明依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息,分类任务准确性高,可应用在信息检索、文本分类等自然语言处理任务中。

Description

一种基于主题词类相似性的文档语义表示方法、文本分类方 法和装置
技术领域
本发明属于信息技术领域,具体涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和相应的装置。
背景技术
文本向量表示是文本挖掘和自然语言处理等领域的关键技术之一,良好的文档语义表示方法,能够提升信息检索、文本分类等任务的效果。
本发明是基于主题词类相似度的文档语义表示方法,是针对词袋模型的高维稀疏、无语义所提出的改进,目前以词袋模型为基础的文档表示方法有:
1)传统词袋模型表示方法(Bag of words,BOW),将单词出现的频率作为文本表示。
2)词频-逆文档频率模型表示方法(Term Frequency–Inverse DocumentFrequency,TF-IDF),该模型是在BOW上进行改进的,不仅考虑文本中单词的频率,同时考虑该单词在整个语料库中的重要程度。
3)模糊词袋模型表示方法(Fuzzy bag of words,FBOW),利用词向量表示文本语义信息,将单词与基础词表的余弦距离作为文本表示。
现有的词袋模型文档表示方法存在一些不足,其中BOW模型仅考虑单词的出现频率,不考虑单词的语义信息;TF-IDF模型通过词频和逆文档频率的组合将文本表示成向量,并没有考虑文本的语义信息,容易遭受数据稀疏的问题;而FBOW模型使用词语在语义空间中的位置关系来表示词语之间的相关性,而没有从文档整体所表示的语义信息进行表示。因此,文档语义向量表示方法还有很大的提升空间。
发明内容
本发明的目的是提出一种基于主题词类相似性的文档语义表示方法、文本分类方法和相应的装置,利用自然语言处理领域的词向量模型、词袋模型和WMD(Word Mover’sDistance)模型等语义分析技术,将文本表示为低维稠密具有语义信息的向量的文档语义表示。
本发明采用的技术方案如下:
一种基于主题词类相似性的文档语义表示方法,其特征在于,包括以下步骤:
1)使用词向量模型对语料进行训练,得到词向量;
2)在语义空间内对词向量进行聚类;
3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。
进一步地,步骤1)包括:
1-1)将语料集进行数据清洗,去除语料中的标点、停用词信息;
1-2)使用词向量模型训练语料,生成词向量。
进一步地,步骤2)使用高斯混合模型进行所述聚类,包括:
2-1)估计词向量由每个高斯分布生成的概率;通过极大似然估计更新高斯混合模型的参数;并重复迭代,直到高斯混合模型的似然函数收敛为止;
2-2)利用高斯混合模型预测词向量类别,得到词向量类别分布。
进一步地,根据时间、空间、词表大小对采用高斯混合模型进行聚类的聚类大小进行动态设置。
进一步地,步骤3)包括:
3-1)对输入的待表示文档doc进行数据清洗;
3-2)计算doc的权重矩阵d=[d1,d2,…,dm],其中m是doc出现的词项个数,di代表第i个词项在doc中出现的频率;
3-3)使用WMD算法计算K个聚类类别与doc之间的距离z1,z2,…,zK
3-4)输出doc的向量表示z=[z1,z2,…,zK]。
一种基于主题词类相似性的文档语义表示装置,其包括:
词向量训练模块,负责使用词向量模型对语料进行训练,得到词向量;
聚类模块,负责在语义空间内对词向量进行聚类;
语义表示模块,负责使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。
一种文本分类方法,包括以下步骤:
1)采用上面所述方法对文档进行语义表示,得到文档的语义表示向量;
2)通过计算文档的语义表示向量之间的相似性,实现文档的分类。相似度大于一定阈值时可认为是一类。
一种文本分类装置,其包括:
文档语义表示模块,负责采用上面所述方法对文档进行语义表示,得到文档的语义表示向量;
分类模块,负责通过计算文档的语义表示向量之间的相似性,实现文档的分类。
与现有技术相比,本发明的有益效果是:
本发明依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息;与现有的BOW模型、TF-IDF模型和FBOW模型在文本分类上做了对比,本发明在分类任务准确性上都高于这三者,提高了文本分类任务的效果。本发明能够应用在信息检索、文本分类等自然语言处理任务中。
附图说明
图1为本发明实施例中文档语义表示方法的流程图。
图2为本发明与BOW模型、TF-IDF模型和FBOW模型在两个数据集Reuters和WebKB的文本分类任务表现,横轴显示数据集,纵轴显示文本分类准确率。
图3为本发明的聚类大小对文本分类效果的影响分析,横轴x代表聚类大小为100*x,纵轴表示文本分类准确率。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本实施例的基于主题词类相似性的文档语义表示方法,主要包含两个方面:
1)词袋模型聚类:首先使用词向量模型对语料进行训练,得到词向量;将训练好的词向量使用高斯混合模型(Gaussian Mixture Model,GMM)在语义空间内对其进行聚类,将相似语义的单词归属到一个类别中。每一个聚类类别都代表一组语义相关的单词。其中语料可以是英文语料、中文语料(需进行分词)或者其它语言的语料。
2)文本语义表示:将每一个聚类类别视为一个独立的聚类“文本”,使用WMD模型计算文档和每个聚类类别之间的文本转移代价(即WMD距离)。文档的语义表示为给定文档与各个类别“文本”之间的WMD距离,每个维度是该维度所对应的聚类“文本”与给定文本之间的WMD距离。
在词袋模型聚类过程中,使用GMM模型对词向量进行聚类。GMM模型是一种软聚类方法,它不单纯把数据分配给某一个类别,而是计算该数据所属类别的概率。GMM算法假设数据服从高斯分布,通过多个高斯分布拟合数据分布,通过增加聚类大小,GMM算法可以任意拟合任何连续的数据分布。GMM算法假设有K个高斯分布组成,每个高斯分布称为一个“Component”,这些Component线性加成在一起就组成GMM的概率密度函数。具体流程如下:
设输入参数t是训练词向量语料集,K为聚类大小,输出为语料词向量类别分布c和词向量wv。
1.将语料集进行数据清洗,去除语料中标点、停用词信息;
2.训练语料,生成词向量wv。
3.估计词向量由每个Component生成的概率;通过极大似然估计更新GMM模型参数;重复迭代前面两步,直到GMM模型的似然函数收敛为止。
4.用上述GMM模型预测词向量类别,得到词向量类别分布c。
由此可见采用GMM模型对词向量进行聚类,仅仅依赖聚类大小K的设置。实际应用中可根据时间、空间、词表大小进行动态设置。如果设置过小,会影响文本语义表示准确性,设置过大,文本语义效果提升不大,当设置聚类大小为词表10%左右效果较好。
在得到词向量类别分布之后,本发明使用WMD算法计算给定文本和聚类类别之间的距离,以此作为文本语义表示。WMD模型是Kusner等人在2015年提出的Word Mover’sDistance语义相似性计算模型。该模型基于词向量(word2vec)和线性规划模型EMD(EarthMover’s Distance),该模型不仅包含词语在文章中的上下文信息,而且解释性强,具有稳定的结果。
在文本语义表示生成步骤中,将词袋模型聚类步骤中得到的每个聚类类别视为一个独立的“文本”,该文本中含有一系列语义相近的单词,然后计算待表示文本和每个聚类类别之间的WMD距离,得到的结果用以表示待表示文本和该聚类类别之间的语义相似性。对每个聚类类别重复上述操作,最终得到文本的语义表示。具体生成步骤如图1所示,包括:
设输入参数doc,wv,c,K,其中doc是待表示文本,wv是词向量,参数c是词向量类别分布,K是上述聚类类别大小。
输出结果为文本语义向量z=[z1,z2,…,zK],K是聚类大小
1.对输入文本进行数据清洗,去掉文本中标点、停用词信息;
2.计算doc的权重矩阵d=[d1,d2,…,dm],其中m是doc出现的词项个数,di代表第i个词项在文本doc中出现的频率,计算公式是
Figure BDA0001656373820000041
3.计算聚类类别与doc之间的距离,现在计算第k个类别与doc之间的距离:
1)设该聚类类别ck含有n个词项,ck的权重矩阵为d′=[d′1,d′2,…,d′n],n是该类别中的单词个数,其中d′i代表第i个词项在聚类类别ck中出现的频率,计算公式是
Figure BDA0001656373820000042
2)根据doc中出现的单词集合W和聚类类别ck中出现的单词集合W’,计算集合W和集合W’之间欧式距离矩阵C,矩阵C中的元素cij代表doc中第i个单词与聚类类别ck中第j个词之间的欧式距离。
3)利用WMD算法计算doc和ck之间的距离,
Figure BDA0001656373820000051
计算公式如下:
目标函数
Figure BDA0001656373820000052
约束条件:
Figure BDA0001656373820000053
Figure BDA0001656373820000054
4)重复上述步骤1),2),3),直至向量z的K个元素z1,z2,…,zK全部生成。
4.输出doc的向量表示z=[z1,z2,…,zK]。
下面提供一个具体应用实例。该实例以A为词向量训练语料,以B为待表示文档,假设B=“The children speaks in the classroom.”:
1)对A进行数据清理,将A中标点符号,如逗号、冒号、分号等去掉;去除A中的停用词,如the、or、is等。
2)使用Google word2vec工具进行训练,得到词向量模型,该模型中每一项对应一个单词和它的向量表示,如
[apple 5.191660 5.183789 1.440009 0.429530 -8.055683 3.9533510.854346 -2.413922 -0.924511 3.460100 -1.180899 -0.173409……-5.3767856.944289 0.971594 -1.491963]
3)根据单词的向量表示,使用GMM算法对词向量模型中的单词进行分类,将每个单词分配给概率最大的类别,如对于单词“apple”,它的类别概率分布时[0.12 0.48 0.360.04],那么它就被分配给第1类,因为apple属于第1类别的概率最大。
4)对B进行数据清洗,得到B的词项为{children,speak,classroom}。B的权重矩阵
Figure BDA0001656373820000055
5)循环计算各个类别与B之间的距离,例如计算类别c与D的距离。
a)首先计算c的权重矩阵。假设类别c中有5个词项,为{today,speak,hello,kid,teacher},c的权重矩阵
Figure BDA0001656373820000056
b)计算文本B和聚类c单词之间的欧式距离矩阵C,例如C12是文本B中第1个单词“speak”对应的词向量和聚类类别c中第2个单词“hello”对应的词向量之间的欧氏距离。
c)根据文本B的权重矩阵d,类别c的权重矩阵d’,和距离矩阵C,利用WMD算法计算二者之间的距离。
d)计算下一个类别与文本B之间的距离,直至所有的类别都被计算完成。
6)将所有聚类类别与文本B之间的距离顺序存储在向量z中,z即是文本B的语义表示向量。
下面通过两个实验来验证本发明方法的效果:
在第一个实验中,本发明与BOW模型、TF-IDF模型和FBOW模型在两个数据集Reuters和WebKB上,针对文本分类任务做了实验对比。可以由图2看出,本发明的实验效果高于其余三个模型,提高了文本分类的准确率,表明本发明提出的文本语义表示方法能够更加准确地表示文本信息。
在第二个实验中,使用数据集Reuters和WebKB,统计本发明中设置不同的聚类大小对文本分类效果的影响,实验结果表明本发明在低维度下具有良好的语义表示。表1为本发明在不同聚类规模下在数据集Reuters和数据集WebKB上的文本分类准确率统计。图3为聚类大小对文本分类效果的影响分析。可以由表1和图3看出,在聚类大小为1000左右(约为词项个数的10%)时,文本分类准确率达到较高值,若继续增加聚类大小,文本分类准确率基本保持不变。由准确率的变化趋势可以看出,若设置聚类规模太小,会损害文本分类的准确率,若设置太大,并没有明显改善文本分类效果,反而会增加文本表示的维度,实验统计当聚类大小为原有词项的10%左右较好。
表1.不同聚类大小下文本分类准确率统计
Figure BDA0001656373820000061
Figure BDA0001656373820000071
本发明中GMM分类方法也可以替换成其他分类方法,如Kmeans分类方法等。
本发明另一实施例提供一种基于主题词类相似性的文档语义表示装置,其包括:词向量训练模块,负责使用词向量模型对语料进行训练,得到词向量;聚类模块,负责在语义空间内对词向量进行聚类;语义表示模块,负责使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。
本发明另一实施例提供一种文本分类方法,包括以下步骤:
1)采用上面所述方法对文档进行语义表示,得到文档的语义表示向量;
2)通过计算文档的语义表示向量之间的相似性,实现文档的分类。相似度大于一定阈值时可认为是一类。
本发明另一实施例提供一种文本分类装置,其包括:文档语义表示模块,负责采用上面所述方法对文档进行语义表示,得到文档的语义表示向量;分类模块,负责通过计算文档的语义表示向量之间的相似性,实现文档的分类。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (8)

1.一种基于主题词类相似性的文档语义表示方法,其特征在于,包括以下步骤:
1)使用词向量模型对语料进行训练,得到词向量;
2)在语义空间内对词向量进行聚类;
3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示;
其中,步骤3)包括:
3-1)对输入的待表示文档doc进行数据清洗;
3-2)计算doc的权重矩阵d=[d1,d2,…,dm],其中m是doc出现的词项个数,di代表第i个词项在doc中出现的频率;
3-3)使用WMD算法计算K个聚类类别与doc之间的距离z1,z2,…,zK
3-4)输出doc的向量表示z=[z1,z2,…,zK];
其中步骤3-3)计算第k个类别与doc之间的距离的过程是:
3-3-1)设该聚类类别ck含有n个词项,ck的权重矩阵为d′=[d′1,d′2,…,d′n],n是该类别中的单词个数,d′i代表第i个词项在聚类类别ck中出现的频率,
Figure FDA0003215862540000011
3-3-2)根据doc中出现的单词集合W和聚类类别ck中出现的单词集合W’,计算集合W和集合W’之间欧式距离矩阵C,矩阵C中的元素cij代表doc中第i个单词与聚类类别ck中第j个词之间的欧式距离;
3-3-3)利用WMD算法计算doc和ck之间的距离,
Figure FDA0003215862540000012
计算公式如下:
目标函数
Figure FDA0003215862540000013
约束条件:
Figure FDA0003215862540000014
Figure FDA0003215862540000015
3-3-4)重复步骤3-3-1),3-3-2),3-3-3),直至向量z的K个元素z1,z2,…,zK全部生成。
2.根据权利要求1所述的方法,其特征在于,步骤1)包括:
1-1)将语料集进行数据清洗,去除语料中的标点、停用词信息;
1-2)使用词向量模型训练语料,生成词向量。
3.根据权利要求1所述的方法,其特征在于,步骤2)使用高斯混合模型进行所述聚类,包括:
2-1)估计词向量由每个高斯分布生成的概率;通过极大似然估计更新高斯混合模型的参数;并重复迭代,直到高斯混合模型的似然函数收敛为止;
2-2)利用高斯混合模型预测词向量类别,得到词向量类别分布。
4.根据权利要求3所述的方法,其特征在于,根据时间、空间、词表大小对采用高斯混合模型进行聚类的聚类大小进行动态设置。
5.根据权利要求4所述的方法,其特征在于,设置聚类大小为原有词项的10%。
6.一种采用权利要求1至5中任一权利要求所述方法的基于主题词类相似性的文档语义表示装置,其特征在于,包括:
词向量训练模块,负责使用词向量模型对语料进行训练,得到词向量;
聚类模块,负责在语义空间内对词向量进行聚类;
语义表示模块,负责使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。
7.一种文本分类方法,其特征在于,包括以下步骤:
1)采用权利要求1至5中任一权利要求所述方法对文档进行语义表示,得到文档的语义表示向量;
2)通过计算文档的语义表示向量之间的相似性,实现文档的分类。
8.一种文本分类装置,其特征在于,包括:
文档语义表示模块,负责采用权利要求1至5中任一权利要求所述方法对文档进行语义表示,得到文档的语义表示向量;
分类模块,负责通过计算文档的语义表示向量之间的相似性,实现文档的分类。
CN201810443084.4A 2018-05-10 2018-05-10 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置 Active CN108595706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810443084.4A CN108595706B (zh) 2018-05-10 2018-05-10 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810443084.4A CN108595706B (zh) 2018-05-10 2018-05-10 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN108595706A CN108595706A (zh) 2018-09-28
CN108595706B true CN108595706B (zh) 2022-05-24

Family

ID=63637041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810443084.4A Active CN108595706B (zh) 2018-05-10 2018-05-10 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN108595706B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360658B (zh) * 2018-11-01 2021-06-08 北京航空航天大学 一种基于词向量模型的疾病模式挖掘方法及装置
CN109543036A (zh) * 2018-11-20 2019-03-29 四川长虹电器股份有限公司 基于语义相似度的文本聚类方法
CN109684629B (zh) * 2018-11-26 2022-12-16 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN109710926B (zh) * 2018-12-12 2023-08-29 内蒙古电力(集团)有限责任公司电力调度控制分公司 电网调度专业语言语义关系抽取方法、装置及电子设备
CN109920430A (zh) * 2019-01-10 2019-06-21 上海言通网络科技有限公司 语音识别语义处理系统及其方法
CN109885653B (zh) * 2019-01-30 2022-10-04 南京邮电大学 文本检索方法
CN110083828A (zh) * 2019-03-29 2019-08-02 珠海远光移动互联科技有限公司 一种文本聚类方法及装置
CN111858916B (zh) * 2019-04-01 2024-04-09 北京百度网讯科技有限公司 用于聚类句子的方法和装置
CN110196907A (zh) * 2019-04-15 2019-09-03 中国石油大学(华东) 一种多层次文本聚类方法和装置
CN110321925B (zh) * 2019-05-24 2022-11-18 中国工程物理研究院计算机应用研究所 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN110413865A (zh) * 2019-08-02 2019-11-05 知者信息技术服务成都有限公司 基于双向编码器表征模型的语义表示模型及其方法
US11176179B2 (en) 2019-09-24 2021-11-16 International Business Machines Corporation Assigning a new problem record based on a similarity to previous problem records
CN110765237B (zh) * 2019-10-10 2023-09-26 腾讯科技(深圳)有限公司 文档处理方法、装置、存储介质及电子设备
CN111008281B (zh) * 2019-12-06 2021-09-21 浙江大搜车软件技术有限公司 文本分类方法、装置、计算机设备和存储介质
CN111061877A (zh) * 2019-12-10 2020-04-24 厦门市美亚柏科信息股份有限公司 文本主题提取方法和装置
CN111611376B (zh) * 2020-04-16 2023-11-17 西交利物浦大学 基于用户生成文本的无监督学习的用户分类方法及装置
CN111680131B (zh) * 2020-06-22 2022-08-12 平安银行股份有限公司 基于语义的文档聚类方法、系统及计算机设备
CN112256874B (zh) * 2020-10-21 2023-08-08 平安科技(深圳)有限公司 模型训练方法、文本分类方法、装置、计算机设备和介质
CN112257419B (zh) * 2020-11-06 2021-05-28 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN112883154B (zh) * 2021-01-28 2022-02-01 平安科技(深圳)有限公司 文本主题挖掘方法、装置、计算机设备及存储介质
CN113486176B (zh) * 2021-07-08 2022-11-04 桂林电子科技大学 一种基于二次特征放大的新闻分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN107291895A (zh) * 2017-06-21 2017-10-24 浙江大学 一种快速的层次化文档查询方法
CN107391614A (zh) * 2017-07-04 2017-11-24 重庆智慧思特大数据有限公司 一种基于wmd的中文问答匹配方法
CN107590177A (zh) * 2017-07-31 2018-01-16 南京邮电大学 一种结合监督学习的中文文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN107291895A (zh) * 2017-06-21 2017-10-24 浙江大学 一种快速的层次化文档查询方法
CN107391614A (zh) * 2017-07-04 2017-11-24 重庆智慧思特大数据有限公司 一种基于wmd的中文问答匹配方法
CN107590177A (zh) * 2017-07-31 2018-01-16 南京邮电大学 一种结合监督学习的中文文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FromWord Embeddings To Document Distances;Matt J. Kusner 等;《Proceedings of the 32 nd International Conference on Machine》;20151231;1-10 *
基于WMD距离与近邻传播的新闻评论聚类;官赛萍 等;《中文信息学报》;20170930;第31卷(第7期);第203页的"摘要",第206-207页对应的"3.1.1 WMD算法" *
结合 TFIDF 方法与 Skip-gram 模型的文本分类方法研究;邬明强 等;《电子技术与软件工程》;20180327;第162-163页中的"2 方法" *

Also Published As

Publication number Publication date
CN108595706A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN108595706B (zh) 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
US10241995B2 (en) Unsupervised topic modeling for short texts
Dhingra et al. Embedding text in hyperbolic spaces
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
US20150095017A1 (en) System and method for learning word embeddings using neural language models
Goikoetxea et al. Random walks and neural network language models on knowledge bases
WO2020211720A1 (zh) 数据处理方法和代词消解神经网络训练方法
CN109002473B (zh) 一种基于词向量与词性的情感分析方法
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
Wang et al. Chinese text sentiment analysis using LSTM network based on L2 and Nadam
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
Raychev et al. Language-independent sentiment analysis using subjectivity and positional information
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
Sun et al. VCWE: visual character-enhanced word embeddings
Labeau et al. Character and subword-based word representation for neural language modeling prediction
CN106681986A (zh) 一种多维度情感分析系统
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
Romero et al. Category-based language models for handwriting recognition of marriage license books
Zhao et al. Commented content classification with deep neural network based on attention mechanism
Yang et al. Multi-intent text classification using dual channel convolutional neural network
CN107729509A (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN110162629B (zh) 一种基于多基模型框架的文本分类方法
CN107622129B (zh) 一种知识库的组织方法及装置、计算机存储介质
Aalaa Abdulwahab et al. Documents classification based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant