CN109086375A - 一种基于词向量增强的短文本主题抽取方法 - Google Patents
一种基于词向量增强的短文本主题抽取方法 Download PDFInfo
- Publication number
- CN109086375A CN109086375A CN201810816147.6A CN201810816147A CN109086375A CN 109086375 A CN109086375 A CN 109086375A CN 201810816147 A CN201810816147 A CN 201810816147A CN 109086375 A CN109086375 A CN 109086375A
- Authority
- CN
- China
- Prior art keywords
- word
- theme
- short text
- semantic
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于词向量增强的短文本主题抽取方法,具体涉及了一种新的短文本主题抽取模型,称为CRFTM(Condition Random Field regularized Topic Model)。首先,本发明设计了一种通用的短文本距离衡量方式——基于词向量的平均最小距离,通过将短文本聚合成伪文档来缓解稀疏性问题。其次,CRFTM还利用条件随机场(CRF)正则化模型,对语义相关的词语进行语义强化,使其以更高的概率分配至同一的主题。在新闻数据集上的实验结果表明,本发明的短文本主题抽取方法在主题连贯性指标上优于5种基准主题模型。
Description
技术领域
本发明属于短文本主题抽取算法技术领域,这种技术是结合词语的分布式表示和基于条件随机场的语义增强两方面优势提出的一种新的基于词向量增强的短文本主题抽取方法。
背景技术
随着社交网络的兴起,短文本己成为网络上信息传递的主要载体。例如网页的标题、微博、知乎、Facebook等网站的主要内容都是以短文本的形式呈现。主题模型是一种用于发现文档集合中抽象的“主题”的概率统计模型,可以帮助普通用户通过简单的主题或关键词从海量短文本数据中挖掘出有价值的信息资源。减轻用户阅读负担,提高阅读质量,有着十分重要的应用意义。从短文本中发现主题信息还有着其他广泛的应用场景,例如舆情监控、用户兴趣挖掘、新兴话题发现等等。
传统的主题模型依赖于文本中的词之间的共现关系来抽取文档主题,而短文本字数较少的特点使得其词共现信息非常稀疏。而这种稀疏性导致传统的主题模型在短文本主题挖掘方面的效果并不理想。一种行之有效的方法是将相似的短文本进行合并,聚合成为伪长文本。例如,将微博中同一用户发的多条微博整合在一起,成为一个伪长文本,然后再利用传统的主题模型抽取此伪长文本的主题,在主题抽取的连贯性上有一定的提升。这种方法的问题在于它首先假设相似的短文本具有相同的主题分布,然而并非所有的短文本都和微博一样,同一用户发布的多条微博在主题上有一定的延续性。因此,这种方法无法应用多样化的短文本领域中,有一定的局限性。
近年来,还出现了一些利用词向量提高主题模型在短文本上性能的方法。这类方法利用词向量内在丰富的语义关系,增强短文本的语言关联,缓解上述稀疏性问题,在词向量上进行主题抽取,提高短文本主题建模的能力。虽然此类方法从一定程度上提高了模型表现,但却忽略了词向量的生成机制导致每个词仅对应一个词向量,而对于多义词,这种机制会在主题建模过程中加入噪声,从而影响主题抽取效果,这也是本发明要解决的问题。
发明内容
本发明旨在发现一种将短文本聚合成伪长文本的通用方法,不受短文本形式的限制。并设计一种新的主题模型在利用词向量增强主题建模的同时,可以区分词义差别,以克服多义词的噪声问题。本发明通过将条件随机场融入LDA主题模型利用语义关联增强相似词归属同一主题的概率,从而有效增强短文本主题抽取的连贯性,剔除噪声。
本发明是一种基于词向量增强的短文本主题模型构建方法,具体步骤如下:
一种基于词向量增强的短文本主题抽取方法,其特征在于,包括:
步骤1、对短文本语料数据集进行预处理;
步骤2、利用基于词向量的平均最小距离对短文本聚类,生成伪长文本,具体是基于以下定义:对于短文本s1和s2,计算出s1中的每个词与s2中每个词的词向量余弦相似度,并将其保存在距离矩阵D中;D中每行的最小距离平均值表示s1到s2的距离d(s1->s2),而每列的最小距离平均值表示s2到s1的距离d(s2->s1),则衡量s1,s2之间的距离的方式为
步骤3、识别伪长文本中的语义相关词对,为步骤4语义强化奠定基础;具体是首先判断词对中两个词的词向量余弦相似度是否小于设定阈值;若小于设定阈值,则将该词对识别为语义相关词对,对其进行语义强化,否则,不进行语义强化;
步骤4、基于主题模型CRFTM对强化后的伪长文本进行主题抽取,具体是利用条件随机场将语义强化机制融入主题层,使得语义相关词汇以高概率归属于同一主题,并利用下上文相关词来消除主题推断过程中所产生的噪声;
步骤5、利用坍缩吉布斯采样的方法对如下CRFTM模型的主题后验分布进行参数推断。
在上述的一种基于词向量增强的短文本主题抽取方法,步骤1中预处理基于以下处理条件:
处理条件一、将所有字母转变为小写字母;
处理条件二、过滤掉非拉丁字符和停用词;
处理条件三、过滤掉出现次数小于设定次数的词。
在上述的一种基于词向量增强的短文本主题抽取方法,步骤2中,对短文本聚类的具体方法是利用K中心点聚类将短文本聚合成伪长文本,具体是基于目标函数:
其中,d(si,ci)表示短文本si和聚类中心cj之间的基于词向量的平均最小距离;通过K中心点聚类,所有短文本将聚合成伪长文本。
在上述的一种基于词向量增强的短文本主题抽取方法,所述步骤3中,对于伪长文档中的每个词对(wi,wi),如果满足条件d(wi,wi)<μ,其中d(wi,wi)表示词对两个词向量的余弦相似度,μ表示设定阈值,则将该词对识别为语义相关词对,词wi和词wj之间是语义强化关系。
在上述的一种基于词向量增强的短文本主题抽取方法,所述步骤4中,若两个词之间是语义强化的关系,则在CRFTM概率图模型中,用一条无向边连接它们的主题标签,此时,主题标签的联合概率如下所示:
其中zm表示第m篇伪长文本的主题概率分布,xm表示第m篇伪长文本的下上文相关词概率分布,如果词wi的上下文相关词xi与wj的余弦相似度超过设定阈值,则解除词wi和词wj之间是语义强化关系,以消除主题推断过程中所产生的噪声;Nm代表第m篇文章的长度,ψ(.)表示语义强化函数,如下所示:
其中,λ是平衡超参数,如果λ为0,CRFTM则和LDA模型一致;A是概率归一化因子;E表示语义强化连通图;f(zmi,zmj)是计数函数,表示wmi有多少个语义强化词属于同一主题zmi,最终强化词wmi归属于主题zmi的概率。
在上述的一种基于词向量增强的短文本主题抽取方法,所述步骤5中,进行参数推断基于以下公式:
其中,V表示字典的词汇个数,α是θ的狄利克雷先验分布参数,β是的狄利克雷先验分布参数,充分统计量表示将词wmi排除出伪长文档m或主题k之外的计数;根据狄利克雷分布与多项式分布的共轭关系,能够依次估计出文档-主题分布θ和主题-词分布
其中,表示词w属于主题k的概率,θm,k表示伪长文本m属于主题k的概率,表示第m篇伪长文本中词汇w属于主题k出现的次数,表示第m篇伪长文本中主题k出现的次数。
因此本发明具有如下优点:1、本发明利用基于词向量的平均最小距离,通过聚类的方式解决了传统主题模型应用在短文本上的稀疏性问题。并且,这种距离衡量方式并不受短文本形式的限制,大大提高了本发明的普适性。2、本发明设计了一种新的主题模型,利用条件随机场在主题层融入语义强化的外部信息,实现了短文本上抽取高质量主题的抽取。
附图说明
附图1是CRFTM概率图模型示意图。
附图2是基于词向量增强的短文本主题抽取方法的框架图。
附图3a是与基准方法的主题连贯性比较示意图(主题个数为5)。
附图3b是与基准方法的主题连贯性比较示意图(主题个数为10)。
具体实施方式
一、本发明所提出的方法和基准主题模型通过实验比较可以验证本发明方法的高效性。本发明实验所用的数据集是从三家热门报纸网站(纽约时报nyt.com,今日美国usatoday.com,路透社reuters.com)的RSS中提取的31,150条英文新闻文章的新闻描述,因为它们是典型的短文本。新闻的分类分别是:体育,商业,美国,健康,科技,世界和娱乐。为了保证实验的准确性,本发明做了如下预处理工作:
1、基于词向量的平均最小距离:本发明利用词向量衡量短文本之间的距离,提出基于词向量的平均最小距离,可以作为一种通用的短文本距离评价标准,而不受短文本形式的影响。具体来说,距离矩阵D中的第i行第j列的数据表示着短文本s1中第i个词与短文本s2中第j个词的词向量的余弦相似度,而两个短文本之间的距离可由它们中每一个词之间的平均最小距离表示。即使两个短文本中没有一个完全相同的词,这种短文本的距离衡量方式也能够有效的评价出两个短文本之间的主题相似度。此外,基于词向量的最小平均距离并不受短文本形式的限制,大大提高了本发明的普适性。
2、当有了短文本距离评价方式之后,本发明利用K中心点聚类的方式将短文本聚合成伪长文本,从而克服主题模型在短文本上的稀缺性问题。K-means聚类是每次选簇的均值作为新的中心,迭代直到簇中对象分布不再变化。其缺点是对于离群点是敏感的,因为一个具有很大极端值的对象会扭曲数据分布。因此,本发明利用K中心点聚类,新的簇中心不选择均值而是选择簇内的某个对象来克服这一问题。此外,本发明还对K中心点聚类进行约束,使得聚类后的每类数量相同,进一步缓解短文本的稀疏性问题。当有n条短文本要聚合成m条伪长文本,算法的目标是最小化公式(1)所示的目标函数。
其中,d(si,ci)表示短文本si和聚类中心cj之间的基于词向量的平均最小距离。通过K中心点聚类,所有短文本将聚合成伪长文本,一定程度上缓解稀疏性问题,为下一步主题抽取奠定坚实基础。
3、本发明基于LDA提出一种新的主题模型CRFTM。CRFTM利用条件随机场在主题层融入语义强化的外部信息,可以在伪长文档上抽取高质量主题。语义强化指的是当一篇文档中的两个词向量的余弦相似度小于某个阈值,则给予它们更高的概率归属于同一主题。对于伪长文档中的每个词对(wi,wi),如果满足条件d(wi,wi)<μ,其中d(wi,wi)表示词对两个词向量的余弦相似度,μ表示设定阈值,则将该词对识别为语义相关词对,词wi和词wj之间是语义强化关系。由于词向量的机制是每个词仅有一个对应的词向量,这对于多义词来说,会在语义强化过程加入噪声。因此本发明还利用下上文相关词来克服这种情况,如果词wi的上下文相关词xi与wj的余弦相似度超过设定阈值,则解除词wi和词wj之间是语义强化关系。如附图1所示,在CRFTM概率图模型中,如果两个词之间是语义强化的关系,则用一条无向边连接它们的主题标签(例如:(zm1,zm2),(zm1,zm4),(zm1,zm5),(zm2,zm6),(zm3,zm6)),此时,主题标签的联合概率如下所示:
其中zm表示第m篇伪长文本的主题概率分布,xm表示第m篇伪长文本的下上文相关词概率分布,Nm代表第m篇文章的长度,ψ(.)表示语义强化函数,如下所示:
其中,λ是平衡超参数,如果λ为0,CRFTM则和LDA模型一致;A是概率归一化因子;E表示语义强化连通图;f(zmi,zmj)是计数函数,表示wmi有多少个语义强化词属于同一主题zmi。通过这一机制,词wmi归属于主题zmi的概率将得到强化。
4、本发明利用坍缩吉布斯采样的方法对如下CRFTM模型的主题后验分布进行参数推断:
其中,V表示字典的词汇个数,α是θ的狄利克雷先验分布参数,β是的狄利克雷先验分布参数,充分统计量表示将词wmi排除出伪长文档m或主题k之外的计数。根据狄利克雷分布与多项式分布的共轭关系,能够依次估计出文档-主题分布θ和主题-词分布
其中,表示词w属于主题k的概率,θm,k表示伪长文本m属于主题k的概率,表示第m篇伪长文本中词汇w属于主题k出现的次数,表示第m篇伪长文本中主题k出现的次数。
二、本发明的具体实施方式流程图如附图2所示。实现过程如下:
1、根据实验数据的特性进行数据预处理,(1)将所有字母转变为小写字母;(2)过滤掉非拉丁字符和停用词;(3)过滤掉出现次数小于3的词。
2、利用基于词向量的平均最小距离对短文本聚类,生成伪长文本。词向量使用谷歌word2vec工具,如果某个词没有词向量,则不会对该词进行语义强化。
3、使用本发明所提出主题模型CRFTM对伪长文本进行主题抽取。CRFTM利用条件随机场将语义强化机制融入主题层,使得语义相关词汇以更高概率归属于同一主题,并利用下上文相关词来消除主题推断过程中所产生的噪声。
最后,本发明通过计算不同主题数,不同主题词下的主题连贯性与主流基准主题模型LDA,MRF-LDA,BTM,PTM,GPU-DMM比较主题抽取质量。本发明的超参数α=50/K,β=0.01;吉布斯采样次数为1000词;当两个词词向量的余弦相似度小于0.3则进行语义强化。实验结果如附图3所示,本发明的实验效果要优于5种基准主题模型。这是因为本发明从伪长文本中抽取主题,这显著提高了主题抽取的质量。此外,CRFTM利用语义强化机制促进语义相关词汇归属于同一主题,并利用下上文相关词来消除噪音词,使得主题语义相关性更强。
Claims (6)
1.一种基于词向量增强的短文本主题抽取方法,其特征在于,包括:
步骤1、对短文本语料数据集进行预处理;
步骤2、利用基于词向量的平均最小距离对短文本聚类,生成伪长文本,具体是基于以下定义:对于短文本s1和s2,计算出s1中的每个词与s2中每个词的词向量余弦相似度,并将其保存在距离矩阵D中;D中每行的最小距离平均值表示s1到s2的距离d(s1->s2),而每列的最小距离平均值表示s2到s1的距离d(s2->s1),则衡量s1,s2之间的距离的方式为
步骤3、识别伪长文本中的语义相关词对,为步骤4语义强化奠定基础;具体是首先判断词对中两个词的词向量余弦相似度是否小于设定阈值;若小于设定阈值,则将该词对识别为语义相关词对,对其进行语义强化,否则,不进行语义强化;
步骤4、基于主题模型CRFTM对强化后的伪长文本进行主题抽取,具体是利用条件随机场将语义强化机制融入主题层,使得语义相关词汇以高概率归属于同一主题,并利用下上文相关词来消除主题推断过程中所产生的噪声;
步骤5、利用坍缩吉布斯采样的方法对如下CRFTM模型的主题后验分布进行参数推断。
2.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法,其特征在于,步骤1中预处理基于以下处理条件:
处理条件一、将所有字母转变为小写字母;
处理条件二、过滤掉非拉丁字符和停用词;
处理条件三、过滤掉出现次数小于设定次数的词。
3.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法,其特征在于,步骤2中,对短文本聚类的具体方法是利用K中心点聚类将短文本聚合成伪长文本,具体是基于目标函数:
其中,d(si,ci)表示短文本si和聚类中心cj之间的基于词向量的平均最小距离;通过K中心点聚类,所有短文本将聚合成伪长文本。
4.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法,其特征在于,所述步骤3中,对于伪长文档中的每个词对(wi,wi),如果满足条件d(wi,wi)<μ,其中d(wi,wi)表示词对两个词向量的余弦相似度,μ表示设定阈值,则将该词对识别为语义相关词对,词wi和词wj之间是语义强化关系。
5.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法,其特征在于,所述步骤4中,若两个词之间是语义强化的关系,则在CRFTM概率图模型中,用一条无向边连接它们的主题标签,此时,主题标签的联合概率如下所示:
其中zm表示第m篇伪长文本的主题概率分布,xm表示第m篇伪长文本的下上文相关词概率分布,如果词wi的上下文相关词xi与wj的余弦相似度超过设定阈值,则解除词wi和词wj之间是语义强化关系,以消除主题推断过程中所产生的噪声;Nm代表第m篇文章的长度,ψ(.)表示语义强化函数,如下所示:
其中,λ是平衡超参数,如果λ为0,CRFTM则和LDA模型一致;A是概率归一化因子;E表示语义强化连通图;f(zmi,zmj)是计数函数,表示wmi有多少个语义强化词属于同一主题zmi,最终强化词wmi归属于主题zmi的概率。
6.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法,其特征在于,所述步骤5中,进行参数推断基于以下公式:
其中,V表示字典的词汇个数,α是θ的狄利克雷先验分布参数,β是的狄利克雷先验分布参数,充分统计量表示将词wmi排除出伪长文档m或主题k之外的计数;根据狄利克雷分布与多项式分布的共轭关系,能够依次估计出文档-主题分布θ和主题-词分布
其中,表示词w属于主题k的概率,θm,k表示伪长文本m属于主题k的概率,表示第m篇伪长文本中词汇w属于主题k出现的次数,表示第m篇伪长文本中主题k出现的次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810816147.6A CN109086375B (zh) | 2018-07-24 | 2018-07-24 | 一种基于词向量增强的短文本主题抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810816147.6A CN109086375B (zh) | 2018-07-24 | 2018-07-24 | 一种基于词向量增强的短文本主题抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109086375A true CN109086375A (zh) | 2018-12-25 |
CN109086375B CN109086375B (zh) | 2021-10-22 |
Family
ID=64838204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810816147.6A Active CN109086375B (zh) | 2018-07-24 | 2018-07-24 | 一种基于词向量增强的短文本主题抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086375B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840324A (zh) * | 2019-01-09 | 2019-06-04 | 武汉大学 | 一种语义强化主题模型及主题演化分析方法 |
CN109918509A (zh) * | 2019-03-12 | 2019-06-21 | 黑龙江世纪精彩科技有限公司 | 基于信息提取的场景生成方法及场景生成系统的存储介质 |
CN110069635A (zh) * | 2019-04-30 | 2019-07-30 | 秒针信息技术有限公司 | 一种热度词的确定方法及装置 |
CN110263854A (zh) * | 2019-06-20 | 2019-09-20 | 广州酷狗计算机科技有限公司 | 直播标签确定方法、装置及存储介质 |
CN110532556A (zh) * | 2019-08-29 | 2019-12-03 | 苏州朗动网络科技有限公司 | 文本新闻的处理方法、设备和存储介质 |
CN111368068A (zh) * | 2020-03-18 | 2020-07-03 | 江苏鸿程大数据技术与应用研究院有限公司 | 一种基于词性特征和语义增强的短文本主题建模方法 |
CN111881257A (zh) * | 2020-07-24 | 2020-11-03 | 广州大学 | 基于主题词和语句主旨的自动匹配方法、系统及存储介质 |
CN111897952A (zh) * | 2020-06-10 | 2020-11-06 | 中国科学院软件研究所 | 一种面向社交媒体的敏感数据发现方法 |
CN112686043A (zh) * | 2021-01-12 | 2021-04-20 | 武汉大学 | 一种基于词向量的企业所属新兴产业分类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103024017A (zh) * | 2012-12-04 | 2013-04-03 | 武汉大学 | 一种社交网络重要目标及社区群体识别方法 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
US20160117589A1 (en) * | 2012-12-04 | 2016-04-28 | Msc Intellectual Properties B.V. | System and method for automatic document classification in ediscovery, compliance and legacy information clean-up |
CN107451187A (zh) * | 2017-06-23 | 2017-12-08 | 天津科技大学 | 基于互约束主题模型的半结构短文本集中子话题发现方法 |
CN107798043A (zh) * | 2017-06-28 | 2018-03-13 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
-
2018
- 2018-07-24 CN CN201810816147.6A patent/CN109086375B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103024017A (zh) * | 2012-12-04 | 2013-04-03 | 武汉大学 | 一种社交网络重要目标及社区群体识别方法 |
US20160117589A1 (en) * | 2012-12-04 | 2016-04-28 | Msc Intellectual Properties B.V. | System and method for automatic document classification in ediscovery, compliance and legacy information clean-up |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN107451187A (zh) * | 2017-06-23 | 2017-12-08 | 天津科技大学 | 基于互约束主题模型的半结构短文本集中子话题发现方法 |
CN107798043A (zh) * | 2017-06-28 | 2018-03-13 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
Non-Patent Citations (1)
Title |
---|
TAO P ET AL.: "Parallelization of massive textstream compression based on compressed sensing", 《ACM TRANSACTIONS ON INFORMATION SYSTEMS》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840324A (zh) * | 2019-01-09 | 2019-06-04 | 武汉大学 | 一种语义强化主题模型及主题演化分析方法 |
CN109840324B (zh) * | 2019-01-09 | 2023-03-24 | 武汉大学 | 一种语义强化主题模型构建方法及主题演化分析方法 |
CN109918509A (zh) * | 2019-03-12 | 2019-06-21 | 黑龙江世纪精彩科技有限公司 | 基于信息提取的场景生成方法及场景生成系统的存储介质 |
CN110069635A (zh) * | 2019-04-30 | 2019-07-30 | 秒针信息技术有限公司 | 一种热度词的确定方法及装置 |
CN110263854A (zh) * | 2019-06-20 | 2019-09-20 | 广州酷狗计算机科技有限公司 | 直播标签确定方法、装置及存储介质 |
CN110532556A (zh) * | 2019-08-29 | 2019-12-03 | 苏州朗动网络科技有限公司 | 文本新闻的处理方法、设备和存储介质 |
CN111368068A (zh) * | 2020-03-18 | 2020-07-03 | 江苏鸿程大数据技术与应用研究院有限公司 | 一种基于词性特征和语义增强的短文本主题建模方法 |
CN111897952B (zh) * | 2020-06-10 | 2022-10-14 | 中国科学院软件研究所 | 一种面向社交媒体的敏感数据发现方法 |
CN111897952A (zh) * | 2020-06-10 | 2020-11-06 | 中国科学院软件研究所 | 一种面向社交媒体的敏感数据发现方法 |
CN111881257A (zh) * | 2020-07-24 | 2020-11-03 | 广州大学 | 基于主题词和语句主旨的自动匹配方法、系统及存储介质 |
CN111881257B (zh) * | 2020-07-24 | 2022-06-03 | 广州大学 | 基于主题词和语句主旨的自动匹配方法、系统及存储介质 |
CN112686043A (zh) * | 2021-01-12 | 2021-04-20 | 武汉大学 | 一种基于词向量的企业所属新兴产业分类方法 |
CN112686043B (zh) * | 2021-01-12 | 2024-02-06 | 武汉大学 | 一种基于词向量的企业所属新兴产业分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109086375B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086375A (zh) | 一种基于词向量增强的短文本主题抽取方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
CN108763362A (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN107861951A (zh) | 智能客服中的会话主题识别方法 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN109960724A (zh) | 一种基于tf-idf的文本摘要方法 | |
CN109960763A (zh) | 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 | |
CN108376133A (zh) | 基于情感词扩充的短文本情感分类方法 | |
CN107066555A (zh) | 面向专业领域的在线主题检测方法 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN107656920B (zh) | 一种基于专利的科技人才推荐方法 | |
CN108920482A (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
CN112989802A (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
Bhutada et al. | Semantic latent dirichlet allocation for automatic topic extraction | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Park et al. | Improving the accuracy and diversity of feature extraction from online reviews using keyword embedding and two clustering methods | |
CN113626604B (zh) | 基于最大间隔准则的网页文本分类系统 | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 | |
CN109344252B (zh) | 基于优质主题扩展的微博文本分类方法及系统 | |
CN106503064B (zh) | 一种自适应微博话题摘要的生成方法 | |
CN112463966B (zh) | 虚假评论检测模型训练方法、检测方法及装置 | |
Rafrafi et al. | Coping with the document frequency bias in sentiment classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |