CN108733824B - 考虑专家知识的交互式主题建模方法及装置 - Google Patents

考虑专家知识的交互式主题建模方法及装置 Download PDF

Info

Publication number
CN108733824B
CN108733824B CN201810496873.4A CN201810496873A CN108733824B CN 108733824 B CN108733824 B CN 108733824B CN 201810496873 A CN201810496873 A CN 201810496873A CN 108733824 B CN108733824 B CN 108733824B
Authority
CN
China
Prior art keywords
word
distribution
theme
topic
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810496873.4A
Other languages
English (en)
Other versions
CN108733824A (zh
Inventor
刘业政
朱婷婷
杜非
姜元春
孙见山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201810496873.4A priority Critical patent/CN108733824B/zh
Publication of CN108733824A publication Critical patent/CN108733824A/zh
Application granted granted Critical
Publication of CN108733824B publication Critical patent/CN108733824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种考虑专家知识的交互式主题建模方法及装置。所述方法包括:获取初始文档集合;利用潜在狄利克雷分布模型LDA对初始文档集合进行主题提取,得到K个第一主题‑词分布;对每个主题‑词分布下的词语进行排序,获取每个主题‑词分布下的概率值较大的前L个词语;基于专家数据库对L个词语中每个词语进行评分,得到每个主题的待分配概率;根据待分配概率调整所述每个第一主题‑词分布下的所有词语的概率,得到每个主题的第二主题‑词分布;基于第二主题‑词分布,利用带约束的交互式主题模型获取初始文档集合的第三主题‑词分布。本发明实施例由专家对词语评分,可以提高第三主题‑词分布的准确度。

Description

考虑专家知识的交互式主题建模方法及装置
技术领域
本发明涉及文本数据处理技术领域,尤其涉及一种考虑专家知识的交互式主题建模方法及装置。
背景技术
随着在线社交媒体和电子商务网站等的发展,基于用户制造内容(UGC)的平台已经变成人们日常生活中不可缺少的部分。基于UGC的平台的发展,为企业带来了巨大的商业机会,可以帮助企业发现需求、研发产品以及进行客户管理等。
相关技术中对上述内容进行处理的过程中,通常会采用主题建模的方式发现上述内容中主题。然而,由于每个主题有不同的上下文环境,导致相同或者相似主题或者词语有不同的语义,使最终获取的内容主题存在语义信息模糊的问题。
发明内容
针对现有技术中的缺陷,本发明提供了一种考虑专家知识的交互式主题建模方法及装置,用于解决相关技术中主题建模时存在的语义信息模糊的技术问题。
第一方面,本发明实施例提供了一种考虑专家知识的交互式主题建模方法,所述方法包括:
获取初始文档集合;
利用潜在狄利克雷分布模型LDA对所述初始文档集合进行主题提取,得到K个第一主题-词分布;K为整数;
按照概率值大小的顺序对所述K个第一主题-词分布中每个主题-词分布下的词语进行排序,获取所述每个主题-词分布下的概率值较大的前L个词语;L小于或者等于K;
基于专家数据库对所述L个词语中每个词语进行评分,得到每个主题的待分配概率;
根据所述待分配概率调整所述每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布;
基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布。
可选地,获取初始文档集合包括:
获取原始语料;
对所述原始语料进行文本预处理,得到初始文档集合;所述文本预处理至少包括分词、去停用词和去除标点中的一种或者多种。
可选地,基于专家数据库对所述L个词语中每个词语进行评分包括:
从所述专家数据库中随机选取多位专家;
获取所述多位专家对所述L个词语中每个词语的评分;
计算所述每个词语的评分的平均值作为每个词语最终的评分。
可选地,基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布包括:
根据所述第二主题-词分布计算所述初始文档集合中所有词语中每个词语与所属主题的联合概率密度分布;
基于所述联合概率密度分布,利用吉布斯Gibbs抽样算法获取K个第三主题-词分布。
第二方面,本发明实施例提供了一种考虑专家知识的交互式主题建模装置,所述装置包括:
初始文档获取模块,用于获取初始文档集合;
第一分布获取模块,用于利用潜在狄利克雷分布模型LDA对所述初始文档集合进行主题提取,得到K个第一主题-词分布;K为整数;
主题排序模块,用于按照概率值大小的顺序对所述K个第一主题-词分布中每个主题-词分布下的词语进行排序,获取所述每个主题-词分布下的概率值较大的前L个词语;L小于或者等于K;
专家评分获取模块,用于基于专家数据库对所述L个词语中每个词语进行评分,得到每个主题的待分配概率;
第二分布获取模块,用于根据所述待分配概率调整所述每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布;
第三分布获取模块,用于基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布。
可选地,所述初始文档获取模块包括:
原始语料获取单元,用于获取原始语料;
初始文档获取单元,用于对所述原始语料进行文本预处理,得到初始文档集合;所述文本预处理至少包括分词、去停用词和去除标点中的一种或者多种。
可选地,所述专家评分获取模块包括:
专家选取单元,用于从所述专家数据库中随机选取多位专家;
词语评分单元,用于获取所述多位专家对所述L个词语中每个词语的评分;
评分计算单元,用于计算所述每个词语的评分的平均值作为每个词语最终的评分。
可选地,所述第三分布获取模块包括:
联合密度计算单元,用于根据所述第二主题-词分布计算所述初始文档集合中所有词语中每个词语与所属主题的联合概率密度分布;
第三分布获取单元,用于基于所述联合概率密度分布,利用吉布斯Gibbs抽样算法获取K个第三主题-词分布。
由上述技术方案可知,本发明实施例利用专家数据库对选出的L个词语进行评分,从而使得到的第二主题-词分布更准确,有利于解决或者缓解相关技术中语义信息模糊的问题,从而提高所得到的初始文档集合的第三主题-词分布的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的考虑专家知识的交互式主题建模方法的流程示意图;
图2~图5为本发明一实施例提供的交互式主题建模装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于相关技术中对UGC内容采用主题建模的过程中,由于每个主题有不同的上下文环境,导致相同或者相似主题或者词语有不同的语义,使最终获取的内容主题存在语义信息模糊的问题。
为解决上述技术问题,本发明实施例提供了一种考虑专家知识的交互式主题建模方法。图1为本发明一实施例提供的考虑专家知识的交互式主题建模方法的流程示意图。参见图1,一种考虑专家知识的交互式主题建模方法包括:
101,获取初始文档集合。
102,利用潜在狄利克雷分布模型LDA对所述初始文档集合进行主题提取,得到K个第一主题-词分布。
103,按照概率值大小的顺序对所述K个第一主题-词分布中每个主题-词分布下的词语进行排序,获取所述每个主题-词分布下的概率值较大的前L个词语。
104,基于专家数据库对所述L个词语中每个词语进行评分,得到每个主题的待分配概率。
105,根据所述待分配概率调整所述每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布。
106,基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布。
下面结合附图和实施例对考虑专家知识的交互式主题建模方法的各步骤作详细描述。
首先,介绍101,获取初始文档集合的步骤。
本实施例,从指定位置或者第三方提供商获取初始文档集合D=(D1,...,dd,...,D|D|)。其中,|D|表示文档数量,Dd表示第d篇文档。假设文档Dd的词语集合是w={w1,...,ww,...,w|W|}。所有文档的所有词语集合是w={w1,...,wi,...,wN},其中,N表示所有词语数量。
其次,介绍102,利用潜在狄利克雷分布模型LDA对所述初始文档集合进行主题提取,得到K个第一主题-词分布的步骤。
本实施例中利用潜在狄利克雷分布模型LDA对初始文档集合进行主题抽取。以抽取K个主题为例,可以得到K个主题-词分布:φ={φ1,...,φk,...,φK},φk表示第k个主题-词分布,每个主题-词分布是一个多项式概率分布,是在每个词语上的分布,
Figure BDA0001669420870000061
其中,
Figure BDA0001669420870000062
表示主题k在词语wt上的概率。
再次,介绍103,按照概率值大小的顺序对所述K个第一主题-词分布中每个主题-词分布下的词语进行排序,获取所述每个主题-词分布下的概率值较大的前L个词语的步骤。
本实施例中,按照概率值大小的顺序对K个第一主题-词分布中每个主题-词分布下的词语进行排序,即
Figure BDA0001669420870000071
其中
Figure BDA0001669420870000072
表示主题k第i大的概率的词语。然后,选择概率值较大的前L个词语。
第四,介绍104,基于专家数据库对所述L个词语中每个词语进行评分,得到每个主题的待分配概率的步骤。
本实施例中,从专家数据库中随机选择专家U对排序后的每个第一主题-词分布下前L个词语进行评分,评分值的范围是{0,0.2,0.4,0.6,0.8},分别表示该词语以多大的概率属于当前主题。专家U对主题k前L个词语的评分是:
Figure BDA0001669420870000073
根据每个词的评分结果,可以得到主题k的待分配概率
Figure BDA0001669420870000074
在一实施例中,从所述专家数据库中随机选取多位专家;获取所述多位专家对所述L个词语中每个词语的评分;计算所述每个词语的评分的平均值作为每个词语最终的评分。可见,通过多个专家评分的平均值,可以避免个别专家主观性太强,影响到评分的准确性。
第五,介绍105,根据所述待分配概率调整所述每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布的步骤。
本实施例中,根据待分配概率调整每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布。
对于专家调整的词语,每个词语的概率为:
Figure BDA0001669420870000075
式中,|U|表示专家调整的词语总数。
对于没有被专家调整的词语,每个词语的概率为:
Figure BDA0001669420870000081
从而,本实施例中可以得到第二主题-词分布是
Figure BDA0001669420870000082
第六,介绍106,基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布的步骤。
本实施例中,利用带约束的交互式主题模型iLDA获取初始文档集合的第三主题-词分布,步骤可以为:
(1)根据第二主题-词分布
Figure BDA0001669420870000083
计算所有词语中每个词语与所属主题的联合概率分布:
p(w,z,θ,φ|φnew,α,β)=p(w|z,φ,φnew)p(z|θ)p(θ|α)p(φ|β)。
式中,p(w|z,φ,φnew)=∑[λ1φ+λ2φnew],λ1和λ2是两个加权系数,λ12=1;并且λ1和λ2的取值范围是0-1之间;w是初始文档集合中所有词语的集合,z是初始文档集合中每个单词对应的主题编号集合,φ是初始文档集合中的主题-词分布,α和β分别是初始文档集合中主题分布和主题-词分布的先验。
(2)根据吉布斯Gibbs抽样算法,可以得到最终的K个主题-词分布φfinal
Figure BDA0001669420870000084
由上述技术方案可知,本发明实施例利用专家数据库对选出的L个词语进行评分,从而使得到的第二主题-词分布更准确,有利于解决或者缓解相关技术中语义信息模糊的问题,从而提高所得到的初始文档集合的第三主题-词分布的准确度。
为验证本发明实施例提供的一种考虑专家知识的交互式主题建模方法的有效性和优越性,本发明一实施例中对微博数据和路透社数据两个数据集进行主题抽取,其中抽取的主题使用一致性(Coherence)指标进行检验,得到选择主题数量为10的结果,如表1所示:
表1
Figure BDA0001669420870000091
本实施例中,一致性指标越大表明结果越好。通过表1中数据分析可知,对于微博数据iLDA对应的均值-577.195大于LDA对应的均值-585.018,对于路透社数据iLDA对应的均值-391.343大于LDA对应的均值-397.856,即本发明提供的交互式主题建模方法的结果优于经典主题模型。
图2为本发明一实施例提供的考虑专家知识的交互式主题建模装置。参见图2,本发明实施例还提供了一种考虑专家知识的交互式主题建模装置,所述装置包括:
初始文档获取模块201,用于获取初始文档集合;
第一分布获取模块202,用于利用潜在狄利克雷分布模型LDA对所述初始文档集合进行主题提取,得到K个第一主题-词分布;K为整数;
主题排序模块203,用于按照概率值大小的顺序对所述K个第一主题-词分布中每个主题-词分布下的词语进行排序,获取所述每个主题-词分布下的概率值较大的前L个词语;
专家评分获取模块204,用于基于专家数据库对所述L个词语中每个词语进行评分,得到每个主题的待分配概率;
第二分布获取模块205,用于根据所述待分配概率调整所述每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布;
第三分布获取模块206,用于基于所述第二主题-词分布,利用带约束的交互式主题模型iLDA获取所述初始文档集合的第三主题-词分布。
图3为本发明另一实施例提供的考虑专家知识的交互式主题建模装置。参见图3,在图2所示交互式主题建模装置的基础上,所述初始文档获取模块201包括:
原始语料获取单元301,用于获取原始语料;
初始文档获取单元302,用于对所述原始语料进行文本预处理,得到初始文档集合;所述文本预处理至少包括分词、去停用词和去除标点中的一种或者多种。
图4为本发明另一实施例提供的考虑专家知识的交互式主题建模装置。参见图4,在图2所示交互式主题建模装置的基础上,所述专家评分获取模块204包括:
专家选取单元401,用于从所述专家数据库中随机选取多位专家;
词语评分单元402,用于获取所述多位专家对所述L个词语中每个词语的评分;
评分计算单元403,用于计算所述每个词语的评分的平均值作为每个词语最终的评分。
图5为本发明另一实施例提供的考虑专家知识的交互式主题建模装置。参见图5,在图2所示交互式主题建模装置的基础上,所述第三分布获取模块206包括:
联合密度计算单元501,用于根据所述第二主题-词分布计算所述初始文档集合中所有词语中每个词语与所属主题的联合概率密度分布;
第三分布获取单元502,用于基于所述联合概率密度分布,利用吉布斯Gibbs抽样算法获取K个第三主题-词分布。
需要说明的是,本发明实施例提供的考虑专家知识的交互式主题建模装置与上述方法是一一对应的关系,上述方法的实施细节同样适用于上述装置,本发明实施例不再对上述系统进行详细说明。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (8)

1.一种考虑专家知识的交互式主题建模方法,其特征在于,所述方法包括:
获取初始文档集合;
利用潜在狄利克雷分布模型LDA对所述初始文档集合进行主题提取,得到K个第一主题-词分布;K为整数;
按照概率值大小的顺序对所述K个第一主题-词分布中每个主题-词分布下的词语进行排序,获取所述每个主题-词分布下的概率值较大的前L个词语;
基于专家数据库对所述L个词语中每个词语进行评分,得到每个主题的待分配概率;
根据所述待分配概率调整所述每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布;
基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布。
2.根据权利要求1所述的交互式主题建模方法,其特征在于,获取初始文档集合包括:
获取原始语料;
对所述原始语料进行文本预处理,得到初始文档集合;所述文本预处理至少包括分词、去停用词和去除标点中的一种或者多种。
3.根据权利要求1所述的交互式主题建模方法,其特征在于,基于专家数据库对所述L个词语中每个词语进行评分包括:
从所述专家数据库中随机选取多位专家;
获取所述多位专家对所述L个词语中每个词语的评分;
计算所述每个词语的评分的平均值作为每个词语最终的评分。
4.根据权利要求1所述的交互式主题建模方法,其特征在于,基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布包括:
根据所述第二主题-词分布计算所述初始文档集合中所有词语中每个词语与所属主题的联合概率密度分布;
基于所述联合概率密度分布,利用吉布斯Gibbs抽样算法获取K个第三主题-词分布。
5.一种考虑专家知识的交互式主题建模装置,其特征在于,所述装置包括:
初始文档获取模块,用于获取初始文档集合;
第一分布获取模块,用于利用潜在狄利克雷分布模型LDA对所述初始文档集合进行主题提取,得到K个第一主题-词分布;K为整数;
主题排序模块,用于按照概率值大小的顺序对所述K个第一主题-词分布中每个主题-词分布下的词语进行排序,获取所述每个主题-词分布下的概率值较大的前L个词语;
专家评分获取模块,用于基于专家数据库对所述L个词语中每个词语进行评分,得到每个主题的待分配概率;
第二分布获取模块,用于根据所述待分配概率调整所述每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布;
第三分布获取模块,用于基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布。
6.根据权利要求5所述的交互式主题建模装置,其特征在于,所述初始文档获取模块包括:
原始语料获取单元,用于获取原始语料;
初始文档获取单元,用于对所述原始语料进行文本预处理,得到初始文档集合;所述文本预处理至少包括分词、去停用词和去除标点中的一种或者多种。
7.根据权利要求5所述的交互式主题建模装置,其特征在于,所述专家评分获取模块包括:
专家选取单元,用于从所述专家数据库中随机选取多位专家;
词语评分单元,用于获取所述多位专家对所述L个词语中每个词语的评分;
评分计算单元,用于计算所述每个词语的评分的平均值作为每个词语最终的评分。
8.根据权利要求5所述的交互式主题建模装置,其特征在于,所述第三分布获取模块包括:
联合密度计算单元,用于根据所述第二主题-词分布计算所述初始文档集合中所有词语中每个词语与所属主题的联合概率密度分布;
第三分布获取单元,用于基于所述联合概率密度分布,利用吉布斯Gibbs抽样算法获取K个第三主题-词分布。
CN201810496873.4A 2018-05-22 2018-05-22 考虑专家知识的交互式主题建模方法及装置 Active CN108733824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810496873.4A CN108733824B (zh) 2018-05-22 2018-05-22 考虑专家知识的交互式主题建模方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810496873.4A CN108733824B (zh) 2018-05-22 2018-05-22 考虑专家知识的交互式主题建模方法及装置

Publications (2)

Publication Number Publication Date
CN108733824A CN108733824A (zh) 2018-11-02
CN108733824B true CN108733824B (zh) 2020-07-03

Family

ID=63938818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810496873.4A Active CN108733824B (zh) 2018-05-22 2018-05-22 考虑专家知识的交互式主题建模方法及装置

Country Status (1)

Country Link
CN (1) CN108733824B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695020A (zh) * 2020-06-15 2020-09-22 广东工业大学 一种基于Hadoop平台的信息推荐方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164463A (zh) * 2011-12-16 2013-06-19 国际商业机器公司 推荐标签的方法和装置
CN104021222A (zh) * 2014-06-26 2014-09-03 深圳信息职业技术学院 一种基于隐形狄利克雷模型的生物医学图像的标注算法
CN105183833A (zh) * 2015-08-31 2015-12-23 天津大学 一种基于用户模型的微博文本推荐方法及其推荐装置
US9275332B2 (en) * 2012-10-10 2016-03-01 International Business Machines Corporation Systems, methods, and computer program products for expediting expertise

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10860829B2 (en) * 2015-01-16 2020-12-08 Oracle International Corporation Data-parallel parameter estimation of the Latent Dirichlet allocation model by greedy Gibbs sampling
US9767416B2 (en) * 2015-02-04 2017-09-19 Oracle International Corporation Sparse and data-parallel inference method and system for the latent Dirichlet allocation model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164463A (zh) * 2011-12-16 2013-06-19 国际商业机器公司 推荐标签的方法和装置
US9275332B2 (en) * 2012-10-10 2016-03-01 International Business Machines Corporation Systems, methods, and computer program products for expediting expertise
CN104021222A (zh) * 2014-06-26 2014-09-03 深圳信息职业技术学院 一种基于隐形狄利克雷模型的生物医学图像的标注算法
CN105183833A (zh) * 2015-08-31 2015-12-23 天津大学 一种基于用户模型的微博文本推荐方法及其推荐装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于LDA的社科文献主题建模方法;李昌亚等;《计算机技术与发展》;20180228;全文 *

Also Published As

Publication number Publication date
CN108733824A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108399163B (zh) 结合词聚合与词组合语义特征的文本相似性度量方法
CN108197111B (zh) 一种基于融合语义聚类的文本自动摘要方法
CN108073568B (zh) 关键词提取方法和装置
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN110297988A (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN112527981B (zh) 开放式信息抽取方法、装置、电子设备及存储介质
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
CN111241824B (zh) 一种用于中文隐喻信息识别的方法
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN107832467A (zh) 一种基于改进的Single‑pass聚类算法的微博话题检测方法
CN113988053A (zh) 一种热词提取方法及装置
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN109903198B (zh) 专利对比分析方法
CN110765266A (zh) 一种裁判文书相似争议焦点合并方法及系统
CN110929022A (zh) 一种文本摘要生成方法及系统
CN108733824B (zh) 考虑专家知识的交互式主题建模方法及装置
Tutaysalgir et al. Clustering based personality prediction on turkish tweets
CN115600602B (zh) 一种长文本的关键要素抽取方法、系统及终端设备
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN110413985B (zh) 一种相关文本片段搜索方法及装置
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
CN112948527B (zh) 一种改进的TextRank关键词提取方法及装置
CN111178038B (zh) 一种基于潜在语义分析的文档相似度识别方法及装置
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
CN108256055B (zh) 一种基于数据增强的主题建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant