CN111460154A - 一种科技文档的聚类方法 - Google Patents

一种科技文档的聚类方法 Download PDF

Info

Publication number
CN111460154A
CN111460154A CN202010237966.2A CN202010237966A CN111460154A CN 111460154 A CN111460154 A CN 111460154A CN 202010237966 A CN202010237966 A CN 202010237966A CN 111460154 A CN111460154 A CN 111460154A
Authority
CN
China
Prior art keywords
scientific
document
clustering
documents
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010237966.2A
Other languages
English (en)
Other versions
CN111460154B (zh
Inventor
赵晓平
胡昌斌
苏文伟
罗芳
陈达
张劲松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Yunnan Power Grid Co Ltd
Original Assignee
Information Center of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Yunnan Power Grid Co Ltd filed Critical Information Center of Yunnan Power Grid Co Ltd
Priority to CN202010237966.2A priority Critical patent/CN111460154B/zh
Publication of CN111460154A publication Critical patent/CN111460154A/zh
Application granted granted Critical
Publication of CN111460154B publication Critical patent/CN111460154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Abstract

本申请公开了一种科技文档的聚类方法,获取科技文档的主题因子以及每个主题因子对应的权重,将N篇科技文档集合形成一个数据矩阵,利用数据矩阵,计算每两篇科技文档的相异度,得到相异矩阵,再利用K‑means算法,对相异矩阵进行计算,将多篇科技文档聚类成K个聚族。本申请的科技文档的聚类方法用于对科技文档进行分类,该分类过程简单、易操作,且准确率高。对于聚类后的科技文档,可方便科研人员查阅,从而为后续科技项目的申报规划、科技成果的转化提供数据支持。

Description

一种科技文档的聚类方法
技术领域
本申请涉及科技成果管理技术领域,尤其涉及一种科技文档的聚类方法。
背景技术
随着国家、企业、科研机构以及个人对科研事业的重视及深入,各类科技成果层出不穷,相应的,记录科技成果的文档(以下简称为科文档)也随之增加,常见的科技文档包括专利、学术论文、会议纪要、计算机软件著作权、集成电路布图设计、检测方法、技术规范、技术诀窍、技术使用许可证等。
面对大量且繁杂的科技文档,当前对其的管理仍以简单的文档资料存储为主,加之科技成果的分类体系与管理方法多种多样,不仅耗费大量的人力、物力,而且统计分析过程琐碎繁杂。另外,靠人工进行归档无法在信息化的技术手段下直接进行有效的分析,需要通过处理和研究之后才能进行深入的分析,容易造成科技成果的分类不准确,从而使科技成果中的相关成果分布广泛、分散、杂乱,不利于大众的查阅。
发明内容
本申请提供了一种科技文档的聚类方法,以解决现有的科技文档聚类方法中,分类准确度较低的问题。
本申请提供了一种科技文档的聚类方法,用于对n篇科技文档进行分类,其中,n为正整数,包括:
获取每篇科技文档的聚类对象,其中,所述聚类对象包括该篇科技文档的题目、摘要、结论、研究内容以及验收意见;
利用每篇科技文档的聚类对象,获取该篇科技文档对应的主题因子以及每个主题因子对应的权重,其中,第i篇科技文档的主题因子为gi1,gi2,…,gim,对应的权重为Q(sgi1),Q(sgi2),…Q(sgim),i=1,2,…,n,m为正整数;
将N篇科技文档集合,形成一个数据矩阵
Figure BDA0002431632570000011
其中,n代表第n篇科技文档,m代表该篇科技文档中第m个主题因子对应的权重;
利用数据矩阵
Figure BDA0002431632570000012
计算每两篇科技文档的相异度,得到n×n维的相异矩阵
Figure BDA0002431632570000013
其中,d(i,j)表示第i篇科技文档与第j篇科技文档之间的相异度,d(i,j)的计算公式为
Figure BDA0002431632570000014
利用K-means算法,对相异矩阵
Figure BDA0002431632570000021
进行计算,将n篇科技文档聚类成K个聚族。
可选地,利用每篇科技文档的聚类对象,获取该篇科技文档对应的主题因子以及每个主题因子对应的权重,包括:
对每篇科技文档的聚类对象的进行分词处理,获得多个分词语语;
对获取的分词语语进行停用词过滤以及TF-IDF统计处理;
将取TF-IDF最高的前m个分词语语作为该篇科技文档的种子词;
将种子词进行聚类成多个关键词组,关键字词组包括独立关键词与元素词,并计算每个独立关键词对应的权重,其中,第i篇科技文档的独立关键词为w1,w2,…,wh,每个独立关键词对应的权重为Q(swi1),Q(swi2),…,Q(swim);
将具有相同元素词的的独立关键词进行合并,得到组合关键词h1,h2,…,并计算每个组合关键词的权重,每个组合关键词的权重为该组合关键词组成的各个独立关键词的权重之和;
一一判断每个组合关键词与其他组合关键词是否存在关联性,若不存在关联系,则将该组合关键词设为该篇科技文档的主题因子,并计算其对应的权重。
可选地,TF-IDF统计处理包括:
计算词频TF,其计算公式为:TF=某分词语在科技文档中的出现次数/科技文档的分词语总数;
计算逆文档频率IDF,其计算公式为:IDF=log(语料库的文档总数/包含该词的文档数+1);
计算词频-逆文档频率TF-IDF,其计算公式为:TF-IDF=词频*逆文档频率=TF*IDF。
可选地,所述科技文档的聚类方法还包括对聚类结果进行评估分析,包括,
计算聚族i中的成员属于聚族j的概率pij,其计算公式为pij=mij/mi,其中,mi是在聚族i中所有成员的个数,mij是聚族i中的成员属于聚族j的个数,i、j=1,2,…,K;
计算聚族i的熵ei,其计算公式为
Figure BDA0002431632570000022
其中,L是聚族i的个数;
计算整个聚族划分的熵e,其计算公式为
Figure BDA0002431632570000023
其中,K是聚族的数量,m是整个聚族划分所涉及到的成员个数。
本申请提供了一种科技文档的聚类方法,获取科技文档的主题因子以及每个主题因子对应的权重,将N篇科技文档集合形成一个数据矩阵,利用数据矩阵,计算每两篇科技文档的相异度,得到相异矩阵,再利用K-means算法,对相异矩阵进行计算,将多篇科技文档聚类成K个聚族。本申请的科技文档的聚类方法用于对科技文档进行分类,该分类过程简单、易操作,且准确率高。对于聚类后的科技文档,可方便科研人员查阅,为后续科技项目的申报规划、科技成果的转化提供数据支持。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请科技文档的聚类方法的实施例的流程图。
具体实施方式
本申请提供一种科技文档的聚类方法,用于对n篇科技文档进行分类,其中,n为正整数。图1为本申请科技文档的聚类方法的实施例的流程图,如图1所示,科技文档的聚类方法包括:
步骤S100,获取每篇科技文档的聚类对象,其中,所述聚类对象包括该篇科技文档的题目、摘要、结论、研究内容以及验收意见。
应当说明,对于不同的科技文档,选择的聚类对象不同,例如学术论文,可选择其题目、摘要以及结论作为聚类对象;再例如检测方法,可选择题目、研究内容以及验收意见作为聚类对象。实际使用时,本领域技术人员可根据实际需要,选择合适的聚类的对象。
步骤S200,利用每篇科技文档的聚类对象,获取该篇科技文档对应的主题因子以及每个主题因子对应的权重,其中,第i篇科技文档的主题因子为gi1,gi2,…,gim,对应的权重为Q(sgi1),Q(sgi2),…Q(sgim),i=1,2…n,m为正整数。
本申请中,利用每篇科技文档的聚类对象,获取该篇科技文档对应的主题因子以及每个主题因子对应的权重,包括以下步骤:
步骤S210,对每篇科技文档的聚类对象的进行分词处理,获得多个分词语语。
本实例中,分词处理的具体实现过程包括:利用神经网络进行分词处理,将分词语知识隐式方法存入神经网内部,通过自学习和训练修改内部权值,以达到正确的分词语结果,其关键在于权重链表的组织和网络推理机制的建立。这个过程是一个生成分词语动态网的过程,首先以确定的待处理语句的汉字串为基础,来确定网络处理单元;然后,根据链接权重表激活输入/输出单元之间的链接,该过程可以采用某种激活方式,取一个汉字作为关键字,确定其链表,不断匹配即可。
步骤S220,对获取的分词语语进行停用词过滤以及TF-IDF统计处理。
本实例中,过滤停用词的方法为:将词频统计中的停用词过滤掉,首先对照停用词表,将词频统计中的停用词去掉,去掉后以空格的形式代替,这样可以保证每个索引词在原来的位置不发生变化。其具体实现过程为:采用中文判断算法,通过最大正向匹配算法,与现有停用词表进行停用词判断;通过连续重复词进行判读,采用正向检测,如果有两个重复词,就开始进入重复检测模式,直到满足最小重复词个数;采用停用词表中的常用停用词来判断停用词是否为特征的连续字符串;上述方法中凡符合过滤需求的则进行过滤处理。上述的停用词过滤方法,其中:所述的中文判断算法通过底层编码落在中文编码范围内来判断,所述的中文编码范围为,第一节字,行码0x81至0xFE第二节字,列码0x40至0x7E,0xA1至0xFE。
TF-IDF统计处理的具体实现过程包括:计算词频TF,其计算公式为:TF=某分词语在科技文档中的出现次数/科技文档的分词语总数,其中,TF(Term Frequency)为分词语在该科技文档中出现的次数;计算逆文档频率IDF,其计算公式为:IDF=log(语料库的文档总数/包含该词的文档数+1),其中,IDF(Inverse Document Frequency)为分词语普遍重要性的度量;计算词频-逆文档频率TF-IDF,其计算公式为:TF-IDF=词频*逆文档频率=TF*IDF。应当说明,此处的语料库是指任意一中文预料库。
步骤S230,将取TF-IDF最高的前m个分词语语作为该篇科技文档的种子词。将取TF-IDF词频最高的前m个分词分词语语作为该篇科技文档的种子词,其原因在于:对于计算的每个分词语的TF-IDF,TF-IDF越大,则说明该分词语对该科技文档的区分度就越高,取TF-IDF值较大的分词语作为该科技文档的种子词。
步骤S240,将种子词进行聚类成多个关键词组,关键字词组包括独立关键词与元素词,并计算每个独立关键词对应的权重,其中,第i篇科技文档的独立关键词为w1,w2,…,wh,每个独立关键词对应的权重为Q(swi1),Q(swi2),…,Q(swim)。
为便于理解关键字词组、独立关键词以及元素词,以下将给出一实例,例如,独立关键词为发电技术,则该独立关键词的元素词包括火力发电、水力发电、核能发电、风力发电、太阳能热能发电、太阳能光能发电、磁流体发电、潮汐发电、海洋温差发电、波浪发电、生物质能发电,其中,核能发电为发电技术的第三个元素词。
本实施例中,计算每个独立关键词对应的权重的计算公式为
Figure BDA0002431632570000041
其中Q(swi)表示独立关键词swi的权重,p(wij)表示独立关键词swi的第j个元素词的概率分布。
步骤S250,将具有相同元素词的独立关键词进行合并,得到组合关键词h1,h2,…,并计算每个组合关键词的权重,每个组合关键词的权重为该组合关键词组成的各个独立关键词的权重之和。
例如,组合关键词wi-wj的权重为H(wi-wj),其计算公式为H(wi-wj)=H(wi)+H(wj)。
步骤S260,一一判断每个组合关键词与其他组合关键词是否存在关联性,若不存在关联系,则将该组合关键词设为该篇科技文档的主题因子,并计算其对应的权重。
本实例中,主题因子SGi的权重的计算公式为:
Figure BDA0002431632570000042
其中,Q(SGi)为主题因子SGi的权重,H(wi)为主题因子SGi对应词类的权重,H(wij)为生成主题因子SGi的第j个特征词的权重,k为生成主题因子SGi的特征数。换句话说,若科技文档中有多个特征词同时对应一个合并生成的词类,则这些特征词生成的主题因子的权重由该词类的权重乘以这些特征词权重之和求得。
为便于理解上述主题因子的获取过程,以下将给出一具体的实例。
获取某篇科技文档的种子词为:爆炸、矿难、事故、瓦斯、煤矿、炸弹、恐怖、自杀、汽车、死亡;
将种子词进行聚类后,形成两个关键词组,分别为煤矿(爆炸、矿难、事故、瓦斯),爆炸(煤矿、炸弹、恐怖、自杀、汽车、瓦斯、死亡),其中,煤矿与爆炸为独立关键词,其后括号内的为其对应的元素词;计算每个独立关键词对应的权重,独立关键词煤矿对于的权重为0118,独立关键词爆炸对于的权重为0121;
将具有相同元素词的的独立关键词进行合并,得到组合关键词煤矿—爆炸,其对应的权重为:0118+0121=0139;
若组合关键词煤矿—爆炸与其他组合关键词不相关,则将组合关键词煤矿—爆炸设为该篇科技文档的主题因子,其对应的权重为:0139×(613+717)=5146。
步骤S300,将N篇科技文档集合,形成一个数据矩阵
Figure BDA0002431632570000043
其中,n代表第n篇科技文档,m代表该篇科技文档中第m个主题因子对应的权重。
步骤S400,利用数据矩阵
Figure BDA0002431632570000051
计算每两篇科技文档的相异度,得到n×n维的相异矩阵
Figure BDA0002431632570000052
其中,d(i,j)表示第i篇科技文档与第j篇科技文档之间的相异度,d(i,j)的计算公式为
Figure BDA0002431632570000053
应当说明,根据d(i,j)=d(j,i)以及d(i,i)=0,得到上述的相异矩阵。对于相异矩阵中元素d(i,j),通常其为一个非负数,当第i篇科技文档与第j篇科技文档非常相似时,该数值接近0,该数值越大也就表示第i篇科技文档与第j篇科技文档越不相似。
步骤S500,利用K-means算法,对相异矩阵
Figure BDA0002431632570000054
进行计算,将n篇科技文档聚类成K个聚族。
为验证科技文档的聚类方法的分类准确度,本实例中,科技文档的聚类方法还包括步骤S600,对聚类结果进行评估分析,具体包括,
计算聚族i中的成员属于聚族j的概率pij,其计算公式为pij=mij/mi,其中,mi是在聚族i中所有成员的个数,mij是聚族i中的成员属于聚族j的个数,i、j=1,2,…,K;
计算聚族i的熵ei(entropy),其计算公式为
Figure BDA0002431632570000055
其中,L是聚族i的个数;
计算整个聚族划分的熵e,其计算公式为
Figure BDA0002431632570000056
其中,K是聚族的数量,m是整个聚族划分所涉及到的成员个数。
对于整个聚族划分的熵e,其值越接近0,则聚类越准确。
本申请提供了一种科技文档的聚类方法,获取科技文档的主题因子以及每个主题因子对应的权重,将N篇科技文档集合形成一个数据矩阵,利用数据矩阵,计算每两篇科技文档的相异度,得到相异矩阵,再利用K-means算法,对相异矩阵进行计算,将多篇科技文档聚类成K个聚族。本申请的科技文档的聚类方法用于对科技文档进行分类,该分类过程简单、易操作,且准确率高。对于聚类后的科技文档,可方便科研人员查阅,从而可为后续科技项目的申报规划、科技成果的转化提供数据支持。
以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims (4)

1.一种科技文档的聚类方法,用于对n篇科技文档进行分类,其中,n为正整数,其特征在于,包括:
获取每篇科技文档的聚类对象,其中,所述聚类对象包括该篇科技文档的题目、摘要、结论、研究内容以及验收意见;
利用每篇科技文档的聚类对象,获取该篇科技文档对应的主题因子以及每个主题因子对应的权重,其中,第i篇科技文档的主题因子为gi1,gi2,…,gim,对应的权重为Q(sgi1),Q(sgi2),…Q(sgim),i=1,2,…,n,m为正整数;
将N篇科技文档集合,形成一个数据矩阵
Figure FDA0002431632560000011
其中,n代表第n篇科技文档,m代表该篇科技文档中第m个主题因子对应的权重;
利用数据矩阵
Figure FDA0002431632560000012
计算每两篇科技文档的相异度,得到n×n维的相异矩阵
Figure FDA0002431632560000013
其中,d(i,j)表示第i篇科技文档与第j篇科技文档之间的相异度,d(i,j)的计算公式为
Figure FDA0002431632560000014
利用K-means算法,对相异矩阵
Figure FDA0002431632560000015
进行计算,将n篇科技文档聚类成K个聚族。
2.根据权利要求1所述的科技文档的聚类方法,其特征在于,利用每篇科技文档的聚类对象,获取该篇科技文档对应的主题因子以及每个主题因子对应的权重,包括:
对每篇科技文档的聚类对象的进行分词处理,获得多个分词语语;
对获取的分词语语进行停用词过滤以及TF-IDF统计处理;
将取TF-IDF最高的前m个分词语语作为该篇科技文档的种子词;
将种子词进行聚类成多个关键词组,关键字词组包括独立关键词与元素词,并计算每个独立关键词对应的权重,其中,第i篇科技文档的独立关键词为w1,w2,…,wh,每个独立关键词对应的权重为Q(swi1),Q(swi2),…,Q(swim);
将具有相同元素词的的独立关键词进行合并,得到组合关键词h1,h2,…,并计算每个组合关键词的权重,每个组合关键词的权重为该组合关键词组成的各个独立关键词的权重之和;
一一判断每个组合关键词与其他组合关键词是否存在关联性,若不存在关联系,则将该组合关键词设为该篇科技文档的主题因子,并计算其对应的权重。
3.根据权利要求2所述的科技文档的聚类方法,其特征在于,TF-IDF统计处理包括:
计算词频TF,其计算公式为:TF=某分词语在科技文档中的出现次数/科技文档的分词语总数;
计算逆文档频率IDF,其计算公式为:IDF=log(语料库的文档总数/包含该词的文档数+1);
计算词频-逆文档频率TF-IDF,其计算公式为:TF-IDF=词频*逆文档频率=TF*IDF。
4.根据权利要求1所述的科技文档的聚类方法,其特征在于,所述科技文档的聚类方法还包括对聚类结果进行评估分析,包括,
计算聚族i中的成员属于聚族j的概率pij,其计算公式为pij=mij/mi,其中,mi是在聚族i中所有成员的个数,mij是聚族i中的成员属于聚族j的个数,i、j=1,2,…,K;
计算聚族i的熵ei,其计算公式为
Figure FDA0002431632560000021
其中,L是聚族i的个数;
计算整个聚族划分的熵e,其计算公式为
Figure FDA0002431632560000022
其中,K是聚族的数量,m是整个聚族划分所涉及到的成员个数。
CN202010237966.2A 2020-03-30 2020-03-30 一种科技文档的聚类方法 Active CN111460154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010237966.2A CN111460154B (zh) 2020-03-30 2020-03-30 一种科技文档的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010237966.2A CN111460154B (zh) 2020-03-30 2020-03-30 一种科技文档的聚类方法

Publications (2)

Publication Number Publication Date
CN111460154A true CN111460154A (zh) 2020-07-28
CN111460154B CN111460154B (zh) 2022-07-08

Family

ID=71680229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010237966.2A Active CN111460154B (zh) 2020-03-30 2020-03-30 一种科技文档的聚类方法

Country Status (1)

Country Link
CN (1) CN111460154B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298399A (zh) * 2021-05-31 2021-08-24 西南大学 基于大数据的科研项目分析方法
CN116304016A (zh) * 2022-12-29 2023-06-23 太和康美(北京)中医研究院有限公司 一种文献的共性分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150220539A1 (en) * 2014-01-31 2015-08-06 Global Security Information Analysts, LLC Document relationship analysis system
CN105653562A (zh) * 2014-12-02 2016-06-08 阿里巴巴集团控股有限公司 一种文本内容与查询请求之间相关性的计算方法及装置
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及系统
CN108520009A (zh) * 2018-03-19 2018-09-11 北京工业大学 一种英文文本聚类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150220539A1 (en) * 2014-01-31 2015-08-06 Global Security Information Analysts, LLC Document relationship analysis system
CN105653562A (zh) * 2014-12-02 2016-06-08 阿里巴巴集团控股有限公司 一种文本内容与查询请求之间相关性的计算方法及装置
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及系统
CN108520009A (zh) * 2018-03-19 2018-09-11 北京工业大学 一种英文文本聚类方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BOWEN WANG等: "Parallelizing K-Means-Based Clustering on Spark", 《2016 INTERNATIONAL CONFERENCE ON ADVANCED CLOUD AND BIG DATA (CBD)》 *
冯遵倡: "基于刻面分类的网络群体事件主题聚类研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
刘江华: "一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证", 《情报科学》 *
高哲等: "基于Web日志挖掘的Web文档聚类", 《计算机工程与设计》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298399A (zh) * 2021-05-31 2021-08-24 西南大学 基于大数据的科研项目分析方法
CN116304016A (zh) * 2022-12-29 2023-06-23 太和康美(北京)中医研究院有限公司 一种文献的共性分析方法及装置
CN116304016B (zh) * 2022-12-29 2023-10-10 太和康美(北京)中医研究院有限公司 一种文献的共性分析方法及装置

Also Published As

Publication number Publication date
CN111460154B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
Wang et al. Growing pains for global monitoring of societal events
CN102937960B (zh) 突发事件热点话题的识别与评估装置
US8781989B2 (en) Method and system to predict a data value
Rabelo et al. COLIEE 2020: methods for legal document retrieval and entailment
Gong et al. Document similarity for texts of varying lengths via hidden topics
Mottaghinia et al. A review of approaches for topic detection in Twitter
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
CN111460154B (zh) 一种科技文档的聚类方法
Fattah A novel statistical feature selection approach for text categorization
Nay Natural language processing and machine learning for law and policy texts
Fišer et al. Distributional modelling for semantic shift detection
Koloski et al. Multilingual Detection of Fake News Spreaders via Sparse Matrix Factorization.
Campbell et al. Content+ context networks for user classification in twitter
El-Rashidy et al. Reliable plagiarism detection system based on deep learning approaches
Aksoy et al. Novelty detection for topic tracking
Yang et al. Artificial immune system for illicit content identification in social media
Nay Natural language processing for legal texts
Kohlmeyer et al. Novel Views on Novels: Embedding Multiple Facets of Long Texts
Yang et al. Partially supervised learning for radical opinion identification in hate group web forums
Xiang et al. Sentiment analysis of Chinese Weibo combining BERT model and Hawkes process
Al Helal Topic Modelling and Sentiment Analysis with the Bangla Language: A Deep Learning Approach Combined with the Latent Dirichlet Allocation
Kalaivani et al. Classification of sentiment reviews using POS based machine learning approach
Zhang et al. Multi-view ensemble classification for clinically actionable genetic mutations
Nikitinsky et al. An information retrieval system for technology analysis and forecasting
Nguyen et al. Keyphrase Extraction in Russian and English Scientific Articles Using Sentence Embeddings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant