CN111460154A - 一种科技文档的聚类方法 - Google Patents
一种科技文档的聚类方法 Download PDFInfo
- Publication number
- CN111460154A CN111460154A CN202010237966.2A CN202010237966A CN111460154A CN 111460154 A CN111460154 A CN 111460154A CN 202010237966 A CN202010237966 A CN 202010237966A CN 111460154 A CN111460154 A CN 111460154A
- Authority
- CN
- China
- Prior art keywords
- scientific
- document
- clustering
- documents
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Abstract
本申请公开了一种科技文档的聚类方法,获取科技文档的主题因子以及每个主题因子对应的权重,将N篇科技文档集合形成一个数据矩阵,利用数据矩阵,计算每两篇科技文档的相异度,得到相异矩阵,再利用K‑means算法,对相异矩阵进行计算,将多篇科技文档聚类成K个聚族。本申请的科技文档的聚类方法用于对科技文档进行分类,该分类过程简单、易操作,且准确率高。对于聚类后的科技文档,可方便科研人员查阅,从而为后续科技项目的申报规划、科技成果的转化提供数据支持。
Description
技术领域
本申请涉及科技成果管理技术领域,尤其涉及一种科技文档的聚类方法。
背景技术
随着国家、企业、科研机构以及个人对科研事业的重视及深入,各类科技成果层出不穷,相应的,记录科技成果的文档(以下简称为科文档)也随之增加,常见的科技文档包括专利、学术论文、会议纪要、计算机软件著作权、集成电路布图设计、检测方法、技术规范、技术诀窍、技术使用许可证等。
面对大量且繁杂的科技文档,当前对其的管理仍以简单的文档资料存储为主,加之科技成果的分类体系与管理方法多种多样,不仅耗费大量的人力、物力,而且统计分析过程琐碎繁杂。另外,靠人工进行归档无法在信息化的技术手段下直接进行有效的分析,需要通过处理和研究之后才能进行深入的分析,容易造成科技成果的分类不准确,从而使科技成果中的相关成果分布广泛、分散、杂乱,不利于大众的查阅。
发明内容
本申请提供了一种科技文档的聚类方法,以解决现有的科技文档聚类方法中,分类准确度较低的问题。
本申请提供了一种科技文档的聚类方法,用于对n篇科技文档进行分类,其中,n为正整数,包括:
获取每篇科技文档的聚类对象,其中,所述聚类对象包括该篇科技文档的题目、摘要、结论、研究内容以及验收意见;
利用每篇科技文档的聚类对象,获取该篇科技文档对应的主题因子以及每个主题因子对应的权重,其中,第i篇科技文档的主题因子为gi1,gi2,…,gim,对应的权重为Q(sgi1),Q(sgi2),…Q(sgim),i=1,2,…,n,m为正整数;
可选地,利用每篇科技文档的聚类对象,获取该篇科技文档对应的主题因子以及每个主题因子对应的权重,包括:
对每篇科技文档的聚类对象的进行分词处理,获得多个分词语语;
对获取的分词语语进行停用词过滤以及TF-IDF统计处理;
将取TF-IDF最高的前m个分词语语作为该篇科技文档的种子词;
将种子词进行聚类成多个关键词组,关键字词组包括独立关键词与元素词,并计算每个独立关键词对应的权重,其中,第i篇科技文档的独立关键词为w1,w2,…,wh,每个独立关键词对应的权重为Q(swi1),Q(swi2),…,Q(swim);
将具有相同元素词的的独立关键词进行合并,得到组合关键词h1,h2,…,并计算每个组合关键词的权重,每个组合关键词的权重为该组合关键词组成的各个独立关键词的权重之和;
一一判断每个组合关键词与其他组合关键词是否存在关联性,若不存在关联系,则将该组合关键词设为该篇科技文档的主题因子,并计算其对应的权重。
可选地,TF-IDF统计处理包括:
计算词频TF,其计算公式为:TF=某分词语在科技文档中的出现次数/科技文档的分词语总数;
计算逆文档频率IDF,其计算公式为:IDF=log(语料库的文档总数/包含该词的文档数+1);
计算词频-逆文档频率TF-IDF,其计算公式为:TF-IDF=词频*逆文档频率=TF*IDF。
可选地,所述科技文档的聚类方法还包括对聚类结果进行评估分析,包括,
计算聚族i中的成员属于聚族j的概率pij,其计算公式为pij=mij/mi,其中,mi是在聚族i中所有成员的个数,mij是聚族i中的成员属于聚族j的个数,i、j=1,2,…,K;
本申请提供了一种科技文档的聚类方法,获取科技文档的主题因子以及每个主题因子对应的权重,将N篇科技文档集合形成一个数据矩阵,利用数据矩阵,计算每两篇科技文档的相异度,得到相异矩阵,再利用K-means算法,对相异矩阵进行计算,将多篇科技文档聚类成K个聚族。本申请的科技文档的聚类方法用于对科技文档进行分类,该分类过程简单、易操作,且准确率高。对于聚类后的科技文档,可方便科研人员查阅,为后续科技项目的申报规划、科技成果的转化提供数据支持。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请科技文档的聚类方法的实施例的流程图。
具体实施方式
本申请提供一种科技文档的聚类方法,用于对n篇科技文档进行分类,其中,n为正整数。图1为本申请科技文档的聚类方法的实施例的流程图,如图1所示,科技文档的聚类方法包括:
步骤S100,获取每篇科技文档的聚类对象,其中,所述聚类对象包括该篇科技文档的题目、摘要、结论、研究内容以及验收意见。
应当说明,对于不同的科技文档,选择的聚类对象不同,例如学术论文,可选择其题目、摘要以及结论作为聚类对象;再例如检测方法,可选择题目、研究内容以及验收意见作为聚类对象。实际使用时,本领域技术人员可根据实际需要,选择合适的聚类的对象。
步骤S200,利用每篇科技文档的聚类对象,获取该篇科技文档对应的主题因子以及每个主题因子对应的权重,其中,第i篇科技文档的主题因子为gi1,gi2,…,gim,对应的权重为Q(sgi1),Q(sgi2),…Q(sgim),i=1,2…n,m为正整数。
本申请中,利用每篇科技文档的聚类对象,获取该篇科技文档对应的主题因子以及每个主题因子对应的权重,包括以下步骤:
步骤S210,对每篇科技文档的聚类对象的进行分词处理,获得多个分词语语。
本实例中,分词处理的具体实现过程包括:利用神经网络进行分词处理,将分词语知识隐式方法存入神经网内部,通过自学习和训练修改内部权值,以达到正确的分词语结果,其关键在于权重链表的组织和网络推理机制的建立。这个过程是一个生成分词语动态网的过程,首先以确定的待处理语句的汉字串为基础,来确定网络处理单元;然后,根据链接权重表激活输入/输出单元之间的链接,该过程可以采用某种激活方式,取一个汉字作为关键字,确定其链表,不断匹配即可。
步骤S220,对获取的分词语语进行停用词过滤以及TF-IDF统计处理。
本实例中,过滤停用词的方法为:将词频统计中的停用词过滤掉,首先对照停用词表,将词频统计中的停用词去掉,去掉后以空格的形式代替,这样可以保证每个索引词在原来的位置不发生变化。其具体实现过程为:采用中文判断算法,通过最大正向匹配算法,与现有停用词表进行停用词判断;通过连续重复词进行判读,采用正向检测,如果有两个重复词,就开始进入重复检测模式,直到满足最小重复词个数;采用停用词表中的常用停用词来判断停用词是否为特征的连续字符串;上述方法中凡符合过滤需求的则进行过滤处理。上述的停用词过滤方法,其中:所述的中文判断算法通过底层编码落在中文编码范围内来判断,所述的中文编码范围为,第一节字,行码0x81至0xFE第二节字,列码0x40至0x7E,0xA1至0xFE。
TF-IDF统计处理的具体实现过程包括:计算词频TF,其计算公式为:TF=某分词语在科技文档中的出现次数/科技文档的分词语总数,其中,TF(Term Frequency)为分词语在该科技文档中出现的次数;计算逆文档频率IDF,其计算公式为:IDF=log(语料库的文档总数/包含该词的文档数+1),其中,IDF(Inverse Document Frequency)为分词语普遍重要性的度量;计算词频-逆文档频率TF-IDF,其计算公式为:TF-IDF=词频*逆文档频率=TF*IDF。应当说明,此处的语料库是指任意一中文预料库。
步骤S230,将取TF-IDF最高的前m个分词语语作为该篇科技文档的种子词。将取TF-IDF词频最高的前m个分词分词语语作为该篇科技文档的种子词,其原因在于:对于计算的每个分词语的TF-IDF,TF-IDF越大,则说明该分词语对该科技文档的区分度就越高,取TF-IDF值较大的分词语作为该科技文档的种子词。
步骤S240,将种子词进行聚类成多个关键词组,关键字词组包括独立关键词与元素词,并计算每个独立关键词对应的权重,其中,第i篇科技文档的独立关键词为w1,w2,…,wh,每个独立关键词对应的权重为Q(swi1),Q(swi2),…,Q(swim)。
为便于理解关键字词组、独立关键词以及元素词,以下将给出一实例,例如,独立关键词为发电技术,则该独立关键词的元素词包括火力发电、水力发电、核能发电、风力发电、太阳能热能发电、太阳能光能发电、磁流体发电、潮汐发电、海洋温差发电、波浪发电、生物质能发电,其中,核能发电为发电技术的第三个元素词。
步骤S250,将具有相同元素词的独立关键词进行合并,得到组合关键词h1,h2,…,并计算每个组合关键词的权重,每个组合关键词的权重为该组合关键词组成的各个独立关键词的权重之和。
例如,组合关键词wi-wj的权重为H(wi-wj),其计算公式为H(wi-wj)=H(wi)+H(wj)。
步骤S260,一一判断每个组合关键词与其他组合关键词是否存在关联性,若不存在关联系,则将该组合关键词设为该篇科技文档的主题因子,并计算其对应的权重。
本实例中,主题因子SGi的权重的计算公式为:其中,Q(SGi)为主题因子SGi的权重,H(wi)为主题因子SGi对应词类的权重,H(wij)为生成主题因子SGi的第j个特征词的权重,k为生成主题因子SGi的特征数。换句话说,若科技文档中有多个特征词同时对应一个合并生成的词类,则这些特征词生成的主题因子的权重由该词类的权重乘以这些特征词权重之和求得。
为便于理解上述主题因子的获取过程,以下将给出一具体的实例。
获取某篇科技文档的种子词为:爆炸、矿难、事故、瓦斯、煤矿、炸弹、恐怖、自杀、汽车、死亡;
将种子词进行聚类后,形成两个关键词组,分别为煤矿(爆炸、矿难、事故、瓦斯),爆炸(煤矿、炸弹、恐怖、自杀、汽车、瓦斯、死亡),其中,煤矿与爆炸为独立关键词,其后括号内的为其对应的元素词;计算每个独立关键词对应的权重,独立关键词煤矿对于的权重为0118,独立关键词爆炸对于的权重为0121;
将具有相同元素词的的独立关键词进行合并,得到组合关键词煤矿—爆炸,其对应的权重为:0118+0121=0139;
若组合关键词煤矿—爆炸与其他组合关键词不相关,则将组合关键词煤矿—爆炸设为该篇科技文档的主题因子,其对应的权重为:0139×(613+717)=5146。
应当说明,根据d(i,j)=d(j,i)以及d(i,i)=0,得到上述的相异矩阵。对于相异矩阵中元素d(i,j),通常其为一个非负数,当第i篇科技文档与第j篇科技文档非常相似时,该数值接近0,该数值越大也就表示第i篇科技文档与第j篇科技文档越不相似。
为验证科技文档的聚类方法的分类准确度,本实例中,科技文档的聚类方法还包括步骤S600,对聚类结果进行评估分析,具体包括,
计算聚族i中的成员属于聚族j的概率pij,其计算公式为pij=mij/mi,其中,mi是在聚族i中所有成员的个数,mij是聚族i中的成员属于聚族j的个数,i、j=1,2,…,K;
对于整个聚族划分的熵e,其值越接近0,则聚类越准确。
本申请提供了一种科技文档的聚类方法,获取科技文档的主题因子以及每个主题因子对应的权重,将N篇科技文档集合形成一个数据矩阵,利用数据矩阵,计算每两篇科技文档的相异度,得到相异矩阵,再利用K-means算法,对相异矩阵进行计算,将多篇科技文档聚类成K个聚族。本申请的科技文档的聚类方法用于对科技文档进行分类,该分类过程简单、易操作,且准确率高。对于聚类后的科技文档,可方便科研人员查阅,从而可为后续科技项目的申报规划、科技成果的转化提供数据支持。
以上所述的本申请实施方式并不构成对本申请保护范围的限定。
Claims (4)
1.一种科技文档的聚类方法,用于对n篇科技文档进行分类,其中,n为正整数,其特征在于,包括:
获取每篇科技文档的聚类对象,其中,所述聚类对象包括该篇科技文档的题目、摘要、结论、研究内容以及验收意见;
利用每篇科技文档的聚类对象,获取该篇科技文档对应的主题因子以及每个主题因子对应的权重,其中,第i篇科技文档的主题因子为gi1,gi2,…,gim,对应的权重为Q(sgi1),Q(sgi2),…Q(sgim),i=1,2,…,n,m为正整数;
2.根据权利要求1所述的科技文档的聚类方法,其特征在于,利用每篇科技文档的聚类对象,获取该篇科技文档对应的主题因子以及每个主题因子对应的权重,包括:
对每篇科技文档的聚类对象的进行分词处理,获得多个分词语语;
对获取的分词语语进行停用词过滤以及TF-IDF统计处理;
将取TF-IDF最高的前m个分词语语作为该篇科技文档的种子词;
将种子词进行聚类成多个关键词组,关键字词组包括独立关键词与元素词,并计算每个独立关键词对应的权重,其中,第i篇科技文档的独立关键词为w1,w2,…,wh,每个独立关键词对应的权重为Q(swi1),Q(swi2),…,Q(swim);
将具有相同元素词的的独立关键词进行合并,得到组合关键词h1,h2,…,并计算每个组合关键词的权重,每个组合关键词的权重为该组合关键词组成的各个独立关键词的权重之和;
一一判断每个组合关键词与其他组合关键词是否存在关联性,若不存在关联系,则将该组合关键词设为该篇科技文档的主题因子,并计算其对应的权重。
3.根据权利要求2所述的科技文档的聚类方法,其特征在于,TF-IDF统计处理包括:
计算词频TF,其计算公式为:TF=某分词语在科技文档中的出现次数/科技文档的分词语总数;
计算逆文档频率IDF,其计算公式为:IDF=log(语料库的文档总数/包含该词的文档数+1);
计算词频-逆文档频率TF-IDF,其计算公式为:TF-IDF=词频*逆文档频率=TF*IDF。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010237966.2A CN111460154B (zh) | 2020-03-30 | 2020-03-30 | 一种科技文档的聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010237966.2A CN111460154B (zh) | 2020-03-30 | 2020-03-30 | 一种科技文档的聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460154A true CN111460154A (zh) | 2020-07-28 |
CN111460154B CN111460154B (zh) | 2022-07-08 |
Family
ID=71680229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010237966.2A Active CN111460154B (zh) | 2020-03-30 | 2020-03-30 | 一种科技文档的聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460154B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298399A (zh) * | 2021-05-31 | 2021-08-24 | 西南大学 | 基于大数据的科研项目分析方法 |
CN116304016A (zh) * | 2022-12-29 | 2023-06-23 | 太和康美(北京)中医研究院有限公司 | 一种文献的共性分析方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150220539A1 (en) * | 2014-01-31 | 2015-08-06 | Global Security Information Analysts, LLC | Document relationship analysis system |
CN105653562A (zh) * | 2014-12-02 | 2016-06-08 | 阿里巴巴集团控股有限公司 | 一种文本内容与查询请求之间相关性的计算方法及装置 |
CN107103043A (zh) * | 2017-03-29 | 2017-08-29 | 国信优易数据有限公司 | 一种文本聚类方法及系统 |
CN108520009A (zh) * | 2018-03-19 | 2018-09-11 | 北京工业大学 | 一种英文文本聚类方法及系统 |
-
2020
- 2020-03-30 CN CN202010237966.2A patent/CN111460154B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150220539A1 (en) * | 2014-01-31 | 2015-08-06 | Global Security Information Analysts, LLC | Document relationship analysis system |
CN105653562A (zh) * | 2014-12-02 | 2016-06-08 | 阿里巴巴集团控股有限公司 | 一种文本内容与查询请求之间相关性的计算方法及装置 |
CN107103043A (zh) * | 2017-03-29 | 2017-08-29 | 国信优易数据有限公司 | 一种文本聚类方法及系统 |
CN108520009A (zh) * | 2018-03-19 | 2018-09-11 | 北京工业大学 | 一种英文文本聚类方法及系统 |
Non-Patent Citations (4)
Title |
---|
BOWEN WANG等: "Parallelizing K-Means-Based Clustering on Spark", 《2016 INTERNATIONAL CONFERENCE ON ADVANCED CLOUD AND BIG DATA (CBD)》 * |
冯遵倡: "基于刻面分类的网络群体事件主题聚类研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
刘江华: "一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证", 《情报科学》 * |
高哲等: "基于Web日志挖掘的Web文档聚类", 《计算机工程与设计》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298399A (zh) * | 2021-05-31 | 2021-08-24 | 西南大学 | 基于大数据的科研项目分析方法 |
CN116304016A (zh) * | 2022-12-29 | 2023-06-23 | 太和康美(北京)中医研究院有限公司 | 一种文献的共性分析方法及装置 |
CN116304016B (zh) * | 2022-12-29 | 2023-10-10 | 太和康美(北京)中医研究院有限公司 | 一种文献的共性分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111460154B (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Growing pains for global monitoring of societal events | |
CN102937960B (zh) | 突发事件热点话题的识别与评估装置 | |
US8781989B2 (en) | Method and system to predict a data value | |
Rabelo et al. | COLIEE 2020: methods for legal document retrieval and entailment | |
Gong et al. | Document similarity for texts of varying lengths via hidden topics | |
Mottaghinia et al. | A review of approaches for topic detection in Twitter | |
Huang et al. | Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow | |
CN111460154B (zh) | 一种科技文档的聚类方法 | |
Fattah | A novel statistical feature selection approach for text categorization | |
Nay | Natural language processing and machine learning for law and policy texts | |
Fišer et al. | Distributional modelling for semantic shift detection | |
Koloski et al. | Multilingual Detection of Fake News Spreaders via Sparse Matrix Factorization. | |
Campbell et al. | Content+ context networks for user classification in twitter | |
El-Rashidy et al. | Reliable plagiarism detection system based on deep learning approaches | |
Aksoy et al. | Novelty detection for topic tracking | |
Yang et al. | Artificial immune system for illicit content identification in social media | |
Nay | Natural language processing for legal texts | |
Kohlmeyer et al. | Novel Views on Novels: Embedding Multiple Facets of Long Texts | |
Yang et al. | Partially supervised learning for radical opinion identification in hate group web forums | |
Xiang et al. | Sentiment analysis of Chinese Weibo combining BERT model and Hawkes process | |
Al Helal | Topic Modelling and Sentiment Analysis with the Bangla Language: A Deep Learning Approach Combined with the Latent Dirichlet Allocation | |
Kalaivani et al. | Classification of sentiment reviews using POS based machine learning approach | |
Zhang et al. | Multi-view ensemble classification for clinically actionable genetic mutations | |
Nikitinsky et al. | An information retrieval system for technology analysis and forecasting | |
Nguyen et al. | Keyphrase Extraction in Russian and English Scientific Articles Using Sentence Embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |