CN111460154A

CN111460154A - 一种科技文档的聚类方法

Info

Publication number: CN111460154A
Application number: CN202010237966.2A
Authority: CN
Inventors: 赵晓平; 胡昌斌; 苏文伟; 罗芳; 陈达; 张劲松
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-28
Anticipated expiration: 2040-03-30
Also published as: CN111460154B

Abstract

本申请公开了一种科技文档的聚类方法，获取科技文档的主题因子以及每个主题因子对应的权重，将N篇科技文档集合形成一个数据矩阵，利用数据矩阵，计算每两篇科技文档的相异度，得到相异矩阵，再利用K‑means算法，对相异矩阵进行计算，将多篇科技文档聚类成K个聚族。本申请的科技文档的聚类方法用于对科技文档进行分类，该分类过程简单、易操作，且准确率高。对于聚类后的科技文档，可方便科研人员查阅，从而为后续科技项目的申报规划、科技成果的转化提供数据支持。

Description

一种科技文档的聚类方法

技术领域

本申请涉及科技成果管理技术领域，尤其涉及一种科技文档的聚类方法。

背景技术

随着国家、企业、科研机构以及个人对科研事业的重视及深入，各类科技成果层出不穷，相应的，记录科技成果的文档(以下简称为科文档)也随之增加，常见的科技文档包括专利、学术论文、会议纪要、计算机软件著作权、集成电路布图设计、检测方法、技术规范、技术诀窍、技术使用许可证等。

面对大量且繁杂的科技文档，当前对其的管理仍以简单的文档资料存储为主，加之科技成果的分类体系与管理方法多种多样，不仅耗费大量的人力、物力，而且统计分析过程琐碎繁杂。另外，靠人工进行归档无法在信息化的技术手段下直接进行有效的分析，需要通过处理和研究之后才能进行深入的分析，容易造成科技成果的分类不准确，从而使科技成果中的相关成果分布广泛、分散、杂乱，不利于大众的查阅。

发明内容

本申请提供了一种科技文档的聚类方法，以解决现有的科技文档聚类方法中，分类准确度较低的问题。

本申请提供了一种科技文档的聚类方法，用于对n篇科技文档进行分类，其中，n为正整数，包括：

获取每篇科技文档的聚类对象，其中，所述聚类对象包括该篇科技文档的题目、摘要、结论、研究内容以及验收意见；

利用每篇科技文档的聚类对象，获取该篇科技文档对应的主题因子以及每个主题因子对应的权重，其中，第i篇科技文档的主题因子为g_i1,g_i2，…，g_im，对应的权重为Q(sg_i1)，Q(sg_i2)，…Q(sg_im)，i＝1,2，…，n，m为正整数；

将N篇科技文档集合，形成一个数据矩阵

其中，n代表第n篇科技文档，m代表该篇科技文档中第m个主题因子对应的权重；

利用数据矩阵

计算每两篇科技文档的相异度，得到n×n维的相异矩阵

其中，d(i,j)表示第i篇科技文档与第j篇科技文档之间的相异度，d(i,j)的计算公式为

利用K-means算法，对相异矩阵

进行计算，将n篇科技文档聚类成K个聚族。

可选地，利用每篇科技文档的聚类对象，获取该篇科技文档对应的主题因子以及每个主题因子对应的权重，包括：

对每篇科技文档的聚类对象的进行分词处理，获得多个分词语语；

对获取的分词语语进行停用词过滤以及TF-IDF统计处理；

将取TF-IDF最高的前m个分词语语作为该篇科技文档的种子词；

将种子词进行聚类成多个关键词组，关键字词组包括独立关键词与元素词，并计算每个独立关键词对应的权重，其中，第i篇科技文档的独立关键词为w₁,w₂，…，w_h，每个独立关键词对应的权重为Q(sw_i1)，Q(sw_i2)，…，Q(sw_im)；

将具有相同元素词的的独立关键词进行合并，得到组合关键词h₁,h₂，…，并计算每个组合关键词的权重，每个组合关键词的权重为该组合关键词组成的各个独立关键词的权重之和；

一一判断每个组合关键词与其他组合关键词是否存在关联性，若不存在关联系，则将该组合关键词设为该篇科技文档的主题因子，并计算其对应的权重。

可选地，TF-IDF统计处理包括：

计算词频TF，其计算公式为：TF＝某分词语在科技文档中的出现次数/科技文档的分词语总数；

计算逆文档频率IDF，其计算公式为：IDF＝log(语料库的文档总数/包含该词的文档数+1)；

计算词频-逆文档频率TF-IDF，其计算公式为：TF-IDF＝词频*逆文档频率＝TF*IDF。

可选地，所述科技文档的聚类方法还包括对聚类结果进行评估分析，包括，

计算聚族i中的成员属于聚族j的概率p_ij，其计算公式为p_ij＝m_ij/m_i,其中，m_i是在聚族i中所有成员的个数，m_ij是聚族i中的成员属于聚族j的个数，i、j＝1，2，…，K；

计算聚族i的熵e_i，其计算公式为

其中，L是聚族i的个数；

计算整个聚族划分的熵e，其计算公式为

其中，K是聚族的数量，m是整个聚族划分所涉及到的成员个数。

本申请提供了一种科技文档的聚类方法，获取科技文档的主题因子以及每个主题因子对应的权重，将N篇科技文档集合形成一个数据矩阵，利用数据矩阵，计算每两篇科技文档的相异度，得到相异矩阵，再利用K-means算法，对相异矩阵进行计算，将多篇科技文档聚类成K个聚族。本申请的科技文档的聚类方法用于对科技文档进行分类，该分类过程简单、易操作，且准确率高。对于聚类后的科技文档，可方便科研人员查阅，为后续科技项目的申报规划、科技成果的转化提供数据支持。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请科技文档的聚类方法的实施例的流程图。

具体实施方式

本申请提供一种科技文档的聚类方法，用于对n篇科技文档进行分类，其中，n为正整数。图1为本申请科技文档的聚类方法的实施例的流程图，如图1所示，科技文档的聚类方法包括：

步骤S100，获取每篇科技文档的聚类对象，其中，所述聚类对象包括该篇科技文档的题目、摘要、结论、研究内容以及验收意见。

应当说明，对于不同的科技文档，选择的聚类对象不同，例如学术论文，可选择其题目、摘要以及结论作为聚类对象；再例如检测方法，可选择题目、研究内容以及验收意见作为聚类对象。实际使用时，本领域技术人员可根据实际需要，选择合适的聚类的对象。

步骤S200，利用每篇科技文档的聚类对象，获取该篇科技文档对应的主题因子以及每个主题因子对应的权重，其中，第i篇科技文档的主题因子为g_i1,g_i2，…，g_im，对应的权重为Q(sg_i1)，Q(sg_i2)，…Q(sg_im)，i＝1,2…n，m为正整数。

本申请中，利用每篇科技文档的聚类对象，获取该篇科技文档对应的主题因子以及每个主题因子对应的权重，包括以下步骤：

步骤S210，对每篇科技文档的聚类对象的进行分词处理，获得多个分词语语。

本实例中，分词处理的具体实现过程包括：利用神经网络进行分词处理，将分词语知识隐式方法存入神经网内部，通过自学习和训练修改内部权值，以达到正确的分词语结果，其关键在于权重链表的组织和网络推理机制的建立。这个过程是一个生成分词语动态网的过程，首先以确定的待处理语句的汉字串为基础，来确定网络处理单元；然后，根据链接权重表激活输入/输出单元之间的链接，该过程可以采用某种激活方式，取一个汉字作为关键字，确定其链表，不断匹配即可。

步骤S220，对获取的分词语语进行停用词过滤以及TF-IDF统计处理。

本实例中，过滤停用词的方法为：将词频统计中的停用词过滤掉，首先对照停用词表，将词频统计中的停用词去掉，去掉后以空格的形式代替，这样可以保证每个索引词在原来的位置不发生变化。其具体实现过程为：采用中文判断算法，通过最大正向匹配算法，与现有停用词表进行停用词判断；通过连续重复词进行判读，采用正向检测，如果有两个重复词，就开始进入重复检测模式，直到满足最小重复词个数；采用停用词表中的常用停用词来判断停用词是否为特征的连续字符串；上述方法中凡符合过滤需求的则进行过滤处理。上述的停用词过滤方法，其中：所述的中文判断算法通过底层编码落在中文编码范围内来判断，所述的中文编码范围为，第一节字，行码0x81至0xFE第二节字，列码0x40至0x7E,0xA1至0xFE。

TF-IDF统计处理的具体实现过程包括：计算词频TF，其计算公式为：TF＝某分词语在科技文档中的出现次数/科技文档的分词语总数，其中，TF(Term Frequency)为分词语在该科技文档中出现的次数；计算逆文档频率IDF，其计算公式为：IDF＝log(语料库的文档总数/包含该词的文档数+1)，其中，IDF(Inverse Document Frequency)为分词语普遍重要性的度量；计算词频-逆文档频率TF-IDF，其计算公式为：TF-IDF＝词频*逆文档频率＝TF*IDF。应当说明，此处的语料库是指任意一中文预料库。

步骤S230，将取TF-IDF最高的前m个分词语语作为该篇科技文档的种子词。将取TF-IDF词频最高的前m个分词分词语语作为该篇科技文档的种子词，其原因在于：对于计算的每个分词语的TF-IDF，TF-IDF越大，则说明该分词语对该科技文档的区分度就越高，取TF-IDF值较大的分词语作为该科技文档的种子词。

步骤S240，将种子词进行聚类成多个关键词组，关键字词组包括独立关键词与元素词，并计算每个独立关键词对应的权重，其中，第i篇科技文档的独立关键词为w₁,w₂，…，w_h，每个独立关键词对应的权重为Q(sw_i1)，Q(sw_i2)，…，Q(sw_im)。

为便于理解关键字词组、独立关键词以及元素词，以下将给出一实例，例如，独立关键词为发电技术，则该独立关键词的元素词包括火力发电、水力发电、核能发电、风力发电、太阳能热能发电、太阳能光能发电、磁流体发电、潮汐发电、海洋温差发电、波浪发电、生物质能发电，其中，核能发电为发电技术的第三个元素词。

本实施例中，计算每个独立关键词对应的权重的计算公式为

其中Q(swi)表示独立关键词swi的权重，p(wij)表示独立关键词swi的第j个元素词的概率分布。

步骤S250，将具有相同元素词的独立关键词进行合并，得到组合关键词h₁,h₂，…，并计算每个组合关键词的权重，每个组合关键词的权重为该组合关键词组成的各个独立关键词的权重之和。

例如，组合关键词wi-wj的权重为H(wi-wj)，其计算公式为H(wi-wj)＝H(wi)+H(wj)。

步骤S260，一一判断每个组合关键词与其他组合关键词是否存在关联性，若不存在关联系，则将该组合关键词设为该篇科技文档的主题因子，并计算其对应的权重。

本实例中，主题因子SGi的权重的计算公式为：

其中，Q(SGi)为主题因子SGi的权重，H(wi)为主题因子SGi对应词类的权重，H(wij)为生成主题因子SGi的第j个特征词的权重，k为生成主题因子SGi的特征数。换句话说，若科技文档中有多个特征词同时对应一个合并生成的词类，则这些特征词生成的主题因子的权重由该词类的权重乘以这些特征词权重之和求得。

为便于理解上述主题因子的获取过程，以下将给出一具体的实例。

获取某篇科技文档的种子词为：爆炸、矿难、事故、瓦斯、煤矿、炸弹、恐怖、自杀、汽车、死亡；

将种子词进行聚类后，形成两个关键词组，分别为煤矿(爆炸、矿难、事故、瓦斯)，爆炸(煤矿、炸弹、恐怖、自杀、汽车、瓦斯、死亡)，其中，煤矿与爆炸为独立关键词，其后括号内的为其对应的元素词；计算每个独立关键词对应的权重，独立关键词煤矿对于的权重为0118，独立关键词爆炸对于的权重为0121；

将具有相同元素词的的独立关键词进行合并，得到组合关键词煤矿—爆炸，其对应的权重为：0118+0121＝0139；

若组合关键词煤矿—爆炸与其他组合关键词不相关，则将组合关键词煤矿—爆炸设为该篇科技文档的主题因子，其对应的权重为：0139×(613+717)＝5146。

步骤S300，将N篇科技文档集合，形成一个数据矩阵

其中，n代表第n篇科技文档，m代表该篇科技文档中第m个主题因子对应的权重。

步骤S400，利用数据矩阵

计算每两篇科技文档的相异度，得到n×n维的相异矩阵

应当说明，根据d(i,j)＝d(j,i)以及d(i,i)＝0，得到上述的相异矩阵。对于相异矩阵中元素d(i,j)，通常其为一个非负数，当第i篇科技文档与第j篇科技文档非常相似时，该数值接近0，该数值越大也就表示第i篇科技文档与第j篇科技文档越不相似。

步骤S500，利用K-means算法，对相异矩阵

进行计算，将n篇科技文档聚类成K个聚族。

为验证科技文档的聚类方法的分类准确度，本实例中，科技文档的聚类方法还包括步骤S600，对聚类结果进行评估分析，具体包括，

计算聚族i的熵e_i(entropy)，其计算公式为

其中，L是聚族i的个数；

计算整个聚族划分的熵e，其计算公式为

对于整个聚族划分的熵e，其值越接近0，则聚类越准确。

本申请提供了一种科技文档的聚类方法，获取科技文档的主题因子以及每个主题因子对应的权重，将N篇科技文档集合形成一个数据矩阵，利用数据矩阵，计算每两篇科技文档的相异度，得到相异矩阵，再利用K-means算法，对相异矩阵进行计算，将多篇科技文档聚类成K个聚族。本申请的科技文档的聚类方法用于对科技文档进行分类，该分类过程简单、易操作，且准确率高。对于聚类后的科技文档，可方便科研人员查阅，从而可为后续科技项目的申报规划、科技成果的转化提供数据支持。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。