CN112380342A

CN112380342A - 一种电力文档主题提取方法及设备

Info

Publication number: CN112380342A
Application number: CN202011247379.8A
Authority: CN
Inventors: 宋立华; 梁懿; 苏江文; 王秋琳
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-02-19

Abstract

本发明涉及一种电力文档主题提取方法及设备，包括以下步骤：S1、获取包括多个文档的数据集；S2、筛除重复数据；S3、筛选出电网相关的文档；S4、对数据集进行分类；S5、提取文档主题。

Description

一种电力文档主题提取方法及设备

技术领域

本发明涉及一种电力文档主题提取方法及设备，属于文档主题提取领域。

背景技术

文档主题提取分为抽取式和生成式。抽取式主题方法是对原文中的句子进行评估打分，选出最能代表原文主旨的若干句子作为全文主题。生成式主题方法是利用机器学习等技术，使计算机对非原文的句子重新组合，生成原文主题。

公开号为CN110399606A的发明专利《一种无监督电力文档主题生成方法及系统》利用相关性分析方法，筛选与特定领域相关的文档数据，再利用聚类方法找到同类别的文档，然后对其进行主题提取，并将此应用在主题提取系统中，使得提取特定领域的主题更具可行性。但该专利未考虑到电力文档数据体量大、价值密度低、重复度高的特点，其结果中会出现大量重复的内容，不能体现舆论中多样性的观点。

发明内容

为了解决上述现有技术中存在的问题，本发明提供一种电力文档主题提取方法及设备，通过判断文档之间的相似性及hash map算法快速筛除数据集中的相似文档，避免最终得到大量重复内容，也减少后续步骤的计算量，显著提升提取文本主题的效率和效果。

本发明的技术方案如下：

技术方案一：

一种电力文档主题提取方法及设备，包括以下步骤：

S1、获取数据集，所述数据集包括多个文档；

S2、筛除重复数据：对多个文档进行分词，得到与文档一一对应的多个第一词列表；计算词列表中每个词的哈希值和tfidf值；根据所述哈希值和tfidf值，分别计算每个文档的SimHash签名；根据所述SimHash签名，计算文档两两之间的汉明距；根据所述汉明距判断文档是否相似；删去相似的文档；

S3、筛选出电网相关的文档：根据所述tfidf值和第一词列表中的词是否属于电力领域，计算文档对电力领域的匹配值；删去匹配值低于阈值的文档；

S4、对数据集进行分类：根据所述tfidf值，生成tfidf向量；根据所述tfidf向量对剩余的文档进行聚类分析，得到不同类别的文档；

S5、提取文档主题：对得到的不同类别的文档进行分句；对切分得到的句子进行分词，得到与句子一一对应的第二词列表；对句子进行向量化；根据句子向量，计算句子之间的相似性；将句子作为节点、句子之间的相似性作为权重，构建带权无向图；对该无向图的节点按相似度进行排序，将相似度最高的a个句子输出为文档的主题。

进一步的，在步骤S2中，通过hashmap算法快速计算两个文档之间的汉明距。

进一步的，在步骤S3中，计算文档对电力领域的匹配值的具体步骤为：

对第一词列表中的词按照tfidf值从大到小进行排序；对于排名在前k位的词，根据公式

计算文档对电力领域的匹配值；其中，i表示排名为第i位的词；tfidf[i]表示排名第i位的词的tfidf值；当第i个词属于电力领域时，H＝1；当第i个词的哈希值不属于电力领域时，H＝0。

进一步的，还包括对所述匹配值进行平衡计算，由公式表达为：

n为第一词列表中词的总数。

进一步的，在步骤S4中，通过Dbscan算法或Kmeans算法对文档进行聚类分析。

进一步的，在步骤S5中，句子向量化的具体步骤为：

将第二词列表中的词输入训练好的word2vec模型，得到词向量 (V₁，V₂，……，V_n)；根据词向量和第二词列表中词的tfidf值 [ω₁,ω₂,ω₃,......,ω_n]，生成句子向量：

其中， n表示第二词列表中词的总数。

进一步的，在步骤S5中，计算句子相似度的具体公式为：

其中，A_i、B_i分别表示两个句子向量。

技术方案二：

一种电力文档主题提取设备，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

S1、获取数据集，所述数据集包括多个文档；

n为第一词列表中词的总数。

进一步的，在步骤S5中，句子向量化的具体步骤为：

其中， n表示第二词列表中词的总数。

进一步的，在步骤S5中，计算句子相似度的具体公式为：

其中，A_i、B_i分别表示两个句子向量。

本发明具有如下有益效果：

1、本发明通过筛除相似性较高的文档，然后通过计算文档与电力领域的相关值，筛选出与电力领域高度相关的数据；对这些文档进行聚类，找到不同的类别下的多篇文档；再分别对聚类后文档进行主题提取，可以分类快速提取海量数据中的的主题信息。

2、本发明可用于提取网络平台上电网相关的言论、分析电力公司内部的数据，具体为：国家电力政策分析领域、制度条款搜索领域、知识推荐领域等。

3、本发明通过判断文档之间的相似性及hash map算法快速筛除数据集中的相似文档，避免最终得到大量重复内容，也减少后续步骤的计算量，显著提升提取文本主题的效率和效果。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

参见图1，一种电力文档主题提取方法，包括以下步骤：

S1、获取数据集，所述数据集包括多个文档。

S2、筛除重复数据：对多个文档进行分词，得到与文档一一对应的多个第一词列表。计算词列表中每个词的哈希值和tfidf值。根据所述哈希值和tfidf值，分别计算每个文档的SimHash签名。根据所述SimHash签名，计算文档两两之间的汉明距。根据所述汉明距判断文档是否相似；删去相似的文档。在本实施例中，根据汉明距的值，对文档从大至小进行排序；删去排名在3名的文档。

S3、筛选出电网相关的文档：根据所述tfidf值和第一词列表中的词是否属于电力领域(在本实施例中，在专利《电力专业词库生成方法及装置》所述的电力词库中查询第一词列表中的词，若能查询到，则认为该词属于电力领域)；计算文档对电力领域的匹配值；删去匹配值低于阈值的文档(在本实施例中，阈值为80)。

S4、对数据集进行分类：根据所述tfidf值，生成tfidf向量；根据所述tfidf向量对剩余的文档进行聚类分析，得到不同类别的文档。

S5、提取文档主题：对得到的不同类别的文档进行分句；对切分得到的句子进行分词，得到与句子一一对应的第二词列表；对句子进行向量化；根据句子向量，计算句子之间的相似性；将句子作为节点、句子之间的相似性作为权重，构建带权无向图；对该无向图的节点按相似度进行排序，将相似度最高的n个句子输出为文档的主题。

本实施例的有益效果在于，通过筛除相似性较高的文档，然后通过计算文档与电力领域的相关值，筛选出与电力领域高度相关的数据；对这些文档进行聚类，找到不同的类别下的多篇文档；再分别对聚类后文档进行主题提取，可以分类快速提取海量数据中的的主题信息。此外，本发明可用于提取网络平台上电网相关的言论、分析电力公司内部的数据(具体为：国家电力政策分析领域、制度条款搜索领域、知识推荐领域等)。

实施例二

在收集文档的过程中，期望收集到尽可能全面且不同的内容。但同一篇文章常常会转载到多个平台上，以关于Trump的1.5万篇新闻语料为例：内容不同的语料占所有语料的比例仅有8.5％，而在这仅有的8.5％中，仍有一些文本的内容绝大多数相同，仅有个别字符的差异。直接使用这样的语料进行分析，会导致后续聚类和主题生成的结果中出现大量重复的内容，无法尽可能地展现多样性的观点。因此需要对文本内容进一步去重，高效的过滤掉那些内容上大部分相同，只有个别地方不同的文本。

在本实施例中，举例说明计算每个文档的SimHash签名的具体过程：文本A的内容为：“供电企业应当制定接入工作流程。”

对文本A进行分词并删去停用词，得到第一词列表wl：“供电企业”、“应当”、“制定”、“接入”、“工作”、“流程”。其中，每个词通过md5信息摘要算法表示为128位的哈希值，比如“流程”为128位的(101……01)。词的tfidf值的计算方法为公知常识，此处不再赘述。根据所述tfidf值和哈希值，分别计算得到每个文档的 SimHash签名。比如，“流程”的tfidf值为8，得到字符串(8-8 8…… -8 8)。对由第一词列表中词得到的所有字符串按位进行求和，得到 (2-6 5……1 2)。对(2-6 5……1 2)进行降维：若字符串的第i位>0，则SimHash签名的第i位＝1；否则sim_hash的第i位＝0。求得文档的SimHash签名为(1 0 1……1 1)。

将计算所得的文档的SimHash签名存储到数据集。在程序运行时将全量文档的SimHash加载到内存的HashMap中。HashMap的key 是文档ID，value是其SimHash值。由于HashMap的搜索算法复杂度是O(1)，从而实现了基于HashMap的文档SimHash快速匹配。

本实施例的进步之处在于，判断文档之间的相似性，并通过hash map算法快速筛除数据集中的相似文档，避免最终得到大量重复内容，也减少后续步骤的计算量，显著提升提取文本主题的效率和效果。

实施例三

进一步的，Kmeans算法的步骤为：

S1、随机选择K个文档，文档的tfidf向量作为初始的中心；

S2、将每个文档指派到最近的中心，形成K个簇；

S3、根据簇中文档的tfidf向量，重新计算每个簇的中心；S4、重复执行步骤S2到S3，直到簇不发生变化或达到最大迭代次数。

实施例四

对多篇文档按本发明所述方法进行处理，得到类别A下有以下3 篇文档《发改委：供电企业不得拒绝增量配电网、微电网等输配电设施接入系统》《焦点丨能源局修法，力保增量配网、微网、分布式能源公平接网》《头条|发改委发话：增量配电网等输配电设施接入系统，供电企业不得拒绝或拖延》。

得到主题如下：意见稿指出，用电设施存在严重威胁电力系统安全运行和现场作业人身安全的隐患，用户拒不治理的，供电企业可以按照国家有关规定对该用户中止供电。供电企业应当制定接入工作流程及时限并向社会公开。供电企业违反本办法第二十二、第二十三条规定，由能源监管机构依据电力企业信息披露及报送有关规定进行处理。第十二条能源监管机构对供电企业向用户受电工程提供服务的情况实施监管。第二十二条能源监管机构对供电企业信息公开的情况实施监管。

实施例五

S1、获取数据集，所述数据集包括多个文档。

实施例六

对文本A进行分词并删去停用词，得到第一词列表wl：“供电企业”、“应当”、“制定”、“接入”、“工作”、“流程”。其中，每个词通过md5信息摘要算法表示为128位的哈希值，比如“流程”为128位的(101……01)。词的tfidf值的计算方法为公知常识，此处不再赘述。根据所述tfidf值和哈希值，分别计算得到每个文档的SimHash签名。比如，“流程”的tfidf值为8，得到字符串(8 -8 8…… -8 8)。对由第一词列表中词得到的所有字符串按位进行求和，得到 (2 -6 5……1 2)。对(2 -6 5……1 2)进行降维：若字符串的第i位>0，则SimHash签名的第i位＝1；否则sim_hash的第i位＝0。求得文档的SimHash签名为(1 0 1……1 1)。

实施例七

进一步的，Kmeans算法的步骤为：

S1、随机选择K个文档，文档的tfidf向量作为初始的中心；

S2、将每个文档指派到最近的中心，形成K个簇；

实施例八

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。