CN116091120B

CN116091120B - 一种基于知识图谱技术的全栈式电价咨询与管理系统

Info

Publication number: CN116091120B
Application number: CN202310377236.6A
Authority: CN
Inventors: 洪杨; 罗卫
Original assignee: Beijing Zhiyi Yangfan Technology Co ltd
Current assignee: Shanxi Changtai Energy Co ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-06-23
Anticipated expiration: 2043-04-11
Also published as: CN116091120A

Abstract

本发明涉及数据处理技术领域，提出了一种基于知识图谱技术的全栈式电价咨询与管理系统，包括：获取原始矩阵及当前词性矩阵；获取历史词性矩阵；对原始矩阵进行奇异值分解，获取每个奇异值的第一重构矩阵，根据历史词性矩阵获取词性分布曲线，根据第一重构矩阵的词性分布及当前词性矩阵，与词性分布曲线的差异获取每个奇异值的干扰信息程度；获取每个奇异值的若干第二重构矩阵，根据第二重构矩阵之间的相似程度获取每个奇异值的语义信息量；获取每个奇异值的选择程度，得到第三重构矩阵；获取历史重构矩阵，根据第三重构矩阵及历史重构矩阵进行聚类，生成知识图谱。本发明旨在对政策文档进行降维并聚类以提高知识图谱准确性。

Description

一种基于知识图谱技术的全栈式电价咨询与管理系统

技术领域

本发明涉及数据处理领域，具体涉及一种基于知识图谱技术的全栈式电价咨询与管理系统。

背景技术

构建新能源为主的新型电力系统是实现可持续发展，推动碳达峰和碳中和目标的重要措施；随着新能源建设的大力发展，可再生能源的政策也在不断发生变化；由于其发电类型及消纳方式等因素不同，其享受的补助标准及适用拨付原则也不尽相同；全栈式平台是打破“信息孤岛”，实现资源信息共享，构建完整高效体系结构的一种有效方式；而知识图谱技术通过可视化技术来完整地描述知识资源信息及其之间的相互联系。因此本发明创新地应用知识图谱技术构建全栈式电价咨询与管理系统，形成新能源政策文件池，支持智能查询、信息提取、关联分析等功能，实现政策体系完整、政策历史脉络清晰展现等目的，帮助相关人员切实弄通悟透政策要点，进而规避政策执行风险。

在根据采集的政策文档构建知识图谱的过程中，往往是对采集的政策文档进行处理，并通过数据预处理及知识融合等操作，把具有相关联系的政策文档进行聚类；而在聚类过程中，由于文本数据的特性，存在文本向量维度高且干扰信息较大的缺点，使得在进行相关联系的政策文档聚类时，得到的聚类结果不准确，因此往往需要在前处理过程中对政策文档中的文本数据进行降维。

奇异值分解是一种应用较为广泛的数据降维方法，对政策文档得到的词矩阵进行奇异值分解，通过保存较大奇异值对应的子矩阵并进行重构即可得到降维后的词矩阵；然而在奇异值分解过程中，由于较大的奇异值对应的子矩阵中包含的信息较多，这些子矩阵中在包含有效信息的同时还包含较多干扰信息；同时可能出现由于奇异值较小，但其对应的子矩阵中包含重要语义信息而被删除，进而使重构后的词矩阵包含有干扰信息且一些重要语义信息丢失，造成在政策文档聚类过程中的错误分类，进而使知识图谱不够准确而影响到全栈式电价咨询与管理系统的正常应用。

发明内容

本发明提供一种基于知识图谱技术的全栈式电价咨询与管理系统，以解决现有的政策文档降维后丢失重要信息的问题，所采用的技术方案具体如下：

本发明一个实施例提供了一种基于知识图谱技术的全栈式电价咨询与管理系统，该系统包括：

政策文档采集模块：采集当前政策文档数据，获取原始矩阵及当前词性矩阵；获取若干历史政策文档数据，得到每个历史政策文档数据的历史词矩阵及历史词性矩阵；

数据降维重构模块：对原始矩阵进行奇异值分解，获取若干奇异值及对应子矩阵，分别将每个奇异值对应子矩阵去除后进行矩阵重构得到每个奇异值的第一重构矩阵，根据第一重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性，获取第一重构矩阵的第一词性矩阵；根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线，根据历史词性矩阵获取每一行的词性分布曲线，根据第一词性曲线及当前词性曲线与词性分布曲线的差异获取每个奇异值及对应子矩阵的干扰信息程度；

根据组合奇异值数量获取每个奇异值对应的包含该奇异值的奇异值组合，根据奇异值组合获取每个奇异值的若干第二重构矩阵，根据第二重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性，获取第二重构矩阵的第二词性矩阵，获取第二词性矩阵中每一行的第二词性曲线，获取第二重构矩阵中每一行的句向量，根据两个第二重构矩阵中相同行之间的第二词性曲线及句向量之间的关系获取两个第二重构矩阵之间的语义相似程度，将任意一个奇异值的所有任意两个第二重构矩阵之间的语义相似程度的均值作为该奇异值及对应子矩阵的语义信息量；

根据干扰信息程度及语义信息量获取每个奇异值及对应子矩阵的选择程度，将所有选择程度降序排列，选取较大的组合奇异值数量的选择程度，根据选取的选择程度对应的奇异值及对应子矩阵获取第三重构矩阵；

知识图谱生成模块，对每个历史政策文档数据降维得到历史重构矩阵，根据第三重构矩阵及历史重构矩阵进行聚类，根据聚类结果生成知识图谱。

可选的，所述获取原始矩阵及当前词性矩阵，包括的具体方法为：

通过分词处理获取当前政策文档数据的若干分词，以当前政策文档数据中的每个句子为一行，将每个句子中的分词利用数字进行排序，每个矩阵元素代表一个分词，得到的矩阵记为原始矩阵；

获取当前政策文档数据中每个分词的词性，以当前政策文档数据中的每个句子为一行，将每个句子中的分词的词性利用数字进行排序，每个矩阵元素代表一个分词的词性，得到的矩阵记为当前词性矩阵。

可选的，所述根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线，包括的具体方法为：

根据当前词性矩阵及第一词性矩阵，以横坐标为列数，纵坐标为词性数值，分别获取第一词性矩阵中每一行的第一词性曲线，及当前词性矩阵中每一行的当前词性曲线。

可选的，所述根据历史词性矩阵获取每一行的词性分布曲线，包括的具体方法为：

获取历史词性矩阵中每一行的历史词性曲线，对所有历史词性矩阵中的相同行的历史词性曲线，通过最小二乘法进行拟合，得到的曲线记为该行的词性分布曲线。

可选的，所述获取每个奇异值及对应子矩阵的干扰信息程度，包括的具体方法为：

其中，

表示第

个奇异值及对应子矩阵的干扰信息程度，

表示词性矩阵中的行数，

表示第

行的词性分布曲线，

表示第

行的当前词性曲线，

表示第

个奇异值第

行的第一词性曲线，

表示两条曲线之间的DTW距离。

可选的，所述获取两个第二重构矩阵之间的语义相似程度，包括的具体方法为：

其中，

表示第

个奇异值的第

个第二重构矩阵和第

个第二重构矩阵之间的语义相似程度

，

表示语义信息常量，

表示第

个奇异值的第

个第二重构矩阵中第

行的句向量，

表示第

个奇异值的第

个第二重构矩阵中第

行的句向量，

表示第

个奇异值的第

个第二词性矩阵中第

行的第二词性曲线，

表示第

个奇异值的第

个第二词性矩阵中第

行的第二词性曲线，

表示两个向量之间的余弦相似度，

表示两条曲线的之间DTW距离。

可选的，所述对每个历史政策文档数据降维得到历史重构矩阵，包括的具体方法为：

以任意一个历史政策文档数据为例，获取该历史政策文档数据的历史词矩阵及历史词性矩阵，对历史词矩阵进行奇异值分解，按照干扰信息程度及语义信息量的获取方法得到该历史词矩阵中每个奇异值的干扰信息程度及语义信息量，进而得到每个奇异值的选择程度，重构得到该历史词矩阵对应的历史政策文档数据的历史重构矩阵。

本发明的有益效果是：本发明通过分析政策文档获取词矩阵，并对词矩阵进行奇异值分解后，根据每个奇异值及对应子矩阵进行重构词矩阵，根据重构前后词矩阵的干扰信息差异及语义信息差异，来量化每个奇异值及对应子矩阵的干扰信息程度以及语义信息量，进而获取每个奇异值及对应的矩阵的选择程度；避免了传统的奇异值分解进行降维的过程中，仅保留较大的奇异值而不考虑其中含有干扰信息的缺点，并删除包含有部分有效信息的较小奇异值而使得有效信息被删除的错误操作；使得降维后的政策文档数据表征的语义信息更加准确，进而实现政策文档精准聚类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的一种基于知识图谱技术的全栈式电价咨询与管理系统结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例所提供的一种基于知识图谱技术的全栈式电价咨询与管理系统结构框图，该系统包括：

政策文档采集模块S101，采集当前政策文档数据，转换获取原始矩阵及当前词性矩阵；获取若干历史政策文档数据，得到每个历史政策文档数据的历史词矩阵及历史词性矩阵。

本实施例的目的是对当前的政策文档进行降维，进而将降维后的政策文档进行聚类整理并生成知识图谱，因此首先需要采集政策文档；本实施例采集到的政策文档数据为PDF格式，记为当前政策文档数据，将当前政策文档数据通过JieBa分词处理，获取到若干分词，并对每个分词的词性进行标注。

进一步的，将采集到的当前政策文档数据转换为词矩阵，记为原始矩阵；具体的转化过程为：将每个分词按出现顺序从1开始利用正整数进行数字排序，矩阵中的每一行代表一个句子，每个矩阵元素代表一个分词，由于每个句子的分词数不相同，则缺少分词的矩阵元素使用“0”进行表示；例如：一个句子为“新能源政策开始实施注意问题”，经过JieBa分词后得到的分词为“新能源、政策、开始、实施、注意、问题”，相应的数字排序为“新能源”为 “1”，“政策”为“2”，“开始”为“3”，…，“问题”为“6”，则对应的矩阵中该行中各个矩阵元素为

；下一个句子为“新能源政策的实施过程”，新增分词的排序“的”为“7”，“过程” 为“8”，则对应的矩阵中该行中各个矩阵元素为

；需要说明的是，JieBa分词为公知技术，本实施例不再赘述；对于各个句子中相同分词的判断，本实施例利用字符串匹配及识别的方法进行判断，为现有技术不再赘述。

进一步的，通过原始矩阵的构建方法根据每个分词的词性构建词性矩阵，将形容词、动词等词性依次按出现顺序从1开始利用正整数进行数字排序，得到当前政策文档数据的词性矩阵，记为当前词性矩阵；需要说明的是，原始矩阵中为0的矩阵元素，在词性矩阵中相同位置的矩阵元素仍用“0”进行表示；词性矩阵中的每一行代表一个句子中每个分词的词性，每个矩阵元素代表一个分词的词性。

进一步的，获取若干历史政策文档数据，并按照上述方法获取每个历史政策文档数据的词矩阵，记为历史词矩阵；获取每个历史政策文档数据的词性矩阵，记为历史词性矩阵；需要说明的是，历史政策文档数据即为已有的政策文档，当前政策文档数据即为新增的政策文档，需要将新增的政策文档与若干历史政策文档进行归类整理，进而生成知识图谱。

数据降维重构模块S102：

（1）对原始矩阵进行奇异值分解，获取若干奇异值及对应子矩阵，分别将每个奇异值对应子矩阵去除后进行矩阵重构每个奇异值的第一重构矩阵，根据历史词性矩阵获取词性分布曲线，根据第一重构矩阵的词性分布及当前词性矩阵，与词性分布曲线的差异获取每个奇异值及对应子矩阵的干扰信息程度。

需要说明的是，对原始矩阵进行奇异值分解后，由于传统的根据奇异值进行重构会导致干扰信息未被去除而有效信息丢失，因此需要对奇异值的干扰信息及有效信息进行量化；对于干扰信息，由于政策文档中文本内容相较于普通文本更加规整，对应的一些非规律性的内容就可能表现为特殊分词，词性较之规整文本也不同，进而影响词性分布，这些非规律性内容为干扰信息的可能性就较大，可以通过词性分布的差异来判断干扰信息；通过分别去除每个奇异值对应子矩阵得到的重构矩阵，以及原始矩阵在词性分布上，与历史词性矩阵整合得到的词性分布曲线上的差异，获取每个奇异值及对应子矩阵的干扰信息程度。

具体的，首先对原始矩阵进行奇异值分解，获取到

个奇异值及对应子矩阵，奇异值分解为现有技术，本实施例不再赘述；原始矩阵记为

，则根据奇异值分解的原始矩阵

展开式为：

其中，

表示奇异值的数量，

表示第

个奇异值，

及

表示第

个奇异值的对应子矩阵，

表示矩阵

的转置矩阵；该展开式为原始矩阵的奇异值分解展开式，而利用奇异值进行重构则可以根据展开式进行重构，即是将选择的奇异值及对应子矩阵按照展开式方法进行累加重构即可完成，具体矩阵重构方法为现有技术，本实施例不再赘述。

进一步的，以第

个奇异值为例，将所有奇异值中去除第

个奇异值进行矩阵重构，得到的矩阵中每个元素向上取整，将原始矩阵中为0的矩阵元素，在取整后的矩阵中相同位置的矩阵元素也替换为0，记为第

个奇异值的第一重构矩阵；此时第一重构矩阵中每个元素依然代表一个分词，且原始矩阵中作为补充元素的位置在第一重构矩阵中仍为补充元素，即该位置没有分词；根据第一重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性，获取第一重构矩阵的第一词性矩阵；以横坐标为列数，纵坐标为词性数值，获取第一词性矩阵中每一行的第一词性曲线，记为第

个奇异值每一行的第一词性曲线；以相同坐标系获取当前词性矩阵中每一行的当前词性曲线。

进一步的，按照上述方法获取历史词性矩阵中每一行的历史词性曲线，对所有历史词性矩阵中的相同行的历史词性曲线，通过最小二乘法进行拟合，得到的曲线记为该行的词性分布曲线，最小二乘法进行多曲线拟合为现有技术，本实施例不再赘述；词性分布曲线量化了若干历史词性矩阵中每一行的词性分布，进而根据第一词性曲线与词性分布曲线的差异判断每个奇异值的干扰信息程度；需要说明的是，原始矩阵中的行数与各个历史词矩阵中的行数均保持一致，即获取原始矩阵与各个历史词矩阵中的最大行数，将所有矩阵的行数都补充至最大行数，缺少的行进行补“0”处理。

具体的，以第

个奇异值为例，获取该奇异值及对应子矩阵的干扰信息程度

的计算方法为：

其中，

表示词性矩阵中的行数，

表示第

行的词性分布曲线，

表示第

行的当前词性曲线，

表示第

个奇异值第

行的第一词性曲线，

表示两条曲线之间的DTW距离，为现有技术，本实施例不再赘述；当前词性曲线与词性分布曲线的DTW距离越大，相似程度越小，原始矩阵中包含的干扰信息越多；而对于去除掉第

个奇异值对应子矩阵的第一重构矩阵，其与词性分布曲线的DTW距离和当前词性曲线与词性分布曲线的DTW距离之间的差异越小，则表明去除掉的第

个奇异值对应子矩阵中包含的干扰信息越少，相应的干扰信息程度就越小；按照上述方法获取原始矩阵得到的每个奇异值及对应子矩阵的干扰信息程度。

至此，获取到了每个奇异值及对应子矩阵的干扰信息程度，用于后续对原始矩阵进行降维重构的奇异值选取。

（2）获取每个奇异值对应的若干奇异值组合，根据奇异值组合获取每个奇异值的若干第二重构矩阵，根据同一奇异值的若干第二重构矩阵之间的相似程度获取每个奇异值及对应子矩阵的语义信息量。

需要说明的是，首先构造若干奇异值组合，组合内的奇异值数量预先给出，并用于后续原始矩阵降维重构的奇异值选取数量；以任意一个奇异值为例，获取包含该奇异值的若干奇异值组合，根据这些奇异值组合分别重构得到该奇异值的若干第二重构矩阵，第二重构矩阵之间的交集部分即可反映该奇异值及对应子矩阵的语义信息量；第二重构矩阵之间的交集可以通过每一行的相似程度来量化，每一行都可能存在同义词，即意义相同但文字不同，同义词之间词性相同，则可以根据不同第二重构矩阵相同行之间的词性分布的相似程度来表征交集部分，进而得到奇异值及对应子矩阵的语义信息量。

具体的，给出组合奇异值数量

，本实施例采用

进行计算，用于构建奇异值数量为

的奇异值组合，以第

个奇异值为例，获取包含第

个奇异值的一个奇异值组合，这个奇异值组合中的奇异值数量为

，那么可以获取到多个这样的奇异值组合，分别根据每个奇异值组合及对应子矩阵重构矩阵得到若干矩阵，得到的矩阵中每个元素向上取整，将原始矩阵中为0的矩阵元素，在取整后的矩阵中相同位置的矩阵元素也替换为0，记为第

个奇异值的第二重构矩阵，由于存在多个第

个奇异值对应的奇异值组合，因此第

个奇异值对应多个第二重构矩阵；根据第二重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性，获取第二重构矩阵的第二词性矩阵；以横坐标为列数，纵坐标为词性数值，获取第二词性矩阵中每一行的第二词性曲线。

进一步的，以第

个奇异值的第

个第二重构矩阵和第

个第二重构矩阵为例，获取两个第二重构矩阵之间的语义相似程度

的具体计算方法为：

其中，

表示语义信息常量，本实施例采用

进行计算，用于反映相似程度与交集之间的关系；

表示第

个奇异值的第

个第二重构矩阵中第

行的句向量，

表示第

个奇异值的第

个第二重构矩阵中第

行的句向量，句向量获取方法为现有技术，可以通过Word2vec模型获取，本实施例不再赘述；

表示第

个奇异值的第

个第二词性矩阵中第

行的第二词性曲线，

表示第

个奇异值的第

个第二词性矩阵中第

行的第二词性曲线；

表示两个向量之间的余弦相似度，

表示两条曲线的之间DTW距离；分子分母加1的目的是为避免分母为0的情况影响计算结果；不同第二重构矩阵中相同行的句向量之间余弦相似度越大，两行的语义相似程度越大；DTW距离越小，词性分布曲线的相似程度越大，两行的语义相似程度越大；按照上述方法获取第

个奇异值中任意两个第二重构矩阵之间的语义相似程度，将所有语义相似程度的均值作为第

个奇异值及对应子矩阵的语义信息量；按照上述方法获取每个奇异值及对应子矩阵的语义信息量。

至此，获取到了每个奇异值及对应子矩阵的语义信息量，用于后续对原始矩阵进行降维重构的奇异值选取。

（3）根据干扰信息程度及语义信息量获取每个奇异值及对应子矩阵的选择程度，根据选择程度选取若干奇异值及对应子矩阵获取第三重构矩阵。

需要说明的是，对于任意一个奇异值，已经获取到了其干扰信息程度及语义信息量，干扰信息程度越大的奇异值，其对应子矩阵中包含越多干扰信息，对于整个政策文档的无效信息越多；语义信息量越大的奇异值，对应子矩阵包含越多语义信息，应尽量保留该奇异值及对应子矩阵进行重构，以避免降维后的词矩阵中丢失有效语义信息。

具体的，获取每个奇异值的语义信息量与干扰信息程度的比值，将所有奇异值得到的比值进行线性归一化，归一化得到的结果即为每个奇异值及对应子矩阵的选择程度；将所有奇异值按照选择程度降序排列，选取前

个奇异值及对应子矩阵进行重构，得到重构的矩阵即为第三重构矩阵；需要说明的是，

即为预设的组合奇异值数量，矩阵重构为公知技术，本实施例不再赘述。

至此，获取到了原始矩阵中每个奇异值的选择程度，并重构得到了第三重构矩阵，完成了对于当前政策文档数据的降维处理。

知识图谱生成模块S103，对每个历史政策文档数据降维得到历史重构矩阵，根据第三重构矩阵及历史重构矩阵进行聚类，根据聚类结果生成知识图谱。

需要说明的是，经过奇异值分解原始矩阵，获取每个奇异值的选择程度进而得到当前政策文档数据的第三重构矩阵，第三重构矩阵即为当前政策文档数据的降维矩阵；要对当前政策文档数据及历史政策文档数据进行聚类，则同样需要对每个历史政策文档数据进行降维获取相应的历史重构矩阵。

具体的，对任意一个历史词矩阵按照S102中的原始矩阵处理过程进行奇异值分解，按照干扰信息程度及语义信息量的获取方法得到该历史词矩阵中每个奇异值的干扰信息程度及语义信息量；需要说明的是，计算干扰信息程度过程中获取词性分布曲线的方法不变，即词性分布曲线计算仍包含该历史词矩阵；进而得到每个奇异值的选择程度，并重构得到该历史词矩阵对应的历史政策文档数据的历史重构矩阵；按照上述方法获取每个历史政策文档数据的历史重构矩阵。

进一步的，根据降维后的第三重构矩阵及若干历史重构矩阵进行聚类，聚类方法可以采用矩阵之间的相似程度进行DBSCAN聚类，具体聚类方法本实施例不做限定；对聚类结果中每一类的政策文档进行信息提取及知识融合等处理，经过质量评估后将合格部分加入到知识库中，生成知识图谱；其中知识图谱的相关生成过程为现有技术，本实施例不再赘述。

至此，完成了根据若干政策文档生成的知识图谱，进而构建全栈式电价咨询与管理系统，形成新能源政策文件池，支持智能查询、信息提取、关联分析等功能；本实施例采用的对政策文档数据的降维方法，最大程度地保留有效语义信息并降低数据维度，使得政策文档间的聚类结果更加准确，进而可以将相关联系性较强的政策文档更好地整合，对于生成的知识图谱更加准确；使得全栈式电价咨询与管理系统可以对政策文档进行智能解析，进而关联相关的政策文档，不断更新优化电价等新能源政策方面的知识图谱；同时可以更好地展现政策历史脉络，帮助相关人员更加准确的悟透政策要点，避免了将不相关的政策文档进行联系而生成错误的知识图谱。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱技术的全栈式电价咨询与管理系统，其特征在于，该系统包括：

数据降维重构模块：对原始矩阵进行奇异值分解，获取若干奇异值及对应子矩阵，分别将每个奇异值对应子矩阵从原始矩阵中去除后进行矩阵重构得到每个奇异值的第一重构矩阵，根据第一重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性，获取第一重构矩阵的第一词性矩阵；根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线，根据历史词性矩阵获取每一行的词性分布曲线，根据第一词性曲线及当前词性曲线与词性分布曲线的差异获取每个奇异值及对应子矩阵的干扰信息程度；

构造若干奇异值组合，奇异值组合内的奇异值数量为a个，获取包含当前奇异值的若干奇异值组合，根据所述包含当前奇异值的若干奇异值组合分别重构得到当前奇异值的若干第二重构矩阵，根据第二重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性，获取第二重构矩阵的第二词性矩阵，获取第二词性矩阵中每一行的第二词性曲线，获取第二重构矩阵中每一行的句向量，根据两个第二重构矩阵中相同行之间的第二词性曲线及句向量之间的关系获取两个第二重构矩阵之间的语义相似程度，将任意一个奇异值的所有任意两个第二重构矩阵之间的语义相似程度的均值作为该奇异值及对应子矩阵的语义信息量；

根据干扰信息程度及语义信息量获取每个奇异值及对应子矩阵的选择程度，将所有选择程度降序排列，选取最大的前a个选择程度，根据选取的选择程度对应的奇异值及对应子矩阵获取第三重构矩阵；

知识图谱生成模块，对每个历史政策文档数据降维得到历史重构矩阵，根据第三重构矩阵及历史重构矩阵进行聚类，根据聚类结果生成知识图谱；

所述获取原始矩阵及当前词性矩阵，包括的具体方法为：

获取当前政策文档数据中每个分词的词性，以当前政策文档数据中的每个句子为一行，将每个句子中的分词的词性利用数字进行排序，每个矩阵元素代表一个分词的词性，得到的矩阵记为当前词性矩阵；

所述分别将每个奇异值对应子矩阵从原始矩阵中去除后进行矩阵重构得到每个奇异值的第一重构矩阵的具体过程为：

将原始矩阵记为A，根据奇异值分解的原始矩阵A展开式为：