CN115577095B

CN115577095B - 一种基于图论的电力标准信息推荐方法

Info

Publication number: CN115577095B
Application number: CN202211587871.9A
Authority: CN
Inventors: 周育忠; 涂亮; 林正平; 王宏; 杨宇亮
Original assignee: CSG Electric Power Research Institute
Current assignee: CSG Electric Power Research Institute
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-05-02
Anticipated expiration: 2042-12-12
Also published as: CN115577095A

Abstract

本申请提供一种基于图论的电力标准信息推荐方法，通过获取用户信息和电力标准信息，得到相应的用户向量和物品偏移向量；基于电力标准信息从预先构建的电力标准知识图谱中获取对应的结构化知识，以及，基于电力标准信息，确定出对应的文本知识；再对结构化知识和文本知识进行向量化，分别得到结构化向量和文本化向量；进一步确定出物品向量；再基于用户向量和物品向量，计算电力标准信息的推荐指数。这样的方式，可以将预先构建的电力标准知识图谱利用起来，结合到协同过滤的推荐方法中，提升在电力技术领域中对于电力标准信息的个性化推荐，有利于提升个性化推荐的效果。

Description

一种基于图论的电力标准信息推荐方法

技术领域

本申请涉及电力技术领域，具体而言，涉及一种基于图论的电力标准信息推荐方法。

背景技术

在信息化的今天，人们需要面对的信息量呈指数级增长。那么，如何从海量的信息中将用户可能更需要的信息推送给用户，以达到双赢的目的，是目前面临的重要问题。

当下，推荐系统已经在电商、社交平台、个性化内容推荐等领域发挥了重要作用，成了现代互联网应用场景中不可或缺的一部分。

但对于一些垂直领域的技术文档、文献、资讯等的个性化推荐上，依旧依赖于传统的推荐方式，例如基于协同过滤的推荐系统、基于内容的推荐系统、混合推荐系统等。例如，针对电力技术领域中电力标准知识相关的内容推荐，也通常是依赖于传统的推荐方式，未能将电力标准知识图谱利用起来，结合到推荐系统中。

发明内容

本申请实施例的目的在于提供一种基于图论的电力标准信息推荐方法，以利用电力标准知识图谱实现电力标准信息的个性化推荐。

为了实现上述目的，本申请的实施例通过如下方式实现：

第一方面，本申请实施例提供一种基于图论的电力标准信息推荐方法，包括：获取用户信息和电力标准信息，其中，用户信息用于反映用户的基本信息和兴趣偏好，电力标准信息为包含电力标准知识的文献；基于所述用户信息生成用户向量；基于所述电力标准信息，确定出物品偏移向量；基于所述电力标准信息，从预先构建的电力标准知识图谱中获取对应的结构化知识，以及，基于所述电力标准信息，确定出对应的文本知识；对所述结构化知识和所述文本知识进行向量化，分别得到结构化向量和文本化向量；基于所述物品偏移向量、所述结构化向量和所述文本化向量，确定出物品向量；基于所述用户向量和所述物品向量，计算电力标准信息的推荐指数。

在本申请实施例中，通过获取用户信息和电力标准信息，得到相应的用户向量和物品偏移向量；基于电力标准信息从预先构建的电力标准知识图谱中获取对应的结构化知识，以及，基于电力标准信息，确定出对应的文本知识；再对结构化知识和文本知识进行向量化，分别得到结构化向量和文本化向量；进一步确定出物品向量；再基于用户向量和物品向量，计算电力标准信息的推荐指数。这样的方式，可以将预先构建的电力标准知识图谱利用起来，结合到协同过滤的推荐方法中，提升在电力技术领域中对于电力标准信息的个性化推荐，有利于提升个性化推荐的效果。

结合第一方面，在第一方面的第一种可能的实现方式中，基于所述电力标准信息，从预先构建的电力标准知识图谱中获取对应的结构化知识，包括：获取所述电力标准信息对应的 a个关键词；基于 a个关键词，从预先构建的电力标准知识图谱中获取对应的 b个三元组（ h， r， t），其中， b≤ a，三元组（ h， r， t）中 h、 r、 t分别表示头实体、关系和尾实体。

在该实现方式中，通过获取电力标准信息对应的 a个关键词（可能一部分是实体类的关键词，一部分是属性类关键词），进一步从预先构建的电力标准知识图谱中获取对应的 b个三元组（ h， r， t），这样可以快速准确地得到电力标准信息对应的结构化知识。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，基于所述电力标准信息，确定出对应的文本知识，包括：针对每个三元组（ h， r， t），从预先构建的电力标准知识图谱中确定出其头实体 h的属性；从所述电力标准信息中获取对应此头实体 h的关键词的文本内容；将此头实体 h的属性与对应此头实体 h的关键词的文本内容进行组合，得到此三元组（ h， r， t）对应的子文本知识；共计得到 b个子文本知识，作为所述电力标准信息对应的文本知识。

在该实现方式中，这样的方式得到的文本知识更加全面，能够利用电力标准知识图谱中头实体的属性实现对头实体对应关键词的内容补充，从而丰富文本知识，有利于提高个性化推荐的准确性。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，对所述结构化知识和所述文本知识进行向量化，分别得到结构化向量和文本化向量，包括：利用Bayesian TransR对每个三元组（ h， r， t）进行向量化，得到对应的 b个结构化子向量， b个结构化子向量的集合视为所述结构化向量；利用Bayesian SDAE对每个子文本知识进行向量化，得到对应的 b个文本化子向量， b个文本化子向量的集合视为所述文本化向量。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，基于所述物品偏移向量、所述结构化向量和所述文本化向量，确定出物品向量，包括：将所述物品偏移向量与 b个结构化子向量及 b个文本化子向量分别对应进行融合，得到对应 b个关键词的 b组物品分向量。

在该实现方式中，此种方式将物品偏移向量与 b个结构化子向量及 b个文本化子向量分别对应进行融合，得到对应 b个关键词的 b组物品分向量，能够使得到的用于计算推荐指数的物品向量更加准确全面地反映电力标准信息的特征，有利于提升推荐的准确性和有效性。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，基于所述用户向量和所述物品向量，计算电力标准信息的推荐指数，包括：针对 b组物品分向量中的每一组物品分向量，基于此组物品分向量与所述用户向量进行计算，得到对应此组物品分向量的推荐指数分量，共计计算出对应 b组物品分向量的 b个推荐指数分量；基于 b个推荐指数分量，计算出所述电力标准信息的推荐指数。

在该实现方式中，通过将每一组物品分向量与用户向量进行计算，得到对应 b组物品分向量的 b个推荐指数分量，进一步计算出电力标准信息的推荐指数，这样能够更加综合地考虑到电力标准信息的内容是否符合用户的偏好。

结合第一方面，或者结合第一方面的第一种至第五种中任一可能的实现方式，在第一方面的第六种可能的实现方式中，在获取用户信息和电力标准信息之前，所述方法还包括：构建电力标准知识图谱的本体结构，所述本体结构包含实体、属性及实体间关系；获取包含电力标准知识的基础数据，并对所述基础数据进行知识抽取，抽取出实体、属性及实体间关系；基于抽取的知识进行知识融合；采用Neo4j图数据库对知识融合后的知识进行存储，以构建出所述电力标准知识图谱。

在该实现方式中，这样能够实现电力标准知识图谱的构建。

结合第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，所述基础数据为纯文本数据，或者，所述基础数据为文本数据与公式图像，对所述基础数据进行知识抽取，抽取出实体、属性及实体间关系，包括：对所述基础数据进行预处理，得到多个文本信息，或者得到多个文本信息和至少一个图像信息；针对每个文本信息，将该文本信息分词后输入至Bert子模型，得到对应的向量序列，然后将得到的向量序列输入至BGRU子模型中，输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵，再将所述状态矩阵输入至CRF子模型，计算最优标签序列，实现对实体的提取和属性的提取；针对每个图像信息，将该图像信息输入至外部调用的公式识别子工具中，得到转换的文本信息，对转换的文本信息进行处理，得到至少一个公式文本，将每个公式文本一同输入至WordBert子模型，得到对应的向量序列，然后将得到的向量序列输入至BGRU子模型中，输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵，再将所述状态矩阵输入至CRF子模型，计算最优标签序列，实现对属性的提取；以及，将抽取实体和属性的向量序列处理后再输入至关系抽取子模型，实现对实体间关系的抽取。

在该实现方式中，对基础数据进行预处理，得到多个文本信息，或者得到多个文本信息和至少一个图像信息。针对每个文本信息，将该文本信息分词后输入至Bert子模型，得到对应的向量序列，然后将得到的向量序列输入至BGRU子模型中，输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵，再将状态矩阵输入至CRF子模型，计算最优标签序列，实现对实体的提取和属性的提取。这样的方式可以通过设计的模型实现电力标准知识中实体和属性的联合抽取，不仅可以保证知识抽取的可靠性，还能够保证抽取的效率。而针对每个图像信息，将该图像信息输入至外部调用的公式识别子工具中，得到转换的文本信息，对转换的文本信息进行处理，得到至少一个公式文本，将每个公式文本一同输入至WordBert子模型，得到对应的向量序列，然后将得到的向量序列输入至BGRU子模型中，输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵，再将状态矩阵输入至CRF子模型，计算最优标签序列，实现对属性的提取。这样的方式可以通过设计的模型实现电力标准知识中针对公式图像中相关知识的抽取（均属于属性），有效克服了电力标准知识抽取困难（由于存在公式图像用于表征数值限定、计算方式等相关信息的数据，现有技术无法实现有效的知识抽取）的问题，不仅能够保证公式图像中相关知识的抽取，还可以保证此类知识抽取的可靠性。并且，针对公式文本采用设计的WordBert子模型，不涉及分词操作，不仅可以减少处理过程，还能够有效保留信息，避免传统Bert模型中分词导致的公式信息提取错误的问题。而将抽取实体和属性的向量序列处理后再输入至关系抽取子模型，实现对实体间关系的抽取，可以利用Bert子模型已经处理得到的向量序列来进行后续的关系处理，且能够进行相应处理后再进行关系的抽取，不仅可以有效减少知识抽取的工作量（因为不需要再进行重复的实体抽取过程），还由于已经确定了实体，在关系抽取的过程中能够事半功倍。

结合第一方面的第七种可能的实现方式，在第一方面的第八种可能的实现方式中，将该文本信息分词后输入至Bert子模型，得到对应的向量序列，然后将得到的向量序列输入至BGRU子模型中，输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵，再将所述状态矩阵输入至CRF子模型，计算最优标签序列，实现对实体的提取和属性的提取，包括：将文本信息进行分词后得到长度为的分词文本；然后将分词文本输入至Bert子模型，得到分词文本对应的向量序列，，其中，，向量序列为Bert子模型的最后一层中分词文本对应的隐藏状态，为起始符，为结束符，为Bert子模型的隐藏状态维数；将向量序列中各个词向量序列作为BGRU子模型中各个时间步的输入；再将BGRU子模型中正向GRU输出的隐状态序列和反向GRU输出的隐状态序列进行计算，得到向量序列对应的隐状态序列，，为BGRU子模型的隐藏状态维数；然后将隐状态序列从维映射到维，为标签数；再计算每个分词分类到个标签的标签分值，得到状态矩阵，，是一个列向量；之后将状态矩阵输入至CRF子模型中；基于CRF子模型中引入的约束矩阵和输入的状态矩阵，，利用以下公式计算每个标签序列的总分值：，其中，表示标签序列的总分值，为调节因子，表示状态矩阵中第个分词分类到第个标签的概率，表示由标签序列中第个标签转移至第个标签的概率；再基于每个标签序列的总分值，代入以下公式计算最优标签序列：，其中，为所有可能的标签序列的集合。

在该实现方式中，可以实现Bert+BGRU+CRF模型的构建，可以先进行分词后利用Bert模型处理，实现实体和属性的联合提取，提升实体及属性提取的准确性，降低模型设计难度。而引入的约束矩阵对状态矩阵进行约束，可以避免输出不合法的标签序列。并且，在计算每个标签序列的总分值时引入调节因子，可以在实体和属性联合提取的过程中，具有更强的适用性，保证实体和属性提取的准确性，克服实体与属性提取过程中需求的约束矩阵差异的问题。

结合第一方面的第八种可能的实现方式，在第一方面的第九种可能的实现方式中，将抽取实体和属性的向量序列处理后再输入至关系抽取子模型，实现对实体间关系的抽取，包括：基于提取的实体，对分词文本对应的向量序列中的对应向量进行标记；将标记后的向量序列输入至关系抽取子模型中；针对向量序列中带标记的标记向量，对所有标记向量进行二元互组，以使每个标记向量与其他标记向量之间均具有配对的组合关系；针对每个具有组合关系的标记向量对，将标记向量对的两个标记向量进行拼接，得到组合向量；计算每个组合向量在各个关系类别下的分值；分别获取每个组合向量对应的最优分值并进行排序，淘汰排序最末的一个最优分值，针对每个剩余最优分值，确定其组合向量对应的实体之间具有对应关系类别的实体间关系，实现对实体间关系的抽取。

在该实现方式中，基于提取的实体，对分词文本对应的向量序列中的对应向量进行标记；将标记后的向量序列输入至关系抽取子模型中；针对向量序列中带标记的标记向量，对所有标记向量进行二元互组，以使每个标记向量与其他标记向量之间均具有配对的组合关系；针对每个具有组合关系的标记向量对，将标记向量对的两个标记向量进行拼接，得到组合向量；计算每个组合向量在各个关系类别下的分值；分别获取每个组合向量对应的最优分值并进行排序，淘汰排序最末的一个最优分值，针对每个剩余最优分值，确定其组合向量对应的实体之间具有对应关系类别的实体间关系，实现对实体间关系的抽取。这样可以通过多实体二元互组的方式，快速高效且准确地实现对实体间关系的提取，且能够考虑到各个实体间的关系。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电力标准知识图谱的构建方法的流程图。

图2为本申请实施例提供的电力标准知识图谱构建模型的示意图。

图3为本申请实施例提供的基于图论的电力标准信息推荐方法的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

为了便于对本方案的理解，此处先对电力标准知识图谱的构建过程进行介绍。

请参阅图1，图1为本申请实施例提供的电力标准知识图谱的构建方法的流程图。在本实施例中，电力标准知识图谱的构建方法可以包括步骤S11、步骤S12、步骤S13和步骤S14。

为了实现电力标准知识图谱的构建，首先执行步骤S11。

步骤S11：构建电力标准知识图谱的本体结构，所述本体结构包含实体、属性及实体间关系。

在本实施例中，为了实现电力标准知识图谱的构建，需要构建本体结构。考虑到电力标准知识图谱的领域，可以采用自顶而下和自底而上的方式构建本体结构，预先设计一部分本体结构，如：电力标准名称（例如建筑防雷设计规范）-指标（例如防雷装置）、指标（防雷装置）-下层指标（防雷线）等，并在后续的知识抽取过程中，发现和添加新的本体结构。

而后，可以执行步骤S12。

步骤S12：获取包含电力标准知识的基础数据，并对所述基础数据进行知识抽取，抽取出实体、属性及实体间关系。

为了便于理解，可结合参阅图1和图2，图2为本申请实施例提供的电力标准知识图谱构建模型的示意图。

在本实施例中，获取包含电力标准知识的基础数据，可以通过收集文档、爬取网页等方式实现。例如，可以爬取网页中关于电力标准知识的资料，也可以从构建的数据集中获取（由于电力标准知识属于一个非常垂直的领域，且知识相对稳定）。而包含电力标准知识的基础数据，可以是纯文本数据（例如word文档、PDF文档、TXT文档等），也可以是文本数据与公式图像的结合（例如含公式的PDF文档、含公式图像的word文档等），基础数据可以是对网页爬取得到的数据进行处理后整理得到的文档。

得到包含电力标准知识的基础数据后，可以对基础数据进行知识抽取，抽取出实体、属性及实体间关系。

在本实施例中，可以对基础数据进行预处理，得到多个文本信息，或者得到多个文本信息和至少一个图像信息。

示例性的，针对基础数据中的文本数据，可以基于句子分隔符将基础数据中的文本数据拆分为多个文本信息。由于此项技术已经非常成熟，此处不过多赘述。

若基础数据中存在公式图像，那么，针对基础数据中的每个公式图像，可以对该公式图像进行处理，得到对应的图像信息。例如，可以将公式图像输入Mathpix，得到输出的公式，输出的Latex格式可以转换为tex，再使用MathType，将Latex转成MathML格式，即纯文本格式，可用于得到Word文档。

然后，针对每个图像信息，可以为该图像信息赋值编号，以及，为公式图像在文本数据中所在段落和相邻段落对应的所有文本信息赋值同一编号，建立图像信息与文本信息的关联关系。这样的方式可以针对文本信息和图像信息建立关联关系，从而便于后续确定属性所归属的实体对象，保证知识图谱的准确性和可靠性。

为了实现对文本信息的知识抽取（实体与属性的联合抽取），针对每个文本信息，可以将该文本信息分词后输入至Bert子模型，得到对应的向量序列。

示例性的，可以将文本信息进行分词后得到长度为的分词文本，然后将分词文本输入至Bert子模型，得到分词文本对应的向量序列，，其中，，向量序列为Bert子模型的最后一层中分词文本对应的隐藏状态，为起始符，为结束符，为Bert子模型的隐藏状态维数（例如100维、200维等）。

得到Bert子模型输出的向量序列后，可以将得到的向量序列输入至BGRU子模型中，BGRU子模型则输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵。

示例性的，可以将向量序列中各个词向量序列分别作为BGRU子模型中各个时间步（需用到个时间步）的输入，然将BGRU子模型中正向GRU输出的隐状态序列和反向GRU输出的隐状态序列进行计算，得到向量序列对应的隐状态序列，，为BGRU子模型的隐藏状态维数。

此处，正向GRU输出的隐状态序列与反向GRU输出的隐状态序列计算求得隐状态序列可以采用以下方式：将正向GRU输出的隐状态序列与反向GRU输出的隐状态序列按位相加后求均值（为了进一步提升精度，还可以采用按位加权相加的方式求均值），得到隐状态序列。

得到隐状态序列后，可以将隐状态序列从维映射到维，为标签数，再计算每个分词分类到个标签的标签分值，得到状态矩阵，，是一个列向量。

得到状态矩阵后，可以将状态矩阵输入至CRF子模型，计算最优标签序列，实现对实体的提取和属性的提取。

示例性的，可以将状态矩阵输入至CRF子模型中，基于CRF子模型中引入的约束矩阵和输入的状态矩阵，，利用以下公式（1）计算每个标签序列的总分值：

，（1）

其中，表示标签序列的总分值，为调节因子，表示状态矩阵中第个分词分类到第个标签的概率，表示由标签序列中第个标签转移至第个标签的概率。

然后，可以基于每个标签序列的总分值，代入以下公式（2）计算最优标签序列：

，（2）

其中，为所有可能的标签序列的集合。

另外，为了保证引入的约束矩阵的适用性，可以在CRF子模型中加入损失函数（如公式（3）所示），在训练阶段，通过最小化该损失函数来学习约束矩阵。

，（3）

其中，为正确的标签序列，为所有可能的标签序列的集合。

通过设计的模型实现电力标准知识中实体和属性的联合抽取，不仅可以保证知识抽取的可靠性，还能够保证抽取的效率。由于采用了Bert+BGRU+CRF模型的构建，可以先进行分词后利用Bert模型处理，实现实体和属性的联合提取，提升实体及属性提取的准确性，降低模型设计难度。而引入的约束矩阵对状态矩阵进行约束，可以避免输出不合法的标签序列。并且，在计算每个标签序列的总分值时引入调节因子，可以在实体和属性联合提取的过程中，具有更强的适用性，保证实体和属性提取的准确性，克服实体与属性提取过程中需求的约束矩阵差异导致的问题（属性与实体采用同一标准的约束矩阵会导致实体提取精度高但属性提取精度低，或者实体提取精度低但属性提取精度高的问题）。

为了实现对图像信息的知识抽取（对属性的抽取），针对每个图像信息，可以将该图像信息输入至外部调用的公式识别子工具中，得到转换的文本信息。然后可以对转换的文本信息进行处理，得到至少一个公式文本。

示例性的，可以对转换的文本信息进行识别，确定出其中是否存在目标符号“=”。若不存在目标符号“=”，确定转换的文本信息为一个公式文本；若存在目标符号“=”，以目标符号“=”将转换的文本信息进行拆分，得到多个公式文本（如果有4个目标符号“=”，则可以拆成5个公式文本）。

利用“=”可以将公式涉及的属性拆分为属性标识部分（例如属性的符号表示）和属性限定部分（例如属性的数值限定、参数取值范围限定等），有的甚至包含属性的中间推导过程。

针对每个公式文本，可以将每个公式文本一同输入至WordBert子模型，得到对应的向量序列。此处，每个公式文本表示对同一图像数据转换得到的文本信息进行拆分后的公式文本。

可以将公式文本组合输入至WordBert子模型，得到公式文本组合对应的向量序列，，其中，，向量序列为WordBert子模型的最后一层中公式文本组合对应的隐藏状态，为起始符，为结束符，为WordBert子模型的隐藏状态维数（例如为100、200，与Bert子模型的隐藏状态维数保持一致）。

然后可以将得到的向量序列输入至BGRU子模型中，输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵。

示例性的，可以将向量序列各个公式向量序列作为BGRU子模型中各个时间步的输入，再将BGRU子模型中正向GRU输出的隐状态序列和反向GRU输出的隐状态序列进行计算，得到向量序列对应的隐状态序列，，为BGRU子模型的隐藏状态维数。再将隐状态序列从维映射到维，为标签数，计算每个公式分类到个标签的标签分值，得到状态矩阵，，是一个列向量。此处的过程与前文介绍的BGRU子模型的运行过程类似，因此不再赘述。

得到状态矩阵之后，可以将状态矩阵输入至CRF子模型，计算最优标签序列。

示例性的，可以将状态矩阵输入至CRF子模型中；基于输入的状态矩阵，利用以下公式（4）计算每个标签序列的总分值：（4）

其中，表示标签序列的总分值，表示状态矩阵中第个分量分类到第个标签的概率。

基于每个标签序列的总分值，可以代入以下公式（5）计算最优标签序列：，（5）

其中，为所有可能的标签序列的集合。

需要说明的是，本实施例中针对基于WordBert子模型输出的向量序列确定的状态矩阵，采用了与基于Bert子模型输出的向量序列确定的状态矩阵所不同的计算方式来计算标签序列的总分值，是由于对此两种情况得到的状态矩阵采用分化的计算方法效果要更好一些。当然，基于WordBert子模型输出的向量序列确定的状态矩阵，在计算标签序列的总分值时，也可以沿用公式（1）的计算方法，因为公式（1）的方法也考虑了实体与属性（特别是文本信息的公式）的差异而引入了调节因子，但相对来说，在仅用于属性提取时，公式（1）的效果相较于公式（4）的效果还是要略微逊色一些，但公式（1）的方法相较于不作分化处理而对实体与属性进行标签序列的总分值计算的情况，表现会好很多。

由此，可以实现基于公式图像对属性的提取。

这样的方式可以通过设计的模型实现电力标准知识中针对公式图像中相关知识的抽取（均属于属性），有效克服了电力标准知识抽取困难（由于存在公式图像用于表征数值限定、计算方式等相关信息的数据，现有技术无法实现有效的知识抽取）的问题，不仅能够保证公式图像中相关知识的抽取，还可以保证此类知识抽取的可靠性。并且，不必进行分词操作，而WordBert子模型也不需要利用分词的文本进行训练，而是利用整句（特别是公式、字符、运算符等）进行训练，能够大大提升对公式类属性提取的准确性。针对公式文本采用设计的WordBert子模型，不涉及分词操作，不仅可以减少处理过程，还能够有效保留信息，避免传统Bert模型中分词导致的公式信息提取错误的问题。

实现对实体和属性的提取后，可以将抽取实体和属性的向量序列处理后再输入至关系抽取子模型，实现对实体间关系的抽取。

而将抽取实体和属性的向量序列处理后再输入至关系抽取子模型，实现对实体间关系的抽取，可以利用Bert子模型已经处理得到的向量序列来进行后续的关系处理，且能够进行相应处理后再进行关系的抽取，不仅可以有效减少知识抽取的工作量（因为不需要再进行重复的实体抽取过程），还由于已经确定了实体，在关系抽取的过程中能够事半功倍。

示例性的，可以基于提取的实体，对分词文本对应的向量序列中的对应向量进行标记。

例如，分词文本对应的向量序列中，对应的分词被抽取为实体，那么，可以对向量序列中的对应向量进行标记，得到标记后的向量序列。

然后可以将标记后的向量序列输入至关系抽取子模型中。此处的关系抽取子模型，属于基于Bert的关系抽取模型。

针对向量序列中带标记的标记向量，对所有标记向量进行二元互组，以使每个标记向量与其他标记向量之间均具有配对的组合关系，以使每个标记向量与其他标记向量之间均具有配对的组合关系，以标记向量对进行表示。

接前文例子，针对标记后的向量序列，对所有标记向量（）进行二元互组，得到三种分组的标记向量对：（）、（）和（）。

针对每个具有组合关系的标记向量对，将标记向量对的两个标记向量进行拼接，得到组合向量。此处的拼接方式可以为：标记向量对的两个标记向量首尾拼接，得到对应的组合向量。例如，标记向量对（）拼接后得到组合向量，标记向量对（）拼接后得到组合向量，标记向量对（）拼接后得到组合向量。

然后可以计算每个组合向量在各个关系类别下的分值，可以得到对应的分值向量，其中，表示第个组合向量在各个关系类别下的分值构成的分值向量，为关系类别的数量。

之后可以基于向量序列确定出最优分值，最优分值对应的关系类别即表示该组合向量之间的关系类别。再对最优分值进行排序，剔除排序最末尾的一个最优分值。

针对每个剩余的最优分值，可以确定其组合向量对应的实体之间具有对应关系类别的实体间关系，实现对实体间关系的抽取。这样可以通过多实体二元互组的方式，快速高效且准确地实现对实体间关系的提取，且能够考虑到各个实体间的关系。

对于属性与实体的对应关系，可以在实体与属性的联合抽取过程中去作对应；也可以在确定出实体和属性之后，对属性和实体进行归属划分；还可以通过包装器的方式从网页上抽取实体与属性之间的归属关系（例如，通过输入URL，利用工具进行网页爬取，利用包装器抽取网页提供的实体对应属性后对已提取的属性作归属划分），此处不作限定。

另外，需要说明的是，针对电力标准知识的数据来源，针对每个文档（特别是内容属于规范性文件的文档，如：工业与民用电力装置过电压保护设计规范、工业与民用电力装置接地设计规范、建筑防雷设计规范、爆炸和火灾危险场所电力装置设计规范等），可以对标题进行单独的提取，提取一个基础的实体对象，并抽取编制时间、应用场景、出版单位等关键属性，作为后续智能问答、个性化推荐等电力标准知识图谱的应用中的重要因素。

抽取实体、属性及实体间关系后，可以进一步执行步骤S13。

步骤S13：基于抽取的知识进行知识融合。

在本实施例中，知识融合的方式较多，主要是需要进行实体对齐和实体消歧。例如，可以采用基于字符串相似度的Jaccard算法实现实体对齐和实体消歧。

在进行知识融合后，可以执行步骤S14。

步骤S14：采用Neo4j图数据库对知识融合后的知识进行存储，以构建出所述电力标准知识图谱。

在本实施例中，可以采用边抽取边存储的策略：知识抽取的结果以JSON格式的数据暂存于内存中，而后通过Python的py2neo库提交至Neo4j图数据库实现持久化存储。

通过这样的方式，可以实现电力标准知识图谱的构建。

本方案中采用了984个标注的基础数据构建了数据集，按照7：2：1划分为训练集（689个）、验证集（197个）和测试集（98个），对模型进行训练、验证和测试，以精确率、召回率和F1值作为评价指标，对模型的效果进行验证：

（1）精确率P表示模型预测的精确程度，计算公式如下：

，（6）

其中，M表示模型预测为正的样本集，T表示真实为正的样本集。

（2）召回率R表示模型预测的全面程度，计算公式如下：

，（7）

（3）F1值为精确率P与召回率R的结合，计算公式如下：

，（8）

基于对模型的效果验证，得到的相关评价数据为：精确率P≈0.84，召回率R≈0.90，F1≈0.87。可见，模型的表现是很不错的，提取电力标准知识的效果佳。

而基于构建的电力标准知识图谱，可以进一步实现基于图论的电力标准信息推荐方法。

请参阅图3，图3为本申请实施例提供的基于图论的电力标准信息推荐方法的流程图。基于图论的电力标准信息推荐方法可以包括步骤S21、步骤S22、步骤S23、步骤S24、步骤S25、步骤S26和步骤S27。

为了实现对电力标准信息的推荐，可以执行步骤S21。

步骤S21：获取用户信息和电力标准信息，其中，用户信息用于反映用户的基本信息和兴趣偏好，电力标准信息为包含电力标准知识的文献。

在本实施例中，可以获取用户信息和电力标准信息。用户信息的获取，可以是来源于构建的用户画像（包含用户的基本信息、兴趣偏好等）和用户实时录入的信息、当前查看的信息等，此处不作限定。而电力标准信息，则可以是资源池中等待推荐的包含电力标准知识的文献、资讯等。

获取用户信息后，可以执行步骤S22。

步骤S22：基于所述用户信息生成用户向量。

在本实施例中，由于用户向量的构建方式已经非常成熟，此处不过多赘述，例如可以采用聚类的方式获取用户相关的关键词（例如从个人介绍、浏览记录、搜索记录等提取关键词），基于这些关键词进行偏好判断，1表示偏好、0表示不偏好，由此构建出一个 s维的用户向量。

需要说明的是，本实施例中涉及的用户向量、物品向量等，均具有一致的维度，保证多向量处理（例如融合、加权计算等）的基础和计算推荐指数的可行性。

获取电力标准信息后，可以执行步骤S23。

步骤S23：基于所述电力标准信息，确定出物品偏移向量。

在本实施例中，基于电力标准信息确定出物品偏移向量的方式，也是具有很成熟的处理方式了，此处不过多赘述，例如通过特征提取的方式获得物品偏移向量，也通过item2vec的方式，或者构建item网络后通过deepwalk等一类游走算法获得物品偏移向量，此处不作限定。

确定出用户向量和物品偏移向量后，可以执行步骤S24。

步骤S24：基于所述电力标准信息，从预先构建的电力标准知识图谱中获取对应的结构化知识，以及，基于所述电力标准信息，确定出对应的文本知识。

在本实施例中，可以基于电力标准信息，从预先构建的电力标准知识图谱中获取对应的结构化知识。

示例性的，可以先确定出电力标准信息对应的 a个关键词。然后基于 a个关键词，从预先构建的电力标准知识图谱中获取对应的 b个三元组（ h， r， t），其中， b≤ a，三元组（ h， r， t）中 h、 r、 t分别表示头实体、关系和尾实体。由于 a个关键词中可能一部分是实体类的关键词，一部分是属性类关键词，因此， b≤ a。通过这样的方式可以快速准确地得到电力标准信息对应的结构化知识。

获取电力标准信息对应的结构化知识后，可以基于电力标准信息，确定出对应的文本知识。

示例性的，针对每个三元组（ h， r， t），可以从预先构建的电力标准知识图谱中确定出其头实体 h的属性。然后可以从电力标准信息中获取对应此头实体 h的关键词的文本内容，并将此头实体 h的属性与对应此头实体 h的关键词的文本内容进行组合（可以进行去重后组合，也可以不采取去重操作），得到此三元组（ h， r， t）对应的子文本知识。共计得到 b个子文本知识，作为电力标准信息对应的文本知识。

这样的方式得到的文本知识更加全面，能够利用电力标准知识图谱中头实体的属性实现对头实体对应关键词的内容补充，从而丰富文本知识，有利于提高个性化推荐的准确性。

确定出电力标准信息对应的结构化知识和文本知识后，可以执行步骤S25。

步骤S25：对所述结构化知识和所述文本知识进行向量化，分别得到结构化向量和文本化向量。

在本实施例中，可以对结构化知识和文本知识进行向量化，分别得到结构化向量和文本化向量。

示例性的，针对结构化知识的向量化，可以利用Bayesian TransR对每个三元组（ h， r， t）进行向量化，得到对应的 b个结构化子向量， b个结构化子向量的集合则可以视为结构化向量。以及，可以利用Bayesian SDAE对每个子文本知识进行向量化，得到对应的 b个文本化子向量， b个文本化子向量的集合则可以视为文本化向量。

得到结构化向量和文本化向量后，可以进一步执行步骤S26。

步骤S26：基于所述物品偏移向量、所述结构化向量和所述文本化向量，确定出物品向量。

在本实施例中，可以基于物品偏移向量、结构化向量和文本化向量，确定出物品向量。

示例性的，可以将物品偏移向量分别与 b个结构化子向量及 b个文本化子向量分别对应进行融合，得到对应 b个关键词的 b组物品分向量。

例如， b个结构化子向量及 b个文本化子向量，可以按照其对应的关键词进行分组，对应同一实体关键词的结构化子向量和文本化子向量划分为一组，共计 b组。而物品偏移向量可以分别与每一组进行融合（例如相加、同或运算等方式），从而得到 b组物品分向量。

此种方式将物品偏移向量与 b个结构化子向量及 b个文本化子向量分别对应进行融合，得到对应 b个关键词的 b组物品分向量，能够使得到的用于计算推荐指数的物品向量更加准确全面地反映电力标准信息的特征，有利于提升推荐的准确性和有效性。

得到对应 b个关键词的 b组物品分向量后，可以执行步骤S27。

步骤S27：基于所述用户向量和所述物品向量，计算电力标准信息的推荐指数。

在本实施例中，可以基于用户向量和物品向量，计算电力标准信息的推荐指数。

示例性的，针对 b组物品分向量中的每一组物品分向量，可以采用以下方式：

基于此组物品分向量与用户向量进行计算（例如点乘），得到对应此组物品分向量的推荐指数分量，共计计算出对应 b组物品分向量的 b个推荐指数分量。然后可以基于 b个推荐指数分量，计算出电力标准信息的推荐指数（例如加权求和，可以设计为电力标准信息中出现次数越多的实体关键词，权重值越高）。

通过将每一组物品分向量与用户向量进行计算，得到对应 b组物品分向量的 b个推荐指数分量，进一步计算出电力标准信息的推荐指数，这样能够更加综合地考虑到电力标准信息的内容是否符合用户的偏好。

需要说明的是，对于模型的构建和训练，可以参阅CKE（Collaborative KnowledgeBase Embedding，协同知识图谱嵌入）推荐系统框架给出的方式（可参阅论文：Collaborative Knowledge Base Embedding for Recommender Systems，Fuzheng Zhang,Nicholas Jing Yuan, Defu Lian, Xing Xie,Wei-Ying Ma,Microsoft Research；BigData Research Center,University of Electronic Science and Technology ofChina），与其类似，但不同之处在于本方案并未采用图像知识，以及本方案针对多个关键词的分量进行分别的融合得到多组物品分向量。但模型的架构设计和训练方式与之类似，因此此处不过多赘述。

综上所述，本申请实施例提供一种基于图论的电力标准信息推荐方法，通过获取用户信息和电力标准信息，得到相应的用户向量和物品偏移向量；基于电力标准信息从预先构建的电力标准知识图谱中获取对应的结构化知识，以及，基于电力标准信息，确定出对应的文本知识；再对结构化知识和文本知识进行向量化，分别得到结构化向量和文本化向量；进一步确定出物品向量；再基于用户向量和物品向量，计算电力标准信息的推荐指数。这样的方式，可以将预先构建的电力标准知识图谱利用起来，结合到协同过滤的推荐方法中，提升在电力技术领域中对于电力标准信息的个性化推荐，有利于提升个性化推荐的效果。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于图论的电力标准信息推荐方法，其特征在于，包括：

获取用户信息和电力标准信息，其中，用户信息用于反映用户的基本信息和兴趣偏好，电力标准信息为包含电力标准知识的文献；

基于所述用户信息生成用户向量；

基于所述电力标准信息，确定出物品偏移向量；

基于所述电力标准信息，从预先构建的电力标准知识图谱中获取对应的结构化知识，以及，基于所述电力标准信息，确定出对应的文本知识；

对所述结构化知识和所述文本知识进行向量化，分别得到结构化向量和文本化向量；

基于所述物品偏移向量、所述结构化向量和所述文本化向量，确定出物品向量；

基于所述用户向量和所述物品向量，计算电力标准信息的推荐指数；

其中，基于所述电力标准信息，从预先构建的电力标准知识图谱中获取对应的结构化知识，包括：

获取所述电力标准信息对应的a个关键词；基于a个关键词，从预先构建的电力标准知识图谱中获取对应的b个三元组(h，r，t)，其中，b≤a，三元组(h，r，t)中h、r、t分别表示头实体、关系和尾实体；

其中，基于所述电力标准信息，确定出对应的文本知识，包括：

针对每个三元组(h，r，t)，从预先构建的电力标准知识图谱中确定出其头实体h的属性；从所述电力标准信息中获取对应此头实体h的关键词的文本内容；将此头实体h的属性与对应此头实体h的关键词的文本内容进行组合，得到此三元组(h，r，t)对应的子文本知识；共计得到b个子文本知识，作为所述电力标准信息对应的文本知识。

2.根据权利要求1所述的基于图论的电力标准信息推荐方法，其特征在于，对所述结构化知识和所述文本知识进行向量化，分别得到结构化向量和文本化向量，包括：

利用Bayesian TransR对每个三元组(h，r，t)进行向量化，得到对应的b个结构化子向量，b个结构化子向量的集合视为所述结构化向量；

利用Bayesian SDAE对每个子文本知识进行向量化，得到对应的b个文本化子向量，b个文本化子向量的集合视为所述文本化向量。

3.根据权利要求2所述的基于图论的电力标准信息推荐方法，其特征在于，基于所述物品偏移向量、所述结构化向量和所述文本化向量，确定出物品向量，包括：

将所述物品偏移向量与b个结构化子向量及b个文本化子向量分别对应进行融合，得到对应b个关键词的b组物品分向量。

4.根据权利要求3所述的基于图论的电力标准信息推荐方法，其特征在于，基于所述用户向量和所述物品向量，计算电力标准信息的推荐指数，包括：

针对b组物品分向量中的每一组物品分向量，基于此组物品分向量与所述用户向量进行计算，得到对应此组物品分向量的推荐指数分量，共计计算出对应b组物品分向量的b个推荐指数分量；

基于b个推荐指数分量，计算出所述电力标准信息的推荐指数。

5.根据权利要求1～4中任一项所述的基于图论的电力标准信息推荐方法，其特征在于，在获取用户信息和电力标准信息之前，所述方法还包括：

构建电力标准知识图谱的本体结构，所述本体结构包含实体、属性及实体间关系；

获取包含电力标准知识的基础数据，并对所述基础数据进行知识抽取，抽取出实体、属性及实体间关系；

基于抽取的知识进行知识融合；

采用Neo4j图数据库对知识融合后的知识进行存储，以构建出所述电力标准知识图谱。

6.根据权利要求5所述的基于图论的电力标准信息推荐方法，其特征在于，所述基础数据为纯文本数据，或者，所述基础数据为文本数据与公式图像，对所述基础数据进行知识抽取，抽取出实体、属性及实体间关系，包括：

对所述基础数据进行预处理，得到多个文本信息，或者得到多个文本信息和至少一个图像信息；

针对每个文本信息，将该文本信息分词后输入至Bert子模型，得到对应的向量序列，然后将得到的向量序列输入至BGRU子模型中，输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵，再将所述状态矩阵输入至CRF子模型，计算最优标签序列，实现对实体的提取和属性的提取；

针对每个图像信息，将该图像信息输入至外部调用的公式识别子工具中，得到转换的文本信息，对转换的文本信息进行处理，得到至少一个公式文本，将每个公式文本一同输入至WordBert子模型，得到对应的向量序列，然后将得到的向量序列输入至BGRU子模型中，输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵，再将所述状态矩阵输入至CRF子模型，计算最优标签序列，实现对属性的提取；

以及，将抽取实体和属性的向量序列处理后再输入至关系抽取子模型，实现对实体间关系的抽取。

7.根据权利要求6所述的基于图论的电力标准信息推荐方法，其特征在于，将该文本信息分词后输入至Bert子模型，得到对应的向量序列，然后将得到的向量序列输入至BGRU子模型中，输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵，再将所述状态矩阵输入至CRF子模型，计算最优标签序列，实现对实体的提取和属性的提取，包括：

将文本信息进行分词后得到长度为n的分词文本w；然后将分词文本w＝([CLS]，w₁，w₂，...，w_n，[SEP])输入至Bert子模型，得到分词文本w对应的向量序列l＝(l₀，l₁，l₂，...，l_n，l_n+1)，l_i∈R^n×L，其中，i∈[0，n+1]，向量序列l＝(l₀，l₁，l₂，...，l_n，l_n+1)为Bert子模型的最后一层中分词文本w对应的隐藏状态，[CLS]为起始符，[SEP]为结束符，L为Bert子模型的隐藏状态维数；

将向量序列l＝(l₀，l₁，l₂，...，l_n，l_n+1)中各个词向量序列l_i作为BGRU子模型中各个时间步的输入；再将BGRU子模型中正向GRU输出的隐状态序列

和反向GRU输出的隐状态序列

进行计算，得到向量序列l对应的隐状态序列h_n+1，h_n+1∈R^n×H，H为BGRU子模型的隐藏状态维数；然后将隐状态序列h_n+1从H维映射到k维，k为标签数；再计算每个分词分类到k个标签的标签分值，得到状态矩阵E＝(e₀，e₁，e₂，...，e_n，e_n+1)，e_i∈R^k，是一个列向量；

之后将状态矩阵E＝(e₀，e₁，e₂，...，e_n，e_n+1)输入至CRF子模型中；基于CRF子模型中引入的约束矩阵F和输入的状态矩阵E，F∈R^(k+2)×(k+2)，利用以下公式计算每个标签序列