CN116719947A - 一种用于电力巡检缺陷检测的知识处理方法及装置 - Google Patents

一种用于电力巡检缺陷检测的知识处理方法及装置 Download PDF

Info

Publication number
CN116719947A
CN116719947A CN202310439744.2A CN202310439744A CN116719947A CN 116719947 A CN116719947 A CN 116719947A CN 202310439744 A CN202310439744 A CN 202310439744A CN 116719947 A CN116719947 A CN 116719947A
Authority
CN
China
Prior art keywords
entity
path
knowledge
decision process
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310439744.2A
Other languages
English (en)
Inventor
吴岳忠
肖发龙
刘富民
舒斯维
王忠美
孙煜煊
谢欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Haoshi Technology Development Co ltd
Hunan University of Technology
Original Assignee
Hunan Haoshi Technology Development Co ltd
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Haoshi Technology Development Co ltd, Hunan University of Technology filed Critical Hunan Haoshi Technology Development Co ltd
Priority to CN202310439744.2A priority Critical patent/CN116719947A/zh
Publication of CN116719947A publication Critical patent/CN116719947A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Mathematics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于电力巡检缺陷检测的知识处理方法及装置,所述方法包括以下步骤:根据所述电力设备知识图谱中的起点实体和终点实体,获取一条最优路径来连接所述起点实体和终点实体,以形成马尔科夫决策过程;对所述马尔科夫决策过程进行训练,以得到训练后的马尔科夫决策过程;训练后的马尔科夫决策过程中的智能体通过随机波束搜索策略依次选择输出边缘,并遍历到新实体,当智能体使用随机波束搜索策略搜索到一个最优路径时,该路径自动形成其预测的可解释来源。本发明不仅使电力设备知识图谱知识补全可解释,同时提高了理解复杂环境和推断高级因果关系方面的能力。

Description

一种用于电力巡检缺陷检测的知识处理方法及装置
技术领域
本发明涉及电力巡检缺陷检测技术领域,还涉及一种用于电力巡检缺陷检测的知识处理方法及装置。
背景技术
现有的电力设备知识图谱包含和集成从输变电网络到巡检记录和从文献中提取的科学知识等数据,这些数据常常因实体之间可能会缺失许多隐藏链接导致知识库高度不完整而需要进行知识处理补全知识库,即通过对沿着连接一对实体的其他路径发现的信息进行组合推理来推断新关系(缺失链接)。
为了改善这一困扰,人们利用人工智能推理系统增强人类决策,通常可以从知识库中推断出未直接存储在知识库中的事实。如基于知识图谱表示学习的推理,首先将实体和关系映射到低维连续向量空间,然后通过对实体的语义类型、结构化属性及在空间中相邻节点的信息进行学习获取实体与关系间的距离特征,通过向量计算找到最合适的向量表示,最后通过比较判断查询关系的真实性,补充实体之间的关系;基于路径的推理,利用知识图谱中精心选择的关系路径作为推理证据,通过训练智能体在知识图谱上引导,找到相关性高的可替换路径,然后将它们用作下游任务的特征。
但是,当前基于表示学习的方法不需要人工定义推理逻辑,且适合不确定的推理场景,但它丢失了推理结果的可解释,仅适合单挑推理;基于路径推理的一个潜在瓶颈是连接到大量公式的超级节点会产生巨大的扇出区域,这会显着减慢推理速度并影响准确性。
发明内容
本发明要解决的技术问题是提供一种用于电力巡检缺陷检测的知识处理方法及装置,不仅使电力设备知识图谱知识补全可解释,同时提高了理解复杂环境和推断高级因果关系方面的能力。
为解决上述技术问题,本发明的技术方案如下:
第一方面,一种用于电力巡检缺陷检测的知识处理方法,所述方法包括以下步骤:
获取一个庞大并存在大量未见的零镜头关系的电力设备知识图谱,确定所述电力设备知识图谱中的起点实体和终点实体;
根据所述电力设备知识图谱中的起点实体和终点实体,获取一条最优路径来连接所述起点实体和终点实体,以形成马尔科夫决策过程;
对所述马尔科夫决策过程进行训练,以得到训练后的马尔科夫决策过程;
训练后的马尔科夫决策过程中的智能体通过随机波束搜索策略依次选择输出边缘,并遍历到新实体,当智能体使用随机波束搜索策略搜索到一个最优路径时,该路径自动形成其预测的可解释来源。
可选的,获取一个庞大并存在大量未见的零镜头关系的电力设备知识图谱,确定所述电力设备知识图谱中的起点实体和终点实体,包括:
确定一个具有实体集E和关系集R的电力设备知识图谱G,定义为G={(e,r,e)|e,e∈E,r∈R},其中,每个三元组(e,r,e)表示一个从起点实体e到终点实体e之间关系r的事实。
可选的,根据所述电力设备知识图谱中的起点实体和终点实体,获取一条最优路径来连接所述起点实体和终点实体,以形成马尔科夫决策过程,包括:
在所述电力设备知识图谱中寻找最佳的关系链接序列,并将寻找最佳的关系链接序列形式化定义为马尔科夫决策过程,其中,所述马尔科夫决策过程包括状态空间S、动作空间A、转移概率矩阵P和奖励函数R,所述状态空间S表示能够到达的所有实体,所述动作空间A表示两个实体之间的关系类型,所述转移概率矩阵P表示通过执行一个动作从当前实体转移到下一个实体的概率,所述奖励函数R表示当选择一个动作时累积的即时奖励;
通过利用马尔科夫决策过程建模知识图谱环境和策略网络智能体,所述策略网络智能体在每一步与环境进行交互,并学习选择最优的关系链接来扩展推理路径;
在每一步,策略网络智能体基于当前状态使用已有的知识和学习到的策略选择一个动作,执行该动作后,环境返回新的状态和获得的奖励;
策略网络智能体根据环境反馈的信息更新自己的策略和价值函数,并再次基于新的策略选择动作,直到找到最佳的路径。
可选的,对所述马尔科夫决策过程进行训练,以得到训练后的马尔科夫决策过程,包括:
在策略网络智能体开始找寻路径中,所述策略网络智能体以实体es为起始点根据元路径模式的结构化知识获取剪枝后的动作空间A,所述策略网络智能体以动态策略网络生成的动作概率进行随机波束搜索,一个波束包含B个候选线索路径;
当所述策略网络智能体搜索至第j步时,所述策略网络智能体根据元路径模式的结构化知识获取剪枝后的动作空间,其次,所述策略网络智能体以动态策略网络生成的动作概率进行随机波束搜索,对于每个候选路径,将B个最有可能的动作附加到路径的末尾,以产生一个大小为B×B的新路径池,选择概率最高的动作完成搜索,动态策略网络能够处理动态变化的行动空间,并获得非结构化知识的奖励,保存概率得分高的候选路径到下一个节点。
可选的,训练后的马尔科夫决策过程中的智能体通过随机波束搜索策略依次选择输出边缘,并遍历到新实体,包括:
使用关系嵌入模型将当前状态中的一个实体节点表示为一个向量;
计算所述向量与所有其他向量之间的余弦相似度,并按照相似度从高到低排序;
根据预定义的阈值来保留部分实体节点,其中,保留的部分实体节点被认为是当前实体节点的近邻,并在下一步动作空间中进行考虑;
当智能体进入一个新状态时,根据新状态时的所有实体节点的余弦相似度,以及预定义的阈值来保留近邻信息;
针对每个保留下来的实体节点,智能体将所述实体节点与当前状态中的实体节点之间的关系作为可行动作添加到动作空间中;
在下一步路径探索时,智能体基于当前实体节点的近邻信息来选择最佳策略,以实现知识图谱遍历。
可选的,每个候选线索路径的得分等于:
可选的,在获得非结构化知识的奖励之后,还包括:
随机策略π将状态向量映射到所有可能行动的概率分布,在训练过程中,智能体从当前状态出发通过采样行动,观测到奖励信号并进入下一个状态;
随着智能体逐渐学习到更好的策略,以使任何初始实体的预期累积奖励最大化:其中,η为折扣因子,策略网络/>接受状态向量嵌入和动作向量嵌入作为输入,并给出每个动作的概率。
第二方面,一种用于电力巡检缺陷检测的知识处理装置,包括:
获取模块,用于构建电力设备知识图谱,基于所述电力设备知识图谱对电力路径进行检测,若检测到电力路径存在问题,则对电力路径进行形式化定义,并将形式化定义描述为一个马尔科夫决策过程;
处理模块,用于基于马尔科夫决策过程,设计并学习相同特征层的策略网络和价值网络,结合在每一步选择带标记的关系边来学习走到答案节点,架起在可见和看不见的关系之间的桥梁,其目标是采取最佳决策序列以最大化预期奖励。
第三方面,一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现所述的用于电力巡检缺陷检测的知识处理方法。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,该程序被处理器执行时实现所述的用于电力巡检缺陷检测的知识处理方法。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过训练后的马尔科夫决策过程中的智能体通过随机波束搜索策略依次选择输出边缘,并遍历到新实体,当智能体使用随机波束搜索策略搜索到一个最优路径时,该路径自动形成其预测的可解释来源,从而在寻路过程中提供更好的控制和更大的灵活性,还可以有效地抽取不同的推理路径和候选项集进行推荐,为待预测的事实找到明确可靠的线索。
附图说明
图1是本发明的用于电力巡检缺陷检测的知识处理方法流程图。
图2是本发明的用于电力巡检缺陷检测的知识处理方法实施的整体框图。
图3是本发明实施例提供的电力巡检缺陷检测的知识处理的模块结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1和图2所示,本发明的实施例提出一种用于电力巡检缺陷检测的知识处理方法,所述方法包括以下步骤:
步骤11:获取一个庞大并存在大量未见的零镜头关系的电力设备知识图谱,确定所述电力设备知识图谱中的起点实体和终点实体;
步骤12:根据所述电力设备知识图谱中的起点实体和终点实体,获取一条最优路径来连接所述起点实体和终点实体,以形成马尔科夫决策过程;
步骤13:对所述马尔科夫决策过程进行训练,以得到训练后的马尔科夫决策过程;
步骤14:训练后的马尔科夫决策过程中的智能体通过随机波束搜索策略依次选择输出边缘,并遍历到新实体,当智能体使用随机波束搜索策略搜索到一个最优路径时,该路径自动形成其预测的可解释来源。
该实施例中,通过训练后的马尔科夫决策过程中的智能体通过随机波束搜索策略依次选择输出边缘,并遍历到新实体,当智能体使用随机波束搜索策略搜索到一个最优路径时,该路径自动形成其预测的可解释来源,从而在寻路过程中提供更好的控制和更大的灵活性,还可以有效地抽取不同的推理路径和候选项集进行推荐,为待预测的事实找到明确可靠的线索。
需要说明的是,在步骤11中,这一步是指首先需要获取一个庞大并且存在大量未见的零镜头关系(指之前没有被记录或发现的联系)的电力设备知识图谱。该知识图谱包含了与电力设备相关的各种信息和实体之间的关系,要确定知识图谱中的起点实体和终点实体,以便后续的路径规划和决策过程。在步骤12中,这一步是指利用前述起点实体和终点实体,在电力设备知识图谱中找到一条最优路径,连接起点和终点实体,并将其转化为马尔科夫决策过程。马尔科夫决策过程是一种基于概率的序列决策模型,可以用来解决在不确定性环境下的决策问题。在步骤13中,这一步是指将前述的马尔科夫决策过程进行训练,以得到一个训练后的模型。训练的目的是为了使模型能更好地适应实际情况并提高准确度和精度。在步骤14中,这一步是指在训练后的马尔科夫决策过程中,智能体通过使用随机波束搜索策略来选择最优路径和遍历新实体。当智能体使用这种搜索策略找到了一个最优路径时,路径会自动形成智能体预测的可解释来源,即为根据已知条件推断出一个关于设备缺陷的可解释来源。因此,这个电力巡检缺陷检测的知识处理方法主要是通过构建电力设备知识图谱,以及利用马尔科夫决策过程和随机波束搜索策略进行路径规划和决策,最终达到对电力巡检缺陷的高效准确检测的目的。
在本发明一优选的实施例中,上述步骤11,可以包括:
步骤111,确定一个具有实体集E和关系集R的电力设备知识图谱G,定义为G={(e,r,e)|e,e∈E,r∈R},其中,每个三元组(e,r,e)表示一个从起点实体e到终点实体e之间关系r的事实。
该实施例中,具体来说,在电力设备知识图谱中,实体集E可能包括各种电力设备,如变压器、开关、断路器等,每个实体都有其特定的属性和特征。而关系集r则描述了这些实体之间的关系,如开关和变压器之间的连接关系、电流和电压之间的变换关系等。因此,定义的G={(e,r,e)|e,e∈E,r∈R}表明了知识图谱中实体和关系的全貌,为深入了解电力设备知识图谱提供了基础,由MDP(马尔科夫决策过程)建模的知识图谱环境和策略网络智能体的结构,在每一步,通过与环境交互,智能体学习选择一个关系链接来扩展推理路径。
其中,MDP(马尔科夫决策过程)的主要组件如下所示:
Environment(环境):在本发明中,环境指的是整个电力设备知识图谱G,不包括查询关系及其逆关系,在整个网络框架训练过程中,环境保持一致。
States(状态):在第t时间步长时,状态st=(q,es,et,ht)∈S是一个元组,其中es是给定问题q的主题实体,et是从es进行路径搜索时在时间步长第t步时被访问的实体,而ht是智能体第t步之前做出的决策的集合。这里q和es可以看作是智能体已知的全局信息,et是依赖于ht的局部信息。初始状态s0是随机的,假设其先验分布遵循均匀分布,以便在开始时进行同等抽样。状态知识图谱中的实体和关系自然是离散的原子符号。因为现有的实际知识图谱,经常有大量的三元组。不可能直接对所有处于状态的符号原子进行建模。为了捕捉这些符号的语义信息,使用TransE作为基线转化的嵌入来表示实体和关系,这些嵌入将所有符号映射到一个低维向量空间。在我们的框架中,每个状态捕获智能体在知识图谱中的位置。在采取操作后,智能体将从一个实体移动到另一个实体,这两者通过智能体采取的行动(关系)联系在一起。
Actions(决策):在时间步骤t处的候选动作集基于状态st,状态st的完整动作空间At定义为实体et的所有可能的输出边,不包括历史实体和关系。形式上,At={(r,e)|(et,r,e)∈G,e<{e0,...,et-1}},动作给定关系为R的实体对(es,et),因此希望智能体找到连接这些实体对的最有信息的路径,从源实体es开始,智能体使用策略网络选择最有价值的关系在每一步扩展其路径,直到到达目标实体et
Transition(转移概率):由于动作的设置,状态转移的概率值是确定性的,转移完全基于知识图谱G,状态由实体的位置决定,一旦智能体动作at=(rt+1,et+1)时,状态将由st=(es,et,ht)变为下一个状态st+1=(es,et+1,ht+1),状态转移:P[st+1=(es,et+1,ht+1)|s=(es,et,ht),at=(rt+1,et+1)]=1。
Reward(奖励):奖励是环境传递给智能体的特殊信号,根据动作是否有效,以及一系列动作是否能在指定次数内使终点实体的反馈给智能体。在此采用软奖励塑造技巧,对于无效动作,奖励为-1,对于不会导致基本事实的行为,我们选择RT的输出作为奖励。我们期望智能体找到更多有质量的路径,为此,我们采用一个评分函数f(es,et)对终端状态sT=(es,eT,hT)给予软奖励,终端奖励RT定义为:
上面的定义保证了有效动作的奖励总是大于无效动作的奖励,并且成功情节的奖励总是大于不成功的情节。
在本发明一优选的实施例中,上述步骤12,可以包括:
步骤121,在所述电力设备知识图谱中寻找最佳的关系链接序列,并将寻找最佳的关系链接序列形式化定义为马尔科夫决策过程,其中,所述马尔科夫决策过程包括状态空间S、动作空间A、转移概率矩阵P和奖励函数R,所述状态空间S表示能够到达的所有实体,所述动作空间A表示两个实体之间的关系类型,所述转移概率矩阵P表示通过执行一个动作从当前实体转移到下一个实体的概率,所述奖励函数R表示当选择一个动作时累积的即时奖励;
步骤122,通过利用马尔科夫决策过程建模知识图谱环境和策略网络智能体,所述策略网络智能体在每一步与环境进行交互,并学习选择最优的关系链接来扩展推理路径;
步骤123,在每一步,策略网络智能体基于当前状态使用已有的知识和学习到的策略选择一个动作,执行该动作后,环境返回新的状态和获得的奖励;
步骤124,策略网络智能体根据环境反馈的信息更新自己的策略和价值函数,并再次基于新的策略选择动作,直到找到最佳的路径。
步骤121中,通过将电力设备知识图谱建模成马尔科夫决策过程,可以找到最优的关系链接序列,也就是最佳推理路径。具体地,状态空间表示所有实体,动作空间表示实体之间的关系类型,转移概率矩阵表示通过执行一个动作从当前实体转移到下一个实体的概率,奖励函数表示当选择一个动作时累积的即时奖励。这样,就可以定义如何在知识图谱上进行推理,并输出最终的结果。
该实施例中,在上述步骤122中,利用马尔科夫决策过程建模知识图谱环境和策略网络智能体。策略网络智能体是一种基于深度学习技术的强化学习模型,可以从经验中学习到最优策略,并在每一步与环境进行交互。通过与环境的交互,策略网络智能体可以不断地更新自己的策略和价值函数,以找到最佳的推理路径。在上述步骤123中,策略网络智能体根据当前状态使用已有的知识和学习到的策略选择一个动作,执行该动作后,环境返回新的状态和获得的奖励。具体地,策略网络智能体会根据已有的知识和学习到的策略选择一个动作,该动作会使得环境发生变化,策略网络智能体会根据环境返回的信息更新自己的策略和价值函数。在上述步骤124中,策略网络智能体根据环境反馈的信息更新自己的策略和价值函数,并继续基于新的策略选择动作,直到找到最佳的路径。这个过程是一个迭代过程,策略网络智能体不断地将环境反馈的信息融入到自己的决策当中,逐渐趋向于找到最优的路径。最终,策略网络智能体可以输出最优的关系链接序列,即最佳推理路径。
在本发明一优选的实施例中,上述步骤13,可以包括:
在策略网络智能体开始找寻路径中,所述策略网络智能体以实体es为起始点根据元路径模式的结构化知识获取剪枝后的动作空间A,所述策略网络智能体以动态策略网络生成的动作概率进行随机波束搜索,一个波束包含B个候选线索路径,每个候选线索路径的得分等于:
当所述策略网络智能体搜索至第j步时,所述策略网络智能体根据元路径模式的结构化知识获取剪枝后的动作空间,其次,所述策略网络智能体以动态策略网络生成的动作概率进行随机波束搜索,对于每个候选路径,将B个最有可能的动作附加到路径的末尾,以产生一个大小为B×B的新路径池,选择概率最高的动作完成搜索,动态策略网络能够处理动态变化的行动空间,并获得非结构化知识的奖励,保存概率得分高的候选路径到下一个节点。
该实施例中,策略网络利用实体之间的关系和元路径模式的结构化知识,将知识图谱建模成马尔科夫决策过程,在状态空间、动作空间、转移概率矩阵和奖励函数的定义下,通过最优化问题的解求出最佳的推理路径,为后续的搜索过程提供了基础。策略网络智能体使用动态策略网络生成的动作概率,使用随机波束搜索算法进行路径探索,通过对每个候选路径添加最有可能的动作产生新的路径池,并选择概率最高的动作完成搜索。这样的策略搜索具有较高的效率和准确性,并能够发现不同的路径。策略网络智能体沿着已经搜索得到的路径前进,根据元路径模式的结构化知识获取剪枝后的动作空间,以动态策略网络生成的动作概率进行随机波束搜索。将最有可能的动作附加到路径的末尾,以产生一个新的路径池,逐步找到最佳的路径方案,并获得非结构化知识的奖励。策略网络智能体根据环境反馈的信息更新自己的策略和价值函数,不断继续基于新的策略选择动作,直到找到最佳的路径。这个过程是一个迭代过程,策略网络智能体通过反复迭代逐渐趋向于最优解,在输出最优的关系链接序列后停止搜索。在搜索过程中,策略网络智能体不断地从环境中学习新的知识,并利用所学知识进行智能推理,通过上述动态策略网络选择B条由路径组成的网络路径,网络中所有链接的节点与初始节点相关系数高,作为这些链接路径关联的明确证据,最后通过对从es开始生成的B条候选路径进行评分选取最终的推理结果,完成路径补充。
在本发明一优选的实施例中,上述步骤14,可以包括:
使用关系嵌入模型将当前状态中的一个实体节点表示为一个向量;
计算所述向量与所有其他向量之间的余弦相似度,并按照相似度从高到低排序;
根据预定义的阈值来保留部分实体节点,其中,保留的部分实体节点被认为是当前实体节点的近邻,并在下一步动作空间中进行考虑;
当智能体进入一个新状态时,根据新状态时的所有实体节点的余弦相似度,以及预定义的阈值来保留近邻信息;
针对每个保留下来的实体节点,智能体将所述实体节点与当前状态中的实体节点之间的关系作为可行动作添加到动作空间中;
在下一步路径探索时,智能体基于当前实体节点的近邻信息来选择最佳策略,以实现知识图谱遍历。
该实施例中,在智能体进行路径探索时,由于知识图谱中每个节点的输出维大小不一致,如果采用最大输出维度作为下一状态动作空间的大小则会导致空间多冗余。因此,在这设计了一种基于余弦相似度的动作剪枝策略,该策略基于评分函数有效地保留了保持了实体近邻。同时为了保持策略网络的输出维一致,将行动空间定义为知识图谱中的所有关系。基于强化学习构建并学习策略网络和价值网络,并通过基线TransE为基础进行了加固。其目的是学习一个随机策略π,它将状态向量映射到所有可能行动的概率分布,使任何初始实体的预期累积奖励最大化:
其中,η为折扣因子。
策略网络接受状态向量嵌入和动作向量嵌入作为输入,并给出每个动作的概率,将非属于/>的动作的概率为0。首先将状态集和动作集映射到一个特征空间,并计算状态s和每一个动作之间的相似度,然后用softmax将相似度归一化到概率分布上。价值网络/>将状态向量s映射到一个实值。这两个网络定义如下:
s′=ReLU(ReLU(sW1)W2)
在这里,s和s′表示状态的嵌入和隐藏特征,as表示动作的隐藏特征,WA是一个动作向量的查找表,ReLU是一个非线性激活函数,表示修剪过的动作空间,⊙是Hadamard乘积,在这里用来屏蔽无效的动作。/> 状态向量/>表示为嵌入es、et和历史ht的串联,M为空间作用大小,D为空间作用最大大小。两个网络的模型参数表示为θ={W1,W2,W3,W4,Wν}。最后,政策梯度/>定义为:
其中G是状态s到最终状态st的折现累计奖励。
在知识图谱补全任务中,知识图谱给定头部实体的类型和一个有效关系,就可以确定尾部实体的类型。因此可以通过创建实体和关系类型的链式规则来扩展这个属性:{e0,r1,e1,r2,...,rk,ek}。如果实体的类型e0和所有关系r1,...,rk,其他实体的类型e1,...,ek是唯一确定的。k关系序列属于被称为两个实体(e0,ek)的有效k跳模式,如果存在一个实体集合{e1,...,ek-1},其类型是唯一确定的;
因此{e0←r1→e1←r2→···←rk-1→ek-1←rk→ek}在电力设备知识图谱上形成一个有效的k跳路径。在进行有效多跳路径寻找时,根据模型得到的概率来选择链接关系,操作有效或无效,有效动作表示与当前实体有输出关系,无效动作表示不存在关系。在实际应用中,智能体对给定问题所需的路径长度是未知的,因此在A(st)中增加了一个自环边,使智能体可以选择终止一段路径搜索,智能体将保持在当前实体et上,将路径搜索展开到固定的步数t上,自环动作起到类似于“停止”动作的作用,使智能体处于一种特殊的状态,称为终端状态。为了去除冗余信息,设计了一个动作剪枝策略,首先根据元路径模式排除不可能的边,然后评分函数将所有动作映射到以初始实体为条件的值。动作剪枝策略的评分函数如下:
给定两个实体es,ek,只存在一个多跳路径链,其中<,>是点积操作,e,r∈Rdd维向量表示实体e和关系r,be∈r是实体e的偏差。
如图3所示,本发明的实施例还提供一种用于电力巡检缺陷检测的知识处理装置20,包括:
获取模块21,用于构建电力设备知识图谱,基于所述电力设备知识图谱对电力路径进行检测,若检测到电力路径存在问题,则对电力路径进行形式化定义,并将形式化定义描述为一个马尔科夫决策过程;
处理模块22,用于基于马尔科夫决策过程,设计并学习相同特征层的策略网络和价值网络,结合在每一步选择带标记的关系边来学习走到答案节点,架起在可见和看不见的关系之间的桥梁,其目标是采取最佳决策序列以最大化预期奖励。
可选的,获取一个庞大并存在大量未见的零镜头关系的电力设备知识图谱,确定所述电力设备知识图谱中的起点实体和终点实体,包括:
确定一个具有实体集E和关系集R的电力设备知识图谱G,定义为G={(e,r,e)|e,e∈E,r∈R},其中,每个三元组(e,r,e)表示一个从起点实体e到终点实体e之间关系r的事实。
可选的,根据所述电力设备知识图谱中的起点实体和终点实体,获取一条最优路径来连接所述起点实体和终点实体,以形成马尔科夫决策过程,包括:
在所述电力设备知识图谱中寻找最佳的关系链接序列,并将寻找最佳的关系链接序列形式化定义为马尔科夫决策过程,其中,所述马尔科夫决策过程包括状态空间S、动作空间A、转移概率矩阵P和奖励函数R,所述状态空间S表示能够到达的所有实体,所述动作空间A表示两个实体之间的关系类型,所述转移概率矩阵P表示通过执行一个动作从当前实体转移到下一个实体的概率,所述奖励函数R表示当选择一个动作时累积的即时奖励;
通过利用马尔科夫决策过程建模知识图谱环境和策略网络智能体,所述策略网络智能体在每一步与环境进行交互,并学习选择最优的关系链接来扩展推理路径;
在每一步,策略网络智能体基于当前状态使用已有的知识和学习到的策略选择一个动作,执行该动作后,环境返回新的状态和获得的奖励;
策略网络智能体根据环境反馈的信息更新自己的策略和价值函数,并再次基于新的策略选择动作,直到找到最佳的路径。
可选的,对所述马尔科夫决策过程进行训练,以得到训练后的马尔科夫决策过程,包括:
在策略网络智能体开始找寻路径中,所述策略网络智能体以实体es为起始点根据元路径模式的结构化知识获取剪枝后的动作空间A,所述策略网络智能体以动态策略网络生成的动作概率进行随机波束搜索,一个波束包含B个候选线索路径;
当所述策略网络智能体搜索至第j步时,所述策略网络智能体根据元路径模式的结构化知识获取剪枝后的动作空间,其次,所述策略网络智能体以动态策略网络生成的动作概率进行随机波束搜索,对于每个候选路径,将B个最有可能的动作附加到路径的末尾,以产生一个大小为B×B的新路径池,选择概率最高的动作完成搜索,动态策略网络能够处理动态变化的行动空间,并获得非结构化知识的奖励,保存概率得分高的候选路径到下一个节点。
可选的,训练后的马尔科夫决策过程中的智能体通过随机波束搜索策略依次选择输出边缘,并遍历到新实体,包括:
使用关系嵌入模型将当前状态中的一个实体节点表示为一个向量;
计算所述向量与所有其他向量之间的余弦相似度,并按照相似度从高到低排序;
根据预定义的阈值来保留部分实体节点,其中,保留的部分实体节点被认为是当前实体节点的近邻,并在下一步动作空间中进行考虑;
当智能体进入一个新状态时,根据新状态时的所有实体节点的余弦相似度,以及预定义的阈值来保留近邻信息;
针对每个保留下来的实体节点,智能体将所述实体节点与当前状态中的实体节点之间的关系作为可行动作添加到动作空间中;
在下一步路径探索时,智能体基于当前实体节点的近邻信息来选择最佳策略,以实现知识图谱遍历。
可选的,每个候选线索路径的得分等于:
可选的,在获得非结构化知识的奖励之后,还包括:
随机策略π将状态向量映射到所有可能行动的概率分布,在训练过程中,智能体从当前状态出发通过采样行动,观测到奖励信号并进入下一个状态;
随着智能体逐渐学习到更好的策略,以使任何初始实体的预期累积奖励最大化:
其中,η为折扣因子,策略网络接受状态向量嵌入和动作向量嵌入作为输入,并给出每个动作的概率。
需要说明的是,该装置是与上述方法相对应的装置,上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上所述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种用于电力巡检缺陷检测的知识处理方法,其特征在于,所述方法包括以下步骤:
获取一个庞大并存在大量未见的零镜头关系的电力设备知识图谱,确定所述电力设备知识图谱中的起点实体和终点实体;
根据所述电力设备知识图谱中的起点实体和终点实体,获取一条最优路径来连接所述起点实体和终点实体,以形成马尔科夫决策过程;
对所述马尔科夫决策过程进行训练,以得到训练后的马尔科夫决策过程;
训练后的马尔科夫决策过程中的智能体通过随机波束搜索策略依次选择输出边缘,并遍历到新实体,当智能体使用随机波束搜索策略搜索到一个最优路径时,该路径自动形成其预测的可解释来源。
2.根据权利要求1所述的用于电力巡检缺陷检测的知识处理方法,其特征在于:获取一个庞大并存在大量未见的零镜头关系的电力设备知识图谱,确定所述电力设备知识图谱中的起点实体和终点实体,包括:
确定一个具有实体集E和关系集R的电力设备知识图谱G,定义为G={(e,r,e)|e,e∈E,r∈R},其中,每个三元组(e,r,e)表示一个从起点实体e到终点实体e之间关系r的事实。
3.根据权利要求2所述的用于电力巡检缺陷检测的知识处理方法,其特征在于:根据所述电力设备知识图谱中的起点实体和终点实体,获取一条最优路径来连接所述起点实体和终点实体,以形成马尔科夫决策过程,包括:
在所述电力设备知识图谱中寻找最佳的关系链接序列,并将寻找最佳的关系链接序列形式化定义为马尔科夫决策过程,其中,所述马尔科夫决策过程包括状态空间S、动作空间A、转移概率矩阵P和奖励函数R,所述状态空间S表示能够到达的所有实体,所述动作空间A表示两个实体之间的关系类型,所述转移概率矩阵P表示通过执行一个动作从当前实体转移到下一个实体的概率,所述奖励函数R表示当选择一个动作时累积的即时奖励;
通过利用马尔科夫决策过程建模知识图谱环境和策略网络智能体,所述策略网络智能体在每一步与环境进行交互,并学习选择最优的关系链接来扩展推理路径;
在每一步,策略网络智能体基于当前状态使用已有的知识和学习到的策略选择一个动作,执行该动作后,环境返回新的状态和获得的奖励;
策略网络智能体根据环境反馈的信息更新自己的策略和价值函数,并再次基于新的策略选择动作,直到找到最佳的路径。
4.根据权利要求3所述的用于电力巡检缺陷检测的知识处理方法,其特征在于:对所述马尔科夫决策过程进行训练,以得到训练后的马尔科夫决策过程,包括:
在策略网络智能体开始找寻路径中,所述策略网络智能体以实体es为起始点根据元路径模式的结构化知识获取剪枝后的动作空间A,所述策略网络智能体以动态策略网络生成的动作概率进行随机波束搜索,一个波束包含B个候选线索路径;
当所述策略网络智能体搜索至第j步时,所述策略网络智能体根据元路径模式的结构化知识获取剪枝后的动作空间,其次,所述策略网络智能体以动态策略网络生成的动作概率进行随机波束搜索,对于每个候选路径,将B个最有可能的动作附加到路径的末尾,以产生一个大小为B×B的新路径池,选择概率最高的动作完成搜索,动态策略网络能够处理动态变化的行动空间,并获得非结构化知识的奖励,保存概率得分高的候选路径到下一个节点。
5.根据权利要求4所述的用于电力巡检缺陷检测的知识处理方法,其特征在于:训练后的马尔科夫决策过程中的智能体通过随机波束搜索策略依次选择输出边缘,并遍历到新实体,包括:
使用关系嵌入模型将当前状态中的一个实体节点表示为一个向量;
计算所述向量与所有其他向量之间的余弦相似度,并按照相似度从高到低排序;
根据预定义的阈值来保留部分实体节点,其中,保留的部分实体节点被认为是当前实体节点的近邻,并在下一步动作空间中进行考虑;
当智能体进入一个新状态时,根据新状态时的所有实体节点的余弦相似度,以及预定义的阈值来保留近邻信息;
针对每个保留下来的实体节点,智能体将所述实体节点与当前状态中的实体节点之间的关系作为可行动作添加到动作空间中;
在下一步路径探索时,智能体基于当前实体节点的近邻信息来选择最佳策略,以实现知识图谱遍历。
6.根据权利要求4所述的用于电力巡检缺陷检测的知识处理方法,其特征在于:每个候选线索路径的得分等于:
7.根据权利要求4所述的用于电力巡检缺陷检测的知识处理方法,其特征在于:在获得非结构化知识的奖励之后,还包括:
随机策略π将状态向量映射到所有可能行动的概率分布,在训练过程中,智能体从当前状态出发通过采样行动,观测到奖励信号并进入下一个状态;
随着智能体逐渐学习到更好的策略,以使任何初始实体的预期累积奖励最大化:
其中,η为折扣因子,策略网络接受状态向量嵌入和动作向量嵌入作为输入,并给出每个动作的概率。
8.一种用于电力巡检缺陷检测的知识处理装置,其特征在于:包括:
获取模块,用于构建电力设备知识图谱,基于所述电力设备知识图谱对电力路径进行检测,若检测到电力路径存在问题,则对电力路径进行形式化定义,并将形式化定义描述为一个马尔科夫决策过程;
处理模块,用于基于马尔科夫决策过程,设计并学习相同特征层的策略网络和价值网络,结合在每一步选择带标记的关系边来学习走到答案节点,架起在可见和看不见的关系之间的桥梁,其目标是采取最佳决策序列以最大化预期奖励。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的用于电力巡检缺陷检测的知识处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序,该程序被处理器执行时实现如权利要求1-7中任一所述的用于电力巡检缺陷检测的知识处理方法。
CN202310439744.2A 2023-04-23 2023-04-23 一种用于电力巡检缺陷检测的知识处理方法及装置 Pending CN116719947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310439744.2A CN116719947A (zh) 2023-04-23 2023-04-23 一种用于电力巡检缺陷检测的知识处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310439744.2A CN116719947A (zh) 2023-04-23 2023-04-23 一种用于电力巡检缺陷检测的知识处理方法及装置

Publications (1)

Publication Number Publication Date
CN116719947A true CN116719947A (zh) 2023-09-08

Family

ID=87863789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310439744.2A Pending CN116719947A (zh) 2023-04-23 2023-04-23 一种用于电力巡检缺陷检测的知识处理方法及装置

Country Status (1)

Country Link
CN (1) CN116719947A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117420809A (zh) * 2023-12-18 2024-01-19 台山市南特金属科技有限公司 基于人工智能的曲轴加工优化决策方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117420809A (zh) * 2023-12-18 2024-01-19 台山市南特金属科技有限公司 基于人工智能的曲轴加工优化决策方法及系统
CN117420809B (zh) * 2023-12-18 2024-03-01 台山市南特金属科技有限公司 基于人工智能的曲轴加工优化决策方法及系统

Similar Documents

Publication Publication Date Title
Hospedales et al. Meta-learning in neural networks: A survey
Abu-El-Haija et al. Watch your step: Learning node embeddings via graph attention
Tamaazousti et al. Learning more universal representations for transfer-learning
Silver et al. Lifelong machine learning systems: Beyond learning algorithms
US20210390420A1 (en) Machine learning optimisation method
Kumar et al. Formal concept analysis approach to cognitive functionalities of bidirectional associative memory
Wang et al. ALSTM: An attention-based long short-term memory framework for knowledge base reasoning
Xing et al. Solve traveling salesman problem by Monte Carlo tree search and deep neural network
Xingrong Research on time series data mining algorithm based on Bayesian node incremental decision tree
CN116719947A (zh) 一种用于电力巡检缺陷检测的知识处理方法及装置
Asadifar et al. Semantic association rule mining: a new approach for stock market prediction
Park et al. Hiql: Offline goal-conditioned rl with latent states as actions
Shin et al. Offline preference-based apprenticeship learning
CN113326884B (zh) 大规模异构图节点表示的高效学习方法及装置
Liu et al. Conversational Question Answering with Reformulations over Knowledge Graph
CN115953215B (zh) 一种基于时间和图结构的搜索式推荐方法
Wang et al. Reinforcement learning transfer based on subgoal discovery and subtask similarity
Ghazanfari et al. Extracting bottlenecks for reinforcement learning agent by holonic concept clustering and attentional functions
CN111882124B (zh) 一种基于生成对抗模仿学习的同质平台发展效应预测方法
CN114722212A (zh) 一种面向人物关系网络的自动元路径挖掘方法
Lange et al. Semantic rl with action grammars: Data-efficient learning of hierarchical task abstractions
Khanteymoori et al. A Bayesian network based approach for data classification using structural learning
Schlake et al. Evaluating the lottery ticket hypothesis to sparsify neural networks for time series classification
Grattarola Deep Feature Extraction for Sample-Efficient Reinforcement Learning
Zhang et al. Learning to order sub-questions for complex question answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination