CN114117078A

CN114117078A - 一种基于d-s证据理论的电力异构知识融合的方法

Info

Publication number: CN114117078A
Application number: CN202111463105.7A
Authority: CN
Inventors: 钱旭盛; 翟千惠; 康雨萌; 程雅梦; 吴伟将
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-01

Abstract

本申请公开了一种基于D‑S证据理论的电力异构知识融合的方法，包括：获取电力智能知识中心多种类型知识，包括本体知识、三元组知识以及事件知识；对单个输入知识K，利用BM25分别从本体知识、三元组知识、以及事件知识中检索出最优的M个知识候选集；分别计算知识候选集中每个知识的置信度；基于置信度，利用D‑S证据理论融合计算出候选集中每一知识的融合置信度；对融合置信度进行排序，筛选得到与查询语句K最相关的知识。本发明基于检索及文本表征，利用D‑S证据理论，对异构知识置信度结果进行融合排序，实现异构知识的融合，提升了知识融合的效率及效果。

Description

一种基于D-S证据理论的电力异构知识融合的方法

技术领域

本发明属于电力知识融合技术领域，涉及一种基于D-S证据理论的电力异构知识融合的方法。

背景技术

由于人类知识的复杂性、开放性、多样性，同时具有巨大的规模，需要大规模常识知识库来支撑类人推理和自然语言理解。但是，知识图谱中的知识来源广泛，多源异构的知识之间会存在重复、语义多样、质量参差不齐等问题，需要进行冲突检测、实体消歧、实体对齐等操作，将多种来源的知识有机融合在一起，形成高质量知识图谱。

传统的知识融合技术大多仅针对单种知识类型的进行融合，对于异构知识的融合方案相对交少，

D-S证据理论起源于20世纪60年代的哈佛大学数学家A.P.Dempster利用上、下限概率解决多值映射问题，1967年他起连续发表一系列论文，标志着证据理论的正式诞生。而后Dempster的学生G.shafer对证据理论做了进一步研究，引入信任函数概念，形成了一套“证据”和“组合”来处理不确定性推理的数学方法从而形成了该理论，利用D-S证据理论对电力异构知识进行融合，可有效提升知识融合的整理效率。

发明内容

为解决现有技术中的不足，本申请提供一种基于D-S证据理论的电力异构知识融合的方法。

为了实现上述目标，本发明采用如下技术方案：

一种基于D-S证据理论的电力异构知识融合的方法，包括以下步骤：

步骤1：获取电力智能知识中心多种类型知识，包括本体知识、三元组知识以及事件知识；

步骤2：对单个输入知识K，即查询语句K，利用BM25分别从步骤1的本体知识、三元组知识、以及事件知识中检索出最优的M个知识候选集；

步骤3：分别计算步骤2得到的知识候选集中每个知识的置信度；

步骤4：基于步骤3计算得到的置信度，利用D-S证据理论融合计算出候选集中每一知识的融合置信度；

步骤5：对步骤4得到的融合置信度进行排序，筛选得到与查询语句K最相关的知识。

本发明进一步包括以下优选方案：

优选地，步骤1中，获取电力智能知识中心多种类型知识，包括本体知识Onto_data，三元组知识Triple_data，以及事件知识Event_data；

所述本体知识Onto_data＝{O₁，O₂，…，O_i，…，O_n}，其中O_i为第i个本体知识；

所述三元组知识Triple_data＝{T₁，T₂，…，T_i，…，T_n}，其中T_i为第i个三元组知识；

所述事件知识Event_data＝{E₁，E₂，…，E_i，…，E_n}，其中E_i为第i个事件知识；

n为每类知识中的知识数量。

优选地，步骤2中，对单个输入知识K，利用BM25分别从步骤1的本体知识Onto_data、三元组知识Triple_data以及事件知识Event_data中检索出最优的M个知识候选集，得到：

本体知识候选集Onto_data_K＝{O_K1，O_K2，…，O_Kj，…，O_Km}；

其中，O_Kj为输入知识K对应的第j个本体知识；

三元组知识候选集Triple_data_K＝{T_K1，T_K2，…，T_Kj，…，T_Km}；

其中，T_Kj为输入知识K对应的第j个三元组知识；

事件知识候选集Event_data_K＝{E_K1，E_K2，…，E_Kj，…，E_Km}；

其中，E_Kj为输入知识K对应的第j个事件知识；

m为每个候选集中的知识数量。

优选地，步骤2具体包括：

步骤2.1：利用BM25算法分别计算本体知识Onto_data中每个信息特征f_Od、三元组知识Triple_data中每个信息特征f_Td以及事件知识Event_data中每个信息特征f_Ed与单个输入知识K的相似程度score；

步骤2.2：对步骤2.1得到的相似程度score在本知识内进行排序，选取相似程度score最高的M个相应知识，分别构成本体知识候选集Onto_data_K、三元组知识候选集Triple_dataK、事件知识候选集Event_dataK。

优选地，步骤2.1中，本体知识Onto_data中每个信息特征f_Od、三元组知识Triple_data中每个信息特征f_Td以及事件知识Event_data中每个信息特征f_Ed与单个输入知识K的相似程度score的计算公式分别为公式(1)、公式(2)、公式(3)

其中，f_Odj为本体知识中信息特征f_Od的第j个元素；

f_Tdj为三元组知识中信息特征f_Td的第j个元素；

f_Edj为事件知识中信息特征f_Ed的第j个元素；

K_k为输入的单条知识中第k个词；

W_k为K_k的权重；

R(f_Odj，q_k)为K_k与电力本体知识f_Odj的相关性分数；

R(f_Tdj，q_k)为K_k与电力三元组知识f_Tdj的相关性分数；

R(f_Edj，q_k)为K_k与电力事件知识f_Edj的相关性分数；

f_dj来代表f_d中每个信息特征的第j个元素；

f_d来代表三种知识类型的信息特征集合；

n为输入的知识K中词的个数。

优选地，K_k的权重W_k的计算公式为：

K_k与电力存储知识f_dj的相关性分数R(f_dj，q_k)的计算公式为：

其中，k₁、k₂和b是调协因子；

X_k表示单体知识K中词汇K_k在f_d中出现的次数；

Y_k表示词汇K_k在输入的知识K中出现的次数；

l_j为单个知识f_dj的长度，avg_l_j为f_d所有知识f_dj的平均长度。

优选地，步骤3中，计算本体知识候选集Onto_data_K每个本体知识的置信度，第j个本体知识O_Kj的置信度P_okj计算公式为：

其中，KVec为单条知识对应的向量表征，O_KjVec为本体知识O_Kj对应的向量表征；

计算三元组知识候选集Triple_dataK中每个三元组知识的置信度，第j个三元组知识T_Kj的置信度P_Tkj计算为：

其中，T_KjVec为三元组知识T_Kj对应的向量表征；

计算事件知识候选集Event_dataK中每个事件知识的置信度，第j个事件知识E_Kj的置信度P_Ekj计算公式为：

其中，E_KjVec为事件知识E_Kj对应的向量表征。

优选地，步骤3中，采用基于预训练语言模型的方法获取向量表征。

优选地，步骤4具体包括：

步骤4.1：设置置信度评分区间和等级；

步骤4.2：基于D-S证据理论设置用于置信度评分计算的Dempster合成规则；

步骤4.3：根据步骤3的置信度，采用步骤4.2的Dempster合成规则计算每一知识的本体知识候选集置信度评分、三元组知识候选集置信度评分置信度评分以及事件知识候选集置信度评分；

步骤4.4：确定每一知识的本体知识候选集置信度评分、三元组知识候选集置信度评分置信度评分以及事件知识候选集置信度评分这三个评分值所在的评分区间，得到这三个评分值的权重，结合权重进行这三个评分值叠加，得到该知识基于D-S证据理论的融合置信度。

优选地，步骤4.1：设置如下置信度评分区间和等级：

1)高等：[0.75，1.0]

2)中等：[0.25，0.75]

3)低等：[0，0.25]。

优选地，步骤4.2中设置用于置信度评分计算的Dempster合成规则为：

其中，S_v表示知识K_j第v种类型候选集的置信度得分，v＝1，2，3，分别表示本体知识、三元组知识和事件知识类型候选集的置信度评分；

n表示第v种类型知识候选集中除知识K_j外的知识的数目；

P_Kj表示知识K_j的置信度；

表示第v种类型知识候选集中知识K_i的置信度，知识K_i为第v种类型知识候选集中除知识K_j外的知识。

优选地，步骤4.4中，评分值属于高等、中等、低等评分区间时，分别对评分值分配权重θ，μ，ω，其中，θ，μ，ω预先设定。

本申请所达到的有益效果：

本发明基于检索及文本表征，将原始无法进行融合，单独表征的多源知识，进行同意表征，并利用D-S证据理论，对异构知识置信度结果进行融合排序，利用相关度排序，可以为知识融合提供多元信息，实现异构知识的融合，提升了知识融合的效率及效果。

附图说明

图1是本发明一种基于D-S证据理论的电力异构知识融合的方法流程图；

图2是本发明实施例中采用BERT获取向量表征示例。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

如图1所示，本发明的一种基于D-S证据理论的电力异构知识融合的方法，包括以下步骤：

具体实施时，获取电力智能知识中心多种类型知识，包括本体知识Onto_data，三元组知识Triple_data，以及事件知识Event_data；

所述事件知识Event_data＝{E₁，E₂，…，E_i，…，E_n}，其中E_i为第i个事件知识。

步骤2：对单个输入知识K，即查询语句K，例如查询语句“江苏省阶梯电价计算方式”，利用BM25分别从步骤1的本体知识、三元组知识、以及事件知识中检索出最优的M个知识候选集；

具体实施时，对单个输入知识K，利用BM25分别从步骤1的本体知识Onto_data、三元组知识Triple_data以及事件知识Event_data中检索出最优的M个知识候选集，得到：

本体知识候选集Onto_data_K＝{O_K1，O_K2，…，O_Kj，…，O_Km}；

其中，O_Kj为输入知识K对应的第j个本体知识；

其中，T_Kj为输入知识K对应的第j个三元组知识；

事件知识候选集Event_data_K＝{E_K1，E_K2，…，E_Kj，…，E_Km}；

其中，E_Kj为输入知识K对应的第j个事件知识。

步骤2具体包括：

步骤2.1中，公式如公式(1)、公式(2)、公式(3)所示。

其中，f_Odj为本体知识中信息特征f_Od的第j个元素；即本体知识中每个信息特征f_Od的一个元素；

f_Tdj为三元组知识中信息特征f_Td的第j个元素；

f_Edj为事件知识中信息特征f_Ed的第j个元素；

K_k为输入的单条知识中第k个词；

W_k为K_k的权重；

f_dj来代表f_d中每个信息特征的第j个元素；

f_d来代表三种知识类型的信息特征集合；

n为输入的知识K中词的个数。

R(f_Odj，q_k)为K_k与电力本体知识f_Odj的相关性分数，如表1所示；

表1 K_k与电力本体知识f_Odj的相关性分数示例

R(f_Tdj，q_k)为K_k与电力三元组知识f_Tdj的相关性分数，如表2所示；

表2 K_k与电力三元组知识f_Tdj的相关性分数示例

R(f_Edj，q_k)为K_k与电力事件知识f_Edj的相关性分数，如表3所示；

表3 K_k与电力事件知识f_Edj的相关性分数示例

其中，N表示f_d列表中的所有元素的个数，df_d表示包含词汇K_k的元素的个数。

进一步的，k₁、k₂和b是调协因子，一般分别设为2，1，0.75；

X_k表示单体知识K中词汇K_k在相应知识f_d列表中出现的次数；例如针对K“江苏省阶梯电价计算方式”中词汇K_k“阶梯电价”，在三元组知识<电价政策，包含，阶梯电价>中出现次数为1；

Y_k表示词汇K_k在查询语句K中出现的次数；

例如三元组知识<电价政策，包含，阶梯电价>的长度为10。

步骤2.2：对步骤2.1得到的相似程度score在本知识内进行排序，选取相似程度score最高的M个相应知识，分别构成本体知识候选集Onto_data_K、三元组知识候选集Triple_data_K、事件知识候选集Event_data_K。相关示例如表4所示。

表4筛选得到的本体知识候选集、三元组知识候选集、事件知识候选集示例

步骤3：分别计算步骤2得到的知识候选集中每个知识的置信度，具体的：

计算本体知识候选集Onto_dataK每个本体知识O_Kj的置信度P_Okj，计算公式如公式(7)所示：

其中，K为输入的单条知识，O_Kj为本体知识候选集Onto_data_K中的第j个本体知识，KVec为单条知识对应的向量表征，O_KjVec为本体知识O_Kj对应的向量表征；

向量表征的方式，采用基于预训练语言模型的方法获取向量表征，进一步的，本发明具体实施时，采用BERT获取向量表征，例如：针对单条知识K“<绕组电阻，测量方法，直流测试方式>”，

如图2所示，采用基于BERT的文本表征方法，其中采用

作为输入的单条知识K的向量表征，即KVec；同理，可以获得单个本体知识O_Kj的向量表征O_KjVec。

例如单条知识“<电力电阻，测试方法，直流测试>”

计算后得到P_Okj为0.6586。

计算三元组知识候选集Triple_dataK中每个三元组知识T_Kj的置信度P_Tkj，计算公式(8)所示：

其中，K为输入的单条知识，T_Kj为三元组知识候选集Triple_dataK中第j个三元组知识，同样采用基于预训练BERT的文本表征方法获取相应知识的向量表征，KVec为单条知识对应的向量表征，T_KjVec为三元组知识T_Kj对应的向量表征。

计算事件知识候选集Event_data_K中每个事件知识E_Kj的置信度P_Ekj，计算公式如公式(9)所示：

其中，K为输入的单条知识，E_Kj为事件知识候选集Event_data_K中第j个事件知识，同样采用基于预训练BERT的文本表征方法获取相应知识的向量表征，KVec为单条知识对应的向量表征，E_KjVec为事件知识E_Kj对应的向量表征。

即基于步骤3计算出的每个本体知识O_Kj置信度P_OKj、三元组知识T_Kj的置信度PT_Kj以及事件知识E_Kj的置信度P_Ekj，利用D-S证据理论得到每个本体知识O_Kj基于D-S证据理论的融合置信度M-P_OKj、三元组知识T_Kj基于D-S证据理论的融合置信度M-P_TKj以及事件知识E_Kj基于D-S证据理论的置信度M-P_EKj，利用D-S证据理论融合计算出知识K的融合置信度M-P_K，具体的：

步骤4.1：设置置信度评分区间和等级：

1)高等：[0.75，1.0]

2)中等：[0.25，0.75]

3)低等：[0，0.25]

1)D-S证据理论识别框架：

假设Θ为变量x所有取值的值集合，Θ＝{θ₁，θ₂，...，θ_n}，集合Θ中的每个元素之间时互斥的，在任何时刻x只能赋予集合Θ中的一个元素值，那么Θ就被称作为x的样本空间，或者成为识别框架。

在证据理论中，识别框架任何一个子集A都对应于一个关于x的命题。因此，关于x命题的可靠程度由其对应的识别框架Θ中的子集A所取决。

在本发明中，命题x及为输入的单条知识K，Θ为知识库中每个知识与单条数据知识K的置信度，子集A则表示步骤3中获取得到的每个相关知识的类型，A＝{本体知识候选集Onto_dataK，三元组知识候选集Triple_dataK，事件知识候选集Event_dataK}。

2)设置用于置信度评分计算的Dempster合成规则；

Dempster合成规则为：

n表示第v种类型知识候选集中的除知识K_j外的知识的数目；

P_Kj表示知识K_j的置信度；

步骤4.4中，评分值属于高等、中等、低等评分区间时，分别对评分值分配权重θ，μ，ω，其中，θ，μ，ω预先设定。

具体实施时，融合置信度可分为每个本体知识O_Kj的融合置信度M-P_OKj三元组知识T_Kj的融合置信度M-PT_Kj以及事件知识E_Kj的融合置信度M-P_EKj，如表5所示。

表5基于D-S证据理论的融合置信度M-P_K示例

步骤5：对步骤4中获得的融合置信度从大到小进行排序，得到最终结果。

例如表5中，与知识K江苏省阶梯电价计算方式最相关的知识为三元组知识<电价政策，包含，阶梯电价>。

综上所述，本发明基于检索及文本表征，利用D-S证据理论，对异构知识置信度结果进行融合排序，实现异构知识的融合，提升了知识融合的效率及效果。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于D-S证据理论的电力异构知识融合的方法，其特征在于：

所述方法包括以下步骤：

2.根据权利要求1所述的一种基于D-S证据理论的电力异构知识融合的方法，其特征在于：

步骤1中，获取电力智能知识中心多种类型知识，包括本体知识Onto_data，三元组知识Triple_data，以及事件知识Event_data；

n为每类知识中的知识数量。

3.根据权利要求1所述的一种基于D-S证据理论的电力异构知识融合的方法，其特征在于：

步骤2中，对单个输入知识K，利用BM25分别从步骤1的本体知识Onto_data、三元组知识Triple_data以及事件知识Event_data中检索出最优的M个知识候选集，得到：

本体知识候选集Onto_data_K＝{O_K1，O_K2，…，O_Kj，…，O_Km}；

其中，O_Kj为输入知识K对应的第j个本体知识；

其中，T_Kj为输入知识K对应的第j个三元组知识；

事件知识候选集Event_data_K＝{E_K1，E_K2，…，E_Kj，…，E_Km}；

其中，E_Kj为输入知识K对应的第j个事件知识；

m为每个候选集中的知识数量。

4.根据权利要求1所述的一种基于D-S证据理论的电力异构知识融合的方法，其特征在于：

步骤2具体包括：

步骤2.2：对步骤2.1得到的相似程度score在本知识内进行排序，选取相似程度score最高的M个相应知识，分别构成本体知识候选集Onto_data_K、三元组知识候选集Triple_data_K、事件知识候选集Event_data_K。

5.根据权利要求4所述的一种基于D-S证据理论的电力异构知识融合的方法，其特征在于：

步骤2.1中，本体知识Onto_data中每个信息特征f_Od、三元组知识Triple_data中每个信息特征f_Td以及事件知识Event_data中每个信息特征f_Ed与单个输入知识K的相似程度score的计算公式分别为公式(1)、公式(2)、公式(3)

其中，f_Odj为本体知识中信息特征f_Od的第j个元素；

f_Tdj为三元组知识中信息特征f_Td的第j个元素；

f_Edj为事件知识中信息特征f_Ed的第j个元素；

K_k为输入的单条知识中第k个词；

W_k为K_k的权重；

R(f_Odj,q_k)为K_k与电力本体知识f_Odj的相关性分数；

R(f_Tdj,q_k)为K_k与电力三元组知识f_Tdj的相关性分数；

R(f_Edj,q_k)为K_k与电力事件知识f_Edj的相关性分数；

f_dj来代表f_d中每个信息特征的第j个元素；

f_d来代表三种知识类型的信息特征集合；

n为输入的知识K中词的个数。

6.根据权利要求5所述的一种基于D-S证据理论的电力异构知识融合的方法，其特征在于：

K_k的权重W_k的计算公式为：

K_k与电力存储知识f_dj的相关性分数R(f_dj,q_k)的计算公式为：

其中，k₁、k₂和b是调协因子；

X_k表示单体知识K中词汇K_k在f_d中出现的次数；

Y_k表示词汇K_k在输入的知识K中出现的次数；

l_j为单个知识f_dj的长度,avg_l_j为f_d所有知识f_dj的平均长度。

7.根据权利要求1所述的一种基于D-S证据理论的电力异构知识融合的方法，其特征在于：

步骤3中，计算本体知识候选集Onto_data_K每个本体知识的置信度，第j个本体知识O_Kj的置信度P_Okj计算公式为：

计算三元组知识候选集Triple_data_K中每个三元组知识的置信度，第j个三元组知识T_Kj的置信度P_Tkj计算为：

其中，T_KjVec为三元组知识T_Kj对应的向量表征；

计算事件知识候选集Event_data_K中每个事件知识的置信度，第j个事件知识E_Kj的置信度P_Ekj计算公式为：

其中，E_KjVec为事件知识E_Kj对应的向量表征。

8.根据权利要求7所述的一种基于D-S证据理论的电力异构知识融合的方法，其特征在于：

步骤3中，采用基于预训练语言模型的方法获取向量表征。

9.根据权利要求1所述的一种基于D-S证据理论的电力异构知识融合的方法，其特征在于：

步骤4具体包括：

步骤4.1：设置置信度评分区间和等级；

10.根据权利要求9所述的一种基于D-S证据理论的电力异构知识融合的方法，其特征在于：

步骤4.1：设置如下置信度评分区间和等级：

1)高等：[0.75,1.0]

2)中等：[0.25,0.75]

3)低等：[0,0.25]。

11.根据权利要求9所述的一种基于D-S证据理论的电力异构知识融合的方法，其特征在于：

步骤4.2中设置用于置信度评分计算的Dempster合成规则为：

其中，S_v表示知识K_j第v种类型候选集的置信度得分，v＝1,2,3,分别表示本体知识、三元组知识和事件知识类型候选集的置信度评分；

n表示第v种类型知识候选集中除知识K_j外的知识的数目；

P_Kj表示知识K_j的置信度；

12.根据权利要求10所述的一种基于D-S证据理论的电力异构知识融合的方法，其特征在于：