CN114186068A

CN114186068A - 一种基于多级注意力网络的审计制度依据问答方法

Info

Publication number: CN114186068A
Application number: CN202111303356.9A
Authority: CN
Inventors: 孙常鹏; 赵张莉; 戴斐斐; 崔霞; 郝磊; 杨燕; 崔艺馨
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-03-15

Abstract

本发明公开了一种基于多级注意力网络的审计制度依据问答方法，包括以下步骤：步骤1)提取审计问题描述的主题词；基于LDA主题提取模型获得问题描述中的主题实体；步骤2)生成候选实体集；步骤3)文本编码表示；步骤4)多级注意力计算；步骤5)候选实体评分排序并返回制度依据。该方法针对电力审计问题结合审计知识图谱，采用多级注意力联合编码问题描述和候选实体的特征表示，从候选实体中选择评分最高的实体作为待查询审计问题的制度依据返回答案。该发明可以缓解电力审计中长文本实体带来语义空间较大的问题，有利于减轻审计工作者日常工作负担、提升工作效率。

Description

一种基于多级注意力网络的审计制度依据问答方法

技术领域

本发明涉及电力审计技术领域，具体为一种基于多级注意力网络的审计制度依据问答方法。

背景技术

审计是对国家政府部门、企业事业组织等公司在进行重大项目以及财务收支前后进行审查的重要环节。在审计工作过程中，审查人员需要根据国家法律法规、审计准则、省市及地方规定、公司规章制度等文件对被审计单位的经营管理活动、财务财政收支等方面的合法性、合规性、真实性、正确性进行监督和审查。由于审计工作需要查阅的法律制度文件数量庞大、种类繁多，且业务流程繁琐，因此审计人员的工作效率较低。为降低审计工作人员负担、提升工作效率，开发一种针对审计业务自动问答查找的系统迫在眉睫。

近几年，随着信息化时代的到来，研究者们提出将无结构化的知识进行结构化存储。一些研究提出使用知识图谱是一种常见的基于图的结构化知识存储方式，目前已经广泛应用到问答、对话、推理等多个研究领域。知识图谱以节点和边构成，其中每个节点表示一个实体，连接节点的边表示两个实体之间的关系，通常以三元组(“实体1-关系-实体2”)的形式进行存储，例如“中国，首都，北京”。按照知识图谱的覆盖范围分类，现有知识图谱可以分为通用知识图谱和行业知识图谱，通用知识图谱涉及互联网信息、百科知识等方面面向全领域，而行业知识图谱则是面向某一专业领域根据专业知识构建，如医学、电商等。目前，国内外面向审计的行业知识图谱研究仍处于起步阶段。

现有知识图谱问答的方法主要分为两大类：基于语义解析的方法和基于信息检索的方法。基于语义解析的方法试图将自然语言问题转换为逻辑表达式，然后再将其转化为可以在知识图中执行的描述性语言。早期研究使用手工设计的规则和特征，此外还有一些研究基于弱监督方法利用外部资源辅助生成问答结果。近期，一些基于语义解析的方法也融入了部分基于信息检索的技术，通过计算两个序列的相似性作为特征，利用基于神经网络的答案类型预测模型，或者端到端训练神经符号。然而，该方法基于符号逻辑，符号的匹配会造成语义鸿沟问题，限制了它们的可伸缩性和可移植性。

基于信息检索的方法首先会确定用户问题中的实体提及词，然后链接到知识库中的主题实体，并将与主题实体相关的子图提取出来作为候选答案集合，然后分别从问题和候选答案中抽取特征，最后利用排序模型对问题和候选答案进行建模并预测。Bordes等人提出了子图嵌入的思想，对候选答案的更多信息进行编码，例如答案路径和上下文信息。此后，一些研究使用记忆网络存储候选答案实体，并可以迭代访问进行多跳推理。这些工作大多使用词袋模型来编码问题和知识库资源。近年来，一些研究利用外部知识来源实现了更好的问答效果。此外，Hao等人提出了一种交叉注意机制，根据候选答案的各个方面对问题进行编码。

审计制度依据问答需要根据输入的待审计事实描述返回知识库中相关法律以及制度依据的条例内容，不同于常见的知识图谱问答工作中实体一般为名词、名词短语或者事件，审计知识图谱中实体一般为长文本，即一条法律或制度细则的原文，部分实体可能是一段话。此外，常见的知识图谱问答任务大多存在丰富的关系，需要多跳查询或推理，而审计制度依据问答任务中实体之间关系较弱。因此，现有基于知识图谱问答的研究聚焦于名词短语实体的查找和关系路径的推理研究，并不能良好适应于该任务，需要设计任务导向的制度依据问答系统。

发明内容

本发明的目的在于克服现有技术的不足之处，提供一种基于多级注意力网络的审计制度依据问答方法，该方法针对电力审计问题结合审计知识图谱，采用多级注意力联合编码问题描述和候选实体的特征表示，从候选实体中选择评分最高的实体作为待查询审计问题的制度依据返回答案。该发明可以缓解电力审计中长文本实体带来语义空间较大的问题，有利于减轻审计工作者日常工作负担、提升工作效率。

一种基于多级注意力网络的审计制度依据问答方法，包括以下步骤：

步骤1)提取审计问题描述的主题词；基于LDA主题提取模型获得问题描述中的主题实体；

步骤2)生成候选实体集；

步骤3)文本编码表示；

步骤4)多级注意力计算；

步骤5)候选实体评分排序并返回制度依据。

而且，步骤2)中包括以下子步骤：

步骤2.1)根据步骤1)得到的主题实体查找知识库中的实体存入候选实体集中；

步骤2.2)根据步骤2.1)找到的实体，将其2跳连接内的实体扩展到候选实体集中。

而且，步骤3)中包括以下子步骤：

步骤3.1)对问题描述进行词嵌入编码；

步骤3.2)基于步骤3.1)得到的问题描述词嵌入编码，采用双向长短期记忆网络进行编码；

步骤3.3)对候选实体集中的实体进行编码。

而且，步骤4)中包括以下子步骤：

步骤4.1)基于候选实体集对问题描述语义向量执行注意力运算；

步骤4.2)基于步骤4.1)生成的问题描述语义向量对候选实体集的语义向量执行注意力运算。

而且，步骤5)中包括以下子步骤：

步骤5.1)基于步骤4)得到的问题描述特征对候选实体中各实体的特征计算得分；

步骤5.2)返回步骤5.1)中得分最高的实体作为查询结果。

本发明的优点和技术效果是：

本发明的一种基于多级注意力网络的审计制度依据问答方法，面向电力审计问题，有针对性地提出了一种基于多级注意力网络的审计制度依据问答方法，返回审计问题相关的制度依据，解决了人工查询制度依据工作繁琐、效率低下的问题，降低了审计工作人员的工作负担。

本发明基于主题实体获取知识库子图并采用多级注意力机制，缓解长文本实体带来语义空间较大的问题。

本发明采用多级注意力机制，不仅能够利用问题描述计算候选实体集中的制度语义向量表示，获得实体候选集中和问题语义相关性较高的制度实体，同时能够基于不同候选制度的语义向量多方面计算问题描述的语义表示，更好地理解长文本问题和制度实体的语义信息。

附图说明

图1为本发明的路线框图。

具体实施方式

为能进一步了解本发明的内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下。需要说明的是，本实施例是描述性的，不是限定性的，不能由此限定本发明的保护范围。

步骤2)生成候选实体集；

步骤3)文本编码表示；

步骤4)多级注意力计算；

步骤5)候选实体评分排序并返回制度依据。

而且，步骤2)中包括以下子步骤：

而且，步骤3)中包括以下子步骤：

步骤3.1)对问题描述进行词嵌入编码；

步骤3.3)对候选实体集中的实体进行编码。

而且，步骤4)中包括以下子步骤：

而且，步骤5)中包括以下子步骤：

步骤5.2)返回步骤5.1)中得分最高的实体作为查询结果。

本发明的详细步骤如下：

本发明提出一种基于多级注意力网络的审计制度依据问答方法，针对电力审计问题结合审计知识图谱，采用多级注意力联合编码问题描述和候选实体的特征表示，从候选实体中选择评分最高的实体作为待查询审计问题的制度依据返回答案。该发明可以缓解电力审计中长文本实体带来语义空间较大的问题，有利于减轻审计工作者日常工作负担、提升工作效率。

具体地，对待查询审计问题描述

其中q_i表示问题经过词嵌入层后中每个词的编码表示，|q|表示问题长度。

本发明使用LDA主题提取模型提取审计问题描述Q的主题实体a₁，并找到实体a₁的2跳连接内的实体{a₁，a₂，...}共同构成候选实体集

其中|A|表示候选实体总数。

对于输入问题描述的词嵌入表示Q，使用双向长短期记忆网络进行编码，并连接前向隐藏状态序列

和后向

的隐藏状态序列获得问题描述中每个字的表示

维度为d。对于候选实体集的编码采用问题描述编码同样的方式，编码后的表示为e。

本发明采用多级注意力机制，第一个注意力机制利用不同候选制度的语义向量多方面指导计算问题描述的语义表示，而后第二个注意力机制利用问题描述指导计算候选实体集中的制度语义向量表示，可以更好地理解长文本问题和制度实体的语义信息。

对于第一个注意力机制，不同的候选答案有助于问题描述更好地编码答案相关的内容，使用第i个候选答案的嵌入表示e_i和问题描述中字的表示h_j计算注意力权重：

w_ij＝f(W^T[h_j；e_i]+b)， (1)

其中f(·)为非线性激活函数，如tanh。

为中间矩阵，b为偏置，它们都是在训练中随机初始化和更新的。使用下边公式可以得到一个表示问题的语义向量：

类似地，对于第二个注意力机制，基于问题的语义向量q_i对每个候选实体分别计算注意力，得到向量

根据问题描述语义向量对每个候选实体向量计算得分：

其中评分函数g(·)计算从答案方面获得关注的问题描述表示q_i与候选答案表示

之间的内积。

最后，返回得分最高的制度依据实体作为审计问题的制度依据。

为了更清楚地描述本申请的具体实施方式，下面提供一种实施例：

实施例1：

对于待查询问题“经抽查，xxxx未按照规定将14户220千伏用户的30块0.5S精度电能表更换成0.2S级。以xxxx有限公司4块电能表为例，现场检测精度报告(规定每半年现场检测一次)显示未达到0.2S级，经估算共造成258.06万千瓦时电量误差。2017～2018年，上述30块电能表只有5块按照规定使用检测台完成数据检测，其余电能表长期未出具有效检测结果。”，首先提取主题实体“电能”，而后在知识库中找到相关实体“电能计量装置技术管理规程”(制度名称)，将该实体2跳连接内的实体(含《电能计量装置技术管理规程》中的每一条制度)加入到候选实体集中。基于词嵌入和双向长短期记忆网络对问题描述进行编码，同时对候选实体进行编码。使用多级注意力模块对问题描述向量和实体向量联合编码，而后计算候选实体集中实体的得分，最后得分最高的制度依据实体为“准确度等级......I类有功电能表精度0.2S，Ⅱ类有功电能表精度0.5S，Ⅲ类有功电能表精度0.5S，Ⅳ类有功电能表精度1S，Ⅴ类有功电能表精度2S……”(《电能计量装置技术管理规程》(DL/T 448-2016)第6.2条)。

最后，本发明的未述之处均采用现有技术中的成熟产品及成熟技术手段。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于多级注意力网络的审计制度依据问答方法，其特征在于，包括以下步骤：

步骤2)生成候选实体集；

步骤3)文本编码表示；

步骤4)多级注意力计算；

步骤5)候选实体评分排序并返回制度依据。

2.根据权利要求1所述的一种基于多级注意力网络的审计制度依据问答方法，其特征在于：所述步骤2)中包括以下子步骤：

3.根据权利要求1所述的一种基于多级注意力网络的审计制度依据问答方法，其特征在于：所述步骤3)中包括以下子步骤：

步骤3.1)对问题描述进行词嵌入编码；

步骤3.3)对候选实体集中的实体进行编码。

4.根据权利要求1所述的一种基于多级注意力网络的审计制度依据问答方法，其特征在于：所述步骤4)中包括以下子步骤：

5.根据权利要求1所述的一种基于多级注意力网络的审计制度依据问答方法，其特征在于：所述步骤5)中包括以下子步骤：

步骤5.2)返回步骤5.1)中得分最高的实体作为查询结果。