CN114186068A - 一种基于多级注意力网络的审计制度依据问答方法 - Google Patents
一种基于多级注意力网络的审计制度依据问答方法 Download PDFInfo
- Publication number
- CN114186068A CN114186068A CN202111303356.9A CN202111303356A CN114186068A CN 114186068 A CN114186068 A CN 114186068A CN 202111303356 A CN202111303356 A CN 202111303356A CN 114186068 A CN114186068 A CN 114186068A
- Authority
- CN
- China
- Prior art keywords
- entities
- candidate
- entity
- attention
- audit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012550 audit Methods 0.000 title claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 20
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多级注意力网络的审计制度依据问答方法,包括以下步骤:步骤1)提取审计问题描述的主题词;基于LDA主题提取模型获得问题描述中的主题实体;步骤2)生成候选实体集;步骤3)文本编码表示;步骤4)多级注意力计算;步骤5)候选实体评分排序并返回制度依据。该方法针对电力审计问题结合审计知识图谱,采用多级注意力联合编码问题描述和候选实体的特征表示,从候选实体中选择评分最高的实体作为待查询审计问题的制度依据返回答案。该发明可以缓解电力审计中长文本实体带来语义空间较大的问题,有利于减轻审计工作者日常工作负担、提升工作效率。
Description
技术领域
本发明涉及电力审计技术领域,具体为一种基于多级注意力网络的审计制度依据问答方法。
背景技术
审计是对国家政府部门、企业事业组织等公司在进行重大项目以及财务收支前后进行审查的重要环节。在审计工作过程中,审查人员需要根据国家法律法规、审计准则、省市及地方规定、公司规章制度等文件对被审计单位的经营管理活动、财务财政收支等方面的合法性、合规性、真实性、正确性进行监督和审查。由于审计工作需要查阅的法律制度文件数量庞大、种类繁多,且业务流程繁琐,因此审计人员的工作效率较低。为降低审计工作人员负担、提升工作效率,开发一种针对审计业务自动问答查找的系统迫在眉睫。
近几年,随着信息化时代的到来,研究者们提出将无结构化的知识进行结构化存储。一些研究提出使用知识图谱是一种常见的基于图的结构化知识存储方式,目前已经广泛应用到问答、对话、推理等多个研究领域。知识图谱以节点和边构成,其中每个节点表示一个实体,连接节点的边表示两个实体之间的关系,通常以三元组(“实体1-关系-实体2”)的形式进行存储,例如“中国,首都,北京”。按照知识图谱的覆盖范围分类,现有知识图谱可以分为通用知识图谱和行业知识图谱,通用知识图谱涉及互联网信息、百科知识等方面面向全领域,而行业知识图谱则是面向某一专业领域根据专业知识构建,如医学、电商等。目前,国内外面向审计的行业知识图谱研究仍处于起步阶段。
现有知识图谱问答的方法主要分为两大类:基于语义解析的方法和基于信息检索的方法。基于语义解析的方法试图将自然语言问题转换为逻辑表达式,然后再将其转化为可以在知识图中执行的描述性语言。早期研究使用手工设计的规则和特征,此外还有一些研究基于弱监督方法利用外部资源辅助生成问答结果。近期,一些基于语义解析的方法也融入了部分基于信息检索的技术,通过计算两个序列的相似性作为特征,利用基于神经网络的答案类型预测模型,或者端到端训练神经符号。然而,该方法基于符号逻辑,符号的匹配会造成语义鸿沟问题,限制了它们的可伸缩性和可移植性。
基于信息检索的方法首先会确定用户问题中的实体提及词,然后链接到知识库中的主题实体,并将与主题实体相关的子图提取出来作为候选答案集合,然后分别从问题和候选答案中抽取特征,最后利用排序模型对问题和候选答案进行建模并预测。Bordes等人提出了子图嵌入的思想,对候选答案的更多信息进行编码,例如答案路径和上下文信息。此后,一些研究使用记忆网络存储候选答案实体,并可以迭代访问进行多跳推理。这些工作大多使用词袋模型来编码问题和知识库资源。近年来,一些研究利用外部知识来源实现了更好的问答效果。此外,Hao等人提出了一种交叉注意机制,根据候选答案的各个方面对问题进行编码。
审计制度依据问答需要根据输入的待审计事实描述返回知识库中相关法律以及制度依据的条例内容,不同于常见的知识图谱问答工作中实体一般为名词、名词短语或者事件,审计知识图谱中实体一般为长文本,即一条法律或制度细则的原文,部分实体可能是一段话。此外,常见的知识图谱问答任务大多存在丰富的关系,需要多跳查询或推理,而审计制度依据问答任务中实体之间关系较弱。因此,现有基于知识图谱问答的研究聚焦于名词短语实体的查找和关系路径的推理研究,并不能良好适应于该任务,需要设计任务导向的制度依据问答系统。
发明内容
本发明的目的在于克服现有技术的不足之处,提供一种基于多级注意力网络的审计制度依据问答方法,该方法针对电力审计问题结合审计知识图谱,采用多级注意力联合编码问题描述和候选实体的特征表示,从候选实体中选择评分最高的实体作为待查询审计问题的制度依据返回答案。该发明可以缓解电力审计中长文本实体带来语义空间较大的问题,有利于减轻审计工作者日常工作负担、提升工作效率。
一种基于多级注意力网络的审计制度依据问答方法,包括以下步骤:
步骤1)提取审计问题描述的主题词;基于LDA主题提取模型获得问题描述中的主题实体;
步骤2)生成候选实体集;
步骤3)文本编码表示;
步骤4)多级注意力计算;
步骤5)候选实体评分排序并返回制度依据。
而且,步骤2)中包括以下子步骤:
步骤2.1)根据步骤1)得到的主题实体查找知识库中的实体存入候选实体集中;
步骤2.2)根据步骤2.1)找到的实体,将其2跳连接内的实体扩展到候选实体集中。
而且,步骤3)中包括以下子步骤:
步骤3.1)对问题描述进行词嵌入编码;
步骤3.2)基于步骤3.1)得到的问题描述词嵌入编码,采用双向长短期记忆网络进行编码;
步骤3.3)对候选实体集中的实体进行编码。
而且,步骤4)中包括以下子步骤:
步骤4.1)基于候选实体集对问题描述语义向量执行注意力运算;
步骤4.2)基于步骤4.1)生成的问题描述语义向量对候选实体集的语义向量执行注意力运算。
而且,步骤5)中包括以下子步骤:
步骤5.1)基于步骤4)得到的问题描述特征对候选实体中各实体的特征计算得分;
步骤5.2)返回步骤5.1)中得分最高的实体作为查询结果。
本发明的优点和技术效果是:
本发明的一种基于多级注意力网络的审计制度依据问答方法,面向电力审计问题,有针对性地提出了一种基于多级注意力网络的审计制度依据问答方法,返回审计问题相关的制度依据,解决了人工查询制度依据工作繁琐、效率低下的问题,降低了审计工作人员的工作负担。
本发明基于主题实体获取知识库子图并采用多级注意力机制,缓解长文本实体带来语义空间较大的问题。
本发明采用多级注意力机制,不仅能够利用问题描述计算候选实体集中的制度语义向量表示,获得实体候选集中和问题语义相关性较高的制度实体,同时能够基于不同候选制度的语义向量多方面计算问题描述的语义表示,更好地理解长文本问题和制度实体的语义信息。
附图说明
图1为本发明的路线框图。
具体实施方式
为能进一步了解本发明的内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。需要说明的是,本实施例是描述性的,不是限定性的,不能由此限定本发明的保护范围。
一种基于多级注意力网络的审计制度依据问答方法,包括以下步骤:
步骤1)提取审计问题描述的主题词;基于LDA主题提取模型获得问题描述中的主题实体;
步骤2)生成候选实体集;
步骤3)文本编码表示;
步骤4)多级注意力计算;
步骤5)候选实体评分排序并返回制度依据。
而且,步骤2)中包括以下子步骤:
步骤2.1)根据步骤1)得到的主题实体查找知识库中的实体存入候选实体集中;
步骤2.2)根据步骤2.1)找到的实体,将其2跳连接内的实体扩展到候选实体集中。
而且,步骤3)中包括以下子步骤:
步骤3.1)对问题描述进行词嵌入编码;
步骤3.2)基于步骤3.1)得到的问题描述词嵌入编码,采用双向长短期记忆网络进行编码;
步骤3.3)对候选实体集中的实体进行编码。
而且,步骤4)中包括以下子步骤:
步骤4.1)基于候选实体集对问题描述语义向量执行注意力运算;
步骤4.2)基于步骤4.1)生成的问题描述语义向量对候选实体集的语义向量执行注意力运算。
而且,步骤5)中包括以下子步骤:
步骤5.1)基于步骤4)得到的问题描述特征对候选实体中各实体的特征计算得分;
步骤5.2)返回步骤5.1)中得分最高的实体作为查询结果。
本发明的详细步骤如下:
本发明提出一种基于多级注意力网络的审计制度依据问答方法,针对电力审计问题结合审计知识图谱,采用多级注意力联合编码问题描述和候选实体的特征表示,从候选实体中选择评分最高的实体作为待查询审计问题的制度依据返回答案。该发明可以缓解电力审计中长文本实体带来语义空间较大的问题,有利于减轻审计工作者日常工作负担、提升工作效率。
对于输入问题描述的词嵌入表示Q,使用双向长短期记忆网络进行编码,并连接前向隐藏状态序列和后向的隐藏状态序列获得问题描述中每个字的表示维度为d。对于候选实体集的编码采用问题描述编码同样的方式,编码后的表示为e。
本发明采用多级注意力机制,第一个注意力机制利用不同候选制度的语义向量多方面指导计算问题描述的语义表示,而后第二个注意力机制利用问题描述指导计算候选实体集中的制度语义向量表示,可以更好地理解长文本问题和制度实体的语义信息。
对于第一个注意力机制,不同的候选答案有助于问题描述更好地编码答案相关的内容,使用第i个候选答案的嵌入表示ei和问题描述中字的表示hj计算注意力权重:
wij=f(WT[hj;ei]+b), (1)
根据问题描述语义向量对每个候选实体向量计算得分:
最后,返回得分最高的制度依据实体作为审计问题的制度依据。
为了更清楚地描述本申请的具体实施方式,下面提供一种实施例:
实施例1:
对于待查询问题“经抽查,xxxx未按照规定将14户220千伏用户的30块0.5S精度电能表更换成0.2S级。以xxxx有限公司4块电能表为例,现场检测精度报告(规定每半年现场检测一次)显示未达到0.2S级,经估算共造成258.06万千瓦时电量误差。2017~2018年,上述30块电能表只有5块按照规定使用检测台完成数据检测,其余电能表长期未出具有效检测结果。”,首先提取主题实体“电能”,而后在知识库中找到相关实体“电能计量装置技术管理规程”(制度名称),将该实体2跳连接内的实体(含《电能计量装置技术管理规程》中的每一条制度)加入到候选实体集中。基于词嵌入和双向长短期记忆网络对问题描述进行编码,同时对候选实体进行编码。使用多级注意力模块对问题描述向量和实体向量联合编码,而后计算候选实体集中实体的得分,最后得分最高的制度依据实体为“准确度等级......I类有功电能表精度0.2S,Ⅱ类有功电能表精度0.5S,Ⅲ类有功电能表精度0.5S,Ⅳ类有功电能表精度1S,Ⅴ类有功电能表精度2S……”(《电能计量装置技术管理规程》(DL/T 448-2016)第6.2条)。
最后,本发明的未述之处均采用现有技术中的成熟产品及成熟技术手段。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (5)
1.一种基于多级注意力网络的审计制度依据问答方法,其特征在于,包括以下步骤:
步骤1)提取审计问题描述的主题词;基于LDA主题提取模型获得问题描述中的主题实体;
步骤2)生成候选实体集;
步骤3)文本编码表示;
步骤4)多级注意力计算;
步骤5)候选实体评分排序并返回制度依据。
2.根据权利要求1所述的一种基于多级注意力网络的审计制度依据问答方法,其特征在于:所述步骤2)中包括以下子步骤:
步骤2.1)根据步骤1)得到的主题实体查找知识库中的实体存入候选实体集中;
步骤2.2)根据步骤2.1)找到的实体,将其2跳连接内的实体扩展到候选实体集中。
3.根据权利要求1所述的一种基于多级注意力网络的审计制度依据问答方法,其特征在于:所述步骤3)中包括以下子步骤:
步骤3.1)对问题描述进行词嵌入编码;
步骤3.2)基于步骤3.1)得到的问题描述词嵌入编码,采用双向长短期记忆网络进行编码;
步骤3.3)对候选实体集中的实体进行编码。
4.根据权利要求1所述的一种基于多级注意力网络的审计制度依据问答方法,其特征在于:所述步骤4)中包括以下子步骤:
步骤4.1)基于候选实体集对问题描述语义向量执行注意力运算;
步骤4.2)基于步骤4.1)生成的问题描述语义向量对候选实体集的语义向量执行注意力运算。
5.根据权利要求1所述的一种基于多级注意力网络的审计制度依据问答方法,其特征在于:所述步骤5)中包括以下子步骤:
步骤5.1)基于步骤4)得到的问题描述特征对候选实体中各实体的特征计算得分;
步骤5.2)返回步骤5.1)中得分最高的实体作为查询结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111303356.9A CN114186068A (zh) | 2021-11-04 | 2021-11-04 | 一种基于多级注意力网络的审计制度依据问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111303356.9A CN114186068A (zh) | 2021-11-04 | 2021-11-04 | 一种基于多级注意力网络的审计制度依据问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114186068A true CN114186068A (zh) | 2022-03-15 |
Family
ID=80540694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111303356.9A Pending CN114186068A (zh) | 2021-11-04 | 2021-11-04 | 一种基于多级注意力网络的审计制度依据问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114186068A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118113817A (zh) * | 2024-05-06 | 2024-05-31 | 天津电力工程监理有限公司 | 审计引用制度依据密集检索与重排序方法、系统和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
CN111782769A (zh) * | 2020-07-01 | 2020-10-16 | 重庆邮电大学 | 基于关系预测的知识图谱智能问答方法 |
CN112364132A (zh) * | 2020-11-12 | 2021-02-12 | 苏州大学 | 基于依存句法的相似度计算模型和系统及搭建系统的方法 |
CN112836017A (zh) * | 2021-02-09 | 2021-05-25 | 天津大学 | 一种基于分层主题驱动的自注意力机制的事件检测方法 |
-
2021
- 2021-11-04 CN CN202111303356.9A patent/CN114186068A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
CN111782769A (zh) * | 2020-07-01 | 2020-10-16 | 重庆邮电大学 | 基于关系预测的知识图谱智能问答方法 |
CN112364132A (zh) * | 2020-11-12 | 2021-02-12 | 苏州大学 | 基于依存句法的相似度计算模型和系统及搭建系统的方法 |
CN112836017A (zh) * | 2021-02-09 | 2021-05-25 | 天津大学 | 一种基于分层主题驱动的自注意力机制的事件检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118113817A (zh) * | 2024-05-06 | 2024-05-31 | 天津电力工程监理有限公司 | 审计引用制度依据密集检索与重排序方法、系统和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241258B (zh) | 一种应用税务领域的深度学习智能问答系统 | |
CN112650840A (zh) | 一种基于知识图谱推理的医疗智能问答处理方法及系统 | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
Burel et al. | Automatic identification of best answers in online enquiry communities | |
CN110543557A (zh) | 一种基于注意力机制的医疗智能问答系统的构建方法 | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
CN101908042A (zh) | 一种双语联合语义角色的标注方法 | |
CN106407208A (zh) | 一种城市管理本体知识库的构建方法及系统 | |
CN110390049B (zh) | 一种面向软件开发问题的答案自动生成方法 | |
Giorgetti et al. | Automating survey coding by multiclass text categorization techniques | |
KR20200145299A (ko) | 온라인 면접 동영상 분석 및 소셜미디어 정보분석 기반 지능형 채용지원 플랫폼 | |
CN116562265A (zh) | 一种信息智能解析方法、系统及存储介质 | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
Zhao | RETRACTED ARTICLE: Application of deep learning algorithm in college English teaching process evaluation | |
CN113761192B (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
CN105160046A (zh) | 基于文本的数据检索方法 | |
CN114186068A (zh) | 一种基于多级注意力网络的审计制度依据问答方法 | |
CN111507108B (zh) | 别名生成方法、装置、电子设备及计算机可读存储介质 | |
CN117609477A (zh) | 一种基于领域知识的大模型问答方法和装置 | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
CN110909174B (zh) | 一种基于知识图谱的简单问答中实体链接的改进方法 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
Gupta et al. | Hybrid approach for Punjabi question answering system | |
Karpagam et al. | A mobile based intelligent question answering system for education domain | |
Guariso et al. | Automatic SDG budget tagging: Building public financial management capacity through natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |