CN116860927A - 一种基于知识图谱的审计指引智能问答方法、系统及设备 - Google Patents

一种基于知识图谱的审计指引智能问答方法、系统及设备 Download PDF

Info

Publication number
CN116860927A
CN116860927A CN202310701280.8A CN202310701280A CN116860927A CN 116860927 A CN116860927 A CN 116860927A CN 202310701280 A CN202310701280 A CN 202310701280A CN 116860927 A CN116860927 A CN 116860927A
Authority
CN
China
Prior art keywords
audit
data
graph
knowledge graph
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310701280.8A
Other languages
English (en)
Inventor
曹培祥
时亮
刘尧
程品龙
鲍晓
王群
王美芳
张清
张凌峰
郑倩倩
李正辉
任嘉
储保平
吕小杰
解伟
赵承康
邓小明
汪子林
鲍卿
刘菲
侯凤
吕衍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Integrated Service Center of State Grid Anhui Electric Power Co Ltd
Original Assignee
Integrated Service Center of State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Integrated Service Center of State Grid Anhui Electric Power Co Ltd filed Critical Integrated Service Center of State Grid Anhui Electric Power Co Ltd
Priority to CN202310701280.8A priority Critical patent/CN116860927A/zh
Publication of CN116860927A publication Critical patent/CN116860927A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于知识图谱的审计指引智能问答方法,涉及数字化审计领域。本发明通过知识图谱框架结构设计和ETL数据仓库技术,对优化营商环境审计工作中需要关注的审计业务数据进行提取、清洗和转换,实现多种业务数据的融合,为智能问答提供数据支撑;通过构建智能问答系统,结合审计人员真实业务场景设计多任务导向,利用分词模块、匹配模块和查询模块实现基于知识图谱的优化营商环境审计指引智能问答,减轻审计过程工作量,将审计人员从繁杂重复的工作中解脱出来,将更多的精力投入到辨识风险、深挖问题、分析根源方面,可有效促进审计工作效率和审计质量提升。

Description

一种基于知识图谱的审计指引智能问答方法、系统及设备
技术领域
本发明涉及数字化审计技术领域,特别是涉及一种基于知识图谱的审计指引智能问答方法、系统及设备。
背景技术
相较于传统审计,数字化审计拥有保障审计工作质量、审计机关能够有效履行职责等优点。近年来,审计系统越来越借助信息论和系统论的研究成果开展审计工作,构建数字化审计平台成为深化审计信息化建设发展的有效途径和必经之路。因此如何将业审融合的理念融入到数字化审计工作的开展过程当中,是企业在提高内部审计效益和效率时需要重点关注的问题。然而在数字化审计推进过程中,审计工作产生的数据呈指数级增长,数据来源也更加多元,业务数据存储在不同业务信息管理系统和其对应数据库中,存在多源异构、数据冗余、关联度差、资源共享及跨专业复用效率低等问题。审计人员往往需要依靠自己的专业知识了解、熟悉企业内部的各种管理系统后才能开展审计工作,获取到自己需要的审计信息,导致审计工作繁杂重复、效率低下。
发明内容
针对上述背景技术中提出的问题,本发明提供一种基于知识图谱的审计指引智能问答方法、系统及设备,以减轻审计过程工作量,提高企业内部审计工作效率。
为实现上述目的,本发明提供了如下方案:
一方面,本发明提供一种基于知识图谱的审计指引智能问答方法,包括:
收集企业内部优化营商环境相关的审计业务数据并设计出审计知识图谱结构;所述审计业务数据包括智慧审计三库、中间表和审计模型库数据;
通过ETL数据仓库技术将审计知识图谱结构中包括的审计业务数据进行融合,构建出Neo4j图数据库;
获取用户问句并进行分词,对分词结果进行依存句法分析,得出意图关键词组合;
利用精准匹配和模糊匹配算法将意图关键词组合与Neo4j图数据库中的图谱数据进行匹配,得到候选实体和属性集;
将候选实体和属性集填充至查询模板形成Cypher查询语句,通过查询Neo4j图数据库返回查询结果。
可选地,所述收集企业内部优化营商环境相关的审计业务数据并设计出审计知识图谱结构,具体包括:
收集企业内部优化营商环境相关的智慧审计三库、中间表和审计模型库数据作为审计业务数据;
将审计业务数据划分为模型库、方法库、问题库、字段和中间表5类实体,将各实体表格中的字段设计为实体的属性,将各实体之间的业务联系设计为边,构建出审计知识图谱结构。
可选地,所述通过ETL数据仓库技术将审计知识图谱结构中包括的审计业务数据进行融合,构建出Neo4j图数据库,具体包括:
通过ETL数据仓库技术对审计知识图谱结构中包括的审计业务数据进行抽取、清洗和转换,然后编写cypher语句将数据储存至Neo4j图数据库中作为图谱数据,构建出Neo4j图数据库。
可选地,所述获取用户问句并进行分词,对分词结果进行依存句法分析,得出意图关键词组合,具体包括:
通过jieba分词工具加载停用词库、同义词库和领域词库对用户问句进行分词,得到分词结果;
调用依存句法分析模型对分词结果进行智能分析,得出意图关键词组合。
可选地,所述利用精准匹配和模糊匹配算法将意图关键词组合与Neo4j图数据库中的图谱数据进行匹配,得到候选实体和属性集,具体包括:
对于意图关键词组合中正确拆分的关键词,利用精准匹配算法读取Neo4j图数据库中的图谱数据,将图谱存储的实体属性词转化为词列表,编写程序将意图关键词与图谱存储的实体属性词列表进行比较,完全相同的存储到候选实体和属性集;
对于意图关键词组合中未正确拆分的关键词,利用模糊匹配算法读取Neo4j图数据库中的图谱数据,编写程序将意图关键词与图谱存储的实体属性词列表进行比较,将相似度达到70%的存储到候选实体和属性集。
可选地,所述将候选实体和属性集填充至查询模板形成Cypher查询语句之前,还包括:
结合审计业务场景设计多任务导向来构建查询模板;所述多任务导向包括审计模型方向、审计方法方向、审计中间表方向、审计字段方向、审计问题方向、审计依据方向和审计建议方向。
另一方面,本发明还提供一种基于知识图谱的审计指引智能问答系统,包括:
知识图谱设计模块,用于收集企业内部优化营商环境相关的审计业务数据并设计出审计知识图谱结构;所述审计业务数据包括智慧审计三库、中间表和审计模型库数据;
图数据库构建模块,用于通过ETL数据仓库技术将审计知识图谱结构中包括的审计业务数据进行融合,构建出Neo4j图数据库;
分词模块,用于获取用户问句并进行分词,对分词结果进行依存句法分析,得出意图关键词组合;
匹配模块,用于利用精准匹配和模糊匹配算法将意图关键词组合与Neo4j图数据库中的图谱数据进行匹配,得到候选实体和属性集;
查询模块,用于将候选实体和属性集填充至查询模板形成Cypher查询语句,通过查询Neo4j图数据库返回查询结果。
另一方面,本发明还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于知识图谱的审计指引智能问答方法。
可选地,所述存储器为非暂态计算机可读存储介质。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种基于知识图谱的审计指引智能问答方法、系统及设备,通过知识图谱框架结构设计和ETL数据仓库技术,对优化营商环境审计工作中需要关注的审计业务数据进行提取、清洗和转换,实现多种业务数据的融合,为智能问答提供数据支撑;通过构建智能问答系统,结合审计人员真实业务场景设计多任务导向,利用分词模块、匹配模块和查询模块实现基于知识图谱的优化营商环境审计指引智能问答,减轻审计过程工作量,将审计人员从繁杂重复的工作中解脱出来,将更多的精力投入到辨识风险、深挖问题、分析根源方面,可有效促进审计工作效率和审计质量提升,满足审计要求和企业战略需要。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于知识图谱的审计指引智能问答方法的流程图;
图2为本发明一种基于知识图谱的审计指引智能问答方法的整体构建思路示意图;
图3为审计知识图谱结构中各实体之间业务联系的示意图;
图4为对分词结果进行依存句法分析的示意图;
图5为依存句法分析模型分析的关系类型示意图;
图6为审计指引智能问答系统业务逻辑的审计业务导向图;
图7为审计指引智能问答系统进行自然语言问句处理的过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于知识图谱的审计指引智能问答方法,以减轻审计过程工作量,提高企业内部审计工作效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1和图2分别为本发明一种基于知识图谱的审计指引智能问答方法的流程图和整体构建思路示意图。参见图1和图2,一种基于知识图谱的审计指引智能问答方法,包括:
步骤1:收集企业内部优化营商环境相关的审计业务数据并设计出审计知识图谱结构。
知识图谱的快速发展,为智能问答系统的实现提供了高质量的知识来源,直接推动了问答系统在行业领域(如客服、医疗等)的发展。针对数字化审计中存在的问题,利用自然语言处理、知识图谱、智能问答等技术构建的知识图谱优化营商环境审计指引智能问答系统,可帮助审计人员准确快速地从海量审计信息中获取需要的知识,帮助企业提高内部审计工作效率,推进数字化审计转型,推进企业审计业务数字化建设。
本发明优化营商环境图谱构建主要分为图谱结构设计(步骤1)和ETL数据整合(步骤2)两步进行处理。如同新建常规数据库需要先设计数据表结构一样,在将数据导入Neo4j图数据库之前,需要先设计出知识图谱的框架体系(Schema),这一过程主要是根据业务逻辑和数据的特征设计定义出实体类别、属性类别和关系类别。之后根据业务数据和设计好的图谱结构,通过ETL数据仓库技术,将数据导入至Neo4j图数据库中,完成数据的存储和融合。其中,ETL是将业务系统的数据经过抽取、清洗、转换之后加载到指定数据库的过程,目的是将企业中分散、零乱、标准不统一的数据融合在一起,是构建知识图谱的关键步骤。
具体地,本发明首先收集企业内部优化营商环境相关的智慧审计三库、中间表和审计模型库等审计业务数据,由审计专家和技术专家分析数据之间的业务联系,将数据字段和业务联系转化为知识图谱的实体、属性和边,设计出审计知识图谱的结构。
其中,审计业务数据可以看做多个excel表格,每个表格被设计为一类实体,各个表格中的字段被设计成实体的属性,各表之间的业务联系设计为边。例如有模型库表、方法库表、问题库表、字段表、中间表等5类实体,其中问题库实体设计有问题描述、问题分类、政策依据、问题定性等属性,问题库的问题定性与模型库和方法库有业务关联,设计为边,如图3所示。具体实体及其对应属性如下表1所示。
表1审计知识图谱结构中的实体及对应属性表
步骤2:通过ETL数据仓库技术将审计知识图谱结构中包括的审计业务数据进行融合,构建出Neo4j图数据库。
基于步骤1设计的审计知识图谱结构,通过ETL数据仓库技术,将上述审计业务数据经过抽取、清洗、转换,存储至Neo4j图数据库中,完成审计业务数据融合。
ETL数据仓库技术通过编写java程序实现,导入数据前需要按照指定excel格式整理数据,编写java程序按照格式读取数据(抽取),同时过滤如空格、换行符、tab等符号(清洗),将整理后的数据从表格格式转换为图谱数据的格式存储为变量(转换),然后编写cypher语句(neo4j数据库指定查询语言)将数据储存到neo4j图数据库中。整个过程通过java语言根据数据业务逻辑编写逻辑程序实现。
步骤3:获取用户问句并进行分词,对分词结果进行依存句法分析,得出意图关键词组合。
本发明智能问答机制的构建主要分为分词(步骤3)、匹配(步骤4)和查询(步骤5)机制。分词机制作用是将用户问句拆解为一个或者多个关键词组合,需要停用词库、同义词库、领域词库和依存句法分析。停用词用来过滤用户问句中无意义的字或者词,例如逗号、冒号等标点符号和“啊”、“呢”等语气词。同义词库和领域词库则是由审计业务领域的专属词汇组成,如经济责任审计(同义词有经责审计)、资金管理检查(同义词有资金核查、资金管理审计等)、工程审计等,作用是帮助分词工具正确地拆分专业领域词汇。拆解完用户问句后,还需要依存句法分析模型来智能分析句子的成分和词语间的关系,由此才能得到最准确的意图关键词组合。
所述步骤3具体包括:
步骤3.1:通过jieba分词工具加载停用词库、同义词库和领域词库对用户问句进行分词,得到分词结果。
具体地,基于互联网GitHub平台下载NLP的中文停用词库,由审计专家整理出领域内专有名词和其同义词,转化为领域词库和同义词库,通过结巴(jieba)分词工具加载停用词库、同义词库和领域词库对用户问句进行分词,得到分词结果,再调用依存句法分析模型智能分析,得出意图关键词组合。
jieba分词是自然语言处理技术(NLP)中常用的分词工具,该分词工具能通过加载词库/词典实现指定用户词的拆分。通过加载停用词、同义词、领域词可以实现用户问句的拆分。
例如:
用户问句:资金管理是怎样管理的?
原始拆分:资金/管理/是/怎样/管理/的?
加载领域词后的拆分:资金管理/是/怎样/管理/的?
步骤3.2:调用依存句法分析模型对分词结果进行智能分析,得出意图关键词组合。
依存句法分析模型是一个深度学习模型,通过加载可以将分词结果进行词语之间的关联。利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系),并用树状结构来表示整句的的结构(如主谓宾、定状补)等,如图4所示。依存句法分析模型分析的关系类型如图5所示。根据ATT/SBV/ADV/HED/POB等关系,编写指定逻辑程序将分词结果串联/并联,由2-3个词转换为1个词。
本发明调用的依存句法分析模型为DDParser开源模型,是百度NLP基于大规模标注数据和深度学习平台飞桨研发的中文依存句法分析工具,可帮助用户直接获取输入文本中的关联词对、长距离依赖词对等。
依存句法分析模型的具体分析过程举例如下:
依存句法分析成分为'ATT','MT','SBV','HED','VOB',"COO","ADV"等;句子拆分后,根据HED、SBV、VOB分别进行收集,得到HED、SBV、VOB三个结果集;1)当只有HED时,对剩余成分中"ATT","ADV","COO","MT"的词语进行整合;2)当有HED、VOB时,对"ATT","ADV","COO","MT","SBV","VOB","IC","POB"的词语进行整合;3)其余情况时,对"ATT","ADV","COO","MT"的词语进行整合。
步骤4:利用精准匹配和模糊匹配算法将意图关键词组合与Neo4j图数据库中的图谱数据进行匹配,得到候选实体和属性集。
设计精准匹配和模糊匹配算法,将步骤3得到的意图关键词组合与Neo4j图数据库中的图谱数据进行匹配,得到候选实体、属性集。匹配机制主要分为精准匹配和模糊匹配两个机制组成。首先对分词模块结果(意图关键词组合)进行精准匹配,对于正确拆分的结果,通过与图谱数据进行精准匹配即可确认其含义;对于未正确拆分的关键词,通过模糊匹配算法(一种多种相似度算法相结合的算法)与图谱数据进行模糊匹配,才能获取其真正含义,最终汇总得到候选实体、属性集。
其中,精准匹配过程如下:
读取图谱存储的实体属性词转化为词列表,编写程序将意图关键词与图谱存储的实体属性词列表进行比较,完全相同的存储到候选实体、属性集,本发明认为完全相同的词就是想要查找的候选实体/属性。
模糊匹配过程如下:
模糊匹配有很多算法,本发明采用了基于相似度、编辑距离融合的算法。输入一个词和待比较词列表,输出这个词与待比较词列表相似的概率(0-1)。编写程序将意图关键词与图谱存储的实体属性词列表进行比较,相似度达到70%的存储到候选实体、属性集。这里相似度阈值70%是经过多次问答调整出来的,匹配出的结果作为候选实体、属性集。
步骤5:将候选实体和属性集填充至查询模板形成Cypher查询语句,通过查询Neo4j图数据库返回查询结果。
查询机制主要由查询语句模板和场景任务导向组成。由审计专家结合审计业务场景设计问答的多任务导向,构建查询模板,再将步骤4的候选实体、属性集填充至查询模板形成Cypher查询语句,通过查询Neo4j图数据库返回用户需要的查询结果。
如图6所示,本发明审计业务的多任务导向主要包含以下7个方向:审计模型方向、审计方法方向、审计中间表方向、审计字段方向、审计问题方向、审计依据方向和审计建议方向。
(1)审计模型方向,是审计人员根据优化营商环境的具体审计事项,通过设定审计条件来建立起的审计规则,主要用于验证审计事项。审计人员输入关键词组合,通过选择列出的候选模型名称,获取该模型相关的审计模型信息,包括审计模型关联的审计中间表、模型检查方法、关联的审计问题信息(问题分类、事实描述、审计建议、审计依据)以及模型所在的第三方系统跳转链接。
(2)审计方法方向,是审计人员为了达到优化营商环境的审计目标而采取的各种手法。审计人员输入关键词组合,主要是获取审计智慧三库中的审计方法库信息,包含审计方法、资料需求、资料清单、重点主题、二级主题、三级主题、分工、具体数据、审计规则等,重点展示三级主题和审计方法内容。
(3)审计中间表方向,是利用企业数据库中的基础电子数据,按照优化营商环境的审计要求构建的数字化审计分析工具。审计人员输入关键词组合,获取审计中间表的信息,结合知识图谱获取关联的审计模型,展示审计模型名称和中间表名称。
(4)审计字段方向,是审计中间表中审计数据存储的具体数据和类型信息。审计人员输入关键词组合,获取审计中间表中审计字段的基本信息,结合知识图谱展示关联的审计模型、审计中间表、审计字段。
(5)审计问题方向,审计人员审计企业优化营商环境过程中发现的各种问题。审计人员输入关键词组合,获取审计智慧三库中的审计问题库基本信息,展示问题分类、事实描述、审计建议、审计依据信息。
(6)审计依据方向,是优化营商环境审计时所依靠的标准,这里主要指国家和企业内部的法律法规、规章制度等。审计人员输入关键词组合,获取审计问题库中的审计依据部分信息,结合知识图谱关联的审计问题,展示审计问题和审计依据。
(7)审计建议方向,指针对企业优化营商环境存在的审计问题,由审计人员所提出的改进措施。审计人员输入关键词组合,获取审计问题库中的审计建议部分信息,结合知识图谱关联的审计问题,展示审计问题和审计建议。
图6展示了各个审计业务方向,用户通过系统界面选择确认自己的意图。例如:选择“审计模型”,则意图确认为审计模型方向,根据后续的选项不断确认槽位。
槽位举例:
1.用户输入问句,查询审计模型;
需要槽位:审计模型选项;
2.用户输入问句,查询审计模型的审计问题;
需要槽位:审计模型选项、审计模型名称、审计问题选项。
根据用户的不同选择,填充好槽位置后,编写cypher查询语句,例如:查询“A”模型的“审计问题”Cypher查询语句为:
"match(n:`模型库`)-[r:`模型2问题`]-(m:`问题库`)where n.name="A"return distinctm.name"
即查询模型库中名称为A的关联的问题库名称。
本发明优化营商环境审计指引智能问答机制,向上基于自然语言处理技术能够理解用户对数据的使用意图,向下基于知识图谱知识关联特性能够理解底层数据与数据之间的逻辑关系,同时将审计业务专家经验知识固化至构建的应用模型,将传统审计经验知识进行全面转化,并通过问答方式,实现智能化、便捷化指引审计人员审好优化营商环境,对提升审计工作效率,推动基于数字化转型的智慧审计知识体系构建都具有积极意义。
本发明审计指引智能问答机制也可用于企业其他审计业务场景。利用本发明提出的知识图谱智能问答机制,可以帮助企业完成传统的多元异构审计知识融合,审计人员可通过智能问答方式从多个层级、多个角度获得审计工作指引,发挥了各个审计知识数据在引导审计人员中的价值,在提升审计效率、解决信任危机、提高审计实时性等方面发挥关键技术支撑作用,进一步提升审计质效,强化审计全面性、科学性、精确性。
基于本发明提供的方法,本发明还提供一种基于知识图谱的审计指引智能问答系统,包括:
知识图谱设计模块,用于收集企业内部优化营商环境相关的审计业务数据并设计出审计知识图谱结构;所述审计业务数据包括智慧审计三库、中间表和审计模型库数据;
图数据库构建模块,用于通过ETL数据仓库技术将审计知识图谱结构中包括的审计业务数据进行融合,构建出Neo4j图数据库;
分词模块,用于获取用户问句并进行分词,对分词结果进行依存句法分析,得出意图关键词组合;
匹配模块,用于利用精准匹配和模糊匹配算法将意图关键词组合与Neo4j图数据库中的图谱数据进行匹配,得到候选实体和属性集;
查询模块,用于将候选实体和属性集填充至查询模板形成Cypher查询语句,通过查询Neo4j图数据库返回查询结果。
描述于本发明的一些实施例中的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括知识图谱设计模块、图数据库构建模块、分词模块、匹配模块和查询模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,知识图谱设计模块还可以被描述为“设计知识图谱结构的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
图7示出了采用本发明基于知识图谱的审计指引智能问答系统进行智能问答自然语言问句处理的过程,如图7所示,具体过程包括:
S1:用户输入自然语言问句,使用结巴分词工具首先加载停用词库过滤掉无意义的停用词,然后加载领域词库和同义词库,对问句进行精准分词,得到初步的分词结果;加载依存句法分析模型,对分词结果进行句式和语法分析,转化成为意图关键词组合。
S2:将上一步的意图关键词组合与图谱数据进行精准匹配,得到一部分确认的实体、属性集,之后再进行模糊匹配,模糊匹配算法由LSA、LDA和TF-IDF三种算法组成,三者按照长度动态分配权重,用于解决单个相似度算法在超长文本匹配结果上不符合实际结果的问题,根据权重重新计算三种算法的匹配结果得分,汇总得出最终的候选实体、属性集。
现将LSA、LDA和TF-IDF三种模糊匹配算法举例说明如下:
意图关键词组合中有一个词叫“资金检”,这里词的长度为3,设置LSA、LDA和TF-IDF权重为0.3、0.3、0.4,将其模糊匹配的结果得分,按照这个权重计算,汇总得到整体结果,取排名第一的结果作为最终的匹配结果,即“资金检查”。
LSA、LDA和TF-IDF三种算法按照长度动态分配权重如下:
长度为10以内,权重设置0.3、0.3、0.4;
长度为10-20,权重设置0.4、0.4、0.2;
长度为20及以上,权重设置0.6、0.2、0.2。
S3:根据审计业务场景任务导向,将候选实体、属性集填充至查询模板,形成Cypher查询语句,查询图谱得出问句答案。
通过以上过程,实现了优化营商环境审计指引的智能问答系统。其中问答数据来源于数据融合后的知识图谱知识库,立足于具体业务场景,结合任务导向为审计人员提供智能指引,大大缩短了审计人员获取审计信息的时间,提升了审计效率,并提高了审计质量。
进一步地,本发明还提供一种电子设备,该电子设备可以包括:处理器、通信接口、存储器和通信总线。其中,处理器、通信接口、存储器通过通信总线完成相互间的通信。处理器可以调用存储器中的计算机程序,以执行所述的基于知识图谱的审计指引智能问答方法。
此外,上述的存储器中的计算机程序通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非暂态计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
本发明提出的一种基于知识图谱的审计指引智能问答方法、系统及设备,提出了“图谱设计-数据导入-智能问答”的整体构建思路,通过图谱结构设计和ETL数据仓库等技术,对优化营商环境审计中涉及的表格数据和内部数据库数据进行融合,同时结合审计业务场景设计多任务导向,构建智能问答系统,实现智能化、便捷化指引审计人员审好优化营商环境,对提升审计工作效率,推动基于数字化转型的智慧审计知识体系构建都具有积极意义。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种基于知识图谱的审计指引智能问答方法,其特征在于,包括:
收集企业内部优化营商环境相关的审计业务数据并设计出审计知识图谱结构;所述审计业务数据包括智慧审计三库、中间表和审计模型库数据;
通过ETL数据仓库技术将审计知识图谱结构中包括的审计业务数据进行融合,构建出Neo4j图数据库;
获取用户问句并进行分词,对分词结果进行依存句法分析,得出意图关键词组合;
利用精准匹配和模糊匹配算法将意图关键词组合与Neo4j图数据库中的图谱数据进行匹配,得到候选实体和属性集;
将候选实体和属性集填充至查询模板形成Cypher查询语句,通过查询Neo4j图数据库返回查询结果。
2.根据权利要求1所述的基于知识图谱的审计指引智能问答方法,其特征在于,所述收集企业内部优化营商环境相关的审计业务数据并设计出审计知识图谱结构,具体包括:
收集企业内部优化营商环境相关的智慧审计三库、中间表和审计模型库数据作为审计业务数据;
将审计业务数据划分为模型库、方法库、问题库、字段和中间表5类实体,将各实体表格中的字段设计为实体的属性,将各实体之间的业务联系设计为边,构建出审计知识图谱结构。
3.根据权利要求1所述的基于知识图谱的审计指引智能问答方法,其特征在于,所述通过ETL数据仓库技术将审计知识图谱结构中包括的审计业务数据进行融合,构建出Neo4j图数据库,具体包括:
通过ETL数据仓库技术对审计知识图谱结构中包括的审计业务数据进行抽取、清洗和转换,然后编写cypher语句将数据储存至Neo4j图数据库中作为图谱数据,构建出Neo4j图数据库。
4.根据权利要求1所述的基于知识图谱的审计指引智能问答方法,其特征在于,所述获取用户问句并进行分词,对分词结果进行依存句法分析,得出意图关键词组合,具体包括:
通过jieba分词工具加载停用词库、同义词库和领域词库对用户问句进行分词,得到分词结果;
调用依存句法分析模型对分词结果进行智能分析,得出意图关键词组合。
5.根据权利要求1所述的基于知识图谱的审计指引智能问答方法,其特征在于,所述利用精准匹配和模糊匹配算法将意图关键词组合与Neo4j图数据库中的图谱数据进行匹配,得到候选实体和属性集,具体包括:
对于意图关键词组合中正确拆分的关键词,利用精准匹配算法读取Neo4j图数据库中的图谱数据,将图谱存储的实体属性词转化为词列表,编写程序将意图关键词与图谱存储的实体属性词列表进行比较,完全相同的存储到候选实体和属性集;
对于意图关键词组合中未正确拆分的关键词,利用模糊匹配算法读取Neo4j图数据库中的图谱数据,编写程序将意图关键词与图谱存储的实体属性词列表进行比较,将相似度达到70%的存储到候选实体和属性集。
6.根据权利要求1所述的基于知识图谱的审计指引智能问答方法,其特征在于,所述将候选实体和属性集填充至查询模板形成Cypher查询语句之前,还包括:
结合审计业务场景设计多任务导向来构建查询模板;所述多任务导向包括审计模型方向、审计方法方向、审计中间表方向、审计字段方向、审计问题方向、审计依据方向和审计建议方向。
7.一种基于知识图谱的审计指引智能问答系统,其特征在于,包括:
知识图谱设计模块,用于收集企业内部优化营商环境相关的审计业务数据并设计出审计知识图谱结构;所述审计业务数据包括智慧审计三库、中间表和审计模型库数据;
图数据库构建模块,用于通过ETL数据仓库技术将审计知识图谱结构中包括的审计业务数据进行融合,构建出Neo4j图数据库;
分词模块,用于获取用户问句并进行分词,对分词结果进行依存句法分析,得出意图关键词组合;
匹配模块,用于利用精准匹配和模糊匹配算法将意图关键词组合与Neo4j图数据库中的图谱数据进行匹配,得到候选实体和属性集;
查询模块,用于将候选实体和属性集填充至查询模板形成Cypher查询语句,通过查询Neo4j图数据库返回查询结果。
8.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于知识图谱的审计指引智能问答方法。
9.根据权利要求8所述的电子设备,其特征在于,所述存储器为非暂态计算机可读存储介质。
CN202310701280.8A 2023-06-14 2023-06-14 一种基于知识图谱的审计指引智能问答方法、系统及设备 Pending CN116860927A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310701280.8A CN116860927A (zh) 2023-06-14 2023-06-14 一种基于知识图谱的审计指引智能问答方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310701280.8A CN116860927A (zh) 2023-06-14 2023-06-14 一种基于知识图谱的审计指引智能问答方法、系统及设备

Publications (1)

Publication Number Publication Date
CN116860927A true CN116860927A (zh) 2023-10-10

Family

ID=88222471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310701280.8A Pending CN116860927A (zh) 2023-06-14 2023-06-14 一种基于知识图谱的审计指引智能问答方法、系统及设备

Country Status (1)

Country Link
CN (1) CN116860927A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117670264A (zh) * 2024-02-01 2024-03-08 武汉软件工程职业学院(武汉开放大学) 一种会计数据自动流程化处理系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117670264A (zh) * 2024-02-01 2024-03-08 武汉软件工程职业学院(武汉开放大学) 一种会计数据自动流程化处理系统及方法
CN117670264B (zh) * 2024-02-01 2024-04-19 武汉软件工程职业学院(武汉开放大学) 一种会计数据自动流程化处理系统及方法

Similar Documents

Publication Publication Date Title
US11250033B2 (en) Methods, systems, and computer program product for implementing real-time classification and recommendations
US11520975B2 (en) Lean parsing: a natural language processing system and method for parsing domain-specific languages
US11086601B2 (en) Methods, systems, and computer program product for automatic generation of software application code
US10705796B1 (en) Methods, systems, and computer program product for implementing real-time or near real-time classification of digital data
US9910886B2 (en) Visual representation of question quality
US10467122B1 (en) Methods, systems, and computer program product for capturing and classification of real-time data and performing post-classification tasks
US11948113B2 (en) Generating risk assessment software
US9672490B2 (en) Procurement system
Abdelnabi et al. Generating UML class diagram using NLP techniques and heuristic rules
Moreno-Schneider et al. Orchestrating NLP services for the legal domain
US20160267085A1 (en) Providing answers to questions having both rankable and probabilistic components
US11699034B2 (en) Hybrid artificial intelligence system for semi-automatic patent infringement analysis
Rizun et al. Assessing business process complexity based on textual data: Evidence from ITIL IT ticket processing
Ilievski et al. Commonsense knowledge in wikidata
Quirchmayr et al. Semi-automatic rule-based domain terminology and software feature-relevant information extraction from natural language user manuals: An approach and evaluation at Roche Diagnostics GmbH
US10074447B1 (en) Rationale generation management
CN116860927A (zh) 一种基于知识图谱的审计指引智能问答方法、系统及设备
Carrion et al. A taxonomy generation tool for semantic visual analysis of large corpus of documents
Palchunov et al. Automated methods for conducting an argumented dialogue with the user
CN114417010A (zh) 面向实时工作流的知识图谱构建方法、装置和存储介质
KR20230025102A (ko) 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치
CN113095078A (zh) 关联资产确定方法、装置和电子设备
Antonelli et al. Early identification of crosscutting concerns with the Language Extended Lexicon
US20200042594A1 (en) Proposition identification in natural language and usage thereof
Manandhar et al. Towards Automated Regulation Analysis for Effective Privacy Compliance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination