CN113836313A - 一种基于图谱的审计信息识别方法与系统 - Google Patents

一种基于图谱的审计信息识别方法与系统 Download PDF

Info

Publication number
CN113836313A
CN113836313A CN202111070221.2A CN202111070221A CN113836313A CN 113836313 A CN113836313 A CN 113836313A CN 202111070221 A CN202111070221 A CN 202111070221A CN 113836313 A CN113836313 A CN 113836313A
Authority
CN
China
Prior art keywords
entity
keyword
information
data
audit information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111070221.2A
Other languages
English (en)
Other versions
CN113836313B (zh
Inventor
张莉
王磊
王宁宁
李卓松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202111070221.2A priority Critical patent/CN113836313B/zh
Publication of CN113836313A publication Critical patent/CN113836313A/zh
Application granted granted Critical
Publication of CN113836313B publication Critical patent/CN113836313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图谱的审计信息识别方法、系统及装置,该方法包括:获取与审计信息相关的信息和数据;根据获取的所述与审计信息相关的信息和数据,确定审计信息关联指数,所述审计信息关联指数用于表征获取的审计信息之间的关联程度;根据所述审计信息关联指数,确定与审计信息有关的第一关联信息,或者通过审计信息关联指数的预设阈值,筛选出与审计信息有关的第二关联信息,其中,所述第一关联信息的范围大于等于所述第二关联信息的范围。本发明通过科学合理的审计信息识别方法,能够快速准确地识别出与审计信息相关的显性和隐性关系,以及对应的各种基础信息和隐藏信息。

Description

一种基于图谱的审计信息识别方法与系统
技术领域
本发明属于信息识别技术领域,特别涉及一种基于图谱的审计信息识别方法、系统及装置。
背景技术
审计工作亦称审计活动,广义指审计监督检查、综合管理、教育培训、科研宣传等一切审计业务活动的总称。具体内容包括:审核检查会计和有关资料的真实性、正确性、完整性和公允性;审查和评价财政预算、财务计算以及经营决策方案制订和执行情况;审核检查经济活动的合法性、合理性及其有效性;审查和评价内部控制制度的健全性和有效性,促进经营管理水平的提高;审查和鉴证有关经济效益和经济活动,为信息需要者提供服务。因此,审计工作对于促进国家计划的实现,合理利用资源,提高经济效益有极其重要的作用。
目前,在传统审计工作中,往往采取业务驱动数据的模式,限制了审计工作的效率,并且在分析处理数据方面片面且效率较低,还存在财务舞弊的可能性,也不易于发现隐藏的审计线索。比如,在传统的银行业风险管理流程中,多通过对目标主体的特征进行严格审核,例如:负债、资产状况、现金流水等方面,但是这些都无法判断主体间的关联风险。因此,传统审计模式在大数据时代已显疲态,审计智能化已经成为了行业未来发展的必然趋势。
虽然现在有部分企业、机构已逐渐开始利用大数据平台进行审计工作,但是,在实际审计工作中仍然存在审计信息获取后,无法识别出信息之间的隐形关系,或者识别出的显性和隐性关系不完全、不准确、有遗漏的情况,且审计数据间的关系也不能更加形象、直观的表现出来,并未将审计信息和数据库的结构结合起来处理和筛查数据,利用数据库进行大数据挖掘,系统全面的处理和分析审计信息的数据,自然对提高审计工作的效率、全面性和准确度方面均比较有限。因此,通过先进的技术手段提升审计效率和审计质量,加强薄弱的审计信息识别和数据处理,是亟待解决的问题。
发明内容
鉴于以上问题,本申请提供一种基于图谱的审计信息识别方法、系统及装置,以解决上述技术问题。
具体而言,本发明提供了以下技术方案:
第一方面,本发明提供了一种基于图谱的审计信息识别方法,所述方法包括:
获取与审计信息相关的信息和数据;
根据获取的所述与审计信息相关的信息和数据,确定审计信息关联指数,所述审计信息关联指数用于表征获取的审计信息之间的关联程度;
根据所述审计信息关联指数,确定与审计信息有关的第一关联信息,或者通过审计信息关联指数的预设阈值,筛选出与审计信息有关的第二关联信息,其中,所述第一关联信息的范围大于等于所述第二关联信息的范围;
进一步的,所述获取与审计信息相关的信息和数据,包括:
获取多源异构数据中识别出的审计信息及其相关数据;
将已在多源异构数据中识别出的审计信息中的至少一项审计信息确定为第一关键词,或者直接获取至少一项预设的审计信息作为第一关键词;
将已在多源异构数据中识别出的审计信息中的除第一关键词以外的至少一项审计信息确定为第二关键词,或者直接获取除第一关键词以外的至少一项预设的审计信息作为第二关键词;
在审计信息图数据库中筛选出与第一关键词相关的所有实体及其参数,作为第一实体;
在审计信息图数据库中筛选出与第二关键词相关的所有实体及其参数,作为第二实体;
在审计信息图数据库中获取第一实体与第二实体之间的所有关系路径及其参数;
所述第一关键词和第二关键词均至少为一项审计信息,若第一关键词或第二关键词为两项及以上,则计算第一关键词和第二关键词所有组合方式的审计信息关联指数。
所述关系路径中包括各种实体及其之间的关系,以及实体和关系对应的状态参数或属性,它们共同组成了第一实体和第二实体之间的关系路径;所述第一实体与第二实体之间的所有关系路径及其参数,至少包括关系路径总数量、每条关系路径的所包含的实体和关系的数量、内容、属性及属性值等参数。
所述与审计信息有关的第一关联信息,包括审计信息中第一关键词和第二关键词,图数据库中的第一实体和第二实体,第一实体与第二实体之间的所有关系路径,以及前述信息的相关数据和参数;所述与审计信息有关的第二关联信息包括:通过审计信息关联指数的预设阈值,筛选出的前述信息及其相关数据和参数;
若未确定第二关键词,则第一关联信息或第二关联信息,只包括审计信息中第一关键词,图数据库中的第一实体,与第一实体相关的所有关系路径,以及前述信息的相关数据和参数。
所述多源异构数据,简单而言就是指一个整体由多个不同来源的成分而构成,既有混合型数据(包括结构化和非结构化)又有离散型数据(数据分布在不同的系统或平台),此处“多源异构”就是指在媒体融合发展的过程中,由于各传播路径的建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等要素的影响,导致媒体在融合发展过程中积累了大量采用不同存储方式的传播路径数据,从简单的文件数据库到复杂的网络数据库构成了媒体的异构数据源。具体到审计领域的多源异构数据,是指审计报表、数字化审计平台的数据、各种多媒体数据等包含审计信息,或与审计信息相关的各种不同来源不同结构的数据信息,以及公司相关的法律法规、行业规定、通用制度等信息数据。
所述审计信息图数据库,是指将审计信息资料中的审计数据及知识融合为互相关联的知识体系,形成审计信息的知识图谱,并将审计知识图谱存储至图数据库(比如,Neo4j、Titan、NebulaGraph、ArangoDB、OrientDB、JanusGraph、HugeGraph、Trinity等图数据库),形成所述的审计信息图数据库。可实现审计信息数据高性能存储,并能够支持上层的知识推理、知识快速查询、可视化展示等应用。审计数据知识图谱自动生成图数据库是当前主流高性能NOSQL数据库,将结构化数据以知识图谱的形式进行存储。该数据库善于处理复杂、互连接、结构化的数据,因而应用场景丰富。通过解析审计数据构建审计数据知识图谱,将审计数据表层数据关系和隐含数据关系可视化。数据经过格式化处理后存入数据存储列表,之后通过匹配、筛选数据存储列表中的格式化数据存入关系图谱所需的结点列表以及关系列表。通过自然语言处理技术对非结构化数据进行实体关系的抽取,构建审计知识图谱。
由于本发明采用了图谱技术,故利用图数据库的先天优势,即可通过知识图谱等可视化技术,将系统分析结果,以及审计数据的知识网络构架,审计信息及其关系进行直观化、可视化的输出展示,使得审计数据间的关系也更加形象化,直观呈现出审计数据的知识网络构架;
本发明的图数据库中的数据是实时更新的,进而能够对审计数据处理的实时性和准确性得到有力的支持,且各企业、机构和平台的数据库中的数据也是不断更新扩充的,可在使用过程中不断提高审计领域数据挖掘的精确度和匹配度,使本发明的方法和系统均能够发挥最大的作用;
审计信息资料至少包括:(1)审计标准化数据:审计过程中的正常数据、异常数据、问题数据、关联数据等;(2)通用制度限制数据:相关法律法规、行业规定、通用制度中涉及到的限定性的数据等;(3)审计模型数据:数字化审计涉及的作业域的相关审计模型数据信息;(4)审计成果数据:历年审计工作相关成果数据,包括但不限于审计类别、项目列表、参与项目的审计师、审计报告、审计发现的问题清单、涉及的被审计对象、审计问题金额、整改情况、被审计的干部名单、任职期间、职务等所有审计成果数据。
进一步的,所述根据获取的所述与审计信息相关的信息和数据,确定审计信息关联指数,包括:
根据获取的所述第一关键词、第二关键词、第一实体和第二实体,确定第一关键词和第一实体的相似度、第二关键词和第二实体的相似度;
根据获取的第一实体与第二实体之间的所有关系路径及其参数,确定第一实体与第二实体之间的相关系数;
根据所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度和所述第一实体与第二实体之间的相关系数,进行加权计算得到审计信息关联指数;
所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度,由现有的相似度算法实现。
进一步的,根据所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度和所述第一实体与第二实体之间的相关系数,进行加权计算得到审计信息关联指数,包括:
根据所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度和所述第一实体与第二实体之间的相关系数,利用第一关系式进行加权计算得到审计信息关联指数;
其中,所述第一关系式包括:s=k1α+k2β+k3γ;
其中,s为审计数据关联指数;
k1为第一实体权重系数;
α为第一关键词与第一实体的相似度;
k2为第二实体权重系数;
β为第二关键词与第二实体的相似度;
k3为第一实体与第二实体之间的相关性的权重;
γ为第一实体与第二实体之间的相关系数;
本发明用于表征审计信息之间关联程度的审计信息关联指数,是由外部识别出的第一关键词、第二关键词,和图数据库内部的第一实体、第二实体进行一一对应的相似度,和第一实体与第二实体之间的相关系数,进行加权计算得到的,将与审计信息相关的所有影响因素均纳入审计信息关联指数的算法内,故本发明的审计信息关联指数,考虑因素全面合理,算法准确高效,能够快速准确地挖掘出审计信息的显性关系和隐性关系;
本发明将图谱算法体系融入自动化审计中,能够将审计数据高效地组织利用,减少了数据冗余,提高了系统的执行效率;
进一步的,所述第一关系式中,第一实体权重系数k1和第二实体权重系数k2,利用第二关系式进行计算得到;
其中,所述第二关系式包括:
Figure BDA0003259932810000041
k2=1-k1
其中,αx为第一实体分配系数;
βx为第二实体分配系数;
其中,所述第一实体分配系数α0和第二实体分配系数β0由如下关系式得到:
Figure BDA0003259932810000042
其中,n1为在图数据库中与第一实体最近的关系的总数量;
n2为在图数据库中与第二实体最近的关系的总数量;
m为在图数据库中第一实体与第二实体之间所有的关系路径的总条数;
δ为分配系数收敛参数;
本发明第一实体权重系数和第二实体权重系数,采用预设常数,或者根据实际动态调节,动态调节的原理是将第一实体的最近关系数量、第二实体的最近关系数量,以及第一实体与第二实体之间有效的共同关系数量,进行综合考虑,合理运算后重新进行权重分配,随着图数据库的更新,权重也会随之重新匹配,这样不仅能够满足不同的场景需求,而且使审计信息关联指数与实际情况动态的高度匹配,进一步提高了审计信息识别的准确度、实时性;
进一步的,所述第一实体与第二实体之间的相关系数,由第一实体与第二实体之间的关系路径相关系数和第一关键词与第二关键词所包含数据之间的相关系数,进行加权计算得到;
进一步的,所述第一实体与第二实体之间的相关系数,由第一实体与第二实体之间的关系路径相关系数和第一关键词与第二关键词所包含数据之间的相关系数,利用第三关系式计算得到;
其中,第三关系式包括:γ=ω1ρr2ρα,β
其中,γ为第一实体与第二实体之间的相关系数;
ω1为ρr的权重系数;
ρr为第一实体与第二实体之间的关系路径相关系数;
ω2为ρα,β的权重系数;
ρα,β为第一关键词所包含数据与第二关键词所包含数据之间的相关系数;
所述ρr由如下关系式得到:
Figure BDA0003259932810000043
其中,ri为在图数据库中第一实体与第二实体之间的第i条关系路径所包含的关系的数量;
m为在图数据库中第一实体与第二实体之间所有的关系路径的总条数;
i为在图数据库中第一实体与第二实体之间的第i条关系路径;
所述ρα,β由如下关系式得到:
Figure BDA0003259932810000051
其中,n为第一关键词所包含数据与第二关键词所包含数据一一对应的总数据量;
j为第一关键词或第二关键词所包含的第j条数据;
αj为第一关键词所包含的第j条数据的具体数据或处理后的数据;
α0为第一关键词所包含的n条数据的具体数据的有效均值或处理后数据的有效均值;
βj为第二关键词所包含的第j条数据的具体数据或处理后的数据;
β0为第二关键词所包含的n条数据的具体数据的有效均值或处理后数据的有效均值;
p为计算第一关键词所包含数据与第二关键词所包含数据之间的相关系数的最低数据量;
所述具体数据的有效均值或处理后的数据的有效均值,指各种算法得到的均值的有效值。
本发明第一实体与第二实体之间的相关系数,考虑了在实际中重要的两方面的因素,即:第一实体与第二实体之间的关系路径相关系数、第一关键词所包含数据与第二关键词所包含数据之间的相关系数;除了将直观的关系路径作为影响因素纳入算法中,还将外部识别的审计信息中包含的具体数据纳入影响范围内,这样不仅能够发现图数据库中已有的显性和隐性关系,并且能够将图数据库外部实际数据之间的相关性也纳入影响因素范围内,全面考虑多种关联性的情况,提高了审计信息识别的准确性、客观性;
综上,本发明将审计信息和图数据库相结合,利用科学合理的审计信息识别模型及算法,经过与图数据库中相关实体的客观比对,再结合实体之间的关系路径信息,能够快速准确地识别出与目标审计信息相关的显性和隐性关系,以及对应的各种基础信息和隐藏信息;本发明利用图谱技术带来的天然关联检索的特点,结合图数据库,将审计人员从审计数据量庞大且类别纷繁复杂的困境中解放出来,将隐含的关系网络梳理清楚,有效地提升了工作的效率,能够识别更多潜在的风险与问题,从数据中挖掘出更大的价值。
第二方面,本发明提供了一种基于图谱的审计信息识别系统,所述系统包括:
信息获取模块,用于获取与审计信息相关的信息和数据;
信息处理模块,用于根据获取的所述与审计信息相关的信息和数据,确定审计信息关联指数,所述审计信息关联指数用于表征获取的审计信息之间的关联程度;
信息输出模块,用于根据所述审计信息关联指数,确定与审计信息有关的第一关联信息,或者通过审计信息关联指数的预设阈值,筛选出与审计信息有关的第二关联信息,其中,所述第一关联信息的范围大于等于所述第二关联信息的范围;
进一步的,所述系统包括:
信息参数筛选模块,用于确定审计信息第一关键词及其参数、第二关键词及其参数、第一实体及其参数、第二实体及其参数,第一实体与第二实体之间的所有关系路径及其参数,以及其他相关数据;
信息参数运算模块,用于根据信息参数筛选模块获取的参数,确定第一关键词和第一实体的相似度、第二关键词和第二实体的相似度和第一实体与第二实体之间的相关系数,并进行加权计算得到审计信息关联指数;
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。
第四方面,本发明提供了一种计算机装置,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序时,实现如第一方面所述的方法。
与现有技术相比,本发明有益效果如下:
(1)本发明将审计信息和图数据库相结合,利用科学合理的审计信息识别模型及算法,经过与图数据库中相关实体的客观比对,再结合实体之间的关系路径信息,能够快速准确地识别出与目标审计信息相关的显性和隐性关系,以及对应的各种基础信息和隐藏信息;
(2)由于本发明采用了图谱技术,故利用图数据库的先天优势,即可通过知识图谱等可视化技术,将系统分析结果,以及审计数据的知识网络构架,审计信息及其关系进行直观化、可视化的输出展示,使得审计数据间的关系也更加形象化,直观呈现出审计数据的知识网络构架;
(3)本发明用于表征审计信息之间关联程度的审计信息关联指数,是由外部识别出的第一关键词、第二关键词,和图数据库内部的第一实体、第二实体进行一一对应的相似度,和第一实体与第二实体之间的相关系数,进行加权计算得到的,将与审计信息相关的所有影响因素均纳入审计信息关联指数的算法内,故本发明的审计信息关联指数,考虑因素全面合理,算法准确高效,能够快速准确地挖掘出审计信息的显性关系和隐性关系;
(4)本发明的图数据库中的数据是实时更新的,进而能够对审计数据处理的实时性和准确性得到有力的支持,且各企业、机构和平台的数据库中的数据也是不断更新扩充的,可在使用过程中不断提高审计领域数据挖掘的精确度和匹配度,使本发明的方法和系统均能够发挥最大的作用;
(5)本发明第一实体权重系数和第二实体权重系数,采用预设常数,或者根据实际动态调节,动态调节的原理是将第一实体的最近关系数量、第二实体的最近关系数量,以及第一实体与第二实体之间有效的共同关系数量,进行综合考虑,合理运算后重新进行权重分配,随着图数据库的更新,权重也会随之重新匹配,这样不仅能够满足不同的场景需求,而且使审计信息关联指数与实际情况动态的高度匹配,进一步提高了审计信息识别的准确度、实时性;
(6)本发明第一实体与第二实体之间的相关系数,考虑了在实际中重要的两方面的因素,即:第一实体与第二实体之间的关系路径相关系数、第一关键词所包含数据与第二关键词所包含数据之间的相关系数;除了将直观的关系路径作为影响因素纳入算法中,还将外部识别的审计信息中包含的具体数据纳入影响范围内,这样不仅能够发现图数据库中已有的显性和隐性关系,并且能够将图数据库外部实际数据之间的相关性也纳入影响因素范围内,全面考虑多种关联性的情况,提高了审计信息识别的准确性、客观性;
(7)本发明将图谱算法体系融入自动化审计中,能够将审计数据高效地组织利用,减少了数据冗余,提高了系统的执行效率;
(8)本发明利用图谱技术带来的天然关联检索的特点,结合图数据库,将审计人员从审计数据量庞大且类别纷繁复杂的困境中解放出来,将隐含的关系网络梳理清楚,有效地提升了工作的效率,能够识别更多潜在的风险与问题,从数据中挖掘出更大的价值。
附图说明
为了易于说明,本发明由下述的具体实施及附图作以详细描述。
图1为本发明的方法流程示意图;
图2为本发明的另一方法流程示意图;
图3为本发明的方法参数示意图;
图4为本发明的系统结构示意图;
图5为本发明的另一系统结构示意图;
图6为本发明的计算机可读存储介质示意图;
图7为本发明的计算机装置示意图。
具体实施方式
下面将结合本发明实施例中的图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-2所示,本发明提供了一种基于图谱的审计信息识别方法,其特征在于,所述方法包括:
获取与审计信息相关的信息和数据;
根据获取的所述与审计信息相关的信息和数据,确定审计信息关联指数,所述审计信息关联指数用于表征获取的审计信息之间的关联程度;
根据所述审计信息关联指数,确定与审计信息有关的第一关联信息,或者通过审计信息关联指数的预设阈值,筛选出与审计信息有关的第二关联信息,其中,所述第一关联信息的范围大于等于所述第二关联信息的范围;
进一步的,所述获取与审计信息相关的信息和数据,包括:
获取多源异构数据中识别出的审计信息及其相关数据;
将已在多源异构数据中识别出的审计信息中的至少一项审计信息确定为第一关键词,或者直接获取至少一项预设的审计信息作为第一关键词;
将已在多源异构数据中识别出的审计信息中的除第一关键词以外的至少一项审计信息确定为第二关键词,或者直接获取除第一关键词以外的至少一项预设的审计信息作为第二关键词;
在审计信息图数据库中筛选出与第一关键词相关的所有实体及其参数,作为第一实体;
在审计信息图数据库中筛选出与第二关键词相关的所有实体及其参数,作为第二实体;
在审计信息图数据库中获取第一实体与第二实体之间的所有关系路径及其参数;
所述第一关键词和第二关键词均至少为一项审计信息,若第一关键词或第二关键词为两项及以上,则计算第一关键词和第二关键词所有组合方式的审计信息关联指数。
所述关系路径中包括各种实体及其之间的关系,以及实体和关系对应的状态参数或属性,它们共同组成了第一实体和第二实体之间的关系路径;所述第一实体与第二实体之间的所有关系路径及其参数,至少包括关系路径总数量、每条关系路径的所包含的实体和关系的数量、内容、属性及属性值等参数。
所述与审计信息有关的第一关联信息,包括审计信息中第一关键词和第二关键词,图数据库中的第一实体和第二实体,第一实体与第二实体之间的所有关系路径,以及前述信息的相关数据和参数;所述与审计信息有关的第二关联信息包括:通过审计信息关联指数的预设阈值,筛选出的前述信息及其相关数据和参数;
若未确定第二关键词,则第一关联信息或第二关联信息,只包括审计信息中第一关键词,图数据库中的第一实体,与第一实体相关的所有关系路径,以及前述信息的相关数据和参数。
所述多源异构数据,简单而言就是指一个整体由多个不同来源的成分而构成,既有混合型数据(包括结构化和非结构化)又有离散型数据(数据分布在不同的系统或平台),此处“多源异构”就是指在媒体融合发展的过程中,由于各传播路径的建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等要素的影响,导致媒体在融合发展过程中积累了大量采用不同存储方式的传播路径数据,从简单的文件数据库到复杂的网络数据库构成了媒体的异构数据源。具体到审计领域的多源异构数据,是指审计报表、数字化审计平台的数据、各种多媒体数据等包含审计信息,或与审计信息相关的各种不同来源不同结构的数据信息,以及公司相关的法律法规、行业规定、通用制度等信息数据。
所述图数据库(Graph Database)是以图模型存储实体数据(称为“节点”、“顶点”、node)、实体之间关系(称为“关系”、“边”、relationship/edge)、以及实体和关系上属性(property)的数据库。图数据库是非SQL(NoSQL)数据库的一种,它基于数学和计算机科学中的“图论”。图数据库内置的图模型能更灵活、准确地描述现实世界,并提供近似与数据规模无关的查询性能。传统的关系型数据库和图数据库区别如表1所示。
表1
对比项目 图数据库 关系型数据库
模型 图结构 表结构
存储信息 结构化、半结构化数据 高度结构化数据
2度查询 高效 低效
3度查询 高效 低效/不支持
空间占用
所述审计信息图数据库,是指将审计信息资料中的审计数据及知识融合为互相关联的知识体系,形成审计信息的知识图谱,并将审计知识图谱存储至图数据库(比如,Neo4j、Titan、NebulaGraph、ArangoDB、OrientDB、JanusGraph、HugeGraph、Trinity等图数据库),形成所述的审计信息图数据库。可实现审计信息数据高性能存储,并能够支持上层的知识推理、知识快速查询、可视化展示等应用。审计数据知识图谱自动生成图数据库是当前主流高性能NOSQL数据库,将结构化数据以知识图谱的形式进行存储。该数据库善于处理复杂、互连接、结构化的数据,因而应用场景丰富。通过解析审计数据构建审计数据知识图谱,将审计数据表层数据关系和隐含数据关系可视化。数据经过格式化处理后存入数据存储列表,之后通过匹配、筛选数据存储列表中的格式化数据存入关系图谱所需的结点列表以及关系列表。通过自然语言处理技术对非结构化数据进行实体关系的抽取,构建审计知识图谱。
由于本发明采用了图谱技术,故利用图数据库的先天优势,即可通过知识图谱等可视化技术,将系统分析结果,以及审计数据的知识网络构架,审计信息及其关系进行直观化、可视化的输出展示,使得审计数据间的关系也更加形象化,直观呈现出审计数据的知识网络构架;
本发明的图数据库中的数据是实时更新的,进而能够对审计数据处理的实时性和准确性得到有力的支持,且各企业、机构和平台的数据库中的数据也是不断更新扩充的,可在使用过程中不断提高审计领域数据挖掘的精确度和匹配度,使本发明的方法和系统均能够发挥最大的作用;
审计信息资料至少包括:(1)审计标准化数据:审计过程中的正常数据、异常数据、问题数据、关联数据等;(2)通用制度限制数据:相关法律法规、行业规定、通用制度中涉及到的限定性的数据等;(3)审计模型数据:数字化审计涉及的作业域的相关审计模型数据信息;(4)审计成果数据:历年审计工作相关成果数据,包括但不限于审计类别、项目列表、参与项目的审计师、审计报告、审计发现的问题清单、涉及的被审计对象、审计问题金额、整改情况、被审计的干部名单、任职期间、职务等所有审计成果数据。
进一步的,所述根据获取的所述与审计信息相关的信息和数据,确定审计信息关联指数,包括:
根据获取的所述第一关键词、第二关键词、第一实体和第二实体,确定第一关键词和第一实体的相似度、第二关键词和第二实体的相似度;
根据获取的第一实体与第二实体之间的所有关系路径及其参数,确定第一实体与第二实体之间的相关系数;
根据所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度和所述第一实体与第二实体之间的相关系数,进行加权计算得到审计信息关联指数;
所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度,由现有的相似度算法实现。
进一步的,如图3所示,根据所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度和所述第一实体与第二实体之间的相关系数,进行加权计算得到审计信息关联指数,包括:
根据所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度和所述第一实体与第二实体之间的相关系数,利用第一关系式进行加权计算得到审计信息关联指数;
其中,所述第一关系式包括:s=k1α+k2β+k3γ;
其中,s为审计数据关联指数;
k1为第一实体权重系数;
α为第一关键词与第一实体的相似度;
k2为第二实体权重系数;
β为第二关键词与第二实体的相似度;
k3为第一实体与第二实体之间的相关性的权重;
γ为第一实体与第二实体之间的相关系数;
本发明用于表征审计信息之间关联程度的审计信息关联指数,是由外部识别出的第一关键词、第二关键词,和图数据库内部的第一实体、第二实体进行一一对应的相似度,和第一实体与第二实体之间的相关系数,进行加权计算得到的,将与审计信息相关的所有影响因素均纳入审计信息关联指数的算法内,故本发明的审计信息关联指数,考虑因素全面合理,算法准确高效,能够快速准确地挖掘出审计信息的显性关系和隐性关系;
本发明将图谱算法体系融入自动化审计中,能够将审计数据高效地组织利用,减少了数据冗余,提高了系统的执行效率;
进一步的,所述第一关系式中,第一实体权重系数k1和第二实体权重系数k2,利用第二关系式进行计算得到;
其中,所述第二关系式包括:
Figure BDA0003259932810000101
k2=1-k1
其中,αx为第一实体分配系数;
βx为第二实体分配系数;
其中,所述第一实体分配系数α0和第二实体分配系数β0由如下关系式得到:
Figure BDA0003259932810000102
其中,n1为在图数据库中与第一实体最近的关系的总数量;
n2为在图数据库中与第二实体最近的关系的总数量;
m为在图数据库中第一实体与第二实体之间所有的关系路径的总条数;
δ为分配系数收敛参数;
本发明第一实体权重系数和第二实体权重系数,采用预设常数,或者根据实际动态调节,动态调节的原理是将第一实体的最近关系数量、第二实体的最近关系数量,以及第一实体与第二实体之间有效的共同关系数量,进行综合考虑,合理运算后重新进行权重分配,随着图数据库的更新,权重也会随之重新匹配,这样不仅能够满足不同的场景需求,而且使审计信息关联指数与实际情况动态的高度匹配,进一步提高了审计信息识别的准确度、实时性;
进一步的,所述第一实体与第二实体之间的相关系数,由第一实体与第二实体之间的关系路径相关系数和第一关键词与第二关键词所包含数据之间的相关系数,进行加权计算得到;
进一步的,所述第一实体与第二实体之间的相关系数,由第一实体与第二实体之间的关系路径相关系数和第一关键词与第二关键词所包含数据之间的相关系数,利用第三关系式计算得到;
其中,第三关系式包括:γ=ω1ρr2ρα,β
其中,γ为第一实体与第二实体之间的相关系数;
ω1为ρr的权重系数;
ρr为第一实体与第二实体之间的关系路径相关系数;
ω2为ρα,β的权重系数;
ρα,β为第一关键词所包含数据与第二关键词所包含数据之间的相关系数;
所述ρr由如下关系式得到:
Figure BDA0003259932810000111
其中,ri为在图数据库中第一实体与第二实体之间的第i条关系路径所包含的关系的数量;
m为在图数据库中第一实体与第二实体之间所有的关系路径的总条数;
i为在图数据库中第一实体与第二实体之间的第j条关系路径;
所述ρα,β由如下关系式得到:
Figure BDA0003259932810000112
其中,n为第一关键词所包含数据与第二关键词所包含数据一一对应的总数据量;
j为第一关键词或第二关键词所包含的第j条数据;
αj为第一关键词所包含的第j条数据的具体数据或处理后的数据;
α0为第一关键词所包含的n条数据的具体数据的有效均值或处理后数据的有效均值;
βj为第二关键词所包含的第j条数据的具体数据或处理后的数据;
β0为第二关键词所包含的n条数据的具体数据的有效均值或处理后数据的有效均值;
p为计算第一关键词所包含数据与第二关键词所包含数据之间的相关系数的最低数据量;
所述具体数据的有效均值或处理后的数据的有效均值,指各种算法得到的均值的有效值。
本发明第一实体与第二实体之间的相关系数,考虑了在实际中重要的两方面的因素,即:第一实体与第二实体之间的关系路径相关系数、第一关键词所包含数据与第二关键词所包含数据之间的相关系数;除了将直观的关系路径作为影响因素纳入算法中,还将外部识别的审计信息中包含的具体数据纳入影响范围内,这样不仅能够发现图数据库中已有的显性和隐性关系,并且能够将图数据库外部实际数据之间的相关性也纳入影响因素范围内,全面考虑多种关联性的情况,提高了审计信息识别的准确性、客观性。
综上,本发明将审计信息和图数据库相结合,利用科学合理的审计信息识别模型及算法,经过与图数据库中相关实体的客观比对,再结合实体之间的关系路径信息,能够快速准确地识别出与目标审计信息相关的显性和隐性关系,以及对应的各种基础信息和隐藏信息;本发明利用图谱技术带来的天然关联检索的特点,结合图数据库,将审计人员从审计数据量庞大且类别纷繁复杂的困境中解放出来,将隐含的关系网络梳理清楚,有效地提升了工作的效率,能够识别更多潜在的风险与问题,从数据中挖掘出更大的价值。
实施例2
如图4-5所示,本发明提供了一种基于图谱的审计信息识别系统,包括:
信息获取模块,用于获取与审计信息相关的信息和数据;
信息处理模块,用于根据获取的所述与审计信息相关的信息和数据,确定审计信息关联指数,所述审计信息关联指数用于表征获取的审计信息之间的关联程度;
信息输出模块,用于根据所述审计信息关联指数,确定与审计信息有关的第一关联信息,或者通过审计信息关联指数的预设阈值,筛选出与审计信息有关的第二关联信息,其中,所述第一关联信息的范围大于等于所述第二关联信息的范围;
进一步的,所述系统包括:
信息参数筛选模块,用于确定审计信息第一关键词及其参数、第二关键词及其参数、第一实体及其参数、第二实体及其参数,第一实体与第二实体之间的所有关系路径及其参数,以及其他相关数据;
信息参数运算模块,用于根据信息参数筛选模块获取的参数,确定第一关键词和第一实体的相似度、第二关键词和第二实体的相似度和第一实体与第二实体之间的相关系数,并进行加权计算得到审计信息关联指数;
进一步的,所述信息参数筛选模块,确定审计信息第一关键词及其参数、第二关键词及其参数、第一实体及其参数、第二实体及其参数,第一实体与第二实体之间的所有关系路径及其参数,以及其他相关数据,包括:
获取多源异构数据中识别出的审计信息及其相关数据;
将已在多源异构数据中识别出的审计信息中的至少一项审计信息确定为第一关键词,或者直接获取至少一项预设的审计信息作为第一关键词;
将已在多源异构数据中识别出的审计信息中的除第一关键词以外的至少一项审计信息确定为第二关键词,或者直接获取除第一关键词以外的至少一项预设的审计信息作为第二关键词;
在审计信息图数据库中筛选出与第一关键词相关的所有实体及其参数,作为第一实体;
在审计信息图数据库中筛选出与第二关键词相关的所有实体及其参数,作为第二实体;
在审计信息图数据库中获取第一实体与第二实体之间的所有关系路径及其参数;
所述第一关键词和第二关键词均至少为一项审计信息,若第一关键词或第二关键词为两项及以上,则计算第一关键词和第二关键词所有组合方式的审计信息关联指数。
所述关系路径中包括各种实体及其之间的关系,以及实体和关系对应的状态参数或属性,它们共同组成了第一实体和第二实体之间的关系路径;所述第一实体与第二实体之间的所有关系路径及其参数,至少包括关系路径总数量、每条关系路径的所包含的实体和关系的数量、内容、属性及属性值等参数。
所述与审计信息有关的第一关联信息,包括审计信息中第一关键词和第二关键词,图数据库中的第一实体和第二实体,第一实体与第二实体之间的所有关系路径,以及前述信息的相关数据和参数;所述与审计信息有关的第二关联信息包括:通过审计信息关联指数的预设阈值,筛选出的前述信息及其相关数据和参数;
若未确定第二关键词,则第一关联信息或第二关联信息,只包括审计信息中第一关键词,图数据库中的第一实体,与第一实体相关的所有关系路径,以及前述信息的相关数据和参数。
所述图数据库(Graph Database)是以图模型存储实体数据(称为“节点”、“顶点”、node)、实体之间关系(称为“关系”、“边”、relationship/edge)、以及实体和关系上属性(property)的数据库。图数据库是非SQL(NoSQL)数据库的一种,它基于数学和计算机科学中的“图论”。图数据库内置的图模型能更灵活、准确地描述现实世界,并提供近似与数据规模无关的查询性能。传统的关系型数据库和图数据库区别如上表1所示。
所述审计信息图数据库,是指将审计信息资料中的审计数据及知识融合为互相关联的知识体系,形成审计信息的知识图谱,并将审计知识图谱存储至图数据库(比如,Neo4j、Titan、NebulaGraph、ArangoDB、OrientDB、JanusGraph、HugeGraph、Trinity等图数据库),形成所述的审计信息图数据库。可实现审计信息数据高性能存储,并能够支持上层的知识推理、知识快速查询、可视化展示等应用。审计数据知识图谱自动生成图数据库是当前主流高性能NOSQL数据库,将结构化数据以知识图谱的形式进行存储。该数据库善于处理复杂、互连接、结构化的数据,因而应用场景丰富。通过解析审计数据构建审计数据知识图谱,将审计数据表层数据关系和隐含数据关系可视化。数据经过格式化处理后存入数据存储列表,之后通过匹配、筛选数据存储列表中的格式化数据存入关系图谱所需的结点列表以及关系列表。通过自然语言处理技术对非结构化数据进行实体关系的抽取,构建审计知识图谱。
由于本发明采用了图谱技术,故利用图数据库的先天优势,即可通过知识图谱等可视化技术,将系统分析结果,以及审计数据的知识网络构架,审计信息及其关系进行直观化、可视化的输出展示,使得审计数据间的关系也更加形象化,直观呈现出审计数据的知识网络构架;
本发明的图数据库中的数据是实时更新的,进而能够对审计数据处理的实时性和准确性得到有力的支持,且各企业、机构和平台的数据库中的数据也是不断更新扩充的,可在使用过程中不断提高审计领域数据挖掘的精确度和匹配度,使本发明的方法和系统均能够发挥最大的作用;
审计信息资料至少包括:(1)审计标准化数据:审计过程中的正常数据、异常数据、问题数据、关联数据等;(2)通用制度限制数据:相关法律法规、行业规定、通用制度中涉及到的限定性的数据等;(3)审计模型数据:数字化审计涉及的作业域的相关审计模型数据信息;(4)审计成果数据:历年审计工作相关成果数据,包括但不限于审计类别、项目列表、参与项目的审计师、审计报告、审计发现的问题清单、涉及的被审计对象、审计问题金额、整改情况、被审计的干部名单、任职期间、职务等所有审计成果数据。
进一步的,所述信息参数运算模块,根据信息参数筛选模块获取的参数,确定第一关键词和第一实体的相似度、第二关键词和第二实体的相似度和第一实体与第二实体之间的相关系数,并进行加权计算得到审计信息关联指数,包括:
根据获取的所述第一关键词、第二关键词、第一实体和第二实体,确定第一关键词和第一实体的相似度、第二关键词和第二实体的相似度;
根据获取的第一实体与第二实体之间的所有关系路径及其参数,确定第一实体与第二实体之间的相关系数;
根据所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度和所述第一实体与第二实体之间的相关系数,进行加权计算得到审计信息关联指数;
所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度,由现有的相似度算法实现。
进一步的,如图3所示,根据所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度和所述第一实体与第二实体之间的相关系数,进行加权计算得到审计信息关联指数,包括:
根据所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度和所述第一实体与第二实体之间的相关系数,利用第一关系式进行加权计算得到审计信息关联指数;
其中,所述第一关系式包括:s=k1α+k2β+k3γ;
其中,s为审计数据关联指数;
k1为第一实体权重系数;
α为第一关键词与第一实体的相似度;
k2为第二实体权重系数;
β为第二关键词与第二实体的相似度;
k3为第一实体与第二实体之间的相关性的权重;
γ为第一实体与第二实体之间的相关系数;
本发明用于表征审计信息之间关联程度的审计信息关联指数,是由外部识别出的第一关键词、第二关键词,和图数据库内部的第一实体、第二实体进行一一对应的相似度,和第一实体与第二实体之间的相关系数,进行加权计算得到的,将与审计信息相关的所有影响因素均纳入审计信息关联指数的算法内,故本发明的审计信息关联指数,考虑因素全面合理,算法准确高效,能够快速准确地挖掘出审计信息的显性关系和隐性关系;
本发明将图谱算法体系融入自动化审计中,能够将审计数据高效地组织利用,减少了数据冗余,提高了系统的执行效率;
进一步的,所述第一关系式中,第一实体权重系数k1和第二实体权重系数k2,利用第二关系式进行计算得到;
其中,所述第二关系式包括:
Figure BDA0003259932810000141
k2=1-k1
其中,αx为第一实体分配系数;
βx为第二实体分配系数;
其中,所述第一实体分配系数α0和第二实体分配系数β0由如下关系式得到:
Figure BDA0003259932810000142
其中,n1为在图数据库中与第一实体最近的关系的总数量;
n2为在图数据库中与第二实体最近的关系的总数量;
m为在图数据库中第一实体与第二实体之间所有的关系路径的总条数;
δ为分配系数收敛参数;
本发明第一实体权重系数和第二实体权重系数,采用预设常数,或者根据实际动态调节,动态调节的原理是将第一实体的最近关系数量、第二实体的最近关系数量,以及第一实体与第二实体之间有效的共同关系数量,进行综合考虑,合理运算后重新进行权重分配,随着图数据库的更新,权重也会随之重新匹配,这样不仅能够满足不同的场景需求,而且使审计信息关联指数与实际情况动态的高度匹配,进一步提高了审计信息识别的准确度、实时性;
进一步的,所述第一实体与第二实体之间的相关系数,由第一实体与第二实体之间的关系路径相关系数和第一关键词与第二关键词所包含数据之间的相关系数,进行加权计算得到;
进一步的,所述第一实体与第二实体之间的相关系数,由第一实体与第二实体之间的关系路径相关系数和第一关键词与第二关键词所包含数据之间的相关系数,利用第三关系式计算得到;
其中,第三关系式包括:γ=ω1ρr2ρα,β
其中,γ为第一实体与第二实体之间的相关系数;
ω1为ρr的权重系数;
ρr为第一实体与第二实体之间的关系路径相关系数;
ω2为ρα,β的权重系数;
ρα,β为第一关键词所包含数据与第二关键词所包含数据之间的相关系数;
所述ρr由如下关系式得到:
Figure BDA0003259932810000151
其中,ri为在图数据库中第一实体与第二实体之间的第i条关系路径所包含的关系的数量;
m为在图数据库中第一实体与第二实体之间所有的关系路径的总条数;
i为在图数据库中第一实体与第二实体之间的第i条关系路径;
所述ρα,β由如下关系式得到:
Figure BDA0003259932810000152
其中,n为第一关键词所包含数据与第二关键词所包含数据一一对应的总数据量;
j为第一关键词或第二关键词所包含的第j条数据;
αj为第一关键词所包含的第j条数据的具体数据或处理后的数据;
α0为第一关键词所包含的n条数据的具体数据的有效均值或处理后数据的有效均值;
βj为第二关键词所包含的第j条数据的具体数据或处理后的数据;
β0为第二关键词所包含的n条数据的具体数据的有效均值或处理后数据的有效均值;
p为计算第一关键词所包含数据与第二关键词所包含数据之间的相关系数的最低数据量;
所述具体数据的有效均值或处理后的数据的有效均值,指各种算法得到的均值的有效值。
本发明第一实体与第二实体之间的相关系数,考虑了在实际中重要的两方面的因素,即:第一实体与第二实体之间的关系路径相关系数、第一关键词所包含数据与第二关键词所包含数据之间的相关系数;除了将直观的关系路径作为影响因素纳入算法中,还将外部识别的审计信息中包含的具体数据纳入影响范围内,这样不仅能够发现图数据库中已有的显性和隐性关系,并且能够将图数据库外部实际数据之间的相关性也纳入影响因素范围内,全面考虑多种关联性的情况,提高了审计信息识别的准确性、客观性。
实施例3
如图6所示,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述实施例1所述的方法。
实施例4
如图7所示,本发明提供一种计算机装置,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序时,实现如上述实施例1所述的方法。
与现有技术相比,本发明有益效果如下:
(1)本发明将审计信息和图数据库相结合,利用科学合理的审计信息识别模型及算法,经过与图数据库中相关实体的客观比对,再结合实体之间的关系路径信息,能够快速准确地识别出与目标审计信息相关的显性和隐性关系,以及对应的各种基础信息和隐藏信息;
(2)由于本发明采用了图谱技术,故利用图数据库的先天优势,即可通过知识图谱等可视化技术,将系统分析结果,以及审计数据的知识网络构架,审计信息及其关系进行直观化、可视化的输出展示,使得审计数据间的关系也更加形象化,直观呈现出审计数据的知识网络构架;
(3)本发明用于表征审计信息之间关联程度的审计信息关联指数,是由外部识别出的第一关键词、第二关键词,和图数据库内部的第一实体、第二实体进行一一对应的相似度,和第一实体与第二实体之间的相关系数,进行加权计算得到的,将与审计信息相关的所有影响因素均纳入审计信息关联指数的算法内,故本发明的审计信息关联指数,考虑因素全面合理,算法准确高效,能够快速准确地挖掘出审计信息的显性关系和隐性关系;
(4)本发明的图数据库中的数据是实时更新的,进而能够对审计数据处理的实时性和准确性得到有力的支持,且各企业、机构和平台的数据库中的数据也是不断更新扩充的,可在使用过程中不断提高审计领域数据挖掘的精确度和匹配度,使本发明的方法和系统均能够发挥最大的作用;
(5)本发明第一实体权重系数和第二实体权重系数,采用预设常数,或者根据实际动态调节,动态调节的原理是将第一实体的最近关系数量、第二实体的最近关系数量,以及第一实体与第二实体之间有效的共同关系数量,进行综合考虑,合理运算后重新进行权重分配,随着图数据库的更新,权重也会随之重新匹配,这样不仅能够满足不同的场景需求,而且使审计信息关联指数与实际情况动态的高度匹配,进一步提高了审计信息识别的准确度、实时性;
(6)本发明第一实体与第二实体之间的相关系数,考虑了在实际中重要的两方面的因素,即:第一实体与第二实体之间的关系路径相关系数、第一关键词所包含数据与第二关键词所包含数据之间的相关系数;除了将直观的关系路径作为影响因素纳入算法中,还将外部识别的审计信息中包含的具体数据纳入影响范围内,这样不仅能够发现图数据库中已有的显性和隐性关系,并且能够将图数据库外部实际数据之间的相关性也纳入影响因素范围内,全面考虑多种关联性的情况,提高了审计信息识别的准确性、客观性;
(7)本发明将图谱算法体系融入自动化审计中,能够将审计数据高效地组织利用,减少了数据冗余,提高了系统的执行效率;
(8)本发明利用图谱技术带来的天然关联检索的特点,将审计人员从审计数据量庞大且类别纷繁复杂的困境中解放出来,将隐含的关系网络梳理清楚,有效地提升了工作的效率,能够发现更多潜在的风险与问题,从数据中挖掘出更大的价值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、介质、装置、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的,作为模块或单元显示的部件可以是或者也可以不是物理模块或单元,即可以位于一个地方,或者也可以分布到多个网络模块或单元上。可以根据实际的需要选择其中的部分或者全部模块或单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或单元可以集成在一个处理模块或单元中,也可以是各个模块或单元单独物理存在,也可以两个或两个以上模块或单元集成在一个模块或单元中。上述集成的模块或单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的系统、模块、单元等,如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于图谱的审计信息识别方法,其特征在于,所述方法包括:
获取与审计信息相关的信息和数据;
根据获取的所述与审计信息相关的信息和数据,确定审计信息关联指数,所述审计信息关联指数用于表征获取的审计信息之间的关联程度;
根据所述审计信息关联指数,确定与审计信息有关的第一关联信息,或者通过审计信息关联指数的预设阈值,筛选出与审计信息有关的第二关联信息,其中,所述第一关联信息的范围大于等于所述第二关联信息的范围。
2.根据权利要求1所述的一种基于图谱的审计信息识别方法,其特征在于,所述获取与审计信息相关的信息和数据,包括:
获取多源异构数据中识别出的审计信息及其相关数据;
将已在多源异构数据中识别出的审计信息中的至少一项审计信息确定为第一关键词,或者直接获取至少一项预设的审计信息作为第一关键词;
将已在多源异构数据中识别出的审计信息中的除第一关键词以外的至少一项审计信息确定为第二关键词,或者直接获取除第一关键词以外的至少一项预设的审计信息作为第二关键词;
在审计信息图数据库中筛选出与第一关键词相关的所有实体及其参数,作为第一实体;
在审计信息图数据库中筛选出与第二关键词相关的所有实体及其参数,作为第二实体;
在审计信息图数据库中获取第一实体与第二实体之间的所有关系路径及其参数。
3.根据权利要求2所述的一种基于图谱的审计信息识别方法,其特征在于,所述根据获取的所述与审计信息相关的信息和数据,确定审计信息关联指数,包括:
根据获取的所述第一关键词、第二关键词、第一实体和第二实体,确定第一关键词和第一实体的相似度、第二关键词和第二实体的相似度;
根据获取的第一实体与第二实体之间的所有关系路径及其参数,确定第一实体与第二实体之间的相关系数;
根据所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度和所述第一实体与第二实体之间的相关系数,进行加权计算得到审计信息关联指数。
4.根据权利要求3所述的一种基于图谱的审计信息识别方法,其特征在于,根据所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度和所述第一实体与第二实体之间的相关系数,进行加权计算得到审计信息关联指数,包括:
根据所述第一关键词和第一实体的相似度、所述第二关键词和第二实体的相似度和所述第一实体与第二实体之间的相关系数,利用第一关系式进行加权计算得到审计信息关联指数;
其中,所述第一关系式包括:s=k1α+k2β+k3γ;
其中,s为审计数据关联指数;
k1为第一实体权重系数;
α为第一关键词与第一实体的相似度;
k2为第二实体权重系数;
β为第二关键词与第二实体的相似度;
k3为第一实体与第二实体之间的相关性的权重;
γ为第一实体与第二实体之间的相关系数。
5.根据权利要求4所述的一种基于图谱的审计信息识别方法,其特征在于,所述第一关系式中,第一实体权重系数k1和第二实体权重系数k2,利用第二关系式进行计算得到;
其中,所述第二关系式包括:
Figure FDA0003259932800000021
其中,αx为第一实体分配系数;
βx为第二实体分配系数;
其中,所述第一实体分配系数α0和第二实体分配系数β0由如下关系式得到:
Figure FDA0003259932800000022
其中,n1为在图数据库中与第一实体最近的关系的总数量;
n2为在图数据库中与第二实体最近的关系的总数量;
m为在图数据库中第一实体与第二实体之间所有的关系路径的总条数;
δ为分配系数收敛参数。
6.根据权利要求3-5任一项所述的一种基于图谱的审计信息识别方法,其特征在于,所述第一实体与第二实体之间的相关系数,由第一实体与第二实体之间的关系路径相关系数、第一关键词与第二关键词所包含数据之间的相关系数,进行加权计算得到。
7.根据权利要求6所述的一种基于图谱的审计信息识别方法,其特征在于,所述第一实体与第二实体之间的相关系数,由第一实体与第二实体之间的关系路径相关系数和第一关键词与第二关键词所包含数据之间的相关系数,利用第三关系式计算得到;
其中,第三关系式包括:γ=ω1ρr2ρα,β
其中,γ为第一实体与第二实体之间的相关系数;
ω1为ρr的权重系数;
ρr为第一实体与第二实体之间的关系路径相关系数;
ω2为ρα,β的权重系数;
ρα,β为第一关键词所包含数据与第二关键词所包含数据之间的相关系数;
所述ρr由如下关系式得到:
Figure FDA0003259932800000023
其中,ri为在图数据库中第一实体与第二实体之间的第i条关系路径所包含的关系的数量;
m为在图数据库中第一实体与第二实体之间所有的关系路径的总条数;
i为在图数据库中第一实体与第二实体之间的第i条关系路径;
所述ρα,β由如下关系式得到:
Figure FDA0003259932800000031
其中,n为第一关键词所包含数据与第二关键词所包含数据一一对应的总数据量;
j为第一关键词或第二关键词所包含的第j条数据;
αj为第一关键词所包含的第j条数据的具体数据或处理后的数据;
α0为第一关键词所包含的n条数据的具体数据的有效均值或处理后数据的有效均值;
βj为第二关键词所包含的第j条数据的具体数据或处理后的数据;
β0为第二关键词所包含的n条数据的具体数据的有效均值或处理后数据的有效均值;
p为计算第一关键词所包含数据与第二关键词所包含数据之间的相关系数的最低数据量。
8.一种基于图谱的审计信息识别系统,其特征在于,所述系统包括:
信息获取模块,用于获取与审计信息相关的信息和数据;
信息处理模块,用于根据获取的所述与审计信息相关的信息和数据,确定审计信息关联指数,所述审计信息关联指数用于表征获取的审计信息之间的关联程度;
信息输出模块,用于根据所述审计信息关联指数,确定与审计信息有关的第一关联信息,或者通过审计信息关联指数的预设阈值,筛选出与审计信息有关的第二关联信息,其中,所述第一关联信息的范围大于等于所述第二关联信息的范围。
9.根据权利要求8所述的一种基于图谱的审计信息识别系统,其特征在于,所述系统包括:
信息参数筛选模块,用于确定审计信息第一关键词及其参数、第二关键词及其参数、第一实体及其参数、第二实体及其参数,第一实体与第二实体之间的所有关系路径及其参数,以及其他相关数据;
信息参数运算模块,用于根据信息参数筛选模块获取的参数,确定第一关键词和第一实体的相似度、第二关键词和第二实体的相似度和第一实体与第二实体之间的相关系数,并进行加权计算得到审计信息关联指数。
10.一种计算机装置,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序时,实现如权利要求1-7任一项所述的基于图谱的审计信息识别方法。
CN202111070221.2A 2021-09-13 2021-09-13 一种基于图谱的审计信息识别方法与系统 Active CN113836313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111070221.2A CN113836313B (zh) 2021-09-13 2021-09-13 一种基于图谱的审计信息识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111070221.2A CN113836313B (zh) 2021-09-13 2021-09-13 一种基于图谱的审计信息识别方法与系统

Publications (2)

Publication Number Publication Date
CN113836313A true CN113836313A (zh) 2021-12-24
CN113836313B CN113836313B (zh) 2022-11-25

Family

ID=78959083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111070221.2A Active CN113836313B (zh) 2021-09-13 2021-09-13 一种基于图谱的审计信息识别方法与系统

Country Status (1)

Country Link
CN (1) CN113836313B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198491B1 (en) * 2015-07-06 2019-02-05 Google Llc Computerized systems and methods for extracting and storing information regarding entities
CN110334212A (zh) * 2019-07-01 2019-10-15 南京审计大学 一种基于机器学习的领域性审计知识图谱构建方法
CN111192045A (zh) * 2019-12-16 2020-05-22 北京淇瑀信息科技有限公司 基于交易记录信息的反作弊方法、装置和系统
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质
CN112199516A (zh) * 2020-11-17 2021-01-08 重庆金融资产交易所有限责任公司 一种构建知识图谱的方法、装置、终端和存储介质
CN112288510A (zh) * 2020-08-25 2021-01-29 北京沃东天骏信息技术有限公司 物品推荐方法、装置、设备及存储介质
US20210216580A1 (en) * 2020-01-14 2021-07-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating text topics
CN113157757A (zh) * 2021-05-25 2021-07-23 深圳平安智汇企业信息管理有限公司 一种数据推荐方法、装置、电子设备及存储介质
CN113220833A (zh) * 2021-05-07 2021-08-06 支付宝(杭州)信息技术有限公司 实体关联度的识别方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198491B1 (en) * 2015-07-06 2019-02-05 Google Llc Computerized systems and methods for extracting and storing information regarding entities
CN110334212A (zh) * 2019-07-01 2019-10-15 南京审计大学 一种基于机器学习的领域性审计知识图谱构建方法
CN111192045A (zh) * 2019-12-16 2020-05-22 北京淇瑀信息科技有限公司 基于交易记录信息的反作弊方法、装置和系统
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质
US20210216580A1 (en) * 2020-01-14 2021-07-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating text topics
CN112288510A (zh) * 2020-08-25 2021-01-29 北京沃东天骏信息技术有限公司 物品推荐方法、装置、设备及存储介质
CN112199516A (zh) * 2020-11-17 2021-01-08 重庆金融资产交易所有限责任公司 一种构建知识图谱的方法、装置、终端和存储介质
CN113220833A (zh) * 2021-05-07 2021-08-06 支付宝(杭州)信息技术有限公司 实体关联度的识别方法和装置
CN113157757A (zh) * 2021-05-25 2021-07-23 深圳平安智汇企业信息管理有限公司 一种数据推荐方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王明芳: "基于关键词集合的知识关联网络构建", 《重庆文理学院学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN113836313B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
US20180260891A1 (en) Systems and methods for generating and using optimized ensemble models
Jin et al. Application of data mining technology in financial risk analysis
Piad et al. Predicting IT employability using data mining techniques
US20220343433A1 (en) System and method that rank businesses in environmental, social and governance (esg)
CN111881302B (zh) 基于知识图谱的银行舆情分析方法和系统
US10387805B2 (en) System and method for ranking news feeds
CN113934868A (zh) 政务大数据治理方法及系统
JP4957127B2 (ja) 属性間の部分関係抽出する装置、方法、及びプログラム
US11321359B2 (en) Review and curation of record clustering changes at large scale
CN116468273A (zh) 客户风险识别方法及装置
KR102121294B1 (ko) 글로벌적으로 검색된 데이터를 기반으로 한 글로벌 비즈니스 랭킹의 실시간 생성을 위한 글로벌 네트워킹 시스템
CN116596674A (zh) 基于大数据分析的对外贸易风险评估方法
Zenebe Ede'o et al. Feminization of multidimensional urban poverty in sub‐Saharan Africa: Evidence from selected countries
CN113159634A (zh) 一种金融产品管理方法、装置及电子设备
Wang Research on bank marketing behavior based on machine learning
CN113836313B (zh) 一种基于图谱的审计信息识别方法与系统
Bahri et al. How is the Transparency of Zakat Management Entities in Indonesia?
CN116108847A (zh) 知识图谱构建方法、cwe社区描述方法以及存储介质
CN116228402A (zh) 一种金融征信特征仓库技术支持系统
CN111291029B (zh) 数据清洗方法及装置
Uzoka AHP-based system for strategic evaluation of financial information
Ilieva et al. Building Independent Models of YouTube Content Networks as a Tool for Monitoring Health Misinformation
Qiu Empirical study of big data mining technology in English teaching integration and optimization analysis
Cai et al. [Retracted] A Public‐Participation‐Based Mixed Multiattribute Decision‐Making Approach for Major Public Affairs
Nascimento et al. A TOPSIS‐Based Decision Model to Establish Priorities for Sequencing the Design of Construction Projects in the Public Sector

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant