CN115204106A - 基于正则表达式神经网络的文档合规检测方法及系统 - Google Patents

基于正则表达式神经网络的文档合规检测方法及系统 Download PDF

Info

Publication number
CN115204106A
CN115204106A CN202210724409.2A CN202210724409A CN115204106A CN 115204106 A CN115204106 A CN 115204106A CN 202210724409 A CN202210724409 A CN 202210724409A CN 115204106 A CN115204106 A CN 115204106A
Authority
CN
China
Prior art keywords
document
neural network
information
regulatory
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210724409.2A
Other languages
English (en)
Inventor
邓照超
刘外喜
张晓飞
梁志鹏
雷帅
李可琪
王家伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202210724409.2A priority Critical patent/CN115204106A/zh
Publication of CN115204106A publication Critical patent/CN115204106A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于正则表达式神经网络的文档合规检测方法及系统,方法包括:获取待检测文档,对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息;获取监管法规知识库后,通过基于正则表达式神经网络的自动标签映射模块,将所述监管法规知识库和所述结构化信息进行标签映射,确定所述结构化信息对应的监管法规信息;通过基于正则表达式神经网络的自动审核模块,将所述结构化信息与对应的监管法规信息进行审核,得到审核结果。本发明一方面可以像正则表达式一样,有很强的可解释性;另一方面又有神经网络系统准确度高的优点,可以有效地满足金融机构的合规管理工作的要求,可广泛应用于计算机技术领域。

Description

基于正则表达式神经网络的文档合规检测方法及系统
技术领域
本发明涉及计算机技术领域,尤其是基于正则表达式神经网络的文档合规检测方法及系统。
背景技术
合规管理是金融机构日常经营的必备管理环节。随着监管政策趋严,金融业务的复杂化、风险的多元化,现阶段金融机构合规管理工作越来越被动。一方面金融机构很难及时掌握监管法规的变化,做出及时的应对,从而产生较大的合规管理风险;另一方面合规管理工作非常繁重,金融机构需要大量的合规管理人员。与此同时人工智能技术兴起,将人工智能技术应用到金融机构的合规管理工作中,可以有效地提高合规管理工作各个环节的效率,降低合规管理工作的工作量。
现有的人工智能合规系统主要有两种实现方法:一是基于符号的方法,如使用正则表达式或流程图。这种方法的好处是不需要数据,由业务专家设计相应的规则即可。同时这种方法可解释性强,方便给用户解释背后的逻辑。缺点是专家设计的规则有局限性,不能覆盖所有的场景,而且随着规则的增多,规则之间可能会互相冲突,维护一个庞大的规则库成本很高。二是基于神经网络的方法。这种方法的优点是通常准确度更高,系统容易迭代优化。缺点是需要大量的训练数据,而且可解释性弱,不方便给用户解释背后的逻辑。合规管理工作通常既需要高的准确度,同时需要有强的可解释性。现有的人工智能合规系统很难同时满足这两个条件。
发明内容
有鉴于此,本发明实施例提供基于正则表达式神经网络的文档合规检测方法及系统,一方面可以像正则表达式一样,有很强的可解释性;另一方面又有神经网络系统准确度高的优点,可以有效地满足金融机构的合规管理工作的要求。
本发明实施例的一方面提供了一种基于正则表达式神经网络的文档合规检测方法,包括:
获取待检测文档,对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息;
获取监管法规知识库后,通过基于正则表达式神经网络的自动标签映射模块,将所述监管法规知识库和所述结构化信息进行标签映射,确定所述结构化信息对应的监管法规信息;
通过基于正则表达式神经网络的自动审核模块,将所述结构化信息与对应的监管法规信息进行审核,得到审核结果;
其中,所述审核结果包括所述待检测文档对应的监管法规信息以及所述待检测文档的合规性。
可选地,所述对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息,包括:
当所述待检测文档为pdf文档时,
提取pdf文档的所有页,将每一页转换为一张图片;
对每张图片进行图片预处理,所述图片预处理包括去章处理、文本方向纠正以及去水印处理;
通过对每张图片进行膨胀腐蚀处理,识别出图片中的横线和竖线,再将所有的横线和竖线叠加,形成矩阵图;根据矩阵图中的矩形框和交点,识别出表格和图表;
对于可解析版pdf,通过pdf解析接口获取文字内容信息;对于扫描版pdf,通过光学字符识别技术获取图片中的文字内容;
通过文字坐标信息,结合模糊匹配判断文字所属的标题层级;
通过文字坐标信息,结合识别到的文字内容信息,整合优化成按照段落划分的文字内容。
可选地,所述对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息,包括:
当所述待检测文档为word文档时,
将word文档转换为xml格式文档,解析xml格式,获取word中的文字信息和格式信息;
将所述文字信息和格式信息整合优化成按照段落划分的文字内容;
通过所述文字内容和所述格式信息,结合模糊匹配判断文字所属的标题层级。
可选地,所述获取监管法规知识库,包括:
设计定时触发的事件和任务,定时采集最新的监管法规数据;
对采集到的监管法规数据进行数据清洗以及格式转换;
构建合规管理标签体系,将所有监管法规数据映射到特定的标签上;
设计数据库表结构,把带有标签的监管法规数据存储到数据库中。
可选地,所述通过基于正则表达式神经网络的自动标签映射模块,将所述监管法规知识库和所述结构化信息进行标签映射,确定所述结构化信息对应的监管法规信息,包括:
构建能够将文档映射到对应标签的正则表达式;
将全部所述正则表达式转换成对应的表达等价语义的有限状态自动机;
将所述有限状态自动机转换为带权重的有限状态自动机;
将所述带权重的有限状态自动机转换为循环神经网络;
采集和标注训练数据,对所述循环神经网络进行训练;
根据训练好的循环神经网络预测得到待检测文档所映射的目标标签;
通过所述目标标签,从监管法规知识库中查询得到对应的监管法规。
可选地,所述将所述带权重的有限状态自动机转换为循环神经网络,包括:
对于带权重的有限状态自动机,根据读入句子序列时的状态索引序列,构建路径,并计算所述路径的得分;
构建从初始状态读入句子序列后,到达终末状态的所有路径的集合,计算所有路径的集合的得分总和;
构建读入句子序列中若干个单词之后,从初始状态到到达状态中的所有路径数目;
将所述所有路径数目作为循环神经网络的隐状态向量,完成将带权重的有限状态自动机转换为循环神经网络。
本发明实施例的另一方面还提供了基于正则表达式神经网络的文档合规检测系统,包括:
第一模块,用于获取待检测文档,对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息;
第二模块,用于获取监管法规知识库后,通过基于正则表达式神经网络的自动标签映射模块,将所述监管法规知识库和所述结构化信息进行标签映射,确定所述结构化信息对应的监管法规信息;
第三模块,用于通过基于正则表达式神经网络的自动审核模块,将所述结构化信息与对应的监管法规信息进行审核,得到审核结果;
其中,所述审核结果包括所述待检测文档对应的监管法规信息以及所述待检测文档的合规性。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例获取待检测文档,对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息;获取监管法规知识库后,通过基于正则表达式神经网络的自动标签映射模块,将所述监管法规知识库和所述结构化信息进行标签映射,确定所述结构化信息对应的监管法规信息;通过基于正则表达式神经网络的自动审核模块,将所述结构化信息与对应的监管法规信息进行审核,得到审核结果。本发明一方面可以像正则表达式一样,有很强的可解释性;另一方面又有神经网络系统准确度高的优点,可以有效地满足金融机构的合规管理工作的要求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的系统功能示意图;
图2为本发明实施例提供的整体步骤流程图;
图3为本发明实施例提供的pdf文档解析过程的流程图;
图4为本发明实施例提供的word文档解析过程的流程图;
图5为本发明实施例提供的监管法规知识库模块的实施流程图;
图6为本发明实施例提供的自动标签映射模块的实施流程图;
图7为本发明实施例提供的自动审核模块的实施流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术存在的问题,本发明实施例的一方面提供了一种基于正则表达式神经网络的文档合规检测方法,包括:
获取待检测文档,对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息;
获取监管法规知识库后,通过基于正则表达式神经网络的自动标签映射模块,将所述监管法规知识库和所述结构化信息进行标签映射,确定所述结构化信息对应的监管法规信息;
通过基于正则表达式神经网络的自动审核模块,将所述结构化信息与对应的监管法规信息进行审核,得到审核结果;
其中,所述审核结果包括所述待检测文档对应的监管法规信息以及所述待检测文档的合规性。
可选地,所述对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息,包括:
当所述待检测文档为pdf文档时,
提取pdf文档的所有页,将每一页转换为一张图片;
对每张图片进行图片预处理,所述图片预处理包括去章处理、文本方向纠正以及去水印处理;
通过对每张图片进行膨胀腐蚀处理,识别出图片中的横线和竖线,再将所有的横线和竖线叠加,形成矩阵图;根据矩阵图中的矩形框和交点,识别出表格和图表;
对于可解析版pdf,通过pdf解析接口获取文字内容信息;对于扫描版pdf,通过光学字符识别技术获取图片中的文字内容;
通过文字坐标信息,结合模糊匹配判断文字所属的标题层级;
通过文字坐标信息,结合识别到的文字内容信息,整合优化成按照段落划分的文字内容。
可选地,所述对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息,包括:
当所述待检测文档为word文档时,
将word文档转换为xml格式文档,解析xml格式,获取word中的文字信息和格式信息;
将所述文字信息和格式信息整合优化成按照段落划分的文字内容;
通过所述文字内容和所述格式信息,结合模糊匹配判断文字所属的标题层级。
可选地,所述获取监管法规知识库,包括:
设计定时触发的事件和任务,定时采集最新的监管法规数据;
对采集到的监管法规数据进行数据清洗以及格式转换;
构建合规管理标签体系,将所有监管法规数据映射到特定的标签上;
设计数据库表结构,把带有标签的监管法规数据存储到数据库中。
可选地,所述通过基于正则表达式神经网络的自动标签映射模块,将所述监管法规知识库和所述结构化信息进行标签映射,确定所述结构化信息对应的监管法规信息,包括:
构建能够将文档映射到对应标签的正则表达式;
将全部所述正则表达式转换成对应的表达等价语义的有限状态自动机;
将所述有限状态自动机转换为带权重的有限状态自动机;
将所述带权重的有限状态自动机转换为循环神经网络;
采集和标注训练数据,对所述循环神经网络进行训练;
根据训练好的循环神经网络预测得到待检测文档所映射的目标标签;
通过所述目标标签,从监管法规知识库中查询得到对应的监管法规。
可选地,所述将所述带权重的有限状态自动机转换为循环神经网络,包括:
对于带权重的有限状态自动机,根据读入句子序列时的状态索引序列,构建路径,并计算所述路径的得分;
构建从初始状态读入句子序列后,到达终末状态的所有路径的集合,计算所有路径的集合的得分总和;
构建读入句子序列中若干个单词之后,从初始状态到到达状态中的所有路径数目;
将所述所有路径数目作为循环神经网络的隐状态向量,完成将带权重的有限状态自动机转换为循环神经网络。
本发明实施例的另一方面还提供了基于正则表达式神经网络的文档合规检测系统,包括:
第一模块,用于获取待检测文档,对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息;
第二模块,用于获取监管法规知识库后,通过基于正则表达式神经网络的自动标签映射模块,将所述监管法规知识库和所述结构化信息进行标签映射,确定所述结构化信息对应的监管法规信息;
第三模块,用于通过基于正则表达式神经网络的自动审核模块,将所述结构化信息与对应的监管法规信息进行审核,得到审核结果;
其中,所述审核结果包括所述待检测文档对应的监管法规信息以及所述待检测文档的合规性。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
下面结合说明书附图,对本发明的具体实现过程进行详细描述:
通过本发明的方法,可以实现一个具体产品,该产品可以是一个基于正则表达式神经网络的人工智能合规系统,其功能是用户上传一个需要合规审核的文档,自动找到与需要合规审核的文档相关的监管法规,并自动审核是否符合监管法规的要求。系统输入输出如图1所示。
在本发明实施例中,可以将本发明的整体划分成四个主要模块:pdf/word文档解析模块、监管法规知识库模块、基于正则表达式神经网络的自动标签映射模块、基于正则表达式神经网络的自动审核模块。系统流程图如图2所示,系统流程为:用户上传一个需要合规审核的文档,通过pdf/word文档解析模块,将文档解析为标准格式的结构化数据。然后通过基于正则表达式神经网络的自动标签映射模块,在监管法规知识库中找到与这篇文档相关的监管法规。最后通过基于正则表达式神经网络的自动审核模块,对文档进行合规审核,得到是否符合监管法规要求的结论。
下面分别详细介绍4个模块的具体实施方式。
一、pdf/word文档解析模块
pdf/word文档解析模块用于将输入的pdf/word文档进行结构化解析,解析出文档中的文字、表格、图表、标题层级、页眉页脚等信息。
1、如图3所示:pdf解析主要由pdf转图片、图片预处理、表格和图表提取,标题层级检测,文本内容识别等部分组成。首先将需识别的PDF转换为相应的图片,并进行去章,文本方向纠正,去水印等预处理工作,然后进行表格和图表提取,标题层级检测,文本内容识别等工作。
其中每个步骤实施方式如下:
(1)pdf转图片
提取pdf文档的所有页,将每一页转换为一张图片。
(2)图片预处理
对图片进行去章,文本方向纠正,去水印等预处理工作。
(3)表格和图表提取
通过对图片进行膨胀腐蚀处理,识别出图片中的横线和竖线,再将所有的横线图和竖线图叠加,形成矩阵图。根据矩阵图中的矩形框和交点,识别出表格和图表。
(4)pdf解析接口和光学字符识别技术提取pdf信息
对于可解析版pdf通过pdf解析接口,可以获取文字内容等信息,对于扫描版pdf通过光学字符识别技术,获取图片中的文字内容。
(5)标题层级检测
通过文字坐标信息,结合模糊匹配判断文字所属的标题层级
(6)文本内容识别
通过文字坐标信息,结合步骤(4)识别到的文字内容信息,整合优化成按照段落划分的文字内容。
2、word解析主要由标题层级检测,文本内容识别等部分组成。如图4所示:
其中每个步骤实施方式如下:
(1)word解析接口
将word文档转换为xml格式文档,解析xml格式,获取word中的文字、格式等信息。
(2)文本内容识别
通过步骤(1)识别到的文字、格式等信息,整合优化成按照段落划分的文字内容。
(3)标题层级检测
通过文字内容和格式信息,结合模糊匹配判断文字所属的标题层级。
二、监管法规知识库模块
监管法规知识库模块用于存储和查询现有的监管法规。如图5所示:主要由监管法规数据采集、数据处理、标签化映射、存储入库四个模块组成。
其中每个步骤实施方式如下:
(1)数据采集
设计定时触发事件和触发任务,不断采集监管法规数据,保证监管法规数据可以不断更新,保持实时性。
(2)数据处理
对采集到的监管法规数据进行数据清洗、格式转换。
(3)标签化映射
构建合规管理标签体系,将所有监管法规数据映射到特定的标签上。
(4)存储入库
设计数据库表结构,把步骤(3)中带有标签的监管法规数据存储到数据库中。
三、基于正则表达式神经网络的自动标签映射模块
基于正则表达式神经网络的自动标签映射模块用于将需要合规审核的文档自动映射到一个标签组,并通过标签组在监管法规知识库中找到相关的监管法规。如图6所示:主要由七个步骤组成:设计把文档映射到标签的正则表达式、正则表达式转换为有限状态自动机、有限状态自动机转换为带权重的有限状态自动机、带权重的有限状态自动机转换为循环神经网络、循环神经网络进行训练、训练好的循环神经网络预测出文档映射的标签、通过文档映射的标签查询监管法规知识库中相关的监管法规。
其中,每个步骤实施方式如下:
(1)设计把文档映射到标签的正则表达式:
合规管理的业务专家根据经验设计出把文档映射到标签的正则表达式,可以把一些常见的文档映射到标签上,但是这些正则表达式不能覆盖所有的文档,而且准确度不够。
(2)正则表达式转换为有限状态自动机:
根据Thompson’s Construction Algorithm(汤普森构造算法),每个正则表达式都可以被转换成一个表达等价语义的有限状态自动机。利用该算法,把步骤(1)中的正则表达式全部转换为有限状态自动机。
(3)有限状态自动机转换为带权重的有限状态自动机:
有限状态自动机在进行状态转移的时候,是没有权重的。比如从状态S1转移到状态S2的时候,只有两种情况,可以转移和不可以转移。现在把状态转移添加一个权重,比如从状态S1转移到状态S2的时候,存在一个权重,这个权重代表状态S1转移到状态S2的概率,是一个实数。这样带权重的有限状态自动机可以用五元组(公式1)表示:
A=(Σ,S,T,α0,α) 公式1
其中,Σ是输入字典,包含V个单词,即|Σ|=V;
S是状态集合,包含K个状态,即|S|=K;
T∈RV×K×K是转移权重张量,T[σ,i,j]是当输入为σ时,从状态si转移到状态sj的权重;
α0∈RK是初始权重,α0[i]是t=0的时候,si处的权重值;
α∈RK是终末权重,α[i]是读取所有输入后,si处的权重值。
(4)带权重的有限状态自动机转换为循环神经网络,具体包括以下1)-4)四个步骤:
1)、对于带权重的有限状态自动机,令路径p=(u1,u2,…,uN+1)是读入句子序列x时的状态索引序列,则路径p的得分B(A,p)可以被计算为公式2:
Figure BDA0003712789390000101
2)、令π(x)是从初始状态s0,读入句子序列x后,最后到达终末状态si(si∈S)的所有路径的集合,则前向得分Bforward(A,x)是所有路径的集合π(x)的得分总和。根据forwardalgorithm(前向算法),Bforward(A,x)可以被计算为公式3:
Figure BDA0003712789390000102
3)、令ht[i](ht∈RK)是读入句子序列x中的t个单词之后,从初始状态s0到达状态si的路径数目,则公式3可以重写为下列公式4:
Figure BDA0003712789390000103
ht=ht-1·T[xt],1≤t≤N
Bforward(A,x)=hN·α
4)、把ht看成是循环神经网络的隐状态向量,则公式4对应参数为A=(α0,T,α)的循环神经网络,至此带权重的有限状态自动机转换为循环神经网络。
(5)循环神经网络进行训练:
采集和标注训练数据,训练步骤(4)中得到的循环神经网络,提高循环神经网络的预测准确度。
(6)训练好的循环神经网络预测出文档映射的标签:
利用步骤(5)中已经循环好的循环神经网络,预测出文档映射的标签。此时由于循环神经网络已经进行了充分训练,预测出的标签比步骤(1)中的正则表达式覆盖范围广,准确度高,而且具有步骤(1)中的正则表达式可解释性强的优点。
(7)通过文档映射的标签查询监管法规知识库中相关的监管法规:
利用步骤(6)中得到的映射标签,从监管法规知识库中查询到具有相似标签的监管法规,从而得到与文档相关的监管法规。
四、基于正则表达式神经网络的自动审核模块:
基于正则表达式神经网络的自动审核模块用于将需要合规审核的文档和与文档相关的监管法规进行自动比对,自动生成文档是否符合监管法规要求的结论。如图7所示:此模块主要由六个步骤组成:设计自动审核的正则表达式、正则表达式转换为有限状态自动机、有限状态自动机转换为带权重的有限状态自动机、带权重的有限状态自动机转换为循环神经网络、循环神经网络进行训练、训练好的循环神经网络预测出文档是否符合监管法规要求。
其中每个步骤实施方式如下:
(1)设计自动审核的正则表达式:
合规管理的业务专家根据经验设计出自动审核的正则表达式,可以对常见的文档进行自动审核,判断是否符合监管法规的要求。但是这些正则表达式不能覆盖所有的文档,而且准确度不够。
(2)正则表达式转换为有限状态自动机:
根据Thompson’s Construction Algorithm(汤普森构造算法),每个正则表达式都可以被转换成一个表达等价语义的有限状态自动机。利用该算法,把步骤(1)中的正则表达式全部转换为有限状态自动机。
(3)有限状态自动机转换为带权重的有限状态自动机:
有限状态自动机在进行状态转移的时候,是没有权重的。比如从状态S1转移到状态S2的时候,只有两种情况,可以转移和不可以转移。现在把状态转移添加一个权重,比如从状态S1转移到状态S2的时候,存在一个权重,这个权重代表状态S1转移到状态S2的概率,是一个实数。这样带权重的有限状态自动机可以用五元组(上文公式1)表示。
(4)带权重的有限状态自动机转换为循环神经网络:
对于带权重的有限状态自动机,如上文公式2、公式3、公式4推导,可以转换为循环神经网络。
(5)循环神经网络进行训练:
采集和标注训练数据,训练步骤(4)中得到的循环神经网络,提高循环神经网络的预测准确度。
(6)训练好的循环神经网络对文档进行自动审核:
利用步骤(5)中已经循环好的循环神经网络,对文档进行自动审核。判断文档是否符合监管法规的要求。此时由于循环神经网络已经进行了充分训练,得出的结论比步骤(1)中的正则表达式覆盖范围广,准确度高,而且具有步骤(1)中的正则表达式可解释性强的优点。
综上所述,本发明是一个基于正则表达式神经网络的人工智能合规系统,可以自动找到与需要合规审核的文档相关的监管法规,并自动审核是否符合这些监管法规的要求。本发明基于正则表达式和神经网络进行混合建模。一方面像正则表达式一样,有很强的可解释性;另一方面又有神经网络系统准确度高的优点,满足了合规管理工作通常既需要高的准确度,同时需要有强的可解释性的要求。可以大大提高合规管理工作的效率。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.基于正则表达式神经网络的文档合规检测方法,其特征在于,包括:
获取待检测文档,对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息;
获取监管法规知识库后,通过基于正则表达式神经网络的自动标签映射模块,将所述监管法规知识库和所述结构化信息进行标签映射,确定所述结构化信息对应的监管法规信息;
通过基于正则表达式神经网络的自动审核模块,将所述结构化信息与对应的监管法规信息进行审核,得到审核结果;
其中,所述审核结果包括所述待检测文档对应的监管法规信息以及所述待检测文档的合规性。
2.根据权利要求1所述的基于正则表达式神经网络的文档合规检测方法,其特征在于,所述对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息,包括:
当所述待检测文档为pdf文档时,
提取pdf文档的所有页,将每一页转换为一张图片;
对每张图片进行图片预处理,所述图片预处理包括去章处理、文本方向纠正以及去水印处理;
通过对每张图片进行膨胀腐蚀处理,识别出图片中的横线和竖线,再将所有的横线和竖线叠加,形成矩阵图;根据矩阵图中的矩形框和交点,识别出表格和图表;
对于可解析版pdf,通过pdf解析接口获取文字内容信息;对于扫描版pdf,通过光学字符识别技术获取图片中的文字内容;
通过文字坐标信息,结合模糊匹配判断文字所属的标题层级;
通过文字坐标信息,结合识别到的文字内容信息,整合优化成按照段落划分的文字内容。
3.根据权利要求1所述的基于正则表达式神经网络的文档合规检测方法,其特征在于,所述对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息,包括:
当所述待检测文档为word文档时,
将word文档转换为xml格式文档,解析xml格式,获取word中的文字信息和格式信息;
将所述文字信息和格式信息整合优化成按照段落划分的文字内容;
通过所述文字内容和所述格式信息,结合模糊匹配判断文字所属的标题层级。
4.根据权利要求1所述的基于正则表达式神经网络的文档合规检测方法,其特征在于,所述获取监管法规知识库,包括:
设计定时触发的事件和任务,定时采集最新的监管法规数据;
对采集到的监管法规数据进行数据清洗以及格式转换;
构建合规管理标签体系,将所有监管法规数据映射到特定的标签上;
设计数据库表结构,把带有标签的监管法规数据存储到数据库中。
5.根据权利要求1所述的基于正则表达式神经网络的文档合规检测方法,其特征在于,所述通过基于正则表达式神经网络的自动标签映射模块,将所述监管法规知识库和所述结构化信息进行标签映射,确定所述结构化信息对应的监管法规信息,包括:
构建能够将文档映射到对应标签的正则表达式;
将全部所述正则表达式转换成对应的表达等价语义的有限状态自动机;
将所述有限状态自动机转换为带权重的有限状态自动机;
将所述带权重的有限状态自动机转换为循环神经网络;
采集和标注训练数据,对所述循环神经网络进行训练;
根据训练好的循环神经网络预测得到待检测文档所映射的目标标签;
通过所述目标标签,从监管法规知识库中查询得到对应的监管法规。
6.根据权利要求5所述的基于正则表达式神经网络的文档合规检测方法,其特征在于,所述将所述带权重的有限状态自动机转换为循环神经网络,包括:
对于带权重的有限状态自动机,根据读入句子序列时的状态索引序列,构建路径,并计算所述路径的得分;
构建从初始状态读入句子序列后,到达终末状态的所有路径的集合,计算所有路径的集合的得分总和;
构建读入句子序列中若干个单词之后,从初始状态到到达状态中的所有路径数目;
将所述所有路径数目作为循环神经网络的隐状态向量,完成将带权重的有限状态自动机转换为循环神经网络。
7.基于正则表达式神经网络的文档合规检测系统,其特征在于,包括:
第一模块,用于获取待检测文档,对所述待检测文档进行结构化解析,得到所述待检测文档的结构化信息;
第二模块,用于获取监管法规知识库后,通过基于正则表达式神经网络的自动标签映射模块,将所述监管法规知识库和所述结构化信息进行标签映射,确定所述结构化信息对应的监管法规信息;
第三模块,用于通过基于正则表达式神经网络的自动审核模块,将所述结构化信息与对应的监管法规信息进行审核,得到审核结果;
其中,所述审核结果包括所述待检测文档对应的监管法规信息以及所述待检测文档的合规性。
8.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
CN202210724409.2A 2022-06-24 2022-06-24 基于正则表达式神经网络的文档合规检测方法及系统 Pending CN115204106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210724409.2A CN115204106A (zh) 2022-06-24 2022-06-24 基于正则表达式神经网络的文档合规检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210724409.2A CN115204106A (zh) 2022-06-24 2022-06-24 基于正则表达式神经网络的文档合规检测方法及系统

Publications (1)

Publication Number Publication Date
CN115204106A true CN115204106A (zh) 2022-10-18

Family

ID=83577913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210724409.2A Pending CN115204106A (zh) 2022-06-24 2022-06-24 基于正则表达式神经网络的文档合规检测方法及系统

Country Status (1)

Country Link
CN (1) CN115204106A (zh)

Similar Documents

Publication Publication Date Title
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
CN112015859B (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN112633419B (zh) 小样本学习方法、装置、电子设备和存储介质
CN113326380B (zh) 基于深度神经网络的设备量测数据处理方法、系统及终端
CN110347840A (zh) 投诉文本类别的预测方法、系统、设备和存储介质
CN116501898B (zh) 适用于少样本和有偏数据的金融文本事件抽取方法和装置
CN115547466B (zh) 基于大数据的医疗机构登记评审系统及其方法
CN112181490B (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
CN115034200A (zh) 图纸信息提取方法、装置、电子设备及存储介质
CN112685374B (zh) 日志分类方法、装置及电子设备
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN114356924A (zh) 用于从结构化文档提取数据的方法和设备
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN116304115B (zh) 一种基于知识图谱的物资匹配替换方法和装置
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN111950646A (zh) 电磁图像的层次化知识模型构建方法及目标识别方法
CN115204106A (zh) 基于正则表达式神经网络的文档合规检测方法及系统
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
CN111046934B (zh) 一种swift报文软条款识别方法及装置
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
EP2565799A1 (en) Method and device for generating a fuzzy rule base for classifying logical structure features of printed documents
CN116578613B (zh) 一种用于大数据分析的数据挖掘系统
CN115861720B (zh) 一种小样本亚类图像分类识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination