CN114625872A - 基于全局指针的风险审核方法、系统、设备及存储介质 - Google Patents

基于全局指针的风险审核方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN114625872A
CN114625872A CN202210144851.8A CN202210144851A CN114625872A CN 114625872 A CN114625872 A CN 114625872A CN 202210144851 A CN202210144851 A CN 202210144851A CN 114625872 A CN114625872 A CN 114625872A
Authority
CN
China
Prior art keywords
information
model
global pointer
risk
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210144851.8A
Other languages
English (en)
Inventor
蒲珂宇
李金龙
杨一枭
刘弘一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Bank Co Ltd
Original Assignee
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Bank Co Ltd filed Critical China Merchants Bank Co Ltd
Priority to CN202210144851.8A priority Critical patent/CN114625872A/zh
Publication of CN114625872A publication Critical patent/CN114625872A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于全局指针的风险审核方法、系统、设备及存储介质,其方法包括:获取贸易背景文档,对所述贸易背景文档进行光学字符识别,得到贸易背景信息,通过预先创建的文本分类模型,对所述贸易背景信息进行文本分类,得到分类后的贸易背景信息,通过预先创建的全局指针模型,对所述分类后的贸易背景信息进行信息抽取,得到抽取的信息,对所述抽取的信息进行风险审核。本发明能实现将冗杂的贸易背景文档进行分类,输出有效背景信息,进而能够进行更深层次的风险审核,判断交易是否真实,一键式、全自动进行贸易背景的风险审核,提高准确率。

Description

基于全局指针的风险审核方法、系统、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于全局指针的风险审核方法、系统、设备及存储介质。
背景技术
人工智能迅猛发展下,机器逐渐替代人工处理一些繁琐复杂的工作,其中包括银行贷款前对客户进行贸易背景风险审核。目前大多采用关键词匹配的方法进行贸易背景风险审核,主要流程包括:上传文档,对文档进行字符识别获取文本,对文本进行分词处理,得到多个关键词,将每个关键词与预设的风险词进行匹配,匹配成功则提示风险。
由于是单纯的文本匹配方法,传统审核方法效果差、准确率低、误审率高,并且在风险审核前需要人工对背景文档进行分类,此外传统审核方法不能对客户录入的信息和上传的背景文档做进一步细致判断。
发明内容
本发明的主要目的在于提供一种基于全局指针的风险审核方法、系统、设备及存储介质,旨在一键式、全自动进行贸易背景的风险审核,提高准确率。
为实现上述目的,本发明实施例提供一种基于全局指针的风险审核方法,所述方法应用于风险审核系统,所述风险审核系统包括:文本分类模型和全局指针模型,所述方法包括以下步骤:
获取贸易背景文档;
对所述贸易背景文档进行光学字符识别,得到贸易背景信息;
通过预先创建的文本分类模型,对所述贸易背景信息进行文本分类,得到分类后的贸易背景信息;
通过预先创建的全局指针模型,对所述分类后的贸易背景信息进行信息抽取,得到抽取的信息;
对所述抽取的信息进行风险审核。
可选地,所述对所述贸易背景文档进行光学字符识别,得到贸易背景信息的步骤包括:
对所述贸易背景文档进行预处理,得到黑白点阵的图像文件,所述预处理包括:灰度化、二值化、倾斜矫正中的一种或多种;
检测所述黑白点阵的图像文件,在所述图像文件的文字区域内识别得到贸易背景信息。
可选地,所述获取贸易背景文档的步骤之前还包括:
创建所述文本分类模型,具体包括:
获取批量的金融文本信息;
对所述金融文本信息打上类别标签,得到带有类别标签的数据;
通过预训练模型,解析所述带有类别标签的数据,得到文本特征向量;
基于所述文本特征向量,结合所述带有类别标签的数据,使用交叉熵构造模型的损失函数,以此损失函数训练模型,得到训练后的文本分类模型。
可选地,所述通过预训练模型,解析所述带有类别标签的数据,得到文本特征向量的步骤之前包括:
将所述带有类别标签的数据转换成one-hot向量;
基于所述one-hot向量进行分类,得到文本类别和标签ID。
可选地,所述获取贸易背景文档的步骤之前还包括:
创建所述全局指针模型,具体包括:
获取批量的金融文本信息;
对所述金融文本信息打上实体标签,得到带有实体标签的数据;
通过预训练模型,解析所述带有实体标签的数据,得到文本特征向量;
构造两个独立的注意力矩阵,将所述注意力矩阵与所述文本特征向量进行乘积交换,得到一个起始指针矩阵和一个结尾指针矩阵;
将所述起始指针矩阵和所述结尾指针矩阵合并到一起,得到不同类别的全局指针矩阵;
基于所述全局指针矩阵,结合所述带有实体标签的数据,使用多标签交叉熵构造模型的损失函数,以此损失函数训练模型,得到训练后的全局指针模型。
可选地,所述通过预训练模型,解析所述带有实体标签的数据,得到文本特征向量的步骤之前包括:
记录所述带有实体标签的数据的类别、起始位置和结尾位置;
使用全局指针标签,输出所述带有实体标签的数据的类别矩阵。
可选地,所述对所述抽取的信息进行风险审核的步骤包括:
审核抽取的合同中的金额与客户提供的发票的金额;
审核抽取的合同中的甲乙双方与客户提供的信息;
审核客户需要贷款的金额与抽取的合同交易金额。
此外,为实现上述目的,本发明实施例还提出一种风险审核系统,所述风险审核系统包括:
字符识别模块,用于获取贸易背景文档,对所述贸易背景文档进行光学字符识别,得到贸易背景信息;
文本分类模型,用于对所述贸易背景信息进行文本分类,得到分类后的贸易背景信息;
全局指针模型,用于对所述分类后的贸易背景信息进行信息抽取,得到抽取的信息;
风险审核模块,用于对抽取的金融信息进行风险审核。
此外,为实现上述目的,本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的全局指针风险审核程序,所述全局指针风险审核程序被所述处理器执行时实现如上所述的基于全局指针的风险审核方法的步骤。
此外,为实现上述目的,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有全局指针风险审核程序,所述全局指针风险审核程序被处理器执行时实现如上所述的基于全局指针的风险审核方法的步骤。
本发明实施例提出的一种基于全局指针的风险审核方法、系统、设备及存储介质,获取贸易背景文档;对所述贸易背景文档进行光学字符识别,得到贸易背景信息;通过预先创建的文本分类模型,对所述贸易背景信息进行文本分类,得到分类后的贸易背景信息;通过预先创建的全局指针模型,对所述分类后的贸易背景信息进行信息抽取,得到抽取的信息;对所述抽取的信息进行风险审核。由此,通过上述方案,将冗杂的贸易背景文档进行分类,输出有效背景信息,进而能够进行更深层次的风险审核,判断交易是否真实,一键式、全自动进行贸易背景的风险审核,提高准确率。
附图说明
图1为本发明基于全局指针的风险审核方法实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明基于全局指针的风险审核方法实施例方案涉及的全局指针模型构建流程示意图;
图3为本发明基于全局指针的风险审核方法第一实施例的流程示意图;
图4为本发明基于全局指针的风险审核方法第二实施例的流程示意图;
图5为本发明基于全局指针的风险审核系统第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取贸易背景文档;对所述贸易背景文档进行光学字符识别,得到贸易背景信息;通过预先创建的文本分类模型,对所述贸易背景信息进行文本分类,得到分类后的贸易背景信息;通过预先创建的全局指针模型,对所述分类后的贸易背景信息进行信息抽取,得到抽取的信息;对所述抽取的信息进行风险审核。由此,通过上述方案,将冗杂的贸易背景文档进行分类,输出有效背景信息,进而能够进行更深层次的风险审核,判断交易是否真实,一键式、全自动进行贸易背景的风险审核,提高准确率。
本发明实施例考虑到,现有相关方案中,贸易背景的风险审核系统多数采用关键词匹配,由于采用的是单纯的文本匹配,审核方法效果差、准确率低、误审率高,并且在风险审核前需要人工对背景文档进行分类,此外传统审核方法不能对客户录入的信息和上传的背景文档做进一步细致判断。
因此,本发明实施例提出解决方案,可以实现一键式、全自动进行贸易背景的风险审核,将冗杂的贸易背景文档进行分类,输出有效背景信息,进而能够进行更深层次的风险审核,判断交易是否真实,提高准确率。
具体地,参照图1,图1为本发明基于全局指针的风险审核方法实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例设备可以是移动终端或服务器设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及全局指针风险审核程序。
在图1所示的系统中,网络接口1004主要用于连接网络服务器,与网络服务器进行数据通信;用户接口1003主要用于与用户交互,接收用户输入的指令;而处理器1001可以用于调用存储器1005中存储的全局指针风险审核程序,并执行以下操作:
获取贸易背景文档;
对所述贸易背景文档进行光学字符识别,得到贸易背景信息;
通过预先创建的文本分类模型,对所述贸易背景信息进行文本分类,得到分类后的贸易背景信息;
通过预先创建的全局指针模型,对所述分类后的贸易背景信息进行信息抽取,得到抽取的信息;
对所述抽取的信息进行风险审核。
进一步地,所述全局指针风险审核程序被所述处理器运行时还实现如下操作:
对所述贸易背景文档进行预处理,得到黑白点阵的图像文件,所述预处理包括:灰度化、二值化、倾斜矫正中的一种或多种;
检测所述黑白点阵的图像文件,在所述图像文件的文字区域内识别得到贸易背景信息。
进一步地,所述全局指针风险审核程序被所述处理器运行时还实现如下操作:
创建所述文本分类模型,具体包括:
获取批量的金融文本信息;
对所述金融文本信息打上类别标签,得到带有类别标签的数据;
通过预训练模型,解析所述带有类别标签的数据,得到文本特征向量;
基于所述文本特征向量,结合所述带有类别标签的数据,使用交叉熵构造模型的损失函数,以此损失函数训练模型,得到训练后的文本分类模型。
进一步地,所述全局指针风险审核程序被所述处理器运行时还实现如下操作:
将所述带有类别标签的数据转换成one-hot向量;
基于所述one-hot向量进行分类,得到文本类别和标签ID。
进一步地,所述全局指针风险审核程序被所述处理器运行时还实现如下操作:
创建所述全局指针模型,具体包括:
获取批量的金融文本信息;
对所述金融文本信息打上实体标签,得到带有实体标签的数据;
通过预训练模型,解析所述带有实体标签的数据,得到文本特征向量;
构造两个独立的注意力矩阵,将所述注意力矩阵与所述文本特征向量进行乘积交换,得到一个起始指针矩阵和一个结尾指针矩阵;
将所述起始指针矩阵和所述结尾指针矩阵合并到一起,得到不同类别的全局指针矩阵;
基于所述全局指针矩阵,结合所述带有实体标签的数据,使用多标签交叉熵构造模型的损失函数,以此损失函数训练模型,得到训练后的全局指针模型。
进一步地,所述全局指针风险审核程序被所述处理器运行时还实现如下操作:
记录所述带有实体标签的数据的类别、起始位置和结尾位置;
使用全局指针标签,输出所述带有实体标签的数据的类别矩阵。
进一步地,所述全局指针风险审核程序被所述处理器运行时还实现如下操作:
审核抽取的合同中的金额与客户提供的发票的金额;
审核抽取的合同中的甲乙双方与客户提供的信息;
审核客户需要贷款的金额与抽取的合同交易金额。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
基于上述终端设备及系统架构但不限于上述架构,提出本发明可视化肺通气监测方法实施例。
参照图2,图2为本发明基于全局指针的风险审核方法实施例方案涉及的全局指针模型构建流程示意图。如图2所示,所采用的全局指针模型结构为NEZHA模型接一个全局指针层,所述NEZHA模型结构类似BERT模型。详细构造为:经过预训练模型NEZHA模型解析后得到的文本特征向量[batch_size,seq_len,hidden_size],代表了每个输入序列在各个维度的语义信息,其中batch_size指批处理的样本数量,seq_len指文本序列长度,hidden_size指隐层大小。此时构造两个独立的双仿射注意力矩阵,与文本的中间特征向量进行乘积变换,实现文本特征之间的关联,得到一个起始指针矩阵和一个结尾指针矩阵[batch_size,seq_len,num_cate,head],其中batch_size指批处理的样本数量,seq_len指文本序列长度,num_cate指需要识别的实体种类个数,head指注意力矩阵的头部大小。最后将关联的结果即两个矩阵合并到一起作为全局指针的输出,维度为[batch_size,num_cate,seq_len,seq_len],其中batch_size指批处理的样本数量,num_cate指需要识别的实体种类个数,seq_len指文本序列长度。这样可以让标签类别的起始矩阵和结尾矩阵不再没有关联,每一个标签类别都有一个维度为(序列长度,序列长度)的矩阵来表示标签类别的起始位置和结尾位置。
参照图3,图3为本发明基于全局指针的风险审核方法第一实施例的流程示意图。如图3所示,本发明第一实施例提出一种基于全局指针的风险审核方法,所述方法应用于风险审核系统,所述风险审核系统包括:文本分类模型,全局指针模型,本实施例方案涉及一键式、全自动进行贸易背景的风险审核,提高准确率的解决方案。
具体地,本实施例基于全局指针的风险审核方法包括:
步骤S101,获取贸易背景文档。
其中,客户的贸易背景文档包括:合同、发票、说明函等图片文档。获得客户的贸易背景文档后上传到风险审核系统中。
步骤S102,对所述贸易背景文档进行光学字符识别,得到贸易背景信息。
更为具体地,首先将上传到风险审核系统的所述贸易背景文档进行预处理,预处理包括:灰度化、二值化、倾斜矫正等方式,将所述贸易背景文档转换成黑白点阵的图像文件。检测所述黑白点阵的图像文件中存在文字的区域,在所述区域内识别文字并且输出得到的贸易背景信息。
具体地,灰度化图像每个像素只需一个字节存放灰度值,灰度值范围为0-255,同时使用加权平均法获取每个像素点的灰度值。二值化过程中将图像上的像素点的灰度值设置为0或255,将整个图像呈现出明显的只有黑和白的视觉效果。此外由扫描仪扫描输入的贸易背景图像有可能是倾斜的,通过光学字符识别,可以自动检测图像的倾斜角度,并将其校正过来。
步骤S103,通过预先创建的文本分类模型,对所述贸易背景信息进行文本分类,得到分类后的贸易背景信息。
具体地,输入文档里识别出的文本,通过预先创建的文本分类模型,进行预测,即可预测所述贸易背景信息所属的类别,从而将所述贸易背景信息分为不同类别。
其中所述文本分类模型为深度学习模型,结构为类似BERT的预训练模型取CLS的输出,再接全连接层,所述预训练模型为NEZHA模型。
步骤S104,通过预先创建的全局指针模型,对所述分类后的贸易背景信息进行信息抽取,得到抽取的信息。
具体地,通过预先创建的全局指针模型,对需要提取信息的文档进行信息抽取,比如类型属于贸易合同的文档,抽取出其中的重要的金融信息:甲方名称、乙方名称、合同总金额、合同签订日期、合同终止日期、结算方式等。根据输入的贸易背景信息进行预测,即可预测并抽取金融文本信息中对应的实体片段。
其中所述全局指针模型为深度学习模型,结构为类似BERT的预训练模型再接全局指针层,所述预训练模型为NEZHA模型。
步骤S105,对所述抽取的信息进行风险审核。
具体地,根据不同的业务场景,用抽取出的金融文本信息进行风险审核,比如判断贸易合同交易的贸易背景是否属实:抽取的合同中的金额与客户提供的发票的金额是否一致;抽取的合同中的甲乙双方与客户提供的信息是否一致;客户需贷款的金额是否小于等于抽取的合同的交易金额。除此之外,其余可以通过关键词进行配对的风险审核点,比如交易的货物是否在规定的范围之中等。
本实施例通过上述方案,获取贸易背景文档;对所述贸易背景文档进行光学字符识别,得到贸易背景信息;通过预先创建的文本分类模型,对所述贸易背景信息进行文本分类,得到分类后的贸易背景信息;通过预先创建的全局指针模型,对所述分类后的贸易背景信息进行信息抽取,得到抽取的信息;对所述抽取的信息进行风险审核,由此,通过上述方案,能够自动把冗杂的背景文档进行分类,着重关注金融领域中的重要材料,如合同、发票等,并且能够把文档进行结构化,输出有效信息,包括:甲乙双方信息、合同金额与时间信息,结算方式等,进而进行更深层次的风险审核,判断交易是否真实,提高准确率。
参照图4,图4为本发明基于全局指针的风险审核方法第二实施例的流程示意图。
在本实施例中,基于上述图3所示的实施例,本实施例在上述步骤S101之前,还包括:
步骤S1001,创建所述文本分类模型;
步骤S1002,创建所述全局指针模型。
具体地,其中文本分类模型的训练过程可以如下:
如图4所示,先获得批量的金融文本信息,对批量的金融文本信息打上类别标签,得到带有类别标签的数据。紧接着对带有类别标签的数据进行预处理,将带有类别标签的数据转换成one-hot向量,根据对应的one-hot向量进行分类,得到对应的文本类别和标签ID。例如,一共有5个类别,第一个类别向量是[1 0 0 0 0],第二个类别向量是[0 1 0 00],第三个类别向量是[0 0 1 0 0],第四个类别向量是[0 0 0 1 0],第五个类别向量是[00 0 0 1],比如合同类的ID为0,说明函的ID为1,发票的ID为2,信用记录类的ID为3,其他类的ID为4。经过预训练模型解析后得到文本特征向量,基于所述文本特征向量,使用大量的金融信息进行模型的训练和拟合,使用交叉熵构造模型的损失函数,以此损失函数训练模型,得到训练后的文本分类模型。并且在训练过程中,使用部分验证集来验证模型的效果。
模型训练完成后,保存现有的模型整体结构及权重,加载保存的文本分类模型,根据输入的文本信息进行预测,模型可以预测文本信息所属的类别,从而将冗杂的金融文本信息归类,便于后续信息抽取。例如通过预先创建的文本分类模型后,输出向量是[0.8 0.10.1 0 0],就可以得出该文本属于[1 0 0 0 0]的概率最大,预测该文本属于第一类别,将该文本分到第一类中。
在本实施例中,所采用的文本分类模型结构为NEZHA模型取CLS的输出,即整个序列的向量表示,再接一个传统的全连接层,输出维度为类别个数,构建一个经典的文本分类模型。所述NEZHA模型结构类似BERT模型,采用相对位置编码方法,使得文本分类中文本长度不再受到限制,解决了传统审核方法中文本分类中文本长度超长的限制,大大降低了误审率。
具体地,全局指针模型的模型训练过程可以如下:
先获得批量的金融文本信息,对批量的金融文本信息打上实体标签,记录标签类别和文字位置信息。紧接着对带有实体标签的数据进行预处理,记录实体的类别,起始位置和结尾位置,使用全局指针标签,得到对应的实体类别矩阵,默认值全为0,再根据标签进行值的填充。例如,文字“伍仟元”在文本中位置信息为4,5,6,类别为合同金额,类别ID为2,那么该矩阵的[2,4,6]元素为1。经过预训练模型解析后得到的文本特征向量,代表了每个输入序列在各个维度的语义信息,同时构造两个独立的注意力矩阵,与文本的中间特征向量进行乘积变换,实现文本特征之间的关联,得到一个起始指针矩阵和一个结尾指针矩阵,最后将关联的结果即两个矩阵合并到一起作为全局指针的输出。这样就可以让标签类别的起始矩阵和结尾矩阵不再没有关联,每一个标签类别都有一个矩阵来表示标签类别的起始位置。基于所述全局指针矩阵,结合所述带有实体标签的数据进行模型的训练和拟合,使用多标签交叉熵构造模型的损失函数,以此损失函数训练模型,得到训练后的全局指针模型。并且在训练过程中,使用部分验证集来验证模型的效果。
模型训练完成后,保存现有的模型整体结构及权重,加载保存的全局指针模型,根据输入的文本信息进行预测,模型可以预测并抽取文本信息中对应的实体片段。例如通过预先创建的全局指针模型后,输出的句子中对应的实体类别矩阵的起始行和结束位置为1,其他非实体的都为0以下的值,抽取对应的文本信息。
在本实施例中,所采用的全局指针模型结构为NEZHA模型接一个全局指针层。所述NEZHA模型结构类似BERT模型,采用相对位置编码方法,使得文本分类中文本长度不再受到限制,大大降低了误审率。此外在全局指针模型中使用的全局指针技术解决了金融领域里信息抽取中实体嵌套的问题。传统审核方法中一个文本只属于一个实体,在信息抽取过程中会出现信息抽取错误、信息抽取残缺等问题,而全局指针技术将起始矩阵和结尾矩阵相关联,一个文本可以属于多个实体,可以精准抽取需要知道的金融文本信息,大大提高了准确率。
此外,本发明实施例还提出一种风险审核系统,参照图5,图5为本发明基于全局指针风险审核系统第一实施例的功能模块示意图。如图5所示,所述风险审核系统包括:
字符识别模块,用于获取贸易背景文档,对所述贸易背景文档进行光学字符识别,得到贸易背景信息;
文本分类模型,用于对所述贸易背景信息进行文本分类,得到分类后的贸易背景信息;
全局指针模型,用于对所述分类后的贸易背景信息进行信息抽取,得到抽取的信息;
风险审核模块,用于对抽取的金融信息进行风险审核。
本实施例实现全局指针风险审核的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的全局指针风险审核程序,所述全局指针风险审核程序被所述处理器执行时实现如上述实施例所述的基于全局指针的风险审核方法的步骤。
由于本全局指针风险审核程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有全局指针风险审核程序,所述全局指针风险审核程序被处理器执行时实现如上述实施例所述的基于全局指针的风险审核方法的步骤。
由于本全局指针风险审核程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本发明实施例提出的基于全局指针的风险审核方法、系统、设备及存储介质,获取贸易背景文档;对所述贸易背景文档进行光学字符识别,得到贸易背景信息;通过预先创建的文本分类模型,对所述贸易背景信息进行文本分类,得到分类后的贸易背景信息;通过预先创建的全局指针模型,对所述分类后的贸易背景信息进行信息抽取,得到抽取的信息;对所述抽取的信息进行风险审核。本方案实现将冗杂的贸易背景文档进行分类,输出有效背景信息,进而能够进行更深层次的风险审核,判断交易是否真实,一键式、全自动进行贸易背景的风险审核,提高准确率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于全局指针的风险审核方法,其特征在于,所述方法应用于风险审核系统,所述风险审核系统包括:文本分类模型和全局指针模型,所述方法包括以下步骤:
获取贸易背景文档;
对所述贸易背景文档进行光学字符识别,得到贸易背景信息;
通过预先创建的文本分类模型,对所述贸易背景信息进行文本分类,得到分类后的贸易背景信息;
通过预先创建的全局指针模型,对所述分类后的贸易背景信息进行信息抽取,得到抽取的信息;
对所述抽取的信息进行风险审核。
2.如权利要求1所述的基于全局指针的风险审核方法,其特征在于,所述对所述贸易背景文档进行光学字符识别,得到贸易背景信息的步骤包括:
对所述贸易背景文档进行预处理,得到黑白点阵的图像文件,所述预处理包括:灰度化、二值化、倾斜矫正中的一种或多种;
检测所述黑白点阵的图像文件,在所述图像文件的文字区域内识别得到贸易背景信息。
3.如权利要求1所述的基于全局指针的风险审核方法,其特征在于,所述获取贸易背景文档的步骤之前还包括:
创建所述文本分类模型,具体包括:
获取批量的金融文本信息;
对所述金融文本信息打上类别标签,得到带有类别标签的数据;
通过预训练模型,解析所述带有类别标签的数据,得到文本特征向量;
基于所述文本特征向量,结合所述带有类别标签的数据,使用交叉熵构造模型的损失函数,以此损失函数训练模型,得到训练后的文本分类模型。
4.如权利要求3所述的基于全局指针的风险审核方法,其特征在于,所述通过预训练模型,解析所述带有类别标签的数据,得到文本特征向量的步骤之前包括:
将所述带有类别标签的数据转换成one-hot向量;
基于所述one-hot向量进行分类,得到文本类别和标签ID。
5.如权利要求1所述的基于全局指针的风险审核方法,其特征在于,所述获取贸易背景文档的步骤之前还包括:
创建所述全局指针模型,具体包括:
获取批量的金融文本信息;
对所述金融文本信息打上实体标签,得到带有实体标签的数据;
通过预训练模型,解析所述带有实体标签的数据,得到文本特征向量;
构造两个独立的注意力矩阵,将所述注意力矩阵与所述文本特征向量进行乘积交换,得到一个起始指针矩阵和一个结尾指针矩阵;
将所述起始指针矩阵和所述结尾指针矩阵合并到一起,得到不同类别的全局指针矩阵;
基于所述全局指针矩阵,结合所述带有实体标签的数据,使用多标签交叉熵构造模型的损失函数,以此损失函数训练模型,得到训练后的全局指针模型。
6.如权利要求5所述的基于全局指针的风险审核方法,其特征在于,所述通过预训练模型,解析所述带有实体标签的数据,得到文本特征向量的步骤之前包括:
记录所述带有实体标签的数据的类别、起始位置和结尾位置;
使用全局指针标签,输出所述带有实体标签的数据的类别矩阵。
7.如权利要求1-6中任一项所述的基于全局指针的风险审核方法,其特征在于,所述对所述抽取的信息进行风险审核的步骤包括:
审核抽取的合同中的金额与客户提供的发票的金额;
审核抽取的合同中的甲乙双方与客户提供的信息;
审核客户需要贷款的金额与抽取的合同交易金额。
8.一种风险审核系统,其特征在于,所述风险审核系统包括:
字符识别模块,用于获取贸易背景文档,对所述贸易背景文档进行光学字符识别,得到贸易背景信息;
文本分类模型,用于对所述贸易背景信息进行文本分类,得到分类后的贸易背景信息;
全局指针模型,用于对所述分类后的贸易背景信息进行信息抽取,得到抽取的信息;
风险审核模块,用于对抽取的金融信息进行风险审核。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的全局指针风险审核程序,所述全局指针风险审核程序被所述处理器执行时实现如权利要求1-7中任一项所述的基于全局指针的风险审核方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有全局指针风险审核程序,所述全局指针风险审核程序被处理器执行时实现如权利要求1-7中任一项所述的基于全局指针的风险审核方法的步骤。
CN202210144851.8A 2022-02-16 2022-02-16 基于全局指针的风险审核方法、系统、设备及存储介质 Pending CN114625872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210144851.8A CN114625872A (zh) 2022-02-16 2022-02-16 基于全局指针的风险审核方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210144851.8A CN114625872A (zh) 2022-02-16 2022-02-16 基于全局指针的风险审核方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114625872A true CN114625872A (zh) 2022-06-14

Family

ID=81900899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210144851.8A Pending CN114625872A (zh) 2022-02-16 2022-02-16 基于全局指针的风险审核方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114625872A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116777621A (zh) * 2023-06-25 2023-09-19 陕西西煤云商信息科技有限公司 一种贸易业务风险防控方法及其防控系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116777621A (zh) * 2023-06-25 2023-09-19 陕西西煤云商信息科技有限公司 一种贸易业务风险防控方法及其防控系统
CN116777621B (zh) * 2023-06-25 2024-02-06 陕西西煤云商信息科技有限公司 一种贸易业务风险防控方法及其防控系统

Similar Documents

Publication Publication Date Title
EP3432197B1 (en) Method and device for identifying characters of claim settlement bill, server and storage medium
US11514698B2 (en) Intelligent extraction of information from a document
WO2022142041A1 (zh) 意图识别模型的训练方法、装置、计算机设备和存储介质
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN111046784A (zh) 文档版面分析识别方法、装置、电子设备和存储介质
US20220292861A1 (en) Docket Analysis Methods and Systems
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
US11741735B2 (en) Automatically attaching optical character recognition data to images
CN113762303B (zh) 图像分类方法、装置、电子设备及存储介质
CN115357699A (zh) 文本抽取方法、装置、设备及存储介质
CN111539414B (zh) 一种ocr图像字符识别和字符校正的方法及系统
CN111144409A (zh) 一种跟单托收审单处理方法及系统
CN111612081A (zh) 识别模型的训练方法、装置、设备及存储介质
CN110351094B (zh) 字符验证方法、装置、计算机设备及存储介质
CN116912847A (zh) 一种医学文本识别方法、装置、计算机设备及存储介质
CN114625872A (zh) 基于全局指针的风险审核方法、系统、设备及存储介质
CN117523586A (zh) 支票印章的验证方法、装置、电子设备和介质
CN114359928B (zh) 一种电子发票识别方法、装置、计算机设备及存储介质
CN112133308B (zh) 一种用于语音识别文本多标签分类的方法和装置
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN114549177A (zh) 保函审查方法、装置、系统与计算机可读存储介质
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质
KR102507534B1 (ko) 인공지능 기반의 ocr 인식을 이용한 회계 관리 방법 및 장치
US11875109B1 (en) Machine learning (ML)-based system and method for facilitating correction of data in documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination