CN111046934B - 一种swift报文软条款识别方法及装置 - Google Patents

一种swift报文软条款识别方法及装置 Download PDF

Info

Publication number
CN111046934B
CN111046934B CN201911227584.5A CN201911227584A CN111046934B CN 111046934 B CN111046934 B CN 111046934B CN 201911227584 A CN201911227584 A CN 201911227584A CN 111046934 B CN111046934 B CN 111046934B
Authority
CN
China
Prior art keywords
soft
clauses
deep learning
training set
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911227584.5A
Other languages
English (en)
Other versions
CN111046934A (zh
Inventor
王国悦
刘爱辉
韦有华
张玉敏
王启杰
雷鸣
卢时云
万光明
李力
韦浩昕
李瑾
张剑涛
陆佳庆
马超龙
饶帆
汪宏
任贺
欧佶
石莹滢
孙春银
梁佳敏
潘玉婷
黄珊丽
袁娟
张小彪
喻凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN201911227584.5A priority Critical patent/CN111046934B/zh
Publication of CN111046934A publication Critical patent/CN111046934A/zh
Application granted granted Critical
Publication of CN111046934B publication Critical patent/CN111046934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种SWIFT报文软条款识别方法及装置,SWIFT报文软条款识别方法包括:获取软条款待识别的SWIFT报文;利用所述SWIFT报文及预先建立的深度学习分类模型对所述SWIFT报文中的软条款进行识别。本发明能够建立一通过人工智能算法解析SWIFT报文内容,提取业务要素的SWIFT报文软条款识别方法。

Description

一种SWIFT报文软条款识别方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种SWIFT报文软条款识别方法及装置。
背景技术
信用证业务中,出口信用证通知时需确定信用证的表面真实性,准确通知信用证条款。目前银行收到信用证时,全部由人工审核该信用证内容是否符合本国政策、国际贸易惯例、《UCP600》,是否含有不利于受益人的软条款,必要栏位是否完整准确等。其中国际上常见的软条款有十余种分类,完全依赖审核人员的经验判断。另外,审核人员还需手动分拆录入报文信息及人工判断申请人、开证行所在地国家是否在反洗钱名单中,十分耗时耗力。对于出口信用证MT700/710/720报文,现有技术仅可以对报文按栏位拆解保存,无法对内容进行深度分析处理。另外需要用户手工将MT700/710/720报文内容分析理解后,输入系统录入界面对应栏位,效率较低,人力资源占用较多。
发明内容
针对现有技术中的问题,本发明能够建立一通过人工智能算法解析SWIFT报文内容,提取业务要素的SWIFT报文软条款识别方法。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种SWIFT报文软条款识别方法,包括:
获取软条款待识别的SWIFT报文;
利用所述SWIFT报文及预先建立的深度学习分类模型对所述SWIFT报文中的软条款进行识别。
一实施例中,SWIFT报文软条款识别方法还包括:建立所述深度计算分类模型的步骤,包括:
根据非软条款及所述软条款生成第一训练集,其中,所述第一训练集中所述软条款数量大于所述非软条款数量;
利用深度学习算法,根据所述第一训练集生成所述深度学习分类模型。
一实施例中,所述利用深度学习算法,根据所述第一训练集生成所述深度学习分类模型,包括:
利用深度学习算法,根据所述训练集,生成所述软条款的二分类模型;
根据所述二分类模型生成第二训练集,其中,所述第二训练集中为所述软条款集合;
利用深度学习算法,根据所述第二训练集,生成所述深度学习分类模型。
一实施例中,所述SWIFT报文包括:MT700报文、MT710报文以及MT720报文。
第二方面,本发明提供一种SWIFT报文软条款识别装置,该装置包括:
报文获取单元,用于获取软条款待识别的SWIFT报文;
软条款识别单元,用于利用所述SWIFT报文及预先建立的深度学习分类模型对所述SWIFT报文中的软条款进行识别。
一实施例中,SWIFT报文软条款识别装置还包括:模型建立单元,用于建立所述深度计算分类模型的步骤,所述模型建立单元包括:
第一训练集生成模块,用于根据非软条款及所述软条款生成第一训练集,其中,所述第一训练集中所述软条款数量大于所述非软条款数量;
模型生成模块,用于利用深度学习算法,根据所述第一训练集,生成所述深度学习分类模型。
一实施例中,所述模型生成模块包括:
二分类模型生成模块,用于利用深度学习算法,根据所述训练集,生成所述软条款的二分类模型;
第二训练集生成模块,用于根据所述二分类模型生成第二训练集,其中,所述第二训练集中为所述软条款集合;
模型生成子模块,用于利用深度学习算法,根据所述第二训练集,生成所述深度学习分类模型。
一实施例中,所述SWIFT报文包括:MT700报文、MT710报文以及MT720报文。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现SWIFT报文软条款识别方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现SWIFT报文软条款识别方法的步骤。
从上述描述可知,本发明提供SWIFT报文软条款识别方法及装置,通过人工智能算法解析并阅读SWIFT报文内容,提取业务要素。接着,将业务要素自动录入对应栏位,生成业务结果,提高业务处理效率,减少人力资源使用。最后通过提升系统前端技术能力,丰富智能审单展示效果,综上本方法极大减少前端用户工作量,提高了工作效率。极大提高系统对信用证内容的抽取和理解程度,对十余种软条款进行自动识别和归类,提升了业务风险防控及增值能力;丰富前端展示效果,提升用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例中的SWIFT报文软条款识别方法的流程示意图一;
图2为本发明的实施例中的SWIFT报文软条款识别方法的流程示意图二;
图3为本发明的实施例中的SWIFT报文软条款识别方法步骤300的流程示意图;
图4为本发明的实施例中的步骤302的流程示意图;
图5为本发明的具体应用实例中SWIFT报文软条款识别方法的流程示意图;
图6为本发明的具体应用实例中现有系统出口信用证通知主流程图;
图7为本发明的具体应用实例中改造后出口信用证通知主流程图;
图8为本发明的实施例中的SWIFT报文软条款识别装置的结构示意图一;
图9为本发明的实施例中的SWIFT报文软条款识别装置的结构示意图二;
图10为本发明的实施例中的SWIFT报文软条款识别装置中模型建立单元结构示意图;
图11为本发明的实施例中的SWIFT报文软条款识别装置中模型生成模块结构示意图;
图12为本发明的实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由背景技术可知,现有技术中,针对SWIFT报文处理方法存在以下问题:
1、对于出口信用证MT700/710/720报文现有技术仅可以对报文按栏位拆解保存,无法对内容进行深度分析处理。
2、需要用户手工将MT700/710/720报文内容分析理解后,输入系统录入界面对应栏位,效率较低,人力资源占用较多。
3、现有系统前端展示效果单一,无法通过带颜色、下划线等富文本的手段进行展示。
基于上述内容(现有技术的缺点),本发明的实施例提供了一种SWIFT报文软条款识别方法的具体实施方式,参见图1,该方法具体包括如下内容:
步骤100:获取软条款待识别的SWIFT报文。
可以理解的是,一份标准的SWIFT报文由报头、正文、报尾组成,还包括发报银行和收报银行。
步骤200:利用所述SWIFT报文及预先建立的深度学习分类模型对所述SWIFT报文中的软条款进行识别。
深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次,学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合底层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(Deep Belief Network,DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外LeCun等人提出的卷积神经网络也是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
典型的深度学习模型是指具有“多隐层”的神经网络,这里的“多隐层”代表有三个以上隐层,深度学习模型通常有八九层甚至更多隐层。隐层多了,相应的神经元连接权、阈值等参数就会更多。这意味着深度学习模型可以自动提取很多复杂的特征。过去在设计复杂模型时会遇到训练效率低,易陷入过拟合的问题,但随着云计算、大数据时代的到来,海量的训练数据配合逐层预训练和误差逆传播微调的方法,让模型训练效率大幅提高,同时降低了过拟合的风险。相比而言,传统的机器学习算法很难对原始数据进行处理,通常需要人为的从原始数据中提取特征。这需要系统设计者对原始的数据有相当专业的认识。在获得了比较好的特征表示后就需要设计一个对应的分类器,使用相应的特征对问题进行分类。而深度学习是一种自动提取特征的学习算法,通过多层次的非线性变换,它可以将初始的“底层”特征表示转化为“高层”特征表示后,用“简单模型”即可完成复杂的分类学习任务。
从上述描述可知,本发明提供SWIFT报文软条款识别方法,通过人工智能算法解析并阅读SWIFT报文内容,提取业务要素。接着,将业务要素自动录入对应栏位,生成业务结果,提高业务处理效率,减少人力资源使用。最后通过提升系统前端技术能力,丰富智能审单展示效果,综上本方法极大减少前端用户工作量,提高了工作效率。极大提高系统对信用证内容的抽取和理解程度,对十余种软条款进行自动识别和归类,提升了业务风险防控及增值能力;丰富前端展示效果,提升用户体验。
一实施例中,参见图2,SWIFT报文软条款识别方法,还包括:
步骤300:建立所述深度计算分类模型。
参见图3,步骤300具体包括:
步骤301:根据非软条款及所述软条款生成第一训练集,其中,所述第一训练集中所述软条款数量大于所述非软条款数量。
由于在国际结算SWIFT报文(MT700/710/720)中,软条款的比例极其不平衡(软条款少非软条款多),所以直接训练模型,会导致模型极大的倾向将条款预测成非软条款,因此,需要在训练集中增加软条款数量,提升软条款比例。
步骤302:利用深度学习算法,根据所述第一训练集生成所述深度学习分类模型。
一实施例中,参见图4,步骤302具体包括:
步骤3021:利用深度学习算法,根据所述训练集,生成所述软条款的二分类模型。
可以理解的是,训练一个软条款和非软条款的二分类模型,并确保软条款的召回率大,这样可以降低软条款的遗漏率。
步骤3022:根据所述二分类模型生成第二训练集,其中,所述第二训练集中为所述软条款集合。
可以理解的是,步骤3022的目的是在全部由软条款组成的的数据集中训练软条款的细分类,从而提高步骤3023中的深度学习分类模型的准确度。
步骤3023:利用深度学习算法,根据所述第二训练集,生成所述深度学习分类模型。
通过软条款和非软条款的二分类模型,初步筛选出那些条款有可能是软条款,然后,将这些初筛的条款送入软条款的细分类模型,预测该条款属于哪种类型的软条款。
具体地,使用TextCNN深度学习分类算法应用于第二训练集中软条款集合的分类;进一步地,其包括:软条款分类模型训练-数据处理;软条款集upsampling上采样、downsampling下采样;软条款句子全部大写,去除前面的句首分隔符;去除句尾的.(点符号);将数字替换成REPLACENUM字样;去掉句子中括号内信息无意义的内容,常见的有(s);去掉某些单词后的特殊字符;去掉连续的特殊字符;逗号、停用词替换成空格;多个空格替换成空格;训练词向量文件;句子按照单词长度进行截断或者扩充;对标注数据切割为训练集和校验集,切割率设定为训练:校验=9:1;
接着构建软条款分类模型训练-模型:软条款分类模型网络结构为一层卷积,一层max-pooling,最后将输出外接softmax来进行软条款的分类,软条款类别分为7类;分类的过程为:
A)将软条款通过CBOW转换成词向量。
B)软条款分类的卷积层中,使用一个卷积核,与一个窗口,进行卷积操作,产
生一个特征Ci,filter在软条款句子的单词上进行所有可能的滑动,通过最终拼接得到c=[c1,c2,...,cn-h+1],就是feature map,每一次卷积操作相当于对软条款句子进行一次特征向量的提取,通过定义不同的窗口,就可以提取出不同的特征向量,构成卷积层的输出。
C)接着进入池化层,从每个滑动窗口产生的特征向量中筛选出一个最大的特
征,然后将这些特征拼接起来构成向量表示。
D)最后接入全连接层,使用激活函数softMax输出每个类别的概率;公式如下:
softMax函数用于软条款分类中的作用是,将多个神经元的输出,映射到(0,1)区间内,这些值的累和为1,最后选取输出结点的时候,就可以选取概率最大的结点,作为预测目标,从而进行分类。
定义L2正则权值,可用来优化目标函数或者代价函数时,对软条款分类模型参数进行更新,L2正则项起到使参数w加剧变小的效果,可以防止发生过拟合,以提高模型的泛化能力。定义输入与输出、dropout比例的占位符,设立一个常量记录L2正则损失,每当出现新的变量时就会用变量的L2正则损失乘上L2正则损失权值加入到常量中;定义词嵌入矩阵,将输入的词ID转化为词向量,为了匹配CNN的输入,将词向量结果增加一个维度;建立一个list用来保存每次卷积结果,在不同的卷积核大小进行卷积、relu激活函数和max_pool的操作后得到pooled,设置池化和卷积中的padding和strides,从而保证每个条款输出为num_filters*len(filters_sizes)个数字;将pooled_outputs中的值全部取出来然后reshape成[len(input_x),num_filters*len(filters_size)],然后进行了dropout层防止过拟合,最后再添加了一层全连接层与softmax层将特征映射成不同类别上的概率;损失函数使用的是交叉熵加上L2正则损失,最终取得最优参数。
一实施例中,所述SWIFT报文包括:MT700报文、MT710报文以及MT720报文。
从上述描述可知,本发明提供SWIFT报文软条款识别方法,通过人工智能算法解析并阅读SWIFT报文内容,提取业务要素。接着,将业务要素自动录入对应栏位,生成业务结果,提高业务处理效率,减少人力资源使用。最后通过提升系统前端技术能力,丰富智能审单展示效果,综上本方法极大减少前端用户工作量,提高了工作效率。极大提高系统对信用证内容的抽取和理解程度,对十余种软条款进行自动识别和归类,提升了业务风险防控及增值能力;丰富前端展示效果,提升用户体验。
为进一步地说明本方案,本发明提供SWIFT报文软条款识别方法的具体应用实例,该具体应用实例具体包括如下内容,参见图5。
S0:软条款识别。
由于在国际结算SWIFT报文(MT700/710/720)中,软条款的比例极其不平衡(软条款少非软条款多),所以直接训练模型,会导致模型极大的倾向将条款预测成非软条款,因此,可以采用层次分类和追加软条款的数量来解决此问题:首先,在训练集中增加软条款数量,提升软条款比例。其次,训练一个软条款和非软条款的二分类模型,并确保软条款的召回率大,这样可以降低软条款的遗漏率。最后在全是软条款的数据集中训练软条款的细分类。
预测过程:先通过软条款和非软条款的二分类模型,初步筛选出那些条款有可能是软条款,然后,将这些初筛的条款送入软条款的细分类模型,预测该条款属于哪种类型的软条款。
识别结果表明:模型准确率已经达到98%以上,但是实际校验数据情况下,仍然存在非软条款识别为软条款情况,具体表现在与软条款描述高度相似,现将关系匹配用于过滤掉无法满足软件款细节特征的语句,将误识别到的软条款进行关系干预,提高条款识别准确率。最终效果达到99.9%以上。
S1:业务相关实体识别处理。
采用规则提取与国际结算领域词典的技术手段,识别出口信用证通知业务申请人/受益人名称地址信息,以及银行的名称地址信息。分词分句,实体识别、实体链接
具体地:1、首先对数据进行预处理工作,接着抽取SWIFT CODE及名称和地址规则匹配标志词所在位置具体规则;2、若第一条规则没有抽出名称和地址,则遍历每行,查找含有数字的第一行作为名称和地址的分隔行,不包含数字的行组成的字符串作为名称,剩余字符串作为地址返回。3、若第二条规则没有抽出名称和地址,则遍历每行,查找含有数字的第一行作为名称和地址的分隔行,不包含“,”的行组成的字符串作为名称,剩余字符串作为地址返回。4、若以上三条规则皆不满足,返回空字符串。接着,标点及特殊符号的处理。利用领域词典抽取国别规则如下:将国家简称词典与上述过程中抽取的地址进行匹配;若未匹配,则与名称进行匹配;如果没匹配到,则用国家城市词典与地址进行匹配;若匹配则根据匹配到的国家全称并在国家简称词典中查找出国家简称并返回。在以上处理的结果上,抽取MT700/710/720报文47A域中的地址,抽出名称、地址和国别之后,利用名称进行实体对齐。
S2:将识别结果进行展示。
通过前端不同颜色及下划线区分智能处理各栏位结果。如果处理结果未进行任何纠错则无需进行特殊显示;如果进行了纠错则结果使用红色表示,对于实体类未对齐的结果,使用波浪线进行标注。实体验证成功,栏位背景显示绿色;实体验证未成功,栏位背景显示橙色。国结领域托收相关的字典,用于对识别返回的单词进行检查。置信度标识:用黑色字体标识为经拼写检查后存在于字典的单词;蓝色带下划线字体为纠错后经检查存在于字典的单词;红色带下划线字体为字典未登录词,进行提示。
参见图6,现有系统业务处理流程描述如下:
1、接收对方银行出口信用证通知SWIFT报文(包括MT700/710/720三类)。
2、按照SWIFT栏位规范,拆解报文各栏位内容,保存。
3、将该SWIFT报文通过工作流,流转到对应的处理机构及人员组待办事项工作流队列中。
4、用户点击待处理事项,进入系统录入界面,根据报文内容手工录入信用证信息。
5、录入完成后,生成账务信息、通知书凭证等业务要素后,提交业务处理结果。
6、业务主管对已提交业务进行复核授权。
现有系统基于建行P8(JAVA)框架进行应用开发,采用传统Spring和mybatis架构。通过传统文本处理手段编写程序,将报文内容进行栏位解析,无法对栏位内容进行深度解析及理解。可有理解的是,现有系统业务处理系统的缺点有:对于出口信用证MT700/710/720报文,现有系统仅可以对报文按栏位拆解保存,无法对内容进行深度分析处理。需要用户手工将MT700/710/720报文内容分析理解后,输入系统录入界面对应栏位,效率较低,人力资源占用较多。现有系统前端展示效果单一,无法通过带颜色、下划线等富文本的手段进行展示。
参见图7,并且由步骤S0至步骤S2可知,改造后流程处理如下:
①接收对方银行出口信用证通知SWIFT报文(MT700/710/720)。
②按照SWIFT栏位规范,拆解报文各栏位内容,保存。
③通过人工智能算法对报文内容进行解析理解,保存处理结果。
④系统将人工智能处理结果自动录入系统对应栏位,保存业务结果。
⑤将业务流转到对应主管的工作流待办事项队列。
⑥业务主管对已提交业务进行复核授权。并通过丰富的文本手段,优化前端置信度展示。
从上述描述可知,本发明提供SWIFT报文软条款识别方法,通过人工智能算法解析并阅读SWIFT报文内容,提取业务要素。接着,将业务要素自动录入对应栏位,生成业务结果,提高业务处理效率,减少人力资源使用。最后通过提升系统前端技术能力,丰富智能审单展示效果,综上本方法极大减少前端用户工作量,提高了工作效率。极大提高系统对信用证内容的抽取和理解程度,对十余种软条款进行自动识别和归类,提升了业务风险防控及增值能力;丰富前端展示效果,提升用户体验。
基于同一发明构思,本申请实施例还提供了SWIFT报文软条款识别装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于SWIFT报文软条款识别装置解决问题的原理与SWIFT报文软条款识别方法相似,因此SWIFT报文软条款识别装置的实施可以参见SWIFT报文软条款识别方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本发明的实施例提供一种能够实现SWIFT报文软条款识别方法的SWIFT报文软条款识别装置的具体实施方式,参见图8,SWIFT报文软条款识别装置具体包括如下内容:
报文获取单元10,用于获取软条款待识别的SWIFT报文;
软条款识别单元20,用于利用所述SWIFT报文及预先建立的深度学习分类模型对所述SWIFT报文中的软条款进行识别。
一实施例中,参见图9,SWIFT报文软条款识别装置还包括:模型建立单元30,用于建立所述深度计算分类模型,参见图10,所述模型建立单元30包括:
第一训练集生成模块301,用于根据非软条款及所述软条款生成第一训练集,其中,所述第一训练集中所述软条款数量大于所述非软条款数量;
模型生成模块302,用于利用深度学习算法,根据所述第一训练集,生成所述深度学习分类模型。
一实施例中,参见图11,所述模型生成模块302包括:
二分类模型生成模块3021,用于利用深度学习算法,根据所述训练集,生成所述软条款的二分类模型;
第二训练集生成模块3022,用于根据所述二分类模型生成第二训练集,其中,所述第二训练集中为所述软条款集合;
模型生成子模块3033,用于利用深度学习算法,根据所述第二训练集,生成所述深度学习分类模型。
一实施例中,所述SWIFT报文包括:MT700报文、MT710报文以及MT720报文。
从上述描述可知,本发明提供SWIFT报文软条款识别装置,通过人工智能算法解析并阅读SWIFT报文内容,提取业务要素。接着,将业务要素自动录入对应栏位,生成业务结果,提高业务处理效率,减少人力资源使用。最后通过提升系统前端技术能力,丰富智能审单展示效果,综上本方法极大减少前端用户工作量,提高了工作效率。极大提高系统对信用证内容的抽取和理解程度,对十余种软条款进行自动识别和归类,提升了业务风险防控及增值能力;丰富前端展示效果,提升用户体验。
本申请的实施例还提供能够实现上述实施例中的SWIFT报文软条款识别方法中全部步骤的一种电子设备的具体实施方式,参见图12,电子设备具体包括如下内容:
处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204;
其中,处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信;通信接口1203用于实现服务器端设备、接收报文设备以及用户端设备等相关设备之间的信息传输。
处理器1201用于调用存储器1202中的计算机程序,处理器执行计算机程序时实现上述实施例中的SWIFT报文软条款识别方法中的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:获取软条款待识别的SWIFT报文。
步骤200:利用所述SWIFT报文及预先建立的深度学习分类模型对所述SWIFT报文中的软条款进行识别。
从上述描述可知,本申请实施例中的电子设备,通过人工智能算法解析并阅读SWIFT报文内容,提取业务要素。接着,将业务要素自动录入对应栏位,生成业务结果,提高业务处理效率,减少人力资源使用。最后通过提升系统前端技术能力,丰富智能审单展示效果,综上本方法极大减少前端用户工作量,提高了工作效率。极大提高系统对信用证内容的抽取和理解程度,对十余种软条款进行自动识别和归类,提升了业务风险防控及增值能力;丰富前端展示效果,提升用户体验。
本申请的实施例还提供能够实现上述实施例中的SWIFT报文软条款识别方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的SWIFT报文软条款识别方法的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:获取软条款待识别的SWIFT报文。
步骤200:利用所述SWIFT报文及预先建立的深度学习分类模型对所述SWIFT报文中的软条款进行识别。
从上述描述可知,本申请实施例中的计算机可读存储介质,通过人工智能算法解析并阅读SWIFT报文内容,提取业务要素。接着,将业务要素自动录入对应栏位,生成业务结果,提高业务处理效率,减少人力资源使用。最后通过提升系统前端技术能力,丰富智能审单展示效果,综上本方法极大减少前端用户工作量,提高了工作效率。极大提高系统对信用证内容的抽取和理解程度,对十余种软条款进行自动识别和归类,提升了业务风险防控及增值能力;丰富前端展示效果,提升用户体验。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。

Claims (6)

1.一种SWIFT报文软条款识别方法,其特征在于,包括:
获取软条款待识别的SWIFT报文;
利用所述SWIFT报文及预先建立的深度学习分类模型对所述SWIFT报文中的软条款进行识别;
对业务相关实体进行识别处理;
将识别结果进行展示,具体包括:
通过前端不同颜色及下划线区分智能处理各栏位结果;如果处理结果未进行任何纠错,则无需进行特殊显示;如果进行了纠错,则结果使用红色表示;
对于实体类未对齐的结果,使用波浪线进行标注;
实体验证成功,栏位背景显示绿色;
实体验证未成功,栏位背景显示橙色;
国结领域托收相关的字典,用于对识别返回的单词进行检查;
置信度标识:用黑色字体标识为经拼写检查后存在于字典的单词;蓝色带下划线字体为纠错后经检查存在于字典的单词;红色带下划线字体为字典未登录词,进行提示;
建立所述深度学习分类模型包括:
根据非软条款及所述软条款生成第一训练集,其中,所述第一训练集中所述软条款数量大于所述非软条款数量;
利用深度学习算法,根据所述第一训练集生成所述深度学习分类模型;
所述利用深度学习算法,根据所述第一训练集生成所述深度学习分类模型,包括:
利用深度学习算法,根据所述训练集,生成所述软条款的二分类模型;
根据所述二分类模型生成第二训练集,其中,所述第二训练集中为所述软条款集合;
利用深度学习算法,根据所述第二训练集,生成所述深度学习分类模型;
所述利用深度学习算法,根据所述第二训练集,生成所述深度学习分类模型,包括:使用TextCNN深度学习分类算法应用于第二训练集中软条款集合的分类;其包括:软条款分类模型训练-数据处理;软条款集upsampling上采样、downsampling下采样;软条款句子大写,去除前面的句首分隔符;去除句尾的点符号;将数字替换成REPLACENUM字样;去掉句子中括号内信息无意义的内容;逗号、停用词替换成空格;多个空格替换成空格;训练词向量文件;句子按照单词长度进行截断或者扩充;对标注数据切割为训练集和校验集;
软条款分类模型网络结构为一层卷积,一层max-pooling,最后将输出外接softmax来进行软条款的分类,软条款类别分为7类;分类的过程为:
将软条款通过CBOW转换成词向量;
软条款分类的卷积层中,使用一个卷积核,与一个窗口,进行卷积操作,产生一个特征Ci,filter在软条款句子的单词上进行所有可能的滑动,通过最终拼接得到c=[c1,c2,...,cn-h+1],就是feature map,每一次卷积操作相当于对软条款句子进行一次特征向量的提取,通过定义不同的窗口,提取出不同的特征向量,构成卷积层的输出;
接着进入池化层,从每个滑动窗口产生的特征向量中筛选出一个最大的特征,然后将这些特征拼接起来构成向量表示;
最后接入全连接层,使用激活函数softMax输出每个类别的概率;公式如下:
softMax函数用于软条款分类中的作用是,将多个神经元的输出,映射到(0,1)区间内,这些值的累和为1,最后选取输出结点的时候,选取概率最大的结点,作为预测目标,从而进行分类。
2.根据权利要求1所述的SWIFT报文软条款识别方法,其特征在于,所述SWIFT报文包括:MT700报文、MT710报文以及MT720报文。
3.一种SWIFT报文软条款识别装置,其特征在于,包括:
报文获取单元,用于获取软条款待识别的SWIFT报文;
软条款识别单元,用于利用所述SWIFT报文及预先建立的深度学习分类模型对所述SWIFT报文中的软条款进行识别;
对业务相关实体进行识别处理;
将识别结果进行展示,具体包括:
通过前端不同颜色及下划线区分智能处理各栏位结果;如果处理结果未进行任何纠错,则无需进行特殊显示;如果进行了纠错,则结果使用红色表示;
对于实体类未对齐的结果,使用波浪线进行标注;
实体验证成功,栏位背景显示绿色;
实体验证未成功,栏位背景显示橙色;
国结领域托收相关的字典,用于对识别返回的单词进行检查;
置信度标识:用黑色字体标识为经拼写检查后存在于字典的单词;蓝色带下划线字体为纠错后经检查存在于字典的单词;红色带下划线字体为字典未登录词,进行提示;
模型建立单元,用于建立所述深度学习分类模型的步骤,所述模型建立单元包括:
第一训练集生成模块,用于根据非软条款及所述软条款生成第一训练集,其中,所述第一训练集中所述软条款数量大于所述非软条款数量;
模型生成模块,用于利用深度学习算法,根据所述第一训练集,生成所述深度学习分类模型;
所述模型生成模块包括:
二分类模型生成模块,用于利用深度学习算法,根据所述训练集,生成所述软条款的二分类模型;
第二训练集生成模块,用于根据所述二分类模型生成第二训练集,其中,所述第二训练集中为所述软条款集合;
模型生成子模块,用于利用深度学习算法,根据所述第二训练集,生成所述深度学习分类模型;
所述利用深度学习算法,根据所述第二训练集,生成所述深度学习分类模型,包括:使用TextCNN深度学习分类算法应用于第二训练集中软条款集合的分类;其包括:软条款分类模型训练-数据处理;软条款集upsampling上采样、downsampling下采样;软条款句子大写,去除前面的句首分隔符;去除句尾的点符号;将数字替换成REPLACENUM字样;去掉句子中括号内信息无意义的内容;逗号、停用词替换成空格;多个空格替换成空格;训练词向量文件;句子按照单词长度进行截断或者扩充;对标注数据切割为训练集和校验集;
软条款分类模型网络结构为一层卷积,一层max-pooling,最后将输出外接softmax来进行软条款的分类,软条款类别分为7类;分类的过程为:
将软条款通过CBOW转换成词向量;
软条款分类的卷积层中,使用一个卷积核,与一个窗口,进行卷积操作,产生一个特征Ci,filter在软条款句子的单词上进行所有可能的滑动,通过最终拼接得到c=[c1,c2,...,cn-h+1],就是feature map,每一次卷积操作相当于对软条款句子进行一次特征向量的提取,通过定义不同的窗口,提取出不同的特征向量,构成卷积层的输出;
接着进入池化层,从每个滑动窗口产生的特征向量中筛选出一个最大的特征,然后将这些特征拼接起来构成向量表示;
最后接入全连接层,使用激活函数softMax输出每个类别的概率;公式如下:
softMax函数用于软条款分类中的作用是,将多个神经元的输出,映射到(0,1)区间内,这些值的累和为1,最后选取输出结点的时候,选取概率最大的结点,作为预测目标,从而进行分类。
4.根据权利要求3所述的SWIFT报文软条款识别装置,其特征在于,所述SWIFT报文包括:MT700报文、MT710报文以及MT720报文。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至2任一项所述SWIFT报文软条款识别方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至2任一项所述SWIFT报文软条款识别方法的步骤。
CN201911227584.5A 2019-12-04 2019-12-04 一种swift报文软条款识别方法及装置 Active CN111046934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911227584.5A CN111046934B (zh) 2019-12-04 2019-12-04 一种swift报文软条款识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911227584.5A CN111046934B (zh) 2019-12-04 2019-12-04 一种swift报文软条款识别方法及装置

Publications (2)

Publication Number Publication Date
CN111046934A CN111046934A (zh) 2020-04-21
CN111046934B true CN111046934B (zh) 2024-04-09

Family

ID=70234619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911227584.5A Active CN111046934B (zh) 2019-12-04 2019-12-04 一种swift报文软条款识别方法及装置

Country Status (1)

Country Link
CN (1) CN111046934B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783432A (zh) * 2020-06-30 2020-10-16 中国工商银行股份有限公司 信用证审单检查要点清单的生成方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992941A (zh) * 2017-12-28 2018-05-04 武汉璞华大数据技术有限公司 一种合同条款分类方法
CN108197547A (zh) * 2017-12-26 2018-06-22 深圳云天励飞技术有限公司 人脸姿态估计方法、装置、终端及存储介质
CN108899046A (zh) * 2018-07-12 2018-11-27 东北大学 一种基于多级支持向量机分类的语音情感识别方法及系统
CN109740495A (zh) * 2018-12-28 2019-05-10 成都思晗科技股份有限公司 基于迁移学习技术的室外天气图像分类方法
CN109977899A (zh) * 2019-04-03 2019-07-05 上海感图网络科技有限公司 一种物品识别的训练、推理以及增加新种类的方法和系统
CN110008807A (zh) * 2018-12-20 2019-07-12 阿里巴巴集团控股有限公司 一种合同内容识别模型的训练方法、装置及设备
CN110070264A (zh) * 2019-03-16 2019-07-30 平安城市建设科技(深圳)有限公司 合同评价方法、平台、设备及可读存储介质
CN110399932A (zh) * 2019-07-31 2019-11-01 中国工商银行股份有限公司 信用证软条款识别方法及装置
CN110414512A (zh) * 2019-07-31 2019-11-05 中国工商银行股份有限公司 信用证审核终端

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197547A (zh) * 2017-12-26 2018-06-22 深圳云天励飞技术有限公司 人脸姿态估计方法、装置、终端及存储介质
CN107992941A (zh) * 2017-12-28 2018-05-04 武汉璞华大数据技术有限公司 一种合同条款分类方法
CN108899046A (zh) * 2018-07-12 2018-11-27 东北大学 一种基于多级支持向量机分类的语音情感识别方法及系统
CN110008807A (zh) * 2018-12-20 2019-07-12 阿里巴巴集团控股有限公司 一种合同内容识别模型的训练方法、装置及设备
CN109740495A (zh) * 2018-12-28 2019-05-10 成都思晗科技股份有限公司 基于迁移学习技术的室外天气图像分类方法
CN110070264A (zh) * 2019-03-16 2019-07-30 平安城市建设科技(深圳)有限公司 合同评价方法、平台、设备及可读存储介质
CN109977899A (zh) * 2019-04-03 2019-07-05 上海感图网络科技有限公司 一种物品识别的训练、推理以及增加新种类的方法和系统
CN110399932A (zh) * 2019-07-31 2019-11-01 中国工商银行股份有限公司 信用证软条款识别方法及装置
CN110414512A (zh) * 2019-07-31 2019-11-05 中国工商银行股份有限公司 信用证审核终端

Also Published As

Publication number Publication date
CN111046934A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
US11681925B2 (en) Techniques for creating, analyzing, and modifying neural networks
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
US11640539B2 (en) Techniques for visualizing the operation of neural networks using samples of training data
CN109344298A (zh) 一种将非结构化数据转化为结构化数据的方法及装置
US11615321B2 (en) Techniques for modifying the operation of neural networks
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
WO2021007259A1 (en) Techniques for modifying neural network definitions
CN115203338A (zh) 一种标签及标签实例推荐方法
CN111428513A (zh) 一种基于卷积神经网络的虚假评论分析方法
CN111985207A (zh) 一种访问控制策略的获取方法、装置及电子设备
Walton et al. Landscape analysis for the specimen data refinery
CN111026880A (zh) 基于联合学习的司法知识图谱构建方法
CN116150367A (zh) 一种基于方面的情感分析方法及系统
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
Garrido-Munoz et al. A holistic approach for image-to-graph: application to optical music recognition
Vafaie et al. Handwritten and printed text identification in historical archival documents
CN111046934B (zh) 一种swift报文软条款识别方法及装置
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
KR102663632B1 (ko) 인공지능 기반의 미술품 거래의 트랜드 예측 장치 및 방법
CN117710996A (zh) 基于深度学习的非结构化表格文档的数据抽取、归类与储存方法
CN116089886A (zh) 信息处理方法、装置、设备及存储介质
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220913

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Applicant after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant