CN111797608B - 信用数据核对方法及装置 - Google Patents

信用数据核对方法及装置 Download PDF

Info

Publication number
CN111797608B
CN111797608B CN202010606032.1A CN202010606032A CN111797608B CN 111797608 B CN111797608 B CN 111797608B CN 202010606032 A CN202010606032 A CN 202010606032A CN 111797608 B CN111797608 B CN 111797608B
Authority
CN
China
Prior art keywords
information
text
text information
message
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010606032.1A
Other languages
English (en)
Other versions
CN111797608A (zh
Inventor
陈泽锋
齐蓉
张芳
童华臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010606032.1A priority Critical patent/CN111797608B/zh
Publication of CN111797608A publication Critical patent/CN111797608A/zh
Application granted granted Critical
Publication of CN111797608B publication Critical patent/CN111797608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种信用数据核对方法及装置,方法包括:获取贸易合同的图像数据;基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,第一文本信息用于表征贸易合同中买卖双方的约定条款;对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,信用证是基于贸易合同申请开证的;根据报文项信息确定目标文本信息,基于目标文本信息提取出第二文本信息;其中,目标文本信息是报文项信息中目标报文项信息所包含的信息;基于第一文本信息和第二文本信息进行信用数据核对。本发明能够有效降低人工检查带来的差错风险,有效提高贸易合同及信用证文档核对的准确率和效率。

Description

信用数据核对方法及装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种信用数据核对方法及装置。
背景技术
贸易合同是进出口双方当事人依照法律通过协商就各自在贸易上的权利和义务所达成的具有法律约束力的协议。信用证是指由银行(开证行)依照(申请人的)要求和指示或自己主动,在符合信用证条款的条件下,凭借着规定单据向第三者(受益人)或其指定方进行付款的书面文件。即信用证是一种银行开立的有条件的承诺付款的书面文件,是国际贸易活动中最为广泛使用的一种结算方式。
由于贸易合同是开立信用证的基础,开证申请人必须根据贸易合同中规定的相关内容向银行申请开证。开证行开出信用证时,业务人员需对贸易合同及信用证条款进行人工核对及技术审查,如果发现问题,应分别情况及时处理,防范贸易背景不真实等情况带来可能存在的欺诈风险。目前,银行在进行贸易合同及信用证文档核对时,依赖与人工检查,导致核对效率低;受限于不同人员专业技能水平差异,可能导致检查失误,导致核对准确率低。核对效率和准确率还可能造成银行信用受损。
发明内容
针对现有技术中的问题,本发明提供一种信用数据核对方法及装置,能够有效提高贸易合同及信用证文档核对的准确率和效率。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种信用数据核对方法,包括:
获取贸易合同的图像数据;
基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;
对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;
根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息,所述第二文本信息用于表征信用证中买卖双方的约定条款;
基于所述第一文本信息和所述第二文本信息进行信用数据核对。
进一步的,在所述基于所述第一文本信息和所述第二文本信息进行信用数据核对之后,还包括:
对信用数据核对的结果进行可视化的提示;
接收用户输入的指令并基于所述指令修改所述信用证。
进一步的,所述基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息,还包括:
基于训练集的贸易合同以及训练集的贸易合同对应的文本信息对预设的OCR文本识别模型进行训练处理;
相对应的,基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息,包括:
基于训练后的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息。
其中,所述对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息,包括:
确定开立信用证时使用的报文对应的各个报文项;
对开立信用证时使用的报文进行解析,确定各个报文项各自对应的报文条款信息;
其中,所述报文项信息包括:各个报文项以及各个报文项各自对应的报文条款信息。
其中,所述根据所述报文项信息确定目标文本信息,包括:
根据目标报文项查找所述报文项信息中的目标报文项信息;
确定所述目标报文项信息中的报文条款信息为目标文本信息。
可选的,所述基于所述目标文本信息提取出第二文本信息,包括:
按照预设关键字从所述目标文本信息中提取出第二文本信息。
可选的,所述基于所述目标文本信息提取出第二文本信息,包括:
基于预设的识别模型从所述目标文本信息中提取出第二文本信息。
第二方面,本发明提供一种信用数据核对装置,包括:
采集单元,用于获取贸易合同的图像数据;
第一文本单元,用于基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;
解析单元,用于对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;
第二文本单元,用于根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息,所述第二文本信息用于表征信用证中买卖双方的约定条款;
核对单元,用于基于所述第一文本信息和所述第二文本信息进行信用数据核对。
进一步的,还包括:
提示单元,用于对信用数据核对的结果进行可视化的提示;
修改单元,用于接收用户输入的指令并基于所述指令修改所述信用证。
其中,所述第一文本单元还包括:
训练单元,用于基于训练集的贸易合同以及训练集的贸易合同对应的文本信息对预设的OCR文本识别模型进行训练处理;
相对应的,文本识别子单元,包括:
文本识别模块,用于基于训练后的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息。
其中,所述解析单元包括:
报文项子单元,用于确定开立信用证时使用的报文对应的各个报文项;
条款子单元,用于对开立信用证时使用的报文进行解析,确定各个报文项各自对应的报文条款信息;
其中,所述报文项信息包括:各个报文项以及各个报文项各自对应的报文条款信息。
其中,所述第二文本单元包括:
目标子单元,用于根据目标报文项查找所述报文项信息中的目标报文项信息;
目标文本子单元,用于确定所述目标报文项信息中的报文条款信息为目标文本信息。
其中,所述第二文本单元包括:
第一提取子单元,用于按照预设关键字从所述目标文本信息中提取出第二文本信息。
其中,所述第二文本单元包括:
第二提取子单元,用于基于预设的识别模型从所述目标文本信息中提取出第二文本信息。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的信用数据核对方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的信用数据核对方法的步骤。
由上述技术方案可知,本发明提供一种信用数据核对方法及装置,通过获取贸易合同的图像数据;基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息;基于所述第一文本信息和所述第二文本信息进行信用数据核对,能够有效降低人工检查带来的差错风险,有效提高贸易合同及信用证文档核对的准确率和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的信用数据核对方法的第一流程示意图。
图2为本发明实施例中的信用数据核对方法的第二流程示意图。
图3为本发明实施例中的信用数据核对方法的第三流程示意图。
图4为本发明实施例中的信用数据核对装置的第一结构示意图。
图5为本发明实施例中的信用数据核对装置的第二结构示意图。
图6为本发明实施例中的信用数据核对装置的第三结构示意图。
图7为本发明实施例中的信用数据核对检查装置的结构示意图。
图8为本发明实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
申请人(进口商)向开证行申请开立信用证时提交贸易合同文件,开证行业务人员将纸质合同文件扫描成电子影像,由后台专业部门对贸易合同文本进行核对及技术审查,并开出信用证。为确保开出的信用证的有效性和风险性,降低贸易背景不真实等情况带来可能存在的欺诈风险,提供一种基于贸易合同和信用证的信用数据核对方法及装置。
本发明提供一种信用数据核对方法的实施例,参见图1,所述信用数据核对方法具体包含有如下内容:
S100:获取贸易合同的图像数据;
在本步骤中,通过图像采集设备获取贸易合同的图像数据。可以理解的是,图像采集设备可以是相机、手机等带有图像采集功能的智能设备,也可以是具有图像扫描功能的打印设备。
S101:基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;
可以理解的是,第一文本信息包括:贸易合同中买卖双方名称地址、商品名称、数量、单价、商品包装运输信息及保险、费用等相关条款。由于贸易合同格式众多,不同格式贸易合同、合同中不同的表述方式,第一文本信息具体需要根据实际的贸易合同进行确认。
在本步骤中,OCR(optical character recognition)文字识别模型采用tesseract引擎,通过对获取的进口商提交的贸易合同的图像数据进行文本识别,能够得到第一文本信息。
在本实施例中,基于影像识别和文本信息提取技术,能够提高图像处理速度,进而提高贸易合同及信用证文档核对的效率。
S102:对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;
需要说明的是,SWIFT(环球同业银行金融电讯协会)组织为全球各国金融机构提供安全讯息服务和接口软件,旗下会员银行通过统一的电文规范传送各类金融业务信息。通过对开立信用证时使用的报文(SWIFT MT700报文)按报文项进行解析,可以得到信用证对应的报文项信息。
可以理解的是,SWIFT报文格式:由报头、正文(带条款编号)、报尾组成;对SWIFT报文进行解析形成由报头(发报行、收报行、报文类型)、正文(报文项名(即标号)、报文项内容)、报尾组成的结构化报文信息。
SWIFT报文格式:由状态、标号和栏位名称组成,参见表1所示的MT700报文格式说明:
表1MT700报文格式说明表
其中,信用证是基于所述贸易合同申请开证的。由于贸易合同是开立信用证的基础,开证申请人必须根据贸易合同中规定的相关内容向银行申请开证。
在本步骤中,报文项信息包括:各个报文项以及各个报文项各自对应的报文条款信息。
各个报文项指的是MT700报文格式中的状态、标号和栏位名称,状态、标号和栏位名称对应的文本数据为报文条款信息。因此,在确定开立信用证时使用的报文对应的各个报文项后,对开立信用证时使用的报文进行解析,即可确定各个报文项各自对应的报文条款信息。
S103:根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息,所述第二文本信息用于表征信用证中买卖双方的约定条款;
在本步骤中,确定信用证对应的报文项信息,从该报文项信息中选取出与贸易合同相关的报文项,如50项申请人、59项受益人、43P项是否分批装运、43T是否转运等报文项。与贸易合同相关的报文项对应的报文条款信息为目标文本信息。
在具体实施时,对报文进行解析后能够得到信用证对应的报文项信息,该报文项信息中包括各个报文项以及各个报文项各自对应的报文条款信息。确定贸易合同中买卖双方的约定条款对应的报文项为目标报文项,根据目标报文项在报文项信息中查找,确定报文项信息中的目标报文项信息,该目标报文项信息包括了目标报文项以及目标报文项对应的报文条款信息,确定目标报文项信息中的报文条款信息为目标文本信息。
目标报文项即为与贸易合同相关的报文项信息,如50项申请人、59项受益人、43P项是否分批装运、43T是否转运等报文项信息。
目标文本信息提取出第二文本信息,该第二文本信息既能够表征信用证中买卖双方的约定条款。
S104:基于所述第一文本信息和所述第二文本信息进行信用数据核对。
在本步骤中,以第一文本信息为准,对第二文本信息进行核对,确定第二文本信息中各个报文项及其各自对应的报文条款信息是否准确。
从上述描述可知,本发明实施例提供的信用数据核对方法,通过获取贸易合同的图像数据;基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息;基于所述第一文本信息和所述第二文本信息进行信用数据核对,能够有效降低人工检查带来的差错风险,有效提高贸易合同及信用证文档核对的准确率和效率。
在本发明的一实施例中,参见图2,所述信用数据核对方法的步骤S104之后还包含有步骤S105和步骤S106,具体包含有如下内容:
S105:对信用数据核对的结果进行可视化的提示;
需要说明的是,以第一文本信息为准,对第二文本信息进行核对,确定第二文本信息中各个报文项及其各自对应的报文条款信息是否准确。
对第二文本信息各个报文项及其各自对应的报文条款信息进行标记,例如:一致、不一致。
在本步骤中,对信用数据核对的结果,即第二文本信息中各个报文项及其各自对应的报文条款信息,以及各个报文项及其各自对应的报文条款信息的标记,进行可视化处理并进行可视化的提示,指导业务人员根据可视化的提水检查信用数据的核对结果并对核对结果中不一致的选项进行确认及修改。
例如,提示规则可以参考表2。
表2提示规则表
S106:接收用户输入的指令并基于所述指令修改所述信用证。
在本步骤中,接收用户输入的指令基于指令对信用证的各个报文项以及各个报文项各自对应的报文条款信息进行修改。
从上述描述可知,本实施例能够确定信用证和贸易合同的文本是否一致,对不一致内容及存在风险的条款给予提示,确保开出的信用证的有效性和风险性。
在本发明的一实施例中,参见图3,在上述实施例的基础上还包括步骤S107,具体包含有如下内容:
S107:基于训练集的贸易合同以及训练集的贸易合同对应的文本信息对预设的OCR文本识别模型进行训练处理;
相对应的,步骤S101基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息,包括:
S1011基于训练后的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息。
在本实施例中,由于贸易合同格式众多,通过对不同格式贸易合同、合同中不同的表述方式进行不断的训练,提升OCR文本识别模型的文本提取的准确率。
在本发明的一实施例中,提供信用数据核对方法中的步骤S104的二种实现方式,具体包含有如下内容:
第一种:
按照预设关键字从所述目标文本信息中提取出第二文本信息。
在本步骤中,提取出第二文本信息后,可以按关键字提取信用证中的贸易合同信息。例如:关键字的选取可以参考表3。
表3关键字表
序号 关键字 对应贸易合同信息
1 CONTRACT NO 合同号
2 COMMODITY 货物
3 QUANTITY 数量
4 UNIT PRICE 单价
5 PRICE TERM 价格条款
6 TOTAL VALUE 总金额
7 PACKING 包装方式
8 ORIGIN 来源地
需要说明的是,对于报文项各自对应的报文条款信息中存在多行、不同文本描述形式的情况,通过关键字的方式提取的信用证中的贸易合同信息可能存在错误,降低了核对的准确率。因此通过第二种方式提取的信用证中的贸易合同信息。
第二种:
基于预设的识别模型从所述目标文本信息中提取出第二文本信息。
预设的识别模型建立的步骤如下:
a)样本数据:将目前存量MT700报文45A项数据及贸易合同信息提取出来;
b)数据预处理:对样本数据进行处理和修正,包括特征提取,特征降维、特征空值处理、目标值转换。由于报文45A项属于的大文本内容,需按文本中的信息逐行进行拆分,实现与贸易合同信息的对应;对数据进行数据清理,将字母全部转为大写,去除标点符号,去除部分英文停用词;清理完成后,对拆分内容打标签,将拆分信息对应上贸易合同信息各项内容。
c)模型选择与训练:本发明需要用自然语言与计算机进行通信,涉及自然语言处理。自然语言处理是计算机科学,人工智能,语言学关注计算机和人类语言直接的相互作用的领域。目前业界的自然语言处理和机器学习的训练模型有FastText,TextCNN,ULMFit,BERT等,本文采用的模型是FastText模型,FastText模型输入一个词的序列,输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层在映射到标签。将预处理好的数据训练模型。
d)模型评估:使用训练好的模型对验证集或者测试集上的样本进行预测,看训练出来的模型是否满足要求。
从上述描述可知,本实施例提供的一种信用数据核对方法,基于影像识别和文本信息提取技术,自动对信用证以及贸易合同进行提取,通过机器核对信用证的条款和合同条款进行是否一致的核对,对不一致内容及存在风险的条款给予提示并给客户提供信用证修改建议,保证客户在贸易中的权益。一方面运用高效的机器检查替代相对低效的人工检查,可以有效提升业务办理效率;另一方面可以有效降低人工检查带来的差错风险,提示信用证的有效性和风险性,并给客户提供信用证修改建议,保证客户在贸易中的权益,也保障了银行的信用风险,达到多方共赢的目的。
本发明实施例提供一种能够实现所述信用数据核对方法中全部内容的信用数据核对装置的具体实施方式,参见图4,所述信用数据核对装置具体包括如下内容:
采集单元11,用于获取贸易合同的图像数据;
第一文本单元10,用于基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;
解析单元20,用于对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;
第二文本单元30,用于根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息,所述第二文本信息用于表征信用证中买卖双方的约定条款;
核对单元40,用于基于所述第一文本信息和所述第二文本信息进行信用数据核对。
其中,所述解析单元包括:
报文项子单元,用于确定开立信用证时使用的报文对应的各个报文项;
条款子单元,用于对开立信用证时使用的报文进行解析,确定各个报文项各自对应的报文条款信息;
其中,所述报文项信息包括:各个报文项以及各个报文项各自对应的报文条款信息。
其中,所述第二文本单元包括:
目标子单元,用于根据目标报文项查找所述报文项信息中的目标报文项信息;
目标文本子单元,用于确定所述目标报文项信息中的报文条款信息为目标文本信息。
其中,所述第二文本单元包括:
第一提取子单元,用于按照预设关键字从所述目标文本信息中提取出第二文本信息。
其中,所述第二文本单元包括:
第二提取子单元,用于基于预设的识别模型从所述目标文本信息中提取出第二文本信息。
本发明实施例提供一种能够实现所述信用数据核对方法中全部内容的信用数据核对装置的另一具体实施方式,参见图5,在上述实施例的基础上,还包括如下内容:
提示单元50,用于对信用数据核对的结果进行可视化的提示;
修改单元60,用于接收用户输入的指令并基于所述指令修改所述信用证。
在本发明的一实施例中,参见图6,在上述实施例的基础上,具体包含有如下内容:
训练单元70,用于基于训练集的贸易合同以及训练集的贸易合同对应的文本信息对预设的OCR文本识别模型进行训练处理;
相对应的,文本识别子单元,包括:
文本识别模块,用于基于训练后的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息。
本发明提供的信用数据核对装置的实施例具体可以用于执行上述实施例中的信用数据核对方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本发明实施例提供的信用数据核对装置,通过获取贸易合同的图像数据;基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息;基于所述第一文本信息和所述第二文本信息进行信用数据核对,能够有效降低人工检查带来的差错风险,有效提高贸易合同及信用证文档核对的准确率和效率。
为确保开出的信用证的有效性和风险性,降低贸易背景不真实等情况带来可能存在的欺诈风险,提出一种基于贸易合同、信用证文本的信用数据核对检查装置,通过影像识别、文本信息提取实现自动核对检查。
参见图7,本发明实施例提供一种基于贸易合同、信用证文本的信用数据核对检查装置,包括:贸易合同OCR识别模块101、信用证报文解析模块201、智能检查模块301和核对提示模块401。
贸易合同OCR识别模块101,用于对进口商提交的贸易合同进行文本识别,提取其中的文本信息,文本信息包括:买卖双方名称地址、商品名称、数量、单价、商品包装运输信息及保险、费用等相关条款。
具体是通过OCR文字识别单元对进口商提交的贸易合同进行文本识别,OCR(optical character recognition)文字识别单元采用tesseract引擎。由于贸易合同格式众多,通过对不同格式贸易合同、合同中不同的表述方式对OCR文字识别单元进行训练,提升OCR文字识别单元识别文本的准确率。
信用证报文解析模块201,用于对开立信用证时使用的SWIFT MT700报文按报文项进行解析,提取业务信息及报文条款信息。
SWIFT(环球同业银行金融电讯协会)组织为全球各国金融机构提供安全讯息服务和接口软件,旗下会员银行通过统一的电文规范传送各类金融业务信息。
通过信用证报文解析模块201,形成报头(发报行、收报行、报文类型)、报文正文(报文项名(即标号)、报文项内容)、报尾组成的结构化的报文信息。
智能检查模块301,用于按照报文项提取MT700报文中各项与贸易合同相关的报文项信息,如50项申请人、59项受益人、43P项是否分批装运、43T是否转运等信息。
其中,提取报文45A项货物或服务描述的文本信息,根据规则按关键字提取大文本中的贸易合同信息。对于没有明确规则,或描述中存在多行、不同文本描述形式的情况,需要通过智能识别模型来识别提取。
将贸易合同识别信息与信用证文本提取信息进行核对检查,根据各项内容对应的检查规则生成响应的修改、确认建议。
核对提示模块401,在开出信用证的业务保存及复核环节,对智能信用数据核对检查结果进行提示,指导业务人员检查核对差异进行确认及修改。
本申请提供一种用于实现所述信用数据核对方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述信用数据核对方法的实施例及用于实现所述信用数据核对装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图8为本申请实施例的电子设备9600的系统构成的示意框图。如图8所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图8是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,信用数据核对功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;
对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;
根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息;
基于所述第一文本信息和所述第二文本信息进行信用数据核对。
从上述描述可知,本申请的实施例提供的电子设备,通过获取贸易合同的图像数据;基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息;基于所述第一文本信息和所述第二文本信息进行信用数据核对,能够有效降低人工检查带来的差错风险,有效提高贸易合同及信用证文档核对的准确率和效率。
在另一个实施方式中,信用数据核对装置可以与中央处理器9100分开配置,例如可以将信用数据核对配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现信用数据核对功能。
如图8所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图8中所示的所有部件;此外,电子设备9600还可以包括图8中没有示出的部件,可以参考现有技术。
如图8所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本发明的实施例还提供能够实现上述实施例中的信用数据核对方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的信用数据核对方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;
对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;
根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息;
基于所述第一文本信息和所述第二文本信息进行信用数据核对。
从上述描述可知,本发明实施例提供的计算机可读存储介质,通过获取贸易合同的图像数据;基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息;基于所述第一文本信息和所述第二文本信息进行信用数据核对,能够有效降低人工检查带来的差错风险,有效提高贸易合同及信用证文档核对的准确率和效率。
虽然本发明提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本发明是参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种信用数据核对方法,其特征在于,包括:
获取贸易合同的图像数据;
基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;
对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;
根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息,所述第二文本信息用于表征信用证中买卖双方的约定条款;
基于所述第一文本信息和所述第二文本信息进行信用数据核对;
所述基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息,还包括:
基于训练集的贸易合同以及训练集的贸易合同对应的文本信息对预设的OCR文本识别模型进行训练处理;
相对应的,基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息,包括:
基于训练后的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;
所述对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息,包括:
确定开立信用证时使用的报文对应的各个报文项;
对开立信用证时使用的报文进行解析,确定各个报文项各自对应的报文条款信息;
其中,所述报文项信息包括:各个报文项以及各个报文项各自对应的报文条款信息;
所述根据所述报文项信息确定目标文本信息,包括:
根据目标报文项查找所述报文项信息中的目标报文项信息;
确定所述目标报文项信息中的报文条款信息为目标文本信息。
2.根据权利要求1所述的信用数据核对方法,其特征在于,在所述基于所述第一文本信息和所述第二文本信息进行信用数据核对之后,还包括:
对信用数据核对的结果进行可视化的提示;
接收用户输入的指令并基于所述指令修改所述信用证。
3.根据权利要求1所述的信用数据核对方法,其特征在于,所述基于所述目标文本信息提取出第二文本信息,包括:
按照预设关键字从所述目标文本信息中提取出第二文本信息。
4.根据权利要求1所述的信用数据核对方法,其特征在于,所述基于所述目标文本信息提取出第二文本信息,包括:
基于预设的识别模型从所述目标文本信息中提取出第二文本信息。
5.一种信用数据核对装置,其特征在于,包括:
采集单元,用于获取贸易合同的图像数据;
第一文本单元,用于基于预设的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;其中,所述第一文本信息用于表征贸易合同中买卖双方的约定条款;
解析单元,用于对开立信用证时使用的报文进行解析,得到信用证对应的报文项信息;其中,所述信用证是基于所述贸易合同申请开证的;
第二文本单元,用于根据所述报文项信息确定目标文本信息,基于所述目标文本信息提取出第二文本信息;其中,所述目标文本信息是报文项信息中目标报文项信息所包含的信息,所述第二文本信息用于表征信用证中买卖双方的约定条款;
核对单元,用于基于所述第一文本信息和所述第二文本信息进行信用数据核对;
所述第一文本单元还包括:
训练单元,用于基于训练集的贸易合同以及训练集的贸易合同对应的文本信息对预设的OCR文本识别模型进行训练处理;
相对应的,文本识别子单元,包括:
文本识别模块,用于基于训练后的OCR文本识别模型对贸易合同的图像数据进行文本识别,得到第一文本信息;
所述解析单元包括:
报文项子单元,用于确定开立信用证时使用的报文对应的各个报文项;
条款子单元,用于对开立信用证时使用的报文进行解析,确定各个报文项各自对应的报文条款信息;
其中,所述报文项信息包括:各个报文项以及各个报文项各自对应的报文条款信息;
所述第二文本单元包括:
目标子单元,用于根据目标报文项查找所述报文项信息中的目标报文项信息;
目标文本子单元,用于确定所述目标报文项信息中的报文条款信息为目标文本信息。
6.根据权利要求5所述的信用数据核对装置,其特征在于,还包括:
提示单元,用于对信用数据核对的结果进行可视化的提示;
修改单元,用于接收用户输入的指令并基于所述指令修改所述信用证。
7.根据权利要求5所述的信用数据核对装置,其特征在于,所述第二文本单元包括:
第一提取子单元,用于按照预设关键字从所述目标文本信息中提取出第二文本信息。
8.根据权利要求5所述的信用数据核对装置,其特征在于,所述第二文本单元包括:
第二提取子单元,用于基于预设的识别模型从所述目标文本信息中提取出第二文本信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的信用数据核对方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的信用数据核对方法的步骤。
CN202010606032.1A 2020-06-29 2020-06-29 信用数据核对方法及装置 Active CN111797608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010606032.1A CN111797608B (zh) 2020-06-29 2020-06-29 信用数据核对方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010606032.1A CN111797608B (zh) 2020-06-29 2020-06-29 信用数据核对方法及装置

Publications (2)

Publication Number Publication Date
CN111797608A CN111797608A (zh) 2020-10-20
CN111797608B true CN111797608B (zh) 2023-08-22

Family

ID=72804012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010606032.1A Active CN111797608B (zh) 2020-06-29 2020-06-29 信用数据核对方法及装置

Country Status (1)

Country Link
CN (1) CN111797608B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239893A (zh) * 2021-06-10 2021-08-10 深圳智子系科技有限公司 一种文档录入复核方法、系统、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408969A (zh) * 2008-11-13 2009-04-15 中国工商银行股份有限公司 一种银行风险数据监控服务器及系统
CN108537673A (zh) * 2018-04-16 2018-09-14 新疆润物网络有限公司 一种基于进口单证数据的供应链融资评估系统与方法
CN110765770A (zh) * 2019-09-04 2020-02-07 平安科技(深圳)有限公司 一种合同自动生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7548881B2 (en) * 2002-11-04 2009-06-16 Tradebeam, Inc. Systems and methods for producing documentary credit and conforming shipping documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408969A (zh) * 2008-11-13 2009-04-15 中国工商银行股份有限公司 一种银行风险数据监控服务器及系统
CN108537673A (zh) * 2018-04-16 2018-09-14 新疆润物网络有限公司 一种基于进口单证数据的供应链融资评估系统与方法
CN110765770A (zh) * 2019-09-04 2020-02-07 平安科技(深圳)有限公司 一种合同自动生成方法及装置

Also Published As

Publication number Publication date
CN111797608A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN110163478B (zh) 一种合同条款的风险审查方法及装置
CN114821622B (zh) 文本抽取方法、文本抽取模型训练方法、装置及设备
CA3125137A1 (en) Account manager virtual assistant using machine learning techniques
US11816244B2 (en) Machine learning methods and systems for protection and redaction of privacy information
CN110147549A (zh) 用于执行文本纠错的方法和系统
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN112732897A (zh) 文档处理方法、装置、电子设备及存储介质
CN111062803A (zh) 一种金融业务查询查复方法及系统
CA3155335A1 (en) Docket analysis methods and systems
CN111782793A (zh) 智能客服处理方法和系统及设备
CN111581945A (zh) 一种基于舆情分析的数据分析方法、装置和系统
JP7037530B2 (ja) 文書審査支援装置、文書審査支援方法及びコンピュータプログラム
CN111797608B (zh) 信用数据核对方法及装置
CN116628163A (zh) 客服服务处理方法、装置、设备及存储介质
CN110610003A (zh) 用于辅助文本标注的方法和系统
US20150113364A1 (en) System and method for generating an audio-animated document
CN112669850A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN112256943A (zh) 门店基于自然语言处理结合知识图谱的画像提取方法
CN111666408A (zh) 重要条款筛选与展示的方法及装置
US20160343086A1 (en) System and method for facilitating interpretation of financial statements in 10k reports by linking numbers to their context
CN114861622A (zh) 跟单信用证生成方法、装置、设备、存储介质和程序产品
CN114549177A (zh) 保函审查方法、装置、系统与计算机可读存储介质
CN113627189A (zh) 一种面向保险条款的实体识别信息抽取、存储、展示方法
CN114722164A (zh) 一种智能评论回复方法及装置
Wattar Analysis and Comparison of invoice data extraction methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant