CN114971294A - 数据采集方法、装置、设备及存储介质 - Google Patents

数据采集方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114971294A
CN114971294A CN202210585345.2A CN202210585345A CN114971294A CN 114971294 A CN114971294 A CN 114971294A CN 202210585345 A CN202210585345 A CN 202210585345A CN 114971294 A CN114971294 A CN 114971294A
Authority
CN
China
Prior art keywords
merchant
data
target
preset
target merchant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210585345.2A
Other languages
English (en)
Inventor
彭云胜
刘成
程路铭
梅敏君
罗纳
王旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202210585345.2A priority Critical patent/CN114971294A/zh
Publication of CN114971294A publication Critical patent/CN114971294A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)

Abstract

本发明涉及大数据技术领域,公开了一种数据采集方法、装置、设备及存储介质。本方法包括:将获取的商户信息图像输入预设OCR识别模型进行识别,得到目标商户数据;根据目标商户数据,通过预置风险识别模型对目标商户进行风险识别,确定目标商户的商户总评分;调用用于审核目标商户数据真实性的预置接口,获取预置关键商户数据;基于商户总评分和关键商户数据以及预置审核规则对目标商户数据进行审核,确定目标商户数据的真实性;当目标商户数据真实时,建立远程人工审核通信,并将得到的人工审核结果发送给目标商户。本发明通过将商户本人录入商户图像数据和OCR识别技术结合,实现商户资质准确性风险核实,提升了商户收单业务展业效率。

Description

数据采集方法、装置、设备及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据采集方法、装置、设备及存储介质。
背景技术
常用的展业方式是由业务人员对客户进行产品介绍和宣传。这种营销方式主要是依靠业务人员自身的沟通能力;然而在实际中,业务人员的技能水平参差不齐,当一个沟通能力较差的业务人员遇到陌生或沉默的客户,往往无法根据客户的实际需求进行产品推介,出现沟通冷场的情况,从而影响了展业的正常进行。
同时,传统银行商户收单业务都需要线下收取商户纸质资料,业务员回到公司后进行收单商户资料系统录入,纸质材料也会长期保管,以备监管排查。这种展业模式沟通时间长,材料长期保管也耗费人力、空间等资源。因此如何提升客户收单业务展业效率成了本领域技术人员需要解决的技术问题。
发明内容
本发明将商户本人录入商户图像数据和ocr识别技术结合,实现商户资质准确性风险核实,提升了商户收单业务展业效率,解决了客户收单业务展业效率低下的技术问题。
本发明第一方面提供了数据采集方法,包括:获取目标商户的商户信息图像;将所述商户信息图像输入预设OCR识别模型进行识别,得到所述商户信息图像中记载的目标商户数据;利用预置风险识别模型对所述目标商户数据进行风险识别,确定所述目标商户数据对应目标商户的商户总评分;调用预置接口,获取预置关键商户数据;基于所述商户总评分和所述关键商户数据,调用预设审核规则对所述目标商户数据进行风险审核,得到审核结果;当所述审核结果为所述商户总评分低于预设阈值时,建立远程人工审核连接,并将所述审核结果发送给所述目标商户。
可选地,在本发明第一方面的第一种实现方式中,在所述将所述商户信息图像输入预设OCR识别模型进行识别,得到所述商户信息图像中记载的目标商户数据之前,还包括:获取包含样本特征的训练样本图像,并对部分所述训练样本图像进行标注,得到包括标注样本图像以及非标注样本图像的训练包含样本特征的训练样本图像;将所述训练包含样本特征的训练样本图像输入至预设的OCR识别网络中进行计算,得到第一特征向量集;将所述第一特征向量集输入到用于做无监督训练的第一损失计算层,计算得到第一损失值集,以及将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集;基于所述第一损失值集与第二损失值集,通过反向网络传播算法计算网络的参数梯度,并基于所述参数梯度对所述OCR识别网络的参数进行更新直到收敛,得到OCR识别模型。
可选地,在本发明第一方面的第二种实现方式中,所述将所述商户信息图像输入预设OCR识别模型进行识别,得到所述商户信息图像中记载的目标商户数据包括:将所述商户信息图像输入预设OCR识别模型的RPN网络,生成不同的目标候选框;通过ROIAlign表示所有所述目标候选框的特征;将所述目标候选框输入所述Fast R-CNN网络对所述目标候选框的候选区进行分类,并通过字符分割网络掩模分支对待识别的所述候选区进行字符分割获取分割子图像;利用文本识别模型对分割子图像进行识别,得到有序文本,通过对应模板对所述有序文本进行信息提取,得到所述商户信息图像中记载的目标商户数据。
可选地,在本发明第一方面的第三种实现方式中,在所述利用预置风险识别模型对所述目标商户数据进行风险识别,确定所述目标商户数据对应目标商户的商户总评分之前,还包括:获取目标业务对应的模型训练样本;基于所述模型训练样本和初始风险识别模型,对预设风控数据对应的风险权重进行更新,得到更新后的风险权重;基于所述模型训练样本和所述更新后的风险权重,对所述初始风险识别模型进行更新直到所述初始风险识别模型满足预设模型优化终止条件,得到目标风险识别模型。
可选地,在本发明第一方面的第四种实现方式中,所述利用预置风险识别模型对所述目标商户数据进行风险识别,确定所述目标商户数据对应目标商户的商户总评分包括:将所述目标商户数据输入预置风险识别模型的分类网络,通过所述分类网络对所述目标商户数据进行识别,得到所述目标商户数据对应的风险识别指标;根据所述风险识别指标配置风险评估规则;生成与所述风险评估规则对应的规则表达式;通过所述风险识别模型内运行所述规则表达式,得到所述目标商户数据对应目标商户的风控评分对应权重;根据所述风控评分对应权重确定所述目标商户的商户总评分。
可选地,在本发明第一方面的第五种实现方式中,在所述当所述审核结果为所述商户总评分低于预设阈值时,建立远程人工审核连接,并将所述审核结果发送给所述目标商户之后,还包括:当所述审核结果为所述商户总评分高于预设阈值时,通知所述目标商户未通过审核,并将未通过审核的原因推送至预设商户终端。
本发明第二方面提供了一种数据采集装置,包括:第一获取模块,用于获取目标商户的商户信息图像;识别模块,用于将所述商户信息图像输入预设OCR识别模型进行识别,得到所述商户信息图像中记载的目标商户数据;确定模块,用于利用预置风险识别模型对所述目标商户数据进行风险识别,确定所述目标商户数据对应目标商户的商户总评分;调用模块,用于调用预置接口,获取预置关键商户数据;审核模块,用于基于所述商户总评分和所述关键商户数据,调用预设审核规则对所述目标商户数据进行风险审核,得到审核结果;发送模块,用于当所述审核结果为所述商户总评分低于预设阈值时,建立远程人工审核连接,并将所述审核结果发送给所述目标商户。
可选地,在本发明第二方面的第一种实现方式中,所述数据采集装置包括:标注模块,用于获取包含样本特征的训练样本图像,并对部分所述训练样本图像进行标注,得到包括标注样本图像以及非标注样本图像的训练包含样本特征的训练样本图像;第一计算模块,用于将所述训练包含样本特征的训练样本图像输入至预设的OCR识别网络中进行计算,得到第一特征向量集;第二计算模块,用于将所述第一特征向量集输入到用于做无监督训练的第一损失计算层,计算得到第一损失值集,以及将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集;第一更新模块,用于基于所述第一损失值集与第二损失值集,通过反向网络传播算法计算网络的参数梯度,并基于所述参数梯度对所述OCR识别网络的参数进行更新直到收敛,得到OCR识别模型。
可选地,在本发明第二方面的第二种实现方式中,所述识别模块具体用于:将所述商户信息图像输入预设OCR识别模型的RPN网络,生成不同的目标候选框;通过ROIAlign表示所有所述目标候选框的特征;将所述目标候选框输入所述Fast R-CNN网络对所述目标候选框的候选区进行分类,并通过字符分割网络掩模分支对待识别的所述候选区进行字符分割获取分割子图像;利用文本识别模型对分割子图像进行识别,得到有序文本,通过对应模板对所述有序文本进行信息提取,得到所述商户信息图像中记载的目标商户数据。
可选地,在本发明第二方面的第三种实现方式中,所述数据采集装置还包括:第二获取模块,用于获取目标业务对应的模型训练样本;第二更新模块,用于基于所述模型训练样本和初始风险识别模型,对预设风控数据对应的风险权重进行更新,得到更新后的风险权重;第三更新模块,用于基于所述模型训练样本和所述更新后的风险权重,对所述初始风险识别模型进行更新直到所述初始风险识别模型满足预设模型优化终止条件,得到目标风险识别模型。
可选地,在本发明第二方面的第四种实现方式中,所述确定模块包括:识别单元,用于将所述目标商户数据输入预置风险识别模型的分类网络,通过所述分类网络对所述目标商户数据进行识别,得到所述目标商户数据对应的风险识别指标;配置单元,用于根据所述风险识别指标配置风险评估规则;生成单元,用于生成与所述风险评估规则对应的规则表达式;通过所述风险识别模型内运行所述规则表达式,得到所述目标商户数据对应目标商户的风控评分对应权重;确定单元,用于根据所述风控评分对应权重确定所述目标商户的商户总评分。
可选地,在本发明第二方面的第五种实现方式中,所述数据采集装置还包括:推送模块,用于当所述审核结果为所述商户总评分高于预设阈值时,通知所述目标商户未通过审核,并将未通过审核的原因推送至预设商户终端。
本发明第三方面提供了数据采集设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述数据采集设备执行上述的数据采集方法的步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的数据采集方法的步骤。
本发明提供的技术方案中,通过获取目标商户的商户信息图像;将商户信息图像输入预设OCR识别模型进行识别,得到商户信息图像中记载的目标商户数据;利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;调用预置接口,获取预置关键商户数据;基于商户总评分和关键商户数据以及预置审核规则,对目标商户数据进行审核,确定目标商户数据的真实性;当目标商户数据真实时,建立远程人工审核,并将得到的人工审核结果发送给目标商户。本发明通过将商户本人录入商户图像数据和OCR识别技术结合,实现商户资质准确性风险核实,提升了商户收单业务展业效率。
附图说明
图1为本发明提供的数据采集方法的第一个实施例示意图;
图2为本发明提供的数据采集方法的第二个实施例示意图;
图3为本发明提供的数据采集方法的第三个实施例示意图;
图4为本发明提供的数据采集方法的第四个实施例示意图;
图5为本发明提供的数据采集方法的第五个实施例示意图;
图6为本发明提供的数据采集装置的第一个实施例示意图;
图7为本发明提供的数据采集装置的第二个实施例示意图;
图8为本发明提供的数据采集设备的一个实施例示意图。
具体实施方式
本发明实施例提供的数据采集方法、装置、设备及存储介质,先通过获取目标商户的商户信息图像;将商户信息图像输入预设OCR识别模型进行识别,得到商户信息图像中记载的目标商户数据;利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;调用预置接口,获取预置关键商户数据;基于商户总评分和关键商户数据以及预置审核规则,对目标商户数据进行审核,确定目标商户数据的真实性;当目标商户数据真实时,建立远程人工审核,并将得到的人工审核结果发送给目标商户。本发明通过将商户本人录入商户图像数据和OCR识别技术结合,实现商户资质准确性风险核实,提升了商户收单业务展业效率。
本发明的说明书和权利要求书及上述附中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中数据采集方法的第一个实施例包括:
101、获取目标商户的商户信息图像;
本实施例中,获取目标商户在商户终端上传的包含待审核商户信息的图像数据,比如,个人及商户的关键信息(身份证、营业执照、银行卡),无需再提供纸质材料。只需将照片上传到材料收集页面。
102、将商户信息图像输入预设OCR识别模型进行识别,得到商户信息图像中记载的目标商户数据;
本实施例中,OCR(Optical Character Recognition,光学字符识别)主要通过对载体上显示的光学字符进行识别,生成文本输出。以纸质文件的OCR识别为例,通过采集纸质文件上的印刷体得到的光学字符,对其进行识别,即可得到文本信息等数据。
本实施例中,待识别图像是指商户信息图像,OCR识别方法的待识别对象通过拍照、扫描等方式获得的图像信息。通过OCR识别方法将待识别图像上以光学字符记载的文字信息转化为文本信息输出。
将商户信息图像输入通用OCR模版进行识别,得到商户信息图像上记载的文本信息及其对应的位置信息;其中,所述通用OCR模板包括检测模型和通用识别模型,所述通用识别模型通过业务方的各种业务类型的字段图像样本训练得到;
在上述识别的过程中,将商户信息图像输入通用OCR模版进行识别,通用OCR模版中包括检测模型和通用识别模型。其中,检测模型识别对应文本信息的位置并将待识别图像对应位置截取后,转至通用识别模型进行文本识别。
具体地,检测模型识别对应文本信息的位置时,对应匹配该文本信息的位置的结构化信息。结构化信息可以是文本信息的类别、分类、特点等等信息,在一些场景中结构化信息可以是身份证号、邮编、卡号、识别码等等用于提示对应文本内容种类的信息。相应地,通用识别模型识别得到文本信息,根据前述结构化信息与文本信息相结合,生成结构化数据。
103、利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;
本实施例中,终端设备在采集到目标商户数据之后,对所述目标商户数据进行分析;并基于存储的风险识别规则或风险识别模型,结合分析得到的分析结果,对所述业务处理请求进行风险识别。
具体地,终端设备根据采集到所述目标商户数据,确定所述目标商户数据对应的业务指标。本申请实施例中所记载的业务指标可以包含但不限于:所述目标商户数据在预定时间窗口的计数值、加和值、起始值、终止值、区别值、平均值、标准差、最大值和/或最小值。终端设备基于确定的业务指标和所述目标商户数据,分析所述业务操作请求出现的频率特性和/或终端设备的运行环境特性。终端设备触发规则引擎和/或模型引擎对确定的业务指标进行逻辑分析和/或概率分析,进而得到分析结果。进一步地,终端设备根据分析结果,确定所述业务处理请求的风险识别结果。
104、调用预置接口,获取预置关键商户数据;
本实施例中,可以根据实际需求,预先对关键信息进行设置,比如在比较倾向于核实商户规模的情况下,关键商户数据可以是注册资金、商户的经营场地面积、商户的员工人数等;比如在比较倾向于核实商户信用的情况下,关键商户数据可以是结算账户、贷款分期年限、是否存在信用卡还款不及时的情况、是否存在贷款还款不及时的情况、是否存在于银联协会的黑名单中等;比如在既要核实商户规模又要核实商户信用的情况下,关键商户数据则可以是注册资金、商户的经营场地面积、商户的员工人数、结算账户、贷款分期年限、是否存在信用卡还款不及时的情况、是否存在贷款还款不及时的情况、是否存在于银联协会的黑名单中等;当然,在倾向于更加全面了解商户的情况下,则可在上述商户信息的信息项中选取更多的信息项作为关键商户数据。
105、基于商户总评分和关键商户数据,调用预设审核规则对目标商户数据进行风险审核,得到审核结果;
本实施例中,可预先与各相关的接口(比如用于查询企业注册信息的网站、用于查询银联协会黑名单的网站、用于查询信用记录的银行系统、用于查询商户的结算账户、收款账户、收款模式的银行系统等)进行连接,以在需要相关接口中的数据的情况下,直接对相关接口进行调用,以实现更为快捷高效的对接口中数据进行查询、收集等操作。
比如提取到的关键商户数据为注册资金、商户的经营场地面积、商户的员工人数的情况下,可调用用于查询企业注册信息的网站,以对关键商户数据中的注册资金、商户的经营场地面积、商户的员工人数进行核实,以确定商户提供的注册资金、商户的经营场地面积、商户的员工人数是否是真实的;比如在提取到的关键商户数据为结算账户、贷款分期年限、是否存在信用卡还款不及时的情况、是否存在贷款还款不及时的情况、是否存在于银联协会的黑名单中的情况下,可调用用于查询账户信息、贷款信息、银联协会等相关系统或网站,以对上述关键商户数据的内容进行核实,以确定商户提供的上述关键商户数据的内容是真实的。
106、当审核结果为商户总评分低于预设阈值时,建立远程人工审核连接,并将审核结果发送给目标商户。
本实施例中,商户本人提交材料完成申请后,资料会自动调取风险系统,核查商户资料在工商系统的真实性,如果一致继续进行收单业务的人工审核,由人工远程面谈,确定其最终是否审核通过,然后获取远程人工审核结果,并发送给商户终端。
本实施例中还可引入AI测谎用以辅助人工决策,通过对商户面部微表情进行识别,并给出归类,以供面谈专员参考;和/或,还引入OCR技术用以辅助人工决策,使用OCR技术与已有人脸信息库对比是否是已存在用户,则搜索其信息,以供人工审核参考。
在远程人工审核中,除人工根据经验进行商户审核判断外,还可通过用户手机前置摄像头等收集人脸信息和面部微表情,然后利用OCR技术与已有人脸信息库对比是否是已存在用户,若为已存在用户,则搜索其信息供人工审核参考。
本发明实施例中,通过获取目标商户的商户信息图像;将商户信息图像输入预设OCR识别模型进行识别,得到商户信息图像中记载的目标商户数据;利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;调用预置接口,获取预置关键商户数据;基于商户总评分和关键商户数据以及预置审核规则,对目标商户数据进行审核,确定目标商户数据的真实性;当目标商户数据真实时,建立远程人工审核,并将得到的人工审核结果发送给目标商户。本发明通过将商户本人录入商户图像数据和OCR识别技术结合,实现商户资质准确性风险核实,提升了商户收单业务展业效率。
请参阅图2,本发明实施例中数据采集方法的第二个实施例包括:
201、获取目标商户的商户信息图像;
202、获取包含样本特征的训练样本图像,并对部分训练样本图像进行标注,得到包括标注样本图像以及非标注样本图像的训练包含样本特征的训练样本图像;
本实施例中,获取包含样本特征的训练样本图像,该包含样本特征的训练样本图像用于训练OCR识别网络,上述包含样本特征的训练样本图像的样本为各种不同的字符,例如文字、图形,可以为中文文字、拼音,或英文字母、日语、藏语等等,具体可以通过网络爬取而得,或者直接由用户输入而得,或者预先存储于预设数据库中,需要时直接获取而得。获得用于训练OCR识别网络的包含样本特征的训练样本图像后,对包含样本特征的训练样本图像中的部分样本进行标注,得到部分已标注的标注样本,以及剩下部分未标注的非标注样本,本实施例中,上述部分样本可以为预先指定的样本,也可以为随机抽取的样本,上述非标注样可以为泛化字符样本,如此可将标注样本进行监督学习训练,将非标注样本做无监督学习训练。
203、将训练包含样本特征的训练样本图像输入至预设的OCR识别网络中进行计算,得到第一特征向量集;
本实施例中,将上述样本集输入至预设的OCR识别网络中进行计算,得到对应各样本的向量特征,此处不限定OCR识别网络的类型,只要采用能够实现OCR识别的模型构架即可,例如采用CNN+RNN搭建的网络模型,或者采用CNN+Seq2Seq+Attention构建,将上述样本集通过上述结构搭建的OCR识别网络计算得到向量特征集,在该向量特征集中每一向量特征对应一样本,为了便于区别,此处命为第一向量特征集,对应的第一向量特征集中的向量特征命为第一向量特征。
204、将第一特征向量集输入到用于做无监督训练的第一损失计算层,计算得到第一损失值集,以及将第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集;
本实施例中,将第一特征向量集输入到用于做无监督训练的第一损失计算层,计算得到第一损失值集,以及将第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集,此处不限制第一损失计算层以及第二损失计算成层的网络结构,只要第一损失计算层是用于做无监督训练,以及第二损失计算层用于做有监督训练的即可,例如,当采用CNN+RNN搭建的网络时,此时可在RNN层后接分类网络层,对应监督训练时,采用CTC loss函数作为损失函数,也即第二损失计算层包括分类网络层以及CTC loss函数,对应无监督训练时,可直接在RNN层后连接用于进行无监督训练的损失函数,可采用对比性loss函数,例如Contrastive LOSS函数,也即第一损失计算层由Contrastive LOSS函数构建,需知Contrastive LOSS的原理是同一个样本的不同数据增广产生的特征向量距离靠近,不同样本的特征向量距离远离,一般使用向量内积,内积值越大则两个向量距离越近,本实施例中,采用Contrastive LOSS函数来计算,可使得其作无监督训练效果更佳;当OCR识别网络采用CNN+Seq2Seq+Attention构建,训练时,同样可采用不同的损失函数来计算。
205、基于第一损失值集与第二损失值集,通过反向网络传播算法计算网络的参数梯度,并基于所述参数梯度对所述OCR识别网络的参数进行更新直到收敛,得到OCR识别模型;
本实施例中,将第一损失值集中的第一损失值与第二损失值集中的第二损失值通过网络反向传播计算出网络的参数梯度,从而根据参数梯度更新OCR识别网络的参数直到网络模型收敛,得到OCR识别模型,训练完成后,可对OCR识别模型进行测试,测试使用时将训练过程中所采用的损失函数去掉。
本实施例中,由于标注样本与非标注样本所采用的损失函数不一样,为了使得模型识别更精准,其对应的损失值也可以按对应比例来进行反向传播,也即第一损失值与第二损失值分别乘以一个系数之后再相加得到总的函数损失值。
具体而言,可通过非标注样本与标注样本的数量,得到样本的比例,也即得到两者的数量比值,然后依据该数量比值获取第一系数与第二系数,或者在上述数量比值的基础上,依据实际情况设置第一系数与第二系数,例如上述数量比值为1:1.5,则对应的第一系数可为1,第二系数可为1.5,然后将第一损失值乘以第一系数得到第一值,并将第二损失值乘以第二系数得到第二值,将第一值与第二值相加得到函数损失值,再将函数损失值通过网络反向传播计算模型的参数梯度,或者直接将第一值与第二值分别进行反向传播计算模型的参数梯度。
206、将商户信息图像输入预设OCR识别模型进行识别,得到商户信息图像中记载的目标商户数据;
207、利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;
208、调用预置接口,获取预置关键商户数据;
209、基于商户总评分和关键商户数据,调用预设审核规则对目标商户数据进行审核,确定目标商户数据的真实性;
210、当审核结果为商户总评分低于预设阈值时,建立远程人工审核连接,并将审核结果发送给目标商户。
本实施例中步骤201、206-210与第一实施例中的步骤101、102-106类似,此处不再赘述。
本发明实施例中,通过获取目标商户的商户信息图像;将商户信息图像输入预设OCR识别模型进行识别,得到商户信息图像中记载的目标商户数据;利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;调用预置接口,获取预置关键商户数据;基于商户总评分和关键商户数据以及预置审核规则,对目标商户数据进行审核,确定目标商户数据的真实性;当目标商户数据真实时,建立远程人工审核,并将得到的人工审核结果发送给目标商户。本发明通过将商户本人录入商户图像数据和OCR识别技术结合,实现商户资质准确性风险核实,提升了商户收单业务展业效率。
请参阅图3,本发明实施例中数据采集方法的第三个实施例包括:
301、获取目标商户的商户信息图像;
302、将商户信息图像输入预设OCR识别模型的RPN网络,生成不同的目标候选框;
本实施例中,将商户信息图像输入区域生产网络(RPN),生成不同的目标候选框;通过角度参数Θ随机调整部分目标候选框,使得调整后的目标候选框发生倾斜;其中,参数Θ为所述目标候选框底边与水平线的夹角,包括:将图片输入区域生产网络(RPN),生成多个不同的目标候选框,角度参数Θ设置为5°,10°,15°,20°,30°,角度的设置可以丰富目标候选框的类型。
具体地,图片通过共享卷积层得到公共特征图,用3*3滑动窗对公共特征图进行一次卷积运算,得到通道数为256的特征图,所述特征图的尺寸为H*W,其中H表示所述特征图的宽,W表示所述特征图的长,所述特征图可以看做是H*W个向量,每个向量为256维,再经过两次全连接操作,每个向量可以得到区域得分和区域建议。区域得分包括两个分数,分别是图片的前景概率和背景概率;区域建议为四个坐标,用来确定目标候选框的位置。
303、通过ROIAlign表示所有目标候选框的特征;
本实施例中,所述ROIAlign是对ROI pooling的改进,用于解决ROI pooling操作中两次量化造成的区域不匹配的问题。。
具体地,通过取消量化操作,使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而目标候选框的特征提取过程转化为一个连续的操作。
所述操作具体为:遍历每一个目标候选区域,保持浮点数边界不做量化;将所述目标候选区域分割成k*k个单元,每个单元的边界也不做量化;取采样点为4,在每个单元中计算固定的四个采样点的坐标位置,所述每个单元中的采样点为将单元平均分成2*2的小方格,每个小方格的中心为采样点。采样点的坐标位置为所要计算的坐标位置。用双线性内插的方法计算出这四个位置的值,然后进行最大池化操作。通过卷积神经网络(CNN)提取全部目标候选框的特征。
304、将目标候选框输入Fast R-CNN网络对目标候选框的候选区进行分类,并通过字符分割网络掩模分支对待识别的候选区进行字符分割获取分割子图像;
本实施例中,快速区域卷积神经网络的输入为原始图片和目标候选框,输出是分类类别和bbox回归值。对于原始图片中的目标候选框区域,将其映射到卷积特征的对应区域,所述对应区域即图7中的RoIprojection,然后输入到感兴趣区域池化层(RoI poolinglayer),可以得到一个固定大小的特征图。将这个特征图经过2个全连接层以后得到RoI特征,然后将所述RoI特征经过全连接层,使用softmax得到分类,使用回归得到边框回归。
将全部目标候选框输入Fast R-CNN进行候选区分类,得到全连接加softmax分类器(FC+softmax classifier)及全连接加边界框回归器(FC+bbox regessor),所述全连接加softmax分类器用于判断物体的类别,所述全连接加边界框回归器用于输出bbox在图像中的位置,获取分割子图像。
305、利用文本识别模型对分割子图像进行识别,得到有序文本,通过对应模板对有序文本进行信息提取,得到商户信息图像中记载的目标商户数据;
本实施例中,首先利用卷积神经网络(CNN)提取输入图像的特征序列,获取卷积特征图,所述卷积特征图包括文本边缘特征,每一类文字形状特征等特征;其次使用深层双向循环神经网络层(LSTM)预测从卷积层获取的特征序列的标签(真实值)的分布,最后通过CTC对LSTM层获取的标签分布进行去重整合操作,得到每一类文字的概率输出,通过文本识别阈值过滤无关文字;概率输出,取每个位置处概率输出最大值所对应的索引作为当前位置最可能的类别索引;通过前述获得的类别索引和字典映射得到识别的文本和对应的置信度。进一步地,基于所述置信度得到有序文本,通过对应模板对所述有序文本进行信息提取,得到所述商户信息图像中记载的目标商户数据。
306、利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;
307、调用预置接口,获取预置关键商户数据;
308、基于商户总评分和关键商户数据,调用预设审核规则对目标商户数据进行审核,确定目标商户数据的真实性;
309、当审核结果为商户总评分低于预设阈值时,建立远程人工审核连接,并将审核结果发送给目标商户。
本实施例中步骤301、306-309与第一实施例中的步骤101、103-106类似,此处不再赘述。
本发明实施例中,通过获取目标商户的商户信息图像;将商户信息图像输入预设OCR识别模型进行识别,得到商户信息图像中记载的目标商户数据;利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;调用预置接口,获取预置关键商户数据;基于商户总评分和关键商户数据以及预置审核规则,对目标商户数据进行审核,确定目标商户数据的真实性;当目标商户数据真实时,建立远程人工审核,并将得到的人工审核结果发送给目标商户。本发明通过将商户本人录入商户图像数据和OCR识别技术结合,实现商户资质准确性风险核实,提升了商户收单业务展业效率。
请参阅图4,本发明实施例中数据采集方法的第四个实施例包括:
401、获取目标商户的商户信息图像;
402、将商户信息图像输入预设OCR识别模型进行识别,得到商户信息图像中记载的目标商户数据;
403、获取目标业务对应的模型训练样本;
本实施例中,上述模型训练样本数据至少包括有标签样本数据,还可以包括无标签训练样本数据,该有标签样本数据可以是基于预设风险管控方式确定为通过,但被投诉的业务行为数据(即黑样本数据),还可以是基于预设风险管控方式确定为通过,且未被投诉的业务行为数据(即白样本数据);该无标签训练样本数据还可以称为未知标签训练样本数据,即通过预设风险管控方式所拦截的业务行为数据,具体的,由于该业务行为数据对应的业务行为事件已被拦截处理,但可能存在误拦截的情况,因此,无法获知该业务行为事件是否为风险事件,从而该业务行为事件对应的业务行为数据的标签为未知;其中,上述预设风险管控方式可以是基于风险识别模型的管控方式、基于风控策略信息的管控方式中至少一项。
404、基于模型训练样本和初始风险识别模型,对预设风控数据对应的风险权重进行更新,得到更新后的风险权重;
本实施例中,上述初始风险识别模型可以是提升树模型,也可以是二初始风险识别模型、或者其他多初始风险识别模型;针对先策略权重训练再模型参数训练且首轮对策略权重进行更新的情况,上述用于风险识别的初始风险识别模型可以是初始初始风险识别模型,即模型参数的取值为迭代训练前的初始值,针对非首轮对策略权重进行更新、或者先模型参数训练再策略权重训练且首轮对策略权重进行更新的情况,上述用于风险识别的初始风险识别模型为上一轮基于策略权重对初始风险识别模型进行模型参数更新得到的初始风险识别模型,即模型参数的取值为经过至少一轮迭代训练后的目标值。
405、基于模型训练样本和更新后的风险权重,对初始风险识别模型进行更新直到初始风险识别模型满足预设模型优化终止条件,得到目标风险识别模型;
本实施例中,针对先模型参数训练再策略权重训练且首轮对模型参数进行更新的情况,上述策略权重可以是初始策略权重,即策略权重的取值为迭代训练前的初始值,针对非首轮对模型参数进行更新、或者先策略权重训练再模型参数训练且首轮对初始风险识别模型的模型参数进行更新的情况,上述策略权重为上一轮基于模型参数进行策略权重更新得到的策略权重,即策略权重的取值为经过至少一轮迭代训练后的目标值。
具体的,每次基于更新后的初始风险识别模型对策略权重进行更新之后,再基于更新后的策略权重,对初始风险识别模型的模型参数进行更新,依次类推,经过多轮策略权重和模型参数的迭代训练后,得到训练好的目标风险识别模型,并将该训练好的初始风险识别模型作为目标风险识别模型;其中,由于在风险识别模型的确定过程,不仅考虑有标签样本数据,还考虑了风控策略信息,从而使得未知标签样本数据也能够作为训练样本数据集,进而消除了训练样本数据集合的偏置问题,因此,经过多轮策略权重和模型参数的迭代训练得到的训练好的初始风险识别模型既能够符合模型训练样本数据的真实标签,又能够符合风控策略信息的约束条件(即在各模型训练样本上的风险概率符合风控策略信息的约束)。
在具体实施时,可以采用总目标函数的方式,对策略权重和模型参数进行迭代训练,得到训练好的风险识别模型,其中,该总目标函数包括与模型训练样本相关的第一损失函数、以及与风控策略信息相关的第二目标函数;具体的,针对策略权重的训练过程中,将模型参数作为已知参数(即基于上一轮更新后的初始风险识别模型的模型参数所确定)且策略权重作为变量,对总目标函数取最小化,得到更新后的策略权重;对应的,针对模型参数的训练过程中,将策略权重作为已知参数(即基于上一轮更新后的各风控策略信息的策略权重所确定)且模型参数作为变量,对总目标函数取取最小化,得到更新后的模型参数,依次类推,经过多轮模型参数和策略权重的迭代训练,得到训练好的初始风险识别模型,此时该训练好的初始风险识别模型既能够符合模型训练样本数据的真实标签,又能够符合风控策略信息的约束条件。
在具体实施时,还可以采用多目标函数的方式,对策略权重和模型参数进行迭代训练,得到训练好的风险识别模型;具体的,将模型训练样本数据的真实标签作为一个目标,也将风控策略信息是否命中模型训练样本数据作为另一个目标,利用多目标学习方法,对初始风险识别模型进行多目标学习,得到训练好的初始风险识别模型,即使得该训练好的初始风险识别模型既能够符合模型训练样本数据的真实标签,又能够符合风控策略信息的约束条件。
406、利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;
407、调用预置接口,获取预置关键商户数据;
408、基于商户总评分和关键商户数据,调用预设审核规则对目标商户数据进行审核,确定目标商户数据的真实性;
409、当审核结果为商户总评分低于预设阈值时,建立远程人工审核连接,并将审核结果发送给目标商户。
本实施例中步骤401-402、406-409与第一实施例中的步骤101-106类似,此处不再赘述。
在本发明实施例中,通过获取目标商户的商户信息图像;将商户信息图像输入预设OCR识别模型进行识别,得到商户信息图像中记载的目标商户数据;利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;调用预置接口,获取预置关键商户数据;基于商户总评分和关键商户数据以及预置审核规则,对目标商户数据进行审核,确定目标商户数据的真实性;当目标商户数据真实时,建立远程人工审核,并将得到的人工审核结果发送给目标商户。本发明通过将商户本人录入商户图像数据和OCR识别技术结合,实现商户资质准确性风险核实,提升了商户收单业务展业效率。
请参阅图5,本发明实施例中数据采集方法的第五个实施例包括:
501、获取目标商户的商户信息图像;
502、将目标商户数据输入预置风险识别模型的分类网络,通过分类网络对目标商户数据进行聚类,得到目标商户数据对应的风险识别指标;
503、对目标商户数据进行聚类,得到目标商户数据对应的风险识别指标;
本实施例中,为了完成对客户数据的轻量汇聚,为规则运算做数据准备,实际上就是数据仓库中数据集市的一种实现,主要完成对客户数据的多维度汇总,以生成多维度客户数据以及对客户数据中的每个指标均进行编号和运算逻辑的配置。
本实施例中,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。其中,在数据挖掘中,聚类也是很重要的一个概念。
504、根据风险识别指标配置风险评估规则;
本实施例中,客户风险规则是用来判断客户某个风险项时的运算单位,通常按照既定的风险主题进行设定,某客户命中某条风险规则是指通过客户既有的数据按照风险规则运算后得出是命中该规则或命中该规则对应的风险等级的结论。另外,在针对特定的客户进行风险识别时,往往是多条客户风险识别规则同时进行,即风险评估规则。
505、生成与风险评估规则对应的规则表达式;
本实施例中,规则表达式是一个逻辑表达式,是对自然语言描述的评估规则的一个形式化翻译,举例说明如下:=风险评估规则:Z01,个人借贷频繁交易。
自然语言描述的风险评估规则:监测10日内,个人账户借、贷累计发生额的比例介于E和F之间,且单边累计金额大于等于A元。对应的逻辑表达式描述的风险评估规则如下所述:Z01=between(C01/C02,$E,$F)&&(C01>=$A||C02>=$A)
其中,这个逻辑表达式的含义说明如下:C01,C02:由指标运算层计算的借方累计金额和贷方累计金额;between:系统内置的函数,由三个参数组成,如果在第1个参数值的大小在第2个和第3个参数之间,则返回true,否则返回false;&&:代表逻辑且;||:代表逻辑或;$E,$F,$A:表示该表达式的参数,在运算时,系统会自动地替换为真实值后再完成运算;C01>=$A||C02>=$A:表示该客户的借方累计金额或贷方累计金额大于等于A。由此可见逻辑表达式与自然语言描述的风险规则是完全对应的,配置也相对于现有方法更为简单。
506、通过风险识别模型内运行规则表达式,得到目标商户数据对应目标商户的风控评分对应权重,并根据风控评分对应权重确定目标商户的商户总评分;
本实施例中,规则表达式的运算是本申请最重要的运算逻辑,每次计算前,系统会自动编译目前开启的规则表达式,计算出规则表达式所依赖的全部指标集合,然后引擎模块自动生成SQL语句从指标计算层的存储模块中取得指标数据到库外运算模块,由库外编译后的规则运算模块逐条代入指标的值和参数的值,从而计算出逻辑表达式的值,以判断每个客户是否命中该规则。
507、调用预置接口,获取预置关键商户数据;
508、基于商户总评分和关键商户数据,调用预设审核规则对目标商户数据进行审核,确定目标商户数据的真实性;
509、当审核结果为商户总评分低于预设阈值时,建立远程人工审核连接,并将审核结果发送给目标商户;
510、当目标商户数据不真实时,通知目标商户未通过审核,并将未通过审核的原因推送至商户终端。
本实施例中,商户本人提交材料完成申请后,资料会自动调取风险系统,核查商户资料在工商系统的真实性,如果发现商户资料不匹配,会直接拒绝本次商户资料申请,并给出拒绝原因。
本实施例中步骤501-502、507-509与第一实施例中的步骤101-102、104-106类似,此处不再赘述。
本发明实施例中,通过获取目标商户的商户信息图像;将商户信息图像输入预设OCR识别模型进行识别,得到商户信息图像中记载的目标商户数据;利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;调用预置接口,获取预置关键商户数据;基于商户总评分和关键商户数据以及预置审核规则,对目标商户数据进行审核,确定目标商户数据的真实性;当目标商户数据真实时,建立远程人工审核,并将得到的人工审核结果发送给目标商户。本发明通过将商户本人录入商户图像数据和OCR识别技术结合,实现商户资质准确性风险核实,提升了商户收单业务展业效率。
上面对本发明实施例中数据采集方法进行了描述,下面对本发明实施例中数据采集装置进行描述,请参阅图6,本发明实施例中数据采集装置的第一个实施例包括:
第一获取模块601,用于获取目标商户的商户信息图像;
识别模块602,用于将所述商户信息图像输入预设OCR识别模型进行识别,得到所述商户信息图像中记载的目标商户数据;
确定模块603,用于利用预置风险识别模型对所述目标商户数据进行风险识别,确定所述目标商户数据对应目标商户的商户总评分;
调用模块604,用于调用预置接口,获取预置关键商户数据;
审核模块605,用于基于所述商户总评分和所述关键商户数据,调用预设审核规则对所述目标商户数据进行风险审核,得到审核结果;
发送模块606,用于当所述审核结果为所述商户总评分低于预设阈值时,建立远程人工审核连接,并将所述审核结果发送给所述目标商户。
本发明实施例中,通过获取目标商户的商户信息图像;将商户信息图像输入预设OCR识别模型进行识别,得到商户信息图像中记载的目标商户数据;利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;调用预置接口,获取预置关键商户数据;基于商户总评分和关键商户数据以及预置审核规则,对目标商户数据进行审核,确定目标商户数据的真实性;当目标商户数据真实时,建立远程人工审核,并将得到的人工审核结果发送给目标商户。本发明通过将商户本人录入商户图像数据和OCR识别技术结合,实现商户资质准确性风险核实,提升了商户收单业务展业效率。
请参阅图7,本发明实施例中数据采集装置的第二个实施例,该数据采集装置具体包括:
第一获取模块601,用于获取目标商户的商户信息图像;
识别模块602,用于将所述商户信息图像输入预设OCR识别模型进行识别,得到所述商户信息图像中记载的目标商户数据;
确定模块603,用于利用预置风险识别模型对所述目标商户数据进行风险识别,确定所述目标商户数据对应目标商户的商户总评分;
调用模块604,用于调用预置接口,获取预置关键商户数据;
审核模块605,用于基于所述商户总评分和所述关键商户数据,调用预设审核规则对所述目标商户数据进行风险审核,得到审核结果;
发送模块606,用于当所述审核结果为所述商户总评分低于预设阈值时,建立远程人工审核连接,并将所述审核结果发送给所述目标商户。
在本实施例中,所述数据采集装置包括:
标注模块607,用于获取包含样本特征的训练样本图像,并对部分所述训练样本图像进行标注,得到包括标注样本图像以及非标注样本图像的训练包含样本特征的训练样本图像;
第一计算模块608,用于将所述训练包含样本特征的训练样本图像输入至预设的OCR识别网络中进行计算,得到第一特征向量集;
第二计算模块609,用于将所述第一特征向量集输入到用于做无监督训练的第一损失计算层,计算得到第一损失值集,以及将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集;
第一更新模块610,用于基于所述第一损失值集与第二损失值集,通过反向网络传播算法计算网络的参数梯度,并基于所述参数梯度对所述OCR识别网络的参数进行更新直到收敛,得到OCR识别模型。
在本实施例中,所述识别模块602具体用于:
将所述商户信息图像输入预设OCR识别模型的RPN网络,生成不同的目标候选框;
通过ROIAlign表示所有所述目标候选框的特征;
将所述目标候选框输入所述Fast R-CNN网络对所述目标候选框的候选区进行分类,并通过字符分割网络掩模分支对待识别的所述候选区进行字符分割获取分割子图像;
利用文本识别模型对分割子图像进行识别,得到有序文本,通过对应模板对所述有序文本进行信息提取,得到所述商户信息图像中记载的目标商户数据。
在本实施例中,所述数据采集装置还包括:
第二获取模块611,用于获取目标业务对应的模型训练样本;
第二更新模块612,用于基于所述模型训练样本和初始风险识别模型,对预设风控数据对应的风险权重进行更新,得到更新后的风险权重;
第三更新模块613,用于基于所述模型训练样本和所述更新后的风险权重,对所述初始风险识别模型进行更新直到所述初始风险识别模型满足预设模型优化终止条件,得到目标风险识别模型。
在本实施例中,所述确定模块603包括:
识别单元6031,用于将所述目标商户数据输入预置风险识别模型的分类网络,通过所述分类网络对所述目标商户数据进行识别,得到所述目标商户数据对应的风险识别指标;
配置单元6032,用于根据所述风险识别指标配置风险评估规则;
生成单元6033,用于生成与所述风险评估规则对应的规则表达式;通过所述风险识别模型内运行所述规则表达式,得到所述目标商户数据对应目标商户的风控评分对应权重;
确定单元6034,用于根据所述风控评分对应权重确定所述目标商户的商户总评分。
在本实施例中,所述数据采集装置还包括:
推送模块614,用于当所述审核结果为所述商户总评分高于预设阈值时,通知所述目标商户未通过审核,并将未通过审核的原因推送至预设商户终端。
本发明实施例中,通过获取目标商户的商户信息图像;将商户信息图像输入预设OCR识别模型进行识别,得到商户信息图像中记载的目标商户数据;利用预置风险识别模型对目标商户数据进行风险识别,确定目标商户数据对应目标商户的商户总评分;调用预置接口,获取预置关键商户数据;基于商户总评分和关键商户数据以及预置审核规则,对目标商户数据进行审核,确定目标商户数据的真实性;当目标商户数据真实时,建立远程人工审核,并将得到的人工审核结果发送给目标商户。本发明通过将商户本人录入商户图像数据和OCR识别技术结合,实现商户资质准确性风险核实,提升了商户收单业务展业效率。
上面图6和图7从模块化功能实体的角度对本发明实施例中的数据采集装置进行详细描述,下面从硬件处理的角度对本发明实施例中数据采集设备进行详细描述。
图8是本发明实施例提供的数据采集设备的结构示意图,该数据采集设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据采集设备800中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在数据采集设备800上执行存储介质830中的一系列指令操作,以实现上述各方法实施例提供的数据采集方法的步骤。
数据采集设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作系统831,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的数据采集设备结构并不构成对本申请提供的数据采集设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行上述数据采集方法的步骤。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据采集方法,其特征在于,所述数据采集方法包括:
获取目标商户的商户信息图像;
将所述商户信息图像输入预设OCR识别模型进行识别,得到所述商户信息图像中记载的目标商户数据;
利用预置风险识别模型对所述目标商户数据进行风险识别,确定所述目标商户数据对应目标商户的商户总评分;
调用预置接口,获取预置关键商户数据;
基于所述商户总评分和所述关键商户数据,调用预设审核规则对所述目标商户数据进行风险审核,得到审核结果;
当所述审核结果为所述商户总评分低于预设阈值时,建立远程人工审核连接,并将所述审核结果发送给所述目标商户。
2.根据权利要求1所述的数据采集方法,其特征在于,在所述将所述商户信息图像输入预设OCR识别模型进行识别,得到所述商户信息图像中记载的目标商户数据之前,还包括:
获取包含样本特征的训练样本图像,并对部分所述训练样本图像进行标注,得到包括标注样本图像以及非标注样本图像的训练包含样本特征的训练样本图像;
将所述训练包含样本特征的训练样本图像输入至预设的OCR识别网络中进行计算,得到第一特征向量集;
将所述第一特征向量集输入到用于做无监督训练的第一损失计算层,计算得到第一损失值集,以及将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集;
基于所述第一损失值集与第二损失值集,通过反向网络传播算法计算网络的参数梯度,并基于所述参数梯度对所述OCR识别网络的参数进行更新直到收敛,得到OCR识别模型。
3.根据权利要求2所述的数据采集方法,其特征在于,所述将所述商户信息图像输入预设OCR识别模型进行识别,得到所述商户信息图像中记载的目标商户数据包括:
将所述商户信息图像输入预设OCR识别模型的RPN网络,生成不同的目标候选框;
通过ROIAlign表示所有所述目标候选框的特征;
将所述目标候选框输入所述Fast R-CNN网络对所述目标候选框的候选区进行分类,并通过字符分割网络掩模分支对待识别的所述候选区进行字符分割获取分割子图像;
利用文本识别模型对分割子图像进行识别,得到有序文本,通过对应模板对所述有序文本进行信息提取,得到所述商户信息图像中记载的目标商户数据。
4.根据权利要求1所述的数据采集方法,其特征在于,在所述利用预置风险识别模型对所述目标商户数据进行风险识别,确定所述目标商户数据对应目标商户的商户总评分之前,还包括:
获取目标业务对应的模型训练样本;
基于所述模型训练样本和初始风险识别模型,对预设风控数据对应的风险权重进行更新,得到更新后的风险权重;
基于所述模型训练样本和所述更新后的风险权重,对所述初始风险识别模型进行更新直到所述初始风险识别模型满足预设模型优化终止条件,得到训练后的风险识别模型。
5.根据权利要求4所述的数据采集方法,其特征在于,所述利用预置风险识别模型对所述目标商户数据进行风险识别,确定所述目标商户数据对应目标商户的商户总评分包括:
将所述目标商户数据输入预置风险识别模型的分类网络,通过所述分类网络对所述目标商户数据进行识别,得到所述目标商户数据对应的风险识别指标;
根据所述风险识别指标配置风险评估规则;
生成与所述风险评估规则对应的规则表达式;
通过所述风险识别模型内运行所述规则表达式,得到所述目标商户数据对应目标商户的风控评分对应权重;
根据所述风控评分对应权重确定所述目标商户的商户总评分。
6.根据权利要求1所述的数据采集方法,其特征在于,在所述当所述审核结果为所述商户总评分低于预设阈值时,建立远程人工审核连接,并将所述审核结果发送给所述目标商户之后,还包括:
当所述审核结果为所述商户总评分高于预设阈值时,通知所述目标商户未通过审核,并将未通过审核的原因推送至预设商户终端。
7.一种数据采集装置,其特征在于,所述数据采集装置包括:
第一获取模块,用于获取目标商户的商户信息图像;
识别模块,用于将所述商户信息图像输入预设OCR识别模型进行识别,得到所述商户信息图像中记载的目标商户数据;
确定模块,用于利用预置风险识别模型对所述目标商户数据进行风险识别,确定所述目标商户数据对应目标商户的商户总评分;
调用模块,用于调用预置接口,获取预置关键商户数据;
审核模块,用于基于所述商户总评分和所述关键商户数据,调用预设审核规则对所述目标商户数据进行风险审核,得到审核结果;
发送模块,用于当所述审核结果为所述商户总评分低于预设阈值时,建立远程人工审核连接,并将所述审核结果发送给所述目标商户。
8.根据权利要求7所述的数据采集装置,其特征在于,所述数据采集装置还包括:
推送模块,用于当所述审核结果为所述商户总评分高于预设阈值时,通知所述目标商户未通过审核,并将未通过审核的原因推送至预设商户终端。
9.一种数据采集设备,其特征在于,所述数据采集设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述数据采集设备执行如权利要求1-6中任一项所述的数据采集方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的数据采集方法的步骤。
CN202210585345.2A 2022-05-27 2022-05-27 数据采集方法、装置、设备及存储介质 Pending CN114971294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210585345.2A CN114971294A (zh) 2022-05-27 2022-05-27 数据采集方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210585345.2A CN114971294A (zh) 2022-05-27 2022-05-27 数据采集方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114971294A true CN114971294A (zh) 2022-08-30

Family

ID=82955428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210585345.2A Pending CN114971294A (zh) 2022-05-27 2022-05-27 数据采集方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114971294A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245653A (zh) * 2023-02-02 2023-06-09 南京田雨企业咨询管理有限公司 基于人车合影的风控评估方法、装置、设备及存储介质
CN116503872A (zh) * 2023-06-26 2023-07-28 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245653A (zh) * 2023-02-02 2023-06-09 南京田雨企业咨询管理有限公司 基于人车合影的风控评估方法、装置、设备及存储介质
CN116503872A (zh) * 2023-06-26 2023-07-28 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法
CN116503872B (zh) * 2023-06-26 2023-09-05 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法

Similar Documents

Publication Publication Date Title
US11816165B2 (en) Identification of fields in documents with neural networks without templates
CN109543690B (zh) 用于提取信息的方法和装置
US10482174B1 (en) Systems and methods for identifying form fields
CN112613501A (zh) 信息审核分类模型的构建方法和信息审核方法
US20220004878A1 (en) Systems and methods for synthetic document and data generation
CN103605972A (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
CN114971294A (zh) 数据采集方法、装置、设备及存储介质
US11574003B2 (en) Image search method, apparatus, and device
CN113158777B (zh) 质量评分方法、质量评分模型的训练方法及相关装置
CN108550065A (zh) 评论数据处理方法、装置及设备
CN112528315A (zh) 识别敏感数据的方法和装置
CN109389050B (zh) 一种流程图连接关系识别方法
CN113989822B (zh) 基于计算机视觉和自然语言处理的图片表格内容提取方法
CN113673528B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN114581928A (zh) 一种表格识别方法及系统
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN112507912A (zh) 一种识别违规图片的方法及装置
CN112131477A (zh) 一种基于用户画像的图书馆图书推荐系统及方法
US20230206676A1 (en) Systems and Methods for Generating Document Numerical Representations
Xiao et al. An improved siamese network model for handwritten signature verification
CN112200216A (zh) 汉字识别方法、装置、计算机设备和存储介质
CN114119191A (zh) 风控方法、逾期预测方法、模型训练方法及相关设备
Shinde et al. Feedforward back propagation neural network (FFBPNN) based approach for the identification of handwritten math equations
CN113988878B (zh) 一种基于图数据库技术的反欺诈方法及系统
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination