CN110717650A - 单据数据处理方法、装置、计算机设备和存储介质 - Google Patents
单据数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110717650A CN110717650A CN201910844441.2A CN201910844441A CN110717650A CN 110717650 A CN110717650 A CN 110717650A CN 201910844441 A CN201910844441 A CN 201910844441A CN 110717650 A CN110717650 A CN 110717650A
- Authority
- CN
- China
- Prior art keywords
- document
- target
- data
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 135
- 238000012550 audit Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims description 19
- 238000012795 verification Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000007477 logistic regression Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 11
- 238000007689 inspection Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 9
- 238000007619 statistical method Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 15
- 239000000284 extract Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及智能决策技术,提供了一种单据数据处理方法、装置、计算机设备和存储介质。方法包括:获取目标单据;从目标单据中提取目标特征对应的特征数据;目标特征是在模型训练阶段基于训练样本集预配置的;将特征数据输入已训练的单据评分模型进行预测得到目标单据评分;查询评分阈值;评分阈值是在模型训练阶段基于训练样本集中单据的单据评分分析得到的;当目标单据评分小于评分阈值时,将目标单据推送至终端进行审核;当接收到终端针对目标单据反馈的音频审核数据时,基于从音频审核数据中提取出的声纹特征进行身份验证,在验证通过时根据从音频审核数据中识别出的文本数据确定目标单据的单据评分。采用本方法能够提高单据评分的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种单据数据处理方法、装置、计算机设备和存储介质。
背景技术
单据也即用户单据,是包括用户信息和产品推荐信息的凭证,单据中的产品推荐信息通常是由单据管理员基于自身经验根据用户信息确定的。产品推荐信息的确定受限于单据管理员的自身经验和资质,由此导致部分产品推荐信息不适用与相应用户,也就是基于用户信息所确定的产品推荐信息的准确率较低。如何借助于经验丰富和资质较深的单据管理员所确定的产品推荐信息来提高产品推荐信息和用户的匹配度是值得关注的问题。
目前,通常是根据目标单据中的用户信息查询相匹配的历史单据,并根据所查询到的历史单据数量确定单据评分,并将单据评分较高的单据作为待推荐的单据并推荐给单据管理员参考。但是,基于用户信息在海量的历史单据中查询相匹配的历史单据需要耗费大量的查询等待时间,存在查询效率低的问题,从而降低了单据数据的处理效率。而且,基于所查询到的历史单据数量对目标单据进行评分,存在单据数据的处理准确性低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高单据数据的处理效率和准确性的单据数据处理方法、装置、计算机设备和存储介质。
一种单据数据处理方法,所述方法包括:
获取待评分的目标单据;
从所述目标单据中提取预配置的目标特征所对应的特征数据;所述目标特征是在模型训练阶段基于训练样本集预配置的;
将所述特征数据输入已训练的单据评分模型进行预测得到目标单据评分;
查询预配置的评分阈值;所述评分阈值是在所述模型训练阶段基于所述训练样本集中每个单据的单据评分分析得到的;
当所述目标单据评分小于所述评分阈值时,将所述目标单据推送至终端进行审核;
当接收到所述终端针对所述目标单据反馈的音频审核数据时,基于从所述音频审核数据中提取出的声纹特征进行身份验证,并在验证通过时根据从所述音频审核数据中识别出的文本数据确定所述目标单据的单据评分。
在其中一个实施例中,在模型训练阶段基于训练样本集预配置所述目标特征的步骤包括:
获取训练样本集;所述训练样本集包括单据和所述单据对应的单据标签;
从所述单据中提取离散特征对应的离散特征数据,根据所述离散特征数据和所述单据标签进行卡方检验,得到所述离散特征与所述单据标签的第一相关性,根据所述第一相关性从所述离散特征中筛选第一相关特征;
从所述单据中提取连续特征对应的连续特征数据,调用预配置的相关性检验函数,根据所述连续特征数据和所述单据标签计算所述连续特征和所述单据标签的第二相关性,根据所述第二相关性从所述连续特征中筛选第二相关特征;
将所述第一相关特征与所述第二相关特征预配置为目标特征。
在其中一个实施例中,所述将所述第一相关特征与所述第二相关特征预配置为目标特征,包括:
调用所述相关性检验函数,根据所述离散特征数据和所述连续特征数据,计算所述第一相关特征和所述第二相关特征的第三相关性;
当所述第三相关性大于或等于相关性阈值时,将所述第一相关特征或所述第二相关特征预配置为目标特征。
在其中一个实施例中,所述根据所述离散特征数据和所述单据标签进行卡方检验,得到所述离散特征与所述单据标签的第一相关性,包括:
建立所述离散特征与所述单据标签之间的假设关系;
对所述离散特征数据进行统计分析得到统计数据分布,根据所述统计数据分布计算卡方值;
确定所述离散特征对应的自由度,根据所述自由度查询预配置的卡方分布表得到卡方参考值;
根据所述卡方值和所述卡方参考值对所述假设关系进行验证,以确定所述离散特征与所述单据标签的第一相关性。
在其中一个实施例中,所述获取训练样本集,包括:
获取初始训练样本集;
对所述初始样本训练集中的初始单据进行预处理得到预处理后的单据;
按照预设打标签方式对所述单据打标签得到单据标签;
根据所述单据和所述单据对应的单据标签得到训练样本集。
在其中一个实施例中,所述单据评分模型的训练步骤包括:
基于所述训练样本集预配置出目标特征后,对所述目标特征进行特征分箱,得到多个特征区间,并计算每个特征区间的WOE值;
将所述单据中所述目标特征对应的特征数据作为输入特征,将相应的单据标签作为期望的输出特征进行模型训练,得到已训练的逻辑回归模型,根据所述逻辑回归模型确定所述目标特征的特征系数;
根据所述特征系数和预配置的特征常量确定评分映射关系;
根据所述目标特征对应的每个特征区间的WOE值和所述评分映射关系得到已训练的单据评分模型。
在其中一个实施例中,所述将所述特征数据输入已训练的单据评分模型进行预测得到目标单据评分,包括:
根据所述特征数据和针对所述目标特征预配置的特征区间,确定所述特征数据所属的目标特征区间;
将所述目标特征区间对应的WOE值确定为所述特征数据对应的WOE值;
根据所述特征数据对应的WOE值,按照预配置的评分映射关系计算目标单据评分。
一种单据数据处理装置,所述装置包括:
获取模块,用于获取待评分的目标单据;
提取模块,用于从所述目标单据中提取预配置的目标特征所对应的特征数据;所述目标特征是在模型训练阶段基于训练样本集预配置的;
预测模块,用于将所述特征数据输入已训练的单据评分模型进行预测得到目标单据评分;
查询模块,用于查询预配置的评分阈值;所述评分阈值是在所述模型训练阶段基于所述训练样本集中每个单据的单据评分分析得到的;
推送模块,用于当所述目标单据评分小于所述评分阈值时,将所述目标单据推送至终端进行审核;
验证模块,用于当接收到所述终端针对所述目标单据反馈的音频审核数据时,基于从所述音频审核数据中提取出的声纹特征进行身份验证,并在验证通过时根据从所述音频审核数据中识别出的文本数据确定所述目标单据的单据评分。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述各个实施例中所述的单据数据处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个实施例中所述的单据数据处理方法的步骤。
上述单据数据处理方法、装置、计算机设备和存储介质,根据模型训练阶段基于训练样本集预配置的目标特征,从待评分的目标单据中提取用于评分的特征数据,能够提高特征数据提取的效率和准确性,从而能够提高单据数据的处理效率和准确性。通过已训练的单据评分模型根据准确性较高的特征数据预测得到目标单据评分,能够进一步提高单据数据的处理效率和准确性。基于准确性较高的目标单据评分和模型训练阶段预配置的评分阈值,将目标单据评分小于评分阈值的目标单据推送至终端进行审核,并在接收到终端对应反馈的音频审核数据时,根据从音频审核数据中提取的声纹特征对审核人员进行验证,当验证通过时,基于音频审核数据对应的文本数据确定单据评分,以进一步提高单据数据的处理准确性。
附图说明
图1为一个实施例中单据数据处理方法的应用场景图;
图2为一个实施例中单据数据处理方法的流程示意图;
图3为另一个实施例中单据数据处理方法的流程示意图;
图4为一个实施例中单据数据处理装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的单据数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取待评分的目标单据,根据模型训练阶段基于训练样本集预配置的目标特征从目标单据中提问特征数据,将提取出的特征数据输入已训练的单据评分模型进行预测得到目标单据评分,查询模型训练阶段基于训练样本集预配置的评分阈值,并在目标单据评分小于评分阈值时,将目标单据推送至终端102进行审核,当接收到终端102对应反馈的音频审核数据时,基于从音频审核数据中提取出的声纹特征进行身份验证,并在验证通过时根据从音频审核数据中识别出的文本数据确定目标单据的单据评分。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种单据数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,获取待评分的目标单据。
其中,单据是记录有业务数据或服务数据的凭证,也就是用户办理相应业务或服务时的依据或凭证。单据具体可以是处方、产品申请单据或产品消费单据等,产品申请单据比如保险单据,产品消费单据比如快递单或提货单等。目标单据包括用户信息和产品推荐信息。用户信息是用户对应的信息,产品推荐信息是向用户推荐的产品所对应的信息。
以单据为处方为例,用户信息包括但不限于是用户的年龄、性别、检测机构等级和检测结果等,检测机构等级是检测机构的等级,比如一级或二级,检测机构比如医院,检测结果可以是指诊断结果。产品推荐信息包括但不限于是推荐产品的产品标识、单次产品数值、周期产品数值总额和来源于预设公共账户的产品数值,产品标识用于唯一标识产品,比如药品标识,单次产品数值是指单次处方价格或单次处方中的药品价格,周期产品数值总额是指周期费用,也即一个周期内的处方价格,来源于预设公共账户的产品数值是指报销费用。
具体地,服务器检测预设触发条件,当检测到预设触发条件时,根据所检测到的预设触发条件获取待评分的目标单据。预设触发条件比如接收到终端发送的单据评分指令,或者,自动检测到新增的目标单据,或者,检测到当前时间与预设触发时间一致。预设触发时间是预设的触发单据评分操作的时间。
S204,从目标单据中提取预配置的目标特征所对应的特征数据;目标特征是在模型训练阶段基于训练样本集预配置的。
其中,目标特征是在模型训练阶段基于训练样本集从单据所包括的多个特征中筛选出的特征。特征是对一类数据的抽象分类或概括,也可理解为标签或字段。例如,对“男”和“女”进行抽象概括可得到特征“性别”,对“20岁”、“25岁”和“30岁”等进行抽象概括可得到特征“年龄”。特征数据是特征对应的数据,具体可以是指特定用户下的特征取值,也可理解为标签对应的标签值,或者,字段对应的字段值。训练样本集是由用于训练单据评分模型的单据组成的集合。
具体地,服务器在模型训练阶段基于所获取到的训练样本集,从单据所包括的多个特征中筛选与单据评分相关的相关特征,并将筛选出的相关特征作为目标特征预配置在本地。服务器在获取到待评分的目标单据后,从本地查询预配置的目标特征,根据所查询到的目标特征从目标单据中提取相应的特征数据。
在一个实施例中,在模型训练阶段,服务器从训练样本集中的每个单据中分别提取相应的多个特征以及每个特征对应的特征数据,提取出的多个特征包括离散特征和连续特征,相应提取出的特征数据包括离散特征数据和连续特征数据。服务器基于离散特征数据对相应离散特征进行卡方检验,以根据检验结果从离散特征中筛选与单据评分相关的相关特征。服务器基于连续特征数据对相应连续特征进行相关性检验,以根据检验结果从连续特征中筛选与单据评分相关的相关特征。服务器将筛选出的相关特征作为目标特征预配置在本地。
在一个实施例中,目标特征由其他设备在模型训练阶段基于所获取到的训练样本集进行预配置。服务器在获取到待评分的目标单据后,从其他设备获取预配置的目标特征。其他设备比如用于训练模型的配置服务器。
在一个实施例中,服务器在获取到待评分的目标单据后,对所获取到的目标单据进行预处理,并从预处理后的目标单据中提取出目标特征所对应的特征数据。预处理包括但不限于是缺失值处理和异常值处理等。
S206,将特征数据输入已训练的单据评分模型进行预测得到目标单据评分。
其中,单据评分模型是基于训练样本集进行模型训练得到的、能够用于对目标单据进行评分的模型。训练样本集包括多个单据和每个单据对应的单据标签。基于训练样本集预先从单据的多个特征中筛选出相关特征作为目标特征,将每个单据中目标特征对应的特征数据作为输入特征,将相应的单据评分作为期望的输出特征进行模型训练,得到已训练的单据评分模型。目标单据评分是对目标单据进行评分得到的评分结果,能够用于表征单据的好坏或可靠程度。
具体地,服务器将从目标单据中提取出的特征数据作为输入特征输入到已训练的单据评分模型,通过该单据评分模型根据特征数据对相应目标单据进行预测,得到目标单据对应的目标单据评分。
在一个实施例中,预配置的目标特征为至少一个。服务器将根据至少一个的目标特征从目标单据中提取出的特征数据均作为输入特征,同时输入已训练的单据评分模型进行预测,得到相应的目标单据评分。
在一个实施例中,服务器基于训练样本集采用预设机器学习算法进行模型训练,得到已训练的单据评分模型。预设机器学习算法包括但不限于是神经网络和深度学习。
在一个实施例中,步骤S206包括:根据特征数据和针对目标特征预配置的特征区间,确定特征数据所属的目标特征区间;将目标特征区间对应的WOE值确定为特征数据对应的WOE值;根据特征数据对应的WOE值,按照预配置的评分映射关系计算目标单据评分。
其中,特征区间是包括至少一个的特征数据的数值区间。不同的目标特征可对应有不同的特征区间,比如目标特征为性别时,特征区间包括男和女,目标特征为年龄时,特征区间可包括0-35、35-65和65以上。在模型训练阶段,针对每个目标特征预配置有相应的多个特征区间,并针对每个特征区间预配置有相应的WOE值。WOE值(Weight of Evidence,证据权重),是对特征数据的一种编码形式,能够用于表征特征数据在相应特征区间内取值时对评分的影响程度,具体可基于现有技术进行计算,在此不再赘述。
具体地,服务器从目标单据中提取出目标特征对应的特征数据后,根据每个目标特征分别查询预配置的多个特征区间和每个特征区间对应的WOE值,并将对应于每个目标特征提取出的特征数据与相应的多个特征区间进行比较,以根据比较结果从该多个特征区间中确定特征数据所属的目标特征区间。服务器将特征数据所属的目标特征区间对应的WOE值确定为该特征数据所对应的WOE值,由此确定提取出的每个特征数据所对应的WOE值。服务器查询预配置的评分映射关系,根据每个特征数据所对应的WOE值,按照所查询到的评分映射关系计算目标单据所对应的目标单据评分。
在一个实施例中,服务器根据每个目标特征查询预配置的特征系数,并将目标特征对应的特征数据所对应的WOE值确定为该目标特征对应的WOE值。服务器根据每个目标特征对应的WOE值、特征系数和预配置的特征常量,计算相应的目标单据评分。
在一个实施例中,评分映射关系为其中,WOEi是指目标单据中第i个目标特征的WOE值,Bi是该第i个目标特征的特征系数,a是逻辑回归模型的常量截距,factor是指每增加一倍好坏比率除以自然对数的值,offset是基准分值减去(当好坏比率增加一倍,评分增加的分数)乘以基准分值与自然对数的相除的值。可以理解,a、factor和offset是在模型训练阶段基于训练样本集对应的统计数据分布分析得到的。
上述实施例中,已训练的单据评分模型包括针对每个目标特征预配置的多个特征区间以及每个特征区间对应的WOE值,以及相应的评分映射关系,这样,根据从目标单据中提取出的特征数据,基于预配置的WOE值和评分映射关系即可快速预测得到准确性较高的目标单据评分,能够提高评分的准确性和效率。
S208,查询预配置的评分阈值;评分阈值是在模型训练阶段基于训练样本集中每个单据的单据评分分析得到的。
其中,评分阈值是在模型训练阶段基于训练样本集中每个单据对应的单据评分分析得到的、能够用于判定目标单据的适用性或可靠性的评分。
具体地,在模型训练阶段,服务器对训练样本集中每个单据对应的单据评分进行统计分析,得到该训练样本集对应的单据评分分布,并根据该单据评分分布确定评分阈值。例如,服务器将该训练样本集中单据评分偏低的预设比例的单据确定为不适用单据,由此基于单据评分分布可确定评分阈值。预设比例可根据实际情况自定义,比如20%。在单据评分阶段,服务器在预测得到目标单据对应的目标单据评分后,查询预配置的评分阈值,并将查询到的评分阈值与目标单据评分进行比较,以便于根据比较结果进行相应的处理。
在一个实施例中,评分阈值也可根据终端的配置指令动态配置或调整。
S210,当目标单据评分小于评分阈值时,将目标单据推送至终端进行审核。
具体地,当目标单据评分小于评分阈值时,服务器判定相应目标单据为不适用单据、可疑单据或不可靠单据,则将该目标单据推送至相应的终端。终端将所接收到的目标单据进行展示,以使得审核人员对该目标单据进行二次审核。
在一个实施例中,当目标单据评分大于或等于评分阈值时,服务器判定相应目标单据为适用单据、可信单据或可靠单据,则将该目标单据确定为待推荐单据。服务器可将待推荐的单据推送至目标终端或目标服务器,或者,将待推荐的单据存储在本地,以在检测到推荐指令时快速从本地获取待推荐的单据并进行推荐。可以理解,服务器在接收到终端针对待审核的目标单据反馈的审核通过的提示信息或指令时,将该审核通过的目标单据确定为待推荐的单据。
在一个实施例中,预配置的评分阈值包括第一评分阈值和第二评分阈值,假设第一评分阈值小于第二评分阈值。当目标单据评分小于第一评分阈值,或者,目标单据评分大于第二评分阈值时,服务器将相应的目标单据推送至终端进行二次审核。
S212,当接收到终端针对目标单据反馈的音频审核数据时,基于从音频审核数据中提取出的声纹特征进行身份验证,并在验证通过时根据从音频审核数据中识别出的文本数据确定目标单据的单据评分。
其中,音频审核数据是指以音频形式存在或呈现的审核数据。具体地,服务器接收终端针对目标单据反馈的审核数据。当所接收到的审核数据为音频审核数据时,服务器对该音频审核数据进行声纹识别以提取出声纹特征,从本地查询预配置的目标声纹特征,并根据目标声纹特征对所提取出的声纹特征进行验证,以实现对审核并反馈该音频审核数据的审核人员进行身份验证。当验证通过时,服务器对音频审核数据进行语音识别,以识别出该音频审核数据中的文本数据,并根据所识别出的文本数据确定目标单据对应的单据评分。
在一个实施例中,服务器根据终端对应的终端标识从本地查询预配置的目标声纹特征,也可以根据终端上当前登录的用户账号所对应的用户标识,从本地查询预配置的目标声纹特征。
在一个实施例中,若从音频审核数据中识别出的文本数据包括评分数据,服务器则直接将评分数据确定为目标单据的单据评分。否则,服务器将文本数据与预设评分条件进行比较,以根据比较结果确定单据评分。其中,预设评分条件指定了文本数据和/或文本数据中的关键字与评分数据的关联关系。服务器在预设评分条件中查询与文本数据相匹配的数据,若查询到,则将与所查询到的数据存在关联关系的评分数据确定为目标单据的单据评分。若未查询到与文本数据相匹配的数据,服务器则提取文本数据中的关键字,从预设评分条件中查询与所提取出的关键字相匹配的数据,并将与所查询到的数据存在关联关系的评分数据确定为目标单据的单据评分。服务器可基于现有的关键字提取技术从文本数据中提取关键字,在此不做具体限制。在一个实施例中,终端针对目标单据反馈的审核数据包括音频审核数据、视频审核数据、文本审核数据或图片审核数据中的至少一种。可以理解,服务器在接收到终端反馈的审核数据时,针对不同呈现形式的审核数据按照相适应的验证方式进行验证,并在验证通过后根据审核数据对应确定单据评分。
上述单据数据处理方法,根据模型训练阶段基于训练样本集预配置的目标特征,从待评分的目标单据中提取用于评分的特征数据,能够提高特征数据提取的效率和准确性,从而能够提高单据评分的效率和准确性。通过已训练的单据评分模型根据准确性较高的特征数据预测得到目标单据评分,能够进一步提高单据评分的效率和准确性。基于准确性较高的目标单据评分和模型训练阶段预配置的评分阈值,将目标单据评分小于评分阈值的目标单据推送至终端进行审核,在接收到终端对应反馈的音频审核数据时,对从音频审核数据中提取出的声纹特征进行验证,并在验证通过时基于该音频审核数据对应的文本数据确定单据评分,以进一步提高单据评分的准确性。
在一个实施例中,在模型训练阶段基于训练样本集预配置目标特征的步骤包括:获取训练样本集;训练样本集包括单据和单据对应的单据标签;从单据中提取离散特征对应的离散特征数据,根据离散特征数据和单据标签进行卡方检验,得到离散特征与单据标签的第一相关性,根据第一相关性从离散特征中筛选第一相关特征;从单据中提取连续特征对应的连续特征数据,调用预配置的相关性检验函数,根据连续特征数据和单据标签计算连续特征和单据标签的第二相关性,根据第二相关性从连续特征中筛选第二相关特征;将第一相关特征与第二相关特征预配置为目标特征。
其中,单据标签是单据对应的标签,用于表征单据的适用性或可靠性等。单据标签比如适用或不适用,单据标签具体可由数字、字母和符号等字符中的至少一种组成,比如1表示适用的单据,0表示不适用的单据。离散特征是指相应的特征数据为离散的或具备离散性的特征,比如年龄、性别和检测机构等级。连续特征是指相应的特征数据为连续的或具备连续性的特征,比如单次产品数值、周期产品数值总额、来源于预设公共账户的产品数值、检测频次和各产品标识的累计推荐频次。检测频次为单据中各个产品标识的推荐频次的均值,也就是各个产品推荐频次之和除以产品数量得到检测频次,以避免单据中的单一产品影响整个单据的评分。
卡方检验是一种假设检验方法,用于检验比较对象或变量之间的关联性或相关性。相关性是指比较对象或变量之间的相关程度或关联程度。相关性检验函数是能够用于检验比较对象或变量之间的相关性的函数。
具体地,服务器获取训练样本集,从所获取到的训练样本集中提取多个单据和每个单据所对应的单据标签。服务器从每个单据中分别提取每个离散特征对应的离散特征数据,得到每个单据下每个离散特征对应的离散特征数据。服务器将从训练样本集中的每个单据中提取出的离散特征数据,按照离散特征进行统计得到该训练样本集下每个离散特征对应的多个离散特征数据,并根据相应单据的单据标签确定每个离散特征数据所对应的单据标签。对于每个离散特征,服务器根据相应的多个离散特征数据和每个离散特征数据对应的单据标签进行卡方检验,并根据检验结果确定相应离散特征与单据标签之间的第一相关性。服务器根据所确定的第一相关性从单据中的多个离散特征中筛选与单据标签相关的第一相关特征。
进一步地,服务器从每个单据中分别提取每个连续特征对应的连续特征数据,得到每个单据下每个连续特征对应的连续特征数据。服务器将从训练样本集中的每个单据中提取出的连续特征数据,按照连续特征进行统计得到该训练样本集下每个连续特征对应的多个连续特征数据,并根据相应单据的单据标签确定每个连续特征数据所对应的单据标签。服务器查询并调用预配置的相关性检验函数。对于每个连续特征,服务器通过调用的相关性检验函数,根据相应的多个连续特征数据和每个连续特征数据对应的单据标签,计算相应连续特征与单据标签之间的第二相关性。服务器根据所确定的第二相关性从单据中的多个连续特征中筛选与单据标签相关的第二相关特征。服务器将筛选出的第一相关特征和第二相关特征确定为目标特征,并预配置在本地。
在一个实施例中,服务器对连续特征进行相关性检验的步骤包括:对于每个连续特征,服务器将从各单据中提取出的连续特征与相应的单据标签作为相关性检验函数的两个随机变量,以借助于该相关性检验函数确定该连续特征与单据标签之间的相关系数,从而根据相关系数确定该连续特征与单据标签之间的第二相关性。相关性检验函数比如corr(x,y),x为连续特征,y为单据标签,相关系数取值范围为0到1,0表示线性无关,1表示线性相关。
上述实施例中,基于训练样本集对离散特征进行卡方检验,对连续特征进行相关性检验,以分别从离散特征和连续特征中筛选与单据标签相关的目标特征,以便于在单据评分阶段,基于该目标特征能够快速而准确的从目标单据中提取出用于进行单据评分的特征数据,从而能够提高单据评分的准确性和效率。
在一个实施例中,将第一相关特征与第二相关特征预配置为目标特征,包括:调用相关性检验函数,根据离散特征数据和连续特征数据,计算第一相关特征和第二相关特征的第三相关性;当第三相关性大于或等于相关性阈值时,将第一相关特征或第二相关特征预配置为目标特征。
具体地,服务器分别从离散特征中筛选出第一相关特征,从连续特征中筛选出第二相关特征后,调用预配置的相关性检验函数,根据第一相关特征对应的离散特征数据和第二相关特征对应的连续特征数据,计算该第一相关特征和第二相关特征之间的第三相关性。服务器将计算得到的第三相关性与预配置的相关性阈值进行比较,当第三相关性大于或等于相关性阈值时,表明相应第一相关特征与第二相关特征之间的相关程度较高,则从该相关程度较高的第一相关特征和第二相关特征从选取任一个相关特征作为预配置的目标特征。
在一个实施例中,服务器筛选出的第一相关特征和/或第二相关特征有多个。服务器调用相关性检验函数,分别计算每个第一相关特征与除自身之外的每个第一相关特征之间的第三相关性,并分别计算每个第一相关特征与每个第二相关特征之间的第三相关性。相应地,服务器调用相关性检验函数,分别计算每个第二相关特征与除自身之外的每个第二相关特征之间的第三相关性,并分别计算每个第二相关特征与每个第一相关特征之间的第三相关性。
上述实施例中,由于相关性越高的两个相关特征对单据评分的影响越接近,通过计算得到的第三相关性从相关性较高的两个相关特征中选取一个作为目标特征,能够减少单据评分阶段待处理的特征数据量,从而能够提高单据评分的效率。
在一个实施例中,根据离散特征数据和单据标签进行卡方检验,得到离散特征与单据标签的第一相关性,包括:建立离散特征与单据标签之间的假设关系;对离散特征数据进行统计分析得到统计数据分布,根据统计数据分布计算卡方值;确定离散特征对应的自由度,根据自由度查询预配置的卡方分布表得到卡方参考值;根据卡方值和卡方参考值对假设关系进行验证,以确定离散特征与单据标签的第一相关性。
其中,假设关系是预先建立的假设比较对象或变量之间存在的关系,具体可以是指预先假设离散特征与单据标签之间存在的关系,例如,假设特定的离散特征与单据标签无关。统计数据分布是指多个离散特征数据的分布情况。卡方值是用于检验比较对象之间的相关性的统计量。卡方参考值是根据自由度从卡方分布表中查询出的卡方值。卡方分布表是有自由度与相应的卡方值组成的集合或列表。自由度与离散特征对应的特征区间数量相对应,也就是根据离散特征对应的特征区间数量可确定该离散特征对应的自由度。自由度具体可以是离散特征对应的特征区间数量减去数值一得到的数值。可以理解,离散特征对应的自由度也可自定义。
具体地,对于单据中的每个离散特征,服务器预先建立离散特征与单据标签之间的假设关系,并对该离散特征对应的多个离散特征数据进行统计分析得到统计数据分布,进而根据该统计数据分布计算相应的卡方值。服务器确定每个离散特征所对应的自由度,并从预配置的卡方分布表中查询每个自由度所对应的卡方参考值,作为相应离散特征所对应的卡方参考值。服务器将每个离散特征对应的卡方值和卡方参考值进行比较,以根据比较结果对相应离散特征所对应的假设关系进行验证,并根据验证结果确定相应离散特征与单据标签之间的第一相关性。
以离散特征为性别为例,假设性别与单据标签无关,基于统计分析分别确定男性对应的适用单据和不适用单据的数量,以及女性对应的适用单据和不适用单据的数量,基于统计的数量计算卡方值;再基于自由度1查询卡方分布表确定卡方参考值,若卡方值大于卡方参考值,则判定性别与用户单据标签相关。
在一个实施例中,当离散特征为年龄时,需要按照预设划分方式对年龄进行分段,并按照年龄段确定来进行数据统计。比如,划分为0-35、36-65和65以上几个年龄段。
上述实施例中,通过计算离散特征所对应的卡方值,并根据计算得到的卡方值和基于相应自由度查询到的卡方参考值判定假设关系是否成立,从而判定离散特征与单据标签之间的相关性,能够筛选出相关性较高的目标特征,从而能够提高单据评分的准确性。
在一个实施例中,获取训练样本集,包括:获取初始训练样本集;对初始样本训练集中的初始单据进行预处理得到预处理后的单据;按照预设打标签方式对单据打标签得到单据标签;根据单据和单据对应的单据标签得到训练样本集。
其中,预设打标签方式是预先设定的用于给单据打标签的方式,也就是确定单据对应的单据标签的方式。预设打标签方式,比如从单据中提取单次产品数值、周期产品数值总额、来源于预设公共账户的产品数值,基于训练样本集统计该单据中每个产品标识的推荐频次和单据相应的检测频次,并将提取的单次产品数值、周期产品数值总额、来源于预设公共账户的产品数值分别与预配置的相应数值阈值进行比较,以及将每个产品标识的推荐频次和单据相应的检测频次分别与相应的预设频次进行比较,以根据比较结果按照预设条件给单据打标签。
预设条件,比如当单次产品数值、周期产品数值总额、来源于预设公共账户的产品数值中的任一数值大于相应预设数值阈值(比如75分位数值),则判定单据为不适用单据,则给该单据打上不适用或不适用单据的单据标签;当单据中每个产品标识的推荐频次和单据相应的检测频次任一频次小于相应预设频次(比如25分位频次),则判定单据为不适用单据;否则,判定相应单据为适用单据,则给该单据打上适用或适用单据的单据标签。
具体地,服务器获取由多个初始单据组成的初始训练样本集,并对该初始训练样本集中的每个初始单据进行预处理得到预处理后的单据。服务器按照预设打标签方式分别对预处理后的每个单据打标签,得到每个单据的单据标签,并根据该预处理后的单据和每个单据对应的单据标签得到训练样本集,以便于根据该训练样本集进行模型训练得到能够用于评分的单据评分模型。
上述实施例中,根据预处理后的单据确定准确性较高的单据标签,并基于该准确性较高的单据标签和单据得到训练样本集,以便于基于该训练样本集进行模型训练时能够得到准确性较高的单据评分模型。
在一个实施例中,单据评分模型的训练步骤包括:基于训练样本集预配置出目标特征后,对目标特征进行特征分箱,得到多个特征区间,并计算每个特征区间的WOE值;将单据中目标特征对应的特征数据作为输入特征,将相应的单据标签作为期望的输出特征进行模型训练,得到已训练的逻辑回归模型,根据逻辑回归模型确定目标特征的特征系数;根据特征系数和预配置的特征常量确定评分映射关系;根据目标特征对应的每个特征区间的WOE值和评分映射关系得到已训练的单据评分模型。
具体地,服务器按照上述一个或多个实施例中提供的预配置目标特征的步骤,基于所获取到的训练样本集预配置出目标特征后,按照预设特征分箱方式对每个目标特征分别进行特征分箱,得到每个目标特征对应的多个特征区间,并计算每个特征区间对应的WOE值。服务器将从训练样本集中的每个单据中提取出的、且与预配置的目标特征对应的特征数据作为输入特征,将相应单据对应的单据标签作为期望的输出特征进行模型训练,得到已训练的逻辑回归模型。服务器根据已训练的逻辑回归模型确定每个目标特征对应的特征系数,并根据每个目标特征对应的特征系数和预配置的特征常量确定用于对目标单据进行评分的评分映射关系。服务器将每个目标特征对应的每个特征区间的WOE值,以及所确定的评分预设关系作为单据评分模型的组成部分,得到已训练的单据评分模型,由此完成了单据评分模型的训练过程。
在一个实施例中,预设特征分箱方式包括但不限于是有监督特征分箱和无监督特征分箱,有监督特征分箱比如卡方分箱,无监督特征分箱比如等频分箱和等距分箱。在特征分箱过程中,基于每个目标特征对应的IV值、迭代次数和分箱阈值确定目标特征所对应的分箱数量,以及确定是否停止迭代过程。分箱阈值是预配置的最大分箱数量。IV值(Information Value,信息价值或信息量),用于表征目标特征对单据评分的预测能力。IV值越大表明相应目标特征对单据评分的影响越大。IV值的计算方式具体可以是其中,n为单据标签的类别总数,例如单据标签为二分类的适用和不适用时,n取值为2,WOEi是指相应目标特征所对应的第i个特征区间的WOE值,Pigood为第i个特征区间中适用单据的占比,Pibad为第i个特征区间中不适用单据的占比。
在一个实施例中,在逻辑回归模型的训练过程中,可通过计算混淆矩阵和ROC曲线来对训练的逻辑回归模型进行校验,以训练得到准确度较高的逻辑回归模型。其中,混淆矩阵和ROC曲线可基于现有技术进行计算,在此不再赘述。
上述实施例中,基于训练样本集分析得到能够用于单据评分的目标特征,计算每个目标特征对应的多个WOE值,并基于已训练的逻辑回归模型针对没根本特征得到准确性较高的特征系数,由此基于相关性较高的每个目标特征对应的WOE值、特征系数和预配置的特征常量,确定用于预测单据评分的单据评分模型,以便于基于该单据评分模型对目标单据进行评分,能够以较高的效率得到准确性较高的目标单据评分。
如图3所示,在一个实施例中,提供了一种单据数据处理方法,该方法具体包括以下步骤:
S302,获取待评分的目标单据。
S304,从目标单据中提取预配置的目标特征所对应的特征数据;目标特征是在模型训练阶段基于训练样本集预配置的。
S306,根据特征数据和针对目标特征预配置的特征区间,确定特征数据所属的目标特征区间。
S308,将目标特征区间对应的WOE值确定为特征数据对应的WOE值。
S310,根据特征数据对应的WOE值,按照预配置的评分映射关系计算目标单据评分。
S312,查询预配置的评分阈值;评分阈值是在模型训练阶段基于训练样本集中每个单据的单据评分分析得到的。
S314,当目标单据评分小于评分阈值时,将目标单据推送至终端进行审核。
S316,当接收到终端针对目标单据反馈的音频审核数据时,基于从音频审核数据中提取出的声纹特征进行身份验证,并在验证通过时根据从音频审核数据中识别出的文本数据确定目标单据的单据评分。
在一个实施例中,服务器根据目标单据对应的目标单据评分确定目标单据所对应的单据标签,并将目标单据与单据标签关联存储。服务器在检测到指定触发条件时,从本地获取关联存储的目标单据和单据标签,并基于所获取到的目标单据和单据标签对已训练的单据评分模型进行优化训练,以得到准确性更高的单据评分模型。在后续的单据评分阶段,基于该优化后的单据评分模型预测目标单据评分,能够提高单据评分的准确性。指定触发条件比如接收到终端发送的模型优化指令,或者检测到当前时间与指定触发时间一致,或者,统计到预测出的目标单据评分低于或高于阈值的目标单据的数量达到数量阈值时。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种单据数据处理装置400,包括:获取模块402、提取模块404、预测模块406、查询模块408、推送模块410和验证模块412,其中:
获取模块402,用于获取待评分的目标单据。
提取模块404,用于从目标单据中提取预配置的目标特征所对应的特征数据;目标特征是在模型训练阶段基于训练样本集预配置的。
预测模块406,用于将特征数据输入已训练的单据评分模型进行预测得到目标单据评分。
查询模块408,用于查询预配置的评分阈值;评分阈值是在模型训练阶段基于训练样本集中每个单据的单据评分分析得到的。
推送模块410,用于当目标单据评分小于评分阈值时,将目标单据推送至终端进行审核;
验证模块412,用于当接收到终端针对目标单据反馈的音频审核数据时,基于从音频审核数据中提取出的声纹特征进行身份验证,并在验证通过时根据从音频审核数据中识别出的文本数据确定目标单据的单据评分。
在一个实施例中,上述单据数据处理装置400,还包括:配置模块;
配置模块,用于在模型训练阶段执行基于训练样本集预配置目标特征的步骤包括:获取训练样本集;训练样本集包括单据和单据对应的单据标签;从单据中提取离散特征对应的离散特征数据,根据离散特征数据和单据标签进行卡方检验,得到离散特征与单据标签的第一相关性,根据第一相关性从离散特征中筛选第一相关特征;从单据中提取连续特征对应的连续特征数据,调用预配置的相关性检验函数,根据连续特征数据和单据标签计算连续特征和单据标签的第二相关性,根据第二相关性从连续特征中筛选第二相关特征;将第一相关特征与第二相关特征预配置为目标特征。
在一个实施例中,配置模块,还用于调用相关性检验函数,根据离散特征数据和连续特征数据,计算第一相关特征和第二相关特征的第三相关性;当第三相关性大于或等于相关性阈值时,将第一相关特征或第二相关特征预配置为目标特征。
在一个实施例中,配置模块,还用于建立离散特征与单据标签之间的假设关系;对离散特征数据进行统计分析得到统计数据分布,根据统计数据分布计算卡方值;确定离散特征对应的自由度,根据自由度查询预配置的卡方分布表得到卡方参考值;根据卡方值和卡方参考值对假设关系进行验证,以确定离散特征与单据标签的第一相关性。
在一个实施例中,配置模块,还用于获取初始训练样本集;对初始样本训练集中的初始单据进行预处理得到预处理后的单据;按照预设打标签方式对单据打标签得到单据标签;根据单据和单据对应的单据标签得到训练样本集。
在一个实施例中,上述单据数据处理装置400,还包括:训练模块;
训练模块,用于在配置模块基于训练样本集预配置出目标特征后,对目标特征进行特征分箱,得到多个特征区间,并计算每个特征区间的WOE值;将单据中目标特征对应的特征数据作为输入特征,将相应的单据标签作为期望的输出特征进行模型训练,得到已训练的逻辑回归模型,根据逻辑回归模型确定目标特征的特征系数;根据特征系数和预配置的特征常量确定评分映射关系;根据目标特征对应的每个特征区间的WOE值和评分映射关系得到已训练的单据评分模型。
在一个实施例中,预测模块406,还用于根据特征数据和针对目标特征预配置的特征区间,确定特征数据所属的目标特征区间;将目标特征区间对应的WOE值确定为特征数据对应的WOE值;根据特征数据对应的WOE值,按照预配置的评分映射关系计算目标单据评分。
关于单据数据处理装置的具体限定可以参见上文中对于单据数据处理方法的限定,在此不再赘述。上述单据数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预配置的目标特征、已训练的单据评分模型和预配置的评分阈值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种单据数据处理方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述各个实施例中的单据数据处理方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个实施例中的单据数据处理方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种单据数据处理方法,所述方法包括:
获取待评分的目标单据;
从所述目标单据中提取预配置的目标特征所对应的特征数据;所述目标特征是在模型训练阶段基于训练样本集预配置的;
将所述特征数据输入已训练的单据评分模型进行预测得到目标单据评分;
查询预配置的评分阈值;所述评分阈值是在所述模型训练阶段基于所述训练样本集中每个单据的单据评分分析得到的;
当所述目标单据评分小于所述评分阈值时,将所述目标单据推送至终端进行审核;
当接收到所述终端针对所述目标单据反馈的音频审核数据时,基于从所述音频审核数据中提取出的声纹特征进行身份验证,并在验证通过时根据从所述音频审核数据中识别出的文本数据确定所述目标单据的单据评分。
2.根据权利要求1所述的方法,其特征在于,在模型训练阶段基于训练样本集预配置所述目标特征的步骤包括:
获取训练样本集;所述训练样本集包括单据和所述单据对应的单据标签;
从所述单据中提取离散特征对应的离散特征数据,根据所述离散特征数据和所述单据标签进行卡方检验,得到所述离散特征与所述单据标签的第一相关性,根据所述第一相关性从所述离散特征中筛选第一相关特征;
从所述单据中提取连续特征对应的连续特征数据,调用预配置的相关性检验函数,根据所述连续特征数据和所述单据标签计算所述连续特征和所述单据标签的第二相关性,根据所述第二相关性从所述连续特征中筛选第二相关特征;
将所述第一相关特征与所述第二相关特征预配置为目标特征。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一相关特征与所述第二相关特征预配置为目标特征,包括:
调用所述相关性检验函数,根据所述离散特征数据和所述连续特征数据,计算所述第一相关特征和所述第二相关特征的第三相关性;
当所述第三相关性大于或等于相关性阈值时,将所述第一相关特征或所述第二相关特征预配置为目标特征。
4.根据权利要求2所述的方法,其特征在于,所述根据所述离散特征数据和所述单据标签进行卡方检验,得到所述离散特征与所述单据标签的第一相关性,包括:
建立所述离散特征与所述单据标签之间的假设关系;
对所述离散特征数据进行统计分析得到统计数据分布,根据所述统计数据分布计算卡方值;
确定所述离散特征对应的自由度,根据所述自由度查询预配置的卡方分布表得到卡方参考值;
根据所述卡方值和所述卡方参考值对所述假设关系进行验证,以确定所述离散特征与所述单据标签的第一相关性。
5.根据权利要求2所述的方法,其特征在于,所述获取训练样本集,包括:
获取初始训练样本集;
对所述初始样本训练集中的初始单据进行预处理得到预处理后的单据;
按照预设打标签方式对所述单据打标签得到单据标签;
根据所述单据和所述单据对应的单据标签得到训练样本集。
6.根据权利要求2至5任意一项所述的方法,其特征在于,所述单据评分模型的训练步骤包括:
基于所述训练样本集预配置出目标特征后,对所述目标特征进行特征分箱,得到多个特征区间,并计算每个特征区间的WOE值;
将所述单据中所述目标特征对应的特征数据作为输入特征,将相应的单据标签作为期望的输出特征进行模型训练,得到已训练的逻辑回归模型,根据所述逻辑回归模型确定所述目标特征的特征系数;
根据所述特征系数和预配置的特征常量确定评分映射关系;
根据所述目标特征对应的每个特征区间的WOE值和所述评分映射关系得到已训练的单据评分模型。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述将所述特征数据输入已训练的单据评分模型进行预测得到目标单据评分,包括:
根据所述特征数据和针对所述目标特征预配置的特征区间,确定所述特征数据所属的目标特征区间;
将所述目标特征区间对应的WOE值确定为所述特征数据对应的WOE值;
根据所述特征数据对应的WOE值,按照预配置的评分映射关系计算目标单据评分。
8.一种单据数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取待评分的目标单据;
提取模块,用于从所述目标单据中提取预配置的目标特征所对应的特征数据;所述目标特征是在模型训练阶段基于训练样本集预配置的;
预测模块,用于将所述特征数据输入已训练的单据评分模型进行预测得到目标单据评分;
查询模块,用于查询预配置的评分阈值;所述评分阈值是在所述模型训练阶段基于所述训练样本集中每个单据的单据评分分析得到的;
推送模块,用于当所述目标单据评分小于所述评分阈值时,将所述目标单据推送至终端进行审核;
验证模块,用于当接收到所述终端针对所述目标单据反馈的音频审核数据时,基于从所述音频审核数据中提取出的声纹特征进行身份验证,并在验证通过时根据从所述音频审核数据中识别出的文本数据确定所述目标单据的单据评分。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910844441.2A CN110717650A (zh) | 2019-09-06 | 2019-09-06 | 单据数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910844441.2A CN110717650A (zh) | 2019-09-06 | 2019-09-06 | 单据数据处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110717650A true CN110717650A (zh) | 2020-01-21 |
Family
ID=69209725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910844441.2A Pending CN110717650A (zh) | 2019-09-06 | 2019-09-06 | 单据数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717650A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428103A (zh) * | 2020-03-19 | 2020-07-17 | 竹间智能科技(上海)有限公司 | 一种构建票据审核模型的方法 |
CN111489262A (zh) * | 2020-06-15 | 2020-08-04 | 太平金融科技服务(上海)有限公司 | 保单信息检测方法、装置、计算机设备和存储介质 |
CN111639902A (zh) * | 2020-04-29 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 基于kafka的数据审核方法、控制装置及计算机设备、存储介质 |
CN111695820A (zh) * | 2020-06-16 | 2020-09-22 | 深圳市城市公共安全技术研究院有限公司 | 工程车辆电子联单管理方法、装置、终端及存储介质 |
CN112598351A (zh) * | 2020-12-24 | 2021-04-02 | 金蝶软件(中国)有限公司 | 一种业务处理模块、业务处理系统及业务处理方法 |
CN113537666A (zh) * | 2020-04-16 | 2021-10-22 | 马上消费金融股份有限公司 | 评测模型训练方法、评测和业务审核方法、装置及设备 |
CN113743749A (zh) * | 2021-08-20 | 2021-12-03 | 泰康保险集团股份有限公司 | 医疗机构的检查方法、装置及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198591A (zh) * | 2017-12-28 | 2018-06-22 | 泰康保险集团股份有限公司 | 用于远程审核单据的方法与装置 |
CN108805338A (zh) * | 2018-05-21 | 2018-11-13 | 重庆小雨点小额贷款有限公司 | 一种稳定变量确定方法、装置、服务器及存储介质 |
CN109543925A (zh) * | 2019-01-07 | 2019-03-29 | 平安科技(深圳)有限公司 | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 |
CN109543516A (zh) * | 2018-10-16 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 签约意向判断方法、装置、计算机设备和存储介质 |
CN109598095A (zh) * | 2019-01-07 | 2019-04-09 | 平安科技(深圳)有限公司 | 评分卡模型的建立方法、装置、计算机设备和存储介质 |
CN109670788A (zh) * | 2018-12-13 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 基于数据分析的医保审核方法、装置、设备和存储介质 |
CN109815985A (zh) * | 2018-12-21 | 2019-05-28 | 东软集团股份有限公司 | 变量离散化的评价方法、装置、存储介质及电子设备 |
-
2019
- 2019-09-06 CN CN201910844441.2A patent/CN110717650A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198591A (zh) * | 2017-12-28 | 2018-06-22 | 泰康保险集团股份有限公司 | 用于远程审核单据的方法与装置 |
CN108805338A (zh) * | 2018-05-21 | 2018-11-13 | 重庆小雨点小额贷款有限公司 | 一种稳定变量确定方法、装置、服务器及存储介质 |
CN109543516A (zh) * | 2018-10-16 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 签约意向判断方法、装置、计算机设备和存储介质 |
CN109670788A (zh) * | 2018-12-13 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 基于数据分析的医保审核方法、装置、设备和存储介质 |
CN109815985A (zh) * | 2018-12-21 | 2019-05-28 | 东软集团股份有限公司 | 变量离散化的评价方法、装置、存储介质及电子设备 |
CN109543925A (zh) * | 2019-01-07 | 2019-03-29 | 平安科技(深圳)有限公司 | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 |
CN109598095A (zh) * | 2019-01-07 | 2019-04-09 | 平安科技(深圳)有限公司 | 评分卡模型的建立方法、装置、计算机设备和存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428103A (zh) * | 2020-03-19 | 2020-07-17 | 竹间智能科技(上海)有限公司 | 一种构建票据审核模型的方法 |
CN113537666A (zh) * | 2020-04-16 | 2021-10-22 | 马上消费金融股份有限公司 | 评测模型训练方法、评测和业务审核方法、装置及设备 |
CN113537666B (zh) * | 2020-04-16 | 2024-05-03 | 马上消费金融股份有限公司 | 评测模型训练方法、评测和业务审核方法、装置及设备 |
CN111639902A (zh) * | 2020-04-29 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 基于kafka的数据审核方法、控制装置及计算机设备、存储介质 |
CN111489262A (zh) * | 2020-06-15 | 2020-08-04 | 太平金融科技服务(上海)有限公司 | 保单信息检测方法、装置、计算机设备和存储介质 |
CN111695820A (zh) * | 2020-06-16 | 2020-09-22 | 深圳市城市公共安全技术研究院有限公司 | 工程车辆电子联单管理方法、装置、终端及存储介质 |
CN111695820B (zh) * | 2020-06-16 | 2023-04-18 | 深圳市城市公共安全技术研究院有限公司 | 工程车辆电子联单管理方法、装置、终端及存储介质 |
CN112598351A (zh) * | 2020-12-24 | 2021-04-02 | 金蝶软件(中国)有限公司 | 一种业务处理模块、业务处理系统及业务处理方法 |
CN113743749A (zh) * | 2021-08-20 | 2021-12-03 | 泰康保险集团股份有限公司 | 医疗机构的检查方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717650A (zh) | 单据数据处理方法、装置、计算机设备和存储介质 | |
CN108876133B (zh) | 基于业务信息的风险评估处理方法、装置、服务器和介质 | |
CN109729383B (zh) | 双录视频质量检测方法、装置、计算机设备和存储介质 | |
CN109858737B (zh) | 基于模型部署的评分模型调整方法、装置和计算机设备 | |
CN109829629B (zh) | 风险分析报告的生成方法、装置、计算机设备和存储介质 | |
WO2020015089A1 (zh) | 身份信息风险评定方法、装置、计算机设备和存储介质 | |
CN109376237B (zh) | 客户稳定性的预测方法、装置、计算机设备和存储介质 | |
US11252279B2 (en) | Method and system for fraud clustering by content and biometrics analysis | |
CN109801151B (zh) | 财务造假风险监控方法、装置、计算机设备和存储介质 | |
CN110287103B (zh) | 软件产品测评处理方法、装置、计算机设备及存储介质 | |
CN110377558A (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN111814472B (zh) | 文本识别方法、装置、设备及存储介质 | |
CN110781379A (zh) | 信息推荐方法、装置、计算机设备和存储介质 | |
CN108334625B (zh) | 用户信息的处理方法、装置、计算机设备和存储介质 | |
CN112329811A (zh) | 异常账号识别方法、装置、计算机设备和存储介质 | |
CN109766474A (zh) | 审讯信息审核方法、装置、计算机设备和存储介质 | |
CN110569340A (zh) | 文本信息验证方法、装置、计算机设备和存储介质 | |
CN113223532A (zh) | 客服通话的质检方法、装置、计算机设备及存储介质 | |
CN110781380A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN110750710A (zh) | 风控协议预警方法、装置、计算机设备和存储介质 | |
CN110928859A (zh) | 模型监控方法、装置、计算机设备和存储介质 | |
CN110688406A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN111061948A (zh) | 一种用户标签推荐方法、装置、计算机设备及存储介质 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN114203200A (zh) | 一种语音质检方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220520 Address after: 518048 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001 Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
TA01 | Transfer of patent application right |