CN106096657B

CN106096657B - 基于机器学习来预测数据审核目标的方法及系统

Info

Publication number: CN106096657B
Application number: CN201610420714.7A
Authority: CN
Inventors: 黄晶; 涂威威; 陈雨强
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2016-06-13
Filing date: 2016-06-13
Publication date: 2019-04-30
Anticipated expiration: 2036-06-13
Also published as: CN109993233A; CN109993233B; CN106096657A

Abstract

提供了一种基于机器学习来预测数据审核目标的方法及系统。所述方法包括：(A)获取待审核数据记录和至少一条验证数据记录；(B)基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征，其中，所述属性真实度特征用于衡量所述至少一个属性信息的真实程度；(C)利用基于机器学习而训练出的目标预测模型，根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果，其中，所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标。通过上述方式，能够克服现有的数据审核方式耗费人力的缺陷。

Description

基于机器学习来预测数据审核目标的方法及系统

技术领域

本发明总体说来涉及数据科学领域，更具体地说，涉及一种基于机器学习来预测数据审核目标的方法及系统。

背景技术

在现实生活中，常常需要对诸如客户信息、项目信息、资产信息、交易信息等各种数据进行审核，以基于审核结果来作出业务判断。

例如，在诸如申请事务、办理交易、报名活动等各种场景中，会产生(手动填写或通过其他方式来产生)关于身份、资产、联系信息、事务特性、交易特性或活动特性等各种属性信息。相应地，有关单位、组织和机构等需对这些信息数据进行审核，从而作出关于申请是否合规、交易是否合法或是否准许参加活动等的业务判断。

以申请信用卡作为示例，有关方面会审核申请者填写的信息数据是否真实准确，以判断出申请者是否涉及欺诈行为。通常，为了审核出信用卡申请者是否为期望不当获利的欺诈客户，信用卡中心的工作人员会人工核实申请者填写的工作单位、职务、收入、联系电话等信息是否准确。具体说来，工作人员需要首先核查工作单位的信息是否有效，然后联络该单位的相关负责人员以询问申请者的真实职务和收入等。此外，工作人员还需要手动拨打申请者或其紧急联系人的联系电话以核实该号码是否属于申请者或其紧急联系人本人等。

从上述示例可以看出，传统的审核方式需要耗费较大的人力成本，而且被审核主体可以通过串通等方式轻易地迷惑审核人员，从而达到不正当的目的。

发明内容

本发明的示例性实施例旨在克服现有的数据审核方式耗费人力的缺陷。

根据本发明的示例性实施例，提供一种基于机器学习来预测数据审核目标的方法，包括：(A)获取待审核数据记录和至少一条验证数据记录，其中，所述待审核数据记录包括关于待审核项的各个属性的属性信息，数据审核目标是指通过对待审核数据记录所包括的属性信息进行审核而作出的业务判断，所述至少一条验证数据记录用于验证所述属性信息之中关于所述各个属性之中的至少一个属性的至少一个属性信息；(B)基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征，其中，所述属性真实度特征用于衡量所述至少一个属性信息的真实程度；(C)利用基于机器学习而训练出的目标预测模型，根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果，其中，所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标。

可选地，在所述方法中，所述至少一条验证数据记录可分别产生自各个数据源和/或抽取自所述待审核数据记录。

可选地，在所述方法中，步骤(B)可包括：(B1)基于所述至少一条验证数据记录来预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息；(B2)针对所述每一个属性，分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异，并且，基于针对所述至少一个属性计算出的所有差异的集合来获得待审核数据记录的属性真实度特征。

可选地，在所述方法中，在步骤(B2)中，可通过基于所述每一个属性的属性信息分别与预测出的所述至少一个预测属性信息之间的差值各自的统计分布特性来分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异。

可选地，在所述方法中，在步骤(B1)中，可将所述至少一条验证数据记录分别输入基于机器学习而训练出的至少一个属性验证模型，以预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息。

可选地，在所述方法中，在步骤(B1)中，可将产生自各个数据源的验证数据记录本身包括的关于所述至少一个属性之中的每一个属性的至少一个属性信息作为关于所述每一个属性的至少一个预测属性信息。

可选地，在所述方法中，在步骤(B1)中，在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，可将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息；并且，在所述验证数据记录本身不包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，可将所述验证数据记录输入所述任一属性验证模型。

可选地，在所述方法中，在步骤(B1)中，在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异未超出预设的时间间隔时，可将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息；在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异超出所述时间间隔时，可将所述验证数据记录输入所述任一属性验证模型。

优选地，在步骤(C)之后，所述方法可还包括：(D)将预测结果连同属性真实度特征展示给用户。

优选地，在所述方法中，在步骤(D)中，可向用户展示与属性真实度特征之中的较大差异相应的属性信息和关于所述属性信息的预测属性信息；并且/或者，可向用户展示与属性真实度特征之中起主要预测作用的差异相应的属性信息和关于所述属性信息的预测属性信息。

优选地，在所述方法中，在步骤(D)中，可将所展示的预测属性信息显示在所述预测属性信息的统计分布示图中。

优选地，在步骤(D)之后，所述方法可还包括：(E)从用户接收关于数据审核目标的实际结果的反馈，其中，所述反馈被用于训练目标预测模型和/或属性验证模型。

优选地，在所述方法中，在步骤(C)中，可根据计算出的属性真实度特征连同基于待审核数据记录的至少一部分属性信息得到的属性特征来获取待审核数据记录关于数据审核目标的预测结果。

根据本发明的另一示例性实施例，提供一种基于机器学习来预测数据审核目标的系统，包括：数据获取装置，用于获取待审核数据记录和至少一条验证数据记录，其中，所述待审核数据记录包括关于待审核项的各个属性的属性信息，数据审核目标是指通过对待审核数据记录所包括的属性信息进行审核而作出的业务判断，所述至少一条验证数据记录用于验证所述属性信息之中关于所述各个属性之中的至少一个属性的至少一个属性信息；属性验证装置，用于基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征，其中，所述属性真实度特征用于衡量所述至少一个属性信息的真实程度；目标预测装置，用于利用基于机器学习而训练出的目标预测模型，根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果，其中，所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标。

优选地，在所述系统中，所述至少一条验证数据记录可分别产生自各个数据源和/或抽取自所述待审核数据记录。

优选地，在所述系统中，属性验证装置可基于所述至少一条验证数据记录来预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息；并且，属性验证装置可针对所述每一个属性，分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异，并基于针对所述至少一个属性计算出的所有差异的集合来获得待审核数据记录的属性真实度特征。

优选地，在所述系统中，属性验证装置可针对所述每一个属性，通过基于所述每一个属性的属性信息分别与预测出的所述至少一个预测属性信息之间的差值各自的统计分布特性来分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异。

优选地，在所述系统中，属性验证装置可将所述至少一条验证数据记录分别输入基于机器学习而训练出的至少一个属性验证模型，以预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息。

优选地，在所述系统中，属性验证装置可将产生自各个数据源的验证数据记录本身包括的关于所述至少一个属性之中的每一个属性的至少一个属性信息作为关于所述每一个属性的至少一个预测属性信息。

优选地，在所述系统中，在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，属性验证装置可将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息；并且，在所述验证数据记录本身不包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，属性验证装置可将所述验证数据记录输入所述任一属性验证模型。

优选地，在所述系统中，在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异未超出预设的时间间隔时，属性验证装置可将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息；在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异超出所述时间间隔时，属性验证装置可将所述验证数据记录输入所述任一属性验证模型。

优选地，所述系统可还包括：展示装置，用于将预测结果连同属性真实度特征展示给用户。

优选地，在所述系统中，展示装置可还向用户展示与属性真实度特征之中的较大差异相应的属性信息和关于所述属性信息的预测属性信息；并且/或者，展示装置可还向用户展示与属性真实度特征之中起主要预测作用的差异相应的属性信息和关于所述属性信息的预测属性信息。

优选地，在所述系统中，展示装置可将所展示的预测属性信息显示在所述预测属性信息的统计分布示图中。

优选地，所述系统可还包括：反馈装置，用于从用户接收关于数据审核目标的实际结果的反馈，其中，所述反馈被用于训练目标预测模型和/或属性验证模型。

优选地，在所述系统中，目标预测装置可根据计算出的属性真实度特征连同基于待审核数据记录的至少一部分属性信息得到的属性特征来获取待审核数据记录关于数据审核目标的预测结果。

根据本发明的另一示例性实施例，提供一种基于机器学习来预测数据审核目标的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：(A)获取待审核数据记录和至少一条验证数据记录，其中，所述待审核数据记录包括关于待审核项的各个属性的属性信息，数据审核目标是指通过对待审核数据记录所包括的属性信息进行审核而作出的业务判断，所述至少一条验证数据记录用于验证所述属性信息之中关于所述各个属性之中的至少一个属性的至少一个属性信息；(B)基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征，其中，所述属性真实度特征用于衡量所述至少一个属性信息的真实程度；(C)利用基于机器学习而训练出的目标预测模型，根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果，其中，所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标。

可选地，在所述计算装置中，所述至少一条验证数据记录可分别产生自各个数据源和/或抽取自所述待审核数据记录。

可选地，在所述计算装置中，步骤(B)可包括：(B1)基于所述至少一条验证数据记录来预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息；(B2)针对所述每一个属性，分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异，并且，基于针对所述至少一个属性计算出的所有差异的集合来获得待审核数据记录的属性真实度特征。

可选地，在所述计算装置中，在步骤(B2)中，可通过基于所述每一个属性的属性信息分别与预测出的所述至少一个预测属性信息之间的差值各自的统计分布特性来分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异。

可选地，在所述计算装置中，在步骤(B1)中，可将所述至少一条验证数据记录分别输入基于机器学习而训练出的至少一个属性验证模型，以预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息。

可选地，在所述计算装置中，在步骤(B1)中，可将产生自各个数据源的验证数据记录本身包括的关于所述至少一个属性之中的每一个属性的至少一个属性信息作为关于所述每一个属性的至少一个预测属性信息。

可选地，在所述计算装置中，在步骤(B1)中，在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，可将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息；并且，在所述验证数据记录本身不包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，可将所述验证数据记录输入所述任一属性验证模型。

可选地，在所述计算装置中，在步骤(B1)中，在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异未超出预设的时间间隔时，可将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息；在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异超出所述时间间隔时，可将所述验证数据记录输入所述任一属性验证模型。

可选地，在所述计算装置中，当所述计算机可执行指令集合被所述处理器执行时，在步骤(C)之后，还可执行以下步骤：(D)将预测结果连同属性真实度特征展示给用户。

可选地，在所述计算装置中，在步骤(D)中，可向用户展示与属性真实度特征之中的较大差异相应的属性信息和关于所述属性信息的预测属性信息；并且/或者，可向用户展示与属性真实度特征之中起主要预测作用的差异相应的属性信息和关于所述属性信息的预测属性信息。

可选地，在所述计算装置中，在步骤(D)中，可将所展示的预测属性信息显示在所述预测属性信息的统计分布示图中。

可选地，在所述计算装置中，当所述计算机可执行指令集合被所述处理器执行时，在步骤(D)之后，还可执行以下步骤：(E)从用户接收关于数据审核目标的实际结果的反馈，其中，所述反馈被用于训练目标预测模型和/或属性验证模型。

可选地，在所述计算装置中，在步骤(C)中，可根据计算出的属性真实度特征连同基于待审核数据记录的至少一部分属性信息得到的属性特征来获取待审核数据记录关于数据审核目标的预测结果。

在根据本发明示例性实施例的基于机器学习来预测数据审核目标的方法及系统中，能够借助额外的验证数据记录，基于机器学习模型来实现对待审核数据记录的自动审核。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1示出根据本发明示例性实施例的基于机器学习来预测数据审核目标的系统的框图；

图2示出根据本发明示例性实施例的基于机器学习来预测数据审核目标的方法的流程图；

图3示出根据本发明示例性实施例的获得待审核数据记录的属性真实度特征的示例；以及

图4示出根据本发明另一示例性实施例的基于机器学习来预测数据审核目标的系统的框图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。

在本发明的示例性实施例中，通过以下方式来实现数据审核：利用基于机器学习技术训练出的目标预测模型，针对融合有待审核数据和验证数据两者的预测样本特征给出关于数据审核目标的预测结果。机器学习是人工智能研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，通过机器学习算法，可从数据中产生“模型”，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型，在面对新的情况时，模型会提供相应的判断，即，预测结果。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式，应注意，本发明对具体的机器学习算法并不进行特定限制。此外，还应注意，在训练和应用所述目标预测模型的过程中，还可利用统计算法、业务规则和/或专家知识等，以进一步提高预测结果的准确性。

图1示出根据本发明示例性实施例的基于机器学习来预测数据审核目标的系统的框图。具体说来，所述预测系统提出了一种基于待审核数据和验证数据来预测数据审核目标的处理体系结构，其中，验证数据被用于验证待审核数据的属性信息。图1所示的系统可全部通过计算机程序以软件方式来实现，也可由专门的硬件装置来实现，还可通过软硬件结合的方式来实现。相应地，组成图1所示的系统的各个装置可以是仅依靠计算机程序来实现相应功能的虚拟模块，也可以是依靠硬件结构来实现所述功能的通用或专用器件，还可以是运行有相应计算机程序的处理器等。利用所述系统，不仅能够帮助用户自动审核数据，而且在自动审核过程中，能够充分利用验证数据的原始信息，从而较为有效地预测出审核目标。

如图1所示，数据获取装置10用于获取待审核数据记录和至少一条验证数据记录，其中，所述待审核数据记录包括关于待审核项的各个属性的属性信息，数据审核目标是指通过对待审核数据记录所包括的属性信息进行审核而作出的业务判断，所述至少一条验证数据记录用于验证所述属性信息之中关于所述各个属性之中的至少一个属性的至少一个属性信息。

根据本发明的示例性实施例，数据审核是指对待审核数据记录的属性信息内容进行审查，这些数据可以是客户手动填写的数据、客户在线提交的数据、预先存储或生成的数据、也可以是从外部接收的数据。这些数据可涉及客户自身的信息，例如，身份、学历、职业、资产、联系方式等信息。或者，这些数据也可涉及业务相关项目的信息，例如，关于买卖合同的交易额、交易双方、标的物、交易地点等信息。应注意，本发明的示例性实施例中提到的信息内容可涉及任何对象或事务在某方面的表现或性质，而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。实际上，任何能够通过对其进行审核而作出业务判断的信息数据均可应用于本发明的示例性实施例。

具体说来，在本发明的示例性实施例中，对数据进行审核，主要是为了基于数据的属性信息来作出业务判断。也就是说，这里的数据审核目标旨在作出某项业务判断，而该业务判断的依据是被审核的属性信息。

作为示例，这里的业务判断可以是关于属性信息的真实性的结论，即，判断待审核数据记录是否涉及欺诈。相应地，数据审核目标可指示信用卡申请的欺诈判断、信用卡交易的欺诈判断等。例如，申请信用卡的客户需要填写自己的身份、职业、学历、收入、联系方式、紧急联系人等各种信息数据，通过对填写的这些信息数据进行审核可判断该客户是否为欺诈客户。又例如，在客户试图使用信用卡付款来完成交易时，可对交易相关的信息进行审核以判断该交易是否为欺诈交易。此外，又例如，为了在大量项目(例如，申请资助的项目等)中判断出欺诈项目，可对关于项目的各项信息进行审核以判断出该项目是否为旨在获得不当得利但实际上并不实施的欺诈项目。

作为另一示例，所述业务判断也可以是依据属性信息的真实性(或信息真实性与信息内容等的组合)来作出的进一步判断，例如，判断待审核数据记录所涉及的信用状况等。相应地，数据审核目标可指示信用卡的额度判断。

也就是说，本发明的示例性实施例并不限于对信息数据进行审核以判断出相关数据记录所涉及的欺诈风险，任何可基于信息数据的审核结果作出业务判断的情形均适用于本发明的示例性实施例。相应地，在本发明的示例性实施例中，可对各种格式和类型的信息数据进行审核，以作出相应的业务判断。这里，审核的目的在于对各项信息数据的真实性进行度量以判断出相关数据记录的真实性，或进而基于各信息数据的真实度来得到其他的业务决策。

数据获取装置10可获取不同来源的结构化或非结构化数据，例如，文本数据或数值数据等。具体说来，数据获取装置10可获取待审核的数据，如上所述，待审核数据记录可包括关于待审核项的各个属性的属性信息。除此之外，数据获取装置10还可获取用于帮助验证待审核数据的验证数据，具体说来，数据获取装置10可获取一条或多条验证数据记录，这些验证数据记录用于验证待审核数据的至少一个属性信息的真实性。这里，验证数据可包括来源于审核部门内部的其他信息数据以及来源于外部数据源的信息数据(例如，来源于数据提供商的数据、来源于互联网(例如，社交网站)的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据、来源于信用机构的数据等等)，除此之外，验证数据还可以是由从待审核数据的各个属性信息中抽取出来的一部分属性信息所组成的数据，即，可以是从待审核数据的各个属性信息中至少排除作为验证目标的属性信息之后得到的验证数据。这些待审核数据和验证数据可通过输入装置输入到数据获取装置10，或者由数据获取装置10根据已有的数据来自动生成，或者可由数据获取装置10从网络上(例如，网络上的存储介质(例如，数据仓库))获得，此外，诸如服务器的中间数据交换装置可有助于数据获取装置10从外部数据源获取相应的数据。这里，获取的数据可被数据获取装置10中的文本分析模块等数据转换模块转换为容易处理的格式。应注意，数据获取装置10可被配置为由软件、硬件和/或固件组成的各个模块，这些模块中的某些模块或全部模块可被集成为一体或共同协作以完成特定功能。

属性验证装置20用于基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征，其中，所述属性真实度特征用于衡量所述至少一个属性信息的真实程度。

这里，作为示例，对于产生自各个数据源的验证数据记录，属性验证装置20可在机器学习模型的特征层面将这样的验证数据记录与待审核数据记录进行融合，使得验证数据记录的原始信息在预测数据审核目标这方面能够得到充分的利用。另外，对于抽取自待审核数据记录自身的验证数据记录，属性验证装置20可通过利用这样的验证数据记录进行自洽性校验，来方便地预测数据审核目标。应注意，根据本发明的示例性实施例，上述两种验证数据记录可单独或共同使用。

具体说来，属性验证装置20可利用一条或多条验证数据来推算出待审核数据记录的至少一个属性信息的真实程度。也就是说，属性验证装置20可利用验证数据记录所包括的属性信息的内容来衡量待审核数据记录中的某个属性信息的真实度。作为示例，如果验证数据记录已包括关于待审核数据记录中的某个属性的属性信息，则可直接利用验证数据记录中的属性信息来衡量所述待审核数据记录中的相关属性信息的真实度。例如，在需要对待审核数据记录中的客户性别进行审核的情况下，如果验证数据记录已包括客户的性别信息，则可直接利用验证数据记录的客户性别信息来衡量待审核数据记录汇总的客户性别信息的真实程度。

此外，根据本发明的示例性实施例，如果验证数据记录并不包括关于待审核数据记录中的某个属性的属性信息，则可通过预先训练出的机器学习模型，基于验证数据记录来预测出待审核数据记录中的相关属性信息，进而基于预测值来衡量待审核数据记录中的相关属性信息的真实度。例如，在需要对待审核的信用卡申请信息数据记录中的客户收入进行审核的情况下，如果同样来自银行的验证数据记录并不包括客户收入，而是包括了客户的一些资产信息或日常交易信息，则可通过预先训练出的利用这些资产信息或日常交易信息来预测客户收入的机器学习模型，基于验证数据记录的资产信息或日常交易信息特征来获得客户收入预测值，进而基于客户收入预测值来衡量待审核数据记录中的客户收入的真实度。

通过上述方式，属性验证装置20可利用每一条获取的验证数据记录，分别计算待审核数据记录中相应的一个或多个属性信息的真实度，进而将利用所有验证数据记录针对相关属性信息计算出的所有真实度整合为待审核数据记录的属性真实度特征，这个属性真实度特征用于从整体上反映所使用的全部验证数据记录针对待审核数据记录的真实度交叉验证结果。

目标预测装置30用于利用基于机器学习而训练出的目标预测模型，根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果，其中，所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标。

具体说来，在获取了待审核数据记录的属性真实度特征之后，目标预测装置30可使用之前基于机器学习技术所训练出的机器学习模型(即，目标预测模型)来预测相应待审核数据记录的数据审核目标。这里，所述目标预测模型是基于机器学习算法训练得到的，具体说来，可使用大量的历史数据作为训练样本，基于特定的机器学习算法，训练出目标预测模型，其中，所述历史数据包括历史上存在的属性真实度特征和相应的数据审核目标，属性真实度特征作为训练样本的特征，相应的数据审核目标作为标记(label)。

相应地，当新的待审核数据记录的属性真实度特征到来时，目标预测装置30可将该属性真实度特征作为预测样本的特征输入到目标预测模型，即可得到所述新的待审核数据记录关于数据审核目标的预测结果。

应理解，上述装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些装置可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的单元或模块。此外，这些装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

可以看出，属性验证装置20和目标预测装置30构成了一个用于利用验证数据来预测待审核数据的数据审核目标的双层架构，在此架构下，针对目标预测模型而言，待审核数据和验证数据在特征层面进行了融合和/或实现了自洽性校验，使得验证数据和/或待审核数据的原始信息得到了充分的利用。这种方式与传统的外部数据使用方式相比，在验证阶段设置了统一的属性真实度特征计算方式，使得扩充数据源变得更加容易和便利，由于验证数据仅用于获取待审核数据的真实度，而非直接作为预测数据审核目标的特征，因此能够在充分地交叉融合各个数据原始信息的同时，保持预测模型的设计一致性。

除此之外，在使用其他来源验证数据来获取待审核数据记录的属性真实度特征的过程中，作为优选方式，还可进一步引入基于机器学习技术的预测方式，也就是说，即使产生自各个数据源的验证数据记录本身并不包括待审核的属性信息，也可通过机器学习方式来得到相应的预测值，进而基于该预测值来推算待审核属性信息的真实度，相应地，可有助于引入各种来源的外部数据来帮助完成最终的数据审核目标。

以下参照图2来描述根据本发明示例性实施例的基于机器学习来预测数据审核目标的方法的流程图。这里，作为示例，图2所示的方法可由图1所示的预测系统来执行，也可完全通过计算机程序以软件方式实现，还可通过特定配置的计算装置来执行图2所示的方法。

为了描述方便，假设图2所示的方法由图1所示的预测系统来执行，并且，以关于数据记录真实性的欺诈作为数据审核目标的示例，相应地，所述方法可适用于从待审核数据中检测或识别出潜在的欺诈风险，该欺诈风险的潜在性可被表示为出现欺诈情形的概率，这里的欺诈情形可包括但不限于冒名申请信用卡、盗用他人信用卡、伪造他人信息进行交易等，例如，可利用[0,1]之间的数值来表示这种欺诈概率的大小。

如图所示，在步骤S10中，由数据获取装置10获取待审核数据记录和至少一条验证数据记录，其中，所述待审核数据记录包括关于待审核项的各个属性的属性信息，数据审核目标是指通过对待审核数据记录所包括的属性信息进行审核而作出的业务判断。

这里，作为示例，每条待审核数据记录可对应于一个待审核项(例如，事件或对象)，相应地，待审核数据记录可包括各种反映事件或对象在某方面的表现或性质(即，属性)的属性字段。可对这些属性字段进行相应的筛选或处理，以进一步获取用于进行机器学习的样本特征。这里，数据获取装置10可通过手动、半自动或全自动的方式来采集数据，或对采集的原始数据进行初步处理以生成可作为样本特征的各种处理后的属性信息。作为示例，数据获取装置10可批量地采集数据。

这里，数据获取装置10可通过输入装置(例如，工作站)接收用户手动输入的待审核数据记录。此外，数据获取装置10可通过全自动的方式从数据源系统地取出待审核数据记录，例如，通过以软件、固件、硬件或其组合实现的定时器机制来系统地请求数据源并从响应中得到所请求的数据。所述数据源可包括一个或多个数据库或其他服务器。可经由内部网络和/或外部网络来实现全自动获取数据的方式，其中可包括通过互联网来传送加密的数据。在服务器、数据库、网络等被配置为彼此通信的情况下，可在没有人工干预的情况下自动进行数据采集，但应注意，在这种方式下仍旧可存在一定的用户输入操作。半自动方式介于手动方式与全自动方式之间。半自动方式与全自动方式的区别在于由用户激活的触发机制代替了定时器机制。在这种情况下，在接收到特定的用户输入的情况下，才产生提取数据的请求。每次获取数据时，优选地，可将捕获的数据存储在非易失性存储器中。作为示例，可利用数据仓库来存储在获取期间采集的原始数据以及处理后的数据。

与现有的数据审核方案仅获取和分析待审核的数据信息不同，根据本发明的示例性实施例，数据获取装置10还获取至少一条验证数据记录，其用于验证所述属性信息之中关于所述各个属性之中的至少一个属性的至少一个属性信息。

作为示例，所述至少一条验证数据记录可分别产生自各个数据源。具体说来，这些验证数据的来源可以与待审核数据的来源相同，例如，为了审核客户向银行申请开通信用卡时填写的信息数据，例如，收入、学历、职务、资产情况等，作为示例，数据获取装置10可获取该客户在该银行的其他数据记录，例如，贷款记录、日常交易数据等。此外，所述验证数据也可以是来源于其他私有源或公共源的数据，例如，来源于数据提供商的数据、来源于互联网(例如，社交网站)的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据、来源于信用机构的数据等等。相应地，为了审核客户向银行申请开通信用卡时填写的信息数据，数据获取装置10还可获取该客户在社交网站、快递公司、移动运营商、APP运营商的数据记录等。

在本发明的示例性实施例中，借助于其他验证数据在特征层面的融合，能够充分地利用这些数据的原始信息来共同对待审核数据的真实性进行审核。这里，数据获取装置10可针对待审核的数据记录从待审核数据的数据源和/或至少一个其他数据源查询并取回相应的验证数据记录；或者，数据获取装置100可从维持来自所述待审核数据的数据源和/或至少一个其他数据源的数据记录的数据仓库中查询并取回相应的验证数据记录。

此外，作为另一示例，所述至少一条验证数据记录还可分别抽取自所述待审核数据记录，相应地，数据获取装置10可通过从待审核数据记录中排除预定属性的属性信息来抽取出与所述预定属性相应的验证数据记录，该验证数据记录可用于针对所述预定属性的属性信息进行自洽性检验。例如，为了审核客户向银行申请开通信用卡时填写的信息数据中的收入，假设待审核数据记录包括收入、学历、职务和资产情况这四个属性信息，则相应的验证数据记录可包括排除了收入之外的学历、职务和资产情况这三个属性信息之中的至少一个属性信息。可以看出，除了所述预定属性之外，还可从待审核数据记录中排除其他一些属性信息而仅保留后续可用作属性验证模型的预测样本特征的属性信息。应注意，实践中的待审核数据记录往往包含更多的属性信息，针对每一种待审核的属性信息，可相应地通过抽取方式来产生至少一条验证数据记录。此外，根据本发明的示例性实施例，验证数据记录还可同时包含产生自数据源的数据记录和抽取自待审核数据记录的数据记录。

可选地，数据获取装置10可借助硬件集群(诸如Hadoop集群)对采集到的数据进行存储和/或处理，例如，存储、分类和其他离线操作。此外，数据获取装置10也可对采集的数据进行在线的流处理。

作为示例，数据获取装置10中可包括文本分析模块等数据转换模块，用于将文本等非结构化数据转换为更易于使用的结构化数据以进行进一步的处理或引用。基于文本的数据可包括电子邮件、文档、网页、图形、电子数据表、呼叫中心日志、可疑交易报告等。

根据本发明的示例性实施例，作为可选方式，数据获取装置10可对获取的数据记录进行特征工程处理，即，对数据记录的属性字段值进行处理以获取可用于进行机器学习的样本特征的属性信息。例如，数据获取装置10可对接收到的数据记录的原始属性字段进行诸如离散化、字段组合、提取部分字段值、取整等各种特征工程的处理，从而将原始属性值转换为可作为机器学习特征的属性信息。

在步骤S20中，由属性验证装置20基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征，其中，所述属性真实度特征用于衡量所述至少一个属性信息的真实程度。

具体说来，属性验证装置20可针对待审核数据记录的任一属性信息，基于一条或多条验证数据记录来相应地获取该属性信息的一个或多个真实度。

假设待审核数据记录的集合为X，每条待审核数据记录可具有d个属性信息，即，第i个待审核数据记录x_i∈X，可表示为x_i＝(x_i1；x_i2；…；x_id)，其中，i和d为正整数。这里，针对x_i的第j个属性信息x_ij，1≤j≤d，属性验证装置20可基于来自第k种来源(包括产生验证数据的数据源和/或从待审核数据中抽取验证数据的某种特定方式)的验证数据Mk之中的第i个验证数据记录Mk_i来获取x_ij的一个真实度，其中，1≤k≤K，K为验证数据的来源的总数，并且，Mk_i和x_i可分别指示同一个示例(即，第i个示例)在不同数据来源(即，第k种来源和待审核数据源)的相应数据记录。

作为示例，属性验证装置20可基于至少一条验证数据记录来预测关于待审核数据记录的至少一个属性之中的每一个属性的至少一个预测属性信息。

例如，属性验证装置20可将产生自各个数据源的验证数据记录本身包括的关于所述至少一个属性之中的每一个属性的至少一个属性信息作为关于所述每一个属性的至少一个预测属性信息。比如，为了获得关于客户申请信用卡时填写的信息数据记录之中的学历信息的预测值，如果某条来自招聘网站的验证数据(例如，该客户的简历数据)中包括学历信息，则属性验证装置20可将客户简历数据中的学历信息作为关于该客户待审核的申请信息之中的学历信息的预测值。

又例如，属性验证装置20可将所述至少一条验证数据记录分别输入基于机器学习而训练出的至少一个属性验证模型，以预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息。这里的验证数据记录可以是产生自另外的数据来源的数据记录，其可以包含或不包含关于待预测的属性的属性信息。或者，这里的验证数据也可以是从待审核数据记录中抽取的数据记录，其优选地不包含待预测的属性信息。

具体说来，属性验证装置20可使用预先训练出的一个或多个属性验证模型来预测待审核数据记录的每一个属性的属性信息。这里，属性验证模型被训练为基于特定验证数据来预测出相应的待审核属性信息。作为示例，对于来自外部数据源的验证数据记录而言，这里的属性验证模型的特征可以是经过哈希变换的验证数据的属性信息，通过这种方式，数据获取装置10从外部数据源获取的验证数据可以是经过哈希变换的非明文数据，有助于保证数据共享时的安全性和隐秘性。

例如，针对每一个x_ij，属性验证装置20可选取预先训练出的基于第k种来源的验证数据Mk来预测第j个属性信息的属性验证模型，将所述验证数据Mk之中的第i个验证数据记录Mk_i作为预测样本输入所述属性验证模型，得到关于x_i的第j个属性信息的预测值Mk_ij。这里，任何一条验证数据记录可用于分别针对一个或多个待审核的属性信息进行预测，优选地，抽取自待审核数据记录的验证数据记录仅能够用于对其所不具有的属性信息进行预测。相应地，属性验证装置20可基于K种来源之中的部分或全部来源的验证数据来分别获取各个属性信息的预测值，也就是说，针对不同属性的属性信息，属性验证装置20可使用相应的一个或多个属性验证模型，这些属性验证模型用于基于来自一个或多个来源的验证数据来预测所述属性信息。

应注意，属性验证装置20获取预测属性信息的方式并不受限于上述两种。作为优选方式，属性验证装置20还可将上述两种方式进行有效的融合。

作为示例，在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，属性验证装置20将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息；并且，在所述验证数据记录本身不包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，属性验证装置20将所述验证数据记录输入所述任一属性验证模型。

例如，在上述基于简历数据来预测信用卡申请信息中的学历属性值的示例中，也可存在基于简历数据来预测学历属性的属性验证模型。相应地，属性验证装置20可通过判断某条具体的简历数据记录中是否包括了学历字段来选择相应的预测方式。例如，如果某条简历数据记录中已经包括了学历信息，则属性验证装置20可直接将该简历数据记录中的学历信息作为待审核的学历信息的预测值；而如果该条简历数据记录中缺失了学历信息，则属性验证装置20可将该条简历数据记录输入预先训练出的基于简历来预测学历的属性验证模型，以通过机器学习预测的方式来得到关于学历信息的预测值。

此外，由于在利用验证数据记录来预测待审核数据的属性信息时，很可能遇到时间不匹配的问题，例如，简历数据记录可能是较长时间之前生成的信息，已无法准确反映客户申请信用卡时的收入信息，因此，作为优选方式，属性验证装置20在执行预测时，可基于时间因素来选择相应的预测方式。

具体说来，在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异未超出预设的时间间隔时，属性验证装置20将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息；在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异超出所述时间间隔时，属性验证装置20将所述验证数据记录输入所述任一属性验证模型。

例如，在基于简历数据来预测信用卡申请信息中的收入字段的情况下，即使某条具体的简历数据记录本身包括了收入字段，属性验证装置20还将判断生成这条简历时间记录的时间与生成待审核的申请信息的时间之间的差异是否超出了预设的时间间隔。如果信息生成的时间差未超出所述时间间隔，则属性验证装置20可直接将该简历数据记录中的收入信息作为待审核的收入信息的预测值；而如果信息生成的时间差超出了所述时间间隔，则属性验证装置20可将该条简历数据记录输入预先训练出的基于简历数据来预测收入的属性验证模型，以通过机器学习预测的方式来得到关于收入信息的预测值。

在获得关于各个待审核属性之中的每一个属性的属性预测信息之后，针对所述每一个属性，属性验证装置20可分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异，并且，基于针对所述至少一个属性计算出的所有差异的集合来获得待审核数据记录的属性真实度特征。这里，作为优选方式，可通过基于所述每一个属性的属性信息分别与预测出的所述至少一个预测属性信息之间的差值各自的统计分布特性来分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异。通过这种方式，可使得所得到的属性真实度特征能够直接反应出针对各属性信息的各种预测差值的统计特性，即，更为有效地将预测差值转换为机器学习的相关特征，从而进一步确保了属性验证模型的预测性能。

例如，针对第i个待审核数据记录x_i的第j属性信息x_ij，属性验证装置20可分别计算基于一个或多个验证数据记录Mk_i所预测出的一个或多个属性值Mk_ij与x_ij之间的差异，以作为x_ij的一个或多个真实度差异。在针对所有待审核属性计算出其相应的各个差异之后，属性验证装置20可将所有差异的集合作为待审核数据记录x_i的属性真实度特征。

图3示出根据本发明示例性实施例的获得待审核数据记录的属性真实度特征的示例。在该示例中，验证数据记录全部来自于各个数据源，而不包含抽取自待审核数据记录的验证数据记录。应注意，上述方式仅作为本发明的示例性实施例，本发明所采用的验证数据记录并不受限于此。

可以看出，在图3所示的示例中，待审核数据记录可以是客户申请信用卡时填写的个人信息，例如，可包括客户的性别、住址、学历等属性信息。在这种情况下，属性验证装置20可利用各种外部数据源的验证数据记录来获取上述待审核数据记录的属性真实度特征，在这一过程中，实现了客户的待审核数据与该客户的其他验证数据之间的充分融合，进而可在后续更有效地对待审核数据记录进行审核。

作为示例，属性验证装置20可利用社交网站数据来获取关于客户性别和学历的预估真实度(该预估真实度用于表示待审核属性信息与预测属性信息之间的差异)。这里，应注意，根据本发明的示例性实施例，属性验证装置20可根据需要来利用某一来源的验证数据来获取待审核数据的一个或多个属性信息的预估真实度，而不受任何限制。例如，属性验证装置20也可仅利用社交网站数据来获取关于客户性别的预估真实度，也可利用社交网站数据来分别获取关于客户所有属性信息的预估真实度。此外，属性验证装置20对于其他验证数据的使用方式也是如此。

以下将属性验证装置20利用社交网站数据来获取客户性别的预估真实度作为示例进行描述。

具体说来，假设社交网站为第k种验证数据来源，针对第i个客户的待审核数据记录x_i，为了得到其第j个属性x_ij(即，性别)的预估真实度，属性验证装置20可获取由数据获取装置10提供的相应社交网站数据记录Mk_i，这里，x_i和Mk_i可具有相同的用户ID。在获取Mk_i之后，作为示例，属性验证装置20可将Mk_i作为预测样本，输入预先训练出的用于基于社交网站数据来预测客户性别的模型，以得到预测出的第i个客户的性别Mk_ij。相应地，属性验证装置20可基于Mk_ij与x_ij之间的差值来得到x_ij的一个预估真实度Tk_ij，例如，Tk_ij＝f_kj(Mk_ij-x_ij)，这里，函数f_kj可用于将Mk_ij与x_ij之间的差值转换为可适当地反映真实度的数值。作为优选方式，函数f_kj可被设计为反映出(Mk_ij-x_ij)在整个或部分客户示例空间的统计分布。然而，应注意，本发明并不受限于此，而是可以按照任何适当的方式来设计函数f_kj，以满足模型运算和/或模型性能的需求。例如，对于性别这一属性而言，当Mk_ij与x_ij相等(即，Mk_ij-x_ij等于0)时，Tk_ij＝f_kj(Mk_ij-x_ij)＝a1；当Mk_ij与x_ij不相等(即，Mk_ij-x_ij不等于0)时，Tk_ij＝f_kj(Mk_ij-x_ij)＝a2，其中，a1和a2均可为便于进行数值运算的常数。

应注意，上述预估性别真实度的示例仅用于描述和解释本发明的示例性实施例，而非用于限制本发明的范围。实际上，本领域技术人员可根据需要，针对待审核数据的任一属性信息，选择适合的一个或多个数据源的验证数据对该属性分别进行预测，并对预测值与实际值之间的差值进行适当的数值处理，从而得到反映所述属性信息真实性的一个或多个真实度值。

例如，在属性验证装置20利用社交网站数据来获取用户住址的预估真实度时，实际住址值和预测出的住址值可分别以地理坐标的形式来表示，相应地，两者之间的差值可通过函数f_kj转换为适当的真实度值。

属性验证装置20可采用类似的方式，利用诸如快递公司数据、App数据、移动运营商数据等不同外部数据源的数据分别对待审核数据记录的一个或多个属性信息进行验证。例如，属性验证装置20可使用与验证数据的数据源和待预测属性相对应的属性验证模型，基于验证数据记录的特征来预测所述待预测属性信息，并基于预测值与实际值之间的差值来获得反映属性真实性的真实度值。

这里，作为可选方式，在某个外部数据源的验证数据本身已经包含待审核数据中将进行真实性判断的某个属性的属性信息的情况下，属性验证装置20可选择不使用属性验证模型来获取关于所述某个属性的真实度值。例如，如果社交网站数据记录Mk_i已经包含第i客户的性别属性，则属性验证装置20可在不使用属性验证模型的情况下，直接将Mk_i所包含的性别属性作为预测出的第i个客户的性别Mk_ij，进而基于预测值Mk_ij与实际值x_ij之间的差值来获得真实度值。这里，如果社交网站数据记录Mk_i缺少性别属性(即，数据记录本身不完整)，则属性验证装置20可使用预先训练出的属性验证模型来预测第i个客户的性别属性，这里，所述预先训练出的属性验证模型可用于基于社交网站数据的包括性别或除了性别之外的至少一个属性(或经过哈希变换和/或特征工程处理的属性)来预测客户性别。在这种情况下，属性验证装置20可将缺少性别属性值的社交网站数据记录Mk_i作为预测样本输入所述属性验证模型，以基于预测样本的各个特征来预测客户的性别。

可以看出，通过上述方式，属性验证装置20可基于不同来源的验证数据，分别获取相应的待审核数据记录的各个属性的至少一个真实度。在此基础上，属性验证装置20可通过综合获取的所有真实度而得到待审核数据记录的属性真实度特征。

这里，作为示例，可基于某种来源的验证数据来预测待审核数据的某个属性的属性验证模型可以是基于机器学习技术所训练出的预测模型。具体说来，对于历史上经过真实性确认的数据记录(作为示例，可以是历史上经过同样的数据审核且作出的业务判断确认了其真实性的数据记录，例如，历史上确认为非欺诈的信用卡申请客户填写的申请信息数据)，可认为这些数据的各个属性均为真实值，将这些真实值作为有监督学习下的标记(label)，并将对应的验证数据记录的各个属性作为相应的特征，进而可训练出用于基于验证数据来预测属性值的属性验证模型。

这些属性验证模型可以由属性验证装置20预先训练得出。此外，属性验证模型也可以由设置在图1所示的系统中的模型训练装置(未示出)预先训练得出，或可以由图1所示的系统以外的外部装置预先训练得出，在这样的情况下，属性验证装置20可从模型训练装置或外部装置接收其所训练出的属性验证模型。

应注意，以上示出了利用产生自各个数据源的验证数据记录来获得属性真实度特征的示例，还可将注入抽取自述待审核数据记录的验证数据记录等其他类型的验证数据记录应用于本发明，而不同类型的验证数据记录也可共同用来获得属性真实度特征。这里，作为示例，针对各验证数据记录，可使用相应的属性验证模型或其他方式来确定对应的待审核属性的预测值。

再次参照图2，在步骤S30中，由目标预测装置30利用基于机器学习而训练出的目标预测模型，根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果，其中，所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标。

如上所述，根据本发明的示例性实施例，不同于直接对待审核数据记录的各个属性信息进行人工审核的传统方式，也并非简单地扩展被审核对象数据(例如，引入用户的外部数据来直接预测审核目标)，而是首先利用各种来源的验证数据从不同方面验证待审核数据的真实性，并依据经多方验证所得出的真实度来预测出数据审核目标。相应地，对于目标预测模型而言，其特征层面充分融合了各种来源的数据信息(包括待审核数据自身的各种信息和/或来源于各种数据源的其他信息)，从而显著提高了针对审核目标的预测性能。

作为示例，针对第i个待审核数据记录x_i而言，如上所述，属性验证装置20可获取由x_i的各个属性信息的真实度Tk_ij组成的属性真实度特征，这里，k指示验证数据来源的序号，j指示待审核数据的属性序号。相应地，目标预测装置30可将由上述真实度特征构成的预测样本输入目标预测模型，进而得到关于数据审核目标的预测结果。

作为示例，假设数据审核目标是基于客户申请开通信用卡时填写的个人信息来作出关于是否属于开卡欺诈的业务判断，具体说来，需要判断出客户填写的信息数据中是否存在虚假信息。为此，属性验证装置20可基于各种来源的验证数据来获取客户填写的个人信息的真实度值，并综合出待审核客户的属性真实度特征。相应地，目标预测装置30将属性真实度特征作为预测样本输入目标预测模型，进而得到关于客户是否涉嫌开卡欺诈的预测结果。

这里，目标预测模型可以是基于机器学习技术所训练出的预测模型。具体说来，对于历史上得到过数据审核结果的数据记录(例如，最终确定的欺诈数据记录和非欺诈数据记录等)，将这些审核结果作为有监督学习下的标记(label)，并将对应的属性真实度特征作为相应的训练样本特征，进而可训练出用于基于属性真实度特征来预测数据审核目标的目标预测模型。

应注意，根据本发明的示例性实施例，数据审核目标不限于关于待审核数据的属性信息真实性的欺诈问题，还可以是与属性信息真实性相关的其他业务判断或基于属性信息真实性连同其他信息的进一步业务判断。在这种情况下，目标预测模型可被训练为基于待审核数据记录的属性真实度特征连同待审核数据记录的至少一部分属性信息来预测数据审核目标。例如，目标预测模型可被训练为基于属性真实度特征以及某些属性信息的内容来预测信用卡的信用额度。相应地，在步骤S30中，目标预测装置30可根据计算出的属性真实度特征连同基于待审核数据记录的至少一部分属性信息得到的属性特征来获取待审核数据记录关于数据审核目标的预测结果。

类似地，目标预测模型可以由目标预测装置30预先训练得出。此外，目标预测模型也可以由设置在图1所示的系统中的模型训练装置(未示出)预先训练得出，或可以由图1所示的系统以外的外部装置预先训练得出，在这样的情况下，目标预测装置30可从模型训练装置或外部装置接收其所训练出的目标预测模型。

在步骤S30中获得关于数据审核目标的预测结果之后，目标预测装置30可将预测结果存储在相应的存储器中以在后续进行进一步的处理，或者，这些预测结果可被发送到外部的调查装置。此外，也可通过输出装置将预测结果展示给审核用户，进一步地，作为可选方式，还可从审核用户接收反馈信息。

图4示出根据本发明另一示例性实施例的基于机器学习来预测数据审核目标的系统的框图。这里，图4中所示的数据获取装置10、属性验证装置20和目标预测装置30可按照与图1所示的各个装置按照相似的方式进行操作，只是图4的系统还包括展示装置40。

具体说来，在目标预测装置30获取了待审核数据记录关于数据审核目标的预测结果之后，展示装置40可将预测结果展示给用户，例如，展示装置40通过显示屏将预测结果展示给用户，相应地，用户可根据这些预测结果直接作出最终的业务决策，或者，用户可根据这些预测结果来人工核查一些重要信息，并在核查了重要信息之后再作出最终的业务决策。

这里，为了更好地帮助用户作出业务决策，作为可选方式，展示装置40可不仅将预测结果提供给用户，还提供一些有助于用户进行业务判断的辅助信息，以便于用户重点核查这些属性信息，从而作出业务判断。例如，展示装置40可将预测结果连同属性真实度特征展示给用户。由于属性真实度特征能够反映待审核数据记录中各个属性信息的预估真实度值，因此使得用户能够结合预测结果来选择性地人工核实一些真实度偏差较大的属性信息。这里，在向用户展示相关信息时，可对展示的信息进行图形和/或图表化处理以增强其可读性。

作为优选方式，展示装置40可向用户展示与属性真实度特征之中的较大差异相应的属性信息和关于所述属性信息的预测属性信息；并且/或者，向用户展示与属性真实度特征之中起主要预测作用的差异相应的属性信息和关于所述属性信息的预测属性信息。

具体说来，展示装置40可将与属性真实度特征之中的较大差异相应的属性信息和关于所述属性信息的预测属性信息进行单独显示和/或突出显示，以便于用户容易观察到这些较不真实的属性信息。此外，对于其主要预测作用的差异(例如，在目标预测模型的目标函数中，与该差异相应的特征具有较高的权重；或者，对于某个待审核数据记录而言，与差异相应的特征主要影响预测结果)，展示装置40也可进行单独显示和/或突出显示。这里，作为示例，展示装置40可将所展示的预测属性信息显示在所述预测属性信息的统计分布示图中。通过这种方式，可使得用户更加直观地了解到相关信息的统计特点，有助于用户作出判断以进行后续操作。

例如，在观察到这样的重要属性信息之后，用户可对这些属性信息进行进一步的核查，并基于核查结果来作出最终的业务决策，即，关于数据审核目标的实际结果。

作为可选方式，根据本发明示例性实施例的预测系统可从用户接收关于这些业务决策的反馈，这些反馈本身连同相应的属性真实度特征等预测特征可作为目标预测模型的训练样本，其中，反馈所代表的业务决策可作为目标预测模型中关于数据审核目标的标记，相应的预测样本特征可作为训练样本的特征。

除此之外，在业务决策的过程中真实性得到确认的属性信息也可被反馈给属性验证模型，作为与相应的验证数据记录对应的标记，相应的验证数据记录的属性信息可作为训练特征。然而，应注意，获取属性验证模型的标记的方式并不受限于此。

通过上述方式，使得预测系统能够有效地根据新增的待审核数据记录及其实际审核结果来进行增量学习，从而及时更新模型。

相应地，图1或图4所述的系统可还包括反馈装置(未示出)，用于从用户接收关于数据审核目标的实际结果的反馈，其中，所述反馈被用于训练目标预测模型和/或属性验证模型。作为可选方式，反馈装置可与展示装置集成为一体的交互装置。

具体说来，审核人员在作出最终的实际业务决策之后，可将决策的实际结果输入到反馈装置，该反馈装置可利用这些实际业务决策和/或相关的数据属性信息作为目标预测模型和/或属性验证模型的新增训练样本，从而使得模型可以从新增的数据样本中不断学习，及时自我修正，适应变化。例如，这种自学习能力可以有效地解决层出不穷的新的欺诈伪冒手段，避免专家需要不断的根据新的欺诈行为制定新的规则。

应注意，上述数据审核目标的预测系统可完全依赖计算机程序的运行来实现相应的功能，即，各个装置与计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的预测功能。

另一方面，图1或图4所示的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

这里，本发明的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行上述数据审核目标的预测方法。

具体说来，所述计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，所述计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

上述关于数据审核目标的预测方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，所述计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

上述关于数据审核目标的预测方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

具体说来，如上所述，根据本发明示例性实施例的基于机器学习来预测数据审核目标的计算装置可包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：(A)获取待审核数据记录和至少一条验证数据记录，其中，所述待审核数据记录包括关于待审核项的各个属性的属性信息，数据审核目标是指通过对待审核数据记录所包括的属性信息进行审核而作出的业务判断，所述至少一条验证数据记录用于验证所述属性信息之中关于所述各个属性之中的至少一个属性的至少一个属性信息；(B)基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征，其中，所述属性真实度特征用于衡量所述至少一个属性信息的真实程度；(C)利用基于机器学习而训练出的目标预测模型，根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果，其中，所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标。

应注意，以上已经结合图2到图4描述了根据本发明示例性实施例的关于数据审核目标的预测方法的各处理细节，这里将不再赘述计算装置执行各步骤时的处理细节。

以上已经描述了本发明的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，并且本发明也不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明的保护范围应该以权利要求的范围为准。

Claims

1.一种基于机器学习来预测数据审核目标的方法，包括：

(A)获取待审核数据记录和至少一条验证数据记录，其中，所述待审核数据记录包括关于待审核项的各个属性的属性信息，数据审核目标是指通过对待审核数据记录所包括的属性信息进行审核而作出的业务判断，所述至少一条验证数据记录用于验证所述属性信息之中关于所述各个属性之中的至少一个属性的至少一个属性信息；

(B)基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征，其中，所述属性真实度特征用于衡量所述至少一个属性信息的真实程度；

(C)利用基于机器学习而训练出的目标预测模型，根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果，其中，所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标，所述目标预测模型使用历史数据作为训练样本，其中，所述历史数据包括历史上存在的属性真实度特征和相应的数据审核目标，属性真实度特征作为训练样本的特征，相应的数据审核目标作为标记。

2.如权利要求1所述的方法，其中，所述至少一条验证数据记录分别产生自各个数据源和/或抽取自所述待审核数据记录。

3.如权利要求1所述的方法，其中，步骤(B)包括：

(B1)基于所述至少一条验证数据记录来预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息；

(B2)针对所述每一个属性，分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异，并且，基于针对所述至少一个属性计算出的所有差异的集合来获得待审核数据记录的属性真实度特征。

4.如权利要求3所述的方法，其中，在步骤(B2)中，通过基于所述每一个属性的属性信息分别与预测出的所述至少一个预测属性信息之间的差值各自的统计分布特性来分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异。

5.如权利要求3所述的方法，其中，在步骤(B1)中，将所述至少一条验证数据记录分别输入基于机器学习而训练出的至少一个属性验证模型，以预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息。

6.如权利要求3所述的方法，其中，在步骤(B1)中，将产生自各个数据源的验证数据记录本身包括的关于所述至少一个属性之中的每一个属性的至少一个属性信息作为关于所述每一个属性的至少一个预测属性信息。

7.如权利要求5所述的方法，其中，在步骤(B1)中，在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息；并且，在所述验证数据记录本身不包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，将所述验证数据记录输入所述任一属性验证模型。

8.如权利要求7所述的方法，其中，在步骤(B1)中，在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异未超出预设的时间间隔时，将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息；在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异超出所述时间间隔时，将所述验证数据记录输入所述任一属性验证模型。

9.如权利要求1或5所述的方法，在步骤(C)之后，还包括：

(D)将预测结果连同属性真实度特征展示给用户。

10.如权利要求9所述的方法，其中，在步骤(D)中，向用户展示与属性真实度特征之中的较大差异相应的属性信息和关于所述属性信息的预测属性信息；并且/或者，向用户展示与属性真实度特征之中起主要预测作用的差异相应的属性信息和关于所述属性信息的预测属性信息。

11.如权利要求10所述的方法，其中，在步骤(D)中，将所展示的预测属性信息显示在所述预测属性信息的统计分布示图中。

12.如权利要求9所述的方法，在步骤(D)之后，还包括：

(E)从用户接收关于数据审核目标的实际结果的反馈，其中，所述反馈被用于训练目标预测模型和/或属性验证模型。

13.如权利要求1所述的方法，其中，在步骤(C)中，根据计算出的属性真实度特征连同基于待审核数据记录的至少一部分属性信息得到的属性特征来获取待审核数据记录关于数据审核目标的预测结果。

14.一种基于机器学习来预测数据审核目标的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：

15.如权利要求14所述的计算装置，其中，所述至少一条验证数据记录分别产生自各个数据源和/或抽取自所述待审核数据记录。

16.如权利要求14所述的计算装置，其中，步骤(B)包括：

17.如权利要求16所述的计算装置，其中，在步骤(B2)中，通过基于所述每一个属性的属性信息分别与预测出的所述至少一个预测属性信息之间的差值各自的统计分布特性来分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异。

18.如权利要求16所述的计算装置，其中，在步骤(B1)中，将所述至少一条验证数据记录分别输入基于机器学习而训练出的至少一个属性验证模型，以预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息。

19.如权利要求16所述的计算装置，其中，在步骤(B1)中，将产生自各个数据源的验证数据记录本身包括的关于所述至少一个属性之中的每一个属性的至少一个属性信息作为关于所述每一个属性的至少一个预测属性信息。

20.如权利要求18所述的计算装置，其中，在步骤(B1)中，在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息；并且，在所述验证数据记录本身不包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，将所述验证数据记录输入所述任一属性验证模型。

21.如权利要求20所述的计算装置，其中，在步骤(B1)中，在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下，在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异未超出预设的时间间隔时，将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息；在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异超出所述时间间隔时，将所述验证数据记录输入所述任一属性验证模型。

22.如权利要求14或18所述的计算装置，其中，当所述计算机可执行指令集合被所述处理器执行时，在步骤(C)之后，还执行以下步骤：

(D)将预测结果连同属性真实度特征展示给用户。

23.如权利要求22所述的计算装置，其中，在步骤(D)中，向用户展示与属性真实度特征之中的较大差异相应的属性信息和关于所述属性信息的预测属性信息；并且/或者，向用户展示与属性真实度特征之中起主要预测作用的差异相应的属性信息和关于所述属性信息的预测属性信息。

24.如权利要求23所述的计算装置，其中，在步骤(D)中，将所展示的预测属性信息显示在所述预测属性信息的统计分布示图中。

25.如权利要求22所述的计算装置，其中，当所述计算机可执行指令集合被所述处理器执行时，在步骤(D)之后，还执行以下步骤：

26.如权利要求14所述的计算装置，其中，在步骤(C)中，根据计算出的属性真实度特征连同基于待审核数据记录的至少一部分属性信息得到的属性特征来获取待审核数据记录关于数据审核目标的预测结果。