CN113283795A

CN113283795A - 基于二分类模型的数据处理方法及装置、介质、设备

Info

Publication number: CN113283795A
Application number: CN202110655419.0A
Authority: CN
Inventors: 盛时杰; 赵聪; 叶露; 赵霆钧
Original assignee: Tongdun Technology Co ltd; Tongdun Holdings Co Ltd
Current assignee: Tongdun Technology Co ltd; Tongdun Holdings Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-08-20
Anticipated expiration: 2041-06-11
Also published as: CN113283795B

Abstract

本公开是关于一种基于二分类模型的数据处理方法及装置、介质、设备，涉及大数据处理技术领域，该方法包括：根据企业问卷数据，计算生产所述企业问卷数据的数据生产者所具有的可信度权重，并根据所述可信度权重以及所述企业问卷数据，生成所述企业的样本数据；根据所述企业问卷数据以及企业的属性信息，计算所述企业的类别标签，并根据所述类别标签以及所述样本数据，生成输入数据；将所述数据数据输入至二分类模型中，得到所述企业的风险预测结果，并根据所述风险预测结果对所述企业进行排序，得到预测排序结果；根据所述预测排序结果以及所述企业的标准排序结果，对所述二分类模型进行校正。本公开提高了二分类模型的准确率。

Description

基于二分类模型的数据处理方法及装置、介质、设备

技术领域

本公开实施例涉及大数据处理技术领域，具体而言，涉及一种基于二分类模型的数据处理方法、基于二分类模型的数据处理装置、计算机可读存储介质以及电子设备。

背景技术

随着建设社会信用体系的脚步不断加快，征信体系的市场化程度不断加深，征信行业将迎来极大的发展。通常，征信机构对企业风险进行评估时，需要对企业的二分类模型进行训练；但是，二分类模型的训练过程，往往需要积累较多的正负样本。因此，如何在缺乏大量标签数据的情况下，对二分类模型进行校正，进而提高二分类模型的准确率，是亟需解决的问题。

基于此，本申请提出了一种新的基于二分类模型的数据处理方法及装置。

需要说明的是，在上述背景技术部分发明的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种基于二分类模型的数据处理方法、基于二分类模型的数据处理装置、计算机可读存储介质以及电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的二分类模型的准确率较低的问题。

根据本公开的一个方面，提供一种基于二分类模型的数据处理方法，包括：

根据企业问卷数据，计算生产所述企业问卷数据的数据生产者所具有的可信度权重，并根据所述可信度权重以及所述企业问卷数据，生成所述企业的样本数据；

根据所述企业问卷数据以及企业的属性信息，计算所述企业的类别标签，并根据所述类别标签以及所述样本数据，生成输入数据；

将所述数据数据输入至二分类模型中，得到所述企业的风险预测结果，并根据所述风险预测结果对所述企业进行排序，得到预测排序结果；

根据所述预测排序结果以及所述企业的标准排序结果，对所述二分类模型进行校正。

在本公开的一种示例性实施例中，据所述企业问卷数据，计算生产所述企业问卷数据的数据生产者所具有的可信度权重，包括：

根据所述企业问卷数据中所包括的当前问卷答案，计算同一企业在同一个问卷维度下，不同数据生产者在该问卷维度下所反馈的问卷答案的变异系数；

在确定所述变异系数大于第一预设阈值时，计算各所述数据生产者所反馈的问卷答案，与所有问卷答案的平均值之间的偏差值；

在确定所述偏差值大于第二预设阈值时，根据所述偏差值大于第二预设阈值的数据生产者的初始权重以及预设的衰减系数，计算所述数据生产者所具有的可信度权重。

在本公开的一种示例性实施例中，根据所述企业问卷数据中所包括的当前问卷答案，计算同一企业在同一个问卷维度下，不同数据生产者在该问卷维度下所反馈的问卷答案的变异系数，包括：

根据所述当前问卷答案所对应的问卷问题的类型，利用与所述问卷问题类型对应的转换规则，将所述当前问卷答案转换为数值型答案；

根据所述数值型答案，计算多个不同的数据生产者对同一企业在同一问卷维度上所得到的平均分值；

根据所述平均分值计算所述企业在该问卷维度上的均方差，并根据所述均方差以及所述平均分值，计算不同数据生产者在该问卷维度下所反馈的问卷答案的变异系数。

在本公开的一种示例性实施例中，根据所述偏差值大于第二预设阈值的数据生产者的初始权重以及预设的衰减系数，计算所述数据生产者所具有的可信度权重，包括：

计算变异系数大于第一预设阈值的问卷维度在所有问卷维度中所占的比值；

对所述预设的衰减系数以及所述比值进行求积运算，得到第一积运算结果，并对预设的参数以及第一积运算结果进行求差运算；

对所述初始权重以及求差运算结果进行求积运算得到第二积运算结果，以根据第二积运算结果得到所述偏差值大于第二预设阈值的数据生产者所具有的可信度权重。

在本公开的一种示例性实施例中，根据所述可信度权重以及所述企业问卷数据，生成企业的样本数据，包括：

对所述可信度权重以及所述数值型答案进行加权求和，生成所述企业在各个不同维度上的样本数据；其中，所述样本数据所具有的维度与所述问卷维度相同。

在本公开的一种示例性实施例中，根据所述预测排序结果以及所述企业的标准排序结果，对所述二分类模型进行校正，包括：

获取企业的舆情数据，并对所述舆情数据进行分析，得到所述企业的风险类别；

根据所述风险类别，生成所述企业的标准排序结果，并根据所述标准排序结果以及预测排序结果构建损失函数；

利用所述损失函数对所述二分类模型进行校正。

在本公开的一种示例性实施例中，所述基于二分类模型的数据处理方法还包括：

基于预设的问卷模版以及预设的问题库，生成收集所述企业问卷数据所需的问卷；

将所述问卷发送至多个不同的数据生产者，并接收所述数据生产者在完成所述问卷后，发送的反馈信息；

根据所述反馈信息生成所述企业问卷数据，并将所述企业问卷数据存储至所述Hive集群中。

在本公开的一种示例性实施例中，根据所述企业问卷数据以及企业的属性信息，计算所述企业的类别标签，包括：

获取所述企业的属性信息；其中，所述属性信息包括所述企业工商处罚信息；

基于预设的第一计算规则对所述工商处罚信息进行计算，得到所述企业的第一类别标签；其中，所述预设的计算规则包括：所述企业在第一预设时间段内受到的处罚次数、所述企业所受到的总处罚次数以及所述企业最后一次受到处罚的时间节点与当前时间节点之间的时间差中的至少一种；

基于预设的第二计算规则对所述企业问卷数据进行计算，得到所述企业的第二类别标签；

对所述第一类别标签以及第二类别标签进行加权求和，得到所述企业的类别标签。

根据本公开的一个方面，提供一种基于二分类模型的数据处理装置，包括：

第一计算模块，用于根据企业问卷数据，计算生产所述企业问卷数据的数据生产者所具有的可信度权重，并根据所述可信度权重以及所述企业问卷数据，生成所述企业的样本数据；

第二计算模块，用于根据所述企业问卷数据以及企业的属性信息，计算所述企业的类别标签，并根据所述类别标签以及所述样本数据，生成输入数据；

第一排序模块，用于将所述数据数据输入至二分类模型中，得到所述企业的风险预测结果，并根据所述风险预测结果对所述企业进行排序，得到预测排序结果；

二分类模型校正模块，用于根据所述预测排序结果以及所述企业的标准排序结果，对所述二分类模型进行校正。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的基于二分类模型的数据处理方法。

根据本公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的基于二分类模型的数据处理方法。

本公开实施例提供的一种基于二分类模型的数据处理方法及装置，一方面，由于可以根据风险预测结果以及标准排序结果对二分类模型进行校正，进而实现了在缺乏大量标签数据的情况下，无法对二分类模型进行校正，进而使得二分类模型的准确率较低的问题，提高了二分类模型的准确率，进而提高了风险预测结果的准确率；同时，由于可以对二分类模型进行校正，进而使得用户在缺乏大量样本数据的情况下，也可以确保二分类模型的准确率，进而在一定程度上实现了在样本较少的情况下也可以达到精确的风险预测结果；另一方面，在二分类模型的输入数据中，输入数据来自于企业问卷数据，且在将数据输入至二分类模型之前，还进行了预处理(计算可信度权重以及根据可信度权重生成样本数据)，进而提高了输入数据的准确率以及真实性，进而进一步的提高了风险预测结果的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出根据本公开示例实施例的一种基于二分类模型的数据处理方法的流程图。

图2示意性示出根据本公开示例实施例的一种基于二分类模型的数据处理系统的框图。

图3示意性示出根据本公开示例实施例的一种企业问卷数据的生成方法的流程图。

图4示意性示出根据本公开示例实施例的一种根据所述企业问卷数据，计算生产所述企业问卷数据的数据生产者所具有的可信度权重的方法流程图。

图5示意性示出根据本公开示例实施例的一种根据所述企业问卷数据中所包括的当前问卷答案，计算同一企业在同一个问卷维度下，不同数据生产者在该问卷维度下所反馈的问卷答案的变异系数的方法流程图。

图6示意性示出根据本公开示例实施例的一种根据所述偏差值大于第二预设阈值的数据生产者的初始权重以及预设的衰减系数，计算所述数据生产者所具有的可信度权重的方法流程图。

图7示意性示出根据本公开示例实施例的一种根据所述预测排序结果以及企业的标准排序结果，对所述二分类模型进行校正的方法流程图。

图8示意性示出根据本公开示例实施例的另一种基于二分类模型的数据处理方法的流程图。

图9示意性示出根据本公开示例实施例的一种基于二分类模型的数据处理装置的框图。

图10示意性示出根据本公开示例实施例的一种用于实现上述基于二分类模型的数据处理方法的电子设备。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例实施方式中首先提供了一种基于二分类模型的数据处理方法，该方法可以运行于Spark计算引擎所在的服务器、服务器集群或云服务器等；当然，本领域技术人员也可以根据需求在其他平台运行本公开的方法，本示例性实施例中对此不做特殊限定。参考图1所示，该基于二分类模型的数据处理方法可以包括以下步骤：

步骤S110.根据企业问卷数据，计算生产所述企业问卷数据的数据生产者所具有的可信度权重，并根据所述可信度权重以及所述企业问卷数据，生成所述企业的样本数据；

步骤S120.根据所述企业问卷数据以及企业的属性信息，计算所述企业的类别标签，并根据所述类别标签以及所述样本数据，生成输入数据；

步骤S130.将所述数据数据输入至二分类模型中，得到所述企业的风险预测结果，并根据所述风险预测结果对所述企业进行排序，得到预测排序结果；

步骤S140.根据所述预测排序结果以及所述企业的标准排序结果，对所述二分类模型进行校正。

上述基于二分类模型的数据处理方法中，一方面，由于可以根据风险预测结果以及标准排序结果对二分类模型进行校正，进而实现了在缺乏大量标签数据的情况下，无法对二分类模型进行校正，进而使得二分类模型的准确率较低的问题，提高了二分类模型的准确率，进而提高了风险预测结果的准确率；同时，由于可以对二分类模型进行校正，进而使得用户在缺乏大量样本数据的情况下，也可以确保二分类模型的准确率，进而在一定程度上实现了在样本较少的情况下也可以达到精确的风险预测结果；另一方面，在二分类模型的输入数据中，输入数据来自于企业问卷数据，且在将数据输入至二分类模型之前，还进行了预处理(计算可信度权重以及根据可信度权重生成样本数据)，进而提高了输入数据的准确率以及真实性，进而进一步的提高了风险预测结果的准确率。

以下，将结合附图对本公开示例实施例基于二分类模型的数据处理方法进行详细的解释以及说明。

首先，对本公开示例实施例中所涉及到的名词进行解释。

PU Learning(Positive-unlabeled learning)是半监督学习的一个研究方向，指在只有正类和无标记数据的情况下，训练二分类器。具体的，可以启发式地从未标注样本里找到可靠的负样本，以此训练二分类器，该方法问题是分类效果严重依赖先验知识。

其次，对本公开示例实施例的发明目的进行解释以及说明。具体的，本公开提出了一种新型的适用于新进市场的企业风险评估方法，在缺乏足量违约数据的情况下，金融机构或企业评级机构通过多个利益方(数据生产者)对同一企业的不同视角(不同维度)的风险解读(如业务人员，法务，风控，会从不同角度出具对同一企业的专业意见)；其中，各利益方可以根据专业的法律法规、行业标准和专家经验等，自行定义高风险企业，将企业的风险情况区分为高风险等级和无法确定风险等级两个群体，进而通过半监督的机器学习方法训练并校正，完成在违约数据不足的情况下对企业的风险评估。

然后，对本公开示例实施例的基于二分类模型的数据处理系统进行解释以及说明。具体的，参考图2所示，该基于二分类模型的数据处理系统可以包括Hive集群210、Spark计算引擎220以及终端设备230。其中，Spark计算引擎、Hive集群以及终端设备分别通信连接。

具体的，Hive集群用于对企业问卷数据进行存储，终端设备用于对问卷进行显示，并在接收到用户对所有问卷的选择操作以后，将问卷反馈信息发送至Hive集群进行存储，Spark计算引擎可以用于实现本公开示例实施例所记载的基于二分类模型的数据处理方法。

进一步的，对本公开示例实施例所记载的企业问卷数据的生成方法进行解释以及说明。参考图3所示，该企业问卷数据的生成方法可以包括以下步骤：

在步骤S310中，基于预设的问卷模版以及预设的问题库，生成收集所述企业问卷数据所需的问卷；

在步骤S320中，将所述问卷发送至多个不同的数据生产者，并接收所述数据生产者在完成所述问卷后，发送的反馈信息；

在步骤S330中，根据所述反馈信息生成所述企业问卷数据，并将所述企业问卷数据存储至所述Hive集群中。

以下，将对步骤S310-步骤S330进行解释以及说明。具体的，首先，根据问卷模板以及问题库，生成问卷；其中，每一个企业可以对应一个相同的问卷，该问卷可以发给多个不同的数据生产者，也即利益相关方；同时，一个利益相关方可以接收到多个不同的问卷，同一个企业发给不同的利益相关方的问卷是相同的；其次，当得到问卷以后，可以通过统一的问卷系统发放匿名问卷给各利益相关方，各利益相关方完成问卷后，回收问卷并录入数据库(Hive集群)。其中，问卷的特殊之处在于，针对不同利益相关方的问卷中设计了多个重复问题，用于判别相关方是否对同一个主体有相对客观公正的评价。

进一步的，所生成的问卷中，可以包括多个不同的维度，例如企业资质维度、企业人员变动维度、拜访信息维度、舆情信息维度以及专家评分维度，每一个维度下面包括不同的问卷内容，具体可以如下所示：

企业资质：股东背景(国资背景、央企背景、民营上市公司、一般公司)、注册资本(0-1000万、1000-5000万、5000万-1亿、1亿-5亿、5亿-50亿、50亿以上)；企业人员变动情况：近半年法人是否发生变化(是或者否)、近半年股东构成是否发生变化(是或者否)；拜访信息：办公人员(<10、10-50、50-200、200-1000、1000以上)；舆情信息：裁判文书(涉及法院失信、涉及法院执行、涉黑0)；专家评分：综合评分(1、2、3、4、5)。此处需要补充说明的是，上述所例举的维度以及具体的问卷内容仅仅是起到示例性作用，在实际应用过程中，可以根据实际需要自行选取，本示例对此不做特殊限定。

此处需要补充说明的是，由于在上述企业问卷数据中，涉及到了多个不同的维度，因此，各使用方可以自行定义标签，从而在多重场景(如风控、合规等)下使用，进而可以进一步的提高二分类模型的精确度。

以下，将对步骤S110-步骤S140进行解释以及说明。

在步骤S110中，根据企业问卷数据，计算生产所述企业问卷数据的数据生产者所具有的可信度权重，并根据所述可信度权重以及所述企业问卷数据，生成所述企业的样本数据。

在本示例实施例中，首先，从Hive集群中获取多个企业的企业问卷数据，然后，根据该企业问卷数据，计算生产该企业问卷数据的数据生产者所具有的可信度权重。具体的，参考图4所示，据所述企业问卷数据，计算生产所述企业问卷数据的数据生产者所具有的可信度权重，可以包括以下步骤：

步骤S410，根据所述企业问卷数据中所包括的当前问卷答案，计算同一企业在同一个问卷维度下，不同数据生产者在该问卷维度下所反馈的问卷答案的变异系数。

在本示例实施例中，参考图5所示，根据所述企业问卷数据中所包括的当前问卷答案，计算同一企业在同一个问卷维度下，不同数据生产者在该问卷维度下所反馈的问卷答案的变异系数，可以包括以下步骤：

步骤S510，根据所述当前问卷答案所对应的问卷问题的类型，利用与所述问卷问题类型对应的转换规则，将所述当前问卷答案转换为数值型答案；

步骤S520，根据所述数值型答案，计算多个不同的数据生产者对同一企业在同一问卷维度上所得到的平均分值；

步骤S530，根据所述平均分值计算所述企业在该问卷维度上的均方差，并根据所述均方差以及所述平均分值，计算不同数据生产者在该问卷维度下所反馈的问卷答案的变异系数。

以下，将对步骤S510-步骤S530进行解释以及说明。首先，当问卷问题的类型为包括多个选项(例如ABCD)的类型时，可以基于预设的ordinal的序列对该类型的问卷问题进行转换，例如，针对于注册资本来说，1000w一下就是0，1000-5000w是1，5000-1亿是2，依次类推；当问卷问题的类型为是或者否时，可以将其转换为1或者0，当然对于综合评分(1、2、3、4、5)类型时，则无需转换，直接使用即可。

其次，计算平均分值，具体计算方法可以如下公式(1)所示：

其中，n为利益相关方的个数，μ为平均分值，x_i为各不同利益相关方在某一个维度上对某一个企业的评分。

然后，计算均方差，具体计算方法可以如下公式(2)所示：

其中，σ为该企业在某一个维度上的均方差。

最后，计算变异系数，具体的计算方法可以如下公式(3)所示：

其中，c_v为该企业该某一个维度上的变异系数。

此处需要补充说明的是，整体变异系数可以通过对各个不同维度上的变异系数进行相加得到。

步骤S420，在确定所述变异系数大于第一预设阈值时，计算各所述数据生产者所反馈的问卷答案，与所有问卷答案的平均值之间的偏差值。

具体的，可以根据各数据持有者反馈的问卷答案与平均分值之间的偏差值。通过该方法，可以确定是哪一方数据生产者所反馈的问卷答案出现了偏差，进而可以对该数据生产者的可信度权重进行调整。

步骤S430，在确定所述偏差值大于第二预设阈值时，根据所述偏差值大于第二预设阈值的数据生产者的初始权重以及预设的衰减系数，计算所述数据生产者所具有的可信度权重。

在本示例实施例中，首先，在确定偏差值大于第二预设阈值(例如可以是一个标准差，当然也可以是两个标准差，本示例对此不做特殊限制)时，可以根据偏差值大于第二预设阈值的数据生产者的初始权重以及预设的衰减系数，计算数据生产者所具有的可信度权重。具体的，参考图6所示，根据所述偏差值大于第二预设阈值的数据生产者的初始权重以及预设的衰减系数，计算所述数据生产者所具有的可信度权重，可以包括以下步骤：

步骤S610，计算变异系数大于第一预设阈值的问卷维度在所有问卷维度中所占的比值；

步骤S620，对所述预设的衰减系数以及所述比值进行求积运算，得到第一积运算结果，并对预设的参数以及第一积运算结果进行求差运算；

步骤S630，对所述初始权重以及求差运算结果进行求积运算得到第二积运算结果，以根据第二积运算结果得到所述偏差值大于第二预设阈值的数据生产者所具有的可信度权重。

以下，将对步骤S610-步骤S630进行解释以及说明。具体的，可信度权重的计算方法可以参考如下公式(4)所示：

其中，w_j为调整后的可信度权重，w_i为初始权重，λ为衰减系数。

此处需要补充说明的是，在对企业问卷数据进行预处理阶段，由于在问卷自动化设计并分发阶段，会存在多个利益相关方回答同一主体的统一问题，数据预处理模块的主要目的是判断并处理收集到的相关数据的准确性，针对每一个利益相关方，会给予一个初始的可信度权重。计算同一主体，同一问卷答案下收集到的不同利益相关方结果的变异系数。若变异系数超过30％，则引入第三方对结果进行复核，对偏差超过1个标准差的利益相关方的可信度权重，进行降权操作，直至每一个利益相关方的可信度权重更新完毕。最后每个企业主体下的综合数据，采取每个利益相关方可信度权重进行加权处理。通过该方法，可以提高样本数据的准确率。

此处需要进一步补充说明的是，如果变异系数未超过30％，则无需对初始的可信度权重进行调整。

进一步的，当得到可信度权重以后，可以根据所述可信度权重以及所述企业问卷数据，生成所述企业的样本数据。具体的可以包括：对所述可信度权重以及所述数值型答案进行加权求和，生成所述企业在各个不同维度上的样本数据；其中，所述样本数据所具有的维度与所述问卷维度相同。例如，可信度权重为0.8，则可以利用该可信度权重与各个不同维度的数值型答案进行求积运算，进而根据该计算结果得到对应维度上的样本数据。

在步骤S120中，根据所述企业问卷数据以及企业的属性信息，计算所述企业的类别标签，并根据所述类别标签以及所述样本数据，生成输入数据。

在本示例实施例中，首先，根据所述企业问卷数据以及企业的属性信息，计算所述企业的类别标签。具体的可以包括：首先，获取所述企业的属性信息；其中，所述属性信息包括所述企业工商处罚信息；其次，基于预设的第一计算规则对所述工商处罚信息进行计算，得到所述企业的第一类别标签；其中，所述预设的计算规则包括：所述企业在第一预设时间段内受到的处罚次数、所述企业所受到的总处罚次数以及所述企业最后一次受到处罚的时间节点与当前时间节点之间的时间差中的至少一种；然后，基于预设的第二计算规则对所述企业问卷数据进行计算，得到所述企业的第二类别标签；最后，对所述第一类别标签以及第二类别标签进行加权求和，得到所述企业的类别标签。

具体的，在企业的类别标签的计算过程中，需要考虑到企业工商处罚信息、企业的问卷数据，当然也可以将企业舆情数据纳入考虑的范围，本示例对此不做特殊限制。进一步的，如果企业在第一预设时间段(例如半年)内的处罚次数超过一次、企业从成立的时间至今，所受到的处罚次数超过三次、企业最后一次受到处罚的时间节点与当前时间节点之间的时间差小于一年，则均可以将其视为高风险企业(第一类别标签)，具体的风险大小可以为：如果满足其中任意一项，则风险大小为0.7、如果满足任意两项，则风险大小为0.8，如果三项均满足，则风险大小为0.9等等，也可以根据需要自行选取；另外，如果企业问卷数据中所包括的各个维度的数值型答案的分数较低的话，也可以认为该企业属于高风险企业(第二类别标签)；进一步的，可以根据第一类别标签以及第二类别标签，得到企业的类别标签；其中，第一类别标签以及第二类别标签的权重和为1；且第一类别标签的权重大于第二类别标签的权重。

此处需要进一步补充说明的是，当企业不存在工商处罚信息(也即企业为新成立企业时)，可以认为该企业为不具有标签类别的企业，可以将该企业的标签类别设置为0。进一步的，

在步骤S130中，将所述数据数据输入至二分类模型中，得到所述企业的风险预测结果，并根据所述风险预测结果对所述企业进行排序，得到预测排序结果。

具体的，采用模型方式评估企业风险时，需要拥有足量的标签表现数据。但对于行业新进者以及到某地区新开展业务的金融机构，往往没有缺乏足够的标签。因此，本公开针对早期开展业务时完全没有或者只有部分标签的情况下，相关使用方可以根据业务经验、行业标准或合规要求，自行定义标签，将所有企业分为已知为高风险企业与无标签的企业(如某合规相关人员将不满足业务合规性指标的相关企业，定义为高风险企业)，结合之前已经获取的事实数据和主观数据，通过半监督的机器学习方法(如PU Learning、标签传播算法等)给剩余无标签的企业进行风险区分；并且，针对后期陆续收集到的相关标签数据，可以无缝融入到本公开模型训练模块中高风险企业的定义阶段中。

在步骤S140中，根据所述预测排序结果以及所述企业的标准排序结果，对所述二分类模型进行校正。

在本示例实施例中，参考图7所示，根据所述预测排序结果以及与所述不具有标签类别的企业对应的标准排序结果，对所述二分类模型进行校正，可以包括以下步骤：

步骤S710，获取企业的舆情数据，并对所述舆情数据进行分析，得到所述企业的风险类别；

步骤S720，根据所述风险类别，生成所述企业的标准排序结果，并根据所述标准排序结果以及预测排序结果构建损失函数；

步骤S730，利用所述损失函数对所述二分类模型进行校正。

以下，将对步骤S710-步骤S730进行解释以及说明。首先，可以获取舆情数据，舆情数据可以包括交互平台(例如，贴吧、知乎、企业官网、微博等等)中第一时间大家对企业的相关言论和评价信息，然后，随机多次给出2个企业，通过利益相关根据舆情数据对两个企业的风险进行高低排名，形成两家企业间的相对顺序排序，经过n次随机的排序后，得到n对企业的相关风险排序，进而根据n对企业的风险排序结果，生成上述标准排序结果；进一步的，基于预测排序结果以及标准排序结果构建损失函数，并基于该损失函数对二分类模型进行校正。其中，具体所使用的损失函数可以为交叉熵损失函数，也可以是其他损失函数，本示例对此不做特殊限制。

以下，结合图8对本公开示例实施例基于二分类模型的数据处理方法进行进一步的解释以及说明。具体的，参考图8所示，该基于二分类模型的数据处理方法可以包括以下步骤：

步骤S810，针对不同的利益相关方(如法务、风控人员、销售等人员)设计相应问卷，形成问卷库；随机生成的问卷中，确保判断相同主题资质的问卷中的每个具体问题，都有n的利益相关方进行回答，以衡量相关方回答问卷的可信度；

步骤S820，对法务、风控人员和销售人员匿名发放关于首批100家企业的问卷，并在指定时间内完成问卷的回收、处理和录入；

步骤S830，对收集的数据进行预处理，选取客观可靠的问卷结果，并对结果有出入的相关方的其他问卷降权处理；

步骤S840，根据合规要求，将高风险企业，定义为在过去6个月内，存在过被监管处罚或要求业务整改的企业；

步骤S850，根据已知标签的企业，选取PU Learning算法，来区分无标签企业的风险概率；

步骤S860，随机选取N对企业，同时由法务人员、风控人员进行风险情况的对比排序；

步骤S870，根据专家经验得出的排序，经过排序学习后，给出每家公司最终的风险概率。

本公开示例实施例所提供的一种无需大量样本下的企业风险评估方法，可以快速地在尚未积累大量样本的情况下，有效地给出企业风险评估情况；同时，对于关注点不同的情况，用户只需自行定义相关的高风险类别和模型算法，就可以完成自主训练，迭代，测试，发布；并且，用户无需积累大量样本，一定程度上减小了新进者的门槛，还可以快速兼容后续不断丰富的标签；进一步的，各使用方可以自行定义标签，从而在多重场景(如风控、合规等)下使用，同时，用户可以选择不同算法模型进行训练，如PU Learning,标签传播算法、半监督支持向量机等等；进一步的，增加了校正阶段，确保结果的排名有序性和准确性。

本公开示例实施例还提供了一种基于二分类模型的数据处理装置。参考图9所示，该基于二分类模型的数据处理装置可以包括第一计算模块910、第二计算模块920、第一排序模块930以及二分类模型校正模块940。其中：

第一计算模块910可以用于根据企业问卷数据，计算生产所述企业问卷数据的数据生产者所具有的可信度权重，并根据所述可信度权重以及所述企业问卷数据，计算所述企业的样本数据；

第二计算模块920可以用于根据所述企业问卷数据以及企业的属性信息，计算所述企业的类别标签，并根据所述类别标签以及所述样本数据，生成输入数据；

第一排序模块930可以用于将所述数据数据输入至二分类模型中，得到所述企业的风险预测结果，并根据所述风险预测结果对所述企业进行排序，得到预测排序结果；

二分类模型校正模块940可以用于根据所述预测排序结果以及所述企业的标准排序结果，对所述二分类模型进行校正。

在本公开的一种示例性实施例中，根据所述预测排序结果以及与所述不具有标签类别的企业对应的标准排序结果，对所述二分类模型进行校正，包括：

利用所述损失函数对所述二分类模型进行校正。

在本公开的一种示例性实施例中，所述基于二分类模型的数据处理装置还包括：

问卷生成模块，可以用于基于预设的问卷模版以及预设的问题库，生成收集所述企业问卷数据所需的问卷；

问卷发送模块，可以用于将所述问卷发送至多个不同的数据生产者，并接收所述数据生产者在完成所述问卷后，发送的反馈信息；

问卷数据存储模块，可以用于根据所述反馈信息生成所述企业问卷数据，并将所述企业问卷数据存储至所述Hive集群中。

上述基于二分类模型的数据处理装置中各模块的具体细节已经在对应的基于二分类模型的数据处理方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图10来描述根据本公开的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030以及显示单元1040。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1010执行，使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元1010可以执行如图1中所示的步骤S110：根据企业问卷数据，计算生产所述企业问卷数据的数据生产者所具有的可信度权重，并根据所述可信度权重以及所述企业问卷数据，计算所述企业的样本数据；步骤S120：根据所述企业问卷数据以及企业的属性信息，计算所述企业的类别标签，并根据所述类别标签以及所述样本数据，生成输入数据；步骤S130：将所述数据数据输入至二分类模型中，得到所述企业的风险预测结果，并根据所述风险预测结果对所述企业进行排序，得到预测排序结果；步骤S140：根据所述预测排序结果以及所述企业的标准排序结果，对所述二分类模型进行校正。

存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)10201和/或高速缓存存储单元10202，还可以进一步包括只读存储单元(ROM)10203。

存储单元1020还可以包括具有一组(至少一个)程序模块10205的程序/实用工具10204，这样的程序模块10205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种基于二分类模型的数据处理方法，其特征在于，包括：

2.根据权利要求1所述的基于二分类模型的数据处理方法，其特征在于，据所述企业问卷数据，计算生产所述企业问卷数据的数据生产者所具有的可信度权重，包括：

3.根据权利要求2所述的基于二分类模型的数据处理方法，其特征在于，根据所述企业问卷数据中所包括的当前问卷答案，计算同一企业在同一个问卷维度下，不同数据生产者在该问卷维度下所反馈的问卷答案的变异系数，包括：

4.根据权利要求2所述的基于二分类模型的数据处理方法，其特征在于，根据所述偏差值大于第二预设阈值的数据生产者的初始权重以及预设的衰减系数，计算所述数据生产者所具有的可信度权重，包括：

5.根据权利要求3所述的基于二分类模型的数据处理方法，其特征在于，根据所述可信度权重以及所述企业问卷数据，生成企业的样本数据，包括：

6.根据权利要求1所述的基于二分类模型的数据处理方法，其特征在于，根据所述预测排序结果以及所述企业的标准排序结果，对所述二分类模型进行校正，包括：

利用所述损失函数对所述二分类模型进行校正。

7.根据权利要求1所述的基于二分类模型的数据处理方法，其特征在于，所述基于二分类模型的数据处理方法还包括：

8.根据权利要求7所述的基于二分类模型的数据处理方法，其特征在于，根据所述企业问卷数据以及企业的属性信息，计算所述企业的类别标签，包括：

9.一种基于二分类模型的数据处理装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9任一项所述的基于二分类模型的数据处理方法。

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任一项所述的基于二分类模型的数据处理方法。