CN110060068A

CN110060068A - 商户评估方法、装置、电子设备及可读存储介质

Info

Publication number: CN110060068A
Application number: CN201910113574.2A
Authority: CN
Inventors: 侯宪龙; 陈侃; 曾小英; 陈知己; 贾佳; 方俊; 冯力国
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-02-14
Filing date: 2019-02-14
Publication date: 2019-07-26

Abstract

本说明书实施例提供了一种商户评估方法，通过在商户准入场景下，获取商户对应的风险特征数据，并根据所获取的风险特征数据以及预先训练好的机器学习模型，得到商户的商户准入分数。这样就可以在商户准入环节，通过上述商户准入分数来衡量商户准入的风险，有利于及时对商户风险进行防控。

Description

商户评估方法、装置、电子设备及可读存储介质

技术领域

本说明书实施例涉及互联网技术领域，尤其涉及一种商户评估方法、装置、电子设备及可读存储介质。

背景技术

随着电子商务的不断发展，电商平台的签约商户与日俱增，同时也就伴随着层出不穷的风险，如欺诈，套现等。为了保证用户的利益以及电商平台的安全运营，需要及时对商户存在的风险进行防控。而对商户风险的评估是风险防控的重要依据，因此，需要一种能够对商户风险进行有效评估的方法。

发明内容

本说明书实施例提供了一种商户评估方法、装置、电子设备及可读存储介质。

第一方面，本说明书实施例提供了一种商户评估方法，包括：在商户准入场景下，获取商户对应的风险特征数据；基于所述风险特征数据以及预先训练好的机器学习模型，得到所述商户的商户准入分数，以根据所述商户准入分数确定是否允许所述商户的准入。

第二方面，本说明书实施例提供了一种商户评估装置，包括：获取模块，用于在商户准入场景下，获取商户对应的风险特征数据；分数确定模块，用于基于所述风险特征数据以及预先训练好的机器学习模型，得到所述商户的商户准入分数，以根据所述商户准入分数确定是否允许所述商户的准入。

第三方面，本说明书实施例提供了一种电子设备，包括：存储器；一个或多个处理器；及上述的商户评估装置，存储于所述存储器中并被配置成由一个或多个处理器执行。

第四方面，本说明书实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述商户评估方法的步骤。

本说明书实施例有益效果如下：

本说明书实施例提供的商户评估方法，通过在商户准入场景下，获取商户对应的风险特征数据，并根据所获取的风险特征数据以及预先训练好的机器学习模型，得到商户的商户准入分数，以根据商户准入分数确定是否允许该商户准入。这样就可以在商户准入环节，通过商户准入分数来衡量商户准入的风险，以便于进一步确定是否允许该商户的准入，有利于及时做好对商户风险的防控。

附图说明

图1为本说明书实施例的一种运行环境示意图；

图2为本说明书实施例第一方面提供的商户评估方法的流程图；

图3为本说明书实施例第一方面提供的模型训练过程的流程图；

图4为本说明书实施例第一方面提供的子模型训练步骤的流程图；

图5为本说明书实施例第一方面提供的EasyEnsemble算法的理论框架示意图；

图6为本说明书实施例第二方面提供的商户评估装置的结构示意图；

图7为本说明书实施例第三方面提供的电子设备的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明，应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明，而不是对本说明书技术方案的限定，在不冲突的情况下，本说明书实施例以及实施例中的技术特征可以相互组合。需要说明的是，本说明书实施例中，术语“两个以上”包括两个或大于两个的情况；术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本说明书实施例中，商户准入场景为用户注册成为电商平台的商户的场景，该场景下商户还不存在交易行为即也就不存在交易数据；商户准入分数(New Account RiskScore，NARS)为用户在注册为商户时刻的风险评估分数；事中定性是指通过商户的实际交易行为反馈的交易数据来对商户的风险进行定性，如确定商户为非风险商户，或者是具有批量风险、团伙风险或欺诈风险的商户。

请参见图1，为适用于本说明书实施例的一种运行环境示意图。如图1所示，一个或多个终端设备100可通过网络200与一个或多个服务器300(图1中仅示出一个)相连，以进行数据通信或交互。其中，终端设备100可以是个人电脑(Personal Computer，PC)、笔记本电脑、平板电脑、智能手机等具有网络功能的智能设备。

终端设备100中安装有客户端，该客户端可以是APP，也可以是浏览器，与服务器(Server)端相对应，为用户提供服务，例如网上购物服务、支付服务等。用户可以通过客户端发送注册请求至服务器，请求成为相应电商平台的商户。用户注册为商户的时刻即为商户准入时刻。

本说明书实施例提供的商户评估方法可以由服务器执行。当然，在本说明其他实施例中，该商户评估方法也可以由终端设备执行。

第一方面，本说明书实施例提供了一种商户评估方法。请参见图2，该方法包括步骤S200-步骤S202。

步骤S200，在商户准入场景下，获取商户对应的风险特征数据；

商户准入环节是用户成为商户的初始环节，在商户准入环节就对商户风险进行评价，作为衡量商户风险的第一道门槛，能够对该商户事中防控起到积极作用。由于处于准入场景下的商户还不存在交易数据，无法从交易数据中获取能反应商户风险的信息，即无法依靠交易数据评定商户的风险。因此，需要基于商户自身的画像特征数据得到商户对应的风险特征数据。

本实施例中，商户自身的画像特征数据可以包括但不限于二级关联的特征如商户注册的ID对应的设备以及与该设备关联的相应电商平台的账号数量、商户在注册时刻之前预设时间段如3小时、1天或7天内登录的次数、冲突信息、商户注册所在地理位置处对应的目标区域内注册为商户的账号个数等。具体地，冲突信息可以包括商户注册的身份信息与真实的身份信息是否一致和/或注册相应电商平台的账号时使用的设备是否一致，例如，注册淘宝账号使用的设备与注册支付宝账号使用的设备是否一致。其中，身份信息可以是手机号、身份证号、邮箱或银行卡号等。当然，除了这些信息外，还可以包括其他能够用于评价准入商户的风险情况的数据，如商户注册前连续两次登录的IP地址是否一致、商户作为用户时的芝麻信用分数等。

通过事中对商户风险的定性可知，商户可能存在着不同类型的风险，如批量风险、团体风险、伪冒风险、欺诈风险等。为了提高评价结果的客观全面性，本实施例可以针对性地基于对商户事中定性的风险类型，获取相应的特征数据，进一步基于这些特征数据得到商户对应的风险特征数据。具体来讲，作为一种实施方式，获取商户对应的风险特征数据的具体过程可以包括：获取商户对应的第一特征数据，所述第一特征数据包括两个以上特征类的数据，每个特征类对应于一种风险类型；分别将所述第一特征数据中每种特征类的数据输入与该特征类对应的预设风险模型，得到相应风险类型的风险值；基于所得到的每种风险类型的风险值，得到所述风险特征数据。这样就可以以数据为导向刻画不同类型的风险特征，以进一步根据这些风险特征学习得到能够准确评估商户风险的商户准入分数。

其中，特征类的具体种类可以根据实际事中定性涉及的商户风险类别确定。例如，第一特征数据可以包括三个特征类的数据，分别对应于批量风险、伪冒风险和团体风险。具体来讲，对应于批量风险的特征类的数据可以包括但不限于：二级关联的特征如商户注册的ID对应的设备以及与该设备关联的相应电商平台的账号数量、商户在注册时刻之前预设时间段如3小时、1天或7天内登录的次数等在商户准入环节能够反映注册商户是否存在批量风险的数据。对应于伪冒风险的特征类的数据可以包括但不限于：商户注册的身份信息与真实的身份信息是否一致以及商户注册相应电商平台的账号时使用的设备是否一致等在商户准入环节能够反映注册商户是否存在伪冒风险的数据。对应于团伙风险的特征类的数据可以包括但不限于：商户注册所在地理位置处对应的目标区域内注册为商户的账号个数等在商户准入环节能够反映注册商户是否存在团体风险的数据。例如，目标区域可以是以商户注册所在地理位置为圆心，预设半径的圆形区域，预设半径可以根据需要设置，如可以是3米或5米等。

每个特征类对应的风险模型均需要预先筛选具有相应风险类型标识的商户样本训练有监督学习模型得到。例如，在上述示例中，需要预先训练好批量风险模型、伪冒风险模型以及团伙风险模型，从而将对应于批量风险的特征类的数据输入批量风险模型，得到批量风险值；将对应于伪冒风险的特征类的数据输入伪冒风险模型，得到伪冒风险值；将对应于团伙风险的特征类的数据输入团伙风险模型，得到团伙风险值。其中，批量风险值、伪冒风险值以及团伙风险值可以均为0-1之间的概率值。

当然，具体风险模型的设置可以根据业务需求和数据来源做出相应调整，例如，还可以包括欺诈风险模型等。

在本说明书一实施例中，可以将所得到的每种风险类型的风险值作为风险特征数据。例如，将上述示例中得到的批量风险值、伪冒风险值以及团伙风险值作为商户对应的风险特征数据，如批量风险值为：0.1，伪冒风险值为：0.2，团伙风险值为：0.05，则该商户对应的风险特征数据包括：0.1、0.2和0.05。

另外，为了得到更全面的风险特征数据，在本说明书另一实施例中，上述基于所得到的每种风险类型的风险值，得到所述风险特征数据，可以包括：获取商户对应的第二特征数据；基于所述风险值的范围以及预设规则，对所述第二特征数据进行归一化处理，得到所述第二特征数据对应的特征值；将所述每种风险类型的风险值以及所述特征值作为所述风险特征数据。

此时，除了基于对应有特定风险类型的第一特征数据刻画的风险值以外，风险特征数据还可以基于其他不对应有特定风险类型的数据即第二特征数据得到的特征值。具体来讲，第二特征数据为未映射有特定风险类型且与所述商户的准入风险评估相关联的特征数据，具体可以根据实际应用场景的业务类型确定。例如，第二特征数据可以包括网络环境特征信息以及商户作为用户时的芝麻信用分数等。举例来讲，网络环境特征信息可以包括商户注册前连续两次登录的IP地址是否一致的检测结果、商户注册采用的网络如WIFI或IP地址对应的历史注册商户的数量等。

进一步，需要对第二特征数据进行归一化处理。具体的预设规则需要根据实际应用场景中第二特征数据的数据源预先设置。例如，第二特征数据包括芝麻信用分数时，假设芝麻信用分数的范围为：450分至750分，风险值的范围为0-1，则需要将芝麻信用分数归一化成0到1之间的数值，作为芝麻信用分值对应的特征值。又例如，第二特征数据包括商户注册前连续两次登录的IP地址是否一致的检测结果，风险值的范围为0-1，则当检测结果为一致时，对应的特征值为0，当检测结果为不一致时，对应的特征值为1。

当然，在本说明书的其他实施例中，也可以采用其他方式获取商户在准入场景下的风险特征数据，例如，也可以将准入场景下获取的第一特征数据和第二特征数据作为商户对应的风险特征数据，或者，也可以按照预设计分策略计算第一特征数据对应的风险值以及第二特征数据对应的特征值，然后将第一特征数据对应的风险值以及第二特征数据对应的特征值作为商户对应的风险特征数据。

步骤S202，基于所述风险特征数据以及预先训练好的机器学习模型，得到所述商户的商户准入分数，以根据所述商户准入分数确定是否允许所述商户的准入。

对于商户准入场景来说，事中定性的风险商户和非风险商户数量比例悬殊，非风险商户的数量远远大于风险商户的数量。因此，为了缓解数据样本分布不均衡所引起的分类偏差，提高模型预测分数的准确性，在本实施例的一种实施方式中，机器学习模型可以采用不均衡学习的欠抽样算法。例如，可以采用EasyEnsemble算法。EasyEnsemble是基于bagging的欠抽样算法，用于解决分类问题中的样本不均衡问题，bagging(bootstrapaggregating)是子模型(弱学习器)相互独立，并行存在的集成算法。当然，在本说明书其他实施例中，也可以采用其他机器学习算法，如神经网络学习算法等。

将风险特征数据输入训练好的机器学习模型，机器学习模块即输出相应商户的商户准入分数，以便于根据商户准入分数来确定是否允许商户的准入。本实施例中，商户准入分数即为商户准入时刻的风险评估分数，可以直观地用于评估商户的准入风险，需要说明的是，商户准入分数越高，商户的准入风险也就越大。例如，可以预先设置一分数阈值，当得到的商户准入分数超过该分数阈值时，则表示该商户的风险较高，不允许准入，当得到的商户准入分数不超过该分数阈值时，则表示该商户的风险较低，此时可以允许准入。本实施例中，商户准入分数可以以概率的形式呈现，100％为高风险商户，0％为低风险商户。当然，在其他实施例中，商户准入分数也可以以百分制分数的形式呈现，100分为高风险商户，0分低风险商户。

在本说明书一实施例中，在得到商户准入分数之后，本商户评估方法还可以包括准入评估步骤。所述准入评估步骤用于得到商户的准入评估结果，具体包括：基于所述商户准入分数，得到所述商户的准入评估结果。具体来讲，商户的准入评估结果种类可以根据实际业务需求设置，例如，可以包括允许准入和不允许准入。

在一种实施方式中，商户的准入评估结果种类可以包括一级不允许准入、二级不允许准入、一级允许准入和二级允许准入。其中，一级不允许准入表示该商户的风险等级过高，不允许准入；二级不允许准入表示该商户的风险等级较高，需要进一步对商户的其他凭证素材如营业执照、银行流水证明等进行审核，若审核通过则允许准入，若审核不通过则不允许准入；一级允许准入表示该商户的风险等级达到安全标准，允许准入；二级允许准入表示该商户的风险等级较低但还未达到安全标准，允许准入后需要设置观察时间段，对该商户的行为进行观察，以进一步确定其是否存在风险。

此时，基于所述商户准入分数，得到所述商户的准入评估结果具体可以包括：将所述商户准入分数与预先设置的多个分数段进行匹配，确定所述商户准入分数所在的目标分数段，其中，每个分数段对应一个评估结果；将所述目标分数段对应的评估结果作为所述商户的准入评估结果。其中，分数段的数量与准入评估结果的种类一致，例如，有四种准入评估结果，则相应设置四个分数段。分数段的具体划分可以根据实际商户准入分数的呈现形式以及业务需求设置。

例如，在上述示例中，若商户准入分数采用百分制，作为一种示例，可以将90分以上设置为一个分数段，对应的评估结果为一级不允许准入，将70-90分设置为一个分数段，对应的评估结果为二级不允许准入，将40-70分设置为一个分数段，对应的评估结果为二级允许准入，将40分以下设置为一个分数段，对应的评估结果为一级允许准入。

另外，可以理解的是，在执行上述步骤S202之前，需要先训练机器学习模型。在本实施例的一种实施方式中，机器学习模型可以采用不均衡学习的欠抽样算法框架得到。具体来讲，如图3所示，机器学习模型的训练过程可以包括以下步骤S300至步骤S302。

步骤S300，获取目标样本集，其中，所述目标样本集包括正样本集和负样本集，所述正样本集包括多个风险商户，所述负样本集包括多个非风险商户；

需要说明的是，获取的目标样本集中的样本是在商户准入场景下抓取的商户，可以通过事中这些样本商户反馈的交易数据等确定这些样本商户的好坏，即确定这些样本商户是风险商户还是非风险商户，将风险商户作为正样本，非风险商户作为负样本。由于非风险商户的数量会远远大于风险商户的数量，因此，上述负样本集中的负样本数量远远大于正样本集中的正样本数量。

步骤S302，基于所述目标样本集以及预先配置的底层模型，分别执行N轮子模型训练步骤，得到N个目标子模型，并将所述N个目标子模型集成为所述机器学习模型。

其中，N为大于或等于2的整数，N的具体取值可以根据实际场景需要预先配置，例如，可以取10、20或50等。

本实施例中，底层模型可以采用机器学习算法。作为一种实施方式，上述底层模型可以采用boosting集成算法，例如，GBDT(Gradient Boosting Decision Tree)，XGBoost，LightGBM等集成算法。这样，每个目标子模型的训练均采用了boosting串行的集成模式，有利于降低预测偏差(Bias)，使得训练得到的目标子模型对于当前数据集拟合程度高，且可以防止欠拟合。

当然，在本说明书其他实施例中，底层模型也可以采用其他的机器学习算法，如深度神经网络学习算法等。

具体来讲，如图4所示，上述子模型训练步骤可以包括步骤S400至步骤S402。

步骤S400，根据预设的抽样比例以及所述正样本集中的正样本数量，从所述负样本集中随机抽取相应数量的负样本。

其中，抽样比例为正样本数量与负样本数量的比例，可以根据实际需要预先配置，例如，可以设置为1：1、1：2或1：3等，这样就可以根据需要灵活设置训练样本集中的样本比例。假设抽样比例为1：R，正样本集中的正样本数量为a个，则表示每轮训练过程中，从负样本集中随机抽取的负样本数量为正样本集中正样本数量的R倍，即为R*a个。

需要说明的是，本实施例中，负样本抽取方式采样的是bootstrap抽取方式，即有放回地抽取，执行每轮子模型训练过程时均从原始的全量负样本集中抽取相应数量的负样本，这样在得到的训练样本集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中。

步骤S402，基于所抽取的负样本以及所述正样本集，构建训练样本集，并基于所述训练样本集中每个样本的风险特征数据，对所述底层模型进行训练，得到一目标子模型。

需要说明的是，上述步骤S302中所述N轮子模型训练步骤中的每一轮子模型训练步骤都是单独执行的即所训练得到的N个目标子模型是相互独立的。每一轮执行上述子模型训练步骤即会单独从原始负样本集中抽取相应数量的负样本，与复用来的全量正样本集构成新的训练样本集。进行了N轮子模型训练，则进行了N次抽取，得到N个训练样本集。基于每个训练样本集中样本的风险特征数据，对上述底层模型进行训练，即可得到一个目标子模型，这样完成N轮子模型训练步骤即可得到N个目标子模型。

对于每个目标子模型，输入均为待评估商户的风险特征数据，输出均为待评估商户的风险分数。上述机器学习模型的输出结果即为N个目标子模型的输出结果的平均值。相应地，上述基于所述风险特征数据以及预先训练好的机器学习模型，得到所述商户的商户准入分数具体可以包括：将所述风险特征数据分别输入每个目标子模型，得到N个风险分数；将所述N个风险分数的平均值作为所述商户的商户准入分数。

例如，在一种具体应用场景中，采用了EasyEnsemble算法框架训练机器学习模型。图5示出了EasyEnsemble算法的理论框架示意图。图5中，空白矩形框表示负样本，具有斜线填充的矩形框表示正样本，带箭头的实线表示bootstrap过程，带箭头的虚线表示样本复用过程也就是样本复制过程。NARS_i表示目标子模型i预测的风险分数，i依次取1至N的整数，NARS表示商户准入分数。下面对具体的算法过程进行说明：

首先，对于模型的输入层，模型的输入特征为在目标样本中的每个样本商户在准入场景下对应的风险特征数据。当然，除了需要输入样本的风险特征数据以外，还可以输入目标训练参数，用于配置训练过程所需的参数。本实施例中，目标训练参数可以包括抽样比例1：R以及bagging过程的自定义子模型个数N。

然后，开始进行第i轮子模型训练过程，先在全量负样本中进行bootstrap，抽取相应数量的负样本，使得正负样本比例为1：R。将抽取的负样本与全量正样本即正样本集中的所有正样本进行组合，构建训练样本集i。全量正样本可以尽可能地覆盖事中定性的风险类型，从而增加输出结果的综合性和鲁棒性。通过所构建的训练样本集i对预先设置的底层模型进行训练以及测试，得到目标子模型i，完成第i轮子模型训练过程。接着，再进行第i+1轮子模型训练过程，得到目标子模型i+1，直至完成N轮子模型训练过程，得到N个目标子模型。当然，在本说明的其他实施例中，也可以并行执行N个子模型训练任务，得到N个目标子模型。

最后，机器学习模型的输出层可以将各个目标子模型的输出结果取平均值作为整个机器学习模型的输出。假设目标子模型1的输出结果即商户的风险分数为NARS₁，目标子模型2的输出结果为NARS₂，以此类推，目标子模型N的输出结果为NARS_N，则机器学习模型输出结果为：其中，NARS_i表示目标子模型i输出的风险分数。

需要说明的是，EasyEnsemble本身是一种基于bagging的集成算法，通过EasyEnsemble算法得到的各个目标子模型之间并行的集成模式可以降低预测方差(Variance)，泛化能力强，防止过拟合。因此，采用EasyEnsemble算法框架，通过bagging的方式欠采样能够有效地解决训练样本不平衡和过拟合的问题。另外，结合boosting的集成算法作为EasyEnsemble框架的底层算法能够有效地反映特征与样本之间的可能存在的非线性关系，同时也能够结合两种集成算法的优点，平衡各自的缺点，从而最大程度上映射数据信息，客观综合地体现商户准入风险。

本说明书实施例提供的商户评估方法，通过在商户准入场景下获取相应的风险特征数据，并通过预设的机器学习模型来学习这些风险特征数据得到商户的商户准入分值，以根据商户准入分值的确定是否允许该商户的准入。这样在商户准入环节就能对商户的风险有一个把控，有利于及时对商户风险进行防控。进一步，机器学习模型采用EasyEnsemble算法，并结合boosting的集成算法作为EasyEnsemble算法中各目标子模型对应的底层模型，不仅能够缓解训练样本不平衡和过拟合的问题，还能够有效地反映特征与样本之间的可能存在的非线性关系，降低预测偏差，防止欠拟合。

第二方面，基于同一发明构思，本说明书实施例还提供了一种商户评估装置。请参见图6，该商户评估装置60包括：

获取模块600，用于在商户准入场景下，获取商户对应的风险特征数据；

分数确定模块620，用于基于所述风险特征数据以及预先训练好的机器学习模型，得到所述商户的商户准入分数，以根据所述商户准入分数确定是否允许所述商户的准入。

在本说明书一实施例中，所述获取模块600包括：

数据获取子模块601，用于获取商户对应的第一特征数据，所述第一特征数据包括两个以上特征类的数据，每个特征类对应于一种风险类型；

风险值确定子模块602，用于分别将所述第一特征数据中每种特征类的数据输入与该特征类对应的预设风险模型，得到相应风险类型的风险值；

特征确定子模块603，用于基于每种风险类型的风险值，得到所述风险特征数据。

作为一种可选地实施方式，所述特征确定子模块603用于：获取商户对应的第二特征数据；基于所述风险值的范围以及预设规则，对所述第二特征数据进行归一化处理，得到所述第二特征数据对应的特征值；将所述每种风险类型的风险值以及所述特征值作为所述风险特征数据。

在本说明书一实施例中，上述商户评估装置60还可以包括模型训练模块。

所述模型训练模块包括：

样本获取子模块，用于获取目标样本集，其中，所述目标样本集包括正样本集和负样本集，所述正样本集包括多个风险商户，所述负样本集包括多个非风险商户；

训练子模块，用于基于所述目标样本集以及预先配置的底层模型，分别执行N轮子模型训练步骤，得到N个目标子模型，并将所述N个目标子模型集成为所述机器学习模型。其中，N为大于或等于2的整数。

所述子模型训练步骤包括：根据预设的抽样比例以及所述正样本集中的正样本数量，从所述负样本集中随机抽取相应数量的负样本，其中，所述抽样比例为正样本数量与负样本数量的比例；基于所抽取的负样本以及所述正样本集，构建训练样本集，并基于所述训练样本集中每个样本的风险特征数据，对所述底层模型进行训练，得到一目标子模型。

作为一种可选地实施方式，所述底层模型采用boosting集成算法。

作为一种可选地实施方式，所述分数确定模块620包括：第一分数确定子模块621，用于将所述风险特征数据分别输入每个目标子模型，得到N个风险分数；第二分数确定子模块622，用于将所述N个风险分数的平均值作为所述商户的商户准入分数。

作为一种可选地实施方式，上述商户评估装置60还可以包括：评估模块，用于基于所述商户准入分数，得到所述商户的准入评估结果。

在本说明书一实施例中，上述机器学习模型采用不均衡学习的欠抽样算法。

需要说明的是，本说明书实施例所提供的商户评估装置60，其中各个模块执行操作的具体方式已经在上述方法实施例中进行了详细描述，此处将不做详细阐述说明。

第三方面，基于与前述实施例提供的商户评估方法同样的发明构思，本说明书实施例还提供一种电子设备，如图7所示，包括存储器704、一个或多个处理器702及存储在存储器704上并可在处理器702上运行的计算机程序，所述处理器702执行所述程序时实现前文所述商户评估方法的步骤。

其中，在图7中，总线架构(用总线700来代表)，总线700可以包括任意数量的互联的总线和桥，总线700将包括由处理器702代表的一个或多个处理器和存储器704代表的存储器的各种电路链接在一起。总线700还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口705在总线700和接收器701和发送器703之间提供接口。接收器701和发送器703可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器702负责管理总线700和通常的处理，而存储器704可以被用于存储处理器702在执行操作时所使用的数据。

可以理解的是，图7所示的结构仅为示意，本说明书实施例提供的电子设备还可包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。

第四方面，基于与前述实施例中提供的商户评估方法同样的发明构思，本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文所述商户评估方法的步骤。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本说明书的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。

显然，本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样，倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内，则本说明书也意图包含这些改动和变型在内。

Claims

1.一种商户评估方法，包括：

在商户准入场景下，获取商户对应的风险特征数据；

基于所述风险特征数据以及预先训练好的机器学习模型，得到所述商户的商户准入分数，以根据所述商户准入分数确定是否允许所述商户的准入。

2.根据权利要求1所述的方法，所述获取商户对应的风险特征数据，包括：

获取商户对应的第一特征数据，所述第一特征数据包括两个以上特征类的数据，每个特征类对应于一种风险类型；

分别将所述第一特征数据中每种特征类的数据输入与该特征类对应的预设风险模型，得到相应风险类型的风险值；

基于每种风险类型的风险值，得到所述风险特征数据。

3.根据权利要求2所述的方法，所述基于每种风险类型的风险值，得到所述风险特征数据，包括：

获取商户对应的第二特征数据；

基于所述风险值的范围以及预设规则，对所述第二特征数据进行归一化处理，得到所述第二特征数据对应的特征值；

将所述每种风险类型的风险值以及所述特征值作为所述风险特征数据。

4.根据权利要求1所述的方法，所述机器学习模型通过以下步骤训练得到：

获取目标样本集，其中，所述目标样本集包括正样本集和负样本集，所述正样本集包括多个风险商户，所述负样本集包括多个非风险商户；

基于所述目标样本集以及预先配置的底层模型，分别执行N轮子模型训练步骤，得到N个目标子模型，并将所述N个目标子模型集成为所述机器学习模型，其中，N为大于或等于2的整数，所述子模型训练步骤包括：

根据预设的抽样比例以及所述正样本集中的正样本数量，从所述负样本集中随机抽取相应数量的负样本，其中，所述抽样比例为正样本数量与负样本数量的比例；

基于所抽取的负样本以及所述正样本集，构建训练样本集，并基于所述训练样本集中每个样本的风险特征数据，对所述底层模型进行训练，得到一目标子模型。

5.根据权利要求4所述的方法，所述底层模型采用boosting集成算法。

6.根据权利要求4所述的方法，所述基于所述风险特征数据以及预先训练好的机器学习模型，得到所述商户的商户准入分数，包括：

将所述风险特征数据分别输入每个目标子模型，得到N个风险分数；

将所述N个风险分数的平均值作为所述商户的商户准入分数。

7.根据权利要求1所述的方法，所述基于所述风险特征数据以及预先训练好的机器学习模型，得到所述商户的商户准入分数之后，还包括：

基于所述商户准入分数，得到所述商户的准入评估结果。

8.根据权利要求1所述的方法，所述机器学习模型采用不均衡学习的欠抽样算法。

9.一种商户评估装置，包括：

获取模块，用于在商户准入场景下，获取商户对应的风险特征数据；

分数确定模块，用于基于所述风险特征数据以及预先训练好的机器学习模型，得到所述商户的商户准入分数，以根据所述商户准入分数确定是否允许所述商户的准入。

10.根据权利要求9所述的装置，所述获取模块包括：

数据获取子模块，用于获取商户对应的第一特征数据，所述第一特征数据包括两个以上特征类的数据，每个特征类对应于一种风险类型；

风险值确定子模块，用于分别将所述第一特征数据中每种特征类的数据输入与该特征类对应的预设风险模型，得到相应风险类型的风险值；

特征确定子模块，用于基于每种风险类型的风险值，得到所述风险特征数据。

11.根据权利要求10所述的装置，所述特征确定子模块用于：

获取商户对应的第二特征数据；

12.根据权利要求9所述的装置，还包括模型训练模块，所述模型训练模块包括：

训练子模块，用于基于所述目标样本集以及预先配置的底层模型，分别执行N轮子模型训练步骤，得到N个目标子模型，并将所述N个目标子模型集成为所述机器学习模型，其中，N为大于或等于2的整数，所述子模型训练步骤包括：

13.根据权利要求12所述的装置，所述底层模型采用boosting集成算法。

14.根据权利要求12所述的装置，所述分数确定模块包括：

第一分数确定子模块，用于将所述风险特征数据分别输入每个目标子模型，得到N个风险分数；

第二分数确定子模块，用于将所述N个风险分数的平均值作为所述商户的商户准入分数。

15.根据权利要求9所述的装置，所述装置还包括：

评估模块，用于基于所述商户准入分数，得到所述商户的准入评估结果。

16.根据权利要求9所述的装置，所述机器学习模型采用不均衡学习的欠抽样算法。

17.一种电子设备，包括：

存储器；

一个或多个处理器；及

权利要求9-16中任一项所述的商户评估装置，存储于所述存储器中并被配置成由一个或多个处理器执行。

18.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。