CN113112323B

CN113112323B - 基于数据分析的异常订单识别方法、装置、设备及介质

Info

Publication number: CN113112323B
Application number: CN202110281069.6A
Authority: CN
Inventors: 袁志超; 唐炳武
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2023-06-27
Anticipated expiration: 2041-03-16
Also published as: CN113112323A

Abstract

本发明公开了一种基于数据分析的异常订单识别方法，包括：提取收件信息中的收货地址，对收货地址进行地址聚类，得到若干个地址分组；通过各地址分组中收货地址的群聚特性进行第一层识别；在第一层别的基础上提取收货地址的地址信息元素，根据地址信息元素对收货地址进行第二层识别；在第二层识别的基础上，对收件信息中的收货人联系方式是否和收货地址匹配进行第三层识别；在第三层识别的基础上，对收件信息中的收货人信息的风险特性进行第四层识别；最终根据四层识别的结果来判断订单是否为异常订单。本发明解决了现有技术在对异常订单识别时准确率低，误判率高的问题。

Description

基于数据分析的异常订单识别方法、装置、设备及介质

技术领域

本发明属于信息技术领域，特别涉及基于数据分析的异常订单识别方法、装置、设备及介质。

背景技术

随着电子商务技术的快速发展，营销手段越来越丰富，例如，抢购、大规模促销等，这类营销活动的主要特点为：将商品设定为较低的价格，并在一个指定的时间点开放购买。在这类营销活动中，可能会出现一些异常订单，采用违背活动规则的方式，大批量抢占资源，再以高价卖出。这些异常订单的行为会给营销企业造成严重的经济损失，同时也影响其他具有真实购买意图的用户的利益，因此，需要对这异常订单进行识别。

黑产团伙在购物平台上进行大批量的购买行为时，其订单中往往会存在大量的重复信息，该重复信息可能为收货地址、联系电话、收货人姓名等。相关技术中，主要是通过订单包括的收货地址之间的相似度来对恶意订单进行识别，例如，确定多个订单中每两个订单包括的收货地址之间的相似度，如果某两个订单包括的收货地址之间的相似度大于指定相似度，则将这两个订单包括的收货地址均确定为目标收货地址，对于某个目标收货地址，如果该多个订单中该目标收货地址的数量大于指定数量，则将该目标收货地址对应的订单确定为恶意订单。但是这种通过收货地址比对来确定异常订单的方法容易出现误判的情况，在规避了被黑产“薅羊毛”的同时也影响了一部分正常用户的体验，反而会带来一些负面的营销效果，因此，如何充分利用用户订单中的收件信息来准确识别出异常订单成为了一个难题。

发明内容

本发明实施例提供了基于数据分析的异常订单识别方法、装置、设备及介质，以解决现有技术在对异常订单识别时准确率低，误判率高的问题。

一种基于数据分析的异常订单识别方法，包括：

提取收件信息中的收货地址，对收货地址进行地址聚类，得到若干个地址分组；

为各地址分组匹配各地址分组对应的第一阈值，判断各所述地址分组中是否存在地址个数大于第一阈值的目标地址分组，并为所述目标地址分组中的收货地址及其对应的收件信息打上第一层可疑标签；

提取打有第一层可疑标签的收货地址的地址信息元素，根据所述地址信息元素计算所述打有第一层可疑标签的收货地址的可疑度评分，根据所述可疑度评分判断是否对相应的收货地址及收件信息打上第二层可疑标签；

提取打有第二层可疑标签的收件信息中的收货人联系方式，判断所述收货人联系方式的归属地与收件信息中的收货地址是否匹配，对所述收货人联系方式的归属地与收件信息中的收货地址不匹配的收货地址及其对应的收件信息打上第三层可疑标签；

提取打有第三层可疑标签的收件信息中的收货人信息，分析所述收货人信息的风险特性，对风险特性进行统计得到各风险特性对应的风险特性占比，根据所述风险特性占比计算所述收货人信息的风险值，根据所述收货人信息的风险值判断是否对相应的收件信息打上第四层可疑标签；

将同时打有第一层可疑标签、第二层可疑标签、第三层可疑标签和第四层可疑标签的收件信息对应的订单确定为异常订单，停止对所述异常订单的权益发放。

可选地，所述提取收件信息中的收货地址，对收货地址进行地址聚类，得到若干个地址分组包括：

提取收件信息中的收货地址，对收货地址进行拆分，得到收货地址的行政地址；

将得到的所述收货地址的行政地址和国家行政区域地址库中的标准地址进行比较，按照比较一致的行政地址对所述收货地址进行分组。

可选地，所述地址信息元素包括：特殊字符，地名，编号，字母和通讯号码；所述提取打有第一层可疑标签的收货地址的地址信息元素，根据所述地址信息元素计算所述打有第一层可疑标签的收货地址的可疑度评分包括：

识别打有第一层可疑标签的收货地址中的特殊字符，计算所述特殊字符之间的相似性，计算包含特殊字符的收货地址在其所在的地址分组中的占比；

剔除打有第一层可疑标签的收货地址中的特殊字符，得到处理后的收货地址，分离出所述处理后的收货地址中的地名、编号和字母，判断所述地名、编号和字母的真实性；

根据所述特殊字符之间的相似性、包含特殊字符的收货地址在其所在的地址分组中的占比和所述地名、编号和字母的真实性，计算第一可疑度评分；

提取打有第一层可疑标签的收货地址中的通讯号码，提取打有第一层可疑标签的收件信息中的收货人联系方式；

判断所述打有第一层可疑标签的收货地址中的通讯号码和打有第一层可疑标签的收件信息中的收货人联系方式是否一致，得到第二可疑度评分；

根据所述第一可疑度评分和第二可疑度评分计算所述收货地址的可疑度评分。

可选地，所述根据所述可疑度评分判断是否对相应的收货地址及其对应的收件信息打上第二层可疑标签包括：

判断所述可疑度评分是否超过第二阈值，对所述可疑度评分超过第二阈值的收货地址及其对应的收件信息打上第二层可疑标签。

可选地，所述提取打有第二层可疑标签的收件信息中的收货人联系方式，判断所述收货人联系方式的归属地与收件信息中的收货地址是否匹配包括：

通过国家手机号区域划分资料库，查询所述打有第二层可疑标签的收件信息中的收货人联系方式的归属地信息，判断所述打有第二层可疑标签的收件信息中的收货人联系方式的归属地信息与收件信息中的收货地址是否匹配。

可选地，所述风险特性包括：使用化名、随机生成名字、名字加后缀和重复使用同一名字的特性，可以通过预定规则识别所述收货人信息的风险特性。

可选地，所述根据所述收货人信息的风险值判断是否对相应的收件信息打上第四层可疑标签包括：

判断所述风险值是否超过第三阈值，对所述风险值超过第三阈值的收货人信息对应的收件信息打上第四层可疑标签。

一种基于数据分析的异常订单识别装置，包括：

地址分组模块，用于提取收件信息中的收货地址，对收货地址进行地址聚类，得到若干个地址分组；

第一层识别模块，用于为各地址分组匹配各地址分组对应的第一阈值，判断各所述地址分组中是否存在地址个数大于第一阈值的目标地址分组，并为所述目标地址分组中的收货地址及其对应的收件信息打上第一层可疑标签；

第二层识别模块，用于提取打有第一层可疑标签的收货地址的地址信息元素，根据所述地址信息元素计算所述打有第一层可疑标签的收货地址的可疑度评分，根据所述可疑度评分判断是否对相应的收货地址及其对应的收件信息打上第二层可疑标签；

第三层识别模块，用于提取打有第二层可疑标签的收件信息中的收货人联系方式，判断所述收货人联系方式的归属地与收件信息中的收货地址是否匹配，对所述收货人联系方式的归属地与收件信息中的收货地址不匹配的收货地址及其对应的收件信息打上第三层可疑标签；

第四层识别模块，用于提取打有第三层可疑标签的收件信息中的收货人信息，分析所述收货人信息的风险特性，对风险特性进行统计得到各风险特性对应的风险特性占比，根据所述风险特性占比计算所述收货人信息的风险值，根据所述收货人信息的风险值判断是否对相应的收件信息打上第四层可疑标签；

异常订单识别模块，用于将同时打有第一层可疑标签、第二层可疑标签、第三层可疑标签和第四层可疑标签的收件信息对应的订单确定为异常订单，停止对所述异常订单的权益发放。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于数据分析的异常订单识别方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于数据分析的异常订单识别方法。

本发明实施例通过对权益订单中的收件信息进行批量识别，通过多个维度对权益订单中的可疑订单进行逐层识别，经过四层识别后确认出异常订单并停止相应订单的权益的发放，从而提高了对异常订单的识别效率，也大大增加了对异常订单识别的准确率，降低了错判率，在达到了营销效果的同时极大限度的防止黑产“薅羊毛”，进而减少损失。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1本发明一实施例中基于数据分析的异常订单识别方法的应用环境示意图；

图2本发明一实施例中基于数据分析的异常订单识别方法的流程图；

图3本发明一实施例中基于数据分析的异常订单识别方法中步骤S1的流程图；

图4本发明一实施例中基于数据分析的异常订单识别方法中步骤S3的流程图；

图5本发明一实施例中基于数据分析的异常订单识别装置的一原理框图；

图6本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的基于数据分析的异常订单识别方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于数据分析的异常订单识别方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

在步骤S1中，提取收件信息中的收货地址，对收货地址进行地址聚类，得到若干个地址分组。

在这里，收件信息是指参加商家权益活动的用户为了获得商家发放的权益而填写的具体的收件信息，所述收件信息包括收货地址，收货人信息，收货人联系方式等。因为黑产团伙在骗取实物权益时，表现出来的最大的特点就是在某一收货区域大批量集中收取权益，而这一特点最直接的体现在了收货地址的集中程度上面，因此本发明实施例首先对收件信息中的收货地址进行分析。

可选地，作为本发明的一个优选示例，如图3所示，步骤S1提取收件信息中的收货地址，对收货地址进行地址聚类，得到若干个地址分组包括：

S11提取收件信息中的收货地址，对收货地址进行拆分，得到收货地址的行政地址。

在本实施例中，从批量的收件信息中提取收货地址信息，然后对收货地址信息进行拆分，将收货地址中的行政地址进行拆分，比如将收货地址为“xx省xx市xx县xx乡xx村”拆分成“xx省、xx市、xx县、xx乡、xx村”，具体对地址进行拆分时可以使用基于词典分词算法或者基于统计的机器学习算法来对地址中的行政地址进行拆分，也可以使用专门的分词器，这里不做具体限定。

S12将得到的所述收货地址的行政地址和国家行政区域地址库中的标准地址进行比较，按照比较一致的行政地址对所述收货地址进行分组。

在本实施例中，通过国家行政区域地址库中的接口可以查询到全国各地的标准地址，将上一步骤中拆分的收货地址中的地址按照级别逐级和国家行政区域地址库中的标准地址进行相似度比对，为了提高效率和地址分组的准确性，在对比过程中可以采用从高行政级别到低行政级别的方式来进行比对，根据最终的对比结果，将每一个收货地址分到和其相似度最高的国家标准地址所对应的地址分组中。比如：最终的地址分组结果为标准地址为“a省a市a县a乡a村”的分组中共有98个订单，标准地址为“b省b市b区b路(街)b小区”的分组中共有120个订单。具体在进行行政地址相似度比对时可以采用字符串编辑距离、词向量相似度、TF-IDF或者Simhash等算法，这里不做具体限定。

在步骤S2中，为各地址分组匹配各地址分组对应的第一阈值，判断各所述地址分组中是否存在地址个数大于第一阈值的目标地址分组，并为所述目标地址分组中的收货地址及其对应的收件信息打上第一层可疑标签。

在本实施例中，首先通过地址的群聚特性来对异常订单进行第一层的识别。在前述步骤中已经对收件信息中的收货地址进行了地址的分组，如果某一个地址分组中的订单数量越多，说明该地址分组中的订单的群聚特性越突出，则该地址分组中的订单是异常订单的概率就越大。我们可以通过设置第一阈值来作为判断某一地址分组是否为可疑的异常订单的标准，对于某一地址分组中的地址个数大于第一阈值时，为该地址分组中的收货地址及其对应的收件信息打上第一层可疑标签。

但是在实际的判别过程中，对于不同的地址分组，群聚特性的判断标准却又大不相同，因此我们不能对所有的分组设置同样的第一阈值，在本实施例中，我们进一步的又为不同类型的地址分组分配了不同的第一阈值，在进行第一层识别时，首先为不同的地址分组匹配与其对应的阈值，然后根据和其相匹配的第一阈值来进行第一层的识别。比如，如果该地址分组对应的是某一高校或者某一工厂，其特点是人口高度密集且用户行为统一性比较高，则我们可以为这一类地址分组设定一个较高的第一阈值；如果该地址分组对应的是某一小区或者某一写字楼，其特点是人口较为密集且用户行为统一性较高，则我们可以为这一类地址分组设定一个适中的第一阈值；而如果该地址分组对应的是某一街道或者村庄，其特点是用户比较分散且用户行为统一性较低，则我们可以为这一类地址分组设定一个较低的第一阈值。

在步骤S3中，提取打有第一层可疑标签的收货地址的地址信息元素，根据所述地址信息元素计算所述打有第一层可疑标签的收货地址的可疑度评分，根据所述可疑度评分判断是否对相应的收货地址及其对应的收件信息打上第二层可疑标签。

在本实施例中，由于第一层识别只是通过收货地址群聚特性的粗略识别，其中仍会存在很多的误判。另外，现在的异常订单经常会通过收货地址造假的方式来躲避审查，比如使用虚假的门牌号的组合，使用真实的地址与特殊字符的组合，使用真实地址和收件人手机号的组合，使用虚假地址与门牌号的组合，使用虚假地址与特殊字符的组合，使用虚假地址和收件人手机号的组合等，因此为了降低对异常订单识别的误判率，我们需要在第一层识别的基础上，根据收货地址信息中的地址信息元素对异常订单的地址造假行为做进一步的识别。

其中所述地址信息元素包括：特殊字符，地名，编号，字母和通讯号码。

可选地，作为本发明的一个优选示例，如图4所示，步骤S3提取打有第一层可疑标签的收货地址的地址信息元素，根据所述地址信息元素计算所述打有第一层可疑标签的收货地址的可疑度评分包括：

S31识别打有第一层可疑标签的收货地址中的特殊字符，计算所述特殊字符之间的相似性，计算包含特殊字符的收货地址在其所在的地址分组中的占比。

异常订单在填写收货地址的过程中，为了保证收货地址之间相互不完全相同，会在收货地址中掺杂一些特殊的随机字符串，用于规避规则检测。例如：地址“深圳市南山区白石洲街道东二坊1栋208号@#*/”，“深圳市&南山区白石洲！街道东二％坊1栋208号*”和“深圳市南山区％白石洲街道@东二坊1栋208号#￥”，其实是指向同一个收货地址，但是传统的检测手段无法对其进行识别。

本步骤通过计算占比和相似性是为了对异常订单对地址进行干扰设置的行为进行识别，给后续步骤中对黑产地址进行综合判断提供依据。

S32剔除打有第一层可疑标签的收货地址中的特殊字符，得到处理后的收货地址，分离出所述处理后的收货地址中的地名、编号和字母，判断所述地名、编号和字母的真实性。

在本实施例中，异常订单为了使收货地址不完全一致，还会有意的对真实的收货地址进行伪装，比如：将街道之后的地址随机挑选一些其他地区的地址拼接上去，以此来做出一批相互之间不完全一样的地址，或者对于某一个小区的收货地址，为了避免地址完全一致，有意将不同的订单中的楼栋号和楼层号进行随机组合等，而对于上述伪装后的地址是不会影响发货的。

在本步骤中，首先将打有第一层可疑标签的收货地址中的特殊字符剔除掉，得到的处理后收货地址为有效的收货地址，然后再分离出所述处理后的收货地址中的地名、编号和字母，判断所述地名、编号和字母的真实性。其中所述地名的真实性是指，通过地图接口查询其所归属的省市县区街道，判断分离出的地名和通过地图接口查询的地址是否一致。所述编号和字母的真实性是指数字和字母的连续性、合理性和随机性。所谓数字和字母的连续性是指从收货地址中分离出来的数字或者字母表现出明显的连续性，比如：102/103/104/105…，aaa/bbb/ccc/ddd…等。所谓合理性是指数值本身是否合乎真实情况，比如：一个收货地址中的楼层数为52，而真实的楼房高度一般在40层以下。所谓随机性是指同一组收货地址中的数值具有一定的随机特性，比如：一个地址分组中的楼栋号大幅度跳跃：8栋、90栋、108栋…等。具体的真实性判断方法可以采用正则加硬编码的方法来判断。

S33根据所述特殊字符之间的相似性、包含特殊字符的收货地址在其所在的地址分组中的占比和所述地名、编号和字母的真实性，计算第一可疑度评分。

在本实施例中，根据上一步骤的判断结果，分别计算出本组收货地址中符合数字或者字母连续性的占比、本组收货地址中数字不符合合理性的占比和本组收货地址中数字符合随机性的占比，然后根据以下方法来计算第一可疑度评分：

i.如果包含特殊字符的地址在本组地址中的占比大于70％且特殊字符之间的相似性大于80％，则继续判断地名的真实性，如果地名判断为不真实，则继续判断本组收货地址中符合数字或者字母连续性的占比R1、本组收货地址中数字不符合合理性的占比R2和本组收货地址中数字符合随机性的占比R3是否大于80％，如果R1、R2和R3中有任意一项大于80％，则相应的收货地址及其对应的收件信息的第一可疑度评分K₁为100分。否则该地址分组的第一可疑度评分K₁为80分。

ii.如果包含特殊字符的地址在本组地址中的占比大于70％且特殊字符之间的相似性大于80％，则继续判断地名的真实性，如果地名判断为真实，则继续判断本组收货地址中符合数字或者字母连续性的占比R1、本组收货地址中数字不符合合理性的占比R2和本组收货地址中数字符合随机性的占比R3是否大于80％，如果R1、R2和R3中有任意一项大于80％，则相应的收货地址及其对应的收件信息的第一可疑度评分K1为100分，如果R1、R2和R3中有任意一项大于60％小于80％，则该地址分组的第一可疑度评分K1为80分，如果R1、R2和R3中有任意一项大于40％小于60％，则该地址分组的第一可疑度评分K1为60分，如果R1、R2和R3均小于40％，则该地址分组的第一可疑度评分K1为0分。

S34提取打有第一层可疑标签的收货地址中的通讯号码，提取打有第一层可疑标签的收件信息中的收货人联系方式。

在本实施例中，有些黑产团伙可能会将真实的通讯号码放入收货地址中，而在收货人联系方式里边却填写不同的虚构的号码，这种方式也可以避开传统的相似性筛查，而这一做法却对快递人员的送货造成不了太大的影响，因为快递人员能够看出地址中的联系方式，进而能够联系到黑产团伙。

S35判断所述打有第一层可疑标签的收货地址中的通讯号码和打有第一层可疑标签的收件信息中的收货人联系方式是否一致，得到第二可疑度评分。

在本实施例中，判断出打有第一层可疑标签的收货地址中的通讯号码和打有第一层可疑标签的收件信息中的收货人联系方式是否一致，然后统计出收货地址中的通讯号码和收件信息中的收货人联系方式不一致的收件地址在本组地址中的占比R4，如果R4大于80％那么这一部分收货地址的第二可疑度评分K2为100分，如果R4大于60％小于80％那么这一部分收货地址的第二可疑度评分K2为80分，如果R4大于40％小于60％那么这一部分收货地址的第二可疑度评分K2为60分，如果R4小于于40％那么这一部分收货地址的第二可疑度评分K2为50分。

S36根据所述第一可疑度评分和第二可疑度评分计算所述收货地址的可疑度评分。

在本实施例中，可以采用加权求和的方式来计算最终的可疑度评分K，即K＝w1K1+w2K2，其中，K表示最终的可疑度评分，K1表示第一可疑度评分，K2表示第二可疑度评分，w1和w2分别为第一可疑度评分和第二可疑度评分的权重。技术人员可以根据具体需要对w1和w2进行设定，比如：对于某一地址分组中判断出地址伪装行为比较严重且将联系方式隐藏在收货地址中的占比比较小的，可以增加w1降低w2，对于某一地址分组中判断出地址伪装行为和将联系方式隐藏在收货地址中的情形都比较严重或者都比较轻的，可以选择一组相对比较均衡的w1和w2。在本实施例中，由上述步骤计算出来的可疑度评分越高，则表示该收货地址及其对应的收件信息的可疑度越大。

在本实施例中，所述根据所述可疑度评分判断是否对相应的收货地址及其对应的收件信息打上第二层可疑标签包括：

在本实施例中，所述第二阈值也是可以根据具体情况进行设定的。

在步骤S4中，提取打有第二层可疑标签的收件信息中的收货人联系方式，判断所述收货人联系方式的归属地与收件信息中的收货地址是否匹配，对所述收货人联系方式的归属地与收件信息中的收货地址不匹配的收货地址及其对应的收件信息打上第三层可疑标签。

在本实施例中，本步骤中，可以通过国家手机号区域划分资料库，查询所述打有第二层可疑标签的收件信息中的收货人联系方式的归属地信息。具体方式为：提取打有第二层可疑标签的收件信息中的收货人联系方式的前7位，根据所述收货人联系方式的前7位，通过调用国家手机号区域划分资料库的接口，得到所述打有第二层可疑标签的收件信息中的收货人联系方式的归属地。判断所述收货人联系方式的归属地和其所对应的收货地址是否匹配，对所述收货人联系方式的归属地与其所对应的收货地址不匹配的收货地址及其对应的收件信息打上第三层可疑标签。

在步骤S5中，提取打有第三层可疑标签的收件信息中的收货人信息，分析所述收货人信息的风险特性，对风险特性进行统计得到各风险特性对应的风险特性占比，根据所述风险特性占比计算所述收货人信息的风险值，根据所述收货人信息的风险值判断是否对相应的收件信息打上第四层可疑标签。

在本实施例中，考虑到通过故意伪造收货人信息也是黑产团伙隐蔽作案痕迹的重要手段，本实施例中引入收货人信息辅助识别来作为本实施例方法的第四层识别。所述风险特性包括：使用化名、随机生成名字、名字加后缀和重复使用同一名字的特性，可以通过预定规则识别所述收货人信息的风险特性。

黑产团伙对收货人信息进行伪装的手段通常为：同组收货地址中大量使用化名、名字后面添加其他后缀字符、同组地址大量使用同一名字以及随机生成名字，因为黑产团伙长期居住一个地方作案，与当地的快递人和收货点早已经串通，不用真实姓名也可以两两相认，不影响收货。我们可以通过预定的规则对上述风险特性进行识别。

对于同组地址大量使用同一名字的情况，只需对比同组地址中对应的收货人信息的相似度就能够识别书这一特征。对于同组地址中大量使用化名的情况，我们可以维护一个囊括了类似“张三”、“李四”、“王五”、“赵六”等化名的化名库，通过条件匹配来对收货人信息使用化名的情况进行识别。而对于随机生成的名字，可以通过判断收货人信息所使用的名字的姓氏是否为百家姓中的姓氏来对随机生成的名字进行识别。然后统计出本组地址中符合上述风险特性的占比R5，R6和R7，其中R5表示同组地址大量使用同一名字的占比，R6表示同组地址中使用化名的占比，R7表示同组地址中随机生成名字的占比，我们同样可以规定当R5，R6和R7超出某一比例则给予相应的风险特性以单项风险评分，比如，当R5>80％时，给予重复使用同一名字这一特性单项风险评分100分，当80％>R5>60％时，给予重复使用同一名字这一特性单项风险评分80分，当60％>R5>40％时，给予重复使用同一名字这一特性单项风险评分60分。

当得到所有风险特性的单项风险评分以后，采用加权求和的方式得到最终的收货人信息的风险值F，风险值F越高代表风险程度越高。其中每一单项风险评分的判断标准以及计算风险值F时各项的权重均是可以根据具体需要来进行调整的。

接下来判断所述风险评分F是否大于第三阈值，如果所述风险评分F大于第三阈值，则对相关的收货地址及其相应的收件信息打上第四层可疑标签。

在步骤S6中，将同时打有第一层可疑标签、第二层可疑标签、第三层可疑标签和第四层可疑标签的收件信息对应的订单确定为异常订单，停止对所述异常订单的权益发放。

在本实施例中，为了对错判进行补救，还可以设置白名单，如果最终认定的异常订单中有白名单中的收件信息，则将该收件信息从异常订单名单中剔除，并继续发放该订单的权益。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于数据分析的异常订单识别装置，该识别异常订单的装置与上述实施例中的基于数据分析的异常订单识别方法一一对应。如图5所示，该识别异常订单的装置包括地址分组模块10、第一层识别模块20、第二层识别模块30、第三层识别模块40、第四层识别模块50和异常订单识别模块60。各功能模块详细说明如下：

地址分组模块10，用于提取收件信息中的收货地址，对收货地址进行地址聚类，得到若干个地址分组；

第一层识别模块20，用于为各地址分组匹配各地址分组对应的第一阈值，判断各所述地址分组中是否存在地址个数大于第一阈值的目标地址分组，并为所述目标地址分组中的收货地址及其对应的收件信息打上第一层可疑标签；

第二层识别模块30，用于提取打有第一层可疑标签的收货地址的地址信息元素，根据所述地址信息元素计算所述打有第一层可疑标签的收货地址的可疑度评分，根据所述可疑度评分判断是否对相应的收货地址及其对应的收件信息打上第二层可疑标签；

第三层识别模块40，用于提取打有第二层可疑标签的收件信息中的收货人联系方式，判断所述收货人联系方式的归属地与收件信息中的收货地址是否匹配，对所述收货人联系方式的归属地与收件信息中的收货地址不匹配的收货地址及其对应的收件信息打上第三层可疑标签；

第四层识别模块50，用于提取打有第三层可疑标签的收件信息中的收货人信息，分析所述收货人信息的风险特性，对风险特性进行统计得到各风险特性对应的风险特性占比，根据所述风险特性占比计算所述收货人信息的风险值，根据所述收货人信息的风险值判断是否对相应的收件信息打上第四层可疑标签；

异常订单识别模块60，用于将同时打有第一层可疑标签、第二层可疑标签、第三层可疑标签和第四层可疑标签的收件信息对应的订单确定为异常订单，停止对所述异常订单的权益发放。

可选地，所述第二层识别模块30包括：

特殊字符识别单元，用于识别打有第一层可疑标签的收货地址中的特殊字符，计算所述特殊字符之间的相似性，计算包含特殊字符的收货地址在其所在的地址分组中的占比；

真实性判断单元，用于剔除打有第一层可疑标签的收货地址中的特殊字符，得到处理后的收货地址，分离出所述处理后的收货地址中的地名、编号和字母，判断所述地名、编号和字母的真实性；

第一可疑度评分计算单元，用于根据所述特殊字符之间的相似性、包含特殊字符的收货地址在其所在的地址分组中的占比和所述地名、编号和字母的真实性，计算第一可疑度评分；

通讯号码提取单元，用于提取打有第一层可疑标签的收货地址中的通讯号码，提取打有第一层可疑标签的收件信息中的收货人联系方式；

第二可疑度评分计算单元，用于判断所述打有第一层可疑标签的收货地址中的通讯号码和打有第一层可疑标签的收件信息中的收货人联系方式是否一致，得到第二可疑度评分；

可疑度评分计算单元，用于根据所述第一可疑度评分和第二可疑度评分计算所述收货地址的可疑度评分；

第二层识别单元，用于判断所述可疑度评分是否超过第二阈值，对所述可疑度评分超过第二阈值的收货地址及其对应的收件信息打上第二层可疑标签。

在一个实施例中，提供一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于数据分析的异常订单识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

提取打有第一层可疑标签的收货地址的地址信息元素，根据所述地址信息元素计算所述打有第一层可疑标签的收货地址的可疑度评分，根据所述可疑度评分判断是否对相应的收货地址及其对应的收件信息打上第二层可疑标签；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据分析的异常订单识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于数据分析的异常订单识别方法，其特征在于，所述提取收件信息中的收货地址，对收货地址进行地址聚类，得到若干个地址分组包括：

3.如权利要求1所述的基于数据分析的异常订单识别方法，其特征在于，所述地址信息元素包括：特殊字符，地名，编号，字母和通讯号码；所述提取打有第一层可疑标签的收货地址的地址信息元素，根据所述地址信息元素计算所述打有第一层可疑标签的收货地址的可疑度评分包括：

4.如权利要求3所述的基于数据分析的异常订单识别方法，其特征在于，所述根据所述可疑度评分判断是否对相应的收货地址及其对应的收件信息打上第二层可疑标签包括：

5.如权利要求1所述的基于数据分析的异常订单识别方法，其特征在于，所述提取打有第二层可疑标签的收件信息中的收货人联系方式，判断所述收货人联系方式的归属地与收件信息中的收货地址是否匹配包括：

6.如权利要求1所述的基于数据分析的异常订单识别方法，其特征在于，所述风险特性包括：使用化名、随机生成名字、名字加后缀和重复使用同一名字的特性，可以通过预定规则识别所述收货人信息的风险特性。

7.如权利要求6所述的基于数据分析的异常订单识别方法，其特征在于，所述根据所述收货人信息的风险值判断是否对相应的收件信息打上第四层可疑标签包括：

8.一种基于数据分析的异常订单识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于数据分析的异常订单识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于数据分析的异常订单识别方法。