CN106779899A - 恶意订单识别方法及装置 - Google Patents

恶意订单识别方法及装置 Download PDF

Info

Publication number
CN106779899A
CN106779899A CN201610757755.5A CN201610757755A CN106779899A CN 106779899 A CN106779899 A CN 106779899A CN 201610757755 A CN201610757755 A CN 201610757755A CN 106779899 A CN106779899 A CN 106779899A
Authority
CN
China
Prior art keywords
ship
frequency
character cell
collection
malice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610757755.5A
Other languages
English (en)
Other versions
CN106779899B (zh
Inventor
于亮
马利超
刘杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201610757755.5A priority Critical patent/CN106779899B/zh
Publication of CN106779899A publication Critical patent/CN106779899A/zh
Application granted granted Critical
Publication of CN106779899B publication Critical patent/CN106779899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开是关于一种恶意订单识别方法及装置,属于电子技术领域。所述方法包括:对待识别的多个收货地址进行聚合,得到至少一个收货地址集;对于所述至少一个收货地址集中的每个收货地址集,确定所述收货地址集的第一公共字符单元和第一干扰字符单元;确定第一频率和第二频率,所述第一频率为所述第一公共字符单元在所述多个收货地址中出现的频率,所述第二频率为所述第一干扰字符单元在所述多个收货地址中出现的频率;基于所述第一频率和所述第二频率,确定第一比例;当所述第一比例大于或等于指定比例时,确定所述收货地址集的所有收货地址对应的订单均为恶意订单。本公开可以提高恶意订单识别的准确度。

Description

恶意订单识别方法及装置
技术领域
本公开涉及电子技术领域,尤其涉及一种恶意订单识别方法及装置。
背景技术
随着电子商务技术的快速发展,营销手段越来越丰富,例如,抢购、大规模促销等,这类营销活动的主要特点为:将商品设定为较低的价格,并在一个指定的时间点开放购买。在这类营销活动中,可能会出现一些恶意用户,采用违背活动规则的方式,大批量抢占资源,再以高价卖出。这些恶意用户的行为会严重影响其他具有真实购买意图的用户的利益,因此,需要对这些恶意用户的订单进行识别。
恶意用户在购物平台上进行大批量的购买行为时,该恶意用户的订单中往往会存在大量的重复信息,该重复信息可能为收货地址、联系电话、收货人姓名、下单时所使用的终端的IP(Internet Protocol Address,互联网协议)地址等。相关技术中,主要是通过订单包括的收货地址之间的相似度来对恶意订单进行识别,例如,确定多个订单中每两个订单包括的收货地址之间的相似度,如果某两个订单包括的收货地址之间的相似度大于指定相似度,则将这两个订单包括的收货地址均确定为目标收货地址,对于某个目标收货地址,如果该多个订单中该目标收货地址的数量大于指定数量,则将该目标收货地址对应的订单确定为恶意订单。
发明内容
为克服相关技术中存在的问题,本公开提供一种恶意订单识别方法及装置。
根据本公开实施例的第一方面,提供一种恶意订单识别方法,所述方法包括:
对待识别的多个收货地址进行聚合,得到至少一个收货地址集,所述至少一个收货地址集中任意两个收货地址集之间不包括相同的收货地址;
对于所述至少一个收货地址集中的每个收货地址集,确定所述收货地址集的第一公共字符单元和第一干扰字符单元,所述第一公共字符单元为所述收货地址集的所有收货地址在同一位置处相同且字符个数最多的字符单元,所述第一干扰字符单元为所述收货地址集的所有收货地址中除所述第一公共字符单元之外的字符单元;
确定第一频率和第二频率,所述第一频率为所述第一公共字符单元在所述多个收货地址中出现的频率,所述第二频率为所述第一干扰字符单元在所述多个收货地址中出现的频率;
基于所述第一频率和所述第二频率,确定第一比例;
当所述第一比例大于或等于指定比例时,确定所述收货地址集的所有收货地址对应的订单均为恶意订单。
可选地,所述对待识别的多个收货地址进行聚合,得到至少一个收货地址集,包括:
对于所述多个收货地址中的每个收货地址,分别从所述收货地址的多个特定位置处开始截取指定个数的字符,得到多个字符单元;
对于所述多个字符单元中的每个字符单元,基于所述字符单元和所述字符单元在所述收货地址中的位置区间,生成标记单元,所述位置区间用于指示所述字符单元在所述收货地址中的开始位置和结束位置;
将所述多个收货地址中满足指定条件的收货地址组合成一个收货地址集,所述指定条件为包括相同标记单元且所述相同标记单元在所述多个收货地址中出现的频率大于第一指定频率。
可选地,所述确定所述收货地址集的第一公共字符单元和第一干扰字符单元,包括:
确定多个标记单元,所述收货地址集的所有收货地址均在同一位置处包含所述多个标记单元中每个标记单元对应的字符单元;
将所述多个标记单元中位置区间相邻或相交的标记单元对应的字符单元组合为公共字符单元;
将组合得到的公共字符单元中字符个数最多的字符单元确定为所述第一公共字符单元;
将所述收货地址集的所有收货地址中除所述第一公共字符单元之外的字符单元确定为所述第一干扰字符单元。
可选地,所述确定第一频率,包括:
按照指定切分规则,对所述第一公共字符单元进行切分,得到多个第一分词;
从所述多个收货地址的辅助词表中,获取所述多个第一分词中每个第一分词对应的频率,所述多个收货地址的辅助词表用于对应存储目标分词和所述目标分词在所述多个收货地址中出现的频率,所述目标分词在所述多个收货地址中出现的频率大于第二指定频率;
将所述多个第一分词中每个第一分词对应的频率进行累加,得到所述第一频率。
可选地,所述确定第二频率,包括:
按照指定切分规则,对所述第一干扰字符单元进行切分,得到多个第二分词;
从所述多个收货地址的辅助词表中,获取所述多个第二分词中每个第二分词对应的频率;
将所述多个第二分词中每个第二分词对应的频率进行累加,得到所述第二频率。
可选地,所述基于所述第一频率和所述第二频率,确定第一比例,包括:
基于所述第一频率和所述第二频率,通过如下指定公式得到所述第一比例;
所述指定公式为:或者,
其中,S为所述第一比例,F为所述第一频率,f为所述第二频率,L为所述多个收货地址包括的字符个数。
可选地,所述当所述第一比例大于或等于指定比例时,确定所述收货地址集的所有收货地址对应的订单均为恶意订单之前,还包括:
对存储的多个恶意地址进行聚合,得到至少一个恶意地址集,所述至少一个恶意地址集中任意两个恶意地址集之间不包括相同的恶意地址;
对于所述至少一个恶意地址集中的每个恶意地址集,确定所述恶意地址集的第二公共字符单元和第二干扰字符单元,所述第二公共字符单元为所述恶意地址集的所有恶意地址在同一位置处相同且字符个数最多的字符单元,所述第二干扰字符单元为所述恶意地址集的所有恶意地址中除所述第二公共字符单元之外的字符单元;
确定第三频率和第四频率,所述第三频率为所述第二公共字符单元在所述多个恶意地址中出现的频率,所述第四频率为所述第二干扰字符单元在所述多个恶意地址中出现的频率;
基于所述第三频率和所述第四频率,确定第二比例;
基于多个第二比例,确定所述指定比例,所述多个第二比例与所述多个恶意地址集一一对应。
可选地,所述基于多个第二比例,确定所述指定比例,包括:
将所述多个第二比例中大于或等于目标比例的个数除以所述多个第二比例的总个数,得到目标数值;
当所述目标数值大于或等于指定数值时,确定所述目标比例为所述指定比例。
根据本公开实施例的第二方面,提供一种恶意订单识别装置,所述装置包括:
第一聚合模块,用于对待识别的多个收货地址进行聚合,得到至少一个收货地址集,所述至少一个收货地址集中任意两个收货地址集之间不包括相同的收货地址;
第一确定模块,用于对于所述至少一个收货地址集中的每个收货地址集,确定所述收货地址集的第一公共字符单元和第一干扰字符单元,所述第一公共字符单元为所述收货地址集的所有收货地址在同一位置处相同且字符个数最多的字符单元,所述第一干扰字符单元为所述收货地址集的所有收货地址中除所述第一公共字符单元之外的字符单元;
第二确定模块,用于确定第一频率和第二频率,所述第一频率为所述第一公共字符单元在所述多个收货地址中出现的频率,所述第二频率为所述第一干扰字符单元在所述多个收货地址中出现的频率;
第三确定模块,用于基于所述第一频率和所述第二频率,确定第一比例;
第四确定模块,用于当所述第一比例大于或等于指定比例时,确定所述收货地址集的所有收货地址对应的订单均为恶意订单。
可选地,所述第一聚合模块包括:
截取子模块,用于对于所述多个收货地址中的每个收货地址,分别从所述收货地址的多个特定位置处开始截取指定个数的字符,得到多个字符单元;
生成子模块,用于对于所述多个字符单元中的每个字符单元,基于所述字符单元和所述字符单元在所述收货地址中的位置区间,生成标记单元,所述位置区间用于指示所述字符单元在所述收货地址中的开始位置和结束位置;
第一组合子模块,用于将所述多个收货地址中满足指定条件的收货地址组合成一个收货地址集,所述指定条件为包括相同标记单元且所述相同标记单元在所述多个收货地址中出现的频率大于第一指定频率。
可选地,所述第一确定模块包括:
第一确定子模块,用于确定多个标记单元,所述收货地址集的所有收货地址均在同一位置处包含所述多个标记单元中每个标记单元对应的字符单元;
第二组合子模块,用于将所述多个标记单元中位置区间相邻或相交的标记单元对应的字符单元组合为公共字符单元;
第二确定子模块,用于将组合得到的公共字符单元中字符个数最多的字符单元确定为所述第一公共字符单元;
第三确定子模块,用于将所述收货地址集的所有收货地址中除所述第一公共字符单元之外的字符单元确定为所述第一干扰字符单元。
可选地,所述第二确定模块包括:
第一切分子模块,用于按照指定切分规则,对所述第一公共字符单元进行切分,得到多个第一分词;
第一获取子模块,用于从所述多个收货地址的辅助词表中,获取所述多个第一分词中每个第一分词对应的频率,所述多个收货地址的辅助词表用于对应存储目标分词和所述目标分词在所述多个收货地址中出现的频率,所述目标分词在所述多个收货地址中出现的频率大于第二指定频率;
第一计算子模块,用于将所述多个第一分词中每个第一分词对应的频率进行累加,得到所述第一频率。
可选地,所述第二确定模块包括:
第二切分子模块,用于按照指定切分规则,对所述第一干扰字符单元进行切分,得到多个第二分词;
第二获取子模块,用于从所述多个收货地址的辅助词表中,获取所述多个第二分词中每个第二分词对应的频率;
第二计算子模块,用于将所述多个第二分词中每个第二分词对应的频率进行累加,得到所述第二频率。
可选地,所述第三确定模块包括:
第三计算子模块,用于基于所述第一频率和所述第二频率,通过如下指定公式得到所述第一比例;
所述指定公式为:或者,
其中,S为所述第一比例,F为所述第一频率,f为所述第二频率,L为所述多个收货地址包括的字符个数。
可选地,所述装置还包括:
第二聚合模块,用于对存储的多个恶意地址进行聚合,得到至少一个恶意地址集,所述至少一个恶意地址集中任意两个恶意地址集之间不包括相同的恶意地址;
第五确定模块,用于对于所述至少一个恶意地址集中的每个恶意地址集,确定所述恶意地址集的第二公共字符单元和第二干扰字符单元,所述第二公共字符单元为所述恶意地址集的所有恶意地址在同一位置处相同且字符个数最多的字符单元,所述第二干扰字符单元为所述恶意地址集的所有恶意地址中除所述第二公共字符单元之外的字符单元;
第六确定模块,用于确定第三频率和第四频率,所述第三频率为所述第二公共字符单元在所述多个恶意地址中出现的频率,所述第四频率为所述第二干扰字符单元在所述多个恶意地址中出现的频率;
第七确定模块,用于基于所述第三频率和所述第四频率,确定第二比例;
第八确定模块,用于基于多个第二比例,确定所述指定比例,所述多个第二比例与所述多个恶意地址集一一对应。
可选地,所述第八确定模块包括:
第四计算子模块,用于将所述多个第二比例中大于或等于目标比例的个数除以所述多个第二比例的总个数,得到目标数值;
第四确定子模块,用于当所述目标数值大于或等于指定数值时,确定所述目标比例为所述指定比例。
根据本公开实施例的第三方面,提供一种恶意订单识别装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
对待识别的多个收货地址进行聚合,得到至少一个收货地址集,所述至少一个收货地址集中任意两个收货地址集之间不包括相同的收货地址;
对于所述至少一个收货地址集中的每个收货地址集,确定所述收货地址集的第一公共字符单元和第一干扰字符单元,所述第一公共字符单元为所述收货地址集的所有收货地址在同一位置处相同且字符个数最多的字符单元,所述第一干扰字符单元为所述收货地址集的所有收货地址中除所述第一公共字符单元之外的字符单元;
确定第一频率和第二频率,所述第一频率为所述第一公共字符单元在所述多个收货地址中出现的频率,所述第二频率为所述第一干扰字符单元在所述多个收货地址中出现的频率;
基于所述第一频率和所述第二频率,确定第一比例;
当所述第一比例大于或等于指定比例时,确定所述收货地址集的所有收货地址对应的订单均为恶意订单。
本公开的实施例提供的技术方案可以包括以下有益效果:在本公开实施例中,对待识别的多个收货地址进行聚合,得到至少一个收货地址集,对于该至少一个收货地址集中的每个收货地址集,确定该收货地址集的第一公共字符单元和第一干扰字符单元,之后,确定第一频率和第二频率,第一频率为第一公共字符单元在该多个收货地址中出现的频率,第二频率为第一干扰字符单元在该多个收货地址中出现的频率,进而基于第一频率和第二频率,确定第一比例,当第一比例大于或等于指定比例时,确定该收货地址集的所有收货地址对应的订单均为恶意订单。由于是使用基于第一频率和第二频率确定的第一比例来对恶意订单进行识别,从而相比于相关技术中仅基于收货地址之间的相似度对恶意订单进行识别的方式,本公开实施例可以大大提高恶意订单识别的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1A是根据一示例性实施例示出的一种恶意订单识别方法所涉及的实施环境的示意图。
图1B是根据一示例性实施例示出的一种恶意订单识别方法的流程图。
图2是根据一示例性实施例示出的另一种恶意订单识别方法的流程图。
图3A是根据一示例性实施例示出的一种恶意订单识别装置的框图。
图3B是根据一示例性实施例示出的一种第一聚合模块的框图。
图3C是根据一示例性实施例示出的一种第一确定模块的框图。
图3D是根据一示例性实施例示出的一种第二确定模块的框图。
图3E是根据一示例性实施例示出的另一种第二确定模块的框图。
图3F是根据一示例性实施例示出的另一种恶意订单识别装置的框图。
图3G是根据一示例性实施例示出的一种第八确定模块的框图。
图4是根据一示例性实施例示出的又一种恶意订单识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在对本公开实施例进行详细地解释说明之前,先对本公开实施例的应用场景予以说明。在抢购、大规模促销等营销活动中,经常会出现一些恶意用户采用违背活动规则的方式来大批量抢占资源,由于这些恶意用户的行为会严重影响其他具有真实购买意图的用户的利益,因此,需要对这些恶意用户的订单进行识别。相关技术中,主要是通过订单包括的收货地址之间的相似度来对恶意订单进行识别,然而,这种识别方式只能识别相似度较高的收货地址对应的恶意订单,对于一些相似度较低的收货地址对应的恶意订单将无法进行准确识别。因此,本公开实施例提供了一种恶意订单识别方法,来提高恶意订单识别的准确度。
图1A是根据一示例性实施例示出的一种恶意订单识别方法所涉及的实施环境示意图,该实施环境可以包括:服务器110和至少一个终端120。服务器110可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。终端120可以为智能手机、电脑、多媒体播放器、电子阅读器、可穿戴式设备等。服务器110和终端120之间可以通过有线网络或无线网络建立连接。其中,用户可以通过终端120在购物平台中填写订单,该购物平台所对应的服务器110中可以存储用户填写的订单,并对该订单进行分析,以判断该订单是否为恶意订单。
图1B是根据一示例性实施例示出的一种恶意订单识别方法的流程图,该方法用于服务器中。如图1B所示,该方法包括以下步骤。
在步骤101中,对待识别的多个收货地址进行聚合,得到至少一个收货地址集,至少一个收货地址集中任意两个收货地址集之间不包括相同的收货地址。
在步骤102中,对于至少一个收货地址集中的每个收货地址集,确定收货地址集的第一公共字符单元和第一干扰字符单元,第一公共字符单元为收货地址集的所有收货地址在同一位置处相同且字符个数最多的字符单元,第一干扰字符单元为收货地址集的所有收货地址中除第一公共字符单元之外的字符单元。
在步骤103中,确定第一频率和第二频率,第一频率为第一公共字符单元在多个收货地址中出现的频率,第二频率为第一干扰字符单元在多个收货地址中出现的频率。
在步骤104中,基于第一频率和第二频率,确定第一比例。
在步骤105中,当第一比例大于或等于指定比例时,确定收货地址集的所有收货地址对应的订单均为恶意订单。
在本公开实施例中,对待识别的多个收货地址进行聚合,得到至少一个收货地址集,对于该至少一个收货地址集中的每个收货地址集,确定该收货地址集的第一公共字符单元和第一干扰字符单元,之后,确定第一频率和第二频率,第一频率为第一公共字符单元在该多个收货地址中出现的频率,第二频率为第一干扰字符单元在该多个收货地址中出现的频率,进而基于第一频率和第二频率,确定第一比例,当第一比例大于或等于指定比例时,确定该收货地址集的所有收货地址对应的订单均为恶意订单。由于是使用基于第一频率和第二频率确定的第一比例来对恶意订单进行识别,从而相比于相关技术中仅基于收货地址之间的相似度对恶意订单进行识别的方式,本公开实施例可以大大提高恶意订单识别的准确度。
可选地,对待识别的多个收货地址进行聚合,得到至少一个收货地址集,包括:
对于多个收货地址中的每个收货地址,分别从收货地址的多个特定位置处开始截取指定个数的字符,得到多个字符单元;
对于多个字符单元中的每个字符单元,基于字符单元和字符单元在收货地址中的位置区间,生成标记单元,位置区间用于指示字符单元在收货地址中的开始位置和结束位置;
将多个收货地址中满足指定条件的收货地址组合成一个收货地址集,指定条件为包括相同标记单元且相同标记单元在多个收货地址中出现的频率大于第一指定频率。
可选地,确定收货地址集的第一公共字符单元和第一干扰字符单元,包括:
确定多个标记单元,收货地址集的所有收货地址均在同一位置处包含多个标记单元中每个标记单元对应的字符单元;
将多个标记单元中位置区间相邻或相交的标记单元对应的字符单元组合为公共字符单元;
将组合得到的公共字符单元中字符个数最多的字符单元确定为第一公共字符单元;
将收货地址集的所有收货地址中除第一公共字符单元之外的字符单元确定为第一干扰字符单元。
可选地,确定第一频率,包括:
按照指定切分规则,对第一公共字符单元进行切分,得到多个第一分词;
从多个收货地址的辅助词表中,获取多个第一分词中每个第一分词对应的频率,多个收货地址的辅助词表用于对应存储目标分词和目标分词在多个收货地址中出现的频率,目标分词在多个收货地址中出现的频率大于第二指定频率;
将多个第一分词中每个第一分词对应的频率进行累加,得到第一频率。
可选地,确定第二频率,包括:
按照指定切分规则,对第一干扰字符单元进行切分,得到多个第二分词;
从多个收货地址的辅助词表中,获取多个第二分词中每个第二分词对应的频率;
将多个第二分词中每个第二分词对应的频率进行累加,得到第二频率。
可选地,基于第一频率和第二频率,确定第一比例,包括:
基于第一频率和第二频率,通过如下指定公式得到第一比例;
指定公式为:或者,
其中,S为第一比例,F为第一频率,f为第二频率,L为多个收货地址包括的字符个数。
可选地,当第一比例大于或等于指定比例时,确定收货地址集的所有收货地址对应的订单均为恶意订单之前,还包括:
对存储的多个恶意地址进行聚合,得到至少一个恶意地址集,至少一个恶意地址集中任意两个恶意地址集之间不包括相同的恶意地址;
对于至少一个恶意地址集中的每个恶意地址集,确定恶意地址集的第二公共字符单元和第二干扰字符单元,第二公共字符单元为恶意地址集的所有恶意地址在同一位置处相同且字符个数最多的字符单元,第二干扰字符单元为恶意地址集的所有恶意地址中除第二公共字符单元之外的字符单元;
确定第三频率和第四频率,第三频率为第二公共字符单元在多个恶意地址中出现的频率,第四频率为第二干扰字符单元在多个恶意地址中出现的频率;
基于第三频率和第四频率,确定第二比例;
基于多个第二比例,确定指定比例,多个第二比例与多个恶意地址集一一对应。
可选地,基于多个第二比例,确定指定比例,包括:
将多个第二比例中大于或等于目标比例的个数除以多个第二比例的总个数,得到目标数值;
当目标数值大于或等于指定数值时,确定目标比例为指定比例。
上述所有可选技术方案,均可按照任意结合形成本公开的可选实施例,本公开实施例对此不再一一赘述。
图2是根据一示例性实施例示出的一种恶意订单识别方法的流程图,该方法用于服务器中。如图2所示,该方法包括以下步骤。
在步骤201中,对待识别的多个收货地址进行聚合,得到至少一个收货地址集,该至少一个收货地址集中任意两个收货地址集之间不包括相同的收货地址。
需要说明的是,待识别的多个收货地址可以是终端在指定时间段内发送给服务器的多个订单中包括的收货地址,也可以是预先存储在服务器的多个订单中包括的收货地址,本公开实施例对此不做具体限定。
另外,指定时间段可以预先设置,例如,指定时间段可以为抢购、大规模促销等营销活动进行的时间段,当然,也可以为其它时间段,本公开实施例对此不做具体限定。
其中,对待识别的多个收货地址进行聚合,得到至少一个收货地址集的操作可以包括如下步骤(1)-(3):
(1)、对于该多个收货地址中的每个收货地址,分别从该收货地址的多个特定位置处开始截取指定个数的字符,得到多个字符单元。
需要说明的是,多个特定位置可以预先设置,例如,该多个特定位置可以为该收货地址的开头、中间、结尾,当然,也可以是该收货地址的其它位置,本公开实施例对此不做具体限定。
另外,指定个数可以预先设置,且指定个数可以根据该多个特定位置的个数来进行设置,例如,可以将该收货地址包括的字符总个数除以该多个特定位置的总个数来得到指定个数,从而保证将该收货地址截取后得到的多个字符单元能够包含该收货地址的所有字符,当然,指定个数也可以通过其它方式预先设置,本公开实施例对此不做具体限定。
再者,从该收货地址的多个特定位置处开始截取指定个数的字符时,可以通过滑动窗口的方式从该收货地址的多个特定位置处开始截取指定个数的字符,当然,也可以通过其它方式来进行截取,本公开实施例对此不做具体限定。
例如,该收货地址为“皓月花园东岔蛛鼠穴”,且该收货地址包含的字符依次对应位置“012345678”,假设该多个特定位置为位置0、位置4和位置8,指定个数为4,则可以分别从该收货地址的位置0、位置4和位置8处开始截取4个字符,得到的多个字符单元为“皓月花园”、“花园东岔”和“岔蛛鼠穴”。
(2)、对于该多个字符单元中的每个字符单元,基于该字符单元和该字符单元在该收货地址中的位置区间,生成标记单元。
需要说明的是,位置区间用于指示该字符单元在该收货地址中的开始位置和结束位置,且该位置区间可以由开始位置和结束位置组成,也可以由开始位置和位置偏移量组成,本公开实施例对此不做具体限定。
其中,当基于该字符单元和该字符单元在该收货地址中的位置区间,生成标记单元时,可以将该字符单元和该字符单元在该收货地址中的位置区间按照指定格式进行组合,得到标记单元,当然,也可以通过其它方式来进行生成,本公开实施例对此不做具体限定。
需要说明的是,指定格式可以预先设置,例如,指定格式可以为“开始位置-字符单元-结束位置”、“开始位置-字符单元+位置偏移量”等,本公开实施例对此不做具体限定。
例如,位置区间由开始位置和结束位置组成,指定格式为“开始位置-字符单元-结束位置”,假设该字符单元为“皓月花园”,该字符单元在该收货地址中的位置区间为[0,3],则可以将该字符单元和该字符单元在该收货地址中的位置区间按照指定格式进行组合,得到标记单元为“0-皓月花园-3”。
(3)、将该多个收货地址中满足指定条件的收货地址组合成一个收货地址集,指定条件为包括相同标记单元且该相同标记单元在该多个收货地址中出现的频率大于第一指定频率。
由于当该相同标记单元在该多个收货地址中出现的频率大于第一指定频率时,说明该相同标记单元在该多个收货地址中出现的较为频繁,此时包括该相同标记单元的收货地址对应的订单为恶意订单的可能性较高,因此,可以将包括该相同标记单元的收货地址组合成一个收货地址集,以便后续可以基于该收货地址集来进行恶意订单的确定。
需要说明的是,第一指定频率可以预先设置,本公开实施例对此不做具体限定。
例如,对于收货地址“皓月花园东岔由香锦”和收货地址“皓月花园东岔蛛鼠穴”来说,这两个收货地址包含的字符单元“皓月花园”的位置区间均为[0,3],则可以确定这两个收货地址包括相同标记单元“0-皓月花园-3”,假设第一指定频率为0.9,该相同标记单元“0-皓月花园-3”在该多个收货地址中出现的频率为0.91,由于0.91>0.9,则可以将这两个收货地址组合成一个收货地址集。
在步骤202中,对于该至少一个收货地址集中的每个收货地址集,确定该收货地址集的第一公共字符单元和第一干扰字符单元。
需要说明的是,第一公共字符单元为该收货地址集的所有收货地址在同一位置处相同且字符个数最多的字符单元,第一干扰字符单元为该收货地址集的所有收货地址中除第一公共字符单元之外的字符单元。
其中,当确定该收货地址集的第一公共字符单元和第一干扰字符单元时,可以确定多个标记单元,该收货地址集的所有收货地址均在同一位置处包含该多个标记单元中每个标记单元对应的字符单元;将该多个标记单元中位置区间相邻或相交的标记单元对应的字符单元组合为公共字符单元;将组合得到的公共字符单元中字符个数最多的字符单元确定为第一公共字符单元;将该收货地址集的所有收货地址中除第一公共字符单元之外的字符单元确定为第一干扰字符单元。
例如,该收货地址集为“皓月花园东岔由香锦、皓月花园东岔冬汤幻、皓月花园东岔蛛鼠穴”,则可以确定多个标记单元为“0-皓月花园-3”和“2-花园东岔-5”。由于“0-皓月花园-3”的位置区间[0,3]和“2-花园东岔-5”的位置区间[2,5]相交,则可以将“0-皓月花园-3”对应的字符单元“皓月花园”和“2-花园东岔-5”对应的字符单元“花园东岔”组合为公共字符单元“皓月花园东岔”。此时由于只有一个公共字符单元“皓月花园东岔”,因此,可以直接将该“皓月花园东岔”确定为第一公共字符单元。之后,将该收货地址集的所有收货地址中除第一公共字符单元“皓月花园东岔”之外的字符单元“岔由香锦”、“岔冬汤幻”和“岔蛛鼠穴”确定为第一干扰字符单元。
在步骤203中,确定第一频率和第二频率,第一频率为第一公共字符单元在该多个收货地址中出现的频率,第二频率为第一干扰字符单元在该多个收货地址中出现的频率。
其中,当确定第一频率时,可以按照指定切分规则,对第一公共字符单元进行切分,得到多个第一分词;从该多个收货地址的辅助词表中,获取该多个第一分词中每个第一分词对应的频率,将该多个第一分词中每个第一分词对应的频率进行累加,得到第一频率。
需要说明的是,指定切分规则可以预先设置,例如,该预设切分规则可以为二字切分算法、三字切分算法等,本公开实施例对此不做具体限定。
另外,该多个收货地址的辅助词表用于对应存储目标分词和该目标分词在该多个收货地址中出现的频率,该目标分词在该多个收货地址中出现的频率大于第二指定频率。其中,第二指定频率可以预先设置,本公开实施例对此不做具体限定。
再者,当从该多个收货地址的辅助词表中获取某个分词对应的频率时,如果该多个收货地址的辅助词表中未存储该分词,则可以确定该分词对应的频率为0。
例如,指定切分规则为二字切分算法,第一公共字符单元为“皓月花园东岔”,则可以按照二字切分算法,对第一公共字符单元进行切分,得到多个第一分词为“皓月”、“月花”、“花园”、“园东”、“东岔”。假设从该多个收货地址的辅助词表中,依次获取“皓月”“皓月”、“月花”、“花园”、“园东”、“东岔”对应的频率为则可以将这5个频率进行累加,得到第一频率为
其中,当确定第二频率时,可以按照指定切分规则,对第一干扰字符单元进行切分,得到多个第二分词;从该多个收货地址的辅助词表中,获取该多个第二分词中每个第二分词对应的频率;将该多个第二分词中每个第二分词对应的频率进行累加,得到第二频率。
例如,指定切分规则为二字切分算法,第一干扰字符单元为“岔由香锦”、“岔冬汤幻”和“岔蛛鼠穴”,则可以按照二字切分算法,对第一干扰字符单元进行切分,得到多个第二分词为“岔由”、“由香”、“香锦”、“岔冬”、“冬汤”、“汤幻”、“岔蛛”、“蛛鼠”、“鼠穴”。假设从该多个收货地址的辅助词表中,依次获取“岔由”、“由香”、“香锦”、“岔冬”、“冬汤”、“汤幻”、“岔蛛”、“蛛鼠”、“鼠穴”对应的频率为0、0、0、0、0、0、0、0、0,则可以将这9个频率进行累加,得到第二频率为0。
进一步地,在确定第一频率和第二频率之前,还可以将该多个收货地址中的每个收货地址均按照指定切分规则进行切分,得到多个分词,确定该多个分词中每个分词在该多个收货地址中出现的频率,并将在该多个收货地址中出现的频率大于第二指定频率的分词确定为目标分词,之后,将该目标分词和该目标分词在该多个收货地址中出现的频率对应存储到该多个收货地址的辅助词表中。
在步骤204中,基于第一频率和第二频率,确定第一比例,并当第一比例大于或等于指定比例时,确定该收货地址集的所有收货地址对应的订单均为恶意订单。
需要说明的是,指定比例可以预先设置,例如,指定比例可以为等,本公开实施例对此不做具体限定。
其中,当基于第一频率和第二频率,确定第一比例时,可以基于第一频率和第二频率,通过如下指定公式得到第一比例;
指定公式为:或者,
其中,S为第一比例,F为第一频率,f为第二频率,L为该多个收货地址包括的字符个数。
例如,第一频率为第二频率为0,指定公式为则可以确定第一比例为假设指定比例为由于则可以确定该收货地址集的所有收货地址对应的订单均为恶意订单。
需要说明的是,确定该收货地址集的所有收货地址对应的订单均为恶意订单之后,还可以对该恶意订单执行指定操作,指定操作可以为撤销该恶意订单、注销该恶意订单的下单账号等,以阻止恶意用户的恶意购买行为,保证其他具有真实购买意图的用户的利益。
另外,在当第一比例大于或等于指定比例时,确定该收货地址集的所有收货地址对应的订单均为恶意订单之前,还可以基于多个恶意地址来确定指定比例,且当基于该多个恶意地址确定指定比例时,可以对存储的多个恶意地址进行聚合,得到至少一个恶意地址集,该至少一个恶意地址集中任意两个恶意地址集之间不包括相同的恶意地址;对于该至少一个恶意地址集中的每个恶意地址集,确定该恶意地址集的第二公共字符单元和第二干扰字符单元;确定第三频率和第四频率,第三频率为第二公共字符单元在该多个恶意地址中出现的频率,第四频率为第二干扰字符单元在该多个恶意地址中出现的频率;基于第三频率和第四频率,确定第二比例;基于多个第二比例,确定指定比例,该多个第二比例与该多个恶意地址集一一对应。
需要说明的是,第二公共字符单元为该恶意地址集的所有恶意地址在同一位置处相同且字符个数最多的字符单元,第二干扰字符单元为该恶意地址集的所有恶意地址中除第二公共字符单元之外的字符单元。另外,恶意地址为恶意订单中包括的收货地址。
其中,对存储的多个恶意地址进行聚合,得到至少一个恶意地址集的操作与上述步骤201中的聚合操作类似,本公开实施例对此不再赘述。
其中,对于该至少一个恶意地址集中的每个恶意地址集,确定该恶意地址集的第二公共字符单元和第二干扰字符单元的操作与上述步骤202中的确定操作类似,本公开实施例对此不再赘述。
其中,确定第三频率和第四频率的操作与上述步骤203中确定第一频率和第二频率的操作类似,本公开实施例对此不再赘述。
其中,基于第三频率和第四频率,确定第二比例的操作与上述步骤204中确定第一比例的操作类似,本公开实施例对此不再赘述。
其中,基于多个第二比例,确定指定比例时,可以将该多个第二比例中大于或等于目标比例的个数除以该多个第二比例的总个数,得到目标数值,当目标数值大于或等于指定数值时,确定目标比例为指定比例。
需要说明的是,指定数值可以预先设置,如指定数值可以为0.9、0.91、0.92等,本公开实施例对此不做具体限定。
例如,指定数值为0.9,多个第二比例为 则可以将该多个第二比例中大于或等于目标比例的个数除以该多个第二比例的总个数,得到目标数值为9÷10=0.9,由于目标数值0.9等于指定数值0.9,则可以将目标比例确定为指定比例。
在本公开实施例中,对待识别的多个收货地址进行聚合,得到至少一个收货地址集,对于该至少一个收货地址集中的每个收货地址集,确定该收货地址集的第一公共字符单元和第一干扰字符单元,之后,确定第一频率和第二频率,第一频率为第一公共字符单元在该多个收货地址中出现的频率,第二频率为第一干扰字符单元在该多个收货地址中出现的频率,进而基于第一频率和第二频率,确定第一比例,当第一比例大于或等于指定比例时,确定该收货地址集的所有收货地址对应的订单均为恶意订单。由于是使用基于第一频率和第二频率确定的第一比例来对恶意订单进行识别,从而相比于相关技术中仅基于收货地址之间的相似度对恶意订单进行识别的方式,本公开实施例可以大大提高恶意订单识别的准确度。另外,本公开实施例还可以预先基于多个恶意地址来确定指定比例,从而提高了确定的指定比例的合理性,进而可以提高使用指定比例进行恶意订单识别时的准确度。
图3A是根据一示例性实施例示出的一种恶意订单识别装置的框图。参照图3A,该装置包括第一聚合模块301,第一确定模块302,第二确定模块303,第三确定模块304和第四确定模块305。
第一聚合模块301,用于对待识别的多个收货地址进行聚合,得到至少一个收货地址集,至少一个收货地址集中任意两个收货地址集之间不包括相同的收货地址;
第一确定模块302,用于对于至少一个收货地址集中的每个收货地址集,确定收货地址集的第一公共字符单元和第一干扰字符单元,第一公共字符单元为收货地址集的所有收货地址在同一位置处相同且字符个数最多的字符单元,第一干扰字符单元为收货地址集的所有收货地址中除第一公共字符单元之外的字符单元;
第二确定模块303,用于确定第一频率和第二频率,第一频率为第一公共字符单元在多个收货地址中出现的频率,第二频率为第一干扰字符单元在多个收货地址中出现的频率;
第三确定模块304,用于基于第一频率和第二频率,确定第一比例;
第四确定模块305,用于当第一比例大于或等于指定比例时,确定收货地址集的所有收货地址对应的订单均为恶意订单。
可选地,参照图3B,该第一聚合模块301包括:
截取子模块3011,用于对于多个收货地址中的每个收货地址,分别从收货地址的多个特定位置处开始截取指定个数的字符,得到多个字符单元;
生成子模块3012,用于对于多个字符单元中的每个字符单元,基于字符单元和字符单元在收货地址中的位置区间,生成标记单元,位置区间用于指示字符单元在收货地址中的开始位置和结束位置;
第一组合子模块3013,用于将多个收货地址中满足指定条件的收货地址组合成一个收货地址集,指定条件为包括相同标记单元且相同标记单元在多个收货地址中出现的频率大于第一指定频率。
可选地,参照图3C,该第一确定模块302包括:
第一确定子模块3021,用于确定多个标记单元,收货地址集的所有收货地址均在同一位置处包含多个标记单元中每个标记单元对应的字符单元;
第二组合子模块3022,用于将多个标记单元中位置区间相邻或相交的标记单元对应的字符单元组合为公共字符单元;
第二确定子模块3023,用于将组合得到的公共字符单元中字符个数最多的字符单元确定为第一公共字符单元;
第三确定子模块3024,用于将收货地址集的所有收货地址中除第一公共字符单元之外的字符单元确定为第一干扰字符单元。
可选地,参照图3D,该第二确定模块303包括:
第一切分子模块3031,用于按照指定切分规则,对第一公共字符单元进行切分,得到多个第一分词;
第一获取子模块3032,用于从多个收货地址的辅助词表中,获取多个第一分词中每个第一分词对应的频率,多个收货地址的辅助词表用于对应存储目标分词和目标分词在多个收货地址中出现的频率,目标分词在多个收货地址中出现的频率大于第二指定频率;
第一计算子模块3033,用于将多个第一分词中每个第一分词对应的频率进行累加,得到第一频率。
可选地,参照图3E,该第二确定模块303包括:
第二切分子模块3034,用于按照指定切分规则,对第一干扰字符单元进行切分,得到多个第二分词;
第二获取子模块3035,用于从多个收货地址的辅助词表中,获取多个第二分词中每个第二分词对应的频率;
第二计算子模块3036,用于将多个第二分词中每个第二分词对应的频率进行累加,得到第二频率。
可选地,第三确定模块304包括:
第三计算子模块,用于基于第一频率和第二频率,通过如下指定公式得到第一比例;
指定公式为:或者,
其中,S为第一比例,F为第一频率,f为第二频率,L为多个收货地址包括的字符个数。
可选地,参照图3F,该装置还包括:
第二聚合模块306,用于对存储的多个恶意地址进行聚合,得到至少一个恶意地址集,至少一个恶意地址集中任意两个恶意地址集之间不包括相同的恶意地址;
第五确定模块307,用于对于至少一个恶意地址集中的每个恶意地址集,确定恶意地址集的第二公共字符单元和第二干扰字符单元,第二公共字符单元为恶意地址集的所有恶意地址在同一位置处相同且字符个数最多的字符单元,第二干扰字符单元为恶意地址集的所有恶意地址中除第二公共字符单元之外的字符单元;
第六确定模块308,用于确定第三频率和第四频率,第三频率为第二公共字符单元在多个恶意地址中出现的频率,第四频率为第二干扰字符单元在多个恶意地址中出现的频率;
第七确定模块309,用于基于第三频率和第四频率,确定第二比例;
第八确定模块310,用于基于多个第二比例,确定指定比例,多个第二比例与多个恶意地址集一一对应。
可选地,参照图3G,该第八确定模块310包括:
第四计算子模块3101,用于将多个第二比例中大于或等于目标比例的个数除以多个第二比例的总个数,得到目标数值;
第四确定子模块3102,用于当目标数值大于或等于指定数值时,确定目标比例为指定比例。
在本公开实施例中,对待识别的多个收货地址进行聚合,得到至少一个收货地址集,对于该至少一个收货地址集中的每个收货地址集,确定该收货地址集的第一公共字符单元和第一干扰字符单元,之后,确定第一频率和第二频率,第一频率为第一公共字符单元在该多个收货地址中出现的频率,第二频率为第一干扰字符单元在该多个收货地址中出现的频率,进而基于第一频率和第二频率,确定第一比例,当第一比例大于或等于指定比例时,确定该收货地址集的所有收货地址对应的订单均为恶意订单。由于是使用基于第一频率和第二频率确定的第一比例来对恶意订单进行识别,从而相比于相关技术中仅基于收货地址之间的相似度对恶意订单进行识别的方式,本公开实施例可以大大提高恶意订单识别的准确度。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于恶意订单识别的装置400的框图。例如,装置400可以被提供为一服务器。参照图4,装置400包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422的执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。
装置400还可以包括一个电源组件426被配置为执行装置400的电源管理,一个有线或无线网络接口450被配置为将装置400连接到网络,和一个输入输出(I/O)接口458。装置400可以操作基于存储在存储器432的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
此外,处理组件422被配置为执行指令,以执行一种恶意地址识别方法,该方法包括:
对待识别的多个收货地址进行聚合,得到至少一个收货地址集,至少一个收货地址集中任意两个收货地址集之间不包括相同的收货地址;
对于至少一个收货地址集中的每个收货地址集,确定收货地址集的第一公共字符单元和第一干扰字符单元,第一公共字符单元为收货地址集的所有收货地址在同一位置处相同且字符个数最多的字符单元,第一干扰字符单元为收货地址集的所有收货地址中除第一公共字符单元之外的字符单元;
确定第一频率和第二频率,第一频率为第一公共字符单元在多个收货地址中出现的频率,第二频率为第一干扰字符单元在多个收货地址中出现的频率;
基于第一频率和第二频率,确定第一比例;
当第一比例大于或等于指定比例时,确定收货地址集的所有收货地址对应的订单均为恶意订单。
可选地,对待识别的多个收货地址进行聚合,得到至少一个收货地址集,包括:
对于多个收货地址中的每个收货地址,分别从收货地址的多个特定位置处开始截取指定个数的字符,得到多个字符单元;
对于多个字符单元中的每个字符单元,基于字符单元和字符单元在收货地址中的位置区间,生成标记单元,位置区间用于指示字符单元在收货地址中的开始位置和结束位置;
将多个收货地址中满足指定条件的收货地址组合成一个收货地址集,指定条件为包括相同标记单元且相同标记单元在多个收货地址中出现的频率大于第一指定频率。
可选地,确定收货地址集的第一公共字符单元和第一干扰字符单元,包括:
确定多个标记单元,收货地址集的所有收货地址均在同一位置处包含多个标记单元中每个标记单元对应的字符单元;
将多个标记单元中位置区间相邻或相交的标记单元对应的字符单元组合为公共字符单元;
将组合得到的公共字符单元中字符个数最多的字符单元确定为第一公共字符单元;
将收货地址集的所有收货地址中除第一公共字符单元之外的字符单元确定为第一干扰字符单元。
可选地,确定第一频率,包括:
按照指定切分规则,对第一公共字符单元进行切分,得到多个第一分词;
从多个收货地址的辅助词表中,获取多个第一分词中每个第一分词对应的频率,多个收货地址的辅助词表用于对应存储目标分词和目标分词在多个收货地址中出现的频率,目标分词在多个收货地址中出现的频率大于第二指定频率;
将多个第一分词中每个第一分词对应的频率进行累加,得到第一频率。
可选地,确定第二频率,包括:
按照指定切分规则,对第一干扰字符单元进行切分,得到多个第二分词;
从多个收货地址的辅助词表中,获取多个第二分词中每个第二分词对应的频率;
将多个第二分词中每个第二分词对应的频率进行累加,得到第二频率。
可选地,基于第一频率和第二频率,确定第一比例,包括:
基于第一频率和第二频率,通过如下指定公式得到第一比例;
指定公式为:或者,
其中,S为第一比例,F为第一频率,f为第二频率,L为多个收货地址包括的字符个数。
可选地,当第一比例大于或等于指定比例时,确定收货地址集的所有收货地址对应的订单均为恶意订单之前,还包括:
对存储的多个恶意地址进行聚合,得到至少一个恶意地址集,至少一个恶意地址集中任意两个恶意地址集之间不包括相同的恶意地址;
对于至少一个恶意地址集中的每个恶意地址集,确定恶意地址集的第二公共字符单元和第二干扰字符单元,第二公共字符单元为恶意地址集的所有恶意地址在同一位置处相同且字符个数最多的字符单元,第二干扰字符单元为恶意地址集的所有恶意地址中除第二公共字符单元之外的字符单元;
确定第三频率和第四频率,第三频率为第二公共字符单元在多个恶意地址中出现的频率,第四频率为第二干扰字符单元在多个恶意地址中出现的频率;
基于第三频率和第四频率,确定第二比例;
基于多个第二比例,确定指定比例,多个第二比例与多个恶意地址集一一对应。
可选地,基于多个第二比例,确定指定比例,包括:
将多个第二比例中大于或等于目标比例的个数除以多个第二比例的总个数,得到目标数值;
当目标数值大于或等于指定数值时,确定目标比例为指定比例。
在本公开实施例中,对待识别的多个收货地址进行聚合,得到至少一个收货地址集,对于该至少一个收货地址集中的每个收货地址集,确定该收货地址集的第一公共字符单元和第一干扰字符单元,之后,确定第一频率和第二频率,第一频率为第一公共字符单元在该多个收货地址中出现的频率,第二频率为第一干扰字符单元在该多个收货地址中出现的频率,进而基于第一频率和第二频率,确定第一比例,当第一比例大于或等于指定比例时,确定该收货地址集的所有收货地址对应的订单均为恶意订单。由于是使用基于第一频率和第二频率确定的第一比例来对恶意订单进行识别,从而相比于相关技术中仅基于收货地址之间的相似度对恶意订单进行识别的方式,本公开实施例可以大大提高恶意订单识别的准确度。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (17)

1.一种恶意订单识别方法,其特征在于,所述方法包括:
对待识别的多个收货地址进行聚合,得到至少一个收货地址集,所述至少一个收货地址集中任意两个收货地址集之间不包括相同的收货地址;
对于所述至少一个收货地址集中的每个收货地址集,确定所述收货地址集的第一公共字符单元和第一干扰字符单元,所述第一公共字符单元为所述收货地址集的所有收货地址在同一位置处相同且字符个数最多的字符单元,所述第一干扰字符单元为所述收货地址集的所有收货地址中除所述第一公共字符单元之外的字符单元;
确定第一频率和第二频率,所述第一频率为所述第一公共字符单元在所述多个收货地址中出现的频率,所述第二频率为所述第一干扰字符单元在所述多个收货地址中出现的频率;
基于所述第一频率和所述第二频率,确定第一比例;
当所述第一比例大于或等于指定比例时,确定所述收货地址集的所有收货地址对应的订单均为恶意订单。
2.如权利要求1所述的方法,其特征在于,所述对待识别的多个收货地址进行聚合,得到至少一个收货地址集,包括:
对于所述多个收货地址中的每个收货地址,分别从所述收货地址的多个特定位置处开始截取指定个数的字符,得到多个字符单元;
对于所述多个字符单元中的每个字符单元,基于所述字符单元和所述字符单元在所述收货地址中的位置区间,生成标记单元,所述位置区间用于指示所述字符单元在所述收货地址中的开始位置和结束位置;
将所述多个收货地址中满足指定条件的收货地址组合成一个收货地址集,所述指定条件为包括相同标记单元且所述相同标记单元在所述多个收货地址中出现的频率大于第一指定频率。
3.如权利要求2所述的方法,其特征在于,所述确定所述收货地址集的第一公共字符单元和第一干扰字符单元,包括:
确定多个标记单元,所述收货地址集的所有收货地址均在同一位置处包含所述多个标记单元中每个标记单元对应的字符单元;
将所述多个标记单元中位置区间相邻或相交的标记单元对应的字符单元组合为公共字符单元;
将组合得到的公共字符单元中字符个数最多的字符单元确定为所述第一公共字符单元;
将所述收货地址集的所有收货地址中除所述第一公共字符单元之外的字符单元确定为所述第一干扰字符单元。
4.如权利要求1所述的方法,其特征在于,所述确定第一频率,包括:
按照指定切分规则,对所述第一公共字符单元进行切分,得到多个第一分词;
从所述多个收货地址的辅助词表中,获取所述多个第一分词中每个第一分词对应的频率,所述多个收货地址的辅助词表用于对应存储目标分词和所述目标分词在所述多个收货地址中出现的频率,所述目标分词在所述多个收货地址中出现的频率大于第二指定频率;
将所述多个第一分词中每个第一分词对应的频率进行累加,得到所述第一频率。
5.如权利要求1所述的方法,其特征在于,所述确定第二频率,包括:
按照指定切分规则,对所述第一干扰字符单元进行切分,得到多个第二分词;
从所述多个收货地址的辅助词表中,获取所述多个第二分词中每个第二分词对应的频率;
将所述多个第二分词中每个第二分词对应的频率进行累加,得到所述第二频率。
6.如权利要求1所述的方法,其特征在于,所述基于所述第一频率和所述第二频率,确定第一比例,包括:
基于所述第一频率和所述第二频率,通过如下指定公式得到所述第一比例;
所述指定公式为:或者,
其中,S为所述第一比例,F为所述第一频率,f为所述第二频率,L为所述多个收货地址包括的字符个数。
7.如权利要求1-6任一权利要求所述的方法,其特征在于,所述当所述第一比例大于或等于指定比例时,确定所述收货地址集的所有收货地址对应的订单均为恶意订单之前,还包括:
对存储的多个恶意地址进行聚合,得到至少一个恶意地址集,所述至少一个恶意地址集中任意两个恶意地址集之间不包括相同的恶意地址;
对于所述至少一个恶意地址集中的每个恶意地址集,确定所述恶意地址集的第二公共字符单元和第二干扰字符单元,所述第二公共字符单元为所述恶意地址集的所有恶意地址在同一位置处相同且字符个数最多的字符单元,所述第二干扰字符单元为所述恶意地址集的所有恶意地址中除所述第二公共字符单元之外的字符单元;
确定第三频率和第四频率,所述第三频率为所述第二公共字符单元在所述多个恶意地址中出现的频率,所述第四频率为所述第二干扰字符单元在所述多个恶意地址中出现的频率;
基于所述第三频率和所述第四频率,确定第二比例;
基于多个第二比例,确定所述指定比例,所述多个第二比例与所述多个恶意地址集一一对应。
8.如权利要求7所述的方法,其特征在于,所述基于多个第二比例,确定所述指定比例,包括:
将所述多个第二比例中大于或等于目标比例的个数除以所述多个第二比例的总个数,得到目标数值;
当所述目标数值大于或等于指定数值时,确定所述目标比例为所述指定比例。
9.一种恶意订单识别装置,其特征在于,所述装置包括:
第一聚合模块,用于对待识别的多个收货地址进行聚合,得到至少一个收货地址集,所述至少一个收货地址集中任意两个收货地址集之间不包括相同的收货地址;
第一确定模块,用于对于所述至少一个收货地址集中的每个收货地址集,确定所述收货地址集的第一公共字符单元和第一干扰字符单元,所述第一公共字符单元为所述收货地址集的所有收货地址在同一位置处相同且字符个数最多的字符单元,所述第一干扰字符单元为所述收货地址集的所有收货地址中除所述第一公共字符单元之外的字符单元;
第二确定模块,用于确定第一频率和第二频率,所述第一频率为所述第一公共字符单元在所述多个收货地址中出现的频率,所述第二频率为所述第一干扰字符单元在所述多个收货地址中出现的频率;
第三确定模块,用于基于所述第一频率和所述第二频率,确定第一比例;
第四确定模块,用于当所述第一比例大于或等于指定比例时,确定所述收货地址集的所有收货地址对应的订单均为恶意订单。
10.如权利要求9所述的装置,其特征在于,所述第一聚合模块包括:
截取子模块,用于对于所述多个收货地址中的每个收货地址,分别从所述收货地址的多个特定位置处开始截取指定个数的字符,得到多个字符单元;
生成子模块,用于对于所述多个字符单元中的每个字符单元,基于所述字符单元和所述字符单元在所述收货地址中的位置区间,生成标记单元,所述位置区间用于指示所述字符单元在所述收货地址中的开始位置和结束位置;
第一组合子模块,用于将所述多个收货地址中满足指定条件的收货地址组合成一个收货地址集,所述指定条件为包括相同标记单元且所述相同标记单元在所述多个收货地址中出现的频率大于第一指定频率。
11.如权利要求10所述的装置,其特征在于,所述第一确定模块包括:
第一确定子模块,用于确定多个标记单元,所述收货地址集的所有收货地址均在同一位置处包含所述多个标记单元中每个标记单元对应的字符单元;
第二组合子模块,用于将所述多个标记单元中位置区间相邻或相交的标记单元对应的字符单元组合为公共字符单元;
第二确定子模块,用于将组合得到的公共字符单元中字符个数最多的字符单元确定为所述第一公共字符单元;
第三确定子模块,用于将所述收货地址集的所有收货地址中除所述第一公共字符单元之外的字符单元确定为所述第一干扰字符单元。
12.如权利要求9所述的装置,其特征在于,所述第二确定模块包括:
第一切分子模块,用于按照指定切分规则,对所述第一公共字符单元进行切分,得到多个第一分词;
第一获取子模块,用于从所述多个收货地址的辅助词表中,获取所述多个第一分词中每个第一分词对应的频率,所述多个收货地址的辅助词表用于对应存储目标分词和所述目标分词在所述多个收货地址中出现的频率,所述目标分词在所述多个收货地址中出现的频率大于第二指定频率;
第一计算子模块,用于将所述多个第一分词中每个第一分词对应的频率进行累加,得到所述第一频率。
13.如权利要求9所述的装置,其特征在于,所述第二确定模块包括:
第二切分子模块,用于按照指定切分规则,对所述第一干扰字符单元进行切分,得到多个第二分词;
第二获取子模块,用于从所述多个收货地址的辅助词表中,获取所述多个第二分词中每个第二分词对应的频率;
第二计算子模块,用于将所述多个第二分词中每个第二分词对应的频率进行累加,得到所述第二频率。
14.如权利要求9所述的装置,其特征在于,所述第三确定模块包括:
第三计算子模块,用于基于所述第一频率和所述第二频率,通过如下指定公式得到所述第一比例;
所述指定公式为:或者,
其中,5为所述第一比例,F为所述第一频率,f为所述第二频率,L为所述多个收货地址包括的字符个数。
15.如权利要求9-14任一权利要求所述的装置,其特征在于,所述装置还包括:
第二聚合模块,用于对存储的多个恶意地址进行聚合,得到至少一个恶意地址集,所述至少一个恶意地址集中任意两个恶意地址集之间不包括相同的恶意地址;
第五确定模块,用于对于所述至少一个恶意地址集中的每个恶意地址集,确定所述恶意地址集的第二公共字符单元和第二干扰字符单元,所述第二公共字符单元为所述恶意地址集的所有恶意地址在同一位置处相同且字符个数最多的字符单元,所述第二干扰字符单元为所述恶意地址集的所有恶意地址中除所述第二公共字符单元之外的字符单元;
第六确定模块,用于确定第三频率和第四频率,所述第三频率为所述第二公共字符单元在所述多个恶意地址中出现的频率,所述第四频率为所述第二干扰字符单元在所述多个恶意地址中出现的频率;
第七确定模块,用于基于所述第三频率和所述第四频率,确定第二比例;
第八确定模块,用于基于多个第二比例,确定所述指定比例,所述多个第二比例与所述多个恶意地址集一一对应。
16.如权利要求15所述的装置,其特征在于,所述第八确定模块包括:
第四计算子模块,用于将所述多个第二比例中大于或等于目标比例的个数除以所述多个第二比例的总个数,得到目标数值;
第四确定子模块,用于当所述目标数值大于或等于指定数值时,确定所述目标比例为所述指定比例。
17.一种恶意订单识别装置,其特征在于,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
对待识别的多个收货地址进行聚合,得到至少一个收货地址集,所述至少一个收货地址集中任意两个收货地址集之间不包括相同的收货地址;
对于所述至少一个收货地址集中的每个收货地址集,确定所述收货地址集的第一公共字符单元和第一干扰字符单元,所述第一公共字符单元为所述收货地址集的所有收货地址在同一位置处相同且字符个数最多的字符单元,所述第一干扰字符单元为所述收货地址集的所有收货地址中除所述第一公共字符单元之外的字符单元;
确定第一频率和第二频率,所述第一频率为所述第一公共字符单元在所述多个收货地址中出现的频率,所述第二频率为所述第一干扰字符单元在所述多个收货地址中出现的频率;
基于所述第一频率和所述第二频率,确定第一比例;
当所述第一比例大于或等于指定比例时,确定所述收货地址集的所有收货地址对应的订单均为恶意订单。
CN201610757755.5A 2016-08-29 2016-08-29 恶意订单识别方法及装置 Active CN106779899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610757755.5A CN106779899B (zh) 2016-08-29 2016-08-29 恶意订单识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610757755.5A CN106779899B (zh) 2016-08-29 2016-08-29 恶意订单识别方法及装置

Publications (2)

Publication Number Publication Date
CN106779899A true CN106779899A (zh) 2017-05-31
CN106779899B CN106779899B (zh) 2020-09-18

Family

ID=58972115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610757755.5A Active CN106779899B (zh) 2016-08-29 2016-08-29 恶意订单识别方法及装置

Country Status (1)

Country Link
CN (1) CN106779899B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644366A (zh) * 2017-09-28 2018-01-30 携程旅游信息技术(上海)有限公司 订单欺诈识别方法、系统、存储介质和电子设备
CN109379361A (zh) * 2018-10-22 2019-02-22 同盾控股有限公司 一种地址的标签确定方法和装置
CN109509048A (zh) * 2017-09-15 2019-03-22 北京京东尚科信息技术有限公司 恶意订单识别方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085093A1 (en) * 2003-12-24 2006-04-20 Emmanuel Miette Method of processing postal items with account being taken of extra expense due to wrong delivery
CN105389722A (zh) * 2015-11-20 2016-03-09 小米科技有限责任公司 恶意订单识别方法及装置
CN105468742A (zh) * 2015-11-25 2016-04-06 小米科技有限责任公司 恶意订单识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085093A1 (en) * 2003-12-24 2006-04-20 Emmanuel Miette Method of processing postal items with account being taken of extra expense due to wrong delivery
CN105389722A (zh) * 2015-11-20 2016-03-09 小米科技有限责任公司 恶意订单识别方法及装置
CN105468742A (zh) * 2015-11-25 2016-04-06 小米科技有限责任公司 恶意订单识别方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509048A (zh) * 2017-09-15 2019-03-22 北京京东尚科信息技术有限公司 恶意订单识别方法、装置、电子设备及存储介质
CN109509048B (zh) * 2017-09-15 2020-09-29 北京京东尚科信息技术有限公司 恶意订单识别方法、装置、电子设备及存储介质
CN107644366A (zh) * 2017-09-28 2018-01-30 携程旅游信息技术(上海)有限公司 订单欺诈识别方法、系统、存储介质和电子设备
CN107644366B (zh) * 2017-09-28 2021-06-18 携程旅游信息技术(上海)有限公司 订单欺诈识别方法、系统、存储介质和电子设备
CN109379361A (zh) * 2018-10-22 2019-02-22 同盾控股有限公司 一种地址的标签确定方法和装置
CN109379361B (zh) * 2018-10-22 2021-09-24 同盾控股有限公司 一种地址的标签确定方法和装置

Also Published As

Publication number Publication date
CN106779899B (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN110648185B (zh) 一种目标人群圈选方法、装置及计算机设备
CN106503006B (zh) 应用App中子应用的排序方法及装置
CN105389722B (zh) 恶意订单识别方法及装置
CN105335409B (zh) 一种目标用户的确定方法、设备和网络服务器
US8843492B2 (en) Record linkage based on a trained blocking scheme
US20210035126A1 (en) Data processing method, system and computer device based on electronic payment behaviors
CN107506495B (zh) 信息推送方法和装置
CN109741173B (zh) 可疑洗钱团伙的识别方法、装置、设备及计算机存储介质
CN109840533B (zh) 一种应用拓扑图识别方法及装置
US20160034968A1 (en) Method and device for determining target user, and network server
CN104579909B (zh) 一种用户信息的分类、用户分组信息的获取方法和设备
CN109299334B (zh) 一种知识图谱的数据处理方法及装置
CN110033331A (zh) 一种优惠券的发放方法、系统及终端设备
WO2016101811A1 (zh) 一种信息排序方法及装置
CN113609345B (zh) 目标对象关联方法和装置、计算设备以及存储介质
US11720622B2 (en) Machine learning multiple features of depicted item
CN110727857A (zh) 针对业务对象识别潜在用户的关键特征的方法及装置
CN105912679A (zh) 一种数据查询的方法和装置
CN106779899A (zh) 恶意订单识别方法及装置
CN111814065A (zh) 信息传播路径分析方法、装置、计算机设备及存储介质
US20210192000A1 (en) Searching using changed feature of viewed item
CN109460930B (zh) 一种确定风险账户的方法以及相关设备
US20180107763A1 (en) Prediction using fusion of heterogeneous unstructured data
CN104881308B (zh) 一种应用程序的处理方法及装置
CN110717095A (zh) 服务项目的推送方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant