CN106251202B - 恶意订单识别方法及装置 - Google Patents
恶意订单识别方法及装置 Download PDFInfo
- Publication number
- CN106251202B CN106251202B CN201610616917.3A CN201610616917A CN106251202B CN 106251202 B CN106251202 B CN 106251202B CN 201610616917 A CN201610616917 A CN 201610616917A CN 106251202 B CN106251202 B CN 106251202B
- Authority
- CN
- China
- Prior art keywords
- order
- frequency
- frequencies
- determining
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
- G06Q30/0637—Approvals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
- G06Q30/0225—Avoiding frauds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
- G06Q30/0239—Online discounts or incentives
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开是关于一种恶意订单识别方法及装置,属于网络技术领域,该方法通过接收终端在营销活动时间段内发送的订单,订单包括订单地址,按照预设切分规则,对订单地址进行切分,得到多个分词,确定多个第一频次,多个第一频次分别为多个分词在缓存库中出现的频次,缓存库用于存储多个订单地址进行切分之后的分词,以及切分后的各个分词在缓存库中出现的频次,基于预设相似比例阈值和多个第一频次,确定多个分词中的目标分词在缓存库中出现的频次,当目标分词在缓存库中出现的频次大于或等于预设频次阈值时,确定该订单为恶意订单,如此,通过确定订单中的订单地址的相似性和相似订单地址出现的频次,判断该订单是否为恶意订单,以便阻止恶意订单。
Description
技术领域
本公开涉及网络技术领域,尤其涉及一种恶意订单识别方法及装置。
背景技术
随着网络技术和电子商务技术的快速发展,在一些网络业务中,各种营销活动层出不穷,例如,抢购、大规模促销等,在该类营销活动中,其主要特点为:商家将指定数量的商品定价为较低的价格,并在某个指定时间点,在网络上开始开放销售。
在实际生活中,针对上述类型的营销活动,往往会有一些用户使用恶意下单的方式抢购该商品,也即是,该用户通过终端预先注册或购买多个用户账号,并在该多个用户账号包括的每个用户账号中预先填写订单地址等信息,之后,当达到该指定时间点时,该终端基于每个用户账号,利用计算机程序自动进行购买下单操作,如此,导致严重影响活动的公平性。
发明内容
为克服相关技术中存在的问题,本公开提供一种恶意订单识别方法及装置。
第一方面,提供一种恶意订单识别方法,所述方法包括:
接收终端在营销活动时间段内发送的订单,所述订单包括订单地址;
按照预设切分规则,对所述订单地址进行切分,得到多个分词;
确定多个第一频次,所述多个第一频次分别为所述多个分词在缓存库中出现的频次,所述缓存库用于存储多个订单地址进行切分之后的分词,以及切分后的各个分词在所述缓存库中出现的频次,所述多个订单地址为在所述营销活动时间段内接收到的多个订单所包括的订单地址;
基于预设相似比例阈值和所述多个第一频次,确定所述多个分词中的目标分词在所述缓存库中出现的频次;
当所述目标分词在所述缓存库中出现的频次大于或等于预设频次阈值时,确定所述订单为恶意订单。
可选地,所述基于预设相似比例阈值和所述多个第一频次,确定所述多个分词中的目标分词在所述缓存库中出现的频次,包括:
按照所述多个第一频次中的每个第一频次从大到小的顺序,对所述多个第一频次进行排序,得到频次序列;
基于所述预设相似比例阈值和所述频次序列,确定所述多个分词中的目标分词在所述缓存库中出现的频次。
可选地,所述基于所述预设相似比例阈值和所述频次序列,确定所述多个分词中的目标分词在所述缓存库中出现的频次,包括:
确定所述频次序列包括的频次的个数;
按照指定策略,确定所述预设相似比例阈值与所述个数的乘积对应的整数N,其中,所述N大于等于1且小于等于所述个数;
按照所述频次序列包括的频次从大到小的顺序,从所述频次序列中获取第N个位置对应的频次;
将获取的频次确定为所述多个分词中的目标分词在所述缓存库中出现的频次。
可选地,所述确定所述订单为恶意订单之后,还包括:
对于所述多个第一频次中的每个第一频次,将所述第一频次增加指定数值;
分别将所述多个第一频次更新为增加后的第一频次。
可选地,所述按照预设切分规则,对所述订单地址进行切分之前,还包括:
删除所述订单地址中包括的指定字符,所述指定字符是指除了文字字符、数字字符以及字母字符之外的字符。
可选地,所述预设切分规则包括二字切分算法和三字切分算法中的任一种。
第二方面,提供一种恶意订单识别装置,所述装置包括:
接收模块,用于接收终端在营销活动时间段内发送的订单,所述订单包括订单地址;
切分模块,用于按照预设切分规则,对所述接收模块接收的所述订单地址进行切分,得到多个分词;
第一确定模块,用于确定多个第一频次,所述多个第一频次分别为所述切分模块切分的所述多个分词在缓存库中出现的频次,所述缓存库用于存储多个订单地址进行切分之后的分词,以及切分后的各个分词在所述缓存库中出现的频次,所述多个订单地址为在所述营销活动时间段内接收到的多个订单所包括的订单地址;
第二确定模块,用于基于预设相似比例阈值和所述第一确定模块确定的所述多个第一频次,确定所述多个分词中的目标分词在所述缓存库中出现的频次;
第三确定模块,用于当所述第二确定模块确定的所述目标分词在所述缓存库中出现的频次大于或等于预设频次阈值时,确定所述订单为恶意订单。
可选地,所述第二确定模块包括:
排序子模块,用于按照所述多个第一频次中的每个第一频次从大到小的顺序,对所述多个第一频次进行排序,得到频次序列;
确定子模块,用于基于所述预设相似比例阈值和所述排序子模块排序得到的所述频次序列,确定所述多个分词中的目标分词在所述缓存库中出现的频次。
可选地,所述确定子模块用于:
确定所述频次序列包括的频次的个数;
按照指定策略,确定所述预设相似比例阈值与所述个数的乘积对应的整数N,其中,所述N大于等于1且小于等于所述个数;
按照所述频次序列包括的频次从大到小的顺序,从所述频次序列中获取第N个位置对应的频次;
将获取的频次确定为所述多个分词中的目标分词在所述缓存库中出现的频次。
可选地,所述装置还包括:
增加模块,用于对于所述多个第一频次中的每个第一频次,将所述第一频次增加指定数值;
更新模块,用于分别将所述多个第一频次更新为所述增加模块增加后的第一频次。
可选地,所述装置还包括:
删除模块,用于删除所述订单地址中包括的指定字符,所述指定字符是指除了文字字符、数字字符以及字母字符之外的字符。
可选地,所述预设切分规则包括二字切分算法和三字切分算法中的任一种。
第三方面,提供了一种恶意订单识别装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
接收终端在营销活动时间段内发送的订单,所述订单包括订单地址;
按照预设切分规则,对所述订单地址进行切分,得到多个分词;
确定多个第一频次,所述多个第一频次分别为所述多个分词在缓存库中出现的频次,所述缓存库用于存储多个订单地址进行切分之后的分词,以及切分后的各个分词在所述缓存库中出现的频次,所述多个订单地址为在所述营销活动时间段内接收到的多个订单所包括的订单地址;
基于预设相似比例阈值和所述多个第一频次,确定所述多个分词中的目标分词在所述缓存库中出现的频次;
当所述目标分词在所述缓存库中出现的频次大于或等于预设频次阈值时,确定所述订单为恶意订单。
本公开的实施例提供的技术方案可以包括以下有益效果:
在本公开实施例中,用户可以通过终端向服务器提交订单,也即是,该终端向服务器发送携带订单地址的订单,为了判断该订单是否为恶意订单,该服务器接收到该订单后,从该订单中获取该订单地址,并按照预设切分规则,对该订单地址进行切分,得到多个分词,之后,该服务器确定该多个分词在缓存库中出现的频次,并基于预设相似比例阈值和该多个分词在缓存库中出现的频次,确定该多个分词中的目标分词在该缓存库中出现的频次,由于该缓存库中存储的是对营销活动时间段内接收到的多个订单地址进行切分之后的分词,因此,当该目标分词在缓存库中出现的频次大于或等于预设频次阈值时,说明在该营销活动时间段内,已经接收到了多个与该订单地址相似的订单地址,所以该服务器确定该订单为恶意订单,在该种情况下,该服务器便可以阻止该订单,即控制该订单下单失败,如此,提高了活动的公平性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1A是根据一示例性实施例示出的一种实施环境示意图。
图1B是根据一示例性实施例示出的一种恶意订单识别方法的流程图。
图2是根据另一示例性实施例示出的一种恶意订单识别方法的流程图。
图3A是根据一示例性实施例示出的一种恶意订单识别装置的框图。
图3B是根据另一示例性实施例示出的一种恶意订单识别装置的框图。
图3C是根据另一示例性实施例示出的一种恶意订单识别装置的框图。
图4是根据一示例性实施例示出的一种恶意订单识别装置400的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在对本公开实施例进行详细地解释说明之前,先对本公开实施例的应用场景予以说明。请参考图1A,该图1A是根据一示例性实施例示出的一种实施环境示意图,该实施环境中主要包括终端110和服务器120,该终端110可以通过有线网络或者无线网络与该服务器120之间建立通信连接。其中,用户可以通过该终端110中运行的浏览器或者客户端登录营销网站,以进行商品下单等操作。该服务器120主要用于实现本公开实施例提供的恶意订单识别方法。
图1B是根据一示例性实施例示出的一种恶意订单识别方法的流程图,如图1B所示,该恶意订单识别方法用于服务器中,包括以下步骤。
在步骤101中,接收终端在营销活动时间段内发送的订单,该订单包括订单地址。
在步骤102中,按照预设切分规则,对该订单地址进行切分,得到多个分词。
在步骤103中,确定多个第一频次,该多个第一频次分别为该多个分词在缓存库中出现的频次,该缓存库用于存储多个订单地址进行切分之后的分词,以及切分后的各个分词在该缓存库中出现的频次,该多个订单地址为在该营销活动时间段内接收到的多个订单所包括的订单地址。
在步骤104中,基于预设相似比例阈值和该多个第一频次,确定该多个分词中的目标分词在该缓存库中出现的频次。
在步骤105中,当该目标分词在该缓存库中出现的频次大于或等于预设频次阈值时,确定该订单为恶意订单。
在本公开实施例中,用户可以通过终端向服务器提交订单,也即是,该终端向服务器发送携带订单地址的订单,为了判断该订单是否为恶意订单,该服务器接收到该订单后,从该订单中获取该订单地址,并按照预设切分规则,对该订单地址进行切分,得到多个分词,之后,该服务器确定该多个分词在缓存库中出现的频次,并基于预设相似比例阈值和该多个分词在缓存库中出现的频次,确定该多个分词中的目标分词在该缓存库中出现的频次,由于该缓存库中存储的是对营销活动时间段内接收到的多个订单地址进行切分之后的分词,因此,当该目标分词在缓存库中出现的频次大于或等于预设频次阈值时,说明在该营销活动时间段内,已经接收到了多个与该订单地址相似的订单地址,所以该服务器确定该订单为恶意订单,在该种情况下,该服务器便可以阻止该订单,即控制该订单下单失败,如此,提高了活动的公平性。
可选地,基于预设相似比例阈值和该多个第一频次,确定该多个分词中的目标分词在该缓存库中出现的频次,包括:
按照该多个第一频次中的每个第一频次从大到小的顺序,对该多个第一频次进行排序,得到频次序列;
基于该预设相似比例阈值和该频次序列,确定该多个分词中的目标分词在该缓存库中出现的频次。
可选地,基于该预设相似比例阈值和该频次序列,确定该多个分词中的目标分词在该缓存库中出现的频次,包括:
确定该频次序列包括的频次的个数;
按照指定策略,确定该预设相似比例阈值与该个数的乘积对应的整数N,其中,该N大于等于1且小于等于该个数;
按照该频次序列包括的频次从大到小的顺序,从该频次序列中获取第N个位置对应的频次;
将获取的频次确定为该多个分词中的目标分词在该缓存库中出现的频次。
可选地,确定该订单为恶意订单之后,还包括:
对于该多个第一频次中的每个第一频次,将该第一频次增加指定数值;
分别将该多个第一频次更新为增加后的第一频次。
可选地,按照预设切分规则,对该订单地址进行切分之前,还包括:
删除该订单地址中包括的指定字符,该指定字符是指除了文字字符、数字字符以及字母字符之外的字符。
可选地,该预设切分规则包括二字切分算法和三字切分算法中的任一种。
上述所有可选技术方案,均可按照任意结合形成本公开的可选实施例,本公开实施例对此不再一一赘述。
图2是根据一示例性实施例示出的一种恶意订单识别方法的流程图,如图2所示,该恶意订单识别方法用于服务器中,该恶意订单识别方法包括以下步骤:
在步骤201中,接收终端在营销活动时间段内发送的订单,该订单包括订单地址。
本公开实施例提供的方法可以应用于抢购、大规模促销等营销活动中。在该类营销活动过程中,用户可以通过终端中运行的浏览器或者客户端登录到营销网站中,之后,该用户即可通过该终端在该营销网站中进行下单操作。其中,在下单之前或者在下单过程中,用户可以预先填写好订单地址,该订单地址即为俗称的收货地址,下单后的订单中至少包括该订单地址。
也即是,在该营销活动时间段内,在商品信息所在的界面中,该终端可以显示确认下单选项,该用户可以选中该商品,并点击该确认下单选项以触发下单指令,该终端接收到该下单指令后,基于该订单地址和该商品信息等,生产订单,并向服务器发送该订单。
需要说明的是,上述仅是以点击方式触发该下单指令为例进行说明,在另一实施例中,还可以通过其它指定操作来触发该下单指令,该指定操作可以包括滑动操作等,本公开实施例对此不做限定。
还需要说明的是,上述仅是以该用户直接对商品进行下单为例进行说明,在另一实施例中,该用户还可以先将该商品添加至购物车中,之后,基于该购物车对该商品进行下单,本公开实施例对此不做限定。其中,该购物车用于存储用户选择的商品。
另外,还需要说明的是,在一种可能的实现方式中,该终端可以通过指定协议发送该订单,例如,该指定协议可以为HTTP(Hypertext transfer protocol,超文本传送)等,本公开实施例对此不做限定。
其中,通常情况下,上述订单地址主要包括文字字符、数字字符以及字母字符中的至少一种,当然,除此之外,该订单地址中还可能包括一些停用字符,例如,该订单地址中还可能包括诸如符号等之类的字符,其中,该符号字符包括标点、空格等。例如,该订单地址可以为“北京市,海淀区,西三环北路18号A大厦615室”。
在步骤202中,按照预设切分规则,对该订单地址进行切分,得到多个分词。
该服务器接收到该终端发送的订单后,从该订单中获取该订单地址,为了判断该订单是否为恶意订单,该服务器对该订单地址进行识别,也即是,该服务器按照预设切分规则,对该订单地址进行切分。其中,在此之前,如上文所述,由于该订单地址中可能包括诸如符号等之类的字符,而该符号字符容易影响对该订单地址的识别,因此,为了提高识别的准确性,在按照预设切分规则,对该订单地址进行切分之前,该服务器可以对该订单地址进行预处理。
也即是,该服务器删除该订单地址中包括的指定字符,该指定字符是指除了文字字符、数字字符以及字母字符之外的字符,也即是,指定字符可以即为上述的符号字符。
上述将该订单地址中包括的除了文字字符、数字字符以及字母字符之外的字符进行删除,以免影响后续对该订单地址的识别,提高了识别的准确性。
该服务器删除该订单地址中包括的指定字符之后,即可按照预设切分规则,对该订单地址进行切分,得到多个分词,在一种可能的实现方式中,该多个分词可以用词组进行表示。其中,该预设切分规则包括二字切分算法和三字切分算法中的任一种。
例如,以该预设切分规则为三字切分算法为例进行说明,当预处理后的订单地址为“北京市海淀区西三环北路18号A大厦615室”时,按照三字切分算法对该订单地址进行切分后,得到多个分词分别为:[北京市、京市海、市海淀、海淀区、淀区西、区西三、西三环、三环北、环北路、北路18、路18号、18号A、号A大、A大厦、大厦615、厦615室]。其中,在本公开实施例中,该数字字符可以看作为一个字符。
在本公开实施例中,通过使用上述预设切分规则对该订单地址进行切分,可以避免相关技术中的对齐等问题,提高了订单地址相似性计算的效果。
当然,需要说明的是,上述仅是以在预设切分规则包括二字切分算法和三字切分算法中的任一种为例进行说明,在另一实施例中,该预设切分规则还可以包括其它规则,例如,该预设切分规则还可以为其它多字切分算法,本公开实施例对此不做限定。
在步骤203中,确定多个第一频次,该多个第一频次分别为该多个分词在缓存库中出现的频次,该缓存库用于存储多个订单地址进行切分之后的分词,以及切分后的各个分词在该缓存库中出现的频次,该多个订单地址为在该营销活动时间段内接收到的多个订单所包括的订单地址。
在实际应用过程中,由于恶意订单具有群聚的特点,因此,该服务器对该订单地址进行切分得到多个分词后,基于该缓存库中存储的多个订单地址进行切分之后的各个分词在该缓存库中出现的频次,确定该多个分词中的每个分词在该缓存库中出现的频次。
其中,缓存库用于存储多个订单地址进行切分之后的分词,也就是说,在该营销活动时间段内,该服务器每当接收到终端发送的订单时,即对该订单按照上述预设切分规则进行切分,之后,将切分得到的分词存储至该缓存库中。
其中,该缓存库可以采用redis(重申)集群或者memcached(分布式缓存)集群部署的后端KV(Key Value,主键值)型分布式缓存系统实现,具体实现方式可以参见相关技术,本公开实施例对此不做限定。该分布式缓存系统拥有非常高的吞吐能力和访问效率,可以满足在线处理时长的要求。
在步骤204中,基于预设相似比例阈值和该多个第一频次,确定该多个分词中的目标分词在该缓存库中出现的频次。
其中,该预设相似比例阈值可以由用户根据实际需求自定义设置,也可以由该服务器默认设置,本公开实施例对此不做限定。
其中,该预设相似比例阈值可以用于指示该订单地址与营销活动时间段内接收的订单地址相似部分在该订单地址中所占的比例,并且,当该订单地址与营销活动时间段内接收的订单地址有该预设相似比例阈值部分相似时,说明该订单地址对应的订单很可能为恶意订单。例如,当该预设相似比例阈值为0.8时,说明只要该订单地址与营销活动时间段内接收到的订单地址有80%的部分相似,则说明该订单地址对应的订单可能为恶意订单,具体该订单地址对应的订单是否为恶意订单,服务器还需要判断该订单地址在营销活动时间段内出现的次数,详细过程请参见下文。
其中,上述基于预设相似比例阈值和该多个第一频次,确定该多个分词中的目标分词在该缓存库中出现的频次的实现过程包括:按照该多个第一频次中的每个第一频次从大到小的顺序,对该多个第一频次进行排序,得到频次序列,基于该预设相似比例阈值和该频次序列,确定该多个分词中的目标分词在该缓存库中出现的频次。
不难理解,通常情况下,订单地址的前面部分相似性较高,例如,以上述订单地址为例,在该订单地址中,“北京市海淀区西三环北路18号”部分与其它订单地址就很容易相似,但是,订单地址的后面部分大多数不太容易相似,比如,北京市海淀区西三环北路18号可能包括多个大厦,每个大厦有可能包括多个房间号,也即是,与订单地址的前面部分相比较,该订单地址的后面部分“A大厦615室”与其它订单地址相似的可能性通常比较小,因此,如果该订单地址中的后面部分“A大厦615室”在缓存库中出现的频次也较高,则可以说明该订单很可能为恶意订单。
因此,服务器需要判断对该订单地址进行切分后得到的多个分词中的目标分词在该缓存库中出现的频次,该目标分词在该缓存库中出现的频次可以代表相似度达到预设相似比例阈值或预设相似比例阈值以上的相似订单地址在营销活动时间段内出现的次数,例如,该目标分词可以为与该订单地址中的“A大厦”部分相关的分词。为此,该服务器按照该多个第一频次中的每个第一频次从大到小的顺序,对该多个第一频次进行排序,得到频次序列,例如,上述多个分词:北京市、京市海、市海淀、海淀区、淀区西、区西三、西三环、三环北、环北路、北路18、路18号、18号A、号A大、A大厦、大厦615、厦615室对应的频次序列为[15,15,14,14,14,14,13,12,12,11,11,9,8,8,7,6]。
其中,上述基于该预设相似比例阈值和该频次序列,确定该多个分词中的目标分词在该缓存库中出现的频次的实现过程包括:确定该频次序列包括的频次的个数,按照指定策略,确定该预设相似比例阈值与该个数的乘积对应的整数N,其中,该N大于等于1且小于等于该个数,按照该频次序列包括的频次从大到小的顺序,从该频次序列中获取第N个位置对应的频次,将获取的频次确定为该多个分词中的目标分词在该缓存库中出现的频次。
其中,该指定策略可以在服务器中事先设置,例如,该指定策略为四舍五入策略,当然,该指定策略也可以为其它策略,本公开实施例对此不做限定。
继续以上述例子为例,该频次序列中包括的频次的个数为16,该指定策略为四舍五入策略,则当该预设相似比例阈值为0.8时,该预设相似比例阈值与该个数的乘积对应的整数N为13。即该服务器在该频次序列中取第13个位置对应的频次8,并将该频次8确定该目标分词在该缓存库中出现的频次。
其中,在确定目标分词在缓存库中出现的频次的过程中,服务器还可以根据该预设相似比例阈值和该频次序列,确定量化数组,之后,将该量化数组中的最后一个位置对应的频次确定为该目标分词在缓存库中出现的频次。例如,在上述例子中,当确定该预设相似比例阈值与该个数的乘积对应的整数N为13时,获取该频次序列中的前13个位置对应的频次,可以得到量化数组[15,15,14,14,14,14,13,12,12,11,11,9,8],该服务器将该量化数组中的最后一个位置对应的频次8确定为该目标分词在缓存库中出现的频次。
在步骤205中,当该目标分词在该缓存库中出现的频次大于或等于预设频次阈值时,确定该订单为恶意订单。
其中,该预设频次阈值可以由用户根据实际需求自定义设置,也可以由该服务器默认设置,本公开实施例对此不做限定。
其中,该预设频次阈值即限定了可以成功下单的相似订单的数量,例如,当该预设频次阈值为5时,说明服务器只允许5个相似的订单下单成功。
当该目标分词在该缓存库中出现的频次大于或等于预设频次阈值时,说明营销活动开始时间点至当前时间点之间的时间段内,该服务器已经接收到了该预设频次阈值个与该订单地址相似的订单地址,此时,该服务器确认该订单地址对应的订单为恶意订单。
例如,当该预设频次阈值为5,且该目标分词在该缓存库中出现的频次为5次,在该种情况下,由于该目标分词在该缓存库中出现的频次5等于预设频次阈值5,即说明营销活动开始时间点至当前时间点之间的时间段内,该服务器已经接收到了5个与该订单地址相似的订单地址,因此,该服务器确定该订单地址对应的订单为恶意订单。
上述提供的恶意订单识别方法,能够实时在线识别出恶意订单,从而可以实时在线进行防护,提高了网络活动的公平性。
另外,在一种可能的实现方式中,当确定该订单为恶意订单时,该服务器可以向该终端返回下单失败通知消息。
当然,需要说明的是,当该目标分词在该缓存库中出现的频次小于该预设频次阈值时,确定该订单不是恶意订单,即该订单为正常订单,服务器可以对该订单进行后续的支付等处理。
需要说明的是,为了达到更高的准确率,本公开实施例提供的方法还可以结合其它恶意订单识别方法一起使用,本公开实施例对此不做限定。
至此,本公开实施例实现了恶意订单识别方法,其中,为了能够继续对后续接收的订单进行判断,该服务器在确定该订单为恶意订单之后,还基于该订单地址切分后得到的多个分词,对缓存库中存储的各个分词出现的频次进行了更新,具体请参见如下步骤206和步骤207。
在步骤206中,对于该多个第一频次中的每个第一频次,将该第一频次增加指定数值。
其中,该指定数值可以由用户根据实际需求自定义设置,也可以由该服务器默认设置,本公开实施例对此不做限定。
例如,当该指定数值为“1”时,说明在确定该订单为恶意订单后,针对该多个第一频次中的每个第一频次,该服务器将该第一频次加1,即对该分词在该缓存库中出现的频次累加1次。
在步骤207中,分别将该多个第一频次更新为增加后的第一频次。
该服务器将该第一频次增加指定数值后,对该缓存器中存储的多个分词的频次进行更新,即将该缓存库中存储的该多个分词的频次更新为增加后的频次,以便于该服务器对后续接收到的订单地址进行识别。
另外,还需要说明的是,由于本公开实施例中,该服务器是针对该营销活动时间段内的恶意订单进行识别,因此,当该营销活动结束时,需要清除该缓存中存储的数据,即该服务器删除该缓存中存储的多个订单地址进行切分之后的分词,以及切分后的各个分词在该缓存库中出现的频次,从而避免影响日常网络营销活动中该服务器对订单的正常处理。
在本公开实施例中,用户可以通过终端向服务器提交订单,也即是,该终端向服务器发送携带订单地址的订单,为了判断该订单是否为恶意订单,该服务器接收到该订单后,从该订单中获取该订单地址,并按照预设切分规则,对该订单地址进行切分,得到多个分词,之后,该服务器确定该多个分词在缓存库中出现的频次,并基于预设相似比例阈值和该多个分词在缓存库中出现的频次,确定该多个分词中的目标分词在该缓存库中出现的频次,由于该缓存库中存储的是对营销活动时间段内接收到的多个订单地址进行切分之后的分词,因此,当该目标分词在缓存库中出现的频次大于或等于预设频次阈值时,说明在该营销活动时间段内,已经接收到了多个与该订单地址相似的订单地址,所以该服务器确定该订单为恶意订单,在该种情况下,该服务器便可以阻止该订单,即控制该订单下单失败,如此,提高了活动的公平性。
图3A是根据一示例性实施例示出的一种恶意订单识别装置框图。参照图3A,该装置包括接收模块310,切分模块320、第一确定模块330、第二确定模块340和第三确定模块350。
接收模块310,用于接收终端在营销活动时间段内发送的订单,该订单包括订单地址;
切分模块320,用于按照预设切分规则,对该接收模块310接收的该订单地址进行切分,得到多个分词;
第一确定模块330,用于确定多个第一频次,该多个第一频次分别为该切分模块320切分的该多个分词在缓存库中出现的频次,该缓存库用于存储多个订单地址进行切分之后的分词,以及切分后的各个分词在该缓存库中出现的频次,该多个订单地址为在该营销活动时间段内接收到的多个订单所包括的订单地址;
第二确定模块340,用于基于预设相似比例阈值和该第一确定模块330确定的该多个第一频次,确定该多个分词中的目标分词在该缓存库中出现的频次;
第三确定模块350,用于当该第二确定模块340确定的该目标分词在该缓存库中出现的频次大于或等于预设频次阈值时,确定该订单为恶意订单。
在本公开实施例中,用户可以通过终端向服务器提交订单,也即是,该终端向服务器发送携带订单地址的订单,为了判断该订单是否为恶意订单,该服务器接收到该订单后,从该订单中获取该订单地址,并按照预设切分规则,对该订单地址进行切分,得到多个分词,之后,该服务器确定该多个分词在缓存库中出现的频次,并基于预设相似比例阈值和该多个分词在缓存库中出现的频次,确定该多个分词中的目标分词在该缓存库中出现的频次,由于该缓存库中存储的是对营销活动时间段内接收到的多个订单地址进行切分之后的分词,因此,当该目标分词在缓存库中出现的频次大于或等于预设频次阈值时,说明在该营销活动时间段内,已经接收到了多个与该订单地址相似的订单地址,所以该服务器确定该订单为恶意订单,在该种情况下,该服务器便可以阻止该订单,即控制该订单下单失败,如此,提高了活动的公平性。
可选地,请参考图3B至图3C,该第二确定模块340包括:
排序子模块,用于按照该多个第一频次中的每个第一频次从大到小的顺序,对该多个第一频次进行排序,得到频次序列;
确定子模块,用于基于该预设相似比例阈值和该排序子模块排序得到的该频次序列,确定该多个分词中的目标分词在该缓存库中出现的频次。
可选地,该确定子模块用于:
确定该频次序列包括的频次的个数;
按照指定策略,确定该预设相似比例阈值与该个数的乘积对应的整数N,其中,该N大于等于1且小于等于该个数;
按照该频次序列包括的频次从大到小的顺序,从该频次序列中获取第N个位置对应的频次;
将获取的频次确定为该多个分词中的目标分词在该缓存库中出现的频次。
可选地,该装置还包括:
增加模块360,用于对于该多个第一频次中的每个第一频次,将该第一频次增加指定数值;
更新模块370,用于分别将该多个第一频次更新为该增加模块360增加后的第一频次。
可选地,该装置还包括:
删除模块380,用于删除该订单地址中包括的指定字符,该指定字符是指除了文字字符、数字字符以及字母字符之外的字符。
可选地,该预设切分规则包括二字切分算法和三字切分算法中的任一种。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种恶意订单识别装置400的框图。例如,装置400可以被提供为一服务器。参照图4,装置400包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422的执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述方法。
装置400还可以包括一个电源组件426被配置为执行装置400的电源管理,一个有线或无线网络接口450被配置为将装置400连接到网络,和一个输入输出(I/O)接口458。装置400可以操作基于存储在存储器432的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (7)
1.一种恶意订单识别方法,其特征在于,所述方法包括:
接收终端在营销活动时间段内发送的订单,所述订单包括订单地址;按照预设切分规则,对所述订单地址进行切分,得到多个分词;
确定多个第一频次,所述多个第一频次分别为所述多个分词在缓存库中出现的频次,所述缓存库用于存储多个订单地址进行切分之后的分词,以及切分后的各个分词在所述缓存库中出现的频次,所述多个订单地址为在所述营销活动时间段内接收到的多个订单所包括的订单地址;
按照所述多个第一频次中的每个第一频次从大到小的顺序,对所述多个第一频次进行排序,得到频次序列;基于预设相似比例阈值和所述频次序列,确定所述多个分词中的目标分词在所述缓存库中出现的频次,所述预设相似比例阈值用于指示所述订单地址与营销活动时间段内接收的订单地址相似部分在所述订单地址中所占的比例;
当所述目标分词在所述缓存库中出现的频次大于或等于所述预设频次阈值时,确定所述订单为恶意订单;当确定该订单为恶意订单时,对于所述多个第一频次中的每个第一频次,将所述第一频次增加指定数值;分别将所述多个第一频次更新为增加后的第一频次,并向所述终端返回下单失败通知消息;
当所述营销活动结束时,清除所述缓存库中存储的在所述营销活动时间段内接收的多个订单地址进行切分之后的分词,以及切分后的各个分词在所述缓存库中出现的频次;
所述按照预设切分规则,对所述订单地址进行切分之前,还包括:
删除所述订单地址中包括的指定字符,所述指定字符是指除了文字字符、数字字符以及字母字符之外的字符。
2.如权利要求1所述的方法,其特征在于,所述基于预设相似比例阈值和所述频次序列,确定所述多个分词中的目标分词在所述缓存库中出现的频次,包括:
确定所述频次序列包括的频次的个数;
按照指定策略,确定所述预设相似比例阈值与所述个数的乘积对应的整数N,其中,所述N大于等于1且小于等于所述个数;
按照所述频次序列包括的频次从大到小的顺序,从所述频次序列中获取第N个位置对应的频次;
将获取的频次确定为所述多个分词中的目标分词在所述缓存库中出现的频次。
3.如权利要求1所述的方法,其特征在于,所述预设切分规则包括二字切分算法和三字切分算法中的任一种。
4.一种恶意订单识别装置,其特征在于,所述装置包括:
接收模块,用于接收终端在营销活动时间段内发送的订单,所述订单包括订单地址;
切分模块,用于按照预设切分规则,对所述接收模块接收的所述订单地址进行切分,得到多个分词;
第一确定模块,用于确定多个第一频次,所述多个第一频次分别为所述切分模块切分的所述多个分词在缓存库中出现的频次,所述缓存库用于存储多个订单地址进行切分之后的分词,以及切分后的各个分词在所述缓存库中出现的频次,所述多个订单地址为在所述营销活动时间段内接收到的多个订单所包括的订单地址;
第二确定模块,用于按照所述多个第一频次中的每个第一频次从大到小的顺序,对所述多个第一频次进行排序,得到频次序列;基于预设相似比例阈值和所述频次序列,确定所述多个分词中的目标分词在所述缓存库中出现的频次,所述预设相似比例阈值用于指示所述订单地址与营销活动时间段内接收的订单地址相似部分在所述订单地址中所占的比例;
第三确定模块,用于当所述第二确定模块确定的所述目标分词在所述缓存库中出现的频次大于或等于预设频次阈值时,确定所述订单为恶意订单;当确定该订单为恶意订单时,对于所述多个第一频次中的每个第一频次,将所述第一频次增加指定数值;分别将所述多个第一频次更新为增加后的第一频次,并向所述终端返回下单失败通知消息;
所述装置包括用于当所述营销活动结束时,清除所述缓存库中存储的在所述营销活动时间段内接收的多个订单地址进行切分之后的分词,以及切分后的各个分词在所述缓存库中出现的频次的模块;
所述装置还包括:
删除模块,用于删除所述订单地址中包括的指定字符,所述指定字符是指除了文字字符、数字字符以及字母字符之外的字符。
5.根据权利要求4所述的装置,其特征在于,所述确定子模块用于:
确定所述频次序列包括的频次的个数;
按照指定策略,确定所述预设相似比例阈值与所述个数的乘积对应的整数N,其中,所述N大于等于1且小于等于所述个数;
按照所述频次序列包括的频次从大到小的顺序,从所述频次序列中获取第N个位置对应的频次;
将获取的频次确定为所述多个分词中的目标分词在所述缓存库中出现的频次。
6.根据权利要求4所述的装置,其特征在于,所述预设切分规则包括二字切分算法和三字切分算法中的任一种。
7.一种恶意订单识别装置,其特征在于,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
接收终端在营销活动时间段内发送的订单,所述订单包括订单地址;按照预设切分规则,对所述订单地址进行切分,得到多个分词;
确定多个第一频次,所述多个第一频次分别为所述多个分词在缓存库中出现的频次,所述缓存库用于存储多个订单地址进行切分之后的分词,以及切分后的各个分词在所述缓存库中出现的频次,所述多个订单地址为在所述营销活动时间段内接收到的多个订单所包括的订单地址;
按照所述多个第一频次中的每个第一频次从大到小的顺序,对所述多个第一频次进行排序,得到频次序列;基于预设相似比例阈值和所述频次序列,确定所述多个分词中的目标分词在所述缓存库中出现的频次,所述预设相似比例阈值用于指示所述订单地址与营销活动时间段内接收的订单地址相似部分在所述订单地址中所占的比例;
当所述目标分词在所述缓存库中出现的频次大于或等于预设频次阈值时,确定所述订单为恶意订单;当确定该订单为恶意订单时,对于所述多个第一频次中的每个第一频次,将所述第一频次增加指定数值;分别将所述多个第一频次更新为增加后的第一频次,并向所述终端返回下单失败通知消息;
当所述营销活动结束时,清除所述缓存库中存储的在所述营销活动时间段内接收的多个订单地址进行切分之后的分词,以及切分后的各个分词在所述缓存库中出现的频次;
所述按照预设切分规则,对所述订单地址进行切分之前,还包括:
删除所述订单地址中包括的指定字符,所述指定字符是指除了文字字符、数字字符以及字母字符之外的字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610616917.3A CN106251202B (zh) | 2016-07-29 | 2016-07-29 | 恶意订单识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610616917.3A CN106251202B (zh) | 2016-07-29 | 2016-07-29 | 恶意订单识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106251202A CN106251202A (zh) | 2016-12-21 |
CN106251202B true CN106251202B (zh) | 2019-12-13 |
Family
ID=57605694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610616917.3A Active CN106251202B (zh) | 2016-07-29 | 2016-07-29 | 恶意订单识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106251202B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241868B (zh) * | 2016-12-26 | 2021-02-02 | 浙江宇视科技有限公司 | 图像客观相似度到主观相似度的映射方法及装置 |
CN106779126A (zh) * | 2016-12-30 | 2017-05-31 | 中国民航信息网络股份有限公司 | 恶意占座订单的处理方法和系统 |
CN108305134B (zh) * | 2017-01-13 | 2022-07-29 | 阿里巴巴集团控股有限公司 | 一种机票订单的安全检测方法、设备以及系统 |
CN108462624B (zh) * | 2017-02-17 | 2021-03-09 | 阿里巴巴集团控股有限公司 | 一种垃圾邮件的识别方法、装置以及电子设备 |
CN108256718B (zh) * | 2017-05-04 | 2022-04-29 | 平安科技(深圳)有限公司 | 保单服务任务分配方法、装置、计算机设备和存储设备 |
CN107492021A (zh) * | 2017-08-28 | 2017-12-19 | 武汉奇米网络科技有限公司 | 订单来源分析方法及装置 |
CN109509048B (zh) * | 2017-09-15 | 2020-09-29 | 北京京东尚科信息技术有限公司 | 恶意订单识别方法、装置、电子设备及存储介质 |
CN107644366B (zh) * | 2017-09-28 | 2021-06-18 | 携程旅游信息技术(上海)有限公司 | 订单欺诈识别方法、系统、存储介质和电子设备 |
CN110852080A (zh) * | 2018-08-01 | 2020-02-28 | 北京京东尚科信息技术有限公司 | 订单地址的识别方法、系统、设备和存储介质 |
CN109379361B (zh) * | 2018-10-22 | 2021-09-24 | 同盾控股有限公司 | 一种地址的标签确定方法和装置 |
CN112184350A (zh) * | 2019-07-04 | 2021-01-05 | 中国移动通信集团江西有限公司 | 一种用户订单处理方法、装置、存储介质和服务器 |
CN112541057A (zh) * | 2019-09-04 | 2021-03-23 | 上海晶赞融宣科技有限公司 | 分布式新词发现方法、装置、计算机设备和存储介质 |
CN111507729A (zh) * | 2020-04-29 | 2020-08-07 | 广东所能网络有限公司 | 一种基于移动互联网的电子商务风险控制系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577430A (zh) * | 2012-07-26 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 一种信息识别的方法和服务器 |
CN105389722A (zh) * | 2015-11-20 | 2016-03-09 | 小米科技有限责任公司 | 恶意订单识别方法及装置 |
CN105468742A (zh) * | 2015-11-25 | 2016-04-06 | 小米科技有限责任公司 | 恶意订单识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101565759B1 (ko) * | 2011-10-07 | 2015-11-06 | 한국전자통신연구원 | 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치 |
-
2016
- 2016-07-29 CN CN201610616917.3A patent/CN106251202B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577430A (zh) * | 2012-07-26 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 一种信息识别的方法和服务器 |
CN105389722A (zh) * | 2015-11-20 | 2016-03-09 | 小米科技有限责任公司 | 恶意订单识别方法及装置 |
CN105468742A (zh) * | 2015-11-25 | 2016-04-06 | 小米科技有限责任公司 | 恶意订单识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106251202A (zh) | 2016-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106251202B (zh) | 恶意订单识别方法及装置 | |
US11038975B2 (en) | Information pushing method and device | |
US9785989B2 (en) | Determining a characteristic group | |
US8583685B2 (en) | Determination of category information using multiple stages | |
CA3139055A1 (en) | Techniques to automatically update payment information in a compute environment | |
US11836778B2 (en) | Product and content association | |
CN109471978B (zh) | 一种电子资源推荐方法及装置 | |
KR102365608B1 (ko) | 상품 대량 등록이 가능한 구매대행 시스템 및 방법 | |
US11238402B2 (en) | Information operation | |
US11757622B2 (en) | Determining a change to product information or user information via hashing | |
CN111198967A (zh) | 基于关系图谱的用户分组方法、装置及电子设备 | |
CN111612635A (zh) | 用户金融风险分析方法、装置及电子设备 | |
CN113297287B (zh) | 用户策略自动部署方法、装置及电子设备 | |
US20180129664A1 (en) | System and method to recommend a bundle of items based on item/user tagging and co-install graph | |
WO2020150376A1 (en) | Real time user matching using purchasing behavior | |
US11294917B2 (en) | Data attribution using frequent pattern analysis | |
CN112308590A (zh) | 一种参数处理方法、装置以及计算设备、存储介质 | |
CN113297436B (zh) | 基于关系图网络的用户策略分配方法、装置及电子设备 | |
US20180348997A1 (en) | Rule engine system and method for human-machine interaction | |
CN114663158A (zh) | 确定目标对象的方法及标识关联图的构建方法、装置 | |
CN113763005A (zh) | 图片广告推送方法、电子设备及计算机可读存储介质 | |
US10445787B2 (en) | Predicting merchant behavior using merchant website terms | |
CN111881148A (zh) | 对象组合的属性确定方法、装置、电子设备 | |
CN104965853A (zh) | 聚合类应用的推荐、多方推荐源聚合的方法、系统和装置 | |
JP7189252B2 (ja) | 分析装置、分析方法及び分析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |