CN109379361B - 一种地址的标签确定方法和装置 - Google Patents

一种地址的标签确定方法和装置 Download PDF

Info

Publication number
CN109379361B
CN109379361B CN201811232165.6A CN201811232165A CN109379361B CN 109379361 B CN109379361 B CN 109379361B CN 201811232165 A CN201811232165 A CN 201811232165A CN 109379361 B CN109379361 B CN 109379361B
Authority
CN
China
Prior art keywords
label
marked
address information
address
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811232165.6A
Other languages
English (en)
Other versions
CN109379361A (zh
Inventor
郦柏金
陈万源
谭炽烈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongdun Holdings Co Ltd
Original Assignee
Tongdun Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongdun Holdings Co Ltd filed Critical Tongdun Holdings Co Ltd
Priority to CN201811232165.6A priority Critical patent/CN109379361B/zh
Publication of CN109379361A publication Critical patent/CN109379361A/zh
Application granted granted Critical
Publication of CN109379361B publication Critical patent/CN109379361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Power Engineering (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供了一种地址的标签确定方法、装置,该地址的标签确定方法包括:根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定待标记地址信息的第一标签;以及根据待标记地址信息,利用预设的黑样本库,以及预先确定的正则识别规则和预先训练的标签确定模型,依次确定该待标记地址信息的第二标签或者第三标签或者第四标签;根据第一标签与第二标签、第三标签以及第四标签三者中的一者,确定待标记地址信息的综合标签。因此,能够对地址信息标记详细有效的综合标记,从而利用该综合标记协助电商平台对投机行为的判断,提高电商平台的推广效果,降低投机行为的发生几率。

Description

一种地址的标签确定方法和装置
技术领域
本申请涉及电子商务技术领域,特别是涉及一种地址的标签确定方法、装置。
背景技术
随着电子商务技术的发展,越来越多的用户选择在网上进行购物。而一些规模较大的电子商务平台为了吸引用户,会推出各种各样的补贴以及优惠活动。而一些投机者会通过各种方法去注册和推广领取各种优惠券以及实物,再通过打折的方式去其他平台卖掉来赚取利润。
现有技术中,一些风控公司会通过对下单用户建立用户画像,建立对应的手机号码黑样本库,再结合一些用户行为规则,时间位置类规则与设备类规则来进行防控。但随着电子技术的发展,手机号码黑样本库并不能完全覆盖。
发明内容
鉴于上述问题,本申请实施例提供一种地址的标签确定方法,对地址信息标记详细分类确定综合标签,利用该综合标签进而解决现有技术中的电商平台利用黑地址库和一些地址筛选规则无法覆盖所有黑地址而导致投机行为的问题。
相应的,本申请实施例还提供了一种地址的标签确定装置,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种地址的标签确定方法,包括:
根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定所述待标记地址信息的第一标签;以及
根据所述待标记地址信息,利用预设的黑样本库,以确定是否对所述待标记地址信息标记第二标签;
当确定不对所述待标记地址信息标记所述第二标签时,利用预先确定的正则识别规则对所述待标记地址信息进行过滤,以确定是否对所述待标记地址信息标记所述正则识别规则对应的第三标签;
当确定不对所述待标记地址信息标记所述第三标签时,利用预先训练的标签确定模型,确定所述待标记地址信息的第四标签;
根据所述第一标签与所述第二标签、所述第三标签以及所述第四标签三者中的一者,确定所述待标记地址信息的综合标签。
相应的,本申请实施例还公开了一种地址的标签确定装置,包括:
第一标签确定模块,用于根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定所述待标记地址信息的第一标签;以及
第二标签确定模块,用于根据所述待标记地址信息,利用预设的黑样本库,以确定是否对所述待标记地址信息标记第二标签;
第三标签确定模块,用于当确定不对所述待标记地址信息标记所述第二标签时,利用预先确定的正则识别规则对所述待标记地址信息进行过滤,以确定是否对所述待标记地址信息标记所述正则识别规则对应的第三标签;
第四标签确定模块,用于当确定不对所述待标记地址信息标记所述第三标签时,利用预先训练的标签确定模型,确定所述待标记地址信息的第四标签;
综合标签确定模块,用于根据所述第一标签与所述第二标签、所述第三标签以及所述第四标签三者中的一者,确定所述待标记地址信息的综合标签。
本申请实施例还提供一种装置,包括处理器以及存储器,其中,
所述处理器执行所述存储器所存放的计算机程序代码,以实现本申请所述的地址的标签确定方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现本申请所述的地址的标签确定方法的步骤。
本申请实施例包括以下优点:
本申请实施例通过根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定所述待标记地址信息的第一标签;以及根据所述待标记地址信息,利用预设的黑样本库,以确定是否对所述待标记地址信息标记第二标签;当不对所述待标记地址信息标记所述第二标签时,利用预先确定的正则识别规则对所述待标记地址信息进行过滤,以确定是否对所述待标记地址信息标记所述正则识别规则对应的第三标签;当确定不对所述待标记地址信息标记所述第三标签时,利用预先训练的标签确定模型,确定所述待标记地址信息的第四标签;根据所述第一标签、所述第二标签或者所述第三标签或者所述第四标签,确定所述待标记地址信息的综合标签。能够对地址信息标记详细有效的综合标记,从而利用该综合标记协助电商平台对投机行为的判断,提高电商平台的推广效果,降低投机行为的发生几率。
附图说明
图1是本申请的一种地址的标签确定方法实施例的步骤流程图;
图2是本申请的一种地址的标签确定方法可选实施例的步骤流程图;
图3是本申请的一种地址的标签确定方法可选实施例的步骤流程图;
图4是本申请的一种地址的标签确定方法可选实施例的步骤流程图;
图5是本申请的一种地址的标签确定方法可选实施例的步骤流程图;
图6是本申请的一种地址的标签确定装置实施例的结构框图;
图7为本申请的另一实施例提供的地址的标签确定装置的硬件结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为了避免电商平台对投机者的封锁,例如建立黑地址库,将已经确定为投机者的地址信息存储在其中,当投机者再次利用该地址信息进行下单时,就能够避免投机行为,发明人在研究中发现,电商所使用的风控系统会直接根据手机号码黑样本拒绝订单,投机者会选择在下单时,采用一个虚拟的手机号码,在收货地址内填写真正的手机号码,且手机号码是会经过变异的,很难直接通过正则来拒绝,如“北京北京市海淀区福缘门社区海淀区福缘门13号,电话:①⑤⑧①⑤③④①⑤⑤”,这样变异后的地址信息无法与黑地址库中地址信息进行匹配,也就不能够实现对投机行为的遏制。此外,投机者还会通过支付较少佣金,招募正常用户的方式,帮助他们完成优惠券的领取以及订单下达,但是最后正常用户会在把优惠商品统一下单到固定地址,这一类的投机者,由于招募的用户下单交易过程中,在其他维度,如手机号码,用户行为,用户ip等方面都是正常的,因此电商无法在这些维度对这些交易直接拒绝,绝大部分的订单在下单收获地址这一纬度呈现出较大的相似性。因此,本申请提出了一种地址的标签确定方法,通过对大批量交易地址的离线分析,对交易地址的类型进行了分类,例如可以分为正常地址、暗号地址、相似地址、相同地址、带手机号码地址、带人名地址、带特殊字符地址等类别,也就是对该地址打上对应的标签,从而能够对地址信息进行多层分类标记,进而最大程度的防止投机行为。
参照图1,示出了本申请的一种地址的标签确定方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定待标记地址信息的第一标签。
其中,第一标签包括相似地址标签,相同地址标签或者其他地址标签。
在具体实现中,缓存数据库用以缓存电商购物平台上的所有地址数据信息,还可以包括之前对地址信息标记的标签,当用户通过某电商平台下订单时,订单对应的收货地址即作为本申请中的待标记地址,在获取到该待标记地址后,系统可以将缓存数据库中的地址信息与待标记地址信息进行对比确定其相似度,并且还可以直接根据缓存数据库中的地址数据信息的标签确定当前待标记地址信息的标签。
例如存储在缓存数据库中的一个地址信息为“北京北京市海淀区福缘门社区海淀区福缘门18号”,待标记地址信息为“北京北京市海淀区福缘门社区海淀区福缘门13号”,比对上述两个地址信息后,对缓存数据库中的地址信息的相似地址数加一,并且在相似地址数超过一定数值时,对该待标记地址信息标记相似地址标签。
又例如,存储在缓存数据库中的一个地址信息为“北京北京市海淀区福缘门社区海淀区福缘门18号”,待标记地址信息为“北京北京市海淀区福缘门社区海淀区福缘门18号”,比对上述两个地址信息后,可以对缓存数据库中的地址信息的相同地址数加一,并且在相同地址数超过一定数值时,对该待标记地址信息标记相同地址标签。当待标记地址信息既不是相同地址也不是相似地址时,则对应打上其他地址标签。
此外,对于一个电商平台来讲,每天的交易数据量有几百万,每传入一个用户收货地址作为待标记地址信息都需要对其进行相似度的计算,则对于系统性能是一个很大的考验,本申请通过对地址进行四级地址标准化且积累了一份行政区地址信息,在将这些地址信息存入缓存数据库的时候,都是按照交易时间与区域来进行存储,传入的地址信息只需要与当天的时间数据与相同区域地址数据进行相似度比对,很大程度上降低了相似度的计算量,有助于提高系统性能。
步骤102,根据待标记地址信息,利用预设的黑样本库,以确定是否对待标记地址信息标记第二标签。
示例地,若待标记地址信息与黑样本库中的某一样本一致,说明该待标记地址信息属于黑地址,因此标记第二标签。
需要说明的是,本步骤中的将待标记地址信息与黑样本库进行对比的操作是与步骤101中对待标记地址信息进行相似度对比的操作同时进行的。
并且由于本申请的方法属于实时性检测方法,所以在考虑到比对的效果同时,还关注检测的性能,因此可以基于地址信息的simhash(中文:局部敏感哈希值)进行对比,例如在黑样本库中存在着与待标记地址信息相似度超过阈值0.9时,则直接对待标记地址信息标记黑样本地址标签,否则进入下一步骤的判断。一般地,在黑样本库中进行比对时,是根据手机号码以及相同或相似地址对待标记地址信息和黑样本库中的样本之间进行比对判断。
步骤103,当不对待标记地址信息标记第二标签时,利用预先确定的正则识别规则对待标记地址信息进行过滤,以确定是否对待标记地址信息标记正则识别规则对应的第三标签。
当待标记地址信息不属于黑样本库中的黑样本时,则可以直接通过固定的正则识别规则继续进行本步骤的判断,其中主要包括暗号地址识别、部分黑产的相似地址识别及部分手机地址识别,第三标签是在电商平台上预先设置的相关正则识别规则对应的标签,类似于暗号地址、黑产的相似地址、欺诈地址,或者标点符号异常的地址信息、火星文出现次数过多的地址信息等等,如“[^a-z]([a-z|A-Z]{2,6})$说明地址信息中包含暗号ktv|ems”,从而检测出在结尾添加某些英文字符来作为暗号的某些欺诈地址信息,也就是说,利用预设的正则识别规则对待标记地址信息进行过滤,以确定该待标记地址信息是否有与正则识别规则对应的内容,如果符合其中的正则识别规则,直接对待标记地址信息标记对应的地址标签。
步骤104,当确定不对待标记地址信息标记第三标签时,利用预先训练的标签确定模型,确定待标记地址信息的第四标签。
示例地,若根据步骤102与步骤103均未能对待标记地址信息进行标记,本步骤再利用由事先训练好的标签确定模型,对待标记地址信息进行第四标签的确定,其中,第四标签用于标记该待标记地址信息中是否包含人名信息以及该待标记地址信息是否属于正常地址、带有手机号码的地址以及带有暗号地址和带有特殊字符的地址。该标签确定模型分为两个模型,一个模型是对于待标记地址信息中是否包含姓名进行检测,采用的是预先训练好的序列标注模型进行人名识别;还有一个文本分类模型,将待标记地址信息分类标记正常地址标签、带手机号码地址标签、带暗号地址以及带特殊字符地址标签;之后结合这两个模型确定的标签,进而确定待标记地址信息的第四标签。
步骤105,根据第一标签与第二标签、第三标签以及第四标签三者中的一者,确定待标记地址信息的综合标签。
根据上述步骤101-步骤104对待标记地址信息确定了多个标签,将上述确定的多个标签进行综合分析处理,以确定待标记地址信息的综合标签,作为待标记地址信息的最终标签,并且可以将该综合标签发送给电商平台的决策模块,以便于该决策模块根据该综合标签确定对待标记地址信息所对应的订单处理方式。
例如当该综合标签中包括第二标签和/或相同地址标签时,电商平台可以直接拒绝该待标记地址信息所对应的订单;或者该综合标签中包括不相似地址标签和/或正常地址标签时,则可以对该待标记地址信息所对应的订单进行下一步发货处理;亦或者当该综合标签中包括相似地址标签和火星文出现次数过多的地址信息标记时,则可以对该待标记地址信息所对应的订单交由售后处理,进一步确认待标记地址信息,以对订单进行之后的操作;亦或者是当该综合标签中包括相似地址标签和带有特殊字符地址标签时,则可以对待标记地址信息所对应的订单交由售后处理,以确认该待标记地址信息的正确内容。由此利用地址信息的综合标记能够有效的为电商平台降低投机行为,提升平台收益。
此外需要说明的是,根据上述步骤确定待标记地址信息的综合标签后,根据上述综合标签对本申请中的缓存数据库、黑样本库进行数据更新,以便之后进行待标记地址信息的判断。
综上所述,本申请实施例通过根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定待标记地址信息的第一标签;以及根据待标记地址信息,利用预设的黑样本库,以确定是否对待标记地址信息标记第二标签;当不对待标记地址信息标记第二标签时,利用预先确定的正则识别规则对待标记地址信息进行过滤,以确定是否对待标记地址信息标记正则识别规则对应的第三标签;当确定不对待标记地址信息标记第三标签时,利用预先训练的标签确定模型,确定待标记地址信息的第四标签;根据第一标签、第二标签或者第三标签或者第四标签,确定待标记地址信息的综合标签。因此,能够对地址信息标记详细有效的综合标记,从而利用该综合标记协助电商平台对投机行为的判断,提高电商平台的推广效果,降低投机行为的发生几率。
参照图2,示出了本申请的一种地址的标签确定方法可选实施例的步骤流程图,步骤101所述的根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定待标记地址信息的第一标签,可以包括如下步骤:
步骤1011,根据待标记地址信息,获取缓存数据库中对应的地址数据信息。
在具体实施时,可以以时间+区域的地址信息为key,地址信息中的文本内容作为value的形式存到缓存数据库中,之后在进行对待标记地址信息比对时,再从缓存数据库取出对应的key的地址数据信息。
步骤1012,利用预设的文本相似度计算方法,确定待标记地址信息与所有地址数据信息之间的相似度值。
示例地,在进行文本相似度比较时,由于一般在固定时间固定区域内地址数据量级不会太大,可以采用相似度计算方法例如是直接计算的两本的余弦距离。
步骤1013,根据相似度值,结合预设的相似度阈值,确定第一标签。
例如,计算出的文本相似度距离为1,则相同地址数加一,如果文本相似度距离小于1并且大于相似度阈值,如为0.8,则相似地址加一,当相同地址总数大于10,则返回相同地址标签,当相似地址总数大于10,则返回相似地址标签,其他的则返回其他地址标签。
参照图3,示出了本申请的一种地址的标签确定方法可选实施例的步骤流程图,步骤102所述的根据待标记地址信息,利用预设的黑样本库,以确定是否对待标记地址信息标记第二标签,可以包括如下步骤:
步骤1021,通过对待标记地址信息的局部敏感哈希值和黑样本库中所有的黑样本信息的局部敏感哈希值进行的比对,确定在黑样本库中是否存在与待标记地址信息相似的黑样本。
当存在与待标记地址信息相似的黑样本时,执行步骤1022,对待标记地址信息标记第二标签。
当不存在与待标记地址信息相似的黑样本时,执行步骤1023,不对待标记地址信息标记第二标签。
参照图4,示出了本申请的一种地址的标签确定方法可选实施例的步骤流程图,步骤104所述的当确定不对待标记地址信息标记第三标签时,利用预先训练的标签确定模型,确定待标记地址信息的第四标签,可以包括如下步骤:
步骤1040,当确定不对待标记地址信息标记第三标签时,对待标记地址信息进行预处理。
其中,预处理包括文本归一化处理、分词处理和停用词处理。
在具体实现时,当确定不对待标记地址信息标记第三标签后,需要利用预先训练的标签确定模型,确定待标记地址信息的第四标签之前,首先对待标记地址信息进行预处理,以便于对其进行第四标签的标记,其中文本归一化处理是十分重要的,由于投机者为了避开电商平台上设置的风控策略,通常会对于各类数字字体进行各种变异操作,采用花漾字体、同音字及字母代替数字等等方式,文本归一化处理处理实现对于手机号码检测,并且利用分词处理以及停用词处理,能够将待标记地址信息中可能存在的连词以及已经不再通用的文字进行处理,以便之后进行待标记地址信息的第四标签的标记时,更加精准有效。
步骤1041,利用序列标注模型对预处理后的待标记地址信息进行人名识别,以确定第五标签。
其中,第五标签用于标记待标记地址信息是否包含人名。
步骤1042,利用文本分类模型对预处理后的待标记地址信息进行分类,以确定第六标签。
其中,第六标签包括正常地址标签、带有手机号码的地址标签以及带有暗号地址和带有特殊字符的地址标签。
步骤1043,根据第五标签和第六标签,确定待标记地址信息的第四标签。
综上所述,本申请实施例通过根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定待标记地址信息的第一标签;以及根据待标记地址信息,利用预设的黑样本库,以确定是否对待标记地址信息标记第二标签;当不对待标记地址信息标记第二标签时,利用预先确定的正则识别规则对待标记地址信息进行过滤,以确定是否对待标记地址信息标记正则识别规则对应的第三标签;当确定不对待标记地址信息标记第三标签时,利用预先训练的标签确定模型,确定待标记地址信息的第四标签;根据第一标签、第二标签或者第三标签或者第四标签,确定待标记地址信息的综合标签。因此,能够对地址信息标记详细有效的综合标记,从而利用该综合标记协助电商平台对投机行为的判断,提高电商平台的推广效果,降低投机行为的发生几率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图5,示出了本申请的一种地址的标签确定装置实施例的结构框图,具体可以包括如下模块:
第一标签确定模块510,用于根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定待标记地址信息的第一标签。
第二标签确定模块520,用于根据待标记地址信息,利用预设的黑样本库,以确定是否对待标记地址信息标记第二标签。
第三标签确定模块530,用于当不对待标记地址信息标记第二标签时,利用预先确定的正则识别规则对待标记地址信息进行过滤,以确定是否对待标记地址信息标记正则识别规则对应的第三标签。
第四标签确定模块540,用于当确定不对待标记地址信息标记第三标签时,利用预先训练的标签确定模型,确定待标记地址信息的第四标签。
综合标签确定模块550,用于根据第一标签与第二标签、第三标签以及第四标签三者中的一者,确定待标记地址信息的综合标签。
在本申请的一个可选实施例中,第一标签确定模块510,包括如下子模块:
信息获取子模块,用于根据待标记地址信息,获取缓存数据库中对应的地址数据信息;
相似度确定子模块,用于利用预设的文本相似度计算方法,确定待标记地址信息与对应的地址数据信息之间的相似度值;
标签确定子模块,用于根据相似度值,结合预设的相似度阈值,确定第一标签;
其中,第一标签包括相似地址标签,相同地址标签或者其他地址标签。
在本申请的一个可选实施例中,第二标签确定模块520,包括如下子模块:
比对子模块,用于通过对待标记地址信息的局部敏感哈希值和黑样本库中所有的黑样本信息的局部敏感哈希值进行的比对,确定在黑样本库中是否存在与待标记地址信息相似的黑样本;
标签确定子模块,用于当存在与待标记地址信息相似的黑样本时,对待标记地址信息标记第二标签;
标签确定子模块,用于当不存在与待标记地址信息相似的黑样本时,不对待标记地址信息标记第二标签。
可选的,所述标签确定模型包括序列标注模型和文本分类模型。
在本申请的一个可选实施例中,第四标签确定模块540,包括如下子模块:
预处理子模块,用于当确定不对所述待标记地址信息标记所述第三标签时,对所述待标记地址信息进行预处理,所述预处理包括文本归一化处理、分词处理和停用词处理;
人名识别子模块,用于利用序列标注模型对预处理后的待标记地址信息进行人名识别,以确定第五标签;
分类子模块,用于利用文本分类模型对预处理后的待标记地址信息进行分类,以确定第五标签;
标签确定子模块,用于根据第五标签和第六标签,确定待标记地址信息的第四标签;
其中,第五标签用于标记待标记地址信息是否包含人名;所述第六标签包括正常地址标签、带有手机号码的地址标签以及带有暗号地址和带有特殊字符的地址标签。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端设备时,可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。
图6为本申请一实施例提供的地址的标签确定装置的硬件结构示意图。如图6所示,该地址的标签确定装置可以包括输入设备60、处理器61、输出设备62、存储器63和至少一个通信总线64。通信总线64用于实现元件之间的通信连接。存储器63可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,存储器63中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述处理器61例如可以为中央处理器(Central Processing Unit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该处理器61通过有线或无线连接耦合到上述输入设备60和输出设备62。
可选的,上述输入设备60可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;可选的,上述收发信机可以是具有通信功能的射频收发芯片、基带处理芯片以及收发天线等。麦克风等音频输入设备可以接收语音数据。输出设备62可以包括显示器、音响等输出设备。
在本实施例中,该地址的标签确定装置的处理器包括用于执行背景的设置装置中各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图7为本申请另一实施例提供的地址的标签确定装置的硬件结构示意图。图7是对图6在实现过程中的一个具体的实施例。如图7所示,本实施例的地址的标签确定装置包括处理器71以及存储器72。
处理器71执行存储器72所存放的计算机程序代码,实现上述实施例中图1至图5的地址的标签确定方法。
存储器72被配置为存储各种类型的数据以支持在地址的标签确定方法的操作。这些数据的示例包括用于在地址的标签确定装置上操作的任何应用程序或方法的指令,例如消息,图片,视频等。存储器72可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,处理器71设置在处理组件70中。该地址的标签确定装置还可以包括:通信组件73,电源组件74,多媒体组件75,音频组件76,输入/输出接口77和/或传感器组件78。地址的标签确定装置具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件70通常控制地址的标签确定装置的整体操作。处理组件70可以包括一个或多个处理器71来执行指令,以完成上述图1至图5方法的全部或部分步骤。此外,处理组件70可以包括一个或多个模块,便于处理组件70和其他组件之间的交互。例如,处理组件70可以包括多媒体模块,以方便多媒体组件75和处理组件70之间的交互。
电源组件74为地址的标签确定装置的各种组件提供电力。电源组件74可以包括电源管理系统,一个或多个电源,及其他与为地址的标签确定装置生成、管理和分配电力相关联的组件。
多媒体组件75包括在地址的标签确定装置和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
音频组件76被配置为输出和/或输入音频信号。例如,音频组件76包括一个麦克风(MIC)。所接收的音频信号可以被进一步存储在存储器72或经由通信组件73发送。在一些实施例中,音频组件76还包括一个扬声器,用于输出音频信号。
输入/输出接口77为处理组件70和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件78包括一个或多个传感器,用于为地址的标签确定装置提供各个方面的状态评估。例如,传感器组件78可以检测到地址的标签确定装置的打开/关闭状态,组件的相对定位,用户与地址的标签确定装置接触的存在或不存在。传感器组件78可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。在一些实施例中,该传感器组件78还可以包括摄像头等。
通信组件73被配置为便于地址的标签确定装置和其他设备之间有线或无线方式的通信。地址的标签确定装置可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。
由上可知,在图7实施例中所涉及的通信组件73、音频组件76以及输入/输出接口77、传感器组件78均可以作为图6实施例中的输入设备的实现方式。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种地址的标签确定方法和一种地址的标签确定装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种地址的标签确定方法,其特征在于,所述方法包括:
根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定所述待标记地址信息的第一标签,所述第一标签包括相似地址标签,相同地址标签或者其他地址标签;以及
根据所述待标记地址信息,利用预设的黑样本库,以确定是否对所述待标记地址信息标记第二标签,所述第二标签表征所述待标记地址信息属于黑地址;
当确定不对所述待标记地址信息标记所述第二标签时,利用预先确定的正则识别规则对所述待标记地址信息进行过滤,以确定是否对所述待标记地址信息标记所述正则识别规则对应的第三标签,所述第三标签是在电商平台上预先设置的相关正则识别规则对应的标签;
当确定不对所述待标记地址信息标记所述第三标签时,利用预先训练的标签确定模型,确定所述待标记地址信息的第四标签,所述第四标签用于标记所述待标记地址信息中是否包含人名信息以及所述待标记地址信息是否属于正常地址、带有手机号码的地址以及带有暗号地址和带有特殊字符的地址;
根据所述第一标签与所述第二标签、所述第三标签以及所述第四标签三者中的一者,确定所述待标记地址信息的综合标签。
2.根据权利要求1所述的方法,其特征在于,所述根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定所述待标记地址信息的第一标签,包括:
根据所述待标记地址信息,获取所述缓存数据库中对应的地址数据信息;
利用预设的文本相似度计算方法,确定所述待标记地址信息与所述对应的地址数据信息之间的相似度值;
根据所述相似度值,结合预设的相似度阈值,确定所述第一标签。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待标记地址信息,利用预设的黑样本库,以确定是否对所述待标记地址信息标记第二标签,包括:
通过对所述待标记地址信息的局部敏感哈希值和所述黑样本库中所有的黑样本信息的局部敏感哈希值进行的比对,确定在所述黑样本库中是否存在与所述待标记地址信息相似的黑样本;
当存在与所述待标记地址信息相似的黑样本时,对所述待标记地址信息标记所述第二标签;
当不存在与所述待标记地址信息相似的黑样本时,不对所述待标记地址信息标记所述第二标签。
4.根据权利要求1所述的方法,其特征在于,所述标签确定模型包括序列标注模型和文本分类模型;所述当确定不对所述待标记地址信息标记所述第三标签时,利用预先训练的标签确定模型,确定所述待标记地址信息的第四标签,包括:
当确定不对所述待标记地址信息标记所述第三标签时,对所述待标记地址信息进行预处理,所述预处理包括文本归一化处理、分词处理和停用词处理;
利用所述序列标注模型对预处理后的所述待标记地址信息进行人名识别,以确定第五标签;
利用所述文本分类模型对预处理后的所述待标记地址信息进行分类,以确定第六标签;
根据所述第五标签和所述第六标签,确定所述待标记地址信息的第四标签;
其中,所述第五标签用于标记所述待标记地址信息是否包含人名;所述第六标签包括正常地址标签、带有手机号码的地址标签以及带有暗号地址和带有特殊字符的地址标签。
5.一种地址的标签确定装置,其特征在于,所述装置包括:
第一标签确定模块,用于根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定所述待标记地址信息的第一标签,所述第一标签包括相似地址标签,相同地址标签或者其他地址标签;以及
第二标签确定模块,用于根据所述待标记地址信息,利用预设的黑样本库,以确定是否对所述待标记地址信息标记第二标签,所述第二标签表征所述待标记地址信息属于黑地址;
第三标签确定模块,用于当确定不对所述待标记地址信息标记所述第二标签时,利用预先确定的正则识别规则对所述待标记地址信息进行过滤,以确定是否对所述待标记地址信息标记所述正则识别规则对应的第三标签,所述第三标签是在电商平台上预先设置的相关正则识别规则对应的标签;
第四标签确定模块,用于当确定不对所述待标记地址信息标记所述第三标签时,利用预先训练的标签确定模型,确定所述待标记地址信息的第四标签,所述第四标签用于标记所述待标记地址信息中是否包含人名信息以及所述待标记地址信息是否属于正常地址、带有手机号码的地址以及带有暗号地址和带有特殊字符的地址;
综合标签确定模块,用于根据所述第一标签与所述第二标签、所述第三标签以及所述第四标签三者中的一者,确定所述待标记地址信息的综合标签。
6.根据权利要求5所述的装置,其特征在于,所述第一标签确定模块,包括:
信息获取子模块,用于根据所述待标记地址信息,获取所述缓存数据库中对应的地址数据信息;
相似度确定子模块,用于利用预设的文本相似度计算方法,确定所述待标记地址信息与所述对应的地址数据信息之间的相似度值;
标签确定子模块,用于根据所述相似度值,结合预设的相似度阈值,确定所述第一标签。
7.根据权利要求5所述的装置,其特征在于,所述第二标签确定模块,包括:
比对子模块,用于通过对所述待标记地址信息的局部敏感哈希值和所述黑样本库中所有的黑样本信息的局部敏感哈希值进行的比对,确定在所述黑样本库中是否存在与所述待标记地址信息相似的黑样本;
标签确定子模块,用于当存在与所述待标记地址信息相似的黑样本时,对所述待标记地址信息标记所述第二标签;
所述标签确定子模块,用于当不存在与所述待标记地址信息相似的黑样本时,不对所述待标记地址信息标记所述第二标签。
8.根据权利要求5所述的装置,其特征在于,所述标签确定模型包括序列标注模型和文本分类模型;所述第四标签确定模块,包括:
预处理子模块,用于当确定不对所述待标记地址信息标记所述第三标签时,对所述待标记地址信息进行预处理,所述预处理包括文本归一化处理、分词处理和停用词处理;
人名识别子模块,用于利用所述序列标注模型对预处理后的所述待标记地址信息进行人名识别,以确定第五标签;
分类子模块,用于利用所述文本分类模型对预处理后的所述待标记地址信息进行分类,以确定第六标签;
标签确定子模块,用于根据所述第五标签和所述第六标签,确定所述待标记地址信息的第四标签;
其中,所述第五标签用于标记所述待标记地址信息是否包含人名;所述第六标签包括正常地址标签、带有手机号码的地址标签以及带有暗号地址和带有特殊字符的地址标签。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令在被执行时以实现所述权利要求1-4中任一所述的地址的标签确定方法。
CN201811232165.6A 2018-10-22 2018-10-22 一种地址的标签确定方法和装置 Active CN109379361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811232165.6A CN109379361B (zh) 2018-10-22 2018-10-22 一种地址的标签确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811232165.6A CN109379361B (zh) 2018-10-22 2018-10-22 一种地址的标签确定方法和装置

Publications (2)

Publication Number Publication Date
CN109379361A CN109379361A (zh) 2019-02-22
CN109379361B true CN109379361B (zh) 2021-09-24

Family

ID=65400847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811232165.6A Active CN109379361B (zh) 2018-10-22 2018-10-22 一种地址的标签确定方法和装置

Country Status (1)

Country Link
CN (1) CN109379361B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161372A (zh) * 2015-04-09 2016-11-23 阿里巴巴集团控股有限公司 一种基于地址匹配的风险识别方法及装置
CN106251202A (zh) * 2016-07-29 2016-12-21 北京小米移动软件有限公司 恶意订单识别方法及装置
CN106779899A (zh) * 2016-08-29 2017-05-31 北京小米移动软件有限公司 恶意订单识别方法及装置
CN106776933A (zh) * 2016-12-01 2017-05-31 厦门市美亚柏科信息股份有限公司 一种对相似事件信息进行分析聚合的处理方法及系统
CN108229977A (zh) * 2018-01-11 2018-06-29 脉度(上海)电子商务有限公司 一种电商防窜货方法
CN108521402A (zh) * 2018-03-07 2018-09-11 阿里巴巴集团控股有限公司 一种输出标签的方法、装置及设备
CN108564448A (zh) * 2018-04-23 2018-09-21 广东奥园奥买家电子商务有限公司 一种订单防刷的实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003150630A (ja) * 2001-11-16 2003-05-23 Shinichi Konomi 物理的実体を用いて情報提供手段を制御するためのシステムおよび方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161372A (zh) * 2015-04-09 2016-11-23 阿里巴巴集团控股有限公司 一种基于地址匹配的风险识别方法及装置
CN106251202A (zh) * 2016-07-29 2016-12-21 北京小米移动软件有限公司 恶意订单识别方法及装置
CN106779899A (zh) * 2016-08-29 2017-05-31 北京小米移动软件有限公司 恶意订单识别方法及装置
CN106776933A (zh) * 2016-12-01 2017-05-31 厦门市美亚柏科信息股份有限公司 一种对相似事件信息进行分析聚合的处理方法及系统
CN108229977A (zh) * 2018-01-11 2018-06-29 脉度(上海)电子商务有限公司 一种电商防窜货方法
CN108521402A (zh) * 2018-03-07 2018-09-11 阿里巴巴集团控股有限公司 一种输出标签的方法、装置及设备
CN108564448A (zh) * 2018-04-23 2018-09-21 广东奥园奥买家电子商务有限公司 一种订单防刷的实现方法

Also Published As

Publication number Publication date
CN109379361A (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
EP3407285B1 (en) Target user orientation method and device, and computer storage medium
CN107273531B (zh) 电话号码分类识别方法、装置、设备及存储介质
CN107423278B (zh) 评价要素的识别方法、装置及系统
CN105787133B (zh) 广告信息过滤方法及装置
CN104486495A (zh) 在终端上显示新消息的提示信息的方法和装置
CN113939814A (zh) 内容推送方法及相关产品
CN111783138A (zh) 敏感数据检测方法、装置、计算机设备及存储介质
CN110874534B (zh) 数据处理方法和数据处理装置
CN104683963A (zh) 一种信息处理方法及电子设备
CN112181835A (zh) 自动化测试方法、装置、计算机设备及存储介质
CN103812758A (zh) 经由音频发布信息的系统及方法
CN107943906A (zh) 一种信息的收藏、展示方法和装置
CN113918949A (zh) 基于多模态融合的诈骗app的识别方法
CN112528326A (zh) 信息处理方法、装置及电子设备
CN109379361B (zh) 一种地址的标签确定方法和装置
CN111222051A (zh) 一种趋势预测模型的训练方法及装置
CN112395450B (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN113743721A (zh) 营销策略生成方法、装置、计算机设备及存储介质
CN110533297B (zh) 一种识别异常设备的方法及装置
CN113449506A (zh) 一种数据检测方法、装置、设备及可读存储介质
CN108460159B (zh) 一种信息的回复方法、终端设备及计算机可读存储介质
CN110334177B (zh) 语义相似模型的训练、语义相似识别方法、装置及电子设备
CN107644028B (zh) 网页数据的收集方法及系统
CN112784048B (zh) 对用户问题进行情感分析的方法、装置、设备及存储介质
CN111401897B (zh) 信息处理方法、装置、电子设备及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant