CN115099832A - 异常用户检测方法及其装置、设备、介质、产品 - Google Patents

异常用户检测方法及其装置、设备、介质、产品 Download PDF

Info

Publication number
CN115099832A
CN115099832A CN202210760963.6A CN202210760963A CN115099832A CN 115099832 A CN115099832 A CN 115099832A CN 202210760963 A CN202210760963 A CN 202210760963A CN 115099832 A CN115099832 A CN 115099832A
Authority
CN
China
Prior art keywords
mailbox
mailboxes
keyword
user
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210760963.6A
Other languages
English (en)
Other versions
CN115099832B (zh
Inventor
吴智东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202210760963.6A priority Critical patent/CN115099832B/zh
Priority claimed from CN202210760963.6A external-priority patent/CN115099832B/zh
Publication of CN115099832A publication Critical patent/CN115099832A/zh
Application granted granted Critical
Publication of CN115099832B publication Critical patent/CN115099832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及异常用户检测方法及其装置、设备、介质、产品,所述方法包括:获取独立站的用户集群中各个用户的邮箱;对每个邮箱进行文本切分,获得其前缀和后缀相对应的文本;结合每个邮箱的前缀和后缀,统计确定每个邮箱相对于其他各个邮箱的相似总分,相似总分关联于相对的两个邮箱各自的前缀之间的关键词重合程度;根据相似总分确定用户集群中的同簇邮箱,将同簇邮箱相对应的用户识别为异常用户。本申请基于统计的方式,根据用户之间邮箱的相似性识别出用户群体中的异常用户,效率高,成本低,适于电商平台的独立站使用。

Description

异常用户检测方法及其装置、设备、介质、产品
技术领域
本申请涉及电商信息技术领域,尤其涉及一种异常用户检测方法及其相应 的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
随着信息技术的不断发展,许多自营电商企业或独立站商铺,会在自身的 官方网站开设用户管理系统,用户如果需要在其官网上购买商品,需要先注册 一个账号。一般为了方便记忆,同一个人注册的 多个账号相对于其他人注册的账号,相似性会比较高。根据这种相似性识别出 这些异常用户,对维护独立站乃至整个电商平台的信息安全而言,至关重要。
识别异常用户的常见方式,是根据用户在注册时所提供的昵称、性别、其 他文本等信息提取特征,构造相应的图谱,再根据图聚类算法对用户是否属于 异常用户进行识别。这种方式能够识别大部分的用户,但难免也有漏网之鱼。 此外这种方式并不适用于基于独立站的电商平台中为各个独立站提供服务,其 原因在于各个独立站运行的是独立的线上店铺,每个线上店铺自有的用户相对 较少,无法获得海量的样本数据用于对图聚类算法相对应的聚类模型实施有效 的训练,即使勉强实施,其训练成本也较高。
另一种传统方式可以通过检测注册用户的邮箱是否相似来识别异常用户, 常见的方法是直接将邮箱按照字符切分,然后进行集合相似度计算;另外,还 有些方案会考虑到域名的影响,剔除域名后,结合字符切分,然后再计算集合 相似度。这种方法中,仅仅考虑了邮箱的字符信息,所起作用非常有限,往往 无法有效识别出异常用户群。特别是不法用户容易归纳总结出其中的检测规则, 然后轻而易举地绕开检测系统。
因而,针对基于独立站的电商场景,如何综合成本因素和效率因素,提供 有效识别异常用户的解决方案,仍有探索的空间。
发明内容
本申请的目的在于解决上述问题而提供一种异常用户检测方法及其相应的 装置、计算机设备、计算机可读存储介质、计算机程序产品、
适应本申请的各个目的,采用如下技术方案:
一个方面,适应本申请的目的之一而提供一种异常用户检测方法,包括:
获取独立站的用户集群中各个用户的邮箱;
对每个邮箱进行文本切分,获得其前缀和后缀相对应的文本;
结合每个邮箱的前缀和后缀,统计确定每个邮箱相对于其他各个邮箱的相 似总分,相似总分关联于相对的两个邮箱各自的前缀之间的关键词重合程度;
根据相似总分确定用户集群中的同簇邮箱,将同簇邮箱相对应的用户识别 为异常用户。
可选的,获取独立站的用户集群中各个用户的邮箱,包括:
从电商平台的独立站中抽取出预设的同个时期注册的用户,构成用户集群;
获取用户集群中各个用户注册登记的邮箱。
可选的,结合每个邮箱的前缀和后缀,统计确定每个邮箱相对于其他邮箱 的相似总分,包括:
基于各个邮箱的前缀相对应的关键词集,统计每个邮箱相对于其他各个邮 箱的关于前缀的关键词相似分值,以及关于前缀的关键词位置相似分值;
基于各个邮箱的前缀和后缀相对应的分词集,统计每个邮箱相对于其他各 个邮箱的关于前缀之间和后缀之间的分词相似分值;
以每个邮箱与其他任意一个邮箱组成的邮箱对为单位,汇总该邮箱对的关 键词相似分值和关键词位置相似分值以及各个分词相似分值,确定出所述每个 邮箱相对于所述其他任意一个邮箱的相似总分。
可选的,基于各个邮箱的前缀相对应的关键词集,统计每个邮箱相对于其 他各个邮箱的关于前缀的关键词相似分值,以及关于前缀的关键词位置相似分 值,包括:
针对各个邮箱的前缀分别获取其序列标注信息,根据序列标注信息进行关 键词提取,获得各个邮箱的前缀相对应的关键词集;
以每个邮箱为目标邮箱,以目标邮箱之外的各个邮箱逐一确定出参考邮箱, 统计出目标邮箱与参考邮箱中前缀对应的两个关键词集之间的关键词重合程度;
根据目标邮箱的前缀的每个关键词在参考邮箱的前缀的关键词集中的索引 位置统计出目标邮箱的前缀相对应的距离得分;
将前缀相对应的关键词重合程度归一化为所述目标邮箱相对于所述参考邮 箱的关键词相似分值,将前缀相对应的距离得分归一化为关键词位置相似分值。
可选的,基于各个邮箱的前缀和后缀相对应的分词集,统计每个邮箱相对 于其他各个邮箱的关于前缀之间和后缀之间的分词相似分值,包括:
对各个邮箱的前缀和后缀分别进行多个预设滑动长度的分词操作,获得前 缀和后缀各自对应的分词集;
基于每个邮箱与其他各个邮箱之间的关于前缀的分词的重合程度,确定每 个邮箱相对应于其他各个邮箱的关于前缀的分词相似分值;
基于每个邮箱与其他各个邮箱之间的关于后缀的分词的重合程度,确定每 个邮箱相对应于其他各个邮箱的关于后缀的分词相似分值。
可选的,以每个邮箱与其他任意一个邮箱组成的邮箱对为单位,汇总该邮 箱对的关键词相似分值和关键词位置相似分值以及各个分词相似分值,确定出 所述每个邮箱相对于所述其他任意一个邮箱的相似总分,包括:
从用户集群中确定一个目标邮箱,将该目标邮箱之外的其他任意一个邮箱 确定为参考邮箱,由目标邮箱和参考邮箱构成邮箱对;
根据预设加权公式,将所述邮箱对中,与目标邮箱相对应的关键词相似分 值和关键词位置相似分值以及各个分词相似分值进行加权求和,将和值确定为 所述目标邮箱相对于所述参考邮箱的相似总分;
迭代以上过程直至每个邮箱均获得其相对于其他任意一个邮箱的相似总分。
可选的,根据相似总分确定用户集群中的同簇邮箱,将同簇邮箱相对应的 用户识别为异常用户,包括:
针对用户集群中的每一目标邮箱,确定出与其相似总分达到预设阈值的其 他邮箱,将相似总分达到预设阈值的其他邮箱和所述目标邮箱判定为同簇邮箱;
将所述同簇邮箱相对应的用户识别为异常用户添加到异常用户列表。
另一方面,适应本申请的目的之一而提供一种异常用户检测装置,包括: 邮箱获取模块、文本处理模块、总分确定模块,以及用户识别模块,其中,所 述邮箱获取模块,用于获取独立站的用户集群中各个用户的邮箱;所述文本处 理模块,用于对每个邮箱进行文本切分,获得其前缀和后缀相对应的文本;所 述总分确定模块,用于结合每个邮箱的前缀和后缀,统计确定每个邮箱相对于 其他各个邮箱的相似总分,相似总分关联于相对的两个邮箱各自的前缀之间的 关键词重合程度;所述用户识别模块,用于根据相似总分确定用户集群中的同 簇邮箱,将同簇邮箱相对应的用户识别为异常用户。
可选的,所述邮箱获取模块,包括:用户抽取单元,用于从电商平台的独 立站中抽取出预设的同个时期注册的用户,构成用户集群;邮箱抽取单元,用 于获取用户集群中各个用户注册登记的邮箱。
可选的,所述总分确定模块,包括:关键词计分子模块,用于基于各个邮 箱的前缀相对应的关键词集,统计每个邮箱相对于其他各个邮箱的关于前缀的 关键词相似分值,以及关于前缀的关键词位置相似分值;分词计分子模块,用 于基于各个邮箱的前缀和后缀相对应的分词集,统计每个邮箱相对于其他各个 邮箱的关于前缀之间和后缀之间的分词相似分值;分值汇总子模块,用于以每 个邮箱与其他任意一个邮箱组成的邮箱对为单位,汇总该邮箱对的关键词相似 分值和关键词位置相似分值以及各个分词相似分值,确定出所述每个邮箱相对 于所述其他任意一个邮箱的相似总分。
可选的,所述关键词计分子模块,包括:关键词提取单元,用于针对各个 邮箱的前缀分别获取其序列标注信息,根据序列标注信息进行关键词提取,获 得各个邮箱的前缀相对应的关键词集;集合相似计算单元,用于以每个邮箱为 目标邮箱,以目标邮箱之外的各个邮箱逐一确定出参考邮箱,统计出目标邮箱 与参考邮箱中前缀对应的两个关键词集之间的关键词重合程度;距离得分计算 单元,用于根据目标邮箱的前缀的每个关键词在参考邮箱的前缀的关键词集中 的索引位置统计出目标邮箱的前缀相对应的距离得分;归一化处理单元,用于 将前缀相对应的关键词重合程度归一化为所述目标邮箱相对于所述参考邮箱的 关键词相似分值,将前缀相对应的距离得分归一化为关键词位置相似分值。
可选的,所述分词计分子模块,包括:分词执行单元,用于对各个邮箱的 前缀和后缀分别进行多个预设滑动长度的分词操作,获得前缀和后缀各自对应 的分词集;前缀分词计分单元,用于基于每个邮箱与其他各个邮箱之间的关于 前缀的分词的重合程度,确定每个邮箱相对应于其他各个邮箱的关于前缀的分 词相似分值;后缀分词计分单元,用于基于每个邮箱与其他各个邮箱之间的关 于后缀的分词的重合程度,确定每个邮箱相对应于其他各个邮箱的关于后缀的 分词相似分值。
可选的,所述分值汇总子模块,包括:邮箱对确定单元,用于从用户集群 中确定一个目标邮箱,将该目标邮箱之外的其他任意一个邮箱确定为参考邮箱, 由目标邮箱和参考邮箱构成邮箱对;总分汇总单元,用于根据预设加权公式, 将所述邮箱对中,与目标邮箱相对应的关键词相似分值和关键词位置相似分值 以及各个分词相似分值进行加权求和,将和值确定为所述目标邮箱相对于所述 参考邮箱的相似总分;迭代处理单元,用于迭代以上过程直至每个邮箱均获得 其相对于其他任意一个邮箱的相似总分。
可选的,所述用户识别模块,包括:同簇判定子模块,用于针对用户集群 中的每一目标邮箱,确定出与其相似总分达到预设阈值的其他邮箱,将相似总 分达到预设阈值的其他邮箱和所述目标邮箱判定为同簇邮箱;异常处理子模块, 用于将所述同簇邮箱相对应的用户识别为异常用户添加到异常用户列表。
又一方面,适应本申请的目的之一而提供的一种计算机设备,包括中央处 理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程 序以执行本申请所述的异常用户检测方法的步骤。
又一方面,适应本申请的另一目的而提供的一种计算机可读存储介质,其 以计算机可读指令的形式存储有依据所述的异常用户检测方法所实现的计算机 程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
又一方面,适应本申请的另一目的而提供的一种计算机程序产品,包括计 算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施 例中所述异常用户检测方法的步骤。
相对于现有技术,本申请具有多方面优势,包括但不限于:
首先,本申请先将邮箱区分为前缀和后缀两部分,然后,针对一个邮箱确 定该邮箱相对应于用户集群中的其他每一个邮箱的相似总分,在确定相似总分 时,主要基于两个邮箱之间的前缀相对应的关键词重合程度确定出两个邮箱之 间的相似总分,当然,在确定相似总分过程中也采用后缀提供参考信息,再根 据相似总分确定用户集群中的同簇邮箱。这个过程中,由于在确定一个邮箱相 对于另一个邮箱的相似总分时,主要参考的是前缀相对应的关键词之间的重合 关系,在对两个邮箱进行相似识别时,拔高了所识别的语义层次,按照这种方 式识别两个邮箱是否构成相似,能够更有效地识别出邮箱相对应的用户是否属 于异常用户。
其次,本申请计算相似总分所依赖的数据的结构特点中,涉及到邮箱的前 缀和后缀,前缀和后缀一起采用,可以避免对域名所能提供的信息的遗漏,而 前缀部分基于关键词进行计算相似总分,则可以深化识别所依赖的语义,因而, 符合前缀一般是用户自定义内容的特点,以这样的结构特征来获得相似得分, 所获得的相似总分必然可以更精准地表征两个邮箱之间的相似关系,从而,为 异常用户的识别提供有效的参考信息。
此外,本申请主要服务于电商平台中的独立站,其计算相似总分的过程主 要是基于统计的方式确定,既不依赖于字符层面的正则匹配,也无需依赖基于 深度学习的图聚类算法,基于对用户集群中的邮箱相对应的文本进行适度的统 计处理,便可实现对异常用户的识别,无需依赖大数据训练样本,实现成本低, 运算效率高,特别适合部署于独立站中,为独立站快速准确地识别出异常用户。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中 将变得明显和容易理解,其中:
图1为本申请的异常用户检测方法的典型实施例的流程示意图。
图2为本申请实施例中计算相似总分的流程示意图。
图3为本申请实施例中计算前缀相对应的各个分值的流程示意图。
图4为本申请实施例中计算前缀和后缀的分词相似分值的流程示意图。
图5为本申请实施例中迭代计算全量邮箱的相似总分的流程示意图。
图6为本申请的异常用户检测装置的原理框图;
图7为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自 始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。 下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释 为对本申请的限制。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署 于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直 接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习 来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运 行资源。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系, 否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例, 只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有 技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种异常用户检测方法,可被编程为计算机程序产品,部署于客 户端或服务器中运行而实现,例如,本申请的示例性应用场景中,可以在电商 平台的服务器中部署实现,藉此可以通过访问该计算机程序产品运行后开放的 接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方 法。
请参阅图1,本申请的异常用户检测方法在其典型实施例中,包括如下步 骤:
步骤S1100、获取独立站的用户集群中各个用户的邮箱;
本申请的示例性的应用场景是跨境电商平台中的独立站,每个独立站部署 一个线上店铺,从外部引流进入该独立站的消费者,可以在所述独立站中注册 用户身份,成为该独立站的一个用户,在注册时提供必要的注册信息,例如用 户名称、邮箱、电话等。由此可知,每个独立站均可以有自己的用户数据库, 其中多个用户相对应的注册信息。
针对一个独立站的用户数据库中的用户集群,可以基于独立站安全的需求 而进行相应的识别,以便识别出其中是否存在异常用户,根据识别结果再做相 应的后续处理。
一种实施例中,可以按照如下过程确定出独立站的用户集群以及其中各个 用户的邮箱,包括:
步骤S1110、从电商平台的独立站中抽取出预设的同个时期注册的用户, 构成用户集群;
异常用户的用户行为通常具有共性,常出于某一目的,在特定的时间段, 在独立站中进行批量注册,针对这一特点,预设一个表征同一个时期的时间范 围,例如当天起回溯最近七天,将该时间段中注册的所有用户的的注册信息抽 取出来,不难理解,这些抽取出来的用户,即构成用户集群,后续可针对用户 集群识别其中是否包含异常用户。
步骤S1120、获取用户集群中各个用户注册登记的邮箱。
对于用户集群中的各个用户,由于后续主要是针对各个用户的注册信息中 的邮箱进行相似识别,因而,可以进一步获得各个用户的用户ID与邮箱之间 的映射关系数据,构成邮箱集,以方便调用和数据处理。
不难理解,所述的用户集群的最小用户数量可以只有两个用户,这种情况 下,对各个用户的邮箱的相似识别,便被简化为两个邮箱之间的相似识别,更 方便理解。但是,当用户集群中的用户仅为一个时,便失去本申请基于邮箱进 行相似匹配的意义,因而,所述用户集群中的用户数量应为两个或两个以上。 当然,用户集群的用户数量的上限可以无需设限。
步骤S1200、对每个邮箱进行文本切分,获得其前缀和后缀相对应的文本;
用户注册信息中的邮箱,其对应的文本通常在注册录入的阶段已经通过校 验,因而,通常是符合邮箱地址的规则的定义的,也即,包括前缀、符号“@”, 以及后缀,其中后缀是域名,遵守域名规则,前缀则通常可由用户自定义。异 常用户的共性特征主要体现在可以自定义的前缀中,当然,也不排除异常用户 均在同一域名注册,因而,其后缀在识别异常用户时也具有一定的参考价值。 基于这样的考虑,本申请先将用户集群中的每个邮箱进行文本切分,主要是基 于规则匹配,识别出符号“@”,取其在前的文本作为前缀相对应的文本,取其 在后的文本作为后缀相对应的文本。由此,每个邮箱均被分为前缀和后缀。
步骤S1300、结合每个邮箱的前缀和后缀,统计确定每个邮箱相对于其他 各个邮箱的相似总分,相似总分关联于相对的两个邮箱各自的前缀之间的关键 词重合程度;
考虑到同一现实用户在命名多个邮箱的前缀时,常会设置一些关联特征, 例如相同的关键词,因而,可以针对这样的关联特征,对不同邮箱的前缀之间 的相似性进行识别。
有鉴于此,一种实施例中,针对用户集群中的每个用户的邮箱(称为目标 邮箱)的前缀,要确定其与另一邮箱(称为参考邮箱)的前缀的相似程度时, 可以先确定其各自的前缀相对应的关键词,获得其各自的关键词集,然后利用 统计原理计算两个邮箱的关键词集的集合相似度以表征两个邮箱的前缀之间的 关键词重合程度,然后根据关键词重合程度确定该两个邮箱的前缀之间的集合 相似分数。最后,构造一个关联于所述集合相似分数的相似总分,使该相似总 分关联于两个邮箱的前缀的关键词重合程度,实现对两个邮箱的前缀之间的关 键词重合程度的有效表征。据此不难理解,在统计确定相似总分时,由于所参考的基础信息主要是前缀中的关键词,关键词顾名思义,是具有独立表意单元 的词汇,因而,关键词有语义表示作用,能够最大程度地还原出现实用户在命 名邮箱前缀时的思维特征,因而,所确定的相似总分更具对不同邮箱前缀之间 语义共性进行量化的作用。
在统计确定所述相似总分时,计算两个关键词集的集合相似度的一种推荐 方式可以是采用交并比公式来计算,也即,确定出两个关键词集中相同的关键 词的数量作为分子,再确定出两个关键词集中的关键词的总量作为分母,将分 子除以分母获得的商作为关键词重合程度即可。由此可见,关键词重合程度表 示两个关键词集中,相同关键词数量占两个关键词集所有关键词总量的比例, 可以有效表征两个邮箱的前缀之间的信息重叠程度。
邮箱的前缀的关键词集中的关键词,一种实施例中,可以通过将前缀匹配 预设词表来提取,即,预备一个包含大量关键词的词表,针对给定的任意一个 前缀,在其中查询是否包含词表中的某个关键词,若存在,则将该关键词确定 为给定的前缀的关键词,最终将所有关键词构造为给定的前缀相对应的关键词 集。
另一实施例中,可以采用预训练的序列标注模型来对给定的前缀执行序列 标注任务,通过序列标注任务获得序列标注信息,根据序列标注信息识别出给 定的前缀中的各个关键词,构成关键词集。所述序列标注模型可以采用足量的 训练样本预先训练至收敛状态,所述训练样本可以按照预定的词性结构进行词 性标注,在训练过程中,采用相应的标注信息监督所述训练样本的预测结果, 对模型实施梯度更新,使模型通过迭代训练达至收敛状态。
一种实施例中,根据邮箱的文本内容通常包含英文单词、中文拼音、英文 姓名、连续数字、杂散表达式等不同类别的信息的特点,可按照这些类别确定 序列标注任务相对应的词性结构,然后根据这一词性结构,对所述训练样本进 行词性标注。由此,当序列标注模型被训练至收敛状态后,获得词性标注能力, 便能按照所述的词性结构,根据给定的前缀的各个关键词的实际类别进行相应 的标注,从而获得相应的序列标注信息,根据所述序列标注信息,对应地从给 定的前缀的文本中提取出相应的关键词,便可用于构造关键词集。
一种实施例中,所述序列标注模型所采用的神经网络架构,可以是 LSTM+CRF,其中,LSTM为长短期记忆网络,CRF为条件随机场网络,LSTM对输 入的文本进行序列化的特征提取和编码获得序列化的向量表示,CRF则根据序 列化的向量表示执行相应的标注任务,从而获得所述的序列标注信息。不难理 解,其中LSTM也可以是其他适于处理序列信息的基于循环神经网络(RNN, Recurrent Neural Network)的基础模型,例如Bert、Transformer编码器等。
针对用户集群中仅存在两个用户相对应的邮箱的实施例,两个邮箱的相似 得分经过以上过程便可快速确定。但是,针对用户集群中存在三个或三个以上 的用户的实施例,则可先确定其中一个邮箱作为目标邮箱,将其他各个邮箱逐 一作为该目标邮箱的参考邮箱(甚至为方便矩阵运算的目的,也可将目标邮箱 本身也作为参考邮箱),由目标邮箱和每个参考邮箱构成一个邮箱对,针对每 个邮箱对,按照以上过程,统计确定目标邮箱相对应于其中的参考邮箱的相似 总分。由此可见,每个目标邮箱,其相对于其他各个参考邮箱,均有一个对应 的相似总分,一个实施例中,可将该目标邮箱对应各个参考邮箱的相似总分表 示为行向量的形式。
进一步的实施例中,用户集群中的每个邮箱,均可作为所述的目标邮箱, 与其他任意参考邮箱确定相应的相似总分,因而,用户集群中的每个邮箱,实 际上均可获得前文所述的行向量,将用户集群中的每个邮箱的行向量构造为一 个相似矩阵,相似矩阵中的每个行向量,即是其行所在的邮箱与用户集群中各 个邮箱对应的相似总分,而行向量中的每个元素,则存储其所在行的邮箱与其 所在列的邮箱相对应的相似总分。可见,将用户集群内邮箱与邮箱两两之间的 相似总分以相似矩阵的形式进行表示,存储量低,访问效率更高,方便运算。
在其他实施例中,在确定所述的相似总分时,还可结合两个邮箱的前缀之 间和/或后缀之间的分词集相对应的集合相似度来进一步调节相似总分,使相 似总分的构成不仅关联于基于关键词确定的因素,也关联于基于分词确定的因 素。同理,再进一步,还可以基于一个邮箱的关键词相对于另一个邮箱的关键 词的位置关系信息,来量化出基于关键词位置的分数,合并到相似总分中实现 对两个邮箱的相似总分的调节。不难理解,无论是基于分词量化调节两个邮箱 之间的相似总分,还是基于关键词位置信息量化调节两个邮箱之间的相似总分, 其本质是为两个邮箱之间的相似总分的量化引入多维度评价因子,使得对两个 邮箱的相似程度的刻画更为细腻和全面,使所确定的相似总更具实际意义,能够有效地量化两个邮箱之间的相似程度。
步骤S1400、根据相似总分确定用户集群中的同簇邮箱,将同簇邮箱相对 应的用户识别为异常用户。
在获得用户集群中每个邮箱与其他邮箱的相似总分后,便可根据相似总分 确定用户集群中的同簇邮箱。
一个实施例中,可按照如下过程识别异常用户,包括:
步骤S1410、针对用户集群中的每一目标邮箱,确定出与其相似总分达到 预设阈值的其他邮箱,将相似总分达到预设阈值的其他邮箱和所述目标邮箱判 定为同簇邮箱;
取任意一个邮箱相对应的相似总分相对应行向量,根据预设阈值对行向量 中的各个元素进行筛选,将其中高于预设阈值的其他邮箱筛选出来,这些其他 邮箱与行向量对应的邮箱便构成了同簇邮箱,由此实现对同簇邮箱的统计聚类。 所述的预设阈值,可以是经验阈值或者实测阈值,由本领域技术人员按需设定 即可。
步骤S1420、将所述同簇邮箱相对应的用户识别为异常用户添加到异常用 户列表。
被识别为同簇邮箱的用户,便是本申请的异常用户,因而可进一步根据用 户与邮箱之间的映射关系数据,确定出同簇邮箱相对应的用户,获得这些用户 的注册信息,将其添加到异常用户列表中。
另一实施例中,考虑到用户集群中每个邮箱都相对其他邮箱计算获得相似 总分,两个邮箱之间,互为目标邮箱和参考邮箱的情况下,可能出现不同的相 似总分,这种情况下,也可逐一以用户集群中的每个邮箱对为单位,获得邮箱 对中两个邮箱互为目标邮箱的情况下的相似总分,对两个相似总分求均值,确 定为该邮箱对所对应的均值相似总分,由此,每个邮箱对均有一个对应的均值 相似总分,再根据预设阈值对均值相似总分进行筛选,将均值相似总分高于预 设阈值的邮箱对筛选出来,将所有筛选出来的邮箱对相对应的所有邮箱作为同 簇邮箱,由此实现对同簇邮箱的统计聚类。后续则同理,可将同簇邮箱相对应 的异常用户添加到异常用户列表以供进一步处理。
可见,同簇邮箱中的各个邮箱相对应的用户便可以直接识别为异常用户, 后续允许针对这些异常用户的用户权限做进一步的处理,例如禁止登录本独立 站、禁止评论、禁止评价商品交易等。
根据以上实施例,不难理解,本申请具有多方面优势,包括但不限于:
首先,本申请先将邮箱区分为前缀和后缀两部分,然后,针对一个邮箱确 定该邮箱相对应于用户集群中的其他每一个邮箱的相似总分,在确定相似总分 时,主要基于两个邮箱之间的前缀相对应的关键词重合程度确定出两个邮箱之 间的相似总分,当然,在确定相似总分过程中也采用后缀提供参考信息,再根 据相似总分确定用户集群中的同簇邮箱。这个过程中,由于在确定一个邮箱相 对于另一个邮箱的相似总分时,主要参考的是前缀相对应的关键词之间的重合 关系,在对两个邮箱进行相似识别时,拔高了所识别的语义层次,按照这种方 式识别两个邮箱是否构成相似,能够更有效地识别出邮箱相对应的用户是否属 于异常用户。
其次,本申请计算相似总分所依赖的数据的结构特点中,涉及到邮箱的前 缀和后缀,前缀和后缀一起采用,可以避免对域名所能提供的信息的遗漏,而 前缀部分基于关键词进行计算相似总分,则可以深化识别所依赖的语义,因而, 符合前缀一般是用户自定义内容的特点,以这样的结构特征来获得相似得分, 所获得的相似总分必然可以更精准地表征两个邮箱之间的相似关系,从而,为 异常用户的识别提供有效的参考信息。
此外,本申请主要服务于电商平台中的独立站,其计算相似总分的过程主 要是基于统计的方式确定,既不依赖于字符层面的正则匹配,也无需依赖基于 深度学习的图聚类算法,基于对用户集群中的邮箱相对应的文本进行适度的统 计处理,便可实现对异常用户的识别,无需依赖大数据训练样本,实现成本低, 运算效率高,特别适合部署于独立站中,为独立站快速准确地识别出异常用户。
在本申请任意实施例的基础上,请参阅图2,结合每个邮箱的前缀和后缀, 统计确定每个邮箱相对于其他邮箱的相似总分,包括:
步骤S1210、基于各个邮箱的前缀相对应的关键词集,统计每个邮箱相对 于其他各个邮箱的关于前缀的关键词相似分值,以及关于前缀的关键词位置相 似分值;
为便于理解,以一个目标邮箱相对于一个参考邮箱确定相似总分为例,将 目标邮箱的前缀的关键词集称为第一关键词集,将参考邮箱的前缀的关键词集 称为第二关键词集。
在本步骤中,主要基于第一关键词集和第二关键词集中的关键词,确定目 标邮箱相对于参考邮箱的两个分值,即关键词相似分值和关键词位置相似分值。
关键词相似分值,顾名思义,是用于量化表征第一关键词集和第二关键词 集两者之间的关键词的重合程度,即两者之间重叠的关键词的占比的多寡。不 难理解,关键词相似分值越高,则表征两个邮箱的前缀的相同内容越多,反之 则差异性越大。关键词相似分值从语义维度表征了两个邮箱前缀之间的相近性, 从一个方面衡量了两个邮箱之间的相似度。
关键词位置相似分值,则用于表征第一关键词集中的各个关键词在第二关 键词集中的出现位置是否与在第一关键词集中的出现位置相接近。不难理解, 关键词位置相似分值越高,则表征两个邮箱的前缀的关键词排列方式越相似, 反之则关键词排列方式差异性越大。同理,关键词位置相似分值从前缀的构词 顺序的角度表征了两个邮箱前缀之间的相近性,从另一个方面衡量了两个邮箱 之间的相似度。
通过关键词相似分值和关键词位置相似分值,可以实现对任意两个邮箱的 前缀之间的相似性的衡量,构成确定两个邮箱之间的相似总分的关键部分。
步骤S1220、基于各个邮箱的前缀和后缀相对应的分词集,统计每个邮箱 相对于其他各个邮箱的关于前缀之间和后缀之间的分词相似分值;
仍以两个邮箱构成的邮箱对为例,为了在更细的粒度考察两个邮箱之间的 相似性,可以引入基于分词进行量化两个邮箱的前缀和后缀的差异性的维度, 因而,在获得邮箱对中的两个邮箱的前缀和后缀各自相对应的分词集的基础上, 采用与关键词集中计算集合相似度的相同方式,计算获得两个邮箱的前缀之间、 后缀之间相对应的分词相似分值。不难理解,前缀之间、后缀之间,均基于分 词之间的重合程度实现量化,分词的信息粒度相对于关键词的信息粒度更为细 腻,可以提供前缀和后缀中文本内容的精细化信息,以最大程度地挖掘出用户 的构词习惯。以前缀和后缀各自相对应的分词相似分值构成相似总分的另一部 分调节因子,可使相似总分更全面有效地表征两个邮箱之间的文本差异。
步骤S1230、以每个邮箱与其他任意一个邮箱组成的邮箱对为单位,汇总 该邮箱对的关键词相似分值和关键词位置相似分值以及各个分词相似分值,确 定出所述每个邮箱相对于所述其他任意一个邮箱的相似总分。
对于每个邮箱对中的目标邮箱和参考邮箱而言,针对目标邮箱确定其相对 于参考邮箱所应获得的相似总分时,可将以上确定的基于前缀的关键词相似分 值Scorekey、关键词位置相似分值Scorepos、分词相似分值Scorepre,以及基于 后缀确定的分词相似分值Scorelst进行加和,将和值作为该目标邮箱相对于参 考邮箱的相似总分Scoretotal即可。
一个实施例中,在加和获取所述的相似总分时,可为以上各个分值匹配预 设权重,事先对以上各个分值进行归一化处理,通过归一化将各个分值调整至 [0,1]的数值区间,然后,在汇总以上各个分值以求取相似总分时,为以上各 分值匹配权重,各个权重之和为1,使最终所获得的相似总分仍被归一化至[0,1]的数值区间,以使结果更具可读性。
示例性的公式如下所示:
Scoretotal=α1Scorekey2Scorepos3Scorepre4Scorelst
其中:
α1234=1
如前所述,针对每个邮箱均可作为目标邮箱求取其相对于另一参考邮箱的 相似总分,其过程与本实施例中基于邮箱对展开的示例性说明相同,恕不赘述。 不难理解,同一邮箱对的,将第一邮箱确定为目标邮箱所获得的第一相似总分 未必与将第二邮箱确定为目标邮箱所获得的第二相似总分相同,因而,在一些 实施例中,可以取第一相似总分与第二相似总分的均值相似总分,用来表征整 个邮箱对的邮箱文本之间的相似程度,后续也可据此进行同簇邮箱的判定。
根据以上实施例可知,本申请在量化一个邮箱对中的目标邮箱相对于参考 邮箱的相似总分的过程中,分别引用了基于前缀的关键词确定的关键词相似分 值、关键词位置相似分值,以及引用了基于前缀和后缀的分词确定的两个分词 相似分值,从关键词的词汇层面的语义、关键词位置构造的语义,以及细节分 词层面的语义等多个维度提供多个方面的调节因子,使所获得的相似总分能够 从不同维度不同方面实现对目标邮箱相对于参考邮箱的相似程度的刻画,使所 获得的相似总分更能精准全面地表示出目标邮箱相对于参考邮箱的相近程度, 以高效的统计处理的方式,为后续进行异常用户识别提供了科学有效的量化信 息。
在本申请任意实施例的基础上,请参阅图3,基于各个邮箱的前缀相对应 的关键词集,统计每个邮箱相对于其他各个邮箱的关于前缀的关键词相似分值, 以及关于前缀的关键词位置相似分值,包括:
步骤S1211、针对各个邮箱的前缀分别获取其序列标注信息,根据序列标 注信息进行关键词提取,获得各个邮箱的前缀相对应的关键词集;
采用本申请前文本所示例的序列标注模型,可以针对用户集群中的各个邮 箱的前缀获得其序列标注信息,即将每个邮箱的前缀依次输入所述序列标注模 型中,便可获得其相应的序列标注信息,然后再根据序列标注信息从相应的前 缀中取词,便可获得相应的关键词集,完成关键词提取的过程。
所述序列标注模型预先被训练至收敛状态,其数据集可以直接采集邮箱数 据,例如独立站内部的用户注册邮箱,获得数据集D。
在数据集的基础上进行数据标注。本实施例中,根据邮箱地址的构成特点, 设定五类标签,分别是:中文拼音、英文单词、英文姓名、连续数字、杂散表 达式。使用BIO的标注方法对数据集中的各个邮箱地址进行标注。其中B表示 该标签的起始位置,I表示该标签的中间以及结束位置。O表示杂散表达式中 的字符。据此,标签与其所指定的类别的对应关系如下表所示:
类别 标签
正常 O
中文拼音 B-PY/I-PY
英文单词 B-TOKEN/I-TOKEN
英文姓名 B-NAME/I-NAME
连续数字 B-NUM/I-NUM
根据上表,以邮箱为例“hoewlihaohmWhatJohn@163.com”,经过切分后, 得“hoewlihaohmWhatJohn”。那么标注结果:
Figure BDA0003720989660000171
由此可见,根据以上方法,可以完成对数据集中的各个邮箱地址的标注, 从而完成对训练样本的构造。
进一步,可以对所述序列标注模型实施迭代训练,每次调用一个所述的邮 箱地址的前缀作为训练样本x1,pre输入序列标注模型,由其中的文本特征提取网 络例如LSTM或GRU将前缀表示为语义向量,完成输入编码。示例性公式表示 如下:
Vgru=GRU(x1,pre)
之后,借助条件随机场网络CRF,经过Viterbi算法解码后得到文本序列 得分,即序列标注信息。示例性公式表示如下:
Pseq=CRF(Vgru)
获得序列标注信息后,使用训练样本相对应的标签,采用应用极小化负对 数似然函数的思想所构造的损失函数计算模型损失,损失函数的示例性公式表 示如下:
Lossseq=-log(Pseq)
根据模型损失值,使用Adam或AdamW算法对模型实施梯度更新,直至完 成对数据集的遍历训练或者直至根据该损失值判定模型达到预设阈值为止,表 示模型收敛,可终止训练。由此,序列标注模型便获得为给定的邮箱前缀获得 序列标注信息的能力。
根据序列标注模型为每个邮箱的前缀获得的序列标注信息,查询序列标注 模型相对应的预设词表,便可提取出前缀中的各个关键词,将各个关键词按序 排序构造为一个关键词集以备后用。
步骤S1212、以每个邮箱为目标邮箱,以目标邮箱之外的各个邮箱逐一确 定出参考邮箱,统计出目标邮箱与参考邮箱中前缀对应的两个关键词集之间的 关键词重合程度;
在针对用户集群的每个邮箱确定其相对于其他参考邮箱的关键词重合程度 时,首先确定其中一个邮箱作为目标邮箱,然后逐一取其中另一邮箱作为参考 邮箱,逐一构造为邮箱对,针对每个邮箱对确定邮箱对中两个邮箱之间基于关 键词集的关键词重合程度即可,因此,仍可以一个邮箱对中的目标邮箱和参考 邮箱为例,来了解关于关键词重合程度的确定过程。
如前所述,关键词重合程度是基于目标邮箱的关键词集Seq1,pre和参考邮箱 的关键词集Seq2,pre之间求集合相似度确定的,具体中应用交并比公式,可确定 出关键词重合程度Scoreele。示例性的公式表示如下:
Figure BDA0003720989660000191
由此可知,针对每个邮箱对中的目标邮箱,均可套用以上公式计算出其关 键词集相对于参考邮箱的关键词集的关键词重合程度。
步骤S1213、根据目标邮箱的前缀的每个关键词在参考邮箱的前缀的关键 词集中的索引位置统计出目标邮箱的前缀相对应的距离得分;
同一邮箱对的两个邮箱中,即使存在部分相同的关键词,但关键词在彼此 前缀中的排列可能存在不同,主要表现为所处位序的不同,因而,可以量化目 标邮箱中的各个关键词在参考邮箱的关键词集中所处索引位置相对应的距离得 分,来实现对两者之间关键词位置关系信息的量化。
一个实施例中,按照如下过程确定目标邮箱中的各个关键词e相对应的个 别得分:
首先,针对目标邮箱的关键词集Seq1,pre中的关键词e,遍历参考邮箱的关 键词集Seq2,pre是否存在关键词e,若不存在,则跳过当前关键词e,继续判断 下一关键词是否存在。
然后,对于参考邮箱的关键词集Seq2,pre中存在当前关键词e的情况,分别 获取关键词e分别在两个关键词集中的索引位置index1,e和index2,e,按照以下 方式,计算关键词e的个别得分Scoredist,e
Figure BDA0003720989660000192
其中,
Figure BDA0003720989660000193
表示目标邮箱的前缀的字符长度。
根据以上公式不难理解,其中个别得分越接近1,说明关键词e在两个前缀 中出现的位置越接近。
最后,当对目标邮箱的关键词集中的关键词遍历完毕,得到每个关键词相 应的个别得分,于是,可以将这些个别得分按照如下公式汇总为目标邮箱前缀 相对应的距离得分Scoredist
Figure RE-GDA0003804747530000201
其中,
Figure BDA0003720989660000202
表示关键词集Seq1,pre的序列长度。
根据以上过程不难理解,本申请以目标邮箱的前缀的关键词集中各个关键 词相对于参考邮箱的关键词集的索引位置关系,确定出前者的距离得分,实现 对各个关键词的相对位置关系所包含的语义信息的综合表示,能为相似总分的 计算提供有效的参考信息,实现对用户命名邮箱的构词习惯的深度挖掘。
步骤S1214、将前缀相对应的关键词重合程度归一化为所述目标邮箱相对 于所述参考邮箱的关键词相似分值,将前缀相对应的距离得分归一化为关键词 位置相似分值。
最后,为了统一量纲,可对前缀相对应的所述关键词重合程度和距离得分 进行归一化,以便将其数值调节到诸如[0,1]的置信区间,使后续确定相似总 分更为便利。经归一化后,所述关键词重合程度Scoreele转换为关键词相似分 值Scorekey,所述距离得分Scoredist相应转化为关键词位置相似分值Scorepos
根据以上实施例,不难发现,本实施以邮箱前缀的关键词集为基础,对每 个邮箱对中的两个邮箱的关键词集之间的关联关系信息进行深度挖掘,实现在 词汇层面,词汇排列位置信息层面中挖掘出用户的表达和构思习惯,将其中蕴 含的命名习惯转换为数值化信息,实现对邮箱前缀信息间关联关系的量化处理, 为确保相似总分的关键因子提供了有效的解决方案。
在本申请任意实施例的基础上,请参阅图4,基于各个邮箱的前缀和后缀 相对应的分词集,统计每个邮箱相对于其他各个邮箱的关于前缀之间和后缀之 间的分词相似分值,包括:
步骤S1221、对各个邮箱的前缀和后缀分别进行多个预设滑动长度的分词 操作,获得前缀和后缀各自对应的分词集;
考虑到邮箱的前缀和后缀具有更细粒度的蕴含信息,因而,本申请允许在 确定相似总分时,基于更细粒度的分词信息,确定同一邮箱对中两个邮箱之间 的关联信息。
具体而言,可应用基于统计的N-Gram算法,基于滑动窗口对同一邮箱对 中的前缀、后缀分别进行分词获取分词集。为此,可以预设多个不同的滑动长 度,例如2、3、4,表示分别以2个、3个、4个字符为滑动窗口长度,分别对 每个前缀、后缀执行滑动取词,获得不同滑动窗口长度相对应的分词子集,并 将同一前缀/后缀相对应的分词子集合并为该前缀/后缀相对应的分词集。
步骤S1222、基于每个邮箱与其他各个邮箱之间的关于前缀的分词的重合 程度,确定每个邮箱相对应于其他各个邮箱的关于前缀的分词相似分值;
仍以同一邮箱对为例,其中目标邮箱与参考邮箱之间基于前缀的分词集Ngram1,pre、Ngram2,pre进行分词的重合程度的计算,仍可借鉴前文关于关键 词重合程度所采用集合相似度算法,以交并比公式,计算目标邮箱相对于参考 邮箱的关于前缀的重合程度Scorengram,公式示例如:
Figure BDA0003720989660000211
同理,可将所述关于前缀的分词的重合程度归一化调节至[0,1]的数值区 间,作为相应的分词相似分值Scorepre
步骤S1223、基于每个邮箱与其他各个邮箱之间的关于后缀的分词的重合 程度,确定每个邮箱相对应于其他各个邮箱的关于后缀的分词相似分值。
与前一步骤同理,目标邮箱与参考邮箱之间基于后缀的分词集Ngram1,post、Ngram2,post进行分词的重合程度的计算,仍可借鉴前文关于关键词重合程度所 采用集合相似度算法,以交并比公式,计算目标邮箱相对于参考邮箱的关于前 缀的重合程度Scorepost,公式示例如:
Figure BDA0003720989660000212
同理,可将所述关于后缀的分词的重合程度Scorepost归一化调节至[0,1] 的数值区间,作为相应的分词相似分值Scorelst
根据本实施例可以知晓,基于分词进行量化确定出前缀、后缀相对应的分 词相似分值,实现更细粒度的信息挖掘,可确保所获得的相似总分包含了对邮 箱地址的细节信息相似性的挖掘成份,从而确保基于相似总分进行异常用户识 别更有意义。另一方面,尽管本申请重点以前缀为相似邮箱地址识别的判据, 但适当参考分词维度的相似特性,也可避免对邮箱地址中域名部分信息的关注, 从而确保更为全面地考察邮箱地址之间的相似特性,提升通过邮箱相似性识别 异常用户的准确率。
在本申请任意实施例的基础上,请参阅图5,以每个邮箱与其他任意一个 邮箱组成的邮箱对为单位,汇总该邮箱对的关键词相似分值和关键词位置相似 分值以及各个分词相似分值,确定出所述每个邮箱相对于所述其他任意一个邮 箱的相似总分,包括:
步骤S1231、从用户集群中确定一个目标邮箱,将该目标邮箱之外的其他 任意一个邮箱确定为参考邮箱,由目标邮箱和参考邮箱构成邮箱对;
如前所述,作为对用户集群中相似总分计算的一个基础单元,每次针对一 个目标邮箱,获得用户集群中,除该目标邮箱之外的其他任意一个邮箱确定 为参考邮箱,将该目标邮箱与该参考邮箱视为邮箱对,从而构成一个基础单元, 针对这个基础单元即邮箱对,以便计算目标邮箱相对于参考邮箱的相似总分。
步骤S1232、根据预设加权公式,将所述邮箱对中,与目标邮箱相对应的 关键词相似分值和关键词位置相似分值以及各个分词相似分值进行加权求和, 将和值确定为所述目标邮箱相对于所述参考邮箱的相似总分;
参阅前文的实施例可知,应用公式:
Scoretotal=α1Scorekey2Scorepos3Scorepre4Scorelst
根据该公式对本申请各个实施例所获得的基于前缀的关键词相似分值、关 键词位置相似分值、分词相似分值,以及基于后缀的分词相似分值进行加权求 和,便可获得邮箱对中目标邮箱相对于参考邮箱的相似总分Scoretotal
步骤S1233、迭代以上过程直至每个邮箱均获得其相对于其他任意一个邮 箱的相似总分。
由于用户集群中一般多个用户相对应的邮箱,因而,针对每个用户所确定 的目标邮箱,其与其他用户的邮箱之间,是一对多的关系,设用户集群中存在 N个用户,如果考虑本用户在内,对于本用户相对应的目标邮箱而言,则相应 会有N个邮箱对。而对全量用户的全量邮箱而言,则会有N2个邮箱对。一个实 施例中,可以仅确定其中一个用户的邮箱为目标邮箱,进行复杂度为N个邮箱 对的相似总分的计算,获得该目标邮箱相对应的相似总分的行向量,后续根据 这个行向量进行异常用户筛选识别。另一实施例中,可以针对全量用户相对应 的全量邮箱进行复杂度为N2个邮箱对的相似总分的计算,获得如前文所述的相似矩阵,然后再进行异常用户筛选识别。无论针对多少个邮箱对进行以上过程 的识别,均可逐一调用各个邮箱对进行迭代以上过程,实现各个邮箱对的相似 总分的计算,最终,用户集群中每个邮箱相对于其他任意一个邮箱的相似总分 均可获得。
根据本实施例可知,本申请在针对用户集群进行异常用户识别时,在复杂 度方面具有弹性,可根据实际需要调节在何种运算规模上实施相似总分的计算, 以便获得不同精度上的异常用户识别效果,对于独立站而言,能够匹配不同独 立站的不同深度的服务需求。
请参阅图6,适应本申请的目的之一而提供一种异常用户检测装置,是对 本申请的异常用户检测方法的功能化体现,该装置包括:邮箱获取模块1100、 文本处理模块1200、总分确定模块1300,以及用户识别模块1400,其中,所 述邮箱获取模块1100,用于获取独立站的用户集群中各个用户的邮箱;所述文 本处理模块1200,用于对每个邮箱进行文本切分,获得其前缀和后缀相对应的 文本;所述总分确定模块1300,用于结合每个邮箱的前缀和后缀,统计确定每 个邮箱相对于其他各个邮箱的相似总分,相似总分关联于相对的两个邮箱各自 的前缀之间的关键词重合程度;所述用户识别模块1400,用于根据相似总分确定用户集群中的同簇邮箱,将同簇邮箱相对应的用户识别为异常用户。
在本申请任意实施例的基础上,所述邮箱获取模块1100,包括:用户抽取 单元,用于从电商平台的独立站中抽取出预设的同个时期注册的用户,构成用 户集群;邮箱抽取单元,用于获取用户集群中各个用户注册登记的邮箱。
在本申请任意实施例的基础上,所述总分确定模块1300,包括:关键词计 分子模块,用于基于各个邮箱的前缀相对应的关键词集,统计每个邮箱相对于 其他各个邮箱的关于前缀的关键词相似分值,以及关于前缀的关键词位置相似 分值;分词计分子模块,用于基于各个邮箱的前缀和后缀相对应的分词集,统 计每个邮箱相对于其他各个邮箱的关于前缀之间和后缀之间的分词相似分值; 分值汇总子模块,用于以每个邮箱与其他任意一个邮箱组成的邮箱对为单位, 汇总该邮箱对的关键词相似分值和关键词位置相似分值以及各个分词相似分值, 确定出所述每个邮箱相对于所述其他任意一个邮箱的相似总分。
在本申请任意实施例的基础上,所述关键词计分子模块,包括:关键词提 取单元,用于针对各个邮箱的前缀分别获取其序列标注信息,根据序列标注信 息进行关键词提取,获得各个邮箱的前缀相对应的关键词集;集合相似计算单 元,用于以每个邮箱为目标邮箱,以目标邮箱之外的各个邮箱逐一确定出参考 邮箱,统计出目标邮箱与参考邮箱中前缀对应的两个关键词集之间的关键词重 合程度;距离得分计算单元,用于根据目标邮箱的前缀的每个关键词在参考邮 箱的前缀的关键词集中的索引位置统计出目标邮箱的前缀相对应的距离得分; 归一化处理单元,用于将前缀相对应的关键词重合程度归一化为所述目标邮箱 相对于所述参考邮箱的关键词相似分值,将前缀相对应的距离得分归一化为关 键词位置相似分值。
在本申请任意实施例的基础上,所述分词计分子模块,包括:分词执行单 元,用于对各个邮箱的前缀和后缀分别进行多个预设滑动长度的分词操作,获 得前缀和后缀各自对应的分词集;前缀分词计分单元,用于基于每个邮箱与其 他各个邮箱之间的关于前缀的分词的重合程度,确定每个邮箱相对应于其他各 个邮箱的关于前缀的分词相似分值;后缀分词计分单元,用于基于每个邮箱与 其他各个邮箱之间的关于后缀的分词的重合程度,确定每个邮箱相对应于其他 各个邮箱的关于后缀的分词相似分值。
在本申请任意实施例的基础上,所述分值汇总子模块,包括:邮箱对确定 单元,用于从用户集群中确定一个目标邮箱,将该目标邮箱之外的其他任意一 个邮箱确定为参考邮箱,由目标邮箱和参考邮箱构成邮箱对;总分汇总单元, 用于根据预设加权公式,将所述邮箱对中,与目标邮箱相对应的关键词相似分 值和关键词位置相似分值以及各个分词相似分值进行加权求和,将和值确定为 所述目标邮箱相对于所述参考邮箱的相似总分;迭代处理单元,用于迭代以上 过程直至每个邮箱均获得其相对于其他任意一个邮箱的相似总分。
在本申请任意实施例的基础上,所述用户识别模块1400,包括:同簇判定 子模块,用于针对用户集群中的每一目标邮箱,确定出与其相似总分达到预设 阈值的其他邮箱,将相似总分达到预设阈值的其他邮箱和所述目标邮箱判定为 同簇邮箱;异常处理子模块,用于将所述同簇邮箱相对应的用户识别为异常用 户添加到异常用户列表。
为解决上述技术问题,本申请实施例还提供计算机设备。如图7所示,该 计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和 网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据 库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被 处理器执行时,可使得处理器实现一种商品搜索类目识别方法。该计算机设备 的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设 备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时, 可使得处理器执行本申请的异常用户检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本 申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算 机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或 者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图6中的各个模块及其子模块的具体功能, 存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用 于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请 的异常用户检测装置中执行所有模块/子模块所需的程序代码及数据,服务器 能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被 一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的异 常用户检测方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程 序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分 流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储 于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施 例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read- Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请基于统计的方式,根据用户之间邮箱的相似性识别出用 户群体中的异常用户,效率高,成本低,适于电商平台的独立站使用。

Claims (10)

1.一种异常用户检测方法,其特征在于,包括:
获取独立站的用户集群中各个用户的邮箱;
对每个邮箱进行文本切分,获得其前缀和后缀相对应的文本;
结合每个邮箱的前缀和后缀,统计确定每个邮箱相对于其他各个邮箱的相似总分,相似总分关联于相对的两个邮箱各自的前缀之间的关键词重合程度;
根据相似总分确定用户集群中的同簇邮箱,将同簇邮箱相对应的用户识别为异常用户。
2.根据权利要求1所述的异常用户检测方法,其特征在于,获取独立站的用户集群中各个用户的邮箱,包括:
从电商平台的独立站中抽取出预设的同个时期注册的用户,构成用户集群;
获取用户集群中各个用户注册登记的邮箱。
3.根据权利要求1所述的异常用户检测方法,其特征在于,结合每个邮箱的前缀和后缀,统计确定每个邮箱相对于其他邮箱的相似总分,包括:
基于各个邮箱的前缀相对应的关键词集,统计每个邮箱相对于其他各个邮箱的关于前缀的关键词相似分值,以及关于前缀的关键词位置相似分值;
基于各个邮箱的前缀和后缀相对应的分词集,统计每个邮箱相对于其他各个邮箱的关于前缀之间和后缀之间的分词相似分值;
以每个邮箱与其他任意一个邮箱组成的邮箱对为单位,汇总该邮箱对的关键词相似分值和关键词位置相似分值以及各个分词相似分值,确定出所述每个邮箱相对于所述其他任意一个邮箱的相似总分。
4.根据权利要求3所述的异常用户检测方法,其特征在于,基于各个邮箱的前缀相对应的关键词集,统计每个邮箱相对于其他各个邮箱的关于前缀的关键词相似分值,以及关于前缀的关键词位置相似分值,包括:
针对各个邮箱的前缀分别获取其序列标注信息,根据序列标注信息进行关键词提取,获得各个邮箱的前缀相对应的关键词集;
以每个邮箱为目标邮箱,以目标邮箱之外的各个邮箱逐一确定出参考邮箱,统计出目标邮箱与参考邮箱中前缀对应的两个关键词集之间的关键词重合程度;
根据目标邮箱的前缀的每个关键词在参考邮箱的前缀的关键词集中的索引位置统计出目标邮箱的前缀相对应的距离得分;
将前缀相对应的关键词重合程度归一化为所述目标邮箱相对于所述参考邮箱的关键词相似分值,将前缀相对应的距离得分归一化为关键词位置相似分值。
5.根据权利要求3所述的异常用户检测方法,其特征在于,基于各个邮箱的前缀和后缀相对应的分词集,统计每个邮箱相对于其他各个邮箱的关于前缀之间和后缀之间的分词相似分值,包括:
对各个邮箱的前缀和后缀分别进行多个预设滑动长度的分词操作,获得前缀和后缀各自对应的分词集;
基于每个邮箱与其他各个邮箱之间的关于前缀的分词的重合程度,确定每个邮箱相对应于其他各个邮箱的关于前缀的分词相似分值;
基于每个邮箱与其他各个邮箱之间的关于后缀的分词的重合程度,确定每个邮箱相对应于其他各个邮箱的关于后缀的分词相似分值。
6.根据权利要求3所述的异常用户检测方法,其特征在于,以每个邮箱与其他任意一个邮箱组成的邮箱对为单位,汇总该邮箱对的关键词相似分值和关键词位置相似分值以及各个分词相似分值,确定出所述每个邮箱相对于所述其他任意一个邮箱的相似总分,包括:
从用户集群中确定一个目标邮箱,将该目标邮箱之外的其他任意一个邮箱确定为参考邮箱,由目标邮箱和参考邮箱构成邮箱对;
根据预设加权公式,将所述邮箱对中,与目标邮箱相对应的关键词相似分值和关键词位置相似分值以及各个分词相似分值进行加权求和,将和值确定为所述目标邮箱相对于所述参考邮箱的相似总分;
迭代以上过程直至每个邮箱均获得其相对于其他任意一个邮箱的相似总分。
7.根据权利要求1所述的异常用户检测方法,其特征在于,根据相似总分确定用户集群中的同簇邮箱,将同簇邮箱相对应的用户识别为异常用户,包括:
针对用户集群中的每一目标邮箱,确定出与其相似总分达到预设阈值的其他邮箱,将相似总分达到预设阈值的其他邮箱和所述目标邮箱判定为同簇邮箱;
将所述同簇邮箱相对应的用户识别为异常用户添加到异常用户列表。
8.一种异常用户检测装置,其特征在于,包括:
邮箱获取模块,用于获取独立站的用户集群中各个用户的邮箱;
文本处理模块,用于对每个邮箱进行文本切分,获得其前缀和后缀相对应的文本;
总分确定模块,用于结合每个邮箱的前缀和后缀,统计确定每个邮箱相对于其他各个邮箱的相似总分,相似总分关联于相对的两个邮箱各自的前缀之间的关键词重合程度;
用户识别模块,用于根据相似总分确定用户集群中的同簇邮箱,将同簇邮箱相对应的用户识别为异常用户。
9.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
CN202210760963.6A 2022-06-29 异常用户检测方法及其装置、设备、介质、产品 Active CN115099832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210760963.6A CN115099832B (zh) 2022-06-29 异常用户检测方法及其装置、设备、介质、产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210760963.6A CN115099832B (zh) 2022-06-29 异常用户检测方法及其装置、设备、介质、产品

Publications (2)

Publication Number Publication Date
CN115099832A true CN115099832A (zh) 2022-09-23
CN115099832B CN115099832B (zh) 2024-07-05

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332411A (zh) * 2023-12-01 2024-01-02 国家电网有限公司客户服务中心 一种基于Transformer模型的异常登录检测方法

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050031112A1 (en) * 2001-09-25 2005-02-10 Robert Bezner On demand call re-termination
US7565348B1 (en) * 2005-03-24 2009-07-21 Palamida, Inc. Determining a document similarity metric
US20120254333A1 (en) * 2010-01-07 2012-10-04 Rajarathnam Chandramouli Automated detection of deception in short and multilingual electronic messages
CN103038728A (zh) * 2010-03-12 2013-04-10 纽昂斯通信有限公司 例如在移动电话上使用触摸屏的多模式文本输入系统
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
US8880611B1 (en) * 2004-06-30 2014-11-04 Google Inc. Methods and apparatus for detecting spam messages in an email system
CN105634855A (zh) * 2014-11-06 2016-06-01 阿里巴巴集团控股有限公司 网络地址的异常识别方法及装置
CN105991620A (zh) * 2015-03-05 2016-10-05 阿里巴巴集团控股有限公司 恶意账户识别方法及装置
CN107153654A (zh) * 2016-03-03 2017-09-12 阿里巴巴集团控股有限公司 一种识别用户所属地区的方法及装置
CN108683749A (zh) * 2018-05-18 2018-10-19 携程旅游信息技术(上海)有限公司 一种随机邮箱地址的判断方法、设备和介质
CN109948154A (zh) * 2019-03-12 2019-06-28 南京邮电大学 一种基于邮箱名的人物获取及关系推荐系统和方法
CN110019818A (zh) * 2019-02-14 2019-07-16 阿里巴巴集团控股有限公司 一种批量注册邮箱的检测方法及装置
CN110460582A (zh) * 2019-07-12 2019-11-15 同盾控股有限公司 一种风险邮箱地址的检测方法和装置
CN111669451A (zh) * 2019-03-07 2020-09-15 顺丰科技有限公司 私人邮箱判断方法及判断装置
CN113408281A (zh) * 2021-07-14 2021-09-17 北京天融信网络安全技术有限公司 邮箱账号异常检测方法、装置、电子设备及存储介质
CN113706115A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 一种邮件处理方法、装置及存储介质
US20220083734A1 (en) * 2020-09-17 2022-03-17 Microsoft Technology Licensing, Llc Language autodetection from non-character sub-token signals
CN114219571A (zh) * 2021-12-16 2022-03-22 广州华多网络科技有限公司 电商独立站点匹配方法及其装置、设备、介质、产品

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050031112A1 (en) * 2001-09-25 2005-02-10 Robert Bezner On demand call re-termination
US8880611B1 (en) * 2004-06-30 2014-11-04 Google Inc. Methods and apparatus for detecting spam messages in an email system
US7565348B1 (en) * 2005-03-24 2009-07-21 Palamida, Inc. Determining a document similarity metric
US20120254333A1 (en) * 2010-01-07 2012-10-04 Rajarathnam Chandramouli Automated detection of deception in short and multilingual electronic messages
CN103038728A (zh) * 2010-03-12 2013-04-10 纽昂斯通信有限公司 例如在移动电话上使用触摸屏的多模式文本输入系统
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN105634855A (zh) * 2014-11-06 2016-06-01 阿里巴巴集团控股有限公司 网络地址的异常识别方法及装置
CN105991620A (zh) * 2015-03-05 2016-10-05 阿里巴巴集团控股有限公司 恶意账户识别方法及装置
CN107153654A (zh) * 2016-03-03 2017-09-12 阿里巴巴集团控股有限公司 一种识别用户所属地区的方法及装置
CN108683749A (zh) * 2018-05-18 2018-10-19 携程旅游信息技术(上海)有限公司 一种随机邮箱地址的判断方法、设备和介质
CN110019818A (zh) * 2019-02-14 2019-07-16 阿里巴巴集团控股有限公司 一种批量注册邮箱的检测方法及装置
CN111669451A (zh) * 2019-03-07 2020-09-15 顺丰科技有限公司 私人邮箱判断方法及判断装置
CN109948154A (zh) * 2019-03-12 2019-06-28 南京邮电大学 一种基于邮箱名的人物获取及关系推荐系统和方法
CN110460582A (zh) * 2019-07-12 2019-11-15 同盾控股有限公司 一种风险邮箱地址的检测方法和装置
US20220083734A1 (en) * 2020-09-17 2022-03-17 Microsoft Technology Licensing, Llc Language autodetection from non-character sub-token signals
CN113408281A (zh) * 2021-07-14 2021-09-17 北京天融信网络安全技术有限公司 邮箱账号异常检测方法、装置、电子设备及存储介质
CN113706115A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 一种邮件处理方法、装置及存储介质
CN114219571A (zh) * 2021-12-16 2022-03-22 广州华多网络科技有限公司 电商独立站点匹配方法及其装置、设备、介质、产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周湛;: "概率后缀树在移动用户轨迹异常检测中的应用", 移动通信, no. 08, 15 August 2018 (2018-08-15) *
谭建龙;张吉;郭莉;: "基于通用后缀树模型的垃圾邮件过滤方法", 计算机工程, no. 09, 5 May 2007 (2007-05-05) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332411A (zh) * 2023-12-01 2024-01-02 国家电网有限公司客户服务中心 一种基于Transformer模型的异常登录检测方法
CN117332411B (zh) * 2023-12-01 2024-03-19 国家电网有限公司客户服务中心 一种基于Transformer模型的异常登录检测方法

Similar Documents

Publication Publication Date Title
WO2020199591A1 (zh) 文本分类模型训练方法、装置、计算机设备及存储介质
CN106708966B (zh) 基于相似度计算的垃圾评论检测方法
CN111400432B (zh) 事件类型信息处理方法、事件类型识别方法及装置
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
CN104834651B (zh) 一种提供高频问题回答的方法和装置
CN111461637A (zh) 简历筛选方法、装置、计算机设备和存储介质
CN111104466A (zh) 一种海量数据库表快速分类的方法
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN110827112B (zh) 深度学习的商品推荐方法、装置、计算机设备及存储介质
CN107844533A (zh) 一种智能问答系统及分析方法
CN110096575B (zh) 面向微博用户的心理画像方法
CN113515629A (zh) 一种文档分类方法、装置、计算机设备及存储介质
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN116561388A (zh) 一种获取标签的数据处理系统
CN115809887A (zh) 一种基于发票数据确定企业主要经营范围的方法和装置
CN111428486B (zh) 物品信息数据处理方法、装置、介质及电子设备
CN107609921A (zh) 一种数据处理方法及服务器
Arbaatun et al. Hate speech detection on Twitter through Natural Language Processing using LSTM model
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN115099832B (zh) 异常用户检测方法及其装置、设备、介质、产品
CN115099832A (zh) 异常用户检测方法及其装置、设备、介质、产品
CN114936326A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN115203514A (zh) 商品查询重定向方法及其装置、设备、介质、产品
CN111221880B (zh) 特征组合方法、装置、介质和电子设备
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant