CN108717637B

CN108717637B - 一种电商安全相关实体的自动挖掘方法及系统

Info

Publication number: CN108717637B
Application number: CN201810242990.8A
Authority: CN
Inventors: 纪守领; 伍一鸣; 陈建海; 刘倩君
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2020-11-17
Anticipated expiration: 2038-03-22
Also published as: CN108717637A

Abstract

本发明公开了一种电商安全相关实体的自动挖掘方法和系统，其中方法包括：从互联网中收集涉及电商的舆情数据，所述的舆情数据为文本信息的集合；对所述的舆情数据进行初步筛选，剔除与电商黑灰产业链相关性较小的文本信息，将筛选后的舆情数据切分为语句，对语句集合进行迭代筛选，剔除不含有电商安全相关实体的语句，人工提取部分电商安全相关实体集S1；对筛选后的语句集合进行实体提取，获得候选实体集合；对候选实体集合进行筛选，剔除不属于电商安全相关实体的短语，得到电商安全相关实体集S2。本发明的电商安全相关实体的自动挖掘方法能有效识别电商舆情安全相关实体。

Description

一种电商安全相关实体的自动挖掘方法及系统

技术领域

本发明涉及自然语言处理和电商服务安全技术领域，尤其涉及一种电商安全相关实体的自动挖掘方法及系统。

背景技术

“互联网+”时代下，电子商务迅猛发展。日益激烈的商品竞争，滋生了一条以炒信作弊为主要模式以及虚假交易、人工流量和垃圾评论为典型特征的电商黑灰产业链。同时，竞争引发了一系列以诈骗为主的违法犯罪活动，其存在严重危害了电子商务的信誉体系和市场秩序。因此，全面整治网络服务环境，严厉打击电商黑灰产业链，已成为电商平台健康发展、良性竞争的必然要求。

由于互联网技术的发展，商家和作弊用户之间的非法交易已从传统的P2P形式演变成了商家向刷单组织支付费用、刷单组织分配任务给刷单者、刷单者完成任务获取报酬这一完整的产业链条，在这条产业链中有很多作弊方式在不断的升级和进化，这些隐形且新颖的作弊方式借助电商平台不断进行着扰乱市场、违法逐利的行为。

此外，由于电商购物平台对店铺及商品采取了排名机制，店铺通常会采取一系列的策略来吸引流量，从而提高交易率。因此，电商服务平台应运而生。根据平台的经营方式可以将其分成两种，一是在购物平台允许的范围内，帮助商家更好的包装店铺，例如提供页面设计的服务型网站；二是给虚假交易等作弊行为提供资源的平台，例如出售大量的身份信息给商家。

即使各大电商交易平台都有自己独立的反作弊算法对这些行为进行检测与打击，但也只能依赖于平台中已经产生的虚假交易活动来挖掘出虚假交易的数据(交易量)和对象(商品、商家、用户)，无法在交易完成之前对用户和商家的行为进行防范和杜绝，由此可见电商黑灰产业链已经形成了一个异常成熟且初具智能的系统，其庞大的信息量和隐蔽的交易方式若人为的进行挖掘和分析将会是一个非常巨大的工程。

命名实体识别(Named Entity Recognition)是从文本中识别具有特定类别的实体，例如人名、地名、机构名等。命名实体识别是信息检索，查询分类，自动问答等问题的基础任务，其效果直接影响后续处理的效果。一直以来，中文的命名实体识别都是自然语言领域处理的一个难题，目前研究中的方法主要可以归纳为基于规则的方法、基于统计的方法、以及两者的结合。基于统计的方法往往依赖于统计模型和语料，而没有充分研究命名实体自身的构成模式。而在电商舆情语料库中，严重存在着实体数据稀疏的问题，导致很难得到正确的实体识别结果。

发明内容

本发明提供了一种电商安全相关实体的自动挖掘方法，能有效识别电商舆情安全相关实体。

本发明提供了如下技术方案：

一种电商安全相关实体的自动挖掘方法，包括以下步骤：

(1)从互联网中收集涉及电商的舆情数据，所述的舆情数据为文本信息的集合；

(2)对所述的舆情数据进行初步筛选，剔除与电商黑灰产业链相关性较小的文本信息，将筛选后的舆情数据切分为语句，对语句集合进行迭代筛选，剔除不含有电商安全相关实体的语句，人工提取部分电商安全相关实体集S1；

(3)分别利用TF-IDF的方法和基于规则的命名实体识别方法，对筛选后的语句集合进行实体提取，获得候选实体集合；

(4)根据词频特征、长度特征以及上下文特征对候选实体集合进行筛选，剔除不属于电商安全相关实体的短语，得到电商安全相关实体集S2。

电商安全相关实体S1和电商安全相关实体S2组成电商安全相关实体集合。

本发明中，电商安全相关实体包括：

(a)电商购物平台，是整个电商黑灰产业链的中心，也是在舆情数据中出现频率最高的实体类型；

(b)电商购物平台所执行的规则中的漏洞；

(c)目前电商购物平台中的反作弊算法；

(d)电商服务平台，包括在允许范围内提供服务以及不被允许的提供作弊信息的网站、软件或工具；

(e)给作弊组织之间、作弊组织与商家之间提供交流便利的各大通讯平台，以及平台中作弊组织、作弊组织代理人的名字和作弊组织账号；

(f)作弊商品名称和作弊店铺名称。

步骤(1)中，从互联网中收集涉及电商的舆情数据，包括：以涉及电商黑灰产业链的黑词为关键词，通过搜索引擎进行搜索，爬取搜索结果中网站的文本信息。

步骤(2)中，对所述的舆情数据进行初步筛选，包括：

(2-i)从所述的舆情数据中人工挑选若干条与电商黑灰产业链相关的文本信息，作为训练集训练word2vec词典；

(2-ii)对所述的舆情数据中文本信息的标题和正文内容进行分词，分别到训练好的word2vec词典中查表，获得标题和正文内容的词向量，将标题和正文内容的词向量加权后得到该文本信息的相关性分值；

若文本信息的相关性分值大于设定阈值时，说明该文本信息与电商黑灰产业链相关，则保留该文本信息；

否则，说明该文本信息与电商黑灰产业链不相关，则剔除该文本信息。

优选的，所述的设定阈值为13.5。

步骤(2)中，将筛选后的舆情数据切分为语句，包括：以特定符合为切分点，将过滤后的舆情数据切分为语句；

所述的特定符合为中文形式或英文形式的逗号(，)、句号(。)、顿号(、)、分号(；)、问号(？)或感叹号(！)。

步骤(2)中，对语句集合进行迭代筛选，包括：

(2-I)摘取每条文本信息的第一条语句，组成首语句集合D_f；

(2-II)对首语句集合D_f进行自我聚类，若语句之间的字面编辑距离值＞0.8时，可将其聚为一类；

将每类中的语句进行两两对比，取出每两条语句中的最长子字符串，人工挑出所以最长子字符串中包含的电商安全相关实体，得到电商安全相关实体集S1a，将包含电商安全相关实体集S1a的语句记为D_j1；

将不含有电商安全相关实体S1a的首语句作为下一轮聚类中心D_c1；

(2-III)以D_c1为聚类中心，对所有语句集合D_text进行聚类，若语句与D_c1之间的字面编辑距离值＞0.8时，可将该语句与D_c1聚为一类；

将该类中的语句进行两两对比，取出每两条语句中的最长子字符串，人工挑出所以最长子字符串中包含的电商安全相关实体，得到电商安全相关实体集S1b，将包含电商安全相关实体集S1b的语句记为D_j2；

将不含有电商安全相关实体S1b的语句作为下一轮聚类中心D_c2；

(2-IV)以D_c2为聚类中心，对D_text-D_j1-D_j2进行聚类，若语句与D_c2之间的字面编辑距离值＞N时，可将该语句与D_c2聚为一类，将聚类结果作为下一轮的聚类中心；

其中，N为常数；

(2-V)重复步骤(2-IV)，直至达到收敛条件，聚类结果D_n为所有不含有电商安全相关实体的语句集合。

优选的，当Rate值第一次等于0.1之前，N＝0.4；当Rate值第一次等于0.1至第二次等于0.1之前，N＝0.5；所述的收敛条件为Rate值第二次等于0.1；

其中，Rate为前后两轮聚类结果的数量差；num(m_i)为第i次聚类结果中的语句数量；num(m_i-1)为第i-1次聚类结果中的语句数量。

以上，S1＝S1a+S1b。

由于每条语句的长度较短，因此可认为每条语句一般只含有一个实体，在步骤(2)中，可以得到两个干净的电商安全相关实体集合(S1a和S1b)，在进行实体挖掘之前，可以剔除包含电商安全相关实体集合(S1a和S1b)的语句，提高实体挖掘的效率。

步骤(3)包括：

(3-1)对语句集合D_text-D_n-D_S1a、S1b进行分词、词性标注；

D_Sla、S1b为D_text中包含电商安全相关实体集合S1的语句集合；

优选的，基于条件随机场进行分词，基于支持向量机进行词性标注；

(3-2)计算每个词语的Score，若词语的字符长度＞1且Score＞0.1，则该词语为登录电商安全相关实体，提取该词语，得到候选实体集Sc1；

其中，num_(i，text)为该词语在涉及电商的舆情数据中出现的次数，num_(i，wiki)为该词语在维基百科库中出现的次数；

(3-3)对语句集合D_text-D_n-D_S1a、s1b进行句法分析，根据规则模板挖掘其中的电商安全相关实体集，得到候选实体集Sc2。

候选实体集Sc1和候选实体集Sc2组成候选实体集合。

所述的规则模板为：

(a)当句法分析语法树的某子树中同时存在两个标点(wp，即一条语句中存在双标点，所述的双标点为“”、‘’、《》、<>、()、【】、{}等)，并且两个标点之间的字符长度＞1，则取该子树；

(b)当句法分析语法树中子节点和其根节点之间的依赖关系是动宾关系，同时子节点的词性是名词，只取子节点；

(c)当句法分析语法树中子节点和其根节点之间的依赖关系是定中关系，同时子节点的词性是名词，取该子树；

(d)当句法分析语法树中子节点和其根节点之间的依赖关系是主谓关系，取该子树。

步骤(4)包括：

(4-1)剔除候选实体集中被维基百科库和搜狗新闻库收录的候选实体；

(4-2)对筛选后的候选实体集进行自我聚类，剔除不能与其他候选实体聚类的候选实体；

(4-3)剔除字符长度等于1或大于等于10的候选实体；

(4-4)剔除在涉及电商的舆情数据中仅出现一次的候选实体，得到电商安全相关实体集S2。

电商安全相关实体集S1和电商安全相关实体集S2组成本发明自动挖掘的电商安全相关实体集合。

本发明还提供了一种电商安全相关实体的自动挖掘系统，包括：

预处理模块，对涉及电商的舆情数据进行初步筛选，剔除与电商黑灰产业链相关性较小的文本信息，将筛选后的舆情数据切分为语句，对语句集合进行迭代筛选，剔除不含有电商安全相关实体的语句；

实体提取模块，利用TF-IDF的方法和基于规则的命名实体识别方法，对筛选后的语句集合进行实体提取，获得候选实体集合；

实体过滤模块，根据词频特征、长度特征以及上下文特征对候选实体集合进行筛选，剔除不属于电商安全相关实体的短语，得到电商安全相关实体集。

与现有技术相比，本发明的有益效果为：

本发明的电商安全相关实体的自动挖掘方法利用自然语言处理技术，对互联网中涉及电商黑灰产业链的舆情信息进行分析，能有效识别电商舆情安全相关实体，可通过对这些实体进行分析进而对整个电商黑灰产业链进行宏观掌握，从而对电商作弊行为进行提前防范。

附图说明

图1为电商安全相关实体的自动挖掘系统的架构示意图；

图2为对舆情数据进行初步筛选的流程示意图；

图3为对语句集合进行初步筛选的流程示意图；

图4为语句迭代筛选过程中每轮语句的减少量趋势图，横坐标为迭代次数，纵坐标为Rate值；

图5为实体提取的规则模板示意图；

图6为实体过滤的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

电商安全相关实体包括：

(b)电商购物平台所执行的规则中的漏洞；

(c)目前电商购物平台中的反作弊算法；

(f)作弊商品名称和作弊店铺名称。

本发明提供了一种电商安全相关实体的自动挖掘系统，如图1所示，包括：

电商舆情信息的收集方法为：以涉及电商黑灰产业链的黑词为关键词，通过搜索引擎进行搜索，爬取搜索结果中网站的文本信息。

利用电商安全相关实体的自动挖掘系统进行电商安全相关实体挖掘时，执行以下步骤：

收集的海量舆情数据中，无意义的成分较多，严重影响了实体挖掘的效率，其中的噪声干扰还会造成无效归纳，因此，在进行实体挖掘之前需要对舆情数据进行预处理。

(1)在进行实体识别之前需要对舆情信息数据进行预处理，包括以下步骤：

(1-1)对获取到的舆情信息文本进行筛选，如图2所示；

首先从所有文本中人工挑选N条与电商安全相关文本，作为训练集对word2vec进行训练，对于某篇实时获取到的文本，对其标题和正文内容分别分好词之后，到离线训练好的word2vec词典中去查表，获得对应的词向量，将标题和正文的词向量加权后(标题和正文的权重分别为0.3和0.7)得到相关性分值，若大于阈值(设置为13.5)则为相关，否则无关，并且将相关的文本加入到训练集中重新对word2vec进行训练。

再利用训练好的word2vec对文本进行判断，剔除无关文本。

由于每条文本信息通常只介绍了一种或两种电商安全相关实体，本发明以语句为单元，对语句进行自然语言处理。因此，需要将文本信息切分为语句。

(1-2)将相关文本切分成语句；

由于每条文本通常只介绍了一种或两种实体，因此本发明以语句为单元，对语句进行自然语言处理。因此，将过滤后的文本以特定的符号(中文形式或英文形式的，。？、！；)为切分点，将其切分为若干条语句，记为D_text。

一条与电商黑灰产业链相关的文本信息可以切分成若干条语句，其中大部分的语句是不包含电商安全相关实体的，因此，需要将不包含电商安全相关实体的语句剔除。

(1-3)对语句进行筛选，包括以下步骤：

以下聚类的距离度量方式都为字面编辑距离；

(a)建立初始聚类中心，挖掘出电商安全相关实体(基本为电商交易平台实体)，如图3所示，包括：

(i)将每条文本的第一条语句储存起来，记为D_f；

(ii)对D_f进行自我聚类：当语句之间的编辑距离值＞0.8时，可将它们聚成一类；将每个类中的语句进行两两对比，取出每两条语句中的最长子字符串，人工挑出所有子字符串中涵盖的电商安全相关实体(基本为电商交易平台实体)，形成电商安全相关实体集S1a，含有电商安全相关实体集S1a的语句记为D_j1；将不含有电商交易平台实体的语句保存起来，作为下一轮聚类中心D_c1；即：

D_f＝D_j1+Dc₁

(iii)以D_c1为聚类中心，对D_text进行聚类，重复步骤(ii)，得到电商安全相关部分实体集S1b，将含有电商安全相关部分实体集S1b的语句记为D_j2，以及第二轮聚类中心D_c2，也就是初始聚类中心。即：

(b)以D_c2为聚类中心，对D_text-D_j1-D_j2进行聚类，当语句之间的编辑距离值＞N时，可将它们聚成一类。将聚类之后的结果取出，作为下一轮的输入；N的取值由前后两轮结果的数量差(记作：Rate)决定；

(c)重复步骤(b)，收敛条件也由前后两轮结果的数量差(Rate)决定，即：

如图4所示，a，b点的纵坐标为0.1，即当Rate的值第一次等于0.1时，N的值由0.4设为0.5；当Rate的值第二次等于0.1时，该算法结束。

(2)实体挖掘处理：在(1)中得到了两个干净的电商安全相关实体集，S1a和S1b。因为每一条语句的长度不是很长，因此可以认为对于每一条语句，它一般只含有一个实体。因此可以在所有语句中过滤掉含有S1a和S1b的语句(记为D_S1a、S1b)，只针对其他不包含已知实体的语句(记为D_text-D_n-D_S1a、S1b)进行实体挖掘。

该部分针对登录实体和未登录实体具有不同的处理方式。借助LTP云平台，对文本进行分词、词性标注和句法分析。

对于登录实体，利用TF-IDF的思想，如果分词后的某个词，在本语料库即D_text中出现的次数较多，但在其他语料库中(维基百科库)出现的次数较少，则该词很有可能是电商安全相关实体，提取，得到候选实体集。形式化表示为：

在本发明中认为，实体的长度＞1，并且实体所得的Score＞0.1；

对于未登录词，综合利用词语的词性和句法结构，构造规则模版，挖掘出候选实体集。

如图5所示，构造规则模版为：

(a)当句法分析语法树的某子树中同时存在两个wp(标点)，并且两个wp之间的距离＞1，则取该子树；

(b)句法树中子节点和其根节点之间的依赖关系是动宾关系，同时子节点的词性是名词，只取子节点；

(c)句法树中子节点和其根节点之间的依赖关系是定中关系，子节点的词性是名词，取该子树；

(d)句法树中子节点和其根节点之间的依赖关系是主谓关系，取该子树。

(3)利用实体的相关特征，对步骤(2)中挖掘出的实体进行过滤，具体流程如图6所示，包括：

(3-1)剔除候选实体集中被维基百科库和搜狗新闻库收录的候选实体；

(3-2)对筛选后的候选实体集进行自我聚类，剔除不能与其他候选实体聚类的候选实体；

(3-3)剔除字符长度等于1或大于等于10的候选实体；

(3-4)剔除在涉及电商的舆情数据中仅出现一次的候选实体，得到电商安全相关实体集S2。

电商安全相关实体集S1a、S1b和电商安全相关实体集S2组成本发明自动挖掘的电商安全相关实体集合。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种电商安全相关实体的自动挖掘方法，其特征在于，包括以下步骤：

(2)对所述的舆情数据进行初步筛选，剔除与电商黑灰产业链相关性较小的文本信息，将筛选后的舆情数据切分为语句，对语句集合进行迭代筛选，剔除不含有电商安全相关实体的语句，人工提取部分电商安全相关实体集S1；对语句集合进行迭代筛选，包括：

(2-Ⅰ)摘取每条文本信息的第一条语句，组成首语句集合D_f；

(2-Ⅱ)对首语句集合D_f进行自我聚类，若语句之间的字面编辑距离值＞0.8时，可将其聚为一类；

将每类中的语句进行两两对比，取出每两条语句中的最长子字符串，人工挑出所以最长子字符串中包含的电商安全相关实体，得到电商安全相关实体集S1a，将包含电商安全相关实体集S1a的语句记为D_j1；将不含有电商安全相关实体S1a的首语句作为下一轮聚类中心D_c1；

(2-Ⅲ)以D_c1为聚类中心，对所有语句集合D_text进行聚类，若语句与D_c1之间的字面编辑距离值＞0.8时，可将该语句与D_c1聚为一类；

将该类中的语句进行两两对比，取出每两条语句中的最长子字符串，人工挑出所以最长子字符串中包含的电商安全相关实体，得到电商安全相关实体集S1b，将包含电商安全相关实体集S1b的语句记为D_j2；将不含有电商安全相关实体S1b的语句作为下一轮聚类中心D_c2；

(2-Ⅳ)以D_c2为聚类中心，对D_text-D_j1-D_j2进行聚类，若语句与D_c2之间的字面编辑距离值＞N时，可将该语句与D_c2聚为一类，将聚类结果作为下一轮的聚类中心；其中，N为常数；

(2-Ⅴ)重复步骤(2-Ⅳ)，直至达到收敛条件，聚类结果D_n为所有不含有电商安全相关实体的语句集合；

2.根据权利要求1所述的电商安全相关实体的自动挖掘方法，其特征在于，步骤(2)中，对所述的舆情数据进行初步筛选，包括：

(2-ⅰ)从所述的舆情数据中人工挑选若干条与电商黑灰产业链相关的文本信息，作为训练集训练word2vec词典；

(2-ⅱ)对所述的舆情数据中文本信息的标题和正文内容进行分词，分别到训练好的word2vec词典中查表，获得标题和正文内容的词向量，将标题和正文内容的词向量加权后得到该文本信息的相关性分值；

剔除相关性分值小于等于设定阈值的文本信息。

3.根据权利要求1所述的电商安全相关实体的自动挖掘方法，其特征在于，步骤(2)中，将筛选后的舆情数据切分为语句，包括：以特定符合为切分点，将过滤后的舆情数据切分为语句；

所述的特定符合为中文形式或英文形式的逗号、句号、顿号、分号、问号或感叹号。

4.根据权利要求1所述的电商安全相关实体的自动挖掘方法，其特征在于，当Rate值第一次等于0.1之前，N＝0.4；当Rate值第一次等于0.1至第二次等于0.1之前，N＝0.5；所述的收敛条件为Rate值第二次等于0.1；

5.根据权利要求1所述的电商安全相关实体的自动挖掘方法，其特征在于，步骤(3)包括：

(3-1)对语句集合D_text-D_n-D_S1a、S1b进行分词、词性标注；

D_S1a、S1b为D_text中包含电商安全相关实体集合S1的语句集合；

(3-2)计算每个词语的Score，若词语的字符长度＞1且Score＞0.1，提取该词语，得到候选实体集Sc1；

其中，num_(i,text)为该词语在涉及电商的舆情数据中出现的次数，num_(i,wiki)为该词语在维基百科库中出现的次数；

6.根据权利要求5所述的电商安全相关实体的自动挖掘方法，其特征在于，所述的规则模板为：

(a)当句法分析语法树的某子树中同时存在两个标点，并且两个标点之间的字符长度>1，则取该子树；

7.根据权利要求1所述的电商安全相关实体的自动挖掘方法，其特征在于，步骤(4)包括：

(4-3)剔除字符长度等于1或大于等于10的候选实体；

8.一种电商安全相关实体的自动挖掘系统，包括：

实体过滤模块，根据词频特征、长度特征以及上下文特征对候选实体集合进行筛选，剔除不属于电商安全相关实体的短语，得到电商安全相关实体集；

所述自动挖掘系统根据权利要求1～7任一项所述的自动挖掘方法对电商安全相关实体进行自动挖掘。