CN108717637B - 一种电商安全相关实体的自动挖掘方法及系统 - Google Patents

一种电商安全相关实体的自动挖掘方法及系统 Download PDF

Info

Publication number
CN108717637B
CN108717637B CN201810242990.8A CN201810242990A CN108717637B CN 108717637 B CN108717637 B CN 108717637B CN 201810242990 A CN201810242990 A CN 201810242990A CN 108717637 B CN108717637 B CN 108717637B
Authority
CN
China
Prior art keywords
commerce
safety related
sentences
entity
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810242990.8A
Other languages
English (en)
Other versions
CN108717637A (zh
Inventor
纪守领
伍一鸣
陈建海
刘倩君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810242990.8A priority Critical patent/CN108717637B/zh
Publication of CN108717637A publication Critical patent/CN108717637A/zh
Application granted granted Critical
Publication of CN108717637B publication Critical patent/CN108717637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products

Abstract

本发明公开了一种电商安全相关实体的自动挖掘方法和系统,其中方法包括:从互联网中收集涉及电商的舆情数据,所述的舆情数据为文本信息的集合;对所述的舆情数据进行初步筛选,剔除与电商黑灰产业链相关性较小的文本信息,将筛选后的舆情数据切分为语句,对语句集合进行迭代筛选,剔除不含有电商安全相关实体的语句,人工提取部分电商安全相关实体集S1;对筛选后的语句集合进行实体提取,获得候选实体集合;对候选实体集合进行筛选,剔除不属于电商安全相关实体的短语,得到电商安全相关实体集S2。本发明的电商安全相关实体的自动挖掘方法能有效识别电商舆情安全相关实体。

Description

一种电商安全相关实体的自动挖掘方法及系统
技术领域
本发明涉及自然语言处理和电商服务安全技术领域,尤其涉及一种电商安全相关实体的自动挖掘方法及系统。
背景技术
“互联网+”时代下,电子商务迅猛发展。日益激烈的商品竞争,滋生了一条以炒信作弊为主要模式以及虚假交易、人工流量和垃圾评论为典型特征的电商黑灰产业链。同时,竞争引发了一系列以诈骗为主的违法犯罪活动,其存在严重危害了电子商务的信誉体系和市场秩序。因此,全面整治网络服务环境,严厉打击电商黑灰产业链,已成为电商平台健康发展、良性竞争的必然要求。
由于互联网技术的发展,商家和作弊用户之间的非法交易已从传统的P2P形式演变成了商家向刷单组织支付费用、刷单组织分配任务给刷单者、刷单者完成任务获取报酬这一完整的产业链条,在这条产业链中有很多作弊方式在不断的升级和进化,这些隐形且新颖的作弊方式借助电商平台不断进行着扰乱市场、违法逐利的行为。
此外,由于电商购物平台对店铺及商品采取了排名机制,店铺通常会采取一系列的策略来吸引流量,从而提高交易率。因此,电商服务平台应运而生。根据平台的经营方式可以将其分成两种,一是在购物平台允许的范围内,帮助商家更好的包装店铺,例如提供页面设计的服务型网站;二是给虚假交易等作弊行为提供资源的平台,例如出售大量的身份信息给商家。
即使各大电商交易平台都有自己独立的反作弊算法对这些行为进行检测与打击,但也只能依赖于平台中已经产生的虚假交易活动来挖掘出虚假交易的数据(交易量)和对象(商品、商家、用户),无法在交易完成之前对用户和商家的行为进行防范和杜绝,由此可见电商黑灰产业链已经形成了一个异常成熟且初具智能的系统,其庞大的信息量和隐蔽的交易方式若人为的进行挖掘和分析将会是一个非常巨大的工程。
命名实体识别(Named Entity Recognition)是从文本中识别具有特定类别的实体,例如人名、地名、机构名等。命名实体识别是信息检索,查询分类,自动问答等问题的基础任务,其效果直接影响后续处理的效果。一直以来,中文的命名实体识别都是自然语言领域处理的一个难题,目前研究中的方法主要可以归纳为基于规则的方法、基于统计的方法、以及两者的结合。基于统计的方法往往依赖于统计模型和语料,而没有充分研究命名实体自身的构成模式。而在电商舆情语料库中,严重存在着实体数据稀疏的问题,导致很难得到正确的实体识别结果。
发明内容
本发明提供了一种电商安全相关实体的自动挖掘方法,能有效识别电商舆情安全相关实体。
本发明提供了如下技术方案:
一种电商安全相关实体的自动挖掘方法,包括以下步骤:
(1)从互联网中收集涉及电商的舆情数据,所述的舆情数据为文本信息的集合;
(2)对所述的舆情数据进行初步筛选,剔除与电商黑灰产业链相关性较小的文本信息,将筛选后的舆情数据切分为语句,对语句集合进行迭代筛选,剔除不含有电商安全相关实体的语句,人工提取部分电商安全相关实体集S1;
(3)分别利用TF-IDF的方法和基于规则的命名实体识别方法,对筛选后的语句集合进行实体提取,获得候选实体集合;
(4)根据词频特征、长度特征以及上下文特征对候选实体集合进行筛选,剔除不属于电商安全相关实体的短语,得到电商安全相关实体集S2。
电商安全相关实体S1和电商安全相关实体S2组成电商安全相关实体集合。
本发明中,电商安全相关实体包括:
(a)电商购物平台,是整个电商黑灰产业链的中心,也是在舆情数据中出现频率最高的实体类型;
(b)电商购物平台所执行的规则中的漏洞;
(c)目前电商购物平台中的反作弊算法;
(d)电商服务平台,包括在允许范围内提供服务以及不被允许的提供作弊信息的网站、软件或工具;
(e)给作弊组织之间、作弊组织与商家之间提供交流便利的各大通讯平台,以及平台中作弊组织、作弊组织代理人的名字和作弊组织账号;
(f)作弊商品名称和作弊店铺名称。
步骤(1)中,从互联网中收集涉及电商的舆情数据,包括:以涉及电商黑灰产业链的黑词为关键词,通过搜索引擎进行搜索,爬取搜索结果中网站的文本信息。
步骤(2)中,对所述的舆情数据进行初步筛选,包括:
(2-i)从所述的舆情数据中人工挑选若干条与电商黑灰产业链相关的文本信息,作为训练集训练word2vec词典;
(2-ii)对所述的舆情数据中文本信息的标题和正文内容进行分词,分别到训练好的word2vec词典中查表,获得标题和正文内容的词向量,将标题和正文内容的词向量加权后得到该文本信息的相关性分值;
若文本信息的相关性分值大于设定阈值时,说明该文本信息与电商黑灰产业链相关,则保留该文本信息;
否则,说明该文本信息与电商黑灰产业链不相关,则剔除该文本信息。
优选的,所述的设定阈值为13.5。
步骤(2)中,将筛选后的舆情数据切分为语句,包括:以特定符合为切分点,将过滤后的舆情数据切分为语句;
所述的特定符合为中文形式或英文形式的逗号(,)、句号(。)、顿号(、)、分号(;)、问号(?)或感叹号(!)。
步骤(2)中,对语句集合进行迭代筛选,包括:
(2-I)摘取每条文本信息的第一条语句,组成首语句集合Df
(2-II)对首语句集合Df进行自我聚类,若语句之间的字面编辑距离值>0.8时,可将其聚为一类;
将每类中的语句进行两两对比,取出每两条语句中的最长子字符串,人工挑出所以最长子字符串中包含的电商安全相关实体,得到电商安全相关实体集S1a,将包含电商安全相关实体集S1a的语句记为Dj1
将不含有电商安全相关实体S1a的首语句作为下一轮聚类中心Dc1
(2-III)以Dc1为聚类中心,对所有语句集合Dtext进行聚类,若语句与Dc1之间的字面编辑距离值>0.8时,可将该语句与Dc1聚为一类;
将该类中的语句进行两两对比,取出每两条语句中的最长子字符串,人工挑出所以最长子字符串中包含的电商安全相关实体,得到电商安全相关实体集S1b,将包含电商安全相关实体集S1b的语句记为Dj2
将不含有电商安全相关实体S1b的语句作为下一轮聚类中心Dc2
(2-IV)以Dc2为聚类中心,对Dtext-Dj1-Dj2进行聚类,若语句与Dc2之间的字面编辑距离值>N时,可将该语句与Dc2聚为一类,将聚类结果作为下一轮的聚类中心;
其中,N为常数;
(2-V)重复步骤(2-IV),直至达到收敛条件,聚类结果Dn为所有不含有电商安全相关实体的语句集合。
优选的,当Rate值第一次等于0.1之前,N=0.4;当Rate值第一次等于0.1至第二次等于0.1之前,N=0.5;所述的收敛条件为Rate值第二次等于0.1;
Figure BDA0001604951210000041
其中,Rate为前后两轮聚类结果的数量差;num(mi)为第i次聚类结果中的语句数量;num(mi-1)为第i-1次聚类结果中的语句数量。
以上,S1=S1a+S1b。
由于每条语句的长度较短,因此可认为每条语句一般只含有一个实体,在步骤(2)中,可以得到两个干净的电商安全相关实体集合(S1a和S1b),在进行实体挖掘之前,可以剔除包含电商安全相关实体集合(S1a和S1b)的语句,提高实体挖掘的效率。
步骤(3)包括:
(3-1)对语句集合Dtext-Dn-DS1a、S1b进行分词、词性标注;
DSla、S1b为Dtext中包含电商安全相关实体集合S1的语句集合;
优选的,基于条件随机场进行分词,基于支持向量机进行词性标注;
(3-2)计算每个词语的Score,若词语的字符长度>1且Score>0.1,则该词语为登录电商安全相关实体,提取该词语,得到候选实体集Sc1;
Figure BDA0001604951210000051
其中,num(i,text)为该词语在涉及电商的舆情数据中出现的次数,num(i,wiki)为该词语在维基百科库中出现的次数;
(3-3)对语句集合Dtext-Dn-DS1a、s1b进行句法分析,根据规则模板挖掘其中的电商安全相关实体集,得到候选实体集Sc2。
候选实体集Sc1和候选实体集Sc2组成候选实体集合。
所述的规则模板为:
(a)当句法分析语法树的某子树中同时存在两个标点(wp,即一条语句中存在双标点,所述的双标点为“”、‘’、《》、<>、()、【】、{}等),并且两个标点之间的字符长度>1,则取该子树;
(b)当句法分析语法树中子节点和其根节点之间的依赖关系是动宾关系,同时子节点的词性是名词,只取子节点;
(c)当句法分析语法树中子节点和其根节点之间的依赖关系是定中关系,同时子节点的词性是名词,取该子树;
(d)当句法分析语法树中子节点和其根节点之间的依赖关系是主谓关系,取该子树。
步骤(4)包括:
(4-1)剔除候选实体集中被维基百科库和搜狗新闻库收录的候选实体;
(4-2)对筛选后的候选实体集进行自我聚类,剔除不能与其他候选实体聚类的候选实体;
(4-3)剔除字符长度等于1或大于等于10的候选实体;
(4-4)剔除在涉及电商的舆情数据中仅出现一次的候选实体,得到电商安全相关实体集S2。
电商安全相关实体集S1和电商安全相关实体集S2组成本发明自动挖掘的电商安全相关实体集合。
本发明还提供了一种电商安全相关实体的自动挖掘系统,包括:
预处理模块,对涉及电商的舆情数据进行初步筛选,剔除与电商黑灰产业链相关性较小的文本信息,将筛选后的舆情数据切分为语句,对语句集合进行迭代筛选,剔除不含有电商安全相关实体的语句;
实体提取模块,利用TF-IDF的方法和基于规则的命名实体识别方法,对筛选后的语句集合进行实体提取,获得候选实体集合;
实体过滤模块,根据词频特征、长度特征以及上下文特征对候选实体集合进行筛选,剔除不属于电商安全相关实体的短语,得到电商安全相关实体集。
与现有技术相比,本发明的有益效果为:
本发明的电商安全相关实体的自动挖掘方法利用自然语言处理技术,对互联网中涉及电商黑灰产业链的舆情信息进行分析,能有效识别电商舆情安全相关实体,可通过对这些实体进行分析进而对整个电商黑灰产业链进行宏观掌握,从而对电商作弊行为进行提前防范。
附图说明
图1为电商安全相关实体的自动挖掘系统的架构示意图;
图2为对舆情数据进行初步筛选的流程示意图;
图3为对语句集合进行初步筛选的流程示意图;
图4为语句迭代筛选过程中每轮语句的减少量趋势图,横坐标为迭代次数,纵坐标为Rate值;
图5为实体提取的规则模板示意图;
图6为实体过滤的流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
电商安全相关实体包括:
(a)电商购物平台,是整个电商黑灰产业链的中心,也是在舆情数据中出现频率最高的实体类型;
(b)电商购物平台所执行的规则中的漏洞;
(c)目前电商购物平台中的反作弊算法;
(d)电商服务平台,包括在允许范围内提供服务以及不被允许的提供作弊信息的网站、软件或工具;
(e)给作弊组织之间、作弊组织与商家之间提供交流便利的各大通讯平台,以及平台中作弊组织、作弊组织代理人的名字和作弊组织账号;
(f)作弊商品名称和作弊店铺名称。
本发明提供了一种电商安全相关实体的自动挖掘系统,如图1所示,包括:
预处理模块,对涉及电商的舆情数据进行初步筛选,剔除与电商黑灰产业链相关性较小的文本信息,将筛选后的舆情数据切分为语句,对语句集合进行迭代筛选,剔除不含有电商安全相关实体的语句;
实体提取模块,利用TF-IDF的方法和基于规则的命名实体识别方法,对筛选后的语句集合进行实体提取,获得候选实体集合;
实体过滤模块,根据词频特征、长度特征以及上下文特征对候选实体集合进行筛选,剔除不属于电商安全相关实体的短语,得到电商安全相关实体集。
电商舆情信息的收集方法为:以涉及电商黑灰产业链的黑词为关键词,通过搜索引擎进行搜索,爬取搜索结果中网站的文本信息。
利用电商安全相关实体的自动挖掘系统进行电商安全相关实体挖掘时,执行以下步骤:
收集的海量舆情数据中,无意义的成分较多,严重影响了实体挖掘的效率,其中的噪声干扰还会造成无效归纳,因此,在进行实体挖掘之前需要对舆情数据进行预处理。
(1)在进行实体识别之前需要对舆情信息数据进行预处理,包括以下步骤:
(1-1)对获取到的舆情信息文本进行筛选,如图2所示;
首先从所有文本中人工挑选N条与电商安全相关文本,作为训练集对word2vec进行训练,对于某篇实时获取到的文本,对其标题和正文内容分别分好词之后,到离线训练好的word2vec词典中去查表,获得对应的词向量,将标题和正文的词向量加权后(标题和正文的权重分别为0.3和0.7)得到相关性分值,若大于阈值(设置为13.5)则为相关,否则无关,并且将相关的文本加入到训练集中重新对word2vec进行训练。
再利用训练好的word2vec对文本进行判断,剔除无关文本。
由于每条文本信息通常只介绍了一种或两种电商安全相关实体,本发明以语句为单元,对语句进行自然语言处理。因此,需要将文本信息切分为语句。
(1-2)将相关文本切分成语句;
由于每条文本通常只介绍了一种或两种实体,因此本发明以语句为单元,对语句进行自然语言处理。因此,将过滤后的文本以特定的符号(中文形式或英文形式的,。?、!;)为切分点,将其切分为若干条语句,记为Dtext
一条与电商黑灰产业链相关的文本信息可以切分成若干条语句,其中大部分的语句是不包含电商安全相关实体的,因此,需要将不包含电商安全相关实体的语句剔除。
(1-3)对语句进行筛选,包括以下步骤:
以下聚类的距离度量方式都为字面编辑距离;
(a)建立初始聚类中心,挖掘出电商安全相关实体(基本为电商交易平台实体),如图3所示,包括:
(i)将每条文本的第一条语句储存起来,记为Df
(ii)对Df进行自我聚类:当语句之间的编辑距离值>0.8时,可将它们聚成一类;将每个类中的语句进行两两对比,取出每两条语句中的最长子字符串,人工挑出所有子字符串中涵盖的电商安全相关实体(基本为电商交易平台实体),形成电商安全相关实体集S1a,含有电商安全相关实体集S1a的语句记为Dj1;将不含有电商交易平台实体的语句保存起来,作为下一轮聚类中心Dc1;即:
Figure BDA0001604951210000082
Df=Dj1+Dc1
(iii)以Dc1为聚类中心,对Dtext进行聚类,重复步骤(ii),得到电商安全相关部分实体集S1b,将含有电商安全相关部分实体集S1b的语句记为Dj2,以及第二轮聚类中心Dc2,也就是初始聚类中心。即:
Figure BDA0001604951210000081
(b)以Dc2为聚类中心,对Dtext-Dj1-Dj2进行聚类,当语句之间的编辑距离值>N时,可将它们聚成一类。将聚类之后的结果取出,作为下一轮的输入;N的取值由前后两轮结果的数量差(记作:Rate)决定;
(c)重复步骤(b),收敛条件也由前后两轮结果的数量差(Rate)决定,即:
Figure BDA0001604951210000091
如图4所示,a,b点的纵坐标为0.1,即当Rate的值第一次等于0.1时,N的值由0.4设为0.5;当Rate的值第二次等于0.1时,该算法结束。
(2)实体挖掘处理:在(1)中得到了两个干净的电商安全相关实体集,S1a和S1b。因为每一条语句的长度不是很长,因此可以认为对于每一条语句,它一般只含有一个实体。因此可以在所有语句中过滤掉含有S1a和S1b的语句(记为DS1a、S1b),只针对其他不包含已知实体的语句(记为Dtext-Dn-DS1a、S1b)进行实体挖掘。
该部分针对登录实体和未登录实体具有不同的处理方式。借助LTP云平台,对文本进行分词、词性标注和句法分析。
对于登录实体,利用TF-IDF的思想,如果分词后的某个词,在本语料库即Dtext中出现的次数较多,但在其他语料库中(维基百科库)出现的次数较少,则该词很有可能是电商安全相关实体,提取,得到候选实体集。形式化表示为:
Figure BDA0001604951210000092
在本发明中认为,实体的长度>1,并且实体所得的Score>0.1;
对于未登录词,综合利用词语的词性和句法结构,构造规则模版,挖掘出候选实体集。
如图5所示,构造规则模版为:
(a)当句法分析语法树的某子树中同时存在两个wp(标点),并且两个wp之间的距离>1,则取该子树;
(b)句法树中子节点和其根节点之间的依赖关系是动宾关系,同时子节点的词性是名词,只取子节点;
(c)句法树中子节点和其根节点之间的依赖关系是定中关系,子节点的词性是名词,取该子树;
(d)句法树中子节点和其根节点之间的依赖关系是主谓关系,取该子树。
(3)利用实体的相关特征,对步骤(2)中挖掘出的实体进行过滤,具体流程如图6所示,包括:
(3-1)剔除候选实体集中被维基百科库和搜狗新闻库收录的候选实体;
(3-2)对筛选后的候选实体集进行自我聚类,剔除不能与其他候选实体聚类的候选实体;
(3-3)剔除字符长度等于1或大于等于10的候选实体;
(3-4)剔除在涉及电商的舆情数据中仅出现一次的候选实体,得到电商安全相关实体集S2。
电商安全相关实体集S1a、S1b和电商安全相关实体集S2组成本发明自动挖掘的电商安全相关实体集合。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种电商安全相关实体的自动挖掘方法,其特征在于,包括以下步骤:
(1)从互联网中收集涉及电商的舆情数据,所述的舆情数据为文本信息的集合;
(2)对所述的舆情数据进行初步筛选,剔除与电商黑灰产业链相关性较小的文本信息,将筛选后的舆情数据切分为语句,对语句集合进行迭代筛选,剔除不含有电商安全相关实体的语句,人工提取部分电商安全相关实体集S1;对语句集合进行迭代筛选,包括:
(2-Ⅰ)摘取每条文本信息的第一条语句,组成首语句集合Df
(2-Ⅱ)对首语句集合Df进行自我聚类,若语句之间的字面编辑距离值>0.8时,可将其聚为一类;
将每类中的语句进行两两对比,取出每两条语句中的最长子字符串,人工挑出所以最长子字符串中包含的电商安全相关实体,得到电商安全相关实体集S1a,将包含电商安全相关实体集S1a的语句记为Dj1;将不含有电商安全相关实体S1a的首语句作为下一轮聚类中心Dc1
(2-Ⅲ)以Dc1为聚类中心,对所有语句集合Dtext进行聚类,若语句与Dc1之间的字面编辑距离值>0.8时,可将该语句与Dc1聚为一类;
将该类中的语句进行两两对比,取出每两条语句中的最长子字符串,人工挑出所以最长子字符串中包含的电商安全相关实体,得到电商安全相关实体集S1b,将包含电商安全相关实体集S1b的语句记为Dj2;将不含有电商安全相关实体S1b的语句作为下一轮聚类中心Dc2
(2-Ⅳ)以Dc2为聚类中心,对Dtext-Dj1-Dj2进行聚类,若语句与Dc2之间的字面编辑距离值>N时,可将该语句与Dc2聚为一类,将聚类结果作为下一轮的聚类中心;其中,N为常数;
(2-Ⅴ)重复步骤(2-Ⅳ),直至达到收敛条件,聚类结果Dn为所有不含有电商安全相关实体的语句集合;
(3)分别利用TF-IDF的方法和基于规则的命名实体识别方法,对筛选后的语句集合进行实体提取,获得候选实体集合;
(4)根据词频特征、长度特征以及上下文特征对候选实体集合进行筛选,剔除不属于电商安全相关实体的短语,得到电商安全相关实体集S2。
2.根据权利要求1所述的电商安全相关实体的自动挖掘方法,其特征在于,步骤(2)中,对所述的舆情数据进行初步筛选,包括:
(2-ⅰ)从所述的舆情数据中人工挑选若干条与电商黑灰产业链相关的文本信息,作为训练集训练word2vec词典;
(2-ⅱ)对所述的舆情数据中文本信息的标题和正文内容进行分词,分别到训练好的word2vec词典中查表,获得标题和正文内容的词向量,将标题和正文内容的词向量加权后得到该文本信息的相关性分值;
剔除相关性分值小于等于设定阈值的文本信息。
3.根据权利要求1所述的电商安全相关实体的自动挖掘方法,其特征在于,步骤(2)中,将筛选后的舆情数据切分为语句,包括:以特定符合为切分点,将过滤后的舆情数据切分为语句;
所述的特定符合为中文形式或英文形式的逗号、句号、顿号、分号、问号或感叹号。
4.根据权利要求1所述的电商安全相关实体的自动挖掘方法,其特征在于,当Rate值第一次等于0.1之前,N=0.4;当Rate值第一次等于0.1至第二次等于0.1之前,N=0.5;所述的收敛条件为Rate值第二次等于0.1;
Figure FDA0002669616970000021
其中,Rate为前后两轮聚类结果的数量差;num(mi)为第i次聚类结果中的语句数量;num(mi-1)为第i-1次聚类结果中的语句数量。
5.根据权利要求1所述的电商安全相关实体的自动挖掘方法,其特征在于,步骤(3)包括:
(3-1)对语句集合Dtext-Dn-DS1a、S1b进行分词、词性标注;
DS1a、S1b为Dtext中包含电商安全相关实体集合S1的语句集合;
(3-2)计算每个词语的Score,若词语的字符长度>1且Score>0.1,提取该词语,得到候选实体集Sc1;
Figure FDA0002669616970000022
其中,num(i,text)为该词语在涉及电商的舆情数据中出现的次数,num(i,wiki)为该词语在维基百科库中出现的次数;
(3-3)对语句集合Dtext-Dn-DS1a、S1b进行句法分析,根据规则模板挖掘其中的电商安全相关实体集,得到候选实体集Sc2。
6.根据权利要求5所述的电商安全相关实体的自动挖掘方法,其特征在于,所述的规则模板为:
(a)当句法分析语法树的某子树中同时存在两个标点,并且两个标点之间的字符长度>1,则取该子树;
(b)当句法分析语法树中子节点和其根节点之间的依赖关系是动宾关系,同时子节点的词性是名词,只取子节点;
(c)当句法分析语法树中子节点和其根节点之间的依赖关系是定中关系,同时子节点的词性是名词,取该子树;
(d)当句法分析语法树中子节点和其根节点之间的依赖关系是主谓关系,取该子树。
7.根据权利要求1所述的电商安全相关实体的自动挖掘方法,其特征在于,步骤(4)包括:
(4-1)剔除候选实体集中被维基百科库和搜狗新闻库收录的候选实体;
(4-2)对筛选后的候选实体集进行自我聚类,剔除不能与其他候选实体聚类的候选实体;
(4-3)剔除字符长度等于1或大于等于10的候选实体;
(4-4)剔除在涉及电商的舆情数据中仅出现一次的候选实体,得到电商安全相关实体集S2。
8.一种电商安全相关实体的自动挖掘系统,包括:
预处理模块,对涉及电商的舆情数据进行初步筛选,剔除与电商黑灰产业链相关性较小的文本信息,将筛选后的舆情数据切分为语句,对语句集合进行迭代筛选,剔除不含有电商安全相关实体的语句;
实体提取模块,利用TF-IDF的方法和基于规则的命名实体识别方法,对筛选后的语句集合进行实体提取,获得候选实体集合;
实体过滤模块,根据词频特征、长度特征以及上下文特征对候选实体集合进行筛选,剔除不属于电商安全相关实体的短语,得到电商安全相关实体集;
所述自动挖掘系统根据权利要求1~7任一项所述的自动挖掘方法对电商安全相关实体进行自动挖掘。
CN201810242990.8A 2018-03-22 2018-03-22 一种电商安全相关实体的自动挖掘方法及系统 Active CN108717637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810242990.8A CN108717637B (zh) 2018-03-22 2018-03-22 一种电商安全相关实体的自动挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810242990.8A CN108717637B (zh) 2018-03-22 2018-03-22 一种电商安全相关实体的自动挖掘方法及系统

Publications (2)

Publication Number Publication Date
CN108717637A CN108717637A (zh) 2018-10-30
CN108717637B true CN108717637B (zh) 2020-11-17

Family

ID=63898772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810242990.8A Active CN108717637B (zh) 2018-03-22 2018-03-22 一种电商安全相关实体的自动挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN108717637B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581959A (zh) * 2019-01-30 2020-08-25 北京京东尚科信息技术有限公司 一种信息分析方法、终端及存储介质
CN114218923B (zh) * 2021-12-20 2022-08-30 北京中科闻歌科技股份有限公司 文本摘要抽取方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105706136A (zh) * 2016-01-30 2016-06-22 深圳市博信诺达经贸咨询有限公司 基于大数据的电商平台分析方法及系统
CN106326259A (zh) * 2015-06-26 2017-01-11 苏宁云商集团股份有限公司 搜索引擎中商品标签的构建方法、系统及搜索方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785988B2 (en) * 2010-11-24 2017-10-10 Digital River, Inc. In-application commerce system and method with fraud prevention, management and control
CN102937960B (zh) * 2012-09-06 2015-06-17 北京邮电大学 突发事件热点话题的识别与评估装置
CN107247728B (zh) * 2017-05-02 2021-04-27 北京星选科技有限公司 文本处理方法、装置及计算机存储介质
CN107273362B (zh) * 2017-07-04 2020-10-30 联想(北京)有限公司 数据处理方法及其设备
CN107577672B (zh) * 2017-09-19 2021-07-06 网智天元科技集团股份有限公司 基于舆情设定剧本的方法和装置
CN107807987B (zh) * 2017-10-31 2021-07-02 广东工业大学 一种字符串分类方法、系统及一种字符串分类设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326259A (zh) * 2015-06-26 2017-01-11 苏宁云商集团股份有限公司 搜索引擎中商品标签的构建方法、系统及搜索方法和系统
CN105706136A (zh) * 2016-01-30 2016-06-22 深圳市博信诺达经贸咨询有限公司 基于大数据的电商平台分析方法及系统

Also Published As

Publication number Publication date
CN108717637A (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN110008311B (zh) 一种基于语义分析的产品信息安全风险监测方法
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN112364628B (zh) 一种新词识别方法、装置、电子设备及存储介质
CN112464666B (zh) 一种基于暗网数据的未知网络威胁自动发现方法
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN110569350A (zh) 法条推荐方法、设备和存储介质
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN111782793A (zh) 智能客服处理方法和系统及设备
Vu et al. Rumor detection by propagation embedding based on graph convolutional network
Bhakuni et al. Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis
CN108717637B (zh) 一种电商安全相关实体的自动挖掘方法及系统
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN114915468A (zh) 基于知识图谱的网络犯罪智能分析检测方法
Asinthara et al. Categorizing disaster tweets using learning based models for emergency crisis management
CN113111645A (zh) 一种媒体文本相似性检测方法
Li et al. automatically detecting peer-to-peer lending intermediary risk—Top management team profile textual features perspective
CN112966507A (zh) 构建识别模型及攻击识别方法、装置、设备及存储介质
CN110704611A (zh) 基于特征解交织的非法文本识别方法及装置
Sumathi et al. Fake review detection of e-commerce electronic products using machine learning techniques
CN111538893B (zh) 一种从非结构化数据中提取网络安全新词的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant