CN113127640B - 一种基于自然语言处理的恶意垃圾评论攻击识别方法 - Google Patents
一种基于自然语言处理的恶意垃圾评论攻击识别方法 Download PDFInfo
- Publication number
- CN113127640B CN113127640B CN202110271775.2A CN202110271775A CN113127640B CN 113127640 B CN113127640 B CN 113127640B CN 202110271775 A CN202110271775 A CN 202110271775A CN 113127640 B CN113127640 B CN 113127640B
- Authority
- CN
- China
- Prior art keywords
- comment
- spam
- comments
- malicious
- spam comment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
本发明公开了一种基于自然语言处理的恶意垃圾评论攻击识别方法,用于识别恶意垃圾评论攻击,包括步骤S1:建立电子商务平台的全部评论语料库L,L={ln|n=1,2,…,M},其中ln为第n条评论;步骤S2:对建立的评论语料库L中的内容进行数据清洗与第一处理。本发明公开的一种基于自然语言处理的恶意垃圾评论攻击识别方法,通过对电子商务平台上的评论进行语料库建立,并对其中部分进行人工标识,建立垃圾评论黑名单库。并分别依据基于规则的分类方法以及监督学习算法对语料库中全部语料进行垃圾评论筛选,选择出语料库中的全部垃圾评论。
Description
技术领域
本发明属于网络安全技术领域,具体涉及一种基于自然语言处理的恶意垃圾评论攻击识别方法。
背景技术
现有的恶意攻击识别多为从纯数据(如日志)中进行分析,根据其记录及访问行为的规律性和相关特征进行识别,但这种方式可能难以识别电子商务评论中的一些以引流、广告等为目的的恶意垃圾评论攻击行为,直接或间接导致其对平台推荐系统的影响与攻击,容易使得平台的评论数据遭到污染,同时也会有潜在的更高危的攻击威胁。
公开号为:CN109344388A,主题名称为一种垃圾评论识别方法、装置及计算机可读存储介质的发明专利,其技术方案公开了“获取待识别评论文本信息;
将所述待识别评论文本信息转换成评论语音信息,确定所述评论语音信息与评论样本语音信息的语音相似度;
根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论”。
以上述发明专利,其虽然提及了垃圾评论的识别方法,但是技术方案与本发明不同,本发明基于自然语言处理的恶意垃圾评论攻击识别方法将NLP任务与简单的数据分析结合,对潜在的垃圾评论攻击进行识别,从而更全面地保证了对各种方式攻击的识别,更好的保护了平台的评论数据安全与推荐系统的表现。
发明内容
本发明的主要目的在于提供一种基于自然语言处理的恶意垃圾评论攻击识别方法,通过对电子商务平台上的评论进行语料库建立,并对其中部分进行人工标识,建立垃圾评论黑名单库。并分别依据基于规则的分类方法以及监督学习算法对语料库中全部语料进行垃圾评论筛选,选择出语料库中的全部垃圾评论;之后结合传统的数据分析,对垃圾评论进行相似度判定,并对高相似度的评论发表设备与发表时间等进行分析,标记出潜在的有恶意攻击可能的垃圾评论,进行相应的后续处理。
为达到以上目的,本发明提供一种基于自然语言处理的恶意垃圾评论攻击识别方法,用于识别恶意垃圾评论攻击,包括以下步骤:
步骤S1:建立电子商务平台的全部评论语料库L,L={ln|n=1,2,…,M},其中ln为第n条评论;
步骤S2:对建立的评论语料库L中的内容进行数据清洗与第一处理(包括特殊符号替换、缺项标记等操作,为后续的NLP(自然语言处理)任务做准备);
步骤S3:将评论语料库L中的预设比例(优选为1/4)的评论进行人工垃圾评论标识,筛选出(人工垃圾评论标识中的)垃圾评论,以生成垃圾评论数据集S,并且对垃圾评论数据集S进行第二处理,以获得最终的垃圾评论数据集Q;
步骤S4:对垃圾评论数据集Q中每条评论进行包括相似性分析、发表设备分析和发表时间分析的第三处理,判断评论是否存在潜在的恶意攻击企图并且标记(依据上述被标记的恶意垃圾评论数据集P中的相关信息,对恶意垃圾评论防护进行后续工作)。
作为上述技术方案的进一步优选的技术方案,步骤S3具体实施为以下步骤:
步骤S3.1:根据人工垃圾评论标识筛选出的垃圾评论数据集S,提取总结垃圾评论的评判特征{Fi|i=1,2,…,N};
步骤S3.2:对垃圾评论数据集S进行关键词提取处理,并且将出现率高于阈值频率f的词进行记录,以构建垃圾评论黑名单B;
步骤S.3:根据上述的评判特征{Fi|i=1,2,…,N}以及垃圾评论黑名单B,对评论语料库L进行初步的基于规则的垃圾评论选取工作;
步骤S3.4:在已有标签的评论语料库L中的预设比例评论的基础上,采用监督学习方式(包括朴素贝叶斯、K-means等算法,并结合TF-IDF等关键数据),对评论语料库L进行垃圾评论选取工作;
步骤S3.5:比较步骤S3.3和步骤S3.4选择出的结果,对争议性结果进行(人工)评定,并且根据评定对垃圾评论黑名单B、阈值频率f以及监督学习中相关参数进行调整,直至垃圾评论选取的表现最优,以获得最终的垃圾评论数据集Q。
作为上述技术方案的进一步优选的技术方案,步骤S4具体实施为以下步骤:
步骤S4.1:对垃圾评论数据集Q进行实体关系提取,并且分析每条评论间的相似性(可采用对提取的实体关系中的关键词进行余弦相似度计算),公式为:
步骤S4.2:对相似度高于预设值的评论的发表设备进行比对,若设备相同,则进行标记;
步骤S4.3:对相似度高于预设值的评论之间的发表时间间隔进行分析,若存在规律,则进行标记;
步骤S4.4:得到被标记的恶意垃圾评论数据集P。
作为上述技术方案的进一步优选的技术方案,将评论语料库L中的预设比例(优选为1/4)的评论进行人工垃圾评论标识,选择标准包括:有明显的无意义重复内容、借助谐音特殊符号等进行遮掩的广告和与产品明显不相关的评论(更多标准可按实际评论进行补充)。
为达到以上目的,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。、
为达到以上目的,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。
附图说明
图1是本发明的一种基于自然语言处理的恶意垃圾评论攻击识别方法的示意图。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。
在本发明的优选实施例中,本领域技术人员应注意,本发明所涉及的电子设备、监督学习方式等可被视为现有技术。
优选实施例。
本发明公开了一种基于自然语言处理(Natural Language Processing,NLP)的恶意垃圾评论攻击识别方法,用于识别恶意垃圾评论攻击,包括以下步骤:
步骤S1:建立电子商务平台的全部评论语料库L,L={ln|n=1,2,…,M},其中ln为第n条评论;
步骤S2:对建立的评论语料库L中的内容进行数据清洗与第一处理(包括特殊符号替换、缺项标记等操作,为后续的NLP(自然语言处理)任务做准备);
步骤S3:将评论语料库L中的预设比例(优选为1/4)的评论进行人工垃圾评论标识,筛选出(人工垃圾评论标识中的)垃圾评论,以生成垃圾评论数据集S,并且对垃圾评论数据集S进行第二处理,以获得最终的垃圾评论数据集Q;
步骤S4:对垃圾评论数据集Q中每条评论进行包括相似性分析、发表设备分析和发表时间分析的第三处理,判断评论是否存在潜在的恶意攻击企图并且标记(依据上述被标记的恶意垃圾评论数据集P中的相关信息,对恶意垃圾评论防护进行后续工作)。
具体的是,步骤S3具体实施为以下步骤:
步骤S3.1:根据人工垃圾评论标识筛选出的垃圾评论数据集S,提取总结垃圾评论的评判特征{Fi|i=1,2,…,N};
步骤S3.2:对垃圾评论数据集S进行关键词提取处理,并且将出现率高于阈值频率f的词进行记录,以构建垃圾评论黑名单B;
步骤S.3:根据上述的评判特征{Fi|i=1,2,…,N}以及垃圾评论黑名单B,对评论语料库L进行初步的基于规则的垃圾评论选取工作;
步骤S3.4:在已有标签的评论语料库L中的预设比例评论的基础上,采用监督学习方式(包括朴素贝叶斯、K-means等算法,并结合TF-IDF等关键数据),对评论语料库L进行垃圾评论选取工作;
步骤S3.5:比较步骤S3.3和步骤S3.4选择出的结果,对争议性结果进行(人工)评定,并且根据评定对垃圾评论黑名单B、阈值频率f以及监督学习中相关参数进行调整,直至垃圾评论选取的表现最优,以获得最终的垃圾评论数据集Q。
更具体的是,步骤S4具体实施为以下步骤:
步骤S4.1:对垃圾评论数据集Q进行实体关系提取,并且分析每条评论间的相似性(可采用LSTM+CRF进行采取,也可采用对提取的实体关系中的关键词进行余弦相似度计算),公式为:
其中,A、B代表两条评论中关键词的词向量,Ai、Bi代表词向量在各个维度的分量。
步骤S4.2:对相似度高于预设值的评论的发表设备进行比对,若设备相同,则进行标记;
步骤S4.3:对相似度高于预设值的评论之间的发表时间间隔进行分析,若存在规律,则进行标记;
步骤S4.4:得到被标记的恶意垃圾评论数据集P。
优选地,将评论语料库L中的预设比例(优选为1/4)的评论进行人工垃圾评论标识,选择标准包括:有明显的无意义重复内容、借助谐音特殊符号等进行遮掩的广告和与产品明显不相关的评论(更多标准可按实际评论进行补充)。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。
本发明结合了自然语言处理(Natural Language Processing,NLP)的相关子任务,对电子商务平台上的评论进行语料库建立,并对其中部分进行人工标识,建立垃圾评论黑名单库。并分别依据基于规则的分类方法以及监督学习算法对语料库中全部语料进行垃圾评论筛选,选择出语料库中的全部垃圾评论;之后结合传统的数据分析,对垃圾评论进行相似度判定,并对高相似度的评论发表设备与发表时间等进行分析,标记出潜在的有恶意攻击可能的垃圾评论,便于进行后续的防范工作,保证了电子商务平台的安全并避免了其推荐系统被恶意垃圾评论攻击造成的损失
值得一提的是,本发明专利申请涉及的电子设备、监督学习方式等技术特征应被视为现有技术,这些技术特征的具体结构、工作原理以及可能涉及到的控制方式、空间布置方式采用本领域的常规选择即可,不应被视为本发明专利的发明点所在,本发明专利不做进一步具体展开详述。
对于本领域的技术人员而言,依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。
Claims (5)
1.一种基于自然语言处理的恶意垃圾评论攻击识别方法,用于识别恶意垃圾评论攻击,其特征在于,包括以下步骤:
步骤S1:建立电子商务平台的全部评论语料库L,L={ln|n=1,2,…,M},其中ln为第n条评论;
步骤S2:对建立的评论语料库L中的内容进行数据清洗与第一处理,包括特殊符号替换和缺项标记,为后续的自然语言处理任务做准备;
步骤S3:将评论语料库L中的预设比例的评论进行人工垃圾评论标识,筛选出垃圾评论,以生成垃圾评论数据集S,并且对垃圾评论数据集S进行第二处理,以获得最终的垃圾评论数据集Q;
步骤S3具体实施为以下步骤:
步骤S3.1:根据人工垃圾评论标识筛选出的垃圾评论数据集S,提取总结垃圾评论的评判特征{Fi|i=1,2,…,N};
步骤S3.2:对垃圾评论数据集S进行关键词提取处理,并且将出现率高于阈值频率f的词进行记录,以构建垃圾评论黑名单B;
步骤S.3:根据上述的评判特征{Fi|i=1,2,…,N}以及垃圾评论黑名单B,对评论语料库L进行初步的基于规则的垃圾评论选取工作;
步骤S3.4:在已有标签的评论语料库L中的预设比例评论的基础上,采用监督学习方式,对评论语料库L进行垃圾评论选取工作;
步骤S3.5:比较步骤S3.3和步骤S3.4选择出的结果,对争议性结果进行评定,并且根据评定对垃圾评论黑名单B、阈值频率f以及监督学习中相关参数进行调整,直至垃圾评论选取的表现最优,以获得最终的垃圾评论数据集Q;
步骤S4:对垃圾评论数据集Q中每条评论进行包括相似性分析、发表设备分析和发表时间分析的第三处理,判断评论是否存在潜在的恶意攻击企图并且标记。
3.根据权利要求1所述的一种基于自然语言处理的恶意垃圾评论攻击识别方法,其特征在于,将评论语料库L中的预设比例的评论进行人工垃圾评论标识,选择标准包括:有明显的无意义重复内容、借助谐音特殊符号进行遮掩的广告和与产品明显不相关的评论。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。
5.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至3任一项所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110271775.2A CN113127640B (zh) | 2021-03-12 | 2021-03-12 | 一种基于自然语言处理的恶意垃圾评论攻击识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110271775.2A CN113127640B (zh) | 2021-03-12 | 2021-03-12 | 一种基于自然语言处理的恶意垃圾评论攻击识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113127640A CN113127640A (zh) | 2021-07-16 |
CN113127640B true CN113127640B (zh) | 2022-11-29 |
Family
ID=76773092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110271775.2A Active CN113127640B (zh) | 2021-03-12 | 2021-03-12 | 一种基于自然语言处理的恶意垃圾评论攻击识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127640B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905600B (zh) * | 2022-12-25 | 2023-12-12 | 广东朝阳企讯通科技有限公司 | 基于大数据平台的网络安全分析系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933191A (zh) * | 2015-07-09 | 2015-09-23 | 广东欧珀移动通信有限公司 | 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端 |
CN105068986A (zh) * | 2015-07-15 | 2015-11-18 | 浙江理工大学 | 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 |
CN106844349A (zh) * | 2017-02-14 | 2017-06-13 | 广西师范大学 | 基于协同训练的垃圾评论识别方法 |
CN109241518A (zh) * | 2017-07-11 | 2019-01-18 | 北京交通大学 | 一种基于情感分析的检测网络水军方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103996130B (zh) * | 2014-04-29 | 2016-04-27 | 北京京东尚科信息技术有限公司 | 一种商品评价信息过滤方法及系统 |
CN108009249B (zh) * | 2017-12-01 | 2020-08-18 | 北京中视广信科技有限公司 | 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法 |
CN108874777B (zh) * | 2018-06-11 | 2023-03-07 | 北京奇艺世纪科技有限公司 | 一种文本反垃圾的方法及装置 |
CN110162621B (zh) * | 2019-02-22 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、异常评论检测方法、装置及设备 |
CN110175851B (zh) * | 2019-02-28 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 一种作弊行为检测方法及装置 |
CN110825876B (zh) * | 2019-11-07 | 2022-07-15 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
CN111950273B (zh) * | 2020-07-31 | 2023-09-01 | 南京莱斯网信技术研究院有限公司 | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 |
-
2021
- 2021-03-12 CN CN202110271775.2A patent/CN113127640B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933191A (zh) * | 2015-07-09 | 2015-09-23 | 广东欧珀移动通信有限公司 | 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端 |
CN105068986A (zh) * | 2015-07-15 | 2015-11-18 | 浙江理工大学 | 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 |
CN106844349A (zh) * | 2017-02-14 | 2017-06-13 | 广西师范大学 | 基于协同训练的垃圾评论识别方法 |
CN109241518A (zh) * | 2017-07-11 | 2019-01-18 | 北京交通大学 | 一种基于情感分析的检测网络水军方法 |
Non-Patent Citations (3)
Title |
---|
一种启发式规则的半监督垃圾评论分类方法;张鹏;《山东大学学报》;20170614;第52卷(第7期);全文 * |
基于半监督学习的虚假评论检测方法研究;朱宇航;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210215;全文 * |
基于标注和未标注数据的虚假评论识别研究;任亚峰;《中国博士学位论文 信息科技辑》;20161215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113127640A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108667816B (zh) | 一种网络异常的检测定位方法及系统 | |
US20190354718A1 (en) | Identification of sensitive data using machine learning | |
CN106778241B (zh) | 恶意文件的识别方法及装置 | |
CN111107048B (zh) | 一种钓鱼网站检测方法、装置和存储介质 | |
US20220094713A1 (en) | Malicious message detection | |
CN109831460B (zh) | 一种基于协同训练的Web攻击检测方法 | |
CN116015703A (zh) | 模型训练方法、攻击检测方法及相关装置 | |
McDonnell et al. | CyberBERT: a deep dynamic-state session-based recommender system for cyber threat recognition | |
CN113127640B (zh) | 一种基于自然语言处理的恶意垃圾评论攻击识别方法 | |
Gong et al. | Model uncertainty based annotation error fixing for web attack detection | |
Gupta et al. | A learning oriented DLP system based on classification model | |
CN116720184A (zh) | 一种基于生成式ai的恶意代码分析方法及系统 | |
Kousika et al. | A system for fake news detection by using supervised learning model for social media contents | |
CN113259369B (zh) | 一种基于机器学习成员推断攻击的数据集认证方法及系统 | |
CN114143074A (zh) | webshell攻击识别装置及方法 | |
CN113688240A (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
Hess et al. | Malicious HTML file prediction: A detection and classification perspective with noisy data | |
CN116775889B (zh) | 基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质 | |
KR102471731B1 (ko) | 사용자를 위한 네트워크 보안 관리 방법 | |
CN113065132B (zh) | 一种宏程序的混淆检测方法、装置、电子设备和存储介质 | |
CN110674497B (zh) | 一种恶意程序相似度计算的方法和装置 | |
CN117520563A (zh) | 一种基于威胁情报的apt组织技战术同源性分析方法 | |
Hance et al. | Use of bash history novelty detection for identification of similar source attack generation | |
Amen et al. | Machine Learning for Multiple Stage Phishing URL Prediction | |
Rozlomii et al. | Data Protection in the Utilization of Natural Language Processors for Trend Analysis and Public Opinion: ryptographic Aspect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Chen Shuangxi Inventor after: Zhang Houjun Inventor after: Liu Hui Inventor after: Zhang Xuenan Inventor after: Lin Changhao Inventor before: Chen Shuangxi Inventor before: Zhang Houjun Inventor before: Liu Hui Inventor before: Zhang Xuenan Inventor before: Lin Changhao |
|
GR01 | Patent grant | ||
GR01 | Patent grant |