CN113127640B

CN113127640B - 一种基于自然语言处理的恶意垃圾评论攻击识别方法

Info

Publication number: CN113127640B
Application number: CN202110271775.2A
Authority: CN
Inventors: 陈双喜; 张厚君; 刘会; 张雪楠; 林长浩
Original assignee: Jiaxing Vocational and Technical College
Current assignee: Jiaxing Vocational and Technical College
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-11-29
Anticipated expiration: 2041-03-12
Also published as: CN113127640A

Abstract

本发明公开了一种基于自然语言处理的恶意垃圾评论攻击识别方法，用于识别恶意垃圾评论攻击，包括步骤S1：建立电子商务平台的全部评论语料库L，L＝{l_n|n＝1,2,…,M},其中l_n为第n条评论；步骤S2：对建立的评论语料库L中的内容进行数据清洗与第一处理。本发明公开的一种基于自然语言处理的恶意垃圾评论攻击识别方法，通过对电子商务平台上的评论进行语料库建立，并对其中部分进行人工标识，建立垃圾评论黑名单库。并分别依据基于规则的分类方法以及监督学习算法对语料库中全部语料进行垃圾评论筛选，选择出语料库中的全部垃圾评论。

Description

一种基于自然语言处理的恶意垃圾评论攻击识别方法

技术领域

本发明属于网络安全技术领域，具体涉及一种基于自然语言处理的恶意垃圾评论攻击识别方法。

背景技术

现有的恶意攻击识别多为从纯数据(如日志)中进行分析，根据其记录及访问行为的规律性和相关特征进行识别，但这种方式可能难以识别电子商务评论中的一些以引流、广告等为目的的恶意垃圾评论攻击行为，直接或间接导致其对平台推荐系统的影响与攻击，容易使得平台的评论数据遭到污染，同时也会有潜在的更高危的攻击威胁。

公开号为：CN109344388A，主题名称为一种垃圾评论识别方法、装置及计算机可读存储介质的发明专利，其技术方案公开了“获取待识别评论文本信息；

将所述待识别评论文本信息转换成评论语音信息，确定所述评论语音信息与评论样本语音信息的语音相似度；

根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论”。

以上述发明专利，其虽然提及了垃圾评论的识别方法，但是技术方案与本发明不同，本发明基于自然语言处理的恶意垃圾评论攻击识别方法将NLP任务与简单的数据分析结合，对潜在的垃圾评论攻击进行识别，从而更全面地保证了对各种方式攻击的识别，更好的保护了平台的评论数据安全与推荐系统的表现。

发明内容

本发明的主要目的在于提供一种基于自然语言处理的恶意垃圾评论攻击识别方法，通过对电子商务平台上的评论进行语料库建立，并对其中部分进行人工标识，建立垃圾评论黑名单库。并分别依据基于规则的分类方法以及监督学习算法对语料库中全部语料进行垃圾评论筛选，选择出语料库中的全部垃圾评论；之后结合传统的数据分析，对垃圾评论进行相似度判定，并对高相似度的评论发表设备与发表时间等进行分析，标记出潜在的有恶意攻击可能的垃圾评论，进行相应的后续处理。

为达到以上目的，本发明提供一种基于自然语言处理的恶意垃圾评论攻击识别方法，用于识别恶意垃圾评论攻击，包括以下步骤：

步骤S1：建立电子商务平台的全部评论语料库L，L＝{l_n|n＝1，2，…，M},其中l_n为第n条评论；

步骤S2：对建立的评论语料库L中的内容进行数据清洗与第一处理(包括特殊符号替换、缺项标记等操作，为后续的NLP(自然语言处理)任务做准备)；

步骤S3：将评论语料库L中的预设比例(优选为1/4)的评论进行人工垃圾评论标识，筛选出(人工垃圾评论标识中的)垃圾评论，以生成垃圾评论数据集S，并且对垃圾评论数据集S进行第二处理，以获得最终的垃圾评论数据集Q；

步骤S4：对垃圾评论数据集Q中每条评论进行包括相似性分析、发表设备分析和发表时间分析的第三处理，判断评论是否存在潜在的恶意攻击企图并且标记(依据上述被标记的恶意垃圾评论数据集P中的相关信息，对恶意垃圾评论防护进行后续工作)。

作为上述技术方案的进一步优选的技术方案，步骤S3具体实施为以下步骤：

步骤S3.1：根据人工垃圾评论标识筛选出的垃圾评论数据集S，提取总结垃圾评论的评判特征{F_i|i＝1，2，…，N}；

步骤S3.2：对垃圾评论数据集S进行关键词提取处理，并且将出现率高于阈值频率f的词进行记录，以构建垃圾评论黑名单B；

步骤S.3：根据上述的评判特征{F_i|i＝1，2，…，N}以及垃圾评论黑名单B，对评论语料库L进行初步的基于规则的垃圾评论选取工作；

步骤S3.4：在已有标签的评论语料库L中的预设比例评论的基础上，采用监督学习方式(包括朴素贝叶斯、K-means等算法，并结合TF-IDF等关键数据)，对评论语料库L进行垃圾评论选取工作；

步骤S3.5：比较步骤S3.3和步骤S3.4选择出的结果，对争议性结果进行(人工)评定，并且根据评定对垃圾评论黑名单B、阈值频率f以及监督学习中相关参数进行调整，直至垃圾评论选取的表现最优，以获得最终的垃圾评论数据集Q。

作为上述技术方案的进一步优选的技术方案，步骤S4具体实施为以下步骤：

步骤S4.1：对垃圾评论数据集Q进行实体关系提取，并且分析每条评论间的相似性(可采用对提取的实体关系中的关键词进行余弦相似度计算)，公式为：

步骤S4.2：对相似度高于预设值的评论的发表设备进行比对，若设备相同，则进行标记；

步骤S4.3：对相似度高于预设值的评论之间的发表时间间隔进行分析，若存在规律，则进行标记；

步骤S4.4：得到被标记的恶意垃圾评论数据集P。

作为上述技术方案的进一步优选的技术方案，将评论语料库L中的预设比例(优选为1/4)的评论进行人工垃圾评论标识，选择标准包括：有明显的无意义重复内容、借助谐音特殊符号等进行遮掩的广告和与产品明显不相关的评论(更多标准可按实际评论进行补充)。

为达到以上目的，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。、

为达到以上目的，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。

附图说明

图1是本发明的一种基于自然语言处理的恶意垃圾评论攻击识别方法的示意图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

在本发明的优选实施例中，本领域技术人员应注意，本发明所涉及的电子设备、监督学习方式等可被视为现有技术。

优选实施例。

本发明公开了一种基于自然语言处理(Natural Language Processing,NLP)的恶意垃圾评论攻击识别方法，用于识别恶意垃圾评论攻击，包括以下步骤：

步骤S1：建立电子商务平台的全部评论语料库L，L＝{l_n|n＝1，2,…,M},其中l_n为第n条评论；

具体的是，步骤S3具体实施为以下步骤：

更具体的是，步骤S4具体实施为以下步骤：

步骤S4.1：对垃圾评论数据集Q进行实体关系提取，并且分析每条评论间的相似性(可采用LSTM+CRF进行采取，也可采用对提取的实体关系中的关键词进行余弦相似度计算)，公式为：

其中，A、B代表两条评论中关键词的词向量，A_i、B_i代表词向量在各个维度的分量。

步骤S4.4：得到被标记的恶意垃圾评论数据集P。

优选地，将评论语料库L中的预设比例(优选为1/4)的评论进行人工垃圾评论标识，选择标准包括：有明显的无意义重复内容、借助谐音特殊符号等进行遮掩的广告和与产品明显不相关的评论(更多标准可按实际评论进行补充)。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。

本发明结合了自然语言处理(Natural Language Processing,NLP)的相关子任务，对电子商务平台上的评论进行语料库建立，并对其中部分进行人工标识，建立垃圾评论黑名单库。并分别依据基于规则的分类方法以及监督学习算法对语料库中全部语料进行垃圾评论筛选，选择出语料库中的全部垃圾评论；之后结合传统的数据分析，对垃圾评论进行相似度判定，并对高相似度的评论发表设备与发表时间等进行分析，标记出潜在的有恶意攻击可能的垃圾评论，便于进行后续的防范工作，保证了电子商务平台的安全并避免了其推荐系统被恶意垃圾评论攻击造成的损失

值得一提的是，本发明专利申请涉及的电子设备、监督学习方式等技术特征应被视为现有技术，这些技术特征的具体结构、工作原理以及可能涉及到的控制方式、空间布置方式采用本领域的常规选择即可，不应被视为本发明专利的发明点所在，本发明专利不做进一步具体展开详述。

对于本领域的技术人员而言，依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于自然语言处理的恶意垃圾评论攻击识别方法，用于识别恶意垃圾评论攻击，其特征在于，包括以下步骤：

步骤S1：建立电子商务平台的全部评论语料库L，L＝{l_n|n＝1,2,…,M},其中l_n为第n条评论；

步骤S2：对建立的评论语料库L中的内容进行数据清洗与第一处理，包括特殊符号替换和缺项标记，为后续的自然语言处理任务做准备；

步骤S3：将评论语料库L中的预设比例的评论进行人工垃圾评论标识，筛选出垃圾评论，以生成垃圾评论数据集S，并且对垃圾评论数据集S进行第二处理，以获得最终的垃圾评论数据集Q；

步骤S3具体实施为以下步骤：

步骤S3.1：根据人工垃圾评论标识筛选出的垃圾评论数据集S，提取总结垃圾评论的评判特征{F_i|i＝1,2,…,N}；

步骤S.3：根据上述的评判特征{F_i|i＝1,2,…,N}以及垃圾评论黑名单B，对评论语料库L进行初步的基于规则的垃圾评论选取工作；

步骤S3.4：在已有标签的评论语料库L中的预设比例评论的基础上，采用监督学习方式，对评论语料库L进行垃圾评论选取工作；

步骤S3.5：比较步骤S3.3和步骤S3.4选择出的结果，对争议性结果进行评定，并且根据评定对垃圾评论黑名单B、阈值频率f以及监督学习中相关参数进行调整，直至垃圾评论选取的表现最优，以获得最终的垃圾评论数据集Q；

步骤S4：对垃圾评论数据集Q中每条评论进行包括相似性分析、发表设备分析和发表时间分析的第三处理，判断评论是否存在潜在的恶意攻击企图并且标记。

2.根据权利要求1所述的一种基于自然语言处理的恶意垃圾评论攻击识别方法，其特征在于，步骤S4具体实施为以下步骤：

步骤S4.1：对垃圾评论数据集Q进行实体关系提取，并且分析每条评论间的相似性，公式为：

其中，A、B代表两条评论中关键词的词向量，A_i、B_i代表词向量在各个维度的分量；

步骤S4.4：得到被标记的恶意垃圾评论数据集P。

3.根据权利要求1所述的一种基于自然语言处理的恶意垃圾评论攻击识别方法，其特征在于，将评论语料库L中的预设比例的评论进行人工垃圾评论标识，选择标准包括：有明显的无意义重复内容、借助谐音特殊符号进行遮掩的广告和与产品明显不相关的评论。

4.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。

5.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至3任一项所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。