CN111859959A

CN111859959A - 一种基于深度学习的虚假评论自动生成方法和装置

Info

Publication number: CN111859959A
Application number: CN202010727769.9A
Authority: CN
Inventors: 许娟; 李荣基
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-10-30

Abstract

本发明公开了一种基于深度学习的虚假评论自动生成方法和装置。所述方法包括获取真实的原始评论、根据真实评论生成初始虚假评论、通过筛选和检测标记出成熟的虚假评论三个步骤。与人工标注方法相比，本方法花费时间短、效率高，能够节约大量人力资源；与其他虚假评论生成方法相比，本方法属于无监督的深度学习方法，在面对海量数据的处理和多类型目标生成时，具备生成速度快、拟真度高等特点，因此本方法更适合应用到真实的电子商务环境中。基于该方法的装置包括获取、生成、判断和标记四个模块，生成和判断分别需要用到两个不同的深度学习模块。

Description

一种基于深度学习的虚假评论自动生成方法和装置

本发明属于深度学习技术领域，具体涉及一种虚假评论自动生成的方法和装置。

背景技术

互联网的迅速发展使线上平台在人们购物、旅游、用餐、住宿等各个方面发挥了重要的作用。这些线上平台拥有大量评论。评论信息作为桥梁联结消费者和产品，不仅可以影响消费者的决策，还能作为反馈来促进商家改善产品细节。然而，评论者个体因为利益关系、品牌偏见等原因发布了许多虚假评论。他们甚至会协同合作发布虚假评论，组成虚假评论群组。据调查显示，美国版大众点评网站Yelp上的虚假评论的比例已从2006年的5％上涨至2013年的20％。研究深度学习生成虚假评论，可以在相关的网络安全领域占有先机，进而为研究检测虚假评论做好准备工作。

虚假评论生成技术属于文本生成研究领域，常见的中文文本生成主要分为两个方式：第一是抽取型，基于规则和统计的文本进行生成，目前已有大量的运用实践证明；第二是抽象型，基于深度学习模型的文本生成，近年来已经取得巨大进步。不管是2014年的encoder-decoder框架，还是2019年的GPT-2和Transformer-XL模型，都为文本生成方向的研究开辟了新的空间。

近十年来，虚假评论生成的相关研究多应用于英文文本领域。主流的虚假评论生成方法分为两种：第一是对原始真实评论进行解释化重构，属于机器翻译类型；第二是通过深度学习建模，将原始真实评论作为输入，通过预训练好的模型自动学习评论中的语义特征和语言信息，生成虚假评论。相比于人工标注的虚假评论，这种通过计算机大量生成的虚假评论具有成本低廉、效率高、时间短的优点。

发明内容

针对上述存在的技术问题，本发明提供了一种虚假评论自动生成的方法和装置。

根据本发明实施例的第一方面，提供一种虚假评论自动生成的方法，包括：

获取原始评论；

根据所述原始评论生成初始虚假评论；

判断初始虚假评论是否为成熟可用的虚假评论，并根据判断结果标记出成熟可用的虚假评论。

进一步地，所述初始虚假评论是由第一深度学习模型生成的。

进一步地，所述根据所述原始评论生成初始虚假评论，包括：

将所述原始评论输入第一深度学习模型；

所述第一深度学习模型根据输入的所述初始原始评论自动输出若干个初始虚假评论。

进一步地，所述第一深度学习模型为文本生成模型；

所述文本生成模型为经过预训练的模型，用于根据一个语句生成语义相似的语句。

进一步地，所述判断初始虚假评论是否为成熟可用的虚假评论，包括：

采用第二深度学习模型判断初始虚假评论是否为成熟可用的虚假评论，包括：

将所述原始评论和初始虚假评论输入第二深度学习模型；

所述第二深度学习模型根据所述初始虚假评论的语法、语句、语义判断是否可作为所述的成熟可用的评论；

如果初始虚假评论可作为所述的成熟可用的评论，保留，否则，丢弃。

根据本发明实施例的第二方面，提供一种虚假评论自动生成的装置，包括：

获取模块，用于获取原始评论；

生成模块，用于根据所述原始评论生成初始虚假评论；

判断模块，用于判断初始虚假评论是否可作为成熟可用的虚假评论；

标记模块，用于根据判断结果标记出可用成熟的虚假评论。

本发明的实施例提供的技术方案可以包括以下有益效果：

利用深度学习技术生成中文虚假评论，一方面有助于填补相关空白；另一方面可以以一种低廉的成本生成大量真实的中文虚假评论。同时此技术可以向其他虚假消息的文本生成领域扩展，具有广泛的应用前景。

通过深度学习模型实现虚假评论的自动生成，研究了中文词性、语句、语义之间更深层的联系，有助于建立完善的中文语言生成模型。同时该发明的副产品包括分词、句向量等，也有助于应用在语言情感分析和文本分类等多种语言任务。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种虚假评论自动生成的方法流程图。

图2是根据一示例性实施例示出的一种虚假评论自动生成的装置示意图。

图3是根据一示例性实施例示出的对获取的原始评论预处理的流程图。

图4是根据一示例性实施例示出的所使用的用户实际评论部分截图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方法并不代表与本发明相一致的所有实施方法。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

一种基于深度学习的虚假评论生成方法，具体步骤包括：

步骤一、评论训练数据的获取和整理

评论数据爬取自大众点评网站，根据不同商家的不同产品，得到的评论也是多种多样。获取的具体过程如下所示：

1)找到评论中class属性标签对应替代文字url；

2)根据y标签数值以及文字偏移量，化成对应元素位置格式，写出文字与元素位置所对应的映射关系；

3)访问class标签对应的位置元素数值，形成class标签元素与位置元素数值对应的映射；

4)通过以上映射，把class标签元素与文字进行替换；

5)通过select或者xpath等方法来提取评论。

步骤二、评论文本预处理及文本到向量转换

1)对收集到的评论文本数据，通过\n标识符分词，得到一个包含所有分词的text_list；

2)读取模型词向量矩阵；

3)遍历语句中的每个词，从模型词向量矩阵中抽取当前词的数值向量，一条语句即可得到一个二维矩阵，行数为词的个数，列数为模型设定的维度；

4)根据得到的矩阵计算矩阵均值作为当前语句的特征词向量；

5)全部语句计算完成后，拼接语句类别代表的值，写入csv文件中。

步骤三、对文本生成器和文本判别器进行预训练

本实例分别利用Transformer-XL模型和BERT模型作为文本生成器和文本判别器。Transformer网络由多个层组成，每个层都由多头注意力机制和前馈网络构成。同时为输入添加了相对位置编码(Positional Encoding)，使用正弦函数完成，为每个部分的位置生成位置向量，用于帮助网络学习其位置信息。同时引入了段与段之间的循环机制，使得当前段在建模的时候能够利用之前段的信息来实现长期依赖性。

BERT属于应用于语言模型的Transformer，采用MaskedLM进行双向语言训练。通过在Transformer的输出上加一个分类层，可用于分类任务。在本发明中，使用BERT对生成的初始虚假评论进行分类，筛选出成熟可用的虚假评论。

步骤四、使用DUC-200数据集对模型进行评估

模型评估指标是ROUGE，主要是比较实际评论和生成评论的重合成都，ROUGE-1表示单个词的重复程度，ROUGE-2表示两个词相连的重复程度。

整个模型构建训练基于Tensorflow进行，训练将使用GPU来完成。

步骤五、使用文本生成器生成初始虚假评论

1)将实际评论数据集进行文本预处理以及词向量的转换；

2)将生成的向量数据放入训练好的Transformer-XL中，生成初始虚假评论。

步骤六、使用文本判别器筛选初始虚假评论

将生成的初始虚假评论输入作为文本判别器的BERT模型，筛选出成熟可用的虚假评论。对成熟可用的虚假评论进行标记，否则，丢弃。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的虚假评论自动生成方法，其特征在于，包括：

获取真实的原始评论；

根据所述原始评论生成初始虚假评论，所述初始虚假评论是由第一深度学习模型生成的；

判断初始虚假评论是否可作为评论内容，采用第二深度学习模型判断是否可作为评论内容；

根据判断结果标记出成熟可用的虚假评论，包括：当一个初始虚假评论可作为评论内容时，将该初始虚假评论标记为成熟可用的虚假评论并保留；当一个初始虚假评论不可作为评论内容时，丢弃。

所述第一深度学习模型为文本生成模型；所述文本生成模型为经过预训练的模型，用于利用预训练数据集学习根据一段语句生成另一段语义相似的语句。

所述第二深度学习模型为文本检测模型；所述文本检测模型为经过预训练的模型，用于利用预训练数据集学习判断生成的初始虚假评论的拟真度，从而进行筛选。

2.根据权利要求1所述的方法，其特征在于，所述根据所述原始评论生成初始虚假评论，包括：

对原始评论进行预处理，只保留原始评论信息；

将处理后的原始评论输入第一深度学习模型；

所述第一深度学习模型根据输入的所述原始评论自动输出若干个初始虚假评论。

3.根据权利要求1所述的方法，其特征在于，所述判断初始虚假评论是否可作为成熟可用的评论，包括：

将所述初始虚假评论输入经过预训练后的第二深度学习模型；

所述第二深度学习模型根据所述初始虚假评论判断是否可作为所述的成熟可用的评论。

4.一种基于深度学习的虚假评论自动生成装置，其特征在于，包括：

获取模块，用于获取原始评论；

生成模块，用于根据所述原始评论生成初始虚假评论，所述初始虚假评论是由第一深度学习模型生成的；

判断模块，用于判断初始虚假评论是否可作为成熟可用的虚假评论，采用第二深度学习模块判断初始虚假评论是否可作为成熟可用的虚假评论；

标记模块，用于当一个初始虚假评论是成熟可用的虚假评论时，将该初始虚假评论标记并保留，否则，丢弃。