CN111859959A - 一种基于深度学习的虚假评论自动生成方法和装置 - Google Patents

一种基于深度学习的虚假评论自动生成方法和装置 Download PDF

Info

Publication number
CN111859959A
CN111859959A CN202010727769.9A CN202010727769A CN111859959A CN 111859959 A CN111859959 A CN 111859959A CN 202010727769 A CN202010727769 A CN 202010727769A CN 111859959 A CN111859959 A CN 111859959A
Authority
CN
China
Prior art keywords
comment
false
deep learning
initial
comments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010727769.9A
Other languages
English (en)
Inventor
许娟
李荣基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202010727769.9A priority Critical patent/CN111859959A/zh
Publication of CN111859959A publication Critical patent/CN111859959A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的虚假评论自动生成方法和装置。所述方法包括获取真实的原始评论、根据真实评论生成初始虚假评论、通过筛选和检测标记出成熟的虚假评论三个步骤。与人工标注方法相比,本方法花费时间短、效率高,能够节约大量人力资源;与其他虚假评论生成方法相比,本方法属于无监督的深度学习方法,在面对海量数据的处理和多类型目标生成时,具备生成速度快、拟真度高等特点,因此本方法更适合应用到真实的电子商务环境中。基于该方法的装置包括获取、生成、判断和标记四个模块,生成和判断分别需要用到两个不同的深度学习模块。

Description

一种基于深度学习的虚假评论自动生成方法和装置
本发明属于深度学习技术领域,具体涉及一种虚假评论自动生成的方法和装置。
背景技术
互联网的迅速发展使线上平台在人们购物、旅游、用餐、住宿等各个方面发挥了重要的作用。这些线上平台拥有大量评论。评论信息作为桥梁联结消费者和产品,不仅可以影响消费者的决策,还能作为反馈来促进商家改善产品细节。然而,评论者个体因为利益关系、品牌偏见等原因发布了许多虚假评论。他们甚至会协同合作发布虚假评论,组成虚假评论群组。据调查显示,美国版大众点评网站Yelp上的虚假评论的比例已从2006年的5%上涨至2013年的20%。研究深度学习生成虚假评论,可以在相关的网络安全领域占有先机,进而为研究检测虚假评论做好准备工作。
虚假评论生成技术属于文本生成研究领域,常见的中文文本生成主要分为两个方式:第一是抽取型,基于规则和统计的文本进行生成,目前已有大量的运用实践证明;第二是抽象型,基于深度学习模型的文本生成,近年来已经取得巨大进步。不管是2014年的encoder-decoder框架,还是2019年的GPT-2和Transformer-XL模型,都为文本生成方向的研究开辟了新的空间。
近十年来,虚假评论生成的相关研究多应用于英文文本领域。主流的虚假评论生成方法分为两种:第一是对原始真实评论进行解释化重构,属于机器翻译类型;第二是通过深度学习建模,将原始真实评论作为输入,通过预训练好的模型自动学习评论中的语义特征和语言信息,生成虚假评论。相比于人工标注的虚假评论,这种通过计算机大量生成的虚假评论具有成本低廉、效率高、时间短的优点。
发明内容
针对上述存在的技术问题,本发明提供了一种虚假评论自动生成的方法和装置。
根据本发明实施例的第一方面,提供一种虚假评论自动生成的方法,包括:
获取原始评论;
根据所述原始评论生成初始虚假评论;
判断初始虚假评论是否为成熟可用的虚假评论,并根据判断结果标记出成熟可用的虚假评论。
进一步地,所述初始虚假评论是由第一深度学习模型生成的。
进一步地,所述根据所述原始评论生成初始虚假评论,包括:
将所述原始评论输入第一深度学习模型;
所述第一深度学习模型根据输入的所述初始原始评论自动输出若干个初始虚假评论。
进一步地,所述第一深度学习模型为文本生成模型;
所述文本生成模型为经过预训练的模型,用于根据一个语句生成语义相似的语句。
进一步地,所述判断初始虚假评论是否为成熟可用的虚假评论,包括:
采用第二深度学习模型判断初始虚假评论是否为成熟可用的虚假评论,包括:
将所述原始评论和初始虚假评论输入第二深度学习模型;
所述第二深度学习模型根据所述初始虚假评论的语法、语句、语义判断是否可作为所述的成熟可用的评论;
如果初始虚假评论可作为所述的成熟可用的评论,保留,否则,丢弃。
根据本发明实施例的第二方面,提供一种虚假评论自动生成的装置,包括:
获取模块,用于获取原始评论;
生成模块,用于根据所述原始评论生成初始虚假评论;
判断模块,用于判断初始虚假评论是否可作为成熟可用的虚假评论;
标记模块,用于根据判断结果标记出可用成熟的虚假评论。
本发明的实施例提供的技术方案可以包括以下有益效果:
利用深度学习技术生成中文虚假评论,一方面有助于填补相关空白;另一方面可以以一种低廉的成本生成大量真实的中文虚假评论。同时此技术可以向其他虚假消息的文本生成领域扩展,具有广泛的应用前景。
通过深度学习模型实现虚假评论的自动生成,研究了中文词性、语句、语义之间更深层的联系,有助于建立完善的中文语言生成模型。同时该发明的副产品包括分词、句向量等,也有助于应用在语言情感分析和文本分类等多种语言任务。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种虚假评论自动生成的方法流程图。
图2是根据一示例性实施例示出的一种虚假评论自动生成的装置示意图。
图3是根据一示例性实施例示出的对获取的原始评论预处理的流程图。
图4是根据一示例性实施例示出的所使用的用户实际评论部分截图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方法并不代表与本发明相一致的所有实施方法。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
一种基于深度学习的虚假评论生成方法,具体步骤包括:
步骤一、评论训练数据的获取和整理
评论数据爬取自大众点评网站,根据不同商家的不同产品,得到的评论也是多种多样。获取的具体过程如下所示:
1)找到评论中class属性标签对应替代文字url;
2)根据y标签数值以及文字偏移量,化成对应元素位置格式,写出文字与元素位置所对应的映射关系;
3)访问class标签对应的位置元素数值,形成class标签元素与位置元素数值对应的映射;
4)通过以上映射,把class标签元素与文字进行替换;
5)通过select或者xpath等方法来提取评论。
步骤二、评论文本预处理及文本到向量转换
1)对收集到的评论文本数据,通过\n标识符分词,得到一个包含所有分词的text_list;
2)读取模型词向量矩阵;
3)遍历语句中的每个词,从模型词向量矩阵中抽取当前词的数值向量,一条语句即可得到一个二维矩阵,行数为词的个数,列数为模型设定的维度;
4)根据得到的矩阵计算矩阵均值作为当前语句的特征词向量;
5)全部语句计算完成后,拼接语句类别代表的值,写入csv文件中。
步骤三、对文本生成器和文本判别器进行预训练
本实例分别利用Transformer-XL模型和BERT模型作为文本生成器和文本判别器。Transformer网络由多个层组成,每个层都由多头注意力机制和前馈网络构成。同时为输入添加了相对位置编码(Positional Encoding),使用正弦函数完成,为每个部分的位置生成位置向量,用于帮助网络学习其位置信息。同时引入了段与段之间的循环机制,使得当前段在建模的时候能够利用之前段的信息来实现长期依赖性。
BERT属于应用于语言模型的Transformer,采用MaskedLM进行双向语言训练。通过在Transformer的输出上加一个分类层,可用于分类任务。在本发明中,使用BERT对生成的初始虚假评论进行分类,筛选出成熟可用的虚假评论。
步骤四、使用DUC-200数据集对模型进行评估
模型评估指标是ROUGE,主要是比较实际评论和生成评论的重合成都,ROUGE-1表示单个词的重复程度,ROUGE-2表示两个词相连的重复程度。
整个模型构建训练基于Tensorflow进行,训练将使用GPU来完成。
步骤五、使用文本生成器生成初始虚假评论
1)将实际评论数据集进行文本预处理以及词向量的转换;
2)将生成的向量数据放入训练好的Transformer-XL中,生成初始虚假评论。
步骤六、使用文本判别器筛选初始虚假评论
将生成的初始虚假评论输入作为文本判别器的BERT模型,筛选出成熟可用的虚假评论。对成熟可用的虚假评论进行标记,否则,丢弃。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (4)

1.一种基于深度学习的虚假评论自动生成方法,其特征在于,包括:
获取真实的原始评论;
根据所述原始评论生成初始虚假评论,所述初始虚假评论是由第一深度学习模型生成的;
判断初始虚假评论是否可作为评论内容,采用第二深度学习模型判断是否可作为评论内容;
根据判断结果标记出成熟可用的虚假评论,包括:当一个初始虚假评论可作为评论内容时,将该初始虚假评论标记为成熟可用的虚假评论并保留;当一个初始虚假评论不可作为评论内容时,丢弃。
所述第一深度学习模型为文本生成模型;所述文本生成模型为经过预训练的模型,用于利用预训练数据集学习根据一段语句生成另一段语义相似的语句。
所述第二深度学习模型为文本检测模型;所述文本检测模型为经过预训练的模型,用于利用预训练数据集学习判断生成的初始虚假评论的拟真度,从而进行筛选。
2.根据权利要求1所述的方法,其特征在于,所述根据所述原始评论生成初始虚假评论,包括:
对原始评论进行预处理,只保留原始评论信息;
将处理后的原始评论输入第一深度学习模型;
所述第一深度学习模型根据输入的所述原始评论自动输出若干个初始虚假评论。
3.根据权利要求1所述的方法,其特征在于,所述判断初始虚假评论是否可作为成熟可用的评论,包括:
将所述初始虚假评论输入经过预训练后的第二深度学习模型;
所述第二深度学习模型根据所述初始虚假评论判断是否可作为所述的成熟可用的评论。
4.一种基于深度学习的虚假评论自动生成装置,其特征在于,包括:
获取模块,用于获取原始评论;
生成模块,用于根据所述原始评论生成初始虚假评论,所述初始虚假评论是由第一深度学习模型生成的;
判断模块,用于判断初始虚假评论是否可作为成熟可用的虚假评论,采用第二深度学习模块判断初始虚假评论是否可作为成熟可用的虚假评论;
标记模块,用于当一个初始虚假评论是成熟可用的虚假评论时,将该初始虚假评论标记并保留,否则,丢弃。
CN202010727769.9A 2020-07-24 2020-07-24 一种基于深度学习的虚假评论自动生成方法和装置 Pending CN111859959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010727769.9A CN111859959A (zh) 2020-07-24 2020-07-24 一种基于深度学习的虚假评论自动生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010727769.9A CN111859959A (zh) 2020-07-24 2020-07-24 一种基于深度学习的虚假评论自动生成方法和装置

Publications (1)

Publication Number Publication Date
CN111859959A true CN111859959A (zh) 2020-10-30

Family

ID=72950592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010727769.9A Pending CN111859959A (zh) 2020-07-24 2020-07-24 一种基于深度学习的虚假评论自动生成方法和装置

Country Status (1)

Country Link
CN (1) CN111859959A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180071021A (ko) * 2016-12-19 2018-06-27 성균관대학교산학협력단 일관된 주제의 텍스트 생성 방법 및 이를 수행하는 텍스트 생성 장치
US20190050731A1 (en) * 2016-03-01 2019-02-14 Microsoft Technology Licensing, Llc Automated commentary for online content
US20190251355A1 (en) * 2018-02-09 2019-08-15 Samsung Electronics Co., Ltd. Method and electronic device for generating text comment about content
CN110580341A (zh) * 2019-09-19 2019-12-17 山东科技大学 一种基于半监督学习模型的虚假评论检测方法及系统
CN111325571A (zh) * 2019-12-30 2020-06-23 北京航空航天大学 一种多任务学习的商品评论标签自动生成方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050731A1 (en) * 2016-03-01 2019-02-14 Microsoft Technology Licensing, Llc Automated commentary for online content
KR20180071021A (ko) * 2016-12-19 2018-06-27 성균관대학교산학협력단 일관된 주제의 텍스트 생성 방법 및 이를 수행하는 텍스트 생성 장치
US20190251355A1 (en) * 2018-02-09 2019-08-15 Samsung Electronics Co., Ltd. Method and electronic device for generating text comment about content
CN110580341A (zh) * 2019-09-19 2019-12-17 山东科技大学 一种基于半监督学习模型的虚假评论检测方法及系统
CN111325571A (zh) * 2019-12-30 2020-06-23 北京航空航天大学 一种多任务学习的商品评论标签自动生成方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王丽娜,等: "面向中文用户评论的自动化众包攻击方法", 通信学报, vol. 40, no. 6, 30 June 2019 (2019-06-30), pages 1 - 13 *

Similar Documents

Publication Publication Date Title
CN107862343B (zh) 基于规则和神经网络的商品评论属性级情感分类方法
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN109359297B (zh) 一种关系抽取方法及系统
CN109492229B (zh) 一种跨领域情感分类方法和相关装置
CN111538835B (zh) 一种基于知识图谱的社交媒体情感分类方法与装置
CN109299268A (zh) 一种基于双通道模型的文本情感分析方法
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN111339415A (zh) 一种基于多交互式注意力网络的点击率预测方法与装置
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN111259153A (zh) 一种完全注意力机制的属性级情感分析方法
CN112528658A (zh) 层次化分类方法、装置、电子设备和存储介质
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN112101029A (zh) 一种基于bert模型的高校导师推荐管理方法
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN114118113A (zh) 一种基于语境识别的机器翻译方法
CN109919047A (zh) 一种基于多任务、多标签的残差神经网络的情绪检测方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN114818711B (zh) 基于神经网络的多信息融合命名实体识别方法
CN114417001B (zh) 基于多模态模式的中文写作智能分析方法、系统及介质
CN116775451A (zh) 一种测试用例智能评分方法、装置、终端设备及计算机介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination