CN111859959A - 一种基于深度学习的虚假评论自动生成方法和装置 - Google Patents
一种基于深度学习的虚假评论自动生成方法和装置 Download PDFInfo
- Publication number
- CN111859959A CN111859959A CN202010727769.9A CN202010727769A CN111859959A CN 111859959 A CN111859959 A CN 111859959A CN 202010727769 A CN202010727769 A CN 202010727769A CN 111859959 A CN111859959 A CN 111859959A
- Authority
- CN
- China
- Prior art keywords
- comment
- false
- deep learning
- initial
- comments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000013136 deep learning model Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract 1
- 238000004088 simulation Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的虚假评论自动生成方法和装置。所述方法包括获取真实的原始评论、根据真实评论生成初始虚假评论、通过筛选和检测标记出成熟的虚假评论三个步骤。与人工标注方法相比,本方法花费时间短、效率高,能够节约大量人力资源;与其他虚假评论生成方法相比,本方法属于无监督的深度学习方法,在面对海量数据的处理和多类型目标生成时,具备生成速度快、拟真度高等特点,因此本方法更适合应用到真实的电子商务环境中。基于该方法的装置包括获取、生成、判断和标记四个模块,生成和判断分别需要用到两个不同的深度学习模块。
Description
本发明属于深度学习技术领域,具体涉及一种虚假评论自动生成的方法和装置。
背景技术
互联网的迅速发展使线上平台在人们购物、旅游、用餐、住宿等各个方面发挥了重要的作用。这些线上平台拥有大量评论。评论信息作为桥梁联结消费者和产品,不仅可以影响消费者的决策,还能作为反馈来促进商家改善产品细节。然而,评论者个体因为利益关系、品牌偏见等原因发布了许多虚假评论。他们甚至会协同合作发布虚假评论,组成虚假评论群组。据调查显示,美国版大众点评网站Yelp上的虚假评论的比例已从2006年的5%上涨至2013年的20%。研究深度学习生成虚假评论,可以在相关的网络安全领域占有先机,进而为研究检测虚假评论做好准备工作。
虚假评论生成技术属于文本生成研究领域,常见的中文文本生成主要分为两个方式:第一是抽取型,基于规则和统计的文本进行生成,目前已有大量的运用实践证明;第二是抽象型,基于深度学习模型的文本生成,近年来已经取得巨大进步。不管是2014年的encoder-decoder框架,还是2019年的GPT-2和Transformer-XL模型,都为文本生成方向的研究开辟了新的空间。
近十年来,虚假评论生成的相关研究多应用于英文文本领域。主流的虚假评论生成方法分为两种:第一是对原始真实评论进行解释化重构,属于机器翻译类型;第二是通过深度学习建模,将原始真实评论作为输入,通过预训练好的模型自动学习评论中的语义特征和语言信息,生成虚假评论。相比于人工标注的虚假评论,这种通过计算机大量生成的虚假评论具有成本低廉、效率高、时间短的优点。
发明内容
针对上述存在的技术问题,本发明提供了一种虚假评论自动生成的方法和装置。
根据本发明实施例的第一方面,提供一种虚假评论自动生成的方法,包括:
获取原始评论;
根据所述原始评论生成初始虚假评论;
判断初始虚假评论是否为成熟可用的虚假评论,并根据判断结果标记出成熟可用的虚假评论。
进一步地,所述初始虚假评论是由第一深度学习模型生成的。
进一步地,所述根据所述原始评论生成初始虚假评论,包括:
将所述原始评论输入第一深度学习模型;
所述第一深度学习模型根据输入的所述初始原始评论自动输出若干个初始虚假评论。
进一步地,所述第一深度学习模型为文本生成模型;
所述文本生成模型为经过预训练的模型,用于根据一个语句生成语义相似的语句。
进一步地,所述判断初始虚假评论是否为成熟可用的虚假评论,包括:
采用第二深度学习模型判断初始虚假评论是否为成熟可用的虚假评论,包括:
将所述原始评论和初始虚假评论输入第二深度学习模型;
所述第二深度学习模型根据所述初始虚假评论的语法、语句、语义判断是否可作为所述的成熟可用的评论;
如果初始虚假评论可作为所述的成熟可用的评论,保留,否则,丢弃。
根据本发明实施例的第二方面,提供一种虚假评论自动生成的装置,包括:
获取模块,用于获取原始评论;
生成模块,用于根据所述原始评论生成初始虚假评论;
判断模块,用于判断初始虚假评论是否可作为成熟可用的虚假评论;
标记模块,用于根据判断结果标记出可用成熟的虚假评论。
本发明的实施例提供的技术方案可以包括以下有益效果:
利用深度学习技术生成中文虚假评论,一方面有助于填补相关空白;另一方面可以以一种低廉的成本生成大量真实的中文虚假评论。同时此技术可以向其他虚假消息的文本生成领域扩展,具有广泛的应用前景。
通过深度学习模型实现虚假评论的自动生成,研究了中文词性、语句、语义之间更深层的联系,有助于建立完善的中文语言生成模型。同时该发明的副产品包括分词、句向量等,也有助于应用在语言情感分析和文本分类等多种语言任务。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种虚假评论自动生成的方法流程图。
图2是根据一示例性实施例示出的一种虚假评论自动生成的装置示意图。
图3是根据一示例性实施例示出的对获取的原始评论预处理的流程图。
图4是根据一示例性实施例示出的所使用的用户实际评论部分截图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方法并不代表与本发明相一致的所有实施方法。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
一种基于深度学习的虚假评论生成方法,具体步骤包括:
步骤一、评论训练数据的获取和整理
评论数据爬取自大众点评网站,根据不同商家的不同产品,得到的评论也是多种多样。获取的具体过程如下所示:
1)找到评论中class属性标签对应替代文字url;
2)根据y标签数值以及文字偏移量,化成对应元素位置格式,写出文字与元素位置所对应的映射关系;
3)访问class标签对应的位置元素数值,形成class标签元素与位置元素数值对应的映射;
4)通过以上映射,把class标签元素与文字进行替换;
5)通过select或者xpath等方法来提取评论。
步骤二、评论文本预处理及文本到向量转换
1)对收集到的评论文本数据,通过\n标识符分词,得到一个包含所有分词的text_list;
2)读取模型词向量矩阵;
3)遍历语句中的每个词,从模型词向量矩阵中抽取当前词的数值向量,一条语句即可得到一个二维矩阵,行数为词的个数,列数为模型设定的维度;
4)根据得到的矩阵计算矩阵均值作为当前语句的特征词向量;
5)全部语句计算完成后,拼接语句类别代表的值,写入csv文件中。
步骤三、对文本生成器和文本判别器进行预训练
本实例分别利用Transformer-XL模型和BERT模型作为文本生成器和文本判别器。Transformer网络由多个层组成,每个层都由多头注意力机制和前馈网络构成。同时为输入添加了相对位置编码(Positional Encoding),使用正弦函数完成,为每个部分的位置生成位置向量,用于帮助网络学习其位置信息。同时引入了段与段之间的循环机制,使得当前段在建模的时候能够利用之前段的信息来实现长期依赖性。
BERT属于应用于语言模型的Transformer,采用MaskedLM进行双向语言训练。通过在Transformer的输出上加一个分类层,可用于分类任务。在本发明中,使用BERT对生成的初始虚假评论进行分类,筛选出成熟可用的虚假评论。
步骤四、使用DUC-200数据集对模型进行评估
模型评估指标是ROUGE,主要是比较实际评论和生成评论的重合成都,ROUGE-1表示单个词的重复程度,ROUGE-2表示两个词相连的重复程度。
整个模型构建训练基于Tensorflow进行,训练将使用GPU来完成。
步骤五、使用文本生成器生成初始虚假评论
1)将实际评论数据集进行文本预处理以及词向量的转换;
2)将生成的向量数据放入训练好的Transformer-XL中,生成初始虚假评论。
步骤六、使用文本判别器筛选初始虚假评论
将生成的初始虚假评论输入作为文本判别器的BERT模型,筛选出成熟可用的虚假评论。对成熟可用的虚假评论进行标记,否则,丢弃。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (4)
1.一种基于深度学习的虚假评论自动生成方法,其特征在于,包括:
获取真实的原始评论;
根据所述原始评论生成初始虚假评论,所述初始虚假评论是由第一深度学习模型生成的;
判断初始虚假评论是否可作为评论内容,采用第二深度学习模型判断是否可作为评论内容;
根据判断结果标记出成熟可用的虚假评论,包括:当一个初始虚假评论可作为评论内容时,将该初始虚假评论标记为成熟可用的虚假评论并保留;当一个初始虚假评论不可作为评论内容时,丢弃。
所述第一深度学习模型为文本生成模型;所述文本生成模型为经过预训练的模型,用于利用预训练数据集学习根据一段语句生成另一段语义相似的语句。
所述第二深度学习模型为文本检测模型;所述文本检测模型为经过预训练的模型,用于利用预训练数据集学习判断生成的初始虚假评论的拟真度,从而进行筛选。
2.根据权利要求1所述的方法,其特征在于,所述根据所述原始评论生成初始虚假评论,包括:
对原始评论进行预处理,只保留原始评论信息;
将处理后的原始评论输入第一深度学习模型;
所述第一深度学习模型根据输入的所述原始评论自动输出若干个初始虚假评论。
3.根据权利要求1所述的方法,其特征在于,所述判断初始虚假评论是否可作为成熟可用的评论,包括:
将所述初始虚假评论输入经过预训练后的第二深度学习模型;
所述第二深度学习模型根据所述初始虚假评论判断是否可作为所述的成熟可用的评论。
4.一种基于深度学习的虚假评论自动生成装置,其特征在于,包括:
获取模块,用于获取原始评论;
生成模块,用于根据所述原始评论生成初始虚假评论,所述初始虚假评论是由第一深度学习模型生成的;
判断模块,用于判断初始虚假评论是否可作为成熟可用的虚假评论,采用第二深度学习模块判断初始虚假评论是否可作为成熟可用的虚假评论;
标记模块,用于当一个初始虚假评论是成熟可用的虚假评论时,将该初始虚假评论标记并保留,否则,丢弃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727769.9A CN111859959A (zh) | 2020-07-24 | 2020-07-24 | 一种基于深度学习的虚假评论自动生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727769.9A CN111859959A (zh) | 2020-07-24 | 2020-07-24 | 一种基于深度学习的虚假评论自动生成方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111859959A true CN111859959A (zh) | 2020-10-30 |
Family
ID=72950592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010727769.9A Pending CN111859959A (zh) | 2020-07-24 | 2020-07-24 | 一种基于深度学习的虚假评论自动生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859959A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180071021A (ko) * | 2016-12-19 | 2018-06-27 | 성균관대학교산학협력단 | 일관된 주제의 텍스트 생성 방법 및 이를 수행하는 텍스트 생성 장치 |
US20190050731A1 (en) * | 2016-03-01 | 2019-02-14 | Microsoft Technology Licensing, Llc | Automated commentary for online content |
US20190251355A1 (en) * | 2018-02-09 | 2019-08-15 | Samsung Electronics Co., Ltd. | Method and electronic device for generating text comment about content |
CN110580341A (zh) * | 2019-09-19 | 2019-12-17 | 山东科技大学 | 一种基于半监督学习模型的虚假评论检测方法及系统 |
CN111325571A (zh) * | 2019-12-30 | 2020-06-23 | 北京航空航天大学 | 一种多任务学习的商品评论标签自动生成方法、装置及系统 |
-
2020
- 2020-07-24 CN CN202010727769.9A patent/CN111859959A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190050731A1 (en) * | 2016-03-01 | 2019-02-14 | Microsoft Technology Licensing, Llc | Automated commentary for online content |
KR20180071021A (ko) * | 2016-12-19 | 2018-06-27 | 성균관대학교산학협력단 | 일관된 주제의 텍스트 생성 방법 및 이를 수행하는 텍스트 생성 장치 |
US20190251355A1 (en) * | 2018-02-09 | 2019-08-15 | Samsung Electronics Co., Ltd. | Method and electronic device for generating text comment about content |
CN110580341A (zh) * | 2019-09-19 | 2019-12-17 | 山东科技大学 | 一种基于半监督学习模型的虚假评论检测方法及系统 |
CN111325571A (zh) * | 2019-12-30 | 2020-06-23 | 北京航空航天大学 | 一种多任务学习的商品评论标签自动生成方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
王丽娜,等: "面向中文用户评论的自动化众包攻击方法", 通信学报, vol. 40, no. 6, 30 June 2019 (2019-06-30), pages 1 - 13 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107862343B (zh) | 基于规则和神经网络的商品评论属性级情感分类方法 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN109359297B (zh) | 一种关系抽取方法及系统 | |
CN109492229B (zh) | 一种跨领域情感分类方法和相关装置 | |
CN111538835B (zh) | 一种基于知识图谱的社交媒体情感分类方法与装置 | |
CN109299268A (zh) | 一种基于双通道模型的文本情感分析方法 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN111797898B (zh) | 一种基于深度语义匹配的在线评论自动回复方法 | |
CN111339415A (zh) | 一种基于多交互式注意力网络的点击率预测方法与装置 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN111259153A (zh) | 一种完全注意力机制的属性级情感分析方法 | |
CN112528658A (zh) | 层次化分类方法、装置、电子设备和存储介质 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN112101029A (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
CN114118113A (zh) | 一种基于语境识别的机器翻译方法 | |
CN109919047A (zh) | 一种基于多任务、多标签的残差神经网络的情绪检测方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN114818711B (zh) | 基于神经网络的多信息融合命名实体识别方法 | |
CN114417001B (zh) | 基于多模态模式的中文写作智能分析方法、系统及介质 | |
CN116775451A (zh) | 一种测试用例智能评分方法、装置、终端设备及计算机介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |