CN109241527A - 一种中文商品虚假评论数据集自动生成方法 - Google Patents
一种中文商品虚假评论数据集自动生成方法 Download PDFInfo
- Publication number
- CN109241527A CN109241527A CN201810971800.6A CN201810971800A CN109241527A CN 109241527 A CN109241527 A CN 109241527A CN 201810971800 A CN201810971800 A CN 201810971800A CN 109241527 A CN109241527 A CN 109241527A
- Authority
- CN
- China
- Prior art keywords
- comment
- commodity
- falseness
- people
- data collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种中文商品虚假评论数据集的自动生成方法,包括如下步骤:a)将事先采集到的商品评论数据读入内存;b)利用分词工具对评论进行分词,得到评论文本的词序列表示;c)对给定范围内的商品评论两两之间进行文本相似度的比较,得到商品虚假评论集合Rf1中;d)对Rf1中的评论执行关联查询,得到商品虚假评论结果集R1;e)提取给定范围内商品评论对应的评论人的名称信息;f)对评论人名称进行分析,找出符合一定规律特征的系列评论人名称,对虚假评论人执行关联查询,得到商品虚假评论结果集R2;g)最后,合并R1和R2,得到最终的商品虚假评论数据集。本发明完全自动化检测和识别商品评论数据中的虚假评论,无需人工干预和标注,自动生成商品虚假评论数据集。
Description
技术领域
本发明涉及一种中文商品虚假评论数据集自动生成方法,能够基于国内电商网站的商品评论自动生成商品虚假评论的数据集。
技术背景
目前,各大电子商务(简称电商)网站都产生了海量的评论数据,再加上评论质量参差不齐,对于消费者而言,查阅和分析这些数据将面临巨大的挑战,已经远远超出了一个普通消费者的信息处理能力。海量的商品评论中,既包含了真实的、有价值的消费者体验和意见,也包含了相当一部分虚假评论。商品虚假评论背后是巨大商业利益的驱使,属于典型的不正当商业竞争。商品虚假评论泛滥必然会严重影响电商生态的健康发展。
目前,绝大部分商品虚假评论识别方法都是基于机器学习或者分类算法进行的,也取得了一定的效果。但是,这类方法的运用有一个前提,需要依靠经过标注的数据集来训练相应的模型,也就是需要一个训练集。因此,数据集(或者说训练集)的质量会直接影响识别方法的训练以及后续的识别准确性。然而,获得数据集的最大问题在于数据标注,因为用于训练的数据集中的每一条数据都需要被标注为真实或者虚假,才能够用于方法或模型的训练。
虽然商品评论数据本身可以比较轻易地从电商网站上获取,但是商品虚假评论数据的人工标注是一项需要消耗大量人力的工作。而目前尚无应用于中文商品虚假评论的自动化标注方法,也就无法自动化地生成支持中文商品虚假评论识别训练的数据集。
发明内容
本发明的目的在于提供一种自动生成中文商品虚假评论数据集的方法,克服现有的人工标注方法人力消耗较大的问题,为中文商品虚假评论识别方法的模型训练提供数据集。
为此,本发明提出一种中文商品虚假评论数据集的自动生成方法,该方法包括如下步骤:
a)将事先采集到的商品评论数据读入内存;
b)利用分词工具对评论进行分词,得到评论文本的词序列表示;
c)对给定范围内的商品评论两两之间进行文本相似度的比较,将相似度超过θ的商品评论标注为虚假评论,并统一添加到一个商品虚假评论集合Rf1中;
d)对商品虚假评论集合Rf1中的评论进一步执行关联查询,得到商品虚假评论结果集R1;
e)提取给定范围内商品评论对应的评论人的名称信息;
f)对评论人名称进行分析,找出符合一定规律特征的系列评论人名称,对虚假评论人进一步执行关联查询,得到商品虚假评论结果集R2;
g)最后,合并结果集R1和结果集R2,得到最终的商品虚假评论数据集。
本发明具有以下优势:完全自动化检测和识别商品评论数据中的虚假评论,无需人工干预和标注,通过自动识别商品虚假评论进而自动生成商品虚假评论数据集;直接利用商品评论数据自身的特征,特征值的计算复杂度低,方法易于程序化实现;采用基于规则的推理进行标注,不需要进行离线学习或训练,可以在线实时地将标注出商品虚假评论。
另外,因为本发明的主要目的在于自动生成商品虚假评论数据集,而不是进行真正的商品虚假评论识别或检测,因此允许结果集中存在一定概率的误标注。
附图说明
图1为本发明实施例的流程图。
具体实施方式
本发明实施例的提出一部分是基于发明人的如下发现,即发现现有技术自动化程度低的原因在于如下方面:
首先,真实评论和虚假评论都是由自然人撰写和发布的,虚假评论人为了让虚假评论显得真实,往往会事先斟酌评论内容,尽可能地让虚假评论看起来像真实评论。如果单纯从内容上分析,虚假评论和真实评论并没有太明显的区别,因此机器检测和识别的难度非常大。再加上电商网站上的商品评论大多数都是短评论,包含的特征信息比较少,又进一步增加了自动识别的难度。
其次,在分析评论内容的基础之上,虽然可以进一步结合评论人的特征信息来辅助识别虚假评论,但是目前国内大多数电商网站并不支持直接查看评论人的基本信息,第三方无法完整地掌握某个评论人在网站的评论行为,只能通过分析部分评论数据来间接推测评论人的行为特征。而且网站也不会集中展示某个评论人的所有历史评论。因此,依靠评论人的行为特征进行自动识别,准确度无法得到保证,行为特征往往只能作为内容分析的补充。
再次,部分商品虚假评论识别技术在训练模型时,为了减少数据集的人工标注,会直接采用经过电子商务网站后台系统过滤的数据集。然而网站的过滤算法属于商业机密,第三方一般无法直接获得其实现细节。现有技术试图对网站的过滤算法进行逆向推测,但是准确性无法保证。另外,网站也并没有将所有被过滤的评论直接标注为虚假评论,经过简单分析可以发现,其中有相当一部分属于无效评论或者低质量评论,而不是专门的虚假评论。
最后,现有技术在考虑评论人特征时,往往只关注评论人的行为特征,而没有充分利用评论人的元数据特征。目前被广泛使用的元数据特征主要是评论人在电商网站上的信誉度或者经验等级,但是虚假评论人同样可以通过长期使用网站提升信誉度或者等级。而实际上,除了信誉度之外,还有其他的评论人元数据是可以被用于虚假评论的自动识别的。
本发明实施例的方法流程如图1所示,其步骤如下所述:
a)将从电商网站上采集到的商品评论数据读入内存;
b)利用中文分词工具对商品评论进行分词,得到评论文本的词序列表示;
c)对给定范围内(例如,某一类商品或者某一款商品)的评论数据两两之间进行文本相似度的比较,并记录比较结果。采用Dice's Coefficient来计算商品评论两两之间的文本相似度。对于任意两条评论rij={wj1,wj2,…,wjn}和rik={wk1,wk2,…,wkm},其中wjs(s=1,2,…,n)和wkt(t=1,2,…,m)分别表示rij和rik分词后得到的单词,给出基于Dice'sCoefficient的文本相似度定义如下:
其中comm(rij,rik)表示rij和rik之间共同的单词数,len表示以词为单位的文本长度,α和β为非负的调节系数。根据公式(1),可以得出0≤DSC(rij,rik)≤1。
对于给定的商品评论数据集R,如果存在一个子集且满足任意ri∈R',都有DSC(r,ri)≥θ,那么自动将R'中的评论自动标注为虚假评论,其中θ表示相似度阈值,根据经验一般可以设定θ为0.9,也可以根据实际需要动态设定。
另外,长度过短的评论,很容易出现因为使用了一些常用词或者短语而相似的情况。因此,在进行文本相似度比较时,需要先过滤掉一些长度过短的评论。根据经验,一般可以设定评论的长度阈值lenmin=10,也就是说自动过滤所有长度小于10的短评论。
在进行相似度比较时,考虑一种特殊情况:两条评论的内容完全一致,即相似度达到100%。部分重复评论的产生,可能是因为同一个用户对某一笔交易中的多个商品进行评价,这种评论不应该被认为是虚假评论。而这种评论有一个显著特征,即由同一个评论人发布,且两条或者多条评论之间的时间非常接近。因此,可以设定一个时间阈值(例如24小时),当同一个用户的两条评论的内容完全相同,但是发布的时间间隔小于该阈值,则不将这两条评论标注为虚假评论。对于除了这种情况以外的其他重复评论,则直接标注为虚假评论。
因此,给定的商品评论数据集R,通过对R中的元素两两执行相似度计算操作,将相似度超过θ的商品评论标注为虚假评论,并统一添加到一个商品虚假评论集合中;
d)通过执行上一步骤得到的商品虚假评论集合记为Rf1,并执行以下操作:
①对于任意的r∈Rf1,其对应的评论人记为u(r),在完整的商品评论集合R中查询并获得u(r)对应的所有评论,记为评论子集Ru;
②将Ru中的评论标注为虚假评论;
③循环执行①和②的操作,直到遍历Rf1中的所有元素;
④合并所有的评论子集,得到结果集R1;
e)提取每条商品评论对应的评论人名称信息,一般为电商网站用户的id或者昵称,是一个由汉字、英文字母、数字等合法字符组成的字符串;
f)对给定范围内的商品评论对应的评论人名称进行分析,找出符合一定的规律的系列评论人名称。虚假评论人使用的账号,往往不是真实的消费者账号,而是以发布虚假评论为目的专门注册的“马甲”账号。为了快速大量地创建账号,造假者在注册账号时,往往会使用相似或者相近的用户名作为系列账号,有时候甚至利用程序或者脚本自动批量注册账号。在这种情况下,虚假评论人的用户名(或者账号名称)会呈现出一定的特征和规律。
以下表的商品评论为例,具体说明虚假评论人用户名特征规律的识别。表中列举了4个评论人发布的14条评论,这些评论对应的商品都属于同一类型,也就是女鞋。这些评论人的用户名类似,而且遵循一定的规律:即首字符都是数字5,而尾字符都是小写的英文字母(abde)。用户名中的字符*表示该评论人选择匿名方式提交评论,系统自动屏蔽了用户名称的部分信息。此外,有几个评论人发布多条评论的时间间隔也比较短,而且还有针对同一款商品的多条评论。因此,这些评论属于虚假评论的概率非常高。
给定的商品评论数据集R,其中任意一条商品评论r∈R,其对应的评论人用户名用un(r)表示。给定任意的字符串s,len(s)表示s的长度。当评论人的用户名满足以下3种模式之一时,说明该评论人有可能是虚假评论人:
①给定评论r1∈R,对应的用户名un(r1)为非匿名显示,且un(r1)=s1as1b,如果至少存在两条评论r2,r3∈R,对应的非匿名显示的用户名分别为un(r2)=s2as2b和un(r3)=s3as3b,且条件r2≠r3≠r1,un(r2)≠un(r3)≠un(r1),s2a=s3a=s1a和同时成立,其中η表示比例阈值,那么认为un(r1),un(r2)和un(r3)属于系列用户名;
②给定评论r1∈R,对应的用户名un(r1)为匿名或者部分匿名显示,且un(r1)=a1s1b1,其中a1为非数字字符,s1为给定任意的字符串,b1为数字,如果至少存在两条评论r2,r3∈R,对应的匿名显示的用户名分别为un(r2)=a2s2b2和un(r3)=a3s3b3,其中a2和a3为非数字字符,b2和b3为数字,且条件r2≠r3≠r1,un(r2)≠un(r3)≠un(r1),a1=a2=a3和b1≠b2≠b3同时成立,那么认为un(r1),un(r2)和un(r3)属于系列用户名;
③给定评论r1∈R,对应的用户名un(r1)为匿名或者部分匿名显示,且un(r1)=a1s1b1,其中a1为非数字字符,s1为给定任意的字符串,b1为英文字母,如果至少存在两条评论r2,r3∈R,对应的匿名用户名称分别为un(r2)=a2s2b2和un(r3)=a3s3b3,其中a2和a3为非数字字符,b2和b3为英文字母,且条件r2≠r3≠r1,un(r2)≠un(r3)≠un(r1),a1=a2=a3和b1≠b2≠b3同时成立,那么认为un(r1),un(r2)和un(r3)属于系列用户名。
如果用户名符合上述3种模式之一,说明该用户名属于一个系列,对应的账号将被自动标注为虚假评论人。
因此,给定的商品评论数据集R,可以执行以下操作:
①对于任意的r∈R,获得其对应的评论人用户名un(r);
②如果un(r)符合上述3种模式之一,将un(r)添加到候选集UNf2;
③循环执行①和②的操作,直到遍历R中的所有元素;
④得到最终的虚假评论人候选集UNf2;
同时,虚假评论人通常不会只发布1-2条评论。因为注册一个账号本身是需要一定投入的,甚至很多电商网站都要求账号实名认证,从而极大地提高了批量注册账号的门槛。基于这个原因,虚假评论人通常都会重复多次使用一个账号,必然会导致每个账号对应多条商品评论。因此,还可以进一步结合用户名规律和评论次数特征,来自动识别和确定虚假评论人。为此,对于候选集UNf2,执行以下操作:
①对于任意的un∈UNf2,在完整的商品评论集合R中查询并获得un对应的所有评论,记为评论子集Run;
②对任意的元素对<ri,rj>,ri,rj∈Run,其发布时间分别记为t(ri)和t(rj),如果|t(ri)-t(rj)|≤Δtmin,其中Δtmin表示同一用户连续发帖的最小时间间隔阈值,将ri和rj添加到集合Rt中;
③遍历Run中的所有元素对,得到最终的Rt;
④如果|Rt|≥λ,其中λ是一个表示数量阈值的正整数(时间间隔),根据经验可以设定λ为3,也可以根据实际需要动态设定,那么可以认定un为虚假评论人,同时将Run中的评论标注为虚假评论;
⑤循环执行①-④的操作,直到遍历UNf2中的所有元素;
合并所有在上述操作中满足|Rt|≥λ的评论子集,得到最终的结果集R2。
g)合并结果集R1和结果集R2,即执行取并集操作Rf=R1∪R2,得到最终的虚假商品数据集Rf。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种中文商品虚假评论数据集的自动生成方法,其特征在于,包括如下步骤:
a)将事先采集到的商品评论数据读入内存;
b)利用分词工具对评论进行分词,得到评论文本的词序列表示;
c)对给定范围内的商品评论两两之间进行文本相似度的比较,将相似度超过θ的商品评论标注为虚假评论,并统一添加到一个商品虚假评论集合Rf1中;
d)对商品虚假评论集合Rf1中的评论进一步执行关联查询,得到商品虚假评论结果集R1;
e)提取给定范围内商品评论对应的评论人的名称信息;
f)对评论人名称进行分析,找出符合一定规律特征的系列评论人名称,对虚假评论人进一步执行关联查询,得到商品虚假评论结果集R2。
g)最后,合并结果集R1和结果集R2,得到最终的商品虚假评论数据集。
2.根据权利要求1所述的一种中文商品虚假评论数据集的自动生成方法,其特征在于,采用Dice's Coefficient来计算商品评论两两之间的文本相似度。
3.根据权利要求1所述的一种中文商品虚假评论数据集的自动生成方法,其特征在于,所述步骤d)中执行关联查询,得到商品虚假评论结果集R1,具体如下:
①对于任意的评论r∈Rf1,其对应的评论人记为u(r),在完整的商品评论集合R中查询并获得u(r)对应的所有评论,记为评论子集Ru;
②将Ru中的评论标注为虚假评论;
③循环执行①和②的操作,直到遍历Rf1中的所有元素;
④合并所有的评论子集,得到结果集R1。
4.根据权利要求1所述的一种中文商品虚假评论数据集的自动生成方法,其特征在于,所述评论人的名称为电商网站用户的id或者昵称。
5.根据权利要求1所述的一种中文商品虚假评论数据集的自动生成方法,其特征在于,所述步骤f)中找出符合一定规律特征的系列评论人名称,具体如下:
①对于任意的评论r∈R,获得其对应的评论人用户名un(r);
②如果un(r)符合3种模式之一,将un(r)添加到候选集UNf2;
③循环执行①和②的操作,直到遍历R中的所有元素;
④得到最终的虚假评论人候选集UNf2。
6.根据权利要求5所述的一种中文商品虚假评论数据集的自动生成方法,其特征在于,所述3中模式具体如下:
①给定评论r1∈R,对应的用户名un(r1)为非匿名显示,且un(r1)=s1as1b,如果至少存在两条评论r2,r3∈R,对应的非匿名显示的用户名分别为un(r2)=s2as2b和un(r3)=s3as3b,且条件r2≠r3≠r1,un(r2)≠un(r3)≠un(r1),s2a=s3a=s1a和同时成立,则认为un(r1),un(r2)和un(r3)属于系列用户名;s为给定任意的字符串,len(s)表示s的长度;η表示比例阈值;
②给定评论r1∈R,对应的用户名un(r1)为匿名或者部分匿名显示,且un(r1)=a1s1b1,其中a1为非数字字符,s1为给定任意的字符串,b1为数字,如果至少存在两条评论r2,r3∈R,对应的匿名显示的用户名分别为un(r2)=a2s2b2和un(r3)=a3s3b3,其中a2和a3为非数字字符,b2和b3为数字,且条件r2≠r3≠r1,un(r2)≠un(r3)≠un(r1),a1=a2=a3和b1≠b2≠b3同时成立,那么认为un(r1),un(r2)和un(r3)属于系列用户名;
③给定评论r1∈R,对应的用户名un(r1)为匿名或者部分匿名显示,且un(r1)=a1s1b1,其中a1为非数字字符,s1为给定任意的字符串,b1为英文字母,如果至少存在两条评论r2,r3∈R,对应的匿名用户名称分别为un(r2)=a2s2b2和un(r3)=a3s3b3,其中a2和a3为非数字字符,b2和b3为英文字母,且条件r2≠r3≠r1,un(r2)≠un(r3)≠un(r1),a1=a2=a3和b1≠b2≠b3同时成立,那么认为un(r1),un(r2)和un(r3)属于系列用户名。
7.根据权利要求1所述的一种中文商品虚假评论数据集的自动生成方法,其特征在于,所述步骤f)中对虚假评论人进一步执行关联查询,得到商品虚假评论结果集R2,具体如下:
①对于任意的用户名un∈UNf2,在完整的商品评论集合R中查询并获得un对应的所有评论,记为评论子集Run;
②对任意的元素对<ri,rj>,ri,rj∈Run,其发布时间分别记为t(ri)和t(rj),如果|t(ri)-t(rj)|≤Δtmin,其中Δtmin表示同一用户连续发帖的最小时间间隔阈值,将ri和rj添加到集合Rt中;
③遍历Run中的所有元素对,得到最终的Rt;
④如果|Rt|≥λ,其中λ是一个表示数量阈值的正整数(时间间隔),那么认定un为虚假评论人,同时将Run中的评论标注为虚假评论;
⑤循环执行①-④的操作,直到遍历UNf2中的所有元素;
合并所有在上述操作中满足|Rt|≥λ的评论子集,得到最终的结果集R2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810971800.6A CN109241527B (zh) | 2018-08-24 | 2018-08-24 | 一种中文商品虚假评论数据集自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810971800.6A CN109241527B (zh) | 2018-08-24 | 2018-08-24 | 一种中文商品虚假评论数据集自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109241527A true CN109241527A (zh) | 2019-01-18 |
CN109241527B CN109241527B (zh) | 2023-02-03 |
Family
ID=65067874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810971800.6A Active CN109241527B (zh) | 2018-08-24 | 2018-08-24 | 一种中文商品虚假评论数据集自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241527B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829733A (zh) * | 2019-01-31 | 2019-05-31 | 重庆大学 | 一种基于购物行为序列数据的虚假评论检测系统和方法 |
CN110134770A (zh) * | 2019-05-30 | 2019-08-16 | 莆田学院 | 一种基于胶囊网络的水军商品评论虚假检测装置及方法 |
CN111415171A (zh) * | 2020-02-24 | 2020-07-14 | 柳州达迪通信技术股份有限公司 | 一种基于sdh传输系统的数据采集校验系统 |
CN112396433A (zh) * | 2020-11-30 | 2021-02-23 | 翼果(深圳)科技有限公司 | 基于留评人行为识别虚假商品评论的方法及系统 |
CN113191845A (zh) * | 2021-05-07 | 2021-07-30 | 武汉新之扬电子商务有限公司 | 一种在线直播购物平台数据分析处理方法、系统、设备和计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150662A (zh) * | 2013-02-07 | 2013-06-12 | 珠海市君天电子科技有限公司 | 一种鉴定淘宝网虚假商品广告的方法 |
JP2015069588A (ja) * | 2013-09-30 | 2015-04-13 | 大日本印刷株式会社 | サーバ装置、プログラム、及び、情報提供方法 |
CN104881795A (zh) * | 2015-05-16 | 2015-09-02 | 成都数联铭品科技有限公司 | 一种电商虚假评价的判断识别方法 |
CN106484679A (zh) * | 2016-10-20 | 2017-03-08 | 北京邮电大学 | 一种应用于消费平台上的虚假评论信息识别方法及装置 |
-
2018
- 2018-08-24 CN CN201810971800.6A patent/CN109241527B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150662A (zh) * | 2013-02-07 | 2013-06-12 | 珠海市君天电子科技有限公司 | 一种鉴定淘宝网虚假商品广告的方法 |
JP2015069588A (ja) * | 2013-09-30 | 2015-04-13 | 大日本印刷株式会社 | サーバ装置、プログラム、及び、情報提供方法 |
CN104881795A (zh) * | 2015-05-16 | 2015-09-02 | 成都数联铭品科技有限公司 | 一种电商虚假评价的判断识别方法 |
CN106484679A (zh) * | 2016-10-20 | 2017-03-08 | 北京邮电大学 | 一种应用于消费平台上的虚假评论信息识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
杨臻等: "基于多特征的网络水军识别方法", 《激光杂志》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829733A (zh) * | 2019-01-31 | 2019-05-31 | 重庆大学 | 一种基于购物行为序列数据的虚假评论检测系统和方法 |
CN109829733B (zh) * | 2019-01-31 | 2023-02-03 | 重庆大学 | 一种基于购物行为序列数据的虚假评论检测系统和方法 |
CN110134770A (zh) * | 2019-05-30 | 2019-08-16 | 莆田学院 | 一种基于胶囊网络的水军商品评论虚假检测装置及方法 |
CN111415171A (zh) * | 2020-02-24 | 2020-07-14 | 柳州达迪通信技术股份有限公司 | 一种基于sdh传输系统的数据采集校验系统 |
CN111415171B (zh) * | 2020-02-24 | 2020-11-10 | 柳州达迪通信技术股份有限公司 | 一种基于sdh传输系统的数据采集校验系统 |
CN112396433A (zh) * | 2020-11-30 | 2021-02-23 | 翼果(深圳)科技有限公司 | 基于留评人行为识别虚假商品评论的方法及系统 |
CN113191845A (zh) * | 2021-05-07 | 2021-07-30 | 武汉新之扬电子商务有限公司 | 一种在线直播购物平台数据分析处理方法、系统、设备和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109241527B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241527A (zh) | 一种中文商品虚假评论数据集自动生成方法 | |
Ding et al. | Learning stylometric representations for authorship analysis | |
WO2021259207A1 (zh) | 基于stacking集成的APT组织识别方法、系统及存储介质 | |
CN109684441A (zh) | 对职位和简历进行匹配的方法、系统、设备和介质 | |
CN109657039A (zh) | 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 | |
JP2008203933A (ja) | カテゴリ作成方法および装置、文書分類方法および装置 | |
Polyzos et al. | Twitter and market efficiency in energy markets: Evidence using LDA clustered topic extraction | |
Li et al. | Event extraction for criminal legal text | |
Cao et al. | Deep multi-view learning to rank | |
Celikyilmaz et al. | A graph-based semi-supervised learning for question-answering | |
CN106227802A (zh) | 一种基于中文自然语言处理和多核分类器的多信源股价预测方法 | |
US11741318B2 (en) | Open information extraction from low resource languages | |
Li et al. | A novel label-based multimodal topic model for social media analysis | |
De Kock et al. | Leveraging Wikipedia article evolution for promotional tone detection | |
Wu et al. | Visual sentiment prediction with attribute augmentation and multi-attention mechanism | |
CN110489514B (zh) | 提升事件抽取标注效率的系统及方法、事件抽取方法及系统 | |
Wan et al. | Topic modeling and progression of American digital news media during the onset of the COVID-19 pandemic | |
Firmino et al. | Automatic and semi-automatic annotation of people in photography using shared events | |
Day et al. | An integrated knowledge-based and machine learning approach for Chinese question classification | |
Álvaro et al. | Structure detection and segmentation of documents using 2D stochastic context-free grammars | |
CN110599195B (zh) | 一种识别刷单的方法 | |
CN112434126B (zh) | 一种信息处理方法、装置、设备和存储介质 | |
Mei et al. | Seeing the wood for the trees: a contrastive regularization method for the low-resource knowledge base question answering | |
Wang et al. | A Method of Hot Topic Detection in Blogs Using N-gram Model. | |
Sun et al. | Generalized abbreviation prediction with negative full forms and its application on improving chinese web search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |