CN107239512A - 一种结合评论关系网络图的微博垃圾评论识别方法 - Google Patents
一种结合评论关系网络图的微博垃圾评论识别方法 Download PDFInfo
- Publication number
- CN107239512A CN107239512A CN201710351745.6A CN201710351745A CN107239512A CN 107239512 A CN107239512 A CN 107239512A CN 201710351745 A CN201710351745 A CN 201710351745A CN 107239512 A CN107239512 A CN 107239512A
- Authority
- CN
- China
- Prior art keywords
- comment
- text
- mrow
- word
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种结合评论关系网络图的微博垃圾评论识别方法,解决现有微博垃圾评论识别研究中整体识别率低、正常/垃圾评论误判率高的问题。其基本思路如下:首先将与评论相关的主体以及主体之间的关系抽取出来,建立评论关系网络图模型;其次使用Lucence全文搜索引擎为爬取到的博文语料库集创建索引并提供全文搜索功能;然后采用文本相关度模型代替传统的文本相似度计算模型得到评论与原博文的相关度,能够在传统朴素贝叶斯的基础上不仅从评论文本与原博文相关角度,对单纯基于文本概率统计模型的垃圾评论识别方法进行改进优化,同时引进了由垃圾评论特征包括是否包含垃圾连续数字、是否字重复率高于一定阙值等构成的评论布尔向量。
Description
技术领域
本发明属于知识发现与数据挖掘领域,更具体地,涉及一种结合评论关系网络图的微博垃圾评论识别方法和系统。
背景技术
伴随着微博平台影响力的不断扩大,微博平台上出现了大量带有广告营销性质、恶意攻击言语的垃圾评论信息。这些垃圾评论信息在没有其他监管措施的情况下,会不断的充斥在正常用户发表的正常信息当中,对平台中正常用户的用户体验产生很不好的影响,甚至会威胁到微博网络平台发展的稳定与和谐。目前国内外针对微博垃圾评论识别的方法主要有两类:基于评论内容的垃圾评论识别和基于垃圾用户的垃圾评论识别。
基于评论内容的垃圾评论识别主要是从评论本身的文本特征出发,挖掘其中潜在的垃圾评论特征,其中有从评论文本与原博文的文本相似角度判断,也有单纯的从评论文本本身包含的垃圾信息特征出发进行挖掘。该方法的不足为:在只有几个字符的短评论文本中文本特征相当不明显,并且从评论与对应博文的文本相似角度出发对于垃圾评论的判定会存在比较大的误差,因此垃圾识别准确度低。
基于垃圾用户的垃圾评论识别主要是利用垃圾用户发表垃圾评论概率更大的性质对平台中的垃圾用户先进行识别,常用的社交蜜罐技术可以主动引导垃圾用户靠近,用户行为分析技术包括用户URL使用率、非空转发比等。该方法的不足为:由于该方法并没有对评论本身做一定的分析,而是直接基于垃圾用户一定会发表垃圾评论这样的判定来进行识别,导致垃圾识别准确率低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种结合评论关系网络图的微博垃圾评论识别方法和系统,其目的在于,解决现有微博平台垃圾评论识别方法中存在的垃圾评论整体识别率低、正常/垃圾评论误判率高的问题。
为实现上述目的,按照本发明的一个方面,提供了一种结合评论关系网络图的微博垃圾评论识别方法,包括如下步骤:
(1)从微博平台爬取训练集、测试集、以及博文语料库,根据与微博平台中的微博评论相关的主体以及主体之间的关系构建评论关系网络图模型,并根据爬取的训练集和测试集对构建的评论关系网络图进行处理,以生成基于Neo4j开源软件的评论关系网络图;
(2)使用开源的全文搜索引擎为爬取的博文语料集建立索引,使用建立的索引执行博文语料集的搜索,并根据搜索返回的结果计算文本词之间的相关度值;
(3)对评论关系网络图中的评论文本节点与博文文本节点进行基于结构信息的数据预处理操作,提取数据预处理操作结果中评论文本节点的基本元数据,并使用该基本元数据为相应节点设置节点属性值;
(4)针对评论关系网络图中的每个评论文本节点,计算其评论文本与对应博文之间的文本相关度,并根据该文本相关度值在评论关系网络图中为该评论文本节点的相关度属性设置对应的相关度属性值;
(5)根据步骤(1)中爬取的训练集和步骤(4)得到的相关度属性值构建初始评论文本分类器;
(6)根据步骤(5)构建的初始评论文本分类器对每个测试集中的评论文本进行类别判定,并将最终的判定结果增量反馈至初始评论文本分类器中继续学习。
优选地,评论关系网络图中的节点包括用户节点、博文文本节点、评论文本节点、以及文本词节点;
评论关系网络图中的节点关系包括关注关系、交互关系、发表关系、拥有关系以及相关关系。
优选地,步骤(2)具体为,首先从微博平台收集博文语料集,然后为语料集中的每条博文文本创建一个独立的文件,并使用Lucence全文搜索引擎为这些文件创建索引并提供全文搜索功能,以利用搜索返回的文件数目来计算文本词之间的相关度。
优选地,计算文本词之间的相关度具体是采用以下公式:
其中u和v均表示文本词,TextNum(u,v)表示同时包含文本词u和v的博文数目,TextNum(u)表示包含文本词u的博文数目,TextNum(v)表示包含文本词v的博文数目。
优选地,结构信息包括已经结构化的表情符号,评论文本节点的基本元数据包括评论文本的字重复率、URL链接、特殊字符数目以及连续数字等。
优选地,步骤(4)包括如下子步骤:
(4.1)对评论关系网路图中的所有评论文本和博文文本进行中文分词,对中文分词得到的词集列表进行实词提取,并在评论关系网络图中对实词提取的结果进行文本词节点创建操作,以得到评论词集列表和博文词集列表;
(4.2)根据评论词集列表和博文词集列表构建评论文本与对应博文之间的文本相关度矩阵MRV:
该矩阵中任意一个元素ρij表示评论词集列表中第i个文本词与博文词集列表中第j个文本词之间的相关度,a表示评论词集列表的长度,b表示博文词集列表的长度,i为1到a之间的任意整数,j为1到b之间的任意整数;
(4.3)从步骤(4.2)得到的文本相关度矩阵中的每个行向量(ρi1,ρi2,…,ρij,...,ρib)中选择最大值组成最大值集合(ρ1Max,ρ2Max,...,ρaMax),并根据该最大值集合得到评论文本节点的相关度属性所对应的属性值RV(X,Y)为:
其中X表示评论词集列表,Y表示博文词集列表,f表示文本词在文本中的词频。
优选地,步骤(5)包括如下子步骤:
(5.1)对训练集进行初始朴素贝叶斯的训练,以得到各个类别C的先验概率P(C)、以及特征词x在各个类别下的条件概率P(x∣C);
(5.2)将训练集中正常训练集中评论文本节点的相关度属性所对应的属性值全部取出组成正常评论中心向量hamCentalVector,并将将训练集中垃圾训练集中评论文本节点的相关度属性所对应的属性值全部取出组成垃圾评论中心向量spamCentalVector;
(5.3)根据训练集中的正常评论和垃圾评论,训练得到布尔向量因子包括评论文本字重复率的阙值δ、评论文本特殊字符数目的阙值ε,垃圾连续数字集spamSerialSet以及垃圾URL集spamUrlSet。
优选地,对训练集进行初始朴素贝叶斯的训练具体为:首先初始化阙值δ、ε为0,spamSerialSet集和spamUrlSet集为空,然后针对训练集中的每个评论文本,判断其是正常评论文本还是垃圾评论文本,如果是垃圾评论文本,则判断该垃圾评论文本中是否包含URL链接和连续数字,若包含则向相应的spamUrlSet垃圾URL集或spamSerialSet垃圾连续数字集添加新的URL链接或连续数字,之后再提取该垃圾评论文本的基本元数据包括文本字重复率和特殊字符数目并分别置于临时集合中;如果是正常评论文本,则判断该评论文本的字重复率是否大于阙值δ,若大于则更新δ,并判断该评论文本的特殊字符数目是否大于阙值ε,若大于则更新ε;当训练集中的评论文本全部处理完毕,再将得到的字重复率和特殊字符数目两个临时集合中分别大于阙值δ、ε的数值集合抽取出来并分别取平均值,最后用这两个平均值分别重置δ、ε,得到最终的字重复率阙值δ以及特殊字符数目阙值ε。
优选地,步骤(6)包括如下子步骤:
(6.1)根据步骤(5.1)得到的各个类别的先验概率以及每个特征词在各个类别下的条件概率,使用以下公式对测试集中的评论文本经过步骤(3)的数据预处理及步骤(5)的初始朴素贝叶斯训练之后得到的特征词集列表XComment={x1,x2,……,xa}进行处理,以得到评论文本分别为正常评论的概率和垃圾评论的概率;
(6.2)获取测试集中每个评论文本由步骤(4.3)得到的文本相关度值RV,并计算该文本相关度值RV与由步骤(5.2)得到的正常/垃圾评论中心向量的平均欧式距离Distanceham和Distancespam,就是相关度值RV与向量中每个元素的欧式距离组成的列向量平均值;
(6.3)构建测试评论文本布尔向量boolVectortest=(l,m,n,o,p,q),其中l表示评论文本是否被回复、m表示评论文本是否被点赞、n表示评论文本是否字重复率高于某一阙值δ、o表示评论文本中的特殊字符数目是否高于某一阙值ε、p表示评论文本中是否包含垃圾URL、q表示评论文本中是否包含垃圾连续数字,l、m、n、o、p、q的取值为1或者0。
(6.4)综合步骤(6.1)、(6.2)和(6.3)的结果判断测试集中的评论文本是否为垃圾评论,具体是采用以下公式计算得到结果值Commclass,若该值大于0,则表示评论文本是垃圾评论文本,反之,则为正常评论文本:
(6.5)将步骤(6.4)的判断结果增量反馈至初始评论文本分类器中继续学习,不断更新朴素贝叶斯训练阶段的先验概率和条件概率,以及垃圾连续数字集spamSerialSet和垃圾URL集spamUrlSet,并不断修正布尔因子δ和ε。
按照本发明的另一方面,提供了一种结合评论关系网络图的微博垃圾评论识别系统,包括:
第一模块,用于从微博平台爬取训练集、测试集、以及博文语料库,根据与微博平台中的微博评论相关的主体以及主体之间的关系构建评论关系网络图模型,并根据爬取的训练集和测试集对构建的评论关系网络图进行处理,以生成基于Neo4j开源软件的评论关系网络图;
第二模块,用于使用开源的全文搜索引擎为爬取的博文语料集建立索引,使用建立的索引执行博文语料集的搜索,并根据搜索返回的结果计算文本词之间的相关度值;
第三模块,用于对评论关系网络图中的评论文本节点与博文文本节点进行基于结构信息的数据预处理操作,提取数据预处理操作结果中评论文本节点的基本元数据,并使用该基本元数据为相应节点设置节点属性值;
第四模块,用于针对评论关系网络图中的每个评论文本节点,计算其评论文本与对应博文之间的文本相关度,并根据该文本相关度值在评论关系网络图中为该评论文本节点的相关度属性设置对应的相关度属性值;
第五模块,用于根据第一模块中爬取的训练集和第四模块得到的相关度属性值构建初始评论文本分类器;
第六模块,用于根据第五模块构建的初始评论文本分类器对每个测试集中的评论文本进行类别判定,并将最终的判定结果增量反馈至初始评论文本分类器中继续学习。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明由于采用了步骤(4)、步骤(5)和步骤(6),能够在传统朴素贝叶斯的基础上不仅从评论文本与原博文相关角度,对单纯基于文本概率统计模型的垃圾评论识别方法进行改进优化,同时引进了由垃圾评论特征包括是否包含垃圾连续数字、是否字重复率高于一定阙值等构成的评论布尔向量,因此综合性的提高了垃圾评论整体的识别率。
(2)本发明中采用文本相关度计算模型代替传统严苛的文本相似度计算模型得到评论文本与原博文文本的文本相关度,能够有效降低正常相关评论的误判率。
(3)本发明选择基于模型的图数据库Neo4j来存储和管理评论关系网络图,能够提升垃圾评论识别算法的性能。
(4)本发明每次测试集的识别结果还会增量反馈至评论文本分类器中继续学习,这样的增量学习机制进一步提高了垃圾评论整体的识别率并降低了误判率。
附图说明
图1是本发明结合评论关系网络图的微博垃圾评论识别方法的流程图。
图2是本发明构建的评论关系网络图的示意图。
图3是本发明评论文本布尔向量因子确定方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路如下,首先将与评论相关的主体以及主体之间的关系抽取出来,建立评论关系网络图模型;其次使用Lucence全文搜索引擎为爬取到的博文语料库集创建索引并提供全文搜索功能;然后采用文本相关度模型代替传统的文本相似度计算模型得到评论与原博文的相关度,能够在传统朴素贝叶斯的基础上不仅从评论文本与原博文相关角度,对单纯基于文本概率统计模型的垃圾评论识别方法进行改进优化,同时引进了由垃圾评论特征包括是否包含垃圾连续数字、是否字重复率高于一定阙值等构成的评论布尔向量,因此综合性地提高了垃圾评论整体的识别率;最后根据训练集进行评论文本分类器的构建,并对测试集中的测试评论进行识别,识别后的结果会反馈到分类器中继续学习。
如图1所示,本发明结合评论关系网络图的微博垃圾评论识别方法包括如下步骤:
(1)从微博平台爬取训练集、测试集、以及博文语料库,根据与微博平台中的微博评论相关的主体以及主体之间的关系构建评论关系网络图模型,并根据爬取的训练集和测试集对构建的评论关系网络图进行处理,以生成基于Neo4j开源软件的评论关系网络图,其中该评论关系网络图中的其中一些节点或节点关系具有对应的属性。
评论关系网络图中的节点包括用户(User)节点、博文文本(Microblog)节点、评论文本(Comment)节点、以及文本词(Word)节点。
评论关系网络图中节点关系主要包括关注关系、交互关系、发表关系、拥有关系以及相关关系,其中,交互关系和相关关系是重要的、存在关系属性的节点关系,本发明中将用户之间的各种交互行为包括评论、转发、@、点赞、删除等汇总为一个交互关系,以键值对(key-value)的形式作为属性存放在用户之间的交互关系中。
具体而言,如图2所示,生成的评论关系网络图中每种类型的节点及其节点属性的对应关系如下表1所示:
表1
评论关系网络图中的节点关系主要包括关注关系、交互关系、发表关系、拥有关系以及相关关系,其中,交互关系是一个重要的存在关系属性的节点关系,本发明中将用户之间的各种交互行为包括评论、转发、@、点赞、删除等汇总会一个交互关系,以key-value的形式作为属性存放在用户之间的交互关系中。
(2)使用开源的全文搜索引擎为爬取的博文语料集建立索引,使用建立的索引执行博文语料集的搜索,并根据搜索返回的结果计算文本词之间的相关度值;
在本实施方式中,使用的开源的全文搜索引擎是Lucence全文搜索引擎,目的在于提供基于博文语料库的全文搜索功能。
举例而言,本步骤首先会从新浪微博平台收集博文语料集,主要抓取了包含娱乐、社会、经济、IT互联网等热门类目下的百万条博文内容作为本发明的语料集。接着会为语料集中的每条博文文本创建一个独立的文件,并使用Lucence全文搜索引擎为这些文件创建索引并提供全文搜索功能,这样就可以利用搜索返回的文件数目来计算文本词之间的相关度。
计算文本词之间的相关度具体是采用以下公式:
其中u和v均表示文本词,TextNum(u,v)表示同时包含文本词u和v的博文数目,TextNum(u)表示包含文本词u的博文数目,TextNum(v)表示包含文本词v的博文数目。
在全文搜索库的基础之上,搜索返回仅包含文本词u的博文数据TextNum(u),仅包含文本词v的博文数据TextNum(v)以及同时包含文本词u、文本词v的博文数目TextNum(u,v),那么文本词u和文本词v之间基于微博语料全文搜索库的词语相关度计算如上公式所示。
(3)对评论关系网络图中的评论文本节点与博文文本节点进行基于结构信息(参见下表2所示)的数据预处理操作,提取数据预处理操作结果中评论文本节点的基本元数据,并使用该基本元数据为相应节点设置节点属性值;
表2
结构信息 | 操作 | 正则表达式 |
“[]”表情符号 | 过滤 | [[\u4e00-\u9fa5_a-zA-Z0-9]+] |
“//@”转发 | 保留 | //@[^@|^//@|^#|.]+ |
“@”其他用户 | 过滤 | @[\u4e00-\u9fa5a-zA-Z0-9_-]{2,30} |
“#”话题 | 保留 | #[^#]+# |
具体而言,结构信息主要包括已经结构化的表情符号,如“[微笑]”、“[爱心]”、两个“#”字符之间的话题、以及“//@”转发标记等,本发明中采用正则表达式对这些结构信息采取过滤或保留操作,评论文本节点的基本元数据主要包括评论文本的字重复率、URL链接、特殊字符数目以及连续数字。
(4)针对评论关系网络图中的每个评论文本节点,计算其评论文本与对应博文之间的文本相关度,并根据该文本相关度值在评论关系网络图中为该评论文本节点的相关度属性设置对应的相关度属性值;
具体而言,本步骤包括如下子步骤:
(4.1)对评论关系网路图中的所有评论文本和博文文本进行中文分词,对中文分词得到的词集列表进行实词提取,并在评论关系网络图中对实词提取的结果进行文本词节点创建操作,以得到评论词集列表和博文词集列表;
鉴于步骤(3)中博文文本和评论文本一般都是短文本的特性,因此需要将转发文本和话题文本等相关内容保留,在文本分词前需要作一定的文本合并操作,然后在经中文分词后得到的词集列表中进行实词提取、以及评论关系网络图中的文本词节点创建操作。
(4.2)根据评论词集列表和博文词集列表构建评论文本与对应博文之间的文本相关度矩阵MRV:
该矩阵中任意一个元素ρij表示评论词集列表中第i个文本词与博文词集列表中第j个文本词之间的相关度,a表示评论词集列表的长度,b表示博文词集列表的长度,i为1到a之间的任意整数,j为1到b之间的任意整数;
本步骤中计算文本词之间相关度的方法和上述步骤(2)完全相同,在此不再赘述。
(4.3)从步骤(4.2)得到的文本相关度矩阵中的每个行向量(ρi1,ρi2,…,ρij,...,ρib)中选择最大值组成最大值集合(ρ1Max,ρ2Max,...,ρaMax),并根据该最大值集合得到评论文本节点的相关度属性所对应的属性值RV(X,Y)为:
其中X表示评论词集列表,Y表示博文词集列表,f表示文本词在文本中的词频。
(5)根据步骤(1)中爬取的训练集和步骤(4)得到的相关度属性值构建初始评论文本分类器;
本步骤中的构建过程主要包括初始朴素贝叶斯的训练、正常/垃圾评论中心向量的构建以及布尔向量因子的确定,其中正常/垃圾评论中心向量由步骤(4)得到的评论文本与对应博文文本之间的文本相关度值RV组成。
具体的,本步骤包括如下子步骤:
(5.1)对训练集进行初始朴素贝叶斯的训练,以得到各个类别(其包括正常评论类和垃圾评论类两种)C的先验概率P(C)、以及特征词x在各个类别下的条件概率P(x∣C);
(5.2)将训练集中正常训练集中评论文本节点的相关度属性所对应的属性值全部取出组成正常评论中心向量hamCentalVector,并将将训练集中垃圾训练集中评论文本节点的相关度属性所对应的属性值全部取出组成垃圾评论中心向量spamCentalVector;
(5.3)根据训练集中的正常评论和垃圾评论,训练得到布尔向量因子包括评论文本字重复率的阙值δ、评论文本特殊字符数目的阙值ε,垃圾连续数字集spamSerialSet以及垃圾URL集spamUrlSet。
具体的训练流程如图3所示,首先初始化阙值δ、ε为0,spamSerialSet集和spamUrlSet集为空,然后针对训练集中的每个评论文本,判断其是正常评论文本还是垃圾评论文本。
如果是垃圾评论文本,那么需要判断该垃圾评论文本中是否包含URL链接和连续数字,若包含则向相应的spamUrlSet垃圾URL集或spamSerialSet垃圾连续数字集添加新的URL链接或连续数字,之后再提取该垃圾评论文本的基本元数据包括文本字重复率和特殊字符数目并分别置于临时集合中。
如果是正常评论文本,判断该评论文本的字重复率是否大于阙值δ,若大于则更新δ,并判断该评论文本的特殊字符数目是否大于阙值ε,若大于则更新ε。
当训练集中的评论文本全部处理完毕,再将得到的字重复率和特殊字符数目两个临时集合中分别大于阙值δ、ε的数值集合抽取出来并分别取平均值,最后用这两个平均值分别重置δ、ε,得到最终的字重复率阙值δ以及特殊字符数目阙值ε。
(6)根据步骤(5)构建的初始评论文本分类器对每个测试集中的评论文本进行类别判定,并将最终的判定结果增量反馈至初始评论文本分类器中继续学习。
具体地,本步骤包括如下子步骤:
(6.1)根据步骤(5.1)得到的各个类别的先验概率以及每个特征词在各个类别下的条件概率,使用以下公式对测试集中的评论文本经过步骤(3)的数据预处理及步骤(5)的初始朴素贝叶斯训练之后得到的特征词集列表XComment={x1,x2,……,xa}进行处理,以得到评论文本分别为正常评论的概率和垃圾评论的概率;
(6.2)获取测试集中每个评论文本由步骤(4.3)得到的文本相关度值RV,并计算该文本相关度值RV与由步骤(5.2)得到的正常/垃圾评论中心向量的平均欧式距离Distanceham和Distancespam,就是相关度值RV与向量中每个元素的欧式距离组成的列向量平均值;
(6.3)构建测试评论文本布尔向量boolVectortest=(l,m,n,o,p,q),其中l表示评论文本是否被回复、m表示评论文本是否被点赞、n表示评论文本是否字重复率高于某一阙值δ、o表示评论文本中的特殊字符数目是否高于某一阙值ε、p表示评论文本中是否包含垃圾URL、q表示评论文本中是否包含垃圾连续数字,l、m、n、o、p、q的取值为1或者0。
评论文本是否被回复或点赞可以从评论关系网络图中该节点的相应属性中直接获取,因此可以直接根据节点中的是否被回复属性值和是否被点赞属性值设置布尔因子l和m的值。
再根据步骤(5.3)得到的布尔因子δ、ε以及垃圾连续数字集spamSerialSet和垃圾URL集spamUrlSet,判断评论文本的字重复率是否大于δ,若大于则将n赋值为1,否则就赋值为0、判断评论文本的中的特殊字符数目是否大于ε,若大于则将o赋值为1,否则就赋值为0、判断评论文本中是否包含垃圾URL集spamUrlSet中的某个垃圾·,若包含则将p赋值为1,不包含则赋值为0、判断评论文本中是否包含垃圾连续数字集spamSerialSet中的某个垃圾连续数字,若包含则将q赋值为1,不包含则赋值为0。
根据正常评论与垃圾评论在上述几个布尔向量因子取值的相反性性质,构建正常评论布尔向量boolVectorham=(1,1,0,0,0,0),垃圾评论布尔向量boolVectorspam=(0,0,1,1,1,1),再分别计算boolVectortest与正常评论布尔向量boolVectorham和垃圾评论布尔向量boolVectorspam之间的余弦距离得到boolSimham和boolSimspam;
(6.4)综合步骤(6.1)、(6.2)和(6.3)的结果判断测试集中的评论文本是否为垃圾评论,具体是采用以下公式计算得到结果值Commclass,若该值大于0,则表示评论文本是垃圾评论文本,反之,则为正常评论文本:
(6.5)将步骤(6.4)的判断结果增量反馈至初始评论文本分类器中继续学习,不断更新朴素贝叶斯训练阶段的先验概率和条件概率,以及垃圾连续数字集spamSerialSet和垃圾URL集spamUrlSet,并不断修正几个布尔因子δ和ε。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种结合评论关系网络图的微博垃圾评论识别方法,其特征在于,包括如下步骤:
(1)从微博平台爬取训练集、测试集、以及博文语料库,根据与微博平台中的微博评论相关的主体以及主体之间的关系构建评论关系网络图模型,并根据爬取的训练集和测试集对构建的评论关系网络图进行处理,以生成基于Neo4j开源软件的评论关系网络图;
(2)使用开源的全文搜索引擎为爬取的博文语料集建立索引,使用建立的索引执行博文语料集的搜索,并根据搜索返回的结果计算文本词之间的相关度值;
(3)对评论关系网络图中的评论文本节点与博文文本节点进行基于结构信息的数据预处理操作,提取数据预处理操作结果中评论文本节点的基本元数据,并使用该基本元数据为相应节点设置节点属性值;
(4)针对评论关系网络图中的每个评论文本节点,计算其评论文本与对应博文之间的文本相关度,并根据该文本相关度值在评论关系网络图中为该评论文本节点的相关度属性设置对应的相关度属性值;
(5)根据步骤(1)中爬取的训练集和步骤(4)得到的相关度属性值构建初始评论文本分类器;
(6)根据步骤(5)构建的初始评论文本分类器对每个测试集中的评论文本进行类别判定,并将最终的判定结果增量反馈至初始评论文本分类器中继续学习。
2.根据权利要求1所述的微博垃圾评论识别方法,其特征在于,
评论关系网络图中的节点包括用户节点、博文文本节点、评论文本节点、以及文本词节点;评论关系网络图中的节点关系包括关注关系、交互关系、发表关系、拥有关系以及相关关系。
3.根据权利要求1所述的微博垃圾评论识别方法,其特征在于,步骤(2)具体为,首先从微博平台收集博文语料集,然后为语料集中的每条博文文本创建一个独立的文件,并使用Lucence全文搜索引擎为这些文件创建索引并提供全文搜索功能,以利用搜索返回的文件数目来计算文本词之间的相关度。
4.根据权利要求3所述的微博垃圾评论识别方法,其特征在于,计算文本词之间的相关度具体是采用以下公式:
<mrow>
<mi>R</mi>
<mi>V</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>T</mi>
<mi>e</mi>
<mi>x</mi>
<mi>t</mi>
<mi>N</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>T</mi>
<mi>e</mi>
<mi>x</mi>
<mi>t</mi>
<mi>N</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>T</mi>
<mi>e</mi>
<mi>x</mi>
<mi>t</mi>
<mi>N</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>T</mi>
<mi>e</mi>
<mi>x</mi>
<mi>t</mi>
<mi>N</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中u和v均表示文本词,TextNum(u,v)表示同时包含文本词u和v的博文数目,TextNum(u)表示包含文本词u的博文数目,TextNum(v)表示包含文本词v的博文数目。
5.根据权利要求4所述的微博垃圾评论识别方法,其特征在于,结构信息包括已经结构化的表情符号,评论文本节点的基本元数据包括评论文本的字重复率、URL链接、特殊字符数目以及连续数字等。
6.根据权利要求4所述的微博垃圾评论识别方法,其特征在于,步骤(4)包括如下子步骤:
(4.1)对评论关系网路图中的所有评论文本和博文文本进行中文分词,对中文分词得到的词集列表进行实词提取,并在评论关系网络图中对实词提取的结果进行文本词节点创建操作,以得到评论词集列表和博文词集列表;
(4.2)根据评论词集列表和博文词集列表构建评论文本与对应博文之间的文本相关度矩阵MRV:
该矩阵中任意一个元素ρij表示评论词集列表中第i个文本词与博文词集列表中第j个文本词之间的相关度,a表示评论词集列表的长度,b表示博文词集列表的长度,i为1到a之间的任意整数,j为1到b之间的任意整数;
(4.3)从步骤(4.2)得到的文本相关度矩阵中的每个行向量(ρi1,ρi2,…,ρij,...,ρib)中选择最大值组成最大值集合(ρ1Max,ρ2Max,...,ρaMax),并根据该最大值集合得到评论文本节点的相关度属性所对应的属性值RV(X,Y)为:
<mrow>
<mi>R</mi>
<mi>V</mi>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>,</mo>
<mi>Y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>&rho;</mi>
<mrow>
<mn>1</mn>
<mi>M</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>*</mo>
<msqrt>
<mrow>
<msub>
<mi>f</mi>
<mrow>
<mi>x</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>*</mo>
<msub>
<mi>f</mi>
<mrow>
<mi>y</mi>
<mi>M</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
</msub>
</mrow>
</msqrt>
<mo>+</mo>
<msub>
<mi>&rho;</mi>
<mrow>
<mn>2</mn>
<mi>M</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>*</mo>
<msqrt>
<mrow>
<msub>
<mi>f</mi>
<mrow>
<mi>x</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>*</mo>
<msub>
<mi>f</mi>
<mrow>
<mi>y</mi>
<mi>M</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
</msub>
</mrow>
</msqrt>
<mo>+</mo>
<mn>...</mn>
<mo>+</mo>
<msub>
<mi>&rho;</mi>
<mrow>
<mi>a</mi>
<mi>M</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>*</mo>
<msqrt>
<mrow>
<msub>
<mi>f</mi>
<mrow>
<mi>x</mi>
<mi>a</mi>
</mrow>
</msub>
<mo>*</mo>
<msub>
<mi>f</mi>
<mrow>
<mi>y</mi>
<mi>M</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
</msub>
</mrow>
</msqrt>
</mrow>
<mi>a</mi>
</mfrac>
</mrow>
其中X表示评论词集列表,Y表示博文词集列表,f表示文本词在文本中的词频。
7.根据权利要求6所述的微博垃圾评论识别方法,其特征在于,步骤(5)包括如下子步骤:
(5.1)对训练集进行初始朴素贝叶斯的训练,以得到各个类别C的先验概率P(C)、以及特征词x在各个类别下的条件概率P(x∣C);
(5.2)将训练集中正常训练集中评论文本节点的相关度属性所对应的属性值全部取出组成正常评论中心向量hamCentalVector,并将将训练集中垃圾训练集中评论文本节点的相关度属性所对应的属性值全部取出组成垃圾评论中心向量spamCentalVector;
(5.3)根据训练集中的正常评论和垃圾评论,训练得到布尔向量因子包括评论文本字重复率的阙值δ、评论文本特殊字符数目的阙值ε,垃圾连续数字集spamSerialSet以及垃圾URL集spamUrlSet。
8.根据权利要求7所述的微博垃圾评论识别方法,其特征在于,对训练集进行初始朴素贝叶斯的训练具体为:首先初始化阙值δ、ε为0,spamSerialSet集和spamUrlSet集为空,然后针对训练集中的每个评论文本,判断其是正常评论文本还是垃圾评论文本,如果是垃圾评论文本,则判断该垃圾评论文本中是否包含URL链接和连续数字,若包含则向相应的spamUrlSet垃圾URL集或spamSerialSet垃圾连续数字集添加新的URL链接或连续数字,之后再提取该垃圾评论文本的基本元数据包括文本字重复率和特殊字符数目并分别置于临时集合中;如果是正常评论文本,则判断该评论文本的字重复率是否大于阙值δ,若大于则更新δ,并判断该评论文本的特殊字符数目是否大于阙值ε,若大于则更新ε;当训练集中的评论文本全部处理完毕,再将得到的字重复率和特殊字符数目两个临时集合中分别大于阙值δ、ε的数值集合抽取出来并分别取平均值,最后用这两个平均值分别重置δ、ε,得到最终的字重复率阙值δ以及特殊字符数目阙值ε。
9.根据权利要求8所述的微博垃圾评论识别方法,其特征在于,步骤(6)包括如下子步骤:
(6.1)根据步骤(5.1)得到的各个类别的先验概率以及每个特征词在各个类别下的条件概率,使用以下公式对测试集中的评论文本经过步骤(3)的数据预处理及步骤(5)的初始朴素贝叶斯训练之后得到的特征词集列表XComment={x1,x2,……,xa}进行处理,以得到评论文本分别为正常评论的概率和垃圾评论的概率;
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>C</mi>
<mo>|</mo>
<msub>
<mi>X</mi>
<mrow>
<mi>C</mi>
<mi>o</mi>
<mi>m</mi>
<mi>m</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>C</mi>
<mo>)</mo>
</mrow>
<mo>*</mo>
<msubsup>
<mo>&Pi;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>a</mi>
</msubsup>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mi>C</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mrow>
<mi>C</mi>
<mi>o</mi>
<mi>m</mi>
<mi>m</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
(6.2)获取测试集中每个评论文本由步骤(4.3)得到的文本相关度值RV,并计算该文本相关度值RV与由步骤(5.2)得到的正常/垃圾评论中心向量的平均欧式距离Distanceham和Distancespam,就是相关度值RV与向量中每个元素的欧式距离组成的列向量平均值;
(6.3)构建测试评论文本布尔向量boolVectortest=(l,m,n,o,p,q),其中l表示评论文本是否被回复、m表示评论文本是否被点赞、n表示评论文本是否字重复率高于某一阙值δ、o表示评论文本中的特殊字符数目是否高于某一阙值ε、p表示评论文本中是否包含垃圾URL、q表示评论文本中是否包含垃圾连续数字,l、m、n、o、p、q的取值为1或者0。
(6.4)综合步骤(6.1)、(6.2)和(6.3)的结果判断测试集中的评论文本是否为垃圾评论,具体是采用以下公式计算得到结果值Commclass,若该值大于0,则表示评论文本是垃圾评论文本,反之,则为正常评论文本:
<mrow>
<msub>
<mi>Comm</mi>
<mrow>
<mi>c</mi>
<mi>l</mi>
<mi>a</mi>
<mi>s</mi>
<mi>s</mi>
</mrow>
</msub>
<mo>=</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mi>p</mi>
<mi>a</mi>
<mi>m</mi>
<mo>|</mo>
<msub>
<mi>X</mi>
<mrow>
<mi>C</mi>
<mi>o</mi>
<mi>m</mi>
<mi>m</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>Distance</mi>
<mrow>
<mi>h</mi>
<mi>a</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>boolSim</mi>
<mrow>
<mi>s</mi>
<mi>p</mi>
<mi>a</mi>
<mi>m</mi>
</mrow>
</msub>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>h</mi>
<mi>a</mi>
<mi>m</mi>
<mo>|</mo>
<msub>
<mi>X</mi>
<mrow>
<mi>C</mi>
<mi>o</mi>
<mi>m</mi>
<mi>m</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>Distance</mi>
<mrow>
<mi>s</mi>
<mi>p</mi>
<mi>a</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>boolSim</mi>
<mrow>
<mi>h</mi>
<mi>a</mi>
<mi>m</mi>
</mrow>
</msub>
</mrow>
</mfrac>
</mrow>
(6.5)将步骤(6.4)的判断结果增量反馈至初始评论文本分类器中继续学习,不断更新朴素贝叶斯训练阶段的先验概率和条件概率,以及垃圾连续数字集spamSerialSet和垃圾URL集spamUrlSet,并不断修正布尔因子δ和ε。
10.一种结合评论关系网络图的微博垃圾评论识别系统,其特征在于,包括:
第一模块,用于从微博平台爬取训练集、测试集、以及博文语料库,根据与微博平台中的微博评论相关的主体以及主体之间的关系构建评论关系网络图模型,并根据爬取的训练集和测试集对构建的评论关系网络图进行处理,以生成基于Neo4j开源软件的评论关系网络图;
第二模块,用于使用开源的全文搜索引擎为爬取的博文语料集建立索引,使用建立的索引执行博文语料集的搜索,并根据搜索返回的结果计算文本词之间的相关度值;
第三模块,用于对评论关系网络图中的评论文本节点与博文文本节点进行基于结构信息的数据预处理操作,提取数据预处理操作结果中评论文本节点的基本元数据,并使用该基本元数据为相应节点设置节点属性值;
第四模块,用于针对评论关系网络图中的每个评论文本节点,计算其评论文本与对应博文之间的文本相关度,并根据该文本相关度值在评论关系网络图中为该评论文本节点的相关度属性设置对应的相关度属性值;
第五模块,用于根据第一模块中爬取的训练集和第四模块得到的相关度属性值构建初始评论文本分类器;
第六模块,用于根据第五模块构建的初始评论文本分类器对每个测试集中的评论文本进行类别判定,并将最终的判定结果增量反馈至初始评论文本分类器中继续学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710351745.6A CN107239512B (zh) | 2017-05-18 | 2017-05-18 | 一种结合评论关系网络图的微博垃圾评论识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710351745.6A CN107239512B (zh) | 2017-05-18 | 2017-05-18 | 一种结合评论关系网络图的微博垃圾评论识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107239512A true CN107239512A (zh) | 2017-10-10 |
CN107239512B CN107239512B (zh) | 2019-10-08 |
Family
ID=59984447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710351745.6A Active CN107239512B (zh) | 2017-05-18 | 2017-05-18 | 一种结合评论关系网络图的微博垃圾评论识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107239512B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145290A (zh) * | 2018-07-25 | 2019-01-04 | 东北大学 | 基于字向量与自注意力机制的语义相似度计算方法 |
CN109299340A (zh) * | 2018-12-03 | 2019-02-01 | 江苏警官学院 | 一种基于图数据库的微博用户转发关系导入及可视化方法 |
CN109857838A (zh) * | 2019-02-12 | 2019-06-07 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN110321436A (zh) * | 2019-07-04 | 2019-10-11 | 中国人民解放军国防科技大学 | 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法 |
CN110717328A (zh) * | 2019-07-04 | 2020-01-21 | 北京达佳互联信息技术有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN113609293A (zh) * | 2021-08-09 | 2021-11-05 | 唯品会(广州)软件有限公司 | 一种电商评论分类方法及装置 |
CN113971400A (zh) * | 2020-07-24 | 2022-01-25 | 北京字节跳动网络技术有限公司 | 一种文本检测方法、装置、电子设备及存储介质 |
CN114386386A (zh) * | 2022-03-24 | 2022-04-22 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于增量学习的评论生成方法、系统、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996241A (zh) * | 2010-10-22 | 2011-03-30 | 东南大学 | 一种基于贝叶斯算法的内容过滤方法 |
CN103064971A (zh) * | 2013-01-05 | 2013-04-24 | 南京邮电大学 | 一种基于评分和中文情感分析的垃圾评论检测方法 |
CN104933191A (zh) * | 2015-07-09 | 2015-09-23 | 广东欧珀移动通信有限公司 | 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端 |
US9177066B2 (en) * | 2012-06-14 | 2015-11-03 | Yahoo! Inc. | Method and system for displaying comments associated with a query |
CN105068986A (zh) * | 2015-07-15 | 2015-11-18 | 浙江理工大学 | 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 |
-
2017
- 2017-05-18 CN CN201710351745.6A patent/CN107239512B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996241A (zh) * | 2010-10-22 | 2011-03-30 | 东南大学 | 一种基于贝叶斯算法的内容过滤方法 |
US9177066B2 (en) * | 2012-06-14 | 2015-11-03 | Yahoo! Inc. | Method and system for displaying comments associated with a query |
CN103064971A (zh) * | 2013-01-05 | 2013-04-24 | 南京邮电大学 | 一种基于评分和中文情感分析的垃圾评论检测方法 |
CN104933191A (zh) * | 2015-07-09 | 2015-09-23 | 广东欧珀移动通信有限公司 | 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端 |
CN105068986A (zh) * | 2015-07-15 | 2015-11-18 | 浙江理工大学 | 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 |
Non-Patent Citations (3)
Title |
---|
徐小婷等: "基于评论者关系的垃圾评论者识别研究", 《集美大学学报(自然科学版)》 * |
李静: "基于卷积神经网络的虚假评论的识别", 《软件》 * |
黄铃等: "基于AdaBoost的微博垃圾评论识别方法", 《计算机应用》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145290B (zh) * | 2018-07-25 | 2020-07-07 | 东北大学 | 基于字向量与自注意力机制的语义相似度计算方法 |
CN109145290A (zh) * | 2018-07-25 | 2019-01-04 | 东北大学 | 基于字向量与自注意力机制的语义相似度计算方法 |
CN109299340A (zh) * | 2018-12-03 | 2019-02-01 | 江苏警官学院 | 一种基于图数据库的微博用户转发关系导入及可视化方法 |
CN109857838A (zh) * | 2019-02-12 | 2019-06-07 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN110321436A (zh) * | 2019-07-04 | 2019-10-11 | 中国人民解放军国防科技大学 | 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法 |
CN110321436B (zh) * | 2019-07-04 | 2020-06-16 | 中国人民解放军国防科技大学 | 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法 |
CN110717328A (zh) * | 2019-07-04 | 2020-01-21 | 北京达佳互联信息技术有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN110717328B (zh) * | 2019-07-04 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN113971400A (zh) * | 2020-07-24 | 2022-01-25 | 北京字节跳动网络技术有限公司 | 一种文本检测方法、装置、电子设备及存储介质 |
CN113971400B (zh) * | 2020-07-24 | 2023-07-25 | 抖音视界有限公司 | 一种文本检测方法、装置、电子设备及存储介质 |
CN113609293A (zh) * | 2021-08-09 | 2021-11-05 | 唯品会(广州)软件有限公司 | 一种电商评论分类方法及装置 |
CN113609293B (zh) * | 2021-08-09 | 2024-01-30 | 唯品会(广州)软件有限公司 | 一种电商评论分类方法及装置 |
CN114386386A (zh) * | 2022-03-24 | 2022-04-22 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于增量学习的评论生成方法、系统、设备及存储介质 |
CN114386386B (zh) * | 2022-03-24 | 2022-06-14 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于增量学习的评论生成方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107239512B (zh) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN106250412B (zh) | 基于多源实体融合的知识图谱构建方法 | |
Thakkar et al. | Approaches for sentiment analysis on twitter: A state-of-art study | |
Wen et al. | Emotion classification in microblog texts using class sequential rules | |
CN103927398B (zh) | 基于最大频繁项集挖掘的微博炒作群体发现方法 | |
CN104598588B (zh) | 基于双聚类的微博用户标签自动生成算法 | |
Foley et al. | Learning to extract local events from the web | |
CN103631929B (zh) | 一种用于搜索的智能提示的方法、模块和系统 | |
CN109948911A (zh) | 一种计算网络产品信息安全风险的评估方法 | |
CN106484764A (zh) | 基于人群画像技术的用户相似度计算方法 | |
CN110457404A (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
CN104008203A (zh) | 一种融入本体情境的用户兴趣挖掘方法 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
CN106934071A (zh) | 基于异构信息网络和贝叶斯个性化排序的推荐方法及装置 | |
CN104536956A (zh) | 一种基于微博平台的事件可视化方法及系统 | |
Ilina et al. | Social event detection on twitter | |
CN104484431A (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
CN103488637B (zh) | 一种基于动态社区挖掘进行专家检索的方法 | |
CN105893484A (zh) | 一种基于文本特征和行为特征的微博Spammer识别方法 | |
CN112966091A (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN107305545A (zh) | 一种基于文本倾向性分析的网络意见领袖的识别方法 | |
CN110222172A (zh) | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 | |
CN107423348A (zh) | 一种基于关键词的精确检索方法 | |
CN104331523A (zh) | 一种基于概念对象模型的问句检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |