CN113761312A

CN113761312A - 一种基于Elasticsearch和微博评论的网络写手检测方法

Info

Publication number: CN113761312A
Application number: CN202110778543.6A
Authority: CN
Inventors: 赵粉玉; 邱彦林; 朱安安; 俞一奇
Original assignee: Hangzhou Xujian Science And Technology Co ltd
Current assignee: Hangzhou Xujian Science And Technology Co ltd
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-12-07

Abstract

本发明公开了一种基于Elasticsearch和微博评论的网络写手检测方法，包括以下步骤：(1)获取微博信息、微博用户信息和每条微博下的评论信息，将获取到的以上信息按照不同文档类型存放至数据库Elasticsearch中；(2)：通过Elasticsearch的模糊搜索，找出每条微博下评论信息相似度高的账号，形成疑似网络写手账号集合；根据疑似网络写手账号所发的微博内容再次验证疑似网络写手账号是否为网络写手账号。本发明可以实时查找并计算出一条评论内容的相似评论，再使用其发布的微博信息二次判断此账号是否为网络写手账号，利用搜索引擎数据库的高并发特性实现高效率计算查找，从而实现对网络写手的检测，用以提高社交平台的用户体验质量，避免垃圾信息传播造成不良影响。

Description

一种基于Elasticsearch和微博评论的网络写手检测方法

技术领域

本发明属于社交网络分析技术领域，具体为一种基于 Elasticsearch和微博评论的网络写手检测方法。

背景技术

随着互联网的快速发展，许多社交平台也不断涌现，微博就是其中一种社交媒体。微博具有实时性、快捷性高、传播性强，信息共享迅速等特点，为用户信息获取、相关信息传播、各种营销提供了很好的平台。但是此平台有泛娱乐化倾向，容易产生谣言、容易使用户丧失独立思考、理性批判的能力，而网络写手的出现，不仅使这些负面特点不断放大，而且容易扰乱良好的社交秩序。

一些用户或企业为了提高自身的影响力、曝光度等，在发布一条微博后，买网络写手对此条微博进行转发评论，达到炒作或者宣传的效果，甚至有用户会发布一些虚假消息、恶俗消息通过网络写手转发评论以提高曝光度，因此对网络写手的识别已成为目前必须要面对和解决的问题。

发明内容

针对现有方案的不足，本发明公开了一种基于Elasticsearch和微博评论的网络写手检测方法，实现对网络写手的高效检测，以提高微博社交平台的用户体验质量，避免过多垃圾信息传播等造成的不良影响。

本发明技术方案是：

一种基于Elasticsearch和微博评论的网络写手检测方法，其包括以下步骤：

(1)数据采集：获取微博信息、微博用户信息和每条微博下的评论信息，将获取到的以上信息按照不同文档类型存放至数据库 Elasticsearch中；Elasticsearch提供一个分布式的实时全文搜索引擎；

(2)数据分析和网络写手评定：通过Elasticsearch的模糊搜索，找出每条微博下评论信息相似度高的账号，形成疑似网络写手账号集合；根据疑似网络写手账号所发的微博内容再次验证疑似网络写手账号是否为网络写手账号。

优选地，步骤(1)中，通过微博官方API或网络爬虫获取微博信息、微博用户信息和每条微博下的评论信息。

优选地，步骤(1)中，所述的微博信息包括微博内容、微博id、发文时间和发博用户id；所述的微博评论信息包括微博id、评论内容、评论时间、回复数、点赞数和评论数；微博用户信息包括用户 id、微博数、粉丝数、注册地域、vip类型、vip等级和是否进行身份认证。

优选地，步骤(1)中，Elasticsearch引擎在处理全文搜索包括以下步骤：

(1.1)分析需要查询的字符串，对字符串进行分词；

(1.2)对分词的结果构建查询，查询结果按score评分排序得到数据集，评分策略使用TF/IDF；

(1.3)返回前k条与之相似的语句。

优选地，步骤(2)中，获取疑似网络写手账号集合具体包括以下步骤：

(2.1)计算同一微博下评论之间的相似性，取出评论中的一条数据，使用Elasticsearch对其进行模糊搜索，并得出与之相关度最高的前n条；

(2.2)将(2.1)中获取的评论逐一转化成向量，通过cos函数计算出其相似度，设置相似度阈值，通过大于相似度阈值的占比判断是否为疑似网络写手账号，并将疑似网络写手账号列到疑似网络写手账号的集合中。

优选地，计算评论内容间相似度的具体步骤包括:

(2.21)文本分词，去除停用词后得到词表；

(2.22)通过词向量空间模型将步骤(2.21)得到的词表转化为词向量列表，将词向量列表中向量相加求平均；词向量空间模型是将维基百科语料通过中文分词工具分词，去除停用词后，使用gensim 工具包中的word2vec工具训练得到的模型，词向量空间模型将词转化成向量；

(2.23)使用向量间余弦相似度方式计算搜索文本与 Elasticsearch引擎在处理全文搜索中返回的各句之间相似度；

向量间的余弦值的计算公式为：

式中：A和B为两个评论通过步骤(2.22)转化成的向量。

优选地，步骤(2)中，通过网络写手的行为特征再次验证疑似网络写手账号是否为网络写手账号，微博网络写手的行为特征包括： a.企业通过支付网络写手公司费用，雇佣网络写手进行造势或攻击对手；b.企业通过有奖转发等诱惑，使用抽奖机器人进行转发造势；c. 企业通过有奖转发等诱惑，吸引真实用户注册小号转发造势。

优选地，判断是否为网络写手账号还包括同一批疑似网络写手账号是否多次在相同、相近时间执行相同的任务，具体方式为：获取到疑似网络写手账号的前10条微博，在Elasticsearch中轮训搜索这些微博在相近时间内发布的前m条微博，并通过步骤(2.2)中的方法计算其之间的相似度，前10条微博中的某条超过相似阈值的概率大，标记此条微博为非原创微博，如果此用户的非原创微博占比高，则标记此账号为网络写手账号。

本发明的有益效果是：

本发明可以实时查找并计算出一条评论内容的相似评论，再使用其发布的微博信息二次判断此账号是否为网络写手账号，利用搜索引擎数据库的高并发特性实现高效率计算查找，从而实现对网络写手的检测，用以提高社交平台的用户体验质量，避免垃圾信息传播造成不良影响。

附图说明

图1为本发明方法流程图；

具体实施方式

为进一步了解本发明的内容，结合实施例对本发明作详细描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例公开了一种基于Elasticsearch和微博评论的网络写手检测方法，包括以下步骤：

(1)数据采集：通过微博官方API或网络爬虫及时获取获取微博信息、微博用户信息和每条微博下的评论信息

步骤(1)中，所述的微博信息包括微博内容、微博id、发文时间、发博用户id，微博评论信息包括微博id、评论内容、评论时间、回复数、点赞数、评论数等。微博用户信息包括用户id、微博数、粉丝数、注册地域、vip类型、vip等级、是否进行身份认证等。

将获取到的以上信息按照不同文档类型存放至数据库 Elasticsearch中，Elasticsearch提供了一个分布式的全文搜索引擎，能够达到实时搜索，可靠，稳定，快速，并且安装使用方便。

Elasticsearch引擎在处理全文搜索时，首先分析需要查询的字符串，对分词的结果构建查询，搜索结果展现的是一个按score评分排好序的数据集，评分策略一般使用TF/IDF，评分越高的字符串与之越相似，Elasticsearch中可根据需求安装配置分词插件，常见的中文分词插件包括：ik_smart、ik_max_word、jieba等，引擎中的停用词、词典可根据需求进行配置添加，Elasticsearch可用直接搜索的方式或 CURL命令方式在指定类型中模糊搜索文本，并返回前k条与之比较相似的语句，k值可以进行自行调整。

步骤(2)中，获取疑似网络写手账号集合具体包括以下步骤：

(2.1)计算同一微博下评论之间的相似性，取出评论中的一条数据，使用Elasticsearch对其进行模糊搜索，并得出与之相关度最高的前n条；假设n为1000，如果评论内容大于等于1000条，则只取出前1000的评论内容和id，如果评论内容小于1000条，则全部取出。

(2.2)将(2.1)中获取的评论逐一转化成向量，通过cos函数计算出其相似度，设置相似度阈值，通过大于相似度阈值的占比判断是否为疑似网络写手账号，并将疑似网络写手账号列到疑似网络写手账号的集合中。即如果n为1000，用于搜索的评论与n-1条分别计算相似度，相似度大于0.8的有s条，则比率为s/n-1，此比率可设置为 80％，如果将比率设置较大，则判定的尺度比较严格，如果设置较小，这判定的尺度比较宽松，可以根据实际情况进行确定。

1、计算评论内容间相似度的具体步骤包括:

(2.21)文本分词，去除停用词后得到词表；如“回老家这么久，第一次震感强烈，希望一切安好”，分词以及去除停用词后得到词表“回 /老家/这么/久/第一次/震感/强烈/希望/一切安好”。

(2.22)通过词向量空间模型将步骤(2.21)得到的词表转化为词向量列表，将词向量列表中向量相加求平均；词向量空间模型是将维基百科语料通过中文分词工具分词，去除停用词后，使用gensim工具包中的word2vec工具训练得到的模型，词向量空间模型将词转化成向量；

(2.23)使用向量间余弦相似度方式计算搜索文本与Elasticsearch引擎在处理全文搜索中返回的各句之间相似度；余弦相似度是使用向量空间中的两个向量夹角余弦值作为衡量其之间的差异。余弦值越接近 1，就表明夹角越接近0度，即两个向量越相似。

向量间的余弦值的计算公式为：

式中：A和B为两个评论通过步骤(2.22)转化成的向量。

步骤(2)再次验证疑似网络写手账号是否为网络写手账号具体是：判断微博网络写手的标准还应该注重其网络写手的行为，即看其是否虚假造势和攻击对手。根据网络写手的行为特征，可以将微博网络写手分为如下几种：1.企业通过支付网络写手公司费用，雇佣网络写手进行造势或攻击对手。2.企业通过有奖转发等诱惑，使用抽奖机器人进行转发造势；3.企业通过有奖转发等诱惑，吸引真实用户注册小号来转发造势。通过网络写手的行为特征发现凭借是否是vip账号、是否已经过实名认证等难以准确判断此号是否是微博网络写手账号，而且目前许多微博网络写手账号的内容维护甚至已经比真实用户更加优秀，从关注、粉丝数、是否有头像等较难判断网络写手。

从以上网络写手的行为特征总结出判断网络写手的重要标准是执行网络写手任务的行为。同一批网络写手账号会在相同、相近时间执行同一个任务，通过多次执行相同任务的行为对比，可判定此账号为网络写手账号；如同一批账号在同一时间转发过某大号的广告，过段时间又同时转发某企业的微博。根据此标准做相关计算用来获取账号为网络写手的概率。具体方法为获取到疑似网络写手账号的前10 条微博，在Elasticsearch中轮训搜索这些微博在相近时间内发布的前 m条微博，并使用步骤(2.2)中方法计算其之间的相似度，如果前 10条微博中的某条超过相似阈值的概率过大，则标记此条微博为非原创微博，如果此用户的非原创微博占比较高，则标记此账号为网络写手账号。该阈值可以通过样本数据进行统计确定，也可以根据实际系统或用户需求来改变阈值。

即某疑似网络写手用户发布一条微博a，在Elasticsearch中搜索到相近时间内的1w条微博，通过计算微博a与这1w条微博的相似度，相似度大于0.8的有80％，此时如果阈值设置的是80％，则此条微博被标记为非原创微博，同理，判断此用户的其它9条微博是否为原创微博，如果共有6条为非原创微博，则非原创微博占比为60％，此时如果阈值设置的是60％，则此微博账号可以认定为网络写手账号。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方案，实际的结构并不局限于此。所以本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种基于Elasticsearch和微博评论的网络写手检测方法，其特征在于，其包括以下步骤：

(1)数据采集：获取微博信息、微博用户信息和每条微博下的评论信息，将获取到的以上信息按照不同文档类型存放至数据库Elasticsearch中；Elasticsearch提供一个分布式的实时全文搜索引擎；

2.根据权利要求1所述的基于Elasticsearch和微博评论的网络写手检测方法，其特征在于，步骤(1)中，通过微博官方API或网络爬虫获取微博信息、微博用户信息和每条微博下的评论信息。

3.根据权利要求1所述的基于Elasticsearch和微博评论的网络写手检测方法，其特征在于，步骤(1)中，所述的微博信息包括微博内容、微博id、发文时间和发博用户id；所述的微博评论信息包括微博id、评论内容、评论时间、回复数、点赞数和评论数；微博用户信息包括用户id、微博数、粉丝数、注册地域、vip类型、vip等级和是否进行身份认证。

4.根据权利要求1所述的基于Elasticsearch和微博评论的网络写手检测方法，其特征在于，步骤(1)中，Elasticsearch引擎在处理全文搜索包括以下步骤：

(1.1)分析需要查询的字符串，对字符串进行分词；

(1.3)返回前k条与之相似的语句。

5.根据权利要求1所述的基于Elasticsearch和微博评论的网络写手检测方法，其特征在于，步骤(2)中，获取疑似网络写手账号集合具体包括以下步骤：

6.根据权利要求5所述的基于Elasticsearch和微博评论的网络写手检测方法，其特征在于，计算评论内容间相似度的具体步骤包括:

(2.21)文本分词，去除停用词后得到词表；

(2.23)使用向量间余弦相似度方式计算搜索文本与Elasticsearch引擎在处理全文搜索中返回的各句之间相似度；

向量间的余弦值的计算公式为：

式中：A和B为两个评论通过步骤(2.22)转化成的向量。

7.根据权利要求6所述的基于Elasticsearch和微博评论的网络写手检测方法，其特征在于，步骤(2)中，通过网络写手的行为特征再次验证疑似网络写手账号是否为网络写手账号，微博网络写手的行为特征包括：a.企业通过支付网络写手公司费用，雇佣网络写手进行造势或攻击对手；b.企业通过有奖转发等诱惑，使用抽奖机器人进行转发造势；c.企业通过有奖转发等诱惑，吸引真实用户注册小号转发造势。

8.根据权利要求7所述的基于Elasticsearch和微博评论的网络写手检测方法，其特征在于，判断是否为网络写手账号还包括同一批疑似网络写手账号是否多次在相同、相近时间执行相同的任务，具体方式为：获取到疑似网络写手账号的前10条微博，在Elasticsearch中轮训搜索这些微博在相近时间内发布的前m条微博，并通过步骤(2.2)中的方法计算其之间的相似度，前10条微博中的某条超过相似阈值的概率大，标记此条微博为非原创微博，如果此用户的非原创微博占比高，则标记此账号为网络写手账号。