CN110032859A

CN110032859A - 异常帐户鉴别方法与装置及介质

Info

Publication number: CN110032859A
Application number: CN201811589673.XA
Authority: CN
Inventors: 龙翀; 王雅芳
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-07-19

Abstract

本发明涉及一种异常帐户的鉴别方法和装置，该方法包括：异常帐户的鉴别方法，包括：获取疑似帐户的发布信息与关联信息，其中所述关联信息是指与所述发布信息和其它帐户中的至少一个有关的信息，其中所述其它帐户与所述疑似帐户相关联；利用所述发布信息与关联信息确定所述疑似帐户的信息发布特征与帐户关联特征；将所述信息发布特征与帐户关联特征提供给一经过训练的异常账户识别模型以鉴别所述疑似帐户是否是异常帐户。本发明通过基于多种特征的混合相似度的深度学习，可以实现对异常帐户的鉴别。

Description

异常帐户鉴别方法与装置及介质

技术领域

本发明涉及人工智能，尤其涉及利用人工智能对自媒体平台上异常帐户的鉴别。

技术领域

随着自媒体时代的到来，网络舆情受到极大的关注，特别是微博、知乎、头条等用户的评论。正因如此，被某些利益团体雇佣的水军群体盯上了这个舆论媒体平台。他们同样在这些媒体平台上发布大量虚假信息混淆视听，其观点和意见往往不是普通用户(也称为‘正常帐户’)的真实反映。因此，对这些异常账户(在微博、头条等媒体领域也称为‘水军帐户’)的识别变得非常重要。例如对于微博水军来说，通过识别出来的水军账户和其发布的微博还可以进一步分析出谣言的传播轨迹，以便能更好的维权；同时去除水军微博也可以过滤出用户的真实评论，从而得到用户的真实想法和反馈。

发明内容

本发明提出一种鉴别异常帐户的系统和方法，基于多种特征的混合相似度的深度学习，利用疑似帐户的多维特征对所述帐户进行学习，从而鉴别出帐户是否正常，以适应当今诸如微博水军识别工作的发展。

根据本发明的一个方面，提供一种异常帐户的鉴别方法，包括：获取疑似帐户的发布信息与关联信息，其中所述关联信息是指与所述发布信息和其它帐户中的至少一个有关的信息，其中所述其它帐户与所述疑似帐户相关联；利用所述发布信息与关联信息确定所述疑似帐户的信息发布特征与帐户关联特征；将所述信息发布特征与帐户关联特征提供给一经过训练的异常账户识别模型以鉴别所述疑似帐户是否是异常帐户。

根据本发明的另一个方面，提供一种用于鉴别异常帐户的装置，包括：信息获取模块，配置为获取疑似帐户的发布信息与关联信息，其中所述关联信息是指与所述发布信息和其它帐户中的至少一个有关的信息，其中所述其它帐户与所述疑似帐户相关联；特征确定模块，配置为利用所述发布信息与关联信息确定所述疑似帐户的信息发布特征与帐户关联特征；鉴别模块，将所述信息发布特征与帐户关联特征提供给一经过训练的异常账户识别模型以鉴别所述疑似帐户是否是异常帐户。

根据本发明的再一个方面，提供一种水军鉴别装置，包括具有指令的存储器及处理器，其中所述处理器通过执行所述指令而实现根据本发明的方法。

根据本发明的再一个方面，提供一种具有指令的机器可读介质，所述指令在被一个或多个确定系统执行时，使所述确定系统执行根据本发明的方法。

附图说明

图1示出根据本发明的一个实施例的帐户鉴别装置的示意图；

图2示出根据本发明的一个实施例的帐户鉴别装置的子系统的示意图；

图3示出根据本发明一个示例的深度学习神经网络的示意图；

图4示出根据本发明一个实施例的的的帐户鉴别方法的流程图；

图5示出根据本发明一个实施例的的帐户鉴别方法的流程图；

图6是根据本发明一个实施例的异常帐户鉴别装置的示意图。

具体实施方式

下面结合附图对本发明实施例提供的方法和装置进行详细说明。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，其示出根据本发明的异常帐户鉴别装置。这里的‘异常帐户’泛指任何异于正常帐户或其行为有违于正常帐户的帐户，而并不限于某一具体的媒体平台，例如异常帐户可以是微博、头条或知乎自媒体上的水军。在本说明书以下描述中，将待鉴别的帐户也称为疑似帐户，而对疑似帐户的鉴别结果则分为异常帐户与正常帐户。如图所示，根据本发明的异常帐户鉴别装置包括：信息获取模块100，配置为获取疑似帐户的发布信息与关联信息，其中所述关联信息是指与所述发布信息和其它帐户中的至少一个有关的信息，其中所述其它帐户与所述疑似帐户相关联；特征确定模块200，配置为利用所述发布信息与关联信息确定所述疑似帐户的信息发布特征与帐户关联特征；鉴别模块300，将所述信息发布特征与帐户关联特征提供给一经过训练的异常账户识别模型以鉴别所述疑似帐户是否是异常帐户。这里需要说明的是，异常账户识别模型是事先利用正常帐户与异常帐户数据对一神经网络模型进行训练而得到的模型，并在本发明中用于鉴别异常帐户。这里的神经网络模型可以采用现有技术已知的神经网络模型架构实现，在一个优选实施例中，例如采用深度学习神经网络DNN实现。关于异常账户识别模型的训练在本说明书的其它部分予以简要说明。

在本申请的下面描述中，以鉴别微博水军为例予以说明本发明的优选实施例，但不难想到，本发明可以适用于其它以信息发布为平台特征的其它自媒体平台，例如头条、知乎等。此外，在以下说明中，将对当前疑似帐户W关注的帐户统一为称为“粉丝”或“粉丝帐户”(即‘被关注帐户’)，而将当前疑似帐户W所关注的帐户称为“关注帐户”。但本发明中的‘粉丝帐户’、“关注帐户”这些术语不限于微博，例如对头条、知乎等媒体帐户进行关注的帐户也称为“粉丝”或“粉丝帐户”。

仍以图1为例，用于鉴别水军帐户的鉴别装置包括信息获取模块100、特征确定模块200以及鉴别模块300。信息获取模块100针对当前需要鉴别的疑似帐户W，获取该疑似帐户W的微博信息，包括帐户W所发布的至少一个微博，包括微博的文本、图片、链接等信息；信息获取模块100还进一步获取帐户W的关联信息。在一个示例中，该关联信息既可以是关注疑似帐户W的所有粉丝的信息，也可以是帐户W所关注的帐户的信息。在本发明的另一实施例中，该关联信息不限于来自微博平台，还可以将疑似帐户W所发布的微博输入通用检索引擎以在因特网上进行检索，并选取检索引擎排名靠前的结果或其中的一个片段作为该疑似帐户W的一个关联信息。从因特网上进行检索的目的在于看疑似帐户W发布的微博是否从外界摘抄过来，而摘抄也是水军的一个特征。信息获取模块100随后可以将有关疑似帐户W的发布信息和/关联信息存储到临时存储器101中。

特征确定模块200利用信息获取模块100获取的发布信息与关联信息确定该疑似帐户W的信息发布特征与帐户关联特征。例如该信息发布特征可以反映微博自身合理性的相符度，例如当前微博的配图与该微博的主题的一致程度、微博是否符合语言规范等。该帐户关联特征可以是所述疑似帐户发布的微博与所述多个粉丝帐户所发布的微博之间的内容重复度，通常水军帐户为达到传播不良信息或攻击它人的需要，通常会与受其控制粉丝之间协同操作，因此它们之间发布的微博具有高度的重复性，无论是在时间上还是所要实现的任务上。此外，帐户关联特征还可以是所述疑似帐户W的发布信息与其它媒体上发布的信息在内容上的相似程度，其中其它媒体上的信息可以利用通用搜索引擎从网络上检索得到。图2示出了特征确定模块200的一个示例性结构配置，用于确定疑似帐户W的信息发布特征与帐户关联特征。

如图2所示，特征确定模块200包括相符度确定模块201，重复度确定模块202以及相似度确定模块203。相符度确定模块201用于确定所述疑似帐户W发布的微博w的自身合理性的度量值即x_相符，在本例中，在确定用户发布的微博w的自身合理性时可以考虑微博主题、配图及行文是否符合语言规范。为此，如图2所示，相符度确定模块201包括确定模块2011，用于确定所述疑似帐户的当前微博的配图与该微博的主题之间匹配程度的度量值x₁，在一个示例中该确定模块2011通过调用一个经过训练的配图-主题模型来确定度量值x₁。具体地，确定模块2011从存储器101中读取帐户W的至少一个微博w的配图以及该微博的标题，在经过特征向量转换等操作后生成配图-标题数据[x_F，x_S]，并将配图-标题数据[x_F，x_S]提供给经过训练的配图-主题模型，配图-主题模型通过对配图-标题数据[x_F，x_S]进行处理从而生成指示微博的配图与该微博的主题之间的匹配程度的度量值x₁，该度量值x₁可以作为相符度x_相符。

在本例中，配图-主题模型是通过利用大量的配图-标题样训练样本[x⁰ _F，x⁰ _S]对一神经网络模型NN1事先进行训练得到的，以供在确定微博配图与主题的匹配程度时使用。在产生配图-标题样训练样本[x⁰ _F，x⁰ _S]时，可以利用普通微博数据作为训练集，正常微博内容及其配图为正例，其它随机方法生成的微博数据或经过确认的水军的微博数据为负例。

相符度确定模块201还包括确定模块2012，用于确定当前疑似帐户发布的微博w符合语言规范程度的度量值x₂，在一个示例中，该确定模块2012通过调用事先经过训练的语言规范模型确定微博w的语言规范符合程度值x₂。确定模块2012从存储器101中读取帐户W的至少一个微博w，并通过对微博进行分词、特征向量转换操作后生成词特征数据[x_w]，并将词特征数据[x_w]提供给事先经过训练的语言规范模型。语言规范模型通过对词特征数据[x_w]进行处理从而生成指示微博符合语言规范程度的度量值x₂，该度量值x₂也可以作为相符度x_相符。

语言规范模型是通过利用来自大量的微博的词训练样本[x⁰ _w]对一神经网络NN2进行事先训练得到的，这里[x⁰ _w]代表样本序列。在产生词训练样本[x⁰ _w]时，同样可以利用普通正常微博的微博作为正例以及已经确认为水军微博或不通顺的微博作为负例进行训练。通常认为正常微博由于用户是以表达真实感受等为目的，因此通常是符合语言规范或合理的，而水军微博等异常微博则由于通常攻击词汇、虚假获奖等词汇等，则不符合正常的评述或语言规范，而随机产生的微博则典型地不符合自然的语言规范。

相符度确定模块201还包括确定模块2013，用于确定当前疑似帐户W发布的微博的文字与主题分布的合理程度的度量值x₃。在一个示例中，该确定模块2013通过调用一经过训练的主题分布模型来确定度量值x₃。确定模块2013从存储器101中读取帐户W的至少一个微博w的正文与主题，并通过该微博w的正文与主题进行分词、特征向量转换操作后生成正文-主题数据[x_t，x_s]，并将正文-主题数据[x_t，x_s]提供给经过训练的主题分布模型。主题分布模型通过对正文-主题数据[x_t，x_s]进行处理从而生成指示微博正文与主题分布的合理程度的度量值x₃，并将该度量值提供给确定模块2013，该度量值x₃可以作为相符度x_相符。

主题分布模型是通过利用来自正常微博帐户与水军微博帐户的大量的微博(或随机产生的微博数据)的训练样本数据[x⁰ _t，x⁰ _s]对一神经网络NN3进行事先训练而得到的。因为通常认为正常微博的正文与主题是对应的，而水军的微博或随机产生的微博的正文与主题是不对应的。

相符度确定模块201可以选择使用确定模块2011、2012、2013确定出的疑似帐户W的当前微博的上述三个度量值x₁、x₂、x₃中的一个作为相符度x_相符的测量值用于后续处理，也可以将度量值x₁、x₂、x₃作为相符度x_相符的一个集合共同用于后续处理，以下说明中，统一以相符度x_相符表示。

重复度确定模块202用于确定疑似帐户W与其粉丝圈的粉丝圈重复度x_重复。在本发明的一个示例中，粉丝重复度x_重复可通过确定所述疑似帐户发布的微博与所述多个粉丝帐户所发布的微博之间的内容重复度来实现。具体地，如前所述，信息获取模块100将该当前帐户W的每一粉丝的微博也获取到临时存储器101中，例如基于微博w，获取每一粉丝的微博以查找与微博w相关的微博w’。随后重复度确定模块202可以从临时存储器101中提取出当前微博w以及每一位粉丝的微博w’以确定二者的重复度x_重复。这里可以采用现有技术已知或开发中的任何算法来确定二者的重复度，包括微博w与微博w’的文字对比或微博配图对比以及链接对比等。例如，对于文字对比，可以通过确定微博w与微博w’中共同词汇同时出现的词汇的比率，例如可用下式表示：

其中C(w)，C(w)分别代表微博w与粉丝微博w’的字数，而C(w)∩C(w′)表示微博w与粉丝微博w’中共同词汇的数量。由此，重复度确定模块202可确定出疑似帐户W与所有粉丝的多个重复度x_重复，并输出具有最大值的重复度x_重复代表该W与粉丝圈的内容重复度。

在本发明的另一实施例中，还可以采用微博w与粉丝的微博w’的编辑距离来确定二者的内容重复度x_重复，即

其中E(w，w′)表示w和w′的编辑距离，L(w)和L(w′)分别表示微博w和w′的长度。编辑距离是现有技术中常用的确定文本差异程度的量测方式，针对二个字符串(例如英文字)，编辑距离是看至少需要多少次的处理才能将一个字符串变成另一个字符串。

在上面实施例中，是通过确定帐户W与各粉丝的微博重复度来表征其粉丝圈特征。在另一个实施例中，确定粉丝圈重复度x_重复也可以采取Jaccard相似系数的方式实现。例如设A表示疑似帐户W的粉丝集合，F₁表示粉丝集合A中的第一个粉丝，而B表示粉丝F₁的粉丝集合，那么疑似帐户W与粉丝F₁的粉丝圈重复度可以写为

其中A∩B代表W与粉丝F₁的公共粉丝数目，A∪B代表W与粉丝F1粉丝的总数。以此方式，重复度确定模块202可确定出当前帐户W与其它粉丝F₂～F_M的粉丝圈重复度x_重复2-x_重复M。进而，重复度确定模块202选择帐户W与所有粉丝F₁～F_M的粉丝圈重复度x_重复1-x_重复M中的最大值代表该帐户W的整个粉丝圈重复度x_重复。

相似度确定模块203用于确定所述疑似帐户W发布的微博w与微博平台之外的其它媒体平台上发布的信息在内容上的重复度。如前所述，信息获取模块100基于该当前帐户W的微博w，通过公共检索引擎(例如百度，谷歌等)从因特网上进行检索，并将检索引擎返回的排名最靠前的对应检索结果b缓存到存储器101，以便基于检索结果b鉴别当前的微博w是转自其它平台的可能性。相似度确定模块203从存储器101中提取出当前微博w以及检索结果b以确定二者的相似度x_相似。这里可以采用现有技术已知或开发中的任何算法来确定二者的相似度x_相似，例如相似度可以用如下方法确定：

其中E(w，b)表示w和b的编辑距离，L(w)和L(b)分别表示微博w和检索结果b的长度。

如图1所示，特征确定模块200将确定的信息发布特征x_相符以及帐户关联特征x_重复、x_相似输出给鉴别模块300。如图2所示，鉴别模块300利用事先训练好的异常帐户识别模型处理信息发布特征x_相符以及帐户关联特征x_重复、x_相似，从而产生对当前疑似帐户W是否是水军的鉴别结果。

如前所述，异常账户识别模型是事先利用正常帐户与异常帐户数据对一神经网络模型进行训练而得到的模型，用于鉴别异常帐户，该神经网络模型可以采用现有技术已知的任何模型实现。例如图3示出了所用的一个深度学习神经网络DNN的示意性示图，这里仅仅是示意性的表示DNN模型，但显然该模型的隐藏层数与每层的神经元数不限于图中所示。图1的下半部分示出了训练异常账户识别模型的示意图。

如图1所示，异常账户识别模型302是利用来自确认为水军的微博以及正常微博(图中未示出)的训练样本，通过对一神经网络(例如深度学习神经网络)进行训练产生的，其中该训练样本同样包含了利用该水军微博和正常微博而产生的信息发布特征与帐户关联特征x⁰ _相符、x⁰ _重复、x⁰ _相似，即来自确认为正常微博与水军微博或帐户发布信息与关联信息同样经过特征确定模块200’确定后得到特征x⁰ _相符、x⁰ _重复、x⁰ _相似，这里确定模块200’执行的算法与确定模块200完全相同。然后，模型确定单元300’利用信息发布特征与帐户关联特征x⁰ _相符、x⁰ _重复、x⁰ _相似训练例如深度学习神经网络DNN，以形成能标识出正常微博与水军帐户的异常帐户识别模型302，随后该异常帐户识别模型302可供异常帐户鉴别装置中的鉴别模块301调用，从而用于实现对疑似帐户的鉴别。

在本发明的上述实施例中是通过确定疑似帐户W的特征x_相符、x_重复、x_相似来推断疑似帐户W是否是水军的，但本发明并不限于此，本发明的异常帐户识别模型302可以只采用帐户关联特征x_重复、x_相似中的任一个并结合信息发布特征x_相符进行鉴别。此外，不难理解，在相符度确定模块201仅选择三个度量值x₁、x₂、x₃中的一个例如x₂作为相符度特征值并结合帐户关联特征(例如x_重复与x_相似)执行帐户鉴别时，则鉴别模块300将x₂、x_重复与x_相似部作为输入提供给异常帐户识别模型302来对当前疑似帐户进行鉴别；而在相符度确定模块201选择度量值x₁、x₂、x₃的集合作为相符度特征值时，鉴别模块300将x₁、x₂、x₃、x_重复与x_相似全部作为输入提供给异常帐户识别模型302来对当前疑似帐户进行鉴别。不难理解，针对每一种具体的方案，要分别相应地事先训练对应的异常帐户识别模型302。例如在采用微博特征x₁、x₂、x₃、x_重复、x_相似来鉴别水军的情况下，特征确定模块200’同样需要利用确定正常微博与水军微博的样本特征x⁰ ₁、x⁰ ₂、x⁰ ₃、x⁰ _重复、x⁰ _相似，并以此来训练一个新的神经网络模型。

在本发明的另一优选实施例中，在对疑似帐户W进行鉴别时还可以进一步考虑该疑似帐户与其关注帐户的关联度。为此，如图2所示，特征确定模块200进一步包括关联度确定模块204，用于确定所述疑似帐户W与其所关注用户之间的关联度，例如通过确定所述疑似帐户与其关注用户的人群列表的相似度来实现。如前所述，信息获取模块100可以将疑似帐户W的所有关注用户P1～Pm的人群列表信息获取到存储器101中，关联度确定模块204可以采用以下公式确定疑似帐户W与所关注的每个帐户P之间的关联度x_关联：

其中W∩P代表W与用户P的人群列表中的公共用户数目，W∪P代表W与用户P的人群列表中的用户总数。然后，在一个实施例中，特征确定模块200将确定出的信息发布特征x_相符与帐户关联特征x_关联输入到事先经过训练的异常帐户识别模型302，以实现对当前疑似帐户W的鉴别。在另一个实施列中，特征确定模块200将确定出的信息发布特征x_相符与帐户关联特征x_重复、x_相似、x_关联全部输入到事先经过训练的异常帐户识别模型302，以实现对当前疑似帐户W的鉴别。同样，不难理解，对于不同实施例下使用的训练好的异常帐户识别模型302，在训练过程中也是采用对应的信息发布特征与帐户关联特征进行的，例如在利用信息发布特征x_相符与帐户关联特征x_重复、x_相似、x_关联全体来鉴别疑似帐户时，训练异常帐户识别模型302所使用的训练样本包括经过确认的正常微博与微博水军帐户所发布的微博的特征x⁰ _相符、x⁰ _重复、x⁰ _相似、x⁰ _关联。

在本发明中，需要鉴别的疑似帐户W可以是由用户指定的帐户，也可以来自一个候选帐户列表，其中存储了需要鉴别的多个疑似帐户信息。如图1所示，在一个实施例中，候选帐户列表400是由筛选模块500从微博平台上筛选出来的。筛选模块500可以采用一定筛选标选从微博平台上粗粒度地预先筛选出初步的疑似帐户，该筛选标准可以由用户指定，例如可以某些敏感话题的评述、相关业务的关键词例如‘支付宝’、‘支付’等。基于这些标准，筛选模块500通过检索微博平台可以标识出多个疑似帐户，并添加到候选帐户列表400中。由此，鉴别装置可以针对帐户列表400中的每一个疑似用户，通过信息获取模块100、特征确定模块200以及鉴别模块300来鉴别其是否是水军帐户。在本发明的另一优选实施例中，在筛选模块500将检索出的疑似帐户加入到列表400之前，还可以对检索出的疑似帐户做进一步的筛选处理，例如判断当前的微博是否是原创，如果是原创，则认为该微博属于正常微博的可能性很大，因此无需做进一步鉴别；而如果不是原创，则将该疑似帐户加入到列表400中，以便做进一步的鉴别。

在本发明的另一优选实施例中，如果鉴别模块300根据异常帐户识别模型302的输出确认当前疑似帐户W为水军帐户，则可以进一步指示筛选模块500将鉴别出的水军帐户W的粉丝帐户F₁～F_M加入到所述候选帐户列表400中以便找出水军帐户W的粉丝圈中的水军，从而实现自动找出所有相关的水军帐户。

图4公开了本发明一个实施例的鉴别异常帐户方法的流程图。该方法包括：在步骤401，获取疑似帐户的发布信息与关联信息，其中所述关联信息是指与所述发布信息和其它帐户中的至少一个有关的信息，其中所述其它帐户与所述疑似帐户相关联；在步骤402，利用所述发布信息与关联信息确定所述疑似帐户的信息发布特征与帐户关联特征；然后在步骤403，将所述信息发布特征与帐户关联特征提供给一经过训练的异常账户识别模型以鉴别所述疑似帐户是否是异常帐户。

下面参照图5描述根据本发明一个实施例的由鉴别装置执行的鉴别异常帐户方法的流程图。在该方法说明中，仍以鉴别微博水军为例。

在步骤501，创建一个候选帐户列表，其中存储了需要鉴别的多个疑似帐户信息。如前所述，候选帐户列表是通过采用一定筛选标选从微博平台上粗粒度地预先筛选出初步的疑似帐户，该筛选标准可以是用户指定、敏感话题的评述、相关业务的关键词例如‘支付宝’、‘支付’等。基于这些标准，就可以通过检索微博平台可以标识出多个疑似帐户，并添加到候选帐户列表中。可选地，在步骤501中，还可以利用额外的常识标准，对检索出的疑似帐户做进一步的筛选处理。随后进程前进到步骤502。

在步骤502，选取候选帐户列表中的第一个帐户作为疑似帐户W₁进行鉴别。具体地，鉴别装置获取疑似帐户W₁的微博以获得多重信息，包括微博的文本、图片、链接等信息，以及帐户W₁的关联信息，包括粉丝圈信息以及帐户W所关注的帐户的信息。可选地，鉴别装置还将疑似帐户W₁所发布的微博输入通用检索引擎以在因特网上进行检索，并选取检索引擎排名靠前的检索结果b或其中的一个片段作为该疑似帐户W₁的进一步的关联信息。

在步骤503，鉴别装置利用所获取的发布信息与关联信息确定该待鉴别帐户(即疑似帐户)W₁的信息发布特征与帐户关联特征。作为一个实施例，如图5所示，在步骤5031，确定所述待鉴别帐户W₁发布的微博w的相符度x_相符，其中相符度表征所发布的微博的自身合理性。在步骤5032，确定帐户W₁与所述多个粉丝帐户F₁～F_M之间的重复度，以及输出所述多个重复度中具有最大值作为粉丝圈重复度x_重复。在步骤5033，鉴别装置基于微博w₁从网络上检索匹配的内容，并进一步确定微博w₁与作为所述检索结果的匹配内容的相似度x_相似。这里需要指出的是，上述三个步骤5031～5032既可以顺序执行也可以并行执行。在确定微博w的上述三个特征值x_相符、x_重复、x_相似后，进程前进到步骤504。

在步骤504，鉴别装置特征值x_相符、x_重复、x_相似输入到事先经过训练的异常帐户识别模型302，通过对所述信息发布特征与帐户关联特征进行处理以识别该待鉴别帐户W₁是否是水军。如果该待鉴别帐户W₁是一个水军帐户，则进程前到步骤505。在步骤505，鉴别装置将水军帐户W₁的粉丝帐户F₁～F_M全部加入到在步骤501生成的候选帐户列表中，以便对这些粉丝帐户F₁～F_M做进一步的鉴别，从而最大程度地鉴别出水军。然后进程返回到步骤502，继续鉴别帐户列表中的下一个帐户W₂。

如果该待鉴别帐户W₁是一个正常帐户，则进程前到步骤506，判断候选帐户列表中是否还有待鉴别的帐户，如果还存在待鉴别的帐户，则提取下一个待鉴别帐户例如W₂，然后重复执行步骤502～504以判断待鉴别帐户W₂是否是水军帐户。重复执行步骤502-506直至鉴别完候选帐户列表中初选出的全部疑似帐户。

这里需要指出的是，虽然在本实施例中是以微博为例描述了本发明的优选实施例，但显然本发明不限于此，而是可以适用于其它媒体水军的鉴别。此外，图1、2中的各模块可以包括处理器、电子设备、硬件设备、电子部件、逻辑电路、存储器、软件代码、固件代码等，或者它们的任意组合。技术人员还将认识到的是，结合本文公开内容描述的各种说明性的逻辑方框、模块和方法步骤可以实现为电子硬件、计算机软件或二者的组合。以软件实现为例，作为一个逻辑意义上的鉴别装置，是通过处理器将非易失性存储器中对应的计算机程序指令读取内存中运行形成的。从硬件层面而言，如图6所示，在一种实现方式中，根据本发明的鉴别装置可以由一个或多个计算机实现，除了图6所示的处理器、内存、网络接口以及非易失性存储器之外，实施例中实现鉴别装置的计算机通常根据其实际功能，还可以包括其它硬件，对此不再赘述。

本发明另一实施例提供的机器可读介质上存储有机器可读指令，该机器可读指令在被计算机执行时，使计算机执行本文公开的前述的任一种方法。具体地，可以提供配有机器可读介质的系统或者装置，在该机器可读介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统的机器读出并执行存储在该机器可读介质中的机器可读指令。在这种情况下，从机器可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的机器可读介质构成了本发明的一部分。机器可读介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

需要说明的是，上述各流程和鉴别装置的结构图中不是所有的步骤或模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种异常帐户的鉴别方法，包括：

获取疑似帐户的发布信息与关联信息，其中所述关联信息是指与所述发布信息和其它帐户中的至少一个有关的信息，其中所述其它帐户与所述疑似帐户相关联；

利用所述发布信息与关联信息确定所述疑似帐户的信息发布特征与帐户关联特征；

将所述信息发布特征与帐户关联特征提供给一经过训练的异常账户识别模型以鉴别所述疑似帐户是否是异常帐户。

2.如权利要求1的鉴别方法，其中确定所述疑似帐户的信息发布特征包括：确定指示所述发布信息的自身合理性的相符度作为所述信息发布特征；以及

其中所述其它帐户包括与所述疑似帐户相关联的一个或多个粉丝帐户；

其中确定所述疑似帐户的帐户关联特征包括：确定所述疑似帐户与所述一个或多个粉丝帐户之间的重复度作为所述帐户关联特征，该重复度指所述疑似帐户与所述一个或多个粉丝帐户中具有最大值的重复度。

3.如权利要求2的鉴别方法，其中确定相符度包括下列至少之一：

确定所述发布信息的配图与所述发布信息的主题之间匹配程度的第一度量值；

确定有关所述发布信息的语言规范的第二度量值；

确定有关所述发布信息的文字主题分布的第三度量值。

4.如权利要求2或3的鉴别方法，其中确定所述疑似帐户与所述一个或多个粉丝帐户之间的重复度包括：

确定所述发布信息与所述一个或多个粉丝帐户所发布的内容之间的内容重复度作为所述帐户关联特征，该内容重复度是指所述疑似帐户与所述一个或多个粉丝帐户中具有最大值的重复度。

5.如权利要求2或3的鉴别方法，其中确定所述疑似帐户与所述一个或多个粉丝帐户之间的重复度包括：

确定所述疑似帐户的粉丝与所述一个或多个粉丝帐户的粉丝之间的公共粉丝数量作为所述重复度，其中所述重复度是最大公共粉丝数量。

6.如权利要求1-5之一的鉴别方法，其中所述关联信息包括基于所述发布信息从网络上检索到的对应检索结果；

其中确定所述疑似帐户的帐户关联特征包括：确定所述发布信息与所述对应检索结果的相似度作为所述帐户关联特征。

7.如权利要求1-6之一的鉴别方法，所述其它帐户包括所述疑似帐户所关注的帐户，

其中确定所述疑似帐户的帐户关联特征包括包括：通过确定所述疑似帐户与其关注用户的人群列表的相似度来确定所述疑似帐户与所关注帐户之间的关联度，作为所述帐户关联特征。

8.如权利要求2-7之一的鉴别方法，包括：

按照一预设的筛选标准，从媒体平台上检索出多个帐户以生成候选帐户列表，其中所述疑似帐户是所述候选帐户列表中的一个或多个候选帐户。

9.如权利要8的鉴别方法，进一步包括：

如果所述疑似帐户被鉴别为异常帐户，则将所述疑似帐户的粉丝帐户加入到所述候选帐户列表中。

10.如权利要求1-9之的鉴别方法，其中所述异常帐户是以下类型媒体平台中的水军帐户：微博、头条、知乎。

11.一种用于鉴别异常帐户的装置，包括：

信息获取模块，配置为获取疑似帐户的发布信息与关联信息，其中所述关联信息是指与所述发布信息和其它帐户中的至少一个有关的信息，其中所述其它帐户与所述疑似帐户相关联；

特征确定模块，配置为利用所述发布信息与关联信息确定所述疑似帐户的信息发布特征与帐户关联特征；

鉴别模块，将所述信息发布特征与帐户关联特征提供给一经过训练的异常账户识别模型以鉴别所述疑似帐户是否是异常帐户。

12.如权利要求11的装置，其中所述其它帐户包括与所述疑似帐户相关联的一个或多个粉丝帐户；

其中所述特征确定模块进一步包括：

相符度确定模块，配置为确定指示所述发布信息的自身合理性的相符度作为所述信息发布特征；

重复度确定模块，配置为确定所述疑似帐户与所述一个或多个粉丝帐户之间的重复度作为所述帐户关联特征，该重复度指所述疑似帐户与所述一个或多个粉丝帐户中具有最大值的重复度。

13.如权利要求12的装置，其中所述相符度确定模块包括以下至少之一：

第一确定模块，配置为确定所述发布信息的配图与所述发布信息的主题之间匹配程度的第一度量值；

第二确定模块，配置为确定有关所述发布信息的语言规范的第二度量值；

第三确定模块，配置为确定有关所述发布信息的文字主题分布的第三度量值。

14.如权利要求12或13的装置，其中

所述重复度确定模块进一步配置为确定所述发布信息与所述一个或多个粉丝帐户所发布的内容之间的内容重复度作为所述帐户关联特征，该内容重复度是指所述疑似帐户与所述一个或多个粉丝帐户中具有最大值的重复度。

15.如权利要求12或13的装置，其中所述重复度确定模块进一步配置为确定所述疑似帐户的粉丝与所述一个或多个粉丝帐户的粉丝之间的公共粉丝数量作为所述重复度，其中所述重复度是最大公共粉丝数量。

16.如权利要求11-15之一的装置，其中所述关联信息包括基于所述布信息从网络上检索到的对应检索结果；

其中所述特征确定模块进一步包括：

相似度确定模块，配置为确定所述布信息与所述对应搜索结果的相似度作为所述帐户关联特征。

17.如权利要求11-16之一的装置，其中所述其它帐户包括所述疑似帐户所关注的帐户，

所述特征确定模块进一步包括：

关联度确定模块，配置为：通过确定所述疑似帐户与其关注用户的人群列表的相似度来确定所述疑似帐户与所关注帐户之间的关联度，作为所述帐户关联特征。

18.如权利要求12-17之一的装置，包括：

筛选模块，配置为：按照一预设的筛选标准，从媒体平台上检索出多个帐户以生成候选帐户列表，

其中所述疑似帐户是所述候选帐户列表中的一个或多个候选帐户。

19.如权利要求18的装置，其中如果所述疑似帐户被鉴别为异常帐户，则所述筛选模块进一步配置将所述疑似用户的粉丝帐户加入到所述候选帐户列表中。

20.如前述任一权利要求的装置，其中所述异常帐户是以下类型自媒体中的水军帐户：微博、头条、知乎。

21.一种具有指令的机器可读介质，所述指令在被一个或多个确定系统执行时，使所述确定系统执行根据权利要求1-10中的任一项所述的方法。

22.一种用于鉴别异常帐户的装置，包括：

存储器，其上存储有指令；

处理器，所述处理器可配置为执行所述指令以实现根据权利要求1-10中的任一项所述的方法。