CN110324278A

CN110324278A - 账号主体一致性检测方法、装置及设备

Info

Publication number: CN110324278A
Application number: CN201810271423.5A
Authority: CN
Inventors: 张丹; 王九硕
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2019-10-11

Abstract

本发明提供一种账号主体一致性检测方法、装置及设备。本发明的方法，通过获取第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据；根据第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据，计算第一账号和第二账号的综合相似度；根据第一账号和第二账号的综合相似度和预设的相似度阈值，确定第一账号和第二账号是否属于同一个用户主体，能够通过对不同账号的关联账号信息和内容数据的分析可以得出两个账号的综合相似度，并进一步确定不同的互账号是否属于同一用户主体，实现了对互联网账号的关联性的分析，从而可以更好地实现各个用户的用户画像的构建、精准营销、社交网站舆情监控等。

Description

账号主体一致性检测方法、装置及设备

技术领域

本发明涉及互联网数据挖掘领域，尤其涉及一种账号主体一致性检测方法、装置及设备。

背景技术

当前，互联网与人们的工作生活、社会上的各行各业紧密融合。微博、社交网站等互联网平台的兴起，极大增加了互联网信息传播的速度和广度。互联网平台的用户之间通过“互粉”、“转发”、“评论”等操作使得信息能够在极短的时间内在社交网上大规模扩散。这种短时间、大范围的信息传播既给用户获取信息带来了极大的便利，但是也带来了网络谣言泛滥的严重问题。

为了应对网络谣言泛滥的问题，舆情监控是社交网站管理不可缺少的环节。管理者通过采取禁言、封停社交网站账号等方式来避免谣言的扩散，进行传播控制，是舆情监控的重要方式。但是谣言传播者往往通过注册多个社交网站账号来逃避管理者的监管。因此，如何准确识别出互联网平台中不同的账号是否属于同一个用户主体，是社交网站舆情监控中亟待解决的关键技术问题。

发明内容

本发明提供一种账号主体一致性检测方法、装置及设备，用以解决识别互联网平台中不同的账号是否属于同一个用户主体的问题。

本发明的一个方面是提供一种账号主体一致性检测方法，包括：

获取第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据；

根据第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据，计算所述第一账号和第二账号的综合相似度；

根据所述第一账号和第二账号的综合相似度和预设的相似度阈值，确定所述第一账号和第二账号是否属于同一个用户主体。

本发明的另一个方面是提供一种账号主体一致性检测装置，包括：

获取模块，用于获取第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据；

计算模块，用于根据第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据，计算所述第一账号和第二账号的综合相似度；

确定模块，用于根据所述第一账号和第二账号的综合相似度和预设的相似度阈值，确定所述第一账号和第二账号是否属于同一个用户主体。

本发明的另一个方面是提供一种计算机设备，包括：

存储器，处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序；

所述处理器运行所述计算机程序时实现上述所述的方法。

本发明的另一个方面是提供一种计算机可读存储介质，其特征在于，存储有计算机程序，

所述计算机程序被处理器执行时实现上述所述的方法。

本发明提供的账号主体一致性检测方法、装置及设备，通过获取第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据；根据第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据，计算所述第一账号和第二账号的综合相似度；根据所述第一账号和第二账号的综合相似度和预设的相似度阈值，确定所述第一账号和第二账号是否属于同一个用户主体，能够通过对不同账号的关联账号信息和内容数据的分析可以得出两个账号的综合相似度，并进一步确定不同的互账号是否属于同一用户主体，实现了对互联网账号的关联性的分析，从而可以更好地实现各个用户的用户画像的构建、精准营销、社交网站舆情监控等。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明实施例一提供的账号主体一致性检测方法流程图；

图2为本发明实施例二提供的账号主体一致性检测方法流程图；

图3为本发明实施例三提供的账号主体一致性检测装置的结构示意图；

图4为本发明实施例五提供的计算机设备的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

首先对本发明所涉及的名词进行解释：

账号主体：是指互联网平台中注册账号的拥有者，是一个自然人。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

实施例一

图1为本发明实施例一提供的账号主体一致性检测方法流程图。本发明实施例针对如何识别互联网平台中不同的账号是否属于同一个用户主体的问题，提供了账号主体一致性检测方法。如图1所述，该方法具体步骤如下：

步骤S101、获取第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据。

本发明实施例中，互联网平台可以是用于多人交流沟通的社交网站、软件应用等，例如贴吧、微博、论坛等等。第一账号和第二账号可以以是任意用户在任意一个互联网平台上注册的两个不同的账号，第一账号和第二账号可以是同一用户在同一互联网平台或者不同互联网平台上注册的两个账号，或者，第一账号和第二账号也可以是不同用户在同一互联网平台或者不同的互联网平台上注册的两个账号。

将任意一个账号作为目标账号，目标账号的关联账号信息至少包括该目标账号的关联账号的标识信息、以及各关联账号与该目标账号的关联方式。关联账号是指与该目标账号相关联的账号，可以是目标账号所关注的账号、或者是关注了目标账号的账号。关联账号与目标账号的账号关联方式可以是关注、被关注等。

账号的内容数据包括通过该账号发布的至少一条文本信息。账号的内容数据可以是该账号一次发布的一条文本信息，或者账号的内容数据还可以是由该账号多次发布的多条文本信息组合成的文本信息。

将第一账号所属的互联网平台记为第一平台，将第二账号所属的互联网平台记为第二平台。

该步骤中，可以从第一平台获取第一账号的关联账号信息和内容数据，可以从第二平台获取第二账号的关联账号信息和内容数据。

其中，从第一平台获取第一账号的内容数据，具体可以采用如下方式实现：从第一平台获取第一账号已经发布的历史信息，从历史信息中抽取出部分文本信息，作为第一账号的内容数据。

具体的，从第一账号已经发布的历史信息中抽取出部分文本信息可以是从第一账号已经发布的一条历史信息中获取文本信息得到，或者还可以是从第一账号已经发布的多条历史信息中抽取出多个文本信息组合成第一账号的内容数据。

从第二平台获取第二账号的内容数据的过程与从第一平台获取第一账号的内容数据的过程类似，此处不再赘述。

步骤S102、根据第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据，计算第一账号和第二账号的综合相似度。

在实际应用中，一个用户主体的人际关系，感兴趣的领域，写作习惯例如写作时采用的句式、标点符号等风格等，均是确定的，即使用户想要改变也不可能轻易改变，因此，属于同一个用户主体的不同账号所关注的对象相似程度很高，所发布的文章、评论、动态消息等内容数据时，对句式、常用语、标点符号等的使用规律的相似度也很高。

本实施例中，综合相似度是通过将第一账号的关联账号信息与第二账号的关联账号信息的相似程度、以及第一账号的内容数据与第二账号的内容数据的相似程度计算得到的，能够表示第一账号与第二账号的相似程度的信息。

第一账号的关联账号信息与第二账号的关联账号信息的相似程度可以表征第一账号的关联账号与第二账号的关联账号中的重复账号的情况。

第一账号的内容数据与第二账号的内容数据的相似程度可以通过计算第一账号的内容数据与第二账号的内容数据所涉及的领域是否一致、结合情感词典计算两者的情感类别是否一致、两者的文风数据的相似程度等获得。

步骤S103、根据第一账号和第二账号的综合相似度和预设的相似度阈值，确定第一账号和第二账号是否属于同一个用户主体。

该步骤中，计算得到第一账号和第二账号的综合相似度之后，比较第一账号和第二账号的综合相似度和预设的相似度阈值的大小；若第一账号和第二账号的综合相似度大于预设的相似度阈值，则确定第一账号和第二账号属于同一个用户主体；若第一账号和第二账号的综合相似度小于或者等于预设的相似度阈值，则确定第一账号和第二账号不属于同一个用户主体。

其中。预设的相似度阈值可以是0.7，另外，预设的相似度阈值可以由技术人员根据实际需要进行设定，并可以进行调整，本实施例此处不做具体限定。

本发明实施例通过获取第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据；根据第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据，计算第一账号和第二账号的综合相似度；根据第一账号和第二账号的综合相似度和预设的相似度阈值，确定第一账号和第二账号是否属于同一个用户主体，能够通过对不同账号的关联账号信息和内容数据的分析可以得出两个账号的综合相似度，并进一步确定不同的互账号是否属于同一用户主体，实现了对互联网账号的关联性的分析，从而可以更好地实现各个用户的用户画像的构建、精准营销、社交网站舆情监控等。

实施例二

图2为本发明实施例二提供的账号主体一致性检测方法流程图。在上述实施例一的基础上，本实施例中，根据第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据，计算第一账号和第二账号的综合相似度，包括：根据第一账号的关联账号信息和第二账号的关联账号信息，计算第一账号和第二账号的关联账号交叉度；根据第一账号的内容数据和第二账号的内容数据，计算第一账号和第二账号的内容相似度和文风相似度；根据关联账号交叉度、内容相似度和文风相似度，计算第一账号和第二账号的综合相似度。如图2所示，该方法具体步骤如下：

步骤S201、获取第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据。

该步骤与上述步骤S101一致，本实施例此处不再赘述。

在获取到第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据之后，通过执行步骤S202、S203和S204，根据第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据，计算第一账号和第二账号的综合相似度。

本实施例中，步骤S202和S203可以并行进行，或者，步骤S202也可以在S203之前、或者在S203之后，按照先后顺序串行进行。

步骤S202、根据第一账号的内容数据和第二账号的内容数据，计算第一账号和第二账号的内容相似度和文风相似度。

该步骤包括以下两个方面：

第一方面，根据第一账号的内容数据和第二账号的内容数据，计算第一账号和第二账号的内容相似度，具体可以采用如下方式实现：

计算第一账号的内容数据对应的领域类别和情感类别，以及第二账号的内容数据对应的领域类别和情感类别；根据第一账号的内容数据对应的领域类别与第二账号的内容数据对应的领域类别的一致性，以及第一账号的内容数据对应的情感类别与第二账号的内容数据对应的情感类别的一致性，计算第一账号和第二账号的内容相似度。

其中，内容数据对应的领域类别可以是预先设定的，可以包括以下领域类别中的多个领域类别：政治、经济、军事、体育、科技、娱乐、社会等等。对于不同的互联网平台的检测对象，设定的领域类别的种类和数量可以不同，可以根据实际需求设定内容数据对应的领域类别。

具体的，预先根据每一个账号所发布的所有文本信息，训练该账号的领域分类模型。该账号的领域分类模型用于根据账号所发布的文本信息的内容，确定该文本信息所属的领域类别。例如，获取每一个账号所发布的多个文本信息，利用卡方测试和点互信息(Pointwise Mutual Information，简称PMI)方法进行特征提取,并采用支持向量机(SVM)的分类算法对多个文本信息进行模型训练，得到每个账号的领域分类模型。另外，本实施例中计算第一账号的内容数据中的文本信息对应的领域类别，可以采用现有技术中任意一种确定文本信息内容所属领域的方式实现。

计算第一账号的内容数据对应的领域类别，具体包括：

第一账号的内容数据可以包括第一账号发布的多条文本信息，将每条文本信息输入第一账号的领域分类模型，输出每条文本信息对应的领域类别，并计算得到的领域类别对应的文本信息的条数，将对应的文本信息的条数最多的领域类别作为第一账号的内容数据对应的领域类别。也即是，将得到的各文本信息对应的领域类别中所占比例最大的领域类别作为第一账号的内容数据对应的领域类别。同理，可以得到第二账号的内容数据对应的了领域类别。

具体的，计算第一账号的内容数据对应的情感类别，包括：

第一账号的内容数据可以包括第一账号发布的多条文本信息，确定每条文本信息对应的情感类别，并计算得到的情感类别对应的文本信息的条数，将对应的文本信息的条数最多的情感类别作为第一账号的内容数据对应的情感类别。也即是，将得到的各文本信息对应的情感类别中所占比例最大的情感类别作为第一账号的内容数据对应的情感类别。同理，可以得到第二账号的内容数据对应的了情感类别。

可选的，在计算文本信息对应的情感类别时，可以采用现有技术中的任意一种文本情感分类方法实现，本实施例对此不做具体限定。例如，可以结合情感词典，利用SVM分类算法进行情感分类。

进一步地，根据第一账号的内容数据对应的领域类别与第二账号的内容数据对应的领域类别的一致性，以及第一账号的内容数据对应的情感类别与第二账号的内容数据对应的情感类别的一致性，采用以下公式一，计算第一账号和第二账号的内容相似度：

W₁＝θ*X+σ*Y 公式一

其中，W₁表示第一账号和第二账号的内容相似度，X表示第一账号的内容数据对应的领域类别与第二账号的内容数据对应的领域类别的一致性，若第一账号的内容数据对应的领域类别与第二账号的内容数据对应的领域类别一致，则X＝1，若第一账号的内容数据对应的领域类别与第二账号的内容数据对应的领域类别不一致，则X＝0；Y表示第一账号的内容数据对应的情感类别与第二账号的内容数据对应的情感类别的一致性，若第一账号的内容数据对应的情感类别与第二账号的内容数据对应的情感类别一致，则Y＝1，若第一账号的内容数据对应的情感类别与第二账号的内容数据对应的情感类别不一致，则Y＝0；θ和σ为预设参数，θ+σ＝1，θ和σ均大于零。

可选的，θ和σ的取值可以为：θ＝0.7，σ＝0.3，θ和σ的取值可以根据实际需要进行设定。

第二方面，根据第一账号的内容数据和第二账号的内容数据，计算第一账号和第二账号的文风相似度，具体可以采用如下方式实现：

计算第一账号的内容数据的文风数据和第二账号的内容数据的文风数据，文风数据包括以下至少一种：繁体字所占比例、句子长度均值、句子排比结构信息、段落排比结构信息、预设类型文本所占的比例、预设词性的词语所占的比例、各类标点符号所占的比例、句法结构类型；根据第一账号的内容数据的文风数据和第二账号的内容数据的文风数据，计算第一账号和第二账号的文风相似度。

具体的，计算第一账号的内容数据的文风数据，可以包括以下至少一种：

(1)计算第一账号的内容数据中繁体字所占比例。

(2)计算第一账号的内容数据中句子长度规律，例如可以计算第一账号的内容数据中句子长度的均值。

可以计算第一账号的内容数据中每个句子的长度，并计算所有句子的长度的均值，作为第一账号的内容数据中句子长度均值。其中，句子的长度可以是句子包含的字符数量，字符可以是文字、符号、数字等。

(3)计算第一账号的内容数据中的句子排比结构信息。

识别第一账号的内容数据出现的排比句，并确定每个排比句形成排比的结构信息，得到第一账号的内容数据中的排比句的排比结构信息。其中，排比句可以是句子的首字相同的排比结构、或者是句子的前若干个字均相同的排比结构等。

(4)计算第一账号的内容数据中的段落排比结构信息。

识别第一账号的内容数据出现的排比段落，并确定每个排比段落形成排比的结构信息，得到第一账号的内容数据中的排比段落的排比结构信息。其中，排比段落可以是段落的首字相同的排比结构、或者是段落首句的前若干个字均相同的排比结构、或者是段落的首个句子或者短语相同的排比结构等。

(5)计算第一账号的内容数据中预设类型文本所占的比例。

预设类型的文本可以包括预设的短语库中的一个或者多个短语，不同的人对预设类型的文本的使用情况不同。预设短语库可以包括常用短语、低频词、成语等。例如，可以是“哎呦”“天哪”这种口头语等。

具体的，统计预设类型的文本在第一账号的内容数据中所占的比例，可以是字数比例。

(6)计算第一账号的内容数据中预设词性的词语所占的比例。

现代汉语的词可以分为两类14种词性。一类是实词：名词、动词、形容词、区别词、代词、数词、量词、一类是虚词：副词、介词、连词、助词、语气词、拟声词、叹词。

预设词性可以包括至少一种词性，可以由技术人员根据实际需要设定。

具体的，计算第一账号的内容数据中各类词性的词出现的次数，并按照各类词性出现的次数，计算各类词性的词所占的比例。

(7)计算第一账号的内容数据中各类标点符号所占的比例。

具体的，计算第一账号的内容数据中各类标点符号出现的次数，并计算各类标点符号在内容数据中国所占的比例。

一些人习惯用大量的标点来表达自己的某种心情，比如在一句话中，“太好了！！！！！！”这句话中“！”所占的比例是文字的二倍。各类标点符号在文中的占比能体现不同人对标点符号的使用风格。

(8)计算第一账号的内容数据中出现的句法结构类型。

可选的，可以利用哈尔滨工业大学的句法分析器来统计内容数据中句法的结构类型，例如主谓关系、动宾关系等等。

本实施例中，计算第二账号的内容数据的文风数据与计算第一账号的内容数据的文风数据的方法一致，本实施例此处不再赘述。

计算第一账号的内容数据的文风数据和第二账号的内容数据的文风数据，并计算对应于每一种文风数据、第一账号的内容数据与第二账号的内容数据的这一种文风数据的一致性。具体的，可以针对每一种文风数据设定一致性规则，若第一账号的内容数据与第二账号的内容数据的这一种文风数据符合这一一致性规则，则第一账号的内容数据与第二账号的内容数据的这一种文风数据满足一致性。

例如，针对(1)文风数据为繁体字所占比例，设定第一阈值，对应的一致性规则可以是：第一账号的内容数据中繁体字所占比例与第二账号的内容数据中繁体字所占比例之差小于第一阈值。其中第一阈值可以由技术人员根据实际需要进行设定。

针对(2)文风数据为句子长度的均值，设定第二阈值，对应的一致性规则可以是：第一账号的内容数据中句子长度均值与第一账号的内容数据中句子长度均值之差小于第二阈值。其中第二阈值可以由技术人员根据实际需要进行设定。

针对(3)文风数据为句子排比结构信息，对应的一致性规则可以是：第一账号的内容数据中的句子排比结构信息与第二账号的内容数据中的句子排比结构信息中包含相同的句子排比结构。也即是，第一账号的内容数据与第二账号的内容数据中出现了相同结构的排比句。

针对(4)文风数据为段落排比结构信息，对应的一致性规则可以是：第一账号的内容数据中的段落排比结构信息与第二账号的内容数据中的段落排比结构信息中包含相同的段落排比结构。也即是，第一账号的内容数据与第二账号的内容数据中出现了相同结构的排比段落。

针对(5)文风数据为预设类型文本所占的比例，设定第三阈值，对应的一致性规则可以是：第一账号的内容数据中预设类型文本所占的比例与第一账号的内容数据中预设类型文本所占的比例的差值小于第三阈值。其中第三阈值可以由技术人员根据实际需要进行设定。

针对(6)文风数据为预设词性的词语所占的比例，设定第四阈值，对应的一致性规则可以是：第一账号的内容数据中每一类词性的词语所占的比例与第二账号的内容数据中该词性的词语所占的比例的差值小于第四阈值。其中第四阈值可以由技术人员根据实际需要进行设定。

针对(7)文风数据为各类标点符号所占的比例，设定第五阈值，对应的一致性规则可以是：第一账号的内容数据中每一类标点符号所占的比例与第二账号的内容数据中该类标点符号所占的比例的差值小于第五阈值。其中第五阈值可以由技术人员根据实际需要进行设定。

针对(8)文风数据为句法结构类型，设定第六阈值，对应的一致性规则可以是：在第一账号的内容数据中和第二账号的内容数据中均出现的句法结构类型所占的比例大于第六阈值。

其中，在第一账号的内容数据中和第二账号的内容数据中均出现的句法结构类型所占的比例，可以是在第一账号的内容数据中和第二账号的内容数据中均出现的句法结构类型占在第一账号的内容数据中出现的句法结构类型总数的比例，或者可以是在第一账号的内容数据中和第二账号的内容数据中均出现的句法结构类型占在第二账号的内容数据中出现的句法结构类型总数的比例，或者可以是在第一账号的内容数据中和第二账号的内容数据中均出现的句法结构类型占在第一账号和第二账号的内容数据中出现的句法结构类型总数的比例。其中第六阈值可以由技术人员根据实际需要进行设定。

进一步地，根据第一账号的内容数据的文风数据和第二账号的内容数据的文风数据，采用如下公式二，计算第一账号和第二账号的文风相似度：

W₂＝μ*N 公式二

其中，W₂表示第一账号和第二账号的文风相似度；N为第一账号的内容数据和第二账号的内容数据的多种文风数据中，满足对应的一致性规则的文风数据种类数，N为正整数；μ为预设参数，0<<1。μ的值可以根据实际需要进行设定，例如可以为0.6。

步骤S203、根据第一账号的关联账号信息和第二账号的关联账号信息，计算第一账号和第二账号的关联账号交叉度。

该步骤中，根据第一账号的关联账号信息和第二账号的关联账号信息，计算第一账号和第二账号的关联账号交叉度，具体可以采用如下方式实现：

根据第一账号的关联账号信息和第二账号的关联账号信息，分别计算第一账号和第二账号对应于预设的关联方式的关联账号的数量，预设的关联方式包括以下至少一种：关注、被关注和相互关注；计算第一账号和第二账号对应于同一关联方式的关联账号中重复账号的数量；根据第一账号和第二账号对应于同一关联方式的关联账号中重复账号的数量，计算第一账号和第二账号的关联账号交叉度。

可选的，预设的关联方式还可以包括：关注和被关注。

具体的，第一账号对应于关注这一关联方式的关联账号，可以是第一账号已经关注的其他账号，第一账号已经关注的其他账号可以认为是第一账号的好友。第一账号对应于被关注这一关联方式的关联账号，可以是已经关注了第一账号的其他账号，已经关注了第一账号的其他账号可以认为是第一账号的粉丝。

计算第一账号和第二账号对应于同一关联方式的关联账号中重复账号的数量，包括，计算第一账号和第二账号共同粉丝的数量和共同好友的数量。

采用以下公式三，计算第一账号和第二账号的关联账号交叉度：

W₃＝τ*(F+H) 公式三

其中，W₃表示第一账号和第二账号的关联账号交叉度，F表示第一账号和第二账号共同粉丝的数量，H表示第一账号和第二账号共同好友的数量，τ为预设参数，0<<1。τ的值可以根据实际需要进行设定，例如τ可以为0.65。

步骤S204、根据关联账号交叉度、内容相似度和文风相似度，计算第一账号和第二账号的综合相似度。

该步骤中，根据关联账号交叉度、内容相似度和文风相似度，采用如下公式四，计算第一账号和第二账号的综合相似度：

Score＝α*W₁+β*W₂+γ*W₃ 公式四

其中，Score表示第一账号和第二账号的综合相似度；W₁表示第一账号和第二账号的内容相似度；W₂表示第一账号和第二账号的文风相似度；W₃表示第一账号和第二账号的关联账号交叉度；α，β和γ为预设参数，α+β+γ＝1，α，β和γ均大于零。α，β和γ的值可以根据实际需要进行设定，例如α，β和γ可以分别为0.5、0.2、0.3。

另外，还可以根据关联账号交叉度、内容相似度和文风相似度，设置第七阈值、第八阈值和第九阈值，当关联账号交叉度大于第七阈值，并且内容相似度大于第八阈值，并且文风相似度大于第九阈值时，综合相似度设为1，表示第一账号和第二账号的属于统一个用户主体。

步骤S205、根据第一账号和第二账号的综合相似度和预设的相似度阈值，确定第一账号和第二账号是否属于同一个用户主体。

根据第一账号和第二账号的综合相似度和预设的相似度阈值，若第一账号和第二账号的综合相似度大于预设的相似度阈值，则确定第一账号和第二账号属于同一个用户主体；若第一账号和第二账号的综合相似度小于或者等于预设的相似度阈值，则确定第一账号和第二账号不属于同一个用户主体。

本发明实施例通过根据第一账号的关联账号信息和第二账号的关联账号信息，计算第一账号和第二账号的关联账号交叉度；根据第一账号的内容数据和第二账号的内容数据，计算第一账号和第二账号的内容相似度和文风相似度；根据关联账号交叉度、内容相似度和文风相似度，计算第一账号和第二账号的综合相似度，并进一步在第一账号和第二账号的综合相似度大于预设的相似度阈值时，这两个账号属于统一用户主体，从而可以确定不同的互账号是否属于同一用户主体，实现了对互联网账号的关联性的分析，从而可以更好地实现各个用户的用户画像的构建、精准营销、社交网站舆情监控等。

实施例三

图3为本发明实施例三提供的账号主体一致性检测装置的结构示意图。本发明实施例提供的账号主体一致性检测装置可以执行账号主体一致性检测方法实施例提供的处理流程。如图3所示，该装置30包括：获取模块301，计算模块302和确定模块303。

具体地，获取模块301用于获取第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据。

计算模块302用于根据第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据，计算第一账号和第二账号的综合相似度。

确定模块303用于根据第一账号和第二账号的综合相似度和预设的相似度阈值，确定第一账号和第二账号是否属于同一个用户主体。

本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例，具体功能此处不再赘述。

实施例四

在上述实施例三的基础上，本实施例中，计算模块包括：内容相似度计算子模块，文风相似度计算子模块，关联账号交叉度计算子模块和综合计算子模块。

内容相似度计算子模块用于根据第一账号的内容数据和第二账号的内容数据，计算第一账号和第二账号的内容相似度。

文风相似度计算子模块用于根据第一账号的内容数据和第二账号的内容数据，计算第一账号和第二账号的文风相似度。

关联账号交叉度计算子模块用于根据第一账号的关联账号信息和第二账号的关联账号信息，计算第一账号和第二账号的关联账号交叉度。

综合计算子模块用于根据关联账号交叉度、内容相似度和文风相似度，计算第一账号和第二账号的综合相似度。

可选的，内容相似度计算子模块还用于：

可选的，文风相似度计算子模块还用于：

可选的，关联账号交叉度计算子模块还用于：

根据第一账号的关联账号信息和第二账号的关联账号信息，分别计算第一账号和第二账号对应于预设的关联方式的关联账号的数量，预设的关联方式包括以下至少一种：关注、被关注、相互关注；计算第一账号和第二账号对应于同一关联方式的关联账号中重复账号的数量；根据第一账号和第二账号对应于同一关联方式的关联账号中重复账号的数量，计算第一账号和第二账号的关联账号交叉度。

本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例，具体功能此处不再赘述。

实施例五

图4为本发明实施例五提供的计算机设备的结构示意图。如图4所示，该设备40包括：处理器401，存储器402，以及存储在存储器402上并可由处理器401执行的计算机程序。

处理器401在执行存储在存储器402上的计算机程序时实现上述任一方法实施例提供的账号主体一致性检测方法。

另外，本发明实施例还提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述任一方法实施例提供的账号主体一致性检测方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims

1.一种账号主体一致性检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据第一账号的关联账号信息和内容数据，以及第二账号的关联账号信息和内容数据，计算所述第一账号和第二账号的综合相似度，包括：

根据所述第一账号的内容数据和所述第二账号的内容数据，计算所述第一账号和第二账号的内容相似度和文风相似度；

根据所述第一账号的关联账号信息和所述第二账号的关联账号信息，计算所述第一账号和第二账号的关联账号交叉度；

根据所述关联账号交叉度、内容相似度和文风相似度，计算所述第一账号和第二账号的综合相似度。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一账号的内容数据和所述第二账号的内容数据，计算所述第一账号和第二账号的内容相似度，包括：

计算所述第一账号的内容数据对应的领域类别和情感类别，以及所述第二账号的内容数据对应的领域类别和情感类别；

根据所述第一账号的内容数据对应的领域类别与所述第二账号的内容数据对应的领域类别的一致性，以及所述第一账号的内容数据对应的情感类别与所述第二账号的内容数据对应的情感类别的一致性，计算所述第一账号和第二账号的内容相似度。

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一账号的内容数据和所述第二账号的内容数据，计算所述第一账号和第二账号的文风相似度，包括：

计算所述第一账号的内容数据的文风数据和所述第二账号的内容数据的文风数据，所述文风数据包括以下至少一种：繁体字所占比例、句子长度均值、句子排比结构信息、段落排比结构信息、预设类型文本所占的比例、预设词性的词语所占的比例、各类标点符号所占的比例、句法结构类型；

根据所述第一账号的内容数据的文风数据和所述第二账号的内容数据的文风数据，计算第一账号和第二账号的文风相似度。

5.根据权利要求2所述的方法，其特征在于，所述根据所述第一账号的关联账号信息和所述第二账号的关联账号信息，计算所述第一账号和第二账号的关联账号交叉度，包括：

根据所述第一账号的关联账号信息和所述第二账号的关联账号信息，分别计算所述第一账号和第二账号对应于预设的关联方式的关联账号的数量，所述预设的关联方式包括以下至少一种：关注、被关注、相互关注；

计算所述第一账号和第二账号对应于同一所述关联方式的关联账号中重复账号的数量；

根据所述第一账号和第二账号对应于同一所述关联方式的关联账号中重复账号的数量，计算所述第一账号和第二账号的关联账号交叉度。

6.一种账号主体一致性检测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述计算模块包括：

内容相似度计算子模块，用于根据所述第一账号的内容数据和所述第二账号的内容数据，计算所述第一账号和第二账号的内容相似度；

文风相似度计算子模块，用于根据所述第一账号的内容数据和所述第二账号的内容数据，计算所述第一账号和第二账号的文风相似度；

关联账号交叉度计算子模块，用于根据所述第一账号的关联账号信息和所述第二账号的关联账号信息，计算所述第一账号和第二账号的关联账号交叉度；

综合计算子模块，用于根据所述关联账号交叉度、内容相似度和文风相似度，计算所述第一账号和第二账号的综合相似度。

8.根据权利要求7所述的装置，其特征在于，所述内容相似度计算子模块还用于：

9.根据权利要求7所述的装置，其特征在于，所述文风相似度计算子模块还用于：

10.根据权利要求7所述的装置，其特征在于，所述关联账号交叉度计算子模块还用于：

11.一种计算机设备，其特征在于，包括：

所述处理器运行所述计算机程序时实现如权利要求1-5中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，存储有计算机程序，

所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。