CN110688593A

CN110688593A - 一种社交媒体账号识别方法及系统

Info

Publication number: CN110688593A
Application number: CN201910817167.XA
Authority: CN
Inventors: 陆夏根; 朱世伟; 魏墨济; 于俊凤; 李晨; 李宪毅
Original assignee: Anhui Qianrui Technology Co Ltd
Current assignee: Anhui Qianrui Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2020-01-14

Abstract

本公开提供社交媒体账号识别方法及系统。其中该方法包括以社交媒体数据源中解析出的种子URL为切入点，对页面解析出表单；抽取表单中的话题、所有候选词汇及其对应关系，得到话题数据源；采用K‑modes聚类算法对话题数据源中的数据进行聚类，得到聚类话题；从聚类话题对应的候选词汇中抽取聚类话题的主题特征，利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征；利用Apriori算法挖掘兴趣特征的表述规则，得到社交媒体账号的观点特征；利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征；通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性，来判断两个社交媒体账号是否为同一个账号。

Description

一种社交媒体账号识别方法及系统

技术领域

本公开属于多语种大数据处理领域，尤其涉及一种社交媒体账号识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

网络信息的特点为量大且类型多。发明人发现，在对社交媒体账号的话题进行实时监控时，一方面，话题数据源是否准确影响社交媒体账号监控的准确性；另一方面，由于网络信息量大，无法准确地监控敏感观点信息。

发明内容

为了解决上述问题，本公开提供一种社交媒体账号识别方法及系统，其能够在话题数据源准确的前提下，提高社交媒体账号识别的准确性。

为了实现上述目的，本公开采用如下技术方案：

本公开的第一方面提供一种社交媒体账号识别方法。

一种社交媒体账号识别方法，包括：

以社交媒体数据源中解析出的种子URL为切入点，对页面解析出表单；

抽取表单中的话题、所有候选词汇及其对应关系，得到话题数据源；其中，当表单中的本文为半格式化文本时，首先，分离含有种子词语的语句并为其构建语法树，使用POS方法标注种子词语及其上下文词性；其次，将句子表示成<词语,词性>二元组序列，同时将种子词语替换为标识符；再次，基于序列数据MFS-HT算法挖掘高置信度规则发现候选词汇；

采用K-modes聚类算法对话题数据源中的数据进行聚类，得到聚类话题；

从聚类话题对应的候选词汇中抽取聚类话题的主题特征，利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征；

利用Apriori算法挖掘兴趣特征的表述规则，得到社交媒体账号的观点特征；

利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征；

通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性，来判断两个社交媒体账号是否为同一个账号。

本公开的第二方面提供一种社交媒体账号识别系统。

一种社交媒体账号识别系统，包括：

表单解析模块，其用于以社交媒体数据源中解析出的种子URL为切入点，对页面解析出表单；

话题数据源获取模块，其用于抽取表单中的话题、所有候选词汇及其对应关系，得到话题数据源；其中，当表单中的本文为半格式化文本时，首先，分离含有种子词语的语句并为其构建语法树，使用POS方法标注种子词语及其上下文词性；其次，将句子表示成<词语,词性>二元组序列，同时将种子词语替换为标识符；再次，基于序列数据MFS-HT算法挖掘高置信度规则发现候选词汇；

聚类话题获取模块，其用于采用K-modes聚类算法对话题数据源中的数据进行聚类，得到聚类话题；

兴趣特征计算模块，其用于从聚类话题对应的候选词汇中抽取聚类话题的主题特征，利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征；

观点特征计算模块，其用于利用Apriori算法挖掘兴趣特征的表述规则，得到社交媒体账号的观点特征；

社交特征计算模块，其用于利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征；

账号判断模块，其用于通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性，来判断两个社交媒体账号是否为同一个账号。

本公开的第三方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述的社交媒体账号识别方法中的步骤。

本公开的第四方面提供一种计算机终端。

一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述的社交媒体账号识别方法中的步骤。

本公开的有益效果是：

本公开以社交媒体数据源中解析出的种子URL为切入点，对页面解析出表单；抽取表单中的话题、所有候选词汇及其对应关系，得到话题数据源，保证了话题数据源，以提高社交媒体账号监控的精度；

本公开还采用K-modes聚类算法对话题数据源中的数据进行聚类，得到聚类话题；从聚类话题对应的候选词汇中抽取聚类话题的主题特征，利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征；利用Apriori算法挖掘兴趣特征的表述规则，得到社交媒体账号的观点特征；利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征；通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性，来判断两个社交媒体账号是否为同一个账号，提高了监控的准确性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例的一种社交媒体账号识别方法流程图。

图2是本公开实施例的一种社交媒体账号识别系统结构示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

图1是本公开实施例的一种社交媒体账号识别方法流程图。

如图1所示，本实施例的一种社交媒体账号识别方法，包括：

S101：以社交媒体数据源中解析出的种子URL为切入点，对页面解析出表单。

具体地，从社交媒体数据源中解析出的种子URL的过程为：

从社交媒体数据源中抽取出新的网址部分，作为判断新数据源的候选网址；

采用编辑距离匹配算法计算候选网址和初始化数据源的字符串相识度；

若候选网址和初始化数据源的字符串相识度不小于预设相似度阈值，则将候选网址为种子URL；其中，编辑距离越小，相似度越大。

其中，编辑距离就是指在两个字符串之间，将一个字符串转换成另外一个字符串所使用的插入、删除、替换操作的最少次数，编辑距离也是一种字符串之间相似程度的度量标准。用ed来表示编辑距离。

实际上，编辑距离就是将字符串S变化到字符T所需最少编辑操作次数。两字符串之间的编辑距离定义是所有操作序列代价中的最小值。实质上，求两个字符串之间的编辑距离就是求最优化解的一个过程。

S102：抽取表单中的话题、所有候选词汇及其对应关系，得到话题数据源；

其中，当表单中的本文为半格式化文本时，首先，分离含有种子词语的语句并为其构建语法树，使用POS方法标注种子词语及其上下文词性；其次，将句子表示成<词语,词性>二元组序列，同时将种子词语替换为标识符；再次，基于序列数据MFS-HT算法挖掘高置信度规则发现候选词汇。

当表单中的本文为无格式文本时，使用词法分析标识种子词语的修饰词，其次，将种子词与修饰词加入轮询起点，采用DP方法发现新词汇；通过与种子词汇互信息计算过滤新发现候选词汇。

S103：采用K-modes聚类算法对话题数据源中的数据进行聚类，得到聚类话题；

K-means是一种典型的基于划分的方法，它的目的是将数据分组，各自聚集成若干个类簇(Cluster)。使得在同一个类中的对象之间具有较高的相似度，不同类之间的对象差别尽可能大。算法首先选择K个随机的中心点，每个点被初始化后将代表一个类的中心平均值，对剩下的每个文档，根据它到类中心的距离，距离计算方法如下文中的文本相似性检测所述，以迭代的方式被逐个划分到距离最近的类，然后重新计算每个类的平均值，调整类中心。不断重复这个过程，直到所有的对象都已经被划分都某个类为止。

S104：从聚类话题对应的候选词汇中抽取聚类话题的主题特征，利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征；

潜在语义分析(LSA)是主题建模的基础技术之一。其核心思想是把所拥有的文档-术语矩阵分解成相互独立的文档-主题矩阵和主题-术语矩阵。

第一步是生成文档-术语矩阵。如果在词汇表中给出m个文档和n个单词，我们可以构造一个m×n的矩阵A，其中每行代表一个文档，每列代表一个单词。在LSA的最简单版本中，每一个条目可以简单地是第j个单词在第i个文档中出现次数的原始计数。然而，在实际操作中，原始计数的效果不是很好，因为它们无法考虑文档中每个词的权重。例如，比起「test」来说，「nuclear」这个单词也许更能指出给定文章的主题。

因此，LSA模型通常用tf-idf得分代替文档-术语矩阵中的原始计数。tf-idf，即词频-逆文本频率指数，为文档i中的术语j分配了相应的权重。

也就是说，术语出现在文档中的频率越高，则其权重越大；同时，术语在语料库中出现的频率越低，其权重越大。

一旦拥有文档-术语矩阵A，可思考潜在主题。为了找出能够捕捉单词和文档关系的少数潜在主题，希望能降低矩阵A的维度。

这种降维可以使用截断SVD来执行。SVD，即奇异值分解，是线性代数中的一种技术。该技术将任意矩阵M分解为三个独立矩阵的乘积：M＝U*S*V，其中S是矩阵M奇异值的对角矩阵。很大程度上，截断SVD的降维方式是：选择奇异值中最大的t个数，且只保留矩阵U和V的前t列。在这种情况下，t是一个超参数，可根据想要查找的主题数量进行选择和调整。

直观来说，截断SVD可以看作只保留我们变换空间中最重要的t维。

在这种情况下是文档-主题矩阵，而

则成为术语-主题矩阵。在矩阵U和V中，每一列对应于t个主题当中的一个。在U中，行表示按主题表达的文档向量；在V中，行代表按主题表达的术语向量。

通过这些文档向量和术语向量，现在应用余弦相似度等度量来评估以下指标：1)不同文档的相似度；2)不同单词的相似度；3)术语(或「queries」)与文档的相似度(当想要检索与查询最相关的段落，即进行信息检索时，这一点将非常有用)。LSA方法的优点是快速且高效。

S105：利用Apriori算法挖掘兴趣特征的表述规则，得到社交媒体账号的观点特征；

Apriori算法的主要思想是通过层次搜索逐层遍历，先找到频繁1项集，然后通过频繁1项集找到频繁2项集。依此类推最后找到频繁N项集。

在发现候选频繁项集过程中，有两个非常重要的步骤。

第一步：就是根据已经发现的N-1阶频繁项集找到所有可能的N项集，这一步骤的名称叫做连接步。就是将符合条件的两个低阶项集合并得到高阶项集。其中的条件就是这两个被选中的N-1阶频繁项集必须有N-2项是一样的，合并后产生的N项集会含有两个N-1阶频繁项集的所有项。然后找到所有这种组合进行合并，就能找到完整的N项集。

第二步：这一步的名称叫做剪枝步。首先有一个事实。一个项集，如果它有任何一个子集不频繁，那么其本身也不频繁。比如{n1，n2}不是频繁项集，那么{n1，n2，n3}必然也不是频繁项集。因为{n1，n2}出现的频率达不到用户设置的最小支持度，那么{n1，n2，n3}的出现频率必然也是达不到的。依据这个事实，可以将哪些由不是频繁项集连接而来的项集直接舍去，提高了算法效率。

其中，利用Apriori算法挖掘兴趣特征的表述规则，得到社交媒体账号的观点特征的过程为：

聚类话题的观点特征存储至原序列数据库，将原序列数据库平均划分为n个不相交的子序列数据库；其中，n为正整数；

利用主节点将n个子序列数据库分派给不同的Map工作节点，每个Map工作节点执行序列模式挖掘算法，按照设定的最小支持度，扫描存放在Map工作节点内存中的子序列数据库，计算出局部序列模式；

将得到的局部序列模式传递给Reduce工作节点，归并处理得到全局候选序列模式；

再一次扫描原序列数据库，找出满足不小于系统设定的最小支持度的序列模式，进而得到观点特征的表征。

每个Map工作节点执行序列模式挖掘算法的过程为：

给定最小支持度ξ，如果序列S在序列数据库中的支持度不低于ξ，则称序列S为序列模式；

其中，序列S在序列数据库的支持度为包含S的序列在序列数据库中所占的百分比；序列S在序列数据库的支持度计数为序列数据库中包含S的序列个数。

S106：利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征；

其中，社交网是基于组织关系进行挖掘而构建得到的。

S107：通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性，来判断两个社交媒体账号是否为同一个账号。

具体地，判断两个社交媒体账号是否为同一个账号的过程为：

根据兴趣特征、观点特征和社交特征的多维度特性，分别对应构建兴趣偏好矩阵，观点矩阵和社交网络矩阵，并通过余弦算法计算兴趣偏好相似矩阵、观点相似性矩阵和社交网络矩阵；

对兴趣偏好相似矩阵、观点相似性矩阵和社交网络矩阵分别赋予相应的权重，对上述三个相似矩阵进行线性加权，得到加权结果；

根据加权结果与设定的阈值比较，得到每个账号的排列在前k个密切相关的账号，进而得到该账号的组织关系；其中，k为正整数。

实施例2

如图2所示，本实施例提供一种社交媒体账号识别系统，其包括：

(1)表单解析模块，其用于以社交媒体数据源中解析出的种子URL为切入点，对页面解析出表单；

(2)话题数据源获取模块，其用于抽取表单中的话题、所有候选词汇及其对应关系，得到话题数据源；

(3)聚类话题获取模块，其用于采用K-modes聚类算法对话题数据源中的数据进行聚类，得到聚类话题；

(4)兴趣特征计算模块，其用于从聚类话题对应的候选词汇中抽取聚类话题的主题特征，利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征；

(5)观点特征计算模块，其用于利用Apriori算法挖掘兴趣特征的表述规则，得到社交媒体账号的观点特征；

(6)社交特征计算模块，其用于利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征；

(7)账号判断模块，其用于通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性，来判断两个社交媒体账号是否为同一个账号。

实施例3

本实施例提供一种计算机可读存储介质，其上存储有计算机程序该程序被处理器执行时实现如图1所示的社交媒体账号识别方法中的步骤。

实施例4

本实施例提供一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如图1所示的社交媒体账号识别方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种社交媒体账号识别方法，其特征在于，包括：

2.如权利要求1所述的社交媒体账号识别方法，其特征在于，在抽取表单中所有候选词汇的过程中，当表单中的本文为无格式文本时，使用词法分析标识种子词语的修饰词，其次，将种子词与修饰词加入轮询起点，采用DP方法发现新词汇；通过与种子词汇互信息计算过滤新发现候选词汇。

3.如权利要求1所述的社交媒体账号识别方法，其特征在于，判断两个社交媒体账号是否为同一个账号的过程为：

4.如权利要求1所述的社交媒体账号识别方法，其特征在于，利用Apriori算法挖掘兴趣特征的表述规则，得到社交媒体账号的观点特征的过程为：

5.如权利要求4所述的社交媒体账号识别方法，其特征在于，每个Map工作节点执行序列模式挖掘算法的过程为：

6.如权利要求4所述的社交媒体账号识别方法，其特征在于，从社交媒体数据源中解析出的种子URL的过程为：

7.一种社交媒体账号识别系统，其特征在于，包括：

8.如权利要求7所述的社交媒体账号识别系统，其特征在于，在所述话题数据源获取模块中，在抽取表单中所有候选词汇的过程中，当表单中的本文为无格式文本时，使用词法分析标识种子词语的修饰词，其次，将种子词与修饰词加入轮询起点，采用DP方法发现新词汇；通过与种子词汇互信息计算过滤新发现候选词汇。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的社交媒体账号识别方法中的步骤。

10.一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的社交媒体账号识别方法中的步骤。