CN110688593A - 一种社交媒体账号识别方法及系统 - Google Patents

一种社交媒体账号识别方法及系统 Download PDF

Info

Publication number
CN110688593A
CN110688593A CN201910817167.XA CN201910817167A CN110688593A CN 110688593 A CN110688593 A CN 110688593A CN 201910817167 A CN201910817167 A CN 201910817167A CN 110688593 A CN110688593 A CN 110688593A
Authority
CN
China
Prior art keywords
social media
topic
sequence
social
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910817167.XA
Other languages
English (en)
Inventor
陆夏根
朱世伟
魏墨济
于俊凤
李晨
李宪毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Qianrui Technology Co Ltd
Original Assignee
Anhui Qianrui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Qianrui Technology Co Ltd filed Critical Anhui Qianrui Technology Co Ltd
Priority to CN201910817167.XA priority Critical patent/CN110688593A/zh
Publication of CN110688593A publication Critical patent/CN110688593A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供社交媒体账号识别方法及系统。其中该方法包括以社交媒体数据源中解析出的种子URL为切入点,对页面解析出表单;抽取表单中的话题、所有候选词汇及其对应关系,得到话题数据源;采用K‑modes聚类算法对话题数据源中的数据进行聚类,得到聚类话题;从聚类话题对应的候选词汇中抽取聚类话题的主题特征,利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征;利用Apriori算法挖掘兴趣特征的表述规则,得到社交媒体账号的观点特征;利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征;通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性,来判断两个社交媒体账号是否为同一个账号。

Description

一种社交媒体账号识别方法及系统
技术领域
本公开属于多语种大数据处理领域,尤其涉及一种社交媒体账号识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
网络信息的特点为量大且类型多。发明人发现,在对社交媒体账号的话题进行实时监控时,一方面,话题数据源是否准确影响社交媒体账号监控的准确性;另一方面,由于网络信息量大,无法准确地监控敏感观点信息。
发明内容
为了解决上述问题,本公开提供一种社交媒体账号识别方法及系统,其能够在话题数据源准确的前提下,提高社交媒体账号识别的准确性。
为了实现上述目的,本公开采用如下技术方案:
本公开的第一方面提供一种社交媒体账号识别方法。
一种社交媒体账号识别方法,包括:
以社交媒体数据源中解析出的种子URL为切入点,对页面解析出表单;
抽取表单中的话题、所有候选词汇及其对应关系,得到话题数据源;其中,当表单中的本文为半格式化文本时,首先,分离含有种子词语的语句并为其构建语法树,使用POS方法标注种子词语及其上下文词性;其次,将句子表示成<词语,词性>二元组序列,同时将种子词语替换为标识符;再次,基于序列数据MFS-HT算法挖掘高置信度规则发现候选词汇;
采用K-modes聚类算法对话题数据源中的数据进行聚类,得到聚类话题;
从聚类话题对应的候选词汇中抽取聚类话题的主题特征,利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征;
利用Apriori算法挖掘兴趣特征的表述规则,得到社交媒体账号的观点特征;
利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征;
通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性,来判断两个社交媒体账号是否为同一个账号。
本公开的第二方面提供一种社交媒体账号识别系统。
一种社交媒体账号识别系统,包括:
表单解析模块,其用于以社交媒体数据源中解析出的种子URL为切入点,对页面解析出表单;
话题数据源获取模块,其用于抽取表单中的话题、所有候选词汇及其对应关系,得到话题数据源;其中,当表单中的本文为半格式化文本时,首先,分离含有种子词语的语句并为其构建语法树,使用POS方法标注种子词语及其上下文词性;其次,将句子表示成<词语,词性>二元组序列,同时将种子词语替换为标识符;再次,基于序列数据MFS-HT算法挖掘高置信度规则发现候选词汇;
聚类话题获取模块,其用于采用K-modes聚类算法对话题数据源中的数据进行聚类,得到聚类话题;
兴趣特征计算模块,其用于从聚类话题对应的候选词汇中抽取聚类话题的主题特征,利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征;
观点特征计算模块,其用于利用Apriori算法挖掘兴趣特征的表述规则,得到社交媒体账号的观点特征;
社交特征计算模块,其用于利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征;
账号判断模块,其用于通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性,来判断两个社交媒体账号是否为同一个账号。
本公开的第三方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述的社交媒体账号识别方法中的步骤。
本公开的第四方面提供一种计算机终端。
一种计算机终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述的社交媒体账号识别方法中的步骤。
本公开的有益效果是:
本公开以社交媒体数据源中解析出的种子URL为切入点,对页面解析出表单;抽取表单中的话题、所有候选词汇及其对应关系,得到话题数据源,保证了话题数据源,以提高社交媒体账号监控的精度;
本公开还采用K-modes聚类算法对话题数据源中的数据进行聚类,得到聚类话题;从聚类话题对应的候选词汇中抽取聚类话题的主题特征,利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征;利用Apriori算法挖掘兴趣特征的表述规则,得到社交媒体账号的观点特征;利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征;通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性,来判断两个社交媒体账号是否为同一个账号,提高了监控的准确性。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本公开实施例的一种社交媒体账号识别方法流程图。
图2是本公开实施例的一种社交媒体账号识别系统结构示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
图1是本公开实施例的一种社交媒体账号识别方法流程图。
如图1所示,本实施例的一种社交媒体账号识别方法,包括:
S101:以社交媒体数据源中解析出的种子URL为切入点,对页面解析出表单。
具体地,从社交媒体数据源中解析出的种子URL的过程为:
从社交媒体数据源中抽取出新的网址部分,作为判断新数据源的候选网址;
采用编辑距离匹配算法计算候选网址和初始化数据源的字符串相识度;
若候选网址和初始化数据源的字符串相识度不小于预设相似度阈值,则将候选网址为种子URL;其中,编辑距离越小,相似度越大。
其中,编辑距离就是指在两个字符串之间,将一个字符串转换成另外一个字符串所使用的插入、删除、替换操作的最少次数,编辑距离也是一种字符串之间相似程度的度量标准。用ed来表示编辑距离。
实际上,编辑距离就是将字符串S变化到字符T所需最少编辑操作次数。两字符串之间的编辑距离定义是所有操作序列代价中的最小值。实质上,求两个字符串之间的编辑距离就是求最优化解的一个过程。
S102:抽取表单中的话题、所有候选词汇及其对应关系,得到话题数据源;
其中,当表单中的本文为半格式化文本时,首先,分离含有种子词语的语句并为其构建语法树,使用POS方法标注种子词语及其上下文词性;其次,将句子表示成<词语,词性>二元组序列,同时将种子词语替换为标识符;再次,基于序列数据MFS-HT算法挖掘高置信度规则发现候选词汇。
当表单中的本文为无格式文本时,使用词法分析标识种子词语的修饰词,其次,将种子词与修饰词加入轮询起点,采用DP方法发现新词汇;通过与种子词汇互信息计算过滤新发现候选词汇。
S103:采用K-modes聚类算法对话题数据源中的数据进行聚类,得到聚类话题;
K-means是一种典型的基于划分的方法,它的目的是将数据分组,各自聚集成若干个类簇(Cluster)。使得在同一个类中的对象之间具有较高的相似度,不同类之间的对象差别尽可能大。算法首先选择K个随机的中心点,每个点被初始化后将代表一个类的中心平均值,对剩下的每个文档,根据它到类中心的距离,距离计算方法如下文中的文本相似性检测所述,以迭代的方式被逐个划分到距离最近的类,然后重新计算每个类的平均值,调整类中心。不断重复这个过程,直到所有的对象都已经被划分都某个类为止。
S104:从聚类话题对应的候选词汇中抽取聚类话题的主题特征,利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征;
潜在语义分析(LSA)是主题建模的基础技术之一。其核心思想是把所拥有的文档-术语矩阵分解成相互独立的文档-主题矩阵和主题-术语矩阵。
第一步是生成文档-术语矩阵。如果在词汇表中给出m个文档和n个单词,我们可以构造一个m×n的矩阵A,其中每行代表一个文档,每列代表一个单词。在LSA的最简单版本中,每一个条目可以简单地是第j个单词在第i个文档中出现次数的原始计数。然而,在实际操作中,原始计数的效果不是很好,因为它们无法考虑文档中每个词的权重。例如,比起「test」来说,「nuclear」这个单词也许更能指出给定文章的主题。
因此,LSA模型通常用tf-idf得分代替文档-术语矩阵中的原始计数。tf-idf,即词频-逆文本频率指数,为文档i中的术语j分配了相应的权重。
也就是说,术语出现在文档中的频率越高,则其权重越大;同时,术语在语料库中出现的频率越低,其权重越大。
一旦拥有文档-术语矩阵A,可思考潜在主题。为了找出能够捕捉单词和文档关系的少数潜在主题,希望能降低矩阵A的维度。
这种降维可以使用截断SVD来执行。SVD,即奇异值分解,是线性代数中的一种技术。该技术将任意矩阵M分解为三个独立矩阵的乘积:M=U*S*V,其中S是矩阵M奇异值的对角矩阵。很大程度上,截断SVD的降维方式是:选择奇异值中最大的t个数,且只保留矩阵U和V的前t列。在这种情况下,t是一个超参数,可根据想要查找的主题数量进行选择和调整。
直观来说,截断SVD可以看作只保留我们变换空间中最重要的t维。
在这种情况下是文档-主题矩阵,而
Figure BDA0002186657100000072
则成为术语-主题矩阵。在矩阵U和V中,每一列对应于t个主题当中的一个。在U中,行表示按主题表达的文档向量;在V中,行代表按主题表达的术语向量。
通过这些文档向量和术语向量,现在应用余弦相似度等度量来评估以下指标:1)不同文档的相似度;2)不同单词的相似度;3)术语(或「queries」)与文档的相似度(当想要检索与查询最相关的段落,即进行信息检索时,这一点将非常有用)。LSA方法的优点是快速且高效。
S105:利用Apriori算法挖掘兴趣特征的表述规则,得到社交媒体账号的观点特征;
Apriori算法的主要思想是通过层次搜索逐层遍历,先找到频繁1项集,然后通过频繁1项集找到频繁2项集。依此类推最后找到频繁N项集。
在发现候选频繁项集过程中,有两个非常重要的步骤。
第一步:就是根据已经发现的N-1阶频繁项集找到所有可能的N项集,这一步骤的名称叫做连接步。就是将符合条件的两个低阶项集合并得到高阶项集。其中的条件就是这两个被选中的N-1阶频繁项集必须有N-2项是一样的,合并后产生的N项集会含有两个N-1阶频繁项集的所有项。然后找到所有这种组合进行合并,就能找到完整的N项集。
第二步:这一步的名称叫做剪枝步。首先有一个事实。一个项集,如果它有任何一个子集不频繁,那么其本身也不频繁。比如{n1,n2}不是频繁项集,那么{n1,n2,n3}必然也不是频繁项集。因为{n1,n2}出现的频率达不到用户设置的最小支持度,那么{n1,n2,n3}的出现频率必然也是达不到的。依据这个事实,可以将哪些由不是频繁项集连接而来的项集直接舍去,提高了算法效率。
其中,利用Apriori算法挖掘兴趣特征的表述规则,得到社交媒体账号的观点特征的过程为:
聚类话题的观点特征存储至原序列数据库,将原序列数据库平均划分为n个不相交的子序列数据库;其中,n为正整数;
利用主节点将n个子序列数据库分派给不同的Map工作节点,每个Map工作节点执行序列模式挖掘算法,按照设定的最小支持度,扫描存放在Map工作节点内存中的子序列数据库,计算出局部序列模式;
将得到的局部序列模式传递给Reduce工作节点,归并处理得到全局候选序列模式;
再一次扫描原序列数据库,找出满足不小于系统设定的最小支持度的序列模式,进而得到观点特征的表征。
每个Map工作节点执行序列模式挖掘算法的过程为:
给定最小支持度ξ,如果序列S在序列数据库中的支持度不低于ξ,则称序列S为序列模式;
其中,序列S在序列数据库的支持度为包含S的序列在序列数据库中所占的百分比;序列S在序列数据库的支持度计数为序列数据库中包含S的序列个数。
S106:利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征;
其中,社交网是基于组织关系进行挖掘而构建得到的。
S107:通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性,来判断两个社交媒体账号是否为同一个账号。
具体地,判断两个社交媒体账号是否为同一个账号的过程为:
根据兴趣特征、观点特征和社交特征的多维度特性,分别对应构建兴趣偏好矩阵,观点矩阵和社交网络矩阵,并通过余弦算法计算兴趣偏好相似矩阵、观点相似性矩阵和社交网络矩阵;
对兴趣偏好相似矩阵、观点相似性矩阵和社交网络矩阵分别赋予相应的权重,对上述三个相似矩阵进行线性加权,得到加权结果;
根据加权结果与设定的阈值比较,得到每个账号的排列在前k个密切相关的账号,进而得到该账号的组织关系;其中,k为正整数。
实施例2
如图2所示,本实施例提供一种社交媒体账号识别系统,其包括:
(1)表单解析模块,其用于以社交媒体数据源中解析出的种子URL为切入点,对页面解析出表单;
(2)话题数据源获取模块,其用于抽取表单中的话题、所有候选词汇及其对应关系,得到话题数据源;
(3)聚类话题获取模块,其用于采用K-modes聚类算法对话题数据源中的数据进行聚类,得到聚类话题;
(4)兴趣特征计算模块,其用于从聚类话题对应的候选词汇中抽取聚类话题的主题特征,利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征;
(5)观点特征计算模块,其用于利用Apriori算法挖掘兴趣特征的表述规则,得到社交媒体账号的观点特征;
(6)社交特征计算模块,其用于利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征;
(7)账号判断模块,其用于通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性,来判断两个社交媒体账号是否为同一个账号。
实施例3
本实施例提供一种计算机可读存储介质,其上存储有计算机程序该程序被处理器执行时实现如图1所示的社交媒体账号识别方法中的步骤。
实施例4
本实施例提供一种计算机终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如图1所示的社交媒体账号识别方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种社交媒体账号识别方法,其特征在于,包括:
以社交媒体数据源中解析出的种子URL为切入点,对页面解析出表单;
抽取表单中的话题、所有候选词汇及其对应关系,得到话题数据源;其中,当表单中的本文为半格式化文本时,首先,分离含有种子词语的语句并为其构建语法树,使用POS方法标注种子词语及其上下文词性;其次,将句子表示成<词语,词性>二元组序列,同时将种子词语替换为标识符;再次,基于序列数据MFS-HT算法挖掘高置信度规则发现候选词汇;
采用K-modes聚类算法对话题数据源中的数据进行聚类,得到聚类话题;
从聚类话题对应的候选词汇中抽取聚类话题的主题特征,利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征;
利用Apriori算法挖掘兴趣特征的表述规则,得到社交媒体账号的观点特征;
利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征;
通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性,来判断两个社交媒体账号是否为同一个账号。
2.如权利要求1所述的社交媒体账号识别方法,其特征在于,在抽取表单中所有候选词汇的过程中,当表单中的本文为无格式文本时,使用词法分析标识种子词语的修饰词,其次,将种子词与修饰词加入轮询起点,采用DP方法发现新词汇;通过与种子词汇互信息计算过滤新发现候选词汇。
3.如权利要求1所述的社交媒体账号识别方法,其特征在于,判断两个社交媒体账号是否为同一个账号的过程为:
根据兴趣特征、观点特征和社交特征的多维度特性,分别对应构建兴趣偏好矩阵,观点矩阵和社交网络矩阵,并通过余弦算法计算兴趣偏好相似矩阵、观点相似性矩阵和社交网络矩阵;
对兴趣偏好相似矩阵、观点相似性矩阵和社交网络矩阵分别赋予相应的权重,对上述三个相似矩阵进行线性加权,得到加权结果;
根据加权结果与设定的阈值比较,得到每个账号的排列在前k个密切相关的账号,进而得到该账号的组织关系;其中,k为正整数。
4.如权利要求1所述的社交媒体账号识别方法,其特征在于,利用Apriori算法挖掘兴趣特征的表述规则,得到社交媒体账号的观点特征的过程为:
聚类话题的观点特征存储至原序列数据库,将原序列数据库平均划分为n个不相交的子序列数据库;其中,n为正整数;
利用主节点将n个子序列数据库分派给不同的Map工作节点,每个Map工作节点执行序列模式挖掘算法,按照设定的最小支持度,扫描存放在Map工作节点内存中的子序列数据库,计算出局部序列模式;
将得到的局部序列模式传递给Reduce工作节点,归并处理得到全局候选序列模式;
再一次扫描原序列数据库,找出满足不小于系统设定的最小支持度的序列模式,进而得到观点特征的表征。
5.如权利要求4所述的社交媒体账号识别方法,其特征在于,每个Map工作节点执行序列模式挖掘算法的过程为:
给定最小支持度ξ,如果序列S在序列数据库中的支持度不低于ξ,则称序列S为序列模式;
其中,序列S在序列数据库的支持度为包含S的序列在序列数据库中所占的百分比;序列S在序列数据库的支持度计数为序列数据库中包含S的序列个数。
6.如权利要求4所述的社交媒体账号识别方法,其特征在于,从社交媒体数据源中解析出的种子URL的过程为:
从社交媒体数据源中抽取出新的网址部分,作为判断新数据源的候选网址;
采用编辑距离匹配算法计算候选网址和初始化数据源的字符串相识度;
若候选网址和初始化数据源的字符串相识度不小于预设相似度阈值,则将候选网址为种子URL;其中,编辑距离越小,相似度越大。
7.一种社交媒体账号识别系统,其特征在于,包括:
表单解析模块,其用于以社交媒体数据源中解析出的种子URL为切入点,对页面解析出表单;
话题数据源获取模块,其用于抽取表单中的话题、所有候选词汇及其对应关系,得到话题数据源;其中,当表单中的本文为半格式化文本时,首先,分离含有种子词语的语句并为其构建语法树,使用POS方法标注种子词语及其上下文词性;其次,将句子表示成<词语,词性>二元组序列,同时将种子词语替换为标识符;再次,基于序列数据MFS-HT算法挖掘高置信度规则发现候选词汇;
聚类话题获取模块,其用于采用K-modes聚类算法对话题数据源中的数据进行聚类,得到聚类话题;
兴趣特征计算模块,其用于从聚类话题对应的候选词汇中抽取聚类话题的主题特征,利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征;
观点特征计算模块,其用于利用Apriori算法挖掘兴趣特征的表述规则,得到社交媒体账号的观点特征;
社交特征计算模块,其用于利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征;
账号判断模块,其用于通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性,来判断两个社交媒体账号是否为同一个账号。
8.如权利要求7所述的社交媒体账号识别系统,其特征在于,在所述话题数据源获取模块中,在抽取表单中所有候选词汇的过程中,当表单中的本文为无格式文本时,使用词法分析标识种子词语的修饰词,其次,将种子词与修饰词加入轮询起点,采用DP方法发现新词汇;通过与种子词汇互信息计算过滤新发现候选词汇。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的社交媒体账号识别方法中的步骤。
10.一种计算机终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的社交媒体账号识别方法中的步骤。
CN201910817167.XA 2019-08-30 2019-08-30 一种社交媒体账号识别方法及系统 Pending CN110688593A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910817167.XA CN110688593A (zh) 2019-08-30 2019-08-30 一种社交媒体账号识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910817167.XA CN110688593A (zh) 2019-08-30 2019-08-30 一种社交媒体账号识别方法及系统

Publications (1)

Publication Number Publication Date
CN110688593A true CN110688593A (zh) 2020-01-14

Family

ID=69107633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910817167.XA Pending CN110688593A (zh) 2019-08-30 2019-08-30 一种社交媒体账号识别方法及系统

Country Status (1)

Country Link
CN (1) CN110688593A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111701247A (zh) * 2020-07-13 2020-09-25 腾讯科技(深圳)有限公司 用于确定统一账号的方法和设备
WO2022105237A1 (zh) * 2020-11-19 2022-05-27 华为技术有限公司 带格式文本的信息抽取方法和装置
CN117131427A (zh) * 2023-10-26 2023-11-28 戎行技术有限公司 一种基于多元nlp的社交平台账号数据关联性分析方法
CN117474703A (zh) * 2023-12-26 2024-01-30 武汉荟友网络科技有限公司 基于社交网络的话题智能推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726292A (zh) * 2019-01-02 2019-05-07 山东省科学院情报研究所 面向大规模多语种数据的文本分析方法和装置
CN109739849A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 一种数据驱动的网络敏感信息挖掘与预警平台
CN110162580A (zh) * 2019-05-24 2019-08-23 合肥蓬桉数据技术服务有限公司 基于分布式预警平台的数据挖掘与深度分析方法及应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726292A (zh) * 2019-01-02 2019-05-07 山东省科学院情报研究所 面向大规模多语种数据的文本分析方法和装置
CN109739849A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 一种数据驱动的网络敏感信息挖掘与预警平台
CN110162580A (zh) * 2019-05-24 2019-08-23 合肥蓬桉数据技术服务有限公司 基于分布式预警平台的数据挖掘与深度分析方法及应用

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111701247A (zh) * 2020-07-13 2020-09-25 腾讯科技(深圳)有限公司 用于确定统一账号的方法和设备
WO2022105237A1 (zh) * 2020-11-19 2022-05-27 华为技术有限公司 带格式文本的信息抽取方法和装置
CN117131427A (zh) * 2023-10-26 2023-11-28 戎行技术有限公司 一种基于多元nlp的社交平台账号数据关联性分析方法
CN117131427B (zh) * 2023-10-26 2024-01-12 戎行技术有限公司 一种基于多元nlp的社交平台账号数据关联性分析方法
CN117474703A (zh) * 2023-12-26 2024-01-30 武汉荟友网络科技有限公司 基于社交网络的话题智能推荐方法
CN117474703B (zh) * 2023-12-26 2024-03-26 武汉荟友网络科技有限公司 基于社交网络的话题智能推荐方法

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
CN110688593A (zh) 一种社交媒体账号识别方法及系统
CA2796061C (en) Ascribing actionable attributes to data that describes a personal identity
Buana et al. Combination of k-nearest neighbor and k-means based on term re-weighting for classify indonesian news
CN108573045A (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
Gonçalves et al. The Impact of Pre-processing on the Classification of MEDLINE Documents
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN114911917B (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN112818121A (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN108197295B (zh) 基于多粒度属性树的属性约简在文本分类中的应用方法
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
Ramakrishnan et al. Hypergraph based clustering for document similarity using FP growth algorithm
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.
Sisodia et al. Performance of unsupervised learning algorithms for online document clustering
CN111339239B (zh) 知识检索方法及装置、存储介质、服务器
CN115906830A (zh) 基于特征主题的金融情报特征提取方法及系统、存储介质
Pamulaparty et al. A novel approach to perform document clustering using effectiveness and efficiency of simhash
WO2017023359A1 (en) Management of content storage and retrieval
CN117725555A (zh) 多源知识树的关联融合方法、装置、电子设备及存储介质
CN107122392B (zh) 词库构建方法、识别搜索需求的方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination