CN117131427B

CN117131427B - 一种基于多元nlp的社交平台账号数据关联性分析方法

Info

Publication number: CN117131427B
Application number: CN202311397579.5A
Authority: CN
Inventors: 王巍; 张昊; 赵志庆; 侯玉柱; 董席峰; 张雨铭威
Original assignee: Rongxing Technology Co ltd
Current assignee: Rongxing Technology Co ltd
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-01-12
Anticipated expiration: 2043-10-26
Also published as: CN117131427A

Abstract

本发明涉及数据关联性分析领域，尤其涉及一种基于多元NLP的社交平台账号数据关联性分析方法，包括：S1、获取社交平台的账号数据建立关联账号多级数据；S2、利用所述关联账号多级数据基于多元NLP得到关联账号多级数据特征；S3、利用所述关联账号多级数据特征建立关联性筛选模型；S4、根据所述关联性筛选模型得到社交平台账号数据关联性分析结果，通过引入NLP的多元化改进理念，将基础NLP的处理层级与相关数据种类均有提升，在社交平台上的大批量虚拟数据筛选分类中有较好实施性，同时针对性的提出一二级账号分类与双重模型建立，即提升NLP处理结果性能，又对最终虚拟账号数据关联系分析结果的相关性输出进行保证。

Description

一种基于多元NLP的社交平台账号数据关联性分析方法

技术领域

本发明涉及数据关联性分析领域，具体涉及一种基于多元NLP的社交平台账号数据关联性分析方法。

背景技术

自然语言处理（Natural Language Processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或“理解”自然语言，以执行自动翻译、文本分类和情感分析等。

随着互联网的普及和发展，在网络上会有各种各样的组织的社交媒体帐号在发表言论，然而我们无法将这些组织的社交媒体账号关联到每个组织成员。一些不法分子通过在网络上利用组织帐号宣传引导不良言论，通过多元NLP技术分析，对社交言论的文本数据进行语言分析，根据组织言论、个人言论的基本特征和细节特征进行聚合分析，将组织与个人进行关联，从而将组织和人物关系进行关联，但现有方案中对于NLP的使用过于单薄，不够立体，因此，加强网络安全监管和技术研发成为当前互联网发展的重要任务之一。

发明内容

针对现有技术的不足，本发明提供了一种基于多元NLP的社交平台账号数据关联性分析方法，通过NLP的多元应用与神经网络特征分类结合，提升社交平台中账号与虚拟数据关联性分析准确率。

为实现上述目的，本发明提供了一种基于多元NLP的社交平台账号数据关联性分析方法，包括：

S1、获取社交平台的账号数据建立关联账号多级数据；

S2、利用所述关联账号多级数据基于多元NLP得到关联账号多级数据特征；

S3、利用所述关联账号多级数据特征建立关联性筛选模型；

S4、根据所述关联性筛选模型得到社交平台账号数据关联性分析结果。

优选的，所述获取社交平台的账号数据建立关联账号多级数据包括：

S1-1、获取社交平台的非个人账号对应言论数据与图片数据作为一级数据；

S1-2、判断当前社交平台的非个人账号是否存在个人账号交互行为，若是，则获取个人账号对应言论数据与图片数据作为二级数据，并执行S1-3，否则，利用所述一级数据作为关联账号多级数据；

S1-3、利用所述一级数据与二级数据作为关联账号多级数据。

进一步的，利用所述关联账号多级数据基于多元NLP得到关联账号多级数据特征包括：

S2-1、利用所述关联账号多级数据的言论数据基于NLP得到简要词汇数据；

S2-2、利用所述关联账号多级数据的图片数据得到图片文字提要数据；

S2-3、利用所述简要词汇数据与图片文字提要数据基于多元NLP建立数据链式映射；

S2-4、利用所述数据链式映射作为关联账号多级数据特征。

进一步的，利用所述关联账号多级数据的言论数据基于NLP得到简要词汇数据包括：

判断所述关联账号多级数据是否仅存在一级数据，若是，则利用所述关联账号多级数据的言论数据进行分词处理得到基础简要词汇数据，否则，利用所述关联账号多级数据的言论数据根据一级数据与二级数据分别进行分词处理得到一级数据对应基础简要词汇数据与二级数据对应基础简要词汇数据；

利用所述基础简要词汇数据获取基础简要词汇数据向量；

利用所述基础简要词汇数据向量基于隐马尔科夫模型得到基础简要词汇数据向量对应特征作为简要词汇数据。

进一步的，利用所述关联账号多级数据的图片数据得到图片文字提要数据包括：

利用所述关联账号多级数据的图片数据基于OCR文字识别技术得到初始提取文字数据；

利用所述关联账号多级数据的图片数据与其对应初始提取文字数据建立图片-文字映射；

判断所述图片-文字映射中是否存在相异情况，若是，则利用所述图片-文字映射作为图片文字提要数据，否则，去除存在相异情况的图片-文字映射后，利用所述图片-文字映射作为图片文字提要数据；

其中，所述相异情况为图片数据的内容与初始提取文字数据不对应。

进一步的，利用所述简要词汇数据与图片文字提要数据基于多元NLP建立数据链式映射包括：

S2-3-1、判断所述关联账号多级数据是否仅对应一级数据，若是，则直接执行S2-3-3，否则，执行S2-3-2；

S2-3-2、判断所述关联账号多级数据中一级数据的言论数据与二级数据的言论数据是否对应，若是，则执行S2-3-3，否则，返回S1-2；

S2-3-3、利用所述简要词汇数据进行停用词过滤处理后，基于NLP的词干提取得到简要词汇数据的词干提取数据；

S2-3-4、利用所述图片文字提要数据进行停用词过滤处理后，基于NLP的词形还原得到图片文字提要数据的词形还原数据；

S2-3-5、利用关联账号作为基准与词干提取数据、词形还原数据顺序建立数据链式映射。

进一步的，利用所述关联账号多级数据特征建立关联性筛选模型包括：

S3-1、获取所述关联账号多级数据的简要词汇数据与图片文字提要数据的词向量相似度；

S3-2、利用所述关联账号多级数据特征的数据链式映射根据所述词向量相似度分别建立一类关联性筛选模型与二类关联性筛选模型；

S3-3、利用所述一类关联性筛选模型与二类关联性筛选模型作为关联性筛选模型。

进一步的，利用所述关联账号多级数据特征的数据链式映射根据所述词向量相似度分别建立一类关联性筛选模型与二类关联性筛选模型包括：

S3-2-1、利用所述数据链式映射对应简要词汇数据与图片文字提要数据建立一类训练集；

S3-2-2、利用所述词向量相似度作为权值向量基于L1正则化得到一类损失函数；

S3-2-3、利用所述一类训练集作为输入，一类筛选输出值作为输出，基于单隐含层神经网络进行训练得到初始一类关联性筛选模型；

S3-2-4、利用所述一类损失函数对初始一类关联性筛选模型进行正则化处理得到一类关联性筛选模型；

S3-2-5、判断所述一类关联性筛选模型是否存在异常训练集，若是，则利用所述异常训练集加入一类训练集后，返回S3-2-3；

S3-2-6、利用所述数据链式映射对应词干提取数据与词形还原数据建立二类训练集；

S3-2-7、利用所述二类训练集作为输入，二类筛选输出值作为输出，基于双隐含层神经网络进行训练得到初始二类关联性筛选模型；

其中，所述异常训练集为模型训练过程中输入与输出不匹配的训练集，一类筛选输出值为一类训练集与对应关联账号的对应性，二类筛选输出值包括数据集匹配与关联性匹配，所述数据集匹配为二类训练集与对应一类训练集的匹配，所述关联性匹配为二类训练集与对应关联账号的匹配。

进一步的，根据所述关联性筛选模型得到社交平台账号数据关联性分析结果包括：

利用所述关联性筛选模型中一类关联性筛选模型得到一类关联性筛选结果；

利用所述关联性筛选模型中二类关联性筛选模型得到二类关联性筛选结果；

利用所述一类关联性筛选结果与二类关联性筛选结果根据关联账号多级数据得到社交平台账号数据关联性分析结果。

进一步的，利用所述一类关联性筛选结果与二类关联性筛选结果根据关联账号多级数据得到社交平台账号数据关联性分析结果包括：

当关联账号多级数据仅存在一级数据时，利用所述一类关联性筛选结果与二类关联性筛选结果作为社交平台账号数据关联性分析结果；

当关联账号多级数据存在一级数据与二级数据时，利用所述一类关联性筛选结果作为一级数据关联性分析结果，所述二类关联性筛选结果作为二级数据关联性分析结果；

利用所述一级数据关联性分析结果与二级数据关联性分析结果作为社交平台账号数据关联性分析结果。

与最接近的现有技术相比，本发明具有的有益效果：

通过引入NLP的多元化改进理念，将基础NLP的处理层级与相关数据种类均有提升，在社交平台上的大批量虚拟数据筛选分类中有较好实施性，同时针对性的提出一二级账号分类与双重模型建立，即提升NLP处理结果性能，又对最终虚拟账号数据关联系分析结果的相关性输出进行保证。

附图说明

图1是本发明提供的一种基于多元NLP的社交平台账号数据关联性分析方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：本发明提供了一种基于多元NLP的社交平台账号数据关联性分析方法，如图1所示，包括：

S1、获取社交平台的账号数据建立关联账号多级数据；

S3、利用所述关联账号多级数据特征建立关联性筛选模型；

S1具体包括：

S1-3、利用所述一级数据与二级数据作为关联账号多级数据。

本实施例中，一种基于多元NLP的社交平台账号数据关联性分析方法，所述交互行为在社交平台中可视作点赞、评论、回复、私信等。

S2具体包括：

S2-4、利用所述数据链式映射作为关联账号多级数据特征。

S2-1具体包括：

S2-1-1、判断所述关联账号多级数据是否仅存在一级数据，若是，则利用所述关联账号多级数据的言论数据进行分词处理得到基础简要词汇数据，否则，利用所述关联账号多级数据的言论数据根据一级数据与二级数据分别进行分词处理得到一级数据对应基础简要词汇数据与二级数据对应基础简要词汇数据；

S2-1-2、利用所述基础简要词汇数据获取基础简要词汇数据向量；

S2-1-3、利用所述基础简要词汇数据向量基于隐马尔科夫模型得到基础简要词汇数据向量对应特征作为简要词汇数据。

本实施例中，一种基于多元NLP的社交平台账号数据关联性分析方法，考虑到数据关联性所需的结果需求，因此引入隐马尔科夫模型，并利用其一阶模型方式，如果第i时刻上的取值依赖于且仅依赖于第i-1时刻的取值，如下式所示：

其中，P为马尔科夫齐次函数，x为带入模型中数据。

S2-2具体包括：

S2-2-1、利用所述关联账号多级数据的图片数据基于OCR文字识别技术得到初始提取文字数据；

S2-2-2、利用所述关联账号多级数据的图片数据与其对应初始提取文字数据建立图片-文字映射；

S2-2-3、判断所述图片-文字映射中是否存在相异情况，若是，则利用所述图片-文字映射作为图片文字提要数据，否则，去除存在相异情况的图片-文字映射后，利用所述图片-文字映射作为图片文字提要数据；

S2-3具体包括：

本实施例中，一种基于多元NLP的社交平台账号数据关联性分析方法，所述多元NLP在当前方案实施中，通过NLP的多种实施方式实现第一层多元NLP，包含分词、停用词过滤、词干提取与词形还原，其第二层多元NLP定义为涉及NLP相关数据种类，本方案中包括各项处理后数据、数据间映射等。

S3具体包括：

S3-2具体包括：

本实施例中，一种基于多元NLP的社交平台账号数据关联性分析方法，选择L1正则化处理为解决过拟合问题，但由于一类关联性筛选模型的输入与输出间联系，仅考虑其重点特征即可，因此L1正则化损失函数为：

将简要词汇数据与图片文字提要数据的词向量相似度带入ω，提升一类筛选关联性模型的筛选准确性，其中，n_sample为正则化网络层数，α为超参数，ω为带入词向量相似度，X、y均为变量。

S4具体包括：

S4-1、利用所述关联性筛选模型中一类关联性筛选模型得到一类关联性筛选结果；

S4-2、利用所述关联性筛选模型中二类关联性筛选模型得到二类关联性筛选结果；

S4-3、利用所述一类关联性筛选结果与二类关联性筛选结果根据关联账号多级数据得到社交平台账号数据关联性分析结果。

本实施例中，一种基于多元NLP的社交平台账号数据关联性分析方法，通过上述损失函数正则化补偿，以及多级模型的递归建立，当一级二级模型建立完毕后，可以直接利用模型输出作为关联性筛选结果，避免了模型的验证归纳提升模型效率。

S4-3具体包括：

S4-3-1、当关联账号多级数据仅存在一级数据时，利用所述一类关联性筛选结果与二类关联性筛选结果作为社交平台账号数据关联性分析结果；

S4-3-2、当关联账号多级数据存在一级数据与二级数据时，利用所述一类关联性筛选结果作为一级数据关联性分析结果，所述二类关联性筛选结果作为二级数据关联性分析结果；

S4-3-3、利用所述一级数据关联性分析结果与二级数据关联性分析结果作为社交平台账号数据关联性分析结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于多元NLP的社交平台账号数据关联性分析方法，其特征在于，包括：

S1、获取社交平台的账号数据建立关联账号多级数据；

S1-3、利用所述一级数据与二级数据作为关联账号多级数据；

其中，所述相异情况为图片数据的内容与初始提取文字数据不对应；

S2-3-5、利用关联账号作为基准与词干提取数据、词形还原数据顺序建立数据链式映射；

S2-4、利用所述数据链式映射作为关联账号多级数据特征；

S3、利用所述关联账号多级数据特征建立关联性筛选模型；

其中，所述异常训练集为模型训练过程中输入与输出不匹配的训练集，一类筛选输出值为一类训练集与对应关联账号的对应性，二类筛选输出值包括数据集匹配与关联性匹配，所述数据集匹配为二类训练集与对应一类训练集的匹配，所述关联性匹配为二类训练集与对应关联账号的匹配；

S3-3、利用所述一类关联性筛选模型与二类关联性筛选模型作为关联性筛选模型；

2.如权利要求1所述的一种基于多元NLP的社交平台账号数据关联性分析方法，其特征在于，利用所述关联账号多级数据的言论数据基于NLP得到简要词汇数据包括：

利用所述基础简要词汇数据获取基础简要词汇数据向量；

3.如权利要求1所述的一种基于多元NLP的社交平台账号数据关联性分析方法，其特征在于，根据所述关联性筛选模型得到社交平台账号数据关联性分析结果包括：

4.如权利要求3所述的一种基于多元NLP的社交平台账号数据关联性分析方法，其特征在于，利用所述一类关联性筛选结果与二类关联性筛选结果根据关联账号多级数据得到社交平台账号数据关联性分析结果包括：