CN117131427B - 一种基于多元nlp的社交平台账号数据关联性分析方法 - Google Patents

一种基于多元nlp的社交平台账号数据关联性分析方法 Download PDF

Info

Publication number
CN117131427B
CN117131427B CN202311397579.5A CN202311397579A CN117131427B CN 117131427 B CN117131427 B CN 117131427B CN 202311397579 A CN202311397579 A CN 202311397579A CN 117131427 B CN117131427 B CN 117131427B
Authority
CN
China
Prior art keywords
data
relevance
class
account
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311397579.5A
Other languages
English (en)
Other versions
CN117131427A (zh
Inventor
王巍
张昊
赵志庆
侯玉柱
董席峰
张雨铭威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rongxing Technology Co ltd
Original Assignee
Rongxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rongxing Technology Co ltd filed Critical Rongxing Technology Co ltd
Priority to CN202311397579.5A priority Critical patent/CN117131427B/zh
Publication of CN117131427A publication Critical patent/CN117131427A/zh
Application granted granted Critical
Publication of CN117131427B publication Critical patent/CN117131427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据关联性分析领域,尤其涉及一种基于多元NLP的社交平台账号数据关联性分析方法,包括:S1、获取社交平台的账号数据建立关联账号多级数据;S2、利用所述关联账号多级数据基于多元NLP得到关联账号多级数据特征;S3、利用所述关联账号多级数据特征建立关联性筛选模型;S4、根据所述关联性筛选模型得到社交平台账号数据关联性分析结果,通过引入NLP的多元化改进理念,将基础NLP的处理层级与相关数据种类均有提升,在社交平台上的大批量虚拟数据筛选分类中有较好实施性,同时针对性的提出一二级账号分类与双重模型建立,即提升NLP处理结果性能,又对最终虚拟账号数据关联系分析结果的相关性输出进行保证。

Description

一种基于多元NLP的社交平台账号数据关联性分析方法
技术领域
本发明涉及数据关联性分析领域,具体涉及一种基于多元NLP的社交平台账号数据关联性分析方法。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。
随着互联网的普及和发展,在网络上会有各种各样的组织的社交媒体帐号在发表言论,然而我们无法将这些组织的社交媒体账号关联到每个组织成员。一些不法分子通过在网络上利用组织帐号宣传引导不良言论,通过多元NLP技术分析,对社交言论的文本数据进行语言分析,根据组织言论、个人言论的基本特征和细节特征进行聚合分析,将组织与个人进行关联,从而将组织和人物关系进行关联,但现有方案中对于NLP的使用过于单薄,不够立体,因此,加强网络安全监管和技术研发成为当前互联网发展的重要任务之一。
发明内容
针对现有技术的不足,本发明提供了一种基于多元NLP的社交平台账号数据关联性分析方法,通过NLP的多元应用与神经网络特征分类结合,提升社交平台中账号与虚拟数据关联性分析准确率。
为实现上述目的,本发明提供了一种基于多元NLP的社交平台账号数据关联性分析方法,包括:
S1、获取社交平台的账号数据建立关联账号多级数据;
S2、利用所述关联账号多级数据基于多元NLP得到关联账号多级数据特征;
S3、利用所述关联账号多级数据特征建立关联性筛选模型;
S4、根据所述关联性筛选模型得到社交平台账号数据关联性分析结果。
优选的,所述获取社交平台的账号数据建立关联账号多级数据包括:
S1-1、获取社交平台的非个人账号对应言论数据与图片数据作为一级数据;
S1-2、判断当前社交平台的非个人账号是否存在个人账号交互行为,若是,则获取个人账号对应言论数据与图片数据作为二级数据,并执行S1-3,否则,利用所述一级数据作为关联账号多级数据;
S1-3、利用所述一级数据与二级数据作为关联账号多级数据。
进一步的,利用所述关联账号多级数据基于多元NLP得到关联账号多级数据特征包括:
S2-1、利用所述关联账号多级数据的言论数据基于NLP得到简要词汇数据;
S2-2、利用所述关联账号多级数据的图片数据得到图片文字提要数据;
S2-3、利用所述简要词汇数据与图片文字提要数据基于多元NLP建立数据链式映射;
S2-4、利用所述数据链式映射作为关联账号多级数据特征。
进一步的,利用所述关联账号多级数据的言论数据基于NLP得到简要词汇数据包括:
判断所述关联账号多级数据是否仅存在一级数据,若是,则利用所述关联账号多级数据的言论数据进行分词处理得到基础简要词汇数据,否则,利用所述关联账号多级数据的言论数据根据一级数据与二级数据分别进行分词处理得到一级数据对应基础简要词汇数据与二级数据对应基础简要词汇数据;
利用所述基础简要词汇数据获取基础简要词汇数据向量;
利用所述基础简要词汇数据向量基于隐马尔科夫模型得到基础简要词汇数据向量对应特征作为简要词汇数据。
进一步的,利用所述关联账号多级数据的图片数据得到图片文字提要数据包括:
利用所述关联账号多级数据的图片数据基于OCR文字识别技术得到初始提取文字数据;
利用所述关联账号多级数据的图片数据与其对应初始提取文字数据建立图片-文字映射;
判断所述图片-文字映射中是否存在相异情况,若是,则利用所述图片-文字映射作为图片文字提要数据,否则,去除存在相异情况的图片-文字映射后,利用所述图片-文字映射作为图片文字提要数据;
其中,所述相异情况为图片数据的内容与初始提取文字数据不对应。
进一步的,利用所述简要词汇数据与图片文字提要数据基于多元NLP建立数据链式映射包括:
S2-3-1、判断所述关联账号多级数据是否仅对应一级数据,若是,则直接执行S2-3-3,否则,执行S2-3-2;
S2-3-2、判断所述关联账号多级数据中一级数据的言论数据与二级数据的言论数据是否对应,若是,则执行S2-3-3,否则,返回S1-2;
S2-3-3、利用所述简要词汇数据进行停用词过滤处理后,基于NLP的词干提取得到简要词汇数据的词干提取数据;
S2-3-4、利用所述图片文字提要数据进行停用词过滤处理后,基于NLP的词形还原得到图片文字提要数据的词形还原数据;
S2-3-5、利用关联账号作为基准与词干提取数据、词形还原数据顺序建立数据链式映射。
进一步的,利用所述关联账号多级数据特征建立关联性筛选模型包括:
S3-1、获取所述关联账号多级数据的简要词汇数据与图片文字提要数据的词向量相似度;
S3-2、利用所述关联账号多级数据特征的数据链式映射根据所述词向量相似度分别建立一类关联性筛选模型与二类关联性筛选模型;
S3-3、利用所述一类关联性筛选模型与二类关联性筛选模型作为关联性筛选模型。
进一步的,利用所述关联账号多级数据特征的数据链式映射根据所述词向量相似度分别建立一类关联性筛选模型与二类关联性筛选模型包括:
S3-2-1、利用所述数据链式映射对应简要词汇数据与图片文字提要数据建立一类训练集;
S3-2-2、利用所述词向量相似度作为权值向量基于L1正则化得到一类损失函数;
S3-2-3、利用所述一类训练集作为输入,一类筛选输出值作为输出,基于单隐含层神经网络进行训练得到初始一类关联性筛选模型;
S3-2-4、利用所述一类损失函数对初始一类关联性筛选模型进行正则化处理得到一类关联性筛选模型;
S3-2-5、判断所述一类关联性筛选模型是否存在异常训练集,若是,则利用所述异常训练集加入一类训练集后,返回S3-2-3;
S3-2-6、利用所述数据链式映射对应词干提取数据与词形还原数据建立二类训练集;
S3-2-7、利用所述二类训练集作为输入,二类筛选输出值作为输出,基于双隐含层神经网络进行训练得到初始二类关联性筛选模型;
其中,所述异常训练集为模型训练过程中输入与输出不匹配的训练集,一类筛选输出值为一类训练集与对应关联账号的对应性,二类筛选输出值包括数据集匹配与关联性匹配,所述数据集匹配为二类训练集与对应一类训练集的匹配,所述关联性匹配为二类训练集与对应关联账号的匹配。
进一步的,根据所述关联性筛选模型得到社交平台账号数据关联性分析结果包括:
利用所述关联性筛选模型中一类关联性筛选模型得到一类关联性筛选结果;
利用所述关联性筛选模型中二类关联性筛选模型得到二类关联性筛选结果;
利用所述一类关联性筛选结果与二类关联性筛选结果根据关联账号多级数据得到社交平台账号数据关联性分析结果。
进一步的,利用所述一类关联性筛选结果与二类关联性筛选结果根据关联账号多级数据得到社交平台账号数据关联性分析结果包括:
当关联账号多级数据仅存在一级数据时,利用所述一类关联性筛选结果与二类关联性筛选结果作为社交平台账号数据关联性分析结果;
当关联账号多级数据存在一级数据与二级数据时,利用所述一类关联性筛选结果作为一级数据关联性分析结果,所述二类关联性筛选结果作为二级数据关联性分析结果;
利用所述一级数据关联性分析结果与二级数据关联性分析结果作为社交平台账号数据关联性分析结果。
与最接近的现有技术相比,本发明具有的有益效果:
通过引入NLP的多元化改进理念,将基础NLP的处理层级与相关数据种类均有提升,在社交平台上的大批量虚拟数据筛选分类中有较好实施性,同时针对性的提出一二级账号分类与双重模型建立,即提升NLP处理结果性能,又对最终虚拟账号数据关联系分析结果的相关性输出进行保证。
附图说明
图1是本发明提供的一种基于多元NLP的社交平台账号数据关联性分析方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:本发明提供了一种基于多元NLP的社交平台账号数据关联性分析方法,如图1所示,包括:
S1、获取社交平台的账号数据建立关联账号多级数据;
S2、利用所述关联账号多级数据基于多元NLP得到关联账号多级数据特征;
S3、利用所述关联账号多级数据特征建立关联性筛选模型;
S4、根据所述关联性筛选模型得到社交平台账号数据关联性分析结果。
S1具体包括:
S1-1、获取社交平台的非个人账号对应言论数据与图片数据作为一级数据;
S1-2、判断当前社交平台的非个人账号是否存在个人账号交互行为,若是,则获取个人账号对应言论数据与图片数据作为二级数据,并执行S1-3,否则,利用所述一级数据作为关联账号多级数据;
S1-3、利用所述一级数据与二级数据作为关联账号多级数据。
本实施例中,一种基于多元NLP的社交平台账号数据关联性分析方法,所述交互行为在社交平台中可视作点赞、评论、回复、私信等。
S2具体包括:
S2-1、利用所述关联账号多级数据的言论数据基于NLP得到简要词汇数据;
S2-2、利用所述关联账号多级数据的图片数据得到图片文字提要数据;
S2-3、利用所述简要词汇数据与图片文字提要数据基于多元NLP建立数据链式映射;
S2-4、利用所述数据链式映射作为关联账号多级数据特征。
S2-1具体包括:
S2-1-1、判断所述关联账号多级数据是否仅存在一级数据,若是,则利用所述关联账号多级数据的言论数据进行分词处理得到基础简要词汇数据,否则,利用所述关联账号多级数据的言论数据根据一级数据与二级数据分别进行分词处理得到一级数据对应基础简要词汇数据与二级数据对应基础简要词汇数据;
S2-1-2、利用所述基础简要词汇数据获取基础简要词汇数据向量;
S2-1-3、利用所述基础简要词汇数据向量基于隐马尔科夫模型得到基础简要词汇数据向量对应特征作为简要词汇数据。
本实施例中,一种基于多元NLP的社交平台账号数据关联性分析方法,考虑到数据关联性所需的结果需求,因此引入隐马尔科夫模型,并利用其一阶模型方式,如果第i时刻上的取值依赖于且仅依赖于第i-1时刻的取值,如下式所示:
其中,P为马尔科夫齐次函数,x为带入模型中数据。
S2-2具体包括:
S2-2-1、利用所述关联账号多级数据的图片数据基于OCR文字识别技术得到初始提取文字数据;
S2-2-2、利用所述关联账号多级数据的图片数据与其对应初始提取文字数据建立图片-文字映射;
S2-2-3、判断所述图片-文字映射中是否存在相异情况,若是,则利用所述图片-文字映射作为图片文字提要数据,否则,去除存在相异情况的图片-文字映射后,利用所述图片-文字映射作为图片文字提要数据;
其中,所述相异情况为图片数据的内容与初始提取文字数据不对应。
S2-3具体包括:
S2-3-1、判断所述关联账号多级数据是否仅对应一级数据,若是,则直接执行S2-3-3,否则,执行S2-3-2;
S2-3-2、判断所述关联账号多级数据中一级数据的言论数据与二级数据的言论数据是否对应,若是,则执行S2-3-3,否则,返回S1-2;
S2-3-3、利用所述简要词汇数据进行停用词过滤处理后,基于NLP的词干提取得到简要词汇数据的词干提取数据;
S2-3-4、利用所述图片文字提要数据进行停用词过滤处理后,基于NLP的词形还原得到图片文字提要数据的词形还原数据;
S2-3-5、利用关联账号作为基准与词干提取数据、词形还原数据顺序建立数据链式映射。
本实施例中,一种基于多元NLP的社交平台账号数据关联性分析方法,所述多元NLP在当前方案实施中,通过NLP的多种实施方式实现第一层多元NLP,包含分词、停用词过滤、词干提取与词形还原,其第二层多元NLP定义为涉及NLP相关数据种类,本方案中包括各项处理后数据、数据间映射等。
S3具体包括:
S3-1、获取所述关联账号多级数据的简要词汇数据与图片文字提要数据的词向量相似度;
S3-2、利用所述关联账号多级数据特征的数据链式映射根据所述词向量相似度分别建立一类关联性筛选模型与二类关联性筛选模型;
S3-3、利用所述一类关联性筛选模型与二类关联性筛选模型作为关联性筛选模型。
S3-2具体包括:
S3-2-1、利用所述数据链式映射对应简要词汇数据与图片文字提要数据建立一类训练集;
S3-2-2、利用所述词向量相似度作为权值向量基于L1正则化得到一类损失函数;
S3-2-3、利用所述一类训练集作为输入,一类筛选输出值作为输出,基于单隐含层神经网络进行训练得到初始一类关联性筛选模型;
S3-2-4、利用所述一类损失函数对初始一类关联性筛选模型进行正则化处理得到一类关联性筛选模型;
S3-2-5、判断所述一类关联性筛选模型是否存在异常训练集,若是,则利用所述异常训练集加入一类训练集后,返回S3-2-3;
S3-2-6、利用所述数据链式映射对应词干提取数据与词形还原数据建立二类训练集;
S3-2-7、利用所述二类训练集作为输入,二类筛选输出值作为输出,基于双隐含层神经网络进行训练得到初始二类关联性筛选模型;
其中,所述异常训练集为模型训练过程中输入与输出不匹配的训练集,一类筛选输出值为一类训练集与对应关联账号的对应性,二类筛选输出值包括数据集匹配与关联性匹配,所述数据集匹配为二类训练集与对应一类训练集的匹配,所述关联性匹配为二类训练集与对应关联账号的匹配。
本实施例中,一种基于多元NLP的社交平台账号数据关联性分析方法,选择L1正则化处理为解决过拟合问题,但由于一类关联性筛选模型的输入与输出间联系,仅考虑其重点特征即可,因此L1正则化损失函数为:
将简要词汇数据与图片文字提要数据的词向量相似度带入ω,提升一类筛选关联性模型的筛选准确性,其中,nsample为正则化网络层数,α为超参数,ω为带入词向量相似度,X、y均为变量。
S4具体包括:
S4-1、利用所述关联性筛选模型中一类关联性筛选模型得到一类关联性筛选结果;
S4-2、利用所述关联性筛选模型中二类关联性筛选模型得到二类关联性筛选结果;
S4-3、利用所述一类关联性筛选结果与二类关联性筛选结果根据关联账号多级数据得到社交平台账号数据关联性分析结果。
本实施例中,一种基于多元NLP的社交平台账号数据关联性分析方法,通过上述损失函数正则化补偿,以及多级模型的递归建立,当一级二级模型建立完毕后,可以直接利用模型输出作为关联性筛选结果,避免了模型的验证归纳提升模型效率。
S4-3具体包括:
S4-3-1、当关联账号多级数据仅存在一级数据时,利用所述一类关联性筛选结果与二类关联性筛选结果作为社交平台账号数据关联性分析结果;
S4-3-2、当关联账号多级数据存在一级数据与二级数据时,利用所述一类关联性筛选结果作为一级数据关联性分析结果,所述二类关联性筛选结果作为二级数据关联性分析结果;
S4-3-3、利用所述一级数据关联性分析结果与二级数据关联性分析结果作为社交平台账号数据关联性分析结果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (4)

1.一种基于多元NLP的社交平台账号数据关联性分析方法,其特征在于,包括:
S1、获取社交平台的账号数据建立关联账号多级数据;
S1-1、获取社交平台的非个人账号对应言论数据与图片数据作为一级数据;
S1-2、判断当前社交平台的非个人账号是否存在个人账号交互行为,若是,则获取个人账号对应言论数据与图片数据作为二级数据,并执行S1-3,否则,利用所述一级数据作为关联账号多级数据;
S1-3、利用所述一级数据与二级数据作为关联账号多级数据;
S2、利用所述关联账号多级数据基于多元NLP得到关联账号多级数据特征;
S2-1、利用所述关联账号多级数据的言论数据基于NLP得到简要词汇数据;
S2-2、利用所述关联账号多级数据的图片数据得到图片文字提要数据;
S2-2-1、利用所述关联账号多级数据的图片数据基于OCR文字识别技术得到初始提取文字数据;
S2-2-2、利用所述关联账号多级数据的图片数据与其对应初始提取文字数据建立图片-文字映射;
S2-2-3、判断所述图片-文字映射中是否存在相异情况,若是,则利用所述图片-文字映射作为图片文字提要数据,否则,去除存在相异情况的图片-文字映射后,利用所述图片-文字映射作为图片文字提要数据;
其中,所述相异情况为图片数据的内容与初始提取文字数据不对应;
S2-3、利用所述简要词汇数据与图片文字提要数据基于多元NLP建立数据链式映射;
S2-3-1、判断所述关联账号多级数据是否仅对应一级数据,若是,则直接执行S2-3-3,否则,执行S2-3-2;
S2-3-2、判断所述关联账号多级数据中一级数据的言论数据与二级数据的言论数据是否对应,若是,则执行S2-3-3,否则,返回S1-2;
S2-3-3、利用所述简要词汇数据进行停用词过滤处理后,基于NLP的词干提取得到简要词汇数据的词干提取数据;
S2-3-4、利用所述图片文字提要数据进行停用词过滤处理后,基于NLP的词形还原得到图片文字提要数据的词形还原数据;
S2-3-5、利用关联账号作为基准与词干提取数据、词形还原数据顺序建立数据链式映射;
S2-4、利用所述数据链式映射作为关联账号多级数据特征;
S3、利用所述关联账号多级数据特征建立关联性筛选模型;
S3-1、获取所述关联账号多级数据的简要词汇数据与图片文字提要数据的词向量相似度;
S3-2、利用所述关联账号多级数据特征的数据链式映射根据所述词向量相似度分别建立一类关联性筛选模型与二类关联性筛选模型;
S3-2-1、利用所述数据链式映射对应简要词汇数据与图片文字提要数据建立一类训练集;
S3-2-2、利用所述词向量相似度作为权值向量基于L1正则化得到一类损失函数;
S3-2-3、利用所述一类训练集作为输入,一类筛选输出值作为输出,基于单隐含层神经网络进行训练得到初始一类关联性筛选模型;
S3-2-4、利用所述一类损失函数对初始一类关联性筛选模型进行正则化处理得到一类关联性筛选模型;
S3-2-5、判断所述一类关联性筛选模型是否存在异常训练集,若是,则利用所述异常训练集加入一类训练集后,返回S3-2-3;
S3-2-6、利用所述数据链式映射对应词干提取数据与词形还原数据建立二类训练集;
S3-2-7、利用所述二类训练集作为输入,二类筛选输出值作为输出,基于双隐含层神经网络进行训练得到初始二类关联性筛选模型;
其中,所述异常训练集为模型训练过程中输入与输出不匹配的训练集,一类筛选输出值为一类训练集与对应关联账号的对应性,二类筛选输出值包括数据集匹配与关联性匹配,所述数据集匹配为二类训练集与对应一类训练集的匹配,所述关联性匹配为二类训练集与对应关联账号的匹配;
S3-3、利用所述一类关联性筛选模型与二类关联性筛选模型作为关联性筛选模型;
S4、根据所述关联性筛选模型得到社交平台账号数据关联性分析结果。
2.如权利要求1所述的一种基于多元NLP的社交平台账号数据关联性分析方法,其特征在于,利用所述关联账号多级数据的言论数据基于NLP得到简要词汇数据包括:
判断所述关联账号多级数据是否仅存在一级数据,若是,则利用所述关联账号多级数据的言论数据进行分词处理得到基础简要词汇数据,否则,利用所述关联账号多级数据的言论数据根据一级数据与二级数据分别进行分词处理得到一级数据对应基础简要词汇数据与二级数据对应基础简要词汇数据;
利用所述基础简要词汇数据获取基础简要词汇数据向量;
利用所述基础简要词汇数据向量基于隐马尔科夫模型得到基础简要词汇数据向量对应特征作为简要词汇数据。
3.如权利要求1所述的一种基于多元NLP的社交平台账号数据关联性分析方法,其特征在于,根据所述关联性筛选模型得到社交平台账号数据关联性分析结果包括:
利用所述关联性筛选模型中一类关联性筛选模型得到一类关联性筛选结果;
利用所述关联性筛选模型中二类关联性筛选模型得到二类关联性筛选结果;
利用所述一类关联性筛选结果与二类关联性筛选结果根据关联账号多级数据得到社交平台账号数据关联性分析结果。
4.如权利要求3所述的一种基于多元NLP的社交平台账号数据关联性分析方法,其特征在于,利用所述一类关联性筛选结果与二类关联性筛选结果根据关联账号多级数据得到社交平台账号数据关联性分析结果包括:
当关联账号多级数据仅存在一级数据时,利用所述一类关联性筛选结果与二类关联性筛选结果作为社交平台账号数据关联性分析结果;
当关联账号多级数据存在一级数据与二级数据时,利用所述一类关联性筛选结果作为一级数据关联性分析结果,所述二类关联性筛选结果作为二级数据关联性分析结果;
利用所述一级数据关联性分析结果与二级数据关联性分析结果作为社交平台账号数据关联性分析结果。
CN202311397579.5A 2023-10-26 2023-10-26 一种基于多元nlp的社交平台账号数据关联性分析方法 Active CN117131427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311397579.5A CN117131427B (zh) 2023-10-26 2023-10-26 一种基于多元nlp的社交平台账号数据关联性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311397579.5A CN117131427B (zh) 2023-10-26 2023-10-26 一种基于多元nlp的社交平台账号数据关联性分析方法

Publications (2)

Publication Number Publication Date
CN117131427A CN117131427A (zh) 2023-11-28
CN117131427B true CN117131427B (zh) 2024-01-12

Family

ID=88851235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311397579.5A Active CN117131427B (zh) 2023-10-26 2023-10-26 一种基于多元nlp的社交平台账号数据关联性分析方法

Country Status (1)

Country Link
CN (1) CN117131427B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457472A (zh) * 2019-07-16 2019-11-15 天津大学 基于som聚类算法的针对电商产品评论的情感关联分析方法
CN110688593A (zh) * 2019-08-30 2020-01-14 安徽芃睿科技有限公司 一种社交媒体账号识别方法及系统
CN111695019A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 一种识别关联账号的方法及装置
CN115186240A (zh) * 2022-07-07 2022-10-14 国家计算机网络与信息安全管理中心 基于关联性信息的社交网络用户对齐方法、装置、介质
CN115238688A (zh) * 2022-08-15 2022-10-25 广州市刑事科学技术研究所 电子信息数据关联关系分析方法、装置、设备和存储介质
CN115423639A (zh) * 2022-09-07 2022-12-02 四川大学 一种面向社交网络的安全社区发现方法
CN115828906A (zh) * 2023-02-15 2023-03-21 天津戎行集团有限公司 一种基于nlp的网络异常言论分析监测方法
CN116049527A (zh) * 2023-01-04 2023-05-02 南京星耀智能科技有限公司 一种面向军事领域的社交网络特定目标账号挖掘方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457472A (zh) * 2019-07-16 2019-11-15 天津大学 基于som聚类算法的针对电商产品评论的情感关联分析方法
CN110688593A (zh) * 2019-08-30 2020-01-14 安徽芃睿科技有限公司 一种社交媒体账号识别方法及系统
CN111695019A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 一种识别关联账号的方法及装置
CN115186240A (zh) * 2022-07-07 2022-10-14 国家计算机网络与信息安全管理中心 基于关联性信息的社交网络用户对齐方法、装置、介质
CN115238688A (zh) * 2022-08-15 2022-10-25 广州市刑事科学技术研究所 电子信息数据关联关系分析方法、装置、设备和存储介质
CN115423639A (zh) * 2022-09-07 2022-12-02 四川大学 一种面向社交网络的安全社区发现方法
CN116049527A (zh) * 2023-01-04 2023-05-02 南京星耀智能科技有限公司 一种面向军事领域的社交网络特定目标账号挖掘方法
CN115828906A (zh) * 2023-02-15 2023-03-21 天津戎行集团有限公司 一种基于nlp的网络异常言论分析监测方法

Also Published As

Publication number Publication date
CN117131427A (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
Liu et al. A spam transformer model for SMS spam detection
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
Zhang et al. Top-down tree long short-term memory networks
CN108595696A (zh) 一种基于云平台的人机交互智能问答方法和系统
CN117033571A (zh) 知识问答系统构建方法及系统
CN111027292B (zh) 一种限定采样文本序列生成方法及其系统
CN113282714B (zh) 一种基于区分性词向量表示的事件检测方法
CN115408525B (zh) 基于多层级标签的信访文本分类方法、装置、设备及介质
CN109582963A (zh) 一种基于极限学习机的档案自动分类方法
CN116911289B (zh) 政务领域大模型可信文本生成方法、装置及存储介质
CN114065199B (zh) 一种跨平台恶意代码检测方法及系统
Gasmi et al. Cold-start cybersecurity ontology population using information extraction with LSTM
CN114265937A (zh) 科技情报的智能分类分析方法、系统、存储介质及服务器
CN111738018A (zh) 一种意图理解方法、装置、设备及存储介质
CN115982337A (zh) 一种在线对话中面向事务办理的意图识别方法
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN117131427B (zh) 一种基于多元nlp的社交平台账号数据关联性分析方法
CN115080736B (zh) 一种判别式语言模型的模型调整方法及装置
CN116595530A (zh) 一种结合对抗迁移学习和多任务学习的智能合约漏洞检测方法
CN116070642A (zh) 一种基于表情嵌入的文本情感分析方法及相关装置
CN115658921A (zh) 一种基于预训练语言模型的开放域科学知识发现方法和装置
CN110188330B (zh) 确定相似文本信息的方法、装置、电子设备及存储介质
CN113469237A (zh) 用户意图识别方法、装置、电子设备及存储介质
CN117009533B (zh) 一种基于分聚类抽取与词向量模型的暗语识别方法
CN111666755A (zh) 一种复述句识别的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant