CN115269845B - 一种基于社交网络用户人格的网络对齐方法及系统 - Google Patents

一种基于社交网络用户人格的网络对齐方法及系统 Download PDF

Info

Publication number
CN115269845B
CN115269845B CN202210917923.8A CN202210917923A CN115269845B CN 115269845 B CN115269845 B CN 115269845B CN 202210917923 A CN202210917923 A CN 202210917923A CN 115269845 B CN115269845 B CN 115269845B
Authority
CN
China
Prior art keywords
user
platform
personality
network
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210917923.8A
Other languages
English (en)
Other versions
CN115269845A (zh
Inventor
颜登程
蔡锐
仲红
张以文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ganzhou Youyou E-Commerce Co.,Ltd.
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202210917923.8A priority Critical patent/CN115269845B/zh
Publication of CN115269845A publication Critical patent/CN115269845A/zh
Application granted granted Critical
Publication of CN115269845B publication Critical patent/CN115269845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种基于社交网络用户人格的网络对齐方法及系统,方法包括:采集用户发布内容及多平台网络结构,处理得到统一长度用户文本特征向量及多平台网络结构图;将多平台用户文本放入LIWC中,得到用户大五人格得分;拼接用户文本特征向量得到文本特征矩阵,以图卷积网络处理得到每个用户单平台表示向量;拼接两个用户单平台表示向量,以全连接层获取二分类预测结果;根据网络对齐二分类预测结果进行判断,将各平台表示向量放入全连接层,语言探索及字词计数LIWC得到人格真实值,用户平台表示通过全连接层以获得用户大五人格向量,进行人格预测并辅助网络对齐。本发明解决了信息稳定性差导致对齐效果易受有干扰以及网络对齐精度较低的技术问题。

Description

一种基于社交网络用户人格的网络对齐方法及系统
技术领域
本发明属于社交网络数据挖掘技术领域,涉及基于社交网络用户人格的网络对齐方法。
背景技术
每个社交平台都可以用一个网络来表示,它可以自然地捕捉数据域和信息系统中实体之间的关系。根据网络研究中心的报告,约73%的网民同时使用多个社交媒体平台。因此,大量研究者研究跨网络任务,如跨领域推荐,以及个性化内容推荐等。网络对齐作为许多跨网络任务的前提条件步骤,近年来变得越来越重要。社交网络对齐又称身份对齐。身份对齐通过整合多个具有不同结构和语义的网络,为节点的跨网络分析提供了更加直观和全面的视角。
身份对齐就是确定多网络中的节点对(组)是否属于同一个人。例如,公开号为CN110347932A的现有发明专利文献《一种基于深度学习的跨网络用户对齐方法》公开了一种基于深度学习的网络对齐方法,所述方法通过将参数共享的卷积网络和反卷积网络构成深度学习网络,通过对网络中的已知对齐节点对的联合表示,并对隐式特征进行学习。该现有文献中披露的技术方案中的社交网络对齐的方法没有考虑到用户人格的影响因素,制约了用户对齐的精度。公开号为CN111814066A的现有发明专利文献《基于启发式算法的动态社交用户对齐方法及系统》方法包括:跨网络新增节点权重自适应学习方法,在单网络环境下引入注意力机制获取新节点在单网络中的局部影响权重,在多网络环境下使用跨网络特有的锚节点作为监督信息,启发式学习新节点在用户对齐任务驱动下的局部影响权重;网络局部动态更新,融合上述两种权重,选择需要更新的网络范围,在保持二阶邻居相似度的前提下进行网络局部动态更新,完成用户对齐任务驱动下的多网络用户表示,进而完成动态跨网络用户对齐。该现有文献披露的技术方案采用用户的社交关系以及用户之间关注度等属性信息,以及根据前述关系数据集节点间关注度产生的社交逻辑位置数据等生成内容进行对齐,该现有技术采用的信息稳定性较差,导致对齐效果易受到噪声的影响。
综上,现有技术存在信息稳定性差导致对齐效果易受有干扰以及网络对齐精度较低的技术问题。
发明内容
本发明所要解决的技术问题在于如何解决现有技术中的信息稳定性差导致对齐效果易受有干扰以及网络对齐精度较低的技术问题。
本发明是采用以下技术方案解决上述技术问题的:一种基于社交网络用户人格的网络对齐方法包括:
S1、采集获取多平台用户发布内容及多平台网络结构,预处理多平台用户发布内容中的多平台用户文本,以得到统一长度用户文本特征向量
Figure SMS_1
将多平台网络结构处理为不少于2个的平台网络结构图;
S2、在原数据集的基础上,从预设用户身份信息平台获取跨平台用户身份间链接S,将多平台用户文本放入语言探索及字词计数LIWC中,据以处理得到用户u的大五人格得分
Figure SMS_2
S3、将每个平台用户的统一长度用户文本特征向量
Figure SMS_3
按用户ID拼接为文本特征矩阵,将不同的平台网络结构图与文本特征矩阵输入预置图卷积网络,据以得到每个用户单平台表示向量/>
Figure SMS_4
S4、基于跨平台用户身份间链接S,拼接步骤S3中得到的两个用户单平台表示向量
Figure SMS_5
以作为全连接层输入数据,通过全连接层处理得到网络对齐二分类模型,据以获取二分类预测结果;
S5、将用户单平台表示向量
Figure SMS_6
作为输入,根据二分类预测结果判断是否进行向量拼接处理,若网络对齐二分类结果判断是同一人,判定两边的表示向量代表同一个人的信息,则将各平台表示向量进行均值处理后放入全连接层,若网络对齐二分类结果判断不是同一人,则将各平台的表示向量分别放入全连接层,经由语言探索及字词计数LIWC 对多平台用户文本进行处理分析,据以得到用户大五人格得分,以作为人格预测任务的监督信息,通过全连接层处理监督信息,以获得用户的大五人格向量,据以获取用户人格预测结果并辅助网络对齐。
本发明选择了更加稳定的人格信息。人格具有跨时间的连续性和跨情境的一致性,避免了现有技术通过用户的属性及其生成内容进行对齐导致网络对齐过程受到噪声影响的问题。人格信息对身份对齐的辅助效果在于,同一个人在不同平台上的人格理论上一致性较高,本发明中的人格预测和身份对齐共用一组信息,产生表示向量后,表示向量会趋近,更有利于身份对齐任务。
在更具体的技术方案中,步骤S1包括:
S11、从社交平台官网采集获取多平台用户发布内容及多平台网络结构;
S12、删除多平台用户文本中的非字母字符,并将所有单词转换成小写,以得到用户文本预处理数据;
S13、使用doc2vec对每一个平台用户的用户文本预处理数据生成统一长度用户文本特征向量
Figure SMS_7
S14、将收集到的各平台网络结构表示为平台网络结构图Gn=(Vn,En),其中,Vn为用户,En为用户间的链接。
在更具体的技术方案中,步骤S2包括:
S21、通过Google+获得跨平台用户身份间链接S,以作为身份对齐任务的监督标签;
S22、利用预置LIWC软件分析多平台用户文本,以得到每个用户的五维人格表示向量
Figure SMS_8
S23、采用下述逻辑标准化处理五维人格表示向量,以得到人格真实值五维标签:
Figure SMS_9
其中
Figure SMS_10
S24、根据人格真实值五维标签得到每个用户的大五人格向量
Figure SMS_11
本发明利用LIWC软件对文本内容的词语类别(尤其是心理学类词语)进行量化分析,以反映不同情绪、思维方式、社会关注甚至是话语成分的词汇的百分比,经过分析之后会得到给定文本的处理向量。本发明对用户的五种人格进行处理以得每个用户的大五人格向量
Figure SMS_12
本发明通过采用用户人格表示来进行网络对齐,降低了噪声干扰,提升了网络对齐的精度。
在更具体的技术方案中,步骤S3包括:
S31、将每个平台的统一长度用户文本特征向量
Figure SMS_13
堆叠为文本特征矩阵P,以作为用户属性信息矩阵;
S32、将单网络图G和属性信息P分别输入预置图卷及预置神经网络,以利用下述逻辑进行卷积运算,以得到卷积处理结果:
Figure SMS_14
S33、根据卷积处理结果,由卷积层最后一层的H(l)获取用户的单平台On信息的用户单平台表示向量
Figure SMS_15
本发明中的每一个参与社交网络的用户都会在社交网络上创建一个身份,其中包含属性信息(如性别,生日,学历等),个人生成内容(如文本,图片等)和结构信息(社交联系)。通过这些信息将不同社交网络上的用户身份关系起来称之为身份对齐。不失一般性的,后面以两个平台上的身份对齐为例,也很容易扩展到多平台,提升了对齐效果以及算法的适用性。
在更具体的技术方案中,步骤S4包括:
S41、根据跨平台用户身份间链接S获取用户对,选取其中一部分用户对作为训练集,另一部分作为测试集;
S42、以下述逻辑拼接每个平台的统一长度用户文本特征向量
Figure SMS_16
据以获取用户的最终表示:
Figure SMS_17
S43、将最终表示pi作为全连接层的输入数据,通过softmax以下述逻辑回归预测用户对是否是同一人的概率,据以实现身份对齐的二分类任务:
Figure SMS_18
Figure SMS_19
S44、对测试集计算当前部分模型损失,以使得所身份对齐的二分类任务的参数被训练成预测和标签的交叉熵最小:
Figure SMS_20
其中,N为用于计算损失的用户对的总数,mc为每一对用户对的标签。
在更具体的技术方案中,步骤S5包括:
S51、根据二分类预测结果判断预测用户对是否为同一人;
S52、若是,则获取该用户对的表示向量均值,以作为全连接层的输入数据:
Figure SMS_21
S53、若否,则将用户单平台的表示向量分别作为全连接层的输入数据,据以处理得到预测人格特征qi
S54、比较预测人格特征qi和真实人格特征
Figure SMS_22
并使用均方误差和平均绝对误差评估模型;
S55、将人格预测任务与网络对齐任务一起训练,更新用户的表示。
本发明的身份对齐任务在确认是来自不同平台的用户对是同一个人时,可以利用其他网络的信息来对人格进行一个更准确地预测。以使两个任务是相辅相成,互相促进。
在更具体的技术方案中,步骤S53中,将用户单平台的表示向量分别作为全连接层的输入数据,据以利用下述逻辑处理得到预测人格特征qi
Figure SMS_23
在更具体的技术方案中,步骤S54中,使用均方误差和平均绝对误差以下述逻辑评估模型:
Figure SMS_24
其中
Figure SMS_25
d=5并且包括[qO,qC,qE,qA,qN],/>
Figure SMS_26
是大五人格的真实值,qi是经过全连接层后大五人格的预测值。
在更具体的技术方案中,步骤S55中,以下述逻辑将人格预测任务与网络对齐任务一起训练,以更新用户的表示:
L=λLPER+LNA
其中,λ表示网络对齐任务的训练比例。
在更具体的技术方案中,一种基于社交网络用户人格的网络对齐系统包括:
用户文本平台数据处理模块,用以采集获取多平台用户发布内容及多平台网络结构,预处理多平台用户发布内容中的多平台用户文本,以得到统一长度用户文本特征向量
Figure SMS_27
将多平台网络结构处理为不少于2个的平台网络结构图;
大五人格数据模块,用以在原数据集的基础上,从预设用户身份信息平台获取跨平台用户身份间链接S,将多平台用户文本放入语言探索及字词计数LIWC中,据以处理得到用户u的大五人格得分
Figure SMS_28
大五人格数据模块与用户文本平台数据处理模块连接;
单平台表示模块,将每个平台用户的统一长度用户文本特征向量
Figure SMS_29
按用户ID拼接为文本特征矩阵,将不同的平台网络结构图与文本特征矩阵输入预置图卷积网络,据以得到每个用户单平台表示向量/>
Figure SMS_30
单平台表示模块与大五人格数据模块连接;
网络对齐模块,用以基于跨平台用户身份间链接S,拼接步骤S3中得到的两个用户单平台表示向量
Figure SMS_31
以作为全连接层输入数据,通过全连接层处理得到身份对齐二分类模型,据以获取二分类预测结果,网络对齐模块与单平台表示模块连接;
人格预测模块,用以将用户各平台表示向量
Figure SMS_32
作为输入,根据二分类预测结果判断是否进行拼接处理,若网络对齐二分类结果判断是同一人,意味着两边的表示向量代表同一个人的信息,则将各平台表示向量进行均值处理后放入全连接层,若不是则将各平台的表示向量分别放入全连接层,将多平台用户文本按用户ID放入语言探索及字词技术软件LIWC,据以得到用户大五人格得分,以作为监督信息,通过全连接层处理监督信息,以获得用户的大五人格向量,据以进行人格预测并辅助网络对齐,人格预测模块与网络对齐模块连接。
本发明相比现有技术具有以下优点:本发明选择了更加稳定的人格信息。人格具有跨时间的连续性和跨情境的一致性,避免了现有技术通过用户的属性及其生成内容进行对齐导致网络对齐过程受到噪声影响的问题。人格信息对身份对齐的辅助效果在于,同一个人在不同平台上的人格理论上一致性较高,本发明中的人格预测和身份对齐共用一组信息,产生表示向量后,表示向量会趋近,更有利于身份对齐任务。
本发明利用LIWC软件对文本内容的词语类别(尤其是心理学类词语)进行量化分析,以反映不同情绪、思维方式、社会关注甚至是话语成分的词汇的百分比,经过分析之后会得到给定文本的处理向量。本发明对用户的五种人格进行处理以得每个用户的大五人格向量
Figure SMS_33
本发明通过采用用户人格表示来进行网络对齐,降低了噪声干扰,提升了网络对齐的精度。
本发明中的每一个参与社交网络的用户都会在社交网络上创建一个身份,其中包含属性信息(如性别,生日,学历等),个人生成内容(如文本,图片等)和结构信息(社交联系)。通过这些信息将不同社交网络上的用户身份关系起来称之为身份对齐。不失一般性的,后面以两个平台上的身份对齐为例,也很容易扩展到多平台,提升了对齐效果以及算法的适用性。
本发明的身份对齐任务在确认是来自不同平台的用户对是同一个人时,可以利用其他网络的信息来对人格进行一个更准确地预测。以使两个任务是相辅相成,互相促进。本发明解决了现有技术中存在的信息稳定性差导致对齐效果易受有干扰以及网络对齐精度较低的技术问题。
附图说明
图1为本发明实施例1的基于社交网络用户人格的网络对齐方法基本步骤示意图;
图2为本发明实施例1的用户文本平台数据处理流程示意图;
图3为本发明实施例1的大五人格数据处理流程示意图;
图4为本发明实施例1的用户单平台向量表示获取流程示意图;
图5为本发明实施例1的网络对齐流程示意图;
图6为本发明实施例1的人格预测流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明结合社交网络提供了一种基于人格分析的身份对齐方法包括如下步骤:
S1:在社交网络上收集多平台用户发布内容和网络结构。对各平台收集到的用户文本以用户为单位进行预处理,处理成统一长度向量的形式
Figure SMS_34
将各平台的网络结构处理为图;
S2:在原数据集的基础上,在Google+上获得跨平台用户身份之间的链接S,将用户文本放入LIWC中,获得用户u的大五人格得分
Figure SMS_35
S3:将每个平台用户的文本特征向量按用户拼接为文本特征矩阵,将不同社交网络图结构和文本特征矩阵输入图卷积网络,得到每个用户单平台的表示向量
Figure SMS_36
S4:基于跨网络的链接将步骤S3中得到的两个用户向量拼接作为输入,通过全连接层获得身份对齐的二分类模型;
S5:将用户向量作为输入,根据步骤S4二分类的预测结果判断是否进行处理,若网络对齐二分类结果判断是同一人,意味着两边的表示向量代表同一个人的信息,则将各平台表示向量进行均值处理后放入全连接层,若不是则将各平台的表示向量分别放入全连接层,以LIWC通过用户文本计算出用户大五人格得分作为监督信息,通过全连接层获得用户的大五人格向量。
在本实施例中,身份对齐:每一个参与社交网络的用户都会在社交网络上创建一个身份,其中包含属性信息(如性别,生日,学历等),个人生成内容(如文本,图片等) 和结构信息(社交联系)。通过这些信息将不同社交网络上的用户身份关系起来称之为身份对齐。不失一般性的,后面以两个平台上的身份对齐为例,也很容易扩展到多平台。
如图2所示,步骤S1包括:
S11:在社交平台官网上收集用户发布的文本内容和该平台的网络结构;
S12:对于原数据集我们所做的预处理有:首先删除了文本数据中的非字母字符,并将所有单词转换成小写;
S13:在文本处理完成后,再使用doc2vec对收集到的每一个平台用户的文本生成一个定长的表示向量
Figure SMS_37
初始向量维度为128;
S14:将收集到的各平台网络结构表示为图Gn=(Vn,En),其中Vn为用户,En为用户间的链接。
如图3所示,步骤2包括:
S21:通过Google+获得两平台用户间的链接S,作为身份对齐任务的监督标签;
S22:然后使用LIWC软件对收集到的用户文本信息进行分析,得到每个用户的五维人格表示向量
Figure SMS_38
S23:然后进行标准化。其计算公式如下:
Figure SMS_39
其中
Figure SMS_40
最后,我们得到了人格真实值的五维标签。最后得到每个用户的大五人格向量/>
Figure SMS_41
在本实施例中,LIWC:LIWC(Linguistic Inquiry and Word Count,语言探索与字词计数)是一种可以对文本内容的词语类别(尤其是心理学类词语)进行量化分析的软件。它计算反映不同情绪、思维方式、社会关注甚至是话语成分的词汇的百分比。LIWC程序包括主要的文本分析模块读取文本,然后文本分析模块将文本中的每个单词与用户定义的字典进行比较。词典识别出哪些词与哪些心理类别相关。在读取并计算给定文本中的所有单词后,它计算与每个字典类别匹配的单词占总单词的百分比。经过分析之后会得到给定文本的处理向量,然后我们对该向量进行处理,将给定词的系数分别乘以每维向量,给定的词有'funct','pronoun','ppron','i','we','you','shehe','they','ipron','article','verb','auxverb','past','present','future','adverb','preps','conj','negate','quant','number','swear','social','family','friend','humans','affect','posemo','negemo','anx','anger','sad', 'cogmech','insight','cause','discrep','tentat','certain','inhib','incl','excl','percept','see','hear','feel','bio','body','health','sexual','ingest','relativ','motion','space','time','work', 'achieve','leisure','home','money','relig','death','assent','nonfl','filler'。用户的人格分为五种,表示为开放性、责任性、外倾性、宜人性和神经质性,不同人格给定的系数不同。
如图4所示,步骤S3包括:
S31:将每个平台的用户文本表示向量
Figure SMS_42
堆叠为文本特征矩阵P,作为用户的属性信息矩阵;
S32:将单网络图G和属性信息P分别输入图卷及神经网络,经过卷积运算
Figure SMS_43
S33:卷积层最后一层的H(l)为用户的单平台On信息的表示向量
Figure SMS_44
如图5所示,步骤4包括:
S41:基于步骤S2中收集到的跨平台链接用户对,选取其中一部分作为训练集,另一部分作为测试集;
S42:将跨平台的用户表示拼接在一起为用户的最终表示
Figure SMS_45
S43:将最终表示pi作为全连接层的输入,通过softmax回归预测用户对是否是同一人的概率,最终实现身份对齐的二分类任务。
Figure SMS_46
Figure SMS_47
S44:最后对测试集计算该部分模型损失,为身份对齐任务的参数被训练成预测和标签的交叉熵最小。
Figure SMS_48
其中,N为用于计算损失的用户对的总数,mc为每一对用户对的标签。
如图6所示,步骤S5包括:
S51:基于步骤S4的判断,在已经预测用户对为同一人时,将该用户对的表示向量平均作为全连接层的输入,
Figure SMS_49
在预测该用户对不是同一个人时,那么将用户单平台的表示向量分别作为全连接层的输入。
Figure SMS_50
S52:我们比较了预测人格特征qi和真实人格特征
Figure SMS_51
并使用均方误差和平均绝对误差来评估模型。
Figure SMS_52
其中
Figure SMS_53
d=5并且包括[qo,qc,qE,qA,qN],/>
Figure SMS_54
是大五人格的真实值,qi是经过全连接层后大五人格的预测值。
S53:将人格预测任务与网络对齐任务一起训练,更新用户的表示,两个任务的精度都可以得到提升。
L=λLPER+LNA
λ表示网络对齐任务的训练比例。
综上,本发明选择了更加稳定的人格信息。人格具有跨时间的连续性和跨情境的一致性,避免了现有技术通过用户的属性及其生成内容进行对齐导致网络对齐过程受到噪声影响的问题。人格信息对身份对齐的辅助效果在于,同一个人在不同平台上的人格理论上一致性较高,本发明中的人格预测和身份对齐共用一组信息,产生表示向量后,表示向量会趋近,更有利于身份对齐任务。
本发明利用LIWC软件对文本内容的词语类别(尤其是心理学类词语)进行量化分析,以反映不同情绪、思维方式、社会关注甚至是话语成分的词汇的百分比,经过分析之后会得到给定文本的处理向量。本发明对用户的五种人格进行处理以得每个用户的大五人格向量
Figure SMS_55
本发明通过采用用户人格表示来进行网络对齐,降低了噪声干扰,提升了网络对齐的精度。
本发明中的每一个参与社交网络的用户都会在社交网络上创建一个身份,其中包含属性信息(如性别,生日,学历等),个人生成内容(如文本,图片等)和结构信息(社交联系)。通过这些信息将不同社交网络上的用户身份关系起来称之为身份对齐。不失一般性的,后面以两个平台上的身份对齐为例,也很容易扩展到多平台,提升了对齐效果以及算法的适用性。
本发明的身份对齐任务在确认是来自不同平台的用户对是同一个人时,可以利用其他网络的信息来对人格进行一个更准确地预测。以使两个任务是相辅相成,互相促进。本发明解决了现有技术中存在的信息稳定性差导致对齐效果易受有干扰以及网络对齐精度较低的技术问题。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于社交网络用户人格的网络对齐方法,其特征在于,所述方法包括:
S1、采集获取多平台用户发布内容及多平台网络结构,预处理所述多平台用户发布内容中的多平台用户文本,以得到统一长度用户文本特征向量
Figure QLYQS_1
,将所述多平台网络结构处理为不少于2个的平台网络结构图;
S2、在原数据集的基础上,从预设用户身份信息平台获取跨平台用户身份间链接S,将所述多平台用户文本放入语言探索及字词计数LIWC中,据以处理得到用户u的大五人格得分
Figure QLYQS_2
S3、将每个所述平台用户的所述统一长度用户文本特征向量
Figure QLYQS_3
按用户ID拼接为文本特征矩阵,将不同的平台网络结构图与所述文本特征矩阵输入预置图卷积网络,据以得到每个用户单平台表示向量/>
Figure QLYQS_4
所述步骤S3包括:
S31、将每个平台的所述统一长度用户文本特征向量
Figure QLYQS_5
堆叠为文本特征矩阵P,以作为用户属性信息矩阵;
S32、将单网络图G和属性信息P分别输入预置图卷及预置神经网络,以利用下述逻辑进行卷积运算,以得到卷积处理结果:
Figure QLYQS_6
S33、根据所述卷积处理结果,由卷积层最后一层的H (l) 获取用户的单平台O n 信息的所述用户单平台表示向量
Figure QLYQS_7
S4、基于所述跨平台用户身份间链接S,拼接所述步骤S3中得到的两个所述用户单平台表示向量
Figure QLYQS_8
,以作为全连接层输入数据,通过全连接层处理得到网络对齐二分类模型,据以获取二分类预测结果;
所述步骤S4包括:
S41、根据所述跨平台用户身份间链接S获取用户对,选取其中一部分所述用户对作为训练集,另一部分作为测试集;
S42、以下述逻辑拼接每个平台的所述统一长度用户文本特征向量据以获取用户的最终表示:
Figure QLYQS_9
S43、将所述最终表示p i 作为所述全连接层的输入数据,通过softmax以下述逻辑回归预测用户对是否是同一人的概率,据以实现身份对齐的二分类任务:
Figure QLYQS_10
S44、对所述测试集计算当前部分模型损失,以使得所身份对齐的二分类任务的参数被训练成预测和标签的交叉熵最小:
Figure QLYQS_11
其中,N为用于计算损失的用户对的总数,m c 为每一对用户对的标签;
S5、将所述用户各平台表示向量
Figure QLYQS_12
作为输入,根据所述二分类预测结果判断是否进行向量拼接处理,若所述网络对齐二分类结果判断是同一人,判定两边的表示向量代表同一个人的信息,则将各平台表示向量进行均值处理后放入全连接层,若所述网络对齐二分类结果判断不是同一人,则将各平台的表示向量分别放入所述全连接层,经由语言探索及字词计数LIWC对多平台用户文本进行处理分析,据以得到用户大五人格得分,以作为人格预测任务的监督信息,通过全连接层处理所述监督信息,以获得用户的大五人格向量,据以获取用户人格预测结果并辅助网络对齐;
所述步骤S5包括:
S51、根据所述二分类预测结果判断预测用户对是否为同一人;
S52、若是,则获取该所述用户对的表示向量均值,以作为所述全连接层的输入数据:
Figure QLYQS_13
S53、若否,则将用户单平台的表示向量分别作为所述全连接层的输入数据,据以处理得到预测人格特征q i
S54、比较预测人格特征q i 和真实人格特征
Figure QLYQS_14
,并使用均方误差和平均绝对误差评估模型;
S55、将人格预测任务与网络对齐任务一起训练,更新用户的表示。
2.根据权利要求1所述的一种基于社交网络用户人格的网络对齐方法,其特征在于,所述步骤S1包括:
S11、从社交平台官网采集获取所述多平台用户发布内容及所述多平台网络结构;
S12、删除所述多平台用户文本中的非字母字符,并将所有单词转换成小写,以得到用户文本预处理数据;
S13、使用doc2vec对每一个平台用户的所述用户文本预处理数据生成所述统一长度用户文本特征向量
Figure QLYQS_15
S14、将收集到的各平台网络结构表示为所述平台网络结构图Gn=(Vn ,En),其中,Vn为用户,En为用户间的链接。
3.根据权利要求1所述的一种基于社交网络用户人格的网络对齐方法,其特征在于,所述步骤S2包括:
S21、通过Google+获得所述跨平台用户身份间链接S,以作为身份对齐任务的监督标签;
S22、利用预置LIWC软件分析所述多平台用户文本,以得到每个用户的五维人格表示向量
Figure QLYQS_16
S23、采用下述逻辑标准化处理所述五维人格表示向量,以得到人格真实值五维标签:
Figure QLYQS_17
其中
Figure QLYQS_18
S24、根据所述人格真实值五维标签得到每个用户的所述大五人格向量
Figure QLYQS_19
4.根据权利要求1所述的一种基于社交网络用户人格的网络对齐方法,其特征在于,
所述步骤S53中,将用户单平台的表示向量分别作为所述全连接层的输入数据,据以利用下述逻辑处理得到预测人格特征q i
Figure QLYQS_20
5.根据权利要求1所述的一种基于社交网络用户人格的网络对齐方法,其特征在于,所述步骤S54中,使用均方误差和平均绝对误差以下述逻辑评估所述模型:
Figure QLYQS_21
其中
Figure QLYQS_22
d=5并且包括/>
Figure QLYQS_23
,/>
Figure QLYQS_24
是大五人格的真实值,q i 是经过全连接层后大五人格的预测值。
6.根据权利要求1所述的一种基于社交网络用户人格的网络对齐方法,其特征在于,所述步骤S55中,以下述逻辑将人格预测任务与网络对齐任务一起训练,以更新用户的表示:
Figure QLYQS_25
其中,λ表示网络对齐任务的训练比例。
7.一种基于社交网络用户人格的网络对齐系统,其特征在于,其采用如权利要求1-6中任意一项所述的基于社交网络用户人格的网络对齐方法,所述系统包括:
用户文本平台数据处理模块,用以采集获取多平台用户发布内容及多平台网络结构,预处理所述多平台用户发布内容中的多平台用户文本,以得到统一长度用户文本特征向量将所述多平台网络结构处理为不少于2个的平台网络结构图;
大五人格数据模块,用以在原数据集的基础上,从预设用户身份信息平台获取跨平台用户身份间链接S,将所述多平台用户文本放入语言探索及字词计数LIWC中,据以处理得到用户u的大五人格得分
Figure QLYQS_26
,所述大五人格数据模块与所述用户文本平台数据处理模块连接;
单平台表示模块,用以将每个平台用户的统一长度用户文本特征向量
Figure QLYQS_27
按用户ID拼接为文本特征矩阵,将不同的平台网络结构图与文本特征矩阵输入预置图卷积网络,据以得到每个用户单平台表示向量/>
Figure QLYQS_28
,单平台表示模块与大五人格数据模块连接;
网络对齐模块,用以基于所述跨平台用户身份间链接S,拼接所述步骤S3中得到的两个所述用户单平台表示向量
Figure QLYQS_29
,以作为全连接层输入数据,通过全连接层处理得到身份对齐二分类模型,据以获取二分类预测结果,所述网络对齐模块与所述单平台表示模块连接;
人格预测模块,用以将所述用户各平台表示向量
Figure QLYQS_30
作为输入,根据所述二分类预测结果判断是否进行拼接处理,若所述网络对齐二分类结果判断是同一人,意味着两边的表示向量代表同一个人的信息,则将各平台表示向量进行均值处理后放入全连接层,若所述网络对齐二分类结果判断不是同一人,则将各平台的表示向量分别放入所述全连接层,将多平台用户文本按用户ID放入语言探索及字词技术软件LIWC,据以得到用户大五人格得分,以作为监督信息,通过全连接层处理所述监督信息,以获得用户的大五人格向量,据以进行人格预测并辅助网络对齐,所述人格预测模块与所述网络对齐模块连接。
CN202210917923.8A 2022-08-01 2022-08-01 一种基于社交网络用户人格的网络对齐方法及系统 Active CN115269845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210917923.8A CN115269845B (zh) 2022-08-01 2022-08-01 一种基于社交网络用户人格的网络对齐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210917923.8A CN115269845B (zh) 2022-08-01 2022-08-01 一种基于社交网络用户人格的网络对齐方法及系统

Publications (2)

Publication Number Publication Date
CN115269845A CN115269845A (zh) 2022-11-01
CN115269845B true CN115269845B (zh) 2023-06-23

Family

ID=83747687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210917923.8A Active CN115269845B (zh) 2022-08-01 2022-08-01 一种基于社交网络用户人格的网络对齐方法及系统

Country Status (1)

Country Link
CN (1) CN115269845B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259976A (zh) * 2020-01-21 2020-06-09 中山大学 基于多模态对齐与多向量表征的人格检测方法
CN112528163A (zh) * 2020-12-04 2021-03-19 中山大学 一种基于图卷积网络的社交平台用户职业预测方法
CN113095948A (zh) * 2021-03-24 2021-07-09 西安交通大学 一种基于图神经网络的多源异构网络用户对齐方法
CN113409157A (zh) * 2021-05-19 2021-09-17 桂林电子科技大学 一种跨社交网络用户对齐方法以及装置
CN114461758A (zh) * 2021-12-29 2022-05-10 上海花事电子商务有限公司 一种基于在线社交网络的用户人格识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN109753602B (zh) * 2018-12-04 2020-12-25 中国科学院计算技术研究所 一种基于机器学习的跨社交网络用户身份识别方法和系统
CN111914885B (zh) * 2020-06-19 2024-04-26 合肥工业大学 基于深度学习的多任务人格预测方法和系统
CN113345590B (zh) * 2021-06-29 2022-12-16 安徽大学 一种基于异质图的用户心理健康监测方法及系统
CN113688624A (zh) * 2021-07-26 2021-11-23 北京邮电大学 一种基于语言风格的人格预测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259976A (zh) * 2020-01-21 2020-06-09 中山大学 基于多模态对齐与多向量表征的人格检测方法
CN112528163A (zh) * 2020-12-04 2021-03-19 中山大学 一种基于图卷积网络的社交平台用户职业预测方法
CN113095948A (zh) * 2021-03-24 2021-07-09 西安交通大学 一种基于图神经网络的多源异构网络用户对齐方法
CN113409157A (zh) * 2021-05-19 2021-09-17 桂林电子科技大学 一种跨社交网络用户对齐方法以及装置
CN114461758A (zh) * 2021-12-29 2022-05-10 上海花事电子商务有限公司 一种基于在线社交网络的用户人格识别方法

Also Published As

Publication number Publication date
CN115269845A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN112633010B (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN111061856A (zh) 一种基于知识感知的新闻推荐方法
CN112560432A (zh) 基于图注意力网络的文本情感分析方法
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN114639483A (zh) 一种基于图神经网络的电子病历检索方法及装置
CN113673242A (zh) 一种基于k邻近结点算法和对比学习的文本分类方法
CN113987167A (zh) 基于依赖感知图卷积网络的方面级情感分类方法及系统
CN114429122A (zh) 一种基于循环注意力的方面级情感分析系统和方法
CN115862747A (zh) 一种序列-结构-功能耦合的蛋白质预训练模型构建方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
CN111611375B (zh) 一种基于深度学习和转折关系的文本情感分类方法
JPH0934863A (ja) ニューラルネットワークによる情報統合処理方法
CN115269845B (zh) 一种基于社交网络用户人格的网络对齐方法及系统
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN116932938A (zh) 基于拓扑结构和属性信息的链接预测方法及系统
CN114610871B (zh) 基于人工智能算法的情报系统建模分析方法
CN114239575B (zh) 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备
CN115374281A (zh) 基于多粒度融合和图卷积网络的会话情感分析方法
CN115204171A (zh) 基于超图神经网络的文档级事件抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240117

Address after: 341001 Office Building, 2nd Floor, Building 18, Ruixin Garden, Yeping Road, Lachang Village, Shuinan Town, Zhanggong District, Ganzhou City, Jiangxi Province

Patentee after: Ganzhou Youyou E-Commerce Co.,Ltd.

Address before: 230039 No. 3 fertilizer West Road, Shushan District, Anhui, Hefei

Patentee before: ANHUI University

TR01 Transfer of patent right