CN115587262B - 基于语义增强的用户身份关联方法 - Google Patents

基于语义增强的用户身份关联方法 Download PDF

Info

Publication number
CN115587262B
CN115587262B CN202211590194.6A CN202211590194A CN115587262B CN 115587262 B CN115587262 B CN 115587262B CN 202211590194 A CN202211590194 A CN 202211590194A CN 115587262 B CN115587262 B CN 115587262B
Authority
CN
China
Prior art keywords
user
text
homepage
platform
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211590194.6A
Other languages
English (en)
Other versions
CN115587262A (zh
Inventor
马行空
邱厚杰
刘波
李少勇
洪学恕
陈鑫益
李国伟
李华钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211590194.6A priority Critical patent/CN115587262B/zh
Publication of CN115587262A publication Critical patent/CN115587262A/zh
Application granted granted Critical
Publication of CN115587262B publication Critical patent/CN115587262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及基于语义增强的用户身份关联方法,包括:获取公开链接的平台用户主页数据;对平台用户主页数据进行数据预处理,得到统一语言的用户主页信息;采用基于模板的主页语义增强方法,根据用户主页信息构建结构化的个人主页文本;对个人主页文本进行数据采样,得到链接的正样本和没有链接的负样本;对正样本和负样本进行文本嵌入,得到个人主页文本对应的输入特征向量集;调用构建的双向长短期记忆网络,基于输入特征向量集进行模型训练与识别测试,得到用户身份关联结果。解决了平台之间类别弱关联、同一平台属性缺失与属性语义充分表达的问题,以主页语义增强的结构化表示用户主页识别特征,达到了大幅增强用户识别链接性能的效果。

Description

基于语义增强的用户身份关联方法
技术领域
本发明属于用户数据处理技术领域,涉及一种基于语义增强的用户身份关联方法。
背景技术
在线社交网络平台(OnlineSocial Network Platforms)是互联网中为用户提供不同社交网络服务的平台,人们可以在不同的在线社交网络平台上注册账户,享受不同的社交网络服务并拥有相似的用户识别(user identity)特征,包括用户主页(UserProfile)、网络结构(NetworkStructure)、用户生成的内容(User-Generated Content)等。用户识别链接(User Identity Linkage,UIL)任务是在给定的多个在线社交网络平台上,根据用户识别特征将不同社交网络之中的用户链接到现实世界的同一个人。据报告统计,2020年社交网络上已有44.8亿用户量,平均每人拥有8.4个社交账户,凸显了用户识别链接问题的重要性与价值。
用户主页是社交网络中描述用户的一类识别特征,反映了社交网络的用户基本信息。个人主页一般包含用户昵称(Screen Name)、用户名(UserName)、语言(Languages)、地点(Location)和描述(Description)等属性类别。用户昵称属性是用户自己输入到主页中的自定义名字,用户昵称属性是代表了社交网络上该用户的独特识别符,语言属性是用户内容发布以及日常使用的语言类别,地点属性是用户居住的地理位置,描述属性是用户阐述自己的其他在线社交网络平台的用户名、职业经历与教育经历等自传内容的信息。
基于主页的用户识别链接(Profile-based User Identity Linkage)任务是给定不同的在线社交网络平台的两个用户个人主页识别特征,判断两个用户是否为现实世界的同一个人。传统的识别方法聚焦在主页属性距离与主页属性值频率两方面,包括了编辑距离方法、Jaro-Winkler距离方法和TF-IDF模型等。然而,在实现本发明的过程中,发明人发现前述传统的识别方法存在着用户识别链接性能不高的技术问题。
发明内容
针对上述传统方法中存在的问题,本发明提出了一种基于语义增强的用户身份关联方法和一种基于语义增强的用户身份关联装置,能够大幅增强用户识别链接性能。
为了实现上述目的,本发明实施例采用以下技术方案:
一方面,提供一种基于语义增强的用户身份关联方法,包括步骤:
获取公开链接的平台用户主页数据;
对平台用户主页数据进行数据预处理,得到统一语言的用户主页信息;
采用基于模板的主页语义增强方法,根据用户主页信息构建结构化的个人主页文本;
对个人主页文本进行数据采样,得到链接的正样本和没有链接的负样本;
对正样本和负样本进行文本嵌入,得到个人主页文本对应的输入特征向量集;
调用构建的双向长短期记忆网络,基于输入特征向量集进行模型训练与识别测试,得到用户身份关联结果。
在其中一个实施例中,对平台用户主页数据进行数据预处理的过程,包括:
调用选定的翻译接口将平台用户主页数据的所有属性都转译为设定语言文本;
将平台用户主页数据的文本中存在的表情符号转化为情感文本;
根据字符的统一码编码值对文本中每个属性值的字符进行合法性检测,剔除非法字符;
根据正则规则检测并剔除文本中含有的网络链接;
对于每个属性值,若属性值最终为空值且属性类别为语言,则调用选定的语言检测接口根据采集的用户推文进行语言检测;
若语言检测中出现多个语言类别则选取占比最高的前两个语言类别用设定符号连接后作为属性值相应的新属性值。
在其中一个实施例中,采用基于模板的主页语义增强方法,根据用户主页信息构建结构化的个人主页文本的步骤,包括:
调用地理位置API将用户主页信息中的地点信息进行范围扩展;
将用户主页信息的属性按照属性值与设定特征词拼接整合的方式进行主页语义增强,得到结构化的个人主页文本。
在其中一个实施例中,对个人主页文本进行数据采样,得到链接的正样本的过程,包括:
初始化正样本列表、负样本列表和标签列表;
根据个人主页文本链接的用户标识,遍历个人主页文本将对应用户标识的个人主页文本配对为元组形式并添加到正样本列表中,将[0,1]添加到标签列表。
在其中一个实施例中,对个人主页文本进行数据采样,得到没有链接的负样本的过程,包括:
根据个人主页文本调用Python中Random库的randInt方法,随机生成平台用户索引;
对平台用户索引进行去重处理;
根据去重后的平台用户索引,获取正样本列表对应位置的个人主页文本并配对为元组形式添加到负样本列表中,将[1,0]添加到标签列表;
返回根据个人主页文本调用Python中Random库的randInt方法,随机生成平台用户索引的步骤,直至负样本列表中负样本的数量等于正样本列表中最终正样本的数量。
在其中一个实施例中,对正样本和负样本进行文本嵌入,得到个人主页文本对应的输入特征向量集的步骤,包括:
进行Bertweet-LM模型初始化;
利用初始化后的Bertweet-LM模型遍历最终的样本列表的所有元组进行文本分词;最终的样本列表通过正样本列表与负样本列表拼接得到;
遍历最终的样本列表的所有元组,利用初始化后的Bertweet-LM模型对每个元组中的平台令牌序列进行嵌入得到元组对应的特征向量;
利用所有元组对应的特征向量生成输入特征向量集。
在其中一个实施例中,调用构建的双向长短期记忆网络的过程,包括:
调用Bi-LSTM网络与全连接层构成的双向长短期记忆网络;
将输入特征向量集及相应标签按照设定比例划分成训练集和测试集。
在其中一个实施例中,基于输入特征向量集进行模型训练的过程,包括:
使用交叉熵函数作为双向长短期记忆网络的损失函数并选择Adamax优化器为双向长短期记忆网络的优化器;
利用训练集对双向长短期记忆网络进行多个回合训练,每个回合训练遍历一次训练集并对每个批量训练样本执行分类概率计算和损失处理。
在其中一个实施例中,基于输入特征向量集进行识别测试的过程,包括:
将指标系数初始化,遍历测试集并对每个测试样本执行特征向量输出预测处理和指标系数更新处理;
根据最终的指标系数计算评价指标参数;评价指标参数包括准确率、精确率、召回率和F1分数;
调整评价指标参数获取最优的双向长短期记忆网络;
将在线获取的输入特征向量集输入最优的双向长短期记忆网络,输出用户识别链接预测结果作为用户身份关联结果。
另一方面,还提供一种基于语义增强的用户身份关联装置,包括:
数据获取模块,用于获取公开链接的平台用户主页数据;
预处理模块,用于对平台用户主页数据进行数据预处理,得到统一语言的用户主页信息;
文本构建模块,用于采用基于模板的主页语义增强方法,根据用户主页信息构建结构化的个人主页文本;
数据采样模块,用于对个人主页文本进行数据采样,得到链接的正样本和没有链接的负样本;
文本嵌入模块,用于对正样本和负样本进行文本嵌入,得到个人主页文本对应的输入特征向量集;
训练识别模块,用于调用构建的双向长短期记忆网络,基于输入特征向量集进行模型训练与识别测试,得到用户身份关联结果。
上述技术方案中的一个技术方案具有如下优点和有益效果:
上述基于语义增强的用户身份关联方法,通过收集公开链接的平台用户主页数据后,经过数据预处理在进行主页语义增强构建结构化的个人主页文本,对样本进行数据采样形成样本列表后,对样本进行文本嵌入形成相应的输入特征向量,最后利用构建的双向长短期记忆网络,基于输入特征向量集进行模型训练与识别测试,得到用户身份关联结果,实现用户识别链接。相比于传统技术,上述方案突出了主页属性语义特征的作用,解决了平台之间类别弱关联、同一平台属性缺失与属性语义充分表达的问题,以一种主页语义增强的结构化表示用户主页识别特征,达到了大幅增强用户识别链接性能的效果。
附图说明
为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中基于语义增强的用户身份关联方法的流程示意图;
图2为一个实施例中数据预处理的流程示意图;
图3为一个实施例中特征向量生成的流程示意图;
图4为一个实施例中基于语义增强的用户身份关联装置的模块结构示意图;
图5为一个实施例中基于语义增强的用户身份关联装置的整体业务流程框架示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
需要说明的是,在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。
本领域技术人员可以理解,本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在实践研究中,发明人发现主页的类别属性在不同的在线社交网络平台之间并不一一对应,而是部分属性类别重叠,部分属性关联性弱;同一个平台之间的所有用户个人主页属性也并不完整,存在部分类别属性缺失与语言不同的问题;同一个用户个人主页的不同类别属性值之间可能存在一定的语义关联。
过去的研究工作难以应对平台之间类别弱关联与同一平台属性缺失带来的挑战,也没有从语义的角度考虑属性之间的关联性,造成了同一用户主页属性孤立。因此,如何进行合适的数据预处理,设计配套的模型结构,突出主页属性语义特征的作用,解决平台之间类别弱关联、同一平台属性缺失与属性语义充分表达问题,以一种主页语义增强的结构化表示用户主页识别特征,是用户识别链接极为关注的问题。
下面将结合本发明实施例图中的附图,对本发明实施方式进行详细说明。
请参阅图1,在一个实施例中,本申请实施例提供了一种基于语义增强的用户身份关联方法,包括如下处理步骤S12至S22:
S12,获取公开链接的平台用户主页数据;
S14,对平台用户主页数据进行数据预处理,得到统一语言的用户主页信息;
S16,采用基于模板的主页语义增强方法,根据用户主页信息构建结构化的个人主页文本;
S18,对个人主页文本进行数据采样,得到链接的正样本和没有链接的负样本;
S20,对正样本和负样本进行文本嵌入,得到个人主页文本对应的输入特征向量集;
S22,调用构建的双向长短期记忆网络,基于输入特征向量集进行模型训练与识别测试,得到用户身份关联结果。
可以理解,可以收集公开链接的平台用户主页数据,例如Facebook平台、Twitter平台用户主页数据或者其他在线社交网络平台,然后通过数据预处理统一语言,补充缺失属性,处理非法字符和表情包;再通过基于模板的主页语义增强方法,构建结构化的个人主页文本,以增强个人主页属性的语义表达,强化属性之间的关联性;对得到的个人主页文本进行数据采样,得到链接的正样本(Positive Samples)和没有链接的负样本(NegativeSamples),将这些样本进行文本嵌入,以将结构化的个人主页文本转化为相应的输入特征向量;最后利用构建的双向长短期记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)进行分类训练与测试,实现用户识别链接。
上述基于语义增强的用户身份关联方法,通过收集公开链接的平台用户主页数据后,经过数据预处理在进行主页语义增强构建结构化的个人主页文本,对样本进行数据采样形成样本列表后,对样本进行文本嵌入形成相应的输入特征向量,最后利用构建的双向长短期记忆网络,基于输入特征向量集进行模型训练与识别测试,得到用户身份关联结果,实现用户识别链接。相比于传统技术,上述方案突出了主页属性语义特征的作用,解决了平台之间类别弱关联、同一平台属性缺失与属性语义充分表达的问题,以一种主页语义增强的结构化表示用户主页识别特征,达到了大幅增强用户识别链接性能的效果。
在一个实施例中,进一步的,关于上述获取公开链接的平台用户主页数据的步骤,具体可以包括如下处理:收集公开链接的在线社交网络平台的用户主页数据与一定数量的用户贴文数据,例如对于其中Facebook平台主页数据包括的属性类别为用户名、用户昵称、居住地、语言、教育描述、工作描述和社交描述;Twitter平台主页数据包括的属性类别为用户名、用户昵称、居住地和描述。其中,教育描述可以包括用户受教育的学校、时间和地点信息,工作描述可以包括用户工作过的职位、工作单位、工作地点和时间信息,社交描述可以包括用户的其他社交网络平台信息。用户贴文数据则可以根据实际应用需要进行灵活设置,以更好地平衡数据处理速度和识别准确度。通过上述处理,可以实现低成本且高效的平台用户主页数据的获取。
在一个实施例中,如图2所示,进一步的,关于上述的步骤S14中对平台用户主页数据进行数据预处理的过程,具体可以包括如下处理:
S141,调用选定的翻译接口将平台用户主页数据的所有属性都转译为设定语言文本;设定语言文本可以是英语、汉语或者其他常用语言。
S142,将平台用户主页数据的文本中存在的表情符号转化为情感文本;
S143,根据字符的统一码编码值对文本中每个属性值的字符进行合法性检测,剔除非法字符;
S144,根据正则规则检测并剔除文本中含有的网络链接;
S145,对于每个属性值,若属性值最终为空值且属性类别为语言,则调用选定的语言检测接口根据采集的用户推文进行语言检测;
S146,若语言检测中出现多个语言类别则选取占比最高的前两个语言类别用设定符号连接后作为属性值相应的新属性值。
具体的,可以使用现有的应用工具直接对获取的平台用户主页数据统一属性值语言,例如可以调用现有工具Python的googletrans库的翻译接口将所有属性都转译为英语。对于使用汉语的语言文本,同理可以使用相应的应用工具进行统一转译。
对文本中存在的表情(emoji)符号,则可以通过python的emoji库demoji方法,将表情转化为情感文本。根据常规字母、数字和英文标点等的unicode(统一码)编码值检测每个属性值的字符是否合法,剔除非法字符;根据本领域常用的正则规则检测是否含有网络链接并剔除网络链接。进而检查每个属性值是否最终为空(缺)值,如果是空值且属性类别为语言,则可以调用相应工具(如googletrans库)的语言检测接口,根据采集的用户贴文(推文)进行语言检测,如果出现多个语言类别则选取占比最高的前两个语言类别用设定符号(例如逗号或者其他指定的标点符号)连接后作为其属性值;其他属性的空缺值则将设定符号“unknown”替换空缺值。通过上述处理,可以高效完成所需的数据预处理且成本较低。
在一个实施例中,进一步的,关于上述的步骤S16,具体可以包括如下处理:
调用地理位置API将用户主页信息中的地点信息进行范围扩展;
将用户主页信息的属性按照属性值与设定特征词拼接整合的方式进行主页语义增强,得到结构化的个人主页文本。
具体的,首先将地点信息进行范围扩展,例如调用现有地图服务(如Bing Map)的地理位置API,将用户的地理位置扩大范围,增加具体的省/州、国家。
然后分别将不同平台的主页属性(为便于理解与描述,下面以常用的Twitter用户主页属性与Facebook主页属性为例展开说明)按照以下两种设定的属性值与设定特征词拼接整合的方式一或方式二进行主页语义增强,其中<⋅>表示对应属性类别的属性值。
方式一:如果用户为Twitter用户,并且个人主页属性类别包含了昵称、用户名、地点、语言和个人描述,那么具体的Twitter用户主页语义增强步骤是:
将昵称属性值与设定特征词“I’m”进行拼接,得到的昵称语句为:“I’m<昵称>”;
将用户名属性值与设定特征词“Myusername is”进行拼接,得到的用户名语句为:“My username is<用户名>”;
将地点属性值与设定特征词“Ilive in”进行拼接,得到的地点语句为:“I livein<地点>”;
将语言属性值与设定特征词“Ispeak”进行拼接,得到的语言语句为:“I speak<语言>”;
将昵称语句、用户名语句、地点语句和语言语句进行整合,最后追加个人描述语句,作为该Twitter用户语义增强的主页文本。
方式二:如果用户为Facebook用户,并且个人主页属性类别包含了昵称、用户名、地点、语言、社交描述、教育描述和工作描述,那么具体的Facebook用户主页语义增强步骤是:
将昵称属性值与设定特征词“I’m”进行拼接,得到的昵称语句为:“I’m<昵称>”;
将用户名属性值与设定特征词“Myusername is”进行拼接,得到的用户名语句为:“My username is<用户名>”;
将地点属性值与设定特征词“Ilive in”进行拼接,得到的地点语句为:“I livein<地点>”;
将语言属性值与设定特征词“Ispeak”进行拼接,得到的语言语句为:“I speak<语言>”;
将社交描述与设定特征词“Concact:”进行拼接,得到的社交描述语句为:“Concat<社交描述>”;
将工作描述的各个属性值进行语义增强,得到的工作描述语句为:“Served as<工作职位>for<工作单位>,<单位地址>”;
将教育描述的各个属性值进行语义增强,得到的教育描述语句为:“In<时间>,studyat<学校>,<地点>”;
将昵称语句、用户名语句、地点语句、语言语句、社交语句、工作描述语句和教育描述语句整合,作为该Facebook用户的语义增强的主页文本。
通过上述模板的方式处理即可高效完成基于模板的主页语义增强,将不同的主页类别属性值转化为文本,既将重叠的属性内容实现了位置的对齐关联,同时也将不重叠的属性实现了拼接,以整体的形式增强了个人主页属性的语义内容,弱化了不同平台之间个人主页不对称部分导致的影响,同时强化了同一用户不同属性之间的关联性。
在一个实施例中,关于上述步骤S18中对个人主页文本进行数据采样,得到链接的正样本的过程,具体可以包括如下处理:
初始化正样本列表、负样本列表和标签列表;
根据个人主页文本链接的用户标识,遍历个人主页文本将对应用户标识的个人主页文本配对为元组形式并添加到正样本列表中,将[0,1]添加到标签列表。
具体的,初始化正样本列表(PositiveSample List,PSL)、负样本列表((NegativeSampleList,NSL)与标签列表(Label List)。然后根据链接的Twitter用户标识(ID)与Facebook用户ID,遍历Twitter用户主页文本与Facebook用户主页文本,将对应ID的主页文本配对为元组形式,添加到PSL之中并将[0,1]添加到标签列表。每一个元组中索引0为Twitter(即平台1)用户主页文本,索引1为Facebook(即平台2)用户主页文本,最终正样本的数量为N s
在一个实施例中,关于上述步骤S18中对个人主页文本进行数据采样,得到没有链接的负样本的过程,具体可以包括如下处理:
根据个人主页文本调用Python中Random库的randInt方法,随机生成平台用户索引;
对平台用户索引进行去重处理;
根据去重后的平台用户索引,获取正样本列表对应位置的个人主页文本并配对为元组形式添加到负样本列表中,将[1,0]添加到标签列表;
返回根据个人主页文本调用Python中Random库的randInt方法,随机生成平台用户索引的步骤,直至负样本列表中负样本的数量等于正样本列表中最终正样本的数量。
具体的,进行负样本生成的步骤是:调用Python的Random库的randInt方法,随机生成Facebook用户索引
Figure SMS_3
与Twitter用户索引
Figure SMS_5
。判断
Figure SMS_7
Figure SMS_2
是否相同,否则将
Figure SMS_4
再次取随机数,直到两者不相等。根据Twitter用户索引获取PSL对应位置的Twitter用户主页文本
Figure SMS_6
,根据Facebook用户索引获取PSL对应位置的Facebook用户主页文本
Figure SMS_8
,并配对为元组形式
Figure SMS_1
添加到NSL之中,将[1,0]添加到标签列表。循环N s 次以上步骤,最终负样本的数量为N s
得到所需负样本后,将正样本列表PSL与负样本列表NSL进行拼接,得到最终的样本列表(Sample List,SL),其长度为2N s 。如此,即可高效采样得到所需的样本。
在一个实施例中,如图3所示,关于上述的步骤S20,具体可以包括如下处理步骤:
S201,进行Bertweet-LM模型初始化;
S202,利用初始化后的Bertweet-LM模型遍历最终的样本列表的所有元组进行文本分词;最终的样本列表通过正样本列表与负样本列表拼接得到;
S203,遍历最终的样本列表的所有元组,利用初始化后的Bertweet-LM模型对每个元组中的平台令牌序列进行嵌入得到元组对应的特征向量;
S204,利用所有元组对应的特征向量生成输入特征向量集。
具体的,调用Transformers库的AutoTokenizer(分词器)接口,使用本地的Bertweet-LM分词器配置文件实例化Tokenizer类,配置文件包括词表和Tokenizer(分词器)参数;调用Transformers库的AutoModel接口,使用本地的Bertweet-LM模型文件初始化Bertweet-LM模型。Bertweet-LM模型是Bert变种模型,适合于社交文本的嵌入。
遍历最终的样本列表SL的所有元组进行文本分词。对于SL中第
Figure SMS_9
个元组的Twitter主页文本
Figure SMS_10
与Facebook主页文本
Figure SMS_11
,分别调用encode_plus方法编码为对应的令牌(Token)输入序列
Figure SMS_12
Figure SMS_13
,令牌表示字符串中的单词索引。在SL上将元组的主页文本替换为令牌序列,即:
Figure SMS_14
,其中
Figure SMS_15
为设置的最大序列长度。
遍历SL的元组,对于第
Figure SMS_18
个元组
Figure SMS_19
中的Twitter令牌序列
Figure SMS_21
和Facebook令牌序列
Figure SMS_17
,通过Bertweet-LM嵌入得到对应的特征向量,即:
Figure SMS_20
Figure SMS_22
,最终,将两个向量拼接得到最终的第
Figure SMS_23
个元组的嵌入向量:
Figure SMS_16
基于所有元组的嵌入向量最终得到的输入特征向量集为:
Figure SMS_24
,实现高效的文本嵌入处理。
在一个实施例中,关于上述的步骤S22中调用构建的双向长短期记忆网络的过程,具体可以包括如下步骤:
调用Bi-LSTM网络与全连接层构成的双向长短期记忆网络;
将输入特征向量集及相应标签按照设定比例划分成训练集和测试集。
具体的,构建用户识别分类模型,该模型由Bi-LSTM网络与全连接层(FullConnected Layer,FCL)构成。可以通过Pytorch库的LSTM类实例化Bi-LSTM网络,通过Linear(线性)类实例化FCL作为最终的输出层。Bi-LSTM网络的输入特征数为
Figure SMS_25
,输出维度为
Figure SMS_26
FCL的输入特征数为
Figure SMS_27
,输出维度为2。进行数据集划分:输入特征向量集及其对应的标签按照设定比例(例如9:1或者其他根据实际需要指定的比例)划分成训练集与测试集。训练集分为
Figure SMS_28
个批量,每个批量的大小设置为
Figure SMS_29
,从而实现适宜的模型调用与数据集划分。
在一个实施例中,关于上述的步骤S22中基于输入特征向量集进行模型训练的过程,具体可以包括如下步骤:
使用交叉熵函数作为双向长短期记忆网络的损失函数并选择Adamax优化器为双向长短期记忆网络的优化器;
利用训练集对双向长短期记忆网络进行多个回合训练,每个回合训练遍历一次训练集并对每个批量训练样本执行分类概率计算和损失处理。
具体的,分类模型训练的步骤可以是:使用交叉熵函数作为损失函数,选择Adamax优化器作为模型优化器。进行多个(如
Figure SMS_30
个回合,具体回合数的取值可以根据损失函数收敛而定,一般可选为30、50、80或100个回合)回合训练,每个回合训练遍历一次训练集,并对每个批量的训练样本执行分类概率计算和损失处理。分类概率计算:对于训练集第
Figure SMS_31
个批量的特征向量
Figure SMS_32
,首先通过Bi-LSTM获取最后一层最终输出的特征向量:
Figure SMS_33
;之后通过FCL获得输出结果:
Figure SMS_34
并将结果进行Softmax回归,得到最终的分类概率为:
Figure SMS_35
损失处理:对于训练集第
Figure SMS_36
个批量分类概率
Figure SMS_37
与第
Figure SMS_38
个批量标签
Figure SMS_39
,根据交叉熵损失函数计算的损失结果为:
Figure SMS_40
,调用backward(向后选择)方法进行反向传播,调用Adamax优化器进行参数更新。从而快速且可靠地完成模型训练处理。
在一个实施例中,关于上述的步骤S22中基于输入特征向量集进行识别测试的过程,具体可以包括如下步骤:
将指标系数初始化,遍历测试集并对每个测试样本执行特征向量输出预测处理和指标系数更新处理;
根据最终的指标系数计算评价指标参数;评价指标参数包括准确率、精确率、召回率和F1分数;
调整评价指标参数获取最优的双向长短期记忆网络;
将在线获取的输入特征向量集输入最优的双向长短期记忆网络,输出用户识别链接预测结果作为用户身份关联结果。
具体的,选取的评价指标参数包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1Score)。其中,准确率等评价指标参数的计算公式为:
Figure SMS_41
,
Figure SMS_42
。其中TP为结果判断为链接且标签为链接的测试样本数量,TN为结果判断为不链接且标签为不链接的测试样本数量,FP为结果判断为链接但标签为不链接的测试样本数量,FN为结果判断为不链接但标签为链接的样本数量。将TPTNFPFN设置为0,遍历测试集并对每个测试样本执行特征向量输出预测处理和指标系数更新处理。
特征向量输出预测处理:对于测试集的第
Figure SMS_43
项特征向量
Figure SMS_44
,首先通过Bi-LSTM获取最后一层最终输出的特征向量:
Figure SMS_45
;之后通过FCL获得输出结果:
Figure SMS_46
,并将结果进行argmax,得到最终的预测值为
Figure SMS_47
指标系数更新处理:对于测试集的第
Figure SMS_49
项的预测值
Figure SMS_52
与真实标签
Figure SMS_54
,如果
Figure SMS_50
,则TP=TP+1;如果
Figure SMS_53
,则TN=TN+1;如果
Figure SMS_55
Figure SMS_56
,则FP=FP+1;如果
Figure SMS_48
Figure SMS_51
,则FN=FN+1。
根据最终的TPTNFPFN计算准确率、精确率、召回率和F1分数,以分析不同参数的影响并用于不同参数选择时的模型评估比较。
调整前述参数,在不同参数上执行上述模型训练和模型测试过程以获取最佳的分类模型,将最佳模型保存在本地。
识别分类应用:对于Facebook平台的用户A与Twitter用户B,分别进行数据采集、数据预处理、基于模板的主页语义增强和文本嵌入等处理后,加载保存的分类模型(双向长短期记忆网络)并将嵌入后的特征向量输入,得到用户身份关联结果,如果为[1,0]则不是链接,如果为[0,1]则为链接。至此,完成了基于主页语义增强的用户识别链接处理,实现用户身份关联。基于主页的用户识别链接领域引入了基于语义的解决方案,通过文本形式提取个人主页的识别特征,从语义角度解决了用户识别链接问题。
应该理解的是,虽然图1至图3流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图1至图3的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图4,在一个实施例中,提供一种基于语义增强的用户身份关联装置100,包括数据获取模块11、预处理模块12、文本构建模块13、数据采样模块14、文本嵌入模块15和训练识别模块16。其中,数据获取模块11用于获取公开链接的平台用户主页数据。预处理模块12用于对平台用户主页数据进行数据预处理,得到统一语言的用户主页信息。文本构建模块13用于采用基于模板的主页语义增强方法,根据用户主页信息构建结构化的个人主页文本。数据采样模块14用于对个人主页文本进行数据采样,得到链接的正样本和没有链接的负样本。文本嵌入模块15用于对正样本和负样本进行文本嵌入,得到个人主页文本对应的输入特征向量集。训练识别模块16用于调用构建的双向长短期记忆网络,基于输入特征向量集进行模型训练与识别测试,得到用户身份关联结果。
上述基于语义增强的用户身份关联装置100,通过各模块的协作,收集公开链接的平台用户主页数据后,经过数据预处理在进行主页语义增强构建结构化的个人主页文本,对样本进行数据采样形成样本列表后,对样本进行文本嵌入形成相应的输入特征向量,最后利用构建的双向长短期记忆网络,基于输入特征向量集进行模型训练与识别测试,得到用户身份关联结果,实现用户识别链接。相比于传统技术,上述方案突出了主页属性语义特征的作用,解决了平台之间类别弱关联、同一平台属性缺失与属性语义充分表达的问题,以一种主页语义增强的结构化表示用户主页识别特征,达到了大幅增强用户识别链接性能的效果。
关于基于语义增强的用户身份关联装置100的具体限定,可以参见上文中基于语义增强的用户身份关联方法的相应限定,在此不再赘述。如图5所示为基于语义增强的用户身份关联装置的整体业务流程框架。上述基于语义增强的用户身份关联装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述设备可以是但不限于本领域已有的各型数据处理设备。
在一个实施例中,还提供一种数据处理设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如下处理步骤:获取公开链接的平台用户主页数据;对平台用户主页数据进行数据预处理,得到统一语言的用户主页信息;采用基于模板的主页语义增强方法,根据用户主页信息构建结构化的个人主页文本;对个人主页文本进行数据采样,得到链接的正样本和没有链接的负样本;对正样本和负样本进行文本嵌入,得到个人主页文本对应的输入特征向量集;调用构建的双向长短期记忆网络,基于输入特征向量集进行模型训练与识别测试,得到用户身份关联结果。
可以理解,上述数据处理设备除上述述及的存储器和处理器外,还包括其他本说明书未列出的软硬件组成部分,具体可以根据不同应用场景下的具体数据处理设备的型号确定,本说明书不再一一列出详述。
在一个实施例中,处理器执行计算机程序时还可以实现上述基于语义增强的用户身份关联方法各实施例中增加的步骤或者子步骤。
在一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如下处理步骤:获取公开链接的平台用户主页数据;对平台用户主页数据进行数据预处理,得到统一语言的用户主页信息;采用基于模板的主页语义增强方法,根据用户主页信息构建结构化的个人主页文本;对个人主页文本进行数据采样,得到链接的正样本和没有链接的负样本;对正样本和负样本进行文本嵌入,得到个人主页文本对应的输入特征向量集;调用构建的双向长短期记忆网络,基于输入特征向量集进行模型训练与识别测试,得到用户身份关联结果。
在一个实施例中,计算机程序被处理器执行时,还可以实现上述基于语义增强的用户身份关联方法各实施例中增加的步骤或者子步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于语义增强的用户身份关联方法,其特征在于,包括步骤:
获取公开链接的平台用户主页数据;
对所述平台用户主页数据进行数据预处理,得到统一语言的用户主页信息;
调用地理位置API将所述用户主页信息中的地点信息进行范围扩展;
将所述用户主页信息的属性按照属性值与设定特征词拼接整合的方式进行主页语义增强,得到结构化的个人主页文本;
对所述个人主页文本进行数据采样,得到链接的正样本和没有链接的负样本;
对所述正样本和所述负样本进行文本嵌入,得到所述个人主页文本对应的输入特征向量集;
调用构建的双向长短期记忆网络,基于所述输入特征向量集进行模型训练与识别测试,得到用户身份关联结果。
2.根据权利要求1所述的基于语义增强的用户身份关联方法,其特征在于,对所述平台用户主页数据进行数据预处理的过程,包括:
调用选定的翻译接口将所述平台用户主页数据的所有属性都转译为设定语言文本;
将所述平台用户主页数据的文本中存在的表情符号转化为情感文本;
根据字符的统一码编码值对文本中每个属性值的字符进行合法性检测,剔除非法字符;
根据正则规则检测并剔除文本中含有的网络链接;
对于每个属性值,若属性值最终为空值且属性类别为语言,则调用选定的语言检测接口根据采集的用户推文进行语言检测;
若语言检测中出现多个语言类别则选取占比最高的前两个语言类别用设定符号连接后作为所述属性值相应的新属性值。
3.根据权利要求1所述的基于语义增强的用户身份关联方法,其特征在于,对所述个人主页文本进行数据采样,得到链接的正样本的过程,包括:
初始化正样本列表、负样本列表和标签列表;
根据所述个人主页文本链接的用户标识,遍历所述个人主页文本将对应用户标识的个人主页文本配对为元组形式并添加到所述正样本列表中,将[0,1]添加到所述标签列表;其中,索引0为平台1用户主页文本,索引1为平台2用户主页文本。
4.根据权利要求3所述的基于语义增强的用户身份关联方法,其特征在于,对所述个人主页文本进行数据采样,得到没有链接的负样本的过程,包括:
根据所述个人主页文本调用Python中Random库的randInt方法,随机生成平台用户索引;
对所述平台用户索引进行去重处理;
根据去重后的所述平台用户索引,获取所述正样本列表对应位置的个人主页文本并配对为元组形式添加到所述负样本列表中,将[1,0]添加到所述标签列表;
返回所述根据所述个人主页文本调用Python中Random库的randInt方法,随机生成平台用户索引的步骤,直至所述负样本列表中负样本的数量等于所述正样本列表中最终正样本的数量。
5.根据权利要求3或4所述的基于语义增强的用户身份关联方法,其特征在于,对所述正样本和所述负样本进行文本嵌入,得到所述个人主页文本对应的输入特征向量集的步骤,包括:
进行Bertweet-LM模型初始化;
利用初始化后的所述Bertweet-LM模型遍历最终的样本列表的所有元组进行文本分词;所述最终的样本列表通过所述正样本列表与所述负样本列表拼接得到;
遍历所述最终的样本列表的所有元组,利用初始化后的所述Bertweet-LM模型对每个元组中的平台令牌序列进行嵌入得到元组对应的特征向量;
利用所有元组对应的特征向量生成所述输入特征向量集。
6.根据权利要求5所述的基于语义增强的用户身份关联方法,其特征在于,调用构建的双向长短期记忆网络的过程,包括:
调用Bi-LSTM网络与全连接层构成的所述双向长短期记忆网络;
将所述输入特征向量集及相应标签按照设定比例划分成训练集和测试集。
7.根据权利要求6所述的基于语义增强的用户身份关联方法,其特征在于,基于所述输入特征向量集进行模型训练的过程,包括:
使用交叉熵函数作为所述双向长短期记忆网络的损失函数并选择Adamax优化器为所述双向长短期记忆网络的优化器;
利用所述训练集对所述双向长短期记忆网络进行多个回合训练,每个回合训练遍历一次所述训练集并对每个批量训练样本执行分类概率计算和损失处理。
8.根据权利要求6或7所述的基于语义增强的用户身份关联方法,其特征在于,基于所述输入特征向量集进行识别测试的过程,包括:
将指标系数初始化,遍历所述测试集并对每个测试样本执行特征向量输出预测处理和指标系数更新处理;
根据最终的指标系数计算评价指标参数;所述评价指标参数包括准确率、精确率、召回率和F1分数;
调整所述评价指标参数获取最优的所述双向长短期记忆网络;
将在线获取的输入特征向量集输入最优的所述双向长短期记忆网络,输出用户识别链接预测结果作为所述用户身份关联结果。
CN202211590194.6A 2022-12-12 2022-12-12 基于语义增强的用户身份关联方法 Active CN115587262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211590194.6A CN115587262B (zh) 2022-12-12 2022-12-12 基于语义增强的用户身份关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211590194.6A CN115587262B (zh) 2022-12-12 2022-12-12 基于语义增强的用户身份关联方法

Publications (2)

Publication Number Publication Date
CN115587262A CN115587262A (zh) 2023-01-10
CN115587262B true CN115587262B (zh) 2023-03-21

Family

ID=84783223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211590194.6A Active CN115587262B (zh) 2022-12-12 2022-12-12 基于语义增强的用户身份关联方法

Country Status (1)

Country Link
CN (1) CN115587262B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949248B2 (en) * 2009-10-29 2015-02-03 At&T Intellectual Property I, L.P. Method and apparatus for generating a web page
CN108090223B (zh) * 2018-01-05 2020-05-12 牛海波 一种基于互联网信息的开放学者画像方法
CN108737244B (zh) * 2018-05-03 2020-11-24 腾讯科技(深圳)有限公司 一种属性信息展示的方法以及相关装置
CN108777806B (zh) * 2018-05-30 2021-11-02 腾讯科技(深圳)有限公司 一种用户身份识别方法、装置和存储介质
CN112131350B (zh) * 2020-09-30 2024-04-30 腾讯科技(深圳)有限公司 文本标签确定方法、装置、终端及可读存储介质

Also Published As

Publication number Publication date
CN115587262A (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
Laurer et al. Less annotating, more classifying: Addressing the data scarcity issue of supervised machine learning with deep transfer learning and BERT-NLI
CN106776544B (zh) 人物关系识别方法及装置和分词方法
KR102041621B1 (ko) 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
WO2017092380A1 (zh) 用于人机对话的方法、神经网络系统和用户设备
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN109902159A (zh) 一种基于自然语言处理的智能运维语句相似度匹配方法
US10824816B2 (en) Semantic parsing method and apparatus
CN113791757B (zh) 软件需求和代码映射方法及系统
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN108875021A (zh) 一种基于区域cnn-lstm的情感分析方法
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN110347802A (zh) 一种文本分析方法及装置
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114443846B (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
Li et al. Improved target-specific stance detection on social media platforms by delving into conversation threads
CN114372454B (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
Lubis et al. Twitter Data Analysis and Text Normalization in Collecting Standard Word
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
Sathyendra et al. Helping users understand privacy notices with automated query answering functionality: An exploratory study
CN117390198A (zh) 构建电力领域科技知识图谱的方法、装置、设备及介质
CN115587262B (zh) 基于语义增强的用户身份关联方法
Arbaatun et al. Hate speech detection on Twitter through Natural Language Processing using LSTM model
CN113869051B (zh) 一种基于深度学习的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant