CN114417875B - 数据处理方法、装置、设备、可读存储介质及程序产品 - Google Patents

数据处理方法、装置、设备、可读存储介质及程序产品 Download PDF

Info

Publication number
CN114417875B
CN114417875B CN202210090399.1A CN202210090399A CN114417875B CN 114417875 B CN114417875 B CN 114417875B CN 202210090399 A CN202210090399 A CN 202210090399A CN 114417875 B CN114417875 B CN 114417875B
Authority
CN
China
Prior art keywords
sample
feature
fusion
entity
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210090399.1A
Other languages
English (en)
Other versions
CN114417875A (zh
Inventor
黄剑辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210090399.1A priority Critical patent/CN114417875B/zh
Publication of CN114417875A publication Critical patent/CN114417875A/zh
Application granted granted Critical
Publication of CN114417875B publication Critical patent/CN114417875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备、可读存储介质及程序产品,涉及人工智能领域的深度学习技术,该方法包括:获取第一对象实体所包括的第一模态特征,获取第二对象实体所包括的第二模态特征,获取第一对象实体与第二对象实体之间的候选关系特征;n为正整数,m为正整数;将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征;预测第一融合特征、第二融合特征与候选关系特征之间的置信度,基于置信度确定第一对象实体与第二对象实体之间的目标关联关系。采用本申请,可以更加精准的确定第一对象实体与第二对象实体之间的目标关联关系,提高实体间关系识别效率。

Description

数据处理方法、装置、设备、可读存储介质及程序产品
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、装置、设备、可读存储介质及程序产品。
背景技术
随着数字化时代的来临,信息数量增长速度越加快速,人们对于梳理信息的效率有着越来越高的要求。匹配两个对象之间的关系一般基于一些通用模型。常用的通用模型有翻译模型、引文分析模型、多元统计分析模型和深度神经网络模型。
这些模型,具有并不高的使用门槛,这些模型在语言学、文学及部分计算机学科方面有较好的应用效果,这些模型通常都是只基于文本内容匹配两个对象之间的关系,这样就会导致所匹配的关系类型过于片面,延长了两个对象之间真实关系的匹配过程。
发明内容
本申请实施例提供一种数据处理方法、装置、设备、可读存储介质及程序产品,可以更加精准的确定第一对象实体与第二对象实体之间的目标关联关系,提高实体间关系识别效率。
本申请实施例一方面提供了一种数据处理方法,包括:
获取第一对象实体所包括的n个第一对象模态分别对应的第一模态特征,获取第二对象实体所包括的m个第二对象模态分别对应的第二模态特征,获取第一对象实体与第二对象实体之间的候选关系特征;n为正整数,m为正整数;
将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征;
预测第一融合特征、第二融合特征与候选关系特征之间的置信度,基于置信度确定第一对象实体与第二对象实体之间的目标关联关系。
进一步地,预测第一融合特征、第二融合特征与候选关系特征之间的置信度,包括:
将第一融合特征、第二融合特征与候选关系特征输入关系预测模型,基于关系预测模型,将第一融合特征、第二融合特征与候选关系特征映射到同一向量空间,得到第一融合特征对应的第一融合向量、第二融合特征对应的第二融合向量,以及候选关系特征对应的候选关系向量;
将第一融合向量与候选关系向量融合得到的向量,与第二融合向量的差值,确定为第一融合特征、第二融合特征与候选关系特征之间的置信度。
进一步地,预测第一融合特征、第二融合特征与候选关系特征之间的置信度,包括:
将第一融合特征、第二融合特征与候选关系特征输入关系预测模型,采用关系预测模型中的关系权重,对第一融合特征及第二融合特征进行特征融合转换,得到第一融合特征与第二融合特征之间的预测关系向量;
获取预测关系向量与候选关系特征之间的特征距离,将特征距离确定为第一融合特征、第二融合特征与候选关系特征之间的置信度。
进一步地,候选关系特征的数量为d,d为正整数;
预测第一融合特征、第二融合特征与候选关系特征之间的置信度,包括:
预测第一融合特征和第二融合特征,分别与d个候选关系特征之间的置信度;
基于置信度确定第一对象实体与第二对象实体之间的目标关联关系,包括:
基于d个候选关系特征分别对应的置信度,对d个候选关系特征进行排序;
将置信度最大的候选关系特征所对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
进一步地,基于置信度确定第一对象实体与第二对象实体之间的目标关联关系,包括:
若置信度大于对象关联阈值,则将候选关系特征对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
本申请实施例一方面提供了另一种数据处理方法,包括:
获取样本实体对,样本实体对包括第一样本实体与第二样本实体;
获取第一样本实体所包括的n个第一样本模态分别对应的第一样本特征,获取第二样本实体所包括的m个第二样本模态分别对应的第二样本特征;获取第一样本实体与第二样本实体之间的样本关系特征;n为正整数,m为正整数;
将n个第一样本特征进行特征融合处理,得到第一综合样本特征;将m个第二样本特征进行特征融合处理,得到第二综合样本特征;
将第一综合样本特征、第二综合样本特征与样本关系特征输入初始关系预测模型进行预测,得到第一综合样本特征、第二综合样本特征与样本关系特征之间的样本预测置信度;
基于样本预测置信度,对初始关系预测模型进行参数调整,得到关系预测模型。
进一步地,样本实体对包括正样本实体对与负样本实体对;正样本实体对包括第一正样本实体与第二正样本实体;负样本实体对包括第一负样本实体与第二负样本实体;样本预测置信度包括正样本实体对所对应的正样本预测置信度,以及负样本实体对所对应的负样本预测置信度;
基于样本预测置信度,对初始关系预测模型进行参数调整,得到关系预测模型,包括:
根据正样本预测置信度与负样本预测置信度,生成针对初始关系预测模型的第一损失函数;
根据第一损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
进一步地,基于样本预测置信度,对初始关系预测模型进行参数调整,得到关系预测模型,包括:
获取样本关系特征针对样本实体对的样本标签;
根据样本预测置信度与样本标签之间的误差,生成针对初始关系预测模型的第二损失函数;
根据第二损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
本申请实施例一方面提供了一种数据处理装置,包括:
对象获取模块,用于获取第一对象实体所包括的n个第一对象模态分别对应的第一模态特征,获取第二对象实体所包括的m个第二对象模态分别对应的第二模态特征,获取第一对象实体与第二对象实体之间的候选关系特征;n为正整数,m为正整数;
对象融合模块,用于将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征;
对象预测模块,用于预测第一融合特征、第二融合特征与候选关系特征之间的置信度;
对象确定模块,用于基于置信度确定第一对象实体与第二对象实体之间的目标关联关系。
其中,对象预测模块包括:
特征映射单元,用于将第一融合特征、第二融合特征与候选关系特征输入关系预测模型,基于关系预测模型,将第一融合特征、第二融合特征与候选关系特征映射到同一向量空间,得到第一融合特征对应的第一融合向量、第二融合特征对应的第二融合向量,以及候选关系特征对应的候选关系向量;
第一置信度确定单元,用于将第一融合向量与候选关系向量融合得到的向量,与第二融合向量的差值,确定为第一融合特征、第二融合特征与候选关系特征之间的置信度。
其中,对象预测模块还包括:
特征融合单元,用于将第一融合特征、第二融合特征与候选关系特征输入关系预测模型,采用关系预测模型中的关系权重,对第一融合特征及第二融合特征进行特征融合转换,得到第一融合特征与第二融合特征之间的预测关系向量;
第二置信度确定单元,用于获取预测关系向量与候选关系特征之间的特征距离,将特征距离确定为第一融合特征、第二融合特征与候选关系特征之间的置信度。
其中,候选关系特征的数量为d,d为正整数;
对象预测模块,还包括:
预测单元,用于预测第一融合特征和第二融合特征,分别与d个候选关系特征之间的置信度;
对象确定模块,包括:
特征排序单元,用于基于d个候选关系特征分别对应的置信度,对d个候选关系特征进行排序;
关系确定单元,用于将置信度最大的候选关系特征所对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
其中,对象确定模块还包括:
置信度匹配单元,用于若置信度大于对象关联阈值,则将候选关系特征对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
本申请实施例一方面提供了一种数据处理装置,包括:
样本实体获取模块,用于获取样本实体对,样本实体对包括第一样本实体与第二样本实体;
样本特征获取模块,用于获取第一样本实体所包括的n个第一样本模态分别对应的第一样本特征,获取第二样本实体所包括的m个第二样本模态分别对应的第二样本特征;获取第一样本实体与第二样本实体之间的样本关系特征;n为正整数,m为正整数;
样本融合模块,用于将n个第一样本特征进行特征融合处理,得到第一综合样本特征;将m个第二样本特征进行特征融合处理,得到第二综合样本特征;
样本预测模块,用于将第一综合样本特征、第二综合样本特征与样本关系特征输入初始关系预测模型进行预测,得到第一综合样本特征、第二综合样本特征与样本关系特征之间的样本预测置信度;
样本调整模块,用于基于样本预测置信度,对初始关系预测模型进行参数调整,得到关系预测模型。
其中,样本实体对包括正样本实体对与负样本实体对;正样本实体对包括第一正样本实体与第二正样本实体;负样本实体对包括第一负样本实体与第二负样本实体;样本预测置信度包括正样本实体对所对应的正样本预测置信度,以及负样本实体对所对应的负样本预测置信度;
样本调整模块包括:
第一生成单元,用于根据正样本预测置信度与负样本预测置信度,生成针对初始关系预测模型的第一损失函数;
第一调整单元,用于根据第一损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
其中,样本调整模块还包括:
标签获取单元,用于获取样本关系特征针对样本实体对的样本标签;
第二生成单元,用于根据样本预测置信度与样本标签之间的误差,生成针对初始关系预测模型的第二损失函数;
第二调整单元,用于根据第二损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使得计算机设备执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序适于由处理器加载并执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中的方法。
本申请实施例中,获取第一对象实体所包括的n个第一对象模态分别对应的第一模态特征,获取第二对象实体所包括的m个第二对象模态分别对应的第二模态特征,获取第一对象实体与第二对象实体之间的候选关系特征;n为正整数,m为正整数;将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征;预测第一融合特征、第二融合特征与候选关系特征之间的置信度,基于置信度确定第一对象实体与第二对象实体之间的目标关联关系本申请实施例引入了第一对象实体的多个第一模态特征、第二对象实体的多个第二模态特征,因此使得在预测第一融合特征、第二融合特征与候选关系特征之间的置信度可以更好地挖掘出第一对象实体与第二对象实体的隐藏特征,根据隐藏特征可以获得更多的特征信息,更加快速的确定第一对象实体与第二对象实体之间的目标关联关系。随着特征信息总量的增加,可以更加精准的确定第一对象实体与第二对象实体之间的目标关联关系,提高实体间关系识别效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构示意图;
图2是本申请实施例提供的一种用于预测两个实体对象间关系的场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种关于对象实体与候选关系的结构示意图;
图5是本申请实施例提供的一种置信度获取的结构示意图;
图6是本申请实施例提供的另一种数据处理方法的流程示意图;
图7是本申请实施例提供的一种关系预测模型的结构示意图;
图8是本申请实施例提供的一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
其中,本申请涉及人工智能领域的深度学习技术,通过该深度学习技术,实现对对象实体与对象实体之间的关联关系的预测,以及对关系预测模型的训练等。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。
深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,ArtificialIntelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
请参见图1,图1是本申请实施例提供的一种系统架构示意图。如图1所示,该系统可以包括业务服务器100以及终端集群,终端集群可以包括:终端设备200a、终端设备200b、终端设备200c、…、终端设备200n,可以理解的是,上述系统可以包括一个或者多个终端设备,本申请不对终端设备的数量进行限制。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality,AR/VR)设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,MID),或者火车、轮船、飞行等场景下的终端设备等。
其中,终端集群之间可以存在通信连接,例如终端设备200a与终端设备200b之间存在通信连接,终端设备200a与终端设备200c之间存在通信连接。同时,终端集群中的任一终端设备可以与业务服务器100存在通信连接,例如终端设备200a与业务服务器100之间存在通信连接,其中,上述通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接,还可以通过其它方式,本申请在此不做限制。
应当理解,如图1所示的终端集群中的每个终端设备均可以安装有应用客户端,当该应用客户端运行于各终端设备中时,可以分别与上述图1所示的业务服务器100之间进行数据交互,即上述的通信连接。其中,该应用客户端可以为短视频应用、视频应用、直播应用、社交应用、即时通信应用、游戏应用、音乐应用、购物应用、小说应用、浏览器等具有搜索功能的应用客户端。其中,该应用客户端可以为独立的客户端,也可以为集成在某客户端(例如,社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端,在此不做限定。
为便于后续理解和说明,请一并参见图2,图2是本申请实施例提供的一种用于预测两个对象实体间关系的场景示意图。在图2中,终端设备200c正在通过应用客户端搜索两个对象实体间的关系,此时终端设备200c可以向业务服务器100发送预测关系请求,业务服务器100可以基于预测关系请求获取到终端设备200c对应的第一对象实体与第二对象实体(例如,第一对象实体与第二对象实体可以基于应用客户端的搜索输入内容等数据所确定),在图2中,第一对象实体可以是影片A,第二对象实体可以是演员XX,进而业务服务器100可以对第一对象实体与第二对象实体分别进行特征融合提取,得到第一融合特征与第二融合特征,这时业务服务器100可以调用关系预测模型,将第一融合特征与第二融合特征输入关系预测模型,通过关系预测模型可以输出第一对象实体与第二对象实体之间的目标关联关系,业务服务器100可以根据第一对象实体、第二对象实体以及第一对象实体与第二对象实体之间的目标关联关系进行相关信息匹配,将匹配到的第一对象实体相关信息,或第二对象实体相关信息,或第一对象实体与第二对象实体之间的目标关联关系的相关信息确定为第一对象实体与第二对象实体之间的目标关联关系的相关媒体数据。因此,业务服务器100可以将目标关联关系以及相关媒体数据推送给终端设备200c。例如,推送到终端设备200c的目标关联关系可以为出演,那么在终端设备200c中就可以将“影片A与演员XX之间为出演关系”作为链接标题在应用客户端中进行显示,在应用客户端中可以通过触发链接标题的方式,对“影片A与演员XX之间为出演关系”及相关媒体数据进行浏览。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机设备可以是终端设备或业务服务器,或是由终端设备与业务服务器组成的系统。其中,业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。其中,终端设备和业务服务器可以通过有线或无线方式进行直接或间接地连接,本申请实施例在此不做限制。
可以理解的是,上述系统架构可适用于搜索系统以及知识图谱的构建等场景,这里将不对具体的业务场景进行一一列举。
进一步地,请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示,该数据处理方法至少可以包括以下步骤S101-步骤S104。
步骤S101,获取第一对象实体所包括的n个第一对象模态分别对应的第一模态特征,获取第二对象实体所包括的m个第二对象模态分别对应的第二模态特征,获取第一对象实体与第二对象实体之间的候选关系特征;n为正整数,m为正整数。
具体的,第一对象实体可以是从计算机设备的数据库中获取的第一个实体,其中,第一对象实体可以根据生活中的事物进行种类划分,比如根据人、地名、公司、电话、动物等进行种类划分。例如,若第一对象实体属于影视类,则第一对象实体可以是影片、演员以及主题曲等。第二对象实体可以是从计算机设备的数据库中获取的第二个实体。可以理解的是,第一对象实体的所属种类可以与第二对象实体的所属种类相同,第一对象实体的所属种类也可以与第二对象实体的所属种类不同。例如,当第一对象实体的所属种类与第二对象实体的所属种类皆为影视类,则第一对象实体可以是影片A的演员S,第二对象实体可以是影片A或者影片A的演员W。
第一对象模态可以是对第一对象实体进行分析后,得到的n个不同种类的模态。例如,第一对象模态可以是文本模态、图片模态或者语音模态等。第二对象模态可以是对第二对象实体进行分析后,得到的m个不同种类的模态。例如,第二对象模态可以是文本模态、图片模态或者语音模态等。其中,第一对象模态与第二对象模态可以是同种类模态,也可以是不同种类模态。可以通过向量转换的方式,获取第一对象实体所包括的n个第一对象模态分别对应的第一模态特征,以及获取第二对象实体所包括的m个第二对象模态分别对应的第二模态特征。第一对象实体与第二对象实体之间的候选关系可以用来表达不同实体之间的某种联系。对获取到的第一对象实体与第二对象实体之间的候选关系进行特征提取,得到第一对象实体与第二对象实体之间的候选关系特征,其中,特征提取方式可以是向量转换。例如,针对文本模态,可以采用词向量表示(word2vec)的方式进行文本向量提取,word2vec通过神经网络机器学习算法来训练语言模型,并在训练过程中求出词(word)所对应的向量(vector)的方法。word2vec就是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为多维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似。再例如,针对图片模态,可以采用残差网络50(Residual Network 50,Resnet50)的方式进行图片向量提取,残差网络50可以将靠前若干层的某一层数据输出直接跳过多层引入到后面数据层的输入部分。Resnet50用于改变特征向量的维度(dimension),首先对输入做了卷积操作,之后包含4个残差块(ResidualBlock),最后进行全连接操作以便于进行分类任务。
进一步的,请一并参见图4,图4是本申请实施例提供的一种关于对象实体与候选关系的结构示意图。在图4中,假定第一对象实体为演员XX,则获取第一对象实体的n个第一对象模态,假定该n个第一对象模态包括文本模态、图片模态以及语音模态,则获取到n个第一模态特征包括演员XX的文本模态特征(即文本模态对应的文本模态特征)、演员XX的图片模态特征(即图片模态对应的图片模态特征)以及演员XX的语音模态特征(即语音模态对应的语音模态特征)等。若要获取影片A与演员XX之间的目标关联关系,则演员XX可以是第一对象实体,演员XX的名字可以是第一对象实体对应的文本模态(即第一对象模态),演员XX的图片属性可以是第一对象实体对应的图片模态(即第一对象模态),除此之外,演员XX还可以具有语音模态等其他模态。影片A可以是第二对象实体,影片A的名字可以是第二对象实体对应的文本模态(即第二对象模态),影片A的图片属性可以是第二对象实体对应的图片模态(即第二对象模态),除此之外,影片A还可以具有语音模态等其他模态。
其中,第一对象实体可以表示为:“e1:演员XX,图片:url”。“e1”表示第一对象实体,“演员XX”表示第一对象实体对应的文本模态,“图片”表示第一对象实体对应的图片模态,“url”表示第一对象实体对应的图片模态内容,可以是第一对象实体所关联的实体图片,也可以是该第一对象实体所关联的实体图片所在的位置。
第二对象实体可以表示为:“e2:影片A,图片:url2”。“e2”表示第二对象实体,“影片A”第二对象实体对应的文本模态,“图片”表示第二对象实体对应的图片模态,“url2”表示第二对象实体对应的图片模态内容,可以是第二对象实体所关联的实体图片,也可以是该第二对象实体所关联的实体图片所在的位置。
可选的,计算机设备可以获取第一对象实体在n个第一对象模态下分别对应的第一模态信息,获取n个第一模态信息分别对应的信息类型,对该n个第一模态信息进行特征提取,得到n个第一模态信息分别对应的第一模态特征。其中,该信息类型与第一对象模态相对应,如文本模态对应文本信息类型、图片模态对应图片信息类型以及语音模态对应语音信息类型。其中,不同的信息类型可能会对应不同的特征提取方式,采用不同的特征提取方式对对应的信息类型的模态信息进行特征提取,可以提高特征提取的效率。例如,针对文本信息类型的特征提取方式可以是word2vec方式,假定第一对象实体的文本信息类型下的文本模态信息记作V_e1_name,则对该第一对象实体的文本模态信息进行特征提取的过程可以记作V_e1-text=word2vec(e1_name)。V_e1-text可以表示第一对象实体对应的文本模态特征,word2vec可以表示文本向量提取处理,e1_name可以表示第一对象实体对应的文本模态信息。再例如,针对图片信息类型的特征提取方式可以是Resnet50方式,假定第一对象实体的文本信息类型下的图片模态信息记作V_e1_img,则对该第一对象实体的图片模态信息进行特征提取的过程可以记作V_e1-img=Resnet50(e1_img)。V_e1-img可以表示第一对象实体对应的图片模态特征,Resnet50可以表示图片向量提取处理,e1_img可以表示第一对象实体对应的图片模态。以此类推,可以得到:V_e2-text=word2vec(e2_name);V_e2-img=Resnet50(e2_img)。
由于不同的信息类型所对应的数据进行特征提取时,所采用的方式不同,因此,可以获取n个第一模态信息分别对应的信息类型,采用该信息类型所对应的特征提取方式,对对应的第一模态信息进行特征提取,以实现对不同信息类型的数据的个性化特征解析,提高特征提取的效率。
步骤S102,将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征。
具体的,采用特征融合方式,将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征。其中,特征融合方式可以是向量点乘、向量相加、向量相减以及多类特征融合方式结合等,即,可以对n个第一模态特征根据选定的特征融合方式进行特征融合。例如,以向量点乘为例,假定计算机设备可以将n个第一模态特征进行特征融合处理,假定n个第一模态特征包括第一对象实体的文本模态特征及图片模态特征,则该过程可以参见第一融合特征获取公式①所示:
V_e1=V_e1-text·V_e1-img ①
如第一融合特征获取公式①所示,其中V_e1-text可以表示第一对象实体对应的文本模态特征,V_e1-img可以表示第一对象实体对应的图片模态特征,“·”可以表示向量点乘,V_e1可以表示第一融合特征。可选的,n个第一模态特征不止包括第一对象实体的文本模态特征及图片模态特征时,可以基于公式①,对n个第一模态特征进行向量点乘处理,以实现对n个第一模态特征的特征融合处理,得到第一融合特征。
假定计算机设备可以将n个第二模态特征进行特征融合处理,该过程可以参见第二融合特征获取公式②所示:
V_e2=V_e2-text·V_e2-img ②
如第二融合特征获取公式②所示,其中V_e2-text可以表示第二对象实体对应的文本模态特征,V_e2-img可以表示第二对象实体对应的图片模态特征,“·”可以表示向量点乘,V_e2可以表示第二融合特征。可选的,m个第二模态特征不止包括第二对象实体的文本模态特征及图片模态特征时,可以基于公式②,对m个第二模态特征进行向量点乘处理,以实现对m个第二模态特征的特征融合处理,得到第二融合特征。
步骤S103,预测第一融合特征、第二融合特征与候选关系特征之间的置信度。
具体的,将第一融合特征、第二融合特征与候选关系特征进行预测处理,进而得到候选关系特征对应的候选关系的置信度。其中,第一融合特征与第二融合特征之间候选关系的数量可以是d个,预测第一融合特征、第二融合特征分别与d个候选关系特征之间的d个置信度。置信度的预测方法可以采用逻辑回归、分布关系学习、隐状态的学习、降维因子分析法以及卷积等方法。
进一步,请一并参见图4。在图4中,第一对象实体(即演员XX)对应的第一融合特征,与第二对象实体(即影片A)对应的第二融合特征之间的,候选关系特征对应的候选关系可以是“出演”,则进行预测处理,可以得到第一对象实体(即演员XX)对应的第一融合特征,与第二对象实体(即影片A)对应的第二融合特征之间,具备候选关系(即“出演”)的置信度。
可以理解的是,将第一融合特征、第二融合特征与候选关系特征输入关系预测模型,基于关系预测模型,将第一融合特征、第二融合特征与候选关系特征映射到同一向量空间,得到第一融合特征对应的第一融合向量、第二融合特征对应的第二融合向量,以及候选关系特征对应的候选关系向量;将第一融合向量与候选关系向量融合得到的向量,与第二融合向量的差值,确定为第一融合特征、第二融合特征与候选关系特征之间的置信度。第一融合向量、第二融合向量以及候选关系向量构成的三元组,在成立时,理论上应该满足条件:第一融合向量与候选关系向量之间的向量和,等于第二融合向量。
可选的,置信度的取值范围可以是0-1之间。当置信度的取值为0时,则表示第一融合特征与第二融合特征之间的关联关系是候选关系特征对应的候选关系的概率为100%。当置信度的取值为1时,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率为0%。因此,若置信度越靠近于0,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率越趋近于100%。若置信度越靠近于1,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率越趋近于0%。
可选的,可以将第一融合向量与候选关系向量融合得到的向量,与第二融合向量的差值确定为默认置信度,将默认置信度与该差值之间的差值,确定为第一融合特征、第二融合特征与候选关系特征之间的置信度,此时,该置信度越大,表示第一融合向量、第二融合向量以及候选关系向量构成的三元组成立的概率越大。其中,第一融合特征、第二融合特征与候选关系特征不一定处于同一个向量空间,因此,可以将第一融合特征、第二融合特征与候选关系特征分别映射到同一个向量空间中,将映射到同一个向量空间的第一融合特征对应的向量确定为第一融合向量,将映射到同一个向量空间的第二融合特征对应的向量确定为第二融合向量,将映射到同一个向量空间的候选关系特征对应的向量确定为候选关系向量,可以将映射到的同一个向量空间记作基准向量空间。可选的,可以从第一融合特征、第二融合特征或候选关系特征所在向量空间中选取一个向量空间作为基准向量空间。可选的,可以选取另外一个不同于三个特征所在向量空间的其他向量空间作为基准向量空间,通过关系预测模型,可以将第一融合特征从其所在向量空间,经过映射到基准向量空间后,得到基准向量空间中的第一融合特征对应的第一融合向量;通过关系预测模型,可以将第二融合特征从其所在向量空间,经过映射到基准向量空间后,得到基准向量空间中的第二融合特征对应的第二融合向量;通过关系预测模型,可以将候选关系特征从其所在向量空间,经过映射到基准向量空间后,得到基准向量空间中的候选关系特征对应的候选关系向量。
可以理解的是,基准向量空间的选取可以采用随机抽取的方式,将随机抽取的向量空间作为基准向量空间,随机抽取的方式具有良好的普遍适用性,可以在多种情况下使用;基准向量空间的选取可以采用均值距离的方式,求取第一融合特征所在向量空间与第二融合特征所在向量空间的空间距离,将处于第一融合特征所在向量空间与第二融合特征所在向量空间之间的中间距离向量空间,确定为基准向量空间;可选的,可以将第一融合特征所在向量空间与候选关系特征所在向量空间之间的中间空间,确定为基准向量空间;可选的,可以将第二融合特征所在向量空间与候选关系特征所在向量空间之间的中间距离向量空间,确定为基准向量空间;若第一融合特征、第二融合特征与候选关系特征中,有至少两个特征处于同一空间,则将至少两个特征处于的空间确定为基准向量空间。
进一步的,请一并参见图5,图5是本申请实施例提供的一种置信度获取的结构示意图。在图5中,计算机设备可以将第一融合特征、第二融合特征与候选关系特征映射到基准向量空间,在基准向量空间中,得到第一融合特征对应的第一融合向量可以是头部(head),用首字母表示为h、第二融合特征对应的第二融合向量可以是尾部(tail),用首字母表示为t,以及候选关系特征对应的候选关系向量可以是关系(relation),用首字母表示为r。
可选的,预测第一融合特征、第二融合特征与候选关系特征之间的置信度可以采用按权重预测的方法。将第一融合特征、第二融合特征与候选关系特征输入关系预测模型,采用关系预测模型中的关系权重,对第一融合特征及第二融合特征进行特征融合转换,得到第一融合特征与第二融合特征之间的预测关系向量;获取预测关系向量与候选关系特征之间的特征距离,将特征距离确定为第一融合特征、第二融合特征与候选关系特征之间的置信度。
其中,计算关系预测模型中第一融合特征的权重与第二融合特征的权重时可以采用因子分析法、主成分法、熵值法、独立性权重法和信息量权重法等。分别处理完成第一融合特征的权重与第二融合特征的权重后,再将第一融合特征与第二融合特征根据对应的权重进行融合,得到预测关系向量,预测关系向量可以是关系预测模型针对第一融合特征与第二融合特征之间关系的判定,可以将预测关系向量与候选关系特征进行比较,通过获取预测关系向量与候选关系特征之间的特征距离的方式,得到预测关系向量与候选关系特征之间的关联关系,将特征距离确定为第一融合特征、第二融合特征与候选关系特征之间的置信度。置信度的取值范围可以是0-1之间。当置信度的取值为0时,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率为100%。当置信度的取值为1时,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率为0%。因此,若置信度越靠近于0,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率越趋近于100%。若置信度越靠近于1,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率越趋近于0%。
进一步,候选关系特征的数量为d,d为正整数;预测第一融合特征和第二融合特征,分别与d个候选关系特征之间的置信度。
其中,第一融合特征、第二融合特征与d个候选关系特征,可以组成d个特征三元组,每个特征三元组分别对应一个候选关系特征,预测d个候选关系特征三元组分别对应的置信度。例如,若第一融合特征为e1,第二融合特征为e2,d个候选关系特征分别为R1、R2、…、Rd,则由第一融合特征、第二融合特征与d个候选关系特征组成的d个特征三元组可以是<e1,R1,e2>、<e1,R2,e2>、…、<e1,Rd,e2>。预测d个候选关系特征三元组<e1,R1,e2>、<e1,R2,e2>、…、<e1,Rd,e2>分别对应的置信度。
步骤S104,基于置信度确定第一对象实体与第二对象实体之间的目标关联关系;
具体的,基于置信度所在的取值范围区间,确定第一对象实体与第二对象实体之间的置信度对应的关系确定为第一对象实体与第二对象实体之间的目标关联关系。
当置信度越大,表示第一融合特征、第二融合特征与候选关系特征之间构成特征三元组的概率越大时,当置信度的取值为1时,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率为100%。当置信度的取值为0时,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率为0%。因此,若置信度越靠近于1,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率越趋近于100%。若置信度越靠近于0,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率越趋近于0%。
可选的,基于d个候选关系特征分别对应的置信度,对d个候选关系特征进行排序;将置信度最大的候选关系特征所对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
进一步,将d个候选关系特征分别对应的置信度进行从大到小的排序(或从小到大的排序),将候选关系特征跟随对应的置信度进行调整得到对应的候选关系特征,得到d个候选关系特征的排序列表。从d个候选关系特征的排序列表中选取置信度最大的候选关系特征,将置信度最大的候选关系特征所对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
可以理解的是,d的大小可以随时间而自适应调整,若将时间以秒来计算,与将时间以分来计算坐作对比,则将时间以秒来计算对应的d值可以是小的,即使很少的候选关系特征中,也可以获取到目标关联关系;将时间以分来计算对应的d值可以是大的,在更多的候选关系特征中,可以获取到更加精确的目标关联关系。
可选的,若置信度大于对象关联阈值,则将候选关系特征对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
其中,对象关联阈值可以是候选关系成立标准的判定界限。若置信度大于对象关联阈值,即大于对象关联阈值的置信度对应的候选关系是成立的。则将候选关系特征对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。其中,候选关系特征的数量可以是f个,f为正整数。
当置信度越小,表示第一融合特征、第二融合特征与候选关系特征之间构成特征三元组的概率越大时,当置信度的取值为0时,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率为100%。当置信度的取值为1时,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率为0%。因此,若置信度越靠近于0,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率越趋近于100%。若置信度越靠近于1,则表示第一融合特征与第二融合特征之间是候选关系特征对应的候选关系的概率越趋近于0%。
可选的,基于d个候选关系特征分别对应的置信度,对d个候选关系特征进行排序;将置信度最小的候选关系特征所对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
进一步,将d个候选关系特征分别对应的置信度进行从小到大的排序(或从大到小的排序),将候选关系特征跟随对应的置信度进行调整得到对应的候选关系特征,得到d个候选关系特征的排序列表。从d个候选关系特征的排序列表中选取置信度最小的候选关系特征,将置信度最小的候选关系特征所对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
可以理解的是,d的大小可以随时间而自适应调整,若将时间以秒来计算,与将时间以分来计算坐作对比,则将时间以秒来计算对应的d值可以是小的,即使很少的候选关系特征中,也可以获取到目标关联关系;将时间以分来计算对应的d值可以是大的,在更多的候选关系特征中,可以获取到更加精确的目标关联关系。
可选的,若置信度小于对象关联阈值,则将候选关系特征对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
其中,对象关联阈值可以是候选关系成立标准的判定界限。若置信度小于对象关联阈值,即小于对象关联阈值的置信度对应的候选关系是成立的。则将候选关系特征对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。其中,候选关系特征的数量可以是f个,f为正整数。
可选的,当候选关系特征的数量为d时,还可以将置信度满足对象关联阈值的候选关系特征所对应的候选关系,确定为符合条件关系,可以将符合条件关系均确定为第一对象实体与第二对象实体之间的目标关联关系。其中,可以直接输出置信度最小的符合条件关系。若计算机设备接收到应用客户端更多的符合条件关系输出请求,则继续输出置信度第二小的符合条件关系,依此类推。或者,可以基于符合条件关系的置信度,对该符合条件关系进行排序处理,输出排序后的符合条件关系。
本申请实施例中,获取第一对象实体所包括的n个第一对象模态分别对应的第一模态特征,获取第二对象实体所包括的m个第二对象模态分别对应的第二模态特征,获取第一对象实体与第二对象实体之间的候选关系特征;n为正整数,m为正整数;将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征;预测第一融合特征、第二融合特征与候选关系特征之间的置信度,基于置信度确定第一对象实体与第二对象实体之间的目标关联关系。本申请实施例引入了第一对象实体的多个第一模态特征、第二对象实体的多个第二模态特征,因此使得在预测第一融合特征、第二融合特征与候选关系特征之间的置信度可以更好地挖掘出第一对象实体与第二对象实体的隐藏特征,根据隐藏特征可以获得更多的特征信息,更加快速的确定第一对象实体与第二对象实体之间的目标关联关系。随着特征信息总量的增加,可以更加精准的确定第一对象实体与第二对象实体之间的目标关联关系,提高实体间关系识别效率。
其中,针对关系预测模型的训练过程具体请参见下面图6对应实施例。
进一步地,请参见图6,其中,上述步骤S103中关系预测模型的具体实现可以参见图6,图6是本申请实施例提供的一种数据处理方法的流程示意图。如图6所示,该数据处理方法至少可以包括以下步骤S201-步骤S205。
步骤S201,获取样本实体对,样本实体对包括第一样本实体与第二样本实体;
具体的,第一样本实体可以是从第一类对象实体中获取的样本实体,第二样本实体可以是从第二类对象实体中获取的样本实体。第一样本实体与第二样本实体可以是事先被选取的样本实体,第一样本实体与第二样本实体可以用于进行关系预测模型训练。获取第一样本实体、第二样本实体,将第一样本实体与第二样本实体确定为样本实体对。样本实体对可以输入初始关系预测模型进行样本关系预测。
步骤S202,获取第一样本实体所包括的n个第一样本模态分别对应的第一样本特征,获取第二样本实体所包括的m个第二样本模态分别对应的第二样本特征;获取第一样本实体与第二样本实体之间的样本关系特征;n为正整数,m为正整数;
具体的,第一样本模态可以是从第一样本实体分析得到的模态,第一样本特征可以是针对第一样本实体的细节特征,第二样本模态可以是从第二样本实体分析得到的模态,第二样本特征可以是针对第二样本实体的细节特征,第一样本模态、第一样本特征、第二样本模态以及第二样本特征的特性可以参考上述图3中步骤S101中第一对象模态的描述,这里不再赘述。
其中,第一样本实体可以是在计算机设备的数据库中被人工标记好n个第一样本模态的样本实体,第二样本实体可以是在计算机设备的数据库中被人工标记好m个第一样本模态的样本实体;第一样本实体也可以是在计算机设备的数据库中,已经被标记过n个第一样本模态的样本实体,第二样本实体也可以是在计算机设备的数据库中,已经被标记过m个第一样本模态的样本实体。
步骤S203,将n个第一样本特征进行特征融合处理,得到第一综合样本特征;将m个第二样本特征进行特征融合处理,得到第二综合样本特征;
具体的,第一综合样本特征是针对n个第一样本特征进行特征融合处理得到的,第二综合样本特征是针对m个第二样本特征进行特征融合处理得到的,特征融合处理请一并参考上述图3中步骤S102中特征融合处理部分的描述,这里不再赘述。
步骤S204,将第一综合样本特征、第二综合样本特征与样本关系特征输入初始关系预测模型进行预测,得到第一综合样本特征、第二综合样本特征与样本关系特征之间的样本预测置信度;
具体的,样本预测置信度可以表示第一综合样本特征对应第一样本实体,与第二综合样本特征对应的第二样本实体之间,具有样本关系特征对应的样本关系的概率。初始关系预测模型的具体预测步骤请一并参考上述图3中步骤S103中关于预测部分的描述,这里不再赘述。
可选的,可以基于样本预测置信度进行样本关系特征对应的样本预测关系匹配。样本预测关系可以是k个,k为正整数;样本预测关系可以包括第一样本实体与第二样本实体间的真实样本关系。样本预测关系可以用来获取第一样本实体与第二样本实体的隐藏关系。
当样本预测置信度越大,表示第一综合样本特征、第二综合样本特征与样本关系特征之间构成样本三元组的概率越大时,当样本预测置信度的取值为1时,则表示第一综合样本特征与第二综合样本特征之间是样本关系特征对应的样本预测关系的概率为100%。当样本预测置信度的取值为0时,则表示第一综合样本特征与第二综合样本特征之间是样本关系特征对应的样本预测关系的概率为0%。因此,若样本预测置信度越靠近于1,则表示第一综合样本特征与第二综合样本特征之间是样本关系特征对应的样本预测关系的概率越趋近于100%。若样本预测置信度越靠近于0,则表示第一综合样本特征与第二综合样本特征之间是样本关系特征对应的样本预测关系的概率越趋近于0%。
当样本预测置信度越小,表示第一综合样本特征、第二综合样本特征与样本关系特征之间构成样本三元组的概率越大时,当样本预测置信度的取值为0时,则表示第一综合样本特征与第二综合样本特征之间是样本关系特征对应的样本预测关系的概率为100%。当样本预测置信度的取值为1时,则表示第一综合样本特征与第二综合样本特征之间是样本关系特征对应的样本预测关系的概率为0%。因此,若样本预测置信度越靠近于0,则表示第一综合样本特征与第二综合样本特征之间是样本关系特征对应的样本预测关系的概率越趋近于100%。若样本预测置信度越靠近于1,则表示第一综合样本特征与第二综合样本特征之间是样本关系特征对应的样本预测关系的概率越趋近于0%。
步骤S205,基于样本预测置信度,对初始关系预测模型进行参数调整,得到关系预测模型。
具体的,根据样本预测置信度,可以确定关于初始关系预测模型的损失函数,根据初始关系预测模型的损失函数对初始关系预测模型进行参数调整,将调整后的初始关系预测模型确定为迭代关系预测模型。将迭代关系预测模型再次用于,预测第一综合样本特征、第二综合样本特征与样本关系特征之间的样本预测置信度,得到关于迭代关系预测模型的损失函数,根据迭代关系预测模型的损失函数对迭代关系预测模型进行参数调整,得到关系预测模型。
进一步,样本实体对包括正样本实体对与负样本实体对;正样本实体对包括第一正样本实体与第二正样本实体;负样本实体对包括第一负样本实体与第二负样本实体;样本预测置信度包括正样本实体对所对应的正样本预测置信度,以及负样本实体对所对应的负样本预测置信度;根据正样本预测置信度与负样本预测置信度,生成针对初始关系预测模型的第一损失函数;根据第一损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
可以理解的是,根据第一综合样本特征得到第一综合正样本特征对应的第一正样本向量,根据第二综合样本特征得到第二综合正样本特征对应的第二正样本向量,将第一正样本向量与样本关系特征对应的样本关系向量之间的融合向量,与第二正样本向量的差值,确定为正样本预测置信度。根据第一综合样本特征得到第一综合负样本特征对应的第一负样本向量,根据第二综合样本特征得到第二综合负样本特征对应的第二负样本向量,将第一负样本向量与样本关系特征对应的样本关系向量之间的融合向量,与第二负样本向量的差值,确定为负样本预测置信度。例如,第一正样本向量可以是e1,第二正样本向量可以是e2,样本关系向量可以是R,则根据第一正样本向量e1与样本关系向量R之间的融合向量,与第二正样本向量e2的差值,可以是D(e1+R,e2),即正样本预测置信度;根据第一负样本向量e1与样本关系向量R之间的融合向量,与第二负样本向量e2'的差值,可以是D(e1+R,e2'),即负样本预测置信度。则根据正样本预测置信度D(e1+R,e2)与负样本预测置信度D(e1+R,e2'),可以生成针对初始关系预测模型的第一损失函数:Loss=∑Ss′[δ+D(e1+R,e2)-D(e1+R,e2′)];根据第一损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
其中,若第二正样本向量e2为演员U,则第二负样本向量e2'可以为演员V,演员U与演员V可以是从同一类对象实体中获取的,即均为从第二类对象实体中获取。
可选的,第一负样本向量也可以是e1',第二负样本向量可以是e2,则根据第一负样本向量e1'与样本关系向量R之间的融合向量,与第二负样本向量e2的差值,可以是D(e1'+R,e2),即负样本预测置信度。则根据正样本预测置信度D(e1+R,e2)与负样本预测置信度D(e1'+R,e2),可以生成针对初始关系预测模型的第一损失函数:Loss=∑sS′[δ+D(e1+R,e2)-De1′+R,e2;根据第一损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
可选的,获取样本关系特征针对样本实体对的样本标签;根据样本预测置信度与样本标签之间的误差,生成针对初始关系预测模型的第二损失函数;根据第二损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
可以理解的是,样本标签可以包括正样本标签与负样本标签。其中,正样本标签可以是1,负样本标签可以是0。若样本实体对为正样本,则根据争议正样本预测置信度与正样本标签之间的误差,生成针对初始关系预测模型的第二损失函数;若样本实体对为负样本,则根据争议负样本预测置信度与负样本标签之间的误差,生成针对初始关系预测模型的第二损失函数;根据第二损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
在本申请实施例中,通过将样本实体对输入初始关系预测模型进行预测,再使用针对初始关系预测模型的损失函数进行调整,可以得到更有鲁棒性的关系预测模型。由于本申请实施例引入了损失函数对初始关系预测模型进行调整,因此使得在训练得到的初始关系预测模型可以更好地预测出两个样本实体间的样本关系,进一步地,可以减少样本实体间关联性判定时间,增加实体间关系识别的准确性,提高实体间关系识别效率。
请参见图7,图7是本申请实施例提供的一种关系预测模型的结构示意图。其中,如图7所示,将第一对象实体(演员XX)、第二对象实体(影片A)以及候选关系(出演)输入关系预测模型,利用如图3步骤S101中的文本特征提取公式与图片特征提取公式进行特征映射,得到第一对象实体(演员XX)对应的两个第一模态特征(即文本模态特征V_e1-text与图片模态特征V_e1-img)、第二对象实体(影片A)对应的两个第二模态特征(即文本模态特征V_e2-text与图片模态特征V_e2-img)以及候选关系(出演)对应的候选关系特征。利用如图3中步骤S102中的第一融合特征获取公式将两个第一模态特征进行特征融合得到第一融合特征V_e1,利用如图3步骤S102中的第二融合特征获取公式,将两个第二模态特征进行特征融合得到第二融合特征V_e2。将第一融合特征、第二融合特征以及候选关系特征,按照如图3步骤S103中的置信度求取步骤,进行置信度求取处理,得到第一融合特征、第二融合特征以及候选关系特征之间的置信度,按照如图3步骤S104中的目标关联关系求取步骤,根据第一融合特征、第二融合特征以及候选关系特征之间的置信度可以得到目标关联关系。
需要说明的是,根据关系预测模型获取到的,第一融合特征对应的第一融合向量、第二融合特征对应的第二融合向量与候选关系特征对应的候选关系向量之间的向量方向选取并不会影响三元组的构成,第一对象实体与第二对象实体之间的目标关联关系是相互的,例如,第一对象实体(演员XX)对应的第一融合向量,指向第二对象实体(影片A)对应的第二融合向量可以是候选关系1(出演),第二对象实体(影片A)对应的第二融合向量,指向第一对象实体(演员XX)对应的第一融合向量可以是候选关系2(被出演)。
本申请实施例中,获取第一对象实体所包括的两个第一对象模态分别对应的第一模态特征,获取第二对象实体所包括的两个第二对象模态分别对应的第二模态特征,获取第一对象实体与第二对象实体之间的候选关系特征;将两个第一模态特征进行特征融合处理,得到第一融合特征;将两个第二模态特征进行特征融合处理,得到第二融合特征;预测第一融合特征、第二融合特征与候选关系特征之间的置信度,基于置信度确定第一对象实体与第二对象实体之间的目标关联关系。本申请实施例引入了第一对象实体的两个第一模态特征、第二对象实体的两个第二模态特征,文本模态与图片模态的融合,可以增加总的特征信息,进而更加快速的确定第一对象实体与第二对象实体之间的目标关联关系。随着特征信息总量的增加,可以更加精准的确定第一对象实体与第二对象实体之间的目标关联关系,提高实体间关系识别效率。
进一步地,请参见图8,图8是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示,该数据处理装置1可以包括:对象获取模块11、对象融合模块12、对象预测模块13以及对象确定模块14。
对象获取模块11,用于获取第一对象实体所包括的n个第一对象模态分别对应的第一模态特征,获取第二对象实体所包括的m个第二对象模态分别对应的第二模态特征,获取第一对象实体与第二对象实体之间的候选关系特征;n为正整数,m为正整数;
对象融合模块12,用于将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征;
对象预测模块13,用于预测第一融合特征、第二融合特征与候选关系特征之间的置信度;
对象确定模块14,用于基于置信度确定第一对象实体与第二对象实体之间的目标关联关系。
其中,对象获取模块11、对象融合模块12、对象预测模块13以及对象确定模块14的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
再请参见图8,其中,对象预测模块13包括:
特征映射单元131,用于将第一融合特征、第二融合特征与候选关系特征输入关系预测模型,基于关系预测模型,将第一融合特征、第二融合特征与候选关系特征映射到同一向量空间,得到第一融合特征对应的第一融合向量、第二融合特征对应的第二融合向量,以及候选关系特征对应的候选关系向量;
第一置信度确定单元132,用于将第一融合向量与候选关系向量融合得到的向量,与第二融合向量的差值,确定为第一融合特征、第二融合特征与候选关系特征之间的置信度。
其中,特征映射单元131以及第一置信度确定单元132的具体功能实现方式可以参见上述图3对应实施例中的步骤S103,这里不再进行赘述。
再请参见图8,其中,对象预测模块13还包括:
特征融合单元133,用于将第一融合特征、第二融合特征与候选关系特征输入关系预测模型,采用关系预测模型中的关系权重,对第一融合特征及第二融合特征进行特征融合转换,得到第一融合特征与第二融合特征之间的预测关系向量;
第二置信度确定单元134,用于获取预测关系向量与候选关系特征之间的特征距离,将特征距离确定为第一融合特征、第二融合特征与候选关系特征之间的置信度。
其中,特征融合单元133以及第二置信度确定单元134的具体功能实现方式可以参见上述图3对应实施例中的步骤S103,这里不再进行赘述。
再请参见图8,其中,候选关系特征的数量为d,d为正整数;
对象预测模块13,还包括:
预测单元135,用于预测第一融合特征和第二融合特征,分别与d个候选关系特征之间的置信度;
上述预测单元135的具体功能实现方式可以参见上述图3对应实施例中的步骤S103,这里不再进行赘述。
对象确定模块14,包括:
特征排序单元141,用于基于d个候选关系特征分别对应的置信度,对d个候选关系特征进行排序;
关系确定单元142,用于将置信度最大的候选关系特征所对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
其中,特征排序单元141以及关系确定单元142的具体功能实现方式可以参见上述图3对应实施例中的步骤S104,这里不再进行赘述。
再请参见图8,其中,对象确定模块14还包括:
置信度匹配单元143,用于若置信度大于对象关联阈值,则将候选关系特征对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
其中,置信度匹配单元143的具体功能实现方式可以参见上述图3对应实施例中的步骤S104,这里不再进行赘述。
本申请实施例中,获取第一对象实体所包括的n个第一对象模态分别对应的第一模态特征,获取第二对象实体所包括的m个第二对象模态分别对应的第二模态特征,获取第一对象实体与第二对象实体之间的候选关系特征;n为正整数,m为正整数;将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征;预测第一融合特征、第二融合特征与候选关系特征之间的置信度,基于置信度确定第一对象实体与第二对象实体之间的目标关联关系。本申请实施例引入了第一对象实体的多个第一模态特征、第二对象实体的多个第二模态特征,因此使得在预测第一融合特征、第二融合特征与候选关系特征之间的置信度可以更好地挖掘出第一对象实体与第二对象实体的隐藏特征,根据隐藏特征可以获得更多的特征信息,更加快速的确定第一对象实体与第二对象实体之间的目标关联关系。随着特征信息总量的增加,可以更加精准的确定第一对象实体与第二对象实体之间的目标关联关系,提高实体间关系识别效率。
进一步地,请参见图9,图9是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示,该数据处理装置2可以包括:样本实体获取模块21、样本特征获取模块22、样本融合模块23、样本预测模块24以及样本调整模块25。
样本实体获取模块21,用于获取样本实体对,样本实体对包括第一样本实体与第二样本实体;
样本特征获取模块22,用于获取第一样本实体所包括的n个第一样本模态分别对应的第一样本特征,获取第二样本实体所包括的m个第二样本模态分别对应的第二样本特征;获取第一样本实体与第二样本实体之间的样本关系特征;n为正整数,m为正整数;
样本融合模块23,用于将n个第一样本特征进行特征融合处理,得到第一综合样本特征;将m个第二样本特征进行特征融合处理,得到第二综合样本特征;
样本预测模块24,用于将第一综合样本特征、第二综合样本特征与样本关系特征输入初始关系预测模型进行预测,得到第一综合样本特征、第二综合样本特征与样本关系特征之间的样本预测置信度;
样本调整模块25,用于基于样本预测置信度,对初始关系预测模型进行参数调整,得到关系预测模型。
其中,样本实体获取模块21、样本特征获取模块22、样本融合模块23、样本预测模块24以及样本调整模块25的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S105,这里不再进行赘述。
再请参见图9,其中,样本实体对包括正样本实体对与负样本实体对;正样本实体对包括第一正样本实体与第二正样本实体;负样本实体对包括第一负样本实体与第二负样本实体;样本预测置信度包括正样本实体对所对应的正样本预测置信度,以及负样本实体对所对应的负样本预测置信度;
样本调整模块25包括:
第一生成单元251,用于根据正样本预测置信度与负样本预测置信度,生成针对初始关系预测模型的第一损失函数;
第一调整单元252,用于根据第一损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
其中,第一生成单元251以及第一调整单元252的具体功能实现方式可以参见上述图3应实施例中的步骤S105,这里不再进行赘述。
再请参见图9,其中,样本调整模块25还包括:
标签获取单元253,用于获取样本关系特征针对样本实体对的样本标签;
第二生成单元254,用于根据样本预测置信度与样本标签之间的误差,生成针对初始关系预测模型的第二损失函数;
第二调整单元255,用于根据第二损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
其中,标签获取单元253、第二生成单元254以及第二调整单元255的具体功能实现方式可以参见上述图3应实施例中的步骤S105,这里不再进行赘述。
本申请实施例中,获取第一对象实体所包括的n个第一对象模态分别对应的第一模态特征,获取第二对象实体所包括的m个第二对象模态分别对应的第二模态特征,获取第一对象实体与第二对象实体之间的候选关系特征;n为正整数,m为正整数;将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征;预测第一融合特征、第二融合特征与候选关系特征之间的置信度,基于置信度确定第一对象实体与第二对象实体之间的目标关联关系。本申请实施例引入了第一对象实体的多个第一模态特征、第二对象实体的多个第二模态特征,因此使得在预测第一融合特征、第二融合特征与候选关系特征之间的置信度可以更好地挖掘出第一对象实体与第二对象实体的隐藏特征,根据隐藏特征可以获得更多的特征信息,更加快速的确定第一对象实体与第二对象实体之间的目标关联关系。随着特征信息总量的增加,可以更加精准的确定第一对象实体与第二对象实体之间的目标关联关系,提高实体间关系识别效率。
进一步地,请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取第一对象实体所包括的n个第一对象模态分别对应的第一模态特征,获取第二对象实体所包括的m个第二对象模态分别对应的第二模态特征,获取第一对象实体与第二对象实体之间的候选关系特征;n为正整数,m为正整数;将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征;预测第一融合特征、第二融合特征与候选关系特征之间的置信度,基于置信度确定第一对象实体与第二对象实体之间的目标关联关系。
在一个实施例中,处理器1001在将预测第一融合特征、第二融合特征与候选关系特征之间的置信度时,还执行以下步骤:
将第一融合特征、第二融合特征与候选关系特征输入关系预测模型,基于关系预测模型,将第一融合特征、第二融合特征与候选关系特征映射到同一向量空间,得到第一融合特征对应的第一融合向量、第二融合特征对应的第二融合向量,以及候选关系特征对应的候选关系向量;将第一融合向量与候选关系向量融合得到的向量,与第二融合向量的差值,确定为第一融合特征、第二融合特征与候选关系特征之间的置信度。
在一个实施例中,处理器1001在将预测第一融合特征、第二融合特征与候选关系特征之间的置信度时,还执行以下步骤:
将第一融合特征、第二融合特征与候选关系特征输入关系预测模型,采用关系预测模型中的关系权重,对第一融合特征及第二融合特征进行特征融合转换,得到第一融合特征与第二融合特征之间的预测关系向量;获取预测关系向量与候选关系特征之间的特征距离,将特征距离确定为第一融合特征、第二融合特征与候选关系特征之间的置信度。
在一个实施例中,处理器1001在将候选关系特征的数量为d,d为正整数;
预测第一融合特征、第二融合特征与候选关系特征之间的置信度时,还执行以下步骤:
预测第一融合特征和第二融合特征,分别与d个候选关系特征之间的置信度;
在一个实施例中,处理器1001在将候选关系特征的数量为d,d为正整数;
基于置信度确定第一对象实体与第二对象实体之间的目标关联关系时,还执行以下步骤:
基于d个候选关系特征分别对应的置信度,对d个候选关系特征进行排序;将置信度最大的候选关系特征所对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
在一个实施例中,处理器1001在将基于置信度确定第一对象实体与第二对象实体之间的目标关联关系时,还执行以下步骤:
若置信度大于对象关联阈值,则将候选关系特征对应的候选关系,确定为第一对象实体与第二对象实体之间的目标关联关系。
在一个实施例中,处理器1001,还执行以下步骤:
获取样本实体对,样本实体对包括第一样本实体与第二样本实体;获取第一样本实体所包括的n个第一样本模态分别对应的第一样本特征,获取第二样本实体所包括的m个第二样本模态分别对应的第二样本特征;获取第一样本实体与第二样本实体之间的样本关系特征;n为正整数,m为正整数;将n个第一样本特征进行特征融合处理,得到第一综合样本特征;将m个第二样本特征进行特征融合处理,得到第二综合样本特征;将第一综合样本特征、第二综合样本特征与样本关系特征输入初始关系预测模型进行预测,得到第一综合样本特征、第二综合样本特征与样本关系特征之间的样本预测置信度;基于样本预测置信度,对初始关系预测模型进行参数调整,得到关系预测模型。
在一个实施例中,处理器1001在将样本实体对包括正样本实体对与负样本实体对;正样本实体对包括第一正样本实体与第二正样本实体;负样本实体对包括第一负样本实体与第二负样本实体;样本预测置信度包括正样本实体对所对应的正样本预测置信度,以及负样本实体对所对应的负样本预测置信度;
基于样本预测置信度,对初始关系预测模型进行参数调整,得到关系预测模型时,还执行以下步骤:
根据正样本预测置信度与负样本预测置信度,生成针对初始关系预测模型的第一损失函数;根据第一损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
在一个实施例中,处理器1001在将基于样本预测置信度,对初始关系预测模型进行参数调整,得到关系预测模型时,还执行以下步骤:
获取样本关系特征针对样本实体对的样本标签;根据样本预测置信度与样本标签之间的误差,生成针对初始关系预测模型的第二损失函数;根据第二损失函数,对初始关系预测模型进行参数调整,得到关系预测模型。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2、图3、图4、图5、以及图6所对应实施例中对数据处理方法的描述,也可执行前文图9所对应实施例中对数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图2、图3、图4、图5以及图6中各个步骤所提供的数据处理方法,具体可参见上述图2、图3、图4、图5以及图6各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可执行前文图2、图3、图4、图5以及图6所对应实施例中对数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例的说明书和权利要求书及附图中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (11)

1.一种数据处理方法,其特征在于,包括:
获取第一对象实体所包括的n个第一对象模态分别对应的第一模态特征,获取第二对象实体所包括的m个第二对象模态分别对应的第二模态特征,获取所述第一对象实体与所述第二对象实体之间的候选关系,对所述候选关系进行特征提取,得到所述第一对象实体与所述第二对象实体之间的候选关系特征;n为正整数,m为正整数;所述候选关系用于表达不同实体之间的某种联系;
将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征;
预测所述第一融合特征、所述第二融合特征与所述候选关系特征之间的置信度,基于所述置信度确定所述第一对象实体与所述第二对象实体之间的目标关联关系;
其中,所述预测所述第一融合特征、所述第二融合特征与所述候选关系特征之间的置信度,包括:
将所述第一融合特征、所述第二融合特征与所述候选关系特征输入关系预测模型,基于所述关系预测模型,将所述第一融合特征、所述第二融合特征与所述候选关系特征映射到同一向量空间,得到所述第一融合特征对应的第一融合向量、所述第二融合特征对应的第二融合向量,以及所述候选关系特征对应的候选关系向量;
将所述第一融合向量与所述候选关系向量融合得到的向量,与所述第二融合向量的差值,确定为所述第一融合特征、所述第二融合特征与所述候选关系特征之间的置信度。
2.根据权利要求1所述的方法,其特征在于,所述候选关系特征的数量为d,d为正整数;
所述预测所述第一融合特征、所述第二融合特征与所述候选关系特征之间的置信度,包括:
预测所述第一融合特征和所述第二融合特征,分别与d个候选关系特征之间的置信度;
所述基于所述置信度确定所述第一对象实体与所述第二对象实体之间的目标关联关系,包括:
基于所述d个候选关系特征分别对应的置信度,对所述d个候选关系特征进行排序;
将所述置信度最大的候选关系特征所对应的候选关系,确定为所述第一对象实体与所述第二对象实体之间的目标关联关系。
3.根据权利要求1所述的方法,其特征在于,所述基于所述置信度确定所述第一对象实体与所述第二对象实体之间的目标关联关系,包括:
若所述置信度大于对象关联阈值,则将所述候选关系特征对应的候选关系,确定为所述第一对象实体与所述第二对象实体之间的目标关联关系。
4.一种数据处理方法,其特征在于,包括:
获取样本实体对,所述样本实体对包括第一样本实体与第二样本实体;
获取第一样本实体所包括的n个第一样本模态分别对应的第一样本特征,获取第二样本实体所包括的m个第二样本模态分别对应的第二样本特征;获取所述第一样本实体与所述第二样本实体之间的关系的样本关系特征;n为正整数,m为正整数;所述第一样本实体与所述第二样本实体之间的关系,用于表达所述第一样本实体与所述第二样本实体之间的某种联系;
将n个第一样本特征进行特征融合处理,得到第一综合样本特征;将m个第二样本特征进行特征融合处理,得到第二综合样本特征;
将所述第一综合样本特征、所述第二综合样本特征与所述样本关系特征输入初始关系预测模型进行预测,得到所述第一综合样本特征、所述第二综合样本特征与所述样本关系特征之间的样本预测置信度;
基于所述样本预测置信度,对所述初始关系预测模型进行参数调整,得到关系预测模型;
其中,所述将所述第一综合样本特征、所述第二综合样本特征与所述样本关系特征输入初始关系预测模型进行预测,得到所述第一综合样本特征、所述第二综合样本特征与所述样本关系特征之间的样本预测置信度,包括:
将所述第一综合样本特征、所述第二综合样本特征与所述样本关系特征输入初始关系预测模型,基于所述初始关系预测模型,将所述第一综合样本特征、所述第二综合样本特征与所述样本关系特征映射到同一向量空间,得到所述第一综合样本特征对应的第一样本融合向量、所述第二综合样本特征对应的第二样本融合向量,以及所述样本关系特征对应的候选样本关系向量;
将所述第一样本融合向量与所述候选样本关系向量融合得到的向量,与所述第二样本融合向量的差值,确定为所述第一综合样本特征、所述第二综合样本特征与所述样本关系特征之间的样本预测置信度。
5.根据权利要求4所述的方法,其特征在于,所述样本实体对包括正样本实体对与负样本实体对;所述正样本实体对包括第一正样本实体与第二正样本实体;所述负样本实体对包括第一负样本实体与第二负样本实体;所述样本预测置信度包括所述正样本实体对所对应的正样本预测置信度,以及所述负样本实体对所对应的负样本预测置信度;
所述基于所述样本预测置信度,对所述初始关系预测模型进行参数调整,得到关系预测模型,包括:
根据所述正样本预测置信度与所述负样本预测置信度,生成针对所述初始关系预测模型的第一损失函数;
根据所述第一损失函数,对所述初始关系预测模型进行参数调整,得到关系预测模型。
6.根据权利要求4所述的方法,其特征在于,所述基于所述样本预测置信度,对所述初始关系预测模型进行参数调整,得到关系预测模型,包括:
获取所述样本关系特征针对所述样本实体对的样本标签;
根据所述样本预测置信度与所述样本标签之间的误差,生成针对所述初始关系预测模型的第二损失函数;
根据所述第二损失函数,对所述初始关系预测模型进行参数调整,得到关系预测模型。
7.一种数据处理装置,其特征在于,包括:
对象获取模块,用于获取第一对象实体所包括的n个第一对象模态分别对应的第一模态特征,获取第二对象实体所包括的m个第二对象模态分别对应的第二模态特征,获取所述第一对象实体与所述第二对象实体之间的候选关系,对所述候选关系进行特征提取,得到所述第一对象实体与所述第二对象实体之间的候选关系特征;n为正整数,m为正整数;所述候选关系用于表达不同实体之间的某种联系;
对象融合模块,用于将n个第一模态特征进行特征融合处理,得到第一融合特征;将m个第二模态特征进行特征融合处理,得到第二融合特征;
对象预测模块,用于预测所述第一融合特征、所述第二融合特征与所述候选关系特征之间的置信度;
对象确定模块,用于基于所述置信度确定所述第一对象实体与所述第二对象实体之间的目标关联关系;
其中,所述对象预测模块,包括:
特征映射单元,用于将所述第一融合特征、所述第二融合特征与所述候选关系特征输入关系预测模型,基于所述关系预测模型,将所述第一融合特征、所述第二融合特征与所述候选关系特征映射到同一向量空间,得到所述第一融合特征对应的第一融合向量、所述第二融合特征对应的第二融合向量,以及所述候选关系特征对应的候选关系向量;
第一置信度确定单元,用于将所述第一融合向量与所述候选关系向量融合得到的向量,与所述第二融合向量的差值,确定为所述第一融合特征、所述第二融合特征与所述候选关系特征之间的置信度。
8.一种数据处理装置,其特征在于,包括:
样本实体获取模块,用于获取样本实体对,所述样本实体对包括第一样本实体与第二样本实体;
样本特征获取模块,用于获取第一样本实体所包括的n个第一样本模态分别对应的第一样本特征,获取第二样本实体所包括的m个第二样本模态分别对应的第二样本特征;获取所述第一样本实体与所述第二样本实体之间的关系的样本关系特征;n为正整数,m为正整数;所述第一样本实体与所述第二样本实体之间的关系,用于表达所述第一样本实体与所述第二样本实体之间的某种联系;
样本融合模块,用于将n个第一样本特征进行特征融合处理,得到第一综合样本特征;将m个第二样本特征进行特征融合处理,得到第二综合样本特征;
样本预测模块,用于将所述第一综合样本特征、所述第二综合样本特征与所述样本关系特征输入初始关系预测模型进行预测,得到所述第一综合样本特征、所述第二综合样本特征与所述样本关系特征之间的样本预测置信度;
样本调整模块,用于基于所述样本预测置信度,对所述初始关系预测模型进行参数调整,得到关系预测模型;
其中,所述样本预测模块,具体用于:
将所述第一综合样本特征、所述第二综合样本特征与所述样本关系特征输入初始关系预测模型,基于所述初始关系预测模型,将所述第一综合样本特征、所述第二综合样本特征与所述样本关系特征映射到同一向量空间,得到所述第一综合样本特征对应的第一样本融合向量、所述第二综合样本特征对应的第二样本融合向量,以及所述样本关系特征对应的候选样本关系向量;
将所述第一样本融合向量与所述候选样本关系向量融合得到的向量,与所述第二样本融合向量的差值,确定为所述第一综合样本特征、所述第二综合样本特征与所述样本关系特征之间的样本预测置信度。
9.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-3任一项所述的方法,或者执行权利要求4-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行权利要求1-3任一项所述的方法,或者执行权利要求4-6任一项所述的方法。
11.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-3任一项所述的方法,或者执行权利要求4-6任一项所述的方法。
CN202210090399.1A 2022-01-25 2022-01-25 数据处理方法、装置、设备、可读存储介质及程序产品 Active CN114417875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210090399.1A CN114417875B (zh) 2022-01-25 2022-01-25 数据处理方法、装置、设备、可读存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210090399.1A CN114417875B (zh) 2022-01-25 2022-01-25 数据处理方法、装置、设备、可读存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN114417875A CN114417875A (zh) 2022-04-29
CN114417875B true CN114417875B (zh) 2024-09-13

Family

ID=81276770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210090399.1A Active CN114417875B (zh) 2022-01-25 2022-01-25 数据处理方法、装置、设备、可读存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN114417875B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质
CN112507715A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 确定实体之间关联关系的方法、装置、设备和存储介质
CN113343982A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 多模态特征融合的实体关系提取方法、装置和设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816039B (zh) * 2019-01-31 2021-04-20 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN110619053A (zh) * 2019-09-18 2019-12-27 北京百度网讯科技有限公司 实体关系抽取模型的训练方法和抽取实体关系的方法
WO2021197602A1 (en) * 2020-04-01 2021-10-07 NEC Laboratories Europe GmbH Method and system for learning novel relationships among various biological entities
CN112101041B (zh) * 2020-09-08 2022-02-15 平安科技(深圳)有限公司 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN112001368A (zh) * 2020-09-29 2020-11-27 北京百度网讯科技有限公司 文字结构化提取方法、装置、设备以及存储介质
CN112256828B (zh) * 2020-10-20 2023-08-08 平安科技(深圳)有限公司 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN113515943A (zh) * 2020-12-28 2021-10-19 清华大学 自然语言处理方法及其模型的获取方法、装置、存储介质
CN113392236A (zh) * 2021-01-04 2021-09-14 腾讯科技(深圳)有限公司 一种数据分类方法、计算机设备及可读存储介质
CN113239184B (zh) * 2021-07-09 2021-11-02 腾讯科技(深圳)有限公司 知识库获取方法、装置、计算机设备及存储介质
CN113408282B (zh) * 2021-08-06 2021-11-09 腾讯科技(深圳)有限公司 主题模型训练和主题预测方法、装置、设备及存储介质
CN113657087B (zh) * 2021-08-25 2023-12-15 平安科技(深圳)有限公司 信息的匹配方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质
CN112507715A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 确定实体之间关联关系的方法、装置、设备和存储介质
CN113343982A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 多模态特征融合的实体关系提取方法、装置和设备

Also Published As

Publication number Publication date
CN114417875A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN113569088B (zh) 一种音乐推荐方法、装置以及可读存储介质
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN113657087B (zh) 信息的匹配方法及装置
CN113806588A (zh) 搜索视频的方法和装置
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN117540007B (zh) 基于相似模态补全的多模态情感分析方法、系统和设备
CN115935049A (zh) 基于人工智能的推荐处理方法、装置及电子设备
CN115640449A (zh) 媒体对象推荐方法、装置、计算机设备和存储介质
CN114817692A (zh) 确定推荐对象的方法、装置和设备及计算机存储介质
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN116628345A (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN114357301B (zh) 数据处理方法、设备及可读存储介质
CN114417875B (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN116628232A (zh) 标签确定方法、装置、设备、存储介质及产品
CN116775980A (zh) 一种跨模态搜索方法及相关设备
CN118230224B (zh) 标签打分方法、标签打分模型训练方法和装置
CN114139031B (zh) 数据分类方法、装置、电子设备及存储介质
CN117216361A (zh) 推荐方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant