CN113505246B - 数据处理方法、装置、终端设备以及存储介质 - Google Patents
数据处理方法、装置、终端设备以及存储介质 Download PDFInfo
- Publication number
- CN113505246B CN113505246B CN202111064753.5A CN202111064753A CN113505246B CN 113505246 B CN113505246 B CN 113505246B CN 202111064753 A CN202111064753 A CN 202111064753A CN 113505246 B CN113505246 B CN 113505246B
- Authority
- CN
- China
- Prior art keywords
- node
- graph
- nodes
- type
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、终端设备以及存储介质,其可以应用于云技术、人工智能、智慧交通等各种场景。该方法包括:获取第一节点关系图,第一节点关系图中包括待处理节点,以及与待处理节点具有关联关系的至少一个第一类型节点和至少一个第二类型节点,待处理节点为第一类型节点;获取第一节点关系图中包括的各个节点对应的初始特征向量;基于图神经网络,结合第一节点关系图和第一节点关系图中包括的各个节点对应的初始特征向量,确定待处理节点对应的融合特征向量。采用本申请实施例,可提高信息表示效果,有利于提高语义理解的精度。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种数据处理方法、装置、终端设备以及存储介质。
背景技术
随着人工智能技术的不断发展,深度学习与自然语言处理技术的结合使得自然语言方面有了突破性进展。目前面向数学领域的自然语言处理,主流的方法是对数学题目文本进行分词,利用词向量的形式进行题意的分析与建模。为了日益增长的更深层次的数学类文本处理需求,如数学题目问答、题型分类,目前的文本处理与语义建模方式,因为只关注于数学题目文本(或描述为题面)本身的信息,使得语义理解上并不能达到很好的效果,因此,如何提高题目表示效果成为当前亟待解决的问题之一。
发明内容
本申请实施例提供一种数据处理方法、装置、终端设备以及存储介质,可可提高题目表示效果,有利于提高语义理解的精度。
第一方面,本申请实施例提供了一种数据处理方法,该方法包括:
获取第一节点关系图,所述第一节点关系图中包括待处理节点,以及与所述待处理节点具有关联关系的至少一个第一类型节点和至少一个第二类型节点,所述待处理节点为第一类型节点;
获取所述第一节点关系图中包括的各个节点对应的初始特征向量;
基于图神经网络,结合所述第一节点关系图和所述第一节点关系图中包括的各个节点对应的初始特征向量,确定所述待处理节点对应的融合特征向量。
结合第一方面,在一种可能的实施方式中,所述方法还包括:
获取第二节点关系图,所述第二节点关系图包括所述第一节点关系图;
根据所述第二节点关系图确定训练样本集合,所述训练样本集合中包括至少一个正样本和至少一个负样本,所述正样本和所述负样本中包括的节点对皆为第一类型节点;
针对目标训练样本中包括的目标节点对,分别获取所述目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,以及确定每个所述目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,所述目标训练样本为所述训练样本集合中的一个样本;
根据所述目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,每个所述目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,以及所述目标节点对的节点类别标签调整节点识别网络模型的网络参数,所述节点识别网络模型包括所述图神经网络,所述节点类别标签包括第一类别和第二类别。
结合第一方面,在一种可能的实施方式中,所述根据所述第二节点关系图确定训练样本集合,包括:
针对所述第二节点关系图中任一个第一类型节点,获取在所述第二节点关系图中与所述任一个第一类型节点之间的距离小于或者等于预设距离阈值的第一类型节点,将所述任一个第一类型节点以及与所述任一个第一类型节点之间的距离小于或者等于预设距离阈值的第一类型节点所组成的节点对确定为正样本;
获取在所述第二节点关系图中与所述任一个第一类型节点之间的距离大于预设距离阈值的第一类型节点,将所述任一个第一类型节点以及与所述任一个第一类型节点之间的距离大于预设距离阈值的第一类型节点所组成的节点对确定为负样本;
根据所述正样本和所述负样本确定所述训练样本集合。
结合第一方面,在一种可能的实施方式中,所述获取所述第一节点关系图中包括的各个节点对应的初始特征向量,包括:
根据第一神经网络确定所述第一节点关系图中包括的每个第一类型节点对应的第一初始特征向量,以及根据第二类型节点与特征向量之间的映射关系,确定所述第一节点关系图中包括的每个第二类型节点对应的第二初始特征向量,以得到所述第一节点关系图中包括的各个节点对应的初始特征向量。
结合第一方面,在一种可能的实施方式中,所述第一类型节点为题目节点,所述第一神经网络包括文本编码器,图片编码器,自注意力机制层和池化层;所述根据第一神经网络确定所述第一节点关系图中包括的第一类型节点对应的第一初始特征向量,包括:
通过文本编码器获取所述第一节点关系图中包括的每个题目节点包括的文本数据对应的语义特征数据,以及通过图片编码器获取所述第一节点关系图中包括的每个题目节点包括的图片数据对应的图像特征数据;
将所述语义特征数据和所述图像特征数据输入所述自注意力机制层,获取所述自注意力机制层输出的融合特征数据;
通过所述池化层对所述语义特征数据、所述图像特征数据和所述融合特征数据进行处理,并获取所述池化层输出的所述第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
结合第一方面,在一种可能的实施方式中,所述语义特征数据为m*h维特征向量矩阵,所述图像特征数据为n*h维特征向量矩阵,所述融合特征数据为(m+n)*h维融合特征向量矩阵;所述通过所述池化层对所述语义特征数据、所述图像特征数据和所述融合特征数据进行处理,包括:
根据所述m*h维特征向量矩阵和所述n*h维特征向量矩阵生成(m+n)*h维特征向量矩阵;
将所述(m+n)*h维特征向量矩阵和所述(m+n)*h维融合特征向量矩阵进行拼接,并将拼接后得到矩阵输入所述池化层进行处理,以获取所述池化层输出的所述第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
结合第一方面,在一种可能的实施方式中,所述第二类型节点为知识点节点;所述根据第二类型节点与特征向量之间的映射关系,确定所述第一节点关系图中包括的每个第二类型节点对应的第二初始特征向量,包括:
获取预设的特征向量查询表,所述特征向量查询表中包括多个节点索引以及各个节点索引对应的特征向量,其中一个节点索引用于唯一标记一个第二类型节点,一个节点索引对应一个特征向量;
确定所述第一节点关系图中包括的每个第二类型节点的节点索引,根据各个第二类型节点的节点索引从所述特征向量查询表中确定出所述各个第二类型节点对应的第二初始特征向量。
第二方面,本申请实施例提供了一种数据处理装置,该装置包括:
收发单元,用于获取第一节点关系图,所述第一节点关系图中包括待处理节点,以及与所述待处理节点具有关联关系的至少一个第一类型节点和至少一个第二类型节点,所述待处理节点为第一类型节点;
处理单元,用于获取所述第一节点关系图中包括的各个节点对应的初始特征向量;
所述处理单元,用于基于图神经网络,结合所述第一节点关系图和所述第一节点关系图中包括的各个节点对应的初始特征向量,确定所述待处理节点对应的融合特征向量。
结合第二方面,在一种可能的实施方式中,
所述收发单元,用于获取第二节点关系图,所述第二节点关系图包括所述第一节点关系图;
所述处理单元,用于根据所述第二节点关系图确定训练样本集合,所述训练样本集合中包括至少一个正样本和至少一个负样本,所述正样本和所述负样本中包括的节点对皆为第一类型节点;
所述处理单元,用于针对目标训练样本中包括的目标节点对,分别获取所述目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,以及确定每个所述目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,所述目标训练样本为所述训练样本集合中的一个样本;
所述处理单元,用于根据所述目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,每个所述目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,以及所述目标节点对的节点类别标签调整节点识别网络模型的网络参数,所述节点识别网络模型包括所述图神经网络,所述节点类别标签包括第一类别和第二类别。
结合第二方面,在一种可能的实施方式中,所述处理单元具体用于:
针对所述第二节点关系图中任一个第一类型节点,获取在所述第二节点关系图中与所述任一个第一类型节点之间的距离小于或者等于预设距离阈值的第一类型节点,将所述任一个第一类型节点以及与所述任一个第一类型节点之间的距离小于或者等于预设距离阈值的第一类型节点所组成的节点对确定为正样本;
获取在所述第二节点关系图中与所述任一个第一类型节点之间的距离大于预设距离阈值的第一类型节点,将所述任一个第一类型节点以及与所述任一个第一类型节点之间的距离大于预设距离阈值的第一类型节点所组成的节点对确定为负样本;
根据所述正样本和所述负样本确定所述训练样本集合。
结合第二方面,在一种可能的实施方式中,所述处理单元具体用于:
根据第一神经网络确定所述第一节点关系图中包括的每个第一类型节点对应的第一初始特征向量,以及根据第二类型节点与特征向量之间的映射关系,确定所述第一节点关系图中包括的每个第二类型节点对应的第二初始特征向量,以得到所述第一节点关系图中包括的各个节点对应的初始特征向量。
结合第二方面,在一种可能的实施方式中,所述第一类型节点为题目节点,所述第一神经网络包括文本编码器,图片编码器,自注意力机制层和池化层;所述处理单元具体用于:
通过文本编码器获取所述第一节点关系图中包括的每个题目节点包括的文本数据对应的语义特征数据,以及通过图片编码器获取所述第一节点关系图中包括的每个题目节点包括的图片数据对应的图像特征数据;
将所述语义特征数据和所述图像特征数据输入所述自注意力机制层,获取所述自注意力机制层输出的融合特征数据;
通过所述池化层对所述语义特征数据、所述图像特征数据和所述融合特征数据进行处理,并获取所述池化层输出的所述第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
结合第二方面,在一种可能的实施方式中,所述语义特征数据为m*h维特征向量矩阵,所述图像特征数据为n*h维特征向量矩阵,所述融合特征数据为(m+n)*h维融合特征向量矩阵;所述处理单元具体用于:
根据所述m*h维特征向量矩阵和所述n*h维特征向量矩阵生成(m+n)*h维特征向量矩阵;
将所述(m+n)*h维特征向量矩阵和所述(m+n)*h维融合特征向量矩阵进行拼接,并将拼接后得到矩阵输入所述池化层进行处理,以获取所述池化层输出的所述第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
结合第二方面,在一种可能的实施方式中,所述第二类型节点为知识点节点;所述处理单元具体用于:
获取预设的特征向量查询表,所述特征向量查询表中包括多个节点索引以及各个节点索引对应的特征向量,其中一个节点索引用于唯一标记一个第二类型节点,一个节点索引对应一个特征向量;
确定所述第一节点关系图中包括的每个第二类型节点的节点索引,根据各个第二类型节点的节点索引从所述特征向量查询表中确定出所述各个第二类型节点对应的第二初始特征向量。
第三方面,本申请实施例提供了一种终端设备,该终端设备包括处理器、存储器和收发器,该处理器、存储器和收发器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序,该计算机程序包括程序指令,该处理器和收发器被配置用于调用上述程序指令,执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
在本申请实施例中,获取第一节点关系图,第一节点关系图中包括待处理节点,以及与待处理节点具有关联关系的至少一个第一类型节点和至少一个第二类型节点,待处理节点为第一类型节点。获取第一节点关系图中包括的各个节点对应的初始特征向量。基于图神经网络,结合第一节点关系图和第一节点关系图中包括的各个节点对应的初始特征向量,确定待处理节点对应的融合特征向量。采用本申请实施例,通过把待处理节点(例如题目节点)放入到一个图中,结合图中节点之间的联系以及题目节点本身的内容联合进行题目的表示学习,可提高题目表示效果,有利于提高语义理解的精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据处理的一场景示意图;
图2是本申请实施例提供的数据处理方法的一流程示意图;
图3是本申请实施例提供的节点关系图的场景示意图;
图4是本申请实施例提供的题目包含的内容信息的示意图;
图5是本申请实施例提供的第一神经网络的结构示意图;
图6是本申请实施例提供的数据处理方法的另一流程示意图;
图7是本申请实施例提供的正样本和负样本的示意图;
图8是本申请实施例提供的数据处理装置的结构示意图;
图9是本申请实施例提供的网络设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例涉及人工智能(Artificial Intelligence,AI)及机器学习(Machine Learning,ML)。其中,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,其主要通过了解智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器,使得智能机器具有感知、推理与决策等多种功能。
AI技术是一门综合学科,其主要包括计算机视觉技术(Computer Vision,CV)、语音处理技术、自然语言处理技术以及机器学习(Machine Learning,ML)/深度学习等几大方向。其中,计算机视觉技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统;其通常包括数据处理、视频处理、视频语义理解、视频内容/行为识别等技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
基于AI技术中的计算机视觉技术和机器学习技术,本申请实施例提供了一种数据处理方法,该方法包括:获取第一节点关系图,第一节点关系图中包括待处理节点,以及与待处理节点具有关联关系的至少一个第一类型节点和至少一个第二类型节点,待处理节点为第一类型节点;获取第一节点关系图中包括的各个节点对应的初始特征向量;基于图神经网络,结合第一节点关系图和第一节点关系图中包括的各个节点对应的初始特征向量,确定待处理节点对应的融合特征向量。采用本申请实施例,可提高题目表示效果,有利于提高语义理解的精度。
请参见图1,图1是本申请实施例提供的数据处理的一场景示意图。如图1所示,数据处理场景中包括了终端设备101和服务器102。其中,终端设备101为用户所使用的设备,终端设备101可以包括但不限于:智能手机(如Android手机、iOS手机等)、平板电脑、便携式个人计算机、移动互联网设备(Mobile Internet Devices,MID)等设备;终端设备配置有显示装置,显示装置也可为显示器、显示屏、触摸屏等等,触摸屏也可为触控屏、触控面板等等,本申请实施例不做限定。
服务器102是指能够对终端设备101提供的第一节点关系图和第一节点关系图中包括的各个节点对应的初始特征向量进行处理的后台设备,在根据第一节点关系图和第一节点关系图中包括的各个节点对应的初始特征向量确定出待处理节点对应的融合特征向量后,服务器102可以向终端设备101返回该待处理节点对应的融合特征向量。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。此外,还可以将多个服务器组成为一个区块链网络,每个服务器为区块链网络中的一个节点。终端设备101和服务器102之间可以通过有线通信或者无线通信方式进行直接或间接地连接,本申请在此不做限制。
需要说明的是,图1所示的数据处理场景中终端设备和服务器的数量仅为举例,例如,终端设备和服务器的数量可以为多个,本申请并不对终端设备和服务器的数量进行限定。其中,本申请实施例提供的方法可适用于服务器,也可以适用于终端设备等,在此不做限制,为方便描述,本申请实施例可将终端设备和服务器统称为网络设备,以下皆以网络设备为例进行说明。
下面将结合图2至图9分别对本申请实施例提供的方法及相关装置分别进行详细说明。
请参见图2,图2是本申请实施例提供的数据处理方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤S201至S203:
S201、获取第一节点关系图。
在一些可行的实施方式中,获取第一节点关系图,该第一节点关系图中包括待处理节点,以及与待处理节点具有关联关系的至少一个第一类型节点和至少一个第二类型节点,待处理节点为第一类型节点。通常而言,图是由节点和边构成,本申请实施例中的节点关系图包括了多种类型的节点和多种类型的边。示例性地,在智慧教育的自适应学习场景中,第一类型节点可以为题目节点(简称题目),第二类型节点可以为知识点节点(简称知识点)等,在此不做限制。其中,知识点之间的层次关系、题目和知识点之间的关联关系、题目和题目之间的相似题、重复题关系都认为是不同类型的边。也就是说,第一节点关系图中第一类型节点和第二类型节点之间的关联关系,第一类型节点之间的关联关系,以及第二类型节点之间的关联关系都认为是第一节点关系图中不同类型的边。为方便理解,以下本申请实施例皆以第一类型节点为题目节点,第二类型节点为知识点节点为例进行示意性说明。
举例来说,请参见图3,图3是本申请实施例提供的节点关系图的场景示意图。该节点关系图中共包括两类节点,分别为知识点节点和题目节点。如图3所示,知识点节点包括知识点a,知识点b,知识点c和知识点d,题目节点包括题目1,题目2,题目3和题目4。其中,各节点之间的关联关系包括知识点之间的层次关系(如函数→一次函数→一次函数的定义)、题目和知识点间的关联关系(如某一个题目主要在考察一次函数的定义这个知识点)、题目和题目之间是相似题的关系(如两个题目都在考察追击问题)。如图3所示,知识点a分别与知识点b和知识点c之间具有关联关系,知识点b分别与题目1,题目2和题目4具有关联关系,知识点c分别与题目3和题目4具有关联关系,知识点d与题目4之间具有关联关系,题目1和题目2之间具有关联关系。
需要说明的是,有了上述题目在图中节点和边关系的引入(即节点关系图的引入),还需要基于题目内容获得题目表示的网络模型,一个典型的数学题目包含如图4所示的内容。示例性,请参见图4,图4是本申请实施例提供的题目包含的内容信息的示意图。如图4所示,题目的内容可由1.文本、2.公式、3.图片、4.知识点和5.答案/解析等多个部分组成,在此不做限制。
S202、获取第一节点关系图中包括的各个节点对应的初始特征向量。
在一些可行的实施方式中,获取第一节点关系图中包括的各个节点对应的初始特征向量。其中,获取第一节点关系图中包括的各个节点对应的初始特征向量具体可理解为:根据第一神经网络确定第一节点关系图中包括的每个第一类型节点对应的第一初始特征向量,以及根据第二类型节点与特征向量之间的映射关系,确定第一节点关系图中包括的每个第二类型节点对应的第二初始特征向量,以得到第一节点关系图中包括的各个节点对应的初始特征向量。
其中,第一神经网络可包括文本编码器,图片编码器,自注意力机制层和池化层,上述根据第一神经网络确定第一节点关系图中包括的第一类型节点对应的第一初始特征向量可理解为:通过文本编码器获取第一节点关系图中包括的每个题目节点包括的文本数据对应的语义特征数据,以及通过图片编码器获取第一节点关系图中包括的每个题目节点包括的图片数据对应的图像特征数据。将语义特征数据和图像特征数据输入自注意力机制层,获取自注意力机制层输出的融合特征数据。通过池化层对语义特征数据、图像特征数据和融合特征数据进行处理,并获取池化层输出的第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
通常而言,语义特征数据为m*h维特征向量矩阵,图像特征数据为n*h维特征向量矩阵,融合特征数据为(m+n)*h维融合特征向量矩阵;通过池化层对语义特征数据、图像特征数据和融合特征数据进行处理可理解为:根据m*h维特征向量矩阵和n*h维特征向量矩阵生成(m+n)*h维特征向量矩阵,将(m+n)*h维特征向量矩阵和(m+n)*h维融合特征向量矩阵进行拼接,并将拼接后得到矩阵输入池化层进行处理,以获取池化层输出的第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
可选的,本申请实施例中的自注意力机制层可包括K层编码单元,例如,K=3,即自注意力机制层可包括3层编码单元,分别为第一层编码单元,第二层编码单元和第三层编码单元。其中,第一层编码单元连接第二层编码单元,第二层编码单元连接第三层编码单元。每层编码单元可包括第一向量标准化层、多头注意力机制层、第二向量标准化层和前向传递层。其中,每层编码单元中的第一向量标准化层连接多头注意力机制层,多头注意力机制层连接第二向量标准化层,第二向量标准化层连接前向传递层。因此,针对第一层编码单元而言,通过将语义特征数据和图像特征数据输入第一向量标准化层进行标准化或归一化处理后,可将经过第一向量标准化层处理的数据输入多头注意力机制层进行处理,然后将多头注意力机制层输出的数据与语义特征数据和图像特征数据进行拼接后输入至第二向量标准化层,再将经过第二向量标准化层处理后数据输入至前向传递层,最后将经过前向传递层处理后输出的数据与输入至第二向量标准化层的数据进行拼接,以作为第一层编码单元的下一层编码单元的输入数据,即第二层编码单元的输入数据。最后,将第三层编码单元的输出数据作为自注意力机制层的输出的融合特征数据。
示例性地,请参见图5,图5是本申请实施例提供的第一神经网络的结构示意图。如图5所示,输入题目包括的内容信息,其中,针对题目包括的内容信息中的文本数据(例如由文本、公式、答案/解析和知识点等中至少一项组成的文本数据),本申请通过文本编码器(即Text Encoder)将每一个词(如图5所示的m个词中每个词)编码成固定维度的向量(即h维向量,例如h=128),实际使用中,这里的Text Encoder可以为BERT模型,其初始参数是通过预设文本数据进行预训练得到的。针对题目包括的内容信息中的图片数据,本申请通过图片编码器(即Image Encoder)将每一张图片(如图5所示的n张图片中每张图片)编码成与文本同一维度的向量(例如128维),示例性地,本申请中的Image Encoder可以为卷积网络,通过卷积网络提取每一张图片的信息,并编码成同文本同一维度的向量(例如128维),Image Encoder的初始参数可以通过图片内容的对比学习得到。基于此,可得到TextEncoder输出的m*h维特征向量矩阵(即语义特征数据),Image Encoder输出的n*h维特征向量矩阵(即图像特征数据)。在此基础上,可根据Text Encoder输出的m*h维特征向量矩阵和Image Encoder输出的n*h维特征向量矩阵生成(m+n)*h维特征向量矩阵。进而,可将该(m+n)*h维特征向量矩阵输入至自注意力机制层进行处理,并获取自注意力机制层输出的融合特征数据(即(m+n)*h维融合特征向量矩阵)。如图5所示,自注意力机制层(即如图5所示的SelfAttention)可包括3层编码单元(即N=3),各层编码单元串行连接,其中,每层编码单元可包括第一向量标准化层、多头注意力机制层、第二向量标准化层和前向传递层(即FFN)。其中,每层编码单元中的第一向量标准化层连接多头注意力机制层,多头注意力机制层连接第二向量标准化层,第二向量标准化层连接前向传递层。因此,针对第一层编码单元而言,通过将语义特征数据和图像特征数据输入第一向量标准化层进行标准化或归一化处理后,可将经过第一向量标准化层处理的数据输入多头注意力机制层进行处理,然后将多头注意力机制层输出的数据与语义特征数据和图像特征数据进行拼接后输入至第二向量标准化层,再将经过第二向量标准化层处理后数据输入至前向传递层,最后将经过前向传递层处理后输出的数据与输入至第二向量标准化层的数据进行拼接,以作为第一层编码单元的下一层编码单元的输入数据,即第二层编码单元的输入数据。最后,将第三层编码单元的输出数据作为自注意力机制层的输出的融合特征数据。最后,通过所述池化层(即如图5所示的Pooling)对所述语义特征数据、所述图像特征数据和所述融合特征数据进行处理,并获取所述池化层输出的所述第一节点关系图中包括的每个题目节点对应的第一初始特征向量。具体地,可将所述(m+n)*h维特征向量矩阵和所述(m+n)*h维融合特征向量矩阵进行拼接,并将拼接后得到矩阵输入所述池化层进行处理,以获取所述池化层输出的所述第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
需要说明的是,本申请中题目的内容可由1.文本、2.公式、3.图片、4.知识点和5.答案/解析等多个部分组成,其中,其中,针对题目中的公式部分会进行如下处理:1.latex格式表达的公式会通过公式归一化模块直接转化成公式的文本表达,2.图片表达的公式会通过img2latex工具转化成latex格式再进行归一化成文本的表达。对于知识点的部分,由于已经在节点关系图中存在了题目和知识点关联关系的边,因此在内容表达中可以省掉,即输入至文本编码器中的文本数据可以不包括如图4中的知识点部分。对于题目的答案/解析部分,目前有两种处理方法:1.当成题目内容,即作为文本编码器的输入数据中的部分数据;2.把答案/解析当成节点关系图中的第三类节点,并建立答案/解析和题目之间的关联关系,其中,本申请实施例第1种处理方式为例进行说明,也就是说,输入至文本编码器中的文本数据包括题目内容中的文本、公式、答案/解析和知识点。
其中,本申请实施例中第二类型节点为知识点节点,上述根据第二类型节点与特征向量之间的映射关系,确定所述第一节点关系图中包括的每个第二类型节点对应的第二初始特征向量可理解为:获取预设的特征向量查询表,所述特征向量查询表中包括多个节点索引以及各个节点索引对应的特征向量,其中一个节点索引用于唯一标记一个第二类型节点,一个节点索引对应一个特征向量。确定所述第一节点关系图中包括的每个第二类型节点的节点索引,根据各个第二类型节点的节点索引从所述特征向量查询表中确定出所述各个第二类型节点对应的第二初始特征向量。这是因为针对某个领域的知识点而言,通常包括有限个数个知识点,因此可事先建立各个知识点与对应的表征该知识点的特征向量之间的映射关系,因此,实际使用时,通过查询预先建立的知识点与特征向量之间的映射关系表,可获取到待处理的知识点对应的特征向量,这样做的好处是可提高数据处理的效率,减小获取知识点对应的特征向量的复杂度。
S203、基于图神经网络,结合第一节点关系图和第一节点关系图中包括的各个节点对应的初始特征向量,确定待处理节点对应的融合特征向量。
在一些可行的实施方式中,基于图神经网络,结合第一节点关系图和第一节点关系图中包括的各个节点对应的初始特征向量,可确定出待处理节点对应的融合特征向量。也就是说,通过将第一节点关系图和第一节点关系图中包括的各个节点对应的初始特征向量输入至图神经网络,经过图神经网络处理后,可得到待处理节点对应的融合特征向量。在本申请实施例中,通过把题目放入到一个图中,结合图中节点之间的联系以及题目节点本身的内容联合进行题目的表示学习,可提升题目表示的效果。
下面将具体介绍图神经网络的训练过程。示例性地,请参见图6,图6是本申请实施例提供的数据处理方法的另一流程示意图。其包括如下步骤S601至S604:
S601、获取第二节点关系图。
在一些可行的实施方式中,获取第二节点关系图,第二节点关系图包括第一节点关系图。可理解的,第二节点关系图中的题目节点可以包括题库中包括的所有题目或部分题目,第二节点关系图中的知识点节点可以包括题库所涵盖的所有知识点或部分知识点。
S602、根据第二节点关系图确定训练样本集合。
在一些可行的实施方式中,根据第二节点关系图确定训练样本集合。其中,训练样本集合中包括至少一个正样本和至少一个负样本,正样本和负样本中包括的节点对皆为第一类型节点,即正样本中包括的节点对为第一类型节点对,负样本中包括的节点对也为第一类型节点对。在本申请实施例中,正样本中包括的节点对的节点类别标签可认为是第一类别,负样本中包括的节点对的节点类别标签可认为是第二类别。可选的,也可以将正样本中包括的节点对的节点类别标签认为是第二类别,将负样本中包括的节点对的节点类别标签认为是第一类别,在此不做限制。为方便描述,可将正样本中节点对的节点类别标签为第一类别,负样本中节点对的节点类别标签为第二类别为例进行示例性说明。
具体地,上述根据第二节点关系图确定训练样本集合可理解为:针对第二节点关系图中任一个第一类型节点,获取在第二节点关系图中与任一个第一类型节点之间的距离小于或者等于预设距离阈值的第一类型节点,将该任一个第一类型节点以及与该任一个第一类型节点之间的距离小于或者等于预设距离阈值的第一类型节点所组成的节点对确定为正样本。获取在第二节点关系图中与任一个第一类型节点之间的距离大于预设距离阈值的第一类型节点,将该任一个第一类型节点以及与该任一个第一类型节点之间的距离大于预设距离阈值的第一类型节点所组成的节点对确定为负样本。根据正样本和负样本确定训练样本集合,即训练样本集合由上述正样本和负样本组成。
示例性地,请参见图7,图7是本申请实施例提供的正样本和负样本的示意图。如图7所示,该第二节点关系图中的知识节点为图形1表示的节点,其分别为三角形节点(简称三角形),二次函数节点(简称二次函数)和立体几何节点(简称立体几何)。该第二节点关系图中的题目节点为图形2表示的节点,其中,分别为q1,q2和q3和q4。其中,知识点为三角形的节点分别与q1和q2具有关联关系,知识点为二次函数的节点与q3具有关联关系,知识点为立体几何的节点与q2和q4具有关联关系,q2分别与q1和q3具有关联关系。假设预设距离阈值为1,如图7所示的第二节点关系图中,q2与q1之间的距离为1(即q1为q2的一度关系节点,相应地,q2也为q1的一度关系节点),q2与q3之间的距离为1(即q2为q3的一度关系节点,相应地,q3也为q2的一度关系节点),q2与q4之间的距离为2(即q2为q4的二度关系节点,相应地,q4也为q2的二度关系节点),q1与q3之间的距离为2(即q1为q3的二度关系节点,相应地,q3也为q1的二度关系节点),q1与q4之间的距离为3(即q1为q4的三度关系节点,相应地,q4也为q1的三度关系节点),q3与q4之间的距离为3(即q3为q4的三度关系节点,相应地,q4也为q3的三度关系节点)。使用随机游走进行采样时,假设初始节点是q2,在第二节点关系图中和q2的距离在预设距离阈值以内(即与q2之间的距离小于或者等于预设距离阈值)的节点分别为q1和q3,因此,(q1,q2),(q2,q3)为正样本,和q2之间的距离大于预设距离阈值为节点为q4,因此,(q2,q4)为负样本,因此根据第二节点关系图确定训练样本集合中的正样本包括(q1,q2),(q2,q3),训练样本集合中的负样本包括(q1,q3),(q1,q4),(q2,q4)和(q3,q4)。
S603、针对目标训练样本中包括的目标节点对,分别获取目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,以及确定每个目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量。
在一些可行的实施方式中,针对目标训练样本中包括的目标节点对,分别获取目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,以及确定每个目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,目标训练样本为训练样本集合中的一个样本。可理解的,针对任一个目标第一类型节点,可将该目标第一类型节点以及与该目标第一类型节点具有一度关系的节点所组成的节点关系图确定为与该目标第一类型节点对应的第三节点关系图,即可将由该目标第一类型节点,以及该目标第一类型节点的邻居节点所组成的节点关系图确定为该目标第一类型节点对应的第三节点关系图。可选的,也可以将该目标第一类型节点,与该目标第一类型节点具有一度关系的节点,以及与该目标第一类型节点具有二度关系的节点所组成的节点关系图确定为与该目标第一类型节点对应的第三节点关系图等,在此不做限制。可理解的,与目标第一类型节点具有一度关系的节点可以为第一类型节点,也可以为第二类型节点,相应地,与目标第一类型节点具有二度关系的节点也可以为第一类型节点,或者也可以为第二类型节点。
需要说明的是,针对每个目标第一类型节点对应的第三节点关系图中包括的各个节点,可根据第一神经网络确定第三节点关系图中包括的每个第一类型节点对应的初始特征向量,以及根据第二类型节点与特征向量之间的映射关系,确定第三节点关系图中包括的每个第二类型节点对应的初始特征向量,以得到第三节点关系图中包括的各个节点对应的初始特征向量。其中,上述根据第一神经网络确定第三节点关系图中包括的每个第一类型节点对应的初始特征向量,以及根据第二类型节点与特征向量之间的映射关系,确定第三节点关系图中包括的每个第二类型节点对应的初始特征向量的步骤可参见上述根据第一神经网络确定第一节点关系图中包括的每个第一类型节点对应的初始特征向量,以及根据第二类型节点与特征向量之间的映射关系,确定第一节点关系图中包括的每个第二类型节点对应的初始特征向量的步骤的相关描述,在此不再进行赘述。
S604、根据目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,每个目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,以及目标节点对的节点类别标签调整节点识别网络模型的网络参数。
在一些可行的实施方式中,根据目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,每个目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,以及目标节点对的节点类别标签调整节点识别网络模型的网络参数,节点识别网络模型包括图神经网络和二分类网络,节点类别包括第一类别和第二类别。也就是说,通过将目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,以及每个目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量输入至节点识别网络模型中的图神经网络,可获取通过图神经网络处理后输出的两个目标第一类型节点分别对应的融合特征向量。进一步地,通过将两个目标第一类型节点分别对应的融合特征向量输入至节点识别网络模型中的二分类网络,可通过二分类网络对输入的两个融合特征向量进行处理,并根据二分类网络的输出结果与目标节点对的节点类别标签之间的损失函数对节点识别网络模型的网络参数进行调整/训练,即同时迭代图神经网络和二分类网络的网络参数,直到满足收敛条件。最后,可将训练好的图神经网络用于题目向量表示,即基于图神经网络,结合第一节点关系图和第一节点关系图中包括的各个节点对应的初始特征向量,确定待处理节点对应的融合特征向量。
可选的,针对训练好的图神经网络,其还可以应用于边检测和节点嵌入场景中,例如,针对已经在图中的题目,若存在题目对应的知识点标注不完整/不准确的情况,则可以基于图神经网络进行边检测预测,即纠正题目对应的知识点;对于不在图中的题目,可以通过图神经网络获取该题目对应的题目向量表示(即通过图神经网络获取该题目对应的融合特征向量),并将该题目对应的融合特征向量输入至预训练的题目知识点标记模型,这样就可以对新题目对应的知识点打标签。又例如,对于已经在图中的题目,可以通过图神经网络预测它和图中其他节点之间的相似题边的关系;对于新题,通过图神经网络获取该新题对应的融合特征向量后,可将该新题对应的融合特征向量和已经在图中的题目对应的融合特征向量输入至预训练的相似题二分类模型进行处理,进而确定该新题的相似题。
在本申请实施例中,获取第一节点关系图,第一节点关系图中包括待处理节点,以及与待处理节点具有关联关系的至少一个第一类型节点和至少一个第二类型节点,待处理节点为第一类型节点。获取第一节点关系图中包括的各个节点对应的初始特征向量。基于图神经网络,结合第一节点关系图和第一节点关系图中包括的各个节点对应的初始特征向量,确定待处理节点对应的融合特征向量。采用本申请实施例,通过把待处理节点(例如题目节点)放入到一个图中,结合图中节点之间的联系以及题目节点本身的内容联合进行题目的表示学习,可提高题目表示效果,有利于提高语义理解的精度。也就是说,通过将知识点、题目都视为图中的节点,知识点之间的层次关系、题目和知识点之间的关联关系、题目和题目之间的相似题、重复题关系都认为是不同类型的边,同时对于题目节点,基于题目内容(文本、图片、公式等多模态信息)的表示模型也引入图中,提高了题目表示效果。
请参见图8,图8是本申请实施例提供的数据处理装置的结构示意图。本申请实施例提供的数据处理装置包括:
收发单元81,用于获取第一节点关系图,所述第一节点关系图中包括待处理节点,以及与所述待处理节点具有关联关系的至少一个第一类型节点和至少一个第二类型节点,所述待处理节点为第一类型节点;
处理单元82,用于获取所述第一节点关系图中包括的各个节点对应的初始特征向量;
所述处理单元82,用于基于图神经网络,结合所述第一节点关系图和所述第一节点关系图中包括的各个节点对应的初始特征向量,确定所述待处理节点对应的融合特征向量。
在一种可能的实施方式中,所述收发单元81,用于获取第二节点关系图,所述第二节点关系图包括所述第一节点关系图;
所述处理单元82,用于根据所述第二节点关系图确定训练样本集合,所述训练样本集合中包括至少一个正样本和至少一个负样本,所述正样本和所述负样本中包括的节点对皆为第一类型节点;
所述处理单元82,用于针对目标训练样本中包括的目标节点对,分别获取所述目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,以及确定每个所述目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,所述目标训练样本为所述训练样本集合中的一个样本;
所述处理单元82,用于根据所述目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,每个所述目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,以及所述目标节点对的节点类别标签调整节点识别网络模型的网络参数,所述节点识别网络模型包括所述图神经网络,所述节点类别标签包括第一类别和第二类别。
在一种可能的实施方式中,所述处理单元82具体用于:
针对所述第二节点关系图中任一个第一类型节点,获取在所述第二节点关系图中与所述任一个第一类型节点之间的距离小于或者等于预设距离阈值的第一类型节点,将所述任一个第一类型节点以及与所述任一个第一类型节点之间的距离小于或者等于预设距离阈值的第一类型节点所组成的节点对确定为正样本;
获取在所述第二节点关系图中与所述任一个第一类型节点之间的距离大于预设距离阈值的第一类型节点,将所述任一个第一类型节点以及与所述任一个第一类型节点之间的距离大于预设距离阈值的第一类型节点所组成的节点对确定为负样本;
根据所述正样本和所述负样本确定所述训练样本集合。
在一种可能的实施方式中,所述处理单元82具体用于:
根据第一神经网络确定所述第一节点关系图中包括的每个第一类型节点对应的第一初始特征向量,以及根据第二类型节点与特征向量之间的映射关系,确定所述第一节点关系图中包括的每个第二类型节点对应的第二初始特征向量,以得到所述第一节点关系图中包括的各个节点对应的初始特征向量。
在一种可能的实施方式中,所述第一类型节点为题目节点,所述第一神经网络包括文本编码器,图片编码器,自注意力机制层和池化层;所述处理单元82具体用于:
通过文本编码器获取所述第一节点关系图中包括的每个题目节点包括的文本数据对应的语义特征数据,以及通过图片编码器获取所述第一节点关系图中包括的每个题目节点包括的图片数据对应的图像特征数据;
将所述语义特征数据和所述图像特征数据输入所述自注意力机制层,获取所述自注意力机制层输出的融合特征数据;
通过所述池化层对所述语义特征数据、所述图像特征数据和所述融合特征数据进行处理,并获取所述池化层输出的所述第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
在一种可能的实施方式中,所述语义特征数据为m*h维特征向量矩阵,所述图像特征数据为n*h维特征向量矩阵,所述融合特征数据为(m+n)*h维融合特征向量矩阵;所述处理单元82具体用于:
根据所述m*h维特征向量矩阵和所述n*h维特征向量矩阵生成(m+n)*h维特征向量矩阵;
将所述(m+n)*h维特征向量矩阵和所述(m+n)*h维融合特征向量矩阵进行拼接,并将拼接后得到矩阵输入所述池化层进行处理,以获取所述池化层输出的所述第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
在一种可能的实施方式中,所述第二类型节点为知识点节点;所述处理单元82具体用于:
获取预设的特征向量查询表,所述特征向量查询表中包括多个节点索引以及各个节点索引对应的特征向量,其中一个节点索引用于唯一标记一个第二类型节点,一个节点索引对应一个特征向量;
确定所述第一节点关系图中包括的每个第二类型节点的节点索引,根据各个第二类型节点的节点索引从所述特征向量查询表中确定出所述各个第二类型节点对应的第二初始特征向量。
在本申请实施例中,数据处理装置获取第一节点关系图,第一节点关系图中包括待处理节点,以及与待处理节点具有关联关系的至少一个第一类型节点和至少一个第二类型节点,待处理节点为第一类型节点。获取第一节点关系图中包括的各个节点对应的初始特征向量。基于图神经网络,结合第一节点关系图和第一节点关系图中包括的各个节点对应的初始特征向量,确定待处理节点对应的融合特征向量。采用本申请实施例,通过把待处理节点(例如题目节点)放入到一个图中,结合图中节点之间的联系以及题目节点本身的内容联合进行题目的表示学习,可提高题目表示效果,有利于提高语义理解的精度。
请参见图9,图9是本申请实施例提供的网络设备的结构示意图。该网络设备可以为终端设备,或者,也可以是服务器,在此不做限制。如图9所示,本实施例中的网络设备可以包括:一个或多个处理器901、存储器902和收发器903。上述处理器901、存储器902和收发器903通过总线904连接。存储器902用于存储计算机程序,该计算机程序包括程序指令,处理器901 和收发器903用于执行存储器902存储的程序指令,执行如下操作:
收发器903,用于获取第一节点关系图,所述第一节点关系图中包括待处理节点,以及与所述待处理节点具有关联关系的至少一个第一类型节点和至少一个第二类型节点,所述待处理节点为第一类型节点;
处理器901,用于获取所述第一节点关系图中包括的各个节点对应的初始特征向量;
所述处理器901,用于基于图神经网络,结合所述第一节点关系图和所述第一节点关系图中包括的各个节点对应的初始特征向量,确定所述待处理节点对应的融合特征向量。
在一种可能的实施方式中,所述处理器901用于:
获取第二节点关系图,所述第二节点关系图包括所述第一节点关系图;
根据所述第二节点关系图确定训练样本集合,所述训练样本集合中包括至少一个正样本和至少一个负样本,所述正样本和所述负样本中包括的节点对皆为第一类型节点;
针对目标训练样本中包括的目标节点对,分别获取所述目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,以及确定每个所述目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,所述目标训练样本为所述训练样本集合中的一个样本;
根据所述目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,每个所述目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,以及所述目标节点对的节点类别标签调整节点识别网络模型的网络参数,所述节点识别网络模型包括所述图神经网络,所述节点类别标签包括第一类别和第二类别。
在一种可能的实施方式中,所述处理器901用于:
针对所述第二节点关系图中任一个第一类型节点,获取在所述第二节点关系图中与所述任一个第一类型节点之间的距离小于或者等于预设距离阈值的第一类型节点,将所述任一个第一类型节点以及与所述任一个第一类型节点之间的距离小于或者等于预设距离阈值的第一类型节点所组成的节点对确定为正样本;
获取在所述第二节点关系图中与所述任一个第一类型节点之间的距离大于预设距离阈值的第一类型节点,将所述任一个第一类型节点以及与所述任一个第一类型节点之间的距离大于预设距离阈值的第一类型节点所组成的节点对确定为负样本;
根据所述正样本和所述负样本确定所述训练样本集合。
在一种可能的实施方式中,所述处理器901用于:
根据第一神经网络确定所述第一节点关系图中包括的每个第一类型节点对应的第一初始特征向量,以及根据第二类型节点与特征向量之间的映射关系,确定所述第一节点关系图中包括的每个第二类型节点对应的第二初始特征向量,以得到所述第一节点关系图中包括的各个节点对应的初始特征向量。
在一种可能的实施方式中,所述第一类型节点为题目节点,所述第一神经网络包括文本编码器,图片编码器,自注意力机制层和池化层;所述处理器901用于:
通过文本编码器获取所述第一节点关系图中包括的每个题目节点包括的文本数据对应的语义特征数据,以及通过图片编码器获取所述第一节点关系图中包括的每个题目节点包括的图片数据对应的图像特征数据;
将所述语义特征数据和所述图像特征数据输入所述自注意力机制层,获取所述自注意力机制层输出的融合特征数据;
通过所述池化层对所述语义特征数据、所述图像特征数据和所述融合特征数据进行处理,并获取所述池化层输出的所述第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
在一种可能的实施方式中,所述语义特征数据为m*h维特征向量矩阵,所述图像特征数据为n*h维特征向量矩阵,所述融合特征数据为(m+n)*h维融合特征向量矩阵;所述处理器901用于:
根据所述m*h维特征向量矩阵和所述n*h维特征向量矩阵生成(m+n)*h维特征向量矩阵;
将所述(m+n)*h维特征向量矩阵和所述(m+n)*h维融合特征向量矩阵进行拼接,并将拼接后得到矩阵输入所述池化层进行处理,以获取所述池化层输出的所述第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
在一种可能的实施方式中,所述第二类型节点为知识点节点;所述处理器901用于:
获取预设的特征向量查询表,所述特征向量查询表中包括多个节点索引以及各个节点索引对应的特征向量,其中一个节点索引用于唯一标记一个第二类型节点,一个节点索引对应一个特征向量;
确定所述第一节点关系图中包括的每个第二类型节点的节点索引,根据各个第二类型节点的节点索引从所述特征向量查询表中确定出所述各个第二类型节点对应的第二初始特征向量。
应当理解,在一些可行的实施方式中,上述处理器901可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路 (application specific integratedcircuit,ASIC)、现成可编程门阵列 (field programmable gate array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器902可以包括只读存储器和随机存取存储器,并向处理器901 提供指令和数据。存储器902的一部分还可以包括非易失性随机存取存储器。例如,存储器902还可以存储设备类型的信息。
具体实现中,上述网络设备可通过其内置的各个功能模块执行如上述图2至图7中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,网络设备获取第一节点关系图,第一节点关系图中包括待处理节点,以及与待处理节点具有关联关系的至少一个第一类型节点和至少一个第二类型节点,待处理节点为第一类型节点。获取第一节点关系图中包括的各个节点对应的初始特征向量。基于图神经网络,结合第一节点关系图和第一节点关系图中包括的各个节点对应的初始特征向量,确定待处理节点对应的融合特征向量。采用本申请实施例,通过把待处理节点(例如题目节点)放入到一个图中,结合图中节点之间的联系以及题目节点本身的内容联合进行题目的表示学习,可提高题目表示效果,有利于提高语义理解的精度。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图2至图7中各个步骤所提供的数据处理方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述网络设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smartmedia card, SMC),安全数字(secure digital, SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取由多个题目节点和多个知识点节点构成的第一节点关系图,所述第一节点关系图中包括待处理节点,该待处理节点为题目节点,所述题目节点用于记录题目,所述知识点节点用于记录知识点,在所述第一节点关系图中通过边来表示节点之间的关系,节点之间的关系包括:知识点节点之间的层次关系,题目节点和知识点节点之间的关联关系,题目节点和题目节点之间的关系;
获取所述第一节点关系图中包括的各个节点对应的初始特征向量;
基于训练得到的图神经网络,结合所述第一节点关系图和所述第一节点关系图中包括的各个节点对应的初始特征向量,确定用于表示所述待处理节点所记录的题目的融合特征向量。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二节点关系图,所述第二节点关系图包括所述第一节点关系图;
根据所述第二节点关系图确定训练样本集合,所述训练样本集合中包括至少一个正样本和至少一个负样本,所述正样本和所述负样本中包括的节点对皆为第一类型节点;
针对目标训练样本中包括的目标节点对,分别获取所述目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,以及确定每个所述目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,所述目标训练样本为所述训练样本集合中的一个样本;
根据所述目标节点对中包括的两个目标第一类型节点对应的第三节点关系图,每个所述目标第一类型节点对应的第三节点关系图中包括的各个节点对应的初始特征向量,以及所述目标节点对的节点类别标签调整节点识别网络模型的网络参数,所述节点识别网络模型包括所述图神经网络,所述节点类别标签包括第一类别和第二类别。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二节点关系图确定训练样本集合,包括:
针对所述第二节点关系图中任一个第一类型节点,获取在所述第二节点关系图中与所述任一个第一类型节点之间的距离小于或者等于预设距离阈值的第一类型节点,将所述任一个第一类型节点以及与所述任一个第一类型节点之间的距离小于或者等于预设距离阈值的第一类型节点所组成的节点对确定为正样本;
获取在所述第二节点关系图中与所述任一个第一类型节点之间的距离大于预设距离阈值的第一类型节点,将所述任一个第一类型节点以及与所述任一个第一类型节点之间的距离大于预设距离阈值的第一类型节点所组成的节点对确定为负样本;
根据所述正样本和所述负样本确定所述训练样本集合。
4.根据权利要求1所述的方法,其特征在于,所述获取所述第一节点关系图中包括的各个节点对应的初始特征向量,包括:
根据第一神经网络确定所述第一节点关系图中包括的每个第一类型节点对应的第一初始特征向量,以及根据第二类型节点与特征向量之间的映射关系,确定所述第一节点关系图中包括的每个第二类型节点对应的第二初始特征向量,以得到所述第一节点关系图中包括的各个节点对应的初始特征向量。
5.根据权利要求4所述的方法,其特征在于,所述第一类型节点为题目节点,所述第一神经网络包括文本编码器,图片编码器,自注意力机制层和池化层;所述根据第一神经网络确定所述第一节点关系图中包括的第一类型节点对应的第一初始特征向量,包括:
通过文本编码器获取所述第一节点关系图中包括的每个题目节点包括的文本数据对应的语义特征数据,以及通过图片编码器获取所述第一节点关系图中包括的每个题目节点包括的图片数据对应的图像特征数据;
将所述语义特征数据和所述图像特征数据输入所述自注意力机制层,获取所述自注意力机制层输出的融合特征数据;
通过所述池化层对所述语义特征数据、所述图像特征数据和所述融合特征数据进行处理,并获取所述池化层输出的所述第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
6.根据权利要求5所述的方法,其特征在于,所述语义特征数据为m*h维特征向量矩阵,所述图像特征数据为n*h维特征向量矩阵,所述融合特征数据为(m+n)*h维融合特征向量矩阵;所述通过所述池化层对所述语义特征数据、所述图像特征数据和所述融合特征数据进行处理,包括:
根据所述m*h维特征向量矩阵和所述n*h维特征向量矩阵生成(m+n)*h维特征向量矩阵;
将所述(m+n)*h维特征向量矩阵和所述(m+n)*h维融合特征向量矩阵进行拼接,并将拼接后得到矩阵输入所述池化层进行处理,以获取所述池化层输出的所述第一节点关系图中包括的每个题目节点对应的第一初始特征向量。
7.根据权利要求4-6任一项所述的方法,其特征在于,所述第二类型节点为知识点节点;所述根据第二类型节点与特征向量之间的映射关系,确定所述第一节点关系图中包括的每个第二类型节点对应的第二初始特征向量,包括:
获取预设的特征向量查询表,所述特征向量查询表中包括多个节点索引以及各个节点索引对应的特征向量,其中一个节点索引用于唯一标记一个第二类型节点,一个节点索引对应一个特征向量;
确定所述第一节点关系图中包括的每个第二类型节点的节点索引,根据各个第二类型节点的节点索引从所述特征向量查询表中确定出所述各个第二类型节点对应的第二初始特征向量。
8.一种数据处理装置,其特征在于,所述装置包括:
收发单元,用于获取由多个题目节点和多个知识点节点构成的第一节点关系图,所述第一节点关系图中包括待处理节点,该待处理节点为题目节点,所述题目节点用于记录题目,所述知识点节点用于记录知识点,在所述第一节点关系图中通过边来表示节点之间的关系,节点之间的关系包括:知识点节点之间的层次关系,题目节点和知识点节点之间的关联关系,题目节点和题目节点之间的关系;
处理单元,用于获取所述第一节点关系图中包括的各个节点对应的初始特征向量;
所述处理单元,用于基于训练得到的图神经网络,结合所述第一节点关系图和所述第一节点关系图中包括的各个节点对应的初始特征向量,确定用于表示所述待处理节点所记录的题目的融合特征向量。
9.一种终端设备,其特征在于,包括处理器、存储器和收发器,所述处理器、所述存储器和所述收发器相互连接;
所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器和所述收发器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111064753.5A CN113505246B (zh) | 2021-09-11 | 2021-09-11 | 数据处理方法、装置、终端设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111064753.5A CN113505246B (zh) | 2021-09-11 | 2021-09-11 | 数据处理方法、装置、终端设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113505246A CN113505246A (zh) | 2021-10-15 |
CN113505246B true CN113505246B (zh) | 2021-12-07 |
Family
ID=78017207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111064753.5A Active CN113505246B (zh) | 2021-09-11 | 2021-09-11 | 数据处理方法、装置、终端设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505246B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008293A (zh) * | 2018-10-06 | 2020-04-14 | 上海交通大学 | 基于结构化语义表示的视觉问答方法 |
CN110232128A (zh) * | 2019-06-21 | 2019-09-13 | 华中师范大学 | 题目文本分类方法及装置 |
US11537852B2 (en) * | 2020-02-13 | 2022-12-27 | International Business Machines Corporation | Evolving graph convolutional networks for dynamic graphs |
CN111680484B (zh) * | 2020-05-29 | 2023-04-07 | 北京理工大学 | 一种视觉常识推理问答题的答题模型生成方法和系统 |
CN112231491B (zh) * | 2020-10-20 | 2024-04-02 | 中国科学技术大学 | 基于知识结构的相似试题识别方法 |
-
2021
- 2021-09-11 CN CN202111064753.5A patent/CN113505246B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113505246A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN113761153B (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN111582409A (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN111241237A (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN110795944A (zh) | 推荐内容处理方法及装置、情感属性确定方法及装置 | |
CN117540221B (zh) | 图像处理方法和装置、存储介质及电子设备 | |
CN115131638A (zh) | 视觉文本预训练模型的训练方法、装置、介质和设备 | |
CN110852056A (zh) | 一种获取文本相似度的方法、装置、设备及可读存储介质 | |
CN112749556B (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
CN113641797A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN114201516A (zh) | 一种用户画像构建的方法、信息推荐的方法以及相关装置 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN113505246B (zh) | 数据处理方法、装置、终端设备以及存储介质 | |
CN110851629A (zh) | 一种图像检索的方法 | |
CN114419514B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN115129885A (zh) | 实体链指方法、装置、设备及存储介质 | |
CN114625917A (zh) | 视频搜索纠错方法、装置、设备及存储介质 | |
CN113128225B (zh) | 命名实体的识别方法、装置、电子设备及计算机存储介质 | |
CN113657092A (zh) | 识别标签的方法、装置、设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40052857 Country of ref document: HK |