CN115564017A - 模型数据处理方法、电子设备及计算机存储介质 - Google Patents

模型数据处理方法、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN115564017A
CN115564017A CN202211079257.1A CN202211079257A CN115564017A CN 115564017 A CN115564017 A CN 115564017A CN 202211079257 A CN202211079257 A CN 202211079257A CN 115564017 A CN115564017 A CN 115564017A
Authority
CN
China
Prior art keywords
model
task
neural network
data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211079257.1A
Other languages
English (en)
Inventor
谭传奇
黄松芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202211079257.1A priority Critical patent/CN115564017A/zh
Publication of CN115564017A publication Critical patent/CN115564017A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种模型数据处理方法、电子设备及计算机存储介质,模型数据处理方法,包括:获取已进行过预训练的初始语言模型、待训练的图神经网络模型、和预设任务对应的训练样本;使用训练样本对图神经网络模型进行训练,获得初始图神经网络模型;使用训练样本对初始语言模型和初始图神经网络模型进行微调训练,获得用于预设任务的任务模型。本申请实施例提供的方案,在预训练阶段不再对图神经网络模型进行训练,转而在下游任务即预设任务阶段再对其进行训练;使得样本数量大幅减少,降低了图神经网络模型的训练算力开销;并且使得模型的知识注入更加灵活,更与下游任务相适配,从而使得最终获得的任务模型可以更为有效地处理下游任务。

Description

模型数据处理方法、电子设备及计算机存储介质
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种模型数据处理方法、电子设备及计算机存储介质。
背景技术
模型预训练是首先基于大量训练样本在一个原始任务上对模型(也称为预训练模型)进行训练,获得一个初始模型,然后再在目标任务上使用该模型,针对目标任务的特性,使用针对目标任务的训练样本对该初始模型进行微调,从而获得能够实现目标任务的模型,以达到提高模型训练效率的效果。
语言模型预训练是模型预训练中重要的一个分支,目前,语言模型预训练+微调的范式在下游目标任务中大部分都能取得较好的效果。但在某些领域,例如医疗领域等,这些领域使用的文本的文本结构与通用领域文本的文本结构差异较大,存在大量长尾实体理解问题,需要外部知识来提升模型在这些领域的文本处理任务上的效果。由此,知识注入技术应运而生。
目前的一种知识注入技术通过在模型预训练阶段引入图神经网络来处理知识图谱,以实现模型的知识注入。但是,不同领域具有不同的知识图谱,预训练阶段使用的知识图谱多限于有限数量的特定领域的图谱,很难涵盖到所有领域。因此,导致注入的知识可能在下游任务中无法发挥作用,甚至起到反作用,从而使得基于预训练后的语言模型无法有效处理下游任务。
发明内容
有鉴于此,本申请实施例提供一种模型数据处理方案,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种模型数据处理方法,包括:获取已进行过预训练的初始语言模型、待训练的图神经网络模型、和预设任务对应的训练样本;使用所述训练样本对所述图神经网络模型进行训练,获得初始图神经网络模型;使用所述训练样本对所述初始语言模型和所述初始图神经网络模型进行微调训练,获得用于所述预设任务的任务模型。
根据本申请实施例的第二方面,提供了一种模型数据处理方法,包括:获取待处理的任务数据;将所述任务数据输入对应的任务模型,并获得所述任务模型输出的任务结果;其中,所述任务模型为根据上述方法获得的任务模型。
根据本申请实施例的第三方面,提供了一种模型数据处理方法,包括:获取物品信息查询数据;将所述物品信息查询数据输入对应的物品信息模型,并获得所述物品信息模型输出的物品信息识别结果;其中,所述物品信息模型为基于电子商务知识图谱和电子商务物品样本数据,根据上述方法获得的模型。
根据本申请实施例的第四方面,提供了一种模型数据处理方法,包括:获取待处理的医疗数据;将所述医疗数据输入对应的医疗信息处理模型,并获得所述医疗信息处理模型输出的医疗数据识别结果;其中,所述医疗信息处理模型为基于医疗知识图谱和医疗样本数据,根据上述方法获得的模型。
根据本申请实施例的第五方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述方法对应的操作。
根据本申请实施例的第六方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的方法。
根据本申请实施例提供的方案,在预训练阶段不再对图神经网络模型进行训练,转而在下游任务即预设任务阶段再对其进行训练。由此,一方面,因使用下游任务的训练样本对图神经网络模型进行训练,这些训练样本相较于预训练阶段的庞大训练样本来说,数量大幅减少,降低了图神经网络模型的训练算力开销;另一方面,实现了将知识图谱与预训练阶段的解耦,下游任务可使用更适合其任务的知识图谱对图神经网络模型进行训练,使得模型的知识注入更加灵活,更与下游任务相适配,从而使得最终获得的任务模型可以更为有效地处理下游任务。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为适用本申请实施例的模型数据处理方法的示例性系统的示意图;
图2A为根据本申请实施例一的一种模型数据处理方法的步骤流程图;
图2B为图2A所示实施例中的一种场景示例的示意图;
图3A为根据本申请实施例二的一种模型数据处理方法的步骤流程图;
图3B为图3A所示实施例中的一种模型示意图;
图4为根据本申请实施例三的一种模型数据处理方法的步骤流程图;
图5为根据本申请实施例四的一种模型数据处理方法的步骤流程图;
图6为根据本申请实施例五的一种模型数据处理方法的步骤流程图;
图7为根据本申请实施例六的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
图1示出了一种适用本申请实施例的模型数据处理方法的示例性系统。如图1所示,该系统100可以包括云服务端102、通信网络104和/或一个或多个用户设备106,图1中示例为多个用户设备。
云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备,包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中,云服务端102可以执行任何适当的功能。例如,在一些实施例中,云服务端102可以用于预训练得到初始语言模型。作为可选的示例,在一些实施例中,云服务端102可以被用于使用所述训练样本对所述图神经网络模型进行训练,获得初始图神经网络模型。作为另一示例,在一些实施例中,云服务端102可以被用于使用任务模型执行预设任务。
在一些实施例中,通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如,通信网络104能够包括以下各项中的任何一种或多种:互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如,通信链路112)连接到通信网络104,该通信网络104能够经由一个或多个通信链路(例如,通信链路114)被链接到云服务端102。通信链路可以是适合于在用户设备106和云服务端102之间传送数据的任何通信链路,诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。
用户设备106可以包括能够发起预设任务或者用于控制训练过程的任何一个或多个用户设备。在一些实施例中,用户设备106可以包括任何合适类型的设备。例如,在一些实施例中,用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。
基于上述系统,本申请实施例提供了一种模型数据处理方法,以下通过多个实施例进行说明。
实施例一
图2A为本申请实施例提供的一种模型数据处理方法的流程示意图,如图所示,其包括:
S201、获取已进行过预训练的初始语言模型、待训练的图神经网络模型、和预设任务对应的训练样本。
本申请实施例中,语言模型(Language Models)可以是任意的可进行语言处理的模型,其可以应用于语句识别、翻译等诸多与语言处理相关的领域。
模型预训练是首先基于大量训练样本在一个原始任务上对模型(也称为预训练模型)进行训练,获得一个初始模型,然后再在目标任务上使用该模型,针对目标任务的特性,使用针对目标任务的训练样本对该初始模型进行微调,从而获得能够实现目标任务的模型,以达到提高模型训练效率的效果。语言模型预训练是模型预训练中重要的一个分支,目前,语言模型预训练+微调的范式在下游目标任务中大部分都能取得较好的效果。
本实施例中的初始语言模型可以为经过预训练但并未经过微调的语言模型。
图神经网络模型(Graph Neural Network Models,GNN)可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图神经网络模型一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。
在本实施例中,图神经网络模型可以用于为语言模型提供实体的语义以及实体间的关联,从而进行知识注入。目前的预训练语言模型通常在通用的语料上进行训练。因此,当其被用于一些专业性较强的下游任务(如医疗领域的任务)时,往往不能取得很好的效果。因此,通过让语言模型利用外部的知识(如知识图谱)有希望能提升模型在这些任务上的效果,即向语言模型中注入外部的知识,这被称作知识注入。
预设任务对应的训练样本,可以为下游任务的训练样本,训练样本的具体内容可以根据预设的下游任务确定。若下游任务为处理医疗信息,则训练样本可以为医疗数据;若下游任务为物品查询信息,则训练样本可以为物品信息。
预设任务的训练样本用于在后续步骤中对图神经网络模型进行训练,以及对初始语言模型和初始图神经网络模型进行微调。通过预设任务对应的训练样本对图神经网络模型进行训练,这些训练样本相较于预训练阶段的庞大训练样本来说,数量大幅减少,降低了图神经网络模型的训练算力开销。
S202、使用所述训练样本对所述图神经网络模型进行训练,获得初始图神经网络模型。
具体训练图神经网络模型时,可以使用前述训练样本对图神经网络模型进行训练,该训练样本可包括预设任务对应的知识图谱和任务数据样本。基于此,可对图神经网络模型进行训练,本申请实施例中,对图神经网络模型的具体训练方式不作限制,可基于训练样本的输入获得初始图神经网络模型即可。在一种可行方式中,可将训练样本输入至图神经网络模型,将图神经网络模型的输出作为初始语言模型的输入,并根据初始语言模型的输出调整图神经网络模型。需要说明的是,此种情况下,前述初始语言模型的参数不会发生调整,仅调整图神经网络模型的参数。
本实施例中,初始图神经网络模型可以用于向语言模型中进行知识注入。通过使用预设任务对应的训练样本对图神经网络模型进行训练,实现了将知识图谱与预训练阶段的解耦,下游任务可使用更适合其任务的知识图谱对图神经网络模型进行训练,使得模型的知识注入更加灵活,更与下游任务相适配,从而使得最终获得的任务模型可以更为有效地处理下游任务。
S203、使用所述训练样本对所述初始语言模型和所述初始图神经网络模型进行微调训练,获得用于所述预设任务的任务模型。
本步骤中,在初始语言模型和初始图神经网络模型都获得后,即上述模型都经过初始训练后,还会使用训练样本对这两个模型进行联合微调训练,以同时对这两个模型的参数均进行调整,使其与预设任务更为符合,从而获得微调训练完成后的、用于预设任务的任务模型。
其中,具体对初始语言模型和初始图神经网络模型进行微调训练的方法可参考模型微调的相关技术,在此不再赘述。
下面通过一种具体的使用场景,以预设任务为医疗信息识别为例,对本实施例提供的方案进行示例性说明。
参见图2B,本实施例中,可以先确定预训练的初始语言模型、待训练的图神经网络模型和预设任务对应的训练样本。
示例地,若医疗信息采用中文,则初始语言模型为基于中文的普通训练样本进行预训练的初始语言模型;待训练的图神经网络模型可以为任意形式的图神经网络模型;预设任务对应的训练样本可以包括医疗知识图谱和医疗样本数据。
基于医疗知识图谱,可以对待训练的图神经网络模型进行训练,得到基于医疗信息进行训练的初始图神经网络模型。为了使得初始图神经网络模型和初始语言模型配合使用,也为了使得初始语言模型能够较好地处理医疗信息,可以基于医疗样本数据对初始语言模型和初始图神经网络模型进行微调训练,得到用于进行医疗信息识别的任务模型。
根据本申请实施例提供的方案,在预训练阶段不再对图神经网络模型进行训练,转而在下游任务即预设任务阶段再对其进行训练。由此,一方面,因使用下游任务的训练样本对图神经网络模型进行训练,这些训练样本相较于预训练阶段的庞大训练样本来说,数量大幅减少,降低了图神经网络模型的训练算力开销;另一方面,实现了将知识图谱与预训练阶段的解耦,下游任务可使用更适合其任务的知识图谱对图神经网络模型进行训练,使得模型的知识注入更加灵活,更与下游任务相适配,从而使得最终获得的任务模型可以更为有效地处理下游任务。
实施例二
图3A为本申请实施例提供的一种模型数据处理方法的流程示意图,如图所示,其包括:
S301、获取已进行过预训练的初始语言模型、待训练的图神经网络模型、和预设任务对应的训练样本,所述训练样本包括所述预设任务对应的知识图谱和任务数据样本。
其中,知识图谱是由实体、关系和属性组成的一种结构化的语义知识库。不同的领域可以对应有不同的实体及实体关系,从而形成不同的知识图谱。任务数据样本可以为与预设任务相关的、用于模型训练的样本数据。
示例地,当预设任务为医疗数据识别时,知识图谱可以为医疗领域的知识图谱,任务样本数据可以为医疗信息及医疗信息对应的标签。
S302、基于所述任务数据样本,通过注意力计算从所述知识图谱中筛选与所述任务数据样本相对应的实体节点数据。
本实施例中,由于知识图谱对应于一个较大的领域,而在实际任务中可能仅使用对应领域中的部分知识。因此,本实施例中,通过注意力计算(attention),可以从知识图谱包括的众多信息中,基于任务样本数据选择出与对当前任务的目标更关键的实体节点数据,以提高用于训练图神经网络模型的训练样本的质量。需要说明的是,这里提取出的实体节点数据可以包括实体节点以及实体节点间的连接关系。
适用于知识图谱的注意力计算可以包括三种模式,分别为:学习注意力权重(Learn attention weights)、基于相似性的注意力(Similarity-based attention)、注意力引导的游走法(Attention-guided walk)。其中,学习注意力权重是利用参数矩阵学习实体节点和邻居之间的相对重要性,从而基于重要性筛选与所述任务数据样本相对应的实体节点数据;基于相似性的注意力是计算实体节点X与任务数据样本对应的实体节点之间的相似性,并基于相似性筛选与所述任务数据样本相对应的实体节点数据;注意力引导的游走法是基于任务数据样本影响知识图谱中进行游走时的路径,游走出的路径可以用于计算路径起点的实体节点对应的向量表示,由此,通过任务数据样本影响游走路径来筛选与所述任务数据样本相对应的实体节点数据。
进一步地,本实施例中,优先采用基于相似性的注意力,为此,本实施例提供了一种基于注意力计算的方案。
在一种可行方式中,本实施例中,可以采用L层的双向编解码器来生成知识图谱中各个实体节点的向量,每层可以计算实体节点的可学习线性矩阵和偏差向量,从而聚集实体节点及与实体节点具有连接关系的其他实体节点的数据。则在计算相似度时,可以根据任务数据样本生成查询向量q,
Figure BDA0003833056240000061
其中,σ=tanh(·),
Figure BDA0003833056240000062
Figure BDA0003833056240000063
分别表示第i层查询向量的可学习线性矩阵和偏差向量,S表示任务数据样本的语义向量。在每层可以根据查询向量在知识图谱中进行查询,从而得到与任务数据样本相似度较高的实体节点数据。
可选地,本实施例中,步骤S302可以包括:将任务数据样本输入图神经网络模型,由图神经网络模型使用注意力计算,从知识图谱中确定任务数据样本对应的当前实体节点;根据当前实体节点对应的邻接关系,确定当前实体节点对应的多个邻居实体节点;对当前实体节点的实体节点数据和多个邻居实体节点的实体节点数据进行聚合,获得任务数据样本对应的实体节点数据。本实施例中,由图神经网络模型使用注意力计算,从知识图谱中查询得到对应的实体节点数据,可以使得查询出的实体节点数据与图神经网络模型更加匹配,从而提高训练出的图神经网络模型的质量;另外,在查询过程中,将查询到的当前实体节点对应的邻接关系确定的多个邻居实体节点进行聚合,从而得到任务数据样本对应的实体节点数据,可以充分利用知识图谱中的结构信息,提高了确定出的实体节点数据的质量。
S303、根据所述任务数据样本和所述实体节点数据,对所述图神经网络模型进行训练。
本步骤中,可以将任务数据样本对应的实体节点数据,以及任务数据样本作为图神经网络模型的输入,对图神经网络模型进行训练,其具体训练过程本实施例中不作限制。并且,在图神经网络模型的训练过程中,前述初始语言模型的模型参数保持不变。
S304、使用所述训练样本对所述初始语言模型和所述初始图神经网络模型进行微调训练,获得用于所述预设任务的任务模型。
可选地,本步骤中,使用所述训练样本对所述初始语言模型和所述初始图神经网络模型进行微调训练可以包括:使用所述训练样本,基于预设的损失函数,对所述初始语言模型和所述初始图神经网络模型进行联合微调,获得对应的损失值;根据所述损失值,对所述初始语言模型的模型参数和所述初始图神经网络模型的模型参数进行调整。
示例性地,参见图3B,一种示例性的初始语言模型包括:用于对所述任务数据样本进行语义特征提取获得对应的样本语义向量的第一编码器;用于基于所述样本语义向量获取所述初始图神经网络模型确定并输出的、与所述样本语言向量对应的样本实体向量的第二编码器;用于基于所述样本语义向量和所述样本实体向量进行任务预测,获得任务预测结果的第三编码器。基于该初始语言模型,本实施例中,可以将任务数据样本作为第一编码器的输入,将实体节点数据作为图神经网络模型的输入,并将第一编码器的输出和图神经网络模型的输出作为第二编码器的输入,以及将第一编码器的输出和第二编码器的输出作为第三编码器的输出,并可以基于第三编码器的输出调整图神经网络模型的参数,且在此过程中,初始语言模型中的第一编码器、第二编码器和第三编码器的参数保持不变。
基于此,本实施例中,当语言模型的结构如图3B所示时,所述使用所述训练样本,基于预设的损失函数,对所述初始语言模型和所述初始图神经网络模型进行联合微调,获得对应的损失值可以实现为:通过所述初始语言模型中的第一编码器对所述任务数据样本进行语义特征提取,获得对应的样本语义向量;通过所述初始语言模型中的第二编码器,基于所述样本语义向量获取所述初始图神经网络模型确定并输出的、与所述样本语言向量对应的样本实体向量;通过所述初始语言模型中的第三编码器,基于所述样本语义向量和所述样本实体向量进行任务预测,获得任务预测结果;根据所述任务预测结果和预设的损失函数,确定对应的损失值。
示例性地,以ERNIE表示语言模型,以GAT表示图神经网络模型,则上述微调过程可以使用如下公式表示:
Figure BDA0003833056240000071
其中,
Figure BDA0003833056240000072
代表语言模型的模型参数,
Figure BDA0003833056240000073
代表图神经网络模型的模型参数,Lfine-tuning代表微调阶段的损失函数,
Figure BDA0003833056240000081
代表使包括语言模型和图神经网络模型在内的模型整体的损失函数取最小值时的变量值。
示例地,第一编码器可以用于确定任务数据样本的语义特征向量;第二编码器用于确定语义特征向量的样本实体向量,即确定语义特征向量对应的知识注入;第三编码器用于将语义特征向量和知识注入相结合进行任务预测,得到预测结果。
下面以图3B示出的模型为例,通过一种示例性的训练过程,对本实施例提供的方案进行示例性说明。训练过程可以分为三个阶段,三个阶段的公式可以表示为:
阶段一(语言模型预训练阶段):
Figure BDA0003833056240000082
阶段二(图神经网络模型训练阶段):
Figure BDA0003833056240000083
阶段三(微调训练阶段):
Figure BDA0003833056240000084
其中,上述
Figure BDA0003833056240000085
代表语言模型的模型参数,
Figure BDA0003833056240000086
代表图神经网络模型的模型参数;Lpretraining代表预训练阶段的损失函数,Lfine-tuning代表微调训练阶段的损失函数。
Figure BDA0003833056240000087
代表使语言模型的损失函数取最小值时的变量值;
Figure BDA0003833056240000088
代表使图神经网络模型的损失函数取最小值时的变量值;
Figure BDA0003833056240000089
代表使包括语言模型和图神经网络模型在内的模型整体的损失函数取最小值时的变量值。需要说明的是,上述各阶段的损失函数的具体实现可由本领域技术人员根据实际需求,选用适当的损失函数,本申请实施例对损失函数的具体实现形式不作限制。
根据上述公式可知,本实施例中,在预训练阶段主要调整语言模型的参数,得到初始语言模型。
在图神经网络模型训练阶段,为了避免训练图神经网络模型的训练过程带来的性能损失,可以主要调整图神经网络模型的参数而不调整语言模型的参数,得到初始图神经网络模型,并可以采用预设任务对应的训练样本来训练图神经网络模型,避免采用大量的数据来训练图神经网络模型,大幅减少了训练样本的数量,降低了图神经网络模型的训练算力开销;另外,可以将知识图谱与预训练阶段的解耦,下游任务可使用更适合其任务的知识图谱对图神经网络模型进行训练,使得模型的知识注入更加灵活,更与下游任务相适配,从而使得最终获得的任务模型可以更为有效地处理下游任务。
在微调训练阶段,可以同时调整语言模型和图神经网络模型的参数,使得两个模型能够协调工作。
与现有的向预训练语言模型中进行知识注入的方案相比,本申请提供的方案,只要使用对应领域的知识图谱在微调训练任务之前训练图神经网络即可,很好地解决了知识注入需要大语料、高开销的问题,且可以使得训练出的图神经网络模型针对对应领域进行知识注入,提高了知识注入的效率。
实施例三
图4为本申请实施例提供的一种模型数据处理方法的流程示意图,如图所示,其包括:
S401、获取待处理的任务数据。
本实施例中,待处理的任务数据可以为与任务模型相匹配的任务数据。示例地,若任务模型用于进行商品推荐,则待处理的任务数据可以为待推荐用户的偏好数据或者商品查询数据;若任务模型用于进行药物推荐,则待处理的任务数据可以为待推荐药物的病例的问诊信息等。
S402、将所述任务数据输入对应的任务模型,并获得所述任务模型输出的任务结果。
本实施例中,所述任务模型为上述任意实施例提供的方法获得的任务模型,具体获得任务模型的方法步骤可参考上述实施例,在此不再赘述。
相应地,任务模型输出的任务结果也与具体任务有关,例如商品识别结果或者问诊信息识别结果,等等,本申请实施例对此不作限制。
由本实施例可见,通过前述实施例一或二训练完成的任务模型可有效应用于下游任务中,提高了任务模型的应用灵活性和通用性。
实施例四
图5为本申请实施例提供的一种模型数据处理方法的流程示意图,如图所示,其包括:
S501、获取物品信息查询数据。
本实施例中,物品信息查询数据可以为根据输入的物品查询关键词确定的,也可为根据用户的物品偏好信息生成的,本实施例对此不进行限定。
S502、将所述物品信息查询数据输入对应的物品信息模型,并获得所述物品信息模型输出的物品信息识别结果。
本实施例中,所述任务模型为上述任意实施例提供的方法获得的任务模型,具体获得任务模型的方法步骤可参考上述实施例,在此不再赘述。
可选地,本实施例中,所述方法还包括:根据所述物品信息识别结果,确定对应的物品关联信息和/或待推荐物品的信息。
本实施例中,物品信息识别结果可以用于指示物品类别或者物品名称,在进行推荐时,还可以根据物品类别或者物品名称等进行扩展,即确定物品关联信息,以扩充向用户推荐的物品;或者,可以确定待推荐物品的信息,例如物品的优点等,以向用户进行针对性的推荐。
示例地,若物品信息识别结果用于指示手机,则可以根据手机确定对应的物品关键信息,例如手机支架、手机壳等;或者,可以确定性价比高的手机、专用于游戏的手机等,并进行推荐。
由本实施例可见,将前述实施例一或二训练完成的任务模型应用于与物品信息相关的下游任务中,可以实现高效的物品信息识别,进而可基于识别结果进行再进一步的任务处理。并且,该任务模型与下游任务具有较高的适用度,可以更好地完成下游任务。
实施例五
图6为本申请实施例提供的一种模型数据处理方法的流程示意图,如图所示,其包括:
S601、获取待处理的医疗数据。
本实施例中,待处理的医疗数据可以为与患者进行在线诊疗相关的信息等,本实施例对此不进行限定。
S602、将所述医疗数据输入对应的医疗信息处理模型,并获得所述医疗信息处理模型输出的医疗数据识别结果。
本实施例中,所述任务模型为上述任意实施例提供的方法获得的任务模型,具体获得任务模型的方法步骤可参考上述实施例,在此不再赘述。
可选地,本实施例中,所述方法还包括:根据所述医疗数据识别结果,确定对应的诊断数据和/或推荐药物的信息。
本实施例中,医疗数据识别结果可以用于指示患者可能所患的疾病,进一步地,可以根据所患的疾病确定对应的诊断数据、需要进一步检查以确诊的检查项目、缓解病患痛苦的推荐药物等。
由本实施例可见,将前述实施例一或二训练完成的任务模型应用于与在线医疗相关的下游任务中,可以实现高效的医疗数据识别,进而可基于识别结果进行再进一步的任务处理。并且,该任务模型与下游任务具有较高的适用度,可以更好地完成下游任务。
实施例六
参照图7,示出了根据本申请实施例六的一种电子设备的结构示意图,本申请具体实施例并不对电子设备的具体实现做限定。
如图7所示,该电子设备可以包括:处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。
其中:
处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
通信接口704,用于与其它电子设备或服务器进行通信。
处理器702,用于执行程序710,具体可以执行上述模型数据处理方法实施例中的相关步骤。
具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
处理器702可能是CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器706,用于存放程序710。存储器706可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序710具体可以用于使得处理器702执行前述多个方法实施例中任一实施例所描述的模型数据处理方法对应的操作。
程序710中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述,并具有相应的有益效果,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
本申请实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述多个方法实施例中的任一模型数据处理方法。
本申请实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令指示计算设备执行上述多个方法实施例中的任一模型数据处理方法对应的操作。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CDROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

Claims (14)

1.一种模型数据处理方法,包括:
获取已进行过预训练的初始语言模型、待训练的图神经网络模型、和预设任务对应的训练样本;
使用所述训练样本对所述图神经网络模型进行训练,获得初始图神经网络模型;
使用所述训练样本对所述初始语言模型和所述初始图神经网络模型进行微调训练,获得用于所述预设任务的任务模型。
2.根据权利要求1所述的方法,其中,所述训练样本包括所述预设任务对应的知识图谱和任务数据样本。
3.根据权利要求2所述的方法,其中,所述使用所述训练样本对所述图神经网络模型进行训练,包括:
基于所述任务数据样本,通过注意力计算从所述知识图谱中筛选与所述任务数据样本相对应的实体节点数据;
根据所述任务数据样本和所述实体节点数据,对所述图神经网络模型进行训练。
4.根据权利要求3所述的方法,其中,所述基于所述任务数据样本,通过注意力计算从所述知识图谱中筛选与所述任务数据样本相对应的实体节点数据,包括:
将所述任务数据样本输入所述图神经网络模型,由所述图神经网络模型使用注意力计算,从所述知识图谱中确定所述任务数据样本对应的当前实体节点;
根据当前实体节点对应的邻接关系,确定当前实体节点对应的多个邻居实体节点;
对当前实体节点的实体节点数据和多个邻居实体节点的实体节点数据进行聚合,获得所述任务数据样本对应的实体节点数据。
5.根据权利要求1-4任一项所述的方法,其中,在所述图神经网络模型的训练过程中,所述初始语言模型的模型参数保持不变。
6.根据权利要求1-4任一项所述的方法,其中,所述使用所述训练样本对所述初始语言模型和所述初始图神经网络模型进行微调训练,包括:
使用所述训练样本,基于预设的损失函数,对所述初始语言模型和所述初始图神经网络模型进行联合微调,获得对应的损失值;
根据所述损失值,对所述初始语言模型的模型参数和所述初始图神经网络模型的模型参数进行调整。
7.根据权利要求6所述的方法,其中,所述使用所述训练样本,基于预设的损失函数,对所述初始语言模型和所述初始图神经网络模型进行联合微调,获得对应的损失值,包括:
通过所述初始语言模型中的第一编码器对所述任务数据样本进行语义特征提取,获得对应的样本语义向量;
通过所述初始语言模型中的第二编码器,基于所述样本语义向量获取所述初始图神经网络模型确定并输出的、与所述样本语言向量对应的样本实体向量;
通过所述初始语言模型中的第三编码器,基于所述样本语义向量和所述样本实体向量进行任务预测,获得任务预测结果;
根据所述任务预测结果和预设的损失函数,确定对应的损失值。
8.一种模型数据处理方法,包括:
获取待处理的任务数据;
将所述任务数据输入对应的任务模型,并获得所述任务模型输出的任务结果;
其中,所述任务模型为根据权利要求1-7中任一项方法获得的任务模型。
9.一种模型数据处理方法,包括:
获取物品信息查询数据;
将所述物品信息查询数据输入对应的物品信息模型,并获得所述物品信息模型输出的物品信息识别结果;其中,所述物品信息模型为基于电子商务知识图谱和电子商务物品样本数据,根据权利要求1-7中任一项方法获得的模型。
10.根据权利要求9所述的方法,其中,所述方法还包括:
根据所述物品信息识别结果,确定对应的物品关联信息和/或待推荐物品的信息。
11.一种模型数据处理方法,包括:
获取待处理的医疗数据;
将所述医疗数据输入对应的医疗信息处理模型,并获得所述医疗信息处理模型输出的医疗数据识别结果;其中,所述医疗信息处理模型为基于医疗知识图谱和医疗样本数据,根据权利要求1-7中任一项方法获得的模型。
12.根据权利要求11所述的方法,其中,所述方法还包括:
根据所述医疗数据识别结果,确定对应的诊断数据和/或推荐药物的信息。
13.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-12中任一项所述的方法对应的操作。
14.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-12中任一所述的方法。
CN202211079257.1A 2022-09-05 2022-09-05 模型数据处理方法、电子设备及计算机存储介质 Pending CN115564017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211079257.1A CN115564017A (zh) 2022-09-05 2022-09-05 模型数据处理方法、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211079257.1A CN115564017A (zh) 2022-09-05 2022-09-05 模型数据处理方法、电子设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN115564017A true CN115564017A (zh) 2023-01-03

Family

ID=84738381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211079257.1A Pending CN115564017A (zh) 2022-09-05 2022-09-05 模型数据处理方法、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN115564017A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807650A (zh) * 2021-08-04 2021-12-17 北京房江湖科技有限公司 房源业主面访管理方法、系统、电子设备及存储介质
CN116306917A (zh) * 2023-05-17 2023-06-23 卡奥斯工业智能研究院(青岛)有限公司 任务处理方法、装置、设备和计算机存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807650A (zh) * 2021-08-04 2021-12-17 北京房江湖科技有限公司 房源业主面访管理方法、系统、电子设备及存储介质
CN116306917A (zh) * 2023-05-17 2023-06-23 卡奥斯工业智能研究院(青岛)有限公司 任务处理方法、装置、设备和计算机存储介质
CN116306917B (zh) * 2023-05-17 2023-09-08 卡奥斯工业智能研究院(青岛)有限公司 任务处理方法、装置、设备和计算机存储介质

Similar Documents

Publication Publication Date Title
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
US10248664B1 (en) Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN111602147B (zh) 基于非局部神经网络的机器学习模型
US9990558B2 (en) Generating image features based on robust feature-learning
CN115564017A (zh) 模型数据处理方法、电子设备及计算机存储介质
CN110795527B (zh) 候选实体排序方法、训练方法及相关装置
CN110162766B (zh) 词向量更新方法和装置
WO2022166115A1 (en) Recommendation system with adaptive thresholds for neighborhood selection
US20210056428A1 (en) De-Biasing Graph Embeddings via Metadata-Orthogonal Training
US11593891B2 (en) Systems and methods for a cross media joint friend and item recommendation framework
Hong et al. Domain-adversarial network alignment
JP2020144852A (ja) 混合メタ学習ネットワーク訓練装置及び方法
CN113918832A (zh) 基于社交关系的图卷积协同过滤推荐系统
CN113918834A (zh) 融合社交关系的图卷积协同过滤推荐方法
WO2023029350A1 (zh) 基于点击行为预测的信息推送方法及装置
CN115048560A (zh) 一种数据处理方法及相关装置
Gu et al. Tackling long-tailed category distribution under domain shifts
Liang et al. Weight normalization optimization movie recommendation algorithm based on three-way neural interaction networks
US11915120B2 (en) Flexible parameter sharing for multi-task learning
CN112989177A (zh) 信息处理方法、装置、电子设备及计算机存储介质
Li et al. Effective hybrid graph and hypergraph convolution network for collaborative filtering
CN117009539A (zh) 知识图谱的实体对齐方法、装置、设备及存储介质
WO2022166125A1 (en) Recommendation system with adaptive weighted baysian personalized ranking loss
CN114707070A (zh) 一种用户行为预测方法及其相关设备
Yao et al. Analysis of Model Aggregation Techniques in Federated Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination