CN114897163A - 预训练模型数据处理方法、电子设备及计算机存储介质 - Google Patents

预训练模型数据处理方法、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN114897163A
CN114897163A CN202210560697.2A CN202210560697A CN114897163A CN 114897163 A CN114897163 A CN 114897163A CN 202210560697 A CN202210560697 A CN 202210560697A CN 114897163 A CN114897163 A CN 114897163A
Authority
CN
China
Prior art keywords
model
natural language
training
data
mode data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210560697.2A
Other languages
English (en)
Inventor
惠彬原
李博文
黎槟华
李永彬
孙健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210560697.2A priority Critical patent/CN114897163A/zh
Publication of CN114897163A publication Critical patent/CN114897163A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种预训练模型数据处理方法、电子设备及计算机存储介质,其中,预训练模型数据处理方法包括:通过预训练模型的预处理层根据自然语言查询语句和数据库模式数据,生成对应的拼接向量;根据自然语言查询语句和数据库模式数据之间的关联词的信息,对拼接向量中数据库模式数据部分的关联词进行掩码处理,获得掩码向量;通过预训练模型的生成器对掩码向量进行针对被掩码处理的关联词的掩码恢复处理,获得生成向量;使用预训练模型的判别器基于生成向量对生成器的生成结果进行评估,根据评估结果对预训练模型进行训练。通过本申请实施例,可以提高预训练模型针对自然语言查询语句和数据库模式数据之间的关系判断的准确率。

Description

预训练模型数据处理方法、电子设备及计算机存储介质
技术领域
本申请实施例涉及表格问答技术领域,尤其涉及一种预训练模型数据处理方法、电子设备及计算机存储介质。
背景技术
由于数据结构清晰、易于维护,表格/SQL数据库成为各行各业应用最普遍的结构化数据,也是智能对话系统和搜索引擎等的重要答案来源。传统表格查询需要专业技术人员撰写查询语句(如SQL语句)来完成,因门槛高,阻碍了表格查询的大规模应用。表格问答技术(也称为TableQA)通过将自然语言直接转换为SQL查询,允许用户使用自然语言与表格数据库直接交互,越来越被广泛使用。
一个表格问答系统主要由三部分组成,包括自然语言理解部分、对话管理部分和自然语言生成部分。其中,自然语言理解部分主要执行语义解析算法,将自然语言问句转为对应可执行的SQL语句;对话管理部分执行多轮的状态跟踪和策略优化;自然语言生成部分则根据解析出的SQL语句和SQL的执行结果生成对应的回复。对于自然语言理解部分,目前多通过预训练模型的训练输出对后续表格问答系统的自然语言理解部分进行功能支持。预训练模型是一种迁移学习的应用,其通过自监督学习从大规模数据中获得与具体任务无关的模型参数,并且,在支持一个新任务时,只需要利用该任务的标注数据对预训练模型进行微调即可实现。
但是,目前的大部分预训练模型都专注于对语言的理解,而在真实的对话/问答场景中,尤其是TableQA场景下,自然语言和表格/SQL数据库密切关联,如何获得满足该场景下的预训练模型成为亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供一种预训练模型数据处理方案,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种预训练模型数据处理方法,包括:通过预训练模型的预处理层根据自然语言查询语句和数据库模式数据,生成对应的拼接向量;根据所述自然语言查询语句和所述数据库模式数据之间的关联词的信息,对所述拼接向量中数据库模式数据部分的关联词进行掩码处理,获得掩码向量;通过所述预训练模型的生成器对所述掩码向量进行针对被掩码处理的关联词的掩码恢复处理,获得生成向量;使用所述预训练模型的判别器基于所述生成向量对所述生成器的生成结果进行评估,根据评估结果对所述预训练模型进行训练。
根据本申请实施例的第二方面,提供了另一种预训练模型数据处理方法,包括:获取待迁移的预训练模型的模型参数,其中,所述预训练模型为根据自然语言查询语句和数据库模式数据,以及对所述自然语言查询语句和所述数据库模式数据之间的关联词中、数据库模式数据部分的关联词进行掩码处理后的数据,进行训练获得的模型;进行从所述预训练模型至表格问答系统的模型迁移。
根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第二方面所述方法对应的操作。
根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的方法。
根据本申请实施例的第五方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如第一方面或第二方面所述的方法对应的操作。
根据本申请实施例提供的预训练模型数据处理方案,一方面,基于根据自然语言查询语句和数据库模式数据生成的拼接向量,对其中的数据库模式数据中的关联词进行掩码处理,以模仿出后续可能的、由用户输入的自然语言查询语句的变化,以使模型具有更好的鲁棒性和容错性。另一方面,在预处理层进行相应的处理后,通过生成器-判别器架构对拼接向量,尤其是拼接向量中的数据库模式数据对应的部分进行预训练,从而可以有效捕捉上下文之间的关系,获得自然语言查询语句和数据库模式数据之间的交互,提高模型针对自然语言查询语句和数据库模式数据之间的关系判断的准确率。在将训练完成的预训练模型迁移至表格问答系统后,能够使得表格问答系统能够有效适用于表格问答场景,输出针对用户查询请求的更为准确的结果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为适用本申请实施例的预训练模型数据处理方法的示例性系统的示意图;
图2为根据本申请实施例的一种预训练模型的模型结构的示意图;
图3为根据本申请实施例一的一种预训练模型数据处理方法的步骤流程图;
图4A为根据本申请实施例二的一种预训练模型数据处理方法的步骤流程图;
图4B为图4A所示实施例中的一种场景示例图;
图5为根据本申请实施例三的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
图1示出了一种适用本申请实施例的预训练模型数据处理方法的示例性系统的示意图。如图1所示,该系统100可以包括服务器102、通信网络104和/或一个或多个用户设备106,图1中示例为多个用户设备。
服务器102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中,服务器102可以执行任何适当的功能。例如,在一些实施例中,服务器102中设置有表格问答系统,以处理用户输入的涉及表格或数据库的查询请求,并返回查询结果。作为可选的示例,在一些实施例中,服务器102中还设置有预训练模型,该预训练模型也可称为表格预训练模型,以在完成训练后,迁移至表格问答系统使用。作为可选的示例,在一些实施例中,服务器102中的预训练模型采用预处理层+(生成器-判别器)架构,通过预处理层对根据自然语言查询语句和数据库模式数据生成的拼接向量中的数据库模式数据的关联词进行掩码处理;然后,通过生成器-判别器架构对掩码处理后的向量即掩码向量进行预训练,从而可以有效捕捉包括自然语言查询语句和数据库模式数据在内的数据整体的上下文之间的关系,获得自然语言查询语句和数据库模式数据之间的交互,从而提高模型的容错性和鲁棒性。
在一些实施例中,通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如,通信网络104能够包括以下各项中的任何一种或多种:互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如,通信链路112)连接到通信网络104,该通信网络104能够经由一个或多个通信链路(例如,通信链路114)被链接到服务器102。通信链路可以是适合于在用户设备106和服务器102之间传送数据的任何通信链路,诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。
用户设备106可以包括与用户进行交互的设置和界面的任何一个或多个用户设备。在一些实施例中,用户设备106可以包括任何合适类型的设备。例如,在一些实施例中,用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。
尽管将服务器102图示为一个设备,但是在一些实施例中,可以使用任何适当数量的设备来执行由服务器102执行的功能。例如,在一些实施例中,可以使用多个设备来实现由服务器102执行的功能。或者,可使用云服务实现服务器102的功能。
基于上述系统,本申请实施例提供了一种预训练模型数据处理方法,为便于说明,以下首先对该方法中使用的预训练模型的结构进行示例性说明。
一般来说,预训练模型的训练多采用自监督学习方式。在完成训练后,可以将预训练模型学到的知识迁移到下游任务,经过微调之后即可实现相应的下游任务的功能。本申请实施例中,对预训练模型的训练主要用于下游的表格问答系统。与传统的诸如BERT、GPT等主要用于语言训练的预训练模型不同,本申请实施例的预训练模型旨在同时建模自然语言和结构化表格数据,在语言理解的维度将自然语言的语义融入表格的结构内容当中,以在语言生成的维度能够基于结构化数据生成流畅的文本。基于此,该预训练模型使用自然语言查询语句和数据库模式数据为输入,进行相应的处理和训练。在一种可行方式中,该预训练模型如图2所示,包括预处理层、生成器和判别器。
本申请实施例中,设定用于训练预训练模型的每条样本数据都包括两部分,分别为用于进行数据查询的自然语言查询语句、和该查询语句所查询的数据库的模式数据。其中,数据库的模式数据也称数据库的schema数据,是一组相互关联的数据库对象,用于表征如数据库中的表、表列、列的数据类型、索引、外键等信息。本申请实施例中,使用的数据库模式数据主要包括数据表的表名、列名、值的数据。
该预训练模型的预处理层用于对输入的样本数据进行处理,包括:对样本数据的两部分进行拼接,以生成拼接向量;接着,基于预先获得的自然语言查询语句和数据库模式数据之间的关联词的信息,对数据库模式数据中部分数据对应的向量进行掩码(MASK)处理,得到这部分数据的掩码;进而,结合该掩码和拼接向量中除该掩码外的其它部分,生成掩码向量。
在获得掩码向量后,该掩码向量会被输入生成器,该生成器一方面会对接收的掩码向量整体进行编码处理;另一方面,会通过编码对掩码向量中的掩码进行恢复处理。最终,输出生成向量,该生成向量中即携带有对掩码进行恢复后的数据。当然,该恢复后的数据可能与被掩码处理的原始模式数据相同,也可能是近似,如同义或形近等。
该生成向量进一步地会被输入判别器,以通过判别器对生成器的生成结果进行评估,主要是针对生成器恢复的模式数据的评估(如,恢复的数据与原始数据的差异程度或相似程度等)。并且,基于评估结果对预训练模型进行训练,包括但不限于通过反向传播方式调整模型参数等,直至达到模型训练终止条件(如,达到预设的训练次数,或者,损失值在预设的阈值范围内等)。
基于上述系统,本申请实施例提供了一种预训练模型数据处理方法,以下通过多个实施例进行详细说明。
实施例一
参照图3,示出了根据本申请实施例一的一种预训练模型数据处理方法的步骤流程图。
本实施例的预训练模型数据处理方法包括以下步骤:
步骤S302:通过预训练模型的预处理层根据自然语言查询语句和数据库模式数据,生成对应的拼接向量;根据自然语言查询语句和数据库模式数据之间的关联词的信息,对拼接向量中数据库模式数据部分的关联词进行掩码处理,获得掩码向量。
如前所述,在预训练模型的训练阶段,自然语言查询语句和数据库模式数据为训练样本中的两个不同部分。其中,自然语言查询语句可以为在用户数据被授权许可使用的情况下,获得的历史用户查询请求对应的数据;或者,也可以为基于部分历史用户查询请求对应的数据,按照一定的扩充规则生成的扩充数据与所述部分历史用户查询请求对应的数据的集合。对应地,每个自然语言查询语句都对应有其查询的数据库或数据表的数据库模式数据。基于此,可以将每组自然语言查询语句及其对应的数据库模式数据作为一个训练样本,输入预训练模型进行训练。
具体地,由预训练模型的预处理层接收该训练样本,即自然语言查询语句及其对应的数据库模式数据;然后,对这两部分数据进行拼接,获得相应的拼接向量。对于本申请实施例中的预训练模型来说,获得自然语言查询语句和模式数据之间的关联也称为模式链接,是训练中的重要部分之一。而通过拼接这两部分数据,可以显式地引入模式链接结构,由此,可以通过预训练模型来预测自然语言查询语句中的哪些词应该和模式数据中的哪些项进行链接,并且这种链接对应SQL中的什么关键词,从而能够得到更好的查询语句和模式表征,进而使得训练完成的模型迁移至下游TableQA模型后,能有效提升下游TableQA模型的性能。
但不限于此,本申请实施例中,基于拼接向量,还对其中的模式数据中的部分数据进行掩码处理,这部分被掩码处理的数据为与自然语言查询语句之间具有关联关系的关联词对应的数据。其中,关联词可以为自然语言查询语句和数据库模式数据之间相同的那些词(如,自然语言查询语句中的“身高”和数据库模式数据中的“身高”),也可以为相似度高于一定相似度的那些词(如,自然语言查询语句中的“高度”和数据库模式数据中的“身高”等)。较优地,可选择相同的那些词。
示例性地,如图2中所示,数据库模式数据包括:姓名、身高、性别等,则可选择其中的部分进行掩码处理,较优地,可以选择其中的一个模式数据进行掩码处理,以使模型训练更有针对性。图2中,对“身高”进行了掩码处理,图2中示意为[MASK]。在获得了部分数据对应的掩码后,如“身高”对应的[MASK]后,结合其它部分共同生成掩码向量,如图2中所示的“[S]麻烦告诉我身高超过180的学生姓名[/S]姓名[/S][MASK][/S]性别”。通过对部分模式数据进行掩码处理,可以在后续通过生成器进行恢复,以使模型具有更好的容错性和鲁棒性。但不限于此,在实际应用中,也可以同时选择多个模式数据进行掩码处理。
步骤S304:通过预训练模型的生成器对掩码向量进行针对被掩码处理的关联词的掩码恢复处理,获得生成向量。
本申请实施例中,生成器可采用编码器实现,生成器可被看作为一个语言模型,通过上下文(自然语言查询语句和数据库模式数据中未被掩码处理的部分)来对掩码向量中进行过掩码处理的关联词进行恢复。但由于生成器的输出不是固定的,因此,有可能生成和被掩码处理的原始的模式数据存在一些差异的恢复数据,如同义词、形近词等。
基于生成器对掩码向量的处理,即可获得生成向量,该生成向量中包含有生成器针对被掩码处理的关联词对应的恢复数据。
示例性地,如图2所示,在对原始的模式数据“身高”进行掩码处理后,再经由生成器恢复出“高度”这一恢复数据。但不限于此,生成器也可能恢复出“身高”这一与原始的模式数据相同的恢复数据。
步骤S306:使用预训练模型的判别器基于生成向量对生成器的生成结果进行评估,根据评估结果对预训练模型进行训练。
本申请实施例中,与生成器相对应,判别器可采用解码器+分类器的方式实现。判别器针对生成器生成的生成向量,再通过解码生成对应的解码向量。再通过分类器的方式,如果解码出的向量与原始向量一致,则分类器的输出结果为“真”,如果不一致,则分类器的输出结果为“假”。尤其是针对模式数据部分,如果分类器的输出结果为“真”,则意味着预训练模型有效学习到了自然语言查询语句和数据库模式数据之间的模式链接,并且,还能够通过对掩码的处理,有效对模式数据进行针对性的纠偏或纠错。
因生成器生成的生成向量越准确,则解码获得的解码向量也越准确,越与原始数据接近。基于此,可通过判别器的输出对生成器的生成结果进行评估,若“真”较多则生成结果较好,反之,则稍差。需要说明的是,评估结果的具体实现可由本领域技术人员根据实际需求采用灵活的实现方式,包括但不限于概率值、分值等方式,本申请实施例对评估结果的具体呈现方式不作限制。
进一步地,基于判别器获得的结果,可采用常规的反向传播的方式来对预训练模型进行训练(包括但不限于模型参数的调整)。该训练为一个迭代往复过程,直到达到训练终止条件,如训练次数达到设定次数,或者模型损失值满足预设阈值标准,等等。
通过本实施例的方案,一方面,基于根据自然语言查询语句和数据库模式数据生成的拼接向量,对其中的数据库模式数据中的关联词进行掩码处理,以模仿出后续可能的、由用户输入的自然语言查询语句的变化,以使模型具有更好的鲁棒性和容错性。另一方面,在预处理层进行相应的处理后,通过生成器-判别器架构对拼接向量,尤其是拼接向量中的数据库模式数据对应的部分进行预训练,从而可以有效捕捉上下文之间的关系,获得自然语言查询语句和数据库模式数据之间的交互,提高模型针对自然语言查询语句和数据库模式数据之间的关系判断的准确率。在将训练完成的预训练模型迁移至表格问答系统后,能够使得表格问答系统能够有效适用于表格问答场景,输出针对用户查询请求的更为准确的结果。
实施例二
参照图4A,示出了根据本申请实施例二的一种预训练模型数据处理方法的步骤流程图。
本实施例的预训练模型数据处理方法从对训练样本的前期处理至训练完成的预训练模型迁移至下游表格问答系统的应用的完整过程进行示例性说明,基于此,本实施例的预训练模型数据处理方法包括以下步骤:
步骤S402:对自然语言查询语句和数据库模式数据进行关联词分析,根据分析结果确定自然语言查询语句和数据库模式数据之间的关联词。
如前所述,一个训练样本中包括自然语言查询语句及其对应的数据库模式数据两部分,在基于数据表/数据库的查询中,自然语言查询语句最终将会转换为SQL语句以实现对数据表/数据库的访问。而SQL语句中的查询字段、查询条件等的信息均来自于自然语言查询语句,这些两者中均具有的、与查询字段和/或查询条件相关的信息和数据均可作为关联词。例如,“请告诉我三一班身高超过160CM的孩子的姓名”,其中,“身高”和“姓名”对应于数据表/数据库中的字段,或者说均会对应到SQL语句中的查询字段,而“三一班”对应于数据表的表名,“超过160”将对应于“身高”字段的查询条件。
而在一些非标准性的输入中,需要将自然语言查询语句中的非规范词(不能直接对应到数据库中的字段的词)转换为最终的规范词,以在用户输入有偏差的情况下也可获得准确结果。基于此,可先对自然语言查询语句和数据库模式数据两者之间的关联词进行关联词分析,确定两者之间的关联词,以在后续针对这些关联词进行训练,提高模型的容错性和鲁棒性。
其中,关联词分析的具体方式可由本领域技术人员根据实际需求采用灵活的方式实现,包括但不限于:先对自然语言查询语句进行分词,再计算分词与模式数据之间的相似度的方式;或者,使用模式数据与自然语言查询语句直接比较的方式;或者,先确定自然语言查询语句中的关键词,再将关键词与模式数据进行比较的方式;或者,通过具有关联词分析功能的神经网络模型的方式,等等。
步骤S404:通过预训练模型的预处理层根据自然语言查询语句和数据库模式数据,生成对应的拼接向量;根据自然语言查询语句和数据库模式数据之间的关联词的信息,对拼接向量中数据库模式数据部分的关联词进行掩码处理,获得掩码向量。
其中,在生成拼接向量的一种可行方式中,可以通过预训练模型的预处理层对自然语言查询语句和数据库模式数据进行拼接,并且,在拼接后的自然语言查询语句和数据库模式数据之间,以及数据库模式数据的相邻模式数据之间均插入分隔符;根据插入分隔符后的自然语言查询语句和数据库模式数据,生成对应的拼接向量。通过加入分隔符的方式,将自然语言查询语句以及不同数据库模式数据分隔开来,可以便于后续对它们识别和处理,提高模型训练速度和效率。
进而,针对拼接向量中的数据库模式数据对应的部分,从中选择关联词,以对其进行掩码处理。数据库模式数据中的关联词至少有一个,通常为多个(本申请实施例中,若无特殊说明,“多个”、“多种”等与“多”有关的数量意指两个及两个以上),在一种较优的可行方式中,可以一次选择一个关联词进行掩码处理,以使模型处理更有针对性。但不限于此,同时对多个关联词进行掩码处理的方式也同样适用于本申请实施例的方案。
示例性地,如图2中所示,预处理层将自然语言查询语句(图中示意为“麻烦告诉我身高超过180的学生姓名”)和数据库模式数据(图中示意为“姓名身高…性别”)处理为预训练模型能够接受的输入,包括:首先将自然语言查询语句和数据库模式数据进行拼接,然后在中间加入分隔符(图中示意为[/s]分隔符),来表示二者的不同;在数据库模式数据内部的每一个模式数据项之间也加入分隔符(图中也示意为[/s])来区分;此外,还需要在开头加入[s]字符,来表示输入的开头。需要说明的是,上述以[/s]为分隔符和以[s]为开始符仅为示例性说明,在实际应用中,本领域技术人员可根据实际需求采用其它形式的分隔符和开始符,本申请实施例对分隔符的具体实现形式不作限制。除此之外,本申请实施例中还采用了以模式数据为中心的遮蔽策略(即掩码策略),在预处理层进行上述处理之前,预先获得自然语言查询语句和数据库模式数据之间有关联的关联词,也称之为token,比如图2中自然语言查询语句中的【身高】与数据库模式数据中的【身高】为关联词,自然语言查询语句中的【姓名】与数据库模式数据中的【姓名】为关联词。然后,在预处理层生成拼接向量后,对于数据库模式数据对应的部分,根据这些预先确定的关联词进行随机的遮蔽(即掩码,将随机选中的关联词改为[MASK]),比如图2中将【身高】变为[MASK]。需要说明的是,本实施例中,以在预处理层生成拼接向量后再对关联词进行掩码处理为示例,但在实际应用中,也可以先对关联词进行掩码处理,再与数据库模式数据中的其它模式数据项及自然语言查询语句部分进行拼接,生成掩码向量。
该包含[MASK]的掩码向量将被输入生成器进行处理,示例性地,如图2中所示,该掩码向量在图2中表示为“[s]麻烦告诉我身高起来180的学生姓名[/s]姓名[/s][MASK]…[/s]性别”。
步骤S406:通过预训练模型的生成器对掩码向量进行针对被掩码处理的关联词的掩码恢复处理,获得生成向量。
预处理层生成的掩码向量将进入生成器,本申请实施例中,生成器可以将被掩码处理的关联词token进行恢复,比如将[MASK]恢复回【身高】。生成器可以直接看作为一个语言模型,通过上下文(自然语言查询语句及其他未被掩码处理的数据库模式数据中的模式数据项)来进行掩码恢复。但由于生成器的输出不是固定的,生成器有可能会生成和原始的数据模式项有差异的数据,例如,可能会生成出一些同义词、形近词等。示例性地,如图2中所示,原始的模式数据项“身高”被掩码处理为[MASK]后,经生成器恢复,输出对应的模式数据项“高度”,可见,“身高”和“高度”并非完全一致。但也正是因此,可以使得后续判别器经训练后,具有更好的容错性和纠偏性。
生成器的输出即为生成向量,示例性地,图2中该生成向量示意为“[s]麻烦告诉我身高起来180的学生姓名[/s]姓名[/s]高度…[/s]性别”。
此外,在一种可行方式中,生成器具体可实现为编码器,包括但不限于基于Transformer结构的编码器。
步骤S408:使用预训练模型的判别器基于生成向量对生成器的生成结果进行评估,根据评估结果对预训练模型进行训练。
生成器的输出将会作为判别器的输入,在一种可行方式中,判别器具体可实现为解码器,包括但不限于基于Transformer结构的解码器。该判别器不仅可对生成向量进行解码,生成更类似于原始输入预训练模型的向量形式,并且可基于该向量形式对生成器的生成结果进行评估。
基于此,在一种可行方式中,以拼接向量为监督条件,使用预训练模型的判别器对生成向量和拼接向量进行比较,根据比较结果获得评估结果。例如,若判别器解码后的向量与输入预处理层的原始向量一致,则评估结果为生成器的生成结果较好。但不限于此,在实际应用中,也可以设定相应的评估阈值,如数量阈值或概率阈值。例如,可确定解码获得的向量中自然语言查询语句中的每个字或每个词相对应的部分与原始输入预处理层的向量一致的第一数量,以及解码获得的向量中模式数据对应的部分与原始输入预处理层的模式数据对应的向量能够一致的第二数量,若第一数量与第二数量之和大于数量阈值,则表明生成器的生成结果较好。尤其是对模式数据部分,第二数量越大表明生成结果越好。当然,也可以为第二数量设定一个较高的权重,为第一数量设定一个稍低的权重,基于数量与权重的综合结果来判定生成器生成结果的优劣。
示例性地,图2中,相对应于数据库模式数据部分,因生成器对[MASK]恢复处理后的结果为“高度”,与原始的“身高”不致,因此,右上角针对生成器对数据库模式数据的处理结果判定为针对【身高】的为假(图中示意为“X”号),而其它,如【姓名】和【性别】则为真(图中示意为“√”号)。基于该判定,可以认为对生成器的生成结果的评估为“较差”。进而,可基于该评估,重新调整预训练模型的模型参数,并继续进行训练。
如前所述,对预训练模型的训练需迭代往复,直到达到模型训练终止条件。在终止条件达到后,即可认为模型训练完成。
全局来看,生成器是为了生成更容易骗过判别器的单词,而判别器为了更好地甄别出哪些是生成器生成的,通过这样类似对抗的训练策略,预训练模型不仅能捕捉丰富的上下文关系,还能够模仿出用户在进行查询时输入的查询语句的变化,使得预训练模型更具鲁棒性和容错能力。
在预训练模型训练完成后,可进行后续的迁移应用。为便于理解,本实施例中继续通过下述步骤S410对该迁移过程进行说明,但本领域技术人员应当明了的是,至步骤S408预训练模型的训练过程已形成完整方案,下述步骤S410为可选步骤。在实际应用中,步骤S408和步骤S410不必接续执行,本领域技术人员可根据实际需求,在任意时机,将训练完成的预训练模型迁移至表格问答系统。
步骤S410:基于训练完成的预训练模型中的判别器的模型参数,进行从预训练模型至表格问答系统的模型迁移。
本申请实施例中,在预训练模型完成训练后,只利用其判别器来完成下游任务。具体地,可以通过将训练完成的预训练模型中的判别器的模型参数迁移至表格问答系统的自然语言理解部分,进行从预训练模型至表格问答系统的模型迁移。
因预训练模型本身即是针对表格问答系统进行的训练,因此,可直接将判别器学习到的模型参数直接移植至TableQA的自然语言理解部分,借助于迁移来的模型参数,自然语言理解部分不但可针对以自然语言输入的查询语句执行语义解析,还具有较好的容错性和鲁棒性,即使输入的查询语句不够准确或者不能与数据库中的字段较好对应,也可将其最终转换为精准的、可执行的SQL语句。示例性地,该自然语言理解部分可实现为text-to–SQL模型,具体可采用seq2seq神经网络模型的形式,输入查询语句,输出对应的SQL语句。
完成了模型迁移后的TableQA的自然语言理解部分,结合已训练完成的对话管理部分和自然语言生成部分,即可成为一个完整的表格问答系统,实现相应的表格问答功能。
以下,通过可选步骤S412,并结合图4B,对通过上述表格问答系统进行表格问答的过程进行示意性说明。
步骤S412:接收用户输入的自然语言查询请求,并通过表格问答系统返回对应的查询结果。
在一种可行方式中,本步骤可实现为:通过表格问答系统的自然语言理解部分对用户输入的自然语言查询请求进行分析,获得自然语言查询请求中的数据库模式数据;若确定数据库模式数据中存在待纠偏数据,则对所述数据库模式数据进行纠偏;根据纠偏结果生成与自然语言查询请求对应的数据库查询语句。进而,可基于该数据库查询语句进行相应的数据库查询,并返回查询结果。
示例性地,如图4B所示,假设用户输入查询请求“麻烦告诉我三一班高度超过180的学生姓名”;该查询请求被输入表格问答系统TableQA,具体为该TableQA的自然语言理解部分(如seq2seq模型)后,自然语言理解部分对该查询请求进行解析,获得其对应的数据库模式数据,包括:“三一班”、“高度”、“姓名”。因自然语言理解部分的模型参数来自于预训练模型,该预训练模型通过训练得知需将“高度”纠偏为“身高”,因此,自然语言理解部分也会沿袭该训练结果,会自动将查询请求对应的数据库模式数据中的“高度”纠偏修正为“身高”。进而,基于对查询请求的分析结果及该纠偏结果,生成对应的SQL语句,如图4B中所示的“SELECT姓名FROM三一班WHERE身高>180”。
表格问答系统的自然语言生成部分基于上述SQL语句可访问相应的数据库,获得满足查询条件的查询结果,进而可基于该查询结果生成与查询请求相对应的回复,该回复可反馈给用户。
由上可见,针对预训练模型的训练部分,一方面,基于根据自然语言查询语句和数据库模式数据生成的拼接向量,对其中的数据库模式数据中的关联词进行掩码处理,以模仿出后续可能的、由用户输入的自然语言查询语句的变化,以使模型具有更好的鲁棒性和容错性。另一方面,在预处理层进行相应的处理后,通过生成器-判别器架构对拼接向量,尤其是拼接向量中的数据库模式数据对应的部分进行预训练,从而可以有效捕捉上下文之间的关系,获得自然语言查询语句和数据库模式数据之间的交互,提高模型针对自然语言查询语句和数据库模式数据之间的关系判断的准确率。在将训练完成的预训练模型迁移至表格问答系统后,能够使得表格问答系统能够有效适用于表格问答场景,输出针对用户查询请求的更为准确的结果。针对表格问答系统部分,因其模型自预训练模型处迁移而来,故而能有效处理用户查询请求中存在不标准或不规范的有模式数据相关的部分,有效提升了表格问答系统的容错性,进而可保护针对查询请求返回结果的准确性。
需要说明的是,在实用应用中,上述步骤S410中所描述的方案也可形成独立的模型迁移方案。也即,即使预训练模型为第三方训练完成获得,但只要其具有相应的结构,进行过类似的训练过程,从而使得模型能够实现上述功能,则同样可适应上述步骤S410中所述的迁移方案。
此种情况下,该迁移方案可包括:获取待迁移的预训练模型的模型参数,其中,预训练模型为根据自然语言查询语句和数据库模式数据,以及对自然语言查询语句和数据库模式数据之间的关联词中、数据库模式数据部分的关联词进行掩码处理后的数据,进行训练获得的模型;进行从预训练模型至表格问答系统的模型迁移。
其中,该预训练模型包括预处理层、生成器和判别器;则进行从预训练模型至表格问答系统的模型迁移可以实现为:基于预训练模型中的判别器的模型参数,进行从预训练模型至表格问答系统的模型迁移。
若该模型迁移将被迁移至不及格问答系统,则可选地,基于预训练模型中的判别器的模型参数,进行从预训练模型至表格问答系统的模型迁移可以实现为:通过将预训练模型中的判别器的模型参数迁移至表格问答系统的自然语言理解部分,进行从预训练模型至表格问答系统的模型迁移。
进一步可选地,在进行了模型迁移后,还可以通过表格问答系统的自然语言理解部分对用户输入的自然语言查询请求进行分析,获得自然语言查询请求中的数据库模式数据;若确定数据库模式数据中存在待纠偏数据,则对数据库模式数据进行纠偏;根据纠偏结果生成与自然语言查询请求对应的数据库查询语句。
上述模型迁移的过程描述较为简单,相关部分可参照前述步骤S410和步骤S412中的相关描述,并具有相应的有益效果,在此不再赘述。
通过模型迁移,能够使得获得迁移数据的模型或系统如上述表格问答系统快速获得有效且适合的数据,加快其投入使用的速度和效率。若将上述预训练模型迁移至表格问答系统,则能够使得表格问答系统能够有效适用于表格问答场景,输出针对用户查询请求的更为准确的结果。针对表格问答系统部分,因其模型自预训练模型处迁移而来,故而能有效处理用户查询请求中存在不标准或不规范的有模式数据相关的部分,有效提升了表格问答系统的容错性,进而可保护针对查询请求返回结果的准确性。
实施例三
参照图5,示出了根据本申请实施例三的一种电子设备的结构示意图,本申请具体实施例并不对电子设备的具体实现做限定。
如图5所示,该电子设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备或服务器进行通信。
处理器502,用于执行程序510,具体可以执行上述预训练模型数据处理方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行前述多个方法实施例中任一实施例所描述的预训练模型数据处理方法对应的操作。
程序510中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述,并具有相应的有益效果,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
本申请实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令指示计算设备执行上述多个方法实施例中的任一预训练模型数据处理方法对应的操作。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

Claims (14)

1.一种预训练模型数据处理方法,包括:
通过预训练模型的预处理层根据自然语言查询语句和数据库模式数据,生成对应的拼接向量;根据所述自然语言查询语句和所述数据库模式数据之间的关联词的信息,对所述拼接向量中数据库模式数据部分的关联词进行掩码处理,获得掩码向量;
通过所述预训练模型的生成器对所述掩码向量进行针对被掩码处理的关联词的掩码恢复处理,获得生成向量;
使用所述预训练模型的判别器基于所述生成向量对所述生成器的生成结果进行评估,根据评估结果对所述预训练模型进行训练。
2.根据权利要求1所述的方法,其中,所述使用所述预训练模型的判别器基于所述生成向量对所述生成器的生成结果进行评估,包括:
以所述拼接向量为监督条件,使用所述预训练模型的判别器对所述生成向量和所述拼接向量进行比较,根据比较结果获得评估结果。
3.根据权利要求1所述的方法,其中,所述通过预训练模型的预处理层根据自然语言查询语句和数据库模式数据,生成对应的拼接向量,包括:
通过预训练模型的预处理层对自然语言查询语句和数据库模式数据进行拼接,并且,在拼接后的自然语言查询语句和数据库模式数据之间,以及所述数据库模式数据的相邻模式数据之间均插入分隔符;
根据插入分隔符后的自然语言查询语句和数据库模式数据,生成对应的拼接向量。
4.根据权利要求1所述的方法,其中,在所述通过预训练模型的预处理层根据自然语言查询语句和数据库模式数据,生成对应的拼接向量之前,所述方法还包括:
对所述自然语言查询语句和所述数据库模式数据进行关联词分析,根据分析结果确定所述自然语言查询语句和所述数据库模式数据之间的关联词。
5.根据权利要求1-4任一项所述的方法,其中,所述方法还包括:
基于训练完成的所述预训练模型中的判别器的模型参数,进行从所述预训练模型至表格问答系统的模型迁移。
6.根据权利要求5所述的方法,其中,所述基于训练完成的所述预训练模型中的判别器的模型参数,进行从所述预训练模型至表格问答系统的模型迁移,包括:
通过将训练完成的所述预训练模型中的判别器的模型参数迁移至所述表格问答系统的自然语言理解部分,进行从所述预训练模型至表格问答系统的模型迁移。
7.根据权利要求6所述的方法,其中,所述方法还包括:
通过所述自然语言理解部分对用户输入的自然语言查询请求进行分析,获得所述自然语言查询请求中的数据库模式数据;
若确定所述数据库模式数据中存在待纠偏数据,则对所述数据库模式数据进行纠偏;
根据纠偏结果生成与所述自然语言查询请求对应的数据库查询语句。
8.一种预训练模型数据处理方法,包括:
获取待迁移的预训练模型的模型参数,其中,所述预训练模型为根据自然语言查询语句和数据库模式数据,以及对所述自然语言查询语句和所述数据库模式数据之间的关联词中、数据库模式数据部分的关联词进行掩码处理后的数据,进行训练获得的模型;
进行从所述预训练模型至表格问答系统的模型迁移。
9.根据权利要求8所述的方法,其中,所述预训练模型包括预处理层、生成器和判别器;
所述进行从所述预训练模型至表格问答系统的模型迁移,包括:
基于所述预训练模型中的判别器的模型参数,进行从所述预训练模型至表格问答系统的模型迁移。
10.根据权利要求9所述的方法,其中,所述基于所述预训练模型中的判别器的模型参数,进行从所述预训练模型至表格问答系统的模型迁移,包括:
通过将所述预训练模型中的判别器的模型参数迁移至所述表格问答系统的自然语言理解部分,进行从所述预训练模型至表格问答系统的模型迁移。
11.根据权利要求10所述的方法,其中,所述方法还包括:
通过所述自然语言理解部分对用户输入的自然语言查询请求进行分析,获得所述自然语言查询请求中的数据库模式数据;
若确定所述数据库模式数据中存在待纠偏数据,则对所述数据库模式数据进行纠偏;
根据纠偏结果生成与所述自然语言查询请求对应的数据库查询语句。
12.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-11中任一项所述的方法对应的操作。
13.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-11中任一所述的方法。
14.一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如权利要求1-11中任一所述的方法对应的操作。
CN202210560697.2A 2022-05-23 2022-05-23 预训练模型数据处理方法、电子设备及计算机存储介质 Pending CN114897163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210560697.2A CN114897163A (zh) 2022-05-23 2022-05-23 预训练模型数据处理方法、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210560697.2A CN114897163A (zh) 2022-05-23 2022-05-23 预训练模型数据处理方法、电子设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN114897163A true CN114897163A (zh) 2022-08-12

Family

ID=82723071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210560697.2A Pending CN114897163A (zh) 2022-05-23 2022-05-23 预训练模型数据处理方法、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114897163A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115910035A (zh) * 2023-03-01 2023-04-04 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质
CN115964471A (zh) * 2023-03-16 2023-04-14 成都安哲斯生物医药科技有限公司 医疗数据近似查询方法
CN116010609A (zh) * 2023-03-23 2023-04-25 山东中翰软件有限公司 一种物料数据归类方法、装置、电子设备及存储介质
CN116108072A (zh) * 2023-04-04 2023-05-12 阿里巴巴(中国)有限公司 数据查询方法及查询预测模型训练方法
CN116910105A (zh) * 2023-09-12 2023-10-20 成都瑞华康源科技有限公司 一种基于预训练大模型的医疗信息查询系统及方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115910035A (zh) * 2023-03-01 2023-04-04 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质
CN115964471A (zh) * 2023-03-16 2023-04-14 成都安哲斯生物医药科技有限公司 医疗数据近似查询方法
CN115964471B (zh) * 2023-03-16 2023-06-02 成都安哲斯生物医药科技有限公司 医疗数据近似查询方法
CN116010609A (zh) * 2023-03-23 2023-04-25 山东中翰软件有限公司 一种物料数据归类方法、装置、电子设备及存储介质
CN116010609B (zh) * 2023-03-23 2023-06-09 山东中翰软件有限公司 一种物料数据归类方法、装置、电子设备及存储介质
CN116108072A (zh) * 2023-04-04 2023-05-12 阿里巴巴(中国)有限公司 数据查询方法及查询预测模型训练方法
CN116108072B (zh) * 2023-04-04 2023-09-19 阿里巴巴(中国)有限公司 数据查询方法及查询预测模型训练方法
CN116910105A (zh) * 2023-09-12 2023-10-20 成都瑞华康源科技有限公司 一种基于预训练大模型的医疗信息查询系统及方法

Similar Documents

Publication Publication Date Title
CN114897163A (zh) 预训练模型数据处理方法、电子设备及计算机存储介质
CN113591902B (zh) 基于多模态预训练模型的跨模态理解与生成方法和装置
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN111930906A (zh) 基于语义块的知识图谱问答方法及装置
TWI749349B (zh) 文本還原方法、裝置及電子設備與電腦可讀儲存媒體
CN116719917A (zh) 一种大模型与外部知识相结合的知识问答系统、方法及储存介质
CN115017268B (zh) 一种基于树结构的启发式日志抽取方法及系统
CN111444346B (zh) 一种用于文本分类的词向量对抗样本生成方法及装置
CN113741886A (zh) 一种基于图的语句级程序修复方法及系统
CN114168619A (zh) 语言转换模型的训练方法及装置
CN112100509B (zh) 信息推荐方法、装置、服务器和存储介质
CN113705207A (zh) 语法错误识别方法及装置
KR102156249B1 (ko) 변분 순환 오토인코딩 방식의 자동 색인 시스템 및 방법
CN117009478A (zh) 一种基于软件知识图谱问答问句解析过程的算法融合方法
CN114579605B (zh) 表格问答数据处理方法、电子设备及计算机存储介质
US20230153534A1 (en) Generating commonsense context for text using knowledge graphs
CN115017987A (zh) 语言模型微调方法、文本分类方法、装置及设备
CN110134775B (zh) 问答数据生成方法及装置、存储介质
CN114579606B (zh) 预训练模型数据处理方法、电子设备及计算机存储介质
Reich et al. Visually grounded vqa by lattice-based retrieval
CN111881266A (zh) 一种应答方法及装置
CN117575026B (zh) 基于外部知识增强的大模型推理分析方法、系统及产品
CN113850235B (zh) 一种文本处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination