CN115310551A

CN115310551A - 文本分析模型训练方法、装置、电子设备和存储介质

Info

Publication number: CN115310551A
Application number: CN202210985832.8A
Authority: CN
Inventors: 肖东凌
Original assignee: Tencent Technology Wuhan Co Ltd
Current assignee: Tencent Technology Wuhan Co Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-11-08

Abstract

本申请实施例公开了一种文本分析模型训练方法、装置、电子设备和存储介质，可以应用于自然语言处理以及机器学习等人工智能领域、数据库等云技术领域，如应用于云技术、人工智能、智慧交通、辅助驾驶等场景；本申请获取预设的文本分析模型、训练文本以及由所述训练文本编码得到的样本；根据样本的语义表示与所述训练样本的一致性，确定全局对比损失；根据样本在预设的特征范围内的语义表示与所述训练样本的一致性，确定局部对比损失；根据全局对比损失以及局部对比损失，训练预设的文本分析模型，得到训练后的文本分析模型。本申请能够将训练后的文本分析模型用于文本分析，从全局语义以及局部语义的角度，提升文本分析模型的文本分析能力。

Description

文本分析模型训练方法、装置、电子设备和存储介质

技术领域

本申请涉及文本分析技术领域，具体涉及一种文本分析模型训练方法、装置、电子设备和存储介质。

背景技术

近年来，随着文本分析技术的发展，文本分析技术可以广泛应用于自然语言理解、知识问答等场景中。例如，可以通过文本分析模型，对自然语言进行语义解析，并生成语义表示。

然而，现有在对文本分析模型进行训练是，通常都是使用样本直接训练文本分析模型，导致训练后的模型文本分析能力不够。

发明内容

本申请实施例提供一种文本分析模型训练方法、装置、电子设备和存储介质，可以提升训练后的文本分析模型的文本分析能力。

本申请实施例提供一种文本分析模型训练方法，包括：获取预设的文本分析模型、训练文本以及由所述训练文本编码得到的样本；通过所述预设的文本分析模型，根据所述样本的语义表示与所述训练样本的一致性，确定全局对比损失；通过所述预设的文本分析模型，根据所述样本在预设的特征范围内的语义表示与所述训练样本的一致性，确定局部对比损失，所述预设的特征范围包括任一所述样本的特征范围；根据所述全局对比损失以及所述局部对比损失，训练所述预设的文本分析模型，得到训练后的文本分析模型，以便将所述训练后的文本分析模型用于文本分析。

本申请实施例还提供一种文本分析模型训练装置，包括：获取单元，用于获取预设的文本分析模型、训练文本以及由所述训练文本编码得到的样本；确定单元，用于通过所述预设的文本分析模型，根据所述样本的语义表示与所述训练样本的一致性，确定全局对比损失；确定单元，还用于通过所述预设的文本分析模型，根据所述样本在预设的特征范围内的语义表示与所述训练样本的一致性，确定局部对比损失，所述预设的特征范围包括任一所述样本的特征范围；训练单元，用于根据所述全局对比损失以及所述局部对比损失，训练所述预设的文本分析模型，得到训练后的文本分析模型，以便将所述训练后的文本分析模型用于文本分析。

本申请实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本申请实施例所提供的任一种文本分析模型训练方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种文本分析模型训练方法中的步骤。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本申请实施例所提供的任一种文本分析模型训练方法中的步骤。

本申请实施例可以获取预设的文本分析模型、训练文本以及由所述训练文本编码得到的样本；通过所述预设的文本分析模型，根据所述样本的语义表示与所述训练样本的一致性，确定全局对比损失；通过所述预设的文本分析模型，根据所述样本在预设的特征范围内的语义表示与所述训练样本的一致性，确定局部对比损失，所述预设的特征范围包括任一所述样本的特征范围；根据所述全局对比损失以及所述局部对比损失，训练所述预设的文本分析模型，得到训练后的文本分析模型，以便将所述训练后的文本分析模型用于文本分析。

在本申请中，能够根据样本的语义表示与训练样本的一致性，基于样本全部特征与训练样本之间的对比差异，来确定全局对比损失，以及根据样本在预设的特征范围内的语义表示与训练样本的一致性，基于样本局部特征与训练样本之间的对比差异，来确定局部对比损失。以此能够结合样本的全部特征以及在预设的特征范围内局部特征，从全局语义以及局部语义的角度关注预设的文本分析模型的对比损失表示，提供全面、准确的损失表示。结合全局对比损失和局部对比损失训练预设的文本分析模型，能够从全局语义以及局部语义的角度，拉近样本在全局维度以及局部维度的距离，还能从全局逻辑以及局部逻辑尽可能地区分正确和错误的样本，增强文本分析模型生成语义表示的逻辑一致性和鲁棒性，提升文本分析的准确性，以提升训练后的文本分析模型的文本分析能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的文本分析模型训练方法的场景示意图；

图1b是本申请实施例提供的文本分析模型训练方法的流程示意图；

图1c是本申请实施例提供的通过预设的构造方法构造子负样本的示意图；

图1d是本申请实施例提供的文本分析模型的结构示意图；

图1e是本申请实施例提供的由第一特征序列生成第二特征序列的示意图；

图2a是本申请另一个实施例提供的文本分类模型的示意图；

图2b是本申请另一个实施例提供的文本分析模型训练方法的流程示意图；

图3a是本申请实施例提供的训练后的文本分析模型应用于知识问答场景的流程示意图；

图3b是本申请实施例提供的应用于知识问答场景的数据表的示意图；

图3c是本申请实施例提供应用于知识问答场景的界面示意图；

图4是本申请实施例提供的文本分析模型训练装置的结构示意图；

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种文本分析模型训练方法、装置、电子设备和存储介质。

其中，该文本分析模型训练装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

在一些实施例中，该文本分析模型训练装置还可以集成在多个电子设备中，比如，文本分析模型训练装置可以集成在多个服务器中，由多个服务器来实现本申请的文本分析模型训练方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，参考图1a，文本分析模型训练方法可以集成在服务器，该服务器可以从数据库获取预设的文本分析模型、训练文本以及由训练文本编码得到的样本；通过预设的文本分析模型，根据样本的语义表示与训练样本的一致性，确定全局对比损失；通过预设的文本分析模型，根据样本在预设的特征范围内的语义表示与训练样本的一致性，确定局部对比损失，预设的特征范围包括任一样本的特征范围；根据全局对比损失以及局部对比损失，训练预设的文本分析模型，得到训练后的文本分析模型，以便将训练后的文本分析模型用于文本分析。

该服务器还可以接收从客户端发来的待分析文本，该服务器可以采用训练后的文本分析模型对待分析文本进行文本分析，得到文本分析结果，并将该文本分析结果返回给客户端。

以下分别进行详细说明。可以理解的是，在本申请的具体实施方式中，涉及到文本、问题、数据库、数据表等与用户等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

人工智能(Artificial Intelligence，AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术，该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

数据库(Database)，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据库管理系统(英语：Database Management System，简称DBMS)是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、XML(Extensible MarkupLanguage，即可扩展标记语言)；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如SQL(结构化查询语言(Structured QueryLanguage)、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。

在本实施例中，提供了一种涉及人工智能的文本分析模型训练方法，如图1b所示，该文本分析模型训练方法的具体流程可以如下：

110、获取预设的文本分析模型、训练文本以及由训练文本编码得到的样本。

其中，预设的文本分析模型可以指能够用于对待分析文本进行语义分析的神经网络模型。预设的文本分析模型的分析规则和方法可以通过对模型的训练进行优化。

例如，在不同的应用场景中，可以预先构建不同的文本分析模型。如，在知识问答场景中，在获得用户许可或者同意时，文本分析模型可以从语义上辨识输入的问题文本，得到问题文本的语义表示，再根据问题文本的语义表示确定对应的答复文本。如在情感分析场景中，在获得用户许可或者同意时，文本分析模型可以从语义上辨识输入的文本，得到文本的语义表示，再对文本的语义表示进行分类，如可以分为开心和不开心两类。

其中，待分析文本可以指待识别的文本信息，例如可以为问题文本、反馈文本、咨询文本等。待分析文本可以为词、短语、语句等形式，可以包括文字、数字、字符、符号等文本信息。待分析文本可以为任一语言形式的文本，如中文、英文等，也可以为不同语言混合的文本，如中英文混合的文本。本申请实施例对待分析文本的形式不作限制。

可以通过多种不同方式获取待分析文本，本申请对待分析文本的获取方式不做限制，如在获得用户许可或者同意时，可以直接获取用户通过终端输入的文本信息，也可以由多媒体数据转换得到文本信息，还可以从服务器或数据库获取文本信息，等等。例如，可以获取视频、音频、图像或动态图像等多种不同形式的多媒体内容，并将该多媒体内容转换为待分析文本。如，在知识问答场景中，可以获取用户输入的问题语音，可以将该问题语音转换为文本信息；再如，在情感分析场景中，也可以通过图像识别从图像中提取关键字，根据关键字生成文本信息。

其中，训练文本可以指用于训练的待分析文本，训练样本可以用于构造样本，该任一训练文本可以为预先设置的问题文本。可以理解的是，对于同一训练文本，可以包括相应的正样本和负样本。负样本的构造方式可以包括不限于增加噪声扰动、增加数据结构错误、增加语义混淆等方式。

其中，样本可以指用于训练预设的文本分析模型的待分析文本，样本可以表征为由对训练文本编码得到的数据形式，如可以通过神经网络模型或SQL数据库等对训练文本进行编码的得到样本，样本可以为向量、字符串、结构化查询语句(SQL语句)等。

在一些实施方式中，为了能从多个角度预测文本分析模型可能出现的错误，可以通过多种方式构造得到多种子负样本，以生成包含逻辑错误、数据结构错误、混淆信息的负样本，以提升训练后的文本分析模型的鲁棒性和泛化性。具体地，样本包括负样本，获取预设的文本分析模型以及样本之前，还可以包括：

对任一训练文本，根据预设的构造方法，构造多种子负样本，预设的构造方法包括替换正样本中的特征数据以构造子负样本、根据样本中特征数据的出现规律构造子负样本、通过预训练的文本分析模型构造子负样本中的至少两种；

组合多种子负样本，得到对应任一训练文本的负样本。

其中，子负样本可以构成负样本。其中，出现规律可以包括多个样本中特征数据的出现概率以及特征数据在多个样本中分布规律等，例如，可以获取出现概率大于预设概率值的特征数据构成子负样本。其中，预训练的文本分析模型可以指预先训练的用于生成子负样本的文本分析模型。

例如，针对任一训练文本，可以通过不同方式构造得到多种子负样本，根据构造方式的不同，每种子负样本可以包括一个或多个子负样本，通过拼接该对应同一训练文本的子负样本，可以得到对应该文本的负样本。以此，可以利用文本分析模型对正样本和负样本的语义分析结果，进行对比学习，以训练文本分析模型。对比学习是一种为深度学习模型描述“相似”和“不同”事物的方法，利用这种方法，可以训练机器学习模型来区分相似和不同的样本(可以是图像，文本，结构化表示如SQL)。

在一些实施方式中，可以以结构化查询语句形式存储样本，以增加计算机对文本分析模型输出结果的可读性，以及增加使用该结果进行查询的查询效率。

在一些实施方式中，预设的构造方法可以包括噪声扰动、概率上下文无关文法(Probabilistic Context Free Grammar，PCFG)采样、生成器采样中的至少两种。以下将结合图1c中的表格，对这几种采样方法进行详细说明。

可选地，替换正样本中的特征数据以构造子负样本的方法可以为噪声扰动。具体地，该方法可以包括：可以将任一训练文本的正样本中的数据进行替换，得到子负样本，以构造有噪声扰动的子负样本。

例如，可选地，若样本为结构化查询语句，可以将正样本中的逻辑单元进行替换，以生成子负样本，其中，逻辑单元可以包括聚合函、关系OP(与或非)、条件关系、列名和表名等。例如，如图1c表格的第一行所示，训练文本可以为自然语言问题：What is the averagemiles per gallon(mpg)of the cars with 4 cylinders？，其正样本可以为正确SQL语句SELECT Avg(cars_data.MPG)FROM cars_data WHERE cars_data.Cylinders＝4，可以将正样本中的Avg替换为Max，以生成子负样本(错误SQL语句)SELECT Max(cars_data.MPG)FROMcars_data WHERE cars_data.Cylinders＝4，该子负样本是偏逻辑单元噪声的子负样本。

可选地，根据样本中特征数据的出现规律构造子负样本的方法可以为概率上下文无关文法采样。具体地，该方法可以包括：可以根据样本数据集中特征的出现的概率采集符合语法规则的数据，构造子负样本，以构造数据库成分和结构上错误的子负样本。

例如，可选地，若样本为结构化查询语句，可以统计样本数据集如结构化语言数据库中，结构化语言中元素的转移概率，从而可以采样出符合语法规则的结构化语句如SQL语句，如可以统计样本数据集中SQL语法树的非终止节点传递概率分布，例如select-＞agg、agg-＞agg_type，column等，再根据该概率分布，确定出现概率大于预设概率值的非终止节点，在预设的结构化数据(如数据库)中采集与这些非中止节点相关的完整SQL语句。例如，如图1c表格的第二行所示，训练文本可以为自然语言问题：What is the average andmaximum capacities for all stadiums，其正样本可以为正确SQL语句SELECT Avg(stadium.Capacity)，Max(stadium.Capacity)FROM stadium，可以生成子负样本(错误SQL语句)SELECT Avg(stadium.Average)，Max(stadium.Capacity)FROM stadium，该子负样本是构造数据库成分和结构上错误的子负样本。

可选地，通过预训练的文本分析模型构造子负样本的方法可以为生成器采样。具体地，该方法可以包括：可以通过预训练的文本分析模型，构造子负样本，以通过预训练模型生成多个与正样本在语义上相似的负样本，以构造语义混淆的子负样本，这类子负样本在语义层面的识别难度大。

例如，可选地，若样本为结构化查询语句，可以根据预训练的NL2SQL模型(SQL生成器)，通过该模型对任一训练文本进行推理，生成SQL预测候选集，并从SQL预测候选集中剔除得分最高的SQL语句即正确的SQL语句，得到至少一个子负样本。例如，如图1c表格的第三行所示，训练文本可以为自然语言问题：Show the name and the release year of thesong by the youngest singer，其正样本可以为正确SQL语句SELECT Song_Name，Song_release_year FROM singer ORDER BY Age Asc LIMIT1，可以生成子负样本(错误SQL语句)SELECT Name，Song_release_year FROM singer ORDER BY Age Asc LIMIT 1，该子负样本是偏语义混淆的子负样本。

在一些实施方式中，可以结合样本对应的训练文本，对样本进行解码，得到样本的语义表示，以使得样本的语义表示能够组合训练文本以及样本的语义，便于确定样本的全局对比损失。具体地，文本分析模型训练方法，还可以包括：

通过预设的文本分析模型，对训练文本进行编码，得到编码向量；

根据编码向量，对样本进行解码，得到第一特征序列；

根据第一特征序列，确定样本的语义表示。

其中，可以将第一特征序列用于表示样本的语义，也可以将第一特征序列处理后用于表征样本的语义。可选地，第一特征序列可以以向量形式存储。

可以采用多种方式对训练文本进行编码和解码，预设的文本分析模型的可以使用各种网络模型进行编码和解码，例如，注意力网络模型、长短期记忆网络(Long Short-TermMemory，LSTM)、向量空间模型(Vector Space Model，VSM)、语言表征模型如BERT模型(Bi-directional Encoder Representations from Transformer)等。

在一些实施方式中，在样本为SQL数据时，可以引入注意力网络，以及结合预设的结构化数据对训练文本进行编码，以基于预设的结构化数据来增强训练文本中特征与结构化数据的关联关系。具体地，样本以结构化查询语句形式存储，通过预设的文本分析模型，对训练文本进行编码，得到编码向量，可以包括：

通过预设的文本分析模型，获取预设的结构化数据；

根据预设的结构化数据，对训练文本进行特征提取，得到初始特征，初始特征包括预设的结构化数据与训练文本的匹配关系；

基于匹配关系，对初始特征进行注意力处理，得到编码向量。

其中，预设的结构化数据可以为用于存储结构化查询语句的结构化数据，如数据库、数据表或图形式。例如，预设的结构化数据可以以有向图形式存储，该有向图可以包括列名，表名以及词。可以在列的顶点标签中加入列类型。边集合可以包括数据库所定义的表连接关系、表和列的包含关系、通过架构连接得到的问题和架构之间的对应关系、用于注意力网络的辅助关系。

例如，在实际应用中，可以先根据预设的结构化数据提取训练文本中的结构化数据要素如列名、表名、词等，得到训练文本中的列名、表名、词的初始表示，再将这些初始表示输入注意力网络进行编码，得到编码向量。例如，可以将任一训练文本q与预设的结构化数据K拼接后输入编码器E进行编码，得到该训练文本的编码表示Q，Q＝E(q，K)，其中E表示编码处理。

如图1d所示，预设的文本分类模型可以包括编码器以及解码器，其中编码器可以包括特征提取网络以及注意力网络，解码器可以包括注意力网络或LSTM网络。

可选地，可以通过双向LSTM模型或BERT模型等不同的特征提取网络来提取训练文本的结构化数据要素。例如，可以将预设的结构化数据以及训练文本拼接后输入预训练的BERT模型，提取结构化数据。以此，通过双向LSTM模型或BERT模型对预设的结构化数据以及训练文本进行预处理，以获取训练文本中的结构化数据要素，再通过注意力网络对获取的要素进行编码，以提升编码结果的准确性。

其中，注意力处理可以指基于注意力机制的处理过程。注意力机制是模仿人类注意力而提出的一种解决问题的方法，可以是从大量信息中快速筛选出高价值的信息，和注意力机制相关的算法可以包括Soft Attention、Hard Attention、静态Attention、动态Attention和Self-Attention等类型，在计算具有注意力的节点特征时，可以采用上述的任意一种或多种。

例如，预设的文本分析模型可以包括注意力网络，注意力网络可以包括多个线性组合的编码器，通过参数矩阵W^Q(请求向量参数矩阵)、W^K(键向量参数矩阵)以及W^V(值向量参数矩阵)分别对初始特征进行线性变换，以得到注意力权重Q(请求向量序列)、K(键向量序列)以及V(值向量序列)，并根据Q、K以及V对初始特征进行权重计算得到编码向量的过程，其中W^Q、W^K以及W^V是在训练过程中学习得到。以此，通过注意力网络可以使初始特征的每个位置都可以捕捉整个序列的信息，可以学习不同维度的特征。

可以通过预设的结构化数据，在提取初始特征的同时提取得到schema(模式)与训练文本中词的关系，schema可以表征数据库的组织和结构，以此可以使用关系注意力对初始特征进行编码，以增强编码结果与数据库结构的关联关系。

可选地，根据预设的结构化数据，对训练文本进行特征提取，得到初始特征，可以包括：根据预设的结构化数据，通过名字匹配方式，对训练文本进行结构化数据提取，得到初始特征，初始特征可以包括训练文本中的词组与预设的结构化数据的列名、表名匹配的匹配关系。

例如，可以通过名字匹配(name-based)，用训练文本中的n-gram词组与列名/表名进行匹配，分为完全匹配、部分匹配、不匹配三种关系。

可选地，根据预设的结构化数据，对训练文本进行特征提取，得到初始特征，可以包括：根据预设的结构化数据，通过数值匹配方式，对训练文本进行结构化数据提取，得到初始特征，初始特征包括训练文本中的词与预设的结构化数据中数据的匹配关系。

例如，可以通过数值匹配(value-based)，如果某一个词在预设数据库的某一列的数据中出现，那么这个词与这一列记为COLUMN-VALUE(列值)关系。

可选地，匹配关系可以包括训练文本中的词组与预设的结构化数据的列名、表名匹配的匹配关系，以及训练文本中的词与预设的结构化数据中数据的匹配关系中的至少一种。在有多个匹配关系时，可以将多个匹配关系对应的向量拼接得到匹配关系表示。例如，在根据Q、K以及V对初始特征进行权重计算得到编码向量的过程中，可以加入该匹配关系表示进行计算。可选地，该匹配关系表示可以作为权重计算过程中的偏置项。

在一些实施方式中，可以以结构化查询语句形式存储样本，通过对包含样本的组合特征的解码，可以得到按照深度优先顺序排列、具有结构化数据特征的样本语义表示，增强样本语义表示的可读性。具体地，根据编码向量，对样本进行解码，得到第一特征序列，可以包括：

组合编码向量和样本，得到组合特征；

将组合特征转换为树形结构化数据，树形结构化数据包括至少一个节点；

根据预设的解码顺序，对树形结构化数据的节点进行解码，得到第一特征序列。

其中，组合可以包括拼接、线性组合或非线性组合等处理方式。其中，预设的解码顺序可以指深度优先顺序或广度优先顺序。

可选地，深度优先的顺序可以指基于深度优先搜索进行处理的方法。深度优先算法可以理解为对每一个可能的分支路径深入到不能再深入为止，而且每个节点只能访问一次。

其中，树形结构化数据可以指以分支关系定义的、具有层次的结构化数据，是一种非线性数据结构。例如，树形结构化数据可以为SQL语法树形式。

可以理解的是，由于结构化查询语句是按照SQL语法树的规则生成的，编码向量是基于结构化数据提取并转化得到的向量，因此，可以将组合特征转化为结构化数据，如语法树。可选地，可以将编码向量和样本进行拼接，得到组合特征，再将组合特征转化为语法树。具体转化过程可以为：通过APPLYRULE(应用规则)，利用上下文无关语法(CFG)展开一个非终结节点，以生成语法树的基本结构；通过SELECTTABLE(表格选择)或者SELECTCOLUMN(列选择)，在所有列/表上计算概率分布，并训练文本与schema(数据结构)的对齐矩阵，来进行表名或列名的选择填充，以将组合特征转换为SQL语法树形式。在得到SQL语法树，可以根据深度优先遍历顺序遍历该SQL语法树，使用LSTM网络或注意力网络对遍历到的语法树节点进行解码，得到第一特征序列。LSTM网络是一种时间递归神经网络，可以包含多个链式连接的重复网络单元，重复网络单元拥有不同的结构，能够用来学习长期依赖信息。

可选地，在组合编码向量和样本，得到组合特征之前，还可以包括：对样本进行编码，得到以向量形式存储的样本。

可选地，也可以在对组合特征进行解码的过程中，在对组合特征进行解码时，将结构化查询语句形式的节点转化为向量形式。

在一些实施方式中，在对样本进行解码时，样本可以得到多个第一特征序列，此时可以对多个第一特征序列进行均值处理，以均值处理后的特征序列表征样本的语义。具体地，根据第一特征序列，确定样本的语义表示，可以包括：

将所有与任一目标样本对应的第一特征序列进行均值处理，得到处理后的第一特征序列。

可选地，目标样本可以包括正样本和负样本。例如，可以将负样本

以及与样本对应的训练文本的编码向量Q输入解码器D，进行解码处理，得到所有子样本的全局序列表示，将全局表示按照序列维度进行平均得到负样本的第一特征序列

同理可以得到正样本的第一特征序列S⁺：S⁺＝AveragePooling(D(Q，SQL⁺))，其中，D表示解码处理，AveragePooling表示平均池化处理，

表示负样本，SQL⁺表示正样本。

120、通过预设的文本分析模型，根据样本的语义表示与训练样本的一致性，确定全局对比损失。

其中，语义表示可以指用于表示语义的载体，该载体可以为图形、符号、字母、数字等形式。例如，可以通过对样本进行编码，以向量形式表示样本的语义；也可以以结构查询语句表示样本的语义，以便于计算机读取。

其中，一致性可以指数据的逻辑一致性，即数据在数据结构、数据格式和属性编码正确性方面，尤其是拓扑关系上的一致性。例如，可以通过Kappa检验、ICC组内相关系数、Kendall W协调系数等方法计算数据的一致性。

其中，全局对比损失可以指用于表征样本的语义表示和训练文本之间的差异程度，该差异程度可以以相似程度来表示。例如，损失的值越小，样本间的相似程度越高，损失的值越大，样本间的相似程度越小。

可以采用多种方式确定全局对比损失和局部对比损失。例如，预设的文本分析模型可以通过相似度模型计算不同样本如正样本和负样本之间的相似度，相似度模型可以包括长短期记忆网络(Long Short-Term Memory，LSTM)、循环神经网络(Recurrent NeuralNetwork，RNN)等。再如，预设的文本分析模型也可以基于样本与训练文本的逻辑一致性来确定全局对比损失。

在一些实施方式中，可以通过正样本和负样本之间的差异程度，来确定全局对比损失，以融合不同样本对模型的影响，提供公平的损失表示。样本可以包括正样本和负样本，通过预设的文本分析模型，根据样本的语义表示与训练样本的一致性，确定全局对比损失，可以包括：

通过预设的文本分析模型，根据语义表示，分别确定正样本与训练文本的一致性、负样本与训练文本的一致性；

根据正样本与训练文本的一致性、以及负样本与训练文本的一致性，确定全局对比损失。

在本申请实施例中，可以根据对应任一训练文本的样本与该训练文本的逻辑一致性得分，确定全局对比损失。逻辑一致性可以表示自然语言问题的语义和SQL语句的逻辑一致的程度。例如，可以通过Score(S，Q)＝dot(S，Q)对样本的处理后的特征序列以及训练文本的编码向量进行向量内积计算，来确定两者之间的逻辑一致性，其中Score(S，Q)表示一致性得分，dot表示向量内积，S表示负样本的语义表示S_i ^-或正样本的语义表示S⁺。通常，正样本的一致性得分高于负样本的一致性得分，因此，可以使用损失函数

计算全局对比损失，其中，margin可以为超参数，该超参数可以根据经验预设，负样本为

130、通过预设的文本分析模型，根据样本在预设的特征范围内的语义表示与训练样本的一致性，确定局部对比损失。

其中，预设的特征范围包括对应任一样本的特征范围。可以理解的是，任一样本在预设特征范围内的特征即为该样本的局部特征。可以根据样本的形式设置不同的形式的预设特征范围，例如，样本可以包括(特征1，特征2，...，特征n)，预设的特征范围可以为特征2～特征m，m≤n，因此该样本在预设的特征范围内的语义表示可以为特征2～特征m的语义表示；再如，若样本以向量形式，预设的特征范围可以为特征2～特征m对应的分量范围，等。

其中，局部对比损失可以指用于表征样本的局部特征对应的语义表示与训练样本之间的差异程度。

在一些实施方式中，为了从多个角度指导文本分析模型的训练过程，可以根据样本的局部特征来确定局部对比损失，以从局部特征的角度来确定损失，结合局部特征关注模型的损失表示，提供全面、准确的损失表示。具体地，通过预设的文本分析模型，根据样本在预设的特征范围内的语义表示，确定局部对比损失之前，还可以包括：

通过预设的文本分析模型，确定第一特征序列在预设的特征范围内的第二特征序列；

根据第二特征序列，确定用于表征样本在预设的特征范围内的语义表示。

其中，第二特征序列可以指第一特征序列中满足预设的特征范围的特征序列。可以将第二特征序列用于表征样本在预设的特征范围内的语义，也可以对第二特征序列处理后用于表征样本在预设的特征范围内的语义。可选地，第二特征序列可以以向量形式存储。例如，可以从第一特征序列中提取部分特征或部分序列，得到第二特征序列。

在一些实施方式中，通过预设的文本分析模型，确定第一特征序列在预设的特征范围内的第二特征序列，可以包括：通过预设的文本分析模型，从第一特征序列中提取预设的特征范围内的特征，得到第二特征序列。

在一些实施方式中，在对样本进行解码时，样本可以得到多个第一特征序列，可以先获取每个第一特征序列的局部特征序列，再对样本对应的多个局部特征序列进行均值处理，以得到每个样本对应的语义表示。具体地，根据第二特征序列，确定用于表征样本在预设的特征范围内的语义表示，可以包括：

将所有与任一目标样本对应的第二特征序列进行均值处理，得到与任一目标样本对应的处理后的特征序列。

其中，处理后的特征序列可以表征样本在预设的特征范围内的语义表示。

可选地，可以以结构化查询语句形式存储样本，以根据结构化数据特征，查找并确定第二特征序列，以得到具有结构化数据特征的样本的局部特征的语义表示，增强样本语义表示的可读性。

例如，由于SQL语句的生成是按照SQL语法树进行子树的先后生成，为了提升模型在子树生成过程中的逻辑一致性，本申请通过局部对比损失来训练模型，以在子树层面区分出错误的SQL语句，保证生成过程中的鲁棒性。具体地，通过对比负样本SQL和正样本SQL不同点存在的子树区间，如给定差异区间

和

表示第i个负样本

和正样本SQL⁺不同的第j个区间。如图1e所示，在对组合特征的解码得到第一特征序列后，可以将第一特征序列的语法树根据先序遍历的顺序生成先序遍历序列，并根据给定差异区间

(负样本子树区间)和

(正样本子树区间)在先序遍历序列中获取区间内的局部特征序列即第二特征序列，并将对应同一样本的局部特征序列进行序列维度平均(AveragePooling，平均池化)处理后，得到与该样本对应的处理后的特征序列，处理后的特征序列可以为：

其中，

表示正样本的处理后的特征序列，

＝表示负样本的处理后的特征序列，D表示解码处理，Q表示与样本对应的训练文本的编码向量，AveragePooling表示平均池化处理，

表示负样本，SQL⁺表示正样本。

可以根据对应任一训练文本的样本的局部特征与该训练文本的一致性得分，确定全局对比损失。例如，可以通过Score(Sub，Q)＝dot(Sub，Q)对样本的第二特征序列以及训练文本的编码向量进行向量内积计算，来确定两者之间的逻辑相似一致性，其中Score(Sub，Q)表示一致性得分，dot表示向量内积。通常，SQL正样本子树的一致性得分高于SQL负样本子树的一致性得分，因此，可以使用损失函数

计算全局对比损失，其中，margin为超参数，该超参数可以根据经验预设，负样本为

|Sub|表示子树的个数。

140、根据全局对比损失以及局部对比损失，训练预设的文本分析模型，得到训练后的文本分析模型，以便将训练后的文本分析模型用于文本分析。

可以采用全局对比损失以及局部对比损失来训练预设的文本分析模型，通过该文本分析模型最小化全局对比损失和局部对比损失，可以从全局语义以及局部语义的角度，拉近样本在全局维度以及局部维度的距离，增强模型的鲁棒性，提升文本分析的准确性。

在一些实施方式中，为了从多个角度指导文本分析模型的训练过程，可以根据模型的文本分析损失，以结合文本分析结果关注模型的损失表示，提供全面、准确的损失表示。具体地，根据全局对比损失以及局部对比损失，训练预设的文本分析模型之前，还可以包括：

通过预设的文本分析模型，根据样本的语义表示，确定文本分析损失。

可选地，可以结合对应相同训练文本的编码向量以及正样本，来确定文本的分析损失。具体地，通过预设的文本分析模型，根据样本的语义表示，确定文本分析损失，可以包括：

获取与任一正样本对应的第一特征序列；

根据与任一正样本对应的第一特征序列，确定文本分析损失。

可以通过0-1损失函数、绝对值损失函数、log对数损失函数、平方损失函数、指数损失函数、Hinge损失函数等多种不同的损失函数计算文本分析损失。

可选地，可以通过交叉熵损失函数确定文本分析损失。例如，可以通过Loss_gen＝CrossEntropy(D(Q，SQL)，SQL⁺)计算得到文本分析损失函数，其中CrossEntropy表示交叉熵，D(Q，SQL⁺)表示任一正样本对应的第一特征序列，SQL⁺表示正样本。

在一些实施方式中，根据全局对比损失以及局部对比损失，训练预设的文本分析模型，得到训练后的文本分析模型，可以包括：

结合全局对比损失、局部对比损失以及文本分析损失，得到总损失；

根据总损失，训练预设的文本分析模型，得到训练后的文本分析模型。

可以对全局对比损失、局部对比损失以及文本分析损失进行线性或非线性计算，得到总损失。例如，可以对全局对比损失、局部对比损失以及文本分析损失进行加权求和得到总损失。

可选地，可以根据全局对比损失、局部对比损失以及文本分析损失的加和来确定总损失。例如，总损失Loss_nl2sql可以表示为：

其中，Loss_gen为文本分析损失，

为全局对比损失，

为局部对比损失。

在一些实施方式中，根据全局对比损失以及局部对比损失，训练预设的文本分析模型，得到训练后的文本分析模型之后，还可以包括：

获取待分析文本；

通过训练后的文本分析模型处理待分析文本，得到文本分析结果。

可选地，训练后的文本分析模型可以用于将自然语言转换为结构化查询语句，因此通过训练后的文本分析模型处理待分析文本，得到文本处理结果，可以包括：通过训练后的文本分析模型，将待分析文本转换为结构化查询语句。

例如，可以根据预设的结构化数据，对待分析文本进行特征提取，得到初始文本特征，初始文本特征包括预设的结构化数据与待分析文本的匹配关系，再基于匹配关系对待分析文本进行编码，得到文本编码向量，根据深度优先顺序，通过LSTM网络或注意力网络对文本编码向量进行解码，得到多个特征序列，可以理解的是该多个特征序列是解码得到的多个候选文本分析结果，可以对多个候选文本分析结果进行打分，将分值最高的候选文本分析结果确定为文本分析结果。

确定分值最高的候选文本分析结果的过程可以为：例如，通过前馈神经网络对多个特征序列进行分类处理，经Softmax函数归一化处理后，输出每个特征序列对应的分值，最后将最高分值的特征序列以结构化查询语句形式输出；再如，也可以通过Beam Search(集束搜索)算法，在解码的每一步，保存预测概率最大的k个可能结果(特征序列)，最后从多个可能结果中取预测得分最高的结果(特征序列)返回。

例如，BeamSearch算法可以使用广度优先策略建立搜索树在树的每一层，按照启发代价对节点进行排序，然后仅留下预先确定的m个数(BeamWidth-集束宽度)的节点，进入下一循环。如第一个循环输出的概率分布为[0.1，0.1，0.3，0.4，0.1][0.1，0.1，0.3，0.4，0.1]，可以选择概率最大的前两个0.3和0.4。然后将这两个分别进行解码，得到两个概率分布，然后再选择概率和最大的前两个序列，0.3+0.8和0.4+0.6。以此类推，最终可以得到两个序列，选择概率和最大的序列作为最终结果。

可选地，训练后的文本分析模型还可以应用在知识问答场景，在得到文本处理结果之后，可以根据文本分析结果查询对应的答案，并返回答案给用户。例如，可以将得分最高的特征序列转换为结构化查询语句的形式，并根据转化得到的结构化查询语句，从预设的结构化数据如数据库中查询答案并返回。

本申请实施例提供的文本分析模型训练方案可以应用在各种语义分析场景中。比如，以知识问答场景为例，可以获取预设的文本分析模型以及样本；通过预设的文本分析模型，根据样本的语义表示，确定全局对比损失；通过预设的文本分析模型，根据样本在预设的特征范围内的语义表示，确定局部对比损失，预设的特征范围包括任一样本的特征范围；根据全局对比损失以及局部对比损失，训练预设的文本分析模型，得到训练后的文本分析模型，以便将训练后的文本分析模型用于文本分析。

采用本申请实施例提供的方案能够根据样本的语义表示与训练样本的一致性，基于样本全部特征与训练样本之间的对比差异，来确定全局对比损失，以及根据样本在预设的特征范围内的语义表示与训练样本的一致性，基于样本局部特征与训练样本之间的对比差异，来确定局部对比损失。以此能够结合样本的全部特征以及在预设的特征范围内局部特征，从全局语义以及局部语义的角度关注预设的文本分析模型的对比损失表示，提供全面、准确的损失表示。结合全局对比损失和局部对比损失训练预设的文本分析模型，能够从全局语义以及局部语义的角度，拉近样本在全局维度以及局部维度的距离，还能从全局逻辑以及局部逻辑尽可能地区分正确和错误的样本，增强文本分析模型生成语义表示的逻辑一致性和鲁棒性，提升文本分析的准确性，以提升训练后的文本分析模型的文本分析能力。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监测等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监测模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监测网络情况、监测节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

在一种实施例中，本申请提供的服务器作为可以作为区块链系统中的一个节点，在得到训练后的文本分析模型之后，将待分析文本输入文本分析模型中，得到文本分析结果后，对文本分析结果进行验证，在验证通过后，作为一个新的区块，存储到区块链中，以保证这些提取结果不会被篡改。也可以在将训练后的文本分析模型应用于知识问答场景时，将答案文本进行验证，在验证通过后，作为一个新的区块，存储到区块链中，以保证这些提取结果不会被篡改。

根据上述实施例所描述的方法，以下将作进一步详细说明。

在本实施例中，将以预设的文本分类模型包括编码器以及解码器为例，对本申请实施例的方法进行详细说明。

如图2a所示，文本分类模型可以包括编码器以及解码器，其中编码器可以包括特征提取网络以及注意力网络，解码器可以包括注意力网络或LSTM网络。

如图2b所示，一种文本分析模型训练方法具体流程如下：

210、获取预设的文本分类模型、任一训练文本、对应任一训练文本的正样本和负样本。

训练文本可以为自然语言文本，正负样本可以为SQL语句。例如，对于任一训练文本，可以通过替换正样本中数据得到负样本、根据样本数据集中特征的出现的概率采集符合语法规则的数据构造负样本以及预训练的文本分析模型生成负样本这三种方式构造负样本。如，针对每个自然语言问题，由这三种方式可以构造3n条SQL负样本

其中，n表示每种构造方式得到的负样本的个数。

例如，预设的文本分类模型可以为NL2SQL模型。NL2SQL是语义解析任务的一种类型，旨在将用户输入的自然语言问题转成可与数据库操作的SQL查询语句，其实现了通过自然语言完成与数据库的交互、及获得数据库中的信息。但由于实际中的数据库结构复杂(多表，主键、外键连接等)，SQL语句中往往包含多数据表JOIN的逻辑，以及嵌套SQL的逻辑(如：SELECT song_name FROM singers WHERE age＞(SELECT avg(age)FROM singers))，这大大增加了NL2SQL任务的难度。因此现有的NL2SQL方法普遍存在正确SQL出现在预测候选集里，但预测得分不是最高，从而导致返回的SQL语句错误的情况。这是由于模型对SQL和自然语言问题的逻辑一致性不够导致的。

220、根据预设的结构化数据，对训练文本进行编码，得到编码向量。

例如，如图2a所示，给定自然语言问题q和数据库K，可以将他们拼接之后输入编码器E，编码器E中的特征提取网络可以为BERT-large模型，注意力网络可以为关系注意力网络。因此，可以通过BERT-large模型进行特征提取，并通过关系注意力网络对提取的特征进行编码得到自然语言问题的编码表示Q，Q＝E(q，K)。BERT模型是基于注意力网络的模型，能够联系句子中的每个词与其他所有词来理解每个词的语境(即上下文)，输出每个词的嵌入向量。BERT-large模型包含24个编码器层，所有编码器层使用16个注意头，编码器中的全连接网络包括1024个隐藏层，因此该模型得到的向量大小为1024。

230、根据编码向量，对样本进行解码，得到第一特征序列。

例如，如图2a所示，可以将自然语言问题的编码表示Q以及SQL样本联合输入解码器D，得到SQL样本的全局序列预测表示(第一特征序列)D(Q，SQL)。具体地，若样本为正样本，则全局序列预测表示为D(Q，SQL⁺)，若样本为负样本，则全局序列预测表示表示为

240、根据对应正样本的第一特征序列，确定样本的文本分析损失。

例如，可以根据交叉熵(Cross-Entropy)损失函数Loss_gen：Loss_gen＝CrossEntropy(D(Q，SQL)，SQL⁺)计算得到文本分析损失。

250、根据分别对应正样本以及负样本的第一特征序列，确定样本的全局对比损失。

例如，如图2a所示，可以通过对同一样本的第一特征序列表示进行平均，以平均后的特征序列表示该样本的语义。例如负样本的语义可以表示为S_i ^-：

正样本的语义可以表示为S⁺：S⁺＝AveragePooling(D(Q，SQL⁺))。

例如，如图2a所示，可以通过对SQL表示S和自然语言问题表示Q计算向量内积(dot得到不同SQL语句和自然语言问题q之间的逻辑相似一致性：Score(S，Q)＝dot(S，Q)。本申请实施例中得到的SQL正样本一致性通常得分要高于SQL负样本的一致性得分。全局对比损失函数可以以hinge损失函数表示为

260、确定第一特征序列在预设的特征范围内的第二特征序列。

例如，给定差异区间

和

表示第i个负样本

和正样本SQL⁺不同的第j个区间。可以得到

和

270、根据第二特征序列，确定样本的局部对比损失。

例如，如图2a所示，可以将正样本SQL和负样本SQL的全局序列预测表示D(Q，SQL⁺)和

分别在差异区间

和

上进行序列维度平均，即可得到SQL子树的表示：

例如，通过对SQL子树表示Sub和自然语言问题表示Q计算向量内积(dot)便可得到不同SQL子树和自然语言问题q之间的逻辑相似一致性：Score(Sub，Q)＝dot(Sub，Q)。本申请实施例中得到的SQL正样本一致性通常得分要高于SQL负样本的一致性得分。局部对比损失函数可以以hinge损失函数表示为

280、结合全局对比损失、局部对比损失以及文本分析损失，得到总损失。

例如，总损失函数Loss_nl2sql可以表示为：

290、根据总损失，训练预设的文本分析模型，得到训练后的文本分析模型。

例如，可以通过该总损失函数训练预设的文本分析模型，直至损失函数收敛，得到训练后的文本分析模型。

由上可知，本申请实施例提供的方法可以用于训练将自然语言转换为结构查询语句(SQL语句)形式表示语义的文本分析模型，通过对比学习方法，结合全局对比损失以及局部对比损失，从SQL语法树的全局逻辑和局部逻辑角度尽可能地区分生成正确SQL正样本和构造的包含逻辑错误、数据结构错误、混淆信息的SQL负样本，从而增强模型生成SQL的逻辑一致性和鲁棒性。使得训练后的模型在应用中，可以将提到的候选集中正确的SQL语句的都集中在最高的得分，进而提升文本分析模型的文本分析的准确性。

根据上述实施例所描述的方法，以下将作进一步详细说明。

在本实施例中，将以训练后的文本分析模型应用于知识问答场景为例，对本申请实施例的方法进行详细说明。

如图3a所示，一种文本分析模型训练方法还包括如下流程：

310、获取待分析文本，并将待分析文本输入训练后的文本分析模型。

例如，待分析文本可以为查询问题，如，在获得用户许可或同意时，可以获取用户从客户端输入的查询问题“2020年学校1有多少教师”。

320、根据预设的结构化数据，对待分析文本进行特征提取，得到初始文本特征。

其中，初始文本特征包括预设的结构化数据与待分析文本的匹配关系。

例如，预设的结构化数据可以为数据库，数据库可以表示为如图3b所示的数据表，图3b展示了数据表中的部分数据，在获得用户许可或同意时，可以获取数据表所需的数据，以生成数据表。并在获得用户许可或同意时，可以将查询问题以及数据表拼接后输入特征提取网络，通过特征提取网络提取查询问题中的结构化数据要素如列名、表名、词等，得到查询问题中的列名、表名、词的初始表示，并以向量形式表示，并可以提取查询问题中匹配关系，如词组与预设的结构化数据的列名、表名匹配的匹配关系以及查询问题中的词与预设的结构化数据中数据的匹配关系，并以向量形式表示。

330、基于匹配关系对待分析文本进行编码，得到文本编码向量。

例如，可以通过注意力网络中的Q、K以及V对提取到的结构化数据要素进行权重计算，并将匹配关系作为权重计算中的偏置项，以得到文本编码向量。

340、根据深度优先顺序，对文本编码向量进行解码，得到多个候选文本处理结果。

例如，可以基于APPLYRULE(应用规则)或SELECTTABLE(表格选择)或者SELECTCOLUMN(列选择)，将文本编码向量转化为SQL语法树，可以根据深度优先遍历顺序遍历该SQL语法树，使用LSTM网络对语法树上节点进行解码，得到多个候选SQL语句。

350、根据多个候选文本处理结果的分值，将分值最高的候选文本处理结果确定为文本处理结果。

例如，可以通过前馈神经网络对多个候选SQL语句进行分类或通过Beam Search(集束搜索)算法对多个候选SQL语句进行打分，并返回得分最高的候选SQL语句作为文本处理结果。例如，可以返回SQL语句：select count(jsid)from teacher_table where xn＝2020 and xxmc＝学校1，该语句可以表征查询问题“2020年学校1有多少教师”的语义。

350、根据文本处理结果，从预设的结构化数据查询对应的答案文本。

例如，可以根据返回的得分最高的候选SQL语句，通过数据库管理系统从数据表中查询对应的问题答案，并将查询到的问题答案返回至客户端。如图3c所示，可以输出答案624。

如图3c所示，也可以在获得用户许可或同意时，获取用户从客户端输入的查询问题“查询各区的教师分布”，并返回查询到的A区～E区的教师分布至客户端。

由上可知，本申请实施例可以根据训练后的文本分析模型，从数据表中抽取有效信息，并基于该信息建立知识问答系统，以此可以实现自动化的问答场景。

为了更好地实施以上方法，本申请实施例还提供一种文本分析模型训练装置，该文本分析模型训练装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以文本分析模型训练装置具体集成在服务器为例，对本申请实施例的方法进行详细说明。

例如，如图4所示，该文本分析模型训练装置可以包括获取单元410、确定单元420以及训练单元430，如下：

(一)获取单元410

可以用于获取预设的文本分析模型、训练文本以及由训练文本编码得到的样本。

在一些实施方式中，获取单元410还可以用于：

对任一训练文本，根据预设的构造方法，构造多种子负样本，预设的构造方法包括噪声扰动、概率上下文无关文法采样、生成器采样中的至少两种；

组合多种子负样本，得到对应任一训练文本的负样本。

(二)确定单元420

可以用于通过预设的文本分析模型，根据样本的语义表示与训练样本的一致性，确定全局对比损失。

确定单元420，还可以用于通过预设的文本分析模型，根据样本在预设的特征范围内的语义表示与训练样本的一致性，确定局部对比损失，预设的特征范围包括任一样本的特征范围。

在一些实施方式中，确定单元420还可以用于：

根据编码向量，对样本进行解码，得到第一特征序列；

根据第一特征序列，确定样本的语义表示。

在一些实施方式中，样本以结构化查询语句形式存储，通过预设的文本分析模型，对进行编码，得到编码向量，可以包括：

通过预设的文本分析模型，获取预设的结构化数据；

在一些实施方式中，样本以结构化查询语句形式存储，根据编码向量，对样本进行解码，得到第一特征序列，可以包括：

组合编码向量和样本，得到组合特征；

在一些实施方式中，确定单元420还可以用于：

根据第二特征序列，确定样本在预设的特征范围内的语义表示。

(三)训练单元430

可以用于根据全局对比损失以及局部对比损失，训练预设的文本分析模型，得到训练后的文本分析模型，以便将训练后的文本分析模型用于文本分析。

在一些实施方式中，训练单元430还可以用于通过预设的文本分析模型，根据样本的语义表示，确定文本分析损失；

根据全局对比损失以及局部对比损失，训练预设的文本分析模型，得到训练后的文本分析模型，包括：

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本申请实施例可以结合全局对比损失和局部对比损失训练预设的文本分析模型，能够从全局语义以及局部语义的角度，拉近样本在全局维度以及局部维度的距离，增强模型的鲁棒性，提升文本分析的准确性，以提升训练后的文本分析模型的文本分析能力。

本申请实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在一些实施例中，该文本分析模型训练方法装置还可以集成在多个电子设备中，比如，文本分析模型训练方法装置可以集成在多个服务器中，由多个服务器来实现本申请的文本分析模型训练方法。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图5所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器510、一个或一个以上计算机可读存储介质的存储器520、电源530、输入模块540以及通信模块550等部件。本领域技术人员可以理解，图5中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器510是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行服务器的各种功能和处理数据。在一些实施例中，处理器510可包括一个或多个处理核心；在一些实施例中，处理器510可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器510中。

存储器520可用于存储软件程序以及模块，处理器510通过运行存储在存储器520的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器520还可以包括存储器控制器，以提供处理器510对存储器520的访问。

服务器还包括给各个部件供电的电源530，在一些实施例中，电源530可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源530还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块540，该输入模块540可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块550，在一些实施例中通信模块550可以包括无线模块，服务器可以通过该通信模块550的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块550可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器510会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器520中，并由处理器510来运行存储在存储器520中的应用程序，从而实现各种功能，如下：

获取预设的文本分析模型、训练文本以及由训练文本编码得到的样本；通过预设的文本分析模型，根据样本的语义表示与训练样本的一致性，确定全局对比损失；通过预设的文本分析模型，根据样本在预设的特征范围内的语义表示与训练样本的一致性，确定局部对比损失，预设的特征范围包括任一样本的特征范围；根据全局对比损失以及局部对比损失，训练预设的文本分析模型，得到训练后的文本分析模型，以便将训练后的文本分析模型用于文本分析。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种文本分析模型训练方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序/指令，该计算机程序/指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序/指令，处理器执行该计算机程序/指令，使得该计算机设备执行上述实施例中提供的各种可选实现方式中提供的方法。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种文本分析模型训练方法中的步骤，因此，可以实现本申请实施例所提供的任一种文本分析模型训练方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种文本分析模型训练方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本分析模型训练方法，其特征在于，包括：

获取预设的文本分析模型、训练文本以及由所述训练文本编码得到的样本；

通过所述预设的文本分析模型，根据所述样本的语义表示与所述训练样本的一致性，确定全局对比损失；

通过所述预设的文本分析模型，根据所述样本在预设的特征范围内的语义表示与所述训练样本的一致性，确定局部对比损失，所述预设的特征范围包括任一所述样本的特征范围；

根据所述全局对比损失以及所述局部对比损失，训练所述预设的文本分析模型，得到训练后的文本分析模型，以便将所述训练后的文本分析模型用于文本分析。

2.如权利要求1所述的文本分析模型训练方法，其特征在于，所述方法，还包括：

通过所述预设的文本分析模型，对所述训练文本进行编码，得到编码向量；

根据所述编码向量，对所述样本进行解码，得到第一特征序列；

根据所述第一特征序列，确定所述样本的语义表示。

3.如权利要求2所述的文本分析模型训练方法，其特征在于，所述样本以结构化查询语句形式存储，所述通过所述预设的文本分析模型，对所述训练文本进行编码，得到编码向量，包括：

通过所述预设的文本分析模型，获取预设的结构化数据；

根据所述预设的结构化数据，对所述训练文本进行特征提取，得到初始特征，所述初始特征包括所述预设的结构化数据与所述训练文本的匹配关系；

基于所述匹配关系，对所述初始特征进行注意力处理，得到编码向量。

4.如权利要求2所述的文本分析模型训练方法，其特征在于，所述样本以结构化查询语句形式存储，所述根据所述编码向量，对所述样本进行解码，得到第一特征序列，包括：

组合编码向量和样本，得到组合特征；

将所述组合特征转换为树形结构化数据，所述树形结构化数据包括至少一个节点；

根据预设的解码顺序，对所述树形结构化数据的所述节点进行解码，得到第一特征序列。

5.如权利要求2所述的文本分析模型训练方法，其特征在于，所述通过所述预设的文本分析模型，根据所述样本在预设的特征范围内的语义表示，确定局部对比损失之前，还包括：

通过所述预设的文本分析模型，确定所述第一特征序列在所述预设的特征范围内的第二特征序列；

根据所述第二特征序列，确定所述样本在预设的特征范围内的语义表示。

6.如权利要求1所述的文本分析模型训练方法，其特征在于，所述根据所述全局对比损失以及所述局部对比损失，训练所述预设的文本分析模型之前，还包括：

通过所述预设的文本分析模型，根据所述样本的语义表示，确定文本分析损失；

所述根据所述全局对比损失以及所述局部对比损失，训练所述预设的文本分析模型，得到训练后的文本分析模型，包括：

结合所述全局对比损失、所述局部对比损失以及所述文本分析损失，得到总损失；

根据所述总损失，训练所述预设的文本分析模型，得到训练后的文本分析模型。

7.如权利要求1～6任一项所述的文本分析模型训练方法，其特征在于，所述样本包括正样本和负样本，所述获取预设的文本分析模型以及样本之前，还包括：

对任一训练文本，根据预设的构造方法，构造多种子负样本，所述预设的构造方法包括噪声扰动、概率上下文无关文法采样、生成器采样中的至少两种；

组合所述多种子负样本，得到对应所述任一训练文本的负样本。

8.一种文本分析模型训练装置，其特征在于，包括：

获取单元，用于获取预设的文本分析模型、训练文本以及由所述训练文本编码得到的样本；

确定单元，用于通过所述预设的文本分析模型，根据所述样本的语义表示与所述训练样本的一致性，确定全局对比损失；

确定单元，还用于通过所述预设的文本分析模型，根据所述样本在预设的特征范围内的语义表示与所述训练样本的一致性，确定局部对比损失，所述预设的特征范围包括任一所述样本的特征范围；

训练单元，用于根据所述全局对比损失以及所述局部对比损失，训练所述预设的文本分析模型，得到训练后的文本分析模型，以便将所述训练后的文本分析模型用于文本分析。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～7任一项所述的文本分析模型训练方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1～7任一项所述的文本分析模型训练方法中的步骤。