CN115221315A

CN115221315A - 文本处理方法以及装置、句向量模型训练方法以及装置

Info

Publication number: CN115221315A
Application number: CN202210629237.0A
Authority: CN
Inventors: 刘澈; 李永彬
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-10-21

Abstract

本说明书实施例提供文本处理方法以及装置、句向量模型训练方法以及装置，其中所述文本处理方法包括：获取初始文本，其中，所述初始文本包括至少一条语句；将各语句分别输入至句向量模型，得到所述各语句的目标句向量，其中，所述句向量模型基于样本语句对中各样本语句之间的交互语义特征训练得到，所述交互语义特征表征各样本语句的语义之间的交互关系；根据各目标句向量，确定目标文本。本方法可以有效地提高文本处理效率和准确率。

Description

文本处理方法以及装置、句向量模型训练方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种文本处理方法。

背景技术

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。句向量(Sentence Embedding)作为自然语言处理近年来的热门研究领域之一，在学术界和工业界受到广泛关注。

句向量研究分为多个分支，包括基于自监督的学习任务和基于有监督的学习任务，其中自监督的学习任务包括仅基于句子本身的学习方法和基于句子与上下文信息的学习方法，基于有监督的学习任务包括基于语义相似数据集的学习方法和基于翻译平行语料的学习方法。然而上述方法得到的句向量精准性较差，因此亟需一种有效的方法以解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了一种文本处理方法。本说明书一个或者多个实施例同时涉及一种句向量模型训练方法，一种文本处理装置，一种句向量模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种文本处理方法，包括：

获取初始文本，其中，所述初始文本包括至少一条语句；

将各语句分别输入至句向量模型，得到所述各语句的目标句向量，其中，所述句向量模型基于样本语句对中各样本语句之间的交互语义特征训练得到，所述交互语义特征表征各样本语句的语义之间的交互关系；

根据各目标句向量，确定目标文本。

根据本说明书实施例的第二方面，提供了一种句向量模型训练方法，包括：

获取样本集和预训练的语言表征模型，其中，所述语言表征模型包括编码层和池化层；

从所述样本集中提取任一样本语句对，将所述样本语句对中的第一样本语句和第二样本语句分别输入至所述编码层进行编码处理，得到第一初始编码特征和第二初始编码特征；

根据所述第一初始编码特征和所述第二初始编码特征，确定交互语义特征；

根据所述交互语义特征对所述第一初始编码特征进行转换，得到第一目标编码特征，并根据所述交互语义特征对所述第二初始编码特征进行转换，得到第二目标编码特征；

将所述第一目标编码特征和所述第二目标编码特征分别输入至所述池化层，得到第一句向量和第二句向量；

计算所述第一句向量和所述第二句向量的相似度；

根据所述相似度调整所述编码层和所述池化层的模型参数，返回执行所述从所述样本集中提取任一样本语句对的步骤，在达到预设训练停止条件的情况下，确定训练后的所述语言表征模型为句向量模型

根据本说明书实施例的第三方面，提供了一种文本处理装置，包括：

第一获取模块，被配置为获取初始文本，其中，所述初始文本包括至少一条语句；

输入模块，被配置为将各语句分别输入至句向量模型，得到所述各语句的目标句向量，其中，所述句向量模型基于样本语句对中各样本语句之间的交互语义特征训练得到，所述交互语义特征表征各样本语句的语义之间的交互关系；

第一确定模块，被配置为根据各目标句向量，确定目标文本。

根据本说明书实施例的第四方面，提供了一种句向量模型训练装置，包括：

第二获取模块，被配置为获取样本集和预训练的语言表征模型，其中，所述语言表征模型包括编码层和池化层；

编码模块，被配置为从所述样本集中提取任一样本语句对，将所述样本语句对中的第一样本语句和第二样本语句分别输入至所述编码层进行编码处理，得到第一初始编码特征和第二初始编码特征；

第二确定模块，被配置为根据所述第一初始编码特征和所述第二初始编码特征，确定交互语义特征；

转换模块，被配置为根据所述交互语义特征对所述第一初始编码特征进行转换处理，得到第一目标编码特征，并根据所述交互语义特征对所述第二初始编码特征进行转换处理，得到第二目标编码特征；

池化模块，被配置为将所述第一目标编码特征和所述第二目标编码特征分别输入至所述池化层进行池化处理，得到第一句向量和第二句向量；

计算模块，被配置为计算所述第一句向量和所述第二句向量的相似度；

调整模块，被配置为根据所述相似度调整所述编码层和所述池化层的模型参数，返回执行所述从所述样本集中提取任一样本语句对的步骤，在达到预设训练停止条件的情况下，确定训练后的所述语言表征模型为句向量模型。

根据本说明书实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本处理方法或句向量模型训练方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述文本处理方法或句向量模型训练方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本处理方法或句向量模型训练方法的步骤。

本说明书提供的一种句向量模型训练方法，获取样本集和预训练的语言表征模型，其中，所述语言表征模型包括编码层和池化层；从所述样本集中提取任一样本语句对，将所述样本语句对中的第一样本语句和第二样本语句分别输入至所述编码层进行编码处理，得到第一初始编码特征和第二初始编码特征；根据所述第一初始编码特征和所述第二初始编码特征，确定交互语义特征；根据所述交互语义特征对所述第一初始编码特征进行转换，得到第一目标编码特征，并根据所述交互语义特征对所述第二初始编码特征进行转换，得到第二目标编码特征；将所述第一目标编码特征和所述第二目标编码特征分别输入至所述池化层，得到第一句向量和第二句向量；计算所述第一句向量和所述第二句向量的相似度；根据所述相似度调整所述编码层和所述池化层的模型参数，返回执行所述从所述样本集中提取任一样本语句对的步骤，在达到预设训练停止条件的情况下，确定训练后的所述语言表征模型为句向量模型。通过多个样本语句对对语言表征模型进行训练，能够提高句向量模型提取句向量的准确性和速率，提高句向量模型的鲁棒性。此外，通过根据第一初始编码特征和第二初始编码特征，确定了第一样本语句与第二样本语句的“互表示”，也即交互语义特征，可以聚合多种自监督、无监督的句向量表示学习，通过将多种形式的句向量表示学习的任务纳入统一形式，充分利用各种任务所积累的数据资源，进而取得效果较好的句向量表示学习效果，也即提高句向量模型提取句向量的准确性和效率。

附图说明

图1是本说明书一个实施例提供的一种文本处理方法的流程图；

图2是本说明书一个实施例提供的一种文本处理方法中，句向量模型的结构示意图；

图3是本说明书一个实施例提供的一种文本处理方法的处理过程流程图；

图4是本说明书一个实施例提供的一种句向量模型训练方法的流程图；

图5是本说明书一个实施例提供的一种文本处理装置的结构示意图；

图6是本说明书一个实施例提供的一种句向量模型训练装置的结构示意图；

图7是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

训练集、验证集、测试集：从同一份数据中随机划分的三个具有相同形式的数据集，分别用来训练模型、在训练过程中验证模型效果并挑选最优模型、以及测试最终模型效果。

监督学习：又称有教师学习，是利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程。例如，样本是双人对话，样本的标签是双人对话的类别，模型学习任务是根据一个给定的对话预测对应的标签。

自监督学习：属于无监督学习的范畴。自监督学习是在样本不包含对应标签时，根据样本自身的某些固有属性来训练和优化的学习方式。自监督学习可以被认为是通过对话文本本身固有属性来进行训练和优化的学习方式，例如，预测某个给定对话片段的下一个近邻的文本等。

自然语言推理(NLI，Natural Language Inference)：是一种基础的自然语言任务，分析两个句子的蕴含、中立或相反逻辑关系。也用于自然语言任务的NLI数据集。

释义识别(PI，Paraphrase Indentify)：是一种基础的自然语言任务，分析两个句子的相似与否的关系。

句向量表示学习：一种基础的自然语言任务，学习一个文本句子对应的高维向量表示，通常借助NLI或PI任务完成。

预训练语言模型：指在大规模文本上训练的深度Transformer语言模型，如基于变换器的双向编码器表示技术(BERT，Bidirectional Encoder Representation fromTransformers)等。

然后对本说明书提供的一种句向量模型训练方法进行简要说明。

句向量研究分为多个分支，包括基于自监督的学习任务和基于有监督的学习任务，其中自监督的学习任务包括仅基于句子本身的学习方法和基于句子与上下文信息的学习方法，基于有监督的学习任务包括基于语义相似数据集的学习方法和基于翻译平行语料的学习方法。也即已有的句向量表示学习方法往往基于某种形式的数据完成学习，如在监督学习场景下基于NLI任务、PI任务完成学习，或在无监督学习场景下借助预训练语言模型两次dropout(随机失活)得到的输出、或借助对话上下文编码结果来完成学习。

尽管有如此多的学习方法，但目标都是相同的，即学习一个能够代表句子语义表示的高维向量，从而使其能够应用在各下游应用中，如对话、翻译场景，这些方法均是为某个特定任务进行设计，无法跨任务进行建模，进而无法综合利用各种形式的数据来学习更好的句向量。且上述方法得到的句向量精准性较差。

因此，本说明书提供的一种句向量模型训练方法，获取样本集和预训练的语言表征模型，其中，所述语言表征模型包括编码层和池化层；从所述样本集中提取任一样本语句对，将所述样本语句对中的第一样本语句和第二样本语句分别输入至所述编码层进行编码处理，得到第一初始编码特征和第二初始编码特征；根据所述第一初始编码特征和所述第二初始编码特征，确定交互语义特征；根据所述交互语义特征对所述第一初始编码特征进行转换，得到第一目标编码特征，并根据所述交互语义特征对所述第二初始编码特征进行转换，得到第二目标编码特征；将所述第一目标编码特征和所述第二目标编码特征分别输入至所述池化层，得到第一句向量和第二句向量；计算所述第一句向量和所述第二句向量的相似度；根据所述相似度调整所述编码层和所述池化层的模型参数，返回执行所述从所述样本集中提取任一样本语句对的步骤，在达到预设训练停止条件的情况下，确定训练后的所述语言表征模型为句向量模型。通过多个样本语句对对语言表征模型进行训练，能够提高句向量模型提取句向量的准确性和速率，提高句向量模型的鲁棒性。此外，通过根据第一初始编码特征和第二初始编码特征，确定了第一样本语句与第二样本语句的“互表示”，也即交互语义特征，可以聚合多种自监督、无监督的句向量表示学习，通过将多种形式的句向量表示学习的任务纳入统一形式，充分利用各种任务所积累的数据资源，进而取得效果较好的句向量表示学习效果，也即提高句向量模型提取句向量的准确性和效率。

此外，本说明书提供的一种文本处理方法，获取初始文本，其中，所述初始文本包括至少一条语句；将各语句分别输入至句向量模型，得到所述各语句的目标句向量，其中，所述句向量模型基于样本语句对中各样本语句之间的交互语义特征训练得到，所述交互语义特征表征各样本语句的语义之间的交互关系；根据各目标句向量，确定目标文本。通过样本语句对中各样本语句之间的交互语义特征训练得到句向量模型提取，可以适用于多种场景，基于“互表示”也即交互语义特征训练句向量模型，可以提高获取目标句向量的准确性和效率，进而提高文本处理效率和准确率。

在本说明书中，提供了一种文本处理方法，本说明书同时涉及一种句向量模型训练方法，一种文本处理装置，一种句向量模型训练装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了本说明书一个实施例提供的一种文本处理方法的流程图，具体包括以下步骤。

步骤102：获取初始文本，其中，所述初始文本包括至少一条语句。

实现文本处理方法的执行主体可以是具有文本处理功能的计算设备，例如具有文本处理功能的服务器、终端等。

具体的，文本是指书面语言的表现形式，通常是具有完整、系统含义的一个句子或多个句子的组合，一个文本可以是一个句子、一个段落或者一个篇章，都属于文本；初始文本，也即待处理的文本，可以是任意一种形式的文本，如论文、聊天对话内容、题目、搜索语句等；语句是一个语法上自成体系的单位，它由一个词或句法上有关连的一组词构成，表达一种主张、疑问、命令、愿望或感叹，例如“你好嘛？”、“今天是星期一”等。

实际应用中，获取初始文本的方式有多种，例如，可以是运营人员向执行主体发送文本处理的指令，或者发送获取初始文本的指令，相应地，执行主体在接收到该指令后，开始对初始文本进行获取；也可以是服务器每隔预设时长，自动获取初始文本，例如，经过预设时长后，具有文本处理功能的服务器自动获取初始文本；或者经过预设时长后，具有文本处理功能的终端自动获取初始文本。本说明书对获取初始文本的方式不做任何限定。

此外，初始文本可以搭载在任意一种格式的文档上，也即初始文本对应的文档可以是任意一种格式，可以为DOC(Document)格式的文档，可以为txt格式的文档，可以为图像格式的文档，还可以为PDF(Portable Document Format)格式的文档，本说明书对此不做限定。

获取初始文本时，可以先获取携带有初始文本的文档，然后再对文档进行处理，提取出文档中的初始文本：根据文档的格式选择对应的文本框提取工具，然后通过文本框提取工具从文档中提取文本框，文本框中包含有组成初始文本的文字内容，将各文本框中的文字内容进行组合，得到初始文本。如此，选择与文档的格式对应的文本框提取工具，提取文本框，可以提高提取初始文本的准确性和速度。

例如，获取到的文档为PDF格式，则选择PDF格式对应的pdfominer工具，对文档中进行提取操作，从而提取出目标文档中的至少一个包含有文字内容的文本框，然后将文字内容进行组合得到初始文本。又如，获取到的文档为图像格式，则选择图像格式对应的运用光学字符识别工具(OCR，Optical Character Recognition)，对文档进行提取操作，从而提取出文档中的至少一个包含有文字内容的文本框，将文字内容进行组合后得到初始文本。

步骤104：将各语句分别输入至句向量模型，得到所述各语句的目标句向量，其中，所述句向量模型基于样本语句对中各样本语句之间的交互语义特征训练得到，所述交互语义特征表征各样本语句的语义之间的交互关系。

在获取到至少一条语句的初始文本的基础上，进一步地，将各语句分别输入至句向量模型，确定各语句的目标句向量。

具体的，句向量是指语句或句子对应的高维向量表示；句向量模型是指可以提取语句的句向量的语言处理模型；目标句向量是指句向量模型对语句进行处理后输出的句向量，也即初始文本中的语句的句向量；样本语句对是指训练句向量模型的样本，样本语句是指样本语句对中的语句；交互语义特征是指样本语句之间的语义的交互对应的特征。

实际应用中，可以将初始文本中的各语句逐一输入至同一句向量模型，也可以将初始文本中的各语句分别输入至多个句向量模型，例如语句与句向量模型一一对应，还可以以将初始文本中的各语句一起输入至同一句向量模型。然后由句向量模型对语句进行句向量提取处理，输出语句的目标句向量，也即得到各语句的目标句向量。

在本说明书一个或多个可选的实施例中，句向量模型可以包括输入层和提取层，由输入层接收输入的语句，然后将接收的语句传输到提取层，提取层对语句进行向量化处理，也即句向量提取，得到语句的目标句向量并输出。如此，通过输入层和提取层的协同工作，可以提高句向量模型的处理效率，也即使用包括输入层和提取层的句向量模型确定语句的目标句向量，可以提高确定目标句向量的效率。

在本说明书一个或多个可选的实施例中，句向量模型还可以包括编码层和池化层，由编码层接收输入的语句并进行编码处理，得到编码特征，然后将编码特征传输到池化层，池化层对编码特征进行池化处理，得到语句的目标句向量并输出。也即在句向量模型包括编码层和池化层的情况下，所述将各语句分别输入至所述句向量模型，得到所述各语句的目标句向量，具体实现过程可以如下：

将第一语句输入至所述编码层进行编码处理，得到所述第一语句的编码特征，其中，所述第一语句为各语句中的任一语句；

将所述编码特征输入至所述池化层进行池化处理，得到所述第一语句的目标句向量。

具体的，编码层可以神经网络模型，可以是预训练语言模型，如BERT(BidirectionalEncoder Representations from Transformer)模型；池化层也称下采样层，也即Pooling层，其可以将输入的编码特征进行压缩，一方面减少了特征和参数，另一方面保持了编码特征的某种不变性；编码特征是指将语句输入至编程层处理后得到的隐层表示，隐层表示就是把输入的语句的特征，抽象到另一个维度空间，来展现语句更抽象化的特征，此外隐层表示能更好的进行线性划分；池化处理就是去除杂余信息、保留关键信息的处理，可以是平均池化处理，还可以是最大池化处理。

实际应用中，参见图2，图2示出了本申请一实施例提供的一种文本处理方法中，句向量模型的结构示意图，句向量模型包括编码层和池化层。在获取到初始文本的基础上，针对初始文本中的任意一条语句，也即第一语句，可以将第一语句输入至编码层中，编码层对第一语句进行编码处理之后，输出第一语句的编码特征。然后为了降低数据处理量，将第一语句的编码特征输入至池化层中进行池化处理，在池化完成后，池化层输出句向量，也即第一语句的目标句向量。然后，按照上述方法遍历初始文本中的各语言，进而得到各语句的目标句向量。如此，通过编码层和池化层的协同工作，可以提高句向量模型的处理效率和可靠性，也即使用包括编码层和池化层的句向量模型确定语句的目标句向量，可以提高确定目标句向量的效率和准确率。

示例性地，第一语句为“哈喽”。将第一语句“哈喽”输入至编码层进行编码处理，得到第一语句“哈喽”的编码特征

然后将“哈喽”的编码特征

输入至池化层，假设池化层进行平均池化处理，则得到第一语句“哈喽”的目标句向量为[4,3,5]。

在本说明书一个或多个可选的实施例中，编码层可以包括多个串联的编码子层，由第一个编码子层接收输入的语句并进行编码处理，得到第一编码特征，然后将第一编码特征传输到第二个编码子层进行编码处理，得到第二编码特征，以此类推，直至最后一个编码子层输出最终的编码特征，也即语句的编码特征。如此，通过多个串联的编码子层对语句进行多次编码处理，可以提高编码特征的精确度和准确率。

在本说明书一个或多个可选的实施例中，编码层还可以包括多个并联的编码子层和加权层，将语句同时输入至并联的多个编码子层中进行编码处理，得到多个初始编码特征，初始编码特征与编码子层一一对应。然后将各编码子层输出的初始编码特征输入至加权层进行加权求和处理，如求多个初始编码特征的平均值，得到目标编码特征，也即语句的编码特征。如此，通过多个并联的编码子层对语句编码处理，由于各编码子层的参数和侧重点可能不同，输出的初始编码特征也不同，将得到多个初始编码特征进行加权求和，可以提高编码特征的精确度和准确率。

在本说明书一个或多个可选的实施例中，编码层也可以编码子层和叠加子层，由编码子层对语句中的字单元进行编码处理，得到字单元的编码特征，再将所有字单元的编码特征进行叠加，得到语句的编码特征。也即在编码层包括编码子层和叠加子层的情况下，所述将第一语句输入至所述编码层进行编码处理，得到所述第一语句的编码特征，具体实现过程可以如下：

将所述第一语句输入至所述编码子层进行编码处理，得到所述第一语句中各字单元的子编码特征；

将所述各字单元的子编码特征输入至所述叠加子层进行叠加处理，得到所述第一语句的编码特征。

具体的，字单元是指组成语句的单元，可以是词，也可以是字；编码子层是指编码层中进行编码处理的单元；子编码特征是指编码子层的输出，也即字单元的子编码特征；叠加子层是指编码层中对子编码特征进行叠加的单元。

实际应用中，第一语句中包括至少一个字单元。针对第一语句的任意一个字单元，也即第一字单元，可以将第一字单元输入至编码子层中，编码子层对第一字单元进行编码处理之后，输出第一字单元的子编码特征。然后，按照上述方法遍历第一语句中的各字单元，进而得到各字单元的子编码特征。或者，将第一语句输入至编码子层中，编码子层对第一语句中的各字单元分别进行编码处理，得到各字单元的子编码特征。接着，将各子编码特征输入至叠加子层，由叠加层将各子编码特征进行叠加处理，得到第一语句的编码特征。如此，通过对字单元进行编码处理，并将子单元的子编码特征进行叠加，得到第一语句的编码特征，可以提高确定编码的效率和准确率。

示例性地，字单元为字，第一语句为“你好吗”，则第一语句包含三个字单元：“你”、“好”和“吗”，将“你好吗”输入至编码子层，也即将三个字单元输入至编码子层，编码子层对字单元“你”进行编码处理，得到子编码特征[A1，A2，A3，A4]，对字单元“好”进行编码处理，得到子编码特征[B1，B2，B3，B4],对字单元“吗”进行编码处理，得到子编码特征[C1，C2，C3，C4]，然后将子编码特征[A1，A2，A3，A4]、[B1，B2，B3，B4]和[C1，C2，C3，C4]输入至叠加子层进行叠加处理，得到第一语句“你好吗”的编码特征：

在本说明书一个或多个可选的实施例中，执行主体可以获取其他设备训练好的句向量模型，直接使用，也即执行主体无需训练得到句向量模型，只需获取训练好的句向量模型，将各语句分别输入至句向量模型进行处理即可；执行主体还可以获取预训练的语言表征模型，然后对语言表征模型进行训练得到句向量模型，在使用句向量模型，也即执行主体需要训练得到句向量模型，再将各语句分别输入至句向量模型进行处理即可，此时将各语句分别输入至句向量模型之前，还包括：

根据所述交互语义特征对所述第一初始编码特征进行转换处理，得到第一目标编码特征，并根据所述交互语义特征对所述第二初始编码特征进行转换处理，得到第二目标编码特征；

将所述第一目标编码特征和所述第二目标编码特征分别输入至所述池化层进行池化处理，得到第一句向量和第二句向量；

计算所述第一句向量和所述第二句向量的相似度；

根据所述相似度调整所述编码层和所述池化层的模型参数，返回执行所述从所述样本集中提取任一样本语句对的步骤，在达到预设训练停止条件的情况下，确定训练后的所述语言表征模型为句向量模型。

具体的，编码层可以神经网络模型，可以是预训练语言模型，如BERT(BidirectionalEncoder Representations from Transformer)模型、XLNet(一种通用的自回归预训练模型)、UniLM(统一预训练语言模型)、GPT(Generative Pre-Training，生成式预训练模型)、T5(Text-to-Text Transfer Transformer)模型等；池化层也称下采样层，也即Pooling层。语言表征模型是指预先训练的、包含有编码层和池化层的语言模型；样本集是指样本语句对的集合；第一样本语句和第二样本语句为样本语句对包含的两个样本语句；初始编码特征为语言表征模型中编码层的输出；第一初始编码特征为编码层输出的第一样本语句的初始编码特征，第二初始编码特征为编码层输出的第二样本语句的初始编码特征；第一目标编码特征是指对第一初始编码特征进行转换后的编码特征；第二目标编码特征是指对第人初始编码特征进行转换后的编码特征；第一句向量是指池化层或者语言表征模型输出的第一样本语句的句向量；第二句向量是指池化层或者语言表征模型输出的第二样本语句的句向量；相似度是指第一样本语句与第二样本语句或者第一句向量和第二句向量的相似程度，可以是欧几里得距离(Eucledian Distance)，即采用欧几里得距离算法计算得到的相似度，可以是曼哈顿距离(Manhattan Distance)，即采用曼哈顿距离算法计算得到的相似度，还可以是明可夫斯基距离(Minkowski distance)，即采用明可夫斯基距离算法计算得到的相似度，也可以是余弦相似度，即采用余弦相似度算法计算得到的相似度；训练停止条件可以是损失值小于或等于预设阈值，还可以是迭代训练次数达到预设迭代值，也可以是损失值收敛，即损失值随着继续训练不再减小。

实际应用中，先获取预训练的语言表征模型和样本集，例如在接收语言表征模型和样本集的获取指令后，获取语言表征模型和样本集，又如每隔预设时长，自动获取语言表征模型和样本集，本说明书对获取语言表征模型和样本集的方式不做任何限定。

进一步地，从训练集中提取一个语句对，然后将该样本语句对包含的第一样本语句和第二样本语句分别输入至编码层，由编码层对第一样本语句和第二样本语句进行编码处理，得到第一样本语句的第一初始编码特征和第二样本语句的第二初始编码特征。然后将第一初始编码特征和第二初始编码特征进行交互处理，得到交互语义特征。接着利用交互语义特征分别对第一初始编码特征和第二初始编码特征进行转换处理，得到第一目标编码特征和第二目标编码特征，如将第一初始编码特征与交互语义特征相乘得到第一目标编码特征、将第二初始编码特征与交互语义特征相乘得到第二目标编码特征。之后，将第一目标编码特征和第二目标编码特征输入至池化层，池化层按照预设的池化策略，得到第一目标编码特征对应的第一句向量和第二目标编码特征对应的第二句向量。按照预设的相似度算法，计算第一句向量和第二句向量的相似度。在未达到预设训练停止条件的情况下，根据相似度调整神经网络模型的模型参数，然后再次从样本集中提取任一样本语句对，进行下一轮训练；在达到预设训练停止条件的情况下，将训练好的语言表征模型确定为句向量模型。

通过多个样本语句对对语言表征模型进行训练，能够提高句向量模型提取句向量的准确性和速率，提高句向量模型的鲁棒性。此外，通过根据第一初始编码特征和第二初始编码特征，确定了第一样本语句与第二样本语句的“互表示”，也即交互语义特征，可以聚合多种自监督、无监督的句向量表示学习，通过将多种形式的句向量表示学习的任务纳入统一形式，充分利用各种任务所积累的数据资源，进而取得效果较好的句向量表示学习效果，也即提高句向量模型提取句向量的准确性和效率。

需要说明的是，编码层可以包括多个串联的编码子层，由第一个编码子层接收输入的第一样本语句或第二样本语句并进行编码处理，得到第一编码特征，然后将第一编码特征传输到第二个编码子层进行编码处理，得到第二编码特征，以此类推，直至最后一个编码子层输出最终的编码特征，也即第一初始编码特征或第二初始编码特征；如此，通过多个串联的编码子层对样本语句进行多次编码处理，可以提高编码特征的精确度和准确率。编码层还可以包括多个并联的编码子层和加权层，将第一样本语句或第二样本语句同时输入至并联的多个编码子层中进行编码处理，得到多个子初始编码特征，子初始编码特征与编码子层一一对应，然后将各编码子层输出的子初始编码特征输入至加权层进行加权求和处理，如求多个初始编码特征的平均值，得到第一初始编码特征或第二初始编码特征；如此，通过多个并联的编码子层对语句编码处理，由于各编码子层的参数和侧重点可能不同，输出的初始编码特征也不同，将得到多个初始编码特征进行加权求和，可以提高编码特征的精确度和准确率。编码层也可以编码子层和叠加子层，由编码子层对第一样本语句或第二样本语句中的字单元进行编码处理，得到字单元的编码特征，再将所有字单元的编码特征进行叠加，得到第一初始编码特征或第二初始编码特征；如此，通过对字单元进行编码处理，并将子单元的子编码特征进行叠加，得到第一语句的编码特征，可以提高确定编码的效率和准确率。

在本说明书一个或多个可选的实施例中，可以将第一初始编码特征和第二初始编码特征输入至预训练的特征处理模型中进行交互处理，得到交互语义特征。还可以将第一初始编码特征和第二初始编码特征进行融合处理，得到交互语义特征，也即所述根据所述第一初始编码特征和所述第二初始编码特征，确定交互语义特征，具体实现过程可以如下：

将所述第一初始编码特征和所述第二初始编码特征进行融合，得到所述交互语义特征。

具体的，融合是指将多个初始编码特征合成一个特征，也即交互语义特征的过程。

实际应用中，可以将第一初始编码特征和第二初始编码特征进行加权求和，得到交互语义特征；还可以将第一初始编码特征进行转置处理，得到转置后的第一初始编码特征，再将转置后的第一初始编码特征与第二初始编码特征相乘，得到交互语义特征，或者将第二初始编码特征进行转置处理，得到转置后的第二初始编码特征，再将第一初始编码特征与转置后的第二初始编码特征相乘，得到交互语义特征。如此，通过将第一初始编码特征和第二初始编码特征进行融合，可以使交互语义特征能够更精准地表征各样本语句的语义之间的交互关系，也即提高交互语义特征的可靠性，进而提高句向量模型提取句向量的准确性和效率。

示例性地，第一初始编码特征为矩阵M，第二初始编码特征为矩阵N，将矩阵N进行转置，得到矩阵N’；然后将矩阵M和矩阵N’计算矩阵乘法，得到一个方阵Q，也即交互语义特征。此外，方阵Q的行数和列数是编码层或者句向量模型能够接受的最长文本序列长度，且方阵Q中的每个元素代表两个特征矩阵M和N对应位置的特征向量的点积相似度。

在本说明书一个或多个可选的实施例中，所述根据所述相似度调整所述编码层和所述池化层的模型参数，具体实现过程可以如下：

识别该样本语句对的样本类型；

确定所述样本类型对应的调整策略；

根据所述相似度，按照所述调整策略调整所述编码层和所述池化层的模型参数。

具体的，样本类型是指样本语句对的类别，可以从样本语句对处理的难以程度进行划分，例如困难样本类型、中等样本类型和简单样本类型，还可以从样本语句对中两个样本语句的相对关系进行划分，例如正样本类型和负样本类型，也可以从样本语句对的内容进行划分，例如对话样本类型、作文样本类型、题目样本类型等；调整策略是指预先设置的调整模型参数的方法、方式等。

实际应用中，可以按照预设的识别方法，直接识别样本语句对的样本类型；也可以根据样本语句对携带的类型标识，确定样本语句对的样本类型。进一步地，从预设的调整策略库中，匹配该样本类型对应的调整策略，然后再根据相似度、并按照调整策略调整语言表征模型，也即编码层和池化层的模型参数。如此，使用不同样本类型的样本语句对对语言表征模型进行训练，充分利用各种数据资源，可以提高句向量模型提取句向量的准确性，进而取得效果较好的句向量表示学习效果，而根据对于不同的样本类型的样本语句对，采用不同的调整策略进行模型参数的调整，可以使语言表征模型快速收敛，提高模型训练效率。

在本说明书一个或多个可选的实施例中，所述样本类型为正样本类型或负样本类型；则所述确定所述样本类型对应的调整策略，具体实现过程可以如下：

在该样本语句对的样本类型为正样本类型的情况下，确定所述样本类型对应的调整策略为正调整策略，其中，所述正调整策略为调整模型参数以增大所述正样本类型对应的相似度；

在该样本语句对的样本类型为负样本类型的情况下，确定所述样本类型对应的调整策略为负调整策略，其中，所述负调整策略为调整模型参数以减小所述负样本类型对应的相似度。

具体的，正样本类型可以是第一样本语句与第二样本语句的语义相似度大于预设相似度阈值的样本语句对的样本类型，还可以是第一样本语句与第二样本语句来源相同的样本语句对的样本类型，例如第一样本语句与第二样本语句来自于同一个对话会话时，第一样本语句与第二样本语句组成的样本语句对的样本类型为正样本类型，第一样本语句与第二样本语句来自于不同的对话会话时，第一样本语句与第二样本语句组成的样本语句对的样本类型为负样本类型；正调整策略是指使正样本类型对应的相似度增大或者距离减小的调整策略；负调整策略是指使负样本类型对应的相似度减小或者距离增大的调整策略。

实际应用中，当样本语句对的样本类型为正样本类型时，此时的调整策略为正调整策略，也即调整模型参数时，对该样本语句对对应的相似度进行增大化处理，也即该样本语句对对应的距离进行减小化处理；当样本语句对的样本类型为负样本类型时，此时的调整策略为负调整策略，也即调整模型参数时，对该样本语句对对应的相似度进行减小化处理，也即该样本语句对对应的距离进行增大化处理。如此，可以使语言表征模型快速收敛，提高模型训练效率。

在本说明书一个或多个可选的实施例中，执行主体可以获取其他设备构建好的样本集，直接使用样本集训练得到句向量模型，也即执行主体无需构建样本集；执行主体还可以获取语句集，然后对语句集处理，构建样本集，也即获取样本集，具体实现过程可以如下：

获取语句集，其中，所述语句集中包含多个携带有语义标签的样本语句；

针对所述语句集中的任意两条样本语句，在所述两条样本语句的语义标签相同的情况下，根据所述两条样本语句构建正样本类型的样本语句对；在所述两条样本语句的语义标签不同的情况下，根据所述两条样本语句构建负样本类型的样本语句对；

根据多个样本语句对，生成样本集。

具体的，语句集是指语句集合，可以是对话场景下语句的集合，还可以是NLI、PI和机器翻译场景下语句的集合，也可以是单句场景语句的集合；语义标签可以是表征语句含义的标签，可以是表征语句来源的标签。

实际应用中，可以获取大量的样本语句，也即语句集，然后针对语句集中的任意两条样本语句，比较这两条样本语句的语义标签是否相同，如果相同，则这两条样本语句可以组合成正样本类型的样本语句对，如果不同，则这两条样本语句可以组合成负样本类型的样本语句对。遍历语句集中的所有不同组合的两条样本语句，或者在构建得到预设数量个样本语句对之后，将得到的多个样本语句对组成样本集。如此，基于语义标签构建不同样本类型的样本语句对，可以使样本语句对更加丰富，从而提高句向量模型的鲁棒性。

示例性地，在对话场景下，可以获取对话数据集，然后对对话数据集进行必要的预处理，完成名称、地址和实体等数据归一化，以及去停用词和连续发言合并等标准数据处理流程，得到语句集，用于构建训练用的样本集。其中，归一化是指通过抽象的方式将名称、地址和实体等数据变成固定字符，例如将号码“123456789”映射为<PHONE_NUM>。由于语言表征模型需要得知多轮对话信息，一个人多次发言只能算一个意图的连续表达，不算多个轮次，所以需要对连续发言合并，即将对话数据集进行预处理。在得到语句集之后，从语句集中随机选取一个对话语句集j1和该对话语句集中的某一轮次，也即该对话语句集中的某一对话语句A，该对话语句集中的其他对话语句为对话语句B，其中对话语句B包含对话语句b1-bn，即对话语句A和对话语句B携带有语义标签均为j1，将对话语句A和对话语句B组成正样本类型的样本语句对；若从其他对话语句集j2选择出对话语句C，即对话语句C携带有语义标签为j2，则对话语句C与对话语句B,组成负样本类型的样本语句对。之后，可以将样本语句对中的两个样本语句，如对话语句A和对话语句b1至对话语句A和对话语句bn，分别输入编码层提取对应的句子表示，并将对话语句A和对话语句b1至对话语句A和对话语句bn中，所有对话语句A对应的句子表示加和后得到第一初始编码向量，将对话语句b1-bn对应的句子表示加和后得到第二初始编码向量。然后基于第一初始编码向量和第一初始编码向量进行“互表示”，确定交互语义特征，并基于交互语义特征确定第一目标编码向量和第一目标编码向量，根据第一目标编码向量和第一目标编码向量确定第一句向量和第二句向量，并基于第一句向量和所述第二句向量的相似度优化模型参数。如调整参数模型使对话语句A和对话语句B的余弦距离减小或相似度增大，调整参数模型使对话语句C和对话语句B的余弦距离增大或相似度减小。

示例性地，在NLI、PI和机器翻译场景下，获取该场景下的语句集，由于语句集中的平行语料对往往来自于人工标注，也即样本语句携带有表征语句含义的语义标签，其中同一个的平行语料中的语句携带的语义标签相同，因此无需进行特殊的预处理。将平行语料L1中的语句分为语句D和语句E，即语句D和语句E携带有语义标签相同，将语句D和语句E组成正样本类型的样本语句对；若从平行语料L2中选择出语句F，即语句F和语句E携带有语义标签不同，则语句F与语句E组成负样本类型的样本语句对。之后，可以将样本语句对中的两个样本语句，如语句D和语句E，又如语句F和语句E，分别输入两个独立的编码层或者分别输入同一个编码层提取对应的句子表示，也即第一初始编码向量和第一初始编码向量，然后基于第一初始编码向量和第一初始编码向量进行“互表示”，确定交互语义特征，并基于交互语义特征确定第一目标编码向量和第一目标编码向量，根据第一目标编码向量和第一目标编码向量确定第一句向量和第二句向量，并基于第一句向量和所述第二句向量的相似度优化模型参数。如调整参数模型使语句D和语句E的余弦距离减小或相似度增大，调整参数模型使语句F和语句E的余弦距离增大或相似度减小。

需要说明的是，对于仅有一个语句的单句场景，使用dropout(随机失活)率为预设值(如0.1)编码层，对该语句进行两次编码，并视两次编码结果为第一样本语句的第一初始编码特征和第二样本语句的第二初始编码特征，进行“互表示”计算，确定交互语义特征，并基于交互语义特征确定第一目标编码向量和第一目标编码向量，根据第一目标编码向量和第一目标编码向量确定第一句向量和第二句向量，并基于第一句向量和所述第二句向量的相似度优化模型参数。如编码层两次编码的是相同句子，则调整参数模型余弦距离减小或相似度增大，反之调整参数模型余弦距离增大或相似度减小。

步骤106：根据各目标句向量，确定目标文本。

在将各语句分别输入至句向量模型，得到各语句的目标句向量之后，进一步地，根据各目标句向量，确定目标文本。

实际应用中，在确定了各目标句向量之后，可以根据各目标句向量确定初始文本的文本向量、文本含义等，然后基于文本向量，查找与初始文本相似的目标文本。

例如，在文本召回的场景下，初始文本为搜索文本，根据各目标句向量可以确定搜索文本的文本向量，然后将搜索文本的文本向量与各候选文本的文本向量进行比较，将相似度高于预设相似度的候选文本确定为目标文本。

又如，在翻译场景下，初始文本为待翻译文本，根据各目标句向量可以确定待翻译文本的文本向量，然后根据文本向量确定待翻译文本的文本含义，根据文本含义撰写译文文本，也即目标文本。

本说明书提供的一种文本处理方法，获取初始文本，其中，所述初始文本包括至少一条语句；将各语句分别输入至句向量模型，得到所述各语句的目标句向量，其中，所述句向量模型基于样本语句对中各样本语句之间的交互语义特征训练得到，所述交互语义特征表征各样本语句的语义之间的交互关系；根据各目标句向量，确定目标文本。通过样本语句对中各样本语句之间的交互语义特征训练得到句向量模型提取，可以适用于多种场景，基于“互表示”也即交互语义特征训练句向量模型，可以提高获取目标句向量的准确性和效率，进而提高文本处理效率和准确率。

下述结合附图3，以本说明书提供的文本处理方法在实际场景中的应用为例，对所述文本处理方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种文本处理方法的处理过程流程图，具体包括以下步骤。

S1，构建样本集：获取语句集，其中，语句集中包含多个携带有语义标签的样本语句；针对语句集中的任意两条样本语句，在两条样本语句的语义标签相同的情况下，根据两条样本语句构建正样本类型的样本语句对；在两条样本语句的语义标签不同的情况下，根据两条样本语句构建负样本类型的样本语句对；根据多个样本语句对，生成样本集。

S2，训练模型：

S2-1，获取预训练的语言表征模型，其中，语言表征模型包括编码层和池化层；

S2-2，从样本集中提取任一样本语句对，将样本语句对中的第一样本语句和第二样本语句分别输入至编码层进行编码处理，得到第一初始编码特征和第二初始编码特征；

S2-3，根据第一初始编码特征和第二初始编码特征，确定交互语义特征；

S2-4，根据交互语义特征对第一初始编码特征进行转换处理，得到第一目标编码特征，并根据交互语义特征对第二初始编码特征进行转换处理，得到第二目标编码特征；

S2-5，将第一目标编码特征和第二目标编码特征分别输入至池化层进行池化处理，得到第一句向量和第二句向量；计算第一句向量和第二句向量的相似度；

S2-6，根据相似度调整编码层和池化层的模型参数，返回执行从样本集中提取任一样本语句对的步骤，在达到预设训练停止条件的情况下，确定训练后的语言表征模型为句向量模型。

可选地，根据第一初始编码特征和第二初始编码特征，确定交互语义特征，可以为：将第一初始编码特征和第二初始编码特征进行融合，得到交互语义特征。

可选地，根据相似度调整编码层和池化层的模型参数，包括：

识别该样本语句对的样本类型；

确定样本类型对应的调整策略；

根据相似度，按照调整策略调整编码层和池化层的模型参数。

可选地，样本类型为正样本类型或负样本类型；

确定样本类型对应的调整策略，包括：

在该样本语句对的样本类型为正样本类型的情况下，确定样本类型对应的调整策略为正调整策略，其中，正调整策略为调整模型参数以增大正样本类型对应的相似度；

在该样本语句对的样本类型为负样本类型的情况下，确定样本类型对应的调整策略为负调整策略，其中，负调整策略为调整模型参数以减小负样本类型对应的相似度。

S3，模型应用：获取初始文本，其中，初始文本包括至少一条语句；将各语句分别输入至句向量模型，得到各语句的目标句向量。

可选地，句向量模型包括编码层和池化层；

将各语句分别输入至句向量模型，得到各语句的目标句向量，包括：

将第一语句输入至编码层进行编码处理，得到第一语句的编码特征，其中，第一语句为各语句中的任一语句；

将编码特征输入至池化层进行池化处理，得到第一语句的目标句向量。

可选地，编码层包括编码子层和叠加子层；

将第一语句输入至编码层进行编码处理，得到第一语句的编码特征，包括：

将第一语句输入至编码子层进行编码处理，得到第一语句中各字单元的子编码特征；

将各字单元的子编码特征输入至叠加子层进行叠加处理，得到第一语句的编码特征。

S4，根据各目标句向量，确定目标文本。

参见图4，图4示出了本说明书一个实施例提供的一种句向量模型训练方法的流程图，具体包括以下步骤。

步骤402：获取样本集和预训练的语言表征模型，其中，所述语言表征模型包括编码层和池化层。

具体的，编码层可以神经网络模型，可以是预训练语言模型，如BERT(Bidirectional Encoder Representations from Transformer)模型；池化层也称下采样层，也即Pooling层；语言表征模型是指预先训练的、包含有编码层和池化层的语言模型；样本集是指样本语句对的集合。

步骤404：从所述样本集中提取任一样本语句对，将所述样本语句对中的第一样本语句和第二样本语句分别输入至所述编码层进行编码处理，得到第一初始编码特征和第二初始编码特征。

具体的，第一样本语句和第二样本语句为样本语句对包含的两个样本语句；初始编码特征为语言表征模型中编码层的输出；第一初始编码特征为编码层输出的第一样本语句的初始编码特征，第二初始编码特征为编码层输出的第二样本语句的初始编码特征。

实际应用中，从训练集中提取一个语句对，然后将该样本语句对包含的第一样本语句和第二样本语句分别输入至编码层，由编码层对第一样本语句和第二样本语句进行编码处理，得到第一样本语句的第一初始编码特征和第二样本语句的第二初始编码特征。

步骤406：根据所述第一初始编码特征和所述第二初始编码特征，确定交互语义特征。

具体的，交互语义特征表征各样本语句的语义之间的交互关系，也即交互语义特征是指样本语句之间的语义的交互对应的特征。

实际应用中，将第一初始编码特征和第二初始编码特征进行交互处理，得到交互语义特征：可以将第一初始编码特征和第二初始编码特征输入至预训练的特征处理模型中进行交互处理，得到交互语义特征；还可以将第一初始编码特征和第二初始编码特征进行融合处理，得到交互语义特征。

步骤408：根据所述交互语义特征对所述第一初始编码特征进行转换，得到第一目标编码特征，并根据所述交互语义特征对所述第二初始编码特征进行转换，得到第二目标编码特征。

具体的，第一目标编码特征是指对第一初始编码特征进行转换后的编码特征；第二目标编码特征是指对第人初始编码特征进行转换后的编码特征。

实际应用中，利用交互语义特征分别对第一初始编码特征和第二初始编码特征进行转换处理，得到第一目标编码特征和第二目标编码特征，如将第一初始编码特征与交互语义特征相乘得到第一目标编码特征、将第二初始编码特征与交互语义特征相乘得到第二目标编码特征。

步骤410：将所述第一目标编码特征和所述第二目标编码特征分别输入至所述池化层，得到第一句向量和第二句向量。

具体的，第一句向量是指池化层或者语言表征模型输出的第一样本语句的句向量；第二句向量是指池化层或者语言表征模型输出的第二样本语句的句向量。

实际应用中，在得到第一目标编码特征和第二目标编码特征后，将第一目标编码特征和第二目标编码特征输入至池化层，池化层按照预设的池化策略，如行平均池化策略、行最大化池化策略，得到第一目标编码特征对应的第一句向量和第二目标编码特征对应的第二句向量。

步骤412：计算所述第一句向量和所述第二句向量的相似度。

具体的，相似度是指第一样本语句与第二样本语句或者第一句向量和第二句向量的相似程度，可以是欧几里得距离(Eucledian Distance)，即采用欧几里得距离算法计算得到的相似度，可以是曼哈顿距离(Manhattan Distance)，即采用曼哈顿距离算法计算得到的相似度，还可以是明可夫斯基距离(Minkowski distance)，即采用明可夫斯基距离算法计算得到的相似度，也可以是余弦相似度，即采用余弦相似度算法计算得到的相似度。

实际应用中，可以按照预设的相似度算法，计算第一目标编码特征和第二目标编码特征的相似度，例如，按照余弦相似度算法，计算第一目标编码特征和第二目标编码特征的余弦相似度。

步骤414：根据所述相似度调整所述编码层和所述池化层的模型参数，返回执行所述从所述样本集中提取任一样本语句对的步骤，在达到预设训练停止条件的情况下，确定训练后的所述语言表征模型为句向量模型。

具体的，训练停止条件可以是损失值小于或等于预设阈值，还可以是迭代训练次数达到预设迭代值，也可以是损失值收敛，即损失值随着继续训练不再减小。

实际应用中，在未达到预设训练停止条件的情况下，根据相似度调整神经网络模型的模型参数，然后再次从样本集中提取任一样本语句对，进行下一轮训练；在达到预设训练停止条件的情况下，将训练好的语言表征模型确定为句向量模型。

本说明书一个或多个实施例提供的句向量模型训练方法，获取样本集和预训练的语言表征模型，其中，所述语言表征模型包括编码层和池化层；从所述样本集中提取任一样本语句对，将所述样本语句对中的第一样本语句和第二样本语句分别输入至所述编码层进行编码处理，得到第一初始编码特征和第二初始编码特征；根据所述第一初始编码特征和所述第二初始编码特征，确定交互语义特征；根据所述交互语义特征对所述第一初始编码特征进行转换，得到第一目标编码特征，并根据所述交互语义特征对所述第二初始编码特征进行转换，得到第二目标编码特征；将所述第一目标编码特征和所述第二目标编码特征分别输入至所述池化层，得到第一句向量和第二句向量；计算所述第一句向量和所述第二句向量的相似度；根据所述相似度调整所述编码层和所述池化层的模型参数，返回执行所述从所述样本集中提取任一样本语句对的步骤，在达到预设训练停止条件的情况下，确定训练后的所述语言表征模型为句向量模型。通过多个样本语句对对语言表征模型进行训练，能够提高句向量模型提取句向量的准确性和速率，提高句向量模型的鲁棒性。此外，通过根据第一初始编码特征和第二初始编码特征，确定了第一样本语句与第二样本语句的“互表示”，也即交互语义特征，可以聚合多种自监督、无监督的句向量表示学习，通过将多种形式的句向量表示学习的任务纳入统一形式，充分利用各种任务所积累的数据资源，进而取得效果较好的句向量表示学习效果，也即提高句向量模型提取句向量的准确性和效率。

上述为本实施例的一种句向量模型训练方法的示意性方案。需要说明的是，该句向量模型训练方法的技术方案与上述的文本处理方法中句向量模型训练方法的技术方案属于同一构思，句向量模型训练方法的技术方案未详细描述的细节内容，均可以参见上述文本处理方法中句向量模型训练方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了文本处理装置实施例，图5示出了本说明书一个实施例提供的一种文本处理装置的结构示意图。如图5所示，该装置包括：

第一获取模块502，被配置为获取初始文本，其中，所述初始文本包括至少一条语句；

输入模块504，被配置为将各语句分别输入至句向量模型，得到所述各语句的目标句向量，其中，所述句向量模型基于样本语句对中各样本语句之间的交互语义特征训练得到，所述交互语义特征表征各样本语句的语义之间的交互关系；

第一确定模块506，被配置为根据各目标句向量，确定目标文本。

可选地，所述装置还包括训练模块，被配置为：

计算所述第一句向量和所述第二句向量的相似度；

可选地，所述训练模块，还被配置为：

识别该样本语句对的样本类型；

确定所述样本类型对应的调整策略；

可选地，所述样本类型为正样本类型或负样本类型；

相应地，所述训练模块，还被配置为：

可选地，所述训练模块，还被配置为：

根据多个样本语句对，生成样本集。

可选地，所述句向量模型包括编码层和池化层；

相应地，所述输入模块504，还被配置为：

可选地，所述编码层包括编码子层和叠加子层；

相应地，所述输入模块504，还被配置为：

本说明书提供的一种文本处理装置，获取初始文本，其中，所述初始文本包括至少一条语句；将各语句分别输入至句向量模型，得到所述各语句的目标句向量，其中，所述句向量模型基于样本语句对中各样本语句之间的交互语义特征训练得到，所述交互语义特征表征各样本语句的语义之间的交互关系；根据各目标句向量，确定目标文本。通过样本语句对中各样本语句之间的交互语义特征训练得到句向量模型提取，可以适用于多种场景，基于“互表示”也即交互语义特征训练句向量模型，可以提高获取目标句向量的准确性和效率，进而提高文本处理效率和准确率。

上述为本实施例的一种文本处理装置的示意性方案。需要说明的是，该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思，文本处理装置的技术方案未详细描述的细节内容，均可以参见上述文本处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了句向量模型训练装置实施例，图6示出了本说明书一个实施例提供的一种句向量模型训练装置的结构示意图。如图6所示，该装置包括：

第二获取模块602，被配置为获取样本集和预训练的语言表征模型，其中，所述语言表征模型包括编码层和池化层；

编码模块604，被配置为从所述样本集中提取任一样本语句对，将所述样本语句对中的第一样本语句和第二样本语句分别输入至所述编码层进行编码处理，得到第一初始编码特征和第二初始编码特征；

第二确定模块606，被配置为根据所述第一初始编码特征和所述第二初始编码特征，确定交互语义特征；

转换模块608，被配置为根据所述交互语义特征对所述第一初始编码特征进行转换处理，得到第一目标编码特征，并根据所述交互语义特征对所述第二初始编码特征进行转换处理，得到第二目标编码特征；

池化模块610，被配置为将所述第一目标编码特征和所述第二目标编码特征分别输入至所述池化层进行池化处理，得到第一句向量和第二句向量；

计算模块612，被配置为计算所述第一句向量和所述第二句向量的相似度；

调整模块614，被配置为根据所述相似度调整所述编码层和所述池化层的模型参数，返回执行所述从所述样本集中提取任一样本语句对的步骤，在达到预设训练停止条件的情况下，确定训练后的所述语言表征模型为句向量模型。

本说明书一个或多个实施例提供的句向量模型训练装置，通过多个样本语句对对语言表征模型进行训练，能够提高句向量模型提取句向量的准确性和速率，提高句向量模型的鲁棒性。此外，通过根据第一初始编码特征和第二初始编码特征，确定了第一样本语句与第二样本语句的“互表示”，也即交互语义特征，可以聚合多种自监督、无监督的句向量表示学习，通过将多种形式的句向量表示学习的任务纳入统一形式，充分利用各种任务所积累的数据资源，进而取得效果较好的句向量表示学习效果，也即提高句向量模型提取句向量的准确性和效率。

上述为本实施例的一种句向量模型训练装置的示意性方案。需要说明的是，该句向量模型训练装置的技术方案与上述的句向量模型训练方法的技术方案属于同一构思，句向量模型训练装置的技术方案未详细描述的细节内容，均可以参见上述句向量模型训练方法的技术方案的描述。

图7示出了本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，NetworkInterface Controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)接口，等等。

在本说明书的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

其中，处理器720用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本处理方法或句向量模型训练方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本处理方法或句向量模型训练方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本处理方法或句向量模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本处理方法或句向量模型训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本处理方法或句向量模型训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本处理方法或句向量模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本处理方法或句向量模型训练方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的文本处理方法或句向量模型训练方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述文本处理方法或句向量模型训练方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本处理方法，包括：

获取初始文本，其中，所述初始文本包括至少一条语句；

根据各目标句向量，确定目标文本。

2.根据权利要求1所述的方法，所述将各语句分别输入至句向量模型之前，还包括：

计算所述第一句向量和所述第二句向量的相似度；

3.根据权利要求2所述的方法，所述根据所述第一初始编码特征和所述第二初始编码特征，确定交互语义特征，包括：

4.根据权利要求2或3所述的方法，所述根据所述相似度调整所述编码层和所述池化层的模型参数，包括：

识别该样本语句对的样本类型；

确定所述样本类型对应的调整策略；

5.根据权利要求4所述的方法，所述样本类型为正样本类型或负样本类型；

所述确定所述样本类型对应的调整策略，包括：

6.根据权利要求2-3或5任意一项所述的方法，所述获取样本集，包括：

根据多个样本语句对，生成样本集。

7.根据权利要求1所述的方法，所述句向量模型包括编码层和池化层；

所述将各语句分别输入至所述句向量模型，得到所述各语句的目标句向量，包括：

8.根据权利要求7所述的方法，所述编码层包括编码子层和叠加子层；

所述将第一语句输入至所述编码层进行编码处理，得到所述第一语句的编码特征，包括：

9.一种句向量模型训练方法，包括：

计算所述第一句向量和所述第二句向量的相似度；

10.一种文本处理装置，包括：

11.一种句向量模型训练装置，包括：

12.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至8或9任意一项所述方法的步骤。

13.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至8或9任意一项所述方法的步骤。