CN113435582B

CN113435582B - 基于句向量预训练模型的文本处理方法及相关设备

Info

Publication number: CN113435582B
Application number: CN202110737255.6A
Authority: CN
Inventors: 孙超; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-05-30
Anticipated expiration: 2041-06-30
Also published as: CN113435582A

Abstract

本发明涉及人工智能技术领域，提供一种基于句向量预训练模型的文本处理方法及相关设备，所述方法包括：获取目标语料文本和文本处理任务；对目标语料文本进行分词处理，得到多个分词；根据文本处理任务的任务类型构建包含有语法关系识别层和语法关系添加层的句向量预训练模型；根据训练集训练文本处理任务的任务类型对应的构建好的句向量预训练模型；将多个分词输入至训练好的句向量预训练模型中，得到文本处理任务的执行结果。本发明通过在句向量预训练模型增加了语法关系识别层和语法关系添加层，将语法关系融入至目标语料文本中，丰富了提取句向量时的输入信息，获得更好的句向量，进而提高了文本处理任务的执行效率和准确率。

Description

基于句向量预训练模型的文本处理方法及相关设备

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于句向量预训练模型的文本处理方法及相关设备。

背景技术

在文本处理领域，针对文本分类，语义匹配等，都需要获取句向量后进行分类、匹配等计算，现有技术通过RNN网络对句向量进行学习，或者BERT模型对整个句子进行计算得到句向量。

然而，现有技术在获取句向量阶段，针对模型进行了优化，未考虑文本中的语法关系，无法获取较好的句向量，进而导致文本处理的准确率低。

因此，有必要提供一种可以快速准确的文本处理方法。

发明内容

鉴于以上内容，有必要提出一种基于句向量预训练模型的文本处理方法及相关设备，通过在句向量预训练模型增加了语法关系识别层和语法关系添加层，将语法关系融入至目标语料文本中，丰富了提取句向量时的输入信息，获得更好的句向量，进而提高了文本处理任务的执行效率和准确率。

本发明的第一方面提供一种基于句向量预训练模型的文本处理方法，所述方法包括：

接收用户输入的文本处理请求，解析所述文本处理请求获取目标语料文本和文本处理任务；

对所述目标语料文本进行分词处理，得到多个分词；

根据所述文本处理任务的任务类型构建句向量预训练模型，其中，所述句向量预训练模型中包含有语法关系识别层和语法关系添加层；

根据训练集训练所述文本处理任务的任务类型对应的构建好的句向量预训练模型；

将所述多个分词输入至所述文本处理任务的任务类型对应的训练好的句向量预训练模型中，得到所述文本处理任务的执行结果。

可选地，所述根据所述文本处理任务的任务类型构建句向量预训练模型包括：

当所述文本处理任务的任务类型为命名实体识别时，句向量预训练模型包括：预训练的词向量提取模型、与所述预训练的词向量提取模型连接的双向LSTM模型以及与所述双向LSTM模型连接的第一输出层，其中，所述双向LSTM模型中包含有语法关系识别层和与所述语法关系识别层连接的语法关系添加层，所述第一输出层包含有CRF层。

当所述文本处理任务的任务类型为句子分类时，句向量预训练模型包括：预训练的词向量提取模型、与所述预训练的词向量提取模型连接的双向LSTM模型以及与所述双向LSTM模型连接的第二输出层，其中，所述双向LSTM模型中包含有语法关系识别层和与所述语法关系识别层连接的语法关系添加层，所述第二输出层包含有全连接层以及与所述全连接层连接的Softmax层。

可选地，所述将所述多个分词输入至所述文本处理任务的任务类型对应的训练好的句向量预训练模型中，得到所述文本处理任务的执行结果包括：

当所述文本处理任务的任务类型为命名实体识别，将所述多个分词输出至所述预训练的词向量提取模型，得到多个目标词向量，并将所述多个目标词向量进行归类，得到多个第一句向量；

将所述多个第一句向量输入至双向LSTM模型的语法关系识别层，通过所述语法关系识别层识别每个所述第一句向量中各个词之间的语法关系，并将每个所述第一句向量中各个词之间的语法关系通过所述语法关系添加层添加至对应第一句向量中，得到多个第二句向量；

按照预设的输入形式对每个所述第一句向量和每个所述第二句向量进行编码，得到多个目标句向量；

将所述多个目标句向量输入至CRF层，所述CRF层对所述多个目标句向量中的每个词进行实体标注，解码出实体标签，并将解码出实体标签确定为所述文本处理任务的执行结果。

当所述文本处理任务的任务类型为句子分类时，将所述多个分词输入至所述预训练的词向量提取模型中，得到多个目标词向量，并将所述多个目标词向量进行归类，得到多个第一句向量；

通过全连接层计算所述多个目标句向量中每个目标句向量的分数，将每个目标句向量的分数经过softmax层映射为概率，并将计算得到的概率确定为所述文本处理任务的执行结果。

可选地，所述通过所述语法关系识别层识别每个所述第一句向量中各个词之间的语法关系包括：

通过所述语法关系识别层对每个所述第一句向量进行语法关系分析，识别每个所述第一句向量中各个词之间的语法关系；

当每个所述第一句向量中的任意一个词未被指定语法关系时，将所述任意一个词对应的语法关系设定为ROOT。

可选地，所述预设的输入形式包括以下任意一种或者多种组合：

或者

其中，E_i表示每个所述第一句向量中的词向量，R_i为每个所述第一句向量中的各个词之间的语法关系，

为每个所述第二句向量中的词向量，/>

表示词向量拼接，/>

表示词向量乘积运算，σ表示sigmoid函数。

本发明的第二方面提供一种基于句向量预训练模型的文本处理装置，所述装置包括：

接收模块，用于接收用户输入的文本处理请求，解析所述文本处理请求获取目标语料文本和文本处理任务；

分词处理模块，用于对所述目标语料文本进行分词处理，得到多个分词；

构建模块，用于根据所述文本处理任务的任务类型构建句向量预训练模型，其中，所述句向量预训练模型中包含有语法关系识别层和语法关系添加层；

训练模块，用于根据训练集训练所述文本处理任务的任务类型对应的构建好的句向量预训练模型；

输入模块，用于将所述多个分词输入至所述文本处理任务的任务类型对应的训练好的句向量预训练模型中，得到所述文本处理任务的执行结果。

本发明的第三方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于句向量预训练模型的文本处理方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于句向量预训练模型的文本处理方法。

综上所述，本发明所述的基于句向量预训练模型的文本处理方法及相关设备，一方面，针对不同的任务类型，构建的句向量预训练模型的输出层不同，在提取到句向量之后，根据不同的输出层执行对应的文本处理任务，提高了文本处理任务的执行效率和准确率；另一方面，为了确保构建的句向量预训练模型提取到的句向量的准确率，在进行句向量预训练模型的构建过程中，在双向LSTM模型中增加了语法关系识别层和语法关系添加层，通过所述语法关系识别层和语法关系添加层，可以提取所述目标语料文本中的语法关系，并将所述目标语料文本中的语法关系融入至所述目标语料文本中，丰富了提取句向量时的输入信息，进而获得更好的句向量；最后，由于关系网络比较复杂，顺序有正有反，有相邻关系，也有间接联系，因此难以使用RNN网络有序地将他们编码，本实施例根据不同的任务类型，按照预设的输入形式对每个所述第一句向量和每个所述第二句向量进行编码，确保得到最优的目标句向量，并根据所述最优的目标句向量执行文本处理任务得到执行结果，提高了执行结果的准确率。

附图说明

图1是本发明实施例一提供的基于句向量预训练模型的文本处理方法的流程图。

图2是本发明实施例一提供的第一句向量的语法关系示意图。

图3是本发明实施例一提供的目标句向量示意图。

图4是本发明实施例二提供的基于句向量预训练模型的文本处理装置的结构图。

图5是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

在本实施例中，所述基于句向量预训练模型的文本处理方法可以应用于电子设备中，对于需要进行基于句向量预训练模型的文本处理的电子设备，可以直接在电子设备上集成本发明的方法所提供的基于句向量预训练模型的文本处理的功能，或者以软件开发工具包(Software Development Kit，SDK)的形式运行在电子设备中。

如图1所示，所述基于句向量预训练模型的文本处理方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，接收用户输入的文本处理请求，解析所述文本处理请求获取目标语料文本和文本处理任务。

实施例中，用户在进行文本处理时，通过客户端发起文本处理请求至服务端，具体地，所述客户端可以是智能手机、IPAD或者其他现有智能设备，所述服务端可以为文本处理子系统，在文本处理过程中，如所述客户端可以向文本处理子系统发送文本处理请求，所述文本处理子系统用于接收所述客户端发送的文本处理请求。

本实施例中，当文本子系统接收到文本处理请求时，解析所述文本处理请求获取目标预料文本和文本处理任务，具体地，所述目标语料文本用以后续进行文本处理所需的语料文本，所述文本处理任务是指文本处理子系统根据所述目标语料文本执行的具体任务。

S12，对所述目标语料文本进行分词处理，得到多个分词。

本实施例中，在获取目标语料文本之后，采用分词工具对所述目标语料文本进行分词处理，同时对每个分词进行词性标注。

在一个可选的实施例中，所述对所述目标语料文本进行分词处理，得到多个分词包括：

获取预设的分词配置参数；

根据所述分词配置参数配置分词工具；

调用配置后的分词工具对所述目标语料文本进行分词处理及词性标注，得到多个分词。

本实施例中，在分词过程中可以通过调用分词工具来实现，为了满足特定场景或者用户的使用需求，还可以选择支持自定义配置的分词工具，先获取预设的分词配置参数，其中，所述预设的分词配置参数包括需分词的字符串、分词模式参数以及HMM参数，所述分词模式包括精确模式、全模式以及搜索引擎模式，例如，以jieba分词工具为例，用户自定义输入三个参数至jieba分词工具中，所述三个参数包括需要分词的字符串；cut_all参数用来控制是否采用全模式；HMM参数用来控制是否使用HMM模型，对所述jieba分词工具进行配置，调用配置后的jieba分词工具对所述目标语料文本进行分词处理及词性标注，得到多个分词。

S13，根据所述文本处理任务的任务类型构建句向量预训练模型，其中，所述句向量预训练模型中包含有语法关系识别层和语法关系添加层。

本实施例中，文本处理任务的任务类型不同，构建的句向量预训练模型也不同，可以根据文本处理任务不同的任务类型构建对应的句向量预训练模型，并获取文本处理任务的任务类型对应的训练集训练构建的句向量预训练模型。

在一个可选的实施例中，所述根据所述文本处理任务的任务类型构建句向量预训练模型包括：

本实施例中，针对不同的任务类型，构建的句向量预训练模型的输出层不同，在提取到句向量之后，根据不同的输出层执行对应的文本处理任务，提高了文本处理任务的执行效率和准确率。同时，为了确保构建的句向量预训练模型提取到的句向量的准确率，在进行句向量预训练模型的构建过程中，在双向LSTM模型中增加了语法关系识别层和语法关系添加层，通过所述语法关系识别层和语法关系添加层，可以提取所述目标语料文本中的语法关系，并将所述目标语料文本中的语法关系融入至所述目标语料文本中，丰富了提取句向量时的输入信息，进而获得更好的句向量。

本实施例中，所述预训练的词向量提取模型可以为BERT模型，ELMo模型、GPT模型或者其他可以提取词向量的模型。

S14，根据训练集训练所述文本处理任务的任务类型对应的构建好的句向量预训练模型。

本实施例中，通过针对不同的任务类型构建对应的句向量预训练模型，并根据对应的训练集训练对应的句向量预训练模型，训练得到的句向量预训练模型更加具有针对性，提高了后续使用句向量预训练模型进行句向量提取的提取效率。

在一个可选的实施例中，所述根据训练集训练所述文本处理任务的任务类型对应的构建好的句向量预训练模型包括：

识别所述文本处理任务的任务类型的名称；

根据所述任务类型的名称确定所述任务类型的调用接口列表；

获取所述调用接口列表中每个调用接口分别对应的数据集，并将所述数据集进行合并，得到所述文本处理任务的任务类型对应的训练集；

根据所述训练集训练所述文本处理任务的任务类型对应的构建好的句向量预训练模型。

本实施例中，每个文本处理任务的任务类型对应至少一个调用接口，通过对应的调用接口获取所述文本处理任务的任务类型对应的多个数据集，并将所述多个数据集进行合并得到训练集，确保了训练集的数据的丰富性，进而提高了训练得到的句向量预训练模型的有效性。

S15，将所述多个分词输入至所述文本处理任务的任务类型对应的训练好的句向量预训练模型中，得到所述文本处理任务的执行结果。

本实施例中，在将构建的句向量预训练模型训练好之后，将所述多个分词输入至对应的训练好的句向量预训练模型中进行文本处理，进而得到所述文本处理任务的执行结果。

在一个可选的实施例中，所述将所述多个分词输入至所述文本处理任务的任务类型对应的训练好的句向量预训练模型中，得到所述文本处理任务的执行结果包括：

通过所述全连接层计算所述多个目标句向量中每个目标句向量的分数，将每个目标句向量的分数经过softmax层映射为概率，并将计算得到的概率确定为所述文本处理任务的执行结果。

进一步地，所述通过所述语法关系识别层识别每个所述第一句向量中各个词之间的语法关系包括：

示例性地，参阅图2所示，若第一句向量为：“The fish was eaten by the cat.”，通过所述语法关系识别层对“The fish was eaten by the cat.”进行语法关系分析，得到各个词之间的语法关系，其中，第一句向量中eaten未被指定语法关系，故将eaten对应的语法关系设定为ROOT，本实施例通过将未被指定语法关系的词的语法关系设定为ROOT，确保每个第一句向量中语法关系的完整性。

本实施例中，在确定了每个第一句向量的语法关系之后，将每个第一句向量的语法关系通过所述语法关系添加层添加至对应第一句向量中，得到多个第二句向量。

本实施例中，由于关系网络比较复杂，顺序有正有反，有相邻关系，也有间接联系，因此难以使用RNN网络有序地将他们编码，故本实施例根据不同的任务类型，按照预设的输入形式对每个所述第一句向量和每个所述第二句向量进行编码，得到多个目标句向量，具体地，参与图3所示，为所述第一句向量对应的目标句向量。

具体地，所述预设的输入形式包括以下任意一种或者多种组合：

或者

为每个所述第二句向量中的词向量。/>

表示词向量拼接，/>

表示词向量乘积运算，σ表示sigmoid函数。

本实施例中，通过将每个第一句向量的语法关系融入至对应第一句向量中，并采用双向LSTM进行编码，确保得到最优的目标句向量，并根据所述最优的目标句向量执行文本处理任务得到执行结果，提高了执行结果的准确率。

进一步地，所述将所述多个目标词向量进行归类，得到多个第一句向量包括：

对所述多个目标词向量进行识别，确定每个目标词向量的位置坐标；

根据每个词向量的位置坐标将所述多个目标词向量进行归类，得到多个第一句向量。

综上所述，本实施例所述的基于句向量预训练模型的文本处理方法，一方面，针对不同的任务类型，构建的句向量预训练模型的输出层不同，在提取到句向量之后，根据不同的输出层执行对应的文本处理任务，提高了文本处理任务的执行效率和准确率；另一方面，为了确保构建的句向量预训练模型提取到的句向量的准确率，在进行句向量预训练模型的构建过程中，在双向LSTM模型中增加了语法关系识别层和语法关系添加层，通过所述语法关系识别层和语法关系添加层，可以提取所述目标语料文本中的语法关系，并将所述目标语料文本中的语法关系融入至所述目标语料文本中，丰富了提取句向量时的输入信息，进而获得更好的句向量；最后，由于关系网络比较复杂，顺序有正有反，有相邻关系，也有间接联系，因此难以使用RNN网络有序地将他们编码，本实施例根据不同的任务类型，按照预设的输入形式对每个所述第一句向量和每个所述第二句向量进行编码，确保得到最优的目标句向量，并根据所述最优的目标句向量执行文本处理任务得到执行结果，提高了执行结果的准确率。

实施例二

在一些实施例中，所述基于句向量预训练模型的文本处理装置40可以包括多个由程序代码段所组成的功能模块。所述基于句向量预训练模型的文本处理装置40中的各个程序段的程序代码可以存储于电子设备的存储器中，并由所述至少一个处理器所执行，以执行(详见图1至图3描述)基于句向量预训练模型的文本处理的功能。

本实施例中，所述基于句向量预训练模型的文本处理装置40根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：接收模块401、分词处理模块402、构建模块403、训练模块404及输入模块405。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

接收模块401，用于接收用户输入的文本处理请求，解析所述文本处理请求获取目标语料文本和文本处理任务。

分词处理模块402，用于对所述目标语料文本进行分词处理，得到多个分词。

在一个可选的实施例中，所述分词处理模块402对所述目标语料文本进行分词处理，得到多个分词包括：

获取预设的分词配置参数；

根据所述分词配置参数配置分词工具；

构建模块403，用于根据所述文本处理任务的任务类型构建句向量预训练模型，其中，所述句向量预训练模型中包含有语法关系识别层和语法关系添加层。

在一个可选的实施例中，所述构建模块403根据所述文本处理任务的任务类型构建句向量预训练模型包括：

训练模块404，用于根据训练集训练所述文本处理任务的任务类型对应的构建好的句向量预训练模型。

在一个可选的实施例中，所述训练模块404根据训练集训练所述文本处理任务的任务类型对应的构建好的句向量预训练模型包括：

识别所述文本处理任务的任务类型的名称；

输入模块405，用于将所述多个分词输入至所述文本处理任务的任务类型对应的训练好的句向量预训练模型中，得到所述文本处理任务的执行结果。

在一个可选的实施例中，所述输入模块405将所述多个分词输入至所述文本处理任务的任务类型对应的训练好的句向量预训练模型中，得到所述文本处理任务的执行结果包括：

或者

为每个所述第二句向量中的词向量。/>

表示词向量拼接，/>

表示词向量乘积运算，σ表示sigmoid函数。

综上所述，本实施例所述的基于句向量预训练模型的文本处理装置，一方面，针对不同的任务类型，构建的句向量预训练模型的输出层不同，在提取到句向量之后，根据不同的输出层执行对应的文本处理任务，提高了文本处理任务的执行效率和准确率；另一方面，为了确保构建的句向量预训练模型提取到的句向量的准确率，在进行句向量预训练模型的构建过程中，在双向LSTM模型中增加了语法关系识别层和语法关系添加层，通过所述语法关系识别层和语法关系添加层，可以提取所述目标语料文本中的语法关系，并将所述目标语料文本中的语法关系融入至所述目标语料文本中，丰富了提取句向量时的输入信息，进而获得更好的句向量；最后，由于关系网络比较复杂，顺序有正有反，有相邻关系，也有间接联系，因此难以使用RNN网络有序地将他们编码，本实施例根据不同的任务类型，按照预设的输入形式对每个所述第一句向量和每个所述第二句向量进行编码，确保得到最优的目标句向量，并根据所述最优的目标句向量执行文本处理任务得到执行结果，提高了执行结果的准确率。

实施例三

参阅图5所示，为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中，所述电子设备5包括存储器51、至少一个处理器52、至少一条通信总线53及收发器54。

本领域技术人员应该了解，图5示出的电子设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备5还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述电子设备5是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备5还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述电子设备5仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器51用于存储程序代码和各种数据，例如安装在所述电子设备5中的基于句向量预训练模型的文本处理装置40，并在电子设备5的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器51包括只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器52可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器52是所述电子设备5的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备5的各个部件，通过运行或执行存储在所述存储器51内的程序或者模块，以及调用存储在所述存储器51内的数据，以执行电子设备5的各种功能和处理数据。

在一些实施例中，所述至少一条通信总线53被设置为实现所述存储器51以及所述至少一个处理器52等之间的连接通信。

尽管未示出，所述电子设备5还可以包括给各个部件供电的电源(比如电池)，可选的，电源可以通过电源管理装置与所述至少一个处理器52逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备5还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中，结合图4，所述至少一个处理器52可执行所述电子设备5的操作装置以及安装的各类应用程序(如所述的基于句向量预训练模型的文本处理装置40)、程序代码等，例如，上述的各个模块。

所述存储器51中存储有程序代码，且所述至少一个处理器52可调用所述存储器51中存储的程序代码以执行相关的功能。例如，图4中所述的各个模块是存储在所述存储器51中的程序代码，并由所述至少一个处理器52所执行，从而实现所述各个模块的功能以达到基于句向量预训练模型的文本处理的目的。

示例性的，所述程序代码可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器51中，并由所述处理器52执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述程序代码在所述电子设备5中的执行过程。例如，所述程序代码可以被分割成接收模块401、分词处理模块402、构建模块403、训练模块404及输入模块405。

在本发明的一个实施例中，所述存储器51存储多个计算机可读指令，所述多个计算机可读指令被所述至少一个处理器52所执行以实现基于句向量预训练模型的文本处理的功能。

具体地，所述至少一个处理器52对上述指令的具体实现方法可参考图1至图3对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于句向量预训练模型的文本处理方法，其特征在于，所述方法包括：

对所述目标语料文本进行分词处理，得到多个分词；

将所述多个分词输入至所述文本处理任务的任务类型对应的训练好的句向量预训练模型中，得到所述文本处理任务的执行结果，包括：当所述文本处理任务的任务类型为命名实体识别，将所述多个分词输出至所述预训练的词向量提取模型，得到多个目标词向量，并将所述多个目标词向量进行归类，得到多个第一句向量；将所述多个第一句向量输入至双向LSTM模型的语法关系识别层，通过所述语法关系识别层识别每个所述第一句向量中各个词之间的语法关系，并将每个所述第一句向量中各个词之间的语法关系通过所述语法关系添加层添加至对应第一句向量中，得到多个第二句向量；按照预设的输入形式对每个所述第一句向量和每个所述第二句向量进行编码，得到多个目标句向量；将所述多个目标句向量输入至CRF层，所述CRF层对所述多个目标句向量中的每个词进行实体标注，解码出实体标签，并将解码出实体标签确定为所述文本处理任务的执行结果；或者，当所述文本处理任务的任务类型为句子分类时，将所述多个分词输入至所述预训练的词向量提取模型中，得到多个目标词向量，并将所述多个目标词向量进行归类，得到多个第一句向量；将所述多个第一句向量输入至双向LSTM模型的语法关系识别层，通过所述语法关系识别层识别每个所述第一句向量中各个词之间的语法关系，并将每个所述第一句向量中各个词之间的语法关系通过所述语法关系添加层添加至对应第一句向量中，得到多个第二句向量；按照预设的输入形式对每个所述第一句向量和每个所述第二句向量进行编码，得到多个目标句向量；通过全连接层计算所述多个目标句向量中每个目标句向量的分数，将每个目标句向量的分数经过softmax层映射为概率，并将计算得到的概率确定为所述文本处理任务的执行结果，其中，所述预设的输入形式包括以下任意一种或者多种组合：

其中，

表示每个所述第一句向量中的词向量，/>

为每个所述第一句向量中的各个词之间的语法关系，/>

为每个所述第二句向量中的词向量，/>

表示词向量拼接，/>

表示词向量乘积运算，/>

表示sigmoid函数。

2.如权利要求1所述的基于句向量预训练模型的文本处理方法，其特征在于，所述根据所述文本处理任务的任务类型构建句向量预训练模型包括：

3.如权利要求1所述的基于句向量预训练模型的文本处理方法，其特征在于，所述根据所述文本处理任务的任务类型构建句向量预训练模型包括：

4.如权利要求1所述的基于句向量预训练模型的文本处理方法，其特征在于，所述通过所述语法关系识别层识别每个所述第一句向量中各个词之间的语法关系包括：

5.一种基于句向量预训练模型的文本处理装置，其特征在于，所述装置包括：

输入模块，用于将所述多个分词输入至所述文本处理任务的任务类型对应的训练好的句向量预训练模型中，得到所述文本处理任务的执行结果，包括：当所述文本处理任务的任务类型为命名实体识别，将所述多个分词输出至所述预训练的词向量提取模型，得到多个目标词向量，并将所述多个目标词向量进行归类，得到多个第一句向量；将所述多个第一句向量输入至双向LSTM模型的语法关系识别层，通过所述语法关系识别层识别每个所述第一句向量中各个词之间的语法关系，并将每个所述第一句向量中各个词之间的语法关系通过所述语法关系添加层添加至对应第一句向量中，得到多个第二句向量；按照预设的输入形式对每个所述第一句向量和每个所述第二句向量进行编码，得到多个目标句向量；将所述多个目标句向量输入至CRF层，所述CRF层对所述多个目标句向量中的每个词进行实体标注，解码出实体标签，并将解码出实体标签确定为所述文本处理任务的执行结果；或者，当所述文本处理任务的任务类型为句子分类时，将所述多个分词输入至所述预训练的词向量提取模型中，得到多个目标词向量，并将所述多个目标词向量进行归类，得到多个第一句向量；将所述多个第一句向量输入至双向LSTM模型的语法关系识别层，通过所述语法关系识别层识别每个所述第一句向量中各个词之间的语法关系，并将每个所述第一句向量中各个词之间的语法关系通过所述语法关系添加层添加至对应第一句向量中，得到多个第二句向量；按照预设的输入形式对每个所述第一句向量和每个所述第二句向量进行编码，得到多个目标句向量；通过全连接层计算所述多个目标句向量中每个目标句向量的分数，将每个目标句向量的分数经过softmax层映射为概率，并将计算得到的概率确定为所述文本处理任务的执行结果，其中，所述预设的输入形式包括以下任意一种或者多种组合：

其中，

表示每个所述第一句向量中的词向量，/>

为每个所述第一句向量中的各个词之间的语法关系，/>

为每个所述第二句向量中的词向量，/>

表示词向量拼接，/>

表示词向量乘积运算，/>

表示sigmoid函数。

6.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至4中任意一项所述的基于句向量预训练模型的文本处理方法。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述的基于句向量预训练模型的文本处理方法。