CN111222329A

CN111222329A - 句向量训练方法及模型、句向量预测方法及系统

Info

Publication number: CN111222329A
Application number: CN201911261750.3A
Authority: CN
Inventors: 陈海飞
Original assignee: Shanghai Badu Intelligent Technology Co Ltd
Current assignee: Shanghai Badu Intelligent Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-06-02
Anticipated expiration: 2039-12-10
Also published as: CN111222329B

Abstract

本发明提供了一种句向量训练方法及模型、句向量预测方法及系统，其中向量预测模型构建方法，包括以下步骤：S11、构建句向量训练模型；S12、对所述句向量训练模型模型进行训练；S13、向句向量预测模型中导入所述句向量训练模型的参数。本句向量训练方法及模型、句向量预测方法及系统，进行句向量预测时有很好的领域适应能力和句子向量泛化能力，可直接迁移到多种领域进行使用。

Description

句向量训练方法及模型、句向量预测方法及系统

技术领域

本发明涉及句向量预测技术领域，尤其涉及一种句向量训练方法及模型、句向量预测方法及系统。

背景技术

句子相似度，可以计算两个向量的空间距离得出，句子的向量表示来自 seq2seq模型的encoder最后输出的state，它具有句子的语意信息，在论文中常常用context表示。

句子向量学习大多采用3种技术方案:

(1)基于词共现任务在大规模语料训练词向量,对句子分词,获取每个词的向量表示，将全部词的向量叠加成一个新的向量作为句子的向量表示。

(2)采用encoder-decoder模型(编码器-解码器模型)，通过中心句预测上下文的句子，将对句子通过encoder得到的向量作为句子的向量表示。

(3)采用RNN(循环神经网络)、CNN(卷积神经网络)、注意力机制或更复杂的模型，基于自然语言处理中常见任务(命名实体实体、句子相似性判定等)的标注语料，进行多任务学习，以共享层输出作为句子的向量表示.

以上方案存在问题，如(3)标注语料规模小，迁移到新的领域时会出现领域过拟合问题，句子向量泛化能力差，迁移到新的任务时性能下降。

发明内容

有鉴于此，本发明要解决的技术问题是提供一种句向量训练方法及模型、句向量预测方法及系统，进行句向量预测时有很好的领域适应能力和句子向量泛华能力，可直接迁移到多种领域进行使用。

本发明的技术方案是这样实现的：

一种句向量预测模型构建方法，包括以下步骤：

S11、构建句向量训练模型；

S12、对所述句向量训练模型模型进行训练；

S13、向句向量预测模型中导入所述句向量训练模型的参数。

优选的，在所述S11之前，还包括：

构建训练集；

对语料进行预处理，得到语料D，统计所述语料D内的词频，取词频>X 的词形成词表，对应词频<＝X的词标注为[UNK]，并在所述词表内插入[UNK]；所述词表中每个token对应唯一索引；

对预处理后的语料库进行词转索引处理，每条句子经过中文全词覆盖后得到一条训练样本。

优选的，所述构建句向量训练模型具体包括以下步骤：

获取训练语句，将训练语句预处理得到token序列s，经过中文全词覆盖得到预测词对应的token序列w和覆盖后得到原句对应的token序列s/{w}，求解公式1-1：

基于整个语料，目标函数表示为公式1-2：

对token索引数字序列和位置序列进行one-hot编码经过token embedding table和position embedding table(token embedding table与 position embedding talbe参数记做W)，得到token向量和位置向量，记第 j个token的token向量为

和位置向量为

两向量元素相乘得到token 在整个句子中的特征向量E_j，根据公式1-3

得到句子向量v_s/{w}；

对目标token序列w进行one-hot编码，经过token embedding table(此处tokenembedding table参数记做U)得到token向量，记第i个token的 token向量为

根据句子向量和预测的token向量式1-2中的

其中C表示词表中所有的词。

优选的，，经过预处理得到token序列s，经过中文全词覆盖得到预测词对应的token序列w和原句覆盖后对应的token序列s/{w}；序列w与原句覆盖后token序列s/{w}组成正样本，p(1|w_i，s/{w})表示该样本来自于语料D的概率；随机token记c与s/{w}组成负样本，p(0|c，s/{w})表示该样本不来自于语料D的概率。

改为

其中D'用以表示随机从词表中取得token和s/{w}的样本集合；

样本来自语料D概率为

优选的，所述对所述句向量训练模型模型进行训练包括：

将每个样本token序列度限定在200以内；设置batch size为64，对样本集合中token序列小于200的做padding处理和token mask记录，计算v_s/{w}时先进行bool mask处理；

得到公式1-3中的R(sa)和token特征向量Ej，按公式1-3计算得到句子向量编码。

本发明还提出了一种句向量预测模型，所述句向量预测模型通过上述任一项所述的句向量预测模型构建方法构建而成。

本发明还提出了一种句向量预测方法，包括以下步骤：

S21、获取句子输入并进行预处理；

S22、将token索引序列和位置序列作为句子编码层输入；输入至上述所述的句向量预测模型；

S23、根据公式

得到的v_s即为句子向量编码。

优选的，所述预处理包括：

对句子进行分词、去停用词、标点数字全角转半角，得到词序列；

统计语料词频，取前400000个词建立词表T1，取前30000个词建立词表 T2；针对词序列中，未出现在词表T1中的进行sub-word操作，即先进行词转字序列，再对字序列按3个字符、2个字符的组合在词表T2中查找，出现的合并成新词，未出现的保留原字，记进行sub-word操作后的字符片段为 token。

本发明还提出了一种句向量预测系统，包括获取模块、预处理模块、上述所述的句向量预测模型和输出模块；

所述获取模块，用于获取输入的句子；

所述预处理模块，用于对输入的句子进行预处理；

所述句向量预测模型，用于进行句向量预测；

所述输出模块用于输出句子向量。

本发明提出的句向量训练方法及模型、句向量预测方法及系统，在进行句向量预测时，先对句子进行预处理，保证了词的完整性，进行句向量预测时有很好的领域适应能力和句子向量泛华能力，可直接迁移到多种领域进行使用。

附图说明

图1为本发明实施例提出的句向量预测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提出了一种句向量预测方法，包括：

(1)训练集构建

采用2.2中预处理方式对原语料进行预处理得到语料D，统计词频，取词频>5的词形成词表，对应词频<＝5的词统一标注成“[UNK]”。词表中插入 “[UNK]”，作为一个特殊词，词表中每个token唯一对应一个索引，针对不在词表中的token，用“[UNK]”代替，并获取“[UNK]”的索引作为该词的索引。此外，也需将训练过程中的特殊标记符(如上文提到的“[MASK]”)加入词表中。

对预处理后的语料库进行词转索引处理，每一条句子，经过中文全词覆盖后得到一条训练样本，处理流程如下:

表格1训练样本生成过程

(2)句子向量训练模型

句子向量训练模型网络包含两个部分，句子编码层和token预测层。

给定一个句子后，经过预处理得到token序列s，经过中文全词覆盖得到预测词对应的token序列w和覆盖后原句对应的token序列s/{w}，整个任务的目标在于求解

基于整个语料,目标函数可表示为

1)句子编码层

对token索引数字序列和位置序列进行one-hot编码经过token embedding table和position embedding table(此处的token embedding table与 position embeddingtalbe参数记做W)得到token向量和位置向量,记第j 个token的token向量为

和位置向量为

两向量元素相乘得到token在整个句子中的特征向量E_j，根据公式

得到句子向量v_s/{w}。

2)token预测

对目标token序列w进行one-hot编码，经过token embedding table(此处tokenembedding table参数记做U)得到token向量，记第i个token的token向量为

根据句子向量和预测的token向量式(2-2)中的

其中C表示词表中所有的词。

3)目标函数优化

考虑到式(2-4)中

运算复杂，这里采用CBOW模型中的负采样方法对上述目标函数进行优化。

给定一个句子后，经过预处理得到token序列s，经过中文全词覆盖得到预测词对应的token序列w和原句覆盖后对应的token序列s/{w}。序列w与原句覆盖后token序列s/{w}组成正样本，p(1|w_i，s/{w})表示该样本来自于语料 D的概率；随机token记c与s/{w}组成负样本，p(0|c，s/{w})表示该样本不来自于语料D的概率。

目标函数可以改为

其中D'用以表示随机从词表中取得token和s/{w}的样本集合。

样本来自语料D概率

(3)模型训练

训练模型采用tensorflow实现。每个样本token序列度限定在200以内，超过则截断；设置batch size为64，对样本集合中token序列小于200的做 padding处理和tokenmask记录，计算v_s/{w}时需先进行bool mask处理。完整处理流程(这里假定token序列最大长度10)如下：

表格2 mini-batch训练样本构建

根据上述处理流程，得到公式(2-3)中的R(sa)和token特征向量E_j，按 (2-3)计算得到句子向量编码。

本发明还提出了一种句向量训练模型，通过上述方法训练得到。

本发明还提出了一种句向量训练方法，具体包括以下步骤：

预处理

首先对句子进行分词、去停用词、标点数字全角转半角，得到词序列；统计语料词频，取前400000个词建立词表T1,取前30000个词建立词表T2；针对词序列中，未出现在词表T1中的进行sub-word操作，即先进行词转字序列，再对字序列按3个字符、2个字符的组合在词表T2中查找，出现的合并成新词，未出现的保留原字，为了区别于词序列，记进行sub-word操作后的字符片段为token。sub-word操作如下:

词:维汉约德

词转字序列:维/汉/约/德

字序列组合:维汉约|维汉；汉约德|汉约；约德

sub-word:维汉/约德

预处理完整实例:

表格3预处理实例

因为人名、地名、时间、数字、机构名等专有名词不计其数，且在新的领域会出现很多业务词汇，通过对词进行sub-word处理，会使整个句子中每个字符片段都存在编码；而位置序列的处理方式，引入了词序信息并明确指定字符片段是否来自同一个词，保证词本身信息的完整性。

模型介绍

句子向量模型训练模块采用中文全词覆盖，通过全词覆盖后的句子作为输入，经过embedding层，预测被覆盖的词。句子向量训练模型包括三个阶段，构建句子向量训练模型，基于原语料进行预处理转换成适合句子向量训练模型的输入格式，训练模型。句子向量预测模型包括两个阶段，导入训练模型中的部分网络参数，句子预处理经过预测模型得到句子向量。

2.3.1句子向量训练模型

(1)训练集构建

对预处理后的语料库进行词转索引处理，每一条句子，经过中文全词覆盖后得到一条训练样本，处理流程如表1:

(2)句子向量训练模型

基于整个语料,目标函数可表示为

4)句子编码层

和位置向量为

得到句子向量v_s/{w}。

5)token预测

根据句子向量和预测的token向量式(2-2)中的

其中C表示词表中所有的词。

6)目标函数优化

考虑到式(2-4)中

目标函数可以改为

其中D'用以表示随机从词表中取得token和s/{w}的样本集合。

样本来自语料D概率

(3)模型训练

训练模型采用tensorflow实现。每个样本token序列度限定在200以内，超过则截断；设置batch size为64，对样本集合中token序列小于200的做 padding处理和tokenmask记录，计算v_s/{w}时需先进行bool mask处理。完整处理流程(这里假定token序列最大长度10)如表2：

根据上述处理流程，得到公式(2-3)中的R(sa)和token特征向量E_j，按(2-3) 计算得到句子向量编码。

2.3.2句子向量预测模型

对句子进行向量编码，采用的是2.3.1中训练模型的句子编码层，导入训练完成后模型参数W对句子编码层进行参数初始化。

针对句子向量预测阶段的句子，经过预处理后不再进行中文全词覆盖，采用2.2的预处理方式，得到句子的token序列和位置序列。处理流程如下：

表格4预测模型输入构建

将token索引序列和位置序列作为句子编码层输入，根据公式

得到的v_s即为句子向量编码。

如图1所示，本发明还提出了一种句向量预测系统，包括

获取模块1、预处理模块2、句向量预测模型3和输出模块4；

所述获取模块1，用于获取输入的句子；

所述预处理模块2，用于对输入的句子进行预处理；

所述句向量预测模型3，用于进行句向量预测；

所述输出模块4，用于输出句子向量。

综上所述，本发明实施例至少可以实现如下效果：

在本发明实施例中，本发明基于大规模多领域语料进行训练，有很好的领域适应能力和句子向量泛华能力，可直接迁移到多种领域进行使用；对分词分词并进行sub-word处理，基于字按一定规则组词的语言学特性，避免未登录词无信息编码的情况；对词位置信息编码，保留了句子中词间关系和词内token关系。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种句向量预测模型构建方法，其特征在于，包括以下步骤：

S11、构建句向量训练模型；

S12、对所述句向量训练模型进行训练；

S13、向句向量预测模型中导入所述句向量训练模型的参数。

2.如权利要求1所述的句向量预测模型构建方法，其特征在于，在所述S11之前，还包括：

构建训练集；

对语料进行预处理，得到语料D，统计所述语料D内的词频，取词频>X的词形成词表，对应词频<＝X的词标注为[UNK]，并在所述词表内插入[UNK]；所述词表中每个token对应唯一索引；

3.如权利要求1所述的句向量预测模型构建方法，其特征在于，所述构建句向量训练模型具体包括以下步骤：

基于整个语料，目标函数表示为公式1-2：

对token索引数字序列和位置序列进行one-hot编码经过token embedding table和position embedding table(token embedding table与position embedding talbe参数记做W)，得到token向量和位置向量，记第j个token的token向量为

和位置向量为

两向量元素相乘得到token在整个句子中的特征向量E_j，根据公式1-3

得到句子向量v_s/{w}；

根据句子向量和预测的token向量式1-2中的

其中C表示词表中所有的词。

4.如权利要求3所述的句向量预测模型构建方法，其特征在于，经过预处理得到token序列s，经过中文全词覆盖得到预测词对应的token序列w和原句覆盖后对应的token序列s/{w}；序列w与原句覆盖后token序列s/{w}组成正样本，p(1|w_i，s/{w})表示该样本来自于语料D的概率；随机token记c与s/{w}组成负样本，p(0|c，s/{w})表示该样本不来自于语料D的概率；

改为

其中D'用以表示随机从词表中取得token和s/{w}的样本集合；

样本来自语料D概率为

5.如权利要求1所述的句向量预测模型构建方法，其特征在于，所述对所述句向量训练模型模型进行训练包括：

6.一种句向量预测模型，其特征在于，所述句向量预测模型通过上述权利要求1-5任一项所述的句向量预测模型构建方法构建而成。

7.一种句向量预测方法，其特征在于，包括以下步骤：

S21、获取句子输入并进行预处理；

S22、将token索引序列和位置序列作为句子编码层输入；输入至权利要求6所述的句向量预测模型；

S23、根据公式

得到的v_s即为句子向量编码。

8.如权利要求7所述的句向量预测方法，其特征在于，所述预处理包括：

统计语料词频，取前400000个词建立词表T1，取前30000个词建立词表T2；针对词序列中，未出现在词表T1中的进行sub-word操作，即先进行词转字序列，再对字序列按3个字符、2个字符的组合在词表T2中查找，出现的合并成新词，未出现的保留原字，记进行sub-word操作后的字符片段为token。

9.一种句向量预测系统，其特征在于，包括获取模块、预处理模块、权利要求1-5任一项所述的句向量预测模型和输出模块；

所述获取模块，用于获取输入的句子；

所述预处理模块，用于对输入的句子进行预处理；

所述句向量预测模型，用于进行句向量预测；

所述输出模块用于输出句子向量。