CN110705315A

CN110705315A - 一种基于通道和空间维度的词向量训练方法

Info

Publication number: CN110705315A
Application number: CN201910954979.9A
Authority: CN
Inventors: 柴志伟; 赵路路
Original assignee: Shanghai Shenqin Information Technology Co Ltd; Ningbo Shenqin Information Technology Co Ltd
Current assignee: Shanghai Shenqin Information Technology Co Ltd; Ningbo Shenqin Information Technology Co Ltd
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2020-01-17
Anticipated expiration: 2039-10-09
Also published as: CN110705315B

Abstract

本发明提供一种基于通道和空间维度的词向量训练方法，该方法包括：获取训练语料，建立训练语料库。获取训练预料库中的每个训练语料中每个字的拼接特征向量。根据每个字的拼接特征向量，提取每个字的上下文特征向量和通道结构特征向量并进行融合，得到每个字对应的refined特征向量。每个字对应的refined特征向量经过分类器，损失函数训练，最终生成每个字对应的词向量。本发明融合的特征更加丰富，且在变压编码块特征提取器提取深层特征向量即为每个字对应的上下文特征向量的基础上，增加了通过卷积块注意力模块在通道维度增加注意力机制提取每个字对应的通道结构特征向量，增强深度学习向量的语意表达能力。

Description

一种基于通道和空间维度的词向量训练方法

技术领域

本发明属于计算机智能应用技术领域，涉及一种基于通道和空间维度的词向量训练方法。

背景技术

词向量是自然语言处理中非常常见的基础技术，主要是为了把词表示成适合计算机处理的方式。

目前主要由传统的one-hot representation独热模型，其词向量的长度为字典大小，每个维度对应一个字典里的每个词，除了这个词对应维度上的值是1，其他元素都是0。

目前还有一种词向量就是基于矩阵的分布表示，主要以glove模型为代表，它主要是对“词-词”矩阵进行分解从而得到词表示的方法。

目前另外一种词向量是通过学习语义信息，基于神经网络的分布表示的词向量N-gram模型，CBOW模型和Skip-gram模型，都是这种技术的典型代表，它们的中心思想都是通过上下文得到一个词出现的概率。这种方法考虑了上下文但是对于中文忽略了字形的信息。

传统的one-hot representation独热模型的缺点是，仅仅将词符号化，不包含任何语义信息，并且one-hot向量相似度为0。

基于矩阵的分布表示词向量，这种方法的缺点是会出现很多词，会导致矩阵极其稀疏；另外需要手动去掉停用词，不然这些频繁出现的词也会影响矩阵分解的效果。

而目前基于神经网络的分布表示的词向量，都是通过上下文得到一个词的向量，这种忽略了汉字本身的结构带来的信息。

发明内容

针对上述现有技术的不足，本发明提供了一种基于通道和空间维度的词向量训练方法。在汉字的结构里，字的偏旁是介于笔画和整字之间的基本结构单位。把汉字分解为偏旁可以使通用汉字的基本结构单位减到五、六百个，这在自然语言处理中会大大减少了中文信息处理的困难。本发明基于神经网络的模型，融合字的偏旁部首信息，然后用卷积神经网络学习出语义，这样不仅考虑了上下文信息，而且充分利用了汉字本身的包含的表义或表音信息，这会增强深度学习向量的语意表达能力。

为实现上述技术目的，本发明的技术方案是：

一种基于通道和空间维度的词向量训练方法，该方法包括：

获取训练语料，建立训练语料库。

获取训练预料库中的每个训练语料中每个字的拼接特征向量。

根据每个字的拼接特征向量，提取每个字的上下文特征向量和通道结构特征向量并进行融合，得到每个字对应的refined特征向量。

每个字对应的refined特征向量经过分类器，损失函数训练，最终生成每个字对应的词向量。

其中，获取训练预料库中的每个训练语料中每个字的拼接特征向量，包括：

a：对每个训练语料以字为单位逐字进行拆分，并采用随机初始化的方法进行初始化，得到对应的随机初始化字向量。

b：对每个训练语料以字为单位逐字进行拆分，然后将各个字按偏旁笔画进行拆分，采用正太分布初始化方法初始化不同偏旁笔画的向量，然后将各个字对应的偏旁笔画向量加和得到另一种表达形式的字向量。

c：对每个训练语料以连续的n个字为一个单位进行拆分，并采用随机初始化的方法进行初始化，得到对应的n元向量。

d：将a、b和c步骤中得到的三种方式初始化的向量采用concat连接起来，得到每个训练语料中每个字的拼接特征向量。

优选地，本发明中，提取每个字的上下文特征向量包括：将每个字的拼接特征向量用变压编码块特征提取器提取深层特征向量即为每个字对应的上下文特征向量。

首先，根据每个字在对应训练语料中的位置信息，采用随机初始化的方法进行初始化，得到对应的初始化位置向量；

然后，将每个字对应的初始化位置向量以及拼接特征向量量融合后作为变压编码块特征提取器的输入特征向量，通过变压编码块特征提取器提取得到每个字对应的上下文特征向量。

优选地，本发明中，变压编码块特征提取器提取得到每个字对应的上下文特征向量，包括：

输入特征向量一方面通过多头注意力机制求解该输入特征向量每个字的增强向量表示；另一方面该输入特征向量采用残差网络结构和多头注意力的输出先相加求和然后归一化，得到归一化后的向量；将归一化后的向量一方面经过前馈神经网络，另一方面归一化后的向量和前馈神经网络的输出再次采用残差网络结构相加求和然后归一化，输出的即为每个字对应的上下文特征向量。

优选地，本发明中，提取每个字的通道结构特征向量，包括：

将每个字的拼接特征向量通过卷积块注意力模块在通道维度增加注意力机制提取得到的特征向量也即每个字对应的通道结构特征向量。

优选地，本发明提取每个字的通道结构特征向量，包括：

将每个字对应的拼接特征向量作为卷积块注意力模块的输入特征向量；输入特征向量先经过通道注意力模型得到对应的中间特征向量；中间特征向量再经过空间注意力模型得到对应的通道结构特征向量。

其中：在通道注意力模型中，先用输入特征向量在空间维度求平均，然后在空间维度求最大，然后将两者相加经过sigmoid函数得到每个通道不同的比重，再用输入特征向量乘以通道的权重即得到对应的中间特征向量。

其中：在空间注意力模型中，中间特征向量在通道上求平均，然后在通道上求最大值，然后将两者相加经过sigmoid函数得到每个字不同的比重，再用中间特征乘以字的权重即得到每个字对应的通道结构特征向量。

另一方面，本发明提供一种基于通道和空间维度的词向量训练装置，包括：

训练语料库建立单元，用于获取训练语料，保存在训练语料库中。

拼接特征向量构建单元，用于获取训练预料库中的每个训练语料中每个字的拼接特征向量。

refined特征向量构建单元，用于根据每个字的拼接特征向量，提取每个字的上下文特征向量和通道结构特征向量并进行融合，得到每个字对应的refined特征向量。

词向量训练单元，用于对每个字对应的refined特征向量经过分类器，损失函数训练，以最终生成每个字对应的词向量。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述基于通道和空间维度的词向量训练方法的步骤。

本发明还提供一种计算机可读存储介质，可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。可读存储介质其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于通道和空间维度的词向量训练方法的步骤。

采用本发明可以达到以下技术效果：

和现有技术相比，不仅仅融合了字的偏旁部首特征还包含了n元向量的特征，特征更加丰富，并且在变压编码块(transformer block)特征提取器的基础上，增加了卷积块注意力模型来提取特征，增强深度学习向量的语意表达能力。

附图说明

图1是基于通道和空间维度的词向量训练方法的流程图。

图2是变压编码块(transformer block)特征提取器的结构示意图。

图3是卷积块注意力模块(cbam attention block)的结构示意图。

图4是基于通道和空间维度的词向量训练装置的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

参照图1，本实施例提供一种基于通道和空间维度的词向量训练方法，该方法包括：

一种基于通道和空间维度的词向量训练方法，该方法包括：

第一步，获取训练语料，建立训练语料库。

训练语料可以是一篇篇的文章，也可以是成段的文字，也可以就是成句的语句。

第二步，对训练预料库中的每个训练语料进行预处理。

c：对每个训练语料以连续的n个字(如两个字或三个字)为一个单位进行拆分，并采用随机初始化的方法进行初始化，得到对应的n元(如2元或者3元)向量。

d：将a、b和c步骤中得到的三种方式初始化的向量采用concat连接起来(矩阵拼接)，得到每个训练语料中每个字的拼接特征向量。

第三步，特征提取；

一方面将每个字的拼接特征向量用变压编码块(transformer block)特征提取器提取深层特征向量，也即提取每个字对应的上下文特征向量。另一方面将每个字的拼接特征向量通过卷积块注意力模块(cbam attention block)在通道维度增加注意力机制提取特征向量，也即提取每个字对应的通道结构特征向量。然后，对于每个字，将提取到的上下文特征向量和通道结构特征向量融合起来，得到每个字对应的最终的refined特征向量。

第四步，分类器训练；

其中第三步中，提取每个字对应的上下文特征向量的方法是：

首先，根据每个字在对应训练语料中的位置信息，采用随机初始化的方法进行初始化，得到对应的初始化位置向量。

然后，将每个字对应的初始化位置向量以及拼接特征向量量融合(即相加)后作为变压编码块(transformer block)特征提取器的输入特征向量，通过变压编码块(transformer block)特征提取器提取得到每个字对应的上下文特征向量。

其中，变压编码块(transformer block)特征提取器的结构如图2所示。

图2中，“多头注意力机制”是本领域的公知技术，是通过一句话每个字和每个字进行相似度的计算来获取每个字和每个字的内在相关性，得到输入特征向量每个字的增强向量表示。

具体地，每个字对应的初始化位置向量以及拼接特征向量融合(即相加)后作为变压编码块(transformer block)特征提取器的输入特征向量，一方面通过多头注意力机制求解该输入特征向量每个字的增强向量表示。另一方面该输入特征向量采用残差网络结构和多头注意力的输出先相加求和然后归一化，得到归一化后的向量；将归一化后的向量一方面经过前馈神经网络，另一方面归一化后的向量和前馈神经网络的输出再次采用残差网络结构相加求和然后归一化，输出的即为每个字对应的上下文特征向量。

本发明第三步中，提取每个字对应的通道结构特征向量的方法是：

参照图3，将每个字对应的拼接特征向量作为卷积块注意力模块的输入特征向量。

输入特征向量先经过通道注意力模型得到对应的中间特征向量，具体地，先用输入特征向量在空间维度求平均，然后在空间维度求最大，然后将两者相加经过sigmoid函数得到每个通道不同的比重，再用输入特征向量乘以通道的权重即得到对应的中间特征向量，输出；

中间特征向量再经过空间注意力模型得到对应的通道结构特征向量，具体地，中间特征向量在通道上求平均，然后在通道上求最大值，然后将两者相加经过sigmoid函数得到每个字不同的比重，再用中间特征乘以字的权重即得到每个字对应的通道结构特征向量。

图4是基于通道和空间维度的词向量训练装置的结构示意图。本实施例提供一种基于通道和空间维度的词向量训练装置，包括：

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备)执行本发明各个实施例或者实施例的某些部分所述的方法。

综上所述，虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明，任何本领域普通技术人员，在不脱离本发明的精神和范围内，当可作各种更动与润饰，因此本发明的保护范围当视权利要求书界定的范围为准。

Claims

1.一种基于通道和空间维度的词向量训练方法，其特征在于，该方法包括：

获取训练语料，建立训练语料库；

获取训练预料库中的每个训练语料中每个字的拼接特征向量；

根据每个字的拼接特征向量，提取每个字的上下文特征向量和通道结构特征向量并进行融合，得到每个字对应的refined特征向量；

2.根据权利要求1所述基于通道和空间维度的词向量训练方法，其特征在于，获取训练预料库中的每个训练语料中每个字的拼接特征向量，包括：

a：对每个训练语料以字为单位逐字进行拆分，并采用随机初始化的方法进行初始化，得到对应的随机初始化字向量；

b：对每个训练语料以字为单位逐字进行拆分，然后将各个字按偏旁笔画进行拆分，采用正太分布初始化方法初始化不同偏旁笔画的向量，然后将各个字对应的偏旁笔画向量加和得到另一种表达形式的字向量；

c：对每个训练语料以连续的n个字为一个单位进行拆分，并采用随机初始化的方法进行初始化，得到对应的n元向量；

3.根据权利要求1或2所述基于通道和空间维度的词向量训练方法，其特征在于，提取每个字的上下文特征向量包括：将每个字的拼接特征向量用变压编码块特征提取器提取深层特征向量即为每个字对应的上下文特征向量。

4.根据权利要求3所述基于通道和空间维度的词向量训练方法，其特征在于，提取每个字的上下文特征向量包括：

5.根据权利要求4所述基于通道和空间维度的词向量训练方法，其特征在于，变压编码块特征提取器提取得到每个字对应的上下文特征向量，包括：

6.根据权利要求1或2所述基于通道和空间维度的词向量训练方法，其特征在于，提取每个字的通道结构特征向量，包括：

7.根据权利要求6所述基于通道和空间维度的词向量训练方法，其特征在于，提取每个字的通道结构特征向量，包括：

8.根据权利要求7所述基于通道和空间维度的词向量训练方法，其特征在于，在通道注意力模型中，先用输入特征向量在空间维度求平均，然后在空间维度求最大，然后将两者相加经过sigmoid函数得到每个通道不同的比重，再用输入特征向量乘以通道的权重即得到对应的中间特征向量。

9.根据权利要求7所述基于通道和空间维度的词向量训练方法，其特征在于，在空间注意力模型中，中间特征向量在通道上求平均，然后在通道上求最大值，然后将两者相加经过sigmoid函数得到每个字不同的比重，再用中间特征乘以字的权重即得到每个字对应的通道结构特征向量。

10.一种基于通道和空间维度的词向量训练装置，其特征在于，包括：

训练语料库建立单元，用于获取训练语料，保存在训练语料库中；

拼接特征向量构建单元，用于获取训练预料库中的每个训练语料中每个字的拼接特征向量；

refined特征向量构建单元，用于根据每个字的拼接特征向量，提取每个字的上下文特征向量和通道结构特征向量并进行融合，得到每个字对应的refined特征向量；

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一权利要求所述基于通道和空间维度的词向量训练方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一权利要求所述基于通道和空间维度的词向量训练方法的步骤。