CN112052687B

CN112052687B - 基于深度可分离卷积的语义特征处理方法、装置及介质

Info

Publication number: CN112052687B
Application number: CN202010912076.7A
Authority: CN
Inventors: 张辉极; 赵伟; 郑伟斌; 李文瑞; 韩冰; 欧荣安; 贾东剑; 赵建强
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2023-11-21
Anticipated expiration: 2040-09-02
Also published as: CN112052687A

Abstract

本发明提出了一种基于深度可分离卷积的语义特征处理方法、装置及介质，该方法包括：获取聊天数据使用词向量模型进行分词得到分词集合，将所述分词集合预处理为片段词嵌入矩阵；使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量后拼接得到三维特征张量；使用一维最大池化操作提取出每个卷积核输出的最大值，将所有最大值拼接得到聊天文本的语义特征向量。本发明首先将聊天文本分割成子片段，片段中的每一句聊天作为词嵌入矩阵的每个通道维度，并设计了多尺度深度可分离一维卷积核获取子片段的语义特征，再提取每个卷积核中的最显著特征拼接成为该子片段的语义特征向量，其提取语义特征连续，更为符合聊天数据的上下文特征。

Description

基于深度可分离卷积的语义特征处理方法、装置及介质

技术领域

本发明涉及自然语言处理(NLP)技术领域，具体涉及一种基于深度可分离卷积的语义特征处理方法、装置及存储介质。

背景技术

近些年来随着移动互联网的飞速发展，QQ、微信等即时通讯软件已成为人们日常生活、工作中不可或缺的社交工具。这些软件每天都会产生极为庞大的聊天数据，通过对聊天数据的建模来分析聊天内容、聊天者间的关系，逐渐成为电子取证领域的热门研究方向。其中，聊天内容分析的一个重要步骤为文本语义特征的获取。在自然语言处理领域，合适的文本语义特征对下游任务(文本分类、命名实体识别、文本摘要、问答模型等)能起到决定性的作用。

目前常见的聊天文本主题建模方式为：将所有聊天数据或者分段后的聊天段落的每一句聊天拼接成段落作为分析单位。该做法可将聊天文本建模成与新闻、文章类似的结构，再通过双向LSTM、卷积神经网络等单元提取文本语义特征向量进行分析。然而聊天场景与新闻、文章的场景不同，聊天文本采用这种建模方式存在明显的缺陷，例如：聊天文本的每句话在拼接处会造成语义不连续。

现有技术的主要技术缺陷如下：传统的特征抽取过程文本张量矩阵的通道维数为1，没有利用到通道特征，损失部分语义信息；传统的语义特征向量利用双向LSTM单元、1D卷积等模块计算获得，大量的大尺度矩阵乘法运算导致计算量大；基于文本拼接的方式提取到的语义向量不能很好地表示聊天场景下的文本语义特征，存在上下文拼接部分语义不连续的缺陷。

发明内容

本发明针对上述现有技术中一个或多个技术缺陷，提出了如下技术方案。

一种基于深度可分离卷积的语义特征处理方法，该方法包括：

预处理步骤，获取聊天数据，并将所述聊天数据按照发送时间进行排序，将排序后的聊天数据使用训练后的词向量模型进行分词得到分词集合，将所述分词集合预处理为片段词嵌入矩阵；

特征提取步骤，使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量，将所述二维特征张量进行拼接后得到三维特征张量；

特征融合步骤，使用多个一维可分离卷积核分别提取从三维特征张量中每个通道的句子特征，再通过1*1卷积核对所述句子特征进行聚合，使用一维最大池化操作提取出每个卷积核输出的最大值，将所有最大值拼接得到聊天文本的语义特征向量。

更进一步地，所述词向量模型的训练过程包括：提取移动设备中的所有聊天数据，所述聊天数据包括个人聊天数据和群组聊天数据；将所述聊天数据通过分词工具进行分词为[词1词2词3...]；将所有分词后的聊天数据拼接成二维数组[[文本1],[文本2],[文本3],…],数组长度为聊天数据的总数量；使用二维数组[[文本1],[文本2],[文本3],…]训练Word2Vec词向量模型，词向量长度设置为VecLength，训练完成后每个词均对应长度为VecLength的数值稠密向量，实现文本的向量化。

更进一步地，获得片段词嵌入矩阵的过程为：对待提取语义特征向量的所有聊天数据按照设定的通道维度K分为个子片段，L为聊天数据的总长度，每个子片段含K个聊天句，其中/>运算符表示向上取整操作；对每个子片段中的每个聊天句使用分词工具进行分词，得到分词集合W_i＝{w₁,w₂,...,w_n}；

将所述分词集合中的每个词与所述Word2Vec词向量模型进行匹配得到集合W_i的词嵌入矩阵E^{DocLength×VecLength}，矩阵维度为DocLength*VecLength，其中，DocLength为经验设定的句子最大长度，超过该长度的句子截断，不足则补0，VecLength为词向量长度，K个句子词嵌入矩阵按照通道维度拼接后得到一个维度为DocLength*VecLength*K的片段词嵌入矩阵。

更进一步地，所述得到三维特征张量的为：采用K个{n,m,p}*VecLength*1的卷积核对片段词嵌入矩阵的K个维度分别进行卷积，卷积步长为1，则输出维度为(DocLength-{n,m,p})/S+1的列向量，K个维度计算完成后拼接成维度为((DocLength-{n,m,p})/S+1)*1*K的张量；采用256个尺寸为1*1*K的卷积核对((DocLength-{n,m,p})/S+1)*1*K进行一维卷积操作，共得到256个维度为((DocLength-{n,m,p})/S+1)*1的二维张量，将256个二维张量进行拼接得到尺寸为((DocLength-{n,m,p})/S+1)*1*256的三维张量。

更进一步地，所述得到聊天文本的语义特征向量的过程为：通过一维最大池化算子计算所述三维张量((DocLength-{n,m,p})/S+1)*1*256的第一维度上的最大值，将该最大值作为该维度的最显著语义特征输出，通过该操作将n,m,p三个尺度的深度可分离卷积运算结果均压缩至1*256的二维张量，作为三个尺度的输出特征张量；将输出的三个1*256张量沿着第二维度进行拼接得到维度为1*768的张量，作为输出的该子片段的语义特征向量，将子片段的语义特征向量进行拼接后得聊天文本的语义特征向量。

本发明还提出了一种基于深度可分离卷积的语义特征处理装置，该装置包括：

预处理单元，获取聊天数据，并将所述聊天数据按照发送时间进行排序，将排序后的聊天数据使用训练后的词向量模型进行分词得到分词集合，将所述分词集合预处理为片段词嵌入矩阵；

特征提取单元，使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量，将所述二维特征张量进行拼接后得到三维特征张量；

特征融合单元，使用多个一维可分离卷积核分别提取从三维特征张量中每个通道的句子特征，再通过1*1卷积核对所述句子特征进行聚合，使用一维最大池化操作提取出每个卷积核输出的最大值，将所有最大值拼接得到聊天文本的语义特征向量。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明提出了一种基于深度可分离卷积的语义特征处理方法，该方法包括：预处理步骤，获取聊天数据，并将所述聊天数据按照发送时间进行排序，将排序后的聊天数据使用训练后的词向量模型进行分词得到分词集合，将所述分词集合预处理为片段词嵌入矩阵；特征提取步骤，使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量，将所述二维特征张量进行拼接后得到三维特征张量；特征融合步骤，使用多个一维可分离卷积核分别提取从三维特征张量中每个通道的句子特征，再通过1*1卷积核对所述句子特征进行聚合，使用一维最大池化操作提取出每个卷积核输出的最大值，将所有最大值拼接得到聊天文本的语义特征向量。本发明方法首先将聊天文本分割成子片段，片段中的每一句聊天作为词嵌入矩阵的每个通道维度以解决现有技术中拼接处语义不连续的缺陷，并设计了用于文本的多尺度深度可分离一维卷积核获取子片段的语义特征，改善了传统一维卷积运算量大的问题，再通过一维最大池化操作提取每个卷积核中的最显著特征，拼接成为该子片段的语义特征向量用于后续的下游任务，其使用通道维度K进行句子的特征提取，解决了传统的特征抽取过程文本张量矩阵的通道维数为1，没有利用到通道特征，损失部分语义信息，本发明的方法其计算量较少，提取语义特征连续，更为符合聊天数据的上下文特征。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种基于深度可分离卷积的语义特征处理方法的流程图。

图2为根据本发明的实施例的可分离卷积的不同高度的卷积核进行操作后的示意图。

图3为根据本发明的实施例的使用11卷积核进行操作后的示意图。

图4为根据本发明的实施例的拼接向量的向量后的示意图。

图5是根据本发明的实施例的一种基于深度可分离卷积的语义特征处理装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种基于深度可分离卷积的语义特征处理方法，该方法包括：

预处理步骤S101，获取聊天数据，并将所述聊天数据按照发送时间进行排序，将排序后的聊天数据使用训练后的词向量模型进行分词得到分词集合，将所述分词集合预处理为片段词嵌入矩阵；所述聊天数据可以是移动终端上的聊天数据，比如，手机、IPAD、笔记本电脑等等，当然也可以是台式机等电子设备上的聊天记录，将这些聊天记录提取出来作为待提取语义特征向量的所有聊天数据，其一般存储在一个文本文件中，也可以称为聊天文本。

在一个实施例中，所述词向量模型称为Word2Vec词向量模型，其训练过程包括：提取移动设备中的所有聊天数据，即获取样本数据，所述聊天数据包括个人聊天数据和群组聊天数据；将所述聊天数据通过分词工具进行分词为[词1词2词3...]；将所有分词后的聊天数据拼接成二维数组[[文本1],[文本2],[文本3],…],数组长度为聊天数据的总数量；使用二维数组[[文本1],[文本2],[文本3],…]训练Word2Vec词向量模型，词向量长度设置为VecLength，训练完成后每个词均对应长度为VecLength的数值稠密向量，实现文本的向量化。Word2Vec词向量模型训练完成后，即可以对待处理的聊天数据进行处理操作，具体参见以下描述。

在一个实施例中，获得片段词嵌入矩阵的过程为：对待提取语义特征向量的所有聊天数据按照设定的通道维度K分为个子片段，L为聊天数据的总长度，每个子片段含K个聊天句，其中/>运算符表示向上取整操作；对每个子片段中的每个聊天句使用分词工具进行分词，得到分词集合W_i＝{w₁,w₂,...,w_n}；其中，K为大于等于2的整数，n为整数，表示分词集合中词的总数，i为小于n的整数；然后，将所述分词集合中的每个词与所述Word2Vec词向量模型进行匹配得到集合W_i的词嵌入矩阵E^{DocLength×VecLength}，矩阵维度为DocLength*VecLength，其中，DocLength为经验设定的句子最大长度，超过该长度的句子截断，不足则补0，VecLength为词向量长度，K个句子词嵌入矩阵按照通道维度拼接后得到一个维度为DocLength*VecLength*K的片段词嵌入矩阵。

本发明的方法中使用通道维度K进行句子的特征提取，解决了传统的特征抽取过程文本张量矩阵的通道维数为1，没有利用到通道特征，损失部分语义信息，使得提取语义特征更符合聊天的上下文习惯，这是本发明的重要发明点之一。

特征提取步骤S102，使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量，将所述二维特征张量进行拼接后得到三维特征张量。

在一个实施例中，所述得到三维特征张量的为：采用K个{n,m,p}*VecLength*1的卷积核对片段词嵌入矩阵的K个维度分别进行卷积，卷积步长为1，则输出维度为(DocLength-{n,m,p})/S+1的列向量，n、m、p均为整数，其结构如图2所示。当K个维度计算完成后拼接成维度为((DocLength-{n,m,p})/S+1)*1*K的张量；采用256个(当然，也可以采用其他个数个卷积核进行操作，如64、128、512个等等，更可以设为x个，x为整数)尺寸为1*1*K的卷积核对((DocLength-{n,m,p})/S+1)*1*K进行一维卷积操作，共得到256个维度为((DocLength-{n,m,p})/S+1)*1的二维张量，如图3所示。然后，将256个二维张量进行拼接得到尺寸为((DocLength-{n,m,p})/S+1)*1*256的三维张量。

特征融合步骤S103，使用多个一维可分离卷积核分别提取从三维特征张量中每个通道的句子特征，再通过1*1卷积核对所述句子特征进行聚合，使用一维最大池化操作提取出每个卷积核输出的最大值，将所有最大值拼接得到聊天文本的语义特征向量。

在一个实施例中，所述得到聊天文本的语义特征向量的过程为：通过一维最大池化算子计算所述三维张量((DocLength-{n,m,p})/S+1)*1*256的第一维度上的最大值，所述算子为1D_MaxPooling算子，将该最大值作为该维度的最显著语义特征输出，通过该操作将n,m,p三个尺度的深度可分离卷积运算结果均压缩至1*256的二维张量，作为三个尺度的输出特征张量；将输出的三个1*256张量沿着第二维度进行拼接得到维度为1*768的张量，如图4所示，作为输出的该子片段的语义特征向量。然后，将子片段的语义特征向量进行拼接后得聊天文本的语义特征向量。

本发明方法首先将聊天文本分割成子片段，片段中的每一句聊天作为词嵌入矩阵的每个通道维度以解决现有技术中拼接处语义不连续的缺陷，并设计了用于文本的多尺度深度可分离一维卷积核获取子片段的语义特征，改善了传统一维卷积运算量大的问题，再通过一维最大池化操作提取每个卷积核中的最显著特征，拼接成为该子片段的语义特征向量用于后续的下游任务，其计算量较少，提取语义特征连续，更为符合聊天数据的上下文特征，这是本发明的重要发明点之一。

图5示出了本发明的一种基于深度可分离卷积的语义特征处理装置，该装置包括：

预处理单元501，获取聊天数据，并将所述聊天数据按照发送时间进行排序，将排序后的聊天数据使用训练后的词向量模型进行分词得到分词集合，将所述分词集合预处理为片段词嵌入矩阵；所述聊天数据可以是移动终端上的聊天数据，比如，手机、IPAD、笔记本电脑等等，当然也可以是台式机等电子设备上的聊天记录，将这些聊天记录提取出来作为待提取语义特征向量的所有聊天数据，其一般存储在一个文本文件中，也可以称为聊天文本。

本发明的装置中使用通道维度K进行句子的特征提取，解决了传统的特征抽取过程文本张量矩阵的通道维数为1，没有利用到通道特征，损失部分语义信息，使得提取语义特征更符合聊天的上下文习惯，这是本发明的重要发明点之一。

特征提取单元502，使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量，将所述二维特征张量进行拼接后得到三维特征张量。

特征融合单元503，使用多个一维可分离卷积核分别提取从三维特征张量中每个通道的句子特征，再通过1*1卷积核对所述句子特征进行聚合，使用一维最大池化操作提取出每个卷积核输出的最大值，将所有最大值拼接得到聊天文本的语义特征向量。

本发明装置首先将聊天文本分割成子片段，片段中的每一句聊天作为词嵌入矩阵的每个通道维度以解决现有技术中拼接处语义不连续的缺陷，并设计了用于文本的多尺度深度可分离一维卷积核获取子片段的语义特征，改善了传统一维卷积运算量大的问题，再通过一维最大池化操作提取每个卷积核中的最显著特征，拼接成为该子片段的语义特征向量用于后续的下游任务，其计算量较少，提取语义特征连续，更为符合聊天数据的上下文特征，这是本发明的重要发明点之一。

本发明的为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度可分离卷积的语义特征处理方法，其特征在于，该方法包括：

所述得到三维特征张量的过程为：采用K个{n,m,p}*VecLength*1的卷积核对片段词嵌入矩阵的K个维度分别进行卷积，卷积步长为1，则输出维度为(DocLength-{n,m,p})/S+1的列向量，K个维度计算完成后拼接成维度为((DocLength-{n,m,p})/S+1)*1*K的张量；采用256个尺寸为1*1*K的卷积核对((DocLength-{n,m,p})/S+1)*1*K进行一维卷积操作，共得到256个维度为((DocLength-{n,m,p})/S+1)*1的二维张量，将256个二维张量进行拼接得到尺寸为((DocLength-{n,m,p})/S+1)*1*256的三维张量；

其中，VecLength为词向量长度，n,m,p均为整数，表示三个不同的深度可分离卷积的尺度，S表示卷积步长，DocLength表示设定的句子最大长度；

2.根据权利要求1所述的方法，其特征在于，所述词向量模型的训练过程包括：提取移动设备中的所有聊天数据，所述聊天数据包括个人聊天数据和群组聊天数据；将所述聊天数据通过分词工具进行分词为[词1词2词3…]；将所有分词后的聊天数据拼接成二维数组[[文本1],[文本2],[文本3],…],数组长度为聊天数据的总数量；使用二维数组[[文本1],[文本2],[文本3],…]训练Word2Vec词向量模型，词向量长度设置为VecLength，训练完成后每个词均对应长度为VecLength的数值稠密向量，实现文本的向量化。

3.根据权利要求1所述的方法，其特征在于，获得片段词嵌入矩阵的过程为：对待提取语义特征向量的所有聊天数据按照设定的通道维度K分为个子片段，L为聊天数据的总长度，每个子片段含K个聊天句，其中/>运算符表示向上取整操作；对每个子片段中的每个聊天句使用分词工具进行分词，得到分词集合W_i＝{w₁,w₂,...,w_n}；

将所述分词集合中的每个词与所述词向量模型进行匹配得到集合W_i的词嵌入矩阵E^{DocLength×VecLength}，矩阵维度为DocLength*VecLength，其中，DocLength为经验设定的句子最大长度，超过该长度的句子截断，不足则补0，VecLength为词向量长度，K个句子词嵌入矩阵按照通道维度拼接后得到一个维度为DocLength*VecLength*K的片段词嵌入矩阵。

4.根据权利要求1所述的方法，其特征在于，所述得到聊天文本的语义特征向量的过程为：通过一维最大池化算子计算所述三维张量((DocLength-{n,m,p})/S+1)*1*256的第一维度上的最大值，将该最大值作为该维度的最显著语义特征输出，通过该操作将n,m,p三个尺度的深度可分离卷积运算结果均压缩至1*256的二维张量，作为三个尺度的输出特征张量；将输出的三个1*256张量沿着第二维度进行拼接得到维度为1*768的张量，作为输出的子片段的语义特征向量，将子片段的语义特征向量进行拼接后得聊天文本的语义特征向量；

其中，L为聊天数据的总长度，K表示聊天数据设定的通道维度，每个子片段含K个聊天句，运算符表示向上取整操作。

5.一种基于深度可分离卷积的语义特征处理装置，其特征在于，该装置包括：

6.根据权利要求5所述的装置，其特征在于，所述词向量模型的训练过程包括：提取移动设备中的所有聊天数据，所述聊天数据包括个人聊天数据和群组聊天数据；将所述聊天数据通过分词工具进行分词为[词1词2词3…]；将所有分词后的聊天数据拼接成二维数组[[文本1],[文本2],[文本3],…],数组长度为聊天数据的总数量；使用二维数组[[文本1],[文本2],[文本3],…]训练Word2Vec词向量模型，词向量长度设置为VecLength，训练完成后每个词均对应长度为VecLength的数值稠密向量，实现文本的向量化。

7.根据权利要求5所述的装置，其特征在于，获得片段词嵌入矩阵的过程为：对待提取语义特征向量的所有聊天数据按照设定的通道维度K分为个子片段，L为聊天数据的总长度，每个子片段含K个聊天句，其中/>运算符表示向上取整操作；对每个子片段中的每个聊天句使用分词工具进行分词，得到分词集合W_i＝{w₁,w₂,...,w_n}；

8.根据权利要求5所述的装置，其特征在于，所述得到聊天文本的语义特征向量的过程为：通过一维最大池化算子计算所述三维张量

((DocLength-{n,m,p})/S+1)*1*256的第一维度上的最大值，将该最大值作为该维度的最显著语义特征输出，通过该操作将n,m,p三个尺度的深度可分离卷积运算结果均压缩至1*256的二维张量，作为三个尺度的输出特征张量；将输出的三个1*256张量沿着第二维度进行拼接得到维度为1*768的张量，作为输出的子片段的语义特征向量，将子片段的语义特征向量进行拼接后得聊天文本的语义特征向量；

其中，L为聊天数据的总长度，K表示聊天数据设定的通道维度，每个子片段含K个聊天句，其中运算符表示向上取整操作。

9.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行如权利要求1-4之任一项所述的方法。