CN109684626A

CN109684626A - 语义识别方法、模型、存储介质和装置

Info

Publication number: CN109684626A
Application number: CN201811365278.3A
Authority: CN
Inventors: 杨志明; 王来奇; 王泳
Original assignee: Deep Thinking Artificial Intelligence Robot Technology (beijing) Co Ltd
Current assignee: Deep Thinking Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-04-26

Abstract

本发明提供一种语义识别方法、存储介质和装置，包括：步骤11：将待分析文本转换为第一向量和第二向量后，分别执行步骤12和步骤13，第一向量为词向量矩阵，第二向量为字向量矩阵；步骤12：将第一向量输入第一卷积神经网络，输出第一特征向量；步骤13：将第二向量输入第二卷积神经网络，输出第二特征向量；步骤14：将第一特征向量和第二特征向量连接为第三特征向量；步骤15：将第三特征向量输入分类器，输出待分析文本的语义识别结果。基于本发明的方法，通过设置双通道卷积神经网络的特征提取，提高语义识别结果的准确率。

Description

语义识别方法、模型、存储介质和装置

技术领域

本发明涉及人工智能领域，特别涉及一种语义识别方法、模型、存储介质和装置。

背景技术

随着网络智能设备数量的迅猛发展，设备的形态也各种各样，交互方式也各有不同，尤其随着语音识别技术公司的崛起，语音识别技术越来越成熟，应用的范围也越来越广，基于语音的人机对话技术被普遍认为是更加自然的人机交互方式。

人机对话技术的一个关键任务就是如何让聊天机器人理解用户的语句意图并将用户的输入正确地分类到相应的领域中，其性能直接影响到特定领域的人机对话质量。

现有技术中，通常采用单通道卷积神经网络(Convolutional Neural Network，CNN)进行语义特征提取，但是单通道CNN存在视角单一的缺陷，不能充分学习到语句的特征信息和语义信息，从而导致后续语句意图分类的准确性较差，影响应用推广。

发明内容

有鉴于此，本发明提供一种语义识别方法、模型、存储介质和装置，以解决目前语义识别输出结果准确率不高的问题。

本发明提供一种语义识别方法，包括：

步骤11：将待分析文本转换为第一向量和第二向量后，分别执行步骤12和步骤13，第一向量为词向量矩阵，第二向量为字向量矩阵；

步骤12：将第一向量输入第一卷积神经网络，输出第一特征向量；

步骤13：将第二向量输入第二卷积神经网络，输出第二特征向量；

步骤14：将第一特征向量和第二特征向量连接为第三特征向量；

步骤15：将第三特征向量输入分类器，输出待分析文本的语义识别结果。

本发明还提供一种非瞬时计算机可读存储介质，非瞬时计算机可读存储介质存储指令，指令在由处理器执行时使得处理器执行中上述的语义识别方法中的步骤。

本发明还提供一种语义识别装置，包括处理器和上述的非瞬时计算机可读存储介质。

本发明还提供一种语义识别模型，包括：

词向量生成模块：将待分析文本转换为第一向量，第一向量为词向量矩阵；

字向量生成模块：将待分析文本转换为第二向量，第二向量为字向量矩阵；

第一卷积神经网络：当输入第一向量时，输出第一特征向量；

第二卷积神经网络：当输入第二向量时，输出第二特征向量；

连接模块：将第一特征向量和第二特征向量连接为第三特征向量；

分类器：当第三特征向量输入分类器时，输出待分析文本的语义识别结果。

本发明采用双通道卷积运算进行特征提取，一个通道传入字级别的词向量，另一个通道传入词级别的词向量，利用细粒度的字级别词向量辅助词级别词向量捕捉自然语句更深层次的语义信息，从而提到语义识别结果的准确率，较于其他算法具有一定的优势。

附图说明

图1为本发明语义识别方法的流程图；

图2图1中第一卷积神经网络或第二卷积神经网络的第一结构图；

图3图1中第一卷积神经网络或第二卷积神经网络的第二结构图；

图4为本发明语义识别模型的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1所示，本发明提供一种语义识别方法，包括：

步骤11(S11)：将待分析文本转换为第一向量和第二向量后，分别执行步骤12和步骤13，第一向量为词向量矩阵，第二向量为字向量矩阵；

步骤12(S12)：将第一向量输入第一卷积神经网络，输出第一特征向量；

步骤13(S13)：将第二向量输入第二卷积神经网络，输出第二特征向量；

步骤14(S14)：将第一特征向量和第二特征向量连接为第三特征向量；

步骤15(S15)：将第三特征向量输入分类器，输出待分析文本的语义识别结果。

图1方法的特点在于步骤12和步骤13中的两个卷积神经网络通道，每个通道分别接收不同粒度的词向量和字向量；然后用卷积网络学习不同粒度的语义信息获取句子内部更深层次的抽象特征；最后把两个通道学习到的更深层次的抽象特征进行合并，达到利用细粒度的字级别的词向量辅助词级别词向量捕捉自然语句更深层次的语义信息的目的；最终用于决策自然语句想表达的意图，提高语义识别的准确率。

聊天机器人获取的日志数据中语句类型多样，传统的语句表示和基于统计的方法，仍停留在对词汇的表层处理，如词袋模型(Bag-Of-Words，BOW)或者是向量空间模型(Vector Space Model,VSM)，这样的浅层模型默认单词之间相互独立，只包含词频信息，忽略了文章的上下文信息，无法表达语句内部以及语句之间的相关性，对语句的语义表达造成了极大的损失。词向量的出现避免了使用传统特征表示产生的一些问题。本发明针对这点，采用细粒度的字向量辅助词向量以捕捉句子中更深层次的语义信息。

字向量：字级别特征是以单个字作为句子的基本组成单位。字向量作为中文处理的基本单位，在语句分析中起着重要作用，使用字向量的目的主要是为了解决未登录词的问题。比如：“这个房间高大尚”分词的结果为“这个房间高大尚”，这个句子中“高大尚”为一个词，分词后把它切分为两个词，这样导致分词后的词组反而改变了句子的语义信息。为了减弱分词后带来的问题，卷积神经网络的一个通道采用字向量作为输入，通过细粒度的字向量辅助词向量捕捉句子深层次的语义信息。

词向量：词级别特征就是利用分词器对句子进行分词，以词(包含长度为1的词)作为句子的基本组成单位，并对应生成一组向量，这组向量中的每个词用n维向量进行表示。词向量在卷积神经网络中具有非常重要的作用。词向量可以获取句法和语义信息，对句子意图识别至关重要。

其中，第一向量(词向量)和第二向量(字向量)的生成方法优选word2vec。

通过预先训练word2vec生成的词向量和字向量可以避免直接生成词向量带来的参数过大问题，一定程度上避免过拟合。

假设词向量的维度为k，每个句子的长度为n,X_i为第i个词，一个长度为n的句子可以描述为：

其中为连接操作符，X_i:i+j表示词向量X_i，X_i+1，…，X_i+j组成的特征矩阵。对于输入的待分析文本，根据其索引值，从预训练word2vec的词向量库中，查找出对应词的词向量，生成词向量矩阵。

第一卷积神经网络和第二卷积神经网络包括卷积层和池化层。

其中，卷积层的主要目的是通过卷积操作实现对待分析文本的局部感知。本发明通过使用不同尺寸的卷积核对输入的词向量与字向量进行卷积运算，以尽可能的捕获更多的上下文信息。如图2所示，优选使用卷积核h＝2，h＝3和h＝4三组不同的卷积单元，假设b为偏置项，W_h表示不同尺寸的卷积核对应的权重矩阵，D₁和D₂分别表示词向量通道和字向量通道，卷积后的输出为C_h，代表不同的卷积核输出的结果，计算公式如下：

C_h＝f(W_h·X_i:i+h-1+b)h＝2,3,4 (2)

为加快训练收敛速度,如图3所示，卷积层还可以包括激活单元，每个卷积单元对应设置一个激活单元，其中激活单元的激活函数优选Relu函数。

以步幅s＝1的卷积为例，当卷积核在句子为n的待分析文本上滑动结束后，共得到n-h+1个输出。所以最终生成的一个特征图为：

C⁽¹⁾＝C_h1,C_h2,…C_h,n-h+1h＝2,3,4 (3)

卷积神经网络中的池化层与卷积层对应设置，如图2或图3所示，第一池化单元与第一卷积单元对应，第二池化单元与第二卷积单元对应，第三池化单元与第三卷积单元对应。为了生成固定维度的特征向量以及减弱卷积操作之后带来的数据维度过高问题，需加入池化操作，本发明采用最大池化，对每个卷积单元的输出单独执行池化操作，经过最大池化操作后，卷积神经网络忽略弱的特征并提取出具有代表性的特征。最大池化公式如下：

C⁽²⁾＝max(C_h,i) (4)

假设每组卷积核的数量为m,最终池化后输出的特征集合为:

C⁽³⁾＝flatten

步骤14将第一卷积神经网络D₁和第二卷积神经网络D₂所提取的特征序列进行串联，整合出全局信息，形成最终的第三特征向量。

步骤15：将第三特征向量输入分类器，输出待分析文本的语义识别结果。其中分类器优选Softmax分类器，最终输出句子意图类别的预测值h_θ(x),h_θ(x)的定义如下：

其中h_θ(x⁽ⁱ⁾)表示第i个样本的预测值，w_i与b_i分别表示待训练的权重和偏置。

详细的语义识别算法流程如下所示。

实际应用中，图像、问句、音频、视频等数据大体上都是一些不完整、不一致的脏数据，无法直接用于语义识别或语义识别的结果差强人意。为了提高识别的质量，在步骤11前需要对数据进行相应的预处理操作，包括：

步骤10：待分析语料经预处理、数据编码和标准化操作后转换为待分析文本。

其中预处理包括：缺失值处理、非法字符过滤处理、停用词过滤、标签符号处理、数据词典的构建操作、和/或中文分词操作。通过预处理操作后可以大大的提高待分析文本的质量，降低语义识别的时间。

数据编码：将语料中的字符串类型转化成数值类型。

真实世界的数据集通常都含有分类型变量(categorical value)的特征，而机器学习算法(包含本申请语义识别算法)处理的是数值类型的数据，因此需要对这些标称型属性进行处理。对于那些不具备序列型，也不能比较大小的属性，通常不能用简单的数值进行粗暴映射。因为属性的数值大小会影响到权重矩阵的计算，不存在大小关系的属性，其权重也不应该发生相应的变化，因此就需要用到数据编码。本发明优选One-Hot-Encoder编码技术把没有顺序的特征值使用一组二进制数字进行表示。其具有以下优点：

(1)One-Hot-Encoder可以将离散的无序特征的取值扩展到欧式空间，离散特征的某一个取值就对应欧式空间的某个点。在机器学习算法(包含本申请语义识别算法)中，特征之间的计算或者相似度计算非常重要的，并且这些计算均基于欧式空间。

(2)将离散的无序特征通过One-Hot-Encoder扩展到欧式空间转换，可以使两个特征之间的距离计算变的更加合理。

标准化操作：对于数据的规模变化较大的特征，在使用语义识别算法之前需要预先对数据集进行标准化操作，这样有利于提高算法效果，减少算法识别时间等。本发明优选Standardization方法把数据特征转化成高斯分布，使得特征的均值为0，方差为1，公式如下。

本发明还提供一种非瞬时计算机可读存储介质，非瞬时计算机可读存储介质存储指令，指令在由处理器执行时使得处理器执行本发明任一的语义识别方法中的步骤。

进一步地，本发明还提供一种语义识别模型，如图4所示包括：

可选地，如图2所示，第一卷积神经网络和第二卷积神经网络包括卷积层和池化层，卷积层至少包括并行的第一卷积单元、第二卷积单元和第三卷积单元，池化层至少包括：第一池化单元、第二池化单元和第三池化单元。

可选地，第一、第二、第三卷积单元的卷积核尺寸依次为2、3、4。

可选地，第一、第二、第三池化单元均执行最大池化操作。

进一步地，卷积层还包括：位于第一、第二、第三卷积单元之后的第一、第二、第三激活单元。

可选地，第一、第二、第三激活单元的激活函数为ReLU。

可选地，图4中的分类器为Softmax分类器。

可选地，图4中的词向量生成模块和/或字向量生成模块为word2vec。

可选地，图4还包括：

语料处理模块：待分析语料经预处理、数据编码和标准化操作后转换为待分析文本。

进一步地，预处理包括：缺失值处理、非法字符过滤处理、停用词过滤、标签符号处理、数据词典的构建操作、和/或中文分词操作。

进一步地，数据编码采用One-Hot Endcoder。

下面介绍本发明相关的预先训练：

(一)word2vec

由于目前积累的语句多意图分类的数据量相对少，但在训练语义识别模型时参数量通常很大，为了避免模型陷入过拟合的危险，本发明采用预训练的词向量模型来减轻这一问题。最近的一些工作表明通过使用无监督学习得到的词向量模型，可以极大地提高模型的准确率，改善模型性能。

发明选用word2vec工具，进行无监督的词向量学习。word2vec实现了CBOW(continuous bag-of-words)和SG(skip-gram)两种结构，用于计算词语的向量表示。

对于字级别的词向量训练是以字作为句子的基本单位，为每个字训练一个词向量。对于词级别的词向量训练时，相对于英文数据来说，中文数据集需要利用Jieba分词工具对中文语料进行分词，以词作为句子的基本单位，为每个词训练一个词向量。预训练过程中的参数设置如表1所示。

表1

(二)语义识别模型的训练

本发明使用多值交叉熵(categorical_crossentropy)代价函数用于衡量语义识别模型的损失，采用小批量梯度递减方法(mini-batch Gradient Descent)对语义识别模型进行优化。多值交叉熵代价函数，以及用梯度递减的方法对多值交叉熵代价函数优化的公式如下：

Want min_θJ(θ)

本发明针对单通道卷积神经网络(Convolutional Neural Network,CNN)视角单一，又不能充分学习到语句的特征信息和语义信息。在研究和分析了CNN算法的基础上，提出了本发明语义识别模型(Intent Classification Dual-channel ConvolutionalNeural Networks，ICDCNN)。该模型首先采用Word2vec工具进行词向量和字向量提取语句文本中的语义信息向量；然后采用两个不同的通道进行卷积运算，一个通道传入字级别的词向量，另一个通道传入词级别的词向量，利用细粒度的字级别词向量辅助词级别词向量捕捉自然语言语句更深层次的语义信息；最后通过设置不同尺寸的卷积核，学习语句内部更深层次的抽象特征。通过对比测试表明，本发明语义识别模型在识别中文数据集上取得了较高的准确率，较于其他算法具有一定的优势。

以下给出对比测试结果，选用iDeepWise数据集，且测试中采用回调函数，各模型的准确率如表2所示。

表2

需要说明的是，本发明的语义识别模型和语义识别装置实施例，与语义识别方法的实施例原理相同，相关之处可以互相参照。

以上所述仅为本发明的较佳实施例而已，并不用以限定本发明的包含范围，凡在本发明技术方案的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语义识别方法，其特征在于，所述方法包括：

步骤11：将待分析文本转换为第一向量和第二向量后，分别执行步骤12和步骤13，所述第一向量为词向量矩阵，所述第二向量为字向量矩阵；

步骤12：将所述第一向量输入第一卷积神经网络，输出第一特征向量；

步骤13：将所述第二向量输入第二卷积神经网络，输出第二特征向量；

步骤14：将所述第一特征向量和第二特征向量连接为第三特征向量；

步骤15：将所述第三特征向量输入分类器，输出所述待分析文本的语义识别结果。

2.根据权利要求1所述的方法，其特征在于，所述第一卷积神经网络和第二卷积神经网络包括卷积层和池化层，所述卷积层至少包括并行的第一卷积单元、第二卷积单元和第三卷积单元，所述池化层至少包括：第一池化单元、第二池化单元和第三池化单元。

3.根据权利要求2所述的方法，其特征在于，所述第一、第二、第三卷积单元的卷积核尺寸依次为2、3、4。

4.根据权利要求2所述的识别方法，其特征在于，所述第一、第二、第三池化单元均执行最大池化操作。

5.根据权利要求3所述的方法，其特征在于，所述卷积层还包括：位于所述第一、第二、第三卷积单元之后的第一、第二、第三激活单元。

6.根据权利要求5所述的识别方法，其特征在于，所述第一、第二、第三激活单元的激活函数为ReLU。

7.根据权利要求1所述的方法，其特征在于，所述分类器为Softmax分类器。

8.根据权利要求1所述的方法，其特征在于，所述将待分析文本转换为第一向量和第二向量后包括：基于word2vec，将待分析文本转换为第一向量和第二向量后。

9.根据权利要求1所述的方法，其特征在于，所述步骤11之前还包括：

10.根据权利要求9所述的方法，其特征在于，所述预处理包括：缺失值处理、非法字符过滤处理、停用词过滤、标签符号处理、数据词典的构建操作、和/或中文分词操作。

11.根据权利要求9所述的方法，其特征在于，所述数据编码采用One-Hot Endcoder。

12.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至11中任一所述的语义识别方法中的步骤。

13.一种语义识别装置，其特征在于，包括处理器和如权利要求12所述的非瞬时计算机可读存储介质。

14.一种语义识别模型，其特征在于，包括：

词向量生成模块：将待分析文本转换为第一向量，所述第一向量为词向量矩阵；

字向量生成模块：将待分析文本转换为第二向量，所述第二向量为字向量矩阵；

第一卷积神经网络：当输入所述第一向量时，输出第一特征向量；

第二卷积神经网络：当输入所述第二向量时，输出第二特征向量；

连接模块：将所述第一特征向量和第二特征向量连接为第三特征向量；

分类器：当所述第三特征向量输入分类器时，输出所述待分析文本的语义识别结果。

15.根据权利要求14所述的语义识别模型，其特征在于，所述第一卷积神经网络和第二卷积神经网络包括卷积层和池化层，所述卷积层至少包括并行的第一卷积单元、第二卷积单元和第三卷积单元，所述池化层至少包括：第一池化单元、第二池化单元和第三池化单元。

16.根据权利要求15所述的语义识别模型，其特征在于，所述第一、第二、第三卷积单元的卷积核尺寸依次为2、3、4。

17.根据权利要求15所述的语义识别模型，其特征在于，所述第一、第二、第三池化单元均执行最大池化操作。

18.根据权利要求15所述的语义识别模型，其特征在于，所述卷积层还包括：位于所述第一、第二、第三卷积单元之后的第一、第二、第三激活单元。

19.根据权利要求18所述的语义识别模型，其特征在于，所述第一、第二、第三激活单元的激活函数为ReLU。

20.根据权利要求14所述的语义识别模型，其特征在于，所述分类器为Softmax分类器。

21.根据权利要求14所述的语义识别模型，其特征在于，所述词向量生成模块和/或所述字向量生成模块为word2vec。

22.根据权利要求14所述的语义识别模型，其特征在于，还包括：

23.根据权利要求22所述的语义识别模型，其特征在于，所述预处理包括：缺失值处理、非法字符过滤处理、停用词过滤、标签符号处理、数据词典的构建操作、和/或中文分词操作。

24.根据权利要求22所述的语义识别模型，其特征在于，所述数据编码采用One-HotEndcoder。

25.根据权利要求14至22任一所述的语义识别模型，其特征在于，所述语义识别模型训练时，使用多值交叉熵代价函数计算所述语义识别模型的损失，基于小批量梯度递减方法调整所述语义识别模型的参数。