CN110879934A

CN110879934A - 一种高效的Wide & Deep深度学习模型

Info

Publication number: CN110879934A
Application number: CN201911054827.XA
Authority: CN
Inventors: 傅啸
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Electronic Science and Technology University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-03-13
Anticipated expiration: 2039-10-31
Also published as: CN110879934B

Abstract

本发明公开了一种高效的Wide&Deep深度学习模型。本发明旨在解决深度学习模型中对人工特征的充分利用以及Wide&Deep模型预测时的计算消耗问题。本发明的实施方案是：首先对文本数据进行标注，其次构建Wide特征，然后对基于Wide&Deep的深度学习模型添加辅助训练任务，最后对文本内容进行预测。本发明提及的人工特征作为深度学习模型训练过程中的附加任务，为模型提供了更多的有效信息，提高了模型学习效率。并且，在文本内容预测时不需要计算Wide特征，从而提升了模型性能。不同宽度的卷积核卷积后，可以通过一次卷积block获得不同距离上的信息，这有助于提升模型性能。同时，减少调整不同卷积核的时间，通过模型学习能自动适应不同的卷积核宽度。

Description

一种高效的Wide＆Deep深度学习模型

技术领域

本发明涉及深度学习模型的一种高效的Wide&Deep深度学习模型，主要是深度学习模型的训练架构的设计方法。

背景技术

目前最主要的深度学习模型包括端到端的学习、人工特征、Wide&Deep模型。在Wide&Deep模型中，一般是先通过人工整理出有效的特征作为wide特征，以加速深度学习模型的训练速度,提高模型的性能。然后构建深度神经网络模型得到deep特征。最后计算wide特征和deep特征进行文本内容预测。但是,提取wide特征和deep特征是两个独立的过程，不能充分利用对方构建深度学习过程中的完整信息。并且在模型预测时需要先计算wide特征，再计算deep特征，使得模型的时效性较差。

发明内容

本发明旨在解决深度学习模型中对人工特征的充分利用以及Wide&Deep模型预测时的计算消耗问题。提出了一种高效的Wide&Deep深度学习模型。

本发明首先对文本数据进行标注，其次构建wide特征，然后对基于Wide&Deep的深度学习模型添加辅助训练任务，最后对文本内容进行预测。

本发明解决其技术问题所采用的技术方案如下：

步骤1：文本数据的预处理。

1-1.收集文本数据集X＝{x₁,x₂,…x_N}，N为总的训练样本数量。其中，x_i∈{x₁,x₂,…x_N}，x_i表示第i个待处理的文本数据。

1-2.利用人工对文本数据进行标记，针对文本数据集中每一个文本数据x_i，标记对应的y_i，y_i∈{0,1}。标记文本数据的目的在于根据业务需要利用人工经验对文本数据进行分析，其中，1表示和业务相关，0表示不相关。

1-3.利用Jieba分词器对文本数据集X进行分词，汇总得到所有文本数据的词表W，W＝{w₁,w₂…,w_D}，其中D为词表的总长度。w_k表示词表中第k个词。则文本数据x_i可以表示为

其中k_n表示文本数据x_i中第n个词在词表W中的序号，从而可用词表序号重新表示文本数据x_i＝{k₁,k₂…,k_n}。

步骤2：人工特征提取，构建wide特征。

2-1.统计文本数据集X中y_i＝1对应的所有文本数据x_i中的词，得到出现频率最高的与业务相关的词，并排序获得序列Ⅰ；以及y_i＝0对应的所有文本数据x_i中的词，得到出现频率最高的与业务不相关的词，并排序获得序列Ⅱ。

2-2.排除序列Ⅰ和序列Ⅱ中的语法型词汇，包括代词、冠词、连词等停用词。

2-3.将序列Ⅰ和序列Ⅱ中出现频率最高的文本特定词、j个高频词形成的组合作为wide特征,其中j范围为2-4，一般取值为2。

所述的排序通过计算如下两个公式进行：

对

和

分别进行排序获得序列Ⅰ和序列Ⅱ，获取序列Ⅰ中出现频率最大的5个词

以及序列Ⅱ出现频率最大的5个词

2-4.获得最终的wide特征

步骤3：构建Wide&Deep深度学习模型。具体过程如下：

3-1.对文本数据

的长度进行固定；

当文本数据的长度小于预设的固定长度时，使用“PAD”进行填充达到固定长度。

当文本数据的长度大于预设的固定长度时，丢弃超过预设的固定长度的部分；

如果文本数据中的词不在词表W中，使用“UNK”代替。

比如预设的固定长度为1024个词，如果原始词序列小于1024个，则使用“PAD”进行填充，如果长度超过1024则丢弃超过长度的部分。

3-2.建立每个词的embedding向量。将词表W中的所有词转化为预设的固定长度的稠密向量，比如用128维向量。

3-3.获取一维卷积block。使用多个不同宽度的卷积核同时对embedding向量进行卷积。将每个卷积核的卷积结果进行拼接，得到一维卷积block，每次卷积后保证序列长度不变。

比如使用宽度为1*128，3*128，5*128，7*128的卷积核，同时对embedding向量进行卷积；

3-4.多次叠加一维卷积。

利用3-3定义的一维卷积block对wide特征进行处理，得到新的embedding向量，在每次卷积后使用窗口大小为4，步长为4的最大池化。每一次最大池化操作后长度缩小1/4；反复进行4次卷积和最大池化操作；获取最终序列长度变为64，特征长度为8。

3-5.文本表示。将序列长度为64，特征长度为8的向量拉直成一个序列长度为512维的向量，得到整个文本序列的512维特征向量的表示。

3-6.构建损失函数。使用全连接层将512维特征向量映射成(16+1)*2维的向量，再通过softmax函数，转化为(16+1)*2个文本数据标记y_i的预测概率值，其中包括：1个文本数据标记的预测概率值，以及16个wide特征的预测概率值。损失函数可以表示为：

其中，y_i为文本数据标记，p_i为文本数据标记y_i的预测概率值，f_i,k为wide特征值，q_i,k为wide特征的预测概率值，i为数据标记的索引，表示第i个文本数据。

步骤4：模型训练。

通过梯度下降算法，求得步骤3-6中损失函数的最小化来训练模型。

步骤5：模型预测。

对需要预测的文本内容，利用步骤3计算出文本数据标记y_i的预测值，得到文本内容与业务的相关程度。

本发明有益效果如下：

本发明提及的人工特征作为深度学习模型训练过程中的附加任务，为模型提供了更多的有效信息，提高了模型学习效率。并且，在文本内容预测时不需要计算wide特征，从而提升了模型性能。

不同宽度的卷积核卷积后，可以通过一次卷积block获得不同距离上的信息，这有助于提升模型性能。同时，减少调整不同卷积核的时间，通过模型学习能自动适应不同的卷积核宽度。

附图说明

图1为本发明架构图；

图2为本发明训练模块的整体架构；

图3为本发明输入模块的具体流程；

图4为输入模块的具体流程示意图；

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1-4所示，一种高效的Wide&Deep深度学习模型，首先对文本数据进行标注，其次构建wide特征，然后对基于Wide&Deep的深度学习模型添加辅助训练任务，最后对文本内容进行预测。具体实现步骤如下：

步骤1：文本数据的预处理。

步骤2：人工特征提取，构建wide特征。

所述的排序通过计算如下两个公式进行：

对

和

以及序列Ⅱ出现频率最大的5个词

2-4.获得最终的wide特征

步骤3：构建Wide&Deep深度学习模型。具体过程如下：

3-1.对文本数据

的长度进行固定；

如果文本数据中的词不在词表W中，使用“UNK”代替。

3-4.多次叠加一维卷积。

步骤4：模型训练。

步骤5：模型预测。

如图1所示，本发明方法能包装成3个部分，其中，第一个部分为训练数据整理，主要是收集和清洗与任务相关的数据。第二个部分为wide特征构建，主要是通过行业知识，对数据进行加工，产生特征词典。第三个部分为模型训练，主要是利用训练数据和wide特征构建深度学习模型。

本发明核心的模型训练部分又包含3个阶段，如图1所示，包括：(1)模型输入，一般的是对文本数据进行结构化表示，具体如图3所示。(2)深度学习模型，由多个卷积block构成，每个卷积block结构如图4所示。(3)模型输出，本发明中包含文本数据标记的预测值和wide特征值。

Claims

1.一种高效的Wide&Deep深度学习模型，其特征在于包括如下步骤：

步骤1：文本数据的预处理，进行对文本数据进行标注；

步骤2：人工特征提取，构建wide特征；

步骤3：构建Wide&Deep深度学习模型；

步骤4：对Wide&Deep深度学习模型进行训练；

步骤5：通过模型对文本内容进行预测。

2.根据权利要求1所述的一种高效的Wide&Deep深度学习模型，其特征在于步骤1具体实现如下：

1-1.收集文本数据集X＝{x₁,x₂,…x_N}，N为总的训练样本数量；其中，x_i∈{x₁,x₂,…x_N}，x_i表示第i个待处理的文本数据；

1-2.利用人工对文本数据进行标记，针对文本数据集中每一个文本数据x_i，标记对应的y_i，y_i∈{0,1}；标记文本数据的目的在于根据业务需要利用人工经验对文本数据进行分析，其中，1表示和业务相关，0表示不相关；

1-3.利用Jieba分词器对文本数据集X进行分词，汇总得到所有文本数据的词表W，W＝{w₁,w₂…,w_D}，其中D为词表的总长度；w_k表示词表中第k个词；则文本数据x_i可以表示为

3.根据权利要求2所述的一种高效的Wide&Deep深度学习模型，其特征在于步骤2具体实现如下：

2-1.统计文本数据集X中y_i＝1对应的所有文本数据x_i中的词，得到出现频率最高的与业务相关的词，并排序获得序列Ⅰ；以及y_i＝0对应的所有文本数据x_i中的词，得到出现频率最高的与业务不相关的词，并排序获得序列Ⅱ；

2-2.排除序列Ⅰ和序列Ⅱ中的语法型词汇，包括代词、冠词、连词的停用词；

2-3.将序列Ⅰ和序列Ⅱ中出现频率最高的文本特定词、j个高频词形成的组合作为wide特征,其中j范围为2-4；

所述的排序通过计算如下两个公式进行：

对

和

以及序列Ⅱ出现频率最大的5个词

2-4.获得最终的wide特征

4.根据权利要求3所述的一种高效的Wide&Deep深度学习模型，其特征在于步骤3具体实现如下：

3-1.对文本数据

的长度进行固定；

当文本数据的长度小于预设的固定长度时，使用“PAD”进行填充达到固定长度；

如果文本数据中的词不在词表W中，使用“UNK”代替；

3-2.建立每个词的embedding向量；将词表W中的所有词转化为预设的固定长度的稠密向量；

3-3.获取一维卷积block；使用多个不同宽度的卷积核同时对embedding向量进行卷积；将每个卷积核的卷积结果进行拼接，得到一维卷积block，每次卷积后保证序列长度不变；

3-4.多次叠加一维卷积；

利用3-3定义的一维卷积block对wide特征进行处理，得到新的embedding向量，在每次卷积后使用窗口大小为4，步长为4的最大池化；每一次最大池化操作后长度缩小1/4；反复进行4次卷积和最大池化操作；获取最终序列长度变为64，特征长度为8；

3-5.文本表示；将序列长度为64，特征长度为8的向量拉直成一个序列长度为512维的向量，得到整个文本序列的512维特征向量的表示；

3-6.构建损失函数；使用全连接层将512维特征向量映射成(16+1)*2维的向量，再通过softmax函数，转化为(16+1)*2个文本数据标记y_i的预测概率值，其中包括：1个文本数据标记的预测概率值，以及16个wide特征的预测概率值；损失函数可以表示为：

5.根据权利要求4所述的一种高效的Wide&Deep深度学习模型，其特征在于步骤4通过梯度下降算法，求得步骤3-6中损失函数的最小化来训练模型。

6.根据权利要求5所述的一种高效的Wide&Deep深度学习模型，其特征在于步骤5对需要预测的文本内容，利用步骤3计算出文本数据标记y_i的预测值，得到文本内容与业务的相关程度。