CN110879934A - 一种高效的Wide & Deep深度学习模型 - Google Patents
一种高效的Wide & Deep深度学习模型 Download PDFInfo
- Publication number
- CN110879934A CN110879934A CN201911054827.XA CN201911054827A CN110879934A CN 110879934 A CN110879934 A CN 110879934A CN 201911054827 A CN201911054827 A CN 201911054827A CN 110879934 A CN110879934 A CN 110879934A
- Authority
- CN
- China
- Prior art keywords
- text data
- wide
- sequence
- length
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种高效的Wide&Deep深度学习模型。本发明旨在解决深度学习模型中对人工特征的充分利用以及Wide&Deep模型预测时的计算消耗问题。本发明的实施方案是:首先对文本数据进行标注,其次构建Wide特征,然后对基于Wide&Deep的深度学习模型添加辅助训练任务,最后对文本内容进行预测。本发明提及的人工特征作为深度学习模型训练过程中的附加任务,为模型提供了更多的有效信息,提高了模型学习效率。并且,在文本内容预测时不需要计算Wide特征,从而提升了模型性能。不同宽度的卷积核卷积后,可以通过一次卷积block获得不同距离上的信息,这有助于提升模型性能。同时,减少调整不同卷积核的时间,通过模型学习能自动适应不同的卷积核宽度。
Description
技术领域
本发明涉及深度学习模型的一种高效的Wide&Deep深度学习模型,主要是深度学习模型的训练架构的设计方法。
背景技术
目前最主要的深度学习模型包括端到端的学习、人工特征、Wide&Deep模型。在Wide&Deep模型中,一般是先通过人工整理出有效的特征作为wide特征,以加速深度学习模型的训练速度,提高模型的性能。然后构建深度神经网络模型得到deep特征。最后计算wide特征和deep特征进行文本内容预测。但是,提取wide特征和deep特征是两个独立的过程,不能充分利用对方构建深度学习过程中的完整信息。并且在模型预测时需要先计算wide特征,再计算deep特征,使得模型的时效性较差。
发明内容
本发明旨在解决深度学习模型中对人工特征的充分利用以及Wide&Deep模型预测时的计算消耗问题。提出了一种高效的Wide&Deep深度学习模型。
本发明首先对文本数据进行标注,其次构建wide特征,然后对基于Wide&Deep的深度学习模型添加辅助训练任务,最后对文本内容进行预测。
本发明解决其技术问题所采用的技术方案如下:
步骤1:文本数据的预处理。
1-1.收集文本数据集X={x1,x2,…xN},N为总的训练样本数量。其中,xi∈{x1,x2,…xN},xi表示第i个待处理的文本数据。
1-2.利用人工对文本数据进行标记,针对文本数据集中每一个文本数据xi,标记对应的yi,yi∈{0,1}。标记文本数据的目的在于根据业务需要利用人工经验对文本数据进行分析,其中,1表示和业务相关,0表示不相关。
1-3.利用Jieba分词器对文本数据集X进行分词,汇总得到所有文本数据的词表W,W={w1,w2…,wD},其中D为词表的总长度。wk表示词表中第k个词。则文本数据xi可以表示为其中kn表示文本数据xi中第n个词在词表W中的序号,从而可用词表序号重新表示文本数据xi={k1,k2…,kn}。
步骤2:人工特征提取,构建wide特征。
2-1.统计文本数据集X中yi=1对应的所有文本数据xi中的词,得到出现频率最高的与业务相关的词,并排序获得序列Ⅰ;以及yi=0对应的所有文本数据xi中的词,得到出现频率最高的与业务不相关的词,并排序获得序列Ⅱ。
2-2.排除序列Ⅰ和序列Ⅱ中的语法型词汇,包括代词、冠词、连词等停用词。
2-3.将序列Ⅰ和序列Ⅱ中出现频率最高的文本特定词、j个高频词形成的组合作为wide特征,其中j范围为2-4,一般取值为2。
所述的排序通过计算如下两个公式进行:
步骤3:构建Wide&Deep深度学习模型。具体过程如下:
当文本数据的长度小于预设的固定长度时,使用“PAD”进行填充达到固定长度。
当文本数据的长度大于预设的固定长度时,丢弃超过预设的固定长度的部分;
如果文本数据中的词不在词表W中,使用“UNK”代替。
比如预设的固定长度为1024个词,如果原始词序列小于1024个,则使用“PAD”进行填充,如果长度超过1024则丢弃超过长度的部分。
3-2.建立每个词的embedding向量。将词表W中的所有词转化为预设的固定长度的稠密向量,比如用128维向量。
3-3.获取一维卷积block。使用多个不同宽度的卷积核同时对embedding向量进行卷积。将每个卷积核的卷积结果进行拼接,得到一维卷积block,每次卷积后保证序列长度不变。
比如使用宽度为1*128,3*128,5*128,7*128的卷积核,同时对embedding向量进行卷积;
3-4.多次叠加一维卷积。
利用3-3定义的一维卷积block对wide特征进行处理,得到新的embedding向量,在每次卷积后使用窗口大小为4,步长为4的最大池化。每一次最大池化操作后长度缩小1/4;反复进行4次卷积和最大池化操作;获取最终序列长度变为64,特征长度为8。
3-5.文本表示。将序列长度为64,特征长度为8的向量拉直成一个序列长度为512维的向量,得到整个文本序列的512维特征向量的表示。
3-6.构建损失函数。使用全连接层将512维特征向量映射成(16+1)*2维的向量,再通过softmax函数,转化为(16+1)*2个文本数据标记yi的预测概率值,其中包括:1个文本数据标记的预测概率值,以及16个wide特征的预测概率值。损失函数可以表示为:
其中,yi为文本数据标记,pi为文本数据标记yi的预测概率值,fi,k为wide特征值,qi,k为wide特征的预测概率值,i为数据标记的索引,表示第i个文本数据。
步骤4:模型训练。
通过梯度下降算法,求得步骤3-6中损失函数的最小化来训练模型。
步骤5:模型预测。
对需要预测的文本内容,利用步骤3计算出文本数据标记yi的预测值,得到文本内容与业务的相关程度。
本发明有益效果如下:
本发明提及的人工特征作为深度学习模型训练过程中的附加任务,为模型提供了更多的有效信息,提高了模型学习效率。并且,在文本内容预测时不需要计算wide特征,从而提升了模型性能。
不同宽度的卷积核卷积后,可以通过一次卷积block获得不同距离上的信息,这有助于提升模型性能。同时,减少调整不同卷积核的时间,通过模型学习能自动适应不同的卷积核宽度。
附图说明
图1为本发明架构图;
图2为本发明训练模块的整体架构;
图3为本发明输入模块的具体流程;
图4为输入模块的具体流程示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1-4所示,一种高效的Wide&Deep深度学习模型,首先对文本数据进行标注,其次构建wide特征,然后对基于Wide&Deep的深度学习模型添加辅助训练任务,最后对文本内容进行预测。具体实现步骤如下:
步骤1:文本数据的预处理。
1-1.收集文本数据集X={x1,x2,…xN},N为总的训练样本数量。其中,xi∈{x1,x2,…xN},xi表示第i个待处理的文本数据。
1-2.利用人工对文本数据进行标记,针对文本数据集中每一个文本数据xi,标记对应的yi,yi∈{0,1}。标记文本数据的目的在于根据业务需要利用人工经验对文本数据进行分析,其中,1表示和业务相关,0表示不相关。
1-3.利用Jieba分词器对文本数据集X进行分词,汇总得到所有文本数据的词表W,W={w1,w2…,wD},其中D为词表的总长度。wk表示词表中第k个词。则文本数据xi可以表示为其中kn表示文本数据xi中第n个词在词表W中的序号,从而可用词表序号重新表示文本数据xi={k1,k2…,kn}。
步骤2:人工特征提取,构建wide特征。
2-1.统计文本数据集X中yi=1对应的所有文本数据xi中的词,得到出现频率最高的与业务相关的词,并排序获得序列Ⅰ;以及yi=0对应的所有文本数据xi中的词,得到出现频率最高的与业务不相关的词,并排序获得序列Ⅱ。
2-2.排除序列Ⅰ和序列Ⅱ中的语法型词汇,包括代词、冠词、连词等停用词。
2-3.将序列Ⅰ和序列Ⅱ中出现频率最高的文本特定词、j个高频词形成的组合作为wide特征,其中j范围为2-4,一般取值为2。
所述的排序通过计算如下两个公式进行:
步骤3:构建Wide&Deep深度学习模型。具体过程如下:
当文本数据的长度小于预设的固定长度时,使用“PAD”进行填充达到固定长度。
当文本数据的长度大于预设的固定长度时,丢弃超过预设的固定长度的部分;
如果文本数据中的词不在词表W中,使用“UNK”代替。
比如预设的固定长度为1024个词,如果原始词序列小于1024个,则使用“PAD”进行填充,如果长度超过1024则丢弃超过长度的部分。
3-2.建立每个词的embedding向量。将词表W中的所有词转化为预设的固定长度的稠密向量,比如用128维向量。
3-3.获取一维卷积block。使用多个不同宽度的卷积核同时对embedding向量进行卷积。将每个卷积核的卷积结果进行拼接,得到一维卷积block,每次卷积后保证序列长度不变。
比如使用宽度为1*128,3*128,5*128,7*128的卷积核,同时对embedding向量进行卷积;
3-4.多次叠加一维卷积。
利用3-3定义的一维卷积block对wide特征进行处理,得到新的embedding向量,在每次卷积后使用窗口大小为4,步长为4的最大池化。每一次最大池化操作后长度缩小1/4;反复进行4次卷积和最大池化操作;获取最终序列长度变为64,特征长度为8。
3-5.文本表示。将序列长度为64,特征长度为8的向量拉直成一个序列长度为512维的向量,得到整个文本序列的512维特征向量的表示。
3-6.构建损失函数。使用全连接层将512维特征向量映射成(16+1)*2维的向量,再通过softmax函数,转化为(16+1)*2个文本数据标记yi的预测概率值,其中包括:1个文本数据标记的预测概率值,以及16个wide特征的预测概率值。损失函数可以表示为:
其中,yi为文本数据标记,pi为文本数据标记yi的预测概率值,fi,k为wide特征值,qi,k为wide特征的预测概率值,i为数据标记的索引,表示第i个文本数据。
步骤4:模型训练。
通过梯度下降算法,求得步骤3-6中损失函数的最小化来训练模型。
步骤5:模型预测。
对需要预测的文本内容,利用步骤3计算出文本数据标记yi的预测值,得到文本内容与业务的相关程度。
如图1所示,本发明方法能包装成3个部分,其中,第一个部分为训练数据整理,主要是收集和清洗与任务相关的数据。第二个部分为wide特征构建,主要是通过行业知识,对数据进行加工,产生特征词典。第三个部分为模型训练,主要是利用训练数据和wide特征构建深度学习模型。
本发明核心的模型训练部分又包含3个阶段,如图1所示,包括:(1)模型输入,一般的是对文本数据进行结构化表示,具体如图3所示。(2)深度学习模型,由多个卷积block构成,每个卷积block结构如图4所示。(3)模型输出,本发明中包含文本数据标记的预测值和wide特征值。
Claims (6)
1.一种高效的Wide&Deep深度学习模型,其特征在于包括如下步骤:
步骤1:文本数据的预处理,进行对文本数据进行标注;
步骤2:人工特征提取,构建wide特征;
步骤3:构建Wide&Deep深度学习模型;
步骤4:对Wide&Deep深度学习模型进行训练;
步骤5:通过模型对文本内容进行预测。
2.根据权利要求1所述的一种高效的Wide&Deep深度学习模型,其特征在于步骤1具体实现如下:
1-1.收集文本数据集X={x1,x2,…xN},N为总的训练样本数量;其中,xi∈{x1,x2,…xN},xi表示第i个待处理的文本数据;
1-2.利用人工对文本数据进行标记,针对文本数据集中每一个文本数据xi,标记对应的yi,yi∈{0,1};标记文本数据的目的在于根据业务需要利用人工经验对文本数据进行分析,其中,1表示和业务相关,0表示不相关;
3.根据权利要求2所述的一种高效的Wide&Deep深度学习模型,其特征在于步骤2具体实现如下:
2-1.统计文本数据集X中yi=1对应的所有文本数据xi中的词,得到出现频率最高的与业务相关的词,并排序获得序列Ⅰ;以及yi=0对应的所有文本数据xi中的词,得到出现频率最高的与业务不相关的词,并排序获得序列Ⅱ;
2-2.排除序列Ⅰ和序列Ⅱ中的语法型词汇,包括代词、冠词、连词的停用词;
2-3.将序列Ⅰ和序列Ⅱ中出现频率最高的文本特定词、j个高频词形成的组合作为wide特征,其中j范围为2-4;
所述的排序通过计算如下两个公式进行:
4.根据权利要求3所述的一种高效的Wide&Deep深度学习模型,其特征在于步骤3具体实现如下:
当文本数据的长度小于预设的固定长度时,使用“PAD”进行填充达到固定长度;
当文本数据的长度大于预设的固定长度时,丢弃超过预设的固定长度的部分;
如果文本数据中的词不在词表W中,使用“UNK”代替;
3-2.建立每个词的embedding向量;将词表W中的所有词转化为预设的固定长度的稠密向量;
3-3.获取一维卷积block;使用多个不同宽度的卷积核同时对embedding向量进行卷积;将每个卷积核的卷积结果进行拼接,得到一维卷积block,每次卷积后保证序列长度不变;
3-4.多次叠加一维卷积;
利用3-3定义的一维卷积block对wide特征进行处理,得到新的embedding向量,在每次卷积后使用窗口大小为4,步长为4的最大池化;每一次最大池化操作后长度缩小1/4;反复进行4次卷积和最大池化操作;获取最终序列长度变为64,特征长度为8;
3-5.文本表示;将序列长度为64,特征长度为8的向量拉直成一个序列长度为512维的向量,得到整个文本序列的512维特征向量的表示;
3-6.构建损失函数;使用全连接层将512维特征向量映射成(16+1)*2维的向量,再通过softmax函数,转化为(16+1)*2个文本数据标记yi的预测概率值,其中包括:1个文本数据标记的预测概率值,以及16个wide特征的预测概率值;损失函数可以表示为:
其中,yi为文本数据标记,pi为文本数据标记yi的预测概率值,fi,k为wide特征值,qi,k为wide特征的预测概率值,i为数据标记的索引,表示第i个文本数据。
5.根据权利要求4所述的一种高效的Wide&Deep深度学习模型,其特征在于步骤4通过梯度下降算法,求得步骤3-6中损失函数的最小化来训练模型。
6.根据权利要求5所述的一种高效的Wide&Deep深度学习模型,其特征在于步骤5对需要预测的文本内容,利用步骤3计算出文本数据标记yi的预测值,得到文本内容与业务的相关程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911054827.XA CN110879934B (zh) | 2019-10-31 | 2019-10-31 | 一种基于Wide&Deep深度学习模型的文本预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911054827.XA CN110879934B (zh) | 2019-10-31 | 2019-10-31 | 一种基于Wide&Deep深度学习模型的文本预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110879934A true CN110879934A (zh) | 2020-03-13 |
CN110879934B CN110879934B (zh) | 2023-05-23 |
Family
ID=69728142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911054827.XA Active CN110879934B (zh) | 2019-10-31 | 2019-10-31 | 一种基于Wide&Deep深度学习模型的文本预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110879934B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762467A (zh) * | 2021-08-12 | 2021-12-07 | 生态环境部卫星环境应用中心 | 基于紫外和可见高光谱获得近地面臭氧浓度的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3144860A2 (en) * | 2015-09-17 | 2017-03-22 | Panasonic Intellectual Property Management Co., Ltd. | Subject estimation system for estimating subject of dialog |
CN109582794A (zh) * | 2018-11-29 | 2019-04-05 | 南京信息工程大学 | 基于深度学习的长文分类方法 |
CN109657246A (zh) * | 2018-12-19 | 2019-04-19 | 中山大学 | 一种基于深度学习的抽取式机器阅读理解模型的建立方法 |
CN110032980A (zh) * | 2019-04-18 | 2019-07-19 | 天津工业大学 | 一种基于深度学习的器官检测与识别定位方法 |
WO2019149135A1 (zh) * | 2018-02-05 | 2019-08-08 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
CN110287180A (zh) * | 2019-06-25 | 2019-09-27 | 上海诚数信息科技有限公司 | 一种基于深度学习的风控建模方法 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
-
2019
- 2019-10-31 CN CN201911054827.XA patent/CN110879934B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3144860A2 (en) * | 2015-09-17 | 2017-03-22 | Panasonic Intellectual Property Management Co., Ltd. | Subject estimation system for estimating subject of dialog |
WO2019149135A1 (zh) * | 2018-02-05 | 2019-08-08 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN109582794A (zh) * | 2018-11-29 | 2019-04-05 | 南京信息工程大学 | 基于深度学习的长文分类方法 |
CN109657246A (zh) * | 2018-12-19 | 2019-04-19 | 中山大学 | 一种基于深度学习的抽取式机器阅读理解模型的建立方法 |
CN110032980A (zh) * | 2019-04-18 | 2019-07-19 | 天津工业大学 | 一种基于深度学习的器官检测与识别定位方法 |
CN110287180A (zh) * | 2019-06-25 | 2019-09-27 | 上海诚数信息科技有限公司 | 一种基于深度学习的风控建模方法 |
Non-Patent Citations (2)
Title |
---|
CONNEAU A: "Very deep convolutional networks for text classification" * |
涂文博;袁贞明;俞凯;: "无池化层卷积神经网络的中文分词方法" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762467A (zh) * | 2021-08-12 | 2021-12-07 | 生态环境部卫星环境应用中心 | 基于紫外和可见高光谱获得近地面臭氧浓度的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110879934B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN110442707B (zh) | 一种基于seq2seq的多标签文本分类方法 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN107451278A (zh) | 基于多隐层极限学习机的中文文本分类方法 | |
CN110674305A (zh) | 一种基于深层特征融合模型的商品信息分类方法 | |
CN111340123A (zh) | 一种基于深度卷积神经网络的图像分数标签预测方法 | |
CN107330446A (zh) | 一种面向图像分类的深度卷积神经网络的优化方法 | |
CN109492230B (zh) | 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 | |
CN112052687B (zh) | 基于深度可分离卷积的语义特征处理方法、装置及介质 | |
CN110399895A (zh) | 图像识别的方法和装置 | |
CN110348012B (zh) | 确定目标字符的方法、装置、存储介质及电子装置 | |
CN112990196B (zh) | 基于超参数搜索和二阶段训练的场景文字识别方法及系统 | |
CN110532568B (zh) | 基于树特征选择和迁移学习的汉语词义消歧方法 | |
CN110019653B (zh) | 一种融合文本和标签网络的社交内容表征方法和系统 | |
CN111985612A (zh) | 一种提高视频文本描述准确性的编码器网络模型设计方法 | |
CN111967267A (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN105224577A (zh) | 一种多标签文本分类方法及系统 | |
CN110569355A (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN113722494A (zh) | 一种基于自然语言理解的设备故障定位方法 | |
CN110879934A (zh) | 一种高效的Wide & Deep深度学习模型 | |
CN113743079A (zh) | 一种基于共现实体交互图的文本相似度计算方法及装置 | |
CN110866118B (zh) | 一种深度学习模型的超参数调优方法 | |
CN110555462A (zh) | 基于卷积神经网络的无固定多字符验证码识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |