CN109508377A - 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 - Google Patents
基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 Download PDFInfo
- Publication number
- CN109508377A CN109508377A CN201811420523.6A CN201811420523A CN109508377A CN 109508377 A CN109508377 A CN 109508377A CN 201811420523 A CN201811420523 A CN 201811420523A CN 109508377 A CN109508377 A CN 109508377A
- Authority
- CN
- China
- Prior art keywords
- feature
- text
- model
- word
- neural networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 54
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 15
- 238000010276 construction Methods 0.000 claims abstract description 6
- 239000000284 extract Substances 0.000 claims description 18
- 230000003993 interaction Effects 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 230000008034 disappearance Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质。提取方法包括以下步骤:S1、将词采用Word2vec模型,利用Skip‑gram模型构建词向量,再将词组成的句子映射为句子矩阵;S2、采用卷积神经网络提取词向量的局部特征;S3、采用BLSTM模型提取与词向量上下文相关的全局特征;S4、通过Attention机制提取局部特征、全局特征更深层次的信息特征,并将提取的特征进行融合;S5、将网络逐层提取得到的文本特征向量使用soft‑max分类器进行文本分类。本发明既解决了单卷积神经网络忽略词语在上下文语义信息的问题,也有效的避免了传统循环神经网络梯度消失或者梯度弥散的问题。
Description
技术领域
本发明属于文本处理技术领域,具体涉及一种基于CNN-BLSTM-Attention融合模型的文本特征提取方法、装置、聊天机器人和存储介质。
背景技术
目前在文本特征提取上依然采用人工特征工程和浅层分类模型进行文本分类。训练文本分类器过程如图1所示。机器学习问题把数据转换成信息再提炼到知识的过程,决定了结果的上限,而模型和算法,则是去逼近这个上限,特征工程不同于分类器模型,十分耗时,且不具备很强的通用性,往往需要结合对特征任务的理解。
所以一般都采用深度学习方法进行文本特征提取,主要包括:卷积神经网络模型(CNN)和长短期记忆人工神经网络(LSTM)。
深度学习方法进行文本分类的第一步是将文本向量化,利用词向量表示文本,作为神经网络的输入。传统的文本表示方法是基于向量空间模型或one-hot表示。向量空间模型中向量的维度与词典中词的个数线性相关,随着数量的增多会产生维度灾难,one-hot虽然简单但是忽略了词语之间的语义。
卷积神经网络是神经网络的一种专门处理矩阵输入的任务,如图2所示,能够将矩阵形式的输入编码为较低维度的一维向量,而保留大多数有用信息。虽然卷积神经网络在文本分类中取得了巨大的突破,但是卷积神经网络更加关注于局部特征而忽略词的上下文含义,这对文本分类的准确率有一定的影响。
LSTM的思想是:每一个单词经过embedding(嵌入层)之后,进入LSTM层,经过一个时间序列得到的神经单元的向量,这些向量经过mean pooling层(平均池化层)之后,可以得到一个组合向量,然后紧接着是一个简单的softmax层(分类器)得到一个类别分布向量。
同时,随着社会的日益信息化,人们更希望能够用自然语言在和机器人交流的过程中,得到自己想要的答案比如:股票查询。在和机器人的聊天的过程中会产生大量的数据,这些数据不光体现了用户的需求和意图,而且具有多样性,如果能够识别用户的需求和意图的话,那么机器人会更智能地提供服务。
在聊天机器人股价查询意图的识别上,传统的SVM方法(如图3所示)采用的是模式匹配或者是基特征进行模型的训练,分类简单但准确性低,CNN更好地利用聊天的上下文从而提取出特征优于刻画局部特征,但是CNN存在对文本的读取的时间序列需求的进一步优化
基于此,本发明提出如何结合上下文语境来进行文本特征提取,以识别用户的意图和需求,通过聊天能够针对性地回答用户的问题。
发明内容
本发明提供一种基于CNN-BLSTM-Attention融合模型的文本特征提取方法、装置、聊天机器人和存储介质,结合上下文语境来进行文本特征提取,以识别用户的意图和需求,通过聊天能够针对性地回答用户的问题。
为解决上述技术问题,本发明采用了如下的技术方案:
基于融合模型的文本特征提取方法,包括以下步骤:
S1、将词采用Word2vec模型,利用Skip-gram模型构建词向量,再将词组成的句子映射为句子矩阵;
S2、采用卷积神经网络提取词向量的局部特征;
S3、采用BLSTM模型提取与词向量上下文相关的全局特征;
S4、通过Attention机制提取局部特征、全局特征更深层次的信息特征,并将提取的特征进行融合;
S5、将网络逐层提取得到的文本特征向量使用soft-max分类器进行文本分类。
进一步地,所述步骤S2具体包括以下步骤:
S21、将句子矩阵作为输入,输入到卷积神经网络的词嵌入层;
S22、卷积神经网络的卷积层进行卷积操作,提取局部特征;
S23、卷积神经网络的池化层进行池化操作,提取关键特征,舍弃冗余特征,生成固定维度的特征向量,将三个池化操作输出的特征拼接起来,得到输出,作为第一层全连接层输入特征的一部分。
进一步地,所述步骤S22具体为:选用3*80、4*80、5*80大小的滤波器各40个,步长stride大小设置为2,padding为VALID,进行卷积运算,通过卷积操作来提取句子的局部特征。
进一步地,所述步骤S3具体为:
S31、将句子矩阵作为输入,输入到BLSTM模型的词嵌入层;
S32、BLSTM模型的两个隐藏层保存两个方向的历史信息和未来信息;
S33、将两个隐藏层输出部分拼接,得到输出,作为第一层全连接层输入特征的一部分。
进一步地,还包括采用tensorflow框架中的concat()方法对卷积神经网络和BLSTM模型输出的特征进行融合,将融合后的特征保存在output中,将其作为第一个全连接层的输入,再连接第二个全连接层,在第二个全连接层之后引入dropout机制。
进一步地,所述步骤S4具体公式描述为:
et,i=Vαtanh(Wqt+Uki)
其中et,i表示target中某个元素qt与source中某个ki的相似值,Vα、W、U为随机化参数;αt,i表示et,i的归一化值、et,j表示target中某个元素qt与source中各个kj的相似值,且j=[1,N];vt表示元素qt的最终Attention值。
本发明还提供一种基于融合模型的文本特征提取装置,包括:
词向量构建模块,用于采用Word2vec模型,利用Skip-gram模型构建词向量;
卷积神经网络模块,用于采用卷积神经网络提取词向量的局部特征;
BLSTM模型模块,用于采用BLSTM模型提取与局部特征上下文相关的全局特征;
Attention机制模块,通过Attention机制提取全局特征更深层次的信息特征,并将提取的特征进行融合;
文本分类模块,用于将网络逐层提取得到的文本特征向量使用soft-max分类器进行文本分类。
进一步地,还包括映射模块,用于将词组成的句子映射为句子矩阵。
本发明还提供一种聊天机器人,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述基于融合模型的文本特征提取方法;
交互界面,用于处理器在执行程序时提供人机交互。
本发明还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行以实现上述基于融合模型的文本特征提取方法。
本发明的有益效果是:本发明提供一种实现文本特征提取的方法,该方法利用卷积神经网络提取文本向量的局部特征,利用BLSTM提取与文本上下文相关的全局特征,再通过Attention机制提取更深层次的信息,将提取的特征进行融合,既解决了单卷积神经网络忽略词语在上下文语义信息的问题,也有效的避免了传统循环神经网络梯度消失或者梯度弥散的问题。结果表明,与传统的方法相比,融合模型提升了文本分类的准确率,从而能够通过聊天文本准确地识别用户的意图(例如股票查询),了解用户接下来的操作意图,有针对性地进行信息(股票信息)的推荐,更好地服务于用户。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是现有技术中文本特征提取流程图。
图2是现有技术中卷积神经网络的模型图。
图3是现有技术中在聊天机器人股价查询意图的识别上所采用的传统SVM方法模型图。
图4是现有技术中Skip-gram模型的模型图。
图5是本发明中BLSTM模型的模型图。
图6是本发明中CNN-BLSTM-Attention机制融合的模型图。
图7是本发明提供的实现文本特征提取的方法的流程图。
图8是本发明提供中卷积神经网络提取词向量的局部特征的流程图。
图9是本发明提供中采用BLSTM模型提取与词向量上下文相关的全局特征的流程图。
图10是本发明中的基于融合模型的文本特征提取装置的框架图。
图11是本发明中的聊天机器人的框架图。
图12是本发明中的聊天机器人应用在股票领域中的模型。
图13是本发明中的聊天机器人应用在股票领域中的流程。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
实施例一
本实施例中所提到的文本包括词语或者句子,词语是词和语的合称,包括单词、词组及整个词汇,文字组成语句文章的最小组词结构形式。句子是语言运用的基本单位,它由词、词组(短语)构成,能表达一个完整的意思。
本实施例提供基于CNN-BLSTM-Attention融合模型的的文本特征提取方法,该方法适用于文本特征提取的情况,该方法可以由遵循文本特征规则的提取装置来执行,且文本特征规则的提取装置可以由软件和/或硬件的方式来实现,如图5-图8所示,本实施例的基于CNN-BLSTM-Attention融合模型的的文本特征提取方法包括以下步骤:
S1、词向量的构建,采用Word2vec模型,利用Skip-gram模型将词W(i)转化为对应的词向量V(W(i)),并将由词W(i)组成的句子映射为句子矩阵Sj;
Sj={V(W(1),V(W(2),...,V(W(m))}其中m代表句子矩阵Sj中句子的个数;
Skip-gram模型如图4所示,Skip-gram模型由输入层(input),映射层(projection)和输出层(output)构成。Skip-gram输入是当前词W(t)的向量形式,输出是周围词的向量形式,通过当前词来预测周围的词,如果上下文窗口大小设置为4,已知中间词W(t)所对应的向量形式为V(W(t)),利用V(W(t))预测出周围4个词所对应的向量形式,Context(w)={V(W(t+2)),V(W(t+1)),V(W(t-1)),V(W(t-2))},skip-gram模型计算周围词向量是利用中间词向量V(W(t))的条件概率值来求解,公式如下:
P(V(W(i))|V(W(t)))
其中V(W(t))为中间词W(t)所对应的向量形式,V(W(i))表示中间词W(t)左右周围的4个词所对应的向量形式,为V(W(t+2)),V(W(t+1)),V(W(t-1)),V(W(t-2))中的任意一个。
S2、采用卷积神经网络提取词向量的局部特征,参阅图2和图8所示,具体为:
首先、卷积神经网络部分第一层是词嵌入层,将句子矩阵Sj作为词嵌入层的输入,矩阵的列是词向量的维度,矩阵的行为sequence_length的长度;
然后、第二层是卷积层,进行卷积操作,提取局部特征,本实施例分别选用3*80,4*80,5*80大小滤波器各40个,步长stride大小设置为2,padding为VALID,进行卷积运算,通过卷积操作来提取句子的局部特征;
最后、第三层进行最大池化操作,提取关键特征,舍弃冗余特征,生成固定维度的特征向量,将三个池化操作输出的特征拼接起来,作为第一层全连接层输入特征的一部分。
S3、采用BLSTM模型提取与词向量上下文相关的全局特征。虽然LSTM解决了RNN会发生梯度消失或者梯度爆炸的问题,但是LSTM只能学习当前词之前的信息,不能利用当前词之后的信息,因为一个词的语义和上下文的信息有着密切关系,所以本实施例利用BLSTM代替LSTM,既克服了梯度消失或者梯度爆炸的问题,又能充分考虑当前词的上下文语信息。
如图5和图9所示,BLSTM模型的具体方法如下:
首先,BLSTM部分第一层是词嵌入层,将句子矩阵Sj作为词嵌入层的输入,每一个词向量维度设置为80维;
然后、第二层、第三层均为隐藏层,隐藏层大小均为128,当前输入与前后序列都相关,将输入序列分别从两个方向输入模型,经过隐含层保存两个方向的历史信息和未来信息;
最后、将两个隐层输出部分拼接,得到后BLSTM的输出,代码如下:
output_blstm=rnn.static_bidirectional_rnn(fw,bw,inputs)
利用BLSTM模型提取词的上下文语义信息,提取文本中词的全局特征。本文在第一个FC全连接层前,使用tensorflow框架中的concat()方法对CNN和BLSTM输出的特征进行融合,融合代码如下:
output=tf.concat([output_cnn,output_blstm],axis=1);
将融合后的特征保存在output中,将其作为第一个FC全连接层的输入,再连接第二个FC全连接层,在第二个全连接层之后引入dropout机制,每次迭代放弃部分训练好的参数,使权值更新不再依赖部分固有特征,防止过拟合;接着,使用Attention注意力机制网络层分别对文本中重要的词语和语句进行选择,最后,将提取得到的文本特征向量使用softmax分类器进行文本分类,至此机器人就相应地响应用户所需要的目标信息。
S4、通过Attention机制提取局部特征、全局特征更深层次的信息特征,并将提取的特征进行融合。对于过长的句子,容易丢失一些信息,即使是LSTM,虽然可以在一定程度上解决这个问题,但是对于更长的句子便显得不足,由于在文本中,每一个词语或者句子对于文本类别的贡献度是不一样的,为了实现对重要词语的特征进行提取,所以本实施例中Attention机制的思想是,在预测某个位置时,只考虑句子中的部分内容,而不是全部信息,使用Attention可以更好地表征文本,使训练出的模型具有更高的精度并为模型提供了更好地解释性。
Attention机制可以归纳为三个步骤:第一步,将source中的构成元素想象成是由一系列的<Key,Value>数据对构成,此时给定Target中的某个元素q,通过计算q和各个k的相似性或者相关性,得到每个k对应的Value的权重系数;第二步,对第一阶段的原始分值进行归一化处理;第三步,权重系数对Value进行加权求和得到最终的Attention值,具体公式描述为:
et,i=Vαtanh(Wqt+Uki)
其中et,i表示target中某个元素qt与source中某个ki的相似值,Vα、W、U为随机化参数;αt,i表示et,i的归一化值、et,j表示target中某个元素qt与source中各个kj的相似值,且j=[1,N];vt表示元素qt的最终Attention值。
S5、将网络逐层提取得到的文本特征向量使用soft-max分类器进行文本分类;
yi=softmax(wcV+bc),i∈[1,n],n为类别c的个数。
其中yi表示对应类别的分布概率,wc、bc为随机初始化参数。
实施例二
本实施例提供一种基于融合模型的文本特征提取装置,包括:
词向量构建模块,用于采用Word2vec模型,利用Skip-gram模型构建词向量;
卷积神经网络模块,用于采用卷积神经网络提取词向量的局部特征;
BLSTM模型模块,用于采用BLSTM模型提取与局部特征上下文相关的全局特征;
Attention机制模块,通过Attention机制提取全局特征更深层次的信息特征,并将提取的特征进行融合;
文本分类模块,用于将网络逐层提取得到的文本特征向量使用soft-max分类器进行文本分类。
本实施例的文本特征提取装置还包括映射模块,用于将将词组成的句子映射为句子矩阵。
本实施例所提供的一种基于融合模型的文本特征提取装置,与本发明实施例一所提供的基于融合模型的文本特征提取方法属于同一发明构思,可执行本实施例一所提供的基于融合模型的文本特征提取方法,具备相应的功能和有益效果。
实施例三
参阅图11所示,提供了本实施例的一种聊天机器人的框架图,图11仅提供了一种实施例,但是该实施例不应对本发明的功能和适用范围带来任何限制。
如图11所示,聊天机器人一般是表现在计算机设备上的,聊天机器人可以包括但不限制于:
一个或多个处理器100,主要用于执行存储装置20内所存储的一个或多个程序。
存储装置200,用于存储一个或多个程序。
当一个或多个程序被一个或多个处理器100执行,使得一个或多个处理器100实现实施例一所述的基于融合模型的文本特征提取方法。
交互界面300,用于处理器100在执行程序时提供人机交互。
本实施例所提供的聊天机器人集合在计算机设备、平板、移动终端等设备中。
本实施例所提供的聊天机器人主要为实现人机交互,即人们通过在交互界面中输入词语或者句子时,通过处理器100执行实施例一中的基于融合模型的文本特征提取方法进而提升了文本分类的准确率,从而能够通过聊天文本准确地识别用户的意图,了解用户接下来的操作意图,有针对性地进行信息的推荐,更好地服务于用户。
例如,在股票领域中,本实施例的聊天机器人就能很好的使用。
参阅图12所示,为聊天机器人应用在股票领域中的模型,第一层是domain(范围),如确定是股价这一领域,第二层是该领域下的intent(含义),比如说search_stock_price(查询股价),最下面一层是intent下面的slots(原型)。
具体在使用时,基于图11的模型,再参阅图13所示,当人们输入:查询百度时,通过聊天机器人内的处理器100执行程序,对输入的文本采用卷积神经网络提取词向量的局部特征,采用BLSTM模型提取与词向量上下文相关的全局特征,通过Attention机制提取局部特征、全局特征更深层次的信息特征,并将提取的特征进行融合,对文本信息的领域、文本信息的含义以及特定领域和特定喊含义下的特定信息这三个层面进行分类,得到最终的输出文本,列如包括:公司:百度、时间:今日/历史、种类:股价,最低价,最高价,成交量,股息率,开盘价。每个文本有一定的概率分数,通过组合处理输出最终的文本结果,将文本信息存储于存储设备中,并给予用户反馈。
实施例四
本实施例还提供一种包含计算机可执行指令的存储介质,所述的计算机可执行指令在由计算机处理器执行以实现实施例一的基于融合模型的文本特征提取方法。
计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于融合模型的文本特征提取方法,其特征在于,包括以下步骤:
S1、将词采用Word2vec模型,利用Skip-gram模型构建词向量,再将词组成的句子映射为句子矩阵;
S2、采用卷积神经网络提取词向量的局部特征;
S3、采用BLSTM模型提取与词向量上下文相关的全局特征;
S4、通过Attention机制提取局部特征、全局特征更深层次的信息特征,并将提取的特征进行融合;
S5、将网络逐层提取得到的文本特征向量使用soft-max分类器进行文本分类。
2.根据权利要求1所述的基于融合模型的文本特征提取方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、将句子矩阵作为输入,输入到卷积神经网络的词嵌入层;
S22、卷积神经网络的卷积层进行卷积操作,提取局部特征;
S23、卷积神经网络的池化层进行池化操作,提取关键特征,舍弃冗余特征,生成固定维度的特征向量,将三个池化操作输出的特征拼接起来,得到输出,作为第一层全连接层输入特征的一部分。
3.根据权利要求2所述的基于融合模型的文本特征提取方法,其特征在于,所述步骤S22具体为:选用3*80、4*80、5*80大小的滤波器各40个,步长stride大小设置为2,padding为VALID,进行卷积运算,通过卷积操作来提取句子的局部特征。
4.根据权利要求1所述的基于融合模型的文本特征提取方法,其特征在于,所述步骤S3具体为:
S31、将句子矩阵作为输入,输入到BLSTM模型的词嵌入层;
S32、BLSTM模型的两个隐藏层保存两个方向的历史信息和未来信息;
S33、将两个隐藏层输出部分拼接,得到输出,作为第一层全连接层输入特征的一部分。
5.根据权利要求1所述的基于融合模型的文本特征提取方法,其特征在于,还包括采用tensorflow框架中的concat()方法对卷积神经网络和BLSTM模型输出的特征进行融合,将融合后的特征保存在output中,将其作为第一个全连接层的输入,再连接第二个全连接层,在第二个全连接层之后引入dropout机制。
6.根据权利要求1所述的基于融合模型的文本特征提取方法,其特征在于,所述步骤S4具体公式描述为:
et,i=Vαtanh(Wqt+Uki)
其中et,i表示target中某个元素qt与source中某个ki的相似值,Vα、W、U为随机化参数;αt,i表示et,i的归一化值、et,j表示target中某个元素qt与source中各个kj的相似值,且j=[1,N];vt表示元素qt的最终Attention值。
7.基于融合模型的文本特征提取装置,其特征在于,包括:
词向量构建模块,用于采用Word2vec模型,利用Skip-gram模型构建词向量;
卷积神经网络模块,用于采用卷积神经网络提取词向量的局部特征;
BLSTM模型模块,用于采用BLSTM模型提取与局部特征上下文相关的全局特征;
Attention机制模块,通过Attention机制提取全局特征更深层次的信息特征,并将提取的特征进行融合;
文本分类模块,用于将网络逐层提取得到的文本特征向量使用soft-max分类器进行文本分类。
8.根据权利要求7所述的基于融合模型的文本特征提取装置,其特征在于,还包括映射模块,用于将词组成的句子映射为句子矩阵。
9.一种聊天机器人,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如权利要求1-6中任一项所述的基于融合模型的文本特征提取方法;
交互界面,用于处理器在执行程序时提供人机交互。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行以实现如权利要求1-6中任一项所述的基于融合模型的文本特征提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811420523.6A CN109508377A (zh) | 2018-11-26 | 2018-11-26 | 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811420523.6A CN109508377A (zh) | 2018-11-26 | 2018-11-26 | 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109508377A true CN109508377A (zh) | 2019-03-22 |
Family
ID=65750590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811420523.6A Pending CN109508377A (zh) | 2018-11-26 | 2018-11-26 | 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508377A (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947947A (zh) * | 2019-03-29 | 2019-06-28 | 北京泰迪熊移动科技有限公司 | 一种文本分类方法、装置及计算机可读存储介质 |
CN110083785A (zh) * | 2019-04-29 | 2019-08-02 | 清华大学 | 基于用户搜索记录的性别年龄判别方法及装置 |
CN110083834A (zh) * | 2019-04-24 | 2019-08-02 | 北京百度网讯科技有限公司 | 语义匹配模型训练方法、装置、电子设备及存储介质 |
CN110134764A (zh) * | 2019-04-26 | 2019-08-16 | 中国地质大学(武汉) | 一种文本数据的自动分类方法及系统 |
CN110196981A (zh) * | 2019-06-11 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 文本表示方法、装置、设备和存储介质 |
CN110232117A (zh) * | 2019-06-13 | 2019-09-13 | 北京百度网讯科技有限公司 | 句子流畅度检测方法、装置以及终端 |
CN110288081A (zh) * | 2019-06-03 | 2019-09-27 | 北京信息科技大学 | 一种基于fw机制及lstm的递归网络模型及学习方法 |
CN110362734A (zh) * | 2019-06-24 | 2019-10-22 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备及计算机可读存储介质 |
CN110413319A (zh) * | 2019-08-01 | 2019-11-05 | 北京理工大学 | 一种基于深度语义的代码函数味道检测方法 |
CN110413746A (zh) * | 2019-06-25 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 对用户问题进行意图识别的方法及装置 |
CN110413785A (zh) * | 2019-07-25 | 2019-11-05 | 淮阴工学院 | 一种基于bert和特征融合的文本自动分类方法 |
CN110502639A (zh) * | 2019-07-09 | 2019-11-26 | 平安银行股份有限公司 | 基于问题贡献度的信息推荐方法、装置、及计算机设备 |
CN110543560A (zh) * | 2019-08-08 | 2019-12-06 | 厦门市美亚柏科信息股份有限公司 | 基于卷积神经网络的长文本分类识别方法、装置及介质 |
CN110727695A (zh) * | 2019-09-29 | 2020-01-24 | 浙江大学 | 面向新型供电城轨列车数据运维的自然语言查询解析方法 |
CN110826298A (zh) * | 2019-11-13 | 2020-02-21 | 北京万里红科技股份有限公司 | 一种智能辅助定密系统中使用的语句编码方法 |
CN110874409A (zh) * | 2019-10-22 | 2020-03-10 | 清华大学 | 病情分级预测系统、方法、电子设备及可读存储介质 |
CN111026845A (zh) * | 2019-12-06 | 2020-04-17 | 北京理工大学 | 一种获取多层次上下文语义的文本分类方法 |
CN111476024A (zh) * | 2020-02-29 | 2020-07-31 | 新华三大数据技术有限公司 | 一种文本分词方法、装置及模型训练方法 |
CN111541570A (zh) * | 2020-04-22 | 2020-08-14 | 北京交通大学 | 基于多源特征学习的云服务QoS预测方法 |
CN111651980A (zh) * | 2020-05-27 | 2020-09-11 | 河南科技学院 | 混合神经网络融合Attention机制的小麦抗寒性识别方法 |
CN111651607A (zh) * | 2020-07-13 | 2020-09-11 | 深圳市智搜信息技术有限公司 | 资讯正负面情感分析方法与装置和计算机设备及存储介质 |
CN111709786A (zh) * | 2020-06-18 | 2020-09-25 | 北京字节跳动网络技术有限公司 | 用于生成用户留存时间的方法、装置、设备和介质 |
CN111859090A (zh) * | 2020-03-18 | 2020-10-30 | 齐浩亮 | 基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法 |
CN112131884A (zh) * | 2020-10-15 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 用于实体分类的方法和装置、用于实体呈现的方法和装置 |
CN112259080A (zh) * | 2020-10-20 | 2021-01-22 | 成都明杰科技有限公司 | 一种基于神经网络模型的语音识别方法 |
CN112699679A (zh) * | 2021-03-25 | 2021-04-23 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置、电子设备及存储介质 |
CN112784573A (zh) * | 2021-01-25 | 2021-05-11 | 中南民族大学 | 文本情感内容分析方法、装置、设备及存储介质 |
CN112836502A (zh) * | 2021-03-01 | 2021-05-25 | 中央财经大学 | 一种金融领域事件隐式因果关系抽取方法 |
CN112908319A (zh) * | 2019-12-04 | 2021-06-04 | 海信视像科技股份有限公司 | 一种处理信息交互的方法及设备 |
CN113312459A (zh) * | 2021-04-30 | 2021-08-27 | 天津大学 | 一种基于神经ode网络的问答匹配方法 |
CN113627243A (zh) * | 2021-06-30 | 2021-11-09 | 中国科学院深圳先进技术研究院 | 一种文本识别方法及相关装置 |
CN114207605A (zh) * | 2019-10-31 | 2022-03-18 | 深圳市欢太科技有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN108804677A (zh) * | 2018-06-12 | 2018-11-13 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及系统 |
-
2018
- 2018-11-26 CN CN201811420523.6A patent/CN109508377A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN108804677A (zh) * | 2018-06-12 | 2018-11-13 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及系统 |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947947A (zh) * | 2019-03-29 | 2019-06-28 | 北京泰迪熊移动科技有限公司 | 一种文本分类方法、装置及计算机可读存储介质 |
CN110083834A (zh) * | 2019-04-24 | 2019-08-02 | 北京百度网讯科技有限公司 | 语义匹配模型训练方法、装置、电子设备及存储介质 |
CN110134764A (zh) * | 2019-04-26 | 2019-08-16 | 中国地质大学(武汉) | 一种文本数据的自动分类方法及系统 |
CN110083785A (zh) * | 2019-04-29 | 2019-08-02 | 清华大学 | 基于用户搜索记录的性别年龄判别方法及装置 |
CN110288081A (zh) * | 2019-06-03 | 2019-09-27 | 北京信息科技大学 | 一种基于fw机制及lstm的递归网络模型及学习方法 |
CN110196981A (zh) * | 2019-06-11 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 文本表示方法、装置、设备和存储介质 |
CN110232117B (zh) * | 2019-06-13 | 2021-07-16 | 北京百度网讯科技有限公司 | 句子流畅度检测方法、装置以及终端 |
CN110232117A (zh) * | 2019-06-13 | 2019-09-13 | 北京百度网讯科技有限公司 | 句子流畅度检测方法、装置以及终端 |
CN110362734A (zh) * | 2019-06-24 | 2019-10-22 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备及计算机可读存储介质 |
CN110413746A (zh) * | 2019-06-25 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 对用户问题进行意图识别的方法及装置 |
CN110502639B (zh) * | 2019-07-09 | 2022-09-06 | 平安银行股份有限公司 | 基于问题贡献度的信息推荐方法、装置、及计算机设备 |
CN110502639A (zh) * | 2019-07-09 | 2019-11-26 | 平安银行股份有限公司 | 基于问题贡献度的信息推荐方法、装置、及计算机设备 |
CN110413785B (zh) * | 2019-07-25 | 2021-10-19 | 淮阴工学院 | 一种基于bert和特征融合的文本自动分类方法 |
CN110413785A (zh) * | 2019-07-25 | 2019-11-05 | 淮阴工学院 | 一种基于bert和特征融合的文本自动分类方法 |
CN110413319A (zh) * | 2019-08-01 | 2019-11-05 | 北京理工大学 | 一种基于深度语义的代码函数味道检测方法 |
CN110543560A (zh) * | 2019-08-08 | 2019-12-06 | 厦门市美亚柏科信息股份有限公司 | 基于卷积神经网络的长文本分类识别方法、装置及介质 |
CN110727695A (zh) * | 2019-09-29 | 2020-01-24 | 浙江大学 | 面向新型供电城轨列车数据运维的自然语言查询解析方法 |
CN110727695B (zh) * | 2019-09-29 | 2022-05-03 | 浙江大学 | 面向新型供电城轨列车数据运维的自然语言查询解析方法 |
CN110874409A (zh) * | 2019-10-22 | 2020-03-10 | 清华大学 | 病情分级预测系统、方法、电子设备及可读存储介质 |
CN114207605A (zh) * | 2019-10-31 | 2022-03-18 | 深圳市欢太科技有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN110826298A (zh) * | 2019-11-13 | 2020-02-21 | 北京万里红科技股份有限公司 | 一种智能辅助定密系统中使用的语句编码方法 |
CN112908319B (zh) * | 2019-12-04 | 2022-10-25 | 海信视像科技股份有限公司 | 一种处理信息交互的方法及设备 |
CN112908319A (zh) * | 2019-12-04 | 2021-06-04 | 海信视像科技股份有限公司 | 一种处理信息交互的方法及设备 |
CN111026845A (zh) * | 2019-12-06 | 2020-04-17 | 北京理工大学 | 一种获取多层次上下文语义的文本分类方法 |
CN111026845B (zh) * | 2019-12-06 | 2021-09-21 | 北京理工大学 | 一种获取多层次上下文语义的文本分类方法 |
CN111476024A (zh) * | 2020-02-29 | 2020-07-31 | 新华三大数据技术有限公司 | 一种文本分词方法、装置及模型训练方法 |
CN111859090A (zh) * | 2020-03-18 | 2020-10-30 | 齐浩亮 | 基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法 |
CN111541570A (zh) * | 2020-04-22 | 2020-08-14 | 北京交通大学 | 基于多源特征学习的云服务QoS预测方法 |
CN111651980A (zh) * | 2020-05-27 | 2020-09-11 | 河南科技学院 | 混合神经网络融合Attention机制的小麦抗寒性识别方法 |
CN111709786A (zh) * | 2020-06-18 | 2020-09-25 | 北京字节跳动网络技术有限公司 | 用于生成用户留存时间的方法、装置、设备和介质 |
CN111709786B (zh) * | 2020-06-18 | 2024-04-30 | 抖音视界有限公司 | 用于生成用户留存时间的方法、装置、设备和介质 |
CN111651607A (zh) * | 2020-07-13 | 2020-09-11 | 深圳市智搜信息技术有限公司 | 资讯正负面情感分析方法与装置和计算机设备及存储介质 |
CN112131884A (zh) * | 2020-10-15 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 用于实体分类的方法和装置、用于实体呈现的方法和装置 |
CN112131884B (zh) * | 2020-10-15 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 用于实体分类的方法和装置、用于实体呈现的方法和装置 |
CN112259080A (zh) * | 2020-10-20 | 2021-01-22 | 成都明杰科技有限公司 | 一种基于神经网络模型的语音识别方法 |
CN112259080B (zh) * | 2020-10-20 | 2021-06-22 | 北京讯众通信技术股份有限公司 | 一种基于神经网络模型的语音识别方法 |
CN112784573A (zh) * | 2021-01-25 | 2021-05-11 | 中南民族大学 | 文本情感内容分析方法、装置、设备及存储介质 |
CN112784573B (zh) * | 2021-01-25 | 2023-12-19 | 中南民族大学 | 文本情感内容分析方法、装置、设备及存储介质 |
CN112836502B (zh) * | 2021-03-01 | 2023-05-09 | 中央财经大学 | 一种金融领域事件隐式因果关系抽取方法 |
CN112836502A (zh) * | 2021-03-01 | 2021-05-25 | 中央财经大学 | 一种金融领域事件隐式因果关系抽取方法 |
CN112699679A (zh) * | 2021-03-25 | 2021-04-23 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置、电子设备及存储介质 |
CN113312459A (zh) * | 2021-04-30 | 2021-08-27 | 天津大学 | 一种基于神经ode网络的问答匹配方法 |
CN113627243A (zh) * | 2021-06-30 | 2021-11-09 | 中国科学院深圳先进技术研究院 | 一种文本识别方法及相关装置 |
CN113627243B (zh) * | 2021-06-30 | 2022-09-30 | 中国科学院深圳先进技术研究院 | 一种文本识别方法及相关装置 |
WO2023273196A1 (zh) * | 2021-06-30 | 2023-01-05 | 中国科学院深圳先进技术研究院 | 一种文本识别方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508377A (zh) | 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 | |
CN109101537B (zh) | 基于深度学习的多轮对话数据分类方法、装置和电子设备 | |
CN108959482B (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
CN111597830A (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN110796160B (zh) | 一种文本分类方法、装置和存储介质 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN111382257A (zh) | 一种生成对话下文的方法和系统 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN110597968A (zh) | 一种回复选择方法及装置 | |
Gao et al. | Generating natural adversarial examples with universal perturbations for text classification | |
Huang et al. | C-Rnn: a fine-grained language model for image captioning | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN111597341A (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN114417823B (zh) | 一种基于句法和图卷积网络的方面级情感分析方法及装置 | |
CN117271759A (zh) | 文本摘要生成模型训练方法、文本摘要生成方法和装置 | |
Mathur et al. | A scaled‐down neural conversational model for chatbots | |
Madureira et al. | An overview of natural language state representation for reinforcement learning | |
Wang et al. | An integrated deep generative model for text classification and generation | |
CN113254575B (zh) | 一种基于多步证据推理的机器阅读理解方法与系统 | |
CN112765330A (zh) | 文本数据处理方法、装置、电子设备和存储介质 | |
CN112199481A (zh) | 一种采用pcc对话模型的单用户个性化对话方法和系统 | |
Lee et al. | Enhancing text comprehension for question answering with contrastive learning | |
CN116150334A (zh) | 基于UniLM模型和Copy机制的中文共情语句训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190322 |