CN110457700B - 短文本描述方法和装置 - Google Patents
短文本描述方法和装置 Download PDFInfo
- Publication number
- CN110457700B CN110457700B CN201910723855.XA CN201910723855A CN110457700B CN 110457700 B CN110457700 B CN 110457700B CN 201910723855 A CN201910723855 A CN 201910723855A CN 110457700 B CN110457700 B CN 110457700B
- Authority
- CN
- China
- Prior art keywords
- character
- word
- matrix
- convolution
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请涉及一种短文本描述方法、装置、计算机设备和存储介质。所述方法包括:获取待描述短文本的词嵌入矩阵和字符嵌入矩阵,将词嵌入矩阵和字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到词嵌入矩阵对应的词层面卷积特征和字符嵌入矩阵对应的字符层面卷积特征,将词层面卷积特征和字符层面卷积特征分别输入预先设置的递归神经网络模型,得到词层面卷积特征对应的词层面向量表示和字符层面卷积特征对应的字符层面向量表示,对词层面向量表示和字符层面向量表示进行叠加,得到待描述短文本的短文本描述。采用本方法能够提高短文本描述的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种短文本描述方法和装置。
背景技术
伴随着移动互联网和通讯技术的迅速发展,基于社交媒体、手机短信等的短文本信息进入了爆发式的增长阶段。这一类的短文本往往具有词汇少、非正式表达多、拼写错误常见几大特点。如何有效的将此类短文本嵌入到向量空间中进行深入挖掘分析具有极大的研究价值,也在诸如情感分析、顾客流失检测、问题检索和个性化推荐等各类实际应用场景中发挥着重要的作用。
现有针对短文本描述的研究方法中,大多依赖于噪声识别和稀疏扩展两大技术。然而,在许多应用的短文本识别中,短文本中的噪声形式多样、变化迅速,现有方法大多无法自适应进行识别。此外,将稀疏的短文本显式扩展为高质量密集文本更是非常困难,因此,根据目前的短文本描述无法准确解析出短文本表达的意思。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决短文本描述不够准确问题的短文本描述方法、装置、计算机设备和存储介质。
一种短文本描述方法,所述方法包括:
获取待描述短文本的词嵌入矩阵和字符嵌入矩阵;
将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征;
将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示;
对所述词层面向量表示和所述字符层面向量表示进行叠加,得到所述待描述短文本的短文本描述。
在其中一个实施例中,还包括:获取预先设置的词嵌入转换矩阵;根据所述词嵌入转换矩阵,将所述待描述短文本转换为词嵌入矩阵;获取预先设置的字符嵌入转换矩阵;根据所述字符嵌入转换矩阵,将所述待描述短文本转换为字符嵌入矩阵。
在其中一个实施例中,所述掩码卷积网络包括:词掩码卷积网络和字符掩码卷积网络;还包括:将所述词嵌入矩阵输入多个相同尺寸的词掩码卷积网络,得到对应数量的所述词嵌入矩阵对应的词特征向量;所述词掩码卷积网络的宽度是根据所述词嵌入矩阵的向量维度确定的;根据所述词特征向量,得到词层面卷积特征;将所述字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络,得到对应数量的所述词嵌入矩阵对应的字符特征向量;所述掩码卷积网络的宽度是根据所述字符嵌入矩阵的向量维度确定的;根据所述字符特征向量,得到字符层面特征。
在其中一个实施例中,所述掩码卷积网络包括掩码过滤器和掩码矩阵;所述掩码过滤器为权重矩阵;所述权重矩阵与所述掩码矩阵相位相乘对所述掩码卷积网络进行打码;还包括:根据所述权重矩阵的行组合,设置多个掩码矩阵;根据所述权重矩阵对应的掩码过滤器和多个所述掩码矩阵,设置对应数量的掩码卷积网络;将所述词嵌入矩阵和所述字符嵌入矩阵分别输入多个所述掩码卷积网络,得到所述词嵌入矩阵对应的词卷积矩阵和所述字符嵌入矩阵对应的字符卷积矩阵;采用跨过滤器的最大池化方法对所述词卷积矩阵进行合成,得到词层面卷积特征;采用跨过滤器的最大池化方法对所述字符卷积矩阵进行合成,得到字符层面卷积特征。
在其中一个实施例中,还包括:采用线性激活函数作为所述掩码卷积网络的非线性函数。
在其中一个实施例中,还包括:将通过不同高度的所述掩码卷积网络输出的词层面卷积特征输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示;将通过不同高度的所述掩码卷积网络输出的字符层面卷积特征输入预先设置的递归神经网络模型,得到所述字符层面卷积特征对应的字符层面向量表示。
在其中一个实施例中,还包括:将所述词层面向量表示和所述字符层面向量表示合成为合成表示矩阵;根据所述合成表示矩阵的转置矩阵,得到所述待描述短文本的短文本描述。
一种短文本描述装置,所述装置包括:
数据获取模块,用于获取待描述短文本的词嵌入矩阵和字符嵌入矩阵;
卷积处理模块,用于将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征;
神经网络处理模块,用于将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示;
合成模块,用于对所述词层面向量表示和所述字符层面向量表示进行叠加,得到所述待描述短文本的短文本描述。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待描述短文本的词嵌入矩阵和字符嵌入矩阵;
将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征;
将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示;
对所述词层面向量表示和所述字符层面向量表示进行叠加,得到所述待描述短文本的短文本描述。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待描述短文本的词嵌入矩阵和字符嵌入矩阵;
将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征;
将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示;
对所述词层面向量表示和所述字符层面向量表示进行叠加,得到所述待描述短文本的短文本描述。
上述短文本描述方法、装置、计算机设备和存储介质,通过提取短文本的词嵌入矩阵和字符嵌入矩阵,将词嵌入矩阵和字符嵌入矩阵输入掩码卷积网络和递归神经网络模型,从掩码卷积网络和递归神经网络模型对短文本进行特征提取,学习短文本中多粒度噪声容忍模式,通过多粒度的噪声容忍模式,即解决了短文本中的噪声问题,还解决了短文本中稀疏问题,从而生成准确的短文本描述。
附图说明
图1为一个实施例中短文本描述方法的应用场景图;
图2为一个实施例中短文本描述方法的流程示意图;
图3为一个实施例中获取待描述短文本的词嵌入矩阵和字符嵌入矩阵步骤的流程示意图;
图4为一个实施例中得到词层面卷积特征和字符层面卷积特征步骤的流程示意图;
图5为一个实施例中掩码卷积网络的结构示意图;
图6为一个实施例中获取词层面卷积特征和字符层面卷积特征步骤的流程示意图;
图7为一个实施例中跨过滤器的工作模式的流程示意图;
图8为一个实施例中短文本描述装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的短文本描述方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体的,终端102是用户的手持终端,用户在终端102中编辑出短文本,服务器104通过网络接收到终端102发送的短文本,执行对该短文本的转化。具体转化时,服务器104可以包括数据库,服务器104将终端102发送的短文本保存在数据库中,服务器104从数据库中取出短文本,确定该短文本为待描述短文本,并且获取待描述短文本的词嵌入矩阵和字符嵌入矩阵,然后分别将词嵌入矩阵和字符嵌入矩阵输入预先设置好的掩码卷积网络,得到词嵌入矩阵对应的词层面卷积特征和字符嵌入矩阵对应的字符层面卷积特征。然后将词层面卷积特征和字符层面卷积特征分别输入预先设置的递归神经网络模型,得到词层面卷积特征对应的词层面向量表示和字符层面卷积特征对应的字符层面向量表示。最后通过向量叠加的方式得到待描述短文本的短文本描述。通过提取学习多粒度的短文本特征,可以执行对短文本的准确表示。
在一个实施例中,如图2所示,提供了一种短文本描述方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取待描述短文本的词嵌入矩阵和字符嵌入矩阵。
词嵌入矩阵表示把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,本步骤中词指的是对待描述短文本进行词提取得到的词。
同理,字符嵌入矩阵表示把一个维数为所有字符的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个字符被映射为实数域上的向量,本步骤中字符指的是对待描述短文本进行字符提取得到的。
短文本指的是字数较少、内容不明显的文本,例如:留言、短信、消息、短邮件等,可以采用短文本分类的方法,识别文本是否为短文本。
步骤204,将词嵌入矩阵和字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到词嵌入矩阵对应的词层面卷积特征和字符嵌入矩阵对应的字符层面卷积特征。
掩码卷积网络指的是带有掩码操作的卷积神经网络,掩码操作可以过滤掉矩阵中的噪声。从而解决短文本中噪声大的问题。
词层面卷积特征和字符层面卷积特征可以是向量形式或者矩阵形式。
在具体实现时,分别设置不同的掩码卷积网络,分别处理词嵌入矩阵和字符嵌入矩阵,从而实现二者同步处理。
步骤206,将词层面卷积特征和字符层面卷积特征分别输入预先设置的递归神经网络模型,得到词层面卷积特征对应的词层面向量表示和字符层面卷积特征对应的字符层面向量表示。
递归神经网络模型(Recursive Neural Network,RNN),是一种深度学习算法,可以解决掩码卷积网络的输出的广度依赖关系。
步骤208,对词层面向量表示和字符层面向量表示进行叠加,得到待描述短文本的短文本描述。
通过对词层面向量表示和字符层面向量表示进行叠加,使得最终结果融合字符训练得到的结果和词训练得到的结果,从而进一步提高文本表示的准确性。
上述短文本描述方法中,通过提取短文本的词嵌入矩阵和字符嵌入矩阵,将词嵌入矩阵和字符嵌入矩阵输入掩码卷积网络和递归神经网络模型,从掩码卷积网络和递归神经网络模型对短文本进行特征提取,学习短文本中多粒度噪声容忍模式,通过多粒度的噪声容忍模式,即解决了短文本中的噪声问题,还解决了短文本中稀疏问题,从而生成准确的短文本描述。
对于步骤202,在其中一个实施例中,解决了如何获取待描述短文本的词嵌入矩阵和字符嵌入矩阵,如图3所示,具体步骤如下:
步骤302,获取预先设置的词嵌入转换矩阵。
步骤304,根据词嵌入转换矩阵,将待描述短文本转换为词嵌入矩阵。
步骤306,获取预先设置的字符嵌入转换矩阵。
步骤308,根据字符嵌入转换矩阵,将待描述短文本转换为字符嵌入矩阵。
本实施例中,通过设置嵌入转换矩阵,在获取到待转换短文本时,可以之间将待转换短文本转换为嵌入矩阵。
对于步骤302和步骤304,在一具体实施例中,给定短文本为通过查询得到词嵌入转换矩阵为那么通过该词嵌入转换矩阵,可以将短文本T转化为词嵌入矩阵其中,nw表示短文本中的最大单词数量,nW表示预设语料库中词汇个数,ne w表示词嵌入的向量维度。
具体的,词嵌入转换矩阵Tw是服务器预先训练好的,随着训练数据的增加,在训练过程中不断优化更新词嵌入转换矩阵Tw中元素的值。
对于步骤306和步骤308,在一具体实施例中,对于给定的通过查询得到字符嵌入转换矩阵通过该字符嵌入转换矩阵,可以将短文本T转化为字符嵌入矩阵其中,nc表示短文本中最大字符数量,nC表示预设语料库行中字符个数,ne c表示字符嵌入的相连维度。
具体的,字符嵌入转换矩阵Tc是服务器预先训练好的,随着训练数据的增加,在训练过程中不断优化更新字符嵌入转换矩阵Tc中元素的值。字符嵌入转换矩阵Tc初始可以采用随机矩阵。
对于步骤204,在其中一个实施例中,由于词嵌入矩阵和字符嵌入矩阵的向量维度不同,因此在设置掩码卷积网络中过滤器的宽度时,需要根据词嵌入矩阵的向量维度,设置词掩码卷积网络的宽度,根据字符嵌入矩阵的向量维度确定字符掩码卷积网络的宽度。
在另一实施例中,如图4所示,可以采用如下步骤得到词层面卷积特征和字符层面卷积特征:
步骤402,将词嵌入矩阵输入多个相同尺寸的词掩码卷积网络,得到对应数量的词嵌入矩阵对应的词特征向量。
步骤404,根据词特征向量,得到词层面卷积特征。
步骤406,将字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络,得到对应数量的词嵌入矩阵对应的字符特征向量。
字符掩码卷积网络的宽度是根据字符嵌入矩阵的向量维度确定的。
步骤408,根据字符特征向量,得到字符层面特征。
本实施例中,通过掩码卷积网络,对词嵌入矩阵和字符嵌入矩阵进行处理,从而根据掩码卷积矩阵输出的向量,得到词层面卷积特征和字符层面卷积特征,从而得到的特征,可以捕获到词与词之间或者字符与字符之间的相同粒度的不同种类的关系。
对于步骤402和步骤404,在一个实施例中,将词嵌入矩阵输入预先设置的词掩码卷积网络矩阵,输出词特征向量其中,表示掩码卷积网络的高度,对于向量omcw中的第k个位置为:其中,ok为第k个位置的元素,Mi,j为掩码矩阵中的元素Wi,j为权重矩阵中的元素,Ek+i-1,j为词嵌入矩阵中的元素,b表示一个偏置项,g(·)为一个非线性函数。因此,对于多个掩码卷积网络,可以输出多个词特征向量,记作其中,nf表示掩码卷积网络的个数。可以采用矩阵Omcw作为词层面卷积特征。
对于步骤406和步骤408,在另一个实施例中,将字符嵌入矩阵输入预先设置的字符掩码卷积网络矩阵,输出字符特征向量其中,表示掩码卷积网络的宽度,对于向量omcc中的第k个位置为:其中,ok为第k个位置的元素,Mi,j为掩码矩阵中的元素Wi,j为权重矩阵中的元素,Ek+i-1,j为字符嵌入矩阵中的元素,b表示一个偏置项,g(·)为一个非线性函数。因此,对于多个掩码卷积网络,可以输出多个词特征向量,记作其中,nf表示掩码卷积网络的个数。可以采用矩阵Omcc作为词层面卷积特征。
上述实施例中,通过多个相同尺寸的掩码卷积网络,相同尺寸指的是,可以提取出输入数据在相同粒度的不同种类的关系,从而利于解决短文本的噪声容忍问题。
在一个实施例中,掩码卷积网络在执行掩码操作时,通过权重矩阵与掩码矩阵相位相乘对掩码卷积网络进行打码,通过对权重矩阵中的权重进行打码,从而可以实现掩码卷积网络的特征向量输出。因此,掩码卷积网络由掩码过滤器和掩码矩阵构成,掩码过滤器即权重矩阵,如图5所示,一个掩码卷积网络中包括若干个掩码过滤器以及与其数量对应的掩码矩阵。
在另一个实施例中,可以采用如下步骤获取词层面卷积特征和字符层面卷积特征,如图6所示,具体步骤如下:
步骤602,根据权重矩阵的行组合,设置多个掩码矩阵。
步骤604,根据权重矩阵对应的掩码过滤器和多个所述掩码矩阵,设置对应数量的掩码卷积网络。
步骤606,将词嵌入矩阵和字符嵌入矩阵分别输入多个掩码卷积网络,得到词嵌入矩阵对应的词卷积矩阵和字符嵌入矩阵对应的字符卷积矩阵。
步骤608,采用跨过滤器的最大池化方法对词卷积矩阵进行合成,得到词层面卷积特征。
步骤610,采用跨过滤器的最大池化方法对字符卷积矩阵进行合成,得到字符层面卷积特征。
本实施例中,由于赞声可能出现在正常单词或者字符之间的任何位置,因此,可以采取不同位置的掩码方式,以应对任意位置的噪声。
对于步骤608和步骤610,在得到卷积矩阵时,可以采用跨过滤器的最大池化方法将得到的词卷积矩阵和字符卷积矩阵合成统一的词层面卷积特征和字符层面卷积特征。在具体实现时,跨过滤器的最大池化方法对比不同卷积矩阵中相同位置的值,并且选取这些值中最大的作为层面卷积特征中在该位置的值,形式上,词层面卷积特征中在(i,j)位置的值得计算方法为:其中,指的是矩阵Omcw中第k个词层面卷积特征Omcw中(i,j)位置的值,同理可以得到字符层面卷积特征。本实施例中,词层面卷积特征Omcw和字符层面卷积特征Omcc中,每个元素之间存在一种模式关系,一个位置上的值越大,表示该模式关系越显著,通过跨过滤器的最大池化方法,掩码卷积网络总可以捕捉到短文本中对于噪声容忍的最显著模式。
跨过滤器的工作模式如图7所示,其中黑色区域为掩码位置,另外,图7中一组掩码矩阵和掩码过滤器表示多个相同掩码卷积网络。
在一个实施例中,在得到词层面向量表示时,需要将通过不同高度的掩码卷积网络输出的词层面卷积特征输入预先设置的递归神经网络模型,得到词层面卷积特征对应的词层面向量表示。在得到字符层面向量表示时,需要将通过不同高度的掩码卷积网络输出的字符层面卷积特征输入预先设置的递归神经网络模型,得到字符层面卷积特征对应的字符层面向量表示。本实施例中,由于采用了不同高度的掩码卷积网络,因此可以捕获到多种粒度的模式关系,从而提高文本表示准确性。
在另一实施例中,在计算短文本描述时,可以将词层面向量表示和字符层面向量表示合成为合成表示矩阵,根据合成表示矩阵的转置矩阵,得到待描述短文本的短文本描述。
其中,表示递归神经网络输出的向量维度,是sigmoid函数,是tanh函数,是重置门,是更新门。Uz,Ur,Uh,Vz,Vr以及是门控递归单元中的转换矩阵。同理可以得到字符层面卷积特征输入门控递归单元的输出
设置掩码卷积网络的高度,例如分别为2、3、4,得到3个不同的词层面卷积特征输出,和3个不同的字符层面卷积特征输出,采用一个跨递归网络的最大池化方法,将3个不同的词层面卷积特征输出合成为词层面向量表示,将3个不同的字符层面卷积特征输出合成为字符层面向量表示。
具体的,词层面向量表示中第i个位置的计算公式为其中,为3个不同递归神经网络的输出,字符层面向量表示中第i个位置的计算公式为其中,为3个不同递归神经网络的输出。将词层面向量表示和字符层面的递归网络输出合成为一个统一的向量作为短文本描述:
应该理解的是,虽然图2-4、6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4、6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种短文本描述装置,包括:数据获取模块802、卷积处理模块804、神经网络处理模块806和合成模块808,其中:
数据获取模块802,用于获取待描述短文本的词嵌入矩阵和字符嵌入矩阵;
卷积处理模块804,用于将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征;
神经网络处理模块806,用于将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示;
合成模块808,用于对所述词层面向量表示和所述字符层面向量表示进行叠加,得到所述待描述短文本的短文本描述。
在其中一个实施例中,数据获取模块802还用于获取预先设置的词嵌入转换矩阵;根据所述词嵌入转换矩阵,将所述待描述短文本转换为词嵌入矩阵;获取预先设置的字符嵌入转换矩阵;根据所述字符嵌入转换矩阵,将所述待描述短文本转换为字符嵌入矩阵。
在其中一个实施例中,所述掩码卷积网络包括:词掩码卷积网络和字符掩码卷积网络;卷积处理模块804还用于将所述词嵌入矩阵输入多个相同尺寸的词掩码卷积网络,得到对应数量的所述词嵌入矩阵对应的词特征向量;所述词掩码卷积网络的宽度是根据所述词嵌入矩阵的向量维度确定的;根据所述词特征向量,得到词层面卷积特征;将所述字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络,得到对应数量的所述词嵌入矩阵对应的字符特征向量;所述字符掩码卷积网络的宽度是根据所述字符嵌入矩阵的向量维度确定的;根据所述字符特征向量,得到字符层面特征。
在其中一个实施例中,所述掩码卷积网络包括掩码过滤器和掩码矩阵;所述掩码过滤器为权重矩阵;所述权重矩阵与所述掩码矩阵相位相乘对所述掩码卷积网络进行打码;卷积处理模块804还用于根据所述权重矩阵的行组合,设置多个掩码矩阵;根据所述权重矩阵对应的掩码过滤器和多个所述掩码矩阵,设置对应数量的掩码卷积网络;将所述词嵌入矩阵和所述字符嵌入矩阵分别输入多个所述掩码卷积网络,得到所述词嵌入矩阵对应的词卷积矩阵和所述字符嵌入矩阵对应的字符卷积矩阵;采用跨过滤器的最大池化方法对所述词卷积矩阵进行合成,得到词层面卷积特征;采用跨过滤器的最大池化方法对所述字符卷积矩阵进行合成,得到字符层面卷积特征。
在其中一个实施例中,卷积处理模块804还用于采用线性激活函数作为所述掩码卷积网络的非线性函数。
在其中一个实施例中,神经网络处理模块806还用于将通过不同高度的所述掩码卷积网络输出的词层面卷积特征输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示;将通过不同高度的所述掩码卷积网络输出的字符层面卷积特征输入预先设置的递归神经网络模型,得到所述字符层面卷积特征对应的字符层面向量表示。
在其中一个实施例中,合成模块808还用于将所述词层面向量表示和所述字符层面向量表示合成为合成表示矩阵;根据所述合成表示矩阵的转置矩阵,得到所述待描述短文本的短文本描述。
关于短文本描述装置的具体限定可以参见上文中对于短文本描述方法的限定,在此不再赘述。上述短文本描述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储短文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种短文本描述方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待描述短文本的词嵌入矩阵和字符嵌入矩阵;
将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征;
将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示;
对所述词层面向量表示和所述字符层面向量表示进行叠加,得到所述待描述短文本的短文本描述。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预先设置的词嵌入转换矩阵;根据所述词嵌入转换矩阵,将所述待描述短文本转换为词嵌入矩阵;获取预先设置的字符嵌入转换矩阵;根据所述字符嵌入转换矩阵,将所述待描述短文本转换为字符嵌入矩阵。
在一个实施例中,所述掩码卷积网络包括:词掩码卷积网络和字符掩码卷积网络;处理器执行计算机程序时还实现以下步骤:将所述词嵌入矩阵输入多个相同尺寸的词掩码卷积网络,得到对应数量的所述词嵌入矩阵对应的词特征向量;所述词掩码卷积网络的宽度是根据所述词嵌入矩阵的向量维度确定的;根据所述词特征向量,得到词层面卷积特征;将所述字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络,得到对应数量的所述词嵌入矩阵对应的字符特征向量;所述字符掩码卷积网络的宽度是根据所述字符嵌入矩阵的向量维度确定的;根据所述字符特征向量,得到字符层面特征。
在一个实施例中,所述掩码卷积网络包括掩码过滤器和掩码矩阵;所述掩码过滤器为权重矩阵;所述权重矩阵与所述掩码矩阵相位相乘对所述掩码卷积网络进行打码;处理器执行计算机程序时还实现以下步骤:根据所述权重矩阵的行组合,设置多个掩码矩阵;根据所述权重矩阵对应的掩码过滤器和多个所述掩码矩阵,设置对应数量的掩码卷积网络;将所述词嵌入矩阵和所述字符嵌入矩阵分别输入多个所述掩码卷积网络,得到所述词嵌入矩阵对应的词卷积矩阵和所述字符嵌入矩阵对应的字符卷积矩阵;采用跨过滤器的最大池化方法对所述词卷积矩阵进行合成,得到词层面卷积特征;采用跨过滤器的最大池化方法对所述字符卷积矩阵进行合成,得到字符层面卷积特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:采用线性激活函数作为所述掩码卷积网络的非线性函数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将通过不同高度的所述掩码卷积网络输出的词层面卷积特征输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示;将通过不同高度的所述掩码卷积网络输出的字符层面卷积特征输入预先设置的递归神经网络模型,得到所述字符层面卷积特征对应的字符层面向量表示。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将所述词层面向量表示和所述字符层面向量表示合成为合成表示矩阵;根据所述合成表示矩阵的转置矩阵,得到所述待描述短文本的短文本描述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待描述短文本的词嵌入矩阵和字符嵌入矩阵;
将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征;
将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示;
对所述词层面向量表示和所述字符层面向量表示进行叠加,得到所述待描述短文本的短文本描述。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取预先设置的词嵌入转换矩阵;根据所述词嵌入转换矩阵,将所述待描述短文本转换为词嵌入矩阵;获取预先设置的字符嵌入转换矩阵;根据所述字符嵌入转换矩阵,将所述待描述短文本转换为字符嵌入矩阵。
在一个实施例中,所述掩码卷积网络包括:词掩码卷积网络和字符掩码卷积网络;计算机程序被处理器执行时还实现以下步骤:将所述词嵌入矩阵输入多个相同尺寸的词掩码卷积网络,得到对应数量的所述词嵌入矩阵对应的词特征向量;所述词掩码卷积网络的宽度是根据所述词嵌入矩阵的向量维度确定的;根据所述词特征向量,得到词层面卷积特征;将所述字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络,得到对应数量的所述词嵌入矩阵对应的字符特征向量;所述字符掩码卷积网络的宽度是根据所述字符嵌入矩阵的向量维度确定的;根据所述字符特征向量,得到字符层面特征。
在一个实施例中,所述掩码卷积网络包括掩码过滤器和掩码矩阵;所述掩码过滤器为权重矩阵;所述权重矩阵与所述掩码矩阵相位相乘对所述掩码卷积网络进行打码;计算机程序被处理器执行时还实现以下步骤:根据所述权重矩阵的行组合,设置多个掩码矩阵;根据所述权重矩阵对应的掩码过滤器和多个所述掩码矩阵,设置对应数量的掩码卷积网络;将所述词嵌入矩阵和所述字符嵌入矩阵分别输入多个所述掩码卷积网络,得到所述词嵌入矩阵对应的词卷积矩阵和所述字符嵌入矩阵对应的字符卷积矩阵;采用跨过滤器的最大池化方法对所述词卷积矩阵进行合成,得到词层面卷积特征;采用跨过滤器的最大池化方法对所述字符卷积矩阵进行合成,得到字符层面卷积特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采用线性激活函数作为所述掩码卷积网络的非线性函数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将通过不同高度的所述掩码卷积网络输出的词层面卷积特征输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示;将通过不同高度的所述掩码卷积网络输出的字符层面卷积特征输入预先设置的递归神经网络模型,得到所述字符层面卷积特征对应的字符层面向量表示。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将所述词层面向量表示和所述字符层面向量表示合成为合成表示矩阵;根据所述合成表示矩阵的转置矩阵,得到所述待描述短文本的短文本描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种短文本描述方法,所述方法包括:
获取待描述短文本的词嵌入矩阵和字符嵌入矩阵;
将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征;
将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示;
对所述词层面向量表示和所述字符层面向量表示进行叠加,得到所述待描述短文本的短文本描述;
所述掩码卷积网络包括:词掩码卷积网络和字符掩码卷积网络;
将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征,包括:
将所述词嵌入矩阵输入多个相同尺寸的词掩码卷积网络,得到对应数量的所述词嵌入矩阵对应的词特征向量;所述词掩码卷积网络的宽度是根据所述词嵌入矩阵的向量维度确定的;
根据所述词特征向量,得到词层面卷积特征;
将所述字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络,得到对应数量的所述词嵌入矩阵对应的字符特征向量;所述字符掩码卷积网络的宽度是根据所述字符嵌入矩阵的向量维度确定的;
根据所述字符特征向量,得到字符层面特征。
2.根据权利要求1所述的方法,其特征在于,所述获取待描述短文本的词嵌入矩阵和字符嵌入矩阵,包括:
获取预先设置的词嵌入转换矩阵;
根据所述词嵌入转换矩阵,将所述待描述短文本转换为词嵌入矩阵;
获取预先设置的字符嵌入转换矩阵;
根据所述字符嵌入转换矩阵,将所述待描述短文本转换为字符嵌入矩阵。
3.根据权利要求1所述的方法,其特征在于,所述掩码卷积网络包括掩码过滤器和掩码矩阵;所述掩码过滤器为权重矩阵;所述权重矩阵与所述掩码矩阵相位相乘对所述掩码卷积网络进行打码;
将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征,包括:
根据所述权重矩阵的行组合,设置多个掩码矩阵;
根据所述权重矩阵对应的掩码过滤器和多个所述掩码矩阵,设置对应数量的掩码卷积网络;
将所述词嵌入矩阵和所述字符嵌入矩阵分别输入多个所述掩码卷积网络,得到所述词嵌入矩阵对应的词卷积矩阵和所述字符嵌入矩阵对应的字符卷积矩阵;
采用跨过滤器的最大池化方法对所述词卷积矩阵进行合成,得到词层面卷积特征;
采用跨过滤器的最大池化方法对所述字符卷积矩阵进行合成,得到字符层面卷积特征。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用线性激活函数作为所述掩码卷积网络的非线性函数。
5.根据权利要求1至4任一项所述的方法,其特征在于,将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示,包括:
将通过不同高度的所述掩码卷积网络输出的词层面卷积特征输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示;
将通过不同高度的所述掩码卷积网络输出的字符层面卷积特征输入预先设置的递归神经网络模型,得到所述字符层面卷积特征对应的字符层面向量表示。
6.根据权利要求5所述的方法,其特征在于,对所述词层面向量表示和所述字符层面向量表示进行叠加,得到所述待描述短文本的短文本描述,包括:
将所述词层面向量表示和所述字符层面向量表示合成为合成表示矩阵;
根据所述合成表示矩阵的转置矩阵,得到所述待描述短文本的短文本描述。
7.一种短文本描述装置,其特征在于,所述装置包括:
数据获取模块,用于获取待描述短文本的词嵌入矩阵和字符嵌入矩阵;
卷积处理模块,用于将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络,得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征;
神经网络处理模块,用于将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型,得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示;
合成模块,用于对所述词层面向量表示和所述字符层面向量表示进行叠加,得到所述待描述短文本的短文本描述;
所述掩码卷积网络包括:词掩码卷积网络和字符掩码卷积网络;卷积处理模块还用于将所述词嵌入矩阵输入多个相同尺寸的词掩码卷积网络,得到对应数量的所述词嵌入矩阵对应的词特征向量;所述词掩码卷积网络的宽度是根据所述词嵌入矩阵的向量维度确定的;根据所述词特征向量,得到词层面卷积特征;将所述字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络,得到对应数量的所述词嵌入矩阵对应的字符特征向量;所述字符掩码卷积网络的宽度是根据所述字符嵌入矩阵的向量维度确定的;根据所述字符特征向量,得到字符层面特征。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910723855.XA CN110457700B (zh) | 2019-08-07 | 2019-08-07 | 短文本描述方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910723855.XA CN110457700B (zh) | 2019-08-07 | 2019-08-07 | 短文本描述方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110457700A CN110457700A (zh) | 2019-11-15 |
CN110457700B true CN110457700B (zh) | 2020-04-21 |
Family
ID=68485167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910723855.XA Active CN110457700B (zh) | 2019-08-07 | 2019-08-07 | 短文本描述方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457700B (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102167719B1 (ko) * | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
CN104765769B (zh) * | 2015-03-06 | 2018-04-27 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
GB201511887D0 (en) * | 2015-07-07 | 2015-08-19 | Touchtype Ltd | Improved artificial neural network for language modelling and prediction |
CN108829818B (zh) * | 2018-06-12 | 2021-05-25 | 中国科学院计算技术研究所 | 一种文本分类方法 |
CN109213975B (zh) * | 2018-08-23 | 2022-04-12 | 重庆邮电大学 | 一种基于字符层级卷积变分自编码的推特文本表示方法 |
CN109543029B (zh) * | 2018-09-27 | 2023-07-25 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法、装置、介质和设备 |
CN109670172A (zh) * | 2018-12-06 | 2019-04-23 | 桂林电子科技大学 | 一种基于复合神经网络的景区异常事件抽取方法 |
CN109446333A (zh) * | 2019-01-16 | 2019-03-08 | 深兰人工智能芯片研究院(江苏)有限公司 | 一种实现中文文本分类的方法及相关设备 |
-
2019
- 2019-08-07 CN CN201910723855.XA patent/CN110457700B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110457700A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241903B (zh) | 样本数据清洗方法、装置、计算机设备及存储介质 | |
CN108509596B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108563782B (zh) | 商品信息格式处理方法、装置、计算机设备和存储介质 | |
CN109523014B (zh) | 基于生成式对抗网络模型的新闻评论自动生成方法及系统 | |
US20210390370A1 (en) | Data processing method and apparatus, storage medium and electronic device | |
CN111091839B (zh) | 语音唤醒方法、装置、存储介质及智能设备 | |
CN113435594B (zh) | 安防检测模型训练方法、装置、设备及存储介质 | |
CN111598213B (zh) | 网络训练方法、数据识别方法、装置、设备和介质 | |
US20210286953A1 (en) | Method and apparatus for generating hidden state in recurrent neural network for language processing | |
CN112528634A (zh) | 文本纠错模型训练、识别方法、装置、设备及存储介质 | |
CN111242840A (zh) | 手写体字符生成方法、装置、计算机设备和存储介质 | |
CN109710924B (zh) | 文本模型训练方法、文本识别方法、装置、设备及介质 | |
CN116451093A (zh) | 电路故障分析模型的训练方法以及电路故障分析方法 | |
CN113342927B (zh) | 敏感词识别方法、装置、设备及存储介质 | |
WO2022063076A1 (zh) | 对抗样本的识别方法及装置 | |
CN113343711B (zh) | 工单生成方法、装置、设备及存储介质 | |
CN112732880A (zh) | 用户画像生成方法、装置、计算机设备及存储介质 | |
CN110457700B (zh) | 短文本描述方法和装置 | |
WO2022141258A1 (zh) | 一种图像分类方法、计算机设备和存储介质 | |
CN112668656B (zh) | 一种图像分类方法、装置、计算机设备和存储介质 | |
CN110751288B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN110780850B (zh) | 需求用例辅助生成方法、装置、计算机设备及存储介质 | |
CN111666931B (zh) | 基于混合卷积文字图像识别方法、装置、设备及存储介质 | |
CN117671680A (zh) | 基于图像的生成方法、装置、设备及介质 | |
CN117011861A (zh) | 字符识别方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |