CN111581962B - 一种基于主题词向量与混合神经网络的文本表示方法 - Google Patents
一种基于主题词向量与混合神经网络的文本表示方法 Download PDFInfo
- Publication number
- CN111581962B CN111581962B CN202010408666.6A CN202010408666A CN111581962B CN 111581962 B CN111581962 B CN 111581962B CN 202010408666 A CN202010408666 A CN 202010408666A CN 111581962 B CN111581962 B CN 111581962B
- Authority
- CN
- China
- Prior art keywords
- word
- subject
- model
- topic
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于主题词向量与混合神经网络的文本表示方法,包括以下步骤:S1)在词向量预训练阶段,结合LDA主题模型与word2vec词向量模型搭建主题词模型,使用搭建的主题词模型进行主题词向量预训练;S2)基于卷积神经网络搭建变分自编码器,使用变分自编码器的编码器部分,建立基于主题词向量预训练和混合神经网络的文本表示模型,以进行文本表示。该方法有利于使文本表示具有更多的语义信息,从而在文本分类中取得更佳的结果。
Description
技术领域
本发明属于深度学习自然语言处理领域,具体涉及一种基于主题词向量与混合神经网络的文本表示方法。
背景技术
随着科学技术的发展,中国网民超过8亿,互联网的普及率达到了近60%。在互联网中每天都有海量信息数据产生,这些数据类型包括了文本、图像、视频、音频等各种不同的表现形式。其中,文本类型的数据在互联网信息中占据了很大一部分位置,虽然一篇文章的字节量不多,也占用不了多少存储资源,但是其包含的信息却很多。
如今的互联网环境下,各种不同的任务以及应用都需要对自然语言进行分析和处理,在这之中,首先需要解决的问题就是文本表示,文本表示作为自然语言处理的基本任务能够将非结构化的自然语言转化为能被计算机处理分析的结构化形式,而这种表示形式还仍然能蕴含原始文本数据所带有的独特语义信息。因此,如何从海量数据中学习一个有效的特征表示,是现在迫切需要去关注和解决的重要问题之一。
由于深度学习在所有领域中都不断取得优异的表现,尤其是在图像处理上获得了远超人类识别的突破,如何将优秀的深度学习模型运用在自然语言处理模型上,是现在的研究重点。由于自然语言是由词、短语、句子、段落、文档等基本粒子按照递进的顺序组成的丰富多彩的文本信息,不同粒子的文本表示方法也各有不同。在文本表示最小粒度的词向量中,一词多义现象在自然语言中普遍存在,在汉语中尤其明显。据《汉语水平词汇与汉字等级大纲》的统计可知,中文中存在着极为普遍的一词多义现象,其中共包含有3618个多义词和11236个义项,对于各义项的使用上也十分的频繁。同一个文本能够表达出多种的含义,这就是自然语言中存在的歧义性,语义消歧任务也是自然语言处理中的一个重要研究方向。
发明内容
本发明的目的在于提供一种基于主题词向量与混合神经网络的文本表示方法,该方法有利于使文本表示具有更多的语义信息,从而在文本分类中取得更佳的结果。
为实现上述目的,本发明采用的技术方案是:一种基于主题词向量与混合神经网络的文本表示方法,包括以下步骤:
S1)在词向量预训练阶段,结合LDA主题模型与word2vec词向量模型搭建主题词模型,使用搭建的主题词模型进行主题词向量预训练;
S2)基于卷积神经网络搭建变分自编码器,使用变分自编码器的编码器部分,建立基于主题词向量预训练和混合神经网络的文本表示模型,以进行文本表示。
进一步地,所述步骤S1具体包括以下步骤:
S101)使用LDA主题模型对语料库中每一个词语都预先分配好对应的主题;
S102)结合LDA主题模型和word2vec词向量模型搭建主题词模型,训练主题向量和词向量;
S103)联合向量,获得主题词向量。
进一步地,所述主题词模型在训练词向量的同时引入主题向量,以实现一个词在不同主题下有不同的词向量表示;在主题词模型中,每个主题也被当作一个词进行训练,模型分别学习得到主题zi的主题嵌入和词wi的词嵌入;然后根据词嵌入wi和主题嵌入zi训练主题词嵌入<wi,zi>;所述主题词模型同时学习单词和主题的向量表示;对于每个目标词和其主题对<wi,zi>建立主题词模型,所述主题词模型的目标是最大化以下的对数概率:
通过连接w和z的嵌入,即以下公式来获得主题z中的词w的主题词嵌入,从而获得词向量w在主题z下的主题词嵌入:
在训练阶段,首先通过LDA主题模型将原文本中的每个单词都训练得到其对应的主题编号,将文本中的词转化为<词:主题编号>,然后将文本交由主题词模型训练出主题向量z和词向量w,最后根据<词:主题编号>和公式生成基于卷积神经网络搭建的变分自编码器的输入向量wz。
进一步地,所述步骤S2中,基于卷积神经网络搭建的变分自编码器CNN-VAE包括编码和解码两个过程;所述编码过程为一个卷积神经网络,通过卷积和池化后得到编码器的特征提取;一篇文章由出现的词语的词向量表示拼接得到矩阵xi表示文章中第i个词语wi的词向量表示,通过卷积编码器后得到结果,然后引入重参数技巧,生成高斯分布并重采样得到经由编码器输出的特征Z;所述解码过程与编码过程互为镜像,将经过特征提取后的文本特征Z经过反卷积操作后,重构得到矩阵
CNN-VAE将输入的向量的特征提取空间符合正态分布,即pθ(z)需符合高斯分布,并通过从高斯分布空间中采样后重构出初始输入;为了采样得到pθ(z),引入编码器网络pθ(z|x),并引入分布来逼近pθ(z|x);通过计算KL来使两个分布相似:
其中,J为z的维数;
采用蒙卡罗特评估求解重构误差:
使用重参化技巧,对z进行重参化;令z=μ+ε·σ,其中ε~p(ε),p(ε)=N(0,I);重参化将对z的采样转变成对ε的采样,将对z的求导转化为对μ和σ的求导,从而得到:
由正则化项公式以及重构误差项公式联立得到CNN-VAE的损失函数为:
CNN-VAE的目标函数为最小化VAE的变分下界:
相较于现有技术,本发明具有以下有益效果:提出了一种基于主题词向量与混合神经网络的文本表示方法,该方法在预训练阶段解决了词向量一词多义的问题,然后利用卷积神经网络优秀的特征提取能力,并结合变分自编码对特征空间拟合真实样本分布的特点,实现从词向量到文本向量的模型搭建,从而使最后的文本表示具有更多的语义信息并在文本分类中更加准确,取得更好的结果,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例中LDA模型原理结构图。
图2是本发明实施例中LDA模型原理参数关系图。
图3是本发明实施例中主题词模型。
图4是本发明实施例中CNN-VAE模型。
图5是本发明实施例中VAE的概率图模型。
图6是本发明实施例中基于主题词向量与混合神经网络的文本表示模型。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供了一种基于主题词向量与混合神经网络的文本表示方法,包括以下步骤:
S1)在词向量预训练阶段,结合LDA主题模型与word2vec词向量模型搭建主题词模型,使用搭建的主题词模型进行主题词向量预训练。具体包括以下步骤:
S101)使用LDA主题模型对语料库中每一个词语都预先分配好对应的主题。
S102)结合LDA主题模型和word2vec词向量模型搭建主题词模型,训练主题向量和词向量。
S103)联合向量,获得主题词向量。
S2)基于卷积神经网络搭建变分自编码器,得到混合神经网络。所述混合神经网络即为使用卷积神经网络设计的变分自编码器。使用变分自编码器的编码器部分,建立如图6所示的基于主题词向量预训练和混合神经网络的文本表示模型,以进行文本表示。
1.LDA模型
狄利克雷分布(Latent Dirichlet Allocation,LDA)模型的原理如图1所示,首先假设文档集D中存在有K个主题,而每一篇文档都是由这K个主题按照不同的概率构成的,存储对应概率的矩阵即文档-主题矩阵。于此相同,每一个主题都包含有M个词语,而这个主题也是由M个词语按照不同的概率构成,存储对应概率的矩阵即主题词汇矩阵。
如图2所示,主题模型LDA的贝叶斯概率模型的主要思想可以分为两个部分。
第一部分,从狄利克雷分布α中采样,生成文档d的主题分布θd,具体可表示为θd~Dir(α)。而后从主题的多项式分布中生成文档d中每个词的主题Z。
其中,α和β分别表示文档-主题的狄利克雷分布下先验参数与主题词汇狄利克雷分布下的先验参数。θd表示了文档d中的主题分布,Z表示了其对应的主题集合。表示了主题z中所包含的词汇分,W表示了其中对应的词汇集合。
根据LDA主题原理可得,一篇文档可以通过对从文档-主题的概率分布中得到,也就是说对于文档Di,j(表示为主题集i中的第j个主题)可以由多项式分布Di,j~Mult(θd)计算得到。对于每个词语对应的主题,例如文档i中第j个词汇的对应主题Zi,j,则就可以通过多项式分布得到。
对于现实中存在的数据,通常很难以求解出其对应的精确概率分布,往往就采用了近似推断的方法,通过采样的方式,来随机化的拟合真实概率分布。Gibbs sampling就是基于这种思想,它希望能够从一个联合分布概率P(X1,X1,X2,...,Xn)中采样出m个n维数据样本其主要步骤包括有:首先对于希望采样获得的向量Xi进行随机初始化操作。然后,对于每个样本Xi,都能够从条件概率分布中采样得到,其中表示样本Xi的第j维变量数值。
Gibbs sampling算法,使用迭代的方式使得最终的结果得到收敛,而后根据收敛得到此次的参数,这个参数就是算法需要拟合的概率分布所对应的先验参数的估计。其中,Gibbs sampling的采样公式如公式(1)所示:
因此代入LDA主题模型的参数α和β后可得其与主题和词汇的后验概率分布如公式(2)所示:
主题和词汇的后验概率分布就可以由此计算得到。
最后就可以根据LDA主题模型得到一篇文档的主题概率分布,以及每个主题下的词汇概率分布,从而实现对文档的主题挖掘。
2.主题词模型
所述主题词模型(Topical Word Embedding,TWE)是基于word2vec中的Skip-gram模型进行改进得到,通过在训练词向量的同时引入主题向量,实现一个词在不同主题下有不同的词向量表示。
在主题词模型中,每个主题也被当作一个词进行训练,模型分别学习得到主题zi的主题嵌入和词wi的词嵌入。然后根据词嵌入wi和主题嵌入zi训练主题词嵌入<wi,zi>。主题词模型旨在同时学习单词和主题的向量表示。对于每个目标词和其主题对<wi,zi>建立如图3所示的主题词模型。
主题词模型的目标是最大化以下的对数概率:
通过连接w和z的嵌入,即公式(6)来获得主题z中的词w的主题词嵌入,从而获得词向量w在主题z下的主题词嵌入:
如图6所示,在训练阶段,首先通过LDA主题模型将原文本中的每个单词都训练得到其对应的主题编号,将文本中的词转化为<词:主题编号>,然后将文本交由主题词模型训练出主题向量z和词向量w,最后根据<词:主题编号>和公式生成基于卷积神经网络搭建的变分自编码器的输入向量wz。
3.基于卷积神经网络的变分自编码器
如图4所示,本发明通过采用卷积神经网络(Convolutional Neural Network,CNN)来构建变分自编码器(Variational Auto-Encoder,VAE)网络框架,CNN的文本特征提取再结合VAE对特征的提取和能令向量特征空间符合高斯分布的功能,使得最后得到文本特征表示更加富含语义信息。
基于卷积神经网络搭建的变分自编码器CNN-VAE包括编码和解码两个过程。所述编码过程为一个卷积神经网络,通过卷积和池化后得到编码器的特征提取,并与传统的卷积神经网络一样,都要设置卷积核大小、个数以及步长等参数。一篇文章由出现的词语的词向量表示拼接得到矩阵(xi表示文章中第i个词语wi的词向量表示),通过卷积编码器后得到一个结果,然后引入重参数技巧,生成高斯分布并重采样得到经由编码器输出的特征Z。所述解码过程与编码过程互为镜像,将经过特征提取后的文本特征Z经过反卷积操作后,重构得到矩阵
CNN-VAE将输入的向量的特征提取空间符合正态分布(即pθ(z)需符合高斯分布),并通过从高斯分布空间中采样后重构出初始输入。VAE的概率图模型如图5所示。
其中,J为z的维数。
采用蒙卡罗特评估求解重构误差:
使用重参化技巧,对z进行重参化。令z=μ+ε·σ,其中ε~p(ε),p(ε)=N(0,I)。重参化将对z的采样转变成对ε的采样,将对z的求导转化为对μ和σ的求导,从而得到:
由正则化项公式(9)以及重构误差项公式(11)联立得到CNN-VAE的损失函数为:
CNN-VAE的目标函数为最小化VAE的变分下界:
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (3)
1.一种基于主题词向量与混合神经网络的文本表示方法,其特征在于,包括以下步骤:
S1)在词向量预训练阶段,结合LDA主题模型与word2vec词向量模型搭建主题词模型,使用搭建的主题词模型进行主题词向量预训练;
S2)基于卷积神经网络搭建变分自编码器,使用变分自编码器的编码器部分,建立基于主题词向量预训练和混合神经网络的文本表示模型,以进行文本表示;
所述步骤S2中,基于卷积神经网络搭建的变分自编码器CNN-VAE包括编码和解码两个过程;所述编码过程为一个卷积神经网络,通过卷积和池化后得到编码器的特征提取;一篇文章由出现的词语的词向量表示拼接得到矩阵xi表示文章中第i个词语wi的词向量表示,通过卷积编码器后得到结果,然后引入重参数技巧,生成高斯分布并重采样得到经由编码器输出的特征;所述解码过程与编码过程互为镜像,将经过特征提取后的文本特征经过反卷积操作后,重构得到矩阵
CNN-VAE对输入向量的特征提取空间符合正态分布,即pθ(z)需符合高斯分布,并通过从高斯分布空间中采样后重构出初始输入;为了采样得到pθ(z),引入编码器网络pθ(z|x),并引入分布来逼近pθ(z|x);通过计算KL来使两个分布相似:
其中,J为z的维数;
采用蒙卡罗特评估求解重构误差:
使用重参数技巧,对z进行重参数;令z=μ+ε·σ,其中ε~p(ε),p(ε)=N(0,I);重参数将对z的采样转变成对ε的采样,将对z的求导转化为对μ和σ的求导,从而得到:
由正则化项公式以及重构误差项公式联立得到CNN-VAE的损失函数为:
CNN-VAE的目标函数为最小化VAE的变分下界:
2.根据权利要求1所述的一种基于主题词向量与混合神经网络的文本表示方法,其特征在于,所述步骤S1具体包括以下步骤:
S101)使用LDA主题模型对语料库中每一个词语都预先分配好对应的主题;
S102)结合LDA主题模型和word2vec词向量模型搭建主题词模型,训练主题向量和词向量;
S103)联合向量,获得主题词向量。
3.根据权利要求2所述的一种基于主题词向量与混合神经网络的文本表示方法,其特征在于,所述主题词模型在训练词向量的同时引入主题向量,以实现一个词在不同主题下有不同的词向量表示;在主题词模型中,每个主题也被当作一个词进行训练,模型分别学习得到主题ti的主题嵌入和词wi的词嵌入;然后根据词嵌入wi和主题嵌入ti训练主题词嵌入<wi,ti>;所述主题词模型同时学习单词和主题的向量表示;对于每个目标词和其主题对<wi,ti>建立主题词模型,所述主题词模型的目标是最大化以下的对数概率:
通过连接w和t的嵌入,即以下公式来获得主题t中的词w的主题词嵌入,从而获得词向量w在主题t下的主题词嵌入:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010408666.6A CN111581962B (zh) | 2020-05-14 | 2020-05-14 | 一种基于主题词向量与混合神经网络的文本表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010408666.6A CN111581962B (zh) | 2020-05-14 | 2020-05-14 | 一种基于主题词向量与混合神经网络的文本表示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581962A CN111581962A (zh) | 2020-08-25 |
CN111581962B true CN111581962B (zh) | 2023-02-21 |
Family
ID=72112228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010408666.6A Active CN111581962B (zh) | 2020-05-14 | 2020-05-14 | 一种基于主题词向量与混合神经网络的文本表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581962B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597769B (zh) * | 2020-12-15 | 2022-06-03 | 中山大学 | 一种基于狄利克雷变分自编码器的短文本主题识别方法 |
CN112541340B (zh) * | 2020-12-18 | 2021-11-23 | 昆明理工大学 | 基于变分双主题表征的弱监督涉案微博评价对象识别方法 |
CN112597311B (zh) * | 2020-12-28 | 2023-07-11 | 东方红卫星移动通信有限公司 | 一种基于低轨卫星通信下的终端信息分类方法及系统 |
CN112836507B (zh) * | 2021-01-13 | 2022-12-09 | 哈尔滨工程大学 | 一种领域文本主题抽取方法 |
CN113420543B (zh) * | 2021-05-11 | 2024-03-22 | 江苏大学 | 基于改进Seq2Seq模型的数学试题自动标注方法 |
CN113569930A (zh) * | 2021-07-15 | 2021-10-29 | 南京逸智网络空间技术创新研究院有限公司 | 一种基于磁场数据侧信道分析的智能设备应用识别方法 |
CN113611367B (zh) * | 2021-08-05 | 2022-12-13 | 湖南大学 | 一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法 |
CN115099188A (zh) * | 2022-06-22 | 2022-09-23 | 南京邮电大学 | 一种基于词嵌入和生成式神经网络的主题挖掘方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334497A (zh) * | 2018-02-06 | 2018-07-27 | 北京航空航天大学 | 自动生成文本的方法和装置 |
CN109636061A (zh) * | 2018-12-25 | 2019-04-16 | 深圳市南山区人民医院 | 医保欺诈预测网络的训练方法、装置、设备及存储介质 |
CN109783645A (zh) * | 2019-01-23 | 2019-05-21 | 福州大学 | 一种基于变分自编码的文本分类方法 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
CN110083710A (zh) * | 2019-04-30 | 2019-08-02 | 北京工业大学 | 一种基于循环神经网络与潜变量结构的词语定义生成方法 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110188836A (zh) * | 2019-06-21 | 2019-08-30 | 西安交通大学 | 一种基于变分自编码器的脑功能网络分类方法 |
CN110572696A (zh) * | 2019-08-12 | 2019-12-13 | 浙江大学 | 一种变分自编码器与生成对抗网络结合的视频生成方法 |
CN110825848A (zh) * | 2019-06-10 | 2020-02-21 | 北京理工大学 | 一种基于短语向量的文本分类方法 |
CN110941721A (zh) * | 2019-09-28 | 2020-03-31 | 国家计算机网络与信息安全管理中心 | 基于变分自编码主题模型的短文本主题挖掘方法及系统 |
CN111126282A (zh) * | 2019-12-25 | 2020-05-08 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11194968B2 (en) * | 2018-05-31 | 2021-12-07 | Siemens Aktiengesellschaft | Automatized text analysis |
-
2020
- 2020-05-14 CN CN202010408666.6A patent/CN111581962B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334497A (zh) * | 2018-02-06 | 2018-07-27 | 北京航空航天大学 | 自动生成文本的方法和装置 |
CN109636061A (zh) * | 2018-12-25 | 2019-04-16 | 深圳市南山区人民医院 | 医保欺诈预测网络的训练方法、装置、设备及存储介质 |
CN109783645A (zh) * | 2019-01-23 | 2019-05-21 | 福州大学 | 一种基于变分自编码的文本分类方法 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
CN110083710A (zh) * | 2019-04-30 | 2019-08-02 | 北京工业大学 | 一种基于循环神经网络与潜变量结构的词语定义生成方法 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110825848A (zh) * | 2019-06-10 | 2020-02-21 | 北京理工大学 | 一种基于短语向量的文本分类方法 |
CN110188836A (zh) * | 2019-06-21 | 2019-08-30 | 西安交通大学 | 一种基于变分自编码器的脑功能网络分类方法 |
CN110572696A (zh) * | 2019-08-12 | 2019-12-13 | 浙江大学 | 一种变分自编码器与生成对抗网络结合的视频生成方法 |
CN110941721A (zh) * | 2019-09-28 | 2020-03-31 | 国家计算机网络与信息安全管理中心 | 基于变分自编码主题模型的短文本主题挖掘方法及系统 |
CN111126282A (zh) * | 2019-12-25 | 2020-05-08 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
Non-Patent Citations (1)
Title |
---|
基于词向量和变分自动编码器的短文本主题模型;张青;《万方数据期刊库》;20190103;第1-7页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111581962A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581962B (zh) | 一种基于主题词向量与混合神经网络的文本表示方法 | |
Wang et al. | An LSTM approach to short text sentiment classification with word embeddings | |
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
Zhang et al. | A text sentiment classification modeling method based on coordinated CNN‐LSTM‐attention model | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN111581401B (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
Shirani-Mehr | Applications of deep learning to sentiment analysis of movie reviews | |
CN111274398A (zh) | 一种方面级用户产品评论情感分析方法及系统 | |
CN111552803A (zh) | 一种基于图小波网络模型的文本分类方法 | |
Deng et al. | Text sentiment analysis of fusion model based on attention mechanism | |
CN109508457B (zh) | 一种基于机器阅读到序列模型的迁移学习方法 | |
Wang et al. | Text categorization with improved deep learning methods | |
CN113821635A (zh) | 一种用于金融领域的文本摘要的生成方法及系统 | |
CN114218928A (zh) | 一种基于图知识和主题感知的抽象文本摘要方法 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN113204640B (zh) | 一种基于注意力机制的文本分类方法 | |
Sanjanaashree et al. | Joint layer based deep learning framework for bilingual machine transliteration | |
CN116932686B (zh) | 主题挖掘方法、装置、电子设备及存储介质 | |
CN111199155A (zh) | 一种文本分类方法及装置 | |
CN113435192A (zh) | 一种基于改变神经网络通道基数的中文文本情感分析方法 | |
Larsson et al. | Disentangled representations for manipulation of sentiment in text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |