CN109213975B - 一种基于字符层级卷积变分自编码的推特文本表示方法 - Google Patents

一种基于字符层级卷积变分自编码的推特文本表示方法 Download PDF

Info

Publication number
CN109213975B
CN109213975B CN201810967723.7A CN201810967723A CN109213975B CN 109213975 B CN109213975 B CN 109213975B CN 201810967723 A CN201810967723 A CN 201810967723A CN 109213975 B CN109213975 B CN 109213975B
Authority
CN
China
Prior art keywords
character
word
vector
matrix
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810967723.7A
Other languages
English (en)
Other versions
CN109213975A (zh
Inventor
黄江平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201810967723.7A priority Critical patent/CN109213975B/zh
Publication of CN109213975A publication Critical patent/CN109213975A/zh
Application granted granted Critical
Publication of CN109213975B publication Critical patent/CN109213975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于字符层级卷积变分自编码的推特文本表示方法,依次包括如下步骤:对获得的推特源文本进行预处理;进行初始化编码并构建以词为单位的字符向量矩阵;在字符矩阵上进行卷积编码获得固定长度的词向量;在词矩阵上进行卷积编码获得文本向量;对文本向量进行变分推理并获得潜在编码;对潜在编码表示进行反卷积解码获得词向量表示并在词向量基础上再进行反卷积获得字符向量表示;计算编码前后字符向量与词向量之间的欧式距离及先验分布与后验分布之间的散度;利用损失进行模型参数更新。本发明所提出的方法利用基于字符层级卷积编码及变分推理方式有效地解决了推特文本中存在的非规范词与数据稀疏问题,可获得更加鲁棒的表示性能。

Description

一种基于字符层级卷积变分自编码的推特文本表示方法
技术领域
本发明属于深度学习和社交媒体内容的语义分析与计算领域,尤其涉及一种基于字符层级卷积变分自编码的推特文本表示方法。
背景技术
近年来随着社会媒体的快速发展,用户生成了大量的短文本内容,由于这些文本缺乏有效的上下文信息,且内容存在大量的未登录词等问题,传统的词袋模型很难实现对这类文本的表示,因此亟待探索更加有效的社会媒体文本内容表示方法。
深度学习基于人工神经网络的研究,由多层神经网络的计算模型来学习数据的表示,其强大的数据拟合与特征抽象能力极大的促进了计算机视觉、自然语言处理以及海量数据分析与挖掘等领域的快速发展。深度学习的概念由Hinton等人于2006年提出,其核心思想即通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。目前深度学习中具有代表性的模型或方法包括卷积神经网络(CNN)、循环神经网络(RNN)、深度置信网络(DBN)以及生成对抗网络(GAN)等。
卷积神经网络是由Yann LeCun等人提出的第一个真正多层结构的学习算法,它利用空间相对关系减少参数数目以提高训练性能,可以通过增加卷积层数可以构建深度卷积神经网络,进而实现对图像数据、文本内容的抽象表示。循环神经网络是一类处理时序数据的模型,通过在每个时间ti输入数据xi,由先前生成的隐层输出hi-1和当前输入数据xi计算输出oi及隐层输出hi,通过不断循环此过程实现对整个数据的抽象分布式表示。深度置信网络则通过非监督贪心逐层训练算法,解决深层结构相关的优化难题,并构建多层自动编码器深层结构。生成对抗网络通过同步训练判别模型D和生成模型G来估计生成模型,前者判断给定样本的真假,而后者则生成让判别模型无法判断真假的样本,实现高性能的生成模型。
深度学习就是从一个输入中产生一个输出,所涉及的计算可以通过一个流向图来表示,在这种图中每一个节点表示一个基本的计算以及一个计算的值,计算的结果被应用到这个节点的子节点的值。深度学习模拟了人类认知过程逐层进行,逐步抽象的过程,即首先学习简单的概念,然后再用这种方法去表示更抽象的思想和概念。这种方法已经成功应用于计算机视觉、语音识别等领域,尽管近年来深度学习方法应用于自然语言处理的应用受到了很大的关注,但大多基于模型的设计,并依赖于标注数据,其训练方法集中于有监督的学习或者半监督学习方式。因此探索能够充分利用大规模未标注数据进行模型训练的方法已成为近几年来深度学习的研究热点,其中变分自编码就是其中最具代表性的方法。
在文本内容的表示学习方面,传统的表示学习方法大多基于词袋模型并采用独热等词表示方法,这将不可避免地造成词与词之间严重的“词汇鸿沟”现象,即语义相近的词在向量表示中也是相互正交的。虽然这些方法在表示传统的文本时比较有效,但应用于社交文本表示则会出现严重的数据稀疏问题。一是社交媒体用户生成内容大多是短文本,缺乏有效的上下文信息;二是这些文本中含有大量的未登录词和非规范词,很难获取其所表示的语义信息。而先前的方法通常采用手工特征进行社交媒体文本内容表示学习,但这种方法依赖于人工经验,对于一些专业领域的社交媒体数据则需要相应的专家构建知识库才能较好地实现这些数据文本的表示。现有技术中的各种数据文本分析方法,大多是针对常见或者部分特殊领域的社交媒体数据进行分析,而且这些方法大多只采用简单的词编码方式和传统的学习模型对数据进行简单的拟合,缺乏对这些数据分布的描述,因此生成的文本向量较难有效地描述其文本所蕴含的语义信息。对于一些具有长尾分布以及形态学分布的语言或数据,其采用词表示的方法也导致了大量的未登录词,因此需要探索一种新方法解决大量未登录词编码以及提高模型泛化能力来学习推特文本的表示,使得模型具有较强的鲁棒性、通用性和域适应性。
发明内容
针对现有推特文本等社交媒体用户生成内容表示方法的不足,本发明将深度学习与语义分析与计算相结合,提出了一种基于字符层级卷积变分自编码的推特文本表示方法,该方法通过对所要表示的推特文本内容进行基于字符的卷积特征抽取和分析,并根据获得的特征矩阵进行池化操作获得每个词的向量表示,再在词级表示的基础上进行卷积和池化获得文本级的向量表示,并对获得的文本向量进行变分推理和解码,通过计算编码前后的损失以及先验分布于后验分布的散度来更新模型参数,实现对数据以及分布的学习和拟合。
本发明采用的技术方案具体如下:
一种基于字符层级卷积变分自编码的推特文本表示方法,,包括以下步骤:
S1、遍历推特源文本语料C,过滤非文本内容得到推特文本T,然后进行分词,得到字符集S;
S2、对每一条推特文本分别统计词中的所含有的最大字符长Lc与最大词长Lw
S3、对字符集S内的每一个字符随机初始化,构建字符向量表
Figure BDA0001775383810000031
Sl为字符数,Dc为向量维度;
S4、以词为单位构建字符矩阵Mc,矩阵大小为Lc×Dc,即
Figure BDA0001775383810000032
S5、对字符矩阵Mc进行卷积操作和池化操作,得到每个词基于字符卷积的固定维度向量
Figure BDA0001775383810000033
即固定维度的词向量
Figure BDA0001775383810000034
S6、由固定维度词向量
Figure BDA0001775383810000035
及其向量维度Dw组合成用于表示推特文本T的词矩阵Mw,其矩阵大小为Lw×Dw,即
Figure BDA0001775383810000036
S7、对词矩阵Mw进行卷积操作和池化操作,得到每条推特文本基于词卷积的固定维度向量
Figure BDA0001775383810000041
即固定维度的推特向量
Figure BDA0001775383810000042
S8、利用固定维度的推特向量
Figure BDA0001775383810000043
生成用于变分推理的均值μ和方差δ,然后在标准正太分布中采样得到采样结果ε,由Z=μ+εδ生成变分编码表示向量Z,其向量维度为Dt
S9、对变分编码表示向量Z采用反卷积及采样池化操作,重构生成词向量矩阵M′w,对词矩阵M′w的每一词向量进行反卷积及采样操作,重构字符矩阵Mc′;
S10、分别计算Mc′与Mc的欧式距离,以及M′w与Mw的欧式距离,且计算变分编码表示向量Z与标准正太分布之间的散度值,再基于计算的欧式距离及散度值更新模型参数,实现模型对待表示推特文本数据的拟合,获得字符层级卷积变分自编码模型的参数,再基于编码器参数则可用于推特文本表示。
进一步的,所述过滤非文本内容包括过滤掉标签、表情符号以及超链接。
进一步的,所述字符向量的向量取值范围为[-r,r],r的值可根据实际需要进行选择,默认设置为0.05,向量维度Dc=50。
进一步的,步骤S4具体包括:若词中所包含的字符c∈S,则在Ct中查找该字符的向量,并按序填充字符矩阵Mc,若字符长度小于Lc,则在字符矩阵Mc两端进行内容为0的填充。
进一步的,步骤S5具体包括:通过设置不同字符卷积过滤器窗口WFc的大小构建不同字符卷积过滤器,对于相同窗口大小的过滤器初始化为不同的值,从而形成多个卷积核,对每个卷积核进行字符卷积操作得到特征映射矩阵Mfc,在特征映射矩阵上进行k-max池化操作,并对获得的池化后特征进行全连接操作得到每个词基于字符卷积的固定维度向量
Figure BDA0001775383810000044
进一步的,在词矩阵Mw中,若词的长度小于Lw,则通过在词矩阵Mw两端进行内容为0的填充。
进一步的,步骤S7具体包括:通过设置不同词卷积过滤器窗口WFw的大小构建不同词卷积过滤器,对于相同窗口大小的过滤器初始化为不同的值,形成多个卷积核,每个卷积核进行词卷积操作得到特征映射矩阵Mfw,在特征映射矩阵上进行k-max池化操作,并进行全连接操作得到每条推特文本基于词卷积的固定维度向量
Figure BDA0001775383810000051
进一步的,步骤S8具体包括:根据推特文本向量
Figure BDA0001775383810000052
分别利用前向神经网络层
Figure BDA0001775383810000053
Figure BDA0001775383810000054
生成用于变分推理的均值μ和方差δ,其维度大小为Dt,其中Wμ、Wδ、bμ和bδ分别为网络模型参数,而α(·)为激活函数;然后在标准正太分布中采样得到ε,再由生成的均值μ和方差δ,由Z=μ+εδ生成潜在的编码向量Z,其维度大小为Dt
进一步的,在步骤S9中,重构的词向量矩阵M′w,其矩阵大小与Mw相同,即Lw×Dw;重构的字符矩阵Mc′,其矩阵大小与Mc相同,即Lc×Dc
进一步的,步骤S10具体包括:计算Mc′与Mc的欧式距离L1,以及M′w与Mw的欧式距离L2,且计算变分编码表示向量Z与标准正太分布之间的散度值H,以L1、L2和H作为模型编码损失,利用反向传播算法更新模型参数使其收敛并小于设定的训练阈值,通过模型参数优化实现对待表示推特文本数据的拟合,进而获得字符层级卷积变分自编码模型在语料上学习的参数,在获得这些模型参数后,即可利用模型的编码部分用于表示推特文本。
与现有技术相比,本发明具有以下优点和有益效果:
1、在推特文本表示方面,以字符向量作为输入可适用于多种符号语言,具有广泛的域适应性,且不需要构建相应的词典和预训练的字符和词向量,提高了表示学习效率及适用范围。
2、选择字符作为输入,可以不受限于未登录词以及新词的问题,还可以避免自媒体内容非规范表达的问题,不局限于从词级表示作为模型输入,更符合实际需求。
3、在文本编码基础上,通过利用变分推理操作实现数据的分布表示,避免了传统点到点编解码的不足,更好地获得了数据的分布特征,体现了深度学习模拟的人类认知过程。
4、采用由字符级到词级卷积编码的层级编码实现推特文本编码表示,可以获得字符级特征信息和词级特征信息,这种层级结构更符合文本的内部有机组成,有利于文本的编码表示
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明方法的流程图;
图2为输入推特文本以词为单位的字符矩阵构建实例;
图3为字符卷积网络在字符矩阵上的卷积池化以及全连接生成词向量的实例;
图4为词向量构建推特文本的词矩阵以及卷积池化和全连接生成推特向量的实例;
图5为推特编码向量生成均值和方差向量并计算潜在编码向量的实例;
图6为在生成潜在编码向量上采用反卷积和上池化的重构实例。
具体实施方式
为了使本发明的目的、技术方案和有益效果更加清楚,下面将结合附图及具体实施例进行详细描述。
为了解决社交媒体文本表示所面临的数据稀疏以及域适应性等问题,本发明方法在实现推特文本的向量表示时,采用基于字符层级卷积变分自编码的方法进行字符和词级特征的提取,在形成推特文本编码向量的基础上再进行变分推理生成潜在编码,然后基于编码重构词向量及字符矩阵,优化模型参数,实现对推特文本数据的拟合和表示。
图1所示为本发明方法的流程图,本发明方法的具体步骤如下:
步骤一,遍历语料中所有需要进行编码表示的推特,去掉文本中的标签符、标签以及超链接等非文本内容,并进行分词处理。所处理的内容包括所有的字母、数字以及其它用于文本描述的符号,具体内容包括26个小写字母、26个大写字母、10个数字,25个符号,共87个字符,构成字符集S,这里的字符仅为常用字符,可以根据实际情况确定字符集。
步骤二,根据步骤一得到的每条推特Ti分别进行词中所包含字符长度和词长度的统计,获得语料C中所有推特的最大字符长Lc和最大词长Lw。即所有词中所含有的字符数的最大值和所有推特中所含有词的最大值,用于构建字符矩阵和词矩阵。
步骤三,根据步骤一获得的字符集S,构建字符向量,首先对每个字符随机初始化一个向量维度为Dc的字符向量,向量取值范围为[-r,r],这里的向量维度Dc以及向量值范围r可以根据实验表现而设置,默认为Dc=50,r=0.05,构建字符向量表
Figure BDA0001775383810000071
Sl为字符数。
步骤四,根据步骤二得到的最大字符长Lc,以词为单位构建字符矩阵据Mc,字符矩阵大小为Lc×Dc,即
Figure BDA0001775383810000072
这里把每个词的字符矩阵均设置为
Figure BDA0001775383810000073
若词中的字符c∈S,则在Ct中查找该字符的向量,并填充字符矩阵Mc,实际上大多数词的字符数小于Lc,因此若词中的字符数为Ln,且Ln<Lc,则矩阵Mc中有Lc-n列采用0作为填充值。
步骤五,对步骤四中得到的字符矩阵Mc进行窄卷积操作,通过设置不同字符卷积过滤器窗口WFc的大小,构建不同字符卷积过滤器,WFc的选择范围可以针对提取单个字符或者多个字符特征进行设定,而相同窗口大小的卷积过滤器则通过初始化为不同的值形成多个卷积核,每个卷积核进行字符卷积操作得到特征映射矩阵Mfc,在特征映射矩阵上进行k-max池化操作生成k个特征值,不同的卷积核的特征映射矩阵经池化后分别得到k个的特征值,通过进行全连接操作得到每个词基于字符卷积的固定维度向量
Figure BDA0001775383810000074
若卷积核个数为n,则词向量
Figure BDA0001775383810000075
的维度大小为|n×k|。实际上本发明方法还包括可以通过设置卷积核的个数构建经池化后的特征矩阵,再进行多次卷积和池化操作,构建词向量
Figure BDA0001775383810000081
步骤六,由步骤五获得的推特文本的词向量
Figure BDA0001775383810000082
按照文本中的词序组合成用于表示文本的词矩阵Mw,其矩阵大小为Lw×Dw,即
Figure BDA0001775383810000083
其中Dw
Figure BDA0001775383810000084
的维度。在实际的推特文本编码表示中,大多数推特文本的词数Lm小于若该条文本中词的个数小于Lw,因此为了构建固定宽度的词矩阵用于卷积池化操作,则词矩阵Mw中有Lw-m列采用0进行填充操作。
步骤七,对步骤六中的词矩阵Mw进行卷积操作,通过设置不同词卷积过滤器窗口WFw的大小构建不同词卷积过滤器,WFw的选择范围可以针对单个词或者多个词进行设定,而相同窗口大小的过滤器通过初始化为不同的值可以形成多个卷积核,每个卷积核进行词卷积操作得到特征映射矩阵Mfw,在特征映射矩阵上进行k-max池化操作生成k个特征值,不同卷积核的特征映射矩阵经池化后分别得到k个的特征值,通过进行全连接操作得到每个推特文本基于词卷积的固定维度向量
Figure BDA0001775383810000085
向量维度为Dt。与字符卷积类似,若词卷积核个数为m,则推特向量
Figure BDA0001775383810000086
的维度大小为|m×k|。实际上本发明方法还包括可以通过设置卷积核的个数构建经池化后的特征矩阵,再进行多次词卷积和池化操作,构建推特向量
Figure BDA0001775383810000087
步骤八,利用步骤七生成的推特文本向量
Figure BDA0001775383810000088
分别利用前向神经网络层
Figure BDA0001775383810000089
Figure BDA00017753838100000810
生成用于变分推理的均值μ和方差δ,其维度大小为Dt,其中Wμ、Wδ、bμ和bδ分别为网络模型参数,而α(·)为激活函数。然后在标准正太分布中采样得到ε,再由生成的均值μ和方差δ,由Z=μ+εδ生成潜在的编码向量Z,其维度大小为Dt
步骤九,由步骤八生成的编码向量Z,采用反卷积及采样池化操作,重构用于表示推特文本的词向量矩阵M′w,其矩阵大小与Mw相同,即Lw×Dw,然后分别对词矩阵M′w中的每一个词向量继续进行反卷积及采样池化操作,重构用于表示每个词的字符矩阵Mc′,该矩阵的维度与该词所对应的字符矩阵Mc一致,即Lc×Dc
步骤十,分别计算由步骤九生成的字符矩阵Mc′和由步骤四生成的字符矩阵Mc,以及步骤九生成的词矩阵M′w与步骤六生成的词矩阵Mw的欧式距离,并计算步骤八生成的潜在编码向量Z与正太分布之间的散度值,再基于计算编解码前后的字符矩阵与词矩阵的欧式距离及散度值作为模型编解码损失,然后利用反向传播算法更新模型参数使其收敛并小于设定的训练阈值,通过模型参数优化实现对待表示推特文本数据的拟合,进而获得字符层级卷积变分自编码模型在语料上学习的参数。在获得这些模型参数后,即可用于推特文本表示。
下面将结合附图和具体实例来进一步说明本发明方法。
图2为给定推特中的词“overhead”以及“little”进行基于字符的词矩阵表示,这里的单词“overhead”共有8个字符,因此按照字符顺序构建矩阵,每一个字符的向量维度为D,这里以D=5为例,因此单词“overhead”构成D×8的矩阵,而实际构建的矩阵以语料中含有最多字符的单词长度为准,若最大长度为L=10,则需要在单词“overhead”的两边增加填充内容,通常填充0,这样所构建的字符矩阵为5×10。而“little”则需要在两边分别填充两列0值,因此所构建的字符矩阵为5×10,因此即使单词字符数不一致,但所构建的字符矩阵尺寸保持相同。其目的是为了在卷积的过程中,每个单词都能够生成相应的字符特征向量,而且方便不同的卷积核操作,且不会因为单词的长度太短或者单词长度太长生成不同维度的矩阵,利用0填充可以使生成的特征值为0,在卷积后利用激活函数可以过滤这些特征值。图2中的空白圆圈部分表示填充的内容,而黑色圆圈则表示实际字符向量值。
图3表示在词“overhead”的字符矩阵上进行卷积和池化生成词向量的示例。首先是构建两个卷积过滤器,卷积核大小为3×3和3×4,这里仅以两个卷积核为例。然后在字符矩阵上分布进行卷积操作,并分别生成3×8和3×7的特征矩阵。在两个特征矩阵上采用k-max池化操作,这里的k=5,因此可获得这两个矩阵上的5个最大特征值。最后采用全连接操作进行卷积后特征的连接,构建用于表示词的固定维度向量,这里示例中的向量维度为10。依次采用同样的卷积和池化操作,可以在字符矩阵上获得推特文本中每个词的向量表示。
图4为基于字符卷积生成的推特文本词矩阵生成固定维度推特向量的方法,具体实现方式与字符卷积类似。首先基于生成的词向量构建推特文本的词矩阵,然后利用不同的卷积核来生成特征映射矩阵,这里以两个卷积核为例,卷积核大小为3×3和3×4。在构建的推特词矩阵5×15上分别生成3×13和3×12的特征矩阵,需要注意的是这里文本长度为11,但以最大文本长度为15进行作为左右两边两列向量填充。在生成的特征矩阵基础上采用k-max池化操作,这里的k=5,因此可获得这两个矩阵上的5个最大特征值。然后全连接每个特征矩阵获得的5个特征值,构成维度为10的推特文本向量。
图5则表示给定生成的推特向量,由神经网络分布生成用于变分推理的均值向量μ和方差向量δ,其向量维度与推特文本向量的维度一致。然后在正太分布N(0,I)先采样ε,再利用Z=μ+εδ计算潜在的编码向量,其获得的潜在编码向量维度与获得的推特文本向量一致。图6则基于生成的编码向量Z来重构词向量矩阵,然后基于该方法再重构字符矩阵。在给定编码向量Z后首先使用上池化(unpooling)重构特征矩阵,然后再基于特征矩阵进行反卷积操作生成词向量矩阵。这里假设向量维度为10,若k-max池化操作中的k=9,则上池化采样生成3×30的特征矩阵,然后再进行反卷积操作。这里以卷积核为4×4为例,如红色框所示大小的卷积核,则针对3×30这样的特征矩阵的每个特征值,则可重构出5×33的词矩阵。需要注意的是这里的实例与前面步骤中略有不同,即以k-max池化操作中的k=9为例进行上池化操作,而不是以k=5进行示例,因此生成的词矩阵与前述步骤并不一致,这里主要是以不同池化选择的k值来进行本发明的举例说明。
以上所述仅为使本发明的目的、技术方案及优点与有益性更加清晰明白,应当理解所述的具体实施例仅仅用于解释本发明,并不以此限制和限定本发明以及保护范围,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,包括以下步骤:
S1、遍历推特源文本语料C,过滤非文本内容得到推特文本T,然后进行分词,得到字符集S;
S2、对每一条推特文本分别统计词中的所含有的最大字符长Lc与最大词长Lw
S3、对字符集S内的每一个字符随机初始化,构建字符向量表
Figure FDA0001775383800000011
Sl为字符数,Dc为向量维度;
S4、以词为单位构建字符矩阵Mc,矩阵大小为Lc×Dc,即
Figure FDA0001775383800000012
S5、对字符矩阵Mc进行卷积操作和池化操作,得到每个词基于字符卷积的固定维度向量
Figure FDA0001775383800000013
即固定维度的词向量
Figure FDA0001775383800000014
S6、由固定维度词向量
Figure FDA0001775383800000015
及其向量维度Dw组合成用于表示推特文本T的词矩阵Mw,其矩阵大小为Lw×Dw,即
Figure FDA0001775383800000016
S7、对词矩阵Mw进行卷积操作和池化操作,得到每条推特文本基于词卷积的固定维度向量
Figure FDA0001775383800000017
即固定维度的推特向量
Figure FDA0001775383800000018
S8、利用固定维度的推特向量
Figure FDA0001775383800000019
生成用于变分推理的均值μ和方差δ,然后在标准正太分布中采样得到采样结果ε,由Z=μ+εδ生成变分编码表示向量Z,其向量维度为Dt
S9、对变分编码表示向量Z采用反卷积及采样池化操作,重构生成词向量矩阵M′w,对词矩阵M′w的每一词向量进行反卷积及采样操作,重构字符矩阵M′c
S10、分别计算M′c与Mc的欧式距离,以及M′w与Mw的欧式距离,且计算变分编码表示向量Z与标准正太分布之间的散度值,再基于计算的欧式距离及散度值更新模型参数,实现模型对待表示推特文本数据的拟合,获得字符层级卷积变分自编码模型的参数,再基于编码器参数则可用于推特文本表示。
2.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于:所述过滤非文本内容包括过滤掉标签、表情符号以及超链接。
3.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,所述字符向量的向量取值范围为[-r,r],r的值可根据实际需要进行选择,默认设置为0.05,向量维度Dc=50。
4.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,步骤S4具体包括:若词中所包含的字符c∈S,则在Ct中查找该字符的向量,并按序填充字符矩阵Mc,若字符长度小于Lc,则在字符矩阵Mc两端进行内容为0的填充。
5.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,步骤S5具体包括:通过设置不同字符卷积过滤器窗口WFc的大小构建不同字符卷积过滤器,对于相同窗口大小的过滤器初始化为不同的值,从而形成多个卷积核,对每个卷积核进行字符卷积操作得到特征映射矩阵Mfc,在特征映射矩阵上进行k-max池化操作,并对获得的池化后特征进行全连接操作得到每个词基于字符卷积的固定维度向量
Figure FDA0001775383800000021
6.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于:在词矩阵Mw中,若词的长度小于Lw,则通过在词矩阵Mw两端进行内容为0的填充。
7.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,步骤S7具体包括:通过设置不同词卷积过滤器窗口WFw的大小构建不同词卷积过滤器,对于相同窗口大小的过滤器初始化为不同的值,形成多个卷积核,每个卷积核进行词卷积操作得到特征映射矩阵Mfw,在特征映射矩阵上进行k-max池化操作,并进行全连接操作得到每条推特文本基于词卷积的固定维度向量
Figure FDA0001775383800000031
8.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,步骤S8具体包括:根据推特文本向量
Figure FDA0001775383800000032
分别利用前向神经网络层
Figure FDA0001775383800000033
Figure FDA0001775383800000034
生成用于变分推理的均值μ和方差δ,其维度大小为Dt,其中Wμ、Wδ、bμ和bδ分别为网络模型参数,而α(·)为激活函数;然后在标准正太分布中采样得到ε,再由生成的均值μ和方差δ,由Z=μ+εδ生成潜在的编码向量Z,其维度大小为Dt
9.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于:在步骤S9中,重构的词向量矩阵M′w,其矩阵大小与Mw相同,即Lw×Dw;重构的字符矩阵M′c,其矩阵大小与Mc相同,即Lc×Dc
10.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,步骤S10具体包括:计算M′c与Mc的欧式距离L1,以及M′w与Mw的欧式距离L2,且计算变分编码表示向量Z与标准正太分布之间的散度值H,以L1、L2和H作为模型编码损失,利用反向传播算法更新模型参数使其收敛并小于设定的训练阈值,通过模型参数优化实现对待表示推特文本数据的拟合,进而获得字符层级卷积变分自编码模型在语料上学习的参数,在获得这些模型参数后,即可利用模型的编码部分用于表示推特文本。
CN201810967723.7A 2018-08-23 2018-08-23 一种基于字符层级卷积变分自编码的推特文本表示方法 Active CN109213975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810967723.7A CN109213975B (zh) 2018-08-23 2018-08-23 一种基于字符层级卷积变分自编码的推特文本表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810967723.7A CN109213975B (zh) 2018-08-23 2018-08-23 一种基于字符层级卷积变分自编码的推特文本表示方法

Publications (2)

Publication Number Publication Date
CN109213975A CN109213975A (zh) 2019-01-15
CN109213975B true CN109213975B (zh) 2022-04-12

Family

ID=64989669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810967723.7A Active CN109213975B (zh) 2018-08-23 2018-08-23 一种基于字符层级卷积变分自编码的推特文本表示方法

Country Status (1)

Country Link
CN (1) CN109213975B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322529B (zh) * 2019-07-12 2023-04-18 电子科技大学 一种基于深度学习辅助艺术绘画的方法
CN110457700B (zh) * 2019-08-07 2020-04-21 中国人民解放军国防科技大学 短文本描述方法和装置
CN110825980B (zh) * 2019-11-05 2022-07-01 重庆邮电大学 一种基于对抗生成网络的微博话题推送方法
CN110889290B (zh) * 2019-11-13 2021-11-16 北京邮电大学 文本编码方法和设备、文本编码有效性检验方法和设备
CN111401072A (zh) * 2020-02-26 2020-07-10 北京香侬慧语科技有限责任公司 一种文本预测方法和装置
CN111415009B (zh) * 2020-03-19 2021-02-09 四川大学 基于遗传算法的卷积变分自编码器网络结构搜索方法
CN112583823B (zh) * 2020-12-11 2022-07-29 广东工业大学 一种编码加密、解码解密处理方法
US11694018B2 (en) * 2021-01-29 2023-07-04 Salesforce, Inc. Machine-learning based generation of text style variations for digital content items
CN112800183B (zh) * 2021-02-25 2023-09-26 国网河北省电力有限公司电力科学研究院 内容名称数据处理方法及终端设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198228A (zh) * 2013-04-18 2013-07-10 清华大学 基于广义关系隐话题模型的关系网络链接预测方法
CN103473309A (zh) * 2013-09-10 2013-12-25 浙江大学 一种基于概率单词选择和监督主题模型的文本分类方法
CN104346450A (zh) * 2014-10-29 2015-02-11 浙江大学 一种基于多模态隐性耦合表达的跨媒体排序方法
CN107506351A (zh) * 2017-08-18 2017-12-22 武汉红茶数据技术有限公司 一种基于字符卷积网络的推特语义相似性分析方法
CN108009520A (zh) * 2017-12-21 2018-05-08 东南大学 一种基于卷积变分自编码器神经网络的手指静脉识别方法及系统
CN108171176A (zh) * 2017-12-29 2018-06-15 中车工业研究院有限公司 一种基于深度学习的地铁司机情绪辨识方法及装置
CN108345692A (zh) * 2018-03-16 2018-07-31 北京京东尚科信息技术有限公司 一种自动问答方法和系统
CN108363685A (zh) * 2017-12-25 2018-08-03 北京牡丹电子集团有限责任公司数字电视技术中心 基于递归变分自编码模型的自媒体数据文本表示方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017212459A1 (en) * 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
US11068658B2 (en) * 2016-12-07 2021-07-20 Disney Enterprises, Inc. Dynamic word embeddings

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198228A (zh) * 2013-04-18 2013-07-10 清华大学 基于广义关系隐话题模型的关系网络链接预测方法
CN103473309A (zh) * 2013-09-10 2013-12-25 浙江大学 一种基于概率单词选择和监督主题模型的文本分类方法
CN104346450A (zh) * 2014-10-29 2015-02-11 浙江大学 一种基于多模态隐性耦合表达的跨媒体排序方法
CN107506351A (zh) * 2017-08-18 2017-12-22 武汉红茶数据技术有限公司 一种基于字符卷积网络的推特语义相似性分析方法
CN108009520A (zh) * 2017-12-21 2018-05-08 东南大学 一种基于卷积变分自编码器神经网络的手指静脉识别方法及系统
CN108363685A (zh) * 2017-12-25 2018-08-03 北京牡丹电子集团有限责任公司数字电视技术中心 基于递归变分自编码模型的自媒体数据文本表示方法
CN108171176A (zh) * 2017-12-29 2018-06-15 中车工业研究院有限公司 一种基于深度学习的地铁司机情绪辨识方法及装置
CN108345692A (zh) * 2018-03-16 2018-07-31 北京京东尚科信息技术有限公司 一种自动问答方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Deep Generative Framework for Paraphrase Generation;Ankush Gupta等;《http://arxiv.org/abs/1709.05074》;20170915;1-9 *
Neural Variational Inference for Text Processing;Yishu Miao等;《Proceedings of the 33rd International Conference on Machine Learning》;20160619;1-10 *
基于卷积网络的句子语义相似性模型;黄江平等;《华南理工大学学报》;20170315;第45卷(第3期);68-75 *
基于深度学习的文本情感分类算法研究与实现;谢稳文;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180715;I138-1869 *

Also Published As

Publication number Publication date
CN109213975A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109213975B (zh) 一种基于字符层级卷积变分自编码的推特文本表示方法
CN110717334B (zh) 基于bert模型和双通道注意力的文本情感分析方法
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
Li et al. Grass: Generative recursive autoencoders for shape structures
CN105938485B (zh) 一种基于卷积循环混合模型的图像描述方法
Gallant et al. Representing objects, relations, and sequences
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN109033069B (zh) 一种基于社会媒体用户动态行为的微博主题挖掘方法
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
CN112417289B (zh) 一种基于深度聚类的资讯信息智能推荐方法
Tang et al. FontRNN: Generating Large‐scale Chinese Fonts via Recurrent Neural Network
CN108363685B (zh) 基于递归变分自编码模型的自媒体数据文本表示方法
CN107562729B (zh) 基于神经网络和主题强化的党建文本表示方法
CN114529903A (zh) 文本细化网络
CN111581392B (zh) 一种基于语句通顺度的自动作文评分计算方法
CN111242059B (zh) 基于递归记忆网络的无监督图像描述模型的生成方法
CN114492459A (zh) 基于知识图谱与交互图卷积的评论情感分析方法及系统
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN113747168A (zh) 多媒体数据描述模型的训练方法和描述信息的生成方法
CN114519353B (zh) 模型的训练方法、情感消息生成方法和装置、设备、介质
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
CN113326695B (zh) 一种基于迁移学习的情感极性分析方法
Ullah et al. A review of multi-modal learning from the text-guided visual processing viewpoint
CN115311598A (zh) 基于关系感知的视频描述生成系统
CN114511813A (zh) 视频语义描述方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant