CN109213975B

CN109213975B - 一种基于字符层级卷积变分自编码的推特文本表示方法

Info

Publication number: CN109213975B
Application number: CN201810967723.7A
Authority: CN
Inventors: 黄江平
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2022-04-12
Anticipated expiration: 2038-08-23
Also published as: CN109213975A

Abstract

本发明公开了一种基于字符层级卷积变分自编码的推特文本表示方法，依次包括如下步骤：对获得的推特源文本进行预处理；进行初始化编码并构建以词为单位的字符向量矩阵；在字符矩阵上进行卷积编码获得固定长度的词向量；在词矩阵上进行卷积编码获得文本向量；对文本向量进行变分推理并获得潜在编码；对潜在编码表示进行反卷积解码获得词向量表示并在词向量基础上再进行反卷积获得字符向量表示；计算编码前后字符向量与词向量之间的欧式距离及先验分布与后验分布之间的散度；利用损失进行模型参数更新。本发明所提出的方法利用基于字符层级卷积编码及变分推理方式有效地解决了推特文本中存在的非规范词与数据稀疏问题，可获得更加鲁棒的表示性能。

Description

一种基于字符层级卷积变分自编码的推特文本表示方法

技术领域

本发明属于深度学习和社交媒体内容的语义分析与计算领域，尤其涉及一种基于字符层级卷积变分自编码的推特文本表示方法。

背景技术

近年来随着社会媒体的快速发展，用户生成了大量的短文本内容，由于这些文本缺乏有效的上下文信息，且内容存在大量的未登录词等问题，传统的词袋模型很难实现对这类文本的表示，因此亟待探索更加有效的社会媒体文本内容表示方法。

深度学习基于人工神经网络的研究，由多层神经网络的计算模型来学习数据的表示，其强大的数据拟合与特征抽象能力极大的促进了计算机视觉、自然语言处理以及海量数据分析与挖掘等领域的快速发展。深度学习的概念由Hinton等人于2006年提出，其核心思想即通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。目前深度学习中具有代表性的模型或方法包括卷积神经网络(CNN)、循环神经网络(RNN)、深度置信网络(DBN)以及生成对抗网络(GAN)等。

卷积神经网络是由Yann LeCun等人提出的第一个真正多层结构的学习算法，它利用空间相对关系减少参数数目以提高训练性能，可以通过增加卷积层数可以构建深度卷积神经网络，进而实现对图像数据、文本内容的抽象表示。循环神经网络是一类处理时序数据的模型，通过在每个时间t_i输入数据x_i，由先前生成的隐层输出h_i-1和当前输入数据x_i计算输出o_i及隐层输出h_i，通过不断循环此过程实现对整个数据的抽象分布式表示。深度置信网络则通过非监督贪心逐层训练算法，解决深层结构相关的优化难题，并构建多层自动编码器深层结构。生成对抗网络通过同步训练判别模型D和生成模型G来估计生成模型，前者判断给定样本的真假，而后者则生成让判别模型无法判断真假的样本，实现高性能的生成模型。

深度学习就是从一个输入中产生一个输出，所涉及的计算可以通过一个流向图来表示，在这种图中每一个节点表示一个基本的计算以及一个计算的值，计算的结果被应用到这个节点的子节点的值。深度学习模拟了人类认知过程逐层进行，逐步抽象的过程，即首先学习简单的概念，然后再用这种方法去表示更抽象的思想和概念。这种方法已经成功应用于计算机视觉、语音识别等领域，尽管近年来深度学习方法应用于自然语言处理的应用受到了很大的关注，但大多基于模型的设计，并依赖于标注数据，其训练方法集中于有监督的学习或者半监督学习方式。因此探索能够充分利用大规模未标注数据进行模型训练的方法已成为近几年来深度学习的研究热点，其中变分自编码就是其中最具代表性的方法。

在文本内容的表示学习方面，传统的表示学习方法大多基于词袋模型并采用独热等词表示方法，这将不可避免地造成词与词之间严重的“词汇鸿沟”现象，即语义相近的词在向量表示中也是相互正交的。虽然这些方法在表示传统的文本时比较有效，但应用于社交文本表示则会出现严重的数据稀疏问题。一是社交媒体用户生成内容大多是短文本，缺乏有效的上下文信息；二是这些文本中含有大量的未登录词和非规范词，很难获取其所表示的语义信息。而先前的方法通常采用手工特征进行社交媒体文本内容表示学习，但这种方法依赖于人工经验，对于一些专业领域的社交媒体数据则需要相应的专家构建知识库才能较好地实现这些数据文本的表示。现有技术中的各种数据文本分析方法，大多是针对常见或者部分特殊领域的社交媒体数据进行分析，而且这些方法大多只采用简单的词编码方式和传统的学习模型对数据进行简单的拟合，缺乏对这些数据分布的描述，因此生成的文本向量较难有效地描述其文本所蕴含的语义信息。对于一些具有长尾分布以及形态学分布的语言或数据，其采用词表示的方法也导致了大量的未登录词，因此需要探索一种新方法解决大量未登录词编码以及提高模型泛化能力来学习推特文本的表示，使得模型具有较强的鲁棒性、通用性和域适应性。

发明内容

针对现有推特文本等社交媒体用户生成内容表示方法的不足，本发明将深度学习与语义分析与计算相结合，提出了一种基于字符层级卷积变分自编码的推特文本表示方法，该方法通过对所要表示的推特文本内容进行基于字符的卷积特征抽取和分析，并根据获得的特征矩阵进行池化操作获得每个词的向量表示，再在词级表示的基础上进行卷积和池化获得文本级的向量表示，并对获得的文本向量进行变分推理和解码，通过计算编码前后的损失以及先验分布于后验分布的散度来更新模型参数，实现对数据以及分布的学习和拟合。

本发明采用的技术方案具体如下：

一种基于字符层级卷积变分自编码的推特文本表示方法，，包括以下步骤：

S1、遍历推特源文本语料C，过滤非文本内容得到推特文本T,然后进行分词，得到字符集S；

S2、对每一条推特文本分别统计词中的所含有的最大字符长L_c与最大词长L_w；

S3、对字符集S内的每一个字符随机初始化，构建字符向量表

S_l为字符数，D_c为向量维度；

S4、以词为单位构建字符矩阵M_c，矩阵大小为L_c×D_c，即

S5、对字符矩阵M_c进行卷积操作和池化操作，得到每个词基于字符卷积的固定维度向量

即固定维度的词向量

S6、由固定维度词向量

及其向量维度D_w组合成用于表示推特文本T的词矩阵M_w，其矩阵大小为L_w×D_w，即

S7、对词矩阵M_w进行卷积操作和池化操作，得到每条推特文本基于词卷积的固定维度向量

即固定维度的推特向量

S8、利用固定维度的推特向量

生成用于变分推理的均值μ和方差δ，然后在标准正太分布中采样得到采样结果ε，由Z＝μ+εδ生成变分编码表示向量Z，其向量维度为D_t；

S9、对变分编码表示向量Z采用反卷积及采样池化操作，重构生成词向量矩阵M′_w，对词矩阵M′_w的每一词向量进行反卷积及采样操作，重构字符矩阵M_c′；

S10、分别计算M_c′与M_c的欧式距离，以及M′_w与M_w的欧式距离，且计算变分编码表示向量Z与标准正太分布之间的散度值，再基于计算的欧式距离及散度值更新模型参数，实现模型对待表示推特文本数据的拟合，获得字符层级卷积变分自编码模型的参数，再基于编码器参数则可用于推特文本表示。

进一步的，所述过滤非文本内容包括过滤掉标签、表情符号以及超链接。

进一步的，所述字符向量的向量取值范围为[-r,r]，r的值可根据实际需要进行选择，默认设置为0.05，向量维度D_c＝50。

进一步的，步骤S4具体包括：若词中所包含的字符c∈S，则在C_t中查找该字符的向量，并按序填充字符矩阵M_c，若字符长度小于L_c，则在字符矩阵M_c两端进行内容为0的填充。

进一步的，步骤S5具体包括：通过设置不同字符卷积过滤器窗口WF_c的大小构建不同字符卷积过滤器，对于相同窗口大小的过滤器初始化为不同的值，从而形成多个卷积核，对每个卷积核进行字符卷积操作得到特征映射矩阵M_fc，在特征映射矩阵上进行k-max池化操作，并对获得的池化后特征进行全连接操作得到每个词基于字符卷积的固定维度向量

进一步的，在词矩阵M_w中，若词的长度小于L_w，则通过在词矩阵M_w两端进行内容为0的填充。

进一步的，步骤S7具体包括：通过设置不同词卷积过滤器窗口WF_w的大小构建不同词卷积过滤器，对于相同窗口大小的过滤器初始化为不同的值，形成多个卷积核，每个卷积核进行词卷积操作得到特征映射矩阵M_fw，在特征映射矩阵上进行k-max池化操作，并进行全连接操作得到每条推特文本基于词卷积的固定维度向量

进一步的，步骤S8具体包括：根据推特文本向量

分别利用前向神经网络层

及

生成用于变分推理的均值μ和方差δ，其维度大小为D_t，其中W_μ、W_δ、b_μ和b_δ分别为网络模型参数，而α(·)为激活函数；然后在标准正太分布中采样得到ε，再由生成的均值μ和方差δ，由Z＝μ+εδ生成潜在的编码向量Z，其维度大小为D_t。

进一步的，在步骤S9中，重构的词向量矩阵M′_w，其矩阵大小与M_w相同，即L_w×D_w；重构的字符矩阵M_c′，其矩阵大小与M_c相同，即L_c×D_c。

进一步的，步骤S10具体包括：计算M_c′与M_c的欧式距离L₁，以及M′_w与M_w的欧式距离L₂，且计算变分编码表示向量Z与标准正太分布之间的散度值H，以L₁、L₂和H作为模型编码损失，利用反向传播算法更新模型参数使其收敛并小于设定的训练阈值，通过模型参数优化实现对待表示推特文本数据的拟合，进而获得字符层级卷积变分自编码模型在语料上学习的参数，在获得这些模型参数后，即可利用模型的编码部分用于表示推特文本。

与现有技术相比，本发明具有以下优点和有益效果：

1、在推特文本表示方面，以字符向量作为输入可适用于多种符号语言，具有广泛的域适应性，且不需要构建相应的词典和预训练的字符和词向量，提高了表示学习效率及适用范围。

2、选择字符作为输入，可以不受限于未登录词以及新词的问题，还可以避免自媒体内容非规范表达的问题，不局限于从词级表示作为模型输入，更符合实际需求。

3、在文本编码基础上，通过利用变分推理操作实现数据的分布表示，避免了传统点到点编解码的不足，更好地获得了数据的分布特征，体现了深度学习模拟的人类认知过程。

4、采用由字符级到词级卷积编码的层级编码实现推特文本编码表示，可以获得字符级特征信息和词级特征信息，这种层级结构更符合文本的内部有机组成，有利于文本的编码表示

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明方法的流程图；

图2为输入推特文本以词为单位的字符矩阵构建实例；

图3为字符卷积网络在字符矩阵上的卷积池化以及全连接生成词向量的实例；

图4为词向量构建推特文本的词矩阵以及卷积池化和全连接生成推特向量的实例；

图5为推特编码向量生成均值和方差向量并计算潜在编码向量的实例；

图6为在生成潜在编码向量上采用反卷积和上池化的重构实例。

具体实施方式

为了使本发明的目的、技术方案和有益效果更加清楚，下面将结合附图及具体实施例进行详细描述。

为了解决社交媒体文本表示所面临的数据稀疏以及域适应性等问题，本发明方法在实现推特文本的向量表示时，采用基于字符层级卷积变分自编码的方法进行字符和词级特征的提取，在形成推特文本编码向量的基础上再进行变分推理生成潜在编码，然后基于编码重构词向量及字符矩阵，优化模型参数，实现对推特文本数据的拟合和表示。

图1所示为本发明方法的流程图，本发明方法的具体步骤如下：

步骤一，遍历语料中所有需要进行编码表示的推特，去掉文本中的标签符、标签以及超链接等非文本内容，并进行分词处理。所处理的内容包括所有的字母、数字以及其它用于文本描述的符号，具体内容包括26个小写字母、26个大写字母、10个数字，25个符号，共87个字符，构成字符集S，这里的字符仅为常用字符，可以根据实际情况确定字符集。

步骤二，根据步骤一得到的每条推特T_i分别进行词中所包含字符长度和词长度的统计，获得语料C中所有推特的最大字符长L_c和最大词长L_w。即所有词中所含有的字符数的最大值和所有推特中所含有词的最大值，用于构建字符矩阵和词矩阵。

步骤三，根据步骤一获得的字符集S，构建字符向量，首先对每个字符随机初始化一个向量维度为D_c的字符向量，向量取值范围为[-r,r]，这里的向量维度D_c以及向量值范围r可以根据实验表现而设置，默认为D_c＝50，r＝0.05，构建字符向量表

S_l为字符数。

步骤四，根据步骤二得到的最大字符长L_c，以词为单位构建字符矩阵据M_c，字符矩阵大小为L_c×D_c，即

这里把每个词的字符矩阵均设置为

若词中的字符c∈S，则在C_t中查找该字符的向量，并填充字符矩阵M_c，实际上大多数词的字符数小于L_c，因此若词中的字符数为L_n，且L_n＜L_c，则矩阵M_c中有L_c-n列采用0作为填充值。

步骤五，对步骤四中得到的字符矩阵M_c进行窄卷积操作，通过设置不同字符卷积过滤器窗口WF_c的大小，构建不同字符卷积过滤器，WF_c的选择范围可以针对提取单个字符或者多个字符特征进行设定，而相同窗口大小的卷积过滤器则通过初始化为不同的值形成多个卷积核，每个卷积核进行字符卷积操作得到特征映射矩阵M_fc，在特征映射矩阵上进行k-max池化操作生成k个特征值，不同的卷积核的特征映射矩阵经池化后分别得到k个的特征值，通过进行全连接操作得到每个词基于字符卷积的固定维度向量

若卷积核个数为n，则词向量

的维度大小为|n×k|。实际上本发明方法还包括可以通过设置卷积核的个数构建经池化后的特征矩阵，再进行多次卷积和池化操作，构建词向量

步骤六，由步骤五获得的推特文本的词向量

按照文本中的词序组合成用于表示文本的词矩阵M_w，其矩阵大小为L_w×D_w，即

其中D_w为

的维度。在实际的推特文本编码表示中，大多数推特文本的词数L_m小于若该条文本中词的个数小于L_w，因此为了构建固定宽度的词矩阵用于卷积池化操作，则词矩阵M_w中有L_w-m列采用0进行填充操作。

步骤七，对步骤六中的词矩阵M_w进行卷积操作，通过设置不同词卷积过滤器窗口WF_w的大小构建不同词卷积过滤器，WF_w的选择范围可以针对单个词或者多个词进行设定，而相同窗口大小的过滤器通过初始化为不同的值可以形成多个卷积核，每个卷积核进行词卷积操作得到特征映射矩阵M_fw，在特征映射矩阵上进行k-max池化操作生成k个特征值，不同卷积核的特征映射矩阵经池化后分别得到k个的特征值，通过进行全连接操作得到每个推特文本基于词卷积的固定维度向量

向量维度为D_t。与字符卷积类似，若词卷积核个数为m，则推特向量

的维度大小为|m×k|。实际上本发明方法还包括可以通过设置卷积核的个数构建经池化后的特征矩阵，再进行多次词卷积和池化操作，构建推特向量

步骤八，利用步骤七生成的推特文本向量

分别利用前向神经网络层

及

生成用于变分推理的均值μ和方差δ，其维度大小为D_t，其中W_μ、W_δ、b_μ和b_δ分别为网络模型参数，而α(·)为激活函数。然后在标准正太分布中采样得到ε，再由生成的均值μ和方差δ，由Z＝μ+εδ生成潜在的编码向量Z，其维度大小为D_t。

步骤九，由步骤八生成的编码向量Z，采用反卷积及采样池化操作，重构用于表示推特文本的词向量矩阵M′_w，其矩阵大小与M_w相同，即L_w×D_w，然后分别对词矩阵M′_w中的每一个词向量继续进行反卷积及采样池化操作，重构用于表示每个词的字符矩阵M_c′，该矩阵的维度与该词所对应的字符矩阵M_c一致，即L_c×D_c。

步骤十，分别计算由步骤九生成的字符矩阵M_c′和由步骤四生成的字符矩阵M_c，以及步骤九生成的词矩阵M′_w与步骤六生成的词矩阵M_w的欧式距离，并计算步骤八生成的潜在编码向量Z与正太分布之间的散度值，再基于计算编解码前后的字符矩阵与词矩阵的欧式距离及散度值作为模型编解码损失，然后利用反向传播算法更新模型参数使其收敛并小于设定的训练阈值，通过模型参数优化实现对待表示推特文本数据的拟合，进而获得字符层级卷积变分自编码模型在语料上学习的参数。在获得这些模型参数后，即可用于推特文本表示。

下面将结合附图和具体实例来进一步说明本发明方法。

图2为给定推特中的词“overhead”以及“little”进行基于字符的词矩阵表示，这里的单词“overhead”共有8个字符，因此按照字符顺序构建矩阵，每一个字符的向量维度为D，这里以D＝5为例，因此单词“overhead”构成D×8的矩阵，而实际构建的矩阵以语料中含有最多字符的单词长度为准，若最大长度为L＝10，则需要在单词“overhead”的两边增加填充内容，通常填充0，这样所构建的字符矩阵为5×10。而“little”则需要在两边分别填充两列0值，因此所构建的字符矩阵为5×10，因此即使单词字符数不一致，但所构建的字符矩阵尺寸保持相同。其目的是为了在卷积的过程中，每个单词都能够生成相应的字符特征向量，而且方便不同的卷积核操作，且不会因为单词的长度太短或者单词长度太长生成不同维度的矩阵，利用0填充可以使生成的特征值为0，在卷积后利用激活函数可以过滤这些特征值。图2中的空白圆圈部分表示填充的内容，而黑色圆圈则表示实际字符向量值。

图3表示在词“overhead”的字符矩阵上进行卷积和池化生成词向量的示例。首先是构建两个卷积过滤器，卷积核大小为3×3和3×4，这里仅以两个卷积核为例。然后在字符矩阵上分布进行卷积操作，并分别生成3×8和3×7的特征矩阵。在两个特征矩阵上采用k-max池化操作，这里的k＝5，因此可获得这两个矩阵上的5个最大特征值。最后采用全连接操作进行卷积后特征的连接，构建用于表示词的固定维度向量，这里示例中的向量维度为10。依次采用同样的卷积和池化操作，可以在字符矩阵上获得推特文本中每个词的向量表示。

图4为基于字符卷积生成的推特文本词矩阵生成固定维度推特向量的方法，具体实现方式与字符卷积类似。首先基于生成的词向量构建推特文本的词矩阵，然后利用不同的卷积核来生成特征映射矩阵，这里以两个卷积核为例，卷积核大小为3×3和3×4。在构建的推特词矩阵5×15上分别生成3×13和3×12的特征矩阵，需要注意的是这里文本长度为11，但以最大文本长度为15进行作为左右两边两列向量填充。在生成的特征矩阵基础上采用k-max池化操作，这里的k＝5，因此可获得这两个矩阵上的5个最大特征值。然后全连接每个特征矩阵获得的5个特征值，构成维度为10的推特文本向量。

图5则表示给定生成的推特向量，由神经网络分布生成用于变分推理的均值向量μ和方差向量δ，其向量维度与推特文本向量的维度一致。然后在正太分布N(0,I)先采样ε，再利用Z＝μ+εδ计算潜在的编码向量，其获得的潜在编码向量维度与获得的推特文本向量一致。图6则基于生成的编码向量Z来重构词向量矩阵，然后基于该方法再重构字符矩阵。在给定编码向量Z后首先使用上池化(unpooling)重构特征矩阵，然后再基于特征矩阵进行反卷积操作生成词向量矩阵。这里假设向量维度为10，若k-max池化操作中的k＝9，则上池化采样生成3×30的特征矩阵，然后再进行反卷积操作。这里以卷积核为4×4为例，如红色框所示大小的卷积核，则针对3×30这样的特征矩阵的每个特征值，则可重构出5×33的词矩阵。需要注意的是这里的实例与前面步骤中略有不同，即以k-max池化操作中的k＝9为例进行上池化操作，而不是以k＝5进行示例，因此生成的词矩阵与前述步骤并不一致，这里主要是以不同池化选择的k值来进行本发明的举例说明。

以上所述仅为使本发明的目的、技术方案及优点与有益性更加清晰明白，应当理解所述的具体实施例仅仅用于解释本发明，并不以此限制和限定本发明以及保护范围，凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于字符层级卷积变分自编码的推特文本表示方法，其特征在于，包括以下步骤：

S3、对字符集S内的每一个字符随机初始化，构建字符向量表

S_l为字符数，D_c为向量维度；

S4、以词为单位构建字符矩阵M_c，矩阵大小为L_c×D_c，即

即固定维度的词向量

S6、由固定维度词向量

即固定维度的推特向量

S8、利用固定维度的推特向量

S9、对变分编码表示向量Z采用反卷积及采样池化操作，重构生成词向量矩阵M′_w，对词矩阵M′_w的每一词向量进行反卷积及采样操作，重构字符矩阵M′_c；

S10、分别计算M′_c与M_c的欧式距离，以及M′_w与M_w的欧式距离，且计算变分编码表示向量Z与标准正太分布之间的散度值，再基于计算的欧式距离及散度值更新模型参数，实现模型对待表示推特文本数据的拟合，获得字符层级卷积变分自编码模型的参数，再基于编码器参数则可用于推特文本表示。

2.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法，其特征在于：所述过滤非文本内容包括过滤掉标签、表情符号以及超链接。

3.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法，其特征在于，所述字符向量的向量取值范围为[-r,r]，r的值可根据实际需要进行选择，默认设置为0.05，向量维度D_c＝50。

4.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法，其特征在于，步骤S4具体包括：若词中所包含的字符c∈S，则在C_t中查找该字符的向量，并按序填充字符矩阵M_c，若字符长度小于L_c，则在字符矩阵M_c两端进行内容为0的填充。

5.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法，其特征在于，步骤S5具体包括：通过设置不同字符卷积过滤器窗口WF_c的大小构建不同字符卷积过滤器，对于相同窗口大小的过滤器初始化为不同的值，从而形成多个卷积核，对每个卷积核进行字符卷积操作得到特征映射矩阵M_fc，在特征映射矩阵上进行k-max池化操作，并对获得的池化后特征进行全连接操作得到每个词基于字符卷积的固定维度向量

6.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法，其特征在于：在词矩阵M_w中，若词的长度小于L_w，则通过在词矩阵M_w两端进行内容为0的填充。

7.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法，其特征在于，步骤S7具体包括：通过设置不同词卷积过滤器窗口WF_w的大小构建不同词卷积过滤器，对于相同窗口大小的过滤器初始化为不同的值，形成多个卷积核，每个卷积核进行词卷积操作得到特征映射矩阵M_fw，在特征映射矩阵上进行k-max池化操作，并进行全连接操作得到每条推特文本基于词卷积的固定维度向量

8.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法，其特征在于，步骤S8具体包括：根据推特文本向量

分别利用前向神经网络层

及

9.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法，其特征在于：在步骤S9中，重构的词向量矩阵M′_w，其矩阵大小与M_w相同，即L_w×D_w；重构的字符矩阵M′_c，其矩阵大小与M_c相同，即L_c×D_c。

10.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法，其特征在于，步骤S10具体包括：计算M′_c与M_c的欧式距离L₁，以及M′_w与M_w的欧式距离L₂，且计算变分编码表示向量Z与标准正太分布之间的散度值H，以L₁、L₂和H作为模型编码损失，利用反向传播算法更新模型参数使其收敛并小于设定的训练阈值，通过模型参数优化实现对待表示推特文本数据的拟合，进而获得字符层级卷积变分自编码模型在语料上学习的参数，在获得这些模型参数后，即可利用模型的编码部分用于表示推特文本。