CN111046233B

CN111046233B - 一种基于视频评论文本的视频标签确定方法

Info

Publication number: CN111046233B
Application number: CN201911347396.6A
Authority: CN
Inventors: 王瑞琛; 杜歆
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2022-05-13
Anticipated expiration: 2039-12-24
Also published as: CN111046233A

Abstract

本发明公开了一种基于视频评论文本的视频标签确定方法。该方法包括：(1)对视频评论进行数据清洗以及预处理；(2)使用预处理后的评论文档D以及对应的视频标签训练多层注意力网络模型；(3)将目标视频的评论文档输入至训练好的多层注意力网络模型，确定目标视频的标签。本发明提供的视频标签确定方法，能有效确定视频所需对应的标签。

Description

一种基于视频评论文本的视频标签确定方法

技术领域

本发明属于数据处理技术领域，涉及一种基于视频评论文本的视频标签确定方法。具体来说，涉及一种当给定目标视频的用户评论后，从评论中获取关键信息，并确定目标视频标签的方法。

背景技术

为了更好的帮助用户检索视频，视频门户网站通常会对视频打上多个标签，以使用户能快速了解视频的主题和风格，帮助用户快速检索到想看的视频，从而提高用户体验以及视频点击率。

现有技术中，视频标签通常采用人工手动标注的方法，即在视频上传时由上传者人工选择对应的标签，由于主要依赖视频上传者的主观判断，以及缺乏用户的有效反馈，人工上传的标签存在一定的随意性和主观性。

而申请人发现，视频评论作为观众对视频的直接反馈，如果基于用户的评论来确定视频的标签，不仅可以降低人工的成本，也可以将用户的观感考虑进来，得到更接近用户体验的标签。

目前普遍使用的文本标签获得的方法主要是TF-IDF、LDA、TextRank等无监督关键字提取方法，和SVM、TextCNN、RNN等有监督文档分类方法。

在TF-IDF、LDA、TextRank等无监督方法中，通常直接使用统计学方法从文本中提取关键词作为标签。当用户的表达较为隐晦，未直接使用标签词时，容易提取不到准确地关键词；或者多个近义词表达同一个关键字时，会无法联系到不同关键词之间的相关性。

SVM、TextCNN、RNN等有监督方法，使用了机器学习模型，能解决无监督方法中的部分问题，但是由于没有考虑到不同评论、不同词语对于标签确定的贡献程度，此类方法存在收敛缓慢，分类效果差的问题。

由于以上问题，如何利用用户的评论信息，获取视频的关键评论，评论的关键词并确定视频的标签则是一个亟待解决的问题。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种基于视频评论文本的视频标签确定方法。

本发明的目的是通过以下技术方案来实现的：一种基于视频评论文本的视频标签确定方法，该方法包括以下步骤：

(1)对视频评论进行数据清洗以及预处理：获取原始评论数据，将每条原始评论数据中的特殊符号、标点符号等非文本信息删除，再进行分词处理、并删除停用词，得到预处理后的评论文档D。

(2)使用预处理后的评论文档D以及对应的视频标签训练多层注意力网络模型。包括以下步骤：

(2.1)对视频标签进行独热编码，将视频标签编码成固定长度的独热编码l。

(2.2)对预处理后的评论文档D进行过采样和欠采样处理，并对每个评论文档中的评论按照从长到短的顺序排序，得到文档集D’。

(2.3)使用所述文档集D’和对应的独热编码l训练多层注意力网络模型，得到训练好的多层注意力网络模型。

(3)将目标视频的评论文档输入至训练好的多层注意力网络模型，确定目标视频的标签，具体包括以下子步骤：

(3.1)对目标视频的评论文档进行步骤1所述的数据清洗以及预处理。

(3.2)将步骤3.1预处理后的目标视频的的评论文档输入到训练好的多层注意力网络模型中，得到每个标签的预测置信度。

(3.3)将每个标签的预测置信度从高到低进行排序，并将预测置信度高于阈值的标签确定为目标视频的标签。

进一步地，步骤2.2中欠采样和过采样处理具体为：

欠采样处理过程为：当标签对应的文档数高于阈值时，从需要采样的标签对应的文档集中随机抽取m个文档，组成欠采样文档集；

过采样处理过程为：当标签对应的文档数低于阈值时，从需要采样的标签对应的文档集{d₁，d₂，d₃，...，d_n}中，依次对文档集{d₁，d₂，d₃，...，d_n}中的文档d_i的评论有放回地随机抽取，得到多个文档

组成过采样文档集，j表示有放回地随机抽取的次数。

进一步地，多层注意力网络模型的训练过程为：

(a)采用word2vec方法对文档集D’进行训练，得到词向量矩阵。并将词向量矩阵复制到多层注意力网络模型中，作为模型初始参数。

(b)对于文档集D’中的评论文档，挑选最长的x条评论，评论不足x的文档集D’中的评论文档，用空评论补齐。对于x条评论中的每条评论，截取前y个词，词数不足y的评论用空格补齐，获得截断补齐后的文档集，将截断补齐后的文档集随机划分为训练集和验证集。

(c)将训练集输入到多层注意力网络模型中，得到各个标签的预测置信度，并计算预测置信度和独热编码l之间的二元交叉熵误差。

(d)根据计算出来的二元交叉熵误差，使用优化算法更新多层注意力网络模型中的参数。

(e)重复步骤(c)-(d)，直至多层注意力网络模型在验证集上的误差不再下降为止，获得训练好的多层注意力网络模型。

本发明的有益效果是：(1)通过用户的评论信息进行视频标签确定，降低了人工成本、利用了用户侧反馈信息来对标签进行确定；(2)为解决样本不均衡问题，采用抽样重构的方法实现过采样，提高信息的利用率，降低过拟合的风险。

附图说明

图1为本发明方法中基于视频评论文本的视频标签确定方法流程图；

图2为本发明方法中多层注意力网络模型训练流程图；

图3为本发明方法中多层注意力网络模型结构示意图；

图4为本发明方法中为基于目标视频评论文档为目标视频确定标签流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述，本发明的目的和效果将变得更加明显。

图1给出了本发明的方法流程图，本发明对基于视频评论文本为视频确定标签分成三个步骤，即对视频评论文本进行预处理、对多层注意力网络模型进行训练，基于目标视频评论文档确定目标视频的标签。

如图1所示，在步骤101中，评论文本预处理的具体步骤如下：基于原始评论数据，将每条原始评论数据中的特殊符号、标点符号等非文本信息删除，原始评论数据中可能会包括一些emoji表情，标点符号等无意义的符号，因此使用正则表达式删除评论中的特殊符号。再进行分词处理，由于中文的词语之间没有天然分隔，故中文自然语言处理最基本的步骤就是分词，需要利用算法将长句拆分成单词，目前有很多成熟的中文分词方案可以选择，本方案采用了结巴分词；从分词后的文本中删除停用词，中文中很多词语只是提供语法辅助作用，没有具体的含义和价值，例如中文中的助词，可通过停用词库删除停用词；最终得到预处理后的评论文档D。

如图2所示，在步骤102中，使用预处理后的评论文档D以及对应的视频标签训练多层注意力网络模型，具体步骤如下：

(2.2)对预处理后的评论文档D进行过采样和欠采样处理，并对每个评论文档中的评论按照从长到短的顺序排序，得到文档集D’。具体过程如下：

(2.2.1)标签统计结果显示，标签的统计分布不均衡。由于多层注意力网络模型会受样本分布影响，如果样本统计分布相差过大，模型的预测结果会被占比高的标签所支配。为了解决这个问题，需要先对样本进行均衡化操作。下面对于样本均衡化操作进行进一步描述：

欠采样处理过程为：当标签对应的文档数高于阈值时，从需要采样的标签对应的文档集中随机抽取m个文档，组成欠采样文档集，以降低文档集大小；

组成过采样文档集，以扩充文档集，j表示有放回地随机抽取的次数。

(2.2.2)将视频文档d_i中的所有评论根据长度从长到短进行排序。将评论按照长度进行排序，可以降低每次训练时数据的稀疏性，提高模型的收敛速度。(重新编排用语)

如图3所示，图中神经网络结构的功能为，输入一个由多条评论组成的文档，对于每一条评论转成词向量表示的矩阵；之后通过词编码层提取不同词之间时序上的特征；通过词注意力层得到不同词对于评论向量生成的权重，加权求和得到评论的特征向量表示；串联文档中的所有评论的特征向量，输入到评论编码层，提取不同评论的时序特征；通过评论注意力层得到不同评论对于文档向量生成的权重，加权求和得到此文档的特征向量表示；最后通过全连接层和softmax层输出所有标签的预测置信度。

如图3所示，301结构为词嵌入层，功能是给定一条由词集{w₁，w₂，w₃，...，w_n}组成的评论c，通过预训练好的词向量，将词集转换成词向量集

通过词嵌入层，可以获得词语的分布式表示，使单个词具有更丰富的特征。词嵌入层的权重可以在训练中进行更新，提高模型的准确率，但是会降低模型的训练效率。

如图3所示，302结构为词编码层，具体是由双向门控循环神经网络(gatedrecurrent unit，GRU)构成。GRU由重置门和更新门来控制序列中信息流，因此可以提高模型的对长时序信息流的信息获取能力。双向GRU不仅可以获得过去的信息，还可以获取未来的信息。对于一条评论c_i，其中c_i为词向量组成的序列

其中T表示序列长度。正向GRU将序列从1到T编码得到

反向GRU将序列从T到1编码，得到

将两串编码数据串联，得到评论编码：

如图3所示，303结构为词注意力层。由于不同词语对于最后的标签确定的贡献不一样，所以需要找出那些关键的词语，并赋予更高的权重。具体结构如下所示：

u_it＝tanh(W_wh_it+b_w) (2)

c_i＝∑_tα_ith_it (4)

其中，W_w是单层全连接层权重，通过全连接学习得到h_it的隐层表示u_it；u_w表示背景向量，和u_it求内积并归一化后得到权重α_it；再根据权重α_it对词编码h_it加权求和得到评论向量c_i。

如图3所示，304结构为评论编码层。结构和302词编码层类似，输入为一篇文档中所有评论经过303生成的评论向量集{c₁，c₂，c₃，...，c_N}，输出为经过编码的评论向量集{h₁，h₂，h₃，...，h_N}

如图3所示，305结构为评论注意力层，结构和303词注意力层类似，输入为304结构生成的评论向量集{h₁，h₂，h₃，...，h_N}，输出为文档向量d。

如图3所示，306结构为输入层，由全连接层和softmax层组成。由于该任务为多标签分类问题，先通过全连接层将文档向量d降维成与K维向量，其中K为标签的总个数。并通过softmax将概率归一化输出，即

构建多层注意力机制网络模型需要初始化网络的参数包括词集合大小、词嵌入层隐层数、词编码层隐层数、评论编码层隐层数、评论嵌入层隐层数、单次迭代批量大小、输出分类数目等。然后需要初始化网络权重，包括词嵌入层的网络权重、词编码层的初始隐藏状态、评论编码层的初始隐藏状态、注意力层的矩阵权重。其中，编码层的隐藏状态，注意力层的矩阵权重，初始都设置为0。此外还需要初始化最大迭代周期、学习速率、优化器、损失函数等参数。

多层注意力机制网络模型的训练过程如下：

(c)将训练集输入到多层注意力网络模型中，得到各个标签的预测置信度，并计算预测置信度和独热编码l之间的二元交叉熵误差(binary/categorical cross entropy)。即

其中N为单次迭代训练样本集合，M标签集合。y_ij表示样本i对于标签j的真实值，

表示样本i对于标签j预测置信度。

(d)根据计算出来的二元交叉熵误差，使用优化算法更新多层注意力网络模型中的参数。这里的优化算法包括但不限于梯度下降算法以及各种梯度下降算法的变种。

(e)重复步骤(c)-(d)，每次输入固定批量大小的训练集，根据误差反向传播对神经网络参数进行调整，直至多层注意力网络模型在验证集上的误差不再下降为止，获得训练好的多层注意力网络模型。

(3)将目标视频的评论文档输入至训练好的多层注意力网络模型，确定目标视频的标签，具体步骤如图4所示：

以上仅为本发明具体实施方式，不能以此来限定本发明的范围，本技术领域内的一般技术人员根据本创作所作的均等变化，以及本领域内技术人员熟知的改变，都应仍属本发明涵盖的范围。

Claims

1.一种基于视频评论文本的视频标签确定方法，其特征在于，该方法包括以下步骤：

(1)对视频评论进行数据清洗以及预处理：获取原始评论数据，将每条原始评论数据中包括特殊符号、标点符号在内的非文本信息删除，再进行分词处理、并删除停用词，得到预处理后的评论文档D；

(2)使用预处理后的评论文档D以及对应的视频标签训练多层注意力网络模型；包括以下步骤：

(2.1)对视频标签进行独热编码，将视频标签编码成固定长度的独热编码l；

(2.2)对预处理后的评论文档D进行过采样和欠采样处理，并对每个评论文档中的评论按照从长到短的顺序排序，得到文档集D’；

(2.3)使用所述文档集D’和对应的独热编码l训练多层注意力网络模型，得到训练好的多层注意力网络模型；

多层注意力网络模型的训练过程为：

(a)采用word2vec方法对文档集D’进行训练，得到词向量矩阵；并将词向量矩阵复制到多层注意力网络模型中，作为模型初始参数；

(b)对于文档集D’中的评论文档，挑选最长的x条评论，评论不足x的文档集D’中的评论文档，用空评论补齐；对于x条评论中的每条评论，截取前y个词，词数不足y的评论用空格补齐，获得截断补齐后的文档集，将截断补齐后的文档集随机划分为训练集和验证集；

(c)将训练集输入到多层注意力网络模型中，得到各个标签的预测置信度，并计算预测置信度和独热编码l之间的二元交叉熵误差；

(d)根据计算出来的二元交叉熵误差，使用优化算法更新多层注意力网络模型中的参数；

(e)重复步骤(c)-(d)，直至多层注意力网络模型在验证集上的误差不再下降为止，获得训练好的多层注意力网络模型；

(3.1)对目标视频的评论文档进行步骤1所述的数据清洗以及预处理；

(3.2)将步骤(3.1)预处理后的目标视频的评论文档输入到训练好的多层注意力网络模型中，得到每个标签的预测置信度；

2.根据权利要求1所述视频标签确定方法，其特征在于，步骤(2.2)中欠采样和过采样处理具体为：

过采样处理过程为：当标签对应的文档数低于阈值时，从需要采样的标签对应的文档集{d₁,d₂,d₃,…,d_n}中，依次对文档集{d₁,d₂,d₃,…,d_n}中的文档d_i的评论有放回地随机抽取，得到多个文档

组成过采样文档集，j表示有放回地随机抽取的次数。