CN108513176A

CN108513176A - 一种基于话题模型的社会化视频主题提取系统及方法

Info

Publication number: CN108513176A
Application number: CN201810083796.XA
Authority: CN
Inventors: 田野; 宣鸣; 宣一鸣; 张蓝姗; 王文东; 龚向阳; 阙喜戎
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-12-06
Filing date: 2018-01-29
Publication date: 2018-09-07
Anticipated expiration: 2038-01-29
Also published as: CN108513176B

Abstract

本发明公开了一种基于话题模型的社会化视频主题提取系统及方法，涉及社会化视频主题抽取技术。提取系统包括用户评论采集模块，原始评论数据库，用户评论预处理模块，主题检测模块，主题数据库以及结果展示模块；首先用户评论采集模块爬取某段时间内待处理视频的用户评论数据；用户评论预处理模块对每一条用户评论数据进行预处理，主题检测模块对预处理结果采用主题提取算法进行计算，获得细粒度主题关键词集合；将细粒度主题关键词集合写入主题数据库进行存储；结果展示模块调用主题数据库中的细粒度主题关键词进行展示。本发明基于人物的弹幕数据挖掘，填补了空白，从一定程度上缓解弹幕语义稀疏性的问题，展示的结果更好。

Description

一种基于话题模型的社会化视频主题提取系统及方法

技术领域

本发明涉及社会化视频主题抽取技术，具体是一种基于话题模型的社会化视频主题提取系统及方法。

背景技术

随着弹幕视频等社会化视频应用的迅速流行，越来越多的用户在观看视频的过程中习惯于实时发表对视频内容的评论，这些评论类似于读书笔记中的夹批，实时从视频中屏间飘过，因而被称为弹幕。

以弹幕为代表的社会化视频应用一方面增强了用户的交互体验，同时也扩充了大量用户贡献的，与视频情节相关的文字信息，为实现细粒度的视频主题提取提供了便利。

现在的视频主题提取方法多是对视频帧进行底层特征提取，然后将底层特征映射为高层的语义概念。由于底层特征与高层语义概念之间存在天然的鸿沟，这种方法很难精确地描述视频内容；并且对于视频帧的处理也需要耗费大量的计算资源。

发明内容

本发明为了获得关于某个视频片段的基于关键词组合的内容梗概，有利于实现精细化的视频内容预览、视频检索及视频推荐；提出了一种基于话题模型的社会化视频主题提取系统及方法，实现对视频的细粒度主题抽取。

所述的社会化视频主题提取系统包括用户评论采集模块，原始评论数据库，用户评论预处理模块，主题检测模块，主题数据库以及结果展示模块。

用户评论采集模块从视频服务网站采集用户的原始评论数据，并存储到原始评论数据库中，用户评论预处理模块从原始评论数据库中提取原始评论数据进行预处理；并将处理后的评论数据，送入主题检测模块中，经主题检测算法获得与特定视频片段相关的细粒度主题关键词集合，并将结果写入主题数据库进行存储，供结果展示模块使用。

结果展示模块负责接受外部请求，并返回查询请求以及展示结果。

本发明所述的一种基于话题模型的社会化视频主题提取方法，具体步骤如下：

步骤一、针对用户选定的待处理视频，用户评论采集模块爬取某段时间内该视频的用户评论数据；

每条评论数据即每条弹幕，包含：视频标识，评论标识，评论时间，用户标识和评论内容等。

步骤二、用户评论预处理模块对每一条用户评论数据进行预处理，得到该条评论数据的预处理结果；

预处理包括对弹幕进行分词处理、去停用词处理，按照弹幕的出现时间对弹幕进行排序，以及过滤主题无关的噪声词汇。

步骤三、主题检测模块对该处理视频的预处理结果采用主题提取算法进行计算，获得细粒度主题关键词集合；

具体步骤如下：

步骤301、将每一条用户评论数据的预处理结果视为一个文档，该待处理视频该段时间内所有的预处理结果组成文档集合。

文档集合用D表示。

步骤302、针对每个文档，设定角色c，情感极性l和话题z三个标签并分别进行初始化。

具体如下：

首先，预先设置人物角色词典和情感极性词典；情感极性包括积极的正极情感和消极的负极情感。

然后，针对每个文档，根据该文档中所包含的角色对角色标签c进行初始化：如果一条弹幕中出现了人物词典中的单词，则设定该弹幕的角色标签为c，否则，对没有出现在人物词典中的角色随机设定。

根据情感词典对情感极性标签l进行初始化：如果一条弹幕中出现了情感词典中的单词，则设定该弹幕的情感标签为l，否则，对没有出现在情感词典中的情感标签随机设定。

同时对话题标签z做随机初始化。

步骤303、针对初始化标记后的文档，统计该段时间内所有文档中的四种弹幕条数数量；

四种弹幕统计量包括：关于角色c的弹幕条数数量关于角色c和情感极性l的弹幕条数数量表示关于角色c，情感极性l和话题z的弹幕条数数量以及在整个弹幕文档集合构建的词袋模型词典中，用来统计关于角色c，情感极性l，话题z下词汇w的词频数量

步骤304、基于概率图模型对文档集合进行建模，挖掘出隐含在用弹幕中的与视频内容相关的主题信息。

该待处理视频所对应的每个用户评论数据中均包含了“角色”、“情感”、“主题”等隐含变量。通过求后验分布，获得各个隐含变量的概率分布，构建的概率模型如下：

z_d,l_d,c_d表示文档d所在弹幕的随机变量；表示除去文档d所在弹幕的所有其余弹幕的随机变量；

其中，角色c通过多项式分布抽样产生，c～Multionmial(ω)；ω是C维向量，表示关于角色c的多项式分布；C表示该待处理视频中人物的个数；根据狄利克雷分布获得“角色” 的概率分布：ω～Dirichlet(δ)；δ是C维向量，表示角色c的先验信息；

在给定角色c的条件下，抽样生成该条评论的用户对角色c的情感极性l，即： l～Multionmial(π_c,l)；π_c,l是C×L维矩阵，表示关于角色c的多项式分布；L表示该待处理视频中情感极性的个数；对于每一个角色c，根据狄利克雷分布获得其情感极性l的概率分布：π_c～Dirichlet(γ_c)；γ_c是L维向量，表示以角色c作为情感的先验信息；

在给定角色c，情感极性l的条件下，选取该条评论所对应的话题z，即： z～Multionmial(θ_c,l,k)；θ_c,l,k是C×L×K维矩阵，表示关于角色c和情感极性l的多项式分布；K表示该待处理视频中话题的个数；对于每一个角色c和情感极性l，获得其话题z的概率分布：θ_c,l～Dirichlet(α_c,l)；α_c,l是C×L维矩阵，表示以角色c和情感极性l作为话题的先验信息；

在给定角色c，情感极性l以及话题z的条件下，生成评论中的各个词汇w，即：是C×L×K×V维矩阵，表示关于角色c，情感极性l和话题z的单词的多项式分布；V表示该待处理视频中字典的长度；对于每一个角色c，情感极性l和话题z，获得词汇w的概率分布：β_c,l,k,v是C×L×K×V维矩阵，表示以角色c，情感极性l，话题z作为单词的先验信息；

N_d表示文档d中单词的数量；d∈D；表示文档d中单词v的重复个数。

步骤305、将统计的四种弹幕统计量和分别带入构建的概率模型中进行迭代，得到每个文档真正的角色c，情感l和话题z；

步骤306、利用每个文档真正的角色c，情感l和话题z，再次统计该段时间内所有文档中的真正的四种弹幕统计量；

步骤307、将每个文档真正的四种弹幕统计量值分别带入数学期望公式，求取多项式分布生成的概率值；

ω_c为角色c的多项式分布，π_c,l为角色c-情感l的多项式分布，θ_c,l,z为角色c-情感l-话题z 的多项式分布；为角色c-情感l-话题z-词汇w的多项式分布。

步骤308、取概率值最大的前N个单词作为真正的角色c在真正的情感极性l下的真正话题所对应的细粒度主题关键词。

步骤四、将细粒度主题关键词集合写入主题数据库进行存储；

步骤五、结果展示模块调用主题数据库中的细粒度主题关键词进行展示。

本发明的优点在于：

1)一种基于话题模型的社会化视频主题提取方法，目前市面上没有基于人物的弹幕主题提取方法，本发明基于人物的弹幕数据挖掘，填补了空白。

2)一种基于话题模型的社会化视频主题提取系统，传统的主题模型对于语义非常稀疏的弹幕的挖掘，效果并不理想；该模型的提出能从一定程度上缓解弹幕语义稀疏性的问题；展示的结果更好。

附图说明

图1是本发明一种基于话题模型的社会化视频主题提取系统框架图；

图2是本发明一种基于话题模型的社会化视频主题提取方法的流程图；

图3是本发明采用主题提取算法得到细粒度主题关键词集合的流程图；

图4是本发明通过求后验分布获得各个隐含变量的概率构建主题抽取模型的示意图；

图5是本发明实施例选取的要进行主题提取的视频弹幕截图。

具体实施方式

下面结合附图对本发明的具体实施方法进行详细说明。

本发明提供了一种基于话题模型的社会化视频主题提取系统，如图1所示，包括用户评论采集模块，原始评论数据库，用户评论预处理模块，主题检测模块，主题数据库以及结果展示模块。

本发明所述的一种基于话题模型的社会化视频主题提取方法，所对应的程序运行于主题检测模块；该方法基于概率图模型对用户评论进行建模，挖掘出隐含在用户评论数据中的与视频内容相关的主题信息。

其基本原理是：将某段用户选定的待处理视频，所对应的用户评论看作是一个与顺序无关的词汇集，词汇集中的每个词汇均由一个包含了“角色”、“情感”、“主题”等隐含变量的生成过程所生成。词汇是可观测变量，其分布受到上述隐含变量的影响，则在已知词汇分布的前提下，通过求后验分布，则可以获得各个隐含变量的概率分布。

本方法的基本前提是，用户对于视频的评论行为是受其对视频中各个角色的情感偏好所驱动的，而用户对角色的情感偏好可以分为正向和负向。关于某个“角色”，在不同的“情感” 极性下会有不同的“主题”分布。为此，在确定了“角色”和“情感”极性后，可以通过多项式分布抽样产生特定的“主题”。进而，在“主题”确知的情况下，根据“主题-词汇”多项式分布抽样生成“词汇”。

如图2所示，具体步骤如下：

预处理包括对弹幕进行分词处理、去停用词处理，按照弹幕的出现时间对弹幕进行排序，以及过滤主题无关的噪声词汇。预处理词汇集中每个词汇均包括“角色”、“情感”和“主题”。

如图3所示，具体步骤如下：

文档集合用D表示。

具体如下：

同时对话题标签z做随机初始化。

该待处理视频所对应的每个用户评论数据中均包含了“角色”、“情感”、“主题”等隐含变量。通过求后验分布，获得各个隐含变量的概率分布，

首先，角色c通过多项式分布抽样产生，c～Multionmial(ω)；ω是C维向量，表示关于角色c的多项式分布；C表示该待处理视频中人物的个数；根据狄利克雷分布获得“角色” 的概率分布：ω～Dirichlet(δ)；δ是C维向量，表示角色c的先验信息；

在给定角色c的条件下，抽样生成该条评论的用户对角色c的情感极性l，即： l～Multionmial(π_c,l)；π_c,l是C*L矩阵，表示关于角色c的多项式分布；L表示该待处理视频中情感极性标签的个数；对于每一个角色c，根据狄利克雷分布获得其情感极性l的概率分布：π_c～Dirichlet(γ_c)；γ_c是L维向量，表示以角色c作为情感的先验信息；

上述生成过程描述了该视频的弹幕评论所包含的所有词汇的完整生成过程，其对应的概率图模型，如图4所示。该过程可以用条件概率公式表示如下：

将上述公式(1)进行展开，得到下式：

模型的目标在于找出每个词汇后潜在的隐含变量：“主题”，“情感”和“角色”。为了达到这个目标，需要计算后验概率：

对于公式(3)来说，其分母所对应的离散状态空间太过庞大，无法计算。

因此利用吉布斯抽样对其进行近似求解：首先，根据吉布斯抽样得到“角色”，“情感” 以及“话题”三个隐含变量以及可观测变量“词汇”的联合概率分布公式，得到以下结果：

N_d表示文档d中单词的数量；d∈D；表示一个文档d中单词v的重复个数；单词v是词袋模型词典中的一个单词。

据公式(4)即可获得用户评论d所对应的“主题”、“情感”以及“角色”三类隐含信息。

步骤305、将统计的四种弹幕统计量和分别带入构建的概率模型中进行迭代，得到每个文档最终真正的角色c，情感l和话题z；

在获得评论d所对应的主题”、“情感”以及“角色”隐含信息后，通过求取数学期望，可以得到“角色”的多项式分布ω_c，“角色-情感”多项式分布π_c,l，“角色-情感-话题”多项式分布θ_clk以及“角色-情感-话题-词汇”多项式分布

如图5所示，为用户指定需要进行主题提取的视频，指定相关参数如下：

3个片段的人物，情感和所对应的关键词集合如下表所示：

Claims

1.一种基于话题模型的社会化视频主题提取系统，其特征在于，包括：用户评论采集模块，原始评论数据库，用户评论预处理模块，主题检测模块，主题数据库以及结果展示模块；

用户评论采集模块从视频服务网站采集用户的原始评论数据，并存储到原始评论数据库中，用户评论预处理模块从原始评论数据库中提取原始评论数据进行预处理；并将处理后的评论数据，送入主题检测模块中，经主题检测算法获得与特定视频片段相关的细粒度主题关键词集合，并将结果写入主题数据库进行存储，供结果展示模块使用；

2.应用如权利要求1所述的一种基于话题模型的社会化视频主题提取系统的提取方法，其特征在于，具体步骤如下：

具体步骤如下：

步骤301、将每一条用户评论数据的预处理结果视为一个文档，该待处理视频该段时间内所有的预处理结果组成文档集合；

文档集合用D表示；

步骤302、针对每个文档，设定角色c，情感极性l和话题z三个标签并分别进行初始化；

步骤304、基于概率图模型对文档集合进行建模，挖掘出隐含在用弹幕中的与视频内容相关的主题信息；

该待处理视频所对应的每个用户评论数据中均包含了“角色”、“情感”、“主题”等隐含变量；通过求后验分布，获得各个隐含变量的概率分布，构建的概率模型如下：

其中，角色c通过多项分布抽样产生，c～Multionmial(ω)；ω是C维向量，表示关于角色c的多项式分布；C表示该待处理视频中人物的个数；根据狄利克雷分布获得“角色”的概率分布：ω～Dirichlet(δ)；δ是C维向量，表示角色c的先验信息；

在给定角色c的条件下，抽样生成该条评论的用户对角色c的情感极性l，即：l～Multionmial(π_c,l)；π_c,l是C×L维矩阵，表示关于角色c的多项式分布；L表示该待处理视频中情感极性的个数；对于每一个角色c，根据狄利克雷分布获得其情感极性l的概率分布：π_c～Dirichlet(γ_c)；γ_c是L维向量，表示以角色c作为情感的先验信息；

在给定角色c，情感极性l的条件下，选取该条评论所对应的话题z，即：z～Multionmial(θ_c,l,k)；θ_c,l,k是C×L×K维矩阵，表示关于角色c和情感极性l的多项式分布；K表示该待处理视频中话题的个数；对于每一个角色c和情感极性l，获得其话题z的概率分布：θ_c,l～Dirichlet(α_c,l)；α_c,l是C×L维矩阵，表示以角色c和情感极性l作为话题的先验信息；

N_d表示文档d中单词的数量；d∈D；表示文档d中单词v的重复个数；

步骤305、将四种弹幕统计量和分别带入构建的概率模型中进行迭代，得到每个文档真实的角色c，情感l和话题z；

步骤306、利用每个文档真实的角色c，情感l和话题z，再次统计该段时间内所有文档中真实的四种弹幕数量；

步骤307、将每个文档真正的四种弹幕数量值分别带入数学期望公式，求取多项式分布

生成的概率值；

ω_c为角色c的多项式分布，π_c,l为角色c-情感l的多项式分布，θ_c,l,z为角色c-情感l-话题z的多项式分布；为角色c-情感l-话题z-词汇w的多项式分布；

步骤308、取概率值最大的前N个单词作为角色c在真正的情感极性l下的真正话题所对应的细粒度主题关键词；

3.如权利要求2所述的社会化视频主题提取方法，其特征在于，步骤一中所述的每条评论数据即每条弹幕，包含视频标识，评论标识，评论时间，用户标识和评论内容。

4.如权利要求2所述的社会化视频主题提取方法，其特征在于，步骤二中所述的预处理包括：对弹幕进行分词处理、去停用词处理，按照弹幕的出现时间对弹幕进行排序，以及过滤主题无关的噪声词汇。

5.如权利要求2所述的社会化视频主题提取方法，其特征在于，所述的步骤302中，对角色c，情感极性l和话题z分别进行初始化，具体如下：

首先，预先设置人物角色词典和情感极性词典；情感极性包括积极的正极情感和消极的负极情感；

然后，针对每个文档，根据该文档中所包含的角色对角色标签c进行初始化：如果一条弹幕中出现了人物词典中的单词，则设定该弹幕的角色标签为c，否则，对没有出现在人物词典中的角色随机设定；

根据情感词典对情感极性标签l进行初始化：如果一条弹幕中出现了情感词典中的单词，则设定该弹幕的情感标签为所在情感词典极性下的标签l，否则，对没有出现在情感词典中的情感标签随机设定；

同时，对话题标签z做随机初始化。