CN108513176A - 一种基于话题模型的社会化视频主题提取系统及方法 - Google Patents

一种基于话题模型的社会化视频主题提取系统及方法 Download PDF

Info

Publication number
CN108513176A
CN108513176A CN201810083796.XA CN201810083796A CN108513176A CN 108513176 A CN108513176 A CN 108513176A CN 201810083796 A CN201810083796 A CN 201810083796A CN 108513176 A CN108513176 A CN 108513176A
Authority
CN
China
Prior art keywords
role
topic
barrage
video
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810083796.XA
Other languages
English (en)
Other versions
CN108513176B (zh
Inventor
田野
宣鸣
宣一鸣
张蓝姗
王文东
龚向阳
阙喜戎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Publication of CN108513176A publication Critical patent/CN108513176A/zh
Application granted granted Critical
Publication of CN108513176B publication Critical patent/CN108513176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4756End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于话题模型的社会化视频主题提取系统及方法,涉及社会化视频主题抽取技术。提取系统包括用户评论采集模块,原始评论数据库,用户评论预处理模块,主题检测模块,主题数据库以及结果展示模块;首先用户评论采集模块爬取某段时间内待处理视频的用户评论数据;用户评论预处理模块对每一条用户评论数据进行预处理,主题检测模块对预处理结果采用主题提取算法进行计算,获得细粒度主题关键词集合;将细粒度主题关键词集合写入主题数据库进行存储;结果展示模块调用主题数据库中的细粒度主题关键词进行展示。本发明基于人物的弹幕数据挖掘,填补了空白,从一定程度上缓解弹幕语义稀疏性的问题,展示的结果更好。

Description

一种基于话题模型的社会化视频主题提取系统及方法
技术领域
本发明涉及社会化视频主题抽取技术,具体是一种基于话题模型的社会化视频主题提取 系统及方法。
背景技术
随着弹幕视频等社会化视频应用的迅速流行,越来越多的用户在观看视频的过程中习惯 于实时发表对视频内容的评论,这些评论类似于读书笔记中的夹批,实时从视频中屏间飘过, 因而被称为弹幕。
以弹幕为代表的社会化视频应用一方面增强了用户的交互体验,同时也扩充了大量用户 贡献的,与视频情节相关的文字信息,为实现细粒度的视频主题提取提供了便利。
现在的视频主题提取方法多是对视频帧进行底层特征提取,然后将底层特征映射为高层 的语义概念。由于底层特征与高层语义概念之间存在天然的鸿沟,这种方法很难精确地描述 视频内容;并且对于视频帧的处理也需要耗费大量的计算资源。
发明内容
本发明为了获得关于某个视频片段的基于关键词组合的内容梗概,有利于实现精细化的 视频内容预览、视频检索及视频推荐;提出了一种基于话题模型的社会化视频主题提取系统 及方法,实现对视频的细粒度主题抽取。
所述的社会化视频主题提取系统包括用户评论采集模块,原始评论数据库,用户评论预 处理模块,主题检测模块,主题数据库以及结果展示模块。
用户评论采集模块从视频服务网站采集用户的原始评论数据,并存储到原始评论数据库 中,用户评论预处理模块从原始评论数据库中提取原始评论数据进行预处理;并将处理后的 评论数据,送入主题检测模块中,经主题检测算法获得与特定视频片段相关的细粒度主题关 键词集合,并将结果写入主题数据库进行存储,供结果展示模块使用。
结果展示模块负责接受外部请求,并返回查询请求以及展示结果。
本发明所述的一种基于话题模型的社会化视频主题提取方法,具体步骤如下:
步骤一、针对用户选定的待处理视频,用户评论采集模块爬取某段时间内该视频的用户 评论数据;
每条评论数据即每条弹幕,包含:视频标识,评论标识,评论时间,用户标识和评论内 容等。
步骤二、用户评论预处理模块对每一条用户评论数据进行预处理,得到该条评论数据的 预处理结果;
预处理包括对弹幕进行分词处理、去停用词处理,按照弹幕的出现时间对弹幕进行排序, 以及过滤主题无关的噪声词汇。
步骤三、主题检测模块对该处理视频的预处理结果采用主题提取算法进行计算,获得细 粒度主题关键词集合;
具体步骤如下:
步骤301、将每一条用户评论数据的预处理结果视为一个文档,该待处理视频该段时间 内所有的预处理结果组成文档集合。
文档集合用D表示。
步骤302、针对每个文档,设定角色c,情感极性l和话题z三个标签并分别进行初始化。
具体如下:
首先,预先设置人物角色词典和情感极性词典;情感极性包括积极的正极情感和消极的 负极情感。
然后,针对每个文档,根据该文档中所包含的角色对角色标签c进行初始化:如果一条 弹幕中出现了人物词典中的单词,则设定该弹幕的角色标签为c,否则,对没有出现在人物 词典中的角色随机设定。
根据情感词典对情感极性标签l进行初始化:如果一条弹幕中出现了情感词典中的单词, 则设定该弹幕的情感标签为l,否则,对没有出现在情感词典中的情感标签随机设定。
同时对话题标签z做随机初始化。
步骤303、针对初始化标记后的文档,统计该段时间内所有文档中的四种弹幕条数数量;
四种弹幕统计量包括:关于角色c的弹幕条数数量关于角色c和情感极性l的弹幕 条数数量表示关于角色c,情感极性l和话题z的弹幕条数数量以及在整个弹 幕文档集合构建的词袋模型词典中,用来统计关于角色c,情感极性l,话题z下词汇w的词 频数量
步骤304、基于概率图模型对文档集合进行建模,挖掘出隐含在用弹幕中的与视频内容 相关的主题信息。
该待处理视频所对应的每个用户评论数据中均包含了“角色”、“情感”、“主题”等隐含 变量。通过求后验分布,获得各个隐含变量的概率分布,构建的概率模型如下:
zd,ld,cd表示文档d所在弹幕的随机变量;表示除去文档d所在弹幕的所有其 余弹幕的随机变量;
其中,角色c通过多项式分布抽样产生,c~Multionmial(ω);ω是C维向量,表示关于 角色c的多项式分布;C表示该待处理视频中人物的个数;根据狄利克雷分布获得“角色” 的概率分布:ω~Dirichlet(δ);δ是C维向量,表示角色c的先验信息;
在给定角色c的条件下,抽样生成该条评论的用户对角色c的情感极性l,即: l~Multionmial(πc,l);πc,l是C×L维矩阵,表示关于角色c的多项式分布;L表示该待处理视 频中情感极性的个数;对于每一个角色c,根据狄利克雷分布获得其情感极性l的概率分布:πc~Dirichlet(γc);γc是L维向量,表示以角色c作为情感的先验信息;
在给定角色c,情感极性l的条件下,选取该条评论所对应的话题z,即: z~Multionmial(θc,l,k);θc,l,k是C×L×K维矩阵,表示关于角色c和情感极性l的多项式分布;K表示该待处理视频中话题的个数;对于每一个角色c和情感极性l,获得其话题z的概率分布:θc,l~Dirichlet(αc,l);αc,l是C×L维矩阵,表示以角色c和情感极性l作为话题的先验信息;
在给定角色c,情感极性l以及话题z的条件下,生成评论中的各个词汇w,即:是C×L×K×V维矩阵,表示关于角色c,情感极性l和话题z的单词的多项式分布;V表示该待处理视频中字典的长度;对于每一个角色c,情感极性l和话题z,获得词汇w的概率分布:βc,l,k,v是C×L×K×V维矩阵,表示 以角色c,情感极性l,话题z作为单词的先验信息;
Nd表示文档d中单词的数量;d∈D;表示文档d中单词v的重复个数。
步骤305、将统计的四种弹幕统计量分别带入构建的概率模型 中进行迭代,得到每个文档真正的角色c,情感l和话题z;
步骤306、利用每个文档真正的角色c,情感l和话题z,再次统计该段时间内所有文档 中的真正的四种弹幕统计量;
步骤307、将每个文档真正的四种弹幕统计量值分别带入数学期望公式,求取多项式分 布生成的概率值;
ωc为角色c的多项式分布,πc,l为角色c-情感l的多项式分布,θc,l,z为角色c-情感l-话题z 的多项式分布;为角色c-情感l-话题z-词汇w的多项式分布。
步骤308、取概率值最大的前N个单词作为真正的角色c在真正的情感极性l下的真正话 题所对应的细粒度主题关键词。
步骤四、将细粒度主题关键词集合写入主题数据库进行存储;
步骤五、结果展示模块调用主题数据库中的细粒度主题关键词进行展示。
本发明的优点在于:
1)一种基于话题模型的社会化视频主题提取方法,目前市面上没有基于人物的弹幕主题 提取方法,本发明基于人物的弹幕数据挖掘,填补了空白。
2)一种基于话题模型的社会化视频主题提取系统,传统的主题模型对于语义非常稀疏的 弹幕的挖掘,效果并不理想;该模型的提出能从一定程度上缓解弹幕语义稀疏性的问题;展 示的结果更好。
附图说明
图1是本发明一种基于话题模型的社会化视频主题提取系统框架图;
图2是本发明一种基于话题模型的社会化视频主题提取方法的流程图;
图3是本发明采用主题提取算法得到细粒度主题关键词集合的流程图;
图4是本发明通过求后验分布获得各个隐含变量的概率构建主题抽取模型的示意图;
图5是本发明实施例选取的要进行主题提取的视频弹幕截图。
具体实施方式
下面结合附图对本发明的具体实施方法进行详细说明。
本发明提供了一种基于话题模型的社会化视频主题提取系统,如图1所示,包括用户评 论采集模块,原始评论数据库,用户评论预处理模块,主题检测模块,主题数据库以及结果 展示模块。
用户评论采集模块从视频服务网站采集用户的原始评论数据,并存储到原始评论数据库 中,用户评论预处理模块从原始评论数据库中提取原始评论数据进行预处理;并将处理后的 评论数据,送入主题检测模块中,经主题检测算法获得与特定视频片段相关的细粒度主题关 键词集合,并将结果写入主题数据库进行存储,供结果展示模块使用。
结果展示模块负责接受外部请求,并返回查询请求以及展示结果。
本发明所述的一种基于话题模型的社会化视频主题提取方法,所对应的程序运行于主题 检测模块;该方法基于概率图模型对用户评论进行建模,挖掘出隐含在用户评论数据中的与 视频内容相关的主题信息。
其基本原理是:将某段用户选定的待处理视频,所对应的用户评论看作是一个与顺序无 关的词汇集,词汇集中的每个词汇均由一个包含了“角色”、“情感”、“主题”等隐含变量的 生成过程所生成。词汇是可观测变量,其分布受到上述隐含变量的影响,则在已知词汇分布 的前提下,通过求后验分布,则可以获得各个隐含变量的概率分布。
本方法的基本前提是,用户对于视频的评论行为是受其对视频中各个角色的情感偏好所 驱动的,而用户对角色的情感偏好可以分为正向和负向。关于某个“角色”,在不同的“情感” 极性下会有不同的“主题”分布。为此,在确定了“角色”和“情感”极性后,可以通过多 项式分布抽样产生特定的“主题”。进而,在“主题”确知的情况下,根据“主题-词汇”多项式分布抽样生成“词汇”。
如图2所示,具体步骤如下:
步骤一、针对用户选定的待处理视频,用户评论采集模块爬取某段时间内该视频的用户 评论数据;
每条评论数据即每条弹幕,包含:视频标识,评论标识,评论时间,用户标识和评论内 容等。
步骤二、用户评论预处理模块对每一条用户评论数据进行预处理,得到该条评论数据的 预处理结果;
预处理包括对弹幕进行分词处理、去停用词处理,按照弹幕的出现时间对弹幕进行排序, 以及过滤主题无关的噪声词汇。预处理词汇集中每个词汇均包括“角色”、“情感”和“主题”。
步骤三、主题检测模块对该处理视频的预处理结果采用主题提取算法进行计算,获得细 粒度主题关键词集合;
如图3所示,具体步骤如下:
步骤301、将每一条用户评论数据的预处理结果视为一个文档,该待处理视频该段时间 内所有的预处理结果组成文档集合。
文档集合用D表示。
步骤302、针对每个文档,设定角色c,情感极性l和话题z三个标签并分别进行初始化。
具体如下:
首先,预先设置人物角色词典和情感极性词典;情感极性包括积极的正极情感和消极的 负极情感。
然后,针对每个文档,根据该文档中所包含的角色对角色标签c进行初始化:如果一条 弹幕中出现了人物词典中的单词,则设定该弹幕的角色标签为c,否则,对没有出现在人物 词典中的角色随机设定。
根据情感词典对情感极性标签l进行初始化:如果一条弹幕中出现了情感词典中的单词, 则设定该弹幕的情感标签为l,否则,对没有出现在情感词典中的情感标签随机设定。
同时对话题标签z做随机初始化。
步骤303、针对初始化标记后的文档,统计该段时间内所有文档中的四种弹幕条数数量;
四种弹幕统计量包括:关于角色c的弹幕条数数量关于角色c和情感极性l的弹幕 条数数量表示关于角色c,情感极性l和话题z的弹幕条数数量以及在整个弹 幕文档集合构建的词袋模型词典中,用来统计关于角色c,情感极性l,话题z下词汇w的词 频数量
步骤304、基于概率图模型对文档集合进行建模,挖掘出隐含在用弹幕中的与视频内容 相关的主题信息。
该待处理视频所对应的每个用户评论数据中均包含了“角色”、“情感”、“主题”等隐含 变量。通过求后验分布,获得各个隐含变量的概率分布,
首先,角色c通过多项式分布抽样产生,c~Multionmial(ω);ω是C维向量,表示关于 角色c的多项式分布;C表示该待处理视频中人物的个数;根据狄利克雷分布获得“角色” 的概率分布:ω~Dirichlet(δ);δ是C维向量,表示角色c的先验信息;
在给定角色c的条件下,抽样生成该条评论的用户对角色c的情感极性l,即: l~Multionmial(πc,l);πc,l是C*L矩阵,表示关于角色c的多项式分布;L表示该待处理视频 中情感极性标签的个数;对于每一个角色c,根据狄利克雷分布获得其情感极性l的概率分布:πc~Dirichlet(γc);γc是L维向量,表示以角色c作为情感的先验信息;
在给定角色c,情感极性l的条件下,选取该条评论所对应的话题z,即: z~Multionmial(θc,l,k);θc,l,k是C×L×K维矩阵,表示关于角色c和情感极性l的多项式分布;K表示该待处理视频中话题的个数;对于每一个角色c和情感极性l,获得其话题z的概率分布:θc,l~Dirichlet(αc,l);αc,l是C×L维矩阵,表示以角色c和情感极性l作为话题的先验信息;
在给定角色c,情感极性l以及话题z的条件下,生成评论中的各个词汇w,即:是C×L×K×V维矩阵,表示关于角色c,情感极性l和话题z的单词的多项式分布;V表示该待处理视频中字典的长度;对于每一个角色c,情感极性l和话题z,获得词汇w的概率分布:βc,l,k,v是C×L×K×V维矩阵,表示 以角色c,情感极性l,话题z作为单词的先验信息;
上述生成过程描述了该视频的弹幕评论所包含的所有词汇的完整生成过程,其对应的概 率图模型,如图4所示。该过程可以用条件概率公式表示如下:
将上述公式(1)进行展开,得到下式:
模型的目标在于找出每个词汇后潜在的隐含变量:“主题”,“情感”和“角色”。为了达 到这个目标,需要计算后验概率:
对于公式(3)来说,其分母所对应的离散状态空间太过庞大,无法计算。
因此利用吉布斯抽样对其进行近似求解:首先,根据吉布斯抽样得到“角色”,“情感” 以及“话题”三个隐含变量以及可观测变量“词汇”的联合概率分布公式,得到以下结果:
zd,ld,cd表示文档d所在弹幕的随机变量;表示除去文档d所在弹幕的所有其 余弹幕的随机变量;
Nd表示文档d中单词的数量;d∈D;表示一个文档d中单词v的重复个数;单词v是词袋模型词典中的一个单词。
据公式(4)即可获得用户评论d所对应的“主题”、“情感”以及“角色”三类隐含信息。
步骤305、将统计的四种弹幕统计量分别带入构建的概率模型 中进行迭代,得到每个文档最终真正的角色c,情感l和话题z;
步骤306、利用每个文档真正的角色c,情感l和话题z,再次统计该段时间内所有文档 中的真正的四种弹幕统计量;
步骤307、将每个文档真正的四种弹幕统计量值分别带入数学期望公式,求取多项式分 布生成的概率值;
在获得评论d所对应的主题”、“情感”以及“角色”隐含信息后,通过求取数学期望,可以得到“角色”的多项式分布ωc,“角色-情感”多项式分布πc,l,“角色-情感-话题”多项式分布θclk以及“角色-情感-话题-词汇”多项式分布
步骤308、取概率值最大的前N个单词作为真正的角色c在真正的情感极性l下的真正话 题所对应的细粒度主题关键词。
步骤四、将细粒度主题关键词集合写入主题数据库进行存储;
步骤五、结果展示模块调用主题数据库中的细粒度主题关键词进行展示。
如图5所示,为用户指定需要进行主题提取的视频,指定相关参数如下:
3个片段的人物,情感和所对应的关键词集合如下表所示:

Claims (5)

1.一种基于话题模型的社会化视频主题提取系统,其特征在于,包括:用户评论采集模块,原始评论数据库,用户评论预处理模块,主题检测模块,主题数据库以及结果展示模块;
用户评论采集模块从视频服务网站采集用户的原始评论数据,并存储到原始评论数据库中,用户评论预处理模块从原始评论数据库中提取原始评论数据进行预处理;并将处理后的评论数据,送入主题检测模块中,经主题检测算法获得与特定视频片段相关的细粒度主题关键词集合,并将结果写入主题数据库进行存储,供结果展示模块使用;
结果展示模块负责接受外部请求,并返回查询请求以及展示结果。
2.应用如权利要求1所述的一种基于话题模型的社会化视频主题提取系统的提取方法,其特征在于,具体步骤如下:
步骤一、针对用户选定的待处理视频,用户评论采集模块爬取某段时间内该视频的用户评论数据;
步骤二、用户评论预处理模块对每一条用户评论数据进行预处理,得到该条评论数据的预处理结果;
步骤三、主题检测模块对该处理视频的预处理结果采用主题提取算法进行计算,获得细粒度主题关键词集合;
具体步骤如下:
步骤301、将每一条用户评论数据的预处理结果视为一个文档,该待处理视频该段时间内所有的预处理结果组成文档集合;
文档集合用D表示;
步骤302、针对每个文档,设定角色c,情感极性l和话题z三个标签并分别进行初始化;
步骤303、针对初始化标记后的文档,统计该段时间内所有文档中的四种弹幕条数数量;
四种弹幕统计量包括:关于角色c的弹幕条数数量关于角色c和情感极性l的弹幕条数数量表示关于角色c,情感极性l和话题z的弹幕条数数量以及在整个弹幕文档集合构建的词袋模型词典中,用来统计关于角色c,情感极性l,话题z下词汇w的词频数量
步骤304、基于概率图模型对文档集合进行建模,挖掘出隐含在用弹幕中的与视频内容相关的主题信息;
该待处理视频所对应的每个用户评论数据中均包含了“角色”、“情感”、“主题”等隐含变量;通过求后验分布,获得各个隐含变量的概率分布,构建的概率模型如下:
zd,ld,cd表示文档d所在弹幕的随机变量;表示除去文档d所在弹幕的所有其余弹幕的随机变量;
其中,角色c通过多项分布抽样产生,c~Multionmial(ω);ω是C维向量,表示关于角色c的多项式分布;C表示该待处理视频中人物的个数;根据狄利克雷分布获得“角色”的概率分布:ω~Dirichlet(δ);δ是C维向量,表示角色c的先验信息;
在给定角色c的条件下,抽样生成该条评论的用户对角色c的情感极性l,即:l~Multionmial(πc,l);πc,l是C×L维矩阵,表示关于角色c的多项式分布;L表示该待处理视频中情感极性的个数;对于每一个角色c,根据狄利克雷分布获得其情感极性l的概率分布:πc~Dirichlet(γc);γc是L维向量,表示以角色c作为情感的先验信息;
在给定角色c,情感极性l的条件下,选取该条评论所对应的话题z,即:z~Multionmial(θc,l,k);θc,l,k是C×L×K维矩阵,表示关于角色c和情感极性l的多项式分布;K表示该待处理视频中话题的个数;对于每一个角色c和情感极性l,获得其话题z的概率分布:θc,l~Dirichlet(αc,l);αc,l是C×L维矩阵,表示以角色c和情感极性l作为话题的先验信息;
在给定角色c,情感极性l以及话题z的条件下,生成评论中的各个词汇w,即: 是C×L×K×V维矩阵,表示关于角色c,情感极性l和话题z的单词的多项式分布;V表示该待处理视频中字典的长度;对于每一个角色c,情感极性l和话题z,获得词汇w的概率分布:βc,l,k,v是C×L×K×V维矩阵,表示以角色c,情感极性l,话题z作为单词的先验信息;
Nd表示文档d中单词的数量;d∈D;表示文档d中单词v的重复个数;
步骤305、将四种弹幕统计量分别带入构建的概率模型中进行迭代,得到每个文档真实的角色c,情感l和话题z;
步骤306、利用每个文档真实的角色c,情感l和话题z,再次统计该段时间内所有文档中真实的四种弹幕数量;
步骤307、将每个文档真正的四种弹幕数量值分别带入数学期望公式,求取多项式分布
生成的概率值;
ωc为角色c的多项式分布,πc,l为角色c-情感l的多项式分布,θc,l,z为角色c-情感l-话题z的多项式分布;为角色c-情感l-话题z-词汇w的多项式分布;
步骤308、取概率值最大的前N个单词作为角色c在真正的情感极性l下的真正话题所对应的细粒度主题关键词;
步骤四、将细粒度主题关键词集合写入主题数据库进行存储;
步骤五、结果展示模块调用主题数据库中的细粒度主题关键词进行展示。
3.如权利要求2所述的社会化视频主题提取方法,其特征在于,步骤一中所述的每条评论数据即每条弹幕,包含视频标识,评论标识,评论时间,用户标识和评论内容。
4.如权利要求2所述的社会化视频主题提取方法,其特征在于,步骤二中所述的预处理包括:对弹幕进行分词处理、去停用词处理,按照弹幕的出现时间对弹幕进行排序,以及过滤主题无关的噪声词汇。
5.如权利要求2所述的社会化视频主题提取方法,其特征在于,所述的步骤302中,对角色c,情感极性l和话题z分别进行初始化,具体如下:
首先,预先设置人物角色词典和情感极性词典;情感极性包括积极的正极情感和消极的负极情感;
然后,针对每个文档,根据该文档中所包含的角色对角色标签c进行初始化:如果一条弹幕中出现了人物词典中的单词,则设定该弹幕的角色标签为c,否则,对没有出现在人物词典中的角色随机设定;
根据情感词典对情感极性标签l进行初始化:如果一条弹幕中出现了情感词典中的单词,则设定该弹幕的情感标签为所在情感词典极性下的标签l,否则,对没有出现在情感词典中的情感标签随机设定;
同时,对话题标签z做随机初始化。
CN201810083796.XA 2017-12-06 2018-01-29 一种基于话题模型的社会化视频主题提取系统的提取方法 Active CN108513176B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711275360 2017-12-06
CN2017112753602 2017-12-06

Publications (2)

Publication Number Publication Date
CN108513176A true CN108513176A (zh) 2018-09-07
CN108513176B CN108513176B (zh) 2020-04-14

Family

ID=63374694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810083796.XA Active CN108513176B (zh) 2017-12-06 2018-01-29 一种基于话题模型的社会化视频主题提取系统的提取方法

Country Status (1)

Country Link
CN (1) CN108513176B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765762A (zh) * 2019-09-29 2020-02-07 杭州电子科技大学上虞科学与工程研究院有限公司 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN111860237A (zh) * 2020-07-07 2020-10-30 中国科学技术大学 一种视频情感片段的识别方法及装置
CN112001184A (zh) * 2020-08-14 2020-11-27 西华大学 面向视频弹幕的用户情感差异区域检测方法和系统
CN112231579A (zh) * 2019-12-30 2021-01-15 北京邮电大学 基于隐式社群发现的社会化视频推荐系统与方法
CN112699831A (zh) * 2021-01-07 2021-04-23 重庆邮电大学 基于弹幕情感的视频热点片段检测方法、装置及存储介质
CN114429109A (zh) * 2022-04-06 2022-05-03 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于评论有用性的自动用户评论摘要的方法
CN115329751A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 针对网络平台发文的关键词提取方法、装置、介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130216203A1 (en) * 2012-02-17 2013-08-22 Kddi Corporation Keyword-tagging of scenes of interest within video content
CN104991956A (zh) * 2015-07-21 2015-10-21 中国人民解放军信息工程大学 基于主题概率模型的微博传播群体划分与账户活跃度评估方法
CN105701210A (zh) * 2016-01-13 2016-06-22 福建师范大学 一种基于混杂特征计算的微博主题情感分析方法
CN106227793A (zh) * 2016-07-20 2016-12-14 合网络技术(北京)有限公司 一种视频与视频关键词相关度的确定方法及装置
CN106407484A (zh) * 2016-12-09 2017-02-15 上海交通大学 一种基于弹幕语义关联的视频标签提取方法
CN107239509A (zh) * 2017-05-15 2017-10-10 清华大学 面向短文本的单主题挖掘方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130216203A1 (en) * 2012-02-17 2013-08-22 Kddi Corporation Keyword-tagging of scenes of interest within video content
CN104991956A (zh) * 2015-07-21 2015-10-21 中国人民解放军信息工程大学 基于主题概率模型的微博传播群体划分与账户活跃度评估方法
CN105701210A (zh) * 2016-01-13 2016-06-22 福建师范大学 一种基于混杂特征计算的微博主题情感分析方法
CN106227793A (zh) * 2016-07-20 2016-12-14 合网络技术(北京)有限公司 一种视频与视频关键词相关度的确定方法及装置
CN106407484A (zh) * 2016-12-09 2017-02-15 上海交通大学 一种基于弹幕语义关联的视频标签提取方法
CN107239509A (zh) * 2017-05-15 2017-10-10 清华大学 面向短文本的单主题挖掘方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765762B (zh) * 2019-09-29 2023-04-18 杭州电子科技大学上虞科学与工程研究院有限公司 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN110765762A (zh) * 2019-09-29 2020-02-07 杭州电子科技大学上虞科学与工程研究院有限公司 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN112231579A (zh) * 2019-12-30 2021-01-15 北京邮电大学 基于隐式社群发现的社会化视频推荐系统与方法
CN112231579B (zh) * 2019-12-30 2022-10-28 北京邮电大学 基于隐式社群发现的社会化视频推荐系统与方法
CN111860237B (zh) * 2020-07-07 2022-09-06 中国科学技术大学 一种视频情感片段的识别方法及装置
CN111860237A (zh) * 2020-07-07 2020-10-30 中国科学技术大学 一种视频情感片段的识别方法及装置
CN112001184B (zh) * 2020-08-14 2022-10-11 西华大学 面向视频弹幕的用户情感差异区域检测方法和系统
CN112001184A (zh) * 2020-08-14 2020-11-27 西华大学 面向视频弹幕的用户情感差异区域检测方法和系统
CN112699831B (zh) * 2021-01-07 2022-04-01 重庆邮电大学 基于弹幕情感的视频热点片段检测方法、装置及存储介质
CN112699831A (zh) * 2021-01-07 2021-04-23 重庆邮电大学 基于弹幕情感的视频热点片段检测方法、装置及存储介质
CN114429109B (zh) * 2022-04-06 2022-07-19 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于评论有用性的用户评论摘要的方法
CN114429109A (zh) * 2022-04-06 2022-05-03 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于评论有用性的自动用户评论摘要的方法
CN115329751A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 针对网络平台发文的关键词提取方法、装置、介质及设备

Also Published As

Publication number Publication date
CN108513176B (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN108513176A (zh) 一种基于话题模型的社会化视频主题提取系统及方法
Yuan et al. A large chinese text dataset in the wild
Goodfellow et al. Multi-digit number recognition from street view imagery using deep convolutional neural networks
Roman-Rangel et al. Analyzing ancient maya glyph collections with contextual shape descriptors
Lian et al. EasyFont: a style learning-based system to easily build your large-scale handwriting fonts
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN109214002A (zh) 一种文本对比方法、装置及其计算机存储介质
CN103678702A (zh) 视频去重方法及装置
CN110390363A (zh) 一种图像描述方法
CN107491435A (zh) 基于计算机自动识别用户情感的方法及装置
CN106127222B (zh) 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN109343920A (zh) 一种图像处理方法及其装置、设备和存储介质
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN107515934A (zh) 一种基于大数据的电影语义个性化标签优化方法
Lin et al. Font generation based on least squares conditional generative adversarial nets
CN105117740A (zh) 字体识别方法及装置
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN109815485A (zh) 一种微博短文本情感极性识别的方法、装置及存储介质
CN107665188A (zh) 一种语义理解方法及装置
Patel et al. Dynamic lexicon generation for natural scene images
CN105159917A (zh) 一种电子病历的非结构化信息转化为结构化的泛化方法
CN109359308A (zh) 机器翻译方法、装置及可读存储介质
CN113850178A (zh) 一种视频词云的生成方法及装置、存储介质及电子设备
Liu et al. Chinese document classification with bi-directional convolutional language model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant