CN111683294A - 一种信息抽取的弹幕评论推荐方法 - Google Patents

一种信息抽取的弹幕评论推荐方法 Download PDF

Info

Publication number
CN111683294A
CN111683294A CN202010380057.4A CN202010380057A CN111683294A CN 111683294 A CN111683294 A CN 111683294A CN 202010380057 A CN202010380057 A CN 202010380057A CN 111683294 A CN111683294 A CN 111683294A
Authority
CN
China
Prior art keywords
barrage
comment
comments
bullet screen
surrounding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010380057.4A
Other languages
English (en)
Other versions
CN111683294B (zh
Inventor
吴雯
班启敏
陈嘉逸
贺樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202010380057.4A priority Critical patent/CN111683294B/zh
Publication of CN111683294A publication Critical patent/CN111683294A/zh
Application granted granted Critical
Publication of CN111683294B publication Critical patent/CN111683294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4756End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息抽取的弹幕评论推荐方法,其特点是采用周围弹幕评论词嵌入模块、周围弹幕评论句子语义嵌入模块、周围弹幕评论间相似度计算模块和周围弹幕评论分数预测模块组成的模型,以及基于深度学习的信息抽取方法,使用周围弹幕评论之间的相关性使弹幕评论之间进行关联,在用户发送弹幕评论时提供候选的弹幕评论列表,为目标用户推荐在某一时间点合适的评论。本发明与现有技术相比具有准确率高,可解释性强,为目标用户推荐在某一时间点合适的评论,大大提升了弹幕评论推荐的性能,从而防止用户在发表弹幕评论时而错过视频内容,适用于任何用户参与评论的场景。

Description

一种信息抽取的弹幕评论推荐方法
技术领域
本发明涉及推荐系统技术领域,具体的说是一种基深度学习的信息抽取弹幕评论推荐方法。
背景技术
弹幕是一种关于视频内容的实时评论方式,与传统的在线评论不同,弹幕并未将视频和评论分开呈现,而是在视频内容对应的时间点通过直接覆盖在视频内容上面进行展现。最近几年网络视频发展迅速,如网络电视剧、直播或用户自创的短视频等,据思科的预测,至2020年,在线视频将占据消费者互联网流量的80%以上,因此,通过何种手段吸引用户在平台观看视频成为视频网站亟待解决的关键问题。而弹幕的出现成为了解决该问题的一把利器,如:据Bilibili统计,正是由于弹幕的存在,该平台2017年的用户量是2016年用户量的2.5倍。显然,弹幕的存在提升了用户与视频网站的交互,通过发送弹幕分享自己的观点同时可以阅读其他人的相关看法,从而吸引了用户,提升了网站用户的留存率。虽然弹幕以文本的形式存在,但是之前的研究已经初步尝试将弹幕应用于不同的领域,如语言分析、语义评论理解、基于评论的视频理解、用户行为建模等。
在当今信息爆炸的互联网时代,推荐系统在减轻信息负载方面起着至关重要的作用。推荐系统因其有效性也被应用于诸多在线服务中,例如:电商网站、在线新闻、社交媒体网站。因为用户需求的差异,个性化的推荐系统在进行推荐的同时结合用户的喜好进行相关的推荐,个性化推荐的策略是根据用户与网站的交互历史(如评分、点击、购买等行为)建模用户的偏好从而进行推荐。常用的个性化推荐算法有:基于协同过滤的方法、矩阵分解的方法、基于内容的方法、基于深度学习的方法。
现有技术的推荐系统用户发送弹幕评论的效率低,适用参与评论的场景有限,尤其考虑到用户在观看视频时发送弹幕会错过视频内容,且弹幕在某一视频帧处存在一些语义相同的弹幕,用户体验差。
发明内容
本发明的目的是针对现有技术不足而提供的一种信息抽取的弹幕评论推荐方法,采用周围弹幕评论词嵌入模块、周围弹幕评论句子语义嵌入模块、周围弹幕评论间相似度计算模块和周围弹幕评论分数预测模块组成的模型,利用周围弹幕评论进行信息建模,使用周围弹幕评论之间的相关性使弹幕评论之间进行关联,在用户发送弹幕评论时为用户提供候选的弹幕评论列表,为用户进行弹幕评论的推荐。使用目标弹幕评论和周围弹幕评论之间的ROUGE-N指标和模型预测结果之间的KL散度进行训练提升推荐的准确性,为用户提供候选的弹幕评论列表,为目标用户推荐在某一时间点合适的评论,提升用户发送弹幕评论的效率,从而防止用户在发表弹幕评论时而错过视频内容的观看,适用于任何用户参与评论的场景。
实现本发明目的具体技术方案是:一种信息抽取的弹幕评论推荐方法,其特点采用周围弹幕评论词嵌入模块、周围弹幕评论句子语义嵌入模块、周围弹幕评论间相似度计算模块、周围弹幕评论分数预测模块和基于深度学习的信息抽取方法,使用周围弹幕评论之间的相关性使弹幕评论之间进行关联,在用户发送弹幕评论时提供候选的弹幕评论列表,为目标用户推荐在某一时间点合适的评论,具体包括以下具体步骤:
步骤1:目标弹幕评论以及周围弹幕评论的获取
根据弹幕的发送时间,获取特定时间点视频对应的目标弹幕评论以及周围弹幕评论进行信息建模,其中,10%为目标弹幕评论,用于之后的模型训练和性能评估,其余的作为候选集,用于为用户生成弹幕评论推荐。在进行模型训练时,每个目标弹幕评论根据其对应的视频内容播放时间选取周围的50条弹幕评论用于训练。
步骤2:弹幕评论的词嵌入表示
所述周围弹幕评论词嵌入模块采用Skip-Gram算法在Gensim平台,对用于训练的每条弹幕评论中的词进行词嵌入训练,使每个词以300维度的向量表示,得到每条弹幕评论的词嵌入表示;
步骤3:弹幕评论语义表示的生成
所述周围弹幕评论句子语义嵌入模块采用双向GRU网络,将词嵌入表示之后的每条弹幕评论送入双向的GRU网中,所述双向GRU网包含一个前向的GRU网络,一个反向的GRU网络,前向的网络从前到后的读取句子信息,而反向的网络从后至前逆向的读取句子信息。将两个网络的最后隐藏状态进行拼接,且由下述(a)式计算生成的每条弹幕评论表示:
zi=σ(Wz[xi,hi-1])
ri=σ(Wx[xi,hi-1])
Figure BDA0002481609370000021
Figure BDA0002481609370000022
Figure BDA0002481609370000023
式中:xi为每条周围弹幕评论中的第i个词;Wz,Wx,Wh为模型参数;zi,ri对应门控循环单元GRU中的重置门和更新门。
步骤4:弹幕相似性生成
所述周围弹幕评论间相似度计算模块将生成的弹幕评论表示按下述(b)和(c)式计算弹幕相似性:
Figure BDA0002481609370000031
hsj=[sim(c1,cj),...,sim(cT,cj)] (c);
式中:hgj为cj通过双向GRU之后的表示。
如果将上一步生成的弹幕评论表示直接送入多层感知器和softmax中进行预测,则结果是为每条评论单独的建模而损失了弹幕评论之间的关联性,因此,受TextRank启发,使用句子之间的相似性抽取重要的句子,本发明使用弹幕评论之间的相似性作为辅助特征进行最终的评分预测。其中,计算弹幕评论之间相似性时,使用余弦相似度的方法计算通过双向GRU表示之后的评论之间的相似性。
步骤5:评分预测
所述周围弹幕评论分数预测模块由多层感知机和softmax组成,将通过双向GRU表示的弹幕评论表示和上一步得到的弹幕评论之间的相似性特征进行拼接输入到多层感知机和softmax中进行周围弹幕评论的评分预测并将分值大的推荐给用户。在进行模型训练时,因为进行弹幕评论推荐任务没有用户的点击率、评分等反馈,因此,本发明使用ROUGE指标计算目标弹幕评论和周围弹幕评论之间的分数,得到ROUGE分数
Figure BDA0002481609370000032
后对其进行归一化,利用KL散度作为目标函数使模型得到的分布和ROUGE得到的分数尽可能相同。
所述将弹幕评论表示和弹幕相似性拼接后输入多层感知机和softmax中进行周围弹幕评论的评分预测包括下述步骤:
1)按下述(d)式计算模型预测的周围弹幕评论的概率分布评分标签
Figure BDA0002481609370000033
Figure BDA0002481609370000034
式中,cj为第j条周围弹幕评论;hsj为cj与其它周围弹幕评论之间的相似性向量值;hgj为第j条弹幕评论通过双向GRU之后的向量表示。
2)使用ROUGE指标计算目标弹幕评论和周围弹幕评论之间的分数,按下述(e)式计算周围弹幕评论cj和目标弹幕评论t之间的ROUGE-n分数
Figure BDA0002481609370000035
Figure BDA0002481609370000036
其中Count(gramn)表示t中n-gram的个数,Countmatch(gramn)表示cj,t共有的n-gram个数。
3)对上述ROUGE-N分数
Figure BDA0002481609370000041
按(f)式进行归一化处理,并按下述(g)式计算概率分布评分标签:
Figure BDA0002481609370000042
Figure BDA0002481609370000043
4)利用KL散度(DKL)作为目标函数使模型得到的分布和ROUGE得到的分数尽可能相同,按下述(h)式计算:
Figure BDA0002481609370000044
其中,cj为第j条周围弹幕评论;hsj为cj与其它周围弹幕评论之间的相似性向量值;hgj为第j条弹幕评论通过双向GRU之后的向量表示;Count(gramn)表示t中n-gram的个数,Countmatch(gramn)表示cj,t共有的n-gram个数。
Figure BDA0002481609370000045
为模型预测的周围弹幕评论的概率分布评分标签,q(cj,t)为周围弹幕评论和目标弹幕评论ROUGE-N分数归一化后的概率分布评分标签,使用KL散度作为目标函数进行训练,使两者分布尽可能一致。
本发明与现有技术相比具有准确率更高,可解释性更强,为目标用户推荐在某一时间点合适的评论,提升用户发送评论的效率,从而防止用户在发表弹幕评论时而错过视频内容,适用于任何用户参与评论的场景。
附图说明
图1为本发明的模型图。
具体实施方式
参阅附图1,本发明采用周围弹幕评论词嵌入模块、周围弹幕评论句子语义嵌入模块、周围弹幕评论间相似度计算模块、周围弹幕评论分数预测模块,以及基于深度学习的信息抽取方法,使用周围弹幕评论之间的相关性使弹幕评论之间进行关联,在用户发送弹幕评论时提供候选的弹幕评论列表,为目标用户推荐在某一时间点合适的评论。利用周围弹幕评论进行信息建模,使用周围弹幕评论之间的相关性使弹幕评论之间进行关联,使用目标弹幕评论和周围弹幕评论之间的ROUGE-N指标和模型预测结果之间的KL散度进行训练提升推荐的准确性。图中的c1,c2,…,cT代表预处理后的每条周围弹幕评论,w1,w2,……wn代表每条周围弹幕评论中的单词,GRU为门控循环单元。
以下通过bilibili弹幕数据集“Movie”和“Sport”两个类别下的具体实施,对本发明作进一步的详细说明。
实施例1
按下述步骤为目标用户推荐在某一时间点合适的评论:
1)、数据集预处理部分
首先移除数据集中的停用词,然后使用结巴分词工具对弹幕评论进行分词
2)弹幕评论推荐模型部分
步骤1:获取特定时间点视频对应的目标弹幕评论和周围弹幕评论
根据弹幕的发送时间,选取最近的10%弹幕评论作为目标弹幕评论,用于之后的模型训练和性能评估,其余的作为候选集,用于为用户生成弹幕评论推荐。在进行训练时,每个目标弹幕评论根据其对应的视频内容播放时间选取周围的50条弹幕评论用于训练,本例中选择的目标弹幕评论ID为6411314,其内容为“猴哥是你吗猴哥”,其周围弹幕评论内容有:“真的很像路飞哈哈哈哈哈”,“好像路飞”,“悟空上身了吗”,“声音好像路飞”,“悟空是你吗”,“少侠好轻功”,悟空上身了吗“悟空啊”,“一秒上椅子”,“猴子
Figure BDA0002481609370000051
上身”,“轻功飞扬多年苦练的结果23333”,“看着像18”,“天海sama”,“跑来欺负欧机酱23333”,“这神吐槽”,“好似路飞哈哈哈”,“哥你别闹了”等;
步骤2:对用于训练的每条弹幕评论中的词进行嵌入表示
使用Skip-Gram算法在Gensim平台进行词嵌入的训练,使每个词用300维的向量表示;
步骤3:弹幕评论语义表示生成
将词嵌入表示之后的每条弹幕评论送入双向的GRU中,双向GRU包含一个前向的GRU网络,一个反向的GRU网络,前向的网络从前到后的读取句子信息,而反向的网络从后至前逆向的读取句子信息。将两个网络的最后隐藏状态进行拼接作为每条弹幕评论的表示。
按下述(a)式计算每条弹幕评论表示:
zi=σ(Wz[xi,hi-1])
ri=σ(Wx[xi,hi-1])
Figure BDA0002481609370000052
Figure BDA0002481609370000053
Figure BDA0002481609370000054
式中:xi为每条周围弹幕评论中的第i个词;Wz,Wx,Wh为模型参数;zi,ri对应GRU中的重置门和更新门。
步骤4:弹幕相似性生成
如果将上一步生成的弹幕评论表示直接送入多层感知器和softmax中进行预测,则结果是为每条评论单独的建模而损失了弹幕评论之间的关联性,因此,受TextRank启发,使用句子之间的相似性抽取重要的句子,本发明使用弹幕评论之间的相似性作为辅助特征进行最终的评分预测。其中,计算弹幕评论之间相似性时,使用余弦相似度的方法计算通过双向GRU表示之后的评论之间的相似性。
按下述(b)和(c)式计算弹幕相似性:
Figure BDA0002481609370000061
hsj=[sim(c1,cj),…,sim(cT,cj)] (c);
式中:hgj为cj通过双向GRU之后的表示。
步骤5:周围弹幕评论分数预测模块
将通过双向GRU表示的弹幕评论表示和上一步得到的弹幕评论之间的相似性特征进行拼接输入到多层感知机和softmax中进行周围弹幕评论的评分预测并将分值大的推荐给用户。在进行模型训练时,因为进行弹幕评论推荐任务没有用户的点击率、评分等反馈,因此,本发明使用ROUGE指标计算目标弹幕评论和周围弹幕评论之间的分数,得到ROUGE-N分数
Figure BDA0002481609370000062
后对其进行归一化,利用KL散度作为目标函数使模型得到的分布和ROUGE得到的分数尽可能相同。
按下述(d)式计算模型预测的周围弹幕评论的概率分布评分标签
Figure BDA0002481609370000063
Figure BDA0002481609370000064
按下述(e)式计算ROUGE-N分数
Figure BDA0002481609370000065
Figure BDA0002481609370000066
按下述(f)式将ROUGE-N分数
Figure BDA0002481609370000067
进行归一化处理,并按下述(g)式计算概率分布评分标签:
Figure BDA0002481609370000068
Figure BDA0002481609370000071
按下述(h)式计算模型得到的分数和ROUGE得到的分数分布的差异:
Figure BDA0002481609370000072
其中,cj为第j条周围弹幕评论;hsj为cj与其它周围弹幕评论之间的相似性向量值;hgj为第j条弹幕评论通过双向GRU之后的向量表示;Count(gramn)表示t中n-gram的个数,Countmatch(gramn)表示cj,t共有的n-gram个数。
Figure BDA0002481609370000073
为模型预测的周围弹幕评论的概率分布评分标签,q(cj,t)为周围弹幕评论和目标弹幕评论ROUGE-N分数归一化后的概率分布评分标签,使用KL散度作为目标函数进行训练,使两者分布尽可能一致。
上述针对“猴哥是你吗猴哥”目标弹幕评论,“悟空上身了吗”、“悟空是你么”、“好像路飞”、“真的很像路飞”和“少侠好轻功”所获的rouge-1@5分值最高。当选择前5条弹幕评论进行推荐时,算法会将其作为候选弹幕评论推荐给用户,直观上也可看出这五条弹幕评论和目标弹幕评论有较强的语义相似性,这也证明了该算法的准确性。上述实验结果表明,本发明与基线方法相比,准确率更高,可解释性更强,适用于任何用户参与评论的场景。
以上各实施例只是对本发明做进一步说明,并非用以限制本发明专利,凡为本发明的等效实施,均应包含于本发明专利的权利要求范围之内。

Claims (1)

1.一种信息抽取的弹幕评论推荐方法,其特征在于采用周围弹幕评论词嵌入模块、周围弹幕评论句子语义嵌入模块、周围弹幕评论间相似度计算模块、周围弹幕评论分数预测模块,以及基于深度学习的信息抽取方法,使用周围弹幕评论之间的相关性使弹幕评论之间进行关联,在用户发送弹幕评论时提供候选的弹幕评论列表,为目标用户推荐在某一时间点合适的评论,具体包括以下具体步骤:
步骤1:目标弹幕评论以及周围弹幕评论的获取
根据弹幕的发送时间,获取特定时间点视频对应的目标弹幕评论以及周围弹幕评论进行信息建模,其中,10%为为目标弹幕评论,其余为候选集,所述目标弹幕评论用于模型训练和性能评估;所述候选集用于为用户生成弹幕评论推荐;所述模型训练时每个目标弹幕评论根据其对应的视频内容播放时间,选取周围的50条弹幕评论用于训练;
步骤2:弹幕评论的词嵌入表示
所述周围弹幕评论词嵌入模块采用Skip-Gram算法在Gensim平台,对用于训练的每条弹幕评论中的词进行词嵌入训练,使每个词以300维度的向量表示,得到每条弹幕评论的词嵌入表示;
步骤3:弹幕评论语义表示的生成
所述周围弹幕评论句子语义嵌入模块采用双向GRU网络,所述双向GRU包含一个顺向读取句子信息的前向GRU网络和一个逆向读取句子信息的反向GRU网络,将词嵌入表示的每条弹幕评论入双向的GRU网络中,将两个网络的最后隐藏状态进行拼接,且由下述(a)式计算生成的每条弹幕评论表示:
zi=σ(Wz[xi,hi-1])
ri=σ(Wx[xi,hi-1])
Figure FDA0002481609360000011
Figure FDA0002481609360000012
Figure FDA0002481609360000013
式中:xi为每条周围弹幕评论中的第i个词;Wz,Wx,Wh为模型参数;zi,ri对应门控循环单元GRU中的重置门和更新门;
步骤4:弹幕相似性生成
所述周围弹幕评论间相似度计算模块将生成的弹幕评论表示按下述(b)和(c)式计算弹幕相似性:
Figure FDA0002481609360000014
Figure FDA0002481609360000021
hsj=[sim(c1,cj),...,sim(cT,cj)] (c);
式中:hgj为cj通过双向GRU之后的表示;
步骤5:评分预测
所述周围弹幕评论分数预测模块由多层感知机和softmax组成,将弹幕评论表示和弹幕相似性拼接后输入多层感知机和softmax中进行周围弹幕评论的评分预测,并将分值大的推荐给用户,所述分数预测模型训练包括下述步骤:
1)按下述(d)式计算模型预测的周围弹幕评论的概率分布评分标签
Figure FDA0002481609360000027
Figure FDA0002481609360000028
式中:cj为第j条周围弹幕评论;hsj为cj与其它周围弹幕评论之间的相似性向量值;hgj为第j条弹幕评论通过双向GRU之后的向量表示;
2)使用ROUGE指标计算目标弹幕评论和周围弹幕评论之间的分数,按下述(e)式计算周围弹幕评论cj和目标弹幕评论t之间的ROUGE-n分数
Figure FDA0002481609360000026
Figure FDA0002481609360000022
式中:Count(gramn)表示t中n-gram的个数,Countmatch(gramn)表示cj,t共有的n-gram个数。
3)对上述ROUGE-n分数
Figure FDA0002481609360000029
按(f)式进行归一化处理,并按下述(g)式计算概率分布评分标签:
Figure FDA0002481609360000023
Figure FDA0002481609360000024
4)利用KL散度DKL作为目标函数使模型得到的分布和ROUGE得到的分数尽可能相同,按下述(h)式计算:
Figure FDA0002481609360000025
CN202010380057.4A 2020-05-08 2020-05-08 一种信息抽取的弹幕评论推荐方法 Active CN111683294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010380057.4A CN111683294B (zh) 2020-05-08 2020-05-08 一种信息抽取的弹幕评论推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010380057.4A CN111683294B (zh) 2020-05-08 2020-05-08 一种信息抽取的弹幕评论推荐方法

Publications (2)

Publication Number Publication Date
CN111683294A true CN111683294A (zh) 2020-09-18
CN111683294B CN111683294B (zh) 2021-05-07

Family

ID=72451786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010380057.4A Active CN111683294B (zh) 2020-05-08 2020-05-08 一种信息抽取的弹幕评论推荐方法

Country Status (1)

Country Link
CN (1) CN111683294B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541120A (zh) * 2020-12-21 2021-03-23 北京百度网讯科技有限公司 推荐评论生成方法、装置、设备、介质和计算机程序产品
CN112672202A (zh) * 2020-12-28 2021-04-16 广州博冠信息科技有限公司 弹幕处理方法、设备和存储介质
CN116189064A (zh) * 2023-04-26 2023-05-30 中国科学技术大学 一种基于联合模型的弹幕情感分析方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418375B1 (en) * 2015-09-30 2016-08-16 International Business Machines Corporation Product recommendation using sentiment and semantic analysis
CN105959816A (zh) * 2016-06-27 2016-09-21 乐视控股(北京)有限公司 弹幕显示方法及装置
CN107133209A (zh) * 2017-03-29 2017-09-05 北京百度网讯科技有限公司 基于人工智能的评论生成方法及装置、设备与可读介质
CN109344241A (zh) * 2018-09-25 2019-02-15 Oppo广东移动通信有限公司 信息的推荐方法、装置、终端及存储介质
WO2019072195A1 (en) * 2017-10-13 2019-04-18 Midea Group Co., Ltd. METHOD AND SYSTEM FOR PROVIDING AN EXCHANGE OF CUSTOMIZED INFORMATION ON THE LOCATION
CN110069778A (zh) * 2019-04-18 2019-07-30 东华大学 中文融入嵌入词位置感知的商品情感分析方法
CN110874439A (zh) * 2019-11-20 2020-03-10 电子科技大学 一种基于评论信息的推荐方法
CN111091000A (zh) * 2019-12-24 2020-05-01 深圳视界信息技术有限公司 一种抽取用户细粒度典型意见数据处理系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418375B1 (en) * 2015-09-30 2016-08-16 International Business Machines Corporation Product recommendation using sentiment and semantic analysis
CN105959816A (zh) * 2016-06-27 2016-09-21 乐视控股(北京)有限公司 弹幕显示方法及装置
CN107133209A (zh) * 2017-03-29 2017-09-05 北京百度网讯科技有限公司 基于人工智能的评论生成方法及装置、设备与可读介质
WO2019072195A1 (en) * 2017-10-13 2019-04-18 Midea Group Co., Ltd. METHOD AND SYSTEM FOR PROVIDING AN EXCHANGE OF CUSTOMIZED INFORMATION ON THE LOCATION
CN109344241A (zh) * 2018-09-25 2019-02-15 Oppo广东移动通信有限公司 信息的推荐方法、装置、终端及存储介质
CN110069778A (zh) * 2019-04-18 2019-07-30 东华大学 中文融入嵌入词位置感知的商品情感分析方法
CN110874439A (zh) * 2019-11-20 2020-03-10 电子科技大学 一种基于评论信息的推荐方法
CN111091000A (zh) * 2019-12-24 2020-05-01 深圳视界信息技术有限公司 一种抽取用户细粒度典型意见数据处理系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEI CUI: ""LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts"", 《RESEARCHGATE》 *
黄文明 等: ""基于注意力机制与评论文本深度模型的推荐方法"", 《计算机工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541120A (zh) * 2020-12-21 2021-03-23 北京百度网讯科技有限公司 推荐评论生成方法、装置、设备、介质和计算机程序产品
CN112541120B (zh) * 2020-12-21 2023-06-27 北京百度网讯科技有限公司 推荐评论生成方法、装置、设备和介质
CN112672202A (zh) * 2020-12-28 2021-04-16 广州博冠信息科技有限公司 弹幕处理方法、设备和存储介质
CN116189064A (zh) * 2023-04-26 2023-05-30 中国科学技术大学 一种基于联合模型的弹幕情感分析方法及系统
CN116189064B (zh) * 2023-04-26 2023-08-29 中国科学技术大学 一种基于联合模型的弹幕情感分析方法及系统

Also Published As

Publication number Publication date
CN111683294B (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
Li et al. Neural attentive session-based recommendation
Bao et al. PLATO: Pre-trained dialogue generation model with discrete latent variable
CN111683294B (zh) 一种信息抽取的弹幕评论推荐方法
CN112749608B (zh) 视频审核方法、装置、计算机设备和存储介质
Wang et al. Discovering attractive segments in the user-generated video streams
CN106062730A (zh) 用于主动构成内容以便在连续社交通信中使用的系统和方法
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN106355446B (zh) 一种网络和手机游戏的广告推荐系统
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
Ma et al. Describing images by feeding LSTM with structural words
CN115878841B (zh) 一种基于改进秃鹰搜索算法的短视频推荐方法及系统
CN114201516B (zh) 一种用户画像构建的方法、信息推荐的方法以及相关装置
Khurana et al. Video question-answering techniques, benchmark datasets and evaluation metrics leveraging video captioning: a comprehensive survey
CN111597446B (zh) 基于人工智能的内容推送方法、装置、服务器和存储介质
Liu et al. A multi-task dual attention deep recommendation model using ratings and review helpfulness
Perez-Martin et al. A comprehensive review of the video-to-text problem
Wu et al. Deeply exploit visual and language information for social media popularity prediction
Zhong A convolutional neural network based online teaching method using edge-cloud computing platform
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
Yu et al. TCR: Short Video Title Generation and Cover Selection with Attention Refinement
CN114595370A (zh) 模型训练、排序方法、装置、电子设备及存储介质
CN116955599A (zh) 一种类目确定的方法、相关装置、设备以及存储介质
CN115130453A (zh) 互动信息生成方法和装置
Wang et al. Video description with integrated visual and textual information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant