CN109308487A - 一种基于弹幕数据分析的广告投放机制 - Google Patents
一种基于弹幕数据分析的广告投放机制 Download PDFInfo
- Publication number
- CN109308487A CN109308487A CN201810882914.3A CN201810882914A CN109308487A CN 109308487 A CN109308487 A CN 109308487A CN 201810882914 A CN201810882914 A CN 201810882914A CN 109308487 A CN109308487 A CN 109308487A
- Authority
- CN
- China
- Prior art keywords
- value
- barrage
- user
- point
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明为一种基于弹幕数据分析的广告投放机制,涉及数据分析在广告投放中的应用。随着弹幕的日益流行,目前一些主流的弹幕视频网站上积累了大量的弹幕数据,热门视频的弹幕数量可以达到百万余条,海量的弹幕数据背后隐藏着很多有价值的信息。另一方面,随着视频网站的视频数量越来越多,传统的人工标注视频中广告投放时间的方式难以满足视频网站对于广告投放的需要。本发明以弹幕数据为基础,研究其在广告投放机制中的应用,主要解决在何时和向何人投放广告两个问题。
Description
技术领域
本发明涉及数据分析在广告投放中的应用。
背景技术
近年来,随着AcFun、bilibili等弹幕视频网站的日益流行,弹幕作为一种新兴的观影评论方式逐渐普及于观影人群,越来越多的人尤其是年轻人参与到弹幕评论活动中,同时一些综合类的中文视频平台如腾讯视频、优酷土豆等都先后支持了弹幕相关功能,庞大的观影群体在各个支持弹幕功能的视频网站上积累了大量的弹幕数据,热门视频的弹幕数据量可以达到百万余条,数量庞大的弹幕数据中隐藏着许多有价值的信息,例如弹幕内容的话题变化以及弹幕在时间轴上的情感趋势变化等。
弹幕与传统的观影评论相比其最大的不同之处在于弹幕具有与视频播放时间对应的时间特征,每一条弹幕都对应着影片播放的某一个时间位置,这一时间位置是弹幕发送者在发送这条弹幕时影片的播放的时间点,弹幕同样会在其他观影者观看这一视频时在相同的时间位置出现在视频窗口的特定位置,以子弹一样的方式渐渐飘过视频窗口,这也是弹幕名字的由来。
然而,与弹幕的流行以及弹幕积累的庞大数据量形成对比的是对于弹幕数据的分析与利用的相关研究与应用尚处于起步阶段。弹幕作为一种短文本数据与其他短文本数据如微博、搜索引擎搜索字段相比尚未有很多文本分析与挖掘方面的研究。Bin Wu[1]等人提出了以给视频中的片段打标签的应用为背景的弹幕文本研究,使用了LDA、TPTM等模型对某一视频片段内的弹幕进行关键词提取,提取出的关键词做为该视频片段的标签。YikunXian[2]等人使用了LDA模型根据弹幕的内容及密度提取视频中的精彩片段。郑飏飏[3]等人对情感分析方法在弹幕文本中的应用进行了整体上的分析,包括构建情感词典、抽取情感词以及对不同视频的情感分析比较等。邓扬[4]等人则提出了基于弹幕的视频片段情感相似度分析方法,并将其应用到了视频片段的推荐中。[5]中利用视频中弹幕的三大特征及用户在时间序列上的表现来自动提取视频的精彩镜头。各大提供弹幕功能的视频网站对于弹幕数据的利用也大多停留在收集、呈现阶段。
弹幕是一种创新形式,在传播上能引起话题性,自春晚弹幕广告发布以来,弹幕在业界的话题讨论一直保持着高热度。在促进销售、促使消费者产生购买行为方面,弹幕广告还处在探索阶段。目前,各大视频网站均有广告投放的需求,近年来广告的精准投放一直是一个热门的话题[6-11]。目前互联网广告系统中,精准投放主要有三种方式[12-16]:常见的定向型投放,主要是针对地理位置、投放时间段等单个属性或者组合属性进行投放;基于内容的投放方式,包括提取网页主题词、提取广告文本主题词,计算相关性,进行广告投放。基于用户行为特征的精准投放主要是在提取到用户的行为特征数据之后,深入挖掘用户的特征数据,采用分类算法对用户分类以此计算最佳待投放的广告。
针对视频播放过程中的广告来说,如何选取投放广告的时间点是其中一个重要的问题。在不恰当的时机投放广告会给用户带来严重的感知侵扰,降低用户体验,从而影响广告投放效果。目前,得到广泛应用的在线视频广告系统将广告投放时机固定在视频开始、暂停、结尾等固定时间点处。或者,一些视频网站会根据视频的情节转折、剧情高潮等信息人工标注适合投放广告的时间位置。然而随着视频网站上的视频数量日益增多,人工标注的方式将需要越来越多的工作量,因此如何通过视频的有效信息自动选取视频中合适的广告投放的时间位置变得越来越重要。网络视频的一个特点是具有大量用户,用户会提供大量的标注、评分或分享数据,随着弹幕的流行,弹幕数据也成为用户能提供的数据种类的一部分。在群体智慧的基础上,我们可以找出在该视频中用户对视频关注度变化最大的时间点,或者该视频中“事件”的发生时间。该检测的时间点可以作为广告投放时机的选择。合适的广告投放时机,可以保证广告展示次数,不容易引起用户反感,不会让用户养成随手关闭广告的习惯,确保广告投放效果。
参考文献:
[1]Wu B,Zhong E,Tan B,et al.Crowdsourced time-sync video taggingusing temporal and personalized topic modeling[C]//Proceedings of the 20thACM SIGKDD international conference on Knowledge discovery and datamining.ACM,2014:721-730.
[2]Xian Y,Li J,Zhang C,et al.Video Highlight Shot Extraction withTime-Sync Comment[C]// International Workshop on Hot Topics in Planet-ScaleMobile Computing and Online Social NETWORKING.ACM,2015:31-36.
[3]郑飏飏,徐健,肖卓.情感分析及可视化方法在网络视频弹幕数据分析中的应用[J].现代图书情报技术,2015,31(11):82-90.
[4]邓扬,张晨曦,李江峰.基于弹幕情感分析的视频片段推荐模型[J].计算机应用,2017, 37(4):1065-1070.
[5]Li J,Liao Z,Zhang C,et al.Event Detection on Online Videos UsingCrowdsourced Time-Sync Comment[C]//International Conference on CloudComputing and Big Data.IEEE,2017:52-57.
[6]李泉.基于文本相似度及用户浏览轨迹等特征的品牌广告精准投放拟合模型[M],北京大学,2009.
[7]陆枫,王子锐,廖小飞,等.基于细粒度标签的在线视频广告投放机制研究[J].计算机研究与发展, 2014,51(12):2733-2745.
[8]曹雄.面向视频内容的广告定向投放方法研究[D].哈尔滨工业大学,2014.
[9]刘赵杰.一种网络视频广告投放方法和系统:,CN 102685550A[P].2012.
[10]张云锋,张缓迅,刘燕,等.一种根据网络视频时长进行广告匹配投放的方法及装置:,CN 103327379 A[P].2013.
[11]卢述奇,姚键,尹玉宗,等.一种广告投放方法及系统:,CN 102779308A[P].2012.
[12]李志.互联网广告精准投放平台的研究[D].华中师范大学,2013.
[13]刘兴伟,田雪松,夏梅宸,等.一种基于协同过滤的移动互联网广告推荐方法:,CN106095841A[P]. 2016.
[14]张莹,赵雪,俞力,等.一种面向Twitter的社交广告可投放性分析方法:,CN104268130A[P].2015.
[15]叶江.基于用户标签的在线视频广告系统的研究[D].华中科技大学,2012.
[16]刘刚,刘万军,张伟.基于星形用户社区模型的Twitter广告投放[J].计算机应用与软件,2012, 29(4):44-48.
发明内容
发明目的
根据CNNIC(中国互联网信息中心)最新数据显示,截止2016年12月,我国网民规模超过7亿,互联网普及率达到53.2%,其中手机网民占比高达95.1%。网民向移动互联网的转移直接推动了碎片化与交互化的移动视频广告发展,这也促使了网络广告市场的高速发展。 2015年中国网络广告市场规模达到2902.7亿元,增速32.9%。针对网络视频广告的投放方法,需要保证广告的投放尽可能小地影响用户观看体验的同时,广告展示次数越多越好。因此,用户是广告投放系统的主体,利用用户的信息进行广告投放是最为科学的。由于弹幕数据反映了用户的心理,利用弹幕数据可以深入挖掘用户信息,作为一种新型的数据类型,基于弹幕数据分析的广告投放时机的选择方法具有新颖性,必然是将来广告系统的一个方向。
技术方案
思想方法:本方法主要利用用户发表的弹幕数据来分析视频内容中的突变点。这些突变点往往代表博得大部分用户关注的时刻,这种关注点往往暗示某个容易引起共鸣的镜头,或者剧情的高潮或者低谷。这些突变点往往是观众用户对视频的关注度上升或下降的时间点,因此,这样的时间点适合作为广告投放的时机点。
进一步的,给出的实现方案:
步骤1、弹幕数据预处理
弹幕数据预处理过程包括分词、过滤词性以及过滤停用词等。皆为常规技术。
步骤2、特征值提取
步骤2.1、主题提取
步骤2.1.1、经过步骤1的预处理后的弹幕数据首先构造弹幕词典,在词典的基础上构建语料库。
步骤2.1.2、计算tf-idf(词频-逆向文件频率(term frequency–inversedocument frequency)) 来训练LDA(Latent Dirichlet allocation)模型,以此获得主题类别。
步骤2.2、情感分析
采用了常见的情感词典库和网络弹幕用词词典库结合的方式,通过将含有情感倾向的词汇本身、词汇情感倾向、词性种类、情感强度等进行计算和统计,进而得到每个弹幕句子的情感状况。本发明主要考虑七大类情感,分别是乐、好、怒、哀、惧、恶、惊。其中,前两个情感(乐、好)属于正向情感,后面五个情感属于负向情感(怒、哀、惧、恶、惊)。所述计算和统计,具体做法:将每条弹幕评论数据分词后的词汇与情感词典进行匹配,识别情感词,情感词典中每个情感词对应相应情绪的情感值,实际操作中需要结合情感词和程度副词 (表示情感强度)来计算相应情感的情感值,再按照不同情感类别进行统计求和,计算出单条弹幕中每种情感的情感值之和,即得到此弹幕的七种情感值,用这七种情感值组成一个七维的向量,称之为情感向量。
每个用户发表的弹幕所计算出来的主题类别及情感向量即为特征值。
步骤3、突变点分析
步骤3.1、第一个过程中主要根据个体在时间轴的分布得到的个体-时间矩阵寻找到时间轴上的突变点。
首先输入包括一个视频的弹幕数据特征矩阵D(N,T)以及一个大小w的窗口。以窗口大小w在时间轴上从最初时间点滑动,假设时间轴上共有T个时间点,则滑动的次数为T-w+1 次。每次滑动窗口会得到一个w*N的矩阵,对这个矩阵中的每一对用户,计算皮尔森相关系数:
其中,x,y分别代表两个用户对应的向量,cov(x,y)为协方差,σ为方差,μx
和μy分别代表x和y的期望值,E[]代表对括号内的内容求期望值。
通过计算两两个体之间皮尔森相关系数ρx,y,可以构建出一个如图4的对称矩阵C,矩阵C中的每一个元素为:
Cx,y=px,y (2)
得到C矩阵后需要计算出该矩阵的主特征向量(Principal Eigenvector),主特征向量中的每一个元素的值可以反映该用户的“活跃”度,即如果这个用户与大多数其它用户的相关性越好则这个用户越“活跃”,对应的元素的值也就越大。对于每一个C矩阵,都会得到一个主特征向量,在窗口滑动完毕之后,可以得到全部的C矩阵与对应的主特征向量。对于t时间点对应的窗口,有一个C矩阵与主特征向量与之对应,该主特征向量记为u(t),计算其t 时间点前w’时间段内的主特征向量的平均值,记为r(t-1),即:
得到了u(t)与r(t-1)之后,可以以Z值衡量t时刻的变化,如图4最后步骤所示,Z值的计算方式如下:
Z=1-uTr (4)
r是r(t-1),u则是u(t);
如果u(t)与r(t-1)完全相同,则Z值为0,如果u(t)与r(t-1)完全成直角,即完全不同,则 Z值为1,Z值的取值范围介于0和1之间,Z值越大表示在对应的t时间点的变化越明显,反之,Z值越小说明对应的t时间点的变化越不明显。
得到了每个时间点的Z值之后,可以找出时间轴上Z值最大的几个点,这些点代表着时间轴上在这些时间点处的变化最为明显,在实际应用领域中可能代表着异常点等值得关注的变化时间点。
步骤3.2、第二个过程是根据步骤3.1中找到的突变点分析是哪些弹幕个体的变化最大程度地造成了突变时间点的变化。
进一步的,所述步骤3.2,具体的方法为在某一变化时间点t,由步骤3.1可以获得该时间的u(t)向量和r(t-1)向量,根据u(t)和r(t-1)的定义可知在变化较小的时间点u(t)与r(t-1)大致相同,则在这种情况下对于向量中的每一对对应的元素u(t)与r(t-1)其值也十分近似,对于时间轴上的突变时间点,计算每个用户的对于整体变化的贡献Con(i)的计算方式如下:
由上述分析可以得知,对于整体变化贡献较小的用户,其ui(t)和ri(t-1)的值较为接近,反之则差异较大。针对每个时间轴上的突变时间点,在得到了所有用户的Con(i)值之后,选取Con(i)值最大的几个点,其对应的用户即为该时间点变化贡献较大的用户。
进一步的,本发明寻找贡献最大的用户需要根据最大Z值的时间点t对应的ui(t)和ri(t-1),贡献小的用户的ui(t)和ri(t-1)相差较小,而贡献较大的点ui(t)和ri(t-1)相差较大。所述选取Con(i)值最大的几个点,反应了贡献最大的几个用户。可以用于回答“向谁”投放广告这个问题。
Z值代表的是时间点。Con(i)代表的是用户,最大的几个点代表的是某个突变点时间t的时候,对这个突变时间点贡献最大的几个用户。
附图说明
图1网络视频中的弹幕数据
图2网络视频中弹幕数据的描述
图3弹幕数据预处理及特征提取的流程图(步骤1预处理、步骤2特征提取)
图4弹幕数据分析方法:获取突变点时间
图5-1获取突变点流程图
图5-2取突变点算法的伪代码
图6 w=10时间序列分析Z值Top5图
图7 Z值最高处ui(t)和ri(t-1)关系图
具体实施方式
以下结合附图和实施例对本发明技术方案做进一步介绍。
弹幕具有时间相关特性,即观影者发布的每一条弹幕都具有一个特定的时间点,该时间点为观影者发布弹幕时影片播放位置距离影片开始的时间,其他观影者在观看影片的同时也可以看到在影片目前的播放位置其他的观影者发布的弹幕。弹幕通常悬浮于影片窗口之上,因此观影者可以随着影片的播放而看到不同时刻其他观影者发布的弹幕,如图1所示,图中截取了某一个视频中三个时间点的画面,图中红色箭头所指的文字即为观影者可以看到的对应时间点附近观影人群发送的弹幕。在一个弹幕数据中,包含了时间维度和用户维度。我们可以将一个弹幕数据描述成如图2(a)所示,在各个时间点t上,分布了不同用户发表的弹幕文本。由于在有些时间点t上是没有弹幕数据的,为了降低数据稀疏性,我们可以对原数据以Δt进行重采样。重采样的作用使得在单位时间内发表弹幕的用户数量增多,以此减少数据中出现发表弹幕为空的情况(图2(b))。
将视频中的弹幕数据看作D(u,t),代表在时间t时,用户u发表的弹幕数据的特征值,T 是采样后的时间点数,N是用户个数。面对原始的弹幕数据,需要计算其特征值。本发明利用弹幕数据的两种特征:主题和情感值。我们假设两种特征是独立的,因此,本发明介绍的方法可以对特征分别进行突变点的计算,并线性地叠加计算结果。
步骤1、弹幕数据预处理
在提取特征之前,弹幕数据需要进行预处理。弹幕数据预处理过程包括分词、过滤词性以及过滤停用词等。本发明使用结巴分词的精确模式(该模式方法本身为已有技术)进行弹幕文本分词,并使用结巴分词工具提供的词性标注功能进行词性的过滤。
步骤2、特征值提取
步骤2.1、主题提取
步骤2.1.1、经过步骤1的预处理后的弹幕数据首先构造弹幕词典,在词典的基础上构建语料库。
步骤2.1.2、计算tf-idf(词频-逆向文件频率(term frequency–inversedocument frequency)) 来训练LDA(Latent Dirichlet allocation)模型,以此获得主题类别。
步骤2.2、情感分析
采用了常见的情感词典库和网络弹幕用词词典库结合的方式,通过将含有情感倾向的词汇本身、词汇情感倾向、词性种类、情感强度等进行计算和统计,进而得到每个弹幕句子的情感状况。本发明主要考虑七大类情感,分别是乐、好、怒、哀、惧、恶、惊。其中,前两个情感(乐、好)属于正向情感,后面五个情感属于负向情感(怒、哀、惧、恶、惊)。所述计算和统计,具体做法:将每条弹幕评论数据分词后的词汇与情感词典进行匹配,识别情感词,情感词典中每个情感词对应相应情绪的情感值,实际操作中需要结合情感词和程度副词 (表示情感强度)来计算相应情感的情感值,再按照不同情感类别进行统计求和,计算出单条弹幕中每种情感的情感值之和,即得到此弹幕的七种情感值,用这七种情感值组成一个七维的向量,本发明称之为情感向量。
所述情感向量中每个元素代表一个维度的情感值,按照乐、好、怒、哀、惧、恶、惊的顺序。例如向量(2,1,0,0,0,0,0),第一个元素2表示该句弹幕中“乐”的情感值为 2;第二个元素1表示该句弹幕中“好”的情感值为1。后面的几个0依此类推,表示在这条弹幕中,其他五个维度的情感值均为0。
完成整个步骤2,每个用户发表的弹幕所计算出来的主题类别及情感向量即为特征值。
以上,预处理和特征值提取的具体流程可参见图3。(步骤1、步骤2)
步骤3、突变点分析
这个步骤是建立在步骤2计算得到特征值之后,分为两个过程。
步骤3.1、第一个过程中主要根据个体在时间轴的分布得到的个体-时间矩阵寻找到时间轴上的突变点。该过程一详细步骤如下,具体过程见图4:
首先输入包括一个视频的弹幕数据特征矩阵D(N,T)以及一个大小w的窗口。以窗口大小w在时间轴上从最初时间点滑动,假设时间轴上共有T个时间点,则滑动的次数为T-w+1 次。每次滑动窗口会得到一个w*N的矩阵,对这个矩阵中的每一对用户,计算皮尔森相关系数:
其中,x,y分别代表两个用户对应的向量,cov(x,y)为协方差,σ为方差,μx
和μy分别代表x和y的期望值,E[]代表对括号内的内容求期望值。
通过计算两两个体之间皮尔森相关系数ρx,y,可以构建出一个如图4的对称矩阵C,矩阵C中的每一个元素为:
Cx,y=ρx,y (2)
得到C矩阵后需要计算出该矩阵的主特征向量(Principal Eigenvector),主特征向量中的每一个元素的值可以反映该用户的“活跃”度,即如果这个用户与大多数其它用户的相关性越好则这个用户越“活跃”,对应的元素的值也就越大。对于每一个C矩阵,都会得到一个主特征向量,在窗口滑动完毕之后,可以得到全部的C矩阵与对应的主特征向量。对于t时间点对应的窗口,有一个C矩阵与主特征向量与之对应,该主特征向量记为u(t),计算其t 时间点前w’时间段内的主特征向量的平均值,记为r(t-1),即:
得到了u(t)与r(t-1)之后,可以以Z值衡量t时刻的变化,如图4最后步骤所示,Z值的计算方式如下:
Z=1-uTr (4)
r是r(t-1),u则是u(t);
如果u(t)与r(t-1)完全相同,则Z值为0,如果u(t)与r(t-1)完全成直角,即完全不同,则 Z值为1,Z值的取值范围介于0和1之间,Z值越大表示在对应的t时间点的变化越明显,反之,Z值越小说明对应的t时间点的变化越不明显。
得到了每个时间点的Z值之后,可以找出时间轴上Z值最大的几个点,这些点代表着时间轴上在这些时间点处的变化最为明显,在实际应用领域中可能代表着异常点等值得关注的变化时间点。以上具体的算法过程及算法伪代码见图5-1、图5-2.
步骤3.2、第二个过程是根据步骤3.1中找到的突变点分析是哪些弹幕个体的变化最大程度地造成了突变时间点的变化。寻找这样的用户不仅可以获得除时间点外更多的信息,还可以用来评测时间点选取的实际意义以及其合理性。
具体的方法为在某一变化时间点t,由步骤3.1可以获得该时间的u(t)向量和r(t-1)向量,根据u(t)和r(t-1)的定义可知在变化较小的时间点u(t)与r(t-1)大致相同,则在这种情况下对于向量中的每一对对应的元素u(t)与r(t-1)其值也十分近似,对于时间轴上的突变时间点,计算每个用户的对于整体变化的贡献Con(i)的计算方式如下:
由上述分析可以得知,对于整体变化贡献较小的用户,其ui(t)和ri(t-1)的值较为接近,反之则差异较大。针对每个时间轴上的突变时间点,在得到了所有用户的Con(i)值之后,选取Con(i)值最大的几个点,其对应的用户即为该时间点变化贡献较大的用户。
选取窗口参数w为10时Z值中最大的5个时间点,如图6所示,深色条形图即为所选取的最大的5个时间点。
图6中前5个Z值最大的时间点对应的时间大致位于1230s(20:30)、2145s(35:45)、1095s(18:15)、1005s(16:45)和245s(20:45)。这些点作为变化最大的时间点往往是视频中剧情发生重大变化的时间点,本着广告插入的时间选取原则上不让用户引起反感的原则,本发明提出将这些突变时间点的前后时间做为广告插入时间。
针对Z值最高的两个时间点,即1230s(20:30)和2145s(35:45),通过前文介绍的方法获得对这两个变化点的变化贡献最大的用户,即哪些用户对时间上的突变点贡献多。由前文可以知道寻找贡献最大的用户需要根据最大Z值的时间点i对应的ui(t)和ri(t-1),贡献小的用户的ui(t)和ri(t-1)相差较小,而贡献较大的点ui(t)和ri(t-1)相差较大,由此我们可以以 ui(t)和ri(t-1)为坐标轴画出该时刻t所有用户的散点图,散点图中偏离y=x直线最远的点代表的用户即为对该时间点的变化贡献最大的用户。
上文中Z值最大的两个点对应的ui(t)和ri(t-1)的散点图如图7所示:
图7中三个圆点(着重放大)代表对该时间点即Z值最大的时间点变化贡献最大的前三个用户。根据散点图分析得到的用户排名,可以做为定向广告投放中投放人选的选择标准。
Claims (3)
1.一种基于弹幕数据分析的广告投放机制,其特征在于,
步骤1、弹幕数据预处理
弹幕数据预处理过程包括分词、过滤词性以及过滤停用词;
步骤2、特征值提取
步骤2.1、主题提取
步骤2.1.1、经过步骤1的预处理后的弹幕数据首先构造弹幕词典,在词典的基础上构建语料库;
步骤2.1.2、计算tf-idf(词频-逆向文件频率(term frequency–inverse documentfrequency))来训练LDA(Latent Dirichlet allocation)模型,以此获得主题类别;
步骤2.2、情感分析
采用了常见的情感词典库和网络弹幕用词词典库结合的方式,通过将含有情感倾向的词汇本身、词汇情感倾向、词性种类、情感强度等进行计算和统计,进而得到每个弹幕句子的情感状况;主要考虑七大类情感,分别是乐、好、怒、哀、惧、恶、惊;其中,乐、好两个情感属于正向情感,怒、哀、惧、恶、惊五个情感属于负向情感;
所述计算和统计,具体做法:将每条弹幕评论数据分词后的词汇与情感词典进行匹配,识别情感词,情感词典中每个情感词对应相应情绪的情感值,实际操作中需要结合情感词和程度副词(表示情感强度)来计算相应情感的情感值,再按照不同情感类别进行统计求和,计算出单条弹幕中每种情感的情感值之和,即得到此弹幕的七种情感值,用这七种情感值组成一个七维的向量,称之为情感向量;
每个用户发表的弹幕所计算出来的主题类别及情感向量即为特征值;
步骤3、突变点分析
步骤3.1、第一个过程中主要根据个体在时间轴的分布得到的个体-时间矩阵寻找到时间轴上的突变点;
首先输入包括一个视频的弹幕数据特征矩阵D(N,T)以及一个大小w的窗口;以窗口大小w在时间轴上从最初时间点滑动,假设时间轴上共有T个时间点,则滑动的次数为T-w+1次;每次滑动窗口会得到一个w*N的矩阵,对这个矩阵中的每一对用户,计算皮尔森相关系数:
其中,x,y分别代表两个用户对应的向量,cov(x,y)为协方差,σ为方差,μx和μy分别代表x和y的期望值,E[]代表对括号内的内容求期望值;
通过计算两两个体之间皮尔森相关系数ρx,y,可以构建出一个对称矩阵C,矩阵C中的每一个元素为:
Cx,y=ρx,y (2)
得到C矩阵后需要计算出该矩阵的主特征向量(Principal Eigenvector),主特征向量中的每一个元素的值可以反映该用户的“活跃”度,即如果这个用户与大多数其它用户的相关性越好则这个用户越“活跃”,对应的元素的值也就越大;对于每一个C矩阵,都会得到一个主特征向量,在窗口滑动完毕之后,可以得到全部的C矩阵与对应的主特征向量;对于t时间点对应的窗口,有一个C矩阵与主特征向量与之对应,该主特征向量记为u(t),计算其t时间点前w’时间段内的主特征向量的平均值,记为r(t-1),即:
得到了u(t)与r(t-1)之后,可以以Z值衡量t时刻的变化,如图4最后步骤所示,Z值的计算方式如下:
Z=1-uTr (4)
r是r(t-1),u则是u(t);
如果u(t)与r(t-1)完全相同,则Z值为0,如果u(t)与r(t-1)完全成直角,即完全不同,则Z值为1,Z值的取值范围介于0和1之间,Z值越大表示在对应的t时间点的变化越明显,反之,Z值越小说明对应的t时间点的变化越不明显;
得到了每个时间点的Z值之后,可以找出时间轴上Z值最大的几个点,这些点代表着时间轴上在这些时间点处的变化最为明显,在实际应用领域中可能代表着异常点等值得关注的变化时间点;
步骤3.2、第二个过程是根据步骤3.1中找到的突变点分析是哪些弹幕个体的变化最大程度地造成了突变时间点的变化。
2.根据权利要求1所述基于弹幕数据分析的广告投放机制,其特征在于,所述步骤3.2,具体的方法为在某一变化时间点t,由步骤3.1获得该时间的u(t)向量和r(t-1)向量,根据u(t)和r(t-1)的定义可知在变化较小的时间点u(t)与r(t-1)大致相同,则在这种情况下对于向量中的每一对对应的元素u(t)与r(t-1)其值也十分近似,对于时间轴上的突变时间点,计算每个用户的对于整体变化的贡献Con(i)的计算方式如下:
由上述分析可以得知,对于整体变化贡献较小的用户,其ui(t)和ri(t-1)的值较为接近,反之则差异较大;针对每个时间轴上的突变时间点,在得到了所有用户的Con(i)值之后,选取Con(i)值最大的几个点,其对应的用户即为该时间点变化贡献较大的用户。
3.根据权利要求1所述基于弹幕数据分析的广告投放机制,其特征在于,寻找贡献最大的用户需要根据最大Z值的时间点t对应的ui(t)和ri(t-1),贡献小的用户的ui(t)和ri(t-1)相差较小,而贡献较大的点ui(t)和ri(t-1)相差较大;所述选取Con(i)值最大的几个点,反应了贡献最大的几个用户,用于回答“向谁”投放广告这个问题;
Z值代表的是时间点,Con(i)代表的是用户,最大的几个点代表的是某个突变点时间t的时候,对这个突变时间点贡献最大的几个用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810882914.3A CN109308487B (zh) | 2018-08-06 | 2018-08-06 | 一种基于弹幕数据分析的广告投放方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810882914.3A CN109308487B (zh) | 2018-08-06 | 2018-08-06 | 一种基于弹幕数据分析的广告投放方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109308487A true CN109308487A (zh) | 2019-02-05 |
CN109308487B CN109308487B (zh) | 2021-03-30 |
Family
ID=65225987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810882914.3A Active CN109308487B (zh) | 2018-08-06 | 2018-08-06 | 一种基于弹幕数据分析的广告投放方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109308487B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111447470A (zh) * | 2019-10-22 | 2020-07-24 | 奥菲(泰州)光电传感技术有限公司 | 视频应用程序参数设定平台 |
CN111683274A (zh) * | 2020-06-23 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 弹幕广告展示方法、装置、设备及计算机可读存储介质 |
CN113158065A (zh) * | 2021-05-11 | 2021-07-23 | 两比特(北京)科技有限公司 | 一种云合数据的弹幕抓取和分析系统 |
CN113365138A (zh) * | 2021-06-28 | 2021-09-07 | 北京百度网讯科技有限公司 | 内容展示方法、装置、电子设备、存储介质以及程序产品 |
CN113747250A (zh) * | 2021-08-18 | 2021-12-03 | 咪咕数字传媒有限公司 | 新形态留言的实现方法、装置及计算设备 |
DE202022102520U1 (de) | 2022-05-09 | 2022-05-23 | Yashwant Singh Chouhan | System zur Analyse von Werbung auf Online-Videoplattformen für digitales Marketing durch maschinelles Lernen, um ein breites Publikum zu erreichen |
CN114827685A (zh) * | 2022-04-15 | 2022-07-29 | 深圳市东信时代信息技术有限公司 | 视频中的广告插播方法、计算机设备及存储介质 |
CN115412767A (zh) * | 2022-05-16 | 2022-11-29 | 北京大学 | 基于视频弹幕提取用户观看行为并可视化的方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106960042A (zh) * | 2017-03-29 | 2017-07-18 | 中国科学技术大学苏州研究院 | 基于弹幕语义分析的网络直播监督方法 |
CN107197368A (zh) * | 2017-05-05 | 2017-09-22 | 中广热点云科技有限公司 | 确定用户对多媒体播放内容关注程度的方法和系统 |
CN107301200A (zh) * | 2017-05-23 | 2017-10-27 | 合肥智权信息科技有限公司 | 一种基于情感倾向分析的文章评估方法和系统 |
US20180082125A1 (en) * | 2016-09-21 | 2018-03-22 | GumGum, Inc. | Identifying visual objects depicted in video data using video fingerprinting |
CN108109019A (zh) * | 2018-01-16 | 2018-06-01 | 深圳市瑞致达科技有限公司 | 弹幕广告投放方法、装置、系统及可读存储介质 |
CN108108433A (zh) * | 2017-12-19 | 2018-06-01 | 杭州电子科技大学 | 一种基于规则和数据网络融合的情感分析方法 |
-
2018
- 2018-08-06 CN CN201810882914.3A patent/CN109308487B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082125A1 (en) * | 2016-09-21 | 2018-03-22 | GumGum, Inc. | Identifying visual objects depicted in video data using video fingerprinting |
CN106960042A (zh) * | 2017-03-29 | 2017-07-18 | 中国科学技术大学苏州研究院 | 基于弹幕语义分析的网络直播监督方法 |
CN107197368A (zh) * | 2017-05-05 | 2017-09-22 | 中广热点云科技有限公司 | 确定用户对多媒体播放内容关注程度的方法和系统 |
CN107301200A (zh) * | 2017-05-23 | 2017-10-27 | 合肥智权信息科技有限公司 | 一种基于情感倾向分析的文章评估方法和系统 |
CN108108433A (zh) * | 2017-12-19 | 2018-06-01 | 杭州电子科技大学 | 一种基于规则和数据网络融合的情感分析方法 |
CN108109019A (zh) * | 2018-01-16 | 2018-06-01 | 深圳市瑞致达科技有限公司 | 弹幕广告投放方法、装置、系统及可读存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111447470A (zh) * | 2019-10-22 | 2020-07-24 | 奥菲(泰州)光电传感技术有限公司 | 视频应用程序参数设定平台 |
CN111447470B (zh) * | 2019-10-22 | 2021-04-20 | 深圳市野生动物园有限公司 | 视频应用程序参数设定平台 |
CN111683274A (zh) * | 2020-06-23 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 弹幕广告展示方法、装置、设备及计算机可读存储介质 |
CN111683274B (zh) * | 2020-06-23 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 弹幕广告展示方法、装置、设备及计算机可读存储介质 |
CN113158065A (zh) * | 2021-05-11 | 2021-07-23 | 两比特(北京)科技有限公司 | 一种云合数据的弹幕抓取和分析系统 |
CN113365138A (zh) * | 2021-06-28 | 2021-09-07 | 北京百度网讯科技有限公司 | 内容展示方法、装置、电子设备、存储介质以及程序产品 |
CN113365138B (zh) * | 2021-06-28 | 2023-02-07 | 北京百度网讯科技有限公司 | 内容展示方法、装置、电子设备、存储介质 |
CN113747250A (zh) * | 2021-08-18 | 2021-12-03 | 咪咕数字传媒有限公司 | 新形态留言的实现方法、装置及计算设备 |
CN114827685A (zh) * | 2022-04-15 | 2022-07-29 | 深圳市东信时代信息技术有限公司 | 视频中的广告插播方法、计算机设备及存储介质 |
DE202022102520U1 (de) | 2022-05-09 | 2022-05-23 | Yashwant Singh Chouhan | System zur Analyse von Werbung auf Online-Videoplattformen für digitales Marketing durch maschinelles Lernen, um ein breites Publikum zu erreichen |
CN115412767A (zh) * | 2022-05-16 | 2022-11-29 | 北京大学 | 基于视频弹幕提取用户观看行为并可视化的方法及系统 |
CN115412767B (zh) * | 2022-05-16 | 2023-10-27 | 北京大学 | 基于视频弹幕提取用户观看行为并可视化的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109308487B (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308487A (zh) | 一种基于弹幕数据分析的广告投放机制 | |
US11580993B2 (en) | Keyword determinations from conversational data | |
Hussain et al. | Automatic understanding of image and video advertisements | |
US10810499B2 (en) | Method and apparatus for recommending social media information | |
CN109690529B (zh) | 按事件将文档编译到时间线中 | |
Wu et al. | Incremental probabilistic latent semantic analysis for automatic question recommendation | |
Oh et al. | Personalized news recommendation using classified keywords to capture user preference | |
CN111507097B (zh) | 一种标题文本处理方法、装置、电子设备及存储介质 | |
US20130097176A1 (en) | Method and system for data mining of social media to determine an emotional impact value to media content | |
KR20160055930A (ko) | 연속적인 소셜 커뮤니케이션에 사용되는 콘텐츠를 능동적으로 구성하기 위한 시스템 및 방법 | |
CN110427897A (zh) | 视频精彩度的分析方法、装置和服务器 | |
US20190303413A1 (en) | Embedding media content items in text of electronic documents | |
Jeon et al. | Hashtag recommendation based on user tweet and hashtag classification on twitter | |
US11640420B2 (en) | System and method for automatic summarization of content with event based analysis | |
Murakami et al. | Emotional video ranking based on user comments | |
Ziser et al. | Humor detection in product question answering systems | |
CN111931073A (zh) | 内容推送方法、装置、电子设备及计算机可读介质 | |
Brodesco | POV to the people: online discourses about gonzo pornography | |
WO2016125166A1 (en) | Systems and methods for analyzing video and making recommendations | |
WO2016103519A1 (ja) | データ分析システム、データ分析方法、およびデータ分析プログラム | |
KR101486924B1 (ko) | 소셜 네트워크 서비스를 이용한 미디어 콘텐츠 추천 방법 | |
CN116610858A (zh) | 一种信息分发方法、装置、电子设备以及存储介质 | |
Schinas et al. | Eventsense: Capturing the pulse of large-scale events by mining social media streams | |
Verberne et al. | Automatic summarization of domain-specific forum threads: collecting reference data | |
US20200050668A1 (en) | Extracting unconscious meaning from media corpora |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |