CN114550157A - 弹幕聚集识别方法以及装置 - Google Patents

弹幕聚集识别方法以及装置 Download PDF

Info

Publication number
CN114550157A
CN114550157A CN202210159035.4A CN202210159035A CN114550157A CN 114550157 A CN114550157 A CN 114550157A CN 202210159035 A CN202210159035 A CN 202210159035A CN 114550157 A CN114550157 A CN 114550157A
Authority
CN
China
Prior art keywords
bullet screen
target
information
video
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210159035.4A
Other languages
English (en)
Inventor
于子洵
周依奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202210159035.4A priority Critical patent/CN114550157A/zh
Publication of CN114550157A publication Critical patent/CN114550157A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供弹幕聚集识别方法以及装置,其中所述弹幕聚集识别方法包括:获取指定关键词,确定弹幕库中与指定关键词匹配的目标弹幕,根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,根据统计的复现指标,确定目标弹幕的弹幕聚集信息。通过上述方法,根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,进而可以确定出目标的弹幕的弹幕聚集信息。根据弹幕聚集信息,可以准确地识别出目标弹幕在视频平台中各视频的弹幕聚集情况,从而准确掌握弹幕发生聚集时,用户对视频内容的情感态度,用户可以查看目标弹幕在各视频中的聚集情况,进而在准确对目标弹幕的弹幕聚集信息进行识别的同时提升了用户体验。

Description

弹幕聚集识别方法以及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种弹幕聚集识别方法。本申请同时涉及一种弹幕聚集识别装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网的发展,在线视频网站不断推出各种各样的功能,视频弹幕也因此应运而生。视频弹幕是观看在线视频的用户发送的,直接显现在在线视频上的简短评论。
在播放视频的过程中,用户会针对视频的内容发送弹幕来表达自己的情感观点,弹幕内容的变化往往也表征着用户对视频内容情感态度的变化。当各用户对视频某时刻内容的情感态度一致时,常常会发送相同的弹幕,因此在视频中会产生弹幕聚集的现象。所以,为了了解用户对视频内容的情感态度,掌握视频中相同弹幕的弹幕聚集信息显得尤为重要。
发明内容
有鉴于此,本申请实施例提供了一种弹幕聚集识别方法。本申请同时涉及一种弹幕聚集识别装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种弹幕聚集识别方法,包括:
获取指定关键词,确定弹幕库中与所述指定关键词匹配的目标弹幕,其中,所述弹幕库记录有视频平台中各视频的弹幕;
根据所述目标弹幕的属性信息,对所述目标弹幕的复现指标进行统计,其中,所述复现指标是指弹幕重复出现的指标数据;
根据所述复现指标,确定所述目标弹幕的弹幕聚集信息。
根据本申请实施例的第二方面,提供了一种弹幕聚集识别装置,包括:
获取模块,被配置为获取指定关键词,确定弹幕库中与所述指定关键词匹配的目标弹幕,其中,所述弹幕库记录有视频平台中各视频的弹幕;
统计模块,被配置为根据所述目标弹幕的属性信息,对所述目标弹幕的复现指标进行统计,其中,所述复现指标是指弹幕重复出现的指标数据;
确定模块,被配置为根据所述复现指标,确定所述目标弹幕的弹幕聚集信息。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理执行时实现任意所述弹幕聚集识别方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现任意所述弹幕聚集识别方法的步骤。
本申请提供的弹幕聚集识别方法,通过获取指定关键词,确定弹幕库中与指定关键词匹配的目标弹幕,根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,根据统计的复现指标,确定目标弹幕的弹幕聚集信息。通过上述方法,根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,进而可以确定出目标弹幕的弹幕聚集信息。根据弹幕聚集信息,可以准确地识别出目标弹幕在视频平台中各视频的弹幕聚集情况,从而准确掌握弹幕发生聚集时,用户对视频内容的情感态度,用户可以查看目标弹幕在各视频中的聚集情况,进而在准确对目标弹幕的弹幕聚集信息进行识别的同时提升了用户体验。
附图说明
图1示出了根据本申请一实施例提供的一种弹幕聚集识别方法的流程图;
图2示出了根据本申请一实施例提供的另一种弹幕聚集识别方法的流程图;
图3示出了根据本申请一实施例提供的一种弹幕聚集识别方法中历史复现指标计算方法的流程图;
图4示出了根据本申请一实施例提供的一种弹幕聚集识别方法中实时复现指标计算方法的流程图;
图5示出了根据本申请一实施例提供的一种弹幕聚集识别方法中对目标弹幕的弹幕聚集信息进行更新方法的流程图;
图6示出了本申请一实施例提供的一种弹幕聚集识别装置的结构示意图;
图7示出了根据本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
弹幕复现指标:是指是指弹幕重复出现的指标数据,一般弹幕复现指标中包括有预设时段内指定弹幕的弹幕数量、指定弹幕的弹幕数量在预设时段内总弹幕数量中的占比等等。
随着互联网的发展,在线视频网站不断推出各种各样的功能,视频弹幕也因此应运而生。视频弹幕是观看在线视频的用户发送的,直接显现在在线视频上的简短评论。
在播放在线视频的过程中,用户会针对在线视频的内容发送弹幕来表达自己的情感观点,弹幕内容的变化往往也表征着用户对视频内容情感态度的变化。当各用户对视频某时刻内容的情感态度一致时,常常会发送相同的弹幕,因此在视频中会产生弹幕聚集的现象。所以,为了了解用户对视频内容的情感态度,掌握视频中相同弹幕的弹幕聚集信息显得尤为重要。
基于上述需要解决的技术问题,在本申请中,提供了一种弹幕聚集识别方法,本申请同时涉及一种弹幕聚集识别装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种弹幕聚集识别方法的流程图,具体包括以下步骤:
S102、获取指定关键词,确定弹幕库中与指定关键词匹配的目标弹幕,其中,弹幕库记录有视频平台中各视频的弹幕。
本申请的执行主体可以是具有弹幕聚集识别功能的任何电子设备,例如可以为智能手机、智能手表、台式电脑、手提电脑等任何一种。
在本说明书提供的弹幕聚集识别方法中,首先需要获取指定关键词,其中,指定关键词是目标弹幕的弹幕聚集信息所对应的关键词,在获取到指定关键词之后,相应地,便能确定出与指定关键词相匹配的目标弹幕的弹幕聚集信息。
具体地,获取指定关键词的方法有多种,例如,各在线视频平台可以在播放视频的界面添加一个弹幕聚集信息查询窗口,在该窗口用户可以输入任一关键词,该关键词可以是汉字、英文、数字、特殊符号等等(例如用户向该窗口输入“哈哈、good、666、???、@*&”等),当然,该指定关键词也可以是一个句子,例如“我爱XX”;
也可以是各在线视频平台主动收集用户在预设时段内观看视频时所发送的弹幕历史内容,然后将用户发送次数达到预设阈值的弹幕内容所对应的关键词作为指定关键词,并存储于预设的指定关键词列表中,当用户想要查询指定关键词列表中指定关键词所对应的弹幕聚集信息时,直接点击指定关键词列表中的指定关键词即可,例如,各在线视频平台主动收集用户在一周之内观看视频A时所发送的弹幕历史内容,根据弹幕历史内容,将发送次数达到10 次以上的弹幕内容所对应的关键词作为指定关键词(例如用户发送“哈哈”15次、“666” 11次、“???”5次,则将“哈哈”、“666”作为指定关键词并存储于预设的指定关键词列表中),用户可以直接点击预设的指定关键词列表中的“哈哈”或“666”进行弹幕聚集信息查询。本说明书对获取指定关键词的方法不做限定。
当获取到指定关键词之后,便利用指定关键词确定弹幕库中与指定关键词匹配的目标弹幕,其中,弹幕库是各视频平台用于存储用户发送的视频弹幕的数据库,弹幕库中记录有视频平台中各视频的弹幕。
在本说明书实施例的一种可能的实现方式中,确定弹幕库中与指定关键词匹配的目标弹幕,具体可以通过以下方式实现:
针对弹幕库中任一弹幕,对该弹幕进行分词处理,将指定关键词与分词处理后的各词语进行对比。
确定包含指定关键词的弹幕作为目标弹幕。
在本实施例中,针对弹幕库中任一弹幕,首先需要对该弹幕进行分词处理。其方法有多种,例如可以利用结巴分词的方法,预先建立一个结巴分词词典库,词典库中包含有预设的词汇,例如预设有“我”、“你”、“他”、“喜欢”、“爱”、“加油”等一系列词汇。然后将弹幕库中任一弹幕与词典库中的预设词汇进行匹配,例如弹幕内容为“我爱YY”,与词典库中的预设词汇进行匹配后得到分词结果:“我”、“爱”、“YY”。
又例如,可以预先利用预设词典库训练神经网络模型,然后将任一弹幕输入训练好的神经网络模型中进行分词,进而得到分词结果。例如,神经网络模型可以是自然语言处理模型 (NLP,Natural Language Processing)、长短期记忆网络模型模型(LSTM,LongShort Term Memory)等,然后利用预设词典库作为训练样本集对神经网络模型进行迭代训练,经过多次迭代神经网络模型的损失值达到预设阈值之后,训练完成。进而将内容为“我为XX加油”的弹幕输入训练好的神经网络模型之后,得到分词处理后的各词语为“我”、“为”、“XX”、“加油”。
在本说明书实施例的第一种可能的实现方式中,在对弹幕库中任一弹幕进行分词处理得到分词处理后的各词语之后,可以将指定关键词与分词处理后的各词语进行关键词对比,确定将弹幕库中包含指定关键词的弹幕确定为目标弹幕。
例如,用户输入指定关键词为“哈哈”,将弹幕库中弹幕A进行分词处理后的各词语为:“她”、“让”、“我”、“哈哈大笑”;经过关键词对比,确定该弹幕A中包含有指定关键词“哈哈”,则确定弹幕A作为目标弹幕。
在本说明书实施例的第二种可能的实现方式中,当弹幕库中弹幕内容仅包含指定关键词的部分汉字时,可以计算包含的部分汉字在该弹幕中总字数的占比,若达到预设阈值,则将该弹幕作为目标弹幕。
例如,用户输入指定关键词为“我爱西瓜”,将弹幕库中弹幕B进行分词处理后的各词语为:“我”、“爱”、“冬瓜”;经过关键词对比发现,弹幕B仅包含指定关键词的部分汉字,则预设一个阈值为70%,计算包含的部分汉字在弹幕B中总字数的占比,占比为75%,达到了预设阈值,则确定弹幕B作为目标弹幕。
在本说明书实施例的第三种可能的实现方式中,当弹幕库中弹幕内容没有包含指定关键词或者指定关键词中部分汉字在该弹幕中总字数的占比没有达到预设阈值,则提取弹幕中的弹幕关键词,然后将弹幕关键词与指定关键词进行语义相似度对比,然后将语义相似度达到预设阈值的弹幕作为目标弹幕。
在本实施例中,对弹幕库中任一弹幕进行关键词提取的方法有多种,例如,可以通过预先训练神经网络模型,然后将弹幕输入至训练好的神经网络模型进行关键词的提取;
也可以是利用无监督算法,例如可以利用词频-逆向文本频率(TF-IDF,TermFrequency-InverseDocumentFrequency)的方法。
具体地,TF-IDF中的TF指的是词频,即弹幕中某个词在该弹幕中出现的频率,具体可以通过以下公式(1)计算得到:
Figure RE-GDA0003570181520000051
其中,f指的是弹幕中的某个词在该弹幕中出现的次数,w指的是该弹幕的总词数。
IDF指的是逆向文本频率,为了准确地提取出关键词,这时需要引入一个语料库,语料库用来模拟真实的语言使用环境,例如,语料库可以是预设的包含各个领域内容的词语库, IDF具体可以通过以下公式(2)计算得到:
Figure RE-GDA0003570181520000061
其中,r指的是语料库中的词语总数,y指的是语料库中包含弹幕中的某个词的词语数;
弹幕中的某个词在该弹幕中的词频-逆向文本频率TF-IDF越大,表示该词在该弹幕中的关键性程度就越高,就越能作为该中的关键词,TF-IDF具体可以通过以下公式(3)计算得到:
TF-IDF=TF*IDF (3)
在对弹幕库中弹幕C进行关键词提取,得到弹幕关键词之后,便将弹幕关键词与指定关键词进行语义相似度对比,然后将语义相似度达到预设阈值的弹幕作为目标弹幕。
对弹幕关键词与指定关键词进行语义相似度对比的方式有多种,例如可以将弹幕关键词与指定关键词输入预设的神经网络模型中进行相似度对比,然后输出弹幕关键词与指定关键词的相似度,相似度越高,则代表二者之间的关联性越大。
在本实施例中,可以利用点互信息(PMI,Pointwise Mutual Information)来计算弹幕关键词与指定关键词之间的相似度,PMI可以来衡量两个词语之间的相似程度,PMI越大,则表示两个词语之间的相似度就越高,反之,PMI越小,两个词语之间的相似度就越小。
以弹幕关键词为“医院”,指定关键词为“护士”为例,首先预设一个语料库,该语料库用来模拟真实的语言使用环境,具体地,语料库可以是预设的包含各个领域内容的词语库。
然后分别计算出弹幕关键词“医院”在语料库中出现的概率、指定关键词“护士”在语料库中出现的概率,以及“医院”、“护士”同时在语料库中出现的概率,然后利用PMI算法计算“医院”和“护士”之间的相似度。具体可以通过以下公式(4)计算得出弹幕关键词与指定关键词之间的相似度:
Figure RE-GDA0003570181520000062
其中,x,y分别表示弹幕关键词和指定关键词;p(x)表示弹幕关键词x在语料库中出现的概率;p(y)表示指定关键词y在语料库中出现的概率;p(x,y)表示弹幕关键词x、指定关键词y同时在语料库中出现的概率;PMI越大,则表示x、y之间的相似度越高;反之,相似度越低。
最后计算出“医院”与“护士”之间的相似度为75%,大于预设阈值70%,则将弹幕C作为目标关键词。
在本说明书实施例的另一种可能的实现方式中,除了上述对弹幕进行分词处理,将指定关键词与分词处理后的各词语进行对比,进而确定包含指定关键词的弹幕作为目标弹幕之外,确定弹幕库中与指定关键词匹配的目标弹幕还可以通过多种方法实现。
例如,将指定关键词直接与弹幕库中的弹幕进行字符匹配,若在弹幕库中匹配到有与指定关键词相同的字符的弹幕,则将该弹幕作为目标弹幕。
又例如,将指定关键词与弹幕库中的弹幕内容进行语义相似度识别,将弹幕库中相似度达到预设阈值的弹幕作为目标弹幕。具体地,可以通过神经网络模型的方法,将指定关键词和弹幕库中的弹幕输入训练好的神经网络模型中,进而基于神经网络模型输出指定关键词和弹幕库中的弹幕之间的相似度。
再例如,还可以将弹幕库中的弹幕输入关键词提取模型,提取出弹幕中的关键词,再将该关键词与指定关键词进行对比,如果该关键词与指定关键词的相似度达到一定的阈值,则可以将该弹幕确定为目标弹幕。其中,关键词提取模型可以为预先训练的神经网络模型。
本说明书对指定关键词与弹幕库中的弹幕进行匹配的方式不做限定。
在上述实施方式中,针对弹幕库中任一弹幕,对该弹幕进行分词处理,将指定关键词与分词处理后的各词语进行对比,确定包含指定关键词的弹幕作为目标弹幕。通过上述方法,能够准确地从弹幕库中查找到与指定关键词对应的目标弹幕,从而可以准确地确定出目标弹幕的弹幕聚集信息,进而准确掌握在线视频的内容与用户发送的弹幕之间的关联关系。
S104、根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,其中,复现指标是指弹幕重复出现的指标数据。
在根据指定关键词,确定出弹幕库中与指定关键词匹配的目标弹幕之后,需要根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,其中,属性信息反映着目标弹幕的基本信息,例如目标弹幕的属性信息可以是目标弹幕发送的时间、目标弹幕字体的颜色、大小、目标弹幕的透明度等等。
目标弹幕的复现指标是指是指弹幕重复出现的指标数据,一般弹幕复现指标中包括有预设时段内指定弹幕的弹幕数量、指定弹幕的弹幕数量在预设时段内总弹幕数量中的占比等等。对目标弹幕的复现指标进行统计,可以确定出目标弹幕的弹幕聚集信息。
在本实施例中,对目标弹幕的复现指标进行统计的方法有多种,例如可以将目标弹幕发送的时间为标准,对视频中相同发送时间点的目标弹幕进行统计;
也可以是以目标弹幕的字体颜色为标准,一般的,各视频平台的普通用户发送的弹幕通常是黑色或白色,而会员用户发送的弹幕通常是彩色。因此,可以以目标弹幕的字体颜色为标准,对视频中相同字体颜色的目标弹幕进行统计,从而能够发映出不同类型的用户发送的目标弹幕与视频内容之间的关联关系。
在本说明书实施例提供的一种可能的实现方式中,属性信息包括出现目标弹幕的视频的视频标识、以及目标弹幕在视频中出现的时间信息;目标弹幕的复现指标包括预设时段内目标弹幕的弹幕数量;
根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,具体可以通过以下方式实现:
根据视频标识和时间信息,对预设时段内具有同一视频标识的目标弹幕的数量进行统计,得到预设时段内目标弹幕的弹幕数量。
在本实施例中,出现目标弹幕的视频的视频标识是指出现目标弹幕的视频的标识信息,根据该标识信息能够识别出出现目标弹幕的视频的基本属性,例如,根据标识信息能够识别出出现目标弹幕的视频的统一资源定位符地址(URL,uniform resource locator)、集数、视频所属类型等等。
目标弹幕在视频中出现的时间信息是指在视频播放的过程中,目标弹幕在视频中出现的时间点,例如,当用户在观看视频时发送了一条目标弹幕,该目标弹幕携带有在视频中出现的时间信息:“1时20分00秒”。
具体地,可以先预设一个时段,在该预设时段内,根据视频标识和时间信息,对弹幕库中的目标弹幕进行分组,即,将弹幕库中属于同一视频标识,且均在预设时段内的目标弹幕分为一组,并统计该组中目标弹幕的数量,进而得到预设时段内目标弹幕的弹幕数量。
在实际应用中,以目标弹幕是“哈哈”、预设时段是10分钟为例,表1示出了预设时段内弹幕库中目标弹幕的视频标识和时间信息。
表1预设时段内弹幕库中目标弹幕的视频标识和时间信息
Figure RE-GDA0003570181520000081
Figure RE-GDA0003570181520000091
表1中,以预设时段10分钟为标准,在该预设时段内,根据视频标识和时间信息,将属于同一视频标识,且均在预设时段内的目标弹幕分为一组,并统计该组中目标弹幕的数量,进而得到预设时段内目标弹幕的弹幕数量。表2示出了预设时段内目标弹幕的弹幕数量。
表2预设时段内目标弹幕的弹幕数量
Figure RE-GDA0003570181520000092
表2是根据视频标识和时间信息,对预设时段内具有同一视频标识的目标弹幕的数量进行统计,进而得到了预设时段内目标弹幕的弹幕数量。
在本说明书实施例的另一种可能的实现方式中,预设时段也可以是指目标弹幕在视频中出现的时间点,例如可以根据视频标识信息和时间信息,对目标弹幕在视频中出现的每一个时间点内具有同一视频标识的目标弹幕的数量进行统计,进而得到目标弹幕在视频中出现的每一个时间点内目标弹幕的弹幕数量。
例如,在视频播放第3秒内,将弹幕库中属于同一视频标识,且均在第3秒出现在视频中的目标弹幕分为一组,并统计该组中目标弹幕的数量,进而得到在视频播放第3秒内目标弹幕的弹幕数量。
在上述实施方式中,根据视频标识和时间信息,对预设时段内具有同一视频标识的目标弹幕的数量进行统计,得到预设时段内目标弹幕的弹幕数量。通过上述方法,可以将目标弹幕按照视频标识和时间信息进行分组,进而得到预设时间段内目标弹幕的弹幕数量,可以准确地识别出目标弹幕在视频平台中各视频的弹幕复现情况,从而准确掌握在线视频的内容与用户发送的目标弹幕之间的关联关系。
在本说明书实施例的一种可能的实现方式中,目标弹幕的复现指标还包括弹幕数量在预设时段内总弹幕数量中的占比;
在根据视频标识和时间信息,对预设时段内具有同一视频标识的目标弹幕的数量进行统计,得到预设时段内目标弹幕的弹幕数量之后,还包括:
根据视频标识和时间信息,对预设时段内的总弹幕数量进行统计。
计算弹幕数量在总弹幕数量中的占比。
为了获得更细致的目标弹幕的弹幕聚集信息,在本实施例中,目标弹幕的复现指标还包括弹幕数量在预设时段内总弹幕数量中的占比,其中弹幕数量是指预设时段内目标弹幕的数量;总弹幕数量是指在预设时段内弹幕库中总弹幕数量。
具体地,对预设时段内的总弹幕数量进行统计的方法有多种,例如可以根据弹幕库中每个弹幕发送的时间,将弹幕库中预设时段内的总弹幕数量进行统计。
在本说明书实施例的一种可能的实现方式中,可以根据视频标识和时间信息,对预设时段内的总弹幕数量进行统计,也即,在预设时段内,将同一视频标识,且均处于同一预设时段的总弹幕数量进行分组,进而统计出每组弹幕的弹幕数量。以预设时段是10分钟为例,表 3示出了在预设时段内的总弹幕数量。
表3示出了在预设时段内的总弹幕数量
组别 视频标识 预设时段 总弹幕数量
第1组 第1集 1时21分00秒至1时30分00秒 10个
第2组 第1集 1时41分00秒至1时50分00秒 20个
第3组 第2集 1时31分00秒至1时40分00秒 30个
在根据视频表示和时间信息,统计出预设时段内的总弹幕数量之后,便基于预设时段内目标弹幕的弹幕数量,计算目标弹幕的弹幕数量在总弹幕数量中的占比。
例如,以上述表2、表3为例,第1组中,目标弹幕“哈哈”在预设时段为1时21分00 秒至1时30分00秒的目标弹幕数量为2个,在该时段内,弹幕库中的总弹幕数量为10个,即根据目标弹幕数量以及总弹幕数量计算出目标弹幕数量在总弹幕数量中的占比为20%。
在上述实施方式中,根据视频标识和时间信息,对预设时段内的总弹幕数量进行统计,计算弹幕数量在总弹幕数量中的占比,通过上述方法,能够获得更细致的目标弹幕的弹幕聚集信息,掌握更详细的在线视频的内容与用户发送的弹幕之间的关联关系。
在本说明书实施例提供的一种可能的实现方式中,在根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计之后,还需要将统计后的目标弹幕的复现指标发送至消息队列中。消息队列是指在消息的传输过程中保存消息的容器,例如ActiveMQ、Kafka、RocketMQ、 RabbitMQ等。
在本实施例中,之所以将统计后的目标弹幕的复现指标发送至消息队列中,并由消息队列暂时保存,是因为统计目标弹幕的复现指标以及后续更新目标弹幕的复现指标是在不同的线程中进行的,如果直接在各自的线程进行目标弹幕复现指标的统计以及目标弹幕复现指标的更新,很容易出现并发读写的问题,导致最终目标弹幕的弹幕聚集信息出错。
因此,需要将统计后的目标弹幕的复现指标发送至消息队列,然后由消息队列缓存至内存中,可以避免后续出现并发读写的问题,避免最终目标弹幕的弹幕聚集信息产生错误,提高了弹幕聚集识别的准确性。
本说明书实施例的一种弹幕聚集识别方法还包括:
接收弹幕库发送的日志数据。
解析日志数据,识别日志数据中的指定字段,以及日志数据中是否包含目标弹幕,其中,指定字段携带了对弹幕的更新信息。
若日志数据中包含目标弹幕,则根据更新信息,对弹幕库中的目标弹幕进行对应的更新处理,并根据处理结果更新目标弹幕的复现指标。
在本实施例中,由于用户在查询弹幕聚集信息时,在线视频中的弹幕是随时更新变化的,即,各视频平台的弹幕库都处于一个动态更新的状态。因此,还需要接收弹幕库发送的日志数据,从而获得数据库中弹幕的更新信息,进而可以对目标弹幕的复现指标进行实时更新,用户可以根据实时更新的目标弹幕的复现指标,对实时弹幕聚集信息进行查询。
在本说明书实施例的一种可能的实现方式中,弹幕库发送日志数据可以是根据预设时长周期性发送,也可以是弹幕库对其中的弹幕进行实时监测,当监测到弹幕库中的弹幕有更新时,便发送日志数据。本说明书对数据库发送日志数据的方式不做限定。
具体地,日志数据是指弹幕库在运行时所产生的数据,其中包含了弹幕库中所有弹幕的内容信息、属性信息(视频标识、时间信息等)、弹幕数量信息等等。日志数据可以是redolog 日志数据、binlog日志数据等。本实施例运用binlog日志数据来记录弹幕库在运行时所产生的数据。
binlog日志数据是记录所有数据库表结构变更以及表数据修改的二进制日志。在本实施例中,binlog的作用是用于记录弹幕库中所有弹幕所产生的数据。
在接收到弹幕库发送的日志数据以后,需要解析日志数据,识别日志数据中的指定字段,以及日志数据中是否包含目标弹幕,其中,指定字段携带了对弹幕的更新信息,其中,更新信息是指弹幕库中的弹幕发生变化时所产生的信息,具体地,更新信息可以包括总弹幕更新信息和/或目标弹幕更新信息。
总弹幕更新信息中包括有总弹幕数量的变化信息;目标弹幕更新信息中包括有更新目标弹幕的内容、出现目标弹幕的视频的视频标识、目标弹幕在视频中出现的时间信息、目标弹幕的数量变化、目标弹幕的更新时间信息、目标弹幕的更新操作标识等等。
在本说明书实施例的一种可能的实现方式中,首先,在获取指定关键词,确定弹幕库中与指定关键词匹配的目标弹幕时,记录匹配到目标弹幕的时间点,然后解析该时间点之后弹幕库发送的日志数据,识别出日志数据中携带有弹幕更新信息的指定字段,以及日志数据中是否包含了目标弹幕。
若日志数据中包含目标弹幕,则根据更新信息对弹幕库中的目标弹幕进行对应的更新处理,并根据处理结果更新目标弹幕的复现指标。
例如,以日志数据时binlog为例,首先根据指定关键词“哈哈”,记录确定出目标弹幕“哈哈”的时间点(2021年1月1日08:00:00),然后解析该时间点之后弹幕库发送的binlog数据,识别出binlog数据中包含有目标弹幕“哈哈”,且该目标弹幕对应的指定字段中,携带有目标弹幕更新信息,例如binlog数据中,目标弹幕“哈哈”对应的目标弹幕更新信息中包括有出现目标弹幕“哈哈”的视频的视频标识、在视频中出现的时间信息等。
在获得上述目标弹幕“哈哈”的更新信息后,则根据更新信息,对弹幕库中的目标弹幕“哈哈”进行相应处理,并根据处理结果更新目标弹幕的复现指标。例如,若根据总弹幕更新信息和目标弹幕更新信息识别出在匹配目标弹幕“哈哈”的时间点之后10分钟之内,总弹幕数量为10个;目标弹幕“哈哈”的数量为2个,则相应地,根据目标弹幕的属性信息,即出现目标弹幕“哈哈”的视频的视频标识、在视频中出现的时间信息、以及目标弹幕“哈哈”在总弹幕更新信息中总弹幕数量的占比,对弹幕库中目标弹幕进行对应的更新处理,并对目标弹幕的复现指标进行相应地更新。
在上述实施方式中,通过接收弹幕库发送的日志数据,解析日志数据,识别日志数据中的指定字段,以及日志数据中是否包含目标弹幕;若日志数据中包含目标弹幕,则根据更新信息,对弹幕库中的目标弹幕进行对应的更新处理,并根据处理结果更新目标弹幕的复现指标。通过上述方法,实现了对目标弹幕的复现指标的实时更新,用户可以根据实时更新的目标弹幕的复现指标,对实时弹幕聚集信息进行查询。
在本说明书实施例的一种可能的实现方式中,更新信息包括更新时间信息和更新操作标识,其中更新时间信息是指目标弹幕更新时对应的时间信息;更新操作信息是目标弹幕更新时对应的操作信息,例如新增、删除等。
根据更新信息,对弹幕库中的目标弹幕进行对应的更新处理,具体可以通过以下方式实现:
若更新操作标识为新增标识,则在弹幕库中增加目标弹幕,并记录更新时间信息;
若更新操作标识为删除标识,则根据更新时间信息在弹幕库中删除更新时间信息对应的目标弹幕的记录。
当日志数据中包含了目标弹幕,则根据日志数据中目标弹幕所对应指定字段中的更新信息,对弹幕库中的目标弹幕进行对应的处理。
具体地,以日志数据为binlog为例,在接收到弹幕库发送的binlog日志数据后,若该日志数据中包含有目标弹幕“哈哈”,则读取binlog日志数据中总弹幕的指定字段,以及包含有目标弹幕“哈哈”的指定字段,其中,总弹幕的指定字段中携带有总弹幕的更新信息;目标弹幕“哈哈”的指定字段中携带有目标弹幕的更新信息。
在总弹幕的更新信息以及目标弹幕的更新信息中包括总弹幕的更新时间信息、总弹幕的更新操作标识;以及目标弹幕的更新时间信息、目标弹幕的更新操作标识。
具体地,在binlog日志数据总弹幕的指定字段中,记录有总弹幕的更新时间信息以及更新操作标识,其中,更新操作标识为“insert”则代表新增标识,更新操作标识为“delete”则代表删除标识。
例如弹幕“哈哈”更新时间信息为“2021年1月1日8时10分00秒”、更新操作标识为“insert”;弹幕“加油”更新时间信息为“2021年1月1日8时20分00秒”、更新操作标识为“delete”。即表示在“2021年1月1日8时10分00秒”新增了弹幕“哈哈”;在“2021 年1月1日8时20分00秒”删除了弹幕“加油”。
同样地,在binlog日志数据目标弹幕的指定字段中,记录有目标弹幕的更新时间以及更新操作标识,其中,更新操作标识为“insert”则代表新增标识,更新操作标识为“delete”则代表删除标识。
例如目标弹幕“哈哈”更新时间信息为“2021年1月1日8时10分10秒”、更新操作标识为“insert”;目标弹幕“哈哈”更新时间信息为“2021年1月1日8时10分20秒”、更新操作标识为“delete”。即表示在“2021年1月1日8时10分10秒”新增了目标弹幕“哈哈”;在“2021年1月1日8时10分20秒”删除了目标弹幕“哈哈”。
然后根据目标弹幕的更新操作标识,在弹幕库中增加目标弹幕,并记录更新时间信息;或者根据更新时间信息在弹幕库中删除更新时间信息对应的目标弹幕的记录。
具体地,若目标弹幕“哈哈”的更新操作标识为“insert”时,则在弹幕库中增加目标弹幕“哈哈”,并记录更新时间为“2021年1月1日8时10分10秒”;
若目标弹幕“哈哈”的更新操作标识为“delete”时,则根据更新时间信息“2021年1月1日8时10分20秒”在弹幕库中删除该更新事件信息对应的目标弹幕“哈哈”的记录。
在上述实施方式中,若更新操作标识为新增标识,则在弹幕库中增加目标弹幕,并记录更新时间信息;若更新操作标识为删除标识,则根据更新时间信息在弹幕库中删除更新时间信息对应的目标弹幕的记录。通过上述方法,可以对弹幕库中的弹幕进行实时更新,用户可以根据实时更新的弹幕库中的弹幕数据,查询实时的目标弹幕的复现指标,进而可以对实时弹幕聚集信息进行查询。
在本说明书实施例提供的一种可能的实现方式中,在根据对弹幕库中的目标弹幕进行对应的更新处理,并根据处理结果更新目标弹幕的复现指标之后,还需要将更新后的目标弹幕的复现指标发送至消息队列中。消息队列是指在消息的传输过程中保存消息的容器。
在本实施例中,之所以将更新后的目标弹幕的复现指标发送至消息队列中,并由消息队列暂时保存,是因为统计目标弹幕的复现指标以及更新目标弹幕的复现指标是在不同的线程中进行的,如果直接在各自的线程进行目标弹幕复现指标的统计以及目标弹幕复现指标的更新,很容易出现并发读写的问题,导致最终目标弹幕的弹幕聚集信息出错。
因此,在本实施例中不仅需要将统计后的目标弹幕的复现指标发送至消息队列,还需要将更新后的目标弹幕的复现指标发送至消息队列,从而可以避免后续出现并发读写的问题,避免最终目标弹幕的弹幕聚集信息产生错误,提高了弹幕聚集识别的准确性。
在本说明书提供的弹幕聚集识别方法中,还包括:
将复现指标缓存至内存中。
在内存中缓存的复现指标满足预设条件的情况下,汇总内存中缓存的复现指标,并将汇总的结果写入预设数据库。
在本实施例中,复现指标可以是历史复现指标和/或实时复现指标。其中,历史复现指标是指在匹配到目标弹幕的时间点之前弹幕库中目标弹幕复现指标,包括匹配到目标弹幕的时间点之前,弹幕库中目标弹幕在预设时段内的弹幕数量以及该预设时段内目标弹幕数量在总弹幕数量中的占比;
实时复现指标是在匹配到目标弹幕时间点之后更新的目标弹幕复现指标,包括匹配到目标弹幕的时间点之后,弹幕库中目标弹幕在预设时段内的弹幕数量以及该预设时段内目标弹幕数量在总弹幕数量中的占比。
在本实施例中,预设条件是指对内存中缓存的复现指标进行汇总的条件,例如,预设条件可以是复现指标数量达到预设数目、内存中缓存复现指标的时间达到预设时长等等,当达到预设条件后便对内存中缓存的复现指标进行汇总。
之所以要设置预设条件,是由于弹幕库是一个实时动态更新的数据库,相应地,根据数据库的实时动态更新,复现指标也是动态更新的,若随着复现指标更新的频率,同步将复现指标写入预设数据库中,会带来很大的写入压力,导致设备资源占用率高,造成卡顿等现象发生,因此在本实施例中,在内存中缓存的复现指标满足预设条件的情况下,便汇总缓存的复现指标,并将汇总的结果写入预设数据库,从而降低写入压力。
在本说明书实施例的第一种可能的实现方式中,以复现指标是历史复现指标和实时复现指标为例。首先预设条件可以设置为:当内存中复现指标数量达到预设阈值“10”,然后根据出现目标弹幕的视频的视频标识和目标弹幕在视频中出现的时间信息,将历史复现指标中预设时段内具有同一视频标识的目标弹幕的数量和总弹幕数量;以及实时复现指标中预设时段内具有同一视频标识的目标弹幕的数量和总弹幕数量缓存至内存中。
在内存中缓存的历史复现指标和实时复现指标所对应的弹幕数量达到10个的情况下,便将历史复现指标和实时复现指标进行汇总,并将汇总的结果写入预设数据库中。
在本说明书实施例的第二种可能的实现方式中,同样以复现指标是历史复现指标和实时复现指标为例,预设条件也可以设置为:“内存中复现指标数量达到预设阈值”以及“内存中缓存复现指标的时间达到预设时长”相结合。
那么,在内存中缓存的历史复现指标和实时复现指标所对应的弹幕数量未达到预设阈值的情况下,若内存中缓存复现指标的时间达到了预设时长(例如10分钟),便将历史复现指标和实时复现指标进行汇总,并将汇总的结果写入预设数据库中。
通过上述方法,可以在内存中缓存的复现指标满足预设条件的情况下,汇总内存中缓存的复现指标,然后将汇总的结果写入预设数据库,从而可以降低写入预设数据库的写入压力,避免造成卡顿等现象发生。
S106、根据复现指标,确定目标弹幕的弹幕聚集信息。
在本实施例中,复现指标可以包括历史复现指标和/或实时复现指标。其中,历史复现指标是指在匹配到目标弹幕的时间点之前弹幕库中目标弹幕复现指标,包括匹配到目标弹幕的时间点之前,弹幕库中目标弹幕在预设时段内的弹幕数量以及该预设时段内目标弹幕数量在总弹幕数量中的占比;
实时复现指标是在匹配到目标弹幕时间点之后更新的目标弹幕复现指标,包括匹配到目标弹幕的时间点之后,弹幕库中目标弹幕在预设时段内的弹幕数量以及该预设时段内目标弹幕数量在总弹幕数量中的占比。
在本说明书实施例的一种可能的实现方式中,以复现指标是历史复现指标为例,在根据目标弹幕的属性信息,对目标弹幕的历史复现指标进行统计之后,便根据统计后的目标弹幕的历史复现指标,确定目标弹幕的历史弹幕聚集信息。
例如,以目标弹幕是“哈哈”为例,目标弹幕“哈哈”的历史复现指标为:第1组,视频标识为“第1集”,且在预设时段“1时21分00秒至1时30分00秒”内,目标弹幕“哈哈”的数量是2个、总弹幕数量是10个、目标弹幕数量在总弹幕数量中的占比为20%;第2 组,视频标识为“第1集”,且在预设时段“1时41分00秒至1时50分00秒”内,目标弹幕“哈哈”的数量是1个、总弹幕数量是20个、目标弹幕数量在总弹幕数量中的占比为5%;第3组,视频标识为“第2集”,且在预设时段“1时31分00秒至1时40分00秒”内,目标弹幕“哈哈”的数量是1个、总弹幕数量是30个、目标弹幕数量在总弹幕数量中的占比为3%。
然后基于上述历史复现指标,确定出目标弹幕“哈哈”的历史弹幕聚集信息为:目标弹幕“哈哈”主要聚集于第1组、视频标识为“第1集”且在预设时段“1时21分00秒至1 时30分00秒”的视频中,且目标弹幕的数量在该时段总弹幕数量的占比为20%。
在本说明书实施例的另一种可能的实现方式中,以复现指标是实时复现指标为例,根据弹幕库发送的日志数据,对目标弹幕的历史复现指标进行更新,得到实时复现指标之后,便根据目标弹幕的实时复现指标,确定目标弹幕的实时弹幕聚集信息。
例如,以目标弹幕是“哈哈”为例,目标弹幕“哈哈”的实时复现指标为:第1组,视频标识为“第1集”,且在预设时段“1时41分00秒至1时50分00秒”内,目标弹幕“哈哈”新增的数量是5个、总弹幕数量是10个、目标弹幕数量在总弹幕数量中的占比为50%;第2组,视频标识为“第2集”,且在预设时段“1时41分00秒至1时50分00秒”内,目标弹幕“哈哈”新增的数量是1个、总弹幕数量是20个、目标弹幕数量在总弹幕数量中的占比为5%。
然后基于上述实时复现指标,确定出目标弹幕“哈哈”的实时弹幕聚集信息为:目标弹幕“哈哈”主要聚集于第1组、视频标识为“第1集”且在预设时段“1时41分00秒至1 时50分00秒”的视频中,且目标弹幕的数量在该时段总弹幕数量的占比为50%。
在上述实施方式中,根据复现指标,确定出目标弹幕的弹幕聚集信息,可以准确地识别出目标弹幕在视频平台中各视频的弹幕聚集情况,从而准确掌握在线视频的内容与用户发送的弹幕之间的关联关系。
在本说明书实施例的一种可能的实现方式中,获取指定关键词,具体可以通过以下方式实现:
接收客户端发送的查询请求,其中,查询请求携带指定关键词。
在本实施例中,客户端用于查询弹幕聚集信息,具体可以是具有发送和接收数据信息的任何电子设备,例如可以为智能手机、智能手表、台式电脑、手提电脑等任何一种。相应地,查询请求是指查询弹幕库中目标弹幕的弹幕聚集信息的请求。
在客户端发送携带有指定关键词的查询请求后,接收客户端发送的查询请求,便获取该查询请求中的指定关键词,确定弹幕库中与指定关键词匹配的目标弹幕。
例如,客户端发送的查询请求中携带有指定关键词“哈哈”,在客户端发送携带有指定关键词“哈哈”的查询请求后,接收客户端发送的查询请求,并获取该查询请求中的指定关键词“哈哈”,确定弹幕库中与指定关键词“哈哈”匹配的目标弹幕。
在本说明书实施例的一种可能的实现方式中,在根据复现指标,确定目标弹幕的弹幕聚集信息之后,还包括:
将弹幕聚集信息发送至客户端。
弹幕聚集信息反映着目标弹幕在视频平台各视频中的聚集情况,在根据复现指标,确定目标弹幕的弹幕聚集信息之后,便将弹幕聚集信息发送至客户端,以使用户可以查看目标弹幕的历史聚集信息以及实时聚集信息,进而在准确对目标弹幕的弹幕聚集信息进行识别的同时提升了用户体验。
本申请提供的弹幕聚集识别方法,通过获取指定关键词,确定弹幕库中与指定关键词匹配的目标弹幕,根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,根据统计的复现指标,确定目标弹幕的弹幕聚集信息。通过上述方法,根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,进而可以确定出目标弹幕的弹幕聚集信息。根据弹幕聚集信息,可以准确地识别出目标弹幕在视频平台中各视频的弹幕聚集情况,从而准确掌握弹幕发生聚集时,用户对视频内容的情感态度,用户可以查看目标弹幕在各视频中的聚集情况,进而在准确对目标弹幕的弹幕聚集信息进行识别的同时提升了用户体验。
在本说明书提供的弹幕聚集识别方法中,除了图1中根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,进而根据复现指标,确定目标弹幕的弹幕聚集信息之外,本说明书还提供了对目标弹幕的弹幕聚集信息进行更新,得到目标弹幕的实时弹幕聚集信息的技术方案。
为了便于理解,下述结合附图2,以对目标弹幕的弹幕聚集信息进行更新,得到目标弹幕的实时弹幕聚集信息为例,对本方案提供的弹幕聚集识别方法进行进一步的详细介绍。其中,图2示出了根据本申请一实施例提供的另一种弹幕聚集识别方法的流程图,具体包括以下步骤:
S202、添加指定关键词。
例如添加指定关键词为“哈哈”。
S204、获取添加指定关键词时的时间点。
例如,在获取到添加的指定关键词“哈哈”后,获取指定关键词“哈哈”时的时间点为“2021年1月1日08时10分00秒”。
在获取到添加指定关键词时的时间点后,同时执行步骤S206、S208。
S206、基于指定关键词,对目标弹幕的历史复现指标进行计算。
在本实施例中,对目标弹幕的历史复现指标进行计算,是指对目标弹幕的历史复现指标进行统计。例如,根据出现目标弹幕的视频的视频标识以及目标弹幕在视频中出现的时间信息,对预设时段内具有同一视频标识的历史目标弹幕的数量以及历史目标弹幕的数量在历史总弹幕数量中的占比进行统计。
S208、基于指定关键词和时间点,对目标弹幕的实时复现指标进行计算。
在本实施例中,对目标弹幕的实时复现指标进行计算,是指对弹幕库中的历史目标弹幕进行对应的更新处理(例如新增或删除目标弹幕等),进而对历史复现指标进行更新,从而生成实时复现指标。
S210、监听弹幕库中弹幕数据的变化消息。
在本实施例中,监听弹幕库中弹幕数据变化消息是指接收弹幕库发送的日志数据,然后解析日志数据,识别日志数据中的指定字段,其中,指定字段携带了对弹幕的更新信息。通过识别日志数据中的指定字段,可以监听到弹幕数据的变化消息,进而对目标弹幕的弹幕聚集信息进行更新。
S212、根据弹幕数据变化消息,对目标弹幕的弹幕聚集信息进行更新。
在本说明书实施例的一种可能的实现方式中,步骤S206基于指定关键词,对目标弹幕的历史复现指标进行计算,具体可以通过图3的方式实现,图3示出了根据本申请一实施例提供的一种弹幕聚集识别方法中历史复现指标计算方法的流程图,具体包括以下步骤:
S302、读取指定关键词。
在本实施例中,读取指定关键词是指对获取到的指定关键词进行读取。
S304、读取弹幕库中的存量弹幕。
在本实施例中,存量弹幕是指弹幕库中总的历史弹幕,即在“利用指定关键词匹配到弹幕库中目标弹幕的时间点”之前弹幕库中的弹幕都称为历史弹幕。
S306、将指定关键词与弹幕库中的存量弹幕进行匹配得到目标弹幕,并判断匹配是否结束;若是,执行步骤S308;若否,执行步骤S304。
S308、根据目标弹幕的视频标识以及时间点对目标弹幕进行分组聚合。
在本实施例中,视频标识是指出现目标弹幕的视频的视频标识;时间点是指目标弹幕在视频中出现的时间信息。
根据目标弹幕的视频标识、时间点对目标弹幕进行分组聚合是指根据视频标识和时间信息,对预设时段内具有同一视频标识的历史目标弹幕的数量以及历史目标弹幕的数量在历史总弹幕数量中的占比进行统计。
S310、根据分组聚合结果,生成目标弹幕的历史复现指标。
在本实施例中,在根据目标弹幕的视频标识以及时间点对目标弹幕进行分组聚合之后,便根据分组聚合的结果,生成目标弹幕的历史复现指标。
S312、将目标弹幕的历史复现指标投递至消息队列。
在本说明书实施例的一种可能的实现方式中,步骤S208基于指定关键词,对目标弹幕的实时复现指标进行计算,具体可以通过图4的方式实现,图4示出了根据本申请一实施例提供的一种弹幕聚集识别方法中实时复现指标计算方法的流程图,具体包括以下步骤:
S402、接收弹幕库发送的日志数据,监听弹幕库中实时弹幕数据变化,生成弹幕数据更新信息。
在本实施例中,监听弹幕库中实时弹幕数据变化是指监听弹幕库中实时弹幕数据数量的变化(例如,数据库中目标弹幕的增加或删除,总弹幕数量的增加或删除等)。
S404、判断目标弹幕是否在弹幕库发送的日志数据中,若是,执行S406;若否,执行S402。
S406、根据更新信息,对弹幕库中的目标弹幕进行对应的更新处理。
S408、根据处理结果,生成目标弹幕的实时复现指标。
S410、将目标弹幕的实时复现指标投递至消息队列。
在本说明书实施例的一种可能的实现方式中,步骤S212根据弹幕数据变化消息,对目标弹幕的弹幕聚集信息进行更新,具体可以通过图5的方式实现,图5示出了根据本申请一实施例提供的一种弹幕聚集识别方法中对目标弹幕的弹幕聚集信息进行更新方法的流程图,具体包括以下步骤:
S502、接收目标弹幕的复现指标更新消息。
在本实施例中,接收目标弹幕的复现更新消息是指接收消息队列中目标弹幕的历史复现指标和实时复现指标。
S504、将复现指标更新消息暂存在内存中。
S506、判断存储复现指标更新消息的数量是否达到阈值,若否,执行S508;若是,执行 S510。
在本实施例中,判断消息数量是否达到阈值,是指判断暂存在内存中的目标弹幕的历史复现指标和实时复现指标是否达到阈值。
S508、判断存储复现指标更新消息的时间是否达到阈值,若是,执行S510;若否,执行 S502。
在本实施例中,判断存储复现指标更新消息的时间是否达到阈值是指判断内存暂存目标弹幕的历史复现指标和实时复现指标的时间是否达到预设时长。
S510、汇总内存中目标弹幕的复现指标更新消息。
在本实施例中,汇总内存中目标弹幕的复现更新消息是指汇总暂存在内存中目标弹幕的历史复现指标和实时复现指标。
S512、根据暂存在内存中目标弹幕的视频标识和时间信息,读取预设时段内具有同一视频标识的目标弹幕的历史复现指标以及实时复现指标。
S514、对预设时段内具有同一视频标识的目标弹幕的历史复现指标以及实时复现指标分别进行汇总。
S516、将目标弹幕的历史复现指标以及实时复现指标的汇总结果写入数据库,生成目标弹幕的弹幕聚集更新信息。
本申请提供的弹幕聚集识别方法,通过获取指定关键词,确定弹幕库中与指定关键词匹配的目标弹幕,根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,根据统计的复现指标,确定目标弹幕的弹幕聚集信息。通过上述方法,根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,进而可以确定出目标弹幕的弹幕聚集信息。根据弹幕聚集信息,可以准确地识别出目标弹幕在视频平台中各视频的弹幕聚集情况,从而准确掌握弹幕发生聚集时,用户对视频内容的情感态度,用户可以查看目标弹幕在各视频中的聚集情况,进而在准确对目标弹幕的弹幕聚集信息进行识别的同时提升了用户体验。
与上述方法实施例相对应,本申请还提供了弹幕聚集识别装置实施例,图6示出了本申请一实施例提供的一种弹幕聚集识别装置的结构示意图。如图6所示,该装置包括:
获取模块602,被配置为获取指定关键词,确定弹幕库中与指定关键词匹配的目标弹幕,其中,弹幕库记录有视频平台中各视频的弹幕;
统计模块604,被配置为根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,其中,复现指标是指弹幕重复出现的指标数据;
确定模块606,被配置为根据复现指标,确定目标弹幕的弹幕聚集信息。
可选地,获取模块602,进一步被配置为:
针对弹幕库中任一弹幕,对该弹幕进行分词处理,将指定关键词与分词处理后的各词语进行对比;
确定包含指定关键词的弹幕作为目标弹幕。
可选地,属性信息包括出现目标弹幕的视频的视频标识、以及目标弹幕在视频中出现的时间信息;目标弹幕的复现指标包括预设时段内目标弹幕的弹幕数量;
统计模块604,进一步被配置为:
根据视频标识和时间信息,对预设时段内具有同一视频标识的目标弹幕的数量进行统计,得到预设时段内目标弹幕的弹幕数量。
可选地,目标弹幕的复现指标还包括弹幕数量在预设时段内总弹幕数量中的占比;
统计模块604,进一步被配置为:
根据视频标识和时间信息,对预设时段内的总弹幕数量进行统计;
计算弹幕数量在总弹幕数量中的占比。
可选地,该装置还包括:
接收模块,被配置为接收弹幕库发送的日志数据;
解析模块,被配置为解析日志数据,识别日志数据中的指定字段,以及日志数据中是否包含目标弹幕,其中,指定字段携带了对弹幕的更新信息;
更新模块,被配置为若日志数据中包含目标弹幕,则根据更新信息,对弹幕库中的目标弹幕进行对应的更新处理,并根据处理结果更新目标弹幕的复现指标。
可选地,更新信息包括更新时间信息和更新操作标识;
更新模块,进一步被配置为:
若更新操作标识为新增标识,则在弹幕库中增加目标弹幕,并记录更新时间信息;
若更新操作标识为删除标识,则根据更新时间信息在弹幕库中删除更新时间信息对应的目标弹幕的记录。
可选地,该装置还包括:
缓存模块,被配置为将复现指标缓存至内存中;
汇总模块,被配置为在内存中缓存的复现指标满足预设条件的情况下,汇总内存中缓存的复现指标,并将汇总的结果写入预设数据库。
可选地,获取模块602,进一步被配置为:
接收客户端发送的查询请求,其中,查询请求携带指定关键词;
将弹幕聚集信息发送至客户端。
本申请提供的弹幕聚集识别装置,通过获取指定关键词,确定弹幕库中与指定关键词匹配的目标弹幕,根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,根据统计的复现指标,确定目标弹幕的弹幕聚集信息。通过上述方法,根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计,进而可以确定出目标的弹幕的弹幕聚集信息。根据弹幕聚集信息,可以准确地识别出目标弹幕在视频平台中各视频的弹幕聚集情况,从而准确掌握弹幕发生聚集时,用户对视频内容的情感态度,用户可以查看目标弹幕在各视频中的聚集情况,进而在准确对目标弹幕的弹幕聚集信息进行识别的同时提升了用户体验。
上述为本实施例的一种弹幕聚集识别装置的示意性方案。需要说明的是,该弹幕聚集识别装置的技术方案与上述的弹幕聚集识别方法的技术方案属于同一构思,弹幕聚集识别装置的技术方案未详细描述的细节内容,均可以参见上述弹幕聚集识别方法的技术方案的描述。
图7示出了根据本申请一实施例提供的一种计算设备700的结构框图。该计算设备700 的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Controller)) 中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Networks)无线接口、全球微波互联接入(Wi-MAX,World Interoperabilityfor Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本申请的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备 (例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720用于执行如下计算机可执行指令:
获取指定关键词,确定弹幕库中与指定关键词匹配的目标弹幕,其中,弹幕库记录有视频平台中各视频的弹幕;
根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计;
根据复现指标,确定目标弹幕的弹幕聚集信息。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的弹幕聚集识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述弹幕聚集识别方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时以用于:
获取指定关键词,确定弹幕库中与指定关键词匹配的目标弹幕,其中,弹幕库记录有视频平台中各视频的弹幕;
根据目标弹幕的属性信息,对目标弹幕的复现指标进行统计;
根据复现指标,确定目标弹幕的弹幕聚集信息。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的弹幕聚集识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述弹幕聚集识别方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (11)

1.一种弹幕聚集识别方法,其特征在于,包括:
获取指定关键词,确定弹幕库中与所述指定关键词匹配的目标弹幕,其中,所述弹幕库记录有视频平台中各视频的弹幕;
根据所述目标弹幕的属性信息,对所述目标弹幕的复现指标进行统计,其中,所述复现指标是指弹幕重复出现的指标数据;
根据所述复现指标,确定所述目标弹幕的弹幕聚集信息。
2.根据权利要求1所述的方法,其特征在于,所述确定弹幕库中与所述指定关键词匹配的目标弹幕,包括:
针对弹幕库中任一弹幕,对该弹幕进行分词处理,将所述指定关键词与分词处理后的各词语进行对比;
确定包含所述指定关键词的弹幕作为目标弹幕。
3.根据权利要求1所述的方法,其特征在于,所述属性信息包括出现所述目标弹幕的视频的视频标识、以及所述目标弹幕在所述视频中出现的时间信息;所述目标弹幕的复现指标包括预设时段内所述目标弹幕的弹幕数量;
所述根据所述目标弹幕的属性信息,对所述目标弹幕的复现指标进行统计,包括:
根据所述视频标识和所述时间信息,对预设时段内具有同一视频标识的所述目标弹幕的数量进行统计,得到所述预设时段内所述目标弹幕的弹幕数量。
4.根据权利要求3所述的方法,其特征在于,所述目标弹幕的复现指标还包括所述弹幕数量在所述预设时段内总弹幕数量中的占比;
在所述根据所述视频标识和所述时间信息,对预设时段内具有同一视频标识的所述目标弹幕的数量进行统计,得到所述预设时段内所述目标弹幕的弹幕数量之后,所述方法还包括:
根据所述视频标识和所述时间信息,对所述预设时段内的总弹幕数量进行统计;
计算所述弹幕数量在所述总弹幕数量中的占比。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
接收所述弹幕库发送的日志数据;
解析所述日志数据,识别所述日志数据中的指定字段,以及所述日志数据中是否包含所述目标弹幕,其中,所述指定字段携带对弹幕的更新信息;
若所述日志数据中包含所述目标弹幕,则根据所述更新信息,对所述弹幕库中的所述目标弹幕进行对应的更新处理,并根据处理结果更新所述目标弹幕的复现指标。
6.根据权利要求5所述的方法,其特征在于,所述更新信息包括更新时间信息和更新操作标识;
所述根据所述更新信息,对所述弹幕库中的所述目标弹幕进行对应的更新处理,包括:
若所述更新操作标识为新增标识,则在所述弹幕库中增加所述目标弹幕,并记录所述更新时间信息;
若所述更新操作标识为删除标识,则根据所述更新时间信息在所述弹幕库中删除所述更新时间信息对应的所述目标弹幕的记录。
7.根据权利要求1或5所述的方法,其特征在于,所述方法还包括:
将所述复现指标缓存至内存中;
在所述内存中缓存的所述复现指标满足预设条件的情况下,汇总所述内存中缓存的所述复现指标,并将汇总的结果写入预设数据库。
8.根据权利要求1所述的方法,其特征在于,所述获取指定关键词,包括:
接收客户端发送的查询请求,所述查询请求携带所述指定关键词;
在所述根据所述复现指标,确定所述目标弹幕的弹幕聚集信息之后,还包括:
将所述弹幕聚集信息发送至所述客户端。
9.一种弹幕聚集识别装置,其特征在于,包括:
获取模块,被配置为获取指定关键词,确定弹幕库中与所述指定关键词匹配的目标弹幕,其中,所述弹幕库记录有视频平台中各视频的弹幕;
统计模块,被配置为根据所述目标弹幕的属性信息,对所述目标弹幕的复现指标进行统计,其中,所述复现指标是指弹幕重复出现的指标数据;
确定模块,被配置为根据所述复现指标,确定所述目标弹幕的弹幕聚集信息。
10.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理执行时实现权利要求1至8中任意一项所述弹幕聚集识别方法的步骤。
11.一种计算机可读存储介质,其特征在于,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至8任意一项所述弹幕查询方法的步骤。
CN202210159035.4A 2022-02-21 2022-02-21 弹幕聚集识别方法以及装置 Pending CN114550157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210159035.4A CN114550157A (zh) 2022-02-21 2022-02-21 弹幕聚集识别方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210159035.4A CN114550157A (zh) 2022-02-21 2022-02-21 弹幕聚集识别方法以及装置

Publications (1)

Publication Number Publication Date
CN114550157A true CN114550157A (zh) 2022-05-27

Family

ID=81677152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210159035.4A Pending CN114550157A (zh) 2022-02-21 2022-02-21 弹幕聚集识别方法以及装置

Country Status (1)

Country Link
CN (1) CN114550157A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115209210A (zh) * 2022-07-19 2022-10-18 抖音视界有限公司 基于弹幕生成信息的方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106470357A (zh) * 2016-10-11 2017-03-01 北京小米移动软件有限公司 弹幕消息展示方法及装置
CN107484025A (zh) * 2017-08-31 2017-12-15 维沃移动通信有限公司 一种弹幕显示方法及移动终端
CN107566909A (zh) * 2017-08-08 2018-01-09 广东艾檬电子科技有限公司 一种基于弹幕的视频内容搜索方法及用户终端
CN107645686A (zh) * 2017-09-22 2018-01-30 广东欧珀移动通信有限公司 信息处理方法、装置、终端设备及存储介质
CN108235148A (zh) * 2018-01-09 2018-06-29 武汉斗鱼网络科技有限公司 直播中的相似弹幕合并方法、存储介质、电子设备及系统
CN108924658A (zh) * 2018-06-05 2018-11-30 上海哔哩哔哩科技有限公司 弹幕联想输入方法、装置及计算机可读存储介质
CN109982128A (zh) * 2019-03-19 2019-07-05 腾讯科技(深圳)有限公司 视频的弹幕生成方法、装置、存储介质和电子装置
WO2020155740A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 信息查询方法、装置、计算机设备及存储介质
CN112367561A (zh) * 2020-10-27 2021-02-12 南京维沃软件技术有限公司 弹幕显示方法、装置、电子设备以及存储介质
CN113038185A (zh) * 2021-04-02 2021-06-25 上海哔哩哔哩科技有限公司 弹幕处理方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106470357A (zh) * 2016-10-11 2017-03-01 北京小米移动软件有限公司 弹幕消息展示方法及装置
CN107566909A (zh) * 2017-08-08 2018-01-09 广东艾檬电子科技有限公司 一种基于弹幕的视频内容搜索方法及用户终端
CN107484025A (zh) * 2017-08-31 2017-12-15 维沃移动通信有限公司 一种弹幕显示方法及移动终端
CN107645686A (zh) * 2017-09-22 2018-01-30 广东欧珀移动通信有限公司 信息处理方法、装置、终端设备及存储介质
CN108235148A (zh) * 2018-01-09 2018-06-29 武汉斗鱼网络科技有限公司 直播中的相似弹幕合并方法、存储介质、电子设备及系统
CN108924658A (zh) * 2018-06-05 2018-11-30 上海哔哩哔哩科技有限公司 弹幕联想输入方法、装置及计算机可读存储介质
WO2020155740A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 信息查询方法、装置、计算机设备及存储介质
CN109982128A (zh) * 2019-03-19 2019-07-05 腾讯科技(深圳)有限公司 视频的弹幕生成方法、装置、存储介质和电子装置
CN112367561A (zh) * 2020-10-27 2021-02-12 南京维沃软件技术有限公司 弹幕显示方法、装置、电子设备以及存储介质
CN113038185A (zh) * 2021-04-02 2021-06-25 上海哔哩哔哩科技有限公司 弹幕处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
洪庆;王思尧;赵钦佩;李江峰;饶卫雄;: "基于弹幕情感分析和聚类算法的视频用户群体分类", 计算机工程与科学, no. 06, 15 June 2018 (2018-06-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115209210A (zh) * 2022-07-19 2022-10-18 抖音视界有限公司 基于弹幕生成信息的方法和装置

Similar Documents

Publication Publication Date Title
CN107346336B (zh) 基于人工智能的信息处理方法和装置
CN110019732B (zh) 一种智能问答方法以及相关装置
CN110069698B (zh) 信息推送方法和装置
CN107193974B (zh) 基于人工智能的地域性信息确定方法和装置
EP3035210A1 (en) Method and device for obtaining web page category standards, and method and device for categorizing web page categories
US9582835B2 (en) Apparatus, system, and method for searching for power user in social media
CN108228567B (zh) 用于提取组织机构的简称的方法和装置
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN110737824B (zh) 内容查询方法和装置
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN113190702A (zh) 用于生成信息的方法和装置
US20150278907A1 (en) User Inactivity Aware Recommendation System
WO2023040230A1 (zh) 数据评估方法、训练方法、装置、电子设备以及存储介质
CN110795613A (zh) 商品搜索方法、装置、系统及电子设备
CN110245357B (zh) 主实体识别方法和装置
CN114550157A (zh) 弹幕聚集识别方法以及装置
CN110971973A (zh) 一种视频推送方法、装置及电子设备
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN113076395B (zh) 语义模型训练、搜索显示方法、装置、设备及存储介质
CN112115237B (zh) 烟草科技文献数据推荐模型的构建方法及装置
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113704599A (zh) 营销转化用户的预测方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination