CN111770357A - 一种基于弹幕的视频高光片段识别方法、终端及存储介质 - Google Patents

一种基于弹幕的视频高光片段识别方法、终端及存储介质 Download PDF

Info

Publication number
CN111770357A
CN111770357A CN202010732044.9A CN202010732044A CN111770357A CN 111770357 A CN111770357 A CN 111770357A CN 202010732044 A CN202010732044 A CN 202010732044A CN 111770357 A CN111770357 A CN 111770357A
Authority
CN
China
Prior art keywords
target
semantic vector
bullet screen
segment
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010732044.9A
Other languages
English (en)
Other versions
CN111770357B (zh
Inventor
卢亚辉
林浩星
王辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202010732044.9A priority Critical patent/CN111770357B/zh
Priority to PCT/CN2020/106153 priority patent/WO2022021304A1/zh
Publication of CN111770357A publication Critical patent/CN111770357A/zh
Application granted granted Critical
Publication of CN111770357B publication Critical patent/CN111770357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于弹幕的视频高光片段识别方法、终端及存储介质,本发明通过获取视频片段中的弹幕对应的语义向量,并根据弹幕的语义向量获取视频片段的语义向量,根据视频片段的语义向量确定该视频片段是否为高光片段,实现了对视频中的高光片段的自动识别,不需要进行人工识别,提升了高光片段的识别效率。

Description

一种基于弹幕的视频高光片段识别方法、终端及存储介质
技术领域
本发明涉及终端技术领域,特别涉及一种基于弹幕的视频高光片段识别方法、终端及存储介质。
背景技术
视频的高光片段是指一段视频中精彩的片段,视频中的高光片段便于观看,传播效率显然大大高于整个视频的传播效率,因此,将视频中的高光片段单独提取出来进行剪辑的做法非常常见。在现有技术中,需要人工看完整个视频,判断哪些是高光片段,这种方式耗时长。
因此,现有技术还有待改进和提高。
发明内容
针对现有技术的上述缺陷,本发明提供一种基于弹幕的视频高光片段识别方法、终端及存储介质,旨在解决现有技术中由人工识别高光片段耗时长的问题。
为了解决上述技术问题,本发明所采用的技术方案如下:
本发明的第一方面,提供一种基于弹幕的视频高光片段识别方法,所述方法包括:
获取目标视频,对所述目标视频进行分割,得到至少一个视频片段;
对于所述至少一个视频片段中的目标片段中的每个弹幕,将弹幕文本输入至预先训练完成的第一神经网络,获取所述第一神经网络输出的所述弹幕对应的第一语义向量;
根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量;
根据所述目标片段中的各个弹幕分别对应的目标语义向量确定所述目标片段是否为高光片段。
所述的基于弹幕的视频高光片段识别方法,其中,所述第一神经网络的参数是根据多组训练数据完成的,每组训练数据中包括样本视频片段以及样本视频片段中的各个弹幕,所述第一神经网络的训练目标函数为:
Figure BDA0002603532050000021
Figure BDA0002603532050000022
其中,BSi为训练数据中样本视频片段中的第i个弹幕,xi为所述第i个弹幕对应的第一语义向量,BSi+j为BSi的上下文弹幕,2*m为弹幕的上下文弹幕的数量,uo为BSi的上下文弹幕的第一语义向量,ubs为样本视频片段中第bs个弹幕的第一语义向量,N为样本视频片段中弹幕的数量,Vj为目标片段,V为目标视频,θ为所述第一神经网络的参数,p(BSi+j|BSi;θ)为所述第一神经网络的参数取θ时对应的p(BSi+j|BSi)。
所述的基于弹幕的视频高光片段识别方法,其中,所述根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量包括:
对所述弹幕进行分词,将所述弹幕中的各个单词输入至预先训练完成的第二神经网络,获取所述第二神经网络输出的所述各个单词分别对应的词向量,根据所述各个词向量获取所述弹幕对应的第二语义向量;
根据所述第一语义向量和所述第二语义向量获取所述弹幕对应的目标语义向量。
所述的基于弹幕的视频高光片段识别方法,其中,所述根据所述第一语义向量和所述第二语义向量获取所述弹幕对应的目标语义向量包括:
将所述第一语义向量和所述第二语义向量连接后输入至预先训练的第三神经网络,获取所述第三神经网络输出的所述目标语义向量;
其中,在所述第三神经网络中,对所述第一语义向量和所述第二语义向量进行处理的公式为:
z=t⊙g(WH[Ew;Ebs]+bH)+(1-t)⊙[Ew;Ebs]
t=σ(WT[Ew;Ebs]+bT)
其中,z为所述目标语义向量,Ew为所述第一语义向量,Ebs为所述第二语义向量,[Ew;Ebs]为所述第一语义向量和所述第二语义向量连接后的向量联合表示,WT为门机制矩阵,WH为变换权重矩阵,bH、bT分别为所述第三神经网络中的常数偏置项,g为非线性激活函数,σ为sigmoid激活函数。
所述的基于弹幕的视频高光片段识别方法,其中,所述根据所述目标片段中的各个弹幕分别对应的目标语义向量确定所述目标片段是否为高光片段包括:
对所述目标片段中的各个弹幕分别对应的目标语义向量进行特征提取,获取所述目标片段中的各个弹幕分别对应的特征向量;
根据所述目标片段中的各个弹幕分别对应的特征向量获取所述目标片段对应的目标语义表示;
根据所述目标语义表示确定所述目标片段是否为高光片段。
所述的基于弹幕的视频高光片段识别方法,其中,所述对所述目标片段中的各个弹幕分别对应的目标语义向量进行特征提取包括:
将所述目标片段中的各个弹幕分别对应的目标语义向量输入至预先训练完成的第四神经网络,获取所述第四神经网络输出的所述目标片段中的各个弹幕分别对应的特征向量;
其中,所述第四神经网络为双向长短期记忆网络。
所述的基于弹幕的视频高光片段识别方法,其中,所述根据所述目标片段中的各个弹幕分别对应的特征向量获取所述目标片段对应的目标语义表示包括:
获取所述目标片段中的各个弹幕的特征向量分别对应的注意力比值;
根据所述目标片段中的各个弹幕的特征向量分别对应的注意力比值对所述各个弹幕的特征向量进行加权求和,获取所述目标片段对应的目标语义表示。
所述的基于弹幕的视频高光片段识别方法,其中,所述根据所述目标语义表示确定所述目标片段是否为高光片段包括:
将所述目标语义表示转化为数值;
当所述数值大于预设阈值时,确定所述目标片段为高光片段。
本发明的第二方面,提供一种终端,所述终端包括处理器、与处理器通信连接的存储介质,所述存储介质适于存储多条指令,所述处理器适于调用所述存储介质中的指令,以执行实现上述任一项所述的基于弹幕的视频高光片段识别方法的步骤。
本发明的第三方面,提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的基于弹幕的视频高光片段识别方法的步骤。
与现有技术相比,本发明提供了一种基于弹幕的视频高光片段识别方法、终端及存储介质,所述基于弹幕的视频高光片段识别方法通过获取视频片段中的弹幕对应的语义向量,并根据弹幕的语义向量获取视频片段的语义向量,根据视频片段的语义向量确定该视频片段是否为高光片段,实现了对视频中的高光片段的自动识别,不需要进行人工识别,提升了高光片段的识别效率。
附图说明
图1为本发明提供的基于弹幕的视频高光片段识别方法的实施例的流程图;
图2为本发明提供的基于弹幕的视频高光片段识别方法的实施例中步骤S400的子步骤流程图;
图3为本发明提供的基于弹幕的视频高光片段识别方法的实施例的整体网络模型示意图;
图4为本发明提供的终端的实施例的原理示意图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
本发明提供的基于弹幕的视频高光片段识别方法,可以是应用在终端中,终端可以通过本发明提供的基于弹幕的视频高光片段识别方法识别视频中的高光片段。终端可以但不限于是各种计算机、手机、平板电脑、车载电脑和便携式可穿戴设备。
如图1所示,所述基于弹幕的视频高光片段识别方法的一个实施例中,包括步骤:
S100、获取目标视频,对所述目标视频进行分割,得到至少一个视频片段。
在获取到待识别高光片段的目标视频后,对所述目标视频进行分割,将所述目标视频分割为至少一个视频片段,所述视频频段的长度可以根据实际情况自行设置,如20s、30s等,对所述目标视频进行分割可以是不带重叠的分割,例如,按照1-30s、31-60s、61-90s的方式进行分割,各个片段之间不存在重叠内容,也可以是待重叠的分割,例如按照1-30s、5-34s、9-38s的方式进行分割,各个片段之间存在重叠内容,重叠内容的时长可以为5s、10s等。
S200、对于所述至少一个视频片段中的目标片段中的每个弹幕,将弹幕文本输入至预先训练完成的第一神经网络,获取所述第一神经网络输出的所述弹幕对应的第一语义向量。
弹幕是一种近年兴起的视频交互形式,用户输入文本对对应时间戳的视频发表意见,不难看出,不同于针对整个视频的评论,弹幕具有实时性的特点,视频的相应时间戳发送的弹幕代表了观看者对该时间戳附近的视频内容的评论,因此,在本实施例中,在识别目标片段是否为高光片段时,是获取目标片段中的弹幕,并将弹幕转化为语义向量,即将弹幕的语义转化为计算机可处理的数据形式,从而能够通过计算机处理的方式来确定目标片段中各个弹幕的语义,即获取了视频观看者在观看目标片段时的评论,从而实现对目标片段弹幕是否为高光片段的识别。
具体地,所述目标片段是从所述目标视频中获取的至少一个视频片段中的一个视频片段,在确定所述目标片段是否为高光片段时,先获取所述目标片段的弹幕,对于所述目标片段中的每个弹幕,将弹幕文本输入至预先训练完成的第一神经网络,获取所述第一神经网络输出的所述弹幕对应的第一语义向量。
在自然语言处理领域中,将自然语言转化为计算机可处理的语义向量,一般是基于词粒度来进行,即,对文本进行分词,获取每个单词对应的词语义向量,从词级别来进行文本的表征,再输入至下游任务当中,而由于弹幕的语言具有短而新的特点,大多数弹幕经常会出现新的表达方式,如缩略语、网络用语、中英文混用等,这种弹幕的分词规则较为复杂,现有的基于词粒度获取语义向量的方式效果不佳,基于弹幕的特点,在本实施例中,基于弹幕粒度来获取对应的语义向量,对弹幕进行分词进而获取词向量来获取弹幕对应的语义向量的方式是不准确的,因此,在本实施例中,不对弹幕文本进行分词,将一条弹幕作为一个整体获取其对应的第一语义向量。
具体地,所述第一神经网络具备根据弹幕文本输出弹幕对应的语义向量的功能,所述第一神经网络的结构可以是基于现有的词向量生成神经网络例如word2vec一致,在本实施例中,通过与现有的词向量生成神经网络不一样的训练方式得到所述第一神经网络的参数,实现对弹幕整体的语义向量的生成,具体地,所述第一神经网络是根据多组训练数据完成的,每组训练数据中包括样本视频片段以及样本视频片段中的各个弹幕,所述第一神经网络是基于时序位置上相近的弹幕是基于同样的视频内容所发出,因此具有相近的语义的原理所训练的,所述第一神经网络的训练目标函数为:
Figure BDA0002603532050000071
Figure BDA0002603532050000072
其中,BSi为训练数据中样本视频片段中的第i个弹幕,xi为所述第i个弹幕对应的第一语义向量,BSi+j为BSi的上下文弹幕,2*m为弹幕的上下文弹幕的数量,也就是说,取BSi的前m个弹幕和后m个弹幕作为上下文弹幕,值得说明的是,在本发明中,弹幕的前后是根据弹幕对应的视频时间戳来确定的,即,视频时间戳早的弹幕称为前面的弹幕,uo为BSi的上下文弹幕的第一语义向量,ubs为样本视频片段中第bs个弹幕的第一语义向量,N为样本视频片段中弹幕的数量,Vj为目标片段,V为目标视频,θ为所述第一神经网络的参数,p(BSi+j|BSi;θ)为所述第一神经网络的参数取θ时对应的p(BSi+j|BSi)。
也就是说,在所述第一神经网络进行训练的过程中,是得到所述第一神经网络的参数θ,使得L(θ)最大,不难看出,当
Figure BDA0002603532050000073
越大,
Figure BDA0002603532050000074
越小时,L(θ)越大,而当两个向量越接近时,二者的内积越大,差异越大,二者的内积越小,也就是说,当弹幕与其上下文弹幕的语义向量越接近,而与不为其上下文弹幕的弹幕的语义向量越不接近时,L(θ)越大,即,基于根据所述第一神经网络输出的语义向量应能够满足其输出的时序位置上相近的弹幕的第一语义向量应是相近的原理来训练所述第一神经网络的参数,使得训练完成后的所述第一神经网络能够实现根据单个弹幕整体输出准确的对应的语义向量。
请再次参阅图1,所述基于弹幕的视频高光片段识别方法还包括步骤:
S300、根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量。
弹幕对应的目标语义向量是用于输入至后续步骤,确定所述目标片段是否为高光片段的语义向量,在一种可能的实现方式中,可以直接将所述第一语义向量作为所述目标语义向量,而由于视频片段中弹幕的形式非常不确定,因此,在本实施例中,结合词粒度的语义向量和弹幕粒度的语义向量来获取弹幕对应的目标语义向量。
具体地,所述根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量包括:
S310、对所述弹幕进行分词,将所述弹幕中的各个单词输入至预先训练完成的第二神经网络,获取所述第二神经网络输出的所述各个单词分别对应的词向量,根据所述各个词向量获取所述弹幕对应的第二语义向量;
所述第二神经网络可以为word2vec网络等词向量提取网络,对所述弹幕进行分词可以是采用现有的分词工具,对所述弹幕进行分词后,输入至预先训练完成的所述第二神经网络,获取所述第二神经网络输出的所述弹幕中各个单词分别对应的词向量。在获取到各个单词分别对应的词向量后,可以将各个单词分别对应的词向量进行连接或者其他运算,得到弹幕对应的第二语义向量。
S320、根据所述第一语义向量和所述第二语义向量获取所述弹幕对应的目标语义向量。
对于所述目标片段中的每一个弹幕,都分别获取其对应的第一语义向量和第二语义向量,再对第一语义向量和第二语义向量进行处理,确定二者中需要保留的信息,以获取到目标语义向量,使得根据目标语义向量确定的高光片段识别结果更准确。具体地,所述根据所述第一语义向量和所述第二语义向量获取所述弹幕对应的目标语义向量包括:
将所述第一语义向量和所述第二语义向量连接后输入至预先训练的第三神经网络,获取所述第三神经网络输出的所述目标语义向量。
将所述第一语义向量和所述第二语义向量进行concat连接后输入值所述第三神经网络,所述第三神经网络可以为高速公路网络(Highway Network)在所述第三神经网络中,对所述第一语义向量和所述第二语义向量进行处理生成所述目标语义向量的处理公式为:
z=t⊙g(WH[Ew;Ebs]+bH)+(1-t)⊙[Ew;Ebs]
t=σ(WT[Ew;Ebs]+bT)
其中,z为所述目标语义向量,Ew为所述第一语义向量,Ebs为所述第二语义向量,[Ew;Ebs]为所述第一语义向量和所述第二语义向量连接后的向量联合表示,WT为门机制矩阵,用于决定原始信息的保留比例,WH为变换权重矩阵,bH、bT分别为所述第三神经网络中的常数偏置项,g函数为非线性激活函数,在本实施例中,为ReLU激活函数,σ为sigmoid激活函数。
所述第三神经网络中的参数,如WT、WH、bH、bT等是通过训练得到的,具体地,训练完成后的所述第三神经网络,能够实现根据输入的第一语义向量和第二语义向量输出相应的目标语义向量,使得根据所述目标语义向量进行高光片段识别的准确性达到预设水平。具体地,所述第三神经网络可以是单独训练也可以作为高光片段识别任务中的一个网络层与其他的网络层一同被训练得到,如图3所示,图3为本实施例提供的基于弹幕的视频高光片段识别方法的整体网络模型,包括所述第一神经网络、所述第二神经网络、所述第三神经网络、第四神经网络、注意力机制网络层以及激活层和输出层,所述目标片段中的弹幕通过图3中的整体网络模型处理后,输出是否为高光片段的结果,所述第三神经网络可以是与第四神经网络、注意力机制网络层、激活层和输出层共同训练得到,训练时采用的训练数据包括样本目标片段以及样本目标片段是否为高光片段的标注。
请再次参阅图1,本实施例提供的基于弹幕的视频高光片段识别方法还包括步骤:
S400、根据所述目标片段中的各个弹幕分别对应的目标语义向量确定所述目标片段是否为高光片段。
如图2所示,所述根据所述目标片段中的各个弹幕分别对应的目标语义向量确定所述目标片段是否为高光片段包括:
S410、对所述目标片段中的各个弹幕分别对应的目标语义向量进行特征提取,获取所述目标片段中的各个弹幕分别对应的特征向量。
具体地,在步骤S410中,是将所述目标片段中的各个弹幕分别对应的目标语义向量输入至预先训练完成的第四神经网络,获取所述第四神经网络输出的所述目标片段中的各个弹幕分别对应的特征向量。在一种可能的实现方式中,为了防止过拟合,在将弹幕对应的目标语义向量输入至所述第四神经网络进行处理之前,还进行dropout操作使部分元素失活。
所述第四神经网络可以为双向长短期记忆网络(Bi-LSTM)或者其他现有的特征提取网络,所述第四神经网络是作为本实施例的基于弹幕的视频高光片段识别方法的整体网络模型中的一层与其他层(如图3中的第三神经网络、注意力机制网络层、激活层、输出层)一同被训练得到。
S420、根据所述目标片段中的各个弹幕分别对应的特征向量获取所述目标片段对应的目标语义表示。
在获取到所述目标片段中的各个弹幕分别对应的特征向量后,对各个弹幕分别对应的特征向量进行整合,获取所述目标片段对应的目标语义表示。所述根据所述目标片段中的各个弹幕分别对应的特征向量获取所述目标片段对应的目标语义表示包括:
S421、获取所述目标片段中的各个弹幕的特征向量分别对应的注意力比值;
S422、根据所述目标片段中各个弹幕的特征向量分别对应的注意力比值对所述各个弹幕的特征向量进行加权求和,获取所述目标片段对应的目标语义表示。
具体地,所述步骤S421和步骤S422可以是通过训练完成的注意力机制网络层实现,所述注意力机制网络层获取所述目标片段中的各个弹幕的特征向量分别对应的注意力比值的公式为:
mt=tan(Waht+ba)
Figure BDA0002603532050000111
其中,ht为所述目标片段中第t个弹幕对应的目标语义向量,Wa、ba分别为注意力机制网络中的权重矩阵和常数偏置项,at为所述目标片段中第t个弹幕的注意力比值,va为注意力向量,通过对所述注意力机制网络训练得到,K为所述目标片段中弹幕的个数。
对各个弹幕的特征向量进行加权求和的公式为:
Figure BDA0002603532050000112
其中,C为所述目标片段的目标语义表示,ht为所述目标片段中第t个弹幕对应的目标语义向量,,at为所述目标片段中第t个弹幕的注意力比值。
S430、根据所述目标语义表示确定所述目标片段是否为高光片段。
所述根据所述目标语义表示确定所述目标片段是否为高光片段包括:
S431、将所述目标语义表示转化为数值。
S432、当所述数值大于预设阈值时,确定所述目标片段为高光片段。
具体地,所述目标语义表示为一个向量,在获取到所述目标语义表示后,将所述目标语义标值转化为数值,所述步骤S431可以是通过图3中的激活层和输出层实现,具体地,在激活层中通过激活函数ReLU对所述目标语义表示进行非线性变化,所述输出层包括一个全连接层和Sigmoid函数,通过Sigmoid函数将对所述目标语义表示进行非线性变化得到的实数值应谁为[0,1]区间的概率值,即所述数值。当所述数值大于预设阈值时,则确定所述目标片段为高光片段,若不大于,则确定所述目标片段不是高光片段,完成对所述目标片段是否为高光片段的识别过程,所述预设阈值可以是通过预先实验确定。
综上所述,本实施例提供了一种基于弹幕的视频高光片段识别方法,所述基于弹幕的视频高光片段识别方法通过获取视频片段中的弹幕对应的语义向量,并根据弹幕的语义向量获取视频片段的语义向量,根据视频片段的语义向量确定该视频片段是否为高光片段,实现了对视频中的高光片段的自动识别,不需要进行人工识别,提升了高光片段的识别效率。
应该理解的是,虽然本发明说明书附图中给出的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
实施例二
基于上述实施例,本发明还相应提供了一种终端,如图4所示,所述终端包括处理器10以及存储器20。可以理解的是,图4仅示出了终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述终端的内部存储单元,例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于弹幕的视频高光片段提取程序30,该基于弹幕的视频高光片段提取程序30可被处理器10所执行,从而实现本申请中基于弹幕的视频高光片段识别方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述基于弹幕的视频高光片段识别方法等。
在一实施例中,当处理器10执行所述存储器20中基于弹幕的视频高光片段提取程序30时实现以下步骤:
获取目标视频,对所述目标视频进行分割,得到至少一个视频片段;
对于所述至少一个视频片段中的目标片段中的每个弹幕,将弹幕文本输入至预先训练完成的第一神经网络,获取所述第一神经网络输出的所述弹幕对应的第一语义向量;
根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量;
根据所述目标片段中的各个弹幕分别对应的目标语义向量确定所述目标片段是否为高光片段。
其中,所述第一神经网络的参数是根据多组训练数据完成的,每组训练数据中包括样本视频片段以及样本视频片段中的各个弹幕,所述第一神经网络的训练目标函数为:
Figure BDA0002603532050000141
Figure BDA0002603532050000142
其中,BSi为训练数据中样本视频片段中的第i个弹幕,xi为所述第i个弹幕对应的第一语义向量,BSi+j为BSi的上下文弹幕,2*m为弹幕的上下文弹幕的数量,uo为BSi的上下文弹幕的第一语义向量,ubs为样本视频片段中第bs个弹幕的第一语义向量,N为样本视频片段中弹幕的数量,Vj为目标片段,V为目标视频,θ为所述第一神经网络的参数,p(BSi+j|BSi;θ)为所述第一神经网络的参数取θ时对应的p(BSi+j|BSi)。
其中,所述根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量包括:
对所述弹幕进行分词,将所述弹幕中的各个单词输入至预先训练完成的第二神经网络,获取所述第二神经网络输出的所述各个单词分别对应的词向量,根据所述各个词向量获取所述弹幕对应的第二语义向量;
根据所述第一语义向量和所述第二语义向量获取所述弹幕对应的目标语义向量。
其中,所述根据所述第一语义向量和所述第二语义向量获取所述弹幕对应的目标语义向量包括:
将所述第一语义向量和所述第二语义向量连接后输入至预先训练的第三神经网络,获取所述第三神经网络输出的所述目标语义向量;
其中,在所述第三神经网络中,对所述第一语义向量和所述第二语义向量进行处理的公式为:
z=t⊙g(WH[Ew;Ebs]+bH)+(1-t)⊙[Ew;Ebs]
t=σ(WT[Ew;Ebs]+bT)
其中,z为所述目标语义向量,Ew为所述第一语义向量,Ebs为所述第二语义向量,[Ew;Ebs]为所述第一语义向量和所述第二语义向量连接后的向量联合表示,WT为门机制矩阵,WH为变换权重矩阵,bH、bT分别为所述第三神经网络中的常数偏置项,g为非线性激活函数,σ为sigmoid激活函数。
其中,所述根据所述目标片段中的各个弹幕分别对应的目标语义向量确定所述目标片段是否为高光片段包括:
对所述目标片段中的各个弹幕分别对应的目标语义向量进行特征提取,获取所述目标片段中的各个弹幕分别对应的特征向量;
根据所述目标片段中的各个弹幕分别对应的特征向量获取所述目标片段对应的目标语义表示;
根据所述目标语义表示确定所述目标片段是否为高光片段。
其中,所述对所述目标片段中的各个弹幕分别对应的目标语义向量进行特征提取包括:
将所述目标片段中的各个弹幕分别对应的目标语义向量输入至预先训练完成的第四神经网络,获取所述第四神经网络输出的所述目标片段中的各个弹幕分别对应的特征向量;
其中,所述第四神经网络为双向长短期记忆网络。
其中,所述根据所述目标片段中的各个弹幕分别对应的特征向量获取所述目标片段对应的目标语义表示包括:
获取所述目标片段中的各个弹幕的特征向量分别对应的注意力比值;
根据所述目标片段中的各个弹幕的特征向量分别对应的注意力比值对所述各个弹幕的特征向量进行加权求和,获取所述目标片段对应的目标语义表示。
其中,所述根据所述目标语义表示确定所述目标片段是否为高光片段包括:
将所述目标语义表示转化为数值;
当所述数值大于预设阈值时,确定所述目标片段为高光片段。
实施例三
本发明还提供一种存储介质,其中,存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的基于弹幕的视频高光片段识别方法的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于弹幕的视频高光片段识别方法,其特征在于,所述方法包括:
获取目标视频,对所述目标视频进行分割,得到至少一个视频片段;
对于所述至少一个视频片段中的目标片段中的每个弹幕,将弹幕文本输入至预先训练完成的第一神经网络,获取所述第一神经网络输出的所述弹幕对应的第一语义向量;
根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量;
根据所述目标片段中的各个弹幕分别对应的目标语义向量确定所述目标片段是否为高光片段。
2.根据权利要求1所述的基于弹幕的视频高光片段识别方法,其特征在于,所述第一神经网络的参数是根据多组训练数据完成的,每组训练数据中包括样本视频片段以及样本视频片段中的各个弹幕,所述第一神经网络的训练目标函数为:
Figure FDA0002603532040000011
Figure FDA0002603532040000012
其中,BSi为训练数据中样本视频片段中的第i个弹幕,xi为所述第i个弹幕对应的第一语义向量,BSi+j为BSi的上下文弹幕,2*m为弹幕的上下文弹幕的数量,uo为BSi的上下文弹幕的第一语义向量,ubs为样本视频片段中第bs个弹幕的第一语义向量,N为样本视频片段中弹幕的数量,Vj为目标片段,V为目标视频,θ为所述第一神经网络的参数,p(BSi+j|BSi;θ)为所述第一神经网络的参数取θ时对应的p(BSi+j|BSi)。
3.根据权利要求1所述的基于弹幕的视频高光片段识别方法,其特征在于,所述根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量包括:
对所述弹幕进行分词,将所述弹幕中的各个单词输入至预先训练完成的第二神经网络,获取所述第二神经网络输出的所述各个单词分别对应的词向量,根据所述各个词向量获取所述弹幕对应的第二语义向量;
根据所述第一语义向量和所述第二语义向量获取所述弹幕对应的目标语义向量。
4.根据权利要求3所述的基于弹幕的视频高光片段识别方法,其特征在于,所述根据所述第一语义向量和所述第二语义向量获取所述弹幕对应的目标语义向量包括:
将所述第一语义向量和所述第二语义向量连接后输入至预先训练的第三神经网络,获取所述第三神经网络输出的所述目标语义向量;
其中,在所述第三神经网络中,对所述第一语义向量和所述第二语义向量进行处理的公式为:
z=t⊙g(WH[Ew;Ebs]+bH)+(1-t)⊙[Ew;Ebs]
t=σ(WT[Ew;Ebs]+bT)
其中,z为所述目标语义向量,Ew为所述第一语义向量,Ebs为所述第二语义向量,[Ew;Ebs]为所述第一语义向量和所述第二语义向量连接后的向量联合表示,WT为门机制矩阵,WH为变换权重矩阵,bH、bT分别为所述第三神经网络中的常数偏置项,g为非线性激活函数,σ为sigmoid激活函数。
5.根据权利要求1所述的基于弹幕的视频高光片段识别方法,其特征在于,所述根据所述目标片段中的各个弹幕分别对应的目标语义向量确定所述目标片段是否为高光片段包括:
对所述目标片段中的各个弹幕分别对应的目标语义向量进行特征提取,获取所述目标片段中的各个弹幕分别对应的特征向量;
根据所述目标片段中的各个弹幕分别对应的特征向量获取所述目标片段对应的目标语义表示;
根据所述目标语义表示确定所述目标片段是否为高光片段。
6.根据权利要求5所述的基于弹幕的视频高光片段识别方法,其特征在于,所述对所述目标片段中的各个弹幕分别对应的目标语义向量进行特征提取包括:
将所述目标片段中的各个弹幕分别对应的目标语义向量输入至预先训练完成的第四神经网络,获取所述第四神经网络输出的所述目标片段中的各个弹幕分别对应的特征向量;
其中,所述第四神经网络为双向长短期记忆网络。
7.根据权利要求5所述的基于弹幕的视频高光片段识别方法,其特征在于,所述根据所述目标片段中的各个弹幕分别对应的特征向量获取所述目标片段对应的目标语义表示包括:
获取所述目标片段中的各个弹幕的特征向量分别对应的注意力比值;
根据所述目标片段中的各个弹幕的特征向量分别对应的注意力比值对所述各个弹幕的特征向量进行加权求和,获取所述目标片段对应的目标语义表示。
8.根据权利要求5所述的基于弹幕的视频高光片段识别方法,其特征在于,所述根据所述目标语义表示确定所述目标片段是否为高光片段包括:
将所述目标语义表示转化为数值;
当所述数值大于预设阈值时,确定所述目标片段为高光片段。
9.一种终端,其特征在于,所述终端包括:处理器、与处理器通信连接的存储介质,所述存储介质适于存储多条指令,所述处理器适于调用所述存储介质中的指令,以执行实现上述权利要求1-8任一项所述的基于弹幕的视频高光片段识别方法的步骤。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-8任一项所述的基于弹幕的视频高光片段识别方法的步骤。
CN202010732044.9A 2020-07-27 2020-07-27 一种基于弹幕的视频高光片段识别方法、终端及存储介质 Active CN111770357B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010732044.9A CN111770357B (zh) 2020-07-27 2020-07-27 一种基于弹幕的视频高光片段识别方法、终端及存储介质
PCT/CN2020/106153 WO2022021304A1 (zh) 2020-07-27 2020-07-31 一种基于弹幕的视频高光片段识别方法、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010732044.9A CN111770357B (zh) 2020-07-27 2020-07-27 一种基于弹幕的视频高光片段识别方法、终端及存储介质

Publications (2)

Publication Number Publication Date
CN111770357A true CN111770357A (zh) 2020-10-13
CN111770357B CN111770357B (zh) 2021-06-01

Family

ID=72727218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010732044.9A Active CN111770357B (zh) 2020-07-27 2020-07-27 一种基于弹幕的视频高光片段识别方法、终端及存储介质

Country Status (2)

Country Link
CN (1) CN111770357B (zh)
WO (1) WO2022021304A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114697741A (zh) * 2020-12-30 2022-07-01 腾讯科技(深圳)有限公司 多媒体信息的播放控制方法及相关设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115361595B (zh) * 2022-07-28 2024-04-26 华中科技大学 一种视频弹幕生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417205A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语义理解训练方法和系统
CN109471946A (zh) * 2018-11-16 2019-03-15 中国科学技术大学 一种中文文本的分类方法及系统
CN110427897A (zh) * 2019-08-07 2019-11-08 北京奇艺世纪科技有限公司 视频精彩度的分析方法、装置和服务器
CN111144448A (zh) * 2019-12-09 2020-05-12 江南大学 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN111242273A (zh) * 2018-11-29 2020-06-05 华为终端有限公司 一种神经网络模型训练方法及电子设备
CN111294660A (zh) * 2020-03-12 2020-06-16 咪咕文化科技有限公司 视频片段定位方法、服务器、客户端及电子设备
WO2020124002A1 (en) * 2018-12-13 2020-06-18 FocusVision Worldwide, Inc. Video highlight recognition and extraction systems, tools, and methods

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417205A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语义理解训练方法和系统
CN109471946A (zh) * 2018-11-16 2019-03-15 中国科学技术大学 一种中文文本的分类方法及系统
CN111242273A (zh) * 2018-11-29 2020-06-05 华为终端有限公司 一种神经网络模型训练方法及电子设备
WO2020124002A1 (en) * 2018-12-13 2020-06-18 FocusVision Worldwide, Inc. Video highlight recognition and extraction systems, tools, and methods
CN110427897A (zh) * 2019-08-07 2019-11-08 北京奇艺世纪科技有限公司 视频精彩度的分析方法、装置和服务器
CN111144448A (zh) * 2019-12-09 2020-05-12 江南大学 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN111294660A (zh) * 2020-03-12 2020-06-16 咪咕文化科技有限公司 视频片段定位方法、服务器、客户端及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱宁佳 等: "《结合改进主动学习的SVDCNN弹幕文本分类算法》", 《计算机应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114697741A (zh) * 2020-12-30 2022-07-01 腾讯科技(深圳)有限公司 多媒体信息的播放控制方法及相关设备
CN114697741B (zh) * 2020-12-30 2023-06-30 腾讯科技(深圳)有限公司 多媒体信息的播放控制方法及相关设备

Also Published As

Publication number Publication date
WO2022021304A1 (zh) 2022-02-03
CN111770357B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
US10878247B2 (en) Method and apparatus for generating information
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
CN111770357B (zh) 一种基于弹幕的视频高光片段识别方法、终端及存储介质
CN111259148A (zh) 信息处理方法、装置及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN110569502A (zh) 一种违禁广告语的识别方法、装置、计算机设备及存储介质
CN115080836A (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN115423904A (zh) 一种口型动画的生成方法、装置、电子设备及存储介质
CN112765403A (zh) 一种视频分类方法、装置、电子设备及存储介质
CN116628163A (zh) 客服服务处理方法、装置、设备及存储介质
Decorte et al. Design of negative sampling strategies for distantly supervised skill extraction
WO2024093578A1 (zh) 语音识别方法、装置、电子设备、存储介质及计算机程序产品
CN109120509B (zh) 一种信息收集的方法及装置
CN116484224A (zh) 一种多模态预训练模型的训练方法、装置、介质及设备
CN116129881A (zh) 语音任务处理方法、装置、电子设备及存储介质
US11216621B2 (en) Foreign language machine translation of documents in a variety of formats
CN111768767B (zh) 用户标签提取方法和装置、服务器、计算机可读存储介质
CN115169345A (zh) 文本情感分析模型的训练方法、装置、设备及存储介质
US10910014B2 (en) Method and apparatus for generating video
CN115730104A (zh) 直播间处理方法、装置、设备及介质
CN113240071A (zh) 图神经网络处理方法、装置、计算机设备及存储介质
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN117093715B (zh) 词库扩充方法、系统、计算机设备及存储介质
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant