CN110083741B - 文本与图像联合建模的面向人物的视频摘要提取方法 - Google Patents

文本与图像联合建模的面向人物的视频摘要提取方法 Download PDF

Info

Publication number
CN110083741B
CN110083741B CN201910291983.1A CN201910291983A CN110083741B CN 110083741 B CN110083741 B CN 110083741B CN 201910291983 A CN201910291983 A CN 201910291983A CN 110083741 B CN110083741 B CN 110083741B
Authority
CN
China
Prior art keywords
text
text information
character
vector
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910291983.1A
Other languages
English (en)
Other versions
CN110083741A (zh
Inventor
徐童
周培伦
尹智卓
刘�东
吕广奕
陈恩红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910291983.1A priority Critical patent/CN110083741B/zh
Publication of CN110083741A publication Critical patent/CN110083741A/zh
Application granted granted Critical
Publication of CN110083741B publication Critical patent/CN110083741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明公开了一种文本与图像联合建模的面向人物的视频摘要提取方法,包括:对原始视频数据进行预处理,获得等间距的视频帧序列以及与原始视频数据相关的文本信息;利用人物检测的方法逐帧地、无差别地定位出所有的人物区域,并通过一定范围的时间窗口筛选出相关的文本信息;根据选出的人物区域与相关的文本信息,利用重识别的方法将每一人物与目标人物进行匹配,将匹配成功的人物区域及对应文本信息所属的视频帧作为关键帧;根据时间相关性聚合所有关键帧,并补充一些过渡帧以形成流畅的视频片段,从而得到面向人物的视频摘要。该方法可以结合视觉信息以及多源的文本信息,产生更加细粒度的面向视频人物的摘要。

Description

文本与图像联合建模的面向人物的视频摘要提取方法
技术领域
本发明涉及计算机视觉和自然语言处理领域,尤其涉及一种文本与图像联合建模的面向人物的视频摘要提取方法。
背景技术
视频摘要是视频分析的重要问题,它的任务是从一段完整的视频中抽取出包含该视频主要元素的摘要,例如视频中的高亮片段或符合特定主题的摘要等等。在现实场景中,传统的视频摘要方法无法满足用户的更加个性化的需求,尤其对于一些影视爱好者或喜爱特定人物的观众而言,他们可能更乐于做一些特殊的面向人物的摘要,例如特定明星在某部影视作品中出场片段的剪辑等。然而,由于当前的技术所限,单纯基于视频分析的技术往往开支巨大,却很容易造成关键帧的遗漏或误判,从而影响用户体验。
另一方面,注意到,现有的大部分的视频摘要方法都是基于视觉特征来衡量摘要的突出性,却很少利用到视频中富含的文本信息。而事实上,视频中含有大量的不同类型的文本信息,诸如字幕和弹幕等,可以为描述当前帧的内容,尤其是提示当前出场人物的身份特征提供更为直接的语义线索。因此,如能将文本信息和视觉信息有效结合,可以更好地完成面向人物的视频摘要任务。
发明内容
本发明的目的是提供一种文本与图像联合建模的面向人物的视频摘要提取方法,可以结合视觉信息以及多源的文本信息,产生更加细粒度的面向视频人物的摘要。
本发明的目的是通过以下技术方案实现的:
一种文本与图像联合建模的面向人物的视频摘要提取方法,包括:
对原始视频数据进行预处理,获得等间距的视频帧序列以及与原始视频数据相关的文本信息;
利用人物检测的方法逐帧地、无差别地定位出所有的人物区域,并通过一定范围的时间窗口筛选出相关的文本信息;
根据选出的人物区域与相关的文本信息,利用重识别的方法将每一人物与目标人物进行匹配,将匹配成功的人物区域所属的视频帧作为关键帧,并保存相应的文本信息;
根据时间相关性聚合所有关键帧,并补充一些过渡帧以形成流畅的视频片段,再结合对应的文本信息,从而得到面向人物的视频摘要。
由上述本发明提供的技术方案可以看出,相比于传统的视频摘要方法,本发明探究了更加细粒度的面向人物的视频摘要问题。一方面,可以提供更为优良的人物视频摘要,在准确率、召回率和流畅度等主客观指标上都能获得更好的结果;另一方面,通过视频图像与文字的结合,可以充分挖掘并揭示与目标人物相关的语义信息,并为支撑其他相关应用提供了基础。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种文本与图像联合建模的面向人物的视频摘要提取方法的流程图;
图2为本发明实施例提供的人物重识别的示意图;
图3为本发明实施例提供的不同的情境选择文本源的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种文本与图像联合建模的面向人物的视频摘要提取方法,如图1所示,其主要包括如下步骤:
步骤1、对原始视频数据进行预处理,获得等间距的视频帧序列以及与原始视频数据相关的文本信息。
本步骤的优选方式如下:
1)对原始视频数据进行等间距的采样,得到一个由视频帧组成的序列。示例性的,可以设置0.5帧/秒的采样频率进行采样。
2)对与原始视频数据相关的文本进行去噪和时间轴校正。文本信息包括弹幕文本信息与字幕文本信息两种类型。对于弹幕文本信息,为了过滤掉无关的文本,采用正则规则过滤符号字符,并根据打字速度(一般约30字/分钟)对弹幕文本信息的发送时间进行矫正。
步骤2、利用人物检测的方法逐帧地、无差别地定位出所有的人物区域,并通过一定范围的时间窗口筛选出相关的文本信息。
本步骤的优选方式如下:
对于一个视频帧序列,使用基于Faster R-CNN(快速的基于区域的卷积神经网络)的人物检测方法逐帧地、无差别地定位出所有在序列中出现的人物区域;示例性的,对Faster R-CNN人物检测器使用VGG-16网络进行初始化,进而利用Faster R-CNN构建一个简单的二分类器(是否包含人类),并在只包含人物的图像数据集上重新训练以期得到更精准的检测能力。
根据人物区域所属的视频帧的时刻为基准(例如,0s),使用不同范围的时间窗口分别筛选出相关的弹幕文本信息与字幕文本信息。示例性的,弹幕文本的时间窗口为当前帧所处时刻的[-10s,15s]范围(即提取前10s,后15s内所有的弹幕文本),字幕文本的时间窗口为[-45s,45s]。具体时间窗口长度可根据需要进行调整。
同时,采用上述方式从目标视频帧中定位出目标人物区域,并提取相应的文本信息。
步骤3、根据选出的人物区域与相关的文本信息,利用重识别的方法将每一人物与目标人物进行匹配,将匹配成功的人物区域所属的视频帧作为关键帧,并保存相应的文本信息。
本步骤的人物重识别过程可基于图2所示的网络结构来实现,上述步骤2的处理结果为网络的输入。
将定位出的所有人物出现的区域作为候选对象,将目标人物区域作为目标对象,将一对<候选对象,关联文本>作为网络的输入,该输入代表需要通过匹配来识别的不同的人物区域以及与之关联的文本信息,网络的输出为一个二元数组,判断目标对象和候选对象是否属于同一个人物,[1,0]代表是,[0,1]代表否,如果是,则说明匹配成功,将匹配的候选对象所属的视频帧作为关键帧。
如图2所示,人物重识别过程包含两部分结构,主干用于提取目标对象和候选对象的视觉特征差异,分支用于提取出目标对象和候选对象的语义特征差异,优选方式如下:
1)对于每一候选对象,均利用沙漏状的卷积网络结构去提取其与目标对象的多尺度的视觉特征,并计算整体的视觉相异向量。
如图2所示,利用沙漏状的卷积网络结构在不同的尺度上生成目标对象和候选对象的视觉特征图对,并对视觉特征图对进行匹配和包扎操作,从而得到特征差异图;将每一尺度的特征差异图通过全局池化、每个维度的平方化和批量标准化来计算相应的视觉相异向量;最后,将不同尺度对应的视觉相异向量拼接起来作为一个整体的视觉相异向量,通过整体的视觉相异向量来表征目标对象和候选对象在视觉层面上的差异性。
为了便于图形的绘制,图2仅示例性的给出了三种尺度的结构,但是,在实际应用中,用户可以根据需求或者经验来设定具体的尺度数量。
示例性的,主干部分可通过多尺度的克罗内克积匹配(Kronecker-Product-Matching,KPM)模型实现。该模型采用了沙漏状的结构在不同的尺度上生成目标对象和候选对象的特征图对,并基于KPM模块和残差自注意力模块对特征图进行匹配和包扎操作,从而得到特征差异图以用于目标对象和候选对象的相似度估计。
示例性的,首先所有输入图像的分辨率均归一化至256×128,再使用34层的经典残差网络作为特征提取器以得到高层的特征图;在上采样阶段,采用反卷积来得到更大分辨率的特征图;分别采用8×4(分辨率-1),16×8(分辨率-2),32×16(分辨率-3)和64×32(分辨率-4)共计4个分辨率的特征差异图通过全局池化,每个维度的平方化和批量标准化来计算视觉相异向量,通过视觉相异向量来表征目标对象和候选对象在视觉层面上的差异性。相关的参数均可根据实际应用场景的数据特征进行调整。
2)利用长短期记忆网络和神经主题模型提取相关的文本信息的语义特征向量。
a、弹幕是一类具有较强随意性和缺乏规范性的文本,对于弹幕文本信息从两个个角度进行向量化表示:使用多层的字符级长短期记忆网络建模弹幕中的序列信息,提取弹幕的N维的语义向量(也属于字符向量);使用基于变分自编码器的神经主题模型作为弹幕语义的提取器,将弹幕文本信息中的字符在P个主题上的分布作为字符向量构成弹幕文本的表征;弹幕文本信息的语义特征向量表示为文本中所有N维的语义向量与字符向量的均值。
b、对于与弹幕不同源的字幕文本,考虑到其具有较强的规范性,对于字幕文本信息,使用基于负采样的Skip-gram模型(滑动窗口模型)对基于结巴分词后的字幕词语进行了S维的向量化表示,字幕文本信息的语义特征向量表示为文本中所有词向量的均值。
本发明实施例中,所述的N、P与S均为设定的整数;示例性的,可以设置:N=256,P=50,S=300。
基于上述方式,分别对候选对象以及目标对象所对应的文本信息进行处理,获得相应的语义特征向量。
3)通过注意力机制实现整体的视觉相异向量与语义特征向量的融合,从而判定候选对象是否与目标对象匹配。
上一过程完成了文本向量的初始化,这些得到初始化的向量本身已然包含一定程度的语义信息,然而,他们和图像之间的关系仍然是未知的,为了能更好地联合文本和图像信息,需要进行基于注意力机制的文本语义嵌入(即向量的融合)。
本发明实施例中,可以分为两种情况来处理,一种是包含单一类型文本信息的情况,另一种是包含两种类型文本信息的情况。
a、包含单一类型文本信息的情况。
也即,候选对象以及目标对象所对应的文本信息均为弹幕文本信息或者字幕文本信息。
在进行语义嵌入时,认为相近时间内的文本更可能表达相似的语义和构成对人物的相似的描述,将时间窗口内的文本划分为k个段落的集合,得到初始的文本特征矩阵H∈Rk×r,文本特征矩阵的每一行都对应一个段落内文本的所有向量的均值,其中r表示文本的联合表征向量的维度。
不同段落的文本描述与人物的相关性可能各有不同,因此,通过注意力机制来计算每个段落的文本向量Hi的重要性得分αi
Figure BDA0002024435240000051
其中,Vis表示由最高尺度的特征图(即图2中的特征图1)通过全局池化和全连接层后压缩得到的语义向量,i,j=1,...,k;之所以选择使用的特征图1作语义向量的映射,是因为在卷积网络中,越顶层特征图往往越能表达越抽象的语义信息。
之后,根据重要性αi更新每个段落的文本向量Hi
Figure BDA0002024435240000061
基于上述原理,分别对目标对象与候选对象的文本向量进行处理,将目标对象与候选对象更新得到的文本特征矩阵分别记为
Figure BDA0002024435240000062
Figure BDA0002024435240000063
计算
Figure BDA0002024435240000064
时,Vis表示由目标对象最高尺度的特征图通过全局池化和全连接层后压缩得到的语义向量;计算
Figure BDA0002024435240000065
时,Vis表示由候选对象最高尺度的特征图通过全局池化和全连接层后压缩得到的语义向量;
借鉴模型主干部分的KPM模块的思想,对更新的文本特征矩阵对
Figure BDA0002024435240000066
计算语义相异矩阵ΔH
Figure BDA0002024435240000067
将语义相异矩阵ΔH压缩成语义相异向量后经过批量标准化和一个全连接层后与整体的视觉相异向量拼接。
b、包含两种类型文本信息的情况。
也即,候选对象以及目标对象所对应的文本信息均包含弹幕文本信息与字幕文本信息。
由于本发明运用到了视频中富含的多源文本信息,而弹幕作为一类主观性很强的文本与作为客观描述的字幕文本在应用场景上迥异,所以根据情境选择合适的文本类型将是很重要的,因此,根据情境进行文本类型的选择,从而更新语义相异矩阵,其原理如图3所示。
拼接目标对象和候选对象的最高尺度的视觉特征图,得到一个联合特征图Uv=R2 ×w×h×c,其中w、h与c分别代表联合特征图的宽,高与通道数量,将联合特征图Uv经过全局池化层、池化层(例如,步长为2)、全连接层和sigmoid函数激活后,得到因子选择向量S2∈R2;按照之前介绍的方式,分别计算弹幕和字幕文本信息的语义相异矩阵,记为ΔH1与ΔH2,经过与因子选择向量S2的点乘,得到新的语义相异矩阵:
(Δ′H1,Δ′H2)=(ΔH1H2)×S2
再将新的语义相异矩阵压缩成语义相异向量后经过批量标准化和一个全连接层后与整体的视觉相异向量拼接。
对于以上两种情况,均通过拼接得到的向量,来判断候选对象与目标对象是否匹配;示例性的,将拼接得到的向量经过2层全连接层和一个sigmoid函数激活后,得到一个2维的向量,作为相同或者不同的判断。
如果判断结果认为候选对象与目标对象匹配,则候选对象所属的视频帧即可作为关键帧,同时还要保存对应的文本信息。
步骤4、根据时间相关性聚合所有关键帧,并补充一些过渡帧以形成流畅的视频片段,再结合对应的文本信息,从而得到面向人物的视频摘要。
根据上一步骤的输出,将获得一系列的关键帧,理论上面向特定人物的视频摘要已经完成了,但是考虑到观看者可能更加偏好于流畅的视频片段,因此需要将一些过渡帧补充至关键帧中以形成流畅的视频片段。
本步骤优选实施方式如下:
将时间相关性,将相邻的关键帧聚集为一个的片段,获得多个片段;
判断两个片段的时间间隔是否小于设定时间(例如,5s),若是,则将两个片段以及它们的间隙(即两个片段之间的所有视频帧)聚集为一个新的片段;通过这一操作完成片段的聚集;
之后,筛选出片段密度ρs大于阈值(例如,0.6)的全部片段,将筛选出的片段按照时间顺序保存,构成面向人物的视频摘要;其中,片段密度ρs的计算公式为:
Figure BDA0002024435240000071
上式中,|sf|表示关键帧在相应片段中的数量,|s|表示相应片段所包含的总帧数;通过上述方式计算出的ρs可以衡量对象人物在片段中的显著性。
本发明实施例中,步骤2所涉及的人物区域提取方案可以通过人物检测模块来实现;步骤3所涉及的人物重识别方案可以通过人物重识别模块来实现,文本源选择方案可以通过文本源选择模块来实现,步骤4所涉及的关键帧处理方案可以通过关键帧聚合模块来实现。为了提高本发明的上述方案的效果,需要对这些模块进行训练,在训练的过程与前文介绍的过程相同,区别在于训练阶段所涉及的视频中的人物区域带有相应标签。训练阶段,使用随机梯度下降算法来优化交叉熵损失函数,使用的优化器是动量优化器(momentumoptimizer)反向传播优化参数。每个批次的大小为50,每个批次中的正负例比为1:4,初始学习率设置为0.05,随着训练轮数指数级下降。在模型训练后期,只对交叉熵损失大于0.05的批次进行反向传播优化参数。相关参数可根据实际数据特征进行调整。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (9)

1.一种文本与图像联合建模的面向人物的视频摘要提取方法,其特征在于,包括:
对原始视频数据进行预处理,获得等间距的视频帧序列以及与原始视频数据相关的文本信息;
利用人物检测的方法逐帧地、无差别地定位出所有的人物区域,并通过一定范围的时间窗口筛选出相关的文本信息;
根据选出的人物区域与相关的文本信息,利用重识别的方法将每一人物与目标人物进行匹配,将匹配成功的人物区域所属的视频帧作为关键帧,并保存相应的文本信息;
根据时间相关性聚合所有关键帧,并补充一些过渡帧以形成流畅的视频片段,再结合对应的文本信息,从而得到面向人物的视频摘要。
2.根据权利要求1所述的一种文本与图像联合建模的面向人物的视频摘要提取方法,其特征在于,所述对原始视频数据进行预处理包括:
对原始视频数据进行等间距的采样,得到一个由视频帧组成的序列;
并对与原始视频数据相关的文本进行去噪和时间轴校正;其中,对于弹幕文本信息,采用正则规则过滤符号字符,并根据打字速度对弹幕文本信息的发送时间进行矫正。
3.根据权利要求1所述的一种文本与图像联合建模的面向人物的视频摘要提取方法,其特征在于,所述利用人物检测的方法逐帧地、无差别地定位出所有的人物区域,并通过一定范围的时间窗口筛选出相关的文本信息包括:
对于一个视频帧序列,使用基于Faster R-CNN的人物检测方法逐帧地、无差别地定位出所有在序列中出现的人物区域;根据人物区域所属的视频帧的时刻为基准,使用不同范围的时间窗口分别筛选出相关的弹幕文本信息与字幕文本信息。
4.根据权利要求1所述的一种文本与图像联合建模的面向人物的视频摘要提取方法,其特征在于,所述根据选出的人物区域与相关的文本信息,利用重识别的方法将每一人物与目标人物进行匹配,将匹配成功的人物区域所属的视频帧作为关键帧包括:
从目标视频帧中定位出目标人物区域作为目标对象,并提取相应的文本信息;
将定位出的所有人物出现的区域作为候选对象;
对于每一候选对象,均利用沙漏状的卷积网络结构去提取其与目标对象的多尺度的视觉特征,并计算整体的视觉相异向量;同时,利用长短期记忆网络和神经主题模型分别提取候选对象以及目标对象所对应的文本信息的语义特征向量,并通过注意力机制实现视觉相异向量与语义特征向量的融合,从而判定候选对象是否与目标对象匹配;
将匹配的候选对象所属的视频帧作为关键帧。
5.根据权利要求4所述的一种文本与图像联合建模的面向人物的视频摘要提取方法,所述对于每一候选对象,均利用沙漏状的卷积网络结构去提取其与目标对象的多尺度的视觉特征,并计算整体的视觉相异向量包括:
利用沙漏状的卷积网络结构在不同的尺度上生成目标对象和候选对象的视觉特征图对,并对视觉特征图对进行匹配和包扎操作,从而得到特征差异图;
将每一尺度的特征差异图通过全局池化、每个维度的平方化和批量标准化来计算相应的视觉相异向量,最后,将不同尺度对应的视觉相异向量拼接起来作为一个整体的视觉相异向量,通过整体的视觉相异向量来表征目标对象和候选对象在视觉层面上的差异性。
6.根据权利要求5所述的一种文本与图像联合建模的面向人物的视频摘要提取方法,所述利用长短期记忆网络和神经主题模型提取相关的文本信息的语义特征向量包括:
对于弹幕文本信息从两个个角度进行向量化表示:使用多层的字符级长短期记忆网络建模弹幕中的序列信息,提取弹幕的N维的语义向量;使用基于变分自编码器的神经主题模型作为弹幕语义的提取器,将弹幕文本信息中的字符在P个主题上的分布作为字符向量构成弹幕文本的表征;弹幕文本信息的向量表示为文本中所有N维的语义向量与字符向量的均值;
对于字幕文本信息,使用基于负采样的Skip-gram模型对基于结巴分词后的字幕词语进行了S维的向量化表示,字幕文本信息的语义特征向量表示为文本中所有词向量的均值;
所述的N、P与S均为设定的整数;
基于上述方式,分别对候选对象以及目标对象所对应的文本信息进行处理,获得相应的语义特征向量。
7.根据权利要求5或6所述的一种文本与图像联合建模的面向人物的视频摘要提取方法,所述通过注意力机制实现视觉相异向量与语义特征向量的融合包括:
如果候选对象以及目标对象所对应的文本信息均为弹幕文本信息或者字幕文本信息;
将时间窗口内的文本划分为k个段落的集合,得到初始的文本特征矩阵H∈Rk×r,文本特征矩阵的每一行都对应一个段落内的文本的语义特征向量,其中r表示文本的联合表征向量的维度;
通过注意力机制来计算每个段落的文本向量Hi的重要性得分αi
Figure FDA0002024435230000031
其中,Vis表示由最高尺度的特征图通过全局池化和全连接层后压缩得到的语义向量,i,j=1,...,k;
根据重要性αi更新每个段落的文本向量Hi
Figure FDA0002024435230000032
基于上述原理,分别对目标对象与候选对象的文本向量进行处理,将目标对象与候选对象更新得到的文本特征矩阵分别记为
Figure FDA0002024435230000033
Figure FDA0002024435230000034
计算
Figure FDA0002024435230000035
时,Vis表示由目标对象最高尺度的特征图通过全局池化和全连接层后压缩得到的语义向量;计算
Figure FDA0002024435230000036
时,Vis表示由候选对象最高尺度的特征图通过全局池化和全连接层后压缩得到的语义向量;
对更新的文本特征矩阵对
Figure FDA0002024435230000037
计算语义相异矩阵△H
Figure FDA0002024435230000038
将语义相异矩阵△H压缩成语义相异向量后经过批量标准化和一个全连接层后与整体的视觉相异向量拼接。
8.根据权利要求7所述的一种文本与图像联合建模的面向人物的视频摘要提取方法,如果候选对象以及目标对象所对应的文本信息均包含弹幕文本信息与字幕文本信息,则根据情境进行文本类型的选择,从而更新语义相异矩阵:拼接目标对象和候选对象的最高尺度的视觉特征图,得到一个联合特征图Uv=R2×w×h×c,其中w、h与c分别代表联合特征图的宽,高与通道数量,将联合特征图Uv经过全局池化层、池化层、全连接层和sigmoid函数激活后,得到因子选择向量S2∈R2;对于弹幕和字幕文本信息的语义相异矩阵△H1和△H2,经过与因子选择向量S2的点乘,得到新的语义相异矩阵:
(△′H1,△′H2)=(△H1,△H2)×S2
再将新的语义相异矩阵压缩成语义相异向量后经过批量标准化和一个全连接层后与整体的视觉相异向量拼接。
9.根据权利要求1所述的一种文本与图像联合建模的面向人物的视频摘要提取方法,所述根据时间相关性聚合所有关键帧,并补充一些过渡帧以形成流畅的视频片段,从而得到面向人物的视频摘要包括:
将时间相关性,将相邻的关键帧聚集为一个的片段,获得多个片段;
判断两个片段的时间间隔是否小于设定时间,若是,则将两个片段以及它们的间隙聚集为一个新的片段;通过这一操作完成片段的聚集;
之后,筛选出片段密度ρs大于阈值的全部片段,将筛选出的片段按照时间顺序保存,构成面向人物的视频摘要;其中,片段密度ρs的计算公式为:
Figure FDA0002024435230000041
上式中,|sf|表示关键帧在相应片段中的数量,|s|表示相应片段所包含的总帧数。
CN201910291983.1A 2019-04-11 2019-04-11 文本与图像联合建模的面向人物的视频摘要提取方法 Active CN110083741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910291983.1A CN110083741B (zh) 2019-04-11 2019-04-11 文本与图像联合建模的面向人物的视频摘要提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910291983.1A CN110083741B (zh) 2019-04-11 2019-04-11 文本与图像联合建模的面向人物的视频摘要提取方法

Publications (2)

Publication Number Publication Date
CN110083741A CN110083741A (zh) 2019-08-02
CN110083741B true CN110083741B (zh) 2022-10-28

Family

ID=67414864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910291983.1A Active CN110083741B (zh) 2019-04-11 2019-04-11 文本与图像联合建模的面向人物的视频摘要提取方法

Country Status (1)

Country Link
CN (1) CN110083741B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853110B (zh) * 2019-09-20 2023-06-30 杭州火烧云科技有限公司 一种基于生成对抗网络的图片自动调色方法
CN110688411A (zh) * 2019-09-25 2020-01-14 北京地平线机器人技术研发有限公司 一种文本识别方法及装置
CN110781347B (zh) * 2019-10-23 2023-03-07 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及可读存储介质
CN111061915B (zh) * 2019-12-17 2023-04-18 中国科学技术大学 视频人物关系识别方法
CN111209899B (zh) * 2019-12-31 2023-06-02 科大讯飞股份有限公司 救助物资投放方法、系统、装置及存储介质
CN111582587B (zh) * 2020-05-11 2021-06-04 深圳赋乐科技有限公司 一种视频舆情的预测方法及预测系统
CN112380394B (zh) 2020-10-27 2022-05-10 浙江工商大学 面向文本到视频片段定位的渐进式定位方法
CN113011320A (zh) * 2021-03-17 2021-06-22 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN114567798B (zh) * 2022-02-28 2023-12-12 南京烽火星空通信发展有限公司 一种针对互联网短视频变种的溯源方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003051031A2 (en) * 2001-12-06 2003-06-19 The Trustees Of Columbia University In The City Of New York Method and apparatus for planarization of a material by growing and removing a sacrificial film
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003051031A2 (en) * 2001-12-06 2003-06-19 The Trustees Of Columbia University In The City Of New York Method and apparatus for planarization of a material by growing and removing a sacrificial film
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络的航班跟踪视频关键信息识别;宁煜西等;《空军预警学院学报》;20181015(第05期);全文 *

Also Published As

Publication number Publication date
CN110083741A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN110083741B (zh) 文本与图像联合建模的面向人物的视频摘要提取方法
CN111428088B (zh) 视频分类方法、装置及服务器
CN108986186B (zh) 文字转化视频的方法和系统
CN111062871B (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
US9348898B2 (en) Recommendation system with dual collaborative filter usage matrix
CN112163122A (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
US20230077849A1 (en) Content recognition method and apparatus, computer device, and storage medium
US20190286931A1 (en) Method and system for automatic image caption generation
CN111209897B (zh) 视频处理的方法、装置和存储介质
US11481563B2 (en) Translating texts for videos based on video context
CN111984824A (zh) 一种基于多模态的视频推荐方法
CN113343029B (zh) 社交关系增强的复杂视频人物检索方法
CN111008624A (zh) 光学字符识别方法和产生光学字符识别的训练样本的方法
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
Fei et al. Learning user interest with improved triplet deep ranking and web-image priors for topic-related video summarization
CN111986259A (zh) 颜文字检测模型的训练、视频数据的审核方法及相关装置
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN114548323A (zh) 商品分类方法、设备及计算机存储介质
CN114329050A (zh) 视觉媒体数据去重处理方法、装置、设备和存储介质
Tapu et al. TV news retrieval based on story segmentation and concept association
YM et al. Analysis on Exposition of Speech Type Video Using SSD and CNN Techniques for Face Detection
Kannappan et al. Performance evaluation of video summaries using efficient image euclidean distance
CN117576678B (zh) 视频处理方法、装置、设备、介质及产品
Dhakal Political-advertisement video classification using deep learning methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant