CN108683924B - 一种视频处理的方法和装置 - Google Patents
一种视频处理的方法和装置 Download PDFInfo
- Publication number
- CN108683924B CN108683924B CN201810539152.7A CN201810539152A CN108683924B CN 108683924 B CN108683924 B CN 108683924B CN 201810539152 A CN201810539152 A CN 201810539152A CN 108683924 B CN108683924 B CN 108683924B
- Authority
- CN
- China
- Prior art keywords
- caption
- video data
- vector
- target video
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title description 6
- 239000013598 vector Substances 0.000 claims abstract description 127
- 238000013499 data model Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 6
- 239000012634 fragment Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
- H04N21/2353—Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/26603—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Studio Circuits (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明实施例提供了一种视频处理的方法和装置,所述方法包括:获取目标视频数据;从所述目标视频数据中,确定多个第一关键帧,并基于所述多个第一关键帧,将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段;针对每个第一字幕片段,确定对应的第一字幕向量;将所述第一字幕向量输入预先建立的数据模型,并接收所述数据模型输出针对所述目标视频数据的内容描述信息。通过本发明实施例,实现了基于视频字幕,自动生成视频的内容描述,提升了内容描述生成的效率,减少了人力成本。
Description
技术领域
本发明涉及视频处理技术领域,特别是涉及一种视频处理的方法和装置。
背景技术
随着互联网技术的发展,电视剧、电影等视频资源越来越多,且部分视频资源的篇幅较长,用户若完整观看需要花费用户大量的时间。
目前,对于没有时间观看视频,或者,不想完整观看视频的用户,通常可以采用人工的方式,即由工作人员在观看视频资源后,用语言文字总结出视频资源的主要内容,并发布给需要观看的用户。
然而,这种人工的方式通常只针对热度较高的视频资源,不可能对每个视频资源进行总结,且每次总结都需要工作人员完整观看该视频资源,效率低且花费大量的人力成本。
发明内容
鉴于上述问题,提出了本发明实施例以便提供克服上述问题或者至少部分地解决上述问题的一种视频处理的方法和装置。
为了解决上述问题,本发明实施例公开了一种视频处理的方法,所述方法包括:
获取目标视频数据;
从所述目标视频数据中,确定多个第一关键帧,并基于所述多个第一关键帧,将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段;
针对每个第一字幕片段,确定对应的第一字幕向量;
将所述第一字幕向量输入预先建立的数据模型,并接收所述数据模型输出针对所述目标视频数据的内容描述信息。
可选地,所述基于所述多个第一关键帧,将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段的步骤包括:
分别确定多个第一关键帧对应的第一播放时间点;
针对每个第一关键帧,将所述第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段;
从所述目标视频数据的字幕信息中,提取出所述第一播放时段对应的字幕,得到一个或多个第一字幕片段。
可选地,所述从所述目标视频数据中,确定多个第一关键帧的步骤包括:
确定所述目标视频数据中每个图像帧对应的第一特征向量;其中,所述每个图像帧按在所述目标视频数据中的播放顺序进行排列;
根据所述第一特征向量,确定多个第一关键帧。
可选地,所述根据所述第一特征向量,确定多个第一关键帧的步骤包括:
针对相邻图像帧,计算所述第一特征向量的差异值;其中,所述相邻图像帧为相邻排列的两个图像帧;
当检测到所述差异值大于预设差异值时,将所述差异值大于预设差异值对应的相邻图像帧中后一个图像帧,作为第一关键帧。
可选地,所述针对每个第一字幕片段,确定对应的第一字幕向量的步骤包括:
分别对所述一个或多个第一字幕片段进行分词处理,并对所述分词处理后的第一字幕片段进行去重处理,得到一个或多个字词;
针对每个第一字幕片段,以所述一个或多个字词的数量为向量长度,对所述第一字幕片段进行编码,得到对应的第一字幕向量。
可选地,在所述获取目标视频数据的步骤之前,还包括:
获取样本视频数据;
从所述样本视频数据中,确定多个第二关键帧,并基于所述多个第二关键帧,将所述样本视频数据的字幕信息划分为一个或多个第二字幕片段;
针对每个第二字幕片段,确定对应的第二字幕向量和内容描述向量;
采用基于注意力机制的循环神经网络,对所述第二字幕向量和所述内容描述向量进行训练,以建立数据模型。
本发明实施例还提供了一种视频处理的装置,所述装置包括:
目标视频数据获取模块,用于获取目标视频数据;
第一字幕片段确定模块,用于从所述目标视频数据中,确定多个第一关键帧,并基于所述多个第一关键帧,将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段;
第一字幕向量确定模块,用于针对每个第一字幕片段,确定对应的第一字幕向量;
内容描述信息生成模块,用于将所述第一字幕向量输入预先建立的数据模型,并接收所述数据模型输出针对所述目标视频数据的内容描述信息。
可选地,所述第一字幕片段确定模块包括:
第一播放时间点确定子模块,用于分别确定多个第一关键帧对应的第一播放时间点;
第一播放时段确定子模块,用于针对每个第一关键帧,将所述第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段;
第一字幕片段提取子模块,用于从所述目标视频数据的字幕信息中,提取出所述第一播放时段对应的字幕,得到一个或多个第一字幕片段。
可选地,所述第一字幕片段确定模块还包括:
第一关键帧确定子模块,用于确定所述目标视频数据中每个图像帧对应的第一特征向量;其中,所述每个图像帧按在所述目标视频数据中的播放顺序进行排列;
第一关键帧确定子模块,用于根据所述第一特征向量,确定多个第一关键帧。
可选地,所述第一关键帧确定子模块包括:
差异值计算单元,用于针对相邻图像帧,计算所述第一特征向量的差异值;其中,所述相邻图像帧为相邻排列的两个图像帧;
第一关键帧作为单元,用于当检测到所述差异值大于预设差异值时,将所述差异值大于预设差异值对应的相邻图像帧中后一个图像帧,作为第一关键帧。
可选地,所述第一字幕向量确定模块包括:
分词去重子模块,用于分别对所述一个或多个第一字幕片段进行分词处理,并对所述分词处理后的第一字幕片段进行去重处理,得到一个或多个字词;
编码子模块,用于针对每个第一字幕片段,以所述一个或多个字词的数量为向量长度,对所述第一字幕片段进行编码,得到对应的第一字幕向量。
可选地,还包括:
样本视频数据获取模块,用于获取样本视频数据;
第二字幕片段确定模块,用于从所述样本视频数据中,确定多个第二关键帧,并基于所述多个第二关键帧,将所述样本视频数据的字幕信息划分为一个或多个第二字幕片段;
向量确定模块,用于针对每个第二字幕片段,确定对应的第二字幕向量和内容描述向量;
数据模型建立模块,用于采用基于注意力机制的循环神经网络,对所述第二字幕向量和所述内容描述向量进行训练,以建立数据模型。
本发明实施例包括以下优点:
在本发明实施例中,通过获取目标视频数据,从目标视频数据中,确定多个第一关键帧,并基于多个第一关键帧,将目标视频数据的字幕信息划分为一个或多个第一字幕片段,然后针对每个第一字幕片段,确定对应的第一字幕向量,将第一字幕向量输入预先建立的数据模型,并接收数据模型输出针对目标视频数据的内容描述信息,实现了基于视频字幕,自动生成视频的内容描述,提升了内容描述生成的效率,减少了人力成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种视频处理的方法的步骤流程图;
图2是本发明实施例的另一种视频处理的方法的步骤流程图;
图3是本发明实施例的一种图像帧的示意图;
图4是本发明实施例的另一种视频处理的方法的步骤流程图;
图5是本发明实施例的一种Encoder-Decoder架构的示意图;
图6是本发明实施例的一种视频处理的装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,示出了本发明实施例的一种视频处理的方法的步骤流程图,具体可以包括如下步骤:
步骤101,获取目标视频数据;
作为一种示例,目标视频数据可以为电视剧、电影、监控录像等。
在本发明实施例中,客户端可以向服务器获取视频数据列表,并展示给用户,视频数据列表可以包括多个视频数据的标识。
当用户需要获知视频数据列表中某个视频数据的视频内容时,如某一集电视剧的剧情,其可以在客户端中选定目标视频数据的标识,客户端可以将目标视频数据的标识发送至服务器,服务器可以获取目标视频数据,或者,服务器也可以根据后台人员的操作直接获取目标视频数据。
步骤102,从所述目标视频数据中,确定多个第一关键帧,并基于所述多个第一关键帧,将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段;
由于目标视频数据是由多个图像帧组成,而相邻的图像帧之间可能表征同一视频内容,服务器可以对各个图像帧进行特征检测,并可以根据特征检测的结果,从多个图像帧中确定第一关键帧。
在确定第一关键帧后,可以获取目标视频数据的字幕信息,然后可以根据第一关键帧对应的播放时间点,将字幕信息划分为一个或多个字幕片段。
步骤103,针对每个第一字幕片段,确定对应的第一字幕向量;
在获得第一字幕片段后,可以对该第一字幕片段进行编码转换,得到对应的第一字幕向量,以便于数据模型进行处理。
步骤104,将所述第一字幕向量输入预先建立的数据模型,并接收所述数据模型输出针对所述目标视频数据的内容描述信息。
作为一种示例,内容描述信息可以为文本信息。
在获得第一字幕向量后,服务器可以将每个第一字幕片段对应的第一字幕向量输入数据模型,数据模型可以将分别确定每个第一字幕向量对应的内容描述信息,并可以将每个第一字幕向量对应的内容描述信息组织成针对目标视频数据的内容描述信息。
在本发明实施例中,通过获取目标视频数据,从目标视频数据中,确定多个第一关键帧,并基于多个第一关键帧,将目标视频数据的字幕信息划分为一个或多个第一字幕片段,然后针对每个第一字幕片段,确定对应的第一字幕向量,将第一字幕向量输入预先建立的数据模型,并接收数据模型输出针对目标视频数据的内容描述信息,实现了基于视频字幕,自动生成视频的内容描述,提升了内容描述生成的效率,减少了人力成本。
参照图2,示出了本发明实施例的另一种视频处理的方法的步骤流程图,具体可以包括如下步骤:
步骤201,获取目标视频数据;
在本发明实施例中,客户端可以向服务器获取视频数据列表,并展示给用户,视频数据列表可以包括多个视频数据的标识。
当用户需要获知视频数据列表中某个视频数据的视频内容时,如某一集电视剧的剧情,其可以在客户端中选定目标视频数据的标识,客户端可以将目标视频数据的标识发送至服务器,服务器可以获取目标视频数据,或者,服务器也可以根据后台人员的操作直接获取目标视频数据。
步骤202,确定所述目标视频数据中每个图像帧对应的第一特征向量;其中,所述每个图像帧按在所述目标视频数据中的播放顺序进行排列;
其中,每个图像帧可以按在目标视频数据中的播放顺序进行排列。
在获得目标视频数据后,服务器可以对目标视频数据进行解码,从中提取出组成目标视频数据的多个图像帧。
针对每个图像帧,服务器可以采用卷积神经网络(Convolutional NeuralNetwork,CNN),如采用训练好的VGG16模型,分别对图像帧进行图像特征提取,如可以在前几层抽取图像的底层边缘特征,如图像的垂线等,后续层逐渐抽取更抽象的特征,进而得到每个图像帧对应的第一特征向量。
步骤203,根据所述第一特征向量,确定多个第一关键帧;
由于相邻的图像帧之间可能表征同一视频内容,而表征同一视频内容的图像帧对应的第一特征向量的差异较小,服务器可以根据第一特征向量的差异,从目标视频数据的多个图像帧中确定第一关键帧。
具体的,步骤203可以包括如下子步骤:
子步骤11,针对相邻图像帧,计算所述第一特征向量的差异值;其中,所述相邻图像帧为相邻排列的两个图像帧;
其中,相邻图像帧可以为相邻排列的两个图像帧。
针对相邻排列的两个图像帧,服务器可以按照预设的差异值公式,计算两个图像帧对应的第一特征向量的差异值。
例如,相邻排列的两个图像帧对应的第一特征向量分别为:A=[1,2,3],B=[4,5,6],则差异值为:
子步骤12,当检测到所述差异值大于预设差异值时,将所述差异值大于预设差异值对应的相邻图像帧中后一个图像帧,作为第一关键帧。
由于图像帧是按在目标视频数据中的播放顺序进行排列,当检测到差异值大于预设差异值时,则可以将相邻排列的两个图像帧中排列在后的图像帧,作为第一关键帧,得到至少两个关键帧。
需要说明的是,为了保证目标视频数据的完整性,可以将在目标视频数据中的播放顺序排列为第一个的图像帧,作为一个第一关键帧,即将目标视频数据的第一个图像帧作为第一关键帧,也可以将按在目标视频数据中的播放顺序排列为最后一个的图像帧,作为一个第一关键帧,即将目标视频数据的最后一个图像帧作为第一关键帧。
如图3,在图像帧的示意图中,可以将第一个图像帧a、差异值大于预设差异值的图像帧b、c,以及最后一个图像帧d,作为第一关键帧。
步骤204,分别确定多个第一关键帧对应的第一播放时间点;
在目标视频数据中,每个图像帧与播放时间相对应,在确定第一关键帧后,可以确定每个第一关键帧对应的第一播放时间点,如1分30秒。
步骤205,针对每个第一关键帧,将所述第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段;
由于每个图像帧可以按在目标视频数据中的播放顺序进行排列,多个第一关键帧之间也可以按在目标视频数据中的播放顺序进行排列,针对每个第一关键帧,可以将该第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段。
例如,第一关键帧对应的第一播放时间点为1分30秒,该第一关键帧的后一个第一关键帧对应的播放时间点为2分30秒,则第一播放时段为1分30秒至2分30秒。
步骤206,从所述目标视频数据的字幕信息中,提取出所述第一播放时段对应的字幕,得到一个或多个第一字幕片段;
在目标视频数据中,字幕信息与播放时间相对应,在确定第一播放时段后,可以从字幕信息中提取出第一播放时段对应的字幕,得到一个或多个第一字幕片段。
步骤207,针对每个第一字幕片段,确定对应的第一字幕向量;
在获得第一字幕片段后,可以对该第一字幕片段进行编码转换,得到对应的第一字幕向量,以便于数据模型进行处理。
具体的,步骤207可以包括如下子步骤:
子步骤21,分别对所述一个或多个第一字幕片段进行分词处理,并对所述分词处理后的第一字幕片段进行去重处理,得到一个或多个字词;
在具体实现中,可以对第一字幕片段进行切分,然后再去除其中重复的字词,得到一个或多个字词。
例如,第一字幕片段包括文本a“我爱故宫”和文本b“北京故宫”,对文本a进行分词处理后,得到“我”、“爱”、“故宫”3个字词,对文本b进行分词处理后,得到“北京”、“故宫”2个字词,然后进行去重处理,得到“我”、“爱”、“北京”、“故宫”4个字词。
子步骤22,针对每个第一字幕片段,以所述一个或多个字词的数量为向量长度,对所述第一字幕片段进行编码,得到对应的第一字幕向量。
在获得一个或多个字词后,可以统计一个或多个字词的数量,然后可以以该数量为向量长度,对第一字幕片段进行编码,如独热编码(One-Hot Encoding),并在编码后,组织成第一字幕向量。
例如,“我”、“爱”、“北京”、“故宫”为4个字词,向量长度为4,则对文本a进行独热编码为:[1,0,0,0]、[0,1,0,0]、[0,0,0,1],对文本b进行独热编码为:、[0,0,1,0]、[0,0,0,1]。
步骤208,将所述第一字幕向量输入预先建立的数据模型,并接收所述数据模型输出针对所述目标视频数据的内容描述信息。
在获得第一字幕向量后,服务器可以将每个第一字幕片段对应的第一字幕向量输入数据模型,数据模型可以将分别确定每个第一字幕向量对应的内容描述信息,并将每个第一字幕向量对应的内容描述信息组织成针对目标视频数据的内容描述信息。
在一种示例中,可以根据第一播放时段,确定每个第一字幕片段对应的视频片段,并建立每个第一字幕向量对应的内容描述信息与视频片段的关联关系,以将该内容描述信息作为该视频片段的文本摘要,便于用户获取视频片段的视频内容。
在本发明实施例中,通过获取目标视频数据,从目标视频数据中,确定多个第一关键帧,并基于多个第一关键帧,将目标视频数据的字幕信息划分为一个或多个第一字幕片段,然后针对每个第一字幕片段,确定对应的第一字幕向量,将第一字幕向量输入预先建立的数据模型,并接收数据模型输出针对目标视频数据的内容描述信息,实现了基于视频字幕,自动生成视频的内容描述,提升了内容描述生成的效率,减少了人力成本。
而且,通过分别确定多个第一关键帧对应的第一播放时间点,然后针对每个第一关键帧,将第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段,并提取出第一播放时段对应的第一字幕片段,实现了基于图像特征对字幕进行划分,并采用划分后的字幕生成内容描述,保证内容描述的准确性、完整性。
参照图4,示出了本发明实施例的另一种视频处理的方法的步骤流程图,具体可以包括如下步骤:
步骤401,获取样本视频数据;
在本发明实施例中,服务器可以获得多个样本数据视频,以进行模型训练,建立数据模型,如样本视频数据可以为电视剧、电影、监控录像等。
步骤402,从所述样本视频数据中,确定多个第二关键帧,并基于所述多个第二关键帧,将所述样本视频数据的字幕信息划分为一个或多个第二字幕片段;
在获得样本视频数据后,可以确定目标视频数据中每个图像帧对应的第二特征向量,并可以根据第二特征向量,确定多个第二关键帧。
在一种示例中,可以针对相邻图像帧,计算第二特征向量的差异值,当检测到差异值大于预设差异值时,将差异值大于预设差异值对应的相邻图像帧中后一个图像帧,作为第二关键帧。
在确定第二关键帧后,可以分别确定多个第二关键帧对应的第二播放时间点,针对每个第二关键帧,可以将第二关键帧与后一个第二关键帧对应的第二播放时间点组成第二播放时段,然后可以从目标视频数据的字幕信息中,提取出第二播放时段对应的字幕,得到一个或多个第二字幕片段。
步骤403,针对每个第二字幕片段,确定对应的第二字幕向量和内容描述向量;
在获得第二字幕片段后,可以将分别对一个或多个第二字幕片段进行分词处理,并对分词处理后的第二字幕片段进行去重处理,得到一个或多个字词,然后针对每个第二字幕片段,以一个或多个字词的数量为向量长度,对第二字幕片段进行编码,得到对应的第二字幕向量。
针对每个第二字幕片段,可以获取对应的原始内容描述,然后可以对原始内容描述进行分词处理,并对分词处理后的原始内容描述进行去重处理,得到一个或多个字词,然后以一个或多个字词的数量为向量长度,对原始内容描述进行编码,得到每个第二字幕片段对应的内容描述向量。
作为一种示例,原始内容描述可以为文本信息,其可以为后台工作人员在人工观看每个第二播放时段对应的视频数据后,采用人工标注的方式输入原始内容描述,以表征每个第二字幕片段对应的视频内容。
需要说明的是,由于步骤402、步骤403中关于第二关键帧、第二字幕片段、第二字幕向量的部分与上文中关于第一关键帧、第一字幕片段、第一字幕向量的部分相对应,相关术语和描述可以参考上文,此处不再重复。
步骤404,采用基于注意力机制的循环神经网络,对所述第二字幕向量和所述内容描述向量进行训练,以建立数据模型。
在本发明实施例中,可以采用Encoder-Decoder架构进行模型训练,Encoder-Decoder架构即为编码-解码模型,如图5,编码即为将输入序列X转化成一个固定长度的向量C,如将输入的第二字幕片段转化成第二字幕向量,解码即为将之前生成的固定向量C再转化成输出序列Y,如第二字幕向量再转化成内容描述信息。
其中,Encoder可以采用卷积神经网络,Encoder输出即为上文中的第二字幕向量和内容描述向量,Decoder可以采用循环神经网络(Recurrent Neural Networks,RNN),Encoder的输出可以作为Decoder的输入。
在模型训练的过程中,可以在Decoder中采用基于注意力机制的循环神经网络,注意力机制可以通过调整模型参数,确定字幕中的关注位置,然后基于调整后的模型参数,建立数据模型。
例如,在第二字幕片段为“C罗在冲突围追拦截后,从左边轻轻带过,来到球门前轻轻一脚踢进了这一球”时,由于文本内容很长,若不加入注意力机制则可能会在读入很长的文本后会遗忘前面的内容,注意力机制使得模型在看到文本时,将注意力集中在“C罗踢进一球”的部分。
在生成内容描述信息的过程中,注意机制可以进行注意力运算,计算字幕片段中文本对应的softmax概率,将softmax概率最大的文本作为关注位置,得到对应的内容描述信息,从而使得数据模型能够输出更加流畅、更具有逻辑性的内容描述信息。
例如,在上一刻输出的内容描述信息为“爱”时,通过注意力机制,数据模型会关注第二字幕片段中“故宫”的文本,得到当前的内容描述信息为“故宫”。
又如,在上述“C罗在冲突围追拦截后,从左边轻轻带过,来到球门前轻轻一脚踢进了这一球”的例子中,Decoder在读入末尾的“球”词汇时,注意力记住会关注在前面的“C罗”和“踢进”,抓住了文本的重点。
在本发明实施例中,通过获取样本视频数据,从样本视频数据中,确定多个第二关键帧,并基于多个第二关键帧,将样本视频数据的字幕信息划分为一个或多个第二字幕片段,然后针对每个第二字幕片段,确定对应的第二字幕向量和内容描述向量,采用基于注意力机制的循环神经网络,对第二字幕向量和内容描述向量进行训练,以建立数据模型,实现了采用视频字幕进行模型训练,且通过引入注意力机制,保证了数据模型生成内容描述的流畅性、逻辑性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图6,示出了本发明实施例的一种视频处理的装置的结构框图,具体可以包括如下模块:
目标视频数据获取模块601,用于获取目标视频数据;
第一字幕片段确定模块602,用于从所述目标视频数据中,确定多个第一关键帧,并基于所述多个第一关键帧,将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段;
第一字幕向量确定模块603,用于针对每个第一字幕片段,确定对应的第一字幕向量;
内容描述信息生成模块604,用于将所述第一字幕向量输入预先建立的数据模型,并接收所述数据模型输出针对所述目标视频数据的内容描述信息。
在本发明一种实施例中,所述第一字幕片段确定模块602包括:
第一播放时间点确定子模块,用于分别确定多个第一关键帧对应的第一播放时间点;
第一播放时段确定子模块,用于针对每个第一关键帧,将所述第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段;
第一字幕片段提取子模块,用于从所述目标视频数据的字幕信息中,提取出所述第一播放时段对应的字幕,得到一个或多个第一字幕片段。
在本发明一种实施例中,所述第一字幕片段确定模块602还包括:
第一关键帧确定子模块,用于确定所述目标视频数据中每个图像帧对应的第一特征向量;其中,所述每个图像帧按在所述目标视频数据中的播放顺序进行排列;
第一关键帧确定子模块,用于根据所述第一特征向量,确定多个第一关键帧。
在本发明一种实施例中,所述第一关键帧确定子模块包括:
差异值计算单元,用于针对相邻图像帧,计算所述第一特征向量的差异值;其中,所述相邻图像帧为相邻排列的两个图像帧;
第一关键帧作为单元,用于当检测到所述差异值大于预设差异值时,将所述差异值大于预设差异值对应的相邻图像帧中后一个图像帧,作为第一关键帧。
在本发明一种实施例中,所述第一字幕向量确定模块603包括:
分词去重子模块,用于分别对所述一个或多个第一字幕片段进行分词处理,并对所述分词处理后的第一字幕片段进行去重处理,得到一个或多个字词;
编码子模块,用于针对每个第一字幕片段,以所述一个或多个字词的数量为向量长度,对所述第一字幕片段进行编码,得到对应的第一字幕向量。
在本发明一种实施例中,还包括:
样本视频数据获取模块,用于获取样本视频数据;
第二字幕片段确定模块,用于从所述样本视频数据中,确定多个第二关键帧,并基于所述多个第二关键帧,将所述样本视频数据的字幕信息划分为一个或多个第二字幕片段;
向量确定模块,用于针对每个第二字幕片段,确定对应的第二字幕向量和内容描述向量;
数据模型建立模块,用于采用基于注意力机制的循环神经网络,对所述第二字幕向量和所述内容描述向量进行训练,以建立数据模型。
在本发明实施例中,通过设置目标视频数据获取模块,用于获取目标视频数据,设置第一字幕片段确定模块,用于从目标视频数据中,确定多个第一关键帧,并基于多个第一关键帧,将目标视频数据的字幕信息划分为一个或多个第一字幕片段,并设置第一字幕向量确定模块,用于针对每个第一字幕片段,确定对应的第一字幕向量,设置内容描述信息生成模块,用于将第一字幕向量输入预先建立的数据模型,并接收数据模型输出针对所述目标视频数据的内容描述信息,实现了基于视频字幕,自动生成视频的内容描述,提升了内容描述生成的效率,减少了人力成本。
本发明实施例还公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的一种视频处理的方法的步骤。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的一种视频处理的方法的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种视频处理的方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种视频处理的方法,其特征在于,所述方法包括:
获取目标视频数据;
从所述目标视频数据中,确定多个第一关键帧,并基于所述多个第一关键帧对应的播放时间点,将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段;
针对每个第一字幕片段,确定对应的第一字幕向量;
将所述第一字幕向量输入预先建立的数据模型,并接收所述数据模型输出针对所述目标视频数据的内容描述信息;
其中,所述从所述目标视频数据中,确定多个第一关键帧的步骤包括:
确定所述目标视频数据中每个图像帧对应的第一特征向量;其中,所述每个图像帧按在所述目标视频数据中的播放顺序进行排列;
针对相邻图像帧,计算所述第一特征向量的差异值;其中,所述相邻图像帧为相邻排列的两个图像帧;
当检测到所述差异值大于预设差异值时,将所述差异值大于预设差异值对应的相邻图像帧中后一个图像帧,作为第一关键帧。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个第一关键帧,将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段的步骤包括:
分别确定多个第一关键帧对应的第一播放时间点;
针对每个第一关键帧,将所述第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段;
从所述目标视频数据的字幕信息中,提取出所述第一播放时段对应的字幕,得到一个或多个第一字幕片段。
3.根据权利要求1或2所述的方法,其特征在于,所述针对每个第一字幕片段,确定对应的第一字幕向量的步骤包括:
分别对所述一个或多个第一字幕片段进行分词处理,并对所述分词处理后的第一字幕片段进行去重处理,得到一个或多个字词;
针对每个第一字幕片段,以所述一个或多个字词的数量为向量长度,对所述第一字幕片段进行编码,得到对应的第一字幕向量。
4.根据权利要求1所述的方法,其特征在于,在所述获取目标视频数据的步骤之前,还包括:
获取样本视频数据;
从所述样本视频数据中,确定多个第二关键帧,并基于所述多个第二关键帧,将所述样本视频数据的字幕信息划分为一个或多个第二字幕片段;
针对每个第二字幕片段,确定对应的第二字幕向量和内容描述向量;
采用基于注意力机制的循环神经网络,对所述第二字幕向量和所述内容描述向量进行训练,以建立数据模型。
5.一种视频处理的装置,其特征在于,所述装置包括:
目标视频数据获取模块,用于获取目标视频数据;
第一字幕片段确定模块,用于从所述目标视频数据中,确定多个第一关键帧,并基于所述多个第一关键帧对应的播放时间点,将所述目标视频数据的字幕信息划分为一个或多个第一字幕片段;
第一字幕向量确定模块,用于针对每个第一字幕片段,确定对应的第一字幕向量;
内容描述信息生成模块,用于将所述第一字幕向量输入预先建立的数据模型,并接收所述数据模型输出针对所述目标视频数据的内容描述信息;
其中,所述第一字幕片段确定模块还包括:
第一关键帧确定子模块,用于确定所述目标视频数据中每个图像帧对应的第一特征向量;其中,所述每个图像帧按在所述目标视频数据中的播放顺序进行排列;针对相邻图像帧,计算所述第一特征向量的差异值;其中,所述相邻图像帧为相邻排列的两个图像帧;当检测到所述差异值大于预设差异值时,将所述差异值大于预设差异值对应的相邻图像帧中后一个图像帧,作为第一关键帧。
6.根据权利要求5所述的装置,其特征在于,所述第一字幕片段确定模块包括:
第一播放时间点确定子模块,用于分别确定多个第一关键帧对应的第一播放时间点;
第一播放时段确定子模块,用于针对每个第一关键帧,将所述第一关键帧与后一个第一关键帧对应的第一播放时间点组成第一播放时段;
第一字幕片段提取子模块,用于从所述目标视频数据的字幕信息中,提取出所述第一播放时段对应的字幕,得到一个或多个第一字幕片段。
7.根据权利要求5或6所述的装置,其特征在于,所述第一字幕向量确定模块包括:
分词去重子模块,用于分别对所述一个或多个第一字幕片段进行分词处理,并对所述分词处理后的第一字幕片段进行去重处理,得到一个或多个字词;
编码子模块,用于针对每个第一字幕片段,以所述一个或多个字词的数量为向量长度,对所述第一字幕片段进行编码,得到对应的第一字幕向量。
8.根据权利要求5所述的装置,其特征在于,还包括:
样本视频数据获取模块,用于获取样本视频数据;
第二字幕片段确定模块,用于从所述样本视频数据中,确定多个第二关键帧,并基于所述多个第二关键帧,将所述样本视频数据的字幕信息划分为一个或多个第二字幕片段;
向量确定模块,用于针对每个第二字幕片段,确定对应的第二字幕向量和内容描述向量;
数据模型建立模块,用于采用基于注意力机制的循环神经网络,对所述第二字幕向量和所述内容描述向量进行训练,以建立数据模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810539152.7A CN108683924B (zh) | 2018-05-30 | 2018-05-30 | 一种视频处理的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810539152.7A CN108683924B (zh) | 2018-05-30 | 2018-05-30 | 一种视频处理的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108683924A CN108683924A (zh) | 2018-10-19 |
CN108683924B true CN108683924B (zh) | 2021-12-28 |
Family
ID=63809089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810539152.7A Active CN108683924B (zh) | 2018-05-30 | 2018-05-30 | 一种视频处理的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108683924B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109743617B (zh) * | 2018-12-03 | 2020-11-24 | 清华大学 | 一种视频播放的跳转导航方法和设备 |
CN109803180B (zh) * | 2019-03-08 | 2022-05-20 | 腾讯科技(深圳)有限公司 | 视频预览图生成方法、装置、计算机设备及存储介质 |
CN109992678B (zh) * | 2019-03-14 | 2021-05-11 | 深圳市腾讯计算机系统有限公司 | 目标多媒体文件的确定方法及装置 |
CN109889879A (zh) * | 2019-03-25 | 2019-06-14 | 联想(北京)有限公司 | 信息控制方法及电子设备 |
CN110598046B (zh) * | 2019-09-17 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的标题党识别方法和相关装置 |
CN110781345B (zh) * | 2019-10-31 | 2022-12-27 | 北京达佳互联信息技术有限公司 | 视频描述生成模型的获取方法、视频描述生成方法及装置 |
CN114222193B (zh) * | 2021-12-03 | 2024-01-05 | 北京影谱科技股份有限公司 | 一种视频字幕时间对齐模型训练方法及系统 |
CN114143613B (zh) * | 2021-12-03 | 2023-07-21 | 北京影谱科技股份有限公司 | 一种视频字幕时间对齐方法、系统及存储介质 |
CN115150660B (zh) * | 2022-06-09 | 2024-05-10 | 深圳市闪剪智能科技有限公司 | 一种基于字幕的视频编辑方法和相关设备 |
CN115952255B (zh) * | 2022-11-21 | 2023-12-05 | 北京邮电大学 | 多模态信号内容分析方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719144A (zh) * | 2009-11-04 | 2010-06-02 | 中国科学院声学研究所 | 一种联合字幕和视频图像信息进行场景分割和索引的方法 |
CN105516348A (zh) * | 2015-12-31 | 2016-04-20 | 北京奇艺世纪科技有限公司 | 一种信息分享的方法和系统 |
CN105894043A (zh) * | 2016-04-27 | 2016-08-24 | 上海高智科技发展有限公司 | 一种视频描述语句生成方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464893B (zh) * | 2008-12-31 | 2010-09-08 | 清华大学 | 一种提取视频摘要的方法及装置 |
JP5427087B2 (ja) * | 2010-03-30 | 2014-02-26 | エフ・エーシステムエンジニアリング株式会社 | 3d字幕制作装置 |
CN104123396B (zh) * | 2014-08-15 | 2017-07-07 | 三星电子(中国)研发中心 | 一种基于云电视的足球视频摘要生成方法及装置 |
CN105279495B (zh) * | 2015-10-23 | 2019-06-04 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
CN106888407B (zh) * | 2017-03-28 | 2019-04-02 | 腾讯科技(深圳)有限公司 | 一种视频摘要生成方法及装置 |
CN107180074A (zh) * | 2017-03-31 | 2017-09-19 | 北京奇艺世纪科技有限公司 | 一种视频分类方法及装置 |
CN107066973B (zh) * | 2017-04-17 | 2020-07-21 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
-
2018
- 2018-05-30 CN CN201810539152.7A patent/CN108683924B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719144A (zh) * | 2009-11-04 | 2010-06-02 | 中国科学院声学研究所 | 一种联合字幕和视频图像信息进行场景分割和索引的方法 |
CN105516348A (zh) * | 2015-12-31 | 2016-04-20 | 北京奇艺世纪科技有限公司 | 一种信息分享的方法和系统 |
CN105894043A (zh) * | 2016-04-27 | 2016-08-24 | 上海高智科技发展有限公司 | 一种视频描述语句生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108683924A (zh) | 2018-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108683924B (zh) | 一种视频处理的方法和装置 | |
CN110119711B (zh) | 一种获取视频数据人物片段的方法、装置及电子设备 | |
CN107707931B (zh) | 根据视频数据生成解释数据、数据合成方法及装置、电子设备 | |
CN106792100B (zh) | 一种视频弹幕显示方法及装置 | |
US9514503B2 (en) | Methods and apparatus to generate and use content-aware watermarks | |
CN113691836B (zh) | 视频模板生成方法、视频生成方法、装置和电子设备 | |
Shi et al. | A fast and robust key frame extraction method for video copyright protection | |
CN112163122A (zh) | 确定目标视频的标签的方法、装置、计算设备及存储介质 | |
KR101916874B1 (ko) | 자동으로 동영상 하이라이트 영상의 제목을 생성하는 방법, 장치 및 컴퓨터 판독가능 기록 매체 | |
US10469918B1 (en) | Expanded previously on segments | |
CN109508406B (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
CN110287375B (zh) | 视频标签的确定方法、装置及服务器 | |
CN111753673A (zh) | 一种视频数据的检测方法和装置 | |
US9723374B2 (en) | Programmatically determining when credits appear during a video in order to provide supplemental information | |
US10897658B1 (en) | Techniques for annotating media content | |
RU2413990C2 (ru) | Способ и устройство для обнаружения границ элемента контента | |
CN112507163A (zh) | 时长预测模型训练方法、推荐方法、装置、设备及介质 | |
CN114845149A (zh) | 视频片段的剪辑方法、视频推荐方法、装置、设备及介质 | |
CN113569719A (zh) | 视频侵权判定方法、装置、存储介质及电子设备 | |
CN117319765A (zh) | 视频处理方法、装置、计算设备及计算机存储介质 | |
EP3809318A1 (en) | Artificial intelligence-assisted content source identification | |
CN108881950B (zh) | 一种视频处理的方法和装置 | |
EP3772856A1 (en) | Identification of the intro part of a video content | |
Ohnishi et al. | Prototype design of playback and search system for lecture video content using google cloud api | |
JP2021012466A (ja) | メタデータ生成システム、映像コンテンツ管理システム及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |