CN117412146A - 视频切分方法、装置、计算机设备和存储介质 - Google Patents
视频切分方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117412146A CN117412146A CN202210788825.9A CN202210788825A CN117412146A CN 117412146 A CN117412146 A CN 117412146A CN 202210788825 A CN202210788825 A CN 202210788825A CN 117412146 A CN117412146 A CN 117412146A
- Authority
- CN
- China
- Prior art keywords
- video
- target
- data
- mode
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 298
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012216 screening Methods 0.000 claims abstract description 56
- 238000007499 fusion processing Methods 0.000 claims abstract description 33
- 238000004590 computer program Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims description 69
- 230000000007 visual effect Effects 0.000 claims description 57
- 238000006243 chemical reaction Methods 0.000 claims description 29
- 238000005070 sampling Methods 0.000 claims description 29
- 230000004927 fusion Effects 0.000 claims description 28
- 238000004891 communication Methods 0.000 claims description 27
- 238000001914 filtration Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 239000013598 vector Substances 0.000 description 12
- 238000013145 classification model Methods 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本申请涉及一种视频切分方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取目标视频在至少两种不同模态下各自的模态数据;根据每一模态下的模态数据与预设数据间的相似度,分别从每一模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据;基于目标模态数据所匹配的目标视频帧在目标视频中的位置,确定目标视频在不同模态下各自的视频片段切分点;按照各视频片段切分点间的切分间隔,对各视频片段切分点进行多模态融合处理,得到目标视频的视频片段切分结果。采用本申请实施例方法能够提高视频的切分效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种视频切分方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,对视频进行片段切分,是传统广电行业对视频进行处理的重要先导环节,主要是根据视频中不同的内容,将一个完整视频中的多条视频片段分别切分出来。
传统方法中,主要是基于有经验的专业人员,通过观看视频进行人工切分。或者,通过识别出视频中的一个特定场景,将不同的视频片段进行切分。但是,不同类型的视频,特定场景不一致,且视频中可能还包含广告、片花等内容,导致视频的切分难度比较高,切分效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高视频的切分效率的视频切分方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种视频切分方法。所述方法包括:
获取目标视频在至少两种不同模态下各自的模态数据;
根据每一所述模态下的模态数据与预设数据间的相似度,分别从每一所述模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据;
基于所述目标模态数据所匹配的目标视频帧在所述目标视频中的位置,确定所述目标视频在不同模态下各自的视频片段切分点;
按照各所述视频片段切分点间的切分间隔,对各所述视频片段切分点进行多模态融合处理,得到所述目标视频的视频片段切分结果。
第二方面,本申请还提供了一种视频切分装置。所述装置包括:
数据获取模块,用于获取目标视频在至少两种不同模态下各自的模态数据;
数据筛选模块,用于根据每一所述模态下的模态数据与预设数据间的相似度,分别从每一所述模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据;
切分点确定模块,用于基于所述目标模态数据所匹配的目标视频帧在所述目标视频中的位置,确定所述目标视频在不同模态下各自的视频片段切分点;
切分点融合模块,用于按照各所述视频片段切分点间的切分间隔,对各所述视频片段切分点进行多模态融合处理,得到所述目标视频的视频片段切分结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标视频在至少两种不同模态下各自的模态数据;
根据每一所述模态下的模态数据与预设数据间的相似度,分别从每一所述模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据;
基于所述目标模态数据所匹配的目标视频帧在所述目标视频中的位置,确定所述目标视频在不同模态下各自的视频片段切分点;
按照各所述视频片段切分点间的切分间隔,对各所述视频片段切分点进行多模态融合处理,得到所述目标视频的视频片段切分结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标视频在至少两种不同模态下各自的模态数据;
根据每一所述模态下的模态数据与预设数据间的相似度,分别从每一所述模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据;
基于所述目标模态数据所匹配的目标视频帧在所述目标视频中的位置,确定所述目标视频在不同模态下各自的视频片段切分点;
按照各所述视频片段切分点间的切分间隔,对各所述视频片段切分点进行多模态融合处理,得到所述目标视频的视频片段切分结果。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取目标视频在至少两种不同模态下各自的模态数据;
根据每一所述模态下的模态数据与预设数据间的相似度,分别从每一所述模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据;
基于所述目标模态数据所匹配的目标视频帧在所述目标视频中的位置,确定所述目标视频在不同模态下各自的视频片段切分点;
按照各所述视频片段切分点间的切分间隔,对各所述视频片段切分点进行多模态融合处理,得到所述目标视频的视频片段切分结果。
上述视频切分方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,通过获取目标视频在至少两种不同模态下各自的模态数据,可以确保所获得的模态数据的多样性。然后,根据每一模态下的模态数据与预设数据间的相似度,分别从每一模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据,可以确保筛选出的目标模态数据的准确度,且后续可以针对于目标模态数据进行处理,提高数据处理效率。通过基于目标模态数据所匹配的目标视频帧在目标视频中的位置,确定目标视频在不同模态下各自的视频片段切分点,从而无需确定视频中的某个特定场景,提高视频片段切分点的准确度。最后,按照各视频片段切分点间的切分间隔,对各视频片段切分点进行多模态融合处理,能够综合多种模态数据的信息,得到目标视频的视频片段切分结果,提高视频的切分准确度和切分效率。
附图说明
图1为一个实施例中视频切分方法的应用环境图;
图2为一个实施例中视频切分方法的流程示意图;
图3为一个具体实施例中确定语音模态下的视频片段切分点的步骤示意图;
图4为一个具体实施例中确定视觉模态下的视频片段切分点的步骤示意图;
图5为一个具体实施例中确定文本模态下的视频片段切分点的步骤示意图;
图6为一个具体实施例中视频切分方法的整体步骤示意图;
图7为一个具体实施例中视频切分方法的整体架构示意图;
图8为一个具体实施例中确定文本模态下的视频片段切分点的示意图;
图9为一个具体实施例中对文本数据进行文本分类处理的示意图;
图10为一个具体实施例中视频切分方法的应用界面示意图;
图11为一个实施例中视频切分装置的结构框图;
图12为一个实施例中计算机设备的内部结构图;
图13为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请所涉及的视频、目标视频、目标视频的模态数据等,均为经用户授权或者经过各方充分授权的数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在一个实施例中,本申请实施例提供的视频切分方法,可以应用于如图1所示的应用环境中,该应用环境涉及终端102和服务器104。在一些实施例中,还可以同时涉及一个或者多个终端106。其中,终端102、终端106可以通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
具体地,终端102和终端106可以拍摄和存储视频,在服务器104从终端102和/或终端106中获取目标视频时,目标视频可以是实时拍摄的视频,还可以是历史拍摄的视频。由此,服务器104通过对目标视频进行处理,可获取目标视频在至少两种不同模态下各自的模态数据。或者,终端102和终端106可以分别采用不同模态拍摄和存储视频。从而,服务器104可以直接从终端102和/或终端106获取目标视频在至少两种不同模态下各自的模态数据。
服务器104根据每一模态下的模态数据与预设数据间的相似度,分别从每一模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据;基于目标模态数据所匹配的目标视频帧在目标视频中的位置,确定目标视频在不同模态下各自的视频片段切分点;按照各视频片段切分点间的切分间隔,对各视频片段切分点进行多模态融合处理,得到目标视频的视频片段切分结果,使得将目标视频切分为多个视频片段。从而,服务器104可以将视频片段切分结果返回给终端102与终端106,进而实现视频片段的内容展示等。
其中,终端102、终端106可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种视频切分方法,以该方法应用于图1中的服务器104为例进行说明,包括:
步骤S202,获取目标视频在至少两种不同模态下各自的模态数据。
目标视频是指需要切分为多个视频片段的待处理视频,视频可以是新闻、影视剧、广告等类型。模态是指视频的来源或存在形式,模态可以是视觉、图像、语音、文本等类型。模态数据是指在视频在一种模态下所对应的数据。例如,当模态为语音模态时,目标视频在语音模态下的模态数据即为语音数据。当模态为视觉模态时,目标视频在视觉模态下的模态数据即为视频帧。
具体地,目标视频可以是历史拍摄的视频,还可以是实时的视频流,在此不做限制。获取目标视频在至少两种不同模态下各自的模态数据,可以是获取目标视频,并采用与模态相匹配的处理方式,得到目标视频在该模态下的模态数据。例如,当模态为语音模态时,可以是采用语音转换工具,提取出目标视频在语音模态下的语音数据。当模态为视觉模态时,可以是采用抽帧处理、或镜头切分处理的方式,获得目标视频在视觉模态下的视频帧。
步骤S204,根据每一模态下的模态数据与预设数据间的相似度,分别从每一模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据。
预设数据是指视频在每一种模态下预先设定的数据,预设数据与模态相匹配,不同模态下的预设数据不同。相似度用以表征一种模态下的模态数据与该模态下的预设数据之间的相似程度,相似度条件是指对一种模态数据进行筛选时,所筛选出的目标模态数据所需要满足的条件。目标模态数据是指在一种模态下的满足相似度条件的模态数据,由于相似度是指模态数据与预设数据间的相似度,后续根据目标模态数据进行视频切分,目标模态数据包括至少两个。
具体地,相似度的计算方式可以根据模态的具体类型进行设置。例如,在模态是文本模态的情况下,计算的是文本间相似度,根据文本间相似度的计算方式,具体可以是计算余弦相似度、杰卡德(Jaccard)相似系数等。在模态是图像模态的情况下,计算的是图像间相似度,根据图像间相似度的计算方式,具体可以是采用直方图匹配算法、计算欧氏距离、余弦距离等。
具体地,相似度条件可以根据实际技术需要进行设置,相似度条件具体可以与模态相对应。对于一种模态,当该模态下的模态数据与预设数据间的相似度满足该模态所匹配的相似度条件时,从该模态的模态数据中,筛选出满足相似度条件的至少两个目标模态数据。
步骤S206,基于目标模态数据所匹配的目标视频帧在目标视频中的位置,确定目标视频在不同模态下各自的视频片段切分点。
目标视频帧是指与目标模态数据所匹配的视频帧。视频片段切分点是指将目标视频切分为多个视频片段时的切分点,每个视频片段可对应于两个切分点,前一个视频片段的尾切分点即为下一个视频片段的首切分点。
具体地,对于每一模态,在确定该模态下的至少两个目标模态数据后,根据目标模态数据所包含的信息,遍历目标视频,确定与目标模态数据所匹配的目标视频帧。目标模态数据所包含的信息可以是时间戳、标识等唯一性信息。
需要说明的是,在目标模态数据所匹配的视频帧为一个的情况下,可直接将该视频帧确定为目标视频帧,从而可以确定出目标视频帧在目标视频中的位置。在目标模态数据所匹配的视频帧为一个以上的情况下,目标视频帧可以是多个视频帧中的首帧、尾帧或指定中间帧。可以理解的是,在所匹配的视频帧为一个以上时,每个模态下确定目标视频帧的方式相同。例如,在视觉模态下将目标视频帧确定为多个视频帧中的首帧,则在其他各种模态下均将目标视频帧确定为多个视频帧中的首帧。
具体地,在确定目标视频帧在目标视频中的位置后,即可将该位置确定为目标视频在该模态下的视频片段切分点。位置可以用时间戳进行表征,还可以用视频帧数量进行表征,相应地,该视频片段切分点可以是时间戳切分点,还可以是视频帧数量切分点。例如,将目标视频的第0秒、第1分30秒、第1分50秒、第2分50秒作为时间戳切分点。或者,将目标视频的第0帧、第5帧、第10帧、第30帧作为视频帧数量切分点。
需要说明的是,为了便于后续的多模态融合处理,各模态下所确定的视频片段切分点的类型一致。例如,各模态下确定的视频片段切分点均为时间戳切分点,或者,各模态下确定的视频片段切分点均为视频帧数量切分点。
步骤S208,按照各视频片段切分点间的切分间隔,对各视频片段切分点进行多模态融合处理,得到目标视频的视频片段切分结果。
切分间隔是指不同模态下相对应的两个视频片段切分点间的间隔。多模态融合处理是指将多种模态下的视频片段切分点进行合并与去重处理,得到最终的视频片段切分点。视频片段切分结果为按照最终的视频片段切分点对目标视频进行视频片段切分所得到的结果。
具体地,确定各视频片段切分点间的切分间隔,可以按照视频片段切分点的具体类型确定。例如,在视频片段切分点为时间戳切分点时,切分间隔是每两个时间戳切分点之间的时间间隔,在视频片段切分点为视频帧数量切分点时,切分间隔是每两个视频帧数量切分点之间的视频帧数量差值。
由于不同模态下所确定出的视频片段切分点的数量可能不一致,因此,在确定各视频片段切分点间的切分间隔之前,还可以包括:将各模态下的视频片段切分点进行对齐处理,得到对齐后的各视频片段切分点,以便于确定不同模态下相对应的视频片段切分点,提高计算出的切分间隔的准确性。具体可以是将不同模态下的第一个视频片段切分点进行对齐,以实现不同模态下的各视频片段切分点的对齐处理。
确定不同模态下相对应的视频片段切分点时,在不同模态下所确定出的视频片段切分点的数量一致的情况下,可以是按数量顺序确定对应的视频片段切分点。在不同模态下所确定出的视频片段切分点的数量不一致的情况下,可以是将不同模态下的最接近的视频片段切分点,确定为相对应的视频片段切分点。
以时间戳切分点为例,不同模态下的视频片段切分点的数量一致时,例如,在第一模态下,将目标视频的第0秒、第1分30秒、第1分50秒、第2分50秒作为时间戳切分点。在第二模态下,将目标视频的第0秒、第1分25秒、第1分55秒、第2分40秒作为时间戳切分点,则此时计算的第一模态与第二模态的切分间隔是第0秒与第0秒、第1分30秒与第1分25秒、第1分50秒与第1分55秒、第2分50秒与第2分40秒之间的切分间隔。
以时间戳切分点为例,不同模态下的视频片段切分点的数量不一致时,例如,在第一模态下,将目标视频的第0秒、第1分40秒、第1分50秒作为时间戳切分点。在第二模态下,将目标视频的第0秒、第1分10秒、第1分45秒、第1分56秒作为时间戳切分点,则此时计算的第一模态与第二模态的切分间隔是第0秒与第0秒、第1分40秒与第1分45秒、第1分50秒与第1分56秒之间的切分间隔。
由于本实施例中的模态为至少两种,会相应得到至少两种视频片段切分点,因此,在计算各视频片段切分点间的切分间隔时,可以按照模态进行任意排列组合,计算每两种模态下各视频片段切分点间的切分间隔。还可以预先指定需要进行切分间隔计算的不同模态。
切分间隔的大小与视频片段切分点的具体类型相对应,视频片段切分点的具体类型用于指示该视频片段切分点的处理方式。具体地,在确定各视频片段切分点间的切分间隔之后,可以按照切分间隔的大小,确定出视频片段切分点的具体类型,其类型可包括可丢弃的视频片段切分点、可合并的视频片段切分点等。例如,当不同模态下的两个视频片段切分点之间的切分间隔小于预定切分间隔时,即可认为这两个视频片段切分点重复,可将其中一个模态下的视频片段切分点丢弃,当不同模态下的两个视频片段切分点之间的切分间隔大于或等于预定切分间隔时,即可认为这两个视频片段切分点均可保留。对不同模态下确定的视频片段切分点进行处理后,即可得到最终的视频片段切分点。当根据最终的视频片段切分点对目标视频进行切分,即可得到目标视频的视频片段切分结果。
上述视频切分方法中,通过获取目标视频在至少两种不同模态下各自的模态数据,可以确保所获得的模态数据的多样性。然后,根据每一模态下的模态数据与预设数据间的相似度,分别从每一模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据,可以确保筛选出的目标模态数据的准确度,且后续可以针对于目标模态数据进行处理,提高数据处理效率。通过基于目标模态数据所匹配的目标视频帧在目标视频中的位置,确定目标视频在不同模态下各自的视频片段切分点,从而无需确定视频中的某个特定场景,提高视频片段切分点的准确度。最后,按照各视频片段切分点间的切分间隔,对各视频片段切分点进行多模态融合处理,能够综合多种模态数据的信息,得到目标视频的视频片段切分结果,提高视频的切分准确度和切分效率。
在一个实施例中,至少两种不同模态中的一种模态为语音模态,语音模态的模态数据包括语音数据。具体地,在模态数据为语音数据时,根据每一模态下的模态数据与预设数据间的相似度,分别从每一模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据,包括:对语音数据进行文本转换处理,得到语音数据所对应的语音文本;获取预先设置的视频片段间的各转换语句;根据语音文本与每一转换语句间的文本相似度,筛选出满足文本相似条件的目标语音文本;将目标语音文本所匹配的语音数据,确定为目标语音数据。
语音数据是指目标视频中所有出现的声音所对应的数据,可包含对话、音乐等。文本转换处理是指将语音数据转化为对应的文本的处理方式,将经过转化得到的文本称为语音文本。转换语句是指用于承上启下的过渡语义的语句。文本相似条件是指目标语音文本与转换语句间的相似度所需满足的条件。目标语音文本是指从语音数据所对应的语音文本中筛选出的语音文本。目标语音数据是指目标语音文本所匹配的语音数据。
具体地,可以采用语音提取工具提取出目标视频中的语音数据,例如,语音提取工具可以是多媒体视频处理工具(Fast Forward Mpeg,FFmpeg),其是一个音视频编解码、格式转换以及音视频流内容处理的工具。文本转换处理的方式可以根据实际技术需要选择,例如,可以采用自动语音识别技术(Automatic Speech Recognition,ASR)对语音数据进行文本转换处理,得到语音数据所对应的语音文本。
一般地,视频的不同视频片段间会使用转换语句进行过渡,转换语句可起到承上启下的作用。例如,一个视频片段结束,转换语句可以是“以上就是今天的全部内容”,一个视频片段的开始,转换语句可以是“欢迎收看今天的节目”“接下来一起来看”。因此,可以从公开的数据集中预先确定出视频片段间的多种转换语句,形成转换语句数据库。从而,获取预先设置的视频片段间的各转换语句,计算语音文本与每一转换语句间的文本相似度。
具体地,文本相似度采用莱温斯坦距离(Levenshtein distance)进行表征。莱文斯坦距离是两个字符串序列的距离度量。文本相似度的计算公式为:
式中,Levenshtein函数是指莱温斯坦距离,具体是指两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
具体地,根据实际应用场景的精度需求,设置文本相似度阈值,将文本相似条件设置为文本相似度大于文本相似度阈值。从而,根据语音文本与每一转换语句间的文本相似度,筛选出文本相似度大于文本相似度阈值的目标语音文本,即筛选出满足文本相似条件的目标语音文本。并将目标语音文本所匹配的语音数据,确定为目标语音数据。
本实施例中,获取的是目标视频在语音模态下的语音数据,通过将语音数据转换为语音文本,再计算语音文本与具有过渡语义的转换语句之间的文本相似度,从而可以快速从多个语音文本中,确定出具有过渡语义的目标语音文本,此类目标语音文本可以准确的表征视频片段之间的承接与过渡,从而,在后续基于目标语音数据确定视频片段切分点时,可以提高视频片段切分点的准确性,还可以提高确定视频片段切分点的效率。
在一个实施例中,至少两种不同模态中的一种模态为视觉模态,视觉模态的模态数据包括视频帧,视频帧也即视频图像。具体地,在模态数据为视频帧时,根据每一模态下的模态数据与预设数据间的相似度,分别从每一模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据,包括:当视频帧的至少一个采样帧包含有预设类别的对象时,确定目标视频中存在对象的候选视频帧;对各候选视频帧中各自所包含的对象进行聚类处理,确定对象中的满足类别筛选条件的目标对象;将目标对象所在的候选视频帧,确定为目标视频帧。
采样帧是指对视频帧进行采样后确定的视频帧,采样帧即是从视频帧中抽取得到。对象是指视频帧中所包含的具体内容,对象可以是各类物品、人脸等。预设类别的对象是指预先设置的某一类型的对象。候选视频帧是指包含有预设类别的对象的视频帧。目标对象是从多个对象中进行筛选确定的对象,类别筛选条件是指在从多个对象中筛选出目标对象时所需满足的筛选条件。
具体地,视频帧可以是指目标视频的所有的视频帧。由于视频是由若干个连续的镜头组成,而一个镜头是指一段连续的画面,因此还可以是对目标视频进行镜头切分,得到目标视频的镜头数据,进而,确定出镜头数据所对应的视频帧。在得到视频帧后,可以对视频帧进行采样,得到视频帧的采样帧。其中,采样方式可以是随机采样,还可以是稀疏采样,即按照预定采样帧率对视频帧进行采样,得到视频帧的至少一个采样帧。
在得到视频帧的采样帧后,需要确定采样帧中是否包含预设类别的对象,其中,该预设类别可以根据实际技术需要进行设置,例如,可以设置为室外场景中的某一对象,比如植物或动物,或设置为室内场景中的某一对象,比如人脸等,还可以设置为某个角度的对象,比如设置为人的侧脸。确定是否包含预设类别的对象的方式可以是采用预先训练的神经网络模型进行对象检测。例如,当预设类别的对象为人脸,则可以采用预先训练的人脸检测模型,当预设类别的对象为物品,可以采用预先训练的物品检测模型。
当视频帧的至少一个采样帧包含有预设类别的对象时,确定目标视频中存在该预设类别的对象的候选视频帧,从而可以继续执行后续步骤。可以理解的是,当视频帧的采样帧均不包含有预设类别的对象时,可以结合目标视频或实际技术需要调整该预设类别,或该目标视频不执行后续处理。
对各候选视频帧中各自所包含的对象进行聚类处理,主要是针对于对象的类别进行聚类。聚类处理的方式可以根据实际技术需要进行选择,例如,可以采用K均值聚类算法、基于密度的局聚类方法、基于图的聚类算法等。在聚类处理后,可以从多个对象中筛选出满足类别筛选条件的目标对象。其中,类别筛选条件可以根据实际技术需要进行设置,例如,可以设置为筛选出类别频率最高的目标对象,或是设置为筛选出超过预定类别频率的目标对象。而后,将目标对象所在的候选视频帧,确定为目标视频帧。
本实施例中,获取的是目标视频在视觉模态下的视频帧,视频帧中一般包含多种类型的对象,而通过设置视频帧中需要包含的预设类别的对象,可以避免对目标视频所有的视频帧进行处理,仅针对包含有预设类别的对象的候选视频帧进行处理,可以节约处理时间。通过对各候选视频帧中各自所包含的对象进行聚类处理,可以快速准确的对多个对象进行筛选,确定出目标对象,可以提高目标对象的确定效率,进而提高目标视频帧的确定效率。
需要说明的是,本实施例中是对各候选视频帧中各自所包含的对象进行聚类处理,从而确定对象中的满足类别筛选条件的目标对象,还可以是预先设置一个确定对象,通过计算各候选视频帧中各自所包含的对象与该确定对象之间的相似度,从各对象中确定出目标对象。例如,目标视频为新闻视频,目标对象可以设置为新闻主播,则预先设置的确定对象可以是多个知名主播,通过计算各候选视频帧中各自所包含的对象与知名主播之间的相似度,进而从各对象中确定出新闻主播。
在一个实施例中,由于聚类处理针对的是对象的类别,而视频帧所包含的对象一般较多,在确定对象的类别时可能存在类别不准确的情况,因此,本实施例中采用基于图的聚类算法对各候选视频帧中所包含的对象进行聚类处理,在聚类的同时可以调整优化对象的类别。具体地,对各候选视频帧中各自所包含的对象进行聚类处理,确定对象中的满足类别筛选条件的目标对象,包括:
根据各候选视频帧中各自所包含的对象,计算每两个对象间的对象相似度;从各对象所对应的连通图中,选取出目标节点;其中,以每个对象作为连通图的节点,每两个对象间的对象相似度作为节点间的边,目标节点为连通图的各节点中的任一节点;根据目标节点的相邻节点的相邻节点权重和相邻节点的类别,对目标节点的初始类别进行更新,确定目标节点的更新类别;返回从各对象所对应的连通图中,选取出目标节点的步骤,并在满足类别更新结束条件时,得到更新连通图;根据更新连通图中各节点的更新类别,确定对象中的满足类别筛选条件的目标对象。
对象相似度是指不同的对象之间的相似度。连通图是指具有连通性的图,连通图包括节点和节点间的边,若图中任意两点都是连通的,则该图可被称为连通图,本实施例中的连通图为无向图。目标节点是指从连通图的多个节点中选取的某一个节点,即目标节点为连通图的各节点中的任一节点。相邻节点是指与目标节点相连通的节点,对于一个目标节点,其相邻节点可能包括多个,也可能为一个。相邻节点权重是指相邻节点所对应的权重值。目标节点的类别即目标节点所表征的对象的类别,目标节点的初始类别是指当前需要对目标节点的类别更新时,目标节点在当前未更新时所对应的类别。更新结束条件是指整个连通图不再需要进行更新时所需满足的条件。更新连通图是指满足了类别更新结束条件时的连通图。更新类别是指满足类别更新结束条件时,更新连通图中各节点的最终类别。
具体地,对各候选视频帧中各自所包含的对象分别进行特征提取,得到对象的对象特征,并根据对象特征,计算每两个对象间的对象相似度。其中,对象特征可以是嵌入式(Embedding)特征,对象相似度的计算方式可以采用余弦相似度、欧氏距离、汉明距离等计算方法中的任意一种。
在确定每两个对象间的对象相似度之后,确定各对象所对应的连通图。其中,在首次确定连通图时,以每个对象作为连通图的节点,每两个对象间的对象相似度作为节点间的边。可以理解的是,若两个对象间的对象相似度大于预定对象相似度,则确定这两个对象所对应的节点相重合,该重合节点中相当于包含两个对象。从而,后续通过对连通图进行相应更新,相当于将连通图的节点进行不断合并,连通图的各节点即相当于各聚类簇。
具体地,还预先设置相似度阈值,当两个节点之间的相似度大于相似度阈值时,则将两个节点进行连通,节点间的权重即为两个节点之间的相似度,据此,确定出各对象所对应的连通图。
在确定出各对象所对应的连通图后,可以先对连通图进行初始化处理。具体地,将每个节点赋予唯一标识,该标识用以表征该节点的初始类别。在整个连通图未更新之前,每个节点对应于一个单独的类别。而后,从各对象所对应的连通图中,选取出目标节点,并根据目标节点的相邻节点的相邻节点权重和相邻节点的类别,对目标节点的初始类别进行更新,确定目标节点的更新类别。
相邻节点的相邻节点权重,可以根据相邻节点中包含的对象的数量确定,目标节点的目标节点权重,可以根据目标节点中包含的对象的数量确定。在对目标节点的初始类别进行更新时,可以从各相邻节点中,确定最大的相邻节点权重所对应的目标相邻节点,将该目标相邻节点的类别确定为目标节点的更新类别,以实现目标节点的类别更新。需要说明的是,若目标节点的多个相邻节点的类别相同,即多个相邻节点属于同类,则可以将同类节点的权重累加作为该类别的权重。
由于在每次选取目标节点并进行类别更新时,选取的是一个目标节点,因此在对一个目标节点进行类别更新结束后,可返回至从各对象所对应的连通图中,选取出目标节点的步骤,进行下一个目标节点的类别更新。类别更新结束条件可以设置为达到预定的迭代更新次数,其中,将遍历一次所有的节点,确定迭代更新次数为一次。在迭代更新次数达到预定的迭代更新次数时,确定满足类别更新结束条件,此时可得到更新连通图。
在得到更新连通图之后,可以根据更新连通图确定目标对象。具体地,设置类别筛选条件,该类别筛选条件可以设置为某个特定的类别,还可以设置为权重最大的类别,或是出现频率最高的类别,具体可以根据实际技术需要进行设置。从而,可以根据更新连通图中各节点的更新类别,确定对象中的满足类别筛选条件的目标对象。
本实施例中,通过基于图的聚类算法对各候选视频帧中所包含的对象进行聚类处理,在聚类的同时可以调整优化对象的类别,还可以直观的确定出满足类别筛选条件的目标对象,提高目标对象的确定效率和准确性。
在一个实施例中,在目标视频中穿插有非关键视频段时,非关键视频段的内容与目标视频的正式内容相比,一般会有截然不同的视觉信息。其中,非关键视频段可以是片花、广告、天气预报等内容。因此,为了将非关键视频段更有效的从目标视频中切分出来,根据每一模态下的模态数据与预设数据间的相似度,分别从每一模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据,还包括:对视频帧进行视频帧分类处理,确定视频帧所对应的视频帧类型;从各视频帧类型中确定出目标视频帧类型,将目标视频帧类型所对应的视频帧,确定为目标视频帧。
视频帧分类处理是指根据视频帧的内容,对视频帧进行分类的处理方式,通过视频帧分类处理,可以确定出视频帧所对应的视频帧类型。目标视频帧类型是指预先设定的一种或多种视频帧类型。
具体地,当视频帧是指目标视频的所有的视频帧时,对视频帧进行视频帧分类处理,即遍历所有的视频帧,从而确定所有的视频帧所对应的视频帧类型。当视频帧为镜头数据所对应的视频帧时,可以对视频帧进行重新采样,得到视频帧的多个采样帧,而后,对采样帧进行视频帧分类处理,确定出采样帧类型,使用采样帧类型表征视频帧类型。
对视频帧进行的视频帧分类处理可以采用预先训练的神经网络模型进行处理,该神经网络模型可以是分类模型,该分类模型可以是单一类型的模型,比如残差网络模型、图像分类模型、对象识别模型,还可以是多种类型的组合模型,比如残差网络模型与图像分类模型的组合模型。
视频帧类型可以是直接对视频帧进行处理确定,还可以是根据视频帧包含对象的数量和类型确定,例如,可以直接采用分类模型确定视频帧类型。视频帧类型还可以采用对象识别模型识别出视频帧包含的对象,并确定每一对象的数量和类型,并将超过预定数量的对象所对应的类型确定为视频帧类型。而后,可以从各视频帧类型中确定出目标视频帧类型,将目标视频帧类型所对应的视频帧,确定为目标视频帧。
需要说明的是,当视频帧为镜头数据所对应的视频帧时,在确定视频帧所对应的视频帧类型之后,还可以将包含有相同的视频帧类型的相邻的镜头数据进行合并处理,从而,确保合并后的相邻的镜头数据分别表示不同的视频帧类型,提高目标视频帧类型所对应的目标视频帧的准确性。
本实施例中,通过对视频帧进行视频帧分类处理,确定出视频帧类型,并从视频帧类型中确定出目标视频帧类型,进而确定目标视频帧类型所对应的目标视频帧,可以有效避免目标视频中的非关键视频段对目标视频的切分影响,将非关键视频段更有效的从目标视频中切分出来,提高目标视频的切分效率及效果。
在一个实施例中,至少两种不同模态中的一种模态为文本模态,文本模态的模态数据包括视频帧中的文本数据。其中,视频帧中的文本数据可以是指视频帧中的字幕、视频帧的标题、互动文本等,互动文本可以是评论、弹幕等。具体地,在模态数据为文本数据时,根据每一模态下的模态数据与预设数据间的相似度,分别从每一模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据,包括:
对视频帧中的文本数据进行文本分类处理,确定文本数据的文本类型;从文本类型中筛选出目标文本类型,计算每两个相邻的视频帧中目标文本类型所对应的文本数据间的文本相似度;根据文本相似度,对每两个相邻的视频帧中目标文本类型所对应的文本数据进行文本合并处理,得到视频帧所对应的目标文本数据。
文本分类处理是指根据文本数据的语义信息,将文本数据进行分类的处理方式,语义信息可以是文本自身的语义信息以及上下文信息。文本类型是指确定出的文本所对应的类型,具体可包括字幕、标题、互动文本等类型。目标文本类型是指从文本类型中筛选出的一种或多种文本类型。文本相似度是指至少两个文本数据之间的相似度。文本合并处理是指将文本数据进行合并的处理方式。目标文本数据是指基于目标文本类型所对应的文本数据进行确定的文本数据。
具体地,对视频帧进行文本提取处理,得到视频帧中的文本数据。文本提取处理的方式可以是正则表达式、光学字符识别(Optical character recognition,OCR)算法等其中的任意一种。对视频帧中的文本数据进行文本分类处理,可以通过预先训练的神经网络模型进行,该神经网络模型可以是自然语言处理模型。在确定文本数据的文本类型后,即可从文本类型中筛选出目标文本类型。
以自然语言处理模型是BERT模型为例,先将每个文本数据中的每个分词通过单词嵌入(Word Embedding)算法转化为512维的向量,得到多个分词向量序列。而后,为每个分词向量加入位置编码,位置编码公式表示如下:
其中,pos表示分词在整个文本数据中的位置,i为分词向量在整个文本数据中的位置编号。在得到分词向量和位置编码后,将一个文本数据的所有的分词向量与其位置编码相加得到文本序列,通过BERT模型确定文本数据的文本类型。
从文本数据中筛选出目标文本类型之后,可以计算每两个相邻的视频帧中目标文本类型所对应的文本数据间的文本相似度,文本相似度的计算方式可以与上述实施例中的文本相似度的计算方式相同。当文本相似度大于设定的文本相似度阈值时,确定两个相邻的视频帧中的目标文本类型所对应的文本数据为同一个文本数据,可以进行文本合并处理。最终,可以得到视频帧所对应的一个或多个目标文本数据。
本实施例中,通过对视频帧中的文本数据进行文本分类处理,确定出目标文本类型,并通过对每两个相邻的视频帧中目标文本类型所对应的文本数据进行文本合并处理,得到视频帧所对应的目标文本数据,可以避免存在内容重复的目标文本数据,提高所确定的目标文本数据的准确性,进而提高后续在文本模态下确定的视频片段切分点的准确性。
在一个实施例中,在基于目标模态数据所匹配的目标视频帧在目标视频中的位置,确定目标视频在不同模态下各自的视频片段切分点后,即确定了多种模态下的不同的视频片段切分点。理论上,每种模态下确定的视频片段切分点相同,而在实际应用场景下,基于模态数据的处理难度、具体内容等,每种模态下确定的视频片段切分点可能会有所差异,也可能相同,因此,需要将各模态下的视频片段切分点进行多模态融合处理,得到最终的视频片段切分点。
具体地,按照各视频片段切分点间的切分间隔,对各视频片段切分点进行多模态融合处理,得到目标视频的视频片段切分结果,包括:计算每两种不同模态下的视频片段切分点之间的切分间隔;根据各切分间隔,分别确定不同模态下切分间隔满足切分点融合条件的目标视频片段切分点;按照各模态数据的优先级,依次对目标视频片段切分点进行融合处理,得到目标视频的视频片段切分结果。
切分间隔是指不同模态下相对应的视频片段切分点之间的间隔。切分点融合条件是指可以进行融合的视频片段切分点所需满足的条件。目标视频片段切分点是指可以满足切分点融合条件的一个或多个视频片段切分点,可用于融合得到最终的视频片段切分点。模态数据的优先级是指将模态数据下的视频片段切分点进行融合处理时的先后顺序等级。融合处理也可理解为合并与去重处理。
具体地,可以按照视频片段切分点的具体类型,计算每两种不同模态下的视频片段切分点之间的切分间隔,切分间隔可以是时间间隔或视频帧数量差值。其中,每两种不同模态可以是任意选取的两种不同模态,还可以是预先指定的两种不同模态。例如,目标视频的模态可以是三种,具体包括视觉模态、语音模态和文本模态,计算每两种不同模态下的视频片段切分点之间的切分间隔,以任意选取的方式,可以是计算视觉模态与语音模态下的视频片段切分点之间的切分间隔、计算视觉模态与文本模态下的视频片段切分点之间的切分间隔、计算语音模态与文本模态下的视频片段切分点之间的切分间隔。以预先指定的方式,可以是计算视觉模态与语音模态下的视频片段切分点之间的切分间隔、计算视觉模态与文本模态下的视频片段切分点之间的切分间隔等。
根据每两种不同模态下的视频片段切分点之间的切分间隔,即可确定出计算所涉及的两种模态下的满足切分点融合条件的目标视频片段切分点。切分点融合条件可以结合实际技术需要以及切分间隔的计算方式确定。例如,切分间隔为时间间隔时,切分点融合条件可以设置为切分间隔大于或等于预定间隔时长,切分间隔为视频帧数量差值时,切分点融合条件可以设置为切分间隔大于或等于预定间隔数量等。
在确定目标视频片段切分点时,可以是先固定一种模态下的视频片段切分点,分别将另一种模态下的视频片段切分点与其进行计算,以确定切分间隔,进而确定出目标视频片段切分点。例如,可以采用集合的方式先定义一个空集,将一种模态下的视频片段切分点全部赋予至该空集,形成一个集合。再遍历另一种模态下的视频片段切分点,在视频片段切分点满足切分点融合条件时放入该集合中,否则丢弃该视频片段切分点。
模态数据的优先级可以根据目标视频的类型,并结合实际场景中各模态数据下所确定的视频片段切分点的准确度情况综合确定,例如,目标视频的模态可以是三种,具体包括视觉模态、语音模态和文本模态,当目标视频为新闻视频时,可以设置优先级由高到低依次为语音模态、视觉模态、文本模态,当目标视频为影视剧视频时,可以设置优先级由高到低依次为视觉模态、语音模态、文本模态。然后,可以按照各模态数据的优先级,依次对目标视频片段切分点进行融合处理,也即合并与去重处理,可得到最终的视频片段切分结果。采用最终的视频片段切分结果对目标视频进行切分,可得到目标视频的视频片段切分结果。
本实施例中,通过基于视频片段之间的切分间隔,可以准确快速的确定用以进行融合处理的目标视频片段切分点。通过结合实际场景中各模态数据下所确定的视频片段切分点的准确度情况确定模态数据的优先级,并基于各模态数据的优先级,依次对目标视频片段切分点进行融合处理,可以有效提高最终的视频片段切分点的准确性,从而提高得到的目标视频的视频片段切分结果的准确性。
在一个实施例中,以目标视频的模态是三种,具体包括视觉模态、语音模态和文本模态,当目标视频为新闻视频时,可以设置优先级由高到低依次为语音模态、视觉模态、文本模态为例,对于按照各视频片段切分点间的切分间隔,对各视频片段切分点进行多模态融合处理,得到目标视频的视频片段切分结果,具体可以包括:
计算目标视频在语音模态下的视频片段切分点、与在视觉模态下的视频片段切分点之间的第一切分间隔;根据各第一切分间隔,分别确定目标视频在语音模态下的目标视频片段切分点、以及在视觉模态下的目标视频片段切分点;对各目标视频片段切分点进行合并处理,得到目标视频所匹配的视频片段合并切分点;计算目标视频所匹配的视频片段合并切分点、与目标视频在文本模态下的视频片段切分点之间的第二切分间隔;根据各第二切分间隔,分别确定目标视频的目标视频片段合并切分点、以及目标视频在文本模态下的目标视频片段切分点;将目标视频片段合并切分点、以及目标视频在文本模态下的目标视频片段切分点进行融合处理,得到目标视频的视频片段切分结果。
第一切分间隔是指语音模态与视觉模态下相对应的视频片段切分点之间的间隔。视频片段合并切分点是指将语音模态下的目标视频片段切分点、以及在视觉模态下的目标视频片段切分点进行合并之后得到的合并切分点。第二切分间隔是指视频片段合并切分点、与文本模态下相对应的视频片段切分点之间的间隔。目标视频片段合并切分点是指各视频片段合并切分点中满足切分点融合条件的切分点。
具体地,针对于目标视频为新闻视频,语音模态下所得到的视频片段切分点的准确度最高,视觉模态与文本模态下所得到的视频片段切分点的准确度依次降低,因此设置语音模态的优先级最高,视觉模态、文本模态次之。从而,先计算目标视频在语音模态下的视频片段切分点、与在视觉模态下的视频片段切分点之间的第一切分间隔,并根据各第一切分间隔,分别确定目标视频在语音模态下的满足第一切分点融合条件的目标视频片段切分点、以及在视觉模态下的满足第一切分点融合条件的目标视频片段切分点。
在确定目标视频片段切分点之后,即可对各目标视频片段切分点进行合并处理,得到目标视频所匹配的视频片段合并切分点。此时,语音模态与视觉模态下的视频片段切分点融合完成。对文本模态下的视频片段切分点进行相类似的操作,主要包括计算目标视频所匹配的视频片段合并切分点、与目标视频在文本模态下的视频片段切分点之间的第二切分间隔,并根据各第二切分间隔,分别确定目标视频的满足第二切分点融合条件的目标视频片段合并切分点、以及目标视频在文本模态下的满足第二切分点融合条件的目标视频片段切分点。上述的第一切分点融合条件与第二切分点融合条件可以相同或不同,在此不做限制。
将上述的目标视频片段合并切分点、以及目标视频在文本模态下的目标视频片段切分点进行融合处理,即可得到最终的视频片段切分点,采用最终的视频片段切分点对目标视频进行切分,即可得到目标视频的视频片段切分结果。
本实施例中,通过结合模态数据的优先级,依次将目标视频在不同的模态数据下的视频片段切分点进行融合处理,最终得到目标视频的视频片段切分结果,可以高效且准确的对目标视频进行切分,提高目标视频的切分效率。
在一个实施例中,以目标视频是新闻视频为例,则上述实施例中的目标视频包括目标新闻视频,视频片段切分点包括新闻片段切分点。具体地,按照各视频片段切分点间的切分间隔,对各视频片段切分点进行多模态融合处理,得到目标视频的视频片段切分结果,包括:按照各新闻片段切分点间的切分间隔,对各新闻片段切分点进行多模态融合处理,得到目标新闻视频的新闻片段切分结果。从而,可以将目标新闻视频切分为一个或多个独立的新闻视频片段,以便于后续将新闻视频片段分发至各个下游的媒体平台,方便用户浏览或使用。
本实施例中,通过结合具体的目标视频的类型,即新闻视频这一类型,通过对新闻视频进行切分,得到一个或多个独立的新闻视频片段,从而,后续可以方便独立的将新闻视频片段分发到各个下游的媒体平台,供用户浏览或使用。
以下结合附图及具体实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个具体实施例中,以目标视频的模态是三种,具体包括视觉模态、语音模态和文本模态,目标视频的类型是新闻视频,即目标视频为目标新闻视频为例进行说明。
现有的对新闻视频片段进行切分的算法,主要存在以下两个问题:第一,不同类型的新闻,演播室场景不一致,即演播室类间差异较大,难以训练出一个泛化性良好的演播室二分类模型。因此,会造成视频片段的漏切、错切。第二,新闻视频中不仅仅包含演播室场景的新闻片段,还可能包含新闻片花、广告、天气预报等场景。因此,使用现有的算法切分出来的片段粒度较大,可能会包含片花、广告、天气预报,影响用户体验。
本实施例方法为一种基于多模态的视频片段切分方法,对各种形式的演播室场景均可切分,且能够准确切分出视频中的片花、广告和天气预报。对于一个新闻视频,本实施例方法可以输出新闻片段切分结果。假设新闻视频中包含了N个新闻片段,则输出为[News0,News1,…,Newsi,…,NewsN]。对于某一个特定的新闻片段Newsi,可以使用该新闻片段的开始帧和结束帧表示:Newsi=[开始帧,结束帧]。具体地,视频切分方法的步骤如下:
步骤S302,获取目标视频在语音模态下的语音数据。
具体地,请参阅图3与图7,目标新闻视频的模态可以包括语音模态,语音模态下为语音数据。可以使用FFmpeg语音提取工具,抽取得到目标新闻视频的语音数据。
步骤S303,对语音数据进行文本转换处理,得到语音数据所对应的语音文本。
具体地,在得到语音文件后,可以调用语音识别模块对语音数据进行文本转换处理,得到整个目标新闻视频的语音数据所对应的语音文本。
步骤S304,获取预先设置的视频片段间的各转换语句。
具体地,在新闻视频中,不同的新闻片段之间,主播往往都会通过转换语句进行过渡。例如,一个新闻片段结束,主播播报“以上就是今天的全部内容”,一个新闻片段开始,主播播报“欢迎收看今天的节目”。因此,预先收集大量的视频片段间的转换语句。
步骤S305,根据语音文本与每一转换语句间的文本相似度,筛选出满足文本相似条件的目标语音文本;将目标语音文本所匹配的语音数据,确定为目标语音数据。
具体地,文本相似度采用莱温斯坦距离(Levenshtein distance)进行表征。莱文斯坦距离是两个字符串序列的距离度量。文本相似度的计算公式为:
式中,Levenshtein函数是指莱温斯坦距离。将文本相似条件设置为文本相似度大于阈值0.8,从而筛选出满足文本相似条件的目标语音文本;将目标语音文本所匹配的语音数据,确定为目标语音数据。
步骤S306,基于目标语音数据所匹配的目标视频帧在目标视频中的位置,确定目标视频在语音模态下的视频片段切分点。
具体地,以视频片段切分点是视频帧数量切分点为例,将目标语音数据出现的时间戳转换成视频帧帧号,从而确定目标新闻视频在语音模态下的视频片段切分点,也称为基于语音数据的切分点。
步骤S402,获取目标视频在视觉模态下的视频帧。
具体地,请参阅图4与图7,目标新闻视频的模态可以是视觉模态,视觉模态下为视频帧。可以使用FFmpeg镜头分割算法,对目标新闻视频进行镜头切分,得到若干个连续的镜头数据。由于镜头数据由若干个连续视频帧组成,而镜头数据内部的帧的内容、形式变化小,因此可以对镜头数据内部的视频帧进行稀疏采样实现加速处理。对于每个镜头数据,均匀采样5个采样帧表征镜头数据。
步骤S403,当视频帧的至少一个采样帧包含有预设类别的对象时,确定目标视频中存在对象的候选视频帧。
具体地,预设类别的对象设置为人脸,即对每个采样帧进行人脸检测。人脸检测的步骤包括:使用区域建议网络生成候选框,同时利用边框回归算法和非极大值抑制算法来对候选框的坐标进行校正。然后,使用提炼网络对候选框进行调整优化,具体是将候选框送入提炼网络,提炼网络进行推理后可将大部分背景窗口拒绝,留下部分人脸框。此过程也要使用边框回归和非极大值抑制算法。最后,使用输出网络增加约束,输出最终的人脸框。
当一个镜头数据的所有采样帧都没有出现人脸,则此镜头数据不再进行后续操作。否则,至少一个采样帧包含有人脸时,确定目标新闻视频中存在人脸的候选视频帧,对于包含有人脸的候选视频帧,进行以下处理:先通过检测出的人脸框将人脸裁剪出来,并将裁剪后的人脸缩放至长宽为112*112的大小,最后通过人脸Embedding网络,得到每个人脸的512维特征。
步骤S404,根据各候选视频帧中各自所包含的对象,计算每两个对象间的对象相似度。
具体地,对象相似度的计算方式可以采用余弦相似度、欧氏距离、汉明距离等计算方法中的任意一种。
步骤S405,从各对象所对应的连通图中,选取出目标节点;其中,以每个对象作为连通图的节点,每两个对象间的对象相似度作为节点间的边,目标节点为连通图的各节点中的任一节点。
具体地,连通图为无向图。将每个人脸作为无向图中的一个节点,人脸之间的相似度作为节点间的边。设置相似度阈值,当两个节点之间的相似度大于相似度阈值时,则将两个节点连通。两个节点之的相似度可作为节点间的权重。
先将连通图进行初始化处理,将每个人脸节点都赋予一个id,作为该人脸的类别。初始化时,每个人脸都是一个单独的类别,而后,随机选取出一个目标节点,执行后续的迭代处理步骤。
步骤S406,根据目标节点的相邻节点的相邻节点权重和相邻节点的类别,对目标节点的初始类别进行更新,确定目标节点的更新类别。
具体地,确定目标节点的相邻节点,选取相邻节点中权重最大的相邻节点的类别作为该目标节点的类别,完成对该目标节点的初始类别的更新。其中,节点中包含的人脸个数可作为节点的权重。特别的,如果多个相邻节点属于同类,则将同类节点的权重累加作为该类别的权重。
步骤S407,返回从各对象所对应的连通图中,选取出目标节点的步骤,并在满足类别更新结束条件时,得到更新连通图;根据更新连通图中各节点的更新类别,确定对象中的满足类别筛选条件的目标对象。
具体地,将类别更新结束条件设置为满足最大迭代次数。当连通图的所有的节点都完成类别更新操作后,一次迭代完成。重复迭代步骤,直到满足最大迭代次数,得到更新连通图,即完成了人脸聚类。
在完成人脸聚类后,按照每个人脸类别出现的频率进行排序。由于新闻视频中最多出现一个或者两个主播,因此可以选取聚类后频率最高的一个或多个人脸作为候选主播,候选主播即目标对象。
步骤S408,将目标对象所在的候选视频帧,确定为目标视频帧。
具体地,将候选主播所在的候选视频帧,确定为目标视频帧。
步骤S409,对视频帧进行视频帧分类处理,确定视频帧所对应的视频帧类型。
具体地,目标新闻视频中可能会包含片花、广告、天气预报等非关键视频段,这类非关键视频段的内容与新闻视频的正式内容存在截然不同的视觉信息,因此可以使用视频分类模型对镜头数据进行分类。视频分类模型可以是图像分类模型ResNet50、NetVlad的组合模型。分类处理的具体步骤为:对每个镜头数据进行均匀采样,得到16帧采样帧。然后,将同一个镜头数据的采样帧送入视频分类模型,从而得到该镜头数据的类型。
步骤S410,从各视频帧类型中确定出目标视频帧类型,将目标视频帧类型所对应的视频帧,确定为目标视频帧。
步骤S411,基于目标视频帧在目标视频中的位置,确定目标视频在视觉模态下的视频片段切分点。
具体地,候选主播所在的目标视频帧也可理解为演播室镜头。取每个演播室镜头的首帧,作为目标新闻视频在视觉模态下的视频片段切分点,也称为基于演播室的切分点。
对于判定为片花、广告、天气预报的镜头数据,可以将相邻的相同类型的镜头数据合并。然后,分别取片花、广告、天气预报镜头数据的首帧,作为目标新闻视频在视觉模态下的视频片段切分点,也称为基于视频分类的切分点。将基于演播室的切分点与基于视频分类的切分点进行合并,得到最终的目标新闻视频在视觉模态下的视频片段切分点。
还需要说明的是,上述的步骤S403至步骤S408、与步骤S409至步骤S410可同步执行。
步骤S502,获取目标视频在文本模态下的视频帧中的文本数据。
具体地,请参阅图5、图7与图8,目标新闻视频的模态可以是文本模态,文本模态下为文本数据。在新闻视频中,每一新闻片段会存在对应的一个新闻标题,作为对该新闻片段的内容概括。因此,可以使用OCR算法提取得到目标新闻视频的每个镜头数据的采样帧中的文本数据。
步骤S503,对视频帧中的文本数据进行文本分类处理,确定文本数据的文本类型。
具体地,请参阅图9,通过自然语言处理BERT模型对文本数据进行文本分类处理,确定文本数据的文本类型,文本类型具体包括标题与非标题。文本类型确定的具体步骤为:先将每个文本数据中的每个分词通过单词嵌入算法转化为512维的向量,得到多个分词向量序列。而后,为每个分词向量加入位置编码,位置编码公式表示如下:
其中,pos表示分词在整个文本数据中的位置,i为分词向量在整个文本数据中的位置编号。在得到分词向量和位置编码后,将一个文本数据的所有的分词向量与其位置编码相加得到文本序列,送入BERT模型确定文本数据的文本类型,确定文本数据为标题或非标题。
步骤S504,从文本类型中筛选出目标文本类型,计算每两个相邻的视频帧中目标文本类型所对应的文本数据间的文本相似度。
具体地,文本相似度的计算方式可以与步骤S305中的计算方式相同。
步骤S505,根据文本相似度,对每两个相邻的视频帧中目标文本类型所对应的文本数据进行文本合并处理,得到视频帧所对应的目标文本数据。
具体地,请参阅图8,设置相似度阈值0.8。当两个相邻标题的相似度大于0.8,则认为是同一个标题,可以进行标题合并处理,最终可以得到若干个不同的镜头标题,即目标文本数据。
步骤S506,基于目标文本数据所匹配的目标视频帧在目标视频中的位置,确定目标视频在文本模态下的视频片段切分点。
具体地,可以取镜头标题所在镜头数据的首帧,作为目标新闻视频在文本模态下的视频片段切分点,也称为基于文本模态的片段切分点。
还需要说明的是,上述的步骤S302至步骤S306、与步骤S402至步骤S411、与步骤S502至步骤S506可以同步执行。
请参阅图6,在分别确定目标视频在语音模态、视觉模态和文本模态下的视频片段切分点后,即可继续执行步骤S600。
步骤S600,获取目标视频在至少两种不同模态下的视频片段切分点。
具体地,通过获取目标新闻视频在至少两种不同模态下各自的模态数据,即可获取目标新闻视频在至少两种不同模态下的视频片段切分点。
步骤S601,计算目标视频在语音模态下的视频片段切分点、与在视觉模态下的视频片段切分点之间的第一切分间隔。
具体地,采用集合的方式,先定义视频片段切分点为all,最初all是一个空集。将目标新闻视频在语音模态下的视频片段切分点复制至all中。遍历所有的视觉模态下的视频片段切分点,确定目标新闻视频在语音模态下的视频片段切分点、与在视觉模态下的视频片段切分点之间的第一切分间隔。
步骤S602,根据各第一切分间隔,分别确定目标视频在语音模态下的目标视频片段切分点、以及在视觉模态下的目标视频片段切分点。
具体地,设置切分间隔阈值为5秒。根据各第一切分间隔,如果在视觉模态下的视频片段切分点与all中的视频片段切分点的切分间隔大于5秒,则将视觉模态下的该视频片段切分点确定为目标视频片段切分点。若小于5秒则确定视觉模态下的该视频片段切分点重复,即可以丢弃。
步骤S603,对各目标视频片段切分点进行合并处理,得到目标视频所匹配的视频片段合并切分点。
具体地,将视觉模态下的目标视频片段切分点放入all中进行合并处理,得到目标新闻视频所匹配的视频片段合并切分点。
步骤S604,计算目标视频所匹配的视频片段合并切分点、与目标视频在文本模态下的视频片段切分点之间的第二切分间隔。
步骤S605,根据各第二切分间隔,分别确定目标视频的目标视频片段合并切分点、以及目标视频在文本模态下的目标视频片段切分点。
步骤S606,将目标视频片段合并切分点、以及目标视频在文本模态下的目标视频片段切分点进行融合处理,得到目标视频的视频片段切分结果。
具体地,在得到目标新闻视频所匹配的视频片段合并切分点后,采用与上述步骤S601至步骤S603相类似的方式,遍历目标新闻视频在文本模态下的视频片段切分点,得到最终的视频片段切分点。从而,得到目标新闻视频的新闻片段切分结果。
图10为视频切分方法的应用界面示意图,在应用界面上可以显示每个视频片段的多种模态下的具体内容,还可以显示视频片段的封面、标题、摘要、类型、概要标签等内容。即本实施例方法可应用于广电行业新闻编目,可将完整的新闻视频切分为多个独立的新闻片段,并且能够将片花、广告、天气预报进行有效切分。在对新闻视频进行视频片段切分后,可以将视频片段独立的分发到各个下游的媒体平台,广泛应用于下游的新闻媒资整理、新闻媒资搜索任务。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的视频切分方法的视频切分装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个视频切分装置实施例中的具体限定可以参见上文中对于视频切分方法的限定,在此不再赘述。
在一个实施例中,如图11所示,提供了一种视频切分装置,包括:数据获取模块10、数据筛选模块20、切分点确定模块30和切分点融合模块40,其中:
数据获取模块10,用于获取目标视频在至少两种不同模态下各自的模态数据。
数据筛选模块20,用于根据每一所述模态下的模态数据与预设数据间的相似度,分别从每一所述模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据。
切分点确定模块30,用于基于所述目标模态数据所匹配的目标视频帧在所述目标视频中的位置,确定所述目标视频在不同模态下各自的视频片段切分点。
切分点融合模块40,用于按照各所述视频片段切分点间的切分间隔,对各所述视频片段切分点进行多模态融合处理,得到所述目标视频的视频片段切分结果。
在一个实施例中,所述至少两种不同模态中的一种模态为语音模态,所述语音模态的模态数据包括语音数据;所述数据筛选模块20,包括:
语音文本转换单元,用于对语音数据进行文本转换处理,得到所述语音数据所对应的语音文本。
转换语句获取单元,用于获取预先设置的视频片段间的各转换语句。
语音文本筛选单元,用于根据所述语音文本与每一所述转换语句间的文本相似度,筛选出满足文本相似条件的目标语音文本。
目标语音数据确定单元,用于将所述目标语音文本所匹配的语音数据,确定为目标语音数据。
在一个实施例中,所述至少两种不同模态中的一种模态为视觉模态,所述视觉模态的模态数据包括视频帧;所述数据筛选模块20,包括:
候选视频帧确定单元,用于当视频帧的至少一个采样帧包含有预设类别的对象时,确定所述目标视频中存在所述对象的候选视频帧。
目标对象确定单元,用于对各所述候选视频帧中各自所包含的对象进行聚类处理,确定所述对象中的满足类别筛选条件的目标对象。
目标视频帧确定单元,用于将所述目标对象所在的候选视频帧,确定为目标视频帧。
在一个实施例中,所述目标对象确定单元,包括:
对象相似度计算单元,用于根据各所述候选视频帧中各自所包含的对象,计算每两个所述对象间的对象相似度。
目标节点选取单元,用于从各所述对象所对应的连通图中,选取出目标节点;其中,以每个所述对象作为所述连通图的节点,每两个所述对象间的对象相似度作为节点间的边,所述目标节点为所述连通图的各所述节点中的任一节点。
类别更新单元,用于根据所述目标节点的相邻节点的相邻节点权重和所述相邻节点的类别,对所述目标节点的初始类别进行更新,确定所述目标节点的更新类别;并在满足类别更新结束条件时,得到更新连通图。
目标对象确定单元,用于根据所述更新连通图中各节点的更新类别,确定所述对象中的满足类别筛选条件的目标对象。
在一个实施例中,所述数据筛选模块20,包括:
视频帧分类单元,用于对所述视频帧进行视频帧分类处理,确定所述视频帧所对应的视频帧类型。
目标视频帧确定单元,用于从各所述视频帧类型中确定出目标视频帧类型,将所述目标视频帧类型所对应的视频帧,确定为目标视频帧。
在一个实施例中,所述至少两种不同模态中的一种模态为文本模态,所述文本模态的模态数据包括所述视频帧中的文本数据;所述数据筛选模块20,包括:
文本分类单元,用于对所述视频帧中的文本数据进行文本分类处理,确定所述文本数据的文本类型。
文本相似度计算单元,用于从所述文本类型中筛选出目标文本类型,计算每两个相邻的所述视频帧中所述目标文本类型所对应的文本数据间的文本相似度。
目标文本数据确定单元,用于根据所述文本相似度,对每两个相邻的所述视频帧中所述目标文本类型所对应的文本数据进行文本合并处理,得到所述视频帧所对应的目标文本数据。
在一个实施例中,所述切分点融合模块40,包括:
切分间隔计算单元,用于计算每两种不同模态下的所述视频片段切分点之间的切分间隔。
目标视频片段切分点确定单元,用于根据各所述切分间隔,分别确定不同模态下所述切分间隔满足切分点融合条件的目标视频片段切分点。
目标视频片段切分点融合单元,用于按照各所述模态数据的优先级,依次对所述目标视频片段切分点进行融合处理,得到所述目标视频的视频片段切分结果。
在一个实施例中,所述切分间隔计算单元,用于计算所述目标视频在所述语音模态下的视频片段切分点、与在所述视觉模态下的视频片段切分点之间的第一切分间隔。
所述目标视频片段切分点确定单元,用于根据各所述第一切分间隔,分别确定所述目标视频在所述语音模态下的目标视频片段切分点、以及在所述视觉模态下的目标视频片段切分点。
所述目标视频片段切分点融合单元,用于对各所述目标视频片段切分点进行合并处理,得到所述目标视频所匹配的视频片段合并切分点。
所述切分间隔计算单元,用于计算所述目标视频所匹配的视频片段合并切分点、与所述目标视频在所述文本模态下的视频片段切分点之间的第二切分间隔。
所述目标视频片段切分点确定单元,用于根据各所述第二切分间隔,分别确定所述目标视频的目标视频片段合并切分点、以及所述目标视频在所述文本模态下的目标视频片段切分点。
所述目标视频片段切分点融合单元,用于将所述目标视频片段合并切分点、以及所述目标视频在所述文本模态下的目标视频片段切分点进行融合处理,得到所述目标视频的视频片段切分结果。
在一个实施例中,所述目标视频包括目标新闻视频;所述视频片段切分点包括新闻片段切分点;所述切分点融合模块40,用于按照各所述新闻片段切分点间的切分间隔,对各所述新闻片段切分点进行多模态融合处理,得到所述目标新闻视频的新闻片段切分结果。
上述视频切分装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频切分方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频切分方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12和图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述的方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的方法的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (13)
1.一种视频切分方法,其特征在于,所述方法包括:
获取目标视频在至少两种不同模态下各自的模态数据;
根据每一所述模态下的模态数据与预设数据间的相似度,分别从每一所述模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据;
基于所述目标模态数据所匹配的目标视频帧在所述目标视频中的位置,确定所述目标视频在不同模态下各自的视频片段切分点;
按照各所述视频片段切分点间的切分间隔,对各所述视频片段切分点进行多模态融合处理,得到所述目标视频的视频片段切分结果。
2.根据权利要求1所述的方法,其特征在于,所述至少两种不同模态中的一种模态为语音模态,所述语音模态的模态数据包括语音数据;
所述根据每一所述模态下的模态数据与预设数据间的相似度,分别从每一所述模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据,包括:
对语音数据进行文本转换处理,得到所述语音数据所对应的语音文本;
获取预先设置的视频片段间的各转换语句;
根据所述语音文本与每一所述转换语句间的文本相似度,筛选出满足文本相似条件的目标语音文本;
将所述目标语音文本所匹配的语音数据,确定为目标语音数据。
3.根据权利要求1所述的方法,其特征在于,所述至少两种不同模态中的一种模态为视觉模态,所述视觉模态的模态数据包括视频帧;
所述根据每一所述模态下的模态数据与预设数据间的相似度,分别从每一所述模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据,包括:
当视频帧的至少一个采样帧包含有预设类别的对象时,确定所述目标视频中存在所述对象的候选视频帧;
对各所述候选视频帧中各自所包含的对象进行聚类处理,确定所述对象中的满足类别筛选条件的目标对象;
将所述目标对象所在的候选视频帧,确定为目标视频帧。
4.根据权利要求3所述的方法,其特征在于,所述对各所述候选视频帧中各自所包含的对象进行聚类处理,确定所述对象中的满足类别筛选条件的目标对象,包括:
根据各所述候选视频帧中各自所包含的对象,计算每两个所述对象间的对象相似度;
从各所述对象所对应的连通图中,选取出目标节点;其中,以每个所述对象作为所述连通图的节点,每两个所述对象间的对象相似度作为节点间的边,所述目标节点为所述连通图的各所述节点中的任一节点;
根据所述目标节点的相邻节点的相邻节点权重和所述相邻节点的类别,对所述目标节点的初始类别进行更新,确定所述目标节点的更新类别;
返回所述从各所述对象所对应的连通图中,选取出目标节点的步骤,并在满足类别更新结束条件时,得到更新连通图;
根据所述更新连通图中各节点的更新类别,确定所述对象中的满足类别筛选条件的目标对象。
5.根据权利要求3所述的方法,其特征在于,所述根据每一所述模态下的模态数据与预设数据间的相似度,分别从每一所述模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据,还包括:
对所述视频帧进行视频帧分类处理,确定所述视频帧所对应的视频帧类型;
从各所述视频帧类型中确定出目标视频帧类型,将所述目标视频帧类型所对应的视频帧,确定为目标视频帧。
6.根据权利要求1所述的方法,其特征在于,所述至少两种不同模态中的一种模态为文本模态,所述文本模态的模态数据包括所述视频帧中的文本数据;
所述根据每一所述模态下的模态数据与预设数据间的相似度,分别从每一所述模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据,包括:
对所述视频帧中的文本数据进行文本分类处理,确定所述文本数据的文本类型;
从所述文本类型中筛选出目标文本类型,计算每两个相邻的所述视频帧中所述目标文本类型所对应的文本数据间的文本相似度;
根据所述文本相似度,对每两个相邻的所述视频帧中所述目标文本类型所对应的文本数据进行文本合并处理,得到所述视频帧所对应的目标文本数据。
7.根据权利要求1所述的方法,其特征在于,所述按照各所述视频片段切分点间的切分间隔,对各所述视频片段切分点进行多模态融合处理,得到所述目标视频的视频片段切分结果,包括:
计算每两种不同模态下的所述视频片段切分点之间的切分间隔;
根据各所述切分间隔,分别确定不同模态下所述切分间隔满足切分点融合条件的目标视频片段切分点;
按照各所述模态数据的优先级,依次对所述目标视频片段切分点进行融合处理,得到所述目标视频的视频片段切分结果。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述按照各所述视频片段切分点间的切分间隔,对各所述视频片段切分点进行多模态融合处理,得到所述目标视频的视频片段切分结果,包括:
计算所述目标视频在所述语音模态下的视频片段切分点、与在所述视觉模态下的视频片段切分点之间的第一切分间隔;
根据各所述第一切分间隔,分别确定所述目标视频在所述语音模态下的目标视频片段切分点、以及在所述视觉模态下的目标视频片段切分点;
对各所述目标视频片段切分点进行合并处理,得到所述目标视频所匹配的视频片段合并切分点;
计算所述目标视频所匹配的视频片段合并切分点、与所述目标视频在所述文本模态下的视频片段切分点之间的第二切分间隔;
根据各所述第二切分间隔,分别确定所述目标视频的目标视频片段合并切分点、以及所述目标视频在所述文本模态下的目标视频片段切分点;
将所述目标视频片段合并切分点、以及所述目标视频在所述文本模态下的目标视频片段切分点进行融合处理,得到所述目标视频的视频片段切分结果。
9.根据权利要求1至7中任一项所述的方法,其特征在于,所述目标视频包括目标新闻视频;所述视频片段切分点包括新闻片段切分点;
所述按照各所述视频片段切分点间的切分间隔,对各所述视频片段切分点进行多模态融合处理,得到所述目标视频的视频片段切分结果,包括:
按照各所述新闻片段切分点间的切分间隔,对各所述新闻片段切分点进行多模态融合处理,得到所述目标新闻视频的新闻片段切分结果。
10.一种视频切分装置,其特征在于,所述装置包括:
数据获取模块,用于获取目标视频在至少两种不同模态下各自的模态数据;
数据筛选模块,用于根据每一所述模态下的模态数据与预设数据间的相似度,分别从每一所述模态下的模态数据中,筛选出满足相似度条件的至少两个目标模态数据;
切分点确定模块,用于基于所述目标模态数据所匹配的目标视频帧在所述目标视频中的位置,确定所述目标视频在不同模态下各自的视频片段切分点;
切分点融合模块,用于按照各所述视频片段切分点间的切分间隔,对各所述视频片段切分点进行多模态融合处理,得到所述目标视频的视频片段切分结果。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210788825.9A CN117412146A (zh) | 2022-07-06 | 2022-07-06 | 视频切分方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210788825.9A CN117412146A (zh) | 2022-07-06 | 2022-07-06 | 视频切分方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117412146A true CN117412146A (zh) | 2024-01-16 |
Family
ID=89496669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210788825.9A Pending CN117412146A (zh) | 2022-07-06 | 2022-07-06 | 视频切分方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117412146A (zh) |
-
2022
- 2022-07-06 CN CN202210788825.9A patent/CN117412146A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108833973B (zh) | 视频特征的提取方法、装置和计算机设备 | |
CN111428088B (zh) | 视频分类方法、装置及服务器 | |
CN114342353B (zh) | 用于视频分割的方法和系统 | |
CN110083741B (zh) | 文本与图像联合建模的面向人物的视频摘要提取方法 | |
WO2021007846A1 (zh) | 一种视频相似检测的方法、装置及设备 | |
WO2023197979A1 (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN112163122A (zh) | 确定目标视频的标签的方法、装置、计算设备及存储介质 | |
CN112733660B (zh) | 一种视频拆条的方法和装置 | |
CN110688524A (zh) | 视频检索方法、装置、电子设备及存储介质 | |
CN104798068A (zh) | 视频检索方法和装置 | |
CN109408672B (zh) | 一种文章生成方法、装置、服务器及存储介质 | |
CN113204659B (zh) | 多媒体资源的标签分类方法、装置、电子设备及存储介质 | |
CN114550070A (zh) | 视频片段的识别方法、装置、设备以及存储介质 | |
CN102236714A (zh) | 一种基于xml的交互应用多媒体信息检索方法 | |
CN115496820A (zh) | 图像文案的生成方法、设备及计算机存储介质 | |
JP6917210B2 (ja) | 要約映像生成装置およびそのプログラム | |
CN115359492A (zh) | 文本图像匹配模型训练方法、图片标注方法、装置、设备 | |
WO2024188044A1 (zh) | 视频标签生成方法、装置、电子设备及存储介质 | |
CN115438225A (zh) | 视频文本互检方法及其模型训练方法、装置、设备、介质 | |
CN114363695B (zh) | 视频处理方法、装置、计算机设备和存储介质 | |
CN115909390B (zh) | 低俗内容识别方法、装置、计算机设备以及存储介质 | |
CN114090766A (zh) | 视频文本筛选方法、装置及电子设备 | |
CN111986259B (zh) | 颜文字检测模型的训练、视频数据的审核方法及相关装置 | |
Jiang et al. | Video searching and fingerprint detection by using the image query and PlaceNet-based shot boundary detection method | |
CN116389849A (zh) | 视频生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |