CN111541939B - 一种视频拆分方法、装置、电子设备及存储介质 - Google Patents

一种视频拆分方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111541939B
CN111541939B CN202010364335.7A CN202010364335A CN111541939B CN 111541939 B CN111541939 B CN 111541939B CN 202010364335 A CN202010364335 A CN 202010364335A CN 111541939 B CN111541939 B CN 111541939B
Authority
CN
China
Prior art keywords
video
splitting
target video
numerical value
video frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010364335.7A
Other languages
English (en)
Other versions
CN111541939A (zh
Inventor
郭晓锋
谭颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202010364335.7A priority Critical patent/CN111541939B/zh
Publication of CN111541939A publication Critical patent/CN111541939A/zh
Application granted granted Critical
Publication of CN111541939B publication Critical patent/CN111541939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供的一种视频拆分方法、装置、电子设备及存储介质,可以通过预先训练好的图像检测模型,判断目标视频的各视频帧中是否存在预设目标图像;按照目标视频中各视频帧的帧序,生成目标视频的标签向量;识别标签向量中的第一数值,分别将各连续的第一数值作为一个数值段,得到多个第一数值段;选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,对目标视频进行拆分,得到拆分结果。可以通过识别待拆分视频的各个视频帧的内容,并根据识别结果对视频进行拆分,不但可以代替人工进行视频的快速拆分节约视频拆分的成本,还可以提高视频拆分的速度和效率。

Description

一种视频拆分方法、装置、电子设备及存储介质
技术领域
本发明涉及信息技术领域,特别是涉及一种视频拆分方法、装置、电子设备及存储介质。
背景技术
目前,随着信息化的快速发展,通过观看视频进行娱乐和放松已经成为人们的一种重要的休闲方式,然而由于人们的空闲时间一般较为碎片化,因此通过利用视频中的转场画面、视频中间插播的广告等,将一个较长的视频拆分成为几个短视频更有利于人们进行视频的观看。
然而,当前的视频拆分一般为通过人工的方法遍历视频,寻找视频切点,通过视频编辑工具根据视频切点进行视频的拆分。通过当前方法进行视频的拆分需要通过人工的对整个视频进行观看寻找视频切点,拆分过程的人工成本较高,拆分速度慢,拆分的效率低。
发明内容
本发明实施例的目的在于提供一种视频拆分方法、装置、电子设备及存储介质,以实现视频的快速拆分。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种视频拆分方法,包括:
获取待拆分的目标视频,其中,目标视频包括多个视频帧;
通过预先训练好的图像检测模型,判断目标视频的各视频帧中是否存在预设目标图像;
将不存在预设目标图像的视频帧标记第一数值,将存在预设目标图像的视频帧标记第二数值,按照目标视频中各视频帧的帧序,依次选取各视频帧标记的数值,生成目标视频的标签向量;
识别标签向量中的第一数值,分别将各连续的第一数值作为一个数值段,得到多个第一数值段;
选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,对目标视频进行拆分,得到拆分结果。
可选的,拆分结果包括各目标视频帧段各自对应的第一视频帧段和第二视频帧段,其中,针对任一目标视频帧段,该目标视频帧段的第一视频帧段为拆分后该目标视频帧段的上一段视频帧段,该目标视频帧段的第二视频帧段为拆分后该目标视频帧段的下一段视频帧段;选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,对目标视频进行拆分,得到拆分结果,包括:
选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,通过预设拆分工具,以目标视频帧段的第一帧与目标视频中第一帧的前一帧之间为第一拆分点对目标视频进行拆分,得到第一视频帧段,以目标视频段的最后一帧与目标视频中最后一帧的后一帧为第二拆分点对目标视频进行拆分,得到第二视频帧段。
可选的,在选取多个第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为拆分视频帧段,对目标视频进行拆分得到拆分结果之前,上述方法还包括:
将多个第一数值段中第一数值的数量小于第二预设阈值的第一数值段中的第一数值重新标记为第二数值。
可选的,图像检测模型的训练方法包括:
步骤A,在预设样本图像集合中选取任一样本图像,其中,样本图像中包括预设目标图像;
步骤B,将样本图像输入待训的网络模型,通过待训练的网络模型对样本图像进行检测,得到检测结果;
步骤C,通过预设损失函数,根据检测结果计算待训练的网络模型的损失,并根据损失判断待训练的网络模型是否收敛;
步骤D,当待训练的网络模型不收敛时,对待训练的网络模型的参数进行调整,返回步骤A,继续对待训练的网络模型进行训练;
步骤E,当待训练的网络模型收敛时,得到训练好的图像检测模型。
在本发明实施的第二方面,还提供了一种视频拆分装置,包括:
视频获取模块,用于获取待拆分的目标视频,其中,目标视频包括多个视频帧;
图像检测模块,用于通过预先训练好的图像检测模型,判断目标视频的各视频帧中是否存在预设目标图像;
向量生成模块,用于将不存在预设目标图像的视频帧标记第一数值,将存在预设目标图像的视频帧标记第二数值,按照目标视频中各视频帧的帧序,依次选取各视频帧标记的数值,生成目标视频的标签向量;
数值段模块,用于识别标签向量中的第一数值,分别将各连续的第一数值作为一个数值段,得到多个第一数值段;
视频拆分模块,用于选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,对目标视频进行拆分,得到拆分结果。
可选的,拆分结果包括各目标视频帧段各自对应的第一视频帧段和第二视频帧段,其中,针对任一目标视频帧段,该目标视频帧段的第一视频帧段为拆分后该目标视频帧段的上一段视频帧段,该目标视频帧段的第二视频帧段为拆分后该目标视频帧段的下一段视频帧段;上述视频拆分模块包括:
拆分工具子模块,用于选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,通过预设拆分工具,以目标视频帧段的第一帧与目标视频中第一帧的前一帧之间为第一拆分点对目标视频进行拆分,得到第一视频帧段,以目标视频段的最后一帧与目标视频中最后一帧的后一帧为第二拆分点对目标视频进行拆分,得到第二视频帧段。
可选的,上述装置还包括:
平滑处理模块,用于将多个第一数值段中第一数值的数量小于第二预设阈值的第一数值段中的第一数值重新标记为第二数值。
可选的,上述装置还包括:模型训练模块,具体用于:
在预设样本图像集合中选取任一样本图像,其中,样本图像中包括预设目标图像;
将样本图像输入待训的网络模型,通过待训练的网络模型对样本图像进行检测,得到检测结果;
通过预设损失函数,根据检测结果计算待训练的网络模型的损失,并根据损失判断待训练的网络模型是否收敛;
当待训练的网络模型不收敛时,对待训练的网络模型的参数进行调整,继续对待训练的网络模型进行训练;
当待训练的网络模型收敛时,得到训练好的图像检测模型。
在本发明实施的第三方面,还提供了一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的计算机程序时,实现上述任一视频拆分方法。
在本发明实施的第四方面,还提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述任一视频拆分方法。
本发明实施例提供的一种视频拆分方法、装置、电子设备及存储介质,可以获取待拆分的目标视频;通过预先训练好的图像检测模型,判断目标视频的各视频帧中是否存在预设目标图像;将不存在预设目标图像的视频帧标记第一数值,将存在预设目标图像的视频帧标记第二数值,按照目标视频中各视频帧的帧序,依次选取各视频帧标记的数值,生成目标视频的标签向量;识别标签向量中的第一数值,分别将各连续的第一数值作为一个数值段,得到多个第一数值段;选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,对目标视频进行拆分,得到拆分结果。可以通过识别待拆分视频的各个视频帧的内容,并根据识别结果对视频进行拆分,不但可以代替人工进行视频的快速拆分节约视频拆分的成本,还可以提高视频拆分的速度和效率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施的一种视频拆分方法的第一种流程图;
图2为本发明实施的一种视频拆分方法的第二种流程图;
图3为本发明实施的一种视频拆分方法的第三种流程图;
图4为本发明实施的一种图像检测模型的训练方法的流程图;
图5为本发明实施的一种吃播视频的拆分的实例图;
图6为本发明实施的一种视频拆分装置的第一种示意图;
图7为本发明实施的一种视频拆分装置的第二种示意图;
图8为本发明实施的一种视频拆分装置的第三种示意图;
图9为本发明实施的一种视频拆分装置的第四种示意图;
图10为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施的一种视频拆分方法,包括:
获取待拆分的目标视频,其中,目标视频包括多个视频帧;
通过预先训练好的图像检测模型,判断目标视频的各视频帧中是否存在预设目标图像;
将不存在预设目标图像的视频帧标记第一数值,将存在预设目标图像的视频帧标记第二数值,按照目标视频中各视频帧的帧序,依次选取各视频帧标记的数值,生成目标视频的标签向量;
识别标签向量中的第一数值,分别将各连续的第一数值作为一个数值段,得到多个第一数值段;
选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,对目标视频进行拆分,得到拆分结果。
可见,通过本发明实施例提供的一种视频拆分方法,可以通过识别待拆分视频的各个视频帧的内容,并根据识别结果对视频进行拆分,不但可以代替人工进行视频的快速拆分节约视频拆分的成本,还可以提高视频拆分的速度和效率。
以下进行详细说明,参见图1,图1为本发明实施的第一种视频拆分方法的一种流程图,包括:
步骤S11,获取待拆分的目标视频。
其中,目标视频包括多个视频帧。其中,上述待拆分的目标视频可以为多种格式的视频,例如avi(Audio Video Interleaved,音频视频交错格式),mp4(Moving PictureExperts Group 4,动态图像专家组)等格式的视频。同时,待拆分的目标视频也可以是多种类型的视频,如可以是吃播视频,也可以是讲座视频等。
本发明实施例的视频拆分方法针对的是智能终端设备中的视频,因此可以通过智能终端设备执行,具体的,该智能终端设备可以为电脑或服务器等。
步骤S12,通过预先训练好的图像检测模型,判断目标视频的各视频帧中是否存在预设目标图像。
其中,上述预先训练好的图像检测模型可以为通过预设目标类型的图像进行训练所得到的检测模型。判断目标视频的各视频帧中是否存在预设目标图像,例如,本申请实施例的视频拆分方法应用于吃播视频的拆分时,上述目标视频为吃播视频,预设物体为食物,通过上述图像检测模型可以对上述吃播视频中的每一视频帧中的食物进行检测,判断每一视频帧中是否存在食物。再比如,目标视频为某一讲座的视频,可以对各视频帧进行黑板的检测。
通过判断目标视频的各视频帧中是否存在预设目标图像,可以判断该目标视频中的视频帧的内容是否连续,从而可以对视频中插播的广告以及场景转换等进行识别。
步骤S13,将不存在预设目标图像的视频帧标记第一数值,将存在预设目标图像的视频帧标记第二数值,按照目标视频中各视频帧的帧序,依次选取各视频帧标记的数值,生成目标视频的标签向量。
其中,第一数值和第二数值可以为两个不相同的任意数值。例如,第一数值可以为0,第二数值可以为1。例如,当目标视频为包括5个视频帧的视频,根据目标视频的视频帧标记,可以生成一个5维的向量作为目标视频的标签向量。如通过1表示视频帧中存在预设目标图像,通过0表示视频帧中不存在预设目标图像。当上述5个视频帧的视频中的第3个视频帧中不存在预设目标图像,而其余各个视频帧均存在预设目标图像时,所得到的标签向量为[1,1,0,1,1]。
步骤S14,识别标签向量中的第一数值,分别将各连续的第一数值作为一个数值段,得到多个第一数值段。
其中,识别标签向量中的第一数值,分别将各连续的第一数值作为一个数值段,可以将得到的标签向量进行第一数值的识别,并将所得到连续的第一数值标记为一个数值段,从而可以得到多个第一数值段。其中,所得到的第一数值段中第一数值的个数可以为任意整数个。例如,标签向量为[1,1,0,0,0,1,0,1],对该标签向量识别后,可以得到[0,0,0]和[0]两个第一数值段。
步骤S15,选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,对目标视频进行拆分,得到拆分结果。
其中,第一预设阈值可以为预先设定的任一数值。通过选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,对目标视频进行拆分,可以将目标视频视频中连续多帧未出现目标图像的视频帧作为转场镜头,通过所识别的转场镜头对目标视频进行拆分。例如,在对目标视频中的目标图像进行识别时,由于其中所插入的广告的视频帧段时,导致的连续的多帧视频帧的内容中不包括目标图像,从而可以通过识别的广告视频帧段对目标视频进行拆分。
其中,通过选取目标视频帧段对目标视频进行拆分,得到拆分结果。例如,上述通过1表示视频帧中存在预设物体图像,通过0表示视频帧中不存在预设物体图像。假设当上述预设第一阈值为3时,得到的标签向量有[…1,0,0,1,1…]和[…1,0,0,0,0,0,1…],根据第一阈值进行目标视频帧段的判断,并对目标视频进行拆分,则只会以[…1,0,0,0,0,0,1…]中的[0,0,0,0]对应的视频帧段作为目标视频帧段对目标视频进行拆分。实际拆分后,还可以使用OpenCV(开源计算机视觉库),FFMPEG(Fast Forward Mpeg)等工具对拆分后的视频进行视频内容的识别和解码等进一步处理。
可见,通过本发明实施例提供的一种视频拆分方法,可以通过识别待拆分视频的各个视频帧的内容,并根据识别结果对视频进行拆分,不但可以代替人工进行视频的快速拆分节约视频拆分的成本,还可以提高视频拆分的速度和效率。
可选的,参见图2,拆分结果包括各目标视频帧段各自对应的第一视频帧段和第二视频帧段,其中,针对任一目标视频帧段,该目标视频帧段的第一视频帧段为拆分后该目标视频帧段的上一段视频帧段,该目标视频帧段的第二视频帧段为拆分后该目标视频帧段的下一段视频帧段;选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,对目标视频进行拆分,得到拆分结果,包括:
步骤S151,选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,通过预设拆分工具,以目标视频帧段的第一帧与目标视频中第一帧的前一帧之间为第一拆分点对目标视频进行拆分,得到第一视频帧段,以目标视频段的最后一帧与目标视频中最后一帧的后一帧为第二拆分点对目标视频进行拆分,得到第二视频帧段。
其中,预设拆分工具可以为任一用于视频拆分的工具。以目标视频帧段的第一帧与目标视频中第一帧的前一帧之间为第一拆分点对目标视频进行拆分,得到第一视频帧段,以目标视频段的最后一帧与目标视频中最后一帧的后一帧为第二拆分点对目标视频进行拆分,得到第二视频帧段。例如,标签向量为[1,1,1,1,1,0,0,0,0,1,1,1,1],目标视频帧段为[0,0,0]对应的视频帧,则以目标视频帧段的第一帧与目标视频中第一帧的前一帧之间为第一拆分点对目标视频进行拆分,得到第一视频帧段,以目标视频段的最后一帧与目标视频中最后一帧的后一帧为第二拆分点对目标视频进行拆分,得到第二视频帧段。可以得到第一视频帧段为[1,1,1,1,1]所对应的视频帧段,第二视频帧段为[1,1,1,1]所对应的视频帧段。
通过预设拆分工具,对目标视频进行拆分,得到第一视频帧段和第二视频帧段,从而可以实现目标视频中存在目标图像的视频帧段和不存在目标图像的视频帧段的分离。
可选的,参见图3,在选取多个第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为拆分视频帧段,对目标视频进行拆分得到拆分结果之前,上述方法还包括:
步骤S16,将多个第一数值段中第一数值的数量小于第二预设阈值的第一数值段中的第一数值重新标记为第二数值。
其中,将多个第一数值段中第一数值的数量小于第二预设阈值的第一数值段中的第一数值重新标记为第二数值,可以为对第一数值段进行平滑处理。通过识别第一数值段中第一数值的数量,如数量小于第二预设阈值,则将第一数值重新标记为第二数值。例如,第一数值为0,第二数值为1,通过识别得到第一数值段有[0]、[0,0]、[0,0,0],第二预设阈值为2,则将第一数值的数量小于第二预设阈值的第一数值段中的第一数值重新标记为第二数值,可以将上述[0]和[0,0]两个第一数值段重新标记为[1]和[1,1]。
为防止对目标视频进行识别生成标签向量时,可能出现的误检的现象,通过将多个第一数值段中第一数值的数量小于第二预设阈值的第一数值段中的第一数值重新标记为第二数值,可以便于对后续步骤对第一数值段进行识别,得到目标视频帧段。
可选的,参见图4,图像检测模型的训练方法包括:
步骤41,在预设样本图像集合中选取任一样本图像。
其中,样本图像中包括预设目标图像。预设物体可以为多种类型的物体,例如当该图像检测模型用于对食物进行检测时,样本图像中的预设物体可以为多种类型的食物。
步骤42,将样本图像输入待训的网络模型,通过待训练的网络模型对样本图像进行检测,得到检测结果。
步骤43,通过预设损失函数,根据检测结果计算待训练的网络模型的损失,并根据损失判断待训练的网络模型是否收敛。
其中,通过预设损失函数,根据检测结果计算待训练的网络模型的损失,可以通过待训练的网络模型对样本图像进行检测,根据上述待训练的网络模型的检测结果和样本图像的标准分类结果进行对比,通过预设损失函数计算得到待训练的网络模型的损失。
步骤44,判断待训练的网络模型是否收敛,当待训练的网络模型不收敛时,返回步骤41,对待训练的网络模型的参数进行调整,继续对待训练的网络模型进行训练,当待训练的网络模型收敛时,执行步骤45。
其中,当待训练的网络模型不收敛时,对待训练的网络模型的参数进行调整,可以为根据待训练的网络模型的损失,对待训练的网络模型的参数进行调整,并在预设样本图像集合中重新选取一个样本图像继续对待训练的网络模型进行训练。
步骤45,得到训练好的图像检测模型,当待训练的网络模型收敛时,得到训练好的图像检测模型。
可见,通过本发明实施的图像检测模型的训练方法,可以在预设样本图像集合对图像检测模型进行训练,从而当待训练的网络模型收敛时,可以实现通过训练好的网络模型对样本图形进行检测,进而提高图像检测的效率。
参见图5,图5为本发明实施的一种吃播视频的拆分的实例图,包括:
步骤S51,待处理视频的输入,获取待处理的视频,本实施例中的视频拆分方法应用于吃播视频的拆分,则待处理视频可以为吃播视频。
步骤S52,样本图像的输入,本实施例中的视频拆分方法应用于吃播视频的拆分,则样本图像为包含多种食物图像的图像,通过输入样本图像后,可以执行步骤S53,利用输入的样本图像对网络模型进行训练。
步骤S53,模型的训练,通过步骤S52中输入的样本图像对待训练的网络模型进行训练,得到训练好的网络模型。
步骤S54,美食识别,通过步骤S53中训练好的网络模型对步骤S51中输入的待处理的视频的各个视频帧进行美食的识别,得到各个视频帧的美食识别结果,生成待处理视频对应的标签向量,其中,标签向量生成可以为将不存在预设目标图像的视频帧标记第一数值,将存在预设目标图像的视频帧标记第二数值,按照目标视频中各视频帧的帧序,依次选取各视频帧标记的数值,生成待处理视频的标签向量。
步骤S55,结果平滑,对待处理视频的标签向量进行平滑处理,识别标签向量中的第一数值,分别将各连续的第一数值作为一个数值段,得到多个第一数值段,将标签向量中的多个第一数值段中第一数值的数量小于第二预设阈值的第一数值段中的第一数值重新标记为第二数值。
S56,切点分析,选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为待处理视频的切点。
S57,视频的切分,通过预设拆分工具,根据待处理视频的切点对待处理视频进行切分。
参见图6,图6为本发明实施的一种视频拆分装置的第一种示意图,包括:
视频获取模块161,用于获取待拆分的目标视频,其中,目标视频包括多个视频帧;
图像检测模块162,用于通过预先训练好的图像检测模型,判断目标视频的各视频帧中是否存在预设目标图像;
向量生成模块163,用于将不存在预设目标图像的视频帧标记第一数值,将存在预设目标图像的视频帧标记第二数值,按照目标视频中各视频帧的帧序,依次选取各视频帧标记的数值,生成目标视频的标签向量;
数值段模块164,用于识别标签向量中的第一数值,分别将各连续的第一数值作为一个数值段,得到多个第一数值段;
视频拆分模块165,用于选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,对目标视频进行拆分,得到拆分结果。
可选的,参见图7,拆分结果包括各目标视频帧段各自对应的第一视频帧段和第二视频帧段,其中,针对任一目标视频帧段,该目标视频帧段的第一视频帧段为拆分后该目标视频帧段的上一段视频帧段,该目标视频帧段的第二视频帧段为拆分后该目标视频帧段的下一段视频帧段;上述视频拆分模块165包括:
拆分工具子模块1651,用于选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,通过预设拆分工具,以目标视频帧段的第一帧与目标视频中第一帧的前一帧之间为第一拆分点对目标视频进行拆分,得到第一视频帧段,以目标视频段的最后一帧与目标视频中最后一帧的后一帧为第二拆分点对目标视频进行拆分,得到第二视频帧段。
可选的,参见图8,上述装置还包括:
平滑处理模块166,用于将多个第一数值段中第一数值的数量小于第二预设阈值的第一数值段中的第一数值重新标记为第二数值。
可选的,参见图9,上述装置还包括:模型训练模块167,具体用于:
在预设样本图像集合中选取任一样本图像,其中,样本图像中包括预设目标图像;
将样本图像输入待训的网络模型,通过待训练的网络模型对样本图像进行检测,得到检测结果;
通过预设损失函数,根据检测结果计算待训练的网络模型的损失,并根据损失判断待训练的网络模型是否收敛;
当待训练的网络模型不收敛时,对待训练的网络模型的参数进行调整,继续对待训练的网络模型进行训练;
当待训练的网络模型收敛时,得到训练好的图像检测模型。
本发明实施例提供的一种视频拆分装置,可以通过识别待拆分视频的各个视频帧的内容,并根据识别结果对视频进行拆分,不但可以代替人工进行视频的快速拆分节约视频拆分的成本,还可以提高视频拆分的速度和效率。
本发明实施例还提供了一种电子设备,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信,
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现如下步骤:
获取待拆分的目标视频,其中,目标视频包括多个视频帧;
通过预先训练好的图像检测模型,判断目标视频的各视频帧中是否存在预设目标图像;
将不存在预设目标图像的视频帧标记第一数值,将存在预设目标图像的视频帧标记第二数值,按照目标视频中各视频帧的帧序,依次选取各视频帧标记的数值,生成目标视频的标签向量;
识别标签向量中的第一数值,分别将各连续的第一数值作为一个数值段,得到多个第一数值段;
选取各第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,对目标视频进行拆分,得到拆分结果。
可选的,上述处理器,用于执行存储器上所存放的程序时,实现如上述任一视频拆分方法。
上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processor,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一视频拆分方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一视频拆分方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种视频拆分方法,其特征在于,包括:
获取待拆分的目标视频,其中,所述目标视频包括多个视频帧;
通过预先训练好的图像检测模型,判断所述目标视频的各视频帧中是否存在预设目标图像;
将不存在预设目标图像的视频帧标记第一数值,将存在预设目标图像的视频帧标记第二数值,按照所述目标视频中各视频帧的帧序,依次选取各所述视频帧对应标记的数值,生成所述目标视频的标签向量;
识别所述标签向量中的第一数值和第二数值,将所述标签向量中与所述第二数值相邻的一个或连续的多个第一数值作为一个数值段,得到多个第一数值段;
选取所述多个第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的多个视频帧作为目标视频帧段;
以所述目标视频帧段的第一帧和最后一帧为拆分点,对所述目标视频进行拆分,得到所述目标视频的拆分结果。
2.根据权利要求1所述的方法,其特征在于,所述以所述目标视频帧段的第一帧和最后一帧为拆分点,对所述目标视频进行拆分,得到所述目标视频的拆分结果,包括:
以所述目标视频帧段的第一帧和最后一帧为拆分点,对所述目标视频进行拆分,得到多个视频段;
提取所述多个视频段中所述目标视频帧段以外的视频段作为所述目标视频的拆分结果。
3.根据权利要求1所述的方法,其特征在于,在所述选取所述多个第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的多个视频帧作为目标视频帧段之前,所述方法还包括:
选取所述多个第一数值段中第一数值的数量小于第二预设阈值的第一数值段,将所述小于第二预设阈值的第一数值段中的第一数值重新标记为第二数值。
4.根据权利要求1所述的方法,其特征在于,在所述识别所述标签向量中的第一数值和第二数值,将所述标签向量中与所述第二数值相邻的一个或连续的多个第一数值作为一个数值段,得到多个第一数值段之前,所述方法还包括:
识别所述标签向量中的第二数值,将一个或连续的多个第二数值作为一个数值段,得到多个第二数值段;
选取所述多个第二数值段中第二数值的数量小于第三预设阈值的第二数值段,将所述小于第三预设阈值的第二数值段中的第二数值重新标记为第一数值。
5.一种视频拆分装置,其特征在于,包括:
视频获取模块,用于获取待拆分的目标视频,其中,所述目标视频包括多个视频帧;
图像检测模块,用于通过预先训练好的图像检测模型,判断所述目标视频的各视频帧中是否存在预设目标图像;
向量生成模块,用于将不存在预设目标图像的视频帧标记第一数值,将存在预设目标图像的视频帧标记第二数值,按照所述目标视频中各视频帧的帧序,依次选取各所述视频帧标记的数值,生成所述目标视频的标签向量;
数值段模块,用于识别所述标签向量中的第一数值,分别将各连续的第一数值作为一个数值段,得到多个第一数值段;
视频拆分模块,用于选取各所述第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,对所述目标视频进行拆分,得到拆分结果。
6.根据权利要求5所述的装置,其特征在于,所述拆分结果包括各所述目标视频帧段各自对应的第一视频帧段和第二视频帧段,其中,针对任一目标视频帧段,该目标视频帧段的第一视频帧段为拆分后该目标视频帧段的上一段视频帧段,该目标视频帧段的第二视频帧段为拆分后该目标视频帧段的下一段视频帧段;所述视频拆分模块包括:
拆分工具子模块,用于选取各所述第一数值段中第一数值的数量超过第一预设阈值的第一数值段所对应的视频帧作为目标视频帧段,通过预设拆分工具,以所述目标视频帧段的第一帧与所述目标视频中所述第一帧的前一帧之间为第一拆分点对所述目标视频进行拆分,得到所述第一视频帧段,以所述目标视频段的最后一帧与所述目标视频中所述最后一帧的后一帧为第二拆分点对所述目标视频进行拆分,得到所述第二视频帧段。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
平滑处理模块,用于将所述多个第一数值段中第一数值的数量小于第二预设阈值的第一数值段中的第一数值重新标记为第二数值。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:模型训练模块,具体用于:
在预设样本图像集合中选取任一样本图像,其中,所述样本图像中包括预设目标图像;
将所述样本图像输入待训的网络模型,通过所述待训练的网络模型对所述样本图像进行检测,得到检测结果;
通过预设损失函数,根据所述检测结果计算所述待训练的网络模型的损失,并根据所述损失判断所述待训练的网络模型是否收敛;
当所述待训练的网络模型不收敛时,对所述待训练的网络模型的参数进行调整,继续对所述待训练的网络模型进行训练;
当所述待训练的网络模型收敛时,得到训练好的图像检测模型。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的所述计算机程序时,实现权利要求1-4任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
CN202010364335.7A 2020-04-30 2020-04-30 一种视频拆分方法、装置、电子设备及存储介质 Active CN111541939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010364335.7A CN111541939B (zh) 2020-04-30 2020-04-30 一种视频拆分方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010364335.7A CN111541939B (zh) 2020-04-30 2020-04-30 一种视频拆分方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111541939A CN111541939A (zh) 2020-08-14
CN111541939B true CN111541939B (zh) 2022-04-22

Family

ID=71971554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010364335.7A Active CN111541939B (zh) 2020-04-30 2020-04-30 一种视频拆分方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111541939B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580613B (zh) * 2021-02-24 2021-06-04 深圳华声医疗技术股份有限公司 超声视频图像处理方法、系统、设备及存储介质
CN113301382B (zh) * 2021-05-07 2022-12-13 北京百度网讯科技有限公司 视频处理方法、设备、介质及程序产品
CN116405745B (zh) * 2023-06-09 2023-11-17 深圳市信润富联数字科技有限公司 视频信息的提取方法、装置、终端设备及计算机介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011008508A (ja) * 2009-06-25 2011-01-13 Kddi Corp 重要情報抽出方法および装置
KR101702426B1 (ko) * 2016-04-23 2017-02-03 광운대학교 산학협력단 다시점 비디오 서비스의 시점변경 지연을 줄이기 위한 다중 http 스레드 기반의 비디오 전송 시스템 및 방법
CN106658169A (zh) * 2016-12-18 2017-05-10 北京工业大学 一种基于深度学习多层次分割新闻视频的通用方法
US9761276B1 (en) * 2016-09-19 2017-09-12 International Business Machines Corporation Prioritized playback of media content clips
CN108520220A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 模型生成方法和装置
CN109688429A (zh) * 2018-12-18 2019-04-26 广州励丰文化科技股份有限公司 一种基于非关键视频帧的预览方法及服务设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050154987A1 (en) * 2004-01-14 2005-07-14 Isao Otsuka System and method for recording and reproducing multimedia
CN109740019A (zh) * 2018-12-14 2019-05-10 上海众源网络有限公司 一种对短视频打标签的方法、装置及电子设备
CN109874061A (zh) * 2019-03-22 2019-06-11 北京奇艺世纪科技有限公司 一种直播视频的处理方法、装置及电子设备
CN110012337B (zh) * 2019-03-28 2021-02-19 联想(北京)有限公司 视频截取方法、装置和电子设备
CN110147846A (zh) * 2019-05-23 2019-08-20 软通智慧科技有限公司 视频分割方法、装置、设备及存储介质
CN110267092A (zh) * 2019-05-31 2019-09-20 广州华泓文化发展有限公司 视频内容自动分割和替换的系统和方法
CN110941594B (zh) * 2019-12-16 2023-04-18 北京奇艺世纪科技有限公司 一种视频文件的拆分方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011008508A (ja) * 2009-06-25 2011-01-13 Kddi Corp 重要情報抽出方法および装置
KR101702426B1 (ko) * 2016-04-23 2017-02-03 광운대학교 산학협력단 다시점 비디오 서비스의 시점변경 지연을 줄이기 위한 다중 http 스레드 기반의 비디오 전송 시스템 및 방법
US9761276B1 (en) * 2016-09-19 2017-09-12 International Business Machines Corporation Prioritized playback of media content clips
CN106658169A (zh) * 2016-12-18 2017-05-10 北京工业大学 一种基于深度学习多层次分割新闻视频的通用方法
CN108520220A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 模型生成方法和装置
CN109688429A (zh) * 2018-12-18 2019-04-26 广州励丰文化科技股份有限公司 一种基于非关键视频帧的预览方法及服务设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Computing QoE-Relevant Adaptive Video Streaming Metrics Using Discrete-Time Analysis》;Susanna Schwarzmann;《2019 22nd Conference on Innovation in Clouds,Internet and Networks and Workshops》;20190411;全文 *
《基于内容的视频场景分割》;姚梦琳;《中国优秀硕士学位论文全文数据库》;20170615;全文 *

Also Published As

Publication number Publication date
CN111541939A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111541939B (zh) 一种视频拆分方法、装置、电子设备及存储介质
CN110119711B (zh) 一种获取视频数据人物片段的方法、装置及电子设备
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
US10108709B1 (en) Systems and methods for queryable graph representations of videos
CN109862397B (zh) 一种视频分析方法、装置、设备和存储介质
CN111767461A (zh) 数据处理方法及装置
CN106792005B (zh) 一种基于音视频结合的内容检测方法
CN111836118B (zh) 视频处理方法、装置、服务器及存储介质
CN110287375B (zh) 视频标签的确定方法、装置及服务器
CN113469298B (zh) 模型训练方法及资源推荐方法
CN111753673A (zh) 一种视频数据的检测方法和装置
CN111814817A (zh) 视频分类方法、装置、存储介质及电子设备
CN111984824A (zh) 一种基于多模态的视频推荐方法
CN111242110B (zh) 一种新闻自动拆条的自适应条件随机场算法的训练方法
CN113435438B (zh) 一种图像和字幕融合的视频报幕板提取及视频切分方法
Bae et al. Dual-dissimilarity measure-based statistical video cut detection
CN112925905B (zh) 提取视频字幕的方法、装置、电子设备和存储介质
CN108229285B (zh) 物体分类方法、物体分类器的训练方法、装置和电子设备
CN114051154A (zh) 一种新闻视频拆条方法和系统
US11728914B2 (en) Detection device, detection method, and program
CN111931856A (zh) 视频分类方法和装置、电子设备和存储介质
US11961300B2 (en) Dynamic media content categorization method
CN112818984B (zh) 标题生成方法、装置、电子设备和存储介质
CN113010736A (zh) 一种视频分类方法、装置、电子设备及存储介质
CN108881950B (zh) 一种视频处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant