CN113596579A - 视频生成方法、装置、介质及电子设备 - Google Patents

视频生成方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN113596579A
CN113596579A CN202110865107.2A CN202110865107A CN113596579A CN 113596579 A CN113596579 A CN 113596579A CN 202110865107 A CN202110865107 A CN 202110865107A CN 113596579 A CN113596579 A CN 113596579A
Authority
CN
China
Prior art keywords
target
video
segment
time
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110865107.2A
Other languages
English (en)
Other versions
CN113596579B (zh
Inventor
王毅龙
宋旸
白刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202110865107.2A priority Critical patent/CN113596579B/zh
Publication of CN113596579A publication Critical patent/CN113596579A/zh
Application granted granted Critical
Publication of CN113596579B publication Critical patent/CN113596579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Abstract

本公开涉及一种视频生成方法、装置、介质及电子设备。方法包括:采集目标直播间实时直播流的多维度指标数据,得到每一维度的时间序列数据;根据每一维度的时间序列数据,确定实时直播流中是否存在目标片段;若存在目标片段,则从实时直播流中提取目标片段;确定与目标片段相匹配的目标视频模板;根据目标片段和目标视频模板,生成推广视频。这样,可自动识别、剪辑视频素材,并自动获取匹配的视频模板,实现推广视频的快速自动生成,省时省力。另外,由于推广视频呈现的内容来源于实时直播画面中的目标片段,对观众更具有吸引力,推广视频与实际直播内容强相关,可提升目标直播间的访问留存率。

Description

视频生成方法、装置、介质及电子设备
技术领域
本公开涉及计算机技术领域,具体地,涉及一种视频生成方法、装置、介质及电子设备。
背景技术
随着互联网技术的飞速发展,视频直播的应用也越来越广泛。为了增加直播间的新观众,通常需要对直播进行宣传。目前主要通过以下两种方式来对直播进行宣传:(1)在直播开始前,事先制作推广视频,并将其投放到相应的推广平台,但制作推广视频的素材与实际直播内容可能不一致,使得用户进入直播间后不符合心理预期而感到落差,导致直播间的访问留存率不高,并且,人工制作推广视频费时费力;(2)在直播进行时,在推广平台实时展现直播内容,但针对直播时间较长的场景,由于是实时内容呈现,容易产生相对普通平常的视频画面,无法吸引观众。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种视频生成方法,包括:
采集目标直播间实时直播流的多维度指标数据,得到所述多维度指标中每一所述维度的时间序列数据;
根据每一所述维度的所述时间序列数据,确定所述实时直播流中是否存在目标片段;
若所述实时直播流中存在目标片段,则从所述实时直播流中提取所述目标片段;
从视频模板库中确定与所述目标片段相匹配的目标视频模板;
根据所述目标片段和所述目标视频模板,生成推广视频。
第二方面,本公开提供一种视频生成装置,包括:
采集模块,用于采集目标直播间实时直播流的多维度指标数据,得到每一所述维度的时间序列数据;
第一确定模块,用于根据所述采集模块采集得到的每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段;
提取模块,用于若所述第一确定模块确定所述实时直播流中存在目标片段,则从所述实时直播流中提取所述目标片段;
第二确定模块,用于从视频模板库中确定与所述提取模块提取到的所述目标片段相匹配的目标视频模板;
生成模块,用于根据所述提取模块提取到的所述目标片段和所述第二确定模块确定出的所述目标视频模板,生成推广视频。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现本公开第一方面提供的所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面提供的所述方法的步骤。
在上述技术方案中,采集目标直播间实时直播流的多维度指标数据,得到每一维度的时间序列数据;根据每一维度的时间序列数据,确定实时直播流中是否存在目标片段;若实时直播流中存在目标片段,则从实时直播流中提取该目标片段;从视频模板库中确定与目标片段相匹配的目标视频模板;根据目标片段和目标视频模板,生成推广视频。这样,可以自动识别、剪辑视频素材,并基于剪辑得到的视频素材,自动获取相匹配的视频模板,从而实现推广视频的快速、自动生成,而无需用户准备视频素材,省时省力。另外,由于推广视频所呈现的内容来源于目标直播间的实时直播画面中的目标片段,对观众更加具有吸引力,并且,推广视频与实际直播内容强相关,可以避免用户进入直播间后不符合心理预期而感到落差的问题,提升目标直播间的访问留存率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据一示例性实施例示出的一种视频生成方法的流程图。
图2是根据另一示例性实施例示出的一种从实时直播流中提取目标片段的方法的流程图。
图3是根据另一示例性实施例示出的一种视频生成方法的流程图。
图4是根据另一示例性实施例示出的一种视频生成方法的流程图。
图5是根据一示例性实施例示出的一种视频生成装置的框图。
图6是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1是根据一示例性实施例示出的一种视频生成方法的流程图。如图1所示,该方法包括S101~S105。
在S101中,采集目标直播间实时直播流的多维度指标数据,得到每一维度的时间序列数据。
在本公开中,多维度指标可以包括点赞、评论、关注、分享等。并且,多维度指标数据可以为实时直播流的多维度指标的滚动时间窗口数据,其中,各滚动时间窗口之间是连续、不重叠的,例如,滚动时间窗口的时长为1分钟,滚动时间窗口依次为[0min,1min]、(1min,2min]、(2min,3min]、……。另外,可以通过目标直播间的埋点日志来获取该目标直播间实时直播流的多维度指标数据(例如,可以以秒为单位采集各维度指标数据(比如,每10秒采集一次各维度指标数据)),之后,针对每一维度,可以采用Spark Streaming、弗林克(flink)等流式计算引擎计算出该维度指标数据在每一滚动时间窗口内的聚合数据,即每一滚动时间窗口对应的数据,也就是滚动时间窗口数据。其中,滚动时间窗口的时长可以为半分钟、1分钟、5分钟等。
例如,滚动时间窗口的时长为1分钟,则“点赞”维度的滚动时间窗口数据为每1分钟对应的点赞数。
在S102中,根据每一维度的时间序列数据,确定实时直播流中是否存在目标片段。
在本公开中,目标片段可以为具有高光特征的片段,即高光片段。若实时直播流中存在目标片段,则从实时直播流中提取该目标片段,即执行S103;若实时直播流中不存在目标片段,则返回S101。
在S103中,若实时直播流中存在目标片段,则从实时直播流中提取该目标片段。
在S104中,从视频模板库中确定与目标片段相匹配的目标视频模板。
在本公开中,视频模板库中包括多个视频模板,其中,各视频模板是由人工事先设计的,其中,各视频模板中规定了每个元素(例如,图片、logo、宣传文案等)在视频中出现的位置、时长、大小等信息,还可以指定是否使用背景音乐以及背景音乐出现的时段等。
在S105中,根据目标片段和目标视频模板,生成推广视频。
需要说明的是,在目标直播间的当前直播过程中,是实时确定目标直播间的实时直播流中是否存在目标片段的,一旦确定目标直播间的实时直播流中存在目标片段,就基于当前检测到的目标片段,生成相应的推广视频,即在目标直播间的当前直播过程中,实时执行上述S101~S105。
在上述技术方案中,采集目标直播间实时直播流的多维度指标数据,得到每一维度的时间序列数据;根据每一维度的时间序列数据,确定实时直播流中是否存在目标片段;若实时直播流中存在目标片段,则从实时直播流中提取该目标片段;从视频模板库中确定与目标片段相匹配的目标视频模板;根据目标片段和目标视频模板,生成推广视频。这样,可以自动识别、剪辑视频素材,并基于剪辑得到的视频素材,自动获取相匹配的视频模板,从而实现推广视频的快速、自动生成,而无需用户准备视频素材,省时省力。另外,由于推广视频所呈现的内容来源于目标直播间的实时直播画面中的目标片段,对观众更加具有吸引力,并且,推广视频与实际直播内容强相关,可以避免用户进入直播间后不符合心理预期而感到落差的问题,提升目标直播间的访问留存率。
下面针对上述S102中的根据每一维度的时间序列数据,确定实时直播流中是否存在目标片段的具体实施方式进行详细说明。具体来说,上述S102包括以下步骤(1)~步骤(3)。
(1)检测每一维度的时间序列数据中是否包含异常高值。
在本公开中,若检测到多维度的时间序列数据中存在包含异常高值的时间序列数据,则执行以下步骤(2);否则,执行步骤(3)。
(2)确定实时直播流中存在目标片段。
(3)确定实时直播流中不存在目标片段。
在本公开中,在直播时,实时指标数据通常会在主播表演或者解说的精彩片段时爆发式增长,而精彩片段通常就是我们所说的目标片段,因此,通过检测每一维度的时间序列数据中是否包含异常高值的方式,来确定实时直播流中是否存在目标片段。
下面针对上述步骤(1)中的检测每一维度的时间序列数据中是否包含异常高值的具体实施方式进行详细说明。具体来说,可以通过多种方式来实现,在一种实施方式中,可以通过3σ、四分位距(interquartile range,IQR)等算法分别检测各维度的时间序列数据中是否包含异常高值。
在另一种实施方式中,可以运用基于机器学习的无监督异常检测算法来一次性检测所有维度的时间序列数据中是否包含异常高值,异常检测效率高,从而可以提升实时直播流中是否存在目标片段的检测效率。
示例地,上述无监督异常检测算法可以为基于相似度度量的K最近邻(K-NearestNeighbor,KNN)分类算法、局部异常因子(Local Outlier Factor,LOF)算法,还可以为孤立森林等集成检测算法。
其中,孤立森林检测算法对检测数据的分布情况不做太多要求,适用于连续数据的异常检测,更简单、直观,因此,优选地,采用孤立森林检测算法来检测每一维度的时间序列数据中是否包含异常高值。
下面针对上述S103中从实时直播流中提取该目标片段的具体实施方式进行详细说明。具体来说,可以通过多种方式来实现,在一种实施方式中,可以从实时直播流中、异常高值对应的滚动时间窗口内的直播片段中提取第二预设时长的任意片段,作为目标片段。
在本公开中,滚动时间窗口的时长大于或等于第二预设时长。上述任意片段可以为开始片段、中间片段、结尾片段。
在一种实施方式中,上述任意片段为开始片段,即将异常高值对应的滚动时间窗口内的直播片段中、前第二预设时长的视频片段作为目标片段。
示例地,通过上述S102检测到一个异常高值,并且该异常高值对应的滚动时间窗口为(2min,3min],第二预设时长为30s,则可以从实时直播流中提取[2min,2min30s]这一时段的视频片段作为目标片段。
在另一种实施方式中,上述任意片段为中间片段,即将异常高值对应的滚动时间窗口内的直播片段中、第二预设时长的中间视频片段作为目标片段。
示例地,通过上述S102检测到一个异常高值,并且该异常高值对应的滚动时间窗口为(2min,3min],第二预设时长为30s,则可以从实时直播流中提取[2min20s,2min50s]这一时段的视频片段作为目标片段。
在又一种实施方式中,上述任意片段为结尾片段,即将异常高值对应的滚动时间窗口内的直播片段中、后第二预设时长的视频片段作为目标片段。由于结尾片段的实时性更好,从而可以提升推广视频与直播内容的相关度。
示例地,通过上述S102检测到一个异常高值,并且该异常高值对应的滚动时间窗口为(2min,3min],第二预设时长为30s,则可以从实时直播流中提取[2min30s,3min]这一时段的视频片段作为目标片段。
需要说明的是,异常高值可以是一个或者多个,相应地,提取的目标片段可以是一个或者多个。
在另一种实施方式中,可以通过图2中所示的S1031~S1035来从实时直播流中提取目标片段。
在S1031中,从实时直播流中确定候选片段。
在本公开中,可以从实时直播流中、异常高值对应的滚动时间窗口内的直播片段中提取第二预设时长的任意片段,作为候选片段。其中,该任意片段可以为开始片段、中间片段、结尾片段。
在S1032中,解析候选片段中的音频数据。
在S1033中,识别候选片段中的音频数据中音量小于预设音量阈值、且持续时长超过第一预设时长的音频片段。
在本公开中,音频数据中音量小于预设音量阈值,则认为是无声片段。主播在直播过程中,每句话之间通常是有停顿的,因此,可以通过检测持续时长超过第一预设时长的无声片段作为句子之间的停顿标识。示例地,第一预设时长为1秒。
在S1034中,将第一片段的起始位置作为剪辑起点,并将第二片段的结束位置作为剪辑终点。
在本公开中,第一片段为音频片段中、对应时段最早的音频片段,第二片段为音频片段中、对应时段最晚的音频片段。
在S1035中,基于剪辑起点和剪辑终点,对候选片段进行剪辑,得到目标片段。
在该种实施方式中,在提取到候选片段后,对其进行完整性剪辑,可以使得剪辑得到的目标片段的开始前第一预设时长(例如开始前1秒)和结束后第一预设时长(例如,结束后1秒)为无声段,从而确保目标片段不在主播说话时突然中断,提升目标片段的语义连贯性。
示例地,上述S1031提取到的候选片段为实时直播流中[2min30s,3min]这个时段的直播片段,通过上述S1033检测到该候选片段包括四个音量小于预设音量阈值、且持续时长超过第一预设时长的音频片段,其中,该四个音频片段对应的时段分别为[1min35s,1min36s]、[1min45s,1min47s]、[1min49s,1min50s]、[1min57s,1min59s],则第一片段为对应时段为[1min35s,1min36s]的音频片段,第二片段为对应时段为[1min57s,1min59s]的音频片段,因此,将1min35s作为剪辑起点,将1min59s作为剪辑终点,基于剪辑起点1min35s和剪辑终点1min59s,对上述候选片段进行剪辑,剪辑得到的目标片段为实时直播流中[1min35s,1min59s]内的直播片段。
另外,为了提升实时直播流中是否存在目标片段的判定精度,可以在检测到每一维度的时间序列数据中不包含异常高值的情况,并不直接判定实时直播流不存在目标片段,而是基于实时直播流的内容来进一步确认实时直播流中是否确实不存在目标片段。具体来说,上述S102还包括以下步骤(4)和步骤(5)。
(4)从实时直播流中提取每一滚动时间窗口内的直播片段。
在该种实施方式中,上述步骤(1)检测到多维度的时间序列数据中不存在包含异常高值的时间序列数据,并不直接执行步骤(3),而是执行步骤(4)。
(5)针对每一滚动时间窗口内的直播片段,根据该直播片段的内容,判断该直播片段是否为目标片段。
在本公开中,若所有滚动时间窗口内的直播片段中存在属于目标片段的直播片段,则执行以上步骤(2);若每一滚动时间窗口内的直播片段均不属于目标片段,则执行以上步骤(3)。
另外,可以针对每一滚动时间窗口内的直播片段,通过将该直播片段输入到预先构建的目标片段分类模型(例如,包括快通道和慢通道的SlowFast模型)中,以确定该直播片段是否为目标片段。其中,目标片段分类模型的训练样本包括正样本和负样本,正样本和负样本均基于不同直播间的历史直播流生成。具体来说,可以针对每一历史直播流,将整场直播的完整直播流中点赞、评论、关注、分享等指标数据排名靠前的N个时间点所在的短片段作为正样本,并将完整直播流中、除正样本外的其余片段作为负样本。
此外,由于完整直播流中大部分画面为非目标片段,因此,正样本数量远远少于负样本数量,造成正负样本不均衡,为此,可以采用采样(包括过采样和欠采样)的方式来使得正负样本均衡。优选地,可以将正样本前后M秒的片段也作为正样本。
当不存在包含异常高值的时间序列数据时,上述S1031可以通过以下方式从实时直播流中确定候选片段:从每一属于目标片段的直播片段中提取第二预设时长的结尾片段,作为候选片段。
为了进一步提升实时直播流中是否存在目标片段的判定精度,在上述S102之前,上述方法还包括以下步骤:
对每一维度的时间序列数据进行平滑处理。此时,上述S102可以根据平滑处理后所得的每一维度的时间序列数据,确定实时直播流中是否存在目标片段。
示例地,可以采用移动平均、带权重的移动平均、指数移动平均、指数加权移动平均等方式对每一维度的时间序列数据进行平滑处理。优选地,可以采用指数加权移动平均或者带权重的移动平均来对每一维度的时间序列数据进行平滑处理,由于这两种方式考虑到了离当前时刻越近的历史时刻数据,对当前时刻的作用和表现越大,会给越接近当前时刻的数据越大的权重,更加适合直播间实时指标数据的平滑处理。
下面针对上述S104中的从视频模板库中确定与目标片段相匹配的目标视频模板的具体实施方式进行详细说明。具体来说,可以通过以下步骤[1]~步骤[5]来实现:
[1]解析目标片段中的音频数据。
[2]对目标片段中的音频数据进行语音识别,得到语音识别文本。
[3]从语音识别文本中提取关键字,作为目标关键字。
[4]获取视频模板库中的每一视频模板对应的关键字。
在一种实施方式中,可以每次采用OCR技术对视频模板库中的各视频模板分别进行文本识别,之后,对文本识别得到的文本进行关键字提取,得到各视频模板对应的关键字。
在另一种实施方式中,可以事先对视频模板库中的各视频模板分别进行文本识别,之后,对文本识别得到的文本进行关键字提取,得到各视频模板对应的关键字,之后,建立视频模板与关键字的对应关系,这样,之后可以根据该对应关系,快速获取到各视频模板对应的关键字。
[5]将视频模板库中、对应的关键字与目标关键字相似度最高的视频模板确定为与目标片段相匹配的目标视频模板。
为了提升目标视频模板与目标片段的匹配准确度,在上述步骤[3]之前,上述S104还包括以下步骤[6]和步骤[7]。
[6]解析目标片段中的视频画面。
[7]对目标片段中的视频画面进行文本识别。
在本公开中,可以通过OCR技术对目标片段中的视频画面进行文本识别。此时,上述步骤[3]可以从语音识别文本和文本识别后所得的文本中提取关键字,作为目标关键字。
另外,在上述步骤[4]之前,上述S104还可以包括以下步骤[8]。
[8]根据目标片段,确定直播类型,视频模板库中、与直播类型对应的视频模板作为候选视频模板。
此时,上步骤[4]可以获取每一候选视频模板对应的关键字,相应地,上述步骤[5]可以将对应的关键字与目标关键字相似度最高的候选视频模板确定为与目标片段相匹配的目标视频模板。这样,可以缩短获取视频模板对应的关键字的时间以及后续相似度计算匹配的时间,从而提升确定目标视频模板的效率。
此外,为了提升目标片段的紧凑性,以保证目标片段的内容丰富程度,可以将目标片段中、与无实际意义的停用词对应的片段剔除。具体来说,如图3所示,在上述S105之前,上述方法还包括S106~S110。
在S106中,解析目标片段中的音频数据。
在S107中,对目标片段中的音频数据进行语音识别,得到语音识别文本和语音识别文本中每一字符对应的时段。
在S108中,判断语音识别文本中是否包含停用词。
在本公开中,停用词为无实际意义的词汇,例如,哦、耶、啊、哎、哎呀、吧等语气词,换句话说、或、及、及其等连接词。
若语音识别文本中包含停用词,则需要对目标片段进一步剪辑,即执行S109和S110;若语音识别文本中不包含停用词,则无需再对目标片段进行进一步剪辑,即执行上述S105。
在S109中,从目标片段中剔除停用词中每一字符对应的时段内的视频片段。
在S110中,根据剔除后所得的目标片段和目标视频模板,生成推广视频。
此外,为了进一步提升推广视频的宣传效果,可以向推广视频中添加吸引观众的素材。具体来说,如图4所示,上述方法还包括S111~S1113。
在S111中,根据目标片段,确定直播类型。
在本公开中,直播类型可以包括游戏直播、舞蹈直播、才艺直播(例如,厨艺直播、插花直播等)、吃播等。示例地,可以通过将目标片段输入到深度学习网络的方式,来得到直播类型。
在S112中,获取与直播类型对应的候选素材。
在S113中,将候选素材与推广视频进行合成。
在本公开中,候选素材包括前贴素材、后贴素材以及标识素材中的至少一者。其中,在进行视频合成时,前贴素材位于推广视频之前,后贴素材位于推广视频之后,标识素材位于推广视频的视频画面中的预设标识位置。并且,前贴素材、后贴素材可以为文案、图像、短视频等,标识素材可以为文字、突出标识(例如,点赞图案)等。
另外,可以预先建立有直播类型与候选素材的对应关系,这样,可以根据该对应关系,确定与当前的直播类型对应的候选素材。
基于相同的发明构思,本公开还提供一种视频生成装置。如图5所示,该装置500包括:采集模块501,用于采集目标直播间实时直播流的多维度指标数据,得到每一所述维度的时间序列数据;
第一确定模块502,用于根据所述采集模块501采集得到的每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段;提取模块503,用于若所述第一确定模块502确定所述实时直播流中存在目标片段,则从所述实时直播流中提取所述目标片段;第二确定模块504,用于从视频模板库中确定与所述提取模块503提取到的所述目标片段相匹配的目标视频模板;生成模块505,用于根据所述提取模503块提取到的所述目标片段和所述第二确定模块504确定出的所述目标视频模板,生成推广视频。
在上述技术方案中,采集目标直播间实时直播流的多维度指标数据,得到每一维度的时间序列数据;根据每一维度的时间序列数据,确定实时直播流中是否存在目标片段;若实时直播流中存在目标片段,则从实时直播流中提取该目标片段;从视频模板库中确定与目标片段相匹配的目标视频模板;根据目标片段和目标视频模板,生成推广视频。这样,可以自动识别、剪辑视频素材,并基于剪辑得到的视频素材,自动获取相匹配的视频模板,从而实现推广视频的快速、自动生成,而无需用户准备视频素材,省时省力。另外,由于推广视频所呈现的内容来源于目标直播间的实时直播画面中的目标片段,对观众更加具有吸引力,并且,推广视频与实际直播内容强相关,可以避免用户进入直播间后不符合心理预期而感到落差的问题,提升目标直播间的访问留存率。
可选地,所述提取模块503包括:第一确定子模块,用于从所述实时直播流中确定候选片段;第一解析子模块,用于解析所述候选片段中的音频数据;第一识别子模块,用于识别所述候选片段中的音频数据中音量小于预设音量阈值、且持续时长超过第一预设时长的音频片段;第二确定子模块,用于将第一片段的起始位置作为剪辑起点,并将第二片段的结束位置作为剪辑终点,其中,所述第一片段为所述音频片段中、对应时段最早的音频片段,所述第二片段为所述音频片段中、对应时段最晚的音频片段;剪辑子模块,用于基于所述剪辑起点和所述剪辑终点,对所述候选片段进行剪辑,得到所述目标片段。
可选地,所述装置500还包括:解析模块,用于解析所述目标片段中的音频数据;识别模块,用于在所述生成模块505根据所述目标片段和所述目标视频模板,生成推广视频之前,对所述目标片段的音频数据进行语音识别,得到语音识别文本和所述语音识别文本中每一字符对应的时段;判断模块,用于判断所述语音识别文本中是否包含停用词;剔除模块,用于若所述语音识别文本中包含所述停用词,则从所述目标片段中剔除所述停用词中每一字符对应的时段内的视频片段;所述生成模块505,用于根据剔除后所得的目标片段和所述目标视频模板,生成推广视频。
可选地,所述第二确定模块504包括:第二解析子模块,用于解析所述目标片段中的音频数据;第二识别子模块,用于对所述目标片段的音频数据进行语音识别,得到语音识别文本;第一提取子模块,用于从所述语音识别文本中提取关键字,作为目标关键字;获取子模块,用于获取所述视频模板库中的每一视频模板对应的关键字;第三确定子模块,用于将所述视频模板库中、对应的关键字与所述目标关键字相似度最高的视频模板确定为与所述目标片段相匹配的目标视频模板。
可选地,所述第二确定模块504还包括:第三解析子模块,用于在所述第一提取子模块从所述语音识别文本中提取关键字之前,解析所述目标片段中的视频画面;第三识别子模块,用于对所述视频画面进行文本识别;所述第一提取子模块,用于从所述语音识别文本和文本识别后所得的文本中提取关键字,作为目标关键字。
可选地,所述第二确定模块504还包括:第四确定子模块,用于在所述获取子模块获取所述视频模板库中的每一视频模板对应的关键字之前,根据所述目标片段,确定直播类型,所述视频模板库中、与所述直播类型对应的视频模板作为候选视频模板;所述获取子模块,用于获取每一所述候选视频模板对应的关键字;所述第三确定子模块,用于将对应的关键字与所述目标关键字相似度最高的候选视频模板确定为与所述目标片段相匹配的目标视频模板。
可选地,所述第一确定模块502包括:检测子模块,用于检测每一所述维度的时间序列数据中是否包含异常高值;第五确定子模块,用于若存在包含所述异常高值的所述时间序列数据,则确定所述实时直播流中存在目标片段。
可选地,所述提取模块503,所述多维度指标数据为所述实时直播流的多维度指标的滚动时间窗口数据;第一确定子模块,用于从所述实时直播流中、所述异常高值对应的滚动时间窗口内的直播片段中提取第二预设时长的结尾片段,作为候选片段,其中,所述滚动时间窗口的时长大于或等于所述第二预设时长。
可选地,所述第一确定模块502还包括:第二提取子模块,用于若不存在包含所述异常高值的所述时间序列数据,则从所述实时直播流中提取每一所述滚动时间窗口内的直播片段;判断子模块,用于针对每一所述滚动时间窗口内的直播片段,根据该直播片段的内容,判断该直播片段是否为目标片段;第六确定子模块,用于若所有所述滚动时间窗口内的直播片段中存在属于目标片段的直播片段,则确定所述实时直播流中存在目标片段。
可选地,当不存在包含所述异常高值的所述时间序列数据时,所述第一确定子模块,用于从每一属于目标片段的所述直播片段中提取第二预设时长的结尾片段,作为候选片段,其中,所述滚动时间窗口的时长大于或等于所述第二预设时长。
可选地,所述装置500还包括:平滑处理模块,用于在所述第一确定模块502根据每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段之前,对每一所述维度的时间序列数据进行平滑处理;所述第一确定模块502,用于根据平滑处理后所得的每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段。
可选地,所述装置500还包括:第四确定模块,用于根据所述目标片段,确定直播类型;获取模块,用于获取与所述直播类型对应的候选素材,其中,所述候选素材包括前贴素材、后贴素材以及标识素材中的至少一者;合成模块,用于将所述候选素材与所述推广视频进行合成,其中,在进行视频合成时,所述前贴素材位于所述推广视频之前,所述后贴素材位于所述推广视频之后,所述标识素材位于所述推广视频的视频画面中的预设标识位置。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开提供的上述视频生成方法的步骤。
下面参考图6,其示出了适于用来实现本公开实施例的电子设备(例如终端设备或服务器)600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:采集目标直播间实时直播流的多维度指标数据,得到所述多维度指标中每一所述维度的时间序列数据;根据每一所述维度的所述时间序列数据,确定所述实时直播流中是否存在目标片段;若所述实时直播流中存在目标片段,则从所述实时直播流中提取所述目标片段;从视频模板库中确定与所述目标片段相匹配的目标视频模板;根据所述目标片段和所述目标视频模板,生成推广视频。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,第一确定模块还可以被描述为“根据所述采集模块采集得到的每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种视频生成方法,包括:采集目标直播间实时直播流的多维度指标数据,得到所述多维度指标中每一所述维度的时间序列数据;根据每一所述维度的所述时间序列数据,确定所述实时直播流中是否存在目标片段;若所述实时直播流中存在目标片段,则从所述实时直播流中提取所述目标片段;从视频模板库中确定与所述目标片段相匹配的目标视频模板;根据所述目标片段和所述目标视频模板,生成推广视频。
根据本公开的一个或多个实施例,示例2提供了示例1的方法,所述从所述实时直播流中提取所述目标片段,包括:从所述实时直播流中确定候选片段;解析所述候选片段中的音频数据;识别所述候选片段中的音频数据中音量小于预设音量阈值、且持续时长超过第一预设时长的音频片段;将第一片段的起始位置作为剪辑起点,并将第二片段的结束位置作为剪辑终点,其中,所述第一片段为所述音频片段中、对应时段最早的音频片段,所述第二片段为所述音频片段中、对应时段最晚的音频片段;基于所述剪辑起点和所述剪辑终点,对所述候选片段进行剪辑,得到所述目标片段。
根据本公开的一个或多个实施例,示例3提供了示例1的方法,在所述根据所述目标片段和所述目标视频模板,生成推广视频的步骤之前,所述方法还包括:解析所述目标片段中的音频数据;对所述目标片段中的音频数据进行语音识别,得到语音识别文本和所述语音识别文本中每一字符对应的时段;判断所述语音识别文本中是否包含停用词;若所述语音识别文本中包含所述停用词,则从所述目标片段中剔除所述停用词中每一字符对应的时段内的视频片段;所述根据所述目标片段和所述目标视频模板,生成推广视频,包括:根据剔除后所得的目标片段和所述目标视频模板,生成推广视频。
根据本公开的一个或多个实施例,示例4提供了示例1的方法,所述从视频模板库中确定与所述目标片段相匹配的目标视频模板,包括:解析所述目标片段中的音频数据;对所述目标片段中的音频数据进行语音识别,得到语音识别文本;从所述语音识别文本中提取关键字,作为目标关键字;获取所述视频模板库中的每一视频模板对应的关键字;将所述视频模板库中、对应的关键字与所述目标关键字相似度最高的视频模板确定为与所述目标片段相匹配的目标视频模板。
根据本公开的一个或多个实施例,示例5提供了示例4的方法,在所述从所述语音识别文本中提取关键字的步骤之前,所述从视频模板库中确定与所述目标片段相匹配的目标视频模板,还包括:解析所述目标片段中的视频画面;对所述视频画面进行文本识别;所述从所述语音识别文本中提取关键字,作为目标关键字,包括:从所述语音识别文本和文本识别后所得的文本中提取关键字,作为目标关键字。
根据本公开的一个或多个实施例,示例6提供了示例4或5的方法,在所述获取所述视频模板库中的每一视频模板对应的关键字的步骤之前,所述从视频模板库中确定与所述目标片段相匹配的目标视频模板,还包括:根据所述目标片段,确定直播类型,所述视频模板库中、与所述直播类型对应的视频模板作为候选视频模板;所述获取所述视频模板库中的每一视频模板对应的关键字,包括:获取每一所述候选视频模板对应的关键字;所述将所述视频模板库中、对应的关键字与所述目标关键字相似度最高的视频模板确定为与所述目标片段相匹配的目标视频模板,包括:将对应的关键字与所述目标关键字相似度最高的候选视频模板确定为与所述目标片段相匹配的目标视频模板。
根据本公开的一个或多个实施例,示例7提供了示例2的方法,所述根据每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段,包括:检测每一所述维度的时间序列数据中是否包含异常高值;若存在包含所述异常高值的所述时间序列数据,则确定所述实时直播流中存在目标片段。
根据本公开的一个或多个实施例,示例8提供了示例7的方法,所述多维度指标数据为所述实时直播流的多维度指标的滚动时间窗口数据;所述从所述实时直播流中确定候选片段,包括:从所述实时直播流中、所述异常高值对应的滚动时间窗口内的直播片段中提取第二预设时长的结尾片段,作为候选片段,其中,所述滚动时间窗口的时长大于或等于所述第二预设时长。
根据本公开的一个或多个实施例,示例9提供了示例7或8的方法,所述根据每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段,还包括:若不存在包含所述异常高值的所述时间序列数据,则从所述实时直播流中提取每一所述滚动时间窗口内的直播片段;针对每一所述滚动时间窗口内的直播片段,根据该直播片段的内容,判断该直播片段是否为目标片段;若所有所述滚动时间窗口内的直播片段中存在属于目标片段的直播片段,则确定所述实时直播流中存在目标片段。
根据本公开的一个或多个实施例,示例10提供了示例9的方法,当不存在包含所述异常高值的所述时间序列数据时,所述从所述实时直播流中确定候选片段,包括:从每一属于目标片段的所述直播片段中提取第二预设时长的结尾片段,作为候选片段,其中,所述滚动时间窗口的时长大于或等于所述第二预设时长。
根据本公开的一个或多个实施例,示例11提供了示例1-示例5的方法,在所述根据每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段的步骤之前,所述方法还包括:对每一所述维度的时间序列数据进行平滑处理;所述根据每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段,包括:根据平滑处理后所得的每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段。
根据本公开的一个或多个实施例,示例12提供了示例1-示例5的方法,所述方法还包括:根据所述目标片段,确定直播类型;获取与所述直播类型对应的候选素材,其中,所述候选素材包括前贴素材、后贴素材以及标识素材中的至少一者;将所述候选素材与所述推广视频进行合成,其中,在进行视频合成时,所述前贴素材位于所述推广视频之前,所述后贴素材位于所述推广视频之后,所述标识素材位于所述推广视频的视频画面中的预设标识位置。
根据本公开的一个或多个实施例,示例13提供了一种视频生成装置,包括:采集模块,用于采集目标直播间实时直播流的多维度指标数据,得到每一所述维度的时间序列数据;第一确定模块,用于根据所述采集模块采集得到的每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段;提取模块,用于若所述第一确定模块确定所述实时直播流中存在目标片段,则从所述实时直播流中提取所述目标片段;第二确定模块,用于从视频模板库中确定与所述提取模块提取到的所述目标片段相匹配的目标视频模板;生成模块,用于根据所述提取模块提取到的所述目标片段和所述第二确定模块确定出的所述目标视频模板,生成推广视频。
根据本公开的一个或多个实施例,示例14提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现示例1-12中任一项所述方法的步骤。
根据本公开的一个或多个实施例,示例15提供了一种电子设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现示例1-12中任一项所述方法的步骤。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

Claims (15)

1.一种视频生成方法,其特征在于,包括:
采集目标直播间实时直播流的多维度指标数据,得到所述多维度指标中每一所述维度的时间序列数据;
根据每一所述维度的所述时间序列数据,确定所述实时直播流中是否存在目标片段;
若所述实时直播流中存在目标片段,则从所述实时直播流中提取所述目标片段;
从视频模板库中确定与所述目标片段相匹配的目标视频模板;
根据所述目标片段和所述目标视频模板,生成推广视频。
2.根据权利要求1所述的方法,其特征在于,所述从所述实时直播流中提取所述目标片段,包括:
从所述实时直播流中确定候选片段;
解析所述候选片段中的音频数据;
识别所述候选片段中的音频数据中音量小于预设音量阈值、且持续时长超过第一预设时长的音频片段;
将第一片段的起始位置作为剪辑起点,并将第二片段的结束位置作为剪辑终点,其中,所述第一片段为所述音频片段中、对应时段最早的音频片段,所述第二片段为所述音频片段中、对应时段最晚的音频片段;
基于所述剪辑起点和所述剪辑终点,对所述候选片段进行剪辑,得到所述目标片段。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述目标片段和所述目标视频模板,生成推广视频的步骤之前,所述方法还包括:
解析所述目标片段中的音频数据;
对所述目标片段中的音频数据进行语音识别,得到语音识别文本和所述语音识别文本中每一字符对应的时段;
判断所述语音识别文本中是否包含停用词;
若所述语音识别文本中包含所述停用词,则从所述目标片段中剔除所述停用词中每一字符对应的时段内的视频片段;
所述根据所述目标片段和所述目标视频模板,生成推广视频,包括:
根据剔除后所得的目标片段和所述目标视频模板,生成推广视频。
4.根据权利要求1所述的方法,其特征在于,所述从视频模板库中确定与所述目标片段相匹配的目标视频模板,包括:
解析所述目标片段中的音频数据;
对所述目标片段中的音频数据进行语音识别,得到语音识别文本;
从所述语音识别文本中提取关键字,作为目标关键字;
获取所述视频模板库中的每一视频模板对应的关键字;
将所述视频模板库中、对应的关键字与所述目标关键字相似度最高的视频模板确定为与所述目标片段相匹配的目标视频模板。
5.根据权利要求4所述的方法,其特征在于,在所述从所述语音识别文本中提取关键字的步骤之前,所述从视频模板库中确定与所述目标片段相匹配的目标视频模板,还包括:
解析所述目标片段中的视频画面;
对所述视频画面进行文本识别;
所述从所述语音识别文本中提取关键字,作为目标关键字,包括:
从所述语音识别文本和文本识别后所得的文本中提取关键字,作为目标关键字。
6.根据权利要求4或5所述的方法,其特征在于,在所述获取所述视频模板库中的每一视频模板对应的关键字的步骤之前,所述从视频模板库中确定与所述目标片段相匹配的目标视频模板,还包括:
根据所述目标片段,确定直播类型,所述视频模板库中、与所述直播类型对应的视频模板作为候选视频模板;
所述获取所述视频模板库中的每一视频模板对应的关键字,包括:
获取每一所述候选视频模板对应的关键字;
所述将所述视频模板库中、对应的关键字与所述目标关键字相似度最高的视频模板确定为与所述目标片段相匹配的目标视频模板,包括:
将对应的关键字与所述目标关键字相似度最高的候选视频模板确定为与所述目标片段相匹配的目标视频模板。
7.根据权利要求2所述的方法,其特征在于,所述根据每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段,包括:
检测每一所述维度的时间序列数据中是否包含异常高值;
若存在包含所述异常高值的所述时间序列数据,则确定所述实时直播流中存在目标片段。
8.根据权利要求7所述的方法,其特征在于,所述多维度指标数据为所述实时直播流的多维度指标的滚动时间窗口数据;
所述从所述实时直播流中确定候选片段,包括:
从所述实时直播流中、所述异常高值对应的滚动时间窗口内的直播片段中提取第二预设时长的结尾片段,作为候选片段,其中,所述滚动时间窗口的时长大于或等于所述第二预设时长。
9.根据权利要求7或8所述的方法,其特征在于,所述根据每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段,还包括:
若不存在包含所述异常高值的所述时间序列数据,则从所述实时直播流中提取每一所述滚动时间窗口内的直播片段;
针对每一所述滚动时间窗口内的直播片段,根据该直播片段的内容,判断该直播片段是否为目标片段;
若所有所述滚动时间窗口内的直播片段中存在属于目标片段的直播片段,则确定所述实时直播流中存在目标片段。
10.根据权利要求9所述的方法,其特征在于,当不存在包含所述异常高值的所述时间序列数据时,所述从所述实时直播流中确定候选片段,包括:
从每一属于目标片段的所述直播片段中提取第二预设时长的结尾片段,作为候选片段,其中,所述滚动时间窗口的时长大于或等于所述第二预设时长。
11.根据权利要求1-5中任一项所述的方法,其特征在于,在所述根据每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段的步骤之前,所述方法还包括:
对每一所述维度的时间序列数据进行平滑处理;
所述根据每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段,包括:
根据平滑处理后所得的每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段。
12.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
根据所述目标片段,确定直播类型;
获取与所述直播类型对应的候选素材,其中,所述候选素材包括前贴素材、后贴素材以及标识素材中的至少一者;
将所述候选素材与所述推广视频进行合成,其中,在进行视频合成时,所述前贴素材位于所述推广视频之前,所述后贴素材位于所述推广视频之后,所述标识素材位于所述推广视频的视频画面中的预设标识位置。
13.一种视频生成装置,其特征在于,包括:
采集模块,用于采集目标直播间实时直播流的多维度指标数据,得到每一所述维度的时间序列数据;
第一确定模块,用于根据所述采集模块采集得到的每一所述维度的时间序列数据,确定所述实时直播流中是否存在目标片段;
提取模块,用于若所述第一确定模块确定所述实时直播流中存在目标片段,则从所述实时直播流中提取所述目标片段;
第二确定模块,用于从视频模板库中确定与所述提取模块提取到的所述目标片段相匹配的目标视频模板;
生成模块,用于根据所述提取模块提取到的所述目标片段和所述第二确定模块确定出的所述目标视频模板,生成推广视频。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-12中任一项所述方法的步骤。
15.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-12中任一项所述方法的步骤。
CN202110865107.2A 2021-07-29 2021-07-29 视频生成方法、装置、介质及电子设备 Active CN113596579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110865107.2A CN113596579B (zh) 2021-07-29 2021-07-29 视频生成方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110865107.2A CN113596579B (zh) 2021-07-29 2021-07-29 视频生成方法、装置、介质及电子设备

Publications (2)

Publication Number Publication Date
CN113596579A true CN113596579A (zh) 2021-11-02
CN113596579B CN113596579B (zh) 2023-04-07

Family

ID=78251907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110865107.2A Active CN113596579B (zh) 2021-07-29 2021-07-29 视频生成方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN113596579B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114786069A (zh) * 2022-04-22 2022-07-22 北京有竹居网络技术有限公司 视频生成方法、装置、介质及电子设备
CN115103225A (zh) * 2022-06-15 2022-09-23 北京爱奇艺科技有限公司 视频片段提取方法、装置、电子设备和存储介质
CN115277464A (zh) * 2022-05-13 2022-11-01 清华大学 基于多维时间序列分析的云网络变更流量异常检测方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107251014A (zh) * 2015-04-21 2017-10-13 深圳市大疆创新科技有限公司 一种媒体编辑方法、媒体编辑器及媒体计算机
CN108769723A (zh) * 2018-05-28 2018-11-06 广州虎牙信息科技有限公司 直播视频中优质内容的推送方法、装置、设备和存储介质
CN109168026A (zh) * 2018-10-25 2019-01-08 北京字节跳动网络技术有限公司 即时视频显示方法、装置、终端设备及存储介质
CN109708256A (zh) * 2018-12-06 2019-05-03 珠海格力电器股份有限公司 一种语音确定方法、装置、存储介质及空调
CN109996091A (zh) * 2019-03-28 2019-07-09 苏州八叉树智能科技有限公司 生成视频封面的方法、装置、电子设备和计算机可读存储介质
CN110381389A (zh) * 2018-11-14 2019-10-25 腾讯科技(深圳)有限公司 一种基于人工智能的字幕生成方法和装置
CN110602566A (zh) * 2019-09-06 2019-12-20 Oppo广东移动通信有限公司 匹配方法、终端和可读存储介质
CN110992993A (zh) * 2019-12-17 2020-04-10 Oppo广东移动通信有限公司 视频编辑方法、视频编辑装置、终端和可读存储介质
CN111128253A (zh) * 2019-12-13 2020-05-08 北京小米智能科技有限公司 音频剪辑方法及装置
CN111460252A (zh) * 2020-03-16 2020-07-28 青岛智汇文创科技有限公司 一种基于网络舆情分析的自动化搜索引擎方法及系统
CN111698575A (zh) * 2020-06-19 2020-09-22 广州华多网络科技有限公司 直播亮点视频剪辑方法、装置、设备及存储介质
CN112185424A (zh) * 2020-09-29 2021-01-05 国家计算机网络与信息安全管理中心 一种语音文件裁剪还原方法、装置、设备和存储介质
CN112732977A (zh) * 2021-01-21 2021-04-30 网娱互动科技(北京)股份有限公司 一种基于模板快速生成短视频的方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107251014A (zh) * 2015-04-21 2017-10-13 深圳市大疆创新科技有限公司 一种媒体编辑方法、媒体编辑器及媒体计算机
CN108769723A (zh) * 2018-05-28 2018-11-06 广州虎牙信息科技有限公司 直播视频中优质内容的推送方法、装置、设备和存储介质
CN109168026A (zh) * 2018-10-25 2019-01-08 北京字节跳动网络技术有限公司 即时视频显示方法、装置、终端设备及存储介质
CN110381389A (zh) * 2018-11-14 2019-10-25 腾讯科技(深圳)有限公司 一种基于人工智能的字幕生成方法和装置
CN109708256A (zh) * 2018-12-06 2019-05-03 珠海格力电器股份有限公司 一种语音确定方法、装置、存储介质及空调
CN109996091A (zh) * 2019-03-28 2019-07-09 苏州八叉树智能科技有限公司 生成视频封面的方法、装置、电子设备和计算机可读存储介质
CN110602566A (zh) * 2019-09-06 2019-12-20 Oppo广东移动通信有限公司 匹配方法、终端和可读存储介质
CN111128253A (zh) * 2019-12-13 2020-05-08 北京小米智能科技有限公司 音频剪辑方法及装置
CN110992993A (zh) * 2019-12-17 2020-04-10 Oppo广东移动通信有限公司 视频编辑方法、视频编辑装置、终端和可读存储介质
CN111460252A (zh) * 2020-03-16 2020-07-28 青岛智汇文创科技有限公司 一种基于网络舆情分析的自动化搜索引擎方法及系统
CN111698575A (zh) * 2020-06-19 2020-09-22 广州华多网络科技有限公司 直播亮点视频剪辑方法、装置、设备及存储介质
CN112185424A (zh) * 2020-09-29 2021-01-05 国家计算机网络与信息安全管理中心 一种语音文件裁剪还原方法、装置、设备和存储介质
CN112732977A (zh) * 2021-01-21 2021-04-30 网娱互动科技(北京)股份有限公司 一种基于模板快速生成短视频的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114786069A (zh) * 2022-04-22 2022-07-22 北京有竹居网络技术有限公司 视频生成方法、装置、介质及电子设备
CN115277464A (zh) * 2022-05-13 2022-11-01 清华大学 基于多维时间序列分析的云网络变更流量异常检测方法
CN115103225A (zh) * 2022-06-15 2022-09-23 北京爱奇艺科技有限公司 视频片段提取方法、装置、电子设备和存储介质
CN115103225B (zh) * 2022-06-15 2023-12-26 北京爱奇艺科技有限公司 视频片段提取方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113596579B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN113596579B (zh) 视频生成方法、装置、介质及电子设备
US10824874B2 (en) Method and apparatus for processing video
CN107918653B (zh) 一种基于喜好反馈的智能播放方法和装置
CN108989882B (zh) 用于输出视频中的音乐片段的方法和装置
CN104598644B (zh) 喜好标签挖掘方法和装置
CN110740389B (zh) 视频定位方法、装置、计算机可读介质及电子设备
EP3132363A1 (en) Methods, systems, and media for presenting music items relating to media content
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
CN109493888B (zh) 漫画配音方法及装置、计算机可读存储介质、电子设备
CN112037792B (zh) 一种语音识别方法、装置、电子设备及存储介质
CN109582825B (zh) 用于生成信息的方法和装置
CN110990598B (zh) 资源检索方法、装置、电子设备及计算机可读存储介质
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
CN112929746B (zh) 视频生成方法和装置、存储介质和电子设备
US11750898B2 (en) Method for generating target video, apparatus, server, and medium
CN108877779B (zh) 用于检测语音尾点的方法和装置
CN111625649A (zh) 文本处理方法、装置、电子设备及介质
CN113724709A (zh) 文本内容匹配方法、装置、电子设备及存储介质
CN113889113A (zh) 分句方法、装置、存储介质及电子设备
CN107680584B (zh) 用于切分音频的方法和装置
JP2014153977A (ja) コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム
CN112532507A (zh) 用于呈现表情图像、用于发送表情图像的方法和设备
CN113407775B (zh) 视频搜索方法、装置及电子设备
CN111767259A (zh) 内容分享的方法、装置、可读介质和电子设备
CN110797013A (zh) 语音直播间的直播入口显示方法、相关设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant