CN114449313A - 视频的音画面播放速率调整方法及装置 - Google Patents

视频的音画面播放速率调整方法及装置 Download PDF

Info

Publication number
CN114449313A
CN114449313A CN202210125245.1A CN202210125245A CN114449313A CN 114449313 A CN114449313 A CN 114449313A CN 202210125245 A CN202210125245 A CN 202210125245A CN 114449313 A CN114449313 A CN 114449313A
Authority
CN
China
Prior art keywords
time
sound
data
picture
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210125245.1A
Other languages
English (en)
Other versions
CN114449313B (zh
Inventor
袁未发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hode Information Technology Co Ltd
Original Assignee
Shanghai Hode Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hode Information Technology Co Ltd filed Critical Shanghai Hode Information Technology Co Ltd
Priority to CN202210125245.1A priority Critical patent/CN114449313B/zh
Publication of CN114449313A publication Critical patent/CN114449313A/zh
Priority to PCT/CN2022/144228 priority patent/WO2023151424A1/zh
Application granted granted Critical
Publication of CN114449313B publication Critical patent/CN114449313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2387Stream processing in response to a playback request from an end-user, e.g. for trick-play
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请公开了一种视频的音画面播放速率调整方法,包括:对待编辑的视频以字为维度进行预处理,得到N个音画面,每一个音画面包括字画面与语音数据,其中,N为大于或者等于2的正整数;对第i个音画面的语音数据中的声母数据和韵母数据的起止点进行识别,得到第i个音画面的声母数据的起点时间i1与终点时间i2、韵母数据的起点时间f1与终点时间f2,其中,i∈N;通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面。本申请可提高编辑性能。

Description

视频的音画面播放速率调整方法及装置
技术领域
本申请涉及视频技术领域,尤其涉及一种视频的音画面播放速率调整方法及装置。
背景技术
鬼畜视频是一种以高度同步、快速重复的素材配合背景音乐的节奏来达到喜感效果的视频。现有技术中,在进行鬼畜视频的创作时,需要对字的韵母点进行分割,从而形成声母和韵母两部分,再分别对其变速以达到对齐背景音乐的节奏点的目的。然而,对字的韵母点进行分割会产生两个独立的片段。这样,在鬼畜创作的场景中便会形成大量的视频和原声音频片段,从而影响视频的编辑性能。
发明内容
有鉴于此,现提供一种视频的音画面播放速率调整方法、装置、计算机设备及计算机可读存储介质,以解决在鬼畜创作的场景中会形成大量的视频和原声音频片段,从而影响视频的编辑性能的问题。
本申请提供了一种视频的音画面播放速率调整方法,包括:
对待编辑的视频以字为维度进行预处理,得到N个音画面,每一个音画面包括字画面与语音数据,其中,N为大于或者等于2的正整数;
对第i个音画面的语音数据中的声母数据和韵母数据的起止点进行识别,得到第i个音画面的声母数据的起点时间i1与终点时间i2、韵母数据的起点时间f1与终点时间f2,其中,i ∈N;
通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面。
可选地,所述方法还包括:
获取预设的背景音乐中的节奏点信息;
所述通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面包括:
通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,以使第i个音画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐。
可选地,所述节奏点时间信息包括多个节奏点的节奏时间,所述方法还包括:生成所述贝塞尔曲线,其中,生成所述贝塞尔曲线具体包括:
从所述节奏点时间信息中获取第i个音画面所对应的节奏点的节奏时间b1及第i+1个音画面所对应的节奏点的节奏时间b2
根据节奏时间b1、节奏时间b2、起点时间f1与终点时间f2、i+1个音画面的声母数据的起点时间e1及终点时间e2确定所述贝塞尔曲线的起始点与终止点;
根据起点时间i1、终点时间i2、起点时间f1及终点时间f2确定所述贝塞尔曲线的控制点;
根据所述起始点、所述终止点及所述控制点生成所述贝塞尔曲线。
可选地,所述根据节奏时间b1、节奏时间b2、起点时间f1与终点时间f2、i+1个音画面的声母数据的起点时间e1及终点时间e2确定所述贝塞尔曲线的起始点与终止点包括:
根据节奏时间b1、节奏时间b2及预设的播放时间计算规则计算出第i个音画面的韵母数据的播放时长t1以及第i+1个音画面的声母数据的播放时长t2
根据播放时长t1、起点时间f1、终点时间f2及预设的播放速率计算规则计算出第i个音画面的第一变速速率Sv1,并将第一变速速率Sv1作为所述起始点;
根据播放时长t2、起点时间e1、终点时间e2及所述播放速率计算规则计算出第i+1个音画面的第二变速速率Sv2,并将第二变速速率Sv2作为所述终止点。
可选地,所述根据起点时间i1、终点时间i2、起点时间f1及终点时间f2确定所述贝塞尔曲线的控制点包括:
选取起点时间i1及起点时间f1作为所述贝塞尔曲线的第一个控制点和第二个控制点;
从起点时间f1及终点时间f2之间选择一个时间点f1+x作为所述贝塞尔曲线的第三个控制点,并选取终点时间f2作为所述贝塞尔曲线的第四个控制点;
所述根据所述起始点、所述终止点及所述控制点生成所述贝塞尔曲线包括:
根据所述起始点、所述终止点及选取的四个控制点生成所述贝塞尔曲线。
可选地,所述贝塞尔曲线包括第一贝塞尔曲线和第二贝塞尔曲线,所述通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面包括:
通过所述第一贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i 个音画面的声母数据和韵母数据对应的字画面的播放速率进行分阶段变速调整,得到调整播放速率后的字画面;
通过所述第二贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i 个音画面的声母数据和韵母数据的播放速率进行分阶段变速调整,得到调整播放速率后的语音数据。
可选地,所述通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,以使第i个音画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐包括:
判断所述第一变速速率与所述第二变速速率是否超过预设的变速阈值;
若所述第一变速速率及/或所述第二变速速率超过所述变速阈值,则通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的字画面的播放速率进行分阶段变速调整,以使第i个音画面的字画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐;
采用预设的声音对齐规则对所述贝塞尔曲线中的起始点和终止点进行更新,并根据更新后的起始点终止点对所述贝塞尔曲线进行调整,得到调整后的贝塞尔曲线;
通过调整后的贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i 个音画面的声母数据和韵母数据的播放速率进行调整的节奏点的时长进行对齐,以使第i个音画面的语音数据的播放时长与所述背景音乐中对应的节奏点的时长进行对齐。
可选地,所述通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的字画面的播放速率进行分阶段变速调整包括:
通过贝塞尔曲线对起点时间i1、终点时间i2进行调节,得到第i个音画面的声母数据对应的调节后的起点时间和终点时间;
根据调节后的声母数据的起点时间和终点时间及第i个音画面的字画面的初始播放速率确定第i个音画面的声母数据对应的字画面的播放速率;
通过贝塞尔曲线对起点时间f1、终点时间f2进行调节,得到第i个音画面的韵母数据对应的调节后的起点时间和终点时间;
根据调节后的韵母数据的起点时间和终点时间及第i个音画面的字画面的初始播放速率确定第i个音画面的韵母数据对应的字画面的播放速率;
所述通过调整后的贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据的播放速率进行调整包括:
通过调整后的贝塞尔曲线对起点时间i1、终点时间i2进行调节,得到第i个音画面的声母数据对应的调节后的起点时间和终点时间;
根据调节后的声母数据的起点时间和终点时间及第i个音画面的语音数据的初始播放速率确定第i个音画面的声母数据的播放速率;
通过贝塞尔曲线对起点时间f1、终点时间f2进行调节,得到第i个音画面的韵母数据对应的调节后的起点时间和终点时间;
根据调节后的韵母数据的起点时间和终点时间及第i个音画面的语音数据的初始播放速率确定第i个音画面的韵母数据的播放速率。
可选地,所述对待编辑的视频以字为维度进行预处理,得到N个音画面,包括:
对所述视频以字为维度进行分片处理,得到N个视频片段;
对N个所述视频片段进行音画分离处理,得到N个音画面。
可选地,所述方法还包括:
根据所述预设的背景音乐的波形图生成所述节奏点时间信息。
本申请还提供了一种视频的音画面播放速率调整装置,包括:
预处理模块,用于对待编辑的视频以字为维度进行预处理,得到N个音画面,每一个音画面包括字画面与语音数据,其中,N为大于或者等于2的正整数;
识别模块,用于对第i个音画面的语音数据中的声母数据和韵母数据的起止点进行识别,得到第i个音画面的声母数据的起点时间i1与终点时间i2、韵母数据的起点时间f1与终点时间f2,其中,i∈N;
调整模块,用于通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间 f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面。
本申请还提供了一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本实施例中,在对视频进行播放时,依据贝塞尔曲线来对每一个音画面中的字画面和对应的语音数据的播放时长进行伸缩对齐,从而无需对视频按照声母及韵母进行分割,可以减少在鬼畜场景下需要对视频片段进行编辑的数量,提升编辑性能。
附图说明
图1为本申请实施例的视频的音画面播放速率调整方法的环境示意图;
图2为本申请所述的视频的音画面播放速率调整方法的一种实施例的流程图;
图3为本申请一实施方式中对待编辑的视频以字为维度进行预处理,得到N个音画面的步骤细化流程示意图;
图4为本申请一实施方式中生成所述贝塞尔曲线的步骤细化流程示意图;
图5为本申请一实施方式中根据节奏时间b1、节奏时间b2、起点时间f1与终点时间f2、 i+1个音画面的声母数据的起点时间e1及终点时间e2确定所述贝塞尔曲线的起始点与终止点的步骤细化流程示意图;
图6为本申请一实施方式中根据起点时间i1、终点时间i2、起点时间f1及终点时间f2确定所述贝塞尔曲线的控制点的步骤细化流程示意图;
图7为本申请一实施方式中根据节奏时间b1、节奏时间b2、起点时间f1与终点时间f2、 i+1个音画面的声母数据的起点时间e1及终点时间e2确定所述贝塞尔曲线的起始点与终止点的步骤细化流程示意图;
图8为本申请所述的视频的音画面播放速率调整装置的一种实施例的程序模块图;
图9为本申请实施例提供的执行视频的音画面播放速率调整方法的计算机设备的硬件结构示意图。
具体实施方式
以下结合附图与具体实施例进一步阐述本申请的优点。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“所述”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本申请的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本申请及区别每一步骤,因此不能理解为对本申请的限制。
图1示意性示出了根据本申请实施例的视频的音画面播放速率调整方法的应用环境示意图。在示例性的实施例中,所述应用环境的系统可包括终端设备10、服务器20。其中,终端设备10与服务器20形成无线或有线连接。终端设备10可以为手机、iPAD,平板电脑等。服务器20可以为一台服务器或多台服务器组成的服务器集群或云计算中心等,具体此处不作限定。
参阅图2,其为本申请一实施例的视频的音画面播放速率调整方法的流程示意图。本申请的视频的音画面播放速率调整方法,可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。从图中可以看出,本实施例中所提供的视频的音画面播放速率调整方法包括:
步骤S20、对待编辑的视频以字为维度进行预处理,得到N个音画面,每一个音画面包括字画面与语音数据,其中,N为大于或者等于2的正整数。
具体地,所述待编辑的视频为用于制作鬼畜视频的视频,其中,鬼畜视频是一种以高度同步、快速重复的素材配合背景音乐的节奏来达到或喜感效果的视频,该鬼畜视频是B站上一种较为常见的原创类型的视频。
在本实施例中,所述视频由视频帧画面和对应的语音数据组成,其中,语音数据至少包括2个字,比如,包括发音为w1,w2两个字的语音数据。
其中,所述以字为维度指的是对所述待编辑的视频进行预处理时,是依照所述视频中的语音数据的各个“字”进行处理的。
由于在制作鬼畜视频时,都是以“字”为最小单位进行编辑处理,因此,在本实施例中,在得到待编辑的视频后,可以对所述待编辑视频以字为维度进行预处理,从而得到N个音画面。其中,N的取值与视频中包含的“字”的个数有关,比如,视频中包含有2个字,则 N=2。
在一示例性的实施方式中,参阅图3,所述对待编辑的视频以字为维度进行预处理,得到N个音画面包括:
步骤S30,对所述视频以字为维度进行分片处理,得到N个视频片段。
具体地,可以通过语音识别字符分割算法将所述视频中的语音数据切分成多个字,然后根据切分后的多个字对应的播放时间确定与该字对应的视频片段,从而实现将视频分割成N 个视频片段。
步骤S31,对N个所述视频片段进行音画分离处理,得到N个音画面。
具体地,在鬼畜视频编辑场景,为了能对视频画面进行更进一步编辑而不影响对齐的音轨,以及画面和声音进行对齐伸缩时,避免由于声音变速超出变速范围而导致声音变形问题,在将视频划分为N个所述视频片段后,可以继续对每一个视频片段中的声音和画面进行分离处理,从而得到音画面。
作为示例,所述视频由两个字的视频片段组成,经过音画分离处理后可以得到(a1,v1)和(a2,v2)两个音画面,其中,a1为第一个音画面的语音数据,a2为第二个音画面的语音数据,v1为第一个音画面的字画面,v2为第二个音画面的字画面。
需要说明的是,上述所述的字画面指的是由多张视频帧组成的图片合集。
步骤S21,对第i个音画面的声母数据和韵母数据的起止点进行识别,得到第i个音画面的声母数据的起点时间i1与终点时间i2、韵母数据的起点时间f1与终点时间f2,其中,i∈ N。
具体地,可以通过视频编辑工具或则AI识别模块对每一个音画面的语音数据中的声母数据和韵母数据的起止点进行识别,从而找到语音数据中的声母起点时间、声母终点时间、韵母起点时间与韵母终点时间。
其中,声母数据指的是语音数据中包含有声母的语音片段,韵母数据指的是语音数据中包含有韵母的语音片段。整个语音数据由声母数据和韵母数据组成。
在一具体实施方式中,以对待编辑的视频进行预处理后仅得到2个音画面为例,在对这两个音画面中的语音数据中的声母数据和韵母数据的起止点进行识别后,可以得到第一个语音数据中的声母数据起止点时间和韵母数据的起止点时间分别为(i1,i2),(f1,f2),得到第二个语音数据中的声母数据的起止点时间和韵母数据的起止点时间分别为(e1,e2),(k1,k2)。
可以理解的是,在对待编辑的视频进行预处理后得到音画面的数量大于2时,则在进行声母数据和韵母数据的起止点识别处理时,需要对经过预处理得到的所有的音画面中的语音数据中的声母数据和韵母数据的起止点进行识别,从而可以得到所有语音数据中的声母数据的起点时间、声母数据的终点时间、韵母数据的起点时间与韵母数据的终点时间。
步骤S22,通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第 i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面。
具体地,贝塞尔曲线是应用于二维图形应用程序的数学曲线。贝塞尔曲线通过定义的起始点、终止点(这两个点也称锚点)、控制点的坐标来进行绘制。在绘制过程中,通过调整控制点的坐标,贝塞尔曲线的形状会发生变化。
在本实施例中,在通过贝塞尔曲线对声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整时,可以通过该贝塞尔曲线及起点时间i1、终点时间i2、起点时间f1、终点时间f2映射出第i个音画面的声母数据和韵母数据的播放速率,然后根据播放速率分别对声母数据和韵母数据对应的音画面的播放速率进行调整,从而得到最终用于播放的音画面的播放速率。
本实施例中,在对视频进行播放时,依据贝塞尔曲线来对每一个音画面中的字画面和对应的语音数据的播放时长进行伸缩对齐,从而无需对视频按照声母及韵母进行分割,可以减少在鬼畜场景下需要对视频片段进行编辑的数量,提升编辑性能。
在一示例性的实施方式中,所述贝塞尔曲线包括第一贝塞尔曲线和第二贝塞尔曲线,所述通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面包括:通过所述第一贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的字画面的播放速率进行分阶段变速调整,得到调整播放速率后的字画面;通过所述第二贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据的播放速率进行分阶段变速调整,得到调整播放速率后的语音数据。
本实施例中,通过采用不同的贝塞尔曲线分别对第i个音画面的声母数据和韵母数据的播放速率和第i个音画面的字画面的播放速率进行调整,从而可以实现对字画面和语音数据的播放速率的不同调整,提高播放速率调整的灵活性。
在一示例性的实施方式中,为了使得调整后的音画面具有节奏感,所述方法还包括:
获取预设的背景音乐中的节奏点信息。
具体地,所述背景音乐可以由用户根据实际情况进行选定,在用户选定背景音乐后,可以将该背景音乐与所述视频进行关联,从而作为所述视频的背景音乐。
所述节奏点时间信息包括节奏点的节奏时间,所述节奏时间指的是节奏点对应的时间点。
为了便于理解节奏时间,以下举例说明:
比如,一段6秒长的背景音乐包括5个节奏点,且这5个节奏点处于的位置分别为第1 秒、第2秒、第3秒、第4秒及第5秒,则第一个节奏点的节奏时间为1、则第二个节奏点的节奏时间为2、第三个节奏点的节奏时间为3、则第四个节奏点的节奏时间为4、则第五个节奏点的节奏时间为5。
在本实施例中,所述背景音乐的节奏点时间信息可以在用户选择好背景音乐后再对该背景音乐进行节奏点提取得到,也可以预先对所有待选择的背景音乐先进行节奏点提取,然后将提取到的节奏点时间信息与对应的背景音乐关联保存至存储单元中,在后续需要获取背景音乐的节奏点时间信息时,直接从存储单元中获取。
在一示例性的实施方式中,可以根据所述预设的背景音乐的波形图生成所述节奏点时间信息。
具体地,可以通过视频编辑工具导入用户选定的与所述视频相匹配的背景音乐,之后,可以对该背景音乐的波形图进行分析,从而得到背景音乐中包含的多个节奏点的节奏时间。
在一实施例方式中,也可以通过预先训练好的节奏点模型来从背景音乐中找出其中包含的各个节奏点的节奏时间,并输出节奏点信息序列,其中,所述节奏点时间序列中包含有所有节点点的节奏时间。
作为示例,输出的节奏点信息序列为[b1,b2,b3,b4,……],其中,b1,b2,b3,b4分别代表第一个节奏点的节奏时间、第二个节奏点的节奏时间,第三个节奏点的节奏时间,第四个节奏点的节奏时间。
相应地,所述通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面包括:
通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,以使第i个音画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐。
具体地,在对视频进行播放时,对于每一个音画面的播放速率可以根据对应的贝塞尔曲线进行确定,在确定好播放速率后,可以根据确定好的播放速率对该音画面进行播放速度的调整,从而实现其播放时长和背景音乐中对应的节奏点的时长进行对齐。
具体而言,在对第一个音画面(包括字画面和语音数据)进行播放时,可以根据该第一个音画面对应的贝塞尔曲线来获取该音画面播放过程中的各个时间节点所对应的播放速率,然后,根据得到的播放速率对该音画面之前的播放速度进行调整,从而实现在对该第一个音画面进行播放时,可以让其播放时长与第一个节奏点的时长进行对齐。
本实施例中,通过对音画面的播放速率进行调整,从而使得i个音画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐,从而实现将视频与背景音乐进行匹配,以吸引用户进行观看。
在一示例性的实施方式中,为了更好的实现音画面与背景音乐的匹配,所述方法还包括生成所述贝塞尔曲线,参阅图4,所述贝塞尔曲线可以通过如下步骤生成:
步骤S40,从所述节奏点时间信息中获取第i个音画面所对应的节奏点的节奏时间b1及第i+1个音画面所对应的节奏点的节奏时间b2
具体地,在制作鬼畜视频时,由于每一个音画面需要和一个节奏点进行对齐,而节奏点的节奏时间中包含有每一个节奏点的节奏时间,因此,可以从所述节奏点时间信息中获取第 i个音画面所对应的节奏点的节奏时间b1及第i+1个音画面所对应的节奏点的节奏时间b2
步骤S41,根据节奏时间b1、节奏时间b2、起点时间f1与终点时间f2、i+1个音画面的声母数据的起点时间e1及终点时间e2确定所述贝塞尔曲线的起始点与终止点。
在一示例性的实施方式中,参阅图5,所述根据节奏时间b1、节奏时间b2、起点时间f1与终点时间f2、i+1个音画面的声母数据的起点时间e1及终点时间e2确定所述贝塞尔曲线的起始点与终止点可以包括:
步骤S50,根据节奏时间b1、节奏时间b2及预设的播放时间计算规则计算出第i个音画面的韵母数据的播放时长t1以及第i+1个音画面的声母数据的播放时长t2
具体地,所述播放时长计算规则为用于对音画面的播放时长进行调整的规则。
在一具体场景中,在获取到第i个音画面所对应的节奏点的节奏时间b1及第i+1个音画面所对应的节奏点的节奏时间b2后,可以将节奏时间b1及节奏时间b2代入播放时长计算规则中,从而计算出第i个音画面的韵母数据的播放时长t1以及第i+1个音画面的声母数据的播放时长t2
在一示例性的实施方式中,所述播放时长计算规则为:t1=(b2-b1)×M1,t2=(b2-b1)×M2,其中,M1,M2为预先设置的声韵母时长比例。通过该规则中包含的两个计算公式可以得到第i个音画面的韵母数据的播放时长t1以及第i+1个音画面的声母数据的播放时长t2
步骤S51,根据播放时长t1、起点时间f1、终点时间f2及预设的播放速率计算规则计算出第i个音画面的第一变速速率Sv1,并将第一变速速率Sv1作为所述起始点;
具体地,所述播放速率计算规则为用于对音画面的播放速率进行调整的规则。
在计算得到所述播放时长t1后,可以将播放时长t1、起点时间f1及终点时间f2代入播放速率计算规则中,从而计算出第i个音画面的第一变速速率Sv1
在一示例性的实施方式中,所述播放速率计算规则计为:
Figure BDA0003500202180000101
其中,smin,smax为预先设置的播放速率的最小值及最大值。通过该规则中包含的两个计算公式可以计算出第i个音画面的第一变速速率Sv1
步骤S52,根据播放时长t2、起点时间e1、终点时间e2及所述播放速率计算规则计算出第i+1个音画面的第二变速速率Sv2,并将第二变速速率Sv2作为所述终止点。
具体地,在计算得到播放时长t2后,可以将播放时长t2、起点时间e1及终点时间e2代入上述播放速率计算规则中,从而计算出第i+1个音画面的第二变速速率Sv2
步骤S42,根据起点时间i1、终点时间i2、起点时间f1及终点时间f2确定所述贝塞尔曲线的控制点。
具体地,在绘制贝塞尔曲线时,可以通过2个或者2个以上的控制点进行贝塞尔曲线的绘制。
在一示例性的实施方式中,为了提高绘制的贝塞尔曲线的精确性,参阅图6,所述根据起点时间i1、终点时间i2、起点时间f1及终点时间f2确定所述贝塞尔曲线的控制点可以包括:
步骤S60,选取起点时间i1及起点时间f1作为所述贝塞尔曲线的第一个控制点和第二个控制点;步骤S61,从起点时间f1及终点时间f2之间选择一个时间点f1+x作为所述贝塞尔曲线的第三个控制点,并选取终点时间f2作为所述贝塞尔曲线的第四个控制点。
具体地,可以选取四个控制点来绘制所述贝塞尔曲线,且这四个控制点分别为起点时间 i1、起点时间f1、起点时间f1及终点时间f2之间的时间点f1+x、终点时间f2,其中,x>0并且x<(f2-f1)。
在本实施例中,时间点f1+x优选为靠近起点时间f1的一个时间点。
步骤S43,根据所述起始点、所述终止点及所述控制点生成所述贝塞尔曲线。
具体地,在得到起始点、终止点及控制点后,即可以根据这些点的坐标生成所述贝塞尔曲线。
在一示例性的实施方式中,当获取到的控制点为起点时间i1、起点时间f1、起点时间f1及终点时间f2之间的时间点f1+x、终点时间f2这四个控制点时,可以根据这四个控制点及起始点、终止点生成一条更加光滑的贝斯尔曲线。
作为示例,生成的贝塞尔曲线为:(i1,sv1)(i1-1,sv1)(i1+1,sv1)(i2,sv1)(i2-1,sv1)(i2+ 1,sv1)(f1+x,sv2)((f1+x)-1,sv2)((f1+x)+1,sv2)(f2,sv2)(f2-1,sv2)(f2+1,sv2)。
步骤S23,根据所述贝塞尔曲线对第i个音画面的播放速率进行调整,以使第i个音画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐。
具体地,在对视频进行播放时,对于每一个音画面的播放速率可以根据对应的贝塞尔曲线进行确定,在确定好播放速率后,可以根据确定好的播放速率对该音画面进行播放速度的调整,从而实现其播放时长和背景音乐中对应的节奏点的时长进行对齐。
具体而言,在对第一个音画面(包括字画面和语音数据)进行播放时,可以根据该第一个音画面对应的贝塞尔曲线来获取该音画面播放过程中的各个时间节点所对应的播放速率,然后,根据得到的播放速率对该音画面之前的播放速度进行调整,从而实现在对该第一个音画面进行播放时,可以让其播放时长与第一个节奏点的时长进行对齐。
本实施例中,在对视频进行播放时,依据贝塞尔曲线来对每一个音画面中的字画面和对应的语音数据的播放时长进行伸缩对齐,从而无需对视频按照声母及韵母进行分割,可以减少在鬼畜场景下需要对视频片段进行编辑的数量,提升编辑性能。
在一示例性的实施方式中,为了避免由于声音变速超出变速范围而导致声音变形问题,参阅图7,所述通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第 i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,以使第i 个音画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐包括:
步骤S70,判断所述第一变速速率与所述第二变速速率是否超过预设的变速阈值。
具体地,所述变速阈值为预先根据实际情况进行设定的变速值,比如,所述变速阈值为 5。
步骤S71,若所述第一变速速率及/或所述第二变速速率超过所述变速阈值,则通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的字画面的播放速率进行分阶段变速调整,以使第i个音画面的字画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐。
具体地,在对音画面的播放速率进行调整时,若第一变速速率及/或所述第二变速速率超过所述变速阈值,则表明若使用同样的变速速率对语音数据和字画面进行变速,会导致声音出现变形的情况,因此,在本实施例中,当第一变速速率及/或所述第二变速速率超过所述变速阈值时,可以仅仅通过所述贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的字画面的播放速率进行分阶段变速调整,而对于i个音画面的语音数据则不根据所述贝塞尔曲线进行调整。
在一示例性的实施方式中,所述通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的字画面的播放速率进行分阶段变速调整包括:通过贝塞尔曲线对起点时间i1、终点时间i2进行调节,得到第i个音画面的声母数据对应的调节后的起点时间和终点时间;根据调节后的声母数据的起点时间和终点时间及第i个音画面的字画面的初始播放速率确定第i个音画面的声母数据对应的字画面的播放速率;通过贝塞尔曲线对起点时间f1、终点时间f2进行调节,得到第i个音画面的韵母数据对应的调节后的起点时间和终点时间;根据调节后的韵母数据的起点时间和终点时间及第i个音画面的字画面的初始播放速率确定第i个音画面的韵母数据对应的字画面的播放速率。
具体地,在对视频进行播放时,在对每一个音画面的字画面的播放速率进行调整时,可以根据贝塞尔曲线确定每一个音画面中的声母数据对应的字画面的播放速率,然后根据确定的播放速率对语音数据中的声母数据和韵母数据对应的字画面的播放速度进行分阶段的调整,从而实现音画面中字画面的播放时长和背景音乐中对应的节奏点的时长进行对齐。
需要说明的是,本实施例中的初始播放速率指的是未调整播放速率之前的播放速率,该初始播放速率可以从待编辑的视频中获取。
步骤S72,采用预设的声音对齐规则对所述贝塞尔曲线中的起始点和终止点进行更新,并根据更新后的起始点终止点对所述贝塞尔曲线进行调整,得到调整后的贝塞尔曲线。
具体地,所述声音对齐规则为用于将语音数据与对应的节奏点进行对齐的算法。
在一示例性的实施方式中,所述预设的声音对齐规则为:sa1=sv1
Figure BDA0003500202180000131
其中,sa1、sa2分别为更新后的起始点和终止点,M3为预先设定的声母拉升的最大速率。
在本实施例中,通过该声音对齐规则可以使得计算得到的音画面中的字画面的播放速率与语音数据的播放速率不进行对齐,从而可以避免语音数据中的声母数据变形。
作为示例,根据更新后的起始点终止点对所述贝塞尔曲线进行调整后得到的贝塞尔曲线为:
(i1,sa1)(i1-1,sa1)(i1+1,sa1)(i2,sa1)(i2-1,sa1)(i2+1,sa1)(f1+x,sa2)((f1+x)-1,sa2)((f1+x)+1,sa2)(f2,sa2)(f2-1,sa2)(f2+1,sa2)。
步骤S73,通过调整后的贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据的播放速率进行调整的节奏点的时长进行对齐,以使第i个音画面的语音数据的播放时长与所述背景音乐中对应的节奏点的时长进行对齐。
具体地,在对视频进行播放时,在对每一个音画面的语音数据的播放速率进行调整时,可以根据调整后的贝塞尔曲线进行确定,然后根据确定后的贝塞尔曲线来确定音画面中的语音数据的播放速率,并在确定播放速率后,可以根据确定的播放速率对音画面中语音数据的播放速度的调整,从而实现音画面中语音数据的播放时长和背景音乐中对应的节奏点的时长进行对齐。
在一示例性的实施方式中,所述通过调整后的贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据的播放速率进行调整包括:通过调整后的贝塞尔曲线对起点时间i1、终点时间i2进行调节,得到第i个音画面的声母数据对应的调节后的起点时间和终点时间;根据调节后的声母数据的起点时间和终点时间及第i 个音画面的语音数据的初始播放速率确定第i个音画面的声母数据的播放速率;通过贝塞尔曲线对起点时间f1、终点时间f2进行调节,得到第i个音画面的韵母数据对应的调节后的起点时间和终点时间;根据调节后的韵母数据的起点时间和终点时间及第i个音画面的语音数据的初始播放速率确定第i个音画面的韵母数据的播放速率。
在本实施例中,在对第一个音画面的语音数据进行播放时,可以根据调整后的贝塞尔曲线来获取语音数据播放过程中的各个时间节点所对应的播放速率,然后,根据得到的播放速率对该语音数据之前的播放速度进行调整,从而实现在对该第一个音画面的语音数据进行播放时,可以让其播放时长与第一个节奏点的时长进行对齐。
参阅图8所示,是本申请视频的音画面播放速率调整装置80一实施例的程序模块图。
本实施例中,所述视频的音画面播放速率调整装置80包括一系列的存储于存储器上的计算机程序指令,当所述计算机程序指令被处理器执行时,可以实现本申请各实施例的视频的音画面播放速率调整功能。在一些实施例中,基于所述计算机程序指令各部分所实现的特定的操作,视频的音画面播放速率调整装置80可以被划分为一个或多个模块,具体可以划分的模块如下:
预处理模块81,用于对待编辑的视频以字为维度进行预处理,得到N个音画面,每一个音画面包括字画面与语音数据,其中,N为大于或者等于2的正整数;
识别模块82,用于对第i个音画面的语音数据中的声母数据和韵母数据的起止点进行识别,得到第i个音画面的声母数据的起点时间i1与终点时间i2、韵母数据的起点时间f1与终点时间f2,其中,i∈N;
调整模块83,用于通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面。
在一示例性的实施方式中,视频的音画面播放速率调整装置80还包括获取模块。
所述获取模块,用于获取预设的背景音乐中的节奏点信息。
所述调整模块83,还用于通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,以使第i个音画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐。
在一示例性的实施方式中,所述节奏点时间信息包括多个节奏点的节奏时间,视频的音画面播放速率调整装置80还包括生成模块。
所述生成模块,用于从所述节奏点时间信息中获取第i个音画面所对应的节奏点的节奏时间b1及第i+1个音画面所对应的节奏点的节奏时间b2;根据节奏时间b1、节奏时间b2、起点时间f1与终点时间f2、i+1个音画面的声母数据的起点时间e1及终点时间e2确定所述贝塞尔曲线的起始点与终止点;根据起点时间i1、终点时间i2、起点时间f1及终点时间f2确定所述贝塞尔曲线的控制点;根据所述起始点、所述终止点及所述控制点生成所述贝塞尔曲线。
在一示例性的实施方式中,生成模块,还用于根据节奏时间b1、节奏时间b2及预设的播放时间计算规则计算出第i个音画面的韵母数据的播放时长t1以及第i+1个音画面的声母数据的播放时长t2;根据播放时长t1、起点时间f1、终点时间f2及预设的播放速率计算规则计算出第i个音画面的第一变速速率Sv1,并将第一变速速率Sv1作为所述起始点;根据播放时长t2、起点时间e1、终点时间e2及所述播放速率计算规则计算出第i+1个音画面的第二变速速率Sv2,并将第二变速速率Sv2作为所述终止点。
在一示例性的实施方式中,生成模块,还用于选取起点时间i1及起点时间f1作为所述贝塞尔曲线的第一个控制点和第二个控制点;从起点时间f1及终点时间f2之间选择一个时间点 f1+x作为所述贝塞尔曲线的第三个控制点,并选取终点时间f2作为所述贝塞尔曲线的第四个控制点。
生成模块,还用于根据所述起始点、所述终止点及选取的四个控制点生成所述贝塞尔曲线。
在一示例性的实施方式中,调整模块83,还用于判断所述第一变速速率与所述第二变速速率是否超过预设的变速阈值;若所述第一变速速率及/或所述第二变速速率超过所述变速阈值,则通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的字画面的播放速率进行分阶段变速调整,以使第i个音画面的字画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐;采用预设的声音对齐规则对所述贝塞尔曲线中的起始点和终止点进行更新,并根据更新后的起始点终止点对所述贝塞尔曲线进行调整,得到调整后的贝塞尔曲线;通过调整后的贝塞尔曲线根据起点时间 i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据的播放速率进行调整的节奏点的时长进行对齐,以使第i个音画面的语音数据的播放时长与所述背景音乐中对应的节奏点的时长进行对齐。
在一示例性的实施方式中,调整模块83,还用于通过所述第一贝塞尔曲线根据起点时间 i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的字画面的播放速率进行分阶段变速调整,得到调整播放速率后的字画面;通过所述第二贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据的播放速率进行分阶段变速调整,得到调整播放速率后的语音数据。
在一示例性的实施方式中,调整模块83,还用于通过贝塞尔曲线对起点时间i1、终点时间i2进行调节,得到第i个音画面的声母数据对应的调节后的起点时间和终点时间;根据调节后的声母数据的起点时间和终点时间及第i个音画面的字画面的初始播放速率确定第i个音画面的声母数据对应的字画面的播放速率;通过贝塞尔曲线对起点时间f1、终点时间f2进行调节,得到第i个音画面的韵母数据对应的调节后的起点时间和终点时间;根据调节后的韵母数据的起点时间和终点时间及第i个音画面的字画面的初始播放速率确定第i个音画面的韵母数据对应的字画面的播放速率。
调整模块83,还用于通过调整后的贝塞尔曲线对起点时间i1、终点时间i2进行调节,得到第i个音画面的声母数据对应的调节后的起点时间和终点时间;根据调节后的声母数据的起点时间和终点时间及第i个音画面的语音数据的初始播放速率确定第i个音画面的声母数据的播放速率;通过贝塞尔曲线对起点时间f1、终点时间f2进行调节,得到第i个音画面的韵母数据对应的调节后的起点时间和终点时间;根据调节后的韵母数据的起点时间和终点时间及第i个音画面的语音数据的初始播放速率确定第i个音画面的韵母数据的播放速率。
在一示例性的实施方式中,预处理模块81,还用于对所述视频以字为维度进行分片处理,得到N个视频片段;对N个所述视频片段进行音画分离处理,得到N个音画面。
在一示例性的实施方式中,生成模块83,还用于根据所述预设的背景音乐的波形图生成所述节奏点时间信息。
本实施例中,在对视频进行播放时,依据贝塞尔曲线来对每一个音画面中的字画面和对应的语音数据的播放时长进行伸缩对齐,从而无需对视频按照声母及韵母进行分割,可以减少在鬼畜场景下需要对视频片段进行编辑的数量,提升编辑性能。
图9示意性示出了根据本申请实施例的适于实现视频的音画面播放速率调整方法的计算机设备9的硬件架构示意图。本实施例中,计算机设备9是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图9所示,计算机设备9至少包括但不限于:可通过系统总线相互通信链接存储器120、处理器121、网络接口122。其中:
存储器120至少包括一种类型的计算机可读存储介质,所述可读存储介质可以是易失性的,也可以是非易失性的,具体而言,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器120可以是计算机设备9的内部存储模块,例如所述计算机设备9的硬盘或内存。在另一些实施例中,存储器120也可以是计算机设备9的外部存储设备,例如所述计算机设备9上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card) 等。当然,存储器120还可以既包括计算机设备9的内部存储模块也包括其外部存储设备。本实施例中,存储器120通常用于存储安装于计算机设备9的操作系统和各类应用软件,例如视频的音画面播放速率调整方法的程序代码等。此外,存储器120还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器121在一些实施例中可以是中央处理器(Central Processing Unit,简称为CPU)、控制器、微控制器、微处理器、或其它视频的音画面播放速率调整芯片。所述处理器121通常用于控制计算机设备9的总体操作,例如执行与计算机设备9进行数据交互或者通信相关的控制和处理等。本实施例中,处理器121用于运行存储器120中存储的程序代码或者处理数据。
网络接口122可包括无线网络接口或有线网络接口,所述网络接口122通常用于在计算机设备9与其它计算机设备之间建立通信链接。例如,网络接口122用于通过网络将计算机设备9与外部终端相连,在计算机设备9与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystem of Mobile communication,简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图9仅示出了具有部件120~122的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器120中的视频的音画面播放速率调整方法可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器121)所执行,以完成本申请。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现实施例中的视频的音画面播放速率调整方法的步骤。
本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD 或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡 (SmartMedia Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中的视频的音画面播放速率调整方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到至少两个网络单元上。可以根据实际的需要筛选出其中的部分或者全部模块来实现本申请实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory, ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (13)

1.一种视频的音画面播放速率调整方法,其特征在于,包括:
对待编辑的视频以字为维度进行预处理,得到N个音画面,每一个音画面包括字画面与语音数据,其中,N为大于或者等于2的正整数;
对第i个音画面的语音数据中的声母数据和韵母数据的起止点进行识别,得到第i个音画面的声母数据的起点时间i1与终点时间i2、韵母数据的起点时间f1与终点时间f2,其中,i∈N;
通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面。
2.根据权利要求1所述的视频的音画面播放速率调整方法,其特征在于,所述方法还包括:
获取预设的背景音乐中的节奏点信息;
所述通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面包括:
通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,以使第i个音画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐。
3.根据权利要求2所述的视频的音画面播放速率调整方法,其特征在于,所述节奏点时间信息包括多个节奏点的节奏时间,所述方法还包括:生成所述贝塞尔曲线,其中,生成所述贝塞尔曲线具体包括:
从所述节奏点时间信息中获取第i个音画面所对应的节奏点的节奏时间b1及第i+1个音画面所对应的节奏点的节奏时间b2
根据节奏时间b1、节奏时间b2、起点时间f1与终点时间f2、i+1个音画面的声母数据的起点时间e1及终点时间e2确定所述贝塞尔曲线的起始点与终止点;
根据起点时间i1、终点时间i2、起点时间f1及终点时间f2确定所述贝塞尔曲线的控制点;
根据所述起始点、所述终止点及所述控制点生成所述贝塞尔曲线。
4.根据权利要求3所述的视频的音画面播放速率调整方法,其特征在于,所述根据节奏时间b1、节奏时间b2、起点时间f1与终点时间f2、i+1个音画面的声母数据的起点时间e1及终点时间e2确定所述贝塞尔曲线的起始点与终止点包括:
根据节奏时间b1、节奏时间b2及预设的播放时间计算规则计算出第i个音画面的韵母数据的播放时长t1以及第i+1个音画面的声母数据的播放时长t2
根据播放时长t1、起点时间f1、终点时间f2及预设的播放速率计算规则计算出第i个音画面的第一变速速率Sv1,并将第一变速速率Sv1作为所述起始点;
根据播放时长t2、起点时间e1、终点时间e2及所述播放速率计算规则计算出第i+1个音画面的第二变速速率Sv2,并将第二变速速率Sv2作为所述终止点。
5.根据权利要求3所述的视频的音画面播放速率调整方法,其特征在于,所述根据起点时间i1、终点时间i2、起点时间f1及终点时间f2确定所述贝塞尔曲线的控制点包括:
选取起点时间i1及起点时间f1作为所述贝塞尔曲线的第一个控制点和第二个控制点;
从起点时间f1及终点时间f2之间选择一个时间点f1+x作为所述贝塞尔曲线的第三个控制点,并选取终点时间f2作为所述贝塞尔曲线的第四个控制点;
所述根据所述起始点、所述终止点及所述控制点生成所述贝塞尔曲线包括:
根据所述起始点、所述终止点及选取的四个控制点生成所述贝塞尔曲线。
6.根据权利要1所述的视频的音画面播放速率调整方法,所述贝塞尔曲线包括第一贝塞尔曲线和第二贝塞尔曲线,所述通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面包括:
通过所述第一贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的字画面的播放速率进行分阶段变速调整,得到调整播放速率后的字画面;
通过所述第二贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据的播放速率进行分阶段变速调整,得到调整播放速率后的语音数据。
7.根据权利要5所述的视频的音画面播放速率调整方法,其特征在于,所述通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,以使第i个音画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐包括:
判断所述第一变速速率与所述第二变速速率是否超过预设的变速阈值;
若所述第一变速速率及/或所述第二变速速率超过所述变速阈值,则通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的字画面的播放速率进行分阶段变速调整,以使第i个音画面的字画面的播放时长与所述背景音乐中对应的节奏点的时长进行对齐;
采用预设的声音对齐规则对所述贝塞尔曲线中的起始点和终止点进行更新,并根据更新后的起始点终止点对所述贝塞尔曲线进行调整,得到调整后的贝塞尔曲线;
通过调整后的贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据的播放速率进行调整的节奏点的时长进行对齐,以使第i个音画面的语音数据的播放时长与所述背景音乐中对应的节奏点的时长进行对齐。
8.根据权利要7所述的视频的音画面播放速率调整方法,其特征在于,所述通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的字画面的播放速率进行分阶段变速调整包括:
通过贝塞尔曲线对起点时间i1、终点时间i2进行调节,得到第i个音画面的声母数据对应的调节后的起点时间和终点时间;
根据调节后的声母数据的起点时间和终点时间及第i个音画面的字画面的初始播放速率确定第i个音画面的声母数据对应的字画面的播放速率;
通过贝塞尔曲线对起点时间f1、终点时间f2进行调节,得到第i个音画面的韵母数据对应的调节后的起点时间和终点时间;
根据调节后的韵母数据的起点时间和终点时间及第i个音画面的字画面的初始播放速率确定第i个音画面的韵母数据对应的字画面的播放速率;
所述通过调整后的贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据的播放速率进行调整包括:
通过调整后的贝塞尔曲线对起点时间i1、终点时间i2进行调节,得到第i个音画面的声母数据对应的调节后的起点时间和终点时间;
根据调节后的声母数据的起点时间和终点时间及第i个音画面的语音数据的初始播放速率确定第i个音画面的声母数据的播放速率;
通过贝塞尔曲线对起点时间f1、终点时间f2进行调节,得到第i个音画面的韵母数据对应的调节后的起点时间和终点时间;
根据调节后的韵母数据的起点时间和终点时间及第i个音画面的语音数据的初始播放速率确定第i个音画面的韵母数据的播放速率。
9.根据权利要1所述的视频的音画面播放速率调整方法,其特征在于,所述对待编辑的视频以字为维度进行预处理,得到N个音画面,包括:
对所述视频以字为维度进行分片处理,得到N个视频片段;
对N个所述视频片段进行音画分离处理,得到N个音画面。
10.根据权利要2至9任一项所述的视频的音画面播放速率调整方法,其特征在于,所述方法还包括:
根据所述预设的背景音乐的波形图生成所述节奏点时间信息。
11.一种视频的音画面播放速率调整装置,其特征在于,包括:
预处理模块,用于对待编辑的视频以字为维度进行预处理,得到N个音画面,每一个音画面包括字画面与语音数据,其中,N为大于或者等于2的正整数;
识别模块,用于对第i个音画面的语音数据中的声母数据和韵母数据的起止点进行识别,得到第i个音画面的声母数据的起点时间i1与终点时间i2、韵母数据的起点时间f1与终点时间f2,其中,i∈N;
调整模块,用于通过贝塞尔曲线根据起点时间i1、终点时间i2、起点时间f1、终点时间f2对第i个音画面的声母数据和韵母数据对应的音画面的播放速率进行分阶段变速调整,得到调整播放速率后的音画面。
12.一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至10任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。
CN202210125245.1A 2022-02-10 2022-02-10 视频的音画面播放速率调整方法及装置 Active CN114449313B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210125245.1A CN114449313B (zh) 2022-02-10 2022-02-10 视频的音画面播放速率调整方法及装置
PCT/CN2022/144228 WO2023151424A1 (zh) 2022-02-10 2022-12-30 视频的音画面播放速率调整方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210125245.1A CN114449313B (zh) 2022-02-10 2022-02-10 视频的音画面播放速率调整方法及装置

Publications (2)

Publication Number Publication Date
CN114449313A true CN114449313A (zh) 2022-05-06
CN114449313B CN114449313B (zh) 2024-03-26

Family

ID=81372300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210125245.1A Active CN114449313B (zh) 2022-02-10 2022-02-10 视频的音画面播放速率调整方法及装置

Country Status (2)

Country Link
CN (1) CN114449313B (zh)
WO (1) WO2023151424A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023151424A1 (zh) * 2022-02-10 2023-08-17 上海幻电信息科技有限公司 视频的音画面播放速率调整方法及装置
WO2023232066A1 (zh) * 2022-06-01 2023-12-07 北京字跳网络技术有限公司 多媒体片段的速度调整方法、装置、设备及介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170322766A1 (en) * 2016-05-09 2017-11-09 Sony Mobile Communications Inc. Method and electronic unit for adjusting playback speed of media files
US20180350388A1 (en) * 2017-05-31 2018-12-06 International Business Machines Corporation Fast playback in media files with reduced impact to speech quality
CN109309870A (zh) * 2018-10-19 2019-02-05 成都品果科技有限公司 一种调节视频播放速度的方法及装置
WO2019222887A1 (zh) * 2018-05-21 2019-11-28 华为技术有限公司 一种显示控制方法及终端
US20200043511A1 (en) * 2018-08-03 2020-02-06 Sling Media Pvt. Ltd Systems and methods for intelligent playback
CN111127598A (zh) * 2019-12-04 2020-05-08 网易(杭州)网络有限公司 动画播放速度的调整方法、装置、电子设备和介质
CN111988647A (zh) * 2020-08-27 2020-11-24 广州视源电子科技股份有限公司 音画同步调整方法、装置、设备以及介质
CN112712783A (zh) * 2020-12-21 2021-04-27 北京百度网讯科技有限公司 生成音乐的方法和装置、计算机设备和介质
CN112738627A (zh) * 2020-12-23 2021-04-30 上海哔哩哔哩科技有限公司 播放控制方法及装置
CN112750187A (zh) * 2021-01-19 2021-05-04 腾讯科技(深圳)有限公司 一种动画生成方法、装置、设备及计算机可读存储介质
CN113707124A (zh) * 2021-08-30 2021-11-26 平安银行股份有限公司 话术语音的联动播报方法、装置、电子设备及存储介质
CN113821188A (zh) * 2021-08-25 2021-12-21 深圳市声扬科技有限公司 调整音频播放速度的方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104574477B (zh) * 2014-12-22 2017-08-08 北京像素软件科技股份有限公司 动画角色汉语口型生成的方法及装置
US11010939B2 (en) * 2019-09-12 2021-05-18 Adobe Inc. Rendering of cubic Bezier curves in a graphics processing unit (GPU)
CN114007121B (zh) * 2021-12-29 2022-04-15 卡莱特云科技股份有限公司 一种视频播放特效变换方法、装置及系统
CN114449313B (zh) * 2022-02-10 2024-03-26 上海幻电信息科技有限公司 视频的音画面播放速率调整方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170322766A1 (en) * 2016-05-09 2017-11-09 Sony Mobile Communications Inc. Method and electronic unit for adjusting playback speed of media files
US20180350388A1 (en) * 2017-05-31 2018-12-06 International Business Machines Corporation Fast playback in media files with reduced impact to speech quality
WO2019222887A1 (zh) * 2018-05-21 2019-11-28 华为技术有限公司 一种显示控制方法及终端
US20200043511A1 (en) * 2018-08-03 2020-02-06 Sling Media Pvt. Ltd Systems and methods for intelligent playback
CN109309870A (zh) * 2018-10-19 2019-02-05 成都品果科技有限公司 一种调节视频播放速度的方法及装置
CN111127598A (zh) * 2019-12-04 2020-05-08 网易(杭州)网络有限公司 动画播放速度的调整方法、装置、电子设备和介质
CN111988647A (zh) * 2020-08-27 2020-11-24 广州视源电子科技股份有限公司 音画同步调整方法、装置、设备以及介质
CN112712783A (zh) * 2020-12-21 2021-04-27 北京百度网讯科技有限公司 生成音乐的方法和装置、计算机设备和介质
CN112738627A (zh) * 2020-12-23 2021-04-30 上海哔哩哔哩科技有限公司 播放控制方法及装置
CN112750187A (zh) * 2021-01-19 2021-05-04 腾讯科技(深圳)有限公司 一种动画生成方法、装置、设备及计算机可读存储介质
CN113821188A (zh) * 2021-08-25 2021-12-21 深圳市声扬科技有限公司 调整音频播放速度的方法、装置、电子设备及存储介质
CN113707124A (zh) * 2021-08-30 2021-11-26 平安银行股份有限公司 话术语音的联动播报方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SERGI PEREZ等: "Smart calibration for video game play by people with a movement impairment", 《2011 ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY》 *
冯小燕等: "教学视频播放速度与难易程度对学习的影响研究", 《远程教育杂志》, no. 6 *
张晓蕊: "语音变调算法研究及其在语音合成中的应用", 《中国优秀硕士学位论文全文数据库》, no. 4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023151424A1 (zh) * 2022-02-10 2023-08-17 上海幻电信息科技有限公司 视频的音画面播放速率调整方法及装置
WO2023232066A1 (zh) * 2022-06-01 2023-12-07 北京字跳网络技术有限公司 多媒体片段的速度调整方法、装置、设备及介质

Also Published As

Publication number Publication date
CN114449313B (zh) 2024-03-26
WO2023151424A1 (zh) 2023-08-17

Similar Documents

Publication Publication Date Title
CN111415399B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
US10452920B2 (en) Systems and methods for generating a summary storyboard from a plurality of image frames
CN114449313B (zh) 视频的音画面播放速率调整方法及装置
CN112420014A (zh) 虚拟人脸构建方法、装置、计算机设备及计算机可读介质
KR20070020252A (ko) 메시지를 수정하기 위한 방법 및 시스템
CN107566756B (zh) 一种视频转场的处理方法及终端设备
EP2966645A1 (en) Method, apparatus and computer program product for editing media content
US10970909B2 (en) Method and apparatus for eye movement synthesis
CN110750996B (zh) 多媒体信息的生成方法、装置及可读存储介质
EP4239585A1 (en) Video loop recognition method and apparatus, computer device, and storage medium
CN111639527A (zh) 英文手写文本识别方法、装置、电子设备及存储介质
CN113299312A (zh) 一种图像生成方法、装置、设备以及存储介质
CN117131271A (zh) 一种内容生成方法及系统
CN111612004A (zh) 一种基于语义内容的图像裁剪方法及装置
CN110797001B (zh) 电子书语音音频的生成方法、装置及可读存储介质
US20150051911A1 (en) Method for dividing letter sequences into pronunciation units, method for representing tones of letter sequences using same, and storage medium storing video data representing the tones of letter sequences
CN117786154A (zh) 图像生成方法、系统、装置及存储介质
CN113222841A (zh) 一种图像处理方法、装置、设备及介质
CN112990206A (zh) 一种图案设计方法、终端及计算机可读存储介质
CN113709560A (zh) 视频剪辑方法、装置、设备及存储介质
CN112348932A (zh) 口型动画录制方法及装置、电子设备、存储介质
CN113205797B (zh) 虚拟主播生成方法、装置、计算机设备及可读存储介质
CN116957669A (zh) 广告生成方法、装置、计算机可读介质及电子设备
CN114299415A (zh) 一种视频切分方法、装置、电子设备以及存储介质
CN113840099B (zh) 视频处理方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant