CN112954390B - 视频处理方法、装置、存储介质及设备 - Google Patents

视频处理方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN112954390B
CN112954390B CN202110114682.9A CN202110114682A CN112954390B CN 112954390 B CN112954390 B CN 112954390B CN 202110114682 A CN202110114682 A CN 202110114682A CN 112954390 B CN112954390 B CN 112954390B
Authority
CN
China
Prior art keywords
dubbing
video
online
online video
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110114682.9A
Other languages
English (en)
Other versions
CN112954390A (zh
Inventor
姜悦莼
董艾卿
樊弋铭
曹小帅
邓科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202110114682.9A priority Critical patent/CN112954390B/zh
Publication of CN112954390A publication Critical patent/CN112954390A/zh
Priority to US18/263,077 priority patent/US20240121451A1/en
Priority to PCT/CN2022/073617 priority patent/WO2022161328A1/zh
Application granted granted Critical
Publication of CN112954390B publication Critical patent/CN112954390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/274Storing end-user multimedia data in response to end-user request, e.g. network recorder
    • H04N21/2743Video hosting of uploaded data from client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本公开实施例公开了视频处理方法、装置、存储介质及设备。该方法包括:检测到第一在线视频对应的配音入口被触发时,向配音者侧提供第一在线视频对应的配音录制页面,在配音录制页面中播放第一在线视频,并获取配音者侧在播放第一在线视频中的不包含语音特征的目标视频片段的过程中采集到的配音者的信息,根据语音信息和第一在线视频生成对应的第一配音视频,将第一配音视频发送至第一在线视频对应的上传者侧供上传者进行审核,并接收上传者侧反馈的审核结果,当审核结果满足预设要求时,发布第一配音视频。通过采用上述技术方案,对于视障人士等观众来说,可以增强对视频内容的理解,有效增强在线视频的信息传达效率以及扩大受众面。

Description

视频处理方法、装置、存储介质及设备
技术领域
本公开实施例涉及计算机技术领域,尤其涉及视频处理方法、装置、存储介质及设备。
背景技术
随着网络技术的快速发展,在线视频的浏览已经成为人们的主要休闲娱乐方式之一,在线视频的种类丰富多样,可以包括视频网站或平台提供的电影、电视剧或综艺节目等,也可以包括视频共享平台中的拍客用户等发布的自创的短片或短视频等,尤其是一些短视频社交平台以及个性化视频推荐平台等,已获得越来越多用户的喜爱。
然而,我们普通用户能够从感官上获得这些在线视频带来的乐趣,例如这些视觉艺术或让我们发笑,或给我们带来温暖,或引发我们对生活和自我的思考,或带领我们看到未知的世界。但是视障人士却被遗忘在视觉作品之外,他们仅能够听到视频中的人声以及环境声音,但视频中可能出现很多听觉无法感知的内容,如人物的动作等,因此无法知道具体发生了什么,尤其是一些故事性较强的视频,视障人士会在间断的台词中感到迷惑。
发明内容
本公开实施例提供了视频处理方法、装置、存储介质及设备,可以优化现有的在线视频的处理方案。
第一方面,本公开实施例提供了一种视频处理方法,应用于服务端,所述方法包括:
检测到第一在线视频对应的配音入口被触发时,向配音者侧提供所述第一在线视频对应的配音录制页面;
控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,并获取所述配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集到的配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
根据所述语音信息和所述第一在线视频生成对应的第一配音视频;
将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果;
当所述审核结果满足预设要求时,发布所述第一配音视频。
第二方面,本公开实施例提供了一种视频处理方法,应用于配音者侧,所述方法包括:
响应于配音者作用于第一在线视频对应的配音入口的触发操作,向服务端发送触发信息,所述触发信息用于指示所述服务端确认检测到所述第一在线视频对应的配音入口被触发;
响应于所述服务端发送的针对所述第一在线视频的配音录制页面显示指令,加载并显示所述第一在线视频对应的配音录制页面;
接收所述服务端发送的所述第一在线视频对应的视频流数据,并在所述配音录制页面播放所述第一在线视频;
在播放所述第一在线视频中的目标视频片段的过程中采集所述配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
将采集到的语音信息发送至所述服务端,所述语音信息用于指示所述服务端根据所述语音信息和所述第一在线视频生成对应的第一配音视频,将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果,当所述审核结果满足预设要求时,发布所述第一配音视频。
第三方面,本公开实施例提供了一种视频处理方法,应用于上传者侧,所述方法包括:
接收服务端发送的第一配音视频,其中,所述第一配音视频由所述服务端根据配音者的语音信息和上传者上传的第一在线视频生成,所述语音信息由配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集得到,所述服务端检测到所述第一在线视频对应的配音入口被触发时,向所述配音者侧提供所述第一在线视频对应的配音录制页面并控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,所述目标视频片段中不包含语音特征;
播放所述第一配音视频并指示所述上传者对所述第一配音视频进行审核;
接收所述上传者输入的审核结果,并将所述审核结果反馈至所述服务端,所述审核结果用于指示所述服务端在所述审核结果满足预设要求时,发布所述第一配音视频。
第四方面,本公开实施例提供了一种视频处理装置,配置于服务端,所述装置包括:
配音录制页面提供模块,用于检测到第一在线视频对应的配音入口被触发时,向配音者侧提供所述第一在线视频对应的配音录制页面;
语音信息获取模块,用于控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,并获取所述配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集到的配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
配音视频生成模块,用于根据所述语音信息和所述第一在线视频生成对应的第一配音视频;
审核结果接收模块,用于将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果;
配音视频发布模块,用于在所述审核结果满足预设要求时,发布所述第一配音视频。
第五方面,本公开实施例提供了一种视频处理装置,配置于配音者侧,所述装置包括:
触发信息发送模块,用于响应于配音者作用于第一在线视频对应的配音入口的触发操作,向服务端发送触发信息,所述触发信息用于指示所述服务端确认检测到所述第一在线视频对应的配音入口被触发;
配音录制页面显示模块,用于响应于所述服务端发送的针对所述第一在线视频的配音录制页面显示指令,加载并显示所述第一在线视频对应的配音录制页面;
在线视频播放模块,用于接收所述服务端发送的所述第一在线视频对应的视频流数据,并在所述配音录制页面播放所述第一在线视频;
语音信息采集模块,用于在播放所述第一在线视频中的目标视频片段的过程中采集所述配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
语音信息发送模块,用于将采集到的的语音信息发送至所述服务端,所述语音信息用于指示所述服务端根据所述语音信息和所述第一在线视频生成对应的第一配音视频,将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果,当所述审核结果满足预设要求时,发布所述第一配音视频。
第六方面,本公开实施例提供了一种视频处理装置,配置于上传者侧,所述装置包括:
配音视频接收模块,用于接收服务端发送的第一配音视频,其中,所述第一配音视频由所述服务端根据配音者的语音信息和上传者上传的第一在线视频生成,所述语音信息由配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集得到,所述服务端检测到所述第一在线视频对应的配音入口被触发时,向所述配音者侧提供所述第一在线视频对应的配音录制页面并控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,所述目标视频片段中不包含语音特征;
配音视频播放模块,用于播放所述第一配音视频并指示所述上传者对所述第一配音视频进行审核;
审核结果发送模块,用于接收所述上传者输入的审核结果,并将所述审核结果反馈至所述服务端,所述审核结果用于指示所述服务端在所述审核结果满足预设要求时,发布所述第一配音视频。
第七方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例提供的视频处理方法。
第八方面,本公开实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本公开实施例提供的视频处理方法。
本公开实施例中提供的视频处理方案,服务端检测到第一在线视频对应的配音入口被触发时,向配音者侧提供第一在线视频对应的配音录制页面,在配音录制页面中播放第一在线视频,并获取配音者侧在播放第一在线视频中的目标视频片段的过程中采集到的配音者的语音信息,其中,目标视频片段中不包含语音特征,根据语音信息和第一在线视频生成对应的第一配音视频,将第一配音视频发送至第一在线视频对应的上传者侧供上传者进行审核,并接收上传者侧反馈的审核结果,当审核结果满足预设要求时,发布第一配音视频。本公开实施例通过采用上述技术方案,对于视频上传者上传的在线视频,可以允许其他人作为配音者对该在线视频中的不包含人声的部分进行配音,生成对应的配音视频,从而增加对视频内容的描述信息,在上传者对配音视频进行审核后,发布满足要求的配音视频供观众收听或观看,对于视障人士或其他不方便观看视频画面的观众来说,可以增强对视频内容的理解,此外,提供了全新的基于在线视频的交互方式以及新的在线视频播放形式,使得在线视频服务平台的功能更加丰富,更加多样化,有效增强在线视频的信息传达效率以及扩大受众面。
附图说明
图1为本公开实施例提供的一种视频处理方法的应用场景的场景架构图;
图2为本公开实施例提供的一种视频处理方法的流程示意图;
图3为本公开实施例提供的又一种视频处理方法的流程示意图;
图4为本公开实施例提供的再一种视频处理方法的流程示意图;
图5为本公开实施例提供的另一种视频处理方法的流程示意图;
图6为本公开实施例提供的另一种视频处理方法的流程示意图;
图7为本公开实施例提供的一种视频处理装置的结构框图;
图8为本公开实施例提供的一种视频处理装置的结构框图;
图9为本公开实施例提供的一种视频处理装置的结构框图;
图10为本公开实施例提供的一种计算机设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下述各实施例中,每个实施例中同时提供了可选特征和示例,实施例中记载的各个特征可进行组合,形成多个可选方案,不应将每个编号的实施例仅视为一个技术方案。
图1为本公开实施例提供的一种视频处理方法的应用场景的场景架构图。具体的,参考图1,该应用场景中可以包括服务端10、第一客户端20和第二客户端30。服务端10可以理解为在线视频平台对应的服务端,本公开实施例中的在线视频的具体类型不做限定,例如可以包括在线视频平台用户(如拍客用户)上传的原创的短片、短视频或微电影等。第一客户端20可理解为视频的上传者所使用的客户端,可称为上传者侧;第二客户端30可理解为配音者所使用的客户端,可称为配音者侧。本公开实施例中对第一客户端20和第二客户端30的数量(图中仅各画出一个作为示意性说明)和具体类型不做限定,一般的,平台服务的用户数量很多,所以第一客户端20和第二客户端30的数量一般也很多,具体类型包括但不限于手机、平板电脑及笔记本电脑等移动设备,以及台式计算机等其他设备。上传者可以利用第一客户端20拍摄视频并上传至服务端10,该视频发布后成为在线视频,服务端10可以向第二客户端30提供在线视频对应的配音录制页面,配音者可以以口述的方式通过第二客户端30为在线视频配音,服务端10生成对应的配音视频后发送至第一客户端20供上传者审核,并由服务端10根据审核结果决定是否发布该配音视频,若发布,则其他用户可以查看该配音视频。
图2为本公开实施例提供的一种视频处理方法的流程示意图,该方法可以适用于为在线视频添加语音信息的应用场景,可以由服务端的视频处理装置执行,其中该装置可由软件和/或硬件实现,一般可集成在服务器等计算机设备中。如图2所示,该方法包括:
步骤201、检测到第一在线视频对应的配音入口被触发时,向配音者侧提供第一在线视频对应的配音录制页面。
示例性的,第一在线视频发布后,用户可以在相应的页面中查看到第一在线视频。相应的页面例如可以是视频推荐页面、应用程序主页面、视频搜索页面或上传者个人作品页面等等。第一在线视频的展示方式不做限定,例如可以是视频标题、视频标题与视频封面、或者视频标题与动态播放的视频内容节选等等。在第一在线视频的展示区域的预设区域范围内(如正下方或正上方等),可以展示配音入口,配音入口例如可以是“添加配音”字样的控件等,由于是新增功能,可以在该功能投入使用初期添加引导信息,帮助用户了解并使用该功能。可以预先设置配音入口的触发方式,如以预设手势操作(如点击等)触发上述控件,也即若检测到用户作用于配音入口的预设手势操作后,认为检测到第一在线视频对应的配音入口被触发,此时,该用户可以被视为想要为第一在线视频配音的用户,也即配音者,随后可以向配音者侧提供第一在线视频对应的配音录制页面。示例性的,配音者侧的显示页面可以从第一在线视频的展示页面切换至配音录制页面。
步骤202、控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,并获取所述配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集到的配音者的语音信息,其中,所述目标视频片段中不包含语音特征。
示例性的,可以向配音者侧发送第一在线视频对应的视频流数据,以控制配音者侧的配音录制页面中播放第一在线视频。可选的,在播放过程中,可以为配音者侧提供暂停、快进以及回看等操作选项供配音者选择性地操作,可以方便配音者定位到合适的配音位置。
示例性的,目标视频片段中不包含语音特征,可以理解为待配音的视频片段。第一在线视频中的部分或全部视频内容中可能包含语音特征,也即可能包含人物对话、歌声或旁白解说等,包含语音特征的部分,一般视障人士或不方便观看视频画面的用户来说可以听到相关内容,因此,可以不需要进行配音,可将不包含语音特征的视频片段确定为目标视频片段。需要说明的是,若第一在线视频中不存在语音特征,整个第一在线视频可以成为目标视频片段。
本公开对目标视频片段的长度和数量不做限定。可选的,在配音录制页面中播放第一在线视频之前,还包括:对第一在线视频中的视频内容进行解析,并确定待配音的目标视频片段。例如,可以对视频内容中的语音特征进行识别,根据识别结果对第一在线视频进行分段,将不包含语音特征的片段确定为目标视频片段,具体的分段方式不做限定。可选的,若某个不包含语音特征的片段的时长小于预设时长阈值(如2秒),则可忽略不计,也即,对于分段操作后得到的不包含语音特征的片段,若时长大于或等于预设时长阈值,则可确定为目标视频片段。此外,目标视频片段也可以由上传者自己定义,例如,可以向上传者侧提供目标视频片段标记工具,上传者利用该标记工具对自己希望添加语音信息的片段的起始位置和结束位置进行标记,并将标记结果发送至服务端,服务端接收标记结果后,根据标记结果确定目标视频片段。服务端还可通知配音者侧目标视频片段在第一在线视频中的播放位置。
示例性的,在第一在线视频的播放过程中,配音者可以按照自己对视频内容的理解口述对应的描述信息,配音者侧利用麦克风等声音采集设备采集配音者的声音,得到配音者的语音信息(也可称为口述信息)。
示例性的,可以指示配音者侧在播放第一在线视频的过程中有选择性地采集配音者的语音信息,例如,仅在播放目标视频片段的过程中采集语音信息;也可以指示配音者侧在播放第一在线视频的过程中全程采集配音者的语音信息,并根据目标视频片段对应的起始和结束的时间点截取相应的语音信息并发送给服务端;也可以指示配音者侧在播放第一在线视频的过程中全程采集配音者的语音信息,并将所有语音信息发送给服务端,由服务端自行进行截取。由此,服务端可以获取到配音者侧在播放第一在线视频中的目标视频片段的过程中采集到的配音者的语音信息。
步骤203、根据所述语音信息和所述第一在线视频生成对应的第一配音视频。
示例性的,在获取到语音信息后,可以对语音信息和第一在线视频进行合成处理,在合成处理过程中对齐语音信息的时间戳和第一在线视频中对应的时间戳,保证语音信息的描述内容与视频画面在时间轴上的匹配度,具体的合成处理细节不做限定。可选的,可以在获取语音信息的同时进行合成处理,提高第一配音视频的生成效率。上述语音信息可以是口述信息,配音视频也可以称为口述视频。
步骤204、将所第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果。
示例性的,上传者上传的视频一般是个人原创视频,配音视频为配音者在上传者的作品基础上进行改编得到的作品,为了避免出现相关法律问题,配音视频的发布需要获得上传者的同意,因此,本公开实施例中的服务端为上传者和配音者提供了交互的桥梁,在生成第一配音视频后,将第一配音视频发送给上传者进行审核,随后,上传者可以向服务端返回自己的审核结果。可选的,审核结果中可以包括同意发布或不同意发布,还可以包含其他信息,如满意度评分或分类标签等,具体不做限定。可选的,可能存在多个配音者为第一在线视频进行配音,上传者可能会收到多个版本的配音视频,这时,上传者可以从中选出自己满意的几个或最满意的一个,分别反馈审核结果,此时,审核结果中包含被上传者选中和未被上传者选中。
步骤205、当所述审核结果满足预设要求时,发布所述第一配音视频。
示例性的,预设要求可以根据审核结果中包含的信息进行确定。例如审核结果中包括同意发布或不同意发布时,预设要求可以是审核结果中包含同意发布;又如,审核结果中包括满意度评分时,预设要求可以是满意度评分大于预设满意度评分阈值等。
示例性的,在审核结果满足预设要求时,可以发布第一配音视频,观众侧可以查看并播放该第一配音视频。可选的,可以在观众侧的视频推荐页面、应用程序主页面、视频搜索页面、上传者个人作品页面或配音者个人作品页面等页面中展示第一配音视频。此外,还可以为配音视频增设专区,例如增设配音视频列表页面,将第一配音视频展示在配音视频列表页面中。视障人士可以采用观众侧终端所支持的操作方式来控制第一配音视频的播放,进而收听配音视频中的人声和口述语音,更加全面地了解视频内容。
本公开实施例中提供的视频处理方法,对于视频上传者上传的在线视频,可以允许其他人作为配音者对该在线视频中的不包含人声的部分进行配音,生成对应的配音视频,从而增加对视频内容的描述信息,在上传者对配音视频进行审核后,发布满足要求的配音视频供观众收听或观看,对于视障人士或其他不方便观看视频画面的观众来说,可以增强对视频内容的理解,此外,提供了全新的基于在线视频的交互方式以及新的在线视频播放形式,使得在线视频服务平台的功能更加丰富,更加多样化,有效增强在线视频的信息传达效率以及扩大受众面。
在一些实施例中,所述将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,包括:对所述第一配音视频的配音效果进行评估;将评估结果和所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核。这样设置的好处在于,可以由服务端利用一些计算机层面的手段自动对配音效果进行评估,给上传者的审核提供参考信息,帮助上传者更加快速更加专业地得出审核结果。可选的,可以利用机器学习模型等手段对配音效果进行评估,模型的具体结构以及权重参数等不做限定。
在一些实施例中,在对所述第一配音视频的配音效果进行评估之前,服务端还可以对语音信息的内容进行审核,比如审核是否包含低俗或不雅的词汇,是否包含法律禁止传播的言论等,在内容审核通过后,再进行配音效果的评估。
在一些实施例中,所述对所述第一配音视频的配音效果进行评估,包括基于以下至少一个维度对所述第一配音视频的配音效果进行评估:对应同一目标视频片段的口述内容与视频内容的匹配度、对应同一目标视频片段的配音时长与视频时长匹配度、目标视频片段的口述内容与所述第一在线视频中台词的重叠度以及配音音色是否满足预设音色要求。这样设置的好处在于,可以合理地确定评估维度,从而快速准确地得出更加合理地评估结果。为了丰富评估结果的信息量,可以采用上述多种评估维度相结合的方式进行评估,可以对各评估维度分别设置对应的评分,也可根据所采用的所有评估维度分别对应的评分进行加权求和等融合处理,得到最终的评分等。另外,还可以结合其他维度,如配音音量与视频中对话音量的差距是否在预设音量差距范围内等。
在一些实施例中,基于对应同一目标视频片段的口述内容与视频内容的匹配度对所述第一配音视频的配音效果进行评估,可包括:针对当前目标视频片段,识别所述当前目标视频片段中出现的显示对象,识别对应的口述内容中出现的描述对象,判断所述显示对象和所述描述对象是否一致,若一致,则评估分数高,若不一致,则评估分数低。这样设置的好处在于,保证口述内容的主体与视频内容的主体的一致性。示例性的,可以运用图像识别技术,得出视频画面中可配音描述的事物,包括人物的表情、动作、以及画面中出现的物体等,作为显示对象。使用音频识别技术,得出对应的口述配音所描述的对象,作为描述对象。显示对象和描述对象均可能是一个或多个,若配音描述的对象并未出现在画面中,则可初步判定此段配音与视频内容不匹配。具体的,可以计算显示对象和描述对象的重合度,若重合度大于预设重合度阈值,则可确认显示对象和描述对象一致,否则不一致。其中,一致和不一致可以分别对应一个评估分数;此外,具体的评估分数也可以根据重合度确定,可以预先设置两者的对应关系,具体细节不做限定。
在一些实施例中,基于对应同一目标视频片段的配音时长与视频时长匹配度对所述第一配音视频的配音效果进行评估,包括:针对当前目标视频片段,判断所述当前目标视频片段的视频时长与所述当前目标视频片段对应的配音时长的差值是否处于第一预设时长范围内,若是,则评估分数高,若否,则评估分数低。这样设置的好处在于,可以识别出时长过短或时长过长的配音,在时长维度进行合理的评分。其中,第一预设时长范围可以根据实际需求设置。配音时长可以理解为当前目标视频片段的上一个目标视频片段结束播放到当前目标视频片段的下一个目标视频片段开始播放之前,首次出现语音信息到最后一次出现语音信息之间的时长。当配音时长大于视频时长时,差值小于0,此时可能会导致口述语音与视频原来的人声交叠,影响配音效果;当配音时长远小于视频时长(如小于视频时长的预设比例值,预设比例值如1/3等),则说明语音信息不够丰富,难以清楚完整地描述视频内容,也会影响配音效果。可选的,第一预设时长范围可以是0至视频时长与预设比例值的乘积。
在一些实施例中,基于目标视频片段的口述内容与所述第一在线视频中台词的重叠度对所述第一配音视频的配音效果进行评估,包括:针对当前目标视频片段,判断所述当前目标视频片段对应的口述内容与所述第一在线视频中预设范围内的台词的重叠度是否处于小于预设重叠度阈值,若是,则评估分数高,若否,则评估分数低;其中,所述预设范围包括所述当前目标视频片段之前的第二预设时长范围和所述当前目标视频片段之后的第三预设时长范围。这样设置的好处在于,可以识别出信息量过少的配音,在信息量维度进行合理的评分。其中,第二预设时长范围和第三预设时长范围可以根据实际需求设置,两者可以相等也可以不等,可参考目标视频片段的长度确定。如果口述内容与当前目标视频片段附近出现的台词重叠度较高时,说明口述内容的信息量较少,配音效果不佳,因此,评估分数可以低一些。
在一些实施例中,基于配音音色是否满足预设音色要求对所述第一配音视频的配音效果进行评估,包括:针对当前目标视频片段,判断所述当前目标视频片段对应的配音音高的波动是否处于预设波动范围内,若处于,则评估分数高,若未处于,则评估分数低。这样设置的好处在于,可以识别出配音音色是否过于机械或过于起伏跌宕,在音色维度进行合理的评分。可选的,可以计算配音音高的方差或均方差等,然后与相应的阈值进行比较,进而确定配音音高的波动是否处于预设波动范围内。
在一些实施例中,在对所述第一配音视频的配音效果进行评估之后,还包括:若确定存在配音音色不满足预设音色要求的第一目标视频片段,则采用预设音频技术对所述第一目标视频片段对应的配音音色进行调整,得到调整后的第一配音视频,并重新确定评估结果。所述将评估结果和所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,包括:将重新确定的评估结果和调整后的第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核。这样设置的好处在于,当配音音色不满足预设音色要求时,可以利用音频处理技术自动对其进行调整,帮助提高评估分数,提高配音视频通过审核的概率,也可避免配音者的返工,提升配音视频发布效率。其中,对于配音音高的波动较小的情况,可以扩大波动范围;对于配音音高的波动较大的情况,可以缩小波动范围。当然,还可以有其他的调整方式,本公开实施例不做限定。
在一些实施例中,所述审核结果中包含调整建议信息;在所述接收所述上传者反馈的审核结果之后,还包括:根据所述调整建议信息确定所述第一配音视频中的待调整片段;控制所述配音者侧在所述配音录制页面中播放所述待调整片段,以及显示对应的调整建议信息,并获取所述配音者侧在播放过程中采集到的所述配音者的重录语音信息;根据所述重录语音信息对所述第一配音视频进行调整,生成对应的调整后的第一配音视频;将所述调整后的第一配音视频发送至所述上传者侧进行审核,并接收所述上传者侧反馈的新的审核结果。这样设置的好处在于,可以加强上传者和配音者的交互,提升配音质量以及配音视频发布效率。调整建议信息可以包括上传者认为需要改进的目标视频片段的序号或位置,还可以包括具体的调整方式或调整方向。在配音录制页面中播放待调整片段的同时显示对应的调整建议信息,配音者可以获知为什么需要重录,以及如何进行重录,进而重新以口述方式描述待调整片段的视频内容。根据调整建议信息所确定的待调整片段可以是所有目标视频片段中的一个或多个,若为多个,可依次进行重录。在重录完毕后,可以对第一配音视频中的配音进行修改,即针对待调整片段,将原来的语音信息替换为对应的重录语音信息,进而得到调整后的第一配音视频,并返回至上传者侧进行重新审核。当然,还可支持更多次数的调整交互,本公开实施例对此不做限定。
图3为本公开实施例提供的又一种视频处理方法的流程示意图,如图3所示,该方法可以包括:
步骤301、检测到第一在线视频对应的配音入口被触发时,向配音者侧提供第一在线视频对应的配音录制页面。
步骤302、在配音录制页面中播放第一在线视频,并获取配音者侧在播放第一在线视频中的目标视频片段的过程中采集到的配音者的语音信息。
在本步骤之前,可以对第一在线视频的视频内容中的语音特征进行识别,根据识别结果对第一在线视频进行分段,将不包含语音特征的片段确定为目标视频片段。将目标视频片段的起始时间点和结束时间点发送至配音者侧,起始时间点和结束时间点用于指示配音者侧在播放目标视频片段的过程中采集语音信息。
示例性的,在配音录制页面播放目标视频片段的过程中,配音者可以按照自己对视频内容的理解口述对应的描述信息。例如,当前目标视频片段中的视频内容是一个男孩捡钱包的过程,配音者以口述的方式描述画面内容,如“一个小男孩走了过来,走向了一个钱包,他拿起钱包到处张望了一下,试图找到钱包的主人,这时一个男子慌张地跑到小男孩身边”,然后视频中出现了小男孩和男子的对话“叔叔,这个钱包是你的吗”,“是呀,里面有我的照片”,配音者可以继续描述画面内容,如“小男孩打开钱包,看到了男子的照片,他又看了看男子,确认跟照片上面长的一样,笑着把钱包递到了男子手中”。由此可见,经过添加语音信息,能够使得视频内容更容易被视障人士或不方便观看视频画面的用户所理解。
步骤303、根据语音信息和第一在线视频生成对应的第一配音视频。
步骤304、基于多个维度对第一配音视频的配音效果进行评估。
其中,所述多个维度对应同一目标视频片段的口述内容与视频内容的匹配度、对应同一目标视频片段的配音时长与视频时长匹配度、目标视频片段的口述内容与所述第一在线视频中台词的重叠度以及配音音色是否满足预设音色要求。具体的评估方式可参考上文相关内容,此处不再赘述。
步骤305、将评估结果和第一配音视频发送至第一在线视频对应的上传者侧供上传者进行审核,接收上传者侧反馈的第一审核结果。
步骤306、判断审核结果中是否包含调整建议信息,若是,则执行步骤307;否则,执行步骤311。
例如,视频中的某个人物的动作应该是系鞋带,但配音者误认为是在捡石子,上传者可在调整建议信息中指出该出错误。
步骤307、根据调整建议信息确定第一配音视频中的待调整片段。
步骤308、在配音录制页面中播放待调整片段,显示对应的调整建议信息,并获取配音者侧在播放过程中采集到的配音者的重录语音信息。
可选的,可以向配音者侧发送重录请求,若配音者侧接受所述重录请求,则向配音者侧提供对应的配音录制页面。
示例性的,如上述举例,可以在播放待调整片段的同时显示对应的调整建议信息,如将人物的动作由捡石子调整为系鞋带,则配音者参考该调整建议信息重新录制语音信息,使得重录语音信息能够更准确地还原视频内容,符合上传者的拍摄本意。
步骤309、根据重录语音信息对第一配音视频进行调整,生成对应的调整后的第一配音视频。
步骤310、将调整后的第一配音视频发送至所述上传者侧进行审核,并接收上传者侧反馈的第二审核结果。
示例性的,上传者在看到经过调整后的配音视频后,可以确认自己的调整建议是否被采纳并应用于新的配音视频中,并给出新的审核结果,反馈给服务端。
步骤311、判断当前审核结果是否满足预设要求,若是,则执行步骤312;否则,结束流程。
可选的,若当前审核结果不满足预设要求,可以通知配音者侧审核未通过,也可以向配音者侧发送具体的未通过理由等信息。
步骤312、发布当前的第一配音视频。
本公开实施例提供的视频处理方法,在上述各实施例基础上,在将第一配音视频发送至上传者进行审核前,先基于多个维度对配音效果进行评估,并将评估结果一起发送给上传者进行审核,为上传者提供审核参考信息,上传者在审核过程中还可以提出自己的审核建议,作为调整建议信息反馈给服务端,服务端根据调整建议信息确定出待调整片段,并指示配音者参考调整建议信息重新录制待调整片段对应的语音信息,使得重录语音信息能够更准确地还原视频内容,符合上传者的拍摄本意,通过上述改进,可以使得基于配音视频的交互流程更加完善,进一步提升配音视频的质量以及发布效率。
在一些实施例中,在所述控制所述配音者侧在所述配音录制页面中播放所述第一在线视频之前,还包括:获取所述目标视频片段对应的文字描述信息,其中,所述文字描述信息通过预设机器学习模型识别所述目标视频片段的视频内容得到,或者由所述上传者提供;相应的,在所述控制所述配音者侧在所述配音录制页面中播放所述目标视频片段的同时,还包括:控制所述配音者侧在所述配音录制页面中显示当前播放的目标视频片段对应的文字描述信息,并指示所述配音者参考所述文字描述信息进行配音。这样设置的好处在于,配音者在进行配音时,可能会比较随意,若提供文字描述信息给配音者进行参考,则可以避免严重偏离视频内容的情况发生,提高配音质量,另外,也可以帮助配音者通过文字描述信息提前查看当前视频画面之后短期内的发生的事情,从而对事件发生过程以及动作连续性等有初步的预判,提高配音效率。
示例性的,可以采用预设机器学习模型对目标视频片段的视频内容进行识别,可以根据其中包含的如人物的表情、动作、以及画面中出现的物体等自动生成相应的描述信息。此外,视频上传者可能对自己的作品有一些独特的理解或解读,因此,可以由上传者输入文字描述信息并发送至服务端。
在一些实施例中,在所述检测到第一在线视频对应的配音入口被触发之前,还包括:接收所述配音者侧发送的针对所述第一在线视频的配音请求,并将所述配音请求转发至所述上传者侧;在接收到所述上传者侧的配音授权信息时,向所述配音者侧开放所述第一在线视频对应的配音入口。这样设置的好处在于,上传者在上传视频时,可能并未考虑到需要为视频添加语音信息,但其他用户在观看到该视频后,认为该视频内容比较精彩,但视障人士等无法感知到,因此,可能产生配音意愿,为了满足用户的配音需求,给配音者提供向上传者请求开放配音入口的途径,进而提高配音视频的产出,为视障人士等提供更加丰富多样的配音视频。另外,配音请求中可以包括配音者属性信息等,帮助上传者选择合适的配音者进行配音授权。
在一些实施例中,在所述检测到第一在线视频对应的配音入口被触发之前,还包括:接收所述上传者侧发送的针对所述第一在线视频的配音入口开放请求;根据所述配音入口开放请求向所述配音者侧发送配音邀请;在检测到所述配音者接受所述配音邀请后,向所述配音者侧提供所述第一在线视频对应的配音入口。这样设置的好处在于,可以由上传者主动发起配音入口的开放,在开放后,可以邀请其他用户为在线视频配音,提升在线视频到配音视频的转换比率。配音邀请可以发送给平台所有用户或指定用户,具体不做限定。其中,指定用户可以由上传者指定,也可以由服务端根据第一在线视频和/或上传者自动匹配确定。
在一些实施例中,在所述发布所述第一配音视频之后,还包括:在观众侧播放所述第一在线视频对应的第一配音视频。这样设置的好处在于,在第一配音视频发布后,允许观众侧播放第一配音视频,让观众能够体验到配音视频带来的乐趣并能更好地理解在线视频中的内容。
在一些实施例中,所述在观众侧播放所述第一在线视频对应的第一配音视频,包括:在观众侧播放所述第一在线视频的过程中,检测到满足预设切换条件时,切换至播放所述第一配音视频。这样设置的好处在于,可以识别出需要进行配音视频播放的场景,并自动进行从普通在线视频到配音视频的切换。预设切换条件可以根据实际需求设置。可选的,所述预设切换条件包括:检测到所述观众侧接收到符合视障人士操作方式的第一操作;或者,检测到所述观众侧接收到预设语音切换指令;或者,确定所述观众侧在预设时长内未检测到当前观众的注视信息。
示例性的,目前很多终端的操作系统都可以针对视障人士提供特殊的操作方式,例如苹果操作系统中提供的盲人模式VoiceOver(辅助功能中的旁白功能),又如安卓操作系统中提供的盲人模式TalkBack(无障碍功能)在观众侧终端接收到符合视障人士操作方式的任一操作时,可以说明当前的操作者为视障人士,为了满足其获知视频内容的需求,可以切换至播放第一配音视频。当观众侧的用户不方便用手操作终端时,可以采用输入语音的方式向终端下达切换指令,从而根据用户个人意愿切换至播放配音视频。观众侧可以利用眼球追踪技术等来检测当前观众的注视信息。注视信息可理解为注视点的位置,获取用户注视点的方法多采用通过首先获取用户的视线方向与眼睛与屏幕的距离确定视线方向与屏幕的垂线的夹角,然后通过夹角与眼睛至屏幕的距离计算出用户的注视信息。若预设时长内未检测到当前观众的注视信息,也即未检测到用户在屏幕上的注视点,则说明当前观众未观看屏幕,可能已经离开屏幕,去做其他事情,这时无法观看到屏幕内容,可自动切换至播放第一配音视频,使当前观众不会错过视频中的人声以外的精彩内容。
在一些实施例中,还可包括:接收观众侧发送的观众针对所述第一在线视频对应的多个配音视频反馈的评价信息;根据所述评价信息确定所述多个配音视频分别对应的标签信息;在展示所述第一在线视频对应的当前配音视频的同时,提供所述当前配音视频对应的标签信息。这样设置的好处在于,当同一个配音者或多个配音者为第一在线视频添加不同的语音信息时,可以得到多个版本的配音视频,通过提供标签信息的方式可以帮助当前观众选择自己喜欢的版本进行收听,而标签信息根据观众反馈的评价信息确定,可以更加贴合观众的主观感受,进而提高标签信息的准确性。
可选的,可针对评价信息进行关键词提取,并通过聚类的方式筛选出候选关键词,对于当前配音视频,将对应的评价信息中出现频率高于预设频率阈值的候选关键词确定为标签信息,或将出现频率较高的预设数量的候选关键词确定为标签信息。
在一些实施例中,还可包括:接收观众侧发送的观众针对所述第一在线视频对应的多个配音视频反馈的评价信息;根据所述评价信息确定所述多个配音视频分别对应的评分;根据所述评分对配音者的配音能力进行评估。这样设置的好处在于,当配音者为第一在线视频添加不同的语音信息时,可以得到多个版本的配音视频,根据观众对不同版本的配音视频的评价信息,可以量化出对应的评分,进而对配音者的配音能力进行评估,可以为配音能力高的配音者提供积分或勋章等奖励,还可以为配音能力高的配音者提供更多的配音视频创作机会等,进一步丰富在线视频平台的功能。
图4为本公开实施例提供的再一种视频处理方法的流程示意图,如图4所示,该方法可包括:
步骤401、接收上传者侧发送的针对第一在线视频的配音入口开放请求,以及上传者侧提供的目标视频片段对应的文字描述信息。
示例性的,上传者侧可以在上传第一在线视频时发送配音入口开放请求,也可在上传后的任意时间发送配音入口开放请求。可选的,在上传者上传第一在线视频后,或接收上传者侧发送的配音入口开放请求后,服务端可以自动识别出目标视频片段并提示上传者侧对目标视频片段添加解释说明,进而生成对应的文字描述信息。
步骤402、根据配音入口开放请求向多个配音者侧发送配音邀请。
步骤403、在检测到配音者侧接受配音邀请后,向配音者侧提供第一在线视频对应的配音入口。
需要说明的是,可以向多个配音者侧分别发送配音邀请,每次发送配音邀请的时机可以相同也可以不同,各配音者侧接受配音邀请的时间点一般不同,因此,对于当前配音者侧,可以在其接受配音邀请后,向其提供第一在线视频对应的配音入口,也就是说,不同配音者侧开始进行配音录制的时机可以不同,配音过程可以是相互独立的。
步骤404、检测到第一在线视频对应的配音入口被触发时,向配音者侧提供第一在线视频对应的配音录制页面。
步骤405、在配音录制页面中播放第一在线视频,显示当前播放的目标视频片段对应的文字描述信息,并指示配音者参考文字描述信息进行配音。
步骤406、获取配音者侧在播放目标视频片段的过程中采集到的配音者的语音信息。
步骤407、根据不同配音者对应的语音信息和在线视频生成对应的不同版本的配音视频。
步骤408、针对不同版本的配音视频的配音效果分别进行评估,并将评估结果和对应的配音视频发送至上传者侧供上传者进行审核。
步骤409、接收上传者侧反馈的针对不同版本的配音视频的审核结果,并发布审核结果满足预设要求的多个配音视频。
步骤410、接收观众侧发送的针对多个配音视频反馈的评价信息,根据评价信息确定多个配音视频分别对应的标签信息以及评分。
示例性的,评价信息可以包括评价文字或评价语音等,还可以包括通过点赞或投票等形式生成的信息,具体不做限定。示例性的,配音视频发布成功后,陆续会有一些观众查看并收听配音视频,观众可以自发地对当前配音视频添加评价信息,经过一段时间的积累后,可以根据一定数量的评价信息以关键词提取或聚类等方式确定不同版本的配音视频对应的标签信息。对于评分,可以对评价信息进行语义识别,确定是正面评价还是负面评价,进而确定对应的评分。
步骤411、根据评分对配音者的配音能力进行评估,并根据评估结果调整对应的配音者的配音能力等级。
示例性的,配音能力等级的量化方式可以根据实际需求设置,可以以星级或勋章数量等方式体现。调整规则例如可以是,对于某个配音者来说,若其配音的配音视频中,评分超过预设评分阈值的配音视频的数量距离上次配音能力等级上调时间起,增加个数超过预设个数阈值,则可继续上调一个等级。
步骤412、在展示第一在线视频对应的多个配音视频的同时,提供每个配音视频分别对应的标签信息。
示例性的,标签信息可以是文字,普通用户可以根据文字版的标签信息选择自己喜欢的配音视频版本,视障人士可以借助终端提供的读屏等功能来收听标签信息对应的语音信息。另外,标签信息也可以以语音信息形式存在,在标签信息播放功能被触发后,可以以播放形式提供每个配音视频分别对应的标签信息。
可选的,可以采用多音轨方式生成第一在线视频对应的包含不同版本配音视频的视频文件,多个音轨中可以包括第一在线视频的原始音轨,其他音轨可以分别对应一个版本的配音视频,在选择不同版本的配音视频时,可以直接通过切换音轨的方式进行不同版本配音视频的播放,还可以直接通过切换音轨的方式选择播放第一在线视频或者某一版本的配音视频,在节约存储资源的同时,提高视频版本切换的便捷性和效率。
本公开实施例中提供的视频处理方案,在上述各实施例基础上,灵活设置了配音入口的开放条件,并可以通过任务发布的形式向多个配音者发送配音邀请,此外,在线视频的原创作者可以上传文字描述信息帮助配音者理解自己的作品,提高审核通过率,在发布多个版本的配音视频后,还可以根据观众侧的反馈为各版本的配音视频添加标签以及为配音者进行配音能力的评估,有效加强了在线视频的上传者、配音者以及观众之间的互动,丰富在线视频平台功能,为各种类型的创作者提供良好的创作环境的同时,为视障人士和其他有收听视频需求的用户提供了丰富多样的精彩的配音视频,满足用户的多样化需求。
图5为本公开实施例提供的另一种视频处理方法的流程示意图,该方法可以适用于为在线视频添加语音信息的应用场景,可以由配音者侧的视频处理装置执行,其中该装置可由软件和/或硬件实现,一般可集成在计算机设备中。如图5所示,该方法包括:
步骤501、响应于配音者作用于第一在线视频对应的配音入口的触发操作,向服务端发送触发信息,所述触发信息用于指示所述服务端确认检测到所述第一在线视频对应的配音入口被触发。
步骤502、响应于所述服务端发送的针对所述第一在线视频的配音录制页面显示指令,加载并显示所述第一在线视频对应的配音录制页面。
步骤503、接收所述服务端发送的所述第一在线视频对应的视频流数据,并在所述配音录制页面播放所述第一在线视频。
步骤504、在播放所述第一在线视频中的目标视频片段的过程中采集所述配音者的语音信息,其中,所述目标视频片段中不包含语音特征。
步骤505、将采集到的语音信息发送至所述服务端,所述语音信息用于指示所述服务端根据所述语音信息和所述第一在线视频生成对应的第一配音视频,将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果,当所述审核结果满足预设要求时,发布所述第一配音视频。
本公开实施例提供的视频处理方法,可以允许上传者以外的其他用户作为配音者为上传者上传的在线视频进行配音,丰富在线视频播放平台的功能,为用户提供了更丰富的交互方式,且配音后得到的配音视频在经过上传者审核后能够得以发布,对于视障人士或其他不方便观看视频画面的观众来说,可以增强对视频内容的理解,有效增强在线视频的信息传达效率以及扩大受众面。
在一些实施例中,在所述响应于配音者作用于第一在线视频对应的配音入口的触发操作,向服务端发送触发信息之前,还可包括:在第一在线视频的展示区域的预设区域范围内展示配音入口。这样设置的好处在于,展示配音入口可以方便用户通过触发配音入口的方式来选择自己想要配音的在线视频并快速进入配音功能。
在一些实施例中,所述审核结果中包含调整建议信息;在所述将采集到的语音信息发送至所述服务端之后,还可包括:接收所述服务端发送的待调整片段对应的视频流数据,并在所述配音录制页面播放所述待调整片段,以及显示对应的调整建议信息,在播放过程中采集所述配音者的重录语音信息,并将所述重录语音信息发送至所述服务端,所述重录语音信息用于指示所述服务端根据所述重录语音信息对所述第一配音视频进行调整,生成对应的调整后的第一配音视频。其中,所述服务端在所述接收所述上传者反馈的审核结果之后,根据所述调整建议信息确定所述第一配音视频中的待调整片段,并向配音者侧发送待调整片段对应的视频流数据。这样设置的好处在于,可以加强上传者和配音者的交互,提升配音质量以及配音视频发布效率。
在一些实施例中,在接收所述服务端发送的所述第一在线视频对应的视频流数据的同时,还包括:接收所述服务端发送的所述目标视频片段对应的文字描述信息,其中,所述文字描述信息通过预设机器学习模型识别所述目标视频片段的视频内容得到,或者由所述上传者提供;相应的,在所述配音录制页面播放所述第一在线视频的同时,还包括:在所述配音录制页面中显示当前播放的目标视频片段对应的文字描述信息,并指示所述配音者参考所述文字描述信息进行配音。这样设置的好处在于,提高配音质量和配音效率。
在一些实施例中,在所述响应于配音者作用于第一在线视频对应的配音入口的触发操作,向服务端发送触发信息之前,还可包括:向所述服务端发送针对所述第一在线视频的配音请求,所述配音请求用于指示所述服务端将所述配音请求转发至所述上传者侧,并在接收到所述上传者侧的配音授权信息时,向所述配音者侧开放所述第一在线视频对应的配音入口。这样设置的好处在于,满足用户的配音需求,给配音者提供向上传者请求开放配音入口的途径,进而提高配音视频的产出。
图6为本公开实施例提供的另一种视频处理方法的流程示意图,该方法可以适用于为在线视频添加语音信息的应用场景,可以由上传者侧的视频处理装置执行,其中该装置可由软件和/或硬件实现,一般可集成在计算机设备中。如图6所示,该方法包括:
步骤601、接收服务端发送的第一配音视频,其中,所述第一配音视频由所述服务端根据配音者的语音信息和上传者上传的第一在线视频生成,所述语音信息由配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集得到,所述服务端检测到所述第一在线视频对应的配音入口被触发时,向所述配音者侧提供所述第一在线视频对应的配音录制页面并控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,所述目标视频片段中不包含语音特征。
步骤602、播放所述第一配音视频并指示所述上传者对所述第一配音视频进行审核。
步骤603、接收所述上传者输入的审核结果,并将所述审核结果反馈至所述服务端,所述审核结果用于指示所述服务端在所述审核结果满足预设要求时,发布所述第一配音视频。
本公开实施例提供的视频处理方法,在上传者以外的其他用户作为配音者为上传者上传的在线视频进行配音后,可以由上传者本人对配音视频进行审核,在审核结果满足预设要求时可以进行发布,丰富了在线视频播放平台的功能,为用户提供了更丰富的交互方式,对于视障人士或其他不方便观看视频画面的观众来说,可以增强对视频内容的理解,有效增强在线视频的信息传达效率以及扩大受众面。
在一些实施例中,所述审核结果中包含调整建议信息。所述调整建议信息用于指示所述服务端根据所述调整建议信息确定所述第一配音视频中的待调整片段,控制所述配音者侧在所述配音录制页面中播放所述待调整片段,以及显示对应的调整建议信息,并获取所述配音者侧在播放过程中采集到的所述配音者的重录语音信息,根据所述重录语音信息对所述第一配音视频进行调整,生成对应的调整后的第一配音视频。这样设置的好处在于,可以加强上传者和配音者的交互,提升配音质量以及配音视频发布效率。
在一些实施例中,在所述接收服务端发送的第一配音视频之前,还包括:接收上传者输入的所述目标视频片段对应的文字描述信息,并将所述文字描述信息发送至所述服务端。这样设置的好处在于,视频上传者可能对自己的作品有一些独特的理解或解读,提供给配音者进行参考,可以提高配音质量和配音效率。
在一些实施例中,在所述接收服务端发送的第一配音视频之前,还包括:向所述服务端发送针对所述第一在线视频的配音入口开放请求,所述配音入口开放请求用于指示所述服务端根据所述配音入口开放请求向所述配音者侧发送配音邀请,并在检测到所述配音者接受所述配音邀请后,向所述配音者侧提供所述第一在线视频对应的配音入口。这样设置的好处在于,可以由上传者主动发起配音入口的开放,提升在线视频到配音视频的转换比率。
图7为本公开实施例提供的一种视频处理装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在计算机设备中,可通过执行视频处理方法来进行视频处理。如图7所示,该装置包括:
配音录制页面提供模块701,用于检测到第一在线视频对应的配音入口被触发时,向配音者侧提供所述第一在线视频对应的配音录制页面;
语音信息获取模块702,用于控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,并获取所述配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集到的配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
配音视频生成模块703,用于根据所述语音信息和所述第一在线视频生成对应的第一配音视频;
审核结果接收模块704,用于将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果;
配音视频发布模块705,用于在所述审核结果满足预设要求时,发布所述第一配音视频。
本公开实施例中提供的视频处理装置,对于视频上传者上传的在线视频,可以允许其他人作为配音者对该在线视频中的不包含人声的部分进行配音,生成对应的配音视频,从而增加对视频内容的描述信息,在上传者对配音视频进行审核后,发布满足要求的配音视频供观众收听或观看,对于视障人士或其他不方便观看视频画面的观众来说,可以增强对视频内容的理解,此外,提供了全新的基于在线视频的交互方式以及新的在线视频播放形式,使得在线视频服务平台的功能更加丰富,更加多样化,有效增强在线视频的信息传达效率以及扩大受众面。
可选的,所述将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,包括:对所述第一配音视频的配音效果进行评估;将评估结果和所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核。
可选的,所述对所述第一配音视频的配音效果进行评估,包括基于以下至少一个维度对所述第一配音视频的配音效果进行评估:对应同一目标视频片段的口述内容与视频内容的匹配度、对应同一目标视频片段的配音时长与视频时长匹配度、目标视频片段的口述内容与所述第一在线视频中台词的重叠度以及配音音色是否满足预设音色要求。
可选的,基于对应同一目标视频片段的口述内容与视频内容的匹配度对所述第一配音视频的配音效果进行评估,包括:针对当前目标视频片段,识别所述当前目标视频片段中出现的显示对象,识别对应的口述内容中出现的描述对象,判断所述显示对象和所述描述对象是否一致,若一致,则评估分数高,若不一致,则评估分数低;
基于对应同一目标视频片段的配音时长与视频时长匹配度对所述第一配音视频的配音效果进行评估,包括:针对当前目标视频片段,判断所述当前目标视频片段的视频时长与所述当前目标视频片段对应的配音时长的差值是否处于第一预设时长范围内,若是,则评估分数高,若否,则评估分数低;
基于目标视频片段的口述内容与所述第一在线视频中台词的重叠度对所述第一配音视频的配音效果进行评估,包括:针对当前目标视频片段,判断所述当前目标视频片段对应的口述内容与所述第一在线视频中预设范围内的台词的重叠度是否处于小于预设重叠度阈值,若是,则评估分数高,若否,则评估分数低;其中,所述预设范围包括所述当前目标视频片段之前的第二预设时长范围和所述当前目标视频片段之后的第三预设时长范围;
基于配音音色是否满足预设音色要求对所述第一配音视频的配音效果进行评估,包括:针对当前目标视频片段,判断所述当前目标视频片段对应的配音音高的波动是否处于预设波动范围内,若处于,则评估分数高,若未处于,则评估分数低。
可选的,所述装置还包括:音色调整模块,用于在对所述第一配音视频的配音效果进行评估之后,若确定存在配音音色不满足预设音色要求的第一目标视频片段,则采用预设音频技术对所述第一目标视频片段对应的配音音色进行调整,得到调整后的第一配音视频,并重新确定评估结果;所述将评估结果和所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,包括:将重新确定的评估结果和调整后的第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核。
可选的,所述审核结果中包含调整建议信息;所述装置还包括:待调整片段确定模块,用于在所述接收所述上传者反馈的审核结果之后,根据所述调整建议信息确定所述第一配音视频中的待调整片段;重录语音信息获取模块,用于控制所述配音者侧在所述配音录制页面中播放所述待调整片段以及显示对应的调整建议信息,并获取所述配音者侧在播放过程中采集到的所述配音者的重录语音信息;配音视频调整模块,用于根据所述重录语音信息对所述第一配音视频进行调整,生成对应的调整后的第一配音视频;所述审核结果接收模块还用于,将所述调整后的第一配音视频发送至所述上传者侧进行审核,并接收所述上传者侧反馈的新的审核结果。
可选的,所述装置还包括:文字描述信息获取模块,用于在所述控制所述配音者侧在所述配音录制页面中播放所述第一在线视频之前,获取所述目标视频片段对应的文字描述信息,其中,所述文字描述信息通过预设机器学习模型识别所述目标视频片段的视频内容得到,或者由所述上传者提供;配音指示模块,用于在所述控制所述配音者侧在所述配音录制页面中播放所述目标视频片段的同时,控制所述配音者侧在所述配音录制页面中显示当前播放的目标视频片段对应的文字描述信息,并指示所述配音者参考所述文字描述信息进行配音。
可选的,所述装置还包括:配音请求接收模块,用于在所述检测到第一在线视频对应的配音入口被触发之前,接收所述配音者侧发送的针对所述第一在线视频的配音请求,并将所述配音请求转发至所述上传者侧;配音入口开放模块,用于在接收到所述上传者侧的配音授权信息时,向所述配音者侧开放所述第一在线视频对应的配音入口。
可选的,所述装置还包括:配音入口开放请求接收模块,用于在所述检测到第一在线视频对应的配音入口被触发之前,接收所述上传者侧发送的针对所述第一在线视频的配音入口开放请求;配音邀请发送模块,用于根据所述配音入口开放请求向所述配音者侧发送配音邀请;配音入口提供模块,用于在检测到所述配音者接受所述配音邀请后,向所述配音者侧提供所述第一在线视频对应的配音入口。
可选的,所述装置还包括:配音视频播放模块,用于在所述发布所述第一配音视频之后,在观众侧播放所述第一在线视频对应的第一配音视频。
可选的,所述在观众侧播放所述第一在线视频对应的第一配音视频,包括:在观众侧播放所述第一在线视频的过程中,检测到满足预设切换条件时,切换至播放所述第一配音视频。
可选的,所述预设切换条件包括:检测到所述观众侧接收到符合视障人士操作方式的第一操作;或者,检测到所述观众侧接收到预设语音切换指令;或者,确定所述观众侧在预设时长内未检测到当前观众的注视信息。
可选的,所述装置还包括:第一评价信息接收模块,用于接收观众侧发送的针对所述第一在线视频对应的多个配音视频反馈的评价信息;标签信息确定模块,用于根据所述评价信息确定所述多个配音视频分别对应的标签信息;标签信息提供模块,用于在展示所述第一在线视频对应的当前配音视频的同时,提供所述当前配音视频对应的标签信息。
可选的,所述装置还包括:第二评价信息接收模块,用于接收观众侧发送的针对所述第一在线视频对应的多个配音视频反馈的评价信息;评分确定模块,用于根据所述评价信息确定所述多个配音视频分别对应的评分;配音能力评估模块,用于根据所述评分对配音者的配音能力进行评估。
图8为本公开实施例提供的一种视频处理装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在计算机设备中,可通过执行视频处理方法来进行视频处理。如图8所示,该装置包括:
触发信息发送模块801,用于响应于配音者作用于第一在线视频对应的配音入口的触发操作,向服务端发送触发信息,所述触发信息用于指示所述服务端确认检测到所述第一在线视频对应的配音入口被触发;
配音录制页面显示模块802,用于响应于所述服务端发送的针对所述第一在线视频的配音录制页面显示指令,加载并显示所述第一在线视频对应的配音录制页面;
在线视频播放模块803,用于接收所述服务端发送的所述第一在线视频对应的视频流数据,并在所述配音录制页面播放所述第一在线视频;
语音信息采集模块804,用于在播放所述第一在线视频中的目标视频片段的过程中采集所述配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
语音信息发送模块805,用于将采集到的的语音信息发送至所述服务端,所述语音信息用于指示所述服务端根据所述语音信息和所述第一在线视频生成对应的第一配音视频,将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果,当所述审核结果满足预设要求时,发布所述第一配音视频。
本公开实施例提供的视频处理装置,可以允许上传者以外的其他用户作为配音者为上传者上传的在线视频进行配音,丰富在线视频播放平台的功能,为用户提供了更丰富的交互方式,且配音后得到的配音视频在经过上传者审核后能够得以发布,对于视障人士或其他不方便观看视频画面的观众来说,可以增强对视频内容的理解,有效增强在线视频的信息传达效率以及扩大受众面。
图9为本公开实施例提供的一种视频处理装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在计算机设备中,可通过执行视频处理方法来进行视频处理。如图9所示,该装置包括:
配音视频接收模块901,用于接收服务端发送的第一配音视频,其中,所述第一配音视频由所述服务端根据配音者的语音信息和上传者上传的第一在线视频生成,所述语音信息由配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集得到,所述服务端检测到所述第一在线视频对应的配音入口被触发时,向所述配音者侧提供所述第一在线视频对应的配音录制页面并控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,所述目标视频片段中不包含语音特征;
配音视频播放模块902,用于播放所述第一配音视频并指示所述上传者对所述第一配音视频进行审核;
审核结果发送模块903,用于接收所述上传者输入的审核结果,并将所述审核结果反馈至所述服务端,所述审核结果用于指示所述服务端在所述审核结果满足预设要求时,发布所述第一配音视频。
本公开实施例提供的视频处理装置,在上传者以外的其他用户作为配音者为上传者上传的在线视频进行配音后,可以由上传者本人对配音视频进行审核,在审核结果满足预设要求时可以进行发布,丰富了在线视频播放平台的功能,为用户提供了更丰富的交互方式,对于视障人士或其他不方便观看视频画面的观众来说,可以增强对视频内容的理解,有效增强在线视频的信息传达效率以及扩大受众面。
下面参考图10,其示出了适于用来实现本公开实施例的计算机设备1000的结构示意图。本公开实施例中的计算机设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的计算机设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,计算机设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储装置1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有计算机设备1000操作所需的各种程序和数据。处理装置1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
通常,以下装置可以连接至I/O接口1005:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置1007;包括例如磁带、硬盘等的存储装置1008;以及通信装置1009。通信装置1009可以允许计算机设备1000与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的计算机设备1000,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1009从网络上被下载和安装,或者从存储装置1008被安装,或者从ROM 1002被安装。在该计算机程序被处理装置1001执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述计算机设备中所包含的;也可以是单独存在,而未装配入该计算机设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该计算机设备执行时,使得该计算机设备能够执行本公开实施例提供的任意一种视频处理方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,配音视频发布模块还可以被描述为“在所述审核结果满足预设要求时,发布所述第一配音视频的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,提供了一种视频处理方法,应用于服务端,所述方法包括:
检测到第一在线视频对应的配音入口被触发时,向配音者侧提供所述第一在线视频对应的配音录制页面;
控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,并获取所述配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集到的配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
根据所述语音信息和所述第一在线视频生成对应的第一配音视频;
将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果;
当所述审核结果满足预设要求时,发布所述第一配音视频。
进一步的,所述将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,包括:
对所述第一配音视频的配音效果进行评估;
将评估结果和所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核。
进一步的,所述对所述第一配音视频的配音效果进行评估,包括:
基于以下至少一个维度对所述第一配音视频的配音效果进行评估:
对应同一目标视频片段的口述内容与视频内容的匹配度、对应同一目标视频片段的配音时长与视频时长匹配度、目标视频片段的口述内容与所述第一在线视频中台词的重叠度以及配音音色是否满足预设音色要求。
进一步的,基于对应同一目标视频片段的口述内容与视频内容的匹配度对所述第一配音视频的配音效果进行评估,包括:
针对当前目标视频片段,识别所述当前目标视频片段中出现的显示对象,识别对应的口述内容中出现的描述对象,判断所述显示对象和所述描述对象是否一致,若一致,则评估分数高,若不一致,则评估分数低;
基于对应同一目标视频片段的配音时长与视频时长匹配度对所述第一配音视频的配音效果进行评估,包括:
针对当前目标视频片段,判断所述当前目标视频片段的视频时长与所述当前目标视频片段对应的配音时长的差值是否处于第一预设时长范围内,若是,则评估分数高,若否,则评估分数低;
基于目标视频片段的口述内容与所述第一在线视频中台词的重叠度对所述第一配音视频的配音效果进行评估,包括:
针对当前目标视频片段,判断所述当前目标视频片段对应的口述内容与所述第一在线视频中预设范围内的台词的重叠度是否处于小于预设重叠度阈值,若是,则评估分数高,若否,则评估分数低;其中,所述预设范围包括所述当前目标视频片段之前的第二预设时长范围和所述当前目标视频片段之后的第三预设时长范围;
基于配音音色是否满足预设音色要求对所述第一配音视频的配音效果进行评估,包括:
针对当前目标视频片段,判断所述当前目标视频片段对应的配音音高的波动是否处于预设波动范围内,若处于,则评估分数高,若未处于,则评估分数低。
进一步的,在对所述第一配音视频的配音效果进行评估之后,还包括:
若确定存在配音音色不满足预设音色要求的第一目标视频片段,则采用预设音频技术对所述第一目标视频片段对应的配音音色进行调整,得到调整后的第一配音视频,并重新确定评估结果;
所述将评估结果和所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,包括:
将重新确定的评估结果和调整后的第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核。
进一步的,所述审核结果中包含调整建议信息;
在所述接收所述上传者反馈的审核结果之后,还包括:
根据所述调整建议信息确定所述第一配音视频中的待调整片段;
控制所述配音者侧在所述配音录制页面中播放所述待调整片段以及显示对应的调整建议信息,并获取所述配音者侧在播放过程中采集到的所述配音者的重录语音信息;
根据所述重录语音信息对所述第一配音视频进行调整,生成对应的调整后的第一配音视频;
将所述调整后的第一配音视频发送至所述上传者侧进行审核,并接收所述上传者侧反馈的新的审核结果。
进一步的,在所述控制所述配音者侧在所述配音录制页面中播放所述第一在线视频之前,还包括:
获取所述目标视频片段对应的文字描述信息,其中,所述文字描述信息通过预设机器学习模型识别所述目标视频片段的视频内容得到,或者由所述上传者提供;
相应的,在所述控制所述配音者侧在所述配音录制页面中播放所述目标视频片段的同时,还包括:
控制所述配音者侧在所述配音录制页面中显示当前播放的目标视频片段对应的文字描述信息,并指示所述配音者参考所述文字描述信息进行配音。
进一步的,在所述检测到第一在线视频对应的配音入口被触发之前,还包括:
接收所述配音者侧发送的针对所述第一在线视频的配音请求,并将所述配音请求转发至所述上传者侧;
在接收到所述上传者侧的配音授权信息时,向所述配音者侧开放所述第一在线视频对应的配音入口。
进一步的,在所述检测到第一在线视频对应的配音入口被触发之前,还包括:
接收所述上传者侧发送的针对所述第一在线视频的配音入口开放请求;
根据所述配音入口开放请求向所述配音者侧发送配音邀请;
在检测到所述配音者接受所述配音邀请后,向所述配音者侧提供所述第一在线视频对应的配音入口。
进一步的,在所述发布所述第一配音视频之后,还包括:在观众侧播放所述第一在线视频对应的第一在线视频。
进一步的,在在观众侧播放所述第一在线视频对应的第一在线视频包括:
在观众侧播放所述第一在线视频的过程中,检测到满足预设切换条件时,切换至播放所述第一配音视频。
进一步的,所述预设切换条件包括:
检测到所述观众侧接收到符合视障人士操作方式的第一操作;或者,检测到所述观众侧接收到预设语音切换指令;或者,确定所述观众侧在预设时长内未检测到当前观众的注视信息。
进一步的,还包括:接收观众侧发送的针对所述第一在线视频对应的多个配音视频反馈的评价信息;
根据所述评价信息确定所述多个配音视频分别对应的标签信息;
在展示所述第一在线视频对应的当前配音视频的同时,提供所述当前配音视频对应的标签信息。
进一步的,还包括:接收观众侧发送的针对所述第一在线视频对应的多个配音视频反馈的评价信息;
根据所述评价信息确定所述多个配音视频分别对应的评分;
根据所述评分对配音者的配音能力进行评估。
根据本公开的一个或多个实施例,提供了一种视频处理方法,应用于配音者侧,所述方法包括:
响应于配音者作用于第一在线视频对应的配音入口的触发操作,向服务端发送触发信息,所述触发信息用于指示所述服务端确认检测到所述第一在线视频对应的配音入口被触发;
响应于所述服务端发送的针对所述第一在线视频的配音录制页面显示指令,加载并显示所述第一在线视频对应的配音录制页面;
接收所述服务端发送的所述第一在线视频对应的视频流数据,并在所述配音录制页面播放所述第一在线视频;
在播放所述第一在线视频中的目标视频片段的过程中采集所述配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
将采集到的语音信息发送至所述服务端,所述语音信息用于指示所述服务端根据所述语音信息和所述第一在线视频生成对应的第一配音视频,将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果,当所述审核结果满足预设要求时,发布所述第一配音视频。
根据本公开的一个或多个实施例,提供了一种视频处理方法,应用于上传者侧,所述方法包括:
接收服务端发送的第一配音视频,其中,所述第一配音视频由所述服务端根据配音者的语音信息和上传者上传的第一在线视频生成,所述语音信息由配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集得到,所述服务端检测到所述第一在线视频对应的配音入口被触发时,向所述配音者侧提供所述第一在线视频对应的配音录制页面并控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,所述目标视频片段中不包含语音特征;
播放所述第一配音视频并指示所述上传者对所述第一配音视频进行审核;
接收所述上传者输入的审核结果,并将所述审核结果反馈至所述服务端,所述审核结果用于指示所述服务端在所述审核结果满足预设要求时,发布所述第一配音视频。
根据本公开的一个或多个实施例,提供了一种视频处理装置,配置于服务端,所述装置包括:
配音录制页面提供模块,用于检测到第一在线视频对应的配音入口被触发时,向配音者侧提供所述第一在线视频对应的配音录制页面;
语音信息获取模块,用于控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,并获取所述配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集到的配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
配音视频生成模块,用于根据所述语音信息和所述第一在线视频生成对应的第一配音视频;
审核结果接收模块,用于将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果;
配音视频发布模块,用于在所述审核结果满足预设要求时,发布所述第一配音视频。
根据本公开的一个或多个实施例,提供了一种视频处理装置,配置于配音者侧,所述装置包括:
触发信息发送模块,用于响应于配音者作用于第一在线视频对应的配音入口的触发操作,向服务端发送触发信息,所述触发信息用于指示所述服务端确认检测到所述第一在线视频对应的配音入口被触发;
配音录制页面显示模块,用于响应于所述服务端发送的针对所述第一在线视频的配音录制页面显示指令,加载并显示所述第一在线视频对应的配音录制页面;
在线视频播放模块,用于接收所述服务端发送的所述第一在线视频对应的视频流数据,并在所述配音录制页面播放所述第一在线视频;
语音信息采集模块,用于在播放所述第一在线视频中的目标视频片段的过程中采集所述配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
语音信息发送模块,用于将采集到的的语音信息发送至所述服务端,所述语音信息用于指示所述服务端根据所述语音信息和所述第一在线视频生成对应的第一配音视频,将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果,当所述审核结果满足预设要求时,发布所述第一配音视频。
根据本公开的一个或多个实施例,提供了一种视频处理装置,配置于上传者侧,所述装置包括:
配音视频接收模块,用于接收服务端发送的第一配音视频,其中,所述第一配音视频由所述服务端根据配音者的语音信息和上传者上传的第一在线视频生成,所述语音信息由配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集得到,所述服务端检测到所述第一在线视频对应的配音入口被触发时,向所述配音者侧提供所述第一在线视频对应的配音录制页面并控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,所述目标视频片段中不包含语音特征;
配音视频播放模块,用于播放所述第一配音视频并指示所述上传者对所述第一配音视频进行审核;
审核结果发送模块,用于接收所述上传者输入的审核结果,并将所述审核结果反馈至所述服务端,所述审核结果用于指示所述服务端在所述审核结果满足预设要求时,发布所述第一配音视频。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (20)

1.一种视频处理方法,其特征在于,应用于服务端,所述方法包括:
检测到第一在线视频对应的配音入口被触发时,向配音者侧提供所述第一在线视频对应的配音录制页面;
控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,并获取所述配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集到的配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
在所述配音录制页面中播放所述第一在线视频之前,还包括:
对所述第一在线视频中的视频内容进行解析,并确定所述目标视频片段;
根据所述语音信息和所述第一在线视频生成对应的第一配音视频;
将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果;
当所述审核结果满足预设要求时,发布所述第一配音视频;
其中,所述对所述第一在线视频中的视频内容进行解析,并确定所述目标视频片段具体为:
对所述第一在线视频中的视频内容的语音特征进行识别,根据识别结果对所述第一在线视频进行分段,将不包含语音特征的片段确定为目标视频片段。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,包括:
对所述第一配音视频的配音效果进行评估;
将评估结果和所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一配音视频的配音效果进行评估,包括:
基于以下至少一个维度对所述第一配音视频的配音效果进行评估:
对应同一目标视频片段的口述内容与视频内容的匹配度、对应同一目标视频片段的配音时长与视频时长匹配度、目标视频片段的口述内容与所述第一在线视频中台词的重叠度以及配音音色是否满足预设音色要求。
4.根据权利要求3所述的方法,其特征在于,
基于对应同一目标视频片段的口述内容与视频内容的匹配度对所述第一配音视频的配音效果进行评估,包括:
针对当前目标视频片段,识别所述当前目标视频片段中出现的显示对象,识别对应的口述内容中出现的描述对象,判断所述显示对象和所述描述对象是否一致,若一致,则评估分数高,若不一致,则评估分数低;
基于对应同一目标视频片段的配音时长与视频时长匹配度对所述第一配音视频的配音效果进行评估,包括:
针对当前目标视频片段,判断所述当前目标视频片段的视频时长与所述当前目标视频片段对应的配音时长的差值是否处于第一预设时长范围内,若是,则评估分数高,若否,则评估分数低;
基于目标视频片段的口述内容与所述第一在线视频中台词的重叠度对所述第一配音视频的配音效果进行评估,包括:
针对当前目标视频片段,判断所述当前目标视频片段对应的口述内容与所述第一在线视频中预设范围内的台词的重叠度是否处于小于预设重叠度阈值,若是,则评估分数高,若否,则评估分数低;其中,所述预设范围包括所述当前目标视频片段之前的第二预设时长范围和所述当前目标视频片段之后的第三预设时长范围;
基于配音音色是否满足预设音色要求对所述第一配音视频的配音效果进行评估,包括:
针对当前目标视频片段,判断所述当前目标视频片段对应的配音音高的波动是否处于预设波动范围内,若处于,则评估分数高,若未处于,则评估分数低。
5.根据权利要求3所述的方法,其特征在于,在对所述第一配音视频的配音效果进行评估之后,还包括:
若确定存在配音音色不满足预设音色要求的第一目标视频片段,则采用预设音频技术对所述第一目标视频片段对应的配音音色进行调整,得到调整后的第一配音视频,并重新确定评估结果;
所述将评估结果和所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,包括:
将重新确定的评估结果和调整后的第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核。
6.根据权利要求1所述的方法,其特征在于,所述审核结果中包含调整建议信息;
在所述接收所述上传者反馈的审核结果之后,还包括:
根据所述调整建议信息确定所述第一配音视频中的待调整片段;
控制所述配音者侧在所述配音录制页面中播放所述待调整片段以及显示对应的调整建议信息,并获取所述配音者侧在播放过程中采集到的所述配音者的重录语音信息;
根据所述重录语音信息对所述第一配音视频进行调整,生成对应的调整后的第一配音视频;
将所述调整后的第一配音视频发送至所述上传者侧进行审核,并接收所述上传者侧反馈的新的审核结果。
7.根据权利要求1所述的方法,其特征在于,在所述控制所述配音者侧在所述配音录制页面中播放所述第一在线视频之前,还包括:
获取所述目标视频片段对应的文字描述信息,其中,所述文字描述信息通过预设机器学习模型识别所述目标视频片段的视频内容得到,或者由所述上传者提供;
相应的,在所述控制所述配音者侧在所述配音录制页面中播放所述目标视频片段的同时,还包括:
控制所述配音者侧在所述配音录制页面中显示当前播放的目标视频片段对应的文字描述信息,并指示所述配音者参考所述文字描述信息进行配音。
8.根据权利要求1所述的方法,其特征在于,在所述检测到第一在线视频对应的配音入口被触发之前,还包括:
接收所述配音者侧发送的针对所述第一在线视频的配音请求,并将所述配音请求转发至所述上传者侧;
在接收到所述上传者侧的配音授权信息时,向所述配音者侧开放所述第一在线视频对应的配音入口。
9.根据权利要求1所述的方法,其特征在于,在所述检测到第一在线视频对应的配音入口被触发之前,还包括:
接收所述上传者侧发送的针对所述第一在线视频的配音入口开放请求;
根据所述配音入口开放请求向所述配音者侧发送配音邀请;
在检测到所述配音者接受所述配音邀请后,向所述配音者侧提供所述第一在线视频对应的配音入口。
10.根据权利要求1所述的方法,其特征在于,在所述发布所述第一配音视频之后,还包括:
在观众侧播放所述第一在线视频对应的第一配音视频。
11.根据权利要求10所述的方法,其特征在于,所述在观众侧播放所述第一在线视频对应的第一配音视频,包括:
在观众侧播放所述第一在线视频的过程中,检测到满足预设切换条件时,切换至播放第一口述视频;
其中,所述预设切换条件包括:
检测到所述观众侧接收到符合视障人士操作方式的第一操作;或者,检测到所述观众侧接收到预设语音切换指令;或者,确定所述观众侧在预设时长内未检测到当前观众的注视信息。
12.根据权利要求1所述的方法,其特征在于,还包括:
接收观众侧发送的针对所述第一在线视频对应的多个配音视频反馈的评价信息;
根据所述评价信息确定所述多个配音视频分别对应的标签信息;
在展示所述第一在线视频对应的当前配音视频的同时,提供所述当前配音视频对应的标签信息。
13.根据权利要求1所述的方法,其特征在于,还包括:
接收观众侧发送的针对所述第一在线视频对应的多个配音视频反馈的评价信息;
根据所述评价信息确定所述多个配音视频分别对应的评分;
根据所述评分对配音者的配音能力进行评估。
14.一种视频处理方法,其特征在于,应用于配音者侧,所述方法包括:
响应于配音者作用于第一在线视频对应的配音入口的触发操作,向服务端发送触发信息,所述触发信息用于指示所述服务端确认检测到所述第一在线视频对应的配音入口被触发;
响应于所述服务端发送的针对所述第一在线视频的配音录制页面显示指令,加载并显示所述第一在线视频对应的配音录制页面;
接收所述服务端发送的所述第一在线视频对应的视频流数据,并在所述配音录制页面播放所述第一在线视频;
在所述配音录制页面中播放所述第一在线视频之前,还包括:
对所述第一在线视频中的视频内容进行解析,并确定目标视频片段;
在播放所述第一在线视频中的目标视频片段的过程中采集所述配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
将采集到的语音信息发送至所述服务端,所述语音信息用于指示所述服务端根据所述语音信息和所述第一在线视频生成对应的第一配音视频,将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果,当所述审核结果满足预设要求时,发布所述第一配音视频;
其中,所述对所述第一在线视频中的视频内容进行解析,并确定所述目标视频片段具体为:
对所述第一在线视频中的视频内容的语音特征进行识别,根据识别结果对所述第一在线视频进行分段,将不包含语音特征的片段确定为目标视频片段。
15.一种视频处理方法,其特征在于,应用于上传者侧,所述方法包括:
接收服务端发送的第一配音视频,其中,所述第一配音视频由所述服务端根据配音者的语音信息和上传者上传的第一在线视频生成,所述语音信息由配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集得到,所述服务端检测到所述第一在线视频对应的配音入口被触发时,向所述配音者侧提供所述第一在线视频对应的配音录制页面并控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,所述目标视频片段中不包含语音特征;
在所述配音录制页面中播放所述第一在线视频之前,还包括:
对所述第一在线视频中的视频内容进行解析,并确定所述目标视频片段;
播放所述第一配音视频并指示所述上传者对所述第一配音视频进行审核;
接收所述上传者输入的审核结果,并将所述审核结果反馈至所述服务端,所述审核结果用于指示所述服务端在所述审核结果满足预设要求时,发布所述第一配音视频;
其中,所述对所述第一在线视频中的视频内容进行解析,并确定所述目标视频片段具体为:
对所述第一在线视频中的视频内容的语音特征进行识别,根据识别结果对所述第一在线视频进行分段,将不包含语音特征的片段确定为目标视频片段。
16.一种视频处理装置,其特征在于,配置于服务端,所述装置包括:
配音录制页面提供模块,用于检测到第一在线视频对应的配音入口被触发时,向配音者侧提供所述第一在线视频对应的配音录制页面;
语音信息获取模块,用于控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,并获取所述配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集到的配音者的语音信息,其中,所述目标视频片段中不包含语音特征;在所述配音录制页面中播放所述第一在线视频之前,还包括:对所述第一在线视频中的视频内容进行解析,并确定所述目标视频片段;
配音视频生成模块,用于根据所述语音信息和所述第一在线视频生成对应的第一配音视频;
审核结果接收模块,用于将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果;
配音视频发布模块,用于在所述审核结果满足预设要求时,发布所述第一配音视频;
其中,所述语音信息获取模块,还用于:
对所述第一在线视频中的视频内容的语音特征进行识别,根据识别结果对所述第一在线视频进行分段,将不包含语音特征的片段确定为目标视频片段。
17.一种视频处理装置,其特征在于,配置于配音者侧,所述装置包括:
触发信息发送模块,用于响应于配音者作用于第一在线视频对应的配音入口的触发操作,向服务端发送触发信息,所述触发信息用于指示所述服务端确认检测到所述第一在线视频对应的配音入口被触发;
配音录制页面显示模块,用于响应于所述服务端发送的针对所述第一在线视频的配音录制页面显示指令,加载并显示所述第一在线视频对应的配音录制页面;
在线视频播放模块,用于接收所述服务端发送的所述第一在线视频对应的视频流数据,并在所述配音录制页面播放所述第一在线视频;在所述配音录制页面中播放所述第一在线视频之前,还包括:对所述第一在线视频中的视频内容进行解析,并确定目标视频片段;
语音信息采集模块,用于在播放所述第一在线视频中的目标视频片段的过程中采集所述配音者的语音信息,其中,所述目标视频片段中不包含语音特征;
语音信息发送模块,用于将采集到的的语音信息发送至所述服务端,所述语音信息用于指示所述服务端根据所述语音信息和所述第一在线视频生成对应的第一配音视频,将所述第一配音视频发送至所述第一在线视频对应的上传者侧供上传者进行审核,并接收所述上传者侧反馈的审核结果,当所述审核结果满足预设要求时,发布所述第一配音视频;
其中,所述在线视频播放模块,还用于:
对所述第一在线视频中的视频内容的语音特征进行识别,根据识别结果对所述第一在线视频进行分段,将不包含语音特征的片段确定为目标视频片段。
18.一种视频处理装置,其特征在于,配置于上传者侧,所述装置包括:
配音视频接收模块,用于接收服务端发送的第一配音视频,其中,所述第一配音视频由所述服务端根据配音者的语音信息和上传者上传的第一在线视频生成,所述语音信息由配音者侧在播放所述第一在线视频中的目标视频片段的过程中采集得到,所述服务端检测到所述第一在线视频对应的配音入口被触发时,向所述配音者侧提供所述第一在线视频对应的配音录制页面并控制所述配音者侧在所述配音录制页面中播放所述第一在线视频,所述目标视频片段中不包含语音特征;在所述配音录制页面中播放所述第一在线视频之前,还包括:对所述第一在线视频中的视频内容进行解析,并确定所述目标视频片段;
配音视频播放模块,用于播放所述第一配音视频并指示所述上传者对所述第一配音视频进行审核;
审核结果发送模块,用于接收所述上传者输入的审核结果,并将所述审核结果反馈至所述服务端,所述审核结果用于指示所述服务端在所述审核结果满足预设要求时,发布所述第一配音视频;
其中,所述配音视频接收模块,还用于:
对所述第一在线视频中的视频内容的语音特征进行识别,根据识别结果对所述第一在线视频进行分段,将不包含语音特征的片段确定为目标视频片段。
19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-15任一项所述的方法。
20.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-15任一项所述的方法。
CN202110114682.9A 2021-01-26 2021-01-26 视频处理方法、装置、存储介质及设备 Active CN112954390B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110114682.9A CN112954390B (zh) 2021-01-26 2021-01-26 视频处理方法、装置、存储介质及设备
US18/263,077 US20240121451A1 (en) 2021-01-26 2022-01-25 Video processing method and apparatus, storage medium, and device
PCT/CN2022/073617 WO2022161328A1 (zh) 2021-01-26 2022-01-25 视频处理方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110114682.9A CN112954390B (zh) 2021-01-26 2021-01-26 视频处理方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN112954390A CN112954390A (zh) 2021-06-11
CN112954390B true CN112954390B (zh) 2023-05-09

Family

ID=76238254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110114682.9A Active CN112954390B (zh) 2021-01-26 2021-01-26 视频处理方法、装置、存储介质及设备

Country Status (3)

Country Link
US (1) US20240121451A1 (zh)
CN (1) CN112954390B (zh)
WO (1) WO2022161328A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112954390B (zh) * 2021-01-26 2023-05-09 北京有竹居网络技术有限公司 视频处理方法、装置、存储介质及设备
CN113630630B (zh) * 2021-08-09 2023-08-15 咪咕数字传媒有限公司 一种视频解说配音信息的处理方法、装置及设备
CN116095402A (zh) * 2023-02-20 2023-05-09 湖南快乐阳光互动娱乐传媒有限公司 视频审核文件的输出方法及装置、存储介质及电子设备
CN116822805B (zh) * 2023-08-29 2023-12-15 北京菜鸟无忧教育科技有限公司 一种基于大数据的教育视频质量监测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106911900A (zh) * 2017-04-06 2017-06-30 腾讯科技(深圳)有限公司 视频配音方法及装置
WO2018095219A1 (zh) * 2016-11-24 2018-05-31 腾讯科技(深圳)有限公司 媒体信息处理方法和装置
CN111435600A (zh) * 2019-01-15 2020-07-21 北京字节跳动网络技术有限公司 用于处理音频的方法和装置
CN112261435A (zh) * 2020-11-06 2021-01-22 腾讯科技(深圳)有限公司 一种社交互动方法、装置、系统、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9324340B2 (en) * 2014-01-10 2016-04-26 Sony Corporation Methods and apparatuses for use in animating video content to correspond with audio content
CN105611337B (zh) * 2015-12-25 2018-12-04 深圳市九洲电器有限公司 一种广告休闲和推广方法及系统
CN106060424A (zh) * 2016-06-14 2016-10-26 徐文波 视频配音方法和装置
CN107293286B (zh) * 2017-05-27 2020-11-24 华南理工大学 一种基于网络配音游戏的语音样本收集方法
WO2019124575A1 (ko) * 2017-12-19 2019-06-27 (주)투미유 음성 더빙을 이용한 어학 학습 지원 방법 및 어학 학습 지원서버
CN110087129B (zh) * 2019-04-18 2022-07-01 平安科技(深圳)有限公司 视频节目配音效果评估方法、装置及计算机可读存储介质
CN110650366B (zh) * 2019-10-29 2021-09-24 成都超有爱科技有限公司 互动配音方法、装置、电子设备及可读存储介质
CN111359209B (zh) * 2020-02-28 2022-03-29 腾讯科技(深圳)有限公司 视频播放方法、装置和终端
CN112954390B (zh) * 2021-01-26 2023-05-09 北京有竹居网络技术有限公司 视频处理方法、装置、存储介质及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018095219A1 (zh) * 2016-11-24 2018-05-31 腾讯科技(深圳)有限公司 媒体信息处理方法和装置
CN106911900A (zh) * 2017-04-06 2017-06-30 腾讯科技(深圳)有限公司 视频配音方法及装置
CN111435600A (zh) * 2019-01-15 2020-07-21 北京字节跳动网络技术有限公司 用于处理音频的方法和装置
CN112261435A (zh) * 2020-11-06 2021-01-22 腾讯科技(深圳)有限公司 一种社交互动方法、装置、系统、设备及存储介质

Also Published As

Publication number Publication date
WO2022161328A1 (zh) 2022-08-04
US20240121451A1 (en) 2024-04-11
CN112954390A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112954390B (zh) 视频处理方法、装置、存储介质及设备
JP7498640B2 (ja) ローカライズされたコンテキストのビデオ注釈を生成するためのシステム及び方法
CN106462636B (zh) 解释视频内容中的可听话语信息
Wang et al. Toward automatic audio description generation for accessible videos
CN108292314B (zh) 信息处理装置、信息处理方法和程序
CN112602077A (zh) 交互式视频内容分发
CN112653902B (zh) 说话人识别方法、装置及电子设备
US9959872B2 (en) Multimodal speech recognition for real-time video audio-based display indicia application
CN112399258B (zh) 直播回放视频生成播放方法、装置、存储介质及电子设备
US9558784B1 (en) Intelligent video navigation techniques
US20140143218A1 (en) Method for Crowd Sourced Multimedia Captioning for Video Content
US9430115B1 (en) Storyline presentation of content
US9332313B2 (en) Personalized augmented A/V stream creation
US8453179B2 (en) Linking real time media context to related applications and services
US9564177B1 (en) Intelligent video navigation techniques
CN111954020A (zh) 直播信息的处理方法、装置、设备及计算机可读存储介质
US20190273972A1 (en) User interface elements for content selection in media narrative presentation
CN111800668B (zh) 弹幕的处理方法、装置、设备及存储介质
US9563704B1 (en) Methods, systems, and media for presenting suggestions of related media content
WO2019047850A1 (zh) 标识的显示方法和装置、请求的响应方法和装置
CN113766268B (zh) 视频处理方法、装置、电子设备和可读介质
KR101360471B1 (ko) 사용자의 반응에 기반한 동적 콘텐츠 재생 제어 방법 및 장치
WO2014179389A1 (en) Interactive content and player
US20240146979A1 (en) System, method and computer-readable medium for live streaming recommendation
Wu et al. MoVieUp: Automatic mobile video mashup

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant