CN105959772B - 流媒体与字幕即时同步显示、匹配处理方法、装置及系统 - Google Patents

流媒体与字幕即时同步显示、匹配处理方法、装置及系统 Download PDF

Info

Publication number
CN105959772B
CN105959772B CN201510970843.9A CN201510970843A CN105959772B CN 105959772 B CN105959772 B CN 105959772B CN 201510970843 A CN201510970843 A CN 201510970843A CN 105959772 B CN105959772 B CN 105959772B
Authority
CN
China
Prior art keywords
subtitle
video
audio
layer
subtitle layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510970843.9A
Other languages
English (en)
Other versions
CN105959772A (zh
Inventor
徐晶
李萌
孙俊
顾思斌
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Youku Network Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201510970843.9A priority Critical patent/CN105959772B/zh
Priority to PCT/CN2016/098659 priority patent/WO2017107578A1/zh
Priority to EP16877389.3A priority patent/EP3334175A4/en
Priority to US15/757,775 priority patent/US20190387263A1/en
Publication of CN105959772A publication Critical patent/CN105959772A/zh
Application granted granted Critical
Publication of CN105959772B publication Critical patent/CN105959772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23406Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving management of server-side video buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44004Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving video buffer management, e.g. video decoder buffer or video display buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/6437Real-time Transport Protocol [RTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Abstract

本发明公开了一种流媒体与字幕即时同步显示、匹配处理方法、装置及系统,其中同步显示的方法,包括:将采集的流媒体中的视音频数据进行编码,并发送至直播服务器;获取对应所述视音频数据的字幕数据,并发送至直播服务器;所述直播服务器将编码后的视音频数据根据预设延时时间缓存,以及根据所述字幕数据形成字幕层并缓存,为所述字幕层和所述视音频数据建立同步匹配关系,之后将二者发送;将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合,形成流媒体信息,并将所述流媒体信息分发至网络节点上输出,从而保证视音频数据与字幕层的同步即时显示,提高字幕层与视音频数据匹配的准确度。

Description

流媒体与字幕即时同步显示、匹配处理方法、装置及系统
技术领域
本发明涉及流媒体直播技术领域,特别涉及一种流媒体与字幕即时同步显示的方法、装置,流媒体与字幕同步匹配处理方法及装置,以及流媒体与字幕即时同步显示的系统。
背景技术
随着互联网+模式的迅速推广,以及流媒体直播的发展,字幕翻译相比较同声传译方式来说大大降低了视觉干扰及提高了同步水平。目前在全球互联网流媒体直播领域,大多采用视频单独播放、字幕单独翻译的模式,字幕和视频无法做到真正的实时声画字幕同步,并且做一层透明层放在视频上,用以字幕显示,无法进行移动端适配。总体上来说,实现字幕翻译的手段较为落后,操作复杂。
例如,专利CN102655606A公开了一种基于P2P网络的直播节目添加实时字幕和手语服务的方法及系统,其包括以下步骤:
1)根据节目的电视直播或现场,制作得到相应的实时字幕。
2)根据节目的电视直播或现场,制作得到相应的实时手语。
3)获取网络直播视频流,实时字幕和实时手语流,保存至各自的缓冲区。
步骤1)所述的制作实时字幕,具体步骤为:
1)根据节目的电视直播或现场,速录人员实时录入字幕内容。
2)速录人员对已经录入的字幕内容进行审核。
3)为字幕内容添加同步信息,主要包括时间戳,顺序号,误差偏移量。
4)将处理后的字幕推送至字幕服务器。
步骤2)所述的制作实时手语,具体步骤为:
1)根据节目的电视直播或现场,手语翻译人员实时翻译节目内容;
2)实时录制手语翻译人员的翻译内容,并且为手语视频添加同步信息,主要包括时间戳,误差偏移量;
3)将处理后的手语视频推送至手语流媒体服务器。
步骤3)所述的网络直播节目分别与字幕和手语同步并播放,具体步骤为:
1)获取网络直播视频流,实时字幕流和实时手语流,保存至各自的缓冲区;
2)解析缓冲区中直播节目视频帧、手语视频帧以及字幕的时间戳;
3)根据直播节目视频帧的时间戳,分别到字幕缓冲区和手语视频缓冲区匹配到相应的手语视频帧和字幕,如果有则显示直播视频的同时显示字幕与手语视频;没有,则只显示直播视频。
该现有技术所记载的技术方案是无法做到实时声画字幕同步,通过该方案制作好的字幕和手语即便加上误差偏移量也不可能同步加在直播视频的正确时间轴上。
此外,现存在的网络直播字幕均由广电领域添加字幕演变而来,通过硬件字幕设备在信号终端完成字幕添加,导致互联网字幕无法做到字幕与视音频的真正时间同步。
如何提供一种基于流媒体直播即时显示字幕的方法、装置及系统,能够实现流媒体直播视音频与字幕的达到即时同步显示,成为本领域技术人员需要解决的技术问题。
发明内容
本发明提供一种基于流媒体直播即时显示字幕的方法,以解决上述存在的技术问题。
本发明提供一种流媒体与字幕即时同步显示方法,包括:将采集的流媒体中的视音频数据进行编码,并发送至直播服务器;获取对应所述视音频数据的字幕数据,并发送至直播服务器;所述直播服务器将编码后的视音频数据根据预设延时时间缓存,以及根据所述字幕数据形成字幕层并缓存,为所述字幕层和所述视音频数据建立同步匹配关系,之后将二者发送;将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合,形成流媒体信息,并将所述流媒体信息分发至网络节点上输出。
可选的,所述为缓存后的所述字幕层和所述视音频数据建立同步匹配关系,包括:
对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴;
为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴,或者,根据所述播放时间轴,建立所述字幕层的显示起始时间戳和结束时间戳;所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。
可选的,所述编码端将具有同步匹配关系的所述字幕层和所述视音频数据混合,包括:
将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上,或者,在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳;将所述字幕层与所述视音频数据合成。
可选的,为所述字幕层和所述视音频数据建立同步匹配关系,包括:
对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上;
调整与修正内容相对应的所述播放时间轴或所述字幕时间轴,或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
可选的,对所述字幕层的修正包括:插入预设字幕,跳过,修正字幕或者一键上字幕的操作。
可选的,所述播放时间轴的长度为视音频数据时间长度与所述延时时间之和。
可选的,所述获取对应所述视音频数据的字幕数据,并发送至直播服务器,包括:对获取对应所述视音频数据的字幕数据进行校正。
可选的,所述直播服务器将编码后的视音频数据根据预设延时时间进行缓存,包括:对所述视音频数据的每一帧延时缓存,或者对所述视音频数据的开始部分进行延时缓存,或者对所述视音频数据的结束部分进行延时缓存,或者根据预修改字幕位置或者预调整视音频数据的位置,延时该位置对应的视音频帧。
本发明还提供一种流媒体与字幕即时同步显示装置,包括:
视音频采集编码单元,用于将采集的流媒体中的视音频数据进行编码,并发送至直播服务器;
字幕获取单元,用于获取所述视音频数据的字幕数据,形成字幕层,并发送至直播服务器;
处理单元,所述直播服务器将编码后的视音频数据根据预设延时时间进行缓存,以及缓存所述字幕层,并为缓存后的所述字幕层和所述视音频数据建立同步匹配关系,之后将二者发送;
混合编码单元,用于接收具有同步匹配关系的所述字幕层和所述视音频数据,并将二者混合,之后根据预定的传输协议分发至网络节点上输出。
可选的,所述处理单元包括:
播放时间轴形成单元,用于对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴;
字幕时间轴形成单元或者字幕时间戳形成单元,其中,所述字幕时间轴形成单元,用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴;所述字幕时间戳形成单元,用于根据所述播放时间轴,建立所述字幕层的显示起始时间戳和结束时间戳;所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。
可选的,所述混合编码单元包括:
合成嵌入单元,用于将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上,或者,用于在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳,将所述字幕层与所述视音频数据合成。
可选的,所述处理单元包括:
字幕层修正单元,用于对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上;
调整单元,用于调整与修正内容相对应的所述播放时间轴或所述字幕时间轴,或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
可选的,所述字幕层修正单元,用于对所述字幕层进行插入预设字幕、跳过、修正字幕或者一键上字幕的操作。
可选的,所述字幕获取单元包括:字幕数据修正单元,用于对获取对应所述视音频数据的字幕数据进行校正。
可选的,所述处理单元包括:延时缓存单元,用于对所述视音频数据的每一帧延时缓存,或者对所述视音频数据的开始部分进行延时缓存,或者对所述视音频数据的结束部分进行延时缓存,或者根据预修改字幕位置或者预调整视频数据的位置,延时该位置对应的视音频数据帧。
本发明还提供一种用于流媒体和字幕同步匹配的处理方法,包括:
将接收的编码后的视音频数据根据预设延时时间缓存;
将接收的与所述视音频数据对应的字幕数据,形成字幕层,并缓存;
为所述视音频数据和所述字幕层建立同步匹配关系,之后发送。
可选的,所述为所述视音频数据和所述字幕层建立同步匹配关系,包括:
对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴;
为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴,或者,根据所述播放时间轴,建立所述字幕层的显示起始时间戳和结束时间戳;所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。
可选的,所述为所述字幕层和所述视音频数据建立同步匹配关系,包括:
对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上;
调整与修正内容相对应的所述播放时间轴或所述字幕时间轴,或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
可选的,所述将接收的编码后的视音频数据根据预设延时时间缓存,包括:
对所述视音频数据的每一帧延时缓存,或者对所述视音频数据的开始部分进行延时缓存,或者对所述视音频数据的结束部分进行延时缓存,或者根据预修改字幕位置或者预调整视音频数据的位置,延时该位置对应的视音频数据帧。
本发明一种用于流媒体和字幕同步匹配的处理装置,其特征在于,包括:
延时缓存单元,用于将接收的编码后的视音频数据根据预设延时时间缓存;
字幕层形成单元,用于将接收的与所述视音频数据对应的字幕数据,形成字幕层,并缓存;
同步匹配关系建立单元,用于为所述视音频数据和所述字幕层建立同步匹配关系,之后发送。
可选的,所述同步匹配关系建立单元包括:
播放时间轴形成单元,用于对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴;
字幕时间轴形成单元或字幕时间戳建立单元,其中,所述字幕时间轴形成单元,用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴;所述字幕时间戳建立单元,用于根据所述播放时间轴,建立所述字幕层的显示起始时间戳和结束时间戳;所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。
可选的,所述同步匹配关系建立单元包括:
字幕层修正单元,用于对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上;
调整单元,用于调整与修正内容相对应的所述播放时间轴或字幕时间轴,或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
可选的,所述延时缓存单元用于对所述视音频数据的每一帧延时缓存,或者对所述视音频数据的开始部分进行延时缓存,或者对所述视音频数据的结束部分进行延时缓存,或者根据预修改字幕位置或者预调整视音频数据的位置,延时该位置对应的视音频帧。
本发明还提供一种流媒体与字幕即时同步显示的系统,包括:
采集编码设备,用于采集流媒体中的视音频数据进行编码,并根据预定的视音频传输协议发送至直播服务器;
字幕获取设备,用于输入与所述视音频数据相匹配的字幕数据,并根据预定的字幕传输协议发送至所述直播服务器;
直播服务设备,用于将编码后的视音频数据根据预设延时时间缓存,以及根据所述字幕数据形成字幕层并缓存,为所述字幕层和所述视音频数据建立同步匹配关系,之后将二者发送;
混合编码设备,用于将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合,形成流媒体信息,并根据预定的传输协议,将所述流媒体信息分发至网络节点上输出。
可选的,所述混合编码设备包括:
合成处理器,用于将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上,或者,用于在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳;将所述字幕层与所述视音频数据合成。
可选的,所述直播服务设备包括:
字幕层修正器,用于对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上;调整与修正内容相对应的所述字幕时间轴或播放时间轴,或者调整与修正内容相对应的所述播放时间轴或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
可选的,所述字幕获取设备包括:字幕数据修正器,用于对获取对应所述视音频数据的字幕数据进行校正。
以上为本发明提供一种流媒体与字幕即时同步显示、匹配处理的方法、装置及系统,其中,流媒体与字幕即时同步显示方法是将采集编码后的视音频数据发送至直播服务器中,直播服务器根据预设的延时时间对其进行缓存,同时获取与所述视音频数据相关的字幕数据,并发送至直播服务器中,直播服务器根据所述字幕数据形成字幕层并缓存,为所述字幕层和所述视音频数据建立同步匹配关系,之后将二者发送;将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合,形成流媒体信息,将所述流媒体信息分发至网络节点上输出,由此使得在境内外直播节目或直播活动现场,对获取的视音频数据进行延时处理,并通过将视音频数据与字幕层之间建立同步匹配的关系,从而可有效的调整字幕与视音频数据的匹配,实现字幕可实时的与视音频数据同步的显示在视音频画面上,并与视音频同步;由于设定视音频的延时时长,从而能够对字幕数据和/或字幕层进行修正,使得字幕与视音频数据的匹配度更加精准,降低字幕的错误率,保证视音频与字幕同步显示的准确性,并且字幕与视音频的同步显示不受地域限制。
附图说明
图1是本发明提供的一种流媒体与字幕即时同步显示方法的流程图;
图2是本发明提供的一种流媒体与字幕即时同步显示装置的结构示意图;
图3是本发明提供的一种用于流媒体和字幕同步匹配的处理方法的流程图;
图4是本发明提供的一种用于流媒体和字幕同步匹配的处理装置的结构示意图;
图5是本发明提供的一种流媒体与字幕即时同步显示的系统的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
请参考图1所示,图1是本发明提供的一种本发明提供的一种流媒体与字幕即时同步显示方法的流程图。
本发明主要是将采集的直播现场的视音频文件,在播放时实时的显示于所述视音频文件同步的字幕文件,从而使字幕与视音频文件即时同步的呈现于显示设备上。具体采用如下步骤:
步骤S100:将采集的流媒体中的视音频数据进行编码,并发送至直播服务器。
在上述步骤中,所述流媒体中的视音频数据可以是在直播节目或者直播活动现场,对视音频进行录制,产生卫星及数字高清信号等,通过编码机采集卫星及数字高清信号,并对采集的信号进行编码,编码后发送至直播服务器。
在该步骤中,对所述视音频数据进行编码可以通过第三方软件实现,例如:Windows Media Encoder等。
编码后的视音频数据可以根据预定的传输协议发送至直播服务器,所述预定的传输协议可以是RTMP(Real Time Messaging Protocol,即:实时消息传输协议),传输协议可以包括RTMP的基本协议以及RTMPT/RTMPS/RTMPE等多种变种。
需要说明的是,此处所述的直播节目或者直播活动现场不受地域限制,且所采集的直播节目信号或直播活动现场的信号也不受信号源的输入限制。
步骤S110:获取对应所述视音频数据的字幕数据,并发送至所述直播服务器。
在该步骤中,所述视音频数据的字幕数据可以是在直播节目或直播活动现场经过同声传译,对视音频同步有声翻译,速记人员将翻译内容录入在字幕管理系统中,并发送至直播服务器。
此处字幕数据的发送也可以采用如同视音频数据相同的传输协议进行传输。
为提高字幕录入的准确性,本实施中还可以对获取的对应于所述视音频数据的字幕数据进行校正,修改由于人为原因导致出现的错别字等问题,提高字幕数据的准确性。
步骤S120:所述直播服务器将编码后的视音频数据根据预设延时时间缓存,以及根据所述字幕数据形成字幕层并缓存,为所述字幕层和所述视音频数据建立同步匹配关系,之后将二者发送。
在该步骤中,直播服务器将编码后的视音频数据根据预设延时时间进行缓存,具体可以将视音频数据缓存在直播服务器的存储空间内,所述预设延时时间可以根据需求设定在介于30秒到90秒之间,该时间可以根据存储空间的大小来确定。在本实施中对所述视音频数据的存储方式可以采用对每一帧进行延时处理,或者对所述视音频数据的开始部分进行延时处理,或者对所述视音频数据的结束部分进行延时处理等方式。例如:对视音频数据中的每一帧在服务器中实现30秒的延时缓存,或者是,视音频数据如果一秒显示25帧,则可以对该25帧的画面延时30秒,即25帧/秒×30秒,其中30秒为延时间;从而有利于在收到的字幕数据后对字幕数据进行处理,并为字幕数据与视音频数据建立同步匹配的关系,所述同步匹配关系是,在视音频数据显示时,在需要显示字幕的视音频位置将字幕层呈现。
可以理解是,在该实施例中,所述预设延时时间可以设定为30至90秒,延时时间可以根据流媒体直播服务器中存储量的大小来设定延时的时长,以上仅为一种显示较优的实现方式,并不用于限制本发明的延时时长的设定。对于视音频数据延时有利于提高字幕与视音频数据同步准确性。
需要说明的是,在本实施中,相应于视音频数据的延时,所述直播服务器收到字幕数据后也可以对其进行延时处理,更有利于字幕层与视音频数据之间同步匹配关系的建立。
在该步骤中,为所述字幕层与视音频数据之间建立同步匹配关系,具体实现方式可以有多种,本发明以下述两种方式对建立同步匹配关系进行说明。
第一种实施方式:对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴,并为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴;
第二种实施方式:对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴,并在所述播放时间轴上建立触发所述字幕层显示的时间戳。
以上采用两种实施方式对视音频数据与字幕层之间建立同步匹配的关系进行了说明,该这两种实施方式实际上是以视音频播放时间为基础,建立字幕层显示时间,从而实现视音频数据与字幕层之间的同步匹配关系。可以理解的是,视音频数据与字幕层同步匹配关系的建立并不仅仅限于上述两种方式,还可以通过对视音频数据帧进行标记实现二者的同步匹配,例如:在视音频数据显示字幕层的帧画面位置处加入标识,在字幕层上设置与所述视音频标识相同字幕层显示标记,通过视音频标识与字幕层标识实现二者之间的同步匹配关系。
对于视音频数据与字幕层之间建立同步匹配关系的方式并不限于上述内容,以上仅为实现二者之间具有同步匹配关系的举例说明。
需要说明的是,在上述两种方式中,所述播放时间轴的长度可以为视音频数据时间长度与所述延时时间之和。
在本步骤中,为保证字幕层的准确性,在为所述字幕层和所述视音频数据建立同步匹配关系后,可以对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上,之后再调整与修正内容相对应的所述播放时间轴或所述字幕时间轴,或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
可以理解的是,此处的调整所述字幕时间轴可以通过采用黑色透明层覆盖修正字幕的位置上即可,例如:对字幕层进行修正时,删除了一个字幕,该字幕持续时间为3秒,对应视音频播放时间轴上少了75帧,则可以通过建立黑色透明覆盖层,覆盖在视音频数据的75帧的位置上,进而实现播放时间轴的调整。
对所述字幕层的修正包括:插入预设字幕,跳过,修正字幕或者一键上字幕等操作,例如:对于特定的称谓、特定词,可以通过人为的调配字幕体现时间码来完成跳过修正工作。一键上字幕功能可以运用于对于有政治敏感词汇,通过控制视音频播放时间轴的跳过该些敏感词汇,直接进行更新、上屏操作,从而使字幕层显示的内容更为准确,以及避免敏感词汇的出现,提高直播视频的安全性。
此处需要说明的是,在建立视音频数据和字幕层同步匹配关系后,对字幕层的修改可以是在直播服务器中实现,也可以通过直播服务器先将匹配后的字幕层发送,在对字幕层修改后返回至直播服务器,直播服务器再对收到的字幕层进行调整,使修改后的字幕层与视音频数据同步匹配,之后发送进行混合处理。因此,本发明中对字幕层的修改不仅可以在直播服务器中完成,也可以在直播服务器以外完成。
步骤S130:将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合,形成流媒体信息,并将所述流媒体信息分发至网络节点上输出。
在该步骤中,基于步骤S120中的实施一和实施例二建立的同步匹配关系,可以通过以下方式将二者混合。
基于上述通过播放时间轴和字幕时间轴建立的同步匹配关系,可将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上,具体实现可以是将字幕时间轴的时间刻度和视音频数据播放时间轴的时间刻度合成,进而实现混合。例如:按照视音频的播放时间建立的播放时间轴,假设在视频出现的第10秒开始有一个持续2秒的字幕,在视频播放的第11秒建立一个2秒的字幕时间轴,混合匹配则是,视音频开始按每秒25帧的时间开始播放,到第251帧的时候,也就是说在第11秒时,将字幕时间轴加入到播放时间轴上,之后在视音频数据播放到300帧时,字幕时间轴停止,字幕层消失,以此类推,从而达到视音频数据与字幕层的同步混合,并将混合后的视音频数据分发到各个网络节点上输出。
基于上述通过播放时间轴建立与其匹配的字幕层显示起始时间戳和结束时间戳的方式,该种方式主要基于视音频数据播放时间轴,在其上位于字幕层所显示的时间点上打有字幕层显示时间戳,当视音频数据播放到该时间点上,触发该时间戳,进而使字幕层显示。例如:假设在视频出现的第10秒开始有一个持续2秒的字幕,在视频播放的第11秒打一个字幕层显示的时间戳,在视频播放的第13秒打一个字幕停止的时间戳,混合则是,视音频开始按每秒25帧的时间开始播放,到第251帧的时候,也就是说在第11秒时,将播放时间轴自动触发字幕层的显示时间戳,进而使字幕层显示在该视频上,之后在视音频数据播放到300帧时,也就是在第13秒时,视频播放时间轴自动触发字幕层的停止时间戳,字幕层消失,以此类推,从而达到视音频数据与字幕层的混合。
在采用在视音频数据显示字幕层的帧画面位置处加入标识,在字幕层上设置与所述视音频标识相同字幕层显示标记,通过视音频标识与字幕层标识实现二者之间的同步匹配关系时,将二者混合是将二者的标记重叠,使得视音频数据在显示设备上播放时,当标记显示时,字幕层则能够在视音频数据显示字幕层的位置显示字幕层,实现二者即时同步显示。
需要说明的是,对于上述描述的视音频数据与字幕层混合的方式中,可以通过系统自动匹配,也可以通过人工干预的方式实现字幕层与视音频数据的匹配混合,人工干预方式,可以是在字幕层需要显示的位置,人工加入字幕层等方式。
上述混合过程的实现可以通过编码器实现,直播服务器将建立同步匹配关系的视音频数据和字幕层发送至混合编码器,通过混合编码器将二者进行混合,并最终发送。
可以理解的是,该步骤中将混合后的视音频数据和字幕层可以通过网路传输协议(例如:http协议)传输,并显示在显示设备上。
根据上述内容可以获知,本发明提供的一种流媒体与字幕即时同步显示方法,将采集编码后的视音频数据发送至直播服务器中,直播服务器根据预设的延时时间对其进行缓存,同时将获取得到与所述视音频数据相关的字幕数据形成字幕层,直播服务器将二者建立同步匹配关系并发送,经过对具有同步匹配关系的视音频数据和字幕层进行混合之后,通过网络节点分发出去,最终在显示设备上使视音频数据和字幕层即时同步显示。由此使得在境内外直播节目或直播活动现场,通过获取的视音频数据和字幕数据进行延时处理后,可有效的调整字幕与视音频数据的匹配,达到字幕可实时显示在视音频画面上;并且由于设定延时时长从而使得字幕与视音频数据的匹配度更加精准,降低字幕的错误率,保证视音频与字幕的同步显示,并且不受字幕显示不受地域限制。
另外,本发明提供的一种流媒体与字幕即时同步显示方法还可以通过对字幕层的修正,使字幕层的显示更加准确;以及在对字幕层进行修正后,通过调整字幕层时间轴或时间戳,可以实现更加精准的字幕与视音频画面的匹配度,进一步提高同步的精确度,以及利用人工干预的方式,进一步提高配合精度和同步输出的精度,从而保证字幕层的准确性和实时性。
以上是对本发明提供的一种流媒体与字幕即时同步显示方法的说明,本发明还提供一种流媒体与字幕即时同步显示的装置,请参看图2,其为本申请一种流媒体与字幕即时同步显示装置结构示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可,下述描述的装置实施例仅仅是示意性的。
如图2所示,该装置具体包括:
视音频采集编码单元200,用于将采集的流媒体中的视音频数据进行编码,并发送至直播服务器。
字幕获取单元210,用于获取所述视音频数据的字幕数据,形成字幕层,并发送至直播服务器。所述字幕获取单元210包括:字幕数据修正单元,用于对获取对应所述视音频数据的字幕数据进行校正。
处理单元220,所述直播服务器将编码后的视音频数据根据预设延时时间进行缓存,以及缓存所述字幕层,并为缓存后的所述字幕层和所述视音频数据建立同步匹配关系,之后将二者发送。
所述处理单元220包括:
延时缓存单元,用于对所述视音频数据的每一帧延时缓存,或者对所述视音频数据的开始部分进行延时缓存,或者对所述视音频数据的结束部分进行延时缓存,或者根据预修改字幕位置或者预调整视频数据的位置,延时该位置对应的视音频数据帧。
播放时间轴形成单元,用于对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴;
字幕时间轴形成单元或者字幕时间戳形成单元,其中,所述字幕时间轴形成单元,用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴;所述字幕时间戳形成单元,用于根据所述播放时间轴,建立所述字幕层的显示起始时间戳和结束时间戳;所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。
字幕层修正单元,用于对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上。所述字幕层修正单元,用于对所述字幕层进行插入预设字幕、跳过、修正字幕或者一键上字幕的操作。
调整单元,用于调整与修正内容相对应的所述播放时间轴或所述字幕时间轴,或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
混合编码单元230,用于接收具有同步匹配关系的所述字幕层和所述视音频数据,并将二者混合,之后根据预定的传输协议分发至网络节点上输出。
所述混合编码单元230包括:合成嵌入单元,用于将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上,或者,用于在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳,将所述字幕层与所述视音频数据合成。
以上是对本发明提供的一种流媒体与字幕即时同步显示装置的说明,由于由于装置实施例基本相似于方法实施例,因此,描述仅为示意性,此处不再赘述。
基于上述本发明还提供一种用于流媒体和字幕同步匹配的处理方法,如图3所示,图3是本发明提供的一种用于流媒体和字幕同步匹配的处理方法流程图。由于流媒体和字幕同步匹配的处理方法,在本发明提供的流媒体与字幕即时同步显示方法中有详细说明,因此,此处描述为示意性,具体内容可参考图1及相关说明。
该方法包括:
步骤S300:将接收的编码后的视音频数据根据预设延时时间缓存。
所述步骤S300包括:对所述视音频数据的每一帧延时缓存,或者对所述视音频数据的开始部分进行延时缓存,或者对所述视音频数据的结束部分进行延时缓存,或者根据预修改字幕位置或者预调整视音频数据的位置,延时该位置对应的视音频数据帧。
步骤S310:将接收的与所述视音频数据对应的字幕数据,形成字幕层,并缓存。
步骤S320:为所述视音频数据和所述字幕层建立同步匹配关系,之后发送。在所述步骤S320中,包括:
对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴。
为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴,或者,根据所述播放时间轴,建立所述字幕层的显示起始时间戳和结束时间戳;所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。
对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上。
调整与修正内容相对应的所述播放时间轴或所述字幕时间轴,或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
基于上述提供的一种用于流媒体和字幕同步匹配的处理方法,本发明还提供一种用于流媒体和字幕同步匹配的处理装置,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可,下述描述的装置实施例仅仅是示意性的。
请参考图4所示,图4是本发明提供的一种用于流媒体和字幕同步匹配的处理装置的结构示意图。
该装置包括:
延时缓存单元400,用于将接收的编码后的视音频数据根据预设延时时间缓存。所述延时缓存单元400用于对所述视音频数据的每一帧延时缓存,或者对所述视音频数据的开始部分进行延时缓存,或者对所述视音频数据的结束部分进行延时缓存,或者根据预修改字幕位置或者预调整视音频数据的位置,延时该位置对应的视音频帧。
字幕层形成单元410,用于将接收的与所述视音频数据对应的字幕数据,形成字幕层,并缓存;
同步匹配关系建立单元420,用于为所述视音频数据和所述字幕层建立同步匹配关系,之后发送。
所述同步匹配关系建立单元420,包括:播放时间轴形成单元,用于对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴。
字幕时间轴形成单元或字幕时间戳建立单元,其中,所述字幕时间轴形成单元,用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴;所述字幕时间戳建立单元,用于根据所述播放时间轴,建立所述字幕层的显示起始时间戳和结束时间戳;所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。
字幕层修正单元,用于对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上;
调整单元,用于调整与修正内容相对应的所述播放时间轴或字幕时间轴,或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
基于上述图1至图4,本发明还提供一种基于流媒体直播即时显示字幕的系统,请参看图5,其为是本发明提供的一种流媒体与字幕即时同步显示的系统的示意图。由于系统实施例基本相似于方法的实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可,下述描述的系统实施例仅仅是示意性的。
该系统具体包括:
采集编码设备500,用于采集流媒体中的视音频数据进行编码,并发送至直播服务器;该设备主要能够采集直播现场活动的视音频数据,或者其他直播视音频数据等。
字幕获取设备510,用于获取对应所述视音频数据的字幕数据,并发送至直播服务器;所述字幕获取设备510包括:字幕数据修正器,用于对获取对应所述视音频数据的字幕数据进行校正。
直播服务设备520,用于将编码后的视音频数据根据预设延时时间缓存,以及根据所述字幕数据形成字幕层并缓存,为所述字幕层和所述视音频数据建立同步匹配关系,之后将二者发送。
所述直播服务设备520包括:
数据信息处理器,用于对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴;以及用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴,或者,用于根据所述播放时间轴,建立所述字幕层显示的起始时间戳和结束时间戳。
字幕层修正器,用于对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上;调整与修正内容相对应的所述字幕时间轴或播放时间轴,或者调整与修正内容相对应的所述播放时间轴或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
混合编码设备530,用于将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合,形成流媒体信息,并根据预定的传输协议,将所述流媒体信息传输发送出去,最终显示于终端设备上。
所述混合编码设备530包括:合成处理器,用于将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上,或者,用于在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳;将所述字幕层与所述视音频数据合成。
以上为本发明提供的一种流媒体与字幕即时同步显示的方法、装置;用于流媒体和字幕同步匹配的处理方法、装置;以及流媒体与字幕即时同步显示的系统。通过本发明提供的方法能够使得获得的视音频数据和字幕数据在经过建立同步匹配关系后,合成为一个整体文件并发送至显示设备上,从而使视音频数据和字幕层能够即时同步的显示,提高二者的同步精准度。
本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修正,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims (23)

1.一种流媒体与字幕即时同步显示方法,其特征在于:
将采集的流媒体中的视音频数据进行编码,并发送至直播服务器;
获取对应所述视音频数据的字幕数据,并发送至直播服务器;
所述直播服务器将编码后的视音频数据根据预设延时时间进行延时并缓存,以及根据所述字幕数据形成字幕层并缓存,为所述字幕层和所述视音频数据建立同步匹配关系,之后将二者发送;所述同步匹配关系使得在视音频数据显示时,在需要显示字幕的视音频位置将字幕层呈现;
将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合,形成流媒体信息,并将所述流媒体信息分发至网络节点上输出,
其中,所述为所述字幕层和所述视音频数据建立同步匹配关系,包括:
对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴;为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴,或者
根据所述播放时间轴,建立所述字幕层的显示起始时间戳和结束时间戳;所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳,或者
在视音频数据显示字幕层的帧画面位置处加入标识,在字幕层上设置与所述帧画面位置处的标识相同的字幕层显示标识。
2.根据权利要求1所述的流媒体与字幕即时同步显示方法,其特征在于:将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合,包括:
将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上,或者,在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳,或者,将帧画面位置处的标识和字幕层显示标识重叠;
将所述字幕层与所述视音频数据合成。
3.根据权利要求1所述的流媒体与字幕即时同步显示方法,其特征在于:为所述字幕层和所述视音频数据建立同步匹配关系,包括:
对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上;
调整与修正内容相对应的所述播放时间轴或所述字幕时间轴,或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
4.根据权利要求3所述的流媒体与字幕即时同步显示方法,其特征在于:对所述字幕层的修正包括:插入预设字幕,跳过,修正字幕或者一键上字幕的操作。
5.根据权利要求1所述的流媒体与字幕即时同步显示方法,其特征在于:所述播放时间轴的长度为视音频数据时间长度与所述延时时间之和。
6.根据权利要求1所述的流媒体与字幕即时同步显示方法,其特征在于:所述获取对应所述视音频数据的字幕数据,并发送至直播服务器,包括:
对获取对应所述视音频数据的字幕数据进行校正。
7.根据权利要求1所述的流媒体与字幕即时同步显示方法,其特征在于:所述直播服务器将编码后的视音频数据根据预设延时时间进行延时并缓存,包括:
对所述视音频数据的每一帧延时缓存,或者对所述视音频数据的开始部分进行延时缓存,或者对所述视音频数据的结束部分进行延时缓存,或者根据预修改字幕位置或者预调整视音频数据的位置,延时该位置对应的视音频帧。
8.一种流媒体与字幕即时同步显示装置,其特征在于,包括:
视音频采集编码单元,用于将采集的流媒体中的视音频数据进行编码,并发送至直播服务器;
字幕获取单元,用于获取所述视音频数据的字幕数据,形成字幕层,并发送至直播服务器;
处理单元,用于使所述直播服务器将编码后的视音频数据根据预设延时时间进行延时并缓存,以及缓存所述字幕层,并为缓存后的所述字幕层和所述视音频数据建立同步匹配关系,之后将二者发送至混合编码单元;所述同步匹配关系使得在视音频数据显示时,在需要显示字幕的视音频位置将字幕层呈现;
混合编码单元,用于接收具有同步匹配关系的所述字幕层和所述视音频数据,并将二者混合,之后根据预定的传输协议分发至网络节点上输出,
其中,所述处理单元包括:
播放时间轴形成单元,用于对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴;
字幕时间轴形成单元或者字幕时间戳形成单元,其中,所述字幕时间轴形成单元,用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴;所述字幕时间戳形成单元,用于根据所述播放时间轴,建立所述字幕层的显示起始时间戳和结束时间戳;所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳,或者
所述处理单元用于在视音频数据显示字幕层的帧画面位置处加入标识,在字幕层上设置与所述帧画面位置处的标识相同的字幕层显示标识。
9.根据权利要求8所述的流媒体与字幕即时同步显示装置,其特征在于,所述混合编码单元包括:
合成嵌入单元,用于将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上,或者,用于在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳,或者,用于将帧画面位置处的标识和字幕层显示标识重叠;将所述字幕层与所述视音频数据合成。
10.根据权利要求8所述的流媒体与字幕即时同步显示装置,其特征在于,所述处理单元包括:
字幕层修正单元,用于对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上;
调整单元,用于调整与修正内容相对应的所述播放时间轴或所述字幕时间轴,或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
11.根据权利要求10所述的流媒体与字幕即时同步显示装置,其特征在于,所述字幕层修正单元,用于对所述字幕层进行插入预设字幕、跳过、修正字幕或者一键上字幕的操作。
12.根据权利要求8所述的流媒体与字幕即时同步显示装置,其特征在于,所述字幕获取单元包括:字幕数据修正单元,用于对获取对应所述视音频数据的字幕数据进行校正。
13.根据权利要求8所述的流媒体与字幕即时同步显示装置,其特征在于,所述处理单元包括:延时缓存单元,用于对所述视音频数据的每一帧延时缓存,或者对所述视音频数据的开始部分进行延时缓存,或者对所述视音频数据的结束部分进行延时缓存,或者根据预修改字幕位置或者预调整视频数据的位置,延时该位置对应的视音频数据帧。
14.一种用于流媒体和字幕同步匹配的处理方法,其特征在于,包括:
将接收的编码后的视音频数据根据预设延时时间进行延时并缓存;
将接收的与所述视音频数据对应的字幕数据,形成字幕层,并缓存;
为所述视音频数据和所述字幕层建立同步匹配关系,之后发送,所述同步匹配关系使得在视音频数据显示时,在需要显示字幕的视音频位置将字幕层呈现,
其中,所述为所述视音频数据和所述字幕层建立同步匹配关系,包括:
对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴;为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴,所述字幕层的字幕时间轴用于嵌入至所述视音频数据的播放时间轴上,或者
根据所述播放时间轴,建立所述字幕层的显示起始时间戳和结束时间戳;所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳,所述起始时间戳和结束时间戳用于嵌入在所述视音频数据的播放时间轴上,或者
在视音频数据显示字幕层的帧画面位置处加入标识,在字幕层上设置与所述帧画面位置处的标识相同的字幕层显示标识,帧画面位置处的标识用于和字幕层显示标识重叠。
15.根据权利要求14所述的用于流媒体和字幕同步匹配的处理方法,其特征在于,所述为所述视音频数据和所述字幕层建立同步匹配关系,包括:
对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上;
调整与修正内容相对应的所述播放时间轴或所述字幕时间轴,或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
16.根据权利要求14所述的用于流媒体和字幕同步匹配的处理方法,其特征在于,所述将接收的编码后的视音频数据根据预设延时时间进行延时并缓存,包括:
对所述视音频数据的每一帧延时缓存,或者对所述视音频数据的开始部分进行延时缓存,或者对所述视音频数据的结束部分进行延时缓存,或者根据预修改字幕位置或者预调整视音频数据的位置,延时该位置对应的视音频数据帧。
17.一种用于流媒体和字幕同步匹配的处理装置,其特征在于,包括:
延时缓存单元,用于将接收的编码后的视音频数据根据预设延时时间进行延时并缓存;
字幕层形成单元,用于将接收的与所述视音频数据对应的字幕数据,形成字幕层,并缓存;
同步匹配关系建立单元,用于为所述视音频数据和所述字幕层建立同步匹配关系,之后发送,所述同步匹配关系使得在视音频数据显示时,在需要显示字幕的视音频位置将字幕层呈现,
其中,所述同步匹配关系建立单元包括:
播放时间轴形成单元,用于对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴;
字幕时间轴形成单元或字幕时间戳建立单元,其中,所述字幕时间轴形成单元,用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴,所述字幕层的字幕时间轴用于嵌入至所述视音频数据的播放时间轴上;所述字幕时间戳建立单元,用于根据所述播放时间轴,建立所述字幕层的显示起始时间戳和结束时间戳;所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳,所述起始时间戳和结束时间戳用于嵌入在所述视音频数据的播放时间轴上,或者
同步匹配关系建立单元用于在视音频数据显示字幕层的帧画面位置处加入标识,在字幕层上设置与所述帧画面位置处的标识相同的字幕层显示标识,帧画面位置处的标识用于和字幕层显示标识重叠。
18.根据权利要求17所述的用于流媒体和字幕同步匹配的处理装置,其特征在于,所述同步匹配关系建立单元包括:
字幕层修正单元,用于对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上;
调整单元,用于调整与修正内容相对应的所述播放时间轴或字幕时间轴,或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
19.根据权利要求17所述的用于流媒体和字幕同步匹配的处理装置,其特征在于,所述延时缓存单元用于对所述视音频数据的每一帧延时缓存,或者对所述视音频数据的开始部分进行延时缓存,或者对所述视音频数据的结束部分进行延时缓存,或者根据预修改字幕位置或者预调整视音频数据的位置,延时该位置对应的视音频帧。
20.一种流媒体与字幕即时同步显示的系统,其特征在于:
采集编码设备,用于采集流媒体中的视音频数据进行编码,并根据预定的视音频传输协议发送至直播服务器;
字幕获取设备,用于输入与所述视音频数据相匹配的字幕数据,并根据预定的字幕传输协议发送至所述直播服务器;
直播服务器,用于将编码后的视音频数据根据预设延时时间进行延时并缓存,以及根据所述字幕数据形成字幕层并缓存,为所述字幕层和所述视音频数据建立同步匹配关系,之后将二者发送至混合编码设备;所述同步匹配关系使得在视音频数据显示时,在需要显示字幕的视音频位置将字幕层呈现;
混合编码设备,用于将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合,形成流媒体信息,并根据预定的传输协议,将所述流媒体信息分发至网络节点上输出,
其中,所述直播服务器包括:数据信息处理器:
用于对缓存的所述视音频数据按照其播放时间点标记,形成播放时间轴;以及用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴,或者
用于根据所述播放时间轴,建立所述字幕层显示的起始时间戳和结束时间戳,所述字幕层显示的起始时间戳和结束时间戳统称为字幕时间戳,或者
用于在视音频数据显示字幕层的帧画面位置处加入标识,在字幕层上设置与所述帧画面位置处的标识相同的字幕层显示标识。
21.根据权利要求20所述的流媒体与字幕即时同步显示的系统,其特征在于:所述混合编码设备包括:
合成处理器,用于将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上,或者,用于在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳,或者,用于将帧画面位置处的标识和字幕层显示标识重叠;将所述字幕层与所述视音频数据合成。
22.根据权利要求20所述的流媒体与字幕即时同步显示的系统,其特征在于,所述直播服务器包括:
字幕层修正器,用于对具有所述同步匹配关系的字幕层进行修正,形成新字幕层,并覆盖在原字幕层上;调整与修正内容相对应的所述字幕时间轴或播放时间轴,或者调整与修正内容相对应的所述播放时间轴或所述字幕时间戳,使所述新字幕层与所述视音频数据同步匹配。
23.根据权利要求20所述的流媒体与字幕即时同步显示的系统,其特征在于:所述字幕获取设备包括:字幕数据修正器,用于对获取对应所述视音频数据的字幕数据进行校正。
CN201510970843.9A 2015-12-22 2015-12-22 流媒体与字幕即时同步显示、匹配处理方法、装置及系统 Active CN105959772B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510970843.9A CN105959772B (zh) 2015-12-22 2015-12-22 流媒体与字幕即时同步显示、匹配处理方法、装置及系统
PCT/CN2016/098659 WO2017107578A1 (zh) 2015-12-22 2016-09-12 流媒体与字幕即时同步显示、匹配处理方法、装置及系统
EP16877389.3A EP3334175A4 (en) 2015-12-22 2016-09-12 Streaming media and caption instant synchronization displaying and matching processing method, device and system
US15/757,775 US20190387263A1 (en) 2015-12-22 2016-09-12 Synchronously displaying and matching streaming media and subtitles

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510970843.9A CN105959772B (zh) 2015-12-22 2015-12-22 流媒体与字幕即时同步显示、匹配处理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN105959772A CN105959772A (zh) 2016-09-21
CN105959772B true CN105959772B (zh) 2019-04-23

Family

ID=56917057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510970843.9A Active CN105959772B (zh) 2015-12-22 2015-12-22 流媒体与字幕即时同步显示、匹配处理方法、装置及系统

Country Status (4)

Country Link
US (1) US20190387263A1 (zh)
EP (1) EP3334175A4 (zh)
CN (1) CN105959772B (zh)
WO (1) WO2017107578A1 (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107872678B (zh) * 2016-09-26 2019-08-27 腾讯科技(深圳)有限公司 基于直播的文本展示方法和装置、直播方法和装置
CN106993239B (zh) * 2017-03-29 2019-12-10 广州酷狗计算机科技有限公司 直播过程中的信息显示方法
CN109413475A (zh) * 2017-05-09 2019-03-01 北京嘀嘀无限科技发展有限公司 一种视频中字幕的调整方法、装置和服务器
CN107295307A (zh) * 2017-07-13 2017-10-24 安徽声讯信息技术有限公司 基于远程控制的文字与视频同步控制系统
CN107527618A (zh) * 2017-07-13 2017-12-29 安徽声讯信息技术有限公司 一种音频文字同步播放系统
CN108040282A (zh) * 2017-12-21 2018-05-15 山东亿海兰特通信科技有限公司 一种视频播放方法及装置
CN108111872B (zh) * 2018-01-09 2021-01-01 武汉斗鱼网络科技有限公司 一种音频直播系统
CN108111896B (zh) * 2018-01-16 2020-05-05 北京三体云联科技有限公司 一种字幕同步方法及装置
CN108039175B (zh) 2018-01-29 2021-03-26 北京百度网讯科技有限公司 语音识别方法、装置及服务器
WO2019194742A1 (en) * 2018-04-04 2019-10-10 Nooggi Pte Ltd A method and system for promoting interaction during live streaming events
CN108401192B (zh) * 2018-04-25 2022-02-22 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN108833403A (zh) * 2018-06-11 2018-11-16 颜彦 一种具有嵌入式代码移植的融媒体信息发布生成方法
CN108924664B (zh) * 2018-07-26 2021-06-08 海信视像科技股份有限公司 一种节目字幕的同步显示方法及终端
US11102540B2 (en) 2019-04-04 2021-08-24 Wangsu Science & Technology Co., Ltd. Method, device and system for synchronously playing message stream and audio-video stream
CN110035311A (zh) * 2019-04-04 2019-07-19 网宿科技股份有限公司 一种同步播放消息流与音视频流的方法、装置和系统
US11211073B2 (en) * 2019-04-22 2021-12-28 Sony Corporation Display control of different verbatim text of vocal deliverance of performer-of-interest in a live event
CN111835697B (zh) * 2019-04-23 2021-10-01 华为技术有限公司 一种媒体流发送方法、装置、设备和系统
CN111835988B (zh) * 2019-04-23 2023-03-07 阿里巴巴集团控股有限公司 字幕的生成方法、服务器、终端设备及系统
CN110234028A (zh) * 2019-06-13 2019-09-13 北京大米科技有限公司 音视频数据同步播放方法、装置、系统、电子设备及介质
CN112584078B (zh) * 2019-09-27 2022-03-18 深圳市万普拉斯科技有限公司 视频通话方法、装置、计算机设备和存储介质
CN110740283A (zh) * 2019-10-29 2020-01-31 杭州当虹科技股份有限公司 一种基于视频通讯的语音转文字方法
US11134317B1 (en) 2020-03-25 2021-09-28 Capital One Services, Llc Live caption feedback systems and methods
CN111586437B (zh) * 2020-04-08 2022-09-06 天津车之家数据信息技术有限公司 一种弹幕消息处理方法、系统、计算设备及存储介质
CN111601154B (zh) * 2020-05-08 2022-04-29 北京金山安全软件有限公司 一种视频处理方法及相关设备
CN111654658B (zh) * 2020-06-17 2022-04-15 平安科技(深圳)有限公司 音视频通话的处理方法、系统、编解码器及存储装置
CN111726686B (zh) * 2020-08-24 2020-11-24 上海英立视电子有限公司 基于电视的虚拟卡拉ok系统及方法
CN111988654B (zh) * 2020-08-31 2022-10-18 维沃移动通信有限公司 视频数据对齐方法、装置和电子设备
CN112135155B (zh) * 2020-09-11 2022-07-19 上海七牛信息技术有限公司 音视频的连麦合流方法、装置、电子设备及存储介质
CN112511910A (zh) * 2020-11-23 2021-03-16 浪潮天元通信信息系统有限公司 实时字幕的处理方法和装置
CN112616062B (zh) * 2020-12-11 2023-03-10 北京有竹居网络技术有限公司 一种字幕显示方法、装置、电子设备及存储介质
CN114979788A (zh) * 2021-02-24 2022-08-30 上海哔哩哔哩科技有限公司 弹幕展示方法及装置
CN113301428A (zh) * 2021-05-14 2021-08-24 上海樱帆望文化传媒有限公司 一种电竞赛事直播字幕装置
CN115474066A (zh) * 2021-06-11 2022-12-13 北京有竹居网络技术有限公司 一种字幕处理方法、装置、电子设备和存储介质
CN113766342B (zh) * 2021-08-10 2023-07-18 安徽听见科技有限公司 字幕合成方法及相关装置、电子设备、存储介质
CN113873306A (zh) * 2021-09-23 2021-12-31 深圳市多狗乐智能研发有限公司 一种将实时翻译字幕叠加画面经硬件投射到直播间的方法
CN114679618B (zh) * 2022-05-27 2022-08-02 成都有为财商教育科技有限公司 一种流媒体数据接收方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1933590A (zh) * 2005-09-13 2007-03-21 国际商业机器公司 用于将分离的压缩视频和文本流同步的方法和装置
CN101692693A (zh) * 2009-09-29 2010-04-07 北京中科大洋科技发展股份有限公司 一种多功能一体化演播室系统和演播方法
CN102655606A (zh) * 2012-03-30 2012-09-05 浙江大学 为基于p2p网络的直播节目添加实时字幕和手语服务的方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197946A (zh) * 2006-12-06 2008-06-11 中兴通讯股份有限公司 视频和文字同步装置
CN101540847A (zh) * 2008-03-21 2009-09-23 株式会社康巴思 字幕制作系统及字幕制作方法
US7991801B2 (en) * 2008-06-10 2011-08-02 International Business Machines Corporation Real-time dynamic and synchronized captioning system and method for use in the streaming of multimedia data
US8843368B2 (en) * 2009-08-17 2014-09-23 At&T Intellectual Property I, L.P. Systems, computer-implemented methods, and tangible computer-readable storage media for transcription alignment
CN102196319A (zh) * 2010-03-17 2011-09-21 中兴通讯股份有限公司 一种流媒体直播业务系统及实现方法
ES2370218B1 (es) * 2010-05-20 2012-10-18 Universidad Carlos Iii De Madrid Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo.
US9749504B2 (en) * 2011-09-27 2017-08-29 Cisco Technology, Inc. Optimizing timed text generation for live closed captions and subtitles
CN103686450A (zh) * 2013-12-31 2014-03-26 广州华多网络科技有限公司 视频处理方法及系统
CN103986940A (zh) * 2014-06-03 2014-08-13 王军明 一种视频字幕的流化方法
US10582268B2 (en) * 2015-04-03 2020-03-03 Philip T. McLaughlin System and method for synchronization of audio and closed captioning
CN104795083B (zh) * 2015-04-30 2018-06-01 联想(北京)有限公司 一种信息处理方法和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1933590A (zh) * 2005-09-13 2007-03-21 国际商业机器公司 用于将分离的压缩视频和文本流同步的方法和装置
CN101692693A (zh) * 2009-09-29 2010-04-07 北京中科大洋科技发展股份有限公司 一种多功能一体化演播室系统和演播方法
CN102655606A (zh) * 2012-03-30 2012-09-05 浙江大学 为基于p2p网络的直播节目添加实时字幕和手语服务的方法及系统

Also Published As

Publication number Publication date
EP3334175A1 (en) 2018-06-13
EP3334175A4 (en) 2018-10-10
US20190387263A1 (en) 2019-12-19
CN105959772A (zh) 2016-09-21
WO2017107578A1 (zh) 2017-06-29

Similar Documents

Publication Publication Date Title
CN105959772B (zh) 流媒体与字幕即时同步显示、匹配处理方法、装置及系统
JP5903924B2 (ja) 受信装置および字幕処理方法
US9609179B2 (en) Methods for processing multimedia flows and corresponding devices
KR101640148B1 (ko) 대화형 마크를 스트리밍 콘텐츠에 동기화시키기 위한 디바이스 및 방법
EP1954054A1 (en) System and method for transporting interactive marks
CN106470352B (zh) 直播频道播放方法、装置及系统
TW202005403A (zh) 網路直播方法、裝置、終端及伺服器
JPWO2013190789A1 (ja) 受信装置およびその同期処理方法
RU2378789C2 (ru) Остановка развертки, когда опознавание присутствует в программе вещания
CN112584216B (zh) 一种唇音同步方法和装置
CN101540871B (zh) 基于电路域可视电话同步录制对端声音图像的方法和终端
US20100205317A1 (en) Transmission, reception and synchronisation of two data streams
CN112188241A (zh) 一种用于直播流实时生成字幕的方法及系统
US11503385B2 (en) Live broadcast IP latency compensation
US20100091188A1 (en) Synchronization of secondary decoded media streams with a primary media stream
CA2421326C (en) Response timing
KR20230154051A (ko) 시간 동기화된 멀티 스트림 데이터 전송을 제공하는 방법
US20080129867A1 (en) Closed caption timecode
Ebnöther TV 2.0–Your Individual TV Experience!

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200623

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.