CN111147896A - 一种字幕数据处理方法、装置、设备和计算机存储介质 - Google Patents

一种字幕数据处理方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN111147896A
CN111147896A CN201811308741.0A CN201811308741A CN111147896A CN 111147896 A CN111147896 A CN 111147896A CN 201811308741 A CN201811308741 A CN 201811308741A CN 111147896 A CN111147896 A CN 111147896A
Authority
CN
China
Prior art keywords
format
bitmap
subtitle
information
media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811308741.0A
Other languages
English (en)
Inventor
白雅贤
张晓渠
丁向军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201811308741.0A priority Critical patent/CN111147896A/zh
Priority to PCT/CN2019/114774 priority patent/WO2020093931A1/zh
Publication of CN111147896A publication Critical patent/CN111147896A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2355Processing of additional data, e.g. scrambling of additional data or processing content descriptors involving reformatting operations of additional data, e.g. HTML pages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2362Generation or processing of Service Information [SI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例提供了一种字幕数据处理方法、设备、装置和计算机存储介质,所述方法包括:获取媒体流;所述媒体流携带有位图格式字幕信息;将所述媒体流转换为MPEG‑4封装格式的文件,在所述MPEG‑4封装格式的文件的非标准数据轨中保存所述位图格式字幕信息。

Description

一种字幕数据处理方法、装置、设备和计算机存储介质
技术领域
本发明实施例涉及但不限于多媒体通信中的字幕信息处理技术,尤其涉及一种字幕数据处理方法、装置、设备和计算机存储介质,可以应用于动态图像专家组(MovingPicture Experts Group-4,MPEG-4)多媒体封装和数字视频广播(Digital VideoBroadcasting,dvb)_subtitle字幕信息处理中。
背景技术
对于多民族、多语言地区的媒体业务,为了满足居民不同文化背景下对语音和字幕的需求,媒体内容提供商需要在一套节目中提供多种语言信息,用户可以按需选择字幕;例如在国内的少数民族聚居地、以及海外多语种国家。另外,媒体内容提供商为了覆盖更广大的用户群体,还可以为听觉障碍人士提供了包含全部声音信息的字幕;多语言及多字幕播出技术可以满足以上多种需求。
在各种字幕提供方案中,位图格式字幕可以基于位图方式,可方便的用不同的字体、颜色来呈现字幕信息,并且可以使多种字幕以及台标、logo等信息叠加在视频上;位图格式字幕的一种实现方式为基于DVB规范定义的dvb_subtitle字幕。
MPEG-4于1999年初正式成为国际标准,作为一个适用于低传输速率应用的方案,与MPEG-2相比,MPEG-4更加注重多媒体系统的交互性和灵活性。特别是在流媒体传输协议中,FMP4文件应用广泛;但是,目前的MPEG-4标准对字幕的支持仅局限于文本格式,并不能支持位图格式字幕,降低了包含位图格式字幕的媒体内容的传输灵活性和普适性;例如,dvb_subtitle字幕是基于MPEG-2标准的字幕服务,但是MPEG-4标准并不支持dvb_subtitle字幕。
发明内容
本发明实施例提供了一种字幕数据处理方法、装置、设备和计算机存储介质,能够使MPEG-4标准支持位图格式字幕,进而可以使位图格式字幕在多种流媒体传输协议中的兼容得以实现。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种字幕数据处理方法,所述方法包括:
获取媒体流;所述媒体流携带有位图格式字幕信息;
将所述媒体流转换为MPEG-4封装格式的文件,在所述MPEG-4封装格式的文件的非标准数据轨中保存所述位图格式字幕信息。
本发明实施例还提供了一种字幕数据处理装置,所述装置包括获取单元和处理单元,其中,
获取单元,用于获取媒体流;所述媒体流携带有位图格式字幕信息;
处理单元,用于将所述媒体流转换为动态图像专家组MPEG-4封装格式的文件,在所述MPEG-4封装格式的文件的非标准数据轨中保存所述位图格式字幕信息。
本发明实施例还提供了一种字幕数据处理设备,所述设备包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行上述任意一种字幕数据处理方法的步骤。
本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种字幕数据处理方法的步骤。
本发明实施例提供的一种字幕数据处理方法、装置、设备和计算机存储介质中,获取媒体流;所述媒体流携带有位图格式字幕信息;将所述媒体流转换为MPEG-4封装格式的文件,在所述MPEG-4封装格式的文件的非标准数据轨中保存所述位图格式字幕信息。如此,能够使MPEG-4标准支持位图格式字幕,进而可以使位图格式字幕在多种流媒体传输协议中的兼容得以实现。
附图说明
图1为本发明实施例的字幕数据处理方法的流程图;
图2为本发明实施例的一种字幕数据处理装置的结构示意图;
图3为本发明实施例的另一种字幕数据处理装置的结构示意图;
图4为本发明实施例的一种字幕数据处理设备的结构示意图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
MP4是遵循MPEG-4(ISO 14496-14)的官方容器格式定义的广义文件扩展名,它可以流媒体化并支持众多多媒体的内容,允许用户将不同种类的多媒体数据流(多为视频流和音频流)合并在一个单一的文件内;对于MP4文件,不同种类的多媒体流保存在不同的数据轨track内,每个媒体流都有专属的trackID;在相关技术中还定义了一种利用非公开数据流保存非MPEG-4标准的数据的方案,如Nero Recode2就是利用非公开数据流保存DVD字幕,即vobsub文件。
MP4文件中的所有数据都装在打包器(box)中,并可以在box头部描述其类型和大小;如果一个box支持嵌套(一个box中包含另一个子box),则将该box称为支持嵌套的打包器(container box)。MP4文件中的“trak”表示一个数据轨,其子box包含了该track的媒体数据引用和描述。MPEG-4的标准数据轨(即MPEG-4封装格式的文件的标准数据轨)的类型可以包括视频、音频、文本、字幕等几种类型,此外还可以利用MPEG-4的非标准数据轨(即MPEG-4封装格式的文件的非标准数据轨)保存数据;这里,MPEG-4的标准数据轨和非标准数据轨可以表示不同的数据存储位置。
基于上述记载的内容,提出以下各实施例。
第一实施例
本发明第一实施例提出了一种字幕数据处理方法,可以应用于传输媒体流的任一网络节点中
图1为本发明实施例的字幕数据处理方法的流程图,如图1所示,该流程可以包括:
步骤101:获取媒体流;所述媒体流携带有位图格式字幕信息。
实际应用中,可以从媒体内容提供商处获取媒体流;媒体流的格式可以是用户数据报协议(User Datagram Protocol,UDP)格式或HLS(HyperText Transfer ProtocolLive Streaming)格式;媒体流可以是TS(Transport Stream)码流,实际实施时,可以将获取的媒体流划分为多个TS媒体分片文件,另外,还可以将划分出的TS媒体分片文件存储在内存中。
这里,位图格式字幕信息包括位图格式字幕的时间信息、语言信息、内容信息等,位图格式字幕可以是dvb_subtitle字幕。
步骤102:将媒体流转换为MPEG-4封装格式的文件,在所述MPEG-4封装格式的文件的非标准数据轨中保存所述位图格式字幕信息。
在本步骤的一种实现方式中,可以利用媒体轨(trak)保存所述位图格式字幕信息;trak中可以保存位图格式字幕信息,trak是一个container box。
在一个示例中,trak可以包含媒体轨头部打包器(track header box,tkhd),trak和tkhd的关系可以记为trak->tkhd;tkhd包含数据轨描述信息;相应地,可以利用所述trak中的媒体轨头部打包器tkhd保存所述位图格式字幕的时间信息。
这里,位图格式字幕的时间信息可以包括以下至少一项:字幕起始时间、字幕持续总时长、字幕结束时间。
下面通过表1示例性地说明tkhd的一种结构。
Figure BDA0001854407960000041
Figure BDA0001854407960000051
表1
trak可以包含媒体打包器(media box,mdia),trak和mdia的关系可以记为trak->mdia;这里,可以利用trak中的媒体打包器mdia保存位图格式字幕的语言信息、位图格式字幕的时间信息、所述trak的类型描述信息、位图格式字幕对应的数据段描述信息等。
这里,mdia可以包含媒体数据信息,具体地,mdia可以定义位图格式字幕轨媒体类型以及样本(sample)数据,并描述sample信息。
实际实施时,mdia为container box;mdia可以包含一个媒体头部打包器(mediaheader box,mdhd)、一个处理参考打包器(handler reference box,hdlr)和一个媒体信息打包器(media information box,minf)。
本发明实施例中,可以利用mdhd保存位图格式字幕的语言信息和位图格式字幕的时间信息;利用hdlr保存所述媒体轨trak的类型描述信息;利用minf保存位图格式字幕对应的数据段描述信息。trak、mdia和mdhd的关系可以记为trak->mdia->mdhd,trak、mdia和hdlr的关系可以记为trak->mdia->hdlr,trak、mdia和minf的关系可以记为trak->mdia->minf。
下面通过表2示例性地说明mdhd的一种结构。
Figure BDA0001854407960000061
表2
hdlr定义了位图格式字幕的播放信息,当位图格式字幕是dvb_subtitle字幕时,下面通过表3示例性地说明hdlr的一种结构。
Figure BDA0001854407960000071
表3
表3中,dvbs用于描述媒体轨的类型。
本发明实施例中,可以利用minf中的零媒体头部打包器(null media headerbox,nmhd)和样本表打包器(sample table box,stbl)保存位图格式字幕对应的数据段描述信息;这里,trak、mdia、minf和nmhd的关系可以记为trak->mdia->minf->nmhd,trak、mdia、minf和stbl的关系可以记为trak->mdia->minf->stbl。
具体地说,minf可以存储track媒体数据的时间映射信息,minf是一个containerbox,其实际内容由子box说明;minf包含一个头部打包器(header box)、一个数据信息打包器(data information box,dinf)和一个stbl,其中,header box根据媒体轨类型tracktype(即media handler type)可以分为视频媒体头部打包器(video media header box,vmhd)、音频媒体头部打包器(sound media header box,smhd)、微媒体头部打包器(hintmedia header box,hmhd)和nmhd。
这里,可以采用nmhd存储位图格式字幕解码所需的信息,位图格式字幕对应的数据段描述信息(例如可以是subtitle基本元素数据段描述信息)可以一一保存在nmhd的扩展字段中,终端在播放字幕时可以根据每行字幕所需的数据段序号及nmhd中对应的位置信息获取到相应的数据段数据。
当位图格式字幕是dvb_subtitle字幕时,下面通过表4示例性地说明nmhd的一种结构。
Figure BDA0001854407960000081
Figure BDA0001854407960000091
表4
stbl包含了关于track中sample所有时间和位置的信息、以及sample的编解码等信息。sample是媒体数据存储的单位,存储在media的块文件(chunk)中,在本发明实施例中,dvb_subtitle字幕中每个display set定义了某一时刻字幕的显示方式,因此同一个display set中的不同对象(object)可以分别存储为不同的sample。
stbl是一个container box,其子box包括样本描述打包器(sample descriptionbox,stsd)、时间样本映射打包器(time to sample box,stts)、样本类型打包器(samplesize box,stsz或stz2)、样本块文件映射打包器(sample to chunk box,stsc)等;在stts中存储了sample的持续时间(duration),描述了sample时序的映射方法,本发明实施例中,可能存在同一时刻对应多个sample的情景,终端在播放时需要获取当前时刻全部object进行渲染、显示。
stsz定义了每个sample的大小,本发明实施例中,每个sample不仅包含object像素数据,还需包含对象数据分段(Object data segment)数据段中的描述信息,及该object对应的页面合成分段(page composition segment)数据段序号、区域组成分段(regioncomposition segment)数据段序号、聚类定义分段(CLUT definition segment)数据段序号、object位置、编码信息等,这些信息按表中顺序存储在object像素数据起始处;因此在stsz中给出sample数目、sample描述信息大小、sample像素数据大小等信息。
当位图格式字幕是dvb_subtitle字幕时,下面通过表5示例性地说明stsz的一种结构。
Figure BDA0001854407960000092
Figure BDA0001854407960000101
表5
实际应用中,步骤101至步骤102可以利用处理器等实现,上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit,ASIC)、DSP、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable LogicDevice,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本发明实施例不作具体限定。
可以理解的是,由于MPEG-2标准可以支持位图格式字幕,那么,在MPEG-4封装格式的文件中利用非标准数据轨中保存位图格式字幕信息,能够使MPEG-4标准支持位图格式字幕,进而可以使位图格式字幕在多种流媒体传输协议中的兼容得以实现;例如,可以有效地提高MPEG2、MPEG4媒体内容转换效率和终端播放过程中的兼容性。
另外,在利用上述记载的非标准数据轨存储位图格式字幕信息时,由于充分利用了非标准数据轨的数据结构来存储相应的字幕信息,因而与利用其他方式存储位图格式字幕信息的方案相比,可以降低所需传输的位图格式字幕数据量,提高了网络带宽利用率;并且,由于非标准数据轨的特定数据结构,从非标准数据轨中读取数据较为快速,因而,利用非标准数据轨存储位图格式字幕信息时,便于提高读取图格式字幕信息的效率,即,可以提高字幕信息后续处理的效率。
进一步地,在步骤102后,如果接收到媒体流播放请求,可以将MPEG-4封装格式的文件,按照媒体流播放请求对应的流媒体通信协议类型进行转封装,得到转封装后的媒体流数据;读取出所述MPEG-4封装格式的文件中的所述位图格式字幕信息,将读取出的位图格式字幕信息加入转封装后的媒体流数据中。
实际应用中,可以由用户终端产生并发送媒体流播放请求,媒体流播放请求用于请求获取媒体流数据并播放;可以理解的是,本发明实施例中,将位图格式字幕信息保存在非标准数据轨中,位图格式字幕信息与音频、视频的保存位置相互独立,这样,当终端获取到MP4文件进行播放时,只要播放器具有相应的字幕解码系统就能够正常显示字幕。
这里,不同的用户对于流媒体通信协议的要求不尽相同,因此,需要在存储单一格式媒体内容的前提下,满足不同用户、不同协议的服务需求;示例性地,媒体流播放请求对应的流媒体通信协议类型可以是HLS或基于HTTP的动态自适应流(Dynamic AdaptiveStreaming over HTTP,DASH)。
相关技术中,可以将媒体流转换为MP4文件,将MP4作为媒体内容存储格式,当媒体流(例如可以是源站ts流)中存在位图格式字幕时,常常需要将位图格式字幕先转换为外挂字幕,或是通过文字识别模块将位图格式字幕识别为文本字幕再保存在MP4文件中。
相应地,在本发明实施例中,可以将媒体流中的位图格式字幕信息直接存放在MP4文件中,从而可以提高媒体流和字幕的封装效率;进一步地,在不同用户需要使用不同的流媒体通信协议以请求获取媒体流数据时,例如,使用HLS协议与DASH协议请求获取媒体流数据时,采用本发明实施例的技术方案,只需要对MPEG-4封装格式的文件进行处理,便可以获取带播放的媒体流数据以及位图格式字幕,由于不需要获取外挂字幕,因而,可以提高媒体内容之间的转换效率以及位图格式字幕信息的转换效率。
第二实施例
为了能够更加体现本发明的目的,在本发明第一实施例的基础上,进行进一步的举例说明。
本发明第二实施例中,通过以下四个示例说明本发明的字幕数据处理方法的实现方式。
示例1:入向媒体流为UDP格式,用户请求HLS协议服务。
示例1中字幕数据处理方法可以包括:
步骤A1:入向媒体流采用TS over UDP码流,实际应用中,可以将媒体流切割成多个TS分片,存储在设备内存中。
步骤A2:读取各个TS分片中的媒体流,并将读取的媒体流转换为MPEG-4封装格式的文件;针对dvb_subtitle格式字幕流,以某时刻对应的全部字幕信息,即一个显示集合(display set)为单位进行处理。具体地说,一个display set包含从显示定义分段(display definition segment)数据段到显示集合结束分段(end of display setsegment)数据段的全部数据段集合,display definition segment数据段、pagecomposition segment数据段、region composition segment数据段、CLUT definitionsegment数据段包含了字幕解码所需的描述信息,实际应用中,需要分别获取以上数据段的大小,并获取的以上数据段的大小依次封装在MP4文件中的stsz内。对于Object datasegment数据段,可以在stbl box中添加新的sample,一个Object data segment数据段对应一个sample,并增加描述信息,写入该object对应的page composition segment数据段序号、region composition segment数据段序号、CLUT definition segment数据段序号、object位置、编码信息等。最终将全部字幕信息转换为MP4字幕track。
步骤A3:用户终端发起HLS服务请求(属于流媒体播放请求),以请求HLS协议服务;在接收到HLS服务请求后,获取本地存储的MPEG-4封装格式的文件;对获取的MPEG-4封装格式的文件,按照HLS协议进行转封装,得到转封装后的媒体流数据,转封装后的媒体流数据包括至少一个TS媒体分片文件。针对dvb_subtitle字幕,读取非标准数据轨中的trak,依次读取stsz中的多条sample,将同一刻对应的sample,即object数据,还原为一个displayset。读取每条sample中的object描述信息,获取对应的数据段序号、位置信息、编码信息,按照序号获取display definition segment数据段、page composition segment数据段、region composition segment数据段、CLUT definition segment数据段,将所有数据段排序,最后添加End of display set segment,标志Display set结束。根据转封装后的TS媒体分片文件的分片时长,将对应时长内的所有字幕数据还原为dvb_subtitle字幕流加入TS媒体分片文件中,使终端在播放过程中提供字幕服务。
示例2:入向媒体流为UDP格式,用户请求DASH协议服务。
示例2中字幕数据处理方法可以包括:
步骤B1:入向媒体流采用TS over UDP码流,实际应用中,可以将媒体流切割成多个TS分片,存储在设备内存中。
步骤B2:读取各个TS分片中的媒体流,并将读取的媒体流转换为MPEG-4封装格式的文件;针对dvb_subtitle格式字幕流的处理方式与示例1相同,即,将每个display set包含的全部数据段集合分别写入对应box内。最终将全部字幕信息转换为MP4字幕track。
步骤B3:用户终端发起DASH服务请求(属于流媒体播放请求),以请求DASH协议服务;在接收到DASH服务请求后,获取本地存储的MPEG-4封装格式的文件;对获取的MPEG-4封装格式的文件,按照DASH协议进行转封装,得到转封装后的媒体流数据,转封装后的媒体流数据包括至少一个TS媒体分片文件。由于DASH协议中TS媒体分片文件的格式为FMP4,因此,对于dvb_subtitle字幕,可以直接读取MP4字幕track,根据分片时长,截取时长内的所有sample及object对应的所有数据段,最后修改字幕时长等描述信息,以fmp4格式提供给终端。
示例3:入向媒体流为HLS格式,用户请求HLS协议服务。
示例3中字幕数据处理方法可以包括:
步骤C1:入向媒体流采用HLS协议格式,入向媒体流的TS媒体分片文件中包含dvb_subtitle位图格式字幕,此时,可以解析TS媒体分片文件的m3u8索引,将获取的TS媒体分片文件保存在本地。
步骤C2:读取各个TS分片中的媒体流,并将读取的媒体流转换为MPEG-4封装格式的文件;针对dvb_subtitle格式字幕流的处理方式与示例1相同,即,将每个display set包含的全部数据段集合分别写入对应box内。最终将全部字幕信息转换为MP4字幕track。
步骤C3:用户终端发起HLS服务请求(属于流媒体播放请求),以请求HLS协议服务;在接收到HLS服务请求后,获取本地存储的MPEG-4封装格式的文件;对获取的MPEG-4封装格式的文件,按照HLS协议进行转封装,得到转封装后的媒体流数据,转封装后的媒体流数据包括至少一个TS媒体分片文件。这里,转封装过程与示例1相同,具体地,针对dvb_subtitle字幕,读取非标准数据轨中的trak,依次读取stsz中的多条sample,将同一刻对应的sample,即object数据,还原为一个display set。并在最后添加End of display setsegment,标志Display set结束。根据转封装后的TS媒体分片文件的分片时长,将对应时长内的所有字幕数据还原为dvb_subtitle字幕流加入TS媒体分片文件中,使终端在播放过程中提供字幕服务。
示例4:入向媒体流为HLS格式,用户请求DASH协议服务。
示例4中字幕数据处理方法可以包括:
步骤D1:入向媒体流采用HLS协议格式,入向媒体流的TS媒体分片文件中包含dvb_subtitle位图格式字幕,此时,可以解析TS媒体分片文件的m3u8索引,将获取的TS媒体分片文件保存在本地。
步骤D2:读取各个TS分片中的媒体流,并将读取的媒体流转换为MPEG-4封装格式的文件;针对dvb_subtitle格式字幕流的处理方式与示例1相同,即,将每个display set包含的全部数据段集合分别写入对应box内。最终将全部字幕信息转换为MP4字幕track。
步骤D3:用户终端发起DASH服务请求(属于流媒体播放请求),以请求DASH协议服务;在接收到DASH服务请求后,获取本地存储的MPEG-4封装格式的文件;对获取的MPEG-4封装格式的文件,按照DASH协议进行转封装,得到转封装后的媒体流数据,转封装后的媒体流数据包括至少一个TS媒体分片文件。这里,转封装过程与示例2相同,具体地,针对dvb_subtitle字幕,读取MP4字幕track,根据分片时长,截取时长内的所有sample及object对应的所有数据段,最后修改字幕时长等描述信息,以fmp4格式提供给终端。
第三实施例
基于前述实施例提出的字幕数据处理方法,本发明第三实施例提出了一种字幕数据处理装置。
图2为本发明实施例的一种字幕数据处理装置的结构示意图,如图2所示,该装置可以包括:获取单元201和处理单元202,其中,
获取单元201,用于获取媒体流;所述媒体流携带有位图格式字幕信息;
处理单元202,用于将所述媒体流转换为MPEG-4封装格式的文件,在所述MPEG-4封装格式的文件的非标准数据轨中保存所述位图格式字幕信息。
在一实施方式中,所述处理单元202,具体用于在所述MPEG-4封装格式的文件的非标准数据轨中,利用媒体轨trak保存所述位图格式字幕信息。
在一实施方式中,所述位图格式字幕信息包括位图格式字幕的时间信息;
相应地,所述处理单元202,具体用于利用所述trak中的tkhd保存所述位图格式字幕信息
在一实施方式中,所述位图格式字幕信息包括位图格式字幕的语言信息、位图格式字幕的时间信息、所述trak的类型描述信息、位图格式字幕对应的数据段描述信息;
相应地,所述处理单元202,具体用于利用所述trak中的mdia保存所述位图格式字幕信息
在一实施方式中,所述处理单元202,具体用于利用所述mdia中的mdhd保存位图格式字幕的语言信息和位图格式字幕的时间信息;利用所述mdia中的hdlr保存所述媒体轨trak的类型描述信息;利用所述mdia中的minf保存位图格式字幕对应的数据段描述信息。
在一实施方式中,所述处理单元202,具体用于利用所述minf中的nmhd和stbl保存位图格式字幕对应的数据段描述信息。
在一实施方式中,所述位图格式字幕为dvb_subtitle字幕。
在一实施方式中,所述处理单元202,还用于在接收到媒体流播放请求时,将所述MPEG-4封装格式的文件,按照所述媒体流播放请求对应的流媒体通信协议类型进行转封装,得到转封装后的媒体流数据;读取出所述MPEG-4封装格式的文件中的所述位图格式字幕信息,将读取出的位图格式字幕信息加入转封装后的媒体流数据中。
图3为本发明实施例的另一种字幕数据处理装置的结构示意图,如图3所示,该装置可以包括:入向码流接收模块301、实时转封装模块302和出向码流发送模块303;其中,
入向码流接收模块301,用于获取媒体流;所述媒体流携带有位图格式字幕信息;
实时转封装模块302,用于将所述媒体流转换为MPEG-4封装格式的文件,在所述MPEG-4封装格式的文件的非标准数据轨中保存所述位图格式字幕信息。
出向码流发送模块303,用于在接收到媒体流播放请求时,将所述MPEG-4封装格式的文件,按照所述媒体流播放请求对应的流媒体通信协议类型进行转封装,得到转封装后的媒体流数据;读取出所述MPEG-4封装格式的文件中的所述位图格式字幕信息,将读取出的位图格式字幕信息加入转封装后的媒体流数据中;并将添加由位图格式字幕的转封装后的媒体流数据发送至用户终端。
实际应用中,上述获取单元201、处理单元202、入向码流接收模块301、实时转封装模块302和出向码流发送模块303均可以由任一网络节点中的CPU、微处理器(MicroProcessor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)、或FPGA等实现。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
具体来讲,本实施例中的一种字幕数据处理方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种字幕数据处理方法对应的计算机程序指令被一电子设备读取或被执行时,实现前述实施例的任意一种字幕数据处理方法的步骤。
基于前述实施例相同的技术构思,参见图4,其示出了本发明实施例提供的一种字幕数据处理设备40,该设备可以包括:第一存储器41、第一处理器42和第一总线43;其中,
所述第一总线43用于连接所述第一存储器41、第一处理器42和这些器件之间的相互通信;
所述第一存储器41,用于存储计算机程序和数据;
所述第一处理器42,用于执行所述存储器中存储的计算机程序,以实现前述实施例的任意一种字幕数据处理方法的步骤。
在实际应用中,上述第一存储器41可以是易失性存储器(volatile memory),例如RAM;或者非易失性存储器(non-volatile memory),例如ROM,快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向第一处理器42提供指令和数据。
上述第一处理器42可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述第一处理器功能的电子器件还可以为其它,本发明实施例不作具体限定。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (11)

1.一种字幕数据处理方法,其特征在于,所述方法包括:
获取媒体流;所述媒体流携带有位图格式字幕信息;
将所述媒体流转换为动态图像专家组MPEG-4封装格式的文件,在所述MPEG-4封装格式的文件的非标准数据轨中保存所述位图格式字幕信息。
2.根据权利要求1所述的方法,其特征在于,所述在所述MPEG-4封装格式的文件的非标准数据轨中保存所述位图格式字幕信息,包括:
在所述MPEG-4封装格式的文件的非标准数据轨中,利用媒体轨trak保存所述位图格式字幕信息。
3.根据权利要求2所述的方法,其特征在于,所述位图格式字幕信息包括位图格式字幕的时间信息;
相应地,所述利用trak保存所述位图格式字幕信息,包括:
利用所述trak中的媒体轨头部打包器tkhd保存所述位图格式字幕信息。
4.根据权利要求2所述的方法,其特征在于,所述位图格式字幕信息包括位图格式字幕的语言信息、位图格式字幕的时间信息、所述trak的类型描述信息、位图格式字幕对应的数据段描述信息;
相应地,所述利用trak保存所述位图格式字幕信息,包括:
利用所述trak中的媒体打包器mdia保存所述位图格式字幕信息。
5.根据权利要求4所述的方法,其特征在于,利用所述trak中的mdia保存所述位图格式字幕信息,包括:
利用所述mdia中的媒体头部打包器mdhd保存位图格式字幕的语言信息和位图格式字幕的时间信息;利用所述mdia中的处理参考打包器hdlr保存所述媒体轨trak的类型描述信息;利用所述mdia中的媒体信息打包器minf保存位图格式字幕对应的数据段描述信息。
6.根据权利要求5所述的方法,其特征在于,所述利用所述mdia中的minf保存位图格式字幕对应的数据段描述信息,包括:
利用所述minf中的零媒体头部打包器nmhd和样本表打包器stbl保存位图格式字幕对应的数据段描述信息。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述位图格式字幕为数字视频广播dvb_subtitle字幕。
8.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
在接收到媒体流播放请求时,将所述MPEG-4封装格式的文件,按照所述媒体流播放请求对应的流媒体通信协议类型进行转封装,得到转封装后的媒体流数据;读取出所述MPEG-4封装格式的文件中的所述位图格式字幕信息,将读取出的位图格式字幕信息加入转封装后的媒体流数据中。
9.一种字幕数据处理装置,其特征在于,所述装置包括获取单元和处理单元,其中,
获取单元,用于获取媒体流;所述媒体流携带有位图格式字幕信息;
处理单元,用于将所述媒体流转换为动态图像专家组MPEG-4封装格式的文件,在所述MPEG-4封装格式的文件的非标准数据轨中保存所述位图格式字幕信息。
10.一种字幕数据处理设备,其特征在于,所述设备包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行权利要求1至8任一项所述方法的步骤。
11.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
CN201811308741.0A 2018-11-05 2018-11-05 一种字幕数据处理方法、装置、设备和计算机存储介质 Withdrawn CN111147896A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811308741.0A CN111147896A (zh) 2018-11-05 2018-11-05 一种字幕数据处理方法、装置、设备和计算机存储介质
PCT/CN2019/114774 WO2020093931A1 (zh) 2018-11-05 2019-10-31 字幕数据处理方法、装置、设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811308741.0A CN111147896A (zh) 2018-11-05 2018-11-05 一种字幕数据处理方法、装置、设备和计算机存储介质

Publications (1)

Publication Number Publication Date
CN111147896A true CN111147896A (zh) 2020-05-12

Family

ID=70516380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811308741.0A Withdrawn CN111147896A (zh) 2018-11-05 2018-11-05 一种字幕数据处理方法、装置、设备和计算机存储介质

Country Status (2)

Country Link
CN (1) CN111147896A (zh)
WO (1) WO2020093931A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112055262A (zh) * 2020-08-11 2020-12-08 视若飞信息科技(上海)有限公司 一种网络流媒体字幕的显示方法及系统
CN113727189A (zh) * 2021-08-30 2021-11-30 上海哔哩哔哩科技有限公司 支持多种流媒体传输协议的媒体播放方法和系统
WO2022116921A1 (zh) * 2020-12-03 2022-06-09 中兴通讯股份有限公司 一种媒体服务方法、装置、设备及计算机存储介质
WO2022253079A1 (zh) * 2021-06-01 2022-12-08 中兴通讯股份有限公司 基于hls流的字幕显示方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050105891A1 (en) * 2003-10-04 2005-05-19 Samsung Electronics Co., Ltd. Information storage medium storing text-based subtitle, and apparatus and method for processing text-based subtitle
US20050105890A1 (en) * 2003-10-01 2005-05-19 Samsung Electronics Co., Ltd. Storage medium including text-based caption information, reproducing apparatus and reproducing method thereof
US20050117886A1 (en) * 2003-11-10 2005-06-02 Samsung Electronics Co., Ltd. Storage medium storing text-based subtitle data including style information, and apparatus and method of playing back the storage medium
US20050123283A1 (en) * 2003-12-08 2005-06-09 Li Adam H. File format for multiple track digital data
EP1978522A2 (en) * 2003-10-04 2008-10-08 Samsung Electronics Co., Ltd. Method for reproducing a text-based subtitle from an information storage medium using selectable style informations
CN103269447A (zh) * 2013-04-22 2013-08-28 深圳市视维科技有限公司 一种机顶盒上实现多国语言的方法
CN103688532A (zh) * 2011-07-29 2014-03-26 索尼公司 流式传输分发装置和方法、流式传输接收装置和方法、流式传输系统、程序和记录介质
CN107948720A (zh) * 2017-11-08 2018-04-20 天脉聚源(北京)传媒科技有限公司 一种新闻获取方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050037050A (ko) * 2003-10-17 2005-04-21 엘지전자 주식회사 광디스크 장치의 부가 데이터 재생방법 및 장치와, 이를위한 광디스크
US8472792B2 (en) * 2003-12-08 2013-06-25 Divx, Llc Multimedia distribution system
CN100364322C (zh) * 2005-11-21 2008-01-23 创维数字技术(深圳)有限公司 一种动态生成字幕图像数据及字幕数据流的方法
CN101001334A (zh) * 2006-01-10 2007-07-18 神州亿品科技有限公司 字幕叠加系统及实现字幕叠加的方法
CN104918097B (zh) * 2015-06-01 2018-05-08 无锡天脉聚源传媒科技有限公司 一种字幕生成方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050105890A1 (en) * 2003-10-01 2005-05-19 Samsung Electronics Co., Ltd. Storage medium including text-based caption information, reproducing apparatus and reproducing method thereof
US20050105891A1 (en) * 2003-10-04 2005-05-19 Samsung Electronics Co., Ltd. Information storage medium storing text-based subtitle, and apparatus and method for processing text-based subtitle
EP1978522A2 (en) * 2003-10-04 2008-10-08 Samsung Electronics Co., Ltd. Method for reproducing a text-based subtitle from an information storage medium using selectable style informations
US20050117886A1 (en) * 2003-11-10 2005-06-02 Samsung Electronics Co., Ltd. Storage medium storing text-based subtitle data including style information, and apparatus and method of playing back the storage medium
US20050123283A1 (en) * 2003-12-08 2005-06-09 Li Adam H. File format for multiple track digital data
CN103688532A (zh) * 2011-07-29 2014-03-26 索尼公司 流式传输分发装置和方法、流式传输接收装置和方法、流式传输系统、程序和记录介质
CN103269447A (zh) * 2013-04-22 2013-08-28 深圳市视维科技有限公司 一种机顶盒上实现多国语言的方法
CN107948720A (zh) * 2017-11-08 2018-04-20 天脉聚源(北京)传媒科技有限公司 一种新闻获取方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112055262A (zh) * 2020-08-11 2020-12-08 视若飞信息科技(上海)有限公司 一种网络流媒体字幕的显示方法及系统
WO2022116921A1 (zh) * 2020-12-03 2022-06-09 中兴通讯股份有限公司 一种媒体服务方法、装置、设备及计算机存储介质
WO2022253079A1 (zh) * 2021-06-01 2022-12-08 中兴通讯股份有限公司 基于hls流的字幕显示方法及装置
CN113727189A (zh) * 2021-08-30 2021-11-30 上海哔哩哔哩科技有限公司 支持多种流媒体传输协议的媒体播放方法和系统

Also Published As

Publication number Publication date
WO2020093931A1 (zh) 2020-05-14

Similar Documents

Publication Publication Date Title
US11706502B2 (en) Segment types as delimiters and addressable resource identifiers
CN111147896A (zh) 一种字幕数据处理方法、装置、设备和计算机存储介质
US11638066B2 (en) Method, device and computer program for encapsulating media data into a media file
AU2018244288A1 (en) Signaling important video information in network video streaming using mime type parameters
CN104661058B (zh) Mp4视频点播的数据流传输方法、客户端及点播系统
KR20180081091A (ko) 기본 스트림들로부터 디코딩된 비디오 콘텐츠를 디스플레이의 특성들에 적응시키기 위한 방법 및 디바이스
KR20080072019A (ko) 미디어 스트림의 타임­쉬프트 프리젠테이션
TW201818727A (zh) 用於發送遺失或損壞視訊資料信號之系統及方法
CN104602105B (zh) 视频文件的播放方法及用户设备
US9883216B2 (en) Method and apparatus for carrying transport stream
JP2022019932A (ja) 情報処理装置および情報処理方法
CN113574903B (zh) 针对媒体内容中的后期绑定的方法和装置
CA2934905C (en) Communication apparatus, communication data generation method, and communication data processing method
US20200304820A1 (en) Method and apparatus for employing patterns in sample metadata signalling in media content
WO2023130896A1 (zh) 媒体数据的数据处理方法、装置、计算机设备及存储介质
KR20080064399A (ko) Mp4 역다중화 장치 및 그의 동작 방법
TW201909647A (zh) 增強區域取向包封及視埠獨立高效視頻寫碼媒體資料檔
CN109743627B (zh) 基于avs+视频编码数字电影包的播放方法
US20080137733A1 (en) Encoding device, decoding device, recording device, audio/video data transmission system
US10594758B2 (en) Latency reduction by sending audio and metadata ahead of time
US20120269256A1 (en) Apparatus and method for producing/regenerating contents including mpeg-2 transport streams using screen description
CN114760486A (zh) 直播方法、装置、设备及存储介质
CN114598915A (zh) 一种媒体服务方法、装置、设备及计算机存储介质
Zhang et al. An implementation on extracting H. 264/AVC compressed data from flash video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200512

WW01 Invention patent application withdrawn after publication