CN107959884A - 一种单声道多音频流媒体文件的转码处理方法 - Google Patents

一种单声道多音频流媒体文件的转码处理方法 Download PDF

Info

Publication number
CN107959884A
CN107959884A CN201711288740.XA CN201711288740A CN107959884A CN 107959884 A CN107959884 A CN 107959884A CN 201711288740 A CN201711288740 A CN 201711288740A CN 107959884 A CN107959884 A CN 107959884A
Authority
CN
China
Prior art keywords
audio
language
stream
audio stream
transcoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711288740.XA
Other languages
English (en)
Other versions
CN107959884B (zh
Inventor
唐杰
马大江
杨健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI WONDERTEK SOFTWARE CO Ltd
Original Assignee
SHANGHAI WONDERTEK SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI WONDERTEK SOFTWARE CO Ltd filed Critical SHANGHAI WONDERTEK SOFTWARE CO Ltd
Priority to CN201711288740.XA priority Critical patent/CN107959884B/zh
Publication of CN107959884A publication Critical patent/CN107959884A/zh
Application granted granted Critical
Publication of CN107959884B publication Critical patent/CN107959884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种单声道多音频流媒体文件的转码处理方法,包括步骤:读取媒体源文件,将所述媒体源文件分离成一个视频流和n个音频流,n大于等于2;根据语言标签信息对音频流进行分类并建立语言类别列表;构建声道合并原则,将同一种语言类别的多个单声道音频流进行合并,生成多个语言类别的多声道音频媒体文件;对视频流进行分辨、转码、并拼接转码后的视频片段,生成视频媒体文件;将视频媒体文件逐一与多个语言类别的多声道音频媒体文件进行合并,生成相对应语言类别的转码发布文件。该方法不需要采编人员参与,解放采编人员压力,避免引入人为错误,不生成中间媒体文件,直接使用源文件进入转码平台进行转码,降低单个媒体文件转码资源占用。

Description

一种单声道多音频流媒体文件的转码处理方法
技术领域
本发明涉及多媒体技术领域,具体涉及一种单声道多音频流媒体文件的转码处理方法。
背景技术
随着互联网视频业务的快速发展,在线影片点播逐步进入大众视野,以前必须进入电影院或者购买碟片的电影内容,现在使用手机APP软件就可以直接欣赏观看。为了高效的利用多媒体文件资源,适应移动平台的观看需求,需要将各种编码格式及类型影片转化为压缩效率更高的H.264、AAC等标准,转码系统成为了视频平台的重要组件。
影片媒体文件格式多种多样,其中很重要的一类就是多语言格式的原始影片资源,其典型结构如图1所示,包含1个视频流和n个音频流,n个音频流均为单声道音频,n个音频流按照标签分组,同一种标签的音频流属于同一种语言,同一种标签的不同音频流表示该语言的不同声道。与普通的1个视频流和1个音频流的媒体文件相比,此类型的媒体文件增加了音频流数量,且每个音频流均为单声道。如图1所示,“English”标签包含了两个音频流,分别表示左声道和右声道。目前,针对这种类型的视频,一般先经过采编人员处理,使用编辑软件首先将视频文件处理,合并音频流,分离多语言,生成多个不同语言的视频文件,然后将多个视频送入转码平台,分别转码发布,处理流程如图2所示。
现有的处理方法存在不足之处,一是影片视频数据被转码多次,极大的浪费了转码系统计算能力;二是所有的影片需手动编辑,编辑软件只能线性处理音频,同一个影片需要处理多次,极大的延长了影片发布时间;三是在处理过程中,容易引入人为操作错误,造成转码输出后音频错误的情况。
发明内容
本申请提供一种单声道多音频流媒体文件的转码处理方法,包括步骤:
读取媒体源文件,将所述媒体源文件分离成视频流和音频流;
根据语言标签信息对所述音频流进行分类并建立语言类别列表;
构建声道合并原则,将同一种语言类别的多个单声道音频流进行合并,生成多个语言类别的多声道音频媒体文件;
对视频流进行分辨、转码、并拼接转码后的视频片段,生成视频媒体文件;
将视频媒体文件逐一与一种语言类别的音频媒体文件进行合并,生成该语言类别的转码发布文件。
一种实施例中,根据语言标签信息对音频流进行分类并建议语言类别列表之前,还包括步骤:
获取每个音频流的语言标签信息;
将语言标签信息一致的音频流归属为同一种语言的不同声道,并记录该音频流的流序号。
一种实施例中,根据语言标签信息对音频流进行分类并建立语言类别列表,具体包括步骤:
读取音频流数量,并根据语言标签信息初始化语言类别列表;
读取音频流的语言类别及流序号,判断音频流的语言类别是否存在语言类别列表内,若存在,将音频流的流序号加入语言类别列表内,否则,将音频流的语言类别添加至语言类别列表内,并将流序号添加至对应的语言类别列表内。
一种实施例中,合并原则具体为:
若对明确标示有左右声道的两个单声道音频流进行合并,则合并后,左右声道顺序不变;
若对非明确标示有左右声道的两个单声道音频流进行合并,则合并后,默认为第一个音频流为合并后的左声道,第二个音频流为合并后的右声道。
一种实施例中,将同一种语言类别的多个单声道音频流进行合并,具体为:
对单声道音频流进行解码;
对解码的单声道音频流时行重新采样;
合并重新采样的单声道音频流并转码输出一个多声道音频媒体文件。
依据上述实施例的转码处理方法,由于将生成的视频文件与多个音频文件逐一合并,最终生成多个不同语言的媒体文件,实现了单声道多音频流媒体文件的音频流合并处理,同时也实现了不同语言音频的分离,达到了在转码过程中处理此类型媒体文件的目的;相比于原有方法,新方法不需要采编人员参与,解放采编人员压力,避免引入人为错误,不生成中间媒体文件,直接使用源文件进入转码平台进行转码,且,转码自动识别并合并音频流,视频数据转码一次,降低单个媒体文件转码资源占用,降低媒体文件转码发布处理延时,构建更加高效的媒体文件转码系统。
附图说明
图1为媒体文件格式结构图;
图2为现有的多语言影片音视频处理流程图;
图3为本例的单声道多音频流媒体文件处理流程图;
图4为图3相对应的原理示意图;
图5为多个音频流合并示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
本例提供一种单声道多音频流媒体文件的转码处理方法,其流程图如图3所示,对应的原理图如图4所示,具体包括如下步骤。
S1:读取媒体源文件,将媒体源文件分离成视频流和音频流。
该媒体源文件包含一个视频流和n个音频流。其中n个音频流均为单声道音频,n个音频流按照语言标签信息分组,同一种语言标签信息的音频流属于同一种语言,同一种语言标签信息的不同音频流表示该语言的不同声道。
其中,语言标签信息可以指明该音频流的语言信息,比如英语(English)、中文(Mandarin)等。本例正是利用语言标签信息的这一特性,在进行步骤S2之前,先进行以下操作:
检测媒体源文件,获取每个音频流的相关信息,循环处理每个音频流信息,将语言标签信息一致的音频流归属为同一种语言的不同声道,并记录流序号,使,转码一种语言音频时使用同一种语言标签信息的音频序号数据流。
S2:根据语言标签信息对音频流进行分类并建立语言类别列表。
具体的,读取音频流数量,并根据语言标签信息初始化语言类别列表;
读取音频流的语言类别及流序号,判断音频流的语言类别是否存在语言类别列表内,若存在,将音频流的流序号加入语言类别列表内,否则,将音频流的语言类别添加至语言类别列表内,并将流序号添加至对应的语言类别列表内。
S3:构建声道合并原则,将同一种语言类别的多个单声道音频流进行合并,生成多个语言类别的多声道音频媒体文件。
媒体文件的音频数据在转码过程中可以实现多个音频流合并,具体的,是根据构建声道合并原则进行多个音频流合并,对于六声道和八声道的视频,采用对应的合并原则,其中,针对具有两具音频流的合并原则是:
若对明确标示有左右声道的两个单声道音频流进行合并,则合并后,左右声道顺序不变;
若对非明确标示有左右声道的两个单声道音频流进行合并,则合并后,默认为第一个音频流为合并后的左声道,第二个音频流为合并后的右声道。
假设检测出某一语言有两个音频流,其处理过程如图5所示,单声道音频流1和单声道音频流2经过解码后,对解码的音频重新采样,合并重新采样的单声道音频流,转码输出为一个多声道音频流媒体文件。且,在转码处理过程中,多种语言的转码并行处理,最终输出多个不同语言的多声道音频媒体文件。
S4:对视频流进行分辨、转码、并拼接转码后的视频片段,生成视频媒体文件。
本例采用媒体源文件的音视频独立转码,上述步骤S3是针对音频流进行转码生成多声道音频媒体文件,步骤S4是对视频流进行转码,视频流经过转码后,生成仅有视频流的媒体文件。
S5:将视频媒体文件逐一与多个语言类别的音频媒体文件进行合并,生成相对应语言类别的转码发布文件。
本步骤中,将生成的视频文件与多个音频文件逐一合并,最终生成多个不同语言的媒体文件。
通过上述步骤S1-S5实现了单声道多音频流媒体文件的音频流合并处理,同时也实现了不同语言音频的分离,达到了在转码过程中处理此类型媒体文件的目的。相比于原有方法,本例提供的方法不需要采编人员参与,不生成中间媒体文件,直接使用源文件进入转码平台进行转码,转码过程中,视频数据转码一次,降低单个媒体文件转码资源占用,降低媒体文件转码发布处理延时。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (5)

1.一种单声道多音频流媒体文件的转码处理方法,其特征在,包括步骤:
读取媒体源文件,将所述媒体源文件分离成一个视频流和n个音频流,n大于等于2;
根据语言标签信息对所述音频流进行分类并建立语言类别列表;
构建声道合并原则,将同一种语言类别的多个单声道音频流进行合并,生成多个语言类别的多声道音频媒体文件;
对所述视频流进行分辨、转码、并拼接转码后的视频片段,生成视频媒体文件;
将所述视频媒体文件逐一与多个语言类别的多声道音频媒体文件进行合并,生成相对应语言类别的转码发布文件。
2.如权利要求1所述的转码处理方法,其特征在于,所述n个音频流按照语言标签信息分组,同一种语言标签信息的音频流属于同一种语言,同一种语言标签信息的不同音频流表示该语言的不同声道。
3.如权利要求2所述的转码处理方法,其特征在于,所述根据语言标签信息对音频流进行分类并建立语言类别列表,具体包括步骤:
读取所述音频流数量,并根据语言标签信息初始化语言类别列表;
读取所述音频流的语言类别及流序号,判断所述音频流的语言类别是否存在所述语言类别列表内,若存在,将所述音频流的流序号加入所述语言类别列表内,否则,将所述音频流的语言类别添加至所述语言类别列表内,并将所述流序号添加至对应的语言类别列表内。
4.如权利要求1所述的转码处理方法,其特征在于,所述合并原则具体为:
若对明确标示有左右声道的两个单声道音频流进行合并,则合并后,左右声道顺序不变;
若对非明确标示有左右声道的两个单声道音频流进行合并,则合并后,默认为第一个音频流为合并后的左声道,第二个音频流为合并后的右声道。
5.如权利要求4所述的转码处理方法,其特征在于,所述将同一种语言类别的多个单声道音频流进行合并,具体为:
对单声道音频流进行解码;
对解码的单声道音频流时行重新采样;
合并重新采样的单声道音频流并转码输出一个多声道音频媒体文件。
CN201711288740.XA 2017-12-07 2017-12-07 一种单声道多音频流媒体文件的转码处理方法 Active CN107959884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711288740.XA CN107959884B (zh) 2017-12-07 2017-12-07 一种单声道多音频流媒体文件的转码处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711288740.XA CN107959884B (zh) 2017-12-07 2017-12-07 一种单声道多音频流媒体文件的转码处理方法

Publications (2)

Publication Number Publication Date
CN107959884A true CN107959884A (zh) 2018-04-24
CN107959884B CN107959884B (zh) 2020-10-16

Family

ID=61958282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711288740.XA Active CN107959884B (zh) 2017-12-07 2017-12-07 一种单声道多音频流媒体文件的转码处理方法

Country Status (1)

Country Link
CN (1) CN107959884B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101635854A (zh) * 2009-08-26 2010-01-27 腾讯科技(深圳)有限公司 一种实现合并转码的方法和装置
CN102163201A (zh) * 2010-02-24 2011-08-24 腾讯科技(深圳)有限公司 一种多媒体文件切割方法、装置及转码器
CN103297805A (zh) * 2011-12-26 2013-09-11 索尼公司 信息处理装置、方法、程序、记录介质和信息处理系统
JP2015041885A (ja) * 2013-08-22 2015-03-02 株式会社日立製作所 テレビ会議システム
CN104768052A (zh) * 2015-04-02 2015-07-08 无锡天脉聚源传媒科技有限公司 一种根据语言提取音频及字幕的方法及装置
CN104796759A (zh) * 2015-04-07 2015-07-22 无锡天脉聚源传媒科技有限公司 一种从多路音频中提取一路音频的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101635854A (zh) * 2009-08-26 2010-01-27 腾讯科技(深圳)有限公司 一种实现合并转码的方法和装置
CN102163201A (zh) * 2010-02-24 2011-08-24 腾讯科技(深圳)有限公司 一种多媒体文件切割方法、装置及转码器
CN103297805A (zh) * 2011-12-26 2013-09-11 索尼公司 信息处理装置、方法、程序、记录介质和信息处理系统
JP2015041885A (ja) * 2013-08-22 2015-03-02 株式会社日立製作所 テレビ会議システム
CN104768052A (zh) * 2015-04-02 2015-07-08 无锡天脉聚源传媒科技有限公司 一种根据语言提取音频及字幕的方法及装置
CN104796759A (zh) * 2015-04-07 2015-07-22 无锡天脉聚源传媒科技有限公司 一种从多路音频中提取一路音频的方法及装置

Also Published As

Publication number Publication date
CN107959884B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN106878632B (zh) 一种视频数据的处理方法和装置
US8538753B2 (en) Generating representations of group interactions
CN103414949B (zh) 一种基于智能电视的多媒体编辑系统与方法
CN111026843A (zh) 一种人工智能语音外呼方法、系统及存储介质
CN109003608A (zh) 庭审控制方法、系统、计算机设备及存储介质
CN101253552B (zh) 解码音频信号的方法及装置
CN101292428B (zh) 用于编码/解码的方法和装置
CN109274913A (zh) 一种视频智能切片剪辑方法及系统
EP3210206B1 (en) Encoding and decoding of audio signals
WO2024188277A1 (zh) 文本语义匹配方法及制冷设备系统
CN112581965A (zh) 转写方法、装置、录音笔和存储介质
CN114694070A (zh) 一种自动视频剪辑方法、系统、终端及存储介质
CN107959884A (zh) 一种单声道多音频流媒体文件的转码处理方法
CN101448094B (zh) 一种用于快速导入媒体素材的方法
US8787613B2 (en) Forensic mark insertion apparatus and method
Dufour et al. Investigation of spontaneous speech characterization applied to speaker role recognition
CN102262880A (zh) 一种音频提取装置和方法
CN113299276A (zh) 多人多语种识别和翻译方法与装置
Neto et al. A media monitoring solution
CN112509582A (zh) 语音通话的质检方法、系统、设备及存储介质
CN116320622B (zh) 一种广播电视新闻视频转图文稿制作系统和制作方法
CN114861640B (zh) 文本摘要模型的训练方法及装置
Dong et al. Utterance clustering using stereo audio channels
CN110335583A (zh) 一种带隔断标识的复合文件生成及解析方法
Norval et al. Creation of an Afrikaans Speech Corpora for Speech Emotion Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant