CN107027050B

CN107027050B - 辅助直播的音视频处理方法及装置

Info

Publication number: CN107027050B
Application number: CN201710240338.8A
Authority: CN
Inventors: 库宇
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2017-04-13
Filing date: 2017-04-13
Publication date: 2020-11-20
Anticipated expiration: 2037-04-13
Also published as: CN107027050A

Abstract

本发明涉及互联网技术领域，公开了一种辅助直播的音视频处理方法及装置，其中所述方法，包括以下步骤：通过辅助直播音视频应用采集主播音、背景音乐和特效音，进行音频处理将其整合为音频流；通过辅助直播音视频应用采集直播画面，进行图像处理生成视频流；对齐所述音频流和所述视频流的时间戳，生成音视频流数据包；通过跨进程通信通道将所述音视频流数据包传输给直播应用。有效将直播过程中的声音整合为音频流，并与视频流时间戳对齐传输给直播应用，避免直播过程中的各种声音相互干扰，直播过程中声音在直播应用的融合效果较好。

Description

辅助直播的音视频处理方法及装置

技术领域

本发明涉及网络直播技术领域，更具体地，涉及一种辅助直播的音视频处理方法及装置。

背景技术

近年来，随着网络技术的日新月异，网络直播已经被越来越多的主流人群所接受，网络直播以新颖的样式和相对便捷的服务给网民带来一种全新的视角体验和视野冲击。

主播在直播过程中经常需要针对自己的声音进行处理或者是直播过程中适时添加一些音效以达到调和直播气氛的作用，例如主播说了一个段子后，响起掌声特效音以烘托整个现场气氛；主播伴随着音乐伴奏音为直播间中的观众演唱，并在期间加入个性化的表演。以往主播为了达到上面的效果，不得不采用繁琐的方式：通过网络下载特效音，伴奏曲目等加入音乐播放器软件中，然后在直播过程中，需要同时打开音乐播放器软件、特效音播放软件，在需要特效音或伴奏曲目的时候使用播放器播放。以上方式有几个明显的缺点：首先，直播应用对于主播用户的设备已经有较高的配置要求，会耗费较大的电脑资源，如果同时再多开诸如主播声音采集应用，音乐播放器，特效音播放器等其他软件经常造成电脑不负重堪，从而导致直播过程中的卡顿现象，各种直播中的声音不能很好地融合，用户体验十分不好；其次，因为软件兼容性等问题，其他音乐播放器中播放的声音经常会出现不可预期的问题，如卡顿，中断甚至于声音整体未必能被直播应用采集进声音上传；此外，主播在直播的过程是一件高强度的工作，如果同时还要操作音频播放器，特效音播放器等音频软件无疑大大加重了主播的负担，使其无法集中精力专注在直播上，大大影响了表现效果。

基于上述弊端，有必要为相关技术难题的解决提供可供业内延伸发展的基础方案。

发明内容

鉴于上述问题，本发明提出了一种辅助直播的音视频处理方法及装置，有效将直播过程中的声音整合为音频流，并与视频流时间戳对齐传输给直播应用，避免直播过程中的各种声音相互干扰，直播过程中声音在直播应用的融合效果较好。

本发明提供一种辅助直播的音视频处理方法，包括以下步骤：通过辅助直播音视频应用采集主播音、背景音乐和特效音，进行音频处理将其整合为音频流；通过辅助直播音视频应用采集直播画面，进行图像处理生成视频流；对齐所述音频流和所述视频流的时间戳，生成音视频流数据包；通过跨进程通信通道将所述音视频流数据包传输给直播应用。

具体的，所述进行音频处理将其整合为音频流，包括：对所述主播音进行音量大小、音色、声调调节和降噪音处理；将处理后的主播音、背景音乐和特效音进行混合叠加整合为音频流。

具体的，所述进行图像处理生成视频流，包括：通过所述辅助直播音视频应用接收用户的视频处理指令，将直播画面转化为帧数据，根据所述视频处理指令对帧数据进行处理，将处理后帧数据重新组装成视频流。

具体的，所述根据所述视频处理指令对帧数据进行处理，包括：对帧数据的图像进行修复、美化和添加特效中的至少一种。

具体的，所述对齐所述音频流和所述视频流的时间戳，生成音视频流数据包之前，还包括：通过辅助直播音视频应用建立以毫秒为单位且时间上线性递增的参考时钟；采集主播音和直播画面时，分别依据所述参考时钟上的时间，给每个数据块都打上时间戳。

具体的，所述通过辅助直播音视频应用采集主播音、背景音乐和特效音之前，还包括：接收音频查找指令，获取本地存储的歌曲；接收一键上传指令，获取第三方播放器的音乐列表中的歌曲。

具体的，在获取本地存储的歌曲或获取第三方播放器的音乐列表中的歌曲之后，还包括：接收用户打开歌词开关指令，播放指定的歌曲同时在辅助直播音视频应用界面同步显示歌词。

具体的，所述接收用户打开歌词开关指令之后，包括：若发现所述歌曲在本地没有对应的歌词文件，则触发下载逻辑，下载歌词文件；若发现本地有对应的歌词文件，获取歌词文件；从所述歌词文件中分离出时间信息，把时间信息作为歌词的时间戳；将所述歌曲和对应的歌词进行时间戳对齐。

具体的，所述播放指定的歌曲之后，还包括：接收用户点击原唱打开/关闭指令，开启/关闭原唱声音。

相应的，本发明还提供一种辅助直播的音视频处理装置，包括：音频处理模块，用于通过辅助直播音视频应用采集主播音、背景音乐和特效音，进行音频处理将其整合为音频流；视频处理模块，用于通过辅助直播音视频应用采集直播画面，进行图像处理生成视频流；时间戳模块，用于对齐所述音频流和所述视频流的时间戳，生成音视频流数据包；通讯传输模块，用于通过跨进程通信通道将所述音视频流数据包传输给直播应用。

相对于现有技术，基于本发明提供的方案，主要具有以下优点：

本方案通过辅助直播音视频应用将主播音、背景音乐和特效音整合为音频流，对齐音频流和视频流的时间戳，生成音频流和视频流的时间戳，通过跨进程通信通道将音视频流数据包传输给直播应用。现有技术主播音、背景音乐和特效音分别使用三个应用处理，因操作系统调配资源的原因，导致这三种声音相互干扰，这三个应用分别使用不同进程，当其中一个进程卡顿时该进程对应的声音就会出现停滞；当将这三种声音、及视频流通过四个跨进程通信通道的通道分别发给直播应用时，三种声音的进程与视频流进程不能很好融合，声音之间干扰，声音与视频流之间也会干扰，可能有的声音传输中断或传输滞后，导致直播过程中声音与直播应用的融合效果很差。而本发明通过一个辅助直播音视频应用有效将直播过程中的声音整合为音频流，并与视频流时间戳对齐生成音视频流数据包，通过跨进程通信通道的一个通道传输给直播应用，避免直播过程中的各种声音相互干扰，避免声音与视频流干扰，直播过程中声音在直播应用的融合效果较好。

现有技术采用多个直播辅助应用，不仅操作繁琐，而且需要启用多个进程，增加资源损耗；此外，多个直播辅助应用的数据分别处理，这些应用的处理进程有快有满，视频流和音频流的时间戳难以对齐，导致视频流和音频流在应用时可能时间点对不上；比如，音频流的应用处理较快，而视频流的应用处理较慢，视频相对音频滞后；而本发明只有一个辅助直播音视频应用，对齐视频流和音频流的时间戳后，生成音视频流数据包，通过跨进程通信通道发给直播应用，很好地解决了现有技术问题。另一方面，本方案的辅助直播音视频应用可以作为不同的直播应用的辅助，这两个应用独立开发可降低开发难度、缩短开发周期，且这两个应用可分别属于不同的开发商，增加彼此的使用灵活性，用户可选择使用或不使用辅助直播音视频应用；辅助直播音视频应用处理数据，把对齐时间戳的音视频流数据包通过跨进程通信通道传输给直播应用，实现两个应用的衔接。

另外的，本发明针对采集的多种声音和直播画面进行了相关的处理，具体是对主播音进行降噪音处理，将多种声音进行混合叠加；以及，对图像进行修复、美化和添加特效，以实现视频美化特效及视频人像美白、人物瘦身瘦脸效果添加的目的。故在直播效果的丰富上起到了最大程度的跃进，同时实现视频、音频两者的“美化”，进而在直播过程中更加丰富你的直播内容，活跃主播与观众的互动氛围，烘托气氛，使得直播效果更为生动。

此外，本发明利用辅助直播音视频应用对所述视频流和音频流通过请求与直播应用进行通信而连通的跨程序通信通道，通过该通信通道将处理后的视频流和音频流以音视频流数据包传输至直播应用，另外所述直播应用依据预置的规则将所述音视频流数据包上传至直播服务器，其中预置的规则包括将主播预先设置的直播数据打包至所述音视频数据包中一并上传，以实现同步直播的功能，降低内存占用，提高了数据传输的速率，以及保证了直播的流畅程度。

综上所述，本发明有效将直播过程中的声音整合为音频流，并与视频流时间戳对齐传输给直播应用，避免直播过程中的各种声音相互干扰，直播过程中声音在直播应用的融合效果较好；实现了同一应用程序上进行直播音视频的处理操作，省去了来回切换多个直播辅助应用的繁琐操作，节省了设备资源的损耗，最大程度的避免了直播设备卡顿、宕机的现象，提高用户使用体验；另外的在直播过程中更加丰富你的直播内容，活跃主播与观众的互动氛围，烘托气氛；使得直播效果更为生动；此外将主播预先设置的直播数据打包至所述音视频数据包中一并上传，以实现同步直播的功能，降低内存占用，提高了数据传输的速率，以及保证了直播的流畅程度。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明辅助直播的音视频处理方法的第一种实施例的流程图；

图2为本发明辅助直播的音视频处理方法的第二种实施例的流程图；

图3为本发明辅助直播的音视频处理装置的第一种实施例的结构框图；

图4为本发明辅助直播的音视频处理装置的第二种实施例的结构框图；

图5为本发明的辅助直播音视频应用一种状态操作界面的示意图；

图6为本发明的辅助直播音视频应用另一种状态操作界面的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

在对本发明的实施例做出具体阐述之前，有必要先对本发明的应用场景及其原理进行如下的先导性说明。

在网络直播过程中，用户通过终端设备上的网络直播应用程序或相应的直播间站点进入网络直播间。在网络直播间内具有两种成员，分别是主播成员和参与成员。主播成员可进行唱歌、跳舞等直播表演，通过终端设备录制视频或音频文件，再上传至网络直播服务器，网络直播服务器再将该视频或音频文件发布至网络直播间，以供参与成员观看。本发明主要涉及辅助直播音视频应用，该辅助应用用于音视频数据流的前期处理加工，并将处理好的音视频流数据传输到直播应用或相应的直播间站点。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供第一种实施例的辅助直播的音视频处理方法，如图1，包括以下步骤：

S101，通过辅助直播音视频应用采集主播音、背景音乐和特效音，并进行音频处理将其整合为音频流。

本发明实施例中，通过辅助直播音视频应用采集利用麦克风获得的主播音和利用声卡获得的背景音乐、特效音。所述背景音乐，可以是用来烘托气氛，或者酝酿情绪的音乐，也可以是歌曲的伴奏等。所述特效音主要指临时插入的较短的声音，例如掌声，鸟叫，欢呼声等等；例如主播说了一个段子后，此时响起掌声特效音以烘托整个现场气氛。可以理解的所述辅助直播音视频应用除了上述三种声音，还可以采集其他类型的声音；同时，上述三种声音无需同时存在。

本发明实施例中，所述进行音频处理将其整合为音频流，包括：对所述主播音进行音量大小、音色、声调调节和降噪音处理；并将处理后的主播音、背景音乐和特效音进行混合叠加整合为音频流。

S102，通过辅助直播音视频应用采集直播画面，并进行图像处理生成视频流。

本发明实施例中，通过辅助直播音视频应用读取利用摄像头获得的直播画面。

本发明实施例中，所述进行图像处理生成视频流，包括：通过所述辅助直播音视频应用接收用户的视频处理指令，将直播画面转化为帧数据，根据所述视频处理指令对帧数据进行处理，将处理后帧数据重新组装成视频流。其中帧数据相当于图像，故本发明的对帧数据进行处理相当于对图像的处理。

本发明实施例中，所述根据所述视频处理指令对帧数据进行处理，包括：对帧数据的图像进行修复、美化和添加特效中的至少一种。所述修复主要包括去除噪声、增强、复原、分割等处理；所述美化主要针对人物或背景进行，例如对背景进行虚化，对主播进行美白、瘦脸等；所述添加特效主要是在采集的直播画面的帧数据中增加主播用户添加的图像数据，并分别叠加至所述帧数据中以实现视频动画的添加，或者是通过改变帧数据的图像参数以实现视频特效的添加；其主要改变的图像参数有：图像分辨率、图像对比度、图像亮度、图像饱和度、图像锐度、图像色温等。

需要说明的是，本发明提供的对声音的处理和/或是对直播画面的处理所运用的方法并不局限于本发明实施例提出的方法，还可以有其他方法，本发明对此不做限制。

请参照图5，本发明所述辅助直播音视频应用一种状态操作界面的示意图，其“现场特效”一栏具有三方面的内容：常用音效、现场动画、动画广播。其中所述常用音效一栏中收集有预先设置的音效数据，其实时获取云端服务器发送的数据更新数据以存储于本地数据库，假设当触控“前奏曲”的控件区域时，该辅助直播音视频应用将下发获取“前奏曲”对应音频数据的获取指令，以依据该获取指令将所述“前奏曲”对应音频数据叠加至直播过程中采集的声音中，其主要是将下发所述获取指令时的时间点数据与所述原始音频流数据对应的当前时间数据进行对齐，并在所述原始音频流数据相应对齐的位置处叠加入所述“前奏曲”对应音频数据，以实现音效的叠加。其现场动画的实现手段与音频的实现方式具有异曲同工之处，其主要是获取该动画的动画数据并获取下发该动画数据的提取指令时对应的时间点数据，并在直播画面数据中该时间点数据与当前时间数据对齐的位置处叠加入该动画数据，以实现现场动画的添加。

S103，对齐所述音频流和所述视频流的时间戳，生成音视频流数据包。

本发明实施例中，所述对齐所述音频流和所述视频流的时间戳，生成音视频流数据包之前，还包括：通过辅助直播音视频应用建立以毫秒为单位且时间上线性递增的参考时钟；采集主播音和直播画面时，分别依据所述参考时钟上的时间，给每个数据块都打上时间戳。可以理解的，可以将所述主播音的时间戳作为音频流的时间戳，给背景音乐和特效音添加与所述主播音相同的时间戳。其中，所述时间戳是一个字符序列，唯一地标识某一刻的时间。例如，以视频流开始的时间为初始时间，对应时间戳为00:00:00.00；从视频流开始10s后有采集到声音，要求配上音频流，那么音频流的起始时间应该是10s，对应的时间戳为00:00:10.00。

本发明实施例中，所述对齐所述音频流和所述视频流的时间戳，具体包括：

获取所述视频流以及音频流对应的时间戳，并依据获得的时间戳将两者进行时间戳的对齐。假设处理完生成所述视频流和音频流的时间分别为14:30:10和14:30:11，同时将处理完成后的所述视频流和音频流的分别对应的起始位的时间戳标记为14:30:10和14:30:11，两者时差为1s，将音频流错位1s对应到视频流中，当参与成员用户播放所述音视频数据时，播放视频流1s后播放音频流。

需要说明的是，本发明提供的音频数据叠加和/或视频数据叠加和/或歌词与歌曲的匹配所运用的方法以及时间戳的对齐方法并不局限于本发明实施例提出的方法，还可以有其他方法，本发明对此不做限制。

S104，通过跨进程通信通道将所述音视频流数据包传输给直播应用。

本发明实施例中，所述跨进程通信是指在进程间数据传输，即进程间的数据交换。其中所述跨进程通信的方式包括：广播、接口访问、对象访问、共享访问。

以本发明所述辅助直播音视频应用(以A程序表述)与直播应用(以B程序表述)间的通信为例：所述广播的具体实现方式是启动A程序，定义A程序的传输所述音视频流数据包为C事件，并向B程序发送广播；B程序在运行的情况下新建一个类以继承C事件的触发，接收A程序的广播，建立A、B之间的跨进程通信通道。

所述接口访问的具体实现方式包括A程序触发所述C事件，在相关权限访问的获准下，B程序访问A程序对外暴露的接口，建立A、B之间的跨进程通信通道，并获取A程序的与C事件相应的数据。

所述对象访问的具体实现方式是创建B程序并建立一个新的活动命名为D活动，再创建A程序并建立一个新的事件为C事件对应B程序中的D，触发D活动对应的相关指令访问A程序接收C事件的相关数据，并建立A、B之间的跨进程通信通道。

所述共享访问的具体实现方式是将A程序触发的C事件对应的数据存储于预置内存中并建立相关的权限访问，运行B程序建立访问所述预置内存相关权限，在该权限的基准下，获取所述预置内存中的C事件对应的音视频流数据包，构建A、B之间的跨进程通信通道。

本发明实施例中，步骤S104还包括：通过所述直播应用按预置规则将所述音视频流数据包上传到直播服务器。

其中，本发明实施例中，所述预置规则指的是将所述音视频流数据包上传至直播服务器的行为规范，具体过程为将生成检测该音视频流数据包的数据完整性的检测指令，其中该音视频流数据包不仅包含有所述视频流和音频流，还包含有针对直播中主播发送的广播数据以及弹幕数据，当具备有所述广播数据和/或弹幕数据时，将所述广播数据和/或弹幕数据合并至所述音视频流数据包中，在所述音视频流数据包在被执行上传指令时需触发转换指令以将该音视频流数据包转换为适于发送的电信号。

需要说明的是，本发明提供的跨进程通信所运用的方法并不局限于本发明实施例提出的方法，还可以有其他方法，本发明对此不做限制。

请参照图2所示的辅助直播的音视频处理方法的第二种实施例的流程图，可以理解为在所述通过辅助直播音视频应用采集主播音、背景音乐和特效音之前的操作，也可理解为在第一种实施例任何一步过程中添加的操作，在此不做限制。同时，第二种实施例与第一种实施例中相同的步骤不再赘述。

S201，接收音频查找指令，获取本地存储的歌曲，和/或接收一键上传指令，获取第三方播放器的音乐列表中的歌曲。

S202，接收用户打开歌词开关指令，获取歌词文件。

具体的，还可以包括以下步骤：

判断本地是否存在歌词文件；若发现所述歌曲在本地没有对应的歌词文件，则触发下载逻辑，下载歌词文件；若发现本地有对应的歌词文件，获取歌词文件。

其中，所述歌词文件为LRC格式；如歌曲名：祈祷.mp3，歌词名应当为：祈祷.lrc。

S203，从所述歌词文件中分离出时间信息，把时间信息作为歌词的时间戳；将所述歌曲和对应的歌词进行时间戳对齐。

S204，播放指定的歌曲同时在辅助直播音视频应用界面同步显示对应的歌词。优选的，为避免主程序的卡顿等现象，歌词的显示需要重新开启一个新的线程。

作为一种实施例，所述播放指定的歌曲之后，还包括：接收用户点击原唱打开/关闭指令，开启/关闭原唱声音。

请参照图5，本发明所述辅助直播音视频应用一种状态操作界面的示意图，当所述背景音乐为歌曲时，获取歌曲的方式包括：响应添加本地歌曲指令，获取主播用户本地存储的歌曲，具体的可以是进行全盘扫描、响应将本地音乐拖到应用界面或响应打开对应音频指令；响应一键上传指令，获取第三方播放器的音乐列表中的歌曲，从网络中下载资源。此外，还包括：响应主播用户打开歌词开关指令，播放指定的歌曲同时在主播用户界面同步显示歌词；响应主播用户点击原唱开关指令，开启或关闭原唱声音。

请参照图6，本发明所述辅助直播音视频应用另一种状态操作界面的示意图，所述单独开启一个线程进行所述歌词文件的显示，包括：通过设置位移量来实现将上一句歌词向上移动，以及通过设置重绘函数来实现当前歌词字体变化和颜色突出显示。

通过上述第二种实施例，使所述辅助直播音视频应用具有音乐播放器的功能，满足主播用户最常用的表演需求，不再需要单独开启第三方播放器省去了来回切换多个直播辅助应用的繁琐操作，节省了设备资源的损耗，最大程度的避免了直播设备卡顿、宕机的现象，提高用户使用体验。

请参照图3，为本发明辅助直播的音视频处理装置的第一种实施例结构框图，包括：

音频处理模块11，用于通过辅助直播音视频应用采集主播音、背景音乐和特效音，进行音频处理将其整合为音频流。

本发明实施例中，所述音频处理模块11包括：声音优化单元和声音叠加单元；所述声音优化单元用于对所述主播音进行音量大小、音色、声调调节和降噪音处理；所述声音叠加单元用于将处理后的主播音、背景音乐和特效音进行混合叠加整合为音频流。

视频处理模块12，用于通过辅助直播音视频应用采集直播画面，进行图像处理生成视频流。

本发明实施例中，通过辅助直播音视频应用读取利用摄像头获得的直播画面。所述视频处理模块12包括：视频分解单元，图像处理单元和图像组合单元。所述视频分解单元用于通过所述辅助直播音视频应用接收用户的视频处理指令，将直播画面转化为帧数据；所述图像处理单元用于根据所述视频处理指令对帧数据的图像进行处理；所述图像组合单元用于将处理后帧数据重新组装成视频流。其中帧数据相当于图像，故本发明的对帧数据进行处理相当于对图像的处理。

本发明实施例中，所述图像处理单元又包括修复单元、美化单元和添加特效单元；分别用于对图像进行修复、美化和添加特效。所述修复主要包括去除噪声、增强、复原、分割等处理；所述美化主要针对人物或背景进行，例如对背景进行虚化，对主播进行美白、瘦脸等；所述添加特效主要是在采集的直播画面的帧数据中增加主播用户添加的图像数据，并分别叠加至所述帧数据中以实现视频动画的添加，或者是通过改变帧数据的图像参数以实现视频特效的添加；其主要改变的图像参数有：图像分辨率、图像对比度、图像亮度、图像饱和度、图像锐度、图像色温等。

需要说明的是，本发明提供的对声音的处理和/或是对直播画面的处理所运用的装置并不局限于本发明实施例提出的装置，还可以有其他装置，本发明对此不做限制。

时间戳模块13，用于对齐所述音频流和所述视频流的时间戳，生成音视频流数据包。

本发明实施例中，时间戳模块13包括时间戳生成单元和时间戳对齐单元。所述时间戳生成单元可以通过辅助直播音视频应用建立以毫秒为单位且时间上线性递增的参考时钟；采集主播音和直播画面时，分别依据所述参考时钟上的时间，给每个数据块都打上时间戳。其中，所述时间戳是一个字符序列，唯一地标识某一刻的时间。例如，以视频流开始的时间为初始时间，对应时间戳为00:00:00.00；从视频流开始10s后有采集到声音，要求配上音频流，那么音频流的起始时间应该是10s，对应的时间戳为00:00:10.00。所述时间戳对齐单元用于获取所述视频流以及音频流对应的时间戳，并依据获得的时间戳将两者进行时间戳的对齐。假设处理完生成所述视频流和音频流的时间分别为14:30:10和14:30:11，同时将处理完成后的所述视频流和音频流的分别对应的起始位的时间戳标记为14:30:10和14:30:11，两者时差为1s,将音频流错位1s对应到视频流中，当参与成员用户播放所述音视频数据时，播放视频流1s后播放音频流。

需要说明的是，本发明提供的音频数据叠加和/或视频数据叠加和/或歌词与歌曲的匹配所运用的装置以及时间戳的装置并不局限于本发明实施例提出的装置，还可以有其他装置，本发明对此不做限制。

通讯传输模块14，用于通过跨进程通信通道将所述音视频流数据包传输给直播应用。

本发明实施例中，通讯传输模块14还包括：上传单元，用于通过所述直播应用按预置规则将所述音视频流数据包上传到直播服务器。

请参照图4，为本发明辅助直播的音视频处理装置的第二种实施例的结构框图，可理解为在第一种实施例基础上添加的模块，故第二种实施例与第一种实施例中相同的模块单元不再赘述。

上传模块21，用于接收音频查找指令，获取本地存储的歌曲，和/或接收一键上传指令，获取第三方播放器的音乐列表中的歌曲。

匹配模块22，用于接收用户打开歌词开关指令，匹配并获取对应的歌词文件。

所述匹配模块还包括下载单元和获取单元；所述下载单元用于当发现所述歌曲在本地没有对应的歌词文件，触发下载逻辑，下载歌词文件；所述获取单元用于当本地有对应的歌词文件，获取歌词文件。

同步模块23，用于从所述歌词文件中分离出时间信息，把时间信息作为歌词的时间戳；将所述歌曲和对应的歌词进行时间戳对齐。

显示模块24，用于播放指定的歌曲同时在辅助直播音视频应用界面同步显示对应的歌词。优选的，为避免主程序的卡顿等现象，歌词的显示需要重新开启一个新的线程。

作为一种实施例，还包括原唱开关模块，用于接收用户点击原唱打开/关闭指令，开启/关闭原唱声音。

请参照图5，本发明所述辅助直播音视频应用一种状态操作界面的示意图，获取歌曲的方式包括：响应添加本地歌曲指令，获取主播用户本地存储的歌曲，具体的可以是进行全盘扫描、响应将本地音乐拖到应用界面或响应打开对应音频指令；响应一键上传指令，获取第三方播放器的音乐列表中的歌曲，从网络中下载资源。此外，还包括：响应主播用户打开歌词开关指令，播放指定的歌曲同时在主播用户界面同步显示歌词；响应主播用户点击原唱开关指令，开启或关闭原唱声音。

通过采用上述第二种实施例中的方法及对应的装置，使所述辅助直播音视频应用具有音乐播放器的功能，满足主播用户最常用的表演需求，不再需要单独开启第三方播放器，省去了来回切换多个直播辅助应用的繁琐操作，节省了设备资源的损耗，最大程度的避免了直播设备卡顿、宕机的现象，提高用户使用体验。

现有技术主播音、背景音乐和特效音分别使用三个应用处理，不仅导致这三种声音相互干扰，而且这三个应用分别使用不同进程，当其中一个进程卡顿时该进程对应的声音就会出现停滞。特别是将这三种声音、及视频流通过四个进程通信通道分别发给直播应用时，三种声音的进程与视频流进程不能很好融合，导致在直播应用的声音的融合效果很差。而本发明有效将直播过程中的声音整合为音频流，并与视频流时间戳对齐传输给直播应用，避免直播过程中的各种声音相互干扰，直播过程中声音在直播应用的融合效果较好。

以上对本发明所提供的一些示例性实施例进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种辅助直播的音视频处理方法，其特征在于，包括以下步骤：

通过辅助直播音视频应用采集主播音、背景音乐和特效音，进行音频处理将其整合为音频流；

通过辅助直播音视频应用采集直播画面并接收用户的视频处理指令，将直播画面转化为帧数据，根据所述视频处理指令对帧数据进行处理，将处理后帧数据重新组装成视频流；

对齐所述音频流和所述视频流的时间戳，生成音视频流数据包；

通过跨进程通信通道将所述音视频流数据包传输给直播应用。

2.根据权利要求1所述的辅助直播的音视频处理方法，其特征在于，所述进行音频处理将其整合为音频流，包括：对所述主播音进行音量大小、音色、声调调节和降噪音处理；将处理后的主播音、背景音乐和特效音进行混合叠加整合为音频流。

3.根据权利要求1所述的辅助直播的音视频处理方法，其特征在于，所述根据所述视频处理指令对帧数据进行处理，包括：对帧数据的图像进行修复、美化和添加特效中的至少一种。

4.根据权利要求1所述的辅助直播的音视频处理方法，其特征在于，所述对齐所述音频流和所述视频流的时间戳，生成音视频流数据包之前，还包括：

通过辅助直播音视频应用建立以毫秒为单位且时间上线性递增的参考时钟；采集主播音和直播画面时，分别依据所述参考时钟上的时间，给每个数据块都打上时间戳。

5.根据权利要求1所述的辅助直播的音视频处理方法，其特征在于，所述通过辅助直播音视频应用采集主播音、背景音乐和特效音之前，还包括：

接收音频查找指令，获取本地存储的歌曲；

接收一键上传指令，获取第三方播放器的音乐列表中的歌曲。

6.根据权利要求5所述的辅助直播的音视频处理方法，其特征在于，在获取本地存储的歌曲或获取第三方播放器的音乐列表中的歌曲之后，还包括：

接收用户打开歌词开关指令，播放指定的歌曲同时在辅助直播音视频应用界面同步显示歌词。

7.根据权利要求6所述的辅助直播的音视频处理方法，其特征在于，所述接收用户打开歌词开关指令之后，包括：

若发现所述歌曲在本地没有对应的歌词文件，则触发下载逻辑，下载歌词文件；若发现本地有对应的歌词文件，获取歌词文件；

从所述歌词文件中分离出时间信息，把时间信息作为歌词的时间戳；

将所述歌曲和对应的歌词进行时间戳对齐。

8.根据权利要求6所述的辅助直播的音视频处理方法，其特征在于，所述播放指定的歌曲之后，还包括：接收用户点击原唱打开/关闭指令，开启/关闭原唱声音。

9.一种辅助直播的音视频处理装置，其特征在于，包括：

音频处理模块，用于通过辅助直播音视频应用采集主播音、背景音乐和特效音，进行音频处理将其整合为音频流；

视频处理模块，用于通过辅助直播音视频应用采集直播画面并接收用户的视频处理指令，将直播画面转化为帧数据，根据所述视频处理指令对帧数据进行处理，将处理后帧数据重新组装成视频流；

时间戳模块，用于对齐所述音频流和所述视频流的时间戳，生成音视频流数据包；

通讯传输模块，用于通过跨进程通信通道将所述音视频流数据包传输给直播应用。