CN108419124B

CN108419124B - 一种音频处理方法

Info

Publication number: CN108419124B
Application number: CN201810432441.7A
Authority: CN
Inventors: 易正宏
Original assignee: Beijing Kuwo Technology Co Ltd
Current assignee: Beijing Kuwo Technology Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2020-11-17
Anticipated expiration: 2038-05-08
Also published as: CN108419124A

Abstract

本发明公开了一种音频处理方法，属于流媒体技术领域。该方法包括以下步骤：打开声音的音频文件，将时间粒度调节到预设时间范围；监测声音的音频文件波形，计算预设时间范围内的声音平均分贝值；根据声音平均分贝值确定声音能量的大小，当声音能量小于预设声音平均分贝阈值时，获得一个声音间隔；当一段时间内统计的声音间隔次数超过一定次数时，确定声音为说话模式；或当一段时间内统计的时间相邻一小段时间声音能量的比值超过一个阈值的次数时，确定声音为说话模式。在直播过程中，增加了对于音频处理的环节之后，系统会自动识别麦克风的音频采集内容，自动判断是说话还是唱歌，提高用户的使用感受。

Description

一种音频处理方法

技术领域

本发明涉及流媒体技术领域，尤其涉及一种音频处理方法。

背景技术

目前，网络直播是利用互联网及流媒体技术进行直播，主播用户客户端通过摄像头采集图像数据，麦克风采集音频数据，同步音频/视频之后进行推流，其他观众则会从CDN服务器拉取视频流进行观看。

在实际中，主播有可能会涉及谈话或者唱歌等表现形式，如果是唱歌形式，往往存在相应的伴奏等音频，但目前的直播工具往往不能辨别唱歌和谈话上的区别，造成在直播过程中，用户想进来听主播唱当前背景音乐时进来后可能发现主播正在那说话，并没有唱歌。

发明内容

本发明的目的，是解决主播过程中，根据音频流数据识别主播当前行为，技术方案如下：

打开声音的音频文件，将时间粒度调节到预设时间范围；

监测声音的音频文件波形，计算预设时间范围内的声音平均分贝值；

根据声音平均分贝值确定声音能量的大小，当声音能量小于预设声音平均分贝阈值时，获得一个声音间隔；

当一段时间内统计的声音间隔次数超过一定次数时，确定声音为说话模式；或

当一段时间内统计的时间相邻一小段时间声音能量的比值超过一个阈值的次数时，确定声音为说话模式。

优选地，说话模式的概率通过以下公式表示：P＝W₁P₁+W₂P₂；

其中，P为说话模式概率，P₁为时间间隔次数影响的说话模式概率，W₁为P₁所占权重，P₂为声音能量比值超过阈值次数影响的说话模式概率，W₂为P₂所占权重；预设P₀为预设说话模式概率阈值，比较P与P₀的关系，判断当前是说话模式，还是唱歌模式。

本发明的有益效果在于：区别于目前的直播系统，增加了对于音频处理的环节之后，在直播过程中，系统会自动识别麦克风的音频采集内容，自动判断是说话还是唱歌，提高用户的使用感受。

附图说明

图1为本发明实施例提供的一种基于浏览器的音频/视频直播方法流程示意图。

图2为本发明实施例提供的一种基于浏览器的音频/视频直播系统结构示意图。

图3为本发明实施例提供的一种音频处理方法的流程示意图。

具体实施方式

下面通过实施例，对本发明的技术方案做进一步的详细描述。

图1为基于浏览器的音频/视频直播方法流程图。如图1所示，该方法包括以下步骤：

步骤110，安装于用户设备上的软件，利用TCP方式建立与浏览器之间的本地socket通信；

步骤121，对用户设备所装载的实体摄像头和用户设备上所安装的虚拟摄像头按照浏览器传来的具体图像参数进行图像捕获，并将捕获到的图像根据图像帧加入到图像帧队列；图像帧加入图像帧队列过程中，使用CLSID_NullRenderer类型的图像渲染过滤器以避免用户设备内没有相应的转码过滤器而造成的连接捕获源过滤器和图像渲染过滤器时失败；利用DirectShow进行图像捕获时，ISamPleGrabber图像回调接口在调用SetMediaTyPe设置图像格式失败时，主动更换为其他图像格式；将捕捉到的图像统一转换成YUV420P格式；按照浏览器传来的图像编码参数对YUV420P格式图像进行h264编码；

图3为音频处理方法的流程图。如图3所示，该方法包括以下步骤：

步骤310，用Adobe Audition软件打开音频文件，将时间粒度调节到预设时间范围，如5ms左右。

步骤320，监测声音的音频文件波形，计算预设时间范围内的声音平均分贝值；

歌曲的音频文件波形是连续的，说话的音频文件波形是会出现波形隔断的，这意味着我们可以用20*log(ValOfInputAudioSample)计算一小段时间内(例如5ms)的声音平均分贝值去反映声音能量的大小，当声音能量小于预设声音平均分贝阈值(例如-50DB)时，获得一个声音间隔；

当一段时间(例如5s)内统计的声音间隔次数超过一定次数(例如150次)时，确定声音为说话模式；

或监测声音的音频文件波形，计算预设时间范围内的声音平均分贝值；

相邻时间段(例如5ms)唱歌时的声音波形是比较平滑的，在相邻时间段(例如5ms)说话时波形起伏是很大的，当一段时间(例如5s)内统计的时间相邻一小段时间声音能量的比值超过一个阈值(例如3)的次数(例如100)时，确定声音为说话模式。

步骤330，根据以上两点结合，说话模式的概率通过以下公式表示：P＝W₁P₁+W₂P₂；

其中，P为说话模式概率，P₁为时间间隔次数影响的说话模式概率，W₁为P₁所占权重(例如0.5)，P₂为声音能量比值超过阈值次数影响的说话模式概率，W₂为P₂所占权重(例如0.5)。

步骤340，预设P₀为预设说话模式概率阈值(例如0.5)，比较P与P₀的关系，判断当前是说话模式，还是唱歌模式。

步骤122，按照浏览器传来的音频捕获参数调用Windows Core API对用户设备所装载的麦克风设备进行音频采集，对采集到的音频样本按预设要求进行重采样并转换为指定的采样率和通道数，进而加入到音频帧队列；对音频帧队列中的音频帧里的音频数据进行声音特征分析；声音特征分析用以区分当前声音是说话模式还是唱歌模式；根据音频数据的波形与预设阈值的关系进行判断；按照浏览器传来的音频编码参数对音频进行aac编码或是mp3编码；

步骤121于步骤122同时进行；

步骤130，丢弃超时的音频帧，保证音频帧与图像帧同步；

步骤140，将同步后的音频帧与图像帧按RTMP协议进行打包和发送；

步骤150，打包和发送过程中，当网络发生丢包，根据预设阈值划分网络环境状态，重新设定h264参数以适配不同网络环境；

步骤160，实时检测音频/视频直播方法过程中是否被意外终止；如果是，将其自动启动，并且提示开机自动启动功能；

步骤210，并将同步的音频帧于图像帧按照标准mp4文件格式保存mp4文件至用户设备上。

本发明实施例采用了基于浏览器的插件策略。一键安装之后可以非常方便地在后台自启动并且会准备地相应来自浏览器的开始推流、停止推流、切换CDN、报告当前状态、断网重连指令，内部模块自动协同工作，真正做到一条命令实现直播的需要。

相应地，本发明实施例还提供了一种基于浏览器的音频/视频直播系统。图2为本发明实施例提供的一种基于浏览器的音频/视频直播系统结构示意图。如图2所示，该系统包括：

通讯模块10，利用TCP方式建立与用户设备上的浏览器之间的本地socket通信，接收浏览器开始推流、停止推流、切换CDN、报告当前状态、断网重连指令而启用相应功能模块；

图像采集模块21，利用DirectShow对用户设备所装载的实体摄像头和用户设备上所安装的虚拟摄像头按照浏览器传来的具体图像参数进行图像捕获，并将捕获到的图像根据图像帧加入到图像帧队列，其中在创建图表的过程中使用CLSID_NullRenderer类型的图像渲染过滤器以避免用户设备内没有相应的转码过滤器而造成的连接捕获源过滤器和图像渲染过滤器时失败，ISamPleGrabber图像回调接口在调用SetMediaTyPe设置图像格式失败时，主动更换为其他图像格式；

图像处理模块22，用于将图像采集模块20捕捉到的图像统一转换成YUV420P格式；

图像编码模块23，用于按照浏览器传来的图像编码参数对YUV420P格式图像进行h264编码；

音频采集模块31，用于按照浏览器传来的音频捕获参数调用Windows Core API对用户设备所装载的麦克风设备进行音频采集，对采集到的音频样本按预设要求进行重采样并转换为指定的采样率和通道数，进而加入到音频帧队列；

音频处理模块32，用于对音频帧队列中的音频帧里的音频数据进行声音特征分析，声音特征分析用以区分当前声音是说话模式还是唱歌模式；根据音频数据的波形与预设阈值的关系进行判断；

具体地，用Adobe Audition软件打开音频文件，将时间粒度调节到预设时间范围，如5ms左右。监测声音的音频文件波形，计算预设时间范围内的声音平均分贝值；歌曲的音频文件波形是连续的，说话的音频文件波形是会出现波形隔断的，这意味着我们可以用20*log(ValOfInputAudioSample)计算一小段时间内(例如5ms)的声音平均分贝值去反映声音能量的大小，当声音能量小于预设声音平均分贝阈值(例如-50DB)时，获得一个声音间隔；当一段时间(例如5s)内统计的声音间隔次数超过一定次数(例如150次)时，确定声音为说话模式；或监测声音的音频文件波形，计算预设时间范围内的声音平均分贝值；相邻时间段(例如5ms)唱歌时的声音波形是比较平滑的，在相邻时间段(例如5ms)说话时波形起伏是很大的，当一段时间(例如5s)内统计的时间相邻一小段时间声音能量的比值超过一个阈值(例如3)的次数(例如100)时，确定声音为说话模式。根据以上两点结合，说话模式的概率通过以下公式表示：P＝W₁P₁+W₂P₂；其中，P为说话模式概率，P₁为时间间隔次数影响的说话模式概率，W₁为P₁所占权重(例如0.5)，P₂为声音能量比值超过阈值次数影响的说话模式概率，W₂为P₂所占权重(例如0.5)。预设P₀为预设说话模式概率阈值(例如0.5)，比较P与P₀的关系，判断当前是说话模式，还是唱歌模式。

音视编码模块33，用于按照浏览器传来的音频编码参数对音频进行aac编码或是mp3编码；

音频/视频同步模块40，用于丢弃超时的音频帧，保证音频帧与图像帧同步；

推流模块50，用于将同步后的音频/视频按RTMP协议进行打包和发送。

监控模块60，用于实时检测所述音频/视频直播系统工作过程中是否被意外终止；如果是，将其自动启动，并且提示开机自动启动功能。

网络监控模块70，打包和发送过程中，当网络发生丢包，根据预设阈值划分网络环境状态，重新设定h264参数以适配不同网络环境；

在RTMP发送数据包循环线程中从待发送的音视频数据队列中判断队列头与队列尾时间戳的差值，该值可反应待发送数据包的积压情况，当该值超过一个阈值(例如500ms)时可以从队列中丢弃与队列尾时间差超过该阈值的数据包，同时计下丢弃数据包的个数，当一段时间内(例如20s)丢包数≤n₁时认为网络状况极好，当n₁<丢包数≤n₂时认为网络状况一般，当n₂≤丢包数时认为网络状况很差，根据不同网络状况重新设置x264_param_t.rc.i_rc_method，当网络良好由好到差时可以分别设置为X264_RC_CQP、X264_RC_CRF、X264_RC_ABR；x264_param_t.rc.i_bitrate、x264_param_t.rc.i_vbv_max_bitrate、x264_param_t.rc.i_vbv_buffer_size也可依次降低；x264_param_t.rc.i_keyint_max可以依次增大。

视频保存模块80，并将同步的音频帧于图像帧按照标准mp4文件格式保存至用户设备上的mp4文件格式。

本发明实施例提供了一种可用于直播的音频处理方法。在直播过程中，增加了对于音频处理的环节之后，系统会自动识别麦克风的音频采集内容，自动判断是说话还是唱歌，提高用户的使用感受。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，包括以下步骤：

打开声音的音频文件，将时间粒度调节到第一预设时间范围；

监测所述声音的音频文件波形，计算第一预设时间范围内的声音平均分贝值；

根据所述声音平均分贝值确定声音能量的大小，当所述声音能量小于预设声音平均分贝阈值时，获得一个声音间隔；

当第二预设时间范围内统计的声音间隔次数超过预定次数时，确定所述声音为说话模式；或

根据所述声音平均分贝值确定声音能量的大小；当第二预设时间范围内统计的，根据第一预设时间范围确定的相邻时间段的声音能量的比值超过预定阈值的次数,超过预定次数时，确定所述声音为说话模式。