CN107465657A

CN107465657A - 直播视频监控方法、存储介质、电子设备及系统

Info

Publication number: CN107465657A
Application number: CN201710483586.5A
Authority: CN
Inventors: 李振华; 张文明; 陈少杰
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2017-06-22
Filing date: 2017-06-22
Publication date: 2017-12-12
Also published as: WO2018233256A1

Abstract

本发明公开了一种直播视频监控方法、存储介质、电子设备、及系统，涉及直播视频监控领域。该方法的步骤为：服务端对直播视频流进行解析得到语音数据信号，服务端通过CEEMDAN对语音数据进行模态分解，得到n阶IMF分量；服务端将n阶IMF分量通过FastICA分离得到m个重构语音信号，1≤m≤n‑2；服务端对所有重构语音信号进行识别，判断是否存在含有不良信息的重构语音信号，若是，将当前直播间进行异常标记；否则将当前直播将进行正常标记。本发明能够显著减少语音数据信号的噪声，以此最大化完美识别直播语音数据，大幅度提高监控精度，为杜绝网络不良信息的传播提供了有力保障。

Description

直播视频监控方法、存储介质、电子设备及系统

技术领域

本发明涉及直播视频监控领域，具体涉及一种直播视频监控方法、存储介质、电子设备、及系统。

背景技术

随着直播行业的快速发展，越来越多的用户喜爱观看网络直播。为了实现避免网络不良信息的传播，直播平台需要对直播视频进行监控。现有的对直播视频进行监控的方法一般为：人工对直播平台中的所有直播间的直播视频，进行随机监控，当监控到某个直播间存在不良信息的语音时，将该直播间标记为重点监控直播间；随后安排人工对重点监控直播间进行全程监控，进而提高监控效率，净化直播内容。

但是，上述对直播视频进行监控的方法存在以下缺陷：

人工监控不仅所需的人力成本较大，而且当直播间数量较多时，每个直播间的直播视频的监控精度较低，进而使得不良信息的直播视频的被发现性较低，无法良好的实现杜绝网络不良信息的传播。

发明内容

针对现有技术中存在的缺陷，本发明解决的技术问题为：如何自动和精准的筛选出具有不良信息的网络直播视频。本发明能够显著减少语音数据信号的噪声，以此最大化完美识别直播语音数据，大幅度提高监控精度，为杜绝网络不良信息的传播提供了有力保障。

为达到以上目的，本发明提供的直播视频监控方法，包括以下步骤：

S1：服务端获取直播间的直播视频地址，根据直播视频地址得到直播视频流，对直播视频流进行解析得到语音数据信号，转到S2；

S2：服务端通过CEEMDAN对语音数据进行模态分解，得到n 阶IMF分量，n≥3，转到S3；

S3：服务端将n阶IMF分量通过FastICA分离得到m个重构语音信号，1≤m≤n-2，转到S4；

S4：服务端对所有重构语音信号进行识别，判断是否存在含有不良信息的重构语音信号，若是，将当前直播间进行异常标记；否则将当前直播将进行正常标记。

本发明提供的存储介质，该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述直播视频监控方法。

本发明提供的电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现上述直播视频监控方法。

本发明提供的直播视频监控系统，包括设置于服务端上的语音信号解析模块、语音信号分解模块、语音信号重组模块和语音信号识别模块；

语音信号解析模块用于：获取直播间的直播视频地址，根据直播视频地址得到直播视频流，对直播视频流进行解析得到语音数据信号，向语音信号分解模块发送语音信号分解信号；

语音信号分解模块用于：收到语音信号分解信号后，通过 CEEMDAN对语音数据进行模态分解，得到n阶IMF分量，n≥3，向语音信号重组模块发送语音信号重组信号；

语音信号重组模块用于：收到语音信号重组信号后，将n阶IMF 分量通过FastICA分离得到m个重构语音信号，1≤m≤n-2，向语音信号识别模块发送语音信号识别信号；

语音信号识别模块用于：收到语音信号识别信号后，对所有重构语音信号进行识别，判断是否存在含有不良信息的重构语音信号，若是，将当前直播间进行异常标记；否则将当前直播将进行正常标记。

与现有技术相比，本发明的优点在于：

通过本发明的S1至S6可知，本发明能够自主研制的算法，对直播语音数据信号进行降噪时，无需事先选定基函数，完全依靠检测信号本身的特征进行模态分解，得到若干独立的IMF分量。因此，本发明能够有效的减少计算成本并克服模态混叠问题，进而显著减少了语音数据信号的噪声，以此最大化完美识别直播语音数据，大幅度提高监控精度，为杜绝网络不良信息的传播提供了有力保障。

在此基础上，本发明实现了自动监控网络直播间，不仅显著降低了人力成本，而且大幅度提升了工作效率。

附图说明

图1为本发明实施例中直播视频监控方法的流程图；

图2为本发明实施例中电子设备的连接框图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

参见图1所示，本发明实施例中的直播视频监控方法，包括以下步骤：

S1：服务端获取直播间的直播视频地址，根据直播视频地址得到直播视频流，对直播视频流进行解析得到语音数据信号，转到S2。

S2：服务端通过CEEMDAN(CEEmpirical Mode DecompositionAN，噪声辅助数据分析方法的进一步改进算法，性能不好的信号经过EMD分解后能够得到一系列由高频到低频排列的IMF，即IMFIntrinsic Mode Function，本征模函数)对语音数据信号进行模态分解，得到n阶IMF分量，n≥3，进而在有效减少计算成本的同时克服模态混叠问题，转到S3。

S2的具体流程为：

S201：对语音数据信号x(t)加入j次高斯白噪声，j为正整数，形成高斯白噪声序列v_j(t)，将v_j(t)作为分解信号后进行EMD分解，得到IMF分量IMF_jn，n代表IMF分量的阶数，转到S202。

通过S201可知，高斯白噪声序列v_j(t)可以表示为：其中r_j为加入不同高斯白噪声的IMF分量的信号分解得出的趋势项。

S202：对IMF_jn进行平均计算，得到CEEMDAN的第一个本征模态函数其中J为正整数，转到S203。

S203：根据计算余量R_n：

转到S204。

S204：将R_n-1+W作为分解信号进行EMD分解，获取EMD分解时的第一个模态E1，W＝ε_nE_n(w_j)，ε_n为常量(ε_n的选择为本领域公知常识)，w_j为0至1之间的高斯白噪声序列，E_n(w_j)为将w_j作为分解信号进行EMD分解后，获取EMD分解时的第n个模态；根据 E1计算模态

转到S205。

S205：将作为后重新执行S203，得到R_n和R_n-1，判断本步骤中的R_n是否无法分解(即R_n极点值是否小于2)，若是，根据本步骤中的R_n和得到IMF分量x(t)：此时S2结束，转到S3；否则根据本步骤中的R_n-1重新执行S204。

通过S201至S205可知，通CEEMDAN加入自适应的高斯白噪声，紧接着计算其特定余量来获取相应的IMF分量，克服了原本 EEMD加入的白噪声会使得分解失去完备性、产生重构误差的问题。

S201和S204中作为分解信号f(t)进行EMD分解的具体流程为：

S2a：对f(t)通过3次样条函数，拟合出信号的极大值包络线e₊(t)；对f(t)通过3次样条函数，拟合出信号的极小值包络线e-(t)；根据e₊(t) 和e_-(t)计算均值包络m_i(t)，m_i(t)＝(e₊(t)+e_-(t))/2；根据f(t)和m_j(t) 得到去掉低频的信号转到S2b。

S2b：判断是否满足IMF的两个条件(即设定值范围)：1、信号的极值点(极大值或极小值)数目和过零点数目相等或最多相差一个；2、由局部极大值构成的上包络线和由局部极小值构成的下包络线的平均值为零；若是，根据和v_j(t)得到去掉高频成分的信号z(t)，转到S2c；否则将作为f(t)后，重新执行S2a。

S2b的实际操作流程为本领域技术人员的常规手段，在此不做赘述。

S2c：判断z(t)是否满足预设标准，预设标准为：z(t)符合以下任意一种情况：z(t)为单调函数、z(t)为常量、z(t)小于预设值；若是，将 z(t)作为IMF分量，否则将z(t)作为f(t)后，重新执行S2a。

当f(t)为S201中的v_j(t)时，IMF_jn为z(t)，当f(t)为S204中的R_n-1 +W时，E1为当f(t)为S204中的w_j时，E_n(w_j)为

S3：服务端将n阶IMF分量通过FastICA(FastIndependent Component Analysis，快速独立成分分析算法)分离得到m个重构语音信号，1≤m≤n-2，以增强语音信号，转到S4。

S3的原理和具体流程为：由于语音信号经过CEEMDAN自适应分解后得到IMF分量的数目无法确定，因此单纯的选取某几阶IMF 分量重构语音信号，可能会产生丢失语音信息的情况。而FastICA是基于高阶统计特性的分析方法，在消除噪声的同时，对其它信号的细节几乎没有破坏，去噪性能也往往要比传统的滤波方法好很多，对高阶统计特性的分析更符合实际。由于一定存在2阶IMF分量分别包含主要的噪声信号和语音信号。因此在无法确定噪声信号和语音信号对应的IMF分量的具体阶数n时，将所有IMF分量分为m组后，对每组IMF分量进行FastICA计算，得到m个重构语音信号，1≤m≤ n-2，每组IMF分量的阶数为m，m+1，m+2，转到S4。

S4：服务端对所有重构语音信号进行识别，判断是否存在含有不良信息的重构语音信号，若是，转到S5；否则转到S6。

S5：服务端将当前直播间进行异常标记，即标记为重点监控直播间，进而使得工作人员对异常标记的直播间进行重点监控，即通过相似度算法判断直播间是否为不良直播间，以达到净化直播内容的目的。

S6：服务端将当前直播将进行正常标记，进而使得工作人员对正常标记的直播间进行随机监控。

在实际使用过程中S5和S6可以在S4中完成，即S4至S6可汇聚为1个步骤。

通过S1至S6可知，本发明实施例能够自主研制的算法，对直播语音数据信号进行降噪时，能够有效的减少计算成本并克服模态混叠问题，进而显著减少了语音数据信号的噪声，以此最大化完美识别直播语音数据，大幅度提高监控精度，为杜绝网络不良信息的传播提供了有力保障。

本发明实施例还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述直播视频监控方法。需要说明的是，所述存储介质包括U盘、移动硬盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

参见图2所示，本发明实施例还提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现上述直播视频监控方法。

本发明实施例提供的直播视频监控系统，包括设置于服务端上的语音信号解析模块、语音信号分解模块、语音信号重组模块和语音信号识别模块。

语音信号解析模块用于：获取直播间的直播视频地址，根据直播视频地址得到直播视频流，对直播视频流进行解析得到语音数据信号，向语音信号分解模块发送语音信号分解信号。

语音信号分解模块用于：收到语音信号分解信号后，通过 CEEMDAN对语音数据进行模态分解，得到n阶IMF分量，n≥3，向语音信号重组模块发送语音信号重组信号。

语音信号分解模块的工作流程包括：

语音信号分解01：对语音数据信号x(t)加入j次高斯白噪声，j 为正整数，形成高斯白噪声序列v_j(t)，将v_j(t)作为分解信号后进行 EMD分解，得到IMF分量IMF_jn，n代表IMF分量的阶数，转到语音信号分解02；

语音信号分解02：根据IMF_ji计算得到本征模态函数其中J为正整数，转到语音信号分解03；

语音信号分解03：根据计算余量R_n：

转到语音信号分解04；

语音信号分解04：将R_n-1+W作为分解信号进行EMD分解，获取EMD分解时的第一个模态E1，W＝ε_nE_n(w_j)，ε_n为常量，w_j为0 至1之间的高斯白噪声序列，E_n(w_j)为将w_j作为分解信号进行EMD 分解后，获取EMD分解时的第n个模态；根据E1计算模态

转到语音信号分解05；

语音信号分解05：将作为后重新执行语音信号分解03，得到R_n和R_n-1；判断本步骤中的R_n是否无法分解，若是，根据本步骤中的R_n和得到IMF分量x(t)：向语音信号重组模块发送语音信号重组信号；否则根据本步骤中的R_n-1重新执行语音信号分解04。

语音信号分解模块将分解信号f(t)进行EMD分解的工作流程包括：

EMD分解a：对f(t)通过3次样条函数，拟合出信号的极大值包络线e₊(t)；对f(t)通过3次样条函数，拟合出信号的极小值包络线e-(t)；根据e₊(t)和e_-(t)计算均值包络m_i(t)，m_i(t)＝(e₊(t)+e_-(t))/2；根据f(t) 和m_j(t)得到去掉低频的信号转到EMD分解b；

EMD分解b：判断是否满足设定值范围，若是，根据和v_j(t) 得到去掉高频成分的信号z(t)，转到EMD分解c；否则将作为f(t)后，重新执行EMD分解a；

EMD分解c：判断z(t)是否满足预设标准，预设标准为：z(t)符合以下任意一种情况：z(t)为单调函数、z(t)为常量、z(t)小于预设值；若是，将z(t)作为IMF分量，否则将z(t)作为f(t)后，重新执行EMD 分解a；

当f(t)为所述语音信号分解01中的v_j(t)时，IMF_jn为z(t)，当f(t) 为所述语音信号分解04中的R_n-1+W时，E1为当f(t)为所述语音信号分解04中的w_j时，E_n(w_j)为

语音信号重组模块用于：收到语音信号重组信号后，将n阶IMF 分量通过FastICA分离得到m个重构语音信号，1≤m≤n-2，向语音信号识别模块发送语音信号识别信号。语音信号重组模块的工作流程包括：将所有IMF分量分为m组后，对每组IMF分量进行FastICA 计算，得到m个重构语音信号，每组IMF分量的阶数为m，m+1， m+2。

需要说明的是：本发明实施例提供的系统在进行模块间通信时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

进一步，本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种直播视频监控方法，其特征在于，该方法包括以下步骤：

S2：服务端通过噪声辅助数据分析方法的进一步改进算法CEEMDAN对语音数据进行模态分解，得到n阶IMF分量，n≥3，转到S3；

2.如权利要求1所述的直播视频监控方法，其特征在于，S2的流程包括：

S201：对语音数据信号x(t)加入j次高斯白噪声，j为正整数，形成高斯白噪声序列v_j(t)，将v_j(t)作为分解信号后进行EMD分解，得到IMF分量IMF_jn，n代表IMF分量的阶数，转到S202；

S202：根据IMF_jn计算得到本征模态函数其中J为正整数，转到S203；

S203：根据计算余量R_n：

转到S204；

S204：将R_n-1+W作为分解信号进行EMD分解，获取EMD分解时的第一个模态E1，W＝ε_nE_n(w_j)，ε_n为常量，w_j为0至1之间的高斯白噪声序列，E_n(w_j)为将w_j作为分解信号进行EMD分解后，获取EMD分解时的第n个模态；根据E1计算模态

转到S205；

S205：将作为后重新执行S203，得到R_n和R_n-1；判断本步骤中的R_n是否无法分解，若是，根据本步骤中的R_n和得到IMF分量x(t)：转到S3；否则根据本步骤中的R_n-1重新执行S204。

3.如权利要求2所述的直播视频监控方法，其特征在于，S201和S204中所述作为分解信号f(t)进行EMD分解的流程包括：

S2a：对f(t)通过3次样条函数，拟合出信号的极大值包络线e₊(t)；对f(t)通过3次样条函数，拟合出信号的极小值包络线e_-(t)；根据e₊(t)和e_-(t)计算均值包络m_i(t)，m_i(t)＝(e₊(t)+e_-(t))/2；根据f(t)和m_j(t)得到去掉低频的信号转到S2b；

S2b：判断是否满足设定值范围，若是，根据和v_j(t)得到去掉高频成分的信号z(t)，转到S2c；否则将作为f(t)后，重新执行S2a；

S2c：判断z(t)是否满足预设标准，预设标准为：z(t)符合以下任意一种情况：z(t)为单调函数、z(t)为常量、z(t)小于预设值；若是，将z(t)作为IMF分量，否则将z(t)作为f(t)后，重新执行S2a；

当f(t)为S201中的v_j(t)时，IMF_jn为z(t)，当f(t)为S204中的R_n-1+W时，E1为当f(t)为S204中的w_j时，E_n(w_j)为

4.如权利要求1至3任一项所述的直播视频监控方法，其特征在于，S3的流程包括：将所有IMF分量分为m组后，对每组IMF分量进行FastICA计算，得到m个重构语音信号，每组IMF分量的阶数为m，m+1，m+2。

5.一种存储介质，该存储介质上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至4任一项所述的方法。

6.一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，其特征在于：处理器执行计算机程序时实现权利要求1至4任一项所述的方法。

7.一种直播视频监控系统，其特征在于，该系统包括设置于服务端上的语音信号解析模块、语音信号分解模块、语音信号重组模块和语音信号识别模块；

语音信号分解模块用于：收到语音信号分解信号后，通过CEEMDAN对语音数据进行模态分解，得到n阶IMF分量，n≥3，向语音信号重组模块发送语音信号重组信号；

语音信号重组模块用于：收到语音信号重组信号后，将n阶IMF分量通过FastICA分离得到m个重构语音信号，1≤m≤n-2，向语音信号识别模块发送语音信号识别信号；

8.如权利要求7所述的直播视频监控系统，其特征在于，所述语音信号分解模块的工作流程包括：

语音信号分解01：对语音数据信号x(t)加入j次高斯白噪声，j为正整数，形成高斯白噪声序列v_j(t)，将v_j(t)作为分解信号后进行EMD分解，得到IMF分量IMF_jn，n代表IMF分量的阶数，转到语音信号分解02；

语音信号分解02：根据IMF_jn计算得到本征模态函数其中J为正整数，转到语音信号分解03；

语音信号分解03：根据计算余量R_n：

转到语音信号分解04；

语音信号分解04：将R_n-1+W作为分解信号进行EMD分解，获取EMD分解时的第一个模态E1，W＝ε_nE_n(w_j)，ε_n为常量，w_j为0至1之间的高斯白噪声序列，E_n(w_j)为将w_j作为分解信号进行EMD分解后，获取EMD分解时的第n个模态；根据E1计算模态

转到语音信号分解05；

9.如权利要求8所述的直播视频监控系统，其特征在于，所述语音信号分解模块将分解信号f(t)进行EMD分解的工作流程包括：

EMD分解a：对f(t)通过3次样条函数，拟合出信号的极大值包络线e₊(t)；对f(t)通过3次样条函数，拟合出信号的极小值包络线e-(t)；根据e₊(t)和e-(t)计算均值包络m_i(t)，m_i(t)＝(e₊(t)+e_-(t))/2；根据f(t)和m_j(t)得到去掉低频的信号转到EMD分解b；

EMD分解b：判断是否满足设定值范围，若是，根据和v_j(t)得到去掉高频成分的信号z(t)，转到EMD分解c；否则将作为f(t)后，重新执行EMD分解a；

EMD分解c：判断z(t)是否满足预设标准，预设标准为：z(t)符合以下任意一种情况：z(t)为单调函数、z(t)为常量、z(t)小于预设值；若是，将z(t)作为IMF分量，否则将z(t)作为f(t)后，重新执行EMD分解a；

当f(t)为所述语音信号分解01中的v_j(t)时，IMF_jn为z(t)，当f(t)为所述语音信号分解04中的R_n-1+W时，E1为当f(t)为所述语音信号分解04中的w_j时，E_n(w_j)为

10.如权利要求7至9任一项所述的直播视频监控系统，其特征在于：所述语音信号重组模块的工作流程包括：将所有IMF分量分为m组后，对每组IMF分量进行FastICA计算，得到m个重构语音信号，每组IMF分量的阶数为m，m+1，m+2。