CN111049997B

CN111049997B - 电话背景音乐检测模型方法、系统、设备及介质

Info

Publication number: CN111049997B
Application number: CN201911358912.5A
Authority: CN
Inventors: 郝竹林; 罗超; 胡泓; 王俊彬
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2021-06-11
Anticipated expiration: 2039-12-25
Also published as: CN111049997A

Abstract

本发明公开了一种电话背景音乐检测模型、方法、系统、设备及介质，其中电话背景音乐检测模型的输入层用于接收电话背景音乐的帧信息并对帧信息进行特征提取得到预设维度的特征；音频CNN层用于通过每一路一维卷积层分别对预设维度的特征进行卷积计算并得到每一路一维卷积层对应的第一特征数据；拼接层用于对第一特征数据进行连接得到第二特征数据；多层卷积层用于对第二特征数据进行逐层卷积计算得到第三特征数据；全连接层用于根据第三特征数据得到帧信息的概率；输出层用于根据概率得到是否为电话背景音乐的判断结果。电话背景音乐检测模型可快速准确的对电话背景音乐的声音内容的进行检测，提高了电话背景音乐检测模型的泛化能力。

Description

电话背景音乐检测模型方法、系统、设备及介质

技术领域

本发明涉及语音算法领域，尤其涉及一种电话背景音乐检测模型方法、系统、设备及介质。

背景技术

在OTA(在线旅游)行业中，当OTA智能客服或者人工客服通过电话实时的和客人、企业或酒店方进行电话语音沟通时，客人、企业或酒店方如果设置有自动回应的铃声、或者提前录制好的回答系统录音、等待的滴滴声、欢迎语、任务型按键流程录音、广告以及英文发音广告等含有广告背景音乐的声音内容时，智能客服会将广告背景音乐的声音理解为正常的发音内容或视为正常对话而直接作出回应，导致误答；而人工客服则需要一直等待直到录音结束而不能进行其他事情，导致工作效率低的问题。

对广告背景音乐的检测目前主流的方法主要是利用和设计各种传统语音特征来进行广告背景音乐检测，目前较为流行的算法有：

1)用梅尔倒谱特征、瓶颈特征和短时能量等结合的特征信息匹配方法，基于该方法，在单一场景下的效果较好，该方法要求每个新的广告背景音乐都需要提供一种新的信息匹配和匹配阈值，设计逻辑较为复杂，且每个场景下的阈值较难统一控制；

2)用短时能量、过零率、谱减法等结合的方法设计语音联合特征，再结合传统机器学习方法，基于该方法，在信噪比比较高的单一条件环境下效果比较好，但是在低采样率8kHz(千赫兹)的OTA电话场景中，广告背景音乐定义的类型较为复杂，如等待的滴滴声、酒店欢迎语、任务型按键流程录音、酒店广告以及英文发音广告等都属于广告背景音乐，且每个酒店都具有个性化，较难提供泛化功能。

对于现有的在OTA行业中面对低采样率8kHz的电话广告背景音乐检测方法，主要存在的问题在于：

1)OTA行业中的酒店场景个性化较为多样化，每个酒店的广告背景音乐都不太一致；

2)OTA环境下的语音信号是低采样率8kHz；

3)OTA智能客服通常面对的是千万级别量的语音客服请求和应答，要求广告背景音乐检测算法耗时较快，不适合采用过于复杂的算法。

基于此，现有的电话广告背景音乐检测方法，无法解决现有的OTA行业智能电话面对广告背景音乐会误答、人工客服在面对电话广告背景音乐时需等待而导致工作效率低的问题。

发明内容

本发明要解决的技术问题是为了克服现有技术中OTA行业智能电话面对电话背景音乐会产生误回答以及人工客服在面对电话广告背景音乐时需等待而导致工作效率低的问题的缺陷，提供一种电话背景音乐检测模型方法、系统、设备及介质。

本发明是通过下述技术方案来解决上述技术问题：

一种电话背景音乐检测模型，所述电话背景音乐检测模型包括输入层、音频CNN层、拼接层、卷积层、全连接层和输出层；

所述输入层用于接收电话背景音乐的帧信息并对所述帧信息进行特征提取得到预设维度的特征；

所述音频CNN层包括若干路相并行的一维卷积层，所述音频CNN层用于通过所述一维卷积层分别对所述预设维度的特征进行卷积计算并得到每一路所述一维卷积层对应的第一特征数据；；

所述拼接层用于对每一路所述一维卷积层对应的所述第一特征数据进行连接得到第二特征数据；

所述卷积层用于对所述第二特征数据进行卷积计算得到第三特征数据；

所述全连接层用于根据所述第三特征数据得到所述帧信息的概率；

所述输出层用于根据所述概率得到是否为电话背景音乐的判断结果。

优选地，所述音频CNN层还包括第一池化层和Flatten层，所述第一池化层连接于所述一维卷积层的尾部，所述Flatten层连接于所述第一池化层的尾部；所述第一池化层用于对所述一维卷积层对所述预设维度的特征进行卷积计算得到的结果进行池化；所述Flatten层用于对所述池化的结果进行压平得到所述第一特征数据；

和/或，

所述卷积层包括多层二维卷积层和第二池化层，所述第二池化层设置于每层所述二维卷积层的尾部，所述多层二维卷积层用于对所述第二特征数据进行逐层卷积计算，所述第二池化层用于对逐层卷积计算的结果进行池化得到所述第三特征数据；

和/或，

所述全连接层包括随机失活层和多层全连接网络层，所述随机失活层设置于所述多层全连接网络层的相邻的两层之间。

一种电话背景音乐检测方法，所述电话背景音乐检测方法应用如上所述的电话背景音乐检测模型实现，所述电话背景音乐检测方法包括：

对输入电话语音进行静音切割得到音频片段；

对所述音频片段进行分帧得到对应的帧信息；

将所述帧信息输入至所述电话背景音乐检测模型得到所述判断结果。

优选地，所述将所述帧信息输入至所述电话背景音乐检测模型得到所述判断结果的步骤之前还包括：

对所述帧信息进行过滤得到有效的所述帧信息；

将所述有效的帧信息输入至所述电话背景音乐检测模型。

优选地，所述对所述帧信息进行过滤得到有效的所述帧信息的步骤包括：

对所述帧信息作预加重处理；

对预加重后的所述帧信息放大；

对放大后的所述帧信息进行能量计算得到对应的帧能量；

根据所述帧能量得到有效的所述帧信息。

优选地，所述根据所述帧能量得到有效的所述帧信息的步骤包括：

设置预设阈值能量；

判断所述帧能量是否大于所述预设阈值能量，若判断结果为是，则确定所述帧能量对应的所述帧信息为有效的所述帧信息。

优选地，所述电话背景音乐检测方法还包括对所述电话背景音乐检测模型进行训练的步骤，所述对所述电话背景音乐检测模型进行训练的步骤包括：

分别设置所述输入层、所述音频CNN层、所述拼接层、所述卷积层、所述全连接层的参数值；

设置损失函数和优化方法；

利用样本音频片段作为输入；

根据所述样本音频片段设置是否为电话背景音乐的标签，将所述标签作为输出；

根据所述损失函数和所述优化方法对所述电话背景音乐检测模型进行迭代训练。

优选地，分别设置所述输入层、所述音频CNN层、所述拼接层、所述卷积层、所述全连接层的参数值的步骤包括：

根据所述帧信息设置所述输入层的预设维度的值；

分别设置所述音频CNN层中所述一维卷积层的卷积核尺寸、滤波器数据；

分别设置所述音频CNN层中第一池化层的尺寸；

分别设置所述卷积层中每层二维卷积层的参数值；

当所述全连接层包括随机失活层和多层全连接网络层时，分别设置所述全连接层中所述多层全连接网络层的维度，以及随机失活层的参数值。

一种电话背景音乐检测系统，所述电话背景音乐检测系统应用如上所述的电话背景音乐检测模型实现，所述电话背景音乐检测系统包括切割模块、分帧模块和预测模块；

所述切割模块用于对输入电话语音进行静音切割得到音频片段；

所述分帧模块用于对所述音频片段进行分帧得到对应的帧信息；

所述预测模块用于将所述帧信息输入至所述电话背景音乐检测模型得到所述判断结果。

优选地，所述电话背景音乐检测系统还包括预处理模块，所述预处理模块用于对所述帧信息进行过滤得到有效的所述帧信息，并将所述有效的帧信息输入至所述电话背景音乐检测模型。

优选地，所述预处理模块还用于对所述帧信息作预加重处理，以及对预加重后的所述帧信息放大；

所述预处理模块还用于对放大后的所述帧信息进行能量计算得到对应的帧能量，并根据所述帧能量得到有效的所述帧信息。

优选地，所述预处理模块还用于设置预设阈值能量，以及判断所述帧能量是否大于所述预设阈值能量，若判断结果为是，则确定所述帧能量对应的所述帧信息为有效的所述帧信息。

优选地，所述电话背景音乐检测系统还包括训练模块；

所述训练模块用于分别设置所述输入层、所述音频CNN层、所述拼接层、所述卷积层、所述全连接层的参数值；

还用于设置损失函数和优化方法；

还用于利用样本音频片段作为输入；

还用于根据所述样本音频片段设置是否为电话背景音乐的标签，将所述标签作为输出；

还用于根据所述损失函数和所述优化方法对所述电话背景音乐检测模型进行迭代训练。

优选地，所述训练模块还用于根据所述帧信息设置所述输入层的预设维度的值；

所述训练模块还用于分别设置所述音频CNN层中所述一维卷积层的卷积核尺寸、滤波器数据；

所述训练模块还用于分别设置所述音频CNN层中第一池化层的尺寸；

所述训练模块还用于分别设置所述卷积层中每层二维卷积层的参数值；

当所述全连接层包括随机失活层和多层全连接网络层时，所述训练模块还用于分别设置所述全连接层中所述多层全连接网络层的维度，以及随机失活层的参数值。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的电话背景音乐检测方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的电话背景音乐检测方法的步骤。

本发明的积极进步效果在于：

本发明的电话背景音乐检测模型通过其输入层、音频CNN层、拼接层、卷积层、全连接层和输出层，可识别OTA行业特有的酒店方或客人方一般有的自动回应的铃声、酒店提前录制好的回答系统录音、等待的滴滴声、酒店欢迎语、任务型按键流程录音、酒店广告以及英文发音广告等这种含有广告背景音乐的声音内容，提高了泛化能力，通过电话背景音乐检测模型对电话背景音乐的检测，可应用于OTA行业中，使得智能语音客服可智能应对广告背景音乐以及人工客服不再需要一直等广告背景音乐结束才能进行接听，提高了工作效率，实现智能客服的智能理解和人工客服灵活的作出电话回复反馈和响应。

附图说明

图1为本发明的实施例1的电话背景音乐检测模型的模块示意图。

图2为本发明的实施例2的电话背景音乐检测方法的流程图。

图3为本发明的实施例2的电话背景音乐检测方法的步骤13’的流程图。

图4为本发明的实施例2的电话背景音乐检测方法的步骤13”的流程图。

图5为本发明的实施例2的电话背景音乐检测方法的步骤131”的流程图。

图6为本发明的实施例3的电话背景音乐检测系统的模块示意图。

图7为本发明的实施例4提供的一种电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种电话背景音乐检测模型，如图1所示，电话背景音乐检测模型包括输入层1、音频CNN层2、拼接层3、卷积层4、全连接层5和输出层6。

输入层1用于接收电话背景音乐的帧信息，并对帧信息进行特征提取得到预设维度的特征。

音频CNN层2包括若干路相并行的一维卷积层21、第一池化层22和Flatten层23，音频CNN层2用于通过每一路一维卷积层21分别对预设维度的特征进行卷积计算并得到每一路一维卷积层21对应的第一特征数据；第一池化层22连接于一维卷积层21的尾部，Flatten层23连接于第一池化层22的尾部；第一池化层22用于对一维卷积层21对预设维度的特征进行卷积计算得到的结果进行池化；Flatten层23用于对池化的结果进行Flatten得到第一特征数据。

拼接层3用于对每一路一维卷积层对应的第一特征数据进行连接得到第二特征数据；

卷积层4包括多个二维卷积层41和第二池化层42，二维卷积层41用于对第二特征数据进行逐层卷积计算得到第三特征数据；多层卷积层中的每层卷积层41尾部连接有第二池化层42，第二池化层42用于对逐层卷积计算的结果进行池化得到所述第三特征数据。

全连接层5用于根据第三特征数据得到帧信息的概率。

全连接层5包括随机失活层Dropout层52和多层全连接网络层即Dense层51，随机失活层52设置于多层Dense层51的相邻的两层之间。

输出层6用于根据概率得到是否为电话背景音乐的判断结果。

本实施例的电话背景音乐检测模型通过设置输入层、音频CNN层、拼接层、卷积层、全连接层和输出层，电话背景音乐检测模型可快速准确的对客人或酒店方有自动回应的铃声、酒店提前录制好的回答系统录音、等待的滴滴声、酒店欢迎语、任务型按键流程录音、酒店广告以及英文发音广告等这种含有广告背景音乐的声音内容的进行检测，提高了泛化能力。

实施例2

本实施例提供一种电话背景音乐检测方法，电话背景音乐检测方法应用实施例1中的电话背景音乐检测模型实现，如图2所示，电话背景音乐检测方法包括：

步骤11、对输入电话语音进行静音切割得到音频片段；

步骤12、对音频片段进行分帧得到对应的帧信息；

步骤13、将帧信息输入至电话背景音乐检测模型得到判断结果。

当OTA智能客服通过电话实时和客人或酒店方进行电话语音沟通时，客人或酒店方有自动回应的铃声、酒店提前录制好的回答系统录音、等待的滴滴声、酒店欢迎语、任务型按键流程录音、酒店广告以及英文发音广告等这种含有广告背景音乐的声音内容。但是该声音内容的录音中，会存在一些如轻微语气的停顿等，这些声音内容均不属于定义的广告背景音乐，同时，在标注广告背景音乐时也较难标注，在真实生产中却会碰到该种声音片段。因此，需要先需要将这些声音片段进行过滤掉，将真实的有效的声音片段进行背景音乐模型检测。因此，在步骤13之前还可以设计过滤机制的步骤13’。

如图3所示，步骤13’包括：

步骤131’、对帧信息进行过滤得到有效的帧信息；

步骤132’、对帧信息作预加重处理；

步骤133’、对预加重后的帧信息放大；

步骤134’、对放大后的帧信息进行能量计算得到对应的帧能量；

步骤135’、根据帧能量得到有效的帧信息。

具体地，步骤135’包括：

设置预设阈值能量；

判断帧能量是否大于预设阈值能量，若判断结果为是，则确定帧能量对应的帧信息为有效的帧信息。

步骤13包括：

将有效的帧信息输入至电话背景音乐检测模型。

本实施例设计的一种信息帧过滤机制，具体操作步骤如下：

Step 1:对传入的音频片段进行分帧，要实现电话背景音乐检测模处理数据流程的耗时短的目标，而且电话背景音乐是较长时间处于背景音乐状态的声音内容的特点，设计的帧长可以比MFCC(梅尔频率倒谱系数)提取特征的常规帧长25ms(毫秒)长，比如设计帧长35-60ms，可根据具体的使用场景灵活设定具体的帧长，在此不作具体的限定。本实施例中设计帧长为50ms，帧移25ms，比MFCC(梅尔频率倒谱系数)提取特征的帧长常规25ms多一倍，然后对每帧的整型数据做小数化，计算机是用二进制表示的所以整型数据范围是从-32768到32767，因此把每帧的整型数据除以32767转化为小数。

Step 2:对每一帧做预加重，预加重公式如下：

w(t)＝w(t)-0.97*w(t-1)；

Step 3:由于预加重之后权重信息不明显，对预加重后的帧信息进行放大，先将帧信息乘以32767转换为整数，然后再转换为二进制，再将该二进制转换为整数的时候，第二位二进制+1或2，具体公式如下：

value＝byte(w(t)*32767)＜＜8

new_w(t)＝value|((byte(w(t)*32767)＞＞8&0xff)&0xff)

Step 4:将放大后的帧信息，计算其能量，能量公式如下：

E(t)＝∑x²

Step5:当一通电话拨通时，以前20帧的平均能量值作为阈值能量，同时设定一个默认阈值能量，当前20帧平均能量低于该默认阈值能量，则该通电话采用默认阈值能量。

Step6:计算每帧的能量，当每帧能量超过阈值能量，则设定该帧为有效帧。

通过以上步骤，会将空的帧信息作为无效帧过滤掉，有声音内容的信息帧作为有效帧将会用于区分正、负样本，进入下一阶段的电话背景音乐检测模型的数据预处理、训练阶段和线上生产的预测阶段。

电话背景音乐检测方法还包括对电话背景音乐检测模型进行训练的步骤13”，步骤13”设置于步骤13之前，如图4所示，具体步骤包括：

步骤131”、分别设置输入层、音频CNN层、拼接层、卷积层、全连接层的参数值；

如图5所示，步骤131”包括：

步骤1311”、根据帧信息设置输入层的预设维度的值；

步骤1312”、分别设置音频CNN层中一维卷积层的卷积核尺寸、滤波器数据；

步骤1313”、分别设置音频CNN层中池化层的尺寸；

步骤1314”、分别设置多层卷积层中每层卷积层的参数值；

步骤1315”、分别设置全连接层中多层全连接网络层的维度，以及随机失活层的参数值。

步骤132”、设置损失函数和优化方法；

步骤133”、利用样本音频片段作为输入；

步骤134”、根据样本音频片段设置是否为电话背景音乐的标签，将标签作为输出；

步骤135”、根据损失函数和优化方法对电话背景音乐检测模型进行迭代训练。

本实施例中设置电话的背景音乐深度学习模型的音频的帧长为50ms，帧移位25ms，将每帧的帧信息使用语音信号中的原始语谱图特征提取方法进行特征抽取，假设将特征维度大小设置为(128,1)，为达到充分考虑相邻帧的上下文信息，使用当前帧的帧信息再加其左、右相邻两帧共三帧的帧信息作为三通道联合输入，因此设计网络输入尺寸为(128,3,)，本实施例中设计为三通道，通道数可根据实际情况进行调整设计，在此不作具体限定。

在电话场景下的音频信息有两个域：时域和频域，本实施例中若干路相并行的一维卷积层采用三路，设计三路分别对应的三个尺度(尺度kenerl size(核尺寸)分别为1、2、3)的一维卷积，滤波器数量均设置为100，每个一维卷积后再紧跟一个一维池化层，一维池化层的size(尺寸)设置为5-kernel size+1，再将池化层进行Flatten(压平)。用了三个不同尺度的这样的结构之后，将他们结果进行concat(连接)。concat之后，两层卷积层的卷积大小分别设置为(3x3x128和3x3x256)，两层全连接网络层的维度均为512，在两层全连接网络层之间的随机失活层设置为0.2，最后接一个维度为512的全连接层，以区分是否是电话背景帧的概率。

对于一帧的帧信息，电话背景音乐深度学习模型设计两个标签，分别为电话背景音乐帧、不是电话告背景音乐帧这两个标签。在电话背景音乐深度学习模型训练阶段，可将学习率初始化为0.0001，学习衰减系数设计为0.000001，学习损失函数设置为二分类交叉熵，也可以选用其他常用的损失函数。

在提升模型数据准确率上，采用模型对数据迭代的方法，可以先采用较粗的样本音频数据集建立一个模型，再利用该模型对已有的训练测试数据预测出整段音频的每帧的预测结果，将预测不正确的帧记录出，然后计算正确的有效帧记录数占总有效帧记录数的占比作为模型检测准确率：

电话背景音乐识别正确率＝1-不正确的帧记录数/总有效帧记录数。

可将模型检测准确率在预设阈值比如说30％以下的进行不断的人工修整，修整之后，再重新加入到训练集中训练模型。继续按照上面步骤，再以低于预设阈值比如20％或者10％作修整。

本实施例利用电话背景音乐检测模型对电话背景音乐的检测，可应用于OTA行业中，实现智能语音客服智能应对广告背景音乐以及人工客服不再需要一直等广告背景音乐结束才能进行接听，提高了工作效率，实现智能客服的智能理解和人工客服灵活的作出电话回复反馈和响应。采用信息帧过滤方法保证送入电话背景音乐检测模型检测的信息帧是有效的信息帧，而不是空白帧，在训练阶段尽可能保证了作为电话背景音乐的音频段的正样本，以及作为的实际的通话音频的负样本都不会受空白帧的影响，让真正的有内容的有效的音频帧信息进入检测模型，在实际的生产预测阶段也可能会大量存在真实人声出现停顿、轻微颤抖等情况的空白帧，通过帧信息的过滤方法筛选出有效帧的方式，可大大提高电话背景音乐检测模型检测的准确率和召回率。将帧信息的过滤方法和电话背景音乐检测模型结合，并且设置比常规的帧长设定值较长的帧长和帧移，也降低了电话背景音乐模型检测的耗时，减轻了运行电话背景音乐模型的服务器的负载。

实施例3

本实施例提供一种电话背景音乐检测系统，电话背景音乐检测系统应用实施例1中的电话背景音乐检测模型实现，如图6所示，电话背景音乐检测系统包括切割模块201、分帧模块202、预处理模块203、训练模块204和预测模块205；

切割模块201用于对输入电话语音进行静音切割得到音频片段。

分帧模块202用于对音频片段进行分帧得到对应的帧信息。

当OTA智能客服通过电话实时和客人或酒店方进行电话语音沟通时，客人或酒店方有自动回应的铃声、酒店提前录制好的回答系统录音、等待的滴滴声、酒店欢迎语、任务型按键流程录音、酒店广告以及英文发音广告等这种含有广告背景音乐的声音内容。但是该声音内容的录音中，会存在一些如轻微语气的停顿等，这些声音内容均不属于定义的电话背景音乐，同时，在标注电话背景音乐时也较难标注，在真实生产中却会碰到该种声音片段。因此，需要先需要应用预处理模块203将这些声音片段进行过滤掉，将真实的有效的声音片段进行背景音乐模型检测。

预处理模块203用于对帧信息进行过滤得到有效的帧信息，并将有效的帧信息输入至电话背景音乐检测模型。

预处理模块203还用于对帧信息作预加重处理，以及对预加重后的帧信息放大；

预处理模块203还用于对放大后的帧信息进行能量计算得到对应的帧能量，并根据帧能量得到有效的帧信息。

预处理模块203还用于设置预设阈值能量，以及判断帧能量是否大于预设阈值能量，若判断结果为是，则确定帧能量对应的帧信息为有效的帧信息。

训练模块204用于分别设置输入层、音频CNN层、拼接层、卷积层、全连接层的参数值；

训练模块204还用于设置损失函数和优化方法；

训练模块204还用于利用样本音频片段作为输入；

训练模块204还用于根据样本音频片段设置是否为电话背景音乐的标签，将标签作为输出；

还用于根据损失函数和优化方法对电话背景音乐检测模型进行迭代训练。

训练模块204还用于根据帧信息设置输入层的预设维度的值；

训练模块204还用于分别设置音频CNN层中一维卷积层的卷积核尺寸、滤波器数据；

训练模块204还用于分别设置音频CNN层中池化层的尺寸；

训练模块204还用于分别设置多层卷积层中每层卷积层的参数值；

训练模块204还用于分别设置全连接层中多层全连接层的维度，以及随机失活层的参数值。

本实施例设计的一种信息帧过滤机制，具体操作步骤如下：

Step 2:对每一帧做预加重，预加重公式如下：

w(t)＝w(t)-0.97*w(t-1)；

value＝byte(w(t)*32767)＜＜8

new_w(t)＝value|((byte(w(t)*32767)＞＞8&0xff)&0xff)

Step 4:将放大后的帧信息，计算其能量，能量公式如下：

E(t)＝∑x²

预测模块205用于将帧信息输入至电话背景音乐检测模型得到判断结果。

本实施例中设置电话的背景音乐深度学习模型的音频的帧长为50ms，帧移位25ms，将每帧的帧信息使用语音信号中的原始语谱图方法进行特征抽取，特征维度大小设置为(128,1)，为达到充分考虑相邻帧的上下文信息，使用当前帧的帧信息再加其左、右相邻两帧共三帧的帧信息作为三通道联合输入，因此设计网络输入尺寸为(128,3,)，本实施例中设计为三通道，通道数可根据实际情况进行调整设计，在此不作具体限定。

在电话场景下的音频信息有两个域：时域和频域，本实施例中的设计三个尺度(尺度kenerl size(核尺寸)分别为1、2、3)的一维卷积，滤波器数量均设置为100，每个一维卷积后再紧跟一个一维池化层，一维池化层的size(尺寸)设置为5-kernel size+1，再将池化层进行Flatten(压平)。用了三个不同尺度的这样的结构之后，将他们结果进行concat(连接)。concat之后，两层卷积层的卷积大小分别设置为(3x3x128和3x3x256)，两层全连接网络层的维度均为512，在两层全连接网络层之间的随机失活层设置为0.2，最后接一个维度为512的全连接层，以区分是否是电话背景帧的概率。

对于一帧的帧信息，电话背景音乐深度学习模型设计两个标签，分别为电话背景音乐帧、不是电话背景音乐帧这两个标签。在电话背景音乐深度学习模型训练阶段，可将学习率初始化为0.0001，学习衰减系数设计为0.000001，学习损失函数设置为二分类交叉熵，也可以选用其他常用的损失函数。

实施例4

图7为本发明实施例4提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现实施例2的电话背景音乐检测方法。图7显示的电子设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备50可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备50的组件可以包括但不限于：上述至少一个处理器51、上述至少一个存储器52、连接不同系统组件(包括存储器52和处理器51)的总线53。

总线53包括数据总线、地址总线和控制总线。

存储器52可以包括易失性存储器，例如随机存取存储器(RAM)521和/或高速缓存存储器522，还可以进一步包括只读存储器(ROM)523。

存储器52还可以包括具有一组(至少一个)程序模块524的程序/实用工具525，这样的程序模块524包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器51通过运行存储在存储器52中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例2所提供的电话背景音乐检测方法。

电子设备50也可以与一个或多个外部设备54(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且，模型生成的设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器56通过总线53与模型生成的设备50的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例5

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例2所提供的电话背景音乐检测方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例2的电话背景音乐检测方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种电话背景音乐检测模型，其特征在于，所述电话背景音乐检测模型包括输入层、音频CNN层、拼接层、卷积层、全连接层和输出层；

所述音频CNN层包括若干路相并行的一维卷积层，所述音频CNN层用于通过所述一维卷积层分别对所述预设维度的特征进行卷积计算并得到每一路所述一维卷积层对应的第一特征数据；

所述拼接层用于对所述第一特征数据进行连接得到第二特征数据；

2.如权利要求1所述的电话背景音乐检测模型，其特征在于，所述音频CNN层还包括第一池化层和Flatten层，所述第一池化层连接于所述一维卷积层的尾部，所述Flatten层连接于所述第一池化层的尾部；所述第一池化层用于对所述一维卷积层对所述预设维度的特征进行卷积计算得到的结果进行池化；所述Flatten层用于对所述池化的结果进行压平得到所述第一特征数据；

和/或，

3.一种电话背景音乐检测方法，其特征在于，所述电话背景音乐检测方法应用如权利要求1或2所述的电话背景音乐检测模型实现，所述电话背景音乐检测方法包括：

对输入电话语音进行静音切割得到音频片段；

对所述音频片段进行分帧得到对应的帧信息；

4.如权利要求3所述的电话背景音乐检测方法，其特征在于，所述将所述帧信息输入至所述电话背景音乐检测模型得到所述判断结果的步骤之前还包括：

对所述帧信息进行过滤得到有效的所述帧信息；

将所述有效的帧信息输入至所述电话背景音乐检测模型。

5.如权利要求4所述的电话背景音乐检测方法，其特征在于，所述对所述帧信息进行过滤得到有效的所述帧信息的步骤包括：

对所述帧信息作预加重处理；

对预加重后的所述帧信息放大；

对放大后的所述帧信息进行能量计算得到对应的帧能量；

根据所述帧能量得到有效的所述帧信息。

6.如权利要求5所述的电话背景音乐检测方法，其特征在于，所述根据所述帧能量得到有效的所述帧信息的步骤包括：

设置预设阈值能量；

7.如权利要求3所述的电话背景音乐检测方法，其特征在于，所述电话背景音乐检测方法还包括对所述电话背景音乐检测模型进行训练的步骤，所述对所述电话背景音乐检测模型进行训练的步骤包括：

设置损失函数和优化方法；

利用样本音频片段作为输入；

8.如权利要求7所述的电话背景音乐检测方法，其特征在于，分别设置所述输入层、所述音频CNN层、所述拼接层、所述卷积层、所述全连接层的参数值的步骤包括：

根据所述帧信息设置所述输入层的预设维度的值；

分别设置所述音频CNN层中第一池化层的尺寸；

分别设置所述卷积层中每层二维卷积层的参数值；

9.一种电话背景音乐检测系统，其特征在于，所述电话背景音乐检测系统应用如权利要求1或2所述的电话背景音乐检测模型实现，所述电话背景音乐检测系统包括切割模块、分帧模块和预测模块；

10.如权利要求9所述的电话背景音乐检测系统，其特征在于，所述电话背景音乐检测系统还包括预处理模块，所述预处理模块用于对所述帧信息进行过滤得到有效的所述帧信息，并将所述有效的帧信息输入至所述电话背景音乐检测模型。

11.如权利要求10所述的电话背景音乐检测系统，其特征在于，所述预处理模块还用于对所述帧信息作预加重处理，以及对预加重后的所述帧信息放大；

12.如权利要求11所述的电话背景音乐检测系统，其特征在于，所述预处理模块还用于设置预设阈值能量，以及判断所述帧能量是否大于所述预设阈值能量，若判断结果为是，则确定所述帧能量对应的所述帧信息为有效的所述帧信息。

13.如权利要求9所述的电话背景音乐检测系统，其特征在于，所述电话背景音乐检测系统还包括训练模块；

还用于设置损失函数和优化方法；

还用于利用样本音频片段作为输入；

14.如权利要求13所述的电话背景音乐检测系统，其特征在于，所述训练模块还用于根据所述帧信息设置所述输入层的预设维度的值；

15.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求3-8中任一项所述的电话背景音乐检测方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求3-8中任一项所述的电话背景音乐检测方法的步骤。