CN112562654B

CN112562654B - 一种音频分类方法及计算设备

Info

Publication number: CN112562654B
Application number: CN202011404141.1A
Authority: CN
Inventors: 黄萧; 李林; 徐丞申; 刘荣
Original assignee: Tianjin Chezhijia Data Information Technology Co ltd
Current assignee: Tianjin Chezhijia Data Information Technology Co ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2022-11-11
Anticipated expiration: 2040-12-02
Also published as: CN112562654A

Abstract

本发明公开了一种音频分类方法，在计算设备中执行，包括以下步骤：获取回铃音的音频文件；从音频文件中截取出前段音频和后段音频；分别提取前段音频和后段音频的音频特征；将前段音频的音频特征输入预设的第一分类模型，得到第一分类结果；将后段音频的音频特征输入预设的第二分类模型，得到第二分类结果；根据第一分类结果和第二分类结果来确定回铃音所属的类别。本发明一并公开了相应的计算设备。

Description

一种音频分类方法及计算设备

技术领域

本发明涉及音频数据处理技术领域，尤其涉及一种音频分类方法及计算设备。

背景技术

智能外呼机器人通过发起通话模拟真实用户和被叫用户进行语音通话，在代替传统人力外呼上起着重要的作用。目前智能外呼技术发展迅猛，已应用到多个领域。回铃音指的是主叫方(例如智能外呼机器人)拨打电话后，当被叫用户处于被振铃状态时，主叫方接收到的被叫方用户电话传过来的声音。回铃音根据被叫方电话的不同状态呈现不同的形式，例如被叫方关机、信号不佳、停机等。

为了更精准有效地实现智能外呼，需要对未接通电话的回铃音进行自动分类识别，智能外呼机器人会根据不同的类别采取不同的后续决策。例如，对于被叫用户关机、正在通话中、无人接听等情况，机器人可以过段时间后重新发起呼叫；对于被叫号码为空号等情况，机器人可以放弃该号码，不予继续呼叫，或者转入人工处理，以判断是否需要重新呼叫该号码。

因此，对回铃音进行自动分类识别成为亟待解决的技术问题。

发明内容

为此，本发明提供一种音频分类方法及计算设备，以力图解决或至少缓解上面存在的问题。

根据本发明的第一个方面，提供一种音频分类方法，在计算设备中执行，包括：获取回铃音的音频文件；从音频文件中截取出前段音频和后段音频；分别提取前段音频和后段音频的音频特征；将前段音频的音频特征输入预设的第一分类模型，得到第一分类结果；将后段音频的音频特征输入预设的第二分类模型，得到第二分类结果；根据第一分类结果和第二分类结果来确定回铃音所属的类别。

可选地，在根据本发明的音频分类方法中，从音频文件中截取出前段音频和后段音频的步骤包括：从音频文件的起始位置开始向后截取出长度为第一时长的音频片段，作为前段音频；从音频文件的结尾位置开始向前截取出长度为第二时长的音频片段，作为后段音频。

可选地，在根据本发明的音频分类方法中，当音频文件的时长小于等于第一时长时，将音频文件作为前段音频，不截取后段音频。

可选地，在根据本发明的音频分类方法中，第一时长、第二时长均为10秒。

可选地，在根据本发明的音频分类方法中，音频特征为梅尔频率倒谱系数。

可选地，在根据本发明的音频分类方法中，第一分类模型采用已标注类别的回铃音音频文件的前段音频训练得出；所述第二分类模型采用已标注类别的回铃音音频文件的后段音频训练得出。

可选地，在根据本发明的音频分类方法中，回铃音的类别包括：彩铃、嘟嘟声、已关机、已停机、正在通话中、空号、无法接通、无人接听、语音留言。

可选地，在根据本发明的音频分类方法中，根据第一分类结果和第二分类结果来确定回铃音所属的类别的步骤包括：当音频文件的时长小于等于第一时长时，将第一分类结果作为回铃音所属的类别；当音频文件的时长大于第一时长时，对第一分类结果和第二分类结果进行融合，以确定回铃音所属的类别。

可选地，在根据本发明的音频分类方法中，当音频文件的时长大于第一时长时，若第一分类结果不是彩铃或嘟嘟声，则将第一分类结果作为回铃音所属的类别；若第一分类结果是彩铃或嘟嘟声，则将第二分类结果作为回铃音所属的类别。

根据本发明的第二个方面，提供一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，当所述程序指令被所述处理器读取并执行时，使得所述计算设备执行上述音频分类方法。

根据本发明的第三个方面，提供一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行上述音频分类方法。

根据本发明的音频分类方案，从回铃音音频文件中截取出前段音频和后段音频，分别采用第一分类模型、第二分类模型来得出前段音频、后段音频的分类结果，即第一分类结果、第二分类结果，然后综合第一分类结果和第二分类结果来确定回铃音所属的类别。

在本发明的音频分类方案中，通过截取前段音频和后段音频并进行分类识别，避免了对数据量较大的回铃音音频文件整体进行处理，从而降低了识别过程中的存储、计算资源消耗，提高了回铃音分类的性能和效率。

此外，对前段音频和后段音频分别进行分类，并根据二者的分类结果来确定回铃音的类别，可以提高回铃音分类的准确率。经测试，本发明的回铃音分类准确率可达到95％。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的示意图；

图2示出了根据本发明一个实施例的音频分类方法200的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

针对回铃音自动分类识别的问题，本发明提供了一种音频分类方法，能够准确、高效地对回铃音进行分类。

本发明的音频分类方法在计算设备中执行。计算设备可以是任意具有存储和计算能力的设备，其例如可以实现为服务器、工作站等，也可以实现为桌面计算机、笔记本计算机等个人配置的计算机，或者实现为手机、平板电脑、智能可穿戴设备、物联网设备等终端设备，但不限于此。

图1示出了根据本发明一个实施例的计算设备100的示意图。需要说明的是，图1所示的计算设备100仅为一个示例，在实践中，用于实施本发明的音频分类方法的计算设备可以是任意型号的设备，其硬件配置情况可以与图1所示的计算设备100相同，也可以与图1所示的计算设备100不同。实践中用于实施本发明的音频分类方法的计算设备可以对图1所示的计算设备100的硬件组件进行增加或删减，本发明对计算设备的具体硬件配置情况不做限制。

如图1所示，在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。计算设备中的物理内存通常指的是易失性存储器RAM，磁盘中的数据需要加载至物理内存中才能够被处理器104读取。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。操作系统120例如可以是Linux、Windows等，其包括用于处理基本系统服务以及执行依赖于硬件的任务的程序指令。应用122包括用于实现各种用户期望的功能的程序指令，应用122例如可以是浏览器、即时通讯软件、软件开发工具(例如集成开发环境IDE、编译器等)等，但不限于此。当应用122被安装到计算设备100中时，可以向操作系统120添加驱动模块。

在计算设备100启动运行时，处理器104会从存储器106中读取操作系统120的程序指令并执行。应用122运行在操作系统120之上，利用操作系统120以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用122时，应用122会加载至存储器106中，处理器104从存储器106中读取并执行应用122的程序指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在根据本发明的计算设备100中，应用122包括用于执行本发明的音频分类方法200的指令，该指令可以指示处理器104执行本发明的音频分类方法200，以准确、高效地对回铃音进行分类。

图2示出了根据本发明一个实施例的音频分类方法200的流程图。方法200在计算设备(例如前述计算设备100)中执行，用于准确、高效地对回铃音进行分类。如图2所示，方法200始于步骤S210。

在步骤S210中，获取回铃音的音频文件。

需要说明的是，回铃音可以在任意主叫方的呼叫过程中产生，本发明不限制主叫方以及呼叫渠道的类型。例如，主叫方可以是智能外呼机器人，也可以是真实的用户；呼叫渠道例如可以是固定电话、移动电话、网络电话等，但不限于此。

在本说明书中，以智能外呼机器人在呼叫过程中产生的回铃音为例来说明方法200的实施过程。回铃音例如可以是彩铃，嘟嘟声，因关机、停机、空号、正在通话中、无法接通、无人接听等产生的相应提示音，以及被叫方设置的语音留言等提示音，但不限于此。

此外，需要说明的是，本发明不限制回铃音音频文件的获取方式和文件类型。在一个实施例中，回铃音的音频文件可以由智能外呼机器人进行录音而产生，并将该音频文件存储至数据存储装置或发送至计算设备。相应地，在步骤S210中，计算设备可以从数据存储装置或智能外呼机器人处获取回铃音的音频文件。回铃音的音频文件可以是任意音频格式，例如.wav、.mp3、.wma、.amr等，但不限于此。

在步骤S220中，从音频文件中截取出前段音频和后段音频。

需要说明的是，回铃音音频文件的时长不一。有些可能只有几秒钟，例如回铃音中仅包括“您拨打的用户已关机”几个字的语音内容；有些可以长达几分钟，例如在长时间静音或嘟嘟声后产生的“您拨打的用户暂时无人接听”语音内容的循环播报。

当采用神经网络来确定音频文件所属的类别时，如果对整个音频文件进行分析，将整个音频文件都输入神经网络，则将由于数据量较大而造成内存占用较高、计算资源消耗过大，预测速度较慢，效率很低。对于长时间的回铃音，可能开始时是用户的彩铃或嘟嘟声等声音，而后续用户关机，又会出现“您拨打的电话已关机”这种提示内容，如果将回铃音音频整段输入神经网络模型进行预测，也会造成分类准确度不高的问题。

此外，如果设置输入音频的时长为一个较大的数值(例如3分钟)，则需要对时长较短(例如2秒钟)的回铃音音频文件进行补零(padding)操作，将其补成3分钟，这将产生长达接近3分钟的空录音数据，使得神经网络输出的分类结果的准确性大大降低。

如果随机从音频文件中截取一个音频片段进行分析，则该片段可能不包含用于分类的关键语音(例如“已关机”“已停机”等)，相应地，基于这种随机音频片段所得出的分类结果同样不够准确。

因此，为了提高分类的准确性，在步骤S220中，从回铃音的音频文件中截取出前段音频和后段音频，避免对数据量较大的回铃音音频文件整体进行处理，并且保证截取出的内容涵盖所有语音关键词，从而降低了识别过程中的存储、计算资源消耗，提高了回铃音分类的性能和效率。并且，在后续步骤S230～S270中，对前段音频和后段音频分别进行分类，并根据二者的分类结果来确定回铃音的类别，从而提高回铃音分类的准确率。

根据一种实施例，在步骤S220中，从音频文件的起始位置开始向后截取出长度为第一时长的音频片段，作为前段音频；从音频文件的结尾位置开始向前截取出长度为第二时长的音频片段，作为后段音频。

应当指出，第一时长与第二时长可以相同，也可以不同，二者的具体取值可以由本领域技术人员自行设置，本发明对此不做限制。根据一种实施例，可以将第一时长和第二时长均设置为10秒。

针对不同长度的回铃音音频文件，截取出的前段音频和后段音频存在以下三种情况：

1)当音频文件的时长大于等于第一时长和第二时长之和时，从音频文件的起始位置开始向后截取出长度为第一时长的音频片段，作为前段音频；从音频文件的结尾位置开始向前截取出长度为第二时长的音频片段，作为后段音频，前段音频和后段音频之间没有交叉。例如，当音频文件的时长为50秒时，截取第0到第10秒之间的音频片段作为前段音频，截取第40到第50秒之间的音频片段作为后段音频。

2)当音频文件的时长大于第一时长且小于第一时长与第二时长之和时，从音频文件的起始位置开始向后截取出长度为第一时长的音频片段，作为前段音频；从音频文件的结尾位置开始向前截取出长度为第二时长的音频片段，作为后段音频，前段音频和后段音频之间有交叉。例如，当音频文件的时长为15秒时，截取第0到第10秒之间的音频片段作为前段音频，截取第5到第15秒之间的音频片段作为后段音频。

3)当音频文件的时长小于等于第一时长时，直接将该音频文件作为前段音频，不再截取后段音频。并且，在后续步骤S230、S250提取前段音频的音频特征并将其输入第一分类模型时，需要对前段音频进行补零，将其补至第一时长。例如，设置第一时长为10秒，当音频文件的时长为5秒时，该音频片段的整体即为前段音频，不存在后段音频。并且，需要对前段音频进行补零操作，将其补足至10秒。

在步骤S220截取出前段音频和后段音频后，执行步骤S230、S240。

在步骤S230、S240中，分别提取前段音频和后段音频的音频特征。

根据一种实施例，音频特征为梅尔频率倒谱系数(Mel Frequency CepstrumCoefficients,MFCCs)。梅尔频率倒谱系数例如可以按照以下步骤提取：首先，获取音频数据(即前段音频或后段音频)，对音频数据进行分帧加窗处理，再通过短时傅里叶变换，转换为对应的频谱，再经过梅尔滤波器组得到梅尔频谱，再对梅尔频谱做倒谱分析，得到梅尔频率倒谱系数。

在步骤S230提取出前段音频的音频特征后，执行步骤S250。

在步骤S250中，将前段音频的音频特征输入预设的第一分类模型，得到第一分类结果。

第一分类模型例如可以是长短期记忆人工神经网络(Long-Short Term Memory,LSTM)、卷积神经网络(Convolutional Neural Networks,CNN)或其他机器学习的分类器，本发明对第一分类模型的具体类型和结构不做限制。

第一分类模型用于对前段音频进行分类，其以前段音频的音频特征为输入，输出前段音频所属的回铃音类别，即第一分类结果。回铃音的类别例如可以包括：彩铃(0类)、嘟嘟声(1类)、已关机(2类)、已停机(3类)、正在通话中(4类)、空号(5类)、无法接通(6类)、无人接听(7类)、语音留言(8类)共9类。

本领域技术人员可以理解，上述回铃音类别的划分方式仅为一个示例，在其他实施例中，也可以采用其他的类别划分方式，例如将回铃音划分为数量更多或数量更少的类别、设置与上述实施例不同的类别名称、类别标识等。本发明对回铃音类别的具体划分方式不做限制。

第一分类模型采用已标注类别的回铃音音频文件的前段音频训练得出。例如，智能外呼机器人收集到的回铃音音频文件20000个，分别截取得到对应的前段音频20000个，并人工标注每个前段音频的类别。然后将这20000个已标注类别的前段音频作为训练样本，训练得出第一分类模型。

在步骤S240提取出后段音频的音频特征后，执行步骤S260。

在步骤S260中，将后段音频的音频特征输入预设的第二分类模型，得到第二分类结果。

第二分类模型例如可以是长短期记忆人工神经网络(Long-Short Term Memory,LSTM)、卷积神经网络(Convolutional Neural Networks,CNN)或其他机器学习的分类器，本发明对第二分类模型的具体类型和结构不做限制。在一些实施例中，第二分类模型与第一分类模型的结构相同。

第二分类模型用于对后段音频进行分类，其以后段音频的音频特征为输入，输出后段音频所属的回铃音类别，即第二分类结果。第二分类模型的类别划分方式与第一分类模型相同，即，类别包括：彩铃(0类)、嘟嘟声(1类)、已关机(2类)、已停机(3类)、正在通话中(4类)、空号(5类)、无法接通(6类)、无人接听(7类)、语音留言(8类)共9类。

第二分类模型采用已标注类别的回铃音音频文件的后段音频训练得出。例如，智能外呼机器人收集到的回铃音音频文件20000个，分别截取得到对应的后段音频14000个(即在20000个回铃音音频文件中，有6000个音频文件的时长小于等于第一时长，因此未截取出后段音频)，并人工标注每个后段音频的类别。然后将这20000个已标注类别的后段音频作为训练样本，训练得出第二分类模型。

需要说明的是，步骤S230、S250所示的前段音频的分类过程与步骤S240、S260所示的后段音频的分类过程可以按照一定的顺序先后执行(例如可以按照S230、S250、S240、S260的顺序执行，或者按照S240、S260、S230、S250的顺序执行，或者按照S230、S240、S250、S260的顺序执行，等等)，也可以并行执行(图2所示的实施例中为并行执行)。本领域技术人员可以理解，步骤S230、S250所示的前段音频的分类过程与步骤S240、S260所示的后段音频的分类过程并行执行，可以进一步加快回铃音分类的速度，提高分类效率。

在得到前段音频对应的第一分类结果和后段音频对应的第二分类结果后，执行步骤S270。

在步骤S270中，根据第一分类结果和第二分类结果来确定回铃音所属的类别。

根据一种实施例，回铃音所属的类别按照以下方法确定：

当回铃音音频文件的时长小于等于第一时长时，由于不存在后段音频及第二分类结果，则直接将第一分类结果作为回铃音所属的类别。

当回铃音音频文件的时长大于第一时长时，对第一分类结果和第二分类结果进行融合，以确定回铃音所属的类别。

具体地，根据一种实施例，第一分类结果和第二分类结果按照以下步骤进行融合：若第一分类结果不是彩铃(0类)或嘟嘟声(1类)，则将第一分类结果作为回铃音所属的类别；若第一分类结果是彩铃(0类)或嘟嘟声(1类)，则将第二分类结果作为回铃音所属的类别。这种设置方式是考虑到有些回铃音的开始是用户的彩铃或嘟嘟声等声音，而后续会出现“您拨打的电话已关机/暂时无人接听”等提示语音，这些情况中，回铃音所属的类别应当以后段音频的类别(即第二分类结果)为准。

应当指出，上述第一分类结果与第二分类结果的融合方式仅为一个示例，本领域技术人员可以结合具体的业务场景，设置不同的方法来融合第一分类结果与第二分类结果，本发明不限制第一分类结果与第二分类结果的融合方式，任意融合方式均在本发明的保护范围之内。

本发明的音频分类方法从回铃音音频文件中截取出前段音频和后段音频，分别采用第一分类模型、第二分类模型来得出前段音频、后段音频的分类结果，即第一分类结果、第二分类结果，然后综合第一分类结果和第二分类结果来确定回铃音所属的类别。

通过截取前段音频和后段音频并进行分类识别，避免了对数据量较大的回铃音音频文件整体进行处理，从而降低了识别过程中的存储、计算资源消耗，提高了回铃音分类的性能和效率。

A11、一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如A1-9中任一项所述的音频分类方法。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的音频分类方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的优选实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种音频分类方法，在计算设备中执行，包括：

获取回铃音的音频文件；

从所述音频文件中截取出前段音频和后段音频，具体包括，从所述音频文件的起始位置开始向后截取出长度为第一时长的音频片段，作为前段音频，从所述音频文件的结尾位置开始向前截取出长度为第二时长的音频片段，作为后段音频；其中，当所述音频文件的时长小于等于所述第一时长时，将所述音频文件作为前段音频，不截取后段音频；

分别提取所述前段音频和后段音频的音频特征；

将前段音频的音频特征输入预设的第一分类模型，得到第一分类结果；将后段音频的音频特征输入预设的第二分类模型，得到第二分类结果；

根据所述第一分类结果和所述第二分类结果来确定所述回铃音所属的类别；

其中，所述根据所述第一分类结果和所述第二分类结果来确定所述回铃音所属的类别的步骤包括：

当所述音频文件的时长小于等于第一时长时，将所述第一分类结果作为所述回铃音所属的类别；

当所述音频文件的时长大于第一时长时，对所述第一分类结果和所述第二分类结果进行融合，以确定所述回铃音所属的类别；

其中，当所述音频文件的时长大于第一时长时：

若第一分类结果不是彩铃或嘟嘟声，则将第一分类结果作为所述回铃音所属的类别；

若第一分类结果是彩铃或嘟嘟声，则将第二分类结果作为所述回铃音所属的类别。

2.如权利要求1所述的方法，其中，所述第一时长、第二时长均为10秒。

3.如权利要求1或2所述的方法，其中，所述音频特征为梅尔频率倒谱系数。

4.如权利要求1或2所述的方法，其中，所述第一分类模型采用已标注类别的回铃音音频文件的前段音频训练得出；

所述第二分类模型采用已标注类别的回铃音音频文件的后段音频训练得出。

5.如权利要求1或2所述的方法，其中，回铃音的类别包括：彩铃、嘟嘟声、已关机、已停机、正在通话中、空号、无法接通、无人接听、语音留言。

6.一种计算设备，包括：

至少一个处理器和存储有程序指令的存储器；

当所述程序指令被所述处理器读取并执行时，使得所述计算设备执行如权利要求1-5中任一项所述的音频分类方法。

7.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-5中任意一项所述的音频分类方法。