CN113808591A

CN113808591A - 音频处理方法、装置、存储介质及电子设备

Info

Publication number: CN113808591A
Application number: CN202110932130.9A
Authority: CN
Inventors: 赵情恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-12-17

Abstract

本公开提供了音频处理方法、装置、存储介质及电子设备，涉及机器学习和自然语言理解技术领域，进一步涉及音频技术和声纹识别技术领域。具体实现方案为：获取拨号事件对应的回铃音频；利用第一神经网络模型对回铃音频进行分类处理，确定回铃音频对应的第一分类结果，第一分类结果用于表示回铃音频归属的目标分类；当第一分类结果满足预设条件时，对回铃音频进行语音转写处理，得到待识别文本；利用第二神经网络模型对待识别文本进行分类处理，确定待识别文本对应的第二分类结果，第二分类结果用于表示待识别文本归属的目标分类；输出第二分类结果。本公开解决了客服沟通效率低、人力成本高的技术问题。

Description

音频处理方法、装置、存储介质及电子设备

技术领域

本公开涉及机器学习和自然语言理解技术领域，进一步涉及音频技术和声纹识别技术领域，尤其涉及音频处理方法、装置、存储介质及电子设备。

背景技术

银行、保险、运营商等领域的客服部门通常采用电话形式进行业务的沟通服务。每位客服人员每天需要拨打出大量电话，但是在这些拨出的电话中，实际被客户接通的电话为有效电话，而有效电话的数量基本不超过10％，其他未接通的电话均属于无效电话。拨打大量无效电话而产生的等待时间会极大程度上占据客服人员的工作时间。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本公开提供了一种音频处理方法、装置、存储介质及电子设备，以至少解决客服沟通效率低、人力成本高的技术问题。

根据本公开的一方面，提供了一种音频处理方法，包括：获取拨号事件对应的回铃音频；利用第一神经网络模型对回铃音频进行分类处理，确定回铃音频对应的第一分类结果，第一分类结果用于表示回铃音频归属的目标分类；当第一分类结果满足预设条件时，对回铃音频进行语音转写处理，得到待识别文本；利用第二神经网络模型对待识别文本进行分类处理，确定待识别文本对应的第二分类结果，第二分类结果用于表示待识别文本归属的目标分类；输出第二分类结果。

根据本公开的又一方面，还提供了一种音频处理装置，包括：第一获取模块，用于获取拨号事件对应的回铃音频；第一分类模块，用于利用第一神经网络模型对回铃音频进行分类处理，确定回铃音频对应的第一分类结果，第一分类结果用于表示回铃音频归属的目标分类；语音转写模块，用于当第一分类结果满足预设条件时，对回铃音频进行语音转写处理，得到待识别文本；第二分类模块，用于利用第二神经网络模型对待识别文本进行分类处理，确定待识别文本对应的第二分类结果，第二分类结果用于表示待识别文本归属的目标分类；输出模块，用于输出第二分类结果。

根据本公开的又一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述任一项的音频处理方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行根据上述任一项的音频处理方法。

根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述任一项的音频处理方法。

在本公开中，通过第一神经网络模型对回铃音频进行音频分类，确定第一分类结果，当第一分类结果满足预设条件时，将回铃音频进行语音转写获得待识别文本，利用第二神经网络模型对待识别文本进行分类，确定第二分类结果，输出第二分类结果，达到了高效准确地检测回铃音频的目的，从而实现了减少拨号等待时间、提高客服沟通效率以及节约人力成本的技术效果，进而解决了客服沟通效率低、人力成本高的技术问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种用于实现音频处理方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本公开实施例的一种音频处理方法的流程图；

图3是根据本公开实施例的一种训练第一神经网络模型的流程图；

图4是根据本公开实施例的一种训练第二神经网络模型的流程图；

图5是根据本公开实施例的一种音频处理装置的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有方案中，为减少客服人员等待业务电话接通的时间，采用的技术方案是：首先对电话拨号回铃音进行语音转文本处理，获得回铃音对应的文本，然后利用预设好的关键词对获得的文本进行匹配，最后按照关键词匹配结果对该业务电话进行处理。当获得的文本与预设的关键词匹配成功时，则判定该回铃音对应的业务电话为无效电话，按照处理无效电话的方式对该业务电话进行处理；当获得的文本与预设的关键词匹配不成功时，则判定该回铃音对应的业务电话为有效电话，将有效电话转接给对应的客服人员进行接通。

但是，上述方案中对于回铃音进行的语音转文本处理只能针对部分特定的回铃音有效，例如存在话音的回铃音，而针对不存在话音的回铃音，例如纯音乐、歌曲、忙音等，进行语音转文本处理后根本无法获取到回铃音对应的文本，且依然需要客服人员等待业务电话的接通。另外，现有方案在对获得的文本进行关键词匹配时，由于预设的关键词并不能灵活覆盖所有可能出现的文本信息，例如预设关键词的字数可能偏多、偏少，或者无法对相同、相近的文本进行词义转换，进而导致文本与关键词匹配时的准确率低下，可能将有效电话误判为无效电话而进行处理，严重影响服务效果。

现有方案无法解决客服沟通效率低、人力成本高的技术问题。

根据本公开实施例，提供了一种音频处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。图1示出了一种用于实现音频处理方法的计算机终端(或移动设备)的硬件结构框图。

如图1所示，计算机终端100包括计算单元101，其可以根据存储在只读存储器(ROM)102中的计算机程序或者从存储单元108加载到随机访问存储器(RAM)103中的计算机程序，来执行各种适当的动作和处理。在RAM 103中，还可存储计算机终端100操作所需的各种程序和数据。计算单元101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。

计算机终端100中的多个部件连接至I/O接口105，包括：输入单元106，例如键盘、鼠标等；输出单元107，例如各种类型的显示器、扬声器等；存储单元108，例如磁盘、光盘等；以及通信单元109，例如网卡、调制解调器、无线通信收发机等。通信单元109允许计算机终端100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元101执行本文所描述的音频处理方法。例如，在一些实施例中，音频处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 102和/或通信单元109而被载入和/或安装到计算机终端100上。当计算机程序加载到RAM 103并由计算单元101执行时，可以执行本文描述的音频处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行音频处理方法。

本文中描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

此处需要说明的是，在一些可选实施例中，上述图1所示的电子设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述电子设备中的部件的类型。

在上述运行环境下，本公开提供了如图2所示的音频处理方法，该方法可以由图1所示的计算机终端或者类似的电子设备执行。图2是根据本公开实施例提供的一种的音频处理方法流程图。如图2所示，该方法可以包括如下步骤：

步骤S20，获取拨号事件对应的回铃音频；

上述拨号事件为第一用户端根据第二用户端的用户信息向第二用户端发起的通话请求，其中，第一用户端可以为客服部门集中部署给每位客服人员的固定电话，第二用户端可以为客户所使用的手机终端，第二用户端的用户信息可以为客户的电话号码。

上述回铃音频可以为第一用户端按照第二用户端的用户信息向第二用户端发起通话请求后，第一用户端等待通话请求被接通时所播放的音频。其中，回铃音频可以由用户自定义设置，例如用户可以与电话运营商进行业务订制，将特定的纯音乐、歌曲或者忙音设定为回铃音频。回铃音频也可以根据通话请求结果自动生成，例如当第二用户端正忙、关机、停机、挂机、不在服务区时自动生成对应的提示语音作为回铃音频。

本公开上述步骤S20中，可以单独获取一个拨号事件对应的回铃音频，也可以集中获取多个拨号事件对应的回铃音频。例如，客服系统可以根据客户名单上的用户信息集中进行拨号，并对每个拨号事件进行录制，获取每个拨号事件对应的回铃音频。

步骤S21，利用第一神经网络模型对回铃音频进行分类处理，确定回铃音频对应的第一分类结果；

在本公开上述步骤S21中，第一神经网络模型使用多组第一数据通过机器学习训练得到，多组第一数据中的每组数据均包括：待训练回铃音频和待训练回铃音频归属的分类，第一分类结果用于表示回铃音频归属的目标分类。

上述用于训练第一神经网络模型的多组第一数据中，待训练回铃音频可以从数据库中集中获取，待训练回铃音频归属的分类可以预先设定。例如，可以预先设定待训练回铃音频归属的分类有三种：纯音乐/歌曲类、忙音类、清晰人声类。

上述第一神经网络模型可以为高斯混合模型(Gaussian Mixture Mode，GMM)或者深度神经网络(Deep Neural Networks，DNN)模型。其中，GMM是采用高斯概率密度函数精确地量化事物的概率模型，GMM的训练模型的基本形式为P(Y|X)，输入是X，输出是Y，训练后模型得到的输出是一系列的概率值，即对于分类任务中输入X对应于各个不同类别Y的概率，其中概率最大的归属类别就是第一分类结果。DNN由输入层、隐藏层和输出层组成，其中，DNN的每层可以由多个神经元构成，定义神经元的激活函数、损失函数和各项训练参数后，利用数据集对DNN模型进行训练、评估，获得第一分类结果。

上述第一神经网络模型使用多组第一数据通过机器学习训练的过程可以参照下文步骤S30至步骤S33，不予赘述。

步骤S22，当第一分类结果满足预设条件时，对回铃音频进行语音转写处理，得到待识别文本；

步骤S23，利用第二神经网络模型对待识别文本进行分类处理，确定待识别文本对应的第二分类结果；

其中，第二神经网络模型使用多组第二数据通过机器学习训练得到，多组第二数据中的每组数据均包括：待训练文本和待训练文本归属的分类，第二分类结果用于表示待识别文本归属的目标分类；

上述用于训练第二神经网络模型的多组第二数据中，待训练文本可以从数据库中集中获取，待训练文本归属的分类可以预先设定。例如，可以预先设定待训练文本归属的分类有四种：关机类、空号类、正忙类以及不在服务区类。

上述第二神经网络模型可以为文本卷积神经网络(Text Convolutional NeuralNetworks，TextCNN)模型或者基于转换器的双向编码表示法(Bidirectional EncoderRepresentations from Transformers，BERT)模型。例如，TextCNN的分类实现过程为:将待识别文本映射为词向量后，将词向量输入模型中，经过卷积层、池化层处理后将处理结果输出到归一化指数(softmax)函数中获得待识别文本归属于各个类别的概率，概率最大的归属类别就是第二分类结果。

上述第二神经网络模型使用多组第二数据通过机器学习训练的过程可以参照下文步骤S40至步骤S43，不予赘述。

步骤S24，输出第二分类结果。

根据本公开上述步骤S20至步骤S24，通过第一神经网络模型对回铃音频进行音频分类，确定第一分类结果，当第一分类结果满足预设条件时，将回铃音频进行语音转写获得待识别文本，利用第二神经网络模型对待识别文本进行分类，确定第二分类结果，输出第二分类结果，达到了高效准确地检测回铃音频的目的，从而实现了减少拨号等待时间、提高客服沟通效率以及节约人力成本的技术效果，进而解决了客服沟通效率低、人力成本高的技术问题。

下面对该实施例的上述方法进行进一步介绍。

作为一种可选的实施方式，在步骤S24，输出第二分类结果包括：向业务系统上报第二分类结果，以使业务系统基于第二分类结果确定拨号事件的话务处理方式。

上述业务系统可以为客服系统中用于对拨号事件进行话务处理的系统。

作为一种可选的实施方式，本公开实施例提供的音频处理方法还包括图3所示的训练第一神经网络模型方法，该方法包括：

步骤S30，获取多组第一数据；

其中，第一数据中的每组数据均包括：待训练回铃音频和待训练回铃音频归属的分类。

步骤S31，对多组第一数据进行预处理，获取处理结果，其中，预处理包括以下至少之一：静音检测，噪声消除；

上述预处理中静音检测处理可以识别出回铃音频中的静音片段和有效声音片段，噪声消除处理可以消除回铃音频中的环境噪声。

可选地，上述预处理过程还可以包括对回铃音频的分帧、加窗处理。由于回铃音频具有短时平稳性，即在10-30ms内回铃音频的信号近似不变，可以将回铃音频划分为短段进行处理，每个短段可以称为一帧。如果分帧后还需要进行加窗处理，则在分帧时，相邻两帧之间可以部分重叠，相邻两帧的起始位置的时间差为帧移。如果分帧后不需要进行加窗处理，则相邻两帧之间不需要重叠。加窗处理是将回铃音频信号与窗函数进行相乘，对相乘后的结果可以进行傅里叶变换展开，进而实现对回铃音频的进一步测量和运算。

需要说明的是，上述预处理过程可以根据具体实施要求选取，本公开的预处理过程仅是一种示例，不构成对预处理过程的具体限制。

步骤S32，对处理结果进行特征提取，获取音频特征参数；

上述特征提取过程可以基于人类的发声机理和听觉感知过程，获取的音频特征参数可以包括以下参数中的一项或者多项：线性预测编码(Linear Prencdictive Coding，LPC)系数、感知线性预测(Perceptual Linear Predictive，PLP)系数、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)、基于滤波器组的特征(Filter bank，Fbank)、语谱图(Spectrogram)。

其中，计算预处理后的回铃音频信号的采样值和线性预测的采样值，并让这两者之间达到均方误差最小，就可以得到LPC系数。PLP系数有利于抗噪音频特征的提取，MFCC可以更好地表示回铃音频信号，Fbank特征保留了更多的原始音频数据。语谱图可以显示回铃音频信号不同频段的信号强度，以及音频信号随时间的变化情况。

步骤S33，基于音频特征参数训练得到第一神经网络模型。

根据本公开上述步骤S30至步骤S33，通过获取多组第一数据，对多组第一数据进行预处理，获取处理结果，对处理结果进行特征提取，获取音频特征参数，基于音频特征参数训练得到第一神经网络模型，可以准确对回铃音频进行音频分类。

作为一种可选的实施方式，在步骤S22，对回铃音频进行语音转写处理，得到待识别文本，包括：利用语音识别系统对回铃音频进行语音转写处理，得到待识别文本；或者，利用端到端识别系统对回铃音频进行语音转写处理，得到待识别文本。

其中，上述语音识别系统中可以包括声学、发音和语言模型等组件，这些组件需要分别训练。上述端到端识别系统可以将一系列输入声学特征直接映射到一系列字或单词。

作为一种可选的实施方式，本公开实施例提供的音频处理方法还包括图4所示的训练第二神经网络模型方法，该方法包括：

步骤S40，获取多组第二数据；

其中，第二数据中的每组数据均包括：待训练文本和待训练文本归属的分类。

步骤S41，基于待训练文本归属的分类对待训练文本进行分类，得到分类后文本；

步骤S42，对分类后文本进行分词提取处理，得到分词结果；

步骤S43，对分词结果进行词向量映射处理，得到词向量映射结果；

其中，词向量是分词的特征信息所映射成的数字构成的向量，分词与词向量一一对应。

步骤S44，基于词向量映射结果训练得到第二神经网络模型。

根据本公开上述步骤S40至步骤S44，可以获取多组第二数据，对第二数据进行分类，得到分类后文本，对分类后文本进行分词提取处理，得到分词结果；对分词结果进行词向量映射处理，得到词向量映射结果，基于词向量映射结果训练得到第二神经网络模型，可以准确对待识别文本进行文本分类。

作为一种可选的实施方式，在步骤S22，预设条件包括以下至少之一：回铃音频的信噪比大于第一阈值；回铃音频的环境噪声小于第二阈值。

例如，当回铃音频的信噪比大于第一阈值且环境噪声小于第二阈值，可以确定该回铃音频中包括有清晰人声，可以进行下一步的语音转写和文本分类处理。

作为一种可选的实施方式，本公开实施例提供的音频处理方法还包括：当第一分类结果未满足预设条件时，基于第一分类结果拒绝处理拨号事件。

例如，当回铃音频的信噪比小于第一阈值，或者回铃音频的环境噪声大于第二阈值，则判定该回铃音频中不存在清晰人声，仅包括纯音乐或者忙音，该回铃音频对应的业务电话为无效电话，可以对该无效电话的拨号时间拒绝处理，以减少无效等待时间。

作为一种可选的实施方式，在步骤S24，话务处理方式包括：针对拨号事件停止重拨操作；针对拨号事件发起重拨操作。

例如，当第二分类结果显示客户已关机，或者不在服务区，或者当前拨号号码是空号，可以针对该拨号事件停止重拨操作；当第二分类结果显示客户正忙，可以针对该拨号时间发起重拨操作，以保证客户不遗漏客服电话。

根据本公开提供的音频处理方法，当每天拨出10000通无效电话，每通无效电话的平均等待时间为2s时，可以节约20000s的等待时间，即可以节约5.5小时的等待时间，达到了高效准确地检测回铃音频的目的，从而实现了减少拨号等待时间、提高客服沟通效率以及节约人力成本的技术效果，进而解决了客服沟通效率低、人力成本高的技术问题。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例所述的方法。

在本公开中还提供了一种音频处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本公开其中一实施例的音频处理装置的结构框图，如图5所示，音频处理装置500包括：第一获取模块501，第一分类模块502，语音撰写模块503，第二分类模块504以及输出模块505。

第一获取模块501，用于获取拨号事件对应的回铃音频；

第一分类模块502，用于利用第一神经网络模型对回铃音频进行分类处理，确定回铃音频对应的第一分类结果，第一分类结果用于表示回铃音频归属的目标分类；

语音转写模块503，用于当第一分类结果满足预设条件时，对回铃音频进行语音转写处理，得到待识别文本；

第二分类模块504，用于利用第二神经网络模型对待识别文本进行分类处理，确定待识别文本对应的第二分类结果，第二分类结果用于表示待识别文本归属的目标分类；

输出模块505，用于输出第二分类结果。

可选地，输出模块505，用于输出第二分类结果包括：向业务系统上报第二分类结果，以使业务系统基于第二分类结果确定拨号事件的话务处理方式。

可选地，音频处理装置还包括：第二获取模块506，用于获取多组第一数据，其中，多组第一数据中的每组数据均包括：待训练回铃音频和待训练回铃音频归属的分类；预处理模块507，用于对多组第一数据进行预处理，获取处理结果，其中，预处理包括以下至少之一：静音检测，噪声消除；特征提取模块508，用于对处理结果进行特征提取，获取音频特征参数；第一训练模块509，用于基于音频特征参数训练得到第一神经网络模型。

可选地，语音转写模块503，用于对回铃音频进行语音转写处理，得到待识别文本，包括：利用语音识别系统对回铃音频进行语音转写处理，得到待识别文本；或者，利用端到端识别系统对回铃音频进行语音转写处理，得到待识别文本。

可选地，音频处理装置还包括：第三获取模块510，用于获取多组第二数据，其中，多组第二数据中的每组数据均包括：待训练文本和待训练文本归属的分类，基于待训练文本归属的分类对待训练文本进行分类，得到分类后文本；提取模块511，用于对分类后文本进行分词提取处理，得到分词结果；映射模块512，用于对分词结果进行词向量映射处理，得到词向量映射结果；第二训练模块513，用于基于词向量映射结果训练得到第二神经网络模型。

可选地，预设条件包括以下至少之一：回铃音频的信噪比大于第一阈值；回铃音频的环境噪声小于第二阈值。

可选地，音频处理装置还包括：处理模块514，用于当第一分类结果未满足预设条件时，基于第一分类结果拒绝处理拨号事件。

可选地，话务处理方式包括：针对拨号事件停止重拨操作；针对拨号事件发起重拨操作。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

根据本公开的实施例，本公开还提供了一种电子设备，包括存储器和至少一个处理器，该存储器中存储有计算机指令，该处理器被设置为运行计算机指令以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取拨号事件对应的回铃音频；

S2，利用第一神经网络模型对回铃音频进行分类处理，确定回铃音频对应的第一分类结果；

S3，当第一分类结果满足预设条件时，对回铃音频进行语音转写处理，得到待识别文本；

S4，利用第二神经网络模型对待识别文本进行分类处理，确定待识别文本对应的第二分类结果；

S5，输出第二分类结果。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质中存储有计算机指令，其中，该计算机指令被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取拨号事件对应的回铃音频；

S5，输出第二分类结果。

可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于：U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

根据本公开的实施例，本公开还提供了一种计算机程序产品。用于实施本公开的音频处理方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

在本公开的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本公开所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本公开的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本公开的保护范围。

Claims

1.一种音频处理方法，包括：

获取拨号事件对应的回铃音频；

利用第一神经网络模型对所述回铃音频进行分类处理，确定所述回铃音频对应的第一分类结果，所述第一分类结果用于表示所述回铃音频归属的目标分类；

当所述第一分类结果满足预设条件时，对所述回铃音频进行语音转写处理，得到待识别文本；

利用第二神经网络模型对所述待识别文本进行分类处理，确定所述待识别文本对应的第二分类结果，所述第二分类结果用于表示所述待识别文本归属的目标分类；

输出所述第二分类结果。

2.根据权利要求1所述的音频处理方法，其中，所述输出所述第二分类结果包括：

向业务系统上报所述第二分类结果，以使所述业务系统基于所述第二分类结果确定所述拨号事件的话务处理方式。

3.根据权利要求1所述的音频处理方法，所述方法还包括：

获取多组第一数据，其中，所述多组第一数据中的每组数据均包括：待训练回铃音频和所述待训练回铃音频归属的分类；

对所述多组第一数据进行预处理，获取处理结果，其中，所述预处理包括以下至少之一：静音检测，噪声消除；

对所述处理结果进行特征提取，获取音频特征参数；

基于所述音频特征参数训练得到所述第一神经网络模型。

4.根据权利要求1所述的音频处理方法，其中，对所述回铃音频进行语音转写处理，得到所述待识别文本，包括：

利用语音识别系统对所述回铃音频进行语音转写处理，得到所述待识别文本；或者，

利用端到端识别系统对所述回铃音频进行语音转写处理，得到所述待识别文本。

5.根据权利要求1所述的音频处理方法，所述方法还包括：

获取多组第二数据，其中，所述多组第二数据中的每组数据均包括：待训练文本和所述待训练文本归属的分类；

基于所述待训练文本归属的分类对所述待训练文本进行分类，得到分类后文本；

对所述分类后文本进行分词提取处理，得到分词结果；

对所述分词结果进行词向量映射处理，得到词向量映射结果；

基于所述词向量映射结果训练得到所述第二神经网络模型。

6.根据权利要求1所述的音频处理方法，其中，所述预设条件包括以下至少之一：

所述回铃音频的信噪比大于第一阈值；

所述回铃音频的环境噪声小于第二阈值。

7.根据权利要求1所述的音频处理方法，所述方法还包括：

当所述第一分类结果未满足所述预设条件时，基于所述第一分类结果拒绝处理所述拨号事件。

8.根据权利要求2所述的音频处理方法，其中，所述话务处理方式包括：

针对所述拨号事件停止重拨操作；

针对所述拨号事件发起重拨操作。

9.一种音频处理装置，包括：

第一获取模块，用于获取拨号事件对应的回铃音频；

第一分类模块，用于利用第一神经网络模型对所述回铃音频进行分类处理，确定所述回铃音频对应的第一分类结果，所述第一分类结果用于表示所述回铃音频归属的目标分类；

语音转写模块，用于当所述第一分类结果满足预设条件时，对所述回铃音频进行语音转写处理，得到待识别文本；

第二分类模块，用于利用第二神经网络模型对所述待识别文本进行分类处理，确定所述待识别文本对应的第二分类结果，所述第二分类结果用于表示所述待识别文本归属的目标分类；

输出模块，用于输出第二分类结果。

10.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的音频处理方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的音频处理方法。

12.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述的音频处理方法。