CN112860213A

CN112860213A - 音频的处理方法、存储介质及电子设备

Info

Publication number: CN112860213A
Application number: CN202110257271.5A
Authority: CN
Inventors: 李一琳; 黄业祥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-05-28
Anticipated expiration: 2041-03-09
Also published as: CN112860213B

Abstract

本发明公开了一种音频的处理方法、存储介质及电子设备。其中，该方法包括：在目标应用的目标界面中获取第一交互操作，响应于第一交互操作，触发采集音频信息，在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面中显示目标提示信息，在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息。本发明解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

Description

音频的处理方法、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种音频的处理方法、存储介质及电子设备。

背景技术

目前的相关技术中，用户录入音频的过程和页面交互是脱离的，用户无法通过录入过程中页面交互变化感受到自己的录入音量是否过小或过大，录入音频内容是否违规，用户往往只能在录入结束后才能得到相应反馈，并且，在得到负面反馈后，需要重新录入相关的音频。

因此，相关技术中会存在音频的处理效率较低，交互功能较差的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频的处理方法、存储介质及电子设备，以至少解决相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

根据本发明实施例的一个方面，提供了一种音频的处理方法，包括：

在目标应用的目标界面中获取第一交互操作，其中，所述第一交互操作用于触发采集音频信息；

响应于所述第一交互操作，触发采集音频信息；

在采集所述音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，所述目标提示信息用于提示所述采集到的音频信息存在异常，所述表情对象为所述目标应用中与所述目标界面关联的对象。

根据本发明实施例的另一方面，还提供了一种音频的处理装置，包括：

获取模块，用于在目标应用的目标界面中获取第一交互操作，其中，所述第一交互操作用于触发采集音频信息；

触发模块，用于响应于所述第一交互操作，触发采集音频信息；

显示模块，用于在采集所述音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，所述目标提示信息用于提示所述采集到的音频信息存在异常，所述表情对象为所述目标应用中与所述目标界面关联的对象。

可选地，所述显示模块，包括：

第一显示单元，用于在采集所述音频信息的过程中，在识别出所述采集到的音频信息存在音量异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的所述目标提示信息，其中，所述目标提示信息用于提示所述采集到的音频信息存在音量异常。

可选地，所述第一显示单元用于通过如下方式在采集所述音频信息的过程中，在识别出所述采集到的音频信息存在音量异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的所述目标提示信息：

在采集所述音频信息的过程中，在识别出所述采集到的音频信息的音量大于或等于第一音量阈值的情况下，在所述目标界面中显示第一提示信息，其中，所述目标提示信息包括所述第一提示信息，所述第一提示信息用于提示所述采集到的音频信息的音量过大；或者

在采集所述音频信息的过程中，在识别出所述采集到的音频信息的音量小于或等于第二音量阈值的情况下，在所述目标界面中显示第二提示信息，其中，所述目标提示信息包括所述第二提示信息，所述第二提示信息用于提示所述采集到的音频信息的音量过小。

可选地，所述装置还用于：

在第一提示信息用于提示所述采集到的音频信息的音量过大的情况下，在所述目标界面中显示由所述表情对象执行第一目标动作的第一动画，其中，所述表情对象通过执行所述第一目标动作以表示当前采集到的音频信息的音量过大；

在第一提示信息用于提示所述采集到的音频信息的音量过小的情况下，在所述目标界面中显示由所述表情对象执行第二目标动作的第二动画，其中，所述表情对象通过执行所述第二目标动作以表示所述当前采集到的音频信息的音量过小。

可选地，所述装置还用于：

在采集所述音频信息的过程中，根据所述采集到的音频信息中声波波形的幅度，确定所述采集到的音频信息的音量；

在所述采集到的音频信息的音量处于预定的音量范围之外的情况下，确定所述采集到的音频信息存在音量异常。

可选地，所述装置还包括：

第二显示单元，用于在采集所述音频信息的过程中，在识别出所述采集到的音频信息的情绪类型为目标情绪类型的情况下，在所述目标界面中显示第三提示信息，其中，所述第三提示信息用于提示所述采集到的音频信息的情绪类型为所述目标情绪类型。

可选地，所述第二显示单元用于通过如下方式在采集所述音频信息的过程中，在识别出所述采集到的音频信息的情绪类型为目标情绪类型的情况下，在所述目标界面中显示第三提示信息：

在采集所述音频信息的过程中，根据所述采集到的音频信息中声波波形的频率，识别所述采集到的音频信息的情绪类型是否为预设的一组情绪类型中的情绪类型；

在识别出所述采集到的音频信息的情绪类型为所述一组情绪类型中的情绪类型的情况下，在所述目标界面中显示所述第三提示信息，其中，所述目标情绪类型包括在所述一组情绪类型中所识别出的情绪类型。

在采集所述音频信息的过程中，在识别出所述采集到的音频信息的情绪类型为第一情绪类型的情况下，在所述目标界面中显示第一子提示信息，其中，所述第三提示信息包括所述第一子提示信息，所述第一子提示信息用于提示所述采集到的音频信息的情绪类型为所述第一情绪类型，所述第一情绪类型的音频信息中声波波形的频率大于或等于第一频率阈值，所述一组情绪类型包括所述第一情绪类型；和/或

在采集所述音频信息的过程中，在识别出所述采集到的音频信息的情绪类型为第二情绪类型的情况下，在所述目标界面中显示第二子提示信息，其中，所述第三提示信息包括所述第二子提示信息，所述第二子提示信息用于提示所述采集到的音频信息的情绪类型为所述第二情绪类型，所述第二情绪类型的音频信息中声波波形的频率小于或等于第二频率阈值，所述一组情绪类型包括所述第二情绪类型。

在采集所述音频信息的过程中，在识别出所述采集到的音频信息的情绪类型对应于第三情绪类型的情况下，在所述目标界面中显示第三子提示信息，其中，所述第三提示信息包括所述第三子提示信息，所述第三子提示信息用于提示所述采集到的音频信息的情绪类型为所述第三情绪类型，所述第三情绪类型的音频信息的音量变化趋势为在第一时间段大于或等于第三音量阈值，且在第二时间段小于或等于第四音量阈值，所述第一时间段为在所述第二时间段之前的时间段，所述第三音量阈值大于或等于所述第四音量阈值，所述一组情绪类型包括所述第三情绪类型；或者

在采集所述音频信息的过程中，在识别出所述采集到的音频信息的情绪类型对应于第四情绪类型的情况下，在所述目标界面中显示第四子提示信息，其中，所述第三提示信息包括所述第四子提示信息，所述第四子提示信息用于提示所述采集到的音频信息的情绪类型为所述第四情绪类型，所述第四情绪类型的音频信息的音量变化趋势为在所述第一时间段小于或等于所述第三音量阈值，且在所述第二时间段大于或等于所述第四音量阈值，所述第一时间段为在所述第二时间段之前的时间段，所述第三音量阈值大于或等于所述第四音量阈值，所述一组情绪类型包括所述第四情绪类型。

可选地，所述装置用于通过如下方式在采集所述音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的目标提示信息：

在采集所述音频信息的过程中，在识别出所述采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的所述目标提示信息，其中，所述目标提示信息用于提示所述采集到的音频信息存在词语异常。

可选地，所述装置还用于执行以下之一的方法：

在识别出所述采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，删除所述采集到的音频信息中的第一音频信息，其中，所述第一音频信息所转换的文字为所述异常词语；

在识别出所述采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，使用预设的第二音频信息替换所述音频信息中的所述第一音频信息，其中，所述第二音频信息转换的文字为允许的词语或为无语义的词语；

在识别出所述采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，在所述目标界面将目标进度条调整为初始状态，其中，所述目标进度条用于表示采集音频信息的进度，所述初始状态用于表示在所述目标应用中未开始采集音频信息。

可选地，所述装置还用于通过如下方式响应于所述第一交互操作，触发采集音频信息：

响应于所述第一交互操作，在识别出开始采集所述音频信息的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的第四提示信息，其中，所述第四提示信息用于提示所述目标应用已触发采集所述音频信息，所述第四提示信息中的表情对象执行表示开始采集所述音频信息的第三目标操作。

在采集所述音频信息的过程中，在识别出所述采集到的音频信息存在异常的情况下，在所述目标界面中显示目标动画，其中，所述目标动画用于表示所述采集到的音频信息存在异常；或者

在采集所述音频信息的过程中，在识别出所述采集到的音频信息存在异常的情况下，在所述目标界面中弹出用于提示所述音频信息存在异常的提示信息；或者

在采集所述音频信息的过程中，在识别出所述采集到的音频信息存在异常的情况下，在所述目标界面将所述目标进度条的颜色由第一颜色更新为第二颜色，其中，所述第一颜色用于表示在所述目标应用中正在采集所述音频信息，且在采集所述音频信息的过程中，识别出所述采集到的音频信息不存在异常，所述第二颜色用于表示在所述目标应用中正在采集所述音频信息，且在采集所述音频信息的过程中，识别出所述采集到的音频信息存在异常。

可选地，所述装置还用于：

在采集所述音频信息的过程中，在识别出所述采集到的音频信息存在异常的情况下，在所述目标界面将目标进度条重置为初始状态，其中，所述目标进度条用于表示所述音频信息的采集进度，所述初始状态用于表示在所述目标应用中未开始采集音频信息。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述音频的处理方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的音频的处理方法。

在本发明实施例中，采用在目标应用的目标界面中获取第一交互操作，其中，第一交互操作用于触发采集音频信息，响应于第一交互操作，触发采集音频信息，在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，目标提示信息用于提示采集到的音频信息存在异常，表情对象为目标应用中与目标界面关联的对象的方式，通过在采集音频信息的过程中，一旦识别出采集到的音频信息存在异常，即在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，达到了快速反馈音频信息出现异常的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的音频的处理方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的音频的处理方法的流程示意图；

图3是根据本发明实施例的一种可选的音频的处理方法的示意图；

图4是根据本发明实施例的又一种可选的音频的处理方法的示意图；

图5是根据本发明实施例的又一种可选的音频的处理方法的示意图；

图6是根据本发明实施例的又一种可选的音频的处理方法的示意图；

图7是根据本发明实施例的又一种可选的音频的处理方法的示意图；

图8是根据本发明实施例的又一种可选的音频的处理方法的示意图；

图9是根据本发明实施例的又一种可选的音频的处理方法的示意图；

图10是根据本发明实施例的又一种可选的音频的处理方法的示意图；

图11是根据本发明实施例的又一种可选的音频的处理方法的示意图；

图12是根据本发明实施例的一种可选的音频的处理装置的结构示意图；

图13是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

实时语音识别：通过接口服务对实时音频流进行识别，同步返回识别结果，达到“边说边出文字”的效果。接口是HTTP RESTful形式，在使用该接口前，需要在语音识别控制台开通服务，并进入API密钥管理页面新建密钥，生成AppID、SecretID和SecretKey，用于API调用时生成签名，签名将用来进行接口鉴权。

Web Audio API：它可以获得麦克风的音频输入，并判断录入的音量大小。

音频采样率：是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。

音频编码码率：码率高低直接影响音质，码率高音质好，码率低音质差。码率就是数据传输时单位时间传送的数据位数。

声纹识别：声纹是指人类语音中携带言语信息的声波频谱，其同指纹一样，具备独特的生物学特征，具有身份识别的作用，不仅具有特定性，而且具有相对的稳定性。声音信号是一维连续信号，将其进行离散化后，就可以得到常见的计算机可以处理的声音信号。

实时语音内容审核：需接入实时音视频服务，进行语音鉴黄、涉政等内容安全检测，可用于业务内容安全检查。

下面结合实施例对本发明进行说明：

根据本发明实施例的一个方面，提供了一种音频的处理方法，可选地，在本实施例中，上述音频的处理方法可以应用于如图1所示的由服务器101和用户终端103所构成的硬件环境中。如图1所示，服务器101通过网络与终端103进行连接，可用于为用户终端或用户终端上安装的客户端提供服务，客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端、游戏客户端等。可在服务器上或独立于服务器设置数据库105，用于为服务器101提供数据存储服务，例如，音频数据存储服务器，上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络，用户终端103可以是配置有媒体信息应用和/或目标游戏应用的终端，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等计算机设备，上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器，使用上述音频的处理方法的应用107通过用户终端103进行显示，上述仅是一种示例，本实施例中对此不作任何限定。

结合图1所示，上述音频的处理方法可以在用户终端103通过如下步骤实现：

S1，在用户终端103的目标应用的目标界面中获取第一交互操作，其中，所述第一交互操作用于触发采集音频信息；

S2，在用户终端103上响应于所述第一交互操作，触发采集音频信息；

S3，在用户终端103上在采集所述音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，所述目标提示信息用于提示所述采集到的音频信息存在异常，所述表情对象为所述目标应用中与所述目标界面关联的对象。

可选地，在本实施例中，上述音频的处理方法还可以通过包括但不限于配置于服务器的客户端使用。

可选地，在本实施例中，上述音频的处理方法可以包括但不限于由用户终端103和服务器101进行异步使用。

例如，在用户终端103的目标应用的目标界面中获取第一交互操作，其中，第一交互操作用于触发采集音频信息，在用户终端103上响应于第一交互操作，触发采集音频信息，在服务器101识别上述音频信息，以使得上述用户终端103的目标应用在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，目标提示信息用于提示采集到的音频信息存在异常，表情对象为目标应用中与目标界面关联的对象。

上述仅是一种示例，本实施例不做具体的限定。

可选地，作为一种可选的实施方式，如图2所示，上述音频的处理方法包括：

S202，在目标应用的目标界面中获取第一交互操作，其中，所述第一交互操作用于触发采集音频信息；

S204，响应于所述第一交互操作，触发采集音频信息；

S206，在采集所述音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，所述目标提示信息用于提示所述采集到的音频信息存在异常，所述表情对象为所述目标应用中与所述目标界面关联的对象。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。本申请实施例提供的方案涉及人工智能的语音识别等技术，具体通过如下实施例进行说明:

可选地，在本实施例中，上述音频的处理的应用场景可以包括但不限于医疗、金融、征信、银行、政务、政府、游戏、能源、教育、安防、楼宇、游戏、交通、物联、工业等多种需要进行音频信息处理的应用场景。

可选地，在本实施例中，上述目标应用可以包括但不限于为上述任一一种或多种应用场景中使用的应用程序、小程序、网页等，上述目标界面可以包括但不限于上述目标应用的显示界面。上述第一交互操作可以包括但不限于点击、长按、双击、松开等多种交互操作中的一种或者多种的组合，本实施例对此不作任何具体的限定。上述第一交互操作用于触发采集上述音频信息。

例如，图3是根据本发明实施例的一种可选的音频的处理方法的示意图，如图3所示，上述音频的处理方法可以包括但不限于通过如下方式实现：

S1，在目标应用的目标界面302中获取第一交互操作；

S2，响应于上述第一交互操作，触发采集音频信息，从目标界面302跳转至目标界面304以实现触发采集音频信息；

S3，在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面306中显示基于表情对象的情绪变化所生成的目标提示信息，其中，目标提示信息用于提示采集到的音频信息存在异常，表情对象为目标应用中与目标界面关联的对象。

可选地，在本实施例中，上述触发采集音频信息包括但不限于触发使用音频采集设备采集信息的过程，并不会对是否结束当前采集音频信息的过程进行限定，上述音频采集设备可以包括但不限于与目标应用所在终端相连接的麦克风等音频采集设备。

可选地，在本实施例中，上述采集音频信息的过程中可以包括但不限于在获取到第一交互操作之后开始，在预定时间之后结束，或者，在获取到第一交互操作之后开始，在获取到第二交互操作之后结束，上述第二交互操作可以包括但不限于与第一交互操作相同或者不同。

可选地，在本实施例中，上述识别出采集到的音频信息存在异常可以包括但不限于将采集到的音频信息实时上传至用于进行音频分析处理的服务器，该服务器能够实时分析处理接收到的音频信息是否异常，并将用于指示该音频信息是否异常的相关报文返回至目标应用，以使得在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，上述目标提示信息与服务器基于音频信息返回的结果相关联。

可选地，在本实施例中，上述音频信息存在异常的情况可以包括但不限于识别出音频信息存在音量异常，识别出采集到的音频信息所转换的文字中包括预设的目标异常词语等。

可选地，在本实施例中，上述目标提示信息可以包括但不限于用于提示采集到的音频信息存在音量异常，具体而言，可以包括但不限于用于提示采集到的音频信息的音量过大或过小，还可以包括但不限于用于提示采集到的音频信息的情绪类型为目标情绪类型，用于提示采集到的音频信息存在词语异常。

可选地，在本实施例中，上述目标提示信息可以包括但不限于通过动画效果的形式展示，例如，图4是根据本发明实施例的另一种音频的处理方法的示意图，如图4所示，其中，表情402即为于提示采集到的音频信息存在音量异常的一种示例，表情404即为用于提示采集到的音频信息的情绪类型为目标情绪类型的一种示例，表情406即为用于提示采集到的音频信息存在词语异常的一种示例。

可选地，在本实施例中，上述音频的处理的应用场景具体可以包括但不限于如下示例：

S1，在上述目标应用可以包括但不限于为游戏社区对应类型的应用程序的情况下，用户通过预先在目标应用关联的后台程序进行注册，得到用于登录上述目标应用的帐号；

S2，用户通过注册得到的帐号登录上述目标应用，其中，上述目标应用中包括多个可以进行音频信息交互的群组，每个群组可以包括但不限于配置对应的一个或多个目标界面，每个目标界面中包括但不限于存在对应的上述表情对象；

S3，获取第二交互操作，其中，上述第二交互操作用于加入上述可以进行音频信息交互的群组；

S4，响应于上述第二交互操作，加入上述群组，并在对应的目标界面显示与加入群组对应的表情对象，其中，目标界面在加入群组之前可以包括但不限于存在初始表情对象或不存在表情对象；

S5，在目标应用的目标界面中获取上述第一交互操作；

S6，响应于上述第一交互操作，触发采集音频信息，从目标界面跳转至目标界面以实现触发采集音频信息；

S7，在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，目标提示信息用于提示采集到的音频信息存在异常，表情对象为目标应用中与目标界面关联的对象。

通过本实施例，采用在目标应用的目标界面中获取第一交互操作，其中，第一交互操作用于触发采集音频信息，响应于第一交互操作，触发采集音频信息，在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，目标提示信息用于提示采集到的音频信息存在异常，表情对象为目标应用中与目标界面关联的对象的方式，通过在采集音频信息的过程中，一旦识别出采集到的音频信息存在异常，即在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，达到了快速反馈音频信息出现异常的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

作为一种可选的方案，在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，包括：

在采集音频信息的过程中，在识别出采集到的音频信息存在音量异常的情况下，在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，目标提示信息用于提示采集到的音频信息存在音量异常。

可选地，在本实施例中，上述音频信息存在音量异常可以包括但不限于音频信息的音量过大或过小，在识别出采集到的音频信息存在音量异常的情况下，在目标界面中显示用于提示音频信息存在音量异常的目标提示信息，以实现和用户之间的交互，反馈实时传输的音频信息音量过大或过小，以便于用户调整被目标应用所在终端所采集到的音频信息的音量。

例如，图5是根据本发明实施例的另一种音频的处理方法的示意图，如图5所示，其中，表情502用于表示识别出采集到的音频信息音量过大，难以被有效识别，表情504用于表示识别出采集到的音频信息音量过小，难以被有效识别。

上述仅是一种示例，本实施例不做任何具体限定。

通过本实施例，采用在采集音频信息的过程中，在识别出采集到的音频信息存在音量异常的情况下，在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，目标提示信息用于提示采集到的音频信息存在音量异常的方式，通过在采集音频信息的过程中，一旦识别出采集到的音频信息存在音量异常的情况，即在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，达到了快速反馈音频信息出现音量异常的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

作为一种可选的方案，在采集音频信息的过程中，在识别出采集到的音频信息存在音量异常的情况下，在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，包括：

在采集音频信息的过程中，在识别出采集到的音频信息的音量大于或等于第一音量阈值的情况下，在目标界面中显示第一提示信息，其中，目标提示信息包括第一提示信息，第一提示信息用于提示采集到的音频信息的音量过大；或者

在采集音频信息的过程中，在识别出采集到的音频信息的音量小于或等于第二音量阈值的情况下，在目标界面中显示第二提示信息，其中，目标提示信息包括第二提示信息，第二提示信息用于提示采集到的音频信息的音量过小。

可选地，在本实施例中，上述第一音量阈值以及上述第二音量阈值可以由工作人员进行预先配置，或者，根据不同的音频采集设备进行适应性自动配置，例如，获取多种音频采集设备的音频采样率和编码码率，以实现自动配置上述第一音量阈值或上述第二音量阈值。

可选地，在本实施例中，上述第一提示信息可以包括但不限于与上述第二提示信息相同或者不同，在相同的情况下，将上述第一提示信息与第二提示信息均配置为预先确定的用于表示音频信息存在音量异常的提示信息，在不同的情况下，分别为第一提示信息和第二提示信息配置不同的，对应于采集到的音频信息的音量过大或过小的提示信息。

例如，如图5所示，在识别到采集到的音频信息的音量大于或等于第一音量阈值的情况下，在目标应用的目标界面显示对应于第一提示信息的表情502，在识别到采集到的音频信息的音量小于或等于第二音量阈值的情况下，在目标应用的目标界面显示对应于第二提示信息的表情504，上述仅是一种示例，本实施例不做任何具体的限定。

通过本实施例，采用在采集音频信息的过程中，在识别出采集到的音频信息的音量大于或等于第一音量阈值的情况下，在目标界面中显示第一提示信息，其中，目标提示信息包括第一提示信息，第一提示信息用于提示采集到的音频信息的音量过大，或者，在采集音频信息的过程中，在识别出采集到的音频信息的音量小于或等于第二音量阈值的情况下，在目标界面中显示第二提示信息，其中，目标提示信息包括第二提示信息，第二提示信息用于提示采集到的音频信息的音量过小的方式，通过在采集音频信息的过程中，一旦识别出采集到的音频信息存在音量过大或过小的异常，即在目标界面中对应显示第一提示信息或第二提示信息，达到了快速反馈音频信息出现异常的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

作为一种可选的方案，所述方法还包括：

可选地，在本实施例中，上述第一目标动作可以包括但不限于控制上述表情对象去除用于表示接收音频信息的虚拟设备，例如，上述表情对象去除所佩戴的耳机，以表示当前采集到的音频信息的音量过小，如图4所示，表情404即为上述表情对象执行上述第一目标动作的一种示例。

可选地，在本实施例中，上述第二目标动作可以包括但不限于控制上述表情对象发出用于表示无法接收到音频信息的动作，例如，上述表情对象将虚拟手掌展开放置在虚拟耳部，以表示当前采集到的音频信息的音量过小，如图4所示，表情406即为上述表情对象执行上述第二目标动作的一种示例。

上述仅是一种示例，本实施例不做任何具体的限定。

作为一种可选的方案，方法还包括：

在采集音频信息的过程中，根据采集到的音频信息中声波波形的幅度，确定采集到的音频信息的音量；

在采集到的音频信息的音量处于预定的音量范围之外的情况下，确定采集到的音频信息存在音量异常。

可选地，在本实施例中，上述预定的音量范围可以包括但不限于根据音频信息的波形的最大幅度和最小幅度确定。

例如，图6是根据本发明实施例的另一种音频的处理方法的示意图，如图6所示，上述音频信息的波形包括但不限于原点、最大幅度、最小幅度、预定的音量范围中的最大幅度、预定的音量范围中的最小幅度，在上述最大幅度大于或等于预定的音量范围中的最大幅度或最小幅度小于或等于预定的音量范围中的最小幅度的情况下，确定上述采集到的音频信息的音量处于预定的音量范围之外，进而，确定采集到的音频信息存在音量异常。

上述仅是一种示例，本实施例不做任何具体的限定。

通过本实施例，采用在采集音频信息的过程中，根据采集到的音频信息中声波波形的幅度，确定采集到的音频信息的音量，在采集到的音频信息的音量处于预定的音量范围之外的情况下，确定采集到的音频信息存在音量异常的方式，通过在采集音频信息的过程中，一旦识别出采集到的音频信息的声波波形的最大幅度超过预定的音量范围或最小幅度超过预定音量范围，即在目标界面中对应显示第一提示信息或第二提示信息，达到了快速反馈音频信息出现异常的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

作为一种可选的方案，方法还包括：

在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型为目标情绪类型的情况下，在目标界面中显示第三提示信息，其中，第三提示信息用于提示采集到的音频信息的情绪类型为目标情绪类型。

可选地，在本实施例中，上述情绪类型可以包括但不限于正面情绪类型，例如，狂躁，中性情绪类型，例如，愉快，负面情绪类型，例如，沮丧等人类情绪类型，上述目标情绪类型可以包括但不限于上述的一种情绪类型或其他识别出的情绪类型，上述目标情绪类型可以包括但不限于由音频信息中声波波形的频率或音频信息的音量变化趋势确定。

需要说明的是，可以包括但不限于将上述音频信息的波形按照不同类别进行分类，可以包括但不限于音频信息停顿的时间、音频信息的语速、音频信息的精神、音频信息的强制语言(例如，一定、必须等)。

例如，图7是根据本发明实施例的另一种音频的处理方法的示意图，如图7所示，可以包括但不限于基于音频信息的波形确定，具体而言，图7中示出了3种不同的情绪类型，包括狂躁702、愉快704以及沮丧706，狂躁702情绪类型所对应的波形可以获知该情绪类型的停顿较少、语速较快、精神属性更强以及强制性语言较多，而愉快704情绪类型所对应的波形可以获知该情绪类型不具有明显的停顿、语速平稳、精神属性适中以及强制性语言适中，沮丧706情绪类型所对应的波形可以获知该情绪类型停顿较多、语速较慢、精神属性更弱以及强制性语言较少。

上述仅是一种示例，本实施例不做任何具体限定。

可选地，在本实施例中，上述识别出采集到的音频信息的情绪类型可以包括但不限于基于声纹识别等方式实现。

通过本实施例，采用在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型为目标情绪类型的情况下，在目标界面中显示第三提示信息，其中，第三提示信息用于提示采集到的音频信息的情绪类型为目标情绪类型的方式，通过在采集音频信息的过程中，识别出采集到的音频信息的情绪类型为目标情绪类型，即在目标界面中对应显示第三提示信息，达到了提高与用户的交互效率的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

作为一种可选的方案，在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型为目标情绪类型的情况下，在目标界面中显示第三提示信息，包括：

在采集音频信息的过程中，根据采集到的音频信息中声波波形的频率，识别采集到的音频信息的情绪类型是否为预设的一组情绪类型中的情绪类型；

在识别出采集到的音频信息的情绪类型为一组情绪类型中的情绪类型的情况下，在目标界面中显示第三提示信息，其中，目标情绪类型包括在一组情绪类型中所识别出的情绪类型。

可选地，在本实施例中，上述一组情绪类型可以包括但不限于基于不同维度确定，例如，可以包括但不限于基于上述音频信息的停顿参数、语速参数、精神属性参数、强制性语言数量参数确定，将一组情绪类型中的多个情绪类型按照情绪倾向进行区别，进而，组成上述一组情绪类型，以根据采集到的音频信息中声波波形的频率，识别采集到的音频信息的情绪类型是否为预设的一组情绪类型中的情绪类型。

例如，图8是根据本发明实施例的另一种音频的处理方法的示意图，如图8所示，具体而言，音量大小不同的声音的波形区别在于波形的长短不同，波形越长的，音量越大；波形越短的，音量越小。音调不同的声音的波形区别在于波形的疏密不同。波形越密的，音调越高；波形越疏的，音调越低，进而，图8中波形甲与波形乙的音量大小相同，但乙的音调属性明显高于甲，也即，波形乙对应的情绪类型相较于波形甲更为激动，也更加偏向正面情绪。

通过本实施例，采用在采集音频信息的过程中，根据采集到的音频信息中声波波形的频率，识别采集到的音频信息的情绪类型是否为预设的一组情绪类型中的情绪类型，在识别出采集到的音频信息的情绪类型为一组情绪类型中的情绪类型的情况下，在目标界面中显示第三提示信息，其中，目标情绪类型包括在一组情绪类型中所识别出的情绪类型的方式，通过在采集音频信息的过程中，识别出采集到的音频信息的情绪类型为目标情绪类型，即在目标界面中对应显示第三提示信息，达到了提高与用户的交互效率的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型为第一情绪类型的情况下，在目标界面中显示第一子提示信息，其中，第三提示信息包括第一子提示信息，第一子提示信息用于提示采集到的音频信息的情绪类型为第一情绪类型，第一情绪类型的音频信息中声波波形的频率大于或等于第一频率阈值，一组情绪类型包括第一情绪类型；和/或

在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型为第二情绪类型的情况下，在目标界面中显示第二子提示信息，其中，第三提示信息包括第二子提示信息，第二子提示信息用于提示采集到的音频信息的情绪类型为第二情绪类型，第二情绪类型的音频信息中声波波形的频率小于或等于第二频率阈值，一组情绪类型包括第二情绪类型。

可选地，在本实施例中，可以通过包括但不限于第一情绪类型的音频信息中声波波形的频率大于或等于第一频率阈值的情况下，确定识别出采集到的音频信息的情绪类型为第一情绪类型，进而，在目标界面中显示第一子提示信息。

可选地，在本实施例中，可以通过包括但不限于第一情绪类型的音频信息中声波波形的频率小于或等于第二频率阈值的情况下，确定识别出采集到的音频信息的情绪类型为第二情绪类型，进而，在目标界面中显示第二子提示信息。

需要说明的是，上述第一频率阈值与上述第二频率阈值不相关，可以将第一频率阈值配置为大于上述第二频率阈值，以进一步基于声波波形的频率分析识别得到音频信息对应的情绪类型。

例如，图9是根据本发明实施例的另一种音频的处理方法的示意图，如图9所示，在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型为第一情绪类型的情况下，在目标界面中显示第一子提示信息902，在识别出采集到的音频信息的情绪类型为第二情绪类型的情况下，在目标界面中显示第二子提示信息904。

通过本实施例，采用在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型为第一情绪类型的情况下，在目标界面中显示第一子提示信息，和/或在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型为第二情绪类型的情况下，在目标界面中显示第二子提示信息的方式，通过在采集音频信息的过程中，识别出采集到的音频信息的情绪类型为第一和/或第二情绪类型，即在目标界面中对应显示第一和/或第二提示子信息，达到了提高与用户的交互效率的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型对应于第三情绪类型的情况下，在目标界面中显示第三子提示信息，其中，第三提示信息包括第三子提示信息，第三子提示信息用于提示采集到的音频信息的情绪类型为第三情绪类型，第三情绪类型的音频信息的音量变化趋势为在第一时间段大于或等于第三音量阈值，且在第二时间段小于或等于第四音量阈值，第一时间段为在第二时间段之前的时间段，第三音量阈值大于或等于第四音量阈值，一组情绪类型包括第三情绪类型；或者

在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型对应于第四情绪类型的情况下，在目标界面中显示第四子提示信息，其中，第三提示信息包括第四子提示信息，第四子提示信息用于提示采集到的音频信息的情绪类型为第四情绪类型，第四情绪类型的音频信息的音量变化趋势为在第一时间段小于或等于第三音量阈值，且在第二时间段大于或等于第四音量阈值，第一时间段为在第二时间段之前的时间段，第三音量阈值大于或等于第四音量阈值，一组情绪类型包括第四情绪类型。

可选地，在本实施例中，可以包括但不限于在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型对应于第三情绪类型的情况下，在目标界面中显示第三子提示信息，或者在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型对应于第四情绪类型的情况下，在目标界面中显示第四子提示信息，上述第三情绪类型和第四情绪类型的区别在于第三情绪类型为音频信息在第一时间段内的音量大于音频信息在第二时间段内的音量，第四情绪类型为音频信息在第一时间段内的音量小于音频信息在第二时间段内的音量。

例如，如图7所示，以狂躁情绪702为例，在第一时间段内，音频信息的音量较大，在第二时间段内，音频信息的音量较小，进而，确定该情绪类型为直接狂躁情绪类型，或者，在第一时间段内，音频信息的音量较小，在第二时间段内，音频信息的音量较大，进而，确定该情绪类型为间接狂躁情绪类型，通过确定音频信息中的音量大小起伏较大，以实现确定情绪类型为不同类型的狂躁情绪类型。

通过本实施例，采用在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型对应于第三情绪类型的情况下，在目标界面中显示第三子提示信息，在采集音频信息的过程中，在识别出采集到的音频信息的情绪类型对应于第四情绪类型的情况下，在目标界面中显示第四子提示信息方式，通过在采集音频信息的过程中，识别出采集到的音频信息的情绪类型为第三和/或第四情绪类型，即在目标界面中对应显示第三和/或第四提示子信息，达到了提高与用户的交互效率的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

在采集音频信息的过程中，在识别出采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，目标提示信息用于提示采集到的音频信息存在词语异常。

可选地，在本实施例中，上述目标异常词语可以包括但不限于涉黄、涉政等不允许发送的词语，通过识别出采集到的音频信息所转换的文字是否包括上述目标异常词语，以在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息。

可选地，在本实施例中，上述识别出采集到的音频信息所转换的文字中包括预设的目标异常词语的方式可以包括但不限于将上述音频信息转换为文字，并输入预配置的语言文字模型，以确定是否包括目标异常词语，进而，将是否包括目标异常词语的指示消息发送至目标应用所在终端，以使得目标应用中基于返回的判断结果决定是否在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息。

通过本实施例，采用在采集音频信息的过程中，在识别出采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，目标提示信息用于提示采集到的音频信息存在词语异常的方式，通过在采集音频信息的过程中，识别出采集到的音频信息所转换的词语包括预设的目标异常词语，即在目标界面中对应显示基于表情对象的情绪变化所生成的目标提示信息，达到了实时监测音频信息的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

作为一种可选的方案，方法还包括以下之一：

在识别出采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，删除采集到的音频信息中的第一音频信息，其中，第一音频信息所转换的文字为异常词语；

在识别出采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，使用预设的第二音频信息替换音频信息中的第一音频信息，其中，第二音频信息转换的文字为允许的词语或为无语义的词语；

在识别出采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，在目标界面将目标进度条调整为初始状态，其中，目标进度条用于表示采集音频信息的进度，初始状态用于表示在目标应用中未开始采集音频信息。

可选地，在本实施例中，上述识别出采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，删除采集到的音频信息中的第一音频信息可以包括但不限于将上述包括目标异常词语的音频信息从采集到的音频信息中删除，以确定后续待使用的音频信息不包括上述目标异常词语。上述仅是一种示例，本实施例不做任何具体限定。

需要说明的是，可以包括但不限于与在删除采集到的音频信息中的第一音频信息之后，还可以包括但不限于在目标界面显示用于指示已删除第一音频信息的提示信息。

可选地，在本实施例中，上述在识别出采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，使用预设的第二音频信息替换音频信息中的第一音频信息，其中，第二音频信息转换的文字为允许的词语或为无语义的词语可以包括但不限于将上述包括目标异常词语的音频信息使用预设的第二音频信息替换上述第一音频信息，以确定后续待使用的音频信息不包括上述目标异常词语，上述第二音频信息可以由工作人员预先配置，例如，配置为“***”。上述仅是一种示例，本实施例不做任何具体限定。

需要说明的是，可以包括但不限于与在使用第二音频信息替换采集到的音频信息中的第一音频信息之后，还可以包括但不限于在目标界面显示用于指示已替换第一音频信息的提示信息。

可选地，在本实施例中，上述在识别出采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，在目标界面将目标进度条调整为初始状态可以包括但不限于如图10所示，其中，进度条1002即为目标进度条调整前的状态，进度条1004即为目标进度条调整为初始状态，也即，上述目标进度条处于初始状态用于表示未开始采集音频信息。

通过本实施例，采用在识别出采集到的音频信息所转换的文字中包括预设的目标异常词语的情况下，删除采集到的音频信息中的第一音频信息，使用预设的第二音频信息替换音频信息中的第一音频信息，在目标界面将目标进度条调整为初始状态的方式，通过在采集音频信息的过程中，识别出采集到的音频信息包括目标异常词语的情况下，即使用上述方式修改上述音频信息或目标界面，达到了实时监测音频信息的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

作为一种可选的方案，响应于所述第一交互操作，触发采集音频信息，包括：

可选地，在本实施例中，上述第四提示信息可以包括但不限于表示当前已处于采集音频信息的过程中，上述第三目标动作可以包括但不限于上述表情对象带上虚拟耳机，以表示开始采集音频信息，例如，如图3所示，显示界面304中的表情对象即为上述表情对象执行上述第三目标动作的一种示例。

上述仅是一种示例，本实施例不做任何具体的限定。

在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面中显示目标动画，其中，目标动画用于表示采集到的音频信息存在异常；或者

在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面中弹出用于提示音频信息存在异常的提示信息；或者

可选地，在本实施例中，上述目标动画可以包括但不限于如图4所示的表情作为上述目标动画，上述弹出的提示信息可以包括但不限于如图4中展示的文字提示信息。

可选地，在本实施例中，可以通过为目标进度条配置不同的颜色来表示不同的提示信息。

通过本实施例，采用在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面中显示目标动画，其中，目标动画用于表示采集到的音频信息存在异常；或者在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面中弹出用于提示音频信息存在异常的提示信息的方式，通过在采集音频信息的过程中，识别出采集到的音频信息存在异常，即在目标界面中对应显示目标动画或淡出提示消息，达到了提高与用户的交互效率的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

作为一种可选的方案，方法还包括：

在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面将目标进度条重置为初始状态，其中，目标进度条用于表示音频信息的采集进度，初始状态用于表示在目标应用中未开始采集音频信息。

可选地，在本实施例中，上述在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面将目标进度条重置为初始状态可以包括但不限于如图10所示，其中，进度条1002即为目标进度条调整前的状态，进度条1004即为目标进度条调整为初始状态，也即，上述目标进度条处于初始状态用于表示未开始采集音频信息。

通过本实施例，采用在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面将目标进度条重置为初始状态，其中，目标进度条用于表示音频信息的采集进度，初始状态用于表示在目标应用中未开始采集音频信息的方式，通过在采集音频信息的过程中，识别出采集到的音频信息存在异常，即在目标界面将目标进度条重置为初始状态，达到了提高与用户的交互效率的目的，从而实现了提高音频的处理效率，增强音频处理过程中的交互性，优化用户的音频处理体验的技术效果，进而解决了相关技术中存在的音频的处理效率较低，交互功能较差的技术问题。

下面结合具体的示例，对本实施例进行进一步的解释说明：

首先设置好最佳的音频采样率和对应的音频编码码率，通过Web Audio API和实时语音识别，获取用户录入音量大小、语调，将录入脏词过滤，并根据声纹识别原理将两者的合成进行数学计算，推算出用户当前的情绪，动态改变页面的背景氛围渲染和语音表情图。同时通过实时语音内容审核，获得用户录入内容是否合法，实时通过音频表情图进行反馈。让用户感受操作的强回应。

具体而言，图11是根据本发明实施例的又一种音频信息的处理方法的示意图，如图11所示，包括但不限于如下步骤：

S1，用户录入音频；

S2，开始实时音频流识别；

其中，可以包括但不限于如下内容：

S2-1，Web Audio API与麦克风音频进行连接开始处理音频，并返回用户录入音量大小；

S2-2，Web Audio API上传用户录入音量结合实时声纹识别音频流，返回用户当前情绪；

S2-3，实时语音识别接口服务可过滤脏词(目前支持中文普通话引擎)。默认为0。0：不过滤脏词；1：过滤脏词；2：将脏词替换为*；

S2-4，实时语音内容审核返回语音鉴黄鉴政结果；

S3，音频娃娃做出相应的实时反馈(对应于前述的在目标界面显示基于表情对象的情绪变化所生成的目标提示信息)。

还可以包括但不限于如下内容：

S1，当用户输入声音但识别不了，如声音太小的表情状态，音频娃娃给出疑惑的表情；

S2，正常输入状态，音量大小合理，音频娃娃带着耳机左右晃动；

S3，异常声音输入状态，如监测到输入脏词，笑脸娃娃呈惊讶状态，音频进度条呈红色，高能预警，而后进度条归零，提示用户重新输入；

S4，异常声音输入状态，如声音音量过大，耳机左右震动，笑脸娃娃用手捂住耳朵，脸慢慢变红，音频进度条变橙色，低能预警。

可选地，在本实施例中，上述执行音频处理的应用可以包括但不限于被配置为支持中文普通话、英语、粤语、韩语、日语和方言的识别、支持金融等多种领域模型中音频的识别，支持VAD(语音活动检测)功能、支持识别结果同步返回或尾包返回等，上述执行音频处理的应用通过SDK提交实时语音识别的请求，如果返回的code＝0，表示请求成功，实时语音识别系统会将识别结果实时返回给客户端。

通过本实施例，实时获取用户音频文件根据音量、音速和音调来和大屏幕交互，实时获取用户音频文件根据音量、音速和音调来和大屏幕交互，实时点亮火炬，火炬会根据声纹识别返回的情绪状态来呈现不同的色值(对应于前述的目标动画的一种表现形式，可以通过配置不同的颜色来表示不同的提示信息)。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述音频的处理方法的音频的处理装置。如图12所示，该装置包括：

获取模块1202，用于在目标应用的目标界面中获取第一交互操作，其中，所述第一交互操作用于触发采集音频信息；

触发模块1204，用于响应于所述第一交互操作，触发采集音频信息；

显示模块1206，用于在采集所述音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，所述目标提示信息用于提示所述采集到的音频信息存在异常，所述表情对象为所述目标应用中与所述目标界面关联的对象。

作为一种可选的方案，所述显示模块1206，包括：

作为一种可选的方案，所述第一显示单元用于通过如下方式在采集所述音频信息的过程中，在识别出所述采集到的音频信息存在音量异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的所述目标提示信息：

作为一种可选的方案，所述装置还用于：

作为一种可选的方案，所述装置还包括：

作为一种可选的方案，所述第二显示单元用于通过如下方式在采集所述音频信息的过程中，在识别出所述采集到的音频信息的情绪类型为目标情绪类型的情况下，在所述目标界面中显示第三提示信息：

作为一种可选的方案，所述装置用于通过如下方式在采集所述音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的目标提示信息：

作为一种可选的方案，所述装置还用于执行以下之一的方法：

作为一种可选的方案，所述装置用于通过如下方式响应于所述第一交互操作，触发采集音频信息，包括：

在采集所述音频信息的过程中，在识别出所述采集到的音频信息存在异常的情况下，在所述目标界面将目标进度条重置为初始状态，其中，所述目标进度条用于表示所述音频信息的采集进度，所述初始状态用于表示在所述目标应用中未开始采集音频信息；或者

作为一种可选的方案，所述装置还用于：

根据本发明实施例的又一个方面，还提供了一种用于实施上述音频的处理方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端为例来说明。如图13所示，该电子设备包括存储器1302和处理器1304，该存储器1302中存储有计算机程序，该处理器1304被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，在目标应用的目标界面中获取第一交互操作，其中，第一交互操作用于触发采集音频信息；

S2，响应于第一交互操作，触发采集音频信息；

S3，在采集音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，其中，目标提示信息用于提示采集到的音频信息存在异常，表情对象为目标应用中与目标界面关联的对象。

可选地，本领域普通技术人员可以理解，图13所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图13其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图13中所示更多或者更少的组件(如网络接口等)，或者具有与图13所示不同的配置。

其中，存储器1302可用于存储软件程序以及模块，如本发明实施例中的音频的处理方法和装置对应的程序指令/模块，处理器1304通过运行存储在存储器1302内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频的处理方法。存储器1302可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1302可进一步包括相对于处理器1304远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1302具体可以但不限于用于存储音频信息等信息。作为一种示例，如图13所示，上述存储器1302中可以但不限于包括上述音频的处理装置中的获取模块1202、触发模块1204以及显示模块1206。此外，还可以包括但不限于上述音频的处理装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1306包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1306为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1308，用于显示上述目标提示信息；和连接总线1310，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述音频的处理方面的各种可选实现方式中提供的方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S2，响应于第一交互操作，触发采集音频信息；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频的处理方法，其特征在于，包括：

在目标应用的目标界面中获取第一交互操作；

响应于所述第一交互操作，触发采集音频信息；

2.根据权利要求1所述的方法，其特征在于，在采集所述音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的目标提示信息在采集所述音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在所述目标界面中显示目标提示信息，包括：

在采集所述音频信息的过程中，在识别出所述采集到的音频信息存在音量异常的情况下，在所述目标界面中显示所述目标提示信息显示基于表情对象的情绪变化所生成的所述目标提示信息，其中，所述目标提示信息用于提示所述采集到的音频信息存在音量异常。

3.根据权利要求2所述的方法，其特征在于，在采集所述音频信息的过程中，在识别出所述采集到的音频信息存在音量异常的情况下，在所述目标界面中显示所述目标提示信息显示基于表情对象的情绪变化所生成的所述目标提示信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：：

6.根据权利要求1所述的方法，其特征在于，在采集所述音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，包括：

在采集所述音频信息的过程中，在识别出所述采集到的音频信息的情绪类型为目标情绪类型的情况下，在所述目标界面中显示第三提示信息，其中，所述第三提示信息用于提示所述采集到的音频信息的情绪类型为所述目标情绪类型。

7.根据权利要求6所述的方法，其特征在于，在采集所述音频信息的过程中，在识别出所述采集到的音频信息的情绪类型为目标情绪类型的情况下，在所述目标界面中显示第三提示信息，包括：

8.根据权利要求6所述的方法，其特征在于，在采集所述音频信息的过程中，在识别出所述采集到的音频信息的情绪类型为目标情绪类型的情况下，在所述目标界面中显示第三提示信息，包括：

9.根据权利要求6所述的方法，其特征在于，在采集所述音频信息的过程中，在识别出所述采集到的音频信息的情绪类型为目标情绪类型的情况下，在所述目标界面中显示第三提示信息，包括：

10.根据权利要求1所述的方法，其特征在于，在采集所述音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，包括：

11.根据权利要求10所述的方法，其特征在于，所述方法还包括以下至少之一：

12.根据权利要求1所述的方法，其特征在于，响应于所述第一交互操作，触发采集音频信息，包括：

13.根据权利要求1至12中任一项所述的方法，其特征在于，在采集所述音频信息的过程中，在识别出采集到的音频信息存在异常的情况下，在所述目标界面中显示基于表情对象的情绪变化所生成的目标提示信息，包括：

14.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序可被终端设备或计算机运行时执行所述权利要求1至13任一项中所述的方法。

15.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至13任一项中所述的方法。