CN115966198A

CN115966198A - 音频的处理方法及装置

Info

Publication number: CN115966198A
Application number: CN202111172819.2A
Authority: CN
Inventors: 李向东
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2023-04-14

Abstract

本申请提供一种音频的处理方法及装置，应用于电子设备，所述方法包括：获取音频流，响应于所述音频流的说话方式识别结果指示说话方式需要调整，展示说话方式调整提示信息，和/或，输出说话方式调整后的音频流。展示说话方式调整提示信息以及输出说话方式调整后的音频流，均能实现说话方式识别结果指示说话方式需要调整的情况下，对说话方式的调整，从而能够改进电子设备的音频功能。

Description

音频的处理方法及装置

技术领域

本申请涉及电子信息领域，尤其涉及一种音频的处理方法及装置。

背景技术

随着信息技术的发展，直播这种以多媒体为媒介的线上实时交互方式，已经被广泛应用于各个行业，例如销售、培训、和表演等行业。

因此，用户对电子设备的音频功能的需求越来越高。而目前电子设备的音频功能还有改进的空间。

发明内容

本申请提供了一种音频的处理方法及装置，目的在于解决如何改进电子设备的音频功能的问题。

为了实现上述目的，本申请提供了以下技术方案：

本申请的第一方面提供一种音频的处理方法，应用于电子设备，包括：获取音频流，响应于所述音频流的说话方式识别结果指示说话方式需要调整，展示说话方式调整提示信息，和/或，输出说话方式调整后的音频流。展示说话方式调整提示信息以及输出说话方式调整后的音频流，均能实现说话方式识别结果指示说话方式需要调整的情况下，对说话方式的调整，从而能够改进电子设备的音频功能。

可选的，在所述响应于所述音频流的说话方式识别结果指示说话方式需要调整，展示说话方式调整提示信息，和/或，输出说话方式调整后的音频流之前，还包括：提取所述音频流的说话方式特征，所述说话方式特征包括所述音频流的语音特征、语调特征以及语速特征的至少一项，依据所述音频流的说话方式特征，获得所述音频流的说话方式识别结果。依据音频流的语音特征、语调特征以及语速特征的至少一项，能够提高获得的音频流的说话方式识别结果的准确性。

可选的，所述依据所述音频流的说话方式特征，获得所述音频流的说话方式识别结果，包括：调用目标教练模型和说话方式识别模型的至少一项，依据所述音频流的说话方式特征，获得所述音频流的说话方式识别结果，所述目标教练模型为依据音频输入方预期的音频效果以及所述音频输入方的属性信息的至少一项配置的模型。从两个维度的至少一个维度确定音频流的说话方式识别结果，并且，目标教练模型依据两个维度的至少一个维度配置，能够进一步提高准确性。

可选的，所述目标教练模型的配置流程包括：响应于选择指令，显示教练模型选择界面，所述教练模型选择界面用于接收所述音频输入方预期的音频效果以及所述音频输入方的属性信息的至少一项，响应于所述教练模型选择界面中的操作，显示教练模型推荐界面，响应于所述教练模型推荐界面中的操作，确认被选定的所述目标教练模型。基于交互界面获取目标教练模型的方式，具有较高的用户体验和可实施性。

可选的，所述显示教练模型选择界面，包括：显示第一界面，和/或，显示第二界面，所述第一界面中包括：行业选项、性别选项以及人物模型选项，所述第二界面中包括：音频样本和文本样本的至少一项的接收控件。第一界面和第二界面的划分，有利于向用户展示清晰的选择逻辑，以获取更好的用户使用体验。

可选的，所述教练模型选择界面还包括第三界面；在所述响应于所述教练模型选择界面中的操作，显示教练模型推荐界面之前，还包括：响应于所述音频输入方预期的音频效果与所述音频输入方的属性信息冲突，显示所述第三界面，所述第三界面用于接收对冲突的信息的二次确认信息，以进一步提高目标教练模型与用户期待的效果的贴合程度。

可选的，所述显示教练模型推荐界面，包括：显示包括推荐的教练模型的信息的所述教练模型推荐界面，作为任意一个推荐的教练模型的第一推荐的教练模型的信息包括：图标控件和摘要信息，所述图标控件用于触发所述第一推荐的教练模型的音频的播放，所述摘要信息包括：所述第一推荐的教练模型的语音、语速、语调所属的类别和风格的至少一项的介绍，以便于展示教练模型的更全面的信息，并且有利于用户感知展示的教练模型的信息。

可选的，所述说话方式调整提示信息包括：语音、语调以及语速的至少一项的调整方式；所述说话方式调整后的音频流的获取方式包括：对所述音频流的语音、语调以及语速的至少一项进行处理，得到所述说话方式调整后的音频流。音频流的语音、语调以及语速的至少一项能够反映说话方式，所以调整音频流的语音、语调以及语速的至少一项，能够更好实现对于说话方式的调整。

可选的，在所述展示说话方式调整提示信息，和/或，输出说话方式调整后的音频流之前，还包括：划分所述说话方式特征中的第一类特征和第二类特征；所述第二类特征比所述第一类特征更不易于人工调整；所述展示说话方式调整提示信息，包括：展示所述第一类特征的调整提示信息；所述输出说话方式调整后的音频流，包括：输出所述第二类特征调整后的音频流。将易于人工调整的特征展示调整提示信息，将不易于人工调整的特征进行处理，有利于兼顾处理资源与调整效果。

可选的，还包括：响应于音频采集结束指令，显示反馈界面，所述反馈界面用于接收反馈信息，所述反馈信息包括输出的音频流中的各音频帧的评价信息，以便于收集调整效果的反馈信息。

可选的，还包括：依据所述评价信息满足条件的音频帧的说话方式特征，调整所述说话方式识别模型，以便于优化说话方式识别模型，也有利于提升说话方式识别结果的准确性。

本申请的第二方面提供一种电子设备，包括：显示屏、处理器以及存储器；所述存储器用于存储应用程序，所述处理器用于运行所述应用程序，以实现本申请的第一方面提供的音频的处理方法。

本申请的第三方面提供一种可读存储介质，其上存储有应用程序，在计算机设备运行所述应用程序时，实现本申请的第一方面提供的音频的处理方法。

附图说明

图1为在线直播的场景示例图；

图2为本申请实施例公开的电子设备的结构示例图；

图3为本申请实施例公开的电子设备的软件框架示例图；

图4为本申请实施例公开的一种音频的处理方法的流程图；

图5a为本申请实施例公开的教练模型选择界面的第一界面的示例图；

图5b为本申请实施例公开的教练模型选择界面的第二界面的示例图；

图5c为本申请实施例公开的教练模型选择界面的第三界面的示例图；

图5d为本申请实施例公开的教练模型推荐界面的示例图；

图6为本申请实施例公开的显示说话方式调整提示信息的示例图；

图7为本申请实施例公开的反馈界面的示例图；

图8为本申请实施例公开的又一种音频的处理方法的流程图。

具体实施方式

图1为在线直播的场景示例：

用户通过电子设备采集视频，并通过网络将视频传输至其它设备。

音频是视频的重要组成部分。音频的参数包括：语音(如包括但不限于音高、音强、音长、及音色等技术参数)、语速(如包括但不限于音节的长短及连接的紧松等技术参数)以及语调(如包括但不限于腔调、语气、及停顿等技术参数)。

语音、语速和语调的不同组合，会给听者带来不同的感受：例如，柔和的音色以及适中的音节长度，会带给听者舒服的感觉，而过高的音高以及过少的停顿，会导致听者的不适感，又例如，过于平淡的腔调会导致音频没有特点，而不足以吸引听者。

绝大多数的进行直播的用户，并没有经过发音的专业培训，所以有可能导致听者的感受不佳。

而现有的电子设备缺少以提升直播效果为目的、且针对直播者的音频的指导或者处理，因此，电子设备的音频处理功能有待改进。

针对以上问题，本申请实施例公开了一种音频的处理方法，应用在电子设备。

在一些实施例中，电子设备可以是手机、平板电脑、桌面型、膝上型、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer，UMPC)、手持计算机、上网本、个人数字助理(Personal Digital Assistant，PDA)、可穿戴电子设备、智能手表等设备，本申请对上述智能家居设备、服务器和电子设备的具体形式不做特殊限制。在本实施例中，电子设备以手机为例，结构可以如图2所示，包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。例如，在本申请中，处理器110可以提取音频的特征，并使用模型对音频的特征进行识别，得到识别结果，依据识别结果对音频处理或提供调整提示信息。

其中，控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备充电，也可以用于电子设备与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备的结构限定。在本申请另一些实施例中，电子设备也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flexlight-emittingdiode，FLED)，Miniled，MicroLed，Micro-oled，量子点发光二极管(quantumdot lightemitting diodes，QLED)等。在一些实施例中，电子设备可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备的显示屏194上可以显示一系列图形用户界面(graphical userinterface，GUI)，这些GUI都是该电子设备的主屏幕。一般来说，电子设备的显示屏194的尺寸是固定的，只能在该电子设备的显示屏194中显示有限的控件。控件是一种GUI元素，它是一种软件组件，包含在应用程序中，控制着该应用程序处理的所有数据以及关于这些数据的交互操作，用户可以通过直接操作(direct manipulation)来与控件交互，从而对应用程序的有关信息进行读取或者编辑。一般而言，控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

电子设备可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备可以支持一种或多种视频编解码器。这样，电子设备可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备的各种功能应用以及数据处理。例如，在本实施例中，处理器110可以通过执行存储在内部存储器121中的指令，进行场景编排。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备的各种功能应用以及数据处理。

电子设备可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备可以设置至少一个麦克风170C。在另一些实施例中，电子设备可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

在上述部件之上，运行有操作系统。例如

操作系统、

开源操作系统、

操作系统等。在该操作系统上可以安装运行应用程序。

电子设备的操作系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的

系统为例，示例性说明电子设备的软件结构。

图3是本申请实施例的电子设备的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将

系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。如图3所示，应用程序包可以包括相机，图库，视频等应用程序。在本申请实施例中，应用程序包还可以包括直播，用于提供直播功能。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。如图3所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，资源管理器，通知管理器等。例如，在本申请实施例中，应用程序框架层可以为应用程序层提供直播功能相关的API，并为应用程序层提供直播接口管理服务，以实现直播功能。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Librar ies)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

需要说明的是，本申请实施例虽然以Android系统为例进行说明，但是其基本原理同样适用于基于iOS或Windows等操作系统的电子设备。

结合图3所示的软件框架，直播过程中的音频功能的实现一种示例流程为：

麦克风采集到音频流后，通过内核层传输至媒体库，媒体库处理后的音频流传输至应用程序框架层中直播功能相关的API，再由直播功能相关的API处理后传输至应用程序层的直播应用程序。

图4为本申请实施例公开的一种音频的处理方法，包括以下步骤：

S401、响应于选择指令，显示教练模型选择界面。

可以理解的是，选择指令可以由用户对电子设备的操作触发，操作包括但不限于：在交互界面上的操作、和对按键的操作。按键包括实体或虚拟按键。操作的一种示例为双击电源键。

教练模型是指，能够实现一定的音频效果的音频参数的组合。电子设备中可以预先配置至少一个教练模型。

可以理解的是，用户预期的音频效果，可以通过选择教练模型实现。

在一些实现方式中，教练模型选择界面包括第一界面，第一界面用于接收用户预期的教练模型的属性信息，教练模型的属性信息包括但不限于：行业、性别以及风格。

例如图5a所示，第一界面中显示的行业选项包括：售货、培训、主持以及脱口秀。第一界面中显示的性别选项包括男和女。第一界面中显示的风格选项包括人物模型，例如直播卖货的一些知名主播、培训行业的知名教师、脱口秀行业的知名演员等。

可以理解的是，图5a中的控件仅为示例，本实施例不限定控件的样式和操作方式。

教练模型选择界面还包括第二界面，第二界面用于接收用户的属性信息。用户的属性信息包括：音频样本和文本样本的至少一项。音频样本为用户的一段语音。文本样本为用户将要录制的一段话的文本。

例如图5b所示，第二界面包括音频样本的输入控件“请输入语音”，以及文本样本的输入控件“请导入文本”。用户可以点击音频样本输入控件输入语音，作为音频样本，通过点击文本样本输入控件输入文本。可以理解的是，在用户输入语音的情况下，可以不输入文本，而电子设备通过对语音进行文本识别得到文本样本。

可以理解的是，第二界面的控件的样式和操作方式不做限定。

从上述说明可以看出，教练模型的选择依据包括两个维度：用户期待的效果和用户实际的情况，即第一界面接收的教练模型的属性信息，代表了用户期望音频能够实现的效果，第二界面接收的用户的属性信息，代表了用户将要录制的音频的实际情况。这两个维度的结合，作为教练模型的选择依据，既能够满足用户的期待，又能够以用户的实际条件为基础，所以，既能够实现预期的直播效果又能够体现用户的个性化需求。

可以理解的是，第二界面的显示可以由第一界面中的选择操作触发，例如，用户在图5a中完成选择后，触发从第一界面跳转至图5b所示的第二界面。或者，第一界面与第二界面还可以同时显示在电子设备的屏幕的不同区域，在此情况下，第一界面与第二界面之间不存在上述触发关系。

S402、响应于教练模型选择界面中的操作，显示教练模型推荐界面。

可以理解的是，依据第一界面和第二界面接收的信息，从预先配置的教练模型库中，筛选与第一界面和第二界面接收的信息匹配度较高的至少一个教练模型，作为推荐的教练模型。

在某些实现方式中，依据第一界面和第二界面接收的信息筛选推荐的教练模型的方式为：筛选出符合第一界面接收的教练模型的属性信息的候选模型，再按照第二界面接收的用户的属性信息提取的特征，从候选模型中筛选推荐的多个教练模型。

可以理解的是，可以按照匹配程度对多个推荐的教练模型排序显示。

需要说明的是，如果第一界面和第二界面接收的信息确定的教练模型冲突，例如，第一界面接收到的行业选项为“培训”，第二界面接收到的音频样本分析得到的行业为“脱口秀”，则可以显示第三界面，第三界面用于显示冲突提示，提示用户预期的模型与实际样本(前述音频样本和文本样本的至少一项)确定的模型存在冲突，第三界面还用于接收二次确认信息。二次确认信息为用户输入的，从冲突的信息中选择的信息。

例如，如图5c所示，第三界面中显示提示信息“请重新选择行业”，在第三界面接收到输入信息后，根据输入信息，以及已获取的信息，筛选推荐的教练模型。

如图5d所示，推荐的教练模型以列表形式显示，列表中越靠前的教练模型与第一界面和第二界面接收的信息的匹配程度越高。

图5d中，每个教练模型可以显示为图标和摘要信息，图标表示性别信息，摘要信息包括语音、语速、语调和风格的简要介绍。可选的，每个教练模型的图标为控件样式，图标控件被点击后，播放该教练模型的音频，以便于用户直观感受到该教练模型的音频风格。

S403、响应于在教练模型推荐界面的操作，确认用户选定的教练模型。

为了便于区分，这里将用户选定的教练模型称为目标教练模型。

S404、在获取音频流后，提取音频流的说话方式特征。

在某些实现方式中，可以通过麦克风采集音频流以获取音频流。

本实施例中，说话方式特征包括：语音特征、语速特征以及语调特征的至少一项。可以理解的是，提取的音频特征越多，后续对用户的提醒或者对音频的处理就越精确。

在某些实现方式中，语音特征可以包括至少一种技术参数，例如音高等。语音特征具体包括哪种技术参数，可以预先配置。语速特征和语调特征也类似。

可以使用预先配置的特征提取模型提取音频流的音频特征。

S405、调用目标教练模型和预先配置的说话方式识别模型，获得音频流的说话方式识别结果。

说话方式识别模型由该用户满意的音频片段提取的说话方式特征构成。用户满意的音频片段可以由用户预先录制存储，还可以为用户从已完成的直播录像中，截取的音频片段，用户满意的音频片段的获取方式的示例可以参见S408-S409以及图7所示。

在某些实现方式中，依据上述两种模型获取说话方式识别结果的方式为：在说话方式识别模型中的说话方式特征的数量不大于预设数量的情况下，说明说话方式识别模型中的特征的数量不足，所以，为了保证说话方式识别结果的准确性，使用目标教练模型获得音频流的说话方式识别结果，而在说话方式识别模型中的说话方式特征的数量大于预设数量的情况下，说明说话方式识别模型中的特征的数量足以获得准确的方式识别结果，所以，使用说话方式识别模型获得音频流的说话方式识别结果。

说话方式识别结果为：说话方式无需调整或者说话方式需要调整。响应于说话方式识别结果为说话方式需要调整，执行S406以及S407的至少一项：

S406、展示说话方式调整提示信息。

说话方式调整提示信息用于指示语音、语速和语调的至少一项的调整方式。

在某些实现方式中，显示说话方式调整提示信息，例如图6所示，说话方式调整提示信息为“请说慢一点”。用户在直播的过程中，看到屏幕上的说话方式调整提示信息后，在后续直播中，可以按照提示信息放慢语速。

在另一些实现方式中，以语音播放说话方式调整提示信息。可以在直播前，通过设置界面上用户的操作，确定用户选定的展示方式。可以理解的是，语音形式的调整提示信息，可以通过某个声道输出至特定的接收设备，直播者佩戴该接收设备，而观看直播的观众不会听到语音形式的调整提示信息。

S407、调用目标教练模型对识别结果为说话方式需要调整的音频流进行处理，并输出处理后的音频流。

处理方式可以为针对语音、语速和语调的至少一项进行处理。以语音为例，可以对语音特征中的至少一项技术参数进行处理，以实现对语音的处理。

S406和S407的选择依据为：依据预先配置的方式执行，可以在直播前，通过设置界面上用户的操作，确定用户选定的执行步骤。或者，以S406提示非个性化而易于人工调整的参数，例如语速，以S407处理偏个性化而不易人工调整的参数，例如腔调。为了便于说明，将非个性化而易于人工调整的参数称为第一类特征，将偏个性化而不易人工调整的参数称为第二类特征。第一类特征、以及第二类特征均可以预先配置。

进一步的，还可以，依据用户对于处理后的音频流的满意程度调整第一类特征和第二类特征，具体将结合S409进行说明。

可以理解的是，偏个性化的参数，是长期说话习惯下的参数，所以用户难以短时间内调整，即不易于人工调整，所以，自动调整有利于降低用户的操作难度。

可选的，在直播结束后，还可以执行以下步骤，以利用用户反馈的信息优化说话方式识别模型。

S408、响应于直播结束指令，显示反馈界面。

反馈界面用于接收反馈信息。

在一些实现方式中，反馈界面中对应显示：直播中输出的音频帧的播放控件以及评价控件。可以理解的是，用户可以通过操作播放控件收听音频帧，并通过评价控件反馈该帧音频的评价信息。以图7为例，音频帧的播放控件为播放按钮，播放按钮左侧对应显示音频帧的编号。评价控件为评分控件，由用户通过选择星号的数量输入评分。这种实现方式中，偏重的是对用户对播出的音频的音效的评价意见的收集。对应于这种实现方式，可以执行步骤S409。

S409、依据评价信息满足条件的音频帧的说话方式特征，调整说话方式识别模型。

在某些实现方式中，将评价信息满足条件的音频帧的说话方式特征，加入说话方式识别模型。

具体的，评价信息满足条件，可以为评价分数大于预设的分数阈值。S409使得说话方式识别模型能够越用越满足用户的需求。

在另一些实现方式中，依据处理后音频帧的评价信息，调整第一类特征和第二类特征，具体的，处理后的音频特征的评价分数大于预设的分数阈值，说明用户对于自动处理的方式满意，则可以保留这种自动处理方式，则将这种自动处理方式针对的参数，作为第二类特征。反之，处理后的音频特征的评价分数小于预设的分数阈值，说明用户对于自动处理的方式不满意，则不再自动处理这类参数，将这种自动处理方式针对的参数，作为第一类特征。

从图4所示的流程可以看出，电子设备具有对直播中的音频流反映的说话方式进行调整或提示直播者调整的功能，有利于获得更好的直播效果。

并且，教练模型的筛选依据为用户的预期和实际情况，说话方式识别模型由该用户满意的音频片段提取的特征构成，所以使得调整后或处理后的音频更贴合用户的需求。

进一步的，反馈信息用于调整说话方式识别模型，也使得直播音频更满足用户的预期。

综上所述，图4所示的音频的处理方法，对电子设备的音频功能进行了改进，有利于输出用户更为满意的音频。

图4所示的流程，并不限定于直播场景，还可以应用在练习场景中，例如为直播做准备的练习场景。与直播场景相比，练习场景下，电子设备仅采集视频流而不向外传输视频流。

在练习场景下的音频的处理方法，与图4所示的流程相比，区别在于：增加显示练习文稿的步骤，以及适应于练习场景的说话方式调整提示信息的展示方式。

因为在直播场景的实时性要求较高，所以，图4所示的流程中，可以将展示调整提示信息与自动处理相结合，而在练习场景下，可以不执行自动处理的步骤即S407。

并且，在直播场景下，为了不过于分散用户的精力而影响直播的效果，调整提示信息尽量简短。而在练习场景下，调整提示信息可以更为详尽，以使得用户实现充分练习的效果。

本申请实施例公开的又一种音频的处理方法，如图8所示：

S801-S803与S401-S403类似，区别在于：

用户可以通过练习控件触发练习模式，在练习模式下，按照图5a-图5c的方式选择目标教练模型，其中，在第二界面中输入的文本样本可以为练习文稿。例如，对商品的介绍词，或者，培训的课件等。

S804为新增步骤：在练习模式下开始录制音频流后，电子设备的屏幕上显示标注后的练习文稿。标注内容包括但不限于：重音标注、和停顿标注等。例如在练习文稿中以粗体标注需要重音的文字、并在句子中标注停顿符号。在某些实现方式中，可以使用预先训练的模型，确定文本中的标注内容。

可以理解的是，用户可以按照标注后的练习文稿发出语音。

S805-S806与S404-S405相同，这里不再赘述。

S807中，调整提示信息除了可以为图4所示的流程中的调整提示信息之外，还可以增加相比于标注后的练习文稿的错误提示信息。例如，以特定颜色、形状等显示的与标注后的练习文稿中不一致的重音和停顿等。

S808-S809与S408-S409相同，这里不再赘述。可以理解的是，S808中评价信息满足条件的音频帧的特征，不仅可以加入练习模式下的说话方式识别模型，还可以加入直播模式下的说话方式识别模型。目的在于尽快使得说话方式识别模型贴近用户的需求。

可以理解的是，在图4或图8所示的流程中，选择训练模型的步骤即S401-S403、S801-S803为可选步骤，可以不执行，在此情况下，仅使用说话方式识别模型获得音频流的说话方式识别结果。或者可以执行一次，在用户选定教练模型后，只要用户不再触发新的教练模型的选择，则沿用已选择的教练模型。

Claims

1.一种音频的处理方法，应用于电子设备，其特征在于，包括：

获取音频流；

响应于所述音频流的说话方式识别结果指示说话方式需要调整，展示说话方式调整提示信息，和/或，输出说话方式调整后的音频流。

2.根据权利要求1所述的方法，其特征在于，在所述响应于所述音频流的说话方式识别结果指示说话方式需要调整，展示说话方式调整提示信息，和/或，输出说话方式调整后的音频流之前，还包括：

提取所述音频流的说话方式特征；所述说话方式特征包括所述音频流的语音特征、语调特征以及语速特征的至少一项；

依据所述音频流的说话方式特征，获得所述音频流的说话方式识别结果。

3.根据权利要求2所述的方法，其特征在于，所述依据所述音频流的说话方式特征，获得所述音频流的说话方式识别结果，包括：

调用目标教练模型和说话方式识别模型的至少一项，依据所述音频流的说话方式特征，获得所述音频流的说话方式识别结果，所述目标教练模型为依据音频输入方预期的音频效果以及所述音频输入方的属性信息的至少一项配置的模型。

4.根据权利要求3所述的方法，其特征在于，所述目标教练模型的配置流程包括：

响应于选择指令，显示教练模型选择界面，所述教练模型选择界面用于接收所述音频输入方预期的音频效果以及所述音频输入方的属性信息的至少一项；

响应于所述教练模型选择界面中的操作，显示教练模型推荐界面；

响应于所述教练模型推荐界面中的操作，确认被选定的所述目标教练模型。

5.根据权利要求4所述的方法，其特征在于，所述显示教练模型选择界面，包括：

显示第一界面，和/或，显示第二界面；

所述第一界面中包括：行业选项、性别选项以及人物模型选项；

所述第二界面中包括：音频样本和文本样本的至少一项的接收控件。

6.根据权利要求5所述的方法，其特征在于，在所述响应于所述教练模型选择界面中的操作，显示教练模型推荐界面之前，还包括：

响应于所述音频输入方预期的音频效果与所述音频输入方的属性信息冲突，显示第三界面，所述第三界面用于接收对冲突的信息的二次确认信息。

7.根据权利要求4-6任一项所述的方法，其特征在于，所述显示教练模型推荐界面，包括：

显示包括推荐的教练模型的信息的所述教练模型推荐界面；

第一推荐的教练模型的信息包括：图标控件和摘要信息，所述图标控件用于触发所述第一推荐的教练模型的音频的播放，所述摘要信息包括：所述第一推荐的教练模型的语音、语速、语调所属的类别和风格的至少一项的介绍，所述第一推荐的教练模型为任意一个推荐的教练模型。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述说话方式调整提示信息包括：

语音、语调以及语速的至少一项的调整方式；

所述说话方式调整后的音频流的获取方式包括：

对所述音频流的语音、语调以及语速的至少一项进行处理，得到所述说话方式调整后的音频流。

9.根据权利要求1-8任一项所述的方法，其特征在于，在所述展示说话方式调整提示信息，和/或，输出说话方式调整后的音频流之前，还包括：

划分所述说话方式特征中的第一类特征和第二类特征；所述第二类特征比所述第一类特征更不易于人工调整；

所述展示说话方式调整提示信息，包括：

展示所述第一类特征的调整提示信息；

所述输出说话方式调整后的音频流，包括：

输出所述第二类特征调整后的音频流。

10.根据权利要求1-9任一项所述的方法，其特征在于，还包括：

响应于音频采集结束指令，显示反馈界面，所述反馈界面用于接收反馈信息，所述反馈信息包括输出的音频流中的各音频帧的评价信息。

11.根据权利要求10所述的方法，其特征在于，还包括：

依据所述评价信息满足条件的音频帧的说话方式特征，调整所述说话方式识别模型。

12.一种电子设备，其特征在于，包括：

显示屏、处理器以及存储器；

所述存储器用于存储应用程序，所述处理器用于运行所述应用程序，以实现权利要求1-11任一项所述的音频的处理方法。

13.一种可读存储介质，其上存储有应用程序，其特征在于，在计算机设备运行所述应用程序时，实现权利要求1-11任一项所述的音频的处理方法。