CN113840034B

CN113840034B - 声音信号处理方法和终端设备

Info

Publication number: CN113840034B
Application number: CN202111427502.9A
Authority: CN
Inventors: 高海宽; 玄建永; 刘镇亿
Original assignee: Honor Device Co Ltd
Current assignee: Beijing Honor Device Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-05-20
Anticipated expiration: 2041-11-29
Also published as: CN113840034A

Abstract

本申请提供一种声音信号处理方法和终端设备，涉及终端技术领域。该声音信号处理方法，在基于第N段参数得到的第N段声音信号时，基于第N参数得到第N段声音信号，以及基于预设的参数得到第N段信号。另外，第N参数是利用参数更新模型基于第N‑1段声音信号、第N‑1个评估值以及第N‑1参数得到的。如此，说明第N参数得到第N段声音信号的质量被提高。在基于第N参数得到第N段声音信号的第N个评估值与第N‑1个评估值的差值小于或等于预设的阈值的情况下，可以将预设的参数更新为第N参数。进而，在后续录制或播放的基于第N参数得到第N+1段声音信号的质量高。

Description

声音信号处理方法和终端设备

技术领域

本申请涉及终端技术领域，尤其涉及一种声音信号处理方法和终端设备。

背景技术

目前，随着终端技术的发展，终端设备已经成为人们工作生活的一部分。人们可以利用终端设备实现对采集的声音录制或播放的功能，方便了人们的生活。

通常情况下，人们在触发终端设备的声音录制或播放的功能后，可以根据预置的声音调节参数获取的声音信号。然后，录制或播放的声音信号。

然而，可以理解地，由于声源的不同，声音信号的频率、振幅以及波形不同；另外，由于声源的所处的环境不同，声音信号受到的干扰也不同。如此，若基于同一预置的目标参数，获得不同的声源产生的声音信号，或者对处于不同环境的声源产生的声音信号进行调节。这样一来，可能会导致在后续录制或播放的声音信号的质量仍然较低。

发明内容

本申请提供一种声音信号处理方法和终端设备，以改善录制或播放的声音信号的质量仍然较低的问题。

第一方面，本申请提供了一种声音信号处理方法，包括：第一终端基于第N参数得到第N段声音信号，以及基于预设的参数得到第N段信号。其中，第N参数是第一终端利用参数更新模型基于第N-1段声音信号、第N-1个评估值以及第N-1参数得到的，N为大于1的整数。第一终端录制或播放基于预设的参数得到第N段声音信号。第一终端基于第N参数得到第N段声音信号，进行质量评估，得到第N个评估值。若第N个评估值与第N-1个评估值的差值小于或等于预设的第一评估阈值，则第一终端将预设的参数更新为第N参数。第一终端基于第N参数得到第N+1段声音信号。第一终端录制或播放基于第N参数得到的第N+1段声音信号。

本申请提供的声音信号处理方法，在基于第N段参数得到的第N段声音信号时，第一终端基于第N参数得到第N段声音信号，以及基于预设的参数得到第N段信号。可以理解地，预设的参数未经过参数更新模型更新，进而，第一终端的录制或播放的基于预设的参数得到的第N段声音信号的质量较低。另外，第N参数是第一终端利用参数更新模型基于第N-1段声音信号、第N-1个评估值以及第N-1参数得到的。如此，说明第N参数得到第N段声音信号的质量被提高。另外，在基于第N参数得到第N段声音信号的第N个评估值与第N-1个评估值的差值小于或等于预设的阈值的情况下，说明基于第N参数得到第N段声音信号的第N个评估值已经被提高，且再提高的空间较小。这样一来，第一终端可以将预设的参数更新为第N参数。进而，在后续录制或播放的基于第N参数得到第N+1段声音信号的质量高。如此，可以使得第一终端录制或播放的声音信号的质量越变越好。另外，由于目标参数是根据声音信号的评估值自适应更新的，则该声音信号处理方法可以适用于提高任一声源在任一环境下产生的声音信号的质量，适用范围广。

在一种可选的实施方式中，若第N个评估值与第N-1个评估值的差值小于或等于预设的第一评估阈值，则第一终端将预设的参数更新为第N参数，包括：若第N个评估值与第N-1个评估值的差值小于或等于预设的第一评估阈值，则判断第N个评估值与第1个评估值的差值是否大于预设的第二评估阈值。其中，第1个评估值为第一终端对基于第1参数获取的第1段声音信号进行质量评估得到的。若大于预设的第二评估阈值，则第一终端将预设的参数更新为第N参数。

这样一来，在第N个评估值与第N-1个评估值的差值小于预设的第一评估阈值的情况下，说明第N个评估值的取值相对于第N-1个评估值的取值的提高幅度较小，则若再对基于参数更新模型对第N参数更新，得到第N+1参数，使得基于第N+1参数获取的第N+1段声音信号的第N+1评估值的取值与第N段声音信号的第N个评估值的差值，也会小于预设的第一评估阈值。即是说，即使对第N参数更新得到第N+1参数，获取的第N+1段声音信号相对于第N段声音信号的质量的提高幅度不高，进而更新第N参数得到第N+1参数的意义不大，则不再更新第N参数。如此，可以避免频繁的更新参数，节省计算资源。

在一种可选的实施方式中，参数更新模型为强化学习模型，其中，第N-1段声音信号为强化学习模型的状态，更新第N-1参数为第N参数为强化学习模型的动作，第N-1个评估值为强化学习模型的奖励。

在一种可选的实施方式中，在第一终端基于第N参数得到第N段声音信号，以及基于预设的参数得到第N段信号之前，本申请提供的声音信号处理方法还包括：第一终端基于第N-1参数得到第N-1段声音信号。第一终端对第N-1段声音信号进行质量评估，得到第N-1个评估值。若第N-1个评估值与第N-2个评估值的差值大于预设的第一评估阈值，则利用参数更新模型基于第N-1段声音信号、第N-1个评估值更新第N-1参数，得到第N参数。其中，第N-2个评估值是第一终端对基于第N-2参数得到的第N-2段声音信号进行质量评估得到的，其中，N为大于2的整数。

可以理解地，在第N-1个评估值与第N-2个评估值的差值大于预设的第一评估阈值的情况下，说明第N-1个评估值的取值相对于第N-2个评估值的取值的提高幅度较大，则说明仍然可以对第N-1参数更新，得到第N参数，使得后续基于第N参数获取的第N段声音信号的质量更高。

在一种可选的实施方式中，第N段声音信号和第N-1段声音信号为来自第二终端的声音信号，或者为来自第一终端所处环境的声音信号。

可见，本申请提供的声音信号处理方法可以适用于不同来源的声音信号，应用范围广。

进一步地，第N段声音信号为来自第二终端的声音信号。第一终端基于第N参数得到第N段声音信号，以及基于预设的参数得到第N段信号之前，本申请提供的方法还包括：第一终端接收来自第二终端的通话请求，通话请求携带有目标联系人的信息。若第一终端接收到携带有目标联系人的信息的通话请求的次数大于预设的次数阈值，则调用与目标联系人的信息关联的参数作为预设的参数。若第一终端接收到目标联系人的信息的通话请求的次数小于或等于预设的次数阈值，则调用预存储的默认参数作为预设的参数。

可以理解地，当调用的参数为与目标联系人的信息关联的参数时，参数被更新的次数较小即可使得相邻的两段声音信号之间的评估值的差值小于预设的第一评估阈值。这样，第一终端可以较快的获取到质量高的声音信号且节省计算资源。

在一种可选的实施方式中，第一终端基于第N参数得到第N段声音信号，进行质量评估，得到第N个评估值，包括：第一终端提取第N段声音信号的声音特征。第一终端利用质量评估模型对声音特征进行质量评估，得到多个质量评估指标值。第一终端对多个质量评估指标值加权平均，得到第N个评估值。

可见，第N个评估值是基于多个质量评估指标值得到的，可靠性高。

在一种可选的实施方式中，第N参数、第N-1参数以及预设的参数包括：第一终端的自动增益控制AGC模块的增益控制参数。和/或，第一终端的DRC动态范围控制模块在不同时域上的增益控制参数。和/或，第一终端的均衡器在不同频域上的增益控制参数。

和/或，第一终端的降噪模块的降噪参数。

在一种可选的实施方式中，在第一终端录制或播放基于第N参数得到的第N+1段声音信号之后，本申请提供的方法还包括：第一终端基于第N参数得到第N+2段声音信号。

第一终端录制或播放基于第N参数得到的第N+2段声音信号。

由于第N参数是终端设备利用参数更新模型基于第N-1段声音信号、第N-1个评估值以及第N-1参数得到的。如此，基于第N参数得到第N段声音信号的质量被提高。另外，在基于第N参数得到第N段声音信号的第N个评估值与第N-1个评估值的差值小于或等于预设的阈值的情况下，说明基于第N参数得到第N段声音信号的第N个评估值已经被提高，且再提高的空间较小。这样一来，终端设备可以将预设的参数更新为第N参数。进而，在后续播放的基于第N参数得到第N+2段声音信号的质量高。

第二方面，本申请提供了一种声音信号处理装置，包括：信号获取单元，用于基于第N参数得到第N段声音信号，以及基于预设的参数得到第N段信号。其中，第N参数是第一终端利用参数更新模型基于第N-1段声音信号、第N-1个评估值以及第N-1参数得到的，N为大于1的整数。信号输出单元，用于录制或播放基于预设的参数得到第N段声音信号。处理单元，用于基于第N参数得到第N段声音信号，进行质量评估，得到第N个评估值。若第N个评估值与第N-1个评估值的差值小于或等于预设的第一评估阈值，则处理单元还用于将预设的参数更新为第N参数。信号获取单元，还用于基于第N参数得到第N+1段声音信号。信号输出单元，还用于录制或播放基于第N参数得到的第N+1段声音信号。

第三方面，本申请还提供一种终端设备，包括处理器和存储器，存储器用于存储代码指令；处理器用于运行代码指令，使得终端设备以执行如第一方面或第一方面的任一种实现方式中描述的声音信号处理的方法。

第四方面，本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有指令，当指令被执行时，使得计算机执行如第一方面或第一方面的任一种实现方式中描述的声音信号处理的方法。

第五方面，本申请还提供一种计算机程序产品，包括计算机程序，当计算机程序被运行时，使得计算机执行如第一方面或第一方面的任一种实现方式中描述的声音信号处理的方法。

应当理解的是，本申请的第二方面至第五方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1为手机100接听联系人的手机200的通话的界面示意图；

图2为本申请实施例提供的第一终端的硬件系统架构示意图；

图3为本申请实施例提供的第一终端的硬件系统架构示意图；

图4为本申请实施例提供的声音信号处理方法的流程图；

图5为本申请实施例提供的手机100获取来自手机200的声音信号并播放的架构示意图；

图6为本申请实施例提供的手机100获取声音信号并向手机200发送声音信号的架构示意图；

图7为本申请实施例提供的手机100在即时聊天应用获取来自手机200的声音信号的界面示意图；

图8为本申请实施例提供的手机100在相机应用录制视频时，获取声音信号的界面示意图；

图9为本申请实施例提供的声音信号处理装置的功能模块框图；

图10为本申请实施例提供的一种终端设备的硬件结构示意图；

图11为本申请实施例提供的一种芯片的结构示意图。

具体实施方式

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一值和第二值仅仅是为了区分不同的值，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项（个）”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b，或c中的至少一项（个），可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

如图1所示，手机100接收到来自位于公交车上的联系人A的通话请求。进而，手机100显示第一界面101，第一界面101包括接听控件102。进而，手机100响应于用户对接听控件102的触发操作，开始基于预设的默认参数获取来自联系人A的声音信号。进而，手机100播放基于预设的默认参数获取的联系人A的声音信号。

在一段时间后，手机100又接收到来自位于办公室的联系人B的通话请求。进而，手机100显示第一界面101，第一界面101包括接听控件102。如此，手机100响应于用户对接听控件102的触发操作，开始基于预设的默认参数获取来自联系人B的声音信号。进而，手机100播放基于预设的默认参数获取的联系人B的声音信号。

可见，在上述的过程中，手机100无论是对位于公交车上的联系人A的声音信号，还是对位于办公室的联系人B的声音信号，均使用预设的默认参数获取。这样，由于联系人A和联系人B发出的声音信号的频率、振幅以及波形不同；另外，由于联系人A和联系人B的所处的环境不同，二者发出的声音信号受到的干扰也不同。如此，若基于同一固定不变的预设的默认参数，获取不同的联系人A和联系人B产生的声音信号。这样一来，可能会导致在手机100播放的联系人A和联系人B的声音信号的质量低。

有鉴于此，本申请提供的声音信号处理方法，第一终端基于第N参数得到第N段声音信号，以及基于预设的参数得到第N段信号。其中，第N参数是第一终端利用参数更新模型基于第N-1段声音信号、第N-1个评估值以及第N-1参数得到的，N为大于1的整数。第一终端播放基于预设的参数得到第N段声音信号。第一终端基于第N参数得到第N段声音信号，进行质量评估，得到第N个评估值。若第N个评估值与第N-1个评估值的差值小于或等于预设的阈值，则第一终端将预设的参数更新为第N参数。第一终端基于第N参数得到第N+1段声音信号。第一终端录制或播放基于第N参数得到的第N+1段声音信号。

本申请提供的声音信号处理方法，在基于第N段参数得到的第N段声音信号时，第一终端基于第N参数得到第N段声音信号，以及基于预设的参数得到第N段信号。可以理解地，预设的参数未经过参数更新模型更新。进而，第一终端的录制或播放的基于预设的参数得到的第N段声音信号的质量较低。另外，第N参数是第一终端利用参数更新模型基于第N-1段声音信号、第N-1个评估值以及第N-1参数得到的。如此，说明第N参数得到第N段声音信号的质量被提高。另外，在基于第N参数得到第N段声音信号的第N个评估值与第N-1个评估值的差值小于或等于预设的阈值的情况下，说明基于第N参数得到第N段声音信号的第N个评估值已经被提高，且再提高的空间较小。这样一来，第一终端可以将预设的参数更新为第N参数。进而，在后续录制或播放的基于第N参数得到第N+1段声音信号的质量高。如此，可以使得第一终端录制或播放的声音信号的质量越变越好。

可以理解的是，上述第一终端也可以称为终端，（terminal）、用户设备（userequipment，UE）、移动台（mobile station，MS）、移动终端（mobile terminal，MT）等。第一终端可以是手机（mobile phone）、智能电视、穿戴式设备、平板电脑（Pad）、带无线收发功能的电脑、虚拟现实（virtual reality，VR）第一终端、增强现实（augmented reality，AR）第一终端、工业控制（industrial control）中的无线终端、无人驾驶（self-driving）中的无线终端、智慧家庭（smart home）中的无线终端等等。本申请的实施例对第一终端所采用的具体技术和具体设备形态不做限定。

为了能够更好地理解本申请实施例，下面对本申请实施例的第一终端的结构进行介绍。示例性的，图2为本申请实施例提供的一种第一终端的结构示意图。

第一终端可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线（universal serial bus，USB）接口130，充电管理模块140，电源管理模块141，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，传感器模块180，按键190，指示器192，摄像头193，以及显示屏194等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对第一终端的具体限定。在本申请另一些实施例中，第一终端可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器110中还可以设置存储器，用于存储指令和数据。

移动通信模块150可以提供应用在第一终端上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器（low noise amplifier，LNA）等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。

无线通信模块160可以提供应用在第一终端上的包括无线局域网（wirelesslocalarea networks，WLAN）（如无线保真（wireless fidelity，Wi-Fi）网络），蓝牙（bluetooth，BT），全球导航卫星系统（global navigation satellite system，GNSS），调频（frequencymodulation，FM）等无线通信的解决方案。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展第一终端的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。例如，内部存储器121可以存储有用于获取声音信号的参数，如与联系人关联的参数或默认参数。

第一终端可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。第一终端可以通过扬声器170A收听音乐，或收听免提通话。受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当第一终端接听电话时，可以通过将收话器170B靠近人耳接听声音。声音获取模块170C，可以包括麦克风和声音调制模块。其中，麦克风也称“话筒”，“传声器”，用于将声音信号转换为电信号。声音调制模块用于对转换后的声音信号进行调制，如对声音信号的各个频段的增益和噪声进行处理。

第一终端的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构等，在此不再赘述。

本申请实施例以分层架构的Android系统为例，示例性说明终端设备100的软件结构。图3为本申请实施例适用的终端设备100的一种软件结构框图。分层架构将终端设备100的软件系统分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，可以将Android系统分为五层，分别为应用程序层（applications）、应用程序框架层（application framework）、安卓运行时(Android runtime)和系统库、硬件抽象层（hardware abstract layer，HAL）以及内核层（kernel）。

应用程序层可以包括一系列应用程序包，应用程序层通过调用应用程序框架层所提供的应用程序接口（application programming interface，API）运行应用程序。如图3所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供API和编程框架。应用程序框架层包括一些预先定义的函数。如图3所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。电话管理器用于提供终端设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等。通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端设备100振动，指示灯闪烁等。

安卓运行时包括核心库和虚拟机。安卓运行时负责安卓系统的调度和管理。核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。三维图形处理库用于实现三维图形绘图，图像渲染，合成和图层处理等。2D图形引擎是2D绘图的绘图引擎。

硬件抽象层，可以包含多个库模块，库模块如可以为摄像头库模块、马达库模块等。Android系统可以为设备硬件加载相应的库模块，进而实现应用程序框架层访问设备硬件的目的。设备硬件可以包括如终端设备中的马达、摄像头等。

内核层是硬件和软件之间的层。内核层用于驱动硬件，使得硬件工作。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动，马达驱动等，本申请实施例对此不做限制。

本申请实施例涉及的技术术语：

自动增益控制AGC(automatic gain control)模块：自动增益控制模块是指可以使放大电路的增益自动地随信号强度而调整模块。AGC模块是闭环电子电路是一个负反馈系统，它可以分成增益受控放大电路和控制电压形成电路两部分，增益受控放大电路位于正向放大通路，其增益随控制电压而改变。

DRC动态范围控制(dynamic range compression，DRC)模块：一般用来动态调整音频输出幅值，在音量大时压制音量在某一范围内，在音量小时适当提升音量，即用于控制音频输出功率，使扬声器不破音，且处于低音量播放时也能清晰听到。

均衡器（Equalizer，EQ），是一种可以分别调节各种频率成分电信号放大量的电子设备，通过对各种不同频率的电信号的调节来补偿扬声器和声场的缺陷，补偿和修饰各种声源均衡器可以对高频、中频、低频三段频率电信号分别进行调节。

可短时客观可懂STOI(Short Time Objective Intelligibility STOI)：一种评价声音信号的质量的指标，通常地，声音信号的STOI值在0-1的区间，STOI值越大，可懂度越高（即声音信号的质量也越高）。

感知客观语音质量评估POLQA(Perceptual Objective Listening QualityAnalysis：一种评价声音信号的质量的指标。可以基于全参考算法可对与声音信号进行评级。它将参考声音信号（讲话者侧）的每个样本与劣化声音信号（收听者侧）的每个相应样本进行比较。两个声音信号之间的感知差异被评为差异。在应用掩蔽函数之后，在频域（在临界频带中）分析两个声音信号。两个声音信号表示之间的未屏蔽差异将被计为失真。最后，声音信号中累积的失真被映射到MOS测试中1到5质量等级。其中，质量等级即POLQA指标。

分段信噪比：是指声音信号在不同频段的信号与噪声的比例。

MOS(Mean Opinion Score )平均意见值，常以衡量通信系统语音质量的重要指标，0分为最低分，代表最差的质量；5分为最高分，代表最高的质量。

梅尔倒频谱系数MFCC（Mel-Frequency Spectrum Coefficient）：在信号处理中，梅尔倒频谱系数是一个可用来代表短期声音信号的频谱，其原理是基于以非线性的梅尔刻度表示的对数频谱及其线性余弦转换之上。通常地，梅尔倒频谱系数MFCC用于指示声音信号的特征。

下面，以第一终端为手机100且手机100处于通话场景为例，对本申请实施例提供的声音信号处理方法进行说明。该示例并不构成对本申请实施例的限定。下述实施例可以相互结合，对于相同或相似的概念或过程不再赘述。其中，如图4所示，本申请实施例提供的声音信号处理方法包括：

S501：手机100与联系人A的手机200建立通话。

可以理解地，仍如图1所示，当手机100接收到来自联系人A的手机200的通话请求，显示第一界面101。其中，第一界面101包括接听控件102。手机100响应于用户对接听控件102的触发操作，与联系人A的手机200建立通话。

S502：手机100判断与联系人A的手机200建立通话的次数是否大于预设的次数阈值，如果是，则执行S503；如果否，则执行S504。

S503：手机100调用预存储的与联系人A关联的参数。其中，参数用于调制声音信号。

可以理解地，当手机100与联系人A的手机200建立通话的次数大于预设的次数阈值（如1次或2次或3次等）时，说明联系人A为常用联系人。手机100可以调用预存储的与联系人A关联的参数。可以理解地，与联系人A关联的参数是手机100与联系人A的手机200在以前的通话过程中，利用参数更新模型基于获取的联系人A产生的声音信号进行质量评估后，得到的质量评估值，对获取的联系人A产生的声音信号的参数更新后得到的参数。

其中，与联系人A关联的参数可以包括AGC模块的增益控制参数（如4db）、DGC模块在不同时域上的增益控制参数（如在-100db--50db上对应的增益控制参数为+0db；在-50db-40db上对应的增益控制参数为+5db；在-30db--20db上对应的增益控制参数为+10db）、以及在不同频域上的增益控制参数（如在100HZ-400HZ上对应的增益控制参数为-3db；在400HZ-1000HZ对应的增益控制参数为-2db；在1000HZ-2000HZ上对应的增益控制参数为0db；在2000HZ-3000HZ上对应的增益控制参数为1db；在3000HZ-4000HZ上对应的增益控制参数为2db）。可选地，与联系人A关联的参数还可以包括降噪模块的降噪参数（如-1db）。

S504：手机100调用预存储的默认参数。

可以理解地，当手机100与联系人A的手机200建立通话的次数小于或等于预设的次数阈值（如1次或2次或3次等）时，说明联系人A不是常用联系人。手机100未存储有与联系人A关联的参数。进而，手机100直接调用预存储的默认参数。

其中，默认参数可以包括AGC模块的增益控制参数（如2db）、DGC模块在不同时域上的增益控制参数（在-100db--50db对应的增益控制参数为+2db；在-50db-40db对应的增益控制参数为+7db；在-30db--20db对应的增益控制参数为+12db）、以及在不同频域上的增益控制参数（如在100HZ-400HZ上对应的增益控制参数为-1db；在400HZ-1000HZ对应的增益控制参数为0db；在1000HZ-2000HZ上对应的增益控制参数为2db；在2000HZ-3000HZ上对应的增益控制参数为4db；在3000HZ-4000HZ对应的增益控制参数为6db）。可选地，与联系人A关联的参数还可以包括降噪模块的降噪参数（如-3db）可以理解地，默认参数的取值与联系人A关联的参数的取值不同。

可以替换地，在另一些实施例中，上述的S502-S503可以省略。即手机100与联系人A的手机200建立通话后，直接调用预存储的默认参数。

S505：手机100基于调用的参数获取第1段声音信号。

如图5所示，手机100包括声音信号获取模块170C，声音获取模块170C包括通信模块、AGC模块、DRC模块以及均衡器。手机100可以将调用的AGC的增益控制参数配置于AGC模块、DGC在不同时域上的增益控制参数配置于DRC模块、在不同频域上的增益控制参数配置于均衡器。如此，在手机100与联系人A的手机200建立通话后，手机100的通信模块可以接收到来自手机200的第1段声音信号，其中，第1段声音信号可以为包括M个音频帧的声音信号，其中，M为正整数。

进而，通信模块输出第1段声音信号至AGC模块，以使得AGC模块基于AGC的增益控制参数处理第1段声音信号并输出至DRC模块；DRC模块基于在不同时域上的增益控制参数处理第1段声音信号并输出至均衡器。均衡器基于在不同频域上的增益控制参数处理第1段声音信号。如此，手机100完成基于调用的参数获取第1段声音信号的过程。

可以理解地，图5中的AGC模块、DRC模块以及均衡器之间的位置可以相互替换，在此不再赘述。

S506：手机100播放基于调用的参数获取的第1段声音信号。

示例性地，声音信号获取模块170C可以将获取的第1段声音信号输出至手机100的处理器，处理器对第1段声音信号处理后输出至手机100的扬声器播放。可以理解地，由于调用的参数未被参数更新模型更新过，如此基于调用的参数播放的第1段声音信号的质量较低。

S507：手机100对第1段声音信号进行质量评估，得到第1个评估值。

示例性，手机100可以提取第1段声音信号的声音特征（如对声音信号进行时频域转换、盲源分离、多声源定位提取第1段声音信号的特征，或者提取第1段声音信号的倒梅尔频谱），并利用预设的质量评估模型对声音特征的质量评估，得到STOI值、POLQA值、对分段信噪比评估后的质量评估值、MOS平均意见值以及声音类别的评估值。进而，手机100基于对STOI值、POLQA值、对分段信噪比评估后的质量评估指标、MOS平均意见值以及声音类别的评估指标。其中，声音类别的男声或女声，当第1段声音信号的声音类别为男声且第1段声音信号中的低频占比大于设定的阈值时，第1段声音信号被播放后听起来比较沙哑、不清晰，如此声音类别的评估指标较低；当第1段声音信号的声音类别为男声且第1段声音信号中的低频占比小于设定的阈值时，第1段声音信号被播放后听起来比较尖锐、不清晰，如此声音类别的评估指标也较低。

进而，手机100可以对STOI值、POLQA值、对分段信噪比评估后的质量评估值、MOS平均意见值以及声音类别的评估指标进行加权平均，得到第1个评估值。其中，STOI值、POLQA值、对分段信噪比评估后的评估指标、MOS平均意见值以及声音类别的评估指标的权重可以为各20%，也可以为其他值，在此不作限定。

示例性地，第1个评估值的取值可以为1-5之间任一个数。其中，第1个评估值的取值越高，代表声音信号的质量越好；反之，第1个评估值的取值越低，代表声音信号的质量越低。

可以理解地，由于调用的参数未被参数更新模型更新过，会导致第1个评估值的取值较低。在本申请实施例中，第一评估值的取值为3.1分，另外，第一评估值还可以为3.2分、3.3分等，在此不作限定。

S508：手机100利用参数更新模型基于第1段声音信号、第1个评估值以及调用的参数，得到第二参数。

其中，参数更新模型可以为强化学习模型。其中，强化学习模型是以声音信号、获取声音信号的参数及对应的质量评估值作为训练样本输入到Qleaning网络或深度强化学习网络DQN(Deep Q-Learning)中训练得到的。当第1段声音信号、第1个评估值以及调用的参数输入到强化学习模型时，对调用的参数更新得到第二参数。其中，第1段声音信号相当于强化学习模型的状态（state），更新调用的参数得到第二参数相当于强化学习模型的（action），第1个评估值相当于强化学习模型的奖励。

例如，第二参数可以为AGC模块的增益控制参数（如5db）、DGC模块在不同时域上的增益控制参数（如在-100db--50db上对应的增益控制参数为+1db；在-50db-40db上对应的增益控制参数为+6db；在-30db--20db上对应的增益控制参数为+11db）、以及在不同频域上的增益控制参数（如在100HZ-400HZ上对应的增益控制参数为-2db；在400HZ-1000HZ对应的增益控制参数为-1db；在1000HZ-2000HZ上对应的增益控制参数为1db；在2000HZ-3000HZ上对应的增益控制参数为2db；在3000HZ-4000HZ上对应的增益控制参数为3db）。可选地，第二参数包括降噪模块的降噪参数可以为1db。

S509：手机100基于第二参数获取第2段声音信号以及基于调用的参数获取第2段声音信号。

其中，手机200基于第二参数获取第2段声音信号与手机100基于调用的参数获取第1段声音信号的过程和原理相同，在此不再赘述。可以理解地，由于第二参数是基于强化学习模型对调用的参数更新后的参数。如此，手机100基于第二参数获取第2段声音信号的质量高于手机100基于调用的参数获取的第1段声音信号。

S510：手机100播放基于调用的参数获取的第2段声音信号。

可以理解地，由于第二参数是被参数更新模型基于调用的参数更新后得到的，如此基于第二参数播放的第2段声音信号的质量，高于基于调用的参数播放的第1段声音信号的质量。其中，手机100播放基于调用的参数获取的第2段声音信号的原理，与手机100播放基于调用的参数获取的第1段声音信号的原理相同，在此不再赘述。

S511：手机100对基于第二参数获取的第2段声音信号进行质量评估，得到第2个评估值。

可以理解地，由于第二参数是被参数更新模型基于调用的参数更新后得到的，则对基于第二参数获取的第2段声音信号进行质量评估，得到第2个评估值的取值也高于第1个评估值的取值。可以理解地，对基于第二参数获取的第2段声音信号进行质量评估，得到第2个评估值，与手机100对基于第一参数获取的第1段声音信号进行质量评估，得到第1个评估值的原理相同，在此不再赘述。

S512：手机100判断第2个评估值与第1个评估值的差值是否大于预设的第一评估阈值，如果是，则执行S513。

其中，第一阈值的取值可以为0.02、0.03以及0.05等，在此不作限定。

S513：手机100利用参数更新模型基于第2段声音信号、第2个评估值以及第二参数，得到第三参数。

可以理解地，基于上述的S512-S513可知，在第2个评估值与第1个评估值的差值大于预设的第一评估阈值的情况下，说明第2个评估值的取值相对于第1个评估值的取值的提高幅度较大，则说明仍然可以对第二参数更新，得到第三参数，使得基于第三参数获取的第3段声音信号的质量更高。

例如，第二参数可以为AGC模块的增益控制参数（如8db）、DGC模块在不同时域上的增益控制参数（如在-100db--50db上对应的增益控制参数为+3db；在-50db-40db上对应的增益控制参数为+8db；在-30db--20db上对应的增益控制参数为+13db）、以及均衡器在不同频域上的增益控制参数（如在100HZ-400HZ上对应的增益控制参数为0db；在400HZ-1000HZ对应的增益控制参数为1db；在1000HZ-2000HZ上对应的增益控制参数为3db；在2000HZ-3000HZ上对应的增益控制参数为5db；在3000HZ-4000HZ上对应的增益控制参数为6db）。可选地，第三参数包括降噪模块的降噪参数可以为如3db。

S514：手机100基于第三参数获取第3段声音信号以及基于调用的参数获取第3段声音信号。

其中，手机100基于第三参数获取第3段声音信号以及基于调用的参数获取第3段声音信号，与手机100基于调用的参数获取第1段声音信号的原理和过程相同，在此不作限定。

S515：手机100播放基于调用的参数获取的第3段声音信号。

可以理解地，手机100基于第三参数获取第3段声音信号的质量，相对于基于第二参数获取的第2段声音信号质量的取值有所提高，但是在第2个评估值与第1个评估值的差值大于预设的第一评估阈值。如此，说明第3段声音信号的质量可能仍然不够高，仍然可能具有较大的提升空间，则不用第三参数替换调用的参数来播放第3段声音信号，节省了资源损耗。

S516：手机100对基于第三参数获取的第3段声音信号进行质量评估，得到第3个评估值。

类似地，手机100对第3段声音信号进行质量评估，得到第3个评估值的原理和过程，与手机100对第1段声音信号进行质量评估，得到第1个评估值的原理和过程相同，在此不再赘述。可以理解地，由于第三参数是被参数更新模型基于第二参数更新后得到的，则对基于第二参数获取的第3段声音信号进行质量评估，得到第3个评估值的取值也高于第2个评估值的取值。

S517：手机100判断第3个评估值与第2个评估值的差值是否大于预设的第一评估阈值，如果否，则执行S518。

在第3个评估值与第2个评估值的差值小于预设的第一评估阈值的情况下，说明第3个评估值的取值相对于第2个评估值的取值的提高幅度较小，则若再对基于参数更新模型对第三参数更新，得到第四参数，使得基于第四参数获取的第4段声音信号的第4评估值的取值与第3段声音信号的第3个评估值的差值，也会小于预设的第一评估阈值。即是说，即使对第三参数更新得到第四参数，获取的第4段声音信号相对于第3段声音信号的质量的提高幅度不高，进而更新第三参数得到第四参数的意义不大，则不再更新第三参数。可以避免频繁的更新参数，节省计算资源。而执行下述的S518。

S518：手机100判断第3个评估值与第1个评估值的差值是否大于预设的第二评估阈值，如果是，则执行S519。

其中，第二评估阈值可以为0.3、0.5、以及1等等，在此不作限定。例如，当第1个评估值为3，第3个评估值为4以及预设的第二评估阈值为0.5时，则第3个评估值与第1个评估值的差值为1，大于第二评估阈值0.5，则执行S519。

S519：手机100将联系人A关联的参数或默认参数更新为第三参数。

可以理解地，上述的S518可以省略。

S520：手机100基于第三参数获取第4段声音信号。

另外，当第3个评估值与第1个评估值的差值小于预设的第二评估阈值，则手机100不会将联系人A关联的参数或默认参数更新为第三参数，而是基于调用的参数获取第4段声音信号并播放。例如，当第1个评估值为3，第3个评估值为3.2以及预设的第二评估阈值为0.5时，则第3个评估值与第1个评估值的差值为0.2，小于第二评估阈值0.5，则基于调用的参数获取第4段声音信号并播放。

S521：手机100播放基于第三参数获取的第4段声音信号。

可以理解地，基于上述的S518-S521可知，在第3个评估值与第1个评估值的差值大于预设的第二评估阈值的情况下，说明基于第三参数获取的第3段声音信号相对于调用的参数获取的第1段声音信号的质量提高幅度很大，则可以将联系人A关联的参数或默认参数更新为第三参数，如此，可以使得播放的基于第三参数获取的第4段声音信号的质量较高。

可以理解地，在上述的实施例中，是调用的参数被更新N=2次后，使得相邻的两段声音信号之间的评估值的差值小于预设的第一评估阈值。另外，在另一些实施例中，调用的参数可能被更新

次后才会使得相邻的两段声音信号之间的评估值的差值小于预设的第一评估阈值，N的取值可能是20、50以及100等，在此不作限定。可以理解地，当调用的参数为与联系人A关联参数时，N的取值较小（如10以内）即可使得相邻的两段声音信号之间的评估值的差值小于预设的第一评估阈值。这样，手机100较快的获取到质量高的声音信号。另外，当调用的参数为默认参数时，N的取值较大（如50-100之间）才能使得相邻的两段声音信号之间的评估值的差值小于预设的第一评估阈值。

另外，当手机200向手机100发送在第4段声音信号后新的声音信号时，手机100均可以基于第三参数获取新的声音信号，并播放基于第三参数获取的新的声音信号。类似地，播放的基于第三参数获取的新的声音信号的质量也较高。

综上，本申请实施例提供的声音信号处理方法，手机100播放的是基于调用的参数获取的第1段声音信号、第2段声音信号以及第3段声音信号，由于调用的参数未被参数更新模型更新过，因而播放的第1段声音信号、第2段声音信号以及第3段声音信号的质量较低。再者，由于第三参数是手机100利用参数更新模型基于第2段声音信号、第2个评估值以及第二参数得到的。如此，基于第3参数得到第3段声音信号的质量被提高。另外，在基于第3参数得到第3段声音信号的第3个评估值与第2个评估值的差值小于或等于预设的阈值的情况下，说明基于第3参数得到第3段声音信号的第3个评估值已经被提高，且再提高的空间较小。这样一来，手机100可以将预设的参数更新为第三参数。进而，在后续播放的基于第3参数得到第4段声音信号以及第4段之后的声音信号的质量高。如此，可以使得手机100播放的声音信号的质量越变越好。

可以理解地，当联系人A为常用联系人时，手机100与联系人A的手机200每建立一次通话，均可对联系人A关联的参数进行更新。如此，手机100与联系人A的手机200建立的通话次数越多，则获取的声音信号的质量也越来越好。

另外，由于第三参数是根据声音信号的评估值自适应调整的，则该声音信号处理方法可以适用于提高任一声源在任一环境下产生的声音信号的质量，适用范围广。

再者，在上述的实施例中，是以手机100接收来自手机200的声音信号为例举例说明如何处理来自手机200的声音信号。另外，如图6所示，当上述的通信模块被替换成麦克风时，手机100可以处理来自手机100所处环境中的声音信号，并向手机200发送处理的声音信号。如此，手机200播放的处理的声音信号质量也高，其原理上述实施例提供的声音信号处理方法相同，在此不作限定。

另外，上述的实施例中，是以在电话通话场景中，手机100对来自手机200的声音信号为例举例说明如何处理来自手机200的声音信号。另外，如图7所示，手机100还可以在即时聊天应用的视频通话（也可以是语音通话）的场景中，手机100对来自手机200的声音信号进行处理；或者，如图8所示，手机100还可以在具有相机功能的应用的视频录制或播放场景中，对手机100的麦克风采集的声音信号进行处理。可以理解地，当手机100处于具有相机功能的应用的视频录制或播放场景中时，上述的S501-S503可以省略。

另外，如图9所示，本申请提供了一种声音信号处理装置900，应用于第一终端。需要说明的是，本申请实施例所提供的声音信号处理装置900，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本申请实施例部分未提及之处，可参考上述的实施例中相应内容。本申请实施例提供的声音信号处理装置900包括：信号获取单元901、信号输出单元902以及处理单元903。其中，

信号获取单元901，用于基于第N参数得到第N段声音信号，以及基于预设的参数得到第N段信号。其中，第N参数是第一终端利用参数更新模型基于第N-1段声音信号、第N-1个评估值以及第N-1参数得到的，N为大于1的整数。信号输出单元902，用于录制或播放基于预设的参数得到第N段声音信号。处理单元903，用于基于第N参数得到第N段声音信号，进行质量评估，得到第N个评估值。若第N个评估值与第N-1个评估值的差值小于或等于预设的第一评估阈值，则处理单元903还用于将预设的参数更新为第N参数。信号获取单元901，还用于基于第N参数得到第N+1段声音信号。信号输出单元902，还用于录制或播放基于第N参数得到的第N+1段声音信号。

在一种可选的实施方式中，处理单元903，具体用于若第N个评估值与第N-1个评估值的差值小于或等于预设的第一评估阈值，则判断第N个评估值与第1个评估值的差值是否大于预设的第二评估阈值。其中，第1个评估值为第一终端对基于第1参数获取的第1段声音信号进行质量评估得到的。若大于预设的第二评估阈值，则将预设的参数更新为第N参数。

在一种可选的实施方式中，信号获取单元901，还用于基于第N-1参数得到第N-1段声音信号。第一终端对第N-1段声音信号进行质量评估，得到第N-1个评估值。处理单元903，还用于若第N-1个评估值与第N-2个评估值的差值大于预设的第一评估阈值，则利用参数更新模型基于第N-1段声音信号、第N-1个评估值更新第N-1参数，得到第N参数。其中，第N-2个评估值是对基于第N-2参数得到的第N-2段声音信号进行质量评估得到的，其中，N为大于2的整数。

进一步地，第N段声音信号为来自第二终端的声音信号。处理单元903，还用于接收来自第二终端的通话请求，通话请求携带有目标联系人的信息。若接收到携带有目标联系人的信息的通话请求的次数大于预设的次数阈值，则调用与目标联系人的信息关联的参数作为预设的参数。若接收到目标联系人的信息的通话请求的次数小于或等于预设的次数阈值，则调用预存储的默认参数作为预设的参数。

在一种可选的实施方式中，处理单元903，具体用于提取第N段声音信号的声音特征，利用质量评估模型对声音特征进行质量评估，得到多个质量评估指标值，对多个质量评估指标值加权平均，得到第N个评估值。

和/或，第一终端的降噪模块的降噪参数。

在一种可选的实施方式中，信号获取单元901，还用于基于第N参数得到第N+2段声音信号。信号输出单元902，还用于录制或播放基于第N参数得到的第N+2段声音信号。

示例性的，图10为本申请实施例提供的一种终端设备的硬件结构示意图，如图10所示，该终端设备包括处理器1001，通信线路1004以及至少一个通信接口（图10中示例性的以通信接口1003为例进行说明）。

处理器1001可以是一个通用中央处理器（central processing unit，CPU），微处理器，特定应用集成电路（application-specific integrated circuit，ASIC），或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路1004可包括在上述组件之间传送信息的电路。

通信接口1003，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线局域网（wireless local area networks，WLAN）等。

可能的，该终端设备还可以包括存储器1002。

存储器1002可以是只读存储器（read-only memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器（electrically erasable programmable read-only memory，EEPROM）、只读光盘（compactdisc read-only memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路1004与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器1002用于存储执行本申请方案的计算机执行指令，并由处理器1001来控制执行。处理器1001用于执行存储器1002中存储的计算机执行指令，从而实现本申请实施例所提供的声音信号处理的方法。

可能的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器1001可以包括一个或多个CPU，例如图10中的CPU0和CPU1。

在具体实现中，作为一种实施例，终端设备可以包括多个处理器，例如图10中的处理器1001和处理器1005。这些处理器中的每一个可以是一个单核（single-CPU）处理器，也可以是一个多核（multi-CPU）处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据（例如计算机程序指令）的处理核。

示例性的，图11为本申请实施例提供的一种芯片的结构示意图。芯片110包括一个或两个以上（包括两个）处理器1110和通信接口1130。

在一些实施方式中，存储器1140存储了如下的元素：可执行模块或者数据结构，或者他们的子集，或者他们的扩展集。

本申请实施例中，存储器1140可以包括只读存储器和随机存取存储器，并向处理器1110提供指令和数据。存储器1140的一部分还可以包括非易失性随机存取存储器（non-volatile random access memory，NVRAM）。

本申请实施例中，存储器1140、通信接口1130以及存储器1140通过总线系统1120耦合在一起。其中，总线系统1120除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。为了便于描述，在图11中将各种总线都标为总线系统1120。

上述本申请实施例描述的方法可以应用于处理器1110中，或者由处理器1110实现。处理器1110可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1110中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1110可以是通用处理器（例如，微处理器或常规处理器）、数字信号处理器（digitalsignal processing，DSP）、专用集成电路（application specific integrated circuit，ASIC）、现成可编程门阵列（field-programmable gate array，FPGA）或者其他可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件组件，处理器1110可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。其中，软件模块可以位于随机存储器、只读存储器、可编程只读存储器或带电可擦写可编程存储器（electricallyerasable programmable read only memory，EEPROM）等本领域成熟的存储介质中。该存储介质位于存储器1140，处理器1110读取存储器1140中的信息，结合其硬件完成上述方法的步骤。

在上述实施例中，存储器存储的供处理器执行的指令可以以计算机程序产品的形式实现。其中，计算机程序产品可以是事先写入在存储器中，也可以是以软件形式下载并安装在存储器中。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL）或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。例如，可用介质可以包括磁性介质（例如，软盘、硬盘或磁带）、光介质（例如，数字通用光盘（digital versatile disc，DVD））、或者半导体介质（例如，固态硬盘（solid state disk，SSD））等。

本申请实施例还提供了一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。

作为一种可能的设计，计算机可读介质可以包括紧凑型光盘只读储存器（compactdisc read-only memory，CD-ROM）、RAM、ROM、EEPROM或其它光盘存储器；计算机可读介质可以包括磁盘存储器或其它磁盘存储设备。而且，任何连接线也可以被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，DSL或无线技术（如红外，无线电和微波）从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘（CD），激光盘，光盘，数字通用光盘（digital versatile disc，DVD），软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。

上述的组合也应包括在计算机可读介质的范围内。以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种声音信号处理方法，其特征在于，所述方法包括：

第一终端和第二终端建立通话；

所述第一终端基于第N参数得到来自所述第二终端的第N段声音信号，以及基于预设的参数得到第N段声音信号，其中，所述第N参数是所述第一终端利用参数更新模型基于第N-1段声音信号、第N-1个评估值以及第N-1参数得到的，N为大于1的整数，所述参数更新模型为强化学习模型，其中，所述第N-1段声音信号为所述强化学习模型的状态，更新所述第N-1参数为所述第N参数为所述强化学习模型的动作，所述第N-1个评估值为所述强化学习模型的奖励；

所述第一终端录制或播放基于所述预设的参数得到的所述第N段声音信号；

所述第一终端基于所述第N参数得到第N段声音信号，进行质量评估，得到第N个评估值；所述第一终端基于所述第N参数得到第N段声音信号，进行质量评估，得到第N个评估值，包括：所述第一终端提取第N段声音信号的声音特征；所述第一终端利用预设的质量评估模型对声音特征进行质量评估，得到STOI值、POLQA值、对分段信噪比评估后的质量评估值、MOS平均意见值以及声音类别的评估值；所述第一终端对所述STOI值、所述POLQA值、所述对分段信噪比评估后的质量评估值、所述MOS平均意见值以及所述声音类别的评估值进行加权平均，得到所述第N个评估值；

若所述第N个评估值与所述第N-1个评估值的差值小于或等于预设的第一评估阈值，则所述第一终端将所述预设的参数更新为所述第N参数；所述若所述第N个评估值与所述第N-1个评估值的差值小于或等于预设的第一评估阈值，则所述第一终端将所述预设的参数更新为所述第N参数，包括：

若所述第N个评估值与所述第N-1个评估值的差值小于或等于所述预设的第一评估阈值，则判断所述第N个评估值与第1个评估值的差值是否大于预设的第二评估阈值；其中，所述第1个评估值为所述第一终端对基于第1参数获取的第1段声音信号进行质量评估得到的；

若大于所述预设的第二评估阈值，则所述第一终端将所述预设的参数更新为所述第N参数；

所述第一终端基于所述第N参数得到来自所述第二终端的第N+1段声音信号；

所述第一终端录制或播放基于所述第N参数得到的所述第N+1段声音信号。

2.根据权利要求1所述的方法，其特征在于，在所述第一终端基于第N参数得到第N段声音信号，以及基于预设的参数得到第N段声音信号之前，所述方法还包括：

所述第一终端基于所述第N-1参数得到所述第N-1段声音信号；

所述第一终端对所述第N-1段声音信号进行质量评估，得到所述第N-1个评估值；

若所述第N-1个评估值与第N-2个评估值的差值大于预设的第一评估阈值，则利用所述参数更新模型基于所述第N-1段声音信号、所述第N-1个评估值更新所述第N-1参数，得到所述第N参数，其中，所述第N-2个评估值是所述第一终端对基于第N-2参数得到的第N-2段声音信号进行质量评估得到的，其中，N为大于2的整数。

3.根据权利要求1所述的方法，其特征在于，所述第N段声音信号和所述第N-1段声音信号为来自第二终端的声音信号，或者为来自所述第一终端所处环境的声音信号。

4.根据权利要求1所述的方法，其特征在于，所述第N段声音信号为来自所述第二终端的声音信号，所述第一终端基于第N参数得到第N段声音信号，以及基于预设的参数得到第N段声音信号之前，所述方法还包括：

所述第一终端接收来自所述第二终端的通话请求，所述通话请求携带有目标联系人的信息；

若所述第一终端接收到携带有所述目标联系人的信息的所述通话请求的次数大于预设的次数阈值，则调用与所述目标联系人的信息关联的参数作为所述预设的参数；

若所述第一终端接收到所述目标联系人的信息的所述通话请求的次数小于或等于所述预设的次数阈值，则调用预存储的默认参数作为所述预设的参数。

5.根据权利要求1-4任一所述的方法，其特征在于，所述第N参数、所述第N-1参数以及所述预设的参数包括：

所述第一终端的自动增益控制AGC模块的增益控制参数；

和/或，所述第一终端的DRC动态范围控制模块在不同时域上的增益控制参数；

和/或，所述第一终端的均衡器在不同频域上的增益控制参数；

和/或，所述第一终端的降噪模块的降噪参数。

6.根据权利要求1-4任一所述的方法，其特征在于，在所述第一终端录制或播放基于所述第N参数得到的所述第N+1段声音信号之后，所述方法还包括：

所述第一终端基于所述第N参数得到第N+2段声音信号；

所述第一终端录制或播放基于所述第N参数得到的所述第N+2段声音信号。

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使得所述终端设备执行如权利要求1至6任一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得计算机执行如权利要求1至6任一项所述的方法。