CN109979473A

CN109979473A - 一种通话声音处理方法及装置、终端设备

Info

Publication number: CN109979473A
Application number: CN201910252233.3A
Authority: CN
Inventors: 黄炼军
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-05

Abstract

本发明涉及信息处理技术领域，提供一种通话声音处理方法及装置、终端设备及计算机可读存储介质，以解决通话声音效果不佳的问题。该方法应用于终端，包括：在通话的情况下，获取第一声音信息，第一声音信息为终端采集的声音信息或者通话对方发送的声音信息；对第一声音信息进行声音处理，获得通话声音信息，其中，调整声音参数基于终端或者通话对方对应的声音标识信息进行调整。由于本发明实施例通过调整声音参数、生成第二声音信息和混合场景声音信息中的至少一项对第一声音信息处理，得到通话声音信息，因此可通过不同处理方式对声音进行调整，进而提高通话声音效果。

Description

一种通话声音处理方法及装置、终端设备

技术领域

本发明涉及信息处理技术领域，尤其涉及一种通话声音处理方法及装置、终端设备及计算机可读存储介质。

背景技术

随着通信技术的快速发展，智能终端越来越普及，用户可通过智能终端进行通话，实现用户之间的交流。智能终端作为用户交流的一种重要工具，给用户生活和工作等带来了极大的便利。

目前，在通话过程中，主要通过采集说话者的声音，将采集的声音传输至通话对方，通话对方在接收到传输的声音后进行播放，从而实现通话。然而，在任何情况下，通过上述现有方法进行通话时，不管声音效果如何，均是直接将说话者的声音传递给通话对方，通话对方接收到声音后直接播放，如此，容易导致通话声音效果不佳。

发明内容

本发明实施例提供一种通话声音处理方法及装置、终端设备及计算机可读存储介质，以解决现有技术通话声音效果不佳的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种通话声音处理方法，应用于终端，包括：

在通话的情况下，获取第一声音信息，所述第一声音信息为所述终端采集的声音信息或者通话对方发送的声音信息；

对所述第一声音信息进行声音处理，获得通话声音信息，所述声音处理包括如下至少一项：调整声音参数、生成第二声音信息和混合场景声音信息，其中，所述调整声音参数基于所述终端或者通话对方对应的声音标识信息进行调整。

第二方面，本发明实施例还提供一种通话声音处理装置，应用于终端，包括：

声音获取模块，用于在通话的情况下，获取第一声音信息，所述第一声音信息为所述终端采集的声音信息或者所述通话对方发送的声音信息；

声音处理模块，用于对所述第一声音信息进行声音处理，获得通话声音信息，所述声音处理包括如下至少一项：调整声音参数、生成第二声音信息和混合场景声音信息，其中，所述调整声音参数基于所述终端或者通话对方对应的声音标识信息进行调整。

第三方面，本发明实施例还提供一种终端设备，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的通话声音处理方法中的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的通话声音处理方法中的步骤。

本发明实施例中，终端在通话的情况下，首先获取第一声音信息，其中，第一声音信息为终端采集的声音信息或者通话对方发送的声音信息，即表示可在通话双方对通过过程中的声音信息进行处理。然后对第一声音信息进行处理，获得通话声音信息。由于本发明实施例通过调整声音参数、生成第二声音信息和混合场景声音信息中的至少一项对第一声音信息处理，得到通话声音信息，因此可通过不同处理方式对声音进行调整，进而提高通话声音效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的通话声音处理方法的流程图之一；

图2是本发明实施例提供的通话声音处理方法的流程图之二；

图3是本发明实施例提供的通话声音处理方法应用环境图之一；

图4是本发明实施例提供的通话声音处理方法的流程图之三；

图5是本发明实施例提供的通话声音处理方法的原理图；

图6是本发明实施例提供的通话声音处理方法应用环境图之二；

图7是本发明实施例提供的通话声音处理方法应用环境图之三；

图8是本发明实施例提供的通话声音处理装置的示意图之一；

图9是本发明实施例提供的终端设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，在一个实施例中，提供了一种通话声音处理方法，可应用于终端，包括：

S101：在通话的情况下，获取第一声音信息，第一声音信息为终端采集的声音信息或者通话对方发送的声音信息。

其中，通话对方可以理解为与终端在通话的一方，即通话对端，终端和通话对方为通话双方，终端可向通话对方发送声音，也可接收通话对方发送的声音，同样，通话对方可向终端发送声音，也可接收终端发送的声音。例如，上述终端可以为第一终端，则通话对方则可以为与第一终端在通话的第二终端，在第一终端和第二终端通话的情况下，可相互发送声音。

第一声音信息为在终端和通话对方通话过程中产生的声音信息，其中，第一声音信息可以为终端采集的声音信息，在本实施例的通话声音处理过程中，终端获得第一声音信息后可对其进行声音处理，表示终端在采集到本端上产生的声音信息后，即可进行声音处理。或者第一声音信息可以为通话对方发送的声音信息，可以理解为通话对方采集的声音信息，表示终端是对通话对方发送的声音信息进行声音处理。即通话双方均可对通话过程中产生的声音信息进行声音处理。

S102：对第一声音信息进行声音处理，获得通话声音信息，声音处理包括如下至少一项：调整声音参数、生成第二声音信息和混合场景声音信息，其中，调整声音参数基于终端或者通话对方对应的声音标识信息进行调整。

终端在获得第一声音信息后，可对其进行声音处理。比如，终端可能需要与其对应声音参数的声音信息，通话对方也需要预期对应声音参数的声音信息，即不同终端需要的声音信息对应的声音参数可以存在差异，则在本实施例中，可对第一声音信息进行调整声音参数的处理，具体通过终端或者通话对方对应的声音标识信息对第一声音信息进行声音参数调整。在一个示例中，在第一声音信息为终端采集的声音信息时，是终端向通话对方发送声音，以实现通话双方的声音传输。即终端对第一声音信息进行调整声音参数的处理后，再将得到的通话声音信息发送给通话对方，此时，调整声音参数基于通话对方对应的声音标识信息进行调整。在第一声音信息为通话对方发送的声音信息时，是通话对方向终端发送声音，以实现通话双方的声音传输，即终端为接收通话声音的终端，终端接收到通话对方发送的声音信息后，为提高声音效果，可对第一声音信息进行调整声音参数的处理得到通话声音信息，再进行播放。此时，调整声音参数基于终端对应的声音标识信息进行调整。

其中，声音标识信息用于标识声音参数，通过声音标识信息可确定对应的待调整的声音参数，例如，声音标识信息对应的声音参数可以包括音量大小，且音量大小为X，则将第一声音信息的音量大小调整为X。又例如，声音标识信息对应的声音参数可以包括音调大小，且音调大小为Y，则将第一声音信息的音调大小调整为Y。终端与声音标识信息对应，声音标识信息与声音参数对应，可以理解为基于终端对应的声音参数对第一声音信息进行调整。

又比如，通话用户在通过终端进行通话过程中，可能存在声音急促或低沉等情况，在本实实施例中，可对第一声音信息进行生成第二声音信息的声音处理，即将第一声音信息转换为一个新的声音信息，实现对第一声音信息的声音处理，提高通话声音效果。

再比如，在通过过程中，需要模拟在某个场景下的通话场景，则可对第一声音信息进行混合场景声音信息的声音处理，即在第一声音信息的基础上混合场景声音，以实现模拟对应场景的通话。

上述通话声音处理方法，终端在通话的情况下，首先获取第一声音信息，其中，第一声音信息为终端采集的声音信息或者通话对方发送的声音信息，即表示可在通话双方对通过过程中的声音信息进行处理。然后对第一声音信息进行处理，获得通话声音信息。如此，在终端与通话对方通话过程中，在获得第一声音信息后，不仅对第一声音信息进行声音处理，而且是通过调整声音参数、生成第二声音信息和混合场景声音信息中至少一项对第一声音信息进行处理，且调整声音参数基于终端或者通话对方对应的声音标识信息进行调整，以得到通话声音信息，提高通话声音效果。

本发明实施例中，上述终端和通话对方均可以包括但不限于手机、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、个人数字助理(personaldigital assistant，简称PDA)、移动上网装置(Mobile Internet Device，MID)或可穿戴式设备(Wearable Device)等。

在一个实施例中，上述调整声音参数，包括：获取第一目标终端对应的声音标识信息，第一声音信息为终端采集的声音信息时，第一目标终端为通话对方，第一声音信息为通话对方发送的声音信息时，第一目标终端为终端；根据声音标识信息确定目标声音参数；根据目标声音参数对第一声音信息进行调整。

在对第一声音信息进行声音参数调整过程中，基于通话用户的差异，可进行不同的声音参数调整。上述终端和通话对方通话，可以理解为终端上的第一通话用户标识和通话对方上的第二通话用户标识通话，上述第一目标终端对应的声音标识信息可以理解为第一目标终端上的通话用户标识对应的声音标识信息。在第一目标终端为通话对方时，第一目标终端上的通话用户标识即为上述第二通话用户标识，在第一目标终端为终端时，第一目标终端上的通话用户标识即为上述第一通话用户标识。用户标识与声音标识信息对应，声音标识信息与声音参数对应，不同通话用户标识对应的声音标识信息不仅相同，则对应的目标声音参数可以存在差异，可根据通话用户标识对应的声音标识信息确定对应的目标声音参数。比如，第一通话用户标识存在对应的声音标识信息，根据该标识信息可确定对应的目标声音参数，即实现对第一通话用户标识对应的目标声音参数的确定。第二通话用户标识存在对应的声音标识信息，根据该标识信息可确定对应的目标声音参数，即实现对第二通话用户标识对应的目标声音参数的确定。第一通话用户标识对应的目标声音参数与第二通话用户标识对应的目标声音参数不仅相同。后续按照第一目标终端上的通话用户标识对应的目标声音参数对第一声音信息进行调整，实现对不同通话用户标识进行差异化的声音参数调整，以适应不同通话用户，满足不同通话用户的需求，提高通话声音效果。

比如，由于用户特性差异，不同用户可能会习惯于不同的音量大小，老年人可能听力较差，需要较大的音量。有的用户说话声音较低，喜欢交流时用较低的声音。因此，针对不同的用户，预先设置不同的声音标识信息，不同的声音标识信息，声音标识信息对应声音参数，即针对不同用户确定的目标声音参数可以不同。终端的第一通话用户与通话对方的第二通话用户通话时，若第一目标终端为通话对方，则终端会根据通话对方上的第二通话用户的声音标识信息进行声音参数的调整，可满足不同第二通话用户对声音的差异化要求，提高通话声音效果。若第一目标终端为终端，即终端对通话对方发送的第一声音信息进行声音处理，则终端会根据终端上的第一通话用户的声音标识信息进行声音参数的调整，可满足不同第一通话用户对声音的差异化要求，提高通话声音效果。

比如，声音参数包括音量大小，第一目标终端为通话对方，通话对方上的第二通话用户年龄偏大，听力不太好，需要比较高的声音，对应的声音标识信息为a0，声音标识信息a0对应的音量大小设置较高，例如，对应的音量大小为X0，则将第一声音信息的音量提高到该X0，即适当提高发送的音量，得到通话声音信息，然后可发送给通话对方，通话对方播放通话声音信息。如此，通过调整声音的音量大小，以适应第二通话用户，提高通话效果，使对方得到更好的声音收听体验。

在一个示例中，可预先存储声音标识信息与声音参数的对应关系，即每个声音参数标识对应有声音参数，在获取第一目标终端对应的声音标识信息后，即可从上述对应关系中查找与第一目标终端对应的声音标识信息对应的目标声音参数。

在一个实施例中，上述声音参数可以包括音量大小或/和音调大小等，对应地，目标声音参数可以包括音量大小或/和音调大小。每个声音标识信息对应的声音参数的值可以不同。比如，声音标识信息a1对应的音量大小或/和音调大小可对应为X1或/和Y1，声音标识信息a2对应的音量大小或/和音调大小可对应为X2或/和Y2，如此，可满足不同用户对于声音参数调整的要求。

在一个实施例中，上述生成第二声音信息，包括：获取第二目标终端对应的预设参考声音特征，第一声音信息为终端采集的声音信息时，第二目标终端为终端，第一声音信息为通话对方发送的声音信息时，第二目标终端为通话对方；将第一声音信息对应的文本信息按照预设参考声音特征转换为第二声音信息。

第二目标终端对应的预设参考声音特征可以理解为第二目标终端上的通话用户标识对应的预设参考声音特征，在第二目标终端为终端时，第二目标终端上的通话用户标识为终端上的第一通话用户标识，在第二目标终端为通话对方时，第二目标终端上的通话用户标识为通话对方上的第二通话用户标识。在生成第二声音信息的过程中，首先需要获取第二目标终端对应的预设参考声音特征，其中，预设参考声音信息特征为预先设置的参考声音信息特征，还需利用第一声音信息的文本信息，则在生成第二声音信息之前，可识别第一声音信息中的文本信息，然后将第一声音信息对应的文本信息按照预设参考声音特征转换为第二声音信息，生成的第二声音信息中不但包括上述文本信息，而且具有上述预设参考声音信息特征，满足第二目标终端对声音的需求。

在一个示例中，上述第二目标终端对应的预设参考声音特征可以理解为第二目标终端上通话用户标识对应的预设参考声音的声音特征，预设参考声音的声音特征可以包括音量大小、音调大小以及声纹信息等，将文本信息按照音量大小、音调大小以及声纹信息生成第二声音信息，且第二声音信息与第二目标终端对应，可确保第二声音信息能够满足第二目标终端对声音的需求。

比如，第一通话用户通过终端向通话对方的第二通话用户发送声音进行通话时，第一通话用户说话存在口音，为避免第二通话用户听不懂造成沟通困难，便于与通话对方上第二通话用户的沟通，也满足第一通话用户对声音的需求(例如，第一通话用户发送普通话版声音的需求)，可将第一通话用户对应的第一声音信息进行生成第二声音信息的处理，即将第一声音信息中文字按照普通话对应的预设参考声音的声音特征转换为第二声音信息，生成的第二声音信息对应普通话，如此，不但能满足第一通话用户对声音的需求，而且有利于通话双方沟通，由于对第一声音信息进行了生成第二声音信息的处理，可提高通话声音效果。

又比如，终端向通话对方发送声音进行通话时，终端上的第一通话用户感冒了，声音变得不正常，为满足第一通话用户不想让对方知晓的需求，可将第一声音信息中文字按照正常(此处为非感冒的正常情况)的预设参考声音的声音特征转换为第二声音信息，生成的第二声音信息正常，如此，可满足第一通话用户对声音的需求，由于对第一声音信息进行了生成第二声音信息的处理，可提高通话声音效果。

在一个实施例中，获取第二目标终端对应的预设参考声音特征之前，还包括：确定第一声音信息的类别；在第一声音信息的类别不属于预设类别时，获取第二目标终端对应的预设参考声音特征。

在生成第二声音信息之前，需对第一声音信息的类别进行确认，并判断第一声音信息所属的类别，在第一声音信息的类别属于预设类别时，表示第一声音信息满足预设要求，此时，无需生成新的声音信息，只有在第一声音信息的类别不属于预设类别时，表示第一声音信息不满足预设要求，此时，获取第二目标终端对应的预设参考声音特征，再利用第一声音信息的文本信息和预设参考声音特征，生成第二声音信息。如此，对不属于预设类别的第一声音信息进行生成第二声音信息的处理，可确保声音处理的准确性。在一个示例中，预设参考声音特征为属于预设类别的预设参考声音的特征，即能确保后续生成的第二声音信息属于预设类别，实现生成属于预设类别的第二声音信息，可提高通话声音效果。

在一个实施例中，确定第一声音信息的类别，包括：基于已训练的机器学习模型对第一声音信息进行分类，确定第一声音信息的类别，其中，已训练的机器学习模型基于预设类别对应的声音正样本以及非预设类别对应的声音负样本训练确定。

在确定第一声音信息的类别之前，预先进行机器学习模型的训练，确定已训练的机器学习模型，机器学习模型可对待处理数据进行数据分类等，在本实施例中，通过已训练的机器学习模型对第一声音信息进行分类，即可确定第一声音信息的类别。另外，已训练的机器学习模型基于预设类别对应的声音正样本以及非预设类别对应的声音负样本训练确定，因此，在对第一声音信息进行分类时，可准确确定第一声音信息属于预设类别还是非预设类别。

例如，上述预设类别为正常声音类别，非预设类别为不正常声音类别，本实施例对第一声音信息处理的目的是生成正常声音信息，则获取属于正常声音类别的预设参考声音的特征，将文本信息按照预设参考声音特征转换为属于正常声音类别的第二声音信息。

在一个实施例中，上述混合场景声音信息，包括：确定目标场景声音信息；将第一声音信息与目标场景声音信息混合。

在通话过程中，可在第一声音信息的基础上混合目标场景声音信息，以模拟目标场景下的通话。比如，终端上的通话用户A和通话对方上的通话用户B在通话，通话用户A所处的环境比较安静，为了某种需求，需要营造周围比较嘈杂的场景，例如，在路上的场景，以使通话用户B认为其在路上。则可在通话用户A对应的第一声音信息的基础上混合在路上的场景对应的声音信息，以模拟在路上的通话场景，满足用户对通话场景的需求。在一个示例中，可在通话界面或拨号界面选择目标场景，根据目标场景确定对应的目标场景声音信息。即在通话界面或拨号界面可显示可选择的场景，响应于用户对可选择的场景的选择输入，可确定目标场景，然后可确定目标场景对应的目标场景声音信息。

在一个实施例中，在上述声音处理包括调整声音参数和生成第二声音信息时，对第一声音信息进行声音处理，获得通话声音信息，包括：对第一声音信息进行生成第二声音信息的声音处理，并对生成的第二声音信息进行调整声音参数的声音处理，获得通话声音信息。

即先基于第一声音信息生成第二声音信息，再调整第二声音信息的声音参数，参数调整后得到的声音信息即为通话声音信息。在本实施例中，结合两种处理方式对第一声音信息进行处理，得到通话声音信息，不但可将第一声音信息转换为第二声音信息，还可对第二声音信息进行声音参数调整，进一步提高通话声音效果。

在一个实施例中，在上述声音处理包括调整声音参数和混合场景声音信息时，对第一声音信息进行声音处理，获得通话声音信息，包括：对第一声音信息进行调整声音参数的声音处理，并对调整后的声音信息进行混合场景声音信息的声音处理，获得通话声音信息。

即先基于第一声音信息生成第二声音信息，再对第二声音信息进行混合场景声音信息的声音处理，混合场景声音信息的声音处理后得到的声音信息即为通话声音信息。在本实施例中，结合两种处理方式对第一声音信息进行处理，得到通话声音信息，不但可将第一声音信息转换为第二声音信息，提高通话声音效果，还可对第二声音信息进行混合场景声音信息的处理，满足模拟场景通话的需求。

在一个实施例中，在上述声音处理包括生成第二声音信息和混合场景声音信息时，对第一声音信息进行声音处理，获得通话声音信息，包括：对第一声音信息进行生成第二声音信息的声音处理，并对生成的第二声音信息进行混合场景声音信息的声音处理，获得通话声音信息。

即先对第一声音信息进行声音参数调整，再对调整后的声音信息进行混合场景声音信息的声音处理，混合场景声音信息的声音处理后得到的声音信息即为通话声音信息。在本实施例中，结合两种处理方式对第一声音信息进行处理，得到通话声音信息，不但可对第一声音信息进行声音参数调整，还可对调整后的声音信息进行混合场景声音信息，提高通话声音效果的同时，可满足模拟场景通话的需求。

在一个实施例中，在上述声音处理包括生成第二声音信息、调整声音参数和混合场景声音信息时，对第一声音信息进行声音处理，获得通话声音信息，包括：对第一声音信息进行生成第二声音信息的声音处理，并对生成的第二声音信息进行调整声音参数的声音处理，对调整后的声音信息进行混合场景声音信息的声音处理，获得通话声音信息。

即先基于第一声音信息生成第二声音信息，再调整第二声音信息的声音参数，再对调整后的声音信息进行混合场景声音信息的声音处理，混合场景声音信息的声音处理后得到的声音信息即为通话声音信息。在本实施例中，结合三种处理方式对第一声音信息进行处理，得到通话声音信息，不但可将第一声音信息转换为第二声音信息，以及对第二声音信息进行声音参数调整，还可对调整后的声音信息进行混合场景声音信息，提高通话声音效果的同时，可满足模拟场景通话的需求。

在一个实施例中，获得通话声音信息之前，还包括：获取第二目标终端对应的预设标准声音特征，第一声音信息为终端采集的声音信息时，第二目标终端为终端，第一声音信息为通话对方发送的声音信息时，第二目标终端为通话对方；将待过滤声音信息中与预设标准声音特征不匹配的声音信息过滤，其中，待过滤声音信息为第一声音信息或者对第一声音信息进行目标处理后确定的声音信息，目标处理包括调整声音参数和生成第二声音信息的至少一项。

在有环境声音的情况下，通话时不仅可以听到对方说话者的声音，还可以听到环境声音。比如，在马路上，通话时可能会有汽车以及他人的声音，对通话过程造成干扰。在本实施例中，获得通话声音信息之前，不但可进行上述的声音处理过程，而且需要进行噪音消除，进一步提高通话声音效果。其中，第二目标终端对应的预设标准声音特征可以理解为第二目标终端上通话用户标识对应的预设标准声音的声音特征，预设标准声音的声音特征可以包括声纹信息，同一个通话用户对应的声音信息的音量和音调可以根据实际情况改变，但同一个通话用户的不同声音信息对应相同的声纹信息，从而可通过声音的声纹信息可区分不同的用户。其中，预测标准声音为安静环境下录取的第二目标终端上通话用户标识对应的声音，如此，可减少噪音的干扰，提高噪音消除的准确性。

在一个示例中，在获取到第一声音信息后，即可对第一声音信息进行识别，提取第一声音信息中与预设标准声音特征匹配的声音信息，将第一声音信息与预设标准声音特征不匹配的声音信息过滤，更新第一声音信息，即过滤了第一声音信息中除第二目标终端对应的声音信息以外的声音信息，实现消噪。后续再对更新后的第一声音信息进行上述声音处理过程，得到通话声音信息。

在另一个示例中，在获取到第一声音信息，且对第一声音信息进行调整声音参数或生成第二声音信息的声音处理后再进行噪音消除。即将对第一声音信息进行调整声音参数或/和生成第二声音信息的声音处理后确定的声音信息中，与预设标准声音特征不匹配的声音信息过滤，实现噪音消除。

在又一个示例中，在获取到第一声音信息，且对第一声音信息进行调整声音参数和生成第二声音信息的声音处理后再进行噪音消除。对第一声音信息进行调整声音参数和生成第二声音信息的声音处理过程中，首先，基于第一声音信息生成第二声音信息，再对第二声音信息进行调整声音参数的声音处理。后续在消噪过程中，将对第二声音信息进行调整声音参数的声音处理后确定的声音信息中，与预设标准声音特征不匹配的声音信息过滤，实现噪音消除。

在一个实施例中，对第一声音信息进行声音处理之前，还可以包括：确定声音处理方式。对第一声音信息进行声音处理可以为基于声音处理方式对第一声音信息进行对应的声音处理。其中，声音处理方式可以包括如下至少一项：调整声音参数方式、生成第二声音信息方式和混合场景声音信息方式。

声音处理方式与声音处理对应，确定声音处理方式的过程可以在通话情况下进行，也可以在通话前预先确定。在本实施例中，对声音进行处理的方式可以有多种，例如，可包括调整声音参数方式、生成第二声音信息方式和混合场景声音信息方式。可在上述多种处理方式中确定第一声音信息对应的声音处理方式，且声音处理方式可以包括调整声音参数方式、生成第二声音信息方式和混合场景声音信息方式中至少一项，即对第一声音信息可以进行上述至少一项的声音处理。提高通话声音效果，且可满足不同的声音处理需求。

在一个实施例中，确定声音处理方式，可以包括：接收用户选择处理方式的目标输入；响应于目标输入，确定声音处理方式。

提供多种处理方式，用户可对处理方式进行选择，以确定第一声音信息对应的声音处理方式。在本实施例中，通过响应于用户选择处理方式的目标输入，确定声音处理方式，即用户进行目标输入实现对处理方式的选择。在一个示例中，可为调整声音参数方式、生成第二声音信息方式和混合场景声音信息方式分别设置对应的虚拟选择开关，用户对虚拟选择开关进行操作，响应于用户对虚拟选择开关的操作，可确定声音处理方式。例如，选择其中任意一种处理方式时，打开其对应的虚拟选择开关，终端即可响应于用户对虚拟选择开关的打开操作，确定声音处理方式。在另一个示例中，也可以通过语音或手势等确定声音处理方式，即上述目标输入可为通过语音或手势等方式进行的输入。具体地，接收用户选择处理方式的语音输入或手势输入，响应于语音输入或手势输入，确定声音处理方式，使操作更加方便。

下面以具体实施例对上述通话声音处理方法的过程加以具体说明。

一个实施例中，以终端为第一终端，通话对方为第二终端，第一声音信息为第一终端采集的声音信息(在与第二终端通话情况下，第一终端向第二终端发送声音)，第一终端通过调整声音参数，对第一声音信息进行声音处理，得到通话声音信息，并发送给第二终端，第二终端接收到通话声音信息后播放，且声音参数以音量大小为例进行说明。

在本实施例中，根据通话用户的声音标签(即声音标识信息)，进行自适应的声音参数调整。不管是在接听电话，还是拨打电话，在通话过程中，双方均可进行声音的发送和接收，均可根据通话对方的声音标签，进行声音调整。在本实施例中，第一终端向第二终端发送声音，在第一终端进行声音处理，第一目标终端为第二终端。请参考图2，通话声音处理方法的具体步骤包括S201-S203。

S201：获取第一声音信息。

S202：获取第二终端对应的声音标识信息。

S203：根据声音标识信息确定目标声音参数。

S204：按照目标声音参数对第一声音信息进行调整，获得通话声音信息。

参照图3，第一终端进行上述声音参数调整后，可将得到的通话声音信息发送给第二终端，第二终端可播放通话声音信息，实现第一终端和第二终端的通话。其中，第一声音信息与第一通话用户标识对应，第二终端对应的声音标识信息可以理解为第二终端上第二通话用户标识对应的声音标识信息，从而实现第一通话用户与第二通话用户之间的通话。

由于用户特性差异，不同用户可能会习惯于不同的音量大小，比如老年人可能听力较差，需要较大的音量。有的用户说话声音较低，也不喜欢交流时用较高的声音。因此，针对不同的用户，预先设置不同的声音标签，不同的声音标签，对应音量大小不同。第一终端的第一通话用户与第二终端的第二通话用户通话时，第一终端会根据第二终端上的第二通话用户的声音标签进行音量大小的调整，再发送给第二终端。比如，第二通话用户可能比较习惯于比较低的声音，其声音标签对应的音量大小设置较低，则将第一声音信息的音量降低为该声音标签对应的音量大小，即适当降低发送的音量，然后发送给第二终端。又比如第二通话用户可能听力不太好，需要比较高的声音，其声音标签对应的音量大小设置较高，则将第一声音信息的音量提高到该音量大小，即适当提高发送的音量，然后发送给第二终端。如此，通过调整发送的音量，提高通话效果，使对方得到更好接听体验。

另外，第二终端也可向第一终端发送声音，在第一终端对第二终端发送的第一声音信息进行声音处理，此时，第一终端作为接受声音的一方，在进行参数调整过程中，第一目标终端为第一终端，声音处理过程与上述过程相同，不同之处在于第一目标终端不同、声音标签信息不同以及目标声音参数不同。第一终端在进行声音处理得到通话声音信息后即可播放。

一个实施例中，以终端为第一终端，通话对方为第二终端，第一声音信息为第一终端采集的声音信息，第一终端通过生成第二声音信息，对第一声音信息进行声音处理，得到通话声音信息，并发送给第二终端，第二终端接收到通话声音信息后播放为例进行说明。

在通话过程中，难免会出现声音异常，比如，声音过大、声音比较急促或声音含糊等。在使用耳机拨打或者接听电话时，当识别到说话声音过大时，提醒声音过大，或者基于预设音量大小自动调整后发送给对方。说话声音含糊时，对其进行声音处理，使声音更清晰。声音比较急促时，对其进行声音处理，使声音更缓慢。在本实施例中，通过识别异常声音并进行调整。如图4所示，在生成第二声音信息之前，需利用声音样本(包括正常声音样本(即声音正样本)和异常声音样本(声音负样本)，声音样本包括图4中的声音1，声音2，……，声音n-1，声音n)进行机器学习模型训练，确定已训练的机器学习模型，通过已训练的机器学习模型进行异常声音(非正常声音类别)的识别。

第一终端向第二终端发送声音，第二目标终端为第一终端，在第一终端进行声音处理，生成第二声音信息，且是根据第一声音信息的文本信息以及预设参考声音特征生成第二声音信息。请参考图4，通话声音处理方法的具体步骤包括S401-S404。

S401：获取第一声音信息。

S402：基于已训练的机器学习模型对第一声音信息进行分类，确定第一声音信息的类别。

S403：在第一声音信息的类别不属于正常声音类别时，获取第二目标终端对应的预设参考声音特征。

S404：将第一声音信息对应的文本信息按照预设参考声音特征转换为第二声音信息，将第二声音信息作为通话声音信息。

第一声音信息的类别不属于正常声音类别即表示第一声音信息属于异常声音，如果不正常，则对第一声音信息进行声音处理生成第二声音信息，使之听起来像正常声音。具体通过识别第一声音信息中的文字信息，根据预设参考声音特征转换重新生成第二声音信息，第一终端不发送原始的第一声音信息，而是向第二终端发送生成的第二生成声音。

第一终端生成第二声音信息，将其作为通话声音信息，并发送给第二终端，第二终端可播放通话声音信息，实现第一终端和第二终端的通话。第一终端对应的预设参考声音特征可以理解为第一终端上第一通话用户标识对应的预设参考声音特征，生成的第二声音信息与第一通话用户标识对应，实现第一通话用户与第二通话用户之间的通话，提高通话声音效果。

一个实施例中，以终端为第一终端，通话对方为第二终端，第一声音信息为第一终端采集的声音信息，第一终端通过混合场景声音信息，对第一声音信息进行声音处理，得到通话声音信息，并发送给第二终端，第二终端接收到通话声音信息后播放为例进行说明。

参考图5和图6，预先收集场景声音信息，在需要模拟特殊场景的通话时，可在预先收集的场景声音信息中选择一个场景声音信息，确定为目标场景声音信息，第一终端将第一声音信息与目标场景声音信息混合得到通话声音信息，向第二终端发送通话声音信息。其中，可以从真实的不同环境下录取场景声音，也可以从网络等资源上搜集场景声音。

一个实施例中，以终端为第一终端，通话对方为第二终端，第一声音信息为第一终端采集的声音信息为例，参考图7，第一终端还可对第一声音信息进行过滤，可将过滤后的声音信息发送给第二终端，第二终端接收到过滤后的声音信息后播放。需要说明的是，上述过滤处理，可在上述调整声音参数、生成第二声音信息或混合场景声音信息之前进行，即获得通话声音信息之前，还进行去噪处理，以减少噪音的干扰，提高通话声音效果。另外，也可以在通过生成第二声音信息和调整声音参数中至少一项的处理后，对确定的声音信息进行过滤。

如图8所示，本发明还提供一个实施例的通话声音处理装置800，应用于终端，包括：

声音获取模块801，用于在通话的情况下，获取第一声音信息，第一声音信息为终端采集的声音信息或者通话对方发送的声音信息；

声音处理模块802，用于对第一声音信息进行声音处理，获得通话声音信息，声音处理包括如下至少一项：调整声音参数、生成第二声音信息和混合场景声音信息，其中，调整声音参数基于终端或者通话对方对应的声音标识信息进行调整。

上述通话声音处理装置，终端在通话的情况下，首先获取第一声音信息，其中，第一声音信息为终端采集的声音信息或者通话对方发送的声音信息，即表示可在通话双方对通过过程中的声音信息进行处理。然后对第一声音信息进行处理，获得通话声音信息。如此，在终端与通话对方通话过程中，在获得第一声音信息后，不仅对第一声音信息进行声音处理，而且是通过调整声音参数、生成第二声音信息和混合场景声音信息中至少一项对第一声音信息进行处理，且调整声音参数基于终端或者通话对方对应的声音标识信息进行调整，以得到通话声音信息，提高通话声音效果。

在一个实施例中，上述声音处理模块802，包括：

标识信息获取模块，用于获取第一目标终端对应的声音标识信息，第一声音信息为终端采集的声音信息时，第一目标终端为通话对方，第一声音信息为通话对方发送的声音信息时，第一目标终端为终端；

声音参数确定模块，用于根据声音标识信息确定目标声音参数；

调整模块，用于按照目标声音参数对第一声音信息进行调整。

在一个实施例中，上述声音处理模块802，包括：

参考声音特征获取模块，用于获取第二目标终端对应的预设参考声音特征，第一声音信息为终端采集的声音信息时，第二目标终端为终端，第一声音信息为通话对方发送的声音信息时，第二目标终端为通话对方；

转换模块，用于将第一声音信息对应的文本信息按照预设参考声音特征转换为第二声音信息。

在一个实施例中，上述装置还包括：类别确定模块；

类别确定模块，用于确定第一声音信息的类别；

参考声音特征获取模块，用于在第一声音信息的类别不属于预设类别时，获取第二目标终端对应的预设参考声音特征。

在一个实施例中，类别确定模块，用于基于已训练的机器学习模型对第一声音信息进行分类，确定第一声音信息的类别，其中，已训练的机器学习模型基于预设类别对应的声音正样本以及非预设类别对应的声音负样本训练确定。

在一个实施例中，上述声音处理模块802，包括：

场景声音确定模块，用于确定目标场景声音信息；

混合模块，用于将第一声音信息与目标场景声音信息混合。

在一个实施例中，上述声音处理模块802，用于在上述声音处理包括调整声音参数和生成第二声音信息时，对第一声音信息进行生成第二声音信息的声音处理，并对生成的第二声音信息进行调整声音参数的声音处理，获得通话声音信息。

在一个实施例中，上述声音处理模块802，用于在上述声音处理包括调整声音参数和混合场景声音信息时，对第一声音信息进行调整声音参数的声音处理，并对调整后的声音信息进行混合场景声音信息的声音处理，获得通话声音信息。

在一个实施例中，上述声音处理模块802，用于在上述声音处理包括生成第二声音信息和混合场景声音信息时，对第一声音信息进行生成第二声音信息的声音处理，并对生成的第二声音信息进行混合场景声音信息的声音处理，获得通话声音信息。

在一个实施例中，上述声音处理模块802，用于在上述声音处理包括生成第二声音信息、调整声音参数和混合场景声音信息时，对第一声音信息进行生成第二声音信息的声音处理，并对生成的第二声音信息进行调整声音参数的声音处理，对调整后的声音信息进行混合场景声音信息的声音处理，获得通话声音信息。

在一个实施例中，上述装置还包括：

标准声音特征获取模块，用于在声音处理模块获得通话声音信息之前，获取第二目标终端对应的预设标准声音特征，第一声音信息为终端采集的声音信息时，第二目标终端为终端，第一声音信息为通话对方发送的声音信息时，第二目标终端为通话对方；

过滤模块，用于将待过滤声音信息中与预设标准声音特征不匹配的声音信息过滤，其中，待过滤声音信息为第一声音信息或者对第一声音信息进行目标处理后确定的声音信息，目标处理包括调整声音参数和生成第二声音信息的至少一项。

在一个实施例中，上述装置还包括：

方式确定模块，用于在声音处理模块802对第一声音信息进行声音处理之前，确定声音处理方式，其中，声音处理方式可以包括如下至少一项：调整声音参数方式、生成第二声音信息方式和混合场景声音信息方式。

在一个实施例中，方式确定模块，包括：

输入接收模块，用于接收用户选择处理方式的目标输入。

响应模块，用于响应于目标输入，确定声音处理方式。

本发明实施例提供的通话声音处理装置中的技术特征与上述通话声音处理方法中的技术特征对应，通过通话声音处理装置实现上述通话声音处理方法的各个过程，并能得到相同的效果，为避免重复，在此不再赘述。

图9为实现本发明各个实施例的一种终端设备的硬件结构示意图，该终端设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、处理器910、以及电源911等部件。本领域技术人员可以理解，图9中示出的终端设备结构并不构成对终端设备的限定，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。

其中，处理器910，用于在通话的情况下，获取第一声音信息，第一声音信息为终端采集的声音信息或者通话对方发送的声音信息；对第一声音信息进行声音处理，获得通话声音信息，声音处理包括如下至少一项：调整声音参数、生成第二声音信息和混合场景声音信息，其中，调整声音参数基于终端或者通话对方对应的声音标识信息进行调整。

在本发明实施例中，通过调整声音参数、生成第二声音信息和混合场景声音信息中至少一项对通话情况下的第一声音信息进行声音处理，能够提高通话声音效果。

应理解的是，本发明实施例中，射频单元901可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器910处理；另外，将上行的数据发送给基站。通常，射频单元901包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元901还可以通过无线通信系统与网络和其他设备通信。

终端设备通过网络模块902为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元903可以将射频单元901或网络模块902接收的或者在存储器909中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元903还可以提供与终端设备900执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元903包括扬声器、蜂鸣器以及受话器等。

输入单元904用于接收音频或视频信号。输入单元904可以包括图形处理器(Graphics Processing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元906上。经图形处理器9041处理后的图像帧可以存储在存储器909(或其它存储介质)中或者经由射频单元901或网络模块902进行发送。麦克风9042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元901发送到移动通信基站的格式输出。

终端设备900还包括至少一种传感器905，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板9061的亮度，接近传感器可在终端设备900移动到耳边时，关闭显示面板9061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器905还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元906用于显示由用户输入的信息或提供给用户的信息。显示单元906可包括显示面板9061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板9061。

用户输入单元907可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板9071上或在触控面板9071附近的操作)。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器910，接收处理器910发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板9071。除了触控面板9071，用户输入单元907还可以包括其他输入设备9072。具体地，其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板9071可覆盖在显示面板9061上，当触控面板9071检测到在其上或附近的触摸操作后，传送给处理器910以确定触摸事件的类型，随后处理器910根据触摸事件的类型在显示面板9061上提供相应的视觉输出。虽然在图9中，触控面板9071与显示面板6061是作为两个独立的部件来实现终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板9071与显示面板9061集成而实现终端设备的输入和输出功能，具体此处不做限定。

接口单元908为外部装置与终端设备900连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元908可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端设备900内的一个或多个元件或者可以用于在终端设备900和外部装置之间传输数据。

存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器909可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器910是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器909内的软件程序和/或模块，以及调用存储在存储器909内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。处理器910可包括一个或多个处理单元；优选的，处理器910可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

终端设备900还可以包括给各个部件供电的电源911(比如电池)，优选的，电源911可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端设备900包括一些未示出的功能模块，在此不再赘述。

本发明实施例还提供一种终端设备，包括处理器910和存储器909，存储器909存储有可在处理器910上运行的计算机程序，该计算机程序被处理器910执行时实现上述通话声音处理方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述通话声音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种通话声音处理方法，应用于终端，其特征在于，包括：

对所述第一声音信息进行声音处理，获得通话声音信息，所述声音处理包括如下至少一项：调整声音参数、生成第二声音信息和混合场景声音信息，其中，所述调整声音参数基于所述终端或者所述通话对方对应的声音标识信息进行调整。

2.根据权利要求1所述的方法，其特征在于，所述调整声音参数，包括：

获取第一目标终端对应的声音标识信息，所述第一声音信息为所述终端采集的声音信息时，所述第一目标终端为所述通话对方，所述第一声音信息为所述通话对方发送的声音信息时，所述第一目标终端为所述终端；

根据所述声音标识信息确定目标声音参数；

根据所述目标声音参数对所述第一声音信息进行调整。

3.根据权利要求1所述的方法，其特征在于，所述生成第二声音信息，包括：

获取第二目标终端对应的预设参考声音特征，所述第一声音信息为所述终端采集的声音信息时，所述第二目标终端为所述终端，所述第一声音信息为所述通话对方发送的声音信息时，所述第二目标终端为所述通话对方；

将所述第一声音信息对应的文本信息按照所述预设参考声音特征转换为所述第二声音信息。

4.根据权利要求3所述的方法，其特征在于，所述获取第二目标终端对应的预设参考声音特征之前，还包括：

确定所述第一声音信息的类别；

在所述第一声音信息的类别不属于预设类别时，获取第二目标终端对应的预设参考声音特征。

5.根据权利要求1所述的方法，其特征在于，所述获得通话声音信息之前，还包括：

获取第二目标终端对应的预设标准声音特征，所述第一声音信息为所述终端采集的声音信息时，所述第二目标终端为所述终端，所述第一声音信息为所述通话对方发送的声音信息时，所述第二目标终端为所述通话对方；

将待过滤声音信息中与所述预设标准声音特征不匹配的声音信息过滤，其中，所述待过滤声音信息为所述第一声音信息或者对所述第一声音信息进行目标处理后确定的声音信息，所述目标处理包括所述调整声音参数和所述生成第二声音信息的至少一项。

6.一种通话声音处理装置，应用于终端，其特征在于，包括：

声音获取模块，用于在通话的情况下，获取第一声音信息，所述第一声音信息为所述终端采集的声音信息或者通话对方发送的声音信息；

7.根据权利要求6所述的装置，其特征在于，所述声音处理模块，包括：

标识信息获取模块，用于获取第一目标终端对应的声音标识信息，所述第一声音信息为所述终端采集的声音信息时，所述第一目标终端为所述通话对方，所述第一声音信息为所述通话对方发送的声音信息时，所述第一目标终端为所述终端；

声音参数确定模块，用于根据所述声音标识信息确定目标声音参数；

调整模块，用于根据所述目标声音参数对所述第一声音信息进行调整。

8.根据权利要求6所述的装置，其特征在于，所述声音处理模块，包括：

参考声音特征获取模块，用于获取第二目标终端对应的预设参考声音特征，所述第一声音信息为所述终端采集的声音信息时，所述第二目标终端为所述终端，所述第一声音信息为所述通话对方发送的声音信息时，所述第二目标终端为所述通话对方；

转换模块，用于将所述第一声音信息对应的文本信息按照所述预设参考声音特征转换为所述第二声音信息。

9.根据权利要求8所述的装置，其特征在于，还包括：类别确定模块；

所述类别确定模块，用于确定所述第一声音信息的类别；

所述参考声音特征获取模块，用于在所述第一声音信息的类别不属于预设类别时，获取第二目标终端对应的预设参考声音特征。

10.根据权利要求6所述的装置，其特征在于，还包括：

标准声音特征获取模块，用于在所述声音处理模块获得通话声音信息之前，获取第二目标终端对应的预设标准声音特征，所述第一声音信息为所述终端采集的声音信息时，所述第二目标终端为所述终端，所述第一声音信息为所述通话对方发送的声音信息时，所述第二目标终端为所述通话对方；

过滤模块，用于将待过滤声音信息中与所述预设标准声音特征不匹配的声音信息过滤，其中，所述待过滤声音信息为所述第一声音信息或者对所述第一声音信息进行目标处理后确定的声音信息，所述目标处理包括所述调整声音参数和所述生成第二声音信息的至少一项。

11.一种终端设备，其特征在于，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的通话声音处理方法中的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的通话声音处理方法中的步骤。