CN113573143A

CN113573143A - 音频播放方法和电子设备

Info

Publication number: CN113573143A
Application number: CN202110827203.8A
Authority: CN
Inventors: 许志明
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-10-29
Anticipated expiration: 2041-07-21
Also published as: CN113573143B

Abstract

本申请公开了一种音频播放方法和电子设备，属于人工智能领域。该方法包括：首先基于针对目标视频聊天场景所获取的人脸图像信息，确定与目标视频聊天场景对应的背景音乐音频信息；以及，基于针对目标视频聊天场景所获取的用户语音信息，确定目标视频聊天场景中目标用户的语音特征参数信息；然后基于语音特征参数信息，调整背景音乐音频信息的音频特征参数信息，并基于音频特征参数信息播放背景音乐音频信息。

Description

音频播放方法和电子设备

技术领域

本申请属于人工智能领域，具体涉及一种音频播放方法和电子设备。

背景技术

目前，随着人工智能领域的快速发展，各式各样的社交产品层出不穷，其中，视频聊天类的社交产品更是日益增加，使用视频进行语音聊天的交流方式已经逐渐成为人们日常生活中的一部分，给那些无法面对面交流的人带来了极大的便利。

其中，用户在使用视频进行语音聊天时，会存在视频聊天场景过于单一导致用户使用体验差的问题，因此，用户为了提高视频聊天乐趣，往往会选择配乐功能。然而，现有技术中在视频聊天时配乐方式主要是通过人工检索歌曲并播放的方式，因此可能会存在对视频聊天进行配乐时形式比较单一，不能满足用户个性化需求的问题。

发明内容

本申请实施例的目的是提供一种音频播放方法和电子设备，能够解决现有技术中在视频聊天时配乐方式主要是通过人工检索歌曲并播放的方式，因此可能会存在对视频聊天进行配乐时形式比较单一，不能满足用户个性化需求的问题。

第一方面，本申请实施例提供了一种音频播放方法，该方法包括：

基于针对目标视频聊天场景所获取的人脸图像信息，确定与所述目标视频聊天场景对应的背景音乐音频信息；以及，

基于针对所述目标视频聊天场景所获取的用户语音信息，确定所述目标视频聊天场景中目标用户的语音特征参数信息；

基于所述语音特征参数信息，调整所述背景音乐音频信息的音频特征参数信息，并基于所述音频特征参数信息播放所述背景音乐音频信息。

第二方面，本申请实施例提供了一种音频播放装置，该装置包括：

背景音乐确定模块，用于基于针对目标视频聊天场景所获取的人脸图像信息，确定与所述目标视频聊天场景对应的背景音乐音频信息；

语音特征参数确定模块，用于基于针对所述目标视频聊天场景所获取的用户语音信息，确定所述目标视频聊天场景中目标用户的语音特征参数信息；

音频特征参数调整模块，用于基于所述语音特征参数信息，调整所述背景音乐音频信息的音频特征参数信息；并基于所述音频特征参数信息播放所述背景音乐音频信息。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的音频播放方法的步骤。

第四方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的音频播放方法。

本申请实施例提供的音频播放方法和电子设备，先获取目标视频聊天场景下目标用户的人脸图像信息和用户语音信息；其中，由于从该人脸图像信息中能够识别出目标用户的口型变化信息，从而能够确定目标用户的聊天内容，进而能够确定与目标视频聊天场景对应的背景音乐音频信息；并且由于从目标用户的用户语音信息中能够识别出目标用户的语音特征，从而能够确定出目标用户的语音特征参数信息；然后，再基于上述语音特征参数信息，对确定出的背景音乐音频信息的音频特征参数信息进行调整，以便基于调整后的音频特征参数信息播放背景音乐音频信息，即通过基于人脸图像信息自动匹配背景音乐，同时基于用户语音信息自动调整背景音乐的音频特征参数信息，这样不仅实现在视频聊天中融入与当前聊天话题匹配的背景音乐，还能够基于用户的聊天内容和用户的语音特征参数对背景音乐的音频、以及音频特征参数进行智能化调整，使得背景音乐与用户的聊天内容和用户的声音特征更加匹配，从而提升用户在视频聊天过程中的使用体验。

附图说明

图1是本申请实施例提供的音频播放方法的应用场景示意图；

图2是本申请实施例提供的音频播放方法的第一种流程示意图；

图3是本申请实施例提供的音频播放方法的第一种界面示意图；

图4是本申请实施例提供的音频播放方法的第二种流程示意图；

图5是本申请实施例提供的音频播放方法的第三种流程示意图；

图6是本申请实施例提供的音频播放方法的第二种界面示意图；

图7是本申请实施例提供的音频播放方法的第三种界面示意图；

图8是本申请实施例提供的音频播放装置的模块组成示意图；

图9是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频播放方法和电子设备进行详细地说明。

图1为本申请实施例提供的音频播放方法的应用场景示意图，如图1所示，包括：后台服务端、视频聊天呼叫方和视频聊天被呼叫方，其中，该视频聊天呼叫方或者视频聊天被呼叫方均称为客户端，其均可以是智能手机、平板电脑等移动终端，该后台服务端可以是用于基于客户端的人脸图像信息和用户语音信息进行视频聊天配乐的云端后台服务端或者后台服务端，其中，音频播放方法的具体实现过程为：

采集目标视频聊天场景下的目标用户的人脸图像信息和用户语音信息，再基于采集到的人脸图像信息和用户语音信息确定与目标视频聊天场景对应的背景音乐音频信息，并调整该背景音乐音频信息的音频特征参数信息，最后播放调整后的背景音乐音频信息。

具体的，针对基于人脸图像信息和用户语音信息确定背景音乐音频信息，并调整该背景音乐音频信息的音频特征参数信息的过程可以由后台服务端执行，也可以由客户端执行；另外，也可以是由客户端确定背景音乐音频信息，再由后台服务端调整景音乐音频信息的音频特征参数信息，其中任意可行的变形方式均在本申请保护范围内，在此不再赘述。

(1)针对由客户端确定背景音乐并调整背景音乐的音频特征参数信息的情况，上述音频播放方法的具体实现过程为：

客户端采集目标视频聊天场景下的目标用户的人脸图像信息和用户语音信息；其中，该客户端包括视频聊天呼叫方和视频聊天被呼叫方的中至少一项，对应的，该人脸图像信息可以包括：视频聊天呼叫方和/或视频聊天被呼叫方的人脸图像，该用户语音信息可以包括：视频聊天呼叫方和/或视频聊天被呼叫方的语音信息，人脸图像信息与用户语音信息相对应，该人脸图像信息可以包括：目标用户在发出该用户语音信息时的口型信息；

客户端基于获取的目标用户的人脸图像信息，确定目标视频聊天场景对应的背景音乐音频信息；以及，基于获取的目标用户的用户语音信息，确定目标视频聊天场景中目标用户的语音特征参数信息；

客户端在确定出与当前聊天话题匹配的背景音乐音频信息和目标用户的语音特征参数信息后，基于该语音特征参数信息，调整该背景音乐音频信息的音频特征参数信息；

客户端基于调整后的音频特征参数信息播放背景音乐音频信息。

其中，需要说明的是，由客户端确定背景音乐并调整背景音乐的音频特征参数信息时，客户端可以基于本端采集到的人脸图像信息确定背景音乐音频信息，并基于本端采集到的用户语音信息调整该背景音乐音频信息的音频特征参数信息；也可以同时基于本端采集到的人脸图像信息和对端采集到的人脸图像信息确定背景音乐音频信息，并同时基于本端采集到的用户语音信息和对端采集到的用户语音信息调整该背景音乐音频信息的音频特征参数信息；还可以是同时基于本端采集到的人脸图像信息和对端采集到的人脸图像信息确定背景音乐音频信息，并在视频聊天呼叫方或者视频聊天被呼叫方分别基于本端采集到的用户语音信息调整该背景音乐音频信息的音频特征参数信息；其中，对于客户端为视频聊天呼叫方而言，本端即为视频聊天呼叫方，对端即为视频聊天被呼叫方，对端的人脸图像信息和用户语音信息可以是通过后台服务端发送至视频聊天呼叫方或者视频聊天被呼叫方的。

(2)针对由后台服务端确定背景音乐并调整背景音乐的音频特征参数信息的情况，上述音频播放方法的具体实现过程为：

客户端采集目标视频聊天场景下的目标用户的人脸图像信息和用户语音信息，将该目标用户的人脸图像信息和用户语音信息发送至后台服务端；其中，该客户端包括视频聊天呼叫方和视频聊天被呼叫方的中至少一项，对应的，该人脸图像信息可以包括：视频聊天呼叫方和/或视频聊天被呼叫方的人脸图像，该用户语音信息可以包括：视频聊天呼叫方和/或视频聊天被呼叫方的语音信息，人脸图像信息与用户语音信息相对应，该人脸图像信息可以包括：目标用户在发出该用户语音信息时的口型信息；

后台服务端基于客户端上传的目标用户的人脸图像信息，确定目标视频聊天场景对应的背景音乐音频信息；以及，基于客户端上传的目标用户的用户语音信息，确定目标视频聊天场景中目标用户的语音特征参数信息；

后台服务端在确定出与当前聊天话题匹配的背景音乐音频信息和目标用户的语音特征参数信息后，基于该语音特征参数信息，调整该背景音乐音频信息的音频特征参数信息；

后台服务端将调整后的背景音乐音频信息发送至视频聊天呼叫方和视频聊天被呼叫方，对应的，视频聊天呼叫方和视频聊天被呼叫方基于调整后的音频特征参数信息播放背景音乐音频信息。

其中，需要说明的是，上述后台服务端可以是视频聊天应用对应的即时通信服务端，也可以是单独的音频播放服务端，针对后台服务端为视频聊天应用对应的即时通信服务端的情况，后台服务端不仅将调整后的背景音乐音频信息发送至视频聊天呼叫方和视频聊天被呼叫方，还将视频聊天呼叫方的用户语音信息和人脸图像信息发送至视频聊天被呼叫方，以便在视频聊天被呼叫方的客户端展示视频聊天呼叫方的用户语音信息和人脸图像信息，以及将视频聊天被呼叫方的用户语音信息和人脸图像信息发送至视频聊天呼叫方，以便在视频聊天呼叫方的客户端展示视频聊天被呼叫方的用户语音信息和人脸图像信息。

图2为本申请实施例提供的音频播放方法的第一种流程示意图，图2中的方法能够由客户端执行，即由图1中的视频聊天呼叫方和视频聊天被呼叫方的中至少一项执行，也可以由客户端与后台服务端共同参与执行，即由图1中的视频聊天呼叫方和视频聊天被呼叫方的中至少一项与后台服务端进行信息交互并执行，如图2所示，该方法至少包括以下步骤：

S101，基于针对目标视频聊天场景所获取的人脸图像信息，确定与目标视频聊天场景对应的背景音乐音频信息；

具体的，在执行S101之前，如图3所示，在目标视频聊天场景的界面设置“开启配乐”按钮，用户可以根据自身需求选择是否开启智能配乐，若用户选择开启智能配乐，即按下“开启配乐”按钮，其中，当图2中的方法由客户端执行时，客户端在检测到用户选择开启智能配乐后，直接触发执行步骤S101；对应的，当图2中的方法由后台服务端参与执行时，客户端向后台服务端发送视频聊天配乐请求，以触发后台服务端执行步骤S101，其中，该视频聊天配乐请求可以是客户端在向后台服务端发送人脸图像信息之前发送的，也可以是客户端在向后台服务端发送人脸图像信息是时一并发送的；反之，若用户未选择开启智能配乐，则客户端不会向后台服务端发送视频聊天配乐请求；具体的，客户端在检测到用户按下“开启配乐”按钮后，即客户端检测到用户开启智能配乐后，客户端向后台服务端发送在目标视频聊天场景所获取的人脸图像信息，并由后台服务端确定与目标视频聊天场景对应的背景音乐音频信息。

其中，上述人脸图像信息可以包括：视频聊天呼叫方、视频聊天被呼叫方中至少一项的人脸图像信息；具体的，在确定与当前聊天话题匹配的背景音乐音频信息的过程中，可以仅考虑视频聊天呼叫方或者视频聊天被呼叫方的人脸图像信息，也可以同时考虑视频聊天呼叫方和视频聊天被呼叫方的人脸图像信息；

例如，针对仅考虑视频聊天呼叫方或者视频聊天被呼叫方的人脸图像信息的情况，可以基于人脸图像信息的数量、或者人脸图像信息携带的口型变化信息确定选择哪一方的人脸图像信息，来确定与当前聊天话题匹配的背景音乐音频信息；具体的，可以将在预设时间段内获取到的人脸图像信息的数量最多的一方作为背景音乐确定参考方，再基于该背景音乐确定参考方的人脸图像信息确定背景音乐音频信息；也可以先基于在预设时间段内获取到的视频聊天呼叫方和视频聊天被呼叫方的人脸图像信息，确定口型变化信息，再将基于该口型变化信息识别出口型变化最快的一方作为背景音乐确定参考方，再基于该背景音乐确定参考方的人脸图像信息确定背景音乐音频信息；

又如，针对同时考虑视频聊天呼叫方和视频聊天被呼叫方的人脸图像信息的情况，可以先基于获取的视频聊天呼叫方的第一人脸图像信息，确定与第一人脸图像信息匹配的第一背景音乐音频信息；以及基于获取的视频聊天被呼叫方的第二人脸图像信息，确定与第二人脸图像信息匹配的第二背景音乐音频信息；若确定出的第一背景音乐音频信息与第二背景音乐音频信息相同，则将该第一背景音乐音频信息或者第二背景音乐音频信息确定为目标视频聊天场景对应的背景音乐音频信息；若确定出的第一背景音乐音频信息与第二背景音乐音频信息不同，则可以比较在预设时间内获取的第一人脸图像信息对应的第一口型变化信息和第二人脸图像信息对应的第二口型变化信息，若第一口型变化信息对应的口型变化程度高于第二口型变化信息对应的口型变化程度，则将与第一人脸图像信息匹配的第一背景音乐音频信息确定为与目标视频聊天场景对应的背景音乐音频信息；反之，则将与第二人脸图像信息匹配的第二背景音乐音频信息确定为与目标视频聊天场景对应的背景音乐音频信息；或者，重新获取视频聊天呼叫方的第一人脸图像信息和视频聊天被呼叫方的第二人脸图像信息，再基于更新后的第一人脸图像信息确定第一背景音乐音频信息、以及基于更新后的第二人脸图像信息确定第二背景音乐音频信息，直至第一背景音乐音频信息与第二背景音乐音频信息相同为止。

在具体实施时，可以在多个客户端选用相同的背景音乐，也可以在不同客户端选用不同的背景音乐，例如，将与第一人脸图像信息匹配的第一背景音乐音频信息作为视频聊天呼叫方的背景音乐音频信息，将与第二人脸图像信息匹配的第二背景音乐音频信息作为视频聊天被呼叫方的背景音乐音频信息。

本发明实施例中，针对在多个客户端选用相同的背景音乐，且在同时基于多方人脸图像信息确定与当前聊天话题匹配的背景音乐音频信息的情况下，可能会出现根据参与视频聊天的多方的人脸图像信息匹配到的背景音乐音频信息不同的问题，因此，可以通过将针对每一方在预设时间段内获取的人脸图像信息对应的口型变化信息进行比较的方式，选取基于人脸图像信息对应的口型变化最快的一方(即说话内容最多的一方)确定出的背景音乐音频信息作为目标视频聊天场景对应的背景音乐音频信息；或者，通过重新获取多方人脸图像信息的方式，重新比较来自多方的背景音乐音频信息，直至来自多方的背景音乐音频信息相同为止，或者通过为不同的客户端匹配与其本端采集到的人脸图像信息对应的背景音乐音频信息的方式，以此来提高确定出的与当前聊天话题匹配的背景音乐的精准度。

S102，基于针对目标视频聊天场景所获取的用户语音信息，确定目标视频聊天场景中目标用户的语音特征参数信息；

其中，上述用户语音信息可以包括：视频聊天呼叫方、视频聊天被呼叫方中至少一项的用户语音信息；上述语音特征参数信息可以包括语音时长信息、基音周期信息、短时能量谱信息梅尔频率倒谱系数中至少一项；具体的，通过对用户语音信息进行语音特征识别处理，即可得到目标用户的语音特征参数信息。

S103，基于目标视频聊天场景中目标用户的语音特征参数信息，调整背景音乐音频信息的音频特征参数信息，并基于音频特征参数信息播放目标视频聊天场景对应的背景音乐音频信息；

其中，为了使得在客户端播放的背景音乐与视频聊天参与方的声音特征更加匹配，在确定出目标用户的语音特征参数信息后，可以基于该语音特征参数信息对背景音乐音频信息的音频特征参数信息进行调整，再将调整后的背景音乐音频信息发送至视频聊天呼叫方、视频聊天被呼叫方。

在具体实施时，可以利用预先训练好的背景音乐融合模型基于用户语音信息对背景音乐音频信息的音频特征参数信息进行调整，具体的，将上述S101中确定出的背景音乐音频信息和获取到的用户语音信息作为输入信息，同时输入至预先训练好的背景音融合模型，并利用该背景音融合模型，先对获取到的用户语音信息进行语音特征参数识别，确定出目标用户的语音特征参数信息，再基于该语音特征参数信息，对上述S101中确定出的背景音乐音频信息的音频特征参数信息进行调整，得到音频特征参数调整后的背景音乐音频信息(也可以称为融合音)。

其中，上述背景音融合模型可以是通过如下方式训练得到的：

获取第一训练样本数据，其中，该第一训练样本数据包括多个背景音融合模型训练样本，每个背景音融合模型训练样本表示历史用户语音信息、历史语音特征参数信息与历史音频特征参数信息之间的对应关系；

采用机器学习方法并基于上述第一训练样本数据，对预设的背景音融合模型参数进行迭代训练更新，得到更新后的模型参数，直到背景音融合模型对应的目标函数收敛，进而得到训练好的背景音融合模型；其中，该背景音融合模型用于基于用户语音信息识别出语音特征参数信息、以及基于语音特征参数信息对背景音乐音频信息的音频特征参数进行调整。

其中，需要说明的是，针对图2中的方法由客户端执行的情况，可以先在后台服务端训练得到背景音融合模型，再将训练好的背景音融合模型部署在客户端，这样客户端能够直接利用预先训练的背景音融合模型，并基于用户语音信息识别出语音特征参数信息、以及基于语音特征参数信息对背景音乐音频信息的音频特征参数进行调整。

其中，上述用户语音信息可以包括：视频聊天呼叫方、视频聊天被呼叫方中至少一项的用户语音信息；具体的，在确定用户的语音特征参数信息的过程中，可以仅考虑在视频聊天开始后预设时间段内获取到的视频聊天呼叫方或者视频聊天被呼叫方的用户语音信息，也可以同时考虑在视频聊天开始后预设时间段内获取到的视频聊天呼叫方和视频聊天被呼叫方的用户语音信息；

例如，针对仅考虑视频聊天呼叫方或者视频聊天被呼叫方的用户语音信息的情况，可以基于最先接收到的满足预设条件的用户语音信息，来确定用户的语音特征参数信息，具体的，若最先接收到的有效语音时长大于预设阈值的用户语音信息来自于视频聊天呼叫方，则基于视频聊天呼叫方的用户语音信息确定用户的语音特征参数信息；也可以基于用户语音信息中包含的有效语音的时长确定选择哪一方的用户语音信息，来确定用户的语音特征参数信息；具体的，可以将在预设时间段内获取到的用户语音信息中包含的有效语音的时长最大的一方作为语音特征确定参考方，再基于该语音特征确定参考方的用户语音信息确定语音特征参数信息；

又如，针对同时考虑视频聊天呼叫方和视频聊天被呼叫方的用户语音信息的情况，可以先基于获取的视频聊天呼叫方的第一用户语音信息，确定第一语音特征参数信息；以及基于获取的视频聊天被呼叫方的第二用户语音信息，确定第二语音特征参数信息；若第一语音特征参数信息与第二语音特征参数信息相同，则将该第一语音特征参数信息或者第二语音特征参数信息确定为目标用户的语音特征参数信息；若第一语音特征参数信息与第二语音特征参数信息不同，则可以比较在预设时间内获取的第一用户语音信息对应的第一有效语音时长和第二用户语音信息对应的第二有效语音时长，若第一有效语音时长大于第二有效语音时长，则将第一语音特征参数信息确定为目标用户的语音特征参数信息；反之，则将第二语音特征参数信息确定为目标用户的语音特征参数信息，进而基于该语音特征参数信息对背景音乐音频信息的音频特征参数信息进行调整，得到最终需要在客户端进行播放的背景音乐融合音。

在具体实施时，在多个客户端播放的背景音乐的音频特征参数信息可以是均基于相同的语音特征参数信息进行调整得到的，在不同客户端播放的背景音乐的音频特征参数信息也可以是基于不同的语音特征参数信息进行调整得到的，例如，直接基于第一语音特征参数信息对视频聊天呼叫方的背景音乐音频信息的音频特征参数信息进行调整，得到最终需要在视频聊天呼叫方进行播放的第一背景音乐融合音(即视频聊天呼叫方播放的背景音乐的音频特征由视频聊天呼叫用户的声音特征来决定)；以及基于第二语音特征参数信息对视频聊天被呼叫方的背景音乐音频信息的音频特征参数信息进行调整，得到最终需要在视频聊天被呼叫方进行播放的第二背景音乐融合音(即视频聊天被呼叫方播放的背景音乐的音频特征由视频聊天被呼叫用户的声音特征来决定)。

具体的，在基于语音特征参数信息对背景音乐音频信息的音频特征参数信息进行调整后，后台服务端向视频聊天呼叫方和视频聊天被呼叫方发送音频特征参数调整后的背景音乐音频信息，客户端接收并播放音频特征参数调整后的背景音乐音频信息；或者客户端直接基于调整后的音频特征参数信息播放背景音乐音频信息。

其中，为了避免背景音乐对视频聊天的过程产生干扰，上述背景音乐音频信息是将背景音乐歌词去掉后得到的背景音乐主旋律信息，上述背景音乐主旋律信息以MIDI文件的形式存储，具体的，MIDI文件是存储声音信号的时间、位置、强度、时长、颤音、力度变化中至少一项数字化信息的文件，MIDI文件通常包括多音轨带伴奏，从多音轨MIDI旋律中能够提取完整的背景音乐主旋律信息，进一步的，从背景音乐主旋律信息中提取音频特征参数信息(即音频特征向量)，并基于语音特征参数信息，调整背景音乐音频信息的音频特征参数信息，再基于调整后的音频特征参数信息播放背景音乐音频信息。

本申请实施例中，先获取目标视频聊天场景下目标用户的人脸图像信息和用户语音信息；其中，由于从该人脸图像信息中能够识别出目标用户的口型变化信息，从而能够确定目标用户的聊天内容，进而能够确定与目标视频聊天场景对应的背景音乐音频信息；并且由于从目标用户的用户语音信息中能够识别出目标用户的语音特征，从而能够确定出目标用户的语音特征参数信息；然后，再基于上述语音特征参数信息，对确定出的背景音乐音频信息的音频特征参数信息进行调整，以便基于调整后的音频特征参数信息播放背景音乐音频信息，即通过基于人脸图像信息自动匹配背景音乐，同时基于用户语音信息自动调整背景音乐的音频特征参数信息，这样不仅实现在视频聊天中融入与当前聊天话题匹配的背景音乐，还能够基于用户的聊天内容和用户的语音特征参数对背景音乐的音频、以及音频特征参数进行智能化调整，使得背景音乐与用户的聊天内容和用户的声音特征更加匹配，从而提升用户在视频聊天过程中的使用体验。

进一步的，针对背景音乐音频信息的确定过程，可以先基于人脸图像信息进行口型识别，再将用户口型信息对应的语音音素序列与备选背景音乐的歌词音素序列进行匹配，来确定与当前视频聊天场景匹配的背景音乐音频信息，即该背景音乐音频信息可以是将基于人脸图像信息提取出的用户语音音素序列与歌词音素序列进行音素匹配确定的，如图4所示，上述S101基于针对目标视频聊天场景所获取的人脸图像信息，确定与目标视频聊天场景对应的背景音乐音频信息，具体包括：

S1011，基于针对目标视频聊天场景所获取的人脸图像信息，确定用户口型信息；

S1012，基于确定的用户口型信息，确定用户语音音素序列；

在具体实施时，可以利用预先训练的口型识别模型对确定的用户口型信息进行识别，确定用户语音音素序列；具体的，该口型识别模型可以是通过如下方式训练得到的：

获取第二训练样本数据，其中，该第二训练样本数据包括多个口型识别模型训练样本，每个口型识别模型训练样本表示历史用户口型信息与历史用户语音音素序列之间的对应关系；

采用机器学习方法并基于上述第二训练样本数据，对预设的口型识别模型参数进行迭代训练更新，得到更新后的模型参数，直到口型识别模型对应的模型函数收敛，进而得到训练好的口型识别模型，其中，该口型识别模型用于基于用户口型信息对用户语音音素序列进行预测。

其中，需要说明的是，针对图2中的方法由客户端执行的情况，可以先在后台服务端训练得到口型识别模型，再将训练好的口型识别模型部署在客户端，这样客户端能够直接利用预先训练的口型识别模型对确定的用户口型信息进行识别，确定用户语音音素序列。

具体的，在获取到目标用户的人脸图像信息后，利用机器视觉技术中的口型检测技术，对在预设时间间隔内针对目标视频聊天场景所获取的人脸图像信息进行检测，其中，预设时间间隔内的人脸图像信息为预设时间间隔内连续变化的图像序列，即从连续变化的图像序列中识别出连续变化的人脸口型位置信息，从而得到用户口型连续变化的特征(即数字编码向量特征)；将上述用户口型连续变化的特征(即数字编码向量特征)输入至预先训练好的口型识别模型，识别出用户口型对应的发音，并基于用户口型对应的发音，输出用户语音音素序列，即可能性最大的自然语言音素序列。

S1013，基于各备选背景音乐的歌词音素序列，选取与用户语音音素序列相匹配的背景音乐音频信息。

其中，可以将配音库中所有的背景音乐均作为备选背景音乐，具体的，将用户语音音素序列与备选背景音乐的歌词音素序列进行比较，判断备选背景音乐中是否存在至少一个音乐片段的歌词音素序列与用户语音音素序列的相似度大于预设阈值，若存在，则将该备选背景音乐的音频信息作为与目标视频聊天场景对应的背景音乐音频信息；若不存在，则重新获取人脸图像信息。

进一步的，为了提高背景音乐匹配效率，可以将配音库中所有的背景音乐预先划分为多个背景音乐分类，将目标背景音乐分类下的多个背景音乐确定为备选背景音乐，首先基于用户语音音素序列确定视频聊天话题类型；基于预先划分的多个背景音乐分类，确定与该视频聊天话题类型对应的目标背景音乐分类，将用户语音音素序列与目标背景音乐分类下的备选背景音乐的歌词音素序列进行比较，判断目标背景音乐分类下的备选背景音乐中是否存在至少一个音乐片段的歌词音素序列与用户语音音素序列的相似度大于预设阈值，若存在，则将该目标背景音乐分类下的备选背景音乐的音频信息作为与目标视频聊天场景对应的背景音乐音频信息；若不存在，则重新获取人脸图像信息。

其中，预先划分的多个背景音乐分类可以包括：节日祝福、广告促销、彩铃配音、主题宣传、唯美欢快、抒情感人、军事题材、其他音乐分类中至少一项。

在本申请实施例中，通过将基于人脸图像信息识别出的用户语音音素序列与配音库中背景音乐的歌词音素序列进行比较，从而匹配出与用户视频聊天话题类型一致的背景音乐，进而提高视频聊天内容与背景音乐的协调性，提升用户的使用体验。

进一步的，考虑到每个用户都具有不同的语音特征，为了使背景音乐的音频特征与用户的语音特征更加匹配，可以基于用户语音信息对应的用户语音特征参数调整背景音乐的音频特征参数，具体的，如图5所示，上述S102基于针对目标视频聊天场景所获取的用户语音信息，确定目标视频聊天场景中目标用户的语音特征参数信息，具体包括：

S1021，对针对目标视频聊天场景所获取的用户语音信息进行预处理，得到预处理后的用户语音信息。具体的，将用户语音信息输入至背景音融合模型，其中，用户语音信息为用户的语音信号信息，将上述语音信号信息进行预处理，例如，对语音信号进行预加重、分帧、加窗中至少一项预处理操作。

S1022，从预处理后的用户语音信息中，提取目标视频聊天场景中目标用户的语音特征参数信息，其中，该语音特征参数信息包括：时域特征参数信息和/或频域特征参数信息。

其中，上述时域特征参数信息包括：语音时长信息、基音周期信息、短时能量谱信息；上述频域特征参数信息包括：梅尔频率倒谱系数。

对应的，上述S103中，基于目标视频聊天场景中目标用户的语音特征参数信息，调整背景音乐音频信息的音频特征参数信息，具体包括：

基于梅尔频率倒谱系数判断背景音乐音频信息与用户语音信息的音色是否匹配；

若判断结果为是，则基于语音时长信息调整背景音乐音频信息的用于表征播放节奏快慢的第一音频特征参数；以及，

基于基音周期信息调整背景音乐音频信息的用于表征播放频率高低的第二音频特征参数；以及，

基于短时能量谱信息调整背景音乐音频信息的用于表征播放音量高低的第三音频特征参数。

具体的，若背景音乐音频信息与用户语音信息的音色匹配，则将该背景音乐音频信息作为待调整的背景音乐音频信息；对应的，针对基于语音时长信息调整背景音乐音频信息的用于表征播放节奏快慢的第一音频特征参数的过程，具体为，基于语音时长信息，分析出目标用户说话语速的快慢，若在预设时间间隔内识别到的用户语言音素数量大于歌词音素数量，则确定目标用户的语速大于背景音乐播放的速度，同时，加快背景音乐的播放节奏；若在预设时间间隔内识别到的用户语音音素数量小于歌词音素数量，则确定目标用户的语速小于背景音乐的播放速度，同时，减缓背景音乐的播放节奏；

对应的，针对基于基音周期信息调整背景音乐音频信息的用于表征播放频率高低的第二音频特征参数的过程，具体为，基于基音周期信息，分析出目标用户的声音频率，若目标用户的声音频率高于背景音乐的播放频率，则升高背景音乐的播放频率；若目标用户的声音频率低于背景音乐的播放频率，则降低背景音乐的播放频率；其中，目标用户的声音频率可以用于区分男声、女声等声音属性，基于目标用户到的声音频率调整背景音乐的播放频率可以让背景音乐的播放频率与目标用户的声音属性更加匹配；

对应的，针对基于短时能量谱信息调整背景音乐音频信息的用于表征播放音量高低的第三音频特征参数的过程，具体为，基于短时能量谱信息，分析出目标用户的音量高低(即声音分贝)，若目标用户的音量高于背景音乐的播放音量，则增大背景音乐的播放音量；若目标用户的音量小于背景音乐的播放音量，则降低背景音乐的播放音量；若没有检测到目标用户的用户语音信息，则增大背景音乐的播放音量。

进一步的，还可以通过设置均衡器EQ算法，即通过适当增高用户语音信息和背景音乐音频信息在500～8K频率范围的频率，来平衡混音(用户语音信息和背景音乐音频信息)中的各种声音信息，来改善整体的音色效果。

本发明实施例中，通过基于用户语音信息对应的语音特征参数调整背景音乐的音频特征参数，从而使背景音乐的音频特征与用户的语音特征更加匹配，进而提升用户的使用体验。

进一步的，考虑到为了提升视频聊天的趣味性，用户在视频聊天过程中可能存在变声设置的情况，因此，需要基于变声处理后的用户语音信息来确定语音特征参数信息，其中，针对上述图2中的方法由客户端执行的情况，可以由客户端直接对用户语音信息进行变声处理，并基于变声处理后的用户语音信息确定语音特征参数信息；而针对上述图2中的方法由客户端和后台服务端共同参与执行的情况，考虑到客户端上传的用户语音信息可以是变声前的语音信息，也可以是变声后的语音信息，针对客户端上传的用户语音信息为变声处理后的语音信息的情况，后台服务端可以直接基于接收到的用户语音信息确定语音特征参数信息，而针对客户端上传的用户语音信息为变声处理前的语音信息的情况，后台服务端需要先对用户语音信息进行变声处理，基于此，上述对针对目标视频聊天场景所获取的用户语音信息进行预处理，得到预处理后的用户语音信息，具体包括：

在确定客户端已选择变声设置时，对针对目标视频聊天场景所获取的用户语音信息进行变声处理，得到变声处理后的用户语音信息；具体的，先确定客户端所选择的变声类型选项信息，基于该变声类型选项信息对针对目标视频聊天场景所获取的用户语音信息进行变声处理；

基于变声处理后的用户语音信息确定预处理后的用户语音信息；具体的，在对用户语音信息进行变声处理后，还可以继续对变声处理后的用户语音信息进行预加重、分帧、加窗中至少一项预处理操作。

具体的，如图6所示，在视频聊天界面增设“变声”按钮，该“变声”按钮在视频聊天开始时默认为关闭状态，用户可以根据自身需求将“变声”按钮设置为开启状态；若用户想在视频聊天时给用户语音信息增加趣味，则开启“变声”按钮；进一步的，在视频聊天界面会弹出“变声”界面供用户选择，如图7所示，在该“变声”界面用户可以根据自身需求选择“单方变声”或者“双方变声”，进一步的，用户还可以根据自身需求选择变声后的声音属性，其中，上述声音属性可以包括：大叔音、萝莉音、御姐音、儿童音、磁性甜美音中任一种声音属性。

在具体实施时，在确定用户已选择变声设置时，即用户将“变声”按钮设置为开启状态，基于用户所选择的变声类型选项信息对目标视频聊天场景下获取的用户语音信息进行变声处理，得到变声处理后的用户语音信息；具体的，针对上述图2中的方法由客户端和后台服务端共同参与执行的情况，考虑到针对用户语音信息的变声处理过程可以由客户端执行，也可以由后台服务端执行；针对客户端执行的情况，客户端直接将变声后的用户语音信息上传至后台服务端，后台服务端直接将变声后的用户语音信息输入至背景音融合模型；针对后台服务端执行的情况，客户端在检测到用户完成变声设置后，需要向后台服务端发送用户所选择的变声类型选项信息，以及将变声前的用户语音信息上传至后台服务端，后台服务端将变声前的用户语音信息进行变声处理后输入至背景音融合模型；其中，变声处理后的用户语音信息为变声处理后的用户语音信号信息，将上述变声处理后的用户语音信号信息进行预处理，即对变声处理后的用户语音信号进行预加重、分帧、加窗中至少一项预处理操作，得到预处理后的用户语音信息，并执行步骤S1022，对变声处理后的用户语音信息中的语音特征参数信息进行提取，进而基于变声处理后的用户语音信息中的语音特征参数信息调整音频特征参数信息；若用户觉得变声效果不佳时，可进行关闭变声的操作。

本发明实施例中，可以通过改变用户的声音属性，来防止通过录音等方式导致用户本身的声音被窃取的风险，以及提高视频聊天的娱乐性，以此来提升视频聊天中多方用户的参与体验，同时也能保护用户个人声音的隐私安全。

进一步的，针对视频聊天时环境中存在环境噪音的情况，基于此，上述对针对目标视频聊天场景所获取的用户语音信息进行预处理，得到预处理后的用户语音信息，具体还包括：

判断用户语音信息中是否包含噪音音频信息；

若判断结果为是，则基于噪音音频信息的噪音类别，对用户语音信息进行去噪音处理，得到去噪音处理后的用户语音信息；具体的，上述噪音类别包括：驾驶场景音、空旷音、机械嘈杂音、动物的声音中至少一种噪音；通过预先训练的噪音识别模型，首先自动识别用户语音信息中的噪音类型，进而对不同类型的噪音进行去噪处理。

在对噪音识别模型进行训练时，获取第三训练样本数据，其中，该第三训练样本数据包括多个噪音识别模型训练样本，每个噪音识别模型训练样本表示包含某一类型噪音的样本语音信息与噪音类别之间的对应关系；

采用机器学习方法并基于上述第三训练样本数据，对预设的噪音识别模型参数进行迭代训练更新，得到更新后的模型参数，直到噪音识别模型对应的模型函数收敛，进而得到训练好的噪音识别模型，其中，该噪音识别模型用于对用户语音信息进行噪音类别识别。

其中，需要说明的是，针对图2中的方法由客户端执行的情况，可以先在后台服务端训练得到噪音识别模型，再将训练好的噪音识别模型部署在客户端，这样客户端能够直接利用预先训练的噪音识别模型自动识别用户语音信息中的噪音类型，进而对不同类型的噪音进行去噪音处理。

具体的，通过预先基于不同类型的噪音构建的噪音识别模型，再利用该噪音识别模型确定针对目标视频聊天场景所获取的用户语音信息中所包含的噪音类别，进而采用与该噪音类别对应的去噪音处理方式，对用户语音信息进行去噪处理，这样能够提高噪音识别的识别效率，以及提高用户语音信息的去燥处理的效果。

基于去噪音处理后的用户语音信息确定预处理后的用户语音信息；具体的，在对用户语音信息进行去噪音处理后，还可以继续对去噪音处理后的用户语音信息进行预加重、分帧、加窗中至少一项预处理操作。

在具体实施时，对目标视频聊天场景所获取的用户语音信息进行去噪音处理，得到去噪音处理后的用户语音信息，再基于去噪音处理后用户语音信息确定目标用户的语音特征参数信息；其中，针对上述图2中的方法由客户端执行的情况，可以由客户端直接对用户语音信息进行去噪音识别及处理，并基于去噪音处理后的用户语音信息确定语音特征参数信息，其中具体去噪音识别及处理可以参照下述后台服务端的处理过程；对应的，针对上述图2中的方法由客户端和后台服务端共同参与执行的情况，考虑到客户端上传的用户语音信息可以是去噪音处理前的语音信息(即针对用户语音信息的去噪音处理过程可以由后台服务端执行)，也可以是去噪音处理后的语音信息(即针对用户语音信息的去噪音处理过程可以由客户端执行)；针对去噪音处理过程由客户端执行的情况，客户端直接将去噪音处理后的用户语音信息上传至后台服务端，后台服务端直接将去噪音处理后的用户语音信息输入至背景音融合模型；针对去噪音处理过程由后台服务端执行的情况，客户端将去噪音处理前的用户语音信息上传至后台服务端，后台服务端将去噪音处理前的用户语音信息进行去噪音处理后输入至背景音融合模型；其中，去噪音处理后的用户语音信息为去噪音处理后的用户语音信号信息，将上述去噪音处理后的用户语音信号信息进行预处理，即对去噪音处理后的用户语音信号进行预加重、分帧、加窗中至少一项预处理操作，得到预处理后的用户语音信息，并执行步骤S1022，对去噪音处理后的用户语音信息中的语音特征参数信息进行提取，进而基于去噪音处理后的用户语音信息中的语音特征参数信息调整音频特征参数信息。

进一步的，为了检测去噪音处理的效果，可以将去噪音处理后的用户语音信息输入至感知客观语音质量评价模型(Perceptual Objective Listening Quality Analysis,POLQA)，利用该感知客观语音质量评价模型对去噪音处理后的用户语音信息的去噪音效果进行识别，根据去噪音效果识别结果确定当前去噪音后的用户语音信息的去噪音处理效果是否达到预期，若是，则将该用户语音信息确定为最终的去噪音处理后的用户语音信息，基于该最终的去噪音处理后的用户语音信息确定预处理后的用户语音信息；若否，则重新对该用户语音信息进行去噪音处理，直到用户语音信息的去噪音处理效果达到预期；具体的，针对用户语音信息的去噪音效果识别过程，将当前去噪音后的用户语音信息(即待评价语音信号)通过后台服务端发送至对端，并与对端接收到的上述去噪音后的用户语音信息(即评价参考语音信号)进行比较，其中，评价参考语音信号与待评价语音信号之间的感知差异被评为差异，由于用户语音信息在通过后台服务端进行传输的过程中会发生语音信号失真的现象，且去噪音效果的好坏决定了语音信号失真现象的严重程度，当去噪音效果不好时，会导致语音信号失真的现象更加严重，因此，可以利用该感知客观语音质量评价模型检测去噪音处理的效果，具体的，当差异大于预设阈值时，则对用户语音信息重新进行去噪音处理。

本发明实施例中，通过对用户语音信息进行去噪音处理，可以滤除视频聊天时环境噪音的影响，再基于去噪音处理后的用户语音信息确定语音特征参数信息，这样能够提高语音特征参数信息的确定准确度，进而提高背景音乐的音频特征参数信息的调整准确度；并且增加对去噪音处理后的用户语音信息的去噪音效果评价，再基于去噪音效果达到预期的用户语音信息确定语音特征参数信息，这样能够进一步提高语音特征参数信息的确定准确度，进而进一步提高背景音乐的音频特征参数信息的调整准确度。

进一步的，用户在视频聊天的过程中，可能会出现由于聊天话题的转变，从而导致需要更换不同的背景音乐的情况，具体的，按照预设时间间隔，获取目标视频聊天场景下的目标用户的人脸图像信息；基于当前获取到的人脸图像信息，确定用户口型信息；再基于用户口型信息确定用户语音音素序列；判断当前确定出的用户语音音素序列与上一次确定出的用户语音音素序列不相同，则继续执行上述步骤S1012，基于各备选背景音乐的歌词音素序列，选取与当前确定出的用户语音音素序列相匹配的背景音乐音频信息，并执行上述步骤S102至S103，进一步的，按照预设背景音切换方式播放与当前确定出的用户语音音素序列相匹配的背景音乐音频信息，具体的，在预设时间间隔内逐渐降低与上一次确定出的用户语音音素序列相匹配的背景音乐音频信息的播放音量，并逐渐增大与当前确定出的用户语音音素序列相匹配的背景音乐音频信息的播放音量，从而完成上一次确定出的背景音乐音频信息与当前确定出的背景音乐音频信息之间的过渡，使背景音乐之间的转换更加自然，其中，由于确定出的用户语音音素序列发生变化，因此，当前确定出的背景音乐音频信息与上一次确定出的背景音乐音频信息也将发生变化，即需要进行背景音风格转换，从而使得播放的背景音能够随着聊天风格的变化进行适应性调整，以此来提升用户的使用体验；进一步的，当用户选择变声设置时，用户语音信息中的语音特征参数信息也会发生变化，基于该语音特征参数信息调整音频特征参数信息，可以得到具有新的音频特征参数信息的背景音乐音频信息，此时，也可以采用上述预设背景音切换方式播放具有新的音频特征参数信息的背景音乐音频信息。

进一步的，针对目标用户可能存在方言口音的情况，可能会导致无法找到与用户语音音素序列相匹配的背景音乐音频信息的问题，基于此，上述基于用户口型信息，确定用户语音音素序列，具体包括：

在确定用户语音信息存在方言口音时，基于用户口型信息，确定方言音素序列；

基于预设的方言音素-标准音素之间的对应关系，将确定出的方言音素序列转换为标准音素序列；

基于转换得到的标准音素序列，确定用户语音音素序列。

在具体实施时，可以利用预先训练的口型识别模型对确定的用户口型信息进行识别，确定方言音素序列；具体的，该口型识别模型可以是通过如下方式训练得到的：

获取第四训练样本数据，其中，该第四训练样本数据包括多个口型识别模型训练样本，每个口型识别模型训练样本表示历史用户口型信息与历史方言音素序列之间的对应关系；

采用机器学习方法并基于上述第四训练样本数据，对预设的口型识别模型参数进行迭代训练更新，得到更新后的模型参数，直到口型识别模型对应的模型函数收敛，进而得到训练好的口型识别模型，其中，该口型识别模型用于基于用户口型信息对方言音素序列进行预测。

其中，需要说明的是，针对图2中的方法由客户端执行的情况，可以先在后台服务端训练得到口型识别模型，再将训练好的口型识别模型部署在客户端，这样客户端能够直接利用预先训练的口型识别模型对确定的用户口型信息进行识别，确定方言音素序列。

具体的，在获取到目标用户的人脸图像信息后，利用机器视觉技术中的口型检测技术，对在预设时间间隔内针对目标视频聊天场景所获取的人脸图像信息进行检测，其中，预设时间间隔内的人脸图像信息为预设时间间隔内连续变化的图像序列，即从连续变化的图像序列中识别出连续变化的人脸口型位置信息，从而得到用户口型连续变化的特征(即数字编码向量特征)；将上述用户口型连续变化的特征(即数字编码向量特征)输入至预先训练好的口型识别模型，识别出用户口型对应的方言发音，并基于用户口型对应的方言发音，输出方言音素序列，并基于预设的方言音素-标准音素之间的对应关系，将方言音素序列转换为标准音素序列，从而确定用户语音音素序列，进而得到可能性最大的自然语言音素序列。

进一步的，在基于确定出方言音素序列确定出用户语音音素序列后，基于各备选背景音乐的歌词音素序列，选取与用户语音音素序列相匹配的背景音乐音频信息。

在具体实施时，目标用户首先基于自身需求选择是否开启智能配乐，当目标用户选择开启智能配乐后，基于获取到的目标用户的人脸图像信息，确定目标用户的口型信息，并基于目标用户的口型信息，确定用户语音音素序列；然后基于各备选背景音乐的歌词音素序列，选取与用户语音音素序列相匹配的背景音乐音频信息；当用户语音信息存在方言口音时，则基于用户口型信息，确定方言音素序列，并基于预设的方言音素-标准音素之间的对应关系，将方言音素序列转换为标准音素序列；以及基于标准音素序列，确定用户语音音素序列，然后基于各备选背景音乐的歌词音素序列，选取与用户语音音素序列相匹配的背景音乐音频信息；以及，基于针对目标视频聊天场景所获取的用户语音信息，确定目标视频聊天场景中目标用户的语音特征参数信息；其中，上述语音特征参数信息可以由变声后的用户语音信息确定，或者由去噪音处理后的用户语音信息确定，或者由变声且去噪音处理后的用户语音信息确定；并基于上述确定好的语音特征参数信息，调整背景音乐音频信息的音频特征参数信息，具体的，将用户语音信息和背景音乐音频信息同时输入至背景音融合模型，通过对用户语音信息进行预处理操作，得到用户语音信息中的语音特征参数信息，并基于上述语音特征参数信息调整背景音乐音频信息中的音频特征参数信息，具体的，基于梅尔频率倒谱系数判断背景音乐音频信息与用户语音信息的音色是否匹配；若判断结果为是，则基于语音时长信息调整背景音乐音频信息的用于表征播放节奏快慢的第一音频特征参数；以及，基于基音周期信息调整背景音乐音频信息的用于表征播放频率高低的第二音频特征参数；以及，基于短时能量谱信息调整背景音乐音频信息的用于表征播放音量高低的第三音频特征参数，并基于上述调整后的音频特征参数信息播放背景音乐音频信息。

本申请实施例中的音频播放方法，先获取目标视频聊天场景下目标用户的人脸图像信息和用户语音信息；其中，由于从该人脸图像信息中能够识别出目标用户的口型变化信息，从而能够确定目标用户的聊天内容，进而能够确定与目标视频聊天场景对应的背景音乐音频信息；并且由于从目标用户的用户语音信息中能够识别出目标用户的语音特征，从而能够确定出目标用户的语音特征参数信息；然后，再基于上述语音特征参数信息，对确定出的背景音乐音频信息的音频特征参数信息进行调整，以便基于调整后的音频特征参数信息播放背景音乐音频信息，即通过基于人脸图像信息自动匹配背景音乐，同时基于用户语音信息自动调整背景音乐的音频特征参数信息，这样不仅实现在视频聊天中融入与当前聊天话题匹配的背景音乐，还能够基于用户的聊天内容和用户的语音特征参数对背景音乐的音频、以及音频特征参数进行智能化调整，使得背景音乐与用户的聊天内容和用户的声音特征更加匹配，从而提升用户在视频聊天过程中的使用体验。

需要说明的是，本申请实施例提供的音频播放方法，执行主体可以为音频播放装置，或者该音频播放装置中的用于执行音频播放方法的控制模块。本申请实施例中以音频播放装置执行音频播放方法为例，说明本申请实施例提供的音频播放装置。

本申请实施例提供的音频播放方法，在视频聊天呼叫方与视频聊天被呼叫方之间进行视频聊天的过程中，获取目标视频聊天场景下目标用户的人脸图像信息和用户语音信息；其中，由于从该人脸图像信息中能够识别出目标用户的口型变化信息，从而能够确定目标用户的聊天内容，进而能够确定与目标视频聊天场景对应的背景音乐音频信息；并且由于从目标用户的用户语音信息中能够识别出目标用户的语音特征，从而能够确定出目标用户的语音特征参数信息；然后，再基于上述语音特征参数信息，对确定出的背景音乐音频信息的音频特征参数信息进行调整，以便基于调整后的音频特征参数信息播放背景音乐音频信息，即通过基于人脸图像信息自动匹配背景音乐，同时基于用户语音信息自动调整背景音乐的音频特征参数信息，这样不仅实现在视频聊天中融入与当前聊天话题匹配的背景音乐，还能够基于用户的聊天内容和用户的语音特征参数对背景音乐的音频、以及音频特征参数进行智能化调整，使得背景音乐与用户的聊天内容和用户的声音特征更加匹配，从而提升用户在视频聊天过程中的使用体验。

需要说明的是，本申请实施例与本申请上一实施例基于同一发明构思，因此该实施例的具体实施可以参见前述音频播放方法的实施，重复之处不再赘述。

对应上述实施例提供的音频播放方法，基于相同的技术构思，本申请实施例还提供了一种音频播放装置，图8为本申请实施例提供的音频播放装置的模块组成示意图，该音频播放装置设置于后台服务端或客户端，用于执行图1至图7描述的音频播放方法，如图8所示，该音频播放装置包括：

背景音乐确定模块802，用于基于针对目标视频聊天场景所获取的人脸图像信息，确定与所述目标视频聊天场景对应的背景音乐音频信息；

语音特征参数确定模块804，用于基于针对所述目标视频聊天场景所获取的用户语音信息，确定所述目标视频聊天场景中目标用户的语音特征参数信息；

音频特征参数调整模块806，用于基于所述语音特征参数信息，调整所述背景音乐音频信息的音频特征参数信息；并基于所述音频特征参数信息播放所述背景音乐音频信息。

可选地，所述背景音乐确定模块802，具体用于：

基于针对目标视频聊天场景所获取的人脸图像信息，确定用户口型信息；

基于所述用户口型信息，确定用户语音音素序列；

基于各备选背景音乐的歌词音素序列，选取与所述用户语音音素序列相匹配的背景音乐音频信息。

可选地，所述语音特征参数确定模块804，具体用于：

对针对所述目标视频聊天场景所获取的用户语音信息进行预处理，得到预处理后的用户语音信息；

从所述预处理后的用户语音信息中，提取所述目标视频聊天场景中目标用户的语音特征参数信息，其中，所述语音特征参数信息包括：时域特征参数信息和/或频域特征参数信息。

可选地，所述时域特征参数信息包括：语音时长信息、基音周期信息、短时能量谱信息，所述频域特征参数信息包括：梅尔频率倒谱系数；

所述音频特征参数调整模块806，进一步具体用于：

基于所述梅尔频率倒谱系数判断所述背景音乐音频信息与所述用户语音信息的音色是否匹配；

若判断结果为是，则基于所述语音时长信息调整所述背景音乐音频信息的用于表征播放节奏快慢的第一音频特征参数；以及，

基于所述基音周期信息调整所述背景音乐音频信息的用于表征播放频率高低的第二音频特征参数；以及，

基于所述短时能量谱信息调整所述背景音乐音频信息的用于表征播放音量高低的第三音频特征参数。

可选地，所述语音特征参数确定模块804，还进一步具体用于：

判断所述用户语音信息中是否包含噪音音频信息；

若判断结果为是，则基于所述噪音音频信息的噪音类别，对所述用户语音信息进行去噪音处理，得到去噪音处理后的用户语音信息；

基于所述去噪音处理后的用户语音信息确定预处理后的用户语音信息。

本申请实施例中的音频播放装置，先获取目标视频聊天场景下目标用户的人脸图像信息和用户语音信息；其中，由于从该人脸图像信息中能够识别出目标用户的口型变化信息，从而能够确定目标用户的聊天内容，进而能够确定与目标视频聊天场景对应的背景音乐音频信息；并且由于从目标用户的用户语音信息中能够识别出目标用户的语音特征，从而能够确定出目标用户的语音特征参数信息；然后，再基于上述语音特征参数信息，对确定出的背景音乐音频信息的音频特征参数信息进行调整，以便基于调整后的音频特征参数信息播放背景音乐音频信息，即通过基于人脸图像信息自动匹配背景音乐，同时基于用户语音信息自动调整背景音乐的音频特征参数信息，这样不仅实现在视频聊天中融入与当前聊天话题匹配的背景音乐，还能够基于用户的聊天内容和用户的语音特征参数对背景音乐的音频、以及音频特征参数进行智能化调整，使得背景音乐与用户的聊天内容和用户的声音特征更加匹配，从而提升用户在视频聊天过程中的使用体验。

本申请实施例中的音频播放装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频播放装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频播放装置能够实现图1至图7的音频播放方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图9所示，本申请实施例还提供一种电子设备，包括处理器9011，存储器909，存储在存储器909上并可在所述处理器9011上运行的程序或指令，该程序或指令被处理器9011执行时实现上述音频播放方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图9为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、处理器9011、以及电源9010等部件。

本领域技术人员可以理解，电子设备还可以包括给各个部件供电的电源9010(比如电池)，电源9010可以通过电源管理系统与处理器9011逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器9011，用于基于针对目标视频聊天场景所获取的人脸图像信息，确定与所述目标视频聊天场景对应的背景音乐音频信息；以及，

本申请实施例中，通过在视频聊天中融入背景音乐，并基于用户的聊天内容和用户的语音特征参数对背景音乐的音频、以及音频特征参数进行智能化调整，使得背景音乐与用户的聊天内容和用户的声音特征更加匹配，从而提升用户在视频聊天时的使用体验。

本申请实施例中的电子设备，先获取目标视频聊天场景下目标用户的人脸图像信息和用户语音信息；其中，由于从该人脸图像信息中能够识别出目标用户的口型变化信息，从而能够确定目标用户的聊天内容，进而能够确定与目标视频聊天场景对应的背景音乐音频信息；并且由于从目标用户的用户语音信息中能够识别出目标用户的语音特征，从而能够确定出目标用户的语音特征参数信息；然后，再基于上述语音特征参数信息，对确定出的背景音乐音频信息的音频特征参数信息进行调整，以便基于调整后的音频特征参数信息播放背景音乐音频信息，即通过基于人脸图像信息自动匹配背景音乐，同时基于用户语音信息自动调整背景音乐的音频特征参数信息，这样不仅实现在视频聊天中融入与当前聊天话题匹配的背景音乐，还能够基于用户的聊天内容和用户的语音特征参数对背景音乐的音频、以及音频特征参数进行智能化调整，使得背景音乐与用户的聊天内容和用户的声音特征更加匹配，从而提升用户在视频聊天过程中的使用体验。

应理解的是，本申请实施例中，射频单元901可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器9011处理；另外，将上行的数据发送给基站。通常，射频单元901包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元901还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块902为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元903可以将射频单元901或网络模块902接收的或者在存储器909中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元903还可以提供与电子设备执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元903包括扬声器、蜂鸣器以及受话器等。

输入单元904可以包括图形处理器(Graphics Processing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器909可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器9011可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器9011中。

电子设备还包括至少一种传感器905，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板9061的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板9061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器905还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元906用于显示由用户输入的信息或提供给用户的信息。显示单元906可包括显示面板9061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板9061。

用户输入单元907可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板9071上或在触控面板9071附近的操作)。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器9011，接收处理器9011发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板9071。除了触控面板9071，用户输入单元907还可以包括其他输入设备9072。具体地，其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板9071可覆盖在显示面板9061上，当触控面板9071检测到在其上或附近的触摸操作后，传送给处理器9011以确定触摸事件的类型，随后处理器9011根据触摸事件的类型在显示面板9061上提供相应的视觉输出。虽然在图9中，触控面板9071与显示面板9061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板9071与显示面板9061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元908为外部装置与电子设备连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元908可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备内的一个或多个元件或者可以用于在电子设备和外部装置之间传输数据。

存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器909可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器9011是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器909内的软件程序和/或模块，以及调用存储在存储器909内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器9011可包括一个或多个处理单元；优选的，处理器9011可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理也可以不集成到处理器中。

电子设备还可以包括给各个部件供电的电源9010(比如电池)，优选的，电源9010可以通过电源9010管理系统与处理器9011逻辑相连，从而通过电源9010管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备包括一些未示出的功能模块，在此不再赘述。

优选的，本申请实施例还提供一种电子设备，包括处理器9011，存储器909，存储在存储器909上并可在所述处理器9011上运行的程序或指令，该程序或指令被处理器9011执行时实现上述音频播放方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器9011执行时实现上述音频播放方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器9011为上述实施例中所述的电子设备中的处理器9011。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频播放方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于针对目标视频聊天场景所获取的人脸图像信息，确定与所述目标视频聊天场景对应的背景音乐音频信息，包括：

基于所述用户口型信息，确定用户语音音素序列；

3.根据权利要求1所述的方法，其特征在于，所述基于针对所述目标视频聊天场景所获取的用户语音信息，确定所述目标视频聊天场景中目标用户的语音特征参数信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述时域特征参数信息包括：语音时长信息、基音周期信息、短时能量谱信息，所述频域特征参数信息包括：梅尔频率倒谱系数；

所述基于所述语音特征参数信息，调整所述背景音乐音频信息的音频特征参数信息，包括：

5.根据权利要求3所述的方法，其特征在于，所述对针对所述目标视频聊天场景所获取的用户语音信息进行预处理，得到预处理后的用户语音信息，包括：

判断所述用户语音信息中是否包含噪音音频信息；

6.一种音频播放装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述背景音乐确定模块，具体用于：

基于所述用户口型信息，确定用户语音音素序列；

8.根据权利要求6所述的装置，其特征在于，所述语音特征参数确定模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述时域特征参数信息包括：语音时长信息、基音周期信息、短时能量谱信息，所述频域特征参数信息包括：梅尔频率倒谱系数；

所述音频特征参数调整模块，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述语音特征参数确定模块，还进一步具体用于：

判断所述用户语音信息中是否包含噪音音频信息；

11.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的音频播放方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的音频播放方法的步骤。