CN115359156A

CN115359156A - 音频播放方法、装置、设备和存储介质

Info

Publication number: CN115359156A
Application number: CN202210912801.XA
Authority: CN
Inventors: 杨昭; 许剑峰
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-07-31
Filing date: 2022-07-31
Publication date: 2022-11-18
Anticipated expiration: 2042-07-31
Also published as: CN115359156B

Abstract

本申请公开了一种音频播放方法、装置、设备和存储介质，属于计算机技术领域。所述方法包括：在音频播放过程中获取当前播放的音频帧的音频特征，然后根据该音频特征获取人脸表情数据。之后，根据该人脸表情数据对预设人像模型的人脸表情进行调整，如此预设人像模型的人脸表情就可以体现对当前音频帧的音频内容的理解。之后，在播放音频帧的过程中显示预设人像模型的人脸图像，就可以使得用户在聆听音频的同时还能观看到附带有音频内容理解的预设人像模型的人脸表情，从而可以便于用户加深对音频内容的理解，获得更好的聆听体验。

Description

音频播放方法、装置、设备和存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种音频播放方法、装置、设备和存储介质。

背景技术

随着计算机技术的发展，人们在工作和生活中越来越多的使用诸如手机、平板电脑等终端。在用户使用终端播放音频时，为了满足用户在视觉上的需求，可以在播放音频的同时显示与音频匹配的渲染图形。然而，该渲染图形只能简单的表征音频的节奏和强度，对用户的聆听体验的提升有限。

发明内容

本申请提供了一种音频播放方法、装置、设备和存储介质，可以提升用户的聆听体验。所述技术方案如下：

第一方面，提供了一种音频播放方法。在该方法中，在音频播放过程中获取当前播放的音频帧的音频特征，然后根据该音频特征获取人脸表情数据，该人脸表情数据用于体现对该音频特征所属的音频内容的理解。之后，根据该人脸表情数据对预设人像模型的人脸表情进行调整。在播放该音频帧的过程中显示预设人像模型的人脸图像。

该音频特征可以是包括有一个或多个维度的子特征数据的特征向量。

该人脸表情数据用于指示专业音乐人在聆听该音频特征所属的音频内容时会做出的人脸表情，该人脸表情附带有专业音乐人对该音频内容的理解，即附带有专业音乐人对该音频内容消化以后的情绪表达。

该人脸表情数据可以包括多个人脸关键点的位置。人脸关键点可以定位人脸特定位置，如此，通过多个人脸关键点就可以获得抽象的人脸姿态信息(即人脸表情)。示例地，该多个人脸关键点可以包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等部位的定位点。

可选地，该人脸表情数据包括的多个人脸关键点的位置是以预先设置的标准人像模型为基准确定的。也即，该人脸表情数据可以是标准人像模型的人脸表情数据，也即，该人脸表情数据可以包括标准人像模型的人脸(即标准人脸)中多个人脸关键点的位置。

在本申请中，根据该人脸表情数据对预设人像模型的人脸表情进行调整后，预设人像模型的人脸表情就可以体现对当前音频帧的音频内容的理解，因而显示预设人像模型的人脸图像后，用户在聆听音频的同时还可以观看到附带有音频内容理解的预设人像模型的人脸表情，从而可以便于用户加深对音频内容的理解，获得更好的聆听体验。

在一种可能的方式中，根据该音频特征获取人脸表情数据的操作可以为：将该音频特征输入第一音频表情模型，由第一音频表情模型输出该人脸表情数据。

第一音频表情模型用于确定在聆听各种音频特征所属的音频内容时会出现的人脸表情。也即，在将某个音频特征输入第一音频表情模型后，第一音频表情模型会确定出在聆听这个音频特征所属的音频内容时会出现的人脸表情，然后输出相应的人脸表情数据。

在本申请中，可以通过第一音频表情模型直接确定该音频特征对应的人脸表情数据，该音频特征对应的人脸表情数据指示的人脸表情附带有对该音频特征所属的音频内容的理解。如此，通过第一音频表情模型可以简单快速的确定出人脸表情数据。

在另一种可能的方式中，该音频特征包括多个子特征数据，这种情况下，根据该音频特征获取人脸表情数据的操作可以为：将该音频特征中的多个子特征数据中每个子特征数据与对应的权重相乘，得到目标音频特征；将目标音频特征输入第二音频表情模型，由第二音频表情模型输出该人脸表情数据。

该音频特征包括的多个子特征数据中的各个子特征数据可以具有对应的权重。各个子特征数据对应的权重可以由技术人员预先进行设置，各个子特征数据的权重用于体现各个子特征数据对于音频内容的重要程度，也就体现了各个子特征数据在音频内容理解时的作用大小。也即，某个子特征数据的权重越大，这个子特征数据对于音频内容而言越重要，其在音频内容理解时的作用越大，即这个子特征数据越有助于音频内容理解。而某个子特征数据的权重越小，这个子特征数据对于音频内容而言越不重要，其在音频内容理解时的作用越小，即这个子特征数据对音频内容理解带来的帮助越小。

目标音频特征是根据各个子特征数据对应的权重对音频帧原始的音频特征中的各个子特征数据处理得到的。也即，目标音频特征和原始的音频特征均为特征向量，该特征向量中的每个元素为子特征数据，目标音频特征中的多个元素中的每个元素均是原始的音频特征中相同位置上的元素与对应的权重相乘得到的。目标音频特征相比于原始的音频特征有所侧重，更能体现音频内容的重点。

第二音频表情模型用于确定在聆听各种目标音频特征所属的音频内容时会出现的人脸表情。也即，在将某个目标音频特征输入第二音频表情模型后，第二音频表情模型会确定出在聆听这个目标音频特征所属的音频内容时会出现的人脸表情，然后输出相应的人脸表情数据。

在本申请中，可以先根据各个子特征数据对应的权重来对音频帧原始的音频特征进行处理，以得到目标音频特征。由于目标音频特征相比于原始的音频特征更能体现音频内容的重点，所以将目标音频特征输入至第二音频表情模型后获得的人脸表情数据更为准确。

第二音频表情模型可以预先训练得到。可选地，可以获取多个样本音频帧和多个视频帧，该多个样本音频帧与该多个视频帧一一对应，该多个视频帧中的每个视频帧包含有专业音乐人在聆听对应的一个样本音频帧时的人脸图像。对于该多个样本音频帧中任意的一个样本音频帧，对这个样本音频帧进行特征提取，得到这个样本音频帧的音频特征，将这个样本音频帧的音频特征包括的多个子特征数据中的每个子特征数据与对应的权重相乘，得到这个样本音频帧的目标音频特征；对这个样本音频帧对应的一个视频帧进行人脸表情识别，得到初始人脸表情数据，根据专业音乐人的人像模型的人脸关键点与标准人像模型的人脸关键点之间的映射关系，将该初始人脸表情数据映射为标准人像模型的标准人脸表情数据；将这个样本音频帧的目标音频特征作为一个训练样本中的输入数据，将这个样本音频帧对应的视频帧中的初始人脸表情数据映射至的标准人脸表情数据作为这个训练样本中的样本标记，以得到这个训练样本。使用该训练样本对神经网络模型进行训练，得到第二音频表情模型。

可选地，可以根据标准人像模型在参考人脸表情下多个人脸关键点的位置和专业音乐人的人像模型在同一参考人脸表情下的多个人脸关键点的位置，建立标准人像模型的人脸关键点与专业音乐人的人像模型的人脸关键点之间的映射关系，该映射关系用于指示在同一人脸表情下标准人像模型和专业音乐人的人像模型各自的人脸表情数据。如此，根据该映射关系就可以将专业音乐人的人像模型的人脸表情数据映射至标准人像模型。

在本申请中，可以先将专业音乐人在聆听样本音频时的人脸表情映射至标准人像模型，得到标准人脸表情数据，再使用该标准人脸表情数据和目标音频特征来进行模型训练。如此，即使收集到的是不同的专业音乐人聆听样本音频的视频，也可以据此准确进行模型训练。

进一步地，在音频播放过程中获取当前播放的音频帧的音频特征之前，还可以从设置的一个或多个人像模型中随机选择一个人像模型作为预设人像模型；或者，若接收到针对设置的一个或多个人像模型中的一个人像模型的选择指令，则将该选择指令所选择的人像模型确定为预设人像模型；或者，若接收到图像导入指令，则构建该图像导入指令携带的图像包含的人像的人像模型，将构建出的人像模型确定为预设人像模型。

在本申请中，用户可以根据自身的需求灵活选择预设人像模型，以便其在后续播放音频时可以观看所选择的预设人像模型的人脸表情，提高了用户体验。

可选地，该人脸表情数据包括多个人脸关键点的位置，该人脸表情数据是标准人像模型的人脸表情数据，根据该人脸表情数据对预设人像模型的人脸表情进行调整的操作可以为：根据该标准人像模型的人脸关键点与预设人像模型的人脸关键点之间的映射关系，将该人脸表情数据映射至预设人像模型，得到目标人脸表情数据；将预设人像模型和目标人脸表情数据输入表情生成模型，由该表情生成模型输出具有目标人脸表情数据指示的人脸表情的预设人像模型。

可选地，可以根据标准人像模型在参考人脸表情下多个人脸关键点的位置和预设人像模型在同一参考人脸表情下的多个人脸关键点的位置，建立标准人像模型的人脸关键点与预设人像模型的人脸关键点之间的映射关系。该映射关系用于指示在同一人脸表情下标准人像模型和预设人像模型各自的人脸表情数据。如此，根据该映射关系就可以将标准人像模型的人脸表情数据映射至预设人像模型。

该表情生成模型用于将输入的人像模型的人脸表情调整为输入的人脸表情数据指示的人脸表情。也即，该表情生成模型可以对输入的人像模型中各个人脸关键点所指示的部位进行调整，以使该人像模型的人脸表情为相应的人脸表情。

在本申请中，可以通过该表情生成模型简单快速的将预设人像模型的人脸表情调整为该人脸表情数据指示的人脸表情，以便于用户可以在音频播放过程中及时观看预设人像模型的人脸表情。

第二方面，提供了一种音频播放装置，所述音频播放装置具有实现上述第一方面中音频播放方法行为的功能。所述音频播放装置包括至少一个模块，所述至少一个模块用于实现上述第一方面所提供的音频播放方法。

第三方面，提供了一种音频播放装置，所述音频播放装置的结构中包括处理器和存储器，所述存储器用于存储支持音频播放装置执行上述第一方面所提供的音频播放方法的程序，以及存储用于实现上述第一方面所述的音频播放方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述音频播放装置还可以包括通信总线，所述通信总线用于在所述处理器与所述存储器之间建立连接。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的音频播放方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的音频播放方法。

上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与上述第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

附图说明

图1是本申请实施例提供的一种终端的结构示意图；

图2是本申请实施例提供的一种终端的软件系统的框图；

图3是本申请实施例提供的一种音频播放方法的流程图；

图4是本申请实施例提供的一种模型训练的示意图；

图5是本申请实施例提供一种音频播放页面的示意图；

图6是本申请实施例提供一种音频播放过程的示意图；

图7是本申请实施例提供的一种音频播放装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

应当理解的是，本申请提及的“多个”是指两个或两个以上。在本申请的描述中，除非另有说明，“/”表示或的意思，比如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，比如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请的技术方案，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

在本申请中描述的“一个实施例”或“一些实施例”等语句意味着在本申请的一个或多个实施例中包括该实施例描述的特定特征、结构或特点。由此，在本申请中的不同之处出现的“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等语句不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。此外，术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

下面对本申请实施例涉及的终端予以说明。

图1是本申请实施例提供的一种终端的结构示意图。参见图1，终端100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中，传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，比如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是终端100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从该存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口，如可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C接口。处理器110可以通过不同的I2C接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。比如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C接口通信，实现终端100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S接口。处理器110可以通过I2S接口与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

UART接口是一种通用串行数据总线，用于异步通信。UART接口可以为双向通信总线。UART接口可以将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。比如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现终端100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现终端100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为终端100充电，也可以用于终端100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。USB接口130还可以用于连接其他终端，比如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端100的结构限定。在本申请另一些实施例中，终端100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过终端100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端100供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

终端100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。比如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(lownoise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code divisionmultiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(globalnavigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigationsatellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

终端100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，终端100可以包括1个或N个显示屏194，N为大于1的整数。

终端100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。比如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端100可以包括1个或N个摄像头193，N为大于1的整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。比如，当终端100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样，终端100可以播放或录制多种编码格式的视频，比如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，比如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用，比如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，比如Micro SD卡，实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。比如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，计算机可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，来执行终端100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端100在使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，比如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

终端100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D以及应用处理器等实现音频功能，比如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中，终端100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。终端100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，终端100根据压力传感器180A检测触摸操作强度。终端100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。比如：当有触摸操作强度小于压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定终端100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定终端100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测终端100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消终端100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，终端100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。终端100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当终端100是翻盖机时，终端100可以根据磁传感器180D检测翻盖的开合。终端100根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测终端100在各个方向上(一般为三轴)加速度的大小。当终端100静止时可检测出重力的大小及方向。加速度传感器180E还可以用于识别终端100的姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。终端100可以通过红外或激光测量距离。在一些实施例中，在拍摄场景中，终端100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括发光二极管(LED)和光检测器，比如光电二极管。发光二极管可以是红外发光二极管。终端100通过发光二极管向外发射红外光。终端100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，终端100可以确定终端100附近有物体。当检测到不充分的反射光时，可以确定终端100附近没有物体。终端100可以利用接近光传感器180G检测用户手持终端100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。终端100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测终端100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。终端100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，终端100利用温度传感器180J检测的温度，执行温度处理策略。比如，当温度传感器180J上报的温度超过阈值，终端100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，终端100对电池142加热，以避免低温导致终端100异常关机。在其他一些实施例中，当温度低于又一阈值时，终端100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器180K可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键，也可以是触摸式按键。终端100可以接收按键输入，产生与终端100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。比如，作用于不同应用(比如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，也可对应不同的振动反馈效果。不同的应用场景(比如：时间提醒，接收信息，闹钟，游戏等)，也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和终端100的接触和分离。终端100可以支持1个或N个SIM卡接口，N为大于1的整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端100中，不能和终端100分离。

接下来对终端100的软件系统予以说明。

终端100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的安卓(Android)系统为例，对终端100的软件系统进行示例性说明。

图2是本申请实施例提供的一种终端100的软件系统的框图。参见图2，分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统从上至下分为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统层，以及内核层。

应用程序层可以包括一系列应用程序包。如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问，这些数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。视图系统包括可视控件，比如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序的显示界面，显示界面可以由一个或多个视图组成，比如，包括显示短信通知图标的视图，包括显示文字的视图，以及包括显示图片的视图。电话管理器用于提供终端100的通信功能，比如通话状态的管理(包括接通，挂断等)。资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等。通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如，通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或滚动条文本形式出现在系统顶部状态栏的通知，比如后台运行的应用程序的通知。通知管理器还可以是以对话窗口形式出现在屏幕上的通知，比如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统层可以包括多个功能模块，比如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(比如：OpenGL ES)，2D图形引擎(比如：SGL)等。表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，比如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明终端100软件以及硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别原始输入事件所对应的控件。以该触摸操作是单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用程序框架层的接口，启动相机应用，再调用内核层启动摄像头驱动，通过摄像头193捕获静态图像或视频。

下面对本申请实施例涉及的应用场景予以说明。

越来越多的调研发现，人们在有画面的情况下聆听音乐，往往会感受到更强的音乐体验。比如，在看到画面中知名的艺术家或者音乐人听音乐时的表情时，自己往往会拥有更强的音乐感受。一方面，是因为大部分听众是非音乐专业，在看到专业音乐人对音乐消化以后的情绪表达，会加深自己对当下音乐中的情绪和音乐性的理解。另一方面，神经电生理学的研究发现，对同时呈现的多通道信息(在本申请实施例中是指视觉通道和听觉通道)，神经反应会增强，这种多感官增强现象称为超加性效应(super-additive effect)。

为此，本申请实施例中提供了一种音频播放方法，可以在播放音频的同时，基于对该音频内容的理解，调整预设人像模型的人脸表情，然后显示预设人像模型的人脸图像。如此，用户在聆听音频的同时，还可以观看附带有音频内容理解的人脸表情，从而可以加深自身的聆听感受，获得更好的聆听体验。

本申请实施例提供的音频播放方法可以应用于终端，该终端可以为能够播放音频的终端，如可以为手机、笔记本电脑、平板电脑、台式电脑等，本申请实施例对此不作限定。

本申请实施例提供的音频播放方法可以在终端播放音频时使用。比如，可以在终端中的音乐应用播放歌曲时使用，这种情况下，终端在播放歌曲时可以在歌曲播放页面中显示预设人像模型的人脸图像，该人脸图像中的人脸表情可以体现对歌曲内容的理解。或者，可以在终端中的视频应用播放含有音乐的视频时使用，如可以在终端中的视频应用播放音乐节目的视频时使用，这种情况下，终端在播放视频时可以在视频播放页面中显示预设人像模型的人脸图像，该人脸图像中的人脸表情可以体现对该视频中正在播放的音乐内容的理解。或者，可以在终端播放虚拟演唱会时使用，这种情况下，终端在播放虚拟演唱会时，可以将预设人像模型作为一个虚拟观众，然后调整这个虚拟观众的人脸表情，以使其体现对该虚拟演唱会中的演唱者正在演唱的曲目内容的理解。

下面对本申请实施例提供的音频播放方法进行详细地解释说明。

需注意的是，音频在一个短时间内，一般在10-30ms(毫秒)的短时间内，其特性基本保持不变，即相对稳定，也即，具有短时平稳性。因而对整体音频的分析和处理可以建立在“短时”的基础上，也即，可以将整体音频分为一段一段来分析和处理，其中每一段称为一“帧”，帧长一般为10-30ms。因而本申请实施例中的音频可以先进行分帧。本申请实施例中对音频的处理，即是对每一音频帧依次进行处理。如此，不仅可以提高处理速度，而且能够很好的满足实时性要求。

图3是本申请实施例提供的一种音频播放方法的流程图，该方法应用于终端。参见图3，该方法包括：

步骤301：终端播放音频。

终端播放音频实际上是依次播放多个音频帧。该音频可以是音乐应用正在播放的歌曲，也可以是视频应用正在播放的音乐节目的视频包含的音频，也可以是虚拟演唱会中的演唱者正在演唱的曲目，当然，该音频也可以是其他类型的音频，本申请实施例对此不作限定。

需注意的是，完整音频的整体数据量较大，处理速度较慢，而且实时性较差。通过分帧，可以将完整音频分为一段一段的数据量较小的信号，这样不仅处理速度快，而且能够很好的满足实时性要求。因而本申请实施例中可以对需要播放的音频进行分帧，对音频进行分帧后，可以得到多个音频帧，该多个音频帧可以依次被播放。

步骤302：终端在音频播放过程中获取当前播放的音频帧的音频特征。

终端每播放一个音频帧，就可以对这一个音频帧进行特征提取，以得到这一个音频帧的音频特征。

可选地，该音频特征可以是包括有一个或多个维度的子特征数据的特征向量。比如，该音频特征可以包括有音乐表情特征、调性(Tonality)变化特征、心理声学特征、Marsyas特征、谱对比度(Spectral contrast)特征、小波系数直方图等子特征数据中的一个或多个。或者，该音频特征可以包括如下表1所示的各个子特征数据中的一个或多个。

表1

本申请实施例仅以上表1为例来对音频特征中的子特征数据进行示例性说明，上表1并不对本申请实施例构成限定。

步骤303：终端根据该音频特征获取人脸表情数据。

该人脸表情数据用于体现对该音频特征所属的音频内容的理解。也即，该人脸表情数据用于指示专业音乐人在聆听该音频特征所属的音频内容时会做出的人脸表情，该人脸表情附带有专业音乐人对该音频内容的理解，即附带有专业音乐人对该音频内容消化以后的情绪表达。

在本申请实施例中，该人脸表情数据包括的多个人脸关键点的位置是以预先设置的标准人像模型为基准确定的。也即，该人脸表情数据可以是标准人像模型的人脸表情数据，也即，该人脸表情数据可以包括标准人像模型的人脸(即标准人脸)中多个人脸关键点的位置。

可选地，步骤303可以通过如下两种可能的方式中的任意一种方式实现。

第一种可能的方式，终端将该音频特征输入第一音频表情模型，由第一音频表情模型输出人脸表情数据。

第一音频表情模型可以是预先训练得到。在一些实施例中，可以直接由终端训练得到第一音频表情模型，然后进行使用。在另一些实施例中，可以由其他设备训练得到第一音频表情模型，然后将第一音频表情模型发送给终端，以供终端使用。

在训练得到第一音频表情模型时，可以获取多个训练样本，使用该多个训练样本对神经网络模型进行训练，得到第一音频表情模型。

该多个训练样本可以是预先设置的。该多个训练样本中的每个训练样本包括输入数据和样本标记，输入数据为样本音频帧的音频特征，样本标记为聆听样本音频帧时的人脸表情数据。

在一些实施例中，可以事先获取多个样本音频，该多个样本音频中每个样本音频均是由专业音乐人聆听过的音频。也即，对于该多个样本音频中任意的一个样本音频，这个样本音频具有对应的视频，该视频的每个视频帧中包含有专业音乐人在聆听这个样本音频时的人脸图像，该人脸图像中的人脸表情是专业音乐人在聆听这个样本音频时做出的人脸表情，可体现专业音乐人在聆听这个样本音频时对这个样本音频的内容的理解。各个样本音频对应的视频中包含的专业音乐人的人脸图像可以是同一专业音乐人的人脸图像，也可以是不同的专业音乐人的人脸图像，本申请实施例对此不作限定。

这种情况下，对于该多个样本音频中任意的一个样本音频，可以对这个样本音频进行分帧，得到多个样本音频帧。同时，获取这个样本音频对应的视频的多个视频帧。该多个样本音频帧与该多个视频帧一一对应，每个视频帧包含有专业音乐人在聆听对应的一个样本音频帧时的人脸图像。

在获取该多个训练样本时，可以先对该多个样本音频帧进行响度归一化，以将该多个样本音频帧的响度均控制在允许的变化范围内。之后，对于该多个样本音频帧中任意的一个样本音频帧，对这个样本音频帧进行特征提取，得到这个样本音频帧的音频特征；对这个样本音频帧对应的视频帧进行人脸表情识别，得到初始人脸表情数据，根据事先建立的这个视频帧包含的专业音乐人的人像模型的人脸关键点与标准人像模型的人脸关键点之间的映射关系，将该初始人脸表情数据映射为标准人像模型的标准人脸表情数据；将这个样本音频帧的音频特征作为一个训练样本中的输入数据，将这个样本音频帧对应的视频帧中的初始人脸表情数据映射至的标准人脸表情数据作为这个训练样本中的样本标记，以得到这个训练样本。

该神经网络模型可以包括多个网络层，该多个网络层中包括输入层、多个隐含层和输出层。输入层负责接收输入数据；输出层负责输出处理后的数据；多个隐含层位于输入层与输出层之间，负责处理数据，多个隐含层对于外部是不可见的。比如，该神经网络模型可以为深度神经网络等，且可以是深度神经网络中的卷积神经网络等。

其中，使用多个训练样本对神经网络模型进行训练时，对于该多个训练样本中的每个训练样本，可以将这个训练样本中的输入数据输入神经网络模型，获得输出数据；通过损失函数确定该输出数据与这个训练样本中的样本标记之间的损失值；根据该损失值调整该神经网络模型中的参数。在基于该多个训练样本中的每个训练样本对该神经网络模型中的参数进行调整后，参数调整完成的该神经网络模型即为第一音频表情模型。

其中，根据该损失值调整该神经网络模型中的参数的操作可以参考相关技术，本申请实施例对此不进行详细阐述。

比如，可以通过公式

来对该神经网络模型中的任意一个参数进行调整。其中，

是调整后的参数。w是调整前的参数。α是学习率，α可以预先设置，如α可以为0.001、0.000001等，本申请实施例对此不作唯一限定。dw是该损失函数关于w的偏导数，可以根据该损失值求得。

第二种可能的方式，终端将该音频特征中多个子特征数据中每个子特征数据均与对应的权重相乘，得到目标音频特征，将目标音频特征输入第二音频表情模型，由第二音频表情模型输出人脸表情数据。

第二音频表情模型可以预先训练得到。在一些实施例中，可以直接由终端训练得到第二音频表情模型，然后进行使用。在另一些实施例中，可以由其他设备训练得到第二音频表情模型，然后将第二音频表情模型发送给终端，以供终端使用。

在训练得到第二音频表情模型时，可以获取多个训练样本，使用该多个训练样本对神经网络模型进行训练，得到第二音频表情模型。

该多个训练样本可以是预先设置的。该多个训练样本中的每个训练样本包括输入数据和样本标记，输入数据为样本音频帧的目标音频特征，样本标记为聆听样本音频帧时的人脸表情数据。

这种情况下，可以通过图4所示的流程来训练得到第二音频表情模型。图4是本申请实施例提供的一种模型训练的示意图。如图4所示，可以先对该多个样本音频帧进行响度归一化，以将该多个样本音频帧的响度均控制在允许的变化范围内。之后，对于该多个样本音频帧中任意的一个样本音频帧，对这个样本音频帧进行特征提取，得到这个样本音频帧的音频特征，再将这个样本音频帧的音频特征包括的多个子特征数据中的每个子特征数据与对应的权重相乘，得到这个样本音频帧的目标音频特征；对这个样本音频帧对应的一个视频帧进行人脸表情识别，得到初始人脸表情数据，根据事先建立的这个视频帧包含的专业音乐人的人像模型的人脸关键点与标准人像模型的人脸关键点之间的映射关系，将该初始人脸表情数据映射为标准人像模型的标准人脸表情数据；将这个样本音频帧的目标音频特征作为一个训练样本中的输入数据，将这个样本音频帧对应的视频帧中的初始人脸表情数据映射至的标准人脸表情数据作为这个训练样本中的样本标记，以得到这个训练样本。之后，就可以使用这个训练样本对神经网络模型进行训练来得到第二音频表情模型。

其中，使用多个训练样本对神经网络模型进行训练的操作与上述第一种可能的方式中使用多个训练样本对神经网络模型进行训练的操作类似，本申请实施例对此不再赘述。

步骤304：终端根据该人脸表情数据对预设人像模型的人脸表情进行调整。

预设人像模型可以预先进行设置。预设人像模型为在音频播放过程中需要展示的人像模型(也可称为Reaction模型)，也即，可以在音频播放过程中显示预设人像模型的人脸图像。

在一些实施例中，终端中可以预先设置有一个或多个人像模型，终端可以从这一个或多个人像模型中随机选择一个人像模型作为预设人像模型。

在另一些实施例中，预设人像模型可以由用户选择。比如，用户可以从终端提供的一个或多个人像模型中选择一个人像模型作为预设人像模型，也即，终端在接收到用户针对这一个或多个人像模型中的一个人像模型的选择指令时，可以将该选择指令所选择的一个人像模型确定为预设人像模型。或者，用户可以向终端输入包含有人像的图像，如用户可以从互联网链接或本地图片库导入期望的图像，终端若接收到图像导入指令，则可以构建该图像导入指令携带的图像(即用户输入的图像)包含的人像的人像模型，并将构建出的人像模型作为预设人像模型。

由于该人脸表情数据是标准人像模型的人脸表情数据，即是标准人脸表情数据，所以需要先将该人脸表情数据映射为预设人像模型的人脸表情数据，具体可以根据预先建立的标准人像模型的人脸关键点与预设人像模型的人脸关键点之间的映射关系，将该人脸表情数据映射至预设人像模型，得到目标人脸表情数据。之后，终端可以将预设人像模型和目标人脸表情数据输入表情生成模型，由该表情生成模型输出带有目标人脸表情数据指示的人脸表情的预设人像模型。

示例地，该表情生成模型可以为弹性图匹配(elastic graph matching，EGM)模型，当然，该表情生成模型也可以为其他模型，本申请实施例对此不作限定。

步骤305：终端在播放当前音频帧的过程中显示预设人像模型的人脸图像。

终端根据该人脸表情数据对预设人像模型的人脸表情进行调整后，预设人像模型的人脸表情就可以体现对当前音频帧的音频内容的理解，因而显示预设人像模型的人脸图像后，用户在聆听音频的同时还可以观看到附带有音频内容理解的预设人像模型的人脸表情，从而可以便于用户加深对音频内容的理解，获得更好的聆听体验。

下面结合图5-图6来对上述音频播放方法进行举例说明。

图5是本申请实施例提供一种音频播放页面的示意图。如图5所示，该音频播放页面中包括音频播放列表、音频播放区、控制区。该音频播放列表用于显示正在播放的音频的相关信息。该音频播放区用于显示正在播放的音频(图5中以显示一个包含有音频的视频为例)以及显示预设人像模型的人脸图像。该控制区用于选择预设人像模型。比如，用户可以选择随机路人模式，这种模式下，可以随机选择一个预先设置的人像模型作为预设人像模型；或者，用户可以选择自定义模式，这种模式下，用户可以从本地图片库或从互联网链接导入一张图像，此时可以构建这张图像包含的人像的人像模型作为预设人像模型。可选地，该音频播放页面中还可以包括其他控件，比如，可以包括播放进度条、播放控制按钮(包括但不限于开始按钮、暂停按钮、结束按钮)、响度控制按钮等。

在播放音频之前，终端先确定预设人像模型。之后，可以按照图6所示的流程进行音频播放。具体来讲，在音频播放过程中，将当前音频帧的音频特征输入音频表情模型，由音频表情模型输出人脸表情数据，然后将预设人像模型和该人脸表情数据输入表情生成模型，由表情生成模型输出具有该人脸表情数据指示的人脸表情的预设人像模型，然后可以在图5所示的音频播放区显示预设人像模型的人脸图像，该人脸图像的人脸表情为该人脸表情数据指示的人脸表情。如此，用户在聆听图5所示的音频播放区播放的音频的同时，还可以在图5所示的音频播放区观看到附带有音频内容理解的预设人像模型的人脸表情，从而可以便于用户加深对音频内容的理解，获得更好的聆听体验。

图7是本申请实施例提供的一种音频播放装置的结构示意图，该装置可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部，该计算机设备可以为图1-图2的终端。参见图7，该装置包括：第一获取模块701、第二获取模块702、调整模块703和显示模块704。

第一获取模块701，用于在音频播放过程中获取当前播放的音频帧的音频特征；

第二获取模块702，用于根据音频特征获取人脸表情数据，人脸表情数据用于体现对音频特征所属的音频内容的理解；

调整模块703，用于根据人脸表情数据对预设人像模型的人脸表情进行调整；

显示模块704，用于在播放音频帧的过程中显示预设人像模型的人脸图像。

可选地，第二获取模块702用于：

将音频特征输入第一音频表情模型，由第一音频表情模型输出人脸表情数据，第一音频表情模型用于确定在聆听各种音频特征所属的音频内容时会出现的人脸表情。

可选地，音频特征包括多个子特征数据，第二获取模块702用于：

将音频特征中的多个子特征数据中每个子特征数据与对应的权重相乘，得到目标音频特征；

将目标音频特征输入第二音频表情模型，由第二音频表情模型输出人脸表情数据，第二音频表情模型用于确定在聆听各种目标音频特征所属的音频内容时会出现的人脸表情。

可选地，该装置还包括：

第三获取模块，用于获取多个样本音频帧和多个视频帧，多个样本音频帧与多个视频帧一一对应，多个视频帧中的每个视频帧包含有专业音乐人在聆听对应的一个样本音频帧时的人脸图像；

第四获取模块，用于对于多个样本音频帧中任意的一个样本音频帧，对一个样本音频帧进行特征提取，得到一个样本音频帧的音频特征，将一个样本音频帧的音频特征包括的多个子特征数据中的每个子特征数据与对应的权重相乘，得到一个样本音频帧的目标音频特征；对一个样本音频帧对应的一个视频帧进行人脸表情识别，得到初始人脸表情数据，根据专业音乐人的人像模型的人脸关键点与标准人像模型的人脸关键点之间的映射关系，将初始人脸表情数据映射为标准人像模型的标准人脸表情数据；将一个样本音频帧的目标音频特征作为一个训练样本中的输入数据，将一个样本音频帧对应的视频帧中的初始人脸表情数据映射至的标准人脸表情数据作为一个训练样本中的样本标记，以得到一个训练样本；

训练模块，用于使用训练样本对神经网络模型进行训练，得到第二音频表情模型。

可选地，该装置还包括：

确定模块，用于从设置的一个或多个人像模型中随机选择一个人像模型作为预设人像模型；或者，若接收到针对设置的一个或多个人像模型中的一个人像模型的选择指令，则将选择指令所选择的人像模型确定为预设人像模型；或者，若接收到图像导入指令，则构建图像导入指令携带的图像包含的人像的人像模型，将构建出的人像模型确定为预设人像模型。

可选地，人脸表情数据包括多个人脸关键点的位置，人脸表情数据是标准人像模型的人脸表情数据，调整模块703用于：

根据标准人像模型的人脸关键点与预设人像模型的人脸关键点之间的映射关系，将人脸表情数据映射至预设人像模型，得到目标人脸表情数据；

将预设人像模型和目标人脸表情数据输入表情生成模型，由表情生成模型输出具有目标人脸表情数据指示的人脸表情的预设人像模型。

在本申请实施例中，在音频播放过程中获取当前播放的音频帧的音频特征，然后根据该音频特征获取人脸表情数据。之后，根据该人脸表情数据对预设人像模型的人脸表情进行调整，如此预设人像模型的人脸表情就可以体现对当前音频帧的音频内容的理解。之后，在播放音频帧的过程中显示预设人像模型的人脸图像，就可以使得用户在聆听音频的同时还能观看到附带有音频内容理解的预设人像模型的人脸表情，从而可以便于用户加深对音频内容的理解，获得更好的聆听体验。

需要说明的是：上述实施例提供的音频播放装置在播放音频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

上述实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请实施例的保护范围。

上述实施例提供的音频播放装置与音频播放方法实施例属于同一构思，上述实施例中单元、模块的具体工作过程及带来的技术效果，可参见方法实施例部分，此处不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，比如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(比如：同轴电缆、光纤、数据用户线(Digital Subscriber Line，DSL))或无线(比如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(比如：软盘、硬盘、磁带)、光介质(比如：数字通用光盘(Digital Versatile Disc，DVD))或半导体介质(比如：固态硬盘(Solid State Disk，SSD))等。

以上所述为本申请提供的可选实施例，并不用以限制本申请，凡在本申请的揭露的技术范围之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频播放方法，其特征在于，所述方法包括：

在音频播放过程中获取当前播放的音频帧的音频特征；

根据所述音频特征获取人脸表情数据，所述人脸表情数据用于体现对所述音频特征所属的音频内容的理解；

根据所述人脸表情数据对预设人像模型的人脸表情进行调整；

在播放所述音频帧的过程中显示所述预设人像模型的人脸图像。

2.如权利要求1所述的方法，其特征在于，所述根据所述音频特征获取人脸表情数据，包括：

将所述音频特征输入第一音频表情模型，由所述第一音频表情模型输出所述人脸表情数据，所述第一音频表情模型用于确定在聆听各种音频特征所属的音频内容时会出现的人脸表情。

3.如权利要求1所述的方法，其特征在于，所述音频特征包括多个子特征数据，所述根据所述音频特征获取人脸表情数据，包括：

将所述音频特征中的多个子特征数据中每个子特征数据与对应的权重相乘，得到目标音频特征；

将所述目标音频特征输入第二音频表情模型，由所述第二音频表情模型输出所述人脸表情数据，所述第二音频表情模型用于确定在聆听各种目标音频特征所属的音频内容时会出现的人脸表情。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

获取多个样本音频帧和多个视频帧，所述多个样本音频帧与所述多个视频帧一一对应，所述多个视频帧中的每个视频帧包含有专业音乐人在聆听对应的一个样本音频帧时的人脸图像；

对于所述多个样本音频帧中任意的一个样本音频帧，对所述一个样本音频帧进行特征提取，得到所述一个样本音频帧的音频特征，将所述一个样本音频帧的音频特征包括的多个子特征数据中的每个子特征数据与对应的权重相乘，得到所述一个样本音频帧的目标音频特征；对所述一个样本音频帧对应的一个视频帧进行人脸表情识别，得到初始人脸表情数据，根据所述专业音乐人的人像模型的人脸关键点与标准人像模型的人脸关键点之间的映射关系，将所述初始人脸表情数据映射为所述标准人像模型的标准人脸表情数据；将所述一个样本音频帧的目标音频特征作为一个训练样本中的输入数据，将所述一个样本音频帧对应的视频帧中的初始人脸表情数据映射至的标准人脸表情数据作为所述一个训练样本中的样本标记，以得到所述一个训练样本；

使用所述训练样本对神经网络模型进行训练，得到所述第二音频表情模型。

5.如权利要求1-4任一所述的方法，其特征在于，所述在音频播放过程中获取当前播放的音频帧的音频特征之前，还包括：

从设置的一个或多个人像模型中随机选择一个人像模型作为所述预设人像模型；

或者，

若接收到针对设置的一个或多个人像模型中的一个人像模型的选择指令，则将所述选择指令所选择的人像模型确定为所述预设人像模型；

或者，

若接收到图像导入指令，则构建所述图像导入指令携带的图像包含的人像的人像模型，将构建出的人像模型确定为所述预设人像模型。

6.如权利要求1-5任一所述的方法，其特征在于，所述人脸表情数据包括多个人脸关键点的位置，所述人脸表情数据是标准人像模型的人脸表情数据，所述根据所述人脸表情数据对预设人像模型的人脸表情进行调整，包括：

根据所述标准人像模型的人脸关键点与所述预设人像模型的人脸关键点之间的映射关系，将所述人脸表情数据映射至所述预设人像模型，得到目标人脸表情数据；

将所述预设人像模型和所述目标人脸表情数据输入表情生成模型，由所述表情生成模型输出具有所述目标人脸表情数据指示的人脸表情的所述预设人像模型。

7.一种音频播放装置，其特征在于，所述装置包括：

第一获取模块，用于在音频播放过程中获取当前播放的音频帧的音频特征；

第二获取模块，用于根据所述音频特征获取人脸表情数据，所述人脸表情数据用于体现对所述音频特征所属的音频内容的理解；

调整模块，用于根据所述人脸表情数据对预设人像模型的人脸表情进行调整；

显示模块，用于在播放所述音频帧的过程中显示所述预设人像模型的人脸图像。

8.如权利要求7所述的装置，其特征在于，所述音频特征包括多个子特征数据，所述第二获取模块用于：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-6任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1-6任意一项所述的方法。