CN111666444A

CN111666444A - 基于人工智能的音频推送方法及系统、相关方法及设备

Info

Publication number: CN111666444A
Application number: CN202010492049.9A
Authority: CN
Inventors: 支天; 周聖元
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-09-15
Anticipated expiration: 2040-06-02
Also published as: CN111666444B

Abstract

本公开提供了一种基于人工智能技术的智能音频文件推送方法、播放方法、图像采集方法、设备及系统，智能音频文件推送方法包括：获取用户图像；根据用户图像，利用人工智能平台获取用户动作信息和用户表情信息；根据用户动作信息，确定出音频文件集合；根据用户动作信息和用户表情信息，确定出用户的心情参数；从音频文件集合获取与心情参数对应的音频文件，并发送至用户的用户设备。本公开实施例利用人工智能算法进行数据处理，获取到用户的动作信息和表情信息，进而确定出需要推送的音频，提升了音频推荐时的准确性，另外，利用人工智能处理器加速运算过程，能够加快运算速度，提升反馈效率。

Description

基于人工智能的音频推送方法及系统、相关方法及设备

技术领域

本公开属于人工智能领域，具体涉及一种基于人工智能技术的智能音频文件推送方法、播放方法、图像采集方法、设备及系统。

背景技术

随着手机、平板电脑等的逐渐普及，越来越多的用户都会使用手机、平板等智能设备，在使用时用户会进行音乐播放。用户在进行音频播放时，会存在不知道从何选择音频并播放的情况，例如，播放哪种旋律的音乐、哪个歌手的音乐等，因此，自动进行音频推送则可以解决上述问题，但是现有方案中的进行音频推送时，主要通过获取用户的历史行为信息，并根据行为信息的关键字，进行音频推荐，因此，容易因为获取的行为信息为用户常见的历史行为信息，在特定场景下例如在用户心情极差的情况下进行音乐推荐时，不能根据用户的当前状态进行音频推荐，导致了音乐推荐时的准确性较低。同时，现有技术在进行音频推荐时，用户往往需要手动调整或筛选，因此无法智能匹配用户需求，同时，手动调整或筛选使得信息匹配速度慢，进而导致推送速度慢，存在用户等待的问题。

发明内容

为了解决上述问题，本公开提供一种基于人工智能技术的智能音频文件推送方法、播放方法、图像采集方法、设备及系统，能够更加有针对性的向用户推送音频文件，并且提升音乐推送时的实时性和准确性。

本公开一方面提供一种基于人工智能技术的智能音频文件推送方法，包括：获取至少一用户图像，至少一用户图像由图像采集设备对用户进行采集得到；根据至少一用户图像，利用人工智能平台获取用户动作信息和用户表情信息；根据用户动作信息，确定出音频文件集合，音频文件集合包括至少一音频文件；根据用户动作信息和用户表情信息，确定出用户的心情参数；从音频文件集合获取与心情参数对应的音频文件，并发送至用户的用户设备，以使该用户设备播放该音频文件。

可选地，根据至少一用户图像，获取用户动作信息和用户表情信息，包括：对至少一用户图像中的每个用户图像进行特征提取，得到至少一目标特征数据；根据至少一目标特征数据确定用户图像中身体部位的轮廓信息；根据轮廓信息确定用户动作信息和用户表情信息。

可选地，根据轮廓信息确定用户动作信息和用户表情信息，包括：将相同身体部位的轮廓信息按时间顺序确定该身体部位的至少一变化量；根据该至少一变化量，确定出该身体部位的变化趋势；根据多个身体部位的变化趋势确定出用户动作信息和用户表情信息。

可选地，用户动作信息还包括肢体动作信息，其中，根据用户动作信息和用户表情信息，确定出用户的心情参数，包括：根据所述肢体动作信息，确定所述用户的第一心情参数集合；根据用户表情信息，确定用户的第二心情参数集合；将第一心情参数集合及第二心情参数集合交集，作为所述用户的心情参数。

可选地，根据用户表情信息，确定用户的第二心情参数集合，包括：根据眼部表情信息、面部表情信息、嘴部表情信息中的至少一者，确定用户的第一参考状态信息；获取预设时间段内与用户所关联的事件信息；根据事件信息，确定所述用户的第二参考状态信息；根据第一参考状态信息和第二参考状态信息确定用户的目标状态信息；根据目标状态信息确定第二心情参数集合。

可选地，用户动作信息包括非肢体动作信息，其中，根据用户动作信息，确定出音频文件集合，包括：根据所述非肢体动作信息，确定用户的心理状态信息；根据心理状态信息，确定出对应该心理状态的至少一音频文件，作为音频文件集合。

可选地，获取至少一用户图像，包括：从用户设备获取所述用户的位置信息；向与位置信息对应的至少一图像采集设备发送指令；获取至少一图像采集设备根据指令采集的至少一用户图像。

可选地，向与位置信息对应的至少一图像采集设备发送指令，包括：确定位置信息所指示位置在预设范围内的至少一图像采集设备；向预设范围内的至少一图像采集设备发送指令。

本公开另一方面提供一种图像采集方法，包括：获取推送设备发送的指令，该指令至少包括一位置信息；根据该指令对位置信息所指定的用户进行图像采集，得到至少一用户图像；将用户图像发送至所述推送设备，以使该推送设备根据所述至少一用户图像确定用户的心情参数，并向该用户的用户设备发送关联于该心情参数的音频文件。

可选地，将所述用户图像发送至推送设备，包括：判断用户图像的图像质量是否达到预定条件，若是，将用户图像发送至所述推送设备，否则，删除用户图像并重新对用户进行图像采集。

可选地，将用户图像发送至推送设备，包括：将所述用户图像结合图像采集时间戳发送至所述推送设备。

本公开另一方面提供一种音频文件播放方法，包括：获取用户的位置信息并发送至推送设备，以使该推送设备根据该位置信息从图像采集设备获取至少一用户图像；获取并播放推送设备发送的音频文件，该音频文件关联于用户的心情参数，心情参数由所述推送设备根据至少一用户图像确定。

本公开另一方面提供一种推送设备，包括：第一处理器；第一存储器，包括计算机可读存储介质，该计算机可读存储介质由所述处理器执行时，执行上述智能音频文件推送方法。

本公开另一方面提供一种图像采集设备，包括：第二处理器；第二存储器，包括计算机可读存储介质，该计算机可读存储介质由所述处理器执行时，执行上述图像采集方法。

本公开另一方面提供一种用户设备，包括：第三处理器；第三存储器，包括计算机可读存储介质，该计算机可读存储介质由所述处理器执行时，执行上述音频文件播放方法。

本公开另一方面提供一种基于人工智能技术的智能音频文件推送系统，包括：图像获取模块，用于获取至少一用户图像，至少一用户图像由图像采集设备对用户进行采集得到；信息获取模块，用于根据至少一用户图像，获取用户动作信息和用户表情信息；音频文件集合确定模块，用于根据用户动作信息，确定出音频文件集合，音频文件集合包括至少一音频文件；心情参数确定模块，用于根据用户动作信息和用户表情信息，确定出用户的心情参数；音频文件获取模块，用于从音频文件集合获取与心情参数对应的音频文件，并发送至所述用户的用户设备，以使该用户设备播放该音频文件。

可选地，信息获取模块根据所述至少一用户图像，获取用户动作信息和用户表情信息，包括：对至少一用户图像中的每个用户图像进行特征提取，得到至少一目标特征数据；根据至少一目标特征数据确定用户图像中身体部位的轮廓信息；根据轮廓信息确定用户动作信息和用户表情信息。

可选地，信息获取模块根据轮廓信息确定用户动作信息和用户表情信息，包括：将相同身体部位的轮廓信息按时间顺序确定该身体部位的至少一变化量；根据该至少一变化量，确定出该身体部位的变化趋势；根据多个身体部位的变化趋势确定出用户动作信息和用户表情信息。

可选地，用户动作信息还包括肢体动作信息，其中，心情参数确定模块根据用户动作信息和用户表情信息，确定出所述用户的心情参数，包括：根据肢体动作信息，确定用户的第一心情参数集合；根据用户表情信息，确定用户的第二心情参数集合；将第一心情参数集合及第二心情参数集合交集，作为用户的心情参数。

可选地，心情参数确定模块根据用户表情信息，确定用户的第二心情参数集合，包括：根据眼部表情信息、面部表情信息、嘴部表情信息中的至少一者，确定用户的第一参考状态信息；获取预设时间段内与用户所关联的事件信息；根据所述事件信息，确定用户的第二参考状态信息；根据所述第一参考状态信息和第二参考状态信息确定用户的目标状态信息；根据目标状态信息确定第二心情参数集合。

可选地，用户动作信息包括非肢体动作信息，其中，音频文件集合确定模块根据用户动作信息，确定出音频文件集合，包括：根据非肢体动作信息，确定所述用户的心理状态信息；根据所述心理状态信息，确定出对应该心理状态的至少一音频文件，作为音频文件集合。

可选地，图像获取模块获取至少一用户图像，包括：从所述用户设备获取所述用户的位置信息；向与位置信息对应的至少一图像采集设备发送指令；获取至少一图像采集设备根据所述指令采集的至少一用户图像。

可选地，图像获取模块向与所述位置信息对应的至少一图像采集设备发送指令，包括：确定位置信息所指示位置在预设范围内的至少一图像采集设备；向预设范围内的至少一图像采集设备发送指令。

本公开另一方面提供一种图像采集系统，包括：指令获取模块，用于获取推送设备发送的指令，该指令至少包括一位置信息；图像采集模块，用于根据该指令对位置信息所指定的用户进行图像采集，得到至少一用户图像；图像发送模块，用于将用户图像发送至所述推送设备，以使该推送设备根据至少一用户图像确定所述用户的心情参数，并向该用户的用户设备发送关联于该心情参数的音频文件。

可选地，图像发送模块将所述用户图像发送至所述推送设备，包括：判断用户图像的图像质量是否达到预定条件，若是，将用户图像发送至推送设备，否则，删除用户图像并重新对所述用户进行图像采集。

可选地，图像发送模块将所述用户图像发送至所述推送设备，包括：将用户图像结合图像采集时间戳发送至推送设备。

本公开另一方面提供一种音频文件播放系统，包括：位置信息获取模块，用于获取用户的位置信息并发送至推送设备，以使该推送设备根据该位置信息从图像采集设备获取至少一用户图像；播放模块，用于获取并播放推送设备发送的音频文件，该音频文件关联于用户的心情参数，心情参数由所述推送设备根据所述至少一用户图像确定。

综合本公开的上述内容，通过获取目标用户动作信息和表情信息，根据动作信息和所述表情信息，确定出与目标用户对应的音频文件，将音频文件推送给用户使用的用户设备。相对于现有技术中，本公开通过用户的动作信息和表情信息来确定符合用户当前的各种参数，包括心情、心理参数等，从而能够更加人性化，贴近用户需求；其次，本公开利用人工智能算法进行图像处理，能够更加有效的处理信息，提高准确性；最后，本公开的硬件设备采用人工智能处理器，能够加快运算速度，提升反馈效率。

附图说明

图1示意性绘示了本公开实施例的场景示意图。

图2A示意性绘示了本公开实施例智能音频文件推送方法的流程图。

图2B示意性绘示了本公开实施例获取用户图像的流程图。

图2C示意性绘示了本公开实施例获取用户动作信息和用户表情信息的流程图。

图2D示意性绘示了本公开实施例确定出用户的心情参数的流程图。

图3示意性绘示了本公开实施例图像采集方法的流程图。

图4示意性绘示了本公开实施例音频文件播放流程图。

图5示意性绘示了本公开实施例推送设备的框图。

图6示意性绘示了本公开实施例用户设备的框图。

图7示意性绘示了本公开实施例图像采集设备的框图。

图8示意性绘示了本公开实施例智能音频文件推送系统的框图。

图9示意性绘示了本公开实施例图像采集系统的框图。

图10示意性绘示了本公开实施例音频文件播放系统的框图。

具体实施方式

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本公开中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本披露的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本披露所描述的实施例可以与其它实施例相结合。

本公开实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(user equipment，UE)，移动台(mobile station，MS)，终端设备(terminaldevice)等等。上述设备在实现本公开的技术方案时可采用人工智能处理器，能够加速人工智能算法的运算过程，特别是针对一些便携式设备，人工智能处理器具有功耗低、面积小等特点，适用于集成到智能设备的芯片中或者嵌入到便携设备中。为方便描述，上面提到的设备统称为电子设备。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

图1示意性绘示了本公开实施例的场景示意图。如图1所示，本实施例场景至少包括推送设备100、用户设备200及图像采集设备300。具体的，推送设备100从用户设备200获取用户的位置信息，并向与位置信息对应的至少一图像采集设备300发送指令，图像采集设备300根据该指令对位置信息所指定的用户进行图像采集，得到用户图像，并将用户图像发送给推送设备100。推送设备100根据用户图像，获取用户当前的用户动作信息和用户表情信息，推送设备100根据用户动作信息，确定出音频文件集合，推送设备100根据所述用户动作信息和用户表情信息，确定出所述用户的心情参数，推送设备100从音频文件集合获取与心情参数对应的音频文件，并发送至用户设备200，以使该用户设备200播放该音频文件。

图1所绘示的推送设备100既可以是独立的电子设备，用于实现上述功能，也可以是集成在上述用户设备200中，用户设备200来实现上述功能。具体来说，用户设备200可以是手持设备、车载设备、可穿戴设备、只能家居设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(user equipment，UE)，移动台(mobile station，MS)，终端设备(terminal device)等等。而对于图像采集设备300，可以是独立于用户设备200的拍摄装置，如摄像头等物联网装置，当然，具有图像采集功能的用户设备200也可以作为多个图像采集设备300中的一个，进行图像采集。

图1所绘示的推送设备100、用户设备200及图像采集设备300之间在进行通信时，可以通过无线及有线的方式进行通信，例如，在推送设备100、用户设备200为一体时，可以采用内置电路进行有线通信。又例如，各个设备独立时，可以通过5G(第五代移动通信技术，5th generation mobile networks)网络、4G(第四代移动通信技术)网络、3G(第三代移动通信技术)网络等对进行数据传输，具体可按不同的输出速率选择通信网络。

另外，本公开实施例所提及的音频文件包括但不限于音乐、语音、闹钟、提示音等。以音乐为例，本公开实施例通过获取目标用户动作信息和表情信息，根据动作信息和表情信息，确定出与目标用户对应的音乐。例如，根据动作信息和表情信息确定出用户处于“开心”的心情，则将较为欢快的音乐推送并播放给用户。因此，本实施例相对于现有技术中采用用户的历史行为数据进行音乐推荐，提升了音频推荐时的准确性。

图2A示意性绘示了本公开实施例智能音频文件推送方法的流程图。如图2A所示，智能音频文件推送方法包括操作S201～S205，操作S201～S205可以被上述推送设备100执行，也可被具有推送设备100相应功能的用户设备200执行。以下具体介绍每个操作：

S201，获取至少一用户图像，至少一用户图像由图像采集设备300对用户进行采集得到。

在操作S201中，获取的用户图像可以是用户脸部图像、用户躯干图像、用户四肢图像等用户各身体部位的图像，这些图像是从图像采集设备300获取到，图像采集设备300可以是设于用户所处环境的图像采集装置，例如用户在室内，可以是室内具有拍摄功能的设备(电脑摄像头、室内监控设备等)，又例如用户在户外，可以是室外监控设备，也可以是用户自身的智能设备(如本公开的用户设备200)。

图2B示意性绘示了本公开实施例获取用户图像的流程图。如图2B所示，操作S201中获取至少一用户图像，包括如下操作：

S2011，从用户设备200获取用户的位置信息。

在上述操作中，用户设备200由于是随用户携带，即可根据用户设备200中的定位功能获取用户的位置信息，该位置信息可以是用户的经纬度坐标，也可以是常用的位置名称(例如XX大厦，可被推送设备100识别)。

S2012，向与位置信息对应的至少一图像采集设备300发送指令。

在上述操作中，先要确定位置信息所指示位置在预设范围内的至少一图像采集设备300，预设范围可以是以该位置为圆心预设直径的圆形区域，预设直径可以通过经验值或历史数据设定。当然若在该预设直径内不存在图像采集设备300，则可以增加直径的长度，直至存在至少一个的图像采集设备300。当然，图像采集设备300也可以是用户使用的用户设备200，该用户设备200需具备摄像功能。在确定好图像采集设备300后，向预设范围内的图像采集设备300发送指令，例如用户在室内时，将指令同时发送给室内的多个图像采集设备300(IPAD、笔记本电脑、室内监控等)。

S2013，获取至少一图像采集设备300根据指令采集的至少一用户图像。

在上述操作中，不同的图像采集设备300可以识别不同波段的光线照射的目标用户，从而采集用户在不同波段下的多张图像，以得到多张用户图像。

S202，根据至少一用户图像，获取用户动作信息和用户表情信息。

在本公开的一个实施例中，推送设备100和图像采集设备300可以集成在用户设备200中，在此种情况下，用户设备200还包括智能处理器和通用处理器，其中通用处理器用于控制图像采集设备300采集图像，还控制智能处理器启动并开始执行运算操作。智能处理器用于对采集到的图像利用人工智能算法进行图像处理，获取用户动作信息和用户表情信息。

本公开实施例在对采集到的图像利用人工智能算法进行图像处理时，一种实现方式为将用户图像作为输入数据，利用训练好的神经网络模型进行图像识别，识别得到用户动作信息和用户表情信息。其中，该神经网络模型可采用现有的ALEXNET网络模型、VGG网络模型等，或者对其进行改进，亦可以自行设置网络模型结构，在此不做限定。另外，本公开所提及的人工智能算法并不限于神经网络算法，还可以为支持向量机、快速傅里叶变换等，在此不做限定。

图2C示意性绘示了本公开实施例获取用户动作信息和用户表情信息的流程图。如图2C所示，包括如操作：

S2021，对至少一用户图像中的每个用户图像进行特征提取，得到至少一目标特征数据。

对多张用户图像中的每张图像分别进行特征提取，以得到目标特征数据。其中特征提取过程中可以采用多种人工智能算法，利用智能处理器完成特征提取的运算，其中特征提取的方法可以是通过神经网络算法进行识别提取得到，也可以是通过特征提取算法提取得到，特征提取算法例如可以是局部二值法等。特征数据可以包括灰度值等。

通过对不同波段下的用户图像进行特征提取，得到目标特征数据，由于不同波段的图像可以反映出用户在不同的颜色下的信息，从而相较于采用普通的摄像头采集的图像可以更为精确的反映出细节方面的内容，相较于现有技术可以提升特征数据获取时的准确性。

S2022，根据至少一目标特征数据确定所述用户图像中身体部位的轮廓信息。

在上述操作中，根据多个目标特征数据(例如：灰度值)确定出用户的轮廓信息，轮廓信息可以为用户各个身体部位的轮廓信息，例如，眼部轮廓信息、脸部轮廓信息、嘴部轮廓信息、手部轮廓信息、腿部轮廓信息等。由于出现轮廓的部位，其灰度值会发生突变，则可以根据灰度值突变的方式，来确定出轮廓信息。当然本公开实施例除了灰度值，还可以采用其他类型的目标特征数据来确定轮廓信息。

S2023，根据轮廓信息确定用户动作信息和用户表情信息。

在上述操作中，将相同身体部位的轮廓信息按时间顺序确定该身体部位的至少一变化量；根据该至少一变化量，确定出该身体部位的变化趋势；根据多个身体部位的变化趋势确定出用户动作信息和用户表情信息。

具体的，根据多张目标图像采集的时间顺序，对轮廓数据进行分析处理，确定出目标用户每个部位的轮廓信息的变化量，根据该变化量来确定出动作信息和表情信息。若轮廓信息的变化量为零，则表明用户对应部位的表情或动作未发生变化，则以其中一张目标图像对应的动作信息和表情信息，作为用户动作信息和用户表情信息。若变化量不为零，则根据变化量确定出变化趋势，根据变化趋势确定出用户动作信息和用户表情信息。以动作信息为例进行说明，变化趋势可以是，例如，手部轮廓具有向下移动的趋势，则可以确定出用户手部动作为向下。

根据轮廓信息确定表情信息时，还可以是根据轮廓信息与用户表情信息之间的映射关系，确定出与轮廓信息对应的表情信息。该映射关系可以是通过计算装置训练得到，也可以是通过人工标注的方式得到，此处仅为举例说明，不做具体限定。

S203，根据用户动作信息，确定出音频文件集合，音频文件集合包括至少一音频文件。

在上述操作中，用户动作信息包括非肢体动作信息，非肢体动作信息可以为除用户手部和腿部其它部位的运动信息，例如，头部、腰部、肩部等，这些部位的运动信息可以反映出用户的身体运动幅度，例如，头部摆动越大，则身体运动幅度越大，头部摆动越小，则身体运动幅度越小。不同的运动幅度信息可以反映出用户当前的心理状态信息，例如，头部摆动幅度越大，则用户当前的心情可以是愉悦，摆动幅度越小，则用户当前的心情趋于平静或悲伤。以音乐推送为例，当身体运动幅度大，将欢快的音乐(节奏较快的音乐)作为音频文件集合，当身体运动幅度小，将安静的音乐(节奏较慢的音乐)作为音频文件集合。而且，不同身体幅度的大小可对应不同欢快程度的音乐集合。

另外，在形成音频文件集合时，可以对用户历史的播放文件进行提取，也可以从外部下载新的文件，电可以结合起来形成音频文件集合。

S204，根据用户动作信息和用户表情信息，确定出用户的心情参数。

如图2D所示，包括如操作：

S2041根据肢体动作信息，确定所述用户的第一心情参数集合；

在上述操作中，肢体动作信息可以为用户的手部动作和腿部动作的信息，例如，手部动作和腿部动作可以反映出用户的心情信息，例如，手部动作和腿部动作的动作幅度较小，则用户心情会比较平静，处于安静的状态。手部动作和腿部动作的动作幅度较大，则用户的心情可能会比较激动，兴奋等，处于兴奋的状态。则可以根据肢体动作信息确定出目标用户的第一心情参数集合。例如，第一心情参数可以是安静、开心、兴奋、悲伤、恐惧等，进而根据用户的肢体动作信息。例如用户有双手掩面、双脚起跳的动作，确定其的第一心情参数集合{开心、兴奋}，又例如用户有双手掩面、双腿坐立的动作，确定其的第一心情参数集合{安静，悲伤}。

S2042根据用户表情信息，确定用户的第二心情参数集合。

在上述操作中，表情信息可以包括面部表情信息、眼部表情信息和嘴部表情信息等。本实施例根据眼部表情信息、面部表情信息、嘴部表情信息中的至少一者，确定用户的第一参考状态信息；获取预设时间段内与用户所关联的事件信息；根据事件信息，确定用户的第二参考状态信息；根据第一参考状态信息和第二参考状态信息确定用户的目标状态信息；根据所述目标状态信息确定第二心情参数集合。

具体的，本实施例根据眼部表情信息确定出目标用户的第一状态信息，根据面部表情信息确定出目标用户的第二状态信息，根据嘴部表情信息确定出目标用户的第三状态信息；根据第一状态信息、第二状态信息和第三状态信息，确定出用户的第一参考状态信息。第一状态信息、第二状态信息、第三状态信息可以为用户的心理状态信息，状态信息可以通过状态信息值进行表征，用户不同的表情信息可以反映出不同的心理状态信息，心理状态信息可以理解为心情的复杂度，心理状态信息的值越高，则用户的心情越复杂，心理状态信息的值越低，则用户的心情越平静，心情平静可以理解为用户无情绪波动，心情复杂可以理解为用户情绪波动较大，情绪波动可以理解为清晰变化。将第一状态信息、第二状态信息和第三状态信息对应的状态信息值的均值确定为第一参考状态信息。

预设时间段内与用户所关联的事件可以是用户设备200中设置的事件。本实施例根据事件信息，确定出目标用户在预设时间段内所处的环境信息，环境信息包括关联用户信息，关联用户信息为与用户存在交互的其他用户信息。最后，本实施例根据关联用户信息和事件信息，确定出目标用户的第二参考状态信息。举例来说，事件信息为“用户在进行演讲”，环境信息为“演讲时所处的演讲场地”，关联用户信息为“演讲场地中向演讲者提问的听众的信息”，关联用户信息包括与用户进行交互的交互信息，例如“听众向演讲者提问的交互内容”。本实施例可以根据交互信息获取与用户心情相关的第二参考状态信息，例如，对交互信息进行关键字提取，得到关键字，关键字例如可以是与心情相关字，例如，好、不错、不好、难理解、可以等。

本实施例根据第一参考状态信息和第二参考状态信息确定用户的目标状态信息。还是以事件信息为“用户在进行演讲”为例，以0表示悲伤，100表示喜悦，第一参考状态信息值为60，第二参考状态信息值为80，则将第一参考状态信息值和第二参考状态信息值的均值70作为目标状态信息值，并认为用户的喜悦程度为70％。

另外本实施例中，目标状态信息与第二心情参数集合之间的映射关系为通过经验值或历史数据设定，例如用户的喜悦程度为70％时，认为第二心情参数集合为{安静、开心}。

通过以上操作，根据眼部表情信息、面部表情信息和嘴部表情信息，确定出目标用户的第一参考状态信息，以及根据关联用户和事件信息确定出第二参考状态信息，根据第一参考状态信息和第二参考状态信息确定出目标状态信息，根据目标状态信息确定出第二心情参数集合，从而可以提升第二心情参数集合确定时的准确性。

S2043将第一心情参数集合及第二心情参数集合交集，作为用户的心情参数。

通过上述实施例，若第一心情参数集合确定为{兴奋、开心}、第二心情参数集合为{安静、开心}，则其交集为{开心}，则将“开心”作为用户的心情参数。

S205，从音频文件集合获取与心情参数对应的音频文件，并发送至用户的用户设备100，以使该用户设备100播放该音频文件。

以上已经介绍过，音频文件集合是根据用户动作信息来确定的，例如根据用户动作信息确定安静的音乐(节奏较慢的音乐)作为音频文件集合，又确定心情参数为“开心”，则将安静音乐集合中代表“悲伤”的音乐过滤掉，如果还存在多个代表“开心”的音乐，则可以根据历史播放的顺序进行播放，也可以根据历史播放的频次进行播放。

图3示意性绘示了本公开实施例图像采集方法的流程图。如图3所示，图像采集方法包括操作S301～S303，操作S301～S303可以被上述图像采集设备300执行，也可被具有图像采集功能的用户设备200执行。以下具体介绍每个操作：

S301，获取推送设备100发送的指令，该指令至少包括一位置信息。

在以上操作中，推送设备100先要确定位置信息所指示位置在预设范围内的至少一图像采集设备300，预设范围可以是以该位置为圆心预设直径的圆形区域，预设直径可以通过经验值或历史数据设定。当然若在该预设直径内不存在图像采集设备300，则可以增加直径的长度，直至存在至少一个的图像采集设备300。当然，图像采集设备300也可以是用户使用的用户设备200，该用户设备200需具备摄像功能。在确定好图像采集设备300后，向预设范围内的图像采集设备300发送指令，例如用户在室内时，将指令同时发送给室内的多个图像采集设备300(IPAD、笔记本电脑、室内监控等)。

S302，根据该指令对所述位置信息所指定的用户进行图像采集，得到至少一用户图像。

本实施例在实际采集过程中，判断所采集的用户图像的图像质量是否达到预定条件(例如图像清晰度)，若是，将所述用户图像发送至所述推送设备，否则，删除所述用户图像并重新对用户进行图像采集。

S303，将所述用户图像发送至所述推送设备，以使该推送设备根据所述至少一用户图像确定所述用户的心情参数，并向该用户的用户设备发送关联于该心情参数的音频文件。

以上已经介绍过，推送设备100需要根据多张目标图像采集的时间顺序，对轮廓数据进行分析处理，确定出目标用户每个部位的轮廓信息的变化量，根据该变化量来确定出动作信息和表情信息。因此，本实施例在发送用户图像时，还可以将图像采集时间戳发送至推送设备100，以方便推送设备200确定每张图像的采集时间。

图4示意性绘示了本公开实施例音频文件播放流程图。如图3所示，图像采集方法包括操作S401～S402，操作S401～S402被上述用户设备200执行。以下具体介绍每个操作：

S401，获取用户的位置信息并发送至推送设备，以使该推送设备100根据该位置信息从图像采集设备300获取至少一用户图像。

用户设备200由于是随用户携带，即可根据用户设备200中的定位功能获取用户的位置信息，该位置信息可以是用户的经纬度坐标，也可以是常用的位置名称(例如XX大厦，可被推送设备100识别)。

S402，获取并播放推送设备100发送的音频文件，该音频文件关联于用户的心情参数，心情参数由推送设备根据至少一用户图像确定。

在上述操作中，当推送设备100与用户设备200为一体时，音频文件可以是从用户设备200的缓冲中获取的历史播放文件，若缓存中不存在相应的音频文件，则可以通过通信网络下载对应的音频文件。

本公开实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种音乐推送方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本披露并不受所描述的动作顺序的限制，因为依据本披露，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本公开所必须的。

图5示意性绘示了本公开实施例推送设备的框图。如图5所示，推送设备100包括第一处理器110；第一存储器120，包括计算机可读存储介质121，该计算机可读存储介质由所述第一处理器110执行时，执行上述图2A～图2D的智能音频文件推送方法。

图6示意性绘示了本公开实施例用户设备的框图。如图6所示，用户设备200包括第二处理器210；第二存储器220，包括计算机可读存储介质221，该计算机可读存储介质221由所述第二处理器210执行时，执行上述图4的音频文件播放方法。

图7示意性绘示了本公开实施例图像采集设备的框图。如图7所示，图像采集设备300包括第三处理器310；第三存储器320，包括计算机可读存储介质321，该计算机可读存储介质由所述第三处理器310执行时，执行上述图3的图像采集方法。

具体地，以上图5～图7的处理器可以是人工智能处理器，能够加速人工智能算法的运算过程，同时，人工智能处理器具有功耗低、面积小等特点，便于嵌入到便携设备中。具体地，处理器例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器510还可以包括用于缓存用途的板载存储器。处理器根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

图8示意性绘示了本公开实施例智能音频文件推送系统的框图。如图8所示，智能音频文件推送系统800包括图像获取模块810、信息获取模块820、音频文件集合确定模块830、心情参数确定模块840及音频文件获取模块850。智能音频文件推送系统800用于执行上面参考图2A～图2D的智能音频文件推送方法。

具体地，图像获取模块810用于获取至少一用户图像，至少一用户图像由图像采集设备对用户进行采集得到；信息获取模块820用于根据至少一用户图像，获取用户动作信息和用户表情信息；音频文件集合确定模块830用于根据用户动作信息，确定出音频文件集合，音频文件集合包括至少一音频文件；心情参数确定模块840用于根据用户动作信息和用户表情信息，确定出用户的心情参数；音频文件获取模块850用于从音频文件集合获取与心情参数对应的音频文件，并发送至所述用户的用户设备，以使该用户设备播放该音频文件。

图9示意性绘示了本公开实施例图像采集系统的框图。如图9所示，图像采集系统900包括指令获取模块910、图像采集模块920及图像发送模块930。图像采集系统900用于执行上面参考图3的图像采集方法。

具体地，指令获取模块910用于获取推送设备发送的指令，该指令至少包括一位置信息；图像采集模块920用于根据该指令对位置信息所指定的用户进行图像采集，得到至少一用户图像；图像发送模块930用于将用户图像发送至所述推送设备，以使该推送设备根据至少一用户图像确定所述用户的心情参数，并向该用户的用户设备发送关联于该心情参数的音频文件。

图10示意性绘示了本公开实施例音频文件播放系统的框图。如图10所示，音频文件播放系统1000包括位置信息获取模块1010及播放模块1020。图像采集系统1000用于执行上面参考图4的音频文件播放方法。

具体地，位置信息获取模块1010用于获取用户的位置信息并发送至推送设备，以使该推送设备根据该位置信息从图像采集设备获取至少一用户图像；播放模块1020用于获取并播放推送设备发送的音频文件，该音频文件关联于用户的心情参数，心情参数由所述推送设备根据所述至少一用户图像确定。

可以理解的是，上述模块810～850、910～930、1010～1020可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，上述模块810～850、910～930、1010～1020的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。或者上述模块810～850、910～930、1010～1020中的至少一个可以至少被部分地实现为计算机程序模块，当该程序被计算机运行时，可以执行相应模块的功能。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种智能音频文件推送方法，包括：

获取至少一用户图像，所述至少一用户图像由图像采集设备对用户进行采集得到；

根据所述至少一用户图像，利用人工智能平台获取用户动作信息和用户表情信息；

根据所述用户动作信息，确定出音频文件集合，所述音频文件集合包括至少一音频文件；

根据所述用户动作信息和用户表情信息，确定出所述用户的心情参数；

从所述音频文件集合获取与所述心情参数对应的音频文件，并发送至所述用户的用户设备，以使该用户设备播放该音频文件。

2.根据权利要求1所述的智能音频文件推送方法，根据所述至少一用户图像，获取用户动作信息和用户表情信息，包括：

对所述至少一用户图像中的每个用户图像进行特征提取，得到至少一目标特征数据；

根据所述至少一目标特征数据确定所述用户图像中身体部位的轮廓信息；

根据所述轮廓信息确定用户动作信息和用户表情信息。

3.根据权利要求2所述的智能音频文件推送方法，根据所述轮廓信息确定用户动作信息和用户表情信息，包括：

将相同身体部位的轮廓信息按时间顺序确定该身体部位的至少一变化量；

根据该至少一变化量，确定出该身体部位的变化趋势；

根据多个身体部位的变化趋势确定出用户动作信息和用户表情信息。

4.根据权利要求1所述的智能音频文件推送方法，所述用户动作信息还包括肢体动作信息，其中，根据所述用户动作信息和用户表情信息，确定出所述用户的心情参数，包括：

根据所述肢体动作信息，确定所述用户的第一心情参数集合；

根据所述用户表情信息，确定所述用户的第二心情参数集合；

将所述第一心情参数集合及第二心情参数集合交集，作为所述用户的心情参数。

5.根据权利要求4所述的智能音频文件推送方法，所述根据所述用户表情信息，确定所述用户的第二心情参数集合，包括：

根据眼部表情信息、面部表情信息、嘴部表情信息中的至少一者，确定所述用户的第一参考状态信息；

获取预设时间段内与所述用户所关联的事件信息；

根据所述事件信息，确定所述用户的第二参考状态信息；

根据所述第一参考状态信息和第二参考状态信息确定所述用户的目标状态信息；

根据所述目标状态信息确定第二心情参数集合。

6.根据权利要求1-5任意一项所述的智能音频文件推送方法，所述用户动作信息包括非肢体动作信息，其中，根据所述用户动作信息，确定出音频文件集合，包括：

根据所述非肢体动作信息，确定所述用户的心理状态信息；

根据所述心理状态信息，确定出对应该心理状态的至少一音频文件，作为音频文件集合。

7.根据权利要求1所述的智能音频文件推送方法，获取至少一用户图像，包括：

从所述用户设备获取所述用户的位置信息；

向与所述位置信息对应的至少一图像采集设备发送指令；

获取所述至少一图像采集设备根据所述指令采集的至少一用户图像。

8.根据权利要求7所述的智能音频文件推送方法，所述向与所述位置信息对应的至少一图像采集设备发送指令，包括：

确定所述位置信息所指示位置在预设范围内的至少一图像采集设备；

向所述预设范围内的至少一图像采集设备发送指令。

9.一种图像采集方法，包括：

获取推送设备发送的指令，该指令至少包括一位置信息；

根据该指令对所述位置信息所指定的用户进行图像采集，得到至少一用户图像；

将所述用户图像发送至所述推送设备，以使该推送设备根据所述至少一用户图像确定所述用户的心情参数，并向该用户的用户设备发送关联于该心情参数的音频文件。

10.根据权利要求9所述的图像采集方法，所述将所述用户图像发送至所述推送设备，包括：

判断所述用户图像的图像质量是否达到预定条件，若是，将所述用户图像发送至所述推送没备，否则，删除所述用户图像并重新对所述用户进行图像采集。

11.根据权利要求9-10所述的图像采集方法，将所述用户图像发送至所述推送设备，包括：

将所述用户图像结合图像采集时间戳发送至所述推送设备。

12.一种音频文件播放方法，包括：

获取用户的位置信息并发送至推送设备，以使该推送设备根据该位置信息从图像采集设备获取至少一用户图像；

获取并播放所述推送设备发送的音频文件，该音频文件关联于所述用户的心情参数，所述心情参数由所述推送设备根据所述至少一用户图像确定。

13.一种推送设备，包括：

第一处理器；

第一存储器，包括计算机可读存储介质，该计算机可读存储介质由所述处理器执行时，执行如权利要求1-8所述的方法。

14.一种图像采集设备，包括：

第二处理器；

第二存储器，包括计算机可读存储介质，该计算机可读存储介质由所述处理器执行时，执行如权利要求9-11所述的方法。

15.一种用户设备，包括：

第三处理器；

第三存储器，包括计算机可读存储介质，该计算机可读存储介质由所述处理器执行时，执行如权利要求12所述的方法。

16.一种智能音频文件推送系统，包括：

图像获取模块，用于获取至少一用户图像，所述至少一用户图像由图像采集设备对用户进行采集得到；

信息获取模块，用于根据所述至少一用户图像，利用人工智能平台获取用户动作信息和用户表情信息；

音频文件集合确定模块，用于根据所述用户动作信息，确定出音频文件集合，所述音频文件集合包括至少一音频文件；

心情参数确定模块，用于根据所述用户动作信息和用户表情信息，确定出所述用户的心情参数；

音频文件获取模块，用于从所述音频文件集合获取与所述心情参数对应的音频文件，并发送至所述用户的用户设备，以使该用户设备播放该音频文件。

17.根据权利要求16所述的智能音频文件推送系统，所述信息获取模块根据所述至少一用户图像，获取用户动作信息和用户表情信息，包括：

根据所述轮廓信息确定用户动作信息和用户表情信息。

18.根据权利要求17所述的智能音频文件推送系统，所述信息获取模块根据所述轮廓信息确定用户动作信息和用户表情信息，包括：

根据该至少一变化量，确定出该身体部位的变化趋势；

19.根据权利要求15所述的智能音频文件推送系统，所述用户动作信息还包括肢体动作信息，其中，所述心情参数确定模块根据所述用户动作信息和用户表情信息，确定出所述用户的心情参数，包括：

20.根据权利要求19所述的智能音频文件推送系统，所述心情参数确定模块根据所述用户表情信息，确定所述用户的第二心情参数集合，包括：

获取预设时间段内与所述用户所关联的事件信息；

根据所述事件信息，确定所述用户的第二参考状态信息；

根据所述目标状态信息确定第二心情参数集合。

21.根据权利要求15-20任意一项所述的智能音频文件推送系统，所述用户动作信息包括非肢体动作信息，其中，所述音频文件集合确定模块根据所述用户动作信息，确定出音频文件集合，包括：

根据所述非肢体动作信息，确定所述用户的心理状态信息；

22.根据权利要求15所述的智能音频文件推送系统，所述图像获取模块获取至少一用户图像，包括：

从所述用户设备获取所述用户的位置信息；

向与所述位置信息对应的至少一图像采集设备发送指令；

23.根据权利要求22所述的智能音频文件推送系统，所述图像获取模块向与所述位置信息对应的至少一图像采集设备发送指令，包括：

确定所述位置信息所指示位置在预没范围内的至少一图像采集设备；

向所述预设范围内的至少一图像采集设备发送指令。

24.一种图像采集系统，包括：

指令获取模块，用于获取推送设备发送的指令，该指令至少包括一位置信息；

图像采集模块，用于根据该指令对所述位置信息所指定的用户进行图像采集，得到至少一用户图像；

图像发送模块，用于将所述用户图像发送至所述推送设备，以使该推送设备根据所述至少一用户图像确定所述用户的心情参数，并向该用户的用户设备发送关联于该心情参数的音频文件。

25.根据权利要求24所述的图像采集系统，所述图像发送模块将所述用户图像发送至所述推送设备，包括：

判断所述用户图像的图像质量是否达到预定条件，若是，将所述用户图像发送至所述推送设备，否则，删除所述用户图像并重新对所述用户进行图像采集。

26.根据权利要求24-25所述的图像采集系统，所述图像发送模块将所述用户图像发送至所述推送设备，包括：

将所述用户图像结合图像采集时间戳发送至所述推送设备。

27.一种音频文件播放系统，包括：

位置信息获取模块，用于获取用户的位置信息并发送至推送设备，以使该推送设备根据该位置信息从图像采集设备获取至少一用户图像；

播放模块，用于获取并播放所述推送设备发送的音频文件，该音频文件关联于所述用户的心情参数，所述心情参数由所述推送设备根据所述至少一用户图像确定。