CN108495143A

CN108495143A - 视频推荐的方法和装置

Info

Publication number: CN108495143A
Application number: CN201810277378.4A
Authority: CN
Inventors: 武薇; 王加锋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-09-04
Also published as: US10694247B2; JP6815371B2; US20190306568A1; JP2019185728A

Abstract

本申请实施例提供一种视频推荐的方法和装置，该方法包括：接收终端设备发送的视频推荐请求，所视频推荐请求中包括第一语音，第一语音为用户输入的请求视频推荐的语音；在服务器中存储的用户语音中确定与第一语音的相似度最大的第二语音；若将用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值，则根据第二语音对应的用户画像，向终端设备发送目标视频的信息。本申请实施例提供的视频推荐的方法和装置，视频推荐的准确度较高。

Description

视频推荐的方法和装置

技术领域

本发明实施例涉及计算机技术，尤其涉及一种视频推荐的方法和装置。

背景技术

随着人工智能的不断发展，智能终端的种类越来越多，比如智能语音电视类产品，用户可通过语音对电视进行操作。

现有技术中，智能语音电视具有至少一个用户，所有用户通过智能语音电视产生的行为数据均会与智能语音电视的标识相对应，也就是服务器会根据该智能语音电视的所有用户的数据生成一个用户画像，该用户画像与终端设备的标识相对应。

若其中的一个用户A通过希望智能语音电视向其推荐视频时，智能语音电视发送视频推荐请求至服务器，服务器会基于根据所有用户的数据生成的用户画像确定要向用户推荐的视频，并不是基于根据用户A的数据生成的用户画像确定要向用户推荐的视频。因此，服务器选择的要向用户推荐的视频并一定是用户感兴趣的视频，向用户推荐视频的准确度并不高。

发明内容

本发明实施例提供一种视频推荐的方法和装置，以现有技术中向用户推荐视频的准确度不高的技术问题。

第一方面，本申请实施例提供一种视频推荐的方法，包括：

接收终端设备发送的视频推荐请求，所述视频推荐请求中包括第一语音，所述第一语音为用户输入的请求视频推荐的语音；

在服务器中存储的用户语音中确定与所述第一语音的相似度最大的第二语音；

若将所述用户识别为所述第二语音对应的用户的第一置信度大于或等于第一阈值，则根据所述第二语音对应的用户画像，向所述终端设备发送所述目标视频的信息。

在一种可能的设计中，所述视频推荐请求还包括所述终端设备的标识；

则根据所述第二语音对应的用户画像，向所述终端设备发送所述目标视频的信息，包括：

根据所述第二语音对应的用户画像和所述终端设备的标识，向所述终端设备发送所述目标视频的信息。

在一种可能的设计中，所述视频推荐请求还包括所述用户的第一人脸图像，若所述第一置信度小于第一阈值且大于第二阈值，则所述方法还包括：

在服务器中存储的人脸图像中确定与所述用户的人脸图像的相似度最大的第二人脸图像；若将所述用户识别为所述第二人脸图像对应的用户的第二置信度大于或等于第三阈值，则根据所述第二人脸图像对应的用户画像和所述终端设备的标识向所述终端设备发送目标视频的信息。

在一种可能的设计中，若所述第一置信度小于第一阈值且大于第二阈值，则所述方法还包括：

接收终端设备发送的所述用户的第一人脸图像；

在一种可能的设计中，在所述接收终端设备发送的所述用户的人脸图像之前，还包括：

发送图像获取指令至所述终端设备，所述图像获取指令用于指示所述终端设备获取所述用户的第一人脸图像。

在一种可能的设计中，若所述第一置信度小于或等于第二阈值，则所述方法还包括：

为所述终端设备的所述用户分配用户标识，并将所述用户标识和所述第一语音进行关联存储。

在一种可能的设计中，所述方法还包括：

接收终端设备发送的所述用户的第一人脸图像；

将所述用户标识和所述第一人脸图像进行关联存储。

在一种可能的设计中，所述根据所述第二语音对应的用户画像和所述终端设备的标识向所述终端设备发送目标视频的信息，包括：

根据所述终端设备的标识，确定所述终端设备的用户的视频观看权限；

根据所述第二语音对应的用户画像，从所述终端设备的用户的视频观看权限对应的多个视频中，确定目标视频；

向所述终端设备发送目标视频的信息。

在一种可能的设计中，所述在服务器中存储的用户语音中确定与所述第一语音的相似度最大的第二语音，包括：

根据所述第一语音的声纹特征和神经网络算法，获取所述第一语音的第一特征向量；

根据所述第一特征向量和服务器中存储的每个用户语音的第二特征向量，在服务器中存储的用户语音中确定与所述第一语音的相似度最大的第二语音。

在一种可能的设计中，所述在服务器中存储的用户语音中确定与所述第一人脸图像的相似度最大的第二人脸图像，包括：

根据所述第一人脸图像的图像特征和神经网络算法，获取所述第一人脸图像的三特征向量；

根据所述第三特征向量和服务器中存储的每个人脸图像的第四特征向量，在服务器中存储的人脸图像中确定与所述第一人脸图像的相似度最大的第二人脸图像。

第二方面，本申请实施例提供一种视频推荐的方法，包括：

获取用户输入的请求视频推荐的第一语音；

发送视频推荐请求至服务器，所述视频推荐请求中包括第一语音；

接收服务器发送的目标视频的信息；所述目标视频的信息是所述服务器在确定将所述用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值后，根据第二语音对应的用户画像获取的；或者，所述目标视频的信息是所述服务器在确定将所述用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值，并且将所述用户识别为第二人脸图像对应的用户的第二置信度大于或等于第三阈值后，根据第二人脸图像对应的用户画像获取的。

则所述目标视频的信息是所述服务器在确定将所述用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值后，根据第二语音对应的用户画像和所述终端设备的标识获取的；或者，所述目标视频的信息是所述服务器在确定将所述用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值，并且将所述用户识别为第二人脸图像对应的用户的第二置信度大于或等于第三阈值后，根据第二人脸图像对应的用户画像所述终端设备的标识获取的。

在一种可能的设计中，获取用户输入的请求视频推荐的第一语音，包括：

获取用户输入的请求视频推荐的第一语音和用户的第一人脸图像；

所述发送视频推荐请求至服务器，所述视频推荐请求中包括第一语音和终端设备的标识，包括：

发送视频推荐请求至服务器，所述视频推荐请求中包括第一语音和终端设备的标识和所述第一人脸图像。

在一种可能的设计中，所述方法还包括：

接收服务器发送的图像获取指令；

根据所述图像获取指令获取所述用户的第一人脸图像；

发送所述第一人脸图像至所述服务器。

第三方面，本申请实施例提供一种视频推荐的装置，包括：

接收模块，用于接收终端设备发送的视频推荐请求，所述视频推荐请求中包括第一语音，所述第一语音为用户输入的请求视频推荐的语音；

确定模块，用于在服务器中存储的用户语音中确定与所述第一语音的相似度最大的第二语音；

发送模块，用于若将所述用户识别为所述第二语音对应的用户的第一置信度大于或等于第一阈值，则根据所述第二语音对应的用户画像，向所述终端设备发送所述目标视频的信息。

则发送模块，具体用于：

在一种可能的设计中，所述视频推荐请求还包括所述用户的第一人脸图像，若所述第一置信度小于第一阈值且大于第二阈值，所述确定模块，用于在服务器中存储的人脸图像中确定与所述用户的人脸图像的相似度最大的第二人脸图像；

所述发送模块，用于若将所述用户识别为所述第二人脸图像对应的用户的第二置信度大于或等于第三阈值，则根据所述第二人脸图像对应的用户画像和所述终端设备的标识向所述终端设备发送目标视频的信息。

在一种可能的设计中，若所述第一置信度小于第一阈值且大于第二阈值，则所述接收模块用于，接收终端设备发送的所述用户的第一人脸图像；

所述确定模块，用于在服务器中存储的人脸图像中确定与所述用户的人脸图像的相似度最大的第二人脸图像；

在一种可能的设计中，所述发送模块，还用于在所述接收终端设备发送的所述用户的人脸图像之前，发送图像获取指令至所述终端设备，所述图像获取指令用于指示所述终端设备获取所述用户的第一人脸图像。

在一种可能的设计中，若所述第一置信度小于或等于第二阈值，则所述装置还包括：存储模块，用于为所述终端设备的所述用户分配用户标识，并将所述用户标识和所述第一语音进行关联存储。

在一种可能的设计中，若所述第一置信度小于或等于第二阈值，所述接收模块还用于接收终端设备发送的所述用户的第一人脸图像；

所述存储模块，还用于将所述用户标识和所述第一人脸图像进行关联存储。

在一种可能的设计中，所述发送模块具体用于：

向所述终端设备发送目标视频的信息。

在一种可能的设计中，所述确定模块用于：

在一种可能的设计中，所述确定模块还用于：

根据所述第一人脸图像的图像特征和神经网络算法，获取所述第一人脸图像的第三特征向量；

第四方面，本申请实施例提供一种视频推荐的装置，包括：

获取模块，用于获取用户输入的请求视频推荐的第一语音；

发送模块，用于发送视频推荐请求至服务器，所述视频推荐请求中包括第一语音；

接收模块，用于接收服务器发送的目标视频的信息；所述目标视频的信息是所述服务器在确定将所述用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值后，根据第二语音对应的用户画像获取的；或者，所述目标视频的信息是所述服务器在确定将所述用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值，并且将所述用户识别为第二人脸图像对应的用户的第二置信度大于或等于第三阈值后，根据第二人脸图像对应的用户画像获取的。

在一种可能的设计中，所述获取模块具体用于：获取用户输入的请求视频推荐的第一语音和用户的第一人脸图像；

所述发送模块具体用于，发送视频推荐请求至服务器，所述视频推荐请求中包括第一语音和终端设备的标识和所述第一人脸图像。

在一种可能的设计中，所述接收模块，还用于接收服务器发送的图像获取指令；

所述获取模块，还用于根据所述图像获取指令获取所述用户的第一人脸图像；

所述发送模块，还用于发送所述第一人脸图像至所述服务器。

第五方面，本申请实施例提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得处理器执行第一方面以及第一方面任一可能的设计中所述的方法。

第六方面，本申请实施例提供一种服务器，包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用所述存储器中存储的所述程序指令以实现第一方面以及第一方面任一可能的设计中所述的方法。

第七方面，本申请实施例提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得处理器执行第二方面以及第二方面任一可能的设计中所述的方法。

第八方面，本申请实施例提供一种终端设备，包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用所述存储器中存储的所述程序指令以实现第二方面以及第二方面任一可能的设计中所述的方法。

本申请实施例的服务器中存储有终端设备的每个用户的用户画像，终端设备不会根据终端设备的所有用户的用户画像向用户推荐视频，而是通过当前用户的语音，识别当前用户，基于当前用户的用户画像向用户推荐视频，增加了视频推荐的准确度。而且，只有识别结果的置信度大于或等于预设阈值后，才会认为当前的识别结果可信，才会根据当前的识别结果对应的用户的用户画像向用户推荐视频，进一步提高了视频推荐的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的系统架构图；

图2为本发明提供的视频推荐的方法的信令交互图一；

图3为本发明提供的视频推荐的方法的信令交互图二；

图4为本发明提供的视频推荐的方法的信令交互图三；

图5为本发明提供的视频推荐的方法的信令交互图四；

图6为本发明提供的视频推荐的方法的信令交互图五；

图7为本发明提供的视频推荐的方法的信令交互图六；

图8为本发明实施例提供的视频推荐的装置实施例一的结构示意图；

图9为本发明实施例提供的视频推荐的装置实施例二的结构示意图；

图10为本申请实施例提供的服务器的结构示意图

图11为本申请实施例提供的终端设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本申请实施例提供的系统架构图；参见图1，该架构包括：终端设备12和服务器11。其中，服务器中存储有终端设备的至少一个用户各自的用户画像，每个用户画像的标识包括相应用户的标识。

具体地，终端设备12发送视频推荐请求至服务器11，视频推荐请求包括用户请求视频推荐的第一语音；服务器11在其存储的用户语音中确定与第一语音的相似度最大的第二语音的相似度，若将用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值，则根据第二语音对应的用户画像确定目标视频，并向终端设备发送目标视频的信息；若第一置信度小于第一阈值且大于第二阈值，在服务器中存储的人脸图像中确定与用户的人脸图像的相似度最大的第二人脸图像；若将用户识别为第二人脸图像对应的用户的第二置信度大于或等于第三阈值，则根据第二人脸图像对应的用户画像向终端设备发送目标视频的信息。

本申请实施例的服务器中存储有终端设备的每个用户的用户画像，终端设备不会根据终端设备的所有用户的用户画像向用户推荐视频，而是通过当前用户的语音，识别当前用户，基于当前用户的用户画像向用户推荐视频，增加了视频推荐的准确度。而且，只有识别结果的置信度大于或等于预设阈值时，才会认为当前的识别结果可信，才会根据当前的识别结果对应的用户的用户画像向用户推荐视频，进一步提高了视频推荐的准确度。

图2为本发明提供的视频推荐的方法的信令交互图一，如图2所示，本实施例的方法可以包括：

步骤201、终端设备获取当前用户输入的请求视频推荐的第一语音；

步骤202、终端设备发送视频推荐请求至服务器，视频推荐请求中包括第一语音；

步骤203、服务器在服务器中存储的用户语音中确定与第一语音的相似度最大的第二语音；

步骤204、若将当前用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值，服务器根据第二语音对应的用户画像向终端设备发送目标视频的信息；

具体地，本实施例的终端设备可为智能语音电视、平板电脑等可通过语音对其进行操作的设备。

下面以智能语音电视为例，说明步骤S201～步骤S204中的视频推荐流程。

对于步骤S201、若当前的第一用户需要智能语音电视推荐视频，用户会发出语音：“请帮我推荐视频”或“最近有什么好看的电影”或者“请帮我推荐好看的电视剧”等，这些语音均为用户请求视频推荐的语音，此处称为第一语音。

其中，智能语音电视的语音采集单元采集第一用户的第一语音。

对于步骤S202、智能语音电视在获取到第一用户的第一语音后，向服务器发送视频推荐请求，视频推荐请求中包括该第一语音。

本领域技术人员可以理解的是，第一语音的语音可通过二进制流的形式发送至服务器。

对于步骤S203、服务器接收智能语音电视发送的视频推荐请求，将第一语音(实际为二进制语音流)转换成可识别的文本信息，根据该文本信息确定第一用户的意图，比如用户的意图为：推荐电影或者电视剧或者综艺节目。

服务器中存储有至少一个用户语音，每个用户语音的标识包括相应用户的标识和终端设备的标识。

比如：服务器中存储有用户B的语音，用户B的语音是智能语音电视b发送至服务器的，则用户B的第二语音的标识包括用户B的标识和智能语音电视的标识，其中，用户B的标识可为100，智能语音电视备b的标识可为000。

又比如：服务器中存储有用户C的语音，用户C的语音是智能语音电视b发送至服务器的，则用户C的语音的标识包括用户C的标识和智能语音电视的标识，其中，用户C的标识可为000，智能语音电视b的标识可为000。

上述情况说明了用户B和用户C同为智能语音电视b的用户。

此外，服务器中存储的每个用户语音的标识还可仅包括用户的标识。

服务器中还存储有多个用户各自的用户画像，每个用户画像的标识包括：相应用户的标识和对应的终端设备的标识或者仅包括相应用户的标识。

同一个用户的语音的标识和用户画像的标识中的用户标识是相同的，即服务器中存储的语音和用户画像是一一对应的。

下面对在服务器中存储的用户语音中确定与第一语音的相似度最大的第二语音的方法进行说明。

第一种可实现的方法为：提取每个用户语音的第二声纹特征，可采用现有技术中的美尔普倒谱系数来表征声纹特征。将多个第二语音的第二声纹特征作为训练样本，根据深度卷积神经网络得到深度卷积神经网络模型。然后对于每个用户语音，将用户语音的第二声纹特征作为深度卷积神经网络的输入，采用训练得到的深度卷积神经网络模型，得到用户语音对应的第二特征向量；这样得到了每个用户语音对应的第二特征向量，也就是每个用户语音对应的用户的第二特征向量。

提取第一语音的第一声纹特征，将第一声纹特征作为深度卷积神经网络的输入，采用训练得到的深度卷积神经网络模型，得到第一语音对应的第一特征向量。

根据第一特征向量和每个第二特征向量确定服务器存储的用户语音中与第一语音相似度最大的二语音，具体为：获取第一特征向量与每个第二特征向量之间的距离，与第一特征向量距离最小的第二特征向量对应的用户语音为第二语音。也就是两个特征向量之间的距离越小，则说明特征向量各自对应的语音的相似度就越大。其中，距离可为欧式距离、余弦距离等，本实施例中并不限定。

比如：服务中具有用户语音1、用户语音2、用户语音3、用户语音4，用户语音1对应的第二特征向量与第一特征向量之间的欧式距离最小，那么用户语音1即为与第一语音相似度最大的第二语音。

可以理解的是，上述的深度卷积神经网络模型和各用户语音的各自的第二特征向量可以事先获取，然后存储在服务器中。

第二种可实现的方法为：提取每个用户语音的第二声纹特征，可采用现有技术中的美尔普倒谱系数来表征声纹特征。将每个第二声纹特征进行矢量量化处理，得到该第二声纹特征对应的第二矢量量化码书，也就是该第二声纹特征对应的用户的第二矢量量化码书。其中，矢量量化处理方法，为现有技术中的方法，本实施例中不再赘述。

提取第一语音的第一声纹特征，将第一声纹特征进行矢量化处理，得到该第一声纹特征对应的第一矢量量化码书，也就是该第二声纹特征对应的用户的第一矢量量化码书。

根据第一矢量量化码书和每个第二矢量量化码书确定服务器存储的用户语音中与第一语音相似度最大的第二语音，具体为：获取第一矢量量化码书与每个第二矢量量化码书之间的欧式距离，确定与第一矢量量化码书之间的欧式距离最小的第二矢量量化码书对应的用户语音为第二语音。也就是两个矢量量化码书之间的欧式距离越小，则说明矢量量化码书各自对应的语音的相似度就越大。

比如：服务中具有用户语音1、用户语音2、用户语音3、用户语音4，用户语音1对应的第二矢量量化码书与第一矢量量化码书之间的欧式距离最小，那么用户语音1即为与第一语音相似度最大的第二语音。

可以理解的是，上述各用户语音的各自的第二矢量量化码书可以事先获取，存储在服务器中。

第三种可实现的方法为：获取各用户语音各自的第二特征向量和第一语音的第一特征向量(方法同上述第一种可实现的方法)，直接根据各第二特征向量和第一特征向量计算各第二语音与第一语音的相似度，将相似度最大的用户语音作为第二语音。

此处，相似度的获取方法可采用现有技术中的方法，本实施例中不再赘述。

本领域技术人员应当明白，获取服务器中存储的用户语音中与第一语音的相似度最大的第二语音的方法，并不限于上述三种可实现的方法。

可以理解的是，服务器中存储的用户语音中与第一语音的相似度最大的第二语音对应的用户并不一定与当前请求视频推荐的第一用户为同一用户。因此，需要获取将第一用户识别为第二语音对应的用户的置信度，此处可称为第一置信度。

第一置信度的可根据第一语音与服务器存储的各用户语音的相似度获取；其中，对于确定第二语音的第一种和第二种可实现的方法，第一语音与各用户语音的相似度可通过如下方法获取：

用归一化法将距离值归一化为相似度值，其中，归一化方法为线性映射、分段线性映射以及其他单调函数的方法。上述各归一化方法均为现有技术中的方法，本实施例中不再赘述。

第一置信度可通过如下公式二～公式四获取：

其中，为所有相似度的平均值，m₁为服务器存储的所有的用户语音对应的用户的个数，n₁为服务器存储的对应同一用户的语音的个数；若服务器中存储的用户语音与用户一一对应，则n₁＝1，m₁为服务器中存储的用户语音的个数。

对于步骤204、若将当前用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值，服务器根据第二语音对应的用户画像向终端设备发送目标视频的信息。

其中，第一阈值可为85～90之间的任一数值。

若第一置信度大于或等于第一阈值，说明第二语音对应的用户为当前请求视频推荐的第一用户的可信度很高，这样就可以根据与第二语音对应的用户画像，确定向第一用户推荐的目标视频，将目标视频的信息发送至终端设备。

另外，由于终端的用户会根据个性化的需求订阅一些需要付费的视频内容，因此，上述的视频推荐请求中还可包括终端设备的标识，服务器根据第二语音对应的用户画像和终端设备的标识向终端设备发送目标视频的信息，具体包括：服务器根据终端设备的标识，确定终端设备的用户的视频观看权限，根据第二语音对应的用户画像，从终端设备的用户的视频观看权限对应的多个视频中，确定目标视频，将目标视频的信息发送至终端设备。

其中，服务器中存储的用户画像的获取过程可如下：接收终端设备发送的用户1操作智能电视的语音1，根据语音1和服务器存储的多个语音进行用户1的识别，识别方法同上述步骤203，若将语音2(服务器存储的多个语音中的语音)对应的用户识别为用户1的置信度超过了预设阈值，则认为语音2对应的用户即为用户1，服务器将终端设备发送的针对该次操作产生的用户数据(观看的时长、视频类型、哪个频道等)与用户1的用户标识1对应，服务器可根据用户标识1对应的所有的用户数据生成用户1的用户画像。

此外，终端设备接收到目标视频的信息后，若第一用户观看了目标视频中的至少部分视频，则终端设备向服务器发送第一用户对目标视频中的至少部分视频的操作数据。

其中，操作数据可以包括用户观看的目标视频的视频类型、观看时长等。服务器接收这些操作数据后，这些操作数据是服务器后续更新用户画像的基础，因为用户画像是根据相应用户的数据获取的。

若上一实施例中的第一置信度小于第一阈值且大于第二阈值，说明对当前第一用户的识别结果不是很可信，但又不是完全不可信，此时，为了即能够向用户推荐视频又保证推荐视频的准确度，本实施例在上一实施例的基础上作了进一步的改进，图3为本申请实施提供的视频推荐的方法的信令交互图三，参见图3，本实施例的视频推荐方法，包括：

步骤S301、终端设备获取当前用户输入的请求视频推荐的第一语音；

步骤S302、终端设备发送视频推荐请求至服务器，视频推荐请求中包括第一语音；

步骤S303、服务器在服务器中存储的用户语音中确定与第一语音的相似度最大的第二语音；

若将当前用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值，执行步骤S304；

步骤S304、服务器根据第二语音对应的用户画像向终端设备发送目标视频的信息；

若将当前用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值，执行步骤S305～309。

步骤S305、服务器发送图像获取指令至终端设备；

步骤S306、终端设备根据图像获取指令获取当前用户的第一人脸图像；

步骤S307、终端设备将第一人脸图像发送至服务器；

步骤S308、服务器在服务器中存储的人脸图像中确定与第一人脸图像的相似度最大的第二人脸图像；

步骤S309、若将当前用户识别为第二人脸图像对应的用户的第二置信度大于或等于第三阈值，则根据第二人脸图像对应的用户画像向终端设备发送目标视频的信息。

具体地，步骤S301～步骤S304参见上一实施例中的步骤S201～步骤S204，本实施例中不再赘述。

对于步骤S305～步骤S307，若将当前用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值，服务器发送图像获取指令至终端设备；终端设备接收到图像获取指令，控制摄像头处于开启状态，获取当前用户的第一人脸图像，并将第一人脸图像发送至服务器。

对于步骤S308，服务器中存储有至少一个人脸图像，每个人脸图像的标识包括相应用户的标识和终端设备的标识。

比如：服务器中存储有用户B的人脸图像，用户B的人脸图像是智能人脸图像电视b发送至服务器的，则用户B的第二人脸图像的标识包括用户B的标识和智能人脸图像电视的标识，其中，用户B的标识可为100，智能人脸图像电视备b的标识可为000。

又比如：服务器中存储有用户C的人脸图像，用户C的人脸图像是智能人脸图像电视b发送至服务器的，则用户C的人脸图像的标识包括用户C的标识和智能人脸图像电视的标识，其中，用户C的标识可为000，智能人脸图像电视b的标识可为000。

上述情况说明了用户B和用户C同为智能人脸图像电视b的用户。

此外，服务器中存储的每个用户人脸图像的标识还可仅包括用户的标识。

服务器中还存储有多个用户各自的用户画像，每个用户画像的标识包括：相应用户的标识和对应的终端设备的标识或者仅包括相应用户的标识；

同一个用户的人脸图像的标识和用户画像的标识中的用户标识是相同的，即服务器中存储的人脸图像和用户画像是一一对应的。

可以理解的是，服务器中存储的人脸图像、用户语音、用户画像是一一对应的，即同一用户的人脸图像和用户语音与同一用户画像相对应。

下面对在服务器中存储的人脸图像中确定与第一人脸图像的相似度最大的第二人脸图像的方法进行说明。

第一种可实现的方法为：提取每个用户人脸图像的第二图像特征，比如每个像素点的LBP值。将多个第二人脸图像各自的第二图像特征作为训练样本，根据深度卷积神经网络得到深度卷积神经网络模型。然后对于服务器存储的每个人脸图像，将人脸图像的第二图像特征作为深度卷积神经网络的输入，采用训练得到的深度卷积神经网络模型，得到人脸图像对应的第四特征向量；这样得到了每个人脸图像对应的第四特征向量，也就是得到了服务器存储的每个人脸图像对应的用户的第四特征向量。

提取第一人脸图像的第一图像特征，将第一图像特征作为深度卷积神经网络的输入，采用训练得到的深度卷积神经网络模型，得到第一人脸图像对应的第三特征向量。

根据第三特征向量和每个第四特征向量确定服务器存储的人脸图像中与第一人脸图像相似度最大的二人脸图像，具体为：获取第三特征向量与每个第四特征向量之间的距离，与第三特征向量距离最小的第四特征向量对应的人脸图像为第二人脸图像。也就是两个特征向量之间的距离越小，则说明特征向量各自对应的人脸图像的相似度就越大。其中，距离可为欧式距离、余弦距离等，本实施例中并不限定。

比如：服务中具有人脸图像1、人脸图像2、人脸图像3、人脸图像4，人脸图像1对应的第四特征向量与第三特征向量之间的欧式距离最小，那么人脸图像1即为与第一人脸图像相似度最大的第二人脸图像。

可以理解的是，上述的深度卷积神经网络模型和各人脸图像的各自的第四特征向量可以事先获取，然后存储在服务器中。

第二种可实现的方法为：获取各人脸图像各自的第四特征向量和第一人脸图像的第三特征向量(方法同上述第一种可实现的方法)，直接根据各第四特征向量和第三特征向量计算服务器中存储的各人脸图像与第一人脸图像的相似度，将与第一人脸图像相似度最大的服务器中存储的人脸图像作为第二人脸图像。

本领域技术人员应当明白，获取服务器中存储的人脸图像中与第一人脸图像的相似度最大的第二人脸图像的方法，并不限于上述二种可实现的方法。

可以理解的是，服务器中存储的人脸图像中与第一人脸图像的相似度最大的第二人脸图像对应的用户并不一定与当前请求视频推荐的用户为同一用户。因此，需要获取将第一用户识别为第二人脸图像对应的用户的置信度，此处可称为第二置信度。

第二置信度的可根据第一人脸图像与服务器存储的各人脸图像的相似度获取。其中，对于确定第二人脸图像的第一种可实现的方法，第一人脸图像与各人脸图像的相似度可通过如下方法获取：

第二置信度可通过如下公式二～公式四获取：

其中，为所有相似度的平均值，m₂为服务器中存储的所有的人脸图像对应的用户的个数，n₂为服务器中存储的对应同一用户的人脸图像的个数；若服务器中存储的人脸图像与用户一一对应，则n₂＝1，m₂为服务器中存储的人脸图像的个数。

对于步骤309、若将当前用户识别为第二人脸图像对应的用户的第二置信度大于或等于第三阈值，服务器根据第二人脸图像对应的用户画像向终端设备发送目标视频的信息。若将当前用户识别为第二人脸图像对应的用户的第二置信度小于第三阈值，则无法向用户推荐视频，可向终端设备发送提示信息，提示信息用于提示用户法向用户推荐视频。

其中，第三阈值可为85～90之间的任一数值。

若第二置信度大于或等于第三阈值，说明第二人脸图像对应的用户为当前请求视频推荐的第一用户的可信度很高，这样就可以根据与第二人脸图像对应的用户画像，确定向第一用户推荐的目标视频，将目标视频的信息发送至终端设备。

另外，由于终端的用户会根据个性化的需求订阅一些需要付费的视频内容，因此，上述的视频推荐请求中还可包括终端设备的标识，服务器根据第二人脸图像对应的用户画像和终端设备的标识向终端设备发送目标视频的信息，具体包括：服务器根据终端设备的标识，确定终端设备的用户的视频观看权限，根据第二人脸图像对应的用户画像，从终端设备的用户的视频观看权限对应的多个视频中，确定目标视频，将目标视频的信息发送至终端设备。

其中，服务器中存储的用户画像的获取过程可如下：接收终端设备发送的用户1操作智能电视的语音1，根据语音1和服务器存储的多个语音进行用户1的识别，识别方法同上述步骤203，若将语音2(服务器存储的多个语音中的语音)对应的用户识别为用户1的置信度超过了预设阈值，则认为语音2对应的用户即为用户1，服务器将终端设备发送的针对该次操作产生的用户数据(观看的时长、视频类型、哪个频道等)与用户1的用户标识1(语音2对应的用户标识)对应；若将语音2(服务器存储的多个语音中的语音)对应的用户识别为用户1的置信度没有超过预设阈值，则根据用户1的人脸图像和服务器存储的多个人脸图像进行用户1的识别，若将人脸图像2(服务器存储的多个语音中的语音)对应的用户识别为用户1的置信度超过了预设阈值，则认为人脸图像2对应的用户即为用户1，服务器将终端设备发送的针对该次操作产生的用户数据(观看的时长、视频类型、哪个频道等)与用户1的用户标识2(人脸图像2对应的用户标识)对应。服务器可根据用户标识1对应的所有的用户数据生成用户1的用户画像。可以理解的是，用户标识1和用户标识2可相同。

本实施例通过若将当前用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值，才控制终端设备获取人脸图像，可以节省终端的功耗。

另外，本实施例的若根据语音识别的识别结果的置信度在一定的范围内，则根据当前用户的人脸图像，识别当前用户，当根据人脸图像的识别结果的置信度超过了一定的阈值后，基于识别结果对应的用户画像向用户推荐视频，提高了在声纹识别出现异常(比如，用户感冒了，声纹特征发生了变化)时可以向终端设备推荐视频的几率，也提高了视频推荐的准确度。

下面对第一置信度所有可能的情况对应的视频推荐的方法进行说明。

图4为本申请实施提供的视频推荐的方法的信令交互图三，参见图4，本实施例的视频推荐方法，包括：

步骤S401、终端设备获取当前用户输入的请求视频推荐的第一语音；

步骤S402、终端设备发送视频推荐请求至服务器，视频推荐请求中包括第一语音；

步骤S403、在服务器中存储的用户语音中确定与第一语音的相似度最大的第二语音；

若将当前用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值，执行步骤S404；

步骤S404、服务器根据第二语音对应的用户画像向终端设备发送目标视频的信息；

若将当前用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值，执行步骤S405～409。

步骤S405、服务器发送图像获取指令至终端设备；

步骤S406、终端设备根据图像获取指令获取当前用户的第一人脸图像；

步骤S407、终端设备将第一人脸图像发送至服务器；

步骤S408、服务器在服务器中存储的人脸图像中确定与第一人脸图像的相似度最大的第二人脸图像；

步骤S409、若将当前用户识别为第二人脸图像对应的用户的第二置信度大于或等于第三阈值，则根据第二人脸图像对应的用户画像向终端设备发送目标视频的信息。

若将当前用户识别为第二语音对应的用户的第一置信度小于或等于第二阈值，执行步骤S410。

步骤S410、服务器为终端设备的当前用户分配用户标识，并将当前用户的用户标识和第一语音进行关联存储。

具体地，步骤S401～步骤S409参见上一实施例中的步骤S301～步骤S309，本实施例中不再赘述。

对于步骤S410，若将当前用户识别为第二语音对应的用户的第一置信度小于或等于第二阈值，说明服务器中没有存储与当前用户的语音，此时，服务器为终端设备的当前用户分配用户标识，并将当前用户标识和第一语音进行关联存储，以便于后续语音的识别过程。此时，可向终端设备发送提示信息，提示信息用于提示用户无法向用户推荐视频。

为了使得当语音识别的可信度不高时，可以使用人脸进行识别，以增加能够向用户准确推荐视频的几率，本实施例在上一实施的基础上作了进一步的改进，图5为本申请实施提供的视频推荐的方法的信令交互图四，参见图5，本实施例的视频推荐方法，包括：

步骤S501、终端设备获取当前用户输入的请求视频推荐的第一语音；

步骤S502、终端设备发送视频推荐请求至服务器，视频推荐请求中包括第一语音；

步骤S503、在服务器中存储的用户语音中确定与第一语音的相似度最大的第二语音；

若将当前用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值，执行步骤S504；

步骤S504、服务器根据第二语音对应的用户画像向终端设备发送目标视频的信息；

若将当前用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值，执行步骤S505～509。

步骤S505、服务器发送图像获取指令至终端设备；

步骤S506、终端设备根据图像获取指令获取当前用户的第一人脸图像；

步骤S507、终端设备将第一人脸图像发送至服务器；

步骤S508、在服务器中存储的人脸图像中确定与第一人脸图像的相似度最大的第二人脸图像；

步骤S509、若将当前用户识别为第二人脸图像对应的用户的第二置信度大于或等于第三阈值，则根据第二人脸图像对应的用户画像向终端设备发送目标视频的信息。

若将当前用户识别为第二语音对应的用户的第一置信度小于或等于第二阈值，执行步骤S510。

步骤S5104、服务器为终端设备的当前用户分配用户标识，并将当前用户的用户标识和第一语音进行关联存储。

步骤S511、服务器发送图像获取指令至终端设备；

步骤S512、终端设备根据图像获取指令获取当前用户的第一人脸图像；

步骤S513、终端设备将第一人脸图像发送至服务器；

步骤S514、服务器将当前用户的用户标识和第一人脸图像进行关联存储。

具体地，步骤S501～步骤S510参见上一实施例中的步骤S401～步骤S410，本实施例中不再赘述。

对于步骤S511～步骤S514：若将当前用户识别为第二语音对应的用户的第一置信度小于或等于第二阈值，服务器发送图像获取指令至终端设备，终端设备接收到图像获取指令，控制摄像头处于开启状态，获取当前用户的第一人脸图像，并将第一人脸图像发送至服务器；此时，服务器为终端设备的当前用户分配用户标识，并将当前用户的用户标识和第一人脸图像进行关联存储，以便于后续基于人脸图像的识别过程。

这样就实现了将同一人的语音和人脸图像一一对应，即本实施例能够使得当语音识别的可信度不高时，可以使用人脸进行识别，以增加能够向用户准确推荐视频的几率。

为了提高视频推荐的速度，可以在当前请求视频推荐的用户发出请求视频推荐的第一语音后，终端设备就获取当前用户的第一人脸图像，以提高当语音识别结果不可靠时，基于人脸图像进行视频推荐的速度。图6为本申请实施提供的视频推荐的方法的信令交互图五，参见图6，本实施例的视频推荐方法，包括：

步骤S601、终端设备获取当前用户输入的请求视频推荐的第一语音和当前用户的第一人脸图像；

步骤S602、终端设备发送视频推荐请求至服务器，视频推荐请求中包括第一语音和第一人脸图像；

步骤S603、在服务器中存储的用户语音中确定与第一语音的相似度最大的第二语音；

若将当前用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值，执行步骤S604；

步骤S604、服务器根据第二语音对应的用户画像向终端设备发送目标视频的信息；

若将当前用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值，执行步骤S605～606。

步骤S605、在服务器中存储的人脸图像中确定与所述用户的人脸图像的相似度最大的第二人脸图像；

步骤S606、若将当前用户识别为第二人脸图像对应的用户的第二置信度大于或等于第三阈值，则根据第二人脸图像对应的用户画像向终端设备发送目标视频的信息。

若将当前用户识别为第二语音对应的用户的第一置信度小于或等于第二阈值，执行步骤S607。

步骤S607、服务器为终端设备的当前用户分配用户标识，并将当前用户的用户标识和第一语音和第一人脸图像进行关联存储。

具体地，本实施例中在终端设备获取到第一语音后或者获取第一语音同时，也获取当前用户的第一人脸图像，这样若将当前用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值，就不用服务器与终端设备交互以获取第一人脸图像的过程，提高视频推荐的速度。

本实施例中除了步骤S601外，其余的步骤与其它实施例中具有相同步骤的实现方法相同，本实施例不再赘述。

本实施例通过在终端设备获取到第一语音后或者获取第一语音同时，也获取当前用户的第一人脸图像，提高了当将当前用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值时对应的视频推荐的速度。

在实际的应用时，有时需要第三方服务器提供目标视频，下面对该种情况下的视频推荐方法进行说明。

图7为本申请实施提供的视频推荐的方法的信令交互图六，参见图7，本实施例的视频推荐方法，包括：

步骤S701、终端设备获取当前用户输入的请求视频推荐的第一语音；

步骤S702、终端设备发送视频推荐请求至第一服务器，视频推荐请求中包括第一语音和终端设备的标识；

步骤S703、第一服务器在第一服务器中存储的用户语音中确定与第一语音的相似度最大的第二语音；

若将当前用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值，执行步骤S704～步骤S705；

步骤S704、第一服务器将第二语音对应的用户画像和终端设备的标识发送至第二服务器；

步骤S705、第二服务器根据第二语音对应的用户画像和终端设备的标识向终端设备发送目标视频的信息；

若将当前用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值，执行步骤S706～711。

步骤S706、第一服务器发送图像获取指令至终端设备；

步骤S707、终端设备根据图像获取指令获取当前用户的第一人脸图像；

步骤S708、终端设备将第一人脸图像发送至第一服务器；

步骤S709、第一服务器在第一服务器中存储的人脸图像中确定与当前用户的人脸图像的相似度最大的第二人脸图像；

步骤S710、若将当前用户识别为第二人脸图像对应的用户的第二置信度大于或等于第三阈值，则第一服务器将第二人脸图像对应的用户画像和终端设备的标识发送至第二服务器；

步骤S711、第二服务器根据第二人脸图像对应的用户画像和终端设备的标识向终端设备发送目标视频的信息。

若将当前用户识别为第二语音对应的用户的第一置信度小于或等于第二阈值，执行步骤S712～S716。

步骤S712、第一服务器为终端设备的当前用户分配用户标识，并将当前用户的用户标识和第一语音进行关联存储。

步骤S713、第一服务器发送图像获取指令至终端设备；

步骤S714、终端设备根据图像获取指令获取当前用户的第一人脸图像；

步骤S715、终端设备将第一人脸图像发送至第一服务器；

步骤S716、第一服务器将当前用户的用户标识和第一人脸图像进行关联存储。

具体地，本实施例中步骤S701～步骤S703，参见图2所示的实施中的相关步骤，本实施例中不再赘述。

对于步骤S704～步骤S705、若将当前用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值，第一服务器将第二语音对应的用户画像和终端设备的标识发送至第二服务器；第二服务器根据第二语音对应的用户画像和终端设备的标识向终端设备发送目标视频的信息。

此时，第一服务器中没有存储视频资源，视频资源在与终端设备对应的第二服务器上，比如第二服务器可为xx品牌的智能电视对应的专有服务器。

本实施例中步骤S706～步骤S709，参见图3所示的实施中的相关步骤，本实施例中不再赘述。

对于，步骤S710～步骤S711、若将当前用户识别为第二人脸图像对应的用户的第二置信度大于或等于第三阈值，则第一服务器将第二人脸图像对应的用户画像和终端设备的标识发送至第二服务器；第二服务器根据第二人脸图像对应的用户画像和终端设备的标识向终端设备发送目标视频的信息。

本实施例中步骤S712～步骤S716，参见图4所示的实施中的相关步骤，本实施例中不再赘述。

本实施例的方法，提高了视频推荐的准确度以及能够向终端设备推荐视频的几率，还可实现专有服务器向终端设备的视频推荐。

图8为本发明实施例提供的视频推荐的装置实施例一的结构示意图，如图8所示，本实施例的装置可以包括：接收模块21、确定模块22、发送模块23和存储模块24；

接收模块21，用于接收终端设备发送的视频推荐请求，所述视频推荐请求中包括第一语音，所述第一语音为用户输入的请求视频推荐的语音；

确定模块22，用于在服务器中存储的用户语音中确定与所述第一语音的相似度最大的第二语音；

发送模块23，用于若将所述用户识别为所述第二语音对应的用户的第一置信度大于或等于第一阈值，则根据所述第二语音对应的用户画像，向所述终端设备发送所述目标视频的信息；

若所述第一置信度小于或等于第二阈值，存储模块24，用于为所述终端设备的所述用户分配用户标识，并将所述用户标识和所述第一语音进行关联存储。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

则所述发送模块23，具体用于，根据所述第二语音对应的用户画像和所述终端设备的标识，向所述终端设备发送所述目标视频的信息。

在一种可能的设计中，所述视频推荐请求还包括所述用户的第一人脸图像，若所述第一置信度小于第一阈值且大于第二阈值，所述确定模块22，用于在服务器中存储的人脸图像中确定与所述用户的人脸图像的相似度最大的第二人脸图像；

所述发送模块23，用于若将所述用户识别为所述第二人脸图像对应的用户的第二置信度大于或等于第三阈值，则根据所述第二人脸图像对应的用户画像和所述终端设备的标识向所述终端设备发送目标视频的信息。

在一种可能的设计中，若所述第一置信度小于第一阈值且大于第二阈值，则所述接收模块21用于，接收终端设备发送的所述用户的第一人脸图像；

所述确定模块22，用于在服务器中存储的人脸图像中确定与所述用户的人脸图像的相似度最大的第二人脸图像；

在一种可能的设计中，所述发送模块23，还用于在所述接收终端设备发送的所述用户的人脸图像之前，发送图像获取指令至所述终端设备，所述图像获取指令用于指示所述终端设备获取所述用户的第一人脸图像。

在一种可能的设计中，若所述第一置信度小于或等于第二阈值，所述接收模块21还用于接收终端设备发送的所述用户的第一人脸图像；

所述存储模块24，还用于将所述用户标识和所述第一人脸图像进行关联存储。

在一种可能的设计中，所述发送模块23具体用于：

向所述终端设备发送目标视频的信息。

在一种可能的设计中，所述确定模块22具体用于：

在一种可能的设计中，所述确定模块22还具体用于：

根据所述第一人脸图像的图像特征和神经网络算法，获取所述第一人脸图像的第一特征向量；

根据所述第一特征向量和服务器中存储的每个人脸图像的第二特征向量，在服务器中存储的人脸图像中确定与所述第一人脸图像的相似度最大的第二人脸图像。

图9为本发明实施例提供的视频推荐的装置实施例二的结构示意图，如图9所示，本实施例的装置可以包括：获取模块31、发送模块32和接收模块33；

获取模块31，用于获取用户输入的请求视频推荐的第一语音；

发送模块32，用于发送视频推荐请求至服务器，所述视频推荐请求中包括第一语音；

接收模块33，用于接收服务器发送的目标视频的信息；所述目标视频的信息是所述服务器在确定将所述用户识别为第二语音对应的用户的第一置信度大于或等于第一阈值后，根据第二语音对应的用户画像获取的；或者，所述目标视频的信息是所述服务器在确定将所述用户识别为第二语音对应的用户的第一置信度小于第一阈值且大于第二阈值，并且将所述用户识别为第二人脸图像对应的用户的第二置信度大于或等于第三阈值后，根据第二人脸图像对应的用户画像获取的。

在一种可能的设计中，所述获取模块31具体用于：获取用户输入的请求视频推荐的第一语音和用户的第一人脸图像；

所述发送模块32具体用于，发送视频推荐请求至服务器，所述视频推荐请求中包括第一语音和终端设备的标识和所述第一人脸图像。

在一种可能的设计中，所述接收模块33，还用于接收服务器发送的图像获取指令；

所述获取模块31，还用于根据所述图像获取指令获取所述用户的第一人脸图像；

所述发送模块32，还用于发送所述第一人脸图像至所述服务器。

本申请实施例提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得处理器执行上述方法实施例中服务器对应的方法。

图10为本申请实施例提供的服务器的结构示意图，包括：存储器41、处理器42和通信总线43；通信总线43用于实现各元器件之间的连接。

所述存储器41，用于存储程序指令；

所述处理器42，用于调用所述存储器中存储的所述程序指令以实现上述方法实施例中服务器执行的方法。

本申请实施例提供的服务器，可以执行上述对应的方法实施例，其实现原理和技术效果类似，在此不再赘述。

本申请实施例提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得处理器执行上述方法实施例中终端设备对应的方法。

图11为本申请实施例提供的终端设备的结构示意图，包括：存储器51、处理器52和通信总线53；通信总线53用于实现各元器件之间的连接。

所述存储器51，用于存储程序指令；

所述处理器52，用于调用所述存储器中存储的所述程序指令以实现上述方法实施例中终端设备执行的方法。

本申请实施例提供的终端设备，可以执行上述对应的方法实施例，其实现原理和技术效果类似，在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频推荐的方法，其特征在于，包括：

若将所述用户识别为所述第二语音对应的用户的第一置信度大于或等于第一阈值，则根据所述第二语音对应的用户画像，向所述终端设备发送目标视频的信息。

2.根据权利要求1所述的方法，其特征在于，所述视频推荐请求还包括所述终端设备的标识；

则根据所述第二语音对应的用户画像，向所述终端设备发送目标视频的信息，包括：

根据所述第二语音对应的用户画像和所述终端设备的标识，向所述终端设备发送目标视频的信息。

3.根据权利要求2所述的方法，其特征在于，所述视频推荐请求还包括所述用户的第一人脸图像，若所述第一置信度小于第一阈值且大于第二阈值，则所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，若所述第一置信度小于第一阈值且大于第二阈值，则所述方法还包括：

接收终端设备发送的所述用户的第一人脸图像；

5.根据权利要求4所述的方法，其特征在于，在所述接收终端设备发送的所述用户的第一人脸图像之前，还包括：

6.根据权利要求1或2所述的方法，其特征在于，若所述第一置信度小于或等于第二阈值，则所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

接收终端设备发送的所述用户的第一人脸图像；

将所述用户标识和所述第一人脸图像进行关联存储。

8.根据权利要求2所述的方法，其特征在于，所述根据所述第二语音对应的用户画像和所述终端设备的标识向所述终端设备发送目标视频的信息，包括：

向所述终端设备发送目标视频的信息。

9.根据权利要求1或2所述的方法，其特征在于，所述在服务器中存储的用户语音中确定与所述第一语音的相似度最大的第二语音，包括：

10.根据权利要求3或4所述的方法，其特征在于，所述在服务器中存储的人脸图像中确定与所述用户的人脸图像的相似度最大的第二人脸图像，包括：

11.一种视频推荐的方法，其特征在于，包括：

获取用户输入的请求视频推荐的第一语音；

12.根据权利要求11所述的方法，其特征在于，所述视频推荐请求还包括所述终端设备的标识；

13.根据权利要求12所述的方法，其特征在于，获取用户输入的请求视频推荐的第一语音，包括：

14.根据权利要求11或12所述的方法，其特征在于，所述方法还包括：

接收服务器发送的图像获取指令；

根据所述图像获取指令获取所述用户的第一人脸图像；

发送所述第一人脸图像至所述服务器。

15.一种视频推荐的装置，其特征在于，包括：

16.一种视频推荐的装置，其特征在于，包括：

获取模块，用于获取用户输入的请求视频推荐的第一语音；

17.一种计算机存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得处理器执行权利要求1～10任一项所述的方法。

18.一种服务器，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用所述存储器中存储的所述程序指令以实现如权利要求1～10任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得处理器执行权利要求11～14所述的方法。

20.一种终端设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用所述存储器中存储的所述程序指令以实现如权利要求11～14任一项所述的方法。