CN105049882A

CN105049882A - 一种视频推荐方法及装置

Info

Publication number: CN105049882A
Application number: CN201510543037.3A
Authority: CN
Inventors: 朱柏涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-08-28
Filing date: 2015-08-28
Publication date: 2015-11-11
Anticipated expiration: 2035-08-28
Also published as: CN105049882B

Abstract

本发明实施例公开了一种视频推荐方法及装置，应用于视频推荐系统的服务器端，所述视频推荐系统还包括TV端，该方法包括：接收由TV端发送的、第一用户的语音信号及该TV端的标识信息；根据所述第一用户的语音信号建立第一用户的声纹模型；将第一用户的声纹模型与预先存储的、所述TV端的标识信息对应的所有标准声纹模型进行匹配，确定与第一用户的声纹模型匹配的第一标准声纹模型；向第一用户推荐与所述第一标准声纹模型对应的待推荐视频；所述待推荐视频根据所述第一标准声纹模型对应的视频播放记录确定；所述视频播放记录根据TV端定时发送的当前视频播放信息获得。与相有技术相比，视频推荐的准确度较高。

Description

一种视频推荐方法及装置

技术领域

本发明涉及互联网领域，特别涉及一种视频推荐方法及装置。

背景技术

视频网站向用户推荐视频，一般先收集用户的视频播放记录，然后根据用户的视频播放记录来确定用户感兴趣的视频，并推荐给用户。

当视频网站以电视为终端进行视频推荐时，由于电视终端的共用性特点，视频网站收集的是家庭多个成员的视频播放记录，在推荐视频时，也无法判断当前观看电视的用户，只能将整个家庭作为一个整体用户进行视频推荐。

但是，一个家庭中年龄和性别的差异会造成成员间对于视频的偏好不同，比如小孩喜欢动画片，妻子喜欢综艺，丈夫喜欢战争片等，因此，将整个家庭作为一个整体用户进行视频推荐，很可能会给当前观看电视的用户推荐其不喜欢的视频，视频推荐的准确度不高。

发明内容

本发明实施例公开了一种视频推荐方法及装置，用于解决当视频网站以电视为终端进行视频推荐时视频推荐的准确度不高的问题。技术方案如下：

一种视频推荐方法，应用于视频推荐系统的服务器端，所述视频推荐系统还包括TV端，该方法包括：

接收由TV端发送的、第一用户的语音信号及该TV端的标识信息；

根据所述第一用户的语音信号建立第一用户的声纹模型；

将第一用户的声纹模型与预先存储的、所述TV端的标识信息对应的所有标准声纹模型进行匹配，确定与第一用户的声纹模型匹配的第一标准声纹模型；

向第一用户推荐与所述第一标准声纹模型对应的待推荐视频；所述待推荐视频根据所述第一标准声纹模型对应的视频播放记录确定；所述视频播放记录根据TV端定时发送的当前视频播放信息获得。

其中，所述方法还包括：所述在确定与第一用户的声纹模型匹配的第一标准声纹模型之后，将所述第一标准声纹模型记录为当前TV端对应的声纹模型；

所述视频播放记录在将所述第一标准声纹模型记录为当前TV端对应的声纹模型后，根据TV端定时发送的当前视频播放信息获得。

其中，所述待推荐视频的确定方法，包括：

根据所述第一标准声纹模型对应的视频播放记录，确定第一标准声纹模型所对应的目标视频信息特征向量；

确定所述视频播放记录所对应的视频之外的其它视频的视频信息特征向量；

计算目标视频信息特征向量与其它视频的视频信息特征向量的相似度；

根据相似度的大小，从其所述它视频中选择预设数量的视频作为待推荐视频。

其中，根据所述第一用户的语音信号建立第一用户的声纹模型，包括：

根据所接收的第一用户的语音信号，确定该语音信号对应的声纹特征；

将所确定的声纹特征进行矢量量化处理，得到该声纹特征对应的第一用户的矢量量化码书，将所述第一用户的矢量量化码书作为第一用户的声纹模型；

所述所有标准声纹模型为预先存储的、所述TV端的标识信息对应的所有用户的标准矢量量化码书；

所述将第一用户的声纹模型与预先存储的、所述TV端的标识信息对应的所有标准声纹模型进行匹配，确定与该用户的声纹模型匹配的第一标准声纹模型，包括：

计算第一用户的矢量量化码书与所述所有用户的标准矢量量化码书的欧式距离；

确定所得到的欧式距离的最小值；

判断所述最小值是否满足预设的阈值；

在满足的情况下，将所述最小值对应的标准矢量量化码书作为与第一用户的声纹模型匹配的第一标准声纹模型。

其中，上述方法还包括：在所述确定与第一用户的声纹模型匹配的第一标准声纹模型之后，将所述第一标准声纹模型替换为所述第一用户的声纹模型。

相应于上面的方法实施例，本发明还提供了一种视频推荐装置，应用于视频推荐系统的服务器端，所述视频推荐系统还包括TV端，该装置包括：

语音信号接收模块，用于接收由TV端发送的、第一用户的语音信号及该TV端的标识信息；

声纹模型建立模块，用于根据所述第一用户的语音信号建立第一用户的声纹模型；

声纹模型匹配模块，用于将第一用户的声纹模型与预先存储的、所述TV端的标识信息对应的所有标准声纹模型进行匹配，确定与第一用户的声纹模型匹配的第一标准声纹模型；

视频推荐模块，用于向第一用户推荐与所述第一标准声纹模型对应的待推荐视频；所述待推荐视频根据所述第一标准声纹模型对应的视频播放记录确定；所述视频播放记录根据TV端定时发送的当前视频播放信息获得。

其中，所述装置还包括：声纹模型记录模块，用于在所述声纹模型匹配模块确定与第一用户的声纹模型匹配的第一标准声纹模型之后，将所述第一标准声纹模型记录为当前TV端对应的声纹模型；

所述视频播放记录在所述声纹模型记录模块将所述第一标准声纹模型记录为当前TV端对应的声纹模型后，根据TV端定时发送的当前视频播放信息获得。

其中，所述装置还包括：待推荐视频确定模块，包括：

第一特征向量确定子模块，用于根据所述第一标准声纹模型对应的视频播放记录，确定第一标准声纹模型所对应的目标视频信息特征向量；

第二特征向量确定子模块，用于确定所述视频播放记录所对应的视频之外的其它视频的视频信息特征向量；

相似度计算子模块，用于计算目标视频信息特征向量与其它视频的视频信息特征向量的相似度；

待推荐视频选择子模块，用于根据相似度的大小，从其所述它视频中选择预设数量的视频作为待推荐视频。

其中，声纹模型建立模块包括：

声纹特征确定子模块，用于根据所接收的第一用户的语音信号，确定该语音信号对应的声纹特征；

矢量量化码书确定子模块，用于将所确定的声纹特征进行矢量量化处理，得到该声纹特征对应的第一用户的矢量量化码书，将所述第一用户的矢量量化码书作为第一用户的声纹模型；

所述声纹模型匹配模块，包括：

欧式距离计算子模块，用于计算第一用户的矢量量化码书与所述所有用户的标准矢量量化码书的欧式距离；

最小欧式距离确定子模块，用于确定所得到的欧式距离的最小值；

判断子模块，用于判断所述最小值是否满足预设的阈值；

匹配子模块，用于在满足的情况下，将所述最小值对应的标准矢量量化码书作为与第一用户的声纹模型匹配的第一标准声纹模型。

其中，上述各装置还包括：声纹模型替换模块，用于在所述确定与第一用户的声纹模型匹配的第一标准声纹模型之后，将所述第一标准声纹模型替换为所述第一用户的声纹模型。

由上述技术方案可见，本发明能过在服务器侧预先建立TV端对应的标准声纹模型，在接收到该TV端的第一用户的语音信号后，建立第一用户的声纹模型，并将第一用户的声纹模型与预先存储的、所述TV端的标识信息对应的所有标准声纹模型进行匹配，确定与第一用户的声纹模型匹配的第一标准声纹模型，并向第一用户推荐与所述第一标准声纹模型对应的待推荐视频；所述待推荐视频根据所述第一标准声纹模型对应的视频播放记录确定。这样，一方面确定第一用户的待推荐视频时，可以根据第一用户的视频播放记录确定，另一方面向第一用户推荐时，也可以准确识别出第一用户，因此，视频推荐的准确度较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频推荐方法的流程图；

图2为本发明实施例提供的一种视频推荐装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例首先提供了一种视频推荐方法，应用于视频推荐系统的服务器端，所述视频推荐系统还包括TV端，且服务器端与TV端已建立通信连接；所说的TV端具体可以为智能电视等，TV端的具体形式本发明在此不进行限定；如图1所示，该方法可以包括：

S101，接收由TV端发送的、第一用户的语音信号及该TV端的标识信息；

当第一用户通过语音控制TV端时，TV端可以采集用户的语音信号，并将所采集的第一用户的语音信号及该TV端的标识信息向服务器端发送；并由服务器端接收由TV端发送的、第一用户的语音信号及该TV端的标识信息。

本步骤的具体实施方案可以采用现有技术的相关技术方案来实现，本发明在此不作具体限定。

S102，根据所述第一用户的语音信号建立第一用户的声纹模型；

首先需要说明的是，所说的第一用户的声纹模型的建立方法可以采用现有技术的相关技术方案来实现，本发明在此不作具体限定。

在实际应用中，第一用户的声纹模型的建立方法可以包括；

1.根据所接收的第一用户的语音信号，确定该语音信号对应的声纹特征；

首先，服务器在接收到第一用户的语音信号后，需要对该语音信号进行分帧处理，即把第一用户的语音信号分成一个个短时段，每个短时段称为一帧，每一帧语音信号都具有短时平稳性；帧长的实际取值是由研发人员根据实际需要来确定的，本发明在此不作具体限定，一般可以取10ms-30ms。

在进行分帧处理后，要对语音信号的每一帧进行语音端点检测，可以通过对语音的短时能量和短时过零率的计算和判断，来检测出语音信号的说话人语音部分和背景噪音部分，并将背景噪音帧进行删除。

在经过上述的两步处理后，就可以进一步确定第一用户的声纹特征，在实际应用中，可以采用现有技术中的美尔普倒谱系数来表征声纹特征。

2.将所确定的声纹特征进行矢量量化处理，得到该声纹特征对应的第一用户的矢量量化码书，将第一用户的矢量量化码书作为第一用户的声纹模型。

声纹特征的矢量量化方法为现有技术，本发明在此不作详细描述，研发人员完全可以根据本发明在此的描述，采用矢量量化方法对第一用户的声纹特征进行矢量量化处理，最终得到第一用户的矢量量化码书，将所述第一用户的矢量量化码书作为第一用户的声纹模型。

S103，将第一用户的声纹模型与预先存储的、所述TV端的标识信息对应的所有标准声纹模型进行匹配，确定与第一用户的声纹模型匹配的第一标准声纹模型；

需要说明的是，标准声纹模型的建立方法与步骤S102中第一用户的声纹模型的建立方法相同。

在本步骤中，声纹模型的匹配过程需要根据声纹模型的具体形式来确定。

例如，在第一用户的矢量量化码书作为第一用户的声纹模型的情况下，所有标准声纹模型为预先存储的、所述TV端的标识信息对应的所有用户的标准矢量量化码书；

此时，所述将第一用户的声纹模型与预先存储的、所述TV端的标识信息对应的所有标准声纹模型进行匹配，确定与该用户的声纹模型匹配的第一标准声纹模型，可以包括：

确定所得到的欧式距离的最小值；

判断所述最小值是否满足预设的阈值；

在满足的情况下，将所述最小值对应的标准矢量量化码书作为与第一用户的声纹模型匹配的第一标准声纹模型；

需要说明的是，预设的阈值可以由研发人员来确定，本发明在此不作具体限定。

一般情况下，一个TV端会对应多个用户，也就是说会有多个用户在不同的时间段内控制使用该TV端。对于服务器端来说，有几个用户通过语音控制使用过该TV端，服务器端就会建立并存储相同数量的、与该TV端的标识信息对应的标准声纹模型；

实际应用中，标准声纹模型的建立及存储过程可以包括：

接收由TV端发送的、第二用户的语音信号及该TV端的标识信息；

根据所述第二用户的语音信号建立第二用户的声纹模型；

如果服务器端未存储任何与该TV端的标识信息对应的标准声纹模型，则服务器端直接将第二用户的声纹模型作为一个标准声纹模型，并进行存储。

如果服务器端已存储有至少一个与该TV端的标识信息对应的准声纹模型，

则服务器端将第二用户的声纹模型与预先存储的、该TV端的标识信息对应的所有标准声纹模型进行匹配，如果匹配失败，则将第二用户的声纹模型作为一个标准声纹模型，并进行存储。

S104，向第一用户推荐与所述第一标准声纹模型对应的待推荐视频；所述待推荐视频根据所述第一标准声纹模型对应的视频播放记录确定；所述视频播放记录根据TV端定时发送的当前视频播放信息获得；

在实际应用中，在步骤S103确定了与第一用户的声纹模型匹配的第一标准声纹模型之后，可以将所述第一标准声纹模型记录为当前TV端对应的声纹模型。

也就是说，在确定了第一标准声纹模型为当前TV端对应的声纹模型后，TV端会定时的向服务器端发送当前视频播放信息，服务器端接收到该视频播放信息后，就可以将该视频播放信息所对应的视频播放记录确定为与第一标准声纹模型对应的视频播放记录。

这里所说的“定时发送的当前视频播放信息”可以理解为：TV端开始播放某一视频后，在预设的播放时间发送当前视频播放信息。例如，“定时发送的当前视频播放信息”具体可以为：在TV端开始播放某一视频后，在播放到30分钟时，发送该视频播放信息。如果没播放到30分钟就停止播放该视频，或将该视频换成其它视频，则不发送该视频播放信息。

需要说明的是，现有技术中，根据用户的视频播放记录来确定待推荐视频的方法有很多，一般是根据用户的视频播放记录来推测用户的兴趣、喜好，例如，用户感兴趣的视频的类型，用户感兴趣的演员等；然后再根据用户的兴趣、喜好从其它视频中筛选出一些视频向用户推荐。

本发明实施例在此所用的待推荐视频的确定方法可以采用现有技术的相关技术方案来实现，本发明在此不作具体限定。

例如，在实际应用中，待推荐视频的确定方法，可以包括：

1、根据所述第一标准声纹模型对应的视频播放记录，确定第一标准声纹模型所对应的目标视频信息特征向量；

所说的视频信息特征向量可以理解为由视频特征元素所给成的多维向量。所说的视频特征元素可以包括但不限于：视频类型、主演、导演、集数，这些视频特征元素是由研发人员所确定的，本发明在此不作具体限定。在实际应用中，每一个视频特征元素可以对应一定的分值。这样，根据第一标准声纹模型对应的视频播放记录，就可以采用数学统计的方法确定出目标视频信息特征向量中每一个视频特征元素的分值；具体实现方案可以由研发人员确定，本发明在此不作用具体限定。

下面仅以视频类型这一视频特征元素为例，说明目标视频信息特征向量中各视频特征元素的分值确定方法。假设第一标准声纹模型对应5个视频播放记录，其中有4个是战争片，一个是喜剧片，并且预先确定战争片的分值为4，喜剧片的分值为3，那么目标视频信息特征向量中的视频类型所对应的分值可以为(4×4+3)/5＝3.8。

2、确定所述视频播放记录所对应的视频之外的其它视频的视频信息特征向量；需要说明的是，目标视频信息特征向量的维度与其它视频的视频信息特征向量的维度应当相同，且视频信息特征向量中的视频特征元素的种类、顺序应当一致。

例如，目标视频信息特征向量为{视频类型、主演、导演}；

其它视频的视频信息特征向量也应当为{视频类型、主演、导演}。

所说的其它视频可以包括服务器端所存储的、第一标准声纹模型对应的视频播放记录所对应的视频之外的其它的所有视频；也可以为根据预设规则所确定的某一范围内的、第一标准声纹模型对应的视频播放记录所对应的视频之外的视频。所说的预设规则可以由研发人员来确定，本发明在此不作具体限定。

3、计算目标视频信息特征向量与其它视频的视频信息特征向量的相似度；

在实际应用中，可以采用多维向量相似度计算公式来进行计算，例如可以采用欧式距离计算公式，或余弦相似度计算公式等，发明在此不作限定。

4、根据相似度的大小，从其所述它视频中选择预设数量的视频作为待推荐视频。

在确定了相似度后，在所述其它视频中，从相似度最大的视频开始，选择预设数量的视频向第一用户推荐。所说的预设数量为预先确定的待推荐视频的数量，可以由研发人员确定。

由上述技术方案可见，本发明实施例能过在服务器侧预先建立TV端对应的标准声纹模型，在接收到该TV端的第一用户的语音信号后，建立第一用户的声纹模型，并将第一用户的声纹模型与预先存储的、所述TV端的标识信息对应的所有标准声纹模型进行匹配，确定与第一用户的声纹模型匹配的第一标准声纹模型，并向第一用户推荐与所述第一标准声纹模型对应的待推荐视频；所述待推荐视频根据所述第一标准声纹模型对应的视频播放记录确定。这样，一方面，确定第一用户的待推荐视频时，可以根据第一用户的视频播放记录确定，另一方面，向第一用户推荐时，也可以准确识别出第一用户，因此，视频推荐的准确度较高。

由于用户的声音随着时间的变化会发生微小变化，这种微小变化积累到一定程度后，可能就会与之前的标准声纹模型匹配不上，为解决这一问题，在实际应用中，可以在S103确定与第一用户的声纹模型匹配的第一标准声纹模型之后，将所述第一标准声纹模型替换为所述第一用户的声纹模型。这样就可以有效的防止由于用户的声音改变所导致的匹配错误。

需要说明的是，上述各方法的具体实施方式，即可单独实施也可以部分或全部组合在一起实施，具体的实施方式由本领域技术人员来确定，本发明在此不作限定。

相应于上面的方法实施例，本发明还提供了一种视频推荐装置，应用于视频推荐系统的服务器端，所述视频推荐系统还包括TV端，如图2所示，该装置可以包括：

语音信号接收模块101，用于接收由TV端发送的、第一用户的语音信号及该TV端的标识信息；

声纹模型建立模块102，用于根据所述第一用户的语音信号建立第一用户的声纹模型；

声纹模型匹配模块103，用于将第一用户的声纹模型与预先存储的、所述TV端的标识信息对应的所有标准声纹模型进行匹配，确定与第一用户的声纹模型匹配的第一标准声纹模型；

视频推荐模块104，用于向第一用户推荐与所述第一标准声纹模型对应的待推荐视频；所述待推荐视频根据所述第一标准声纹模型对应的视频播放记录确定；所述视频播放记录根据TV端定时发送的当前视频播放信息获得。

在实际应用中，上述装置还可以包括：声纹模型记录模块，用于在所述声纹模型匹配模块103确定与第一用户的声纹模型匹配的第一标准声纹模型之后，将所述第一标准声纹模型记录为当前TV端对应的声纹模型；

在实际应用中，上述装置还可以包括：待推荐视频确定模块，包括：

在实际应用中，上述装置中的声纹模型建立模块102可以包括：

所述声纹模型匹配模块103，包括：

判断子模块，用于判断所述最小值是否满足预设的阈值；

在实际应用中，上述装置还可以包括：声纹模型替换模块，用于在所述确定与第一用户的声纹模型匹配的第一标准声纹模型之后，将所述第一标准声纹模型替换为所述第一用户的声纹模型。

需要说明的是，上述各装置的具体实施方式，即可单独实施也可以部分或全部组合在一起实施，具体的实施方式由本领域技术人员来确定，本发明在此不作限定。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频推荐方法，应用于视频推荐系统的服务器端，所述视频推荐系统还包括TV端，其特征在于，该方法包括：

根据所述第一用户的语音信号建立第一用户的声纹模型；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：所述在确定与第一用户的声纹模型匹配的第一标准声纹模型之后，将所述第一标准声纹模型记录为当前TV端对应的声纹模型；

3.如权利要求1所述的方法，其特征在于，所述待推荐视频的确定方法，包括：

4.如权利要求1所述的方法，其特征在于，根据所述第一用户的语音信号建立第一用户的声纹模型，包括：

确定所得到的欧式距离的最小值；

判断所述最小值是否满足预设的阈值；

5.如权利要求1所述的方法，其特征在于，还包括：在所述确定与第一用户的声纹模型匹配的第一标准声纹模型之后，将所述第一标准声纹模型替换为所述第一用户的声纹模型。

6.一种视频推荐装置，应用于视频推荐系统的服务器端，所述视频推荐系统还包括TV端，其特征在于，该装置包括：

7.如权利要求6所述的装置，其特征在于，所述装置还包括：声纹模型记录模块，用于在所述声纹模型匹配模块确定与第一用户的声纹模型匹配的第一标准声纹模型之后，将所述第一标准声纹模型记录为当前TV端对应的声纹模型；

8.如权利要求6所述的装置，其特征在于，所述装置还包括：待推荐视频确定模块，包括：

9.如权利要求6所述的装置，其特征在于，声纹模型建立模块包括：

所述声纹模型匹配模块，包括：

判断子模块，用于判断所述最小值是否满足预设的阈值；

10.如权利要求6所述的装置，其特征在于，还包括：声纹模型替换模块，用于在所述确定与第一用户的声纹模型匹配的第一标准声纹模型之后，将所述第一标准声纹模型替换为所述第一用户的声纹模型。