CN113992991A

CN113992991A - 一种基于声纹识别的视频推荐系统及方法

Info

Publication number: CN113992991A
Application number: CN202111257882.6A
Authority: CN
Inventors: 余丽娇
Original assignee: Sichuan Cric Technology Co ltd
Current assignee: Sichuan Cric Technology Co ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-28

Abstract

本发明提供了一种基于声纹识别的视频推荐系统及方法，包括：包括以下步骤：建立语音情感库，并将情感状态存储与服务器中；获取用户的语音信息，与用户账号进行匹配，获取当前用户的情感状态，与语音情感库进行匹配；如果匹配成功，根据该情感状态下观看的历史记录进行推荐相关视频，否则，对匹配失败的用户，根据语音情感库推荐相同情感下用户的观影记录进行推荐；播放视频，并将此次情感状态与播放记录存于该用户账号下。该专利利用声纹识别技术，识别当前用户并分析当前用户的情感特征，根据用户的情感特征进行推荐视频，使推荐更贴近用户心理，提升用户体验感。

Description

一种基于声纹识别的视频推荐系统及方法

技术领域

本发明涉及智能电视推荐视频技术领域，具体涉及一种基于声纹识别的视频推荐系统及方法。

背景技术

电视是一对多的视频播放装置，如何在在智能电视上针对当前观看用户进行个性化推荐，在这方面，目前行业比较普遍的做法是获取整台电视的历史数据与用户行为数据，在此基础上推测用户的观影喜好。但是由于电视播放装置的特殊性，所获取的数据是针对整台电视的，对用户的推荐也是基于整台电视数据进行的，但由于观看用户会有变化，在此情况下容易造成推荐效率不高。

发明内容

本发明的目的在于提供一种基于声纹识别的视频推荐系统及方法。以期解决背景技术中存在的技术问题。

为了实现上述目的，本发明采用以下技术方案：

一种基于声纹识别的视频推荐方法，包括以下步骤：

建立语音情感库，并将情感状态存储与服务器中；

获取用户的语音信息，与用户账号进行匹配，获取当前用户的情感状态，与语音情感库进行匹配；

如果匹配成功，根据该情感状态下观看的历史记录进行推荐相关视频，否则，对匹配失败的用户，根据语音情感库推荐相同情感下用户的观影记录进行推荐；

播放视频，并将此次情感状态与播放记录存于该用户账号下。

在一些实施例中，所述建立语音情感库，包括：让相等数量的男女，对事先准备好的文本进行赋予情感特征的发音；对相同文本的发音对比分析不同情感状态下的声学及韵律表现。

在一些实施例中，所述建立语音情感库，包括：对收集到的语音数据，取一部分作为训练集，另一部分作为测试集，得到情感倾向，生气、悲伤、高兴、害怕、中性；根据这五个情绪建立坐标向量，在此基础上，根据用户在实际中的情绪状态不断采集到的语音数据进行扩展性分析。

本发明还提供了一种基于声纹识别的视频推荐系统，应用于上述的基于声纹识别的视频推荐方法，包括：

存储模块：建立语音情感库，并将情感状态存储与服务器中；

匹配模块：获取用户的语音信息，与用户账号进行匹配，获取当前用户的情感状态，与语音情感库进行匹配；

推荐模块：如果匹配成功，根据该情感状态下观看的历史记录进行推荐相关视频，否则，对匹配失败的用户，根据语音情感库推荐相同情感下用户的观影记录进行推荐；

输出模块：播放视频，并将此次情感状态与播放记录存于该用户账号下。

有益效果

用户在进行语音对话时，采集用户的语音信息，并进行匹配，得到用户账号，同时获得用户当前的情感状态，向用户推荐符合用户当前情绪的是视频，提升用户的观看体验。

本发明利用声纹识别技术，识别当前用户并分析当前用户的情感特征，根据用户的情感特征进行推荐视频，使推荐更贴近用户心理，提升用户体验感。

附图说明

图1为本申请专利中一种基于声纹识别的视频推荐方法的流程示意图；

图2为本申请专利中一种基于声纹识别的视频推荐系统的模块示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

相反，本申请涵盖任何由权利要求定义的在本申请的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本申请有更好的了解，在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。

以下将结合图1-2对本申请实施例所涉及的基于声纹识别的视频推荐系统及方法进行详细说明。值得注意的是，以下实施例仅仅用于解释本申请，并不构成对本申请的限定。

如图1所示，一种基于声纹识别的视频推荐方法，包括以下步骤：

S1:建立语音情感库，并将情感状态存储与服务器中；

S2:获取用户的语音信息，与用户账号进行匹配，获取当前用户的情感状态，与语音情感库进行匹配；

S3:如果匹配成功，根据该情感状态下观看的历史记录进行推荐相关视频，否则，对匹配失败的用户，根据语音情感库推荐相同情感下用户的观影记录进行推荐；

S4:播放视频，并将此次情感状态与播放记录存于该用户账号下。

语音情感库是研究语音情感识别的重要基础，按照情感描述类型可将语音情感库分为离散情感数据库和维度情感数据库，前者以离散的语言标签(如高兴，悲伤等)作为情感标注，后者以连续的实数坐标值表示情感。

针对本专利，主要采用离散语音情感数据库，目前各国都在这方面建立了针对本国语言的情感数据库，如Belfast英语情感数据库，柏林Emo-DB情感数据库，FAU AIBO儿童德语情感数据库等。在我国有CASIA汉语情感语料库以及ACCorpus系列汉语情感数据库。大多都是采用前期基础数据的采集，后期随着数据的增加不断进行机器的深度学习。

对于语音情感库的建立，让相等数量的男女，对事先准备好的文本进行赋予情感特征的发音。由于智能电视语音使用场景比较生活化，对文本要求贴近生活，符合真实使用场景。对相同文本的发音对比分析不同情感状态下的声学及韵律表现。另对带有情绪的文本便于录音人更准确表现出感情。对收集到的语音数据，取一部分作为训练集，另一部分作为测试集，得到情感倾向，如生气、悲伤、高兴、害怕、中性。根据这五个情绪建立坐标向量，在此基础上，根据用户在实际中的情绪状态不断采集到的语音数据进行扩展性分析。

在实际使用场景中，当用户开启语音对话时，则进行语音数据的采集与分析。用户首次使用语音时，创建账户，根据用户的语音识别用户当前的状态，为用户推荐语音情感库中该情绪下用户的观影爱好，并将用户此次的该状态下的观影记录，返回到语音情感库中，利用大量样本与数据机器学习用户的情感状态与该状态下的观影爱好。

当用户再次进行语音对话时，匹配用户的账号，并分析用户当前情感状态，匹配用户账号中的情感状态，如果匹配成功，那么调用历史该状态下的观影记录进行推荐相关状态，并存储此次状态与观影记录到该用户的账号下。如果语音匹配失败，那么根据当前语音匹配失败，则创建一个新账户，并对当前用户的情感状态进行分析，根据语音情感库中对应的状态与观影兴趣进行推荐。

针对单用户，首先进行账户匹配，再根据语音情感库匹配用户当前的情感状态，查询用户当前的情感状态在账户中是否存在过，如果有，则调用当前状态下的历史观影记录进行推荐相关视频，如果没有，则调用语音情感库中该状态下所有用户的观影喜好进行推荐相关视频，以视频标签为基础进行推荐。

对于多用户，在匹配账户后，由于每个用户的情感状态可能呈现不一，此时只获取匹配到的账户中的观影记录，根据多账户中观影兴趣的交集进行推荐视频，主要是根据视频标签进行。

如图2所示，本发明还提供了一种基于声纹识别的视频推荐系统，应用于上述的基于声纹识别的视频推荐方法，包括：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声纹识别的视频推荐方法，其特征在于，包括以下步骤：

建立语音情感库，并将情感状态存储与服务器中；

2.根据权利要求1所述的一种基于声纹识别的视频推荐方法，其特征在于，

所述建立语音情感库，包括：让相等数量的男女，对事先准备好的文本进行赋予情感特征的发音；对相同文本的发音对比分析不同情感状态下的声学及韵律表现。

3.根据权利要求2所述的一种基于声纹识别的视频推荐方法，其特征在于，所述建立语音情感库，包括：对收集到的语音数据，取一部分作为训练集，另一部分作为测试集，得到情感倾向，生气、悲伤、高兴、害怕、中性；根据这五个情绪建立坐标向量，在此基础上，根据用户在实际中的情绪状态不断采集到的语音数据进行扩展性分析。

4.一种基于声纹识别的视频推荐系统，其特征在于，应用于权1-3所述的基于声纹识别的视频推荐方法，包括：