CN113992991A - 一种基于声纹识别的视频推荐系统及方法 - Google Patents
一种基于声纹识别的视频推荐系统及方法 Download PDFInfo
- Publication number
- CN113992991A CN113992991A CN202111257882.6A CN202111257882A CN113992991A CN 113992991 A CN113992991 A CN 113992991A CN 202111257882 A CN202111257882 A CN 202111257882A CN 113992991 A CN113992991 A CN 113992991A
- Authority
- CN
- China
- Prior art keywords
- emotion
- user
- voice
- matching
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000008451 emotion Effects 0.000 claims abstract description 94
- 230000002996 emotional effect Effects 0.000 claims abstract description 26
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4667—Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供了一种基于声纹识别的视频推荐系统及方法,包括:包括以下步骤:建立语音情感库,并将情感状态存储与服务器中;获取用户的语音信息,与用户账号进行匹配,获取当前用户的情感状态,与语音情感库进行匹配;如果匹配成功,根据该情感状态下观看的历史记录进行推荐相关视频,否则,对匹配失败的用户,根据语音情感库推荐相同情感下用户的观影记录进行推荐;播放视频,并将此次情感状态与播放记录存于该用户账号下。该专利利用声纹识别技术,识别当前用户并分析当前用户的情感特征,根据用户的情感特征进行推荐视频,使推荐更贴近用户心理,提升用户体验感。
Description
技术领域
本发明涉及智能电视推荐视频技术领域,具体涉及一种基于声纹识别的视频推荐系统及方法。
背景技术
电视是一对多的视频播放装置,如何在在智能电视上针对当前观看用户进行个性化推荐,在这方面,目前行业比较普遍的做法是获取整台电视的历史数据与用户行为数据,在此基础上推测用户的观影喜好。但是由于电视播放装置的特殊性,所获取的数据是针对整台电视的,对用户的推荐也是基于整台电视数据进行的,但由于观看用户会有变化,在此情况下容易造成推荐效率不高。
发明内容
本发明的目的在于提供一种基于声纹识别的视频推荐系统及方法。以期解决背景技术中存在的技术问题。
为了实现上述目的,本发明采用以下技术方案:
一种基于声纹识别的视频推荐方法,包括以下步骤:
建立语音情感库,并将情感状态存储与服务器中;
获取用户的语音信息,与用户账号进行匹配,获取当前用户的情感状态,与语音情感库进行匹配;
如果匹配成功,根据该情感状态下观看的历史记录进行推荐相关视频,否则,对匹配失败的用户,根据语音情感库推荐相同情感下用户的观影记录进行推荐;
播放视频,并将此次情感状态与播放记录存于该用户账号下。
在一些实施例中,所述建立语音情感库,包括:让相等数量的男女,对事先准备好的文本进行赋予情感特征的发音;对相同文本的发音对比分析不同情感状态下的声学及韵律表现。
在一些实施例中,所述建立语音情感库,包括:对收集到的语音数据,取一部分作为训练集,另一部分作为测试集,得到情感倾向,生气、悲伤、高兴、害怕、中性;根据这五个情绪建立坐标向量,在此基础上,根据用户在实际中的情绪状态不断采集到的语音数据进行扩展性分析。
本发明还提供了一种基于声纹识别的视频推荐系统,应用于上述的基于声纹识别的视频推荐方法,包括:
存储模块:建立语音情感库,并将情感状态存储与服务器中;
匹配模块:获取用户的语音信息,与用户账号进行匹配,获取当前用户的情感状态,与语音情感库进行匹配;
推荐模块:如果匹配成功,根据该情感状态下观看的历史记录进行推荐相关视频,否则,对匹配失败的用户,根据语音情感库推荐相同情感下用户的观影记录进行推荐;
输出模块:播放视频,并将此次情感状态与播放记录存于该用户账号下。
有益效果
用户在进行语音对话时,采集用户的语音信息,并进行匹配,得到用户账号,同时获得用户当前的情感状态,向用户推荐符合用户当前情绪的是视频,提升用户的观看体验。
本发明利用声纹识别技术,识别当前用户并分析当前用户的情感特征,根据用户的情感特征进行推荐视频,使推荐更贴近用户心理,提升用户体验感。
附图说明
图1为本申请专利中一种基于声纹识别的视频推荐方法的流程示意图;
图2为本申请专利中一种基于声纹识别的视频推荐系统的模块示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
相反,本申请涵盖任何由权利要求定义的在本申请的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本申请有更好的了解,在下文对本申请的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。
以下将结合图1-2对本申请实施例所涉及的基于声纹识别的视频推荐系统及方法进行详细说明。值得注意的是,以下实施例仅仅用于解释本申请,并不构成对本申请的限定。
如图1所示,一种基于声纹识别的视频推荐方法,包括以下步骤:
S1:建立语音情感库,并将情感状态存储与服务器中;
S2:获取用户的语音信息,与用户账号进行匹配,获取当前用户的情感状态,与语音情感库进行匹配;
S3:如果匹配成功,根据该情感状态下观看的历史记录进行推荐相关视频,否则,对匹配失败的用户,根据语音情感库推荐相同情感下用户的观影记录进行推荐;
S4:播放视频,并将此次情感状态与播放记录存于该用户账号下。
语音情感库是研究语音情感识别的重要基础,按照情感描述类型可将语音情感库分为离散情感数据库和维度情感数据库,前者以离散的语言标签(如高兴,悲伤等)作为情感标注,后者以连续的实数坐标值表示情感。
针对本专利,主要采用离散语音情感数据库,目前各国都在这方面建立了针对本国语言的情感数据库,如Belfast英语情感数据库,柏林Emo-DB情感数据库,FAU AIBO儿童德语情感数据库等。在我国有CASIA汉语情感语料库以及ACCorpus系列汉语情感数据库。大多都是采用前期基础数据的采集,后期随着数据的增加不断进行机器的深度学习。
对于语音情感库的建立,让相等数量的男女,对事先准备好的文本进行赋予情感特征的发音。由于智能电视语音使用场景比较生活化,对文本要求贴近生活,符合真实使用场景。对相同文本的发音对比分析不同情感状态下的声学及韵律表现。另对带有情绪的文本便于录音人更准确表现出感情。对收集到的语音数据,取一部分作为训练集,另一部分作为测试集,得到情感倾向,如生气、悲伤、高兴、害怕、中性。根据这五个情绪建立坐标向量,在此基础上,根据用户在实际中的情绪状态不断采集到的语音数据进行扩展性分析。
在实际使用场景中,当用户开启语音对话时,则进行语音数据的采集与分析。用户首次使用语音时,创建账户,根据用户的语音识别用户当前的状态,为用户推荐语音情感库中该情绪下用户的观影爱好,并将用户此次的该状态下的观影记录,返回到语音情感库中,利用大量样本与数据机器学习用户的情感状态与该状态下的观影爱好。
当用户再次进行语音对话时,匹配用户的账号,并分析用户当前情感状态,匹配用户账号中的情感状态,如果匹配成功,那么调用历史该状态下的观影记录进行推荐相关状态,并存储此次状态与观影记录到该用户的账号下。如果语音匹配失败,那么根据当前语音匹配失败,则创建一个新账户,并对当前用户的情感状态进行分析,根据语音情感库中对应的状态与观影兴趣进行推荐。
针对单用户,首先进行账户匹配,再根据语音情感库匹配用户当前的情感状态,查询用户当前的情感状态在账户中是否存在过,如果有,则调用当前状态下的历史观影记录进行推荐相关视频,如果没有,则调用语音情感库中该状态下所有用户的观影喜好进行推荐相关视频,以视频标签为基础进行推荐。
对于多用户,在匹配账户后,由于每个用户的情感状态可能呈现不一,此时只获取匹配到的账户中的观影记录,根据多账户中观影兴趣的交集进行推荐视频,主要是根据视频标签进行。
如图2所示,本发明还提供了一种基于声纹识别的视频推荐系统,应用于上述的基于声纹识别的视频推荐方法,包括:
存储模块:建立语音情感库,并将情感状态存储与服务器中;
匹配模块:获取用户的语音信息,与用户账号进行匹配,获取当前用户的情感状态,与语音情感库进行匹配;
推荐模块:如果匹配成功,根据该情感状态下观看的历史记录进行推荐相关视频,否则,对匹配失败的用户,根据语音情感库推荐相同情感下用户的观影记录进行推荐;
输出模块:播放视频,并将此次情感状态与播放记录存于该用户账号下。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于声纹识别的视频推荐方法,其特征在于,包括以下步骤:
建立语音情感库,并将情感状态存储与服务器中;
获取用户的语音信息,与用户账号进行匹配,获取当前用户的情感状态,与语音情感库进行匹配;
如果匹配成功,根据该情感状态下观看的历史记录进行推荐相关视频,否则,对匹配失败的用户,根据语音情感库推荐相同情感下用户的观影记录进行推荐;
播放视频,并将此次情感状态与播放记录存于该用户账号下。
2.根据权利要求1所述的一种基于声纹识别的视频推荐方法,其特征在于,
所述建立语音情感库,包括:让相等数量的男女,对事先准备好的文本进行赋予情感特征的发音;对相同文本的发音对比分析不同情感状态下的声学及韵律表现。
3.根据权利要求2所述的一种基于声纹识别的视频推荐方法,其特征在于,所述建立语音情感库,包括:对收集到的语音数据,取一部分作为训练集,另一部分作为测试集,得到情感倾向,生气、悲伤、高兴、害怕、中性;根据这五个情绪建立坐标向量,在此基础上,根据用户在实际中的情绪状态不断采集到的语音数据进行扩展性分析。
4.一种基于声纹识别的视频推荐系统,其特征在于,应用于权1-3所述的基于声纹识别的视频推荐方法,包括:
存储模块:建立语音情感库,并将情感状态存储与服务器中;
匹配模块:获取用户的语音信息,与用户账号进行匹配,获取当前用户的情感状态,与语音情感库进行匹配;
推荐模块:如果匹配成功,根据该情感状态下观看的历史记录进行推荐相关视频,否则,对匹配失败的用户,根据语音情感库推荐相同情感下用户的观影记录进行推荐;
输出模块:播放视频,并将此次情感状态与播放记录存于该用户账号下。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111257882.6A CN113992991A (zh) | 2021-10-27 | 2021-10-27 | 一种基于声纹识别的视频推荐系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111257882.6A CN113992991A (zh) | 2021-10-27 | 2021-10-27 | 一种基于声纹识别的视频推荐系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113992991A true CN113992991A (zh) | 2022-01-28 |
Family
ID=79742806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111257882.6A Pending CN113992991A (zh) | 2021-10-27 | 2021-10-27 | 一种基于声纹识别的视频推荐系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113992991A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116389836A (zh) * | 2023-06-07 | 2023-07-04 | 深圳市天空创想科技有限公司 | 一种多媒体信息交互系统及交互方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002043391A1 (en) * | 2000-11-22 | 2002-05-30 | Koninklijke Philips Electronics N.V. | Method and apparatus for generating recommendations based on current mood of user |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
US20110131609A1 (en) * | 2008-05-16 | 2011-06-02 | Delegue Gerard | Method and system for establishing a program guide within a video-on-demand service depending on the user's mood |
CN104202718A (zh) * | 2014-08-05 | 2014-12-10 | 百度在线网络技术(北京)有限公司 | 一种向用户提供信息的方法与装置 |
JP2015228142A (ja) * | 2014-05-31 | 2015-12-17 | Kddi株式会社 | ユーザの感情に基づいてコンテンツをレコメンドする装置、プログラム及び方法 |
CN105426382A (zh) * | 2015-08-27 | 2016-03-23 | 浙江大学 | 一种基于Personal Rank的情绪上下文感知的音乐推荐方法 |
CN105975536A (zh) * | 2016-04-29 | 2016-09-28 | 合网络技术(北京)有限公司 | 网络资源的推荐方法和装置 |
WO2016203178A1 (fr) * | 2015-06-18 | 2016-12-22 | Spideo | Procédé et système de recommandation a un utilisateur de contenus a partir de paramètre(s) activable(s) par l'utilisateur depuis une interface correspondante. |
CN109101650A (zh) * | 2018-08-23 | 2018-12-28 | 海南大学 | 情感导向的区域推荐方法 |
CN109509486A (zh) * | 2018-07-31 | 2019-03-22 | 苏州大学 | 一种体现情感细节信息的情感语料库构建方法 |
CN110110134A (zh) * | 2019-05-07 | 2019-08-09 | 广东工业大学 | 一种音乐推荐信息的生成方法、系统及相关组件 |
CN112489787A (zh) * | 2020-11-20 | 2021-03-12 | 南京航空航天大学 | 一种基于微表情检测人体健康的方法 |
CN112667887A (zh) * | 2020-12-22 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 内容推荐方法、装置、电子设备、服务器 |
-
2021
- 2021-10-27 CN CN202111257882.6A patent/CN113992991A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002043391A1 (en) * | 2000-11-22 | 2002-05-30 | Koninklijke Philips Electronics N.V. | Method and apparatus for generating recommendations based on current mood of user |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
US20110131609A1 (en) * | 2008-05-16 | 2011-06-02 | Delegue Gerard | Method and system for establishing a program guide within a video-on-demand service depending on the user's mood |
JP2015228142A (ja) * | 2014-05-31 | 2015-12-17 | Kddi株式会社 | ユーザの感情に基づいてコンテンツをレコメンドする装置、プログラム及び方法 |
CN104202718A (zh) * | 2014-08-05 | 2014-12-10 | 百度在线网络技术(北京)有限公司 | 一种向用户提供信息的方法与装置 |
WO2016203178A1 (fr) * | 2015-06-18 | 2016-12-22 | Spideo | Procédé et système de recommandation a un utilisateur de contenus a partir de paramètre(s) activable(s) par l'utilisateur depuis une interface correspondante. |
CN105426382A (zh) * | 2015-08-27 | 2016-03-23 | 浙江大学 | 一种基于Personal Rank的情绪上下文感知的音乐推荐方法 |
CN105975536A (zh) * | 2016-04-29 | 2016-09-28 | 合网络技术(北京)有限公司 | 网络资源的推荐方法和装置 |
CN109509486A (zh) * | 2018-07-31 | 2019-03-22 | 苏州大学 | 一种体现情感细节信息的情感语料库构建方法 |
CN109101650A (zh) * | 2018-08-23 | 2018-12-28 | 海南大学 | 情感导向的区域推荐方法 |
CN110110134A (zh) * | 2019-05-07 | 2019-08-09 | 广东工业大学 | 一种音乐推荐信息的生成方法、系统及相关组件 |
CN112489787A (zh) * | 2020-11-20 | 2021-03-12 | 南京航空航天大学 | 一种基于微表情检测人体健康的方法 |
CN112667887A (zh) * | 2020-12-22 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 内容推荐方法、装置、电子设备、服务器 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116389836A (zh) * | 2023-06-07 | 2023-07-04 | 深圳市天空创想科技有限公司 | 一种多媒体信息交互系统及交互方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829039B (zh) | 智能聊天方法、装置、计算机设备及存储介质 | |
CN111339283B (zh) | 针对用户问题提供客服答案的方法及装置 | |
CN104598644B (zh) | 喜好标签挖掘方法和装置 | |
CN109767765A (zh) | 话术匹配方法及装置、存储介质、计算机设备 | |
CN107481720A (zh) | 一种显式声纹识别方法及装置 | |
CN106250553A (zh) | 一种服务推荐方法及终端 | |
CN108305618B (zh) | 语音获取及搜索方法、智能笔、搜索终端及存储介质 | |
CN111598485A (zh) | 一种多维度智能质检方法、装置、终端设备及介质 | |
CN104468959A (zh) | 移动终端通话过程中显示图像的方法、装置及移动终端 | |
CN109543005A (zh) | 客服机器人对话状态识别方法及装置、设备、存储介质 | |
CN110765776B (zh) | 回访标注样本数据的生成方法及装置 | |
US11392791B2 (en) | Generating training data for natural language processing | |
CN110362664A (zh) | 一种对聊天机器人faq知识库存储与匹配的方法及装置 | |
CN113992991A (zh) | 一种基于声纹识别的视频推荐系统及方法 | |
CN112053681A (zh) | 一种asr和nlu联合训练的电话客服质量评分技术及系统 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN109272983A (zh) | 用于亲子教育的双语切换装置 | |
CN117609548A (zh) | 基于预训练模型的视频多模态目标要素抽取与视频摘要合成方法及系统 | |
CN116484872A (zh) | 基于预训练与注意力的多模态方面级情感判断方法和系统 | |
CN110942358A (zh) | 一种信息交互方法、装置、设备及介质 | |
CN113805977B (zh) | 测试取证方法及模型训练方法、装置、设备、存储介质 | |
Salman et al. | Style extractor for facial expression recognition in the presence of speech | |
CN114255414A (zh) | 一种视频标记方法、装置及电子设备 | |
CN112434953A (zh) | 一种基于计算机数据处理的客服人员考核方法和装置 | |
CN116680365A (zh) | 基于语音识别理解的功能服务实现方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220128 |
|
RJ01 | Rejection of invention patent application after publication |