CN114143608A - 内容推荐方法、装置、计算机设备及可读存储介质 - Google Patents

内容推荐方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN114143608A
CN114143608A CN202111306819.7A CN202111306819A CN114143608A CN 114143608 A CN114143608 A CN 114143608A CN 202111306819 A CN202111306819 A CN 202111306819A CN 114143608 A CN114143608 A CN 114143608A
Authority
CN
China
Prior art keywords
information
current user
content recommendation
user
voiceprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111306819.7A
Other languages
English (en)
Inventor
裴德志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL New Technology Co Ltd
Original Assignee
Shenzhen TCL New Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL New Technology Co Ltd filed Critical Shenzhen TCL New Technology Co Ltd
Priority to CN202111306819.7A priority Critical patent/CN114143608A/zh
Publication of CN114143608A publication Critical patent/CN114143608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种内容推荐方法、装置、计算机设备及可读存储介质,该方法包括:获取当前用户的语音信息;对语音信息进行预处理,得到预处理后的第一声纹特征信息;基于第一声纹特征信息,判断当前用户是否为新用户;若是,则获取当前用户的第二声纹特征信息;基于第二声纹特征信息,对当前用户进行个性化内容推荐。本申请实施例使得当前用户在使用语音信息控制终端设备时,可以避免登录过程,直接基于用户的第二声纹特征,进行个性化内容推荐,降低了操作的复杂性,提高了推荐服务的质量。

Description

内容推荐方法、装置、计算机设备及可读存储介质
技术领域
本申请涉及信息处理技术领域,具体涉及一种内容推荐方法、装置、计算机设备及可读存储介质。
背景技术
智能数字电视,是基于Internet应用技术,具备开放式操作系统与芯片,拥有开放式应用平台,可实现双向人机交互功能,集影音、娱乐、数据等多种功能于一体,以满足用户多样化和个性化需求的电视产品。其目的是带给用户更便捷的体验,目前已经成为电视的潮流趋势。
但是现有的智能数字电视一般需要提前录入用户的声纹信息,提高了操作的复杂性,进一步的,根据其所有的播放记录来进行电视节目的推荐,并且一般情况下一个智能数字电视只有一个用户账户;并不能根据不同的用户来进行针对性的电视节目推荐。
因此,如何降低操作的复杂性和改善推荐的服务质量,是当前信息处理技术领域亟需解决的技术问题。
发明内容
本申请提供一种内容推荐方法、装置、计算机设备及可读存储介质,旨在解决如何降低操作的复杂性和改善推荐的服务质量。
一方面,本申请提供一种内容推荐方法,所述方法包括:
获取当前用户的语音信息;
对所述语音信息进行预处理,得到预处理后的第一声纹特征信息;
基于所述第一声纹特征信息,判断所述当前用户是否为新用户;
若是,则获取所述当前用户的第二声纹特征信息;
基于所述第二声纹特征信息,对所述当前用户进行个性化内容推荐。
在本申请一种可能的实现方式中,所述对所述语音信息进行预处理,得到预处理后的第一声纹特征信息,包括:
采用预设的第一声纹特征提取模型,提取所述语音信息中的语音帧对应的第一特征向量信息,得到预处理后的第一声纹特征信息。
在本申请一种可能的实现方式中,所述基于所述第一声纹特征信息,判断所述当前用户是否为新用户,包括:
比较所述第一特征向量信息与预设的特征向量库中的第二特征向量信息的相似度度量;
若所述相似度度量小于预设的相似度度量阈值,则确定所述当前用户为新用户;
若所述相似度度量大于或等于所述预设的相似度度量阈值,则确定所述当前用户为老用户。
在本申请一种可能的实现方式中,所述获取所述当前用户的第二声纹特征信息,包括:
采用预设的第二声纹特征提取模型,提取所述语音信息中的语音帧对应的第二特征向量信息,得到第二声纹特征信息。
在本申请一种可能的实现方式中,所述基于所述第二声纹特征信息,对所述当前用户进行个性化内容推荐,包括:
基于所述第二声纹特征信息和预设的深度神经网络模型,确定所述当前用户的静态属性信息,其中,所述静态属性信息包括年龄信息和性别信息;
基于所述当前用户的静态属性信息,对所述当前用户进行个性化内容推荐。
在本申请一种可能的实现方式中,所述方法还包括:
若判断所述当前用户为老用户,则基于所述第二特征向量信息,确定所述当前用户的用户画像信息;
基于所述当前用户的用户画像信息,对所述当前用户进行个性化内容推荐。
在本申请一种可能的实现方式中,在基于所述第二特征向量信息,确定所述当前用户的用户画像信息之前,所述方法还包括:
将所述第一声纹特征信息和所述当前用户所使用的终端设备进行绑定;
获取所述终端设备的历史使用信息;
基于所述历史使用信息,构建所述当前用户的用户画像,得到所述当前用户的用户画像信息。
另一方面,本申请提供一种内容推荐装置,所述装置包括:
第一获取单元,用于获取当前用户的语音信息;
第一预处理单元,用于对所述语音信息进行预处理,得到预处理后的第一声纹特征信息;
第一判断单元,用于基于所述第一声纹特征信息,判断所述当前用户是否为新用户;
第二获取单元,用于若是,则获取所述当前用户的第二声纹特征信息;
第一推荐单元,用于基于所述第二声纹特征信息,对所述当前用户进行个性化内容推荐。
在本申请一种可能的实现方式中,所述第一预处理单元,具体用于:
采用预设的第一声纹特征提取模型,提取所述语音信息中的语音帧对应的第一特征向量信息,得到预处理后的第一声纹特征信息。
在本申请一种可能的实现方式中,所述第一判断单元,具体用于:
比较所述第一特征向量信息与预设的特征向量库中的第二特征向量信息的相似度度量;
若所述相似度度量小于预设的相似度度量阈值,则确定所述当前用户为新用户;
若所述相似度度量大于或等于所述预设的相似度度量阈值,则确定所述当前用户为老用户。
在本申请一种可能的实现方式中,所述第二获取单元,具体用于:
采用预设的第二声纹特征提取模型,提取所述语音信息中的语音帧对应的第二特征向量信息,得到第二声纹特征信息。
在本申请一种可能的实现方式中,所述第一推荐单元,具体用于:
基于所述第二声纹特征信息和预设的深度神经网络模型,确定所述当前用户的静态属性信息,其中,所述静态属性信息包括年龄信息和性别信息;
基于所述当前用户的静态属性信息,对所述当前用户进行个性化内容推荐。
在本申请一种可能的实现方式中,所述装置还包括:
第一确定单元,用于若判断所述当前用户为老用户,则基于所述第二特征向量信息,确定所述当前用户的用户画像信息;
第二推荐单元,用于基于所述当前用户的用户画像信息,对所述当前用户进行个性化内容推荐。
在本申请一种可能的实现方式中,在第一确定单元之前,所述装置还包括:
第一绑定单元,用于将所述第一声纹特征信息和所述当前用户所使用的终端设备进行绑定;
第三获取单元,用于获取所述终端设备的历史使用信息;
第一构建单元,用于基于所述历史使用信息,构建所述当前用户的用户画像,得到所述当前用户的用户画像信息。
另一方面,本申请还提供一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现所述的内容推荐方法。
另一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的内容推荐方法中的步骤。
本申请由于通过先获取当前用户的语音信息;然后对所述语音信息进行预处理,得到预处理后的第一声纹特征信息;再基于所述第一声纹特征信息,判断所述当前用户是否为新用户;若是,则获取所述当前用户的第二声纹特征信息;最终基于所述第二声纹特征信息,对所述当前用户进行个性化内容推荐,因此,使得当前用户在使用语音信息控制终端设备时,可以避免登录过程,直接基于用户的第二声纹特征,进行个性化内容推荐,降低了操作的复杂性,提高了推荐服务的质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的内容推荐系统的场景示意图;
图2是本申请实施例中提供的内容推荐方法的一个实施例流程示意图;
图3是本申请实施例步骤202的一个实施例流程示意图;
图4是本申请实施例步骤203的一个实施例流程示意图;
图5是本申请实施例步骤204的一个实施例流程示意图;
图6是本申请实施例步骤205的一个实施例流程示意图;
图7是本申请实施例中提供的内容推荐方法的另一个实施例流程示意图;
图8是本申请实施例中提供的内容推荐方法的又一个实施例流程示意图;
图9是本申请实施例中提供的内容推荐装置的一个实施例结构示意图;
图10是本申请实施例中提供的计算机设备的一个实施例结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
本申请实施例提供一种内容推荐方法、装置、计算机设备及可读存储介质,以下分别进行详细说明。
如图1所示,图1是本申请实施例提供的内容推荐系统的场景示意图,该内容推荐系统可以包括多个终端100和服务器200,终端100和服务器200网络连接,服务器200中集成有内容推荐装置,如图1中的服务器,终端100可以访问服务器200。
本申请实施例中服务器200主要用于获取当前用户的语音信息;对语音信息进行预处理,得到预处理后的第一声纹特征信息;基于第一声纹特征信息,判断当前用户是否为新用户;若是,则获取当前用户的第二声纹特征信息;基于第二声纹特征信息,对当前用户进行个性化内容推荐。
本申请实施例中,该服务器200可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如本申请实施例中所描述的服务器200,其包括但不限于计算机、网络终端、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。本申请的实施例中,服务器与终端之间可通过任何通信方式实现通信,包括但不限于,基于第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)、长期演进(Long Term Evolution,LTE)、全球互通微波访问(Worldwide Interoperability for Microwave Access,WiMAX)的移动通信,或基于TCP/IP协议族(TCP/IP Protocol Suite,TCP/IP)、用户数据报协议(User Datagram Protocol,UDP)的计算机网络通信等。
可以理解的是,本申请实施例中所使用的终端100可以是既包括接收和发射硬件的设备,既具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种终端可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。具体的终端100具体可以是台式终端或移动终端,终端100具体还可以是手机、平板电脑、笔记本电脑等中的一种。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案的一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的终端,或者服务器网络连接关系,例如图1中仅示出1个服务器和2个终端。可以理解的,该内容推荐系统还可以包括一个或多个其他服务器,或/且一个或多个与服务器网络连接的终端,具体此处不作限定。
另外,如图1所示,该内容推荐系统还可以包括存储器300,用于存储数据,如存储用户语音数据和内容推荐数据,例如内容推荐系统运行时的内容推荐数据。
需要说明的是,图1所示的内容推荐系统的场景示意图仅仅是一个示例,本申请实施例描述的内容推荐系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着内容推荐系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
接下来,介绍本申请实施例提供的内容推荐方法。
本申实施例内容推荐方法的实施例中以内容推荐装置作为执行主体,为了简化与便于描述,后续方法实施例中将省略该执行主体,该内容推荐装置应用于计算机设备,该方法包括:获取当前用户的语音信息;对语音信息进行预处理,得到预处理后的第一声纹特征信息;基于第一声纹特征信息,判断当前用户是否为新用户;若是,则获取当前用户的第二声纹特征信息;基于第二声纹特征信息,对当前用户进行个性化内容推荐。
请参阅图2至图10,图2为本申请实施例中提供的内容推荐方法的一个实施例流程示意图,该内容推荐方法具体包括步骤201至步骤205:
201、获取当前用户的语音信息。
用户终端设备可以通过用户终端设备上的收音装置获取当前用户音频数据,然后对音频数据进行放大、增益控制、滤波及采样等预处理,以得到语音信息,再将语音信息发送至计算机设备,由此,使得计算机设备获取当前用户的语音信息。其中,用户终端设备不局限于智能电视,也可以是其他的智能终端,如智能手机、智能平板、智能电脑、智能家具等。本申请以智能电视进行举例说明。
202、对语音信息进行预处理,得到预处理后的第一声纹特征信息。
所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱,而声纹特征信息指的是声纹的衍生特征,例如,可以是一组Embedding向量,可以理解的是,Embedding是一个将离散变量转为连续向量表示的一个方式。
本申请可以通过对语音信息进行预处理,从其语音信息中提取第一声纹特征信息。其具体提取方式,可参阅下述实施方式,在此不做赘述。
203、基于第一声纹特征信息,判断当前用户是否为新用户。
其中,新用户指的是当前用户的语音信息是还未被用户终端设备所识别过。
204、若是,则获取当前用户的第二声纹特征信息。
205、基于第二声纹特征信息,对当前用户进行个性化内容推荐。
其中,个性化内容可以是影视节目,也可以是音乐、播放背景渲染、广告等。
本申请由于通过先获取当前用户的语音信息;然后对所述语音信息进行预处理,得到预处理后的第一声纹特征信息;再基于所述第一声纹特征信息,判断所述当前用户是否为新用户;若是,则获取所述当前用户的第二声纹特征信息;最终基于所述第二声纹特征信息,对所述当前用户进行个性化内容推荐,因此,使得当前用户在使用语音信息控制终端设备时,可以避免登录过程,直接基于用户的第二声纹特征,进行个性化内容推荐,降低了操作的复杂性,提高了推荐服务的质量。
本申请实施例中,如图3所示,步骤202、对语音信息进行预处理,得到预处理后的第一声纹特征信息,具体包括步骤301:
301、采用预设的第一声纹特征提取模型,提取语音信息中的语音帧对应的第一特征向量信息,得到预处理后的第一声纹特征信息。
其中,声纹作为用户语音的生物特性,首先需对其特征化。即将语音经过相应的运算而得到第一特征向量信息,该第一特征向量信息为一组特征向量,具体的该一组特征向量可以是一组Embedding向量。
进一步的,结合实际运用场景,为保证用户文本无关识别用户。本申请中的第一声纹特征提取模型可以选取基于DNN即深度神经网络的Embedding算法模型,对语音信息中的的语音帧处理后得到每个用户的Embedding向量。使得同一用户无论说什么(即同一用户说的不同内容),通过上述的算法模型处理后,基本上都能得到同样或满足预设要求的Embedding向量。为了方便理解,Embedding就是用一个低维的向量表示一个物体,可以是一个词,或是一个商品,或是一个电影等等。这个Embedding向量的性质是能使距离相近的向量对应的物体有相近的含义,比如Embedding(复仇者联盟)和Embedding(钢铁侠)之间的距离就会很接近,但Embedding(复仇者联盟)和Embedding(乱世佳人)的距离就会远一些。除此之外Embedding甚至还具有数学运算的关系,比如Embedding(马德里)-Embedding(西班牙)+Embedding(法国)≈Embedding(巴黎)。
本申请实施例中,如图4所示,步骤203、基于第一声纹特征信息,判断当前用户是否为新用户,具体包括步骤401至步骤403:
401、比较第一特征向量信息与预设的特征向量库中的第二特征向量信息的相似度度量。
其中,相似度度量,即综合评定两个事物之间相近程度的一种度量。两个事物越接近,它们的相似性度量也就越大,而两个事物越疏远,它们的相似性度量也就越小。具体的,本申请可以采用余弦相似度、概率线性判别、距离度量等方式比较第一特征向量信息与预设的特征向量库中的第二特征向量信息的相似度度量。
402、若相似度度量小于预设的相似度度量阈值,则确定当前用户为新用户。
403、若相似度度量大于或等于预设的相似度度量阈值,则确定当前用户为老用户。
其中,老用户即非新用户,指的是当前用户的语音信息是已经被用户终端设备所识别过。相似度度量阈值可以根据实际需求进行调整,例如,当相似度度量阈值设置为a时,根据实际运用情况反应,发现用户终端设备的语音识别灵敏度较低或误识别情况较多,此时,可以增大相似度度量阈值,如将原有的相似度阈值a加上一个b(正数值)。反之,根据实际运用情况反应,发现用户终端设备的语音识别灵敏度较高或误识别情况较少,此时,可以适当降低或不改变相似度度量阈值。
可以理解的是,当相似度度量越高,则说明第一特征向量信息与预设的特征向量库中的第二特征向量信息对应的向量值越接近,由此可以确定预设的特征向量库中存在与第一特征向量信息相似的第二特征向量信息。
本申请实施例中,如图5所述,步骤204、获取当前用户的第二声纹特征信息,具体包括步骤501:
501、采用预设的第二声纹特征提取模型,提取语音信息中的语音帧对应的第二特征向量信息,得到第二声纹特征信息。
预设的第二声纹特征提取模型可以是由MFCC特征向量提取逻辑构成,该MFCC特征向量提取逻辑可以包括音频流预处理逻辑、分帧逻辑、加窗逻辑、傅里叶变换逻辑、差分参数提取逻辑等。
其中,通过第二声纹特征提取模型,可以提取语音信息中的语音帧对应的第二特征向量信息,该第二特征向量信息包括MFCC特征向量。MFCC(Mel-frequency cepstralcoefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。例如:对于一帧有512维(采样点)数据,经过MFCC后可以提取出最重要的40维(一般而言)数据同时也达到了将维的目的。
本申请实施例中,如图6所述、步骤205、基于第二声纹特征信息,对当前用户进行个性化内容推荐,具体包括步骤601和步骤602:
601、基于第二声纹特征信息和预设的深度神经网络模型,确定当前用户的静态属性信息。
其中,静态属性信息包括年龄信息和性别信息。
预设的深度神经网络模型可以采用基于DNN的二分类网络模型,具体的,可以根据用户的声纹特征,识别用户的属性,如性别、年龄等,进一步更好的识别用户。使用深度神经网络模型,只是输出使用二分类,比如性别男输出向量为01,性别女输出向量为10。前提需要预先收集大量的音频数据来进行训练。神经网络有着强大的特征提取能力,通过神经网络对大量用户样本声音的MFCC特征向量多次训练,将输出值(01或10)与目标值误差反向传递,不断优化神经元之间的参数,使用梯度下降法算法,对网络中的各层参数微调更新,最终固化该组模型参数。本申请中的基于DNN的二分类网络模型包括输入层、(多级)隐层以及输出层。
其中,根据步骤501可知,该第二特征向量信息包括MFCC特征向量,因此,可以将MFCC特征向量输入预设的基于DNN的二分类网络模型中,以此得到当前用户的静态属性信息。
602、基于当前用户的静态属性信息,对当前用户进行个性化内容推荐。
基于当前用户的静态属性信息,如当前用户的年龄和性别,依据预设的推荐算法再做推荐互动。比如同一年龄段和性别的观影TOP热度榜推荐,或者基于影视标签信息给不同年龄和性别的用户推荐不同类别的热门影视等。
本申请实施例中,如图7所示,该方法还包括步骤701和步骤702:
701、若判断当前用户为老用户,则基于第二特征向量信息,确定当前用户的用户画像信息。
用户画像(User Profile),即用户信息标签化,是基于数据挖掘的用户特征提取及需求深度挖掘,是大数据时代围绕“以用户为中心”开展的个性化服务,标签化的模型是从用户社交属性、生活习惯、消费者行为等信息中抽象出来的产物,是用户“特征标签”的集合。用户画像的内涵包含三个要素,即用户属性、用户特征、用户标签,且具有标签化、时效性、动态性三大特征。
702、基于当前用户的用户画像信息,对当前用户进行个性化内容推荐。
本申请实施例中,如图8所示,在步骤701、基于第二特征向量信息,确定当前用户的用户画像信息之前,方法还包括步骤801至步骤803:
801、将第一声纹特征信息和当前用户所使用的终端设备进行绑定。
802、获取终端设备的历史使用信息。
需要说明的是,该历史使用信息是基于用户声明确认后,在终端设备上合法收集。
803、基于历史使用信息,构建当前用户的用户画像,得到当前用户的用户画像信息。
构建当前用户的用户画像可以根据应用需求,采集相关的数据(如历史使用信息),形成基础数据。制定指标标准,并依据其对基础数据进行指标化,形成指标数据,从而实现量化的特征。制定标签标准,并依据其对指标数据进行标签化,形成标签数据,以供专业人员理解和机器处理。根据专家经验或机器学习,确定特定业务场景下的关键特征标签,形成“画像”。根据这些特征标签构成的“画像”,后台系统可快速地筛选出目标用户,从而对用户进行针对性服务。
具体可以依据搜集的历史使用数据,按不同的维度来标签用户。其中,标签可以分为静态标签、半动态标签以及动态标签。具体的,静态标签:可以是性别,年龄,职业,出生日期,年龄,学历,城市等。半动态标签:可以是最近一次观看影片的时间,第一次使用时间。动态标签:可以是这些标签数据主要基于用户行为数据分析来推导或预测出的一些标签,比如周平均观影次数得多的活跃用户,根据用户观影节目分类,购买情况得出用户收入水平、兴趣、个性特征等。
为了更好实施本申请实施例中内容推荐方法,在内容推荐方法基础之上,本申请实施例中还提供一种内容推荐装置,如图9所示,该内容推荐装置900具体包括第一获取单元901、第一预处理单元902、第一判断单元903、第二获取单元904以及第一推荐单元905:
第一获取单元901,用于获取当前用户的语音信息。
第一预处理单元902,用于对语音信息进行预处理,得到预处理后的第一声纹特征信息。
第一判断单元903,用于基于第一声纹特征信息,判断当前用户是否为新用户。
第二获取单元904,用于若是,则获取当前用户的第二声纹特征信息。
第一推荐单元905,用于基于第二声纹特征信息,对当前用户进行个性化内容推荐。
本申请实施例中,第一预处理单元902,具体用于:
采用预设的第一声纹特征提取模型,提取语音信息中的语音帧对应的第一特征向量信息,得到预处理后的第一声纹特征信息。
本申请实施例中,第一判断单元903,具体用于:
比较第一特征向量信息与预设的特征向量库中的第二特征向量信息的相似度度量。
若相似度度量小于预设的相似度度量阈值,则确定当前用户为新用户。
若相似度度量大于或等于预设的相似度度量阈值,则确定当前用户为老用户。
本申请实施例中,第二获取单元904,具体用于:
采用预设的第二声纹特征提取模型,提取语音信息中的语音帧对应的第二特征向量信息,得到第二声纹特征信息。
本申请实施例中,第一推荐单元905,具体用于:
基于第二声纹特征信息和预设的深度神经网络模型,确定当前用户的静态属性信息,其中,静态属性信息包括年龄信息和性别信息。
基于当前用户的静态属性信息,对当前用户进行个性化内容推荐。
本申请实施例中,装置还包括:
第一确定单元,用于若判断当前用户为老用户,则基于第二特征向量信息,确定当前用户的用户画像信息。
第二推荐单元,用于基于当前用户的用户画像信息,对当前用户进行个性化内容推荐。
本申请实施例中,在第一确定单元之前,装置还包括:
第一绑定单元,用于将第一声纹特征信息和当前用户所使用的终端设备进行绑定。
第三获取单元,用于获取终端设备的历史使用信息。
第一构建单元,用于基于历史使用信息,构建当前用户的用户画像,得到当前用户的用户画像信息。
本申请由于通过第一获取单元901获取当前用户的语音信息;然后第一预处理单元902对语音信息进行预处理,得到预处理后的第一声纹特征信息;再由第一判断单元903基于第一声纹特征信息,判断当前用户是否为新用户;并第二获取单元904若是,则获取当前用户的第二声纹特征信息;最终第一推荐单元905基于第二声纹特征信息,对当前用户进行个性化内容推荐,因此,使得当前用户在使用语音信息控制终端设备时,可以避免登录过程,直接基于用户的第二声纹特征,进行个性化内容推荐,降低了操作的复杂性,提高了推荐服务的质量。
除了上述介绍用于内容推荐方法与装置之外,本申请实施例还提供一种计算机设备,其集成了本申请实施例所提供的任一种内容推荐装置,所述计算机设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述内容推荐方法实施例中任一实施例中所述的任一方法的操作。
本申请实施例还提供一种计算机设备,其集成了本申请实施例所提供的任一种内容推荐装置。参阅图10,图10是本申请实施例提供的计算机设备一个实施例结构示意图。
如图10所示,其示出了本申请实施例所设计的内容推荐装置的结构示意图,具体来讲:
该内容推荐装置可以包括一个或者一个以上处理核心的处理器1001、一个或一个以上计算机可读存储介质的存储单元1002、电源1003和输入单元1004等部件。本领域技术人员可以理解,图10中示出的内容推荐装置结构并不构成对内容推荐装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器1001是该内容推荐装置的控制中心,利用各种接口和线路连接整个内容推荐装置的各个部分,通过运行或执行存储在存储单元1002内的软件程序和/或模块,以及调用存储在存储单元1002的数据,执行内容推荐装置的各种功能和处理数据,从而对内容推荐装置进行整体监控。可选的,处理器1001可包括一个或多个处理核心;优选的,处理器1001可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1001中。
存储单元1002可用于存储软件程序以及模块,处理器1001通过运行存储在存储单元1002的软件程序以及模块,从而执行各种功能应用以及数据处理。存储单元1002可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据内容推荐装置的使用所创建的数据等。此外,存储单元1002可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储单元1002还可以包括存储器控制器,以提供处理器1001对存储单元1002的访问。
内容推荐装置还包括给各个部件供电的电源1003,优选的,电源1003可以通过电源管理系统与处理器1001逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1003还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该内容推荐装置还可包括输入单元1004,该输入单元1004可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,内容推荐装置还可以包括显示单元等,在此不再赘述。具体在本申请实施例中,内容推荐装置中的处理器1001会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储单元1002中,并由处理器1001来运行存储在存储单元1002中的应用程序,从而实现各种功能,如下:
获取当前用户的语音信息;对语音信息进行预处理,得到预处理后的第一声纹特征信息;基于第一声纹特征信息,判断当前用户是否为新用户;若是,则获取当前用户的第二声纹特征信息;基于第二声纹特征信息,对当前用户进行个性化内容推荐。
本申请由于通过先获取当前用户的语音信息;然后对所述语音信息进行预处理,得到预处理后的第一声纹特征信息;再基于所述第一声纹特征信息,判断所述当前用户是否为新用户;若是,则获取所述当前用户的第二声纹特征信息;最终基于所述第二声纹特征信息,对所述当前用户进行个性化内容推荐,因此,使得当前用户在使用语音信息控制终端设备时,可以避免登录过程,直接基于用户的第二声纹特征,进行个性化内容推荐,降低了操作的复杂性,提高了推荐服务的质量。
为此,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random AccessMemory)、磁盘或光盘等。该计算机可读存储介质中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种内容推荐方法中的步骤。例如,该指令可以执行如下步骤:
获取当前用户的语音信息;对语音信息进行预处理,得到预处理后的第一声纹特征信息;基于第一声纹特征信息,判断当前用户是否为新用户;若是,则获取当前用户的第二声纹特征信息;基于第二声纹特征信息,对当前用户进行个性化内容推荐。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上对本申请实施例所提供的一种内容推荐方法、装置、计算机设备及可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种内容推荐方法,其特征在于,所述方法包括:
获取当前用户的语音信息;
对所述语音信息进行预处理,得到预处理后的第一声纹特征信息;
基于所述第一声纹特征信息,判断所述当前用户是否为新用户;
若是,则获取所述当前用户的第二声纹特征信息;
基于所述第二声纹特征信息,对所述当前用户进行个性化内容推荐。
2.根据权利要求1所述的内容推荐方法,其特征在于,所述对所述语音信息进行预处理,得到预处理后的第一声纹特征信息,包括:
采用预设的第一声纹特征提取模型,提取所述语音信息中的语音帧对应的第一特征向量信息,得到预处理后的第一声纹特征信息。
3.根据权利要求2所述的内容推荐方法,其特征在于,所述基于所述第一声纹特征信息,判断所述当前用户是否为新用户,包括:
比较所述第一特征向量信息与预设的特征向量库中的第二特征向量信息的相似度度量;
若所述相似度度量小于预设的相似度度量阈值,则确定所述当前用户为新用户;
若所述相似度度量大于或等于所述预设的相似度度量阈值,则确定所述当前用户为老用户。
4.根据权利要求1所述的内容推荐方法,其特征在于,所述获取所述当前用户的第二声纹特征信息,包括:
采用预设的第二声纹特征提取模型,提取所述语音信息中的语音帧对应的第二特征向量信息,得到第二声纹特征信息。
5.根据权利要求1所述的内容推荐方法,其特征在于,所述基于所述第二声纹特征信息,对所述当前用户进行个性化内容推荐,包括:
基于所述第二声纹特征信息和预设的深度神经网络模型,确定所述当前用户的静态属性信息,其中,所述静态属性信息包括年龄信息和性别信息;
基于所述当前用户的静态属性信息,对所述当前用户进行个性化内容推荐。
6.根据权利要求3所述的内容推荐方法,其特征在于,所述方法还包括:
若判断所述当前用户为老用户,则基于所述第二特征向量信息,确定所述当前用户的用户画像信息;
基于所述当前用户的用户画像信息,对所述当前用户进行个性化内容推荐。
7.根据权利要求6所述的内容推荐方法,其特征在于,在基于所述第二特征向量信息,确定所述当前用户的用户画像信息之前,所述方法还包括:
将所述第一声纹特征信息和所述当前用户所使用的终端设备进行绑定;
获取所述终端设备的历史使用信息;
基于所述历史使用信息,构建所述当前用户的用户画像,得到所述当前用户的用户画像信息。
8.一种内容推荐装置,其特征在于,所述装置包括:
第一获取单元,用于获取当前用户的语音信息;
第一预处理单元,用于对所述语音信息进行预处理,得到预处理后的第一声纹特征信息;
第一判断单元,用于基于所述第一声纹特征信息,判断所述当前用户是否为新用户;
第二获取单元,用于若是,则获取所述当前用户的第二声纹特征信息;
第一推荐单元,用于基于所述第二声纹特征信息,对所述当前用户进行个性化内容推荐。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至7中任一项所述的内容推荐方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的内容推荐方法中的步骤。
CN202111306819.7A 2021-11-05 2021-11-05 内容推荐方法、装置、计算机设备及可读存储介质 Pending CN114143608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111306819.7A CN114143608A (zh) 2021-11-05 2021-11-05 内容推荐方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111306819.7A CN114143608A (zh) 2021-11-05 2021-11-05 内容推荐方法、装置、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114143608A true CN114143608A (zh) 2022-03-04

Family

ID=80392457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111306819.7A Pending CN114143608A (zh) 2021-11-05 2021-11-05 内容推荐方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114143608A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170164049A1 (en) * 2015-12-02 2017-06-08 Le Holdings (Beijing) Co., Ltd. Recommending method and device thereof
CN107863108A (zh) * 2017-11-16 2018-03-30 百度在线网络技术(北京)有限公司 信息输出方法和装置
CN108075892A (zh) * 2016-11-09 2018-05-25 阿里巴巴集团控股有限公司 一种语音处理的方法、装置和设备
WO2018108080A1 (zh) * 2016-12-13 2018-06-21 北京奇虎科技有限公司 一种基于声纹搜索的信息推荐方法及装置
CN109299232A (zh) * 2018-09-17 2019-02-01 北京小米移动软件有限公司 内容推荐方法及装置
CN110896501A (zh) * 2018-08-24 2020-03-20 青岛海尔多媒体有限公司 电视机及用于电视机的控制方法
CN111310019A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 信息推荐方法、信息处理方法、系统及设备
CN112489662A (zh) * 2020-11-13 2021-03-12 北京沃东天骏信息技术有限公司 用于训练语音处理模型的方法和装置
CN112634935A (zh) * 2021-03-10 2021-04-09 北京世纪好未来教育科技有限公司 语音分离方法、装置、电子设备和可读存储介质
CN113555022A (zh) * 2021-07-23 2021-10-26 平安科技(深圳)有限公司 基于语音的同人识别方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170164049A1 (en) * 2015-12-02 2017-06-08 Le Holdings (Beijing) Co., Ltd. Recommending method and device thereof
CN108075892A (zh) * 2016-11-09 2018-05-25 阿里巴巴集团控股有限公司 一种语音处理的方法、装置和设备
WO2018108080A1 (zh) * 2016-12-13 2018-06-21 北京奇虎科技有限公司 一种基于声纹搜索的信息推荐方法及装置
CN107863108A (zh) * 2017-11-16 2018-03-30 百度在线网络技术(北京)有限公司 信息输出方法和装置
CN110896501A (zh) * 2018-08-24 2020-03-20 青岛海尔多媒体有限公司 电视机及用于电视机的控制方法
CN109299232A (zh) * 2018-09-17 2019-02-01 北京小米移动软件有限公司 内容推荐方法及装置
CN111310019A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 信息推荐方法、信息处理方法、系统及设备
CN112489662A (zh) * 2020-11-13 2021-03-12 北京沃东天骏信息技术有限公司 用于训练语音处理模型的方法和装置
CN112634935A (zh) * 2021-03-10 2021-04-09 北京世纪好未来教育科技有限公司 语音分离方法、装置、电子设备和可读存储介质
CN113555022A (zh) * 2021-07-23 2021-10-26 平安科技(深圳)有限公司 基于语音的同人识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112104899B (zh) 直播中的信息推荐方法、装置、电子设备及存储介质
CN110020009B (zh) 在线问答方法、装置及系统
US20210303864A1 (en) Method and apparatus for processing video, electronic device, medium and product
US11249645B2 (en) Application management method, storage medium, and electronic apparatus
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
US11847419B2 (en) Human emotion detection
CN109582825B (zh) 用于生成信息的方法和装置
CN112116391A (zh) 多媒体资源投放方法、装置、计算机设备及存储介质
CN111653274B (zh) 唤醒词识别的方法、装置及存储介质
CN111984803A (zh) 多媒体资源处理方法、装置、计算机设备及存储介质
CN108111603A (zh) 信息推荐方法、装置、终端设备及存储介质
US20240061852A1 (en) Systems and methods for automatically recommending content
CN115798459B (zh) 音频处理方法、装置、存储介质及电子设备
CN113392920A (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN109670111B (zh) 用于推送信息的方法和装置
CN114143608A (zh) 内容推荐方法、装置、计算机设备及可读存储介质
CN110879868A (zh) 顾问方案生成方法、装置、系统、电子设备及介质
CN111797273A (zh) 用于调整参数的方法和装置
CN114139031B (zh) 数据分类方法、装置、电子设备及存储介质
CN114579740B (zh) 文本分类方法、装置、电子设备及存储介质
CN113010784B (zh) 用于生成预测信息的方法、装置、电子设备和介质
CN115952830B (zh) 数据处理方法、装置、电子设备及存储介质
US20230281996A1 (en) System and method for engagement management
CN112802458B (zh) 唤醒方法和装置、存储介质、电子设备
CN117725234A (zh) 一种媒体信息识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination