CN112584238A

CN112584238A - 影视资源匹配方法、装置及智能电视

Info

Publication number: CN112584238A
Application number: CN202011446977.8A
Authority: CN
Inventors: 高瑗蔚
Original assignee: Nanjing Skyworth Information Technology Research Institute Co ltd; Shenzhen Skyworth RGB Electronics Co Ltd
Current assignee: Nanjing Skyworth Information Technology Research Institute Co ltd; Shenzhen Skyworth RGB Electronics Co Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-30

Abstract

本发明实施例公开了一种影视资源匹配方法、装置及智能电视，涉及音频处理的技术领域，所述方法包括：接收用户输入的语音指令；将所述语音指令输入声纹识别模型，识别所述用户的类别，其中，所述类别包括性别或者年龄中的至少一种；显示与所述用户的类别匹配的影视资源。本发明提供的技术方案可以实现声纹识别与智能电视结合生成新的影视搜索匹配方式，提高搜索影视的便捷度；并且能够给不同的用户按照相应的兴趣喜好匹配对应的影视资源，提高了用户的使用体验。

Description

影视资源匹配方法、装置及智能电视

技术领域

本发明涉及音频处理领域，尤其涉及一种影视资源匹配方法、装置及智能电视。

背景技术

近年来，随着人们物质生活水平提高，电视已经成为必备的电器。现有技术中大都需要通过遥控器拼音输入实现电视机的影视搜索。该方法操作繁琐，同时不具备影片分类功能。

智能语音识别技术在电视中的应用，解决了影视搜索操作繁琐的问题，但是笼统搜索的时候，无法通过用户特点偏好来匹配影视。

因此，目前需要一种根据用户特性针对性地推荐影视资源的方法。

发明内容

针对现有技术中存在的弊端，可以通过声纹识别技术识别出用户的性别和年龄，根据用户的年龄大小、性别区别来匹配相应的影视资源。本发明提供了一种影视资源匹配方法、装置及智能电视，具体方案如下：

第一方面，本公开实施例提供了一种影视资源匹配方法，包括：

接收用户输入的语音指令；

将所述语音指令输入声纹识别模型，识别所述用户的类别，其中，所述类别包括性别和年龄中的至少一种；

显示与所述用户的类别匹配的影视资源。

根据本公开的一种具体实施方式，所述声纹识别模型通过以下方式获得：

获取样本语音信息；

对所述样本语音信息的类别进行标注；

提取所述样本语音信息中的最优样本声纹信息；

将标注后的所述最优样本声纹信息输入基础卷积神经网络进行训练，得到所述声纹识别模型。

根据本公开的一种具体实施方式，所述方法还包括：

将标注后的所述样本语音信息进行预处理，以得到标准格式的样本语音信息，从所述标准格式的样本语音信息提取所述最优样本声纹信息，其中，所述预处理包括预加重、分帧和加窗中的至少一种。

根据本公开的一种具体实施方式，所述提取所述样本语音信息中的最优样本声纹信息的步骤，包括：

提取所述样本语音信息的声学特征，其中，所述声学特征包括频谱、倒频谱、共振峰、基音和反射系数中至少一种；

通过深度学习神经网络提取样本语音信息中的最优声学特征，作为最优样本声纹信息。

根据本公开的一种具体实施方式，所述方法还包括：

预先将全部影视资源进行分类，其中，每种类型的影视资源与相应的用户类别对应。

根据本公开的一种具体实施方式，所述影视资源匹配方法还包括：

若识别出所述用户的类别为儿童，则禁止显示任何类型的影视资源。

第二方面，本公开实施例还提供了一种影视资源匹配装置，所述装置包括：

接收模块，用于接收用户输入的语音指令；

识别模块，用于将所述语音指令输入声纹识别模型，识别所述用户的类别，其中，所述类别包括性别和年龄中的至少一种；

显示模块，用于显示与所述用户的类别匹配的影视资源。

根据本公开的一种具体实施方式，所述装置还包括：

获取模块，用于获取样本语音信息；

标注模块，用于对所述样本语音信息的类别进行标注；

提取模块，用于提取所述样本语音信息中的最优样本声纹信息；

训练模块，用于将标注后的所述最优样本声纹信息输入基础卷积神经网络进行训练，得到所述声纹识别模型。

第三方面，本公开实施例还提供了一种智能电视，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行第一方面所述的影视资源匹配方法。

第四方面，本公开实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行第一方面所述的影视资源匹配方法。

本公开实施例提供的影视资源匹配方法、装置及智能电视，主要通过预先训练声纹识别模型，接收用户输入的语音指令，利用声纹识别模型识别出用户的年龄性别，再根据用户的年龄和性别智能显示与用户的年龄性别匹配的影视资源。通过上述方案，可以实现声纹识别与智能电视结合生成新的影视搜索匹配方式，提高搜索影视的便捷度；并且能够给不同的用户按照相应的兴趣喜好匹配对应的影视资源，提高了用户的使用体验。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本公开实施例提供的一种影视资源匹配方法的流程示意图；

图2示出了本公开实施例提供的一种影视资源匹配方法的部分流程示意图；

图3示出了本公开实施例提供的一种影视资源匹配方法的具体实施图；

图4示出了本公开实施例提供的一种影视资源匹配方法的声纹识别模型训练图；

图5示出了本公开实施例提供的一种影视资源匹配装置的模块框图；

图6示出了本公开实施例提供的一种影视资源匹配装置的部分模块框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

实施例1

参见图1，为本公开实施例提供的一种影视资源匹配方法的流程示意图。如图1所示，所述影视资源匹配方法主要包括以下步骤：

S101，接收用户输入的语音指令；

用户在进行影视搜索的时候，只需要语音输入特定指令。例如，直接说电视预设的语音唤醒名称；或者是操作遥控器上的语音键，然后再说出特定名称。智能电视根据语音指令进行相关分析后进行影视搜索。

具体地，语音指令还可以是至少一个字节的语音内容。

S102，将所述语音指令输入声纹识别模型，识别所述用户的类别，其中，所述类别包括性别和年龄中的至少一种；

智能电视内预先嵌入声纹识别模型，使用时智能电视先加载训练好的声纹识别模型。该声纹识别模型可以通过计算分析出用户的类别。

具体地，声纹识别模型先将用户输入的语音指令转换为数据信息，然后将该数据信息中的最优声纹信息提取出来，进行计算。根据计算结果，确定用户所属的类别。用户所属的类别可以根据性别划分，如男性、女性；也可以根据年龄划分，如中年人、老年人、成年人、未成年人等。在本实施例中，本方案采取的是根据年龄和性别两方面来划分，如老年男性、中年女性、女童、男童等。

S103，显示与所述用户的类别匹配的影视资源。

智能电视的影视库中预先储存有多种影视资源，各种影视资源适合观看的人群不同，例如恐怖片适合成年人观看，动画片适合未成年人观看。对影视资源进行预分类，将分类好的影视资源与适配的用户类别对应存储或者标记。

接着声纹识别模型识别出用户的类别之后，在后台直接根据用户的类别将标记好的影视资源进行调用，并传送至前端。前端显示与用户类别匹配的影视资源。比如，用户类别识别为儿童，前端可显示推荐早教动画等儿童节目；用户类别识别为青年女性，前端可显示推荐选秀类或者真人秀类综艺节目。

本公开实施例提供的影视资源匹配方法，将声纹识别技术与智能电视结合起来，实现了通过用户的语音指令识别用户的性别和年龄并对其进行归类，进而智能推荐与用户类别相符的影视资源。提高了搜索影视的便捷度；并且能够给不同的用户按照相应的兴趣喜好匹配对应的影视资源，提高了用户的使用体验。

在上述实施例的基础上，根据本公开的一种具体实施方式，对声纹识别模型的训练过程作了进一步限定。如图2所示，所述提取所述样本语音信息中的最优样本声纹信息的步骤之前，声纹识别模型的训练过程主要包括以下步骤：

S201，获取样本语音信息；

大量收集样本语音信息，可以是在互联网数据库中提取样本语音信息，也可以收集各个人群类别的样本语音信息，也可以直接调用本地存储的样本语音信息。语音信息可以包括不同年龄段的男性、女性的语音，例如老年男性的语音、中年女性的语音等。

S202，对所述样本语音信息的类别进行标注；

在获取样本语音信息之后，需要对各个样本语音信息进行标注，标注的内容为样本语音信息对应的用户的年龄组和性别，并将标注与样本语音信息关联，存储在本地。具体地，年龄组包括婴幼儿、青少年、青年、中年、老年等，性别包括男性和女性。该标注可以为老年女性、中年男性、女童等。

S203，提取所述样本语音信息中的最优样本声纹信息；

将标注后的样本语音信息导入深度学习神经网络，使用残差网络启发的卷积模型和循环模型来提取样本语音信息中的声学特征。通过深度学习神经网络端到端的方法自动提取高级说话人特征，高度抽象的因素特征，深度学习神经网络通过自动学习的方式筛选最优的声学特征以此作为最优样本声纹信息。

S204，将标注后的所述最优样本声纹信息输入基础卷积神经网络进行训练，得到所述声纹识别模型。

将每个样本语音信息的最优样本声纹信息输入基础卷积神经网络中，通过机器学习的方式对最优样本声纹信息进行计算训练，最后将计算结果整合得到声纹识别模型。

根据本公开的一种具体实施方式，提取所述样本语音信息中的最优样本声纹信息的步骤之前，所述方法还包括：

具体地，通过预加重、分帧、加窗等预处理操作。预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。分帧是对整个语音信号进行帧处理，将其分割成多个片段。加窗是为了减小分帧后的语音信号与原始语音信号之间的误差。

预处理的目的是为了消除人类发声器官本身和采集语音信号的设备等所带来的混叠、高次谐波失真、高频等因素对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质参数，提高语音处理质量。

不同用户的语音信息中的声学特征是不同的，提取其中具有代表性的声学特征作为参数，并输入卷积神经网络中进行优化训练。

具体地，可以从样本语音信息中提取特征输入深度神经网络层，使用残差网络启发的卷积模型和循环模型来提取声学特征。通过深度学习神经网络端到端的方法自动提取高级说话人特征、高度抽象的因素特征，神经网络通过自动学习的方式筛选最优的声学特征，作为最优样本声纹信息。对噪声有很强的免疫力。

具体实施时，可以使用矢量量化模型，通过聚类、量化的方法生成码本，识别时对声学特征数据进行量化编码，以失真度的大小作为筛选最优样本声纹信息的标准。

根据本公开的一种具体实施方式，所述接收用户输入的语音指令的步骤之前，所述方法还包括：

在接收用户的语音指令之前，智能电视预先在后台对影视资源进行分类。对影视资源添加性别和年龄标记，影视资源的标记与用户的类别一一对应。在用户进行语音搜索时，智能电视显示与用户的类别匹配的影视资源。

在一个具体的实施例中，智能电视将影视资源分为综艺节目、动画片、动作片等。将综艺节目标记为青少年女性，将动画片标记为男童、女童，将动作片标记为青年男性。

根据本公开的一种具体实施方式，所述识别所述用户的类别的步骤之后，还包括：

若识别所述用户的类别为儿童，禁止显示任何类型的影视资源。

具体地，当用户是儿童时，智能电视对儿童的语音搜索指令不作出任何响应。或者，成人用户可以预先发布一个指令，在预定时间内智能电视只对成年用户的语音指令作出响应，成年用户不在家时，未成年用户无法使用智能电视。

实施例2

参见图3，为本公开实施例提供的一种影视资源匹配方法的具体实施图。如图3所示，所述方法的具体步骤如下：

在本实施例中，将训练好的声纹识别模型嵌入电视端。用户语音输入指令时，电视端调用声纹识别模型识别出用户的类别。然后进行影视资源匹配，根据用户的类别智能推荐与用户分类对应的影视资源。

参见图4，为本公开实施例提供的一种影视资源匹配方法的声纹识别模型训练图。如图4所示，具体过程如下：

第一阶段，通过大数据收集大量语音信息作为训练数据，人工对语音信息进行标注。然后对标注好的语音信息进行语音信号处理，通过深度学习神经网络进行特征提取。再将提取到的特征调入声纹识别模型中训练，通过机器学习的方式得到存储有大量声纹识别模型的模型库。

第二阶段，用户输入待识别的语音信息，对用户输入的语音信息进行特征提取，然后利用声纹识别模型进行计算并分析，得到用户类别。

实施例3

与上述图1所示的方法实施例相对应，参见图5，为本公开实施例提供的一种影视资源匹配装置的模块框图。如图5所示，所述影视资源匹配装置500包括：

接收模块501，用于接收用户输入的语音指令；

识别模块502，用于将所述语音指令输入声纹识别模型，识别所述用户的类别，其中，所述类别包括性别和年龄中的至少一种；

显示模块503，用于显示与所述用户的类别匹配的影视资源。

与上述图2所示的方法实施例相对应，参见图6，为本公开实施例提供的一种影视资源匹配装置的部分模块框图。如图6所示，所述影视资源匹配装置500包括：

获取模块504，用于获取样本语音信息；

标注模块505，用于对所述样本语音信息的类别进行标注；

提取模块506，用于提取所述样本语音信息中的最优样本声纹信息；

训练模块507，用于将标注后的所述最优样本声纹信息输入基础卷积神经网络进行训练，得到所述声纹识别模型。

综上所述，本公开实施例提供的影视资源匹配方法及装置，将声纹识别技术与智能电视结合起来，实现了通过用户的语音指令识别用户的性别和年龄并对其进行归类，进而智能推荐与用户类别相符的影视资源。提高了搜索影视的效率；并且能够给不同的用户按照相应的兴趣喜好匹配对应的影视资源，提高了用户的使用体验。所提供的影视资源匹配装置的具体实施过程可以参见上述图1及图2所示的实施例提供的影视资源匹配方法的具体实施过程，在此不再一一赘述。

此外，本公开实施例还提供了一种智能电视，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行图1所述的影视资源匹配方法。

另外，本公开实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行上述图1所述的影视资源匹配方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种影视资源匹配方法，其特征在于，包括：

接收用户输入的语音指令；

显示与所述用户的类别匹配的影视资源。

2.根据权利要求1所述的影视资源匹配方法，其特征在于，所述声纹识别模型通过以下方式获得：

获取样本语音信息；

对所述样本语音信息的类别进行标注；

提取所述样本语音信息中的最优样本声纹信息；

3.根据权利要求2所述的影视资源匹配方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的影视资源匹配方法，其特征在于，所述提取所述样本语音信息中的最优样本声纹信息的步骤，包括：

通过深度学习神经网络提取所述样本语音信息中的最优声学特征，作为所述最优样本声纹信息。

5.根据权利要求1所述的影视资源匹配方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的影视资源匹配方法，其特征在于：

7.一种影视资源匹配装置，其特征在于，所述影视资源匹配装置包括：

接收模块，用于接收用户输入的语音指令；

显示模块，用于显示与所述用户的类别匹配的影视资源。

8.根据权利要求7所述的影视资源匹配装置，其特征在于，所述影视资源匹配装置还包括：

获取模块，用于获取样本语音信息；

标注模块，用于对所述样本语音信息的类别进行标注；

9.一种智能电视，其特征在于，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行权利要求1至6中任一项所述的影视资源匹配方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至6中任一项所述的影视资源匹配方法。