CN114697748A

CN114697748A - 一种基于语音识别的视频推荐方法和计算机设备

Info

Publication number: CN114697748A
Application number: CN202011568888.0A
Authority: CN
Inventors: 荣希; 谢冰
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-07-01
Anticipated expiration: 2040-12-25
Also published as: CN114697748B

Abstract

本发明提供了一种基于语音识别的视频推荐方法和计算机设备，基于语音识别的视频推荐方法包括：获取待处理的语音信息，并确定语音信息对应的分类信息和关键词；基于分类信息确定语音信息对应的目标检索集，并基于目标检索集和关键词确定目标查询信息；根据目标查询信息确定推荐视频。本发明可以通过确定语音信息对应的分类信息，即确定语音信息对应的查询领域，通过目标检索集可以推断出关键词对应的目标查询信息，目标查询信息包括的信息比语音信息包括的信息更丰富，进而可以检索到更符合用户需求的推荐视频，并且本方法不需要手动输入检索词和逐层选取的操作，极大地简化了用户获取推荐视频的操作过程，以及减少了操作难度。

Description

一种基于语音识别的视频推荐方法和计算机设备

技术领域

本申请涉及语音交互领域，特别是涉及一种基于语音识别的视频推荐方法和计算机设备。

背景技术

语音交互是用户通过语音向机器下发指令，机器对语音进行识别，并反馈结果。目前很多设备都具备语音交互的功能。对于智能电视，智能电视配置有视频点播(video ondemand，VOD)功能，用户可以在智能电视上点播视频。

目前，在智能电视上点播视频，需要遥控器进行逐层多次选取操作，才能找到用户想要观看的视频内容。过程耗时长，且操作繁琐。

因此，现有技术有待改进。

发明内容

本发明提供了一种基于语音识别的视频推荐方法和计算机设备，目标查询信息包括的信息比语音信息包括的信息更丰富，进而可以检索到更符合用户需求的推荐视频，并且本方法不需要手动输入检索词和逐层选取的操作，极大地简化了用户获取推荐视频的操作过程，以及减少了操作难度。

第一方面，本发明实施例提供了基于语音识别的视频推荐方法，包括：

获取待处理的语音信息，并确定所述语音信息对应的分类信息和关键词；

基于所述分类信息确定所述语音信息对应的目标检索集，并基于所述目标检索集和所述关键词确定目标查询信息；

根据所述目标查询信息确定推荐视频。

在进一步的改进方案中，所述确定所述语音信息对应的分类信息和关键词，具体包括：

将所述语音信息转换为文字信息；

基于所述文字信息和自然语言处理模型，确定所述语音信息对应的分类信息和关键词。

在进一步的改进方案中，所述基于所述分类信息确定所述语音信息对应的目标检索集，具体包括：

在预设的若干知识图谱中查询所述分类信息对应的目标知识图谱，并将所述目标知识图谱作为所述语音信息对应的目标检索集，其中，所述若干知识图谱的集合分类信息互不相同，所述若干知识图谱至少包括体育视频知识图谱。

在进一步的改进方案中，所述目标检索集包括若干检索子集；所述基于所述目标检索集和所述关键词确定目标查询信息，具体包括：

在所述目标检索集中获取所述关键词对应的目标检索子集；

在所述目标检索集中确定所述目标检索子集包括的若干候选检索子集，其中，每个候选检索子集包含于所述目标检索子集；

获取每个候选检索子集各自分别对应的播放量，将播放量最高的候选检索子集作为目标检索子集，并获取所述目标检索子集对应的子集标识；

继续执行所述在所述目标检索集中确定所述目标检索子集包括的若干候选检索子集的步骤，直至所述目标检索子集不存在若干候选检索子集；

基于所述关键词和获取到的所有子集标识确定。

在进一步的改进方案中，所述在所述目标检索集中获取所述关键词对应的目标检索子集之后，还包括：

当未在所述目标检索集中获取到所述关键词对应的目标检索子集时，确定所述关键词对应的关键类别标识，并获取所述关键类别标识对应的若干参考检索子集；

获取若干参考检索子集中每个参考检索子集各自分别对应的播放量，将播放量最高的参考检索子集作为目标检索子集，并采用播放量最高的参考检索子集对应的子集标识替换所述关键词。

在进一步的改进方案中，应用于显示设备，所述根据所述目标查询信息确定推荐视频，具体包括：

根据所述目标查询信息确定视频源，并确定所述视频源对应的视频播放应用；

当所述显示设备配置有所述视频播放应用时，打开所述视频播放应用，并基于所述视频源，在所述视频播放应用中确定所述推荐视频。

当所述显示设备未配置所述视频播放应用时，跳转至所述视频播放应用的安装页面，以安装所述视频播放应用，并在所述视频播放应用安装完成后，基于所述视频源，在所述视频播放应用中确定所述推荐视频。

第二方面，本发明实施例提供了一种基于语音识别的视频推荐装置，包括：

语音信息处理模块，用于获取待处理的语音信息，并确定所述语音信息对应的分类信息和关键词；

目标查询信息确定模块，用于基于所述分类信息确定所述语音信息对应的目标检索集，并基于所述目标检索集和所述关键词确定目标查询信息；

推荐视频确定模块，用于根据所述目标查询信息确定推荐视频。

第三方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据所述目标查询信息确定推荐视频。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据所述目标查询信息确定推荐视频。

与现有技术相比，本发明实施例具有以下优点：

本发明实施例中，获取待处理的语音信息，并确定语音信息对应的分类信息和关键词；基于分类信息确定语音信息对应的目标检索集，并基于目标检索集和关键词确定目标查询信息；根据目标查询信息确定推荐视频。本发明可以通过确定语音信息对应的分类信息，即确定语音信息对应的查询领域，通过目标检索集可以推断出关键词对应的目标查询信息，目标查询信息包括的信息比语音信息包括的信息更丰富，进而可以检索到更符合用户需求的推荐视频，并且本方法不需要手动输入检索词和逐层选取的操作，极大地简化了用户获取推荐视频的操作过程，以及减少了操作难度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于语音识别的视频推荐方法的应用场景的示意图；

图2为本发明实施例中Transformer编码结构的示意图；

图3为本发明实施例中体育知识图谱的示意图；

图4为本发明实施例的一个示例中，基于语音识别的视频推荐方法的示意图

图5为本发明实施例的另一个示例中，基于语音识别的视频推荐方法的示意图；

图6为本发明实施例中基于语音识别的查询装置的结构示意图；

图7为本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个

其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

发明人经过研究发现，语音交互是用户通过语音向机器下发指令，机器对语音进行识别，并反馈结果。目前很多设备都具备语音交互的功能。对于智能电视，智能电视配置有视频点播(video on demand，VOD)功能，用户可以在智能电视上点播视频。目前，在智能电视上点播视频，需要遥控器进行逐层多次选取操作，才能找到用户想要观看的视频内容。过程耗时长，且操作繁琐。

为了解决上述问题，在本发明实施例中，获取待处理的语音信息，并确定所述语音信息对应的分类信息和关键词；基于所述分类信息确定所述语音信息对应的目标检索集，并基于所述目标检索集和所述关键词确定目标查询信息；根据所述目标查询信息确定推荐视频。本发明可以通过确定语音信息对应的分类信息，即确定语音信息对应的查询领域，通过目标检索集可以推断出关键词对应的目标查询信息，目标查询信息包括的信息比语音信息包括的信息更丰富，进而可以检索到更符合用户需求的推荐视频，并且本方法不需要手动输入检索词和逐层选取的操作，极大地简化了用户获取推荐视频的操作过程，以及减少了操作难度。

本发明实施例提供的一种基于语音识别的视频推荐方法，可以应用于电子设备中，所述电子设备为可以接收语音信息，对语音信息进行处理的设备，例如，电脑、智能终端、智能电视、智能音箱、智能冰箱等设备。

参阅图1，本实施例提供了一种基于语音识别的视频推荐方法，包括：

S1、获取待处理的语音信息，并确定所述语音信息对应的分类信息和关键词。

在本发明实施例中，所述待处理的语音信息为用于查询推荐视频的语音信息。所述获取待处理的语音信息可以是获取用户发出的语音信息。例如，用户说出：“刘国梁的比赛”，则“刘国梁的比赛”则为待处理的语音信息。

在本发明实施例中，所述分类信息用于反映所述语音信息涉及的内容所对应的分类。例如，语音信息为：“刘国梁的比赛”，则分类信息为体育；语音信息为：“中国好声音”，则分类信息为综艺。所述关键词是查询推荐视频的关键信息，关键词是直接通过语音信息得到的信息，用于反映用户的需求。例如，语音信息为：“刘国梁的比赛”，则关键词包括：刘国梁。

在本发明实施例中，可以通过现有的语音识别技术确定语音信息中对应的分类信息和关键词。为了提高分类信息和关键词的准确性，可以先将语音信息转换为文字信息，并利用自然语言处理对文字信息进行处理，以确定语音信息中对应的分类信息和关键词。

具体的，步骤S1包括：

S11、将所述语音信息转换为文字信息。

在本发明实施例中，可以通过自动语音识别技术(Automatic SpeechRecognition，ASR)将语音信息转换为文字信息。ASR进行语音识别的过程包括：预先获取多个训练语音，多个训练语音中的每个训练语音均有该训练语音对应的文字，确定每个训练语音对应的训练参数，将确定的所有训练参数存放在语音参数库中；接收到待查询的语音信息后，对语音信息进行分析，以得到语音信息对应的若干语音参数，对于每个语音参数，将该语音参数与语音数据库中的所有训练参数进行比较，确定最接近该语音参数的训练参数，将训练参数对应的文字作为该语音信息对应的文字，根据所有语音参数各自分别对应的文字确定所述语音信息对应的文字信息。

在本发明实施例中，为了便于说明，将执行所述基于语音识别的视频推荐方法的设备记为显示设备。所述显示设备可以配置有ASR模块，在获取语音信息后，通过显示设备配置的ASR模块将所述语音信息转换为文字信息。若所述显示设备未配置ASR模块，显示设备可以将获取的语音信息发送至ASR服务器，通过ASR服务器将所述语音信息转换为文字信息。

S12、基于所述文字信息和自然语言处理模型，确定所述语音信息对应的分类信息和关键词。

在本发明实施例中，通过自然语言处理模型对文字信息进行分类，以确定文字信息对应的分类标识，以及文字信息对应的关键词，通过分类标识确定分类信息。

在本发明实施例中，所述自然语言处理模型为已经训练好的自然语言处理模型，所述自然语言处理模型包括：转换器的双向编码器(BidirectionalEncoderRepresentations from Transformers，BERT)网络和任务网络。

BERT网络可以学习到文字信息中词语与词语之间的关系，以得到词向量。词语可以是一个中文字符或者多个中文字符组成的词，词语也可以是英文的一个单词。具体的，首先对文字信息进行分词，得到多个词语，再获取多个词语中每个词语各自对应的初始词向量，将多个初始词向量输入BERT网络，得到每个词语对应的输出词向量。

BERT网络采用Transformer编码结构来构建，参见图2，示出了Transformer编码结构的示意图。接下来举例说明Transformer编码结构的处理流程。

假设输入为文字信息，将文字信息中的每个词语均转换为各自分别对应的初始词向量，对于每个初始词向量，为该初始词向量加上位置编码，得到该初始词向量对应的第一词向量，初始词向量的位置编码表示该初始词向量对应的词语在文字信息中的位置；将该第一词向量输入到多头注意力模型，以得到第二词向量，并将通过多头注意力模型的得到的第二词向量和该第二词向量对应的第一词向量相加，然后再进行归一化处理，得到中间词向量，再将中间词向量输入到前馈神经网络，将经过前馈神经网络处理后的中间词向量和未经过前馈神经网络处理的中间词向量相加，然后再进行归一化处理，得到输出词向量。

在本发明实施例中，所述任务网络包括文本分类网络和确定关键词网络，也就是说，通过自然语言处理模型完成两个任务，包括文本分类任务和确定关键词任务。

在本发明实施例中，所述文本分类网络可以是softmax分类器。将文字信息对应的各输出词向量输入softmax分类器，通过softmax分类器输出分类标识，基于分类标识确定分类信息。

例如，语音信息为：“刘国梁的比赛”，文字信息对应的各输出词向量是(t1,t2,t3,t4,t5),将(t1,t2,t3,t4,t5)输入softmax分类器，得到分类标识r1，假设分类标识r1对应的分类信息为体育，则语音信息对应的分类信息是体育。

在本发明实施例中，所述确定关键词网络包括双向长短期记忆循环(Bi-directional Long Short-Term Memory，BiLSTM)网络和条件随机场(Conditional RandomField，CRF)网络。

BiLSTM网络属于循环神经网络，包括前向LSTM网络和后向LSTM网络，通过BiLSTM网络可以确定每个词对应的标注。BiLSTM网络预先设定了若干标注，所述若干标注至少关键词标注，在确定文字信息中每个词语对应的标注之后，将属于关键词标注的词语作为该文字信息对应的关键词。

具体的，将文字信息对应的各输出词向量以正序输入前向LSTM网络，得到每个输出词向量对应的前向记忆词向量，将文字信息对应的各输出词向量以倒序输入后向LSTM网络，得到每个输出词向量对应的后向记忆词向量；对于每个输出词向量，将该输出词向量对应的前向记忆词向量和后向记忆词向量合并，以得到该输出词向量对应的记忆词向量。根据各记忆词向量确定BiLSTM网络的输出矩阵。所述记忆词向量中的各元素是该记忆词向量对应的输出词向量对应每个标注的概率值。即对于每个输出词向量，可以得到该词向量对应每个标注的概率值，将该词向量对应每个标注的概率值中最大概率值对应的标注作为该词向量的标注。

例如，对于文字信息“我爱中国”，划分的词语为：“我”、“爱”和“中国”，“我”对应的输出词向量为t1、“爱”对应的输出词向量为t2，“中国”对应的输出词向量为t3；前向LSTM网络至少包括：第一前向LSTM子网络(LSTM-l1)、第二前向LSTM子网络(LSTM-l2)和第三前向LSTM子网络(LSTM-l3)；后向LSTM网络至少包括：第一后向LSTM子网络(LSTM-r1)、第二后向LSTM子网络(LSTM-r2)和第三后向LSTM子网络(LSTM-r3)。前向输入包括：将t1输入LSTM-l1，得到h-l1，将h-l1和t2输入LSTM-l2，得到h-l2，将h-l2和t3输入LSTM-l3，得到h-l3；后向输入包括：将t3输入LSTM-r1，得到h-r1，将h-r1和t2输入LSTM-r2，得到h-r2，将h-r2和t1输入LSTM-r3，得到h-r3。将h-l1和h-r3合并，得到t1对应的记忆词向量f1，将h-l2和h-r2合并，得到t2对应的记忆词向量f2，将h-l3和h-r1合并，得到t3对应的记忆词向量f3。根据f1、f2和f3确定输出矩阵。

假设f3为(x1,x2,x3)，f3是t3对应的记忆词向量，其中，x1表示：t3属于标注y1的概率，x2表示：t3属于标注y2的概率，x3表示：t3属于标注y3的概率，若(x1,x2,x3)中，x1最大时，则将y1作为t3对应的标注。假设标注y1为检索标注，则t3属于关键词，即，在“我爱中国”中，“中”对应的标注为检索标注，此文字信息中的关键词包括“中”。

CRF网络用于对BiLSTM网络输出的结果进行调整。BiLSTM网络的输出结果为输出矩阵，用于反映每个词语各自分别对应每个标注的概率，CRF网络添加了一些约束来保证预测的标注是合法的，通过CRF网络对BiLSTM网络得到的输出矩阵进行调整，以得到每个词语各自分别对应的标注，根据每个词语各自分别对应的标注，可以确定文字信息对应的关键词。

例如，语音信息为：“刘国梁的比赛”，根据自然语言处理模型确定语音信息对应的分类信息为“体育”，关键词为：“刘国梁”。

S2、基于所述分类信息确定所述语音信息对应的目标检索集，并基于所述目标检索集和所述关键词确定目标查询信息。

在本发明实施例中，所述分类信息反映所述语音信息涉及的内容。显示设备中预先保存了若干数据集，每个数据集均有各自分别对应的集合分类信息，并且，任意两个数据集各自分别对应的集合分类信息不相同。数据集对应的集合分类信息用于反映该数据集涉及的内容所属的分类。

在本发明实施例中，将所述分类信息与每个数据集各自分别对应的集合分类信息进行匹配，将与分类信息一致的集合分类信息所对应的数据集作为所述语音信息对应的目标检索集。

例如，显示设备中预先保存的若干数据集分别为：A1、A2、A3和A4，其中，A1的集合分类信息为s1，A2的集合分类信息为s2，A3的集合分类信息为s3，A4的集合分类信息为s4，假设分类信息为s1，则将A1作为目标检索文件。

在本发明实施例中，所述数据集可以是知识图谱，也就是说，显示设备预先保存了若干知识图谱。基于所述分类信息在若干知识图谱中确定目标检索集。

具体的，步骤S2包括：

S21、在预设的若干知识图谱中查询所述分类信息对应的目标知识图谱，并将所述目标知识图谱作为所述语音信息对应的目标检索集。

在本发明实施例中，所述知识图谱，用于描述客观存在的各实体、每个实体的属性，以及实体与实体之间的关联，可以更全面地描述数据。根据知识图谱可以检索到更符合用户需求的推荐视频。当所述数据集是知识图谱时，所述数据集的集合分类信息即知识图谱的集合分类信息。

在本发明实施例中，所述若干知识图谱中的每个知识图谱均有该知识图谱对应的集合分类信息。所述若干知识图谱的集合分类信息互不相同。将所述分类信息与每个知识图谱各自分别对应的集合分类信息进行匹配，将与分类信息一致的集合分类信息所对应的知识图谱作为所述语音信息对应的目标检索集。若干知识图谱至少包括体育视频知识图谱，所述体育视频知识图谱对应的集合分类信息是体育。

现有技术的检索中，只能根据关键词进行检索，例如，用户想要看姚明的比赛视频，关键词为“姚明”，当仅查询“姚明”对应的视频时，可能会查询到姚明出演的广告、姚明接收采访的视频等，而无法查询到姚明的比赛视频。在确定语音信息对应的目标检索文件后，可以在目标检索文件中查询姚明的比赛视频，可以得到更符合用户需求的推荐结果。

S22、在所述目标检索集中获取所述关键词对应的目标检索子集。

在本发明实施例中，所述目标检索集包括若干检索子集，并且按照每个检索子集所涉及的内容，将若干检索子集划分为若干类别集合，每个类别集合均有其对应的类别标识，每个检索子集均有其对应的子集标识。也就是说，目标检索集包括若干类别集合，每个类别集合又包括其对应的若干检索子集。任意两个类别集合各自对应的类别标识不同，任意两个检索子集各自分别对应的子集标识不同，属于同一类别集合的若干检索子集的层级相同。由于任意两个检索子集各自分别对应的子集标识不同，因此，可以基于关键词确定唯一的检索子集。

例如，类别集合包括第一类别集合，第二类别集合，第一类别集合包括检索子集1、检索子集2，第二类别集合包括检索子集3和检索子集4；其中，第一类别集合的类别标识为第一类别标识，第二类别集合的类别标识为第二类别标识，检索子集1的子集标识为1，检索子集2的子集标识为2，检索子集1的子集标识为3，检索子集4的子集标识为4。则检索子集1和检索子集2对应的类别标识均为第一类别标识，检索子集3和检索子集4对应的类别标识均为第二类别标识。

在本发明实施例中，当所述目标检索集是目标知识图谱时，所述目标知识图谱包括若干检索子集，每个检索子集均有其对应的子集标识，将所述关键词与每个检索子集的子集标识进行匹配，将与所述关键词一致的检索子集作为目标检索子集。

例如，语音信息为：“刘国梁的比赛”，分类信息为“体育”，关键词为：“刘国梁”，则在体育知识图谱中查找子集标识为“刘国梁”的检索子集，将子集标识为“刘国梁”的检索子集作为目标检索子集。

S23、在所述目标检索集中确定所述目标检索子集包括的若干候选检索子集。

在本发明实施例中，每个候选检索子集包含于所述目标检索子集。若为每个检索子集分层级，对于目标检索子集，以及该目标检索子集包含的若干候选检索子集，一检索子集的层级比任一若干候选检索子集的层级高一级。例如，对于目标检索子集C1，C1对应的若干候选检索子集分别为D1、D2和D3，假设C1的层级为1，则D1、D2和D3层级均为2。

在一个示例中，参见图3，所述体育知识图谱包括若干类别集合，分别为：联赛(Competition)、比赛项目(SportsEvent)、赛区(Division)、队名(Team)、运动员(Player)和教练(Coach)。

每个类别集合均有对应的检索子集，其中，Player包括每个运动员各自分别对应的检索子集，每个检索子集对应的子集标识为运动员的名称，例如，player包括：子集标识为“刘国梁”的检索子集，子集标识为“姚明”的检索子集等。Competition包括每个赛事各自分别对应的检索子集，每个检索子集的子集标识为赛事对应的名称，例如，Competition包括：子集标识为“NBA”的检索子集，子集标识为：“英格兰超级联赛”的检索子集等。

类别集合之间存在层级关系，其中，Player的层级高于Team的层级，Team的层级高于Competition的层级，Division与Team属于同一层级。当目标检索子集属于Player时，目标检索子集包含的若干候选检索子集属于Team。例如，目标检索子集是子集标识为“姚明”的检索子集，若干候选检索子集包括：子集标识为“中国国家队”的检索子集，以及子集标识为：“休斯顿火箭队”的检索子集。其中，子集标识为“中国国家队”的检索子集和子集标识为：“休斯顿火箭队”的检索子集均包含于Team，子集标识为“姚明”的检索子集包含于player，子集标识为“中国国家队”的检索子集的层级，以及子集标识为：“休斯顿火箭队”的检索子集的层级，均低于子集标识为“姚明”的检索子集的层级。

S24、获取每个候选检索子集各自分别对应的播放量，将播放量最高的候选检索子集作为目标检索子集，并获取所述目标检索子集对应的子集标识。

例如，目标检索子集是子集标识为“姚明”的检索子集，若干候选检索子集包括：子集标识为“中国国家队”的检索子集u1，以及子集标识为：“休斯顿火箭队”的检索子集u2，若u1的播放量最高，则将u1作为更新后的目标检索子集，获取u1的子集标识：“中国国家队”；若u2的播放量最高，则将u2作为更新后的目标检索子集，获取u2的子集标识：“休斯顿火箭队”。

S25、继续执行所述在所述目标检索集中确定所述目标检索子集包括的若干候选检索子集的步骤，直至所述目标检索子集不存在若干候选检索子集。

在本发明实施例中，继续执行步骤S23，以进一步确定若干候选检索子集，进而在若干候选检索子集中确定更新后的目标检索子集。所述直至无法在所述目标检索集中确定目标检索子集包括的若干候选检索子集，是指所述目标检索子集已经处于所述目标检索集中的最底层。

例如，在上例中，目标检索子集的子集标识为“姚明”的检索子集，将子集标识为：“休斯顿火箭队”的检索子集作为更新后的目标检索子集，将子集标识为：“NBA”的检索子集作为下一更新后的目标检索子集，假设子集标识为：“NBA”的检索子集不包括任何候选检索子集，则结束。

S26、基于所述关键词和获取到的所有子集标识确定目标查询信息。

在本发明实施例中，目标查询信息包括所述关键词和获取到的所有子集标识，获取到的所有子集标识均是前述步骤中被确定为目标检索子集的子集标识。

例如，在上例中，获取的所有子集标识包括：休斯顿火箭队和NBA，关键词为姚明，则目标查询信息为：NBA、休斯顿火箭队、姚明。

在一种实现方式中，对于步骤S22，可能无法在目标检索集中获取到关键词对应的目标检索子集，则在所述关键词对应的类别集中确定目标检索子集。

具体的，在步骤S22之后，还包括：

M1、当未在所述目标检索集中获取到所述关键词对应的目标检索子集时，确定所述关键词对应的关键类别标识，并获取所述关键类别标识对应的若干参考检索子集。

在发明实施例中，所述关键类别标识，是指关键词对应的类别标识。具体的，确定关键词对应的类别集合，将该类别集合的类别标识作为关键类别标识。

例如，关键词为姚明，关键词对应的类别集合是player，将player对应的类别标识作为关键类别标识，则关键类别标识为运动员。

在本发明实施例中，关键类别标识对应的类别集合中包括的检索子集为若干参考检索子集。例如，关键类别标识为运动员，将运动员类别集合包括的检索子集作为参考检索子集，若干参考检索子集包括：子集标识为“科比布莱恩特”的检索子集，子集标识为“勒布朗詹姆斯”的检索子集。

M2、获取若干参考检索子集中每个参考检索子集各自分别对应的播放量，将播放量最高的参考检索子集作为目标检索子集，并采用播放量最高的参考检索子集对应的子集标识替换所述关键词。

在本发明实施例中，将播放量最高的参考检索子集作为目标检索子集，并继续执行步骤S23，直至所述目标检索子集不存在若干候选检索子集。所述目标检索子集不存在若干候选检索子集，是指所述目标检索子集下不包括任何检索子集，进而无法在所述目标检索集中确定所述目标检索子集包括的若干候选检索子集。

例如，关键类别标识为运动员，若干参考检索子集包括：子集标识为“科比布莱恩特”的检索子集，子集标识为“勒布朗詹姆斯”的检索子集，其中，子集标识为“科比布莱恩特”的检索子集的播放量高于子集标识为“勒布朗詹姆斯”的检索子集，将子集标识为“科比布莱恩特”的检索子集作为目标检索子集，并继续执行步骤S23。如此，得到的目标查询信息可能为：NBA、洛杉矶湖人队、科比布莱恩特。

在发明实施例中，在步骤M1中，若关键类别标识对应的类别集合中不包括任何检索子集，则在目标检索文件中确定所述关键类别标识对应的类别集合的上一层类别集合，并将上一层类别集合的类别标识作为关键类别标识。

例如，关键类别标识为运动员，在player中不包括任何检索子集，则确定player的上一层类别集合：team，将team对应的类别标识“队名”作为关键类别标识，并在team中确定若干参考集合。这样，得到的目标查询信息可能为：NBA、洛杉矶湖人队(不包括运动员)。

S3、根据所述目标查询信息确定推荐视频。

在本发明实施例中，可以将所述目标查询信息作为搜索词，在网络中搜索目标查询信息对应的推荐视频。

具体的，步骤S3包括：

S31、根据所述目标查询信息确定视频源，并确定所述视频源对应的视频播放应用。

在本发明实施例中，在得到目标查询信息后，根据所述目标查询信息确定视频源。所述视频源包括平台信息，所述平台信息包括：应用程序名称。根据应用程序名称确定视频播放应用。

在一种实现方式中，所述平台信息还可以包括视频点播(video on demand，VOD)，当平台信息是应用程序名称时，直接调用显示设备的VOD功能，并基于视频源获取推荐视频。

S32、当所述显示设备配置有所述视频播放应用时，打开所述视频播放应用，并基于所述视频源，在所述视频播放应用中确定所述推荐视频。

在本发明实施例中，若显示设备已经安装视频播放应用，则直接打开视频播放应用，并跳转到视频播放应用，以通过所述视频播放应用获取所述推荐视频。

S33、当所述显示设备未配置所述视频播放应用时，跳转至所述视频播放应用的安装页面，以安装所述视频播放应用，并在所述视频播放应用安装完成后，基于所述视频源，在所述视频播放应用中确定所述推荐视频。

在本发明实施例中，若显示设备未安装视频播放应用，则可以安装该视频播放应用。在跳转至所述视频播放应用的安装页面之前，可以显示提示信息，以使得用户可以通过提示信息了解需要安装视频播放应用。在跳转至所述视频播放应用的安装页面之前，可以显示询问信息，所述询问信息用于确定是否跳转至所述视频播放应用的安装页面，并在询问信息通过后，跳转至所述视频播放应用的安装页面，以避免未经用户同意安装视频播放应用的情况。

在现有技术中，经常出现显示设备未安装播放推荐视频的应用，并且用户并不知道通过哪些应用可以播放推荐视频的情况。本发明中的视频源包括平台信息，所述平台信息包括：应用程序名称，即可以明确播放推荐视频的应用，在显示设备未安装视频播放应用时，跳转到视频播放应用的安装页面，极大减少了无法获取推荐视频的情况。

在本发明实施例中，由于目标知识图谱中包括视频源，也可以基于目标查询信息在目标知识图谱搜索推荐视频。则将目标查询信息转换为适用于知识图谱查询的cypher语言，根据目标查询信息对应的cypher语言和所述目标知识图谱获取推荐视频。

具体的，基于目标查询信息对应的cypher语言在所述目标知识图谱中获取若干视频，在若干视频中随机选取一个视频作为推荐视频。

例如，目标查询信息为：NBA、休斯顿火箭队、姚明，目标查询信息对应的cypher语言为：MATCH(p:Person{name:"姚明"})-[:PLAY_IN]->(t:Team:"休斯顿火箭队")-[:BELONG_TO]->(c:Competition:"NBA")RETURN c。其中，c为基于目标查询信息对应的cypher语言的视频的数量，可以设定c为20，则获取20个满足目标查询信息对应的cypher语言的视频，可以在20个满足目标查询信息对应的cypher语言的视频中随机选取一个视频作为推荐视频。

在本发明实施例中，可以与显示设备实现对话形式的视频推荐，即用户发出语音，显示设备获取推荐视频后，先通过发声单元播放应答信息，再播放推荐视频。所述应答信息可以基于所述推荐视频确定，例如，应答信息可以是推荐视频的视频名称。

具体的，通过从文本到语音(Text To Speech,TTS)的方法，将推荐视频的视频名称转换为语音形式，以得到应答信息，通过显示设备中的发声单元播放应答信息。

在一个示例中，参见图4，所述语音识别的视频推荐方法包括：

显示设备获取语音信息；将语音信息发送到ASR服务器，以得到语音信息对应的文字信息；将文字信息输入到自然语言处理模型，得到分类信息和关键词；根据分类信息、关键词和知识图谱确定目标查询信息；根据目标查询信息确定视频源，显示设备根据视频源调用视频播放应用，或者视频点播，以获取推荐视频。

在一个示例中，参见图5，当显示设备中预存的知识图谱只有体育知识图谱时，所述语音识别的视频推荐方法包括：

步骤1、获取语音信息；

步骤2、确定语音信息对应的文字信息；

步骤3、基于文字信息确定分类信息和关键词；

步骤4、判断分类信息对应的知识图谱是否为体育知识图谱，若是则进入步骤5，若不是，则结束；

步骤5、根据体育知识图谱和关键词确定目标检索信息；

步骤6、根据目标检索信息确定视频源；

步骤7、根据视频源调用视频播放应用，或者视频点播，以获取推荐视频。

在本发明实施例中，获取待处理的语音信息，并确定所述语音信息对应的分类信息和关键词；基于所述分类信息确定所述语音信息对应的目标检索集，并基于所述目标检索集和所述关键词确定目标查询信息；根据所述目标查询信息确定推荐视频。本发明可以通过确定语音信息对应的分类信息，即确定语音信息对应的查询领域，通过目标检索集可以推断出关键词对应的目标查询信息，目标查询信息包括的信息比语音信息包括的信息更丰富，进而可以检索到更符合用户需求的推荐视频，并且本方法不需要手动输入检索词和逐层选取的操作，极大地简化了用户获取推荐视频的操作过程，以及减少了操作难度。

基于上述一种基于语音识别的视频推荐方法，本发明实施例还提供了一种语音识别的视频推荐装置，参见图6，包括：

在一个实施例中，本发明提供了一种计算机设备，该设备可以是终端，内部结构如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络模型接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络模型接口用于与外部的终端通过网络模型连接通信。该计算机程序被处理器执行时以实现一种基于语音识别的视频推荐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7所示的仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据所述目标查询信息确定推荐视频。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据所述目标查询信息确定推荐视频。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于语音识别的视频推荐方法，其特征在于，包括：

根据所述目标查询信息确定推荐视频。

2.根据权利要求1所述的基于语音识别的视频推荐方法，其特征在于，所述确定所述语音信息对应的分类信息和关键词，具体包括：

将所述语音信息转换为文字信息；

3.根据权利要求1所述的基于语音识别的视频推荐方法，其特征在于，所述基于所述分类信息确定所述语音信息对应的目标检索集，具体包括：

4.根据权利要求1所述的基于语音识别的视频推荐方法，其特征在于，所述目标检索集包括若干检索子集；所述基于所述目标检索集和所述关键词确定目标查询信息，具体包括：

在所述目标检索集中获取所述关键词对应的目标检索子集；

基于所述关键词和获取到的所有子集标识确定。

5.根据权利要求4所述的基于语音识别的视频推荐方法，其特征在于，所述在所述目标检索集中获取所述关键词对应的目标检索子集之后，还包括：

6.根据权利要求1-5中任一所述的基于语音识别的视频推荐方法，其特征在于，应用于显示设备，所述根据所述目标查询信息确定推荐视频，具体包括：

7.根据权利要求1-5中任一所述的基于语音识别的视频推荐方法，其特征在于，应用于显示设备，所述根据所述目标查询信息确定推荐视频，具体包括：

8.一种语音识别的视频推荐装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任意一项所述的基于语音识别的视频推荐方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的基于语音识别的视频推荐方法中的步骤。