CN112579821A

CN112579821A - 一种基于实时语音输入的视频推荐方法、装置及计算设备

Info

Publication number: CN112579821A
Application number: CN202011487252.3A
Authority: CN
Inventors: 孙峥
Original assignee: Beijing Moviebook Technology Corp ltd
Current assignee: Beijing Moviebook Technology Corp ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-30

Abstract

本申请公开了一种基于实时语音输入的视频推荐方法、装置及计算设备。所述方法包括：将用户输入的语音信息划分为句子；将所述句子拆分成若干个单词；从所述单词中提取关键词；根据所述关键词及其对应的权重向用户推荐视频素材。所述装置包括：句子划分模块、单词拆分模块、关键词提取模块和视频推荐模块。所述计算设备包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现本申请所述的方法。

Description

一种基于实时语音输入的视频推荐方法、装置及计算设备

技术领域

本申请涉及视频推荐技术领域，特别是涉及基于实时语音输入的视频推荐方法及装置。

背景技术

自媒体属于私人化、平民化、普泛化、自主化的传播方式，自媒体是以现代化、电子化的手段，向不特定的大多数或者特定的个人传递规范性及非规范性信息的新媒体的总称。自媒体也称“个人媒体”、“公民媒体”，在网络技术特别是Web2.0的环境下，由于博客、共享协作平台与社交网络(如：微博、脸谱、Instagram、等)的兴起，使得每个人都具有媒体、传媒的功能。

随着自媒体的不断发展以及视频技术的不断进步，自媒体已经由传统的文字、图片等一维影像展现形式转向了以视频为主的二维展现形式，因此对于自媒体工作者的要求也有了进一步的提高。为了更好的服务于自媒体和传统媒体的视频影像工作，降低自媒体工作者的工作强度，基于语音输入的视频推荐技术变得越来越重要。

现有的基于语音输入的视频推荐技术存在如下问题：

1、针对性强，通常被局限于某个场景、某个公司、或者某个领域内部，不具备可移植性和可迁移性；

2、通过一维的分类，一般是通过某个关键词或者标签进行查找搜索，并非实际意义的“推荐”，效果差，效率低。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于实时语音输入的视频推荐方法，包括：

将用户输入的语音信息划分为句子；

将所述句子拆分成若干个单词；

从所述单词中提取关键词；

根据所述关键词及其对应的权重向用户推荐视频素材。

可选地，所述的将用户输入的语音信息划分为句子包括：

当用户选择的语音输入模式为文章模式时，将所述用户输入的语音信息拆分成若干个段落，再将每个段落拆分成若干个句子。

可选地，从所述单词中提取关键词所采用的方法至少包括利用互信息、词跨度、TF-IDF值和随机游走法中的一种。

可选地，利用互信息提取关键词的方法包括：

计算每个句子中每个单词的互信息值，得到每个单词的若干个互信息值；

将所述若干个互信息值进行排序，从而选取每个单词的最优互信息值；

根据每个单词的最优互信息值及所述最优互信息值的权重选取关键词。

可选地，利用词跨度提取关键词的方法包括：

计算每个句子中每个单词的词跨度；

选取词跨度超过预设阈值的单词作为关键词。

可选地，利用TF-IDF提取关键词的方法包括：

计算每个句子中每个单词的TF-IDF值；

选取TF-IDF值超过预设阈值的单词作为关键词。

可选地，利用随机游走法提取关键词的方法包括：

将每个单词作为pagerank中的一个节点；

设定窗口大小为k，假设一个句子依次由下面的单词组成：w1,w2,w3,w4,w5,…,wn，划分的窗口为：[w1,w2,…,wk]、[w2,w3,…,wk+1]、[w3,w4,…,wk+2]等。在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边；

基于构建图计算出每个单词节点的重要性。

根据本申请的另一个方面，提供了一种基于实时语音输入的视频推荐装置，包括：

句子划分模块，其配置成将用户输入的语音信息划分为句子；

单词拆分模块，其配置成将所述句子拆分成若干个单词；

关键词提取模块，其配置成从所述单词中提取关键词；和

视频推荐模块，其配置成根据所述关键词及其对应的权重向用户推荐视频素材。

根据本申请的第三个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现本申请所述的方法。

本申请的基于实时语音输入的视频推荐方法、装置及计算设备，可移植性强，并非某个领域或者某个场景的特定方法，而是可以普遍应用于别的各个场景；并且是从多维度进行搜索和推荐，根据对应维度的视频的标签进行相似度提取，从而提高推荐的效率和效果。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的基于实时语音输入的视频推荐方法的示意性流程图；

图2是根据本申请一个实施例的基于实时语音输入的视频推荐方法的示意性原理框图；

图3是根据本申请一个实施例的基于实时语音输入的视频推荐装置的结构示意图；

图4是根据本申请一个实施例的一种计算设备的结构示意图；

图5是根据本申请一个实施例的一种计算机可读存储介质的结构示意图。

具体实施方式

图1是根据本申请一个实施例的基于实时语音输入的视频推荐方法的示意性流程图，图2是根据本申请一个实施例的基于实时语音输入的视频推荐方法的示意性原理框图，所述视频推荐方法一般性地可包括：

步骤S1、将用户输入的语音信息划分为句子；

语音输入包括两种模式，一种是文章模式，另一种是句子模式。如果用户选择了文章模式，所述视频推荐方法会将用户输入的语音信息(即文章)按照句子之间的关联性分成若干个段落，段落的划分可以根据用户自定义设置，根据预设的段落之间的阀值进行自动调节，段落划分完成后，再将每个段落划分为若干个句子。

步骤S2、将所述句子拆分成若干个单词；

步骤S3、利用互信息、词跨度、TF-IDF值和随机游走法从所述单词中提取关键词；

步骤S4、根据所述关键词及其对应的权重向用户推荐视频素材。

基于NLP语义分析的互信息：

互信息是信息论中概念，是变量之间相互依赖的度量。互信息并不局限于实值随机变量，它更加一般，并且决定着联合分布p(x,y)和分解的边缘分布的乘积p(x)p(y)的相似程度。互信息I(X；Y)的计算公式如下：

其中，p(x,y)是X和Y的联合概率分布函数，p(x)和p(y)分别为X和Y的边缘概率分布函数。当使用互信息作为关键词提取的特征量化时，应用文本的正文和标题构造PAT树，然后计算字符串左右的互信息。

利用互信息提取关键词的方法包括：

所述权重包含了多个维度，例如关键词和对应标签之间的匹配度、词性、以及频率等信息。最优互信值、匹配度、词性、频率来提取关键词是配合使用的，对应的权重可根据实际情况进行设定。

基于NLP语义分析的词跨度：

词跨度是指一个词或者短语在文中首次出现和末次出现之间的距离，词跨度越大说明这个词对文本越重要，可以反映文本的主题。一个词的跨度计算公式如下：

其中，last_i表示词i在文本中最后出现的位置，first_i表示词i在文本中第一次出现的位置，sum表示文本中词的总数。

词跨度被作为提取关键词的方法是因为在现实中，文本中总是有很多噪声(指不是关键词的那些词)，使用词跨度可以减少这些噪声。

利用词跨度提取关键词的方法包括：

计算每个句子中每个单词的词跨度；

选取词跨度超过预设阈值的单词作为关键词。

基于NLP语义分析的TF-IDF值：

TF是指一个单词在文档中出现的频率，假设一个单词w在文本中出现了m次，而文本中单词的总数为n，那么TF值就是m/n。

IDF是根据语料库得出的，表示单词x在整个语料库中出现的频率，假设整个语料库中，包含词w的文本一共有M篇，语料库中的文本一共有N篇，则

由此可得词w的TF-IDF值为：

利用TF-IDF提取关键词的方法包括：

计算每个句子中每个单词的TF-IDF值；

选取TF-IDF值超过预设阈值的单词作为关键词。

随机游走法：

随机游走法是用来二次检验关键信息的匹配度和实际的预值之间的差异，用来检验关键词是否准确。随机游走算法一个很重要的应用是PageRank算法，PageRank算法是整个google搜索的核心算法，是一种通过网页之间的超链接来计算网页重要性的技术，其关键思想是重要性传递。在关键词提取领域，Mihalcea等人所提出的TextRank算法就是在文本关键词提取领域借鉴了这种思想。

TextRank算法的思想是基于PageRank，在构建图的时候将节点由网页改成了句子，并为节点之间的边引入了权值，其中权值表示两个句子的相似程度。其计算公式如下：

公式中的w_ji为构建图中节点v_i和边v_j的权重，Vk为度，d为互斥性，WS(V_i)为权重。

TextRank算法除了用做文本关键词提取，还可以用做文本摘要提取。TextRank的计算流程如下：

1)将原文本拆分为句子，在每个句子中过滤掉停用词，并只保留指定词性的单词，得到句子的集合和单词的集合。

2)每个单词作为pagerank中的一个节点。设定窗口大小为k，假设一个句子依次由下面的单词组成：w1,w2,w3,w4,w5,…,wn，划分的窗口为：[w1,w2,…,wk]、[w2,w3,…,wk+1]、[w3,w4,…,wk+2]等。在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。这种窗口划分方式更加立体和形象，而不仅仅是一维或者平面的，能够使最终选取的关键词更加精确。

3)基于上面构建图，可以计算出每个单词节点的重要性。重要性包括词性、权重、以及不同的关键词之间的联系。单词的词性包括名次、动词、形容词等，名词中又包含特定名词、熟语、地名等细致分类。权重指的是该单词在这个句子中所占的比重，不同的单词在句中所占的比重和代表性是不一样的，例如名词在句子中的权重高于形容词，权重的具体数值是人为设定的。选取最重要的若干单词可以作为关键词。

本实施例的基于实时语音输入的视频推荐方法，可移植性强，并非某个领域或者某个场景的特定方法，而是可以普遍应用于别的各个场景；并且是从多维度进行搜索和推荐，根据对应维度的视频的标签进行相似度提取，从而提高推荐的效率和效果。

图3是根据本申请一个实施例的基于实时语音输入的视频推荐装置的结构示意图。本申请实施例还提供了一种基于实时语音输入的视频推荐装置，包括：

句子划分模块1，其配置成将用户输入的语音信息划分为句子；

单词拆分模块2，其配置成将所述句子拆分成若干个单词；

关键词提取模块3，其配置成从所述单词中提取关键词；和

视频推荐模块4，其配置成根据所述关键词及其对应的权重向用户推荐视频素材。

从所述单词中提取关键词所采用的方法至少包括利用互信息、词跨度、TF-IDF值和随机游走法中的一种。

本实施例的基于实时语音输入的视频推荐装置，可移植性强，并非某个领域或者某个场景的特定方法，而是可以普遍应用于别的各个场景；并且是从多维度进行搜索和推荐，根据对应维度的视频的标签进行相似度提取，从而提高推荐的效率和效果。

本申请实施例还提供了一种计算设备，参照图4，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图5，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于实时语音输入的视频推荐方法，包括：

将用户输入的语音信息划分为句子；

将所述句子拆分成若干个单词；

从所述单词中提取关键词；

根据所述关键词及其对应的权重向用户推荐视频素材。

2.根据权利要求1所述的方法，其特征在于，所述的将用户输入的语音信息划分为句子包括：

3.根据权利要求1或2所述的方法，其特征在于，从所述单词中提取关键词所采用的方法至少包括利用互信息、词跨度、TF-IDF值和随机游走法中的一种。

4.根据权利要求1-3中任一项所述的方法，其特征在于，利用互信息提取关键词的方法包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，利用词跨度提取关键词的方法包括：

计算每个句子中每个单词的词跨度；

选取词跨度超过预设阈值的单词作为关键词。

6.根据权利要求1-5中任一项所述的方法，其特征在于，利用TF-IDF提取关键词的方法包括：

计算每个句子中每个单词的TF-IDF值；

选取TF-IDF值超过预设阈值的单词作为关键词。

7.根据权利要求1-6中任一项所述的方法，其特征在于，利用随机游走法提取关键词的方法包括：

将每个单词作为pagerank中的一个节点；

基于构建图计算出每个单词节点的重要性。

8.一种基于实时语音输入的视频推荐装置，包括：

单词拆分模块，其配置成将所述句子拆分成若干个单词；

关键词提取模块，其配置成从所述单词中提取关键词；和

9.根据权利要求8所述的装置，其特征在于，从所述单词中提取关键词所采用的方法至少包括利用互信息、词跨度、TF-IDF值和随机游走法中的一种。

10.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。