CN105869623A

CN105869623A - 基于语音识别的视频播放方法及装置

Info

Publication number: CN105869623A
Application number: CN201510891071.XA
Authority: CN
Inventors: 高健
Original assignee: LeTV Information Technology Beijing Co Ltd
Current assignee: LeTV Information Technology Beijing Co Ltd
Priority date: 2015-12-07
Filing date: 2015-12-07
Publication date: 2016-08-17

Abstract

本发明是关于一种基于语音识别的视频播放方法及装置，其方法包括：获取语音信号；生成与所述语音信号相对应的特征信息；判断预先建立的特征信息表中是否存在与所述特征信息相匹配的视频信息；当所述预先建立的特征信息表中存在与所述特征信息相匹配的视频信息时，播放与所述视频信息相对应的视频。与传统的方式相比，本发明可以突破儿童用户等语言表达能力不强的限制，迅速搜索并播放用户所需观看的视频节目。

Description

基于语音识别的视频播放方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种基于语音识别的视频播放方法及装置。

背景技术

随着技术的不断发展，用户使用的智能终端的类型和数量也越来越多，很多智能终端也具有语音识别的功能。传统的语音识别技术主要通过对语音信号的处理，通过将需要识别的语音信号与模板库中的信号进行匹配，达到识别的目的。

然而，针对儿童、智障及口吃等语言表达能力不强的用户在选择需要观看视频时，传统的语音识别技术很难识别出这些用户语音中表达的确切意思，视频终端往往无法播放出相应的视频，给这些用户造成困扰。

发明内容

为克服相关技术中存在的问题，本发明提供一种基于语音识别的视频播放方法及装置。

根据本发明实施例的第一方面，提供一种基于语音识别的视频播放方法，包括：获取语音信号；

生成与所述语音信号相对应的特征信息；

判断预先建立的特征信息表中是否存在与所述特征信息相匹配的视频信息；

当所述预先建立的特征信息表中存在与所述特征信息相匹配的视频信息时，播放与所述视频信息相对应的视频。

优选地，所述生成与所述语音信号相对应的特征信息，包括：

将所述语音信息进行预处理，得到预处理语音信号；

将所述预处理语音信号转换为文字信息；

提取所述文字信息中的特征信息。

优选地，所述判断预先建立的特征信息表中是否存在与所述特征信息相匹配的视频信息，包括：

获取预先建立的特征信息表；

将所述特征信息与所述特征信息表中的信息逐一比对；

判断所述信息表中是否有与所述特征信息相对应的视频信息；

当所述信息表中有与所述特征信息相对应的视频信息时，确定预先建立的特征信息表中存在与所述特征信息相匹配的视频信息；

当所述信息表中没有与所述特征信息相对应的视频信息时，确定预先建立的特征信息表中不存在与所述特征信息相匹配的视频信息。

优选地，所述播放与所述视频信息相对应的视频，包括：

在预设视频库中查找与所述视频信息相对应的视频；

在视频播放界面播放与所述视频信息相对应的视频。

优选地，还包括：

当所述预先建立的特征信息表中不存在与所述特征信息相匹配的视频信息时，弹出搜索框，以使用户在所述搜索框中输入搜索信息；

获取所述搜索框中输入的搜索信息；

搜索与所述搜索信息相对应的视频信息；

当搜索到与所述搜索信息相对应的视频信息时，在视频播放界面显示视频信息播放列表，以使用户在所述视频信息播放列表中选取所需的视频信息；

获取用户的视频信息选择操作；

在所述视频播放界面播放与所述视频信息选择操作对应的视频。

根据本发明实施例的第二方面，提供一种基于语音识别的视频播放装置，包括：

信号获取模块，用于获取语音信号；

特征信息生成模块，用于生成与所述语音信号相对应的特征信息；

信息判断模块，用于判断预先建立的特征信息表中是否存在与所述特征信息相匹配的视频信息；

视频播放模块，用于在所述预先建立的特征信息表中存在与所述特征信息相匹配的视频信息时，播放与所述视频信息相对应的视频。

优选地，所述特征信息生成模块，包括：

预处理子模块，用于将所述语音信息进行预处理，得到预处理语音信号；

信息转换子模块，用于将所述预处理语音信号转换为文字信息；

信息提取子模块，用于提取所述文字信息中的特征信息。

优选地，所述信息判断模块，包括：

特征信息表获取子模块，用于获取预先建立的特征信息表；

比对子模块，用于将所述特征信息与所述特征信息表中的信息逐一比对；

信息判断子模块，用于判断所述信息表中是否有与所述特征信息相对应的视频信息；

第一信息确定子模块，用于在所述信息表中有与所述特征信息相对应的视频信息时，确定预先建立的特征信息表中存在与所述特征信息相匹配的视频信息；

第二信息确定子模块，用于在所述信息表中没有与所述特征信息相对应的视频信息时，确定预先建立的特征信息表中不存在与所述特征信息相匹配的视频信息。

优选地，所述视频播放模块，包括：

视频查找子模块，用于在预设视频库中查找与所述视频信息相对应的视频；

第一视频播放子模块，用于在视频播放界面播放与所述视频信息相对应的视频。

优选地，还包括：

搜索框弹出子模块，用于在所述预先建立的特征信息表中不存在与所述特征信息相匹配的视频信息时，弹出搜索框，以使用户在所述搜索框中输入搜索信息；

搜索信息获取子模块，用于获取所述搜索框中输入的搜索信息；

视频搜索子模块，用于搜索与所述搜索信息相对应的视频信息；

列表显示子模块，用于在搜索到与所述搜索信息相对应的视频信息时，在视频播放界面显示视频信息播放列表，以使用户在所述视频信息播放列表中选取所需的视频信息；

操作选取子模块，用于获取用户的视频信息选择操作；

第二视频播放子模块，用于在所述视频播放界面播放与所述视频信息选择操作对应的视频。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明提供的基于语音识别的视频播放方法及装置，针对儿童等用户语言表达能力不强的情况下，可以预先建立特征信息表，将获取到的儿童用户的语音信号进行处理，并将得到的特征信息与预先建立的特征信息表中的信息进行比对，如果在该特征信息表中存在与该特征信息相对应的视频名称，那么电视机会自动播放与该视频名称相对应的视频。与传统的方式相比，本发明可以突破儿童用户等语言表达能力不强的限制，迅速搜索并播放用户所需观看的视频节目。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于语音识别的视频播放方法的流程图；

图2是图1中步骤S120的流程图；

图3是图1中步骤S130的流程图；

图4是图1中步骤S140的流程图；

图5是根据又一示例性实施例示出的一种基于语音识别的视频播放方法的流程图；

图6是根据又一示例性实施例示出的一种基于语音识别的视频播放装置的示意图；

图7是图6中特征信息生成模块的示意图；

图8是图6中信息判断模块的示意图；

图9是图6中视频播放模块的示意图；

图10是根据又一示例性实施例示出的一种基于语音识别的视频播放装置的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

随着技术的不断发展，电视机也越来越智能化，很多电视机(或者其配套的遥控器)上都有语言识别的功能，这样用户在看电视时，只需要用语言表达出来所想看的电视节目的名称或类别，电视机就可以根据用户的语音识别出用户所要表达的意思，进而进行搜索。

上述已有的方式针对语音表达能力较好的成年人用户等可以显示出很强的语音识别功能，但是对语言表达能力不好的儿童等用户就显得无能为力了，儿童一般只会说出所想看电视节目名称或内容中的某些关键字，已有的搜索方式即便能根据儿童的片言只语也能搜索出一些电视节目，但是搜索出的这些电视节目过程却没有考虑到儿童身份的需求，示例性的，当儿童想看《喜羊羊与灰太狼》这部动画片时，很可能只会说“羊”这个关键字，已有的搜索方式可能会将与“羊”有关的所有电视节目都搜索出来，使得儿童用户无法选择观看所需的电视节目。

为了解决上述问题，本发明实施例首先提供了一种基于语音识别的视频播放方法，如图1所示，该方法可以包括如下步骤：

在步骤S110中，获取语音信号。

以儿童在看电视时为例，该儿童所看的电视机具有语音识别功能，用户对着电视机或遥控器说话时，电视机能够识别出用户的语音信息。其中，遥控器也属于电视机的一部分，如果遥控器具有语音识别功能，也可以说明该电视机具有语音识别功能，为避免表达的繁琐，下述不再涉及遥控器。

因此，在儿童看电视时，为了看到自己想看的电视节目，该儿童用户会说出想要表达的电视节目的名称或内容，即产生语音信号，电视机会接收到儿童用户发出的语音信号。

在步骤S120中，生成与语音信号相对应的特征信息。

由于儿童用户的语言表达能力可能不强，及发音也可能不太清楚，因此，电视机对获取到儿童的语音信号进行预处理、语音识别等，识别出儿童所要表达的意思，并将预处理后的该语音信号转换为对应的特征信息。

在步骤S130中，判断预先建立的特征信息表中是否存在与特征信息相匹配的视频信息。

在该步骤之前，需要预先建立特征信息表，将特征信息与电视节目的名称相对应。示例性的，如表1所示：

表1

因此，在将儿童用户发出的语音信号生成对应的特征信息后，将该特征信息与预先建立的特征信息表中的预设特征信息进行比对，如果在预设特征信息中存在与该特征信息相同的电视节目名称，那么获取到该电视节目名称。

当预先建立的特征信息表中存在与特征信息相匹配的视频信息时，在步骤S140中，播放与视频信息相对应的视频。

示例性的，结合表1，当儿童用户对着电视机说“小灰灰”时，电视机将获取到的该儿童用户的语音信号进行处理，转换为特征信息，然后将该特征信息与预先建立的特征信息表中的信息进行比对，发现与“小灰灰”相匹配的电视节目名称为“喜羊羊与灰太狼”，那么电视机就会播放该《喜羊羊与灰太狼》电视节目。

本发明提供的基于语音识别的视频播放方法，针对儿童等用户语言表达能力不强的情况下，可以预先建立特征信息表，将获取到的儿童用户的语音信号进行处理，并将得到的特征信息与预先建立的特征信息表中的信息进行比对，如果在该特征信息表中存在与该特征信息相对应的视频名称，那么电视机会自动播放与该视频名称相对应的视频。与传统的方式相比，本发明可以突破儿童用户等语言表达能力不强的限制，迅速搜索并播放用户所需观看的视频节目。

另外，作为图1方法的细化，在本发明提供的又一实施例中，如图2所示，步骤S 120还可以包括：

在步骤S121中，将语音信息进行预处理，得到预处理语音信号。

这里的预处理，可以是去噪处理等，如通过滤波器对语音信号进行滤波，然后得到预处理之后的语音信号，避免噪声干扰，以便更好的识别。

在步骤S122中，将预处理语音信号转换为文字信息。

首先需要识别出预处理语音信号，具体可以将该预处理语音信号与识别库中的信号新匹配，然后将该预处理信号转换为对应的文字信息。可以采用已有较为成熟的算法，这里不在赘述。

在步骤S123中，提取文字信息中的特征信息。

由于儿童用户的语言表达可能包括其他不是很重要的信息，有的甚至还有苦恼的语音信息等，因此需要从中提取有用的信息作为特征信息。示例性的，当儿童用户说：“我想看小灰灰…”，那么这句话中“小灰灰”就称为特征信息，需要将其从中提取出来。当然，为了识别出那些文字信息可以作为特征信息，需要预先建立对应的特征信息库，将提取出的文字信息与特征信息库中的信息进行匹配，提取文字信息中的特征信息。

为了判断预先建立的特征信息表中是否存在与特征信息相匹配的视频信息，作为图1方法的细化，在本发明的另一实施例中，如图3所示，步骤S130还可以包括：

在步骤S131中，获取预先建立的特征信息表。

该特征信息表在建立好之后，可以存放在电视机本地的存储装置中，还可以放在云端或其他可以与该电视机通信的设备中。

在步骤S132中，将特征信息与特征信息表中的信息逐一比对。

可以结合上述表1的实施例进行说明，这里不再赘述。

在步骤S133中，判断信息表中是否有与特征信息相对应的视频信息。

当信息表中有与特征信息相对应的视频信息时，在步骤S134中，确定预先建立的特征信息表中存在与特征信息相匹配的视频信息。

当信息表中没有与特征信息相对应的视频信息时，在步骤S135中，确定预先建立的特征信息表中不存在与特征信息相匹配的视频信息。

作为图1方法的细化，在本发明的另一实施例中，如图4所示，步骤S140还可以包括：

在步骤S141中，在预设视频库中查找与视频信息相对应的视频。

在步骤S142中，在视频播放界面播放与视频信息相对应的视频。

在查找到儿童用户所需观看的视频名称之后，就可以根据该视频名称在视频库中搜索该视频，并在显示器上播放该视频。

另外，作为图1方法的细化，在本发明的另一实施例中，如图5所示，该方法还可以包括如下步骤：

在步骤S151中，当预先建立的特征信息表中不存在与特征信息相匹配的视频信息时，弹出搜索框，以使用户在搜索框中输入搜索信息。

在步骤S152中，获取搜索框中输入的搜索信息。

在步骤S153中，搜索与搜索信息相对应的视频信息。

在步骤S154中，当搜索到与搜索信息相对应的视频信息时，在视频播放界面显示视频信息播放列表，以使用户在视频信息播放列表中选取所需的视频信息。

在步骤S155中，获取用户的视频信息选择操作。

在步骤S156中，在视频播放界面播放与视频信息选择操作对应的视频。

上述步骤主要是在根据用户的语音信号无法找到对应的视频信息时，提示用户在搜索框输入相应的视频信息。当获取到用户在搜索框中输入的视频信息之后，在网络上或者视频库中直接搜索与该视频信息相关的视频，并将搜索到的这些视频以列表的方式在显示界面列出来，共用户选择。在获取到用户的选择操作之后，在视频播放界面播放用户选择的视频。

通过以上的方法实施例的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

另外，作为对上述各实施例的实现，本发明实施例还提供了一种基于语音识别的视频播放装置，该装置位于终端中，如图6所示，该装置包括：信号获取模块10、特征信息生成模块20、信息判断模块30和视频播放模块40，其中，

信号获取模块10，用于获取语音信号；

特征信息生成模块20，用于生成与所述语音信号相对应的特征信息；

信息判断模块30，用于判断预先建立的特征信息表中是否存在与所述特征信息相匹配的视频信息；

视频播放模块40，用于在所述预先建立的特征信息表中存在与所述特征信息相匹配的视频信息时，播放与所述视频信息相对应的视频。

在本发明又一实施例中，基于图6，如图7所示，特征信息生成模块20，包括：预处理子模块21、信息转换子模块22和信息提取子模块23，其中，

预处理子模块21，用于将所述语音信息进行预处理，得到预处理语音信号；

信息转换子模块22，用于将所述预处理语音信号转换为文字信息；

信息提取子模块23，用于提取所述文字信息中的特征信息。

在本发明又一实施例中，基于图6，如图8所示，所述信息判断模块30，包括：特征信息表获取子模块31、比对子模块32、信息判断子模块33、第一信息确定子模块34和第二信息确定子模块35，其中，

特征信息表获取子模块31，用于获取预先建立的特征信息表；

比对子模块32，用于将所述特征信息与所述特征信息表中的信息逐一比对；

信息判断子模块33，用于判断所述信息表中是否有与所述特征信息相对应的视频信息；

第一信息确定子模块34，用于在所述信息表中有与所述特征信息相对应的视频信息时，确定预先建立的特征信息表中存在与所述特征信息相匹配的视频信息；

第二信息确定子模块35，用于在所述信息表中没有与所述特征信息相对应的视频信息时，确定预先建立的特征信息表中不存在与所述特征信息相匹配的视频信息。

在本发明又一实施例中，基于图6，如图9所示，所述视频播放模块40，包括：视频查找子模块41和第一视频播放子模块42，其中，

视频查找子模块41，用于在预设视频库中查找与所述视频信息相对应的视频；

第一视频播放子模块42，用于在视频播放界面播放与所述视频信息相对应的视频。

在本发明又一实施例中，基于图6，如图10所示，该装置还可以包括：搜索框弹出子模块51、搜索信息获取子模块52、视频搜索子模块53、列表显示子模块54操作选取子模块55和第二视频播放子模块56，其中，

搜索框弹出子模块51，用于在所述预先建立的特征信息表中不存在与所述特征信息相匹配的视频信息时，弹出搜索框，以使用户在所述搜索框中输入搜索信息；

搜索信息获取子模块52，用于获取所述搜索框中输入的搜索信息；

视频搜索子模块53，用于搜索与所述搜索信息相对应的视频信息；

列表显示子模块54，用于在搜索到与所述搜索信息相对应的视频信息时，在视频播放界面显示视频信息播放列表，以使用户在所述视频信息播放列表中选取所需的视频信息；

操作选取子模块55，用于获取用户的视频信息选择操作；

第二视频播放子模块56，用于在所述视频播放界面播放与所述视频信息选择操作对应的视频。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明，具体可以参考方法实施例。

可以理解的是，本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于语音识别的视频播放方法，其特征在于，包括：

获取语音信号；

生成与所述语音信号相对应的特征信息；

2.根据权利要求1所述的基于语音识别的视频播放方法，其特征在于，所述生成与所述语音信号相对应的特征信息，包括：

将所述语音信息进行预处理，得到预处理语音信号；

将所述预处理语音信号转换为文字信息；

提取所述文字信息中的特征信息。

3.根据权利要求1所述的基于语音识别的视频播放方法，其特征在于，所述判断预先建立的特征信息表中是否存在与所述特征信息相匹配的视频信息，包括：

获取预先建立的特征信息表；

将所述特征信息与所述特征信息表中的信息逐一比对；

4.根据权利要求1所述的基于语音识别的视频播放方法，其特征在于，所述播放与所述视频信息相对应的视频，包括：

在预设视频库中查找与所述视频信息相对应的视频；

在视频播放界面播放与所述视频信息相对应的视频。

5.根据权利要求1～4中任一所述的基于语音识别的视频播放方法，其特征在于，还包括：

获取所述搜索框中输入的搜索信息；

搜索与所述搜索信息相对应的视频信息；

获取用户的视频信息选择操作；

6.一种基于语音识别的视频播放装置，其特征在于，包括：

信号获取模块，用于获取语音信号；

7.根据权利要求6所述的基于语音识别的视频播放装置，其特征在于，所述特征信息生成模块，包括：

信息提取子模块，用于提取所述文字信息中的特征信息。

8.根据权利要求6所述的基于语音识别的视频播放装置，其特征在于，所述信息判断模块，包括：

特征信息表获取子模块，用于获取预先建立的特征信息表；

9.根据权利要求6所述的基于语音识别的视频播放装置，其特征在于，所述视频播放模块，包括：

10.根据权利要求6～9中任一所述的基于语音识别的视频播放装置，其特征在于，还包括：

操作选取子模块，用于获取用户的视频信息选择操作；