CN111263236A

CN111263236A - 电视机应用的语音适配方法和装置及语音控制方法

Info

Publication number: CN111263236A
Application number: CN202010107557.0A
Authority: CN
Inventors: 杨果
Original assignee: Guangdong Huanwang Technology Co Ltd
Current assignee: Guangdong Huanwang Technology Co Ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-06-09
Anticipated expiration: 2040-02-21
Also published as: CN111263236B

Abstract

本发明公开了一种电视机应用的语音适配方法和装置及语音控制方法，通过获取应用的页面信息得到应用每个页面上功能块的位置坐标和控制对应功能块的语音控制词汇，将语音控制词汇与对应的功能块的位置坐标绑定实现语音适配。无需开发人员针对每一款应用都进行语音适配。完善一个用户数据后可以方便用户语音打开应用各个页面以及播放电视节目，实现了用户一句话电视界面跳转到用户想控制的页面。同时也可以协助第三方应用厂家和语音厂家解决用户问题。无需开发人员与应用厂商对语音控制词语进行对接，减少开发人员的工作量,实现自动化控制的目的。能够自动化语音匹配，省去了开发人员频繁对接与更新语音控制词汇的工作。

Description

电视机应用的语音适配方法和装置及语音控制方法

技术领域

本发明涉及智能电视语音控制领域，特别地，涉及一种电视机应用的语音适配方法和装置及语音控制方法。

背景技术

随着智能电视机的普及，具备语音控制功能的电视机越发收到人们的欢迎。但是现有电视机内应用比较多，需要对每个应用都进行语音适配，语音适配就是将应用进行语音控制。

传统对单个应用进行语音控制的方法是：单一的语音厂家与应用厂家进行一对一的词汇收集与对接，需要开发人员来对接这个东西，达到语音识别控制的目的，由应用厂家向开发语音控制功能的开发人员提供应用的语音控制词语，实现语音适配。

实际应用中，对一个应用进行语音适配时需要开发人员与应用厂家进行很多控制词语的对接，而且在电视机上存在多个语音应用，开发人员需要针对每一个应用都进行词语对接，工作量大，十分繁琐。

发明内容

为了克服现有技术的不足，本发明提供一种无需开发人员针对每个应用都进行词语对接，简单方便的电视机应用的语音适配方法和装置及语音控制方法。

本发明解决其技术问题所采用的技术方案是：

第一方面，

一种电视机应用的语音适配方法，包括以下步骤：

获取所述应用的页面信息；

根据所述页面信息获取每个页面上功能块的位置坐标和控制所述功能块的语音控制词汇，所述功能块为用户使用所述应用时的点击区域；

将所述语音控制词汇与对应的功能块的位置坐标绑定以实现语音适配。

进一步地，所述获取所述应用的页面信息包括：

录制用户使用遥控器控制所述应用时的视频；

识别所述视频中所述应用包含的页面和每个页面上功能块的功能以及功能块上的文字。

进一步地，所述识别所述视频中所述应用包含的页面和每个页面上功能块的功能以及功能块上的文字包括：

将所述视频拆分为单帧的图片；

将所述图片输入机器学习训练模型中进行识别，以获取所述应用包含的页面和每个页面上功能块的功能以及功能块上的文字，所述机器学习训练模型为基于被批注的图像数据样本训练出的机器学习模型。

进一步地，根据所述页面信息获取每个页面上功能块的位置坐标包括：

根据所述视频获取每个页面的打开顺序；

根据所述打开顺序为所述应用的页面分级并编号，记录每个页面的编号；

在所述电视机的显示屏上建立坐标系；记录每个页面上功能块的坐标数据；

将每个页面的编号和所述页面上功能块的坐标数据结合作为每个页面上功能块的位置坐标。

进一步地，根据所述页面信息获取控制所述功能块的语音控制词汇包括：

提取所述功能块上的文字；

将所述文字转化为语音词汇；

将所述语音词汇设定为语音控制词汇。

进一步地，将所述语音控制词汇与对应的功能块的位置坐标绑定以实现语音适配包括：

设定所述功能块的文字作为语音控制词语；

将所述语音控制词语与所述功能块的位置坐标对应，以便当接收到所述语音控制词语时打开所述位置坐标对应的功能块的链接。

进一步地，获取所述电视机界面每个应用的名称以及位置坐标；

根据每个应用的名称和位置坐标对每个应用进行语音适配。

第二方面，

一种电视机应用的语音适配装置，包括：

页面信息获取模块，用于获取所述应用的页面信息；

功能块信息获取模块，用于根据所述页面信息获取每个页面上功能块的位置坐标和控制所述功能块的语音控制词汇，所述功能块为用户使用所述应用时的点击区域；

绑定模块，用于将所述语音控制词汇与对应的功能块的位置坐标绑定以实现语音适配。

第三方面，

一种电视机应用的语音控制方法，包括以下步骤：

接收用户的语音控制信息；

根据所述语音控制信息匹配所述语音控制信息对应的功能块的位置坐标；

打开所述位置坐标处功能块对应的链接。

进一步地，所述根据所述语音控制信息匹配所述语音控制信息对应的功能块的位置坐标包括：

将所述语音控制信息转化为文字指令；

将所述文字指令与预设指令匹配；

得到匹配成功的预设指令对应的功能块的位置坐标。

本申请采用以上技术方案，至少具备以下有益效果：

本发明技术方案提供了一种电视机应用的语音适配方法和装置及语音控制方法，通过获取应用的页面信息得到应用每个页面上功能块的位置坐标和控制对应功能块的语音控制词汇，将语音控制词汇与对应的功能块的位置坐标绑定实现语音适配。无需开发人员针对每一款应用都进行语音适配。完善一个用户数据后可以方便用户语音打开应用各个页面以及播放电视节目，实现了用户一句话电视界面跳转到用户想控制的页面。同时也可以协助第三方应用厂家和语音厂家解决用户问题。还可以让用户个性定制语音控制词句，无需开发人员与应用厂商对语音控制词语进行对接，减少开发人员的工作量,实现自动化控制的目的。能够自动化语音匹配，省去了开发人员频繁对接与更新语音控制词汇的工作。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种电视机应用的语音适配方法的流程图；

图2是本发明实施例提供的一种电视机应用的语音适配装置的结构示意图；

图3是本发明实施例提供的一种电视机应用的语音控制方法的流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面结合附图和实施例对本发明的技术方案进行详细的描述说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

参照图1，本发明实施例提供一种电视机应用的语音适配方法，包括以下步骤：

获取应用的页面信息；

根据页面信息获取每个页面上功能块的位置坐标和控制功能块的语音控制词汇，功能块为用户使用应用时的点击区域；

将语音控制词汇与对应的功能块的位置坐标绑定以实现语音适配。

本发明实施例提供的一种电视机应用的语音适配方法，通过获取应用的页面信息得到应用每个页面上功能块的位置坐标和控制对应功能块的语音控制词汇，将语音控制词汇与对应的功能块的位置坐标绑定实现语音适配。无需开发人员针对每一款应用都进行语音适配。完善一个用户数据后可以方便用户语音打开应用各个页面以及播放电视节目，实现了用户一句话电视界面跳转到用户想控制的页面。同时也可以协助第三方应用厂家和语音厂家解决用户问题。还可以让用户个性定制语音控制词句，无需开发人员与应用厂商对语音控制词语进行对接，减少开发人员的工作量,实现自动化控制的目的。能够自动化语音匹配，省去了开发人员频繁对接与更新语音控制词汇的工作。

作为对上述实施例的一种补充，本发明还提供了另一种电视机应用的语音适配方法的实施例，包括以下步骤：

获取应用的页面信息；

一些可选实施例中，获取应用的页面信息可以包括但不限于通过以下过程实现：

录制用户使用遥控器控制应用时的视频；

识别视频中应用包含的页面和每个页面上功能块的功能以及功能块上的文字。

进一步可选地，识别视频中应用包含的页面和每个页面上功能块的功能以及功能块上的文字可以包括但不限于通过以下过程实现：

将视频拆分为单帧的图片；

将图片输入机器学习训练模型中进行识别，以获取应用包含的页面和每个页面上功能块的功能以及功能块上的文字，机器学习训练模型为基于被批注的图像数据样本训练出的机器学习模型。

作为本发明实施例的一种可选的实现方式，根据页面信息获取每个页面上功能块的位置坐标包括：

根据视频获取每个页面的打开顺序；

根据打开顺序为应用的页面分级并编号，记录每个页面的编号；

在电视机的显示屏上建立坐标系；记录每个页面上功能块的坐标数据；

将每个页面的编号和页面上功能块的坐标数据结合作为每个页面上功能块的位置坐标。

进一步地，根据视频获取每个页面的打开顺序包括：

获取视频中打开应用显示的第一个页面，记录为第一级页面；

点击上一级页面上的所有功能块显示的所有页面，记录为下一级页面；

以页面的级数作为打开顺序。示例性的，如打开一个视频应用，将打开应用后显示的第一个页面定义为第一级页面，在第一级页面上存在功能块，点击功能块后会出现新的页面，新出现的页面为第二级页面，以此类推，点击第二级页面上功能块打开的页面为第三级页面。

编号时，示例性的，如点击第二级页面上的第五个功能块打开的页面用X3-05，其中X代表应用，不同的应用用不同的符号字母或者数字表示都可以，3表示该应用的第三级页面，05表示其上一级页面即第二级页面上第5个功能块对应的页面，其对应关系由机器学习的训练模型得到。

示例性的，位置坐标用X3-05[(x₁，y₁)-(x₂，y₂)]表示，X3-05已解释过，在此不在赘述。[(x₁，y₁)-(x₂，y₂)]表示功能块在界面上的矩形区域，其中，(x₁，y₁)表示功能块矩形左下角的点坐标，(x₂，y₂)表示功能块矩形右下角的点坐标，以对角线的两个点坐标来表示矩形区域。当然上述位置坐标的表示形式不限，在此仅是举例方便理解。

可选地，根据页面信息获取控制功能块的语音控制词汇可以包括但不限于通过以下过程实现：

提取功能块上的文字；

将文字转化为语音词汇；

将语音词汇设定为语音控制词汇。

作为本发明实施例的一种可选的实现方式，将语音控制词汇与对应的功能块的位置坐标绑定以实现语音适配可以包括但不限于以下过程实现：

获取功能块的链接地址；

将语音控制词汇与对应位置坐标的功能块的链接地址绑定，当接收到语音控制词汇时，打开对应功能块的链接地址实现点击功能块的功能。

如功能块上的文字为“电影”，则将电影作为语音控制词语与该功能块的位置坐标链接，当用户在使用该应用时，说出电影两个字时，服务端查询到该应用中电影对应的功能块的位置坐标，打开位置坐标处的功能块的链接，模拟点击该功能块，实现该功能块的功能。

可选地，还可以包括：获取电视机界面每个应用的名称以及位置坐标；

根据每个应用的名称和位置坐标对每个应用进行语音适配。此步骤是为了语音控制电视机界面内多个应用。

本发明实施例提供的另一种电视机应用的语音适配方法，通过录制应用使用时的视频，以得到应用的各个页面以及各个页面上的功能块、功能块能够实现的功能以及功能块上的文字。将各个页面编号以及在电视机界面建立坐标系，方便得到功能块的具体位置坐标即在哪个页面的哪个位置，十分准确。之后将功能块上的文字作为语音控制词语与该功能块的位置坐标绑定，只要说出该语音控制词语就能找到对应位置坐标的功能块，打开该功能块对应的连接，实现功能块的功能。该方法无需开发人员与应用厂家对接，也无需开发人员对每一个应用进行语音适配，简单快捷，十分方便。本发明可以让语音控制达到最少的适配工作，也可以让语音控制实时更新，自主收集语音可以控制的功能块，进行语音控制词汇的更新。更是免去了第三方应用于语音厂家之间的沟通成本。实现自动语音适配功能。

一个实施例中，本发明实施例还提供了一种电视机应用的语音适配装置，如图2所示，包括：

页面信息获取模块210，用于获取应用的页面信息；

可选地，页面信息获取模块还用于录制用户使用遥控器控制应用时的视频；

其中，页面信息获取模块将视频拆分为单帧的图片；

功能块信息获取模块220，用于根据页面信息获取每个页面上功能块的位置坐标和控制功能块的语音控制词汇，功能块为用户使用应用时的点击区域；

可选地，功能块信息获取模块还用于根据视频获取每个页面的打开顺序；

具体的，获取视频中打开应用显示的第一个页面，记录为第一级页面；

以页面的级数作为打开顺序。

此外，功能块信息获取模块还用于提取功能块上的文字；

将文字转化为语音词汇；

将语音词汇设定为语音控制词汇。

绑定模块230，用于将语音控制词汇与对应的功能块的位置坐标绑定以实现语音适配。

可选地，一些实施例中，绑定模块还用于设定功能块上的文字作为语音控制词语；

将语音控制词语与功能块的位置坐标对应，以便当接收到语音控制词语时打开位置坐标对应的功能块的链接。

需要说明的是，绑定模块还用于获取功能块的链接地址；将语音控制词汇与对应位置坐标的功能块的链接地址绑定，当接收到语音控制词汇时，打开对应功能块的链接地址实现点击功能块的功能。

本发明实施例提供的一种电视机应用的语音适配装置，包括页面信息获取模块、功能块信息获取模块以及绑定模块；页面信息获取模块获取电视机应用内的页面信息，根据页面信息位置坐标获取页面中功能块的位置坐标，将语音控制词汇与对应的功能块的位置坐标绑定以实现语音适配。将功能的文字与位置坐标进行对应，用户用语音说到该文字时，找到文字对应的位置坐标，就能实现该位置坐标处的功能。不用开发人员进行对接，工作量小，语音适配过程简单。

一个实施例中，本发明还提供了一种电视机应用的语音控制方法，如图3所示，包括以下步骤：

接收用户的语音控制信息；

根据语音控制信息匹配语音控制信息对应的功能块的位置坐标；

可选地，根据语音控制信息匹配语音控制信息对应的功能块的位置坐标包括：

将语音控制信息转化为文字指令；

将文字指令与预设指令匹配；

得到匹配成功的预设指令对应的功能块的位置坐标。

打开位置坐标处功能块对应的链接。

本发明实施例提供的一种电视机应用的语音控制方法，在接收到用户的语音控制信息后转化为文字指令，然后将文字指令与预设指令匹配；匹配成功后得到预设指令对应的功能块的位置坐标，然后打开位置坐标处功能块对应的链接。能够通过将语音控制信息与功能块的位置坐标对应，当说出语音控制信息时，即可获得对应的位置坐标，即可打开位置坐标处的功能块对应的链接，实现功能块的功能，方便用户的语音控制。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种电视机应用的语音适配方法，其特征在于，包括以下步骤：

获取所述应用的页面信息；

2.根据权利要求1所述的方法，其特征在于：所述获取所述应用的页面信息包括：

录制用户使用遥控器控制所述应用时的视频；

3.根据权利要求2所述的方法，其特征在于：所述识别所述视频中所述应用包含的页面和每个页面上功能块的功能以及功能块上的文字包括：

将所述视频拆分为单帧的图片；

4.根据权利要求3所述的方法，其特征在于：根据所述页面信息获取每个页面上功能块的位置坐标包括：

根据所述视频获取每个页面的打开顺序；

5.根据权利要求3所述的方法，其特征在于：根据所述页面信息获取控制所述功能块的语音控制词汇包括：

提取所述功能块上的文字；

将所述文字转化为语音词汇；

将所述语音词汇设定为语音控制词汇。

6.根据权利要求1所述的方法，其特征在于：将所述语音控制词汇与对应的功能块的位置坐标绑定以实现语音适配包括：

获取所述功能块的链接地址；

将所述语音控制词汇与对应位置坐标的功能块的链接地址绑定，当接收到所述语音控制词汇时，打开对应功能块的链接地址实现点击功能块的功能。

7.根据权利要求1所述的方法，其特征在于，还包括：

获取所述电视机界面每个应用的名称以及位置坐标；

根据每个应用的名称和位置坐标对每个应用进行语音适配。

8.一种电视机应用的语音适配装置，其特征在于，包括：

页面信息获取模块，用于获取所述应用的页面信息；

9.一种电视机应用的语音控制方法，其特征在于，包括以下步骤：

接收用户的语音控制信息；

打开所述位置坐标处功能块对应的链接。

10.根据权利要求9所述的方法，其特征在于：所述根据所述语音控制信息匹配所述语音控制信息对应的功能块的位置坐标包括：

将所述语音控制信息转化为文字指令；

将所述文字指令与预设指令匹配；

得到匹配成功的预设指令对应的功能块的位置坐标。