CN110085224B

CN110085224B - 智能终端全程语音操控处理方法、智能终端及存储介质

Info

Publication number: CN110085224B
Application number: CN201910286405.9A
Authority: CN
Inventors: 王峰; 张飞; 黄德烁; 陈梓江
Original assignee: Shenzhen Konka Electronic Technology Co Ltd
Current assignee: Shenzhen Konka Electronic Technology Co Ltd
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2021-06-01
Anticipated expiration: 2039-04-10
Also published as: CN110085224A

Abstract

本发明公开了智能终端全程语音操控处理方法、智能终端及存储介质，所述方法包括：基于智能终端当前显示界面，同时进行本地和云端解析，分析出当前界面的所有界面元素对应的文本内容；当接收到用户语音输入，获取用户的语音指令内容；在已解析的界面元素库中，通过智能匹配算法计算出与语音指令对应的目标界面元素；根据计算结果，对目标界面元素执行点击和跳转操作，实现全程语音控制。本发明在用户输入语音指令后，结合语音指令文本，通过智能匹配算法计算出语音指令对应的最佳界面元素，针对目标界面元素执行点击和跳转操作，从而实现全程语音控制，对任何看见的界面元素进行精准语音控制，大大为用户的操作提供了方便。

Description

智能终端全程语音操控处理方法、智能终端及存储介质

技术领域

本发明涉及智能终端技术领域，具体涉及一种智能终端全程语音操控处理方法、智能终端及存储介质。

背景技术

目前智能电视的语音操控技术能够实现基本的电视控制和功能，只要输入预先实现的语音命令即可执行对应的功能。

已有语音技术，在软件发布时已经限制了语音操控的局限性，仅支持预先设置的语音功能，无法全面适应用户在与电视设备交互过程中的所有控制需求，即用户无法全程通过语音控制电视,有时不方便用户操作使用。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足之处，本发明的目的在于提供一种智能终端全程语音操控处理方法、智能终端及存储介质，本发明通过实时分析当前屏幕的界面元素，根据用户的语音输入内容，通过AI算法，智能匹配用户语音指令对对应的界面元素，从而精确控制，实现了任何界面下所见即可说的效果，给用户带来一种智能语音操控的高科技体验快感。

为了达到上述目的，本发明采取了以下技术方案：

一种智能终端全程语音操控处理方法，其中，包括如下步骤：

基于智能终端当前显示界面，同时进行本地和云端解析，分析出当前界面的所有界面元素对应的文本内容；

当接收到用户语音输入，获取用户的语音指令内容；在已解析的界面元素库中，通过智能匹配算法计算出与语音指令对应的目标界面元素；

根据计算结果，对目标界面元素执行点击和跳转操作，实现全程语音控制。

所述的智能终端全程语音操控处理方法，其中，所述基于智能终端当前显示界面，同时进行本地和云端解析，分析出当前界面的所有界面元素对应的文本内容的步骤包括：

基于智能终端当前界面，本地解析所有控件元素的文本和坐标信息，保存在界面元素文本信息库中；

同时截取当前界面，发送到云端服务器进行解析，获得图片中的文本和坐标，保存在界面元素信息库中。

所述的智能终端全程语音操控处理方法，其中，所述当接收到用户语音输入，获取用户的语音指令内容；在已解析的界面元素库中，通过智能匹配算法计算出与语音指令对应的目标界面元素的步骤还包括：

当接收到用户语音输入，获取用户的语音指令内容；

根据语音输入内容，在已解析的界面元素库中，将语音指令内容与当前界面元素信息库进行智能匹配，计算出最佳匹配的界面元素。

所述的智能终端全程语音操控处理方法，其中，所述根据计算结果，对目标界面元素执行点击和跳转操作，实现全程语音控制的步骤包括：

根据计算结果，对目标界面元素执行选中点击，实现跳转;以实现全程语音控制。

所述的智能终端全程语音操控处理方法，其中，所述基于智能终端当前显示界面，同时进行本地和云端解析，分析出当前界面的所有界面元素对应的文本内容的步骤还包括：

智能终端显示界面元素的解析，通过本地控件解析和云端OCR解析技术，全面解析出当前界面的所有界面元素的文本和坐标信息。

所述的智能终端全程语音操控处理方法，其中，所述通过智能匹配算法计算出与语音指令对应的目标界面元素的步骤还包括：

将目标文本与本地解析的控件树的文本信息做对比，当文本相似度达到指定阈值，且文本所在控件的属性符合可视可点击，则标记为匹配，即保存匹配的文本控件的中心坐标；

若本地解析的文本信息与目标文本不匹配，则获取图像识别服务器的解析结果，称OCR结果，若此时未有结果返回，则等待一定阈值时间，超时认为无匹配结果；

获取到OCR结果后，对目标文本和OCR结果中的文本计算出包含的最长公共子串，即公共文本，找到公共子串后在OCR结果中拼接出与目标文本长度相等的新文本，利用算法求编辑距离求出拼接文本与目标文本的相似度，记录该相似度，用于筛选最佳匹配项；

当相似度达到一定相似度阈值时，从OCR结果中，取出上述中求得的相似文本的每个字符的坐标，利用这些坐标的加减求出字符间的间距，再依次对这些字符间距求均值和方差，当方差小于一定阈值时，即可认为该字符串不离散，认为是电视视图中处于同一控件下的文本，并记录该方差为离散程度；同时计算并保存该字符串的中心坐标；

取相似字符串的前两个字符，以及OCR结果中处于这两个字符前的一个字符，求其离散程度，当离散程度大于一定阈值时，认为相似字符串与OCR结果中前序的文本在电视视图中分分隔开的，记之为前向离散程度；同理求出并记录后向离散程度；

通过系统接口，找出在OCR结果中计算所得的相似字符串的中心坐标所在位置的控件信息，如有可视可点击控件，记录点击次数；

结合系统接口和OCR结果的相似度、离散程度、前向后向离散程度，确认最佳匹配项。

一种智能终端，其中，包括：处理器、存储器和通信总线；

所述存储器上存储有可被所述处理器执行的智能终端全程语音操控处理程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述智能终端全程语音操控处理程序时实现如下步骤：

所述智能终端，其中，所述处理器执行所述智能终端全程语音操控处理程序时还实现如下步骤：

同时截取当前界面，发送到云端服务器进行解析，获得图片中的文本和坐标，保存在界面元素信息库中

当接收到用户语音输入，获取用户的语音指令内容；

根据计算结果，对目标界面元素执行选中点击，实现跳转;以实现全程语音控制；

智能终端显示界面元素的解析，通过本地控件解析和云端OCR解析技术，全面解析出当前界面的所有界面元素的文本和坐标信息；

所述通过智能匹配算法计算出与语音指令对应的目标界面元素的步骤还包括：

一种计算机可读存储介质，其中，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现任意一项所述的智能终端全程语音操控处理方法中的步骤。

相较于现有技术，本发明提供的智能终端全程语音操控处理方法、智能终端及存储介质，本发明基于电视当前显示界面，同时进行本地和云端解析，分析出当前界面的所有界面元素对应的文本内容，用户输入语音指令后，结合语音指令文本，通过智能匹配算法计算出语音指令对应的最佳界面元素，针对目标界面元素执行点击和跳转操作，从而实现全程语音控制，对任何看见的界面元素进行精准语音控制，大大为用户的操作提供了方便。

附图说明

图1为本发明提供的智能终端全程语音操控处理方法的其中一实施例流程图。

图2为本发明提供的智能终端全程语音操控处理方法的语音指认解析过程流程图。

图3为本发明提供的智能终端全程语音操控处理方法的另一实施例流程图。

图4为本发明智能终端较佳实施例的功能模块图。

图5为本发明提供的智能终端全程语音操控处理方法的本地控件解析示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明提供的智能终端全程语音操控处理方法包括以下步骤：

S100、基于智能终端当前显示界面，同时进行本地和云端解析，分析出当前界面的所有界面元素对应的文本内容；

本发明实施例中，采用基于智能终端当前显示界面，同时进行本地和云端解析，分析出当前界面的所有界面元素对应的文本内容。其中，所述智能终端为智能电视，当然还可以为智能电脑，智能手机等。

本步骤中基于智能终端当前界面，本地解析所有控件元素的文本和坐标信息，保存在界面元素文本信息库中；即解析当前界面所有控件元素的文本和坐标信息并保存，例如解析调台控件，中央一台具体坐标位置等，方便后面语音指令操作点击和跳转。

同时截取当前界面，发送到云端服务器进行解析，获得图片中的文本和坐标，保存在界面元素信息库中。而当前界面图片信息，是通过发给云端服务器进行解析文本和坐标，保存。

S200、当接收到用户语音输入，获取用户的语音指令内容；在已解析的界面元素库中，通过智能匹配算法计算出与语音指令对应的目标界面元素。

本发明实施例中，当接收到用户语音输入，获取用户的语音指令内容；在已解析的界面元素库中，通过智能匹配算法计算出与语音指令对应的目标界面元素。

具体地，如图2所示，当接收到用户语音输入，获取用户的语音指令内容；根据语音输入内容，在已解析的界面元素库中，将语音指令内容与当前界面元素信息库进行智能匹配，计算出最佳匹配的界面元素。如图2所示，用户的语音指令，可通过智能电视的 UI（界面）解析模块进行解析，其中界面的控件是通过DUMP文件解析各控件树的（Dump文件是进程的内存镜像）。其中，图片文件的文字和位置信息是通过OCR解析，所谓OCR解析，是截取当前界面的截图，把截图文件上传到云服务器，解析出图片中的文字和位置信息并返回。此种方法可以有效识别出图片中嵌入的文本以及非标准的文本（艺术字体）。例如，图片文件解析截图，通过OCR服务器解析出文字+位置信息（包括坐标信息）。

当解析完成，文字+位置，通过智能匹配算法计算出与语音指令对应的目标界面元素，以计算最佳匹配元素。例如，将目标文本与本地解析的控件树的文本信息作对比，当文本相似度达到指定阈值，且文本所在控件的属性符合“可视可点击”，则标记为匹配，即保存匹配的文本控件的中心坐标。

其中，所述通过智能匹配算法计算出与语音指令对应的目标界面元素具体为：

1、将目标文本与本地解析的控件树的文本信息作对比，当文本相似度达到指定阈值（例如相似度达80%以上），且文本所在控件的属性符合“可视可点击”，则标记为匹配，即保存匹配的文本控件的中心坐标；

2、若本地解析的文本信息与目标文本不匹配，则获取图像识别服务器的解析结果（以下称OCR结果），若此时未有结果返回，则等待一定阈值时间（例如1秒），超时认为无匹配结果；

3、获取到OCR结果后，对目标文本和OCR结果中的文本使用算法计算出包含的最长公共子串（即公共文本），找到公共子串后在OCR结果中拼接出与目标文本长度相等的新文本，利用算法求编辑距离（Levenshtein Distance)求出拼接文本与目标文本的相似度，记录该相似度，用于筛选最佳匹配项；

4、当相似度达到一定相似度阈值（例如相似度达80%以上）时，从OCR结果中，取出步骤3中求得的相似文本的每个字符的坐标，利用这些坐标的加减求出字符间的间距，再依次对这些字符间距求均值和方差，当方差小于一定阈值时，即可认为该字符串不离散，认为是电视视图中处于同一控件下的文本，并记录该方差为离散程度；同时计算并保存该字符串的中心坐标；

5、取相似字符串的前两个字符，以及OCR结果中处于这两个字符前的一个字符，同步骤7理求其离散程度，当离散程度大于一定阈值时，认为相似字符串与OCR结果中前序的文本在电视视图中分分隔开的，记之为前向离散程度；同理求出并记录后向离散程度；

6、通过系统接口，找出在OCR结果中计算所得的相似字符串的中心坐标所在位置的控件信息，如有“可视可点击”控件，记录点击次数；

7、结合系统接口和OCR结果的相似度、离散程度、前向后向离散程度，确认最佳匹配项。

S300、根据计算结果，对目标界面元素执行点击和跳转操作，实现全程语音控制。

本发明实施例中，根据计算结果，对目标界面元素执行点击和跳转操作，实现全程语音控制。

即根据计算结果，对目标界面元素执行选中点击，实现跳转;以实现全程语音控制。例如，当用户语音指令，“切换打开腾讯视频APP”，则本发明实施例中会自动根据用户的语音指令找到“腾讯视频APP”，目标界面元素执行点击和跳转操作，以切换打开腾讯视频APP。

本发明实施例中，所述基于智能终端当前显示界面，同时进行本地和云端解析，分析出当前界面的所有界面元素对应的文本内容的步骤还包括：智能终端显示界面元素的解析，通过本地控件解析和云端OCR解析技术，全面解析出当前界面的所有界面元素的文本和坐标信息。例如，如图5所示，例如：如下电视界面，通过本地控件解析可以解析出第一行的文字（“首页”，“商城”等）的坐标，以及图片中的文字（“少儿”，“让利返场”等）的坐标。

本发明实施例，可以实现将语音输入应用到所有可见界面元素的控制，达到所见即可得到效果，实现全程语音控制。

以下通过一具体应用实施例对本发明做进一步详细说明：

如图3所示，本发明提供了一种智能终端全程语音操控处理方法，实现步骤包括：

1、基于当前电视界面，本地解析所有控件元素的文本和坐标信息，保存在界面元素文本信息库中

2、同时截取当前电视界面，发送到云端服务器进行解析，获得图片中的文本和坐标，保存在界面元素信息库中

3、用户进行语音输入，获取到用户的语音指令内容；

4、将语音指令内容与当前界面元素信息库进行智能匹配，计算出最佳匹配的界面元素

5、根据计算结果，对目标界面元素执行选中点击，实现跳转。

由上可见，本发明提供了一种智能终端全程语音操控处理方法，本发明基于电视当前显示界面，同时进行本地和云端解析，分析出当前界面的所有界面元素对应的文本内容，用户输入语音指令后，结合语音指令文本，通过智能匹配算法计算出语音指令对应的最佳界面元素，针对目标界面元素执行点击和跳转操作，从而实现全程语音控制，对任何看见的界面元素进行精准语音控制，大大为用户的操作提供了方便。

如图4所示，基于上述智能终端全程语音操控处理方法，本发明还相应提供了一种智能终端，所述智能终端可以是智能电视、手机、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该智能终端包括处理器10、存储器20及显示屏30, 处理器10通过通信总线50与存储器20连接，所述显示屏30通过通信总线50与处理器10连接。图2仅示出了智能终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述智能终端的内部存储单元，例如智能终端的内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备，例如所述智能终端上配备的插接式U盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器20还可以既包括所智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据，例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有智能终端全程语音操控处理方法程序40，该智能终端全程语音操控处理方法程序40可被处理器10所执行，从而实现本申请中智能终端全程语音操控处理方法。

所述处理器10在一些实施例中可以是一中央处理器（Central Processing Unit,CPU），微处理器，手机基带处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述智能终端全程语音操控处理方法等。

所述显示屏30在一些实施例中可以是LED显示屏、液晶显示屏、触控式液晶显示屏以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。所述显示屏30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中智能终端全程语音操控处理方法程序40时实现以下步骤：

当接收到用户语音输入，获取用户的语音指令内容；

将语音输入应用到所有可见界面元素的控制，达到所见即可得到效果，实现全程语音控制，具体如上所述。

基于上述实施例，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述任意一项所述的智能终端全程语音操控处理方法中的步骤，具体如上所述。

综上所述，本发明提供的智能终端全程语音操控处理方法、智能终端及存储介质中，本发明提供的智能终端全程语音操控处理方法、智能终端及存储介质，本发明基于电视当前显示界面，同时进行本地和云端解析，分析出当前界面的所有界面元素对应的文本内容，用户输入语音指令后，结合语音指令文本，通过智能匹配算法计算出语音指令对应的最佳界面元素，针对目标界面元素执行点击和跳转操作，从而实现全程语音控制，对任何看见的界面元素进行精准语音控制，大大为用户的操作提供了方便。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的存储介质中，该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种智能终端全程语音操控处理方法，其特征在于，包括如下步骤：

接收到用户语音输入，获取用户的语音指令内容；在已解析的界面元素库中，通过智能匹配算法计算出与语音指令对应的目标界面元素；

获取到OCR结果后，对目标文本和OCR结果中的文本计算出包含的最长公共子串，即公共文本，找到最长公共子串后在OCR结果中拼接出与目标文本长度相等的新文本，利用算法求编辑距离求出拼接文本与目标文本的相似度，记录该相似度，用于筛选最佳匹配项；

当相似度达到一定相似度阈值时，从OCR结果中，取出求得的相似文本的每个字符的坐标，利用这些坐标的加减求出字符间的间距，再依次对这些字符间距求均值和方差，当方差小于一定阈值时，即可认为字符串不离散，认为是电视视图中处于同一控件下的文本，并记录该方差为离散程度；同时计算并保存字符串的中心坐标；

取相似字符串的前两个字符，以及OCR结果中处于这两个字符前的一个字符，求其离散程度，当离散程度大于一定阈值时，认为相似字符串与OCR结果中前序的文本在电视视图中是分隔开的，记之为前向离散程度；

取相似字符串的后两个字符，以及OCR结果中处于这两个字符后的一个字符，求其离散程度，当离散程度大于一定阈值时，认为相似字符串与OCR结果中后序的文本在电视视图中是分隔开的，记之为后向离散程度；

结合系统接口和OCR结果的相似度、离散程度、前向后向离散程度，确认最佳匹配项；

2.根据权利要求1所述的智能终端全程语音操控处理方法，其特征在于，所述基于智能终端当前显示界面，同时进行本地和云端解析，分析出当前界面的所有界面元素对应的文本内容的步骤包括：

基于智能终端当前界面，本地解析所有控件元素的文本和坐标信息，保存在界面元素库中；

同时截取当前界面，发送到云端服务器进行解析，获得图片中的文本和坐标，保存在界面元素库中。

3.根据权利要求1所述的智能终端全程语音操控处理方法，其特征在于，所述当接收到用户语音输入，获取用户的语音指令内容；在已解析的界面元素库中，通过智能匹配算法计算出与语音指令对应的目标界面元素的步骤还包括：

当接收到用户语音输入，获取用户的语音指令内容；

根据语音输入内容，在已解析的界面元素库中，将语音指令内容与当前界面元素库进行智能匹配，计算出最佳匹配的界面元素。

4.一种智能终端，其特征在于，包括：处理器、存储器和通信总线；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述智能终端全程语音操控处理程序时还实现如下步骤：

根据计算结果，对目标界面元素执行选中点击，实现跳转；以实现全程语音控制；

5.根据权利要求4所述智能终端，其特征在于，所述处理器执行所述智能终端全程语音操控处理程序时还实现如下步骤：

同时截取当前界面，发送到云端服务器进行解析，获得图片中的文本和坐标，保存在界面元素库中；

当接收到用户语音输入，获取用户的语音指令内容；

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-3任意一项所述的智能终端全程语音操控处理方法中的步骤。