CN111223478A

CN111223478A - 基于ai语音的终端控制方法、终端设备和存储介质

Info

Publication number: CN111223478A
Application number: CN201811429275.1A
Authority: CN
Inventors: 郭庆
Original assignee: Qiku Internet Technology Shenzhen Co Ltd
Current assignee: Qiku Internet Technology Shenzhen Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-06-02

Abstract

本发明提供一种基于AI语音的终端控制方法、终端设备和存储介质，其中，基于AI语音的终端控制方法，包括：获取语音信息；根据终端设备用户的电话号码归属地或终端设备当下所处位置调出预建立的相应语音数据库，语音数据库根据不同地区的口音和/或不同语种建立；将语音信息与调出的相应语音数据库对比，识别筛选可用于终端控制的语音信息；根据筛选出的语音信息，从当前界面所包含的控件中确定与筛选出的语音信息匹配的控件；生成对控件的控制指令；执行控制指令，以控制控件进行相应操作。通过从当前显示窗口所包含的控件中，确定与用于进行语音控制的语音信息匹配的控件，实现了对终端设备显示界面和各个应用的语音控制。

Description

基于AI语音的终端控制方法、终端设备和存储介质

技术领域

本发明涉及到语音控制技术领域，特别是涉及到一种基于AI语音的终端控制方法、终端设备和存储介质。

背景技术

随着语音识别技术的发展，如何利用语音识别技术实现对终端设备的语音控制已经成为了研究热点。

目前，终端设备主要是基于自带的语音助手或特定的APP软件应用来实现对某些特定功能的语音控制。例如通过语音助手终端设备可以实现语音拨打电话，语音编辑短息，语音输入搜索请求等功能。然而，相对于日益增长的用户需求而言，目前终端设备的语音控制功能还比较单一，用户不能通过语音控制终端显示界面和各个应用软件，无法满用户的需求。

发明内容

本发明的主要目的为提供一种基于AI语音的终端控制方法、终端设备和存储介质，旨在解决用户不能通过语音控制手机界面和各个应用软件的问题。

为了实现上述目的，本发明提出一种基于AI语音的终端控制方法，包括：

获取语音信息；

根据终端设备用户的电话号码归属地或终端设备当下所处位置调出预建立的相应语音数据库，语音数据库根据不同地区的口音和/或不同语种建立；

将语音信息与调出的相应语音数据库对比，识别筛选可用于终端控制的语音信息；

根据筛选出的语音信息，从当前界面所包含的控件中确定与筛选出的语音信息匹配的控件；

生成对控件的控制指令；

执行控制指令，以控制控件进行相应操作。

进一步地，根据筛选出的语音信息，从当前界面所包含的控件中确定与筛选出的语音信息匹配的控件，包括：

根据筛选出的语音信息，生成对应的文本；

识别出文本中的关键字，并获取当前界面的控件信息；关键字包括控件名称和操作方式，当前界面的控件信息包括控件名称和操作方式；

将关键字中与当前界面的控件信息中对应的控件名称和/或操作方式进行匹配。

进一步地，识别出文本中的关键字的步骤，包括：

将文本与预先建立的关键字模型进行对比；

筛选出文本中与关键字模型中一致的文字作为关键字。

进一步地，获取当前界面的控件信息的步骤，包括：

判断当前界面包含的控件中是否存在无标识属性的控件；

若存在，对无标识属性的控件临时赋予标识信息。

进一步地，标识信息为数字信息。

进一步地，执行控制指令，以控制控件进行相应操作的步骤之后，包括：

删除临时赋予的标识信息。

进一步地，执行控制指令，以控制控件进行相应操作的步骤，包括：

根据所确定的与语音信息匹配的控件，获取控件在当前屏幕的坐标点；

根据获取的坐标点，按照关键字中确定的操作方式对控件进行相应的操作。

进一步地，获取控件在当前屏幕的坐标点的步骤，包括：

在当前屏幕构建坐标系；

获取当前屏幕的分辨率；

获取控件在当前屏幕的位置，控件在当前屏幕的位置通过位于当前屏幕的百分比体现；

根据分辨率和控件位置位于当前屏幕的百分比，计算出坐标点。

本申请还提供一种终端设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述任一项方法的步骤。

本申请还提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一项方法的步骤。

本申请提供的基于AI语音的终端控制方法、终端设备和存储介质，其中，基于AI语音的终端控制方法，以终端设备为主体，通过将语音信息与根据终端设备用户的电话号码归属地或终端设备当下所处位置调出预建立的相应语音数据库对比，识别筛选可用于终端控制的语音信息，提高语音控制终端设备时对语音的辨识能力，让用户输入语音指令时更自然随性。通过从当前显示窗口所包含的控件中，确定与用于进行语音控制的语音信息匹配的控件，实现了对终端设备显示界面和各个应用的语音控制。

附图说明

图1为本申请一实施例的基于AI语音的终端控制方法的流程示意图；

图2为本申请一实施例的终端设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本发明一实施例中提供的基于AI语音的终端控制方法，该方法可以由一支持语音控制的终端设备来执行，该执行的终端设备可以是诸如电脑、智能手机、智能电视、游戏设备等终端设备。本实施例提供的基于AI语音的终端控制方法包括如下步骤：

S1、获取语音信息；

S2、根据终端设备用户的电话号码归属地或终端设备当下所处位置调出预建立的相应语音数据库，语音数据库根据不同地区的口音和/或不同语种建立；

S3、将语音信息与调出的相应语音数据库对比，识别筛选可用于终端控制的语音信息；

S4、根据筛选出的语音信息，从当前界面所包含的控件中确定与筛选出的语音信息匹配的控件；

S5、生成对控件的控制指令；

S6、执行控制指令，以控制控件进行相应操作。

上述步骤S1中，语音信息可以是通过终端设备上的语音采集装置(例如麦克风等)采集获得的语音音频文件，该语音音频文件中包含用于对终端设备进行控制的语音指令。例如该语音指令可以是诸如“打开”、“运行”、“点击”、“长按”、“向上滑动”、“下滑”、“左滑”、“右滑”、“输入”以及特殊的指令截图、录屏、待机/灭屏等用于控制终端设备界面和各应用软件的指令。当然，该语音指令仅为举例说明，其也可以包括其他用于对终端设备进行控制的语音指令。

上述步骤S2中，根据终端设备用户的电话号码归属地或终端设备当下所处位置调出预建立的相应语音数据库，语音数据库根据不同地区的口音和/或不同语种建立。在终端设备中，预先建立有多种语言、多种口音的数据库，并建立起特定口音和/或特定语种与各地区的对应关系，并依照这些对应关系对语音数据库进行分类。不同地区不同用户使用的语言、口音不同，通过终端设备所处的位置或号码归属地确定用户的语言及口音最可能对应的地区，并依据预建立的特定口音和/或特定语种与各地区的对应关系调出预建立的与接收到的用户语音信息的语言、口音最为接近的语音数据库，实现快速准确识别语音语义。在本实施例中，所述语音数据库是开放的语音数据库，用户在使用对应的终端设备过程中，可将语音指令关键字对应的语音用自己的语言录入所述语音数据库中，并对录入的语音赋予明确的可用于终端控制的语义。

上述步骤S3中，终端设备接收到的语音信息可以包含除了用于控制终端设备的语音信息关键字以外的其它语音，通过将接收到的语音信息与调出的相应语音数据库对比，识别筛选可用于终端控制的语音信息。该步骤的设置，可以让用户输入语音信息的时候不必完全按照特定的用语，只要其输入的语音信息包含控制指令对应的关键字即可实现。让用户输入语音信息时更自然。

上述述步骤S4中，根据筛选出的语音信息，从当前界面所包含的控件中确定与筛选出的语音信息匹配的控件。在现有技术中，终端设备的显示窗口中所涉及的应用或功能，都是通过相应的控件来控制或执行的。其中，每个控件在终端设备中均对应存储有诸如类型、text(文本)属性、描述控件功能的description(内容标签)属性等控件信息。

在终端设备中，各控件的控件信息是以结构树的形式进行存储。因此，根据上述特性，本实施例可选用遍历显示界面的结构树的形式，从显示界面对应的各控件中确定控件信息与语音信息匹配的控件。所述结构树，是指一种重要的非线性数据结构，直观地看，它是数据元素(在树中称为结点)按分支关系组织起来的结构。所述遍历是指对树中所有结点的信息的访问，即依次对树中每个结点访问一次且仅访问一次。

在这一实施例中，语音信息转化成文字文本信息，再将文字文本信息与当前显示界面中各控件的description(内容标签)属性进行匹配，当匹配获得description(内容标签)属性与语音文本所表达的含义一致或相近时，则停止匹配动作，确定该控件即为与语音文本匹配的控件。其中，将语音信息转换为文字文本信息的方法与现有技术类似，在这里不再赘述。

具体如，转换为文字文本信息后，以该文字文本信息为参考遍历当前显示界面的结构树，当获得description(内容标签)属性为“向左滑动”或description(内容标签)属性所表达的含义为“向左滑动”时，则停止遍历，并确定该内容标签属性对应的控件为与该语音文本对应的控件。

上述步骤S5中，生成对所述控件的控制指令。举例来说，当确定与语音信息匹配的控件为用于控制终端设备的显示界面向左滑动的控件，则根据既定的指令格式生成该控件的控制指令。

上述步骤S6中，执行控制指令，以控制控件进行相应操作。让该控件控制终端设备的显示界面向左移动。

本实施例，通过将语音信息与根据终端设备用户的电话号码归属地或终端设备当下所处位置调出预建立的相应语音数据库对比，识别筛选可用于终端控制的语音信息；提高语音控制终端设备时对语音的辨识能力，让用户输入语音指令时更自然随性。通过从当前显示窗口所包含的控件中，确定与用于进行语音控制的语音信息匹配的控件，实现了对终端设备显示界面和各个应用的语音控制。

在一实施例中，根据筛选出的语音信息，从当前界面所包含的控件中确定与筛选出的语音信息匹配的控件，包括：

S41、根据筛选出的语音信息，生成对应的文本；

S42、识别出文本中的关键字，并获取当前界面的控件信息；关键字包括控件名称和操作方式，当前界面的控件信息包括控件名称和操作方式；

S43、将关键字中与当前界面的控件信息中对应的控件名称和/或操作方式进行匹配。

在该实施例中，通过文字文本与各控件的description(内容标签)属性比对的方式来确定语音信息和控件的对应关系。

上述步骤S41中，将筛选出的用于控制终端设备的语音信息，转化成对应的文字，生成对应的文本；

上述步骤S42中，识别出文本中的包含操作对象和操作方式意思的关键字；并获取当前界面的控件信息。通过界面自动控制工具中的界面软件集调用当前显示界面结构树中的根节点，获取当前界面源信息，获取各控件名称，再通过界面选择器遍历出当前界面text(文本)属性或者描述控件功能的description(内容标签)属性中包含的关键字，如拨号、拨号盘、左滑、上滑等。

上述步骤S43中，将语音信息转成的文字文本中的关键字与当前界面中包含控件名称和操作方式的关键字进行对比，匹配对应的控件和操作方式。

例如用户输入的语音信息中，文本关键字为“向左滑动”，则确定内容标签属性为“向左滑动”或description(内容标签)属性中包括含义为“向左滑动”的描述的控件与该文本关键字匹配。

该实施例中，通过将语音信息转化成文字文本信息，实现与设备终端系统内部的相应控件的description(内容标签)属性信息进行比对，实现语音信息指令与控件的精准匹配。

在一实施例中，识别出文本中的关键字的步骤，包括：

S421、将文本与预先建立的关键字模型进行对比；

S422、筛选出文本中与关键字模型中一致的文字作为关键字。

在这一实施例中，语音信息转成文字信息后，将文字信息与预先建立的关键字模型进行比对，筛选出文本信息中与所述关键字模型中一致或意思相近的文字作为关键字。

通过关键字模型的建立，实现精准快捷的识别文字文本中的关键字。加快了语音操作的反应时间。

在一实施例中，获取当前界面源信息的步骤，包括：

S42a、判断当前界面包含的控件中是否存在无标识属性的控件；

S42b、若存在，对无标识属性的控件临时赋予标识信息。

本实施例中，在获取当前界面的源信息时，当前界面中部分控件是没有Text(文本)属性和description(内容标签)属性的，在获取当前界面的源信息时，判断当前界面包含的控件中是否存在无标识属性的控件，若存在，在遍历控件按钮元素时，对无Text属性和description属性描述的控件，但clickable(可打开的)属性为True元素的控件进行标识。

在一实施例中，标识信息为数字信息。

对无Text属性和description属性描述的控件，但clickable(可打开的)属性为True元素的控件进行数字标识。

在这一实施例中，对该类无标识属性的控件进行属性标识后，需重新接受用户语音输入的该控件对应的数字标识，并将该数字标识重新转化成文字文本，并将该数字文本与当前界面的控件及操作方式进行匹配。

在一实施例中，执行控制指令，以控制控件进行相应操作的步骤之后，包括：

S7、删除临时赋予的标识信息。

通过这一步骤，删除临时赋予的标识信息，为终端设备节省了储存空间。

在一实施例中，执行控制指令，以控制控件进行相应操作的步骤，包括：

S61、根据所确定的与语音信息匹配的控件，获取控件在当前屏幕的坐标点；

S62、根据获取的坐标点，按照关键字中确定的操作方式对控件进行相应的操作。

本实施例中，确定与语音信息匹配的控件之后，终端设备点击获取控件在当前屏幕的坐标点；根据获取的所述控件的坐标点，按照语音信息关键字中确定的操作方式与控件进行相应操作。通过获取控件的坐标，实现精确执行与语音信息指令匹配的控件操作。

在一实施例中，获取控件在当前屏幕的坐标点的步骤，包括：

S611、在当前屏幕构建坐标系；

S612、获取当前屏幕的分辨率；

S613、获取控件在当前屏幕的位置，控件在当前屏幕的位置通过位于当前屏幕的百分比体现；

S614、根据分辨率和控件位置位于当前屏幕的百分比，计算出坐标点。

该实施例中，首先需要在终端设备中构建坐标系；

然后获取终端设备当前界面屏幕的分辨率，所述屏幕的分辨率体现为具体的尺寸；

获取与语音信息关键字匹配的控件在当前界面屏幕中的位置，该位置通过屏幕百分比体现，比如，所述控件位置位于当前屏幕高度的50％，位于当前屏幕长度的50％；

最后，根据分辨率和控件位置位于当前屏幕的百分比，计算出坐标点。

通过屏幕分辨率和控件位置位于当前屏幕的百分比计算出坐标点位置，可以实现对控件的精准定位。

本发明提供的基于AI语音的终端控制方法，通过将语音信息与根据终端设备用户的电话号码归属地或终端设备当下所处位置调出预建立的相应语音数据库对比，识别筛选可用于终端控制的语音信息；提高语音控制终端设备时对语音的辨识能力，让用户输入语音指令时更自然随性。通过从当前显示窗口所包含的控件中，确定与用于进行语音控制的语音信息匹配的控件，实现了对终端设备显示界面和各个应用的语音控制。

参照图2，本发明实施例还提供一种终端设备，包括处理器1080和存储器1020，所述存储器1020存储有计算机程序，所述处理器1080执行所述计算机程序时实现上述任一项所述方法的步骤。

为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端设备可以为包括手机、平板电脑、PDA(PersonalDigital Assistant，个人数字助理)、车载电脑等任意终端设备，以终端设备为手机为例：

图2示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图2，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、麦克风1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图2中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图2对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单、应用程序的应用界面等。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-EmittingDiode,OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图2中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，麦克风1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，麦克风1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图2示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明一实施例还提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于AI语音的终端控制方法，包括：

S1、获取语音信息；

S5、生成对控件的控制指令；

S6、执行控制指令，以控制控件进行相应操作。

本实施例提供的基于AI语音的终端控制方法，通过将语音信息与根据终端设备用户的电话号码归属地或终端设备当下所处位置调出预建立的相应语音数据库对比，识别筛选可用于终端控制的语音信息；提高语音控制终端设备时对语音的辨识能力，让用户输入语音指令时更自然随性。通过从当前显示窗口所包含的控件中，确定与用于进行语音控制的语音信息匹配的控件，实现了对终端设备显示界面和各个应用的语音控制。

S41、根据筛选出的语音信息，生成对应的文本；

在一实施例中，识别出文本中的关键字的步骤，包括：

S421、将文本与预先建立的关键字模型进行对比；

S422、筛选出文本中与关键字模型中一致的文字作为关键字。

在一实施例中，获取当前界面的控件信息的步骤，包括：

S42b、若存在，对无标识属性的控件临时赋予标识信息。

S7、删除临时赋予的标识信息。

S611、在当前屏幕构建坐标系；

S612、获取当前屏幕的分辨率；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于AI语音的终端控制方法，其特征在于，包括：

获取语音信息；

根据终端设备用户的电话号码归属地或终端设备当下所处位置调出预建立的相应语音数据库，所述语音数据库根据不同地区的口音和/或不同语种建立；

将所述语音信息与调出的所述相应语音数据库对比，识别筛选可用于终端控制的语音信息；

根据筛选出的语音信息，从当前界面所包含的控件中确定与所述筛选出的语音信息匹配的控件；

生成对所述控件的控制指令；

执行所述控制指令，以控制所述控件进行相应操作。

2.根据权利要求1所述的基于AI语音的终端控制方法，其特征在于，所述根据筛选出的语音信息，从当前界面所包含的控件中确定与所述筛选出的语音信息匹配的控件，包括：

根据所述筛选出的语音信息，生成对应的文本；

识别出所述文本中的关键字，并获取当前界面的控件信息；所述关键字包括控件名称和操作方式，所述当前界面的控件信息包括控件名称和操作方式；

将所述关键字中与所述当前界面的控件信息中对应的控件名称和/或操作方式进行匹配。

3.根据权利要求2所述的基于AI语音的终端控制方法，其特征在于，识别出所述文本中的关键字的步骤，包括：

将所述文本与预先建立的关键字模型进行对比；

筛选出所述文本中与所述关键字模型中一致的文字作为所述关键字。

4.根据权利要求2所述的基于AI语音的终端控制方法，其特征在于，所述获取当前界面的控件信息的步骤，包括：

判断所述当前界面包含的控件中是否存在无标识属性的控件；

若存在，对所述无标识属性的控件临时赋予标识信息。

5.根据权利要求4所述的基于AI语音的终端控制方法，其特征在于，所述标识信息为数字信息。

6.根据权利要求4或5所述的基于AI语音的终端控制方法，其特征在于，所述执行所述控制指令，以控制所述控件进行相应操作的步骤之后，包括：

删除所述临时赋予的标识信息。

7.根据权利要求2所述的基于AI语音的终端控制方法，其特征在于，执行所述控制指令，以控制所述控件进行相应操作的步骤，包括：

根据所确定的与所述语音信息匹配的控件，获取所述控件在当前屏幕的坐标点。

根据获取的所述坐标点，按照所述关键字中确定的操作方式对所述控件进行相应的操作。

8.根据权利要求7所述的基于AI语音的终端控制方法，其特征在于，所述获取所述控件在当前屏幕的坐标点的步骤，包括：

在当前屏幕构建坐标系；

获取所述当前屏幕的分辨率；

获取所述控件在所述当前屏幕的位置，所述控件在当前屏幕的位置通过位于所述当前屏幕的百分比体现；

根据所述分辨率和所述控件位置位于所述当前屏幕的百分比，计算出所述坐标点。

9.一种终端设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。