CN114121012A - 语音控制方法、装置、电子设备及存储介质 - Google Patents
语音控制方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114121012A CN114121012A CN202111500093.0A CN202111500093A CN114121012A CN 114121012 A CN114121012 A CN 114121012A CN 202111500093 A CN202111500093 A CN 202111500093A CN 114121012 A CN114121012 A CN 114121012A
- Authority
- CN
- China
- Prior art keywords
- control
- node
- identification
- target
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000010586 diagram Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000009191 jumping Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 description 12
- 230000009471 action Effects 0.000 description 10
- 230000002452 interceptive effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000001960 triggered effect Effects 0.000 description 7
- 238000009434 installation Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例公开了一种语音控制方法、装置、电子设备及存储介质。方法包括:从获取的语音控制指令中获取第一控件标识和第二控件标识;若目标界面中包括有与第一控件标识对应的控件以及与第二控件标识对应的控件,且与第一控件标识对应的控件的有多个,基于第二控件标识从多个与第一控件标识对应的控件中确定目标控件,目标界面为获取到语音控制指令时所显示的界面,其中,第一控件标识对应的控件为与语音控制指令对应的待确定控件,第二控件标识对应的控件用于从待确定控件中确定表征用户实际控制目标的控件作为目标控件;执行与目标控件对应的控制操作。从而通过上述方式使得电子设备可以更为准确的确定用户的实际控制意图。
Description
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种语音控制方法、装置、电子设备及存储介质。
背景技术
结合人工智能技术以及虚拟个人助理(语音助手),可以使得电子设备通过听觉模态接收用户发出的语音指令并完成对应的交互任务。然而,在很多情况下,用户在看到交互界面后才会明确自己的交互意图,并希望对所看到的交互界面或其中的对象进行直接操作。并且,在一些情况下,交互界面中可能会存在多个与用户触发的语音指令匹配的控件,进而会造成电子设备无法准确的确定用户的实际控制意图。
发明内容
鉴于上述问题,本申请提出了一种语音控制方法、装置、电子设备及存储介质,以实现改善上述问题。
第一方面,本申请提供了一种语音控制方法,所述方法包括:从获取的语音控制指令中获取第一控件标识和第二控件标识;若目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有多个,基于所述第二控件标识对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,所述目标界面为获取到所述语音控制指令时所显示的界面,其中,所述第一控件标识对应的控件为与所述语音控制指令对应的待确定控件,所述第二控件标识对应的控件用于从所述待确定控件中确定表征用户实际控制目标的控件作为所述目标控件;执行与所述目标控件对应的控制操作。
第二方面,本申请提供了一种语音控制装置,所述装置包括:标识获取单元,用于从获取的语音控制指令中获取第一控件标识和第二控件标识;控件确定单元,用于若目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有多个,基于所述第二控件标识对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,所述目标界面为获取到所述语音控制指令时所显示的界面,其中,所述第一控件标识对应的控件为与所述语音控制指令对应的待确定控件,所述第二控件标识对应的控件用于从所述待确定控件中确定表征用户实际控制目标的控件作为所述目标控件;控制单元,用于执行与所述目标控件对应的控制操作。
第三方面,本申请提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
第四方面,本申请提供的一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
本申请提供的一种语音控制方法、装置、电子设备及存储介质,先从获取的语音控制指令中获取第一控件标识和第二控件标识,在第一控件标识对应的控件为与语音控制指令对应的待确定控件,第二控件标识对应的控件用于从待确定控件中确定表征用户实际控制目标的控件作为目标控件的情况下,若目标界面中包括有与第一控件标识对应的控件以及与第二控件标识对应的控件,且与第一控件标识对应的控件有多个,则会基于第二控件标识从多个与所述第一控件标识对应的控件中确定目标控件,并执行与所述目标控件对应的控制操作。从而通过上述方式使得在与语音控制指令对应的待确定控件(第一控件标识对应的控件)有多个而造成无法明确用户的实际控制意图的情况下,可以再借助于第二控件标识对应的控件对多个待确定控件进行确定,从而从多个待确定控件中确定表征用户实际控制目的控件作为目标控件,进而使得电子设备可以准确的确定用户的实际控制意图。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提出的一种语音控制方法的一种应用场景的示意图;
图2示出了本申请实施例提出的另一种语音控制方法的一种应用场景的示意图;
图3示出了本申请实施例提出的一种语音控制方法的流程图;
图4示出了本申请实施例中用户触发语音控制指令的示意图;
图5示出了本申请另一实施例提出的一种语音控制方法的流程图;
图6示出了本申请实施例中一种目标界面的示意图;
图7示出了本申请实施例中一种控件关系结构图的示意图;
图8示出了本申请实施例中一种控件的相对位置的示意图;
图9示出了本申请实施例中S220的一种实施方式的流程图;
图10示出了本申请实施例中另一种目标界面的示意图;
图11示出了本申请实施例中另一种控件关系结构图的示意图;
图12示出了本申请实施例中再一种控件关系结构图的示意图;
图13示出了本申请再一实施例提出的一种语音控制方法的流程图;
图14示出了本申请实施例中显示距离的示意图;
图15示出了本申请实施例提出的一种目标物识别装置的结构框图;
图16示出了本申请提出的一种电子设备的结构框图;
图17是本申请实施例的用于保存或者携带实现根据本申请实施例的语音控制方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
智能终端设备的普及给生活带来了种种便利。结合人工智能技术以及虚拟个人助理(语音助手),可以使得电子设备通过听觉模态接收用户发出的语音指令并完成对应的交互任务。然而,在很多情况下,用户在看到交互界面后才会明确自己的交互意图,并希望对所看到的交互界面或其中的对象进行直接操作。
但是,发明人在研究中发现,在一些情况下,交互界面中可能会存在多个与用户触发的语音指令匹配的控件,进而会造成电子设备无法准确的确定用户的实际控制意图。具体的,在电子设备所显示的界面中,可能会存在有多个名称相同的控件。并且,电子设备也识别到用户所发送的语音控制指令中包括有该多个同名的控件。因此,电子设备可能无法准确的确定用户实际是要对哪一个控件进行操作,因而使得电子设备无法准确的确定用户的实际控制意图。
因此,发明人提出了本申请中的一种语音控制方法、装置、电子设备及存储介质,该方法先从获取的语音控制指令中获取第一控件标识和第二控件标识,在第一控件标识对应的控件为与语音控制指令对应的待确定控件,第二控件标识对应的控件用于从待确定控件中确定表征用户实际控制目标的控件作为目标控件的情况下,若目标界面中包括有与第一控件标识对应的控件以及与第二控件标识对应的控件,且与第一控件标识对应的控件有多个,则会基于第二控件标识从多个与所述第一控件标识对应的控件中确定目标控件,并执行与所述目标控件对应的控制操作。
从而通过上述方式使得在与语音控制指令对应的待确定控件(第一控件标识对应的控件)有多个而造成无法明确用户的实际控制意图的情况下,可以再借助于第二控件标识对应的控件对多个待确定控件进行确定,从而从多个待确定控件中确定表征用户实际控制目的控件作为目标控件,进而使得电子设备可以准确的确定用户的实际控制意图。
下面先对本申请实施例所涉及的应用场景进行介绍。
在本申请实施例中,所提供的语音控制方法可以由电子设备执行。在由电子设备执行的这种方式中,本申请实施例提供的语音控制方法中所有步骤可以均由电子设备执行。例如,如图1所示,通过电子设备100的语音采集装置可以采集语音控制指令,并将采集到的语音采集指令以及目标界面均传输给处理器,使得处理器可以从获取的语音控制指令中获取第一控件标识和第二控件标识,进而处理器再利用第一控件标识和第二控件标识从目标界面中确定目标控件,以执行与所述目标控件对应的控制操作。
再者,本申请实施例提供的语音控制方法也可以由服务器进行执行。对应的,在由服务器执行的这种方式中,可以由电子设备采集语音指令,并将采集的语音指令以及目标界面同步发送给服务器,然后由服务器来执行本申请实施例提供的语音控制方法以确定目标控件,然后由服务器触发电子设备执行该目标控件对应的控制操作。另外,还可以由电子设备和服务器协同执行。在由电子设备和服务器协同执行的这种方式中,本申请实施例提供的语音控制方法中的部分步骤由电子设备执行,而另外部分的步骤则由服务器来执行。
示例性的,如图2所示,电子设备100可以执行语音控制方法包括的:从获取的语音控制指令中获取第一控件标识和第二控件标识,然后由服务器200来执行若目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有多个,基于所述第二控件标识对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,并基于所述目标控件生成对应的控制指令,然后再将所生成的控制指令返回给电子设备100,并触发电子设备100执行所接收到的控制指令。
需要说明的是,在由电子设备和服务器协同执行的这种方式中,电子设备和服务器分别执行的步骤不限于上述示例中所介绍的方式,在实际应用中,可以根据实际情况动态的调整电子设备和服务器分别执行的步骤。
下面则结合附图来对本申请所涉及的实施例进行介绍。
请参阅图3,本申请提供的一种语音控制方法,所述方法包括:
S110:从获取的语音控制指令中获取第一控件标识和第二控件标识。
在本申请实施例中,用户可以通过语音来表达自己的控制目标。对应的,电子设备可以将用户所发出的语音作为语音控制指令,并再根据接收到的语音控制指令来确定用户的控制目标。其中,控制目标可以理解为在电子设备所显示界面中用户实际想操作的控件。需要说明的是,用户在使用电子设备的过程中,可能会一直在进行说话而发出语音信息,但是,用户在发出的语音信息时,可能只是在与别人对话,而并不一定是想对电子设备进行控制,那么为了避免电子设备进行误识别,电子设备可以在获取到指定语音内容后,再开始获取语音控制指令。其中,该指定语音内容可以由用户根据自己的需要进行配置。
在获取到语音控制指令后,可以进一步的从语音控制指令中,获取到用于获取与语音控制指令的控制目标所对应的控件的标识作为第一控件标识,以及获取用于对所述与所述语音控制指令的控制目标对应的控件进行确认的标识作为第二控件标识。也就是说,其中的第二控件标识可以为用于对第一控件标识实际所对应的控件进行辅助确认的标识。
并且,在本申请实施例中可以有多种的获取第一控件标识和第二控件标识的方式。
作为一种方式,可以将语音控制指令转换为对应的文本内容,然后对文本内容进行语义理解,从而获取第一控件标识和第二控件标识。在这种方式中,可以预先建立语义提取规则,然后基于该语义提取规则从文本内容中进行标识获取。需要说明的是,发明人经过研究发现,用户在触发语音控制指令时,所采用的句式会相对比较固定。例如,若用户希望下载应用程序A,那么可能所触发的句式为“点击应用程序A的下载按钮”,这种句式可以总结为“动作类词语+{XXX}+的+{XXX}”。再或者,所触发的句式可以为“下载应用程序A”。这种句式可以总结为“动作类词语+{XXX}”。
在这种方式下,在获取到文本内容后可以基于语义提取规则对文本内容中表征动作类的词语进行获取,然后根据与该动作类的词语的前后顺序关系来确定第一控件标识和第二控件标识。例如,若语音控制指令所转换得到的文本内容与“动作类词语+{XXX}+的+{XXX}”这一句式成功匹配,则可以将动作类词语后的第一个“{XXX}”中的内容作为第二控件标识,而将动作类词语后的第二个“{XXX}”作为第一控件标识。若语音控制指令所转换得到的文本内容与“动作类词语+{XXX}”这一句式成功匹配,则可以将动作类词语识别为第一控件标识,而将动作类词语后的“{XXX}”识别为第二控件标识。
作为另外一种方式,若无法将语音控制指令所转换得到的文本内容与预先配置的句式进行成功匹配,则可以通过预先训练好的神经网络模型来提取指令所转换得到的文本内容中的第一控件标识以及第二控件标识。
S120:若目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有多个,基于所述第二控件标识对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,所述目标界面为获取到所述语音控制指令时所显示的界面,其中,所述第一控件标识对应的控件为与所述语音控制指令对应的待确定控件,所述第二控件标识对应的控件用于从所述待确定控件中确定表征用户实际控制目标的控件作为所述目标控件。
可选的,目标界面为获取到语音控制指令时电子设备所显示的界面,电子设备在接收到语音控制指令后,可以同步开始对目标界面进行识别以获取到目标界面中所包括的控件。并且,在本申请实施例中,可以通过多种的方式来对目标界面中所包括的控件进行识别。
作为一种方式,可以通过代码解析方式对所述目标界面进行识别。可选的,可以基于Google无障碍服务accessibility实现基于代码解析方式对所述目标界面进行识别。在这种方式中,对于所识别出的控件可以对应有控件的ID、类型以及描述信息等。其中,控件对应的描述信息用于表征该控件可以实现的操作。例如,若控件为用于表征应用程序的名称,则该控件的描述信息中则会包括所表征应用程序的名称。再者,若控件是用于触发对应用程序的下载,则该控件的描述信息中包括有下载。
作为另外一种方式,可以通过图文识别(例如,光学字符识别)的方式对目标界面进行识别。在这种方式中,可以对电子设备当前所显示的界面进行截图。然后再对截图得到的图像进行图文识别。在这种方式中,对于所识别出的控件可以对应有控件的位置以及控件的描述信息。并且,在这种方式中,控件的描述信息可以包括有控件中所显示的文本。
作为另外一种方式,可以通过图标识别的方式对目标界面进行识别。在这种方式中,也是可以对电子设备当前所显示的界面进行截图。然后再对截图得到的图像进行图标识别。在这种方式中,对于所识别出的控件可以对应有控件的位置以及控件的描述信息。并且,在这种方式中,控件的描述信息可以包括所识别出的控件的功能的描述内容。
需要说明的是,在本申请实施例中,对目标界面进行识别以获取目标界面中的控件以及控件对应的描述信息有多种方式的情况下,可以根据当前的实际需求选择其中的一种或者多种方式对目标界面进行识别。例如,若目标界面支持基于代码解析方式对目标界面进行识别,那么则可以直接通过代码解析方式对所述目标界面进行识别。若目标界面不支持通过代码解析方式对界面进行识别,则可以采用通过图文识别的方式和图标识别的方式共同对目标界面进行识别。
在本申请实施例中,电子设备也可以通过多种方式来确定目标界面是否支持通过代码解析方式进行控件的识别。
作为一种方式,在电子设备中可以存储有数据表,在该数据表中可以存储有支持代码识别的应用程序的名单。在电子设备对目标界面进行识别之前,可以先查询该数据表中是否存储有所要进行识别的目标界面所属的应用程序。若该数据表中有该所要进行识别的目标界面所属的应用程序,则确定目标界面支持基于代码解析方式对目标界面进行识别,进而可以直接通过代码解析方式对目标界面进行识别。
若该数据表中没有该所要进行识别的目标界面所属的应用程序,则确定该目标界面不一定支持基于代码解析方式对目标界面进行识别。在确定目标界面不一定支持基于代码解析方式对目标界面进行识别后,可以先通过代码解析方式对目标界面进行尝试性识别,若能够识别出控件以及对应的ID、类型以及描述信息等,则确定目标界面支持基于代码解析方式对目标界面进行识别,在得到识别结果后,还可以将目标界面所属的应用程序添加到该数据表中。
若不能够识别出控件,则确定目标界面并不支持基于代码解析方式对目标界面进行识别。进而可以再通过图文识别的方式和过图标识别的方式共同对目标界面进行识别。
在完成对目标界面的识别后,则可以根据从目标界面中所识别出的控件来确认目标界面中是否包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件。并在确认出目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有多个的情况下,可以基于第二控件标识从多个与所述第一控件标识对应的控件中确定目标控件。
其中,如前面介绍,在对目标进行识别后,可以得到目标界面中所包括的控件以及控件的描述信息。那么检测目标界面是否包括有第一控件标识和第二控件标识对应的控件的过程中,则可以将第一控件标识和第二控件标识分别与从目标控件中识别出的控件的描述信息进行匹配,若有控件的描述信息可以与第一控件标识成功匹配,则确定目标界面中有第一控件标识对应的控件。若有控件的描述信息可以与第二控件标识成功匹配,则确定目标界面中有第二控件标识对应的控件。并且,还可以通过成功匹配的数量来确定第一控件标识对应的控件的数量以及第二控件标识对应的控件的数量。
并且,在将第一控件标识和第二控件标识分别与从目标控件中识别出的控件的描述信息进行匹配的过程中,可以有多种的比对方式。
作为一种方式,可以直接将第一控件标识和第二控件标识与描述信息进行文本匹配。在这种方式中,若确定第一控件标识和描述信息的内容相同,则确定描述信息与第一控件标识匹配成功。再者,若确定第二控件标识和描述信息的内容相同,则确定描述信息与第二控件标识匹配成功。
作为再一种方式,可以将第一控件标识、第二控件标识与描述信息分别转换为对应的拼音内容。其中,第一控件标识所对应的拼音内容为第一拼音内容,第二控件标识所对应的拼音内容为第二拼音内容,描述信息对应的拼音内容为第三拼音内容,并且,对于第一拼音内容和第二拼音内容还会基于音素替换表进行音素替换,并将对第一拼音内容进行音素替换后的拼音内容作为第一替换拼音内容,将对第二拼音内容进行音素替换后的拼音内容作为第二替换拼音内容。然后,再将第一拼音内容、第二拼音内容、第一替换拼音内容以及第二替换拼音内容,与第三拼音内容进行匹配。
若有与第一拼音内容成功匹配的第三拼音内容,则将该第三拼音内容对应控件作为第一控件标识所对应的控件,若没有与第一拼音内容成功匹配的第三拼音内容,则将第一替换拼音内容与第三拼音内容进行匹配,若有与第一拼音内容成功匹配的第一替换拼音内容,则将该与第一拼音内容成功匹配的第一替换拼音内容所对应的描述信息所对应的控件作为第一控件标识所对应的控件,否则,确定目标界面中不存在与第一控件标识所对应的控件。
若有与第二拼音内容成功匹配的第三拼音内容,则将该第三拼音内容对应控件作为第二控件标识所对应的控件,若没有与第二拼音内容成功匹配的第三拼音内容,则将第二替换拼音内容与第三拼音内容进行匹配,若有与第二拼音内容成功匹配的第二替换拼音内容,则将该与第二拼音内容成功匹配的第二替换拼音内容所对应的描述信息所对应的控件作为第二控件标识所对应的控件,否者,确定目标界面中不存在与第二控件标识所对应的控件。
如图4所示,在图4所示的场景中,若用户触发的语音控制指令为“安装应用程序A”,那么根据本申请实施例中的方式所获取得到的第一控件标识可以为安装,第二控件标识为应用程序A。并且图4的右侧所示的界面图可知,在电子设备当前所显示的界面中描述信息中包括有安装的控件有8个,因此,如果仅仅依靠第一控件标识本身可能并不能很明确的确定用户是要安装哪个应用程序。那么再结合内容为应用程序A的第二控件标识,则可以明确用户想要触发的是与应用程序A有关的安装。
需要说明的是,在对目标界面进行识别以得到识别结果后,可以对识别结果进行存储,以便于在下一次需要获取同一个目标界面的控件的描述信息时,可以直接获取之前进行识别所得到的识别结果,而不用再实时进行识别,以提升响应用户操作的效率。
S130:执行与所述目标控件对应的控制操作。
在确定目标控件后,电子设备则可以执行与目标控件所对应的控制操作。作为一种方式,在确定目标控件后,可以先生成与目标控件对应的控制操作的所对应的控制指令,进而使得电子设备通过执行该控制指令的方式来触发执行与目标控件对应的控制操作。其中,可以通过系统注入(Android所支持的一种操作方式)或模拟屏幕点击的方法生成与目标控件对应的控制操作所对应的控制指令。
本实施例提供的一种语音控制方法,先从获取的语音控制指令中获取第一控件标识和第二控件标识,在第一控件标识对应的控件为与语音控制指令对应的待确定控件,第二控件标识对应的控件用于从待确定控件中确定表征用户实际控制目标的控件作为目标控件的情况下,若目标界面中包括有与第一控件标识对应的控件以及与第二控件标识对应的控件,且与第一控件标识对应的控件有多个,则会基于第二控件标识从多个与所述第一控件标识对应的控件中确定目标控件,并执行与所述目标控件对应的控制操作。
从而通过上述方式使得在与语音控制指令对应的待确定控件(第一控件标识对应的控件)有多个而造成无法明确用户的实际控制意图的情况下,可以再借助于第二控件标识对应的控件对多个待确定控件进行确定,从而从多个待确定控件中确定表征用户实际控制目的控件作为目标控件,进而使得电子设备可以准确的确定用户的实际控制意图。
请参阅图5,本申请提供的一种语音控制方法,所述方法包括:
S210:从获取的语音控制指令中获取第一控件标识和第二控件标识,其中,所述第一控件标识对应的控件为与所述语音控制指令对应的待确定控件,所述第二控件标识对应的控件用于从所述待确定控件中确定表征用户实际控制目标的控件作为所述目标控件。
S220:若目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有多个,若所述第二控件标识对应的控件为一个,则基于所述第二控件标识所对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,所述目标界面为获取到所述语音控制指令时所显示的界面。
需要说明的是,在本申请实施例中在第一控件标识所对应的控件中,用户想实际触控的控件和第二控件标识所对应的控件通常是具有一定的关联的。例如,如图6所示,若用户触发的语音控制指令为“安装应用程序B”,则所获取到的第一控件标识为安装,第二控件标识为应用程序B。虽然在图5所示的界面中可以识别到与第一控件标识对应的控件会有三个。但是,用户实际想触发的是三个与第一控件标识对应的控件中与应用程序B(第二控件标识)紧邻的那个控件(图6中虚线框所围绕的控件)。因此,可以通过第二控件标识与用户想实际触控的控件之间的关联性,来对多个与所述第一控件标识对应的控件进行筛选,以筛选出用户想实际触控的控件作为目标控件。其中,控件之间的关联性可以包括控件之间的距离或者控件之间的包含关系等。
再者,在目标界面中一些控件可能会有些相似的控件。该相似可以为显示样式比较相似,或者也可以是显示位置比较相似,再者,也可以是与其他控件的包含关系比较相似。在这种情况下,可以结合与第二控件标识所对应的控件相似的控件共同来从多个与所述第一控件标识对应的控件中筛选出用户想实际触控的控件作为目标控件。
作为另外一种方式,所述若所述第二控件标识对应的控件为一个,则基于所述第二控件标识所对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,包括:若所述第二控件标识对应的控件为一个,且所述第二控件标识所对应的控件对应有相似控件,获取与所述第二控件标识所对应的控件相似的控件作为第一相似控件;基于所述第二控件标识所对应的控件以及所述第一相似控件,从多个与所述第一控件标识对应的控件中确定目标控件。其中,第一相似控件可以为一个也可以为多个。
那么作为一种方式,所述若所述第二控件标识对应的控件为一个,则基于所述第二控件标识所对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,包括:若所述第二控件标识对应的控件为一个,且所述第二控件标识所对应的控件未对应有相似控件,基于所述第二控件标识所对应的控件从多个与所述第一控件标识对应的控件中确定目标控件。
其中,可选的,作为一种确定相似控件的方式,可以先基于代码解析的方式对目标界面进行识别,从而获取到目标界面中所包括控件的ID、类型、位置、尺寸、包含关系以及描述信息等,然后基于所识别出的控件的ID、类型、位置、尺寸、包含关系以及描述信息等信息构建控件关系结构图。在该控件关系结构图中,会包括有多个节点,其中每个节点表征一个控件。并且,子节点所对应的控件包含在所述子节点对应的父节点所对应的控件中。需要说明的是,在控件关系结构图中子节点和父节点是相对存在的,若有某个节点对应的控件包括在该节点相邻的一个节点所对应的控件中,那么该节点某个节点则是相对于该相邻的节点为子节点,对应的,该相邻的节点则为该某个节点的父节点。示例性的,对图6所示的界面进行解析可以得到图7所示的控件关系结构图。如图7所示,节点2与节点5相邻,并且按照从上到下,节点对应的控件的层级越低的顺序,节点2的层级高于节点5的层级,并且,节点5相对于节点2为子节点,节点2相对于节点5为父节点。在图6所示控件关系结构图中,排布在最顶端的节点为根节点,其中,在控件关系结构图中根节点则表征的是目标界面中最基础的一个控件,在界面所包括的所有控件中,除了该最基础的一个控件外,其他所有控件均包含在该最基础的一个控件中。并且,排布位置越靠近顶部的节点所表征的控件的层级越接近于该最基础的一个控件。
在这种方式中,获取与所述第二控件标识所对应的控件相似的控件作为第一相似控件,可以包括:基于所述第二控件标识所对应的控件的属性,在控件关系结构图中查找与所述第二控件标识所对应的控件相似的控件作为第一相似控件,所述属性包括到控件对应的节点到根节点的距离、控件的类型、控件的长宽以及控件在对应的父控件中的相对位置中的至少一项。
其中,控件对应的节点到根节点的距离表征的是从该控件对应的节点跳转到根节点的过程中需要跳转的次数。例如,其中,图7中的节点1跳转到根节点需要跳转1次,那么节点1和根节点之间的距离为1。节点8跳转到根节点需要跳转5次,那么节点8到根节点的距离为5。又例如,节点5跳转到根节点需要跳转3次,那么节点5到根节点的距离为3,同理,节点6和节点8到根节点的距离均为3。
其中,控件的类型可以表征控件在界面中的用途。可选的,根据控件的类型可以将界面中所包括的控件分为用于输出内容的控件、用于显示内容的控件以及用于和用户进行交互的控件。其中,用于输出内容的控件可以为文本框。用于显示内容的控件可以为用于显示图片或者文本内容的控件。用于和用户进行交互的控件则可以包括按钮等。
其中,控件的长宽则表征的是控件本身的尺寸。控件在对应的父控件中的相对位置可以理解为控件在被显示在界面中时其所在父控件中的相对显示位置。如图8所示,在控件1中包括有控件11和控件12,其中,控件11用于显示应用程序A对应的图标控件、名称控件以及安装触发控件。其中,控件12用于显示应用程序B对应的图标控件、名称控件以及安装触发控件。如图8可知,应用程序A对应的图标控件显示在控件11中相对位置,与应用程序B对应的图标控件显示在控件12中相对位置是一样的。
在本申请实施例中,在获取到目标界面中所包括的控件的属性后,则可以基于控件的属性筛选出与所述第二控件标识所对应的控件相似的控件作为第一相似控件。并且,在基于属性来获取第一相似控件的过程中,可以基于控件属性中的一项来获取第一相似控件,也可以基于属性中多项来获取第一相似控件。例如,作为一种方式,可以基于属性中所包括的控件对应的节点到根节点的距离来筛选第一相似控件。例如,请再参阅图7,若第二控件标识为应用程序A,那么应用程序A对应的节点为节点5。其中,节点5到根节点的距离为3,而其他到根节点的距离为3的节点至少有节点6和节点7,那么可以确定节点6和节点7各自对应的控件为第一相似控件。
再如图8所示,若是基于控件在对应的父控件中的相对位置来确定相似控件,那么则可以确定图8中的应用程序A对应的图标控件和应用程序B对应的图标控件为相似控件。那么若应用程序A对应的图标控件为第二控件标识对应的控件,那么则可以确定应用程序B对应的图标控件为相似控件。
可选的,如图9所示,所述基于所述第二控件标识所对应的控件以及所述第一相似控件,从多个与所述第一控件标识对应的控件中确定目标控件,包括:
S221:获取控件关系结构图中第一节点分别与多个第二节点之间的距离,得到多个第一距离,所述第一节点用于表征第二控件标识所对应的控件,所述第二节点用于表征第一控件标识对应的控件。
可选的,所述获取控件关系结构图中第一节点分别与多个第二节点之间的距离,得到多个第一距离,包括:
获取控件关系结构图中第一节点与当前进行第一距离计算的第二节点所对应的最近公共父节点;获取所述第一节点到所述最近公共父节点的距离,以及所述当前进行第一距离计算的第二节点到所述最近公共父节点的距离,所述距离保证对应两个节点相互跳跃的层级的数量;将所述第一节点到所述最近公共父节点的距离,与所述当前进行第一距离计算的第二节点到所述最近公共父节点的距离之和作为当前进行第一距离计算的第二节点与所述第一节点之间的距离,以得到多个第一距离。
示例性的,如图7所示,若第一控件标识为安装,第二控件标识为应用程序A,那么第一控件标识对应的节点有节点8、节点9以及节点10。第二控件标识对应的节点有节点5。那么第一节点则包括节点5,第二节点则包括节点8、节点9以及节点10,然后会分别获取节点5和节点8所对应的第一距离,节点5和节点9所对应的第一距离,以及节点5和节点10所对应的第一距离,从而得到多个第一距离。
其中,节点5和节点8对应的公共父节点有节点2、节点1以及根节点,但是节点2是距离节点5和节点8最近的父节点,则节点2为节点5和节点8对应的最近公共父节点。其中,节点5到节点2的距离为1,节点8到节点2的距离为3,那么节点5和节点8所对应的第一距离为4。节点5和节点9对应的公共父节点有节点1以及根节点,但是节点1是距离节点5和节点9最近的父节点,则节点1为节点5和节点9对应的最近公共父节点。其中,节点5到节点1的距离为2,节点9到节点1的距离为4,那么节点5和节点9所对应的第一距离为6。节点5和节点10对应的公共父节点有节点1以及根节点,但是节点1是距离节点5和节点10最近的父节点,则节点1为节点5和节点10对应的最近公共父节点。其中,节点5到节点1的距离为2,节点10到节点1的距离为4,那么节点5和节点10所对应的第一距离为6。
S222:获取控件关系结构图中第三节点分别与多个第二节点之间的距离,得到多个第二距离,所述第三节点为第一相似控件对应的节点。
可选的,所述获取控件关系结构图中第三节点分别与多个第二节点之间的距离,得到多个第二距离,包括:获取控件关系结构图中第三节点与当前进行第二距离计算的第二节点所对应的最近公共父节点;获取所述第三节点到所述最近公共父节点的距离,以及所述当前进行第二距离计算的第二节点到所述最近公共父节点的距离,所述距离保证对应两个节点相互跳跃的层级的数量;将所述第三节点到所述最近公共父节点的距离,与所述当前进行第二距离计算的第二节点到所述最近公共父节点的距离之和作为当前进行第二距离计算的第二节点与所述第三节点之间的距离,以得到多个第二距离。
示例性,请再参阅图7,如前述内容所示,依然以第一节点则包括节点5,第二节点则包括节点8、节点9以及节点10为例,若是通过到根节点的距离是否相同来确定第一相似控件,那么所确定的出的第一相似控件所对应的节点包括有节点6和节点7。然后可以按照前述的访问时计算出节点6和节点8之间的第二距离,节点6和节点9之间的第二距离,节点6和节点10之间的第二距离。再者,会计算出节点7和节点8之间的第二距离,节点7和节点9之间的第二距离,节点7和节点10之间的第二距离,从而得到多个第二距离。
需要说明的是,本身实施例中计算第二距离的方式和计算第一距离的方式是相同的,此处则不再细述。对应的,所计算出出的节点6和节点8之间的第二距离为6,节点6和节点9之间的第二距离为4,节点6和节点10之间的第二距离为6。所计算出出的节点7和节点8之间的第二距离为6,节点7和节点9之间的第二距离为6,节点7和节点10之间的第二距离为4。
S223:获取多个参考距离,所述多个参考距离包括所述多个第一距离和所述多个第二距离。
S224:检测多个参考距离中的最小值与所述多个第一距离中的最小值是否一致,且该最小值的数量为一个。
S225:若所述多个参考距离中的最小值与所述多个第一距离中的最小值一致,且该最小值的数量为一个,则将所述第一控件标识对应的多个控件中,与所述多个第一距离中最小值对应的控件作为目标控件。
从前述实例可以发现,多个参考距离中最小的值为4,且多个第一距离中的最小值也为4,那么则可以确定多个参考距离中的最小值与多个第一距离中的最小值一致,进而可以将第一控件标识对应的多个控件中,与多个第一距离中最小值对应的控件作为目标控件。例如,与第二控件标识对应的控件包括有图7中的节点8、节点9以及节点10所对应的控件,多个第一距离中的最小值所对应的控件为节点8和节点5所对应的控件,进而节点8所对应的控件为与多个第一距离中的最小值以及与第二控件标识均对应的控件,从而可以将节点8所对应的控件作为目标控件。
S226:若所述多个参考距离中的最小值与所述多个第一距离中的最小值不一致,且所述多个第一距离没有与所述多个参考距离中的最小值相同的第一距离,获取第二相似控件,所述第二相似控件为基于第一控件标识对应的控件的属性从所述控件关系结构图中选择出的控件。
需要说明的是,在一些情况下,因为用户的口误,用户所想要触发的控件与用户通过语音控制指令所表达的控制目标涉及的控件可能会有不同。如图10所示,在图10所示的界面中,应用程序A对应的操作控件为更新,应用程序B对应的操作控件为更新,应用程序C对应的操作控件为安装。其中,对图10中的控件进行识别所得到得到控件关系结构图,可以如图11所示。基于图11所示的控件关系结构图,若用户发出的语音控制指令为“更新应用程序C”,那么所获取到的第一控件标识为更新,第二控件标识为应用程序C。基于前述内容所介绍的获取第一距离、第二距离以及第三距离的方式,可以发现多个参考距离中的最小值与多个第一距离中的最小值不一致,并且会发现多个第一距离中的最小值均大于多个参考距离中的最小值,则会进一步则则会基于第一控件标识对应的控件的属性从图11所示的控件关系结构图中选择的相似的控件作为第二相似控件。例如,若基于控件到根节点(图11中的节点1)的距离相同来选择第二相似控件,进而可以将到根节点的距离也为4的节点11对应的控件作为第二相似控件。
S227:获取第三距离,所述第三距离包括所述第二相似控件对应的节点到所述第二控件标识对应的节点的距离。
依然如图11所示,可以获取第二相似控件对应的节点11到第二控件标识对应的节点7的距离为4,即获取到的第三距离为4。
S228:若所述第三距离中存在与所述多个参考距离中的最小值唯一一致的距离,将所述唯一一致的距离对应的控件作为目标控件。
其中,唯一一致可以理解为一致且仅有一个一致。对应的,第三距离中存在与所述多个参考距离中的最小值唯一一致的距离则可以理解为第三距离中仅有一个距离与多个参考距离中的最小值一致。
在图11所示的情况下中,多个参考距离中的最小值也为4,因此可以确定第三距离中存在与多个参考距离中的最小值唯一一致的距离。因此,可以将该唯一距离所对应的节点(节点11)所对应的控件作为目标控件。从而通过获取第二相似控件的方式,可以使得即使在用户口误而错误的发出语音控制指令的情况下,电子设备可以智能化的对用户的语音控制指令中的错误进行纠正,从而提升了准确执行用户实际意图的概率。
若目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有一个,将所述第一控件标识对应的控件作为目标控件。
再者,在一些情况下,多个参考距离中的最小值与多个第一距离中的最小值一致,但是该最小值可能并不是唯一的。如图12所示,经过前述方式进行计算可以发现多个第一距离中的最小值所对应的控件可以为节点8所对应的控件,也可以为节点9所对应的控件,因此,无法直接确定出目标控件。那么在通过本申请实施例提供的方法无法自动确定出目标控件的情况下,可以通过询问用户的方式来确定目标控件。
还有,在一些情况下,与第二控件标识所对应的控件会有两个及以上,那么在这种情况下,若第一控件标识对应的控件也有两个及以上,那么则无法通过第二控件标识来从多个第一控件标识对应的控件中确定目标控件,则可以通过询问用户的方式来确定目标控件。
S230:执行与所述目标控件对应的控制操作。
本实施例提供的一种语音控制方法,从而通过上述方式使得在与语音控制指令对应的待确定控件(第一控件标识对应的控件)有多个而造成无法明确用户的实际控制意图的情况下,可以再借助于第二控件标识对应的控件对多个待确定控件进行确定,从而从多个待确定控件中确定表征用户实际控制目的控件作为目标控件,进而使得电子设备可以准确的确定用户的实际控制意图。并且,在本实施例中,可以基于目标界面中的控件的相互包含关系建立控件关系结构图,从而使得可以借助于该控件关系结构图来计算第二控件标识所对应的控件以及所述第一相似控件分别与所述第一控件标识对应的控件之间的距离,继而在基于该距离来从多个与所述第一控件标识对应的控件中确定目标控件,从而使得电子设备可以更为便利且准确的确定出目标控件。
请参阅图13,本申请提供的一种语音控制方法,所述方法包括:
S310:从获取的语音控制指令中获取第一控件标识和第二控件标识,其中,所述第一控件标识对应的控件为与所述语音控制指令对应的待确定控件,所述第二控件标识对应的控件用于从所述待确定控件中确定表征用户实际控制目标的控件作为所述目标控件。
S320:若目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有多个,获取在所述目标界面中,多个与所述第一控件标识对应的控件各自与所述第二控件标识对应控件之间的显示距离,所述目标界面为获取到所述语音控制指令时所显示的界面。
其中,在本申请实施例中,显示距离表征的是在目标界面中控件之间的像素距离。其中,两个控件之间显示距离可以包括两个控件在的中心坐标之间的距离。
如图14所示,控件20和控件21之间的显示距离为d1,控件21和控件22之间的显示距离为d2。
S330:将所述第一控件标识对应的控件中对应的显示距离最小的控件作为目标控件。
S340:执行与所述目标控件对应的控制操作。
本实施例提供的一种语音控制方法,从而通过上述方式使得在与语音控制指令对应的待确定控件(第一控件标识对应的控件)有多个而造成无法明确用户的实际控制意图的情况下,可以再借助于第二控件标识对应的控件对多个待确定控件进行确定,从而从多个待确定控件中确定表征用户实际控制目的控件作为目标控件,进而使得电子设备可以准确的确定用户的实际控制意图。并且,在本实施例中,可以直接基于多个与所述第一控件标识对应的控件各自与所述第二控件标识对应控件之间的显示距离来从多个与所述第一控件标识对应的控件中确定目标控件,提升了获取目标控件的灵活性。
请参阅图15,本申请提供的一种语音控制装置400,所述装置400包括:
标识获取单元410,用于从获取的语音控制指令中获取第一控件标识和第二控件标识,其中,所述第一控件标识对应的控件为与所述语音控制指令对应的待确定控件,所述第二控件标识对应的控件用于从所述待确定控件中确定表征用户实际控制目标的控件作为所述目标控件。
控件确定单元420,用于若目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有多个,基于所述第二控件标识对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,所述目标界面为获取到所述语音控制指令时所显示的界面。
控制单元430,用于执行与所述目标控件对应的控制操作。
作为一种方式,控件确定单元420,具体用于若所述第二控件标识对应的控件为一个,则基于所述第二控件标识所对应的控件从多个与所述第一控件标识对应的控件中确定目标控件。可选的,控件确定单元420,具体用于若所述第二控件标识对应的控件为一个,且所述第二控件标识所对应的控件未对应有相似控件,基于所述第二控件标识所对应的控件从多个与所述第一控件标识对应的控件中确定目标控件。
可选的,控件确定单元420,具体用于若所述第二控件标识对应的控件为一个,且所述第二控件标识所对应的控件对应有相似控件,获取与所述第二控件标识所对应的控件相似的控件作为第一相似控件;基于所述第二控件标识所对应的控件以及所述第一相似控件,从多个与所述第一控件标识对应的控件中确定目标控件。
可选的,基于所述第二控件标识所对应的控件的属性,在控件关系结构图中查找与所述第二控件标识所对应的控件相似的控件作为第一相似控件,所述属性包括到控件对应的节点到根节点的距离、控件的类型、控件的长宽以及控件在对应的父控件中的相对位置中的至少一项;其中,所述控件关系结构图为基于所述目标界面中的控件的包含关系所生成,在所述控件关系结构图中子节点所对应的控件包含在所述子节点对应的父节点所对应的控件中。
可选的,控件确定单元420,具体用于获取控件关系结构图中第一节点分别与多个第二节点之间的距离,得到多个第一距离,所述第一节点用于表征第二控件标识所对应的控件,所述第二节点用于表征第一控件标识对应的控件;获取控件关系结构图中第三节点分别与多个第二节点之间的距离,得到多个第二距离,所述第三节点为第一相似控件对应的节点;获取多个参考距离,所述多个参考距离包括所述多个第一距离和所述多个第二距离;若所述多个参考距离中的最小值与所述多个第一距离中的最小值一致,且该最小值的数量为一个,则将所述第一控件标识对应的多个控件中,与所述多个第一距离中最小值对应的控件作为目标控件。
还具体用于若所述多个参考距离中的最小值与所述多个第一距离中的最小值不一致,且所述多个第一距离没有与所述多个参考距离中的最小值相同的第一距离,获取第二相似控件,所述第二相似控件为基于第一控件标识对应的控件的属性从所述控件关系结构图中选择出的控件;获取第三距离,所述第三距离包括所述第二相似控件对应的节点到所述第二控件标识对应的节点的距离;若所述第三距离中存在与所述多个参考距离中的最小值唯一一致的距离,将所述唯一一致的距离对应的控件作为目标控件。
作为一种方式,控件确定单元420,具体用于获取控件关系结构图中第一节点与当前进行第一距离计算的第二节点所对应的最近公共父节点;获取所述第一节点到所述最近公共父节点的距离,以及所述当前进行第一距离计算的第二节点到所述最近公共父节点的距离,所述距离保证对应两个节点相互跳跃的层级的数量;将所述第一节点到所述最近公共父节点的距离,与所述当前进行第一距离计算的第二节点到所述最近公共父节点的距离之和作为当前进行第一距离计算的第二节点与所述第一节点之间的距离,以得到多个第一距离。
作为一种方式,控件确定单元420,具体用于获取控件关系结构图中第三节点与当前进行第二距离计算的第二节点所对应的最近公共父节点;获取所述第三节点到所述最近公共父节点的距离,以及所述当前进行第二距离计算的第二节点到所述最近公共父节点的距离,所述距离保证对应两个节点相互跳跃的层级的数量;将所述第三节点到所述最近公共父节点的距离,与所述当前进行第二距离计算的第二节点到所述最近公共父节点的距离之和作为当前进行第二距离计算的第二节点与所述第三节点之间的距离,以得到多个第二距离。
其中,控件确定单元420,具体用于若目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有一个,将所述第一控件标识对应的控件作为目标控件。
作为另外一种方式,控件确定单元420,具体用于获取在所述目标界面中,多个与所述第一控件标识对应的控件各自与所述第二控件标识对应控件之间的显示距离;将所述第一控件标识对应的控件中对应的显示距离最小的控件作为目标控件。
本实施例提供的一种语音控制装置,先从获取的语音控制指令中获取第一控件标识和第二控件标识,在第一控件标识对应的控件为与语音控制指令对应的待确定控件,第二控件标识对应的控件用于从待确定控件中确定表征用户实际控制目标的控件作为目标控件的情况下,若目标界面中包括有与第一控件标识对应的控件以及与第二控件标识对应的控件,且与第一控件标识对应的控件有多个,则会基于第二控件标识从多个与所述第一控件标识对应的控件中确定目标控件,并执行与所述目标控件对应的控制操作。从而通过上述方式使得在与语音控制指令对应的待确定控件(第一控件标识对应的控件)有多个而造成无法明确用户的实际控制意图的情况下,可以再借助于第二控件标识对应的控件对多个待确定控件进行确定,从而从多个待确定控件中确定表征用户实际控制目的控件作为目标控件,进而使得电子设备可以准确的确定用户的实际控制意图。
需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性。另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
下面将结合图13对本申请提供的一种电子设备进行说明。
请参阅图13,基于上述的语音控制方法、装置,本申请实施例还提供的一种可以执行前述语音控制方法的电子设备1000。电子设备1000包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104、摄像头106以及音频采集装置108。其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。
其中,处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行电子设备1000的各种功能和处理数据。可选地,处理器102可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。作为一种方式,处理器102可以为神经网络芯片。例如,可以为嵌入式神经网络芯片(NPU)。
存储器104可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。
再者,电子设备1000除了前述所示的器件外,还可以包括网络模块110以及传感器模块112。
所述网络模块110用于实现电子设备1000与其他设备之间的信息交互,例如,传输设备控制指令、操纵请求指令以及状态信息获取指令等。而当电子设备200具体为不同的设备时,其对应的网络模块110可能会有不同。
传感器模块112可以包括至少一种传感器。具体地,传感器模块112可包括但并不限于:水平仪、光传感器、运动传感器、压力传感器、红外热传感器、距离传感器、加速度传感器、以及其他传感器。
其中,压力传感器可以检测由按压在电子设备1000产生的压力的传感器。即,压力传感器检测由用户和电子设备之间的接触或按压产生的压力,例如由用户的耳朵与移动终端之间的接触或按压产生的压力。因此,压力传感器可以用来确定在用户与电子设备1000之间是否发生了接触或者按压,以及压力的大小。
其中,加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备1000姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。另外,电子设备1000还可配置陀螺仪、气压计、湿度计、温度计等其他传感器,在此不再赘述。
音频采集装置110,用于进行音频信号采集。可选的,音频采集装置110包括有多个音频采集器件,该音频采集器件可以为麦克风。
作为一种方式,电子设备1000的网络模块为射频模块,该射频模块用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。所述射频模块可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。例如,该射频模块可以通过发送或者接收的电磁波与外部设备进行交互。例如,射频模块可以向目标设备发送指令。
请参考图14,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
综上所述,本申请提供的一种语音控制方法、装置、电子设备及存储介质,先从获取的语音控制指令中获取第一控件标识和第二控件标识,在第一控件标识对应的控件为与语音控制指令对应的待确定控件,第二控件标识对应的控件用于从待确定控件中确定表征用户实际控制目标的控件作为目标控件的情况下,若目标界面中包括有与第一控件标识对应的控件以及与第二控件标识对应的控件,且与第一控件标识对应的控件有多个,则会基于第二控件标识从多个与所述第一控件标识对应的控件中确定目标控件,并执行与所述目标控件对应的控制操作。从而通过上述方式使得在与语音控制指令对应的待确定控件(第一控件标识对应的控件)有多个而造成无法明确用户的实际控制意图的情况下,可以再借助于第二控件标识对应的控件对多个待确定控件进行确定,从而从多个待确定控件中确定表征用户实际控制目的控件作为目标控件,进而使得电子设备可以准确的确定用户的实际控制意图。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (14)
1.一种语音控制方法,其特征在于,所述方法包括:
从获取的语音控制指令中获取第一控件标识和第二控件标识;
若目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有多个,基于所述第二控件标识对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,所述目标界面为获取到所述语音控制指令时所显示的界面,其中,所述第一控件标识对应的控件为与所述语音控制指令对应的待确定控件,所述第二控件标识对应的控件用于从所述待确定控件中确定表征用户实际控制目标的控件作为所述目标控件;
执行与所述目标控件对应的控制操作。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第二控件标识对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,包括:
若所述第二控件标识对应的控件为一个,则基于所述第二控件标识所对应的控件从多个与所述第一控件标识对应的控件中确定目标控件。
3.根据权利要求2所述的方法,其特征在于,所述若所述第二控件标识对应的控件为一个,则基于所述第二控件标识所对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,包括:
若所述第二控件标识对应的控件为一个,且所述第二控件标识所对应的控件未对应有相似控件,基于所述第二控件标识所对应的控件从多个与所述第一控件标识对应的控件中确定目标控件。
4.根据权利要求2所述的方法,其特征在于,所述若所述第二控件标识对应的控件为一个,则基于所述第二控件标识所对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,包括:
若所述第二控件标识对应的控件为一个,且所述第二控件标识所对应的控件对应有相似控件,获取与所述第二控件标识所对应的控件相似的控件作为第一相似控件;
基于所述第二控件标识所对应的控件以及所述第一相似控件,从多个与所述第一控件标识对应的控件中确定目标控件。
5.根据权利要求4所述的方法,其特征在于,所述获取与所述第二控件标识所对应的控件相似的控件作为第一相似控件,包括:
基于所述第二控件标识所对应的控件的属性,在控件关系结构图中查找与所述第二控件标识所对应的控件相似的控件作为第一相似控件,所述属性包括控件对应的节点到根节点的距离、控件的类型、控件的长宽以及控件在对应的父控件中的相对位置中的至少一项;
其中,所述控件关系结构图为基于所述目标界面中控件的包含关系所生成,在所述控件关系结构图中子节点所对应的控件包含在所述子节点对应的父节点所对应的控件中。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第二控件标识所对应的控件以及所述第一相似控件,从多个与所述第一控件标识对应的控件中确定目标控件,包括:
获取控件关系结构图中第一节点分别与多个第二节点之间的距离,得到多个第一距离,所述第一节点用于表征第二控件标识所对应的控件,所述第二节点用于表征第一控件标识对应的控件;
获取控件关系结构图中第三节点分别与多个第二节点之间的距离,得到多个第二距离,所述第三节点为第一相似控件对应的节点;
获取多个参考距离,所述多个参考距离包括所述多个第一距离和所述多个第二距离;
若所述多个参考距离中的最小值与所述多个第一距离中的最小值一致,且该最小值的数量为一个,则将所述第一控件标识对应的多个控件中,与所述多个第一距离中最小值对应的控件作为目标控件。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述多个参考距离中的最小值与所述多个第一距离中的最小值不一致,且所述多个第一距离没有与所述多个参考距离中的最小值相同的第一距离,获取第二相似控件,所述第二相似控件为基于第一控件标识对应的控件的属性从所述控件关系结构图中选择出的控件;
获取第三距离,所述第三距离包括所述第二相似控件对应的节点到所述第二控件标识对应的节点的距离;
若所述第三距离中存在与所述多个参考距离中的最小值唯一一致的距离,将所述唯一一致的距离对应的控件作为目标控件。
8.根据权利要求6所述的方法,其特征在于,所述获取控件关系结构图中第一节点分别与多个第二节点之间的距离,得到多个第一距离,包括:
获取控件关系结构图中第一节点与当前进行第一距离计算的第二节点所对应的最近公共父节点;
获取所述第一节点到所述最近公共父节点的距离,以及所述当前进行第一距离计算的第二节点到所述最近公共父节点的距离;
将所述第一节点到所述最近公共父节点的距离,与所述当前进行第一距离计算的第二节点到所述最近公共父节点的距离之和作为当前进行第一距离计算的第二节点与所述第一节点之间的距离,以得到多个第一距离。
9.根据权利要求6所述的方法,其特征在于,所述获取控件关系结构图中第三节点分别与多个第二节点之间的距离,得到多个第二距离,包括:
获取控件关系结构图中第三节点与当前进行第二距离计算的第二节点所对应的最近公共父节点;
获取所述第三节点到所述最近公共父节点的距离,以及所述当前进行第二距离计算的第二节点到所述最近公共父节点的距离,所述距离表征对应两个节点相互跳跃的层级的数量;
将所述第三节点到所述最近公共父节点的距离,与所述当前进行第二距离计算的第二节点到所述最近公共父节点的距离之和作为当前进行第二距离计算的第二节点与所述第三节点之间的距离,以得到多个第二距离。
10.根据权利要求1所述的方法,其特征在于,所述基于所述第二控件标识对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,包括:
获取在所述目标界面中,多个与所述第一控件标识对应的控件各自与所述第二控件标识对应控件之间的显示距离;
将所述第一控件标识对应的控件中对应的显示距离最小的控件作为目标控件。
11.根据权利要求1-10任一所述的方法,其特征在于,所述方法还包括:
若目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有一个,将所述第一控件标识对应的控件作为目标控件。
12.一种语音控制装置,其特征在于,所述装置包括:
标识获取单元,用于从获取的语音控制指令中获取第一控件标识和第二控件标识;
控件确定单元,用于若目标界面中包括有与所述第一控件标识对应的控件以及与第二控件标识对应的控件,且与所述第一控件标识对应的控件有多个,基于所述第二控件标识对应的控件从多个与所述第一控件标识对应的控件中确定目标控件,所述目标界面为获取到所述语音控制指令时所显示的界面,其中,所述第一控件标识对应的控件为与所述语音控制指令对应的待确定控件,所述第二控件标识对应的控件用于从所述待确定控件中确定表征用户实际控制目标的控件作为所述目标控件;
控制单元,用于执行与所述目标控件对应的控制操作。
13.一种电子设备,其特征在于,包括一个或多个处理器以及存储器;
一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-11任一所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行权利要求1-11任一所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111500093.0A CN114121012A (zh) | 2021-12-09 | 2021-12-09 | 语音控制方法、装置、电子设备及存储介质 |
PCT/CN2022/136341 WO2023103917A1 (zh) | 2021-12-09 | 2022-12-02 | 语音控制方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111500093.0A CN114121012A (zh) | 2021-12-09 | 2021-12-09 | 语音控制方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114121012A true CN114121012A (zh) | 2022-03-01 |
Family
ID=80364063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111500093.0A Pending CN114121012A (zh) | 2021-12-09 | 2021-12-09 | 语音控制方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114121012A (zh) |
WO (1) | WO2023103917A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023103917A1 (zh) * | 2021-12-09 | 2023-06-15 | 杭州逗酷软件科技有限公司 | 语音控制方法、装置、电子设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101436133B (zh) * | 2008-11-20 | 2012-11-21 | 腾讯科技(深圳)有限公司 | 一种生成控件对象库的方法和装置 |
JP2014126600A (ja) * | 2012-12-25 | 2014-07-07 | Panasonic Corp | 音声認識装置、音声認識方法、およびテレビ |
CN108538291A (zh) * | 2018-04-11 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音控制方法、终端设备、云端服务器及系统 |
CN109582311A (zh) * | 2018-11-30 | 2019-04-05 | 网易(杭州)网络有限公司 | 一种游戏中ui编辑的方法及装置、电子设备、存储介质 |
CN110136718A (zh) * | 2019-05-31 | 2019-08-16 | 深圳市语芯维电子有限公司 | 语音控制的方法和装置 |
CN113476848B (zh) * | 2021-07-08 | 2023-11-17 | 网易(杭州)网络有限公司 | 树状链式地图的生成方法及装置、存储介质、电子设备 |
CN114121012A (zh) * | 2021-12-09 | 2022-03-01 | 杭州逗酷软件科技有限公司 | 语音控制方法、装置、电子设备及存储介质 |
-
2021
- 2021-12-09 CN CN202111500093.0A patent/CN114121012A/zh active Pending
-
2022
- 2022-12-02 WO PCT/CN2022/136341 patent/WO2023103917A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023103917A1 (zh) * | 2021-12-09 | 2023-06-15 | 杭州逗酷软件科技有限公司 | 语音控制方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023103917A1 (zh) | 2023-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3652734B1 (en) | Voice data processing method and electronic device supporting the same | |
CN110288987B (zh) | 用于处理声音数据的系统和控制该系统的方法 | |
US11538470B2 (en) | Electronic device for processing user utterance and controlling method thereof | |
CN109947650B (zh) | 脚本步骤处理方法、装置和系统 | |
WO2023082703A1 (zh) | 语音控制方法、装置、电子设备及可读存储介质 | |
CN111105852B (zh) | 一种电子病历推荐方法、装置、终端及存储介质 | |
CN110457214B (zh) | 应用测试方法及装置、电子设备 | |
CN106878390B (zh) | 电子宠物互动控制方法、装置及可穿戴设备 | |
CN107870674B (zh) | 一种程序启动方法和移动终端 | |
CN111177180A (zh) | 一种数据查询方法、装置以及电子设备 | |
CN113190646B (zh) | 一种用户名样本的标注方法、装置、电子设备及存储介质 | |
CN109165292A (zh) | 数据处理方法、装置以及移动终端 | |
CN109726121B (zh) | 一种验证码获取方法和终端设备 | |
CN104461446B (zh) | 基于语音交互的软件运行方法及系统 | |
CN109032491A (zh) | 数据处理方法、装置以及移动终端 | |
KR20200106703A (ko) | 사용자 선택 기반의 정보를 제공하는 방법 및 장치 | |
WO2023103917A1 (zh) | 语音控制方法、装置、电子设备及存储介质 | |
CN110335629B (zh) | 音频文件的音高识别方法、装置以及存储介质 | |
CN114049890A (zh) | 语音控制方法、装置以及电子设备 | |
CN112634896B (zh) | 智能终端上应用程序的运行方法和智能终端 | |
WO2023103918A1 (zh) | 语音控制方法、装置、电子设备及存储介质 | |
CN113220590A (zh) | 语音交互应用的自动化测试方法、装置、设备及介质 | |
WO2023093280A1 (zh) | 语音控制方法、装置、电子设备及存储介质 | |
CN107957789B (zh) | 一种文本输入方法及移动终端 | |
KR20200119531A (ko) | 자연어 응답을 생성하는 전자 장치 및 자연어 응답 생성 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |