CN114121013A - 语音控制方法、装置、电子设备及存储介质 - Google Patents
语音控制方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114121013A CN114121013A CN202111512007.8A CN202111512007A CN114121013A CN 114121013 A CN114121013 A CN 114121013A CN 202111512007 A CN202111512007 A CN 202111512007A CN 114121013 A CN114121013 A CN 114121013A
- Authority
- CN
- China
- Prior art keywords
- interface
- interaction
- node
- path
- voice control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 230000003993 interaction Effects 0.000 claims abstract description 376
- 230000008569 process Effects 0.000 claims description 38
- 230000002452 interceptive effect Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000001960 triggered effect Effects 0.000 abstract description 18
- 238000010586 diagram Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000009191 jumping Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例公开了一种语音控制方法、装置、电子设备及存储介质。所述方法包括:获取语音控制指令;根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面。从而通过上述方式使得降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。
Description
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种语音控制方法、装置、电子设备及存储介质。
背景技术
结合人工智能技术以及虚拟个人助理(语音助手),可以使得电子设备通过听觉模态接收用户发出的语音指令并完成对应的交互任务。并且,在一些情况下用户会触发电子设备进行跨界面的控制操作,然而相关基于语音控制方式进行跨界面的控制操作的过程中,还存在技术成本较高且效率有待提升的问题。
发明内容
鉴于上述问题,本申请提出了一种语音控制方法、装置、电子设备及存储介质,以实现改善上述问题。
第一方面,本申请提供了一种语音控制方法,所述方法包括:获取语音控制指令;根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面。
第二方面,本申请提供了一种语音控制装置,所述装置包括:指令处理单元,用于获取语音控制指令;交互获取单元,用于根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面;交互执行单元,用于根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
第三方面,本申请提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
第四方面,本申请提供的一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
本申请提供的一种语音控制方法、装置、电子设备及存储介质,在获取语音控制指令以及包括具有交互关系的界面之间的交互触发方式的界面交互信息后,可以根据界面交互信息获取基于第二界面触发显示第一界面的交互路径以及所述交互路径对应的交互触发方式,并根据交互路径以及交互触发方式进行页面交互以显示第一界面。
从而通过上述方式使得,通过先获取界面交互信息的方式,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提出的一种语音控制方法的一种应用场景的示意图;
图2示出了本申请实施例提出的另一种语音控制方法的一种应用场景的示意图;
图3示出了本申请实施例提出的一种语音控制方法的流程图;
图4示出了本申请实施例中一种交互方式的示意图;
图5示出了本申请实施例中另一种交互触发方式的示意图;
图6示出了本申请另一实施例提出的一种语音控制方法的流程图;、
图7示出了本申请实施例中一种界面交互关系图的示意图;
图8示出了本申请实施例中一种计算完整执行概率的示意图;
图9示出了本申请实施例中一种界面交互关系图的示意图;
图10示出了本申请再一实施例提出的一种语音控制方法的流程图;
图11示出了本申请实施例提出的一种语音控制装置的结构框图;
图12示出了本申请实施例提出的另一种语音控制装置的结构框图;
图13示出了本申请提出的一种电子设备的结构框图;
图14是本申请实施例的用于保存或者携带实现根据本申请实施例的语音控制方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
智能终端设备的普及给生活带来了种种便利。结合人工智能技术以及虚拟个人助理(语音助手),可以使得电子设备通过听觉模态接收用户发出的语音指令并完成对应的交互任务。并且,在一些情况下用户会触发电子设备进行跨界面的控制操作。
但是,发明人在研究中发现,相关基于语音控制方式进行跨界面的控制操作的过程中,还存在技术成本较高且效率有待提升的问题。具体的,在相关的基于语音控制方式进行跨界面的控制操作的过程中,需要为每个语音控制指令配置对应的界面控制过程,进而在语音控制指令较多的情况下,需要对较多的界面控制过程进行维护,造成了较高的技术成本。并且,在另外的相关语音控制方式中,一个语音控制指令只能触发一次界面控制操作,使得在需要多次进行跨界面交互的情况下,用户需要触发多次的语音控制指令,造成语音控制的效率不高。
因此,发明人提出了本申请中的一种语音控制方法、装置、电子设备及存储介质,在获取语音控制指令以及包括具有交互关系的界面之间的交互触发方式的界面交互信息后,可以根据界面交互信息获取基于第二界面触发显示第一界面的交互路径以及所述交互路径对应的交互触发方式,并根据交互路径以及交互触发方式进行页面交互以显示第一界面。
从而通过上述方式使得,通过先获取界面交互信息的方式,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。
下面先对本申请实施例所涉及的应用场景进行介绍。
在本申请实施例中,所提供的语音控制方法可以由电子设备执行。在由电子设备执行的这种方式中,本申请实施例提供的语音控制方法中所有步骤可以均由电子设备执行。例如,如图1所示,通过电子设备100的语音采集装置可以采集语音控制指令,并将采集到的语音采集指令以及目标界面均传输给处理器,使得处理器可以获取语音控制指令,根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,再根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
再者,本申请实施例提供的语音控制方法也可以由服务器进行执行。对应的,在由服务器执行的这种方式中,可以由电子设备采集语音指令,并将采集的语音指令发送给服务器,然后由服务器来执行本申请实施例提供的语音控制方法以确定交互路径以及交互路径对应的交互触发方式,然后由服务器触发电子设备根据交互路径以及交互触发方式进行页面交互以显示第一界面。另外,还可以由电子设备和服务器协同执行。在由电子设备和服务器协同执行的这种方式中,本申请实施例提供的语音控制方法中的部分步骤由电子设备执行,而另外部分的步骤则由服务器来执行。
示例性的,如图2所示,电子设备100可以执行语音控制方法包括的:获取语音控制指令,然后由服务器200来执行根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,然后再将交互路径以及交互路径对应的交互触发方式返回给电子设备100,并触发电子设备100根据交互路径以及交互触发方式进行页面交互以显示所述第一界面。
需要说明的是,在由电子设备和服务器协同执行的这种方式中,电子设备和服务器分别执行的步骤不限于上述示例中所介绍的方式,在实际应用中,可以根据实际情况动态的调整电子设备和服务器分别执行的步骤。
下面则结合附图来对本申请所涉及的实施例进行介绍。
请参阅图3,本申请提供的一种语音控制方法,所述方法包括:
S110:获取语音控制指令。
在本申请实施例中,用户可以通过语音来表达自己的控制意图。对应的,电子设备可以将用户所发出的语音作为语音控制指令。
S120:根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面。
在获取到语音控制指令后,则可以根据语音控制指令来确定语音控制指令所指向的界面作为第一界面,对应的,第一界面也可以理解为用户期望访问的界面。
在本申请实施例中,可以有多种根据语音控制指令确定第一界面的方式。
作为一种方式,包括:获取语音控制指令对应的文本内容;基于文本内容与多个界面各自所包括的控制操作进行匹配;将所包括的控制操作与所述文本内容成功匹配的界面作为第一界面。在这种方式中,可以预先对电子设备中所包括的界面进行识别,以获取到所包括界面所包括的控件,从而根据界面所包括的控件作对应的控制操作来确定每个界面所包括的控制操作。
可选的,可以通过代码解析方式对所述界面进行识别。可选的,可以基于Google无障碍服务accessibility实现基于代码解析方式对所述界面进行识别。在这种方式中,对于所识别出的控件可以对应有控件的ID、类型以及描述信息等。其中,控件对应的描述信息用于表征该控件可以实现的控制操作。例如,若控件为用于表征应用程序的名称,则该控件的描述信息中则会包括所表征应用程序的名称。再者,若控件是用于触发对应用程序的下载,则该控件的描述信息中包括有下载。
可选的,可以通过图文识别(例如,光学字符识别)的方式对界面进行识别。在这种方式中,可以对电子设备当前所显示的界面进行截图。然后再对截图得到的图像进行图文识别。在这种方式中,对于所识别出的控件可以对应有控件的位置以及控件的描述信息。并且,在这种方式中,控件的描述信息可以包括有控件中所显示的文本。
可选的,可以通过图标识别的方式对界面进行识别。在这种方式中,可以对电子设备当前所显示的界面进行截图。然后再对截图得到的图像进行图标识别。在这种方式中,对于所识别出的控件可以对应有控件的位置以及控件的描述信息。并且,在这种方式中,控件的描述信息可以包括所识别出的控件的功能的描述内容。
需要说明的是,在界面未被电子设备进行显示的情况下依然可以通过代码解析方式对界面进行识别,但是,可能不是所有界面都支持通过代码解析方式对界面进行识别,以及界面中的部分控件可能无法被代码解析方式所识别出来。在这种情况下,电子设备可以先通过代码解析方式对所包括的界面进行识别,以得到支持进行代码解析方式的界面所包括的控件对应的控制操作。然后,可以在有界面被电子设备进行显示的情况下,对所显示的界面进行截图,从而在对截图的图像进行图文识别和图标识别,以用于可以更加完善该所显示的界面所包括的控制操作。
示例性的,若电子设备所包括的界面有界面A、界面B、界面C、界面D以及界面E。电子设备可以先尝试通过代码解析方式对界面A、界面B、界面C、界面D以及界面E进行解析。其中,所得到的识别结果可以包括:识别出界面A包括控制操作a1、控制操作a2以及控制操作a3,识别出界面B包括控制操作b1、控制操作b2以及控制操作b3,识别出界面C包括控制操作c1、控制操作c2以及控制操作c3,界面D以及界面E则无法进行代码解析识别。那么当电子设备检测到界面D和界面E在进行显示的时候,则可以通过图文识别和图标识别的方式对界面D和界面E进行识别,从而获取界面D和界面E所包括的控制操作。再者,对于前述支持通过代码解析进行识别的界面A、界面B以及界面C,依然可以在被电子设备显示的时候再基于图文识别和图标识别的方式进行识别,从而获取到界面A、界面B以及界面C中可能存在的无法通过代码解析方式所识别出的控件,以完善界面A、界面B以及界面C各自所包括的控制操作。
在获取得到电子设备所包括的多个界面各自所包括的控制操作后,可以将语音控制指令所对应的文本内容与多个界面各自所包括的控制操作进行匹配,从而从多个界面中选择出用户所期望访问的界面作为第一界面。其中,将文本内容与多个界面各自所包括的控制操作进行匹配,可以理解为将文本内容与多个界面各自所包括的用于描述控件的控制操作的描述信息进行匹配,从而将与文本内容成功匹配的描述信息所对应的控件作为用户所期望操作的控件,进而将用户所期望操作的控件所在的界面作为第一界面。
其中,语音控制指令所对应的文本内容可以为直接对语音控制指令进行语音转文字后得到的内容,也可以为对语音控制指令进行语音转文字后得到的内容进行关键词获取后的关键词内容。例如,电子设备可以在接收到语音控制之后基于预先配置的自动语音识别方式(Automatic Speech Recognition)将语音控制指令转换为对应的文本内容。例如,若接收到的语音控制指令为“打开相册”,那么在对该语音控制指令进行转换后所得到的文本内容则包括“打开相册”。若是直接基所转换得到的文本内容与描述信息进行匹配,则可以将“打开相册”与多个界面各自所包括的用于描述控件的控制操作的描述信息进行匹配。并且,在这种方式中,可以将与本文内容共同包括有相同字符,且所包括的相同字符最多的描述信息,作为与文本内容成功匹配的描述信息。
在对语音控制指令进行语音转文字后得到的内容进行关键词获取的这种方式中,可以基于预先配置的方式对该文本内容进行语义识别。可选的,可以基于自然语言理解(NLU)的方式抽取文本内中的意图、控制对象和对象附属信息,整合为样式为{action,object,information}的三元组。其中,action表征意图,或者可以理解为控制目的,object表征控制对象,information则表征对象附属信息。例如,对语音控制指令进行转换得到的文本内容为“播放陈情令”。基于自然语言理解的方式可以理解用户意图为:“播放”。控制对象为“陈情令”,对象附属信息为空,用三元组记为:{播放,陈情令,Φ}。又比如对语音控制指令进行转换得到的文本内容为“帮我搜一下古董局中局”,意图为“查找”,控制对象为“搜索”,对象附属信息为“古董局中局”,用三元组记为:{查找,搜索,古董局中局}。那么这种方式中,可以将三元组中的控制对象与界面所包括的控件的描述信息进行匹配,以确定第一界面。
作为另外一种方式,可以预先对电子设备所包括的界面配置对应的标签。其中,界面所对应的标签用于标明对应界面所支持的操作。例如,若界面所对应的标签包括有支付,那么则该界面可以用于进行支付操作。再例如,若界面所对应的标签包括有音乐播放,那么则该界面可以用于进行音乐播放操作。
在这种方式下,可以将文本内容与界面所包括的标签进行匹配,进而将与文本内容成功匹配的标签所属的界面作为第一界面。其中,界面的标签可以由开发人员进行标注,并存储在安装包中。电子设备在对应用程序进行安装的过程中,则可以从安装包中获取到所安装应用程序中每个界面对应的标签,并存储在本地。而对于系统程序对应的界面,则可以由操作系统的开发人员预先配置好后存储在操作系统中。并且,在这种方式中,将文本内容与标签进行匹配的方式和前述内容中将文本内容与描述信息进行匹配的方式可以是相同的。
作为再一种方式,在电子设备可以通过多种方式来确定第一界面的情况下,电子设备可以同时基于多种方式来确定语音控制指令所对应第一界面,从而提升获取语音控制指令所对应的第一界面的效率。可选的,电子设备可以启动第一线程来执行基于所述文本内容与多个界面各自所包括的控制操作进行匹配的方式来获取得到第一界面,并可以同时启动第二线程来将文本内容与界面对应的标签进行匹配,以获取第一界面。在第一线程和第二线程的共同运行过程中,若有一个线程先成功匹配得到第一界面,则可以停止运行另一个线程。
可选的,据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式之前还包括:获取的语音控制指令对应的目标操作;检测所述第二界面是否对应有所述目标操作;若所述第二界面未对应有所述目标操作,执行所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式;若所述第二界面对应有所述目标操作,对所述第二界面执行所述目标操作。其中,语音控制指令对应的目标操作可以理解为将语音控制指令转换为文本后所得到的文本内容。也可以理解为进一步对该文本内容进行三元组提取后得到的控制对象。
需要说明的是,在电子设备所包括的多个界面中,部分界面之间是具有交互关系的。其中,本申请实施例中的交互关系可以包括界面之间互相进行跳转,还包括在一个界面上触发显示另一个界面。如图4所示,若电子设备当前所显示的界面为图4中所示的界面10,若检测到有作用于界面10中名称为视频的应用图标触控操作,则电子设备可以将所显示的界面由界面10切换为界面11。那么界面10和界面11之间则具有交互关系,界面10和界面11之间的交互关系为界面之间互相进行跳转,并且,由界面10触发显示界面11的交互触发方式为点击界面10中的名称为视频的应用图标,对应的,由界面11触发显示界面10的交互触发方式为点击电子设备的Home键。再例如,如图5所示,在界面11中,若检测有作用于名称为武术视频的控件的操作,可以在界面11中悬浮显示界面12,并在界面12中对该武术视频的视频内容进行播放。那么其中的界面11和界面12之间则具有交互关系,且界面11和界面12之间的交互触发方式包括,在界面11中点击名称为武术视频的控件以触发显示界面12,还包括在界面12中点击关闭控件13,以恢复对界面12的显示。
那么在申请实施例中,可以通过界面交互信息来记录电子设备中的具有交互具有交互关系的界面,以及具有交互关系的界面之间的交互触发方式。
其中,第二界面也可以理解为电子设备获取到语音控制指令时所显示的界面,那么在获取得到第一界面以及第二界面之后,可以再借助于界面交互信息来获取得到从第二界面触发显示第一界面所需要途径的界面,以及从第二界面开始到第一界面之间所途径的界面中相邻界面之间所对应的交互触发方式。
示例性的,若电子设备中所存储的界面交互信息包括:界面A与界面B具有交互关系,且交互触发方式包括通过操作a1触发由界面A跳转到界面B,通过操作b1触发由界面B跳转到界面A;界面B与界面C具有交互关系,且交互触发方式包括通过操作b2触发由界面B跳转到界面C,通过操作c1触发由界面C跳转到界面B。界面B与界面D具有交互关系,且交互触发方式包括通过操作b3触发由界面B跳转到界面D,通过操作d1触发由界面D跳转到界面B。若根据语音控制指令所获取到的第一界面为界面C,第二界面为界面A。那么所确定的交互路径包括由界面A触发显示界面B,然后由界面B触发显示界面C。对应的,所确定的交互触发方式包括通过操作a1触发由界面A跳转到界面B,通过操作b2触发由界面B跳转到界面C。再例如,若根据语音控制指令所获取到的第一界面为界面A,第二界面为界面B。那么所确定的交互路径包括由界面B触发显示界面A,对应的,所确定的交互触发方式包括通过操作b1触发由界面B跳转到界面A。
S130:根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
在确定交互路径和交互路径对应的交互触发方式后,可以基于交互触发方式触发电子设备沿着交互路径对电子设备当前所显示的界面进行切换,以使得电子设备最终显示出第一界面。
本实施例提供的一种语音控制方法,在获取语音控制指令以及包括具有交互关系的界面之间的交互触发方式的界面交互信息后,可以根据界面交互信息获取基于第二界面触发显示第一界面的交互路径以及所述交互路径对应的交互触发方式,并根据交互路径以及交互触发方式进行页面交互以显示第一界面。从而通过上述方式使得,通过先获取界面交互信息的方式,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。
请参阅图6,本申请提供的一种语音控制方法,所述方法包括:
S210:获取语音控制指令。
S220:获取第一节点以及获取第二节点,所述第一节点为所述第一界面在所述界面交互关系图中所对应的节点,所述第二节点为所述第二界面在所述界面交互关系图中所对应的节点,所述界面交互信息包括界面交互关系图,所述界面交互关系图中包括有多个节点,每个所述节点表征一个界面,其中,具有连接关系的节点表征所述节点对应的界面具有交互关系。
需要说明的是,在本申请实施例中,可以使用网络爬虫将电子设备所有可交互页面进行爬取并存储,并将所爬取到的交互页面构建为界面交互关系图(Graph)的结构。可选的,电子设备可以先通过网络爬虫对操作系统中的交互界面进行爬取,然后再对电子设备中所安装的应用程序的交互界面进行爬取,从而根据所爬取的交互界面之间的交互触发方式以及交互关系来建立界面交互关系图。
其中,界面交互关系图包括节点(node)与边(edge),不同节点由边相连接。在本技术方案中,每个节点表征一个界面,且不同节点(node)标识不同界面,边(edge)表示一个由节点对应的界面触发显示该边所连节点所对应的界面所需的操控的页面控件以及需要对该控件所执行的操作。如图7所示的一种界面交互关系图,在该界面交互关系图中包括有节点1、节点2、节点3、节点4、节点5、节点6、节点7、节点8以及节点9。其中,每个节点都表征一个界面。例如,节点1表征的设置界面,节点2表征的是快捷搜索界面等。其中,图7中界面之间的箭头表征界面之间具有交互关系,且箭头发的方向表征了交互的方向。在箭头处也标明了两个节点所表征界面之间的交互触发方式。例如,对于节点1和节点2各自所表征的界面,在节点2所表征的界面中通过点击名称为设置的控件,则可以触发电子设备切换显示节点1所表征的界面。
可选的,不同节点之间的有向边所表征的交互操作方式可以由{“动作”,“控件”,“参数”}构成,如节点5跳转到节点4需要点击名称为视频的图标,因此该有向边的“动作”为点击,“控件”为视频,参数为空。如节点5跳转到节点6,有向边的“动作”为下拉,由于下拉是屏幕的全局操作,因此控件为空。若需要从节点6跳转到节点2,则有向边的“动作”为输入,“控件”为搜索框,“参数”为搜索内容“设置”。
在基于该界面交互关系图进行交互路径和交互触发方式的确定的过程中,可以在确定第一界面和第二界面之后,在该界面交互关系图中找到第一界面和第二界面各自所对应的节点,并将第一界面所对应的节点作为第一节点,将第二界面所对应的节点作为第二节点。
作为一种方式,所述获取第二节点,包括:获取第二界面的界面特征。可选的,所述获取第二界面的界面特征,包括:将第二界面所包括的控件的属性输入到指定深度神经网络模型中,所述属性包括界面中的控件的尺寸信息、界面中的控件的位置信息、界面中的控件的层次结构以及界面中的控件的排布信息中的至少一个;获取所述指定深度神经网络模型输出的特征向量作为第二界面的界面特征。将所述界面特征与所述界面交互关系图中的节点所对应界面的界面特征进行匹配;将对应界面的界面特征与所述第二界面的界面特征成功匹配的节点作为第二节点。其中,在以特征向量来作为界面的特征的这种方式中,在进行特征匹配的过程中,可以通过计算特征向量之间的距离来进行匹配,若检测到有两个特征向量之间的距离小于指定阈值则确定两个特征向量成功匹配。
S230:在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径,作为从第二界面交互到所述第一界面的交互路径。
其中,本申请实施例中的界面交互关系图为有向图,那么在确定第二节点后,则可以根据节点所连接边的指向来确定从第二节点到第一节点的节点路径。示例性的,请再参阅图7,若第二节点为节点5,第一节点为节点8,那么所确定的节点路径可以为由节点5到节点4,然后由节点4到节点8。对应的交互路径包括由第二界面跳转到节点4对应的界面,然后再从节点4对应的界面跳转到第一界面。再者,所确定的节点路径也可以为由节点5到节点9,然后由节点9到节点8。那么对应的交互路径包括由第二界面跳转到节点9对应的界面,然后再从节点9对应的界面跳转到第一界面。再者,所确定的节点路径还可以是直接由节点5到节点8。
作为一种方式,所述在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径,作为从第二界面交互到所述第一界面的交互路径,包括:在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径;若所述节点路径有多个,基于路径选择参数从多个节点路径中选择一个节点路径作为从第二界面交互到所述第一界面的交互路径。需要说明的是,如前述图7中的节点5到节点8的节点路径,可以有多种的方式。那么在所获取的节点路径有多种的情况下,可以根据预先配置的路径选择参数中多个节点路径中选择一个。
可选的,所述路径选择参数包括完整执行概率,所述基于路径选择参数从多个节点路径中选择一个节点路径作为从第二界面交互到所述第一界面的交互路径,包括:若对应的完整执行概率最高的节点路径有一个,将对应的完整执行概率最高的节点路径作为从第二界面交互到所述第一界面的交互路径。需要说明的是,在本申请实施例中,完整执行概率表征的是节点路径所对应的界面交互可以成功完成的概率,对应完整执行概率越大的节点路径,所对应的界面交互可以成功完成的概率越高。那么通过完整执行概率来从多个节点路径中选择用于进行界面交互的节点路径,有利于提升成功响应用户的语音控制指令的概率,提升用户体验。
其中,计算节点路径的完整执行概率的方法可以包括:获取节点路径所包括的节点中每相邻的两个节点之间对应的交互失败率,得到多个交互失败率;获取所述多个交互失败率的乘积作为所述节点路径对应的执行失败率;将预设数值与所述执行失败率的差值作为所述节点路径的完整执行概率。示例性的,如图8所示,节点路径L1包括的节点1、节点2以及节点3,其中,节点1和节点2之间的交互失败率为r1,节点2和节点3之间的交互失败率为r3,那么节点路径L1对应的完整执行概率为1(预设数值)减去r1×r2。对应的,节点路径L2包括的节点1、节点4以及节点3,其中,节点1和节点4之间的交互失败率为r3,节点4和节点3之间的交互失败率为r4,那么节点路径L2对应的完整执行概率为1(预设数值)减去r3×r4。
其中,电子设备可以在基于确定的交互路径和交互触发方式进行界面交互的过程中,对每一次界面交互是否成功进行检测,以用于可以对两个节点之间的交互失败率进行更新。其中,两个节点之间对应的交互失败率可以为该两个节点之间的交互执行失败的次数与该两个节点被确定到最终进行界面交互的交互路径中的次数的比值。示例性的,若确定的节点路径为图8中所示的节点路径L1,那么电子设备在执行节点1与节点2之间界面交互的过程中,可以检测在执行节点1和节点2之间的交互触发方式后,节点2对应的界面是否成功显示,若节点2对应的界面未成功进行显示,则确定节点1和节点2之间的交互失败,对应的,则节点1和节点2之间的交互执行失败的次数则对应增加1次。
需要说明的是,在一些情况下,会有多个节点路径所对应的完整执行概率出现相同的情况。那么在这种情况,可以从多个完整执行概率最高的节点路径中选取路径长度最短的节点路径作为交互路径。在这种情况下,所述路径选择参数还包括节点路径的路径长度,所述方法还包括:若对应的完整执行概率最高的节点路径有多个,将对应的完整执行概率最高的多个节点路径中,所对应的路径长度最短的节点路径作为从第二界面交互到所述第一界面的交互路径。其中,节点路径可以包括从第二节点到第一节点所需途径的节点的数量。可以理解的是,在路径长度越长的情况下,电子设备在显示第一界面之前所需要进行的界面跳转的次数则会更多,则整个过程的耗时也就可能越长。在对应的完整执行概率最高的节点路径有多个的情况下,选取该多个完整执行概率最高的节点中路径长度最短的节点路径作为后续的交互路径,可以使得所确定的交互路径既能够有较高的完整执行概率,所对应的节点路径也最短,从而实现能够又快又好的完成用户的语音控制指令。
例如,请再参阅图7,从节点5到节点8,会有三个节点路径。三个节点路径分别为:先从节点5到节点4,然后由节点4到节点8;由节点5到节点9,然后由节点9到节点8;由节点5直接到节点8。若这三个节点路径各自对应的完整执行概率都是100%,则电子设备会进一步的比对这三个节点路径各自对应的路径长度,进而确定由节点5直接到节点8的这条节点路径的路径长度最短,从而确定将由节点5直接到节点8这节点条路径确定为交互路径。
S240:将所述节点路径中所包括节点对应的交互触发方式,作为所述交互路径对应的交互触发方式。
示例性的,若确定的节点路径包括:先从节点2到节点1,然后由节点1到节点7。该节点路径所包括的具有连接关系的节点则为节点2和节点1,以及节点1和节点7,节点2和节点1之间的交互触发方式包括“点击,设置”,节点1和节点7的交互触发方式包括“点击,蓝牙”,那么在本示例中,所确定的交互路径对应的交互触发方式包括“点击,设置”以及“点击,蓝牙”。
S250:根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
需要说明的是,电子设备中的有些界面可能会进行更新,而更新后的界面可能已经不具有原先所具有的一个或者多个控制操作。示例性的,如图9所示,在图9所示的界面20可以通过长按名称为蓝牙的控件实现跳转显示界面21。如果界面20中的名称为蓝牙的控件被删除,那么则通过“长按,蓝牙”这无法实现从界面20跳转到界面21,从而就会出现无法成功进行交互的界面。在这种情况下,作为一种方式,在所述页面交互的过程中,若所述交互路径中存在无法成功进行交互的界面,则发出无法对语音控制指令进行响应的提示信息;记录接收到所述语音控制指令的电子设备在检测到无法成功进行交互的界面后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于电子设备上传的所述指定时间长度内所执行的交互操作更新所述界面交互信息。
其中,在本申请实施例中,无法成功进行交互的界面可以理解为当前已经被触发进行显示,且所对应用于触发显示交互路径中相邻的下一个界面的交互触发方式失效的界面。在交互过程中,检测到有无法成功进行交互的界面的情况下,用户为了使得电子设备可以触发显示第一界面,则会自己再手动的操作电子设备进行界面的跳转,从而使得电子设备可以学习到当前如何从无法成功进行交互的界面跳转到第一界面,以根据学习的结果对界面交互信息(例如,界面交互关系图)进行更新。
其中,更新包括:更新第一待处理节点和第二待处理节点之间的失败率。该第一待处理节点为无法成功进行交互的界面所对应的节点,第二待处理节点为基于该无法成功进行交互的界面进行交互且交互失败的界面所对应的节点。例如,请再参阅图7,若确定的节点路径包括:由节点5先到节点9,然后由节点9到节点8,再从节点8到节点7。电子设备在显示界面8对应的界面之后,再通过触发“长按,蓝牙”并未成功的触发由节点8对应的界面跳转到界面7所对应的界面,则确定检测到了无法成功进行交互的界面(即节点8所对应的界面),从而可以将节点8作为第一待处理节点,以及将节点7作为第二待处理节点,以更新从节点8到节点7的失败率。
更新还可以包括:根据用户的手动操作过程所涉及的界面,增加界面交互关系图中的节点或者节点所表征界面之间的交互触发方式。例如,请再参阅图7,在电子设备无法基于节点8对应的界面跳转到节点7对应的界面的情况下,检测到了用户先对节点8对应的界面执行了“屏底上滑”触发电子设备显示节点5对应的界面,然后在节点5对应的界面中由点击其中的名称为设置的控件,触发电子设备显示了节点1对应的界面,然后在节点1对应的界面中由点击了名称为蓝牙的控件,从而使得电子设备显示了节点7对应的界面。在这种情况下,对应图7中所示的界面交互关系图,则可以在节点8和节点5之间增加由节点8指向节点5的交互触发操作“屏底上滑”,在节点5和节点1之间增加由节点5指向节点1的交互触发操作“点击,设置”。
本实施例提供的一种语音控制方法,从而通过上述方式使得,通过先获取界面交互信息的方式,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。再者,在本实施例可以根据电子设备中界面之间相互进行交互的方式建立界面交互关系图,从而使得在需要确定交互路径和交互路径对应的交互触发方式中,可以直接基于界面交互关系图中的节点来进行,提升了确定定交互路径和交互路径对应的交互触发方式的效率。
请参阅图10,本申请提供的一种语音控制方法,所述方法包括:
S310:获取语音控制指令。
S320:获取所述语音控制指令对应的文本内容。
S330:基于所述文本内容与多个界面各自所包括的控制操作进行匹配。
S340:检测是否有与获取的语音控制指令成功匹配的界面。
S341:若有所包括的控制操作与所述文本内容成功匹配的界面,将所述成功匹配的界面作为第一界面。
S351:若没有所包括的控制操作与所述文本内容成功匹配的界面,发出无法对语音控制指令进行响应的提示信息。
S352:记录接收到所述语音控制指令的电子设备在接收到所述语音控制指令后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于不同电子设备上传的所述指定时间长度内所执行的交互操作更新所述语音控制指令对应的第一界面。
如前述内容所示,在获取第一界面的过程中,是将语音控制指令转换后得到的文本内容与界面所包括的控制操作或者标签进行匹配,以将成功匹配的界面作为第一界面的。那么在这种情况下,如果没有界面中所包括的控制操作与文本内容成功匹配,且也没有标签与文本内容成功匹配,那么则该语音控制指令无法成功匹配到对应的界面。在这种情况下,可以记录用户在发出语音控制指令后所操作过的界面,并上传给服务器。服务器可以针对发出同样的语音控制指令所的用户控制操作进行分析,并可以将不同用户发出的同一的语音控制指令后所进行的手动控制操作中相同的界面作为该语音控制指令所对应的第一界面。示例性的,对于语音指令m1,电子设备未成功获取到对应的第一界面,并开始记录用户的手动控制操作,其中,用户A所进行的控制操作为:节点6->节点2->节点1->节点7->节点100,用户B所进行的控制操作为:节点5->节点8->节点7->节点200。其中,节点7为用户A和用户B公共操作过的界面,那么则可以确定语音控制m1对应的第一界面为节点7所对应的界面。对应的,电子设备可以在节点7对应的标签中补充语音控制m1转换得到的文本内容。
S342:根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面。
S343:根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
再者,在一些情况下,电子设备根据语音控制指令确定出第一界面,且已经成功执行了确定的交互路径以显示出所确定出的第一界面。但是,该第一界面可能并不是用户所实际期望访问的界面。为了能够检测所确定的第一界面是否为用户实际想访问的界面,可以检测已经显示针对同一语音控制指令所确的第一界面后,是否有多个用户执行了相同的操作。若检测到有多个用户执行了相同的操作,将该相同的操作所触发显示的界面更新为该对同一语音控制指令实际对应的第一界面。示例性的,若语音控制指令为启动蓝牙,且电子设备原本确定第一界面为图7中的节点1对应的界面,但是服务器检测到多个用户在到达预判的节点1对应的界面后,均执行{点击,蓝牙}到达节点7对应的界面。则电子设备会将“启动蓝牙”这一语音控制指令对应的第一界面更新为节点7对应的界面。
本实施例提供的一种语音控制方法,从而通过上述方式使得,通过先获取界面交互信息的方式,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。再者,在本实施例中,在没有成功匹配到与语音控制指令对应的第一界面后,还可以将用户的对界面的操作过程上传到服务器中,以用于服务器可以对界面所对应的语音控制指令进行更新,从而提升根据用户的语音控制指令匹配到第一界面的概率。
请参阅图11,本申请提供的一种语音控制装置400,所述装置400包括:
指令处理单元410,用于获取语音控制指令。
作为一种方式,指令处理单元410,具体用于获取所述语音控制指令对应的文本内容;基于所述文本内容与多个界面各自所包括的控制操作进行匹配;将所包括的控制操作与所述文本内容成功匹配的界面作为第一界面。
作为一种方式,指令处理单元410,具体用于若有所包括的控制操作与所述文本内容成功匹配的界面,将所述成功匹配的界面作为第一界面;若没有所包括的控制操作与所述文本内容成功匹配的界面,发出无法对语音控制指令进行响应的提示信息;
记录接收到所述语音控制指令的电子设备在接收到所述语音控制指令后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于不同电子设备上传的所述指定时间长度内所执行的交互操作更新所述语音控制指令对应的第一界面。
作为一种方式,指令处理单元410,还用于获取的语音控制指令对应的目标操作;检测当前所显示的界面是对应有所述目标操作;若当前所显示的界面未对应有所述目标操作,执行所述获取语音控制指令;若当前所显示的界面对应有所述目标操作,交互执行单元430,用于对当前所显示的界面执行所述目标操作。
交互获取单元420,用于根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面。
交互执行单元430,用于根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
作为一种方式,所述界面交互信息包括界面交互关系图,所述界面交互关系图包括多个节点,每个所述节点表征一个界面,其中,具有连接关系的节点表征所述节点对应的界面具有交互关系。在这种方式中,交互获取单元420,具体用于获取第一节点以及获取第二节点,所述第一节点为所述第一界面在所述界面交互关系图中所对应的节点,所述第二节点为所述第二界面在所述界面交互关系图中所对应的节点;在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径,作为从第二界面交互到所述第一界面的交互路径;将所述节点路径中所包括节点对应的交互触发方式,作为所述交互路径对应的交互触发方式。
可选的,交互获取单元420,具体用于在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径;若所述节点路径有多个,基于路径选择参数从多个节点路径中选择一个节点路径作为从第二界面交互到所述第一界面的交互路径。可选的,所述路径选择参数包括节点路径的完整执行概率。交互获取单元420,具体用于若对应的完整执行概率最高的节点路径有一个,将对应的完整执行概率最高的节点路径作为从第二界面交互到所述第一界面的交互路径。可选的,所述路径选择参数还包括节点路径的路径长度,对应的,交互获取单元420,具体用于若对应的完整执行概率最高的节点路径有多个,将对应的完整执行概率最高的多个节点路径中,所对应的路径长度最短的节点路径作为从第二界面交互到所述第一界面的交互路径。
作为一种方式,交互获取单元420,具体用于获取节点路径所包括的节点中每相邻的两个节点之间对应的交互失败率,得到多个交互失败率;获取所述多个交互失败率的乘积作为所述节点路径对应的执行失败率;将预设数值与所述执行失败率的差值作为所述节点路径的完整执行概率。
作为一种方式,交互获取单元420,具体用于获取第二界面的界面特征;将所述界面特征与所述界面交互关系图中的节点所对应界面的界面特征进行匹配;将对应界面的界面特征与所述第二界面的界面特征成功匹配的节点作为第二节点。可选的,交互获取单元420,具体用于将第二界面所包括的控件的属性输入到指定深度神经网络模型中,所述属性包括界面中的控件的尺寸信息、界面中的控件的位置信息、界面中的控件的层次结构以及界面中的控件的排布信息中的至少一个;获取所述指定深度神经网络模型输出的特征向量作为第二界面的界面特征。
作为一种方式,如如12所示,装置还包括交互更新单元440,用于在所述页面交互的过程中,若所述交互路径中存在无法成功进行交互的界面,则发出无法对语音控制指令进行响应的提示信息;记录接收到所述语音控制指令的电子设备在接收到所述语音控制指令后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于不同电子设备上传的所述指定时间长度内所执行的交互操作更新所述语音控制指令对应的第一界面。
本实施例提供的一种语音控制装置,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。
需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性。另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
下面将结合图13对本申请提供的一种电子设备进行说明。
请参阅图13,基于上述的语音控制方法、装置,本申请实施例还提供的一种可以执行前述语音控制方法的电子设备1000。电子设备1000包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104、摄像头106以及音频采集装置108。其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。
其中,处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行电子设备1000的各种功能和处理数据。可选地,处理器102可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。作为一种方式,处理器102可以为神经网络芯片。例如,可以为嵌入式神经网络芯片(NPU)。
存储器104可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。
再者,电子设备1000除了前述所示的器件外,还可以包括网络模块110以及传感器模块112。
所述网络模块110用于实现电子设备1000与其他设备之间的信息交互,例如,传输设备控制指令、操纵请求指令以及状态信息获取指令等。而当电子设备200具体为不同的设备时,其对应的网络模块110可能会有不同。
传感器模块112可以包括至少一种传感器。具体地,传感器模块112可包括但并不限于:水平仪、光传感器、运动传感器、压力传感器、红外热传感器、距离传感器、加速度传感器、以及其他传感器。
其中,压力传感器可以检测由按压在电子设备1000产生的压力的传感器。即,压力传感器检测由用户和电子设备之间的接触或按压产生的压力,例如由用户的耳朵与移动终端之间的接触或按压产生的压力。因此,压力传感器可以用来确定在用户与电子设备1000之间是否发生了接触或者按压,以及压力的大小。
其中,加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备1000姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。另外,电子设备1000还可配置陀螺仪、气压计、湿度计、温度计等其他传感器,在此不再赘述。
音频采集装置110,用于进行音频信号采集。可选的,音频采集装置110包括有多个音频采集器件,该音频采集器件可以为麦克风。
作为一种方式,电子设备1000的网络模块为射频模块,该射频模块用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。所述射频模块可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。例如,该射频模块可以通过发送或者接收的电磁波与外部设备进行交互。例如,射频模块可以向目标设备发送指令。
请参考图14,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
综上所述,本申请提供的一种语音控制方法、装置、电子设备及存储介质,在获取语音控制指令以及包括具有交互关系的界面之间的交互触发方式的界面交互信息后,可以根据界面交互信息获取基于第二界面触发显示第一界面的交互路径以及所述交互路径对应的交互触发方式,并根据交互路径以及交互触发方式进行页面交互以显示第一界面。从而通过上述方式使得,通过先获取界面交互信息的方式,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种语音控制方法,其特征在于,应用于电子设备,所述方法包括:
获取语音控制指令;
根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面;
根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
2.根据权利要求1所述的方法,其特征在于,所述界面交互信息包括界面交互关系图,所述界面交互关系图包括多个节点,每个所述节点表征一个界面,其中,具有连接关系的节点表征所述节点对应的界面具有交互关系;所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,包括:
获取第一节点以及获取第二节点,所述第一节点为所述第一界面在所述界面交互关系图中所对应的节点,所述第二节点为所述第二界面在所述界面交互关系图中所对应的节点;
在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径,作为从第二界面交互到所述第一界面的交互路径;
将所述节点路径中所包括节点对应的交互触发方式,作为所述交互路径对应的交互触发方式。
3.根据权利要求2所述的方法,其特征在于,所述在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径,作为从第二界面交互到所述第一界面的交互路径,包括:
在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径;
若所述节点路径有多个,基于路径选择参数从多个节点路径中选择一个节点路径作为从第二界面交互到所述第一界面的交互路径。
4.根据权利要求3所述的方法,其特征在于,所述路径选择参数包括节点路径的完整执行概率,所述基于路径选择参数从多个节点路径中选择一个节点路径作为从第二界面交互到所述第一界面的交互路径,包括:
若对应的完整执行概率最高的节点路径有一个,将对应的完整执行概率最高的节点路径作为从第二界面交互到所述第一界面的交互路径。
5.根据权利要求4所述的方法,其特征在于,所述路径选择参数还包括节点路径的路径长度,所述方法还包括:
若对应的完整执行概率最高的节点路径有多个,将对应的完整执行概率最高的多个节点路径中,所对应的路径长度最短的节点路径作为从第二界面交互到所述第一界面的交互路径。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取节点路径所包括的节点中每相邻的两个节点之间对应的交互失败率,得到多个交互失败率;
获取所述多个交互失败率的乘积作为所述节点路径对应的执行失败率;
将预设数值与所述执行失败率的差值作为所述节点路径的完整执行概率。
7.根据权利要求2所述的方法,其特征在于,所述获取第二节点,包括:
获取第二界面的界面特征;
将所述界面特征与所述界面交互关系图中的节点所对应界面的界面特征进行匹配;
将对应界面的界面特征与所述第二界面的界面特征成功匹配的节点作为第二节点。
8.根据权利要求7所述的方法,其特征在于,所述获取第二界面的界面特征,包括:
将第二界面所包括的控件的属性输入到指定深度神经网络模型中,所述属性包括界面中的控件的尺寸信息、界面中的控件的位置信息、界面中的控件的层次结构以及界面中的控件的排布信息中的至少一个;
获取所述指定深度神经网络模型输出的特征向量作为第二界面的界面特征。
9.根据权利要求1所述的方法,其特征在于,所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式之前还包括:
获取所述语音控制指令对应的文本内容;
基于所述文本内容与多个界面各自所包括的控制操作进行匹配;
将所包括的控制操作与所述文本内容成功匹配的界面作为第一界面。
10.根据权利要求9所述的方法,其特征在于,所述将所包括的控制操作与所述文本内容成功匹配的界面作为第一界面包括:
若有所包括的控制操作与所述文本内容成功匹配的界面,将所述成功匹配的界面作为第一界面;
若没有所包括的控制操作与所述文本内容成功匹配的界面,发出无法对语音控制指令进行响应的提示信息;
记录接收到所述语音控制指令的电子设备在接收到所述语音控制指令后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于不同电子设备上传的所述指定时间长度内所执行的交互操作更新所述语音控制指令对应的第一界面。
11.根据权利要求1所述的方法,其特征在于,所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式之后还包括:
在所述页面交互的过程中,若所述交互路径中存在无法成功进行交互的界面,则发出无法对语音控制指令进行响应的提示信息;
记录接收到所述语音控制指令的电子设备在检测到无法成功进行交互的界面后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于电子设备上传的所述指定时间长度内所执行的交互操作更新所述界面交互信息。
12.根据权利要求1所述的方法,其特征在于,所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式之前还包括:
获取的语音控制指令对应的目标操作;
检测所述第二界面是否对应有所述目标操作;
若所述第二界面未对应有所述目标操作,执行所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式;
若所述第二界面对应有所述目标操作,对所述第二界面执行所述目标操作。
13.一种语音控制装置,其特征在于,运行于电子设备,所述装置包括:
指令处理单元,用于获取语音控制指令;
交互获取单元,用于根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面;
交互执行单元,用于根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
14.一种电子设备,其特征在于,包括一个或多个处理器以及存储器;
一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-12任一所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行权利要求1-12任一所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111512007.8A CN114121013A (zh) | 2021-12-07 | 2021-12-07 | 语音控制方法、装置、电子设备及存储介质 |
PCT/CN2022/136342 WO2023103918A1 (zh) | 2021-12-07 | 2022-12-02 | 语音控制方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111512007.8A CN114121013A (zh) | 2021-12-07 | 2021-12-07 | 语音控制方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114121013A true CN114121013A (zh) | 2022-03-01 |
Family
ID=80364129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111512007.8A Pending CN114121013A (zh) | 2021-12-07 | 2021-12-07 | 语音控制方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114121013A (zh) |
WO (1) | WO2023103918A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023103918A1 (zh) * | 2021-12-07 | 2023-06-15 | 杭州逗酷软件科技有限公司 | 语音控制方法、装置、电子设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9256396B2 (en) * | 2011-10-10 | 2016-02-09 | Microsoft Technology Licensing, Llc | Speech recognition for context switching |
CN109741737B (zh) * | 2018-05-14 | 2020-07-21 | 北京字节跳动网络技术有限公司 | 一种语音控制的方法及装置 |
CN111309283B (zh) * | 2020-03-25 | 2023-12-05 | 北京百度网讯科技有限公司 | 用户界面的语音控制方法、装置、电子设备及存储介质 |
CN111736738A (zh) * | 2020-06-30 | 2020-10-02 | 广州小鹏车联网科技有限公司 | 一种车载系统的控件对象查询方法和装置 |
CN112634888A (zh) * | 2020-12-11 | 2021-04-09 | 广州橙行智动汽车科技有限公司 | 语音交互方法、服务器、语音交互系统和可读存储介质 |
CN112685535A (zh) * | 2020-12-25 | 2021-04-20 | 广州橙行智动汽车科技有限公司 | 语音交互方法、服务器、语音交互系统和存储介质 |
CN114121013A (zh) * | 2021-12-07 | 2022-03-01 | 杭州逗酷软件科技有限公司 | 语音控制方法、装置、电子设备及存储介质 |
-
2021
- 2021-12-07 CN CN202111512007.8A patent/CN114121013A/zh active Pending
-
2022
- 2022-12-02 WO PCT/CN2022/136342 patent/WO2023103918A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023103918A1 (zh) * | 2021-12-07 | 2023-06-15 | 杭州逗酷软件科技有限公司 | 语音控制方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023103918A1 (zh) | 2023-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11188298B2 (en) | Electronic device and method for generating short cut of quick command | |
US9811313B2 (en) | Voice-triggered macros | |
CN102884569B (zh) | 嵌入式网络语音识别器集成 | |
US20190370657A1 (en) | Method and apparatus for updating application prediction model, storage medium, and terminal | |
US20150154955A1 (en) | Method and Apparatus For Performing Speech Keyword Retrieval | |
CN109947650B (zh) | 脚本步骤处理方法、装置和系统 | |
CN106104528A (zh) | 用于屏幕上项目选择和消歧的基于模型的方法 | |
CN110457214B (zh) | 应用测试方法及装置、电子设备 | |
CN108804153B (zh) | 应用程序的预加载方法、装置、存储介质及终端 | |
WO2023082703A1 (zh) | 语音控制方法、装置、电子设备及可读存储介质 | |
KR20140143028A (ko) | 프로그램 실행 방법 및 그 전자 장치 | |
CN105045588A (zh) | 一种切换输入法皮肤的方法和装置 | |
KR20230014802A (ko) | 지정 항목 추천 방법 | |
CN111752669A (zh) | 界面生成方法、装置、电子设备及存储介质 | |
CN114205365A (zh) | 应用界面迁移系统、方法及相关设备 | |
WO2023103918A1 (zh) | 语音控制方法、装置、电子设备及存储介质 | |
US11151995B2 (en) | Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command | |
US10976997B2 (en) | Electronic device outputting hints in an offline state for providing service according to user context | |
CN112634896B (zh) | 智能终端上应用程序的运行方法和智能终端 | |
WO2023103917A1 (zh) | 语音控制方法、装置、电子设备及存储介质 | |
KR20200119531A (ko) | 자연어 응답을 생성하는 전자 장치 및 자연어 응답 생성 방법 | |
CN114970562A (zh) | 语义理解方法、装置、介质及设备 | |
CN109325003B (zh) | 一种基于终端设备的应用程序归类方法及系统 | |
CN112101023A (zh) | 文本处理方法、装置以及电子设备 | |
CN111797391A (zh) | 高风险进程的处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |