CN108470566B - 一种应用操作方法以及装置 - Google Patents

一种应用操作方法以及装置 Download PDF

Info

Publication number
CN108470566B
CN108470566B CN201810191591.3A CN201810191591A CN108470566B CN 108470566 B CN108470566 B CN 108470566B CN 201810191591 A CN201810191591 A CN 201810191591A CN 108470566 B CN108470566 B CN 108470566B
Authority
CN
China
Prior art keywords
application
target
intention
operation instruction
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810191591.3A
Other languages
English (en)
Other versions
CN108470566A (zh
Inventor
谢建平
罗俊
霍然
陈召
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810191591.3A priority Critical patent/CN108470566B/zh
Publication of CN108470566A publication Critical patent/CN108470566A/zh
Application granted granted Critical
Publication of CN108470566B publication Critical patent/CN108470566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明实施例公开了一种应用操作方法以及装置,其中方法包括:在辅助应用界面显示虚拟角色,并获取针对虚拟角色的用户语音数据;获取用户语音数据对应的意图识别结果;若意图识别结果为应用操作意图结果,则根据应用操作意图结果确定目标应用;根据应用操作意图结果对应的意图行为信息和目标应用的应用信息,生成与目标应用对应的目标操作指令信息集;按序执行目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对目标应用执行用户语音数据所指示的操作。采用本发明,可提高应用操作效率,且可提高终端的续航能力。

Description

一种应用操作方法以及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种应用操作方法以及装置。
背景技术
随着智能终端的发展,目前的智能终端可以安装和运行各式各样的应用,例如,即时通信应用、拍照应用、游戏应用等等。不同的应用可以向用户提供不同的功能,如用户可以通过即时通信应用随时向其他用户发送消息。
虽然这些应用可以为用户提供服务,但是对于经常使用的应用,用户也需要花费较多的时间来操作这些应用。例如,对于经常使用的即时通信应用,用户需要先启动即时通信应用,然后点击进入通讯录,在通讯录中搜索要发送消息的对象用户,打开该对象用户的聊天界面,最后在输入消息并将消息发送给对象用户。可见,经常操作这些步骤是比较繁琐的,进而导致应用操作效率不高,而且对智能终端进行大量且频繁的点击操作,也会比较消耗智能终端电量,进而影响了智能终端的续航能力。
发明内容
本发明实施例提供一种应用操作方法以及装置,可提高应用操作效率,且可提高终端的续航能力。
本发明实施例一方面提供了一种应用操作方法,包括:
在辅助应用界面显示虚拟角色,并获取针对所述虚拟角色的用户语音数据;
获取所述用户语音数据对应的意图识别结果;
若所述意图识别结果为应用操作意图结果,则根据所述应用操作意图结果确定目标应用;
根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集;
按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对所述目标应用执行所述用户语音数据所指示的操作。
其中,所述根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集,包括:
将所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息添加到操作分析请求,并发送所述操作分析请求到业务服务器,以使所述业务服务器根据所述操作分析请求生成总操作指令信息集;
获取所述业务服务器返回的所述总操作指令信息集;
根据所述目标应用的状态信息,对所述总操作指令信息集进行操作指令过滤,得到目标操作指令信息集;所述目标操作指令信息集包括多个按序待执行的操作指令,且所述目标操作指令信息集中的第一个操作指令与所述目标应用的状态信息相关联。
其中,所述根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集,包括:
根据所述目标应用的应用信息确定所述目标应用对应的业务流程信息;
根据所述业务流程信息、所述应用操作意图结果对应的意图行为信息以及所述目标应用的状态信息,生成目标操作指令信息集;所述目标操作指令信息集包括多个按序待执行的操作指令,且所述目标操作指令信息集中的第一个操作指令与所述目标应用的状态信息相关联。
其中,所述按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,包括:
基于所述辅助应用调用所述目标操作指令信息集中的目标操作指令,并基于所述辅助应用将所述目标操作指令转发到系统辅助功能服务;所述目标操作指令是所述目标操作指令信息集中排序在第一个的未执行操作指令;
基于所述系统辅助功能服务对所述目标应用进行与所述目标操作指令对应的模拟操作,并显示模拟操作后所生成的页面内容;
若所述目标应用响应已执行完所述目标操作指令,则基于所述辅助应用调用所述目标操作指令信息集中的下一个目标操作指令,直至执行完所述目标操作指令信息集中的所有操作指令。
其中,所述基于所述系统辅助功能服务对所述目标应用进行与所述目标操作指令对应的模拟操作,包括:
基于所述系统辅助功能服务确定与所述目标应用以及所述目标操作指令相关联的应用显示页面,并获取所述应用显示页面对应的页面树形结构;所述页面树形结构包括所述应用显示页面中的所有控件的节点信息;
根据所述页面树形结构中所有控件的节点信息,定位所述目标操作指令对应的控件,作为目标控件;
根据所述目标操作指令对所述目标控件进行模拟操作。
其中,所述根据所述应用操作意图结果确定目标应用,包括:
确定与所述应用操作意图结果中的所述意图行为信息相关联的所有应用,并在所确定的所有应用中选择本地终端已安装的应用;
根据每个已安装的应用的优先级,从所有已安装的应用中确定目标应用。
其中,还包括:
若所述意图识别结果为闲聊意图结果,则在闲聊语料库中获取与所述用户语音数据相匹配的反馈多媒体信息,并触发所述虚拟角色在所述辅助应用界面展示所述反馈多媒体信息。
其中,所述获取所述用户语音数据对应的意图识别结果,包括:
根据所述用户语音数据触发所述虚拟角色展示动画,并发送所述用户语音数据到第一服务器;
获取所述第一服务器返回的所述用户语音数据对应的文本信息,并基于所述虚拟角色显示所述用户语音数据对应的文本信息;
将所述文本信息发送至第二服务器,以使所述第二服务器对所述文本信息进行文本意图识别;
获取所述第二服务器返回的所述文本信息对应的意图识别结果;
其中,所述意图识别结果包括应用操作意图结果或闲聊意图结果;所述应用操作意图结果包括用于操作应用的意图行为信息。
本发明实施例另一方面提供了一种应用操作方法,包括:
获取用户终端发送的用户语音数据;所述用户语音数据是由所述用户终端获取到的针对虚拟角色的语音数据,所述虚拟角色在所述用户终端的辅助应用界面中进行显示;
识别所述用户语音数据对应的意图识别结果,并发送所述意图识别结果到所述用户终端,以使所述用户终端在所述意图识别结果为应用操作意图结果时发送操作分析请求;
根据所述操作分析请求中的所述应用操作意图结果对应的意图行为信息和目标应用的应用信息,生成与所述目标应用对应的总操作指令信息集;所述目标应用是由所述用户终端根据所述应用操作意图结果确定得到;
发送所述总操作指令信息集到所述用户终端,以使所述用户终端根据总操作指令信息集完成对所述目标应用执行所述用户语音数据所指示的操作。
其中,所述识别所述用户语音数据对应的意图识别结果,并发送所述意图识别结果到所述用户终端,具体包括:
识别所述用户语音数据对应的文本信息,并识别所述文本信息对应的意图识别结果,并发送所述意图识别结果到所述用户终端;
其中,所述意图识别结果包括应用操作意图结果或闲聊意图结果;所述应用操作意图结果包括用于操作应用的意图行为信息。
其中,所述根据所述操作分析请求中的所述应用操作意图结果对应的意图行为信息和目标应用的应用信息,生成与所述目标应用对应的总操作指令信息集,具体包括:
根据所述操作分析请求中的所述目标应用的应用信息,确定所述目标应用对应的业务流程信息,并从所述业务流程信息中确定与所述意图行为信息相关联的业务分支流程信息,并生成所述业务分支流程信息对应的总操作指令信息集。
本发明实施例另一方面提供了一种应用操作装置,包括:
显示模块,用于在辅助应用界面显示虚拟角色,并获取针对所述虚拟角色的用户语音数据;
获取模块,用于获取所述用户语音数据对应的意图识别结果;
确定模块,用于若所述意图识别结果为应用操作意图结果,则根据所述应用操作意图结果确定目标应用;
信息生成模块,用于根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集;
执行模块,用于按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对所述目标应用执行所述用户语音数据所指示的操作。
其中,所述信息生成模块包括:
请求发送单元,用于将所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息添加到操作分析请求,并发送所述操作分析请求到业务服务器,以使所述业务服务器根据所述操作分析请求生成总操作指令信息集;
信息获取单元,用于获取所述业务服务器返回的所述总操作指令信息集;
过滤单元,用于根据所述目标应用的状态信息,对所述总操作指令信息集进行操作指令过滤,得到目标操作指令信息集;所述目标操作指令信息集包括多个按序待执行的操作指令,且所述目标操作指令信息集中的第一个操作指令与所述目标应用的状态信息相关联。
其中,所述信息生成模块包括:
信息确定单元,用于根据所述目标应用的应用信息确定所述目标应用对应的业务流程信息;
信息生成单元,用于根据所述业务流程信息、所述应用操作意图结果对应的意图行为信息以及所述目标应用的状态信息,生成目标操作指令信息集;所述目标操作指令信息集包括多个按序待执行的操作指令,且所述目标操作指令信息集中的第一个操作指令与所述目标应用的状态信息相关联。
其中,所述执行模块包括:
调用单元,用于基于所述辅助应用调用所述目标操作指令信息集中的目标操作指令,并基于所述辅助应用将所述目标操作指令转发到系统辅助功能服务;所述目标操作指令是所述目标操作指令信息集中排序在第一个的未执行操作指令;
模拟操作单元,用于基于所述系统辅助功能服务对所述目标应用进行与所述目标操作指令对应的模拟操作;
显示单元,用于显示模拟操作后所生成的页面内容;
所述调用单元,还用于若所述目标应用响应已执行完所述目标操作指令,则基于所述辅助应用调用所述目标操作指令信息集中的下一个目标操作指令,直至执行完所述目标操作指令信息集中的所有操作指令。
其中,所述模拟操作单元包括:
结构获取子单元,用于基于所述系统辅助功能服务确定与所述目标应用以及所述目标操作指令相关联的应用显示页面,并获取所述应用显示页面对应的页面树形结构;所述页面树形结构包括所述应用显示页面中的所有控件的节点信息;
定位子单元,用于根据所述页面树形结构中所有控件的节点信息,定位所述目标操作指令对应的控件,作为目标控件;
模拟操作子单元,用于根据所述目标操作指令对所述目标控件进行模拟操作。
其中,所述确定模块,具体用于确定与所述应用操作意图结果中的所述意图行为信息相关联的所有应用,并在所确定的所有应用中选择本地终端已安装的应用,并根据每个已安装的应用的优先级,从所有已安装的应用中确定目标应用。
其中,还包括:
闲聊操作模块,用于若所述意图识别结果为闲聊意图结果,则在闲聊语料库中获取与所述用户语音数据相匹配的反馈多媒体信息,并触发所述虚拟角色在所述辅助应用界面展示所述反馈多媒体信息。
其中,所述获取模块包括:
语音发送单元,用于根据所述用户语音数据触发所述虚拟角色展示动画,并发送所述用户语音数据到第一服务器;
文本获取单元,用于获取所述第一服务器返回的所述用户语音数据对应的文本信息,并基于所述虚拟角色显示所述用户语音数据对应的文本信息;
文本发送单元,用于将所述文本信息发送至第二服务器,以使所述第二服务器对所述文本信息进行文本意图识别;
结果获取单元,用于获取所述第二服务器返回的所述文本信息对应的意图识别结果;
其中,所述意图识别结果包括应用操作意图结果或闲聊意图结果;所述应用操作意图结果包括用于操作应用的意图行为信息。
本发明实施例另一方面提供了一种应用操作装置,包括:
语音获取模块,用于获取用户终端发送的用户语音数据;所述用户语音数据是由所述用户终端获取到的针对虚拟角色的语音数据,所述虚拟角色在所述用户终端的辅助应用界面中进行显示;
识别模块,用于识别所述用户语音数据对应的意图识别结果,并发送所述意图识别结果到所述用户终端,以使所述用户终端在所述意图识别结果为应用操作意图结果时发送操作分析请求;
信息生成模块,用于根据所述操作分析请求中的所述应用操作意图结果对应的意图行为信息和目标应用的应用信息,生成与所述目标应用对应的总操作指令信息集;所述目标应用是由所述用户终端根据所述应用操作意图结果确定得到;
信息发送模块,用于发送所述总操作指令信息集到所述用户终端,以使所述用户终端根据总操作指令信息集完成对所述目标应用执行所述用户语音数据所指示的操作。
其中,所述识别模块,具体用于识别所述用户语音数据对应的文本信息,并识别所述文本信息对应的意图识别结果,并发送所述意图识别结果到所述用户终端;
其中,所述意图识别结果包括应用操作意图结果或闲聊意图结果;所述应用操作意图结果包括用于操作应用的意图行为信息。
其中,信息生成模块,具体用于根据所述操作分析请求中的所述目标应用的应用信息,确定所述目标应用对应的业务流程信息,并从所述业务流程信息中确定与所述意图行为信息相关联的业务分支流程信息,并生成所述业务分支流程信息对应的总操作指令信息集。
本发明实施例另一方面提供了一种应用操作装置,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如本发明实施例中一方面和另一方面中的方法。
本发明实施例另一方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本发明实施例中一方面和另一方面中的方法。
本发明实施例通过获取所述用户语音数据对应的意图识别结果,且若所述意图识别结果为应用操作意图结果,则可以获取所述应用操作意图结果中用于操作应用的意图行为信息,并根据所述应用操作意图结果确定目标应用,并根据所述意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集,并按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对所述目标应用执行所述用户语音数据所指示的操作。可见,通过将用户语音数据转换成对应用的一系列操作,可以实现通过语音控制应用执行相应操作,因此,用户无需再进行繁琐的点击操作,从而可以提高应用的操作效率;而且由于避免了大量且繁琐的点击操作,所以可以降低终端的功耗,进而提高了终端的续航能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种网络架构示意图;
图2a是本发明实施例提供的一种辅助应用的展示示意图;
图2b是本发明实施例提供的一种应用操作过程的场景示意图;
图3是本发明实施例提供的一种应用操作方法的流程示意图;
图4是本发明实施例提供的一种执行操作指令方法的流程示意图;
图4a是本发明实施例提供的一种应用操作的场景示意图;
图5是本发明实施例提供的一种应用操作方法的时序示意图;
图6是本发明实施例提供的另一种应用操作方法的流程示意图;
图7是本发明实施例提供的一种应用操作装置的结构示意图;
图8是本发明实施例提供的另一种应用操作装置的结构示意图;
图9是本发明实施例提供的另一种应用操作装置的结构示意图;
图10是本发明实施例提供的另一种应用操作装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例提供的一种网络架构示意图,该网络架构可以包括用户终端100a、用户终端100b、用户终端100c(本发明实施例仅以3个用户终端为例进行说明,并不对用户终端的数量进行限制)、服务器200、服务器300、服务器400,其中,服务器200、服务器300、服务器400均可以分别与用户终端100a、用户终端100b、用户终端100c进行网络连接,即每个用户终端都可以与服务器200、服务器300、服务器400进行通信。其中,服务器200可以用于接收每个用户终端发送的用户语音数据,并对用户语音数据进行语音识别,得到文本信息;服务器300可以用于对用户语音数据对应的文本信息进行意图识别(具体识别文本信息的内容是否具有对应用进行操作的意图);若识别出文本信息的内容具有对某应用进行操作的意图,则服务器400可以用于根据意图识别结果分析该应用的执行流程,并将分析出的执行流程发送给对应的用户终端,使得该用户终端可以基于该执行流程对该应用进行自动化操作,从而实现用户对终端上的应用进行语音控制,因此,用户无需再进行繁琐的点击操作,从而可以提高应用的操作效率。
其中,用户终端100a、用户终端100b、用户终端100c均可以安装有辅助应用,在该辅助应用的界面中可以显示虚拟角色,用户可以与该虚拟角色进行互动,如用户点击操作该虚拟角色时,该辅助应用可以触发该虚拟角色反馈对应的动画特效,并反馈对应的语音信息和/或文字信息,该辅助应用还可以接收针对所述虚拟角色的用户语音数据,具体可以由用户终端的收音器接收用户说出的用户语音数据,然后该辅助应用从该收音器获取该用户语音数据,并触发虚拟角色展示与该用户语音数据对应的动画和/或文字。请一并参见图2a,是本发明实施例提供的一种辅助应用的展示示意图,在图2a中是以上述用户终端100a为例,用户终端100安装有辅助应用,并在辅助应用的界面中显示虚拟角色500,从图2a可知,在用户点击虚拟角色500的头部后,可以触发虚拟角色500显示与该点击操作相匹配的字符“你好啊”。
再请一并参见图2b,是本发明实施例提供的一种应用操作过程的场景示意图,图2b是以上述的用户终端100a、服务器200、服务器300、服务器400为例进行说明。用户侧的用户终端100a可以接收用户语音数据,并将用户语音数据发送至网络侧的服务器200,服务器200可以对用户语音数据进行语音识别,生成对应的文本信息,并将该文本信息发送给用户终端100a;用户终端100a再将该文本信息发送给网络侧的服务器300,服务器300可以对该文本信息进行意图识别,生成意图识别结果(该意图识别结果可以用于表征用户是否意图通过语音对应用进行控制),并将该意图识别结果发送给用户终端100a;用户终端100a所接收到的意图识别结果若为应用操作意图结果(即表明用户意图对应用进行语音控制),则用户终端100a可以根据应用操作意图结果确定即将要操作的应用,并作为目标应用,用户终端100a可以进一步将应用操作意图结果中的用于操作应用的意图行为信息以及目标应用的应用信息添加到操作分析请求,并将该操作分析请求发送到网络侧中的服务器400;服务器400可以根据操作分析请求中的意图行为信息确定目标应用对应的执行流程,该执行流程包括用于实现意图行为信息的每一个操作步骤,如该执行流程可以包括用微信应用发送消息“天气冷了”给用户“小明”的每一个操作步骤,这些操作步骤可以具体包括启动微信应用、点击“通讯录”按键、在“通讯录”页面的搜索栏输入“小明”、点击用户“小明”按键、在会话界面的聊天输入框输入“天气冷了”、点击“发送”按键。服务器400可以将对应的执行流程发送到用户终端400,用户终端400可以根据目标应用的状态信息对执行流程中的操作步骤进行过滤,以过滤掉用户终端400无需再执行的操作步骤,如用户终端400中的目标应用已经处于“通讯录”页面,则可以将执行流程中的启动微信应用、点击“通讯录”按键的操作步骤删除,用户终端400再通过辅助应用按序执行过滤后的执行流程中的每一个操作步骤,直至执行完所有操作步骤。用户终端400在基于执行流程对目标应用进行操作的时候,用户终端400可以显示目标应用的应用界面600,而且每执行完一个操作步骤后,均可以在应用界面600中显示变化后的页面内容,即在对目标应用进行自动化操作的过程中,应用界面600的页面内容也是随之逐步变化的。
可选的,若将服务器200、服务器300、服务器400的能力都集成到用户终端100a中,则也可以由用户终端100a自行对用户语音数据进行识别,以得到对应的意图识别结果,若意图识别结果为应用操作意图结果,则可以自行根据意图识别结果确定目标应用对应的执行流程,并根据执行流程对目标应用进行自动化操作。
其中,通过语音对终端中的应用进行自动化操作的具体实现过程可以参见以下图3-图10的描述。
请参见图3,是本发明实施例提供的一种应用操作方法的流程示意图,所述方法可以包括:
S301,在辅助应用界面显示虚拟角色,并获取针对所述虚拟角色的用户语音数据;
具体的,用户终端可以安装辅助应用,该辅助应用可以在用户终端的桌面展示虚拟角色(如上述图2a中的虚拟角色500),用户可以与该虚拟角色进行互动,如用户点击操作该虚拟角色时,该辅助应用可以触发该虚拟角色反馈对应的动画特效,并反馈对应的语音信息和/或文字信息,该辅助应用还可以接收用户语音数据,具体可以由用户终端的收音器接收用户说出的用户语音数据,然后该辅助应用从该收音器获取该用户语音数据,并触发虚拟角色展示与该用户语音数据对应的动画和/或文字。
S302,获取所述用户语音数据对应的意图识别结果;
具体的,辅助应用获取到用户语音数据后,根据所述用户语音数据触发所述虚拟角色展示动画,该动画可以是默认动画,即只要辅助应用接收到语音数据,均可触发虚拟角色展示默认动画,如该默认动画可以为“虚拟角色抬起手臂”或“虚拟角色侧耳倾听”。辅助应用可以对该用户语音数据进行语音识别,以生成该用户语音数据对应的文本信息,并基于该虚拟角色显示该用户语音数据对应的文本信息(如将文本信息显示在该虚拟角色的耳朵旁),并同时对该文本信息进行文本意图识别。其中,辅助应用具体可以提取该文本信息中的关键字,检测所提取的关键字中是否包含应用信息关键字以及应用行为关键字,若检测为同时包含应用信息关键字以及应用行为关键字,则可以确定基于该文本信息所识别得到的意图识别结果为应用操作意图结果,即说明用户想通过用户语音数据对应用进行语音控制。例如,若识别出的文本信息为“给小明发微信消息,天气冷了”,则可以识别出应用信息关键字为“微信”,应用行为关键字为“发微信消息”,进而可以确定该文本信息对应的意图识别结果为应用操作意图结果,且该应用操作意图结果可以包括:意图操作的应用信息(即应用“微信”)、意图行为信息(该意图行为信息即为:发送消息“天气冷了”给用户“小明”),进而后续辅助应用可以基于该应用操作意图结果对相关应用进行自动化控制。若检测为未包含应用信息关键字和/或应用行为关键字,则可以确定基于该文本信息所识别得到的意图识别结果为闲聊意图结果,即说明用户可能只是想与辅助应用中的虚拟角色进行休闲互动,进而辅助应用可以进一步根据文本信息的内容选择相匹配的多媒体信息进行反馈(以下简称为反馈多媒体信息),并输出该反馈多媒体信息,该反馈多媒体信息可以为字符或语音或动画特效。例如,文本信息为“你好”,则可以确定该文本信息对应的意图识别结果为闲聊意图结果,且可以将相匹配的字符“你好啊”显示在桌面,或可以将相匹配的语音数据“你好啊”通过虚拟角色播放出来,或可以触发虚拟角色播放“鞠躬”的特效。
可选的,也可以将语音识别和文本意图识别的过程放在后台服务器进行执行,即辅助应用可以发送用户语音数据到后台服务器,使后台服务器识别出对应的意图识别结果,并将意图识别结果返回到用户终端。
S303,若所述意图识别结果为应用操作意图结果,则根据所述应用操作意图结果确定目标应用;
具体的,若意图识别结果为应用操作意图结果,则辅助应用可以获取所述应用操作意图结果中用于操作应用的意图行为信息,并可以根据应用操作意图结果中的意图操作的应用信息,确定相关联的所有应用。例如,若意图操作的应用信息为“微信”,则确定出的应用包括微信应用;若意图操作的应用信息为“QQ空间”,则确定出的应用包括手机QQ应用(由于通过手机QQ应用也可以进入到“QQ空间”,所以可以将手机QQ应用也确定为相关联的应用)以及QQ空间应用。再进一步从所确定出的所有应用中选择用户终端上已安装的应用,若选择出的已安装的应用的数量为1,则可以直接将该应用确定为目标应用,即后续可以对该目标应用实现自动化操作。若选择出的已安装的应用的数量大于或等于2,则可以根据预先设置的所有应用的优先级,在所选择出的已安装的应用中,将最高优先级的应用确定为目标应用,例如,相关联且已安装的应用包括手机QQ应用以及QQ空间应用,若QQ空间应用的优先级高于手机QQ应用的优先级,则可以确定QQ空间应用为目标应用,即后续可以对QQ空间应用实现自动化操作。
S304,根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集;
具体的,辅助应用可以在用户终端侧获取目标应用的应用信息,该目标应用的应用信息可以包括应用名称、程序包名、版本编号、版本名称。辅助应用可以预先存储有多个应用分别对应的业务流程信息,而且对于同一个应用的不同版本编号和版本名称,也可以对应有不同的业务流程信息。辅助应用可以在本地获取与目标应用的应用信息对应的业务流程信息,该业务流程信息可以包括目标应用的所有操作的执行流程,如微信应用对应的业务流程信息可以包括向用户发送消息的执行流程、添加新朋友的执行流程、查看钱包的执行流程等等。辅助应用再从获取到的业务流程信息中提取与意图行为信息相关联的执行流程(可以称之为业务流程分支信息),再将业务流程分支信息中的每个操作步骤转换成操作指令,得到总操作指令信息集。例如,若目标应用为微信应用,且意图行为信息为:发送消息“天气冷了”给用户“小明”,则辅助应用可以获取微信应用中的向用户发送消息的执行流程,并根据向用户发送消息的执行流程生成总操作指令信息集,该总操作指令信息集可以包括启动微信应用指令、点击“通讯录”按键指令、在搜索栏输入“小明”指令、点击“小明”用户指令、在聊天输入框输入“天气冷了”指令、点击“发送”按键指令。
辅助应用可以进一步获取目标应用的状态信息,该状态信息可以包括目标应用的启动状态以及目标应用的页面状态。例如,微信应用对应的状态信息中的启动状态为未启动状态,且其中的页面状态为无页面状态;或者,微信应用对应的状态信息中的启动状态为已启动状态,且其中的页面状态为“通讯录”页面。辅助应用可以进一步根据微信应用对应的状态信息对总操作指令信息集进行操作指令过滤,即将总操作指令信息集中无需执行的操作指令过滤掉。例如,总操作指令信息集可以包括启动微信应用指令、点击“通讯录”按键指令、在搜索栏输入“小明”指令、点击“小明”用户指令、在聊天输入框输入“天气冷了”指令、点击“发送”按键指令;若微信应用对应的状态信息中的启动状态为已启动状态,且其中的页面状态为“通讯录”页面,则说明用户终端无需再执行启动微信应用和进入通讯录的操作,因此,可以将总操作指令信息集中的启动微信应用指令、点击“通讯录”按键指令过滤掉,并将过滤后的总操作指令信息集确定为目标操作指令信息集,即目标操作指令信息集包括在搜索栏输入“小明”指令、点击“小明”用户指令、在聊天输入框输入“天气冷了”指令、点击“发送”按键指令。
可选的,还可以将生成总操作指令信息集的过程放在后台服务器执行,即用户终端可以发送携带意图行为信息和目标应用的应用信息的操作分析请求到后台服务器,使得后台服务器可以根据操作分析请求生成总操作指令信息集,并将总操作指令信息集返回给用户终端;进而用户终端可以继续根据目标应用的状态信息对总操作指令信息集进行操作指令过滤,以生成目标操作指令信息集。
其中,目标操作指令信息集中的每个操作指令均为按序执行的操作指令,即目标操作指令信息集中的第一个操作指令将最先被执行,然后再执行第二个操作指令,以此类推,直至执行到最后一个操作指令。
其中,也可以将目标操作指令信息集称之为目标操作行为集合,目标操作指令信息集中的每一个操作指令均分别为一次操作行为,因此,目标操作行为集合可以包括多条即将要对目标应用进行操作的操作行为。
S305,按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对所述目标应用执行所述用户语音数据所指示的操作;
具体的,辅助应用可以按顺序执行目标操作指令信息集中的每个操作指令,即先执行第一条操作指令,执行完后再执行第二条操作指令,以此类推,直至执行完所有的操作指令。其中,每执行完一条操作指令,目标应用都会显示执行完一条操作指令后所生成的页面,因此,目标应用的页面是跟随着操作指令的完成进度而逐步变化的。以执行其中一条操作指令为例,若操作指令为点击“发送”按键指令,则可以对微信应用的页面中的“发送”按键进行模拟点击,以执行消息发送操作。
进一步的,请一并参见图4,是本发明实施例提供的一种执行操作指令方法的流程示意图,该方法可以为上述图3对应实施例中的S304步骤的具体描述,该方法可以包括:
S401,基于所述辅助应用调用所述目标操作指令信息集中的目标操作指令,并基于所述辅助应用将所述目标操作指令转发到系统辅助功能服务;所述目标操作指令是所述目标操作指令信息集中排序在第一个的未执行操作指令;
具体的,通过显示有虚拟角色的辅助应用中的业务管理进程,可以在目标操作指令信息集中调用排序在最前位置的操作指令,作为目标操作指令,即目标操作指令是目标操作指令信息集中排序在第一个的未执行操作指令,且在调用第一个目标操作指令的过程中,用户终端的界面始终显示有虚拟角色。
S402,基于所述系统辅助功能服务确定与所述目标应用以及所述目标操作指令相关联的应用显示页面,并获取所述应用显示页面对应的页面树形结构;所述页面树形结构包括所述应用显示页面中的所有控件的节点信息;
具体的,辅助应用还可以预先与用户终端中的系统辅助功能服务建立关联关系,使得辅助应用可以将目标操作指令发送给系统辅助功能服务。系统辅助功能服务可以确定与目标应用以及目标操作指令相关联的应用显示页面,其中,由于随着操作指令的按序执行,用户终端的页面也会随之逐步变化,因此,所确定的该应用显示页面其实即为用户终端的当前页面;系统辅助功能服务进一步获取应用显示页面对应的页面树形结构;页面树形结构包括应用显示页面中的所有控件的节点信息。一个控件的节点信息可以包括该控件在页面中的位置以及该控件的标签描述(如该标签描述可以为“发送”,即该控件为“发送”按键)。
S403,根据所述页面树形结构中所有控件的节点信息,定位所述目标操作指令对应的控件,作为目标控件;
具体的,目标操作指令中包含即将要操作的控件的标签描述,所以可以从页面树形结构中所有控件的节点信息中,定位出所述目标操作指令对应的控件,并作为目标控件。例如,若目标操作指令为:点击“发送”按键指令,则可以知道即将要操作的控件的标签描述为“发送”,因此,可以在目标应用页面的页面树形结构中查找标签描述为“发送”的控件,并作为目标控件,而且可以根据页面树形结构中的节点信息定位目标控件在目标应用页面的位置。
S404,根据所述目标操作指令对所述目标控件进行模拟操作,并显示模拟操作后所生成的页面内容;
具体的,系统辅助功能服务在确定了目标控件的位置后,即可在该位置处对目标控件进行模拟操作,并显示模拟操作后所生成的页面内容。例如,目标应用为微信应用,且目标操作指令为搜索栏输入“小明”指令,则与目标应用以及目标操作指令相关联的应用显示页面为“通讯录”页面,即用户终端的当前页面即位于微信应用中的“通讯录”页面,系统辅助功能服务可以获取该“通讯录”页面对应的页面树形结构,该页面树形结构可以包括当前页面显示出来的每个好友按键的位置和对应的按键信息(如按键名称,即好友名称)、多个主功能按键的位置和对应的按键信息(如4个主功能按键:“微信”按键、“通讯录”按键、“发现”按键、“我”按键)、多个搜索类型按键(如“新的朋友”按键、“公众号”按键)的位置和按键信息、搜索输入栏的位置以及对应的标签信息;进一步的,系统辅助功能服务可以根据目标操作指令,将当前页面中的搜索输入栏控件确定为目标控件,找到目标控件的位置后,可以在目标控件的搜索输入栏中模拟输入字符“小明”,进而执行完该目标操作指令,同时还可以在显示模拟输入“小明”后所生成的页面内容。
S405,若所述目标应用响应已执行完所述目标操作指令,则基于所述辅助应用调用所述目标操作指令信息集中的下一个目标操作指令,直至执行完所述目标操作指令信息集中的所有操作指令;
具体的,在执行完目标操作指令后,目标应用可以反馈已执行完目标操作指令的消息到系统辅助功能服务,使得系统辅助功能服务可以继续在目标操作指令信息集调用下一个目标操作指令,即调用一个排序在最前的未执行的操作指令,并继续根据新的目标操作指令对目标应用进行模拟操作,直至执行完目标操作指令信息集中的所有操作指令,即完成了一次对目标应用的语音控制。
进一步的,请一并参见图4a,图4a是本发明实施例提供的一种应用操作的场景示意图。图4a以上述图1对应实施例中的用户终端100a为例进行说明,首先用户终端100a可以在辅助应用中显示虚拟角色900a以及麦克风图标900c,当用户终端100a接收到用户语音数据时,辅助应用可以触发虚拟角色900a展示默认动画,得到虚拟角色900b(即触发虚拟角色900a展示“将双手抬起”的动画,得到处于“双手抬起”姿势的虚拟角色900b),辅助应用还可以在收音的过程中,触发麦克风图标900c转换为收音图标900d进行显示;当用户终端100a接收完用户语音数据后,辅助应用可以触发收音图标900d转换回麦克风图标900c进行显示,并同时在虚拟角色900c上显示用户语音数据对应的文本信息900e,具体显示文本信息900e中的字符“给小明发微信消息,天气冷了”。辅助应用可以进一步对文本信息900e进行意图识别,并根据识别得到的应用操作意图结果获取微信应用(即目标应用)对应的目标操作指令信息集700,目标操作指令信息集700可以包括在搜索栏输入“小明”指令、点击“小明”用户指令、在聊天输入框输入“天气冷了”指令、点击“发送”按键指令,则辅助应用中的业务管理进程首先调用第一条操作指令:在搜索栏输入“小明”指令,然后业务管理进程将第一条操作指令发送给系统辅助功能服务,此时,用户终端100a可以跳转到微信应用中包含搜索栏800a的“通讯录”页面,系统辅助功能服务获取“通讯录”页面的页面树形结构,并根据页面树形结构定位搜索栏800a的位置,进而在该搜索栏800a的位置模拟输入字符“小明”,微信应用将跳转到搜索出联系人“小明”用户800b的页面,且微信应用通知系统辅助功能服务继续后续操作;进而系统辅助功能服务可以通知业务管理进程再调用第二条操作指令:点击“小明”用户指令,系统辅助功能服务得到该第二条操作指令后,可以获取到微信应用的页面(即搜索出联系人“小明”用户800b的页面)的页面树形结构,并根据该页面树形结构定位联系人“小明”用户800b的按键位置,进而在该联系人“小明”用户800b的按键位置进行按键模拟点击,微信应用将跳转到与“小明”用户进行会话的聊天页面800c,且微信应用通知系统辅助功能服务继续后续操作;进而系统辅助功能服务可以通知业务管理进程继续调用第三条操作指令:在聊天输入框输入“天气冷了”指令,系统辅助功能服务得到该第三条操作指令后,可以获取到微信应用的页面(即与“小明”用户进行会话的聊天页面800c)的页面树形结构,并根据该页面树形结构定位聊天输入框800d的位置,进而在该聊天输入框800d的位置模拟输入字符“天气冷了”,微信应用在页面的聊天输入框800d中显示字符“天气冷了”,且微信应用通知系统辅助功能服务继续后续操作;进而系统辅助功能服务可以通知业务管理进程再调用最后一条操作指令:点击“发送”按键指令,系统辅助功能服务得到该最后一条操作指令后,可以获取到微信应用的页面(即依然是与“小明”用户进行会话的聊天页面800c)的页面树形结构,并根据该页面树形结构定位“发送”按键800e的位置,进而在该“发送”按键800e的位置进行按键模拟点击,以实现将消息“天气冷了”发送给用户“小明”,且微信应用在聊天页面800c的聊天记录框中显示已发送出去的消息“天气冷了”,由此可见,用户只需通过说话,使得用户终端获取到用户语音数据,即可由用户终端在本地生成相应的目标操作指令信息集,进而根据目标操作指令信息集对目标应用执行一系列操作,以实现用户说话内容中所期望的操作行为,从而实现目标应用的自动化操作。
本发明实施例通过获取所述用户语音数据对应的意图识别结果,且若所述意图识别结果为应用操作意图结果,则可以获取所述应用操作意图结果中用于操作应用的意图行为信息,并根据所述应用操作意图结果确定目标应用,并根据所述意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集,并按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对所述目标应用执行所述用户语音数据所指示的操作。可见,通过将用户语音数据转换成对应用的一系列操作,可以实现通过语音控制应用执行相应操作,因此,用户无需再进行繁琐的点击操作,从而可以提高应用的操作效率;而且由于避免了大量且繁琐的点击操作,所以可以降低终端的功耗,进而提高了终端的续航能力。而且通过在辅助界面显示可以与用户进行互动的虚拟角色,使得在实现语音控制应用执行操作的同时,还可以触发虚拟角色进行相应展示,增加了用户的交互性。
请参见图5,是本发明实施例提供的一种应用操作方法的时序示意图,所述方法可以包括:
S501,用户终端在辅助应用界面显示虚拟角色,并获取针对所述虚拟角色的用户语音数据,根据所述用户语音数据触发所述虚拟角色展示动画,并发送用户语音数据到第一服务器;
具体的,用户终端可以安装辅助应用,该辅助应用可以在用户终端的桌面展示虚拟角色(如上述图2a中的虚拟角色500),用户可以与该虚拟角色进行互动,如用户点击操作该虚拟角色时,该辅助应用可以触发该虚拟角色反馈对应的动画特效,并反馈对应的语音信息和/或文字信息,该辅助应用还可以接收用户语音数据,具体可以由用户终端的收音器接收用户说出的用户语音数据,然后该辅助应用从该收音器获取该用户语音数据,并根据所述用户语音数据触发所述虚拟角色展示动画,该动画可以是默认动画,即只要辅助应用接收到语音数据,均可触发虚拟角色展示默认动画,如该默认动画可以为“虚拟角色抬起手臂”或“虚拟角色侧耳倾听”。
辅助应用获取到用户语音数据后,可以将该用户语音数据发送给第一服务器,使得第一服务器可以对该用户语音数据进行语音识别。其中,第一服务器可以为即时通信应用的后台服务器(如微信后台服务器)。
S502,第一服务器发送用户语音数据对应的文本信息到用户终端;
具体的,第一服务器可以对该用户语音数据进行语音识别,以生成该用户语音数据对应的文本信息,并将该文本信息发送至用户终端。用户终端获取所述第一服务器返回的所述用户语音数据对应的文本信息,并基于所述虚拟角色显示所述用户语音数据对应的文本信息(如将文本信息显示在该虚拟角色的耳朵旁)。
S503,用户终端将文本信息发送至第二服务器;
具体的,用户终端再将该文本信息发送给第二服务器,使得第二服务器可以对该文本信息进行文本意图识别。其中,第二服务器可以为具备人工智能的后台服务器,即第二服务器可以通过人工智能实现文本内容的意图识别。可选的,第一服务器和第二服务器也可以为同一个后台服务器,如微信后台服务器也可以集成有人工智能的能力。
S504,第二服务器对文本信息进行文本意图识别,并发送所识别出的文本信息对应的意图识别结果到用户终端;
具体的,第二服务器可以提取该文本信息中的关键字,检测所提取的关键字中是否包含应用信息关键字以及应用行为关键字,若检测为同时包含应用信息关键字以及应用行为关键字,则可以确定基于该文本信息所识别得到的意图识别结果为应用操作意图结果,即说明用户想通过用户语音数据对应用进行语音控制。例如,若识别出的文本信息为“给小明发微信消息,天气冷了”,则可以识别出应用信息关键字为“微信”,应用行为关键字为“发微信消息”,进而可以确定该文本信息对应的意图识别结果为应用操作意图结果,且该应用操作意图结果可以包括:意图操作的应用信息(即应用“微信”)、意图行为信息(该意图行为信息即为:发送消息“天气冷了”给用户“小明”),进而后续辅助应用可以基于该应用操作意图结果对相关应用进行自动化控制。若检测为未包含应用信息关键字和/或应用行为关键字,则可以确定基于该文本信息所识别得到的意图识别结果为闲聊意图结果,即说明用户可能只是想与辅助应用中的虚拟角色进行休闲互动。第二服务器再发送所识别出的文本信息对应的意图识别结果到用户终端。
S505,若意图识别结果为闲聊意图结果,则进行闲聊操作;
具体的,若意图识别结果为闲聊意图结果,则用户终端中的辅助应用可以在闲聊语料库中获取与用户语音数据相匹配的多媒体信息进行反馈(以下简称为反馈多媒体信息),并触发所述虚拟角色在所述辅助应用界面展示所述反馈多媒体信息;该反馈多媒体信息可以为字符或语音或动画特效。闲聊语料库包括多个用于进行闲聊反馈的多媒体信息,且该闲聊语料库可以是在用户终端安装辅助应用时一并设置和存储在用户终端侧中。例如,文本信息为“你好”,则可以确定该文本信息对应的意图识别结果为闲聊意图结果,因此,辅助应用在获得闲聊意图结果后,可以从闲聊语料库中获取相匹配的反馈多媒体信息,若该反馈多媒体信息为字符“你好啊”,则可以将该字符“你好啊”显示在桌面;或者,若该反馈多媒体信息为语音数据“你好啊”,则可以将该语音数据“你好啊”通过虚拟角色播放出来;或者,若该反馈多媒体信息为“鞠躬”动画特效,则可以触发虚拟角色播放“鞠躬”动画特效。
S506,若意图识别结果为应用操作意图结果,则确定目标应用;
具体的,若意图识别结果为应用操作意图结果,则辅助应用可以获取所述应用操作意图结果中用于操作应用的意图行为信息,并可以根据应用操作意图结果中的意图操作的应用信息,确定相关联的所有应用。例如,若意图操作的应用信息为“微信”,则确定出的应用包括微信应用;若意图操作的应用信息为“QQ空间”,则确定出的应用包括手机QQ应用(由于通过手机QQ应用也可以进入到“QQ空间”,所以可以将手机QQ应用也确定为相关联的应用)以及QQ空间应用。再进一步从所确定出的所有应用中选择用户终端上已安装的应用,若选择出的已安装的应用的数量为1,则可以直接将该应用确定为目标应用,即后续可以对该目标应用实现自动化操作。若选择出的已安装的应用的数量大于或等于2,则可以根据预先设置的所有应用的优先级,在所选择出的已安装的应用中,将最高优先级的应用确定为目标应用,例如,相关联且已安装的应用包括手机QQ应用以及QQ空间应用,若QQ空间应用的优先级高于手机QQ应用的优先级,则可以确定QQ空间应用为目标应用,即后续可以对QQ空间应用实现自动化操作。
可选的,若无法根据应用操作意图结果中的意图操作的应用信息,确定出相关联的应用,则说明用户意图操作的应用属于非法应用,此时辅助应用可以发出提示信息提醒用户,如显示“该应用属于非法应用”的字符。若可以确定出相关联的应用,但是用户终端中并未安装这些相关联的应用,则辅助应用也可以发出提示信息提醒用户,如显示“您未安装XXX应用”,可选的,辅助应用还可以向用户提供XXX应用的下载链接,让用户终端下载并安装。
S507,用户终端发送携带意图行为信息和目标应用的应用信息的操作分析请求到业务服务器;
具体的,辅助应用可以在用户终端侧获取目标应用的应用信息,该目标应用的应用信息可以包括应用名称、程序包名、版本编号、版本名称。辅助应用再将意图行为信息和目标应用的应用信息添加到操作分析请求,并发送操作分析请求到业务服务器。该业务服务器可以为辅助应用的后台服务器,且该业务服务器可以预先存储有多个应用分别对应的业务流程信息。而且对于同一个应用的不同版本编号和版本名称,也可以对应有不同的业务流程信息。如不同版本编号的微信应用,其中的按键功能和按键排版可能会有所不同,所以在不同版本编号的微信应用中,执行同一件事,所对应的执行步骤就可能会不相同,因此,需要针对不同的应用,以及应用的不同版本编号和版本名称,分别设置相对应的业务流程信息,以保证后续用户终端对目标应用的操作的准确性。目标应用的应用信息对应的业务流程信息可以包括目标应用的所有操作的执行流程,如微信应用对应的业务流程信息可以包括:向用户发送消息的执行流程、添加新朋友的执行流程、查看钱包的执行流程等等。
S508,业务服务器根据目标应用的应用信息确定目标应用对应的业务流程信息,并根据业务流程信息和意图行为信息生成总操作指令信息集;
具体的,业务服务器可以从获取到的业务流程信息中提取与意图行为信息相关联的执行流程,再将所提取的执行流程中的每一个操作步骤转换为操作指令,得到总操作指令信息集。例如,若目标应用为微信应用,且意图行为信息为:发送消息“天气冷了”给用户“小明”,则业务服务器可以获取微信应用中的向用户发送消息的执行流程,并根据向用户发送消息的执行流程生成总操作指令信息集,该总操作指令信息集可以包括启动微信应用指令、点击“通讯录”按键指令、在搜索栏输入“小明”指令、点击“小明”用户指令、在聊天输入框输入“天气冷了”指令、点击“发送”按键指令。
S509,业务服务器发送总操作指令信息集到用户终端;
S510,用户终端根据目标应用的状态信息,对总操作指令信息集进行操作指令过滤,得到目标操作指令信息集;
具体的,辅助应用可以获取目标应用的状态信息,该状态信息可以包括目标应用的启动状态以及目标应用的页面状态。例如,微信应用对应的状态信息中的启动状态为未启动状态,且其中的页面状态为无页面状态;或者,微信应用对应的状态信息中的启动状态为已启动状态,且其中的页面状态为“通讯录”页面。辅助应用可以进一步根据微信应用对应的状态信息对总操作指令信息集进行操作指令过滤,即将总操作指令信息集中无需执行的操作指令过滤掉。例如,总操作指令信息集可以包括启动微信应用指令、点击“通讯录”按键指令、在搜索栏输入“小明”指令、点击“小明”用户指令、在聊天输入框输入“天气冷了”指令、点击“发送”按键指令;若微信应用对应的状态信息中的启动状态为已启动状态,且其中的页面状态为“通讯录”页面,则说明用户终端无需再执行启动微信应用和进入通讯录的操作,因此,可以将总操作指令信息集中的启动微信应用指令、点击“通讯录”按键指令过滤掉,并将过滤后的总操作指令信息集确定为目标操作指令信息集,即目标操作指令信息集包括在搜索栏输入“小明”指令、点击“小明”用户指令、在聊天输入框输入“天气冷了”指令、点击“发送”按键指令。可选的,由于业务服务器所生成的指令的格式可能与用户终端所能识别的指令的格式不同,所以可以在得到总操作指令信息集后,先将总操作指令信息集中的每个操作指令的格式转换为用户终端能够识别的指令格式。
其中,目标操作指令信息集中的每个操作指令均为按序执行的操作指令,即目标操作指令信息集中的第一个操作指令将最先被执行,然后再执行第二个操作指令,以此类推,直至执行到最后一个操作指令。
其中,也可以将目标操作指令信息集称之为目标操作行为集合,目标操作指令信息集中的每一个操作指令均分别为一次操作行为,因此,目标操作行为集合可以包括多条即将要对目标应用进行操作的操作行为。
S511,用户终端按序执行目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对目标应用执行用户语音数据所指示的操作;
其中,S511步骤的具体实现方式可以参见上述图4对应实施例中的S401-S405步骤,这里不再进行赘述。
本发明实施例通过获取所述用户语音数据对应的意图识别结果,且若所述意图识别结果为应用操作意图结果,则可以获取所述应用操作意图结果中用于操作应用的意图行为信息,并根据所述应用操作意图结果确定目标应用,并根据所述意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集,并按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对所述目标应用执行所述用户语音数据所指示的操作。可见,通过将用户语音数据转换成对应用的一系列操作,可以实现通过语音控制应用执行相应操作,因此,用户无需再进行繁琐的点击操作,从而可以提高应用的操作效率;而且由于避免了大量且繁琐的点击操作,所以可以降低终端的功耗,进而提高了终端的续航能力。而且通过在辅助界面显示可以与用户进行互动的虚拟角色,使得在实现语音控制应用执行操作的同时,还可以触发虚拟角色进行相应展示,增加了用户的交互性。
请参见图6,是本发明实施例提供的另一种应用操作方法的流程示意图,所述方法可以包括:
S601,获取用户终端发送的用户语音数据;所述用户语音数据是由所述用户终端获取到的针对虚拟角色的语音数据,所述虚拟角色在所述用户终端的辅助应用界面中进行显示;
具体的,服务器可以获取用户终端发送的用户语音数据,该服务器可以集成有上述图5对应实施例中的第一服务器、第二服务器以及业务服务器的所有能力,即该服务器具备语音文本识别能力、文本意图识别能力、基于意图识别结果生成待控制应用对应的执行流程的能力。其中,对虚拟角色和辅助应用的具体描述可以参见上述图3对应的实施例中的S301,这里不再进行赘述。
S602,识别所述用户语音数据对应的意图识别结果,并发送所述意图识别结果到所述用户终端,以使所述用户终端在所述意图识别结果为应用操作意图结果时发送操作分析请求;
具体的,服务器可以识别所述用户语音数据对应的文本信息,服务器可以提取该文本信息中的关键字,检测所提取的关键字中是否包含应用信息关键字以及应用行为关键字,若检测为同时包含应用信息关键字以及应用行为关键字,则可以确定基于该文本信息所识别得到的意图识别结果为应用操作意图结果,即说明用户想通过用户语音数据对应用进行语音控制。例如,若识别出的文本信息为“给小明发微信消息,天气冷了”,则可以识别出应用信息关键字为“微信”,应用行为关键字为“发微信消息”,进而可以确定该文本信息对应的意图识别结果为应用操作意图结果,且该应用操作意图结果可以包括:意图操作的应用信息(即应用“微信”)、意图行为信息(该意图行为信息即为:发送消息“天气冷了”给用户“小明”),进而后续辅助应用可以基于该应用操作意图结果对相关应用进行自动化控制。若检测为未包含应用信息关键字和/或应用行为关键字,则可以确定基于该文本信息所识别得到的意图识别结果为闲聊意图结果,即说明用户可能只是想与辅助应用中的虚拟角色进行休闲互动。服务器再发送所识别出的文本信息对应的意图识别结果到用户终端。
S603,根据所述操作分析请求中的所述应用操作意图结果对应的意图行为信息和目标应用的应用信息,生成与所述目标应用对应的总操作指令信息集;所述目标应用是由所述用户终端根据所述应用操作意图结果确定得到;
具体的,该目标应用的应用信息可以包括应用名称、程序包名、版本编号、版本名称。服务器可以预先存储有多个应用分别对应的业务流程信息。而且对于同一个应用的不同版本编号和版本名称,也可以对应有不同的业务流程信息。如不同版本编号的微信应用,其中的按键功能和按键排版可能会有所不同,所以在不同版本编号的微信应用中,执行同一件事,所对应的执行步骤就可能会不相同,因此,需要针对不同的应用,以及应用的不同版本编号和版本名称,分别设置相对应的业务流程信息,以保证后续用户终端对目标应用的操作的准确性。
服务器可以根据所述操作分析请求中的所述目标应用的应用信息,确定所述目标应用对应的业务流程信息,并从所述业务流程信息中确定与所述意图行为信息相关联的业务分支流程信息,再将业务分支流程信息中的每一个操作步骤转换为操作指令,得到总操作指令信息集。例如,若目标应用为微信应用,且意图行为信息为:发送消息“天气冷了”给用户“小明”,则业务服务器可以获取微信应用中的向用户发送消息的执行流程(即与所述意图行为信息相关联的业务分支流程信息),并根据向用户发送消息的执行流程生成总操作指令信息集,该总操作指令信息集可以包括启动微信应用指令、点击“通讯录”按键指令、在搜索栏输入“小明”指令、点击“小明”用户指令、在聊天输入框输入“天气冷了”指令、点击“发送”按键指令。
S604,发送所述总操作指令信息集到所述用户终端,以使所述用户终端根据总操作指令信息集完成对所述目标应用执行所述用户语音数据所指示的操作。
其中,用户终端可以对总操作指令信息集进行操作指令过滤,得到目标操作指令信息集,该过滤具体过程可以参见上述图5对应实施例中的S510,这里不再进行赘述。用户根据目标操作指令信息集完成对所述目标应用的语音控制的具体过程可以参见上述图4对应实施例中的S401-S405,这里不再进行赘述。
本发明实施例通过将用户语音数据转换成对应用的一系列操作,可以实现通过语音控制应用执行相应操作,因此,用户无需再进行繁琐的点击操作,从而可以提高应用的操作效率;而且由于避免了大量且繁琐的点击操作,所以可以降低终端的功耗,进而提高了终端的续航能力。而且由服务器进行语音文本识别、文本意图识别、基于意图识别结果生成待控制应用对应的执行流程,可以降低对用户终端的性能要求,使得辅助应用可以适用于更多类型的用户终端。
请参见图7,是本发明实施例提供的一种应用操作装置的结构示意图。该应用操作装置1可以应用于上述图1对应实施例中的任意一个用户终端,该应用操作装置1可以包括:显示模块11、获取模块12、确定模块13、信息生成模块14、执行模块15、闲聊操作模块16;
显示模块11,用于在辅助应用界面显示虚拟角色,并获取针对所述虚拟角色的用户语音数据;
获取模块12,用于获取所述用户语音数据对应的意图识别结果;
确定模块13,用于若所述意图识别结果为应用操作意图结果,则根据所述应用操作意图结果确定目标应用;
其中,确定模块13可以具体用于确定与所述应用操作意图结果中的所述意图行为信息相关联的所有应用,并在所确定的所有应用中选择本地终端已安装的应用,并根据每个已安装的应用的优先级,从所有已安装的应用中确定目标应用。
信息生成模块14,用于根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集;
执行模块15,用于按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对所述目标应用执行所述用户语音数据所指示的操作;
闲聊操作模块16,用于若所述意图识别结果为闲聊意图结果,则在闲聊语料库中获取与所述用户语音数据相匹配的反馈多媒体信息,并触发所述虚拟角色在所述辅助应用界面展示所述反馈多媒体信息。
其中,显示模块11、获取模块12、确定模块13、信息生成模块14、执行模块15、闲聊操作模块16的具体功能实现方式可以参见上述图3对应实施例中的S301-S305,这里不再进行赘述。
再请参见图7,该信息生成模块14可以包括:请求发送单元141、信息获取单元142、过滤单元143、信息确定单元144、信息生成单元145;
请求发送单元141,用于将所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息添加到操作分析请求,并发送所述操作分析请求到业务服务器,以使所述业务服务器根据所述操作分析请求生成总操作指令信息集;
信息获取单元142,用于获取所述业务服务器返回的所述总操作指令信息集;
过滤单元143,用于根据所述目标应用的状态信息,对所述总操作指令信息集进行操作指令过滤,得到目标操作指令信息集;所述目标操作指令信息集包括多个按序待执行的操作指令,且所述目标操作指令信息集中的第一个操作指令与所述目标应用的状态信息相关联。
其中,请求发送单元141、信息获取单元142、过滤单元143的具体功能实现方式可以参见上述图5对应实施例中的S507-S510,这里不再进行赘述。
信息确定单元144,用于根据所述目标应用的应用信息确定所述目标应用对应的业务流程信息;
信息生成单元145,用于根据所述业务流程信息、所述应用操作意图结果对应的意图行为信息以及所述目标应用的状态信息,生成目标操作指令信息集;所述目标操作指令信息集包括多个按序待执行的操作指令,且所述目标操作指令信息集中的第一个操作指令与所述目标应用的状态信息相关联;
其中,信息确定单元144、信息生成单元145的具体功能实现方式可以参见上述图3对应实施例中的S303,这里不再进行赘述。
其中,请求发送单元141、信息获取单元142、过滤单元143在执行相应操作时,信息确定单元144和信息生成单元145将停止执行操作;信息确定单元144和信息生成单元145在执行相应操作时,请求发送单元141、信息获取单元142、过滤单元143将停止执行操作。
再请参见图7,该执行模块15可以包括:调用单元151、模拟操作单元152、显示单元153;
调用单元151,用于基于所述辅助应用调用所述目标操作指令信息集中的目标操作指令,并基于所述辅助应用将所述目标操作指令转发到系统辅助功能服务;所述目标操作指令是所述目标操作指令信息集中排序在第一个的未执行操作指令;
模拟操作单元152,用于基于所述系统辅助功能服务对所述目标应用进行与所述目标操作指令对应的模拟操作;
显示单元153,用于显示模拟操作后所生成的页面内容;
所述调用单元151,还用于若所述目标应用响应已执行完所述目标操作指令,则基于所述辅助应用调用所述目标操作指令信息集中的下一个目标操作指令,直至执行完所述目标操作指令信息集中的所有操作指令。
其中,调用单元151、模拟操作单元152、显示单元153的具体功能实现方式可以参见上述图4对应实施例中的S401-S405,这里不再进行赘述。
再请参见图7,该模拟操作单元152可以包括:结构获取子单元1521、定位子单元1522、模拟操作子单元1523;
结构获取子单元1521,用于基于所述系统辅助功能服务确定与所述目标应用以及所述目标操作指令相关联的应用显示页面,并获取所述应用显示页面对应的页面树形结构;所述页面树形结构包括所述应用显示页面中的所有控件的节点信息;
定位子单元1522,用于根据所述页面树形结构中所有控件的节点信息,定位所述目标操作指令对应的控件,作为目标控件;
模拟操作子单元1523,用于根据所述目标操作指令对所述目标控件进行模拟操作。
其中,结构获取子单元1521、定位子单元1522、模拟操作子单元1523的具体功能实现方式可以参见上述图4对应实施例中的S402-S404,这里不再进行赘述。
再请参见图7,该获取模块12可以包括:语音发送单元121、文本获取单元122、文本发送单元123、结果获取单元124;
语音发送单元121,用于根据所述用户语音数据触发所述虚拟角色展示动画,并发送所述用户语音数据到第一服务器;
文本获取单元122,用于获取所述第一服务器返回的所述用户语音数据对应的文本信息,并基于所述虚拟角色显示所述用户语音数据对应的文本信息;
文本发送单元123,用于将所述文本信息发送至第二服务器,以使所述第二服务器对所述文本信息进行文本意图识别;
结果获取单元124,用于获取所述第二服务器返回的所述文本信息对应的意图识别结果;
其中,所述意图识别结果包括应用操作意图结果或闲聊意图结果;所述应用操作意图结果包括用于操作应用的意图行为信息。
其中,语音发送单元121、文本获取单元122、文本发送单元123、结果获取单元124的具体功能实现方式可以参见上述图5对应实施例中的S501-S504,这里不再进行赘述。
本发明实施例通过获取所述用户语音数据对应的意图识别结果,且若所述意图识别结果为应用操作意图结果,则可以获取所述应用操作意图结果中用于操作应用的意图行为信息,并根据所述应用操作意图结果确定目标应用,并根据所述意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集,并按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对所述目标应用执行所述用户语音数据所指示的操作。可见,通过将用户语音数据转换成对应用的一系列操作,可以实现通过语音控制应用执行相应操作,因此,用户无需再进行繁琐的点击操作,从而可以提高应用的操作效率;而且由于避免了大量且繁琐的点击操作,所以可以降低终端的功耗,进而提高了终端的续航能力。而且通过在辅助界面显示可以与用户进行互动的虚拟角色,使得在实现语音控制应用执行操作的同时,还可以触发虚拟角色进行相应展示,增加了用户的交互性。
请参见图8,是本发明实施例提供的另一种应用操作装置。该应用操作装置2可以应用于服务器,该服务器可以集成有上述图1对应实施例中的服务器200、服务器300、服务器400的所有能力,该应用操作装置2可以包括:语音获取模块21、识别模块22、信息生成模块23、信息发送模块24;
语音获取模块21,用于获取用户终端发送的用户语音数据;所述用户语音数据是由所述用户终端获取到的针对虚拟角色的语音数据,所述虚拟角色在所述用户终端的辅助应用界面中进行显示;
识别模块22,用于识别所述用户语音数据对应的意图识别结果,并发送所述意图识别结果到所述用户终端,以使所述用户终端在所述意图识别结果为应用操作意图结果时发送操作分析请求;
其中,所述识别模块22可以具体用于识别所述用户语音数据对应的文本信息,并识别所述文本信息对应的意图识别结果,并发送所述意图识别结果到所述用户终端;
其中,所述意图识别结果包括应用操作意图结果或闲聊意图结果;所述应用操作意图结果包括用于操作应用的意图行为信息。
信息生成模块23,用于根据所述操作分析请求中的所述应用操作意图结果对应的意图行为信息和目标应用的应用信息,生成与所述目标应用对应的总操作指令信息集;所述目标应用是由所述用户终端根据所述应用操作意图结果确定得到;
其中,信息生成模块23可以具体用于根据所述操作分析请求中的所述目标应用的应用信息,确定所述目标应用对应的业务流程信息,并从所述业务流程信息中确定与所述意图行为信息相关联的业务分支流程信息,并生成所述业务分支流程信息对应的总操作指令信息集。
信息发送模块24,用于发送所述总操作指令信息集到所述用户终端,以使所述用户终端根据总操作指令信息集完成对所述目标应用执行所述用户语音数据所指示的操作。
语音获取模块21、识别模块22、信息生成模块23、信息发送模块24的具体功能实现方式可以参见上述图6对应实施例中的S601-S604,这里不再进行赘述。
本发明实施例通过将用户语音数据转换成对应用的一系列操作,可以实现通过语音控制应用执行相应操作,因此,用户无需再进行繁琐的点击操作,从而可以提高应用的操作效率;而且由于避免了大量且繁琐的点击操作,所以可以降低终端的功耗,进而提高了终端的续航能力。而且由服务器进行语音文本识别、文本意图识别、基于意图识别结果生成待控制应用对应的执行流程,可以降低对用户终端的性能要求,使得辅助应用可以适用于更多类型的用户终端。
请参见图9,是本发明实施例提供的另一种应用操作装置的结构示意图。如图9所示,所述应用操作装置1000可以应用于上述图1中的任意一个用户终端。所述应用操作装置1000可以包括:处理器1001和存储器1005,此外,所述应用操作装置1000还可以包括:网络接口1004,用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图9所示的应用操作装置1000中,网络接口1004可以与多个服务器进行通信;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
在辅助应用界面显示虚拟角色,并获取针对所述虚拟角色的用户语音数据;
获取所述用户语音数据对应的意图识别结果;
若所述意图识别结果为应用操作意图结果,则根据所述应用操作意图结果确定目标应用;
根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集;
按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对所述目标应用执行所述用户语音数据所指示的操作。
在一个实施例中,处理器1001在执行根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集时,具体执行以下步骤:
将所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息添加到操作分析请求,并发送所述操作分析请求到业务服务器,以使所述业务服务器根据所述操作分析请求生成总操作指令信息集;
获取所述业务服务器返回的所述总操作指令信息集;
根据所述目标应用的状态信息,对所述总操作指令信息集进行操作指令过滤,得到目标操作指令信息集;所述目标操作指令信息集包括多个按序待执行的操作指令,且所述目标操作指令信息集中的第一个操作指令与所述目标应用的状态信息相关联。
在一个实施例中,处理器1001在执行根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集时,具体执行以下步骤:
根据所述目标应用的应用信息确定所述目标应用对应的业务流程信息;
根据所述业务流程信息、所述应用操作意图结果对应的意图行为信息以及所述目标应用的状态信息,生成目标操作指令信息集;所述目标操作指令信息集包括多个按序待执行的操作指令,且所述目标操作指令信息集中的第一个操作指令与所述目标应用的状态信息相关联。
在一个实施例中,处理器1001在执行按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容时,具体执行以下步骤:
基于所述辅助应用调用所述目标操作指令信息集中的目标操作指令,并基于所述辅助应用将所述目标操作指令转发到系统辅助功能服务;所述目标操作指令是所述目标操作指令信息集中排序在第一个的未执行操作指令;
基于所述系统辅助功能服务对所述目标应用进行与所述目标操作指令对应的模拟操作,并显示模拟操作后所生成的页面内容;
若所述目标应用响应已执行完所述目标操作指令,则基于所述辅助应用调用所述目标操作指令信息集中的下一个目标操作指令,直至执行完所述目标操作指令信息集中的所有操作指令。
在一个实施例中,处理器1001在执行基于所述系统辅助功能服务对所述目标应用进行与所述目标操作指令对应的模拟操作时,具体执行以下步骤:
基于所述系统辅助功能服务确定与所述目标应用以及所述目标操作指令相关联的应用显示页面,并获取所述应用显示页面对应的页面树形结构;所述页面树形结构包括所述应用显示页面中的所有控件的节点信息;
根据所述页面树形结构中所有控件的节点信息,定位所述目标操作指令对应的控件,作为目标控件;
根据所述目标操作指令对所述目标控件进行模拟操作。
在一个实施例中,处理器1001在执行根据所述应用操作意图结果确定目标应用时,具体执行以下步骤:
确定与所述应用操作意图结果中的所述意图行为信息相关联的所有应用,并在所确定的所有应用中选择本地终端已安装的应用;
根据每个已安装的应用的优先级,从所有已安装的应用中确定目标应用。
在一个实施例中,处理器1001还可以执行以下步骤:
若所述意图识别结果为闲聊意图结果,则在闲聊语料库中获取与所述用户语音数据相匹配的反馈多媒体信息,并触发所述虚拟角色在所述辅助应用界面展示所述反馈多媒体信息。
在一个实施例中,处理器1001在执行获取所述用户语音数据对应的意图识别结果时,具体执行以下步骤:
根据所述用户语音数据触发所述虚拟角色展示动画,并发送所述用户语音数据到第一服务器;
获取所述第一服务器返回的所述用户语音数据对应的文本信息,并基于所述虚拟角色显示所述用户语音数据对应的文本信息;
将所述文本信息发送至第二服务器,以使所述第二服务器对所述文本信息进行文本意图识别;
获取所述第二服务器返回的所述文本信息对应的意图识别结果;
其中,所述意图识别结果包括应用操作意图结果或闲聊意图结果;所述应用操作意图结果包括用于操作应用的意图行为信息。
本发明实施例通过获取所述用户语音数据对应的意图识别结果,且若所述意图识别结果为应用操作意图结果,则可以获取所述应用操作意图结果中用于操作应用的意图行为信息,并根据所述应用操作意图结果确定目标应用,并根据所述意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集,并按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对所述目标应用执行所述用户语音数据所指示的操作。可见,通过将用户语音数据转换成对应用的一系列操作,可以实现通过语音控制应用执行相应操作,因此,用户无需再进行繁琐的点击操作,从而可以提高应用的操作效率;而且由于避免了大量且繁琐的点击操作,所以可以降低终端的功耗,进而提高了终端的续航能力。而且通过在辅助界面显示可以与用户进行互动的虚拟角色,使得在实现语音控制应用执行操作的同时,还可以触发虚拟角色进行相应展示,增加了用户的交互性。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的应用操作装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图3至图5所对应实施例中对所述应用操作方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
请参见图10,是本发明实施例提供的另一种应用操作装置的结构示意图。如图10所示,所述应用操作装置2000可以应用于服务器,该服务器可以集成有上述图1对应实施例中的服务器200、服务器300、服务器400的所有能力。所述应用操作装置2000可以包括:处理器2001和存储器2005,此外,所述应用操作装置2000还可以包括:网络接口2004,用户接口2003,和至少一个通信总线2002。其中,通信总线2002用于实现这些组件之间的连接通信。其中,用户接口2003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口2003还可以包括标准的有线接口、无线接口。网络接口2004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器2005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器2005可选的还可以是至少一个位于远离前述处理器2001的存储装置。如图10所示,作为一种计算机存储介质的存储器2005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的应用操作装置2000中,网络接口2004可以与用户终端进行通信;而用户接口2003主要用于为用户提供输入的接口;而处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
获取用户终端发送的用户语音数据;所述用户语音数据是由所述用户终端获取到的针对虚拟角色的语音数据,所述虚拟角色在所述用户终端的辅助应用界面中进行显示;
识别所述用户语音数据对应的意图识别结果,并发送所述意图识别结果到所述用户终端,以使所述用户终端在所述意图识别结果为应用操作意图结果时发送操作分析请求;
根据所述操作分析请求中的所述应用操作意图结果对应的意图行为信息和目标应用的应用信息,生成与所述目标应用对应的总操作指令信息集;所述目标应用是由所述用户终端根据所述应用操作意图结果确定得到;
发送所述总操作指令信息集到所述用户终端,以使所述用户终端根据总操作指令信息集完成对所述目标应用执行所述用户语音数据所指示的操作。
在一个实施例中,处理器2001在执行识别所述用户语音数据对应的意图识别结果,并发送所述意图识别结果到所述用户终端时,具体执行以下步骤:
识别所述用户语音数据对应的文本信息,并识别所述文本信息对应的意图识别结果,并发送所述意图识别结果到所述用户终端;
其中,所述意图识别结果包括应用操作意图结果或闲聊意图结果;所述应用操作意图结果包括用于操作应用的意图行为信息。
在一个实施例中,处理器2001在执行根据所述操作分析请求中的所述应用操作意图结果对应的意图行为信息和目标应用的应用信息,生成与所述目标应用对应的总操作指令信息集时,具体执行以下步骤:
根据所述操作分析请求中的所述目标应用的应用信息,确定所述目标应用对应的业务流程信息,并从所述业务流程信息中确定与所述意图行为信息相关联的业务分支流程信息,并生成所述业务分支流程信息对应的总操作指令信息集。
本发明实施例通过将用户语音数据转换成对应用的一系列操作,可以实现通过语音控制应用执行相应操作,因此,用户无需再进行繁琐的点击操作,从而可以提高应用的操作效率;而且由于避免了大量且繁琐的点击操作,所以可以降低终端的功耗,进而提高了终端的续航能力。而且由服务器进行语音文本识别、文本意图识别、基于意图识别结果生成待控制应用对应的执行流程,可以降低对用户终端的性能要求,使得辅助应用可以适用于更多类型的用户终端。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的应用操作装置2所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图6所对应实施例中对所述应用操作方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (14)

1.一种应用操作方法,其特征在于,包括:
在辅助应用界面显示虚拟角色,并获取针对所述虚拟角色的用户语音数据;
获取所述用户语音数据对应的意图识别结果;
若所述意图识别结果为应用操作意图结果,则根据所述应用操作意图结果确定目标应用;
根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集;
基于所述辅助应用调用所述目标操作指令信息集中的目标操作指令,并基于所述辅助应用将所述目标操作指令转发到系统辅助功能服务;所述目标操作指令是所述目标操作指令信息集中排序在第一个的未执行操作指令;
基于所述系统辅助功能服务对所述目标应用进行与所述目标操作指令对应的模拟操作,并显示模拟操作后所生成的页面内容;
若所述目标应用响应已执行完所述目标操作指令,则基于所述辅助应用调用所述目标操作指令信息集中的下一个目标操作指令,直至执行完所述目标操作指令信息集中的所有操作指令,以完成对所述目标应用执行所述用户语音数据所指示的操作。
2.如权利要求1所述的方法,其特征在于,所述根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集,包括:
将所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息添加到操作分析请求,并发送所述操作分析请求到业务服务器,以使所述业务服务器根据所述操作分析请求生成总操作指令信息集;
获取所述业务服务器返回的所述总操作指令信息集;
根据所述目标应用的状态信息,对所述总操作指令信息集进行操作指令过滤,得到目标操作指令信息集;所述目标操作指令信息集包括多个按序待执行的操作指令,且所述目标操作指令信息集中的第一个操作指令与所述目标应用的状态信息相关联。
3.如权利要求1所述的方法,其特征在于,所述根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集,包括:
根据所述目标应用的应用信息确定所述目标应用对应的业务流程信息;
根据所述业务流程信息、所述应用操作意图结果对应的意图行为信息以及所述目标应用的状态信息,生成目标操作指令信息集;所述目标操作指令信息集包括多个按序待执行的操作指令,且所述目标操作指令信息集中的第一个操作指令与所述目标应用的状态信息相关联。
4.如权利要求1所述的方法,其特征在于,所述基于所述系统辅助功能服务对所述目标应用进行与所述目标操作指令对应的模拟操作,包括:
基于所述系统辅助功能服务确定与所述目标应用以及所述目标操作指令相关联的应用显示页面,并获取所述应用显示页面对应的页面树形结构;所述页面树形结构包括所述应用显示页面中的所有控件的节点信息;
根据所述页面树形结构中所有控件的节点信息,定位所述目标操作指令对应的控件,作为目标控件;
根据所述目标操作指令对所述目标控件进行模拟操作。
5.如权利要求1所述的方法,其特征在于,所述根据所述应用操作意图结果确定目标应用,包括:
确定与所述应用操作意图结果中的所述意图行为信息相关联的所有应用,并在所确定的所有应用中选择本地终端已安装的应用;
根据每个已安装的应用的优先级,从所有已安装的应用中确定目标应用。
6.如权利要求1所述的方法,其特征在于,还包括:
若所述意图识别结果为闲聊意图结果,则在闲聊语料库中获取与所述用户语音数据相匹配的反馈多媒体信息,并触发所述虚拟角色在所述辅助应用界面展示所述反馈多媒体信息。
7.如权利要求1所述的方法,其特征在于,所述获取所述用户语音数据对应的意图识别结果,包括:
根据所述用户语音数据触发所述虚拟角色展示动画,并发送所述用户语音数据到第一服务器;
获取所述第一服务器返回的所述用户语音数据对应的文本信息,并基于所述虚拟角色显示所述用户语音数据对应的文本信息;
将所述文本信息发送至第二服务器,以使所述第二服务器对所述文本信息进行文本意图识别;
获取所述第二服务器返回的所述文本信息对应的意图识别结果;
其中,所述意图识别结果包括应用操作意图结果或闲聊意图结果;所述应用操作意图结果包括用于操作应用的意图行为信息。
8.一种应用操作方法,其特征在于,包括:
获取用户终端发送的用户语音数据;所述用户语音数据是由所述用户终端获取到的针对虚拟角色的语音数据,所述虚拟角色在所述用户终端的辅助应用界面中进行显示;
识别所述用户语音数据对应的意图识别结果,并发送所述意图识别结果到所述用户终端,以使所述用户终端在所述意图识别结果为应用操作意图结果时发送操作分析请求;
根据所述操作分析请求中的所述应用操作意图结果对应的意图行为信息和目标应用的应用信息,生成与所述目标应用对应的总操作指令信息集;所述目标应用是由所述用户终端根据所述应用操作意图结果确定得到;
发送所述总操作指令信息集到所述用户终端,以使所述用户终端根据所述目标应用的状态信息对总操作指令信息集进行操作指令过滤,以生成目标操作指令信息集,基于所述辅助应用调用所述目标操作指令信息集中的目标操作指令,并基于所述辅助应用将所述目标操作指令转发到系统辅助功能服务,所述目标操作指令是所述目标操作指令信息集中排序在第一个的未执行操作指令,基于所述系统辅助功能服务对所述目标应用进行与所述目标操作指令对应的模拟操作,并显示模拟操作后所生成的页面内容,若所述目标应用响应已执行完所述目标操作指令,则基于所述辅助应用调用所述目标操作指令信息集中的下一个目标操作指令,直至执行完所述目标操作指令信息集中的所有操作指令,以完成对所述目标应用执行所述用户语音数据所指示的操作。
9.如权利要求8所述的方法,其特征在于,所述识别所述用户语音数据对应的意图识别结果,并发送所述意图识别结果到所述用户终端,具体包括:
识别所述用户语音数据对应的文本信息,并识别所述文本信息对应的意图识别结果,并发送所述意图识别结果到所述用户终端;
其中,所述意图识别结果包括应用操作意图结果或闲聊意图结果;所述应用操作意图结果包括用于操作应用的意图行为信息。
10.如权利要求9所述的方法,其特征在于,所述根据所述操作分析请求中的所述应用操作意图结果对应的意图行为信息和目标应用的应用信息,生成与所述目标应用对应的总操作指令信息集,具体包括:
根据所述操作分析请求中的所述目标应用的应用信息,确定所述目标应用对应的业务流程信息,并从所述业务流程信息中确定与所述意图行为信息相关联的业务分支流程信息,并生成所述业务分支流程信息对应的总操作指令信息集。
11.一种应用操作装置,其特征在于,包括:
显示模块,用于在辅助应用界面显示虚拟角色,并获取针对所述虚拟角色的用户语音数据;
获取模块,用于获取所述用户语音数据对应的意图识别结果;
确定模块,用于若所述意图识别结果为应用操作意图结果,则根据所述应用操作意图结果确定目标应用;
信息生成模块,用于根据所述应用操作意图结果对应的意图行为信息和所述目标应用的应用信息,生成与所述目标应用对应的目标操作指令信息集;
执行模块,用于按序执行所述目标操作指令信息集中的每个操作指令,并逐一显示每个已执行的操作指令分别对应的页面内容,以完成对所述目标应用执行所述用户语音数据所指示的操作;
其中,所述执行模块包括:
调用单元,用于基于所述辅助应用调用所述目标操作指令信息集中的目标操作指令,并基于所述辅助应用将所述目标操作指令转发到系统辅助功能服务;所述目标操作指令是所述目标操作指令信息集中排序在第一个的未执行操作指令;
模拟操作单元,用于基于所述系统辅助功能服务对所述目标应用进行与所述目标操作指令对应的模拟操作;
显示单元,用于显示模拟操作后所生成的页面内容;
所述调用单元,还用于若所述目标应用响应已执行完所述目标操作指令,则基于所述辅助应用调用所述目标操作指令信息集中的下一个目标操作指令,直至执行完所述目标操作指令信息集中的所有操作指令。
12.一种应用操作装置,其特征在于,包括:
语音获取模块,用于获取用户终端发送的用户语音数据;所述用户语音数据是由所述用户终端获取到的针对虚拟角色的语音数据,所述虚拟角色在所述用户终端的辅助应用界面中进行显示;
识别模块,用于识别所述用户语音数据对应的意图识别结果,并发送所述意图识别结果到所述用户终端,以使所述用户终端在所述意图识别结果为应用操作意图结果时发送操作分析请求;
信息生成模块,用于根据所述操作分析请求中的所述应用操作意图结果对应的意图行为信息和目标应用的应用信息,生成与所述目标应用对应的总操作指令信息集;所述目标应用是由所述用户终端根据所述应用操作意图结果确定得到;
信息发送模块,用于发送所述总操作指令信息集到所述用户终端,以使所述用户终端根据所述目标应用的状态信息对总操作指令信息集进行操作指令过滤,以生成目标操作指令信息集,基于所述辅助应用调用所述目标操作指令信息集中的目标操作指令,并基于所述辅助应用将所述目标操作指令转发到系统辅助功能服务,所述目标操作指令是所述目标操作指令信息集中排序在第一个的未执行操作指令,基于所述系统辅助功能服务对所述目标应用进行与所述目标操作指令对应的模拟操作,并显示模拟操作后所生成的页面内容,若所述目标应用响应已执行完所述目标操作指令,则基于所述辅助应用调用所述目标操作指令信息集中的下一个目标操作指令,直至执行完所述目标操作指令信息集中的所有操作指令,以完成对所述目标应用执行所述用户语音数据所指示的操作。
13.一种应用操作装置,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-10任一项所述的方法。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-10任一项所述的方法。
CN201810191591.3A 2018-03-08 2018-03-08 一种应用操作方法以及装置 Active CN108470566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810191591.3A CN108470566B (zh) 2018-03-08 2018-03-08 一种应用操作方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810191591.3A CN108470566B (zh) 2018-03-08 2018-03-08 一种应用操作方法以及装置

Publications (2)

Publication Number Publication Date
CN108470566A CN108470566A (zh) 2018-08-31
CN108470566B true CN108470566B (zh) 2020-09-15

Family

ID=63265137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810191591.3A Active CN108470566B (zh) 2018-03-08 2018-03-08 一种应用操作方法以及装置

Country Status (1)

Country Link
CN (1) CN108470566B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523998A (zh) * 2018-11-06 2019-03-26 珠海格力电器股份有限公司 一种语音命令精简化的显示系统及其方法与智能终端
CN109522083B (zh) * 2018-11-27 2020-03-17 四川长虹电器股份有限公司 一种页面智能化响应交互系统及方法
CN109545214A (zh) * 2018-12-26 2019-03-29 苏州思必驰信息科技有限公司 基于语音交互系统的消息分发方法及装置
CN110058916A (zh) * 2019-04-23 2019-07-26 深圳创维数字技术有限公司 一种语音功能跳转方法、装置、设备及计算机存储介质
CN110327622A (zh) * 2019-05-09 2019-10-15 百度在线网络技术(北京)有限公司 一种游戏控制方法、装置和终端
CN110175063B (zh) * 2019-05-21 2022-08-30 维沃移动通信有限公司 操作辅助方法、装置、移动终端及存储介质
CN110493123B (zh) * 2019-09-16 2022-06-28 腾讯科技(深圳)有限公司 即时通讯方法、装置、设备及存储介质
CN110660391A (zh) * 2019-09-29 2020-01-07 苏州思必驰信息科技有限公司 基于rpa接口实现大屏终端语音控制的定制方法及系统
CN112786022B (zh) * 2019-11-11 2023-04-07 青岛海信移动通信技术股份有限公司 终端、第一语音服务器、第二语音服务器及语音识别方法
CN111009245B (zh) * 2019-12-18 2021-09-14 腾讯科技(深圳)有限公司 一种指令执行方法、系统及存储介质
CN111192578B (zh) * 2019-12-28 2023-04-07 惠州Tcl移动通信有限公司 应用控制方法、装置、存储介质及电子设备
CN111309857A (zh) * 2020-01-20 2020-06-19 联想(北京)有限公司 一种处理方法及处理装置
CN111724785B (zh) * 2020-06-29 2023-07-04 百度在线网络技术(北京)有限公司 小程序的语音控制方法、设备及存储介质
CN111986676A (zh) * 2020-08-24 2020-11-24 北京中亦安图科技股份有限公司 智能流程控制方法、装置、电子设备及存储介质
CN112533070B (zh) * 2020-11-18 2024-02-06 深圳Tcl新技术有限公司 视频声音和画面的调整方法、终端和计算机可读存储介质
CN114463730B (zh) * 2021-07-15 2023-07-14 荣耀终端有限公司 一种页面识别方法及终端设备
CN114187388A (zh) * 2021-12-10 2022-03-15 铅笔头(深圳)科技有限公司 动画制作方法、装置、设备及存储介质
CN114510282B (zh) * 2021-12-15 2024-02-13 北京达佳互联信息技术有限公司 一种自动化应用的运行方法、装置、设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103442138A (zh) * 2013-08-26 2013-12-11 华为终端有限公司 语音控制方法、装置及终端
CN105551488A (zh) * 2015-12-15 2016-05-04 深圳Tcl数字技术有限公司 语音控制方法及系统
CN105869640A (zh) * 2015-01-21 2016-08-17 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置
CN106471570A (zh) * 2014-05-30 2017-03-01 苹果公司 多命令单一话语输入方法
US9761222B1 (en) * 2014-06-11 2017-09-12 Albert Scarasso Intelligent conversational messaging
CN107293295A (zh) * 2017-06-09 2017-10-24 北京小蓦机器人技术有限公司 一种执行自然语言命令所对应的任务的方法、设备和系统
CN107590174A (zh) * 2017-07-31 2018-01-16 北京五八信息技术有限公司 页面访问方法及装置
CN107767864A (zh) * 2016-08-23 2018-03-06 阿里巴巴集团控股有限公司 基于语音分享信息的方法、装置与移动终端

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103442138A (zh) * 2013-08-26 2013-12-11 华为终端有限公司 语音控制方法、装置及终端
CN106471570A (zh) * 2014-05-30 2017-03-01 苹果公司 多命令单一话语输入方法
US9761222B1 (en) * 2014-06-11 2017-09-12 Albert Scarasso Intelligent conversational messaging
CN105869640A (zh) * 2015-01-21 2016-08-17 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置
CN105551488A (zh) * 2015-12-15 2016-05-04 深圳Tcl数字技术有限公司 语音控制方法及系统
CN107767864A (zh) * 2016-08-23 2018-03-06 阿里巴巴集团控股有限公司 基于语音分享信息的方法、装置与移动终端
CN107293295A (zh) * 2017-06-09 2017-10-24 北京小蓦机器人技术有限公司 一种执行自然语言命令所对应的任务的方法、设备和系统
CN107590174A (zh) * 2017-07-31 2018-01-16 北京五八信息技术有限公司 页面访问方法及装置

Also Published As

Publication number Publication date
CN108470566A (zh) 2018-08-31

Similar Documents

Publication Publication Date Title
CN108470566B (zh) 一种应用操作方法以及装置
CN106570100B (zh) 信息搜索方法和装置
US9111538B2 (en) Genius button secondary commands
EP2747389B1 (en) Mobile terminal having auto answering function and auto answering method for use in the mobile terminal
US8995625B2 (en) Unified interface and routing module for handling audio input
CN109656512A (zh) 基于语音助手的交互方法、装置、存储介质及终端
WO2015090137A1 (en) A voice message search method, device, and system
CN107293294B (zh) 一种语音识别处理方法及装置
WO2018099000A1 (zh) 语音输入的处理方法、终端和网络服务器
CN109086276B (zh) 数据翻译方法、装置、终端及存储介质
CN109274831A (zh) 一种语音通话方法、装置、设备及可读存储介质
CN107071554B (zh) 语义识别方法和装置
CN108039173B (zh) 语音信息输入方法、移动终端、系统以及可读存储介质
JP2014049140A (ja) 使用者デバイスで入力文字を利用した知能型サービス提供方法及び装置
WO2015192447A1 (zh) 一种数据处理方法、装置和终端
CN110660391A (zh) 基于rpa接口实现大屏终端语音控制的定制方法及系统
CN110120909B (zh) 消息的传输方法和装置、存储介质、电子装置
CN108306813B (zh) 会话消息的处理方法、服务器及客户端
US20130035137A1 (en) Mobile terminal and method for adding contact information
CN103559242A (zh) 语音输入信息的方法及终端设备
CN111722893A (zh) 一种电子设备图形用户界面交互方法、装置和终端设备
CN111324262B (zh) 一种应用界面控制方法、装置、终端及介质
CN103795835A (zh) 一种移动终端及其快捷操作的实现方法
KR102357620B1 (ko) 챗봇 채널연계 통합을 위한 챗봇 통합 에이전트 플랫폼 시스템 및 그 서비스 방법
CN112306450A (zh) 信息处理方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant