CN110797022B - 一种应用控制方法、装置、终端和服务器 - Google Patents

一种应用控制方法、装置、终端和服务器 Download PDF

Info

Publication number
CN110797022B
CN110797022B CN201910840445.3A CN201910840445A CN110797022B CN 110797022 B CN110797022 B CN 110797022B CN 201910840445 A CN201910840445 A CN 201910840445A CN 110797022 B CN110797022 B CN 110797022B
Authority
CN
China
Prior art keywords
voice
operation instruction
information
terminal
light application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910840445.3A
Other languages
English (en)
Other versions
CN110797022A (zh
Inventor
张坤
朱群
宁钊
方学维
刘红杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910840445.3A priority Critical patent/CN110797022B/zh
Publication of CN110797022A publication Critical patent/CN110797022A/zh
Application granted granted Critical
Publication of CN110797022B publication Critical patent/CN110797022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44568Immediately runnable code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B20/00Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
    • Y02B20/40Control techniques providing energy savings, e.g. smart controller or presence detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供了一种应用控制方法、装置、终端和服务器,涉及计算机领域的语音控制技术。其中,后台服务器中存储有通用操作指令集和多个轻应用的操作指令集。当后台服务器接收到终端发送的语音操作信息时,从语音操作信息携带的语音操作信号中识别出语音命令。确定语音操作信息的操作指令搜索范围,该操作指令搜索范围可能是通用操作指令集,也可能是任意一个轻应用的操作指令集。在操作指令搜索范围内,查找语音命令对应的操作指令发送至终端,以使终端执行接收到的操作指令。该方法可以实现对多个轻应用进行语音控制,并可以通过语音控制实现不同的轻应用之间的切换,增加语音控制应用的覆盖面的广度和有效性。

Description

一种应用控制方法、装置、终端和服务器
技术领域
本申请涉及计算机领域,具体涉及语音控制技术,提供一种应用控制方法、装置、终端和服务器。
背景技术
随着科学技术的不断发展,终端设备越来越智能化,为人们的生活带来了极大的便利。越来越多的终端设备,如手机、电视、智能屏、车载中控等,都搭载了智能化的操作系统,多种应用(包括轻应用)均可以在智能终端设备上运行。
由于现有的轻应用通常都适配有GUI接口,用户可以通过在交互界面上的点击、触摸、滑动等操作方式对轻应用进行控制。但是在很多场景下,用户无法空出手来进行控制操作,如正在开车的司机无法操控车载中控设备等。
为了帮助用户解放双手,需要针对各种轻应用实现语音控制。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种应用控制方法、装置、终端和服务器,可以实现对多个轻应用进行语音控制,进一步可以通过语音控制实现不同的轻应用之间的切换。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供了一种应用控制方法,所述方法包括:
后台服务器接收终端发送的语音操作信息,所述语音操作信息携带有语音操作信号;
从所述语音操作信号中识别出语音命令;
确定所述语音操作信息的操作指令搜索范围;所述操作指令搜索范围为预先存储的通用操作指令集或任意一个轻应用的操作指令集;
在所述操作指令搜索范围内,查找所述语音命令对应的操作指令;
向所述终端发送查找到的操作指令,以使所述终端执行所述操作指令所指示的操作。
在一种可能的实施方式中,所述在所述操作指令搜索范围内,查找所述语音命令对应的操作指令之后,所述方法还包括:
若未查找到所述语音命令对应的操作指令,且确定所述语音命令存在对应的信息展示卡片,向所述终端发送所述语音命令对应的信息展示卡片和所述信息展示卡片的展示时长,以使所述终端根据所述展示时长展示所述信息展示卡片。
在一种可能的实施方式中,所述从所述语音操作信号中识别出语音命令,包括:
确定所述语音操作信号中的控制信息和语料信息;
将所述语料信息填写至预先设置的表格中的对应位置,得到预定格式的被控主体信息;
根据所述控制信息和所述预定格式的被控主体信息生成所述语音命令。
第二方面,本申请实施例提供了一种应用控制方法,应用于终端,所述方法包括:
若监听到用户输入语音操作信号,终端生成包含所述语音操作信号的语音操作信息;
将所述语音操作信息发送至后台服务器,以使所述后台服务器在所述语音操作信息的操作指令搜索范围内,查找所述语音操作信号对应的操作指令;所述操作指令搜索范围为预先存储的通用操作指令集或任意一个轻应用的操作指令集;
接收所述后台服务器返回的操作指令,并执行所述操作指令所指示的操作。
在一种可能的实施方式中,所述生成包含所述语音操作信号的语音操作信息的步骤,包括:
确定是否存在正在运行的当前轻应用;
若是,将所述当前轻应用的信息作为搜索范围信息,根据所述语音操作信号和所述搜索范围信息生成语音操作信息。
在一种可能的实施方式中,将所述当前轻应用的信息作为搜索范围信息,根据所述语音操作信号和所述搜索范围信息生成语音操作信息之前,所述方法还包括:
在本地保存的操作指令集中,查找所述语音操作信号对应的操作指令;所述本地保存的操作指令集中包括所述当前轻应用当前展示的目标页面中包含的操作指令;
若未查找所述语音操作信号对应的操作指令,则执行将所述当前轻应用的信息作为搜索范围信息,根据所述语音操作信号和所述搜索范围信息生成语音操作信息的步骤。
在一种可能的实施方式中,所述本地保存的操作指令集中包括当前展示的目标页面中包含的操作指令;所述本地保存的操作指令集的生成过程,包括:
获取所述目标页面中包含的可控信息;所述可控信息包括以下信息中的至少一种:文字控件、文字内容、图片内容、图片控件、可控组件;
建立所述可控信息的语音命令和操作指令之间的对应关系。
在一种可能的实施方式中,所述建立所述可控信息的语音命令和操作指令之间的对应关系,包括:
若所述可控信息为长文本信息,将所述长文本信息拆分为多个短文本信息,生成各个短文本信息分别对应的语音命令;
建立多个语音命令与所述可控信息的操作指令之间的对应关系;所述多个语音命令为所述各个短文本信息分别对应的语音命令。
在一种可能的实施方式中,将所述语音操作信息发送至服务器之后,所述方法还包括:
若接收到所述后台服务器返回的轻应用集合,将所述轻应用集合展示给用户;
接收用户从轻应用集合中选择的目标轻应用的信息发送给所述后台服务器,以使所述后台服务器在所述目标轻应用的操作指令集内,查找所述语音操作信号对应的操作指令。
第三方面,本申请实施例提供了一种应用程序控制装置,所述装置包括:
语音识别单元,用于接收终端发送的语音操作信息,所述语音操作信息携带有语音操作信号;从所述语音操作信号中识别出语音命令;
范围确定单元,用于确定所述语音操作信息的操作指令搜索范围;所述操作指令搜索范围为预先存储的通用操作指令集或任意一个轻应用的操作指令集;
指令转换单元,用于在所述操作指令搜索范围内,查找所述语音命令对应的操作指令;
指令发送单元,用于向所述终端发送查找到的操作指令,以使所述终端执行所述操作指令所指示的操作。
第四方面,本申请实施例提供了一种应用程序控制装置,所述装置包括:
信息生成单元,用于若监听到用户输入语音操作信号,生成包含所述语音操作信号的语音操作信息;
信息发送单元,用于将所述语音操作信息发送至后台服务器,以使所述后台服务器在所述语音操作信息的操作指令搜索范围内,查找所述语音操作信号对应的操作指令;所述操作指令搜索范围为预先存储的通用操作指令集或任意一个轻应用的操作指令集;
指令执行单元,用于接收所述后台服务器返回的操作指令,并执行所述操作指令所指示的操作。
第五方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述第一方面的应用程序控制方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述第二方面的应用控制方法。
第七方面,本申请实施例提供了一种服务器,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现上述第一方面的应用控制方法。
第八方面,本申请实施例提供了一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现上述第二方面的应用控制方法。
本申请实施例的应用控制方法、装置、终端和后台服务器,后台服务器中存储有通用操作指令集和多个轻应用的操作指令集,通用操作指令集与每个轻应用的操作指令集相互独立。当后台服务器接收到终端发送的语音操作信息时,从语音操作信息携带的语音操作信号中识别出语音命令。确定语音操作信息的操作指令搜索范围,该操作指令搜索范围可能是通用操作指令集,也可能是任意一个轻应用的操作指令集。在操作指令搜索范围内,查找语音命令对应的操作指令发送至终端,以使终端执行接收到的操作指令。该方法可以实现对多个轻应用进行语音控制,并可以通过语音控制实现不同的轻应用之间的切换,增加语音控制应用的覆盖面的广度和有效性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用控制方法的应用场景图;
图2为本申请实施例提供的一种应用控制方法的信息交互图;
图3为本申请实施例提供的一种信息展示卡片的示意图;
图4为本申请实施例提供的一种终端执行操作指令的界面示意图;
图5为本申请实施例提供的另一种应用控制方法的信息交互图;
图6为本申请实施例提供的一种轻应用的界面示意图;
图7为本申请实施例提供的单选框组件的示意图;
图8为本申请实施例提供的滑块组件的示意图;
图9为本申请实施例提供的视频界面示意图;
图10为本申请实施例提供的另一种轻应用的界面示意图;
图11为本申请实施例提供的一种应用控制方法的流程示意图;
图12为本申请实施例提供的另一种应用控制方法的流程示意图;
图13为本申请实施例提供的一种应用控制装置的结构框图;
图14为本申请实施例提供的另一种应用控制装置的结构框图;
图15为本申请实施例提供的另一种应用控制装置的结构框图;
图16为本申请实施例提供的一种服务器的结构示意图;
图17为本申请实施例提供的一种终端的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
需要说明的是,本申请的文件中涉及的术语“包括”和“具有”以及它们的变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)轻应用:不需要下载安装就可以基于第三方客户端或智能终端设备上的应用程序框架运行的应用程序;其中,第三方客户端可以是即时通讯应用,例如,轻应用可以包括基于社交应用运行的小程序等。
(2)GUI(Graphical User Interface,图形用户接口):指主要提供可视化交互界面的人机交互接口,用户可以通过在可视化交互界面上的点击、触摸、滑动等方式与终端设备进行交互。
(3)VUI(Voice User Interface,语音用户接口):基于语音识别技术实现的人机交互接口,用户可以通过语音与终端设备进行交互。
(4)ASR(Automatic Speech Recognition,语音识别技术):通过语言模型对用户输入的语音进行识别,通常可以将用户输入的语音转换为文字。
(5)NLP(Nature Language processing,自然语言处理):是计算机科学领域与人工智能领域中的一项重要技术,可以实现人与计算机之间用自然语言进行有效通信。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
下面结合附图及具体实施例对本申请作进一步详细的说明。
本申请实施例所提供的应用程序控制方法涉及人工智能中的语音处理技术,尤其涉及自然语言处理技术。通过自然语言处理技术,可以对用户输入的语音操作信号进行语义理解和机器翻译等,转换为相应的操作令。图1示出了本申请实施例所提供的应用程序控制方法的应用场景,参见图1所示,后台服务器100通过网络200与多个终端(如终端301、302、303等)进行通信连接,该网络200可以是但不限于局域网、城域网或广域网等。其中,终端301~303可以是便携设备(例如:手机、平板电脑、笔记本电脑等),也可以是智能屏或个人电脑(PC,Personal Computer)等。后台服务器100可以是任何能够提供互联网服务的设备,后台服务器100可以是云端服务器,可以包括一台或多台服务器。
本申请实施例提供的应用控制方法可以由后台服务器100或终端共同执行,也可以由安装在终端上的第三方客户端执行。第三方客户端可以理解为在轻应用在终端上运行的载体。
后台服务器100中存储有通用操作指令集和多个轻应用的操作指令集,通用操作指令集和每个轻应用的操作指令集可以保存在同一个数据库中,通用操作指令集与每个轻应用的操作指令集相互独立。
下面以终端301为例进行说明,多个轻应用不需要安装就可以在终端301上运行。具体的说,终端301上配置有轻应用框架,或称为小程序框架。在轻应用框架或小程序框架中集成有语音识别模块。在一些实施例中,语音识别模块可以包括语音通信接口,终端301可以通过语音识别模块与后台服务器进行语音操作信息和操作指令的传输。在另一些实施例中,上述语音识别模块还可以具有语音识别功能,如可以将语音操作信号转换为文字等。
终端301监听到用户输入语音操作信号,生成包含语音操作信号的语音操作信息,通过网络200将语音操作信息发送至后台服务器100。后台服务器100接收终端301发送的语音操作信息,从语音操作信息携带的语音操作信号识别出语音命令,并确定语音操作信息的操作指令搜索范围。其中,操作指令搜索范围可以是预先存储的通用操作指令集,或者任意一个轻应用的操作指令集。后台服务器100在确定的操作指令搜索范围内,查找语音命令对应的操作指令,向终端301发送查找到的操作指令。终端301接收到后台服务器100发送的操作指令,执行该操作指令所指示的操作。如果轻应用基于终端301上安装的第三方客户端运行,该方法可以实现对多个轻应用进行语音控制,增加语音控制应用的覆盖面的广度和有效性。
图2示出了本申请实施例提供的一种应用控制方法的交互图,如图2所示,该方法可以包括以下步骤:
步骤S201,终端接收用户输入语音操作信号。
在一些实施例中,在终端上打开轻应用框架后,由于轻应用框架设置有VUI接口,终端将一直监听是否接收到用户输入的语音操作信号。在另一些实施例中,轻应用可以基于终端上安装的第三方客户端运行,在第三方客户端中的轻应用服务模块中设置VUI接口,打开第三方客户端中的轻应用服务窗口后,终端将一直监听是否接收到用户输入的语音操作信号。
步骤S202,终端生成包含语音操作信号的语音操作信息。
在一种可选的实施例中,终端接收地用户输入语音操作信号之后,直接生成包含语音操作信号的语音操作信息。
在一种可选的实施例中,终端接收地用户输入语音操作信号之后,确定是否存在正在运行的当前轻应用。如果存在,将当前轻应用的信息作为搜索范围信息,根据语音操作信号和搜索范围信息生成语音操作信息。如果不存在,则直接根据语音操作信号生成语音操作信息。
具体地说,如果终端上仅是打开了轻应用框架,而在轻应用框架中并未打开任何一个轻应用,或者在第三方客户端的轻应用服务窗口中没有打开任何一个轻应用,此时,终端上不存在正在运行的当前轻应用,终端直接根据语音操作信号生成语音操作信息。例如,用户输入的语音为“请打开XX轻应用”,或“请打开XX小程序”,或“请打开XX应用”,则终端直接生成包含用户输入的上述语音的语音操作信息。
如果终端上打开了某个轻应用,则终端上存在正在运行的当前轻应用,终端将当前轻应用的信息作为搜索范围信息,根据语音操作信号和搜索范围信息生成语音操作信息。其中,当前轻应用的信息可以是当前轻应用的名称等标识信息。例如,终端上打开了“X播放器”的轻应用,用户输入的语音为“请播放歌曲XXX”,则终端生成包含用户输入的语音“请播放歌曲XXX”和搜索范围信息“X播放器”的语音操作信息。
步骤S203,终端向后台服务器发送语音操作信息。
步骤S204,后台服务器从语音操作信息携带的语音操作信号中识别出语音命令。
后台服务器从语音操作信息在提取语音操作信号,从语音操作信号中识别出语音命令。例如,后台服务器获得的语音操作信号是“请打开XX应用”,后台服务器通过ASR和NLP技术对语音操作信号进行识别,或者后台服务器通过预先训练的语音识别模型(如卷积神经网络模型)对语音操作信号进行识别,确定语音操作信号的语义,根据语义可以得到用户想表达的语音命令为“打开XX”,或者说是“打开轻应用XX”。
步骤S205,后台服务器确定语音操作信息的操作指令搜索范围。
其中,操作指令搜索范围为预先存储的通用操作指令集或任意一个轻应用的操作指令集。
在一些实施例中,后台服务器确定语音操作信息中是否包含搜索范围信息。在上文中已经介绍,搜索范围信息为终端上正在运行的当前轻应用的信息。若包含,将预先存储的当前轻应用的操作指令集作为操作指令搜索范围。例如,如果“X播放器”的轻应用正在终端上运行,语音操作信息中包含搜索范围信息“X播放器”,则将预先存储的X播放器的操作指令集作为操作指令搜索范围。若不包含,则将预先存储的通用操作指令集作为操作指令搜索范围。
在另一些实施例中,后台服务器可以确定正在终端上运行的当前轻应用。例如,终端在打开某个轻应用和退出某个轻应用时,均向后台服务器上报轻应用的打开和退出状态。在向后台服务器发送语音操作信息时,也可以不携带搜索范围信息,后台服务器可以自行确定正在终端上运行的当前轻应用,将当前轻应用的操作指令集作为操作指令搜索范围。
步骤S206,后台服务器在确定的操作指令搜索范围内,查找语音命令对应的操作指令。
一种情况为:后台服务器将预先存储的通用操作指令集作为操作指令搜索范围,查找语音命令对应的操作指令。例如,后台服务器接收到的语音操作信息仅包含语音操作信号“请打开XX应用”,不包含搜索范围信息,则后台服务器将通用操作指令集作为操作指令搜索范围。后台服务器根据语音操作信号“请打开XX应用”识别出语音命令为“打开轻应用XX”,将通用操作指令集作为操作指令搜索范围,在通用操作指令集中查找到与语音命令“打开轻应用XX”对应的操作指令为“open_mini_program XX”。
示例性地,通用操作指令集中可以包括但不限于以下操作指令:打开轻应用XX(open_mini_program XX)、关闭轻应用XX(close_mini_program XX)、上一页(last_page)、下一页(next_page)、返回(back)、退出(exit)等。需要说明的是,在一些实施例中,上述操作指令也可以同时存在于通用操作指令集和部分轻应用的操作指令集中,或者同时存在于多个轻应用的操作指令集中。通用操作指令集可以以表格的形式保存语音命令与操作指令之间的对应关系,表1中示出了通用操作指令集中部分语音命令与操作指令之间的对应关系。
表1
另一种情况为:后台服务器将预先存储的当前轻应用的操作指令集作为操作指令搜索范围,查找语音命令对应的操作指令。例如,后台服务器接收到的语音操作信息包含语音操作信号“请播放歌曲XXX”和搜索范围信息“X播放器”。其中“X播放器”为正在终端上运行的当前轻应用。后台服务器根据语音操作信号“请播放歌曲XXX”识别出语音命令为“播放歌曲XXX”。后台服务器将当前轻应用“X播放器”的操作指令集作为操作指令搜索范围,在“X播放器”的操作指令集中查找到与语音命令“播放歌曲XXX”对应的操作指令为“play_songXXX”。
示例性地,通用操作指令集可以以表格的形式保存语音命令与操作指令之间的对应关系,表2中示出了X播放器的操作指令集中部分语音命令与操作指令之间的对应关系。
表2
上述步骤S205和步骤S206均可以由后台服务器中的轻应用服务模块执行,所有的轻应用均需要在后台服务器的轻应用服务模块登记信息,然后才能投入使用。
步骤S207,后台服务器向终端发送查找到的操作指令。
步骤S208,终端执行操作指令所指示的操作。
如果终端接收到后台服务器发送的操作指令为“open_mini_program XX”,终端执行该操作指令,启动XX轻应用。如果终端接收到后台服务器发送的操作指令为“play_songXXX”,则执行该操作指令,通过正在运行的当前轻应用“X播放器”播放歌曲“XXX”。
如果后台服务器没有查找到语音命令对应的操作指令,可以向终端发送无法执行的提示信息。终端接收到提示信息后,可以通过语音提醒的方式提示用户该指令无法执行,或请用户更换其它指令等。
上述应用控制方法,后台服务器中存储有通用操作指令集和多个轻应用的操作指令集,通用操作指令集与每个轻应用的操作指令集相互独立。当后台服务器接收到终端发送的语音操作信息时,从语音操作信息携带的语音操作信号中识别出语音命令。确定语音操作信息的操作指令搜索范围,该操作指令搜索范围可能是通用操作指令集,也可能是任意一个轻应用的操作指令集。在操作指令搜索范围内,查找语音命令对应的操作指令发送至终端,以使终端执行接收到的操作指令。该方法可以实现对多个轻应用进行语音控制,并可以通过语音控制实现不同的轻应用之间的切换,增加语音控制应用的覆盖面的广度和有效性。并且,上述方法提供了一种沉浸式的体验方式,打开轻应用框架之后,就一直沉浸在语音控制模式中,避免跳出语音控制模式,不需要用户说出唤醒词即可响应用户的语音指令,更方便用户进行语音控制操作。
在一种可选的实施例中,在步骤S206之后,如果后台服务器在操作指令搜索范围内没有查找到语音命令对应的操作指令,可以在预存的所有轻应用中,确定与语音命令匹配的轻应用集合,将确定的轻应用集合发送给终端。终端将轻应用集合展示给用户,譬如,终端可以通过声音或视图的形式将轻应用集合展示给用户。终端接收用户从轻应用集合中选择的目标轻应用,将目标轻应用的信息发送给后台服务器。其中,目标轻应用的信息可以是目标轻应用的名称等标识信息。后台服务器接收终端发送的目标轻应用的信息,在目标轻应用的操作指令集内,查找语音命令对应的操作指令。该方式可以在用户不知道第三方客户端支持哪些轻应用可以实现自己的需求时,为用户推荐合适的轻应用供用户选择。
例如,在终端打开轻应用框架或第三方客户端之后,没有开启任何一个轻应用时,如果接收到用户输入语音操作信号“我想听XX的歌”,终端生成仅包含语音操作信号“我想听XX的歌”的语音操作信息,发送至后台服务器。后台服务器接收到语音操作信息,从语音操作信息携带的语音操作信号“我想听XX的歌”中识别出语音命令为“播放歌手XX的歌”。后台服务器首先以通用操作指令集作为语音操作信息的操作指令搜索范围,在通用操作指令集内查找语音命令“播放歌手XX的歌”对应的操作指令。
后台服务器在操作指令搜索范围内没有查找到语音命令“播放歌手XX的歌”对应的操作指令,则在预存的所有轻应用中,查找支持或包含语音命令“播放歌手XX的歌”的一个或多个轻应用,组成轻应用集合。后台服务器将轻应用集合发送给终端。终端可以通过语音播放轻应用集合,或通过图片显示轻应用集合,以询问用户选择哪一个轻应用。终端接收用户从轻应用集合中选择的目标轻应用,将目标轻应用的信息发送给后台服务器。如用户选择了X播放器,终端将目标轻应用的名称“X播放器”发送给后台服务器。后台服务器接收终端发送的目标轻应用的名称“X播放器”,在“X播放器”的操作指令集内,查找语音命令对应的操作指令。后台服务器将查找到的操作指令发送给终端,终端执行接收到的操作指令所执行的操作。
在另一种可选的实施例中,提供了一种悬浮卡片体验方式。在步骤S206之后,如果后台服务器在操作指令搜索范围内没有查找到语音命令对应的操作指令,后台服务器在预存的信息卡片集中,查找是否存在操作指令对应的信息展示卡片。若后台服务器确定存在操作指令对应的信息展示卡片,向终端发送操作指令对应的信息展示卡片和信息展示卡片的展示时长,以使终端根据信息展示卡片的展示时长展示该信息展示卡片。该方式可以满足用户在使用某个轻应用时又提出该轻应用无法提供的其他需求。
例如,用户在通过轻应用“X播放器”观看视频时,想知道今天的天气,于是说“来点天气”。终端接收到用户输入的语音操作信号“来点天气”,将正在运行的当前轻应用“X播放器”的名称作为搜索范围信息,根据语音操作信号“来点天气”和搜索范围信息“X播放器”生成语音操作信息,发送至后台服务器。后台服务器接收到语音操作信息,从语音操作信息携带的语音操作信号“来点天气”中识别出语音命令为“播报天气”,根据语音操作信息中的搜索范围信息将X播放器的操作指令集作为操作指令搜索范围,在X播放器的操作指令集内查找与语音命令“播报天气”对应的操作指令。
后台服务器在操作指令搜索范围内没有查找到语音命令“播报天气”对应的操作指令,则后台服务器在预存的信息卡片集中,查找是否存在语音命令对应的信息展示卡片。若后台服务器确定存在语音命令“播报天气”对应的信息展示卡片,则向终端发送“播报天气”对应的信息展示卡片和信息展示卡片的展示时长。信息展示卡片的展示时长是根据预估的用户阅读时长预先设定的,例如,可以是3秒钟。终端接收到后台服务器发送的信息展示卡片,根据信息展示卡片的展示时长展示在界面上悬浮式地显示如图3所示的信息展示卡片,3秒钟后,信息展示卡片消失,界面继续保持在正在运行的轻应用的界面,用户可以继续通过语音控制轻应用。可选地,还可以在信息展示卡片上设置关闭按键,例如,在信息展示卡片的右上角设置关闭按键,如果用户阅读完毕,可以主动关闭信息展示卡片。
可选地,如果用户输入的指令包含不同词性的词或比较复杂,后台服务器可能不能很轻易地从语音操作信号中识别出语音命令。此时,后台服务器可以先确定语音操作信号中的控制信息和语料信息;将语料信息填写至预先设置的表格中的对应位置,得到预定格式的被控主体信息;根据控制信息和预定格式的被控主体信息生成语音命令。
例如,对于用户输入的语音操作信号“请播放歌曲XXX”,后台服务器解析后,可以得到控制信息为“播放”,语料信息为“歌曲XXX”,将语料信息填写至预先设置的表格中内容对应的位置,作为被控主体信息,根据控制信息“播放”和被控主体信息“歌曲XXX”可以得到语音命令“播放歌曲XXX”。
又如,终端上正在运行的轻应用是“高铁XX”,用户输入的语音操作信号为“今天有从武汉到上海的火车吗”,后台服务器解析后,可以得到“有……吗”对应的控制信息为“搜索”,语料信息包括“今天“、“武汉“、“上海“、”火车票“;将语料信息填写至预先设置的表格中的对应位置,如表3所示。根据表3,可以得到预定格式的被控主体信息为“今天从武汉到上海的火车票”,根据控制信息“搜索”和被控主体信息“今天从武汉到上海的火车票”生成语音命令“搜索今天从武汉到上海的火车票”。
表3
槽位名称 槽位标识 对应实体库 对应实体
时间 date Sys.datetime 今天
出发地 from Usr.station.name 武汉
终点 to Usr.station.name 上海
对象 object Sys.object 火车票
后台服务器将得到的语音命令转换为操作指令发送给终端,终端执行该操作指令,可以显示如图4所示的界面。
可选地,后台服务器中还可以建立轻应用技能模板,封装轻应用通用的一些指令,包括返回、返回到主页、搜索xxx等。如果有新接入的轻应用时,只要能够继承轻应用技能模板,后台服务器就可以自动生成该轻应用的操作指令集,轻应用无需做任何修改,就能够具备轻应用通用的语音控制能力。
在一些实施例中,为了更快地响应用户的语音控制指令,在终端侧可以先对语音操作信号进行识别,当不能确定语音操作信号对应的操作指令时,再由后台服务器进行识别。如图5所示,该实施例的方法可以包括以下步骤:
步骤S501,终端接收用户输入语音操作信号。
步骤S502,终端从语音操作信号中识别出语音命令。
终端从语音操作信号中识别出语音命令的具体方法可以参照后台服务器所使用的方法实现,在此不再赘述。
步骤S503,终端在本地保存的操作指令集中,查找语音命令对应的操作指令。若未查找到语音命令对应的操作指令,则继续执行步骤S504,若查找到语音命令对应的操作指令,则执行步骤S510。
可选地,终端本地保存的操作指令集中包括当前展示的目标页面中包含的操作指令。考虑到终端的存储能力有限,本地保存的操作指令集可以只包含当前展示的目标页面中包含的操作指令。例如,如果正在运行的当前轻应用为A应用,A应用当前展示的目标页面为a页面,则本地保存的操作指令集可以只包含A应用的a页面中包含的操作指令。这种只加载当前展示的目标页面中包含的操作指令的方式称为懒加载方式。
在一种实现方式中,当前展示的目标页面中包含的操作指令可以从后台服务器获取,例如,终端可以向后台服务器发送指令集获取请求,指令集获取请求中携带有当前轻应用A应用当前展示的目标页面a页面的标识信息,后台服务器可以在存储的A应用的操作指令集中提取出目标页面a包含的操作指令发送给终端。
在另一种实现方式中,终端本地保存的操作指令集可以采用如下的方式生成,包括:获取目标页面中包含的可控信息;其中,可控信息包括以下信息中的至少一种:文字控件、文字内容、图片内容、图片控件、可控组件;建立可控信息的语音命令和操作指令之间的对应关系。
示例性地,在图6所示的“X听书”当前展示的目标页面中,包括文字控件“听小说”、“听相声”、“广播电台”、“儿童故事”等,还包括文字内容“猜你喜欢”、“有声小说”、“读者”、“2019年XX演员在XX地的相声专场”、“XX讲易经”、“绝世高手”等,还包括图片内容“探秘红楼梦第1季”,以及图片控件“播放”、“左滑”、“右滑”等。在其他页面中,也可能还包括可控组件,例如视图容器:上一页、下一页等;基础组件:按键(button)、图7所示的单选框组件(checkbox)、图8所示的滑块组件(slider)等,可以支持长按、勾选、反勾选、调大、调小等指令。终端获取当前展示的目标页面中的各种可控信息,建立可控信息的语音命令和操作指令之间的对应关系。用户在页面中可见的文字,均可以使用语音进行控制,实现可见即可说。
对于图片内容,可以进行文字识别,得到图片内容对应的文字。对于没有文字内容只有图片标识(icon)的图片控件,可以获得图像特征值,如提取图片特征,与预存的操作指令的图像特征进行匹配,实现文字映射,比如置顶、直达底部、拍照、返回、更多、数量+-、关闭等图标,从而获得对应的语音命令。
具体地说,在打开目标页面时,终端获取目标页面中的可控信息及支持的指令,可以到后台服务器查询每个可控信息对应的语音命令,然后建立可控信息的语音命令和操作指令之间的对应关系。例如,针对图7所示的单选框组件,可以配置支持“选择中国”等此类的语音命令。针对图8所示的滑块组件,可以配置支持“滑动到多少”的语音命令。图8所示的滑块组件可以是调节音量大小的滑块组件,也可以是调节亮度的滑块组件。
可选地,若可控信息为长文本信息,可以将长文本信息拆分为多个短文本信息,生成各个短文本信息分别对应的语音命令;建立多个语音命令与可控信息的操作指令之间的对应关系,其中多个语音命令为各个短文本信息分别对应的语音命令。例如,对于上述的长文本可控信息“2019年XX演员在XX地的相声专场”,可以拆分为多个短文本信息“2019年”“XX演员”、“XX地”、“相声”,生成各个短文本信息分别对应的语音命令。当接收到用户输入语音操作信号“播放XX演员的节目”时,可以识别出用户的语音命令为“播放XX演员……”,根据该语音命令,可以对应到可控信息“2019年XX演员在XX地的相声专场”的操作指令,执行该操作指令,播放该节目。
在另一些目标页面中,如图9所示的视频页面,页面中还可能包括音频、图片、相机、视频等可控组件,支持的指令包括:播放、暂停、快进、后退、全屏播放、添加到收藏、评论等。对于图9所示的视频页面,可以生成页面能够支持的播放、暂停等语音命令。又如,在地图界面中,还可能生成包括放大、缩小、转动多少度等功能的语音命令。
在一种可选的实施例,终端还可以设置免唤醒词库,免唤醒词库可以用于保存当前显示的目标页面中所包含的文字内容和图片内容。只有出现在可视界面中的内容,才会添加至免唤醒词库中。免唤醒词库中的每一个词均对应播放相应节目的操作指令。用户只需直接说出看到的内容,就可以收听该节目。
例如,图6所示的页面中的文字内容“猜你喜欢”、“有声小说”、“读者”、“2019年XX演员在XX地的相声专场”、“XX讲易经”、“绝世高手”和图片内容“探秘红楼梦第1季”均可以添加至免唤醒词库中。同样,对于长文本信息,可以拆分为多个短文本信息,保存到免唤醒词库中,多个短文本信息可以对应一个节目。通过设置免唤醒词库,可以更快地响应用户的语音指令,进一步提升语音识别速度。同时,还可以提高语音识别模块基于目标页面的内容纠错能力。例如,在“X听书”中,有些内容不一定语音识别容易准确,例如:“妙宇连朱”,可能语音识别会识别成“妙语连珠”,通过免唤醒词库,可以解决此类问题,提升容错能力,还可以通过页面内“收集”的控制命令与语音命令作为候选词,通过拼音编码修正模糊音,提升容错能力。
终端在建立本地的操作指令集或免唤醒词库之后,即可在本地直接响应用户的语音指令。可选地,在页面可视范围内,如果用户的语音指令命中多项内容时,可以通过高亮显示或框中显示的方式显示可候选的多项内容,基于页面内容组装播报语,询问用户更具体的选择。例如,在轻应用“X美食”中,用户输入语音信号“中关村”,此时在当前展示的目标页面中命中多项内容,如图10所示,可以通过框中显示的方式显示可候选的多项内容,同时播报语音“你可以跟我说具体的名字,比如桃园XX”。
如果终端在本地保存的操作指令集中没有找到语音命令对应的操作指令,则执行下述步骤S504。
步骤S504,终端生成包含语音操作信号的语音操作信息。
步骤S505,终端向后台服务器发送语音操作信息。
步骤S506,后台服务器从语音操作信息携带的语音操作信号中识别出语音命令。
步骤S507,后台服务器确定语音操作信息的操作指令搜索范围。
其中,操作指令搜索范围为预先存储的通用操作指令集或任意一个轻应用的操作指令集。
在一些实施例中,后台服务器确定语音操作信息中是否包含搜索范围信息。若包含,将预先存储的当前轻应用的操作指令集作为操作指令搜索范围。若不包含,则将预先存储的通用操作指令集作为操作指令搜索范围。在另一些实施例中,后台服务器可以确定正在终端上运行的当前轻应用。例如,终端在打开某个轻应用和退出某个轻应用时,均向后台服务器上报轻应用的打开和退出状态。在向后台服务器发送语音操作信息时,也可以不携带搜索范围信息,后台服务器可以自行确定正在终端上运行的当前轻应用,将当前轻应用的操作指令集作为操作指令搜索范围。
步骤S508,后台服务器在确定的操作指令搜索范围内,查找语音命令对应的操作指令。
步骤S509,后台服务器向终端发送查找到的操作指令。
步骤S510,终端执行操作指令所指示的操作。
基于同一发明构思,本申请实施例中还提供了一种应用控制方法,该方法应用于后台服务器100。后台服务器中存储有通用操作指令集和多个轻应用的操作指令集,通用操作指令集与每个轻应用的操作指令集相互独立。如图11所示,该方法可以包括如下步骤:
步骤S1101,接收终端发送的语音操作信息。
其中,语音操作信息携带有用户输入的语音操作信号。
步骤S1102,从语音操作信号中识别出语音命令。
后台服务器从语音操作信息在提取语音操作信号,从语音操作信号中识别出语音命令。例如,后台服务器可以通过ASR和NLP技术对语音操作信号进行识别,或者后台服务器可以通过预先训练的语音识别模型对语音操作信号进行识别,确定语音操作信号的语义,根据语义可以得到用户想表达的语音命令。
可选地,在识别语音命令时,后台服务器可以先确定语音操作信号中的控制信息和语料信息;将语料信息填写至预先设置的表格中的对应位置,得到预定格式的被控主体信息;根据控制信息和预定格式的被控主体信息生成语音命令。
步骤S1103,确定语音操作信息的操作指令搜索范围。
其中,操作指令搜索范围为预先存储的通用操作指令集或任意一个轻应用的操作指令集。
在一些实施例中,后台服务器可以确定语音操作信息中是否包含搜索范围信息,搜索范围信息为正在终端运行的当前轻应用的信息。若包含,将预先存储的当前轻应用的操作指令集作为操作指令搜索范围;若不包含,将预先存储的通用操作指令集作为操作指令搜索范围。
在另一些实施例中,后台服务器可以确定正在终端上运行的当前轻应用。例如,终端在打开某个轻应用和退出某个轻应用时,均向后台服务器上报轻应用的打开和退出状态。在向后台服务器发送语音操作信息时,也可以不携带搜索范围信息,后台服务器可以自行确定正在终端上运行的当前轻应用,将当前轻应用的操作指令集作为操作指令搜索范围。
步骤S1104,在操作指令搜索范围内,查找语音命令对应的操作指令。
在一种可选的实施例中,若未查找语音命令对应的操作指令,则在预存的所有轻应用中,确定与语音命令匹配的轻应用集合;将确定的轻应用集合发送给终端;接收终端发送的目标轻应用的信息;目标轻应用是用户从轻应用集合中选择的。在目标轻应用的操作指令集内,查找语音命令对应的操作指令。
步骤S1105,向终端发送查找到的操作指令,以使终端执行操作指令所指示的操作。
在一些实施例中,如果后台服务器在步骤S1104中没有查找到语音命令对应的操作指令,后台服务器可以在预存的信息卡片集中,查找是否存在操作指令对应的信息展示卡片。若后台服务器确定存在操作指令对应的信息展示卡片,向终端发送操作指令对应的信息展示卡片和信息展示卡片的展示时长,以使终端根据信息展示卡片的展示时长展示信息展示卡片。该方式可以满足用户在使用某个轻应用时又提出该轻应用无法提供的其他需求。
本申请实施例的应用控制方法,后台服务器中存储有通用操作指令集和多个轻应用的操作指令集,通用操作指令集与每个轻应用的操作指令集相互独立。当后台服务器接收到终端发送的语音操作信息时,从语音操作信息携带的语音操作信号中识别出语音命令。确定语音操作信息的操作指令搜索范围,该操作指令搜索范围可能是通用操作指令集,也可能是任意一个轻应用的操作指令集。在操作指令搜索范围内,查找语音命令对应的操作指令发送至终端,以使终端执行接收到的操作指令。该方法可以实现对多个轻应用进行语音控制,并可以通过语音控制实现不同的轻应用之间的切换,增加语音控制应用的覆盖面的广度和有效性。
基于同一发明构思,本申请实施例中还提供了一种应用控制方法,该方法应用于终端。如图12所示,该方法可以包括如下步骤:
步骤S1201,接收用户输入的语音操作信号。
步骤S1202,生成包含语音操作信号的语音操作信息。
生成包含语音操作信号的语音操作信息时,终端确定是否存在正在运行的当前轻应用;若是,将当前轻应用的信息作为搜索范围信息,根据语音操作信号和搜索范围信息生成语音操作信息;若否,直接根据语音操作信号生成语音操作信息。
步骤S1203,将语音操作信息发送至后台服务器,以使后台服务器在语音操作信息的操作指令搜索范围内,查找语音操作信号对应的操作指令。
在一些实施例中,在将语音操作信息发送至服务器之后,若接收到后台服务器返回的轻应用集合,将轻应用集合展示给用户,接收用户从轻应用集合中选择的目标轻应用的信息发送给后台服务器,以使后台服务器在目标轻应用的操作指令集内,查找语音操作信号对应的操作指令。
步骤S1204,接收后台服务器返回的操作指令,并执行操作指令所指示的操作。
为了快速响应用户的语音操作,在一些实施例中,执行步骤S1202之前,终端可以从语音操作信号中识别出语音命令,在本地保存的操作指令集中,查找语音命令对应的操作指令。其中,本地保存的操作指令集中包括当前展示的目标页面中包含的操作指令。若查找到语音命令对应的操作指令,则执行查找到的操作指令;若未查找到语音命令对应的操作指令,则执行生成包含语音操作信号的语音操作信息的步骤。
可选地上述本地保存的操作指令集的生成过程,可以包括:获取目标页面中包含的可控信息;其中,可控信息包括以下信息中的至少一种:文字控件、文字内容、图片内容、图片控件、可控组件;建立可控信息的语音命令和操作指令之间的对应关系。在建立可控信息的语音命令和操作指令之间的对应关系时,若可控信息为长文本信息,将长文本信息拆分为多个短文本信息,生成各个短文本信息分别对应的语音命令;建立多个语音命令与可控信息的操作指令之间的对应关系;多个语音命令为各个短文本信息分别对应的语音命令。
与上述图11所示的应用控制方法的实施例相对应地,本申请实施例还提供了一种应用控制装置。图13为本申请实施例的提供的应用控制装置的结构示意图;如图13所示,该应用控制装置包括语音识别单元131、范围确定单元132、指令转换单元133和指令发送单元134;其中,
语音识别单元131,用于接收终端发送的语音操作信息,语音操作信息携带有语音操作信号;从语音操作信号中识别出语音命令;
范围确定单元132,用于确定语音操作信息的操作指令搜索范围;操作指令搜索范围为预先存储的通用操作指令集或任意一个轻应用的操作指令集;
指令转换单元133,用于在操作指令搜索范围内,查找语音命令对应的操作指令;
指令发送单元134,用于向终端发送查找到的操作指令,以使终端执行操作指令所指示的操作。
可选地,范围确定单元132还可以用于:
确定语音操作信息中是否包含搜索范围信息;搜索范围信息为正在终端运行的当前轻应用的信息;
若是,将预先存储的当前轻应用的操作指令集作为操作指令搜索范围;
若否,将预先存储的通用操作指令集作为操作指令搜索范围。
可选地,指令转换单元133还可以用于:
若未查找语音命令对应的操作指令,则在预存的所有轻应用中,确定与语音命令匹配的轻应用集合;
将确定的轻应用集合发送给终端;
接收终端发送的目标轻应用的信息;目标轻应用是用户从轻应用集合中选择的;
在目标轻应用的操作指令集内,查找语音命令对应的操作指令。
可选地,指令转换单元133还可以用于:
若未查找到语音命令对应的操作指令,且确定语音命令存在对应的信息展示卡片,向终端发送语音命令对应的信息展示卡片和信息展示卡片的展示时长,以使终端根据展示时长展示信息展示卡片。
可选地,语音识别单元131还可以用于:
确定语音操作信号中的控制信息和语料信息;
将语料信息填写至预先设置的表格中的对应位置,得到预定格式的被控主体信息;
根据控制信息和预定格式的被控主体信息生成语音命令。
与上述图12所示的应用控制方法的实施例相对应地,本申请实施例还提供了一种应用控制装置。图14为本申请实施例的提供的应用控制装置的结构示意图;如图14所示,该应用控制装置包括信息生成单元141、信息发送单元142、指令执行单元143;其中,
信息生成单元141,用于若监听到用户输入语音操作信号,生成包含语音操作信号的语音操作信息;
信息发送单元142,用于将语音操作信息发送至后台服务器,以使后台服务器在语音操作信息的操作指令搜索范围内,查找语音操作信号对应的操作指令;操作指令搜索范围为预先存储的通用操作指令集或任意一个轻应用的操作指令集;
指令执行单元143,用于接收后台服务器返回的操作指令,并执行操作指令所指示的操作。
在一种可选的实施例中,如图15所示,上述装置还可以包括指令生成单元151和语音处理单元152。
语音处理单元152可以用于:
从语音操作信号中识别出语音命令;
在本地保存的操作指令集中,查找语音命令对应的操作指令;本地保存的操作指令集中包括当前展示的目标页面中包含的操作指令;
若未查找到语音命令对应的操作指令,则执行生成包含语音操作信号的语音操作信息的步骤。
可选地,指令生成单元151可以用于:
获取目标页面中包含的可控信息;可控信息包括以下信息中的至少一种:文字控件、文字内容、图片内容、图片控件、可控组件;
建立可控信息的语音命令和操作指令之间的对应关系。
可选地,指令生成单元151还可以用于:
若可控信息为长文本信息,将长文本信息拆分为多个短文本信息,生成各个短文本信息分别对应的语音命令;
建立多个语音命令与可控信息的操作指令之间的对应关系;多个语音命令为各个短文本信息分别对应的语音命令。
可选地,信息生成单元141,还可以用于:
确定是否存在正在运行的当前轻应用;
若是,将当前轻应用的信息作为搜索范围信息,根据语音操作信号和搜索范围信息生成语音操作信息。
信息发送单元142,还可以用于:
若接收到后台服务器返回的轻应用集合,将轻应用集合展示给用户;
接收用户从轻应用集合中选择的目标轻应用的信息发送给后台服务器,以使后台服务器在目标轻应用的操作指令集内,查找语音操作信号对应的操作指令。
本申请实施例的应用控制装置,后台服务器中存储有通用操作指令集和多个轻应用的操作指令集,通用操作指令集与每个轻应用的操作指令集相互独立。当后台服务器接收到终端发送的语音操作信息时,从语音操作信息携带的语音操作信号中识别出语音命令。确定语音操作信息的操作指令搜索范围,该操作指令搜索范围可能是通用操作指令集,也可能是任意一个轻应用的操作指令集。在操作指令搜索范围内,查找语音命令对应的操作指令发送至终端,以使终端执行接收到的操作指令。该方法可以实现对多个轻应用进行语音控制,并可以通过语音控制实现不同的轻应用之间的切换,增加语音控制应用的覆盖面的广度和有效性。
与上述图11所示的应用控制方法的实施例相对应地,本申请实施例还提供了一种服务器,如图1所示的后台服务器100。图16为本申请实施例的提供的服务器的结构示意图;如图16所示,该服务器160可以包括存储器161,以及一个或多个处理器162。
存储器161,用于存储处理器162执行的计算机程序。存储器161可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行轻应用服务功能所需的程序等;存储数据区可存储各个轻应用的信息和操作指令集等。
存储器161可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器161也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器701是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器161可以是上述存储器的组合。
处理器162,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器162,用于调用存储器161中存储的计算机程序时实现上述应用控制方法。
本申请实施例中不限定上述存储器161和处理器162之间的具体连接介质。本公开实施例在图16中以存储器161和处理器162之间通过总线163连接,总线163在图16中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线163可以分为地址总线、数据总线、控制总线等。为便于表示,图16中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器161中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的应用控制方法。处理器162用于执行上述的应用控制方法。
与上述图12所示的应用控制方法的实施例相对应地,本申请实施例还提供了一种终端设备。终端设备可以为智能手机、平板电脑,手提电脑或PC机等电子设备,终端设备至少包括用于存储数据的存储器和用于数据处理的处理器。其中,对于用于数据处理的处理器而言,在执行处理时,可以采用微处理器、CPU、DSP或FPGA实现;对于存储器来说,包含操作指令,该操作指令可以为计算机可执行代码,通过操作指令来实现上述本申请实施例的应用控制方法流程中的各个步骤。
图17为本申请实施例提供的一种终端的结构示意图;如图17所示,本申请实施例中的终端170包括:处理器171、显示器172、存储器173、通讯设备174、总线175和输入设备176。处理器171、存储器173、输入设备176、显示器172和通讯设备174均通过总线175连接,总线175用于处理器171、存储器173、显示器172和通讯设备174之间传输数据。
存储器173中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的应用控制方法。处理器171,用于执行上述的应用控制方法并在显示器172上展示操作指令的执行结果。处理器171通过通讯设备174与后台服务器连接并实现数据传输。
输入设备176主要用于获取用户的输入操作,当终端设备不同时,输入设备176也可能不同。例如,当终端设备为PC时,输入设备176可以为鼠标、键盘等输入设备;当终端设备为智能手机、平板电脑等便携设备时,输入设备176可以为触控屏。
本申请实施例还提供了一种计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请任一实施例的应用控制方法。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (8)

1.一种应用控制方法,其特征在于,所述方法包括:
后台服务器接收终端发送的语音操作信息,所述语音操作信息携带有语音操作信号;
从所述语音操作信号中识别出语音命令;
在所述语音操作信息中包含搜索范围信息时,将预先存储的正在终端运行的当前轻应用的操作指令集作为操作指令搜索范围;所述搜索范围信息为所述当前轻应用的信息;
在所述语音操作信息中不包含所述搜索范围信息时,将预先存储的通用操作指令集作为操作指令搜索范围;
在所述操作指令搜索范围内,查找所述语音命令对应的操作指令;
若在所述操作指令搜索范围内,未查找到所述语音命令对应的操作指令,则在预存的所有轻应用中,确定与所述语音命令匹配的轻应用集合;
将确定的所述轻应用集合发送给所述终端;
接收所述终端发送的目标轻应用的信息;所述目标轻应用是用户从所述轻应用集合中选择的;
在所述目标轻应用的操作指令集内,查找所述语音命令对应的操作指令;
向所述终端发送查找到的操作指令,以使所述终端执行所述操作指令所指示的操作。
2.一种应用控制方法,其特征在于,所述方法包括:
若监测到用户输入语音操作信号,终端生成包含所述语音操作信号的语音操作信息;
将所述语音操作信息发送至后台服务器,以使所述后台服务器在所述语音操作信息的操作指令搜索范围内,查找所述语音操作信号对应的操作指令;所述操作指令搜索范围为预先存储的通用操作指令集或正在终端运行的当前轻应用的操作指令集;
若接收到所述后台服务器返回的与语音命令匹配的轻应用集合,将所述轻应用集合展示给用户;所述语音命令是所述后台服务器从所述语音操作信号中识别的;
接收用户从轻应用集合中选择的目标轻应用的信息发送给所述后台服务器,以使所述后台服务器在所述目标轻应用的操作指令集内,查找所述语音操作信号对应的操作指令;
接收所述后台服务器返回的操作指令,并执行所述操作指令所指示的操作。
3.根据权利要求2所述的方法,其特征在于,所述生成包含所述语音操作信号的语音操作信息之前,所述方法还包括:
从所述语音操作信号中识别出语音命令;
在本地保存的操作指令集中,查找所述语音命令对应的操作指令;所述本地保存的操作指令集中包括当前展示的目标页面中包含的操作指令;
若未查找到所述语音命令对应的操作指令,则执行生成包含所述语音操作信号的语音操作信息的步骤。
4.一种应用程序控制装置,其特征在于,所述装置包括:
语音识别单元,用于接收终端发送的语音操作信息,所述语音操作信息携带有语音操作信号;从所述语音操作信号中识别出语音命令;
范围确定单元,用于在所述语音操作信息中包含搜索范围信息时,将预先存储的正在终端运行的当前轻应用的操作指令集作为操作指令搜索范围;所述搜索范围信息为所述当前轻应用的信息;在所述语音操作信息中不包含所述搜索范围信息时,将预先存储的通用操作指令集作为操作指令搜索范围;
指令转换单元,用于在所述操作指令搜索范围内,查找所述语音命令对应的操作指令;若在所述操作指令搜索范围内,未查找到所述语音命令对应的操作指令,则在预存的所有轻应用中,确定与所述语音命令匹配的轻应用集合;将确定的所述轻应用集合发送给所述终端;接收所述终端发送的目标轻应用的信息;所述目标轻应用是用户从所述轻应用集合中选择的;在所述目标轻应用的操作指令集内,查找所述语音命令对应的操作指令;
指令发送单元,用于向所述终端发送查找到的操作指令,以使所述终端执行所述操作指令所指示的操作。
5.一种应用程序控制装置,其特征在于,所述装置包括:
信息生成单元,用于若监测到用户输入语音操作信号,生成包含所述语音操作信号的语音操作信息;
信息发送单元,用于将所述语音操作信息发送至后台服务器,以使所述后台服务器在所述语音操作信息的操作指令搜索范围内,查找所述语音操作信号对应的操作指令;所述操作指令搜索范围为预先存储的通用操作指令集或正在终端运行的当前轻应用的操作指令集;若接收到所述后台服务器返回的与语音命令匹配的轻应用集合,将所述轻应用集合展示给用户;所述语音命令是所述后台服务器从所述语音操作信号中识别的;接收用户从轻应用集合中选择的目标轻应用的信息发送给所述后台服务器,以使所述后台服务器在所述目标轻应用的操作指令集内,查找所述语音操作信号对应的操作指令;
指令执行单元,用于接收所述后台服务器返回的操作指令,并执行所述操作指令所指示的操作。
6.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1或权利要求2~3任一项所述的方法。
7.一种服务器,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现权利要求1所述的方法。
8.一种终端,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现权利要求2~3任一项所述的方法。
CN201910840445.3A 2019-09-06 2019-09-06 一种应用控制方法、装置、终端和服务器 Active CN110797022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910840445.3A CN110797022B (zh) 2019-09-06 2019-09-06 一种应用控制方法、装置、终端和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910840445.3A CN110797022B (zh) 2019-09-06 2019-09-06 一种应用控制方法、装置、终端和服务器

Publications (2)

Publication Number Publication Date
CN110797022A CN110797022A (zh) 2020-02-14
CN110797022B true CN110797022B (zh) 2023-08-08

Family

ID=69427286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910840445.3A Active CN110797022B (zh) 2019-09-06 2019-09-06 一种应用控制方法、装置、终端和服务器

Country Status (1)

Country Link
CN (1) CN110797022B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111327469A (zh) * 2020-02-21 2020-06-23 苏州浪潮智能科技有限公司 一种配置文件生成方法、系统、设备以及介质
CN113555015A (zh) * 2020-04-23 2021-10-26 百度在线网络技术(北京)有限公司 语音交互方法、语音交互设备、电子设备及存储介质
CN111708669B (zh) * 2020-06-04 2023-05-30 北京梧桐车联科技有限责任公司 系统运行的分析方法、装置、设备及存储介质
CN111724785B (zh) * 2020-06-29 2023-07-04 百度在线网络技术(北京)有限公司 小程序的语音控制方法、设备及存储介质
EP4170650A4 (en) 2020-06-29 2024-07-17 Baidu online network technology beijing co ltd VOICE CONTROL METHOD FOR A MINI-PROGRAM, AS WELL AS DEVICES AND STORAGE MEDIUM
CN112863514B (zh) * 2021-03-15 2024-03-15 亿咖通(湖北)技术有限公司 一种语音应用的控制方法和电子设备
CN113496703A (zh) * 2021-07-23 2021-10-12 北京百度网讯科技有限公司 通过语音方式控制程序的方法、设备及程序产品
CN114090148A (zh) * 2021-11-01 2022-02-25 深圳Tcl新技术有限公司 信息同步方法、装置、电子设备及计算机可读存储介质
CN114090166A (zh) * 2021-11-29 2022-02-25 云知声智能科技股份有限公司 一种交互的方法和装置
CN114639384B (zh) * 2022-05-16 2022-08-23 腾讯科技(深圳)有限公司 语音控制方法、装置、计算机设备及计算机存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871437A (zh) * 2012-12-11 2014-06-18 比亚迪股份有限公司 车载多媒体装置及其语音控制方法
CN103885783A (zh) * 2014-04-03 2014-06-25 深圳市三脚蛙科技有限公司 一种应用程序的语音控制方法及装置
CN107241652A (zh) * 2017-06-28 2017-10-10 百视通网络电视技术发展有限责任公司 一种基于微信小程序的电视语音遥控系统及方法
CN108198549A (zh) * 2017-11-22 2018-06-22 珠海格力电器股份有限公司 一种设备控制方法、装置、存储介质、服务器及用户终端
CN108305626A (zh) * 2018-01-31 2018-07-20 百度在线网络技术(北京)有限公司 应用程序的语音控制方法和装置
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
CN108958844A (zh) * 2018-07-13 2018-12-07 京东方科技集团股份有限公司 一种应用程序的控制方法及终端
EP3445056A2 (en) * 2017-05-16 2019-02-20 Apple Inc. Methods and interfaces for home media control
CN109656512A (zh) * 2018-12-20 2019-04-19 Oppo广东移动通信有限公司 基于语音助手的交互方法、装置、存储介质及终端

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871437A (zh) * 2012-12-11 2014-06-18 比亚迪股份有限公司 车载多媒体装置及其语音控制方法
CN103885783A (zh) * 2014-04-03 2014-06-25 深圳市三脚蛙科技有限公司 一种应用程序的语音控制方法及装置
EP3445056A2 (en) * 2017-05-16 2019-02-20 Apple Inc. Methods and interfaces for home media control
CN107241652A (zh) * 2017-06-28 2017-10-10 百视通网络电视技术发展有限责任公司 一种基于微信小程序的电视语音遥控系统及方法
CN108198549A (zh) * 2017-11-22 2018-06-22 珠海格力电器股份有限公司 一种设备控制方法、装置、存储介质、服务器及用户终端
CN108305626A (zh) * 2018-01-31 2018-07-20 百度在线网络技术(北京)有限公司 应用程序的语音控制方法和装置
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
CN108958844A (zh) * 2018-07-13 2018-12-07 京东方科技集团股份有限公司 一种应用程序的控制方法及终端
CN109656512A (zh) * 2018-12-20 2019-04-19 Oppo广东移动通信有限公司 基于语音助手的交互方法、装置、存储介质及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于微信小程序的智能聊天机器人的开发;电子制作(第第24期期);第36-40页 *

Also Published As

Publication number Publication date
CN110797022A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN110797022B (zh) 一种应用控制方法、装置、终端和服务器
US11146670B2 (en) Electronic device and method of executing function of electronic device
US11900017B2 (en) Optimizing display engagement in action automation
US11435980B2 (en) System for processing user utterance and controlling method thereof
CN110462647B (zh) 电子设备及执行电子设备的功能的方法
KR101912409B1 (ko) 이동 단말기 및 이동 단말기의 제어 방법
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
US20180364895A1 (en) User interface apparatus in a user terminal and method for supporting the same
CN110069608A (zh) 一种语音交互的方法、装置、设备和计算机存储介质
KR20180109580A (ko) 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
US11468881B2 (en) Method and system for semantic intelligent task learning and adaptive execution
US20200051560A1 (en) System for processing user voice utterance and method for operating same
US9569101B2 (en) User interface apparatus in a user terminal and method for supporting the same
US11151995B2 (en) Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command
US11144175B2 (en) Rule based application execution using multi-modal inputs
KR20180109465A (ko) 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법
KR20180021316A (ko) 문자 입력 및 컨텐츠 추천을 위한 통합 키보드
KR20190032026A (ko) 자연어 표현 제공 방법 및 이를 지원하는 전자 장치
CN104184890A (zh) 一种信息处理方法及电子设备
KR20210001082A (ko) 사용자 발화를 처리하는 전자 장치와 그 동작 방법
KR20180087608A (ko) 검색 서비스를 제공하는 시스템 및 방법
CN115687807A (zh) 信息显示方法、装置、终端及存储介质
EP2717121A2 (en) Method and apparatus for providing intelligent service using inputted character in a user device
US20210264910A1 (en) User-driven content generation for virtual assistant
CN117806587A (zh) 显示设备和多轮对话预料生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021968

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant