CN110060679B - 一种全程语音控制的交互方法和系统 - Google Patents

一种全程语音控制的交互方法和系统 Download PDF

Info

Publication number
CN110060679B
CN110060679B CN201910328614.5A CN201910328614A CN110060679B CN 110060679 B CN110060679 B CN 110060679B CN 201910328614 A CN201910328614 A CN 201910328614A CN 110060679 B CN110060679 B CN 110060679B
Authority
CN
China
Prior art keywords
application
voice
instruction
target
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910328614.5A
Other languages
English (en)
Other versions
CN110060679A (zh
Inventor
肖峰
彭伟风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhida Chengyuan Technology Co.,Ltd.
Original Assignee
ARCHERMIND TECHNOLOGY (NANJING) CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ARCHERMIND TECHNOLOGY (NANJING) CO LTD filed Critical ARCHERMIND TECHNOLOGY (NANJING) CO LTD
Priority to CN201910328614.5A priority Critical patent/CN110060679B/zh
Publication of CN110060679A publication Critical patent/CN110060679A/zh
Application granted granted Critical
Publication of CN110060679B publication Critical patent/CN110060679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供了一种全程语音控制的交互方法和系统,其方法包括:获取用户语音指令,根据用户语音指令打开目标应用;获取目标应用的第一应用界面上可触摸的控件以及控件对应的语音描述;根据语音描述和控件建立第一映射表;获取第一语音指令;根据第一映射表和第一语音指令触发第一目标控件进入第二应用界面;建立第二应用界面对应的第二映射表;获取第二语音指令;根据第二映射表和第二语音指令触发第二目标控件进入第三应用界面;再次获取语音指令以及建立相应的映射表,直至触发用户目标控件执行完目标操作。本发明在打开应用界面的同时生成当前可操作的控件和语音描述相对应的映射表,从而实现全程语音的深度交互。

Description

一种全程语音控制的交互方法和系统
技术领域
本发明涉及语音控制交互技术领域,尤指一种全程语音控制的交互方法和系统。
背景技术
随着移动智能操作系统的普及,与智能设备的交互方式也从一开始的鼠标键盘变成触摸控制,现在也出现了部分的语音控制技术。在一些特定的应用场景中,一些用手触碰操作会有一些局限性甚至有一定的安全隐患。伴随着语音技术的发展,语音做为操作系统的另外一种输入方式将会给传统的与应用交互带来更大的便捷。
但是目前这些语音控制技术更多是基于应用级别,需要很多提前录入的词条和应用功能相匹配,是一种预先控制技术,无法做到和所有应用的交互,以及对应用的深度交互。比如语音搜索美食出现第一级菜单,该第一级菜单上面显示多个搜索结果,再通过语音进行交互就会非常困难。因为提前录入的词条无法匹配所有动态的变化。
因此目前大多是语音结合触摸操作进行交互。比如根据语音指令打开目标应用之后,如果要进行下一步控件的触发则需要用户进行点击,无法全程进行语音交互。
发明内容
本发明的目的是提供一种全程语音控制的交互方法和系统,实现在打开应用界面的同时生成当前可操作的控件和语音描述相对应的映射表,从而实现全程语音的深度交互。
本发明提供的技术方案如下:
本发明提供一种全程语音控制的交互方法,包括:获取用户语音指令,根据所述用户语音指令打开目标应用;获取所述目标应用的第一应用界面上可触摸的控件以及所述控件对应的语音描述;根据所述语音描述和所述控件建立第一映射表;获取第一语音指令;根据所述第一映射表和所述第一语音指令触发第一目标控件进入第二应用界面;建立所述第二应用界面对应的第二映射表;获取第二语音指令;根据所述第二映射表和所述第二语音指令触发第二目标控件进入第三应用界面;再次获取语音指令以及建立相应的映射表,直至触发用户目标控件执行完目标操作。
进一步的,获取用户语音指令,根据所述用户语音指令打开目标应用具体包括:获取所述用户语音指令;当与所述用户语音指令匹配的应用只有一个时,将匹配的应用作为所述目标应用,并打开所述目标应用;当与所述用户语音指令匹配的应用有多个时,将用户历史使用次数最多的匹配的应用作为所述目标应用,并打开所述目标应用。
进一步的,获取用户语音指令,根据所述用户语音指令打开目标应用还包括:获取所述用户语音指令;当所述用户语音指令与某一应用的应用名称相符时,将相符的应用作为所述目标应用,并打开所述目标应用;当所述用户语音指令与某一应用中的某一控件相符时,触发相符的控件进入相应应用界面。
进一步的,获取用户语音指令,根据所述用户语音指令打开目标应用之后,获取所述目标应用的第一应用界面上可触摸的控件以及所述控件对应的语音描述之前包括:当分屏打开多个目标应用时,多个分屏目标应用分别建立相应的分屏应用映射表,所述分屏目标应用为打开的目标应用;获取第三语音指令;若所述第三语音指令与任意一个分屏应用映射表中的语音描述相符,则将对应的的分屏目标应用作为用户目标应用;若所述第三语音指令与至少两个分屏应用映射表中的语音描述相符,则选择用户历史使用次数多的分屏目标应用作为用户目标应用。
进一步的,根据所述第一映射表和所述第一语音指令触发第一目标控件进入第二应用界面具体包括:当所述第一语音指令与所述第一映射表中多个待选择的控件对应的语音描述相同时,显示所述多个待选择的控件;获取用户选择指令;根据所述用户选择指令从所述多个待选择的控件中选择所述第一目标控件;触发所述第一目标控件进入所述第二应用界面。
本发明还提供一种全程语音控制的交互系统,包括:指令获取模块,获取用户语音指令;处理模块,根据所述指令获取模块获取的所述用户语音指令打开目标应用;控件获取模块,获取所述处理模块打开的所述目标应用的第一应用界面上可触摸的控件以及所述控件对应的语音描述;映射表建立模块,根据所述控件获取模块获取的所述语音描述和所述控件建立第一映射表;所述指令获取模块,获取第一语音指令;分析模块,根据所述映射表建立模块建立的所述第一映射表和所述指令获取模块获取的所述第一语音指令触发第一目标控件进入第二应用界面;所述映射表建立模块,建立所述分析模块得到的所述第二应用界面对应的第二映射表;所述指令获取模块,获取第二语音指令;所述分析模块,根据所述映射表建立模块建立的所述第二映射表和所述指令获取模块获取的所述第二语音指令触发第二目标控件进入第三应用界面;所述指令获取模块再次获取语音指令以及所述映射表建立模块建立相应的映射表,直至所述分析模块触发用户目标控件执行完目标操作。
进一步的,所述指令获取模块具体包括:指令获取单元,获取所述用户语音指令;控制单元,当与所述指令获取单元获取的所述用户语音指令匹配的应用只有一个时,将匹配的应用作为所述目标应用,并打开所述目标应用;所述控制单元,当与所述指令获取单元获取的所述用户语音指令匹配的应用有多个时,将用户历史使用次数最多的匹配的应用作为所述目标应用,并打开所述目标应用。
进一步的,所述指令获取模块还包括:指令获取单元,获取所述用户语音指令;控制单元,当所述指令获取单元获取的所述用户语音指令与某一应用的应用名称相符时,将相符的应用作为所述目标应用,并打开所述目标应用;所述控制单元,当所述指令获取单元获取的所述用户语音指令与某一应用中的某一控件相符时,触发相符的控件进入相应应用界面。
进一步的,还包括:分屏处理模块,当分屏打开多个目标应用时,多个分屏目标应用分别建立相应的分屏应用映射表,所述分屏目标应用为打开的目标应用;所述指令获取模块,获取第三语音指令;目标应用确定模块,若所述指令获取模块获取的所述第三语音指令与任意一个分屏应用映射表中的语音描述相符,则将对应的的分屏目标应用作为用户目标应用;所述目标应用确定模块,若所述指令获取模块获取的所述第三语音指令与至少两个分屏应用映射表中的语音描述相符,则选择用户历史使用次数多的分屏目标应用作为用户目标应用。
进一步的,所述分析模块具体包括:显示单元,当所述指令获取模块获取的所述第一语音指令与所述映射表建立模块建立的所述第一映射表中多个待选择的控件对应的语音描述相同时,显示所述多个待选择的控件;指令获取单元,获取用户选择指令;控件选择单元,根据所述指令获取单元获取的所述用户选择指令从所述显示单元显示的所述多个待选择的控件中选择所述第一目标控件;分析单元,触发所述控件选择单元选择的所述第一目标控件进入所述第二应用界面。
通过本发明提供的一种全程语音控制的交互方法和系统,能够带来以下至少一种有益效果:
1、本发明中,打开显示的应用界面的同时获取可触摸的控件建立相应的映射表,实现全程都通过语音控制交互,做到对应用的深度交互。
2、本发明中,通过预设规则解决了用户语音指令描述模糊导致目标应用不明确的问题,并且是基于用户的历史使用记录进行选择,从而保证选择的目标应用更加符合用户的使用习惯。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种全程语音控制的交互方法和系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种全程语音控制的交互方法的第一个实施例的流程图;
图2是Android系统的触摸事件处理流程;
图3是本发明一种全程语音控制的交互方法的Android语音控件处理流程;
图4是本发明一种全程语音控制的交互方法的第二个实施例的流程图;
图5是本发明一种全程语音控制的交互方法的第三个实施例的流程图;
图6是本发明一种全程语音控制的交互方法的第四个实施例的流程图;
图7是本发明一种全程语音控制的交互方法的第五个实施例的流程图;
图8是本发明一种全程语音控制的交互系统的第六个实施例的结构示意图;
图9是本发明一种全程语音控制的交互系统的第七个实施例的结构示意图。
具体实施方式
为了能够更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对照说明书附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并且获得其他的实施方式。
为了使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
本发明的第一实施例,如图1所示,一种全程语音控制的交互方法,包括:
S100获取用户语音指令,根据用户语音指令打开目标应用;
S200获取目标应用的第一应用界面上可触摸的控件以及控件对应的语音描述;
S300根据语音描述和控件建立第一映射表;
S400获取第一语音指令;
S500根据第一映射表和第一语音指令触发第一目标控件进入第二应用界面;
S600建立第二应用界面对应的第二映射表;
S700获取第二语音指令;
S800根据第二映射表和第二语音指令触发第二目标控件进入第三应用界面;
S900再次获取语音指令以及建立相应的映射表,直至触发用户目标控件执行完目标操作。
具体的,Android系统的触摸事件处理流程如图2所示。当一个触摸事件被触发的时候,会由Android输入系统处理,根据当前输入的种类如点击等和输入的位置(屏幕坐标),找到当前在应用中触摸的位置,从而触发相应的事件,如onTouchEvent或者onKeyEvent,在TouchEvent或者onKeyEvent中应用可以来处理相应的下一步应用响应。
本实施例中,获取用户语音指令,根据用户语音指令打开目标应用。例如用户语音指令为打开支付宝,则支付宝为对应的目标应用。目标应用打开之后,终端屏幕上显示的界面为第一应用界面,获取该第一应用界面上可触摸的控件,控件包括该第一应用界面上用户原本通过触摸屏幕可以进行的所有的操作,例如:目标应用可以点击进入的功能模块,譬如支付宝第一应用界面的“扫一扫”功能控件;系统自带的功能模块,譬如返回键,home键,以及页面滑动功能等。同时获取每一个控件对应的语音描述,并且根据语音描述和控件建立第一应用界面对应的第一映射表。
获取用户针对第一应用界面上的内容所发出的第一语音指令,将第一语音指令和第一映射表中每个控件的语音描述进行比对,确定用户想要触发的第一目标控件。随后触发第一目标控件进入第二应用界面,例如,当终端屏幕显示支付宝打开之后显示的第一应用界面之后,用户发出第一语音指令:点击转账,终端匹配得出第一目标控件为转账,则进入第二应用界面即转账的下一步。
按照上述建立第一应用界面对应的第一映射表的方法建立第二应用界面对应的第二映射表,然后再获取用户针对第二应用界面上的内容所发出的第二语音指令,确定并触发第三目标控件进入第三应用界面。
按照上述的步骤不断地重复获取用户的语音指令进入下一个应用界面,同时生成对应的映射表,再获取用户的语音指令进入下一个应用界面,直至触发用户目标控件执行完目标操作。当不再获取到用户新的语音指令时,可以认为已经执行完目标操作。
因此,可能打开目标应用显示第一应用界面之后,用户没有新的语音指令,则可以认为目标操作就是打开支付宝,本次操作已经完成,例如用户想要查看支付宝首页包含的内容。又或者打开目标应用显示第一应用界面之后,逐步显示第二应用界面、第三应用界面等,例如一步步语音控制进行支付宝转账。又或者打开第一个目标应用显示第一应用界面之后,用户新的语音指令为退出当前的目标应用,重新打开另一个目标应用,例如打开支付宝之后又退出打开微信。
语音指令包括用户语音指令、第一语音指令、第二语音指令,甚至第n语音指令,n为正整数,映射表同样如此,所述的用户语音指令、第一语音指令、第二语音指令以及第n语音指令仅仅是为了描述过程中将不同时间获取的用户的语音指令进行区分,并没有实质性的区别,映射表同样如此。
本实施例中Android语音控件处理流程如图3所示。其中,PhoneWindow为应用界面,语音控件Map表为对应的映射表,语音控件Map表中View、Back等为应用界面上的控件,上一个、返回等为对应的语音描述。当用户语音输入时,提取当前应用界面对应映射表中控件对应语音描述的特征与用户输入的语音匹配,然后确定onTouchEvent或者onKeyEvent。
本发明针对当前打开显示的应用界面上可触摸的控件建立相应的映射表,并且是在该应用界面打开的同时建立,一方面可以将目前需要触摸屏幕完成的功能也通过语音进行控制,也就是全程都通过语音控制交互,做到对应用的深度交互。另一方面,不提前建立映射表减轻了终端系统存储和运算的负担,也避免了由于各应用界面的控件的增减变化对建立存储的映射表进行频繁的更新。
本发明的第二实施例,是上述第一实施例的优化实施例,如图4所示,本实施例与上述第一实施例相比,主要改进在于,S100获取用户语音指令,根据用户语音指令打开目标应用具体包括:
S110获取用户语音指令;
S120当与用户语音指令匹配的应用只有一个时,将匹配的应用作为目标应用,并打开目标应用;
S130当与用户语音指令匹配的应用有多个时,将用户历史使用次数最多的匹配的应用作为目标应用,并打开目标应用。
具体的,本实施例中,获取用户语音指令,根据用户语音指令打开目标应用。其中,通过用户语音指令得到目标应用有以下两种方式,第一种方式为:仅仅根据终端屏幕当前显示的应用和应用文件夹建立映射表,然后只在该映射表中寻找目标应用。第二种方式为:由于终端内存有限,下载安装的应用的数量有限,因此可以根据该终端上所有下载安装的应用建立映射表,然后在该映射表中寻找目标应用。
但是由于用户语音指令可能存在用词不准确、描述有歧义等情形,通过解析用户语音指令可能得到多个对应的应用,那么可以根据预设时长内打开各个应用的次数或者时长分析确定对应的目标应用,该预设时长可以是用户自下载该应用以来,也可以是是最近的一个预设周期内。
例如,如果用户语音指令为:打开支付宝,可以确定目标应用为支付宝。但是如果用户语音指令为:打开招聘应用,而用户下载安装了前程无忧、智联招聘等多个招聘应用,那么可以通过比较用户打开使用每个招聘应用的次数或者时间判断目标应用,譬如分析发现最近一周内用户打开智联招聘的次数最多,则将智联招聘作为目标应用。另外,终端还可以将多个待选的应用显示供用户进一步选择。
目标应用打开之后,终端屏幕上显示的界面为第一应用界面,获取该第一应用界面上可触摸的控件,同时获取每一个控件对应的语音描述,并且根据语音描述和控件建立第一应用界面对应的第一映射表。
获取用户针对第一应用界面上的内容所发出的第一语音指令,将第一语音指令和第一映射表中每个控件的语音描述进行比对,确定用户想要触发的第一目标控件,随后触发第一目标控件进入第二应用界面。
按照上述建立第一应用界面对应的第一映射表的方法建立第二应用界面对应的第二映射表,然后再获取用户针对第二应用界面上的内容所发出的第二语音指令,确定并触发第三目标控件进入第三应用界面。
按照上述的步骤不断地重复获取用户的语音指令进入下一个应用界面,同时生成对应的映射表,再获取用户的语音指令进入下一个应用界面,直至触发用户目标控件执行完目标操作。当不再获取到用户新的语音指令时,可以认为已经执行完目标操作。
本发明通过预设规则解决了用户语音指令描述模糊导致目标应用不明确的问题,并且是基于用户的历史使用记录进行选择,从而保证选择的目标应用更加符合用户的使用习惯。
本发明的第三实施例,是上述第一实施例的优化实施例,如图5所示,本实施例与上述第一实施例相比,主要改进在于,S100获取用户语音指令,根据用户语音指令打开目标应用还包括:
S110获取用户语音指令;
S140当用户语音指令与某一应用的应用名称相符时,将相符的应用作为目标应用,并打开目标应用;
S150当用户语音指令与某一应用中的某一控件相符时,触发相符的控件进入相应应用界面。
具体的,本实施例中,获取用户语音指令,根据用户语音指令打开目标应用。基于用户的需求,用户语音指令中所描述的并不一定是某一个应用的名称,还有可能是某一个应用的具体控件。例如,如果用户语音指令为:打开支付宝,该用户语音指令与支付宝应用的应用名称相符,则支付宝为目标应用。但是如果用户语音指令为:打开支付宝的扫一扫,此时支付宝同样为目标应用,但是该用户语音指令提及支付宝中的扫一扫控件,则此时直接出发支付宝的扫一扫控件进入相应的应用界面。
终端屏幕上显示的界面为第一应用界面,该第一应用界面可以是打开目标应用相应的界面,也可以是触发控件之后显示的界面。获取该第一应用界面上可触摸的控件,同时获取每一个控件对应的语音描述,并且根据语音描述和控件建立第一应用界面对应的第一映射表。
获取用户针对第一应用界面上的内容所发出的第一语音指令,将第一语音指令和第一映射表中每个控件的语音描述进行比对,确定用户想要触发的第一目标控件,随后触发第一目标控件进入第二应用界面。
按照上述建立第一应用界面对应的第一映射表的方法建立第二应用界面对应的第二映射表,然后再获取用户针对第二应用界面上的内容所发出的第二语音指令,确定并触发第三目标控件进入第三应用界面。
按照上述的步骤不断地重复获取用户的语音指令进入下一个应用界面,同时生成对应的映射表,再获取用户的语音指令进入下一个应用界面,直至触发用户目标控件执行完目标操作。当不再获取到用户新的语音指令时,可以认为已经执行完目标操作。
本发明针对用户语音指令描述的具体内容进行分析,分别选择打开对应的目标应用或者直接出发控件进入相应的应用界面,从而适当地提高终端处理的效率。
本发明的第四实施例,是上述第一实施例的优化实施例,如图6所示,本实施例与上述第一实施例相比,主要改进在于,S100获取用户语音指令,根据用户语音指令打开目标应用之后,S200获取目标应用的第一应用界面上可触摸的控件以及控件对应的语音描述之前包括:
S160当分屏打开多个目标应用时,多个分屏目标应用分别建立相应的分屏应用映射表,分屏目标应用为打开的目标应用;
S170获取第三语音指令;
S180若第三语音指令与任意一个分屏应用映射表中的语音描述相符,则将对应的的分屏目标应用作为用户目标应用;
S190若第三语音指令与至少两个分屏应用映射表中的语音描述相符,则选择用户历史使用次数多的分屏目标应用作为用户目标应用。
具体的,本实施例中,获取用户语音指令,根据用户语音指令打开目标应用,现在绝大部分终端都具有分屏查看的功能,因此可能同时打开运行着多个分屏目标应用,分别获取每一个分屏目标应用当前显示界面的控件,然后分别生成相应的映射表。
随后获取用户的第三语音指令,分析该第三语音指令,如果该第三语音指令与任意一个分屏应用映射表中的语音描述相符,且只与一个分屏应用映射表相符,则将对应的的分屏目标应用作为用户目标应用,例如,终端当前分屏查看微信和支付宝,用户的第三语音指令为:打开蚂蚁森林,该第三语音指令只与支付宝中的控件相符,则支付宝为用户目标应用。
如果第三语音指令与至少两个分屏应用映射表中的语音描述相符,则选择用户历史使用次数多的分屏目标应用作为用户目标应用。例如,终端当前分屏查看微信和支付宝,用户的第三语音指令为:打开转账,由于微信和支付宝都具有转账功能控件,因此需要根据用户的历史使用记录判断两个应用的使用频率,从而确定用户目标应用。
打开用户目标应用之后,终端屏幕上显示的界面为用户目标应用的第一应用界面,获取该第一应用界面上可触摸的控件,同时获取每一个控件对应的语音描述,并且根据语音描述和控件建立第一应用界面对应的第一映射表。
获取用户针对第一应用界面上的内容所发出的第一语音指令,将第一语音指令和第一映射表中每个控件的语音描述进行比对,确定用户想要触发的第一目标控件,随后触发第一目标控件进入第二应用界面。
按照上述建立第一应用界面对应的第一映射表的方法建立第二应用界面对应的第二映射表,然后再获取用户针对第二应用界面上的内容所发出的第二语音指令,确定并触发第三目标控件进入第三应用界面。
按照上述的步骤不断地重复获取用户的语音指令进入下一个应用界面,同时生成对应的映射表,再获取用户的语音指令进入下一个应用界面,直至触发用户目标控件执行完目标操作。当不再获取到用户新的语音指令时,可以认为已经执行完目标操作。
本发明对于分屏查看多个分屏目标应用,且至少两个分屏目标应用具有相同的功能控件的情形,基于用户的历史使用记录确定用户目标应用,从而保证选择的目标应用更加符合用户的使用习惯。
本发明的第五实施例,是上述第一实施例的优化实施例,如图7所示,本实施例与上述第一实施例相比,主要改进在于,S500根据第一映射表和第一语音指令触发第一目标控件进入第二应用界面具体包括:
S510当第一语音指令与第一映射表中多个待选择的控件对应的语音描述相同时,显示多个待选择的控件;
S520获取用户选择指令;
S530根据用户选择指令从多个待选择的控件中选择第一目标控件;
S540触发第一目标控件进入第二应用界面。
具体的,本实施例中,获取用户语音指令,根据用户语音指令打开目标应用,终端屏幕上显示的界面为第一应用界面,获取该第一应用界面上可触摸的控件,同时获取每一个控件对应的语音描述,并且根据语音描述和控件建立第一应用界面对应的第一映射表。
获取用户针对第一应用界面上的内容所发出的第一语音指令,分析该第一语音指令。如果该第一语音指令与第一映射表中多个待选择的控件对应的语音描述相同时,则显示上述匹配相同的多个待选择的控件。然后获取用户选择指令,从上述多个待选择的控件中选择第一目标控件,随后触发第一目标控件进入第二应用界面。
例如,第一应用界面为微信的对话框界面,用户的第一语音指令为:和张三语音通话,但是第一应用界面对应的第一映射表中有两个语音描述为张三的控件,即微信中有两个同名的朋友张三,此时则显示两个张三的对话框界面,并默认框选其中任意一个。然后获取用户选择指令进行选择。
按照上述建立第一应用界面对应的第一映射表的方法建立第二应用界面对应的第二映射表,然后再获取用户针对第二应用界面上的内容所发出的第二语音指令,确定并触发第三目标控件进入第三应用界面。
按照上述的步骤不断地重复获取用户的语音指令进入下一个应用界面,同时生成对应的映射表,再获取用户的语音指令进入下一个应用界面,直至触发用户目标控件执行完目标操作。当不再获取到用户新的语音指令时,可以认为已经执行完目标操作。其中,针对任意一个应用界面的的控件存在同样语音描述的问题,和上述第一应用界面的处理方式相同。
本发明中对于同一个应用界面上存在多个同样语音描述的情形,通过获取用户选择指令确定相应的目标控件,然后再进行触发,从而做到精准的语音控制。
本发明的第六实施例,如图8所示,一种全程语音控制的交互系统100,包括:
指令获取模块110,获取用户语音指令;
处理模块120,根据指令获取模块110获取的用户语音指令打开目标应用;
控件获取模块130,获取处理模块120打开的目标应用的第一应用界面上可触摸的控件以及控件对应的语音描述;
映射表建立模块140,根据控件获取模块130获取的语音描述和控件建立第一映射表;
指令获取模块110,获取第一语音指令;
分析模块150,根据映射表建立模块140建立的第一映射表和指令获取模块110获取的第一语音指令触发第一目标控件进入第二应用界面;
映射表建立模块140,建立分析模块150得到的第二应用界面对应的第二映射表;
指令获取模块110,获取第二语音指令;
分析模块150,根据映射表建立模块140建立的第二映射表和指令获取模块110获取的第二语音指令触发第二目标控件进入第三应用界面;
指令获取模块110再次获取语音指令以及映射表建立模块140建立相应的映射表,直至分析模块150触发用户目标控件执行完目标操作。
本实施例中的各个模块的具体操作方式在上述对应的方法实施例中已经进行了详细描述,因此不再一一进行赘述。
本发明的第七实施例,是上述第六实施例的优化实施例,如图9所示,本实施例与上述第六实施例相比,主要改进在于:
指令获取模块110具体包括:
指令获取单元111,获取用户语音指令;
控制单元112,当与指令获取单元111获取的用户语音指令匹配的应用只有一个时,将匹配的应用作为目标应用,并打开目标应用;
控制单元112,当与指令获取单元111获取的用户语音指令匹配的应用有多个时,将用户历史使用次数最多的匹配的应用作为目标应用,并打开目标应用。
指令获取模块110还包括:
指令获取单元111,获取用户语音指令;
控制单元112,当指令获取单元111获取的用户语音指令与某一应用的应用名称相符时,将相符的应用作为目标应用,并打开目标应用;
控制单元112,当指令获取单元111获取的用户语音指令与某一应用中的某一控件相符时,触发相符的控件进入相应应用界面。
还包括:
分屏处理模块160,当分屏打开多个目标应用时,多个分屏目标应用分别建立相应的分屏应用映射表,分屏目标应用为打开的目标应用;
指令获取模块110,获取第三语音指令;
目标应用确定模块170,若指令获取模块110获取的第三语音指令与任意一个分屏应用映射表中的语音描述相符,则将对应的的分屏目标应用作为用户目标应用;
目标应用确定模块170,若指令获取模块110获取的第三语音指令与至少两个分屏应用映射表中的语音描述相符,则选择用户历史使用次数多的分屏目标应用作为用户目标应用。
分析模块150具体包括:
显示单元151,当指令获取模块1100获取的第一语音指令与映射表建立模块140建立的第一映射表中多个待选择的控件对应的语音描述相同时,显示多个待选择的控件;
指令获取单元152,获取用户选择指令;
控件选择单元153,根据指令获取单元152获取的用户选择指令从显示单元151显示的多个待选择的控件中选择第一目标控件;
分析单元154,触发控件选择单元153选择的第一目标控件进入第二应用界面。
本实施例中的各个模块的具体操作方式在上述对应的方法实施例中已经进行了详细描述,因此不再一一进行赘述。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种全程语音控制的交互方法,其特征在于,包括:
获取用户语音指令,根据所述用户语音指令打开目标应用;
当分屏打开多个目标应用时,多个分屏目标应用分别建立相应的分屏应用映射表,所述分屏目标应用为打开的目标应用;
获取第三语音指令;
若所述第三语音指令与任意一个分屏应用映射表中的语音描述相符,则将对应的的分屏目标应用作为用户目标应用;
若所述第三语音指令与至少两个分屏应用映射表中的语音描述相符,则选择用户历史使用次数多的分屏目标应用作为用户目标应用;
获取所述目标应用的第一应用界面上可触摸的控件以及所述控件对应的语音描述;
根据所述语音描述和所述控件建立第一映射表;
获取第一语音指令;
根据所述第一映射表和所述第一语音指令触发第一目标控件进入第二应用界面;
建立所述第二应用界面对应的第二映射表;
获取第二语音指令;
根据所述第二映射表和所述第二语音指令触发第二目标控件进入第三应用界面;
再次获取语音指令以及建立相应的映射表,直至触发用户目标控件执行完目标操作。
2.根据权利要求1所述的全程语音控制的交互方法,其特征在于,获取用户语音指令,根据所述用户语音指令打开目标应用具体包括:
获取所述用户语音指令;
当与所述用户语音指令匹配的应用只有一个时,将匹配的应用作为所述目标应用,并打开所述目标应用;
当与所述用户语音指令匹配的应用有多个时,将用户历史使用次数最多的匹配的应用作为所述目标应用,并打开所述目标应用。
3.根据权利要求1所述的全程语音控制的交互方法,其特征在于,获取用户语音指令,根据所述用户语音指令打开目标应用还包括:
获取所述用户语音指令;
当所述用户语音指令与某一应用的应用名称相符时,将相符的应用作为所述目标应用,并打开所述目标应用;
当所述用户语音指令与某一应用中的某一控件相符时,触发相符的控件进入相应应用界面。
4.根据权利要求1所述的全程语音控制的交互方法,其特征在于,根据所述第一映射表和所述第一语音指令触发第一目标控件进入第二应用界面具体包括:
当所述第一语音指令与所述第一映射表中多个待选择的控件对应的语音描述相同时,显示所述多个待选择的控件;
获取用户选择指令;
根据所述用户选择指令从所述多个待选择的控件中选择所述第一目标控件;
触发所述第一目标控件进入所述第二应用界面。
5.一种全程语音控制的交互系统,其特征在于,包括:
指令获取模块,获取用户语音指令;
分屏处理模块,当分屏打开多个目标应用时,多个分屏目标应用分别建立相应的分屏应用映射表,所述分屏目标应用为打开的目标应用;
所述指令获取模块,获取第三语音指令;
目标应用确定模块,若所述指令获取模块获取的所述第三语音指令与任意一个分屏应用映射表中的语音描述相符,则将对应的的分屏目标应用作为用户目标应用;
所述目标应用确定模块,若所述指令获取模块获取的所述第三语音指令与至少两个分屏应用映射表中的语音描述相符,则选择用户历史使用次数多的分屏目标应用作为用户目标应用;
处理模块,根据所述指令获取模块获取的所述用户语音指令打开目标应用;
控件获取模块,获取所述处理模块打开的所述目标应用的第一应用界面上可触摸的控件以及所述控件对应的语音描述;
映射表建立模块,根据所述控件获取模块获取的所述语音描述和所述控件建立第一映射表;
所述指令获取模块,获取第一语音指令;
分析模块,根据所述映射表建立模块建立的所述第一映射表和所述指令获取模块获取的所述第一语音指令触发第一目标控件进入第二应用界面;
所述映射表建立模块,建立所述分析模块得到的所述第二应用界面对应的第二映射表;
所述指令获取模块,获取第二语音指令;
所述分析模块,根据所述映射表建立模块建立的所述第二映射表和所述指令获取模块获取的所述第二语音指令触发第二目标控件进入第三应用界面;
所述指令获取模块再次获取语音指令以及所述映射表建立模块建立相应的映射表,直至所述分析模块触发用户目标控件执行完目标操作。
6.根据权利要求5所述的全程语音控制的交互系统,其特征在于,所述指令获取模块具体包括:
指令获取单元,获取所述用户语音指令;
控制单元,当与所述指令获取单元获取的所述用户语音指令匹配的应用只有一个时,将匹配的应用作为所述目标应用,并打开所述目标应用;
所述控制单元,当与所述指令获取单元获取的所述用户语音指令匹配的应用有多个时,将用户历史使用次数最多的匹配的应用作为所述目标应用,并打开所述目标应用。
7.根据权利要求5所述的全程语音控制的交互系统,其特征在于,所述指令获取模块还包括:
指令获取单元,获取所述用户语音指令;
控制单元,当所述指令获取单元获取的所述用户语音指令与某一应用的应用名称相符时,将相符的应用作为所述目标应用,并打开所述目标应用;
所述控制单元,当所述指令获取单元获取的所述用户语音指令与某一应用中的某一控件相符时,触发相符的控件进入相应应用界面。
8.根据权利要求5所述的全程语音控制的交互系统,其特征在于,所述分析模块具体包括:
显示单元,当所述指令获取模块获取的所述第一语音指令与所述映射表建立模块建立的所述第一映射表中多个待选择的控件对应的语音描述相同时,显示所述多个待选择的控件;
指令获取单元,获取用户选择指令;
控件选择单元,根据所述指令获取单元获取的所述用户选择指令从所述显示单元显示的所述多个待选择的控件中选择所述第一目标控件;
分析单元,触发所述控件选择单元选择的所述第一目标控件进入所述第二应用界面。
CN201910328614.5A 2019-04-23 2019-04-23 一种全程语音控制的交互方法和系统 Active CN110060679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910328614.5A CN110060679B (zh) 2019-04-23 2019-04-23 一种全程语音控制的交互方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910328614.5A CN110060679B (zh) 2019-04-23 2019-04-23 一种全程语音控制的交互方法和系统

Publications (2)

Publication Number Publication Date
CN110060679A CN110060679A (zh) 2019-07-26
CN110060679B true CN110060679B (zh) 2022-02-11

Family

ID=67320311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910328614.5A Active CN110060679B (zh) 2019-04-23 2019-04-23 一种全程语音控制的交互方法和系统

Country Status (1)

Country Link
CN (1) CN110060679B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704004B (zh) * 2019-08-26 2021-06-01 华为技术有限公司 一种语音控制的分屏显示方法及电子设备
CN111145747A (zh) * 2019-12-30 2020-05-12 智车优行科技(北京)有限公司 一种语音控制实现方法及装置
CN113129887A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 一种语音控制方法及装置
CN113465282A (zh) * 2020-03-30 2021-10-01 青岛海尔电冰箱有限公司 屏幕设备控制方法、冰箱、计算机可读存储介质
CN111724785B (zh) * 2020-06-29 2023-07-04 百度在线网络技术(北京)有限公司 小程序的语音控制方法、设备及存储介质
EP4170650A1 (en) 2020-06-29 2023-04-26 Baidu Online Network Technology (Beijing) Co., Ltd. Speech control method for mini-program, and devices and storage medium
CN111986670A (zh) * 2020-08-25 2020-11-24 Oppo广东移动通信有限公司 语音控制方法、装置、电子设备和计算机可读存储介质
CN112445475A (zh) * 2020-11-06 2021-03-05 杭州讯酷科技有限公司 一种基于数据表推荐的系统快速构建方法
CN115048161A (zh) * 2021-02-26 2022-09-13 华为技术有限公司 应用的控制方法及其电子设备、装置和介质
CN113573132B (zh) * 2021-07-23 2023-08-11 深圳康佳电子科技有限公司 一种基于语音实现的多应用拼屏方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1457969A1 (en) * 2003-03-11 2004-09-15 Square D Company Human machine interface with speech recognition
CN1602461A (zh) * 2001-12-13 2005-03-30 皇家飞利浦电子股份有限公司 带语音控制系统的ui
CN109584879A (zh) * 2018-11-23 2019-04-05 华为技术有限公司 一种语音控制方法及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783705A (zh) * 2017-10-20 2018-03-09 珠海市魅族科技有限公司 展示应用程序的方法、装置、计算机装置及存储介质
CN109639907A (zh) * 2019-01-28 2019-04-16 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1602461A (zh) * 2001-12-13 2005-03-30 皇家飞利浦电子股份有限公司 带语音控制系统的ui
EP1457969A1 (en) * 2003-03-11 2004-09-15 Square D Company Human machine interface with speech recognition
CN109584879A (zh) * 2018-11-23 2019-04-05 华为技术有限公司 一种语音控制方法及电子设备

Also Published As

Publication number Publication date
CN110060679A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN110060679B (zh) 一种全程语音控制的交互方法和系统
US9244610B2 (en) Systems and methods for using entered text to access and process contextual information
CN108470566B (zh) 一种应用操作方法以及装置
US10235130B2 (en) Intent driven command processing
AU2015210460B2 (en) Speech recognition repair using contextual information
JP2021182440A (ja) デジタルアシスタントとのアプリケーション統合
US8995625B2 (en) Unified interface and routing module for handling audio input
US9002699B2 (en) Adaptive input language switching
KR101295711B1 (ko) 음성 인식으로 애플리케이션의 실행 가능한 이동통신 단말 장치 및 방법
US10165097B2 (en) Call processing method and device
US9218052B2 (en) Framework for voice controlling applications
US20040122674A1 (en) Context-sensitive interface widgets for multi-modal dialog systems
US20150169551A1 (en) Apparatus and method for automatic translation
US10528320B2 (en) System and method for speech-based navigation and interaction with a device's visible screen elements using a corresponding view hierarchy
US9167075B2 (en) Service access method and apparatus
CN113826089A (zh) 对聊天机器人中的自然理解系统的具有到期指标的上下文反馈
KR20200106703A (ko) 사용자 선택 기반의 정보를 제공하는 방법 및 장치
CN104808899A (zh) 一种终端
CN109901810A (zh) 一种用于智能终端设备的人机交互方法及装置
CN113032075A (zh) 一种信息处理方法及电子装置
US20150066514A1 (en) Information processing method and electronic device
CN105988992B (zh) 图标推送方法及装置
CN113421565A (zh) 搜索方法、装置、电子设备以及存储介质
CN114090738A (zh) 场景数据信息确定的方法、装置、设备及存储介质
CN113906411A (zh) 对聊天机器人中自然理解系统的上下文反馈

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221109

Address after: 215000 Floor 12, Building N4, 2:5 Industrial Park, No. 88 Dongchang Road, Suzhou Industrial Park, Jiangsu Province

Patentee after: Zhida Chengyuan Technology Co.,Ltd.

Address before: 210012 building A2, Nanhai Biotechnology Park, No. 180, software Avenue, Yuhuatai District, Nanjing, Jiangsu Province

Patentee before: ARCHERMIND TECHNOLOGY (NANJING) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231027

Address after: Room 310, Building 4, No. 19 Ningshuang Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Patentee after: Nanjing Zhida Chengyuan Technology Co.,Ltd.

Address before: 215000 Floor 12, Building N4, 2:5 Industrial Park, No. 88 Dongchang Road, Suzhou Industrial Park, Jiangsu Province

Patentee before: Zhida Chengyuan Technology Co.,Ltd.

TR01 Transfer of patent right