CN107967055A - 一种人机交互方法、终端及计算机可读介质 - Google Patents

一种人机交互方法、终端及计算机可读介质 Download PDF

Info

Publication number
CN107967055A
CN107967055A CN201711141096.3A CN201711141096A CN107967055A CN 107967055 A CN107967055 A CN 107967055A CN 201711141096 A CN201711141096 A CN 201711141096A CN 107967055 A CN107967055 A CN 107967055A
Authority
CN
China
Prior art keywords
terminal
user interface
user
cgui
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711141096.3A
Other languages
English (en)
Inventor
朱益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jinli Communication Equipment Co Ltd
Original Assignee
Shenzhen Jinli Communication Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jinli Communication Equipment Co Ltd filed Critical Shenzhen Jinli Communication Equipment Co Ltd
Priority to CN201711141096.3A priority Critical patent/CN107967055A/zh
Publication of CN107967055A publication Critical patent/CN107967055A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例公开了一种人机交互方法、终端及计算机可读介质,其中方法包括:终端显示语音图形用户界面以及图形用户界面;所述终端接收用户发出的语音指令,并将所述语音指令转化为所述图形用户界面能够响应的第一操作指令;所述终端在所述图形用户界面显示所述第一操作指令的执行过程。本发明实施例通过提出一种语音图形用户界面,使终端在语音图形用户界面接收语音指令后,识别所述语音指令并将所述语音指令转化为所述图形用户界面能够响应的操作指令,在所述图形用户界面显示所述操作指令对应的操作过程。

Description

一种人机交互方法、终端及计算机可读介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种人机交互方法、终端及计算机可读介质。
背景技术
当前各种终端的功能越来越丰富,能够为用户的生活、工作、娱乐、社交等方方面面提供服务,满足了用户的个性化需求。
为满足用户在不同场景下使用终端的便捷性,终端与用户的交互方式也是多种多样,例如,用户可以在图形用户界面(Graphical User Interface,GUI)通过触摸或者按键的方式进行人机交互,也可以在语音用户界面(Conversational User Interface,CUI)通过语音进行人机交互。但是,语音用户界面只能输出语音指令的执行结果,无法显示执行语音指令的操作过程。
发明内容
本发明实施例提供一种人机交互方法,可解决终端在执行语音指令时只输出执行结果不显示语音指令执行过程的问题。
第一方面,本发明实施例提供了一种人机交互方法,该方法包括:
终端显示语音图形用户界面以及图形用户界面;
所述终端在所述语音图形用户界面接收用户发出的语音指令,并将所述语音指令转化为所述图形用户界面能够响应的第一操作指令;
所述终端在所述图形用户界面显示所述第一操作指令的执行过程。
第二方面,本发明实施例提供了一种终端,该终端包括用于执行上述第一方面的方法的单元。
第三方面,本发明实施例提供了另一种终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本发明实施例通过提出一种语音图形用户界面,可以在用户输入语音指令后,识别所述语音指令并将所述语音指令转化为所述图形用户界面能够识别的操作指令,在所述图形用户界面执行并显示所述操作指令对应的操作过程,可解决终端在执行语音指令时只输出执行结果不显示语音指令执行过程的问题。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种人机交互方法的示意流程图;
图2是本发明另一实施例提供的一种人机交互方法的示意流程图;
图3A是本发明实施例提供的一种人机交互方法的界面显示图;
图3B是本发明实施例提供的一种人机交互方法的另一界面显示图;
图3C是本发明实施例提供的一种人机交互方法的另一界面显示图;
图4是本发明实施例提供的一种终端的示意性框图;
图5是本发明另一实施例提供的一种终端示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
具体实现中,本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,所述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是,终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。
终端支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
终端支持各种人机交互方式,获取信息和指令的方式可以是接触式的,也可以是非接触式的。其中,接触式的可以是用户通过实体按键向终端输入信息和指令,也可以是通过虚拟按键和/或触摸按键输入信息和指令,还可以是通过触摸终端屏幕进行单点或多点控制输入信息和指令。非接触式的可以是终端通过识别用户手势或语音获取信息和指令,也可以是终端通过对用户眼睛或头部的运动过程进行跟踪定位来获取信息和指令,本发明实施例不作具体限定。
本发明实施例中,语音用户界面(Conversational User Interface,简称CUI)是用户使用语音与终端进行交互时的界面。语音用户界面利用语音识别、语音合成和语音理解等技术,使用户可以通过语音与终端进行对话以及通过语音传达指令控制终端完成相关操作等,例如,用户在CUI说一句“请拨打A的电话”,终端接收并识别该语音指令,然后读出和显示语音识别结果,并调用拨号软件完成拨号。
本发明实施例中,图形用户界面(Graphical User Interface,简称GUI)是采用图形方式显示终端操作的用户界面,在GUI上用户与终端通过触摸或者按键映射等方式进行人机交互。例如,用户点击终端屏幕上的应用程序图标打开应用程序时的界面,即为图形用户界面。
本发明的实施例中,语音图形用户界面(Conversational Graphical UserInterface,简称CGUI)融合了语音用户界面和图形用户界面的特点,在语音图形用户界面,用户即可以通过语音指令实现人机交互,又能将所述语音指令转换为GUI所能识别的操作指令,在GUI上显示所述语音指令所对应操作的执行过程,便于用户在使用语音功能的同时能够学习如何通过GUI与终端进行交互操作。
请参见图1,图1是本发明实施例提供的一种人机交互方法的示意流程图,如图所示方法可包括:
101、终端显示语音图形用户界面以及图形用户界面。
可以理解的是,所述CGUI界面与所述终端启动所述CGUI之前显示的GUI共同显示在所述终端的屏幕上,所述CGUI并不完全覆盖所述GUI,例如,所述终端的屏幕当前显示的是短信息界面,所述用户可以在所述短信息界面启动所述CGUI,所述CGUI显示在所述短信息界面上部,所述用户可以同时看到所述CGUI和所述短信息界面。应理解,上述例子仅用作举例,不能理解为具体限定。
可选地,所述CGUI可以显示在所述终端的桌面界面或屏保界面上,也可以显示在所述终端当前运行的应用程序的界面上,本发明不作具体限定。
可选地,所述终端可以通过多种方式启动所述语音图形用户界面,例如,若所述终端为手机,用户可以按照设定的操作长按所述手机或其连接的设备(如耳机)上的实体按键启动所述CGUI,也可以通过低功耗语音芯片接收用户的语音信号启动所述CGUI,还可以通过设定的方式点击所述手机的屏幕启动所述CGUI,本发明不作具体限定。
可选地,所述终端可以在工作状态或者休眠状态下接收启动所述CGUI的指令,启动并显示所述CGUI,例如,若所述终端为手机,当手机为息屏状态时,用户可以通过双击所述手机的屏幕启动所述CGUI,在所述手机的屏保界面显示所述CGUI。应理解,上述例子仅用作举例,不能理解为具体限定。
可选地,所述CGUI的尺寸大小可以调节,所述CGUI可以根据用户的选择设置为固定大小,也可以根据所显示的内容动态调节所述CGUI的大小。本发明实施例不作具体限定。
可选地,所述CGUI可以根据所述终端当前GUI的颜色和屏幕的亮度动态的调节所述CGUI的透明度。
102、所述终端在所述语音图形用户界面接收用户发出的语音指令,并将所述语音指令转化为所述图形用户界面能够响应的第一操作指令。
可以理解的是,所述终端接收用户发出的语音指令之后,所述终端识别所述语音指令,并将所述语音指令转换为文本信息显示在所述CGUI上。例如,用户说出一句“我想听Y的歌”,则所述CGUI识别出用户所说的每一个字,并将识别出的每一个字以文字的方式显示在所述CGUI界面上。
可以理解的是,当所述终端在所述CGUI接收并识别完所述语音指令后,所述CGUI通过虚拟助手系统分析该语音指令的目的,例如,若所述语音指令为“我想听Y的歌”,其中,“我”被定义为所述终端的用户,“想听”被定义为想听电话、听音乐、听收音机等,“Y”为著名歌手,“歌”即歌曲,因此,“我想听Y的歌”就被系统理解为所述用户想听Y的歌曲,所述终端根据所述虚拟助手系统分析出的所述用户的目的,将所述语音指令转化为GUI能够响应的第一操作指令,并将所述第一操作指令发送给所述GUI。应理解,上述例子仅用作举例,不能理解为具体限定。
可选地,所述CGUI可以根据所识别出的语音文本中文字的数量调节所述CGUI的尺寸。
103、所述终端在所述图形用户界面显示所述第一操作指令的执行过程。
所述终端根据所述第一操作指令,执行所述第一操作指令对应的第一操作,并显示与所述第一操作指令对应的第一操作的操作过程,例如,上述“我想听Y的歌”被系统理解为所述用户想听Y的歌曲,则对应的操作应为:所述终端设备在所述GUI上模拟用户滑动屏幕,找到包含应用程序“音乐”的界面,模拟用户点击该应用程序的图标,在打开的“音乐”应用程序的搜索框中,模拟用户输入“Y”的姓名,点击搜索按钮,则出现Y演唱的歌曲列表,所述用户可以手动点击选择想要听的歌曲,也可以用语音或手势进行控制,播放想要听的歌曲。应理解,上述例子仅用于举例,不能理解为具体限定。
可以理解的是,上述操作过程中,所述终端模拟操作的每一个动作以及所述终端界面的变化都会在所述GUI上显示,所述用户可以直观的观看到所述第一操作指令的执行过程,便于用户学习之后自己进行相关操作。
可见,实施图1所示的方法,终端可以在语音图形用户界面接收语音指令后,识别所述语音指令并将所述语音指令转化为图形用户界面能够响应的操作指令,在所述图形用户界面执行所述操作指令,并显示所述操作指令对应的操作过程,可解决终端在执行语音指令时只输出执行结果不显示语音指令执行过程的问题。
请参阅图2,图2是本发明另一实施例提供的一种人机交互方法的流程示意图。如图2所示,该人机交互方法包括以下步骤:
201、终端接收语音图形用户界面的启动指令。
可选地,所述终端设备接收到的所述启动指令可有多种形式,若所述终端为手机,用户可以按照设定的方式点击所述手机的屏幕启动所述CGUI,也可以通过低功耗语音芯片接收用户的语音信号启动所述CGUI,还可以通过设定的方式点击所述手机上的实体按键启动所述CGUI,当然,所述手机也可以通过连接的耳机等设备启动所述CGUI,例如长按耳机上的“播放/暂停”按钮,还可以是所述手机根据内部陀螺仪检测到预设的动作而启动所述CGUI,本发明不作具体限定。
可选地,所述终端可以在工作或者休眠状态下接收所述启动指令,启动并显示所述CGUI,例如,若所述终端为手机,当手机为息屏状态时,用户可以通过双击所述手机的屏幕启动所述CGUI,在所述手机的屏保界面显示所述CGUI,或者,当用户在看小说时想听歌,用户也可以双击所述手机的屏幕启动所述CGUI,本发明不作具体限定。
202、所述终端在屏幕上显示所述语音图形用户界面以及图形用户界面。
可以理解的是,所述CGUI界面可以与所述终端启动所述CGUI之前显示的GUI共同显示在所述终端的屏幕上,所述CGUI并不完全覆盖所述GUI,也不会影响所述用户在所述GUI上的操作,所述用户可以在所述GUI上点击某个应用程序的图标进入该应用程序并可以继续进行其他操作。
可选地,所述CGUI的界面尺寸可以调节,所述CGUI的界面可以根据用户的选择设置为固定大小,也可以根据所显示的内容动态调节其大小。例如,若所述终端为手机,所述CGUI的高度可以设置为手机屏幕高度的1/n~1/m,其中,m,n为大于零的数,默认,n为10,m为3,即手机屏幕高度的十二分之一为CGUI的最小尺寸,基本满足所述用户与所述手机之间简短的对话,比如识别出的文字只有一行,而手机屏幕高度的三分之一为CGUI的最大尺寸,通常满足所述用户与所述手机之间的多轮对话,若所述对话超过该最大尺寸所能显示的范围,所述用户可以通过上滑或者下滑操作查看全部对话内容。可以理解的是,所述用户也可以自己设置所述m和/或n的值,应理解,上述例子仅作为一种举例,不能理解为具体限定。
可选地,所述CGUI可以根据所述终端当前GUI的颜色和屏幕的亮度动态的调节所述CGUI的透明度,所述用户可以拖动所述CGUI改变其在屏幕上的位置,以便于用户查看所述GUI上的内容以及进行其他操作。
可以理解的是,所述CGUI可以显示在所述终端的桌面界面或屏保界面上,也可以显示在所述终端当前运行的应用程序的界面上,其中,所述桌面是指启动终端并登录到系统之后看到的主屏幕区域,是用户工作的平台,所述屏保为保护显示器、提供锁屏功能以保护用户隐私的界面。本发明不作具体限定。
如图3A所示,图3A为在手机桌面上启动所述CGUI的示意图,图3A左侧为启动所述CGUI之前的GUI,右侧为启动所述CGUI后的手机界面,所述CGUI显示在手机屏幕的顶部,所述CGUI底部中间为接收语音指令按钮,当用户点击所述接收语音指令按钮后,所述CGUI才能接收所述用户的语音指令,由图3A右侧的图可看出,所述用户可以拖动所述CGUI以改变其在手机屏幕上的位置,以便于对所述CGUI被拖动之前遮挡的部分进行操作。所述CGUI具有一定的透明度,以便于用户查看GUI上的内容。应理解,上述例子仅作为一种举例,不能理解为具体限定。
203、所述终端在所述语音图形用户界面接收用户发出的语音指令,将所述语音指令识别为语音文本并将所述语音文本显示在所述语音图形用户界面上。
可以理解的是,为防止所述CGUI将环境噪音或者其他人的声音误认为是所述用户的声音而进行识别进而进行相应操作,所述CGUI在其底部设置有接收语音指令按钮,当用户点击所述按钮后,所述CGUI才开始接收所述用户发出的语音指令,若所述CGUI在预设的时间内没有接收到语音信号或者所述用户的声音太小导致所述CGUI无法识别,则所述CGUI发出第一提示消息,所述第一提示消息用于提示所述用户重新输入所述语音指令,所述第一提示消息可以是语音提示消息,也可以是显示在所述CGUI界面上的文字提示消息,例如,所述CGUI上显示一条“请重新输入语音指令”的字样,提示所述用户输入语音指令。
可选地,所述CGUI接收到清晰的语音指令之后,识别所述语音指令,并将所述语音指令转换为文本信息显示在所述CGUI上。例如,用户说出一句“拨打电话给王总”,则所述CGUI识别出用户所说的这句话中的每一个字,并将识别出的这句话以文字的方式显示在所述CGUI界面上。
可选地,所述CGUI可以根据所识别出的语音文本中文字的数量调节所述CGUI的尺寸。
204、判断所述语音指令识别结果是否准确。
可以理解的是,由于语音识别系统的正确率有限,同音字词以及用户发音不标准等因素的影响,所述CGUI识别并显示的文字信息可能并不是所述用户想要表达的意思。例如,所述用户所说的语音是“拨打电话给小林”,而所述CGUI可能将“小林”识别为“晓琳”,所述CGUI将所述语音指令识别结果输出到所述CGUI上,显示为“拨打电话给晓琳”,在进行后续操作时,可能在所述终端上并不存在联系人“晓琳”,所述CGUI会输出“没有找到联系人晓琳,请重新输入语音指令”的第二提示消息,或者,所述终端上既存在联系人“晓琳”,也存在联系人“小林”,根据所述CGUI的识别结果,所述终端会出现拨打电话给联系人“晓琳”的错误,因此,在所述CGUI将所述语音指令识别为语音文本并将所述语音文本显示在所述语音图形用户界面上之后,需要所述用户对所述语音文本进行确认,若所述语音文本与所述用户表达意思相同,则所述用户触发确认指令,所述确认指令用于确认所述语音指令识别正确,指示所述CGUI开始执行所述语音指令,若所述语音文本与所述用户表达意思不同,则执行步骤205。应理解,上述例子仅作为一种举例,不能理解为具体限定。
205、所述终端接收所述用户的修改指令,所述修改指令用于修改所述语音指令的识别结果。
可以理解的是,所述CGUI将所述用户的语音指令识别结果显示出来后,若所述识别结果不是所述用户想要表达的意愿,则用户可以对所述语音指令的识别结果进行修改。例如,若所述CGUI将所述用户输入的语音指令“拨打电话给小林”识别为“拨打电话给小玲”,所述CGUI接收所述用户的修改指令,所述修改指令可以是所述用户重新输入上述语音指令,也可以是用户提醒所述CGUI其所说的“林”是“树林”的“林”,所述CGUI对该修改指令进行识别后,修改之前语音指令的识别结果,重新输出识别结果到所述CGUI,直到所述用户触发所述确认指令。应理解,上述例子仅用作举例,不能理解为具体限定。
206、所述终端将所述语音指令转化为所述图形用户界面能够响应的第一操作指令。
可以理解的是,当所述用户确认所述语音指令识别正确后,所述CGUI通过虚拟助手系统分析所述语音指令的目的,例如,“我想听Y的歌”,其中,“我”被定义为所述终端的用户,“想听”被系统定义为想听电话、听音乐、听收音机等,“Y”为著名歌手,“歌”即歌曲,因此,“我想听Y的歌”就被系统理解为所述用户想听Y的歌曲,所述CGUI根据所述虚拟助手系统分析出的所述用户的目的,将所述语音指令转化为GUI能够响应的第一操作指令。应理解,上述例子仅用作举例,不能理解为具体限定。
207、所述终端在所述图形用户界面显示所述第一操作指令的执行过程。
所述终端根据所述第一操作指令,执行所述第一操作指令所对应的第一操作,并显示与所述第一操作指令对应的第一操作的操作过程,例如,上述“我想听Y的歌”被系统理解为所述用户想听Y的歌曲,则对应的操作应为:所述终端在所述GUI上模拟用户滑动屏幕,找到包含应用程序“音乐”的界面,所述终端模拟用户点击该应用程序的图标,在打开的所述“音乐”应用程序的搜索框中,模拟用户输入“Y”的姓名,点击搜索按钮,则出现Y所演唱歌曲的歌曲列表,然后播放所述歌曲列表上的歌曲或由用户选择播放的歌曲。应理解,上述例子仅用于举例,不能理解为具体限定。
举例来讲,如图3B所示,用户输入“我想听Y的歌”的语音指令,所述CGUI接收到所述语音指令后,将识别的语音文本显示在所述CGUI上,与图3A相比,所述CGUI由于显示了所述语音文本从而尺寸变大,所述终端将在所述CGUI接收的所述语音指令转换为所述GUI能够响应的第一操作指令并发送给所述GUI,所述终端首先模拟用户寻找到所述手机上的音乐软件H,然后模拟用户点击所述音乐软件H的图标,打开应用程序H后,模拟用户在所述音乐软件H的搜索框中输入Y的姓名,点击搜索按钮,则显示出Y所演唱的歌曲列表,用户可以上下滑动所述歌曲列表选择想听的歌曲,最后点击想听的歌曲名称便可进行播放。应理解,上述例子仅用作举例,不能理解为具体限定。
可选地,所述CGUI也可通过语音和/或文字的方式与所述用户进行交互,例如,如图3C所示,所述CGUI接收到所述用户的语音指令“给我买一张去XX的机票”,所述终端识别出所述语音指令后,将其显示在所述CGUI上,如图3C左侧图所示,但是,所述语音指令缺乏机票的必要因素“日期”,所述CGUI无法完成该指令,因此会在所述CGUI与用户交流,语音播报提示信息“请问要买哪一天的”并将所述文字显示在所述CGUI上,如图3C右侧图所示,待所述用户回答后,所述终端再将理解后的完整的语音指令“为所述终端的用户买一张10月1号去XX的经济舱机票”转换为第一操作指令,并在所述GUI上显示所述第一操作指令对应的第一操作的操作过程。由图3C也可看出,所述CGUI可以根据所述语音指令的文字数量自动调整界面的尺寸。
可以理解的是,上述操作过程中,所述模拟操作的每一个动作以及所述终端界面的变化都会在所述GUI上显示,所述用户可以直观的观看到所述第一操作指令的执行过程,便于用户学习之后自己进行相关操作。
208、所述终端接收所述用户在所述图形用户界面发出的第二操作指令,并在所述图形用户界面执行所述第二操作指令。
可以理解的是,用户输入的语音指令可能并不能完全达到所述用户的目的,在所述终端执行完所述第一操作指令对应的所述第一操作之后,可能需要用户在所述CUI界面向所述终端发送所述第二操作指令,所述第二操作指令用于指示执行第二操作,以便达到所述用户的最终目的。例如,上述步骤207中的语音指令“我想听Y的歌”,所述用户可能只是想听其中的第一歌曲,但所述用户忘记了所述第一歌曲的歌名,在所述终端在所述“音乐”应用程序中完成搜索Y的歌曲,显示歌曲列表界面后,所述应用程序可能会按照所述歌曲列表上歌曲的排列顺序依次播放歌曲,此时需要用户自己滑动所述歌曲列表,找到所述第一歌曲后点击播放该歌曲。
可选地,所述第二操作指令包括一个或多个操作指令,所述操作指令可以是在所述终端的屏幕上的滑动操作指令,可以是手势控制指令,也可以是语音指令,本发明实施例不做具体限定。
可见,实施图2所示的方法,终端可以在语音图形用户界面接收语音指令后,识别所述语音指令并将所述语音指令转化为所述图形用户界面能够响应的操作指令,在所述图形用户界面执行所述操作指令,并显示所述操作指令对应的操作过程,可解决终端在执行语音指令时只输出执行结果不显示语音指令执行过程的问题。
本发明实施例还提供一种终端,该终端用于执行前述任一项所述的方法的单元。具体地,参见图4,图4是本发明实施例提供的一种终端的示意框图。本实施例的终端包括:第一接收单元401、第一显示单元402、第二接收单元403、识别单元404、转换单元405、发送单元406、执行单元407以及第二显示单元408。
其中,所述第一接收单元401,用于接收语音图形用户界面(ConversationalGraphical User Interface,简称CGUI)的启动指令。具体地,在本发明的实施例中,可以采用不同的方式向终端输入所述启动指令,例如按键控制、触摸控制、手势控制和语音控制等,所述终端可以在工作状态或者休眠状态下接收所述启动指令。
所述第一显示单元402,用于在接收到启动CGUI的启动指令后,显示所述CGUI以及图形用户界面(Graphical User Interface,简称GUI)。具体地,所述CGUI界面可以与所述终端启动所述CGUI之前显示的GUI共同显示在所述终端的屏幕上,所述CGUI并不完全覆盖所述GUI。
所述第二接收单元403,用于在所述CGUI接收用户的语音指令。具体地,在所述终端显示所述CGUI后,所述CGUI界面显示有接收语音指令按钮,当用户触发所述接收语音指令按钮后,所述第二接收单元403开始接收所述用户输入的所述语音指令。
所述识别单元404,用于识别所述语音指令,具体地,所述第二接收单元接收完所述用户输入的所述语音指令之后,所述识别单元404根据语音识别算法将所述语音指令识别为语音文本,所述CGUI将所述识别单元404识别出的所述语音文本显示在所述CGUI上。
所述转换单元405,用于将所述语音指令转换为所述GUI能够响应的第一操作指令。具体地,所述终端在所述CGUI接收到所述语音指令并将其识别之后,要完成所述语音指令所对应的操作,需要在所述GUI上执行所述语音指令对应的一系列操作以达到所述用户的目的,因此需要将所述语音指令转换为所述GUI能够响应的指令。
所述发送单元406,用于将所述转换单元405转换得到的所述第一操作指令发送给所述GUI。
所述模拟单元407,用于模拟用户执行所述第一操作指令所对应的第一操作。具体地,所述执行单元407用于模拟所述第一操作,例如模拟用户点击所述GUI上的某个应用程序的图标以打开该应用程序,在搜索框中输入字符等操作,应理解,所述第一操作包括但不限于点击屏幕、滑动屏幕和输入字符等。
所述第二显示单元408,用于显示所述执行单元407执行所述第一操作的操作过程。具体地,所述执行单元407在执行所述第一操作时,需要模拟用户的各种操作,例如模拟用户上下左右滑动所述GUI上的应用程序列表以找到需要打开的应用程序的图标,在搜索框中输入字符等操作,所述第二显示单元408用于显示所述执行单元407执行所述第一操作的过程。
参见图5,图5是本发明另一实施例提供的一种终端示意框图。如图所示的本实施例中的终端可以包括:一个或多个处理器501;一个或多个输入设备502,一个或多个输出设备503和存储器504。上述处理器501、输入设备502、输出设备503和存储器504通过总线505连接。存储器502用于存储计算机程序,所述计算机程序包括程序指令,处理器501用于执行存储器502存储的程序指令。其中,处理器501被配置用于调用所述程序指令执行:
终端在接收到用户启动语音图形用户界面后,在所述终端的屏幕上显示语音图形用户界面以及图形用户界面;
所述终端在语音图像用户界面接收用户发出的语音指令,将所述语音指令识别为语音文本并将所述语音文本显示在所述语音图形用户界面上;所述终端将所述语音指令转化为所述图形用户界面能够响应的第一操作指令,并将所述第一操作指令发送给所述图形用户界面;
所述终端在所述图形用户界面显示所述第一操作指令的执行过程。
应当理解,在本发明实施例中,所称处理器501可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备502可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备503可以包括显示器(LCD等)、扬声器等。
该存储器504可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如,存储器504还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器501、输入设备502、输出设备503可执行本发明实施例提供的人机交互的方法的第一实施例和第二实施例中所描述的实现方式,也可执行本发明实施例所描述的终端的实现方式,在此不再赘述。
在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:
在接收到用户启动语音图形用户界面后,在终端的屏幕上显示语音图形用户界面以及图形用户界面;
接收用户发出的语音指令,将所述语音指令识别为语音文本并将所述语音文本显示在所述语音图形用户界面上;将所述语音指令转化为所述图形用户界面能够响应的第一操作指令,并将所述第一操作指令发送给所述图形用户界面;
所述图形用户界面接收所述语音图形用户界面发送的第一操作指令,并在所述图形用户界面显示所述第一操作指令的执行过程。
所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种人机交互方法,其特征在于,包括:
终端显示语音图形用户界面以及图形用户界面;
所述终端在所述语音图形用户界面接收用户发出的语音指令,并将所述语音指令转化为所述图形用户界面能够响应的第一操作指令;
所述终端在所述图形用户界面显示所述第一操作指令的执行过程。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述终端接收所述用户在所述图形用户界面发出的第二操作指令,并在所述图形用户界面执行所述第二操作指令。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述终端将所述语音指令识别为语音文本,并将所述语音文本显示在所述语音图形用户界面上。
4.根据权利要求3所述方法,其特征在于,所述方法还包括:
若所述语音指令识别错误,所述终端接收所述用户在所述语音图形用户界面发出的第三操作指令,并在所述语音图形用户界面执行所述第三操作指令。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
所述终端根据所述语音文本的文字数量自动调节所述语音图形用户界面的尺寸。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
所述终端根据所述图形用户界面的颜色调节所述语音图形用户界面的透明度。
7.根据权利要求6所述的方法,其特征在于,所述图形用户界面为所述终端的桌面界面或屏保界面,或者,所述图形用户界面为所述终端当前正在运行的应用程序的显示界面。
8.一种终端,其特征在于,包括用于执行如权利要求1-7任一权利要求所述的方法的单元。
9.一种终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN201711141096.3A 2017-11-16 2017-11-16 一种人机交互方法、终端及计算机可读介质 Withdrawn CN107967055A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711141096.3A CN107967055A (zh) 2017-11-16 2017-11-16 一种人机交互方法、终端及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711141096.3A CN107967055A (zh) 2017-11-16 2017-11-16 一种人机交互方法、终端及计算机可读介质

Publications (1)

Publication Number Publication Date
CN107967055A true CN107967055A (zh) 2018-04-27

Family

ID=62001015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711141096.3A Withdrawn CN107967055A (zh) 2017-11-16 2017-11-16 一种人机交互方法、终端及计算机可读介质

Country Status (1)

Country Link
CN (1) CN107967055A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215650A (zh) * 2018-09-17 2019-01-15 珠海格力电器股份有限公司 一种基于终端界面识别的语音控制方法、系统及智能终端
CN109656512A (zh) * 2018-12-20 2019-04-19 Oppo广东移动通信有限公司 基于语音助手的交互方法、装置、存储介质及终端
CN109669754A (zh) * 2018-12-25 2019-04-23 苏州思必驰信息科技有限公司 语音交互窗口的动态显示方法、具有伸缩式交互窗口的语音交互方法及装置
CN110060672A (zh) * 2019-03-08 2019-07-26 华为技术有限公司 一种语音控制方法及电子设备
CN110287397A (zh) * 2019-06-25 2019-09-27 北京金山安全软件有限公司 基于屏保的内容搜索方法、装置及电子设备
CN110544473A (zh) * 2018-05-28 2019-12-06 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN110798506A (zh) * 2019-09-27 2020-02-14 华为技术有限公司 执行命令的方法、装置及设备
CN111176539A (zh) * 2019-11-11 2020-05-19 广东小天才科技有限公司 一种分屏显示方法及终端设备
CN112017656A (zh) * 2020-08-11 2020-12-01 博泰车联网(南京)有限公司 一种语音控制方法、装置及计算机存储介质
CN112306593A (zh) * 2019-08-27 2021-02-02 北京字节跳动网络技术有限公司 一种页面显示方法、装置、电子设备及存储介质
CN112613798A (zh) * 2020-12-30 2021-04-06 北京城市轨道交通咨询有限公司 一种城市轨道交通全自动运营岗位联合测评方法
CN112861007A (zh) * 2021-02-26 2021-05-28 百度在线网络技术(北京)有限公司 屏保的显示方法、装置、设备、介质及程序产品
CN113539250A (zh) * 2020-04-15 2021-10-22 阿里巴巴集团控股有限公司 交互方法、装置、系统、语音交互设备、操控设备及介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544473A (zh) * 2018-05-28 2019-12-06 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN110544473B (zh) * 2018-05-28 2022-11-08 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN109215650A (zh) * 2018-09-17 2019-01-15 珠海格力电器股份有限公司 一种基于终端界面识别的语音控制方法、系统及智能终端
CN109656512A (zh) * 2018-12-20 2019-04-19 Oppo广东移动通信有限公司 基于语音助手的交互方法、装置、存储介质及终端
CN109669754A (zh) * 2018-12-25 2019-04-23 苏州思必驰信息科技有限公司 语音交互窗口的动态显示方法、具有伸缩式交互窗口的语音交互方法及装置
WO2020181988A1 (zh) * 2019-03-08 2020-09-17 华为技术有限公司 一种语音控制方法及电子设备
CN110060672A (zh) * 2019-03-08 2019-07-26 华为技术有限公司 一种语音控制方法及电子设备
CN110287397A (zh) * 2019-06-25 2019-09-27 北京金山安全软件有限公司 基于屏保的内容搜索方法、装置及电子设备
CN110287397B (zh) * 2019-06-25 2021-12-14 北京金山安全软件有限公司 基于屏保的内容搜索方法、装置及电子设备
CN112306593A (zh) * 2019-08-27 2021-02-02 北京字节跳动网络技术有限公司 一种页面显示方法、装置、电子设备及存储介质
CN110798506A (zh) * 2019-09-27 2020-02-14 华为技术有限公司 执行命令的方法、装置及设备
CN110798506B (zh) * 2019-09-27 2023-03-10 华为技术有限公司 执行命令的方法、装置及设备
CN111176539A (zh) * 2019-11-11 2020-05-19 广东小天才科技有限公司 一种分屏显示方法及终端设备
CN113539250A (zh) * 2020-04-15 2021-10-22 阿里巴巴集团控股有限公司 交互方法、装置、系统、语音交互设备、操控设备及介质
CN112017656A (zh) * 2020-08-11 2020-12-01 博泰车联网(南京)有限公司 一种语音控制方法、装置及计算机存储介质
CN112613798A (zh) * 2020-12-30 2021-04-06 北京城市轨道交通咨询有限公司 一种城市轨道交通全自动运营岗位联合测评方法
CN112861007A (zh) * 2021-02-26 2021-05-28 百度在线网络技术(北京)有限公司 屏保的显示方法、装置、设备、介质及程序产品
CN112861007B (zh) * 2021-02-26 2024-09-27 百度在线网络技术(北京)有限公司 屏保的显示方法、装置、设备、介质及程序产品

Similar Documents

Publication Publication Date Title
CN107967055A (zh) 一种人机交互方法、终端及计算机可读介质
DK180326B8 (en) User activity shortcut suggestions
US12045437B2 (en) Digital assistant user interfaces and response modes
JP6530011B2 (ja) インテリジェントタスクディスカバリ
CN106502638B (zh) 用于提供视听反馈的设备、方法和图形用户界面
EP4068078A1 (en) Continuous dialog with a digital assistant
AU2016409886B2 (en) Intelligent list reading
EP3414667B1 (en) Digital assistant providing automated status report
EP4057279A2 (en) Natural assistant interaction
CN103218148B (zh) 用于配置与用户接口的受约束的交互的装置、方法和图形用户接口
CN106104677B (zh) 所识别的语音发起的动作的视觉指示
CN106445184B (zh) 虚拟计算机键盘
CN106462354B (zh) 管理多个显示窗口的设备、方法和图形用户界面
CN103558964B (zh) 电子设备中的多层次话音反馈
CN104685470B (zh) 用于从模板生成用户界面的设备和方法
KR102084041B1 (ko) 펜 기능 운용 방법 및 시스템
EP3738051A1 (en) Multi-directional dialog
CN107480161A (zh) 用于媒体探究的智能自动化助理
CN107949823A (zh) 零延迟数字助理
CN108845664A (zh) 用于接收用户输入的用户界面
CN108319491A (zh) 管理用户界面中的工作空间
EP4083781A1 (en) Announce notifications
CN106233237B (zh) 一种处理与应用关联的新消息的方法和装置
CN105765520A (zh) 用于提供锁定屏幕的设备和方法
KR102630662B1 (ko) 어플리케이션 실행 방법 및 이를 지원하는 전자 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180427

WW01 Invention patent application withdrawn after publication