CN118259863A - 语音交互的方法和电子设备 - Google Patents

语音交互的方法和电子设备 Download PDF

Info

Publication number
CN118259863A
CN118259863A CN202211684847.7A CN202211684847A CN118259863A CN 118259863 A CN118259863 A CN 118259863A CN 202211684847 A CN202211684847 A CN 202211684847A CN 118259863 A CN118259863 A CN 118259863A
Authority
CN
China
Prior art keywords
user
user interface
information
target
operation type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211684847.7A
Other languages
English (en)
Inventor
李凌飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Device Co Ltd
Original Assignee
Huawei Device Co Ltd
Filing date
Publication date
Application filed by Huawei Device Co Ltd filed Critical Huawei Device Co Ltd
Publication of CN118259863A publication Critical patent/CN118259863A/zh
Pending legal-status Critical Current

Links

Abstract

本申请提供了一种语音交互的方法和电子设备,该方法应用于电子设备,该方法包括:获取用户的语音信息和所述语音信息的声源位置;根据所述声源位置,从至少两种操作类型中确定目标操作类型,所述至少两种操作类型包括第一操作类型,所述第一操作类型的操作为操控当前用户界面的操作;根据所述目标操作类型和所述语音信息,确定第一操作;执行所述第一操作。基于该方案,有利于准确判断用户的意图,从而正确地执行语音信息对应的操作,从而提升用户在人机交互时的使用体验。

Description

语音交互的方法和电子设备
技术领域
本申请涉及电子设备领域,并且更加具体地,涉及一种语音交互的方法和电子设备。
背景技术
人机交互应用目前广泛应用于手机、平板电脑、智能音箱等等电子设备中,为用户提供了智能化的人机交互方式。在传统的人机交互中,用户可以说出语音指令,电子设备可以识别并执行语音信息对应的操作。然而,在传统的人机交互的基础上,用户还可以通过语音指令操控当前用户界面,即进行可视可说。
在人机交互的过程中,电子设备需要准确识别出用户的意图,进而为用户提供智能化的服务。因此,当用户在通过语音指令实现人机交互时,如何准确的判断用户的意图,从而正确地执行语音信息对应的操作是目前亟需解决的问题。
发明内容
本申请实施例提供一种语音交互的方法和电子设备,有利于准确的判断用户的意图,从而正确地执行语音信息对应的操作,从而提升用户在人机交互时的使用体验。
第一方面,提供了一种语音交互的方法,该方法包括:获取用户的语音信息和所述语音信息的声源位置;根据所述声源位置,从至少两种操作类型中确定目标操作类型,所述至少两种操作类型包括第一操作类型,所述第一操作类型为操控当前用户界面的操作;根据所述目标操作类型和所述语音信息,确定第一操作;执行所述第一操作。
需要说明的是,电子设备可以包括显示屏,显示屏当前显示的用户界面为当前用户界面。第一操作类型为操控当前用户界面的操作,即可视可说的操作。
在本申请实施例中,电子设备可以通过至少两种操作类型的操作实现人机交互,当接收到语音信息时,可以根据声源位置,确定用户想要通过哪种方式实现人机交互,即确定目标操作类型,从而可以正确地实现语音信息指示的操作。例如,假设目标操作类型为第一操作类型,说明用户想要实现可视可说,则第一操作为可视可说的操作。这样,有利于准确的判断用户的意图,从而正确地执行语音信息对应的操作,从而提升用户在人机交互时的使用体验。
结合第一方面,在一种可能的实现方式中,所述至少两种操作类型包括第二操作类型,所述第二操作类型为操控所述电子设备的操作。
需要说明的是,第二操作类型为操控电子设备的操作,即传统的人机交互的操作。当实现第二操作类型的操作时,不需要将语音信息与当前用户界面中的用户界面信息进行匹配,只要能够通过语音控制电子设备实现的操作,均为第二操作类型的操作。
以一个示例说明第一操作类型和第二操作类型的区别。假设当前用户界面为音乐播放器A的界面,该当前用户界面包括曲目A。当用户说出语音指令“播放曲目A”时,第一操作类型的操作为播放当前用户界面中的曲目A,例如可以通过“模拟点击”当前用户界面中的“曲目A”图标实现播放曲目A;而第二操作类型的操作可以为通过音乐播放器B搜索并播放曲目A,也可以为通过音乐播放器A搜索并播放曲目A。
结合第一方面,在一种可能的实现方式中,所述电子设备包括显示屏,所述显示屏显示所述当前用户界面,其中,所述根据所述目标操作类型和所述语音信息,确定第一操作,包括:当所述声源位置位于目标区域内时,确定所述第一操作类型为所述目标操作类型,所述目标区域为与所述显示屏成预设角度的扇形区域;当所述声源位置位于所述目标区域以外时,确定所述第二操作类型为所述目标操作类型。
需要说明的是,目标区域位于显示屏显示画面的一侧,当声源位置位于目标区域内时,用户可以观察到当前用户界面的内容。
可选的,目标区域内的任意一个位置与显示屏之间的距离小于或等于预设值。
在本申请实施例中,当声源位置位于目标区域内时,用户可以观察到当前用户界面的内容,可以确定用户想要进行可视可说,即确定目标操作类型为第一操作类型。否则,确定第二操作类型为目标操作类型。这样,有利于准确判断用户的意图,从而正确地执行语音信息对应的操作,从而提升用户在人机交互时的使用体验。
结合第一方面,在一种可能的实现方式中,该方法还包括:获取所述当前用户界面的用户界面信息;其中,所述当所述声源位置位于所述目标区域内时,确定所述第一操作类型为所述目标操作类型,包括:当所述声源位置位于所述目标区域内,且所述语音信息与所述用户界面信息相关时,确定所述第一操作类型为所述目标操作类型。
在本申请实施例中,当声源位置位于目标区域,语音信息与用户界面信息相关时,确定用户想要进行可视可说,即确定第一操作类型为目标操作类型。这样,可以提高判断的准确性,从而正确地执行语音信息对应的操作,从而提升用户在人机交互时的使用体验。
结合第一方面,在一种可能的实现方式中,所述用户界面信息包括所述当前用户界面中的图标名称、角标信息和/或操控指令信息。
结合第一方面,在一种可能的实现方式中,该方法还包括:获取所述用户的视线信息;其中,所述当所述声源位置位于所述目标区域内时,确定所述第一操作类型为所述目标操作类型,包括:当所述声源位置位于所述目标区域内,且所述视线信息指示所述用户的视线指向所述当前用户界面时,确定所述第一操作类型为所述目标操作类型。
在本申请实施例中,当声源位置位于目标区域,且用户的视线指向当前用户界面时,确定用户想要进行可视可说,即确定第一操作类型为目标操作类型。这样,可以提高判断的准确性,从而正确地执行语音信息对应的操作,从而提升用户在人机交互时的使用体验。
结合第一方面,在一种可能的实现方式中,该方法还包括:获取所述用户的视线信息;其中,所述当所述声源位置位于所述目标区域内,且所述语音信息与所述用户界面信息相关时,确定所述第一操作类型为所述目标操作类型,包括:当所述声源位置位于所述目标区域内,且所述视线信息指示所述用户的视线指向所述当前用户界面,且所述语音信息与所述用户界面信息相关时,确定所述第一操作类型为所述目标操作类型。
在本申请实施例中,当声源位置位于目标区域,且用户的视线指向当前用户界面,且语音信息与用户界面信息相关时,确定用户的意图是进行可视可说,即确定执行第一操作。这样,可以提高判断的准确性,从而正确地执行语音信息对应的操作,从而提升用户在人机交互时的使用体验。
第二方面,提供了一种语音交互的方法,该方法包括:获取用户的语音信息和所述用户的视线信息;根据所述语音信息和视线信息,确定当前用户界面中的目标组件;根据所述语音信息,操控所述目标组件。
在本申请实施例中,可以通过用户的语音信息、视线信息,确定可视可说的执行对象,即确定目标组件,从而根据语音信息,对目标组件进行操作,以实现对当前用户界面中的组件进行准确操控,从而提升用户在人机交互时的使用体验。
结合第二方面,在一种可能的实现方式中,所述语音信息与所述当前用户界面中的第一组件和第二组件相关;其中,所述根据所述语音信息和视线信息,确定当前用户界面中的目标组件,包括:当所述视线信息指示所述用户的视线指向所述第一组件时,确定所述第一组件为所述目标组件;当所述视线信息指示所述用户的视线指向所述第二组件时,确定所述第二组件为所述目标组件。
在本申请实施例中,语音信息可能与多个组件相关,通过视线信息,确定可视可说的目标组件,可以避免向用户询问以确定可视可说的目标组件,或者避免错误地确定可视可说的目标组件,有利于对当前用户界面中的组件进行准确操控,从而提升用户在人机交互时的使用体验。
结合第二方面,在一种可能的实现方式中,所述第一组件和所述第二组件的名称相同或相近。
第三方面,提供了一种语音交互的方法,该方法包括:获取用户的语音信息,所述语音信息与当前用户界面中的目标组件相关;确定所述目标组件的类型;根据所述目标组件的类型,确定是否检测所述用户的隔空手势。
在本申请实施例中,可以根据与语音信息相关的目标组件的类型,确定是否检测用户的隔空手势。这样,用户可以使用隔空手势操控目标组件,从而不必使用触控操作,有利于提升用户在人机交互时的使用体验。
结合第三方面,在一种可能的实现方式中,所述根据所述目标组件的类型,确定是否检测所述用户的隔空手势,包括:当所述目标组件为可调节类组件时,检测所述用户的隔空手势。
在本申请实施例中,可调节类组件例如可以是音量调节组件、亮度调节组件、(窗帘)的开度调节组件等。当目标组件为可调节类组件时,可以确定用户想要进行调节,从而开始检测用户的隔空手势,有利于提升用户在人机交互时的使用体验。
可选的,确定所述语音信息指示的第二操作的类型;根据所述第二操作的类型,确定是否检测用户的隔空手势。具体的,当第二操作的类型为调节类操作时,确定检测用户的隔空手势。例如,当语音信息指示“调高音量”、“增大客厅灯亮度”、“打开窗帘”等操作时,确定检测用户的隔空手势。基于该方案,当用户使用语音对某个功能进行调节时,不需要使用触控操作进行调节,或者不需要具体说明调节到哪个程度,而是使用隔空手势对该功能进行调节,有利于提升用户在人机交互时的使用体验。
可选的,可以预先设置哪些操作为调节类操作。
结合第三方面,在一种可能的实现方式中,该方法还包括:响应于所述用户的隔空手势,操控所述目标组件。
结合第三方面,在一种可能的实现方式中,该方法还包括:所述隔空手势包括用户手指隔空向预设方向滑动。
结合第三方面,在一种可能的实现方式中,该方法还包括:当确定检测所述用户的隔空手势时,在所述当前用户界面显示提示信息,所述提示信息用于提示所述用户进行隔空手势操作。
在本申请实施例中,当检测用户的隔空手势时,可以通过提示信息提示用户如何进行隔空手势操作,有利于提升用户在人机交互时的使用体验。
结合第三方面,在一种可能的实现方式中,该方法还包括:当确定检测所述用户的隔空手势时,在所述当前用户界面显示提示信息,所述提示信息包括所述目标组件,或者在所述当前用户界面中高亮显示所述目标组件。
在本申请实施例中,可以通过显示提示信息或高亮实现目标组件的方式,提示用户正在使用隔空手势操控目标组件。
第四方面,本技术方案提供了一种电子设备,包括:一个或多个处理器;存储器;多个应用程序;以及一个或多个计算机程序。其中,一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令。当指令被电子设备执行时,使得电子设备执行第一方面中的任意一种实现方式中的方法,或使得电子设备执行第二方面中的任意一种实现方式中的方法,或使得电子设备执行第三方面中的任意一种实现方式中的方法。
第五方面,本技术方案提供了一种电子设备,包括一个或多个处理器和一个或多个存储器。该一个或多个存储器与一个或多个处理器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,使得电子设备执行第一方面、第二方面或第三方面中的任意一种实现方式中的方法。
第六方面,本技术方案提供了一种非易失性计算机可读存储介质,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行第一方面、第二方面或第三方面中的任意一种实现方式中的方法。
第七方面,本技术方案提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行第一方面、第二方面或第三方面中的任意一种实现方式中的方法。
第八方面,提供一种芯片,所述芯片包括处理器与通信接口,所述处理器通过所述通信接口读取存储器上存储的指令,执行上述第一方面、第二方面或第三方面中的任意一种实现方式中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面、第二方面或第三方面中的任意一种实现方式中的方法。
附图说明
图1是本实施例提供的一种电子设备的结构示意图。
图2是本申请实施例提供的一种电子设备的软件结构示意图。
图3是本申请实施例提供的一种用户界面的示意图。
图4是本申请实施例提供的一种用户界面的示意图。
图5是本申请实施例提供的一种语音交互的方法的示意性图。
图6是本申请实施例提供的一种电子设备的目标区域的示意图。
图7是本申请实施例提供的一种语音交互的方法的示意性流程图。
图8是本申请实施例提供的一种语音交互的方法的示意性流程图。
图9是本申请实施例提供的一种用户界面的示意图。
图10是本申请实施例提供的一种语音交互的方法的示意性流程图。
图11是本申请实施例提供的一种语音交互的方法的示意性流程图。
图12是本申请实施例提供的一种用户界面的示意图。
图13是本申请实施例提供的一种用户界面的示意图。
图14是本申请实施例提供的一种电子设备的示意性框图。
具体实施方式
以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请以下各实施例中,“至少一个”、“一个或多个”是指一个、两个或两个以上。术语“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
以下介绍电子设备、用于这样的电子设备的用户界面、和用于使用这样的电子设备的实施例。在一些实施例中,电子设备可以是还包含其它功能诸如个人数字助理和/或音乐播放器功能的便携式电子设备,诸如手机、平板电脑、具备无线通讯功能的可穿戴电子设备(如智能手表)等。便携式电子设备的示例性实施例包括但不限于搭载 或者其它操作系统的便携式电子设备。上述便携式电子设备也可以是其它便携式电子设备,诸如膝上型计算机(Laptop)等。还应当理解的是,在其他一些实施例中,上述电子设备也可以不是便携式电子设备,而是台式计算机。
示例性的,图1示出了电子设备100的结构示意图。电子设备100可以包括处理器110、外部存储器接口120、内部存储器121、通用串行总线(universal serial bus,USB)接口130、充电管理模块140、电源管理模块141、电池142、天线1、天线2、移动通信模块150、无线通信模块160、音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D、传感器模块180、指南针190、马达191、指示器192、摄像头193、显示屏194以及用户标识模块(subscriber identification module,SIM)卡接口195等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的部件,也可以集成在一个或多个处理器中。在一些实施例中,电子设备101也可以包括一个或多个处理器110。其中,控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。在其他一些实施例中,处理器110中还可以设置存储器,用于存储指令和数据。示例性地,处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。这样就避免了重复存取,减少了处理器110的等待时间,因而提高了电子设备101处理数据或执行指令的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路间(inter-integrated circuit,I2C)接口、集成电路间音频(inter-integrated circuitsound,I2S)接口、脉冲编码调制(pulse code modulation,PCM)接口、通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口、移动产业处理器接口(mobile industry processor interface,MIPI)、用输入输出(general-purpose input/output,GPIO)接口、SIM卡接口和/或USB接口等。其中,USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口、Micro USB接口、USB Type C接口等。USB接口130可以用于连接充电器为电子设备101充电,也可以用于电子设备101与外围设备之间传输数据。该USB接口130也可以用于连接耳机,通过耳机播放音频。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110、内部存储器121、外部存储器、显示屏194、摄像头193和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量、电池循环次数、电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络)、蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS)、调频(frequency modulation,FM)、近距离无线通信技术(near field communication,NFC)、红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像、视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD)、有机发光二极管(organic light-emittingdiode,OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode,AMOLED)、柔性发光二极管(flex light-emittingdiode,FLED)、Miniled、MicroLed、Micro-oLed、量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或多个显示屏194。
在本申请的一些实施例中,当显示面板采用OLED、AMOLED、FLED等材料时,上述图1中的显示屏194可以被弯折。这里,上述显示屏194可以被弯折是指显示屏可以在任意部位被弯折到任意角度,并可以在该角度保持,例如,显示屏194可以从中部左右对折。也可以从中部上下对折。
电子设备100的显示屏194可以是一种柔性屏,目前,柔性屏以其独特的特性和巨大的潜力而备受关注。柔性屏相对于传统屏幕而言,具有柔韧性强和可弯曲的特点,可以给用户提供基于可弯折特性的新交互方式,可以满足用户对于电子设备的更多需求。对于配置有可折叠显示屏的电子设备而言,电子设备上的可折叠显示屏可以随时在折叠形态下的小屏和展开形态下大屏之间切换。因此,用户在配置有可折叠显示屏的电子设备上使用分屏功能,也越来越频繁。
电子设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点、亮度、肤色进行算法优化。ISP还可以对拍摄场景的曝光、色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或多个摄像头193。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1、MPEG2、MPEG3、MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别、人脸识别、语音识别、文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储一个或多个计算机程序,该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器121的上述指令,从而使得电子设备101执行本申请一些实施例中所提供的支付方法,以及各种应用以及数据处理等。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统;该存储程序区还可以存储一个或多个应用(比如图库、联系人等)等。存储数据区可存储电子设备101使用过程中所创建的数据(比如照片,联系人等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如一个或多个磁盘存储部件,闪存部件,通用闪存存储器(universal flash storage,UFS)等。在一些实施例中,处理器110可以通过运行存储在内部存储器121的指令,和/或存储在设置于处理器110中的存储器的指令,来使得电子设备101执行本申请实施例中所提供的支付方法,以及其他应用及数据处理。电子设备100可以通过音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D、以及应用处理器等实现音频功能。例如音乐播放、录音等。
传感器模块180可以包括压力传感器180A、陀螺仪传感器180B、气压传感器180C、磁传感器180D、加速度传感器180E、距离传感器180F、接近光传感器180G、指纹传感器180H、温度传感器180J、触摸传感器180K、环境光传感器180L、骨传导传感器180M等。
其中,压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即X、Y和Z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
图2是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。应用程序层可以包括一系列应用程序包。
如图2所示,应用程序包可以包括相机、图库、日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息、语音助手等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架,应用程序框架层包括一些预先定义的函数。
如图2所示,应用程序框架层可以包括窗口管理器、内容提供器、视图系统、电话管理器、资源管理器、通知管理器等。
窗口管理器用于管理窗口程序,窗口管理器可以获取显示屏大小,判断是否有状态栏、锁定屏幕、截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频、图像、音频、拨打和接听的电话、浏览历史和书签、电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串、图标、图片、布局文件、视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息、发出提示音、电子设备振动、指示灯闪烁等。
系统库可以包括多个功能模块。例如:表面管理器(surface manager)、媒体库(media libraries)、三维图形处理库(例如:OpenGL ES)、2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频、视频格式回放和录制以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4、H.264、MP3、AAC、AMR、JPG和PNG等。
三维图形处理库用于实现三维图形绘图、图像渲染、合成和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动、摄像头驱动、音频驱动、传感器驱动。
应用程序包中的语音助手应用是人机交互应用的一种,语音助手应用也可以称为语音助手应用或智慧助手应用等。人机交互应用也可称为人机交互机器人、人机对话机器人或聊天机器人(ChatBOT)等,人机交互应用目前广泛应用于手机、平板电脑、智能音箱等多类电子设备,为用户提供了智能化的语音交互方式。目前,用户在车内可以通过语音进行人机交互,不仅能够通过语音控制导航、音乐等车机软件,还能够控制车内硬件,如车窗、空调等。
下面以车机应用场景为例,介绍本申请提供的语音交互的方法。在车辆内部,车机(也称为车内影音娱乐系统)等车载终端可以设置于汽车的中控台,其屏幕也可以称之为中控显示屏或中控屏。汽车内可以设置有多个摄像头,且摄像头的位置较为灵活,例如,有的座舱的摄像头可以设置于车辆中控屏上方,有的座舱的摄像头可以设置于车辆中控屏左侧,有的座舱的摄像头可以设置于A柱或B柱,有的座舱的摄像头可以设置于车辆的座舱顶前部。应理解,车内还包括一个或多个麦克风,麦克风可以位于车辆中控屏上方或车辆的座舱顶前部。在本申请实施例中,摄像头可以获取用户的视线信息或动作信息等,麦克风可以获取用户的语音信息。
车机界面是用户与智能汽车交互的主要媒介,用户可以通过语音指令对车机界面进行控制,从而实现与车机或智能汽车的交互,这也被称为可视可说。如果使用触控操作进行人机交互,用户需要俯身操作,可能会增大事故风险,而使用语音指令对车机界面进行控制有助于保障行车安全。
图3所示为电子设备100的用户界面300的示意图。该电子设备100可以是如图1所示的电子设备100。例如,电子设备100可以是电视、投影设备等大屏显示装置,也可以是智能车机、手机、智能音箱、平板等电子设备。在该用户界面中可以显示有多个图标。例如用户界面可以包括多个功能图标301、多个应用图标302等。可以理解的是,本申请实施例示意的用户界面并不构成对用户界面300的具体限定。在本申请另一些实施例中,用户界面300可以包括比图示更多或更少的图标,或者组合某些图标,或者拆分某些图标,或者不同的图标布置。
用户界面中的多个功能图标301可以包括返回图标、用户信息图标、设置图标、无线连接图标、时钟图标等。用户选择返回图标,可以返回上一层用户界面。用户选择用户信息图标,可以查看在电子设备100上登录的用户账号信息。用户选择设置图标,可以进入设置界面,并可以调整电子设备100的参数。用户选择无线连接图标,可以使用电子设备100的无线连接功能,例如搜索电子设备100周围的可用无线网络,并接入该可用无线网络。用户可以查看时钟图标,了解当前的时间。用户选择时钟图标,可以设置电子设备100的时钟参数。
示例性的,在车机应用场景中,用户界面中的多个功能图标301还可以包括空调图标、座椅图标、导航图标等。用户选择空调图标,可以进入空调设置界面,并可以调整空调的风量大小、温度等参数。用户选择座椅图标,可以进入座椅设置界面,并可以设置座椅加热的参数、座椅通风的参数等。用户选择导航图标,可以进入导航界面。
用户界面中的多个应用图标302可以包括图标1、图标2、图标3、图标4等,用户可以选择打开其中一个应用图标,进入对应的应用界面。
在本申请实施例中,当前用户界面为电子设备当前显示的界面。例如,当电子设备显示设置界面时,当前用户界面为该设置界面。
在一些实施例中,用户可以进行可视可说,例如用户可以说出语音指令,如“打开图标1”。也就是说,用户在观察该当前用户界面之后,可以通过语音指令打开当前用户界面上的图标1,以进入图标1对应的应用界面。应理解,当进入图标1对应的应用界面后,图标1对应的应用界面为当前用户界面。
可选的,用户可以说出唤醒词,以唤醒客户端设备捕获用户的语音指令。
可选的,如图3中的304所示,电子设备在捕获用户的语音指令的过程中,可以在用户界面上显示提示信息,以提示用户正在使用电子设备的语音识别功能。
参考图4所示的电子设备100的用户界面400的示意图。在一个示例中,用户界面400为音乐播放器的界面,用户界面400可以包括多个功能图标401、多个菜单图标402和多个控件403。应理解,该多个功能图标401可以与图3中所示的多个功能图标301相同,也可以不相同。
用户界面中的多个菜单图标402可以包括:“首页”图标、“每日推荐”图标、“排行榜”图标、“热歌”图标、“歌单”图标、“专辑”图标、“听书”图标等。应理解,电子设备100还可以为用户提供更多的菜单图标402,然而由于用户界面的尺寸有限,该用户界面可以显示全部菜单图标402中的一部分。
在一个示例中,用户选择“每日推荐”图标,电子设备100可以显示资源合集图标403。该多种资源合集的类型可以包括音乐合集、排行榜合集、歌单合集、专辑合集、电台合集、有声书合集等。例如,电子设备100可以显示当前热度最高的6首曲目的图标,例如曲目A、曲目B、曲目C、曲目D、曲目E、曲目F。
在一个示例中,用户还可以说出语音指令,如“下一页”或“下滑”。也就是说,用户在观察到用户界面后,可以控制电子设备执行翻页或下滑操作,从而用户可以继续浏览下一页的内容。例如,显示资源合集图标403中未显示的曲目。
在一个示例中,用户可以进行可视可说,例如用户在观察当前用户界面之后,可以说出语音指令,如“播放曲目A”或者“播放第一首”,以播放曲目A。在播放曲目A时,在用户界面可以显示曲目A的详细信息,例如可以包括曲目A的封面图片、歌手信息等。该用户界面还可以包括多个控件404,该多个控件404可以包括上一首、播放/暂停、下一首等控件。用户可以说出语音指令,如“上一首”,以播放上一首播放的曲目。
在本申请实施例中,当用户进行可视可说时,电子设备可以根据用户的语音指令,操控当前用户界面。操控当前用户界面的方式可以理解为电子设备“模拟”用户使用触控操作,例如“模拟点击”、“模拟双击”、“模拟长点击”、“模拟滑动(上滑、下滑、左滑、右滑等)”等。
在一个示例中,当用户说出语音指令“打开图标1”时,电子设备可以“模拟点击”用户界面上的图标1。
在一个示例中,当用户说出语音指令“下一页”时,电子设备可以“模拟点击”用户界面上的“下一页”的图标。
在一个示例中,当用户说出语音指令“下滑”时,电子设备可以“模拟”用户使用手指按压并向下拖动手指。
应理解,“模拟”用户使用触控操作和用户实际通过触控操作可以达到相同的效果。
上文结合附图介绍了可视可说的相关内容,然而当用户说出语音指令时,可能并不想进行可视可说,而是想要通过语音指令实现通用的人机交互。例如,当前用户界面上存在音乐播放器的图标,当用户说“打开音乐”时,用户可能是想要打开用户界面上的音乐播放器,进入音乐播放器对应的应用界面,也可能是想要通过该语音指令控制电子设备播放音乐。也就是说,用户在通过语音指令进行人机交互时,电子设备可能难以判断用户是想要进行可视可说,还是想要直接通过语音指令实现通用的人机交互。如果不能准确判断用户的意图,可能会降低用户的使用体验。
下面结合附图介绍本申请实施例提供的一种语音交互的方法。图5是本申请实施例提供的一种语音交互的方法500的示意性流程图。该方法500包括:
S510,获取用户的语音信息和语音信息的声源位置。
在本申请实施例中,电子设备有多种方式接收用户输入的语音信息。
示例性的,当电子设备检测到用户在电子设备的桌面点击人机交互应用(例如,语音助手)的图标后,打开人机交互应用,接收用户输入的语音信息。
示例性的,当电子设备检测到用户点击电子设备的特定实体按键后,打开人机交互应用,接收用户输入的语音信息。
示例性的,当电子设备检测到用户的唤醒词(例如,你好小华)时,打开人机交互应用,接收用户输入的语音信息。
示例性的,当电子设备检测到用户设置的或者系统预设的免唤醒词(例如,打开空调),将该免唤醒词作为用户输入的语音信息。
在本申请实施例中,获取语音信息的声源位置可以采用声源定位的方法实现,例如可以根据座舱内多个麦克风(以左前、右前、左后、右后为例)在不同方向上采集的语音信号能量(强弱)及前处理的声源定位算法来综合判断当前的声源来源于哪个方向的麦克风;再例如,采用麦克风阵列技术,由多个麦克风,按照一定规则排列组成。多个麦克风同步采集声音信号,利用多个麦克风之间的信号相位差,求得噪声源信号的发出位置;再例如采用声强探头声场测试技术,声强探头由两个传声器相对设置组成一个联合体,可以测量空间多点的声压、声波振速大小和方向,在被测物体表面或包络面附近扫描测试,可以得到被测物体附近的声场分布情况,从而掌握声源位置和分布。
在一些实施例中,还可以通过位置传感器、红外传感器、毫米波雷达等方式确定语音信息的声源位置。
需要说明的是,一般,语音信息的声源位置是指用户输入语音信息时的位置,或者用户输入语音信息时,用户与电子设备的显示屏之间的相对位置。
S520,判断声源位置是否位于目标区域。
在本申请实施例中,电子设备可以包括显示屏,其中当前用户界面为显示屏上当前显示屏的界面。其中,目标区域可以是以显示屏为原点确定的区域。图6为本申请实施例提供的一种目标区域的示意图。以电子设备是笔记本电脑为例进行描述。θc为笔记本电脑600的显示屏的可视角,A1区域为可视角θc对应的区域,为目标区域。A2区域和A3区域为笔记本电脑的非可视角对应的区域,为非目标区域。
需要说明的是,显示屏的目标区域可以通过显示屏的可视度进行定义。以垂直于显示屏的方向(即厚度方向)为基准,在偏离垂直于显示屏的方向的左方或右方一定角度的位置上仍然能够正常的看见显示画面的区域。该目标区域可以是与显示屏所在平面成预设角度的扇形区域或锥形区域。
应理解,目标区域应位于显示屏的正面,即显示屏显示画面的一侧。用户在目标区域内可以正常的观察到显示屏所显示的用户界面。
可选的,目标区域内的任意一个位置与显示屏之间的距离小于或等于预设值。
S530,当声源位置位于目标区域内时,则根据语音信息,执行第一操作类型的操作。
S540,当声源位置位于目标区域以外时,则根据语音信息,执行第二操作类型的操作。
需要说明的是,第一操作类型的操作为操控当前用户界面的操作。也就是说,第一操作类型的操作为用户在观察当前用户界面之后,希望通过语音操控当前用户界面的操作,即可视可说的操作。示例性的,当前用户界面存在视频A,用户说:播放视频A,则第一操作为播放当前用户界面上的视频A的操作,例如可以为“模拟点击”当前用户界面上的视频A的操作。
需要说明的是,第二操作类型为操控电子设备的操作,即传统的人机交互的操作。当实现第二操作类型的操作时,不需要将语音信息与当前用户界面中的用户界面信息进行匹配,只要能够通过语音控制电子设备实现的操作,均为第二操作类型的操作。
示例性的,用户说:打开空调,第二操作类型的操作可以为开启空调的操作。进一步的,该第二操作类型的操作可以为:根据用户所处的位置,选择开启哪个空调;或者,该第二操作类型的操作也可以为:先通过询问的方式,确定用户想要开启哪个空调,然后再开启用户指定的空调。
下面通过一个示例说明第一操作类型的操作与第二操作类型的操作之间的区别。示例性的,当前用户界面为图4所示的音乐播放器的界面,用户说出语音指令:播放曲目A。第一操作类型的操作为:执行播放当前用户界面上的曲目A的操作,例如可以“模拟点击”图4中的曲目A以播放曲目A。第二操作类型的操作为:电子设备可以选择默认的音乐播放器,搜索并播放曲目A。该默认的音乐播放器可能是图4所示的音乐播放器,也可能是其他的音乐播放器。
在本申请实施例中,如果声源位置位于目标区域内,则说明用户可以观察到当前用户界面的内容,从而确定用户想要进行可视可说。否则,确定用户想要进行通用的人机交互。
也就是说,当声源位置位于目标区域以内时,根据语音信息,执行第一操作类型的操作;当声源位置位于目标区域以外时,根据语音信息,执行第二操作类型的操作。
需要说明的是,在确定声源位置位于目标区域内,或位于目标区域以外后,可以对语音信息进行语义识别,以获取用户的语义。这里的对用户的语音信息进行识别可以采用多种的语义识别技术来实现,例如,可以利用深度全序列卷积神经网络(deep fullyconvolutional neural network,DFCNN)、LFR-DFSMN(lower frame rate deepfeedforward sequential memory networks)或截断注意力模型(streaming truncatedmulti-layer attention,SMLTA)等进行识别。
示例性的,电子设备可以通过语音识别(automatic speech recognition,ASR)模块、语义理解(natural language understanding,NLU)模块实现语义识别的操作。其中,ASR模块的主要作用是将用户的语音识别为文字内容。ASR模块可以根据用户界面信息,用户的语音指令进行处理,将一段语音变成对应的文字。例如,可以将语音指令中的一部分与用户界面信息所包含的图标名称对应。由于近年来机器学习能力的发展,大幅提升了ASR语音识别模块的识别准确率,这才让人与机器的语音交互成为可能,因此ASR是语音交互真正意义上的起点。虽然ASR模块可以获知用户在说什么,但其无法理解用户的意思,对语义的理解会交由NLU模块来处理。NLU模块的主要作用是理解用户的意图(intent),进行槽位(slot)解析。NLU模块可以根据用户界面信息,确定语音指令的意图和槽位。
示例性的,用户表达:播放曲目A,NLU模块可以解析得出表2所示的内容。
表2
上述示例中提到了2个概念,分别是意图和槽位,下面对这两个概念进行详细解释。
意图
意图可以理解成是一个分类器,确定用户表达的这句话是哪个类型,进而由这个类型对应的程序做专门的解析。在一种实现方式中,“这个类型对应的程序”可以是机器人(Bot),比如用户说:“给我放一个喜剧电影吧”,NLU模块判断用户的意图分类是电影,因此召唤出电影机器人(Bot)给用户推荐一部电影播放,用户听着觉得不对的时候,说:“换一部”,还是这个电影机器人继续为用户服务,直到用户表达别的问题,意图已经不是电影的时候,再切换成别的机器人为用户服务。
槽位
当用户意图被确定之后,NLU模块就需要进一步理解对话中的内容,为简便起见,可以选择最核心的部分进行理解,其他可以忽略,那些最重要的部分可以称之为槽位(Slot)。
在“播放曲目A”这个例子中定义了2个核心槽位,分别是“音乐名称”、“音乐播放器”。如果要全面考虑用户播放视频需要输入的内容,我们肯定能想到更多,比如播放起点、歌手等,对于语音交互的设计者来说,设计的起点就是定义槽位。
在本申请实施例中,当声源位置位于目标区域内时,可以将语音信息与当前用户界面的用户界面信息进行匹配,然后执行第一操作类型的操作。例如,当前用户界面如图4所示,用户表达“播放曲目A”,由于当前显示的用户界面包括“曲目A”的图标,那么将会执行“模拟点击”当前用户界面上的“曲目A”的图标,以播放曲目A。也就是说,当声源位置位于目标区域以内时,如果语音信息与当前用户界面的用户界面信息相关,将会执行可视可说的操作,即第一操作类型的操作。
需要说明的是,当声源位置位于目标区域内时,在执行第一类型的操作之前,还可以获取当前用户界面的用户界面信息。例如,可以通过向前台应用发送指示信息,以获取前台应用反馈的用户界面信息。前台应用例如可以是视频播放应用、音频播放应用、桌面应用、设置应用、电视直播应用、电台应用等。前台应用确定用户界面信息的方式可以是,搜索用于显示当前用户界面的文档,得到该用户界面信息。该文档例如可以包括超级文本标记语言(hyper text markup language,HTML)文件、可扩展标记语言(extensible markuplanguage,XML)文件、脚本文件等。
在一些实施例中,用户界面信息可以包括当前用户界面的图标名称、角标信息和/或操控指令信息。
在一些实施例中,当前用户界面如图3所示,用户界面信息可以包括多个应用图标,例如图标1、图标2、图标3等;也可以包括多个功能图标,例如返回图标、用户信息图标、设置图标、无线连接图标、时钟图标等。在一个示例中,当用户说出语音指令“打开图标1”时,该语音信息与当前用户界面上的图标1相关,第一操作类型的操作为执行打开当前用户界面上的图标1的操作。
在一些实施例中,用户界面信息还可以包括序号、角标等信息,例如在图4所示的当前用户界面中,曲目A对应序号1,曲目B对应序号2。在一个示例中,当前用户界面如图4所示,用户说出语音指令“播放第一个”,该语音信息与当前用户界面上的序号1相关,第一操作类型的操作为执行播放当前用户界面上序号1对应的视频或音频的操作。
在一些实施例中,用户界面信息还可以包括当前用户界面的操控指令信息。其中,操控指令信息可以包括以下至少一项:点击(例如单击、双击、长点击等)、返回(包括返回上一级、返回菜单、返回主页等)、滑动(上滑、下滑、左滑、右滑等)、翻页(下一页、上一页、翻到第N页等)。应理解,操控指令信息用于与当前用户界面进行交互。
在一个示例中,当用户说出语音指令“返回主页”时,该语音信息与操控指令信息“返回”相关,第一操作类型的操作为执行“模拟点击”当前用户界面上的返回控件的操作。
需要说明的是,当语音信息与用户界面信息中的任意一个信息相同或相近,即可确定语音信息与用户界面信息相关。
可选的,当第一类型的操作执行失败时,根据语音信息,执行第二类型的操作。也就是说,当声源位置位于目标区域内时,优先执行第一类型的操作。
示例性的,当声源位置位于目标区域内时,用户的语音信息为“播放曲目A”,如果当前用户界面不包括“曲目A”的图标,该语音信息对应的第一类型的操作可能执行失败,则可以调用音乐播放器搜索并播放曲目A。
在本申请实施例中,当声源位置位于目标区域以外时,根据语音信息,执行第二操作类型的操作。在一种实现方式中,根据语义识别得到的意图和槽位,选择对应的程序执行第二操作类型的操作。
下面结合附图介绍本申请实施例提供的一种语音交互的方法。图7是本申请实施例提供的一种语音交互的方法700的示意性流程图。该方法700包括:
S710,获取用户的语音信息和语音信息的声源位置。
S710与S510类似,具体可参考S510的相关描述,在此不再赘述。
S720,根据声源位置,从至少两种操作类型中确定目标操作类型。
需要说明的是,至少两种操作类型可以包括第一操作类型,例如图5所示实施例中的第一操作类型。至少两种操作类型还可以包括第一操作类型,例如图5所示实施例中的第二操作类型。
具体的,当声源位置位于目标区域以内时,确定第一操作类型为目标操作类型;当声源位置位于目标区域以外时,确定第二操作类型为目标操作类型。
本申请实施例还可以通过其他方式确定目标操作类型。
在一种可能的实现方式中,由于语音信息可以指示用户的语义,那么可以根据用户的语义,判断用户是否想要进行可视可说。例如,用户说出语音指令“打开车机界面的音乐”,或者用户说出语音指令“下滑”,由于这些语音指令明确指示需要与用户界面交互,从这些语音指令的语义中即可判断用户需要操控当前用户界面,因此确定第一操作类型为目标操作类型。
在一种可能的实现方式中,可以获取当前用户界面的用户界面信息。当语音信息与用户界面信息相关时,确定用户想要操控当前用户界面,则确定第一操作类型为目标操作类型。
应理解,用户界面信息可以包括当前用户界面中的图标名称、角标信息和/或操控指令信息。
应理解,当语音信息与用户界面信息中的任意一个信息相同或相近,即可确定语音信息与用户界面信息相关。
在一种可能的实现方式中,可以获取用户的视线信息,根据视线信息从至少两种操作类型中确定目标操作类型。其中,视线信息可以指示用户的视线指向,或者可以指示用户的视线落点。当用户的视线信息指示用户的视线指向当前用户界面时,确定第一操作类型为目标操作类型;当用户的视线信息指示用户的视线未指向当前用户界面时,确定第二操作类型为目标操作类型。也就是说,当用户的视线指向当前用户界面时,可以确定用户想要操控当前用户界面。
在本申请实施例中,获取用户的视线信息可以采用视线追踪的方法实现,例如可以利用用户眼球转动时相对位置不变的某些眼部结构和特征作为参照,在位置变化特征和这些不变特征之间提取视线变化参数,然后通过几何模型或映射模型获取视线方向,从而确定用户的视线是否指向了当前用户界面。例如,还可以通过视觉姿态捕捉、面部分析等方式,获取视觉信息,从而确定用户的视线是否指向了当前用户界面。
可选的,当用户的视线停留在当前用户界面上的时间超过预设值时,确定用户具有操控当前用户界面的意图,即确定第一操作类型为目标操作类型,从而可以减少误判。
在一种可能的实现方式中,可以结合用户的语音信息和声源位置,确定用户的意图是否是进行可视可说。具体的,当声源位置位于目标区域内,且语音信息与用户界面信息相关时,确定第一操作类型为目标操作类型。否则,确定第二操作类型为目标操作类型。
在一种可能的实现方式中,可以结合用户的语音信息和视线信息,从至少两种操作类型中确定目标操作类型。具体的,当语音信息与用户界面信息相关,且视线信息指示用户的视线指向当前用户界面时,确定第一操作类型为目标操作类型。否则,确定第二操作类型为目标操作类型。
在一种可能的实现方式中,可以结合用户的语音信息、声源位置和视线信息,从至少两种操作类型中确定目标操作类型。具体的,当声源位置位于目标区域内,且视线信息指示用户的视线指向当前用户界面,且语音信息与用户界面信息相关时,确定第一操作类型为目标操作类型。否则,确定第二操作类型为目标操作类型。
在上述任一种可能的实现方式中,可以结合多种信息,从至少两种操作类型中确定目标操作类型,从而可以准确判断用户的意图,从而正确执行语音信息指示的操作,有利于提升用户在人机交互中的使用体验。
S730,根据目标操作类型和语音信息,确定第一操作。
具体的,在确定目标操作类型后,可以根据该目标操作类型和语音信息,确定第一操作。
在一个示例中,目标操作类型为第一操作类型,用户表达“播放曲目A”,当前用户界面包括“曲目A”的图标,则第一操作为:“模拟点击”当前用户界面上的“曲目A”的图标。
在一个示例中,目标操作类型为第二操作类型,用户表达“播放曲目A”,则第一操作为:调用音乐播放器,搜索并播放曲目A的操作;第一操作还可以为:询问用户想要听哪个歌手唱的曲目A,然后调用音乐播放器,搜索并播放该歌手的曲目A的操作。
S740,执行第一操作。
下面结合附图介绍本申请实施例提供的一种语音交互的方法。图8是本申请实施例提供的一种语音交互的方法800的示意性流程图。该方法800包括:
S810,获取用户的语音信息和用户的视线信息。
应理解,在S510中已经对获取用户的语音信息的方式进行了描述,此处可以参考S510中的相关描述,在此不再赘述。
在本实施例中,获取用户的视线信息可以采用视线追踪的方法实现,例如可以利用用户眼球转动时相对位置不变的某些眼部结构和特征作为参照,在位置变化特征和这些不变特征之间提取视线变化参数,然后通过几何模型或映射模型获取视线方向,从而确定用户的视线是否指向了当前用户界面。例如,还可以通过视觉姿态捕捉、面部分析等方式,获取视线信息。
应理解,视线信息可以指示用户的视线所指示的方向或范围,或者指示用户的视线落点在当前用户界面上的位置。
S820,根据语音信息和视线信息,确定当前用户界面中的目标组件。
需要说明的是,目标组件可以为当前用户界面中的图标,例如功能图标、应用图标、菜单图标等。
需要说明的是,当用户进行可视可说时,当前用户界面中可能存在同名的组件,或者可能存在名称相近的组件。此时,电子设备可能不清楚用户进行可视可说的执行对象,电子设备可以通过用户的视线信息,确定可视可说的执行对象,即目标组件。
在一些实施例中,语音信息可以与多个组件相关。具体的,可以对语音信息进行语义识别,以及获取当前用户界面的用户界面信息,从而确定语音信息指示了当前用户界面中的哪些组件。
例如,在家庭场景中,用户说出语音指令:开启摄像头,该语音信息指示了摄像头,与摄像头相关。摄像头的数量可以为多个,包括摄像头1、摄像头2等,该语音信息可以指示摄像头1、摄像头2,与摄像头1、摄像头2相关。又例如,语音指令“播放音乐”与可以播放音乐的组件相关,例如音乐播放器、视频播放器等可以播放音乐的应用。
可选的,语音信息与当前用户界面中的第一组件和第二组件相关。当视线信息指示用户的视线指向第一组件时,确定第一组件为目标组件。当视线信息指示用户的视线指向第二组件时,确定第二组件为目标组件。
需要说明的是,视线信息指示用户的视线指向某一区域,或某一范围,在该区域(或范围中)包括第一组件的至少部分时,确定第一组件为目标组件。
可选的,第一组件和第二组件的名称相同或相近。
S830,根据所述语音信息,操控目标组件。
具体的,可以对语音信息进行语义识别,得到用户的语义,从而根据用户的语音操控目标组件。操控组件的方式可以是根据语音信息,执行“模拟点击”等可视可说相关的操作。
图9示出了本申请实施例提供的一种用户界面的示意图。参考图9所示的当前用户界面,在智能家居场景中,用户可以通过应用控制家庭中的智能设备。在该当前用户界面中,可以包括多个同名的组件,例如摄像头1和摄像头2,电视1和电视2,音响1和音响2等。视线落点910可以表示用户的视线信息。当用户说出语音指令“开启摄像头”时,可以根据视线落点910的位置确定用户想要开启的是哪一个摄像头。例如,视线落点910的范围与“摄像头1”的图标的部分相重叠,确定用户想要开启摄像头1。又例如,用户想要操控音响2,用户可以看向“音响2”的图标并通过语音指令“播放音乐”,操控音响2。
图10是本申请实施例提供的一种语音交互的方法1000的示意图。该方法1000包括:
S1010,接收到用户的语音信息。
S1010与S510类似,具体可参考S510的相关描述,在此不再赘述。
S1020,确定当前用户界面是否存在同名组件。
具体的,可以获取当前用户界面的用户界面信息,判断当前用户界面是否存在名称相同或相近的组件。其中,组件可以包括图标、角标、序号、标题、操控指令信息中的一项或多项。
S1030,如果当前用户界面不存在同名组件,确定目标组件为语音信息指示的组件。
由于当前用户界面不存在同名组件,语音信息所指示的组件为唯一的组件,即用户想要操控的组件,此时根据语音信息,正常执行可视可说的相关操作即可。
S1040,确定用户的视线是否指向目标范围。
具体的,可以获取用户的视线信息,根据视线信息确定用户的视线是否指向当前用户界面上的目标范围。
可选的,当用户的视线停留在目标范围上的时间超过预设值时,确定用户的视线指向目标范围,从而可以减少误判。
当用户的视线未指向目标范围时,执行S1050;当用户的视线指向目标范围时,执行S1060。
S1050,确定目标组件为第一组件。
假设当前用户界面上存在第一组件和第二组件,且第一组件和第二组件的名称相同或相近。当用户的视线未指向一个确定的目标范围时,可以将默认位于第一个的第一组件作为目标组件,即用户想要操控的组件。
可选的,通过询问用户的方式,确定用户想要操控的目标组件。
S1060,确定目标范围内的组件为目标组件。
当用户的视线指向一个确定的目标范围时,可以将该目标范围内的组件,或者与该目标范围有部分重叠的组件作为目标组件。
下面结合附图介绍本申请实施例提供的一种语音交互的方法。图11是本申请实施例提供的一种语音交互的方法1100的示意性流程图。该方法1100包括:
S1110,获取用户的语音信息。
S1110与S510类似,具体可参考S510的相关描述,在此不再赘述。
S1120,确定目标组件的类型。
具体的,可以预先设置用户界面中的组件的类型,标记哪些组件为可调节类组件。在接收到用户的语音信息时,先确定与语音信息相关的目标组件,然后确定该目标组件的类型。
可选的,当当前用户界面存在多个同名组件时,可以根据图8所示实施例,确定与语音信息相关的目标组件。
可选的,确定语音信息指示的第二操作的类型。具体的,可以通过语义识别的方式,确定该语音信息指示的第二操作,再确定该第二操作的类型。根据第二操作的类型,确定是否检测用户的隔空手势。具体的,当第二操作的类型为调节类操作时,确定检测用户的隔空手势,否则不检测用户的隔空手势。
S1130,根据目标组件的类型,确定是否检测用户的隔空手势。
具体的,当目标组件为可调节类组件时,检测用户的隔空手势。否则,不检测用户的隔空手势。
可选的,响应于用户的隔空手势,操控目标组件。
可选的,隔空手势包括用户手指隔空向预设方向滑动。该预设方向例如可以是向左滑动、向右滑动,向上滑动、向后滑动,可以根据实际需求确定,本申请实施例对此不予限定。
可选的,当确定检测用户的隔空手势时,在当前用户界面显示提示信息,该提示信息用于提示用户进行隔空手势操作。
可选的,当确定检测用户的隔空手势时,在当前用户界面显示提示窗口,所述提示窗口包括所述目标组件,或者在所述当前用户界面中高亮显示所述目标组件。
下面结合图12和图13介绍本申请实施例提供的语音交互的方法。图12和图13是本申请实施例提供的一种用户界面的示意图。参考图12,在智能家居场景中,用户可以通过应用控制家庭中的智能设备。
以用户选择卧室遮阳模块为例进行说明。用户可以说出语音指令“窗帘全开”或“窗帘全关”,从而控制窗帘的开合。用户还可以说出语音指令“打开布帘组”,从而控制布帘组的开度。当用户说出与“布帘组”相关的语音指令时,可以在当前用户界面显示提示信息,该提示信息用于提示用户使用隔空手势控制布帘组的开度。用户可以使用手指隔空向左滑动,从而减小布帘组的开度;用户也可以使用手指隔空向右滑动,从而增大布帘组的开度。
在一些实施例中,当用户说出与“布帘组”相关的语音指令时,当前用户界面上的“布帘组”组件可以被高亮显示,以提示用户正在控制“布帘组”组件。
参考图13,在一些实施例中,当用户说出与“布帘组”相关的语音指令时,还可以在当前用户界面上显示提示窗口,该提示窗口可以包括与语音指令相关的组件,即“布帘组”组件,以提示用户正在控制“布帘组”组件。
可选的,该提示窗口还可以包括提示信息,例如包括用户的手指和表示预设方向的箭头,以提示用户使用隔空手势控制“布帘组”组件。
可选的,提示信息也可以直接显示在当前用户界面上。
以上,结合图1至图13详细说明了本申请实施例的界面的控制方法。以下,结合图14详细说明本申请实施例提供的界面的控制装置。应理解,装置实施例的描述与方法实施例的描述相互对应,因此,未详细描述的内容可以参见上文方法实施例,为了简洁,这里不再赘述。
可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图14示出本申请实施例提供的一种语音交互的装置的一种可能的组成示意图,如图14所示,该语音交互的装置1400可以包括:获取模块1410、处理模块1420。
其中,获取模块1410可以用于获取用户的语音信息、声源位置、视线信息和/或当前用户界面的用户界面信息。获取模块1410可以用于执行方法500中的S510,方法700中的S720,方法800中的S810,方法1000中的S1010,方法1100中的S1110。
处理模块1420可以用于执行方法500中的S520-S540,方法700中的S720-S740,方法800中的S820、S830,方法1000中的S1020-S1060,方法1100中的S1120、S1130。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本实施例提供的电子设备,用于执行上述语音交互的方法,因此可以达到与上述实现方法相同的效果。
在采用集成的单元的情况下,电子设备可以包括处理模块、存储模块和通信模块。其中,处理模块可以用于对电子设备的动作进行控制管理,例如,可以用于支持电子设备执行上述各个单元执行的步骤。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块,可以用于支持电子设备与其他设备的通信。
其中,处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理(digital signal processing,DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。
在一个实施例中,当处理模块为处理器,存储模块为存储器时,本实施例所涉及的电子设备可以为具有图1所示结构的设备。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的语音交互的方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的语音交互的方法。
本申请实施例提供了一种终端设备,该终端设备具有实现上述任一方法实施例中终端设备的行为的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能中各个子功能相对应的模块。具体地,该终端设备可以是用户设备。
本申请实施例还提供了一种通信系统,该系统包括上述任一实施例所述的网络设备(如云服务器)和终端设备。
本申请实施例还提供了一种通信系统,该系统包括上述任一实施例所述的电子设备和服务器。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时实现上述任一方法实施例中与终端设备相关的方法流程。具体地,该计算机可以为上述终端设备。
本申请实施例还提供了一种计算机程序或包括计算机程序的一种计算机程序产品,该计算机程序在某一计算机上执行时,将会使所述计算机实现上述任一方法实施例中与终端设备相关的方法流程。具体地,该计算机可以为上述终端设备。
本申请实施例还提供了一种装置,应用于终端设备中,所述装置与存储器耦合,用于读取并执行所述存储器中存储的指令,使得所述终端设备能执行上述任一方法实施例中与终端设备相关的方法流程。所述存储器可以集成在所述处理器中,也可以独立于所述处理器之外。所述装置可以为所述终端设备上的芯片(如片上系统(system on a chip,SoC))。
应理解,本申请实施例中提及的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic rAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double datarate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
还应理解,本文中涉及的第一、第二以及各种数字编号仅为描述方便进行的区分,并不用来限制本申请的范围。
本申请中,“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,“a、b、或c中的至少一项(个)”,或,“a、b、和c中的至少一项(个)”,均可以表示:a、b、c、a-b(即a和b)、a-c、b-c、或a-b-c,其中a、b、c分别可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,部分或全部步骤可以并行执行或先后执行,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,网络设备或者终端设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请各方法实施例之间相关部分可以相互参考;各装置实施例所提供的装置用于执行对应的方法实施例所提供的方法,故各装置实施例可以参考相关的方法实施例中的相关部分进行理解。
本申请各装置实施例中给出的装置结构图仅示出了对应的装置的简化设计。在实际应用中,该装置可以包含任意数量的发射器,接收器,处理器,存储器等,以实现本申请各装置实施例中该装置所执行的功能或操作,而所有可以实现本申请的装置都在本申请的保护范围之内。
本申请各实施例中提供的消息/帧/指示信息、模块或单元等的名称仅为示例,可以使用其他名称,只要消息/帧/指示信息、模块或单元等的作用相同即可。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本申请实施例中可能采用术语第一、第二、第三等来描述各种消息、请求和终端,但这些消息、请求和终端不应限于这些术语。这些术语仅用来将消息、请求和终端彼此区分开。例如,在不脱离本申请实施例范围的情况下,第一终端也可以被称为第二终端,类似地,第二终端也可以被称为第一终端。
取决于语境,如在此所使用的词语“如果”或“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关硬件来完成,所述的程序可以存储于一个设备的可读存储介质中,该程序在执行时,包括上述全部或部分步骤,所述的存储介质,如:FLASH、EEPROM等。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,不同的实施例可以进行组合,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何组合、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (19)

1.一种语音交互的方法,其特征在于,所述方法应用于电子设备,所述方法包括:
获取用户的语音信息和所述语音信息的声源位置;
根据所述声源位置,从至少两种操作类型中确定目标操作类型,所述至少两种操作类型包括第一操作类型,所述第一操作类型的操作为操控当前用户界面的操作;
根据所述目标操作类型和所述语音信息,确定第一操作;
执行所述第一操作。
2.根据权利要求1所述的方法,其特征在于,所述至少两种操作类型包括第二操作类型,所述第二操作类型的操作为操控所述电子设备的操作。
3.根据权利要求2所述的方法,其特征在于,所述电子设备包括显示屏,所述显示屏显示所述当前用户界面,
其中,所述根据所述声源位置,从至少两种操作类型中确定目标操作类型,包括:
当所述声源位置位于目标区域内时,确定所述第一操作类型为所述目标操作类型,所述目标区域为与所述显示屏成预设角度的扇形区域;
当所述声源位置位于所述目标区域以外时,确定所述第二操作类型为所述目标操作类型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述当前用户界面的用户界面信息;
其中,所述当所述声源位置位于所述目标区域内时,确定所述第一操作类型为所述目标操作类型,包括:
当所述声源位置位于所述目标区域内,且所述语音信息与所述用户界面信息相关时,确定所述第一操作类型为所述目标操作类型。
5.根据权利要求4所述的方法,其特征在于,所述用户界面信息包括所述当前用户界面中的图标名称、角标信息和/或操控指令信息。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述用户的视线信息;
其中,所述当所述声源位置位于所述目标区域内时,确定所述第一操作类型为所述目标操作类型,包括:
当所述声源位置位于所述目标区域内,且所述视线信息指示所述用户的视线指向所述当前用户界面时,确定所述第一操作类型为所述目标操作类型。
7.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
获取所述用户的视线信息;
其中,所述当所述声源位置位于所述目标区域内,且所述语音信息与所述用户界面信息相关时,确定所述第一操作类型为所述目标操作类型,包括:
当所述声源位置位于所述目标区域内,且所述视线信息指示所述用户的视线指向所述当前用户界面,且所述语音信息与所述用户界面信息相关时,确定所述第一操作类型为所述目标操作类型。
8.一种语音交互的方法,其特征在于,所述方法包括:
获取用户的语音信息和所述用户的视线信息;
根据所述语音信息和视线信息,确定当前用户界面中的目标组件;
根据所述语音信息,操控所述目标组件。
9.根据权利要求8所述的方法,其特征在于,所述语音信息与所述当前用户界面中的第一组件和第二组件相关;
其中,所述根据所述语音信息和视线信息,确定当前用户界面中的目标组件,包括:
当所述视线信息指示所述用户的视线指向所述第一组件时,确定所述第一组件为所述目标组件;
当所述视线信息指示所述用户的视线指向所述第二组件时,确定所述第二组件为所述目标组件。
10.根据权利要求8或9所述的方法,其特征在于,所述第一组件和所述第二组件的名称相同或相近。
11.一种语音交互的方法,其特征在于,所述方法包括:
获取用户的语音信息,所述语音信息与当前用户界面中的目标组件相关;
确定所述目标组件的类型;
根据所述目标组件的类型,确定是否检测所述用户的隔空手势。
12.根据权利要求11所述的方法,其特征在于,所述根据所述目标组件的类型,确定是否检测所述用户的隔空手势,包括:
当所述目标组件为可调节类组件时,检测所述用户的隔空手势。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:响应于所述用户的隔空手势,操控所述目标组件。
14.根据权利要求11-13中任一项所述的方法,其特征在于,所述隔空手势包括用户手指隔空向预设方向滑动。
15.根据权利要求11-14中任一项所述的方法,其特征在于,所述方法还包括:
当确定检测所述用户的隔空手势时,在所述当前用户界面显示提示信息,所述提示信息用于提示所述用户进行隔空手势操作。
16.根据权利要求11-15中任一项所述的方法,其特征在于,所述方法还包括:
当确定检测所述用户的隔空手势时,在所述当前用户界面显示提示信息,所述提示信息包括所述目标组件,或者在所述当前用户界面中高亮显示所述目标组件。
17.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于调用所述程序指令来执行如权利要求1至7中任一项所述的方法,或执行如权利要求8-10中任一项所述的方法,或执行如权利要求11-16中任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如权利要求1至7中任一项所述的方法,或执行如权利要求8-10中任一项所述的方法,或执行如权利要求11-16中任一项所述的方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1至7中任一项所述的方法,或执行如权利要求8-10中任一项所述的方法,或执行如权利要求11-16中任一项所述的方法。
CN202211684847.7A 2022-12-27 语音交互的方法和电子设备 Pending CN118259863A (zh)

Publications (1)

Publication Number Publication Date
CN118259863A true CN118259863A (zh) 2024-06-28

Family

ID=

Similar Documents

Publication Publication Date Title
US20220223154A1 (en) Voice interaction method and apparatus
US20220413695A1 (en) Split-screen display method and electronic device
US8619095B2 (en) Automatically modifying presentation of mobile-device content
CN110543289B (zh) 控制音量的方法和电子设备
CN110119296B (zh) 切换父页面和子页面的方法、相关装置
CN109154858B (zh) 智能电子设备及其操作方法
CN111176506A (zh) 一种屏幕显示方法及电子设备
CN110503959B (zh) 语音识别数据分发方法、装置、计算机设备及存储介质
US11914850B2 (en) User profile picture generation method and electronic device
CN111240547A (zh) 跨设备任务处理的交互方法、电子设备及存储介质
CN114255745A (zh) 一种人机交互的方法、电子设备及系统
CN112269853B (zh) 检索处理方法、装置及存储介质
KR20160055337A (ko) 텍스트 표시 방법 및 그 전자 장치
KR20130010590A (ko) 전자기기 및 전자기기의 동작 방법
CN111370025A (zh) 音频识别方法、装置及计算机存储介质
CN112052897A (zh) 多媒体数据拍摄方法、装置、终端、服务器及存储介质
WO2022134691A1 (zh) 一种终端设备中啸叫处理方法及装置、终端
WO2021196980A1 (zh) 多屏交互方法、电子设备及计算机可读存储介质
CN115686401A (zh) 一种投屏方法、电子设备及系统
WO2022222688A1 (zh) 一种窗口控制方法及其设备
CN114690998B (zh) 图片处理方法及电子设备
CN118259863A (zh) 语音交互的方法和电子设备
CN114118408A (zh) 图像处理模型的训练方法、图像处理方法、装置及设备
CN114281937A (zh) 嵌套实体识别模型的训练方法、嵌套实体识别方法及装置
CN117764853B (zh) 人脸图像增强方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication