CN117690423A - 人机交互方法及相关装置 - Google Patents

人机交互方法及相关装置 Download PDF

Info

Publication number
CN117690423A
CN117690423A CN202211079452.4A CN202211079452A CN117690423A CN 117690423 A CN117690423 A CN 117690423A CN 202211079452 A CN202211079452 A CN 202211079452A CN 117690423 A CN117690423 A CN 117690423A
Authority
CN
China
Prior art keywords
user
voice input
wake
terminal
free instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211079452.4A
Other languages
English (en)
Inventor
李凌飞
沈波
任亮亮
张跃
徐平
吴奇强
吴雪晨
谭彬林
耿安峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202211079452.4A priority Critical patent/CN117690423A/zh
Priority to PCT/CN2023/116615 priority patent/WO2024051611A1/zh
Publication of CN117690423A publication Critical patent/CN117690423A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供了人机交互方法及相关装置,该方法包括:终端接收来自用户的第一语音输入,在上述第一语音输入与预定义的第一免唤醒指令语义相似的情况下,对第一语音输入做出相应的响应,也即,无需预先唤醒终端,只要接收到的第一语音输入与预定义的第一免唤醒指令语义相似,终端即可执行第一语音输入对应的操作,解决了第一免唤醒指令固定且有限导致的终端无响应的问题,相比于终端只对预定义的第一免唤醒指令做出响应,大大提高了用户的交互体验。

Description

人机交互方法及相关装置
技术领域
本申请涉及终端技术领域,尤其涉及人机交互方法及相关装置。
背景技术
随着智能终端的普及程度越来越高,语音交互成为常用且重要的人机交互方式之一。目前,语音交互大多需要用户先通过预设的唤醒词唤醒终端,进而实现后续的交互,这种方式比较繁琐,进而用户体验不佳。还有一部分厂家提供了免唤醒功能,也即,无需预先唤醒终端,直接输入预定义的免唤醒指令即可,但是预定义的免唤醒指令固定且有限,并且容易在用户聊天的时候误唤醒,影响用户体验。
因此,希望提供人机交互方法,以提高用户的交互体验。
发明内容
本申请提供了人机交互方法及相关装置,以期提高用户的交互体验。
第一方面,本申请提供了一种人机交互方法,该方法可以由终端来执行,或者,也可以由配置在终端中的部件(如芯片、芯片系统等)执行,或者,还可以由能实现全部或部分终端功能的逻辑模块或软件实现,本申请对此不作限定。
示例性地,该方法包括:接收来自用户的第一语音输入;在确定上述第一语音输入与预定义的第一免唤醒指令语义相似的情况下,对上述第一语音输入做出相应的响应,上述第一免唤醒指令用于在不输入预设的唤醒词的情况下指示终端执行第一免唤醒指令对应的操作。
基于上述技术方案,终端接收来自用户的第一语音输入,在上述第一语音输入与预定义的第一免唤醒指令语义相似的情况下,对第一语音输入做出相应的响应,也即,在未预先唤醒终端的情况下,即使用户语音输入的语句不是预定义的第一免唤醒指令,只要与预定义的第一免唤醒指令语义相似,终端便可以做出响应,有利于解决预定义的第一免唤醒指令固定且有限导致的终端无响应的问题,进而有利于提高用户的交互体验。
结合第一方面,在第一方面的某些可能的实现方式中,在对第一语音输入做出相应的响应之前,上述方法还包括:向用户确认第一语音输入的语义。
终端接收到第一语音输入之后,可以向用户确认一下识别出的第一语音输入的语义是否正确,这样一方面可以提高准确性,另一方面,可以避免用户误提及第一语音输入导致终端做出响应,例如,如果用户是误提及第一语音输入,则可以在终端向用户确认时,做出否定的回复,以避免终端继续执行对应的操作,有利于提高用户的体验。
可选地,向用户确认第一语音输入的语义,包括:通过提示框和/或语音播报,向用户确认第一语音输入的语义。
终端可以通过提示框向用户确认第一语音输入的语义,提示框中包含第一语音输入的语义,还可以通过语音播报,向用户确认第一语音输入的语义,还可以通过提示框和语音播报结合的方式,向用户确认第一语音输入的语义。通过提供上述多种确认方式,大大提高了终端向用户确认语义时的灵活性。
结合第一方面,在第一方面的某些可能的实现方式中,上述方法还包括:向用户提示第一免唤醒指令。
终端还可以向用户提示下一次直接使用预定义的第一免唤醒指令。例如,终端可以通过提示框和/或语音播报,向用户提示第一免唤醒指令。本申请对提示方式不作限定。
结合第一方面,在第一方面的某些可能的实现方式中,在接收来自用户的第一语音输入之前,上述方法还包括:接收来自用户的第二语音输入;在第二语音输入与第一免唤醒指令语义相似的情况下,向用户确认第二语音输入的语义;响应于用户确认第二语音输入的语义的操作,生成与第二语音输入对应的第二免唤醒指令。
终端通过上述方法来学习并生成第二免唤醒指令,第二免唤醒指令可以用于在不输入预设的唤醒词的情况下指示终端执行对应的操作。具体地,终端接收到来自用户的第二语音输入后,在第二语音输入与第一免唤醒指令语义相似的情况下,向用户确认一下是否是上述语义,如果用户确认第二语音输入的语义正确,则生成与其对应的第二免唤醒指令,以便于下次终端未被预先唤醒的情况下,再次接收到第二语音输入时,可以对其做出响应。换言之,大大增加了可以用于在不输入预设的唤醒词的情况下指示终端执行对应的操作的免唤醒指令,进而有利于提高用户的交互体验。
结合第一方面,在第一方面的某些可能的实现方式中,第一语音输入与预定义的第一免唤醒指令语义相似,包括:第一语音输入与第二免唤醒指令相同。
终端接收到第一语音输入之后,确定第一语音输入与第一免唤醒指令是否语义相似,一种方式是,可以基于第一语音输入与预定义的第一免唤醒指令做语义分析确定二者是否语义相似。另一种方式是,终端可以判断第一语音输入与生成的第二免唤醒指令是否相同,可以理解,第二免唤醒指令是基于第二语音输入生成的与第一免唤醒指令语义相似的指令,如果第一语音输入与生成的第二免唤醒指令相同,则第一语音输入与第一免唤醒指令语义相似,这样终端也可以对第一语音输入做出响应。上述两种方式可以结合使用,也可以分开使用,大大提高了终端确定第一语音输入与第一免唤醒指令是否语义相似的灵活性。
结合第一方面,在第一方面的某些可能的实现方式中,接收来自用户的第二语音输入,包括:在预设时长范围内连续多次接收到第二语音输入。
换言之,终端在预设时长范围内连续多次接收到第二语音输入的情况下,再向用户确认第二语音输入的语义,这样一来,可以有效地避免用户误提及第二语音输入的情况下,终端误以为是用户希望执行相应的操作,有利于提高用户的交互体验。
第二方面,本申请提供了一种人机交互方法,该方法可以由终端来执行,或者,也可以由配置在终端中的部件(如芯片、芯片系统等)执行,或者,还可以由能实现全部或部分终端功能的逻辑模块或软件实现,本申请对此不作限定。
示例性地,该方法包括:接收来自用户的第一语音输入;在未接收到预设的唤醒词,但第一语音输入包含目标对象的情况下,对第一语音输入做出相应的响应,上述目标对象是在第一语音输入之前接收到的其他语音输入中被提及次数达到预设门限的对象,上述预设的唤醒词用于唤醒终端。
基于上述技术方案,终端未被预先唤醒的情况下,接收到来自用户的第一语音输入后,若该第一语音输入中包含之前语音输入中被提及次数达到预设门限的对象,则对其做出相应的响应,也即,通过对之前语音输入的学习,保存被提及次数达到预设门限的目标对象后,只要接收到的语音输入中包含上述目标对象,即使不预先唤醒终端,终端也可以对其做出相应的响应,节省了唤醒终端的时间,简化了交互流程,有利于提高用户的交互体验。
结合第二方面,在第二方面的某些可能的实现方式中,在接收来自用户的第一语音输入之前,上述方法还包括:接收来自用户的预设的唤醒词;接收来自用户的第二语音输入;在第二语音输入中包含的第一对象在第二语音输入及其之前的语音输入中被提及的次数超过预设门限的情况下,将第一对象确定为目标对象。
终端可以记录第一对象在语音输入中被提及的次数,如果第一对象在语音输入中被提及的次数超过预设门限,则将其确定为目标对象,以便于用户后续可以在未预先唤醒终端的情况下,发出包含目标对象的语音输入,终端接收到上述语音输入后,便可以做出响应,也即,无需预先唤醒终端,简化了交互流程,有利于提高用户的交互体验。
结合第二方面,在第二方面的某些可能的实现方式中,上述方法还包括:基于目标对象,生成包含目标对象的免唤醒指令;向用户提示免唤醒指令。
终端可以基于目标对象,生成包含目标对象的免唤醒指令,并向用户提示下次可以直接使用上述免唤醒指令,无需预先唤醒终端,终端即可以做出相应的响应。其中,终端可以通过提示框和/或语音播报,向用户提示上述免唤醒指令。本申请对提示方式不作限定。
第三方面,本申请提供了一种人机交互方法,该方法可以由终端来执行,或者,也可以由配置在终端中的部件(如芯片、芯片系统等)执行,或者,还可以由能实现全部或部分终端功能的逻辑模块或软件实现,本申请对此不作限定。
示例性地,该方法包括:接收来自用户的第一语音输入,该第一语音输入属于第一指令集合,该第一指令集合中的指令与预定义的免唤醒指令语义相似;在满足预设条件的情况下,响应第一语音输入。
基于上述技术方案,终端接收到与预定义的免唤醒指令语义相似的第一语音输入后,在满足预设条件的情况下,响应第一语音输入,也就是说,对于与预定义的免唤醒指令语义相似的第一语音输入,满足预设条件,终端才会做出相应的响应,并不是任何情况下都能响应,这样可以避免用户误提及第一语音输入导致终端响应。可以想象,第一语音输入可能相对预定义的免唤醒指令来说比较口语化,如果任何情况下都做出响应,很可能出现用户交谈过程中频繁触发终端响应的情况,因此,通过设置预设条件,在满足预设条件的情况下,终端才会做出相应的响应,有利于大大提高用户的交互体验。
结合第三方面,在第三方面的某些可能的实现方式中,上述预设条件包括以下至少一项:与终端距离处于预设范围内的用户的数量不超过阈值;用户处于预定义的位置;第一语音输入所来自的用户不属于预设人群;或,接收到第一语音输入的时间落入预设时段。
与终端距离处于预设范围内的用户的数量不超过阈值,也即,在与终端距离处于预设范围内的用户的数量较少的情况下,可以响应上述第一语音输入,不难理解,如果周围用户数量较少,则用户误提及第一语音输入的可能性越小,也即,用户可能确实是希望终端执行对应的操作,相对地,如果周围用户数量较多,则用户误提及第一语音输入的可能性越大。用户处于预定义的位置,例如,终端响应来自距离自身最近的用户的第一语音输入,或,用户处于景区,希望终端提高服务的可能性更大等,终端响应来自用户的第一语音输入。第一语音输入所来自的用户不属于预设人群,预设人群例如小孩、老人等,可以理解,对于预设人群,其发出的指令可能存在危险性,终端可以不对其做出响应。接收到第一语音输入的时间落入预设时段,预设时段例如可以是上班时段,这些时段终端可以响应上述第一语音输入,如果是其他时段,终端可以只响应预定义的免唤醒指令。综上,上述预设条件可以有效地避免用户误提及第一语音输入导致终端响应。
结合第三方面,在第三方面的某些可能的实现方式中,上述方法应用于车,上述与终端距离处于预设范围内的用户的数量不超过阈值,包括:车内存在一个乘客;或,上述用户处于预定义的位置,包括:用户处于主驾的位置。
第四方面,本申请提供了一种人机交互方法,该方法可以由终端来执行,或者,也可以由配置在终端中的部件(如芯片、芯片系统等)执行,或者,还可以由能实现全部或部分终端功能的逻辑模块或软件实现,本申请对此不作限定。
示例性地,该方法包括:在未接收到来自用户的预设的唤醒词的情况下,根据来自用户的第一语音输入,确定第一语音输入用于请求导航;向用户询问请求导航的目的地;基于用户反馈的目的地,为用户提供导航服务。
基于上述技术方案,在未预先唤醒终端的情况下,终端接收到来自用户的第一语音输入后,发现其意图是想请求导航,便可以向用户询问导航的目的地,并根据用户反馈的目的地,向用户提供导航服务,无需预先唤醒终端,简化了交互流程,有利于提高用户的交互体验。
结合第四方面,在第四方面的某些可能的实现方式中,上述方法还包括:生成包含目的地的免唤醒指令;向用户提示上述免唤醒指令。
终端可以生成包含上述目的地的免唤醒指令,并向用户提示下次可以直接使用上述免唤醒指令,终端便可以做出相应的响应。其中,终端可以通过提示框和/或语音播报,向用户提示上述免唤醒指令。本申请对提示方式不作限定。
第五方面,本申请提供了一种人机交互方法,该方法可以由终端来执行,或者,也可以由配置在终端中的部件(如芯片、芯片系统等)执行,或者,还可以由能实现全部或部分终端功能的逻辑模块或软件实现,本申请对此不作限定。
示例性地,该方法包括:接收来自用户的第一语音输入,该第一语音输入不属于预定义的免唤醒指令;在第一语音输入与预定义的免唤醒指令中的第一免唤醒指令语义相似的情况下,引导用户输入上述第一免唤醒指令。
基于上述技术方案,终端接收到第一语音输入,该第一语音输入不属于预定义的免唤醒指令,但该第一语音输入与预定义的免唤醒指令中的第一免唤醒指令语义相似,则终端引导用户输入对应的第一免唤醒指令,以便于用户输入第一免唤醒指令后,终端对其做出相应的响应,相比于终端不响应也不提示,可以大大提高用户的交互体验。
结合第五方面,在第五方面的某些可能的实现方式中,上述引导用户输入第一免唤醒指令,包括:通过提示框和/或语音播报,引导用户输入第一免唤醒指令。
终端可以通过提示框引导用户输入第一免唤醒指令,提示框中包含第一免唤醒指令,还可以通过语音播报,引导用户输入第一免唤醒指令,还可以通过提示框和语音播报结合的方式,引导用户输入第一免唤醒指令。通过提供上述多种方式,大大提高了终端引导用户输入第一免唤醒指令时的灵活性。
结合第五方面,在第五方面的某些可能的实现方式中,上述通过提示框和/或语音播报,引导用户输入第一免唤醒指令,包括:通过提示框提示用户输入第一免唤醒指令,该提示框中包含第一免唤醒指令;在预设时长范围内通过提示框提示的次数达到预设门限,但用户未发出第一免唤醒指令的情况下,通过语音播报,引导用户输入第一免唤醒指令。
第六方面,本申请提供了一种计算机设备,包括用于实现第一方面至第五方面以及第一方面至第五方面任一种可能实现方式中的方法的单元。应理解,各个单元可通过执行计算机程序来实现相应的功能。
第七方面,本申请提供了一种计算机设备,包括处理器,所述处理器用于执行第一方面至第五方面以及第一方面至第五方面任一种可能实现方式中所述的方法。
所述计算机设备还可以包括存储器,用于存储计算机可读指令,所述处理器读取所述计算机可读指令使得所述计算机设备可以实现上述各方面中描述的方法。所述计算机设备还可以包括通信接口,所述通信接口用于该计算机设备与其它设备进行通信,示例性地,通信接口可以是收发器、电路、总线、模块或其它类型的通信接口。
第八方面,本申请提供了一种车辆,用于实现第一方面至第五方面以及第一方面至第五方面任一种可能实现方式中的方法,或,包括第六方面或第七方面所述的任意一种计算机设备。
第九方面,本申请提供了一种芯片系统,该芯片系统包括至少一个处理器,用于支持实现上述第一方面至第五方面以及第一方面至第五方面任一种可能实现方式中所涉及的功能,例如,例如接收或处理上述方法中所涉及的数据和/或信息。
在一种可能的设计中,所述芯片系统还包括存储器,所述存储器用于保存程序指令和数据,存储器位于处理器之内或处理器之外。
该芯片系统可以由芯片构成,也可以包含芯片和其它分立器件。
第十方面,本申请提供了一种计算机可读存储介质,所述存储介质中存储有计算机可读指令,当所述计算机可读指令被计算机执行时,使得计算机实现第一方面至第五方面以及第一方面至第五方面任一种可能实现方式中的方法。
第十一方面,本申请提供了一种计算机程序产品,所述计算机程序产品包括:计算机可读指令,当所述计算机可读指令被计算机运行时,使得计算机实现第一方面至第五方面以及第一方面至第五方面任一种可能实现方式中的方法。
应当理解的是,本申请的第六方面至第十一方面与本申请的第一方面至第五方面的技术方案相对应,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
图1是本申请实施例提供的终端的结构示意图;
图2是适用于本申请实施例提供的人机交互方法的场景示意图;
图3是一种已知的人机交互方法的示意图;
图4是另一种已知的人机交互方法的示意图;
图5是本申请实施例提供的第一种人机交互方法的示意性流程图;
图6是本申请实施例提供的第一种人机交互方法的交互示意图;
图7是本申请实施例提供的对语音输入的用语进行学习的流程示意图;
图8是本申请实施例提供的对语音输入的用语进行学习的又一流程示意图;
图9是本申请实施例提供的第二种人机交互方法的示意性流程图;
图10是本申请实施例提供的第二种人机交互方法的交互示意图;
图11是本申请实施例提供的对第二语音输入中的第一对象进行学习的流程示意图;
图12是本申请实施例提供的第三种人机交互方法的示意性流程图;
图13是本申请实施例提供的根据场景确定是否响应第一语音输入流程示意图;
图14是本申请实施例提供的第四种人机交互方法的流程示意图;
图15是本申请实施例提供的引导用户发出第一免唤醒指令的交互示意图;
图16是本申请实施例提供的第五种人机交互方法的示意性流程图;
图17是本申请实施例提供的第五种人机交互方法的交互示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
本申请实施例提供的方法可以应用于手机、平板电脑、智能手表、智能音箱、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、个人计算机(personal computer,PC)、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digitalassistant,PDA)、分布式设备等终端上。
需要说明的是,本申请实施例对终端的具体类型不作任何限定。
示例性地,图1示出了终端100的结构示意图。如图1所示,该终端100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP)、微控制单元(microcontroller unit,MCU)、调制解调处理器、图形处理器(graphics processing unit,GPU)、图像信号处理器(image signalprocessor,ISP)、控制器、存储器、视频编解码器、数字信号处理器(digital signalprocessor,DSP)、基带处理器及神经网络处理器(neural-network processing unit,NPU)等中的一个或多个。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,应用处理器通过音频模块170(如扬声器170A等)输出声音信号,或通过显示屏194显示图像或视频。
控制器可以是终端100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
处理器110可以通过执行指令,执行不同的操作,以实现不同的功能。该指令例如可以是设备出厂前预先保存在存储器中的指令,也可以是用户在使用过程中安装新的应用(application,APP)之后从APP中读取到的指令,本申请实施例对此不作任何限定。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口、集成电路内置音频(inter-integrated circuitsound,I2S)接口、安全数字输入输出接口(secure digital input and output,SDIO)、脉冲编码调制(pulse code modulation,PCM)接口、通用异步收发传输器(universalasynchronous receiver/transmitter,UART)接口、通用同步异步收发传输器(universalsynchronous asynchronous receiver/transmitter,USART)、移动产业处理器接口(mobile industry processor interface,MIPI)、通用输入输出(general-purposeinput/output,GPIO)接口、SIM接口和/或USB接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为终端100充电,也可以用于终端100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他终端。
可以理解的是,本申请示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端100的结构限定。在另一些实施例中,终端100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过终端100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为终端供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110、内部存储器121、外部存储器、显示屏194、摄像头193和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量、电池循环次数、电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
终端100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器、开关、功率放大器、低噪声放大器(lownoise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless localarea networks,WLAN),如无线保真(wireless fidelity,Wi-Fi)网络)、蓝牙(bluetooth,BT)、全球导航卫星系统(global navigation satellite system,GNSS)、调频(frequencymodulation,FM)、近距离无线通信技术(near field communication,NFC)、红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,终端100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得终端100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),第五代(5th generation,5G)通信系统,BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioningsystem,GPS),GNSS,北斗卫星导航系统(BeiDou navigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellitebased augmentation systems,SBAS)。
终端100可以通过GPU、显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像、视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD)、有机发光二极管(organic light-emittingdiode,OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode,AMOLED)、柔性发光二极管(flex light-emittingdiode,FLED),迷你LED(Mini LED)、微Led(Micro LED)、微OLED(Micro-OLED)、量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实施例中,终端100可以包括一个或多个显示屏194。
在本申请中,显示屏194可以用于显示提示框,该提示框中包含预定义的免唤醒指令,该提示框用于提示用户下一次可以直接使用上述免唤醒指令,也即,无需预先唤醒终端,即可以通过上述免唤醒指令实现与终端的语音交互。
终端100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。在一些实施例中,终端100可以包括一个或多个摄像头193。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当终端100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样,终端100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1、MPEG2、MPEG3、MPEG4等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行终端100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
终端100可以通过音频模块170,如扬声器170A、受话器170B、麦克风170C和耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放、录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中,终端100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,终端100还可以设置三个、四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
在本申请中,麦克风170C可以用于接收来自用户的语音输入,也即,可以用于采集来自用户的声音信号。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动终端平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
按键190包括开机键(或称电源键)、音量键等。按键190可以是机械按键,也可以是触摸式按键。终端100可以接收按键输入,产生与终端100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和终端100的接触和分离。终端100可以支持一个或多个SIM卡接口。SIM卡接口195可以支持Nano SIM卡、Micro SIM卡、SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,终端100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在终端100中,不能和终端100分离。
本申请示意的结构并不构成对终端100的具体限定。在另一些实施例中,终端100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
为便于理解本申请实施例提供的人机交互方法,下面将对适用于本申请实施例提供的人机交互方法的场景进行说明。可理解地,本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。
图2是适用于本申请实施例提供的方法的场景示意图。如图2所示,用户可以通过语音输入希望终端执行的操作,以实现与终端(图2中以手机为例)的交互。在某些场景中,语音交互成为重要且常用的人机交互方式之一。例如,用户驾驶车辆的过程中,可以通过语音实现与车机(终端的一示例)的交互。目前,用户可以先通过预设的唤醒词唤醒终端,更为详细地,用户可以先通过预设的唤醒词唤醒终端中的语音助手(或智慧助手、智能助手等,本申请对此不作限定),进而实现后续的交互,这种方式比较繁琐,进而用户体验不佳。还有一部分厂家提供了免唤醒功能,也即,用户无需预先唤醒语音助手,直接通过预定义的免唤醒指令即可实现与终端的交互。但是预定义的免唤醒指令固定且有限,如果用户语音输入的免唤醒指令不准确,则终端无响应,用户体验不佳。
下面将结合图3和图4详细描述上述两种已知的人机交互方法。
图3示出了一种已知的人机交互方法。如图3所示,用户预先通过预设的唤醒词唤醒终端,更为详细地,用户先通过预设的唤醒词唤醒终端中的语音助手,如图3中示出的,唤醒词为“小艺小艺”,响应于用户通过语音输入“小艺小艺”的操作,语音助手回复“我在”。接着,用户通过语音输入“导航去地点A”,响应于用户语音输入“导航去地点A”的操作,语音助手回复“好的,开始为你导航”,并通过用户界面显示前往地点A的路线。可以看出,整个交互过程比较繁琐,导致用户体验不佳。
图4示出了另一种已知的人机交互方法。如图4所示,用户可以直接语音输入预定义的免唤醒指令,实现与终端的交互。例如,用户语音输入“导航去公司”,响应于用户语音输入“导航去公司”的操作,终端通过用户界面显示前往公司的路线,其中,终端上预存有该用户公司的地点。如果用户语音输入其他相似意图(或语义)的语句,如“出发去工作”、“我想去工作”、“我想去公司”等,语音助手均不会做出响应。总的来说,预定义的免唤醒指令固定且有限,很有可能导致语音助手无法响应用户的语音输入,导致用户体验不佳。
为提高用户的人机交互体验,本申请提供了一种人机交互方法,该方法包括:终端在接收到的来自用户的第一语音输入与预定义的第一免唤醒指令语义相似的情况下,对第一语音输入做出相应的响应,也就是说,在未预先唤醒终端的情况下,即使用户语音输入的语句不是预定义的第一免唤醒指令,只要与预定义的第一免唤醒指令语义相似,终端便可以识别并响应,有利于缓解预定义的第一免唤醒指令固定且有限导致的终端无响应的问题,进而有利于提高用户的语音交互体验。
为便于清楚描述本申请实施例的技术方案,首先做出如下说明。
第一,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一语音输入和第二语音输入仅仅是为了区分不同的语音输入,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和位置进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
第二,在本申请中,“至少一项(个)”是指一项(个)或者多项(个)。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系,但并不排除表示前后关联对象是一种“和”的关系的情况,具体表示的含义可以结合上下文进行理解。
第三,在本申请中,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面将结合具体的实施例详细描述本申请提供的人机交互方法。
应理解,下文所示的实施例可以由终端执行,或者,也可以由配置在终端中的部件(如芯片、芯片系统等)执行,或者,还可以由能够实现全部或部分终端功能的逻辑模块或软件实现,本申请实施例对此不作限定。该终端可以具有如图1所示的结构,或具有比图1更多或更少的结构,本申请实施例对此不作限定。
图5是本申请实施例提供的第一种人机交互方法的示意性流程图。如图5所示,方法500可以包括步骤501和步骤502。下面将详细描述图5所示的各个步骤。
步骤501,接收来自用户的第一语音输入。
其中,该第一语音输入可以是用户未预先唤醒终端的情况下,终端接收到的来自用户的语音输入。
示例性地,响应于用户的语音操作,接收来自用户的第一语音输入,该第一语音输入例如可以是“导航去地点A”、“导航去公司”、“出发去工作”、“播放歌曲B”、“我想听歌曲B”等,本申请实施例对第一语音输入的具体内容不作任何限定。
步骤502,在第一语音输入与预定义的第一免唤醒指令语义相似的情况下,对第一语音输入做出相应的响应。
其中,第一免唤醒指令用于在不输入预设的唤醒词的情况下指示终端执行第一免唤醒指令对应的操作。
一种可能的实现方式是,终端接收到来自用户的第一语音输入后,基于自然语言处理(natural language processing,NLP),对第一语音输入和预定义的第一免唤醒指令做语义分析,在第一语音输入与预定义的第一免唤醒指令语义相似的情况下,对第一语音输入做出相应的响应。
另一种可能的实现方式是,终端接收到来自用户的第一语音输入后,判断第一语音输入是否属于基于对语音输入学习得到的第二免唤醒指令,其中,基于对语音输入学习得到的第二免唤醒指令与预定义的第一免唤醒语义相似,也就是说,第二免唤醒指令与预定义的第一免唤醒指令语义相似,但用语不同。例如,预定义的第一免唤醒指令为“导航去公司”,基于对语音输入学习得到的第二免唤醒指令为“出发去工作”,二者语义相似,但用语不同,第二免唤醒指令更口语化,第一免唤醒指令是标准的人机交互用语。在第一语音输入属于基于对语音输入学习得到的第二免唤醒指令的情况下(也即,第一语音输入与预定义的第一免唤醒指令语义相似),终端对第一语音输入做出相应的响应。
上述两种可能的实现方式可以只使用一种,也可以结合使用。当二者结合使用时,例如,终端接收到第一语音输入后,可以先判断第一语音输入是否属于基于对语音输入学习得到的第二免唤醒指令,如果属于,则对其做出响应。如果不属于,则进一步基于NLP,对第一语音输入和预定义的第一免唤醒指令做语义分析。如果第一语音输入与预定义的第一免唤醒指令语义相似,则终端对第一语音输入做出相应的响应;如果不相似,则终端不对第一语音输入做出相应的响应。
应理解,上述预定义的第一免唤醒指令和/或基于对语音输入学习得到的第一免唤醒指令可以存储于指令库中。终端在接收到第一语音输入之后,基于指令库中存储的第一免唤醒指令和第二免唤醒指令,确定是否对其做出相应的响应。如果第一语音输入与第一免唤醒指令语义相似,则终端对第一语音输入做出相应的响应。
可选地,在对第一语音输入做出相应的响应之前,上述方法还包括:向用户确认第一语音输入的语义。
示例性地,终端接收到来自用户的第一语音输入后,在第一语音输入与预定义的第一免唤醒指令语义相似的情况下,向用户询问上述语义是否正确,如果用户回复上述语义正确,则终端对上述第一语音输入做出相应的响应。
其中,终端可以通过语音播报的方式向用户询问语义是否正确,还可以通过提示框(如toast)向用户询问语义是否正确,上述提示框中包含上述第一语音输入的语义,或者,还可以通过提示框(如toast)加上语音播报的方式向用户询问语义是否正确。本申请实施例对终端向用户询问语义时所使用的方式不作限定。
可选地,上述方法还包括:向用户提示第一免唤醒指令。也就是说,终端处理执行第一语音输入所指示的操作(如导航去公司)外,还可以向用户提示下一次可以直接使用预定义的第一免唤醒指令来指示终端执行相应的操作。
图6是本申请实施例提供的第一种人机交互方法的交互示意图。如图6所示,响应于用户语音输入“出发去工作”的操作,终端询问“是要导航去公司吗”,用户语音回复“是的”,响应于用户的回复,终端通过用户界面显示前往公司的路线。其中,图6中所示的终端通过语音播报的方式询问用户“是要导航去公司吗”仅为示例,不应对本申请实施例构成任何限定。在其他的实施例中,终端还可以通过提示框(如toast)询问用户“是要导航去公司吗”,或者,还可以通过提示框(如toast)加上语音播报的方式询问用户“是要导航去公司吗”。
可选地,终端还可以通过提示框和/语音播报的方式,向用户提示下次可以直接使用预定义的第一免唤醒指令。如图6中所示的,终端通过语音播报的方式,提示用户“下次试试说导航去公司”。
下面将详细描述终端基于对语音输入的学习得到第二免唤醒指令的过程。
可选地,在接收来自用户的第一语音输入之前,上述方法还包括:接收来自用户的第二语音输入;在第二语音输入与第一免唤醒指令语义相似的情况下,向用户确认第二语音输入的语义;响应于用户确认第二语音输入的语义的操作,生成与第二语音输入对应的第二免唤醒指令。
示例性地,终端接收到来自用户的第二语音输入后,判断预定义的第一免唤醒指令中是否包含与上述第二语音输入语义相似的指令,例如,可以基于NLP对二者做语义分析,如果确定上述第二语音输入与某一预定义的第一免唤醒指令具有相似的语义,则向用户询问上述语义是否正确,如果用户回复上述语义正确,则终端生成与第二语音输入对应的第二免唤醒指令。另外,终端还可以将上述第二语音输入保存在指令库中。
可选地,接收来自用户的第二语音输入,包括:在预设时长范围内连续多次接收到上述第二语音输入。也即,如果终端在预设时长范围内连续多次接收到上述第二语音输入,终端再向用户确认第二语音输入的语义。这样一来,可以有效地避免用户聊天对话中误提及上述第二语音输入导致终端做出响应,进而有利于提高用户的体验。
示例性地,用户在1分钟内连续两次说出“出发去工作”,“出发去工作”与预定义的第一免唤醒指令“导航去公司”语义相似,则终端连续接收到上述语音输入后,通过提示框和/或语音播报的方式(例如可以参看图6所示),向用户询问“是要导航去公司吗”,并响应于用户的确认操作,通过用户界面显示前往公司的路线。另外,终端还可以通过提示框和/语音播报的方式,向用户提示下次可以直接使用第一免唤醒指令。如图6中所示的,终端通过语音播报的方式,提示用户“下次试试说导航去公司”。
图7是本申请实施例提供的对语音输入的用语进行学习的流程示意图。
步骤701,接收来自用户的第二语音输入。
响应于用户的语音操作,终端接收到来自用户的第二语音输入。例如,第二语音输入包括:“出发去工作”、“路上堵车吗”、“避开拥堵的道路”、“选择一条畅通的道路”等等,此处不再一一列举。
步骤702,判断第二语音输入与预定义的第一免唤醒指令是否语义相似。
终端接收到来自用户的第二语音输入后,判断预定义的第一免唤醒指令中是否包含与上述第二语音输入语义相似的指令,如果确定预定义的第一免唤醒指令中不包含与上述第二语音输入语义相似的指令,则执行步骤703,即不响应该第二语音输入;如果上述第二语音输入与某一第一免唤醒指令语义相似,则执行步骤704,即,向用户询问上述第二语音输入是否是上述语义。
步骤703,不响应该第二语音输入。
步骤704,向用户询问上述第二语音输入是否是上述语义。
如果用户回复上述第二语音输入不是上述语义,则终端不响应上述第二语音输入;如果用户回复上述第二语音输入是上述语义,则终端执行步骤705。
终端可以通过语音播报的方式询问用户,还可以通过提示框(如toast)询问用户,或者,还可以通过提示框(如toast)加上语音播报的方式询问用户。本申请对终端的询问方式不作任何限定。
步骤705,生成第二免唤醒指令,并响应第二语音输入。
如果用户回复上述第二语音输入是上述语义,则终端将上述第二语音输入确定为第二免唤醒指令,保存在指令库中,并响应上述第二语音输入。
可选地,终端还可以通过提示框和/语音播报的方式,向用户提示下一次可以直接使用第一免唤醒指令。关于图7所示的方法的示例可以参看步骤502的相关示例,此处不再列举。
图8是本申请实施例提供的对语音输入的用语进行学习的又一流程示意图。图8所示的方法是终端连续多次接收到第二语音输入后,再触发向用户的询问的方法。
步骤801,接收来自用户的第二语音输入。
响应于用户的语音操作,终端接收到来自用户的第二语音输入。例如,第二语音输入包括:“出发去工作”、“路上堵车吗”、“避开拥堵的道路”、“选择一条畅通的道路”等等,此处不再一一列举。
步骤802,判断是否连续多次接收到第二语音输入。
终端接收到来自用户的第二语音输入后,判断在预设时长范围内是否连续多次接收到上述第二语音输入。如果终端在预设时长范围内连续多次接收到上述第二语音输入,再执行步骤804,否则,终端执行步骤803,也即不响应该第二语音输入。
步骤803,不响应该第二语音输入。
步骤804,向用户询问上述第二语音输入是否是上述语义。
如果用户回复上述第二语音输入不是上述语义,则终端不响应上述第二语音输入;如果用户回复上述第二语音输入是上述语义,则终端执行步骤805。
终端可以通过语音播报的方式询问用户,还可以通过提示框(如toast)询问用户,或者,还可以通过提示框(如toast)加上语音播报的方式询问用户。本申请对终端的询问方式不作任何限定。
步骤805,生成第二免唤醒指令,并响应上述第二语音输入。
如果用户回复上述第二语音输入是上述语义,则终端将上述第二语音输入确定为第二免唤醒指令,保存在指令库中,并响应上述第二语音输入。
可选地,终端还可以通过提示框和/语音播报的方式,向用户提示下一次可以直接使用预定义的第一免唤醒用语。
基于上述技术方案,终端接收来自用户的第一语音输入,在上述第一语音输入与预定义的第一免唤醒指令语义相似的情况下,对第一语音输入做出相应的响应,也即,在未预先唤醒终端的情况下,即使用户语音输入的语句不是预定义的第一免唤醒指令,只要与预定义的第一免唤醒指令语义相似,终端便可以做出响应,有利于解决预定义的第一免唤醒指令固定且有限导致的终端无响应的问题,进而有利于提高用户的交互体验。
图9是本申请实施例提供的第二种人机交互方法的示意性流程图。
如图9所示,方法900可以包括步骤901和步骤902。下面将详细描述图9所示的各个步骤。
步骤901,接收来自用户的第一语音输入。
其中,该第一语音输入可以是用户未预先唤醒终端的情况下,终端接收到的来自用户的语音输入。
示例性地,响应于用户的语音操作,接收来自用户的第一语音输入,该第一语音输入例如可以是“导航去地点A”、“出发去地点A”、“我想去地点A”、“播放歌曲B”、“我想听歌曲B”等,本申请实施例对第一语音输入的具体内容不作任何限定。
步骤902,在未接收到预设的唤醒词,但第一语音输入包含目标对象的情况下,对第一语音输入做出相应的响应。
其中,上述目标对象是在第一语音输入之前接收到的其他语音输入中被提及次数达到预设门限的对象,上述预设的唤醒词用于唤醒终端,更为详细地,上述预设的唤醒词用于唤醒终端中的语音助手(或智慧助手、智能助手等,本申请对此不作限定)。
换言之,终端在未预先被唤醒的情况下,接收到第一语音输入时,若第一语音输入中包含目标对象,则对第一语音输入做出相应的响应;若第一语音输入中不包含目标对象,则不对第一语音输入做出响应。
可选地,上述目标对象例如可以是地点、媒体名(如歌曲名)或艺术家名等,本申请对目标对象的具体内容不作限定。
下面将详细描述确定目标对象的过程,也即,对语音输入中的第一对象进行学习的过程。
可选地,在接收来自用户的第一语音输入之前,上述方法还包括:接收来自用户的预设的唤醒词;接收来自用户的第二语音输入;在第二语音输入中包含的第一对象在第二语音输入及其之前的语音输入中被提及的次数超过预设门限的情况下,将第一对象确定为目标对象。
其中,第一对象例如可以是地点、媒体名(如歌曲名)或艺术家名等,本申请对目标对象的具体内容不作限定。
示例性地,终端基于接收到的来自用户的预设的唤醒词,被唤醒后,接收到来自用户的第二语音输入时,判断该第二语音输入中是否包含第一对象,在上述第二语音输入中包含第一对象的情况下,判断上述第一对象被提及次数,如果上述第一对象在当前第二语音输入及其之前接收到的语音输入中被提及次数超过预设门限,则将上述第一对象确定为目标对象,以便于下次用户直接说出包含上述目标对象的语音输入时,终端可以做出相应的响应。例如,终端将地点A确定为目标对象,则下一次无需预先唤醒终端,用户直接语音输入“导航去地点A”,终端接收到上述语音输入后,确定上述语音输入中包含地点A,则通过用户界面展示前往地点A的路线。这样一来,下次用户无需预先唤醒终端,简化了交互过程,有利于提高用户的体验。
另外,终端可以记录第一对象在语音输入中被提及的次数,每被提及一次,其对应的次数加1。
可选地,终端还可以基于目标对象,生成包含目标对象的免唤醒指令;向用户提示免唤醒指令,以便于用户下次可以直接使用上述免唤醒指令来控制终端执行对应的操作。
其中,终端可以通过提示框和/语音播报的方式,向用户提示上述免唤醒指令。
示例性地,终端向用户语音提示“下次试试直接说导航去地点A”,其中,地点A为目标对象。
图10是本申请实施例提供的第二种人机交互方法的交互示意图。如图10所示,响应于用户语音输入“小艺小艺”的操作,终端回复“我在”,也即,终端被唤醒。进一步地,响应于用户语音输入“导航去地点A”的操作,终端回复“好的,开始为你导航”,终端通过用户界面显示前往地点A的路线。如果地点A在当前语音输入及其之前的语音输入中出现的次数超过预设门限,则终端可以通过语音播报的方式提示用户“下次试试直接说导航去地点A”。也就是说,下次用户无需预先唤醒终端,直接语音输入“导航去地点A”,终端即可通过用户界面显示前往地点A的路线。
图11是本申请实施例提供的对第二语音输入中的第一对象进行学习的流程示意图。
步骤1101,接收来自用户的预设的唤醒词。
上述预设的唤醒词用于唤醒终端,更为详细地,用于唤醒终端中的语音助手。
步骤1102,接收来自用户的第二语音输入。
终端被唤醒后,接收来自用户的第二语音输入。例如,第二语音输入包括:“导航去地点A”、“出发去地点A”、“我想去地点A”等等,此处不再一一列举。
步骤1103,判断上述第二语音输入是否包含第一对象。
其中,第一对象例如包括但不限于:地点、媒体名(如歌曲名)或艺术家名等。
示例性地,终端接收到第二语音输入后,判断该第二语音输入中是否包含第一对象(如地点A)。如果该第二语音输入中不包含第一对象,则执行步骤1104;如果该第二语音输入中包含第一对象,则执行步骤1105。
步骤1104,响应该第一语音输入。
步骤1105,判断第一对象在当前语音输入及其之前接收到的语音输入中被提及次数是否超过预设门限。
如果第一对象在当前语音输入及其之前接收到的其他语音输入中被提及次数未超过预设门限,则执行步骤1104,即,响应该第二语音输入;如果第一对象在当前语音输入之前接收到的其他语音输入中被提及次数超过预设门限,则执行步骤1106。
步骤1106,将第一对象确定为目标对象。
另外,终端还可以基于该目标对象生成免唤醒指令,并提示用户下次直接使用上述免唤醒指令。
可选地,终端可以通过提示框和/语音播报的方式,向用户提示下一次可以直接使用上述免唤醒指令。
基于上述技术方案,终端未被预先唤醒的情况下,接收到来自用户的第一语音输入后,若该第一语音输入中包含之前语音输入中被提及次数达到预设门限的对象,则对其做出相应的响应,也即,通过对之前语音输入的学习,保存被提及次数达到预设门限的目标对象后,只要接收到的语音输入中包含上述目标对象,即使不预先唤醒终端,终端也可以对其做出相应的响应,节省了唤醒终端的时间,简化了交互流程,有利于提高用户的交互体验。
图12是本申请实施例提供的第三种人机交互方法的示意性流程图。
如图12所示,方法1200可以包括步骤1201和步骤1202。下面将详细描述图12所示的各个步骤。
步骤1201,接收来自用户的第一语音输入,该第一语音输入属于第一指令集合,该第一指令集合中的指令与预定义的免唤醒指令语义相似。
其中,上述预定义的免唤醒指令用于在不输入预设的唤醒词的情况下指示终端执行免唤醒指令对应的操作。
一种可能的实现方式是,指令库中预存有预定义的第一指令集合和第二指令集合,第一指令集合中的指令与预定义的免唤醒指令语义相似,第二指令集合中的指令为预定义的免唤醒指令。终端接收到第一语音输入,确定该第一语音输入属于第一指令集合。
另一种可能的实现方式是,指令库中预存有预定义的第二指令集合和基于语音输入学习到的与第二指令集合中的指令对应的第一指令集合,终端接收到第一语音输入,确定该第一语音输入属于第一指令集合。其中,终端基于语音输入学习到的与第二指令集合中的指令对应的第一指令集合的方法可以参看图5和图9的相关描述,此处不再赘述。
表1是指令库中预存的第一指令集合和第二指令集合的示例。
表1
第二指令集合 第一指令集合
查看是否拥堵 路上堵车吗
向下滑动 下滑
把页面缩小 缩小
导航去公司 出发去工作
导航回家 我想回家
如表1所示,第二指令集合中的指令是预定义的免唤醒指令,如“查看是否拥堵”、“向下滑动”、“把页面缩小”、“导航去公司”、“导航回家”等,第一指令集合中的指令是与第二指令集合中的指令语义相似的指令,如“路上堵车吗”、“下滑”、“缩小”、“出发去工作”、“我想回家”等。可以看出,第一指令集合中的指令与第二指令集合中的指令语义相似,但用语不同,第一指令集合中的指令更口语化,第二指令集合中的指令是标准的人机交互指令。
应理解,上述指令的划分仅为示例,不应对本申请实施例构成任何限定,在其他实施例中,也可以是不同的划分形式,例如,第一指令集合可以继续划分为第一指令子集合1、第一指令子集合2,第一指令子集合2中的指令比第一指令子集合1中的指令更口语化。终端响应第一指令子集合2中的指令的条件比响应第一指令子集合1中的指令的条件更严格。
步骤1202,在满足预设条件的情况下,响应上述第一语音输入。
可选地,上述预设条件包括以下至少一项:与终端距离处于预设范围内的用户的数量不超过阈值;用户处于预定义的位置;第一语音输入所来自的用户不属于预设人群;或,接收到第一语音输入的时间落入预设时段。
其中,与终端距离处于预设范围内的用户的数量不超过阈值,也即,在与终端距离处于预设范围内的用户的数量较少的情况下,可以响应上述第一语音输入,不难理解,如果周围用户数量较少,则用户误提及第一语音输入的可能性越小,也即,用户可能确实是希望终端执行对应的操作,相对地,如果周围用户数量较多,则用户误提及第一语音输入的可能性越大。因此,上述预设条件可以有效地避免用户误提及第一语音输入导致终端响应。
用户处于预定义的位置,例如,终端响应来自距离自身最近的用户的第一语音输入,或,用户处于景区,希望终端提高服务的可能性更大等,终端响应来自用户的第一语音输入。
第一语音输入所来自的用户不属于预设人群,预设人群例如小孩、老人等,可以理解,对于预设人群,其发出的指令可能存在危险性,终端可以不对其做出响应。
接收到第一语音输入的时间落入预设时段,预设时段例如可以是上班时段(或称为通勤时段),这些时段终端可以响应上述第一语音输入,如果是其他时段,终端可以只响应预定义的免唤醒指令。
下面以上述方法应用于车为例(如,终端以车机为例),列举上述几种场景下,终端对第一语音输入的响应情况。
场景一:在车内存在一个乘客的情况下,车机响应第一语音输入;或,在车内存在多个乘客的情况下,车机不响应上述第一语音输入。
示例性地,车机可以基于车内的摄像头判断当前车内的人数,在车内存在一个乘客,也即,车内只有主驾的情况下,车机响应第一语音输入。在车内存在多个乘客的情况下,车机不响应第一语音输入。另外,车机在车内存在一个或多个乘客的情况下,均可以响应第二指令集合中的指令。这样一来,可以大大降低车内存在多个乘客的情况下,聊天对话中误唤醒车机的可能性。
场景二:在语音输入来自主驾的情况下,车机响应第一语音输入;或在语音输入来自除主驾之外的其他乘客的情况下,车机不响应第一语音输入。
示例性地,车机接收到第一语音输入后,可以基于与座椅的交互,获取到该第一语音输入是来自于主驾还是其他乘客,若该第一语音输入来自于主驾,则车机响应该第一语音输入;若该第一语音输入来自于其他乘客,则车机不响应该第一语音输入。另外,无论是来自主驾还是其他乘客的第二指令集合中的指令,车机均可以响应。
场景三:在第一语音输入所来自的用户不属于预设人群的情况下,车机响应第一语音输入;或,在第一语音输入所来自的用户属于预设人群的情况下,车机不响应第一语音输入。
示例性地,车机可以判断该第一语音输入是否来自于预设人群,以小孩为例,如果该第一语音输入来自于小孩,则车机不响应上述第一语音输入,如果该第一语音输入不是来自于小孩,则车机响应上述第一语音输入,这样一来,可以有效地避免小孩误说出第一语音输入导致的车机做出响应的情况。
场景四:在接收到语音输入的时间落入预设时段的情况下,车机响应第一语音输入;或,在接收到语音输入的时间未落入预设时段的情况下,车机不响应第一语音输入。
示例性地,预设时段以上班时段为例,车机如果在上班时段内接收到第一语音输入,则可以响应上述第一语音输入;如果在非上班时段内接收到上述第一语音输入,可以不响应上述第一语音输入。
应理解,上文所述的几个场景中,在终端确定响应第一语音输入的情况下,可以先向用户确定语音输入的语义,响应于用户确认上述语义的操作,响应上述第一语音输入。
还应理解,上述几种可能的场景也可以结合,例如,车机在第一语音输入来自于主驾,且接收到语音输入的时间落入预设时段的情况下,响应上述第一语音输入。又例如,车机在车内只有一个乘客,且接收到第一语音输入的时间落入预设时段的情况下,响应上述第一语音输入。为了简洁,此处不再一一列举。
图13是本申请实施例提供的根据场景确定是否响应第一语音输入流程示意图。图13所述的方法是场景二和场景四结合的情况。
步骤1301,接收来自用户的第一语音输入。
在未预先唤醒车机的情况下,响应于用户输入第一语音输入的操作,车机接收到来自用户的第一语音输入。该第一语音输入属于第一指令集合,该第一指令集合中的指令与预定义的免唤醒指令语义相似。
步骤1302,判断第一语音输入是否来自于主驾。
车机接收到第一语音输入之后,判断该第一语音输入是否来自于主驾,若上述第一语音输入不是来自于主驾,则车机执行步骤1303;若上述第一语音输入来自于主驾,则执行步骤1304。
步骤1303,不响应该第一语音输入。
若上述第一语音输入不是来自于主驾,则车机不响应上述第一语音输入。另外,车机可以响应来自用户的第二指令集合中的指令。
步骤1304,判断接收到第一语音输入的时间是否落入预设时段。
若上述第一语音输入来自于主驾,则车机继续判断接收到第一语音输入的时间是否落入预设时段。如果接收到第一语音输入的时间落入预设时段,则车机可以执行步骤1305;若接收到第一语音输入的时间未落入预设时段,则车机可以执行步骤1306。
步骤1305,响应该第一语音输入。
如果接收到第一语音输入的时间落入预设时段,则车机可以响应该第一语音输入。
步骤1306,响应该第一语音输入,但需要向用户询问。
若接收到第一语音输入的时间未落入预设时段,则车机可以响应该第一语音输入,但是在响应该第一语音输入之前需要向用户确认该第一语音输入的语义,在用户确认语义的情况下,再响应上述第一语音输入。
基于上述技术方案,终端接收到与预定义的免唤醒指令语义相似的第一语音输入后,在满足预设条件的情况下,响应第一语音输入,也就是说,对于与预定义的免唤醒指令语义相似的第一语音输入,满足预设条件,终端才会做出相应的响应,并不是任何情况下都能响应,这样可以避免用户误提及第一语音输入导致终端响应。可以想象,第一语音输入可能相对预定义的免唤醒指令来说比较口语化,如果任何情况下都做出响应,很可能出现用户交谈过程中频繁触发终端响应的情况,因此,通过设置预设条件,在满足预设条件的情况下,终端才会做出相应的响应,有利于大大提高用户的交互体验。
图14是本申请实施例提供的第四种人机交互方法的流程示意图。
如图14所示,该方法1400可以包括步骤1401和步骤1402。下面将详细描述图14所示的各个步骤。
步骤1401,接收来自用户的第一语音输入,该第一语音输入不属于预定义的免唤醒指令。
其中,该第一语音输入可以是用户未预先唤醒终端的情况下,终端接收到的来自用户的语音输入。
示例性地,响应于用户的语音操作,接收来自用户的第一语音输入,该第一语音输入例如可以是“出发去公司”、“导航到公司”、“出发去工作”等,本申请实施例对语音输入的具体内容不作任何限定。
步骤1402,在上述第一语音输入与预定义的免唤醒指令中的第一免唤醒指令语义相似的情况下,引导用户输入第一免唤醒指令。
终端确定出上述第一语音输入与第一免唤醒指令具有相似的语义,则引导用户输入第一免唤醒指令,以便于终端对上述第一免唤醒指令做出响应。
其中,终端可以基于自然语言处理中的语义分析确定出第一语音输入与第一免唤醒指令语义相似。
示例性地,上述语音输入为“出发去工作”,与其具有相似语义的第一免唤醒指令为“导航去公司”,终端接收到“出发去工作”的语音输入后,确定在上述语音输入不属于预定义的免唤醒指令,并识别出上述语音输入的语义与“导航去公司”相似。因此,终端可以引导用户说出“导航去公司”。
可选地,上述引导用户输入第一免唤醒指令,包括:通过提示框和/或语音播报,引导用户输入第一免唤醒指令。
终端可以通过提示框引导用户发出第一免唤醒指令。例如,终端确定出上述语音输入与指令库中的第一免唤醒指令具有相似的语义之后,通过提示框在用户界面上显示上述第一免唤醒指令。终端还可以通过语音播报的方式引导用户发出第一免唤醒指令。例如,终端确定出上述语音输入与指令库中的第一免唤醒指令具有相似的语义之后,语音提醒用户使用上述第一免唤醒指令。终端可以通过提示框加上语音播报的方式,引导用户发出第一免唤醒指令。
例如,终端确定出上述语音输入与指令库中的第一免唤醒指令具有相似的语义之后,先通过提示框在用户界面上显示上述第一免唤醒指令,如果预设时长范围内用户仍未发出上述第一免唤醒指令,则终端语音提醒用户使用上述第一免唤醒指令,或,提示框在用户界面上显示上述第一免唤醒指令,同时语音提醒用户使用上述第一免唤醒指令。本申请对终端的引导方式不作限定。
可选地,通过提示框和/或语音播报,引导用户发出第一免唤醒指令,包括:通过提示框提示用户发出第一免唤醒指令,提示框中包含第一免唤醒指令;在预设时长范围内通过提示框提示的次数达到预设门限,但用户未发出第一免唤醒指令的情况下,通过语音播报,引导用户发出第一免唤醒指令。
示例性地,终端第一次通过提示框提示用户发出第一免唤醒指令,提示框中包含第一免唤醒指令,第二次还是通过提示框提示用户发出第一免唤醒指令,在1分钟内通过提示框提示的次数达到两次,但用户未发出第一免唤醒指令的情况下,通过语音播报,引导用户发出第一免唤醒指令。
图15是本申请实施例提供的引导用户发出第一免唤醒指令的交互示意图。
响应于用户语音输入“出发去工作”的操作,终端确定出该语音输入与指令库中的第一免唤醒指令“导航去公司”具有相似的语义,因此,第一次通过提示框提示用户“试试说导航去公司”,第二次用户还是使用的“出发去工作”,终端继续通过提示框提示用户“试试说导航去公司”,第三次用户还是使用的“出发去工作”,终端则通过提示框提示用户“试试说导航去公司”,并通过语音提示用户“试试说导航去公司”。
基于上述技术方案,终端接收到第一语音输入,该第一语音输入不属于预定义的免唤醒指令,但该第一语音输入与预定义的免唤醒指令中的第一免唤醒指令语义相似,则终端引导用户输入对应的第一免唤醒指令,以便于用户输入第一免唤醒指令后,终端对其做出相应的响应,相比于终端不响应也不提示,可以大大提高用户的交互体验。
图16是本申请实施例提供的第五种人机交互方法的示意性流程图。
如图16所示,该方法可以包括步骤1601至步骤1605。下面将详细描述图16所示的各个步骤。
步骤1601,接收来自用户的第一语音输入。
响应于用户输入第一语音输入的操作,终端接收到来自用户的第一语音输入。该第一语音输入是在未接收到来自用户的预设的唤醒词的情况下接收的,例如,第一语音输入包括:“导航去地点A”、“我想去地点A”、“地点A在哪里”等等,此处不再一一列举。
步骤1602,判断上述第一语音输入是否是用于请求导航。
换言之,终端接收到上述第一语音输入后,判断该第一语音输入的意图,是不是用于请求导航。如果该第一语音输入不是用于请求导航,则终端执行步骤1603;如果该第一语音输入是用于请求导航,则终端执行步骤1604。
步骤1603,不响应该第一语音输入。
步骤1604,向用户询问请求导航的目的地。
如果该第一语音输入是用于请求导航,则终端向用户询问请求导航的目的地。例如,该语音输入为“导航去地点A”,则终端接收确定出该第一语音输入用于导航,进一步地,终端向用户询问导航的目的地,如向用户询问“你想去哪里”。用户反馈“地点A”,则终端接收到用户的反馈后,从云端获取到地点A的路线。
终端可以通过语音播报的方式询问用户,还可以通过提示框(如toast)询问用户,或者,还可以通过提示框(如toast)加上语音播报的方式询问用户。本申请对终端的询问方式不作任何限定。例如,终端前两次通过提示框(如toast)询问用户,第三次通过提示框(如toast)加上语音播报的方式询问用户。
步骤1605,基于用户反馈的目的地,为用户提供导航服务。
终端获取到上述目的地的路线后,为用户提供导航服务。例如,通过用户界面显示目的地的路线。
可选地,终端还可以基于该目的地,生成包含上述目的地的免唤醒指令,终端还可以通过提示框和/语音播报的方式,向用户提示下一次可以直接使用上述免唤醒指令。
图17是本申请实施例提供的第五种人机交互方法的交互示意图。如图17所示,响应于用户语音输入“导航去地点A”的操作,终端通过语音播报的方式向用户询问“你要去哪里”。用户回复“地点A”,响应于用户的回复,终端通过用户界面向用户展示前往地点A的路线。
基于上述技术方案,在未预先唤醒终端的情况下,终端接收到来自用户的第一语音输入后,发现其意图是想请求导航,便可以向用户询问导航的目的地,并根据用户反馈的目的地,向用户提供导航服务,无需预先唤醒终端,简化了交互流程,有利于提高用户的交互体验。
本申请实施例还提供了一种终端,该终端包括用于执行上述图5至图17所述实施例中任意一个实施例中终端所执行的步骤的相应的模块。该终端可以用于实现上述图5至图17所述实施例中任意一个实施例中所述的方法。该终端包括的模块可以通过软件和/或硬件方式实现。
本申请实施例还提供一种终端,该终端包括存储器和处理器,其中,存储器用于存储计算机程序,处理器用于调用并执行计算机程序,以使得该终端实现上述图5至图17所述实施例中任意一个实施例中所述的方法。
本申请实施例还提供一种车辆,该车辆上部署有如前所述的终端,所述终端例如可以是车机。
本申请还提供了一种芯片系统,所述芯片系统包括至少一个处理器,用于实现上述图5至图17所述实施例中任意一个实施例中所述的方法。
在一种可能的设计中,所述芯片系统还包括存储器,所述存储器用于保存程序指令和数据,存储器位于处理器之内或处理器之外。
该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机可读指令,当所述计算机可读指令被计算机运行时,实现上述图5至图17所述实施例中任意一个实施例中所述的方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令。当所述计算机可读指令被计算机运行时,实现上述图5至图17所述实施例中任意一个实施例中所述的方法。
应理解,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件、分立门电路或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本说明书中使用的术语“单元”、“模块”等,可用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block)和步骤(step),能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。在本申请所提供的几个实施例中,应该理解到,所揭露的装置、设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分立部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,各功能单元的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令(程序)。在计算机上加载和执行所述计算机程序指令(程序)时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其它可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (23)

1.一种人机交互方法,其特征在于,包括:
接收来自用户的第一语音输入;
在确定所述第一语音输入与预定义的第一免唤醒指令语义相似的情况下,对所述第一语音输入做出相应的响应,所述第一免唤醒指令用于在不输入预设的唤醒词的情况下指示终端执行所述第一免唤醒指令对应的操作。
2.如权利要求1所述的方法,其特征在于,在所述接收来自用户的第一语音输入之前,所述方法还包括:
接收来自所述用户的第二语音输入;
在所述第二语音输入与所述第一免唤醒指令语义相似的情况下,向所述用户确认所述第二语音输入的语义;
响应于所述用户确认所述第二语音输入的语义的操作,生成与所述第二语音输入对应的第二免唤醒指令。
3.如权利要求2所述的方法,其特征在于,所述第一语音输入与预定义的第一免唤醒指令语义相似,包括:
所述第一语音输入与所述第二免唤醒指令相同。
4.如权利要求2或3所述的方法,其特征在于,所述接收来自用户的第二语音输入,包括:
在预设时长范围内连续多次接收到所述第二语音输入。
5.如权利要求1至4中任一项所述的方法,其特征在于,在对所述第一语音输入做出相应的响应之前,所述方法还包括:
向所述用户确认所述第一语音输入的语义。
6.如权利要求5所述的方法,其特征在于,所述向所述用户确认所述第一语音输入的语义,包括:
通过提示框和/或语音播报,向所述用户确认所述第一语音输入的语义。
7.如权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
向所述用户提示所述第一免唤醒指令。
8.一种人机交互方法,其特征在于,包括:
接收来自用户的第一语音输入;
在未接收到预设的唤醒词,但所述第一语音输入包含目标对象的情况下,对所述第一语音输入做出相应的响应,所述目标对象是在所述第一语音输入之前接收到的其他语音输入中被提及次数达到预设门限的对象,所述预设的唤醒词用于唤醒终端。
9.如权利要求8所述的方法,其特征在于,在所述接收来自用户的第一语音输入之前,所述方法还包括:
接收来自所述用户的预设的唤醒词;
接收来自所述用户的第二语音输入;
在所述第二语音输入中包含的第一对象在所述第二语音输入及其之前的语音输入中被提及的次数超过所述预设门限的情况下,将所述第一对象确定为目标对象。
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
基于所述目标对象,生成包含所述目标对象的免唤醒指令;
向所述用户提示所述免唤醒指令。
11.一种人机交互方法,其特征在于,包括:
接收来自用户的第一语音输入,所述第一语音输入属于第一指令集合,所述第一指令集合中的指令与预定义的免唤醒指令语义相似;
在满足预设条件的情况下,响应所述第一语音输入。
12.如权利要求11所述的方法,其特征在于,所述预设条件包括以下至少一项:
与终端距离处于预设范围内的用户的数量不超过阈值;
用户处于预定义的位置;
所述第一语音输入所来自的用户不属于预设人群;或,
接收到所述第一语音输入的时间落入预设时段。
13.如权利要求12所述的方法,其特征在于,所述方法应用于车,所述与终端距离处于预设范围内的用户的数量不超过阈值,包括:所述车内存在一个乘客;或,
所述用户处于预定义的位置,包括:所述用户处于主驾的位置。
14.一种人机交互方法,其特征在于,包括:
在未接收到来自用户的预设的唤醒词的情况下,根据来自所述用户的第一语音输入,确定所述第一语音输入用于请求导航;
向所述用户询问请求导航的目的地;
基于所述用户反馈的所述目的地,为所述用户提供导航服务。
15.如权利要求14所述的方法,其特征在于,所述方法还包括:
生成包含所述目的地的免唤醒指令;
向所述用户提示所述免唤醒指令。
16.一种人机交互方法,其特征在于,包括:
接收来自用户的第一语音输入,所述第一语音输入不属于预定义的免唤醒指令;
在确定所述第一语音输入与预定义的免唤醒指令中的第一免唤醒指令语义相似的情况下,引导所述用户输入所述第一免唤醒指令。
17.如权利要求16所述的方法,其特征在于,所述引导所述用户输入所述第一免唤醒指令,包括:
通过提示框和/或语音播报,引导所述用户输入所述第一免唤醒指令。
18.如权利要求17所述的方法,其特征在于,所述通过提示框和/或语音播报,引导所述用户输入所述第一免唤醒指令,包括:
通过所述提示框提示所述用户输入所述第一免唤醒指令,所述提示框中包含所述第一免唤醒指令;
在预设时长范围内通过所述提示框提示的次数达到预设门限,但所述用户未发出所述第一免唤醒指令的情况下,通过所述语音播报,引导所述用户输入所述第一免唤醒指令。
19.一种计算机设备,其特征在于,包括用于执行如权利要求1至18中任一项所述方法的单元。
20.一种计算机设备,其特征在于,包括处理器和存储器,其中,
所述存储器用于存储计算机可读指令;
所述处理器用于读取所述计算机可读指令,以使得所述计算机设备实现如权利要求1至18中任一项所述的方法。
21.一种车辆,其特征在于,用于实现如权利要求1至18中任一项所述的方法;或,包括如权利要求19或20所述的计算机设备。
22.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机可读指令,当所述计算机可读指令被计算机执行时,实现如权利要求1至18中任一项所述的方法。
23.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机可读指令,当所述计算机可读指令被计算机运行时,实现如权利要求1至18中任一项所述的方法。
CN202211079452.4A 2022-09-05 2022-09-05 人机交互方法及相关装置 Pending CN117690423A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211079452.4A CN117690423A (zh) 2022-09-05 2022-09-05 人机交互方法及相关装置
PCT/CN2023/116615 WO2024051611A1 (zh) 2022-09-05 2023-09-01 人机交互方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211079452.4A CN117690423A (zh) 2022-09-05 2022-09-05 人机交互方法及相关装置

Publications (1)

Publication Number Publication Date
CN117690423A true CN117690423A (zh) 2024-03-12

Family

ID=90133973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211079452.4A Pending CN117690423A (zh) 2022-09-05 2022-09-05 人机交互方法及相关装置

Country Status (2)

Country Link
CN (1) CN117690423A (zh)
WO (1) WO2024051611A1 (zh)

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520748B (zh) * 2018-02-01 2020-03-03 百度在线网络技术(北京)有限公司 一种智能设备功能引导方法及系统
CN108509225B (zh) * 2018-03-28 2021-07-16 联想(北京)有限公司 一种信息处理方法及电子设备
CN108735216B (zh) * 2018-06-12 2020-10-16 广东小天才科技有限公司 一种基于语义识别的语音搜题方法及家教设备
CN111819533B (zh) * 2018-10-11 2022-06-14 华为技术有限公司 一种触发电子设备执行功能的方法及电子设备
CN112397062A (zh) * 2019-08-15 2021-02-23 华为技术有限公司 语音交互方法、装置、终端及存储介质
CN112802465A (zh) * 2019-11-14 2021-05-14 北京安云世纪科技有限公司 一种语音控制方法及系统
CN111028846B (zh) * 2019-12-25 2022-08-16 北京梧桐车联科技有限责任公司 免唤醒词注册的方法和装置
CN111354360A (zh) * 2020-03-17 2020-06-30 北京百度网讯科技有限公司 语音交互处理方法、装置和电子设备
CN111816192A (zh) * 2020-07-07 2020-10-23 云知声智能科技股份有限公司 语音设备及其控制方法、装置和设备
CN115705844A (zh) * 2021-08-12 2023-02-17 上海擎感智能科技有限公司 语音交互配置方法、电子设备和计算机可读介质
CN114155855A (zh) * 2021-12-17 2022-03-08 海信视像科技股份有限公司 语音识别方法、服务器以及电子设备
CN114594923A (zh) * 2022-02-16 2022-06-07 北京梧桐车联科技有限责任公司 车载终端的控制方法、装置、设备及存储介质
CN115662410A (zh) * 2022-08-12 2023-01-31 安徽讯飞寰语科技有限公司 车机语音交互方法、车机

Also Published As

Publication number Publication date
WO2024051611A1 (zh) 2024-03-14

Similar Documents

Publication Publication Date Title
CN111724775B (zh) 一种语音交互方法及电子设备
CN110716776A (zh) 一种显示用户界面的方法及车载终端
CN110784830B (zh) 数据处理方法、蓝牙模块、电子设备与可读存储介质
US11893359B2 (en) Speech translation method and terminal when translated speech of two users are obtained at the same time
CN112397062A (zh) 语音交互方法、装置、终端及存储介质
CN112154640B (zh) 一种消息的播放方法及终端
CN112470217A (zh) 用于确定要执行语音识别的电子装置的方法及电子装置
CN112806067B (zh) 语音切换方法、电子设备及系统
CN109327613B (zh) 一种基于语音通话翻译能力的协商方法及电子设备
CN113488042B (zh) 一种语音控制方法及电子设备
KR20210040424A (ko) 음성 제어 명령 생성 방법 및 단말
CN112154431A (zh) 一种人机交互的方法及电子设备
CN112150778A (zh) 环境音处理方法及相关装置
WO2022161077A1 (zh) 语音控制方法和电子设备
CN113504887A (zh) 一种音量设置方法及电子设备
CN111724783B (zh) 智能设备的唤醒方法、装置、智能设备及介质
EP4354831A1 (en) Cross-device method and apparatus for synchronizing navigation task, and device and storage medium
CN113950037B (zh) 一种音频播放方法及终端设备
CN117690423A (zh) 人机交互方法及相关装置
CN113656099B (zh) 一种应用快捷启动方法、装置和终端设备
CN113572798B (zh) 设备控制方法、系统、设备和存储介质
CN116524919A (zh) 设备唤醒方法、相关装置及通信系统
CN116069287A (zh) 音量控制方法、装置及电子设备
CN114327198A (zh) 控制功能推送方法及设备
WO2023231936A1 (zh) 一种语音交互方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination