CN117894307A - 语音交互方法、语音交互装置和电子设备 - Google Patents

语音交互方法、语音交互装置和电子设备 Download PDF

Info

Publication number
CN117894307A
CN117894307A CN202211259240.4A CN202211259240A CN117894307A CN 117894307 A CN117894307 A CN 117894307A CN 202211259240 A CN202211259240 A CN 202211259240A CN 117894307 A CN117894307 A CN 117894307A
Authority
CN
China
Prior art keywords
user
input
electronic device
candidates
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211259240.4A
Other languages
English (en)
Inventor
陈家胜
李亚楠
梅文胜
曹猛猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202211259240.4A priority Critical patent/CN117894307A/zh
Priority to PCT/CN2023/123414 priority patent/WO2024078419A1/zh
Publication of CN117894307A publication Critical patent/CN117894307A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例提供了一种语音交互方法、语音交互装置和电子设备,该方法包括:接收用户的第一语音输入,第一语音输入包括第一槽位;在第一槽位包括至少两个候选项的情况下,将收音倒计时时长从第一时间延长为第二时间,收音倒计时时长是接收用户的第一语音输入后,电子设备持续处于收音状态的时间;在第一界面显示第一卡片,第一卡片用于提示用户确定第一槽位的目标候选项,第一卡片包括至少两个候选项;根据至少两个候选项确定目标候选项或者在第一收音时段根据用户的第二输入确定目标候选项。通过本申请实施例提供的语音交互方法,能够快速确定对应用户真正意图的目标候选项,减少用户进行语音交互时耗费的总时间,提高用户的体验感。

Description

语音交互方法、语音交互装置和电子设备
技术领域
本申请实施例涉及电子设备领域,并且更具体地,涉及一种语音交互方法、语音交互装置和电子设备。
背景技术
随着语音技术的发展,用户通过语音交互系统进行人机交互的场景越来越普遍。
多轮对话是人机交互的典型应用场景,通过与用户多个轮次对话,语音交互系统能够判断出用户的真实意图,从而执行相应的动作。
但是在多轮对话场景中,语音交互过程耗费时间过长,影响用户体验感。
发明内容
本申请实施例提供一种语音交互方法、语音交互装置和电子设备,能够减少用户进行语音交互所耗费的时间,较快地确定用户的真正意图,提高用户体验感。
第一方面,提供了一种语音交互方法,应用于电子设备,包括:接收用户的第一语音输入,所述第一语音输入包括第一槽位;在所述第一槽位包括至少两个候选项的情况下,将收音倒计时时长从第一时间延长为第二时间,所述收音倒计时时长是接收用户的第一语音输入后,所述电子设备持续处于收音状态的时间;在第一界面显示第一卡片,所述第一卡片用于提示用户确定第一槽位的目标候选项,所述第一卡片包括所述至少两个候选项;根据所述至少两个候选项确定所述目标候选项或者在第一收音时段根据用户的第二输入确定所述目标候选项,所述第一收音时段是接收用户的第一语音输入后,所述电子设备持续处于收音状态的时间段。
在该实施例中,电子设备在确定用户的第一语音输入的第一槽位包括至少两个候选项时,能够将收音倒计时时长延长,并向用户显示第一卡片,用于提示用户确定目标候选项,从而允许用户在延长的收音时间内(第一收音时段)确定目标候选项。这样,无需开启下一轮对话并且向用户播报,而是允许用户在该轮对话中就能实现目标候选项的确定,减少了语音交互的总时长,提高了用户的体验感。
结合第一方面,在第一方面的某些实现方式中,所述至少两个候选项包括默认候选项。
在该实施例中,电子设备向用户提供的至少两个候选项中包括默认候选项。示例性的,该默认候选项可以是根据至少两个候选项的热度确定的。这样,默认候选项有可能为用户真正意图对应的目标候选项,减少了用户操作的复杂性。
结合第一方面,在第一方面的某些实现方式中,所述根据所述至少两个候选项确定所述目标候选项,包括:在所述电子设备在所述第一收音时段未接收到用户的输入的情况下,根据所述默认候选项,确定所述目标候选项。
在该实施例中,电子设备向用户提示的第一卡片上有对应第一槽位的默认候选项,如果用户在延长的收音时间内进行输入,可以认为用户认可电子设备提供的默认候选项为用户真正意图的候选项,则电子设备可以将默认候选项作为目标候选项,进而为用户提供相应的服务。
结合第一方面,在第一方面的某些实现方式中,所述第二输入用于从所述至少两个候选项中选择所述目标候选项;或者,所述第二输入用于输入所述目标候选项,所述目标候选项不属于所述至少两个候选项。
在该实施例中,如果用户在延长的收音时间内(第一收音时段)进行了第二输入,电子设备可以根据用户的第二输入,确定目标候选项。例如,电子设备提供的至少两个候选项中包括用户真正意图的目标候选项,则用户可以通过语音输入“第x项”、直接语音输入该候选项、点击屏幕上的该候选项、文字输入等方式确定该候选项为第一槽位的目标候选项。或者,电子设备提供的至少两个候选项不包括用户真正意图的目标候选项,用户可以直接通过语音输入、文字输入等方式输入该目标候选项。从而电子设备可以根据该目标候选项为用户提供相应的服务。这样,用户可以通过多种方式确定目标候选项,由于默认候选项的存在,减少了用户操作的复杂性。
结合第一方面,在第一方面的某些实现方式中,所述第一语音输入后有第一停顿,所述方法还包括:在所述电子设备检测到所述第一停顿的时间大于预设阈值后,确定所述第一槽位包括所述至少两个候选项。
在该实施例中,电子设备在检测到第一语音输入后的第一停顿的时间大于预设阈值时,即对第一语音输入的第一槽位进行查询,从而确定第一槽位包括至少两个候选项。这样,无需在用户的语音输入完成后查询对应的第一槽位是否包括多个候选项,能够及时调整收音倒计时时长,避免电子设备开启第二轮对话便于用户补充第一槽位的相关信息,减少了电子设备与用户的语音交互时间,提高了用户的体验感。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:在所述第一界面上显示提示信息,用于向用户提示默认候选项对应的默认动作。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:在第一收音时段接收用户的第四输入,所述第四输入对应第二指令,所述第二指令用户确定所述默认候选项不是目标候选项。
在该实施例中,电子设备还会在第一界面上显示提示默认动作的提示信息,该默认动作与默认候选项对应,用户可以直观的看到电子设备在收音结束后默认执行的操作,当该默认动作与用户的意图不符时,用户可以立即补充输入,例如用户可以通过输入“取消”、“不执行”等语音触发取消指令,使得电子设备获知该默认候选项不是用户真正意图的目标候选项,从而不执行该默认动作,用户还可以补充输入真正意图的目标候选项,从而电子设备会根据目标候选项,为用户提供相应的服务。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:在所述第一界面显示控件,所述控件用于向用户提示收音倒计时时长的剩余值。
在该实施例中,电子设备会在界面上显示对应收音倒计时时长的剩余值的控件,从而当用户认为剩余收音倒计时时长不够补充输入时,可以通过指令延长收音倒计时时长,从而避免由于超时收音结束,需要下一轮对话补充输入,减少用户的操作的复杂性和交互总时间。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:在所述第一收音时段接收到用户的第三输入,所述第三输入对应第一指令,所述第一指令用于延长所述收音倒计时时长;根据所述第三输入,将所述收音倒计时时长从所述第二时间延长到第三时间。
在该实施例中,用户可以在收音倒计时时长的剩余值不够的时候,通过含有例如“稍等”、“等等”等词汇的语句触发稍候指令延长收音倒计时时长,操作便捷。可选的,电子设备可以允许用户自己编辑对应稍候指令的词汇,从而符合用户的习惯,提升用户的体验感。结合第一方面,在第一方面的某些实现方式中,所述方法还包括:根据所述目标候选项,发送第一请求,所述第一请求用于请求提供与所述目标候选项对应的服务。
在该实施例中,电子设备在确定第一槽位对应的目标候选项后,可以按照目标候选项向与该第一语音输入的意图对应的应用发送第一请求,从而第一应用可以向用户提供相应的服务。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:在第一收音时段接收用户的第五输入,所述第五输入对应第三指令,所述第三指令用于结束执行所述第一语音输入对应的动作。
在该实施例中,电子设备接收到用户的第五输入时,可以停止执行第一语音输入对应的动作并停止收音。例如第五输入可以包括“结束”等词语,对应结束指令,表明用户不需要提供与第一语音输入对应的服务。用户有其他需求时,可以通过例如第二语音输入请求提供相应的服务。
结合第一方面,在第一方面的某些实现方式中,所述第二输入、第三输入、第四输入和第五输入为以下任一项:语音输入、点击输入和文字输入。
本申请实施例提供的技术方案允许用户根据实际情况选择合适的输入方式,增加了本申请实施例适用的场景。
第二方面,提供了一种电子设备,包括收音组件,用于接收用户的第一语音输入;语音分析组件,用于根据所述第一语音输入确定第一槽位;即时响应组件,用于在确定所述第一槽位包括至少两个候选项的情况下,将收音倒计时时长从第一时间延长到第二时间,所述收音倒计时时长是接收用户的第一语音输入后,所述电子设备持续处于收音状态的时间;所述即时响应组件,还用于调用所述电子设备的显示组件在第一界面显示第一卡片,所述第一卡片用于提示用户确定所述第一槽位的目标候选项,所述第一卡片包括所述至少两个候选项;所述即时响应组件,还用于根据所述至少两个候选项确定所述目标候选项或者在所述第一收音时段根据用户的第二输入确定所述目标候选项,所述第一收音时段是接收用户的第一语音输入后,所述电子设备持续处于收音状态的时间段。
结合第二方面,在第二方面的某些实现方式中,所述至少两个候选项包括默认候选项。
结合第二方面,在第二方面的某些实现方式中,所述即时响应组件,具体用于在所述电子设备在所述第一收音时段未接收到用户的输入的情况下,根据所述默认候选项,确定所述目标候选项。
结合第二方面,在第二方面的某些实现方式中,所述第二输入用于从所述至少两个候选项中选择所述目标候选项;或者,所述第二输入用于输入所述目标候选项,所述目标候选项不属于所述至少两个候选项。
结合第二方面,在第二方面的某些实现方式中,所述第一语音输入后有第一停顿,所述即时响应组件,还用于:在所述电子设备检测到所述第一停顿的时间大于预设阈值后,确定所述第一槽位包括所述至少两个候选项。
结合第二方面,在第二方面的某些实现方式中,所述即时响应组件,还用于调用所述电子设备的显示组件在第一界面显示提示信息,所述提示信息用于向用户提示所述默认候选项对应的默认执行动作。
结合第二方面,在第二方面的某些实现方式中,所述即时响应组件还用于调用所述显示组件在所述第一界面显示控件,所述控件用于向用户提示所述收音倒计时时长的剩余值。
结合第二方面,在第二方面的某些实现方式中,所述收音组件,还用于在所述第一收音时段接收用户的第三输入,所述第三输入对应第一指令,所述第一指令用于延长所述收音倒计时时长;所述即时响应组件,还用于根据所述第三输入,调用所述收音组件将所述收音倒计时时长从所述第二时间延长到第三时间。
结合第二方面,在第二方面的某些实现方式中,所述第二输入为以下任一项:语音输入、点击输入和文字输入。
结合第二方面,在第二方面的某些实现方式中,所述电子设备还包括对话管理组件,所述对话管理组件用于根据所述目标候选项,发送第一请求,所述第一请求用于请求提供与所述目标候选项对应的服务。
第三方面,提供了一种语音交互装置,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,以使得所述装置执行如第一方面或第一方面任意一种实现方式所述的方法。
第四方面,提供了一种计算机可读介质,所述计算机可读介质存储有程序代码,当所述程序代码在计算机上运行时,使得计算机执行如第一方面或第一方面任意一种实现方式所述的方法。
第五方面,提供了一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面或第一方面任意一种实现方式所述的方法。
第六方面,提供了一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行上述第一方面以及第一方面的任一种可能实现方式中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,
所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行上述第一方面以及第一方面的任一种可能实现方式中的方法。
上述芯片具体可以是现场可编程门阵列或者专用集成电路。
附图说明
图1是适用于本申请实施例的电子设备的硬件结构示意图。
图2是本申请实施例的电子设备的软件结构框图。
图3是一种多轮对话的场景的示意图。
图4是本申请实施例提供的一种语音交互方法的示意性流程图。
图5是本申请实施例提供的语音交互方法的界面的示意图。
图6是本申请实施例提供的一种语音交互方法的示意性流程图。
图7是本申请实施例提供的一种语音交互方法的示意性流程图。
图8是本申请实施例提供的一种语音交互系统的结构图。
图9是本申请实施例提供的一种语音交互装置的示意性框图。
图10示出了本申请实施例提供的一种电子设备的示意图。
具体实施方式
下面将结合附图,对本申请实施例中的技术方案进行描述。
以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请以下各实施例中,“至少一个”、“一个或多个”是指一个、两个或两个以上。术语“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例提供的技术方案可以用于电子设备。以下介绍电子设备、用于这样的电子设备的用户界面、和用于使用这样的电子设备的实施例。在一些实施例中,电子设备可以是还包含其它功能诸如个人数字助理和/或音乐播放器功能的便携式电子设备,诸如手机、平板电脑、具备无线通讯功能的可穿戴电子设备(如智能手表)等。便携式电子设备的示例性实施例包括但不限于搭载或者其它操作系统的便携式电子设备。上述便携式电子设备也可以是其它便携式电子设备,诸如膝上型计算机(Laptop)等。还应当理解的是,在其他一些实施例中,上述电子设备也可以不是便携式电子设备,而是台式计算机。
图1是电子设备100的结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,指南针190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriberidentification module,SIM)卡接口195等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
其中,处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的部件,也可以集成在一个或多个处理器中。在一些实施例中,电子设备100也可以包括一个或多个处理器110。其中,控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。在其他一些实施例中,处理器110中还可以设置存储器,用于存储指令和数据。示例性地,处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从该存储器中直接调用。这样就避免了重复存取,减少了处理器110的等待时间,因而提高了电子设备100处理数据或执行指令的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路间(inter-integrated circuit,I2C)接口,集成电路间音频(nter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,SIM卡接口,和/或USB接口等。其中,USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。该USB接口130也可以用于连接耳机,通过耳机播放音频。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储一个或多个计算机程序,该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器121的上述指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统;该存储程序区还可以存储一个或多个应用(比如图库、联系人等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如照片,联系人等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如一个或多个磁盘存储部件,闪存部件,通用闪存存储器(universal flash storage,UFS)、嵌入式多媒体卡(Embedded Multi Media Card,eMMC)等。在一些实施例中,处理器110可以通过运行存储在内部存储器121的指令,和/或存储在设置于处理器110中的存储器的指令,来使得电子设备100执行本申请实施例中所提供的方法,以及其他应用及数据处理。电子设备100可以通过音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D、以及应用处理器等实现音频功能。例如音乐播放、录音等。
电子设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点、亮度、肤色进行算法优化。ISP还可以对拍摄场景的曝光、色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或多个摄像头193。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1、MPEG2、MPEG3、MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别、人脸识别、语音识别、文本理解、三维模型重建等。
显示屏194用于显示图像、视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD)、有机发光二极管(organic light-emittingdiode,OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode,AMOLED)、柔性发光二极管(flex light-emittingdiode,FLED)、Miniled、MicroLed、Micro-OLed、量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或多个显示屏194。
在本申请实施例中,上述图1中的显示屏194可以被弯折。这里,上述显示屏194可以被弯折是指显示屏可以在任意部位被弯折到任意角度,并可以在该角度保持,例如,显示屏194可以从中部左右对折。也可以从中部上下对折。
电子设备100的显示屏194可以是一种柔性屏,目前,柔性屏以其独特的特性和巨大的潜力而备受关注。柔性屏相对于传统屏幕而言,具有柔韧性强和可弯曲的特点,可以给用户提供基于可弯折特性的新交互方式,可以满足用户对于电子设备的更多需求。对于配置有可折叠显示屏的电子设备而言,电子设备上的可折叠显示屏可以随时在折叠形态下的小屏和展开形态下大屏之间切换。
传感器模块180可以包括压力传感器180A、陀螺仪传感器180B、气压传感器180C、磁传感器180D、加速度传感器180E、距离传感器180F、接近光传感器180G、指纹传感器180H、温度传感器180J、触摸传感器180K、环境光传感器180L、骨传导传感器180M等。
图2是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。应用程序层可以包括一系列应用程序包。
如图2所示,应用程序包可以包括相机、图库、日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息、认证模块和执行模块等应用程序,其中
认证模块,用于认证用户。例如通过声纹、指纹、虹膜等方式认证用户。
执行模块,用于在锁屏状态下拉起应用程序并执行用户的输入(例如语音指令、手势操作等)。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架,应用程序框架层包括一些预先定义的函数。
如图2所示,应用程序框架层可以包括窗口管理器、内容提供器、视图系统、电话管理器、资源管理器、通知管理器、受控模块等。
窗口管理器用于管理窗口程序,窗口管理器可以接收显示屏大小,判断是否有状态栏、锁定屏幕、截取屏幕等。
内容提供器用来存放和接收数据,并使这些数据可以被应用程序访问。所述数据可以包括视频、图像、音频、拨打和接听的电话、浏览历史和书签、电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串、图标、图片、布局文件、视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息、发出提示音、电子设备振动、指示灯闪烁等。
受控模块,用于管控在锁屏状态下运行的应用程序的权限,使得该应用程序仅可以使用已注册的权限。
系统库可以包括多个功能模块。例如:表面管理器(surface manager)、媒体库(media libraries)、三维图形处理库(例如:OpenGL ES)、2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频、视频格式回放和录制以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4、H.264、MP3、AAC、AMR、JPG和PNG等。
三维图形处理库用于实现三维图形绘图、图像渲染、合成和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动、摄像头驱动、音频驱动、传感器驱动。
应用程序包中的语音助手应用是人机交互应用的一种,语音助手应用也可以称为语音助手应用或智慧助手应用等。
人机交互应用也可称为人机交互机器人、人机对话机器人或聊天机器人(ChatBOT)等,人机交互应用目前广泛应用于手机、平板电脑、智能音箱等多类电子设备,为用户提供了智能化的语音交互方式。
多轮对话是人机交互的一个典型应用场景,通过与用户多个轮次对话,判断出用户的真实意图,从而执行相应的动作。多轮对话与一个事件的处理有关,例如用户需要订餐或买票等,如果用户的语音输入不准确,例如槽位缺失或者槽位待补充,需要语音交互系统与用户进行多个轮次的对话,用户进行多个轮次的回答才能确定用户的真正意图。
图3示出了多轮对话的场景,如图3所示,用户希望使用语音助手等APP进行导航。图3的(a)至(d)示出了用户和电子设备的语音交互系统进行语音交互的过程。
如图3的(a)所示,用户输入语音指令“导航去新街口”,电子设备显示界面310。该界面310中可以包括用户输入的对话框301,该对话框中301显示文字“导航去新街口”。电子设备可以从该语音指令中提取到用户意图为“导航”,槽位信息为“新街口”,可以确定与该意图对应的第三方应用为地图软件,进而使用意图“导航”和槽位“新街口”向该地图软件发送服务请求。
地图软件对应的服务器如果查询到该槽位“新街口”对应多个具体地址,说明用户输入的指令不准确。为了继续向用户提供导航服务,地图软件的服务器可以将该多个具体地址发送给语音交互系统。如图3的(b)所示,语音交互系统此时会向用户播报“找到多个目的地,你要去哪一个”,并且电子设备此时显示的界面310上会显示对话框302和卡片303,对话框302显示该语音播报,并在卡片303中显示该多个具体地址,用于提示用户在下一轮对话中输入具体地址。
如图3的(c)所示,用户可以在下一轮对话中通过语音输入“第一个”,电子设备同时的界面310出现对话框304,显示用户该轮语音输入的内容。
如图3的(d)所示,语音交互系统会向用户播报“开始为您导航前往新街口地铁站”,同时电子设备的界面310上出现对话框305,该对话框305包括语音交互系统播报的内容。
由上述介绍可知,在多轮对话的过程中,语音交互系统会在每轮对话向用户播报需要用户补充或更新的提示信息,例如对话框302的内容,以便于语音交互系统能够确定用户的真正意图,这样使得执行用户指令所耗费的时间大大增加,用户的体验感较差。
本申请实施例提供了一种语音交互方法,能够减少语音交互所需要的时间,提高用户的体验感。
如图4所示,该语音交互方法包括:
S410,接收用户的第一语音输入,第一语音输入包括第一槽位。
在S410之前,用户可以通过点击应用程序的图标或者通过语音指令打开语音助手等应用程序,从而能够与电子设备的语音交互系统进行语音交互。
如图5的(a)所示,打开语音助手等应用程序后,电子设备可以显示语音交互界面510(第一界面),示例性的,该界面510上可以包括控件511、控件512和控件513。控件511可以为“推荐”控件,当用户点击控件511时,界面510上可以出现不同的卡片,提示用户可以发出的语音指令,例如“今天天气怎么样”、“讲个笑话”等。控件513可以为“账户”控件,用户点击该控件后,可以对语音交互系统中的声音等进行设置,也可以浏览用户的语音交互记录等。控件512可以为语音输入控件,当用户点击该控件后,电子设备可以进行收音。
用户可以点击该控件512,电子设备开始进行收音,从而收集到用户的第一语音输入。如图5的(b)所示,电子设备进入收音状态时,控件512可以由图5的(a)变成图5的(b)的形态,表示该电子设备正在收音。例如,用户可以通过语音输入“导航去新街口”,则界面510上可以出现对话框513,该对话框513包括用户的第一语音输入。
第一语音输入是用户通过语音输入的指令,电子设备的语音交互系统可以对该第一语音输入进行解析,获得意图和槽位。意图可以理解成是一个意图分类,其可以对应特定的应用程序,而槽位是与意图有关的关键词,每个意图可以对应一个或多个槽位。例如“订机票”这个意图下定义了三个槽位,分别是“起飞时间”,“起始地”和“目的地”。如果要全面考虑用户订机票需要输入的内容,可以包括更多的槽位,比如旅客人数、航空公司、起飞机场、降落机场等。
在本申请实施例中,用户的第一语音输入包括第一槽位,第一语音输入还可以包括其他槽位,本申请对此不作限定。
S420,在第一槽位包括至少两个候选项的情况下,将收音倒计时时长从第一时间延长为第二时间,该收音倒计时时长是接收用户的第一语音输入后,电子设备持续处于收音状态的时间。
在本申请实施例中,电子设备还会确定第一槽位包括至少两个候选项。
该至少两个个候选项可以是第一槽位更下位的概念,或者是第一槽位的多个完整概念,或者是第一槽位的不同含义。例如,第一语音输入为“导航去新街口”,第一槽位是新街口,而“新街口”这个地名是一个较大范围的概念,从而候选项可以包括“新街口地铁站”、“新街口公交车站”、“新街口步行街”等。再如,第一语音输入为“打电话给张玉”,而用户的电话簿里包括联系人“张玉一”和“张玉二”,则候选项包括“张玉一”和“张玉二”。又如,第一语音输入可以为“导航去鼓楼区”,而全国多个城市均有鼓楼区,例如南京市鼓楼区和徐州市鼓楼区,则候选项包括该多个具体的鼓楼区。
在本申请实施例中,第一语音输入后有第一停顿,电子设备可以在检测到该第一停顿的时间大于预设阈值后,确定第一槽位包括至少两个候选项。例如,用户的第一语音输入为“导航去新街口”,在输入该语音后,电子设备可以检测到用户的停顿(第一停顿)。该第一停顿的时间可以大于预设阈值,示例性的,该预设阈值可以为50毫秒、100毫秒、200毫秒等。从而电子设备可以对该第一语音输入进行解析,获得用户的意图和对应的槽位(包括第一槽位),将第一语音输入对应的意图和第一槽位传递给与该意图有关的目标应用的服务器,该目标应用的服务器可以返回对应的查询结果。
在本申请实施例中,目标应用的服务器确定第一槽位包括至少两个候选项后,为了能够为用户提供服务,目标应用的服务器会将该至少两个候选项传递给电子设备的语音交互系统,从而语音交互系统能够根据应用返回的结果确定第一槽位包括至少两个候选项。同时,电子设备会将收音倒计时时长延长为第二时间,该第二时间例如可以为2秒~5秒,例如可以为2秒、3秒、4秒或5秒。
例如图5的(c)中,控件515对应了收音倒计时时长的剩余值,电子设备将收音倒计时时长延长为2秒(第二时间)供用户进行补充输入。
也就是说,从电子设备接收第一语音输入到电子设备确定第一槽位包括至少两个候选项都处于收音状态。如果用户的第一语音输入完整清晰能够确定用户的真实意图(第一语音输入的所有槽位都没有至少两个候选项),则目标应用(或目标应用的服务器)会向电子设备的语音交互系统传递即将执行该第一语音输入对应的真实意图,从而电子设备在第一时间内停止收音,该第一时间例如可以为500毫秒。而当第一槽位包括至少两个候选项时,电子设备不会通过下一轮对话让用户确定目标候选项,而是将收音倒计时时长延长为第二时间,从而便于用户补充内容,减少用户需要等待的时间。具体的,可以通过后续步骤S430提示用户确定目标候选项。
应理解,本申请实施例中的收音倒计时时长计算的开始时间点可以为电子设备检测到第一停顿的时间大于预设阈值的时刻,之后,如果电子设备在第一收音时段确定第一槽位不包括至少两个候选项(第一槽位清晰),可以该第一停顿后经过第一时间即停止收音;如果电子设备在第一收音时段确定第一槽位包括至少两个候选项,可以将第一时间延长为第二时间,该第二时间的起始计算时刻仍然为电子设备检测到第一停顿的时间大于预设阈值的时刻。
本申请实施例中的收音倒计时时长计算的开始时间点也可以为电子设备确定第一槽位包括至少两个候选项后(或者电子设备的语音交互系统确定第一槽位不包括至少两个候选项)。如果电子设备确定第一槽位包括至少两个候选项,则电子设备可以将第一时间延长到第二时间,该第二时间计算的开始时间点与第一时间的一致。如果电子设备确定第一槽位清晰(不包括至少两个候选项),则可以在第一时间后停止收音过程。
因此,本申请实施例中的在收音倒计时时长并非总的收音时间,在电子设备接收用户的第一语音输入的过程电子设备也处于收音过程中,其可以被称为总收音时间,由于用户进行第一语音输入的时间会随着第一语音输入的长度变化而变化,该总收音时间也会随之变化。本申请的收音倒计时时长只考虑输入第一语音输入后电子设备仍然处于收音状态的时间。
延长收音倒计时时长意味着总收音时间也在延长,且总收音时间的延长量与收音倒计时时长的延长量是一致的。因此将收音倒计时时长从第一时间延长为第二时间可以等效于将总收音时间延长第一延长量,该第一延长量为第一时间和第二时间的差值。
S430,在第一界面显示第一卡片,第一卡片用于提示用户确定第一槽位的目标候选项,第一卡片包括该至少两个候选项。
在S430中,语音交互系统可以在第一界面显示第一卡片,第一卡片514包括该至少两个候选项。图5的(c)中示出了第一卡片514包括的候选项有:“新街口地铁站”、“新街口公交车站”和“新街口步行街”。
在一些实施例中,第一卡片514还可以包括至少一个候选说法,例如图5的(c)中示出的“途径…路”和“不要走…路”,用户可以根据第一卡片514的提示,确定目标候选项,并且也可以补充相应的说法,从而使得提供的服务能够更好匹配用户的需求,提升用户的体验感。
S440,根据至少两个候选项确定目标候选项或者在第一收音时段根据用户的第二输入确定目标候选项,所述第一收音时段是接收用户的第一语音输入后,所述电子设备持续处于收音状态的时间段。
在第一收音时段根据用户的第二输入确认目标候选项的情况下,所述第二输入用于从所述至少两个候选项中选择所述目标候选项;或者,所述第二输入用于输入所述目标候选项,所述目标候选项不属于所述至少两个候选项。
具体的,用户可以根据第一卡片514的提示,确定目标候选项。例如,用户可以通过点击输入(在屏幕上点击至少两个候选项中的任一项)、语音输入(“第x项”或者直接语音输入该候选项)、文字输入等方式在第一收音时段从该至少两个候选项确定目标候选项。或者,第一卡片514上供用户选择的至少两个候选项中不包括用户意图的目标候选项,则用户可以通过第二输入直接输入目标候选项(例如输入“新街口国际影城”)。从而电子设备可以根据目标候选项执行相应动作,为用户提供与第一语音输入对应的服务。
在本申请实施例中,该至少两个候选项可以包括默认候选项。默认候选项可以通过不同的字体、背景色、位置或标号等方式与其他候选项进行区分。例如对于5的(c)所示的第一卡片514来说,至少两个候选项中第一个候选项“新街口地铁站”为默认候选项。
默认候选项可以是至少两个候选项中热度较高的候选项,例如目标应用的服务器会根据向不同用户提供的服务,确定默认候选项,并将默认候选项传递给电子设备的语音交互系统。这样,提供的默认候选项有较大的可能是用户真正意图的目标候选项,从而可以减少用户的多余操作的可能性,提高用户体验感。
在本申请实施例中,在所述电子设备在所述第一收音时段未接收到用户的输入的情况下,电子设备可以根据所述默认候选项,确定所述目标候选项。
也就是说,如果在电子设备处于收音状态期间(第一收音时段)接收到用户的第二输入,则电子设备可以依照用户的第二输入确定目标候选项;如果在第一收音时段未接收到用户的输入,则电子设备可以将默认候选项确定为目标候选项。
例如,默认候选项可以通过如下方式被确定为目标候选项:用户可以在界面510上点击第一卡片514上的“新街口地铁站”确定目标候选项。或者,用户可以在第二时间内通过语音输入或文字输入“新街口地铁站”或者“第一项”等方式确定目标候选项为“新街口地铁站”;或者,用户可以在第一收音时段不进行任何输入,则该默认候选项“新街口地铁站”可以直接被语音交互系统确定为目标候选项;或者,用户可以的第二输入中包括指令词汇“确定”、“确认”等,这些词汇可以对应第三指令,该指令可以确定默认候选项是目标候选项。
再如,如果目标候选项不是默认候选项,如果目标候选项在该至少两个候选项中,则用户仍然可以通过点击对应的选项、文字输入、语音输入等方式确定该目标候选项。如果该目标候选项不在该至少两个候选项中,则电子设备可以通过用户的语音输入、文字输入确定目标候选项。
第一界面510上显示的用户输入的对话框513可以根据当前确定的目标候选项的变化而更新,例如图5的(c)中当用户未确定目标候选项时,对话框513中的“导航去新街口”可以根据默认候选项更新为“导航去新街口地铁站”,如果后续用户确定的目标候选项和默认候选项不一样,该对话框还可以继续更新,例如用户选择的目标候选项为“新街口步行街”,则对话框513可以更新为“导航去新街口步行街”。
可选的,在用户输入目标候选项之前,语音交互系统可以接收用户的第四输入,该第四输入可以对应取消指令,根据第四输入,确定该默认候选项不是目标候选项。具体的,第四输入中可以包括“取消”等关键词,该关键词可以对应取消指令,用于取消已选择的候选项(或者默认候选项),语音交互系统接收到对应该取消指令的输入后,会获知默认候选项(或已选候选项)不是用户的真实意图对应的目标候选项。
在本申请实施例中,电子设备可以在第一界面上显示控件,该控件用于向用户提示收音倒计时时长的剩余值,从而用户可以判断剩余的收音时间是否足够用户进行第二输入从而确定目标候选项,并在时间不够时及时输入指令延长收音倒计时时长。
例如图5的(c)和图5的(d)中,第一界面510上显示了控件515,为收音倒计时时长的剩余值。应理解,该控件可以不像图5的(c)所示为显示该收音倒计时时长的剩余值的文字,也可以为动画,例如根据收音倒计时时长的剩余值的多少形状变化的动画等。
在本申请实施例中,用户还可以在第一收音时段进行第三输入,第三输入对应第一指令(“稍候指令”),该第一指令用于延长收音倒计时时长。具体的,第三输入中可以包括“等等”、“稍等”或“稍候”等词汇,这些词汇可以对应稍候指令,电子设备可以在接收到含有这些词汇的输入后,触发稍候指令,从而对应延长收音倒计时时长,将收音倒计时时长从第二时间延长到第三时间。
应理解,本申请中所叙述的延长收音倒计时时长并不是将剩余的收音时间延长到某一时间,而是使得第一收音时段延长到某一时间。如果第一时间为0.5秒,第二时间为2秒,第三时间为4秒,则将收音倒计时时长从2秒延长为4秒时,有可能此时收音倒计时的剩余值还剩1秒,第一界面上会将该剩余值加2秒显示为3秒,但是实际上从电子设备接收第一语音输入后到收音结束仍然为4秒。
例如,用户确定剩余收音时间不够用户进行输入从而确定第一槽位的目标候选项时,可以通过输入对应第一指令的语音,延长收音倒计时时长。示意性的,电子设备可以将收音倒计时时长延长2秒。
在本申请实施例中,电子设备还可以在第一界面上显示提示信息,用于向用户提示默认候选项对应的默认动作。电子设备会根据默认候选项,确定默认动作。该默认动作可以如图5的(c)所示显示在第二卡片516上,用于提示用户即将执行的查询请求。例如第二卡片516上会对应显示“即将执行导航去新街口地铁站”,如果用户不认同该默认动作(不认同该默认候选项),可以输入指令“取消”,并输入新的目标候选项,则第一界面510上会显示即将执行的动作,第二卡片516的内容。也就是说,该第一界面上显示的是即将执行的动作,该即将执行的动作可以是默认动作;也可以是先显示默认动作,后根据用户的输入变成目标动作(与目标候选项对应)。
在本申请实施例中,电子设备还可以接收用户的第五输入,该第五输入可以对应第三指令,第三指令可以为结束指令,用于结束执行第一语音输入对应的动作,电子设备可以在接收到第五输入后,结束执行当前的动作并停止收音。
前文提及的第二输入、第三输入、第四输入和第五输入可以为语音输入、选择输入(点击输入)或者文字输入的一种,以供用户选择合适的输入方式。
上述以第一槽位包括至少两个候选项为例,介绍了本申请实施例提供的语音交互方法。在一些实施例中,如果第一语音输入中的第二槽位、第三槽位也具有多个候选项,也可以按照本申请实施例的技术方案将第二槽位和第三槽位的候选项显示给用户,并延长收音倒计时时长,提示用户确定第二目标槽位和第三目标槽位,从而减少与用户交互时间,提高用户的体验感。
此外,上述实施例中的至少两个候选项、候选说法以及默认动作可以在一个卡片上显示,也可以分别显示在多个卡片上。
进一步的,如果能够执行用户意图的应用有两个,与本申请实施例提供的技术方案类似,也可以延长收音倒计时时长,并通过显示界面上的卡片或选项提示用户选择所需要使用的应用,减少与用户的交互时间,提高用户的体验感。
此外,如果用户的意图不清晰,例如,可以被解释为两个或以上候选意图,也可以通过在显示界面上包括多个候选意图的卡片,提示用户选择真正的意图,减少与用户的交互时间,提高用户的体验感。
在本申请实施例中,电子设备还会根据目标候选项,发送与目标候选项对应的第一请求,以向用户提供与第一语音输入对应的服务结果。
图6示出了本申请实施例提供的语音交互方法的流程图。
S602,用户进行语音输入。
具体的,由收音组件接收用户的输入
S604,解析意图和槽位。
具体的,由语音分析组件解析意图和槽位。
S606,判断指令是否完整精确。
具体的,由即时响应组件判断指令是否完整精确,完整精确的指令可以解析出唯一的执行动作。
S608,在指令不完整精确的情况下,展示实体补全列表、收音倒计时、即将执行的动作。
具体的,用户输入的第一槽位可以包括至少两个候选项,即时响应组件可以指示显示组件展示实体补全列表,实体补全列表可以包括候选项和候选说法。
可选的,如果用户的指令完整精确,则可以直接根据用户输入的指令,执行意图操作。
S610,判断是否补充输入。
当用户未补充输入时,可以执行实体补全列表中默认候选项对应的默认动作。
S612,当用户补充输入时,判断是否特殊指令。
在S612中,如果用户补充输入,可以由即时响应组件结合语音分析组件对用户补充输入的解析的结果,确定用户补充输入是否包括或对应特殊指令。
S6121,当用户补充输入为特殊指令时,执行特殊指令动作,具体的:
补充输入对应稍候指令,可以延长收音时间,并返回S610步骤,判断用户是否在该延长的收音时间内补充输入。
补充输入对应取消指令,可以取消默认候选项或已选候选项,并返回S610步骤,判断用户是否继续补充输入第一槽位对应的目标候选项。
补充输入对应选择指令,可以填充使用用户选择的候选项填充第一槽位,具体的,补充输入可以为“第一项”,通过该补充输入确定与实体补全列表对应的目标候选项,并按照该目标候选项执行意图操作。
补充输入对应结束指令,可以结束收音。
补充输入对应确认指令,即确认用户已经选择的或者默认的槽位,并按照该槽位执行意图操作。
S614,当用户补充输入非特殊指令时,结束收音,执行用户意图操作。
图7示出了本申请实施例提供的一种语音交互方法的示意性流程图,该方法包括:
S702,收音组件接收用户的第一语音输入。
示意性的,该第一语音输入为“导航去新街口”。
S704,由收音组件接收的第一语音输入被上传到语音分析组件。
S705,语音分析组件确定第一语音输入的意图和槽位。
在S705中,槽位的数量可以为多个,槽位中包括第一槽位。
S706,语音分析组件将意图和槽位发送给即时响应组件。
该槽位可以包括第一槽位,示意性的,对于上述示例的第一语音输入,意图为“导航”,第一槽位为“新街口”。
S708,即时响应组件确定第一槽位包括至少两个候选项。
在S708中,即时响应组件可以将意图和第一槽位发送给与该意图对应的应用进行查询,从而该应用会返回第一槽位的至少两个候选项。可选的,该至少两个候选项包括默认候选项(新街口地铁站)。可选的,该应用还会返回一个或多个候选说法。
S710,即时响应组件确定“慢停”,向收音组件发送延长收音时间指令。
在S710中,“慢停”是指即时响应组件确定第一槽位包括至少两个候选项后,指示收音组件慢一些停止收音,向收音组件发送延长收音时间指令,允许用户在延长的收音时间内补充输入。
S712,即时响应组件将意图和默认候选项发送给对话管理组件。
S714,对话管理组件根据意图和默认候选项向即时响应组件返回默认动作。
可选的,对话管理组件还会返回多个候选说法。
S716,即时响应组件将至少两个候选项(可选的,包括默认候选项)、候选说法、默认动作发送给显示组件,由显示组件显示。
可选的,显示组件上还可以显示收音倒计时(收音时间的剩余值)。
S718,接收用户的第三输入,第三输入对应第一指令。
在S718中,第三输入中可以包括“等等”、“稍等”等词汇,该第三输入可以经过语音分析组件解析后发送给即时响应组件。该第三输入可以是用户认为默认候选项(新街口地铁站)不是用户的真正需要的槽位,并且认为剩余收音时间不够用户思考或输入真正的目标候选项,从而可以触发稍候指令,该指令可以延长收音时间。
S720,即时响应组件解析第三输入,指示收音组件延长收音时间。
S722,接收用户的第二输入,所述第二输入用于确定目标候选项。
在S722中,第二输入中可以包括目标候选项(新街口步行街),或者也可以是目标候选项在显示界面上的序号(例如,第三项)等。
S724,即时响应组件确定目标候选项准确,触发“快停”,指示收音组件停止收音。
在S724中,收音组件接收到即时响应组件的指示之后,可以例如在500毫秒内停止收音。
S726,即时响应组件将意图和目标候选项发送给对话管理组件。
S728,DM组件根据意图和目标候选项,调用第三方应用,执行用户的操作。
图8示出了执行本申请实施例的语音交互系统。该语音交互系统包括收音组件801,语音分析组件802、即时响应组件803和对话管理(dialogue manager,DM)组件804,其中,语音分析组件802由声音活动检测(voiceactivitydetection,VAD)子组件8021、语音识别(automatic speech recognition,ASR)子组件8022、自然语言理解(natural languageunderstanding,NLU)子组件8023组成。
收音组件801用于接收用户的语音输入(第一语音输入),由收音组件801接收的语音输入将由语音分析组件进行分析和处理。
VAD子组件8021,可以检测是否存在人类语音,检测出语音输入中的停顿,还可以提供对于语音的分析,即输入的语音是有声、无声还是连续的。
ASR子组件8022的主要作用是将用户语音识别为语音文本,从而将用户的语音输入转换成文字,以便于NLU模块对文本进行理解。
NLU子组件8023的主要功能是根据语音文本理解用户的意图(intent),进行槽位(slot)解析,转换语音文本到机器能理解的结构化信息,也就是说将语音文本转换为可执行的意图和槽位,意图和槽位会被用于通过合适的应用完成用户诉求。
即时响应组件803,用于在VAD子组件8021检测出大于预设阈值的停顿时(例如,该预设阈值大于50毫秒),对经过NLU子组件8023解析的意图和槽位进行查询,由与该意图相关的目标应用根据即时响应组件803的查询请求查询并返回查询结果。从而即时响应组件803可以根据该查询结果确定第一槽位包括至少两个候选项,并向收音组件801发送指令延长收音时间。
即时响应组件803也可以根据目的应用返回的结果确定默认候选项和说法列表,并将该默认候选项发送给DM组件804,由DM组件804返回默认动作,即时响应组件804可以将该至少两个候选项、候选说法、默认动作返回给电子设备的显示组件显示。
显示组件在第一界面的第一卡片上显示至少两个候选项和默认动作,该第一卡片用于提示用户确定目标候选项,第一界面上还可以显示候选说法和收音时间的剩余值。
用户可以根据第一卡片,确定目标候选项,如果用户不认同默认候选项以及默认动作,可以输入从而确定目标候选项。
即时响应组件803在用户确定目标候选项后可以将目标候选项发送给DM组件,并由DM组件返回目标动作,并将该目标动作显示在电子设备的界面上。
另外,当用户在收音过程中输入“确定”、“取消”、“稍等”等指令,即时响应组件也能够对应根据指令执行不同的操作。
图9示出了本申请实施例提供的一种电子设备900,该电子设备900可以执行图4至图7的语音交互方法,该电子设备900包括:处理单元910、显示单元920
具体的,该电子设备900包括:处理单元910,用于接收用户的第一语音输入,该第一语音输入包括第一槽位;该处理单元910,还用于在该第一槽位包括至少两个候选项的情况下,将收音倒计时时长从第一时间延长为第二时间,所述收音倒计时时长是接收用户的第一语音输入后,所述电子设备持续处于收音状态的时间;显示单元920,用于在第一界面显示第一卡片,该第一卡片用于提示用户确定第一槽位的目标候选项,该第一卡片包括该至少两个候选项;该处理单元910,还用于根据所述至少两个候选项确定所述目标候选项或者在所述第一收音时段根据用户的第二输入确定所述目标候选项,第一收音时段是接收用户的第一语音输入后,所述电子设备持续处于收音状态的时间段。
在本申请实施例中,该至少两个候选项包括默认候选项。
在本申请实施例中,该处理单元910,具体用于:在所述电子设备在所述第一收音时段未接收到用户的输入的情况下,根据所述默认候选项,确定所述目标候选项。
在本申请实施例中,所述第二输入用于从所述至少两个候选项中选择所述目标候选项;或者,所述第二输入用于输入所述目标候选项,所述目标候选项不属于所述至少两个候选项。
在本申请实施例中,所述第一语音输入后有第一停顿,所述处理单元910还用于:在所述电子设备检测到所述第一停顿的时间大于预设阈值后,确定所述第一槽位包括所述至少两个候选项。
在本申请实施例中,该处理单元910,还用于在第一收音时段接收用户的第四输入,该第四输入对应第二指令,所述第二指令用户确定所述默认候选项不是目标候选项;根据该第四输入,确定该默认候选项不是该目标候选项。
在本申请实施例中,该显示单元920,还用于在第一界面上显示提示信息,用于向用户提示默认候选项对应的默认动作。
在本申请实施例中该处理单元910,还用于根据该默认候选项确定该默认动作。
在本申请实施例中,该显示单元920,还用于在该第一界面显示控件,所述控件用于向用户提示收音倒计时时长的剩余值。
在本申请实施例中,该处理单元910,还用于在该第一收音时段接收用户的第三输入,该第五输入对应第一指令,该第一指令用于延长该收音倒计时时长;根据该第三输入,将该收音倒计时时长从该第二时间延长到第三时间。
在本申请实施例中,该处理单元910,还用于在第一收音时段接收用户的第五输入,所述第五输入对应第三指令,所述第三指令用于结束执行所述第一语音输入对应的动作。
在本申请实施例中,该第二输入、该第三输入、该第四输入或者该第五输入分别为以下任一项:语音输入、点击输入和文字输入。
图10示出了本申请实施例提供的一种电子设备1000,该电子设备可以用于执行图4至图7中任一项的方法。电子设备1000包括:处理器1020。在本申请的实施例中,处理器1020用于实现相应的控制管理操作,例如,处理器1020用于支持电子设备1000执行前述实施例的方法或操作或功能。可选的,电子设备1000还可以包括:存储器1010和通信接口1030;处理器1020、通信接口1030以及存储器1010可以相互连接或者通过总线1040相互连接。其中,通信接口1030用于支持该电子设备1000与其他设备等进行通信,存储器1010用于存储电子设备1000的程序代码和数据。处理器1020调用存储器1010中存储的代码或者数据实现相应的操作。该存储器1010可以跟处理器耦合在一起,也可以不耦合在一起。本申请实施例中的耦合是电子设备、单元或模块之间的间接耦合或通信连接,可以是电性,机械或其它的形式,用于电子设备、单元或模块之间的信息交互。
其中,处理器1020可以是中央处理器单元,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。通信接口1030可以是收发器、电路、总线、模块或其它类型的通信接口。总线1040可以是外设部件互连标准(peripheral componentinterconnect,PCI)总线或扩展工业标准结构(extended industry standardarchitecture,EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元910中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (22)

1.一种语音交互方法,其特征在于,应用于电子设备,包括:
接收用户的第一语音输入,所述第一语音输入包括第一槽位;
在所述第一槽位包括至少两个候选项的情况下,将收音倒计时时长从第一时间延长为第二时间,所述收音倒计时时长是接收用户的第一语音输入后,所述电子设备持续处于收音状态的时间;
在第一界面显示第一卡片,所述第一卡片用于提示用户确定第一槽位的目标候选项,所述第一卡片包括所述至少两个候选项;
根据所述至少两个候选项确定所述目标候选项或者在第一收音时段根据用户的第二输入确定所述目标候选项,所述第一收音时段是接收用户的第一语音输入后,所述电子设备持续处于收音状态的时间段。
2.根据权利要求1所述的方法,其特征在于,所述至少两个候选项包括默认候选项。
3.根据权利要求2所述的方法,其特征在于,所述根据所述至少两个候选项确定所述目标候选项,包括:
在所述电子设备在所述第一收音时段未接收到用户的输入的情况下,根据所述默认候选项,确定所述目标候选项。
4.根据权利要求2所述的方法,其特征在于,
所述第二输入用于从所述至少两个候选项中选择所述目标候选项;或者,
所述第二输入用于输入所述目标候选项,所述目标候选项不属于所述至少两个候选项。
5.根据权利要求2至4中任一项所述的方法,其特征在于,所述第一语音输入后有第一停顿,所述方法还包括:
在所述电子设备检测到所述第一停顿的时间大于预设阈值后,确定所述第一槽位包括所述至少两个候选项。
6.根据权利要求2至5中任一项所述的方法,其特征在于,所述方法还包括:
在所述第一界面上显示提示信息,所述提示信息用于向用户提示所述默认候选项对应的默认动作。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
在所述第一界面显示控件,所述控件用于向用户提示所述收音倒计时时长的剩余值。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
在所述第一收音时段接收到用户的第三输入,所述第三输入对应第一指令,所述第一指令用于延长所述收音倒计时时长;
根据所述第三输入,将所述收音倒计时时长从所述第二时间延长到第三时间。
9.根据权利要求4所述的方法,其特征在于,所述第二输入为以下任一项:语音输入、点击输入和文字输入。
10.一种电子设备,其特征在于,包括:
收音组件,用于接收用户的第一语音输入;
语音分析组件,用于根据所述第一语音输入确定第一槽位;
即时响应组件,用于在确定所述第一槽位包括至少两个候选项的情况下,将收音倒计时时长从第一时间延长到第二时间,所述收音倒计时时长是接收用户的第一语音输入后,所述电子设备持续处于收音状态的时间;
所述即时响应组件,还用于调用所述电子设备的显示组件在第一界面显示第一卡片,所述第一卡片用于提示用户确定所述第一槽位的目标候选项,所述第一卡片包括所述至少两个候选项;
所述即时响应组件,还用于根据所述至少两个候选项确定所述目标候选项或者在所述第一收音时段根据用户的第二输入确定所述目标候选项,所述第一收音时段是接收用户的第一语音输入后,所述电子设备持续处于收音状态的时间段。
11.根据权利要求10所述的电子设备,其特征在于,所述至少两个候选项包括默认候选项。
12.根据权利要求11所述的电子设备,其特征在于,
所述即时响应组件,具体用于在所述电子设备在所述第一收音时段未接收到用户的输入的情况下,根据所述默认候选项,确定所述目标候选项。
13.根据权利要求11所述的电子设备,其特征在于,
所述第二输入用于从所述至少两个候选项中选择所述目标候选项;或者,
所述第二输入用于输入所述目标候选项,所述目标候选项不属于所述至少两个候选项。
14.根据权利要求11至13中任一项所述的方法,其特征在于,所述第一语音输入后有第一停顿时间,所述即时响应组件,还用于:
在所述电子设备检测到所述第一停顿时间大于预设阈值后,确定所述第一槽位包括所述至少两个候选项。
15.根据权利要求11至14中任一项所述的电子设备,其特征在于,所述即时响应组件,还用于调用所述电子设备的显示组件在第一界面显示提示信息,所述提示信息用于向用户题述所述默认候选项对应的默认执行动作。
16.根据权利要求10至15中任一项所述的电子设备,其特征在于,
所述即时响应组件还用于调用所述显示组件在所述第一界面显示控件,所述控件用于向用户提示所述收音倒计时时长的剩余值。
17.根据权利要求10至16中任一项所述的电子设备,其特征在于,
所述收音组件,还用于在所述第一收音时段接收用户的第三输入,所述第三输入对应第一指令,所述第一指令用于延长所述收音倒计时时长;
所述即时响应组件,还用于根据所述第三输入,调用所述收音组件将所述收音倒计时时长从所述第二时间延长到第三时间。
18.根据权利要求13所述的电子设备,其特征在于,所述第二输入为以下任一项:语音输入、点击输入和文字输入。
19.根据权利要求10至18中任一项所述的电子设备,其特征在于,
所述电子设备还包括对话管理组件,所述对话管理组件用于根据所述目标候选项,发送第一请求,所述第一请求用于请求提供与所述目标候选项对应的服务。
20.一种语音交互装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,以使得所述装置执行如权利要求1至9中任一项所述的方法。
21.一种计算机可读介质,所述计算机可读介质存储有程序代码,当所述程序代码在计算机上运行时,使得计算机执行如权利要求1至9中任一项所述的方法。
22.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1至9中任一项所述的方法。
CN202211259240.4A 2022-10-14 2022-10-14 语音交互方法、语音交互装置和电子设备 Pending CN117894307A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211259240.4A CN117894307A (zh) 2022-10-14 2022-10-14 语音交互方法、语音交互装置和电子设备
PCT/CN2023/123414 WO2024078419A1 (zh) 2022-10-14 2023-10-08 语音交互方法、语音交互装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211259240.4A CN117894307A (zh) 2022-10-14 2022-10-14 语音交互方法、语音交互装置和电子设备

Publications (1)

Publication Number Publication Date
CN117894307A true CN117894307A (zh) 2024-04-16

Family

ID=90640013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211259240.4A Pending CN117894307A (zh) 2022-10-14 2022-10-14 语音交互方法、语音交互装置和电子设备

Country Status (2)

Country Link
CN (1) CN117894307A (zh)
WO (1) WO2024078419A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724775B (zh) * 2019-03-22 2023-07-28 华为技术有限公司 一种语音交互方法及电子设备
US11984124B2 (en) * 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
CN114627864A (zh) * 2020-12-10 2022-06-14 海信视像科技股份有限公司 显示设备与语音交互方法
US20220188361A1 (en) * 2020-12-11 2022-06-16 Meta Platforms, Inc. Voice-based Auto-Completions and Auto-Responses for Assistant Systems
CN113555018B (zh) * 2021-07-20 2024-05-28 海信视像科技股份有限公司 语音交互方法及装置
CN114582333A (zh) * 2022-02-21 2022-06-03 中国第一汽车股份有限公司 语音识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2024078419A1 (zh) 2024-04-18

Similar Documents

Publication Publication Date Title
CN110111787B (zh) 一种语义解析方法及服务器
CN112567457B (zh) 语音检测方法、预测模型的训练方法、装置、设备及介质
CN110136705B (zh) 一种人机交互的方法和电子设备
CN110138959B (zh) 显示人机交互指令的提示的方法及电子设备
WO2022052776A1 (zh) 一种人机交互的方法、电子设备及系统
CN110798506B (zh) 执行命令的方法、装置及设备
CN110910872A (zh) 语音交互方法及装置
CN111724775A (zh) 一种语音交互方法及电子设备
CN111970401B (zh) 一种通话内容处理方法、电子设备和存储介质
CN111881315A (zh) 图像信息输入方法、电子设备及计算机可读存储介质
CN112154431A (zh) 一种人机交互的方法及电子设备
WO2021254411A1 (zh) 意图识别方法和电子设备
CN114691839A (zh) 一种意图槽位识别方法
CN114694646A (zh) 一种语音交互处理方法及相关装置
CN116055629B (zh) 一种识别终端状态的方法、电子设备、存储介质和芯片
CN113742460A (zh) 生成虚拟角色的方法及装置
WO2023005711A1 (zh) 一种服务的推荐方法及电子设备
CN116055618B (zh) 一种识别终端状态的方法和装置
CN113380240B (zh) 语音交互方法和电子设备
CN114465975B (zh) 一种内容推送方法、装置、存储介质和芯片系统
CN117894307A (zh) 语音交互方法、语音交互装置和电子设备
CN114201102A (zh) 信息处理方法、装置及存储介质
CN114756785A (zh) 页面显示的方法、装置、电子设备以及可读存储介质
WO2023124849A1 (zh) 一种语音识别的方法和装置
WO2023197949A1 (zh) 汉语翻译的方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination