CN112732340B - 人机对话处理方法及装置 - Google Patents

人机对话处理方法及装置 Download PDF

Info

Publication number
CN112732340B
CN112732340B CN201910975502.9A CN201910975502A CN112732340B CN 112732340 B CN112732340 B CN 112732340B CN 201910975502 A CN201910975502 A CN 201910975502A CN 112732340 B CN112732340 B CN 112732340B
Authority
CN
China
Prior art keywords
mode
duplex
wake
voice message
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910975502.9A
Other languages
English (en)
Other versions
CN112732340A (zh
Inventor
杨新伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201910975502.9A priority Critical patent/CN112732340B/zh
Priority to US17/768,666 priority patent/US11830483B2/en
Priority to EP19948949.3A priority patent/EP4047489A4/en
Priority to PCT/CN2019/120612 priority patent/WO2021072914A1/zh
Priority to JP2022522284A priority patent/JP7311707B2/ja
Publication of CN112732340A publication Critical patent/CN112732340A/zh
Application granted granted Critical
Publication of CN112732340B publication Critical patent/CN112732340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种人机对话处理方法及装置。在该方法中,获取来自客户端的第一用户语音消息;确定所述第一用户语音消息所对应的对话意图;基于意图唤醒模式表确定所述对话意图所对应的目标双工唤醒模式,所述意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式,双工唤醒模式包括全双工唤醒模式和半双工唤醒模式;发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端,以使得所述客户端按照所述目标双工唤醒模式处理所述用户语音消息。利用该方法及装置,可以实现动态切换客户端的唤醒模式。

Description

人机对话处理方法及装置
技术领域
本发明属于互联网技术领域,尤其涉及一种人机对话处理方法及装置。
背景技术
随着互联网技术的不断发展,人机对话技术得到了飞速发展。在人机对话技术发展的过程中出现了全双工免唤醒方式的人机对话技术,也就是在设备被一次唤醒后可连续对话,在与他人对话的同时互不干扰的进行人机交互。通过全双工免唤醒能力,不需要用户重复唤醒,使得用户可以享受更自然、顺畅的语音交互体验。
目前,应用程序一般被固设为全双工免唤醒模式或半双工免唤醒模式。然而,在全双工免唤醒模式下的应用程序实际操作的过程中,可能会同时涉及全双工和半双工场景,例如当一个联系人的姓名对应多个电话号码时,需要通过用户交互操作来选定最终的用户意图,从而作出符合用户期望的操作。
发明内容
本发明实施例提供一种人机对话方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种人机对话处理方法,应用于服务端,包括:获取来自客户端的第一用户语音消息;确定所述第一用户语音消息所对应的对话意图;基于意图唤醒模式表确定所述对话意图所对应的目标双工唤醒模式,所述意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式,双工唤醒模式包括全双工唤醒模式和半双工唤醒模式;发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端,以使得所述客户端按照所述目标双工唤醒模式处理所述用户语音消息。
第二方面,本发明实施例提供一种人机对话处理方法,应用于客户端,包括:获取第一用户语音消息;发送所述第一用户语音消息至服务端;响应于所述第一用户语音消息,从所述服务端接收唤醒模式指令;根据所述唤醒模式指令所指示的目标双工唤醒模式处理所述用户语音消息,双工唤醒模式包括全双工唤醒模式和半双工唤醒模式。
第三方面,本发明实施例提供一种人机对话处理装置,包括:语音消息获取单元,被配置为获取来自客户端的第一用户语音消息;用户意图确定单元,被配置为所述第一用户语音消息所对应的对话意图;目标唤醒模式确定单元,被配置为基于意图唤醒模式表确定所述对话意图所对应的目标双工唤醒模式,所述意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式,双工唤醒模式包括全双工唤醒模式和半双工唤醒模式;唤醒指令发送单元,被配置为发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端,以使得所述客户端按照所述目标双工唤醒模式处理所述用户语音消息。
第四方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。
第五方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明实施例的有益效果在于:服务端在收到用户语音之后会确定所对应的对话意图,并通过查询意图唤醒模式表来确定对应的目标双工唤醒模式,从而使得客户端按照符合对话意图的双工唤醒模式去工作,可以实现动态切换客户端的双工唤醒模式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明一实施例的人机对话处理方法的一示例的信号交互流程图;
图2示出了根据本发明一实施例的针对半双工唤醒模式的人机对话处理方法的一示例的信号交互流程图;
图3示出了根据本发明一实施例的人机对话处理方法的一示例的流程示意图;
图4示出了根据本发明一实施例的人机对话处理装置的一示例的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“系统”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,根据本发明一实施例的人机对话处理方法的一示例的信号交互流程,其涉及在客户端100与服务端200之间的数据交互过程。其中,客户端100可以表示各种类型的终端(例如手机、智能音箱、扫地机器人等等),其能够通过麦克风手机用户语音,并与用户进行人机对话交流。服务端200可以表示语音服务平台中用于处理人机对话交流业务的功能模块,例如服务器和处理器等等。
在图1所示的交互流程中,步骤101、客户端100接收用户语音,并根据用户语音生成第一用户语音消息。
步骤102、客户端100发送第一用户语音消息至服务端200。
步骤103、服务端200确定第一用户语音消息所对应的对话意图。这里,服务端200在收到第一用户语音消息之后,通过NLP处理得到对应的语音语义,并确定出对应的对话意图。
需说明的是,术语“对话意图”可以表示用户希望通过对话来操作客户端所完成的对应动作,例如打电话、播放音乐、打开电视或答复用户提问。这里,客户端在处理部分对话意图的用户语音消息时更适于进行全双工唤醒模式,例如在用户意图是请求播放音乐时,全双工唤醒模式下的客户端在提供音乐服务的同时也能够接收并处理用户语音消息,提高语音交互体验。但是,客户端在处理一些对话意图的用户操作信息时需要进行半双工唤醒模式,也就是需要等客户端提供完服务之后再接收并处理用户语音消息,例如在用户意图是打电话给通讯录中存在重名的联系人时,此时需要等待进一步的用户输入指令,从而提供打电话的服务。
步骤104、服务端200基于意图唤醒模式表确定对话意图所对应的目标双工唤醒模式。这里,意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式,双工唤醒模式包括全双工唤醒模式和半双工唤醒模式,并且意图唤醒模式表可以是人工设置而成的。
步骤105、服务端200发送对应目标双工唤醒模式的唤醒模式指令至客户端100。
步骤106、客户端100可以按照目标双工唤醒模式处理用户语音消息。由此,客户端可以根据用户语音消息的意图所对应的目标唤醒模式来处理用户语音消息,并且针对不同的用户语音消息分别采用不同的双工唤醒模式,能够在多样化的应用场景中适用。
如图2所示,根据本发明一实施例的针对半双工唤醒模式的人机对话处理方法的一示例的流程。
步骤201、服务端200确定目标双工唤醒模式为半双工唤醒模式。例如,可以根据用户意图来确定目标唤醒模式为半双工唤醒模式,具体操作可以参照如图1中的描述,在此便不赘述。
步骤202、服务端200确定针对对话意图的询问语音消息。例如针对对话意图“打电话给通讯录中重名的联系人”,此时对应的询问语音可以是“请问是给电话号码为XX的还是电话号码为YY的联系人打电话”。
步骤203、服务端200发送询问语音消息至客户端100。
步骤204、客户端100利用询问语音消息进行半双工唤醒模式的人机对话操作。例如,客户端100对所收到的询问语音消息进行播报,在播报完成之后等待用户输入来响应。
步骤205、用户收到询问语音消息之后进行语音回复,从而在客户端100处生成第二用户语音消息。
步骤206、客户端100发送第二用户语音消息至服务端200。
步骤207、服务端200判断第二用户语音消息是否符合设定回复条件。这里,设定回复条件可以表示第二用户语音消息是否满足语义填槽要求。继上面的示例,如果第二用户语音消息的语义中不包括电话号码“XX”或“YY”,则确定该第二用户语音消息不满足语义填槽要求。另外,如果第二用户语音消息的语义包括电话号码“XX”或“YY”,则客户端执行相应的动作(例如给特定对象拨打电话)。
步骤208、当第二用户语音消息符合设定回复条件时,服务端200发送模式切换指令至客户端100。在一些应用场景下,可以令客户端默认启用全双工唤醒模式,而在对应半双工唤醒模式的语音消息被处理完成之后需要切换回全双工唤醒模式。
步骤209、客户端100按照全双工唤醒模式进行人机对话操作。
如上面所描述的,可以推荐客户端默认采用全双工唤醒模式,也就是说,客户端100可以按照全双工唤醒模式获取第一用户语音消息。之后,根据对话意图和用户输入情况来确定是否切换至半双工唤醒模式。另外,在一些应用场景下,客户端100还可以从服务端200接收全双工唤醒关闭指令,从而关闭全双工唤醒模式而重新进入等待唤醒状态。
如图3所示,根据本发明一实施例的人机对话处理方法的一示例的流程。在本实施例中,当客户端被一次唤醒后,启动全双工对话流程。如果用户语音消息命中到指定意图时,云端(或服务端)下发模拟半双工的指令给客户端。之后,客户端根据此指令切换为半双工语音对话模式,在此模式下对话会继续等待用户输入指令,直到下一次下发关闭半双工的指令。
具体地,在客户端由等待唤醒状态被用户唤醒之后,开启全双工对话模式。然后,客户端接收用户语音消息,此时输入可能是正常的用户指令音频但也可能是异常的非指令音频,需要将用户语音消息上传至服务端,进而服务端根据用户语音消息返回对话处理指令。之后,客户端根据对话处理指令判断是否结束全双工对话或者切换半双工。这里,在客户端切换半双工模式后,客户端会一直等待用户输入预期的指令,否则将会重复监听,直到接收到预期的指令。比如:用户输入:打电话给张三,假设本地张三有两个号码,服务端会回复:哪一个?这时候预期用户的回复为选择某一个,如果用户输入不在预期内,则会重复此流程。
需说明的是,在一些用户场景下,云端会下发结束全双工的指令,此时客户端也会重新进入等待唤醒状态。
在一些实施方式中,可以针对不同的指定的用户场景定制不同的双工对话模式,例如在第一用户场景中保持全双工对话模式,而在第二用户场景保持半双工对话模式。但是,这样可能无法在一次用户会话中对各个模式进行动态切换,也难以处理新增场景。
通过本发明实施例,可以实现在会话中动态调整对话模式,能够适用于多样化的用户场景,能够避免设备的差异、网络的差异导致的全双工体验问题。
如图4所示,根据本发明一实施例的人机对话处理装置400,包括:语音消息获取单元410,被配置为获取来自客户端的第一用户语音消息;用户意图确定单元420,被配置为所述第一用户语音消息所对应的对话意图;目标唤醒模式确定单元430,被配置为基于意图唤醒模式表确定所述对话意图所对应的目标双工唤醒模式,所述意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式,双工唤醒模式包括全双工唤醒模式和半双工唤醒模式;唤醒指令发送单元440,被配置为发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端,以使得所述客户端按照所述目标双工唤醒模式处理所述用户语音消息。
上述本发明实施例的装置可用于执行本发明中相应的方法实施例,并相应的达到上述本发明方法实施例所达到的技术效果,这里不再赘述。
本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
另一方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行如上的人机对话处理方法的步骤。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种人机对话处理方法,应用于服务端,包括:
获取来自客户端的第一用户语音消息;
确定所述第一用户语音消息所对应的对话意图;
基于意图唤醒模式表确定所述对话意图所对应的目标双工唤醒模式,所述意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式,所述双工唤醒模式包括全双工唤醒模式和半双工唤醒模式;
发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端,以使得所述客户端按照所述目标双工唤醒模式处理所述用户语音消息。
2.如权利要求1所述的方法,其中,在发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端之后,所述方法还包括:
当所述目标双工唤醒模式为半双工唤醒模式时,确定针对所述对话意图的询问语音消息;
发送所述询问语音消息至所述客户端,以使得所述客户端利用所述询问语音消息进行半双工唤醒模式的人机对话操作。
3.如权利要求2所述的方法,其中,在所述发送所述询问语音消息至所述客户端之后,所述方法还包括:
获取来自所述客户端的针对所述询问语音消息的第二用户语音消息;
判断所述第二用户语音消息是否符合设定回复条件;以及
当所述第二用户语音消息符合所述设定回复条件时,发送模式切换指令至所述客户端,以使得所述客户端进行全双工唤醒模式的人机对话操作。
4.一种人机对话处理方法,应用于客户端,包括:
获取第一用户语音消息;
发送所述第一用户语音消息至服务端;
响应于所述第一用户语音消息,从所述服务端接收唤醒模式指令;
根据所述唤醒模式指令所指示的目标双工唤醒模式处理所述用户语音消息,双工唤醒模式包括全双工唤醒模式和半双工唤醒模式。
5.如权利要求4所述的方法,其中,所述获取第一用户语音消息包括:
按照全双工唤醒模式获取所述第一用户语音消息。
6.如权利要求5所述的方法,其中,所述根据所述唤醒模式指令所指示的目标双工唤醒模式处理所述用户语音消息包括:
当所述目标双工唤醒模式为半双工唤醒模式时,从所述服务端获取询问语音消息;
基于所述询问语音消息,按照所述半双工唤醒模式进行人机对话操作。
7.如权利要求6所述的方法,其中,在基于所述询问语音消息,按照所述半双工唤醒模式进行人机对话操作之后,所述方法还包括:
获取响应于所述询问语音消息的第二用户语音消息;
发送所述第二用户语音消息至服务端;
当从服务端接收到响应于所述第二用户语音消息的模式切换指令时,按照全双工唤醒模式进行人机对话操作。
8.一种人机对话处理装置,包括:
语音消息获取单元,被配置为获取来自客户端的第一用户语音消息;
用户意图确定单元,被配置为所述第一用户语音消息所对应的对话意图;
目标唤醒模式确定单元,被配置为基于意图唤醒模式表确定所述对话意图所对应的目标双工唤醒模式,所述意图唤醒模式表中包括多种候选对话意图分别相对应的双工唤醒模式,双工唤醒模式包括全双工唤醒模式和半双工唤醒模式;
唤醒指令发送单元,被配置为发送对应所述目标双工唤醒模式的唤醒模式指令至所述客户端,以使得所述客户端按照所述目标双工唤醒模式处理所述用户语音消息。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
CN201910975502.9A 2019-10-14 2019-10-14 人机对话处理方法及装置 Active CN112732340B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910975502.9A CN112732340B (zh) 2019-10-14 2019-10-14 人机对话处理方法及装置
US17/768,666 US11830483B2 (en) 2019-10-14 2019-11-25 Method for processing man-machine dialogues
EP19948949.3A EP4047489A4 (en) 2019-10-14 2019-11-25 METHOD OF PROCESSING A HUMAN-MACHINE CONVERSATION
PCT/CN2019/120612 WO2021072914A1 (zh) 2019-10-14 2019-11-25 人机对话处理方法
JP2022522284A JP7311707B2 (ja) 2019-10-14 2019-11-25 ヒューマンマシン対話処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910975502.9A CN112732340B (zh) 2019-10-14 2019-10-14 人机对话处理方法及装置

Publications (2)

Publication Number Publication Date
CN112732340A CN112732340A (zh) 2021-04-30
CN112732340B true CN112732340B (zh) 2022-03-15

Family

ID=75538276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910975502.9A Active CN112732340B (zh) 2019-10-14 2019-10-14 人机对话处理方法及装置

Country Status (5)

Country Link
US (1) US11830483B2 (zh)
EP (1) EP4047489A4 (zh)
JP (1) JP7311707B2 (zh)
CN (1) CN112732340B (zh)
WO (1) WO2021072914A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628622A (zh) * 2021-08-24 2021-11-09 北京达佳互联信息技术有限公司 语音交互方法、装置、电子设备及存储介质
CN113744743B (zh) * 2021-08-27 2022-11-08 海信冰箱有限公司 一种洗衣机的语音交互方法及装置
CN114417891B (zh) * 2022-01-22 2023-05-09 平安科技(深圳)有限公司 基于粗糙语义的回复语句确定方法、装置及电子设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101389059B (zh) * 2007-09-11 2012-08-08 华为技术有限公司 实现会话模式切换的方法及设备
DE602007004620D1 (de) 2007-10-01 2010-03-18 Harman Becker Automotive Sys Sprachgesteuerte Einstellung von Fahrzeugteilen
US8681664B2 (en) * 2008-08-11 2014-03-25 Qualcomm Incorporated Setting up a full-duplex communication session and transitioning between half-duplex and full-duplex during a communication session within a wireless communications system
US20140244273A1 (en) * 2013-02-27 2014-08-28 Jean Laroche Voice-controlled communication connections
CN103198831A (zh) 2013-04-10 2013-07-10 威盛电子股份有限公司 语音操控方法与移动终端装置
CN104679472A (zh) * 2015-02-13 2015-06-03 百度在线网络技术(北京)有限公司 人机语音交互方法和装置
US9713192B2 (en) * 2015-03-27 2017-07-18 Intel Corporation Device and method for processing audio data
CN106658369B (zh) * 2016-12-06 2020-02-07 歌尔科技有限公司 一种双向语音通信设备、通信系统及通信方法
CN109657091B (zh) * 2019-01-02 2021-06-22 百度在线网络技术(北京)有限公司 语音交互设备的状态呈现方法、装置、设备及存储介质
CN109739971B (zh) 2019-01-03 2021-04-23 浙江百应科技有限公司 一种基于微信小程序实现全双工智能语音对话的方法
CN112017650B (zh) * 2019-05-31 2024-05-24 百度在线网络技术(北京)有限公司 电子设备的语音控制方法、装置、计算机设备和存储介质
CN110660390B (zh) * 2019-09-17 2022-05-03 百度在线网络技术(北京)有限公司 智能设备唤醒方法、智能设备及计算机可读存储介质
CN112002315B (zh) * 2020-07-28 2023-12-29 珠海格力节能环保制冷技术研究中心有限公司 一种语音控制方法、装置、电器设备、存储介质及处理器

Also Published As

Publication number Publication date
CN112732340A (zh) 2021-04-30
WO2021072914A1 (zh) 2021-04-22
JP7311707B2 (ja) 2023-07-19
EP4047489A1 (en) 2022-08-24
US20230162730A1 (en) 2023-05-25
JP2022545981A (ja) 2022-11-01
EP4047489A4 (en) 2022-11-23
US11830483B2 (en) 2023-11-28

Similar Documents

Publication Publication Date Title
CN112732340B (zh) 人机对话处理方法及装置
CN110442701B (zh) 语音对话处理方法及装置
CN110459221B (zh) 多设备协同语音交互的方法和装置
CN110246499B (zh) 家居设备的语音控制方法及装置
EP4084434A1 (en) Server-side processing method and server for actively initiating conversation, and voice interaction system capable of actively initiating conversation
CN108476247A (zh) 媒体访问控制(mac)地址标识
CN112735398B (zh) 人机对话模式切换方法及系统
CN108632140A (zh) 一种基于小程序的声音处理系统、方法及服务器
CN110890094A (zh) 物联网设备语音控制方法及语音服务端
CN110136713A (zh) 用户在多模态交互中的对话方法及系统
CN112185362A (zh) 针对用户个性化服务的语音处理方法及装置
CN109658934B (zh) 通过语音控制多媒体app的方法及装置
CN110196732B (zh) 技能本地管理方法及装置
CN110442698B (zh) 对话内容生成方法及系统
WO2021042584A1 (zh) 全双工语音对话方法
CN111161734A (zh) 基于指定场景的语音交互方法及装置
CN109739468A (zh) 运行优化方法、装置、存储介质及终端设备
JP2021515463A (ja) デジタルコンテンツに関する活動通知の提供
CN104954538B (zh) 一种信息处理方法及电子设备
CN107026937A (zh) 一种通信请求处理方法及装置
CN113793625A (zh) 音频播放方法、装置
CN111091303A (zh) 技能定制方法及装置
CN113271385A (zh) 一种呼叫转移方法
CN111131469B (zh) 技能应用产品的服务方法及装置
CN105573534A (zh) 操作对象的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

GR01 Patent grant
GR01 Patent grant