CN109753264A

CN109753264A - 一种任务处理方法和设备

Info

Publication number: CN109753264A
Application number: CN201711092758.2A
Authority: CN
Inventors: 吴楠
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2019-05-14
Also published as: US20190138330A1; WO2019094205A1; TW201923569A

Abstract

本申请提供了一种任务处理方法和设备，其中，该方法包括：向目标对象发起多媒体问询；获取响应于所述多媒体问询的回复数据；迭代发起问询，直至获得执行预定任务所需数据；基于所述所需数据，发起所述预定任务。通过上述方案可以解决现有的需要用户主动发起语音交互而导致的用户体验不高的技术问题，达到了有效提高用户体验的技术效果。

Description

一种任务处理方法和设备

技术领域

本申请属于人机交互技术领域，尤其涉及一种任务处理方法和设备。

背景技术

随着语音识别技术的不断发展，越来越多的语音智能设备被研发和使用。目前语音交互方式一般都还是采用一问一答的方式，一般都是用户发起交流内容。例如，用户问了一句：今天什么天气，语音智能设备回答：今天天气多云，18到26℃。即，需要用户主动触发进行语音交互。也就是需要人作为主导来进行语音交互。

然而，需要用户自己触发和引导以使用某个设备的方式，往往用户体验不高。尤其对于有些用户使用频率不高，没有足够时间学习的设备，如果用户进行引导的话，实现起来较为麻烦，且体验不高。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本申请目的在于提供一种任务处理方法和设备，可以实现不需要对设备进行引导，设备可以主动发起问询的目的。

本申请提供一种任务处理方法和设备是这样实现的：

一种任务处理方法，所述方法包括：

向目标对象发起多媒体问询；

获取响应于所述多媒体问询的回复数据；

迭代发起问询，直至获得执行预定任务所需数据；

基于所述所需数据，发起所述预定任务。

一种任务处理设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

向目标对象发起多媒体问询；

获取响应于所述多媒体问询的回复数据；

迭代发起问询，直至获得执行预定任务所需数据；

基于所述所需数据，发起所述预定任务。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现上述方法的步骤。

本申请提供的任务处理方法和设备，设备主动发起问询，并迭代发问，直至获取执行预定任务所需的必要数据，从而提供了一种主动的任务处理方式。通过上述方式可以解决现有的需要用户主动唤醒或者主动发起交互而导致的用户体验不高的技术问题，达到了有效提高用户体验的技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的人机交互系统的架构示意图；

图2是根据本申请实施例的人机交互场景的逻辑实现示意图；

图3是根据本申请实施例的预设的位置区域示意图；

图4是根据本申请实施例的智能咖啡售卖机的工作场景图；

图5是根据本申请实施例的智能咖啡售卖机的另一工作场景图；

图6是根据本申请实施例的由设备主动触发人机交互的流程图；

图7是根据本申请实施例的设备主动触发人机交互的咖啡购买流程问询示意图；

图8是根据本申请实施例的任务处理方法的方法流程图；

图9是根据本申请实施例的终端设备的结构示意图；

图10是根据本申请实施例的任务处理装置的结构框图；

图11是根据本申请实施例的集中部署方式的架构示意图；

图12是根据本申请实施例的大集中小双活的部署方式的架构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

考虑到现有的与智能语音设备进行语音交互的时候，一般都是用户主动触发进行语音交互。例如，用户到柜台买咖啡，假设柜台设置了一个自动售卖机，一般需要用户主动交互，用户说：我想要一杯卡布奇诺，设备回答：好的，一杯卡布奇诺。

即，需要用户进行触发。这样在很多场合，这种需要用户主动触发的方式，很显然给用户的用户体验不高。尤其是在服务行业，相对而言设备主动发起对话的方式，用户体验感更好。例如，同样是上述用户到柜台买咖啡的例子。如果是自动售卖机主动发起对话，比如，设备说：您好，请问想要什么咖啡？设备回答：一杯卡布奇诺。这种交流方式，可以有效提高用户体验，自动贩卖机的智能性可以得到有效提升。又例如，用户到售卖地铁票的设备前打算购买地铁票，如果是用户主动触发购买流程往往不知道如何开始，尤其对于第一次使用这种设备的用户而言，不知道如何触发，或者如何发问等等。

基于此，考虑到可以提供一种任务处理方式，由设备发起对话，这种方式还可以避免用户不知道怎么向设备发问的问题，即，由设备发起的主动的交互方式，在主动交互的方式下，可以由设备向用户进行提问，由设备主导整个对话过程，从而可以降低使用难度。

如图1所示，在本例中提供了一种人机交互系统，包括：一个或多个交互设备101、一个或多个用户102。

上述交互设备可以是例如：智能音箱、聊天机器人、带有服务提供功能的机器人、或者是手机或者电脑等智能设备中安装的应用程序等等，具体以何种形式存在，本申请对此不作具体限定。

如图2所示为基于图1的语音交互系统下进行语音交互的业务逻辑实现示意图，可以包括：

1)硬件方面，可以包括：摄像头和麦克风阵列。

其中，摄像头和麦克风阵列可以设置在如图1所示的语音设备101中，通过摄像头可以获取人像信息，基于获取的人像信息可以进一步确定出嘴所在的位置，从而可以确定出声音的来源位置，即，通过人像信息可以具体确定出发出声音的嘴的位置，这样也就确定了哪个方向过来的声音是需要获取的声音。

在确定出哪个方向的声音是需要获取的声音之后，就可以通过麦克风阵列进行定向消噪，即，可以通过麦克风阵列对声源方向的声音进行加强，对非声源方向的噪声进行抑制。

即，通过摄像头+麦克风阵列进行配合的方式，可以实现对声音的定向消噪。

2)本地算法，可以包括基于人脸识别的算法和基于信号处理的算法。

其中，基于人脸识别的算法可以用于确定出用户身份，可以用于识别用户五官的位置，识别用户是否面向设备，以及用户支付认证等等，都可以通过摄像头配合本地的人脸识别算法实现。

其中，信号处理算法可以是在确定出声源位置之后，确定出声源的角度，进而对麦克风阵列的声音拾取进行控制，以便实现定向消噪。同时还可以对获取到的语音进行一定的放大、滤波等处理。

3)云端处理，即，在云端实现，也可以是本地实现，这可以根据设备自身的处理能力以及使用环境等确定。当然在云端实现的话，借助大数据对算法模型进行更新和调整，可以有效提升语音识别、自然语音理解和对话管理的准确性。

云端处理主要可以包括：语音识别、自然语言理解、对话管理等等。

其中，语音识别主要是识别出获取到的语音的内容，例如，获取了一段语音数据，需要理解其含义，那么需要先知道这段语音具体的文字内容，这个过程就需要借助语音识别将语音转换为文字。

对于机器而言，文字还是文字本身，需要确定出文字所表达的含义，那么就需要通过自然语言解释来确定出文字对应的自然含义，这样才能识别出用户语音内容的意图以及所携带的信息。

因为是人机交互流程，就涉及到问答的环节，可以通过对话管理单元，即，可以设备主动触发问答，以及基于用户的回复继续生成先的问答。这些问答需要预先设置好问题和所需的答案。例如，购买地铁票的对话中，就需要设置：请问您需要到哪一站的地铁票，几张等等这些问答内容，相应的用户所需要提供的是：站名和张数。对于在对话过程中出现的，用户需要更改站名，或者对已经回复的答复进行修改等等，对话管理都需要提供相应的处理逻辑。

对于对话管理而言，不仅可是设置常规的对话，也可以针对用户身份的不同，为用户个性化定制对话内容，从而使得用户体验更高。

对话管理的目的，就是为了实现与用户的有效交流，以获取执行操作所需的信息。

对于具体的语音识别、自然语音理解和对话管理，可以在云端实现，也可以是本地实现，这可以根据设备自身的处理能力以及使用环境等确定。当然在云端实现的话，借助大数据对算法模型进行更新和调整，可以有效提升语音识别、自然语音理解和对话管理的准确性。且对于各种支付场景和语音交互场景而言，可以对语音处理模型进行多次迭代分析优化，使得使得支付和语音交互的体验更好。

4)业务逻辑，即，设备所能提供的服务。

例如，服务可以包括：支付、购票、问询、查询结果展示等等。通过硬件、本地算法、云端处理的设置，使得设备可以执行所提供的业务。

举例而言，可以对于售票设备而言，通过人机交互，用户通过设备请求买票，设备可以出票。对于服务咨询设备而言，通过人机交互，用户可以通过设备获取所需的信息等等。这些业务场景往往都是需要付费的，因此，业务逻辑中一般是存在支付流程的，在用户支付之后，为用户提供相应的服务。

通过上述的这种业务逻辑，结合“视觉+语音”的智能交互方案，可以降低噪声，提升识别准确度，双人交谈场景可以免受打扰，且可以达到免唤醒的目的，同时对于用户而言，可以通过自然语音进行交互，

在一个实施方式中，交互设备101可以预先设置一个感应或者是触发区域，如果检测到有人出现在这个区域内，则发起语音交互。如图3所示为一个存取款机设备，该存取款机设备为一个智能交互设备。可以为该设备设置一个感应区域，如图3所示的阴影区域为该存取款机设备对应的感应区域。如果发现有人进入该区域，则可以触发该存取款机设备主动进行语音交互。为了实现触发和感应，可以为该存取款机设备设置人体感应传感器、红外识别器、地面压力传感器。通过传感器的设置可以检测是否有人进入预设位置区域。

然而，值得注意的是，上述所列举的识别是否有人出现的方式仅是一种示例性描述，在实际实现的时候还可以其它的方式，例如：雷达探测等等，本申请对此不作限定，可以识别人出现的方式都可以应用在此处用于识别是否有人出现，具体采用哪种方式可以根据实际需要选择，本申请对此不作限定。

然而，值得注意的是，上述所列举的用于识别是否有人进入预设置区域的方式仅是一种示意性描述，在实际实现的时候，可以采用其它方式进行人体识别。

在一个实施方式中，考虑到一般用户如果打算与某个设备进行交互，都会面向该设备并在设备前停留，或者是面向设备并对着设备说话。因此，上述交互设备101在检测到有人出现之后，可以进一步确定该人是否是面向设备的而且停留时长是否超出预设的时长，或者是用户面向设备且在说话，那么针对这种情况可以认为用户是有使用设备的打算的。在这种情况下，可以设备可以主动发起与用户的语音交互。

在一个实施方式中，为了识别出人是否面向设备，可以是通过人脸识别技术从获取的图像资料中，识别出头部所在的区域，然后，对头部所在区域进行识别，如果可以识别到鼻子、眼等五官，则可以认为检测到用户是面向设备的。

然而，值得注意的是，上述所列举通过人脸识别技术确认人是否面向设备的方式仅是一种示例性描述，在实际实现的时候还可以其它的确定人是否面向设备的方式，本申请对此不作限定，可以根据实际需要和情况选择。

举例而言，如图4所示，用户到咖啡店买咖啡，咖啡店的售卖员是一个人工智能设备。那么当用户A达到咖啡店，并在设备前停留时间达到预设时间的情况下，该人工智能设备可以主动发起对话，例如询问该用户A：“请问您想要什么咖啡？”。即，通过交互设备主动发起对话。

考虑到在很多场景下，对于不同的人适合不同的对话。例如，假设上述交互设备为卖衣服的设备，那么相应的问答内容就需要依据人的年龄、性别等进行推荐问答。为此，可以通过计算机视觉或者是声纹识别确定出设备前用户的身份特征信息，例如：年龄、性别等等，从而可以有针对性的生成问答数据。

具体的，可以是获取用户的脸部图像等，识别出用户的性别、年龄等信息，也可以通过获取用户的声音，根据用户的声纹识别出用户的性别、年龄等信息。在确定了用户身份之后，就可以生成符合该用户的问答数据。例如，如果识别出是个30岁左右的女士，那么可以询问“您好，您是想给您自己买衣服还是给孩子买衣服啊？”，如果识别出是一个50岁左右的男生，那么可以询问“您好，在**区域的衣服比较适合您，您可以看一下，需要我带您过去吗”。通过这种方式可以有效提高用户体验，使得人机交互更像人与人之间的交互。

对于人工交互设备而言，可以设置一定的存储功能，例如，对于已经来过的客户，可以获取该客户的历史购买信息，或者是历史行为数据，为用户提供合适的问答。例如，如图5所示，以咖啡店为例，人工交互设备在确定有用户的情况下，可以先获取该用户的特征信息，确定该用户是否以前就来过店铺，如果确定来过店铺，且获取到用户上次来的时候是购买了一杯卡布奇诺。那么可以直接生成问答数据，建立与该用户的对话“您好，看您上次买了一杯卡布奇诺，不知这次是否还是要一杯卡布奇诺”。通过这种方式可以有效提升用户体验。

在一个实施方式中，为了使得交互设备可以有效地与用户进行沟通，在实现的时候，交互设备可以以获取的用户语音进行去噪处理，在去噪处理之后，再对语音数据进行语义识别。具体的，可以是将用户的语音回答数据转换为文字。

考虑到在实现的时候，对于有些使用场景而言，不是一次的问答就可以操作的触发。为此，可以设置一系列的问题，在所有问题都有答案之后，可以执行操作。例如，用户A到奶茶店买奶茶，奶茶店的交互设备先询问“您好，请问您想选哪款奶茶”，用户A回答：“我想要一杯乌龙玛奇朵”，设备继续询问“几分甜”，用户A回答“五分甜”，设备问“冷热呢”，用户A回答“去冰”，设备问“大杯还是中杯”，用户A回答“大杯，谢谢！”。最终设备确认向用户A发送确认语音“您要一大杯五分甜去冰的乌龙玛奇朵”。在确认之后，交互设备可以生成订单“一大杯五分甜去冰的乌龙玛奇朵”。

在一个实施方式中，为了实现上述问答式的目的，可以是预先设置多个问答项，只有每个问答项都确认之后，才执行最终的操作(例如：生成订单)。例如，可以采用列表的方式，在列表中列出多个项目，每次有一项对应的答复内容，就将答复内容填充在该项对应位置，当确定每个位置都填满之后，就可以确定所有的问答项都已经确认，可以触发对应的操作。

考虑到有时候用户的回答不是很准确，可以通过自然语义识别技术识别出用户的回答内容，当用户回答不满足预设要求的情况下，可以通过缩小问题回答答案的范围，或者是提供候选项的方式来帮助用户回答，在获取到足够多的信息之后，可以触发对应的操作。

下面结合一个具体场景进行说明，例如，整个流程可以如图6所示，包括如下步骤：

S1：通过人脸识别实时监测设备前的人体，同时判断用户的身份(例如：是否为特定客户群体，或者是某个特定用户)、年龄(例如：是老人还是小孩)、性别等特征。

S2：如果监测到有人出现在设备前且人面向设备并在设备前停留一段时间，那么设备可以主动触发通过语音向人打招呼或者是发问。

S3：通过语音识别技术将人的语音数据转换为文字。

S4：通过语义分析识别出用户所回答的内容，当用户回答不合适的情况下，可以缩小回答答案范围重新发问，或者而是提供其他的可选项供用户选择，以帮助客户回答。

S5：在确定获取足够的信息后执行操作。

例如，可以如图7所示，在咖啡店的交互设备可以按照如下与客户进行主动交互：

设备：您好，您想要什么咖啡？

用户：我想要摩卡。

设备：你想要几杯？

用户：1杯。

设备：你要冰的还是热的？

用户：热的。

设备：好的，一杯热摩卡咖啡。

以机场中的问询设备为例进行说明，该设备可以实时进行检测，确定在预设范围内是否用旅客出现，并确定旅客在预设范围内停留的时候是否面向设备，停留时长是否达到预设时长或者是是否面向设备说话。如果检测到某个旅客是面向设备且停留预定时长，或者面向设备说话的情况下，可以认为该旅客是打算使用该设备的。这时设备可以主动发起问询操作，例如，设备主动生成语音交流数据，设备向用户询问：您好，请问有什么需要帮助的？然后，可以获取用户给予的回答信息，以确定是否需要继续为该旅客提供服务。

例如，对于地铁售票设备而言，可以发起询问：您好，请问您要买车票吗？如果您要买车票的话，可以说出您要买车票的终点站和张数。即，由设备主动触发购票流程，告知用户需要提供的信息。当然也可以是用户对着售票设备说“我要买到苏州街地铁站的车票”，这时设备提取其中的信息，确定出用户已经提供了“目的地”，那么还需要一个条件就是“张数”，因此，还不能触发购票操作，还需要用户提供“张数”信息。在这种情况下，可以向用户发起提问“请问您需要购买几张到苏州街地铁站的车票”，在获取到用户回复的张数信息之后，就可以确定已经满足了触发条件，即，张数和目的地两个条件信息都知道了，这种情况下就可以触发出票流程，提醒用户支付车票钱，并在确定已经支付的情况下，打印出两张到苏州街地铁站的地铁票。

即，设备主动触发购票流程，为了获取完整的触发条件，可以设置问答对，例如，知道购买地铁票需要知道“目的站”“张数”，那么就可以预先设置问答对，即，对应于询问目的站的问答对、对应于张数的问答对，在这些问答对都已知的情况下，也就说知道张数也知道目的地的情况下，就可以触发出票流程。如果用户提供的信息不完整，则通过问答对中对应问题进行询问。例如，用户说了目的站，但没有说张数，那么就可以通过预设的对应于张数的问题向用户发起询问，以获取张数信息。

上例是以购买地铁票为例进行的说明，对于其他的场景而言，一般需要针对场景需求设置问答对，例如，如果是购买火车票的机器，那么就不仅需要知道“目的地”“张数”，还需要知道“出发地”“出发时间”“座位类型”这样才能算是得到了完整的条件信息，才能触发出票流程。因此，就不仅需要设置对应于“目的地”“张数”的问答对，还需要设置对应于“出发地”“出发时间”“座位类型”的问答对。

以购买地铁票时候，不同的问询场景下的对话为例进行说明：

对话一(快速购票流程)：

用户走到上海火车站售票机前，售票机的摄像头捕获到有人面向设备，且停留时长超出预设时长，可以确定该用户有使用该设备进行购票的意图，这时售票机可以主动触发购票流程，询问用户，从而不需要用户进行唤醒，也避免了用户对设备的学习过程。例如：

售票机：你好，请告诉我你的目的地和张数；(这个招呼和问答方式可以是通过对话管理预先设定好的)。

用户：我要一张到人民广场的票；

售票机在获取到用户发出的“我要一张到人民广场的票”之后，可以对该语音数据进行识别，首先，进行语音识别，识别出语音所携带的内容，然后，进行语义识别，识别出这段语音的意图和所携带的信息。进一步的，可以将识别到的内容送至对话管理，对话管理确定出其中已经携带有了“目的地”和“张数”信息，因此，可以确定出买票所需信息已经满足。基于此，可以确定出下一步的对话内容为告诉用户所需要支付的金额。

售票机可以显示，或者语音播报：(票务明细)总共5元，请扫码支付。

用户通过支付宝等回复APP扫码支付票款，在确定票款已经支付的情况下，售票机可以执行出票流程，出票一张到人民广场的地铁票。

对话二(需要询问张数的购票流程)：

售票机：你好，请告诉我你的目的地和张数；

用户：我要到人民广场；

售票机在获取到用户发出的“我要到人民广场”之后，可以对该语音数据进行识别，首先，进行语音识别，识别出语音所携带的内容，然后，进行语义识别，识别出这段语音的意图和所携带的信息。进一步的，可以将识别到的内容送至对话管理，对话管理确定出语音信息中仅携带了“目的地”信息，还缺少“张数”信息，因此，可以调用对话管理，生成下一步的问题给用户，询问所需的张数。

售票机：到人民广场票价5元，请问要买几张？

用户：2张；

售票机在获取到用户发出的“2张”之后，可以对该语音数据进行识别，首先，进行语音识别，识别出语音所携带的内容，然后，进行语义识别，识别出这段语音的意图和所携带的信息。进一步的，可以将识别到的内容送至对话管理，对话管理确定出现在已经有了“目的地”和“张数”两个信息，因此，可以确定出买票所需信息已经满足。基于此，可以确定出下一步的对话内容为告诉用户所需要支付的金额。

售票机:(显示票务明细)总共10元，请扫码支付。

用户通过支付宝等回复APP扫码支付票款，在确定票款已经支付的情况下，售票机可以执行出票流程，出票2张到人民广场的地铁票。

对话三(对话打断的购票流程)：

售票机：你好，请告诉我你的目的地和张数；

用户：我要到人民广场；

售票机：票价5元，请问要买几张？

用户：不对，我还是去陕西南路。

售票机在获取到用户发出的“不对，我还是去陕西南路”之后，可以对该语音数据进行识别，首先，进行语音识别，识别出语音所携带的内容，然后，进行语义识别，识别出这段语音的意图和所携带的信息并不是说明张数的，而是修改目的地的，因此，确定出用户希望去的不是人民广场，而是要求陕西南路，因此，可以将目的地修改为“陕西南路”。进一步的，可以将识别到的内容送至对话管理，对话管理确定出目前还是仅有目的地信息，还缺少“张数”信息，因此，可以调用对话管理，生成下一步的问题给用户，询问所需的张数。

售票机：好的，到陕西南路票价6元，请问要买几张？

用户：2张；

售票机：(显示票务明细)总共10元，请扫码支付。

用户通过支付宝等回复APP扫码支付票款，在确定票款已经支付的情况下，售票机可以执行出票流程，出票2张到陕西南路的地铁票。

对话四(纹路和地铁线路建议)：

售票机：你好，请告诉我你的目的地和张数；

用户：我要到地铁恒通大厦；

售票机在获取到用户发出的“我要到地铁恒通大厦”之后，可以对该语音数据进行识别，首先，进行语音识别，识别出语音所携带的内容，然后，进行语义识别，识别出这段语音的意图和所携带的信息。进一步的，可以将识别到的内容送至对话管理，对话管理确定出其中已经携带有了“目的地”信息。在对话管理模块中，设置了路线告知的对话内容，在获取到目的地之后，可以匹配出该目的地对应的路线信息匹配给用户。因此，可以将确定出的地铁缓冲信息以对话或者信息显示的方式提供给用户，例如：

售票机：(展示目标地图)推荐你乘坐1号线到汉中路站下车2口出。

用户：好，买一张。

售票机在获取到用户发出的“好，买一张”之后，可以对该语音数据进行识别，首先，进行语音识别，识别出语音所携带的内容，然后，进行语义识别，识别出这段语音的意图和所携带的信息。进一步的，可以将识别到的内容送至对话管理，对话管理确定出现在已经有了“目的地”和“张数”两个信息，因此，可以确定出买票所需信息已经满足。基于此，可以确定出下一步的对话内容为告诉用户所需要支付的金额。

售票机:(显示票务明细)总共5元，请扫码支付。

用户通过支付宝等回复APP扫码支付票款，在确定票款已经支付的情况下，售票机可以执行出票流程，出票1张到恒通大厦的地铁票。

值得注意的是，上述所列举的仅是场景对话的示例性描述，在实际实现的可以采用其它的对话模式和流程，本申请对此不作限定。

图8是本申请所述一种任务处理方法一个实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至分布式处理环境)。

具体的如图8所示，本申请一种实施例提供的一种任务处理方法，可以包括：

步骤701：向目标对象发起多媒体问询；

即，对于设备而言，可以主动发起问询。例如，如果设备检测到在预设位置区域内有人，然后通过计算机视觉识别确定在所述预设位置区域内的人是面向设备的且停留时长超出预设时长，那么主动发起与检测到的人的语音交互。这种主动发起方式可以避免误判。例如有些人仅是经过设备前，并没有需要，因此添加了停留时长和是否面向设备等限制操作，以避免过多的打扰用户。

在一个实施方式中，可以通过以下方式之一检测在所述预设位置区域内是否有人：人体感应传感器、红外识别器、地面压力传感器。

步骤702：获取响应于所述多媒体问询的回复数据；

为了可以使得问答的内容可以与用户身份更为贴近，为用户提供更加个性化的服务。可以确定检测到的人的身份信息，然后发起与所述身份信息对应的语音问答。其中，上述身份信息可以包括但不限于以下至少之一：年龄、性别。

考虑到现有的对人进行身份识别的方式很多，可以通过获取所述检测到的人的图像数据和/或声音数据，确定出所述检测到的人的身份信息，即，可以采用人脸识别或者是身份识别的方式确认用户的身份信息。

对于人工交互设备而言，可以设置一定的存储功能，例如，对于已经来过的客户，可以获取该客户的历史购买信息，或者是历史行为数据，为用户提供合适的问答。例如，如图4所示，以咖啡店为例，人工交互设备在确定有用户的情况下，可以先获取该用户的特征信息，确定该用户是否以前就来过店铺，如果确定来过店铺，且获取到用户上次来的时候是购买了一杯卡布奇诺。那么可以直接生成问答数据，建立与该用户的对话“您好，看您上次买了一杯卡布奇诺，不知这次是否还是要一杯卡布奇诺”。通过这种方式可以有效提升用户体验。在一个实施方式中，发起与检测到的人的语音交互，可以包括：确定是否存储有所述检测到的人相关的问答数据；在确定存储有所述检测到的人相关的问答数据的情况下，根据所述问答数据，发起与所述检测到的人的语音交互。

步骤703：迭代发起问询，直至获得执行预定任务所需数据；

步骤704：基于所述所需数据，发起所述预定任务。

具体的，在发起语音交互之后，可以主动向检测到的人发起语音问答；获取响应于所述语音问答的回复内容；确定回复内容是否满足设备执行预定操作的触发条件；在确定不满足所述触发条件的情况下，继续向检测到的人发起语音问答；在确定满足所述触发条件的情况下，执行所述预定操作。即，确定回复数据不满足触发条件的情况下，可以确定空缺的条件项；基于确定的空缺的条件项向所述目标对象发起语音问答，直至回复数据满足所述触发条件，再执行预定的操作。

本申请所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图9是本发明实施例的一种任务处理设备终端的硬件结构框图。如图9所示，设备终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备终端10还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的数据交互方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的人机交互方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输模块106包括一个网络适配器

(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

如图10所示为人机交互装置的结构框图，可以包括：问询模块901、获取模块902、迭代模块903和发起模块904，其中：

问询模块901，用于向目标对象发起多媒体问询；

获取模块902，用于获取响应于所述多媒体问询的回复数据；

迭代模块903，用于迭代发起问询，直至获得执行预定任务所需数据；

发起模块904，用于基于所述所需数据，发起所述预定任务。

在一个实施方式中，所述处理器迭代发起问询，直至获得预定任务所需数据，可以包括：获取回复数据；确定回复数据中是否携带有执行预定任务所有必要数据；在确定未携带有所有必要数据的情况下，确定空缺的数据项；基于确定的空缺的数据项向所述目标对象发起多媒体问询，直至获得执行预定任务所需数据。

在一个实施方式中，所述处理器向目标对象发起多媒体问询，包括：确定所述目标对象的身份信息；发起与所述身份信息对应的多媒体问询。

在一个实施方式中，所述处理器确定所述目标对象的身份信息，可以包括：通过获取所述目标对象的图像数据和/或声音数据，确定所述目标对象的身份信息。

在一个实施方式中，所述处理器向目标对象发起多媒体问询，可以包括：检测在设备的预设位置区域内是否有目标对象；在确定有目标对象的情况下，确定所述目标对象是否面向所述设备，且停留时长超出预设时长；在确定所述目标对象面向设备且停留时长超出所述预设时长的情况下，向所述目标对象发起多媒体问询。

在一个实施方式中，所述处理器检测在设备的预设位置区域内是否有目标对象，可以包括：通过但不限于以下方式至少之一检测在设备的预设位置区域内是否有目标对象：人体感应传感器、红外识别器、地面压力传感器。

在一个实施方式中，处理器向目标对象发起多媒体问询，可以包括：确定是否存储有问答对；在确定存储有问答对的情况下，基于所述问答对，向所述目标对象发起多媒体问询。

在一个实施方式中，问答对可以包括对应于执行所述预定任务所需的必要信息。

在一个实施方式中，处理器向目标对象发起语音问答，可以包括：获取目标对象的历史行为数据；根据所述历史行为数据生成对应于所述目标对象的多媒体问询。

在一个实施方式中，多媒体问询可以包括但不限于以下至少之一：文字问询、语音问询、图像问询、视频问询。

对于一些大型的语音交互场景或者是支付场景等等，在本例中，提供了两种部署方式，如图11所示为集中部署方式，即，多个人机交互设备都各自连接至同一个处理中心，该处理中心可以是云端服务器或者是一种服务器集群等等都可以，通过该处理中心可以进行数据的处理，或者是对人机交互设备进行集中控制。如图12所示为大集中小双活的部署方式，在该方式中，每两个人机交互设备连接至一个小的处理中心，该小的处理中心对与其连接的两个人机交互设备进行控制，然后，所有小的处理中心都连接至同一个大的处理中心，通过该大的处理中心进行集中控制。

然而，值得注意的是，上述所列的部署方式仅是一种示例性描述，在实际实现的时候，还可以采用其它的部署方式，例如，大集中小三活的部署方式等等，或者每个小的处理中心连接的人机交互设备的数量不是等量的等等都可以作为可选的部署方式，可以根据实际需要选择，本申请对此不作限定。

本申请所提供的人机交互系统、方法。语音去噪方法等等，可以应用在法庭庭审、客服质检、视频直播、记者采访、会议记录、医生问诊等等的业务场景，可以应用在客服机器上、智能金融投资顾问上、各类APP或者而是各类智能硬件设备，例如：手机、音箱、机顶盒、车载设备等上。需要涉及的就是录音文件识别、实时语音识别、文本大数据分析、短语音识别、语音合成、智能对话等等。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

上述实施例阐明的装置或模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。当然，也可以将实现某功能的模块由多个子模块或子单元组合实现。

本申请中所述的方法、装置或模块可以以计算机可读程序代码方式实现控制器按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器系统、基于微处理器的系统、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种任务处理方法，其特征在于，所述方法包括：

向目标对象发起多媒体问询；

获取响应于所述多媒体问询的回复数据；

迭代发起问询，直至获得执行预定任务所需数据；

基于所述所需数据，发起所述预定任务。

2.根据权利要求1所述的方法，其特征在于，迭代发起问询，直至获得预定任务所需数据，包括：

获取回复数据；

确定回复数据中是否携带有执行预定任务所有必要数据；

在确定未携带有所有必要数据的情况下，确定空缺的数据项；

基于确定的空缺的数据项向所述目标对象发起多媒体问询，直至获得执行预定任务所需数据。

3.根据权利要求1所述的方法，其特征在于，向目标对象发起多媒体问询，包括：

确定所述目标对象的身份信息；

发起与所述身份信息对应的多媒体问询。

4.根据权利要求3所述的方法，其特征在于，所述身份信息包括以下至少之一：年龄、性别。

5.根据权利要求3所述的方法，其特征在于，确定所述目标对象的身份信息，包括：

通过获取所述目标对象的图像数据和/或声音数据，确定所述目标对象的身份信息。

6.根据权利要求1所述的方法，其特征在于，向目标对象发起语音问询，包括：

检测在设备的预设位置区域内是否有目标对象；

在确定有目标对象的情况下，确定所述目标对象是否面向所述设备，且停留时长超出预设时长；

在确定所述目标对象面向设备且停留时长超出所述预设时长的情况下，向所述目标对象发起多媒体问询。

7.根据权利要求6所述的方法，其特征在于，检测在设备的预设位置区域内是否有目标对象，包括：

通过以下方式至少之一检测在设备的预设位置区域内是否有目标对象：人体感应传感器、红外识别器、地面压力传感器。

8.根据权利要求1所述的方法，其特征在于，向目标对象发起多媒体问询，包括：

确定是否存储有问答对；

在确定存储有问答对的情况下，基于所述问答对，向所述目标对象发起多媒体问询。

9.根据权利要求8所述的方法，其特征在于，所述问答对包括对应于执行所述预定任务所需的必要信息。

10.根据权利要求1所述的方法，其特征在于，向目标对象发起多媒体问询，包括：

获取目标对象的历史行为数据；

根据所述历史行为数据生成对应于所述目标对象的多媒体问询。

11.根据权利要求1所述的方法，其特征在于，所述多媒体问询包括以下至少之一：文字问询、语音问询、图像问询、视频问询。

12.一种任务处理设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

向目标对象发起多媒体问询；

获取响应于所述多媒体问询的回复数据；

迭代发起问询，直至获得执行预定任务所需数据；

基于所述所需数据，发起所述预定任务。

13.根据权利要求12所述的设备，其特征在于，所述处理器迭代发起问询，直至获得预定任务所需数据，包括：

获取回复数据；

确定回复数据中是否携带有执行预定任务所有必要数据；

14.根据权利要求12所述的设备，其特征在于，所述处理器向目标对象发起多媒体问询，包括：

确定所述目标对象的身份信息；

发起与所述身份信息对应的多媒体问询。

15.根据权利要求14所述的设备，其特征在于，所述处理器确定所述目标对象的身份信息，包括：

16.根据权利要求12所述的设备，其特征在于，所述处理器向目标对象发起多媒体问询，包括：

检测在设备的预设位置区域内是否有目标对象；

17.根据权利要求16所述的设备，其特征在于，所述处理器检测在设备的预设位置区域内是否有目标对象，包括：

18.根据权利要求12所述的设备，其特征在于，所述处理器向目标对象发起多媒体问询，包括：

确定是否存储有问答对；

19.根据权利要求18所述的设备，其特征在于，所述问答对包括对应于执行所述预定任务所需的必要信息。

20.根据权利要求12所述的设备，其特征在于，所述处理器向目标对象发起语音问答，包括：

获取目标对象的历史行为数据；

21.根据权利要求12所述的设备，其特征在于，所述多媒体问询包括以下至少之一：文字问询、语音问询、图像问询、视频问询。

22.一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现权利要求1至11中任一项所述方法的步骤。