CN117708305B

CN117708305B - 一种针对应答机器人的对话处理方法和系统

Info

Publication number: CN117708305B
Application number: CN202410162910.3A
Authority: CN
Inventors: 田中立
Original assignee: Tianjin Yingxin Technology Co ltd
Current assignee: Tianjin Yingxin Technology Co ltd
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-04-30
Anticipated expiration: 2044-02-05
Also published as: CN117708305A

Abstract

本发明涉及自然语言处理技术领域，尤其涉及一种针对应答机器人的对话处理方法和系统，根据各机器人运行环境内的运行动作影像，汇总各机器人运行环境中对话位置内的提问人类型，并提取各提问人的情绪信息；将各情绪信息输入预置情绪分析模型中执行情绪分析，得到各提问人的情绪数据输入预置情绪识别模型中执行情绪识别，得到各提问人的动态情绪信息；根据情绪数据，分别汇总当前各机器人运行环境内的提问人对话话题数量，并计算各机器人运行环境需要查询的机器数量和各机器人运行环境的机器人查询需求等级，调整各机器人运行环境需要查询的机器人数量。本发明可以使得机器人主动思考，充分考虑到与提问人相关的其他因素。

Description

一种针对应答机器人的对话处理方法和系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种针对应答机器人的对话处理方法和系统。

背景技术

人机自动对话系统按机器人的回答的生成方式，可分为检索式和生成式。检索式对话系统，由语料人员提前在系统内录入问题和回答，当提问人的输入（可以是文字、或语音转文字、或客户端屏幕按钮生成的文字）能匹配上某条语料时，机器人按预设回答回复给提问人。生成式对话系统，当提问人输入时，系统根据自然语言处理算法生成相应的回答回复提问人。

但是，目前该方法都是以提问人作为主体来引导对话，机器人都是被动的，机器人的回答都是基于训练语料和上下文特征的分析，并没有考虑到与提问人相关的其他因素。

发明内容

根据本发明第一方面，本发明请求保护一种针对应答机器人的对话处理方法，其特征在于，所述针对应答机器人的对话处理方法包括：

经过预设时长，根据各机器人运行环境内的运行动作影像，汇总所述各机器人运行环境中对话位置内的提问人类型，并从所述运行动作影像中提取各提问人的情绪信息；

将所述各情绪信息输入预置情绪分析模型中执行情绪分析，得到所述各提问人的情绪数据，以及将所述各情绪信息输入预置情绪识别模型中执行情绪识别，得到所述各提问人的动态情绪信息；

根据所述情绪数据，分别汇总当前各机器人运行环境内的提问人对话话题数量，并基于所述提问人对话话题数量、所述提问人类型，计算所述各机器人运行环境需要查询的机器数量；

基于所述动态情绪信息，计算所述各机器人运行环境的机器人查询需求等级，并基于所述机器人查询需求等级，调整所述各机器人运行环境需要查询的机器人数量；

根据调整后各机器人运行环境需要查询的机器人数量，向周边可查询的机器人运行环境发出机器人人员查询请求。

进一步的，所述将所述各情绪信息输入预置情绪分析模型中执行情绪分析，得到所述各提问人的情绪数据包括：

将所述各提问人的情绪信息输入预置卷积模型执行处理，输出所述各情绪信息对应的嘴部图像的运动特征；

将所述各嘴部图像的运动特征输入预置神经网络模型执行编码，得到所述各提问人对应的第一嘴部特征向量；

分别计算待比对提问人的第一嘴部特征向量与预置提问人的第二嘴部特征向量之间的余弦距离；

根据所述余弦距离，判断待比对提问人与预置提问人是否为同一人，并根据判断的结果确定所述各提问人的情绪数据。

进一步的，所述将所述各提问人的情绪信息输入预置卷积模型执行处理，输出所述各情绪信息对应的嘴部图像的运动特征包括：

对所述各提问人的情绪信息执行比例缩放，得到多个尺度的情绪信息；

将所述各尺度的情绪信息输入卷积网络执行嘴部区域识别，得到所述各情绪信息中嘴部区域的候选轮廓框；

将所述各候选轮廓框输入卷积网络执行轮廓框去重处理，得到仅包含嘴部区域的合格轮廓框；

将所述各合格轮廓框输入卷积网络执行轮廓框坐标识别，得到所述各情绪信息对应的嘴部图像的运动特征。

进一步的，在所述经过预设时长，根据各机器人运行环境内的运行动作影像，汇总所述各机器人运行环境中对话位置内的提问人类型，并从所述运行动作影像中提取各提问人的情绪信息之前，还包括：

获取多张情绪信息样本，并依次存入预置数组中并执行切割比例转换，顺序输出预置切割比例的多个参考情绪；

分别对所述各参考情绪中的动态情绪区域执行快照，得到对应的快照截图，并将所述参考情绪和所述快照截图输入预置预处理策略中；

通过所述预处理策略识别所述参考情绪中各提问嘴部部特征对应的关键点，并将所述关键点转化为候选图向量；

获取嘴部情绪对应的运动特征语义向量，并分别计算所述候选图向量与所述运动特征语义向量之间的关联度，基于所述关联度，对所述各参考情绪执行分类，得到所述各参考情绪对应的动态情绪预测结果；

基于所述动态情绪预测结果和所述快照截图，计算所述预处理策略的正常偏离度，并基于所述正常偏离度对所述预处理策略执行调整，直到所述预处理策略满足对话要求，得到所述情绪识别模型。

进一步的，所述基于所述动态情绪预测结果和所述快照截图，计算所述预处理策略的正常偏离度，并基于所述正常偏离度对所述预处理策略执行调整，直到所述预处理策略满足对话要求，得到所述情绪识别模型包括：

基于所述动态情绪预测结果和所述快照截图，生成所述预处理策略的三元组，并基于所述三元组计算所述预处理策略的正常偏离度；

若所述正常偏离度低于预置偏离阈值，则通过反向传播调整所述预处理策略的各个权重参数，并对所述预处理策略执行微调，输出新的动态情绪预测结果；

跳转执行所述基于所述动态情绪预测结果和所述快照截图，生成所述预处理策略的三元组，并基于所述三元组计算所述预处理策略的正常偏离度的步骤，直到所述正常偏离度低于预置偏离阈值，确定所述预处理策略满足对话要求，得到所述情绪识别模型。

进一步的，所述基于所述提问人对话话题数量、所述提问人类型，计算所述各机器人运行环境需要查询的机器人数量包括：

根据所述提问人对话话题数量、所述提问人类型，预测各机器人运行环境的需查询机器人数量；

根据各机器人运行环境的现有机器人数量和需要查询的所述需查询机器人数量，计算各机器人运行环境对应的周边机器人运行环境的可查询机器人数量；

根据所述可查询机器人数量，采用预置查询策略，计算各机器人运行环境实际需要查询的最终机器人数量。

根据本发明第二方面，本发明请求保护一种针对应答机器人的对话处理系统，其特征在于，所述针对应答机器人的对话处理系统包括：

视频处理模块，用于经过预设时长，根据各机器人运行环境内的运行动作影像，汇总所述各机器人运行环境中对话位置内的提问人类型，并从所述运行动作影像中提取各提问人的情绪信息；

识别模块，用于将所述各情绪信息输入预置情绪分析模型中执行情绪分析，得到所述各提问人的情绪数据，以及将所述各情绪信息输入预置情绪识别模型中执行情绪识别，得到所述各提问人的动态情绪信息；

计算模块，用于根据所述情绪数据，分别汇总当前各机器人运行环境内的提问人对话话题数量，并基于所述提问人对话话题数量、所述提问人类型，计算所述各机器人运行环境需要查询的机器人数量；

调整模块，用于基于所述动态情绪信息，计算所述各机器人运行环境的机器人查询需求等级，并基于所述机器人查询需求等级，调整所述各机器人运行环境需要查询的机器人数量；

查询模块，用于根据调整后各机器人运行环境需要查询的机器人数量，向周边可查询的机器人运行环境发出机器人人员查询请求。

进一步的，所述针对应答机器人的对话处理系统还包括：

预处理模块，用于获取多张情绪信息样本，并依次存入预置数组中并执行切割比例转换，顺序输出预置切割比例的多个参考情绪；

快照模块，用于分别对所述各参考情绪中的动态情绪区域执行快照，得到对应的快照截图，并将所述参考情绪和所述快照截图输入预置预处理策略中；

转化模块，用于通过所述预处理策略识别所述参考情绪中各提问嘴部部特征对应的关键点，并将所述关键点转化为候选图向量；

分类模块，用于获取嘴部情绪对应的运动特征语义向量，并分别计算所述候选图向量与所述运动特征语义向量之间的关联度，基于所述关联度，对所述各参考情绪执行分类，得到所述各参考情绪对应的动态情绪预测结果；

训练模块，用于基于所述动态情绪预测结果和所述快照截图，计算所述预处理策略的正常偏离度，并基于所述正常偏离度对所述预处理策略执行调整，直到所述预处理策略满足对话要求，得到所述情绪识别模型。

根据本发明第三方面，本发明请求保护一种针对应答机器人的对话处理系统，其特征在于，所述针对应答机器人的对话处理系统包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述针对应答机器人的对话处理系统执行所述的针对应答机器人的对话处理方法。

附图说明

图1为本发明实施例所请求保护的一种针对应答机器人的对话处理方法的工作流程图；

图2为本发明实施例所请求保护的一种针对应答机器人的对话处理方法的第二工作流程图；

图3为本发明实施例所请求保护的一种针对应答机器人的对话处理系统的结构模块图。

具体实施方式

根据本发明第一实施例，参照附图1，本发明请求保护一种针对应答机器人的对话处理方法，其特征在于，所述针对应答机器人的对话处理方法包括：

其中，在该实施例中，可以是根据面部表情或心律来对人物情绪作进一步细化的区分；作为示例，其可以是当所识别的目标提问人的心律很高且提问人面部表情是开心时，则人机交互终端可以推定目标提问人是情绪亢奋；并且，当所识别的目标提问人的心律正常且提问人面部表情是开心时，则人机交互终端可以是推定目标提问人的情绪是情绪高昂等等。

进一步的，参照附图2，所述将所述各情绪信息输入预置情绪分析模型中执行情绪分析，得到所述各提问人的情绪数据包括：

其中，在该实施例中，在获取或采集目标提问人的人脸图像时可以是执行如下的步骤：基于语音数据所指示的回波信号，确定相对于目标提问人的距离信息和方位信息，例如可确定回波信号所指示的声源方向和声源距离；然后，根据方位信息和距离信息，控制调整相对于目标提问人的距离和/或方位以采集关于目标提问人的场景视频；进而，基于所采集的场景视频，确定关于目标提问人的人脸图像。由此，不论提问人处于哪个方位，只要提问人的说话声音被人机交互终端采集到了，人机交互终端就能够自动地转向提问人以采集目标提问人的人脸图像，而不需要提问人主动调整方位，进而更加方便地识别出目标提问人的情绪以提供人机交互服务。

其中，本发明实施例能够根据提问人的情绪信息、语意信息、情感变化趋势信息、个人状态信息，预测提问人针对每条候选回话信息的触发情绪，并经由这预测情绪，在候选回话清单的众多候选回话信息中，找出一个最为合适的句子作为回答。本发明实施例首先获取提问人的各种当前信息，借由此提前预测提问人对于候选回话清单中各候选回话信息的触发情绪，再根据这些候选回话信息的预测结果，选择最合适的候选回话信息作为回答，更人性化，提高了提问人体验。

其中，在该实施例中，该方法不仅仅提取提问人当前输入的问题信息的次数，还会记录当前交互的此前多次的问题信息以及相应的最佳答案信息。基于提问人向智能机器人输入当前问题信息的次数，该方法确定出提问人的交互意图信息，并根据该交互意图信息从候选答案信息集合中选取出最佳答案信息并输出给提问人。

本实施例所提供的人机交互方法采用了答案控制的方式，先缓存多个与提问人提问问题信息相符的候选答案信息，随后集合该问题信息的提问次数，来从这些候选答案信息中选取此次交互的最佳答案信息。这样，该交互方法使得智能机器人每次可以给提问人反馈不同的答案信息，从而使机器人显得更加智能。同时，该方法还可以使得多个不同的候选答案信息得到充分利用，从而提高交互的趣味度和丰富度，进而提高提问人的平均交互时间。

根据本发明第二实施例，参照附图3，本发明请求保护一种针对应答机器人的对话处理系统，其特征在于，所述针对应答机器人的对话处理系统包括：

进一步的，所述针对应答机器人的对话处理系统还包括：

根据本发明第三实施例，本发明请求保护一种针对应答机器人的对话处理系统，其特征在于，所述针对应答机器人的对话处理系统包括：存储器和至少一个处理器，所述存储器中存储有指令；

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种系统或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中。

本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过计算机程序来指令相关硬件完成，程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。

除非另有定义，这里使用的所有术语具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例执行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例执行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种针对应答机器人的对话处理方法，其特征在于，所述针对应答机器人的对话处理方法包括：

根据调整后各机器人运行环境需要查询的机器人数量，向周边可查询的机器人运行环境发出机器人人员查询请求；

所述将所述各情绪信息输入预置情绪分析模型中执行情绪分析，得到所述各提问人的情绪数据包括：

根据所述余弦距离，判断待比对提问人与预置提问人是否为同一人，并根据判断的结果确定所述各提问人的情绪数据；

所述将所述各提问人的情绪信息输入预置卷积模型执行处理，输出所述各情绪信息对应的嘴部图像的运动特征包括：

2.根据权利要求1所述的针对应答机器人的对话处理方法，其特征在于，在所述经过预设时长，根据各机器人运行环境内的运行动作影像，汇总所述各机器人运行环境中对话位置内的提问人类型，并从所述运行动作影像中提取各提问人的情绪信息之前，还包括：

3.根据权利要求2所述的针对应答机器人的对话处理方法，其特征在于，所述基于所述动态情绪预测结果和所述快照截图，计算所述预处理策略的正常偏离度，并基于所述正常偏离度对所述预处理策略执行调整，直到所述预处理策略满足对话要求，得到所述情绪识别模型包括：

4.根据权利要求3中任一项所述的针对应答机器人的对话处理方法，其特征在于，所述基于所述提问人对话话题数量、所述提问人类型，计算所述各机器人运行环境需要查询的机器人数量包括：

5.一种针对应答机器人的对话处理系统，其特征在于，所述针对应答机器人的对话处理系统包括：

查询模块，用于根据调整后各机器人运行环境需要查询的机器人数量，向周边可查询的机器人运行环境发出机器人人员查询请求；

所述识别模块包括：

6.根据权利要求5所述的针对应答机器人的对话处理系统，其特征在于，所述针对应答机器人的对话处理系统还包括：

7.一种针对应答机器人的对话处理系统，其特征在于，所述针对应答机器人的对话处理系统包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述针对应答机器人的对话处理系统执行如权利要求1-4中任一项所述的针对应答机器人的对话处理方法。