CN115795017B

CN115795017B - 一种对话系统离线在线融合应用方法及系统

Info

Publication number: CN115795017B
Application number: CN202310055832.2A
Authority: CN
Inventors: 范宜佳; 耿丹阳; 严雨林; 宋云生
Original assignee: Shenzhen Lan You Technology Co Ltd
Current assignee: Shenzhen Lan You Technology Co Ltd
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-05-02
Anticipated expiration: 2043-01-17
Also published as: CN115795017A

Abstract

本发明涉及机器人对话系统技术领域，更具体地说，涉及一种对话系统离线在线融合应用方法及系统，本发明通过引入通过云端大模型蒸馏后的离线模型，其功能和云端基本一致，能够在最大程度上替代云端大模型的功能，从而在弱网或无网以及在状态下仍然能够完成对话逻辑，并且可以在离线模型结果准确的情况下更加快速的返回结果。此外，本发明也提供了场景复杂度的定义和计算，使得用户总能在最优的情况下得到系统的反馈，其能够在几乎不损失精度的前提下，达到平均每条对话800ms的响应加速。

Description

一种对话系统离线在线融合应用方法及系统

技术领域

本发明涉及机器人对话系统技术领域，更具体地说，涉及一种对话系统离线在线融合应用方法及系统。

背景技术

受益于人工智能的技术突破和产品落地，对话机器人赛道从2015年开始快速升温在2018年融资事件数量达到峰值，而后进入平稳发展阶段。从行业竞争格局来看，参与企业类型丰富，2019年探境科技发布首个离在线一体语音识别解决方案，开拓了离在线语音识别的新市场。离在线语音和语义融合技术称为当下对话机器人产品竞争的一个主流方向之一。

传统的离在线融合技术，即将离线、在线推理模型融合，用户在网络不稳定情况下，可以实现离线、在线推理两种模式的灵活切换，同时兼顾了推理质量和响应速度的双重要求。而随着用户对产品低成本、高可靠性、小巧轻便、简单易用等优势需求的日益增加以及离线NLP技术的不断进步，传统的离在线融合技术已经无法满足用户的需求，用户需要在网络稳定的情况下也能实现最高性能的推理。

发明内容

本发明为解决现有技术处理的缺陷和不足，提供一种对话系统离线在线融合应用方法及系统。

为实现上述目的，本发明采取的技术方案是一种对话系统离线在线融合应用方法，所述方法包括以下步骤：

S1：获取每个场景的语料，并对每条语料进行标注，标明语料所属的场景、意图和实体；

S2：训练云端大模型以预测每条语料的意图和实体标签，并将所述云端大模型通过知识蒸馏的方式蒸馏为离线小模型以预测语料在离线状态下的意图和实体标签；

S3：计算出每个场景的场景复杂度；

S4：当接受到用户消息时，将所述用户消息同时发送给所述云端大模型和离线小模型，并通过所述离线小模型预测出所述用户消息在离线状态下的意图标签、意图置信度分数、实体标签组合、实体标签置信度，并根据意图标签判断对应的场景，得出所述用户消息的场景复杂度；

再根据所述离线小模型得出的意图置信度分数和实体标签置信度，计算所述用户消息的离线置信度分数，离线置信度分数的计算公式为：

S5：判断离线小模型得出所述用户消息的离线置信度分数是否大于设定的阈值，如果大于，则采信离线结果，否则等待所述云端大模型结果输出。

优选的，所述S1中，实体通过BIESO方式标注，其中，B表示开始，I表示中间，E表示结束，O表示非实体，S表示独立实体。

优选的，所述S3包括以下步骤：

S3.1：准备离线小模型语料测试集X；

S3.2：记每个场景复杂度为；

S3.3：向离线小模型输入语料测试集X以得到每条语料离线状态下的意图标签、意图置信度分数、实体标签组合、实体标签置信度；

S3.4：根据场景复杂度、意图置信度分数和实体标签置信度计算得到每一条语料的离线置信度分数：

S3.5：将低于阈值的语料设置为离线拒识意图，采信云端结果；

S3.6：利用网格搜索的方法，计算出在给定阈值下离线小模型通过率最高的场景复杂度组合。

优选的，所述离线小模型语料测试集X为离线小模型范围内的语料和非离线小模型范围内的语料的正负样本组合，所述语料符合真实场景分布。

优选的，所述网格搜索为穷举搜索，即在所有候选的参数选择中，通过循环遍历，表现最好的参数就是最终的结果；

所述离线通过率最高场景复杂度组合即离线小模型在必过语料测试集上意图、实体均正确或正确拒识的比例最高。

本发明还包括一种对话系统离线在线融合应用系统，用于实现以上所述的方法，包括场景获取模块、语义计算模块、场景复杂度计算模块、归一化置信度模块、离在线融合模块;

所述场景获取模块用于根据业务场景获取场景对应的语料，并标注语料所属的场景、意图和实体；

所述语义计算模块用于根据预训练模型分别计算所述语料的意图和实体标签及置信度分数，得到语料通过云端大模型预测的意图及实体标签，同时再通过知识蒸馏的方式蒸馏为离线小模型，通过离线小模型预测出语料在离线状态下的意图和实体的标签及离线置信度分数；

所述场景复杂度计算模块用于根据场景获取的语料及预训练模型计算的语义向量表征的样本方差来表示该场景的复杂程度；

所述归一化置信度模块用于将场景复杂度、意图置信度分数和实体标签置信度加权计算得出归一化的离线置信度分数；

所述离在线融合模块用于判断离线小模型得出语料的离线置信度分数是否大于设定的阈值，如果大于则采信离线结果，否则等待云端结果输出。

优选的，所述语义计算模块包括预训练模块、意图分类模块以及知识蒸馏模块，

所述预训练模块用于处理文本的预处理，获取文本特征；

所述意图分类模块用于识别语料的意图，将预训练模型的最后一层输出的[CLS]位置对应的向量传入线性分类层得到语料的类别和意图置信度分数，所述意图置信度分数是最后预测结果属于预测的类别标签的概率；

所述知识蒸馏模块用于将云端大模型压缩为离线小模型。

优选的，所述知识蒸馏模块用于采用教师学习网络构造的损失函数将云端大模型压缩为离线小模型，所述损失函数为，

知识蒸馏模块的损失函数包括和，其中，是老师教学的损失函数，是学生学习的损失函数，和为学习系数。

本发明还包括一种计算机可读存储介质，所述存储介质中存储有多条指令，所述指令适于由处理器加载以执行以上所述的对话系统离线在线融合应用方法。

本发明的有益效果：

本发明提供了一种对话系统离线在线融合应用方法及系统，通过引入通过云端大模型蒸馏后的离线小模型，其功能和云端基本一致，能够在最大程度上替代云端大模型的功能，从而在弱网或无网以及在状态下仍然能够完成对话逻辑，并且可以在离线小模型结果准确的情况下更加快速的返回结果。此外，本发明也提供了场景复杂度的定义和计算，使得用户总能在最优的情况下得到系统的反馈，其能够在几乎不损失精度的前提下，达到平均每条对话800ms的响应加速。

附图说明

图1为本发明一种对话系统离线在线融合应用方法的流程图；

图2为本发明一种对话系统离线在线融合应用方法的语料标注的示意图；

图3为本发明一种对话系统离线在线融合应用方法的云端大模型架构示意图；

图4为本发明一种对话系统离线在线融合应用方法的知识蒸馏示意图；

图5为本发明一种对话系统离线在线融合应用系统的模块示意图；

图6为本发明一种对话系统离线在线融合应用系统的语义计算模块示意图。

具体实施方式

下面结合附图对本发明作进一步地详细的说明，这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，本具体实施的方向以图1方向为标准。

目前行业内大部分的对话系统无法很好地融合离在线对话识别系统，即将离线、在线NLP识别技术融合。因此用户在网络不稳定情况下，需要一个可以实现离线、在线NLP识别的灵活切换，并且需要同时兼顾了自然语言理解能力和响应速度的双重要求的方法。

而对于离在线融合的一大课题就是何时采信离线模型的识别结果，传统的离在线融合系统的实现方式是等待在线结果输出或者超时时才采信离线模型的识别结果，这种方式无法很好地发挥离线模型的作用，达到模型加速的效果。由此本发明全新提出了场景复杂度的概念，用于衡量某一对话场景的复杂程度。直观地感受来说，对于一些简单的场景（如：车控场景，包括打开空调、打开车窗等等意图），其场景内的语料说法有限，对于深度学习模型来说的识别复杂程度更低，因此场景复杂度更小。而对于一些相对较复杂的场景（如：导航场景，包括导航去具体的POI地点、打开地图、地图全览等等意图），由于其涉及的实体（如：导航去<POI:世界之窗>，世界之窗就是一个实体）较多且实体之前的差异较大，对于深度学习模型来说的预测难度更大，场景复杂度更高，而离线识别模型由于其模型参数量较少、模型结构较为简单，往往在场景复杂度较高的场景下识别效果比云端大模型更差，因此不宜直接采信，反之，场景复杂度较小的场景则可以直接采信。

本发明可以很好地解决何时采信离线模型识别结果的课题，并且根据实验证明，其能够在几乎不损失精度的前提下，达到平均每条对话30ms的响应性能，实现平均800ms左右的响应加速。

如图1所示，本发明包括一种对话系统离线在线融合应用方法，所述方法包括以下步骤：

优选的，如图2所示，所述S1中，实体通过BIESO方式标注，其中，B表示开始，I表示中间，E表示结束，O表示非实体，S表示独立实体。

如图3所示，S2：训练云端大模型以预测每条语料的意图和实体标签，并将所述云端大模型通过知识蒸馏的方式蒸馏为离线小模型以预测语料在离线状态下的意图和实体标签；

如图4所示，知识蒸馏是通过教师网络的预测输出除以温度参数（Temperature）之后、再做Softmax计算，可以获得软化的概率分布（软目标或软标签），数值介于0~1之间，取值分布较为缓和。Temperature数值越大，分布越缓和；而Temperature数值减小，容易放大错误分类的概率，引入不必要的噪声。针对较困难的分类或检测任务，Temperature通常取1，确保教师网络中正确预测的贡献。硬目标则是样本的真实标注，可以用One-hot矢量表示。Total loss设计为软目标与硬目标所对应的交叉熵的加权平均（表示为KD loss与CEloss），其中软目标交叉熵的加权系数越大，表明迁移诱导越依赖教师网络的贡献，这对训练初期阶段是很有必要的，有助于让学生网络更轻松的鉴别简单样本，但训练后期需要适当减小软目标的比重，让真实标注帮助鉴别困难样本。另外，教师网络的预测精度通常要优于学生网络，而模型容量则无具体限制，且教师网络推理精度越高，越有利于学生网络的学习。

教师网络与学生网络也可以联合训练，此时教师网络的暗知识及学习方式都会影响学生网络的学习。

S3：计算出每个场景的场景复杂度；

优选的，所述S3包括以下步骤：

S3.1：准备离线小模型语料测试集X；

S3.2：记每个场景复杂度为；

优选的，所述网格搜索是一种调参手段，为穷举搜索，即在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果；

；

意图置信度分数为意图的线性层输出intent_-logits_i的softmax值的最大值，其具体计算方法为：

实体标签置信度为CRF实体层输出的实体路径的条件概率，其具体计算方法为：

其中，x为观测序列，y为标签序列l的隐状态序列。

步骤S1-S3为模型的前序准备工作，通过以上三个步骤，可以得到：

1、训练好的云端大模型，通过该模型，每输入一条语料可以得到这条语料的意图标签、意图置信度分数、实体标签组合、实体标签置信度。

一条语料（文本）可能包含多个实体，如：“今天深圳天气怎么样”，包含“今天”这个日期实体和“深圳”这个地点实体，因此实体的标签和置信度为一个集合。

2、训练好的离线小模型，该模型和云端大模型的输出一致，区别是离线小模型的参数量较少，模型网络结构更简单，因此可以直接移植到端侧运行。

3、各个场景的场景复杂度。

步骤S4-S5为实时用户交互流程的实施步骤。

下方实施例为具体的用户输入作为示例阐述：

用户输入：我想打开车窗

经过离线模型计算得到结果：

意图：打开车窗

属于场景：车控

实体：车窗

实体置信度：0.97

离线置信度：0.98

场景复杂度：0.1

通过归一化置信度模型得到离线置信度分数：

设置的阈值为0.6, 该语料的离线置信度分数0.8775大于0.6，直接采信离线的语义结果，输出给用户。

如图5、图6所示，本发明还包括一种对话系统离线在线融合应用系统，用于实现以上所述的方法，包括场景获取模块1、语义计算模块2、场景复杂度计算模块3、归一化置信度模块4、离在线融合模块5;

所述场景获取模块1用于根据业务场景获取场景对应的语料，并标注语料所属的场景、意图和实体；

所述语义计算模块2用于根据预训练模型分别计算所述语料的意图和实体标签及置信度分数，得到语料通过云端大模型预测的意图及实体标签，同时再通过知识蒸馏的方式蒸馏为离线小模型，通过离线小模型预测出语料在离线状态下的意图和实体的标签及离线置信度分数；预训练模型包括但不限于BERT、GPT、word2vec，本发明通过BERT+线性分类器+CRF融合模型训练云端大模型。

所述场景复杂度计算模块3用于根据场景获取的语料及预训练模型计算的语义向量表征的样本方差来表示该场景的复杂程度；

所述归一化置信度模块4用于将场景复杂度、意图置信度分数和实体标签置信度加权计算得出归一化的离线置信度分数；

所述离在线融合模块5用于判断离线小模型得出语料的离线置信度分数是否大于设定的阈值，如果大于，则采信离线结果，否则等待云端结果输出。

优选的，所述语义计算模块2包括预训练模块21、意图分类模块22以及知识蒸馏模块23，

所述预训练模块21用于处理文本的预处理，获取文本特征；

所述意图分类模块22用于识别语料的意图，将预训练模型的最后一层输出的[CLS]位置对应的向量传入线性分类层得到语料的类别和意图置信度分数，所述意图置信度分数是最后预测结果属于预测的类别标签的概率；

所述知识蒸馏模块23用于将云端大模型压缩为离线小模型。

优选的，所述知识蒸馏模块23用于采用教师学习网络构造的损失函数将云端大模型压缩为离线小模型，所述损失函数为，

知识蒸馏模块23的损失函数包括和，其中，是老师教学的损失函数，是学生学习的损失函数，和为学习系数。

本发明中=0.9，=0.1，实际场景中可以调整和达到更好的学习效果，具体的教师和学生网络的损失函数则是根据不同的深度学习模型来确定，在实施步骤中会详细阐述。

通过知识蒸馏能够使离线小模型能够充分学习到云端大模型的知识，达到和云端大模型接近的识别效果。

通过对比现有体系，本发明优势：

1.采用蒸馏的方式，将云端大模型蒸馏成端侧也可以运行的离线模型，确保了云端大模型和离线模型的基本功能对齐，不会存在功能缺失的情况，保证云端、端侧语义统一；

2.由于本发明不是通过传统的等待云端模型超时才返回离线结果，而是优先考虑离线结果，如果离线的结果不准确，才会选择云端的结果并输出，加快了响应速度的同时提高了离在线切换的灵活度，给用户的体验会更好，此外，通过场景复杂度的计算，使得整个离在线的切换更加灵活、精准。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种对话系统离线在线融合应用方法，其特征在于，所述方法包括以下步骤：

S3：计算出每个场景的场景复杂度；

；

S5：判断离线小模型得出所述用户消息的离线置信度分数是否大于设定的阈值，如果大于，则采信离线结果，否则等待所述云端大模型结果输出；

所述S3包括以下步骤：

S3.1：准备离线小模型语料测试集X；

S3.2：记每个场景复杂度为；

；

2.根据权利要求1所述的对话系统离线在线融合应用方法，其特征在于，所述S1中，实体通过BIESO方式标注，其中，B表示开始，I表示中间，E表示结束，O表示非实体，S表示独立实体。

3.根据权利要求1所述的对话系统离线在线融合应用方法，其特征在于，所述离线小模型语料测试集X为离线小模型范围内的语料和非离线小模型范围内的语料的正负样本组合，所述语料符合真实场景分布。

4.根据权利要求1所述的对话系统离线在线融合应用方法，其特征在于，所述网格搜索为穷举搜索，即在所有候选的参数选择中，通过循环遍历，表现最好的参数就是最终的结果；

5.一种对话系统离线在线融合应用系统，用于实现权利要求1-4任一所述的方法，其特征在于，包括场景获取模块（1）、语义计算模块（2）、场景复杂度计算模块（3）、归一化置信度模块（4）、离在线融合模块（5）;

所述场景获取模块（1）用于根据业务场景获取场景对应的语料，并标注语料所属的场景、意图和实体；

所述语义计算模块（2）用于根据预训练模型分别计算所述语料的意图和实体标签及置信度分数，得到语料通过云端大模型预测的意图及实体标签，同时再通过知识蒸馏的方式蒸馏为离线小模型，通过离线小模型预测出语料在离线状态下的意图和实体的标签及离线置信度分数；

所述场景复杂度计算模块（3）用于根据场景获取的语料及预训练模型计算的语义向量表征的样本方差来表示该场景的复杂程度；

所述归一化置信度模块（4）用于将场景复杂度、意图置信度分数和实体标签置信度加权计算得出归一化的离线置信度分数；

所述离在线融合模块（5）用于判断离线小模型得出语料的离线置信度分数是否大于设定的阈值，如果大于，则采信离线结果，否则等待云端结果输出；

所述语义计算模块（2）包括预训练模块（21）、意图分类模块（22）以及知识蒸馏模块（23）；

所述预训练模块（21）用于处理文本的预处理，获取文本特征；

所述意图分类模块（22）用于识别语料的意图，将预训练模型的最后一层输出的[CLS]位置对应的向量传入线性分类层得到语料的类别和意图置信度分数，所述意图置信度分数是最后预测结果属于预测的类别标签的概率；

所述知识蒸馏模块（23）用于将云端大模型压缩为离线小模型。

6.根据权利要求5所述的对话系统离线在线融合应用系统，其特征在于，所述知识蒸馏模块（23）用于采用教师学习网络构造的损失函数将云端大模型压缩为离线小模型，所述损失函数为，

知识蒸馏模块（23）的损失函数包括和，其中，是老师教学的损失函数，是学生学习的损失函数，和为学习系数。

7.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令，所述指令适于由处理器加载以执行权利要求1至4任一项所述的对话系统离线在线融合应用方法。