CN116306679A

CN116306679A - 一种基于语义可配置的多模态智能客服对话的方法和系统

Info

Publication number: CN116306679A
Application number: CN202211103515.5A
Authority: CN
Inventors: 贝聿运; 朱俊伟; 陈祺; 徐智蕴; 方海宾; 贝文馨; 王倩璐; 张晓东; 陈飞飞; 毛亚青
Original assignee: Shanghai Big Data Center
Current assignee: Shanghai Big Data Center
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2023-06-23

Abstract

本申请公开了一种基于语义可配置的多模态智能客服对话的方法和系统，所述方法包括：准备文本语料和图片语料；使用文本语义模型对文本语料进行模型调优，输出语义向量，使用图像语义模型对图片语料特征提取后进行图像到文本的语义转换，输出语义向量；将处理流程颗粒化为思考单元，利用思考单元配置引导场景；将所有引导场景中的意图的话术转换为语义向量，并组织为语义查询树；将多模态输入信息转换为语义向量，通过语义查询树查找是否触发意图，如触发则进入至引导场景中的一个思考单元，从当前思考单元开始，逐个计算每个思考单元，并查找下一思考单元，直到返回最后答案为止。本申请实现了支持文字和图像等多模态的用户交互的智能客服会话。

Description

一种基于语义可配置的多模态智能客服对话的方法和系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于语义可配置的多模态智能客服对话的方法和系统。

背景技术

人工智能客服系统越来越广阔地应用于各行各业的各个业务场景，多变的业务导致人工智能相关模型在实际业务落地中存在一定的难度。常见的解决方法有两种，一种是训练少量比较通用的模型应用于各个业务场景，但这种方法会降低模型在具体业务中的准确度，另一个常见的方法是针对每个业务场景的训练模型，提高了准确度但增加了大量数据准备、模型训练、模型验证等相关的任务。智能客服实际业务中越来越多的业务场景不仅局限于文字，图片等多媒体元素应用也越来越多，如何与文字融合服务于智能客服也是业务落地的难点。

如何在灵活动态可配置的智能引导场景上，实现支持文字和图像等多模态的用户交互的智能客服会话，是本领域技术人员亟待解决的问题。

发明内容

本发明的目的在于提供一种基于语义可配置的多模态智能客服对话的方法和系统，以解决上述技术背景中提出的问题。

为实现上述目的，本发明采用以下技术方案：

本申请第一个方面提供了一种基于语义可配置的多模态智能客服对话的方法，包括：

S1、语料准备：准备用于文本语义模型调优的文本语料，文本语料包括问句对和是否相似的标签；准备用于图像语义模型训练的图片语料，图片语料包括图片和图片对应的文本描述；

S2、语义表示模型训练：使用预设的文本语义模型对文本语料进行模型调优，按分类任务训练后将代表整句话语义的向量设置为输出并导出模型；使用预设的图像语义模型对图片语料进行特征提取后，再加上Decoder网络进行图像到文本的语义转换，输出与文本语义模型形状一致的语义向量表示；

S3、配置引导场景：将智能客服可能需要的处理流程颗粒化为思考单元，每个思考单元代表一个处理过程，包括意图分析、选项匹配或条件判断，选择M个可重复的思考单元，配置好每个思考单元的参数后使用单向边将所有思考单元组织成一个有向无环图，形成一个引导场景；

S4、多模态意图分析：将所有配置的引导场景中的意图上的话术使用预设的文本语义模型和图像语义模型转换为语义向量，并组织为语义查询树，将用户的多模态输入信息通过文本语义模型和图像语义模型转换为语义向量，并通过语义查询树查找是否触发意图；

S5、引导路径计算：当用户触发一个意图，则表示进入至引导场景中的一个思考单元，从当前思考单元开始，逐个计算每个思考单元，并查找下一个思考单元，直到返回最后答案为止。

优选地，步骤S1具体包括如下步骤：

S11、准备用于文本语义模型调优的问句，收集相似问句及字面相似但语义不相似的问句作为文本语料；

S12、对收集的文本语料进行标注，标注格式为：问句A+问句B+标签，标签分为相似和不相似；

S13、准备用于图像语义模型训练的图片语料，包含图片及图片对应的文本描述；

S14、将图片对应的文本描述使用文本语义模型转换为语义向量，作为下一步模型训练时图片对应的标签。

优选地，步骤S2具体包括如下步骤：

S21、将包括问句对和标签的文本语料，基于Bert预训练模型进行分类任务的模型调优训练，训练后输出N维语义向量；

S22、图像语义模型由VGG分类预训练模型+Decoder解码网络构成，输出与Bert预训练模型输出相同的N维语义向量，采用多分类交叉熵做为损失函数。

优选地，步骤S3中，所述意图分析和选项匹配包括K条话术，K≥1，所述话术包括文本或图像。

优选地，步骤S4具体包括如下步骤：

S41、将L个引导场景所包括的T条话术使用预设的文本语义模型和图像语义模型转换成对应的T个语义向量V，其中，每个引导场景包括O个意图，每个意图包括P个话术，O≥1，L≥1，P≥1，

S42、计算每个意图中的P个语义向量的中心点向量S，

S43、将T个语义向量V按照意图的中心点向量S和语义向量V组织成两级语义查询树；

S44、将用户输入的文字或图像使用训练的文本语义模型或图像语义模型转换为查询向量Q，使用该查询向量Q查找相似度最高的前H个中心向量，H>＝1，再查找出最相似的话术向量V，如果查询向量Q与话术向量V的相似度大于预设阈值R，则表示触发意图，否则，表示未触发任何意图。

优选地，步骤S5具体包括如下步骤：

S51、经过语义查找，当用户触发一个意图时，则表示进入至一个引导场景中的一个思考单元E；

S52、从思考单元E开始依次计算每个思考单元，并查找下一个思考单元，如果有缓存的思考单元，则从缓存的思考单元开始查找下一个思考单元；

S53、如果当前思考单元的计算结果为用户选项，则返回用户选项并缓存当前的思考单元；

S54、如果当前思考单元的计算结果为答案，则返回答案；

S55、重复步骤S52～S54，直至返回答案。

本申请第二个方面提供了一种基于语义可配置的多模态智能客服对话的系统，包括：

语料准备模块，用于准备文本语义模型调优用的文本语料，文本语料包括问句对和是否相似的标签；准备图像语义模型训练用的图片语料，图片语料包括图片和图片对应的文本描述；

语义表示模型训练模块，用于使用预设的文本语义模型对文本语料进行模型调优，按分类任务训练后将代表整句话语义的向量设置为输出并导出模型；使用预设的图像语义模型对图片语料进行特征提取后，再加上Decoder网络进行图像到文本的语义转换，输出与文本语义模型形状一致的语义向量表示；

引导场景配置模块，用于将智能客服可能需要的处理流程颗粒化为思考单元，每个思考单元代表一个处理过程，包括意图分析、选项匹配或条件判断，选择M个可重复的思考单元，配置好每个思考单元的参数后使用单向边将所有思考单元组织成一个有向无环图，形成一个引导场景；

多模态意图分析模块，用于将所有配置的引导场景中的意图上的话术使用预设的文本语义模型和图像语义模型转换为语义向量，并组织为语义查询树，将用户的多模态输入信息通过文本语义模型和图像语义模型转换为语义向量，并通过语义查询树查找是否触发意图；

引导路径计算模块，用于当用户触发一个意图，则进入至引导场景中的一个思考单元，从当前思考单元开始，逐个计算每个思考单元，并查找下一个思考单元，直到返回最后答案为止。

本申请第三个方面提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现上述任一方法的步骤。

本申请第四个方面提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

与现有技术相比，本发明的技术方案具有以下有益效果：

本申请基于少量通用模型，在灵活动态可配置的智能引导场景上，实现了支持文字和图像等多模态的用户交互的智能客服会话。

附图说明

构成本申请的一部分附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明优选实施例的一种基于语义可配置的多模态智能客服对话的方法的流程图；

图2是本发明步骤S32中的一个引导场景的有向无环图的示例图；

图3是本发明步骤S43中形成的一个两级语义查询树的示例图；

图4是本发明一种基于语义可配置的多模态智能客服对话的方法的逻辑示意图；

图5为一个引导场景的具体示例图；

图6为本申请实施例提供的基于语义可配置的多模态智能客服对话的系统的结构示意图；

图7为本申请实施例提供的电子设备的一种结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序，应该理解这样使用的数据在适当情况下可以互换。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例

图1为一种基于语义可配置的多模态智能客服对话的方法的流程图。

如图1所示，一种基于语义可配置的多模态智能客服对话的方法，包括如下步骤：

步骤S1、语料准备：

S11，准备用于文本语义模型调优的问句，收集相似问句及字面相似但语义不相似的问句作为文本语料。

S12，对上一步的文本语料进行标注，标注格式为：问句A+问句B+标签，标签分为相似和不相似。

S13，准备用于图像语义模型训练的图片语料，图片语料包括图片和图片对应的文本描述。

S14，将图片对应的文本描述使用文本语义模型转换为语义向量，作为下一步模型训练时图片对应的标签。

步骤S2、语义表示模型训练：

S21，使用上一步标注好的文本语料，基于Bert预训练模型进行分类任务的模型调优训练，训练后模型输出N维语义向量。

Bert(Bidirectional Encoder Representations from Transformers)是谷歌公司发布的基于双向Transformer的大规模预训练语言模型，该预训练模型能分别捕捉词语和句子级别的表示，高效抽取文本信息并应用于各种NLP任务。Bert预训练模型一般需要强大计算能力和大量的语料花费大量时间才能训练完成，所以一般由大型公司如谷歌公司等训练完成，其他用户只需要通过下载训练好的预训练模型微调(finetuning)使用。通过Bert进行序列标注时，一般通过加载预训练好的模型，进行微调后，Bert通过Softmax来预测每个token的标签，具有较高的准确率。也正是由于Bert的分类准确率较高，且只需要进行微调即可，因此Bert预训练模型成为了序列标注时序列标注的首选。

S22，图像语义模型由VGG分类预训练模型+Decoder解码网络构成，图像语义模型输出与文本语义模型输出相同的N维向量，采用多分类交叉熵做为损失函数，具体如下：

其中，L代表损失；

i代表第i个样本；

predict(i)代表第i个样本的预测值；

label(i)代表第i个样本的真实值；

C代表N维向量的维度数；

n代表单个批次中样本总数。

步骤S3、配置引导场景：

S31，将智能客服可能需要的处理流程颗粒化为思考单元，每个思考单元代表一个处理过程，例如：意图分析、选项匹配、条件判断等，意图分析和选项匹配的思考单元可包括K(K≥)条话术，话术可以是文本或是图像。

S32，选择M个可重复的思考单元，配置好每个思考单元的参数后使用单向边将所有思考单元组织成一个有向无环图，如图2所示。

步骤S4、多模态意图分析：

S41，将L(L>＝1)个智能引导场景，每个场景的O(O>＝1)个意图，每个意图P(P>＝1)个话术，总共T条话术使用上一步训练的文本语义模型和图像语义模型转换成对应的T个语义向量V，其中，

S42，计算每个意图中的P个语义向量的中心点向量S，

S43，将T个语义向量V按照意图的中心点向量S和语义向量V组织成两级语义查询树，如图3所示。

S44，将用户输入的文字或图像使用训练的文本语义模型或图像语义模型转换为查询向量Q，使用该查询向量Q查找相似度最高的前H(H>＝1)个中心向量，再查找出最相似的话术向量V，如果查询向量Q与话术向量V的相似度大于预设阈值R，则表示触发意图，否则，表示未触发任何意图。

步骤S5、引导路径计算：

S51，经过上一步语义查找，当用户触发一个意图，则表示进入至引导场景Li中的一个思考单元E。

S52，从当前思考单元E开始，逐个计算每个思考单元，并查找下一个思考单元，如果有缓存的思考单元则从缓存的思考单元开始查找下一单元。

S53，如果当前思考单元计算的结果为用户选项，则返回用户选项并缓存当前的思考单元。

S54，如果当前思考单元的计算结果为答案，则返回答案。

S55，重复上述三个步骤，直至返回答案。

上述基于语义可配置的多模态智能客服对话的方法的逻辑示意图参阅图4所示。

图5给出了一个具体的引导场景的示例图，该引导场景是关于井盖的损坏和维修。该引导场景包括智能客服可能需要处理的多个思考单元，包括多个意图分析单元(如API位置获取、位置信息澄清、管理部门分析等)和选项匹配单元(如判断是维修流程还是维修上报)，每个思考单元代表一个处理过程，各思考单元使用单向边将所有思考单元组织成一个有向无环图。当用户输入一个相关的图片或文本时，通过图片语义识别或文本语义识别后，如果触发了该引导场景中的一个意图，则从当前思考单元开始，逐个计算每个思考单元，并查找下一个思考单元，直到返回最后答案为止。

另一方面，本申请还公共了一种基于语义可配置的多模态智能客服对话的系统。参阅图6所示，该系统包括语料准备模块100、语义表示模型训练模块200、引导场景配置模块300、多模态意图分析模块400和引导路径计算模块500。

所述语料准备模块100，用于准备文本语义模型调优用的文本语料，文本语料包括问句对和是否相似的标签；准备图像语义模型训练用的图片语料，图片语料包括图片和图片对应的文本描述。

所述语义表示模型训练模块200，用于使用预设的文本语义模型对文本语料进行模型调优，按分类任务训练后将代表整句话语义的向量设置为输出并导出模型；使用预设的图像语义模型对图片语料进行特征提取后，再加上Decoder网络进行图像到文本的语义转换，输出与文本语义模型形状一致的语义向量表示。

所述引导场景配置模块300，用于将智能客服可能需要的处理流程颗粒化为思考单元，每个思考单元代表一个处理过程，包括意图分析、选项匹配或条件判断，选择M个可重复的思考单元，配置好每个思考单元的参数后使用单向边将所有思考单元组织成一个有向无环图，形成一个引导场景。

所述多模态意图分析模块400，用于将所有配置的引导场景中的意图上的话术使用预设的文本语义模型和图像语义模型转换为语义向量，并组织为语义查询树，将用户的多模态输入信息通过文本语义模型和图像语义模型转换为语义向量，并通过语义查询树查找是否触发意图。

所述引导路径计算模块500，用于当用户触发一个意图，则进入至引导场景中的一个思考单元，从当前思考单元开始，逐个计算每个思考单元，并查找下一个思考单元，直到返回最后答案为止。

另一方面，本申请实施例还提供了一种电子设备600，如图7所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。

所述存储器603，用于存放计算机程序。

所述处理器601，用于执行存储器603上所存放的程序时，实现上述基于语义可配置的多模态智能客服对话的方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口602用于上述电子设备600与其他设备之间的通信。

存储器603可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器603还可以是至少一个位于远离前述处理器601的存储装置。

上述的处理器601可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一基于语义可配置的多模态智能客服对话的方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一基于语义可配置的多模态智能客服对话的方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本发明的具体实施例进行了详细描述，但其只是作为范例，本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言，任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此，在不脱离本发明的精神和范围下所作的均等变换和修改，都应涵盖在本发明的范围内。

Claims

1.一种基于语义可配置的多模态智能客服对话的方法，其特征在于，包括：

2.根据权利要求1所述的一种基于语义可配置的多模态智能客服对话的方法，其特征在于，步骤S1具体包括如下步骤：

3.根据权利要求1所述的一种基于语义可配置的多模态智能客服对话的方法，其特征在于，步骤S2具体包括如下步骤：

4.根据权利要求1所述的一种基于语义可配置的多模态智能客服对话的方法，其特征在于，步骤S3中，所述意图分析和选项匹配包括K条话术，K≥1，所述话术包括文本或图像。

5.根据权利要求1所述的一种基于语义可配置的多模态智能客服对话的方法，其特征在于，步骤S4具体包括如下步骤：

S42、计算每个意图中的P个语义向量的中心点向量S，

6.根据权利要求1所述的一种基于语义可配置的多模态智能客服对话的方法，其特征在于，步骤S5具体包括如下步骤：

S54、如果当前思考单元的计算结果为答案，则返回答案；

S55、重复步骤S52～S54，直至返回答案。

7.一种基于语义可配置的多模态智能客服对话的系统，其特征在于，包括：

8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现如权利要求1～6任一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～6任一项所述的方法的步骤。