CN114116994A

CN114116994A - 一种迎宾机器人对话方法

Info

Publication number: CN114116994A
Application number: CN202110735160.0A
Authority: CN
Inventors: 徐玮晗; 邓若愚
Original assignee: Tongji Institute Of Artificial Intelligence Suzhou Co ltd
Current assignee: Tongji Institute Of Artificial Intelligence Suzhou Co ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-03-01
Also published as: WO2023273170A1

Abstract

本发明涉及一种迎宾机器人对话方法，基于TF‑IDF特征提取的检索式FAQ模型、基于编码器‑解码器网络结构的Transformer生成式模型相结合，其包括：构建语料库：对于FAQ模型：构建指定领域相关问答对形式的语料库，对于生成式模型收集开源问答语料；TF‑IDF特征提取、构建FAQ模型；开源数据集特征提取、构建闲聊对话模型；整合对话系统逻辑：完成指定领域的检索式问答对话、闲聊的生成式对话，将两者进行整合，完成语音识别与合成、前端界面交互。本发明采用检索式与生成式混合模式，通过构建相关语料，在检索式模型、生成式模型之间选择输出回答，保证了对话的稳定性和准确性，为校园内师生带来更好的对话服务体验。

Description

一种迎宾机器人对话方法

技术领域

本发明属于人工智能技术领域，具体涉及一种迎宾机器人对话方法。

背景技术

近年来，人工智能与机器人的技术飞速发展，大量研究人员和工程技术人员投身该领域，研究成果丰硕。目前在商场、银行、医院、餐厅等公共场所，随处可见迎宾接待机器人、配送机器人、安防机器人。这些智能机器人在服务用户的过程中最便捷、直接的方式就是通过对话系统进行语音交互。对话系统的核心技术是自然语言处理(Natural LanguageProcess, NLP)，广义的自然语言处理可以根据语言形式分为语音信号处理和文本理解生成两个部分。语音信号处理包括语音识别和语音合成技术。这两项技术目前在市场上已经有非常成熟的商业化产品，谷歌、百度、科大讯飞等企业都推出了全平台多语种的语音识别和语音合成接口，在普通环境下能达到很高的识别率。文本理解与生成相当于机器对人类自然语言的含义进行理解以及能够生成符合人类语法规则和句法依存的文本的过程，目前的主流方法有基于统计的机器学习方法和大规模深度学习方法。

一个完整的对话系统包括：1、语音识别：将语音转换为文本；2、文本解析：从自然语言文本中提取特征，生成特征向量；3、特征分析：根据对话系统的目的，生成和组合特征； 4、文本生成：使用模板、检索或语言模型生成可能的回复；5、语音合成：将文本合成语音，完成一次进行交互。文本特征的构建使用词嵌入技术，将原本维数为词汇表大小的高维空间嵌入到一个低维的连续向量空间中，常用的有TF-IDF矩阵、N-gram语言模型、Word2Vec、 ELMo、Trasformer中的embedding过程。

对话系统从任务的角度可分为有明确任务的固定域问答系统、基于百科知识的开放域问答系统、以及闲聊对话。从答案获取的角度对话系统也可分为检索式和生成式。FAQ(Frequently Asked Questions)是基于常见问题集的对话系统，属于检索式。把用户常问的问题和相关答案保存起到知识库中，当用户输入问题时，如果在已有的“问题-答案”对集合中能找到与之相匹配的问句，系统就直接把相应的答案输出给用户。因此，FAQ的核心任务是文本匹配。常用的文本匹配方法如编辑距离、余弦距离、向量空间模型VSM等方法，主要解决字面相似度问题；闲聊对话属于生成式，需要基于丰富的对话语料进行模型训练。目前常用的模型结构是编码器-解码器结构，如Seq2Seq、Transformer。

目前对话系统大多属于检索式，因为检索式模型基于大规模问答对数据库，回复相对稳定且可以避免语法错误，不会生成攻击性语言，常用于服务行业中。生成式模型不依赖固定数据库，可以根据输入的文本生成答案，较为灵活，常用于开放域问答。这些方法在不同角度存在一些优势，都可以实现效果很好的对话，但它们在应用上仍存在一些不足：

1、检索式模型的局限是只能在特定的问答对中进行问答，一旦输入数据库之外的文本就无法得到合理的答案。为了达到尽量对所有的问题都能回答，需要不断扩大数据库的容量，该数据库的构建主要通过人工方式，耗费人力物力，且很难覆盖所有问题。

2、生成式模型生成的文本容易产生语法错误或者产生没有逻辑性的回答，且模型需要大量的语料进行训练才能有好的表现。为了得到精确的模型，往往需要基于预训练模型在大规模数据集上进行训练，对算力要求高，且模型参数含量巨大，很难在移动端部署。

发明内容

本发明的目的是提供一种迎宾机器人对话方法，适用于校园内部。

为达到上述目的，本发明采用的技术方案是：

一种迎宾机器人对话方法，所述的方法基于TF-IDF特征提取的检索式FAQ模型、基于编码器-解码器网络结构的Transformer模型相结合，其包括：

S1、构建语料库：对于检索式FAQ模型：构建指定领域相关问答对形式的语料库，对于 Transformer模型收集开源问答语料，

S2、TF-IDF特征提取、构建检索式FAQ模型，

S3、开源数据集特征提取、构建闲聊对话模型，其中构建闲聊对话模型时基于编码器- 解码器网络结构的Transformer模型，并对收集的语料进行训练，

S4、整合对话系统逻辑：通过S2完成功能一：指定领域的检索式问答对话，通过S3完成功能二：闲聊的生成式对话，将功能一、功能二进行整合，

S5、完成语音识别与合成、前端界面交互。

优选地，在S1中：基于scrapy框架通过爬虫技术获取的指定语料。

优选地，在问答对形式的语料库中通过切分词汇的对比获取所有可能的问题合集，获取输入文本与相似问题合集中各个问题的余弦相似度，该相似度通过TF-IDF向量计算，当余弦相似度越高则两个文本越相似。

进一步优选地，所述的TF-IDF值的计算方式如下：

其中：tf_ij是单词w_i出现在文本d_j中的频数，tf_·j是文本d_j中出现的所有单词的频数之和，df_i是含有单词w_i的文本数，df是文本集合D的全部文本数。

进一步优选地，一个TF-IDF值向量对应由分词构成的各个问题文本，设问题q₁文本中各分词的TF-IDF值向量为v₁，问题q₂文本中各分词的TF-IDF值向量为v₂，衡量问题q₁与问题q₂文本的余弦相似度的函数：

优选地，在S3中：对于编码器内部结构先经过自注意力机制，经过自注意力机制后得到的每个词汇的表征信息包含该词与序列中各个词的相关程度。

进一步优选地，计算自注意力包括从每个编码器的输入向量来创建向量，通过将词嵌入向量乘以在训练过程中训练的三个矩阵，分别创建查询向量Q、键向量K和值向量V，自注意力层的输出矩阵为：

进一步优选地，当对一个序列使用多组所述的查询向量、键向量和值向量时得到多组特征表达，将叠加位置编码的词嵌入向量与经过自注意力层输出的Z相加做残差操作，并进行归一化处理，进入前馈神经网络中，再经过一次残差连接得到一个编码器的输出。

优选地，在S3中：训练集当中的正确回答语料与模型经softmax输出回答在词汇表长度的向量上进行KL距离计算，计算二者之间的损失，并对损失进行最小化，KL距离的计算公式如下：

D_KL(A|B)＝∑_ip_A(v_i)logp_A(v_i)-p_A(v_i)logp_B(v_i)。

优选地，在S4中：确定功能一、功能二的优先级，对输入文本进行FAQ检索，设置余弦相似度得分阈值，当计算相似度得分高于该阈值，则返回经过问答对形式的语料库中检索的答案，否则将输入文本送入闲聊对话模型，经过整合对于一个文本输入到系统输出对话。

优选地，在模型预测阶段为解码器中添加束搜索算法。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

本发明采用检索式与生成式混合的模式，通过构建相关语料，在检索式模型、生成式模型之间选择输出回答，保证了对话的稳定性和准确性，能够为校园内师生带来更好的对话服务体验。

附图说明

附图1为本实施例中对话方法的执行流程图，

附图2为本实施例中FAQ模型执行流程图，

附图3为本实施例中搭建Transformer模型的结构图，

附图4为本实施例中Transformer模型编码器结构图，

附图5为本实施例中Transformer模型解码器结构图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种迎宾机器人对话方法，本方法基于TF-IDF特征提取的检索式FAQ模型、基于编码器-解码器网络结构的Transformer生成式模型相结合，使得对话内容符合服务需求，系统反应速度快。如图1所示：其包括：

S1、构建语料库：对于检索式FAQ模型：构建指定领域相关问答对形式的语料库，对于 Transformer模型收集开源问答语料。

S2、TF-IDF特征提取、构建检索式FAQ模型。FAQ模型的功能是根据输入的问题在问答对数据库中检索出最相近的一个问题，并输出该问题对应的答案，这种类似信息检索的方式可以通过TF-IDF算法以及余弦距离相似度计算得到很好的结果，相比较于word2vec等深度方法具有更高的效率和更好的准确度。

S3、开源数据集特征提取、构建闲聊对话模型，其中构建闲聊对话模型时基于编码器- 解码器网络结构的Transformer模型，并对收集的语料进行训练，在模型预测阶段为解码器中添加束搜索(beam-search)算法，提高返回对话的准确性。

S4、整合对话系统逻辑：通过S2完成功能一：指定领域的检索式问答对话，通过S3完成功能二：闲聊的生成式对话，将功能一、功能二进行整合，经过整合之后，对于一个文本输入到系统能够稳定的输出合理的对话。

S5、完成语音识别与合成、前端界面交互，实现用户交互。

经过上述步骤，本实施例通过自有语料和开源语料构建出一个能够进行介绍和导引且能够进行闲聊对话的智能迎宾机器人，并实现对话系统的准确性和实时性。该系统可以部署在具有安装有Linux操作系统的机器人或者配备Linux或Windows操作系统的平板的机器人上，通过平板显示进行友好交互。

实施例：

以服务型机器人Pepper为例，来说明基于检索式FAQ模型和Transformer模型相结合的对话系统在校园场景下的应用。

S1、构建语料库：

分别构建FAQ模型的问答对数据集、构建闲聊对话系统模型所需的训练数据集。语料库构建的方法主要有三种，一是开源语料数据集，二是通过爬虫技术获取特定语料，三是目前许多大型企业拥有自己的数据库平台。具体来说：

FAQ模型的数据集需要能够包含介绍校园的相关信息，比如各院系介绍、校区图书馆介绍等，这种专有信息无法在当下开源的语料库中获取，因此本实施例采用scrapy框架对中文维基百科、校园网中的校园公开信息进行爬取，并构建出221条问答对，保存为json格式。

闲聊对话的模型则需要大量的中文日常对话语料进行训练，经过对当前开源语料数据集的对比，本实施例采用LCCC(Large-scale Cleaned Chinese Conversation)数据集，包含3354382 次单轮对话，通过jieba分词统计共有372063个词汇。该数据集的原始对话数据来自于如微博对话，经过严格的数据过滤，将脏字脏词、特殊字符、颜表情、语法不通的语句、上下文不相关的对话等噪声过滤掉。

S2、TF-IDF特征提取与检索式FAQ模型的构建：

FAQ模型的功能是根据输入的问题在自行构建的221条问答对中检索出最相近的一个问题，并输出该问题对应的答案。

本实施例通过在TF-IDF特征空间中对输入文本和数据库中的问题进行余弦距离相似度计算。TF即词频，在一系列文档中词频越高的词汇往往是不能表示该文档特性而需要过滤的词汇，词频较低的词汇更能代表该文档的特性。在词频的基础上还需分配一个权重来表示不同次的重要程度，即IDF(逆文本频率)，大小与词的常见程度成反比。一个词的TF-IDF值即为TF和IDF的乘积，某个词对文档的重要性越高，它的TF-IDF值就越大。为了提升检索效率，首先在问答对语料库中通过切分词汇的对比获取所有可能的问题合集，然后获取输入文本与相似问题合集中各个问题的余弦相似度，该相似度的计算就是通过TF-IDF向量进行的，余弦相似度越高说明两个文本越相似。TF-IDF值的计算方式如下：

其中tf_ij是单词w_i出现在文本d_j中的频数，tf_·j是文本d_j中出现的所有单词的频数之和，df_i是含有单词w_i的文本数，df是文本集合D的全部文本数。

因此由分词构成的各个问题文本对应着一个TF-IDF值向量，设问题q₁文本中各分词的 TF-IDF值向量为v₁，问题q₂文本中各分词的TF-IDF值向量为v₂，衡量问题1与问题2文本的余弦相似度的函数：

具体步骤如图2所示。

S3、开源数据集特征提取、构建闲聊对话模型：

如图3的Transformer模型的结构图，其中编码器与解码器的结构如图4和图5的结构所示。首先在编码器的输入部分，对输入文本进行embedding编码，为了使模型具有时序性，需要加入位置编码PE。

PE(pos,2i)＝sin(pos/power(10000,2i/d_model))，

PE(pos,2i+1)＝cos(pos/power(10000,2i/d_model))，

其中power函数中第一个参数表示底数，第二个参数表示指数。d_model表示embedding 的维数；pos为位置，从0开始；i是embedding向量的维度下标，从0开始。

编码器内部结构首先是经过自注意力机制，考虑的是一段文本中词汇之间的语义依赖关系，经过自注意力机制后得到的每个词汇的表征信息包含该词与序列中各个词的相关程度。计算自注意力的关键是从每个编码器的输入向量来创建三个向量。因此，对于每个单词，我们创建一个查询向量(query vector，记为Q)，一个键向量(key vector，记为K)和一个值向量(value vector，记为V)，通过将词嵌入向量乘以在训练过程中训练的三个矩阵(参数，可训练)，可以创建查询向量、键向量和值向量。自注意力层的输出矩阵为：

多头注意力机制是指针对一个序列使用多组查询向量、键向量和值向量，得到多组特征表达。将叠加位置编码的词嵌入向量与经过自注意力层输出的Z相加做残差操作，并进行归一化处理，进入前馈神经网络中，再经过一次残差连接得到一个编码器的输出。

在解码器端，与编码器的构造相似，不同点主要在于增加了编码-解码器注意力层以及引入mask机制。编码-解码器注意力层是联系编码器与解码器的桥梁，在解码过程中使用编码器提供的键向量和值向量，以及编码器的查询向量。经过解码器输出后通过线性层和softmax 层得到概率分布及输出结果。

该模型的反向损失计算过程使用了类似交叉熵的计算，训练集当中的正确回答语料与模型经softmax输出回答在词汇表长度的向量上进行KL距离计算，计算二者之间的损失，并使用Adam优化器对损失进行最小化，KL距离的计算公式如下：

在预测的过程中为了使得预测的结果更加精确，使用了Beam-Search搜索算法，能够快速搜索出得分最高的输出。

S4：整合对话系统逻辑：

该对话系统有功能一：校园信息介绍及校园环境导引，功能二：闲聊对话。首先确定功能一的优先级高于功能二，因此对于输入文本首先进行FAQ检索，设置余弦相似度得分阈值为0.8，如果经过计算相似度得分高于0.8，则返回经过问答对数据库中检索的答案，否则将输入文本送入生成模型中返回闲聊对话。经过整合之后，对于一个文本输入到系统能够输出合理的对话。

S5：语音识别与合成、前端界面交互：

在语音识别与合成方面，采用如科大讯飞语音云接口，通过http协议和bese64编码将输入的音频文件转为文本，当经过系统处理返回答案文本后，再通过云接口将文本转为音频文件播放。

在前端界面交互方面，通过html和css设计出对话交互网页界面，采用jquery框架实现对话文本显示逻辑。使用http协议的get方法获取网页显示，通过http协议的post方法实现提交输入文本以及返回对话。

本发明针对检索式模型FAQ受限于数据库的问题，提出了将生成式模型与检索式相结合的方法，当输入问题在问答对数据库中检索不到相似度较高的问题时，采用生成式模型对问题进行解析，生成回答，保证了对话系统的稳定性。

针对生成式模型生成的文本容易产生语法错误或者产生没有逻辑性的回答的问题，首先将对话系统中的FAQ部分设为最高优先级，保证了与问答对数据库中相似的输入问题能够得到正确的答案；其次是选择优质的对话数据集，并对训练数据集进行去噪处理，保证特征提取的质量，进而保证模型的准确性。

针对且模型参数含量巨大，很难在移动端部署的问题，本发明优化了transformer的结构及解码方式，在经过训练4天左右，得到了参数量为180M大小的模型，当前的迎宾机器人硬件足以支持计算。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种迎宾机器人对话方法，其特征在于：所述的方法基于TF-IDF特征提取的检索式FAQ模型、基于编码器-解码器网络结构的Transformer模型相结合，其包括：

S1、构建语料库：对于检索式FAQ模型：构建指定领域相关问答对形式的语料库，对于Transformer模型收集开源问答语料，

S2、TF-IDF特征提取、构建检索式FAQ模型，

S3、开源数据集特征提取、构建闲聊对话模型，其中构建闲聊对话模型时基于编码器-解码器网络结构的Transformer模型，并对收集的语料进行训练，

S5、完成语音识别与合成、前端界面交互。

2.根据权利要求1所述的迎宾机器人对话方法，其特征在于：在S1中：基于scrapy框架通过爬虫技术获取的指定语料。

3.根据权利要求1所述的迎宾机器人对话方法，其特征在于：在问答对形式的语料库中通过切分词汇的对比获取所有可能的问题合集，获取输入文本与相似问题合集中各个问题的余弦相似度，该相似度通过TF-IDF向量计算，当余弦相似度越高则两个文本越相似。

4.根据权利要求3所述的迎宾机器人对话方法，其特征在于：所述的TF-IDF值的计算方式如下：

5.根据权利要求4所述的迎宾机器人对话方法，其特征在于：一个TF-IDF值向量对应由分词构成的各个问题文本，设问题q₁文本中各分词的TF-IDF值向量为v₁，问题q₂文本中各分词的TF-IDF值向量为v₂，衡量问题q₁与问题q₂文本的余弦相似度的函数：

6.根据权利要求1所述的迎宾机器人对话方法，其特征在于：在S3中：对于编码器内部结构先经过自注意力机制，经过自注意力机制后得到的每个词汇的表征信息包含该词与序列中各个词的相关程度。

7.根据权利要求6所述的迎宾机器人对话方法，其特征在于：计算自注意力包括从每个编码器的输入向量来创建向量，通过将词嵌入向量乘以在训练过程中训练的三个矩阵，分别创建查询向量Q、键向量K和值向量V，自注意力层的输出矩阵为：

8.根据权利要求7所述的迎宾机器人对话方法，其特征在于：当对一个序列使用多组所述的查询向量、键向量和值向量时得到多组特征表达，将叠加位置编码的词嵌入向量与经过自注意力层输出的Z相加做残差操作，并进行归一化处理，进入前馈神经网络中，再经过一次残差连接得到一个编码器的输出。

9.根据权利要求1所述的迎宾机器人对话方法，其特征在于：在S3中：训练集当中的正确回答语料与模型经softmax输出回答在词汇表长度的向量上进行KL距离计算，计算二者之间的损失，并对损失进行最小化，KL距离的计算公式如下：

D_KL(A|B)＝∑_ip_A(v_i)logp_A(v_i)-p_A(v_i)logp_B(v_i)。

10.根据权利要求1所述的迎宾机器人对话方法，其特征在于：在S4中：确定功能一、功能二的优先级，对输入文本进行FAQ检索，设置余弦相似度得分阈值，当计算相似度得分高于该阈值，则返回经过问答对形式的语料库中检索的答案，否则将输入文本送入闲聊对话模型，经过整合对于一个文本输入到系统输出对话。