CN112784028A

CN112784028A - 基于深度学习模型构建智能聊天平台的方法及系统

Info

Publication number: CN112784028A
Application number: CN202110094940.1A
Authority: CN
Inventors: 肖雪; 荣广胜; 李国涛
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-05-11

Abstract

本发明公开了一种基于深度学习模型构建智能聊天平台的方法及系统，属于深度学习及大数据处理领域，本发明要解决的技术问题为如何提高模型预测输出语句的连贯性和积极性，提升用户体验，对外实现智能对话服务，采用的技术方案为：该方法具体如下：数据预处理：对从开源获取到的聊天语料数据进行数据预处理并训练词袋模型；构建并训练模型：构建深度学习模型seq2seq并对深度学习模型seq2seq进行训练，对训练后的深度学习模型seq2seq进行对话测试；对模型进行部署应用：根据训练后的深度学习模型seq2seq进行部署应用。该系统包括预处理单元、构建及训练单元和部署单元。

Description

基于深度学习模型构建智能聊天平台的方法及系统

技术领域

本发明涉及深度学习及大数据处理领域，具体地说是一种基于深度学习模型构建智能聊天平台的方法及系统。

背景技术

目前对话机器人是一个热门话题，大家熟知的应用和产品主要有3种，具体如下：

①、虚拟助手：能对个人的输入完成相应的任务或提供相应服务的产品，如Siri、Cortana、度秘等；

②、智能音箱：通过语音交互，完成用户任务，也能对智能家具设备进行控制，典型的商业产品包括echo、天猫精灵、小爱同学；

③、闲聊对话：在开放领域与用户进行闲聊，典型商业产品如：微软小冰。

对话机器人的任务类型可以分为3类，具体如下：

第一类是任务型对话：主要解决如订机票、定酒店等问题，涉及的技术包括语义理解、意图识别、状态追踪、对话决策；

第二类是知识型对话：在寿险客服的场景里用户可能会问“你这个保险要交多少钱？”，这类问题，涉及的技术包括文本表示、语义匹配、知识图谱等；

第三类闲聊对话：用户可能只想找人聊聊天，对话不涉及到知识或业务，比如说“今天天气真好”，涉及到的技术包括文本生成模型、文本检索、排序技术等。

以解决闲聊型任务为例，大家较为熟悉的使用seq2seq生成闲聊机器人。但普通seq2seq可能出现负面情感的回复、疑问句式的回复、回复的多样性较低等问题，导致用户体验差，对话上下文不够连贯。因此负面情感回复、疑问句式回复、回复多样性低、一致性低，都是聊天机器人需要攻克的难点。

故如何提高模型预测输出语句的连贯性和积极性，提升用户体验，对外实现智能对话服务是目前亟待解决的问题，

发明内容

本发明的技术任务是提供一种基于深度学习模型构建智能聊天平台的方法及系统，来解决如何提高模型预测输出语句的连贯性和积极性，提升用户体验，对外实现智能对话服务的问题。

本发明的技术任务是按以下方式实现的，一种基于深度学习模型构建智能聊天平台的方法，该方法具体如下：

数据预处理：对从开源获取到的聊天语料数据进行数据预处理并训练词袋模型；

构建并训练模型：构建深度学习模型seq2seq并对深度学习模型seq2seq进行训练，对训练后的深度学习模型seq2seq进行对话测试；

对模型进行部署应用：根据训练后的深度学习模型seq2seq进行部署应用。

作为优选，对从开源获取到的聊天语料数据进行数据预处理具体如下：

结合语料实际情况和对话逻辑，对上下文语料中包含的特殊字符进行剔除；特殊字符包括表情、颜文字等字符；

对语料中上下文少于3个汉字的聊天语料进行删除；

分别训练语料中的上文模型和下文模型，筛选处聊天语料中词频大于5的token，保存上下文的词袋模型，以供深度学习模型使用。

作为优选，所述深度学习模型seq2seq包括Encoder架构和Decoder架构。

更优地，所述Encoder架构为2层双向的Bilstm结构，每一层拥有128个神经元，把Enoder输出的最后两层拼接起来构成一个(batch_size,seq_le n,128*2)的矩阵，作为Encoder最后的输出。

更优地，所述Decoder架构为1层的Bilstm结构，每一层拥有128*2个神经元,对第一个时间步使用Ecoder的输入，通过attention层进行矩阵转换，每一个时间步增加随机函数，随机使用teach-forcing层，对模型进行正确的指导，在每一个时间步最后添加soft_max函数，作为深度学习模型seq2seq本时间步的预测结果并进行保存，每个时间步采取同样的方法进行，直到深度学习模型seq2seq预测到终止符或到序列指定长度。

更优地，对深度学习模型seq2seq进行训练具体如下：

针对训练好的深度学习模型seq2seq构建词向量转化器：作为深度学习模型seq2seq的输入和输出的转化器，在深度学习模型seq2seq输入时把汉字转化为深度学习模型seq2seq可识别的数字；在深度学习模型seq2seq预测后，对深度学习模型seq2seq输出的数字进行转化，把深度学习模型seq2seq输出的数字转化为可读的汉字语句；

辅加attention(注意力)层：使用dot-attention，初始化一个(128*2，seq_len,num_layer)的矩阵，与encoder的输出进行点乘，作为decoder每一个时间步的输入，提高模型对对话上下文的理解，增加模型的重点注意力；

辅加teach-forcing层：使用下文中每一个时间步正确的文字转化后的向量替代上一个时间步预测的向量，起到加速优化模型参数，快速训练模型的目的；

改进BeamSearch：由于每一步并非按照最大的概率去选一个，采取折中的方法，每次搜索只保留最优的K条路径，搜索结果优于贪心搜索；其中，时间复杂度能够根据k的设置进行控制，同时通过增加惩罚项，对短句子进行降权。

作为优选，对模型进行部署应用具体如下：

使用django和vue搭建前后端分离的项目框架对深度学习模型seq2seq进行部署应用；

使用django框架搭建后端平台，接收前端传输的聊天内容，调用深度学习模型seq2seq进行预测，对预测的结果进行返回；

使用vue搭建前端框架，用于用户交互及与后端交互。

更优地，训练后的模型进行部署应用后，对深度学习模型seq2seq进行增量训练，通过后期丰富的聊天语料及用户聊天涉及到的各类情况，更新深度学习模型seq2seq。

一种基于深度学习模型构建智能聊天平台的系统，该系统包括，

预处理单元，用于对从开源获取到的聊天语料数据进行数据预处理并训练词袋模型；预处理单元包括，

剔除模块，用于结合语料实际情况和对话逻辑，对上下文语料中包含的特殊字符进行剔除；特殊字符包括表情、颜文字等字符；

删除模块，用于对语料中上下文少于3个汉字的聊天语料进行删除；

筛选及保存模块，用于分别训练语料中的上文模型和下文模型，筛选处聊天语料中词频大于5的token，保存上下文的词袋模型，以供深度学习模型使用；

构建及训练单元，用于构建深度学习模型seq2seq并对深度学习模型seq2seq进行训练，对训练后的深度学习模型seq2seq进行对话测试；构建及训练单元包括，

构建模块一，用于针对训练好的深度学习模型seq2seq构建词向量转化器；其中，词向量转化器作为深度学习模型seq2seq的输入和输出的转化器，在深度学习模型seq2seq输入时把汉字转化为深度学习模型seq2seq可识别的数字；在深度学习模型seq2seq预测后，对深度学习模型seq2seq输出的数字进行转化，把深度学习模型seq2seq输出的数字转化为可读的汉字语句；

构建模块二，用于构建Encoder架构，Encoder架构为2层双向的Bilstm结构，每一层拥有128个神经元，把Enoder输出的最后两层拼接起来构成一个(batch_size,seq_len,128*2)的矩阵，作为Encoder最后的输出；

构建模块三，用于构建Decoder架构，Decoder架构为1层的Bilstm结构，每一层拥有128*2个神经元,对第一个时间步使用Ecoder的输入，通过attention层进行矩阵转换，每一个时间步增加随机函数，随机使用teach-forcing层，对模型进行正确的指导，在每一个时间步最后添加soft_max函数，作为深度学习模型seq2seq本时间步的预测结果并进行保存，每个时间步采取同样的方法进行，直到深度学习模型seq2seq预测到终止符或到序列指定长度；

辅加模块一，用于辅加attention(注意力)层，具体为：使用dot-attention，初始化一个(128*2，seq_len,num_layer)的矩阵，与encoder的输出进行点乘，作为decoder每一个时间步的输入，提高模型对对话上下文的理解，增加模型的重点注意力；

辅加模块二，用于辅加teach-forcing层，具体为：使用下文中每一个时间步正确的文字转化后的向量替代上一个时间步预测的向量，起到加速优化模型参数，快速训练模型的目的；

改进模块，用于改进BeamSearch，具体为：由于每一步并非按照最大的概率去选一个，采取折中的方法，每次搜索只保留最优的K条路径，搜索结果优于贪心搜索；其中，时间复杂度能够根据k的设置进行控制，同时通过增加惩罚项，对短句子进行降权；

部署单元，用于根据训练后的深度学习模型seq2seq进行部署应用；部署单元包括，

搭建模块一，用于使用django和vue搭建前后端分离的项目框架对深度学习模型seq2seq进行部署应用；

预测模块，用于使用django框架搭建后端平台，接收前端传输的聊天内容，调用深度学习模型seq2seq进行预测，对预测的结果进行返回；

搭建模块二，用于使用vue搭建前端框架，用于用户交互及与后端交互。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行时，实现如上述的基于深度学习模型构建智能聊天平台的方法。

本发明的基于深度学习模型构建智能聊天平台的方法及系统具有以下优点：

(一)本发明通过使用多种优化层、attention，teaching-forcing层及beam-search层，无需规则，实现智能短回应模型，提高了回复相关性；同时使用django框架进行封装应用，可以达到快速部署使用的目的；

(二)本发明通过添加不同的优化层对模型机构进行优化，提高模型预测输出语句的连贯性和积极性，提升用户体验，同时对模型进行网络化部署应用，对外提供智能对话服务；

(三)本发明在训练阶段辅加词向量转换、attention(注意力)层、teach-forcing层提高训练速度，最大化优化模型参数，在预测阶段相比较训练阶段增加beam-search(约束搜索)层，提高预测结果的准确率；

(四)本发明使用数据处理、数据分析、机器学习及深度学习技术对对话语料机型分析预处理，构建并训练词袋模型，构建并训练seq2seq模型部署应用对用户输入的上文预测生成对话下文，同时利用深度学习模型对用户的输入上文进行预测并生成下文，对用户输入的上文能快速的返回用户闲聊的下文对话。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于深度学习模型构建智能聊天平台的方法的流程框图；

附图2为基于深度学习模型构建智能聊天平台的系统的结构框图。

具体实施方式

参照说明书附图和具体实施例对本发明的基于深度学习模型构建智能聊天平台的方法及系统作以下详细地说明。

实施例1：

如附图1所示，本发明的基于深度学习模型构建智能聊天平台的方法，该方法具体如下：

S1、数据预处理：对从开源获取到的聊天语料数据进行数据预处理并训练词袋模型；

S2、构建并训练模型：构建深度学习模型seq2seq并对深度学习模型seq2seq进行训练，对训练后的深度学习模型seq2seq进行对话测试；

S3、对模型进行部署应用：根据训练后的深度学习模型seq2seq进行部署应用。

本实施例中步骤S1中数据预处理具体如下：

S101、结合语料实际情况和对话逻辑，对上下文语料中包含的特殊字符进行剔除；特殊字符包括表情、颜文字等字符；

S102、对语料中上下文少于3个汉字的聊天语料进行删除；

S103、分别训练语料中的上文模型和下文模型，筛选处聊天语料中词频大于5的token，保存上下文的词袋模型，以供深度学习模型使用。

本实施例中步骤S2构建并训练模型具体如下：

S201、针对训练好的深度学习模型seq2seq构建词向量转化器：作为深度学习模型seq2seq的输入和输出的转化器，在深度学习模型seq2seq输入时把汉字转化为深度学习模型seq2seq可识别的数字；在深度学习模型seq2seq预测后，对深度学习模型seq2seq输出的数字进行转化，把深度学习模型seq2seq输出的数字转化为可读的汉字语句；

S202、Encoder架构为2层双向的Bilstm结构，每一层拥有128个神经元，把Enoder输出的最后两层拼接起来构成一个(batch_size,seq_len,128*2)的矩阵，作为Encoder最后的输出。

S203、Decoder架构为1层的Bilstm结构，每一层拥有128*2个神经元,对第一个时间步使用Ecoder的输入，通过attention层进行矩阵转换，每一个时间步增加随机函数，随机使用teach-forcing层，对模型进行正确的指导，在每一个时间步最后添加soft_max函数，作为深度学习模型seq2seq本时间步的预测结果并进行保存，每个时间步采取同样的方法进行，直到深度学习模型seq2seq预测到终止符或到序列指定长度。

S204、辅加attention(注意力)层：使用dot-attention，初始化一个(128*2，seq_len,num_layer)的矩阵，与encoder的输出进行点乘，作为decoder每一个时间步的输入，提高模型对对话上下文的理解，增加模型的重点注意力；

S205、辅加teach-forcing层：使用下文中每一个时间步正确的文字转化后的向量替代上一个时间步预测的向量，起到加速优化模型参数，快速训练模型的目的；

S206、改进BeamSearch：由于每一步并非按照最大的概率去选一个，采取折中的方法，每次搜索只保留最优的K条路径，搜索结果优于贪心搜索；其中，时间复杂度能够根据k的设置进行控制，同时通过增加惩罚项，对短句子进行降权。

本实施例中步骤S3中对模型进行部署应用具体如下：

S301、使用django和vue搭建前后端分离的项目框架对深度学习模型seq2seq进行部署应用；

S302、使用django框架搭建后端平台，接收前端传输的聊天内容，调用深度学习模型seq2seq进行预测，对预测的结果进行返回；

S303、使用vue搭建前端框架，用于用户交互及与后端交互。

本实施例中步骤S3中训练后的模型进行部署应用后，对深度学习模型seq2seq进行增量训练，通过后期丰富的聊天语料及用户聊天涉及到的各类情况，更新深度学习模型seq2seq。

实施例2：

如附图2所示，基于深度学习模型构建智能聊天平台的系统，该系统包括，

预处理单元，用于对从开源获取到的聊天语料数据进行数据预处理并训练词袋模型；

构建及训练单元，用于构建深度学习模型seq2seq并对深度学习模型seq2seq进行训练，对训练后的深度学习模型seq2seq进行对话测试；

部署单元，用于根据训练后的深度学习模型seq2seq进行部署应用。

本实施例中的预处理单元包括，

筛选及保存模块，用于分别训练语料中的上文模型和下文模型，筛选处聊天语料中词频大于5的token，保存上下文的词袋模型，以供深度学习模型使用。

本实施例中的构建及训练单元包括，

改进模块，用于改进BeamSearch，具体为：由于每一步并非按照最大的概率去选一个，采取折中的方法，每次搜索只保留最优的K条路径，搜索结果优于贪心搜索；其中，时间复杂度能够根据k的设置进行控制，同时通过增加惩罚项，对短句子进行降权。

本实施例中部署单元包括，

实施例3：

本发明实施例还提供了一种计算机可读存储介质，其中存储有多条指令，指令由处理器加载，使处理器执行本发明任一实施例中的基于深度学习模型构建智能聊天平台的方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R基于深度学习模型构建智能聊天平台的方法及系统M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于深度学习模型构建智能聊天平台的方法，其特征在于，该方法具体如下：

2.根据权利要求1所述的基于深度学习模型构建智能聊天平台的方法，其特征在于，对从开源获取到的聊天语料数据进行数据预处理具体如下：

结合语料实际情况和对话逻辑，对上下文语料中包含的特殊字符进行剔除；

对语料中上下文少于3个汉字的聊天语料进行删除；

3.根据权利要求1所述的基于深度学习模型构建智能聊天平台的方法，其特征在于，所述深度学习模型seq2seq包括Encoder架构和Decoder架构。

4.根据权利要求3所述的基于深度学习模型构建智能聊天平台的方法，其特征在于，所述Encoder架构为2层双向的Bilstm结构，每一层拥有128个神经元，把Enoder输出的最后两层拼接起来构成一个(batch_size,seq_len,128*2)的矩阵，作为Encoder最后的输出。

5.根据权利要求3所述的基于深度学习模型构建智能聊天平台的方法，其特征在于，所述Decoder架构为1层的Bilstm结构，每一层拥有128*2个神经元,对第一个时间步使用Ecoder的输入，通过attention层进行矩阵转换，每一个时间步增加随机函数，随机使用teach-forcing层，对模型进行正确的指导，在每一个时间步最后添加soft_max函数，作为深度学习模型seq2seq本时间步的预测结果并进行保存，每个时间步采取同样的方法进行，直到深度学习模型seq2seq预测到终止符或到序列指定长度。

6.根据权利要求3-5中任一所述的基于深度学习模型构建智能聊天平台的方法，其特征在于，对深度学习模型seq2seq进行训练具体如下：

辅加attention层：使用dot-attention，初始化一个(128*2，seq_len,num_layer)的矩阵，与encoder的输出进行点乘，作为decoder每一个时间步的输入；

辅加teach-forcing层：使用下文中每一个时间步正确的文字转化后的向量替代上一个时间步预测的向量；

改进BeamSearch：采取折中的方法，每次搜索只保留最优的K条路径，搜索结果优于贪心搜索；其中，时间复杂度能够根据k的设置进行控制，同时通过增加惩罚项，对短句子进行降权。

7.根据权利要求1所述的基于深度学习模型构建智能聊天平台的方法，其特征在于，对模型进行部署应用具体如下：

使用vue搭建前端框架，用于用户交互及与后端交互。

8.根据权利要求1或7所述的基于深度学习模型构建智能聊天平台的方法，其特征在于，训练后的模型进行部署应用后，对深度学习模型seq2seq进行增量训练，通过后期丰富的聊天语料及用户聊天涉及到的各类情况，更新深度学习模型seq2seq。

9.一种基于深度学习模型构建智能聊天平台的系统，其特征在于，该系统包括，

剔除模块，用于结合语料实际情况和对话逻辑，对上下文语料中包含的特殊字符进行剔除；

辅加模块一，用于辅加attention层，具体为：使用dot-attention，初始化一个(128*2，seq_len,num_layer)的矩阵，与encoder的输出进行点乘，作为decoder每一个时间步的输入；

辅加模块二，用于辅加teach-forcing层，具体为：使用下文中每一个时间步正确的文字转化后的向量替代上一个时间步预测的向量；

改进模块，用于改进BeamSearch，具体为：采取折中的方法，每次搜索只保留最优的K条路径，搜索结果优于贪心搜索；其中，时间复杂度能够根据k的设置进行控制，同时通过增加惩罚项，对短句子进行降权；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行时，实现如权利要求1至8中所述的基于深度学习模型构建智能聊天平台的方法。