CN110175229B

CN110175229B - 一种基于自然语言进行在线培训的方法和系统

Info

Publication number: CN110175229B
Application number: CN201910447847.7A
Authority: CN
Inventors: 吴凯; 袁波; 陈晓炜
Original assignee: Yantu Technology Co ltd
Current assignee: Yantu Technology Co ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2021-07-06
Anticipated expiration: 2039-05-27
Also published as: CN110175229A

Abstract

本发明属于自然语言处理技术领域，提供一种基于自然语言进行在线培训的方法和系统，包括即时采集用户聊天过程的文本信息，获取文本信息的词向量、句向量；基于词向量、句向量，获取用户的培训意图；引导用户进入培训模式，获取培训问题对应的用户答案；基于所述培训问题的标准答案对所述用户答案进行匹配，计算用户答案的评分。通过基于自然语言的在线培训，发掘用户的培训需求，进行有针对性的培训、评估，代替现有的人工培训或机器培训方式，一方面降低了培训的成本，一方面提高了培训的效率，增强了培训的效果。

Description

一种基于自然语言进行在线培训的方法和系统

技术领域

本发明属于自然语言处理技术领域，尤指一种基于自然语言进行在线培训的方法和系统。

背景技术

在企业管理中，为了提升员工的工作熟练度，企业需要及时地对每一位员工的职业技能进行评估和培训。现在看来，传统的人工培训方式存在培训成本高、培训方案单一、培训进度难以个性化、培训成果难以评估等一些列问题。

随着人工智能技术的发展，使用对话机器人(又称聊天系统，或者问答系统)代替传统的人工开展培训在一定程度上降低了培训成本。目前，这些基于人工智能的对话机器人通过深度学习，可以一定程度上理解来自用户的自然语言，可以进行简单的寒暄、闲聊、以及其他的问答互动。但是这些互动系统大多基于一种被动回复的机制进行设计，需要基于用户提出一些具体问题才能触发相应的培训系统。这使得用户在使用时必须先明确提出可响应的问题，才能够进入特定的培训系统。这种互动系统无法对用户的潜在培训需求进行发掘。

为了让互动系统对用户潜在意图进行主动判断，现有技术(CN107133349A-一种对话机器人系统)提供一种基于人机的日常对话、知识问答和任务对话的能力的基础上，根据特定场景主动触发一些列特定话术，与用户进行沟通，收集并校验用户的答案，执行相应的业务命令的方法。该系统通过多媒体处理模块支持用户与对话机器人之间进行文本、语音、图片或者其他多媒体的方式交互；根据用户的问题和上下文信息，按照一定的逻辑决定本次交互的具体调用多个子系统中的哪一个；在其中某些子系统中，通过答案检校模块判断收到的用户答案的合法性，其判断的维度包括：回答的文件格式是否为文本、图片、声音等；回答的内容是否包含特定的文本，是否为特定的枚举值等；通过答案检校，如果用户的回答合法，则调动命令执行模块执行通过检校的用户回答的指令。这样的机器人系统可用于办理签证，或者办理身份证，或者办理护照，或者预定或购买机票，或者预定或购买火车票，或者预定或购买汽车票，或者预定汽车，或者预定酒店，或者人员考核，或者人员培训，或者留学咨询，或者移民咨询，或者法律咨询。

在上述机器人系统中，用于对用户的意图进行分析的模块为场景决策模块，通过场景决策模块中的自动分类子模块基于日常对话、知识问答、任务对话、主动对话的日志信息，训练生成一个问题自动分类器，使用此分类器来判断针对某一问题，具体应该调用哪一个或几个子系统。自动分类子模块通过分类器实质上完成了用户提出的问题的种类识别，其中自动分类器的生成基于大量的日志信息，如何基于这些信息生成自动分类器，是现有技术未明确的一个问题。进一步地，在该技术中，触发场景决策依赖于用户主动提出问题，这一点与传统的对话机器人系统并无本质区别。用户对自己的知识盲点的认识有时是滞后的，这时需要系统通过对闲聊中透露的信息进行识别，分析用户可能存在的潜在培训需求，这样的培训系统将更高效地提升培训效率。

在完成与用户的问答后，现有技术采用主动对话子系统中的答案检校模块来检校用户回答的合法性，具体地，通过检校用户的回答文件是否满足某种格式设定、是否包括特定的文本内容、是否符合特定的枚举值，这里对用户答案的处理结果为两种，一种为通过检校，则对该回答文件进行响应，一种为未通过检校，则重新进入问题生成模块。用户的回答在这里只进行了是非的判断，对于用户的回答中包含的对该问题的掌握程度这些信息并没有进行分析，而在培训系统中，这些信息可以反映用户的培训进度。

基于上述分析，可以看出现有技术中的对话机器人应用到培训场景时存在一定的不足，其无法主动识别用户的培训意图导致用户培训的效率降低，对用户的培训结果无法进行合理地评估导致用户培训的进度无法跟踪，这些都会一定程度上降低通过机器对话系统进行培训的效果。

发明内容

本申请提出一种基于自然语音进行在线培训的方法和系统，通过与用户进行基于自然语言的聊天对话，发掘用户的培训需求，并明确其培训意图，引导其完成培训，并提出考核问题，通过评估用户给出的答案掌握用户的培训效果。本发明提供的技术方案如下：

本发明实施例提供了一种基于自然语言进行在线培训的方法，所述方法包括：

即时采集用户聊天过程的文本信息，对所述文本信息进行预处理，获取基于所述文本信息的词向量、句向量；

基于所述词向量、句向量，获取所述用户的培训意图；

引导所述用户进入培训模式，在所述培训模式下向所述用户发送所述培训意图中的主题培训内容，并向所述用户发送培训问题，获取所述培训问题的用户答案；

基于所述培训问题的标准答案对所述用户答案进行匹配，计算所述用户答案的评分。

本发明中采集用户的聊天过程的文本信息进行预处理，对用户培训意图的识别不仅限于针对用户提出的问题进行识别，基于文本信息的词向量、句向量中包含用户文本中所携带的主题、用户身份、意图、情感、句型等各类信息，系统对用户培训意图的识别是对词向量、句向量中携带的信息进行的综合分析的结果。当用户在系统引导下完成培训后，对用户的答案和标准答案进行匹配的过程中，也是基于两者的词向量、句向量中携带的信息的综合匹配，从而给出的评分。评分的高低代表用户对该问题的掌握程度，反映着用户在该项培训中的进度情况。

进一步地，本发明实施例还提供了一种基于自然语言进行在线培训的方法中，所述基于所述词向量、句向量，获取所述用户的培训意图包括：

基于所述词向量、句向量构建图卷积神经网络；

使用ReLU激活函数增加所述图卷积神经网络的非线性，获取第一次计算图卷积结果；

对所述第一次计算图卷积结果进行Dropout处理以防止网络模型过拟合，随后进行第二次卷积处理，并获取第二次计算图卷积结果；

使用Softmax函数将所述第二次计算图卷积结果进行归一化处理，获取所述用户的培训意图；

所述基于所述词向量、句向量，获取所述用户的培训意图的计算过程为

其中

为节点i在第l层的特征表达，

为节点i在第l+1层的特征表达；c_i，j为归一化因子，如取节点度的倒数；N_i为节点i的邻居，包括自身；j为节点i的邻居节点；R_j为节点j的类型；

为类型为R的节点j的变换权重参数，

为类型为R的节点j在第l层的变换权重参数。

本发明的一种基于自然语言进行在线培训的方法中，提供了一种基于词向量、句向量获取用户培训意图的方法。基于用户聊天文本信息中的词向量、句向量构建图卷积神经网络，通过对神经网络进行激活、Dropout处理、归一化处理，将归一化结果作为判断用户是否存在培训意图的依据。

进一步地，在一种基于自然语言进行在线培训的方法中，所述基于所述培训问题的标准答案对所述用户答案进行匹配包括：

基于所述用户答案和标准答案的词向量和句向量进行多维度的相似度计算，获取各维度的相似度矩阵；

通过GCN+Attention机制进行监督式训练，获取各维度的权重值；

基于所述权重值对所述各维度的相似度矩阵进行加权求和获取最终相似度矩阵；

在所述最终相似度矩阵中，对所述最终相似度矩阵的每一行获取最大值的索引，判断最大值是否满足小于相似度矩阵阈值，若是，则所述用户答案的子句与所述标准答案的子句存在配对，对该行进行聚类；

对每一行的聚类进行交集合并，得到最终匹配结果。

本发明的一种基于自然语言进行在线培训的方法中，提供了一种将培训问题的标准答案和用户答案进行匹配，获取标准答案和用户答案之间相匹配的句子的方法。具体过程为基于标准答案和用户答案的词向量、句向量构建多个维度的相似度矩阵，多个维度指的是基于多个不同算法进行计算，获取这些相似度矩阵之后，对它们进行加权求和。在加权求和过程中，每个相似度矩阵的权重值是通过监督式训练获得的，监督式训练基于GCN+Attention机制进行。完成加权求和后的得到的为最终相似度矩阵，在最终相似度矩阵中包含着所有进行配对的句子的匹配度值，索引出所有符合预设阈值的匹配度值，即索引出了所有相匹配的句子。

进一步优选地，一种基于自然语言进行在线培训的方法中，所述基于所述用户答案和标准答案的词向量、句向量构建多个维度的相似度矩阵包括：

基于wmd文本相似度算法获取wmd相似度矩阵；

基于simhash算法计算获取simhash相似度矩阵；

基于叠词算法获取相似度构建叠词矩阵。

进一步优选地，一种基于自然语言进行在线培训的方法中，所述计算所述用户答案的评分包括：

基于wmd文本相似度算法计算所述相匹配的句子的相似性，获取所述用户答案的准确率；

对比所述用户答案和所述标准答案的语序关系，获取所述用户答案的连贯度；

对所述标准答案的句子进行完整度权重值分配，基于所述完整度权重分和所述相匹配的句子，获取所述用户答案的完整度；

基于N-gram语言模型计算所述相匹配的句子的通顺度，获取所述用户答案的通顺度。

本发明的一种基于自然语言进行在线培训的方法中，还提供了一种对用户答案进行评分的方法。通过4个维度的得分对用户答案进行综合评估，4个维度分别为准确率、连贯度、完整度和通顺度。

本发明还提供一种基于自然语言进行在线培训的系统，包括：

预处理模块，即时采集用户聊天过程的文本信息，对所述文本信息进行预处理，获取基于所述文本信息的词向量、句向量；

意图分析模块，基于所述词向量、句向量，获取所述用户的培训意图；

培训模块，引导所述用户进入培训模式，在所述培训模式下向所述用户发送所述培训意图中的主题培训内容，并向所述用户发送培训问题，获取所述培训问题的用户答案；

评分模块，基于所述培训问题的标准答案对所述用户答案进行匹配，计算所述用户答案的评分。

进一步地，一种基于自然语言进行在线培训的系统中，所述意图分析模块包括：

神经网络构建子模块，基于所述词向量、句向量构建图卷积神经网络；

ReLU函数激活子模块，使用ReLU激活函数增加所述图卷积神经网络的非线性，获取第一次计算图卷积结果；

Dropout计算子模块，对所述第一次计算图卷积结果进行Dropout处理以防止网络模型过拟合，随后进行第二次卷积处理，获取第二次计算图卷积结果；

Softmax函数处理子模块，使用Softmax函数将所述第二次计算图卷积结果进行归一化，获取所述用户的培训意图；

其中

为节点i在第l层的特征表达，

为类型为R的节点j的变换权重参数，

为类型为R的节点j在第l层的变换权重参数。

进一步地，一种基于自然语言进行在线培训的系统中，所述评分模块包括：

矩阵构建子模块，基于所述用户答案和标准答案的词向量和句向量进行多维度的相似度计算，获取各维度的相似度矩阵，通过GCN+Attention机制进行监督式训练，获取各维度的权重值，基于所述权重值对所述各维度的相似度矩阵进行加权求和获取最终相似度矩阵；

句子匹配子模块，在所述最终相似度矩阵中，对所述最终相似度矩阵的每一行获取最大值的索引，判断最大值是否满足小于相似度矩阵阈值，若是，则所述用户答案的子句与所述标准答案的子句存在配对，对该行进行聚类，对每一行的聚类进行交集合并，得到最终匹配结果。

进一步地，一种基于自然语言进行在线培训的系统中，所述矩阵构建子模块包括：

wmd相似度矩阵单元，基于wmd文本相似度算法获取wmd相似度矩阵；

simhash相似度矩阵单元，基于simhash算法计算获取simhash相似度矩阵；

叠词矩阵单元，基于叠词算法获取相似度构建叠词矩阵。

进一步地，一种基于自然语言进行在线培训的系统中，所述评分模块还包括：

准确率评分子模块，基于wmd文本相似度算法计算所述相匹配的句子的相似性，获取所述用户答案的准确率；

连贯度评分子模块，对比所述用户答案和所述标准答案的语序关系，获取所述用户答案的连贯度；

完整度评分子模块，对所述标准答案的句子进行完整度权重值分配，基于所述完整度权重分和所述相匹配的句子，获取所述用户答案的完整度；

通顺度评分子模块，基于N-gram语言模型计算所述相匹配的句子的通顺度，获取所述用户答案的通顺度。

通过本发明提供的一种基于自然语言进行在线培训的方法和系统，能够带来以下至少一种有益效果：

1、通过基于自然语言的在线培训，发掘用户的培训需求，进行有针对性的培训、评估，代替现有的人工培训或机器培训方式，一方面降低了培训的成本，一方面提高了培训的效率，增强了培训的效果。

2、通过对用户的自然语言进行预处理获得词向量、句向量，并基于词向量、句向量构建图卷积神经网络，使用神经网络分析用户的培训意图，代替现有的被动接受用户指令开启培训模式的方法，更及时地向用户提供培训。

3、通过构建多维度相似度矩阵来进行用户答案和标准答案的句子匹配，对用户的答案进行综合分析评估和多维度评分，代替现有的检校答案方法，更全面、更细致地分析用户答案和标准答案的匹配度,更准确地掌握用户的培训效果。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种基于自然语言进行在线培训的方法和系统的上述技术特征、优点及其实现方式予以进一步的说明。

图1是本发明一种基于自然语言进行在线培训的方法的一个实施例的流程图；

图2是本发明一种基于自然语言进行在线培训的方法的另一个实施例的流程图；

图3是本发明一些实施例中，一种图卷积表示的示例的示意图；

图4是本发明一些实施例中，一种图卷积处理过程的示意图；

图5是本发明一种基于自然语言进行在线培训的方法的又一个实施例的流程图；

图6是本发明一种基于自然语言进行在线培训的方法的另一个实施例的流程图；

图7是发明一些实施例中，一种相似度卷积中获取权重值的示例的示意图；

图8是本发明一种基于自然语言进行在线培训的方法的又一个实施例的流程图；

图9是本发明一种基于自然语言进行在线培训的系统的一个实施例的结构示意图。

附图标号说明：

100 预处理模块 200 意图分析模块

210 神经网络构建子模块 220 ReLU函数激活子模块

230 Dropout计算子模块 240 Softmax函数处理子模块

300 培训模块 400 评分模块

410 矩阵构建子模块 411 wmd相似度矩阵单元

412 s imhash相似度矩阵单元 413 叠词矩阵单元

420 句子匹配子模块 431 准确率评分子模块

432 连贯度评分子模块 433 完整度评分子模块

434 通顺度评分子模块

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

本发明第一实施例。附图1记载了本发明一些实施例中一种基于自然语言进行在线培训的方法的流程图，所述方法包括：

S100即时采集用户聊天过程的文本信息，对所述文本信息进行预处理，获取基于所述文本信息的词向量、句向量；

S200基于所述词向量、句向量，获取所述用户的培训意图；

S300引导所述用户进入培训模式，在所述培训模式下向所述用户发送所述培训意图中的主题培训内容，并向所述用户发送培训问题，获取所述培训问题的用户答案；

S400基于所述培训问题的标准答案对所述用户答案进行匹配，计算所述用户答案的评分。

具体地，在S100中，对文本信息进行的预处理过程包括切句、去除无意义符号、数字短语统一、命名实体识别、分词及纠正、去除停用词、同义词替换等过程。

切句为根据标点符号(逗号、句号、问号、分号)对标准答案和用户答案进行切句处理。

例如：

输入：请问，我需要进一步强化练习吗？

输出：请问，

我需要进一步强化练习吗？

去除无意义符号为去除文本中没有意义的标点符号，比如“&￥#”。数字短语统一是将同类型数字短语转换成统一格式，如身高统一为cm，货币统一为元。

命名实体识别是对人名、地名、机构名、时间等专有名词进行识别。

分词及纠正指基于词向量进行分词，并引入命名实体识别结果进行分词纠正。

例如：

分词输出：华南白云山药业在广州

命名实体识别输出：华南白云山药业-NER 在广州

分词纠正输出：华南白云山药业在广州

去除停用词是去除不会对句子的语义造成影响，同时会提升检索精度的字、词，如：非常、极其等。

同义词替换是将包含同种意思的词语统一为同一个词，替换之后不改变语义。

通过对上述文本信息进行预处理后，得到文本信息的词向量、句向量，从而获取用户聊天自然语言文本中所携带的主题、用户身份、意图、情感、句型等各类信息。

在S200中，通过对S100中预处理后的文本信息的词向量、句向量中所携带的主题、用户身份、意图、情感、句型等各类信息进行综合分析，可以得知用户的文本信息中包含的意图信息，包括是否含有培训意图的信息。

如果确定用户存在培训意图，那么进入步骤S300。在S300中，根据用户语言中的培训主题信息，发送相关岗位的题目作为聊天内容。优选地，本发明还提示关键字引导用户的答题思路，对于标准答案中权重较高的句子，会提取关键词。用户可选择是否提示关键词，培训系统会根据用户回答，分析用户掌握情况，并继续给出合适难度的题目。

用户在S300中完成答题后，进入S400，基于用户在S300中的答案和标准答案进行匹配分析，对用户的答案进行综合评分，以评估用户答案所体现的用户对培训内容的掌握程度，对用户的培训效果进行综合评估。

本发明中采集用户的聊天过程的文本信息进行预处理，对用户培训意图的识别不仅限于针对用户提出的问题进行识别，基于用户自然语言中的文本信息，对该自然语言进行预处理得到词向量、句向量，该词向量句向量中包含用户文本中所携带的主题、用户身份、意图、情感、句型等各类信息，系统对用户培训意图的识别是对词向量、句向量中携带的信息进行的综合分析的结果。

当用户在系统引导下完成培训后，对用户的答案和标准答案进行匹配的过程中，也是基于两者的词向量、句向量中携带的信息的综合匹配，从而给出的评分。评分的高低代表用户对该问题的掌握程度，反映着用户在该项培训中的进度情况。

本发明第二实施例。基于第一实施例，附图2示意出了本发明实施例中基于自然语言进行在线培训方法中对自然语言进行预处理后，获取用户培训意图的流程图，所述步骤S200基于所述词向量、句向量，获取所述用户的培训意图包括：

S210基于所述词向量、句向量构建图卷积神经网络；

S220使用ReLU激活函数增加所述图卷积神经网络的非线性，获取第一次计算图卷积结果；

S230对所述第一次计算图卷积结果进行Dropout处理以防止过拟合，随后进行第二次卷积处理，获取第二次计算图卷积结果；

S240使用Softmax函数将所述第二次计算图卷积结果进行归一化处理，获取所述用户的培训意图；

其中

为节点i在第l层的特征表达，

为节点i在第l+1层的特征表达；c_i,j为归一化因子，如取节点度的倒数；N_i为节点i的邻居，包括自身；j为节点i的邻居节点；R_j为节点j的类型；

为类型为R的节点j的变换权重参数，

为类型为R的节点j在第l层的变换权重参数。

具体地，基于第一实施例，本发明在S100完成用户文本预处理之后，基于文本的词向量、句向量构建图卷积神经网络。附图3记载了一种图卷积表示的示例的示意图，例如用户的文本信息为：“有没有营销方面的书籍推荐”，那么针对该文本进行图卷积表达，其中的边称为关系，节点称为实体。

在图卷积过程中，词和句子分别用词向量和句向量表示，图卷积分为三个步骤(在本实施例中，中心节点是用户输入进行意图分析的句子，邻居节点是六个联系，也就是六个维度的联系)：

1、发射：每一个邻居节点将自身的特征信息经过变换后发送给中心节点。这一步是在对自身节点特征信息进行抽取变换，如图所示邻居节点向中心节点发送信息。通过对自身信息进行变换，将词向量*边的权重*该节点度的倒数，目的是向中心节点提供自身信息，不断更新权重，让权重达到整体最优的效果。

2、接收：中心节点将邻居节点的特征信息聚集起来。这一步是对邻居节点的局部结构信息进行融合。

3、变换:把邻居节点的信息聚集之后做非线性变换，增加模型的表达能力。本发明采用ReLU作为激活函数。

本发明采用基于监督学习的GCN图卷积网络，在S210中构建图卷积神经网络，将用户对话作为中心节点、意图的属性作为邻居节点、关系作为边进行输入，通过S220进行ReLU激活处理，通过S230进行Dropout处理，通过Softmax进行归一化处理。经过两层图卷积，一层softmax进行分类得到意图分析结果，附图4记载了一种图卷积处理过程的示意图。

本发明第三实施例。基于第一实施例，附图5记载了又一种基于自然语言进行在线培训的方法的流程图，所述基于所述培训问题的标准答案对所述用户答案进行匹配包括：

S410基于所述用户答案和标准答案的词向量和句向量进行多维度的相似度计算，获取各维度的相似度矩阵；

S420通过GCN+Attention机制进行监督式训练，获取各维度的权重值；

S430基于所述权重值对所述各维度的相似度矩阵进行加权求和获取最终相似度矩阵；

S440在所述最终相似度矩阵中，对所述最终相似度矩阵的每一行获取最大值的索引，判断最大值是否满足小于相似度矩阵阈值，若是，则所述用户答案的子句与所述标准答案的子句存在配对，对该行进行聚类，对每一行的聚类进行交集合并，得到最终匹配结果。

具体地，在S410中，对用户答案和标准答案进行与S100中相同的预处理，分别获取两者的词向量、句向量。基于两者的词向量、句向量构建多个维度的相似度矩阵，这些多个维度的相似度矩阵分别有各自对应的权重值，这些权重值通过GCN+Attention机制进行监督式训练获得。根据各维度对应的权重值，对他们进行加权求和，得到最终的最终相似度矩阵。对最终相似度矩阵进行处理，对其中每一行获取最大值的索引，接着判断最大值是否满足小于相似度矩阵阈值或者小于叠词矩阵阈值；如果满足，则说明存在与该标准答案子句配对的用户答案子句，对该行进行聚类，获取与最大值同类的其他值；其他值接着进行判断，判断条件是必须满足相似度矩阵小于阈值或者小于叠词矩阵阈值；对每一行处理完后，最后进行交集合并，合并的结果就是最终配对的结果。获取所有相匹配的值之后，在S440中，基于最终相似度矩阵中的所有所述相匹配值，即可获得标准答案与所述用户答之间所有相匹配的句子。

本发明的一种基于自然语言进行在线培训的方法中，提供了一种将培训问题的标准答案和用户答案进行匹配，获取标准答案和用户答案之间相匹配的句子的方法，为用户答案和标准答案的更全面、细致的匹配评分提供了分析材料。

本发明第四实施例。基于第三实施例，附图6记载了另一种基于自然语言进行在线培训的方法的流程图，所述基于所述用户答案和标准答案的词向量、句向量构建多个维度的相似度矩阵包括：

S411基于wmd文本相似度算法计算所述标准答案和所述用户答案的第一相似度，基于所述第一相似度构建wmd相似度矩阵；

S412基于simhash算法计算所述标准答案和所述用户答案的第二相似度，基于所述第二相似度构建simhash相似度矩阵；

S413基于叠词算法获取所述标准答案和所述用户答案的第三相似度，基于所述第三相似度构建叠词矩阵。

具体地，本发明的一种基于自然语言进行在线培训的方法中，通过S411进行wmd文本相似度计算，后构建wmd相似度矩阵；通过S412将文档转换成一个64位的字节，称之为特征字，然后判断两个文档的特征字的距离是否<n(根据经验，n一般取为3)，判断两个文档是否相似，进而构建simhash相似度矩阵；在S413中根据两个字符串的余弦相似度进行计算，从而得到叠词矩阵。

进一步优选地，基于第三实施例的步骤S410，对三个维度进行相似度计算，得到标准答案与用户答案相似度计算后的三个结果，并作为三个邻接节点，采用监督式学习调整关系的权重，使最终结果能更好的表现在长对话以及短语理解中，很好的克服了单个相似度不能适用于所有对话的缺点。

相似度计算采用GCN+Attention机制，该机制可以动态地适应传播法则，捕捉对中心节点贡献最大的节点。

附图7记载了一种相似度卷积中获取权重值的示例的示意图，例如计算出用户答案与标准答案之间的simhash相似度为7.0、wmd相似度为5.5，叠词相似度为3.1。邻接节点将相似度分数传给中心节点，节点通过有监督学习训练，不断更新权值，最终得到使loss值最低的权重。

本发明通过提供一种构建多个维度的相似度矩阵的方法，更全面地对用户答案和标准答案的相似度进行了分析。

本发明第五实施例。基于第三实施例，附图8记载了又一种基于自然语言进行在线培训的方法的流程图，所述计算所述用户答案的评分包括：

S451基于wmd文本相似度算法计算所述相匹配的句子的相似性，获取所述用户答案的准确率；

S452对比所述用户答案和所述标准答案的语序关系，获取所述用户答案的连贯度；

S453对所述标准答案的句子进行完整度权重值分配，基于所述完整度权重分和所述相匹配的句子，获取所述用户答案的完整度；

S454基于N-gram语言模型计算所述相匹配的句子的通顺度，获取所述用户答案的通顺度。

在S451中，主要通过wmd算法计算句子的语义相似度和句子中数值比对的结果来计算得分，具体的流程如下：利用wmd算法计算相匹配的句子间的相似性，得到每一对句子的wmd值之后，利用wmd测试集训练出来的得分映射函数来计算每个句子相应的得分，例如计算出来的wmd值是3.55，通过映射函数F(3.55)＝89.6，函数计算出来的89.6就是单句的得分百分比，再将单句的分数乘上得分百分比就是最后的单句得分。

在S452中，基于用户答案和标准答案的语序排列关系，对用户答案的连贯度进行评分。

在S453中，主要是计算用户答案是否完整，跟标准答案相比用户答案是多余还是缺漏。每个标准答案的句子都分配了一个权重，根据配对的结果记录标准答案中没有匹配上的句子，然后将未匹配上的句子权重相加起来，与所有句子的权重之和相比。则为扣除的分数。如果用户答案中有多余的部分，也会影响完整性评分。

在S454中，用户的通顺度得分通过N-gram语言模型进行计算。计算每个单句的通顺度得分，然后将得到的每个单句的得分叠加起来，求均值。每个句子前中后n个词语之间是有一定的联系，将词语之间的联系转化为一定的概率，单句调用训练出来的模型来计算单句的逻辑性得分并乘上单句在所有句子的权重就得到单句最终的分数，最后将所有单句的得分相加求平均就是这一维度的得分。

本发明的一种基于自然语言进行在线培训的方法通过提供了一种对用户答案进行评分的方法，实现了从4个维度对用户答案进行综合评估。

本发明第六实施例。附图9记载了一种基于自然语言进行在线培训的系统，包括：

预处理模块100，即时采集用户聊天过程的文本信息，对所述文本信息进行预处理，获取基于所述文本信息的词向量、句向量；

意图分析模块200，基于预处理模块100处理得到的词向量、句向量，获取所述用户的培训意图；

神经网络构建子模块210，基于预处理模块100处理得到的词向量、句向量构建图卷积神经网络；

ReLU函数激活子模块220，使用ReLU激活函数增加神经网络构建子模块210构建的图卷积神经网络的非线性，获取第一次计算图卷积结果；

Dropout计算子模块230，对ReLU函数激活子模块220处理后获得的第一次计算图卷积结果进行Dropout处理以防止过拟合，随后进行第二次卷积处理，获取第二次计算图卷积结果；

Softmax函数处理子模块240，使用Softmax函数将Dropout计算子模块230处理获得的第二次计算图卷积结果进行归一化，获取所述用户的培训意图；

其中

为节点i在第l层的特征表达，

为类型为R的节点j的变换权重参数，

为类型为R的节点j在第l层的变换权重参数。

培训模块300，当Softmax函数处理子模块240成功识别出用户的培训意图后，启动培训模块300，引导所述用户进入培训模式，在所述培训模式下向所述用户发送所述培训意图中的主题培训内容，并向所述用户发送培训问题，获取所述培训问题的用户答案；

评分模块400，基于培训模块300得到的所述培训问题的标准答案对所述用户答案进行匹配，计算所述用户答案的评分。

矩阵构建子模块410，基于预处理模块100处理得到的所述用户答案和标准答案的词向量、句向量构建多个维度的相似度矩阵，并通过GCN+Attention机制进行监督式训练，获取各维度的权重值；

wmd相似度矩阵单元411，基于预处理模块100处理得到的所述用户答案和标准答案的词向量、句向量使用wmd文本相似度算法计算所述标准答案和所述用户答案的第一相似度，基于所述第一相似度构建wmd相似度矩阵；

simhash相似度矩阵单元412，基于预处理模块100处理得到的所述用户答案和标准答案的词向量、句向量使用simhash算法计算所述标准答案和所述用户答案的第二相似度，基于所述第二相似度构建simhash相似度矩阵；

叠词矩阵单元413，基于预处理模块100处理得到的所述用户答案和标准答案的词向量、句向量使用叠词算法获取所述标准答案和所述用户答案的第三相似度，基于所述第三相似度构建叠词矩阵。

所述矩阵构建子模块410还基于矩阵构建子模块410中获取的权重值，对上述3维度的相似度矩阵进行加权求和，获取最终相似度矩阵，所述最终相似度矩阵中的值代表所述标准答案和所述用户答案中对应的词向量、句向量的综合匹配度；

句子匹配子模块420，在所述最终相似度矩阵中，对所述最终相似度矩阵的每一行获取最大值的索引，判断最大值是否满足小于相似度矩阵阈值，若是，则所述用户答案的子句与所述标准答案的子句存在配对，对该行进行聚类，对每一行的聚类进行交集合并，得到最终匹配结果，从所述最终相似度矩阵中的所有所述相匹配值，获取所述标准答案与所述用户答之间相匹配的句子。

准确率评分子模块431，基于wmd文本相似度算法计算句子匹配子模块420得到的标准答案与所述用户答之间相匹配的句子的相似性，获取所述用户答案的准确率；

连贯度评分子模块432，对比句子匹配子模块420得到的标准答案与所述用户答之间相匹配的句子的语序关系，获取所述用户答案的连贯度；

完整度评分子模块433，对句子匹配子模块420得到的标准答案与所述用户答之间相匹配的句子进行完整度权重值分配，基于所述完整度权重，获取所述用户答案的完整度；

通顺度评分子模块434，基于N-gram语言模型计算句子匹配子模块420得到的标准答案与所述用户答之间相匹配的句子的通顺度，获取所述用户答案的通顺度。

具体地，本发明第六实施例一种基于自然语言进行在线培训的系统为上述第一实施例至第五实施例所记载的方法实施例进行组合后得到的系统实施例，其技术特征和技术效果与上述第一实施例至第五实施例所记载的方法实施例相同，在此不一一赘述。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于自然语言进行在线培训的方法，其特征在于，所述方法包括：

基于所述词向量、句向量，获取所述用户的培训意图；

基于所述培训问题的标准答案对所述用户答案进行匹配，计算所述用户答案的评分；所述评分基于所述用户答案和标准答案二者的词向量、句向量中携带的信息的综合匹配而获得，通过所述评分反馈用户对所述培训问题的掌握程度及本次培训中的进度情况；

其中：所述基于所述培训问题的标准答案对所述用户答案进行匹配包括：

通过GCN+Attention机制进行监督式训练，获取各维度的权重值；

对每一行的聚类进行交集合并，得到最终匹配结果。

2.根据权利要求1所述的一种基于自然语言进行在线培训的方法，其特征在于，所述基于所述词向量、句向量，获取所述用户的培训意图包括：

基于所述词向量、句向量构建图卷积神经网络；

对所述第一次计算图卷积结果进行Dropout处理以防止过拟合，随后进行第二次卷积处理，获取第二次计算图卷积结果；

所述基于所述词向量、句向量，获取所述用户的培训意图的计算过程为：

其中

为节点i在第l层的特征表达；c_i,j为归一化因子，取节点度的倒数；N_i为节点i的邻居，包括自身；j为节点i的邻居节点；R_j为节点j的类型；

为类型为R的节点j的变换权重参数。

3.根据权利要求1所述的一种基于自然语言进行在线培训的方法，其特征在于，所述基于所述用户答案和标准答案的词向量和句向量进行多维度的相似度计算，获取各维度的相似度矩阵包括：

基于wmd文本相似度算法获取wmd相似度矩阵；

基于simhash算法计算获取simhash相似度矩阵；

基于叠词算法获取相似度构建叠词矩阵。

4.根据权利要求1所述的一种基于自然语言进行在线培训的方法，其特征在于，所述计算所述用户答案的评分包括：

基于wmd文本相似度算法计算相匹配的句子的相似性，获取所述用户答案的准确率；

对所述标准答案的句子进行完整度权重值分配，基于所述完整度权重值和所述相匹配的句子，获取所述用户答案的完整度；

5.一种基于自然语言进行在线培训的系统，其特征在于，包括：

预处理模块，即时采集用户聊天过程的文本信息，对所述文本信息进行预处理，获取基于所述文本信息的词向量和句向量；

意图分析模块，基于所述词向量和句向量，获取所述用户的培训意图；

评分模块，基于所述培训问题的标准答案对所述用户答案进行匹配，计算所述用户答案的评分；所述评分基于所述用户答案和标准答案二者的词向量、句向量中携带的信息的综合匹配而获得，通过所述评分反馈用户对所述培训问题的掌握程度及本次培训中的进度情况；

具体的，所述评分模块包括：

6.根据权利要求5所述的一种基于自然语言进行在线培训的系统，其特征在于，所述意图分析模块包括：

ReLU函数激活子模块，使用ReLU激活函数增加所述图卷积神经网络的表达能力，获取第一次计算图卷积结果；

Dropout计算子模块，对所述第一次计算图卷积结果进行Dropout处理以防止过拟合，随后进行第二次卷积处理，获取第二次计算图卷积结果；

其中

为类型为R的节点j的变换权重参数。

7.根据权利要求5所述的一种基于自然语言进行在线培训的系统，其特征在于，所述矩阵构建子模块包括：

叠词矩阵单元，基于叠词算法获取相似度构建叠词矩阵。

8.根据权利要求5所述的一种基于自然语言进行在线培训的系统，其特征在于，所述评分模块还包括：

准确率评分子模块，基于wmd文本相似度算法计算相匹配的句子的相似性，获取所述用户答案的准确率；

完整度评分子模块，对所述标准答案的句子进行完整度权重值分配，基于所述完整度权重值和所述相匹配的句子，获取所述用户答案的完整度；