CN111078854A

CN111078854A - 问答预测模型的训练方法及装置、问答预测方法及装置

Info

Publication number: CN111078854A
Application number: CN201911286247.3A
Authority: CN
Inventors: 郭梓甲; 唐剑波; 李长亮
Original assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Software Co Ltd
Current assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Software Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-28
Anticipated expiration: 2039-12-13
Also published as: CN111078854B

Abstract

本申请提供一种问答预测模型的训练方法及装置、问答预测方法及装置。其中训练方法，包括：获取训练样本和样本结果，其中，训练样本包括样本问题和样本用户的样本类别信息；分别将样本问题和样本类别信息输入至自注意力层进行处理，生成第一样本问题矩阵和第一样本类别信息矩阵；将第一样本问题矩阵和第一样本类别信息矩阵输入至互注意力层进行处理，生成第二样本问题矩阵和第二样本类别信息矩阵；基于第二样本问题矩阵和第二样本类别信息矩阵进行匹配度计算处理，获得预测结果；基于预测结果与样本结果进行计算并对问答预测模型进行迭代训练。本申请提供的问答预测模型的训练方法训练效果好，模型准确率高。

Description

问答预测模型的训练方法及装置、问答预测方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种问答预测模型的训练方法及装置、问答预测方法及装置、计算设备及计算机可读存储介质。

背景技术

问答预测系统是通过分别对问题文本和用户划分话题类别，再将问题文本的类别和用户感兴趣的话题类别进行计算，推理出将问题推荐给用户后用户回答问题的概率的系统。比如，若用户A提出问题“散文《背影》创作于哪一年？”，用户A感兴趣的话题为“文学”，那么将上述问题划分为“文学”类别，用户B感兴趣的话题类别为“物理”，那么根据上述问题文本的话题类别和用户B感兴趣的话题类别得到二者匹配度为x，并推理出将该问题推荐给用户B后，用户B有y％的概率回答上述问题。

目前的问答预测系统，一方面基于用户注册时选择的感兴趣话题以及回答过得话题对于用户划分类别，另一方面基于提出问题的用户以及参与回答的用户对于问题划分类别，同时对问题及用户划分话题类别即进行两种实体的类别聚类，会忽略问题的原始文本特征，对于问题文本而言，聚类特征侧重于提出该问题的用户以及曾经回答过该问题的用户感兴趣的话题类别，而原始文本特征侧重于问题文本内容的语义信息，然而仅仅根据与问题相关联的用户的类别信息确定其提出的问题所属的类别，忽略了问题文本本身的含义，对于问题的类别划分不准确，且若无类别划分的新用户提出新问题，即未选择其感兴趣话题的用户提出问题，便无法基于提出该问题的用户感兴趣的话题类别对该问题进行准确的类别划分，进而导致概率预测不准确。

发明内容

有鉴于此，本申请实施例提供了问答预测模型的训练方法及装置、问答预测方法及装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请公开了一种问答预测模型的训练方法，所述问答预测模型包括自注意力层和互注意力层；

所述训练方法，包括：

获取训练样本和样本结果，其中，所述训练样本包括样本问题和样本用户的样本类别信息；

分别将所述样本问题和所述样本类别信息输入至自注意力层进行处理，生成第一样本问题矩阵和第一样本类别信息矩阵；

将所述第一样本问题矩阵和所述第一样本类别信息矩阵输入至互注意力层进行处理，生成第二样本问题矩阵和第二样本类别信息矩阵；

基于所述第二样本问题矩阵和所述第二样本类别信息矩阵进行匹配度计算处理，获得预测结果；

基于所述预测结果与所述样本结果进行计算并对所述问答预测模型进行迭代训练。

可选地，所述自注意力层包括问题自注意力层和类别自注意力层；

所述分别将所述样本问题和所述样本类别信息输入至自注意力层进行处理，包括：

将所述样本问题输入至问题自注意力层中进行处理，生成第一样本问题矩阵；

将所述样本类别信息输入至类别自注意力层中进行处理，生成第一样本类别信息矩阵。

可选地，所述问题自注意力层和所述类别自注意力层均包括嵌入层和编码层；

所述将所述样本问题输入至问题自注意力层中进行处理，生成第一样本问题矩阵，包括：

将所述样本问题输入至所述问题自注意力层的嵌入层中进行嵌入处理，生成第一样本问题向量，将所述第一样本问题向量输入至所述问题自注意力层的编码层中进行处理，生成第一样本问题矩阵；

所述将所述样本类别信息输入至类别自注意力层中进行处理，生成第一样本类别信息矩阵，包括：

将所述样本类别信息输入至所述类别自注意力层的嵌入层中进行嵌入处理，生成第一样本类别信息向量，将所述第一样本类别信息向量输入至所述类别自注意力层的编码层中进行处理，生成第一样本类别信息矩阵。

可选地，所述问答预测模型还包括卷积层；

所述基于所述第二样本问题矩阵和所述第二样本类别信息矩阵进行匹配度计算处理，获得预测结果，包括：

分别将所述第二样本问题矩阵和所述第二样本类别信息矩阵输入至所述卷积层中进行处理，生成第二样本问题向量和第二样本类别信息向量；

计算所述第二样本问题向量和所述第二样本类别信息向量的匹配度，并基于所述匹配度预测所述样本用户回答所述样本问题的概率，获得预测结果。

可选地，所述问答预测模型还包括前向编码层；

合并所述第二样本问题矩阵和所述第二样本类别信息矩阵，生成样本问题类别矩阵；

将所述样本问题类别矩阵输入至所述前向编码层中进行处理，计算所述样本问题类别矩阵的损失值，并基于所述样本问题类别矩阵的损失值获得预测结果。

可选地，所述基于所述样本问题类别矩阵的损失值获得预测结果，包括：

基于所述样本问题类别矩阵的损失值确定所述样本问题与所述样本类别信息的匹配度；

基于所述样本问题与所述样本类别信息的匹配度预测所述样本用户回答所述样本问题的概率，获得预测结果。

可选地，所述基于所述预测结果与所述样本结果进行计算并对所述问答预测模型进行迭代训练，包括：

基于所述预测结果与所述样本结果计算结果损失值，并判断所述结果损失值是否小于预设阈值；

若是，则停止训练；

若否，则基于所述结果损失值调整所述问答预测模型的参数，对所述问答预测模型进行迭代训练。

本申请还提供一种问答预测方法，包括：

获取待回答问题和目标用户的类别信息；

分别将所述待回答问题和所述类别信息输入至问答预测模型中进行处理，获得所述目标用户回答所述待回答问题的概率；

其中，所述问答预测模型是通过所述的训练方法训练得到的。

可选地，所述问答预测模型包括自注意力层和互注意力层；

所述分别将所述待回答问题和所述类别信息输入至问答预测模型中进行处理，包括：

分别将所述待回答问题和所述类别信息输入至自注意力层进行处理，生成第一问题矩阵和第一类别信息矩阵；

将所述第一问题矩阵和所述第一类别信息矩阵输入至互注意力层进行处理，生成第二问题矩阵和第二类别信息矩阵；

基于所述第二问题矩阵和所述第二类别信息矩阵进行匹配度计算处理，获得所述目标用户回答所述待回答问题的概率。

所述分别将所述待回答问题和所述类别信息输入至自注意力层进行处理，包括：

将所述待回答问题输入至问题自注意力层中进行处理，生成第一问题矩阵；

将所述类别信息输入至类别自注意力层中进行处理，生成第一类别信息矩阵。

所述将所述待回答问题输入至问题自注意力层中进行处理，生成第一问题矩阵，包括：

将所述待回答问题输入至所述问题自注意力层的嵌入层中进行嵌入处理，生成第一问题向量，将所述第一问题向量输入至所述问题自注意力层的编码层中进行处理，生成第一问题矩阵；

所述将所述类别信息输入至类别自注意力层中进行处理，生成第一类别信息矩阵，包括：

将所述类别信息输入至所述类别自注意力层的嵌入层中进行嵌入处理，生成第一类别信息向量，将所述第一类别信息向量输入至所述类别自注意力层的编码层中进行处理，生成第一类别信息矩阵。

可选地，所述问答预测模型还包括卷积层；

所述基于所述第二问题矩阵和所述第二类别信息矩阵进行匹配度计算处理，获得所述目标用户回答所述待回答问题的概率，包括：

分别将所述第二问题矩阵和所述第二类别信息矩阵输入至所述卷积层中进行处理，生成第二问题向量和第二类别信息向量；

计算所述第二问题向量和所述第二类别信息向量的匹配度，并基于所述匹配度预测所述目标用户回答所述待回答问题的概率。

可选地，所述问答预测模型还包括前向编码层；

合并所述第二问题矩阵和所述第二类别信息矩阵，生成问题类别矩阵；

将所述问题类别矩阵输入至所述前向编码层中进行处理，计算所述问题类别矩阵的损失值，并基于所述问题类别矩阵的损失值获得所述目标用户回答所述待回答问题的概率。

可选地，所述基于所述问题类别矩阵的损失值获得所述目标用户回答所述待回答问题的概率，包括：

基于所述问题类别矩阵的损失值确定所述待回答问题与所述类别信息的匹配度；

基于所述待回答问题与所述类别信息的匹配度预测所述目标用户回答所述待回答问题的概率。

本申请还提供一种问答预测模型的训练装置，所述问答预测模型包括自注意力层和互注意力层；

所述训练装置，包括：

样本获取模块，被配置为获取训练样本和样本结果，其中，所述训练样本包括样本问题和样本用户的样本类别信息；

第一处理模块，被配置为分别将所述样本问题和所述样本类别信息输入至自注意力层进行处理，生成第一样本问题矩阵和第一样本类别信息矩阵；

第二处理模块，被配置为将所述第一样本问题矩阵和所述第一样本类别信息矩阵输入至互注意力层进行处理，生成第二样本问题矩阵和第二样本类别信息矩阵；

计算预测模块，被配置为基于所述第二样本问题矩阵和所述第二样本类别信息矩阵进行匹配度计算处理，获得预测结果；

模型训练模块，被配置为基于所述预测结果与所述样本结果进行计算并对所述问答预测模型进行迭代训练。

本申请还提供一种问答预测装置，包括：

获取模块，被配置为获取待回答问题和目标用户的类别信息；

预测模块，被配置为分别将所述待回答问题和所述类别信息输入至问答预测模型中进行处理，获得所述目标用户回答所述待回答问题的概率；

本申请还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时上述问答预测模型的训练方法或者问答预测方法的步骤。

本申请还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现上述问答预测模型的训练方法或者问答预测方法的步骤。

本申请提供的问答预测模型的训练方法及装置，通过将样本问题和样本类别信息分别输入至自注意力层中处理，可以对样本问题的内容和样本类别信息的内容进行充分且全面的关注，有助于其中内容内部相关性的捕捉，增加处理过程中对于内容本身的观察精细度，再将生成的第一样本问题矩阵和第一样本类别信息矩阵输入至互注意力层中进行处理，可以更进一步地关注到样本问题和样本类别信息中的不同内容，最后将生成的第二样本问题矩阵和第二样本类别信息矩阵进行匹配度计算处理，在尽可能多的关注到样本问题内容及样本类别信息内容的基础上，提高模型的训练效果以及模型预测用户回答问题的概率的准确率。

本申请提供的问答预测方法及装置，通过将待回答问题和目标用户的类别信息输入至通过上述训练方法训练得到的问答预测模型中进行处理，得到目标用户回答待回答问题的概率，可以充分且全面的关注到待回答问题的文本内容，并基于待回答问题的文本内容确定该待回答问题所属的类别，提高待回答问题类别划分的准确率，解决了新用户提出新问题无法基于提出问题的用户对该问题进行类别划分的难题，基于待回答问题的文本内容与目标用户的类别信息之间的联系对目标用户回答该问题的概率进行预测，预测准确率高。

附图说明

图1是本申请实施例的计算设备的结构示意图；

图2是本申请实施例的问答预测模型的结构示意图；

图3是本申请实施例的问答预测模型的训练方法的步骤流程示意图；

图4是本申请实施例的问答预测模型的结构示意图；

图5是本申请实施例的问答预测模型的训练方法的步骤流程示意图；

图6是本申请实施例的问答预测方法的步骤流程示意图；

图7是本申请实施例的问答预测方法的步骤流程示意图；

图8是本申请实施例的问答预测方法的步骤流程示意图；

图9是本申请实施例的问答预测模型的训练装置的结构示意图；

图10是本申请实施例的问答预测装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

注意力机制(Attention Mechanism)：在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息，上述机制通常被称为注意力机制。

BP(back propagation)神经网络：是一种按照误差逆向传播算法训练的多层前馈神经网络，是目前应用最广泛的神经网络。BP神经网络是一种按误差反向传播(简称误差反传)训练的多层前馈网络，其算法称为BP算法，它的基本思想是梯度下降法，利用梯度搜索技术，以期使网络的实际输出值和期望输出值的误差均方差为最小。

在本申请中，提供了一种问答预测模型的训练方法及装置、问答预测方法及装置、计算设备及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。其中，处理器120可以执行图3所示方法中的步骤。

如图2所示，图2是本申请一实施例的问答预测模型的结构示意图，包括自注意力层、互注意力层和卷积层。

自注意力层是对样本问题和样本类别信息分别进行自注意力处理的层级结构，自注意力层包括并列的问题自注意力层和类别自注意力层，问题自注意力层和类别自注意力层均包括嵌入层和编码层。将样本问题和样本类别信息分别输入至问题自注意力层和类别自注意力层的嵌入层中进行嵌入处理，生成第一样本问题向量和第一类别信息向量，将第一样本问题向量和第一类别信息向量分别输入至问题自注意力层和类别自注意力层的编码层中进行处理，生成第一样本问题矩阵和第一样本类别信息矩阵。

互注意力层是对第一样本问题矩阵和第一样本类别信息矩阵进行互注意力编码处理的层级结构，将第一样本问题矩阵和第一样本类别信息矩阵输入至互注意力层中进行互注意力编码处理，生成第二样本问题矩阵和第二样本类别信息矩阵。

卷积层是用于对第二样本问题矩阵和第二样本类别信息矩阵处理得到预测结果的层级结构。将第二样本问题矩阵和第二样本类别信息矩阵输入至卷积层中进行处理，生成第二样本问题向量和第二样本类别信息向量，再计算第二样本问题向量和第二类别信息向量的匹配度，获得预测结果。

本实施例所述的问答预测模型，通过设置自注意力层和互注意力层，可以充分关注样本问题和样本类别信息中的内容，再通过卷积层计算匹配度获得预测结果，可以大大提高模型的预测准确率，提高模型训练效果。

如图3所示，图3示出了根据本申请一实施例的问答预测模型的训练方法的示意性流程图，其中，所述问答预测模型包括自注意力层和互注意力层，所述训练方法包括步骤S310至步骤S350。

S310、获取训练样本和样本结果，其中，所述训练样本包括样本问题和样本用户的样本类别信息。

训练样本是指用于模型训练的文本集合，其中包括一个或多个样本问题以及一个或多个样本用户的样本类别信息，需要说明的是，训练样本中的每一个样本问题对应一个样本用户，每一个样本用户可以存在一个或多个样本类别信息。

样本问题可以是任何语言文本以及任何类型的问题，比如样本问题既可以是“火车票网络购票的app如何选择？”等生活化问题，也可以是“什么是自然语言处理？”等专业性问题，或是其他未列举到的类型的问题均可，本申请对此不做限制。

样本用户是指用于分析回答样本问题的概率的用户，样本用户的样本类别信息是指该用户感兴趣的话题类别，如娱乐、新闻、教育、体育等，每一个样本用户的样本类别信息既可以是一个也可以是多个，既可以通过用户注册时进行的话题类别选择操作得到，也可以基于对用户以往回答过的问题的类别分析得到，或是其他方式均可，本申请对此不做限制。

需要说明的是，在样本用户存在多个样本类别信息的情况下，一个样本用户的多个样本类别信息之间既可以是并列关系，如“英语”和“法语”、“工作”和“生活”等，也可以是递进关系，如“娱乐”和“电影”，“电影”和“喜剧电影”等，或是并列关系、递进关系以及其他关系的组合均可，本申请亦不做限制。

例如，样本用户李某在注册其账号时，选择其感兴趣的话题包括“教育”和“体育”，李某在注册账号后的一段时间内回答了20道关于历史方面的问题，那么“教育”、“体育”和“历史”均为样本用户李某的样本类别信息。

样本结果是样本用户回答样本问题的概率，样本结果既可以通过概率数值表示，也可以通过如“该用户有较大概率回答该问题”等任何可以表达用户回答问题的概率情况的文字表示，本申请对此不做限制。在样本结果通过概率数值表示的情况下，样本用户回答样本问题的概率值可以为0至1之间的任何值。例如，假设样本问题为“台风会对内陆地区造成影响吗？”，样本用户李某的样本类别信息为“教育”、“体育”和“历史”，那么样本结果即样本用户李某回答上述样本问题的概率为0.1。

本实施例所述的问答预测模型的训练方法，通过大批量的训练文本对问答预测模型进行训练，可以大大提高模型训练的速率和效果。

S320、分别将所述样本问题和所述样本类别信息输入至自注意力层进行处理，生成第一样本问题矩阵和第一样本类别信息矩阵。

具体地，所述自注意力层包括问题自注意力层和类别自注意力层。需要说明的是，问题自注意力层与类别自注意力层之间为并列关系，无特定前后排列顺序。

在实际应用中，可以将所述样本问题输入至问题自注意力层中进行处理，生成第一样本问题矩阵；将所述样本类别信息输入至类别自注意力层中进行处理，生成第一样本类别信息矩阵。

更为具体地，所述问题自注意力层和所述类别自注意力层均包括嵌入层和编码层。

在实际应用中，可以将所述样本问题输入至所述问题自注意力层的嵌入层中进行嵌入处理，生成第一样本问题向量，将所述第一样本问题向量输入至所述问题自注意力层的编码层中进行处理，生成第一样本问题矩阵；将所述样本类别信息输入至所述类别自注意力层的嵌入层中进行嵌入处理，生成第一样本类别信息向量，将所述第一样本类别信息向量输入至所述类别自注意力层的编码层中进行处理，生成第一样本类别信息矩阵。

将样本问题和样本类别信息分别输入至自注意力层中采用自注意力机制对样本问题和样本类别信息进行处理，可以对样本问题的内容和样本类别信息的内容进行充分且全面的关注，有助于其中数据、特征信息内部相关性的捕捉，增加处理过程中对于内容本身的观察精细度，有效提高模型训练的效率和模型的准确率。

S330、将所述第一样本问题矩阵和所述第一样本类别信息矩阵输入至互注意力层进行处理，生成第二样本问题矩阵和第二样本类别信息矩阵。

在实际应用中，将所述第一样本问题矩阵和所述第一样本类别信息矩阵输入至所述互注意力层中进行互注意力编码处理，生成第二样本问题矩阵和第二样本类别信息矩阵。

将第一问题矩阵和第一样本类别信息矩阵输入至互注意力层中采用互注意力机制对其进行互注意力编码处理，可以更加丰富的关注到样本问题和样本类别信息中的不同内容，提高模型训练的效率和模型的准确率。

S340、基于所述第二样本问题矩阵和所述第二样本类别信息矩阵进行匹配度计算处理，获得预测结果。

具体地，所述问答预测模型还包括卷积层。

在实际应用中，可以分别将所述第二样本问题矩阵和所述第二样本类别信息矩阵输入至所述卷积层中进行处理，生成第二样本问题向量和第二样本类别信息向量；计算所述第二样本问题向量和所述第二样本类别信息向量的匹配度，并基于所述匹配度预测所述样本用户回答所述样本问题的概率，获得预测结果。

在实际应用中，可以基于所述样本问题类别矩阵的损失值确定所述样本问题与所述样本类别信息的匹配度；基于所述样本问题与所述样本类别信息的匹配度预测所述样本用户回答所述样本问题的概率，获得预测结果。

若样本问题与样本类别信息的匹配度大，则样本用户回答样本问题的概率大，若样本问题与样本类别信息的匹配度小，则样本用户回答样本问题的概率小。其中，可以直接将样本问题与样本类别信息的匹配度作为预测结果，也可以基于匹配度再次进行计算得到预测结果，本申请对此不做限制。

通过将第二样本问题矩阵和第二样本类别信息矩阵输入至卷积层进行处理，再计算二者的匹配度，获得预测结果，可以有效提高模型的训练效果，提高模型预测的准确率。

S350、基于所述预测结果与所述样本结果进行计算并对所述问答预测模型进行迭代训练。

在实际应用中，可以基于所述预测结果与所述样本结果计算结果损失值，并判断所述结果损失值是否小于预设阈值；若是，则停止训练；若否，则基于所述结果损失值调整所述问答预测模型的参数，对所述问答预测模型进行迭代训练。

具体地，预设阈值是结果损失值的临界值，在结果损失值小于预设阈值的情况下，说明模型已经达到所需训练效果，可以停止训练，在结果损失值大于或等于预设阈值的情况下，说明模型仍未达到所需训练效果，仍需根据结果损失值反向调整模型参数并进行迭代训练。预设阈值的具体数值可以根据实际需求确定，本申请对此不做限制。

计算预测结果与样本结果之间的损失值，并基于损失值判断是否继续进行训练以及如何调整参数进行训练，可以快速确定模型的缺陷位于何处，针对性的对模型进行训练，有效提高模型训练的速率。

下面结合具体的例子对本实施例做进一步说明。

例如，获取训练样本和样本结果。假设训练样本中的样本问题包括“喜剧电影《哈哈》什么时间上映？”，样本用户李某的样本类别信息包括“电影”、“悲剧电影”、“电影配乐”和“音乐剧”，样本结果为0.55。

将上述样本问题和样本类别信息分别输入至问题自注意力层和类别自注意力层的嵌入层中进行嵌入处理，生成第一样本问题向量和第一样本类别信息向量，将上述第一样本问题向量和第一样本类别信息向量输入至问题自注意力层和类别自注意力层的编码层中进行处理生成第一样本问题矩阵和第一样本类别信息矩阵。

将上述第一样本问题矩阵和第一样本类别信息矩阵输入至互注意力层中进行处理，生成第二样本问题矩阵和第二样本类别信息矩阵。

将第二样本问题矩阵和第二样本类别信息矩阵输入至卷积层中进行处理，生成第二样本问题向量和第二样本类别信息向量，并经过计算得到第二样本问题向量和第二样本类别信息向量的匹配度为0.40，则将匹配度0.40作为预测结果，即样本用户回答样本问题的概率为0.40。

基于预测结果0.40和样本结果0.55计算得到结果损失值为0.10，假设预设阈值为0.10，结果损失值与预设阈值相等，则基于损失值反向调整问答预测模型的参数继续训练。

本实施例所述问答预测模型的训练方法，通过将样本问题和样本类别信息分别至自注意力层中处理，可以对样本问题的内容和样本类别信息的内容进行充分且全面的关注，有助于其中数据、特征信息内部相关性的捕捉，增加处理过程中对于内容本身的观察精细度，再将生成的第一样本问题矩阵和第一样本类别信息矩阵输入至互注意力层中进行处理，可以更进一步地关注到样本问题和样本类别信息中的不同内容，最后将生成的第二样本问题矩阵和第二样本类别信息矩阵输入至卷积层中进行处理得到预测结果，在尽可能多的关注到样本问题内容及样本类别信息内容的基础上，提高模型的训练效果以及模型预测用户回答问题的概率的准确率。

如图4所示，图4是本申请一实施例的问答预测模型的结构示意图，包括自注意力层、互注意力层和前向编码层。

自注意力层是对样本问题和样本类别信息分别进行自注意力处理的层级结构，自注意力层包括并列的问题自注意力层和类别自注意力层，问题自注意力层和类别自注意力层均包括嵌入层和编码层，将样本问题和样本类别信息分别输入至问题自注意力层和类别自注意力层的嵌入层中进行嵌入处理，生成第一样本问题向量和第一类别信息向量，将第一样本问题向量和第一类别信息向量分别输入至问题自注意力层和类别自注意力层的编码层中进行处理，生成第一样本问题矩阵和第一样本类别信息矩阵。

前向编码层即BP网络层，是用于获得样本问题与样本用户的样本类别信息的匹配度的层级结构。首先将第二样本问题矩阵和第二样本类别信息矩阵进行合并得到问题类别矩阵，再将问题类别矩阵输入至前向编码层中进行处理，计算损失值并得到预测结果。

本实施例所述的问答预测模型，通过设置自注意力层和互注意力层，可以充分关注样本问题和样本类别信息中的内容，再通过前向编码层计算损失值获得预测结果，可以大大提高模型的预测准确率，提高模型训练效果。

如图5所示，图5是本申请一实施例所述的问答预测模型的训练方法的步骤流程示意图，包括步骤S510至步骤S572。

S510、获取训练样本和样本结果，其中，所述训练样本包括样本问题和样本用户的样本类别信息。

S520、将样本问题输入至问题自注意力层中进行处理，生成第一样本问题矩阵。

S530、将样本类别信息输入至类别自注意力层中进行处理，生成第一样本类别信息矩阵。

S540、将第一样本问题矩阵和第一样本类别信息矩阵输入至互注意力层中进行处理，生成第二样本问题矩阵和第二样本类别信息矩阵。

S550、合并所述第二样本问题矩阵和所述第二样本类别信息矩阵，生成样本问题类别矩阵。

其中，第二样本问题矩阵与第二样本类别信息矩阵的合并可以是基于矩阵中的行或列进行的拼接，可视具体情况而定，本申请对此不做限制。

S560、将所述样本问题类别矩阵输入至所述前向编码层中进行处理，计算所述样本问题类别矩阵的损失值，并基于所述样本问题类别矩阵的损失值获得预测结果。

计算样本问题类别矩阵的损失值，具体为计算样本问题类别矩阵的交叉熵损失值，交叉熵损失值可以明确表示样本问题与样本类别信息之间的差距，差距大，那么损失值则大，匹配度则小，即样本用户回答样本问题的概率小，差距小，那么损失值则小，匹配度则大，即样本用户回答样本问题的概率大。

例如，假设样本第二样本问题矩阵为a×b的矩阵，第二样本类别信息矩阵为c×b的矩阵，合并上述第二样本问题矩阵和第二样本类别信息矩阵即得到(a+c)×b的样本问题类别矩阵，将上述样本问题类别矩阵输入至前向编码层中进行处理，得到样本问题类别矩阵的损失值为s(0≤s≤1)，那么预测结果即为s，即样本用户回答样本问题的概率值为1-s。

将第二样本问题矩阵和第二样本类别信息矩阵合并后输入至前向编码层中进行处理，计算合并后的样本问题类别矩阵的损失值得到预测结果，可以在充分关注到样本问题内容的情况下做出预测，提高模型训练的速率以及模型预测的准确性。

S570、基于所述预测结果与所述样本结果计算结果损失值，并判断所述结果损失值是否小于预设阈值，若是，则执行步骤S571，若否，则执行步骤S572。

S571、停止训练。

S572、基于所述结果损失值调整所述问答预测模型的参数，对所述问答预测模型进行迭代训练。

下面结合具体的例子对本实施例做出进一步说明。

例如，获取训练样本和样本结果。假设训练样本包括样本问题A“故宫共有多少间宫殿？”和样本问题B“平行空间是真实存在的吗？”。样本用户C的样本类别信息包括“历史”和“文学”，样本用户D的样本类别信息包括“音乐”、“古典音乐”和“重金属音乐”，样本问题A与样本用户C对应的样本结果为0.90，样本问题B与样本用户D对应的样本结果为0.03。

将上述样本问题输入至问题自注意力层的嵌入层中进行嵌入处理，生成第一样本问题向量a1和b1，将上述第一样本问题向量a1和b1输入至问题自注意力层的编码层中进行处理，生成第一样本问题矩阵A1和B1。

将上述样本用户的样本类别信息输入至类别自注意力层的嵌入层中处理，生成第一样本类别信息向量c1和d1，将上述第一样本类别信息向量c1和d1输入至类别自注意力层的编码层中进行处理，生成第一样本类别信息矩阵C1和D1。

将上述第一样本问题矩阵A1、B1以及第一样本类别信息矩阵C1、D1输入至互注意力层中进行处理，生成第二样本问题矩阵A2、B2以及第二样本类别信息矩阵C2、D2。

将第二样本问题矩阵A2和第二样本类别信息矩阵C2合并，生成样本问题类别矩阵AC，将样本问题类别矩阵AC输入至前向编码层中进行处理，计算得到样本问题类别矩阵的损失值为0.21，则样本问题A与样本用户C的匹配度即为0.79，预测结果为0.79。

假设结果损失值的预设阈值为0.15，基于样本问题A与样本用户C的预测结果0.79以及样本结果0.90计算得到结果损失值为0.17，大于预设阈值，基于结果损失值反向调整问答预测模型的参数，继续训练。

将第二样本问题矩阵B2和第二样本类别信息矩阵D2合并，生成样本问题类别矩阵BD，将样本问题类别矩阵BD输入至前向编码层中进行处理，计算得到样本问题类别矩阵的损失值为0.91，则样本问题B与样本用户D的匹配度即为0.09，预测结果为0.09。

基于样本问题B与样本用户D的预测结果0.09以及样本结果0.03计算得到结果损失值为0.09，小于预设阈值，停止训练。

本实施例所述问答预测模型的训练方法，通过将样本问题和样本类别信息分别至自注意力层中处理，可以对样本问题的内容和样本类别信息的内容进行充分且全面的关注，有助于其中数据、特征信息内部相关性的捕捉，增加处理过程中对于内容本身的观察精细度，再将生成的第一样本问题矩阵和第一样本类别信息矩阵输入至互注意力层中进行处理，可以更进一步地关注到样本问题和样本类别信息中的不同内容，最后将生成的第二样本问题矩阵和第二样本类别信息矩阵输入至前向编码层中进行处理得到预测结果，在尽可能多的关注到样本问题内容及样本类别信息内容的基础上，提高模型的训练效果以及模型预测用户回答问题的概率的准确率。

如图6所示，图6是本申请一实施例所述的一种问答预测方法的步骤流程示意图，包括步骤S610至步骤S620。

S610、获取待回答问题和目标用户的类别信息。

S620、分别将所述待回答问题和所述类别信息输入至问答预测模型中进行处理，获得所述目标用户回答所述待回答问题的概率。

其中，所述问答预测模型是通过上述的训练方法训练得到的，所述问答预测模型包括自注意力层和互注意力层，所述步骤S620还包括步骤S710至步骤S730，如图7所示。

S710、分别将所述待回答问题和所述类别信息输入至自注意力层进行处理，生成第一问题矩阵和第一类别信息矩阵。

具体地，所述自注意力层包括问题自注意力层和类别自注意力层。

在实际应用中，可以将所述待回答问题输入至问题自注意力层中进行处理，生成第一问题矩阵；将所述类别信息输入至类别自注意力层中进行处理，生成第一类别信息矩阵。

在实际应用中，可以将所述待回答问题输入至所述问题自注意力层的嵌入层中进行嵌入处理，生成第一问题向量，将所述第一问题向量输入至所述问题自注意力层的编码层中进行处理，生成第一问题矩阵；将所述类别信息输入至所述类别自注意力层的嵌入层中进行嵌入处理，生成第一类别信息向量，将所述第一类别信息向量输入至所述类别自注意力层的编码层中进行处理，生成第一类别信息矩阵。

S720、将所述第一问题矩阵和所述第一类别信息矩阵输入至互注意力层进行处理，生成第二问题矩阵和第二类别信息矩阵。

在实际应用中，可以将所述第一问题矩阵和所述第一类别信息矩阵输入至所述互注意力层中进行互注意力编码处理，生成第二问题矩阵和第二类别信息矩阵。

S730、基于所述第二问题矩阵和所述第二类别信息矩阵进行匹配度计算处理，获得所述目标用户回答所述待回答问题的概率。

具体地，所述问答预测模型还包括卷积层。

在实际应用中，可以分别将所述第二问题矩阵和所述第二类别信息矩阵输入至所述卷积层中进行处理，生成第二问题向量和第二类别信息向量；计算所述第二问题向量和所述第二类别信息向量的匹配度，并基于所述匹配度预测所述目标用户回答所述待回答问题的概率。

以上步骤的详细内容均可参见上述实施例，在此不再赘述。

下面结合具体的例子对本实施例做出进一步说明。

例如，假设获取到的待回答问题为“水煮鱼的制作步骤是怎样的？”，目标用户刘某的类别信息包括“美食”和“烹饪”。

将上述待回答问题和目标用户刘某的类别信息分别输入至问答预测模型的问题自注意力层的嵌入层和类别自注意力层的嵌入层中进行处理，生成第一问题向量和第一类别向量。将上述第一问题向量和第一类别向量分别输入至问题自注意力层的编码层和类别自注意力层的编码层中进行处理，生成第一问题矩阵和第一类别矩阵。

将上述第一问题矩阵和第一类别矩阵输入至互注意力层中进行处理，生成第二问题矩阵和第二类别矩阵。

将上述第二问题矩阵和第二类别矩阵分别输入至卷积层中进行处理，生成第二问题向量和第二类别信息向量，计算得到第二问题向量与第二类别信息向量的匹配度为95％，那么目标用户刘某回答问题“水煮鱼的制作步骤是怎样的？”的概率为95％。

本实施例所述问答预测方法，通过将待回答问题和目标用户的类别信息分别输入至自注意力层中处理，可以对待回答问题的内容和目标用户的类别信息的内容进行充分且全面的关注，有助于其中数据、特征信息内部相关性的捕捉，增加处理过程中对于内容本身的观察精细度，再将生成的第一问题矩阵和第一类别信息矩阵输入至互注意力层中进行处理，可以更进一步地关注到待回答问题和目标用户的类别信息中的不同内容，最后将生成的第二问题矩阵和第二类别信息矩阵输入至卷积层中进行处理得到预测结果，在尽可能多的关注到待回答问题内容及目标用户的类别信息内容的基础上，提高模型预测用户回答问题的概率的准确率。

如图8所示，图8是本申请一实施例所述的一种问答预测方法的步骤流程示意图，包括步骤S810至步骤S860。

S810、获取待回答问题和目标用户的类别信息。

S820、将所述待回答问题输入至问答预测模型的问题自注意力层中进行处理，生成第一问题矩阵。

S830、将所述类别信息输入至问答预测模型的问题自注意力层中进行处理，生成第一类别信息矩阵。

S840、将所述第一问题矩阵和所述第一类别信息矩阵输入至互注意力层进行处理，生成第二问题矩阵和第二类别信息矩阵。

S850、合并所述第二问题矩阵和所述第二类别信息矩阵，生成问题类别矩阵。

S860、将所述问题类别矩阵输入至所述前向编码层中进行处理，计算所述问题类别矩阵的损失值，并基于所述问题类别矩阵的损失值获得所述目标用户回答所述待回答问题的概率。

在实际应用中，可以基于所述问题类别矩阵的损失值确定所述待回答问题与所述类别信息的匹配度；基于所述待回答问题与所述类别信息的匹配度预测所述目标用户回答所述待回答问题的概率。

以上步骤的详细内容均可以参见上述实施例，在此不再赘述。

下面结合具体的例子对本实施例做出进一步说明。

例如，假设获取到的待回答问题为“瓷器胎体的焙烧温度多少最为适宜？”，目标用户于某的类别信息为“古董”。

将上述待回答问题和目标用户于某的类别信息分别输入至问答预测模型的问题自注意力层的嵌入层和类别自注意力层的嵌入层中进行处理，生成第一问题向量和第一类别向量。将上述第一问题向量和第一类别向量分别输入至问题自注意力层的编码层和类别自注意力层的编码层中进行处理，生成第一问题矩阵和第一类别矩阵。

合并上述第二问题矩阵和第二类别矩阵，生成问题类别矩阵并输入至前向编码层中进行处理，计算得到问题类别矩阵的损失值为0.65，那么上述待回答问题与目标用户于某的匹配度为0.35，则目标用户于某回答问题“瓷器胎体的焙烧温度多少最为适宜？”的概率为35％。

本实施例所述问答预测方法，通过将待回答问题和目标用户的类别信息分别至自注意力层中处理，可以对待回答问题的内容和目标用户的类别信息的内容进行充分且全面的关注，有助于其中数据、特征信息内部相关性的捕捉，增加处理过程中对于内容本身的观察精细度，再将生成的第一问题矩阵和第一类别信息矩阵输入至互注意力层中进行处理，可以更进一步地关注到待回答问题和目标用户的类别信息中的不同内容，最后将生成的第二问题矩阵和第二类别信息矩阵输入至前向编码层中进行处理得到预测的目标用户回答待回答问题的概率，在尽可能多的关注到待回答问题内容及目标用户的类别信息内容的基础上，提高模型预测用户回答问题的概率的准确率。

如图9所示，本实施例提供一种问答预测模型的训练装置，所述问答预测模型包括自注意力层和互注意力层；所述训练装置，包括：

样本获取模块910，被配置为获取训练样本和样本结果，其中，所述训练样本包括样本问题和样本用户的样本类别信息；

第一处理模块920，被配置为分别将所述样本问题和所述样本类别信息输入至自注意力层进行处理，生成第一样本问题矩阵和第一样本类别信息矩阵；

第二处理模块930，被配置为将所述第一样本问题矩阵和所述第一样本类别信息矩阵输入至互注意力层进行处理，生成第二样本问题矩阵和第二样本类别信息矩阵；

计算预测模块940，被配置为基于所述第二样本问题矩阵和所述第二样本类别信息矩阵进行匹配度计算处理，获得预测结果；

模型训练模块950，被配置为基于所述预测结果与所述样本结果进行计算并对所述问答预测模型进行迭代训练。

所述第一处理模块920，进一步被配置为：

可选地，所述问答预测模型还包括卷积层；

所述第二处理模块930，进一步被配置为：

可选地，所述问答预测模型还包括前向编码层；

所述计算预测模块940，进一步被配置为：

可选地，所述计算预测模块940，进一步被配置为：

可选地，所述模型训练模块950，进一步被配置为：

若是，则停止训练；

本申请提供的问答预测模型的训练装置，通过将样本问题和样本类别信息分别输入至自注意力层中处理，可以对样本问题的内容和样本类别信息的内容进行充分且全面的关注，有助于其中内容内部相关性的捕捉，增加处理过程中对于内容本身的观察精细度，再将生成的第一样本问题矩阵和第一样本类别信息矩阵输入至互注意力层中进行处理，可以更进一步地关注到样本问题和样本类别信息中的不同内容，最后将生成的第二样本问题矩阵和第二样本类别信息矩阵进行匹配度计算处理，在尽可能多的关注到样本问题内容及样本类别信息内容的基础上，提高模型的训练效果以及模型预测用户回答问题的概率的准确率。

如图10所示，本实施例提供一种问答预测装置，包括：

获取模块1010，被配置为获取待回答问题和目标用户的类别信息；

预测模块1020，被配置为分别将所述待回答问题和所述类别信息输入至问答预测模型中进行处理，获得所述目标用户回答所述待回答问题的概率；其中，所述问答预测模型是通过上述的训练方法训练得到的。

可选地，所述问答预测模型包括自注意力层和互注意力层；

所述预测模块1020，进一步被配置为：

可选地，所述问答预测模型还包括卷积层；

所述预测模块1020，进一步被配置为：

可选地，所述问答预测模型还包括前向编码层；

所述预测模块1020，进一步被配置为：

可选地，所述预测模块1020，进一步被配置为：

本申请提供的问答预测装置，通过将待回答问题和目标用户的类别信息输入至通过上述训练方法训练得到的问答预测模型中进行处理，得到目标用户回答待回答问题的概率，可以充分且全面的关注到待回答问题的文本内容，并基于待回答问题的文本内容确定该待回答问题所属的类别，提高待回答问题类别划分的准确率，解决了新用户提出新问题无法基于提出问题的用户对该问题进行类别划分的难题，基于待回答问题的文本内容与目标用户的类别信息之间的联系对目标用户回答该问题的概率进行预测，预测准确率高。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现以下步骤：

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述问答预测模型的训练方法或问答预测方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的问答预测模型的训练方法或问答预测方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述问答预测模型的训练方法或问答预测方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种问答预测模型的训练方法，其特征在于，所述问答预测模型包括自注意力层和互注意力层；

所述训练方法，包括：

2.根据权利要求1所述的问答预测模型的训练方法，其特征在于，所述自注意力层包括问题自注意力层和类别自注意力层；

3.根据权利要求2所述的问答预测模型的训练方法，其特征在于，所述问题自注意力层和所述类别自注意力层均包括嵌入层和编码层；

4.根据权利要求1所述的问答预测模型的训练方法，其特征在于，所述问答预测模型还包括卷积层；

5.根据权利要求1所述的问答预测模型的训练方法，其特征在于，所述问答预测模型还包括前向编码层；

6.根据权利要求5所述的问答预测模型的训练方法，其特征在于，所述基于所述样本问题类别矩阵的损失值获得预测结果，包括：

7.根据权利要求1所述的问答预测模型的训练方法，其特征在于，所述基于所述预测结果与所述样本结果进行计算并对所述问答预测模型进行迭代训练，包括：

若是，则停止训练；

8.一种问答预测方法，其特征在于，包括：

获取待回答问题和目标用户的类别信息；

其中，所述问答预测模型是通过权利要求1-7任意一项所述的训练方法训练得到的。

9.根据权利要求8所述的问答预测方法，其特征在于，所述问答预测模型包括自注意力层和互注意力层；

10.根据权利要求9所述的问答预测方法，其特征在于，所述自注意力层包括问题自注意力层和类别自注意力层；

11.根据权利要求10所述的问答预测方法，其特征在于，所述问题自注意力层和所述类别自注意力层均包括嵌入层和编码层；

12.根据权利要求9所述的问答预测方法，其特征在于，所述问答预测模型还包括卷积层；

13.根据权利要求9所述的问答预测方法，其特征在于，所述问答预测模型还包括前向编码层；

14.根据权利要求9所述的问答预测方法，其特征在于，所述基于所述问题类别矩阵的损失值获得所述目标用户回答所述待回答问题的概率，包括：

15.一种问答预测模型的训练装置，其特征在于，所述问答预测模型包括自注意力层和互注意力层；

所述训练装置，包括：

16.一种问答预测装置，其特征在于，包括：

17.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-7或者8-14任意一项所述方法的步骤。

18.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-7或者8-14任意一项所述方法的步骤。