CN111737474A

CN111737474A - 业务模型的训练和确定文本分类类别的方法及装置

Info

Publication number: CN111737474A
Application number: CN202010691951.3A
Authority: CN
Inventors: 金铭民
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-02
Anticipated expiration: 2040-07-17
Also published as: CN111737474B; US11216620B1; US20220019745A1

Abstract

本说明书实施例提供一种业务模型的训练方法及装置，以及确定文本分类类别的方法及装置。具体实施时，一方面，将文本用编码网络处理，得到相应的语义向量，另一方面，将分类类别按照层级关系建立关系网络，并通过图神经网络处理该关系网络，以融合节点之间的信息，得到类别表达向量。然后，将文本的语义向量和类别表达向量相融合，确定分类类别的预测结果。在业务模型训练阶段，可以将该预测结果与样本标签进行对比，以确定损失并调整模型参数，在利用训练好的业务模型确定文本分类类别的阶段，则可以根据预测结果与确定相应的分类类别。这种实施方式可以提高文本分类准确度。

Description

业务模型的训练和确定文本分类类别的方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及对用于预测文本分类类别的业务模型进行训练，以及使用训练好的业务模型确定文本分类类别的方法和装置。

背景技术

随着计算机技术的发展，机器学习的应用越来越广泛。人工智能（ArtificialIntelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能充分基于机器学习，为人类生活带来极大便利。在文本处理领域，人工智能的应用例如可以包括：个性化信息推送、敏感词识别、情感倾向分析、文案预测、文本类别预测，等等。

其中，文本类别预测可以为文本预测分类类别。本说明书中所指的分类类别，可以称为索引、query等。在实际业务场景中，文本的分类类别通常还具有层级信息，例如，一个文本“今天涨的最多的股票”，对应分类类别可能为 “金融|理财|股票”，包含由大到小的三个层级“金融”、“理财”、“股票”，一个文本“018新品上架！男女气垫鞋！”对应分类类别：“电商零售|服饰鞋包|运动鞋”，包含由大到小的三个层级“电商零售”、“服饰鞋包”、“运动鞋”等等。可以看出，分类类别纸巾包含的层级关系蕴含着丰富的层级信息，如果能充分利用这些层级信息，则可能提高人工智能对文本分类类别预测的准确性。

发明内容

本说明书一个或多个实施例描述了一种用于预测文本分类类别的业务模型的训练方法及装置，以及利用训练好的业务模型预测文本分类类别的方法及装置，用以解决背景技术提到的一个或多个问题。

根据第一方面，提供了一种业务模型的训练方法，所述业务模型包括编码网络、融合层、全连接层，用于确定文本分类类别，所述方法包括：从训练样本集中获取第一文本，所述第一文本对应有文本标签，所述文本标签从多个候选类别中确定；利用所述编码网络处理所述第一文本，得到第一语义向量；经由图神经网络处理类别层级关系网络，得到各个候选类别分别对应的各个类别表达向量，所述类别层级关系网络包括与各个候选类别一一对应的各个节点，具有直接上下级关系的候选类别之间由连接边连接，各个节点分别对应有相应类别特征向量作为初始的节点表达向量，所述图神经网络用于对各个节点分别进行邻居节点的节点表达向量聚合，以更新相应的节点表达向量，各个类别表达向量分别为经所述图神经网络最后一层更新后的相应节点表达向量；经由所述融合层，基于所述第一语义向量融合各个类别表达向量，得到针对所述第一文本的第一融合向量；通过所述全连接层，基于所述第一融合向量与所述第一语义向量，得到针对所述第一文本所属分类类别的第一预测结果；以所述第一预测结果与所述文本标签相一致为目标，调整所述编码网络、所述图神经网络、融合层、全连接层中的模型参数，从而训练所述业务模型。

根据一个实施例，所述第一文本对应有多个层级的候选类别，所述文本标签是其中最低层级的候选类别。

根据一个实施例，所述第一语义向量与所述类别表达向量的维数均为s，所述经由所述融合层，基于所述第一语义向量融合各个类别表达向量，得到针对所述第一文本的第一融合向量包括：根据所述第一语义向量与各个类别表达向量的对比，确定各个类别表达向量分别与所述第一语义向量的各个第一相似度；利用各个第一相似度对各个类别表达向量加权求和，得到所述第一融合向量，其中，各个类别表达向量的权重与相应的第一相似度正相关。

根据一个实施例，所述候选类别的数量为n，所述第一语义向量与所述类别表达向量的维数均为s，所述经由所述融合层，基于所述第一语义向量融合各个类别表达向量，得到针对所述第一文本的第一融合向量包括：获取与所述第一语义向量对应的s维行向量，以及由n个类别表达向量依次排列组成的s行n列的类别向量矩阵；基于所述s维行向量与所述s行n列的类别向量矩阵的乘积，确定n维的中间向量；将所述n维中间向量中的各个元素，分别作为相应候选类别的加权权重，对各个类别表达向量加权平均，得到所述第一融合向量。

根据一个实施例，所述通过所述全连接层，基于所述第一融合向量与所述第一语义向量，得到针对所述第一文本所属分类类别的第一预测结果包括：将所述第一融合向量与所述第一语义向量拼接，得到第一拼接向量；通过所述全连接层处理所述第一拼接向量，得到所述第一预测结果。

根据一个实施例，所述以所述第一预测结果与所述文本标签相一致为目标，调整所述编码网络、所述图神经网络、融合层、全连接层中的模型参数，从而训练所述业务模型包括：利用交叉熵的方式确定所述第一预测结果相对于所述文本标签的损失；向所述损失减小的方向调整所述编码网络、所述图神经网络、融合层、全连接层中的模型参数。

根据一个实施例，在初始的各个类别特征向量为随机值的情况下，所述方法还包括：以所述第一预测结果与所述文本标签相一致为目标，调整所述类别层级关系网络中的各个类别特征向量。

根据第二方面，提供一种确定文本分类类别的方法，通过包括编码网络、融合层、全连接层的业务模型实现，所述确定文本分类类别的方法包括：获取待确定分类类别的第二文本；利用预先训练的编码网络处理所述第二文本，得到所述第二文本对应的第二语义向量；获取经由预先训练的图神经网络处理类别层级关系网络得到的各个候选类别分别对应的各个类别表达向量，其中，所述类别层级关系网络包括与各个候选类别一一对应的各个节点，具有直接上下级关系的候选类别之间由连接边连接，各个节点分别对应有各个类别特征向量作为初始的节点表达向量，所述图神经网络用于将各个类别特征向量对各个节点分别进行邻居节点的节点表达向量聚合，从而更新相应的节点表达向量，各个类别表达向量为经所述图神经网络最后一层更新后的相应节点表达向量；经由所述融合层，基于所述第二语义向量融合各个类别表达向量，得到针对所述第二文本的第二融合向量；通过所述全连接层，基于所述第二融合向量与所述第二语义向量，得到针对所述第二文本所属分类类别进行描述的第二预测结果；根据所述第二预测结果确定所述第二文本的分类类别。

根据一个实施例，所述第二语义向量与所述类别表达向量的维数均为s，所述经由所述融合层，基于所述第二语义向量融合各个类别表达向量，得到针对所述第二文本的第二融合向量包括：根据所述第二语义向量与各个类别表达向量的对比，确定各个类别表达向量分别与所述第二语义向量的各个第二相似度；利用各个第二相似度对各个类别表达向量加权求和，得到所述第二融合向量，其中，各个类别表达向量的权重与相应的第二相似度正相关。

根据一个实施例，所述候选向量的数量为n，所述第二语义向量与所述类别表达向量的维数均为s，所述经由所述融合层，基于所述第二语义向量融合各个类别表达向量，得到针对所述第二文本的第二融合向量包括：获取与所述第二语义向量对应的s维行向量，以及由n个类别表达向量依次排列组成的s行n列的类别向量矩阵；基于与所述第二语义向量对应的s维行向量与所述s行n列的类别向量矩阵的乘积，确定n维的中间向量；将所述n维中间向量中的各个元素，分别作为相应候选类别的加权权重，对各个类别表达向量加权平均，得到所述第二融合向量。

根据一个实施例，所述通过所述全连接层，基于所述第二融合向量与所述第二语义向量，得到针对所述第二文本所属分类类别的第二预测结果包括：将所述第二融合向量与所述第二语义向量拼接，得到第二拼接向量；通过所述全连接层处理所述第二拼接向量，得到所述第二预测结果。

根据第三方面，提供一种业务模型的训练装置，所述业务模型包括编码网络、融合层、全连接层，用于确定文本分类类别，所述装置包括：

获取单元，配置为从训练样本集中获取第一文本，所述第一文本对应有文本标签，所述文本标签从多个候选类别中确定；

编码单元，配置为利用所述编码网络处理所述第一文本，得到第一语义向量；

处理单元，配置为经由图神经网络处理类别层级关系网络，得到各个候选类别分别对应的各个类别表达向量，所述类别层级关系网络包括与各个候选类别一一对应的各个节点，具有直接上下级关系的候选类别之间由连接边连接，各个节点分别对应有相应类别特征向量作为初始的节点表达向量，所述图神经网络用于对各个节点分别进行邻居节点的节点表达向量聚合，以更新相应的节点表达向量，各个类别表达向量分别为经所述图神经网络最后一层更新后的相应节点表达向量；

融合单元，配置为经由所述融合层，基于所述第一语义向量融合各个类别表达向量，得到针对所述第一文本的第一融合向量；

预测单元，配置为通过所述全连接层，基于所述第一融合向量与所述第一语义向量，得到针对所述第一文本所属分类类别的第一预测结果；

调整单元，配置为以所述第一预测结果与所述文本标签相一致为目标，调整所述编码网络、所述图神经网络、融合层、全连接层中的模型参数，从而训练所述业务模型。

根据第四方面，提供一种确定文本分类类别的装置，通过包括编码网络、融合层、全连接层的业务模型实现，所述装置包括：

文本获取单元，配置为获取待确定分类类别的第二文本；

编码单元，配置为利用预先训练的编码网络处理所述第二文本，得到所述第二文本对应的第二语义向量；

向量获取单元，配置为获取经由预先训练的图神经网络处理类别层级关系网络得到的各个候选类别分别对应的各个类别表达向量，其中，所述类别层级关系网络包括与各个候选类别一一对应的各个节点，具有直接上下级关系的候选类别之间由连接边连接，各个节点分别对应有各个类别特征向量作为初始的节点表达向量，所述图神经网络用于将各个类别特征向量对各个节点分别进行邻居节点的节点表达向量聚合，从而更新相应的节点表达向量，各个类别表达向量为经所述图神经网络最后一层更新后的相应节点表达向量；

融合单元，配置为经由所述融合层，基于所述第二语义向量融合各个类别表达向量，得到针对所述第二文本的第二融合向量；

预测单元，配置为通过所述全连接层，基于所述第二融合向量与所述第二语义向量，得到针对所述第二文本所属分类类别进行描述的第二预测结果；

确定单元，配置为根据所述第二预测结果确定所述第二文本的分类类别。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面的方法。

通过本说明书实施例提供的方法和装置，一方面，将文本用编码网络处理，得到相应的语义向量，另一方面，将分类类别按照层级关系建立关系网络，并通过图神经网络处理该关系网络，以融合节点之间的信息，得到类别表达向量。然后，将文本的语义向量和类别表达向量相融合，确定分类类别的预测结果。在业务模型训练阶段，可以将该预测结果与样本标签进行对比，以确定损失并调整模型参数，在利用训练好的业务模型确定文本分类类别的阶段，可以预测结果确定相应的分类类别。这种处理方式由于充分利用了分类类别之间的层级关系，从而可以提高分类准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书的业务模型的实施架构示意图；

图2示出一个具体例子的类别层次关系网络示意图；

图3示出根据一个实施例的业务模型的训练方法流程图；

图4示出一个具体例子的编码网络原理示意图；

图5示出根据一个实施例的确定文本的分类类别的方法流程图；

图6示出根据一个实施例的业务模型的训练装置的示意性框图；

图7示出根据一个实施例的确定文本的分类类别的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

首先，结合图1示出一个具体实施架构进行说明。在本说明书的实施架构下，通过对文本和具有层级关系的类别两方面分别进行处理，再进行融合，可以得到结合类别层级关系的文本类别输出结果。

可以理解，本说明书提供的技术方案的使用场景可以是存在层级关系的各种文本类别或query场景。举例而言，商品的描述文本，对应的文本类别可以是搜索词、关键词等，如背景技术里提到的文本“018新品上架！男女气垫鞋！”，以及对应分类类别：“电商零售|服饰鞋包|运动鞋”，包含由大到小的三个层级“电商零售”、“服饰鞋包”、“运动鞋”。再例如，学术数据库中的论文文本，对应的分类类别也可以包括：学科领域（如物理等）、学科分支（如光学等）、具体研究对象（如光伏发电）等等多个层级。

如图1所示，在本说明书的实施架构下，业务模型至少可以包括编码网络、融合层、全连接层。图1示出的图神经网络（GCN）可以作为业务模型的额一部分，也可以是独立于业务模型，和业务模型配合实现确定文本的分类类别的其他模型。

具体地，一方面，经过编码网络对文本（例如“018新品上架！男女气垫鞋！”）进行处理，得到相应的语义向量；另一方面，可以通过图神经网络处理由各个层级的候选类别构成的类别层级关系网络，从而确定各个候选类别分别对应的类别表达向量。

其中，类别层级关系网络可以根据具有层次关系的候选类别之间的关联关系确定。类别层级关系网络可以包括多个节点，每个节点对应一个候选类别。如果候选类别之间具有直接的层级关系，则相应节点之间通过连接边连接。例如，候选类别“电商零售”、“服饰鞋包”、“运动鞋”之间依次从大的类别到小的类别，则依次通过连接边连接，构成相应连接路径。例如，该类别层级关系网络可以是树形结构，树形结构中的一条路径如，餐饮、中餐、川菜、山珍，则其中的最低层级的候选类别“山珍”对应叶子节点。

作为一个示例，可以参考图2所示，为一个同城线上平台的各种生活服务类别的一个关系网络。在该关系网络中，根节点为生活服务，其下有几个大的分类，如餐饮美食、服装配饰、房产服务、家政周边、招聘学习等等，各个大的分类下面还有多个进一步的分类，例如餐饮美食可以分为基础餐饮、休闲享受等等，基础餐饮还可以分为中餐、西餐……等等，在此不再一一列举。假设候选类别中餐的下一层级还包括川菜、湘菜、粤菜等，且这是最低层级，相应的节点分别为叶子节点。可以理解，一个文本被分类到某个叶子节点对应的候选类别时，其同时也是该叶子节点所在路径上的各个类别下的类别。例如，文本“鱼香肉丝”对应候选类别“川菜”，则其同时也可以对应着候选类别“中餐”、“基础餐饮”、“餐饮美食”、“生活服务”等候选类别，且具有他们的特征。

由于分类类别之间存在这种层级关系，如果将具有连接关系的候选类别作为彼此的邻居节点，那么，如果能把相关邻居节点的信息聚合在一起，则可以更准确地表达当前节点对应的候选类别，从而有利于进行更准确的分类。本说明书基于这种考虑，可以用类别特征向量来描述各个节点。在一个实施例中，类别特征向量例如可以是通过word2Vec等确定的候选类别词汇的词向量。在另一个实施例中，初始的关系网络中类别特征向量还可以是随机生成的预定维数向量，或者是由预定值组成的向量。类别特征向量通常是用于描述候选类别本身特征的向量。

在通过图神经网络处理类别层级关系网络的过程中，针对任一个节点，例如称为第一节点，可以将其邻居节点对应的类别特征向量与其自身对应的类别特征向量作为初始的节点表达向量进行融合，以更新该第一节点的节点表达向量。这里，节点表达向量可以理解为相应节点在关系网络中的所表达出来的特征的向量。

在一个实施方式中，可以将第一节点及其邻居节点的节点表达向量在各个维度上通过取最大值、求平均等方式进行融合，以更新第一节点的节点表达向量。

在另一个实施方式中，可以对第一节点及其邻居节点的节点表达向量以加权求和等方式进行融合。各个邻居节点还可以对应不同的权重系数。

可以理解的是，在图神经网络有多层的情况下，上述邻居节点的节点表达向量的融合过程被迭代执行。即，每一层在前一层对节点表达向量的更新结果上进行。

作为一个具体示例，例如，通过图神经网络处理关系网络时，确定第

+1层的第一节点（这里记为节点v）的节点表达向量的卷积算子可以为：

其中：

是节点v在图神经网络的第

+1层的节点表达向量；

是节点v的邻居节点集合；

、

是归一化因子，比如是相应节点的度，即，与相应节点连接的连接边数量，或者一阶邻居节点的数量；

是节点v在图神经网络的第

层的节点表达向量；

是节点u在图神经网络的第

层的节点表达向量；

是相应节点图神经网络第

层的模型参数。邻居节点有多个时，

可以是矩阵形式的模型参数，例如称为权重矩阵。公式还可以考虑当前节点的更高阶邻居节点的表达向量聚合，在此用省略号表示，其原理与一阶邻居节点的表达向量聚合类似，在此不再赘述。可以理解的是，前一层的节点表达向量，在图神经网络的第一层可以是相应候选类别的类别特征向量，在之后的各层可以是前一层更新后的节点表达向量。为了统一，可以将类别特征向量看作第0层的节点表达向量。

在其他实施方式中，还可以根据实际情况通过其他方式融合邻居节点表达向量，以更新第一节点的节点表达向量，在此不再赘述。

可以理解的是，由于第一节点的节点表达向量更新过程中，其自身的节点表达向量具有重要的贡献，因此，在一些实施例中，也可以将第一节点看作其自身的邻居节点，例如，在以上公式中，假设节点v的节点表达向量由其自身及一阶邻居节点的节点表达向量确定，则以上公式还可以记为：

其中，邻居节点集合

包括节点v，在u取节点v时，

可以记为

。

如此，在图神经网络运行结束时，会得到各个节点最终的节点表达向量。各个最终的节点表达向量是结合候选类别之间的层级关系，所表达出来的特征构成的向量，因此，各个节点最终的节点表达向量可以作为相应候选类别的类别表达向量。

值得说明的是，在候选类别不变的情况下，类别层级关系网络中的连接关系通常也保持不变。因此，类别表达向量可以预先通过确定的类别层级关系网络和确定的图神经网络得到，以待使用，也可以在对文本处理的同时或者在文本的语义向量之后，通过当前的图神经网络和当前的类别层级关系网络确定。这里所说的确定的类别层级关系网络和确定的图神经网络是指，当前阶段不管对什么样的文本预测类别，类别层级关系网络和图神经网络都可以是一样的。也正是因为如此，在一些实施例中，可以预先通过图神经网络对类别层级关系网络进行处理，得到各个候选类别分别对应的各个类别表达向量。

在通过编码向量得到文本语义向量，并获取到各个节点分别对应的各个节点表达向量后，还可以通过融合层，将各个节点表达向量融合在一起，得到针对文本的融合向量。该融合向量是对各个类别表达向量进行融合的结果。然后，可以通过全连接层将融合向量和语义向量进一步融合，从而得到针对文本所属分类类别的预测结果。该预测结果可以作为确定文本的分类类别的依据。例如，该预测结果可以是与各个候选类别对应的向量，各个维度描述出分类到相应类别的概率。再例如，该预测结果可以是对分类类别的向量表达，则可以检测最终处理得到的预测结果更接近哪一个候选类别对应的类别特征向量。当然，在业务模型训练过程中，更希望预测结果与训练样本的文本标签相一致。

如此，从图1示出的说明书框架可以看出，通过引入由候选类别构造的类别层级关系网络，从而可以挖掘类别层级之间的关联，更好地表达各个候选类别，从而提高对文本分类的准确度。

图1描述了本说明书的技术框架。下面分别从业务模型的训练和使用业务模型确定文本分类类别两方面，详细介绍本说明书的技术构思。

图3示出了根据一个实施例的业务模型的训练流程。这里的业务模型可以用于预测文本分类类别，或者说为文本分类。该业务模型至少包括编码网络、融合层和全连接层。在可选的实现方式中，还可以包括图神经网络。该流程的执行主体可以是具有一定计算能力的计算机、设备或服务器。

如图3所示，业务模型的训练流程可以包括：步骤301，从训练样本集中获取第一文本，第一文本对应有文本标签，文本标签从多个候选类别中确定；步骤302，利用编码网络处理第一文本，得到第一语义向量；步骤303，经由图神经网络处理类别层级关系网络，得到各个候选类别分别对应的各个类别表达向量，类别层级关系网络包括与各个候选类别一一对应的各个节点，具有直接上下级关系的候选类别之间由连接边连接，各个节点分别对应有相应类别特征向量作为初始的节点表达向量，图神经网络用于对各个节点分别进行邻居节点的节点表达向量聚合，以更新相应的节点表达向量，各个类别表达向量分别为经图神经网络最后一层更新后的相应节点表达向量；步骤304，经由融合层，基于第一语义向量融合各个类别表达向量，得到针对第一文本的第一融合向量；步骤305，通过全连接层，基于第一融合向量与第一语义向量，得到针对第一文本所属分类类别的第一预测结果；步骤306，以第一预测结果与文本标签相一致为目标，调整编码网络、图神经网络、融合层、全连接层中的模型参数，从而训练上述业务模型。

首先，在步骤301，从训练样本集中获取第一文本。这里，第一文本可以是训练样本集中的一条训练样本，其内容可以根据业务场景而定。第一文本例如可以是一篇论文、一个商品或服务的描述标题、一篇新闻稿件等等。作为训练样本，第一文本还可以对应有文本标签，文本标签从多个候选类别中确定。这里的候选类别可以是与业务相关的各个类别。例如生活服务业务中的候选类别可以包括“餐饮美食”、“家政周边”、“中餐”、“西餐”等等。

通常，类别之间还可以具有层级关系。这种层级关系可以用于对文本进行归纳整理，也可以用于为检索或者搜索提供便利。类别之间的层级关系中，通常一个大类别下可以包含多个子类别。例如“中餐”类别下可以包括“川菜”、“粤菜”、“湘菜”等等。各个层级的类别都可以作为候选类别。第一文本对应的文本标签可以为一个或多个。特别地，如果第一文本对应的文本标签有多个，那么当其对应某个小类别时，该小类别的上一层级候选累呗也可以作为第一文本对应的文本标签。在一个实施例中，第一文本对应的文本标签特指最低层级的候选类别。

接着，在步骤302，利用编码网络处理第一文本，得到第一语义向量。可以理解，所谓编码，可以理解为将输入序列转化成一个固定长度的向量，编码的过程可以用来解析输入的字符序列中的语言含义。编码网络例如可以通过DNN、GBDT等实现，其也可以是Bert模型中的encode部分的网络。

以Bert模型为例，如图4所示，可以通过以下流程确定第一文本的第一语义向量。首先，对第一文本进行分词处理。该分词处理可以将第一文本逐字或逐词拆分。可选地，在分词之前还可进行去除以下至少一项的预处理：敏感词、无效词、空格、乱码等等。例如图4中，可以对文本“018新品上架！男女气垫鞋！”先进行预处理，去除“018”、“！”等无效字符，再逐字拆分。在其他实施例中，也可以按照词汇拆分为“新品”、“上架”、“男”、“女”、“气垫鞋”。为了描述方便，在本说明书中，不管按字拆分还是按词汇分词，都可以对拆分后的各个拆分单元统称为词汇。

之后，可以通过嵌入层确定各个词汇的嵌入向量（embedding）。如图4所示，在Bert中，单个词汇的嵌入向量通常可以通过相应字或词的词嵌入向量Token Embeddings、段落嵌入向量Segment Embeddings、位置嵌入向量Position Embeddings等中的至少一项确定。通常：位置嵌入向量是NLP（自然语言处理）中表明句子中词汇顺序的重要特征，其可以通过对词汇的位置信息（例如第几个字符）进行编码确定，可以令BERT感知字/词之间的位置关系，其可以通过模型学习得到；词嵌入向量可以是根据预先通过语料库训练的词向量模型中确定的相应字符的字向量，这里的词向量模型可以是诸如独热表示（one-hot）、word2vec之类的模型；段落嵌入向量可以是词汇对应的段落整体的一个嵌入向量，用于表示拼接文本的分割，例如为每一个通过标点分隔开的语句分配一个段落嵌入向量，单个字符可以使用相对应的段落嵌入向量。

如图4所示，用t1、t2、t3……表示各个词汇在嵌入层最终获得的嵌入向量。在得到各个词汇的嵌入向量之后，可以通过多个编码层处理各个词汇的嵌入向量，从而得到语义向量v。编码层例如可以通过诸如transformer之类的方式实现。transformer编码层可以基于注意力机制对各个词汇进行语义关联分析，在此不再赘述。通过多个编码层可以得到多个词汇分别对应的各个融合有其他词汇信息的表达向量，可以选择特定位置（如图4中CLS位置）的向量作为文本的语义向量，也可以以预定方式（如求和、求平均、拼接后通过全连接网络处理等）将各个词汇的表达向量融合在一起得到文本的语义向量，在此不做限定。该语义向量v可以看作是对相应文本提取的特征向量，也可以看作是对相应文本的抽象表达向量。针对第一文本，可以将得到的语义向量称为第一语义向量。

另一方面，在步骤303，经由图神经网络处理类别层级关系网络，得到各个候选类别分别对应的各个类别表达向量。其中，类别层级关系网络用于通过与各个候选类别一一对应的各个节点描述候选类别之间的层级关系。例如图2示出的树形结构的关系网络。类别层级关系网络中的各个节点还可以分别对应有相应候选类别的类别特征向量。该类别特征向量可以用于描述相应候选类别的语义特征。

图神经网络的单层神经网络可以对类别层级关系网络进行邻居节点的节点表达向量聚合，并在当前层更新各个节点的节点表达向量。其中，在第一层，可以将各个节点对应的类别特征向量作为初始的节点表达向量，进行邻居节点的表达向量融合。最初始时，类别特征向量例如可以是诸如word2Vec模型、ond-hot之类的方式确定的词向量，也可以是随机向量，在此不作限定。其中，随机向量可以在业务模型的训练过程中被调整，诸如word2Vec模型、ond-hot之类的方式确定的词向量可以保持不变。

图神经网络对类别层级关系网络的处理在前文进行了详细描述，在此不再重复。经过图神经网络的处理，可以得到各个节点最终的节点表达向量，作为相应候选类别的类别表达向量。

值得说明的是，在本说明书的实现方式中，为了方便后续处理，类别表达向量可以与第一语义向量可以具有相同的维度，例如都是100维。

步骤304，经由融合层，基于第一语义向量融合各个类别表达向量，得到针对第一文本的第一融合向量。可以理解，各个类别表达向量分别融合了相应候选类别在各自邻居节点上的语义特征。为了预测第一文本对应的分类类别，需要基于第一文本的第一语义向量，对各个类别表达向量进行分析。

为了对各个类别表达向量进行分析，本说明书的技术构思提出基于文本的语义向量对各个类别表达向量进行融合的方式。也就是说，针对第一文本，基于各个类别表达向量与第一语义向量的关联程度，将各个候选类别对应的类别表达向量融合在一起。

在一个实现方式中，可以检测各个类别表达向量分别与第一语义向量的各个第一相似度，并根据第一相似度确定各个权重，对各个类别表达向量进行加权求和，从而融合各个类别表达向量，得到针对第一文本的第一融合向量。其中，各个类别表达向量对应的权重与其对应的额第一相似度正相关，例如为相应的第一相似度本身，或者第一相似度的归一化结果等。

这里，第一相似度中的“第一”是与第一文本相对应的描述，其不对实际含义产生实质性影响（例如解读为第一文本还对应第二相似度等）。下同。

在另一个实现方式中，可以将各个类别表达向量组合在一起，构成类别向量矩阵，然后，用第一语义向量对该类别向量矩阵进行处理，从而融合各个类别表达向量。例如，候选类别数量（与节点数量一致）为n，单个类别表达向量可以记为s维的列向量（行向量可以转置成列向量），则可以构成s行n列的类别向量矩阵。其中的每一列对应一个候选类别。第一语义向量的维度与类别表达向量一致，为s维，将文本语义向量记为s维的行向量（也可以说是1行s列的矩阵）。如果第一语义向量为列向量，则转置为s维的行向量。于是，如果用第一语义向量与类别向量矩阵相乘，则得到1行n列的中间向量，或称为n维的中间向量。该中间向量的每一维为，第一语义向量与相应类别表达向量的乘积标量，该标量可以衡量相应类别表达向量相对于第一语义向量的重要程度。

将该中间向量记为k，第一语义向量记为v，类别向量矩阵记为T=（t₁，t₂，t₃……）。其中，t₁、t₂、t₃……分别为各个s维的类别表达向量。在一个具体示例中，k可以表示为：

其中，Softmax为激活函数，或映射函数，用于将结果映射到预定区间。这样，k的第i维度元素k_i可以由vt_i确定，并可以用于衡量相应类别表达向量相对于第一语义向量的重要程度。

进一步地，将各个类别表达向量按照中间向量k指示出的重要程度加权融合，可以得到关系网络针对第一文本的第一融合向量。

例如，将第一融合向量记为a，则有：

其中，

表示第j个节点表达向量，

表示中间向量k的第j个元素，该式表示按j从1到n的求和。

可以理解，这里的第一融合向量基于第一文本的第一语义向量进行融合，可以理解为针对第一文本的个性化的综合的类别向量表示，因此，该第一融合向量对第一文本的类别预测具有重要参考价值。

进一步地，在步骤305，通过全连接层，基于第一融合向量与第一语义向量，得到针对第一文本所属分类类别的第一预测结果。可以理解，第一语义向量包含第一文本的语义特征，第一融合向量包含类别层次关系网络中各个候选类别的层次特征，以及相对于第一文本的重要性特征，因此，将两者融合，可以用于确定针对第一文本所属分类类别。

在一个实施例中，可以将第一融合向量与第一语义向量叠加，然后通过全连接层处理，得到预测结果。

在另一个实施例中，可以将第一融合向量与第一语义向量拼接在一起，然后通过全连接层的处理，得到预测结果。

在其他实施例中，还可以将第一融合向量与第一语义向量由其他方式处理后，通过全连接层的处理，得到预测结果，在此不再赘述。

全连接层，通俗的说就是前面一层的每个神经元都与后面一层的各个神经元相按照不同权重（模型参数）相连接。通过全连接层，可以将第一融合向量与第一语义向量进行深层的融合。

值得说明的是，预测结果可以是数值形式，也可以是向量形式。数值形式例可以是与候选类别相对应的数值，或者二分类中分类到其中一个类别的概率。向量形式例如可以是：各个维度分别与全部候选类别或部分候选类别（如树形结构中的叶子结点对应的候选类别）一一对应的概率向量，每个维度表示分类到相应候选类别的概率；或者，与类别特征向量维度一致的预测语义向量，用于与类别特征向量进行匹配。

接着，在步骤306，以第一预测结果与文本标签相一致为目标，调整编码网络、图神经网络、融合层、全连接层中的模型参数，从而训练业务模型。可以理解，预测结果作为业务模型的输出结果，可以对应到针对第一文本所属分类类别。在业务模型训练过程中，希望该预测结果与描述第一文本所属分类类别的文本标签相一致。

在一个实施例中，各个候选类别分别通过不同的数值表示，步骤305的预测结果是这些不同的数值中的一个，可以向预测结果与文本标签对应的数值一致的方向调整模型参数。

在一个实施例中，各个候选类别分别对应一个在某个维度为1的向量，且该向量的维度与全部候选类别或者部分候选类别（如树形结构中的叶子结点对应的候选类别）数量一致，则预测结果与文本标签相一致，可以是预测结果向量与文本标签对应的向量相一致。

在又一个实施例中，该预测结果可以是表达第一文本所属分类类别的语义向量，则其与第一文本的文本标签对应的类别的描述向量，即文本标签对应的候选类别的类别特征向量相一致，可以表示预测结果与文本标签相一致。

在其他实施例中，预测结果与文本标签相一致还可以通过其他的方式确定，再次不再一一列举。进一步地，可以以预测结果与文本标签相一致为目标，调整业务模型中所涉及的各个模型参数。

可以理解，业务模型包括编码网络、融合层、全连接层，相应的模型参数可以包括编码网络、融合层、全连接层中所涉及的所有模型参数。根据步骤301-步骤305的描述，图神经网络在业务模型训练过程中，也存在一些模型参数，这些模型参数对预测结果具有至关重要的作用，而单单依靠图神经网络本身确定这些参数，会使问题变得复杂。因此，业务模型训练过程中所涉及的各个模型参数也可以包括图神经网络中涉及的模型参数，例如权重矩阵、初始的节点表达向量（即类别特征向量）中的一项或多项。可选地，图神经网络也可以作为业务模型的一部分。

根据一个可能的设计，可以通过交叉熵的方式确定损失，并向损失减小的方向调整各个模型参数。例如，对m个训练样本，损失可以通过以下方式衡量：

其中，V表示当前批次的训练样本集合，

表示描述训练样本u对应的文本类别的数值或向量，

表示针对样本u确定的预测结果。

可以理解，由于在模型训练结束时，图神经网络的各种参数确定下来，并且对于各个待预测文本而言，其模型参数可以是固定的，在候选类别固定，并且候选类别对应的类别特征向量也固定的情况下，图神经网络对关系网络的处理结果也是固定的。也就是说，各个候选类别分别对应的类别表达向量是可以供多个文本反复使用的。因此，在使用时，图神经网络可以认为是与业务模型相互独立的模型。在可选的实现方式中，使用时，可以预先利用图神经网络对关系网络进行处理，获得公用的处理结果，即各个节点分别对应的各个最终的节点表达向量。

本领域技术人员可以理解，如果最初始的类别特征向量是通过诸如word2Vec、one-hot等方式确定的词向量，其可以表达特定的含义，则在业务模型训练过程中，类别特征向量一致保持不变。而如果最初始的类别特征向量是随机向量，则没有实际含义，则需要在模型训练过程中，将类别特征向量与模型参数一起进行调整。当模型训练结束时，类别特征向量和图神经网络本身的其他模型参数被确定。

值得说明的是，在业务模型训练过程中，一次调整模型参数的过程中可能涉及多个训练样本。此时，还可以在得到多个训练样本文本的语义向量之后，一起与各个类别表达向量进行融合。例如，m个文本语义向量构成m行s列的语义向量矩阵，与n个候选类别对应的s行n列的标签向量矩阵相乘，得到m行n列的中间矩阵。该中间矩阵每一行对应一个训练样本。单行中的每个元素分别表示相应候选类别相对于该行对应的文本的重要程度。

另一方面，本说明书实施例还提供一种确定文本分类类别的方法。图5示出了该方法流程的一个具体示例。其中，确定文本分类类别的方法可以通过至少包括编码网络、融合层、全连接层的业务模型实现。该业务模型例如可以通过图3示出的流程进行训练，在此不做赘述。

如图5所示，确定文本分类类别的流程可以包括以下步骤：步骤501，获取待确定分类类别的第二文本；步骤502，利用预先训练的编码网络处理第二文本，得到第二文本对应的第二语义向量；步骤503，获取经由预先训练的图神经网络处理类别层级关系网络得到的各个候选类别分别对应的各个类别表达向量，其中，类别层级关系网络包括与各个候选类别一一对应的各个节点，具有直接上下级关系的候选类别之间由连接边连接，各个节点分别对应有各个类别特征向量作为初始的节点表达向量，图神经网络用于将各个类别特征向量对各个节点分别进行邻居节点的节点表达向量聚合，从而更新相应的节点表达向量，各个类别表达向量为经图神经网络最后一层更新后的相应节点表达向量；步骤504，经由融合层，基于第二语义向量融合各个类别表达向量，得到针对第二文本的第二融合向量；步骤505，通过全连接层，基于第二融合向量与第二语义向量，得到针对第二文本所属分类类别进行描述的第二预测结果；步骤506，根据第二预测结果确定第二文本的分类类别。

首先，通过步骤501，获取待确定分类类别的第二文本。可以理解，第二文本可以是与业务场景相关的各种文本。例如，可以是一篇论文、一个商品或服务的描述标题、一篇新闻稿件等等。

接着，在步骤502，利用预先训练的编码网络处理第二文本，得到第二文本对应的第二语义向量。其中，编码网络可以将输入序列转化成一个固定长度的向量，编码的过程可以用来解析输入的字符序列中的语言含义。编码网络例如可以通过DNN、GBDT等实现，其也可以是Bert模型中的encode部分的网络。

这里，编码网络可以通过图3示出的流程进行训练。其中，针对第二文本，编码网络的输入序列可以是对第二文本进行分词或拆字处理后的各个词汇。可选地，还可以先提前对第二文本进行去除以下至少一项的预处理：敏感词、无效词、空格、乱码等等。其中，编码网络对第二文本的处理过程与对第一文本的处理过程类似，在此不再赘述。

另一方面，在步骤503，获取经由预先训练的图神经网络处理类别层级关系网络得到的各个候选类别分别对应的各个类别表达向量。其中，这里的类别层级关系网络通过针对第二文本的业务场景的各个候选类别确定。可以理解，不同的业务场景，其候选业务类别也可以不同。例如，在学术论文存储或检索场景下，对应的候选类别可以包括：物理学科、光学分支、光伏发电、生物学科、物种起源，等等。图2示出的具体例子中，同城线上生活服务平台的候选类别可以包括：餐饮美食、服装配饰、房产服务、家政周边、招聘学习等等。通常，这些候选类别之间具有层级关系，其可以通过诸如树形之类的关系网络来描述。在类别层级关系网络中，各个节点分别对应各个候选类别，具有归属关系的候选类别对应的节点之间通过连接边连接。

对于这种描述候选类别之间的层级关系的关系网络，可以通过训练好的图神经网络进行处理，以在各个候选类别上融合邻居节点的特征。各个节点的初始特征可以通过相应的类别特征向量来描述。

可以理解，类别特征向量可以是word2Vec之类的方式确定的词向量，也可以是由生成的随机向量在图神经网络训练过程中随之调整确定的向量。不管初始的类别特征向量是哪种形式得到的，对于固定的类别层级关系网络，在图神经网络训练完成时，类别特征向量都被确定下来，图神经网络的网络参数（如前文中的

）也被确定下来，那么图神经网络以类别特征向量为节点初始的节点表达向量进行迭代的邻居向量融合，得到的结果也是确定的。因此，在该流程中，类别表达向量可以是预先通过训练好的图神经网络处理类别表达向量确定下来的。在该步骤503中，可以直接获取各个类别表达向量。

接着，在步骤504中，经由融合层，基于第二语义向量融合各个类别表达向量，得到针对第二文本的第二融合结果。可以理解，各个类别表达向量分别描述了各个候选类别结合邻居节点的语义特征。为了确定第二文本对应的分类类别，需要基于第二语义向量，对各个类别表达向量进行分析。

在一个实现方式中，可以检测各个类别表达向量分别与第二语义向量的各个第二相似度，并根据各个第二相似度确定加权权重，从而对各个类别表达向量进行加权求和，达到融合各个类别表达向量的目的。针对第二文本的融合向量可以称为第二融合向量。其中，单个类别表达向量的上述加权权重可以与相应第二相似度正相关，例如为第二相似度的归一化结果等。

值得说明的是，这里的“第二相似度”中的“第二”，是为了和“第二文本”对应一致，而不对相似度本身进行实质性的限定。

在另一个实现方式中，可以将各个类别表达向量组合在一起，构成类别向量矩阵，然后，基于第二语义向量对该类别向量矩阵进行处理，从而融合各个类别表达向量。可选地，可以根据第二语义向量与标签向量矩阵的乘积，确定各个候选类别相对于第二文本的重要程度，并按照重要程度确定的权重对各个类别表达向量以加权求和的方式融合。该过程与步骤304中的描述类似，在此不再赘述。

在其他实施例中，还可以通过其他合理的方式对各个类别表达向量进行融合，本说明书对此不做限定。

进一步地，步骤505，通过全连接层，基于第二融合向量与第二语义向量，得到针对第二文本的第二预测结果。可以理解，第二语义向量包含第二文本的语义特征，第二融合向量包含类别层次关系网络中各个候选类别的层次特征，以及相对于第二文本的重要性特征，因此，将两者融合，可以用于确定针对第二文本分类类别进行描述的第二预测结果。

实践中，可以将第二融合向量与第二语义向量叠加，然后通过全连接层处理，得到第二预测结果，也可以将第二融合向量与第二语义向量拼接在一起，然后通过全连接层的处理，得到第二预测结果，还可以将第二融合向量与第二语义向量由其他方式（例如仅使用融合层）处理后，通过全连接层的处理，得到第二预测结果，在此不作限定。

其中，全连接层涉及的权重等参数可以通过图3示出的流程调整确定。第二预测结果可以是数值形式，或者向量形式，在此不再赘述。

然后，通过步骤506，根据第二预测结果确定第二文本的分类类别。可以理解，第二预测结果作为业务模型针对第二文本分类的输出结果，是对针对第二文本所述分类类别的描述，因此，根据第二预测结果，可以确定第二文本的分类类别。

在第二预测结果为数值形式的情况下，该数值对应的候选类别可以作为第二文本的分类类别。

在第二预测结果为向量形式的情况下：

在一个实施例中，第二预测结果向量中的各个维度对应着第二文本分类到相应候选类别的概率，可以将概率值最大的维度对应的候选类别确定为第二文本的分类类别；

在另一个实施例中，第二预测结果向量是对第二文本所属分类类别的语义描述，可以将第二预测结果向量与各个候选类别对应的类别特征向量相匹配，与第二预测结果向量越相似的类别特征向量，对应的候选类别越接近第二文本的分类类别。

向量匹配结果可以通过两两向量的相似性，诸如余弦距离、方差、点积之类的方式来衡量，例如，相似度与方差负相关，与余弦距离正相关，与点积正相关，等等。如果第二预测结果与各个类别特征向量分别通过各个第三相似度衡量，则可以根据数值最大的至少一个第三相似度，确定第二文本的分类类别。这里的“第三相似度”中的“第三”用于区别前文的“第一”、“第二”，而不进行实质性限定。可以理解，根据可能的设计，对于第二文本的分类类别，可以输出多个候选项，因此，这里确定第二文本的分类类别时，可以选择数值最大的至少一个第三相似度对应的候选类别。

在可选的实施例中，还可以利用第二预测结果向量与各个类别特征向量构成的类别特征矩阵的乘积，得到相似度分布向量。其方式与步骤303中描述的第一文本向量与类别向量矩阵的乘积处理方式类似，在此不再赘述。该相似度分布向量中的各个元素分别可以衡量相应类别特征向量与第二预测结果向量的相似度。例如，各个类别特征向量与第二预测结果向量的相似性分别与相似度分布向量中的相应元素正相关。然后，可以根据相似度分布向量中数值最大的至少一个元素，确定第二文本的分类类别。

在以上过程中，本说明书实施例提供的训练业务模型及确定文本分类类别的方法，一方面，将文本用编码网络处理，得到相应的语义向量，另一方面，将分类类别按照层级关系建立关系网络，并通过图神经网络处理该关系网络，以融合节点之间的信息，得到类别表达向量。然后，将文本的语义向量和类别表达向量相融合，确定分类类别的预测结果。在业务模型训练阶段，可以将该预测结果与样本标签进行对比，以确定损失并调整模型参数，在利用训练好的业务模型确定文本分类类别的阶段，则可以根据预测结果确定相应的分类类别。这种处理方式由于充分利用了分类类别之间的层级关系，从而可以提高分类准确度。

根据另一方面的实施例，还提供一种业务模型的训练装置。其中，业务模型可以包括编码网络、融合层、全连接层，用于确定文本分类类别。该装置可以设于具有一定计算能力的计算机、设备或服务器。图6示出根据一个实施例的业务模型的训练装置的示意性框图。

如图6所示，装置600包括：

获取单元61，配置为从训练样本集中获取第一文本，第一文本对应有文本标签，文本标签从多个候选类别中确定；

编码单元62，配置为利用编码网络处理第一文本，得到第一语义向量；

处理单元63，配置为经由图神经网络处理类别层级关系网络，得到各个候选类别分别对应的各个类别表达向量，类别层级关系网络包括与各个候选类别一一对应的各个节点，具有直接上下级关系的候选类别之间由连接边连接，各个节点分别对应有相应类别特征向量作为初始的节点表达向量，图神经网络用于对各个节点分别进行邻居节点的节点表达向量聚合，以更新相应的节点表达向量，各个类别表达向量分别为经图神经网络最后一层更新后的相应节点表达向量；

融合单元64，配置为经由融合层，基于第一语义向量融合各个类别表达向量，得到针对第一文本的第一融合向量；

预测单元65，配置为通过全连接层，基于第一融合向量与第一语义向量，得到针对第一文本所属分类类别的第一预测结果；

调整单元66，配置为以第一预测结果与文本标签对应的类别特征向量相一致为目标，调整编码网络、图神经网络、融合层、全连接层中的模型参数，从而训练业务模型。

在一个实施方式下，第一语义向量与类别表达向量的维数均为s，融合单元64进一步可以配置为：

根据第一语义向量与各个类别表达向量的对比，确定各个类别表达向量分别与第一语义向量的各个第一相似度；

利用各个第一相似度对各个类别表达向量加权求和，得到第一融合向量，其中，各个类别表达向量的权重与相应的第一相似度正相关。

在一个实施方式下，候选类别的数量为n，第一语义向量与类别表达向量的维数均为s，融合单元64进一步可以配置为：

获取与第一语义向量对应的s维行向量，以及由n个类别表达向量依次排列组成的s行n列的类别向量矩阵；

基于s维行向量与s行n列的类别向量矩阵的乘积，确定n维的中间向量；

将n维中间向量中的各个元素，分别作为相应候选类别的加权权重，对各个类别表达向量加权平均，得到第一融合向量。

根据一个实施例，预测单元65进一步可以配置为：

将第一融合向量与第一语义向量拼接，得到第一拼接向量；

通过全连接层处理第一拼接向量，得到第一预测结果。

值得说明的是，图6所示的装置600是与图3示出的方法实施例相对应的装置实施例，图3示出的方法实施例中的相应描述同样适用于装置600，在此不再赘述。

根据再一方面的实施例，还提供一种确定文本分类类别的装置。其中，该装置通过包括编码网络、融合层、全连接层的业务模型确定文本分类类别。该装置可以设于具有一定计算能力的计算机、设备或服务器。图7示出根据一个实施例的确定文本分类类别的装置的示意性框图。

如图7所示，装置700包括：

文本获取单元71，配置为获取待确定分类类别的第二文本；

编码单元72，配置为利用预先训练的编码网络处理第二文本，得到第二文本对应的第二语义向量；

向量获取单元73，配置为获取经由预先训练的图神经网络处理类别层级关系网络得到的各个候选类别分别对应的各个类别表达向量，其中，类别层级关系网络包括与各个候选类别一一对应的各个节点，具有直接上下级关系的候选类别之间由连接边连接，各个节点分别对应有各个类别特征向量作为初始的节点表达向量，图神经网络用于将各个类别特征向量对各个节点分别进行邻居节点的节点表达向量聚合，从而更新相应的节点表达向量，各个类别表达向量为经图神经网络最后一层更新后的相应节点表达向量；

融合单元74，配置为经由融合层，基于第二语义向量融合各个类别表达向量，得到针对第二文本的第二融合向量；

预测单元75，配置为通过全连接层，基于第二融合向量与第二语义向量，得到针对第二文本所属分类类别进行描述的第二预测结果；

确定单元76，配置为根据第二预测结果确定第二文本的分类类别。

在一个实施例中，第二语义向量与类别表达向量的维数均为s，融合单元74进一步配置为：

根据第二语义向量与各个类别表达向量的对比，确定各个类别表达向量分别与第二语义向量的各个第二相似度；

利用各个第二相似度对各个类别表达向量加权求和，得到第二融合向量，其中，各个类别表达向量的权重与相应的第二相似度正相关。

在一个实施例中，候选向量的数量为n，第二语义向量与类别表达向量的维数均为s，融合单元74进一步配置为：

获取与第二语义向量对应的s维行向量，以及由n个类别表达向量依次排列组成的s行n列的类别向量矩阵；

基于与第二语义向量对应的s维行向量与s行n列的类别向量矩阵的乘积，确定n维的中间向量；

将n维中间向量中的各个元素，分别作为相应候选类别的加权权重，对各个类别表达向量加权平均，得到第二融合向量。

在一个实施例中，预测单元75还配置为：

将第二融合向量与第二语义向量拼接，得到第二拼接向量；

通过全连接层处理第二拼接向量，得到第二预测结果。

值得说明的是，图7所示的装置700是与图5示出的方法实施例相对应的装置实施例，图5示出的方法实施例中的相应描述同样适用于装置700，在此不再赘述。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行结合图3或图5所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，存储器中存储有可执行代码，处理器执行可执行代码时，实现结合图3或图5的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本说明书实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的技术构思的保护范围之内。

Claims

1.一种业务模型的训练方法，所述业务模型包括编码网络、融合层、全连接层，用于确定文本分类类别，所述方法包括：

从训练样本集中获取第一文本，所述第一文本对应有文本标签，所述文本标签从多个候选类别中确定；

利用所述编码网络处理所述第一文本，得到第一语义向量；

经由图神经网络处理类别层级关系网络，得到各个候选类别分别对应的各个类别表达向量，所述类别层级关系网络包括与各个候选类别一一对应的各个节点，具有直接上下级关系的候选类别之间由连接边连接，各个节点分别对应有相应类别特征向量作为初始的节点表达向量，所述图神经网络用于对各个节点分别进行邻居节点的节点表达向量聚合，以更新相应的节点表达向量，各个类别表达向量分别为经所述图神经网络最后一层更新后的相应节点表达向量；

经由所述融合层，基于所述第一语义向量融合各个类别表达向量，得到针对所述第一文本的第一融合向量；

通过所述全连接层，基于所述第一融合向量与所述第一语义向量，得到针对所述第一文本所属分类类别的第一预测结果；

以所述第一预测结果与所述文本标签相一致为目标，调整所述编码网络、所述图神经网络、融合层、全连接层中的模型参数，从而训练所述业务模型。

2.根据权利要求1所述的方法，其中，所述第一文本对应有多个层级的候选类别，所述文本标签是其中最低层级的候选类别。

3.根据权利要求1所述的方法，其中，所述第一语义向量与所述类别表达向量的维数均为s，所述经由所述融合层，基于所述第一语义向量融合各个类别表达向量，得到针对所述第一文本的第一融合向量包括：

根据所述第一语义向量与各个类别表达向量的对比，确定各个类别表达向量分别与所述第一语义向量的各个第一相似度；

利用各个第一相似度对各个类别表达向量加权求和，得到所述第一融合向量，其中，各个类别表达向量的权重与相应的第一相似度正相关。

4.根据权利要求1所述的方法，所述候选类别的数量为n，所述第一语义向量与所述类别表达向量的维数均为s，所述经由所述融合层，基于所述第一语义向量融合各个类别表达向量，得到针对所述第一文本的第一融合向量包括：

获取与所述第一语义向量对应的s维行向量，以及由n个类别表达向量依次排列组成的s行n列的类别向量矩阵；

基于所述s维行向量与所述s行n列的类别向量矩阵的乘积，确定n维的中间向量；

将所述n维中间向量中的各个元素，分别作为相应候选类别的加权权重，对各个类别表达向量加权平均，得到所述第一融合向量。

5.根据权利要求1所述的方法，其中，所述通过所述全连接层，基于所述第一融合向量与所述第一语义向量，得到针对所述第一文本所属分类类别的第一预测结果包括：

将所述第一融合向量与所述第一语义向量拼接，得到第一拼接向量；

通过所述全连接层处理所述第一拼接向量，得到所述第一预测结果。

6.根据权利要求1所述的方法，其中，所述以所述第一预测结果与所述文本标签相一致为目标，调整所述编码网络、所述图神经网络、融合层、全连接层中的模型参数，从而训练所述业务模型包括：

利用交叉熵的方式确定所述第一预测结果相对于所述文本标签的损失；

向所述损失减小的方向调整所述编码网络、所述图神经网络、融合层、全连接层中的模型参数。

7.根据权利要求1所述的方法，在初始的各个类别特征向量为随机值的情况下，所述方法还包括：

以所述第一预测结果与所述文本标签相一致为目标，调整所述类别层级关系网络中的各个类别特征向量。

8.一种确定文本分类类别的方法，通过包括编码网络、融合层、全连接层的业务模型实现，所述确定文本分类类别的方法包括：

获取待确定分类类别的第二文本；

利用预先训练的编码网络处理所述第二文本，得到所述第二文本对应的第二语义向量；

获取经由预先训练的图神经网络处理类别层级关系网络得到的各个候选类别分别对应的各个类别表达向量，其中，所述类别层级关系网络包括与各个候选类别一一对应的各个节点，具有直接上下级关系的候选类别之间由连接边连接，各个节点分别对应有各个类别特征向量作为初始的节点表达向量，所述图神经网络用于将各个类别特征向量对各个节点分别进行邻居节点的节点表达向量聚合，从而更新相应的节点表达向量，各个类别表达向量为经所述图神经网络最后一层更新后的相应节点表达向量；

经由所述融合层，基于所述第二语义向量融合各个类别表达向量，得到针对所述第二文本的第二融合向量；

通过所述全连接层，基于所述第二融合向量与所述第二语义向量，得到针对所述第二文本的第二预测结果；

根据所述第二预测结果确定所述第二文本的分类类别。

9.根据权利要求8所述的方法，其中，所述第二语义向量与所述类别表达向量的维数均为s，所述经由所述融合层，基于所述第二语义向量融合各个类别表达向量，得到针对所述第二文本的第二融合向量包括：

根据所述第二语义向量与各个类别表达向量的对比，确定各个类别表达向量分别与所述第二语义向量的各个第二相似度；

利用各个第二相似度对各个类别表达向量加权求和，得到所述第二融合向量，其中，各个类别表达向量的权重与相应的第二相似度正相关。

10.根据权利要求8所述的方法，其中，所述候选向量的数量为n，所述第二语义向量与所述类别表达向量的维数均为s，所述经由所述融合层，基于所述第二语义向量融合各个类别表达向量，得到针对所述第二文本的第二融合向量包括：

获取与所述第二语义向量对应的s维行向量，以及由n个类别表达向量依次排列组成的s行n列的类别向量矩阵；

基于与所述第二语义向量对应的s维行向量与所述s行n列的类别向量矩阵的乘积，确定n维的中间向量；

将所述n维中间向量中的各个元素，分别作为相应候选类别的加权权重，对各个类别表达向量加权平均，得到所述第二融合向量。

11.根据权利要求8所述的方法，其中，所述通过所述全连接层，基于所述第二融合向量与所述第二语义向量，得到针对所述第二文本所属分类类别的第二预测结果包括：

将所述第二融合向量与所述第二语义向量拼接，得到第二拼接向量；

通过所述全连接层处理所述第二拼接向量，得到所述第二预测结果。

12.一种业务模型的训练装置，所述业务模型包括编码网络、融合层、全连接层，用于确定文本分类类别，所述装置包括：

13.根据权利要求12所述的装置，其中，所述第一语义向量与所述类别表达向量的维数均为s，所述融合单元进一步配置为：

14.根据权利要求12所述的装置，所述候选类别的数量为n，所述第一语义向量与所述类别表达向量的维数均为s，所述融合单元进一步配置为：

15.根据权利要求12所述的装置，其中，所述预测单元进一步配置为：

16.一种确定文本分类类别的装置，通过包括编码网络、融合层、全连接层的业务模型确定文本分类类别，所述装置包括：

文本获取单元，配置为获取待确定分类类别的第二文本；

17.根据权利要求16所述的装置，其中，所述第二语义向量与所述类别表达向量的维数均为s，所述融合单元进一步配置为：

18.根据权利要求16所述的装置，其中，所述候选向量的数量为n，所述第二语义向量与所述类别表达向量的维数均为s，所述融合单元进一步配置为：

19.根据权利要求16所述的装置，其中，所述预测单元还配置为：

20.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-11中任一项的所述的方法。

21.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。