CN115994223A

CN115994223A - 序列化多标签分类方法、装置、设备和介质

Info

Publication number: CN115994223A
Application number: CN202310097766.5A
Authority: CN
Inventors: 李琦; 石忠德; 梁莉娜; 贾唯秦; 王璐瑶
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-01-20
Filing date: 2023-01-20
Publication date: 2023-04-21

Abstract

提供了一种序列化多标签分类方法，涉及人工智能领域。该方法包括：将待分类的自然语言文本输入至多标签分类模型，其中，所述多标签分类模型根据符合标签树中M个标签之间的层次序列关系的训练文本端到端地训练获得；获取所述多标签分类模型根据所述层次序列关系逐层预测所述自然语言文本的N个预测标签；其中，所述多标签分类模型被配置为在第t层预测结果取K个候选标签以得到第t+1层的预测输入。既保留了树结构获取先验知识的能力，又具备端到端模型的表达能力，将上述两类能力进行融合，准确为自然语言文本分配合理准确的标签，进而对分类结果进行较好的应用。还提供了一种序列化多标签分类装置、设备、存储介质和程序产品。

Description

序列化多标签分类方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，更具体地，涉及一种序列化多标签分类方法、装置、设备、介质和程序产品。

背景技术

文本分类任务指的是将一段输入文本分类为与其相似性较高的一个或多个类别结果。传统文本分类任务大多是单标签文本分类任务，即给定数据判断该数据属于的一个具体类别，但是现实世界中很多数据往往涉及多个标签，并不能单一的进行类别划分。

相关技术中，多标签文本分类任务例如包括基于句子表示的直接分类，通过对句子表示直接使用多层感知机、支持向量机等分类算法直接进行分类。

在实现本公开发明构思的过程中，发明人发现相关技术至少存在以下问题：文本多标签分类的目的在于尽可能准确为问题分配合理准确的标签，进而对分类结果进行相关应用。而当前多标签文本分类任务的分类结果并不准确，难以基于分类结果进行较好的应用。

发明内容

鉴于上述问题，本公开提供一种将标签树的层次序列关系先验知识与多标签分类模型端到端的训练和预测过程相融合的序列化多标签分类方法、装置、设备、介质和程序产品。

本公开实施例的一个方面，提供了一种序列化多标签分类方法，包括：将待分类的自然语言文本输入至多标签分类模型，其中，所述多标签分类模型根据符合标签树中M个标签之间的层次序列关系的训练文本端到端地训练获得；获取所述多标签分类模型根据所述层次序列关系逐层预测所述自然语言文本的N个预测标签；其中，所述多标签分类模型被配置为在第t层预测结果取K个候选标签以得到第t+1层的预测输入，M、N为大于或等于2的整数，t、K为大于或等于1的整数，t小于或等于N-1。

在一些实施例中，所述在第t层预测结果取K个候选标签以得到第t+1层的预测输入包括：获取所述K个候选标签一一对应的K个权重；根据所述K个权重和在第t层预测过程中生成的标签嵌入数据得到第一输入数据，所述第t+1层的预测输入根据所述第一输入数据获得。

在一些实施例中，获取所述N个预测标签包括：通过所述多标签分类模型，在第t+1层预测过程中得到所述K个候选标签各自在所述标签树中的子标签预测结果。

在一些实施例中，所述多标签分类模型包括编码器和解码器，在将所述自然语言文本输入至多标签分类模型后，所述方法还包括：利用所述编码器将所述自然语言文本编码为N个编码特征；根据所述N个编码特征中对应所述第t+1层的编码特征、所述第t层的输入和所述第一输入数据得到所述第t+1层的输入。

在一些实施例中，所述自然语言文本包括用户输入的问题文本，所述N个预测标签为所述问题文本的序列化多标签分类结果，所述方法还包括：根据所述N个预测标签在所述标签树中的层次序列路径分发所述问题文本；和/或根据所述层次序列路径将所述问题文本匹配至所述N个预测标签中最底层标签对应的问题解答规则。

在一些实施例中，在将待分类的自然语言文本输入至多标签分类模型之前，所述方法还包括预先训练所述多标签分类模型，包括：获取S个训练文本及各训练文本的序列化表征标签，其中，所述序列化表征标签包括按照所述层次序列关系将各训练文本的多个标签表征为标签句形式，S为大于或等于1的整数；将所述S个训练文本及各训练文本的序列化表征标签输入端到端深度学习模型进行训练。

在一些实施例中，获取标签句形式的序列化表征标签包括：获取待表征训练文本的多个标签，及各个标签之间的层次序列关系；根据所述各个标签之间的层次序列关系，将所述多个标签用特定符号隔开并连接形成具有标签句形式的序列化表征标签。

本公开实施例的另一方面提供了一种序列化多标签分类装置，包括：文本输入模块，用于将待分类的自然语言文本输入至多标签分类模型，其中，所述多标签分类模型根据符合标签树中M个标签之间的层次序列关系的训练文本端到端地训练获得；标签预测模块，用于获取所述多标签分类模型根据所述层次序列关系逐层预测所述自然语言文本的N个预测标签；其中，所述多标签分类模型被配置为在第t层预测结果取K个候选标签以得到第t+1层的预测输入，M、N为大于或等于2的整数，t、K为大于或等于1的整数，t小于或等于N-1。

所述装置包括分别用于执行如上所述任意一项所述的方法的各个步骤的模块。

本公开实施例的另一方面提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行如上所述的方法。

本公开实施例的另一方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如上所述的方法。

本公开实施例的另一方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述的方法。

上述一个或多个实施例具有如下有益效果：将标签树的层次序列关系先验知识与多标签分类模型端到端的训练和预测过程相融合，对于待分类的自然语言文本，利用多标签分类模型根据层次序列关系逐层预测输出N个预测标签，作为序列化多标签分类结果。在逐层预测过程中根据前一层的预测结果取K个候选标签得到下一层的预测输入，既保留了树结构获取先验知识的能力，又具备端到端模型的表达能力，将上述两类能力进行融合，准确为自然语言文本分配合理准确的标签，进而对分类结果进行较好的应用。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的序列化多标签分类方法的应用场景图；

图2示意性示出了根据本公开实施例的序列化多标签分类方法的流程图；

图3示意性示出了根据本公开实施例的得到第一输入数据的流程图；

图4示意性示出了根据本公开实施例的模型中得到各层输入的流程图；

图5示意性示出了根据本公开实施例的多标签分类模型的架构图；

图6示意性示出了根据本公开实施例的问题分发的流程图；

图7示意性示出了根据本公开实施例的问题分发场景中标签树的架构图；

图8示意性示出了根据本公开实施例的预先训练多标签分类模型的流程图；

图9示意性示出了根据本公开实施例的获取标签句形式的序列化表征标签的流程图；

图10示意性示出了根据本公开实施例的序列化多标签分类装置的结构框图；以及

图11示意性示出了根据本公开实施例的适于实现序列化多标签分类方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在本公开的技术方案中，所涉及的用户个人信息、问题或其他用户数据的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

除基于句子表示的直接分类之外，还可以基于树结构的标签表征实现分类，在多标签分类中，标签直接有关联关系，通过构建标签之间的关联关系树，将标签进行向量化表征，进而对文本进行分类，这种方法捕捉了标签间的关联关系作为先验知识，提升多标签学习的准确性。另外，可以基于深度学习相关模型实现分类，例如将CNN、LSTM、Attention等模型用于句子表示的生成过程，提升句子表示的准确度。

本公开的一些实施例中提出了序列化多标签分类方法，将标签树的层次序列关系先验知识与多标签分类模型端到端的训练和预测过程相融合，对于待分类的自然语言文本，利用多标签分类模型根据层次序列关系逐层预测输出N个预测标签，作为序列化多标签分类结果，在逐层预测过程中根据前一层的预测结果取K个候选标签得到下一层的预测输入，既保留了树结构获取先验知识的能力，又具备端到端模型的表达能力，将上述两类能力进行融合，准确为自然语言文本分配合理准确的标签，进而对分类结果进行较好的应用。

图1示意性示出了根据本公开实施例的序列化多标签分类方法的应用场景图。

如图1所示，根据该实施例的应用场景100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

在一些实施例中，例如用户可以使用终端设备103上的对话界面发送自然语言文本，服务器105可以执行序列化多标签分类方法，用于与用户进行对话，通过对话的过程实现用户的问题解答。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

以下将基于图1描述的场景，通过图2～图9对本公开实施例的序列化多标签分类方法进行详细描述。

图2示意性示出了根据本公开实施例的序列化多标签分类方法的流程图。

如图2所示，该实施例的序列化多标签分类方法包括操作S210～操作S220。示例性地，序列化包括将树形结构表征为多标签分类模型或人工容易对多个标签及其关系进行识别和追踪的形式。

在操作S210，将待分类的自然语言文本输入至多标签分类模型，其中，多标签分类模型根据符合标签树中M个标签之间的层次序列关系的训练文本端到端地训练获得。

示例性地，标签指的自然语言文本的类别标签。可以先构建标签体系，现实世界中的标签体系绝大部分都是树形结构，如百度百科、搜狗百科等开发开源知识数据平台，这种树形结构也符合人类对世界的认知。标签树即是根据序列化多标签分类的应用场景中分类体系构建的，M个标签可以为标签树的M个叶子节点，层次序列关系指的是各个叶子节点在标签树的同一层可以具有兄弟节点，在下一层可以具有子节点，在上一层可以具有父节点。从标签树的根节点到最底层的每个叶子节点可以根据层次序列关系确定对应的层次序列路径。

示例性地，多标签分类模型包括端到端(Seq2Seq)模型。举例而言，由待分类的自然语言文本输入，到N个预测标签结果输出，从输入端到输出端，中间的神经网络自成一体，这是端到端模型。

示例性地，端到端地训练包括：从输入端到输出端会得到一个预测结果，将预测结果和真实结果进行比较得到误差，将误差反向传播到网络的各个层之中，调整网络的权重和参数直到模型收敛或者达到预期的效果为止，中间所有的操作都包含在神经网络内部，不再分成多个模块处理。

在操作S220，获取多标签分类模型根据层次序列关系逐层预测自然语言文本的N个预测标签。其中，多标签分类模型被配置为在第t层预测结果取K个候选标签以得到第t+1层的预测输入，M、N为大于或等于2的整数，t、K为大于或等于1的整数，t小于或等于N-1。

M个标签的标签体系按照树形结构组织，有上下级关系，包含现实世界中的大量先验知识，这种层级序列关系定义了每种标签的范围与表示空间。

示例性地，在预测时按照上下级关系逐层预测得到N个预测标签，获得自然语言文本的多标签分类结果。多标签分类模型输出的并非仅是各自孤立的N个预测标签，在其输出结果中还包括N个预测标签之间的层次序列关系。

根据本公开的实施例，将标签树的层次序列关系先验知识与多标签分类模型端到端的训练和预测过程相融合，既保留了树结构获取先验知识的能力，又具备端到端模型的表达能力，将上述两类能力进行融合，准确为自然语言文本分配合理准确的标签，进而对分类结果进行较好的应用。

图3示意性示出了根据本公开实施例的得到第一输入数据的流程图。图5示意性示出了根据本公开实施例的多标签分类模型的架构图。

如图3所示，该实施例在第t层预测结果取K个候选标签以得到第t+1层的预测输入包括操作S310～操作S320。

其中，多标签分类模型被配置为实现操作S310～操作S320的步骤根据其架构配置实现。多标签分类模型整体上采用深度学习中的Seq2Seq(端到端)模型架构，该架构包括encoder(编码器)、decoder(解码器)两个部分。编码器将待分类的自然语言文本编码为一个句子向量，解码器将该句子向量解码为N个预测标签。

在操作S310，获取K个候选标签一一对应的K个权重。

参照图5，多标签分类模型每层经过MLP(多层感知机)后(MLP₀～MLP_n分别对应于n+1层，n小于或等于N-1)，进行softmax(图中未示出)，取top K(softmax函数输出的结构中前K个)作为预测的每层标签。即，每层选取top K，一层一层进行预测。

示例性地，K个权重可以是softmax函数输出的概率值。在一些实施例中，可以根据softmax函数输出的K个候选标签对应概率值排序，并赋不同的权重值。

在操作S320，根据K个权重和在第t层预测过程中生成的标签嵌入数据得到第一输入数据，第t+1层的预测输入根据第一输入数据获得。

参照图5，以多标签分类模型的第一层举例，MLP₀处理输入S₀并输出y₀，y₀即为该层的预测结果，其中包括一个或多个预测标签。另外，MLP₀的中间结果可以作为该层预测过程中生成的标签嵌入(label embedding)数据。

示例性地，在label aggression模块中，取y₀的top K label对应的权重，与相应的label embedding进行加权求和(weighted sum)，作为p₀(第一输入数据)，得到下一层预测的输入。

参照图5，除第n层外，每一层取top K及label embedding进入labelaggression模块得到第一输入数据。

根据本公开的实施例，取K个候选标签可以减小计算量，降低计算复杂度，从所有的排列组合找到输出条件概率最大的序列过程中有效提高搜索效率。

由上可知，多标签分类模型有一个超参数“束宽”，设为K。在第一层选取当前条件概率最大的K个候选标签，当做该层的候选输出序列。之后的每层，基于上层的输出序列，挑选出所有组合中条件概率最大的K个，作为该层的候选输出序列。始终保持K个候选。最后从K个候选中挑出最优的。

另外，每层取出K个候选标签，并结合标签嵌入数据得到第一输入数据(即每层最终的候选输出序列)，实现了将上一层分类的结果信息应用在下一层分类中。

在一些实施例中，获取N个预测标签包括：通过多标签分类模型，在第t+1层预测过程中得到K个候选标签各自在标签树中的子标签预测结果。

根据本公开的实施例，序列化多标签分类过程中，层次序列关系本质上体现了标签的上下级关系，且只有上一层K个候选标签预测正确，下一层才有可能预测正确，约束了多标签分类模型根据层次序列关系逐层预测路径。

图4示意性示出了根据本公开实施例的模型中得到各层输入的流程图。

在将自然语言文本输入至多标签分类模型后，如图4所示，该实施例的模型中得到各层输入包括操作S410～操作S420。

在操作S410，利用编码器将自然语言文本编码为N个编码特征。

示例性地，编码器可以包括长短期记忆神经网络LSTM和注意力网络Attention，解码器可以包括LSTM，或GRU等其他序列模型。

以解码器为LSTM举例，上述第t层可以理解为LSTM中第t个时间步长，第t+1层则为第t+1个时间步长。

在操作S420，根据N个编码特征中对应第t+1层的编码特征(如c_t+1)、第t层的输入(如S_t)和第一输入数据(如p_t)得到第t+1层的输入。

参照图5，N个编码特征可以包括c₀～c_n。c₀～c_n一一对应地作为各层的至少部分输入。

根据本公开的实施例，第t+1层的输入包括前几层的序列化信息，能够该层的输出结果具有较高的预测准确率。

在一些实施例中，序列化多标签分类的应用场景可以包括问题分发(如智能客服场景)、数据存储(如机器学习过程中的训练样本标签标注、生产场景中的数据落库等)、商品分类、网页标签、新闻标注、电影分类和语义场景分类等。下面通过图6展开介绍问题分发场景的工作流程。

图6示意性示出了根据本公开实施例的问题分发的流程图。图7示意性示出了根据本公开实施例的问题分发场景中标签树的架构图。

如图6所示，该实施例的问题分发包括操作S610和/或操作S620。其中，自然语言文本包括用户输入的问题文本，N个预测标签为问题文本的序列化多标签分类结果。

在操作S610，根据N个预测标签在标签树中的层次序列路径分发问题文本。

示例性地，例如根据问题分发平台运营期间的数据积累与专家知识指导，构建适用于问题分发平台的树形标签体系，构建结果示意图如附图7所示。标签树中每一层代表同一级分类，上下层代表标签的包含关系。如“对公业务”包含“信贷业务”、“中间业务”等业务，而“信贷业务”下属包含“授信业务”、“担保业务”、“贷款业务”等。这种明晰的层级关系能够对应用场景的标签进行精细化管理，并较好地指导并实现数据资产沉淀。

举例而言，问题分发平台可以是提供业务问题快速反馈、业务办理指南和知识共享平台，能够作为随行知识库使用。支持关键字搜索和模糊搜索两种方式，可以运行本公开实施例的序列化多标签分类，之后系统将与输入内容相关的信息搜索出来，可以在搜索结果中查找问题答案。用户通过提问功能描述自已的问题(支持文字、图片)。问题发表之后，有专家团队给出解答，所有登录的用户也都可以帮助给出解答，可以汇集平台中所有专家、老师的知识经验。

比如在问题分发平台的问题分发系统中，由于用户提出的问题往往涉及多个领域，如“谁能介绍一下银行的非融资类担保业务？”，可能同时属于“非融资业务”与“担保业务”，将问题精准分类，提高问题回答率能够有效提高提问者、解答者的用户体验。

在操作S620，根据层次序列路径将问题文本匹配至N个预测标签中最底层标签对应的问题解答规则。

在一些实施例中，问题解答规则可以包括历史数据中统计得到的最底层标签(如图7中担保业务为最底层标签，位于标签树中最末端的节点)对应的一条或多条解决内容，可以将该些解决内容以对话的方式展示给提出问题的用户。在另一些实施例中，问题解答规则可以包括人工分配规则，对问题进行多标签分类，进而匹配相应专家进行响应。

根据本公开的实施例，在问题分发过程中实现序列化多标签分类，能够具有较好的应用效果，提高用户体验。

下面结合图2～图6，再次阐述利用多标签分类模型实现序列化多标签分类过程。

1.将问题Q“谁能介绍一下银行的非融资类担保业务？”输入到编码器中，经过LSTM+Attention将句子编码为具体表征c₀，c₁，...，c_n；

将c₀，c₁，...，c_n作为解码器的输入，首先解码出“对公业务”，再依次通过解码器获得“信贷业务”、“担保业务”(即取K个候选标签逐层预测的过程)，在此过程中，“对公业务”、“信贷业务”、“担保业务”均为Q的标签。通过beam search等算法可控制解码器的搜索范围，通过设定超参数阈值K控制模型的置信度，进而控制最终标签的数量。

2.解码器中每层的输入s_t＝c_t：s_t-1：p_t-1，“：”表示向量拼接，t是预测过程中任一个时间步长。其中p_t-1由第t-1个时间步长中label aggression计算得出的第一输入数据。c_t是第t个时间步长对应的编码特征，s_t-1是第t-1个时间步长的输入。

3.解码器每层的输出，经过一个MLP获得最终分类。

需要说明的是，序列化多标签分类与普通多标签分类(各个标签之间没有层次序列关系)的区别是，序列化多标签分类是一层一层进行预测，每层取top K个candidatelabel(候选标签)，下一层只考虑此top K candidate label对应的child label(子标签)。

在多标签分类模型中这种取top K candidate label的思想进行了显式应用，一方面可以减小计算量(与Extreme multi-label classification问题类似)，另一方面是上一层分类的结果信息可以应用在下一层分类中。

4.取y_t的top K label对应的权重，与相应的label embedding进行加权求和，作为p_t。

5.最终的序列标签，由每层预测的权重经链式法则相乘取得。

可以理解，与普通的多标签分类问题不同，本公开一些实施例解决序列化多标签分类问题过程中，整合了top K candidate labe1的信息，而不是全局。普通的多标签分类通常只是按照label frequency(标签频率)进行排序，本质上序列前后顺序并不存在联系，本公开一些实施例输出的M个标签序列顺序包括上下级关系，这种上下级关系更适合序列模型建模。

下面通过图8和图9展开介绍本公开实施例的多标签分类模型训练过程。

图8示意性示出了根据本公开实施例的预先训练多标签分类模型的流程图。

如图8所示，该实施例的预先训练多标签分类模型包括操作S810～操作S820。

在操作S810，获取S个训练文本及各训练文本的序列化表征标签，其中，序列化表征标签包括按照层次序列关系将各训练文本的多个标签表征为标签句形式，S为大于或等于1的整数。

示例性地，标签句形式指的是序列化表征标签为句子的形式，换言之，多个标签为标签树的多个叶子节点，各节点之间为树形结构关系，序列化表征的过程包括将各节点之间的树形结构关系转化为标签句形式，以句子形式存在的同时保留了树形结构中的层次序列关系。

在操作S820，将S个训练文本及各训练文本的序列化表征标签输入端到端深度学习模型进行训练。

示例性地，每层经过MLP后，进行softmax，取top K作为预测的每层标签，使用交叉熵作为损失函数计算预测值与标签值的差异程度。

根据本公开的实施例，可以融合标签树的关联关系先验知识与深度学习端到端模型的优势，将标签树的信息融合到序列化过程中，并在此基础上进行端到端模型的学习。

图9示意性示出了根据本公开实施例的获取标签句形式的序列化表征标签的流程图。

如图9所示，该实施例的获取标签句形式的序列化表征标签包括操作S910～操作S920。

在操作S910，获取待表征训练文本的多个标签，及各个标签之间的层次序列关系。

在操作S920，根据各个标签之间的层次序列关系，将多个标签用特定符号隔开并连接形成具有标签句形式的序列化表征标签。

如一个问题如果属于“担保业务”，那么该问题也可以属于“信贷业务”，而只有很小的概率属于“代收业务”。换言之，为了保持这种层级先验知识能够最大限度的保留并进行应用，将标签树进行序列化表征。以图7为例，将该标签树中的节点用特定符号“/”隔开并连接，构成“句子”，用{“对公业务/信贷业务/授信业务”，“对公业务/信贷业务/担保业务”，......，“对公业务/中间业务/代收业务”}表示。而问题Q“谁能介绍一下银行的非融资类担保业务？”的序列化表征标签为“对公业务/信贷业务/担保业务”，从左至右按照层次序列路径排列。

尤其说明，上述“/”作为特定符号仅为示例，本公开无意将特定符号限定于此，例如还可以包括“|”、“\”或“-”等，其作用是为了令模型准确识别和划分不同的标签及层次序列关系。

示例性地，序列化表征标签为解码器在训练或实际应用时输出的解码结果(如M个标签)。一方面，保持了标签树的原有层级关系，使模型能够有效利用标签之间本来的先验关联关系。另一方面，将标签组织成句子形式，方便后续端到端模型的应用。

基于上述序列化多标签分类方法，本公开还提供了一种序列化多标签分类装置。以下将结合图10对该装置进行详细描述。

图10示意性示出了根据本公开实施例的序列化多标签分类装置的结构框图。

如图10所示，该实施例的序列化多标签分类装置1000包括文本输入模块1010和标签预测模块1020。

文本输入模块1010可以执行操作S210，用于将待分类的自然语言文本输入至多标签分类模型，其中，多标签分类模型根据符合标签树中M个标签之间的层次序列关系的训练文本端到端地训练获得。

标签预测模块1020可以执行操作S220，用于获取多标签分类模型根据层次序列关系逐层预测自然语言文本的N个预测标签。其中，多标签分类模型被配置为在第t层预测结果取K个候选标签以得到第t+1层的预测输入，M、N为大于或等于2的整数，t、K为大于或等于1的整数，t小于或等于N-1。

在一些实施例中，标签预测模块1020可以执行操作S310～操作S320，在此不作赘述。

在一些实施例中，序列化多标签分类装置1000可以包括编码输入模块，用于执行操作S410～操作S420，在此不作赘述。

在一些实施例中，序列化多标签分类装置1000可以包括问题分发模块，用于执行操作S610～操作S620，在此不作赘述。

在一些实施例中，序列化多标签分类装置1000可以包括模型训练模块，用于执行操作S810～操作S820，操作S910～操作S920，在此不作赘述。

需要说明的是，序列化多标签分类装置1000包括分别用于执行如上图2～图9描述的任意一个实施例的各个步骤的模块。装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

根据本公开的实施例，文本输入模块1010和标签预测模块1020中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。

根据本公开的实施例，文本输入模块1010和标签预测模块1020中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，文本输入模块1010和标签预测模块1020中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图11所示，根据本公开实施例的电子设备1100包括处理器1101，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1103中，存储有电子设备1100操作所需的各种程序和数据。处理器1101、ROM 1102以及RAM 1103通过总线1104彼此相连。处理器1101通过执行ROM 1102和/或RAM1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1100还可以包括输入/输出(I/O)接口1105，输入/输出(I/O)接口1105也连接至总线1104。电子设备1100还可以包括连接至I/O接口1105的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1106。包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107。包括硬盘等的存储部分1108。以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的。也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM1102和/或RAM1103和/或ROM1102和RAM1103以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的方法。

在该计算机程序被处理器1101执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1109被下载和安装，和/或从可拆卸介质1111被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种序列化多标签分类方法，包括：

将待分类的自然语言文本输入至多标签分类模型，其中，所述多标签分类模型根据符合标签树中M个标签之间的层次序列关系的训练文本端到端地训练获得；

获取所述多标签分类模型根据所述层次序列关系逐层预测所述自然语言文本的N个预测标签；

其中，所述多标签分类模型被配置为在第t层预测结果取K个候选标签以得到第t+1层的预测输入，M、N为大于或等于2的整数，t、K为大于或等于1的整数，t小于或等于N-1。

2.根据权利要求1所述的方法，其中，所述在第t层预测结果取K个候选标签以得到第t+1层的预测输入包括：

获取所述K个候选标签一一对应的K个权重；

根据所述K个权重和在第t层预测过程中生成的标签嵌入数据得到第一输入数据，所述第t+1层的预测输入根据所述第一输入数据获得。

3.根据权利要求2所述的方法，其中，获取所述N个预测标签包括：

通过所述多标签分类模型，在第t+1层预测过程中得到所述K个候选标签各自在所述标签树中的子标签预测结果。

4.根据权利要求3所述的方法，其中，所述多标签分类模型包括编码器和解码器，在将所述自然语言文本输入至多标签分类模型后，所述方法还包括：

利用所述编码器将所述自然语言文本编码为N个编码特征；

根据所述N个编码特征中对应所述第t+1层的编码特征、所述第t层的输入和所述第一输入数据得到所述第t+1层的输入。

5.根据权利要求1～4任一项所述的方法，其中，所述自然语言文本包括用户输入的问题文本，所述N个预测标签为所述问题文本的序列化多标签分类结果，所述方法还包括：

根据所述N个预测标签在所述标签树中的层次序列路径分发所述问题文本；和/或

根据所述层次序列路径将所述问题文本匹配至所述N个预测标签中最底层标签对应的问题解答规则。

6.根据权利要求1所述的方法，其中，在将待分类的自然语言文本输入至多标签分类模型之前，所述方法还包括预先训练所述多标签分类模型，包括：

获取S个训练文本及各训练文本的序列化表征标签，其中，所述序列化表征标签包括按照所述层次序列关系将各训练文本的多个标签表征为标签句形式，S为大于或等于1的整数；

将所述S个训练文本及各训练文本的序列化表征标签输入端到端深度学习模型进行训练。

7.根据权利要求6所述的方法，其中，获取标签句形式的序列化表征标签包括：

获取待表征训练文本的多个标签，及各个标签之间的层次序列关系；

根据所述各个标签之间的层次序列关系，将所述多个标签用特定符号隔开并连接形成具有标签句形式的序列化表征标签。

8.一种序列化多标签分类装置，包括：

文本输入模块，用于将待分类的自然语言文本输入至多标签分类模型，其中，所述多标签分类模型根据符合标签树中M个标签之间的层次序列关系的训练文本端到端地训练获得；

标签预测模块，用于获取所述多标签分类模型根据所述层次序列关系逐层预测所述自然语言文本的N个预测标签；

9.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～7中任一项所述的方法。

11.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～7中任一项所述的方法。