CN112528658A

CN112528658A - 层次化分类方法、装置、电子设备和存储介质

Info

Publication number: CN112528658A
Application number: CN202011553137.1A
Authority: CN
Inventors: 周媛媛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-03-19
Anticipated expiration: 2040-12-24
Also published as: CN112528658B

Abstract

本申请公开了层次化分类方法、装置、电子设备和存储介质，涉及计算机技术领域，尤其涉及自然语言处理、深度学习等人工智能技术领域。实现方案为：获取输入文本，并对输入文本进行切分以生成多个字，分别生成每个字对应的数字标识，根据字对应的数字标识生成多个字分别对应的多个字向量，并根据多个字向量生成输入文本的文本向量，根据文本向量生成输入文本的层次化分类信息。该方法通过获取输入文本包含的多个字分别对应的数字标识，根据数字标识生成每个字对应的字向量，基于多个字分别对应的字向量得到输入文本的文本向量，利用文本向量确定输入文本的层次化分类信息，提高了层次化分类的准确性和效率。

Description

层次化分类方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及自然语言处理、深度学习等人工智能技术领域，具体涉及一种层次化分类方法、装置、电子设备和存储介质。

背景技术

层次分类技术是指从含义较广的上位类细分到下位类再一步步细分，直至比较专指的类目的等级式分类技术，层次分类技术提供了一种自然的方式来浏览和组织多个粒度级别的非结构化数据。随着大数据时代的爆发式数据增长，以及随之拓展的层次化分类体系，用人工方式判断数据所属分类的方法变得越发困难和低效。

如何提高层次化分类的准确性和效率是亟待解决的问题。

发明内容

本申请提供了一种层次化分类方法、装置、电子设备和存储介质。

根据本申请的一方面，提供了一种层次化分类方法，包括：

获取输入文本；

对所述输入文本进行切分以生成多个字；

分别生成每个所述字对应的数字标识；

根据所述字对应的所述数字标识生成所述多个字分别对应的多个字向量，并根据所述多个字向量生成所述输入文本的文本向量；以及

根据所述文本向量生成所述输入文本的层次化分类信息。

根据本申请的另一方面，提供了一种层次化分类装置，包括：

第一获取模块，用于获取输入文本；

切分模块，用于对所述输入文本进行切分以生成多个字；

第一生成模块，用于分别生成每个所述字对应的数字标识；

第二生成模块，用于根据所述字对应的所述数字标识生成所述多个字分别对应的多个字向量，并根据所述多个字向量生成所述输入文本的文本向量；以及

第三生成模块，用于根据所述文本向量生成所述输入文本的层次化分类信息。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的方法

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述一方面实施例所述的方法

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上述一方面实施例所述的方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的一种层次化分类方法的流程示意图；

图2为本申请实施例提供的另一种层次化分类方法的流程示意图；

图3为本申请实施例提供的一种标签树的示意图；

图4为本申请实施例提供的一种层次化分类的示意图；

图5为本申请实施例提供的另一种层次化分类方法的流程示意图；

图6为本申请实施例提供的另一种层次化分类方法的流程示意图；

图7为本申请实施例提供的另一种层次化分类方法的流程示意图；

图8为本申请实施例提供的一种层次化分类装置的结构示意图；

图9是用来实现本申请实施例的层次化分类方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的层次化分类方法、装置、电子设备和存储介质。

人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术领域也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及深度学习、大数据处理技术、知识图谱技术等几大方向。

NLP(Natural Language Processing，自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向，NLP研究的内容包括但不限于如下分支领域：文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法、语法等)、语音识别与合成等。

深度学习是机器学习领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

图1为本申请实施例提供的一种层次化分类方法的流程示意图。

本申请实施例的层次化分类方法，可由本申请实施例的层次化分类装置执行，该装置可配置于电子设备中，以通过根据输入文本中包括的多个字分别对应的字向量，生成输入文本的文本向量，基于文本向量确定输入文本的层次化分类信息。

如图1所示，该层次化分类方法包括：

步骤101，获取输入文本。

本申请中，输入文本可以是用户输入的需要进行层次化分类的文本，也可以是电子设备从多个待分类的文本中获取的等，或者也可以是根据其他方式获取的。

其中，输入文本可以是一句话，也可以是一段话，也可以是一篇文章等等。比如，获取输入文本“A队与B队今天的篮球比赛成绩是95：86”。

步骤102，对输入文本进行切分以生成多个字。

在获取输入文本后，可采用基于词典分词算法、或者基于统计的分词算法等，对输入文本进行切分处理，将输入文本切分为多个字。这里的字可以为单个的字，也可以是词语。

基于词典分词算法也称字符串匹配分词算法，是按照一定的策略将文本指令和预先建立的词典中的词进行匹配，若在字典中找到某个词条，则可认为匹配成功，识别出该分词。

基于统计的分词方法，是利用预先训练的统计模型对输入文本进行识别，获取输入文本中包含的各个字。

步骤103，分别生成每个字对应的数字标识。

本申请中，可根据预设的词表，确定输入文本中每个字对应的数字标识。其中，词表中可包括多个字和词，以及每个字和每个词对应的数字标识，数字标识用于标识字或词在词表中唯一性。

比如，输入文本被切分为多个字：[“你”,“觉得”,“明天”,“是”,“个”,“晴天”,“吗”],该输入文本中各字分别对应的数字标识为:[42,1405,3867,10,132,15549,19]。

步骤104，根据字对应的数字标识生成多个字分别对应的多个字向量，并根据多个字向量生成输入文本的文本向量。

在获取每个字对应的数字标识后，可利用词向量模型，比如word2vector模型、one-hot(一位有效编码)模型等，生成每个字对应的字向量。

为了提高层次化分类效果，本申请中可利用ERNIE(EnhancedRepresentationfrom kNowledge IntEgration，知识增强语义表示模型)生成每个字对应的字向量。其中，字向量中包含了一些语义信息。

ERNIE通过建模海量数据中的词、实体及实体关系，学习真实世界的语义知识，可直接对先验语义知识单元进行建模，增强了模型语义表示能力。而ERNIE语义理解预训练模型可从训练数据中获取了词法、句法、语义等多个维度的自然语言信息，极大地增强了通用语义表示能力，拥有较强的语义表示能力。本申请中通过采用ERNIE生成每个字的对应的字向量，提高了字向量的语义表示准确性。

在获取每个字对应的字向量后，可根据多个字分别对应的字向量，生成输入文本的文本向量。在生成文本向量时，可以按照每个字在输入文本中的位置顺序，对字向量进行拼接，将拼接后的向量作为文本向量。

步骤105，根据文本向量生成输入文本的层次化分类信息。

在获取输入文本向量后，可根据文本向量，获取输入文本的层次化分类信息。其中，层次化分类信息中可包括多个标签，多个标签用于表示输入文本所属的文本分类，根据层次化分类信息可确定输入文本所属的文本分类。

在获取层次化分类信息时，可将文本向量输入至分类模型，利用分类模型确定输入文本的层次化分类信息。或者，也可将文本向量与多个标签对应的向量进行匹配，确定输入文本的层次化分类信息。具体可参见后续实施例，在此不再赘述。

本申请实施例的层次化分类方法，通过对获取的输入文本进行切分以生成多个字，并分别生成每个字对应的数字标识，根据字对应的数字标识生成多个字分别对应的多个字向量，根据多个字向量生成输入文本的文本向量，并根据文本向量生成输入文本的层次化分类信息。由此，通过获取输入文本包含的多个字分别对应的数字标识，根据数字标识生成每个字对应的字向量，基于多个字分别对应的字向量得到输入文本的文本向量，利用文本向量确定输入文本的层次化分类信息，提高了层次化分类的准确性和效率。

在本申请的一个实施例中，上述在根据文本向量生成输入文本的层次化分类信息时，可利用预设的标签树确定输入文本的层次化分类信息。下面结合图2说明，图2为本申请实施例提供的另一种层次化分类方法的流程示意图。

如图2所示，该层次化分类方法包括：

步骤201，获取输入文本。

步骤202，对输入文本进行切分以生成多个字。

步骤203，分别生成每个字对应的数字标识。

步骤204，根据字对应的数字标识生成多个字分别对应的多个字向量，并根据多个字向量生成输入文本的文本向量。

本申请中，步骤201-步骤204与上述步骤101-步骤104类似，故在此不再赘述。

步骤205，获取预设标签树，其中，标签树包括多个标签分支，每个标签分支包括多个标签。

本申请中，可预先根据各个标签之间的层次关系(或称为父子关系)，建立标签树。在获取输入文本的文本向量后，可获取预设标签树。其中，标签树中可包括多个标签分支，每个标签分支包括多个标签。这里标签树中包括的标签分支可以理解为标签树的分支。

图3为本申请实施例提供的一种标签树的示意图。图3中新闻可分为实时和非实时两个类型，其中，实时新闻可分为天气、财经、体育等类型，体育新闻可分为足球、篮球等；非实时新闻可分为体育、娱乐、科技等类型，科技新闻可再分为互联网、航天等类型。

图3所示的标签树包括多个标签分支，比如“实时-天气”、“实时-财经”“实时-体育-篮球”、“非实时-体育-篮球”等等。

步骤206，获取每个标签分支的向量，其中，标签分支的向量由标签分支之上的多个标签的向量构成。

本申请中，可确定标签树中包括的标签分支，并根据每个标签分支中每个标签对应的向量，获取每个标签分支的向量。在获取每个标签分支的向量时，可按照标签分支中各个标签之间的层次关系，将各个标签的向量进行拼接，将拼接得到的向量，作为标签分支的向量。

其中，每个标签的向量可以是根据预设的词表，确定每个标签的数字标识，根据数字标识得到的。

比如，图3中标签分支“实时-体育-篮球”，可将标签“实时”的向量、“体育”的向量，“篮球”的向量依次进行拼接，得到该标签分支的向量。

步骤207，将文本向量与多个标签分支的向量进行匹配，将与文本向量匹配的标签分支作为层次化分类信息。

在获取标签树中每个标签分支的向量后，可将文本向量与每个标签分支分别进行匹配，可将与文本向量匹配度最高的标签分支，作为层次化分类信息。可见，层次化分类信息中包括输入文本所属的类型标签。

在将文本向量与每个标签分支分别进行匹配时，可根据文本向量和每个标签分支的向量，计算输入文本与每个标签分支之间的距离，根据距离确定文本向量与标签分支的匹配度。其中，距离越小，匹配度越高。

本申请实施例中，在根据文本向量生成输入文本的层次化分类信息时，可通过获取预设标签树，并获取标签树中每个标签分支的向量，并将文本向量与每个标签分支的向量进行匹配，将与文本向量匹配的标签分支作为层次化分类信息。由此，通过将文本向量与标签树中的标签分支进行匹配，确定输入文本的层次化分类信息，提高了层次化分类的准确性和效率。

上述描述了在确定输入文本的层次化分类信息时，可利用预设标签树确定，在本申请的一个实施例中，可将文本向量输入至分类模型中，利用分类模型对文本向量进行处理，分类模型输出多个分类的概率分布，根据概率分布确定输入文本的层次化分类信息。

其中，分类模型可以是预先通过深度学习训练得到的。

假设，分类模型对应8个分类，将输入文本的文本向量输入至分类模型，分类模型可输出一个8x1维的数值概率分布。其中，数值概率分布中的8个概率值的和为1，每个概率值对应一个分类，可将概率值高的预设数量的分类作为输入文本的分类。

下面结合图3和图4对层次化分类方法进行说明，图4为本申请实施例提供的一种层次化分类的示意图。

图4中的分类模型对应图3中(1)-(11)共11个分类，输入文本为“A队与B队今天的篮球比赛成绩是95：86”，可将输入文本切分为多个字，并获取每个字对应的数字标识，从而得到数字标识序列“20 758 64…”，根据每个字对应的数字标识，利用ERNIE获取每个字对应的字向量(1x768维)，根据多个字向量得到文本向量。在获取文本向量后，将文本向量输入至分类模型，分类模型对文本向量进行处理，输出11x1维的概率值分布，其中，该向量中每个概率值对应一个分类。在获取概率值分布后，可将概率值最高的3个分类“实时、体育、篮球”作为该输入文本的分类。

本申请实施例中，在根据文本向量生成输入文本的层次化分类信息时，可通过将文本向量输入至分类模型以生成层次化分类信息。由此，通过利用分类模型，确定输入文本的层次化分类信息，提高了文本层次化分类的准确性和效率。

在本申请的一个实施例中，可利用图5所示的方法训练得到上述分类模型。图5为本申请实施例提供的另一种层次化分类方法的流程示意图。

如图5所示，上述分类模型可通过以下步骤训练得到：

步骤501，获取样本文本，以及样本文本对应的标注标签序列，其中，标注标签序列包括标注父标签和标注父标签对应的标注子标签。

本申请中，可获取大量的样本文本，以及每个样本文本对应的标注标签序列。其中，标注标签序列中包括标注父标签和标注父标签对应的标注子标签。

本申请中，父标签对应的分类包括子标签对应的分类，一个父标签可包括多个子标签。比如，图3中，父标签“实时”包括“天气”、“财经”和“体育”三个子标签。

另外，标注标签序列中标注父标签可对应多个层次的子标签，一个标注父标签对应一个一级子标签。比如，某样本文本为“明天天气晴温度为1℃-8℃”，该文本的父标签为“实时”，子标签为“天气”，即该文本对应的标注标签序列为“实时、天气”。

步骤502，将样本文本输入至分类模型以生成预测标签分支，其中，预测标签分支包括预测父标签和预测子标签。

本申请中，可将样本文本输入至分类模型中，利用分类模型对样本文本进行分类，分类模型输出预测标签分支。其中，预测标签分支中可包括父标签和子标签，为了便于区分，这里称为预测父标签和预测子标签。

其中，预测父标签和预测子标签是分类模型预测的样本文本所属的分类。

步骤503，根据标注标签序列之中的标注父标签和标注子标签，以及预测标签分支之中的预测父标签和预测子标签生成损失函数，并根据损失函数对分类模型进行训练。

在获取预测标签分支后，可利用预测标签分支与标注标签序列之间的差异，对分类模型进行训练。

本申请中，可根据标注父标签与预测父标签之间的差异，以及标签子标签与标注子标签之间的差异，生成损失函数，并根据损失函数对分类模型的参数进行调整，利用调整后的分类模型继续预测样本文本的层次化分类信息，直至分类模型的准确性达到最优或者模型的准确性满足要求。

若样本文本的预测父标签对应多个层次的预测子标签，可根据每个相同层级的预测子标签与标注子标签之间的差异，以及标注父标签与预测父标签之间的差异，生成损失函数。

比如，某样本文本的标注标签序列为a-a1-a2，其中，a为标注父标签，a1和a2为a对应的两个层次的标注子标签，a1为a2的父标签；分类模型预测的该样本文本的预测标签分支为a＇-a1＇-a2＇，其中，a＇为预测父标签，a1＇和a2＇为预测父标签对应的两个层次的子标签，a1＇为a2＇的父标签。在生成损失函数时，可根据a和a＇之间的差异、a1和a1＇之间的差异及a2和a2＇之间的差异，生成损失函数。

本申请实施例中，在训练分类模型时，可基于样本文本的标注父标签与分类模型生成的预测父标签，以及标注子标签和分类模型生成的预测子标签，生成损失函数，利用损失函数对分类模型进行训练，从而可得到能够预测输入文本的层次化分类信息的、准确性较高的分类模型。

在本申请的一个实施例中，可利用图5所示的方法，生成损失函数。图6为本申请实施例提供的另一种层次化分类方法的流程示意图。

如图6所示，上述根据标注标签序列之中的标注父标签和标注子标签，以及预测标签分支之中的预测父标签和预测子标签生成损失函数，包括：

步骤601，根据标注父标签和标注子标签，以及预测父标签和预测子标签生成多标签损失函数。

为了实现多标签分类，可根据标注父标签和预测父标签，以及标注子标签与预测子标签生成多标签损失函数。

在生成多标签损失函数时，可根据标注父标签与预测父标签，计算出父标签对应的交叉熵，以及根据标注子标签与预测子标签，计算出子标签对应的交叉熵，并将父标签对应的交叉熵和子标签对应的交叉熵进行加权，得到多标签交叉熵，基于多标签交叉熵生成损失函数，这里称为多标签损失函数。

本申请实施例中，通过根据交叉熵得到多标签损失函数，利用交叉熵训练分类模型，可以实现多标签分类及提高模型的性能。

步骤602，根据标注父标签和标注子标签，以及预测父标签和预测子标签生成父子层级损失函数。

为了使分类模型较好地学习每对层次标签之间的共现关系，可根据标注父标签和标注子标签，以及预测父标签和预测子标签，生成父子层级损失函数。

在生成父子层级损失函数时，可根据标注父标签的向量与标注子标签的向量，获取标注父标签和标注子标签之间的距离，称为第一距离。在计算第一距离时，可计算标注父标签的向量与标注子标签的向量相同位置的元素的差值的平方和，作为第一距离。

同时，可根据预测父标签的向量与预测子标签的向量，获取预测父标签和预测子标签之间的距离，称为第二距离。在计算第二距离时，可采用上述第一距离的计算方法。

若样本文本标注标签序列中包括多对标注父标签与标签注子标签，那么可计算每对标注父标签与标注子标签之间的第一距离，以及计算每对预测父标签与预测子标签之间的第二距离。

以图3所示的各标签之间的层次关系为例，若样本文本中包含标签“实时”，那么可计算标签“实时”与“天气”之间的距离、“实时”与“财经”之间的距离、“实时”与“体育”之间距离、“实时”与“足球”之间的距离、“实时”与“篮球”之间的距离、“体育”与“足球”之间的距离，以及“体育”与“篮球”之间的距离。

可选地，也可以计算标注父标签和标注子标签之间的曼哈顿距离或者切比雪夫距离等，作为第一距离，及计算预测父标签和预测子标签之间的曼哈顿距离或切比雪夫距离等，作为第二距离。可以理解的是，也可采用其他方式计算第一距离和第二距离，本申请对此不作限定。

在获取第一距离和第二距离后，可将第一距离和第二距离进行加权，得到父子层级损失函数。其中，第一距离和第二距离的权重可根据需要设置。

本申请实施例中，通过根据标注父标签和标注子标签之间的第一距离，和预测父标签和预测子标签之间的第二距离，得到父子层级损失函数，用父子层级损失函数衡量父标签与子标签之间的差异，那么利用父子层级损失函数训练分类模型，可使分类模型较好地学习每对层次标签之间的共现关系，对于出现次数较少的标签也可得到较好的训练，缓解了层次化分类任务中常见的样本不平衡的问题。

步骤603，根据多标签损失函数和父子层级损失函数生成损失函数。

在获取多标签损失函数和父子层级损失函数后，可将多标签损失函数和父子层级损失函数进行融合，得到损失函数。

在进行融合时，可将父子层级损失函数，作为正规则约束，也就是说，可设定层次化分类模型的学习目标为多标签分类和层次化正则约束的融合。如下公式所示：

loss_总＝loss_多标签+loss_父子层级*n

其中，loss_总表示分类模型的损失函数，loss_多标签表示多标签损失函数，loss_父子层级表示父子层级损失函数，n表示迭代次数。

本申请实施例中，通过根据标注父标签和标注子标签，以及预测父标签和预测子标签，获取多标签损失函数和父子层级损坏函数，并根据多标签损失函数和父子层级损失函数生成损失函数，利用损失函数对分类模型进行训练。由此，通过将多标签分类和层次化正则约束的融合，作为分类模型的学习目标，可以满足分类模型应用场景和需求的差异化，可拓展性强。

在实际应用中，待分类文本的数据类型是多样化的，为了使得层次化分类方法，适用于多种风格的数据，在本申请的一个实施例中，可采用图7所示的方式对输入文本进行切分。图7为本申请实施例提供的另一种层次化分类方法的流程示意图。

如图7所示，上述对输入文本进行切分以生成多个字，可包括：

步骤701，对输入文本切分为多个域。

本申请中，可对输入文本进行切分，将输入文本切分为多个域。在进行切分时，切分方式可根据需要确定。比如，可将连续的类型相同的字作为一个域，或者，可将两个标点符号之间的文本作为一个域等等。

步骤702，获取每个域对应的分词方式。

在将输入文本切分为多个域后，可根据每个域中的数据类型，确定输入文本切分为的每个域对应的分词方式。或者，也可根据需要为每个域分配对应的分词方式。

步骤703，按照每个域对应的分词方式对多个域进行切分以生成多个字。

在获取每个域对应的分词方式后，可按照每个域对应的分词方式，对每个域进行切分，从而将输入文本切分为多个字。

比如，某输入文本被切分为3个域，其中，第一个域采用LAC(LexicalAnalysis ofChinese，中文词法分析)分词方式进行切分，第二个域按照字粒度进行切分、第三个域不进行分词。

本申请中，域之间可以有不同的数据类型、词表和分词器，每个域可通过自己的分词器实现将文本切分为多个字的操作，再根据对应的词表将其转换为数字标识序列。

本申请实施例中，在对输入文本进行切分以生成多个字时，可通过将输入文本切分为多个域，利用每个域对应的分词方式对域进行切分，以将输入文本切分为多个字，从而可以实现对不同风格的数据进行处理，适用范围广。

为了实现上述实施例，本申请实施例还提出一种层次化分类训练装置。图8为本申请实施例提供的一种层次化分类装置的结构示意图。

如图8所示，该层次化分类装置800包括：第一获取模块810、切分模块820、第一生成模块830、第二生成模块840和第三生成模块850。

第一获取模块810，用于获取输入文本；

切分模块820，用于对所述输入文本进行切分以生成多个字；

第一生成模块830，用于分别生成每个所述字对应的数字标识；

第二生成模块840，用于根据所述字对应的所述数字标识生成所述多个字分别对应的多个字向量，并根据所述多个字向量生成所述输入文本的文本向量；以及

第三生成模块850，用于根据所述文本向量生成所述输入文本的层次化分类信息。

在本申请实施例一种可能的实现方式中，所述第三生成模块850，包括：

第一获取单元，用于获取预设标签树，其中，所述标签树包括多个标签分支，每个所述标签分支包括多个标签；

第二获取单元，用于获取每个所述标签分支的向量，其中，所述标签分支的向量由所述标签分支之上的多个标签的向量构成；

匹配单元，用于将所述文本向量与所述多个标签分支的向量进行匹配，将与所述文本向量匹配的所述标签分支作为所述层次化分类信息。

在本申请实施例一种可能的实现方式中，所述第三生成模块850，用于：

将所述文本向量输入至分类模型以生成所述层次化分类信息。

在本申请实施例一种可能的实现方式中，述分类模型通过以下模块训练得到：

第二获取模块，用于获取样本文本，以及所述样本文本对应的标注标签序列，其中，所述标注标签序列包括标注父标签和所述标注父标签对应的标注子标签；

第四生成模块，用于将所述样本文本输入至所述分类模型以生成预测标签分支，其中，所述预测标签分支包括预测父标签和预测子标签；

训练模块，用于根据所述标注标签序列之中的标注父标签和所述标注子标签，以及所述预测标签分支之中的所述预测父标签和所述预测子标签生成损失函数，并根据所述损失函数对所述分类模型进行训练。

在本申请实施例一种可能的实现方式中，所述训练模块，包括：

第一生成单元，用于根据所述标注父标签和所述标注子标签，以及所述预测父标签和所述预测子标签生成多标签损失函数；

第二生成单元，用于根据所述标注父标签和所述标注子标签，以及所述预测父标签和所述预测子标签生成父子层级损失函数；

第三生成单元，用于根据所述多标签损失函数和所述父子层级损失函数生成所述损失函数。

在本申请实施例一种可能的实现方式中，所述第一生成单元，用于：

根据所述标注父标签和所述标注子标签，以及所述预测父标签和所述预测子标签生成多标签交叉熵；

根据所述多标签交叉熵生成多标签损失函数。

在本申请实施例一种可能的实现方式中，所述第二生成单元，用于：

生成所述标注父标签和所述标注子标签之间的第一距离；

生成所述预测父标签和所述预测子标签之间的第二距离；

根据所述第一距离和所述第二距离生成所述父子层级损失函数。

在本申请实施例一种可能的实现方式中，所述第一获取模块，包括：

第一切分单元，用于对所述输入文本切分为多个域；

第三获取单元，用于获取每个所述域对应的分词方式；

第二切分单元，用于按照每个所述域对应的分词方式对所述多个域进行切分以生成所述多个字。

需要说明的是，前述方法实施例的解释说明，也适用于该实施例的装置，故在此不再赘述。

本申请实施例的层次化分类装置，通过对获取的输入文本进行切分以生成多个字，并分别生成每个字对应的数字标识，根据字对应的数字标识生成多个字分别对应的多个字向量，根据多个字向量生成输入文本的文本向量，并根据文本向量生成输入文本的层次化分类信息。由此，通过获取输入文本包含的多个字分别对应的数字标识，根据数字标识生成每个字对应的字向量，基于多个字分别对应的字向量得到输入文本的文本向量，利用文本向量确定输入文本的层次化分类信息，提高了层次化分类的准确性和效率。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本申请实施例的层次化分类方法的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)902中的计算机程序或者从存储单元908加载到RAM(Random AccessMemory，随机访问/存取存储器)903中的计算机程序，来执行各种适当的动作和处理。在RAM903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。I/O(Input/Output，输入/输出)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如层次化分类方法。例如，在一些实施例中，层次化分类方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的层次化分类方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行层次化分类方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically ProgrammableRead-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-RayTube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(VirtualPrivate Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请的实施例，本申请还提供了一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行本申请上述实施例提出的层次化分类方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种层次化分类方法，包括：

获取输入文本；

对所述输入文本进行切分以生成多个字；

分别生成每个所述字对应的数字标识；

根据所述文本向量生成所述输入文本的层次化分类信息。

2.如权利要求1所述的方法，其中，所述根据所述文本向量生成所述输入文本的层次化分类信息，包括：

获取预设标签树，其中，所述标签树包括多个标签分支，每个所述标签分支包括多个标签；

获取每个所述标签分支的向量，其中，所述标签分支的向量由所述标签分支之上的多个标签的向量构成；

将所述文本向量与所述多个标签分支的向量进行匹配，将与所述文本向量匹配的所述标签分支作为所述层次化分类信息。

3.如权利要求1或2所述的方法，其中，所述根据所述文本向量生成所述输入文本的层次化分类信息，包括：

4.如权利要求3所述的方法，其中，所述分类模型通过以下步骤训练得到：

获取样本文本，以及所述样本文本对应的标注标签序列，其中，所述标注标签序列包括标注父标签和所述标注父标签对应的标注子标签；

将所述样本文本输入至所述分类模型以生成预测标签分支，其中，所述预测标签分支包括预测父标签和预测子标签；

根据所述标注标签序列之中的标注父标签和所述标注子标签，以及所述预测标签分支之中的所述预测父标签和所述预测子标签生成损失函数，并根据所述损失函数对所述分类模型进行训练。

5.如权利要求4所述的方法，其中，所述根据所述标注标签序列之中的标注父标签和所述标注子标签，以及所述预测标签分支之中的所述预测父标签和所述预测子标签生成损失函数，包括：

根据所述标注父标签和所述标注子标签，以及所述预测父标签和所述预测子标签生成多标签损失函数；

根据所述标注父标签和所述标注子标签，以及所述预测父标签和所述预测子标签生成父子层级损失函数；

根据所述多标签损失函数和所述父子层级损失函数生成所述损失函数。

6.如权利要求5所述的方法，其中，所述根据所述标注父标签和所述标注子标签，以及所述预测父标签和所述预测子标签生成多标签损失函数，包括：

根据所述多标签交叉熵生成多标签损失函数。

7.如权利要求5所述的方法，其中，所述根据所述标注父标签和所述标注子标签，以及所述预测父标签和所述预测子标签生成父子层级损失函数，包括：

生成所述标注父标签和所述标注子标签之间的第一距离；

生成所述预测父标签和所述预测子标签之间的第二距离；

8.如权利要求1所述的方法，其中，所述对所述输入文本进行切分以生成多个字，包括：

对所述输入文本切分为多个域；

获取每个所述域对应的分词方式；

按照每个所述域对应的分词方式对所述多个域进行切分以生成所述多个字。

9.一种层次化分类装置，包括：

第一获取模块，用于获取输入文本；

切分模块，用于对所述输入文本进行切分以生成多个字；

第一生成模块，用于分别生成每个所述字对应的数字标识；

10.如权利要求9所述的装置，其中，所述第三生成模块，包括：

11.如权利要求9或10所述的装置，其中，所述第三生成模块，用于：

12.如权利要求11所述的装置，其中，所述分类模型通过以下模块训练得到：

13.如权利要求12所述的装置，其中，所述训练模块，包括：

14.如权利要求13所述的装置，其中，所述第一生成单元，用于：

根据所述多标签交叉熵生成多标签损失函数。

15.如权利要求13所述的装置，其中，所述第二生成单元，用于：

生成所述标注父标签和所述标注子标签之间的第一距离；

生成所述预测父标签和所述预测子标签之间的第二距离；

16.如权利要求9所述的装置，其中，所述第一获取模块，包括：

第一切分单元，用于对所述输入文本切分为多个域；

第三获取单元，用于获取每个所述域对应的分词方式；

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如权利要求1-8中任一项所述的方法。