CN114186057A

CN114186057A - 基于多类型文本的自动分类方法、装置、设备和存储介质

Info

Publication number: CN114186057A
Application number: CN202010966964.7A
Authority: CN
Inventors: 马库斯·汉斯; S·德斯潘德; 希夫尚卡尔·乌玛尚卡尔; 庞卡·库玛
Original assignee: Smart Bud China Technology Co ltd
Current assignee: Smart Bud China Technology Co ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2022-03-15
Also published as: WO2022057786A1

Abstract

本发明实施例公开了一种基于多类型文本的自动分类方法、装置、设备和存储介质。该方法包括：获取目标文本和所述目标文本的目标文本类型；将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题，并根据所述目标文本类型确定所述目标文本的预设分类方案；将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系；根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题；将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。本发明实施例实现了多类型文本的自动分类。

Description

基于多类型文本的自动分类方法、装置、设备和存储介质

技术领域

本发明实施例涉及文字技术，尤其涉及一种基于多类型文本的自动分类方法、装置、设备和存储介质。

背景技术

在各行各业中，技术的最新进展以及与竞争对手活动有关的情报信息来源越来越广泛，包括专利、期刊、教科书、会议记录和行业标准手册等多种类型的文本，这些信息来源对于获取准确而完整的工业技术信息都很重要，近年来，在线社交媒体的发展还推动了非结构化文本的增长，例如消费者的评论、新闻稿、博客内容、社交网络消息和产品手册/目录等等，非结构化文本数据已成为研发和市场研究的重要组成部分，因此迫切需要将这些非结构化数据拟合到相关的分类方案中，以便于文本分类。

目前对于专利，已经开发了几种复杂的工具和模式(CPC、IPC、F-term和ECLA等)，用于通过特定的结构来管理不断增加的发明数量和多样性，以便于导航和精确搜索，也已经开发了几种自动分类器(例如CLAIMS，OWAKE等)以将专利自动分类，具体的，获取到专利的内容，包括标题、摘要、子类和文件识别码等信息，进行词嵌入和输入神经网络模型的操作，获得预测的CPC分类号，并得到该CPC分类号的描述；对于期刊，已经开发了几种开放式数据库(例如Microsoft Academic、Chemtiva和CASSTN等)，以将期刊分类为有序的分类层次结构。

但是其他文本以及非结构化文本都没有这种有序的分类方案，因此很难将这些文本分类为相关类别，也没有通用的分类方案，使得自动分类器可以来同时处理期刊、新闻、专利和非结构化文本并将它们分类为一个通用的分类模式。

发明内容

本发明实施例提供一种基于多类型文本的自动分类方法、装置、设备和存储介质，以实现多类型文本的自动分类。

为达此目的，本发明实施例提供了一种基于多类型文本的自动分类方法，该方法包括：

获取目标文本和所述目标文本的目标文本类型；

将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题，并根据所述目标文本类型确定所述目标文本的预设分类方案；

将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系；

根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题；

将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。

进一步的，所述获取目标文本和所述目标文本的目标文本类型之后包括：

根据所述目标文本和目标文本类型判断所述目标文本是否包括第二文本主题，所述第二文本主题为基于预设分类方案生成的文本主题；

若所述目标文本包括第二文本主题，将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别。

进一步的，所述神经网络模型的训练包括：

从预设数据库中获取样本文本和所述样本文本的第一文本主题；

根据所述样本文本和所述样本文本的第一文本主题对所述神经网络模型进行训练。

进一步的，所述分类器模型的构建包括：

构建分类器模型，所述分类器模型包括多个父主题，每个所述父主题包括多个层级，每个所述层级包括一个或多个子主题，每个所述父主题和子主题包括一个二进制分类器；

从预设数据库中获取样本文本的第二文本主题和所述样本文本的目标分类类别，所述第二文本主题为基于预设分类方案生成的文本主题；

根据所述样本文本的第二文本主题和所述样本文本的目标分类类别对所述分类器模型进行训练。

进一步的，所述若所述目标文本包括第二文本主题，将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别包括：

将所述第二文本主题输入至预先构建好的分类器模型；

根据每个所述父主题的二进制分类器确定所述第二文本主题的第一父主题，所述第一父主题为每个所述父主题中分类分数最高的父主题；

根据所述第一父主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第一子主题，所述第一子主题为所述第一父主题的下一层级的每个子主题中分类分数最高的子主题；

根据所述第一子主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第二子主题，所述第二子主题为所述第一子主题的下一层级的每个子主题中分类分数最高的子主题，直至获取到最后层级的子主题，并将所述最后层级的子主题作为所述目标文本的目标分类类别。

进一步的，所述将所述最后层级的子主题作为所述目标文本的目标分类类别之后包括：

将所述第一父主题至所述最后层级的子主题的分类分数合并，以得到所述目标文本基于所述目标分类类别的总分类分数。

进一步的，所述将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系之后包括：

根据所述第一映射关系获取所述第一文本主题基于所述预设分类方案的预设分类号。

进一步的，所述目标分类类别包括目标分类号和目标分类解释。

进一步的，所述目标文本类型包括专利、期刊、教科书、会议记录、行业标准手册和非结构化文本中的一种或多种，所述非结构化文本包括评论、新闻稿、博客内容、社交网络消息和产品手册中的一种或多种。

进一步的，所述预设分类方案包括IPC分类方案、ECLA分类方案、CPC分类方案和F-terms分类方案中的一种或多种。

进一步的，所述父主题包括产品和过程主题、机械主题、化学主题、生物主题、电气主题和材料主题中的一种或多种。

进一步的，所述二进制分类器基于BERT算法或XLNet算法构建。

一方面，本发明实施例还提供了一种基于多类型文本的自动分类装置，该装置包括：

文本获取模块，用于获取目标文本和所述目标文本的目标文本类型；

主题获取模块，用于将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题，并根据所述目标文本类型确定所述目标文本的预设分类方案；

主题映射模块，用于将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系；

主题匹配模块，用于根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题；

文本分类模块，用于将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。

另一方面，本发明实施例还提供了一种计算机设备，该设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例提供的方法。

又一方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例提供的方法。

本发明实施例通过获取目标文本和目标文本的第二文本主题，所述第二文本主题为基于预设分类方案生成的文本主题，将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别，解决了多种类型的文本没有有序的分类方案，导致没有通用的分类方案自动将多种类型的文本基于一个通用的分类模式进行分类的问题，实现了多类型文本的自动分类的效果。

附图说明

图1是本发明实施例一提供的一种基于多类型文本的自动分类方法的流程示意图；

图2是本发明实施例二提供的一种神经网络模型的训练方法的流程示意图；

图3是本发明实施例二提供的一种分类器模型的构建方法的流程示意图；

图4是本发明实施例二提供的一种基于多类型文本的自动分类方法的流程示意图；

图5是本发明实施例二提供的一种基于多类型文本的自动分类方法中步骤S460具体的流程示意图；

图6是本发明实施例二提供的一种分类器模型的结构示意图；

图7是本发明实施例二提供的一种分类器模型的结构示意图；

图8是本发明实施例二提供的用于自动分类的应用程序域的结构示意图；

图9是本发明实施例二提供的一种多文本类型分类的示意图；

图10是本发明实施例三提供的一种基于多类型文本的自动分类装置的结构示意图；

图11为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等。

此外，术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一文本主题称为第二文本主题，且类似地，可将第二文本主题称为第一文本主题。第一文本主题和第二文本主题两者都是文本主题，但其不是同一文本主题。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明实施例的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

实施例一

如图1所示，本发明实施例一提供了一种基于多类型文本的自动分类方法，该方法包括：

S110、获取目标文本和所述目标文本的目标文本类型。

本实施例中，首先需要获取到目标文本，即用户需要对其进行分类的文本，其中目标文本可以为多个，也可以为不同的文本类型，因此获取到目标文本的同时还需要获取其目标文本类型，以便进行后续的分类。

S120、将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题，并根据所述目标文本类型确定所述目标文本的预设分类方案。

S130、将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系。

S140、根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题。

S150、将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别。

本实施例中，第二文本主题为基于预设分类方案生成的文本主题，其中预设分类方案为现有的具有统一分类模式的分类方案或者官方制定的分类方案，而现有的预设分类方案有很多种，因此每种预设分类方案都对应了相同或者不同的文本类型的目标文本。

具体的，获取到目标文本和目标文本的目标文本类型后，然后先将目标文本输入至预先训练好的神经网络模型以得到目标文本的第一文本主题，其中预先训练好的神经网络模型经过大语料文本库的训练，输入文本后可以得到该文本的主题。但第一文本主题只是一个根据第一文本的内容提炼出的一个主题，没有统一的分类结构，而每一种文本类型的预设分类方案都已收集并存储好了，因此可以根据之前获取到的目标文本类型确定目标文本的预设分类方案，并将第一文本主题映射至预设分类方案以得到第一文本主题和预设分类方案的第一映射关系。作为优选的，使用关键字匹配和相似性搜索技术将第一文本主题映射至预设分类方案以得到第一文本主题和预设分类方案的第一映射关系。然后根据第一映射关系将第一文本主题修改为匹配预设分类方案的第二文本主题，即完成了获取任意的文本的基于现有分类方案的主题。最后将第二文本主题输入至预先基于多种预设分类方案构建好的分类器模型，就可以得到目标文本的目标分类类别，其中分类器模型在构建时使用了全部已知的预设分类方案进行训练，因此不管是什么文本类型的目标文本，输入第二文本主题后都会得到一个基于统一分类方案的目标分类类别。

示例性的，当目标文本类型为期刊时，可以据此确定对应的预设分类方案可以为基于Microsoft Academic(微软学术)的分类方案，当存在多种预设分类方案时，可以筛选出其中使用率最高的一种，若第一文本主题为“Wechat”(微信)，然后使用关键字匹配和相似性搜索技术将“Wechat”映射至基于Microsoft Academic的分类方案可以得到最相关的主题分类为“Computer Science”(计算机科学)，得到第一文本主题和预设分类方案的第一映射关系。最后将第一文本主题为“Wechat”修改为“Computer Science”，匹配预设分类方案，得到目标文本的第二文本主题。得到目标文本的第二文本主题后，将第二文本主题输入至预先基于多种预设分类方案构建好的分类器模型，分类器模型会通过多个二进制分类器，使用自顶向下的方法依次判断“Computer Science”属于哪个分类类别，直至达到最小的分类类别。由此无论是什么类型的文本，是基于何种预设分类方案生成的文本主题，最终都会得到一个基于通用分类方案的分类类别。

本实施例中，无论目标文本是否包括基于预设分类方案生成的第二文本主题，都可以得到该目标文本的目标分类类别。因此本发明实施例一所提供的方法可应用于大语料文本库中，大语料文本库中的文本都包括各自的目标分类类别，用户通过输入新的目标文本得到新的目标分类类别以对该大语料文本库进行补充，或者得到在大语料文本库中与该目标文本位于同一个分类类别的文本以进行比对。

实施例二

如图2-图9所示，本发明实施例二提供了一种基于多类型文本的自动分类方法，本发明实施例二是在本发明实施例一的基础上进一步的说明解释。

本实施例中，如图2所示，神经网络模型的训练包括：

S210、从预设数据库中获取样本文本和所述样本文本的第一文本主题。

S220、根据所述样本文本和所述样本文本的第一文本主题对所述神经网络模型进行训练。

本实施例中，若目标文本不包括第二文本主题，则需要将目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题。因此需要在分类前预先将神经网络模型训练好。在神经网络模型的训练过程中，首先需要从预设数据库中获取样本文本和样本文本的第一文本主题，预设数据库为现有的大语料文本库，然后使用样本文本和样本文本的第一文本主题对神经网络模型进行训练。这样训练好的神经网络模型在输入文本后，就可以得到该文本的主题，在使用过程中，输入目标文本就可以得到该目标文本的第一文本主题。需要说明的是，在输入样本文本前，可以先将目标文本转换为对应的one-hot编码以输入该神经网络模型，然后神经网络模型的输出也为one-hot编码，最后转换为对应的该样本文本的第一文本主题。

本实施例中，如图3所示，分类器模型的构建包括：

S310、构建分类器模型，所述分类器模型包括多个父主题，每个所述父主题包括多个层级，每个所述层级包括一个或多个子主题，每个所述父主题和子主题包括一个二进制分类器。

S320、从预设数据库中获取样本文本的第二文本主题和所述样本文本的目标分类类别，所述第二文本主题为基于预设分类方案生成的文本主题。

S330、根据所述样本文本的第二文本主题和所述样本文本的目标分类类别对所述分类器模型进行训练。

本实施例中，在分类前需要先将分类器模型构建并进行训练。首先构建一个分类器模型，这个分类器模型基于用户构建的分类体系生成，该分类器模型，即该分类体系包括多个父主题，每个父主题包括多个层级，每个层级包括一个或多个子主题，每个父主题和子主题包括一个二进制分类器。即所构建的分类器模型包括多个表示父主题的二进制分类器和多个表示子主题的二进制分类器，其中父主题包括产品和过程主题、机械主题、化学主题、生物主题、电气主题和材料主题中的一种或多种，基于这些父主题，在进行分类时可以很容易的将目标文本进行大类的分类，而每个父主题下都有多个层级，每个层级有一个或多个子主题，如此构建的分类器模型通过逐个层级的分类可以很容易的将目标文本分类到最小的类别。

作为优选的，每个二进制分类器都是基于BERT(Bidirectional EncoderRepresentations from Transformers)算法或XLNet(一种语言模型)算法构建的，基于BERT算法或XLNet算法构建的二进制分类器可以快速有效的处理大规模的文本分类问题。

进一步的，在完成分类器模型的构建后，还需要对该分类器模型进行训练，首先从预设数据库中获取样本文本的第二文本主题和样本文本的目标分类类别，其中第二文本主题为基于预设分类方案生成的文本主题，预设数据库为现有的大语料文本库。最后根据样本文本的第二文本主题和样本文本的目标分类类别对分类器模型进行训练，其中目标分类类别包括哪些分类类别以及对应的分类解释都为用户预先设计好的，即每个父主题和子主题的对应的分类类别主题和分类解释为用户预先设计好的，而样本文本的目标分类类别为用户预先确定的，最终的样本文本的目标分类类别为某个层级下的子主题。训练好的分类器模型就可以用于分类，在使用过程中，输入目标文本的第二文本主题就可以得到该目标文本的目标分类类别。

作为优选的，当存在新创造词语出现时，若在二进制分类器训练时出现了多次该新创造词语，分类器模型可以相应的新增父主题的二进制分类器或子主题的二进制分类器以进行适应。

作为优选的，对于专利来说由于存在模糊和合法的术语，现有的预设分类方案在进行分类时说明书未充分利用或未利用，且也未使用诸如图表和分子式之类的图形内容。因此本发明实施例中的神经网络模型和分类器模型在训练时还会使用图片、分子式(图片格式)等目标文本的全部内容进行训练，这些内容不仅适用于模型的训练，还可以提高分类的准确性。

本实施例中，如图4所示，该基于多类型文本的自动分类方法包括：

S410、获取目标文本和所述目标文本的目标文本类型。

本实施例中，目标文本类型包括专利、期刊、教科书、会议记录、行业标准手册和非结构化文本中的一种或多种，其中非结构化文本包括评论、新闻稿、博客内容、社交网络消息和产品手册中的一种或多种。

在一替代实施例中，可能存在目标文本本身包括了第二文本主题的信息，因此还可以执行下述步骤：

S411、根据所述目标文本和目标文本类型判断所述目标文本是否包括第二文本主题，所述第二文本主题为基于预设分类方案生成的文本主题。

S412、若所述目标文本包括第二文本主题，将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别。

具体的，首先目标文本类型判断该目标文本类型是否存在预设分类方案，存在则获取到该目标文本类型对应的预设分类方案，然后从目标文本中查找基于这些对应的预设分类方案的第二文本主题，若查找得到则说明目标文本包括第二文本主题，然后获取到该第二文本主题。进一步的，若目标文本包括第二文本主题，则在获取目标文本和目标文本的第二文本主题后，就可以直接将第二文本主题输入至预先构建好的分类器模型以得到目标文本的目标分类类别。

示例性的，当目标文本为专利文本《一种XX的方法》，且该目标文本包括了基于IPC的分类号A01B1/02，那么可以确定目标文本的第二文本主题为“铲”，那么直接将第二文本主题“铲”输入至预先基于多种预设分类方案构建好的分类器模型，该分类器模型会输出得到目标文本的目标分类类别“农业工具”。

S420、将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题，并根据所述目标文本类型确定所述目标文本的预设分类方案。

本实施例中，预设分类方案包括IPC分类方案、ECLA分类方案、CPC分类方案和F-terms分类方案中的一种或多种。

S430、将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系。

S440、根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题。

S450、根据所述第一映射关系获取所述第一文本主题基于所述预设分类方案的预设分类号。

S460、将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别。

本实施例中，当目标文本为专利文本《一种XX的方法》，但该目标文本没有包括第二文本主题时，则获取目标文本的目标文本类型为专利，然后将目标文本输入至预先训练好的神经网络模型，该神经网络模型输出得到目标文本的第一文本主题为“铲子”，还需要根据目标文本类型确定目标文本的预设分类方案为IPC。然后将“铲子”映射至IPC分类，得到第一文本主题和预设分类方案的第一映射关系，确定“铲子”映射为IPC中的“铲”，并根据该第一映射关系获取第一文本主题基于预设分类方案的预设分类号为A01B1/02。最后根据第一映射关系将第一文本主题修改为匹配预设分类方案的第二文本主题，即将“铲子”修改为“铲”，并将第二文本主题输入至预先基于多种预设分类方案构建好的分类器模型以得到目标文本的目标分类类别“农业工具”。

进一步的，目标分类类别包括目标分类号和目标分类解释，其中目标分类号和目标分类解释都为用户预先设计好的，示例性的，目标分类类别为“农业工具”，对应的目标分类号为A1B1C1，目标分类解释为“农业生产使用的工具，多指非机械化的，也称农具、农业生产工具，是农民在从事农业生产过程中用来改变劳动对象的器具”。进一步的，虽然现有的预设分类方案具有丰富的技术和科学词汇，几乎涵盖了所有文本的主题，但是预设分类方案的分类号的分类解释非常复杂，这使非专家用户很难理解，也使非专家用户很难找到相关的分类类别，因此即使目标文本包括预设分类方案的分类号，对非专家用户来说也并没有什么帮助，因此通过本发明实施例所提供的方法，用户可以获取到目标文本的目标分类解释，便于理解和分析。

由上可知，我们通过构建和训练分类器模型，可以将不同的文本类型的目标文本，在一个基于统一的由用户预先设计好的分类体系中间分类，得到一个分类类别，无论是专利、期刊、教科书、会议记录、行业标准手册，还是非结构化文本，都可以通过本发明实施例提供的分类方法，基于一个统一的分类方案进行分类。此外，现有的分类模型的有效性经常受到质疑，因为它们无法高精度地实现分类代码预测，而通过本发明实施例所提供的分类方法，即使目标文本不包括任意现有的分类号，我们可以通过训练好神经网络模型和映射关系的转换获取到其对应的预设分类方案的分类号。进一步的，因预先构建好的分类器模型是基于所有的预设分类方案的主题进行训练的，基于最终得到的目标分类类别，用户还可以获得目标文档基于不同文本类型的预设分类方案的分类号，例如目标文档包括IPC分类号，获取到目标文档的目标分类类别后，可以根据该目标分类类别获取到对应的CPC分类号，甚至是其他文本类型的预设分类方案的分类号。对于企业来说，使用本发明实施例所提供的分类方法，在该行业中无论是什么文本类型的文本，都可以进行统一的分类，大大帮助用户收集信息和分析。相对于现有的专利自动分类方法来说，本发明实施例获取到专利文本后进行分析，获得专利标题、摘要、权利要求、描述、发明人、代理人和附图等信息，输入至训练好的神经网络模型，提取关键词并进行不同主题的分类，最终可以得到易于理解的分类解释和多种预设分类方案的分类号。

本实施例中，如图5所示，步骤S460具体包括：

S461、将所述第二文本主题输入至预先构建好的分类器模型。

S462、根据每个所述父主题的二进制分类器确定所述第二文本主题的第一父主题，所述第一父主题为每个所述父主题中分类分数最高的父主题。

S463、根据所述第一父主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第一子主题，所述第一子主题为所述第一父主题的下一层级的每个子主题中分类分数最高的子主题。

S464、根据所述第一子主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第二子主题，所述第二子主题为所述第一子主题的下一层级的每个子主题中分类分数最高的子主题，直至获取到最后层级的子主题，并将所述最后层级的子主题作为所述目标文本的目标分类类别。

S465、将所述第一父主题至所述最后层级的子主题的分类分数合并，以得到所述目标文本基于所述目标分类类别的总分类分数。

本实施例中，在将第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到目标文本的目标分类类别时，具体可以为：

先将获取到的第二文本主题输入至预先构建好的分类器模型，然后根据每个父主题的二进制分类器确定第二文本主题的第一父主题，其中第一父主题为每个父主题中分类分数最高的父主题。然后根据第一父主题的下一层级的每个子主题的二进制分类器确定第二文本主题的第一子主题，第一子主题为第一父主题的下一层级的每个子主题中分类分数最高的子主题。然后再根据第一子主题的下一层级的每个子主题的二进制分类器确定第二文本主题的第二子主题，其中第二子主题为第一子主题的下一层级的每个子主题中分类分数最高的子主题，使用自上而下的方式，直至获取到最后层级的子主题，并将最后层级的子主题作为目标文本的目标分类类别。最后将第一父主题至最后层级的子主题的分类分数合并，以得到目标文本基于目标分类类别的总分类分数。因采用的是每个层级的二进制分类器由上至下的单独分类，不相关主题的下一层级的二进制分离器不需要工作，从而减少了内存需求，提高了训练和分类速度，并改善了整体分类的准确性。

具体的，获取到第二文本主题“铲”后，先将第二文本主题输入至预先构建好的分类器模型，然后根据每个父主题的二进制分类器确定第二文本主题的第一父主题，其中每个父主题的二进制分类器都会得到一个第二文本主题“铲”的分类分数，而第一父主题为每个父主题中分类分数最高的父主题，可以获得该层级的每个二进制分类器输出的分类分数，从而确定机械主题的分类分数最高，为第一父主题，然后根据第一父主题的下一层级的每个子主题的二进制分类器确定第二文本主题的第一子主题，可以知道机械主题下一层级包括“简单机械”、“复杂机械”和“其他”三个子主题，同样可以获得该层级的每个二进制分类器输出的分类分数，从而确定“简单机械”的分类分数最高，将“简单机械”作为第一子主题，“简单机械”包括“农业工具”、“生活工具”和“其他”，同样可以获得该层级的每个二进制分类器输出的分类分数，从而确定“农业工具”的分类分数最高，将“农业工具”作为第二子主题，因“农业工具”不包括子主题，为最后一个层级，因此将“农业工具”作为目标文本的目标分类类别输出，同时将机械主题、“简单机械”和“农业工具”的分类分数合并，得到目标文本基于该“农业工具”这个目标分类类别的总分类分数，其中总分类分数越高表示目标文本属于“农业工具”这个目标分类类别的正确率越高。

示例性的，如图6所示，输入专利文本《多孔莫来石及其形成方法》，获得其第二文本主题“多孔莫来石”，然后将该第二文本主题输入至预先构建好的分类器模型，通过二进制分类器确定其第一父主题为“陶瓷”，然后在第一父主题“陶瓷”的下一层级的每个子主题的二进制分类器中确定第一子主题为“氧化物陶瓷”，然后根据“氧化物陶瓷”的下一层级的每个子主题的二进制分类器确定第二子主题为“硅酸盐”，最后根据“硅酸盐”的下一层级的每个子主题的二进制分类器确定第三子主题为“莫来石”，因“莫来石”不存在下一层级，因此将“莫来石”作为专利文本《多孔莫来石及其形成方法》的目标分类类别，并获取“莫来石”对应的CPC分类号为【C04B35/185】，对应的IPC分类号也为【C04B35/185】。

作为优选的，每个层级可以选取分类分数排名靠前的预设个数，或者分类分数大于预设值的父主题和子主题，进行自上而下的分类判断，最终得到多个目标分类类别和对应数量的总分类分数，由此该分类器模型可以将具有不同主题或跨领域的同一文本高精度地分类为多个分类类别，从而处理目标文本中多种技术类别的异质性和聚合性。

示例性的，如图7所示，输入专利文本《胰岛素样生长因子i受体抗体》，获得其第二文本主题“胰岛素抗体”，然后将该第二文本主题输入至预先构建好的分类器模型，通过二进制分类器确定其第一父主题为“产品和过程”，然后在第一父主题“产品和过程”的下一层级的每个子主题的二进制分类器中确定第一子主题，其中因用户设定预设个数为2个，而“仪器”和“化学仪器和工艺”的分类分数排名为最靠前的2个，因此确定第一子主题为“仪器”和“化学仪器和工艺”，然后根据“仪器”的下一层级的每个子主题的二进制分类器确定第二子主题为“测量装置”，并根据“化学仪器和工艺”的下一层级的每个子主题的二进制分类器确定另一个第二子主题为“有机化学”，然后根据“测量装置”的下一层级的每个子主题的二进制分类器确定第三子主题为“科学仪器”，并根据“有机化学”的下一层级的每个子主题的二进制分类器确定另一个第三子主题为“肽”，然后根据“科学仪器”的下一层级的每个子主题的二进制分类器确定第四子主题为“物质分析”，并根据“肽”的下一层级的每个子主题的二进制分类器确定另一个第四子主题为“特异肽”，然后根据“物质分析”的下一层级的每个子主题的二进制分类器确定第五子主题为“物质测试品”，并根据“特异肽”的下一层级的每个子主题的二进制分类器确定另一个第五子主题为“免疫球蛋白”，因“免疫球蛋白”不存在下一层级，因此将“免疫球蛋白”作为专利文本《胰岛素样生长因子i受体抗体》的一个目标分类类别，最后“物质测试品”的下一层级的每个子主题的二进制分类器确定第六子主题为“生物测试”，因“生物测试”不存在下一层级，因此将“生物测试”作为专利文本《胰岛素样生长因子i受体抗体》的另一个目标分类类别，最终获得专利文本《胰岛素样生长因子i受体抗体》的两个目标分类类别，分别为“免疫球蛋白”和“生物测试”，并得到这两个目标分类类别的分类分数，其中分类分数越高的目标分类类别越准确，而相对分类分数较低的那个目标分类类别也可以供用户参考。

进一步的，本发明实施例所提供的多类型文本的自动分类方法中，用于自动分类的示例性应用程序域(application domain)如图8所示，该应用程序域涉及了多种分类主题，而每个分类主题都能细分出更多的子主题，例如“畜牧业”中包括了更多的子主题，从而可以满足不同文本类型的分类。示例性的，如图9所示，无论是专利、期刊，或者是非结构化文本的产品手册或新闻稿，使用本发明实施例所提供的多类型文本的自动分类方法后，都能将其分类为“呼吸面罩”。

本发明实施例通过神经网络模型以及分类器模型的构建和训练，解决了多种类型的文本没有有序的分类方案，导致没有通用的分类方案自动将多种类型的文本基于一个通用的分类模式进行分类的问题，实现了多类型文本的自动分类的效果。

实施例三

如图10所示，本发明实施例三提供了一种基于多类型文本的自动分类装置100，本发明实施例三所提供的基于多类型文本的自动分类装置100可执行本发明任意实施例所提供的基于多类型文本的自动分类方法，具备执行方法相应的功能模块和有益效果。该基于多类型文本的自动分类装置100包括文本获取模块200、主题获取模块300、主题映射模块400、主题匹配模块500和文本分类模块600。

具体的，文本获取模块200用于获取目标文本和所述目标文本的目标文本类型；主题获取模块300用于将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题，并根据所述目标文本类型确定所述目标文本的预设分类方案；主题映射模块400用于将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系；主题匹配模块500用于根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题；文本分类模块600用于将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。

进一步的，该基于多类型文本的自动分类装置100还包括主题判断模块700，主题判断模块700用于根据所述目标文本和目标文本类型判断所述目标文本是否包括第二文本主题，所述第二文本主题为基于预设分类方案生成的文本主题；若所述目标文本包括第二文本主题，将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别。

进一步的，该基于多类型文本的自动分类装置100还包括模型训练模块800和模型构建模块900。具体的，模型训练模块800用于从预设数据库中获取样本文本和所述样本文本的第一文本主题；根据所述样本文本和所述样本文本的第一文本主题对所述神经网络模型进行训练。模型构建模块900用于构建分类器模型，所述分类器模型包括多个父主题，每个所述父主题包括多个层级，每个所述层级包括一个或多个子主题，每个所述父主题和子主题包括一个二进制分类器；从预设数据库中获取样本文本的第二文本主题和所述样本文本的目标分类类别，所述第二文本主题为基于预设分类方案生成的文本主题；根据所述样本文本的第二文本主题和所述样本文本的目标分类类别对所述分类器模型进行训练。

本实施例中，文本分类模块300具体用于将所述第二文本主题输入至预先构建好的分类器模型；根据每个所述父主题的二进制分类器确定所述第二文本主题的第一父主题，所述第一父主题为每个所述父主题中分类分数最高的父主题；根据所述第一父主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第一子主题，所述第一子主题为所述第一父主题的下一层级的每个子主题中分类分数最高的子主题；根据所述第一子主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第二子主题，所述第二子主题为所述第一子主题的下一层级的每个子主题中分类分数最高的子主题，直至获取到最后层级的子主题，并将所述最后层级的子主题作为所述目标文本的目标分类类别。进一步的，文本分类模块300具体还用于将所述第一父主题至所述最后层级的子主题的分类分数合并，以得到所述目标文本基于所述目标分类类别的总分类分数。

进一步的，该基于多类型文本的自动分类装置100还包括分类号获取模块1000，分类号获取模块1000用于根据所述第一映射关系获取所述第一文本主题基于所述预设分类方案的预设分类号。

本实施例中，所述目标分类类别包括目标分类号和目标分类解释。所述目标文本类型包括专利、期刊、教科书、会议记录、行业标准手册和非结构化文本中的一种或多种，所述非结构化文本包括评论、新闻稿、博客内容、社交网络消息和产品手册中的一种或多种。所述预设分类方案包括IPC,分类方案、ECLA分类方案、CPC分类方案和F-terms分类方案中的一种或多种。所述父主题包括产品和过程主题、机械主题、化学主题、生物主题、电气主题和材料主题中的一种或多种。所述二进制分类器基于BERT算法或XLNet算法构建。

实施例四

图11为本发明实施例四提供的一种计算机设备12的结构示意图。图11示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图11显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示，通常称为“硬盘驱动器”)。尽管图11中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的方法：

获取目标文本和所述目标文本的目标文本类型；将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题，并根据所述目标文本类型确定所述目标文本的预设分类方案；将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系；根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题；将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的方法：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于多类型文本的自动分类方法，其特征在于，包括：

获取目标文本和所述目标文本的目标文本类型；

2.根据权利要求1所述的方法，其特征在于，所述获取目标文本和所述目标文本的目标文本类型之后包括：

3.根据权利要求1所述的方法，其特征在于，所述神经网络模型的训练包括：

4.根据权利要求1所述的方法，其特征在于，所述分类器模型的构建包括：

5.根据权利要求4所述的方法，其特征在于，所述若所述目标文本包括第二文本主题，将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别包括：

将所述第二文本主题输入至预先构建好的分类器模型；

6.根据权利要求5所述的方法，其特征在于，所述将所述最后层级的子主题作为所述目标文本的目标分类类别之后包括：

7.根据权利要求1所述的方法，其特征在于，所述将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系之后包括：

8.根据权利要求1所述的方法，其特征在于，所述目标分类类别包括目标分类号和目标分类解释。

9.根据权利要求1所述的方法，其特征在于，所述目标文本类型包括专利、期刊、教科书、会议记录、行业标准手册和非结构化文本中的一种或多种，所述非结构化文本包括评论、新闻稿、博客内容、社交网络消息和产品手册中的一种或多种。

10.根据权利要求1所述的方法，其特征在于，所述预设分类方案包括IPC分类方案、ECLA分类方案、CPC分类方案和F-terms分类方案中的一种或多种。

11.根据权利要求4所述的方法，其特征在于，所述父主题包括产品和过程主题、机械主题、化学主题、生物主题、电气主题和材料主题中的一种或多种。

12.根据权利要求4所述的方法，其特征在于，所述二进制分类器基于BERT算法或XLNet算法构建。

13.一种基于多类型文本的自动分类装置，其特征在于，包括：

14.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-12中任一所述的方法。