CN116010605A

CN116010605A - 长文本分类方法、电子设备和存储介质

Info

Publication number: CN116010605A
Application number: CN202310085196.8A
Authority: CN
Inventors: 胡卉; 周彧
Original assignee: Chongqing Xinzhi Jinfu Information Technology Co ltd
Current assignee: Chongqing Xinzhi Jinfu Information Technology Co ltd
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-04-25

Abstract

本申请提供长文本分类方法、电子设备和存储介质。该方法包括：提取长文本语料中的各个关键词；通过所提取的各个关键词的拼接，生成拼接语料；获取所述拼接语料的向量表示；将所述向量表示和所述长文本语料的分类标签作为样本，用于生成长文本分类模型，这样能够通过该长文本分类模型对待分类长文本进行分类，从而提高长文本分类时的准确率。

Description

长文本分类方法、电子设备和存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，涉及长文本分类方法、电子设备和存储介质。

背景技术

随着科学技术的飞速发展，人工智能(Artificial Intelligence，AI)技术越来越得到人们的重视。其中，自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向，主要用于研究人与计算机之间用自然语言进行有效通信的各种理论和方法。在实际应用中，NLP通常可以用于机器翻译、机器人问答、知识图谱等技术领域。

在NLP的相关技术中，对文本进行分类，从而识别该文本所属的分类类别是重要分支。目前对文本进行分类的技术方案主要应用于对短文本进行分类，这些技术方案在对长文本进行分类时的准确率通常较低。

发明内容

本申请实施例的目的在于提供长文本分类方法、电子设备和存储介质，用于解决现有技术中的问题。

本申请实施例第一方面提供了一种长文本分类方法，所述方法包括：

提取长文本语料中的各个关键词；

通过所提取的各个关键词的拼接，生成拼接语料；

获取所述拼接语料的向量表示；

将所述向量表示和所述长文本语料的分类标签作为样本，用于生成长文本分类模型，以通过所述长文本分类模型对待分类长文本进行分类。

于一实施例中，通过所提取的各个关键词的拼接，生成拼接语料，具体包括：

将所提取的各个关键词，根据在所述长文本语料中的先后顺序进行拼接，以生成所述拼接语料。

于一实施例中，获取所述拼接语料的向量表示，具体包括：

将所述拼接语料输入至bert模型，并获取所述bert模型的输出，作为所述拼接语料的向量表示。

于一实施例中，提取长文本语料中的各个关键词，具体包括：

将所述长文本语料输入至LDA分词模型，并获取所述LDA分词模型的输出，作为所提取的各个关键词。

于一实施例中，所述方法还包括：

从语料库获取原始长文本语料；

通过剔除所述述原始长文本语料中的停用词，以生成所述长文本语料。

于一实施例中，在提取长文本语料中的各个关键词之后，所述方法还包括：

确定各个关键词在所述长文本语料中的TF-IDF值；

根据各个关键词所对应的TF-IDF值的大小，从各个关键词中选取出多个高频关键词，其中，所述高频关键词具体包括TF-IDF值大于预设阈值的关键词，或根据TF-IDF值从大到小的顺序进行排名时，名次大于预设名次的关键词；以及，

通过所提取的各个关键词的拼接，生成拼接语料，具体包括：

通过从各个关键词中所选取出多个高频关键词的拼接，生成拼接语料。

于一实施例中，将所述向量表示和所述长文本语料的分类标签作为样本，用于生成长文本分类模型，具体包括：

将所述向量表示和所述长文本语料的分类标签作为样本，添加至训练集；

利用所述训练集中的各个样本对待训练模型进行训练，以生成所述长文本分类模型，其中，所述待训练模型具体包括textCNN模型或SVM模型。

于一实施例中，所述方法还包括：

获取待分类长文本；

提取所述待分类长文本中的各个关键词；

将所述待分类长文本中的各个关键词进行拼接，以生成第二拼接语料；

获取所述第二拼接语料的向量表示；

将所述第二拼接语料的向量表示输入至所述长文本分类模型，并获取所述长文本分类模型的输出，作为所述待分类长文本的分类标签。

本申请实施例第二方面提供了一种电子设备，包括：

存储器，用以存储计算机程序；

处理器，用以执行本申请方法实施例中任一项所述的方法。

本申请实施例第三方面提供了一种存储介质，包括：程序，当其在电子设备上运行时，使得电子设备可执行本申请方法实施例中任一项所述的方法。

采用本申请实施例所提供的长文本分类方法，包括先提取长文本语料中的各个关键词，然后通过所提取的各个关键词的拼接，生成拼接语料，然后获取该拼接语料的向量表示，然后将该向量表示和该长文本语料的分类标签作为样本，从而用于生成长文本分类模型，这样能够通过该长文本分类模型对待分类长文本进行分类，从而提高长文本分类时的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的电子设备的结构示意图；

图2为本申请一实施例提供的长文本分类方法的具体流程示意图；

图3为本申请一实施例提供的长文本分类装置的具体结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。在本申请的描述中，诸如“第一”、“第二”、“第三”等术语仅用于区分描述，而不能理解为指示或暗示相对重要性或先后顺序。

如前所述，目前对文本进行分类的技术方案主要应用于对短文本进行分类，这些技术方案在对长文本进行分类时的准确率通常较低。

有鉴于此，本申请实施例提供了一种长文本分类方法、装置、电子设备和存储介质，能够提高长文本分类的准确率。如图1所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图1中以一个处理器为例。处理器11和存储器12可以通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程。

该电子设备1可以是手机、笔记本电脑、台式电脑或其组成的大型服务器或服务器集群等。

如图2所示为本申请一实施例所提供的，长文本分类方法的流程示意图，该方法部分或全部步骤可由图1所示的电子设备1来执行，比如这里可以以电子设备1作为服务器来执行该方法作为示例，对该方法进行说明。该方法包括如下步骤：

步骤S21：提取长文本语料中的各个关键词。

其中，该关键词通常是指，对该长文本语料的真实语义具有关键影响的词，比如从词性层面来说，该关键词可以包括该长文本语料中的名词、动词、形容词等。

在实际应用中，提取长文本语料中的各个关键词的方式有多种，比如第一种方式可以利用关键词提取工具，来提取长文本语料中的各个关键词，通常可以在关键词提取工具中进行关键词的配置，包括通过该配置将名词、动词、形容词等设定为关键词，然后再利用该关键词提取工具，来提取长文本语料中的各个关键词。

第二中方式可以是，将该长文本语料输入至LDA(Latent Dirichlet Allocation)分词模型，并获取该LDA分词模型的输出，作为所提取的各个关键词。其中，该LDA分词模型通常可以预先对待训练的LDA分词模型，进行训练得到，在得到该LDA分词模型之后，可以将该长文本语料从该LDA分词模型的输入层输入至该LDA分词模型，并利用该LDA分词模型对该长文本语料进行处理，然后从该LDA分词模型的输出层获取到该LDA分词模型的输出，作为所提取的各个关键词。

步骤S22：通过所提取的各个关键词的拼接，生成拼接语料。

在通过上述的步骤S21来提取出长文本语料中的各个关键词之后，在该步骤S22中，可以进一步通过所提取的各个关键词的拼接，生成拼接语料。

在实际应用中，通过该步骤S21进行关键词的提取，能够剔除长文本语料中的非关键词，并通过步骤S22的拼接得到拼接语料，其中，由于关键词通常是指对该长文本语料的真实语义具有关键影响的词，因此一方面通过这些关键词的拼接所生成的拼接语料，能够反映该长文本语料的真实语义，另一方面由于该拼接语料中不包括长文本语料中的非关键词，因此句子长度相对于长文本语料较短，针对句子长度相对较短的拼接语料进行后续的处理，能够提高效率和准确率。

对于该步骤S22中，通过所提取的各个关键词的拼接，生成拼接语料的具体实现方式，可以是将所提取的各个关键词，根据在该长文本语料中的先后顺序进行拼接，从而生成该拼接语料。考虑到关键词在长文本语料中的先后顺序，可能会影响所拼接得到的拼接语料的语义，因此在该拼接方式中，需要根据关键词在长文本语料中的先后顺序进行拼接，从而使拼接语料更能够反映该长文本语料的真实语义。

步骤S23：获取拼接语料的向量表示。

在通过上述的步骤S22来生成拼接语料之后，在该步骤S23中可以进一步获取该拼接语料的向量表示，比如可以将该拼接语料转化为多维向量，作为该拼接语料的向量表示。其中，该多维向量的维度可以为512层、256层等。

在实际应用中，将该拼接语料转化为多维向量的方式可以有多种，比如，可以将该拼接语料输入至bert(Bidirectional Encoder Representation from Transformers)模型，并获取该bert模型的输出，从而将该拼接语料转化为多维向量，并作为该拼接语料的向量表示。

其中，通常可以预先对待训练bert模型进行训练，从而得到该bert模型。在得到该bert模型之后，可以将拼接语料从该bert模型的输入层输入至该bert模型，并利用该bert模型对该拼接语料进行处理，从而将该拼接语料转化为多维向量，并从该bert模型的输出层输出该多维向量，因此可以从该bert模型的输出层获取到该多维向量，并作为该拼接语料的向量表示。

步骤S24：将该向量表示和该长文本语料的分类标签作为样本，用于生成长文本分类模型。

在通过该步骤S24来生成长文本分类模型之后，能够通过该长文本分类模型对待分类长文本进行分类。

对于该长文本语料的分类标签，该分类标签通常能够反映该长文本语料所属的分类类别，比如该分类标签可以为医疗，此时反映该长文本语料所属的分类类别为医疗类的长文本语料；该分类标签可以为电商，此时反映该长文本语料所属的分类类别为电商类的长文本语料。

在实际应用中，可以有多种方式来确定该长文本语料的分类标签，比如可以根据该长文本语料的真实语义，来确定该长文本语料所属的分类类别，进而确定该长文本语料的分类标签；当然，由于通常是从语料库获取原始长文本语料，然后通过对该原始长文本语料的处理来得到该长文本语料，并且语料库中的各个原始长文本语料均有对应的分类标签，此时可以将该原始长文本语料的分类标签，作为该长文本语料的分类标签。比如，从语料库所获取的原始长文本语料的分类标签为医疗，通过对该原始长文本语料的处理，所得到的长文本语料的分类标签也为医疗。

上述提到，通过对原始长文本语料的处理来得到长文本语料，在实际应用中，对原始长文本语料的处理通常需要尽可能降低对其真实语义所造成影响，比如一种处理的方式可以是，通过剔除该原始长文本语料中的停用词(Stop Words)，来生成长文本语料，也就是说，从语料库获取到该原始长文本语料之后，剔除该原始长文本语料中的停用词，从而生成该长文本语料。其中，该停用词通常是指该原始长文本语料中，诸如“的”、“了”等虚词，因此剔除这些虚词并不会对句子的真实语义造成较大影响，使得长文本语料的真实语义能够基本反映原始长文本语料的真实语义；另外，通过剔除原始长文本语料中的停用词，还能够使所生成的长文本语料的句子长度小于原始长文本语料。

需要说明的是，在上述步骤S24中提到了，将该向量表示和该长文本语料的分类标签作为样本，用于生成长文本分类模型，其中，对于生成该长文本分类模型的具体方式可以是，将该向量表示和该长文本语料的分类标签作为样本，先添加至训练集，该训练集中包括多个样本，这样可以利用该训练集中的各个样本对待训练模型进行训练，从而生成所述长文本分类模型，其中，该待训练模型具体包括textCNN模型或SVM模型。

当然，在生成该长文本分类模型之后，通常还可以利用测试集中的样本对该长文本分类模型的准确率、鲁棒性等进行测试，并在测试通过之后，再利用该长文本分类模型对待分类长文本进行分类。

在实际应用中，对于利用长文本分类模型对待分类长文本进行分类的具体方式可以包括，先获取该待分类长文本，比如在机器人问答领域中，可以获取用户所提交的问题的文本，作为该待分类长文本。

在获取到该待分类长文本之后，可以进一步提取该待分类长文本中的各个关键词，比如可以采用与上述步骤S21相同的方式，来提取该待分类长文本中的各个关键词，这里对此不再赘述。

然后将该待分类长文本中的各个关键词进行拼接，从而生成第二拼接语料，比如可以采用与上述步骤S22相同的方式来进行拼接，从而生成该第二拼接语料。这样通过提取该待分类长文本中的各个关键词，并将该关键词拼接生成第二拼接语料，使得该第二拼接语料的句子长度相对于待分类长文本较短，能够提高后续的处理效率和分类的准确率。

然后可以获取该第二拼接语料的向量表示，比如可以采用与上述步骤S23相同的方式，来获取该第二拼接语料的向量表示，这里对此不再赘述

在获取到第二拼接语料的向量表示之后，可以将该第二拼接语料的向量表示输入至该长文本分类模型，并获取该长文本分类模型的输出，作为该待分类长文本的分类标签，从而实现对该待分类长文本的分类。比如，可以将该第二拼接语料的向量表示，通过该长文本分类模型的输入层输入至该长文本分类模型，并利用该长文本分类模型对该第二拼接语料的向量表示进行处理，进而将处理结果从该长文本分类模型的输出层进行输出，这样可以获取到该长文本分类模型输出层的输出，作为待分类长文本的分类标签。

需要进一步说明的是，在上述步骤S21中提到提取长文本语料中的各个关键词，并在步骤S22中提到通过所提取的各个关键词的拼接，生成拼接语料，在实际应用中，还可以对所提取得到的各个关键词进行筛选，然后将筛选得到的关键词拼接得到该拼接语料。因此，在上述的步骤S21之后，该方法还可以进一步包括先确定各个关键词在该长文本语料中的TF-IDF(term frequency–inverse document frequency)值，比如可以通过该长文本语料中，各个关键词的词频以及逆文本频率指数，来计算该关键词在该长文本语料中的TF-IDF；在确定出各个关键词在该长文本语料中的TF-IDF之后，进一步根据各个关键词所对应的TF-IDF值的大小，从各个关键词中选取出多个高频关键词，其中，该高频关键词具体包括TF-IDF值大于预设阈值的关键词，或根据TF-IDF值从大到小的顺序进行排名时，名次大于预设名次的关键词。

比如，可以预先设定预设阈值，然后分别将各个关键词所对应的TF-IDF值与该预设阈值进行比较，从而选取出TF-IDF值大于该预设阈值的关键词，作为该高频关键词；也可以先根据TF-IDF值从大到小的顺序，对各个关键词进行排名，然后选取名次大于预设名次的关键词，其中，该预设名词可以为前100名、前90名等。

其中，对于该预设阈值和预设名次的设定方式，通常可以结合所需要拼接生成的拼接语料的句子长度来确定，比如若设定拼接语料的句子长度为小于500个字符，从而能够根据该要求来确定该预设阈值和预设名次。

通过这种方式能够从所提取得到的各个关键词中，进一步筛选出高频关键词，这些高频关键词相对于非高频关键词而言，更能够反映出长文本语料的真实语义，此时可以通过从各个关键词中所选取出多个高频关键词的拼接，生成拼接语料，比如将这些高频关键词，根据在该长文本语料中的先后顺序进行拼接，从而生成该拼接语料。

这种通过高频关键词拼接得到拼接语料的方式，相对于直接通过关键词拼接得到拼接语料的方式而言，由于进一步剔除了非高频关键词，因此能够进一步降低句子的长度，提高后续的处理效率，在需要快速响应的场景下较为适用。

基于与本申请实施例所提供的长文本分类方法相同的发明构思，本申请实施例还提供了一种长文本分类装置，对于该装置实施例，如有不清楚之处，可以参考方法实施例的相应内容。如图3所示为该装置30的具体结构示意图，该装置30包括：关键词提取单元301、拼接单元302、向量表示获取单元303和模型生成单元304，其中：

关键词提取单元301，用于提取长文本语料中的各个关键词；

拼接单元302，用于通过所提取的各个关键词的拼接，生成拼接语料；

向量表示获取单元303，用于获取所述拼接语料的向量表示；

模型生成单元304，用于将所述向量表示和所述长文本语料的分类标签作为样本，用于生成长文本分类模型，以通过所述长文本分类模型对待分类长文本进行分类。

采用本申请实施例所提供的装置30，由于该装置30采用与本申请实施例所提供的长文本分类方法相同的发明构思，在该方法能够解决技术问题的前提下，该装置30也能够解决技术问题，这里对此不再赘述。

另外，在实际应用中，通过将该装置30与具体硬件设备、云技术等相结合所取得的技术效果，也在本申请的保护范围之内，比如采用分布式集群的方式将该装置30中的不同单元布设于分布式集群中的不同节点中，从而提高效率等。

在实际应用中，拼接单元302可以具体包括拼接子单元，用于将所提取的各个关键词，根据在所述长文本语料中的先后顺序进行拼接，以生成所述拼接语料。

向量表示获取单元303可以具体包括向量表示获取子单元，用于将所述拼接语料输入至bert模型，并获取所述bert模型的输出，作为所述拼接语料的向量表示。

关键词提取单元301可以具体包括关键词提取子单元，用于将所述长文本语料输入至LDA分词模型，并获取所述LDA分词模型的输出，作为所提取的各个关键词。

该装置30还可以包括长文本语料生成单元，用于从语料库获取原始长文本语料；通过剔除所述述原始长文本语料中的停用词，以生成所述长文本语料。

该装置30还可以包括高频关键词确定单元，用于确定各个关键词在所述长文本语料中的TF-IDF值；根据各个关键词所对应的TF-IDF值的大小，从各个关键词中选取出多个高频关键词，其中，所述高频关键词具体包括TF-IDF值大于预设阈值的关键词，或根据TF-IDF值从大到小的顺序进行排名时，名次大于预设名次的关键词；以及，拼接单元302可以具体包括第二拼接子单元，用于通过从各个关键词中所选取出多个高频关键词的拼接，生成拼接语料。

模型生成单元304可以具体包括模型生成子单元，用于将所述向量表示和所述长文本语料的分类标签作为样本，添加至训练集；利用所述训练集中的各个样本对待训练模型进行训练，以生成所述长文本分类模型，其中，所述待训练模型具体包括textCNN模型或SVM模型。

该装置30还可以包括分类单元，用于获取待分类长文本；提取所述待分类长文本中的各个关键词；将所述待分类长文本中的各个关键词进行拼接，以生成第二拼接语料；获取所述第二拼接语料的向量表示；将所述第二拼接语料的向量表示输入至所述长文本分类模型，并获取所述长文本分类模型的输出，作为所述待分类长文本的分类标签。

本发明实施例还提供了一种存储介质，包括：程序，当其在电子设备上运行时，使得电子设备可执行上述实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等。存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种长文本分类方法，其特征在于，所述方法包括：

提取长文本语料中的各个关键词；

通过所提取的各个关键词的拼接，生成拼接语料；

获取所述拼接语料的向量表示；

2.根据权利要求1所述的方法，其特征在于，通过所提取的各个关键词的拼接，生成拼接语料，具体包括：

3.根据权利要求1所述的方法，其特征在于，获取所述拼接语料的向量表示，具体包括：

4.根据权利要求1所述的方法，其特征在于，提取长文本语料中的各个关键词，具体包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

从语料库获取原始长文本语料；

6.根据权利要求1所述的方法，其特征在于，在提取长文本语料中的各个关键词之后，所述方法还包括：

确定各个关键词在所述长文本语料中的TF-IDF值；

7.根据权利要求1所述的方法，其特征在于，将所述向量表示和所述长文本语料的分类标签作为样本，用于生成长文本分类模型，具体包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待分类长文本；

提取所述待分类长文本中的各个关键词；

获取所述第二拼接语料的向量表示；

9.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行如权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，包括：程序，当其在电子设备上运行时，使得电子设备可执行如权利要求1至7中任一项所述的方法。