CN113486670A

CN113486670A - 基于目标语义的文本分类方法、装置、设备及存储介质

Info

Publication number: CN113486670A
Application number: CN202110838467.3A
Authority: CN
Inventors: 于凤英; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-10-08
Anticipated expiration: 2041-07-23
Also published as: CN113486670B

Abstract

本申请适用于人工智能技术领域，公开了一种基于目标语义的文本分类方法、装置、设备及存储介质，所述方法包括通过BERT预训练模型获取文本语料库中目标词及预设种子词的特征向量，结合分类标签集合，利用K均值聚类算法确定目标词的目标语义；基于目标词的目标语义与预设种子词构建第一训练样本，训练得到第一文本分类模型；使用第一文本分类模型为文本添加分类标签；根据排序系数公式，得到扩展种子词；基于已添加分类标签的文本、预设种子词及扩展种子词构建第二训练样本，训练得到第二文本分类模型，使用第二分类模型对待分类文本进行分类，实现了对特定上下文语境下目标词语义的确定，扩展了用于文本分类的种子词，提高了文本分类的准确率。

Description

基于目标语义的文本分类方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于目标语义的文本分类方法、文本分类装置、计算机设备及存储介质。

背景技术

文本分类是自然语言处理(Natural Language Processing,NLP)领域中最基本的任务，文本分类的准确率是文本分类方法重要的评判标准之一，而提升文本分类的准确率可以通过分字符、数据清洗、特征提取、模型建立以及训练语料等步骤实现。现有的文本分类模型及分类方法大多基于待分类文本中的类别关键词进行文本分类。

但在文本分类的过程中，一个词语常常有多个含义，每个含义可能都会决定文本所划分的不同类别，例如“苹果”一词，既可能指的是一种水果名称，也可能指的是一个电子产品品牌，现有的文本分类模型无法对文本中可能出现歧义的类别关键词的词义进行准确区分，在根据类别关键词进行文本分类时，导致了文本分类出现错误，因此，现有的文本分类方法中，由于一词多义所产生的歧义问题严重地影响了文本分类的准确率。

发明内容

本申请实施例提供一种基于目标语义的文本分类方法、装置、设备及存储介质，以解决现有文本分类方法无法准确区别分类关键词的词义，进而基于分类关键词进行文本分类时，所导致的文本分类准确率低的问题。

本申请的第一方面提供一种基于目标语义的文本分类方法，包括：

利用BERT预训练模型获取文本语料库中每个目标词的第一特征向量，以及每个预设种子词的第二特征向量；

基于所述目标词的第一特征向量、所述预设种子词的第二特征向量及所述文本语料库的分类标签集合，按照K均值聚类算法对所述目标词进行聚类分析，确定每个所述目标词的目标语义；

利用基于所述文本语料库中已确定目标词目标语义的文本与所述预设种子词构建得到的第一训练样本，对HAN模型进行训练，将训练后的HAN模型作为第一文本分类模型；

使用所述第一文本分类模型对所述文本语料库中的文本进行分类，并对所述文本添加分类标签；

根据预设的排序系数公式，确定所述目标词的分类语义，将确定了分类语义的所述目标词作为扩展种子词；

利用基于已添加分类标签的文本、所述预设种子词及所述扩展种子词构建得到的第二训练样本，训练HAN模型，将训练后的HAN模型作为第二文本分类模型；

使用所述第二文本分类模型根据待分类文本中所述预设种子词及所述扩展种子词出现的频次，对所述待分类文本进行分类，为所述待分类文本添加分类标签。

本申请的第二方面提供一种文本分类装置，包括：

特征提取模块，用于利用BERT预训练模型获取文本语料库中每个目标词的第一特征向量，以及每个预设种子词的第二特征向量；所述目标词为所述文本语料库中的任一词；所述预设种子词为预先从所述文本语料库中选取，且用于对所述文本语料库中各文本进行分类的词；所述第一特征向量用于表征所述目标词的上下文特征；所述第二特征向量用于表征所述预设种子词的上下文特征；

聚类分析模块，用于基于所述目标词的第一特征向量、所述预设种子词的第二特征向量及所述文本语料库的分类标签集合，按照K均值聚类算法对所述目标词进行聚类分析，确定每个所述目标词的目标语义；

第一训练模块，用于利用基于所述文本语料库中已确定目标词目标语义的文本与所述预设种子词构建得到的第一训练样本，对HAN模型进行训练，将训练后的HAN模型作为第一文本分类模型；

第一分类模块，用于使用所述第一文本分类模型对所述文本语料库中的文本进行分类，并对所述文本添加分类标签；

种子词扩展模块，用于根据预设的排序系数公式，确定所述目标词的分类语义，将确定了分类语义的所述目标词作为扩展种子词；

第二训练模块，用于利用基于已添加分类标签的文本、所述预设种子词及所述扩展种子词构建得到的第二训练样本，训练HAN模型，将训练后的HAN模型作为第二文本分类模型；

第二分类模块，用于使用所述第二文本分类模型根据待分类文本中所述预设种子词及所述扩展种子词出现的频次，对所述待分类文本进行分类，为所述待分类文本添加分类标签。

第三方面，本申请实施例提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述基于目标语义的文本分类方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述基于目标语义的文本分类方法的步骤。

本申请提供了一种基于目标语义的文本分类方法、装置、设备及存储介质，通过利用BERT预训练模型获取文本语料库中每个目标词的第一特征向量，以及每个预设种子词的第二特征向量，再根据目标词的第一特征向量、预设种子词的第二特征向量及文本语料库的分类标签集合，按照K均值聚类算法对目标词进行聚类分析，确定每个所述目标词的目标语义，实现了对文本语料库数据的上下文语境化，然后将语境化的文本语料库与预设种子词作为第一训练样本对HAN模型进行训练，将训练后的HAN模型作为第一文本分类模型，使用该第一文本分类模型为文本语料库中的文本添加分类标签，再根据预设的排序系数公式，将确定了分类语义的目标词作为扩展种子词，利用基于已添加分类标签的文本、预设种子词及扩展种子词构建得到的第二训练样本，训练HAN模型，将训练后的HAN模型作为第二文本分类模型，使用第二分类文本分类模型对待分类文本进行分类，添加分类标签。本申请通过获取目标词及预设种子词的上下文特征向量，基于聚类分析的思想确定目标词在特定上下文环境下的目标语义，进而，通过构建第一训练样本，训练得到第一文本分类模型，利用第一文本分类模型对训练文本进行初步地分类，再根据训练文本初步分类结果将目标词转化为扩展种子词，实现了对种子词的扩展，避免了目标词的歧义所导致的文本分类不准确的问题，进一步地，通过构建第二训练样本，训练HAN模型，得到第二文本分类模型，使用第二文本分类模型对待分类文本进行分类，由于其确定了目标词在特定上下文环境下的目标语义，扩展了用于分类的种子词，从而提高了在处理文本分类任务上的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中基于目标语义的文本分类方法的一应用环境示意图；

图2是本申请一实施例中基于目标语义的文本分类方法的一实现流程图；

图3是本申请一实施例中基于目标语义的文本分类方法中步骤S20的流程图；

图4是本申请一实施例中基于目标语义的文本分类方法中步骤S21的流程图；

图5是本申请一实施例中基于目标语义的文本分类方法中步骤S30的流程图；

图6是本申请一实施例中基于目标语义的文本分类方法中步骤S50的流程图；

图7是本申请一实施例中文本分类装置的示意图；

图8是本申请一实施例中计算机设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的基于目标语义的文本分类方法，可应用在如图1的应用环境中，其中，服务端是进行文本分类的计算机设备，服务端可以是服务器或服务器集群，基于多个客户端所上传的文本语料内容构建得到文本语料库，文本语料库分布式存储在各个客户端上，或者统一上传到服务端存储，也可以将预先设置好的文本语料库直接保存在服务端，在服务端完成文本分类任务，文本语料库具体可以是各种关系型或非关系型数据库，如MS-SQL、0racle、MySQL、Sybase、DB2、Redis、MongodDB、Hbase等，本申请实施例提供的基于目标语义的文本分类方法应用于服务端。

在一实施例中，如图2所示，提供了一种基于目标语义的文本分类方法，其具体实现流程包括以下步骤S10-S70：

S10：利用BERT预训练模型获取文本语料库中每个目标词的第一特征向量，以及每个预设种子词的第二特征向量。

在步骤S10中，目标词为文本语料库中的任一词；预设种子词为预先从所述文本语料库中选取，且用于对文本语料库中各文本进行分类的词；第一特征向量用于表征目标词的上下文特征；第二特征向量用于表征预设种子词的上下文特征。

预训练模型是一种迁移学习的应用，利用极大数量的样本文本，学习输入句子的每一个词语的上下文相关的表示，并隐式地学习通用的语法语义知识，将从开放领域学到的知识迁移到下游任务，在进行自然语言处理处理任务时，基于预训练模型，采用微调的机制即可实现很好的扩展性。BERT模型是一种基于双向Transformer构建的语言模型，其将预训练模型和下游任务模型结合在一起来实现文本分类任务，关于BERT预训练模型，现有很多开源提供的模型可以使用，此处不再进行具体说明。本实施例中的文本语料库可以是中文文本的语料库，也可以是其他外语文本所构成的语料库，目标词可以为文本语料库中的任一词，预设种子词为开发人员预先从文本语料库中选出，能够表征包含该种子词的文本所属分类标签的词，也即预设种子词可以用于对文本语料库中的文本进行分类，以中文文本语料库为例，从中选定一预设种子词为“足球”，则包含该预设种子词的文本可能的分类标签为“运动”。

利用BERT预训练模型获取文本语料库中每个目标词的第一特征向量，以及文本语料库中的预设种子词的第二特征向量，这里，文本语料库中同一个目标词或同一个预设种子词可能出现多次，根据目标词或预设种子词在文中的上下文语境的不同，利用BERT模型的基于Transformer的双向编码器特性，得到能够表征目标词上下文特征的第一特征向量，以及表征预设种子词上下文特征的第二特征向量。例如，对于句子“他用苹果手机给香蕉、苹果和菠萝拍照”，若“苹果”为选定的目标词，则该目标词在这个句子中出现了两次，并且两次的意思不相同，第一个“苹果”指的是电子产品的品牌，第二个“苹果”指的是一种水果，利用BERT预训练模型分别获取它们对应的上下文特征向量，就可以通过该目标词上下文的内容，来对目标词在文本中的语义做出大致的判断，比如第一个“苹果”后面连接的是“手机”一词，则我们更倾向于将其认定为电子产品的品牌名称，而第二个“苹果”，其前后的词语为“香蕉”和“菠萝”，都指的是水果的名称，据此，就可以认为第二个“苹果”指的是水果的意思。另一方面，若在文本中该目标词在不同上下文中表征的语义相似，则其对应的第一特征向量之间的余弦相似度会很高，反之，若语义不相似，则余弦相似度会较低。

S20：基于所述目标词的第一特征向量、所述预设种子词的第二特征向量及所述文本语料库的分类标签集合，按照K均值聚类算法对所述目标词进行聚类分析，确定每个所述目标词的目标语义。

在步骤S20中，文本语料库的分类标签集合中有若干预设的分类标签，根据目标词的第一特征向量、预设种子词的第二特征向量及分类标签集合中的分类标签，采用聚类分析的方法确定目标词的目标语义。通过目标词的第一特征向量可以得到同一目标词在文本语料库中不同上下文语境下语义的区别，但对于该目标词在文本语料库中具体有多少语义，可以通过聚类分析的方法来确定。

聚类分析是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程，通过聚类将数据分到不同的簇，同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。从机器学习的角度讲，簇相当于隐藏模式，聚类是搜索簇的无监督学习过程，与分类不同，无监督学习不依赖预先定义的类或带标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。在本实施例中，由于并不知道对于给定的某一目标词，在文本语料库中有几种语义，因此，在预先不知道分类数目的情况下，采用聚类分析的方法可以较好地确定目标词在文本语料库中的语义数目。

具体地，本实施例中采用K均值聚类算法进行聚类分析，K均值聚类算法，即K-means算法，算法步骤为：先选择初始化的K个样本作为初始聚类中心；针对数据集中每个样本计算它到K个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中；针对每个类别，重新计算它的聚类中心，迭代进行计算聚类中心，直到达到某个中止条件，如预设的迭代次数、最小误差变化等。本实施例中，根据预设种子词的第二特征向量及文本语料库的分类标签集合确定聚类分析的初始参数K值，然后按照K-means算法对目标词的第一特征向量进行聚类，得到目标词的若干语义，再根据目标词的第一特征向量和分类标签集合中分类标签的相似度关系，确定目标词在文本语料库中目标语义，这里的目标语义指的是该目标词在文本语料库的某一特定的上下文语境下的语义，当该目标词在文本语料库中出现多次时，根据其上下文语境的不同，可能会有多个不同的目标语义。

S30：利用基于所述文本语料库中已确定目标词目标语义的文本与所述预设种子词构建得到的第一训练样本，对HAN模型进行训练，将训练后的HAN模型作为第一文本分类模型。

在步骤S30中，第一训练样本基于目标词的目标语义与预设种子词构建得到，目标词为文本语料库中的任一词，确定目标语义的目标词可以文本语料库中的部分词或全部词，通过确定目标词的目标语义，实现了对文本语料库数据的上下文语境化。

在深度学习的文本分类模型中，HAN(Hierarchical Attention Network)模型解决了TextCNN丢失文本结构信息的问题，在长文本上有不错的分类精度。HAN模型有两个重要特征，第一是分层，分为word-level层与sentence-level层，符合文档结构；第二是使用注意力机制，在加权时，可以根据内容赋予动态权重。HAN模型包括Word Encoder，WordAttention，Sentence Encoder，Sentence Attention的四个过程，基于词汇层级和句子层级来考虑文本的特征，同时采用Attention机制选择模型分类的重点，再利用softmax进行分类。本实施例通过构建完成的第一训练样本对HAN模型进行训练，然后将训练完成的HAN模型作为第一文本分类模型。

S40：使用所述第一文本分类模型对所述文本语料库中的文本进行分类，并对所述文本添加分类标签。

在步骤S40中，使用训练完成的第一文本分类模型对文本语料库中的文本进行分类，具体地，可以根据文本语料库中某一文本的预设种子词出现的频次以及预设种子词所表征的分类标签信息，对文本语料库中的文本进行分类并添加上分类标签，由于预设种子词只是开发人员预先选择的且数量较少，该第一文本分类模型在文本分类任务的准确率有限，后续根据目标词的语义，可以对种子词进行扩展，构建新的训练样本，再次对HAN模型进行训练，以此实现更好的文本分类效果。

S50：根据预设的排序系数公式，确定所述目标词的分类语义，将确定了分类语义的所述目标词作为扩展种子词。

在步骤S50中，文本语料库中的部分或全部文本都已经被添加上分类标签，预设的排序系数公式可以根据数据分析中的TF-IDF等方法得到，TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

S60：利用基于已添加分类标签的文本、所述预设种子词及所述扩展种子词构建得到的第二训练样本，训练HAN模型，将训练后的HAN模型作为第二文本分类模型。

在步骤S60中，第二训练样本基于已添加分类标签的文本、所述预设种子词及所述扩展种子词构建得到，其中，已添加分类标签的文本由第一文本分类模型对文本语料库中的文本分类并添加分类标签得到，扩展种子词的生成可以是一个迭代的过程，进而第二文本分类模型也可以通过迭代训练得方式得到，具体地，当生成一个或多个扩展种子词后，构建第二训练样本，训练HAN模型，得到第二文本分类模型，再使用该第二文本分类模型对文本语料库中的文本重新进行分类，并添加分类标签，此时，由于对用于分类的种子词进行了扩展，文本分类的结果也更加准确，然后，根据重新添加分类标签的文本构建新的第二训练样本，训练HAN模型，进而得到新的第二文本分类模型，以迭代的方式生成扩展种子词、对文本添加分类标签，训练文本分类模型至模型达到预设的收敛条件，将最终得到的文本分类模型作为第二文本分类模型，预设的收敛条件可以为模型迭代训练达到预定的次数等。

S70：使用所述第二文本分类模型根据待分类文本中所述预设种子词及所述扩展种子词出现的频次，对所述待分类文本进行分类，为所述待分类文本添加分类标签。

在步骤S70中，文本语料库中的文本作为训练样本用于对分类模型进行训练，这里的待分类文本可以不是文本语料库中的文本，也可以是文本语料库已进行初步分类的文本，待分类文本中包括一个或多个预设种子词或扩展种子词，使用第二文本分类模型根据待分类文本中预设种子词及扩展种子词出现的频次，对待分类文本进行分类，为待分类文本添加分类标签。

本实施例利用BERT预训练模型获取文本语料库中每个目标词的第一特征向量，以及每个预设种子词的第二特征向量，再根据目标词的第一特征向量、预设种子词的第二特征向量及文本语料库的分类标签集合，按照K均值聚类算法对目标词进行聚类分析，确定每个所述目标词的目标语义，实现了对文本语料库数据的上下文语境化，然后将语境化的文本语料库与预设种子词作为第一训练样本对HAN模型进行训练，将训练后的HAN模型作为第一文本分类模型，使用该第一文本分类模型为文本语料库中的文本添加分类标签，再根据预设的排序系数公式，将确定了分类语义的目标词作为扩展种子词，利用基于已添加分类标签的文本、预设种子词及扩展种子词构建得到的第二训练样本，训练HAN模型，将训练后的HAN模型作为第二文本分类模型，使用该第二文本分类模型对待分类文本进行分类，并添加分类标签，实现了对于目标词的语义根据上下文语境不同的准确区分，对用于分类的种子词进行了扩展，在进行文本分类时的准确率更高。

图3示出了本申请基于目标语义的文本分类方法步骤S20的流程图。如图3所示，作为一个实施例，步骤S20包括步骤S21至S23，具体地：

S21：基于所述预设种子词的第二特征向量及所述文本语料库的分类标签集合，确定聚类分析中的初始聚类中心。

在步骤S21中，文本语料库的分类标签集合中的若干分类标签为开发人员预先设定，为了便于机器进行运算，可以将分类标签分别进行数据化处理，比如可以将分类标签转换为向量或者字符序列的形式。在K均值聚类算法中，首先要确定初始聚类中心，也即是对于样本数据所要进行分类的类别数目，传统的确定初始聚类中心的方法是随机选择K个点作为初始的聚类中心点，但是该方法在有些情况下的效果较差，容易陷入局部极值，还有其他的一些方法：例如选择彼此距离尽可能远的K个点，再例如先对数据用层次聚类算法或者Canopy算法进行聚类，得到K个簇之后，从每个类簇中选择一个点，该点可以是该类簇的中心点，或者是距离类簇中心点最近的那个点。本实施例中，通过对预设种子词的第二特征向量及文本语料库的分类标签集合进行处理，进而得到聚类分析的初始聚类中心，由于事先不能确定目标词在文本语料库中可能的语义数目，因此不能采用随机选择聚类中心的方式，由于目标词的语义往往能够表征出包含该目标词的文本类别信息，因此可以对分类标签集合中的分类标签进行处理，将处理过后的分类标签作为聚类分析中的初始聚类中心，进而实现对目标词的在具体上下文语境中目标语义的确定。

S22：根据所述初始聚类中心，采用K均值聚类算法对所述目标词的第一特征向量进行聚类分析，得到所述目标词的K个语义；其中，K的值为所述初始聚类中心的个数。

聚类指的是按照某个特定标准(如距离准则)把一个数据集分割成不同的类，使得同一个类内的数据对象的相似性尽可能大，同时使不在同一个类中的数据对象的差异性也尽可能地大，即聚类后同一类的数据尽可能聚集到一起，不同类的数据尽量分离。K均值聚类算法属于一种动态聚类算法，也称逐步聚类法，在聚类算法迭代之前，算法首先随机的从数据集中依次选取K个数据对象作为K个初始聚类中心，根据类中对象的均值，即聚类中心，依次将其他的数据对象划分到与其最近的聚类中也所在的类中，数据对象划分完毕，然后计算每个聚类的中心，更新聚类中心作为新的聚类中心点，迭代上述聚类过程，直到聚类中心不再发生变化。本实施例中，通过K均值聚类算法，将文本语料库中在特定上下语境下语义相似的同一目标词进行聚类，最终根据聚类的结果可得到该目标词在文本语料库的可能的若干语义。

S23：根据所述目标词的第一特征向量与所述分类标签集合中各个分类标签之间余弦相似度取值，确定所述目标词的目标语义。

在步骤S23中，文本语料库中的目标词可能出现多次，根据其不同的上下语境，分别可以得到对应的第一特征向量，该第一特征向量表征的是该目标词在特定上下文中的特征，而不是在整个文本语料库的特征，也即，同一个目标词在文本语料库中有多个第一特征向量，对于其中的一个第一特征向量进行分析处理，得到的是该目标词在此特定上下文的目标语义，而不是在整个文本语料或者文本中的语义。具体地，通过计算目标词的第一特征向量与分类标签集合中各个分类标签的余弦相似度，根据计算得到的最大余弦相似度对应的分类标签来确定目标词的目标语义，例如，目标词为“苹果”，分类标签有“水果”、“品牌”、“运动”，在句子“今天吃了苹果”中，显然目标词的“苹果”指的是一种水果名称，计算得到目标词“苹果”在该句中的第一特征向量与分类标签“水果”、“品牌”、“运动”的数学表示之间的余弦相似度分别为0.8,0.4,0.2,可见，在该句中“苹果”一词与分类标签“水果”的相似度较大，因此，其在该句中的目标语义指的就是一种水果的名称，而不是电子产品的品牌。

本实施例中，首先通过预设种子词的第二特征向量及文本语料库的分类标签集合确定初始聚类中心，然后根据所确定的初始聚类中心对目标词的第一特征向量进行聚类分析，得到目标词的多个语义，再通过计算目标词的第一特征向量与分类标签的余弦相似度，确定目标词的目标语义，实现了对目标词在某一具体上下文语境下语义的确定，通过对所有目标词确定其目标语义，使得文本语料库上下文语境化。

图4示出了本申请基于目标语义的文本分类方法步骤S21的流程图。如图4所示，作为一个实施例，步骤S21包括步骤S211至S214，具体地：

S211：计算所述分类标签集合中各个分类标签之间的余弦相似度，得到第一相似度序列，并选取所述第一相似度序列中的最大值作为第一聚类值。

在步骤S211中，计算分类标签集合中任意两个分类标签之间的余弦相似度，所有余弦相似度的计算结果构成第一相似度序列，进而取第一相似度序列中余弦相似度的最大值作为第一聚类值。

S212：基于每个所述预设种子词在所述文本语料库中出现的频次，计算每个所述预设种子词对应的第二聚类值。

在步骤S212中，由于预设种子词是从文本语料库中预先选取的，预设种子词有多个，且同一预设种子词在文本语料库中出现多次，对应地，根据预设种子词的上下文语境的不同，可以分别得到同一个预设种子词的多个第二特征向量，再通过预设种子词的第二特征向量，计算得到该预设种子词对应的第二聚类值。具体地，计算同一预设种子词的各个第二特征向量之间的余弦相似度，得到第二相似度序列，并选取第二相似度序列中的中位数作为第二聚类值。

S213：将全部所述预设种子词对应的第二聚类值进行排序，选取排序后的全部所述第二聚类值的中位数作为第三聚类值。

在步骤S213中，由于预设种子词有多个，每个预设种子词都可以通过计算得到其对应的第二聚类值，对全部预设种子词对应的第二聚类值进行排序，选取其中的中位数作为第三聚类值。

S214：当所述第一聚类值小于所述第三聚类值时，对所述分类标签进行过滤，得到聚类分析中的初始聚类中心。

在步骤S214中，第一聚类值是分类标签集合中各个分类标签之间的余弦相似度的最大值，第三聚类值为全部预设种子词对应的第二聚类值的中位数，而每一个预设种子词对应的第二聚类值通过计算该预设种子词的各个第二特征向量之间的余弦相似度，再取中位数得到。可理解地，对于一个有多个语义的目标词，在文本语料库中大部分文本中，该目标词的语义还是趋向于最常用的语义。因此我们取中位数作为阈值进行目标词的语义区分，当第一聚类值小于第三聚类值时，对所述分类标签进行过滤，具体指的是当第一聚类值小于第三聚类值时，对于分类标签集合中的分类标签进行舍弃，另一方面，在聚类分析的过程中，将属于需要舍弃的分类标签簇下的第二特征向量，合并到其他分类标签簇中，进而得到聚类分析中的初始聚类中心，也即最后所保留的若干分类标签。

本实施例中，通过计算分类标签集合中各个分类标签之间的余弦相似度，得到第一相似度序列，选取第一相似度序列中的最大值作为第一聚类值，基于每个预设种子词在文本语料库中出现的频次，计算每个所述预设种子词对应的第二聚类值，将全部预设种子词对应的第二聚类值进行排序，选取排序后的全部第二聚类值的中位数作为第三聚类值，当第一聚类值小于第三聚类值时，对分类标签进行过滤，得到初始聚类中心，其初始聚类中心可用于后续的K均值聚类算法中。

图5示出了本申请基于目标语义的文本分类方法步骤S30的流程图。如图5所示，作为一个实施例，步骤S30包括步骤S31至S32，具体地：

S31：根据所述预设种子词出现的频次，为所述文本语料库中的文本待定添加待定分类标签。

在步骤S31中，根据预设种子词在文本语料库中的文本出现的次数为文本添加待定分类标签，该待定分类标签用于对模型进行训练，并不作为最终对于文本的分类标签，预设种子词表征了包含该种子词的文本的分类信息，可以用于文本的分类，在某一文本中，可能包含多个预设种子词，其中，部分预设种子词表征了同一种分类信息，则在计算预设种子词在文本中出现的频次时，统计的是该部分预设种子词分别出现频次之和，例如，预设种子词为“足球”，“篮球”，“西瓜”，在某一文本中，上述预设种子词出现的次数为分别为“足球(6)”，“篮球(2)”，“西瓜(7)”，其中，预设种子词“足球”，“篮球”为同一类别的预设种子词，在统计预设种子词出现的频次时，计算的是“足球”，“篮球”的频次之和，据此，将为该文本添加“运动”的分类标签，而不是预设种子词“西瓜”所对应的“水果”这一分类标签，通常根据数据表明，三个同一类别的预设种子词就可以对一个类别实现很好的分类。

S32：根据所述目标词的目标语义及所述文本语料库中已添加待定分类标签的文本，训练HAN模型，将训练后的HAN模型作为第一文本分类模型。

一个文本由很多句子组成，每个句子又由很多词语组成，因此文本可以看做层次化结构，HAN模型就是基于文本的层次化结构提出的一种具有层次化结构的模型，在模型架构中引入文本结构知识可以获得更好的文档表示。另外，在对文本分类时，不同的词和句子对文本信息的表达有不同的影响，词和句子的重要性是严重依赖于上下文的，即使是相同的词和句子，在不同的上下文中重要性也不一样，就像人在阅读一篇文本时，对文本不同的内容是有着不同的注意度的，因此在对词语和句子建模时分别引入了attention机制，可以帮助模型基于不同句子和词语给予不同的注意力权重，得到更好的文本表示。本实施例中，根据目标词在文本中的上下文内容，确定该目标词的目标语义，这里，目标词为文本语料库中的任意一词，通过确定多个目标词的目标语义，实现了对文本语料库的上下文语境化，将已经上下文语境化的文本语料库及已经添加分类标签的文本作为第一训练样本训练HAN模型，将训练后的HAN模型作为第一文本分类模型用于文本的初步分类任务。

图6示出了本申请基于目标语义的文本分类方法步骤S50的流程图。如图6所示，作为一个实施例，步骤S50包括步骤S51至S52，具体地：

S51：基于预设的排序系数公式，计算所述目标词的每个语义在所述文本语料库中的排序系数。

在步骤S51中，预设的排序系数公式如下所示：

其中，

表示分类标签为

的文本数量，

表示分类标签为

且含有目标词w的文本数量，LI是包含目标词w的文本中属于分类标签

的文本数量除以分类标签为

总的文本数量。比如包含目标词w的文本总共5篇，其中3篇属于分类标签

而分类标签为

的文本总共10篇，则LI就是3/10＝0.3。tanh为双曲正切函数，

表示分类标签为

的文本中，目标词w的词频，也就是目标词w出现的次数，

是分类标签为

的文本中目标词w出现的总数除以分类标签为

的文本数量，比如分类标签为

的文本中目标词w出现了5次，分类标签为

的文本总共10篇，则

就是tanh(5/10)。逆向文件频率(inversedocument frequency，IDF)是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文本数量除以包含该词语之文本的数量，再将得到的商取对数得到，本实施例中，n为总文本数量，

为包含目标词w的文本数量，最终计算得到的

即为目标词的排序系数R。

S52：选取所述目标词最大排序系数对应的语义，作为所述目标词在所述文本语料库中的分类语义，将确定了分类语义的所述目标词作为扩展种子词。

在步骤S52中，在计算得到各目标词的每个语义的排序系数R后，根据排序系数R值排序仅保留R值最高的目标词的语义，舍弃其他语义，将该语义设置为该目标词的分类语义，将确定了分类语义的目标词设置为扩展种子词。

本申请提供的基于目标语义的文本分类方法通过利用BERT预训练模型获取文本语料库中每个目标词的第一特征向量，以及每个预设种子词的第二特征向量，再根据目标词的第一特征向量、预设种子词的第二特征向量及文本语料库的分类标签集合，按照K均值聚类算法对目标词进行聚类分析，确定每个所述目标词的目标语义，实现了对文本语料库数据的上下文语境化，然后将语境化的文本语料库与预设种子词作为第一训练样本对HAN模型进行训练，将训练后的HAN模型作为第一文本分类模型，使用该第一文本分类模型为文本语料库中的文本添加分类标签，再根据预设的排序系数公式，将确定了分类语义的目标词作为扩展种子词，利用基于已添加分类标签的文本、预设种子词及扩展种子词构建得到的第二训练样本，训练HAN模型，将训练后的HAN模型作为第二文本分类模型，使用第二分类文本分类模型对待分类文本进行分类，添加分类标签。本申请通过获取目标词及预设种子词的上下文特征向量，基于聚类分析的思想确定目标词在特定上下文环境下的目标语义，进而，通过构建第一训练样本，训练得到第一文本分类模型，利用第一文本分类模型对训练文本进行初步地分类，再根据训练文本初步分类结果将目标词转化为扩展种子词，实现了对种子词的扩展，避免了目标词的歧义所导致的文本分类不准确的问题，进一步地，通过构建第二训练样本，训练HAN模型，得到第二文本分类模型，使用第二文本分类模型对待分类文本进行分类，由于其确定了目标词在特定上下文环境下的目标语义，扩展了用于分类的种子词，从而提高了在处理文本分类任务上的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种文本分类装置，该文本分类装置与上述实施例中基于目标语义的文本分类方法一一对应。如图7所示，该文本分类装置包括特征提取模块10、聚类分析模块20、第一训练模块30、第一分类模块40、种子词扩展模块50、第二训练模块60、第二分类模块70，各功能模块详细说明如下：

特征提取模块10，用于利用BERT预训练模型获取文本语料库中每个目标词的第一特征向量，以及每个预设种子词的第二特征向量。

聚类分析模块20，用于基于所述目标词的第一特征向量、所述预设种子词的第二特征向量及所述文本语料库的分类标签集合，按照K均值聚类算法对所述目标词进行聚类分析，确定每个所述目标词的目标语义。

第一训练模块30，用于利用基于所述文本语料库中已确定目标词目标语义的文本与所述预设种子词构建得到的第一训练样本，对HAN模型进行训练，将训练后的HAN模型作为第一文本分类模型。

第一分类模块40，用于使用所述第一文本分类模型对所述文本语料库中的文本进行分类，并对所述文本添加分类标签。

种子词扩展模块50，用于根据预设的排序系数公式，确定所述目标词的分类语义，将确定了分类语义的所述目标词作为扩展种子词。

第二训练模块60，用于利用基于已添加分类标签的文本、所述预设种子词及所述扩展种子词构建得到的第二训练样本，训练HAN模型，将训练后的HAN模型作为第二文本分类模型。

第二分类模块70，用于使用所述第二文本分类模型根据待分类文本中所述预设种子词及所述扩展种子词出现的频次，对所述待分类文本进行分类，为所述待分类文本添加分类标签。

在在一实施例中，聚类分析模块，包括初始聚类单元、聚类执行单元及相似度计算单元，各功能模块详细说明如下：

初始聚类单元，用于基于所述预设种子词的第二特征向量及所述文本语料库的分类标签集合，确定聚类分析中的初始聚类中心。

聚类执行单元，用于根据所述初始聚类中心，采用K均值聚类算法对所述目标词的第一特征向量进行聚类分析，得到所述目标词的K个语义；其中，K的值为所述初始聚类中心的个数。

相似度计算单元，用于根据所述目标词的第一特征向量与所述分类标签集合中各个分类标签之间余弦相似度取值，确定所述目标词的目标语义。

关于文本分类装置的具体限定可以参见上文中对于基于目标语义的文本分类方法的限定，在此不再赘述。上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端或者服务端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于目标语义的文本分类方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于目标语义的文本分类方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中基于目标语义的文本分类方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于目标语义的文本分类方法，其特征在于，包括：

2.如权利要求1所述的基于目标语义的文本分类方法，其特征在于，基于所述目标词的第一特征向量、所述预设种子词的第二特征向量及所述文本语料库的分类标签集合，按照K均值聚类算法对所述目标词进行聚类分析，确定每个所述目标词的目标语义，包括：

基于所述预设种子词的第二特征向量及所述文本语料库的分类标签集合，确定聚类分析中的初始聚类中心；

根据所述初始聚类中心，采用K均值聚类算法对所述目标词的第一特征向量进行聚类分析，得到所述目标词的K个语义；其中，K的值为所述初始聚类中心的个数；

根据所述目标词的第一特征向量与所述分类标签集合中各个分类标签之间余弦相似度取值，确定所述目标词的目标语义。

3.如权利要求2所述的基于目标语义的文本分类方法，其特征在于，基于所述预设种子词的第二特征向量及所述文本语料库的分类标签集合，确定聚类分析中的初始聚类中心，包括：

计算所述分类标签集合中各个分类标签之间的余弦相似度，得到第一相似度序列，并选取所述第一相似度序列中的最大值作为第一聚类值；

基于每个所述预设种子词在所述文本语料库中出现的频次，计算每个所述预设种子词对应的第二聚类值；

将全部所述预设种子词对应的第二聚类值进行排序，选取排序后的全部所述第二聚类值的中位数作为第三聚类值；

当所述第一聚类值小于所述第三聚类值时，对所述分类标签进行过滤，得到聚类分析中的初始聚类中心。

4.如权利要求2所述的基于目标语义的文本分类方法，其特征在于，所述根据所述目标词的第一特征向量与所述分类标签集合中各个分类标签之间余弦相似度取值，确定所述目标词的目标语义，包括：

计算所述目标词的第一特征向量与分类标签集合中各个分类标签之间的余弦相似度；

根据计算得到的最大余弦相似度对应的分类标签，确定所述目标词的目标语义。

5.如权利要求3所述的基于目标语义的文本分类方法，其特征在于，所述基于每个所述预设种子词在所述文本语料库中出现的频次，计算每个所述预设种子词对应的第二聚类值，包括：

计算同一所述预设种子词的各个第二特征向量之间的余弦相似度，得到第二相似度序列，并选取所述第二相似度序列中的中位数作为第二聚类值。

6.如权利要求1所述的基于目标语义的文本分类方法，其特征在于，所述利用基于所述文本语料库中已确定目标词目标语义的文本与所述预设种子词构建得到的第一训练样本，对HAN模型进行训练，将训练后的HAN模型作为第一文本分类模型，包括：

根据所述预设种子词出现的频次，为所述文本语料库中的文本添加待定分类标签；

根据所述目标词的目标语义及所述文本语料库中已添加待定分类标签的文本，训练HAN模型，将训练后的HAN模型作为第一文本分类模型。

7.如权利要求1所述的基于目标语义的文本分类方法，其特征在于，所述根据预设的排序系数公式，确定所述目标词的分类语义，将确定了分类语义的所述目标词设置为扩展种子词，包括：

基于预设的排序系数公式，计算所述目标词的每个语义在所述文本语料库中的排序系数；

选取所述目标词最大排序系数对应的语义，作为所述目标词在所述文本语料库中的分类语义，将确定了分类语义的所述目标词作为扩展种子词。

8.一种文本分类装置，其特征在于，包括：

特征提取模块，用于利用BERT预训练模型获取文本语料库中每个目标词的第一特征向量，以及每个预设种子词的第二特征向量；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于目标语义的文本分类方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于目标语义的文本分类方法的步骤。