CN114722204A

CN114722204A - 多标签文本分类方法及装置

Info

Publication number: CN114722204A
Application number: CN202210403778.1A
Authority: CN
Inventors: 王汀; 单岳辉
Original assignee: CAPITAL UNIVERSITY OF ECONOMICS AND BUSINESS
Current assignee: CAPITAL UNIVERSITY OF ECONOMICS AND BUSINESS
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-08

Abstract

本申请涉及一种多标签文本分类方法及装置，多标签文本分类方法包括获取标注数据集，标注数据集包括关键词，关键词所在语句，及关键词对应的标签，提取关键词所在语句中对应的预设数量的上下文词汇，对关键词对应的标签进行编码，将关键词、关键词所在语句中对应的预设数量的上下文词汇以及关键词对应的标签编码输入文本分类模型，输出分类结果。本申请可以提升多标签文本分类的准确性，提升多标签文本分类效果。

Description

多标签文本分类方法及装置

技术领域

本申请属于文本分类技术领域，具体涉及一种多标签文本分类方法及装置。

背景技术

文本分类是自然语言处理的一项基本任务。传统的文本分类技术主要关注单标签分类，在单标签分类问题中，每个样本仅属于一个相应的类别，每个类别之间存在着明显的界限。但在某些场景之下，例如，在学术论文的分类中，假如一篇论文同时属于生物领域，也属于人工智能领域，仅把其划分至一个类别，则不全面，分类的粒度比较粗，也将导致资源信息无法被正确利用和归类，因此需要设置多个标签进行分类。多标签分类要处理的即是现实生活中文本具有多个类别的任务，相比单标签分类，多标签文本分类在现实生活中更为常见，同时也更加困难。传统机器学习的多标签文本分类方法只是基于单独关键词进行特征提取，由于提取特征时并没有关联上下文语意，因此导致分类结果不准确，影响多标签文本分类效果。

发明内容

为至少在一定程度上克服传统机器学习的多标签文本分类方法只是基于单独关键词进行特征提取，由于提取特征时并没有关联上下文语意，因此导致分类结果不准确，影响多标签文本分类效果的问题，本申请提供一种多标签文本分类方法及装置。

第一方面，本申请提供一种多标签文本分类方法，包括：

获取标注数据集，所述标注数据集包括关键词，所述关键词所在语句，及所述关键词对应的标签；

提取所述关键词所在语句中对应的预设数量的上下文词汇；

对所述关键词对应的标签进行编码；

将所述关键词、所述关键词所在语句中对应的预设数量的上下文词汇以及所述关键词对应的标签编码输入文本分类模型，输出分类结果。

进一步的，所述获取标注数据集，包括：

将原始语句切分为单个词的列表；

在单个词的列表中标注每个词的顺序；

从单个词的列表中提取关键词及关键词在原始句子中的位置索引；

为关键词标注至少一个分类标签。

进一步的，所述提取所述关键词所在语句中对应的预设数量的上下文词汇，包括：

根据单个词的列表、每个词的顺序和关键词及关键词在原始句子中的位置索引提取出所述关键词所在语句中对应的预设数量的上下文词汇。

进一步的，还包括：

将每一个关键词作为一个独立的关键词输入序列；

以所述关键词输入序列中第一个字符为起点，依据每个词的顺序和所述关键词在原始句子中的位置索引，向左依次提取关键词左序列；

以所述关键词输入序列中最后一个字符为起点，依据每个词的顺序和所述关键词在原始句子中的位置索引，向右依次提取关键词右序列。

进一步的，所述关键词左序列和/或所述关键词右序列中包括标点符号。

进一步的，所述为关键词标注至少一个分类标签包括：

使用NER程序对关键词进行分类标签标注，标注类别包括PERSON、ORGANIZATION、GPE、EVENT、SUBSTANCE、WORK_OF_ART和LOCATION中的至少一种。

进一步的，所述文本分类模型包括：

输入层、计算层、输出层；

所述输入层用于将所述关键词、所述关键词所在语句中对应的预设数量的上下文词汇以及所述关键词对应的标签编码转化为文本分类模型的输入格式；

所述计算层用于提取输入层输入数据的特征，利用多个叠加的TransformerEncoder结构计算输入层的信息；

所述输出层，用于将计算层结果经过多标签分类器进行分类得到最终结果。

进一步的，所述文本分类模型的参数选择包括：

所述多标签分类器为多个sigmoid函数；

优化器为Adam Optimizer，优化参数β1＝0.9,β2＝0.98；

模型预训练参数使用基于Roberta模型参数进行初始训练。

进一步的，还包括：

使用评估效果模型对所述文本分类模型输出结果进行评估；

在评估得分满足预设要求的输出结果对应文本分类模型作为最终文本分类模型。

第二方面，本申请提供一种多标签文本分类装置，包括：

获取模块，用于获取标注数据集，所述标注数据集包括关键词，所述关键词所在语句，及所述关键词对应的标签；

提取模块，用于提取所述关键词所在语句中对应的预设数量的上下文词汇；

编码模块，用于对所述关键词对应的标签进行编码；

输出模块，用于将所述关键词、所述关键词所在语句中对应的预设数量的上下文词汇以及所述关键词对应的标签编码输入文本分类模型，输出分类结果。

本申请的实施例提供的技术方案可以包括以下有益效果：

本发明实施例提供的多标签文本分类方法及装置，通过获取标注数据集，标注数据集包括关键词，关键词所在语句，及关键词对应的标签，提取关键词所在语句中对应的预设数量的上下文词汇，对关键词对应的标签进行编码，将关键词、关键词所在语句中对应的预设数量的上下文词汇以及关键词对应的标签编码输入文本分类模型，输出分类结果，可以提升多标签文本分类的准确性，提升多标签文本分类效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请一个实施例提供的一种多标签文本分类方法的流程图。

图2为本申请一个实施例提供的另一种多标签文本分类方法的流程图。

图3为本申请一个实施例提供的一种多标签文本分类装置的功能结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请的技术方案进行详细的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

图1为本申请一个实施例提供的多标签文本分类方法的流程图，如图1所示，该多标签文本分类方法包括：

S11：获取标注数据集，标注数据集包括关键词，关键词所在语句，及关键词对应的标签；

S12：提取关键词所在语句中对应的预设数量的上下文词汇；

S13：对关键词对应的标签进行编码；

S14：将关键词、关键词所在语句中对应的预设数量的上下文词汇以及关键词对应的标签编码输入文本分类模型，输出分类结果。

传统多标签文本分类方法基于机器学习，对单独关键词进行特征提取，由于提取特征时并没有关联上下文语意，因此导致分类结果不准确，影响多标签文本分类效果。

本实施例中，通过获取标注数据集，标注数据集包括关键词，关键词所在语句，及关键词对应的标签，提取关键词所在语句中对应的预设数量的上下文词汇，对关键词对应的标签进行编码，将关键词、关键词所在语句中对应的预设数量的上下文词汇以及关键词对应的标签编码输入文本分类模型，输出分类结果，可以提升多标签文本分类的准确性，提升多标签文本分类效果。

本发明实施例提供另一种多标签文本分类方法，如图2所示的流程图，该多标签文本分类方法包括：

S201：将原始语句切分为单个词的列表；

S202：在单个词的列表中标注每个词的顺序；

S203：从单个词的列表中提取关键词及关键词在原始句子中的位置索引；

S204：为关键词标注至少一个分类标签；

一些实施例中，为关键词标注至少一个分类标签包括：

在BBN数据集上进行运行NER程序，标注BBN数据集，NER程序使用基于Java语言的Stanford Named Entity Recognizer框架对数据进行标注，标注类别为7个，分别是：PERSON、ORGANIZATION、GPE、EVENT、SUBSTANCE、WORK_OF_ART、LOCATION，对于一条mention数据的分类标签范围是最大可能存在7个分类标签。

S205：根据单个词的列表、每个词的顺序和关键词及关键词在原始句子中的位置索引提取出关键词所在语句中对应的预设数量的上下文词汇。

一些实施例中，还包括：

将每一个关键词作为一个独立的关键词输入序列；

以关键词输入序列中第一个字符为起点，依据每个词的顺序和所述关键词在原始句子中的位置索引，向左依次提取关键词左序列；

以关键词输入序列中最后一个字符为起点，依据每个词的顺序和所述关键词在原始句子中的位置索引，向右依次提取关键词右序列。

基于标注数据，进行标注数据集预处理，划分训练集和测试集的数据，将数据处理成格式为left text、mention、right text三部分，包括：将标注的数据集随机划分，训练集和测试集划分比例为8：2；对所述的数据输入格式，分为三部分：标注数据的mention部分、mention左侧的20个词作为left text，mention右侧20个词作为right text。

一些实施例中，关键词左序列和/或关键词右序列中包括标点符号。

不忽略标点符号有助于理解语义，从而进一步提升识别分类标签的准确性。

S206：对关键词对应的标签进行编码；

对离散型特征label进行one-hot编码的方法进行编码，包括：对于同一个mention的输入数据，具有多个标签分类，对于离散特征的多个label采用热编码，用于作为数据的标签。

S207：将关键词、关键词所在语句中对应的预设数量的上下文词汇以及关键词对应的标签编码输入文本分类模型，输出分类结果。

本实施例中，文本分类模型包括：

输入层、计算层、输出层；

输入层用于将关键词、关键词所在语句中对应的预设数量的上下文词汇以及关键词对应的标签编码转化为文本分类模型的输入格式；

计算层用于提取输入层输入数据的特征，利用多个叠加的Transformer Encoder结构计算输入层的信息；

输出层用于将计算层结果经过多标签分类器进行分类得到最终结果。

基于pytorch构建算法模型，输入训练集数据进行训练，调整模型参数，保存训练参数。输入层由token embedding、segment embedding、position embedding三部分组成；计算层由多个Transformer Encoder组成的模型，计算输入层的信息；输出层，用于将计算层结果经过多标签分类器进行分类得到最终结果，将最后一层计算的结果的第一个节点输出的值，连接一层全连接，再通过分类器，分类器改为多个sigmoid函数，等价于多个二分类任务；模型优化器选择为Adam，优化参数β1＝0.9,β2＝0.98；模型预训练参数使用基于Roberta模型参数进行初始训练；保存最终模型参数，提供在测试集上进行测试。

S208：使用评估效果模型对文本分类模型输出结果进行评估；

S209：在评估得分满足预设要求的输出结果对应文本分类模型作为最终文本分类模型。

本实施例中，提供一种多标签文本分类方法，具体包括：

步骤1，在BBN(双边分支网络，Bilateral-Branch Network)数据集上进行运行NER程序，标注BBN数据集。

具体地，基于所在BBN原始公共数据集，利用Stanford Named Entity Recognizer框架，对原始数据集进行标注，原始数据格式为JSON，标注结果示例：{"tokens":["The","harvest","arrives","in","plenty","after","last","year","'s","drought-ravaged","effort",":","The","government","estimates","corn","output","at","7.45","billion","bushels",",","up","51","％","from","last","fall","."],"senid":2,"mentions":[{"start":12,"labels":["/WORK_OF_ART","/ORGANIZATION"],"end":13}],"fileid":"WSJ1825"},以字典的形式储存。"tokens"的value值是将原始句子切分为单个词的列表；"senid"的value值代表每个原始句子标注之后为实体对应的句子的顺序；"mention"的value值代表原始句子中的提及关键词，模型的的分类是以"mention"为核心，"start"和"end"的value值代表mention在原始句子中的位置索引；"labels"的value值代表mention的标签，是模型的分类标签，一个mention对应多个分类标签labels；"fileid"的value值代表mention所对应的实体entity。

步骤2，基于标注数据，进行标注数据集预处理，划分训练集和测试集的数据，将数据处理成格式为left text、mention、right text三部分。

具体地，将步骤1中的标注数据进行预处理，首先将标注数据按照随机顺序不重复采样方法划分为训练集和测试集，比例为8：2；其次，数据集处理为预设格式,将文件中按每一行的每一个mention，切分成三部分分成三个部分left text、mention、right text，三部分依次拼接，用[SEP]隔开后作为预处理数据。预处理数据格式含义解释：标注处理后的数据中每一个mention部分作为一个独立的mention输入序列；以mention词的star-1位置为起点，依次取20个词作为left text输入序列；以mention词的end+1位置为起点，依次取20个词作为right text输入序列，其中不忽略标点符号的位置。预处理数据示例：Theauthors,from Boston's[SEP]Beth Israel Hospital[SEP],say that 84％of the50births they followed occurred after only two in vitro cycles.。

步骤3，对离散型特征label进行one-hot编码的方法进行编码；

具体地，对离散型特征标签label进行数据处理，从而成为模型的输出label，处理过程为将PERSON转化为[1,0,0,0,0,0,0],ORGANIZATION转化为[0,1,0,0,0,0,0]，GPE转化为[0,0,1,0,0,0,0]，EVENT转化为[0,0,0,1,0,0,0]，SUBSTANCE转化为[0,0,0,0,1,0,0]，WORK_OF_ART转化为[0,0,0,0,0,1,0]，LOCATION转化为[0,0,0,0,0,0,1]，当一个mention具有多个标签，为将涉及到的标签做矩阵加法得到最终多标签编码，示例如：label[ORGANIZATION,GPE]，将ORGANIZATION[0,1,0,0,0,0,0]与GPE[0,0,1,0,0,0,0]做矩阵加法，得到最终结果为[0,1,1,0,0,0,0]。

步骤4，基于pytorch构建算法模型，输入训练集数据进行训练，调整模型参数，保存训练参数；

基于Pytorch构建算法模型，模型所述包括：输入层(input layer)、计算层(computing layer)、输出层(outputlayer)。所述输入层，用于将要求的预处理的训练文本转化为模型的输入格式。所述计算层，用于提取输入层输入数据的特征，利用多个叠加的Transformer Encoder结构进行计算。所述输出层，用于将计算层结果经过多标签分类器进行分类得到最终结果。

具体地，输入层由token embedding、segment embedding、position embedding三部分组成。首先是token embedding，使用WordPiece tokenization将英文单词进行token变化，将token变化后的单词送入token embedding层从而将每一个单词转换成768维地数字向量，比如n个token就被转换成了一个(n,768)的矩阵；然后是segment embedding，设每次输入层是n个部分句子，第n个句子的每个token词标记为n-1作为本层的数字向量；position embedding，学习每个位置的向量表示来包含输入序列的顺序特征。所以对于长度为n的token化输入序列将有三种不同的表示，即：token embedding，形状(1,n,768)，词的向量表示；segment embedding，形状(1,n,768)，这是向量表示，以帮助BERT区分成对的输入序列；position embedding，形状(1,n,768)，让BERT知道其输入具有时间属性，很好的模拟了词出现的先后顺序。对这些表示进行张量求和，生成一个形状为(1,n,768)的单一表示，所以输入层的输入是本专利设计的leftcontext+[seq]+rightcontext组成的数据集，输出是由token embedding、segment embedding、position embedding张量求和的结果。

具体地，计算层利用多个叠加的Transformer Encoder结构进行计算，本次模型选用的是叠加了12层该结构的计算模型。Multi-Head Attention作为该结构的关键，定义输入数据为X，根据公式(1)、(2)、(3)计算出Q、K、V，Q、K、V为每层Transformer Encoder结构输出结果，W_QW_kW_v为每层Transformer Encoder结构权值参数，代入Multi-Head Attention的核心计算公式(4)作为输出。

Q＝X*W_Q (1)

K＝X*W_k (2)

V＝X*W_v (3)

具体地，输出层，用于将计算层结果的CLS结果，经过多标签分类器进行分类得到最终结果。具体实现多标签文本分类器，将最后一层的CLS输出结果连接全连接层，分类器改为多个sigmoid函数如公式(5)，等价于多个二分类任务。

模型参数设置：模型优化器选择为Adam Optimizer，优化参数β1＝0.9,β2＝0.98；模型预训练参数使用基于Roberta模型参数进行初始训练；训练epoches设置为100次；训练之后保存最终模型参数，提供在测试集上进行测试。

步骤5，利用测试集和训练集，进行模型效果评估。

具体地，评估效果模型为Precision、Recall、Accuracy、F1-ScoreAccuracy。Precision准确率表示的是预测为正例的示例中实际为正例的比例，tp代表正样本判断为正确的数量，fp代表将负类预测为正类的数量，如公式(6)。Recall召回率表示的是覆盖面的度量，度量有多个正例被分为正例，fp代表将负类预测为正类的数量，fn代表正类预测为负类数的数量，如公式7。Accuracy代表分对样本的数量占全部样本比例如公式8。F1-Score是精确率和召回率的调和平均数。

模型效果，具体地如表1所示：

表1模型效果评估结果

label	precision	recall	f1-score
				PERSON	0.87507	0.87989	0.87747
ORGANIZATION	0.91922	0.88076	0.89958
				GPE	0.80835	0.78520	0.79661
EVENT	0.53731	0.85714	0.66055
				SUBSTANCE	0.89344	0.96035	0.92569
WORK_OF_ART	0.43750	0.50602	0.46927
				LOCATION	0.44444	0.85106	0.58394
Accuracy	-	-	0.86471

根据模型评判效果可以发现，整体accuracy为86.7％，说明模型整体优秀，在ORGANIZATION标签上分类效果最好，precision、recall、f1-score分别为0.91922、0.88076、0.89958，在所有标签分类中全部是最优秀得分。模型在LOCATION、ORGANIZATION、GPE、SUBSTANCE的模型评分标准均高于80％。

本实施例提供的多标签文本分类方法，利用原始数据构建关键词左序列、关键词序列、关键词右序列的格式数据集，借助双向编码器来预训练深层双向表征，学习文本上下文含义，对文本关键词进行标签识别，目的是在现有的公共文本数据集中，进行更为准确的文本数据多标签分类，解决了现有多标签文本分类方法在公共文本数据集中分类效果较差的问题。

图3为本申请一个实施例提供的多标签文本分类装置的功能结构图，如图3所示，该多标签文本分类装置包括：

获取模块31，用于获取标注数据集，所述标注数据集包括关键词，所述关键词所在语句，及所述关键词对应的标签；

提取模块32，用于提取关键词所在语句中对应的预设数量的上下文词汇；

编码模块33，用于对关键词对应的标签进行编码；

输出模块34，用于将关键词、关键词所在语句中对应的预设数量的上下文词汇以及关键词对应的标签编码输入文本分类模型，输出分类结果。

本实施例中，通过获取模块获取标注数据集，标注数据集包括关键词，关键词所在语句，及关键词对应的标签；提取模块提取关键词所在语句中对应的预设数量的上下文词汇，编码模块对关键词对应的标签进行编码；输出模块，用于将关键词、关键词所在语句中对应的预设数量的上下文词汇以及关键词对应的标签编码输入文本分类模型，输出分类结果，可以提升多标签文本分类的准确性，提升多标签文本分类效果。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

需要说明的是，本发明不局限于上述最佳实施方式，本领域技术人员在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种多标签文本分类方法，其特征在于，包括：

提取所述关键词所在语句中对应的预设数量的上下文词汇；

对所述关键词对应的标签进行编码；

2.根据权利要求1所述的多标签文本分类方法，其特征在于，所述获取标注数据集，包括：

将原始语句切分为单个词的列表；

在单个词的列表中标注每个词的顺序；

为关键词标注至少一个分类标签。

3.根据权利要求2所述的多标签文本分类方法，其特征在于，所述提取所述关键词所在语句中对应的预设数量的上下文词汇，包括：

4.根据权利要求3所述的多标签文本分类方法，其特征在于，还包括：

将每一个关键词作为一个独立的关键词输入序列；

5.根据权利要求4所述的多标签文本分类方法，其特征在于，所述关键词左序列和/或所述关键词右序列中包括标点符号。

6.根据权利要求2所述的多标签文本分类方法，其特征在于，所述为关键词标注至少一个分类标签包括：

7.根据权利要求1所述的多标签文本分类方法，其特征在于，所述文本分类模型包括：

输入层、计算层、输出层；

所述计算层用于提取输入层输入数据的特征，利用多个叠加的Transformer Encoder结构计算输入层的信息；

8.根据权利要求1所述的多标签文本分类方法，其特征在于，所述文本分类模型的参数选择包括：

所述多标签分类器为多个sigmoid函数；

优化器为Adam Optimizer，优化参数β1＝0.9,β2＝0.98；

模型预训练参数使用基于Roberta模型参数进行初始训练。

9.根据权利要求1或7所述的多标签文本分类方法，其特征在于，还包括：

使用评估效果模型对所述文本分类模型输出结果进行评估；

10.一种多标签文本分类装置，其特征在于，包括：

编码模块，用于对所述关键词对应的标签进行编码；