CN116304064A

CN116304064A - 一种基于抽取式的文本分类方法

Info

Publication number: CN116304064A
Application number: CN202310574930.7A
Authority: CN
Inventors: 崔丙剑; 程龙龙; 曹琉; 田野; 袁丁; 刘邈
Original assignee: Zhongdian Yunnao Tianjin Technology Co ltd
Current assignee: Zhongdian Yunnao Tianjin Technology Co ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-06-23

Abstract

本发明公开了一种基于抽取式的文本分类方法，涉及到文本分类技术领域，包括S1：样本构造；S2：基于深度预训练模型的实体识别。本发明把文本分类任务转化成实体识别任务，通过实体识别模型从文本中抽取文本的类别标签，把多种类型的文本分类任务转化成统一的实体识别任务，避免了传统方法需要为不同的文本分类任务分别建模的问题；本发明为单标签文本分类任务、多标签文本分类任务和层级多标签文本分类任务分别设计了抽取式的样本生成方式，输入内容包含了文本内容和标签内容，标签不再是独立于文本的符号，模型通过注意力机制可以更好地学习标签与标签之间、标签与文本之间的语义关系，从而实现更好的分类效果。

Description

一种基于抽取式的文本分类方法

技术领域

本发明涉及文本分类技术领域，特别涉及一种基于抽取式的文本分类方法。

背景技术

文本分类任务通常是指在给定的分类体系中，将文本分到其中某个或某几个类别上。具体还可细分为以下几种：

单标签文本分类

将待分类文本分到预设的多个类别中的某一个类别上。

多标签文本分类

将待分类文本分到预设的多个类别中的某一个或几个类别上。

层级多标签文本分类

将待分类文本分到预设的多层级类别中的某一个或几个类别上。

目前主流的文本分类方法有以下几种方案：

一、基于统计学习的文本分类方法

该方法首先需要人工对文本进行特征提取，选择合适的关键词作为该文本的特征词，然后把特征词用OneHot或TFIDF等方式进行编码得到特征向量，最后再用逻辑回归、支持向量机等机器学习算法的方法得出该特征向量之于各标签的概率。

二、基于深度学习的文本分类方法

该方法以文本分词后的离散信息作为输入，然后经过lstm、bert等深度神经网络，并通过反向传播算法更新网络参数，最后通过sigmoid或softmax输出文本属于不同类别的概率。

三、基于关键词相似度的文本分类方法（CN202111666994.7）

该方法首先对不同类别的文本总结出其关键词集合，然后对于每个文本通过实体识别模型抽取其中的关键词，分别计算所提取到的关键词与各文本类别的自定义关键词的相似度，取最高相似度，并判断最高相似度是否大于预设阈值，若大于则认为该待分类文本属于该最大相似度所对应的文本类别；否则，待分类文本不属于当前已有文本类别任何一个类别。

以上几种方法对于单标签文本分类、多标签文本分类、层级多标签文本分类等任务需要分别建模，缺乏一个能实现这三种分类场景的统一架构的方法。

且几种方法在构建文本分类模型时，均把标签当作独立的符号，模型的输入信息只有文本内容，模型无法学习标签与文本、标签与标签之间的语义关系，因此分类效果难以保证。

因此，提出一种基于抽取式的文本分类方法来解决上述问题很有必要。

发明内容

本发明的目的在于提供一种基于抽取式的文本分类方法，以解决缺乏一个能实现三种分类场景的统一架构的方法和分类效果难以保证的问题。

为实现上述目的，本发明提供如下技术方案：一种基于抽取式的文本分类方法，包括以下步骤：

S1：样本构造，对于某文本分类任务，假设预定义的类别标签为Lable=[l₁,l₂,...l_n]，对于某个具体文本text，假设其类别标签为l₁和l₂，把Lable与文本内容text拼接得到新的文本text2，这样文本text的类别标签l₁和l₂就存在于新构造的文本text2中，因此就可以使用实体识别的方式从text2中抽取到文本的类别；

S2：基于深度预训练模型的实体识别，基于深度预训练语言模型BERT构建实体抽取模型，对文本text2中的每个字符进行分类，以确定其属于BIO中的哪种类别，因此需要BERT输出每个字符的向量，然后通过全连接网络和softmax得到每个字符属于BIO三种类型的概率，详细的模型计算步骤如下：

a.在text2首尾分别添加“[CLS]”和“[SEP]”标志，然后进行切分，得到序列X=[[CLS],x₁,x₂,x₃,...,x_n,[SEP]]；

b.把序列X输入到BERT模型，然后取BERT输出后的所有字符的向量E=[e_[CLS],e₁,e₂,e₃,...,e_n,e_[SEP]]；

c.把文本中每个字符的表示向量E输入全连接神经网络，并经过softmax层后输出，得到该字符属于每种实体的概率P=[p_B,p_I,p_O]；

d.计算每个字符属于每种实体的概率P与真实的实体标签之间的交叉熵损失loss；

e.对loss进行反向传播，通过梯度下降法更新模型参数。

优选的，所述S1中text2由原始的text和Lable拼接后形成，对于单标签文本分类任务和多标签文本分类任务，把预定义的多个标签用“，”连接后再通过一个分隔符“[SEP]”与文本内容拼接；对于层级多标签文本分类任务，首先把某个标签的子标签用“[]”包括起来，多个标签之间再用“，”连接，预定义的第一层级标签为“教育”、“体育”和“旅游”，“教育”包含子标签“中小学”和“大学”，“体育”包含子标签“足球”和“篮球”，“旅游”包含子标签“国内游”和“国外游”，经过处理后得到“教育[大学,中小学],体育[篮球,足球],旅游[国内游,国外游]”，然后再用分隔符“[SEP]”与文本内容拼接。

优选的，所述S2中实体标签采用BIO标注模式，“B”表示实体的开始，“I”表示实体的中间或者结尾，“O”表示不属于实体。

本发明的技术效果和优点：

本发明把文本分类任务转化成实体识别任务，通过实体识别模型从文本中抽取文本的类别标签，把多种类型的文本分类任务转化成统一的实体识别任务，避免了传统方法需要为不同的文本分类任务分别建模的问题；

本发明为单标签文本分类任务、多标签文本分类任务和层级多标签文本分类任务分别设计了抽取式的样本生成方式，输入内容包含了文本内容和标签内容，标签不再是独立于文本的符号，模型通过注意力机制可以更好地学习标签与标签之间、标签与文本之间的语义关系，从而实现更好的分类效果。

附图说明

图1为本发明基于抽取式的文本分类方法步骤图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了如图1所示的一种基于抽取式的文本分类方法，首先把文本分类任务转化为实体识别任务，三种文本分类任务经过转化后成为一个统一的实体识别任务，然后用一个基于深度预训练语言模型的实体识别算法进行实体识别从而完成文本分类任务。

该方法实现了对不同的文本分类算法统一建模，避免了传统的文本分类算法需要针对不同任务分别建模的问题；且该方法的输入包含了文本内容和标签内容，标签不再是独立于文本的符号，模型通过注意力机制可以更好地学习标签与标签之间、标签与文本之间的关系，从而实现更好的分类效果。

具体步骤包括以下几方面：

样本构造

对于某文本分类任务，假设预定义的类别标签为Lable=[l₁,l₂,...l_n]，对于某个具体文本text，假设其类别标签为l₁和l₂，把Lable与文本内容text拼接得到新的文本text2，这样文本text的类别标签l₁和l₂就存在于新构造的文本text2中，因此就可以使用实体识别的方式从text2中抽取到文本的类别。

如下表所示，左侧列是文本分类任务及预定义的类别标签，中间列为普通文本分类标注格式，右侧列是基于抽取式的文本分类标注格式，具体包括：

text

text2由原始的text和Lable拼接后形成。对于单标签文本分类任务和多标签文本分类任务，把预定义的多个标签用“，”连接后再通过一个分隔符“[SEP]”与文本内容拼接；对于层级多标签文本分类任务，首先把某个标签的子标签用“[]”包括起来，多个标签之间再用“，”连接，如下表层级多标签文本分类所示，预定义的第一层级标签为“教育”、“体育”和“旅游”，“教育”包含子标签“中小学”和“大学”，“体育”包含子标签“足球”和“篮球”，“旅游”包含子标签“国内游”和“国外游”，经过处理后得到“教育[大学,中小学],体育[篮球,足球],旅游[国内游,国外游]”，然后再用分隔符“[SEP]”与文本内容拼接。

Lable

采用BIO标注模式，“B”表示实体的开始，“I”表示实体的中间或者结尾，“O”表示不属于实体。如“如果2018骑士夺冠，詹姆斯这个冠军的含金量有多大？[SEP]教育,体育,旅游”，要抽取的标签是“体育”，其起始位置分别为30和31，因此Lable中第30的位置为“B”，第31的位置为“I”，其它所有位置都为“O”。

文本分类任务及预定义的类别标签	普通文本分类标注格式	基于抽取式的文本分类标注格式
			单标签文本分类（预设文本类别为：教育,体育,旅游）	{"text":"如果2018骑士夺冠，詹姆斯这个冠军的含金量有多大？","Lable":"体育"}	{"text":"如果2018骑士夺冠，詹姆斯这个冠军的含金量有多大？[SEP]教育,体育,旅游","Lable":[O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,B,I,O,O,O]}
多标签文本分类（预设文本类别为：教育,体育,旅游）	{"text":"高中体育需要到什么级别可以去北体？","Lable":["教育,体育"]}	{"text":"高中体育需要到什么级别可以去北体？[SEP]教育,体育,旅游","Lable":[O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,B,I,O,B,I,O,O,O]}
			层级多标签文本分类（预设文本类别为：教育[大学,中小学],体育[足球,篮球],旅游[国内游,国外游]）	{"text":"中小学培训行业的有未来吗？","Lable":["教育/中小学"]}	{"text":"中小学培训行业的有未来吗？[SEP]教育[大学,中小学],体育[篮球,足球],旅游[国内游,国外游]","Lable":[O,O,O,O,O,O,O,O,O,O,O,O,O,O,B,I,O,O,O,O,B,I,I,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O]}

基于深度预训练模型的实体识别

基于深度预训练语言模型BERT构建实体抽取模型，对文本text2中的每个字符进行分类，以确定其属于BIO中的哪种类别，因此需要BERT输出每个字符的向量，然后通过全连接网络和softmax得到每个字符属于BIO三种类型的概率。详细的模型计算步骤如下：

d.计算每个字符属于每种实体的概率P与真实的实体标签之间的交叉熵损失loss。

e.对loss进行反向传播，通过梯度下降法更新模型参数。

Claims

1.一种基于抽取式的文本分类方法，其特征在于：包括以下步骤：

e.对loss进行反向传播，通过梯度下降法更新模型参数。

2.根据权利要求1所述的一种基于抽取式的文本分类方法，其特征在于：所述S1中text2由原始的text和Lable拼接后形成，对于单标签文本分类任务和多标签文本分类任务，把预定义的多个标签用“，”连接后再通过一个分隔符“[SEP]”与文本内容拼接；对于层级多标签文本分类任务，首先把某个标签的子标签用“[]”包括起来，多个标签之间再用“，”连接，然后再用分隔符“[SEP]”与文本内容拼接。

3.根据权利要求1所述的一种基于抽取式的文本分类方法，其特征在于：所述S2中实体标签采用BIO标注模式，“B”表示实体的开始，“I”表示实体的中间或者结尾，“O”表示不属于实体。