CN118332387B - 一种应用基于bert模型的文本内容分类系统的分类方法 - Google Patents
一种应用基于bert模型的文本内容分类系统的分类方法 Download PDFInfo
- Publication number
- CN118332387B CN118332387B CN202410748775.0A CN202410748775A CN118332387B CN 118332387 B CN118332387 B CN 118332387B CN 202410748775 A CN202410748775 A CN 202410748775A CN 118332387 B CN118332387 B CN 118332387B
- Authority
- CN
- China
- Prior art keywords
- layer
- text
- model
- bert
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000010606 normalization Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 21
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000004091 panning Methods 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 11
- 230000000630 rising effect Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种应用基于BERT模型的文本内容分类系统的分类方法,涉及自然语言处理技术领域,包括以下步骤:S1:对待分类的文本进行数据预处理,将经过预处理的文本按照序列X={x1,x2,x3,…,xn}输入BERT模型中;S2:使用BERT模型预训练权重对文本内容进行语义级别的特征提取;S3:对得到的文本特征向量集V进行升维。本发明解决现有模型无法充分理解词语之间的依赖关系、句子之间的逻辑联系以及文本的整体上下问关系的问题,并从系统的层面解决不同语种文本内容分类的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,具体地讲,涉及一种应用基于BERT模型的文本内容分类系统的分类方法。
背景技术
近年来,深度学习技术在自然语言处理领域取得了突破性进展。深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)和Transformer等,能够自动学习文本的深层特征表示,并有效地处理序列数据。在分类任务中,深度学习模型能够捕捉文本的语义信息和上下文关系,提高分类的准确性和鲁棒性。此外,随着大数据和云计算技术的发展,自然语言处理分类的应用场景也越来越广泛。无论是在新闻分类、情感分析、垃圾邮件识别还是产品评论分类等领域,自然语言处理分类都发挥着重要作用。这些应用不仅提高了信息处理的效率,还为决策支持领域提供了有力支持。
尽管自然语言处理分类领域取得了显著的进展,但仍存在一些问题和挑战。首先,现有的自然语言处理模型在捕捉上下文关系方面仍存在一定的局限性,模型可能无法充分理解词语之间的依赖关系、句子之间的逻辑联系以及文本的整体结构,导致分类结果不准确。其次,模型泛化能力也是一个需要关注的问题。由于文本数据的多样性和变化性,分类模型往往难以适应新的领域或场景,如何提高模型的泛化能力,使其能够在不同领域和场景下都能取得良好的分类效果,是一个亟待解决的问题。
发明内容
本发明要解决的技术问题是提供一种应用基于BERT模型的文本内容分类系统的分类方法,解决现有模型无法充分理解词语之间的依赖关系、句子之间的逻辑联系以及文本的整体上下问关系的问题,并从系统的层面解决不同语种文本内容分类的问题。
本发明采用如下技术方案实现发明目的:
一种应用基于BERT模型的文本内容分类系统的分类方法,其特征在于,包括以下步骤:
S1:对待分类的文本进行数据预处理,将经过预处理的文本按照序列X={x1,x2,x3,…,xn}输入BERT模型中;
S2:使用BERT模型预训练权重对文本内容进行语义级别的特征提取;
S3:对得到的文本特征向量集V进行升维;
S4:文本的语义特征表示矩阵M进行归一化;
S5:将M`输入MatrixCNN模型进行分类处理,使模型在空间维度上理解词语之间的依赖关系、句子之间的逻辑联系以及文本的整体上下问关系,提高分类的准确率。
作为本技术方案的进一步限定,所述S1的具体步骤为:
S11:对待分类的文本进行分词、词性标注及去除停用词的处理;
S12:判断经过步骤S11之后的待分类的文本长度是否超出BERT模型的最大长度;
若文本长度超过BERT预训练模型的最大输入长度,则使用截断算法对文本内容进行截断处理,将截断后形成的文本序列X1={x1,x2,x3,…,xu},X2={xu+1,xu+2,xu+3,…,xm},X3={xm+1,xm+2,xm+3,…,xn}依次输入BERT预训练模型中;
S13:若文本长度未超过BERT预训练模型的最大输入长度,则直接将步骤S11处理后的文本输入BERT预训练模型中。
作为本技术方案的进一步限定,所述S2的具体步骤为:
S21:准备待分类领域的相关预料库;
S22:将语料库输入BERT基线模型进行微调训练,得到预训练权重,使用BERT模型加载该预训练权重对文本序列X={x1,x2,x3,…,xn}进行处理,得到的文本特征向量集V={v1,v2,v3,…,vn},在待分类领域内的表征能力更强。
作为本技术方案的进一步限定,所述S3的具体步骤为:
按照文本序列词的先后顺序将文本特征向量集V={v1,v2,v3,…,vn}中的词向量按照文本中词的先后顺序从上到下进行排列形成一个特征向量的二维矩阵M,将M称为文本的语义特征表示矩阵,M的形状为n*dim;
通过升维之后将词语之间的依赖关系、句子之间的逻辑联系以及文本的整体上下问关系抽象为M中的临近行或临近多行的行间距。
作为本技术方案的进一步限定,所述S4的具体步骤为:
S41:取每一个批次中文本的语义特征表示矩阵M中第一个维度的最大值作为归一化基准L;
S42:对不满足该维度长度的M,进行复制填充操作,既能满足全连接层,输入维度一致性的要求,又能起到语义强化的作用;
S43:填充操作的策略为复制填充,即从M的第一行开始向空白行顺序填充,直到填充到基准长度L,若M的行数不足够填充到基准L,则从第一行开始继续填充,循环直至填充值基准长度L。
作为本技术方案的进一步限定,所述S5的具体步骤为:
S51:输入的第一层为卷积层,通过多个不同大小的卷积核对输入的文本矩阵进行卷积操作,从而提取文本的局部特征,然后输入第二层;
该层定义多个卷积核,卷积核大小为:[a1,a2,a3,…,am]*dim(a1<a2<a3<…<am),a1,a2,a3,…,am为定义的卷积核的长度,卷积核的宽度固定为dim;使用步长1对M`进行卷积操作,提取局部特征,得到多个特征图f1,f2,f3,… ,fm,其中任意一个特征图的维度为L-an+1;
S52:输入的第二层为填充和拼接层,将维度不同的特征图填充至一致然后进行拼接,由局部特征和得到新的全局特征,然后输入第三层;
该层将多个特征图f1,f2,f3,… ,fm的通道在第二个维度上进行填充,填充至L-a1+1,得到f1`,f2`,f3`,… ,fm`,对f1`,f2`,f3`,… ,fm`在第二个维度上进行拼接操作形成新的特征图,构成更具表征性的全局特征;
S53:输入的第三层为残差层,将拼接后的特征图经由多个残差块,进一步提取局部特征,然后输入第四层;
该层定义多个残差块,将经由多个残差块,进一步提取局部特征;
每个残差块由两层二维的卷积和批标准化构成,且每经过一层卷积进行一次ReLu激活函数,多个残差块之间使用ReLu激活;
S54:输入的第四层为池化层,用于压缩特征图的维度和提取重要的特征,然后输入第五层;
S55:输入的第五层为全连接层,将池化层的输出连接到一个或多个全连接层,用于学习特征之间的关系和进行最终的分类,最后进入输出层,输出概率值最大的类别索引对应的文本类别。
作为本技术方案的进一步限定,批标准化的计算过程如下:
标准化:首先,对每一个批次的数据进行标准化,对于输入数据,其均值和方差是在当前批次上计算的:
(1)
其中:为输入数据中的第i个元素;
为当前批次的大小;
为当前批次的均值;
为当前批次的方差;
然后,进行标准化:
(2)
其中:是一个很小的常数,用来避免除以零的错误;
为标准化后的数据;
缩放和平移:批标准化引入了两个可学习的参数和,用于对标准化后的数据进行缩放和平移:
(3)
其中:和是通过反向传播学习的参数;
为Batch Normalization批标准化后的输出;
Relu激活函数的公式为:
(4);
其中:是隐藏层的输出,即Relu函数的输入。
作为本技术方案的进一步限定,基于BERT模型的文本内容分类系统包括:
数据预处理层;
BERT预训练模型层;
文本语义特征升维层;
语句特征矩阵的归一化层;
MatrixResCNN模型层:包含卷积层和残差层、池化层和全连接层及输出层。
与现有技术相比,本发明的优点和积极效果是:本发明通过对文本语义特征的升维提高文本语义特征的表达能力,使升维后的文本语义特征蕴含更多的词语之间的依赖关系、句子之间的逻辑联系以及整体之间的上下文关系,构建MatrixResCNN模型经过卷积层、残差层、池化层和全连接层,通过增加网络深度,模型在空间维度理解词语之间的依赖关系、句子之间的逻辑联系以及文本的整体结构,并探寻更深层次的语义,提高文本内容分类的准确率,最后由输出层输出分类结果。本发明在数据预处理层使用该系统独有的截断算法使系统能够确保所有文本输入具有相同的长度,便于模型处理,并且预处理后的文本数据格式统一,提高了模型训练的效率和稳定性,经清洗和标记化过程减少噪声数据的干扰,提高了分类准确性。在语句特征矩阵的归一化层对文本特征矩阵进行归一化处理,使其具有统一的尺度范围,减小数据之间的尺度差异,提高模型的稳定性。归一化操作能够加速模型的训练过程,提高收敛速度,并且归一化后的数据便于后续模型层的处理,降低计算复杂度。本发明通过设计一系列的层次结构,从数据预处理到特征提取、特征升维再到分类决策,形成了一个完整的文本分类流程。每一个层次都经过精心设计,分别完成不同的功能,层次模块之间相互独立,使系统能够高效准确地完成分类任务。
附图说明
图1为本发明的系统结构框架图。
图2为本发明的实施流程图。
具体实施方式
下面结合附图,对本发明的一个具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
本发明包括以下步骤:
S1:对待分类的文本进行数据预处理,将经过预处理的文本按照序列X={x1,x2,x3,…,xn}输入BERT模型中。
所述S1的具体步骤为:
S11:对待分类的文本进行分词、词性标注及去除停用词的处理;
S12:判断经过步骤S11之后的待分类的文本长度是否超出BERT模型的最大长度(BERT模型要求输入的内容长度不超过512);
若文本长度超过BERT预训练模型的最大输入长度,则使用截断算法对文本内容进行截断处理,将截断后形成的文本序列X1={x1,x2,x3,…,xu},X2={xu+1,xu+2,xu+3,…,xm},X3={xm+1,xm+2,xm+3,…,xn}依次输入BERT预训练模型中;
截断算法(Split)所采用的策略为最长截断策略,给定一个最大长度max_long,采用回溯法在不超过这个长度内寻找最后一个句号作为截断位置,在满足最大长度的条件下保证文本内容的完整性;
S13:若文本长度未超过BERT预训练模型的最大输入长度,则直接将步骤S11处理后的文本输入BERT预训练模型中。
S2:使用BERT模型预训练权重对文本内容进行语义级别的特征提取。
使用BERT模型预训练权重对序列X={x1,x2,x3,…,xn}进行处理,得到文本特征向量集V={v1,v2,v3,…,vn},其中v1,v2,v3,…,vn为每一个词的语义向量表示,且这些向量表示的维度长度是一致的,记作dim;BERT模型预训练权重是通过对BERT极限模型进行微调得到的,即对BERT基线模型进行微调得到BERT模型预训练权重,所述S2的具体步骤为:
S21:准备待分类领域的相关预料库;
S22:将语料库输入BERT基线模型进行微调训练,得到预训练权重,使用BERT模型加载该预训练权重对文本序列X={x1,x2,x3,…,xn}进行处理,得到的文本特征向量集V={v1,v2,v3,…,vn},在待分类领域内的表征能力更强。
使用不同的基线模型和对应数据集得到的不同的预训练模型可以对不同的语种、不同的领域进行特征提取。
S3:对得到的文本特征向量集V进行升维。
所述S3的具体步骤为:
按照文本序列词的先后顺序将文本特征向量集V={v1,v2,v3,…,vn}中的词向量按照文本中词的先后顺序从上到下进行排列形成一个特征向量的二维矩阵M,将M称为文本的语义特征表示矩阵,M的形状为n*dim;
通过升维之后将词语之间的依赖关系、句子之间的逻辑联系以及文本的整体上下问关系抽象为M中的临近行或临近多行的行间距等空间要素。
S4:文本的语义特征表示矩阵M进行归一化。
因为系统在最后一层得到分类结果之前需要经过一个全连接层,其要求输入维度大小是一致的,所以我们对于文本的语义特征表示矩阵M进行归一化,形成矩阵M`,以进行后续处理。所述S4的具体步骤为:
S41:取每一个批次中文本的语义特征表示矩阵M中第一个维度(即n)的最大值作为归一化基准L;
S42:对不满足该维度长度的M,进行复制填充操作,既能满足全连接层,输入维度一致性的要求,又能起到语义强化的作用;
S43:填充操作的策略为复制填充,即从M的第一行开始向空白行顺序填充,直到填充到基准长度L,若M的行数不足够填充到基准L,则从第一行开始继续填充,循环直至填充值基准长度L。
S5:将M`输入MatrixCNN模型进行分类处理,使模型在空间维度上理解词语之间的依赖关系、句子之间的逻辑联系以及文本的整体上下问关系,提高分类的准确率。
首先对矩阵M`进行卷积操作,得到多个特征图f1,f2,f3,… ,fm并进行填充和拼接进一步得到特征图f`,对f`经由多个残差块的残差操作,在加深网络层次的同时又能够抑制过拟合的现象,最后通过全局池化和全连接得到各个类别的概率值{type1: odds1,type2:odds2,type3:odds3,…,types:oddss},typei为类别索引oddsi为类别索引typei对应的概率,最后由输出层输出概率值最大的类别索引对应的类别,即为分类结果;所述S5的具体步骤为:
S51:输入的第一层为卷积层,通过多个不同大小的卷积核对输入的文本矩阵进行卷积操作,从而提取文本的局部特征,然后输入第二层;
该层定义多个卷积核,卷积核大小为:[a1,a2,a3,…,am]*dim(a1<a2<a3<…<am),a1,a2,a3,…,am为定义的卷积核的长度,卷积核的宽度固定为dim;使用步长1对M`进行卷积操作,提取局部特征,得到多个特征图f1,f2,f3,… ,fm,其中任意一个特征图的维度为L-an+1(an为卷积核的长度)。
S52:输入的第二层为填充和拼接层,将维度不同的特征图填充至一致然后进行拼接,由局部特征和得到新的全局特征,然后输入第三层;
该层将多个特征图f1,f2,f3,… ,fm的通道在第二个维度上进行填充,填充至L-a1+1,得到f1`,f2`,f3`,… ,fm`,对f1`,f2`,f3`,… ,fm`在第二个维度上进行拼接操作形成新的特征图,构成更具表征性的全局特征。
S53:输入的第三层为残差层,将拼接后的特征图经由多个残差块,进一步提取局部特征,然后输入第四层;
该层定义多个残差块,将经由多个残差块,进一步提取局部特征;
每个残差块由两层二维的卷积(卷积核大小为3*3)和批标准化(batchNormalization)构成,且每经过一层卷积进行一次ReLu激活函数,多个残差块之间使用ReLu激活。
批标准化的计算过程如下:
标准化:首先,对每一个批次的数据进行标准化,对于输入数据,其均值和方差是在当前批次上计算的:
(1)
其中:为输入数据中的第i个元素;
为当前批次的大小;
为当前批次的均值;
为当前批次的方差;
然后,进行标准化:
(2)
其中:是一个很小的常数,用来避免除以零的错误;
为标准化后的数据;
缩放和平移:标准化后的数据可能会被限制在一个较小的范围内(例如,接近0的均值和1的方差),这可能会限制模型的表示能力。因此,批标准化引入了两个可学习的参数和,用于对标准化后的数据进行缩放和平移:
(3)
其中:和是通过反向传播学习的参数;
为Batch Normalization批标准化后的输出;
Relu激活函数的公式为:
(4);
其中:是隐藏层的输出,即Relu函数的输入。
S54:输入的第四层为池化层,用于压缩特征图的维度和提取重要的特征,然后输入第五层。
S55:输入的第五层为全连接层,将池化层的输出连接到一个或多个全连接层,用于学习特征之间的关系和进行最终的分类,最后进入输出层,输出概率值最大的类别索引对应的文本类别。
基于BERT模型的文本内容分类系统包括:
数据预处理层;
去除文本中的HTML标签、特殊字符、URL等噪声数据。将文本分割成单词或子词单元,并进行标记化处理。使系统能够确保所有文本输入具有相同的长度,便于模型处理,并且预处理后的文本数据格式统一,提高了模型训练的效率和稳定性,而清洗和标记化过程则减少了噪声数据的干扰,提高了分类准确性。
BERT预训练模型层;
将预处理后的文本输入BERT模型,利用BERT的Transformer结构,生成文本的深度语义表示。BERT模型能够在一定程度上捕捉文本的上下文信息,生成丰富的语义表示,并且预训练过程使BERT模型具有强大的泛化能力,能够应用于多种NLP任务。
文本语义特征升维层;
将BERT输出的低维语义特征映射到更高维的空间,提取出更多的特征信息,以丰富文本表示。升维操作能够捕捉文本中的细微差异,提高分类性能,并可以根据具体任务需求调整升维策略,以适应不同的分类场景。
语句特征矩阵的归一化层;
对文本特征矩阵进行归一化处理,使其具有统一的尺度范围,减小数据之间的尺度差异,提高模型的稳定性。首先,归一化操作能够加速模型的训练过程,提高收敛速度,其次,归一化后的数据便于后续模型层的处理,降低计算复杂度。
MatrixResCNN模型层:包含卷积层和残差层、池化层和全连接层及输出层。
通过卷积操作提取文本中的局部特征;在残差层引入短路连接,缓解梯度消失问题,使模型能够训练得更深;池化层对特征矩阵进行下采样,降低维度并保留重要特征;全连接层将局部特征融合为全局特征,为分类提供支持;输出层输出文本属于各个类别的概率。卷积层能够捕捉文本中的关键信息,提高分类准确性。残差层的设计使模型在训练过程中更加稳定,能够应对复杂任务。全连接层能够将局部特征有效融合,形成具有区分度的全局特征表示。
BERT全称是Bidirectional Encoder Representations from Transformers,是一种基于Transformer架构的预训练语言模型。它通过在大规模文本数据上进行预训练来捕捉语言的深层双向表征,然后再针对不同的自然语言处理(NLP)任务进行微调。
BERT模型的工作原理的核心在于其预训练和微调两个阶段。
在预训练阶段,BERT使用大规模的无标签文本数据来训练模型,学习语言的上下文表示。预训练过程包括两个关键任务:Masked Language Model(掩蔽语言模型,MLM)和Next Sentence Prediction(下一句预测,NSP)。MLM任务随机遮盖输入序列中的一部分词,然后要求模型预测被遮盖的词,从而学习词与上下文之间的关系。NSP任务则是预测两个句子是否是连续的,从而学习句子之间的关系。
微调阶段是将BERT模型应用于具体的自然语言处理任务。首先,需要针对特定任务构建输入序列,这可能包括一个或多个句子,并使用特殊标记进行分隔。然后,对于输入序列中的每个子词,使用BERT模型的嵌入层得到其对应的向量表示,这包括词嵌入、位置嵌入和段嵌入。接下来,在BERT模型的顶部添加一个或多个任务特定的全连接层,用于处理特定任务的相关信息。根据任务的不同,选择合适的损失函数进行优化,使得模型在特定任务上能够得到较好的性能。
本发明的具体实施例为:
A1:对待分类的文本进行分词、词性标注及去除停用词,判断文本长度是否超出BERT输入最大值,是执行Split最长截断算法进行截断,否则直接执行S2;
A2:BERT微调预训练模型语义特征提取;
A3:以文本序列词的先后顺序升维得到语句的语义矩阵;
A4:句子语义矩阵的归一化;
A5:输入MatrixCNN模型进行分类处理,得到分类结果。
以上公开的仅为本发明的具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (8)
1.一种应用基于BERT模型的文本内容分类系统的分类方法,其特征在于,包括以下步骤:
S1:对待分类的文本进行数据预处理,将经过预处理的文本按照序列X={x1,x2,x3,…,xn}输入BERT模型中;
S2:使用BERT模型预训练权重对文本内容进行语义级别的特征提取;使用BERT模型预训练权重对序列X={x1,x2,x3,…,xn}进行处理,得到文本特征向量集V={v1,v2,v3,…,vn},其中v1,v2,v3,…,vn为每一个词的语义向量表示,且这些向量表示的维度长度是一致的,记作dim;BERT模型预训练权重是通过对BERT基线模型进行微调得到的,即对BERT基线模型进行微调得到BERT模型预训练权重;
S3:对得到的文本特征向量集V进行升维;按照文本序列词的先后顺序将文本特征向量集V={v1,v2,v3,…,vn}中的词向量按照文本中词的先后顺序从上到下进行排列形成一个特征向量的二维矩阵M,将M称为文本的语义特征表示矩阵,M的形状为n*dim;
S4:文本的语义特征表示矩阵M进行归一化,因为系统在最后一层得到分类结果之前需要经过一个全连接层,其要求输入维度大小是一致的,所以我们对于文本的语义特征表示矩阵M进行归一化,形成矩阵M`,以进行后续处理;
S5:将M`输入MatrixResCNN模型进行分类处理,MatrixResCNN模型是一种分类模型,由卷积层、残差层、池化层和全连接层以及输出层构成,使模型在空间维度上理解词语之间的依赖关系、句子之间的逻辑联系以及文本的整体上下文关系,提高分类的准确率。
2.根据权利要求1所述的应用基于BERT模型的文本内容分类系统的分类方法,其特征在于:所述S1的具体步骤为:
S11:对待分类的文本进行分词、词性标注及去除停用词的处理;
S12:判断经过步骤S11之后的待分类的文本长度是否超出BERT模型的最大长度;
若文本长度超过BERT预训练模型的最大输入长度,则使用截断算法对文本内容进行截断处理,将截断后形成的文本序列如X1={x1,x2,x3,…,xu},X2={xu+1,xu+2,xu+3,…,xm},X3={xm+1,xm+2,xm+3,…,xn}依次输入BERT预训练模型中;
S13:若文本长度未超过BERT预训练模型的最大输入长度,则直接将步骤S11处理后的文本输入BERT预训练模型中。
3.根据权利要求2所述的应用基于BERT模型的文本内容分类系统的分类方法,其特征在于:所述S2的具体步骤为:
S21:准备待分类领域的相关语料库;
S22:将语料库输入BERT基线模型进行微调训练,得到预训练权重,使用BERT模型加载该预训练权重对文本序列X={x1,x2,x3,…,xn}进行处理,得到的文本特征向量集V={v1,v2,v3,…,vn},在待分类领域内的表征能力更强。
4.根据权利要求3所述的应用基于BERT模型的文本内容分类系统的分类方法,其特征在于:所述S3的具体步骤为:
按照文本序列词的先后顺序将文本特征向量集V={v1,v2,v3,…,vn}中的词向量按照文本中词的先后顺序从上到下进行排列形成一个特征向量的二维矩阵M,将M称为文本的语义特征表示矩阵,M的形状为n*dim;
通过升维之后将词语之间的依赖关系、句子之间的逻辑联系以及文本的整体上下文关系抽象为M中的临近行或临近多行的行间距。
5.根据权利要求4所述的应用基于BERT模型的文本内容分类系统的分类方法,其特征在于:所述S4的具体步骤为:
S41:取每一个批次中文本的语义特征表示矩阵M中第一个维度的最大值作为归一化基准L;
S42:对不满足该维度长度的M,进行复制填充操作,既能满足全连接层,输入维度一致性的要求,又能起到语义强化的作用;
S43:填充操作的策略为复制填充,即从M的第一行开始向空白行顺序填充,直到填充到基准长度L,若M的行数不足够填充到基准L,则从第一行开始继续填充,循环填充直到填充至基准长度L。
6.根据权利要求4所述的应用基于BERT模型的文本内容分类系统的分类方法,其特征在于:所述S5的具体步骤为:
S51:输入的第一层为卷积层,通过多个不同大小的卷积核对输入的文本矩阵进行卷积操作,从而提取文本的局部特征,然后输入第二层;
该层定义多个卷积核,卷积核大小为:[a1,a2,a3,…,am]*dim(a1<a2<a3<…<am), a1,a2,a3,…,am为定义的卷积核的长度,卷积核的宽度固定为dim;使用步长1对M`进行卷积操作,提取局部特征,得到多个特征图f1,f2,f3,… ,fm,其中任意一个特征图的维度为L-an+1,an∈[a1,a2,a3,…,am],为卷积核的长度;
S52:输入的第二层为填充和拼接层,将维度不同的特征图填充至一致然后进行拼接,由局部特征和得到新的全局特征,然后输入第三层;
该层将多个特征图f1,f2,f3,… ,fm的通道在第二个维度上进行填充,填充至L-a1+1,得到f1`,f2`,f3`,… ,fm`,对f1`,f2`,f3`,… ,fm`在第二个维度上进行拼接操作形成新的特征图f`,构成更具表征性的全局特征;
S53:输入的第三层为残差层,将拼接后的特征图经由多个残差块,进一步提取局部特征,然后输入第四层;
该层定义多个残差块,将f`经由多个残差块,进一步提取局部特征;
每个残差块由两层二维的卷积和批标准化构成,且每经过一层卷积进行一次ReLu激活函数,多个残差块之间使用ReLu激活;
S54:输入的第四层为池化层,用于压缩特征图的维度和提取重要的特征,然后输入第五层;
S55:输入的第五层为全连接层,将池化层的输出连接到一个或多个全连接层,用于学习特征之间的关系和进行最终的分类,最后进入输出层,输出概率值最大的类别索引对应的文本类别。
7.根据权利要求6所述的应用基于BERT模型的文本内容分类系统的分类方法,其特征在于:批标准化的计算过程如下:
标准化:首先,对每一个批次的数据进行标准化,对于输入数据,其均值和方差是在当前批次上计算的:
(1)
其中:为输入数据中的第i个元素;
为当前批次的大小;
为当前批次的均值;
为当前批次的方差;
然后,进行标准化:
(2)
其中:是一个很小的常数,用来避免除以零的错误;
为标准化后的数据;
缩放和平移:批标准化引入了两个可学习的参数和,用于对标准化后的数据进行缩放和平移:
(3)
其中:和是通过反向传播学习的参数;
为Batch Normalization批标准化后的输出;
Relu激活函数的公式为:
(4);
其中:是隐藏层的输出,即Relu函数的输入。
8.根据权利要求1所述的应用基于BERT模型的文本内容分类系统的分类方法,其特征在于:基于BERT模型的文本内容分类系统包括:
数据预处理层;
BERT预训练模型层;
文本语义特征升维层;
语句特征矩阵的归一化层;
MatrixResCNN模型层:包含卷积层和残差层、池化层和全连接层及输出层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410748775.0A CN118332387B (zh) | 2024-06-12 | 2024-06-12 | 一种应用基于bert模型的文本内容分类系统的分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410748775.0A CN118332387B (zh) | 2024-06-12 | 2024-06-12 | 一种应用基于bert模型的文本内容分类系统的分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118332387A CN118332387A (zh) | 2024-07-12 |
CN118332387B true CN118332387B (zh) | 2024-09-17 |
Family
ID=91779021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410748775.0A Active CN118332387B (zh) | 2024-06-12 | 2024-06-12 | 一种应用基于bert模型的文本内容分类系统的分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118332387B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935074A (zh) * | 2023-07-25 | 2023-10-24 | 苏州驾驶宝智能科技有限公司 | 基于深度亲和网络自适应关联的多目标跟踪方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189925B (zh) * | 2018-08-16 | 2020-01-17 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
CN111597340A (zh) * | 2020-05-22 | 2020-08-28 | 迪爱斯信息技术股份有限公司 | 一种文本分类方法及装置、可读存储介质 |
CN112487143B (zh) * | 2020-11-30 | 2022-11-18 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
CN117235252A (zh) * | 2022-06-06 | 2023-12-15 | 复旦大学 | 一种基于对抗训练-bert的双通道新闻文本分类方法 |
US20240126990A1 (en) * | 2022-10-03 | 2024-04-18 | Samsung Electronics Co., Ltd. | Deep learning for multimedia classification |
CN116340506A (zh) * | 2023-01-03 | 2023-06-27 | 重庆邮电大学 | 一种基于bert和无池化卷积神经网络的文本分类方法 |
CN117708328A (zh) * | 2023-12-13 | 2024-03-15 | 广东工业大学 | 一种情感分类模型及其应用的文本情感分析方法 |
-
2024
- 2024-06-12 CN CN202410748775.0A patent/CN118332387B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935074A (zh) * | 2023-07-25 | 2023-10-24 | 苏州驾驶宝智能科技有限公司 | 基于深度亲和网络自适应关联的多目标跟踪方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN118332387A (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914085B (zh) | 文本细粒度情感分类方法、系统、装置及存储介质 | |
CN112269868B (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN112199501A (zh) | 一种科技信息文本分类方法 | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及系统 | |
CN112464674A (zh) | 一种字级别的文本意图识别方法 | |
CN116304748A (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN112232070A (zh) | 自然语言处理模型构建方法、系统、电子设备及存储介质 | |
CN117634459B (zh) | 目标内容生成及模型训练方法、装置、系统、设备及介质 | |
CN112100986B (zh) | 语音文本聚类方法和装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN116756605A (zh) | 一种基于ernie_cn-gru语步自动识别方法、系统、设备及介质 | |
CN116796288A (zh) | 一种面向工业文档的多模态信息提炼方法和系统 | |
CN118332387B (zh) | 一种应用基于bert模型的文本内容分类系统的分类方法 | |
CN116384379A (zh) | 一种基于深度学习的中文临床术语标准化方法 | |
CN116595170A (zh) | 一种基于软提示的医疗文本分类方法 | |
CN113869049A (zh) | 基于法律咨询问题的具有法律属性的事实抽取方法及装置 | |
CN113806536A (zh) | 文本分类方法及其装置、设备、介质、产品 | |
CN116150379B (zh) | 短信文本分类方法、装置、电子设备及存储介质 | |
CN112949313A (zh) | 信息处理模型训练方法、装置、设备及存储介质 | |
CN110569331A (zh) | 一种基于上下文的关联性预测方法、装置及存储设备 | |
CN117436457B (zh) | 反讽识别方法、装置、计算设备及存储介质 | |
CN114328978B (zh) | 关系抽取方法、装置、设备及可读存储介质 | |
CN117891949A (zh) | 基于u形卷积网络的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |