CN115357720A

CN115357720A - 基于bert的多任务新闻分类方法及装置

Info

Publication number: CN115357720A
Application number: CN202211283553.3A
Authority: CN
Inventors: 黄斐然; 刘文骁; 支庭荣
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2022-11-18
Anticipated expiration: 2042-10-20
Also published as: CN115357720B

Abstract

本发明实施例涉及文本分类技术领域，公开了一种基于BERT的多任务新闻分类方法，包括：获取新闻的原始文本数据；将所述原始文本数据进行数据清洗；将所述待分类文本信息输入编码层，得到所述原始文本数据的特征向量；将所述特征向量输入注意力层；将所述特征向量与超参数作点乘，得到注意力层输出结果；将所述注意力层输出结果输入前馈神经网络层进行归一化处理，得到各类新闻文本的独有特征向量；将所述独有特征向量进行联合学习，得到各类新闻任务的联合损失函数结果；根据联合损失函数结果输出新闻分类结果。本发明通过BERT模型对新闻文本数据进行处理，采用多任务新闻分类任务进行联合训练，提高新闻分类的准确度和适用性。

Description

基于BERT的多任务新闻分类方法及装置

技术领域

本发明涉及文本分类技术领域，具体涉及一种基于BERT的多任务新闻分类方法及装置。

背景技术

现有的新闻分类方式是按照一定的分类体系或分类标准进行分类的；其中，新闻的种类包括时政新闻、娱乐新闻和体育新闻等。新闻的分类方法很多，通常能够根据新闻文本的某些关键词判断该新闻所属的类别。各大媒体通常会将新闻分为特定的种类，然后使用相应的计算机软件提取新闻中的关键词，然后将关键词输入到多个与各个新闻种类对应预训练模型中，并对关键词于预训练模型中的词语进行匹配，若匹配成功，则将该新闻划分到该种类之下。

此类新闻分类方式仅仅是通过匹配关键词的方式进行新闻分类的，然而相同词义的关键词，其形式可能存在较大差别，因此仅仅通过匹配关键词的方式其匹配成功率较低，这样就导致新闻分类的准确性较差。为此，需要提供一种能对新闻内容信息进行更加全面筛选的方法来对新闻文本进行分类。

发明内容

针对所述缺陷，本发明实施例公开了一种基于BERT的多任务新闻分类方法，其通过BERT学习模型对新闻文本数据进行处理，对动态新闻分类任务，典型新闻分类任务，综合新闻分类任务和述评新闻分类任务这四个任务进行联合训练，同时返回各任务的新闻类别，无需根据特定的下游任务修改BERT模型，提高了新闻主题分类的准确度和适用性。

本发明实施例第一方面公开了基于BERT的多任务新闻分类方法，包括：

获取新闻的原始文本数据；

将所述原始文本数据进行数据清洗，得到待分类文本信息；

将所述待分类文本信息输入编码层，得到所述原始文本数据的特征向量；

将所述特征向量输入注意力层；将所述特征向量与超参数作点乘，得到注意力层输出结果；

将所述注意力层输出结果输入前馈神经网络层进行归一化处理，得到各类新闻文本的独有特征向量；

将所述独有特征向量进行联合学习，得到各类新闻任务的联合损失函数结果；

根据联合损失函数结果输出新闻分类结果。

作为一种可选的实施方式，在本发明实施例第一方面中，所述将所述原始文本数据进行数据清洗，包括：

将所述原始文本数据拆分成若干条长度小于预设值的子文本；

将长度小于预设值的所述原始文本数据利用特殊符号进行补齐；

将所述原始文本数据中的特殊字符和标签元素进行去除；

将所述原始文本数据中的表情符号转换成相应的中文释义。

作为一种可选的实施方式，在本发明实施例第一方面中，所述将所述特征向量与所述超参数作点乘，得到注意力层输出结果，包括：

将所述特征向量与超参数进行点乘运算，生成向量Query、向量Key和向量Value；

将所述向量Query、向量Key和向量Value输入注意力函数，得到Value相似度的权重；

注意力函数表示如下：

其中T表示矩阵的转置操作，

表示矩阵向量的维度，Q表示向量Query，K表示向量Key，V表示向量Value。

作为一种可选的实施方式，在本发明实施例第一方面中，所述将所述注意力层输出结果输入前馈神经网络层进行归一化处理，得到各类新闻文本的独有特征向量，包括：

将所述注意力层输出结果利用L2范数进行归一化处理；

通过残差模块缓解网络退化，更新浅层网络参数，得到输入结果；

将所述输入结果集成到语义特征向量中；

获取所述语义特征向量中的信息，将其中的新闻文本类别和对应种类的新闻文本语料进行下游微调，得到各类新闻文本的独有特征向量。

作为一种可选的实施方式，在本发明实施例第一方面中，所述新闻文本类别包括：动态新闻类、典型新闻类、综合新闻类和述评新闻类。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于BERT的多任务新闻分类方法还包括：

对带遮罩的语言任务进行预训练；

对次句预测任务进行预训练；

所述对带遮罩的语言任务进行预训练，包括：

在BERT模型中将样本序列中以15%的概率随机遮蔽一些原有符号，并将所述原有符号分别以80%、10%和10%的概率替换成特殊标记、随机标记和原有符号；

将多头自注意力机制层里的向量矩阵进行混淆；

所述对次句预测任务进行预训练，包括：

输入新闻文本句子对（第一句子,第二句子），将第二句子以预设概率替换成语料库中的其他子句，其余的保持不变；

通过语义特征向量输出一个全局特征表示标签，判断第二句子是否是第一句子的下一句。

作为一种可选的实施方式，在本发明实施例第一方面中，所述根据联合损失函数结果输出新闻分类结果，包括：

设定一个损失阈值；

判断所述联合损失函数结果是否超过所述损失阈值；若是，则继续迭代，重新计算联合损失函数结果；若否，输出新闻分类结果。

本发明实施例第二方面公开一种基于BERT的多任务新闻分类方法的装置，包括：

文本提取模块：用于获取新闻的原始文本数据；

文本清洗模块：用于多原始文本数据进行清洗，包括对长文本进行截断、对短文本进行补齐、清除特殊字符以及将表情符号转换成中文释义；

数据处理模块：用于将已经进行数据清洗的文本数据通过BERT模型进行数据处理，并得到联合损失函数结果；

分类判断模块：用于根据联合损失函数结果判断并输出新闻的类型。

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的基于BERT的多任务新闻分类方法。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的基于BERT的多任务新闻分类方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例公开了一种基于BERT的多任务新闻分类方法，其通过BERT学习模型对新闻文本数据进行处理，对动态新闻分类任务，典型新闻分类任务，综合新闻分类任务和述评新闻分类任务这四个任务进行联合训练，同时返回各任务的新闻类别，无需根据特定的下游任务修改BERT模型，节省了对新闻文本的分类时间，提高了新闻主题分类的准确度和适用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的基于BERT的多任务新闻分类方法的流程示意图；

图2是本发明实施例公开的将原始文本数据进行数据清洗的流程示意图；

图3是本发明实施例公开的将注意力层输出结果进行归一化处理的流程示意图；

图4是本发明实施例提供的一种基于BERT的多任务新闻分类装置的结构示意图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

请参阅图1~3，图1是本发明实施例公开的基于BERT的多任务新闻分类方法的流程示意图。其中，本发明实施例所描述的方法的执行主体为由软件或/和硬件组成的执行主体，该执行主体可以通过有线或/和无线方式接收相关信息，并可以发送一定的指令。当然，其还可以具有一定的处理功能和存储功能。该执行主体可以控制多个设备，例如远程的物理服务器或云服务器以及相关软件，也可以是对某处安置的设备进行相关操作的本地主机或服务器以及相关软件等。在一些场景中，还可以控制多个存储设备，存储设备可以与设备放置于同一地方或不同地方。如图1所示，该基于基于BERT的多任务新闻分类方法包括以下步骤：

S101：获取新闻的原始文本数据。

本步骤主要是为了采集新闻的原数据，得到新闻的原始文本数据，这里的原始文本数据为没有经过任何加工处理的文本，文本里面包含了各种便于表达的符号和表情等。在本发明实施例第一方面中，所述新闻文本类别包括：动态新闻类、典型新闻类、综合新闻类和述评新闻类。

S102：将所述原始文本数据进行数据清洗，得到待分类文本信息。

在本步骤中，为了让模型集中学习文本语言特征，减少无关信息的干扰，需要将所有的新闻原始文本数据进行清洗，以使得模型能更方便的识别规范格式的语句，提高模型的工作效率。将原始文本数据进行数据清洗通过以下步骤实现：

S1021：将所述原始文本数据拆分成若干条长度小于预设值的子文本。

具体地，长度预设值为512个字符，将每条新闻数据拆分成若干条长度小于512字符的子文本，并使子文本的数量达到最小值，如此可以使减少BERT模型识别文本的数量，提高文本识别效率。

S1022：将长度小于预设值的所述原始文本数据利用特殊符号进行补齐。具体地，该步骤中的预设值与上述步骤的预设值一致，均为512个字符。将长度小于512个字符的新闻文本利用特殊字符进行补齐，方便模型进行矩阵运算，以实现向量的快速收敛。

S1023：将所述原始文本数据中的特殊字符和标签元素进行去除。原始新闻文本中含有大量与新闻有关的标签元素，包括回复和转发标记、用户ID、网址等，可以使用正则表达式将它们去除。正则表达式，又称规则表达式,（Regular Expression，在代码中常简写为regex、regexp或RE），是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为"元字符"），是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式（规则）的文本。

此外，原始新闻文本中的非中文特殊字符，有全角与半角之分，统一将全角符号转换为半角符号。

S1024：将所述原始文本数据中的表情符号转换成相应的中文释义。对于新闻中的表情符号，如emoji表情符号等，采用开源Python库将其转换为对应的中文释义。

S103：将所述待分类文本信息输入编码层，得到所述原始文本数据的特征向量。

S104：将所述特征向量输入注意力层；将所述特征向量与超参数作点乘，得到注意力层输出结果。对编码层得到的特征向量利用多头注意力机制提取文本特征，该文本特征由三个超参数Wq，Wk，Wv得到，由特征向量与超参数共同生成三个向量分别为Query，Key和Value。将单个字符的Query与每个字符的Key做点乘，得到的结果作为Value相似度的权重，最后进行加权融合得到注意力层的输出。

注意力函数表示如下：

其中T表示矩阵的转置操作，

S105：将所述注意力层输出结果输入前馈神经网络层进行归一化处理，得到各类新闻文本的独有特征向量。具体地，将所述注意力层输出结果输入前馈神经网络层进行归一化处理，包括以下步骤：

S1051：将所述注意力层输出结果利用L2范数进行归一化处理。

S1052：通过残差模块缓解网络退化，更新浅层网络参数，得到输入结果。由于在较深的神经网络模型中，参数初始化一般更接近0，在模型训练过程中当通过反向传播更新浅层的网络参数时，很容易随着网络层数的加深而导致梯度消失，浅层的参数无法更新就会导致网络退化问题，因此，可以利用残差模块缓解网络退化问题，残差模块的主要作用是构造了一条输入直接与输出直接组合的路径，跳过中间其他子模块，让模型也能及时更新浅层网络参数。

S1053：将所述输入结果集成到语义特征向量中。

S1054：获取所述语义特征向量中的信息，将其中的新闻文本类别和对应种类的新闻文本语料进行下游微调，得到各类新闻文本的独有特征向量。

对带遮罩的语言任务进行预训练；对次句预测任务进行预训练。对带遮罩的语言任务，BERT 在序列中随机以 15% 的概率遮蔽一些原有 Token，大部分被替换标记为[MASK]，[MASK]所在位置的向量矩阵可以学习到上下文的信息，剩下的部分将分别以80%、10%和10%的概率替换成特殊标记、随机标记和原有符号。在多头自注意力机制层里面将向量矩阵混淆，让 BERT 没有依赖性，真正地去学习每个词邻近的上下文语义信息，从而获得更佳的表征能力。

所述对次句预测任务进行预训练，包括：

输入新闻文本句子对（第一句子,第二句子），将第二句子以50%概率替换成语料库中的其他子句，其余的保持不变。通过语义特征向量输出一个全局特征表示标签，判断第二句子是否是第一句子的下一句。

S106：将所述独有特征向量进行联合学习，得到各类新闻任务的联合损失函数结果。

S107：根据联合损失函数结果输出新闻分类结果。

具体地，所述根据联合损失函数结果输出新闻分类结果，包括：

设定一个损失阈值；

本实施中在模型预训练阶段使用参数硬共享机制，在模型下游任务微调阶段使用参数软共享机制。对于参数硬共享机制，不同子任务除去拥有本身模型参数外还共享一部分参数，用前馈神经网络作为共享参数层，为使共享参数层能更准确的捕捉数据的特征信息，使用BERT模型进行预训练作为多任务之间的共享层。BERT模型是一种动态语义表示模型，具备强大的语义表达能力，能够解决静态词之间向量语义提取不充分的问题。对于参数软共享机制，各个模型都拥有自己的模型参数并且不参与共享，通过L2正则化方式保障参数相似性。最后将预训练阶段和微调阶段的共享参数保存在内存之中，在模型的输出层提取共享参数用于联合损失函数计算之中，设定一个阈值，当损失低于该阈值时，输出新闻分类结果；若损失高于该阈值，则继续迭代，重新计算损失，直到低于阈值则输出新闻分类结果。例如，假设模型输出四个分类的预测结果为[0.4,0.2,0.2,0.2],而设定的损失阈值为0.5，虽然预测为0.4对应的新闻种类的概率更大，但由于预测结果均小于损失阈值，则继续返回迭代，直到四个分类结果中某一类新闻分类的预测值高于损失阈值阈值0.5，则该类新闻则为新闻分类输出结果。

实施例二

请参阅图4，图4是本发明实施例公开的基于BERT的多任务新闻分类装置的结构示意图。如图4所示，该基于BERT的多任务新闻分类装置可以包括：

文本提取模块310：用于获取新闻的原始文本数据；

文本清洗模块320：用于多原始文本数据进行清洗，包括对长文本进行截断、对短文本进行补齐、清除特殊字符以及将表情符号转换成中文释义；

数据处理模块330：用于将已经进行数据清洗的文本数据通过BERT模型进行数据处理，并得到联合损失函数结果；

分类判断模块340：用于根据联合损失函数结果判断并输出新闻的类型。

实施例三

请参阅图5，图5是本发明实施例公开的一种电子设备的结构示意图。电子设备可以是计算机以及服务器等，当然，在一定情况下，还可以是手机、平板电脑以及监控终端等智能设备，以及具有处理功能的图像采集装置。如图5所示，该电子设备可以包括：

存储有可执行程序代码的存储器510；

与存储器510耦合的处理器520；

其中，处理器520调用存储器510中存储的可执行程序代码，执行实施例一中的基于BERT的多任务新闻分类方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一中的基于BERT的多任务新闻分类方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中的基于BERT的多任务新闻分类方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中的基于BERT的多任务新闻分类方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备（可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器）执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器（Read-Only Memory，ROM）、随机存储器（Random Access Memory，RAM）、可编程只读存储器（Programmable Read-only Memory，PROM）、可擦除可编程只读存储器（Erasable Programmable Read-Only Memory，EPROM）、一次可编程只读存储器（One-time Programmable Read-Only Memory，OTPROM）、电子抹除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（CompactDisc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的基于BERT的多任务新闻分类方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于BERT的多任务新闻分类方法，其特征在于，包括：

获取新闻的原始文本数据；

将所述原始文本数据进行数据清洗，得到待分类文本信息；

根据联合损失函数结果输出新闻分类结果。

2.如权利要求1所述的基于BERT的多任务新闻分类方法，其特征在于：所述将所述原始文本数据进行数据清洗，包括：

将所述原始文本数据中的特殊字符和标签元素进行去除；

将所述原始文本数据中的表情符号转换成相应的中文释义。

3.如权利要求1所述的基于BERT的多任务新闻分类方法，其特征在于：所述将所述特征向量与所述超参数作点乘，得到注意力层输出结果，包括：

注意力函数表示如下：

，

其中T表示矩阵的转置操作，

表示矩阵向量的维度，Q表示向量Query，K表示向量Key， V表示向量Value。

4.如权利要求1所述的基于BERT的多任务新闻分类方法，其特征在于：所述将所述注意力层输出结果输入前馈神经网络层进行归一化处理，得到各类新闻文本的独有特征向量，包括：

将所述注意力层输出结果利用L2范数进行归一化处理；

将所述输入结果集成到语义特征向量中；

5.如权利要求4所述的基于BERT的多任务新闻分类方法，其特征在于：所述新闻文本类别包括：动态新闻类、典型新闻类、综合新闻类和述评新闻类。

6.如权利要求1所述的基于BERT的多任务新闻分类方法，其特征在于：还包括：

对带遮罩的语言任务进行预训练；

对次句预测任务进行预训练；

所述对带遮罩的语言任务进行预训练，包括：

将多头自注意力机制层里的向量矩阵进行混淆；

所述对次句预测任务进行预训练，包括：

7.如权利要求1所述的基于BERT的多任务新闻分类方法，其特征在于：所述根据联合损失函数结果输出新闻分类结果，包括：

设定一个损失阈值；

8.一种基于BERT的多任务新闻分类方法的装置，其特征在于，包括：

文本提取模块：用于获取新闻的原始文本数据；

9.一种电子设备，其特征在于，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至7任一项所述的基于BERT的多任务新闻分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至7任一项所述的基于BERT的多任务新闻分类方法。