CN112989841B

CN112989841B - 一种用于突发事件新闻识别与分类的半监督学习方法

Info

Publication number: CN112989841B
Application number: CN202110206548.1A
Authority: CN
Inventors: 龙飞; 刘肖萌; 滕辉
Original assignee: Chinaso Information Technology Co ltd
Current assignee: Chinaso Information Technology Co ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-09-21
Anticipated expiration: 2041-02-24
Also published as: CN112989841A

Abstract

本发明涉及自然语言处理领域，公开了一种用于突发事件新闻识别与分类的半监督学习方法，包括以下步骤：抓取微博网站内容作为初始新闻数据集，通过人工标注得到标注数据集D_l；对未标注样本进行前置过滤操作，采用数据增强方法得到带扰动的未标注数据集；利用所述标注数据集D_l对基于BERT的多分类器模型进行监督学习、并最小化经验风险函数，利用基于BERT的多分类器模型对所述预过滤后的数据集和带扰动的未标注数据集进行预测，获得半监督学习训练出的基于BERT的多分类器模型

实现突发事件新闻的识别和分类任务。本发明能够克服标注数据不足的情况下深度学习分类器过拟合的问题，提高对中文突发事件新闻识别和分类的准确率。

Description

一种用于突发事件新闻识别与分类的半监督学习方法

技术领域

本发明涉及自然语言处理领域，具体地涉及一种用于突发事件新闻识别与分类的半监督学习方法。

背景技术

对于突发事件新闻识别与分类任务，基于深度神经网络的文本分类是一个关键技术，通过一个多分类器同时完成突发事件识别和分类，有效避免级联误差。而深度学习需要大规模获取代价较高的标注数据才能完成模型的训练。比如，国家专利公开文献CN111723209A，公开了“半监督文本分类模型训练方法、文本分类方法、系统、设备及介质”，该发明包括：获取初始样本集；对未标注样本增强得到数据增强样本；将未标注样本和数据增强样本输入文本分类模型，得到嵌入向量以及属于各分类标签的预测概率；针对各未标注样本，获取其与对应数据增强样本的嵌入向量均值作为新样本；针对各未标注样本，获取其与对应数据增强样本属于各分类标签的预测概率均值锐化后作为新样本的标签估计结果。

该发明利用反向翻译和基于TF-IDF的特征进行词语替换来得到扰动的样本，使用分类器对扰动样本进行预测，对于置信度高于阈值的未标注样本，带着伪标签信息通过插值操作并入标注样本，根据扩展的标注样本集训练分类器模型。该方法的缺点是，仅仅采用两种策略来得到扰动样本，并且将当前分类器预测的高于阈值的未标注数据带入了标准的标注数据集，训练过程中带入了阶段性分类器的误差，影响了模型训练的准确度。

发明内容

本发明提供一种用于突发事件新闻识别与分类的半监督学习方法，从而解决现有技术的上述问题。

本发明提供了一种用于突发事件新闻识别与分类的半监督学习方法，包括以下步骤：

S1)利用数据采集模块抓取微博网站内容，将微博网站内容作为初始新闻数据集D，从初始新闻数据集D中筛选出标注数据集D_l以及未标注数据集D_u；设计前置过滤器，利用前置过滤器对未标注数据集D_u进行语义分析，得到过滤后的未标注数据集D′_u；采用若干种不同的数据增强方法对预过滤后的数据集D′_u进行数据增强，得到带扰动的未标注数据集D″_u；

S2)建立基于BERT(Bidirectional Encoder Representations fromTransformers)的多分类器模型，利用标注数据集D_l、预过滤后的数据集D′_u和带扰动的未标注数据集D″_u分别对基于BERT的多分类器模型进行训练和测试，获得半监督学习训练出的基于BERT的多分类器模型

；

S3)利用半监督学习训练出的基于BERT的多分类器模型

进行线上突发事件新闻的识别和分类。

进一步的，在步骤S1)中，从初始新闻数据集D中筛选出标注数据集D_l以及未标注数据集D_u，设计前置过滤器，利用前置过滤器对未标注数据集D_u进行语义分析，得到过滤后的未标注数据集D′_u，包括以下步骤：

S11)根据突发事件新闻类别设定分类器的分类标签Y＝{1,…,C}，C表示分类标签总种数，C种分类标签包括非突发事件和C-1种具体突发事件；

S12)根据每种具体突发事件的特点定义筛选关键词，根据筛选关键词从初始新闻数据集D中筛选出供人工标注的待标数据，对筛选后的供人工标注的待标数据进行标注，得到标注数据集D_l＝{(s₁,y₁),…,(s_n,y_n)}，s_i为第i个标注样本，y_i∈Y，y_i为第i个标注样本的标签，i＝1,2,…,n，n为标注样本总数；

S13)从初始新闻数据集D中获取未标注数据集D_u＝{s_n+1,…,s_n+m}，s_n+m为第m个未标注样本；

S14)根据时间、地点要素两种语义信息特征设计前置过滤器，利用前置过滤器对未标注数据集D_u＝{s_n+1,…,s_n+m}进行语义分析，剔除不含时间、地点要素的文本，得到过滤后的未标注数据集D′_u。

进一步的，在步骤S14)中，根据时间、地点要素两种语义信息特征设计前置过滤器，利用前置过滤器对所述未标注数据集D_u＝{s_n+1,…,s_n+m}进行语义分析，剔除不含时间、地点要素的文本，得到过滤后的未标注数据集D′_u，包括以下步骤：

S141)建立基于双向门控递归单元的神经网络模型，利用结巴中文分词组件以及飞桨深度学习框架对所述基于双向门控递归单元的神经网络模型进行训练，将所述未标注数据集D_u中的每一个未标注样本切分成词语序列、并且完成对词语序列的词性标注，获得词性标注序列；

S142)根据词性标注序列构建前置过滤器，利用前置过滤器从未标注数据集D_u中过滤掉不含时间、地点要素的未标注样本，获得预过滤后的数据集D′_u。

进一步的，在步骤S1)中，采用若干种不同的数据增强方法对预过滤后的数据集D′_u进行数据增强，得到带扰动的未标注数据集D″_u，包括以下步骤：

S151)遍历预过滤后的数据集D′_u中的所有数据样本，利用反向翻译数据增强策略以及四种轻量级数据增强策略分别对所述预过滤后的数据集D′_u中的每个数据样本进行数据增强，获得与所述预过滤后的数据集D′_u中的第j个数据样本相对应的五种带扰动未标注数据，五种带扰动的未标注数据分别为D′_jtmp1、D′_{jtmp 2}、D′_{jtmp 3}、D′_{jtmp 4}、D′_{jtmp 5}；D′_{jtmp 1}为进行反向翻译后第j个数据样本相对应的带扰动未标注数据，D′_{jtmp 2}、D′_jtmp′3、D′_{jtmp 4}、D′_{jtmp 5}分别为利用四种轻量级数据增强策略进行数据增强后的第j个数据样本相对应的四种带扰动未标注数据；

S152)从所述五种带扰动的未标注数据中随机选择一种带扰动的未标注数据作为第j个数据样本的扰动版本；

S153)依次获得所述预过滤后的数据集D′_u中每个数据样本的扰动版本，获得带扰动的未标注数据集D″_u。

进一步的，在步骤S151)中，利用反向翻译数据增强策略对所述预过滤后的数据集D′_u中的每个数据样本进行数据增强，包括将所述预过滤后的数据集D′_u中的每个数据样本切分成以逗号分割的短句，通过基于飞桨框架训练的翻译模型将短句的中文文本翻译成英文，再将英文翻译回中文、并重新组合成篇章级文本，获得进行反向翻译后与每个数据样本相对应的带扰动未标注数据。

进一步的，在步骤S151)中，四种轻量级数据增强策略包括同义词替换、随机插入、随机删除和随机替换操作。

进一步的，在步骤S2)中，建立基于BERT的多分类器模型，利用标注数据集D_l、预过滤后的数据集D′_u和带扰动的未标注数据集D″_u分别对基于BERT的多分类器模型进行训练和测试，获得半监督学习训练出的基于BERT的多分类器模型

，包括以下步骤：

S21)利用所述标注数据集D_l对基于BERT的多分类器模型进行监督学习，建立经验风险函数R(f)，对所述经验风险函数R(f)进行最小化；

S22)利用基于BERT的多分类器模型对预过滤后的数据集D′_u和带扰动的未标注数据集D″_u进行预测，获得第一预估概率f_θ(x′_i)和第二预估概率f_θ(x″_i)，计算第一预估概率f_θ(x′_i)与第二预估概率f_θ(x″_i)之间的预估概率距离d(f_θ(x′),f_θ(x″))；

S23)根据经验风险函数R(f)以及预估概率距离d(f_θ(x′),f_θ(x″))计算结构风险函数

使用Adam优化算法训练模型最小化结构风险函数

得到半监督学习训练出的基于BERT的多分类器模型

进一步的，在步骤S21)中，利用基于BERT的多分类器模型对所述标注数据集D_l进行监督学习，建立经验风险函数R(f)，对经验风险函数R(f)进行最小化，包括以下步骤：

S211)在标注数据集D_l中每个标注样本的最前面加入“[CLS]”记号，将加入“[CLS]”记号后的标注样本和空集组成输入序列对，将输入序列对输入基于BERT的多分类器模型，基于BERT的多分类器模型中与“[CLS]”记号对应的最后一层隐藏层的输出为标注样本的特征表示X，X∈R^d,d为特征维度；

S212)将特征表示X输入到softmax层,得到基于BERT的多分类器模型预测的分类概率f_θ(x)＝pθ(y|x):{X；Θ}→Y,其中x∈X,x是标注数据集D_l中的任一个标注样本的特征表示，y∈Y，y是任一个标注样本对应的标签，Θ是基于BERT的多分类器模型的参数集，θ∈Θ，θ是基于BERT的多分类器模型的一组参数表示；

S213)通过基于BERT的多分类器模型预测的分类概率f_θ(x)最小化经验风险函数

R(f)为经验风险函数，x_i∈X，x_i是第i个标注样本的特征表示，l(f_θ(x_i),y_i)为损失函数，

进一步的，在步骤S22)中，利用基于BERT的多分类器模型对所述预过滤后的数据集D′_u和带扰动的未标注数据集D″_u进行预测，获得第一预估概率f_θ(x′_i)和第二预估概率f_θ(x″_i)，计算第一预估概率f_θ(x′_i)与第二预估概率f_θ(x″_i)之间的预估概率距离d(f_θ(x′),f_θ(x″))，包括以下步骤：

S221)利用基于BERT的多分类器模型对预过滤后的数据集D′_u进行预测,得到第一预估概率f_θ(x′_i)，x′_i∈D′_u，x′_i是预过滤后的数据集D′_u中的第i个数据样本；

S222)利用基于BERT的多分类器模型对带扰动的未标注数据集D″_u进行预测,得到第二预估概率f_θ(x″_i)，x″_i∈D″_u，x″_i是带扰动的未标注数据集D″_u中的第i个数据样本；

S223)使用KL散度算法获取第一预估概率f_θ(x′_i)与第二预估概率f_θ(x″_i)之间的距离d(f_θ(x′),f_θ(x″))。

在步骤S23)中，根据经验风险函数R(f)以及预估概率距离d(f_θ(x′),f_θ(x″))计算结构风险函数

，结构风险函数

其中λ为权重参数。

进一步的，在步骤S3)中，利用半监督学习训练出的基于BERT的多分类器模型

进行线上突发事件新闻的识别和分类，包括以下步骤：

S31)利用数据采集模块实时抓取微博网站内容，通过前置过滤器过滤掉不含时间、地点要素的微博网站内容，获得候选突发事件新闻，将候选突发事件新闻存入mysql数据库；

S32)从mysql数据库中批量读取未标注的数据样本，通过半监督学习训练出的基于BERT的多分类器模型

对未标注的数据样本进行预测，得到数据样本的分类标签，将分类标签为具体突发事件的数据样本入库到线上突发事件新闻对应的数据库，将分类标签为非突发事件的新闻丢弃；

S33)通过前端处理模块实时调用数据库接口，读取线上突发事件新闻对应的数据库中存储的信息，更新网络页面的显示内容。

本发明的有益效果是：本发明通过半监督学习训练出的基于BERT的多分类器模型

同时实现对突发事件新闻的识别和分类任务。本发明中半监督学习方法采用一致性正则约束，对于样本数据及其扰动版本分类器模型

均输出一致的预测结果。本发明还利用多种数据增强方法来得到扰动的样本数据，包括反向翻译、同义词替换、随机插入、随机删除和随机替换操作等。本发明采用了基于语义信息的前置过滤器实现了对未标注数据的预过滤，剔除不含时间、地点要素的非突发事件新闻的文本，提高线上系统的运行效率。本发明能够克服标注数据不足的情况下深度学习分类器过拟合的问题，提高对中文突发事件新闻识别和分类的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例一提供的用于突发事件新闻识别与分类的半监督学习方法流程示意图。

图2是本实施例一提供的获取半监督学习训练出的基于BERT的多分类器模型

的流程示意图。

图3是本实施例一提供的利用基于BERT的多分类器模型对标注数据集进行监督学习流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。

实施例一，第一方面，一种用于突发事件新闻识别与分类的半监督学习方法，如图1及图2所示，包括以下步骤：

在步骤S1)中，从初始新闻数据集D中筛选出标注数据集D_l以及未标注数据集D_u，设计前置过滤器，利用前置过滤器对未标注数据集D_u进行语义分析，得到过滤后的未标注数据集D′_u，包括以下步骤：

S11)根据突发事件新闻类别设定分类器的分类标签Y＝{1,…,C}，C表示分类标签总种数，C种分类标签具有非突发事件和C-1种具体突发事件；C-1种具体突发事件具体包括交通事故、疫情、火灾、水灾、地震、矿难等类别的突发事件新闻；

根据具体的突发事件特点定义筛选关键词，粗略筛选供人工标注的待标数据，比如地震类，可能含有“震源、震级”等词语。在本实施例中，每个类别的突发事件新闻需要至少标注100条正例数据，得到n个标注样本(即标注数据集D_l＝{(s₁,y₁),…,(s_n,y_n)})。

S14)根据时间、地点要素两种语义信息特征设计前置过滤器，利用前置过滤器对未标注数据集D_u＝{s_n+1,…,s_n+m}进行语义分析，剔除不含时间、地点要素的文本，得到过滤后的未标注数据集D′_u，包括以下步骤：

在步骤S1)中，采用若干种不同的数据增强方法对预过滤后的数据集D′_u进行数据增强，得到带扰动的未标注数据集D″_u，包括以下步骤：

S151)遍历预过滤后的数据集D′_u中的所有数据样本，利用反向翻译数据增强策略以及四种轻量级数据增强策略分别对所述预过滤后的数据集D′_u中的每个数据样本进行数据增强，四种轻量级数据增强策略包括同义词替换、随机插入、随机删除和随机替换操作。获得与所述预过滤后的数据集D′_u中的第j个数据样本相对应的五种带扰动未标注数据，五种带扰动的未标注数据分别为D′_{jtmp 1}、D′_{jtmp 2}、D′_{jtmp 3}、D′_{jtmp 4}、D′_{jtmp 5}；D′_{jtmp 1}为进行反向翻译后第j个数据样本相对应的带扰动未标注数据，D′_{jtmp 2}、D′_{jtmp 3}、D′_{jtmp 4}、D′_{jtmp 5}分别为利用四种轻量级数据增强策略进行数据增强后的第j个数据样本相对应的四种带扰动未标注数据；

在步骤S151)中，利用反向翻译数据增强策略对所述预过滤后的数据集D′_u中的每个数据样本进行数据增强，包括将预过滤后的数据集D′_u中的每个数据样本切分成以逗号分割的短句，通过基于飞桨框架训练的翻译模型将短句的中文文本翻译成英文，再将英文翻译回中文、并重新组合成篇章级文本，获得进行反向翻译后与每个数据样本相对应的带扰动未标注数据。

S152)从五种带扰动的未标注数据中随机选择一种带扰动的未标注数据作为第j个数据样本的扰动版本；

S2)建立基于BERT的多分类器模型，利用标注数据集D_l、预过滤后的数据集D′_u和带扰动的未标注数据集D″_u分别对基于BERT的多分类器模型进行训练和测试，获得半监督学习训练出的基于BERT的多分类器模型

包括以下步骤：

S21)利用所述标注数据集D_l对基于BERT的多分类器模型进行监督学习，建立经验风险函数R(f)，对经验风险函数R(f)进行最小化，如图3所示，包括以下步骤：

S211)在标注数据集D_l中每个标注样本的最前面加入“[CLS]”记号，将加入“[CLS]”记号后的标注样本和空集组成输入序列对，将输入序列对输入基于BERT的多分类器模型，基于BERT的多分类器模型中最后一层隐藏层输出为与“[CLS]”记号对应的标注样本的特征表示X，X∈R^d,d为特征维度；

S212)将特征表示X输入到softmax层,得到基于BERT的多分类器模型预测的分类概率f_θ(x)＝p_θ(y|x):{X；Θ}→Y,其中x∈X,x是标注数据集D_l中的任一个标注样本的特征表示，y∈Y，y是任一个标注样本对应的标签，Θ是基于BERT的多分类器模型的参数集，θ∈Θ，θ是基于BERT的多分类器模型的一组参数表示；

S22)利用基于BERT的多分类器模型对预过滤后的数据集D′_u和带扰动的未标注数据集D″_u进行预测，得到一致性正则损失项,即获得第一预估概率f_θ(x′_i)和第二预估概率f_θ(x″_i)，计算第一预估概率f_θ(x′_i)与第二预估概率f_θ(x″_i)之间的预估概率距离d(f_θ(x′),f_θ(x″))，包括以下步骤：

使用Adam优化算法训练模型最小化结构化风险函数

结构化风险函数

其中λ为权重参数。得到半监督学习训练出的基于BERT的多分类器模型

S3)利用半监督学习训练出的基于BERT的多分类器模型

进行线上突发事件新闻的识别和分类，包括以下步骤：

本发明在BERT模型多分类器的基础上，使用多种数据增强方法，包括反向翻译、同义词替换、随机插入、随机删除和随机替换操作，得到扰动版的无标注数据，分类器对未标注数据及其扰动版本实施一致性正则约束，训练过程中使用未标注数据信息来辅助改善分类器的性能。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明通过半监督学习训练出的基于BERT的多分类器模型

同时实现对突发事件新闻的识别和分类任务。本发明中半监督学习方法采用一致性正则约束，对于样本数据及其扰动版本分类器模型均输出一致的预测结果。本发明还利用多种数据增强方法来得到扰动的样本数据，包括反向翻译、同义词替换、随机插入、随机删除和随机替换操作。本发明采用了基于语义信息的前置过滤器，实现对未标注数据的预过滤，剔除不含时间、地点要素的非突发事件新闻的文本，提高线上系统的运行效率。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种用于突发事件新闻识别与分类的半监督学习方法，其特征在于，包括以下步骤：

S1)利用数据采集模块抓取微博网站内容，将微博网站内容作为初始新闻数据集D，从所述初始新闻数据集D中筛选出标注数据集D_l以及未标注数据集D_u；设计前置过滤器，利用所述前置过滤器对所述未标注数据集D_u进行语义分析，得到过滤后的未标注数据集D′_u；采用若干种不同的数据增强方法分别对所述过滤后的未标注数据集D′_u进行数据增强，得到带扰动的未标注数据集D″_u；在步骤S1)中，从所述初始新闻数据集D中筛选出标注数据集D_l以及未标注数据集D_u，设计前置过滤器，利用所述前置过滤器对所述未标注数据集D_u进行语义分析，得到过滤后的未标注数据集D′_u，包括以下步骤：

S11)根据突发事件新闻类别设定分类器的分类标签Y＝{1，…，C}，C表示分类标签总种数，C种分类标签包括非突发事件和C-1种具体突发事件；

S12)根据每种具体突发事件的特点定义筛选关键词，根据所述筛选关键词从所述初始新闻数据集D中筛选出供人工标注的待标数据，对筛选后的供人工标注的待标数据进行标注，得到标注数据集D_l＝{(s₁，y₁)，…，(s_n，y_n)}，s_i为第i个标注样本，y_i∈Y，y_i为第i个标注样本的标签，i＝1，2，…，n，n为标注样本总数；

S13)从所述初始新闻数据集D中获取未标注数据集D_u＝{s_n+1，…，s_n+m}，s_n+m为第m个未标注样本；

S14)根据时间、地点要素两种语义信息特征设计前置过滤器，利用所述前置过滤器对所述未标注数据集D_u＝{s_n+1，…，s_n+m}进行语义分析，剔除不含时间、地点要素的文本，得到过滤后的未标注数据集D′_u；在步骤S14)中，根据时间、地点要素两种语义信息特征设计前置过滤器，利用所述前置过滤器对所述未标注数据集D_u＝{s_n+1，…，s_n+m}进行语义分析，剔除不含时间、地点要素的文本，得到过滤后的未标注数据集D′_u，包括以下步骤：

S142)根据所述词性标注序列构建前置过滤器，利用所述前置过滤器从所述未标注数据集D_u中过滤掉不含时间、地点要素的未标注样本，获得过滤后的未标注数据集D′_u；

S2)建立基于BERT的多分类器模型，利用所述标注数据集D_l、所述过滤后的未标注数据集D′_u和所述带扰动的未标注数据集D″_u分别对所述基于BERT的多分类器模型进行训练和测试，获得半监督学习训练出的基于BERT的多分类器模型

S3)利用半监督学习训练出的基于BERT的多分类器模型

进行线上突发事件新闻的识别和分类。

2.根据权利要求1所述的用于突发事件新闻识别与分类的半监督学习方法，其特征在于，在步骤S1)中，采用若干种不同的数据增强方法分别对所述过滤后的未标注数据集D′_u进行数据增强，得到带扰动的未标注数据集D″_u，包括以下步骤：

S151)遍历所述过滤后的未标注数据集D′_u中的所有数据样本，利用反向翻译数据增强策略以及四种轻量级数据增强策略分别对所述过滤后的数据集D′_u中的每个数据样本进行数据增强，获得与所述过滤后的未标注数据集D′_u中的第j个数据样本相对应的五种带扰动未标注数据，所述五种带扰动的未标注数据分别为D′_{jtmp 1}、D′_{jtmp 2}、D′_{jtmp 3}、D′_{jtmp 4}、D′_{jtmp 5}；D′_{jtmp 1}为进行反向翻译后第j个数据样本相对应的带扰动未标注数据，D′_{jtmp 2}、D′_{jtmp 3}、D′_{jtmp 4}、D′_{jtmp 5}分别为利用四种轻量级数据增强策略进行数据增强后的第j个数据样本相对应的四种带扰动未标注数据；

S153)依次获得所述过滤后的未标注数据集D′_u中每个数据样本的扰动版本，获得带扰动的未标注数据集D″_u。

3.根据权利要求2所述的用于突发事件新闻识别与分类的半监督学习方法，其特征在于，在步骤S151)中，利用反向翻译数据增强策略对所述过滤后的未标注数据集D′_u中的每个数据样本进行数据增强，包括将所述过滤后的未标注数据集D′_u中的每个数据样本切分成以逗号分割的短句，通过基于飞桨框架训练的翻译模型将短句的中文文本翻译成英文，再将英文翻译回中文、并重新组合成篇章级文本，获得进行反向翻译后与每个数据样本相对应的带扰动未标注数据。

4.根据权利要求2或3所述的用于突发事件新闻识别与分类的半监督学习方法，其特征在于，在步骤S151)中，所述四种轻量级数据增强策略包括同义词替换、随机插入、随机删除和随机替换操作。

5.根据权利要求4所述的用于突发事件新闻识别与分类的半监督学习方法，其特征在于，在步骤S2)中，建立基于BERT的多分类器模型，利用所述标注数据集D_l、所述过滤后的未标注数据集D′_u和所述带扰动的未标注数据集D″_u分别对所述基于BERT的多分类器模型进行训练和测试，获得半监督学习训练出的基于BERT的多分类器模型

包括以下步骤：

S22)利用基于BERT的多分类器模型对所述过滤后的未标注数据集D′_u和所述带扰动的未标注数据集D″_u进行预测，获得第一预估概率f_θ(x′_i)和第二预估概率f_θ(x″_i)，计算所述第一预估概率f_θ(x′_i)与所述第二预估概率f_θ(x″_i)之间的预估概率距离d(f_θ(x′)，f_θ(x″))；

S23)根据所述经验风险函数R(f)以及所述预估概率距离d(f_θ(x′)，f_θ(x″))计算结构风险函数

使用Adam优化算法训练模型最小化所述结构风险函数

得到半监督学习训练出的基于BERT的多分类器模型

6.根据权利要求5所述的用于突发事件新闻识别与分类的半监督学习方法，其特征在于，在步骤S21)中，利用基于BERT的多分类器模型对所述标注数据集D_l进行监督学习，建立经验风险函数R(f)，对所述经验风险函数R(f)进行最小化，包括以下步骤：

S211)在所述标注数据集D_l中每个标注样本的最前面加入“[CLS]”记号，将加入“[CLS]”记号后的标注样本和空集组成输入序列对，将所述输入序列对输入所述基于BERT的多分类器模型，所述基于BERT的多分类器模型中与所述“[CLS]”记号对应的最后一层隐藏层的输出为标注样本的特征表示X，X∈R^d，d为特征维度；

S212)将所述特征表示X输入到softmax层，得到所述基于BERT的多分类器模型预测的分类概率f_θ(x)＝p_θ(y|x)：{X；Θ}→Y，其中x∈X，x是标注数据集D_l中的任一个标注样本的特征表示，y∈Y，y是任一个标注样本对应的标签，Θ是基于BERT的多分类器模型的参数集，θ∈Θ，θ是基于BERT的多分类器模型的一组参数表示；

S213)通过所述基于BERT的多分类器模型预测的分类概率f_θ(x)最小化经验风险函数

R(f)为经验风险函数，x_i∈X，x_i是第i个标注样本的特征表示，l(f_θ(x_i)，y_i)为损失函数，

7.根据权利要求5或6所述的用于突发事件新闻识别与分类的半监督学习方法，其特征在于，在步骤S22)中，利用基于BERT的多分类器模型对所述过滤后的未标注数据集D′_u和所述带扰动的未标注数据集D″_u进行预测，获得第一预估概率f_θ(x′_i)和第二预估概率f_θ(x″_i)，计算所述第一预估概率f_θ(x′_i)与所述第二预估概率f_θ(x″_i)之间的预估概率距离d(f_θ(x′)，f_θ(x″))，包括以下步骤：

S221)利用基于BERT的多分类器模型对所述过滤后的未标注数据集D′_u进行预测，得到第一预估概率f_θ(x′_i)，x′_i∈D′_u，x′_i是过滤后的未标注数据集D′_u中的第i个数据样本；

S222)利用基于BERT的多分类器模型对所述带扰动的未标注数据集D″_u进行预测，得到第二预估概率f_θ(x″_i)，x″_i∈D″_u，x″_i是带扰动的未标注数据集D″_u中的第i个数据样本；

S223)使用KL散度算法获取所述第一预估概率f_θ(x′_i)与所述第二预估概率f_θ(x″_i)之间的距离d(f_θ(x′)，f_θ(x″))；

在步骤S23)中，根据所述经验风险函数R(f)以及所述预估概率距离d(f_θ(x′)，f_θ(x″))计算结构风险函数

所述结构风险函数

其中λ为权重参数。

8.根据权利要求7所述的用于突发事件新闻识别与分类的半监督学习方法，其特征在于，在步骤S3)中，利用半监督学习训练出的基于BERT的多分类器模型

进行线上突发事件新闻的识别和分类，包括以下步骤：

S31)利用数据采集模块实时抓取微博网站内容，通过前置过滤器过滤掉不含时间、地点要素的微博网站内容，获得候选突发事件新闻，将所述候选突发事件新闻存入mysq1数据库；

S32)从所述mysq1数据库中批量读取未标注的数据样本，通过所述半监督学习训练出的基于BERT的多分类器模型

对所述未标注的数据样本进行预测，得到数据样本的分类标签，将分类标签为具体突发事件的数据样本入库到线上突发事件新闻对应的数据库，将分类标签为非突发事件的新闻丢弃；

S33)通过前端处理模块实时调用数据库接口，读取所述线上突发事件新闻对应的数据库中存储的信息，更新网络页面的显示内容。