CN112989841B - 一种用于突发事件新闻识别与分类的半监督学习方法 - Google Patents
一种用于突发事件新闻识别与分类的半监督学习方法 Download PDFInfo
- Publication number
- CN112989841B CN112989841B CN202110206548.1A CN202110206548A CN112989841B CN 112989841 B CN112989841 B CN 112989841B CN 202110206548 A CN202110206548 A CN 202110206548A CN 112989841 B CN112989841 B CN 112989841B
- Authority
- CN
- China
- Prior art keywords
- data set
- data
- unlabeled
- bert
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及自然语言处理领域,具体地涉及一种用于突发事件新闻识别与分类的半监督学习方法。
背景技术
对于突发事件新闻识别与分类任务,基于深度神经网络的文本分类是一个关键技术,通过一个多分类器同时完成突发事件识别和分类,有效避免级联误差。而深度学习需要大规模获取代价较高的标注数据才能完成模型的训练。比如,国家专利公开文献CN111723209A,公开了“半监督文本分类模型训练方法、文本分类方法、系统、设备及介质”,该发明包括:获取初始样本集;对未标注样本增强得到数据增强样本;将未标注样本和数据增强样本输入文本分类模型,得到嵌入向量以及属于各分类标签的预测概率;针对各未标注样本,获取其与对应数据增强样本的嵌入向量均值作为新样本;针对各未标注样本,获取其与对应数据增强样本属于各分类标签的预测概率均值锐化后作为新样本的标签估计结果。
该发明利用反向翻译和基于TF-IDF的特征进行词语替换来得到扰动的样本,使用分类器对扰动样本进行预测,对于置信度高于阈值的未标注样本,带着伪标签信息通过插值操作并入标注样本,根据扩展的标注样本集训练分类器模型。该方法的缺点是,仅仅采用两种策略来得到扰动样本,并且将当前分类器预测的高于阈值的未标注数据带入了标准的标注数据集,训练过程中带入了阶段性分类器的误差,影响了模型训练的准确度。
发明内容
本发明提供一种用于突发事件新闻识别与分类的半监督学习方法,从而解决现有技术的上述问题。
本发明提供了一种用于突发事件新闻识别与分类的半监督学习方法,包括以下步骤:
S1)利用数据采集模块抓取微博网站内容,将微博网站内容作为初始新闻数据集D,从初始新闻数据集D中筛选出标注数据集Dl以及未标注数据集Du;设计前置过滤器,利用前置过滤器对未标注数据集Du进行语义分析,得到过滤后的未标注数据集D′u;采用若干种不同的数据增强方法对预过滤后的数据集D′u进行数据增强,得到带扰动的未标注数据集D″u;
S2)建立基于BERT(Bidirectional Encoder Representations fromTransformers)的多分类器模型,利用标注数据集Dl、预过滤后的数据集D′u和带扰动的未标注数据集D″u分别对基于BERT的多分类器模型进行训练和测试,获得半监督学习训练出的基于BERT的多分类器模型;
进一步的,在步骤S1)中,从初始新闻数据集D中筛选出标注数据集Dl以及未标注数据集Du,设计前置过滤器,利用前置过滤器对未标注数据集Du进行语义分析,得到过滤后的未标注数据集D′u,包括以下步骤:
S11)根据突发事件新闻类别设定分类器的分类标签Y={1,…,C},C表示分类标签总种数,C种分类标签包括非突发事件和C-1种具体突发事件;
S12)根据每种具体突发事件的特点定义筛选关键词,根据筛选关键词从初始新闻数据集D中筛选出供人工标注的待标数据,对筛选后的供人工标注的待标数据进行标注,得到标注数据集Dl={(s1,y1),…,(sn,yn)},si为第i个标注样本,yi∈Y,yi为第i个标注样本的标签,i=1,2,…,n,n为标注样本总数;
S13)从初始新闻数据集D中获取未标注数据集Du={sn+1,…,sn+m},sn+m为第m个未标注样本;
S14)根据时间、地点要素两种语义信息特征设计前置过滤器,利用前置过滤器对未标注数据集Du={sn+1,…,sn+m}进行语义分析,剔除不含时间、地点要素的文本,得到过滤后的未标注数据集D′u。
进一步的,在步骤S14)中,根据时间、地点要素两种语义信息特征设计前置过滤器,利用前置过滤器对所述未标注数据集Du={sn+1,…,sn+m}进行语义分析,剔除不含时间、地点要素的文本,得到过滤后的未标注数据集D′u,包括以下步骤:
S141)建立基于双向门控递归单元的神经网络模型,利用结巴中文分词组件以及飞桨深度学习框架对所述基于双向门控递归单元的神经网络模型进行训练,将所述未标注数据集Du中的每一个未标注样本切分成词语序列、并且完成对词语序列的词性标注,获得词性标注序列;
S142)根据词性标注序列构建前置过滤器,利用前置过滤器从未标注数据集Du中过滤掉不含时间、地点要素的未标注样本,获得预过滤后的数据集D′u。
进一步的,在步骤S1)中,采用若干种不同的数据增强方法对预过滤后的数据集D′u进行数据增强,得到带扰动的未标注数据集D″u,包括以下步骤:
S151)遍历预过滤后的数据集D′u中的所有数据样本,利用反向翻译数据增强策略以及四种轻量级数据增强策略分别对所述预过滤后的数据集D′u中的每个数据样本进行数据增强,获得与所述预过滤后的数据集D′u中的第j个数据样本相对应的五种带扰动未标注数据,五种带扰动的未标注数据分别为D′jtmp1、D′jtmp 2、D′jtmp 3、D′jtmp 4、D′jtmp 5;D′jtmp 1为进行反向翻译后第j个数据样本相对应的带扰动未标注数据,D′jtmp 2、D′jtmp′3、D′jtmp 4、D′jtmp 5分别为利用四种轻量级数据增强策略进行数据增强后的第j个数据样本相对应的四种带扰动未标注数据;
S152)从所述五种带扰动的未标注数据中随机选择一种带扰动的未标注数据作为第j个数据样本的扰动版本;
S153)依次获得所述预过滤后的数据集D′u中每个数据样本的扰动版本,获得带扰动的未标注数据集D″u。
进一步的,在步骤S151)中,利用反向翻译数据增强策略对所述预过滤后的数据集D′u中的每个数据样本进行数据增强,包括将所述预过滤后的数据集D′u中的每个数据样本切分成以逗号分割的短句,通过基于飞桨框架训练的翻译模型将短句的中文文本翻译成英文,再将英文翻译回中文、并重新组合成篇章级文本,获得进行反向翻译后与每个数据样本相对应的带扰动未标注数据。
进一步的,在步骤S151)中,四种轻量级数据增强策略包括同义词替换、随机插入、随机删除和随机替换操作。
进一步的,在步骤S2)中,建立基于BERT的多分类器模型,利用标注数据集Dl、预过滤后的数据集D′u和带扰动的未标注数据集D″u分别对基于BERT的多分类器模型进行训练和测试,获得半监督学习训练出的基于BERT的多分类器模型,包括以下步骤:
S21)利用所述标注数据集Dl对基于BERT的多分类器模型进行监督学习,建立经验风险函数R(f),对所述经验风险函数R(f)进行最小化;
S22)利用基于BERT的多分类器模型对预过滤后的数据集D′u和带扰动的未标注数据集D″u进行预测,获得第一预估概率fθ(x′i)和第二预估概率fθ(x″i),计算第一预估概率fθ(x′i)与第二预估概率fθ(x″i)之间的预估概率距离d(fθ(x′),fθ(x″));
进一步的,在步骤S21)中,利用基于BERT的多分类器模型对所述标注数据集Dl进行监督学习,建立经验风险函数R(f),对经验风险函数R(f)进行最小化,包括以下步骤:
S211)在标注数据集Dl中每个标注样本的最前面加入“[CLS]”记号,将加入“[CLS]”记号后的标注样本和空集组成输入序列对,将输入序列对输入基于BERT的多分类器模型,基于BERT的多分类器模型中与“[CLS]”记号对应的最后一层隐藏层的输出为标注样本的特征表示X,X∈Rd,d为特征维度;
S212)将特征表示X输入到softmax层,得到基于BERT的多分类器模型预测的分类概率fθ(x)=pθ(y|x):{X;Θ}→Y,其中x∈X,x是标注数据集Dl中的任一个标注样本的特征表示,y∈Y,y是任一个标注样本对应的标签,Θ是基于BERT的多分类器模型的参数集,θ∈Θ,θ是基于BERT的多分类器模型的一组参数表示;
进一步的,在步骤S22)中,利用基于BERT的多分类器模型对所述预过滤后的数据集D′u和带扰动的未标注数据集D″u进行预测,获得第一预估概率fθ(x′i)和第二预估概率fθ(x″i),计算第一预估概率fθ(x′i)与第二预估概率fθ(x″i)之间的预估概率距离d(fθ(x′),fθ(x″)),包括以下步骤:
S221)利用基于BERT的多分类器模型对预过滤后的数据集D′u进行预测,得到第一预估概率fθ(x′i),x′i∈D′u,x′i是预过滤后的数据集D′u中的第i个数据样本;
S222)利用基于BERT的多分类器模型对带扰动的未标注数据集D″u进行预测,得到第二预估概率fθ(x″i),x″i∈D″u,x″i是带扰动的未标注数据集D″u中的第i个数据样本;
S223)使用KL散度算法获取第一预估概率fθ(x′i)与第二预估概率fθ(x″i)之间的距离d(fθ(x′),fθ(x″))。
S31)利用数据采集模块实时抓取微博网站内容,通过前置过滤器过滤掉不含时间、地点要素的微博网站内容,获得候选突发事件新闻,将候选突发事件新闻存入mysql数据库;
S32)从mysql数据库中批量读取未标注的数据样本,通过半监督学习训练出的基于BERT的多分类器模型对未标注的数据样本进行预测,得到数据样本的分类标签,将分类标签为具体突发事件的数据样本入库到线上突发事件新闻对应的数据库,将分类标签为非突发事件的新闻丢弃;
S33)通过前端处理模块实时调用数据库接口,读取线上突发事件新闻对应的数据库中存储的信息,更新网络页面的显示内容。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本实施例一提供的用于突发事件新闻识别与分类的半监督学习方法流程示意图。
图3是本实施例一提供的利用基于BERT的多分类器模型对标注数据集进行监督学习流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。
实施例一,第一方面,一种用于突发事件新闻识别与分类的半监督学习方法,如图1及图2所示,包括以下步骤:
S1)利用数据采集模块抓取微博网站内容,将微博网站内容作为初始新闻数据集D,从初始新闻数据集D中筛选出标注数据集Dl以及未标注数据集Du;设计前置过滤器,利用前置过滤器对未标注数据集Du进行语义分析,得到过滤后的未标注数据集D′u;采用若干种不同的数据增强方法对预过滤后的数据集D′u进行数据增强,得到带扰动的未标注数据集D″u;
在步骤S1)中,从初始新闻数据集D中筛选出标注数据集Dl以及未标注数据集Du,设计前置过滤器,利用前置过滤器对未标注数据集Du进行语义分析,得到过滤后的未标注数据集D′u,包括以下步骤:
S11)根据突发事件新闻类别设定分类器的分类标签Y={1,…,C},C表示分类标签总种数,C种分类标签具有非突发事件和C-1种具体突发事件;C-1种具体突发事件具体包括交通事故、疫情、火灾、水灾、地震、矿难等类别的突发事件新闻;
S12)根据每种具体突发事件的特点定义筛选关键词,根据筛选关键词从初始新闻数据集D中筛选出供人工标注的待标数据,对筛选后的供人工标注的待标数据进行标注,得到标注数据集Dl={(s1,y1),…,(sn,yn)},si为第i个标注样本,yi∈Y,yi为第i个标注样本的标签,i=1,2,…,n,n为标注样本总数;
根据具体的突发事件特点定义筛选关键词,粗略筛选供人工标注的待标数据,比如地震类,可能含有“震源、震级”等词语。在本实施例中,每个类别的突发事件新闻需要至少标注100条正例数据,得到n个标注样本(即标注数据集Dl={(s1,y1),…,(sn,yn)})。
S13)从初始新闻数据集D中获取未标注数据集Du={sn+1,…,sn+m},sn+m为第m个未标注样本;
S14)根据时间、地点要素两种语义信息特征设计前置过滤器,利用前置过滤器对未标注数据集Du={sn+1,…,sn+m}进行语义分析,剔除不含时间、地点要素的文本,得到过滤后的未标注数据集D′u,包括以下步骤:
S141)建立基于双向门控递归单元的神经网络模型,利用结巴中文分词组件以及飞桨深度学习框架对所述基于双向门控递归单元的神经网络模型进行训练,将所述未标注数据集Du中的每一个未标注样本切分成词语序列、并且完成对词语序列的词性标注,获得词性标注序列;
S142)根据词性标注序列构建前置过滤器,利用前置过滤器从未标注数据集Du中过滤掉不含时间、地点要素的未标注样本,获得预过滤后的数据集D′u。
在步骤S1)中,采用若干种不同的数据增强方法对预过滤后的数据集D′u进行数据增强,得到带扰动的未标注数据集D″u,包括以下步骤:
S151)遍历预过滤后的数据集D′u中的所有数据样本,利用反向翻译数据增强策略以及四种轻量级数据增强策略分别对所述预过滤后的数据集D′u中的每个数据样本进行数据增强,四种轻量级数据增强策略包括同义词替换、随机插入、随机删除和随机替换操作。获得与所述预过滤后的数据集D′u中的第j个数据样本相对应的五种带扰动未标注数据,五种带扰动的未标注数据分别为D′jtmp 1、D′jtmp 2、D′jtmp 3、D′jtmp 4、D′jtmp 5;D′jtmp 1为进行反向翻译后第j个数据样本相对应的带扰动未标注数据,D′jtmp 2、D′jtmp 3、D′jtmp 4、D′jtmp 5分别为利用四种轻量级数据增强策略进行数据增强后的第j个数据样本相对应的四种带扰动未标注数据;
在步骤S151)中,利用反向翻译数据增强策略对所述预过滤后的数据集D′u中的每个数据样本进行数据增强,包括将预过滤后的数据集D′u中的每个数据样本切分成以逗号分割的短句,通过基于飞桨框架训练的翻译模型将短句的中文文本翻译成英文,再将英文翻译回中文、并重新组合成篇章级文本,获得进行反向翻译后与每个数据样本相对应的带扰动未标注数据。
S152)从五种带扰动的未标注数据中随机选择一种带扰动的未标注数据作为第j个数据样本的扰动版本;
S153)依次获得所述预过滤后的数据集D′u中每个数据样本的扰动版本,获得带扰动的未标注数据集D″u。
S2)建立基于BERT的多分类器模型,利用标注数据集Dl、预过滤后的数据集D′u和带扰动的未标注数据集D″u分别对基于BERT的多分类器模型进行训练和测试,获得半监督学习训练出的基于BERT的多分类器模型包括以下步骤:
S21)利用所述标注数据集Dl对基于BERT的多分类器模型进行监督学习,建立经验风险函数R(f),对经验风险函数R(f)进行最小化,如图3所示,包括以下步骤:
S211)在标注数据集Dl中每个标注样本的最前面加入“[CLS]”记号,将加入“[CLS]”记号后的标注样本和空集组成输入序列对,将输入序列对输入基于BERT的多分类器模型,基于BERT的多分类器模型中最后一层隐藏层输出为与“[CLS]”记号对应的标注样本的特征表示X,X∈Rd,d为特征维度;
S212)将特征表示X输入到softmax层,得到基于BERT的多分类器模型预测的分类概率fθ(x)=pθ(y|x):{X;Θ}→Y,其中x∈X,x是标注数据集Dl中的任一个标注样本的特征表示,y∈Y,y是任一个标注样本对应的标签,Θ是基于BERT的多分类器模型的参数集,θ∈Θ,θ是基于BERT的多分类器模型的一组参数表示;
S22)利用基于BERT的多分类器模型对预过滤后的数据集D′u和带扰动的未标注数据集D″u进行预测,得到一致性正则损失项,即获得第一预估概率fθ(x′i)和第二预估概率fθ(x″i),计算第一预估概率fθ(x′i)与第二预估概率fθ(x″i)之间的预估概率距离d(fθ(x′),fθ(x″)),包括以下步骤:
S221)利用基于BERT的多分类器模型对预过滤后的数据集D′u进行预测,得到第一预估概率fθ(x′i),x′i∈D′u,x′i是预过滤后的数据集D′u中的第i个数据样本;
S222)利用基于BERT的多分类器模型对带扰动的未标注数据集D″u进行预测,得到第二预估概率fθ(x″i),x″i∈D″u,x″i是带扰动的未标注数据集D″u中的第i个数据样本;
S223)使用KL散度算法获取第一预估概率fθ(x′i)与第二预估概率fθ(x″i)之间的距离d(fθ(x′),fθ(x″))。
S23)根据经验风险函数R(f)以及预估概率距离d(fθ(x′),fθ(x″))计算结构风险函数使用Adam优化算法训练模型最小化结构化风险函数结构化风险函数其中λ为权重参数。得到半监督学习训练出的基于BERT的多分类器模型
S31)利用数据采集模块实时抓取微博网站内容,通过前置过滤器过滤掉不含时间、地点要素的微博网站内容,获得候选突发事件新闻,将候选突发事件新闻存入mysql数据库;
S32)从mysql数据库中批量读取未标注的数据样本,通过半监督学习训练出的基于BERT的多分类器模型对未标注的数据样本进行预测,得到数据样本的分类标签,将分类标签为具体突发事件的数据样本入库到线上突发事件新闻对应的数据库,将分类标签为非突发事件的新闻丢弃;
S33)通过前端处理模块实时调用数据库接口,读取线上突发事件新闻对应的数据库中存储的信息,更新网络页面的显示内容。
本发明在BERT模型多分类器的基础上,使用多种数据增强方法,包括反向翻译、同义词替换、随机插入、随机删除和随机替换操作,得到扰动版的无标注数据,分类器对未标注数据及其扰动版本实施一致性正则约束,训练过程中使用未标注数据信息来辅助改善分类器的性能。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明通过半监督学习训练出的基于BERT的多分类器模型同时实现对突发事件新闻的识别和分类任务。本发明中半监督学习方法采用一致性正则约束,对于样本数据及其扰动版本分类器模型均输出一致的预测结果。本发明还利用多种数据增强方法来得到扰动的样本数据,包括反向翻译、同义词替换、随机插入、随机删除和随机替换操作。本发明采用了基于语义信息的前置过滤器,实现对未标注数据的预过滤,剔除不含时间、地点要素的非突发事件新闻的文本,提高线上系统的运行效率。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (8)
1.一种用于突发事件新闻识别与分类的半监督学习方法,其特征在于,包括以下步骤:
S1)利用数据采集模块抓取微博网站内容,将微博网站内容作为初始新闻数据集D,从所述初始新闻数据集D中筛选出标注数据集Dl以及未标注数据集Du;设计前置过滤器,利用所述前置过滤器对所述未标注数据集Du进行语义分析,得到过滤后的未标注数据集D′u;采用若干种不同的数据增强方法分别对所述过滤后的未标注数据集D′u进行数据增强,得到带扰动的未标注数据集D″u;在步骤S1)中,从所述初始新闻数据集D中筛选出标注数据集Dl以及未标注数据集Du,设计前置过滤器,利用所述前置过滤器对所述未标注数据集Du进行语义分析,得到过滤后的未标注数据集D′u,包括以下步骤:
S11)根据突发事件新闻类别设定分类器的分类标签Y={1,…,C},C表示分类标签总种数,C种分类标签包括非突发事件和C-1种具体突发事件;
S12)根据每种具体突发事件的特点定义筛选关键词,根据所述筛选关键词从所述初始新闻数据集D中筛选出供人工标注的待标数据,对筛选后的供人工标注的待标数据进行标注,得到标注数据集Dl={(s1,y1),…,(sn,yn)},si为第i个标注样本,yi∈Y,yi为第i个标注样本的标签,i=1,2,…,n,n为标注样本总数;
S13)从所述初始新闻数据集D中获取未标注数据集Du={sn+1,…,sn+m},sn+m为第m个未标注样本;
S14)根据时间、地点要素两种语义信息特征设计前置过滤器,利用所述前置过滤器对所述未标注数据集Du={sn+1,…,sn+m}进行语义分析,剔除不含时间、地点要素的文本,得到过滤后的未标注数据集D′u;在步骤S14)中,根据时间、地点要素两种语义信息特征设计前置过滤器,利用所述前置过滤器对所述未标注数据集Du={sn+1,…,sn+m}进行语义分析,剔除不含时间、地点要素的文本,得到过滤后的未标注数据集D′u,包括以下步骤:
S141)建立基于双向门控递归单元的神经网络模型,利用结巴中文分词组件以及飞桨深度学习框架对所述基于双向门控递归单元的神经网络模型进行训练,将所述未标注数据集Du中的每一个未标注样本切分成词语序列、并且完成对词语序列的词性标注,获得词性标注序列;
S142)根据所述词性标注序列构建前置过滤器,利用所述前置过滤器从所述未标注数据集Du中过滤掉不含时间、地点要素的未标注样本,获得过滤后的未标注数据集D′u;
S2)建立基于BERT的多分类器模型,利用所述标注数据集Dl、所述过滤后的未标注数据集D′u和所述带扰动的未标注数据集D″u分别对所述基于BERT的多分类器模型进行训练和测试,获得半监督学习训练出的基于BERT的多分类器模型
2.根据权利要求1所述的用于突发事件新闻识别与分类的半监督学习方法,其特征在于,在步骤S1)中,采用若干种不同的数据增强方法分别对所述过滤后的未标注数据集D′u进行数据增强,得到带扰动的未标注数据集D″u,包括以下步骤:
S151)遍历所述过滤后的未标注数据集D′u中的所有数据样本,利用反向翻译数据增强策略以及四种轻量级数据增强策略分别对所述过滤后的数据集D′u中的每个数据样本进行数据增强,获得与所述过滤后的未标注数据集D′u中的第j个数据样本相对应的五种带扰动未标注数据,所述五种带扰动的未标注数据分别为D′jtmp 1、D′jtmp 2、D′jtmp 3、D′jtmp 4、D′jtmp 5;D′jtmp 1为进行反向翻译后第j个数据样本相对应的带扰动未标注数据,D′jtmp 2、D′jtmp 3、D′jtmp 4、D′jtmp 5分别为利用四种轻量级数据增强策略进行数据增强后的第j个数据样本相对应的四种带扰动未标注数据;
S152)从所述五种带扰动的未标注数据中随机选择一种带扰动的未标注数据作为第j个数据样本的扰动版本;
S153)依次获得所述过滤后的未标注数据集D′u中每个数据样本的扰动版本,获得带扰动的未标注数据集D″u。
3.根据权利要求2所述的用于突发事件新闻识别与分类的半监督学习方法,其特征在于,在步骤S151)中,利用反向翻译数据增强策略对所述过滤后的未标注数据集D′u中的每个数据样本进行数据增强,包括将所述过滤后的未标注数据集D′u中的每个数据样本切分成以逗号分割的短句,通过基于飞桨框架训练的翻译模型将短句的中文文本翻译成英文,再将英文翻译回中文、并重新组合成篇章级文本,获得进行反向翻译后与每个数据样本相对应的带扰动未标注数据。
4.根据权利要求2或3所述的用于突发事件新闻识别与分类的半监督学习方法,其特征在于,在步骤S151)中,所述四种轻量级数据增强策略包括同义词替换、随机插入、随机删除和随机替换操作。
5.根据权利要求4所述的用于突发事件新闻识别与分类的半监督学习方法,其特征在于,在步骤S2)中,建立基于BERT的多分类器模型,利用所述标注数据集Dl、所述过滤后的未标注数据集D′u和所述带扰动的未标注数据集D″u分别对所述基于BERT的多分类器模型进行训练和测试,获得半监督学习训练出的基于BERT的多分类器模型包括以下步骤:
S21)利用所述标注数据集Dl对基于BERT的多分类器模型进行监督学习,建立经验风险函数R(f),对所述经验风险函数R(f)进行最小化;
S22)利用基于BERT的多分类器模型对所述过滤后的未标注数据集D′u和所述带扰动的未标注数据集D″u进行预测,获得第一预估概率fθ(x′i)和第二预估概率fθ(x″i),计算所述第一预估概率fθ(x′i)与所述第二预估概率fθ(x″i)之间的预估概率距离d(fθ(x′),fθ(x″));
6.根据权利要求5所述的用于突发事件新闻识别与分类的半监督学习方法,其特征在于,在步骤S21)中,利用基于BERT的多分类器模型对所述标注数据集Dl进行监督学习,建立经验风险函数R(f),对所述经验风险函数R(f)进行最小化,包括以下步骤:
S211)在所述标注数据集Dl中每个标注样本的最前面加入“[CLS]”记号,将加入“[CLS]”记号后的标注样本和空集组成输入序列对,将所述输入序列对输入所述基于BERT的多分类器模型,所述基于BERT的多分类器模型中与所述“[CLS]”记号对应的最后一层隐藏层的输出为标注样本的特征表示X,X∈Rd,d为特征维度;
S212)将所述特征表示X输入到softmax层,得到所述基于BERT的多分类器模型预测的分类概率fθ(x)=pθ(y|x):{X;Θ}→Y,其中x∈X,x是标注数据集Dl中的任一个标注样本的特征表示,y∈Y,y是任一个标注样本对应的标签,Θ是基于BERT的多分类器模型的参数集,θ∈Θ,θ是基于BERT的多分类器模型的一组参数表示;
7.根据权利要求5或6所述的用于突发事件新闻识别与分类的半监督学习方法,其特征在于,在步骤S22)中,利用基于BERT的多分类器模型对所述过滤后的未标注数据集D′u和所述带扰动的未标注数据集D″u进行预测,获得第一预估概率fθ(x′i)和第二预估概率fθ(x″i),计算所述第一预估概率fθ(x′i)与所述第二预估概率fθ(x″i)之间的预估概率距离d(fθ(x′),fθ(x″)),包括以下步骤:
S221)利用基于BERT的多分类器模型对所述过滤后的未标注数据集D′u进行预测,得到第一预估概率fθ(x′i),x′i∈D′u,x′i是过滤后的未标注数据集D′u中的第i个数据样本;
S222)利用基于BERT的多分类器模型对所述带扰动的未标注数据集D″u进行预测,得到第二预估概率fθ(x″i),x″i∈D″u,x″i是带扰动的未标注数据集D″u中的第i个数据样本;
S223)使用KL散度算法获取所述第一预估概率fθ(x′i)与所述第二预估概率fθ(x″i)之间的距离d(fθ(x′),fθ(x″));
S31)利用数据采集模块实时抓取微博网站内容,通过前置过滤器过滤掉不含时间、地点要素的微博网站内容,获得候选突发事件新闻,将所述候选突发事件新闻存入mysq1数据库;
S32)从所述mysq1数据库中批量读取未标注的数据样本,通过所述半监督学习训练出的基于BERT的多分类器模型对所述未标注的数据样本进行预测,得到数据样本的分类标签,将分类标签为具体突发事件的数据样本入库到线上突发事件新闻对应的数据库,将分类标签为非突发事件的新闻丢弃;
S33)通过前端处理模块实时调用数据库接口,读取所述线上突发事件新闻对应的数据库中存储的信息,更新网络页面的显示内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110206548.1A CN112989841B (zh) | 2021-02-24 | 2021-02-24 | 一种用于突发事件新闻识别与分类的半监督学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110206548.1A CN112989841B (zh) | 2021-02-24 | 2021-02-24 | 一种用于突发事件新闻识别与分类的半监督学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989841A CN112989841A (zh) | 2021-06-18 |
CN112989841B true CN112989841B (zh) | 2021-09-21 |
Family
ID=76350170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110206548.1A Active CN112989841B (zh) | 2021-02-24 | 2021-02-24 | 一种用于突发事件新闻识别与分类的半监督学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989841B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408650B (zh) * | 2021-07-12 | 2023-07-18 | 厦门大学 | 基于一致性训练的半监督三维形状识别方法 |
CN113792545B (zh) * | 2021-11-16 | 2022-03-04 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的新闻事件活动名称抽取方法 |
CN114706975A (zh) * | 2022-01-19 | 2022-07-05 | 天津大学 | 引入数据增强的sa-lstm对停电新闻的文本分类方法 |
CN114372458B (zh) * | 2022-01-20 | 2023-04-07 | 北京零点远景网络科技有限公司 | 一种基于政务工单的突发事件检测方法 |
CN114707489B (zh) * | 2022-03-29 | 2023-08-18 | 马上消费金融股份有限公司 | 标注数据集获取方法、装置、电子设备及存储介质 |
CN114595333B (zh) * | 2022-04-27 | 2022-08-09 | 之江实验室 | 一种用于舆情文本分析的半监督方法和装置 |
CN114637853A (zh) * | 2022-05-17 | 2022-06-17 | 天津卓朗科技发展有限公司 | 突发事件的分级方法及其模型训练方法、装置 |
CN114638222B (zh) * | 2022-05-17 | 2022-08-16 | 天津卓朗科技发展有限公司 | 自然灾害数据的分类方法及其模型训练方法、装置 |
CN115329069B (zh) * | 2022-06-10 | 2023-10-13 | 黑龙江省网络空间研究中心 | 基于bert无监督文本分类的舆情分析方法和系统 |
CN115204318B (zh) * | 2022-09-15 | 2022-12-02 | 天津汇智星源信息技术有限公司 | 事件自动层级分类方法及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130063565A (ko) * | 2011-12-07 | 2013-06-17 | 조윤진 | 언라벨데이터를 이용한 앙상블 형태의 데이터마이닝 모형 구축장치 및 그 방법 |
CN108960282A (zh) * | 2018-05-30 | 2018-12-07 | 昆明理工大学 | 一种基于半监督学习的在线服务信誉度量方法 |
CN111723209B (zh) * | 2020-06-28 | 2023-04-25 | 上海携旅信息技术有限公司 | 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质 |
CN112132179A (zh) * | 2020-08-20 | 2020-12-25 | 中国人民解放军战略支援部队信息工程大学 | 基于少量标注样本的增量学习方法及系统 |
CN112182225A (zh) * | 2020-10-14 | 2021-01-05 | 上海宝钿科技产业发展有限公司 | 一种多模态场景目标基于半监督深度学习的知识管理方法 |
-
2021
- 2021-02-24 CN CN202110206548.1A patent/CN112989841B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112989841A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112989841B (zh) | 一种用于突发事件新闻识别与分类的半监督学习方法 | |
CN111291185B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN108875051B (zh) | 面向海量非结构化文本的知识图谱自动构建方法及系统 | |
CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN114911945A (zh) | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
CN112417862A (zh) | 知识点预测方法、系统和可读存储介质 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN115203507A (zh) | 一种面向文书领域的基于预训练模型的事件抽取方法 | |
CN116258137A (zh) | 文本纠错方法、装置、设备和存储介质 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN115391570A (zh) | 一种基于方面的情感知识图谱构建方法及装置 | |
CN114398480A (zh) | 基于关键信息抽取的金融舆情细分方面检测方法和设备 | |
CN113947087A (zh) | 一种基于标签的关系构建方法、装置、电子设备及存储介质 | |
CN115618085B (zh) | 一种基于动态标签的接口数据暴露探测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |