CN112070138B - 多标签混合分类模型的构建方法、新闻分类方法及系统 - Google Patents

多标签混合分类模型的构建方法、新闻分类方法及系统 Download PDF

Info

Publication number
CN112070138B
CN112070138B CN202010895978.4A CN202010895978A CN112070138B CN 112070138 B CN112070138 B CN 112070138B CN 202010895978 A CN202010895978 A CN 202010895978A CN 112070138 B CN112070138 B CN 112070138B
Authority
CN
China
Prior art keywords
classification
label
training
model
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010895978.4A
Other languages
English (en)
Other versions
CN112070138A (zh
Inventor
李明玉
刘鹏翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Fusion Media Technology Development Beijing Co ltd
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Fusion Media Technology Development Beijing Co ltd
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Fusion Media Technology Development Beijing Co ltd, Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Fusion Media Technology Development Beijing Co ltd
Priority to CN202010895978.4A priority Critical patent/CN112070138B/zh
Publication of CN112070138A publication Critical patent/CN112070138A/zh
Application granted granted Critical
Publication of CN112070138B publication Critical patent/CN112070138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种多标签混合分类模型的构建方法、新闻分类方法及系统,所述多标签混合分类模型包括一分类模型和至少一个识别模型,由所述分类模型和各识别模型共同对待分类数据进行文本分类,其中构建方法包括以下步骤:构建包含困难标签和普通标签的标签库;获取具有标注标签的训练文本;提取所述标注标签包含困难标签的训练文本作为识别训练样本,利用所述识别训练样本训练与所述困难标签相对应的识别模型;提取所述标注标签包含普通标签的训练文本作为分类训练样本,利用所述分类训练样本训练多标签的分类模型,本发明能够解决多标签分类任务中各类别对应特征数据不平衡的问题。

Description

多标签混合分类模型的构建方法、新闻分类方法及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种多标签混合分类模型的构建方法、新闻分类方法及系统。
背景技术
现今直接利用具有标注标签的训练数据训练多标签分类模型,在实际使用时,所述多标签分类模型的输入是待分类数据,输出为所述待分类数据属于各标注标签的概率。
但在多分类任务中存在各类别对应的特征不均衡的问题,如,某类别所包含的特征较多,故在进行多标签分类模型的训练时,所述多标签分类模型难以对该类别对应的特征进行捕捉,从而导致所得多标签分类模型分类效果差,针对该类别的召回率及准确率均较低,甚至无法训练获得的满足用户分类需求的多标签分类模型。
发明内容
本发明针对现有技术中的缺点,提供了一种解决多标签分类任务中各类别对应特征数据不平衡的问题的多标签混合分类模型的构建方法、新闻分类方法及系统。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种多标签混合分类模型的构建方法,所述多标签混合分类模型包括一分类模型和至少一个识别模型,由所述分类模型和各识别模型共同对待分类数据进行文本分类,构建方法包括以下步骤:
构建包含困难标签和普通标签的标签库;
获取具有标注标签的训练文本;
提取所述标注标签包含困难标签的训练文本作为识别训练样本,利用所述识别训练样本训练与所述困难标签相对应的识别模型;
提取所述标注标签包含普通标签的训练文本作为分类训练样本,利用所述分类训练样本训练多标签的分类模型。
作为一种可实施方式:
基于所述困难标签的类别将所述识别训练样本分别输入至预设的初始识别模型进行标签识别,获得识别标签,所述识别标签用于指示所述识别训练样本属于相应困难标签的预测概率值;
基于预设的第一概率阈值,根据所述识别标签和所述识别训练样本的标注标签计算获得识别损失值;
基于所述识别损失值更新所述初始识别模型的模型参数,直至训练结束,得到相应的识别模型。
作为一种可实施方式,基于平均损失函数计算获得识别损失值,所述平均损失函数的公式为:
Loss1=-∑yλ(ytrue,ypred)ytrue′log ypred
其中,ytrue为第一真实概率值,ytrue′为第二真实概率值,ypred为预测概率值;
从所述识别训练样本的标注标签中提取所述第一真实概率值;
将所述识别训练样本的标注标签进行标签平滑,获得处理标签,从所述处理标签中提取第二真实概率值;
所述λ(ytrue,ypred)=1-θ(ytrue-m)θ(ypred-m)-θ(1-m-ytrue)θ(1-m-ypred);
其中,m为预设的第一概率阈值,函数Θ(x)用于根据x进行赋值,且当x小于0时赋值为0。
作为一种可实施方式:
将分类训练样本输入至预设的初始分类模型进行分类预测,获得分类标签,所述分类标签用于指示所述分类训练样本属于各普通标签的预测值;
基于预设的第二概率阈值,根据所述分类标签和所述分类训练样本的标注标签计算分类损失值;
基于分类损失值更新所述初始分类模型的模型参数,直至训练结束,得到相应的分类模型。
作为一种可实施方式:
基于标注标签将所述分类训练样本所属的普通标签作为其正类别,反之作为负类别;
将分类训练样本的类别属于所述正类别的预测值作为正类别预测值,反之,作为负类别预测值;
基于所述正类别预测值、负类别预测值和预设的第二概率阈值的计算所述损失计算标签的分类损失值。
作为一种可实施方式:
基于多标签损失函数计算各分类训练样本对应的样本损失值,将所得样本损失值的平均值作为分类损失值,所述多标签损失函数的公式为:
其中,Si表示所述分类训练样本的第i个负类别的负类别预测值,Sj表示所述分类训练样本的第j个正类别的正类别预测值,S0表示预设的第二概率阈值。
作为一种可实施方式:
收集并预处理新闻文本,获得具有标注标签的第一文本样本;
对所述第一文本样本进行数据增强,获得具有标注标签的第二文本样本,其中数据增强的方式为文本回译、实体替换、任意词随机删除、同义词随机替换、词位置随机交换和/或近义词随机插入;
汇总所述第一文本样本和所述第二文本样本,获得具有标注标签的训练文本。
本发明还提出一种新闻分类方法,包括以下步骤:
获取待分类数据,将所述待分类数据分别输入各识别模型,获得相应的识别结果,并将所述待分类数据输入所述分类模型,获得分类结果,所述识别模型为上述任意一项识别模型,所述分类模型为上述任意一项分类模型;
将所述分类结果和各识别结果合并,获得待分类数据的分类标签。
本发明还提出一种多标签混合分类模型的构建系统,所述多标签混合分类模型包括一分类模型和至少一个识别模型,由所述分类模型和各识别模型共同对待分类数据进行文本分类,构建系统包括:
标签库构建模块,用于构建包含困难标签和普通标签的标签库;
训练文本获取模块,用于获取具有标注标签的训练文本;
识别模型构建模块,用于提取所述标注标签包含困难标签的训练文本作为识别训练样本,利用所述识别训练样本训练与所述困难标签相对应的识别模型;
分类模型构建模块,用于提取所述标注标签包含普通标签的训练文本作为分类训练样本,利用所述分类训练样本训练多标签的分类模型。
本发明还提出一种新闻分类系统,包括:
分类模块,用于获取待分类数据,将所述待分类数据分别输入各识别模型,获得相应的识别结果,并将所述待分类数据输入所述分类模型,获得分类结果,所述识别模型为上述任意一项识别模型,所述分类模型为上述分类模型;
合并模块,用于将所述分类结果和各识别结果合并,获得待分类数据的分类标签。
本发明由于采用了以上技术方案,具有显著的技术效果:
1、本发明将分类任务拆分成一个针对普通标签的多标签分类任务和至少一个针对困难标签的二分类任务,从而在保证分类准确性的同时减低模型训练的难度。
2、本发明通过对平均损失函数的设计,在计算识别损失值进行识别反馈时,即可基于第一概率值剔除位于区间两端置信度较高的数据,更关注于识别错误对应的识别训练样本,从而在训练过程中防止过拟合现象的同时进一步提高识别效果。
3、本发明通过对标注标签平滑化的设计,能够降低标注标签中错误标签对模型的影响,提高鲁棒性。
4、本发明通过对多标签损失函数的设计,将各分类训练样本对应的正类别预测值和负类别预测值进行两两比较,且借助于log函数的良好性质,自动平衡每一项权重,从而有效解决不同分类类别下数据不均衡的现象。
5、本发明通过对数据增强的设计,在训练文本不足的情况下,在不改变第一文本样本语义的情况下,最大限度的改变其结构,以扩充训练文本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种多标签混合分类模型的构建方法的流程示意图;
图2是构建用于对财经快讯进行分类的多标签混合分类模型的的流程示意图;
图3是本发明一种多标签混合分类模型的构建系统的模块连接示意图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
实施例1-1、一种多标签混合分类模型的构建方法,如图1所示,包括以下步骤:
S100、构建包含困难标签和普通标签的标签库;
注,所述标签库中包含至少一个困难标签和至少两个普通标签,各困难标签、各普通标签所指示的类别不同。
S200、获取具有标注标签的训练文本;
所述训练文本可具有至少一个标注标签。
S300、提取所述标注标签包含困难标签的训练文本作为识别训练样本,利用所述识别训练样本训练与所述困难标签相对应的识别模型;
S400、提取所述标注标签包含普通标签的训练文本作为分类训练样本,利用所述分类训练样本训练多标签的分类模型。
由上述步骤获得的分类模型和各识别模型共同构成多标签混合分类模型,即,在实际使用时,由所述分类模型和各识别模型共同对待分类数据进行文本分类。
本实施例中通过困难标签和普通标签的设计,将分类任务拆分成一个针对普通标签的多标签分类任务和至少一个针对困难标签的二分类任务,从而在保证分类准确性的同时减低模型训练的难度,本实施例中识别模型的输入是待分类数据,输出是所述待分类数据属于对应困难标签的概率值,分类模型的输入是待分类数据,输出是所述待分类数据属于各普通标签的预测值,由所述分类模型和各识别模型共同对待分类数据进行文本分类,在满足多标签分类的需求的前提下,有效提高分类的准确性。
本领域技术人员可人工配置各类别标签为困难标签或普通标签,还可根据实际需要自行设置标签分类规则,能够将特征量失衡的类别标签作为困难标签即可,本实施例不对其做详细介绍。
进一步地,步骤S300中利用所述识别训练样本训练与所述困难标签相对应的识别模型的具体步骤为:
S310、基于所述困难标签的类别将所述识别训练样本分别输入至预设的初始识别模型进行标签识别,获得识别标签,所述识别标签用于指示所述识别训练样本属于相应困难标签的预测概率值;
本实施例中分别提取标注标签包含各困难标签的识别训练样本,获得若干识别训练集,所述识别训练集与所述困难标签一一对应;
所述初始识别模型的数量与困难标签的数量相同,将各识别训练集分别输入至各初始识别模型进行标签识别。
本实施例中初始识别模型包括特征提取模型和二分类器,其中特征提取模型采用现有已公开的bert模型,二分类器的激活函数采用sigmoid或softmax;
由于有现今已公开bert模型的12层输出对应不同的文本隐藏特征信息,且语义特征信息在高层网络,故本实施例中将所述bert模型最后4层所输出特征的平均值作为模型输出,所述二分类器的输入是最后4层所输出特征的平均值,输出是相应的识别标签。
识别标签为标签矩阵,用于指示属于相应困难标签的概率(预测概率值)及不属于所述困难标签的概率。
S320、基于预设的第一概率阈值,根据所述识别标签和所述识别训练样本的标注标签计算获得识别损失值;
所述第一概率阈值用于在计算识别损失值时,剔除置信度高的预测概率值。
由于各识别训练样本的预测概率值集中在区间两端,本实施例中集中在0~0.1和0.9~1之间,基于此范围内的预测概率值的置信度高,而识别错误对应的识别训练样本的预测概率值之中在区间中部,本实施例中集中在0.1到0.9之间;
本实施例通过对第一概率值的设计,在计算识别损失值进行识别反馈时,即可基于第一概率值剔除位于区间两端置信度较高的数据,更关注于识别错误对应的识别训练样本,从而在训练过程中防止过拟合现象的同时进一步提高识别效果。
注,基于预设的识别阈值和预测概率值确定识别结果,基于识别结果和对应识别训练样本判断是否识别正确,此为本领域常用技术,故不在此进行详细介绍。
S330、基于所述识别损失值更新所述初始识别模型的模型参数,直至训练结束,得到相应的识别模型。
判断训练结束的方式为:迭代至指定迭代次数或识别损失值收敛,此时将更新后的初始识别模型作为识别模型输出,否则将更新后的初始识别模型作为初始识别模型再次训练,此为模型训练的常规技术手段,故不再本实施例中进行详细介绍。
进一步地,步骤S320中基于预设的第一概率阈值,根据所述识别标签和所述识别训练样本的标注标签计算获得识别损失值的具体方式为,基于平均损失函数计算获得识别损失值,所述平均损失函数的公式为:
Loss1=-∑yλ(ytrue,ypred)ytrue′log ypred
其中,ytrue为第一真实概率值,ytrue′为第二真实概率值,ypred为预测概率值;
从所述识别训练样本的标注标签中提取所述第一真实概率值;
将所述识别训练样本的标注标签进行标签平滑,获得处理标签,从所述处理标签中提取第二真实概率值;
其中,m为预设的第一概率阈值,函数Θ(x)用于根据x进行赋值,且当x小于0时赋值为0。
本实施例中,函数Θ(x)的公式为:
所述第一概率阈值m为置信度阈值,当m小于|1-m|时,判定小于m或大于|1-m|预测概率值置信度高,从而在计算识别损失值时不采用该类预测概率值,即,提取基于数值在m及|1-m|的预测概率值对初始识别模型进行反馈更新;
本领域技术人员可根据实际需要自行设定m的取值,本实施例中m>0,且m<0.3。
进一步地,所述第二真实概率值的获取方法为:
将所述识别训练样本的标注标签进行标签平滑,获得处理标签,基于处理标签提取所述识别训练样本属于相应困难标签的概率值作为第二真实概率值;
标签平滑的具体计算公式为:
其中,表示第k个类别的处理标签,yk表示第k个类别的真实值(1或0),k表示标签的类别,α表示平滑参数,本领域技术人员可自行设置平滑参数a,本实施例中a的取值为0.2。
通过标签平滑之后的标签数据解决了原来只考虑识别训练样本中正确的标签位置(one-hot标签为1的位置)的损失,而忽略了错误的标签位置(one-hot标签为0的位置)的损失。
由于本实施例基于爬取获得的原始标签生成各训练文本的标注标签,其可能存在错误,故本实施例中通过将标注标签平滑化,提高识别模型对噪声数据的鲁棒性。
由于识别模型为二分类模型,故具有2个类别,分别为属于某困难标签和不属于某困难标签。
进一步地,步骤S400中利用所述分类训练样本训练多标签的分类模型的具体步骤为:
S410、将分类训练样本输入至预设的初始分类模型进行分类预测,获得分类标签,所述分类标签用于指示所述分类训练样本属于各普通标签的预测值;
本实施例中,将上述初始识别模型的二分类器替换成多分类器,获得初始分类模型,即,初始分类模型包括特征提取模型(bert模型)和多分类器,其中多分类器无激活函数;
本实施例中所述多分类器为全连接层,其输入是特征提取模型(bert模型)最后4层所输出特征的平均值,输出是相应的分类标签。
分类标签为标签矩阵,用于指示属于各普通标签的预测值,还可指示属于其他类的预测值,其他类指不属于任意一种普通标签的预测值。
上述预测值的值域为全体实数。
S420、基于预设的第二概率阈值,根据所述分类标签和所述分类训练样本的标注标签计算分类损失值;
所述第二概率阈值用于基于各普通标签的预测值判断其是否属于对应普通标签;
S430、基于分类损失值更新所述初始分类模型的模型参数,直至训练结束,得到相应的分类模型。
判断训练结束的方式为:迭代至指定迭代次数或分类损失值收敛,此时将更新后的初始分类模型作为分类模型输出,否则将更新后的初始分类模型作为初始分类模型再次训练,此为模型训练的常规技术手段,故不再本实施例中进行详细介绍。
进一步地,步骤S420中基于预设的第二概率阈值,根据所述分类标签和所述分类训练样本的标注标签计算分类损失值的具体步骤为:
S421、基于标注标签将所述分类训练样本所属的普通标签作为其正类别,反之作为负类别;
如普通标签包括标签A、标签B、标签C和标签D,某分类训练样本的标识标签包括标签A、标签B,针对所述分类训练样本,将标签A和标签B作为其正类别,将标签C和标签D作为负类别。
S422、将分类训练样本的类别属于所述正类别的预测值作为正类别预测值,反之,作为负类别预测值;
S423、基于所述正类别预测值、负类别预测值和预设的第二概率阈值的计算所述损失计算标签的分类损失值。
本领域技术人员可根据实际情况预设第二概率阈值,令负类别预测值<第二概率阈值<正类别预测值,第二概率阈值用于表示对应分类训练样本属于其他类的概率。
进一步地,S423中计算所述损失计算标签的分类损失值的方式为:
基于多标签损失函数计算各分类训练样本对应的样本损失值,将所得样本损失值的平均值作为分类损失值,所述多标签损失函数的公式为:
其中,Si表示所述分类训练样本的第i个负类别的负类别预测值,Sj表示所述分类训练样本的第j个正类别的正类别预测值,S0表示预设的第二概率阈值,Ωneg表示所述分类训练样本的负类别集合,Ωpos表示所述分类训练样本的正类别集合。
本实施例中,S0的取值为0,此时多标签损失函数的公式为:
本实施例通过对上述多标签损失函数的设计,将各分类训练样本对应的正类别预测值和负类别预测值进行两两比较,且借助于log函数的良好性质,自动平衡每一项权重,从而有效解决不同分类类别下数据不均衡的现象。
进一步地,上述训练分类模型和各识别模型的过程中,采用交叉验证的方式训练。
现今在机器学习模型的训练前,会将训练集按照预设的比例分为训练集和验证集,利用验证集的数据结果来判断当前模型参数是否存在欠拟合或过拟合的情况,此技术方案存在以下问题:
模型无法学习到验证集的数据特征;
当训练集和验证集分布不一致时,将会出现过拟合。
故本实施例采用交叉验证的方式进行训练,此时将随机选取训练集和验证集,获得相应的中间模型,并且不断的重新分配训练集和验证集,当每一折交叉验证结果的差值均小于预设的差值阈值,则说明模型较稳定,可基于交叉验证结果最优中间模型作为最终模型。
本领域技术人员可根据实际需要自行设置差值阈值和训练集和验证集的比例。
进一步地,步骤S200获取具有标注标签的训练文本的具体步骤为:
S210、收集并预处理新闻文本,获得具有标注标签的第一文本样本;
爬取获得新闻文本及其原始标签;
通过预设的正则表达式对所述新闻文本进行数据预处理,包括去除电头、电尾和特殊字符等,获得第一文本样本。
通过预设的标签清洗规则对所述原始标签进行清洗和过滤,获得所述第一文本样本的标注标签。
虽然可爬取获得新闻文本对应的原始标签,但其原始标签不够准确甚至分类错误,如直接使用将被这些噪音数据干扰,导致分类结果较差。
注,本领域技术人员可根据实际需要自行设置正则表达式和标签清洗规则,其中标签清洗规则不仅用于对原始标签进行过滤、转化,还用于基于新闻文本标注相应的标签,以采集快讯为例:信源是“科创板电报网”,且快讯正文在“【”或“财联社X月X日讯,”的内容后,以A股或H股公司简称或者股票简称开头,则给该条快讯增加一个["公司"]标签。
S220、对所述第一文本样本进行数据增强,获得具有标注标签的第二文本样本,其中数据增强的方式为文本回译、实体替换和/或随机替换,所述随机替换包括任意词随机删除、同义词随机替换、词位置随机交换和/或近义词随机插入;
在实际使用时,并行进行相应的数据增强操作,获得若干份第二文本样本。
第二文本样本与第一文本样本的标注标签相同。
S221、文本回译:将中文的第一文本样本翻译成目标语言文本,然后再将所述目标语言文本翻译回中文文本,获得第二文本样本;
S222、实体替换:利用现有已公开的命名实体识别算法识别提取第一文本样本中的公司、行业等实体,并所提取的实体替换成同类型的其它实体,获得第二文本样本;
S223、随机替换:
1)、任意词随机删除:随机删除一个词。
2)、同义词随机替换:随机选择一个词,用它的同义词替换。
3)、词位置随机交换:随机选择两个词,然后交换它们的位置。
4)、近义词随机插入:随机选择一个词,然后随机选择一个它的近义词,然后随机插入句子的任意位置。
本实施例通过对上述数据增强方式的设计,可以在所述第一文本样本语义不改变的情况下,最大限度的改变其结构。
S230、汇总所述第一文本样本和所述第二文本样本,获得具有标注标签的训练文本。
案例:
如图2所示,通过下述步骤构建应用于财经快讯新闻分类的多标签混合分类模型:S10、从各大垂直网站爬取财经快讯新闻及其对应的标签,按照上述步骤S210至S230进行数据预处理和数据增强,获得具有标注标签的训练文本,其中标注标签包括行业标签、公司标签、宏观标签和市场标签。
财经快讯是一类重要的财经新闻。目前,各大垂直网站(如财联社电报、新浪财经快讯等)只是对财经快讯进行实时播报,并未有一个完整的分类体系供读者筛选不同类别的财经快讯。
由于拥有行业标签的财经快讯和其它三个标签的财经快讯相比,拥有大量的特征,这些特征在于其它三个类别数据同等数量的情况下,模型难以准确地学习到属于行业标签的文本特征,所以更加难以区分,故本案例中将行业标签作为困难标签,将公司标签、宏观标签和市场标签作为普通标签。
S20、提取标识标签包含行业标签的训练文本作为识别训练样本,基于交叉验证的方式利用所述识别训练样本对预设的初始识别模型进行训练,获得识别模型,其中初始识别模型均由bert模型和二分类器构成
S21、从所述识别训练样本的标识标签中提取第一真实概率值,对所述标识标签进行标签平滑后提取第二真实概率值,从其识别标签中提取预测概率值,按照上述步骤S320公开的平均损失函数计算识别损失值。
S22、基于所述识别损失值更新所述初始识别模型的模型参数,直至训练结束,得到相应的识别模型。
S30、提取标识标签包含公司标签、宏观标签和/或市场标签的训练文本作为分类训练样本,基于交叉验证的方式利用所述识别训练样本对预设的初始分类模型进行训练,获得分类模型,其中初始分类模型由bert模型和多分类器构成;所述分类模型的输入为文本数据,输出为用于指示所述文本数据属于公司类别、宏观类别和或市场类别的分类标签。
S31、基于分类标签和标注标签,按照上述步骤S420公开的分类损失计算方法计算分类损失值,所采用的损失函数为步骤S423所公开的多标签损失函数。
公司、宏观、市场三个类别的特征较为平衡,但其对应的新闻文本的数量不均衡,且不均衡的现象比较严重,现有多标签损失函数往往是将多标签任务拆分成多个二分类问题,当数据不均衡时,无法训练初始分类模型达到稳定且分类结果较优的情况,而通过步骤S423所公开的多标签损失函数进行训练,则可消除数据不均衡的影响。
如某分类训练样本的标注标签仅包含公司标签,此时公司为正类别,宏观和市场作为负类别,此时提取公司对应的预测值作为正类别预测值,提取宏观和市场对应的预测值作为负类别预测值;
将所述正类别预测值与两个负类别预测值进行两两比较,计算获得所述分类训练样本的样本损失值。
S32、基于所述分类损失值更新所述初始识别模型的模型参数,直至训练结束,得到相应的分类模型。
S40、由步骤S22所得的识别模型和步骤S32获得的分类模型构成用于对财经快讯进行分类的多标签混合分类模型。
实施例1-2、多标签混合分类模型的构建系统,如图3所示,包括标签库构建模块100、训练文本获取模块200、识别模型构建模块300和分类模型构建模块400:
标签库构建模块100,用于构建包含困难标签和普通标签的标签库;
训练文本获取模块200,用于获取具有标注标签的训练文本;
识别模型构建模块300,用于提取所述标注标签包含困难标签的训练文本作为识别训练样本,利用所述识别训练样本训练与所述困难标签相对应的识别模型;
分类模型构建模块400,用于提取所述标注标签包含普通标签的训练文本作为分类训练样本,利用所述分类训练样本训练多标签的分类模型。
所述多标签混合分类模型包括一分类模型和至少一个识别模型,由所述分类模型和各识别模型共同对待分类数据进行文本分类。
实施例1-2是实施例1-1的装置实施例,由于其与实施例1-1基本相似,所以描述的比较简单,相关之处参见实施例1-1的部分说明即可。
实施例2-1、一种新闻分类方法,包括以下步骤:
获取待分类数据,将所述待分类数据分别输入各识别模型,获得相应的识别结果,并将所述待分类数据输入所述分类模型,获得分类结果,所述识别模型为实施例1-1中所构建的识别模型,所述分类模型为实施例1-1中所构建的分类模型;
将所述分类结果和各识别结果合并,获得待分类数据的分类标签。
以实施例1-1所构建的用于对财经快讯进行分类的多标签混合分类模型对财经快讯进行分类的方法如下:
获取财经快讯新闻,按照预设的正则表达式处理后,获得待识别数据;
将所述待识别数据分别输入预先构建的识别模型和分类模型中。
识别模型输出识别标签,分类模型输出分类标签;
基于识别标签获得所述财经快讯新闻属于行业的预测概率值,当所述预测概率值超过预设的识别阈值时,判定其属于行业,获得识别结果,本领域技术人员可根据实际需要自行设定识别阈值,本实施例中识别阈值为0。
基于识别标签获得所述财经快讯新闻属于公司、宏观和市场的预测值,当某类对应的预测值值超过预设的分类阈值时,判定其属于该类别,获得分类结果,本领域技术人员可根据实际需要自行设定分类阈值,本实施例不对其做具体限定;
将所述分类结果和各识别结果合并,获得待分类数据的分类标签。
实施例2-2、一种新闻分类系统,包括分类模块和合并模块;
所述分类模块,用于获取待分类数据,将所述待分类数据分别输入各识别模型,获得相应的识别结果,并将所述待分类数据输入所述分类模型,获得分类结果,所述识别模型为实施例1-1所构建的识别模型,所述分类模型为实施例1-1所构建的分类模型;
合并模块,用于将所述分类结果和各识别结果合并,获得待分类数据的分类标签。
实施例2-2是实施例2-1的装置实施例,由于其与实施例2-1基本相似,所以描述的比较简单,相关之处参见实施例2-1的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是:
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
此外,需要说明的是,本说明书中所描述的具体实施例,其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (10)

1.一种多标签混合分类模型的构建方法,其特征在于,所述多标签混合分类模型包括一分类模型和至少一个识别模型,由所述分类模型和各识别模型共同对待分类数据进行文本分类,构建方法包括以下步骤:
构建包含困难标签和普通标签的标签库,所述困难标签为特征量失衡的类别标签;
获取具有标注标签的训练文本;
提取所述标注标签包含困难标签的训练文本作为识别训练样本,利用所述识别训练样本训练与所述困难标签相对应的识别模型;
提取所述标注标签包含普通标签的训练文本作为分类训练样本,利用所述分类训练样本训练多标签的分类模型。
2.根据权利要求1所述的多标签混合分类模型的构建方法,其特征在于:
基于所述困难标签的类别将所述识别训练样本分别输入至预设的初始识别模型进行标签识别,获得识别标签,所述识别标签用于指示所述识别训练样本属于相应困难标签的预测概率值;
基于预设的第一概率阈值,根据所述识别标签和所述识别训练样本的标注标签计算获得识别损失值;
基于所述识别损失值更新所述初始识别模型的模型参数,直至训练结束,得到相应的识别模型。
3.根据权利要求2所述的多标签混合分类模型的构建方法,其特征在于,基于平均损失函数计算获得识别损失值,所述平均损失函数的公式为:
Loss1=-∑yλ(ytrue,ypred)ytrue′log ypred
其中,ytrue为第一真实概率值,ytrue′为第二真实概率值,ypred为预测概率值;
从所述识别训练样本的标注标签中提取所述第一真实概率值;
将所述识别训练样本的标注标签进行标签平滑,获得处理标签,从所述处理标签中提取第二真实概率值;
所述λ(ytrue,ypred)=1-θ(ytrue-m)θ(ypred-m)-θ(1-m-ytrue)θ(1-m-ypred);
其中,m为预设的第一概率阈值,函数Θ(x)用于根据x进行赋值,且当x小于0时赋值为0。
4.根据权利要求1至3任一所述的多标签混合分类模型的构建方法,其特征在于:
将分类训练样本输入至预设的初始分类模型进行分类预测,获得分类标签,所述分类标签用于指示所述分类训练样本属于各普通标签的预测值;
基于预设的第二概率阈值,根据所述分类标签和所述分类训练样本的标注标签计算分类损失值;
基于分类损失值更新所述初始分类模型的模型参数,直至训练结束,得到相应的分类模型。
5.根据权利要求4所述的多标签混合分类模型的构建方法,其特征在于:
基于标注标签将所述分类训练样本所属的普通标签作为其正类别,反之作为负类别;
将分类训练样本的类别属于所述正类别的预测值作为正类别预测值,反之,作为负类别预测值;
基于所述正类别预测值、负类别预测值和预设的第二概率阈值的计算损失计算标签的分类损失值。
6.根据权利要求5所述的多标签混合分类模型的构建方法,其特征在于:
基于多标签损失函数计算各分类训练样本对应的样本损失值,将所得样本损失值的平均值作为分类损失值,所述多标签损失函数的公式为:
其中,Si表示所述分类训练样本的第i个负类别的负类别预测值,Sj表示所述分类训练样本的第j个正类别的正类别预测值,S0表示预设的第二概率阈值。
7.根据权利要求6所述的多标签混合分类模型的构建方法,其特征在于:
收集并预处理新闻文本,获得具有标注标签的第一文本样本;
对所述第一文本样本进行数据增强,获得具有标注标签的第二文本样本,其中数据增强的方式为文本回译、实体替换、任意词随机删除、同义词随机替换、词位置随机交换和/或近义词随机插入;
汇总所述第一文本样本和所述第二文本样本,获得具有标注标签的训练文本。
8.一种新闻分类方法,其特征在于包括以下步骤:
获取待分类数据,将所述待分类数据分别输入各识别模型,获得相应的识别结果,并将所述待分类数据输入所述分类模型,获得分类结果,所述识别模型为权利要求1至7任意一项识别模型,所述分类模型为权利要求1至7任意一项分类模型;
将所述分类结果和各识别结果合并,获得待分类数据的分类标签。
9.一种多标签混合分类模型的构建系统,其特征在于,所述多标签混合分类模型包括一分类模型和至少一个识别模型,由所述分类模型和各识别模型共同对待分类数据进行文本分类,构建系统包括:
标签库构建模块,用于构建包含困难标签和普通标签的标签库,所述困难标签为特征量失衡的类别标签;
训练文本获取模块,用于获取具有标注标签的训练文本;
识别模型构建模块,用于提取所述标注标签包含困难标签的训练文本作为识别训练样本,利用所述识别训练样本训练与所述困难标签相对应的识别模型;
分类模型构建模块,用于提取所述标注标签包含普通标签的训练文本作为分类训练样本,利用所述分类训练样本训练多标签的分类模型。
10.一种新闻分类系统,其特征在于,包括:
分类模块,用于获取待分类数据,将所述待分类数据分别输入各识别模型,获得相应的识别结果,并将所述待分类数据输入所述分类模型,获得分类结果,所述识别模型为权利要求1至7任意一项识别模型,所述分类模型为权利要求1至7任意一项分类模型;
合并模块,用于将所述分类结果和各识别结果合并,获得待分类数据的分类标签。
CN202010895978.4A 2020-08-31 2020-08-31 多标签混合分类模型的构建方法、新闻分类方法及系统 Active CN112070138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010895978.4A CN112070138B (zh) 2020-08-31 2020-08-31 多标签混合分类模型的构建方法、新闻分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010895978.4A CN112070138B (zh) 2020-08-31 2020-08-31 多标签混合分类模型的构建方法、新闻分类方法及系统

Publications (2)

Publication Number Publication Date
CN112070138A CN112070138A (zh) 2020-12-11
CN112070138B true CN112070138B (zh) 2023-09-05

Family

ID=73665047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010895978.4A Active CN112070138B (zh) 2020-08-31 2020-08-31 多标签混合分类模型的构建方法、新闻分类方法及系统

Country Status (1)

Country Link
CN (1) CN112070138B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528447B (zh) * 2020-12-18 2024-04-12 中国南方电网有限责任公司 电网模型分类标识方法、系统、电子设备及存储介质
CN112732871B (zh) * 2021-01-12 2023-04-28 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN112785377B (zh) * 2021-01-22 2022-05-24 华南理工大学 基于数据分布的订单完工期预测模型构建方法及预测方法
CN112561000B (zh) * 2021-02-22 2021-05-28 腾讯科技(深圳)有限公司 基于组合模型的分类方法、装置、设备及存储介质
CN112948582B (zh) * 2021-02-25 2024-01-19 平安科技(深圳)有限公司 一种数据处理方法、装置、设备以及可读介质
CN113139051B (zh) * 2021-03-29 2023-02-10 广东外语外贸大学 文本分类模型训练方法、文本分类方法、设备和介质
CN113255365A (zh) * 2021-05-28 2021-08-13 湖北师范大学 文本数据增强方法、装置、设备及计算机可读存储介质
CN113569067A (zh) * 2021-07-27 2021-10-29 深圳Tcl新技术有限公司 标签分类方法、装置、电子设备及计算机可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294466A (zh) * 2015-06-02 2017-01-04 富士通株式会社 分类模型构建方法、分类模型构建设备和分类方法
CN107169061A (zh) * 2017-05-02 2017-09-15 广东工业大学 一种融合双信息源的文本多标签分类方法
CN109886143A (zh) * 2019-01-29 2019-06-14 上海鹰瞳医疗科技有限公司 多标签分类模型训练方法和设备
CN110442722A (zh) * 2019-08-13 2019-11-12 北京金山数字娱乐科技有限公司 分类模型训练的方法及装置、数据分类的方法及装置
CN110490221A (zh) * 2019-07-05 2019-11-22 平安科技(深圳)有限公司 多标签分类方法、电子装置及计算机可读存储介质
CN110688482A (zh) * 2019-09-12 2020-01-14 新华三大数据技术有限公司 多标签识别方法、训练方法及装置
CN110781919A (zh) * 2019-09-23 2020-02-11 腾讯云计算(北京)有限责任公司 分类模型训练方法、分类方法、装置及设备
CN110795564A (zh) * 2019-11-01 2020-02-14 南京稷图数据科技有限公司 一种缺少负例的文本分类方法
CN111310848A (zh) * 2020-02-28 2020-06-19 支付宝(杭州)信息技术有限公司 多任务模型的训练方法及装置
CN111506732A (zh) * 2020-04-20 2020-08-07 北京中科凡语科技有限公司 一种文本多层次标签分类方法
CN111522958A (zh) * 2020-05-28 2020-08-11 泰康保险集团股份有限公司 文本分类方法和装置
CN111552807A (zh) * 2020-04-17 2020-08-18 银江股份有限公司 一种短文本多标签分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10896385B2 (en) * 2017-07-27 2021-01-19 Logmein, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294466A (zh) * 2015-06-02 2017-01-04 富士通株式会社 分类模型构建方法、分类模型构建设备和分类方法
CN107169061A (zh) * 2017-05-02 2017-09-15 广东工业大学 一种融合双信息源的文本多标签分类方法
CN109886143A (zh) * 2019-01-29 2019-06-14 上海鹰瞳医疗科技有限公司 多标签分类模型训练方法和设备
CN110490221A (zh) * 2019-07-05 2019-11-22 平安科技(深圳)有限公司 多标签分类方法、电子装置及计算机可读存储介质
CN110442722A (zh) * 2019-08-13 2019-11-12 北京金山数字娱乐科技有限公司 分类模型训练的方法及装置、数据分类的方法及装置
CN110688482A (zh) * 2019-09-12 2020-01-14 新华三大数据技术有限公司 多标签识别方法、训练方法及装置
CN110781919A (zh) * 2019-09-23 2020-02-11 腾讯云计算(北京)有限责任公司 分类模型训练方法、分类方法、装置及设备
CN110795564A (zh) * 2019-11-01 2020-02-14 南京稷图数据科技有限公司 一种缺少负例的文本分类方法
CN111310848A (zh) * 2020-02-28 2020-06-19 支付宝(杭州)信息技术有限公司 多任务模型的训练方法及装置
CN111552807A (zh) * 2020-04-17 2020-08-18 银江股份有限公司 一种短文本多标签分类方法
CN111506732A (zh) * 2020-04-20 2020-08-07 北京中科凡语科技有限公司 一种文本多层次标签分类方法
CN111522958A (zh) * 2020-05-28 2020-08-11 泰康保险集团股份有限公司 文本分类方法和装置

Also Published As

Publication number Publication date
CN112070138A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN116629275B (zh) 一种基于大数据的智能决策支持系统及方法
US11003950B2 (en) System and method to identify entity of data
US11669687B1 (en) Systems and methods for natural language processing (NLP) model robustness determination
CN111309910A (zh) 文本信息挖掘方法及装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN113138920B (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
CN113312899B (zh) 文本分类方法、装置和电子设备
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN114861636A (zh) 文本纠错模型的训练方法及装置、文本纠错方法及装置
CN113705207A (zh) 语法错误识别方法及装置
CN107783958B (zh) 一种目标语句识别方法及装置
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN110765872A (zh) 一种基于视觉特征的在线数学教育资源分类方法
CN116226747A (zh) 数据分类模型的训练方法、数据分类方法和电子设备
CN112860900B (zh) 文本分类方法、装置、电子设备及存储介质
KR102406961B1 (ko) 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법
CN115374259A (zh) 一种问答数据挖掘方法、装置及电子设备
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN115186096A (zh) 针对特定类型分词的识别方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221206

Address after: Room 430, cultural center, 460 Wenyi West Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Applicant after: XINHUA ZHIYUN TECHNOLOGY Co.,Ltd.

Applicant after: Xinhua fusion media technology development (Beijing) Co.,Ltd.

Address before: Room 430, cultural center, 460 Wenyi West Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Applicant before: XINHUA ZHIYUN TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant