CN114328936B - 建立分类模型的方法和装置 - Google Patents

建立分类模型的方法和装置 Download PDF

Info

Publication number
CN114328936B
CN114328936B CN202210191386.3A CN202210191386A CN114328936B CN 114328936 B CN114328936 B CN 114328936B CN 202210191386 A CN202210191386 A CN 202210191386A CN 114328936 B CN114328936 B CN 114328936B
Authority
CN
China
Prior art keywords
training
sample
classified
classification
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210191386.3A
Other languages
English (en)
Other versions
CN114328936A (zh
Inventor
林昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210191386.3A priority Critical patent/CN114328936B/zh
Publication of CN114328936A publication Critical patent/CN114328936A/zh
Application granted granted Critical
Publication of CN114328936B publication Critical patent/CN114328936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种建立分类模型的方法及装置。其中方法包括:首先获取待分类数据样本,并获取所述待分类数据样本对应的分类标签样本;然后将待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集和回测集,所述训练集和所述回测集均包含多个训练样本;利用所述训练集训练分类模型;从所述回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本;再获取对选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本,将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构成新的训练样本加入所述训练集,转至利用所述训练集训练分类模型的步骤,直至达到预设的结束条件。

Description

建立分类模型的方法和装置
技术领域
本说明书一个或多个实施例涉及人工智能技术领域,尤其涉及一种建立分类模型的方法及装置。
背景技术
随着互联网技术的不断发展,我们已经步入了人工智能时代。分类模型作为机器学习中一种重要的模型被广泛地应用于各种场景。众所周知地,分类模型的效果很大程度取决于高质量训练数据的获取。但在一些特殊场景下,获取建立分类模型的训练数据成为难点。例如,基于文本数据进行事件信息的抽取时,需要采用分类模型将文本数据映射至对应的事件类别上。但这类训练数据的获取是很难的,通常的做法是通过人工标注的方式,但为了保证模型效果,采用人工逐一对大量文本数据进行标注显然需要高昂的人力和时间成本。
发明内容
本说明书一个或多个实施例描述了一种建立分类模型的方法及装置,在保证模型效果的基础上降低人力和时间成本。
本申请提供了如下方案:
根据第一方面,提供了一种建立分类模型的方法,包括:
获取待分类数据样本,并获取所述待分类数据样本对应的分类标签样本;
将待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集和回测集,所述训练集和所述回测集均包含多个训练样本;
利用所述训练集训练分类模型;
从所述回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本;
获取对所选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本,将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构成新的训练样本加入所述训练集,转至利用所述训练集训练分类模型的步骤,直至达到预设的结束条件。
根据本申请实施例中一可实现的方式,所述获取所述待分类数据样本对应的分类标签样本包括:
将所述待分类数据样本与预设的词典或语义表达模板进行匹配;
依据匹配结果确定所述待分类数据样本对应的分类标签;
基于确定的分类标签得到所述待分类数据样本对应的分类标签样本。
根据本申请实施例中一可实现的方式,从所述回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本包括:
利用训练得到的分类模型对所述回测集中的待分类数据样本进行分类,得到对待分类数据样本的分类结果;
针对所述回测集中的待分类数据样本,基于分类结果与分类标签样本的差异,确定该待分类数据样本所在的训练样本对所述分类模型的效果增益,从所述回测集中选择效果增益满足预设要求的训练样本。
根据本申请实施例中一可实现的方式,所述针对所述回测集中的待分类数据样本,基于分类结果与分类标签样本的差异,确定该待分类数据样本所在的训练样本对所述分类模型的效果增益,从所述回测集中选择效果增益满足预设要求的训练样本包括:
确定所述回测集中待分类数据样本的分类标签样本在分类结果中的置信度;
从所述回测集中选择置信度小于或等于预设第一阈值的待分类数据样本所在的训练样本,或者,从所述回测集中选择置信度最低的N个待分类数据样本所在的训练样本,所述N为预设的正整数。
根据本申请实施例中一可实现的方式,所述预设的结束条件包括以下至少一种:
所述分类模型的准确率达到预设准确率阈值;
循环执行训练分类模型的次数超过预设的循环次数阈值;
所述分类模型的分类效果收敛。
根据本申请实施例中一可实现的方式,所述待分类数据样本包括事件相关文本,所述分类模型包括事件抽取模型,所述分类标签包括事件标签;
所述事件抽取模型用以从待分类数据中抽取事件信息。
根据本申请实施例中一可实现的方式,该方法还包括:
确定所述回测集中待分类数据样本的分类标签样本在分类结果中的置信度;
将置信度大于或等于预设第二阈值的分类标签样本加入数据库,用以构建基于事件的知识图谱。
根据第二方面,提供了一种建立分类模型的装置,包括:
数据获取单元,被配置为获取待分类数据样本,并获取所述待分类数据样本对应的分类标签样本;
样本构建单元,被配置为将待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集和回测集,所述训练集和所述回测集均包含多个训练样本;
模型训练单元,被配置为利用所述训练集训练分类模型;
结束判断单元,被配置为所述模型训练单元训练得到分类模型后,判断是否达到预设的结束条件;
样本选择单元,被配置为在所述结束判断单元确定未达到预设的结束条件时,从所述回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本;
样本更新单元,被配置为获取对选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本,将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构成新的训练样本加入所述训练集,触发所述模型训练单元利用所述训练集训练分类模型。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
根据第四方面,提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面中任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请所提供的技术方案可以具有以下优点:
1)本申请首先将得到的训练样本用于最初分类模型的训练,然后基于主动学习的机制利用分类模型选择对模型分类效果增益较大的数据进行人工标注,从而形成新的训练样本继续进行分类模型的训练。这种方式能够大大降低需要人工标注的样本数量,在保证模型效果的基础上大大降低了时间和人力成本。
2)“分类模型的训练-分类-人工标注-导入训练集”形成一个闭环循环执行,不断增强模型效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的示例性系统架构;
图2是本申请实施例提供的建立分类模型的方法流程图;
图3示出根据一个实施例的建立分类模型的装置的示意性框图;
图4示例性的展示出了电子设备的架构。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1示出了可以应用本申请实施例的示例性系统架构。如图1中所示,该系统主要包括:数据爬取装置、模型训练装置、事件抽取装置和图谱构建装置。
其中数据爬取装置用于从互联网的海量数据中爬取与具体应用场景相关的数据,在本申请实施例中作为待分类数据。当应用于事件抽取时,数据爬取装置爬取与事件相关的文本,例如新闻、资讯、机构公告等。
模型训练装置用于利用数据爬取装置爬取的待分类数据构建训练数据后,训练分类模型。分类模型的具体类型与具体的应用场景相关,例如应用于事件抽取时,该分类模型用以抽取事件信息。其中事件信息可以包括诸如事件类型信息,事件元素信息,事件关系信息等。其中事件元素信息可以理解为实体描述,主要包括实体、实体属性和属性值。实体可以包括时间、日期、地理位置、人名等等,实体属性可以包括事件发生时间、事件发生地点、涉及人物等等。对于事件抽取来讲其本质上是文本分类,例如将事件相关文本映射到具体的事件类型上、实体上、事件关系上等等。
事件抽取装置用于利用模型训练装置建立的分类模型对事件相关文本进行实时的事件抽取,并提供给图谱构建装置。
图谱构建装置利用事件抽取装置抽取的事件信息构建基于事件的知识图谱。
需要说明的是,上述各装置通常实现于服务器端,可以分别设置于独立的服务器,也可以其中部分或全部装置的组合设置于同一服务器。该服务器可以是单个的服务器,也可以是由多个服务器组成的服务器集群,服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPs,Ⅵ irtual Private Server)服务中存在的管理难度大,服务扩展性弱的缺陷。上述各装置还可以实现于具有较强计算能力的计算机终端。
图2为本申请实施例提供的建立分类模型的方法流程图,该方法可以由图1所示系统架构中的模型训练装置执行。如图2中所示,该方法可以包括以下步骤:
步骤201:获取待分类数据样本。
步骤202:获取待分类数据样本对应的分类标签样本。
步骤203:将待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集和回测集,训练集和回测集均包含多个训练样本。
步骤204:利用训练集训练分类模型。
步骤205:从回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本。
步骤206:获取对所选择训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本,将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构建新的训练样本加入训练集,转至执行步骤204。
上述步骤204~206循环执行,直至达到预设的结束条件。
可以看出,本申请将得到训练样本用于最初分类模型的训练,然后基于主动学习的机制利用分类模型选择对模型分类效果增益较大的数据进行人工标注,从而形成新的训练样本继续进行分类模型的训练。这种方式能够大大降低需要人工标注的样本数量,在保证模型效果的基础上大大降低了时间和人力成本。
本申请中涉及的分类模型可以应用于多种应用场景,例如:
当应用于邮件过滤系统时,上述待分类数据样本可以是邮件文本,分类标签可以是邮件类型或者是否有风险的标签。训练得到的分类模型是邮件识别模型,用以识别邮件类型或邮件是否有风险等。
当应用于图像识别时,上述待分类数据样本可以是图像数据,分类标签可以是图像类型标签。训练得到的分类模型是图像识别模型,用以识别图像类型。
当应用于文本分类时,上述待分类数据样本可以是文本数据,分类标签可以是文本类型标签。训练得到的分类模型是文本分类模型,用以识别文本类型。
近年来基于深度学习的文本推理技术被广泛关注,文本推理的很多任务都依赖于对事理逻辑知识的深刻理解。事件是人类社会的核心特征之一,人们的社会活动往往是事件驱动的。事件之间在时间维度上相继发生的演化规律和模式是一种十分有价值的知识,挖掘这种事理逻辑知识对认识人类行为和社会发展变化规律非常有意义。例如,在金融领域,股市一般伴随着短期内随机事件的小波动,以及长期内重大事件驱动的大波动。基于此背景,出现了事件抽取需求,即从事件相关文本中抽取出事件信息。事件信息的抽取本质上也是分类的一种,即采用分类模型将文本数据映射至对应的事件类别、实体类别、事件关系上等等。在后续实施例中均以事件抽取为例进行描述。
下面对上述流程中的各步骤进行详细描述。首先结合实施例对上述步骤201即“获取待分类数据样本”。
本步骤中获取的待分类数据样本通常是从互联网大数据中获取的,具体的数据与应用场景相关。以上述的事件抽取应用场景为例,最方便的事件信息来源是互联网中的大量与事件相关的文本,例如政府公告、新闻报道、自媒体文章等等。因此,可以通过如图1所示系统中的数据爬取装置来爬取这些数据,然后提供给模型训练装置。这些数据的获取是较为容易的,但对于这类数据进行的分类标签标注却是难题。本步骤中,将获取的这些数据作为待分类数据样本,继续执行后续步骤。
其中待分类数据样本可以是均不具备分类标签的数据,也可以部分包含分类标签。
下面结合实施例对上述步骤202即“获取待分类数据样本对应的分类标签样本”进行详细描述。
本步骤可以是采用简单的规则实现对待分类数据样本进行初步的标签标注。其中预设的规则可以是预设的词典,也可以是预设的语义表达模板,还可以是其他规则。即可以将待分类数据样本与预设的词典或语义表达模板进行匹配;依据匹配结果确定待分类数据样本对应的分类标签;基于确定的分类标签得到该待分类数据样本对应的分类标签样本。
作为一种可实现的方式,可以预先设置各类型事件所对应的词典,例如对于地质灾害事件设置其词典中包含诸如泥石流、滑坡、地质破坏、崩塌、地裂缝、地面塌陷、岩土膨胀、水土流失、地震、火山等等关键词。对于金融事件可以设置其词典中包含诸如股市、基金、崩盘、爆仓、通胀、破产、减员等等关键词。若待分类数据样本即事件相关文本对某类型事件词典的命中状况符合预设要求,则可以将该待分类数据样本打上该类型事件的标签,该标签就作为该待分类数据样本的分类标签样本。其中,命中状况符合预设要求可以是诸如命中词典中关键词数量大于或等于预设数量阈值。还可以预先对词典中的关键词设置分值,命中状况符合预设要求可以是命中词典中关键词的总分值大于或等于预设分值阈值。还可以是其他要求,在此不做一一列举。
作为另一种可实现的方式,可以预先设置各事件要素所对应的语义表达模板。例如,预先设置发生时间所对应的语义表达模板包括“发生于【时间格式】”、“在【时间格式】发生”、“在【时间格式】出现【事件关键词】”等等。预先设置发生地点所对应的语义表达模板包括“发生在【地点关键词】”、“在【地点关键词】发生了【事件关键词】”等等。再例如,可以预先设置各事件关系对应的语义表达模板。例如,预先设置因果关系对应的语义表达模板包括“【事件关键词】导致【事件关键词】”、“在【事件关键词】的影响下发生了【事件关键词】”等等。预先设置并发关系对应的语义表达模板包括“【事件关键词】的同时发生了【事件关键词】”、“【事件关键词】和【事件关键词】同时发生”等等。
可以由具有一定经验的人员人为设置一些关键词构成词典或者设置一些语义表达模板,然后可以采用一定的相似词、同义词、相似表达等对人为设置的词典或表达模板进行扩充完善。
本步骤可以采用规则引擎来实现。规则引擎由推理引擎发展而来,是一种嵌入在应用程序中的组件,实现了将决策(即规则)从应用程序代码中分离出来,并使用预定义的语义模块来编写决策。规则引擎能够接收数据输入、解释规则,并根据规则实现决策逻辑。
下面结合实施例对上述步骤203即“将待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集和回测集,训练集和回测集均包含多个训练样本”进行详细描述。
通过上面的步骤已经得到了大量的待分类数据样本及其对应的分类标签样本,根据后续步骤中的不同需求,可以取其中一部分作为训练集,取其中一部分作为回测集。其中,训练集用以进行分类模型的训练,回测集用作训练得到的分类模型的分类数据,并从这部分数据中进一步挑选出部分进行人工标注后加入训练集。
作为其中一种可实现的方式,在划分训练集和回测集时,可以将大多数的训练样本作为回测集,将少数的训练样本作为训练集。在后续实现过程中,会从回测集中选择出训练样本进行人工标注后加入训练集再进行分类模型的训练。
除了训练集和回测集之外,还可以取其中一部分作为测试集,测试集用以对训练得到的分类模型进行测试,来确定模型效果,例如模型的准确率。测试集可作为可选内容。
下面结合实施例对上述步骤204即“利用训练集训练分类模型”进行详细描述。
本申请实施例中涉及的分类模型可以采用监督学习的机制。分类模型可以采用但不限于逻辑回归模型、决策树模型、K临近模型、SVM(支持向量机)模型、神经网络模型、GBDT(梯度提升树)模型,等等。
本申请实施例对于具体的分类模型的类型、结构等不加以特别限制,理论上任意的分类模型均能够适用。例如,若分类模型为事件抽取模型,则输入为事件相关文本,输出为从事件相关文本中抽取的事件信息。其中事件信息可以包括诸如事件类型信息,事件元素信息,事件关系信息等。其中事件元素信息可以理解为实体描述,主要包括实体、实体属性和属性值。实体可以包括时间、日期、地理位置、人名等等,实体属性可以包括事件发生时间、事件发生地点、涉及人物等等。
这种情况下采用的分类模型通常是序列类的分类模型,即通过分析事件相关文本中各Token(词语或字符)的特征,来判别事件相关文本中的Token是否映射到事件类别,是否映射到具体的实体类别,是否映射到具体的事件关系等等。其中上述Token的特征可以是诸如词法特征、位置特征、上下文特征、句法特征、段落特征等等。
分类模型的训练目标为最小化输出的标签与对应分类标签样本之间的差异。在分类模型的训练过程中可以依据上述训练目标构造损失函数,在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新模型参数,直至满足预设的训练停止条件。其中训练停止条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等,关于如何进行监督训练在此不做详述。需要注意的是,这里的训练停止条件指的是本步骤中对于分类模型的训练是否停止的条件。
下面结合实施例对上述步骤205即“从回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本”进行详细描述。
为了保证分类模型的模型效果需要一批高质量的标注数据,那么对目前训练样本中的哪些进行人工标注,需要一方面保证模型效果,另一方面尽可能小的控制标注量。本步骤中采用的是Active Learning(主动学习)的思路,使用当前训练得到的分类模型对回测集中的待分类数据样本进行分类,也就是说,将当前训练得到的分类模型部署为服务模型供回测集访问。分类模型对回测集中的待分类数据样本均输出对应的分类结果,可以依据分类结果与该待分类数据样本的分类标签样本的差异来确定训练样本对分类模型的效果增益,从回测集中选择效果增益满足预设要求的训练样本。
也就是说,对于回测集中的各训练样本来说,通过分类结果与分类标签样本的差异来体现训练样本对分类模型的效果增益。由于分类结果实际上包括各分类标签的置信度,置信度低的说明分类结果对该分类标签的预测准确率低,若对于这些置信度低的训练样本进行准确标注后作为训练集中的训练样本进行训练,则会显著提高分类模型的分类效果。因此,作为一种可实现的方式,确定回测集中待分类数据样本的分类标签样本在分类结果中的置信度;从回测集中选择置信度小于或等于预设第一阈值的待分类数据样本,或者,从回测集中选择置信度最低的N个待分类数据样本,N为预设的正整数。
举一个例子,假设回测集中包括一系列训练样本:训练样本1、训练样本2、训练样本3……。其中训练样本1中包含待分类数据样本1和分类标签样本1。
采用当前已经训练得到的分类模型对该训练样本1中的待分类数据样本1进行分类,即将待分类数据样本1输入分类模型,由分类模型输出分类结果,分类结果中包含映射至各类型标签的置信度。假设分类结果中映射至分类标签样本1的置信度为15%,则可以确定该分类模型对该训练样本1的分类效果较差,训练样本1的高质量标注将会给分类模型带来较大的效果增益。那么在后续步骤206中就可以将待分类数据样本1提供给标注用户进行人工标注。
下面结合实施例对上述步骤206即“获取对所选择训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本,将所选择待分类数据样本及其人工标注的分类标签样本构建新的训练样本加入训练集”进行详细描述。
对于步骤205选择出的训练样本,可以提供给标注人员,例如向标注人员的客户端或浏览器发送标注请求,在标注请求中携带所选择出训练样本中的待分类数据样本。由标注人员通过客户端或浏览器对这部分训练样本中的待分类数据样本进行人工标注。进行人工标注后的这部分训练样本就相当于高质量的训练样本,能够对分类模型产生较好的效果增益。因此,在获取到对所选择训练样本中的待分类数据样本进行人工标注的分类标签样本后,将其作为新的训练样本加入训练集。然后再进行分类模型的训练。
可以看出上述步骤204~206是循环执行的,形成了一个闭环,循环结束的条件是达到预设的结束条件。作为一种可实现的方式,在执行步骤204之后,可以判断是否满足预设的结束条件,如果是,则结束整个建立分类模型的流程。否则,继续执行步骤205。
上述预设的结束条件可以是分类模型的准确率达到预设准确率阈值。例如,分类模型对测试集进行测试时,准确率达到90%则可以认为分类模型的效果已经比较好了,可以结束建立分类模型的流程。
上述预设的结束条件也可以是循环执行训练分类模型的次数超过预设的循环次数阈值,这里的循环次数指的是循环执行上述步骤204~206的次数,而并非步骤204中训练分类模型的迭代系数。
上述预设的结束条件还可以是分类模型的分类效果收敛。例如,分类模型对测试集进行测试时,准确率达到80%时不再提升,则可以结束建立分类模型的流程。
作为一种可实现的方式,在每一次循环中,执行步骤204时,利用更新后的训练集训练分类模型时,可以利用训练集对分类模型进行重新训练。
但作为一种优选的实施方式,在每一次循环中,执行步骤204时,可以利用新加入训练集的训练样本,在之前已经训练得到的分类模型的基础上进行进一步的训练。也就是说,在之前已经训练得到的分类模型的模型参数基础上,进一步进行优化调整。
另外,在上述过程中,分类模型对于回测集中待分类数据样本的分类结果中,对于置信度比较高的,例如置信度大于或等于预设第二阈值的待分类数据样本,可以认为对该待分类数据样本的分类比较准确,可以对其进行利用。例如将该其分类结果标签样本送入数据库。以事件抽取为例,对于置信度高的事件标签样本,可以送入数据库用以构建基于事件的知识图谱,通常称为事理图谱。随着模型准确率的越来越高,送入数据库的比例也会随之增加。
上述第二阈值大于或等于第一阈值。第二阈值和第一阈值可以采用经验值或实验值。例如第二阈值取0.8,第一阈值取0.2。
可以看出,基于规则的待分类数据样本获取解决了最初模型训练样本的获取问题,而基于主动学习的方式从回测集中选择效果增益大的训练样本进行人工标注并加入训练集中进一步训练分类模型,解决了高质量样本的来源问题并且尽可能降低了标注量,从而在保证分类模型效果的基础上降低了时间和人力成本。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种建立分类模型的装置。图3示出根据一个实施例的建立分类模型的装置的示意性框图,该装置对应于图1所示架构中的模型训练装置。如图3所示,该装置300可以包括:数据获取单元301、样本构建单元302、模型训练单元303、结束判断单元304、样本选择单元305和样本更新单元306,还可以进一步包括图谱构建单元307。其中各组成单元的主要功能如下:
数据获取单元301,被配置为获取待分类数据样本,并获取待分类数据样本对应的分类标签样本。
样本构建单元302,被配置为将待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集和回测集,训练集和回测集均包含多个训练样本。
模型训练单元303,被配置为利用训练集训练分类模型。
结束判断单元304,被配置为模型训练单元训练得到分类模型后,判断是否达到预设的结束条件。
样本选择单元305,被配置为在结束判断单元304确定未达到预设的结束条件时,从回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本。
样本更新单元306,被配置为获取对所选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本,将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构建新的训练样本加入训练集,触发模型训练单元利用训练集训练分类模型。
作为一种可实现的方式,上述数据获取单元301可以具体被配置为:将待分类数据样本与预设的词典或语义表达模板进行匹配;依据匹配结果确定待分类数据样本对应的分类标签;基于确定的分类标签得到待分类数据样本对应的分类标签样本。
作为一种可实现的方式,样本选择单元305,可以具体被配置为利用训练得到的分类模型对回测集中的待分类数据样本进行分类,得到对待分类数据样本的分类结果;针对回测集中的待分类数据样本,基于分类结果与分类标签样本的差异,确定该待分类数据样本所在的训练样本对分类模型的效果增益,从回测集中选择效果增益满足预设要求的训练样本。
其中,样本选择单元305在基于分类结果与分类标签样本的差异确定对应训练样本对分类模型的效果增益,从回测集中选择效果增益满足预设要求的训练样本时,可以具体执行:确定回测集中待分类数据样本的分类标签样本在分类结果中的置信度;从回测集中选择置信度小于或等于预设第一阈值的待分类数据样本所在的训练样本,或者,从回测集中选择置信度最低的N个待分类数据样本所在的训练样本,N为预设的正整数。
其中,上述预设的结束条件包括以下至少一种:
分类模型的准确率达到预设准确率阈值;
循环执行训练分类模型的次数超过预设的循环次数阈值;
分类模型的分类效果收敛。
作为其中一种典型的应用场景,上述分类模型可以包括事件抽取模型,用以从待分类数据中抽取事件信息,例如抽取事件类型,以及诸如发生时间、发生地点、涉及人物等事件要素信息,以及抽取事件关系信息等。这种场景下,上述的待分类数据样本包括事件相关文本;分类标签包括事件标签。
更进一步地,图谱构建单元307可以具体被配置为:确定回测集中待分类数据样本的分类标签样本在分类结果中的置信度;将置信度大于或等于预设第二阈值的分类标签样本加入数据库,用以构建基于事件的知识图谱。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
其中,图4示例性的展示出了电子设备的架构,具体可以包括处理器410,视频显示适配器411,磁盘驱动器412,输入/输出接口413,网络接口414,以及存储器420。上述处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,与存储器420之间可以通过通信总线430进行通信连接。
其中,处理器410可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器420可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器420可以存储用于控制电子设备400运行的操作系统421,用于控制电子设备400的低级别操作的基本输入输出系统(BIOS) 422。另外,还可以存储网页浏览器423,数据存储管理系统424,以及建立分类模型的装置425等等。上述建立分类模型的装置425就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器420中,并由处理器410来调用执行。
输入/输出接口413用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口414用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线430包括一通路,在设备的各个组件(例如处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,与存储器420)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,存储器420,总线430等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.建立分类模型的方法,包括:
获取待分类数据样本,并基于预设的词典或语义表达模板获取所述待分类数据样本对应的分类标签样本;
取一部分待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集,并取另一部分待分类数据样本及其对应的分类标签样本作为训练样本构建回测集,所述训练集和所述回测集均包含多个训练样本;
利用所述训练集训练分类模型;所述分类模型为序列类的分类模型,该序列类的分类模型通过分析事件相关文本中各词语或字符的特征,来判别事件相关文本中的词语或字符是否映射到事件类别,是否映射到具体的实体类别,是否映射到具体的事件关系,其中,词语或字符的特征是词法特征、位置特征、上下文特征、句法特征、段落特征;
利用由所述训练集训练得到的分类模型对所述回测集中的待分类数据样本进行分类,依据分类结果与所述回测集中的该待分类数据样本对应的分类标签样本的差异,确定该待分类数据样本所在的训练样本对所述分类模型的效果增益,从所述回测集中选择效果增益满足预设要求的训练样本;
获取对所选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本;
将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构建新的训练样本加入所述训练集,转至利用所述训练集训练分类模型的步骤,直至达到预设的结束条件。
2.根据权利要求1所述的方法,其中,所述基于预设的词典或语义表达模板获取所述待分类数据样本对应的分类标签样本包括:
将所述待分类数据样本与预设的词典或语义表达模板进行匹配;
依据匹配结果确定所述待分类数据样本对应的分类标签;
基于确定的分类标签得到所述待分类数据样本对应的分类标签样本。
3.根据权利要求1所述的方法,其中,所述依据分类结果与所述回测集中的该待分类数据样本对应的分类标签样本的差异确定该待分类数据样本所在的训练样本对所述分类模型的效果增益,从所述回测集中选择效果增益满足预设要求的训练样本,包括:
确定所述回测集中待分类数据样本的分类标签样本在分类结果中的置信度;
从所述回测集中选择置信度小于或等于预设第一阈值的待分类数据样本所在的训练样本,或者,从所述回测集中选择置信度最低的N个待分类数据样本所在的训练样本,所述N为预设的正整数。
4.根据权利要求1所述的方法,其中,所述预设的结束条件包括以下至少一种:
所述分类模型的准确率达到预设准确率阈值;
循环执行训练分类模型的次数超过预设的循环次数阈值;
所述分类模型的分类效果收敛。
5.根据权利要求2所述的方法,其中,所述待分类数据样本包括事件相关文本,所述分类模型包括事件抽取模型,所述分类标签包括事件信息标签;
所述事件抽取模型用以从待分类数据中抽取事件信息。
6.根据权利要求5所述的方法,该方法还包括:
确定所述回测集中待分类数据样本的分类标签样本在分类结果中的置信度;
将置信度大于或等于预设第二阈值的分类标签样本加入数据库,用以构建基于事件的知识图谱。
7.建立分类模型的装置,包括:
数据获取单元,被配置为获取待分类数据样本,并基于预设的词典或语义表达模板获取所述待分类数据样本对应的分类标签样本;
样本构建单元,被配置为取一部分待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集,并取另一部分待分类数据样本及其对应的分类标签样本作为训练样本构建回测集,所述训练集和所述回测集均包含多个训练样本;
模型训练单元,被配置为利用所述训练集训练分类模型;所述分类模型为序列类的分类模型,该序列类的分类模型通过分析事件相关文本中各词语或字符的特征,来判别事件相关文本中的词语或字符是否映射到事件类别,是否映射到具体的实体类别,是否映射到具体的事件关系,其中,词语或字符的特征是词法特征、位置特征、上下文特征、句法特征、段落特征;
结束判断单元,被配置为所述模型训练单元训练得到分类模型后,判断是否达到预设的结束条件;
样本选择单元,被配置为在所述结束判断单元确定未达到预设的结束条件时,利用由所述训练集训练得到的分类模型对所述回测集中的待分类数据样本进行分类,依据分类结果与所述回测集中的该待分类数据样本对应的分类标签样本的差异,确定该待分类数据样本所在的训练样本对所述分类模型的效果增益,从所述回测集中选择效果增益满足预设要求的训练样本;
样本更新单元,被配置为获取对选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本,将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构成新的训练样本加入所述训练集,触发所述模型训练单元利用所述训练集训练分类模型。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任一项所述的方法的步骤。
9.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-6中任一项所述的方法。
CN202210191386.3A 2022-03-01 2022-03-01 建立分类模型的方法和装置 Active CN114328936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210191386.3A CN114328936B (zh) 2022-03-01 2022-03-01 建立分类模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210191386.3A CN114328936B (zh) 2022-03-01 2022-03-01 建立分类模型的方法和装置

Publications (2)

Publication Number Publication Date
CN114328936A CN114328936A (zh) 2022-04-12
CN114328936B true CN114328936B (zh) 2022-08-30

Family

ID=81031438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210191386.3A Active CN114328936B (zh) 2022-03-01 2022-03-01 建立分类模型的方法和装置

Country Status (1)

Country Link
CN (1) CN114328936B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710763B (zh) * 2023-11-23 2024-07-09 广州航海学院 图像噪声识别模型训练方法、图像噪声识别方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269011A (zh) * 2018-01-10 2018-07-10 东莞亿科信息技术有限公司 一种引入风险管理的历史数据回测方法和计算机存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747994B2 (en) * 2016-12-28 2020-08-18 Captricity, Inc. Identifying versions of a form
CN112353402B (zh) * 2020-10-22 2022-09-27 平安科技(深圳)有限公司 心电信号分类模型的训练方法、心电信号分类方法及装置
CN112214604A (zh) * 2020-11-04 2021-01-12 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法、装置及设备
CN112434736B (zh) * 2020-11-24 2024-08-02 成都潜在人工智能科技有限公司 一种基于预训练模型的深度主动学习文本分类方法
CN112541083A (zh) * 2020-12-23 2021-03-23 西安交通大学 一种基于主动学习混合神经网络的文本分类方法
CN113344185A (zh) * 2021-06-07 2021-09-03 湘潭大学 一种基于主动学习和神经网络的样本分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269011A (zh) * 2018-01-10 2018-07-10 东莞亿科信息技术有限公司 一种引入风险管理的历史数据回测方法和计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Selecting Examples in Manifold Reduced Feature Space for Active Learning";C. Silva等;《 2008 Seventh International Conference on Machine Learning and Applications》;20081222;第1-5页 *
"选取最大可能预测错误样例的主动学习算法";龙军等;《计算机研究与发展》;20080315;第472-478页 *

Also Published As

Publication number Publication date
CN114328936A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
US20220188521A1 (en) Artificial intelligence-based named entity recognition method and apparatus, and electronic device
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
CN113656582B (zh) 神经网络模型的训练方法、图像检索方法、设备和介质
CN112579909A (zh) 对象推荐方法及装置、计算机设备和介质
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
US20220414463A1 (en) Automated troubleshooter
CN112541332B (zh) 表单信息抽取方法、装置、电子设备及存储介质
CN113656587B (zh) 文本分类方法、装置、电子设备及存储介质
CN114625855A (zh) 用于生成对话信息的方法及装置、设备和介质
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
KR102398386B1 (ko) 복수 개의 메시지들을 필터링하는 방법 및 이를 위한 장치
US11769013B2 (en) Machine learning based tenant-specific chatbots for performing actions in a multi-tenant system
US20220198358A1 (en) Method for generating user interest profile, electronic device and storage medium
CN114328936B (zh) 建立分类模型的方法和装置
CN117421403A (zh) 智能对话方法、装置及电子设备
CN114490986B (zh) 计算机实施的数据挖掘方法、装置、电子设备及存储介质
CN114153948A (zh) 问答知识库的构建方法、智能交互方法及装置
KR20230049486A (ko) 정치성향 분석 장치 및 이를 이용한 서비스 제공 방법
CN112905743A (zh) 文本对象检测的方法、装置、电子设备和存储介质
US20210312131A1 (en) Technical document issues scanner
CN113505889B (zh) 图谱化知识库的处理方法、装置、计算机设备和存储介质
CN112954025B (zh) 基于分层知识图谱推送信息方法、装置、设备、介质
CN116453702B (zh) 孤独症行为特征集的数据处理方法、设备、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant