CN114970727A - 多标签文本分类方法、系统及计算机设备 - Google Patents
多标签文本分类方法、系统及计算机设备 Download PDFInfo
- Publication number
- CN114970727A CN114970727A CN202210608524.3A CN202210608524A CN114970727A CN 114970727 A CN114970727 A CN 114970727A CN 202210608524 A CN202210608524 A CN 202210608524A CN 114970727 A CN114970727 A CN 114970727A
- Authority
- CN
- China
- Prior art keywords
- target
- text classification
- text
- text data
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种多标签文本分类方法、系统及计算机设备,方法包括:获取多标签文本数据集,多标签文本数据集中包括标注有类别标签的个人健康信息文本数据;基于多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,目标文本分类工具包括目标文本分类模型和目标规则引擎;基于所述目标文本分类工具处理待分类文本数据获得目标分类结果;采用文本分类模型和规则引擎结合处理多标签文本数据集获得分类结果,兼顾了分类模型中的不同类别之间的相关性,并且分类精度提升5%,有效提高了多标签文本数据分类的准确性。
Description
技术领域
本申请涉及文本处理领域,具体涉及一种多标签文本分类方法、系统及计算机设备。
背景技术
多标签文本分类作为自然语言处理领域一项基本的任务,已经被应用到多个场景下,比如用于到智能问答中的意图识别,评论中的情感分类、新闻分类等,当然也可以用于个人信息的分类。当前多标签文本分类任务中越来越多的用到了预训练语言模型,目前的多标签文本分类任务使用的模型大多是基于BERT/ALBERT,XLNet等语言模型,结合textCNN,FC模块形成的文本分类模型。现有的多标签文本分类一般是基于BERT/ALBERT语言模型,获取文本数据的动态向量,然后将获取的语义表示输入到LSTM层,获取局部的语义特征,最后通过全连接层输出类别标签。但在某些特定场景下,比如个人敏感信息的分类,现有的多标签文本分类模型还是准确率不高,不能兼顾到某些类别之间的一些相关性。
随着图卷积神经网络的发展,也出现了将图卷积神经网络应用到多标签文本分类任务的方法,该方法将类别标签作为节点,建立图G,然后将图G输入图卷积网络,得到类别标签的节点表示向量,然后结合语义向量表示,通过sigmoid激活函数输出每个类别的置信度。使用图卷积网络可以解决类别之间的关系信息。
但对于细粒度的文本分类,该方法准确率仍然不高,例如:针对个人健康信息分类任务中,具体的类别包含病症描述、住院志、医嘱单、医疗检验报告、手术及麻醉记录、用药记录、药物食物过敏记录、家族遗传病史、个人病史、吸烟史、饮酒史等,这些类别中存在相关性,比如个人病史中包含了病症描述,家族遗传病包含个人病史等,现有的分类方法很难体现这种类别之间的相关性;另外有些文本包含大量的生僻字或词语,比如用药记录包含大量的药品名称,这些药品名称有很多是生僻字,通用文本中不常见,这也导致当前文本分类仍然不够准确。
发明内容
本申请目的是:提供一种能够准确对多标签文本进行分类的多标签文本分类方法、系统及计算机设备。
本申请的技术方案是:第一方面,本申请提供一种多标签文本分类方法,所述方法包括:
获取多标签文本数据集,所述多标签文本数据集中包括标注有类别标签的个人健康信息文本数据;
基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;所述预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,所述目标文本分类工具包括目标文本分类模型和目标规则引擎;
基于所述目标文本分类工具处理待分类文本数据获得目标分类结果。
在一种较佳的实施方式中,所述获取多标签文本数据集之后,所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具之前,所述方法还包括:
按预设比例将所述多标签文本数据集分为训练集、验证集和测试集;
所述预设文本分类模型至少包括DeBERTa预训练语言模型模块、全连接层模块和激活函数模块;
所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具包括:
基于所述训练集和预设训练参数训练所述预设文本分类工具以确定所述预设文本分类模型的学习参数并基于所述验证集选择所述预设文本分类模型的超参数获得中间文本分类模型;
基于所述测试集测试所述中间文本分类模型直至所述中间文本分类模型收敛平稳获得目标文本分类模型。
在一种较佳的实施方式中,所述获取多标签文本数据集之后,所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具之前,所述方法还包括:
预处理所述标注有类别标签的个人健康信息文本数据,包括:
按照每行包括文本数据和类别标签的格式处理所述标注有类别标签的个人健康信息文本数据;所述类别标签至少有两个,所述类别标签之间以分隔符‘|’分割;
编码处理所述文本数据以生成文本编码向量,并转化所述类别标签生成标签one-hot的表示。
在一种较佳的实施方式中,所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具包括:
分析所述标注有类别标签的个人健康信息文本数据获得提炼规则;
将所述提炼规则逐个写入所述预设规则引擎获得所述目标规则引擎以根据不同类别处理相应规则。
在一种较佳的实施方式中,所述基于所述目标文本分类工具处理待分类文本数据获得目标分类结果之前,所述方法还包括:
部署所述目标文本分类工具至服务器端,并设置RESTful API接口以供调用所述目标文本分类工具。
在一种较佳的实施方式中,所述基于所述目标文本分类工具处理待分类文本数据获得目标分类结果包括:
接收待分类文本数据;
基于所述目标文本分类模型处理所述待分类文本数据获得模型输出结果,所述模型输出结果为输出类别或其他;
若所述模型输出结果为输出类别,则基于所述输出类别触发所述目标规则引擎校验所述待分类文本数据;
若校验通过,则输出目标分类结果为所述模型输出类别。
在一种较佳的实施方式中,所述方法还包括:
当所述模型输出结果为其他时,保存所述待分类文本数据以供优化所述目标文本分类工具。
在一种较佳的实施方式中,若校验不通过,则保存所述待分类文本数据并反馈所述校验结果至所述目标文本分类模型以迭代优化所述目标文本分类模型。
第二方面,本申请还提供一种多标签文本分类系统,所述系统包括:
获取模块,用于获取多标签文本数据集,所述多标签文本数据集中包括标注有类别标签的个人健康信息文本数据;
训练模块,用于基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;所述预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,所述目标文本分类工具包括目标文本分类模型和目标规则引擎;
处理模块,用于基于所述目标文本分类工具处理待分类文本数据获得目标分类结果。
第三方面,本申请还提供一种计算机设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行第一方面中任一所述的方法。
本申请的优点是:提供一种多标签文本分类方法、系统及计算机设备,方法包括:获取多标签文本数据集,多标签文本数据集中包括标注有类别标签的个人健康信息文本数据;基于多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,目标文本分类工具包括目标文本分类模型和目标规则引擎;基于所述目标文本分类工具处理待分类文本数据获得目标分类结果;采用文本分类模型和规则引擎结合处理多标签文本数据集获得分类结果,兼顾了分类模型中的不同类别之间的相关性,并且分类精度提升5%,有效提高了多标签文本数据分类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一所提供的多标签文本分类方法流程图;
图2为本申请实施例一所提供的多标签文本分类方法系统流程图;
图3为本申请实施例二所提供的多标签文本分类系统结构图;
图4为本申请实施例三所提供的计算机设备的架构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如背景技术所述,当前对于细粒度的文本分类,即对于同时具有多个(2个及2个以上)标签的文本分类,采用与训练语言模型仅分类和使用图卷积网络进行分类的准确率仍然不高,不能兼顾一些类别之间的相关性。
为解决上述技术问题,本申请创造性地提出了一种多标签文本分类方法、系统及计算机设备,融合文本分类模型和规则引擎,在经过大量训练后的文本分类模型对待分类文本数据进行分类后,规则引擎对待分类文本进行校验,兼顾了分类模型中的不同类别之间的相关性,并且分类精度提升5%,有效提高了多标签文本数据分类的准确性。下面将结合附图和各个实施例,对本申请的方案进行详细介绍。
实施例一:本实施例一种多标签文本分类方法,参照图1与图2所示,该方法包括:
S110、获取多标签文本数据集,多标签文本数据集中包括标注有类别标签的个人健康信息文本数据。
具体的,个人健康信息文本数据中至少包括姓名和病历单数据,而病历单数据中至少包括就诊时间、就诊医院名称、就诊科室名称、诊断结果等信息,每个个人健康信息文本数据都标注有类别标签,类别标签即为类别名称。
在一种实施方式中,在S110之后、S120之前,该方法还包括:
SA1、按预设比例将所述多标签文本数据集分为训练集、验证集和测试集。
具体的,模型训练流程包括:(1)使用包含大量任务相关数据的数据集训练预设模型;(2)通过模型在数据集上的误差不断迭代训练模型,得到对数据集拟合合理的模型;(3)将训练好获得的目标模型应用到真实的场景中。由于最终的目的是将目标模型部署到真实的环境中,希望目标模型能够在真实的数据上得到准确的预测效果,即希望将真实数据输入目标模型后获得的预测结果误差越小越好。把模型在真实环境中的误差叫做泛化误差,最终的目的是目标模型泛化误差越低越好。但由于在部署环境和训练模型直接往复代价很高,因此不能直接将泛化误差作为了解模型泛化能力的信号,也不能使用模型对训练数据集的拟合程度来作为了解模型泛化能力的信号。因此将多标签文本数据集分割训练集、验证集和测试集。训练集用来训练模型,即确定模型的权重和偏置这些参数,这些参数称为学习参数。验证集用于模型的选择,验证集不参与学习参数的确定,也就是验证集不参与梯度下降的过程,只选择超参数,比如网络层数、网络节点数、迭代次数、学习率等参数。测试集用于在模型训练完成后对目标模型进行评价。迭代优化模型至目标模型在测试集上的误差最小即可。
示例性的,以7:2:1比例切分多标签文本数据集分为训练集、测试集合验证集三个数据集,当然,预设比例还可以是8:1:1、6:3:1、5:4:1等其他比例,只要训练集的占比大于验证集且大于测试集的占比即可,本实施例对此不作具体限制。
在一种实施方式中,在S110之后、S120之前,该方法还包括:
SA2、预处理标注有类别标签的个人健康信息文本数据,包括:
SA21、按照每行包括文本数据和类别标签的格式处理标注有类别标签的个人健康信息文本数据;类别标签至少有两个,类别标签之间以分隔符‘|’分割。
具体的,将多标签文本数据集格式保存为每行一个数据样本,一个数据样本包括类别标签-文本数据的格式,类别标签与文本数据之间使用空格隔开,类别标签本身就是类别名称,一个文本数据可以对应多个标签名称,样例如下:
“medical_inspection_report|disease 2、汉中市中心医院:发现异常:获取2015年病历,2015.4.10检查显示蛛网膜下出血,多发腔隙性脑梗塞”,多个标签之间使用‘|’隔开。
SA22、编码处理文本数据以生成文本编码向量,并转化类别标签生成标签one-hot的表示。
具体的,读取多标签文本数据集后,文本数据作为目标文本分类模型的输入,标签进行转换,将标签转化成维度为类别数的one-hot(独热编码)的表示,用于后续的loss计算;将文本数据序列转化编码成向量获得文本编码向量。
S120、基于多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,目标文本分类工具包括目标文本分类模型和目标规则引擎。
在一种实施方式中,预设文本分类模型至少包括DeBERTa预训练语言模型模块、全连接层模块和激活函数模块。示例性的,激活函数模块为sigmoid激活函数。DeBERTa预训练语言模型,相比于BERT模型,做了一些优化,具体包括:使用了解耦注意力机制,每个词分别用两个向量表示,分别对其内容和位置进行编码,单词的注意力权重分别使用其内容和相对位置的解耦矩阵计算,其次使用了增强的掩码解码器,用于再解码层中合并绝对位置,以预测模型训练中的tokens(标签),此外,还采用了一种对抗训练用于模型的微调,提高了模型的泛化能力。全连接层输出的维度就是类别数,用于将输入序列的向量映射到低维空间,并且作为分类标签表示;sigmoid激活函数用于输出每个类别标签的概率,对于输出的类别概率设置一个阈值,大于这个阈值则认为属于此类别,每个类别的概率独立的,所以存在一个样本对应多个类别标签的情况。
本步骤包括:
S121、基于训练集和预设训练参数训练预设文本分类工具以确定预设文本分类模型的学习参数并基于验证集选择预设文本分类模型的超参数获得中间文本分类模型。
具体的,设置训练的epochs(训练轮次)=100,learning_rate(学习率)=10-5,batch_size(一个批次中的样本数)=64,开始进行模型训练,训练过程中的模型为中间文本分类模型。
S122、基于测试集测试中间文本分类模型直至中间文本分类模型收敛平稳获得目标文本分类模型。
具体的,将文本编码向量输入预设文本分类模型中获得预测标签,再将预测标签与真实标签转化成的维度为类别数的one-hot(独热编码)的表示输入到模型损失函数,优化器使用AdamW优化算法更新模型参数,随着训练不断地加深,loss(损失函数)不断下降,经过多轮次训练迭代直到loss趋于稳定不再下降,模型收敛平稳,训练结束,保存模型文件为目标文本分类模型文件。
在一种实施方式中,本步骤还包括:
S123、设置目标规则引擎,具体包括:
S1231、分析标注有类别标签的个人健康信息文本数据获得提炼规则。
具体的,逐个分析数据集中每个类别是否存在可以表示的规则,如果存在明确的规则(此处的规则可以是某个关键字,或者校验的函数,正则匹配表达式,也可以是模板匹配等),则将所有的规则集合到一个集合中获得提炼规则。
S1232、将提炼规则逐个写入预设规则引擎获得目标规则引擎以根据不同类别处理相应规则。
将提炼规则写入到预设规则引擎中,当然,可能存在部分类别标签没有对应的规则,即目标规则引擎中的提炼规则数量不大于多标签文本数据集中的类别标签的类别数量,可能小于,也可能等于。因此,目标规则引擎中的提炼规则数量小于或等于目标文本分类模型可识别的类别数量。
事实上,S123中的步骤可以是在S122的步骤之后执行,也可以是在S121之前执行,即目标规则引擎的设置可以是在文本分类模型训练之前,也可以是在文本分类模型训练之后,于本实施例中,示例性地介绍了S123在S122之后执行的情况。
在一种实施方式中,在基于目标文本分类工具处理待分类文本数据获得目标分类结果之前,该方法还包括:
SA3、部署目标文本分类工具至服务器端,并设置RESTful API接口以供调用目标文本分类工具。
具体的,将目标文本分类模型部署到服务器上,通过RESTful API的方式调用预测接口,输出的格式为类别名的列表。
S130、基于目标文本分类工具处理待分类文本数据获得目标分类结果。
在一种实施方式中,本步骤包括:
S131、接收待分类文本数据。
具体的,客户端接收到待分类文本数据后通过RESTful API接口调用模型API服务。
S132、基于目标文本分类模型处理待分类文本数据获得模型输出结果,模型输出结果为输出类别或其他。
具体的,待分类文本数据输入到目标文本分类模型中,目标文本分类模型输出结果,输出结果为目标文本分类模型对待分类文本数据的分类类别。由于目标文本分类模型在训练中所使用的训练集中的数据是有限个的,因此目标文本分类模型所能识别分类的类别也是有限的,例如:经过训练后的目标文本分类模型能够识别分类10个类别,待分类文本数据输入到目标文本分类模型后,可能是在这10个类别内,也可能不在这10个类别内,若目标文本分类模型识别分类待分类文本数据的结果是在这10个类别中,则输出结果为对待分类文本数据的分类类别结果;若目标文本分类模型识别分类待分类文本数据的结果不在这10个类别中,则输出结果“其他”。
S133、若模型输出结果为输出类别,则进入S134-1,若模型输出结果为其他,则进入S134-2。
S134-1、基于输出类别触发目标规则引擎校验待分类文本数据。
具体的,根据目标文本分类模型输出的输出类别,触发目标规则引擎中对应的判断,然后使用目标规则引擎的条件判断等对待分类文本进行校验。
若校验通过,则进入S135-1,若校验不通过,则进入S135-2。
S134-2、保存待分类文本数据以供优化目标文本分类工具。
具体的,若目标文本分类模型的输出结果为“其他”,即代表待分类文本数据不在目标文本分类模型所能识别分类的类别中,是训练集中所不具有的类别数据,保存该待分类文本数据,用于目标文本分类模型和目标规则引擎的下一次迭代更新。
S135-1、输出目标分类结果为模型输出类别。
S135-2、保存待分类文本数据并反馈校验结果至目标文本分类模型以迭代优化目标文本分类模型。
具体的,目标规则引擎校验待分类文本数据的校验结果为不通过,则说明目标文本分类模型识别分类出错,保存待输出文本数据bad_case数据集,bad_case数据集中的数据量累积到预设数量后,采用bad_case数据集中的数据迭代优化目标文本分类模型以提高目标文本分类模型的准确率。
本实施例提供的多标签文本分类方法,融合了规则引擎和文本分类模型,兼顾了分类模型中的不同类别之间的相关性,获取多标签文本数据集后,逐个分析提炼出每个类别的规则,并且将规则模板写入到规则引擎,将多标签文本数据集分为训练集、验证集和测试集,将训练集数据输入到DeBERTa-FC模型中进行训练,直到模型收敛,然后将目标文本分类模型部署到服务端,对外提供API接口,客户端接收到待分类文本后,调用服务端的目标文本分类模型api接口,获取待分类文本的类别标签,然后再根据类别标签调用目标规则引擎中相应的规则模板,对此待分类文本内容进行校验,并输出分类类别,最后综合目标文本分类模型输出的输出类别和目标规则引擎的校验结果,综合判断待分类文本数据的类别,提高了多标签文本分类的精度和召回率,还可以将误识别的样本反馈给模型,进行迭代优化。
实施例二:与上述实施例一相对应的,下面将结合图3,对本申请提供的多标签文本分类系统进行介绍。其中,该系统可以通过硬件或软件的方式实现,也可以通过软硬件结合的方式实现,本申请并不限定。
在一个示例中如图3所示,本实施例提供了一种多标签文本分类系统,该系统包括:
获取模块310,用于获取多标签文本数据集,所述多标签文本数据集中包括标注有类别标签的个人健康信息文本数据;
训练模块320,用于基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;所述预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,所述目标文本分类工具包括目标文本分类模型和目标规则引擎;
处理模块330,用于基于所述目标文本分类工具处理待分类文本数据获得目标分类结果。
优选的,该系统还包括:
切分模块340,用于在获取模块310获取多标签文本数据集之后、训练模块320基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具之前,按预设比例将所述多标签文本数据集分为训练集、验证集和测试集;
所述训练模块320包括:
第一训练单元321,用于基于所述训练集和预设训练参数训练所述预设文本分类工具以确定所述预设文本分类模型的学习参数并基于所述验证集选择所述预设文本分类模型的超参数获得中间文本分类模型;
第二训练单元322,用于基于所述测试集测试所述中间文本分类模型直至所述中间文本分类模型收敛平稳获得目标文本分类模型。
更优选的,所述系统还包括:
预处理模块350,用于预处理所述标注有类别标签的个人健康信息文本数据,包括:
第一处理单元351,用于按照每行包括文本数据和类别标签的格式处理所述标注有类别标签的个人健康信息文本数据;所述类别标签至少有两个,所述类别标签之间以分隔符‘|’分割;
第二处理单元352,用于编码处理所述文本数据以生成文本编码向量,并转化所述类别标签生成标签one-hot的表示。
更优选的,所述训练模块320还包括:
分析单元323,用于分析所述标注有类别标签的个人健康信息文本数据获得提炼规则;
写入单元324,用于将所述提炼规则逐个写入所述预设规则引擎获得所述目标规则引擎以根据不同类别处理相应规则。
优选的,该系统还包括:
部署模块360,用于在处理模块330基于所述目标文本分类工具处理待分类文本数据获得目标分类结果之前,部署所述目标文本分类工具至服务器端,并设置RESTful API接口以供调用所述目标文本分类工具。
更优选的,处理模块330包括:
接收单元331,用于接收待分类文本数据;
第三处理单元332,用于基于所述目标文本分类模型处理所述待分类文本数据获得模型输出结果,所述模型输出结果为输出类别或其他;
若所述第三处理单元332获得的输出结果为输出类别,则触发校验模块370;
校验模块370用于基于所述输出类别触发所述目标规则引擎校验所述待分类文本数据;
若校验模块370校验通过,则触发输出模块380,输出模块380用于输出目标分类结果为所述模型输出类别。
更优选的,该系统还包括:
保存模块390,用于在第三处理单元332获得的输出结果为其他时,保存所述待分类文本数据以供优化所述目标文本分类工具。
更优选的,保存模块390还用于在校验模块370校验不通过时,保存所述待分类文本数据并反馈所述校验结果至所述目标文本分类模型以迭代优化所述目标文本分类模型。
实施例三:与上述实施例一至实施例二相对应的,下面将结合图4,对本申请提供的计算机设备进行介绍。在一个示例中如图4所示,本申请提供了一种计算机设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
获取多标签文本数据集,所述多标签文本数据集中包括标注有类别标签的个人健康信息文本数据;
基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;所述预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,所述目标文本分类工具包括目标文本分类模型和目标规则引擎;
基于所述目标文本分类工具处理待分类文本数据获得目标分类结果。
按预设比例将所述多标签文本数据集分为训练集、验证集和测试集;
所述预设文本分类模型至少包括DeBERTa预训练语言模型模块、全连接层模块和激活函数模块;
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
基于所述训练集和预设训练参数训练所述预设文本分类工具以确定所述预设文本分类模型的学习参数并基于所述验证集选择所述预设文本分类模型的超参数获得中间文本分类模型;
基于所述测试集测试所述中间文本分类模型直至所述中间文本分类模型收敛平稳获得目标文本分类模型。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
预处理所述标注有类别标签的个人健康信息文本数据,包括:
按照每行包括文本数据和类别标签的格式处理所述标注有类别标签的个人健康信息文本数据;所述类别标签至少有两个,所述类别标签之间以分隔符‘|’分割;
编码处理所述文本数据以生成文本编码向量,并转化所述类别标签生成标签one-hot的表示。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
分析所述标注有类别标签的个人健康信息文本数据获得提炼规则;
将所述提炼规则逐个写入所述预设规则引擎获得所述目标规则引擎以根据不同类别处理相应规则。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
部署所述目标文本分类工具至服务器端,并设置RESTful API接口以供调用所述目标文本分类工具。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
接收待分类文本数据;
基于所述目标文本分类模型处理所述待分类文本数据获得模型输出结果,所述模型输出结果为输出类别或其他;
若所述模型输出结果为输出类别,则基于所述输出类别触发所述目标规则引擎校验所述待分类文本数据;
若校验通过,则输出目标分类结果为所述模型输出类别。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
当所述模型输出结果为其他时,保存所述待分类文本数据以供优化所述目标文本分类工具。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
保存所述待分类文本数据并反馈所述校验结果至所述目标文本分类模型以迭代优化所述目标文本分类模型。
其中,图4示例性的展示出了计算机设备的架构,具体可以包括处理器410,视频显示适配器411,磁盘驱动器412,输入/输出接口413,网络接口414,以及存储器420。上述处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,与存储器420之间可以通过通信总线430进行通信连接。
其中,处理器410可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器420可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器420可以存储用于控制计算机设备400运行的操作系统421,用于控制计算机设备400的低级别操作的基本输入输出系统(BIOS)422。另外,还可以存储网页浏览器423,数据存储管理424,以及图标字体处理系统425等等。上述图标字体处理系统425就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器420中,并由处理器410来调用执行。
输入/输出接口413用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口414用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线430包括一通路,在设备的各个组件(例如处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,与存储器420)之间传输信息。
另外,该计算机设备400还可以从虚拟资源对象领取条件信息数据库441中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述计算机设备400仅示出了处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,存储器420,总线430等,但是在具体实施过程中,该计算机设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要理解的是,本申请中术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
当然上述实施例只为说明本申请的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本申请的内容并据以实施,并不能以此限制本申请的保护范围。凡根据本申请主要技术方案的精神实质所做的修饰,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种多标签文本分类方法,其特征在于,所述方法包括:
获取多标签文本数据集,所述多标签文本数据集中包括标注有类别标签的个人健康信息文本数据;
基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;所述预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,所述目标文本分类工具包括目标文本分类模型和目标规则引擎;
基于所述目标文本分类工具处理待分类文本数据获得目标分类结果。
2.根据权利要求1所述的多标签文本分类方法,其特征在于,所述获取多标签文本数据集之后,所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具之前,所述方法还包括:
按预设比例将所述多标签文本数据集分为训练集、验证集和测试集;
所述预设文本分类模型至少包括DeBERTa预训练语言模型模块、全连接层模块和激活函数模块;
所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具包括:
基于所述训练集和预设训练参数训练所述预设文本分类工具以确定所述预设文本分类模型的学习参数并基于所述验证集选择所述预设文本分类模型的超参数获得中间文本分类模型;
基于所述测试集测试所述中间文本分类模型直至所述中间文本分类模型收敛平稳获得目标文本分类模型。
3.根据权利要求2所述的多标签文本分类方法,其特征在于,所述获取多标签文本数据集之后,所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具之前,所述方法还包括:
预处理所述标注有类别标签的个人健康信息文本数据,包括:
按照每行包括文本数据和类别标签的格式处理所述标注有类别标签的个人健康信息文本数据;所述类别标签至少有两个,所述类别标签之间以分隔符‘|’分割;
编码处理所述文本数据以生成文本编码向量,并转化所述类别标签生成标签one-hot的表示。
4.根据权利要求3所述的多标签文本分类方法,其特征在于,所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具还包括:
分析所述标注有类别标签的个人健康信息文本数据获得提炼规则;
将所述提炼规则逐个写入所述预设规则引擎获得所述目标规则引擎以根据不同类别处理相应规则。
5.根据权利要求1所述的多标签文本分类方法,其特征在于,所述基于所述目标文本分类工具处理待分类文本数据获得目标分类结果之前,所述方法还包括:
部署所述目标文本分类工具至服务器端,并设置RESTfulAPI接口以供调用所述目标文本分类工具。
6.根据权利要求5所述的多标签文本分类方法,其特征在于,所述基于所述目标文本分类工具处理待分类文本数据获得目标分类结果包括:
接收待分类文本数据;
基于所述目标文本分类模型处理所述待分类文本数据获得模型输出结果,所述模型输出结果为输出类别或其他;
若所述模型输出结果为输出类别,则基于所述输出类别触发所述目标规则引擎校验所述待分类文本数据;
若校验通过,则输出目标分类结果为所述模型输出类别。
7.根据权利要求6所述的多标签文本分类方法,其特征在于,所述方法还包括:
若所述模型输出结果为其他,保存所述待分类文本数据以供优化所述目标文本分类工具。
8.根据权利要求6所述的多标签文本分类方法,其特征在于,若校验不通过,则保存所述待分类文本数据并反馈所述校验结果至所述目标文本分类模型以迭代优化所述目标文本分类模型。
9.一种多标签文本分类系统,其特征在于,所述系统包括:
获取模块,用于获取多标签文本数据集,所述多标签文本数据集中包括标注有类别标签的个人健康信息文本数据;
训练模块,用于基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;所述预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,所述目标文本分类工具包括目标文本分类模型和目标规则引擎;
处理模块,用于基于所述目标文本分类工具处理待分类文本数据获得目标分类结果。
10.一种计算机设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行根据权利要求1-8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210608524.3A CN114970727A (zh) | 2022-05-31 | 2022-05-31 | 多标签文本分类方法、系统及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210608524.3A CN114970727A (zh) | 2022-05-31 | 2022-05-31 | 多标签文本分类方法、系统及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114970727A true CN114970727A (zh) | 2022-08-30 |
Family
ID=82956777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210608524.3A Pending CN114970727A (zh) | 2022-05-31 | 2022-05-31 | 多标签文本分类方法、系统及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970727A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089614A (zh) * | 2023-01-12 | 2023-05-09 | 杭州瓴羊智能服务有限公司 | 文本打标方法及装置 |
-
2022
- 2022-05-31 CN CN202210608524.3A patent/CN114970727A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089614A (zh) * | 2023-01-12 | 2023-05-09 | 杭州瓴羊智能服务有限公司 | 文本打标方法及装置 |
CN116089614B (zh) * | 2023-01-12 | 2023-11-21 | 瓴羊智能科技有限公司 | 文本打标方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11790171B2 (en) | Computer-implemented natural language understanding of medical reports | |
AU2020260078B2 (en) | Computer-implemented machine learning for detection and statistical analysis of errors by healthcare providers | |
US11423538B2 (en) | Computer-implemented machine learning for detection and statistical analysis of errors by healthcare providers | |
CN109804362B (zh) | 通过机器学习确定主键-外键关系 | |
US20190354810A1 (en) | Active learning to reduce noise in labels | |
US11580459B2 (en) | Systems and methods for extracting specific data from documents using machine learning | |
CN113806550A (zh) | 个性化知识图谱的生成方法、装置及计算机设备 | |
CN113011186A (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
US11017572B2 (en) | Generating a probabilistic graphical model with causal information | |
US10929761B2 (en) | Systems and methods for automatically detecting and repairing slot errors in machine learning training data for a machine learning-based dialogue system | |
CN117296064A (zh) | 计算环境中的可解释人工智能 | |
CN116611449A (zh) | 异常日志解析方法、装置、设备及介质 | |
CN114970727A (zh) | 多标签文本分类方法、系统及计算机设备 | |
CN113515593A (zh) | 基于聚类模型的话题检测方法、装置和计算机设备 | |
RU2715024C1 (ru) | Способ отладки обученной рекуррентной нейронной сети | |
CN110826616A (zh) | 信息处理方法及装置、电子设备、存储介质 | |
CN115905524A (zh) | 融合句法和语义信息的情感分析方法、装置以及设备 | |
CN117672440A (zh) | 基于神经网络的电子病历文本信息抽取方法及系统 | |
CN114676237A (zh) | 语句相似度确定方法、装置、计算机设备和存储介质 | |
CN113610080A (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 | |
US20210004671A1 (en) | Automated data slicing based on an artificial neural network | |
CN113688854A (zh) | 数据处理方法、装置及计算设备 | |
CN112116180B (zh) | 集成评分模型生成方法、装置和电子设备 | |
CN118035751B (zh) | 用于大语言模型微调训练的数据构建方法及装置 | |
CN114898339B (zh) | 驾驶行为预测模型的训练方法、装置、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230614 Address after: 518052 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong Applicant after: ZHONGAN INFORMATION TECHNOLOGY SERVICE Co.,Ltd. Address before: 201210 3rd floor, building 1, No.400, Fangchun Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai Applicant before: Shanghai Zhongzhi Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |