CN111522942A - 文本分类模型的训练方法、装置、存储介质及计算机设备 - Google Patents
文本分类模型的训练方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN111522942A CN111522942A CN202010190582.XA CN202010190582A CN111522942A CN 111522942 A CN111522942 A CN 111522942A CN 202010190582 A CN202010190582 A CN 202010190582A CN 111522942 A CN111522942 A CN 111522942A
- Authority
- CN
- China
- Prior art keywords
- text
- nth
- label
- training
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本分类模型的训练方法、装置、存储介质及计算机设备,该方法包括:对第一文本样本进行聚类,得到至少一个第一文本簇;基于从每个所述第一文本簇中分别获取的第一预设数量的所述第一文本样本,获取每个所述第一文本簇对应的文本标签;分别从每个所述第一文本簇中获取第二预设数量的所述第一文本样本作为第一训练样本;基于所述第一训练样本及其对应的文本标签建立第一训练集,训练文本分类模型。本申请通过对文本进行聚类,减少标注量的同时,提高了模板的覆盖率,大大提升了标注效率,也提升了模型效果。
Description
技术领域
本申请涉及文本分类技术领域,尤其是涉及到一种文本分类模型的训练方法、装置、存储介质及计算机设备。
背景技术
自然语言处理的文本分类任务,需要大量的标注文本来训练分类模型。在现有技术的数据标注系统、平台或者方法中,均采取对数据抽样,再进行标注,然后再将标注数据用于训练模型。结合训练结果,再进行下一轮的标注,训练,调优。对于大规模短信分类任务,其特点是,短信的文本数量巨大,模板种类繁多且每天分布不均,若采用直接抽样的方法,主要会造成两个问题,一是模板的覆盖率低,二是落到每个类目的数据量存在偏差,这给文本标注和模型训练造成巨大的困难。此外,由于每天的短信模板存在一定差异,用固定某些天的标注数据训练的模型,无法泛化到所有未见过的短信模板。
发明内容
有鉴于此,本申请提供了一种文本分类模型的训练方法、装置、存储介质及计算机设备,通过对文本进行聚类,减少标注量的同时,提高了模板的覆盖率,大大提升了标注效率,也提升了模型效果。
根据本申请的一个方面,提供了一种文本分类模型的训练方法,所述方法包括:
对第一文本样本进行聚类,得到至少一个第一文本簇;
基于从每个所述第一文本簇中分别获取的第一预设数量的所述第一文本样本,获取每个所述第一文本簇对应的文本标签;
分别从每个所述第一文本簇中获取第二预设数量的所述第一文本样本作为第一训练样本;
基于所述第一训练样本及其对应的文本标签建立第一训练集,训练文本分类模型。
具体地,所述训练文本分类模型之后,所述方法还包括:
对第N文本样本进行聚类,得到至少一个第N文本簇,N≥2;
分别从每个所述第N文本簇中获取第三预设数量的所述第N文本样本;
利用所述文本分类模型对从所述第N文本簇中获取的所述第N文本样本分类,得到所述第N文本样本对应的预测标签,并校验所述预测标签的准确性;
在所述预测标签准确时,利用所述预测标签标注所述第N文本样本对应的所述第N文本簇。
具体地,所述校验所述预测标签的准确性之后,所述方法还包括:
在所述预测标签不准确时,获取所述第N文本样本对应的实际标签;
若所述文本标签包括所述实际标签,则从相应的所述第N文本簇中获取第四预设数量的所述第N文本样本;
基于所述第N文本样本及其对应的文本标签以及第N-1训练集建立第N训练集,训练所述文本分类模型。
具体地,所述从相应的所述第N文本簇中获取第四预设数量的所述第N文本样本之前,所述方法还包括:
若所述文本标签包括所述实际标签,则基于相应的所述文本标签以及所述文本标签对应的文本簇,确定所述文本标签是否标注正确;
若所述文本标签标注错误,则纠正标注错误的所述文本标签;
若所述文本标签标注正确,则执行所述从相应的所述第N文本簇中获取第四预设数量的所述第N文本样本。
具体地,所述获取所述第N文本样本对应的实际标签之后,所述方法还包括:
若所述文本标签不包括所述实际标签,则从相应的所述第N文本簇中获取所述第二预设数量的所述第N文本样本;
基于所述第N文本样本及其对应的所述实际标签以及第N-1训练集建立第N训练集,训练所述文本分类模型。
具体地,所述第N文本样本基于第N文本获取周期获取;所述方法还包括:
统计所述文本分类模型对第N文本簇的分类成功率;
基于所述分类成功率,确定第N+1文本获取周期,其中,所述分类成功率越高所述第N+1文本获取周期越长。
根据本申请的另一方面,提供了一种文本分类模型的训练装置,所述装置包括:
第一文本聚类模块,用于对第一文本样本进行聚类,得到至少一个第一文本簇;
第一文本标签获取模块,用于基于从每个所述第一文本簇中分别获取的第一预设数量的所述第一文本样本,获取每个所述第一文本簇对应的文本标签;
第一训练样本获取模块,用于分别从每个所述第一文本簇中获取第二预设数量的所述第一文本样本作为第一训练样本;
第一模型训练模块,用于基于所述第一训练样本及其对应的文本标签建立第一训练集,训练文本分类模型。
具体地,所述装置还包括:
第N文本聚类模块,用于训练文本分类模型之后,对第N文本样本进行聚类,得到至少一个第N文本簇,N≥2;
预测文本获取模块,用于分别从每个所述第N文本簇中获取第三预设数量的所述第N文本样本;
分类模块,用于利用所述文本分类模型对从所述第N文本簇中获取的所述第N文本样本分类,得到所述第N文本样本对应的预测标签,并校验所述预测标签的准确性;
第N文本标注模块,用于在所述预测标签准确时,利用所述预测标签标注所述第N文本样本对应的所述第N文本簇。
具体地,所述装置还包括:
实际标签获取模块,用于校验所述预测标签的准确性之后,在所述预测标签不准确时,获取所述第N文本样本对应的实际标签;
第N训练样本获取模块,用于若所述文本标签包括所述实际标签,则从相应的所述第N文本簇中获取第四预设数量的所述第N文本样本;
第N模型训练模块,用于基于所述第N文本样本及其对应的文本标签以及第N-1训练集建立第N训练集,训练所述文本分类模型。
具体地,所述装置还包括:
文本标签校验模块,用于从相应的所述第N文本簇中获取第四预设数量的所述第N文本样本之前,若所述文本标签包括所述实际标签,则基于相应的所述文本标签以及所述文本标签对应的文本簇,确定所述文本标签是否标注正确;
错误标签纠正模块,用于若所述文本标签标注错误,则纠正标注错误的所述文本标签;
所述第N训练样本获取模块,具体用于若所述文本标签标注正确,则执行所述从相应的所述第N文本簇中获取第四预设数量的所述第N文本样本。
具体地,所述第N训练样本获取模块,还用于获取所述第N文本样本对应的实际标签之后,若所述文本标签不包括所述实际标签,则从相应的所述第N文本簇中获取所述第二预设数量的所述第N文本样本;
所述第N模型训练模块,还用于基于所述第N文本样本及其对应的所述实际标签以及第N-1训练集建立第N训练集,训练所述文本分类模型。
具体地,所述第N文本样本基于第N文本获取周期获取;所述装置还包括:
分类成功率统计模块,用于统计所述文本分类模型对第N文本簇的分类成功率;
文本获取周期确定模块,用于基于所述分类成功率,确定第N+1文本获取周期,其中,所述分类成功率越高所述第N+1文本获取周期越长。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述文本分类模型的训练方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本分类模型的训练方法。
借由上述技术方案,本申请提供的一种文本分类模型的训练方法及装置、存储介质、计算机设备,通过对第一文本样本进行聚类得到多个第一文本簇,从而利用从每个第一文本簇中抽取出的第一文本样本获取该簇对应的文本标签,然后,分别从每个第一文本簇中抽取出一定数量的样本作为第一训练样本,从而实现基于第一训练样本及其相应文本簇对应的文本标签训练文本分类模型。本申请实施例通过对文本进行聚类,减少标注量的同时,提高了模板的覆盖率,大大提升了标注效率,也提升了模型效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种文本分类模型的训练方法的流程示意图;
图2示出了本申请实施例提供的另一种文本分类模型的训练方法的流程示意图;
图3示出了本申请实施例提供的一种文本分类模型的训练装置的结构示意图;
图4示出了本申请实施例提供的另一种文本分类模型的训练装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种文本分类模型的训练方法,如图1所示,该方法包括:
步骤101,对第一文本样本进行聚类,得到至少一个第一文本簇;
步骤102,基于从每个第一文本簇中分别获取的第一预设数量的第一文本样本,获取每个第一文本簇对应的文本标签;
步骤103,分别从每个第一文本簇中获取第二预设数量的第一文本样本作为第一训练样本;
步骤104,基于第一训练样本及其对应的文本标签建立第一训练集,训练文本分类模型。
本申请实施例主要用于对短信文本的分类模型的训练以及对短信文本进行分类的应用场景中,当然,本申请实施例也可以应用于其他类型的文本分类模型训练以及其他类型文本的分类中,在此不做限定。
在上述实施例中,第一文本样本可以为在一段时间内收集到的短信文本,例如一周内的短信文本、一天内的短信文本等,获取到第一文本样本后,首先对第一文本样本进行聚类,以使同一类型的样本聚集到同一个文本簇中,得到至少一个第一文本簇;
其次,由于第一文本簇是经过聚类得到的,因此每个第一文本簇中包含的第一文本样本的类型应该是相同的,从第一文本簇中抽取出一个样本,并通过对这一个样本进行文本标注后,就可以得到该文本样本所在的文本簇的标注,即可以确定该文本簇对应的文本标签,具体在本实施例中,分别从每个第一文本簇中抽取出第一预设数量的第一文本样本,然后通过人工标注或其他标注方式得到抽取出的第一文本样本对应的文本标签,其中,第一预设数量最小可以为1,即通过一个样本标注整个文本簇的文本标签,第一预设数量也可以大于1,通过对一个文本簇中抽取出的多个样本进行文本标签的标注,标注更准确;
然后,分别在标注好文本标签的每个第一文本簇中抽取第一训练样本,每个第一文本簇中抽取出第二预设数量的第一训练样本,以使每个类型的训练样本均匀分布,以传统的抽样方法造成的训练样本数据量存在偏差的问题;
最后,利用第一训练样本及其对应的文本标签训练文本分类模型,其中,通过在不同的文本簇中抽取第一训练样本,抽取第一训练样本的同时就可以获取到第一训练样本对应的文本标签,与传统方法中先抽样再标注的方式相比,标注数据量也大大降低,实现了训练样本的快速建立,从而提升模型的训练效率。
通过应用本实施例的技术方案,通过对第一文本样本进行聚类得到多个第一文本簇,从而利用从每个第一文本簇中抽取出的第一文本样本获取该簇对应的文本标签,然后,分别从每个第一文本簇中抽取出一定数量的样本作为第一训练样本,从而实现基于第一训练样本及其相应文本簇对应的文本标签训练文本分类模型。本申请实施例通过对文本进行聚类,减少标注量的同时,提高了模板的覆盖率,大大提升了标注效率,也提升了模型效果。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种文本分类模型的训练方法,如图2所示,该方法包括:
步骤201,对第一文本样本进行聚类,得到至少一个第一文本簇。
步骤202,基于从每个第一文本簇中分别获取的第一预设数量的第一文本样本,获取每个第一文本簇对应的文本标签。
步骤203,分别从每个第一文本簇中获取第二预设数量的第一文本样本作为第一训练样本。
步骤204,基于第一训练样本及其对应的文本标签建立第一训练集,训练文本分类模型。
步骤205,对第N文本样本进行聚类,得到至少一个第N文本簇,N≥2。
步骤206,分别从每个第N文本簇中获取第三预设数量的第N文本样本。
步骤207,利用文本分类模型对从第N文本簇中获取的第N文本样本分类,得到第N文本样本对应的预测标签,并校验预测标签的准确性。
步骤208,在预测标签准确时,利用预测标签标注第N文本样本对应的第N文本簇。
在上述实施例中,在步骤204中得到训练好的文本分类模型后,可以基于该文本分类模型实现文本分类,以及在该文本分类模型的基础上进行模型优化,步骤205至步骤208提供了一种基于文本分类的方法,假设第一文本样本是第一天的短信文本样本,那么从第二天的短信文本样本开始,可以基于第一天得到的文本分类模型实现文本分类,具体来说,在接收到第N文本样本后,例如第二天的短信文本样本,首先,对第二天的短信文本进行聚类以得到多个第二文本簇,从而将对第二天的短信文本中的每一条文本进行分类的问题转换成只需对第二文本簇进行分类的问题,大大减少了标注数据量,有助于实现快速分类;其次,分别从每个聚类文本簇中抽取一定数量的用于文本分类的短信文本样本,即分别从第N文本簇中获取第三预设数量的第N识别来确定其对应的文本簇的文本类型,第三预设数量也可以大于1,提高对文本簇的文本类型的识别准确性;然后,基于文本分类模型,对抽取出的第三预设数量的第N文本样本进行分类,得到每个样本对应的预测标签;最后,可以通过人工校验的方式,判断基于文本分类模型得到的第N文本样本的预测标签是否准确,如果准确,则可以直接将通过文本分类模型得到的预测标签作为第N文本样本的文本标签以及该文本样本相应的第N文本簇的文本标签。通过这种标注方法,将全部待标注的第N文本簇进行聚类,并利用文本分类模型对每个簇中抽取的一个或几个样本进行分类得到预测标签,从而再对抽取出的这部分样本进行人工校验,当模型预测准确时,就可以用预测标签标注相应的文本簇,无需分别对每一个第N文本样本的文本标签进行预测,只需要对文本簇中抽取的一个或几个文本样本预测就可以实现对整个文本簇的标注,极大的提高了文本分类效率,并且增加了人工校验步骤,进一步提升标注准确性。
步骤209,在预测标签不准确时,获取第N文本样本对应的实际标签。
步骤210,若文本标签包括实际标签,则若文本标签包括实际标签,则基于相应的文本标签以及文本标签对应的文本簇,确定文本标签是否标注正确。
步骤211,若文本标签标注错误,则纠正标注错误的文本标签。
本申请实施例还提供了一种对步骤204中训练好的文本分类模型进行模型优化的方法。其中,步骤209至步骤211提供的方法用于解决原始文本样本标注错误的问题,即第一文本样本标注错误的问题。具体来说,如果模型的预测结果不准确,即预测标签不准确时,获取第N文本样本对应的准确的实际标签,实际标签一般通过工作人员人工标注得到,然后再去分析模型的分类错误原因是什么,如果文本标签包括实际标签的类型,也就是说,实际标签是模型已知的类型,例如文本分类模型所对应的文本标签包括A、B、C三个,该模型可以实现对A、B、C三个类型的文本样本进行预测,经过校验发现模型对某文本的预测结果错误,该文本的实际标签是A,属于模型已知的文本标签,那么首先应找出文本标签A对应的样本簇,从而判断是否在对样本簇进行标注时就产生了错误,比如在步骤202时对某文本簇中抽取的一条文本样本的标注标签是“房贷催缴信息”,从而该文本簇被标注为“房贷催缴信息”,但是该文本样本的准确的标签应是“房贷促销信息”,那么在建立训练样本时,该类型的训练样本对应的文本标签是错误的“房贷催缴信息”,训练数据的标签错误那么模型对该类型文本的预测也会发生错误,此时应将原始文本样本的文本标签进行纠正,将“房贷催缴信息”纠正为“房贷促销信息”。
步骤212,若文本标签标注正确,则从相应的第N文本簇中获取第四预设数量的第N文本样本。
步骤213,基于第N文本样本及其对应的文本标签以及第N-1训练集建立第N训练集,训练文本分类模型。
在步骤212和步骤213提供的实施例中,如果预测标签不准确,但是原始文本样本对应的文本标签标准正确时,说明此时是因为模型的泛化能力不强导致的分类错误,那么可以从第N文本簇中获取一定数量的样本作为训练样本,并将新的训练样本加入原来的训练集中以构成新的训练集,即将从分类错误的预测标签对应的文本簇中抽取第四预设数量的第N文本样本,从而利用这部分样本以及第N-1训练集建立第N训练集,进而利用第N训练集对文本分类模型进行强化训练,提高模型的泛化能力。
步骤214,若文本标签不包括实际标签,则从相应的第N文本簇中获取第二预设数量的第N文本样本。
步骤215,基于第N文本样本及其对应的实际标签以及第N-1训练集建立第N训练集,训练文本分类模型。
在步骤214和步骤215提供的实施例中,如果模型已知的文本标签不包括样本对应的实际标签,说明该样本超出了模型的预测能力范围,即在对模型进行训练时,训练样本不包括该类型的样本,那么应该建立新的包括该实际标签的训练集,重新对模型进行训练,具体可以从实际标签对应的文本簇中抽取第二预设数量的第N文本样本,从而利用抽取的第N文本样本及其对应的实际标签对文本分类模型进行重新训练,提升模型的分类能力。
需要说明的是,在本申请实施例中,第N文本样本的获取周期与模型的分类成功率相关,第N文本样本基于第N文本获取周期获取;具体地:统计文本分类模型对第N文本簇的分类成功率;基于分类成功率,确定第N+1文本获取周期,其中,分类成功率越高第N+1文本获取周期越长。
在上述实施例中,第N+1文本样本的获取周期基于模型对第N文本样本的分类成功率确定,具体的分类成功率可以按照模型对多个第N文本簇的分类成功率确定,例如第N文本样本对应5个文本簇,分别从每个文本簇中抽取出一条样本进行模型分类,模型对其中的4条样本分类正确,则可以确定模型对第N文本簇的分类成功率为80%。分类成功率越高,说明模型的分类效果越好,相应的第N+1文本样本的获取周期越长,不需要频繁的对模型进行优化,节约建模成本。
通过应用本实施例的技术方案,通过对第一文本样本进行聚类,减少标注量的同时,提高了模板的覆盖率,大大提升了标注效率,也提升了模型效果。此外,在评估模型效果的时候,先对第N文本样本进行聚类,从而从得到的第N文本簇中抽取出部分样本进行预测,这节省了模型效果评估的时间,也避免了抽样偏差问题。而且,在对预测结果的处理中,既纠正了旧文本的错标问题,又为模型注入新的训练样本,使模型能够快速有效的更新迭代,提高模型的泛化能力以及增加模型的预测文本类型。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种文本分类模型的训练装置,如图3所示,该装置包括:第一文本聚类模块301、第一文本标签获取模块302、第一训练样本获取模块303、第一模型训练模块304。
第一文本聚类模块301,用于对第一文本样本进行聚类,得到至少一个第一文本簇;
第一文本标签获取模块302,用于基于从每个第一文本簇中分别获取的第一预设数量的第一文本样本,获取每个第一文本簇对应的文本标签;
第一训练样本获取模块303,用于分别从每个第一文本簇中获取第二预设数量的第一文本样本作为第一训练样本;
第一模型训练模块304,用于基于第一训练样本及其对应的文本标签建立第一训练集,训练文本分类模型。
在具体的应用场景中,如图4所示,该装置还包括:第N文本聚类模块305、预测文本获取模块306、分类模块307、第N文本标注模块308。
第N文本聚类模块305,用于训练文本分类模型之后,对第N文本样本进行聚类,得到至少一个第N文本簇,N≥2;
预测文本获取模块306,用于分别从每个第N文本簇中获取第三预设数量的第N文本样本;
分类模块307,用于利用文本分类模型对从第N文本簇中获取的第N文本样本分类,得到第N文本样本对应的预测标签,并校验预测标签的准确性;
第N文本标注模块308,用于在预测标签准确时,利用预测标签标注第N文本样本对应的第N文本簇。
在具体的应用场景中,如图4所示,该装置还包括:实际标签获取模块309、第N训练样本获取模块310、第N模型训练模块311。
实际标签获取模块309,用于校验预测标签的准确性之后,在预测标签不准确时,获取第N文本样本对应的实际标签;
第N训练样本获取模块310,用于若文本标签包括实际标签,则从相应的第N文本簇中获取第四预设数量的第N文本样本;
第N模型训练模块311,用于基于第N文本样本及其对应的文本标签以及第N-1训练集建立第N训练集,训练文本分类模型。
在具体的应用场景中,如图4所示,该装置还包括:文本标签校验模块312、错误标签纠正模块313、第N训练样本获取模块314。
文本标签校验模块312,用于从相应的第N文本簇中获取第四预设数量的第N文本样本之前,若文本标签包括实际标签,则基于相应的文本标签以及文本标签对应的文本簇,确定文本标签是否标注正确;
错误标签纠正模块313,用于若文本标签标注错误,则纠正标注错误的文本标签;
第N训练样本获取模块314,具体用于若文本标签标注正确,则执行从相应的第N文本簇中获取第四预设数量的第N文本样本。
具体地,第N训练样本获取模块310,还用于获取第N文本样本对应的实际标签之后,若文本标签不包括实际标签,则从相应的第N文本簇中获取第二预设数量的第N文本样本;
第N模型训练模块311,还用于基于第N文本样本及其对应的实际标签以及第N-1训练集建立第N训练集,训练文本分类模型。
具体地,第N文本样本基于第N文本获取周期获取;该装置还包括:分类成功率统计模块315、文本获取周期确定模块316。
分类成功率统计模块315,用于统计文本分类模型对第N文本簇的分类成功率;
文本获取周期确定模块316,用于基于分类成功率,确定第N+1文本获取周期,其中,分类成功率越高第N+1文本获取周期越长。
需要说明的是,本申请实施例提供的一种文本分类模型的训练装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的文本分类模型的训练方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的文本分类模型的训练方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现通过对第一文本样本进行聚类得到多个第一文本簇,从而利用从每个第一文本簇中抽取出的第一文本样本获取该簇对应的文本标签,然后,分别从每个第一文本簇中抽取出一定数量的样本作为第一训练样本,从而实现基于第一训练样本及其相应文本簇对应的文本标签训练文本分类模型。本申请实施例通过对文本进行聚类,减少标注量的同时,提高了模板的覆盖率,大大提升了标注效率,也提升了模型效果。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种文本分类模型的训练方法,其特征在于,所述方法包括:
对第一文本样本进行聚类,得到至少一个第一文本簇;
基于从每个所述第一文本簇中分别获取的第一预设数量的所述第一文本样本,获取每个所述第一文本簇对应的文本标签;
分别从每个所述第一文本簇中获取第二预设数量的所述第一文本样本作为第一训练样本;
基于所述第一训练样本及其对应的文本标签建立第一训练集,训练文本分类模型。
2.根据权利要求1所述的方法,其特征在于,所述训练文本分类模型之后,所述方法还包括:
对第N文本样本进行聚类,得到至少一个第N文本簇,N≥2;
分别从每个所述第N文本簇中获取第三预设数量的所述第N文本样本;
利用所述文本分类模型对从所述第N文本簇中获取的所述第N文本样本分类,得到所述第N文本样本对应的预测标签,并校验所述预测标签的准确性;
在所述预测标签准确时,利用所述预测标签标注所述第N文本样本对应的所述第N文本簇。
3.根据权利要求2所述的方法,其特征在于,所述校验所述预测标签的准确性之后,所述方法还包括:
在所述预测标签不准确时,获取所述第N文本样本对应的实际标签;
若所述文本标签包括所述实际标签,则从相应的所述第N文本簇中获取第四预设数量的所述第N文本样本;
基于所述第N文本样本及其对应的文本标签以及第N-1训练集建立第N训练集,训练所述文本分类模型。
4.根据权利要求3所述的方法,其特征在于,所述从相应的所述第N文本簇中获取第四预设数量的所述第N文本样本之前,所述方法还包括:
若所述文本标签包括所述实际标签,则基于相应的所述文本标签以及所述文本标签对应的文本簇,确定所述文本标签是否标注正确;
若所述文本标签标注错误,则纠正标注错误的所述文本标签;
若所述文本标签标注正确,则执行所述从相应的所述第N文本簇中获取第四预设数量的所述第N文本样本。
5.根据权利要求3所述的方法,其特征在于,所述获取所述第N文本样本对应的实际标签之后,所述方法还包括:
若所述文本标签不包括所述实际标签,则从相应的所述第N文本簇中获取所述第二预设数量的所述第N文本样本;
基于所述第N文本样本及其对应的所述实际标签以及第N-1训练集建立第N训练集,训练所述文本分类模型。
6.根据权利要求3至5中任一项所述的方法,其特征在于,所述第N文本样本基于第N文本获取周期获取;所述方法还包括:
统计所述文本分类模型对第N文本簇的分类成功率;
基于所述分类成功率,确定第N+1文本获取周期,其中,所述分类成功率越高所述第N+1文本获取周期越长。
7.一种文本分类模型的训练装置,其特征在于,所述装置包括:
第一文本聚类模块,用于对第一文本样本进行聚类,得到至少一个第一文本簇;
第一文本标签获取模块,用于基于从每个所述第一文本簇中分别获取的第一预设数量的所述第一文本样本,获取每个所述第一文本簇对应的文本标签;
第一训练样本获取模块,用于分别从每个所述第一文本簇中获取第二预设数量的所述第一文本样本作为第一训练样本;
第一模型训练模块,用于基于所述第一训练样本及其对应的文本标签建立第一训练集,训练文本分类模型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第N文本聚类模块,用于训练文本分类模型之后,对第N文本样本进行聚类,得到至少一个第N文本簇,N≥2;
预测文本获取模块,用于分别从每个所述第N文本簇中获取第三预设数量的所述第N文本样本;
分类模块,用于利用所述文本分类模型对从所述第N文本簇中获取的所述第N文本样本分类,得到所述第N文本样本对应的预测标签,并校验所述预测标签的准确性;
第N文本标注模块,用于在所述预测标签准确时,利用所述预测标签标注所述第N文本样本对应的所述第N文本簇。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6中任一项所述的文本分类模型的训练方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6中任一项所述的文本分类模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010190582.XA CN111522942B (zh) | 2020-03-18 | 2020-03-18 | 文本分类模型的训练方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010190582.XA CN111522942B (zh) | 2020-03-18 | 2020-03-18 | 文本分类模型的训练方法、装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111522942A true CN111522942A (zh) | 2020-08-11 |
CN111522942B CN111522942B (zh) | 2023-09-22 |
Family
ID=71901841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010190582.XA Active CN111522942B (zh) | 2020-03-18 | 2020-03-18 | 文本分类模型的训练方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111522942B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183321A (zh) * | 2020-09-27 | 2021-01-05 | 深圳奇迹智慧网络有限公司 | 机器学习模型优化的方法、装置、计算机设备和存储介质 |
CN113254655A (zh) * | 2021-07-05 | 2021-08-13 | 北京邮电大学 | 文本分类方法、电子设备及计算机存储介质 |
CN113553401A (zh) * | 2021-07-28 | 2021-10-26 | 网易传媒科技(北京)有限公司 | 一种文本处理方法、装置、介质和电子设备 |
CN113723507A (zh) * | 2021-08-30 | 2021-11-30 | 联仁健康医疗大数据科技股份有限公司 | 数据分类标识确定方法、装置、电子设备及存储介质 |
CN114077860A (zh) * | 2020-08-18 | 2022-02-22 | 鸿富锦精密电子(天津)有限公司 | 零件装配前分类处理方法、系统、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105101124A (zh) * | 2015-08-07 | 2015-11-25 | 北京奇虎科技有限公司 | 标注短信类别的方法及装置 |
CN106557485A (zh) * | 2015-09-25 | 2017-04-05 | 北京国双科技有限公司 | 一种选取文本分类训练集的方法及装置 |
WO2018072663A1 (zh) * | 2016-10-18 | 2018-04-26 | 腾讯科技(深圳)有限公司 | 数据处理方法及装置、分类器训练方法及系统、存储介质 |
CN108509596A (zh) * | 2018-04-02 | 2018-09-07 | 广州市申迪计算机系统有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
US20190034823A1 (en) * | 2017-07-27 | 2019-01-31 | Getgo, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
CN109299271A (zh) * | 2018-10-30 | 2019-02-01 | 腾讯科技(深圳)有限公司 | 训练样本生成、文本数据、舆情事件分类方法及相关设备 |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
CN109684478A (zh) * | 2018-12-18 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、分类方法及装置、设备和介质 |
CN110019791A (zh) * | 2017-10-13 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 分类模型训练、伪基站短信识别方法和装置 |
WO2019149200A1 (zh) * | 2018-02-01 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 文本分类方法、计算机设备及存储介质 |
CN110457481A (zh) * | 2019-08-20 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 一种分类模型训练的方法、装置、设备以及存储介质 |
CN110580290A (zh) * | 2019-09-12 | 2019-12-17 | 北京小米智能科技有限公司 | 用于文本分类的训练集的优化方法及装置 |
-
2020
- 2020-03-18 CN CN202010190582.XA patent/CN111522942B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105101124A (zh) * | 2015-08-07 | 2015-11-25 | 北京奇虎科技有限公司 | 标注短信类别的方法及装置 |
CN106557485A (zh) * | 2015-09-25 | 2017-04-05 | 北京国双科技有限公司 | 一种选取文本分类训练集的方法及装置 |
WO2018072663A1 (zh) * | 2016-10-18 | 2018-04-26 | 腾讯科技(深圳)有限公司 | 数据处理方法及装置、分类器训练方法及系统、存储介质 |
US20190034823A1 (en) * | 2017-07-27 | 2019-01-31 | Getgo, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
CN110019791A (zh) * | 2017-10-13 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 分类模型训练、伪基站短信识别方法和装置 |
WO2019149200A1 (zh) * | 2018-02-01 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 文本分类方法、计算机设备及存储介质 |
CN108509596A (zh) * | 2018-04-02 | 2018-09-07 | 广州市申迪计算机系统有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN109299271A (zh) * | 2018-10-30 | 2019-02-01 | 腾讯科技(深圳)有限公司 | 训练样本生成、文本数据、舆情事件分类方法及相关设备 |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
CN109684478A (zh) * | 2018-12-18 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、分类方法及装置、设备和介质 |
CN110457481A (zh) * | 2019-08-20 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 一种分类模型训练的方法、装置、设备以及存储介质 |
CN110580290A (zh) * | 2019-09-12 | 2019-12-17 | 北京小米智能科技有限公司 | 用于文本分类的训练集的优化方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114077860A (zh) * | 2020-08-18 | 2022-02-22 | 鸿富锦精密电子(天津)有限公司 | 零件装配前分类处理方法、系统、电子设备及存储介质 |
CN112183321A (zh) * | 2020-09-27 | 2021-01-05 | 深圳奇迹智慧网络有限公司 | 机器学习模型优化的方法、装置、计算机设备和存储介质 |
CN113254655A (zh) * | 2021-07-05 | 2021-08-13 | 北京邮电大学 | 文本分类方法、电子设备及计算机存储介质 |
CN113553401A (zh) * | 2021-07-28 | 2021-10-26 | 网易传媒科技(北京)有限公司 | 一种文本处理方法、装置、介质和电子设备 |
CN113723507A (zh) * | 2021-08-30 | 2021-11-30 | 联仁健康医疗大数据科技股份有限公司 | 数据分类标识确定方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111522942B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111522942B (zh) | 文本分类模型的训练方法、装置、存储介质及计算机设备 | |
CN107330471B (zh) | 反馈内容的问题定位方法和装置、计算机设备、存储介质 | |
US11645554B2 (en) | Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium | |
CN108090043B (zh) | 基于人工智能的纠错举报处理方法、装置及可读介质 | |
CN112749081B (zh) | 用户界面测试方法及相关装置 | |
CN110362822B (zh) | 用于模型训练的文本标注方法、装置、计算机设备及存储介质 | |
CN110210294B (zh) | 优化模型的评价方法、装置、存储介质及计算机设备 | |
CN107423278B (zh) | 评价要素的识别方法、装置及系统 | |
CN110457677B (zh) | 实体关系识别方法及装置、存储介质、计算机设备 | |
CN109800320A (zh) | 一种图像处理方法、设备及计算机可读存储介质 | |
CN107545038B (zh) | 一种文本分类方法与设备 | |
CN108280542A (zh) | 一种用户画像模型的优化方法、介质以及设备 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN110826494A (zh) | 标注数据质量评价方法、装置、计算机设备及存储介质 | |
CN112926621B (zh) | 数据标注方法、装置、电子设备及存储介质 | |
CN110865721B (zh) | 动作数据标记装置、方法及非暂态计算机可读取存储介质 | |
CN113112222A (zh) | 一种基于大数据分析的ofd版式文件的自动签章方法及系统 | |
CN106484913A (zh) | 一种目标图片确定的方法以及服务器 | |
CN111325031B (zh) | 简历解析方法及装置 | |
CN113609390A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN109388804A (zh) | 利用深度学习模型的证券研报核心观点提取方法及装置 | |
CN112613367A (zh) | 票据信息文本框获取方法、系统、设备及存储介质 | |
CN110716778A (zh) | 应用兼容性测试方法、装置及系统 | |
CN112464970A (zh) | 区域价值评估模型处理方法、装置及计算设备 | |
WO2023092646A1 (zh) | 用户群体的分类方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |