CN112417150A - 行业分类模型训练、使用方法、装置、设备及介质 - Google Patents
行业分类模型训练、使用方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112417150A CN112417150A CN202011278739.0A CN202011278739A CN112417150A CN 112417150 A CN112417150 A CN 112417150A CN 202011278739 A CN202011278739 A CN 202011278739A CN 112417150 A CN112417150 A CN 112417150A
- Authority
- CN
- China
- Prior art keywords
- industry
- classification
- industry classification
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 155
- 238000013145 classification model Methods 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000013507 mapping Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 26
- 238000003860 storage Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 240000008042 Zea mays Species 0.000 description 3
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 3
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 235000005822 corn Nutrition 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000209140 Triticum Species 0.000 description 2
- 235000021307 Triticum Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 235000013339 cereals Nutrition 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种行业分类模型的训练、使用方法、装置、设备及介质。所述方法包括:基于行业分类标准的层级关系,将各级分类行业向所属二级分类行业的行业分类标签进行映射,得到行业分类训练数据样本;采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签,对预设行业分类模型进行有监督训练,得到目标行业分类模型。采用本申请方案,通过行业分类标准自带的层级关系来构建训练样本进行模型训练,可以实现不依赖任何标注数据,完成短文本、多标签文本的行业分类模型训练,且保证训练的模型能准确识别出公文短文本中的受众行业分类结果。
Description
技术领域
本发明实施例涉及自然语音处理技术领域,尤其涉及一种行业分类模型的训练、使用方法、装置、设备及介质。
背景技术
随着经济的不断发展,针对各行各业推出了相应地慧企利民政策,在公布各种慧企利民政策后通常需要进行政策与个体、企业之间的匹配,实现精准推送政策,达到政策找人的目的。然而,相关技术中,通常是采用人工分类的方式对各类慧企利民政策进行行业匹配,虽然能够保证行业匹配的准确性,但是由于效率低下,缺乏实用性;如果采用传统机器学习的文本分类办法对政策进行分类,通常需要针对每一个行业标注大量数据,而政策公文文本往往伴随着数量少、文本包含分类多的特点,造成人工标注工作十分困难。因此,如何实现快速有效地对政策进行行业匹配变得尤为重要。
发明内容
本发明实施例中提供了一种行业分类模型的训练、使用方法、装置、设备及介质,以实现对各种公文政策快速准确地适配行业。
第一方面,本发明实施例中提供了一种行业分类模型的训练方法,所述方法包括:
基于行业分类标准的层级关系,将各级分类行业向所属二级分类行业的行业分类标签进行映射,得到行业分类训练数据样本;
采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签,对预设行业分类模型进行有监督训练,得到目标行业分类模型。
第二方面,本发明实施例中还提供了一种行业分类模型的使用方法,所述行业分类模型采用本申请实施例中行业分类模型的训练方法获得,所述使用方法包括:
从公文文本信息中得到一组文本输入序列;
将所述一组文本输入序列输入到所述行业分类模型中,通过所述行业分类模型输出对应的CLS特征向量输出序列;
依据所述CLS特征向量输出序列,确定与所述公文文本信息匹配的二级行业分类结果。
第三方面,本发明实施例中还提供了一种行业分类模型的训练装置,所述装置包括:
样本获取模块,用于基于行业分类标准的层级关系,将各级分类行业向所属二级分类行业的行业分类标签进行映射,得到行业分类训练数据样本;
模型训练模块,用于采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签,对预设行业分类模型进行有监督训练,得到目标行业分类模型。
第四方面,本发明实施例中还提供了一种行业分类模型的使用装置,其特征在于,所述行业分类模型采采用本申请实施例中行业分类模型的训练方法获得,所述装置包括:
输入模块,用于从公文文本信息中得到一组文本输入序列;
输出模块,用于将所述一组文本输入序列输入到所述行业分类模型中,通过所述行业分类模型输出对应的CLS特征向量输出序列;
分类模块,用于依据所述CLS特征向量输出序列,确定与所述公文文本信息匹配的二级行业分类结果。
第五方面,本发明实施例中还提供了一种电子设备,包括:
一个或多个处理装置;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现如本发明任意实施例中提供的所述行业分类模型的训练方法或者行业分类模型的使用方法。
第六方面,本发明实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理装置执行时实现如本发明任意实施例中提供的所述行业分类模型的训练方法或者行业分类模型的使用方法。
本发明实施例中提供了一种行业分类模型的训练方法,能够基于行业分类标准的层级关系,将各级分类行业向所属二级分类行业的行业分类标签进行映射,得到行业分类训练数据样本;采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签,对预设行业分类模型进行有监督训练,得到目标行业分类模型。采用本申请方案,各级分类行业类型较多,使得进行文本标注的政策公文文本也非常多,同时许多行业本身为止并没有相对应的政策公文文本,因此利用政策公文文本进行文本标注非常不现实,而本申请通过行业分类标准自带的层级关系来构建训练样本进行模型训练,可以实现不依赖任何标注数据,完成短文本、多标签文本的行业分类模型训练,且保证训练的模型能准确识别出公文短文本中的受众行业分类结果。
上述发明内容仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例中提供的一种行业分类模型的训练方法的流程图;
图2是本发明实施例中提供的一种对预训练语言模型BERT进行训练的网络结构图;
图3是本发明实施例中提供的一种行业分类模型的使用方法的流程图;
图4是本发明实施例中提供的一种行业分类模型的训练装置的结构框图;
图5是本发明实施例中提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前,应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作(或步骤)可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
下面针对本申请中提供的行业分类模型的训练、使用方法、装置、电子设备及存储介质,通过以下各个实施例及其可选方案进行详细阐述。
图1是本发明实施例中提供的一种行业分类模型的训练方法的流程图。本发明实施例可适用于对受众行业的行业分类模型进行训练的情况。该方法可由行业分类模型的训练装置来执行,该装置可以采用软件和/或硬件的方式实现,并集成在任何具有网络通信功能的电子设备上。如图1所示,本申请实施例中提供的行业分类模型的训练方法,可包括以下步骤:
S110、基于行业分类标准的层级关系,将各级分类行业向所属二级分类行业的行业分类标签进行映射,得到行业分类训练数据样本。
在本实施例中,根据GB/T 4754—2017制定的国民经济行业分类标准,共有总计20个一级分类行业,98个二级分类行业,470个三级分类行业,1370个四级分类行业。如果人工对政策进行行业分类,一级分类行业的分类粒度不够细(例如,农林渔牧归为一类等),而二级分类行业以上分类操作繁琐、出错率较高。如果对政策进行分类,一般来说要达到较为准确的效果的话,每类文本需要标注数据500篇左右,而政策公文文本往往伴随着数量少、文本包含分类多的特点,这样带来的人工标注工作难度非常大。例如,每类训练样本的数量是100个,共98类的文本标注也就是代表了9800篇政策,这是一个非常大的人力消耗;同时,许多行业标签本身在目前为止并没有相对应的政策,但是并不代表以后会有政策去覆盖这些行业。因此,直接使用政策对其进行行业分类标签标注作为训练样本数据是不可靠的。
在本实施例中,考虑到通过GB/T 4754—2017制定的国民经济行业分类标准会自带行业层级关系,因此在确定训练样本数据时可以直接使用国民经济行业分类标准会自带的行业层级关系,来将各级分类行业向各级分类行业所属的二级分类行业的行业分类标签进行映射,以便利用其自带的行业层级关系来构建行业分类训练数据样本。
在本实施例的一种可选方案中,可以与上述一个或者多个实施例中各个可选方案结合。其中,将各级分类行业向所属二级分类行业的行业分类标签进行映射,可包括以下步骤A1-A4:
步骤A1、将一级分类行业向多个二级分类行业的行业分类标签进行映射,得到一级分类行业下的多标签行业分类训练数据样本。
步骤A2、将二级分类行业向二级分类行业的行业分类标签进行映射,得到二级分类行业下的单标签行业分类训练数据样本。
步骤A3、将三级分类行业向三级分类行业所属二级分类行业的行业分类标签进行映射,得到三级分类行业下的单标签行业分类训练数据样本。
步骤A4、将四级分类行业向所述四级分类行业所属二级分类行业的行业分类标签进行映射,得到四级分类行业下的单标签行业分类训练数据样本。
在本实施例中,在GB/T 4754—2017制定的国民经济行业分类标准自带行业层级关系的基础上,可通过对不同级分类行业之间进行预处理来制作需要的行业分类训练样本数据。其中,表1示出了利用国民经济行业分类标准自带的行业层级关系进行行业分类标签映射的过程。参见表1,Y的数值1、2、3以及4等对应了上文提到的98个行业分类的标签ID,例如1为农业,2为林业。
表1 利用行业层级关系进行行业分类标签映射的过程
代码 | 层级 | X | Y |
A0000 | 1 | 农、林、牧、渔业 | 1,2,3,4,5 |
A0100 | 2 | 农业 | 1 |
A0110 | 3 | 谷物种植 | 1 |
A0111 | 4 | 稻谷种植 | 1 |
A0112 | 4 | 小麦种植 | 1 |
A0113 | 4 | 玉米种植 | 1 |
A0119 | 4 | 其他谷物种植 | 1 |
… | … | … | … |
A0539 | 4 | 其他畜牧专业及辅助性活动 | 5 |
A0540 | 3 | 渔业专业及辅助性活动 | 5 |
在本实施例中,如表1所示,可分别将三级分类行业和四级分类行业映射到各自所属的二级分类行业;例如,将三级分类行业“谷物种植”向上级映射到二级分类行业“农业”的行业分类标签“1”,以及将四级分类行业“玉米种植”向上级映射到其所属的二级分类行业“农业”的行业分类标签“1”。同时还可将二级分类行业映射到本身的行业分类标签ID,例如将二级分类行业“农业”映射到二级分类行业“农业”自身的行业分类标签“1”。这样,就可利用不同级分类行业之间的层级关系来构建一系列单标签训练样本数据。
在本实施例中,如表1所示,还可将一级分类行业映射到多个二级分类行业的行业分类标签,例如,一级分类行业“农林牧渔业”向下级映射到多个二级分类行业的行业分类标签“[1,2,3,4,5]”,其分别对应农业,林业,畜牧业,渔业,农林渔牧专业及辅助性活动,从而确保有一小部分数据为多标签数据,确保模型能够学习到输入数据中的多行业维度。此时此刻,可以得到大约1700多条X,Y模型训练数据,其中有22条数据为多标签训练样本数据,余下为单标签训练样本数据。
在本实施例的一种可选方案中,在将各级分类行业向所属二级分类行业的行业分类标签进行映射时,各级分类行业映射的行业分类标签标识号采用独热编码方式进行预处理。例如,在将各级分类行业向所属二级分类行业的行业分类标签进行映射处理过程中,每一个y被表示为独热编码,如1,2,3,4,5会被表示为yi=(1,1,1,1,1,0,0,…0),yshape=98×1。
S120、采用行业分类训练数据样本以及行业分类训练数据样本中包括的行业分类标签,对预设行业分类模型进行有监督训练,得到目标行业分类模型。
在本实施例中,预设行业分类模型为预训练语言模型BERT,并且预训练语言模型BERT的权重经过微调处理,以最大程度运用到预训练语言模型。预训练语言模型BERT模型采用双向Transformer设计,由大规模语料进行了预训练,因此进行自然语言识别下游任务时,仅需少许的几个步长模型即可收敛,且具有很好的通用性,通过对此模型进行微调,从而完成特定下游行业分类任务。
在本实施例中,BERT模型的输入是一组序列,输出是一组序列。例如,输入为:[A,B,C,D,是,一,家,公,司],输出:[<CLS>,s0,s1,s2,s3,s4,s5,s6,s7,s8,<SEP>]。输出的序列中每一个向量均为768维的向量,其中<CLS>代表了这句话的句向量,可用于文本行业分类任务;s0~8代表了每一个字对应的字向量,可用于命名实体识别任务。
在一种可选方案中,其中,将预训练语言模型BERT的输出损失函数更改为变种softmax激活函数。具体地,BERT模型的输入为一串序列,例如,[“小”,“麦”,“种”,“植”];输出为包含CLS特征向量的序列,可对CLS特征向量进行变种softmax,之所以选择softmax变种也是为了方便于业务效果快。
在另一种可选方案中,其中,如果有充足的时间,将预训练语言模型BERT的输出损失函数更改为对应每一种行业分类sigmoid激活函数,计算每个行业分类的独立概率。
在本实施例的一种可选方案中,可以与上述一个或者多个实施例中各个可选方案结合。其中,在对预训练语言模型BERT进行训练时,每个Batch的样本数量为32,且输入文本的padding为39。具体地,图2是本发明实施例中提供的一种对预训练语言模型BERT进行训练的网络结构图。参见图2,采用每个Batch样本数量为32进行训练,同时对输入文本的padding为39,确保为短文本。对于超过39个字的文本将会被截断,少39个字的文本将会被用0adding为长度为39的向量,用来确保每个batch的输入向量大小一致。
在本实施例的一种可选方案中,可以与上述一个或者多个实施例中各个可选方案结合。其中,在对预训练语言模型BERT进行训练时,将预训练语言模型BERT输出的CLS特征向量进行size为98的全连接层DENSE,并直接取出输出的logits喂入损失函数,以在模型收敛时确定损失函数的阈值。具体地,变种softmax给我们返回的是一个98*1的每个元素属于0-1的向量,代表了输入在98维的分类标签下每一个维度的归一化概率。例如,可以通过对输出取一个阈值来确定分类输出标签的数量,经过测试,当阈值为-2时分类效果最佳。
根据本发明实施例中提供的行业分类模型的训练方法,各级分类行业类型较多,使得进行文本标注的政策公文文本也非常多,同时许多行业本身为止并没有相对应的政策公文文本,因此利用政策公文文本进行文本标注非常不现实,而本申请通过行业分类标准自带的层级关系来构建训练样本进行模型训练,可以实现不依赖任何标注数据,仅依靠文本的层级结构就完成了文本的受众行业分类,以及完成短文本、多标签文本的行业分类模型训练,且保证训练的模型能准确识别出公文短文本中的受众行业分类结果。以及,极大程度的利用了预训练模型的语义特征,实现了快速的为业务进行AI赋能。
在本实施例的一种可选方案中,可以与上述一个或者多个实施例中各个可选方案结合。其中,在采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签之前,还包括以下操作:对每一级分类行业下的行业分类训练数据样本进行样本数据扩充。
在一种可选方案,利用层级关系得到的训练样本数据还是比较少,为了提高模型训练的准确度,因此可对得到的训练样本数据进行增强。例如,对每一级分类行业下的行业分类训练数据样本进行样本数据扩充,可包括:采用SimBERT模型对每一级分类行业下的行业分类训练数据样本数据进行自然语言生成,得到新的行业分类训练数据样本数据,实现样本数据扩充。
在另一种可选方案中,对每一级分类行业下的行业分类训练数据样本进行样本数据扩充,可包括:采用简单数据增强EDA方式,对每一级分类行业下的行业分类训练数据样本数据进行同义词替换、随机插入、随机交换以及随机删除操作,得到新的行业分类训练数据样本数据,实现样本数据扩充。这样,通过数据扩充可增强模型的泛化性,降低模型过拟合的概率。
图3是本发明实施例中提供的一种行业分类模型的使用方法的流程图。本发明实施例可适用于对政策类公文文本进行行业匹配的情况。该方法可由行业分类模型的使用装置来执行,该装置可以采用软件和/或硬件的方式实现,并集成在任何具有网络通信功能的电子设备上。如图3所示,本申请实施例中提供的行业分类模型的使用方法,可包括以下步骤:
S310、从公文文本信息中得到一组文本输入序列。
S320、将一组文本输入序列输入到所述行业分类模型中,通过行业分类模型输出对应的CLS特征向量输出序列。
S330、依据CLS特征向量输出序列,确定与公文文本信息匹配的二级行业分类结果。
根据本发明实施例中提供的行业分类模型的使用方法,通过本申请方案中的行业分类模型可将此模型用作政策行业分类,能够接受任意输入的短文本并输出对应的行业,同时如果短文本和目标行业关系不大时,不会输出任何预测结果。通过关键词抽取和短语抽取等算法提取出我们需要的政策关键词和关键句,同时通过命名实体识别算法提取出政策中直接提及的行业,就可得到了一篇政策的多标签行业分类。
图4是本发明实施例中提供的一种行业分类模型的训练装置的结构框图。本发明实施例可适用于对受众行业的行业分类模型进行训练的情况。该装置可以采用软件和/或硬件的方式实现,并集成在任何具有网络通信功能的电子设备上。如图4所示,本申请实施例中提供的行业分类模型的训练方法,可包括以下:样本获取模块410和模型训练模块420。其中:
样本获取模块410,用于基于行业分类标准的层级关系,将各级分类行业向所属二级分类行业的行业分类标签进行映射,得到行业分类训练数据样本;
模型训练模块420,用于采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签,对预设行业分类模型进行有监督训练,得到目标行业分类模型。
在上述实施例的基础上,可选地,将各级分类行业向所属二级分类行业的行业分类标签进行映射,包括:
将一级分类行业向多个二级分类行业的行业分类标签进行映射,得到一级分类行业下的多标签行业分类训练数据样本;
将二级分类行业向所述二级分类行业的行业分类标签进行映射,得到所述二级分类行业下的单标签行业分类训练数据样本;
将三级分类行业向所述三级分类行业所属二级分类行业的行业分类标签进行映射,得到所述三级分类行业下的单标签行业分类训练数据样本;
将四级分类行业向所述四级分类行业所属二级分类行业的行业分类标签进行映射,得到所述四级分类行业下的单标签行业分类训练数据样本。
在上述实施例的基础上,可选地,在将各级分类行业向所属二级分类行业的行业分类标签进行映射时,各级分类行业映射的行业分类标签标识号采用独热编码方式进行预处理。
在上述实施例的基础上,可选地,在采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签之前,还包括:
对每一级分类行业下的行业分类训练数据样本进行样本数据扩充。
在上述实施例的基础上,可选地,对每一级分类行业下的行业分类训练数据样本进行样本数据扩充,包括:
采用SimBERT模型对每一级分类行业下的行业分类训练数据样本数据进行自然语言生成,得到新的行业分类训练数据样本数据,实现样本数据扩充。
在上述实施例的基础上,可选地,对每一级分类行业下的行业分类训练数据样本进行样本数据扩充,包括:
采用简单数据增强EDA方式,对每一级分类行业下的行业分类训练数据样本数据进行同义词替换、随机插入、随机交换以及随机删除操作,得到新的行业分类训练数据样本数据,实现样本数据扩充。
在上述实施例的基础上,可选地,所述预设行业分类模型为预训练语言模型BERT,且预训练语言模型BERT的权重经过微调处理。
在上述实施例的基础上,可选地,将预训练语言模型BERT的输出损失函数更改为变种softmax激活函数。
在上述实施例的基础上,可选地,将预训练语言模型BERT的输出损失函数更改为对应每一种行业分类sigmoid激活函数,计算每个行业分类的独立概率。
在上述实施例的基础上,可选地,在对预训练语言模型BERT进行训练时,每个Batch的样本数量为32,且输入文本的padding为39。
在上述实施例的基础上,可选地,在对预训练语言模型BERT进行训练时,将预训练语言模型BERT输出的CLS特征向量进行size为98的全连接层DENSE,并直接取出输出的logits喂入损失函数,以在模型收敛时确定损失函数的阈值。
本发明实施例中所提供的行业分类模型的训练装置可执行上述本发明任意实施例中所提供的行业分类模型的训练方法,具备执行该行业分类模型的训练方法相应的功能和有益效果,详细过程参见前述实施例中行业分类模型的训练方法的相关操作。
此外,本发明实施例中还公开了一种行业分类模型的使用装置,所述行业分类模型采用上述实施例中提供的任一所述的行业分类模型的训练方法训练来获得,本申请实施例中的行业分类模型的使用装置可包括:输入模块、输出模块和分类模块。其中,
输入模块,用于从公文文本信息中得到一组文本输入序列;
输出模块,用于将所述一组文本输入序列输入到所述行业分类模型中,通过所述行业分类模型输出对应的CLS特征向量输出序列;
分类模块,用于依据所述CLS特征向量输出序列,确定与所述公文文本信息匹配的二级行业分类结果。
本发明实施例中所提供的行业分类模型的使用装置可执行上述本发明任意实施例中所提供的行业分类模型的使用方法,具备执行该驾行业分类模型的使用方法相应的功能和有益效果,详细过程参见前述实施例中行业分类模型的使用方法的相关操作。
图5是本发明实施例中提供的一种电子设备的结构示意图。如图5所示结构,本发明实施例中提供的电子设备包括:一个或多个处理器510和存储装置520;该电子设备中的处理器510可以是一个或多个,图5中以一个处理器510为例;存储装置520用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器510执行,使得所述一个或多个处理器510实现如本发明实施例中任一项所述的行业分类模型的训练方法。
该电子设备还可以包括:输入装置530和输出装置540。
该电子设备中的处理器510、存储装置520、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线连接为例。
该电子设备中的存储装置520作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例中所提供的行业分类模型的训练方法对应的程序指令/模块。处理器510通过运行存储在存储装置520中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例中行业分类模型的训练方法。
存储装置520可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储装置520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
并且,当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器510执行时,程序进行如下操作:
基于行业分类标准的层级关系,将各级分类行业向所属二级分类行业的行业分类标签进行映射,得到行业分类训练数据样本;
采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签,对预设行业分类模型进行有监督训练,得到目标行业分类模型。
当然,本领域技术人员可以理解,当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器510执行时,程序还可以进行本发明任意实施例中所提供的行业分类模型的训练方法中的相关操作。
此外,本领域技术人员可以理解,当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器510执行时,程序还可以进行本发明任意实施例中所提供的行业分类模型的使用方法中的相关操作。
本发明实施例中提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时用于执行行业分类模型的训练方法,该方法包括:
基于行业分类标准的层级关系,将各级分类行业向所属二级分类行业的行业分类标签进行映射,得到行业分类训练数据样本;
采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签,对预设行业分类模型进行有监督训练,得到目标行业分类模型。。
可选的,该程序被处理器执行时还可以用于执行本发明任意实施例中所提供的行业分类模型的训练方法或者行业分类模型的使用方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、无线电频率(RadioFrequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (16)
1.一种行业分类模型的训练方法,其特征在于,所述方法包括:
基于行业分类标准的层级关系,将各级分类行业向所属二级分类行业的行业分类标签进行映射,得到行业分类训练数据样本;
采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签,对预设行业分类模型进行有监督训练,得到目标行业分类模型。
2.根据权利要求1所述的方法,其特征在于,将各级分类行业向所属二级分类行业的行业分类标签进行映射,包括:
将一级分类行业向多个二级分类行业的行业分类标签进行映射,得到一级分类行业下的多标签行业分类训练数据样本;
将二级分类行业向所述二级分类行业的行业分类标签进行映射,得到所述二级分类行业下的单标签行业分类训练数据样本;
将三级分类行业向所述三级分类行业所属二级分类行业的行业分类标签进行映射,得到所述三级分类行业下的单标签行业分类训练数据样本;
将四级分类行业向所述四级分类行业所属二级分类行业的行业分类标签进行映射,得到所述四级分类行业下的单标签行业分类训练数据样本。
3.根据权利要求1所述的方法,其特征在于,在将各级分类行业向所属二级分类行业的行业分类标签进行映射时,各级分类行业映射的行业分类标签标识号采用独热编码方式进行预处理。
4.根据权利要求1所述的方法,其特征在于,在采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签之前,还包括:
对每一级分类行业下的行业分类训练数据样本进行样本数据扩充。
5.根据权利要求4所述的方法,其特征在于,对每一级分类行业下的行业分类训练数据样本进行样本数据扩充,包括:
采用SimBERT模型对每一级分类行业下的行业分类训练数据样本数据进行自然语言生成,得到新的行业分类训练数据样本数据,实现样本数据扩充。
6.根据权利要求4所述的方法,其特征在于,对每一级分类行业下的行业分类训练数据样本进行样本数据扩充,包括:
采用简单数据增强EDA方式,对每一级分类行业下的行业分类训练数据样本数据进行同义词替换、随机插入、随机交换以及随机删除操作,得到新的行业分类训练数据样本数据,实现样本数据扩充。
7.根据权利要求1所述的方法,其特征在于,所述预设行业分类模型为预训练语言模型BERT,且预训练语言模型BERT的权重经过微调处理。
8.根据权利要求7所述的方法,其特征在于,将预训练语言模型BERT的输出损失函数更改为变种softmax激活函数。
9.根据权利要求7所述的方法,其特征在于,将预训练语言模型BERT的输出损失函数更改为对应每一种行业分类sigmoid激活函数,计算每个行业分类的独立概率。
10.根据权利要求7所述的方法,其特征在于,在对预训练语言模型BERT进行训练时,每个Batch的样本数量为32,且输入文本的padding为39。
11.根据权利要求7所述的方法,其特征在于,在对预训练语言模型BERT进行训练时,将预训练语言模型BERT输出的CLS特征向量进行size为98的全连接层DENSE,并直接取出输出的logits喂入损失函数,以在模型收敛时确定损失函数的阈值。
12.一种行业分类模型的使用方法,其特征在于,所述行业分类模型采用权利要求1-11任一所述的行业分类模型的训练方法获得,所述使用方法包括:
从公文文本信息中得到一组文本输入序列;
将所述一组文本输入序列输入到所述行业分类模型中,通过所述行业分类模型输出对应的CLS特征向量输出序列;
依据所述CLS特征向量输出序列,确定与所述公文文本信息匹配的二级行业分类结果。
13.一种行业分类模型的训练装置,其特征在于,所述装置包括:
样本获取模块,用于基于行业分类标准的层级关系,将各级分类行业向所属二级分类行业的行业分类标签进行映射,得到行业分类训练数据样本;
模型训练模块,用于采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签,对预设行业分类模型进行有监督训练,得到目标行业分类模型。
14.一种行业分类模型的使用装置,其特征在于,所述行业分类模型采用权利要求1-11任一所述的行业分类模型的训练方法获得,所述装置包括:
输入模块,用于从公文文本信息中得到一组文本输入序列;
输出模块,用于将所述一组文本输入序列输入到所述行业分类模型中,通过所述行业分类模型输出对应的CLS特征向量输出序列;
分类模块,用于依据所述CLS特征向量输出序列,确定与所述公文文本信息匹配的二级行业分类结果。
15.一种电子设备,其特征在于,包括:
一个或多个处理装置;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现权利要求1-11中任一所述的行业分类模型的训练方法或者权利要求12所述的行业分类模型的使用方法。
16.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-11中任一所述的行业分类模型的训练方法或者权利要求12所述的行业分类模型的使用方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011278739.0A CN112417150A (zh) | 2020-11-16 | 2020-11-16 | 行业分类模型训练、使用方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011278739.0A CN112417150A (zh) | 2020-11-16 | 2020-11-16 | 行业分类模型训练、使用方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112417150A true CN112417150A (zh) | 2021-02-26 |
Family
ID=74832466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011278739.0A Pending CN112417150A (zh) | 2020-11-16 | 2020-11-16 | 行业分类模型训练、使用方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417150A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925914A (zh) * | 2021-03-31 | 2021-06-08 | 携程旅游网络技术(上海)有限公司 | 数据安全分级方法、系统、设备及存储介质 |
CN113298352A (zh) * | 2021-04-28 | 2021-08-24 | 北京网核精策科技管理中心(有限合伙) | 企业行业信息处理方法、装置、电子设备及可读存储介质 |
CN113486178A (zh) * | 2021-07-12 | 2021-10-08 | 恒安嘉新(北京)科技股份公司 | 文本识别模型训练方法、文本识别方法、装置以及介质 |
CN113837216A (zh) * | 2021-06-01 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 数据分类方法、训练方法、装置、介质及电子设备 |
CN114091472A (zh) * | 2022-01-20 | 2022-02-25 | 北京零点远景网络科技有限公司 | 多标签分类模型的训练方法 |
CN114462556A (zh) * | 2022-04-13 | 2022-05-10 | 成都数之联科技股份有限公司 | 企业关联产业链分类方法、训练方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150340024A1 (en) * | 2014-05-23 | 2015-11-26 | Google Inc. | Language Modeling Using Entities |
CN108733778A (zh) * | 2018-05-04 | 2018-11-02 | 百度在线网络技术(北京)有限公司 | 对象的行业类型识别方法和装置 |
CN109783818A (zh) * | 2019-01-17 | 2019-05-21 | 上海三零卫士信息安全有限公司 | 一种企业行业多标签分类方法 |
CN111339308A (zh) * | 2020-05-22 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 基础分类模型的训练方法、装置和电子设备 |
-
2020
- 2020-11-16 CN CN202011278739.0A patent/CN112417150A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150340024A1 (en) * | 2014-05-23 | 2015-11-26 | Google Inc. | Language Modeling Using Entities |
CN108733778A (zh) * | 2018-05-04 | 2018-11-02 | 百度在线网络技术(北京)有限公司 | 对象的行业类型识别方法和装置 |
CN109783818A (zh) * | 2019-01-17 | 2019-05-21 | 上海三零卫士信息安全有限公司 | 一种企业行业多标签分类方法 |
CN111339308A (zh) * | 2020-05-22 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 基础分类模型的训练方法、装置和电子设备 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925914A (zh) * | 2021-03-31 | 2021-06-08 | 携程旅游网络技术(上海)有限公司 | 数据安全分级方法、系统、设备及存储介质 |
CN112925914B (zh) * | 2021-03-31 | 2024-03-15 | 携程旅游网络技术(上海)有限公司 | 数据安全分级方法、系统、设备及存储介质 |
CN113298352A (zh) * | 2021-04-28 | 2021-08-24 | 北京网核精策科技管理中心(有限合伙) | 企业行业信息处理方法、装置、电子设备及可读存储介质 |
CN113837216A (zh) * | 2021-06-01 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 数据分类方法、训练方法、装置、介质及电子设备 |
CN113837216B (zh) * | 2021-06-01 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 数据分类方法、训练方法、装置、介质及电子设备 |
CN113486178A (zh) * | 2021-07-12 | 2021-10-08 | 恒安嘉新(北京)科技股份公司 | 文本识别模型训练方法、文本识别方法、装置以及介质 |
CN113486178B (zh) * | 2021-07-12 | 2023-12-01 | 恒安嘉新(北京)科技股份公司 | 文本识别模型训练方法、文本识别方法、装置以及介质 |
CN114091472A (zh) * | 2022-01-20 | 2022-02-25 | 北京零点远景网络科技有限公司 | 多标签分类模型的训练方法 |
CN114462556A (zh) * | 2022-04-13 | 2022-05-10 | 成都数之联科技股份有限公司 | 企业关联产业链分类方法、训练方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417150A (zh) | 行业分类模型训练、使用方法、装置、设备及介质 | |
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN104462066B (zh) | 语义角色标注方法及装置 | |
WO2015180622A1 (zh) | 一种确定搜索查询词类别属性的方法和装置 | |
CN113312480B (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN116089873A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
CN113268561B (zh) | 一种基于多任务联合训练的问题生成方法 | |
CN113255321A (zh) | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN112417862A (zh) | 知识点预测方法、系统和可读存储介质 | |
CN114462556A (zh) | 企业关联产业链分类方法、训练方法、装置、设备和介质 | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN114254116A (zh) | 文献资料文本分类方法、分类模型构建方法和分类装置 | |
CN112347780B (zh) | 基于深度神经网络的司法事实查明生成方法、装置、介质 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
Sun | Research on product attribute extraction and classification method for online review | |
CN115796635A (zh) | 基于大数据和机器学习的银行数字化转型成熟度评价系统 | |
CN116089886A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN116304011A (zh) | 一种区域产业链的生成方法、装置与存储介质 | |
CN114547323A (zh) | 一种二维重叠大样本数据源的细粒度知识图谱融合方法 | |
CN114912460A (zh) | 基于文本挖掘的精细化拟合识别变压器故障方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220914 Address after: 25 Financial Street, Xicheng District, Beijing 100033 Applicant after: CHINA CONSTRUCTION BANK Corp. Address before: 12 / F, 15 / F, 99 Yincheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120 Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |