CN114462556B

CN114462556B - 企业关联产业链分类方法、训练方法、装置、设备和介质

Info

Publication number: CN114462556B
Application number: CN202210381971.XA
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-06-17
Anticipated expiration: 2042-04-13
Also published as: CN114462556A

Abstract

本申请实施例公开了一种企业关联产业链分类方法、训练方法、装置、设备和介质，该方法根据若干待分类企业的企业数据，对若干所述待分类企业进行行业分类，以获得分类后的企业数据；根据所述分类后的企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测，以获得产业链分类结果；根据所述产业链分类结果，获得若干所述待分类企业的产业链信息。也即，该方法在模型训练阶段和预测阶段都首先对企业数据按照行业大类进行划分，再针对各个行业的特点，构建差异化的分类模型，并分别对不同行业的企业进行产业链预测。由于考虑了不同行业中各企业的数据差异化，提升了不同行业的企业进行产业链分类时的针对性和准确性。

Description

企业关联产业链分类方法、训练方法、装置、设备和介质

技术领域

本申请涉及大数据挖掘技术领域，尤其涉及一种企业关联产业链分类方法、训练方法、装置、设备和介质。

背景技术

产业链是指各个产业部门之间基于技术经济关联等因素形成的链条式关联关系，其本质是不同企业之间的关联。利用产业链可以有效整合相关产业，调整、优化相关企业的关系，提高整个产业链的运作效能，促进整个产业的发展。

针对大规模的企业产业链分类，现有方法中，有一些基于自然语言处理技术进行产业链分类的方法，但其针对大规模企业数据进行产业链分类的准确性仍有待提高。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请实施例提供了一种企业关联产业链分类方法、训练方法、装置、设备和介质，解决了现有方法中针对大规模的企业产业链分类时准确性较低的技术问题。

一方面，本申请实施例提供了一种企业关联产业链分类方法，包括：

根据若干待分类企业的企业数据，对若干所述待分类企业进行行业分类，以获得分类后的企业数据；

根据所述分类后的企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测，以获得产业链分类结果；其中，多个所述产业链分类模型基于多个不同行业的预训练模型训练获得，各预训练模型基于各自所属行业的语料库构建；所述多个不同行业包括若干所述待分类企业的行业类别；

根据所述产业链分类结果，获得若干所述待分类企业的产业链信息。

可选地，所述根据所述企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测的步骤之前，还包括：

获取若干所述待分类企业所属行业的领域语料数据，以获得多个所述语料库；

抽取所述分类后的企业数据中的企业数据，以获得训练集和剩余企业数据；其中，所述训练集中包括每个行业类型中预设比例的待分类企业的企业数据；

对所述训练集中的企业数据进行产业链标注，以获得企业标注数据；

根据所述企业标注数据和多个所述语料库，采用多标签分类的训练方法，获得多个所述产业链分类模型；

所述根据所述分类后的企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测的步骤，包括：

根据所述剩余企业数据以及多个产业链分类模型，分别对所述剩余企业数据对应的待分类企业进行多标签分类预测。

在该实施方式中，一方面提前进行模型训练，可以提高企业关联产业链分类的效率；另一方面，区别于其他常规方法，考虑到不同行业企业数据的差异性以及不同企业特征对于分类效果的影响，本实施方式中的在对企业进行产业链分类前，首先对企业按照行业大类进行分类，然后再针对各个行业的特点，单独进行产业链分类，可以达到提升了不同行业的企业进行产业链分类时的针对性和准确性的目的。

可选地，所述根据所述企业标注数据和多个所述语料库，采用多标签分类的方法，训练获得多个所述产业链分类模型的步骤，包括：

根据多个所述语料库，构建各行业的预训练模型；

采用多标签分类的方法，将所述企业标注数据按照行业分类分别输入各行业的预训练模型，以获得多个所述产业链分类模型。

在该实施方式中，由于有的企业可能同时属于同一行业的多个产业链，而有的企业只属于一种产业链，而且不同企业归属的产业链类别数目不同，因此采用多标签分类的方法（不限定标签的数目），能更准确地反映企业归属产业链的真实情况。

可选地，所述对所述训练集中的企业数据进行产业链标注，以获得企业标注数据的步骤，包括：

根据若干所述待分类企业所属行业分类，构建各行业的企业特征；

基于所述各行业的企业特征和所述训练集中的企业数据，获得各企业的特征文本信息；

基于所述各企业的特征文本信息，对所述训练集中的企业数据进行产业链标注，以获得企业标注数据。

在该实施方式中，由于考虑到不同行业企业信息的差异性，针对每个行业的企业，选取不同的企业信息，作为企业的分类特征，提高了企业数据中企业特征标注的准确性，进而使得利用其训练获得的产业链分类模型准确率进一步提高。

可选地，所述产业链分类结果包括各企业所属产业链类型以及各企业所属产业链类型的概率值；

所述根据所述分类后的企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测，以获得产业链分类结果的步骤之后，还包括：

对最高的概率值小于概率阈值的企业进行核验，获得核验结果；

根据所述核验结果，对所述企业标注数据进行更新，获得更新企业标注数据；

所述根据所述企业标注数据和多个所述语料库，采用多标签分类的训练方法，获得多个所述产业链分类模型的步骤，包括：

根据所述更新企业标注数据和多个所述语料库，采用多标签分类的训练方法，获得多个所述产业链分类模型。

在该实施方式中，现有技术中由于受制于标注数据的规模，即使模型在标注数据上有较好的测试效果，也不能完全保证在大量未标注数据上也具有同样的效果，因此，为进一步提高分类的准确性，进行抽检并核验。

可选地，所述预训练模型基于bert模型构建。

在该实施方式中，一方面本实施例中，提取的文本普遍较短，因此，采用基础的bert模型效果较好；另一方面，利用BERT模型在特定知识领域进行预训练的方法，能针对行业资讯、报告等行业语料库，采用自监督学习的方法自动学习特定行业产业链的领域知识；在此基础上，采用多标签分类的方法，不预设固定的产业链类别数目，在分类上更加灵活，也更加契合企业的实际情况。而避免像现有技术中在整理标签时需要人员人工整理与产业链标签相关的同义词、近义词、相关词等关键词库，对工作人员的专业性要求较高，时间成本较大。

再一方面，本申请实施例提供了一种企业产业链分类模型的训练方法，包括：

抽取所述分类后的企业数据中的企业数据，以获得训练集；其中，所述训练集中包括每个行业类型中预设比例的待分类企业的企业数据；

根据所述企业标注数据和多个所述语料库，采用多标签分类的训练方法，获得多个所述产业链分类模型。

根据多个所述语料库，构建各行业的预训练模型；

再一方面，本申请实施例提供了一种企业关联产业链分类装置，包括：

数据分类模块，用于根据若干待分类企业的企业数据，对若干所述待分类企业进行行业分类，以获得分类后的企业数据；

分类预测模块，用于根据所述分类后的企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测，以获得产业链分类结果；其中，多个所述产业链分类模型基于多个不同行业的预训练模型训练获得，各预训练模型基于各自所属行业的语料库构建；所述多个不同行业包括若干所述待分类企业的行业类别；

信息获得模块，用于根据所述产业链分类结果，获得若干所述待分类企业的产业链信息。

再一方面，本申请实施例提供了一种企业产业链分类模型的训练装置，包括：

企业数据分类模块，用于根据若干待分类企业的企业数据，对若干所述待分类企业进行行业分类，以获得分类后的企业数据；

行业数据获取模块，用于获取若干所述待分类企业所属行业的领域语料数据，以获得多个所述语料库；

数据抽取模块，用于抽取所述分类后的企业数据中的企业数据，以获得训练集；其中，所述训练集中包括每个行业类型中预设比例的待分类企业的企业数据；

数据标注模块，用于对所述训练集中的企业数据进行产业链标注，以获得企业标注数据；

模型训练模块，用于根据所述企业标注数据和多个所述语料库，采用多标签分类的训练方法，获得多个所述产业链分类模型。

再一方面，本申请实施例提供了一种电子设备，包括：存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序，实现前述方法。

再一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述处理器执行所述计算机程序，实现前述方法。

本申请的实施例提供一种企业关联产业链分类方法、训练方法、装置、设备和介质，该方法根据若干待分类企业的企业数据，对若干所述待分类企业进行行业分类，以获得分类后的企业数据；根据所述分类后的企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测，以获得产业链分类结果；其中，多个所述产业链分类模型基于多个不同行业的预训练模型训练获得，各预训练模型基于各自所属行业的语料库构建；所述多个不同行业包括若干所述待分类企业的行业类别；根据所述产业链分类结果，获得若干所述待分类企业的产业链信息。也即，该方法在模型训练阶段和预测阶段都首先对企业数据按照行业大类进行划分，再针对各个行业的特点，构建差异化的分类模型，并分别对不同行业的企业进行产业链预测。由于考虑了不同行业中各企业的数据差异化，提升了不同行业的企业进行产业链分类时的针对性和准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种电子设备的结构示意图；

图2是本申请实施例提供的一种企业关联产业链分类方法的流程示意图；

图3是本申请实施例提供的另一种企业关联产业链分类方法的流程示意图；

图4是本申请实施例提供的一种企业产业链分类模型的训练方法的流程示意图；

图5是本申请实施例提供的一种企业关联产业链分类装置的结构示意图；

图6是本申请实施例提供的一种企业产业链分类模型的训练装置的结构示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例的主要解决方案是：根据若干待分类企业的企业数据，对若干所述待分类企业进行行业分类，以获得分类后的企业数据；根据所述分类后的企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测，以获得产业链分类结果；其中，多个所述产业链分类模型基于多个不同行业的预训练模型训练获得，各预训练模型基于各自所属行业的语料库构建；所述多个不同行业包括若干所述待分类企业的行业类别；根据所述产业链分类结果，获得若干所述待分类企业的产业链信息。

当前构建产业链的核心过程包括：建立产业链结构和依托产业链关联相关企业。针对依托产业链关联相关企业的问题，现有方法大多针对上市公司，依靠行业专家通过分析财报数据确定公司的主营业务类别，从而确定相关的产业链，这些方法高度依赖行业专家的经验知识。一些基于自然语言处理技术进行产业链分类的方法，在特征选取时没有考虑不同行业的差异性，而且在前期处理阶段需要人工构建相关产业的专业词库，工作专业性很强而且工作量较大，这些因素一定程度上影响了针对大规模企业数据进行产业链分类的准确性和适用性。

具体的，在一些现有的方法中，其高度依赖行业专家等研究人员对特定企业主营业务等财报数据的深入分析，不仅人力成本较高，而且不同行业的领域知识差异较大，更换一个行业领域就需要另请相关行业专家，该方法在针对大规模的多个行业的企业产业链分类问题中不具有通用性和可推广性。此外，这些方法仅适用于一些数据公开程度较好、企业业务财报数据比较充分的大型企业。在另一些现有的方法中，需要先将企业所有的主营业务关联到对应的国家行业标准节点上，然后再完成国家行业标准与相应产业链之间的关联匹配，没有直接将企业与产业链关联起来。实际中，国家行业标准的分类体系与产业链的分类体系，存在一定的差异性（比如国家行业标准侧重于全门类企业的工商信息管理，而产业链侧重于依据当前经济政策形势和产业发展动态设置重点关注的产业），该方案的产业链分类方法将影响分类的准确性；此外，这些现有方法还高度依赖上市公司的财报，数据要求较高。

为此，本申请提供一种解决方案，在模型训练阶段和预测阶段都首先对企业数据按照行业大类进行划分，再针对各个行业的特点，构建差异化的分类模型，并分别对不同行业的企业进行产业链预测。由于考虑了不同行业中各企业的数据差异化，提升了不同行业的企业进行产业链分类时的针对性和准确性。

参照图1，图1为本申请实施例方案涉及的硬件运行环境的电子设备结构示意图。

如图1所示，该电子设备可以包括：处理器1001，例如中央处理器（CentralProcessing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（WIreless-FIdelity，WI-FI）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM）存储器，也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及电子程序。

在图1所示的电子设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明电子设备中的处理器1001、存储器1005可以设置在电子设备中，所述电子设备通过处理器1001调用存储器1005中存储的企业关联产业链分类装置，并执行本申请实施例提供的企业关联产业链分类方法。

参见图2，本申请的实施例提供了一种企业关联产业链分类方法，包括：

S20、根据若干待分类企业的企业数据，对若干所述待分类企业进行行业分类，以获得分类后的企业数据；

在具体实施过程中，待分类企业是指需要根据产业链进行分类的企业，在本实施例中，分类对象为一定数量的企业，因此，本实施例中收集的数据包括若干个待分类企业的企业数据。

可以理解的是，在步骤S20之前，首先需要进行数据采集。数据采集过程，应综合考虑待分类企业的特点、数据的可获取性以及数据采集的成本、难易程度以及相关数据对于产业链分类的重要性等。数据采集可以根据模型分类的效果不断迭代补充。一般来说，企业能够提供的信息类型越多样、信息越完整，产业链分类效果就越好。

对于企业的产业链分类问题，核心在于通过各种信息判断出企业的核心主营业务，因此可以围绕“资金流、人流、物流”这三个核心生产要素的流动来分析企业的经营业务，也即以“资金链、人才链、供应链”来“定位”企业的主营业务，并“锚定”企业在产业链中的位置。

具体的，企业数据，包括但不限于：企业的营业执照信息、官网信息、资质证书、产品信息、专利信息、软著信息、投资信息、融资信息、招聘信息、分支机构、股东信息、以及行政处罚、开庭公告、社保信息、纳税信息、上游供应商信息、下游客户信息、企业相关登记备案或申报的信息等。企业数据采集方式，包括但不限于：使用爬虫从公开网站爬取、采用合法合规手段购买第三方平台的数据等。

这里需要说明的是，本实施例中的企业数据可以有两种情况：第一，其包括两部分，其中一小部分用于作为后续的产业链分类模型的训练数据，另一部分企业数据使用产业链分类模型进行企业分类；第二，全部作为待分类企业的数据（也可以看作是第一种情况的另一部分数据），用训练好的产业链分类模型对其进行分类识别。在本实施例中并不做具体限制，也就是说，后续的产业链分类模型可能基于本实施例中的企业数据训练获得，也可能基于历史企业数据训练获得。

对企业数据按照行业大类分类的方法，包括但不限于：使用企业工商信息中的“行业类别”，实现快速的行业分类。具体的筛选实现方式，包括但不限于：使用行业代码匹配筛选、使用行业类别名称关键词匹配筛选等。

举例来说，需要将15万家企业分类关联到22个产业链中。待分类的15万家企业，属于“电子信息”、“装备制造”、“绿色食品”、“生物医药”、“先进材料”五大行业。每个行业有若干个政府以及商界重点关注的产业链，如表1所示。

表1 本实施例中五大行业相关的产业链

行业	相关产业链
		电子信息	大数据、人工智能、5G、北斗、网路安全、集成电路、新型显示、消费电子
装备制造	智能汽车、轨道交通、航空航天制造、智能制造
		绿色食品	白酒、调味品、休闲食品
生物医药	医药制造、医药器械
		先进材料	高性能纤维及复合材料、新能源电池材料、新型金属功能材料、绿色建筑材料、半导体材料

例如，在按照行业分类时，只要企业基本信息中的行业类别中出现“农副食品加工业（行业类别代码：C13）”、“食品制造业（行业类别代码：C14）”、“酒、饮料和精制茶制造业（行业类别代码：C15）”、“烟草制品业（行业类别代码：C16）”，就将该企业划入“绿色食品”行业大类中，以此类推。

通过比较表1中不同行业的企业数据和产业链，可以发现：（1）不同行业间产业链的差异较大，同一行业内的产业链比较接近，例如生物医药行业的“医药制造”产业链和“医疗器械”产业链；（2）即使是同种类型的企业特征（企业特征，也即用来对企业进行分类的企业信息，如企业的产品、专利、经营范围、资质等，这些都可以作为企业分类时的特征，下同），不同行业的企业间也存在明显差异。例如电子信息行业，企业的经营范围一般非常宽泛，经营范围的描述中除了“计算机”、“通信”等业务外，还包括各类经营活动，很难通过企业申报的经营范围有效判定企业真正的主营业务，给企业的产业链分类带来了极大的困难。而装备制造行业、医药健康行业的“企业经营范围”一般描述比较集中，甚至还有一些特许经营项目（在办理工商登记时必须先获得其他相关部门的审批），进一步增大了经营范围特征的可信度。（3）某些行业具有一些非常有效的分类特征，例如“医药”行业的企业一般都必须具备“药品生产企业”资质证书或者“医疗器械经营企业许可证”等，而医药行业的产业链包括“医药制造”和“医疗器械”，因此企业的“资质证书信息”，对于医药行业的产业链分类非常有用。而相应的电子信息行业的企业，有资质证书的企业并不多，即使有，也大多为“质量管理体系认证(ISO9000)”、“高新技术企业认证”等，该特征对于电子信息行业的产业链分类并没有实际的意义。（4）对于同种企业特征，不同行业的企业在数据完整性上也存在较大差异，例如绿色食品行业的企业拥有“专利信息”的比例非常低，即使有也大多集中于外包装专利，对于产业链分类效果不明显，而电子信息行业的企业中拥有“专利信息”的企业比例较高，而且是一个非常重要的分类特征。

综上所述，区别于其他常规方法，考虑到不同行业企业数据的差异性以及不同企业特征对于分类效果的影响，本实施例的方法在对企业进行产业链分类前，首先对企业按照行业大类进行分类，然后再针对各个行业的特点，单独进行产业链分类，可以达到提升了不同行业的企业进行产业链分类时的针对性和准确性的目的。下面继续对本实施例的方法进行完整的解释说明。

S40、根据所述分类后的企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测，以获得产业链分类结果；其中，多个所述产业链分类模型基于多个不同行业的预训练模型训练获得，各预训练模型基于各自所属行业的语料库构建；所述多个不同行业包括若干所述待分类企业的行业类别；

在具体实施过程中，本实施例的执行过程中，多个所述产业链分类模型可以是预先训练好的。多个所述产业链分类模型基于多个不同行业的预训练模型训练获得，各预训练模型基于各自所属行业的语料库构建，即针对不同的行业，训练获得了多个产业链分类模型。

可以理解的是，由于有的企业可能同时属于同一行业的多个产业链，而有的企业只属于一种产业链，而且不同企业归属的产业链类别数目不同，因此，本实施例采用多标签分类的方法（不限定标签的数目），能更准确地反映企业归属产业链的真实情况，从而提高企业产业链分类的准确率。相应的，产业链分类模型训练时采用多标签标注。

在具体实施过程中，可以根据从企业数据中提取的企业特征文本的特点，选取不同类型的bert（Bidirectional Encoder Representation from Transformers，一种基于双向语言表征的预训练语言表征模型，在文本分类、文本理解等自然语言任务中具有非常好的效果。）模型或者其他类型的自然语言处理模型，包括但不限于：基础的bert模型以及Bert WWM、ERNIE、XLNet长、FastText、TextCNN等。作为一种可选的实施方式，在本实施例中，提取的文本普遍较短，因此，针对文本长度较短的企业特征数据，采用基础的bert模型效果较好。

此外，本实施例利用BERT模型在特定知识领域进行预训练的方法，能针对行业资讯、报告等行业语料库，采用自监督学习的方法自动学习特定行业产业链的领域知识；在此基础上，采用多标签分类的方法，不预设固定的产业链类别数目，在分类上更加灵活，也更加契合企业的实际情况。而避免像现有技术中在整理标签时需要人员人工整理与产业链标签相关的同义词、近义词、相关词等关键词库，对工作人员的专业性要求较高，时间成本较大。

作为一种可选地实施方式，以前述企业数据包括两部分（即利用企业数据中的小部分进行模型训练）为例，参见图3，所述根据所述企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测的步骤之前，还包括：

S102、获取若干所述待分类企业所属行业的领域语料数据，以获得多个所述语料库；

在具体实施过程中，各行业的领域语料数据，包括但不限于：行业资讯、行业白皮书、行业内各产业链的发展报告等。

领域语料数据采集方式与企业数据相同，包括但不限于：使用爬虫从公开网站爬取、通过合法合规手段购买第三方平台的数据、从相关监管部门获取、企业自行提供等。

S104、抽取所述分类后的企业数据中的企业数据，以获得训练集；其中，所述训练集中包括每个行业类型中预设比例的待分类企业的企业数据；

在具体实施过程中，预设比例可以由用户根据数据规模灵活设置，在本实施例中，经过实验验证，抽取比例不应低于待分类数据总体的5%。

此外，抽取的数据中，还可以包括验证集和测试集，用于模型的测试，从而提高模型的准确率。

S106、对所述训练集中的企业数据进行产业链标注，以获得企业标注数据；

在具体实施过程中，企业标注数据中包括企业分类特征和标注信息。

作为一种可选地实施方式，所述对所述训练集中的企业数据进行产业链标注，以获得企业标注数据的步骤，包括：

具体的，考虑到不同行业企业信息的差异性，针对每个行业的企业，选取不同的企业信息，作为企业的分类特征，所有特征在后续步骤中将以文本型特征的形式，输入bert预训练模型中。根据前述的实例，各个行业的企业特征选取可以如表2所示：

表2不同行业的企业进行产业链分类时选取的特征

S108、根据所述企业标注数据和多个所述语料库，采用多标签分类的训练方法，获得多个所述产业链分类模型；

在具体实施过程中，企业标注数据和语料库都是分行业的，因此，可以以行业为单位训练获得不同行业的多个产业链分类模型。

作为一种可选地实施方式，所述根据所述企业标注数据和多个所述语料库，采用多标签分类的方法，训练获得多个所述产业链分类模型的步骤，包括：

根据多个所述语料库，构建各行业的预训练模型；

在具体实施过程中，预训练模型可以认为是初始模型。

可以理解的是，一方面，一些行业往往专业性较强，表现出特定领域知识难以理解的特点，尤其给标注和模型分类带来了较大的难度。因此，现有常规的基于自然语言处理的模型，往往利用通用领域知识训练得到的自然语言模型进行训练预测，没有考虑特定领域的特殊性，在一些特殊的专业领域上进行产业链分类的效果往往并不好。例如：本实施例中，待分类的企业中“先进材料”、“生物医药”、“电子信息”等行业的词汇专业性非常强，采集的企业专利、产品等信息中包含大量专业术语，必须结合特定领域的知识提升自然语言处理模型的准确度。本实施例的方法针对特定行业领域的特殊性，基于自然语言处理领域比较成熟的bert模型，采用自监督学习的方法，利用获取的行业语料数据（语料库），构建针对多个行业的特定领域的预训练模型。因此，基于该预训练模型训练获得的产业链分类模型分类准确率更高。另一方面，由于有的企业可能同时属于同一行业的多个产业链，而有的企业只属于一种产业链，而且不同企业归属的产业链类别数目不同，因此采用多标签分类的方法（不限定标签的数目），能更准确地反映企业归属产业链的真实情况。

相应的，在本实施例中，所述根据所述分类后的企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测的步骤，包括：

在具体实施过程中，剩余企业数据即为未标注的企业数据，因此，将剩余企业数据按照行业分类，分别输入对应的产业链分类模型，即可获得分类结果。

作为一种可选地实施方式，所述产业链分类结果包括各企业所属产业链类型以及各企业所属产业链类型的概率值；

在具体实施过程中，概率值可以作为该类别的置信度，依托预测得到的企业归属的产业链类型和不同类别的预测概率，可以更好地把握企业的主营业务方向和归属的主要产业链，从而更好地辅助决策。

例如：针对某家电子信息行业类的企业，预测其同时归属“大数据”（预测概率0.8）、“人工智能”（预测概率0.6）、“5G”（预测概率0.95）、“消费电子”（预测概率0.85）4类产业链，可知该公司最主营的业务和优势是“5G”和“消费电子”，该企业在这两类产业链上具有非常核心的地位和竞争优势，对于该产业链的发展具有较大的影响力，政府或投资者在谋划布局“5G”和“消费电子”产业链发展时，应当重点考虑该企业。而相应地，“人工智能”目前还不是该企业的重点方向，单依靠该企业还不足以支撑起“人工智能”产业链的发展，政府还应积极招商引资延链补链。

此外，由于受制于标注数据的规模，即使模型在标注数据上有较好的测试效果，也不能完全保证在大量未标注数据上也具有同样的效果，因此，为进一步提高分类的准确性，进行抽检并核验。

其中，抽检包括两种方式：（1）随机抽检；（2）根据输出类别的概率抽检，即若针对某家企业预测的多个分类中，置信度最大的类别的概率值小于预设阈值时，则对该企业的产业链分类结果进行核验。例如某家企业预测的产业链类别为：“大数据”（0.55）、“5G”（0.52），预设阈值为0.6，显然其置信度最高的产业链类别的概率（0.55）低于预设阈值，因此对其进行核验，并根据核验情况修改模型的输出结果。核验的方式，包括但不限于：参照相关行业资讯报告以及企业数据，使用人工核验或自动化核验的方式，进行核验标注。自动化核验的方式，包括但不限于：在相关产业链的报告、数据库或企业名录中，按照字符串匹配的方式，利用检索工具检索该企业的名字。检索匹配后则进行自动核验标注。

在获得核验结果后，对企业标注数据进行更新，并返回重新迭代训练，不断扩增标注数据的规模，持续优化模型性能，进一步提高模型的分类准确率。

S60、根据所述产业链分类结果，获得若干所述待分类企业的产业链信息。

在具体实施过程中，得到模型输出的产业链分类结果后，可以根据概率来确定待分类企业的产业链信息。

应当理解的是，以上仅为举例说明，对本申请的技术方案并不构成任何限制，本领域的技术人员在实际应用中可以基于需要进行设置，此处不做限制。

通过上述描述不难发现，本实施例的方法在模型训练阶段和预测阶段都首先对企业数据按照行业大类进行划分，再针对各个行业的特点，构建差异化的分类模型，并分别对不同行业的企业进行产业链预测。由于考虑了不同行业中各企业的数据差异化，提升了不同行业的企业进行产业链分类时的针对性和准确性。

具体来说，本实施例的方法优点可以总结如下：

（1）着眼于不同行业的企业在进行产业链分类时特征信息的显著差异，创新性地提出先将企业按照行业大类分类，再针对各个行业的特点，构建差异化的分类模型，提升了不同行业的企业进行产业链分类时的针对性、准确性。而且针对不同行业的数据分别进行相关产业链的分类，标注人员只需要在该行业的企业数据中，标注与该行业有关的产业链，显著降低了标注的复杂性。同时，也增强了模型的灵活性，技术人员可以根据各个行业不断补充的企业数据的特点，针对性地调整、完善相应行业的分类模型。

（2）将基于特定领域语料库的预训练方法运用到产业链分类问题中，提升了在特殊行业领域中基于自然语言处理技术进行产业链分类的准确性。

（3）考虑到实际中针对大规模的企业数据进行分类时标注数据的有限性以及标注的长期性（标注往往要耗费大量时间），在产业链分类问题中创新性地提出将模型输出进行核验后重新标注的结果，重新添加到原始的标注数据集中，通过“模型输出--核验”之间的联动，持续不断增加标注数据的规模，以不断迭代优化模型的性能。

（4）区别于常规分类方法中选取分类预测概率排名靠前的产业链类别作为企业最有可能的产业链类别（如只选取排名前三的类别），本发明采用多标签分类的方法，无需设置预测输出的类别数目，类别数目不固定，更加符合企业归属产业链的真实情况。

参见图4，基于相同的发明思路，本申请的实施例还提供了一种企业产业链分类模型的训练方法，包括：

S202、根据若干待分类企业的企业数据，对若干所述待分类企业进行行业分类，以获得分类后的企业数据；

S204、获取若干所述待分类企业所属行业的领域语料数据，以获得多个所述语料库；

S206、抽取所述分类后的企业数据中的企业数据，以获得训练集；其中，所述训练集中包括每个行业类型中预设比例的待分类企业的企业数据；

S208、对所述训练集中的企业数据进行产业链标注，以获得企业标注数据；

S210、根据所述企业标注数据和多个所述语料库，采用多标签分类的训练方法，获得多个所述产业链分类模型。

根据多个所述语料库，构建各行业的预训练模型；

需要说明的是，本实施例中企业产业链分类模型的训练与前述实施例中的企业关联产业链分类方法中的模型训练步骤实质相同，因此，本实施例的具体实施方式和达到的技术效果可参照前述实施例中的实施方式，这里不再赘述。

参见图5，基于相同的发明思路，本申请的实施例还提供一种企业关联产业链分类装置，包括：

需要说明的是，本实施例中企业关联产业链分类装置中各模块是与前述实施例中的企业关联产业链分类方法中的各步骤一一对应，因此，本实施例的具体实施方式和达到的技术效果可参照前述企业关联产业链分类方法的实施方式，这里不再赘述。

参见图6，基于相同的发明思路，本申请的实施例还提供一种企业产业链分类模型的训练装置，包括：

需要说明的是，本实施例中企业产业链分类模型的训练装置中各模块是与前述实施例中的企业产业链分类模型的训练方法中的各步骤一一对应，因此，本实施例的具体实施方式和达到的技术效果可参照前述企业产业链分类模型的训练方法的实施方式，这里不再赘述。

此外，在一种实施例中，本申请还提供一种电子设备，所述电子设备包括处理器，存储器以及存储在所述存储器中的计算机程序，所述计算机程序被处理器运行时实现前述实施例中方法的步骤。

此外，在一种实施例中，本申请还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现前述实施例中方法的步骤。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器/随机存取存储器、磁碟、光盘）中，包括若干指令用以使得一台多媒体终端设备(可以是手机，计算机，电视接收机，或者网络设备等)执行本申请各个实施例所述的方法。

以上所揭露的仅为本申请的局部实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或局部流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种企业关联产业链分类方法，其特征在于，包括：

根据所述分类后的企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测，以获得产业链分类结果；其中，多个所述产业链分类模型基于多个不同行业的预训练模型训练获得，各预训练模型基于各自所属行业的语料库和企业标注数据获得，所述企业标注数据基于若干待分类企业的特征文本信息对训练集中的企业数据进行产业链标注获得，若干待分类企业的所述特征文本信息基于各行业的企业特征和训练集中的企业数据获得，各行业的企业特征根据若干所述待分类企业所属行业分类获得，所述训练集中包括每个行业类型中预设比例的待分类企业的企业数据；所述多个不同行业包括若干所述待分类企业的行业类别；

2.根据权利要求1所述的方法，其特征在于，所述根据所述企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测的步骤之前，还包括：

抽取所述分类后的企业数据中的企业数据，以获得所述训练集和剩余企业数据；

3.根据权利要求2所述的方法，其特征在于，所述根据所述企业标注数据和多个所述语料库，采用多标签分类的方法，训练获得多个所述产业链分类模型的步骤，包括：

根据多个所述语料库，构建各行业的预训练模型；

4.根据权利要求2所述的方法，其特征在于，所述对所述训练集中的企业数据进行产业链标注，以获得企业标注数据的步骤，包括：

基于所述各行业的企业特征和所述训练集中的企业数据，获得各待分类企业的特征文本信息；

基于所述各待分类企业的特征文本信息，对所述训练集中的企业数据进行产业链标注，以获得企业标注数据。

5.根据权利要求2所述的方法，其特征在于，所述产业链分类结果包括各待分类企业所属产业链类型以及各待分类企业所属产业链类型的概率值；

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述预训练模型基于bert模型构建。

7.一种企业产业链分类模型的训练方法，其特征在于，包括：

获取若干所述待分类企业所属行业的领域语料数据，以获得多个语料库；

基于所述各待分类企业的特征文本信息，对所述训练集中的企业数据进行产业链标注，以获得企业标注数据；

根据多个所述语料库，构建各行业的预训练模型；

8.一种企业关联产业链分类装置，其特征在于，包括：

分类预测模块，用于根据所述分类后的企业数据以及多个产业链分类模型，分别对若干所述待分类企业进行多标签分类预测，以获得产业链分类结果；其中，多个所述产业链分类模型基于多个不同行业的预训练模型训练获得，各预训练模型基于各自所属行业的语料库构建和企业标注数据获得，所述企业标注数据基于若干待分类企业的特征文本信息对训练集中的企业数据进行产业链标注获得，若干待分类企业的所述特征文本信息基于各行业的企业特征和训练集中的企业数据获得，各行业的企业特征根据若干所述待分类企业所属行业分类获得，所述训练集中包括每个行业类型中预设比例的待分类企业的企业数据；所述多个不同行业包括若干所述待分类企业的行业类别；

9.一种企业产业链分类模型的训练装置，其特征在于，包括：

行业数据获取模块，用于获取若干所述待分类企业所属行业的领域语料数据，以获得多个语料库；

数据标注模块，用于根据若干所述待分类企业所属行业分类，构建各行业的企业特征；基于所述各行业的企业特征和所述训练集中的企业数据，获得各待分类企业的特征文本信息；基于所述各待分类企业的特征文本信息，对所述训练集中的企业数据进行产业链标注，以获得企业标注数据；

模型训练模块，用于根据多个所述语料库，构建各行业的预训练模型；采用多标签分类的方法，将所述企业标注数据按照行业分类分别输入各行业的预训练模型，以获得多个所述产业链分类模型。

10.一种电子设备，其特征在于，该电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序，实现如权利要求1-7中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，处理器执行所述计算机程序，实现如权利要求1-7中任一项所述的方法。