CN117591676B

CN117591676B - 一种Coarse-to-fine的产业链链上企业识别方法

Info

Publication number: CN117591676B
Application number: CN202410079270.XA
Authority: CN
Inventors: 滕越; 董士风; 林传文; 王佐成; 吴光周; 王逸伟
Original assignee: Data Space Research Institute
Current assignee: Data Space Research Institute
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-04-05
Anticipated expiration: 2044-01-19
Also published as: CN117591676A

Abstract

本发明公开了一种Coarse‑to‑fine的产业链链上企业识别方法，包括如下方法步骤：S1、获取专利数据并进行数据预处理；S2、专利数据伪标签的生成；S3、链上专利粗识别网络的构建；S4、链上专利粗识别网络的训练；S5、链上专利粗识别网络全量发明专利识别结果的获取；S6、链上专利细识别网络的构建；S7、链上专利细识别网络的训练；S8、待识别专利数据的获取；S9、链上专利识别结果的获取；S10、链上企业识别结果的获取。本发明解决了链上企业识别颗粒度粗、识别结果不准确等问题，大幅提升深度学习方法在产业链链上企业识别任务上的可用性。

Description

一种Coarse-to-fine的产业链链上企业识别方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种Coarse-to-fine的产业链链上企业识别方法。

背景技术

挖掘产业链链上企业是产业链分析的主要难点及挑战性任务之一。现有方法利用机器学习技术和企业经营范围数据识别链上企业，主要存在以下弊端：1、传统机器学习方法准确率低、需要人工设计的特征提取方式，对于不同产业的文本数据需要特定的特征提取器，泛化能力较弱；2、企业经营范围数据质量差，不准确，经营范围中的内容可能不是企业现今业务、不精确，描述的颗粒程度较粗等问题严重影响产业链各环节链上企业的准确识别。

随着深度学习的发展，基于卷积神经网络的文本分类方法成为了广大学者的研究热点，在垃圾邮件分类、情感分析、新闻主题检测等领域被广泛应用，并取得了令人瞩目的成果。对于链上企业识别算法而言，由于经营范围数据的种种弊端，不得不使用更加精确的数据进行产业链链上企业识别。相较于新闻检测、情感分析任务的数据集，专利数据专业性强、专业词汇多、不得不邀请领域专家对其进行标注。此外，专利数据专有名词较多、理解难度更大，对于模型性能和训练方法提出了更高的要求。另一方面，专利数据存在严重的样本不均衡问题，例如一些薄弱环节的正样本数量仅有几十个，而负样本数量多达几十万个，严重影响产业链链上企业识别模型的准确性。因此，如何提供一种Coarse-to-fine的产业链链上企业识别方法是本领域技术人员亟需解决的问题。

发明内容

本发明的一个目的在于提出一种Coarse-to-fine的产业链链上企业识别方法，本发明与现有技术相比通过伪标签的方式标注海量专利数据，解决卷积神经网络需要大量标注数据且专利数据标注费时费力的问题，解决了链上企业识别颗粒度粗、识别结果不准确等问题，大幅提升深度学习方法在产业链链上企业识别任务上的可用性。

根据本发明实施例的一种Coarse-to-fine的产业链链上企业识别方法，包括如下方法步骤：

S1、获取企业专利数据集，并对专利数据集进行数据预处理；

S2、通过人工设定的链上各环节关键词及非链上各环节关键词，对企业专利数据集内的数据进行自动标注；

S3、基于Transformer技术构建专利粗识别网络；

S4、利用全量企业专利摘要数据对专利粗识别网络进行领域预训练，得到专利粗识别网络预训练模型，利用带标签的全量企业专利摘要数据对专利粗识别网络预训练模型进行微调训练，得到训练好的专利粗识别网络；

S5、利用训练好的专利粗识别网络在全量专利数据上进行检测，获取所有链上专利粗识别结果；

S6、基于专利粗识别网络结构构建专利细识别网络；

S7、利用Fine-tuning方法结合专利粗识别网络模型参数以及自动标注的专利数据对专利细分类网络进行微调训练；

S8、获取待分类的企业专利数据并进行数据预处理；

S9、将待分类专利数据送入训练好的专利粗识别网络以及专利细识别网络进行计算，得出专利分类结果；

S10、根据专利分类结果，综合计算企业链上专利数量、企业总专利数量和企业链上专利数量占比维度识别链上企业，得出链上企业识别结果。

可选的，所述S2具体包括：

S21、设定构建产业链链上关键词集合，非产业链链上关键词，产业链链上环节以及产业链链上环节的关键词集合；

其中，链上环节关键词为环节的指示性关键词，非链上关键词为不属于产业链的关键词，用于区分有歧义的链上关键词；

S22、对于任意专利数据，若产业链链上环节的关键词集合中的任意关键词存在于专利数据的题目中，且对于任意的产业链链上关键词存在于专利数据的题目、摘要或专利所属企业的经营范围中，同时满足任意非产业链链上关键词不包括于专利的题目中，则赋以该条专利产业链链上环节的标签。

可选的，所述构建专利粗识别网络具体包括：

设定专利分类网络，所述专利分类网络包括专利粗识别网络和专利细识别网络，所述专利粗识别网络用于从众多专利数据中识别出产业链相关专利，所述专利细识别网络在专利粗识别网络基础上，细化识别颗粒度，对产业链各环节的专利进行细粒度识别；

利用Transformer机制构建专利粗识别网络，输入为文本数据，所述文本数据包括专利摘要、题目和正文，输出为0,1标量，用于从专利数据中筛选出相关专利，调用bert-base-chinese通用大模型参数初始化专利粗识别网络的模型参数，进一步训练。

可选的，所述构建专利细识别网络具体包括利用Transformer机制构建专利细识别网络，输入为文本数据，输出为维向量，表示产业链中的具体环节，调用专利粗识别网络学习后的参数初始化专利细识别网络模型参数。

可选的，所述专利粗识别网络的领域预训练具体包括：

设定专利粗识别网络领域预训练模型，删除专利粗识别网络最后的Dropout层和全连接层，将专利摘要数据输入专利粗识别网络，按照概率选取特定的tokenizer进行mask处理，所述专利粗识别网络领域预训练模型训练Loss为经过mask处理后输出值减去未经过mask处理后的输出值，对Loss进行反向传播，使用AdamW优化器对模型参数进行调整；

设定专利粗识别网络微调训练模型，将专利粗识别网络预训练模型训练后的模型参数作为专利粗识别网络微调模型的初始化参数，利用自动标注方法得到的Ground Truth和网络输出结果计算Loss，使用AdamW优化器对模型参数进行调整。

可选的，所述专利细分类网络的微调训练具体包括设定专利细识别网络微调模型，将专利粗识别网络模型训练后的模型参数作为专利细识别网络微调模型的初始化参数，利用自动标注方法得到的Ground Truth和网络输出结果计算Loss，使用AdamW优化器对专利细分类网络参数进行调整。

可选的，所述S10具体包括：

S101、将每一条已识别专利数据按照企业名称整理，得到每个企业的所有专利及其分类信息；

S102、对于任意企业，计算其链上专利数量、总专利数量、链上专利占总专利数量的比例，筛选出链上专利数量大于，总专利数量大于，链上专利占比大于的企业作为链上企业。

本发明的有益效果是：

(1)本发明与现有技术相比通过伪标签的方式标注海量专利数据，解决卷积神经网络需要大量标注数据且专利数据标注费时费力的问题，大幅提升深度学习方法在产业链链上企业识别任务上的可用性，利用深度学习网络的泛化能力，修正错误标注方式，解决伪标签标注方法带来的漏标问题；

(2)本发明利用Transformer机制强大的自然语言理解能力，准确、高效地识别产业链链上专利，为链上企业识别结果提供有力支撑；

(3)本发明使用Coarse-to-fine的网络架构和训练模式，解决样本数量严重不均衡对于深度神经网络性能的影响，大幅提升链上专利识别网络的性能；根据专利分类结果，对企业进行产业链打标，从而精准识别链上企业。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提出的一种Coarse-to-fine的产业链链上企业识别方法的流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

实施例1：

参考图1，本发明所述的一种Coarse-to-fine的产业链链上企业识别方法，包括以下步骤：

第一步，获取专利数据并进行数据预处理：获取企业专利数据集，并对专利数据进行数据预处理。由于本发明用于识别链上企业，需过滤以个人名义申请的专利以及进行常规数据清洗，及去除专利名称字符长度小于2、摘要数据字符长度小于5、专利申请人单位信息字符长度小于3的数据；为保证充足的计算效率，仅保留摘要数据的前512个字符；此外，为提升链上企业识别精度，仅保留第一作者申请人的单位信息。

第二步，专利数据伪标签的生成：通过人工设定的链上各环节关键词及非链上关键词，对企业专利数据进行自动标注；

设定构建产业链链上关键词集合，非产业链链上关键词，产业链链上环节以及产业链链上环节的关键词集合。其中，链上环节关键词为环节的指示性关键词，本实施例中：

；

为新能源汽车链磷酸铁锂环节的关键词集合；非链上关键词为不属于产业链的关键词，主要用于区分有歧义的链上关键词，即部分环节不仅仅用于新能源汽车，还用于其他行业，如动力电池内部的添加剂、电解液等。

对于任意专利数据，若产业链链上环节的关键词集合中的任意关键词存在于专利数据的题目中，且对于任意的产业链链上关键词存在于专利数据的题目、摘要或专利所属企业的经营范围中，同时满足任意非产业链链上关键词不包括于专利的题目中，则赋以该条专利产业链链上环节的标签。

本实施例中对于新能源汽车产业链，链上关键词集合为：新能源、汽车、车载、新能源车、车；非链上关键词为：轨道车辆，医用，医疗；产业链各环节关键词为磷酸铁锂， LiFePO4，lifepo4，磷酸铁锂电池、石墨电极，石墨负极材料，石墨、锰酸锂， LiMn2O4，limn2O4、三元锂，镍钴锰酸锂，Li(NiCoMn)O2，li(nicomn)o2、Li2NiO2，li2nio2， Li5FeO4，li5feo4，正极材料添加剂，正极补锂剂，钴酸锂，碳硅负极，钛酸锂，碳材料、钕铁硼，铁氧体，金属软磁粉芯、绝缘涂料，绝缘漆、硅钢、定子铁芯，电机铁芯，铁芯、igbt，IGBT，绝缘栅双极型晶体管、锂矿、镍矿、钻矿，锰矿，磷矿，钴镍锰铁矿，硅矿，超导材料、电解液，电解质锂盐，电解质溶质，电解液溶剂、电解液添加剂、PVDF，pcdf，聚偏氟乙烯、PP，pp，聚丙烯、PE，pe，聚乙烯、BMS， bms，电池管理系统，电池管理、电芯、电机、电控、充电机、变化器， DC，配电盒、高压继电器，高压直流继电器、熔断器、高压连接器， PDU、gnss， GNSS， Gnss， INS， ins， Ins， GPS， Gps， gps、摄像头、车辆控制系统，车辆控制、激光雷达、通讯系统、SOC芯片， soc芯片， SOC、域控制器、v2x， V2X，V2x、HUD、显示器；

第三步，链上专利粗识别网络的构建：基于Transformer技术构建专利粗识别网络；

专利分类网络包括专利粗识别网络和专利细识别网络；专利粗识别网络用于从众多专利数据中识别出产业链相关专利，专利细识别网络在专利粗识别网络基础上，细化识别颗粒度，对产业链各环节的专利进行细粒度识别。Coarse-to-fine的方法解决了类别严重不均衡对于深度学习方法性能的影响，大幅提升模型性能。

专利粗识别网络，利用Transformer机制构建专利粗识别网络，输入为文本数据，可以是专利摘要、题目、正文等，输出为标量，用于从众多专利数据中筛选出新能源汽车相关专利，具体地，专利粗识别网络包括专利数据嵌入层、特征向量编码层、网络输出层。

专利数据嵌入层用于将字符数据转化为词向量，调用bert-base-chinese模型的字典，对于专利摘要数据的每个字符进行词向量编码，用另外的标识标记不同的句子和文本长度。

特征编码层。由于每个词或句子对于链上专利识别的贡献值不同，例如专利摘要的第一个句子通常表明专利的核心内容及范围，特征向量编码层使用多头注意力机制处理特征向量以提供更精确的特征表示；在每一个注意力机制输出结果上进行全连接层计算，以10%的概率丢掉全连接层的参数以保证模型的泛化能力；使用GELU激活函数以保证零点附件的梯度；特征编码层由12个上述模块构成。

网络输出层。在经过特征编码后，得到维度的向量，以10%的概率丢掉全连接层的参数以保证模型的泛化能力，经全连接层处理后得到最终维度的输出结果用于识别链上专利。

第四步，链上专利粗识别网络的训练：包括专利数据领域预训练和专利粗识别网络微调训练两个部分。

专利数据领域预训练。调用“bert-base-chinese”通用大模型参数初始化专利粗识别模型参数，从而进一步训练；利用全量企业专利摘要数据对专利粗识别网络进行专利领域的预训练，从而解决专利数据专业性强、专业词汇多等特性对于链上专利识别网络性能的影响，具体包括文字层面的无监督领域预训练和句子层级的无监督领域预训练。文字层面的领域预训练使用“完形填空”的方式进行，即随机遮盖句子中的文字，网络训练目标是补全被遮盖的文字，以促使网络理解专利领域晦涩难懂的文字；句子层面的领域预训练采用上下句匹配的方式，即给出两个句子，利用句子之间的语义连贯性判定这两个句子是否存在上下句关系，以促使专利分类网络更好的理解句子；专利领域的预训练可以促进模型更好的理解专利摘要数据，同时也便于匹配模型的双向结构，显著提升模型性能和泛化能力。

专利粗识别网络微调训练，调用完成领域预训练的专利粗识别网络模型，增加专利粗识别网络的网络输出层，利用自动标注的链上专利数据对整个专利粗识别网络，包括新加入的输出层和完成领域预训练的网络部分进行微调训练，所有网络参数均参与反向梯度传播。

第五步，链上专利粗识别网络全量发明专利识别结果的获取：利用训练好的专利粗识别网络在全量专利数据上进行识别计算，获取所有链上专利粗识别结果作为专利细识别网络的输入。

第六步，链上专利细识别网络的构建：利用Transformer机制构建专利细识别网络，输入为文本数据，可以是专利摘要、题目、正文等，输出为维向量，表示产业链中的具体环节，调用专利粗识别网络学习后的参数初始化专利细识别网络模型参数，从而进一步微调训练，以提升性能。具体地，专利细识别网络包括专利数据嵌入层、特征向量编码层、网络输出层。

专利数据嵌入层用于将字符数据转化为词向量，调用专利粗识别网络模型字典数据，对于专利摘要数据的每个字符进行词向量编码，用另外的标识标记不同的句子和文本长度。

特征编码层使用多头注意力机制处理特征向量以提供更精确的特征表示；在每一个注意力机制输出结果上进行全连接层计算，以10%的概率丢掉全连接层的参数以保证模型的泛化能力；使用GELU激活函数以保证零点附件的梯度；特征编码层由12个上述模块构成。

网络输出层。在经过特征编码后，得到尺寸为的向量，以10%的概率丢掉全连接层的参数以保证模型的泛化能力，经全连接层处理后得到最终尺寸为维度的输出结果用于识别链上专利，其中，为专利的环节数量。

第七步，链上专利细识别网络的训练：利用微调训练方法结合专利粗识别网络的预训练模型参数以及自动标注的专利数据对专利细识别网络进行微调训练。具体地，调用除输出层外的专利粗识别网络模型参数对专利细识别网络进行初始化；增加专利细识别网络的输出层；利用自动标注的链上专利数据对整个专利细识别网络进行微调训练，所有网络参数均参与反向梯度传播。

第八步，待识别专利数据的获取：获取待分类的企业专利数据并进行数据预处理；

第九步，链上专利识别结果的获取：将待分类专利数据送入训练好的专利分类网络进行计算，得出专利分类结果；

第十步，链上企业识别结果的获取：根据专利分类结果，综合计算企业链上专利数量、企业总专利数量、企业链上专利数量占比以识别链上企业，得出链上企业识别结果。具体地，对于任意公司，根据链上专利识别结果，统计企业的各环节链上专利数量，企业总专利数量，企业环节专利占比，取环节专利数量大于5且环节专利占比大于10%的公司作为链上企业识别结果。

实施例2：

在智能制造行业，企业间的合作与竞争常常围绕着技术创新和专利成果展开。在2023年的一个典型案例中，位于江苏省苏州市的智能机械制造企业A，面临如何快速准确地识别与其产业链相关的其他企业的挑战。企业A的目标是通过分析与评估行业内专利数据，确定潜在的合作伙伴或竞争对手，从而更好地制定战略决策。

企业A应用了本发明的Coarse-to-fine的产业链链上企业识别方法，通过深度学习技术对企业专利进行分析，识别与企业A产业链相关的企业：

表1 企业A应用Coarse-to-fine识别方法的数据对比

数据类别	传统人工识别方法	Coarse-to-fine识别方法
			数据集大小（专利总数）	10000份	10000份
初步筛选所需时间	4周	0.1天
			精细分类和分析所需时间	3周	1天
初步筛选识别相关专利数	-	2850份
			细分产业链环节相关专利数	-	572份
识别出的相关企业数量	约25家	约45家
			识别准确率	约78%	约92%

由上表1可以看出，企业A收集了包括自身在内的行业内共45家企业的专利数据，涵盖了10000份专利。这些数据包括专利的详细描述、申请日期、申请人等信息。经过数据预处理，去除无关信息，形成了清晰的数据集。然后，企业A设定了与其产业链相关的关键词，例如“机械自动化”、“智能制造”等，并利用这些关键词对专利数据集进行初步的自动标注。这一步骤产生了一批粗糙的、带有伪标签的数据，为后续的深度学习训练提供了基础。接下来，企业A构建了一个基于Transformer技术的粗识别网络。该网络通过学习大量标注数据，能够初步区分与产业链相关和不相关的专利。经过预训练和微调，网络对10000份专利进行了初步分类，将其中2850份识别为与产业链相关。在粗识别的基础上，企业A进一步构建了一个细识别网络，用于在粗识别的结果基础上进行更加精细的分类。经过训练，这个网络能够将那2850份专利进一步细分到具体的产业链环节，例如“原材料供应”、“产品设计”、“制造过程”等。通过这个细识别网络，企业A最终确定了其中572份专利与其直接相关，这些专利分布于45家企业。这一结果使企业A能够明确其在产业链中的位置，识别出潜在的合作伙伴和竞争对手。

在数据层面，通过对比传统的人工识别方法，企业A发现，应用这种Coarse-to-fine的识别方法，不仅识别的准确率提高了约14%，而且处理时间从原先的数周缩短到仅几天。在人工识别中10000份专利的初步筛选需要约3周时间，而应用这种方法后，只需0.1天即可完成初步筛选，细识别和分析则在接下来的1天内完成。

在实施例2中企业A成功地解决了快速、准确识别产业链相关企业的问题，为其战略决策提供了强有力的数据支持。这一方法的应用不仅提高了效率，而且在数据的准确性和可靠性方面也表现出色，为企业A在智能制造领域的发展提供了坚实的基础。

本发明与现有技术相比通过伪标签的方式标注海量专利数据，解决卷积神经网络需要大量标注数据且专利数据标注费时费力的问题，大幅提升深度学习方法在产业链链上企业识别任务上的可用性；利用深度学习网络的泛化能力，修正错误标注方式，解决伪标签标注方法带来的漏标问题；利用Transformer机制强大的自然语言理解能力，准确、高效地识别产业链链上专利，为链上企业识别结果提供有力支撑；使用Coarse-to-fine的网络架构和训练模式，解决样本数量严重不均衡对于深度神经网络性能的影响，大幅提升链上专利识别网络的性能；根据专利分类结果，对企业进行产业链打标，从而精准识别链上企业。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种Coarse-to-fine的产业链链上企业识别方法，其特征在于，包括如下方法步骤：

S3、基于Transformer技术构建专利粗识别网络；

S6、基于专利粗识别网络结构构建专利细识别网络；

S8、获取待分类的企业专利数据并进行数据预处理；

S10、根据专利分类结果，综合计算企业链上专利数量、企业总专利数量和企业链上专利数量占比维度，根据计算结果识别链上企业，得出链上企业识别结果；

所述S2具体包括：

S21、设定构建产业链链上关键词集合，非产业链链上关键词，产业链链上环节以及产业链链上环节L的关键词集合；

其中，链上环节关键词为环节i的指示性关键词，非链上关键词为不属于产业链的关键词，用于区分有歧义的链上关键词；

S22、对于任意专利数据，若产业链链上环节L的关键词集合中的任意关键词存在于专利数据的题目中，且对于任意的产业链链上关键词存在于专利数据的题目、摘要或专利所属企业的经营范围中，同时满足任意非产业链链上关键词不包括于专利的题目中，则赋以该条专利产业链链上环节的标签；

所述构建专利粗识别网络具体包括：

利用Transformer机制构建专利粗识别网络，输入为文本数据，所述文本数据包括专利摘要、题目和正文，输出为0,1标量，用于从专利数据中筛选出相关专利，调用bert-base-chinese通用大模型参数初始化专利粗识别网络的模型参数，进一步训练；

所述构建专利细识别网络具体包括利用Transformer机制构建专利细识别网络，输入为文本数据，输出为维向量，表示产业链中的具体环节，调用专利粗识别网络学习后的参数初始化专利细识别网络模型参数；

所述专利粗识别网络的领域预训练具体包括：

设定专利粗识别网络微调训练模型，将专利粗识别网络预训练模型训练后的模型参数作为专利粗识别网络微调模型的初始化参数，利用自动标注方法得到的Ground Truth和网络输出结果计算Loss，使用AdamW优化器对模型参数进行调整；

所述专利细分类网络的微调训练具体包括设定专利细识别网络微调模型，将专利粗识别网络模型训练后的模型参数作为专利细识别网络微调模型的初始化参数，利用自动标注方法得到的Ground Truth和网络输出结果计算Loss，使用AdamW优化器对专利细分类网络参数进行调整。

2.根据权利要求1所述的一种Coarse-to-fine的产业链链上企业识别方法，其特征在于，所述S10具体包括：

S102、对于任意企业，计算其链上专利数量、总专利数量、链上专利占总专利数量的比例/，筛选出链上专利数量大于，总专利数量大于，链上专利占比大于的企业作为链上企业。