CN117591676B - 一种Coarse-to-fine的产业链链上企业识别方法 - Google Patents
一种Coarse-to-fine的产业链链上企业识别方法 Download PDFInfo
- Publication number
- CN117591676B CN117591676B CN202410079270.XA CN202410079270A CN117591676B CN 117591676 B CN117591676 B CN 117591676B CN 202410079270 A CN202410079270 A CN 202410079270A CN 117591676 B CN117591676 B CN 117591676B
- Authority
- CN
- China
- Prior art keywords
- chain
- recognition network
- coarse
- fine
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 10
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 229910052744 lithium Inorganic materials 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 239000003792 electrolyte Substances 0.000 description 4
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 3
- 239000004698 Polyethylene Substances 0.000 description 3
- 239000004743 Polypropylene Substances 0.000 description 3
- 229910002804 graphite Inorganic materials 0.000 description 3
- 239000010439 graphite Substances 0.000 description 3
- GELKBWJHTRAYNV-UHFFFAOYSA-K lithium iron phosphate Chemical compound [Li+].[Fe+2].[O-]P([O-])([O-])=O GELKBWJHTRAYNV-UHFFFAOYSA-K 0.000 description 3
- -1 pcdf Substances 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical group [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- PXHVJJICTQNCMI-UHFFFAOYSA-N Nickel Chemical compound [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 2
- 239000002033 PVDF binder Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 229920002981 polyvinylidene fluoride Polymers 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 229910000976 Electrical steel Inorganic materials 0.000 description 1
- 239000002000 Electrolyte additive Substances 0.000 description 1
- PWHULOQIROXLJO-UHFFFAOYSA-N Manganese Chemical compound [Mn] PWHULOQIROXLJO-UHFFFAOYSA-N 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 102100036378 T-cell immunomodulatory protein Human genes 0.000 description 1
- 101710194900 T-cell immunomodulatory protein Proteins 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- QJVKUMXDEUEQLH-UHFFFAOYSA-N [B].[Fe].[Nd] Chemical compound [B].[Fe].[Nd] QJVKUMXDEUEQLH-UHFFFAOYSA-N 0.000 description 1
- HMDDXIMCDZRSNE-UHFFFAOYSA-N [C].[Si] Chemical compound [C].[Si] HMDDXIMCDZRSNE-UHFFFAOYSA-N 0.000 description 1
- HFCVPDYCRZVZDF-UHFFFAOYSA-N [Li+].[Co+2].[Ni+2].[O-][Mn]([O-])(=O)=O Chemical compound [Li+].[Co+2].[Ni+2].[O-][Mn]([O-])(=O)=O HFCVPDYCRZVZDF-UHFFFAOYSA-N 0.000 description 1
- KFDQGLPGKXUTMZ-UHFFFAOYSA-N [Mn].[Co].[Ni] Chemical compound [Mn].[Co].[Ni] KFDQGLPGKXUTMZ-UHFFFAOYSA-N 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000003575 carbonaceous material Substances 0.000 description 1
- 239000010406 cathode material Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- QHGJSLXSVXVKHZ-UHFFFAOYSA-N dilithium;dioxido(dioxo)manganese Chemical compound [Li+].[Li+].[O-][Mn]([O-])(=O)=O QHGJSLXSVXVKHZ-UHFFFAOYSA-N 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229910003002 lithium salt Inorganic materials 0.000 description 1
- 159000000002 lithium salts Chemical class 0.000 description 1
- 239000006247 magnetic powder Substances 0.000 description 1
- 229910052748 manganese Inorganic materials 0.000 description 1
- 239000011572 manganese Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 229910001172 neodymium magnet Inorganic materials 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000002367 phosphate rock Substances 0.000 description 1
- OJMIONKXNSYLSR-UHFFFAOYSA-N phosphorous acid Chemical compound OP(O)O OJMIONKXNSYLSR-UHFFFAOYSA-N 0.000 description 1
- 229920000573 polyethylene Polymers 0.000 description 1
- 229920001155 polypropylene Polymers 0.000 description 1
- 239000007774 positive electrode material Substances 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 229910000859 α-Fe Inorganic materials 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种Coarse‑to‑fine的产业链链上企业识别方法,包括如下方法步骤:S1、获取专利数据并进行数据预处理;S2、专利数据伪标签的生成;S3、链上专利粗识别网络的构建;S4、链上专利粗识别网络的训练;S5、链上专利粗识别网络全量发明专利识别结果的获取;S6、链上专利细识别网络的构建;S7、链上专利细识别网络的训练;S8、待识别专利数据的获取;S9、链上专利识别结果的获取;S10、链上企业识别结果的获取。本发明解决了链上企业识别颗粒度粗、识别结果不准确等问题,大幅提升深度学习方法在产业链链上企业识别任务上的可用性。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种Coarse-to-fine的产业链链上企业识别方法。
背景技术
挖掘产业链链上企业是产业链分析的主要难点及挑战性任务之一。现有方法利用机器学习技术和企业经营范围数据识别链上企业,主要存在以下弊端:1、传统机器学习方法准确率低、需要人工设计的特征提取方式,对于不同产业的文本数据需要特定的特征提取器,泛化能力较弱;2、企业经营范围数据质量差,不准确,经营范围中的内容可能不是企业现今业务、不精确,描述的颗粒程度较粗等问题严重影响产业链各环节链上企业的准确识别。
随着深度学习的发展,基于卷积神经网络的文本分类方法成为了广大学者的研究热点,在垃圾邮件分类、情感分析、新闻主题检测等领域被广泛应用,并取得了令人瞩目的成果。对于链上企业识别算法而言,由于经营范围数据的种种弊端,不得不使用更加精确的数据进行产业链链上企业识别。相较于新闻检测、情感分析任务的数据集,专利数据专业性强、专业词汇多、不得不邀请领域专家对其进行标注。此外,专利数据专有名词较多、理解难度更大,对于模型性能和训练方法提出了更高的要求。另一方面,专利数据存在严重的样本不均衡问题,例如一些薄弱环节的正样本数量仅有几十个,而负样本数量多达几十万个,严重影响产业链链上企业识别模型的准确性。因此,如何提供一种Coarse-to-fine的产业链链上企业识别方法是本领域技术人员亟需解决的问题。
发明内容
本发明的一个目的在于提出一种Coarse-to-fine的产业链链上企业识别方法,本发明与现有技术相比通过伪标签的方式标注海量专利数据,解决卷积神经网络需要大量标注数据且专利数据标注费时费力的问题,解决了链上企业识别颗粒度粗、识别结果不准确等问题,大幅提升深度学习方法在产业链链上企业识别任务上的可用性。
根据本发明实施例的一种Coarse-to-fine的产业链链上企业识别方法,包括如下方法步骤:
S1、获取企业专利数据集,并对专利数据集进行数据预处理;
S2、通过人工设定的链上各环节关键词及非链上各环节关键词,对企业专利数据集内的数据进行自动标注;
S3、基于Transformer技术构建专利粗识别网络;
S4、利用全量企业专利摘要数据对专利粗识别网络进行领域预训练,得到专利粗识别网络预训练模型,利用带标签的全量企业专利摘要数据对专利粗识别网络预训练模型进行微调训练,得到训练好的专利粗识别网络;
S5、利用训练好的专利粗识别网络在全量专利数据上进行检测,获取所有链上专利粗识别结果;
S6、基于专利粗识别网络结构构建专利细识别网络;
S7、利用Fine-tuning方法结合专利粗识别网络模型参数以及自动标注的专利数据对专利细分类网络进行微调训练;
S8、获取待分类的企业专利数据并进行数据预处理;
S9、将待分类专利数据送入训练好的专利粗识别网络以及专利细识别网络进行计算,得出专利分类结果;
S10、根据专利分类结果,综合计算企业链上专利数量、企业总专利数量和企业链上专利数量占比维度识别链上企业,得出链上企业识别结果。
可选的,所述S2具体包括:
S21、设定构建产业链链上关键词集合,非产业链链上关
键词,产业链链上环节以及产业链链上环节的关
键词集合;
其中,链上环节关键词为环节的指示性关键词,非链上关键词为不属
于产业链的关键词,用于区分有歧义的链上关键词;
S22、对于任意专利数据,若产业链链上环节的关键词集合中的任意关键词存在于专利数据的题目中,且对于任意的产业链链上关键词存在于专利数据的题
目、摘要或专利所属企业的经营范围中,同时满足任意非产业链链上关键词不包括于
专利的题目中,则赋以该条专利产业链链上环节的标签。
可选的,所述构建专利粗识别网络具体包括:
设定专利分类网络,所述专利分类网络包括专利粗识别网络和专利细识别网络,所述专利粗识别网络用于从众多专利数据中识别出产业链相关专利,所述专利细识别网络在专利粗识别网络基础上,细化识别颗粒度,对产业链各环节的专利进行细粒度识别;
利用Transformer机制构建专利粗识别网络,输入为文本数据,所述文本数据包括专利摘要、题目和正文,输出为0,1标量,用于从专利数据中筛选出相关专利,调用bert-base-chinese通用大模型参数初始化专利粗识别网络的模型参数,进一步训练。
可选的,所述构建专利细识别网络具体包括利用Transformer机制构建专利细识
别网络,输入为文本数据,输出为维向量,表示产业链中的具体环节,调用专利
粗识别网络学习后的参数初始化专利细识别网络模型参数。
可选的,所述专利粗识别网络的领域预训练具体包括:
设定专利粗识别网络领域预训练模型,删除专利粗识别网络最后的Dropout层和全连接层,将专利摘要数据输入专利粗识别网络,按照概率选取特定的tokenizer进行mask处理,所述专利粗识别网络领域预训练模型训练Loss为经过mask处理后输出值减去未经过mask处理后的输出值,对Loss进行反向传播,使用AdamW优化器对模型参数进行调整;
设定专利粗识别网络微调训练模型,将专利粗识别网络预训练模型训练后的模型参数作为专利粗识别网络微调模型的初始化参数,利用自动标注方法得到的Ground Truth和网络输出结果计算Loss,使用AdamW优化器对模型参数进行调整。
可选的,所述专利细分类网络的微调训练具体包括设定专利细识别网络微调模型,将专利粗识别网络模型训练后的模型参数作为专利细识别网络微调模型的初始化参数,利用自动标注方法得到的Ground Truth和网络输出结果计算Loss,使用AdamW优化器对专利细分类网络参数进行调整。
可选的,所述S10具体包括:
S101、将每一条已识别专利数据按照企业名称整理,得到每个企业的所有专利及其分类信息;
S102、对于任意企业,计算其链上专利数量、总专利数量、链上专利
占总专利数量的比例,筛选出链上专利数量大于,总专利数量大于,链
上专利占比大于的企业作为链上企业。
本发明的有益效果是:
(1)本发明与现有技术相比通过伪标签的方式标注海量专利数据,解决卷积神经网络需要大量标注数据且专利数据标注费时费力的问题,大幅提升深度学习方法在产业链链上企业识别任务上的可用性,利用深度学习网络的泛化能力,修正错误标注方式,解决伪标签标注方法带来的漏标问题;
(2)本发明利用Transformer机制强大的自然语言理解能力,准确、高效地识别产业链链上专利,为链上企业识别结果提供有力支撑;
(3)本发明使用Coarse-to-fine的网络架构和训练模式,解决样本数量严重不均衡对于深度神经网络性能的影响,大幅提升链上专利识别网络的性能;根据专利分类结果,对企业进行产业链打标,从而精准识别链上企业。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种Coarse-to-fine的产业链链上企业识别方法的流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
实施例1:
参考图1,本发明所述的一种Coarse-to-fine的产业链链上企业识别方法,包括以下步骤:
第一步,获取专利数据并进行数据预处理:获取企业专利数据集,并对专利数据进行数据预处理。由于本发明用于识别链上企业,需过滤以个人名义申请的专利以及进行常规数据清洗,及去除专利名称字符长度小于2、摘要数据字符长度小于5、专利申请人单位信息字符长度小于3的数据;为保证充足的计算效率,仅保留摘要数据的前512个字符;此外,为提升链上企业识别精度,仅保留第一作者申请人的单位信息。
第二步,专利数据伪标签的生成:通过人工设定的链上各环节关键词及非链上关键词,对企业专利数据进行自动标注;
设定构建产业链链上关键词集合,非产业链链上关键词,产业链链上环节以及产业链链上环节的关键词集合。其中,链上环节关键词为环节的指示性关键词,本实施例
中:
;
为新能源汽车链磷酸铁锂环节的关键词集合;非链上关键词为不属于产业链
的关键词,主要用于区分有歧义的链上关键词,即部分环节不仅仅用于新能源汽车,还用于
其他行业,如动力电池内部的添加剂、电解液等。
对于任意专利数据,若产业链链上环节的关键词集合中的任意关键词存在于专利数据的题目中,且对于任意的产业链链上关键词存在于专利数据的题
目、摘要或专利所属企业的经营范围中,同时满足任意非产业链链上关键词不包括于
专利的题目中,则赋以该条专利产业链链上环节的标签。
本实施例中对于新能源汽车产业链,链上关键词集合为:新能源、汽车、车载、
新能源车、车;非链上关键词为:轨道车辆, 医用, 医疗;产业链各环节关键词为磷酸
铁锂, LiFePO4,lifepo4, 磷酸铁锂电池、石墨电极, 石墨负极材料,石墨、锰酸锂,
LiMn2O4,limn2O4、三元锂,镍钴锰酸锂,Li(NiCoMn)O2,li(nicomn)o2、Li2NiO2,li2nio2,
Li5FeO4,li5feo4,正极材料添加剂,正极补锂剂,钴酸锂,碳硅负极,钛酸锂,碳材料、钕铁
硼,铁氧体,金属软磁粉芯、绝缘涂料,绝缘漆、硅钢、定子铁芯,电机铁芯,铁芯、igbt,IGBT,
绝缘栅双极型晶体管、锂矿、镍矿、钻矿,锰矿,磷矿,钴镍锰铁矿,硅矿,超导材料、电解液,
电解质锂盐,电解质溶质,电解液溶剂、电解液添加剂、PVDF,pcdf,聚偏氟乙烯、PP,pp,聚丙
烯、PE,pe,聚乙烯、BMS, bms, 电池管理系统, 电池管理、电芯、电机、电控、充电机、变化
器, DC, 配电盒、高压继电器, 高压直流继电器、熔断器、高压连接器, PDU、gnss, GNSS,
Gnss, INS, ins, Ins, GPS, Gps, gps、摄像头、车辆控制系统, 车辆控制、激光雷达、通
讯系统、SOC芯片, soc芯片, SOC、域控制器、v2x, V2X,V2x、HUD、显示器;
第三步,链上专利粗识别网络的构建:基于Transformer技术构建专利粗识别网络;
专利分类网络包括专利粗识别网络和专利细识别网络;专利粗识别网络用于从众多专利数据中识别出产业链相关专利,专利细识别网络在专利粗识别网络基础上,细化识别颗粒度,对产业链各环节的专利进行细粒度识别。Coarse-to-fine的方法解决了类别严重不均衡对于深度学习方法性能的影响,大幅提升模型性能。
专利粗识别网络,利用Transformer机制构建专利粗识别网络,输入为文本数
据,可以是专利摘要、题目、正文等,输出为标量,用于从众多专利数据中筛选出新能源汽车
相关专利,具体地,专利粗识别网络包括专利数据嵌入层、特征向量编码层、网络输出层。
专利数据嵌入层用于将字符数据转化为词向量,调用bert-base-chinese模型的字典,对于专利摘要数据的每个字符进行词向量编码,用另外的标识标记不同的句子和文本长度。
特征编码层。由于每个词或句子对于链上专利识别的贡献值不同,例如专利摘要的第一个句子通常表明专利的核心内容及范围,特征向量编码层使用多头注意力机制处理特征向量以提供更精确的特征表示;在每一个注意力机制输出结果上进行全连接层计算,以10%的概率丢掉全连接层的参数以保证模型的泛化能力;使用GELU激活函数以保证零点附件的梯度;特征编码层由12个上述模块构成。
网络输出层。在经过特征编码后,得到维度的向量,以10%的概率丢掉全
连接层的参数以保证模型的泛化能力,经全连接层处理后得到最终维度的输出结果
用于识别链上专利。
第四步,链上专利粗识别网络的训练:包括专利数据领域预训练和专利粗识别网络微调训练两个部分。
专利数据领域预训练。调用“bert-base-chinese”通用大模型参数初始化专利粗识别模型参数,从而进一步训练;利用全量企业专利摘要数据对专利粗识别网络进行专利领域的预训练,从而解决专利数据专业性强、专业词汇多等特性对于链上专利识别网络性能的影响,具体包括文字层面的无监督领域预训练和句子层级的无监督领域预训练。文字层面的领域预训练使用“完形填空”的方式进行,即随机遮盖句子中的文字,网络训练目标是补全被遮盖的文字,以促使网络理解专利领域晦涩难懂的文字;句子层面的领域预训练采用上下句匹配的方式,即给出两个句子,利用句子之间的语义连贯性判定这两个句子是否存在上下句关系,以促使专利分类网络更好的理解句子;专利领域的预训练可以促进模型更好的理解专利摘要数据,同时也便于匹配模型的双向结构,显著提升模型性能和泛化能力。
设定专利粗识别网络领域预训练模型,删除专利粗识别网络最后的Dropout层和全连接层,将专利摘要数据输入专利粗识别网络,按照概率选取特定的tokenizer进行mask处理,所述专利粗识别网络领域预训练模型训练Loss为经过mask处理后输出值减去未经过mask处理后的输出值,对Loss进行反向传播,使用AdamW优化器对模型参数进行调整;
设定专利粗识别网络微调训练模型,将专利粗识别网络预训练模型训练后的模型参数作为专利粗识别网络微调模型的初始化参数,利用自动标注方法得到的Ground Truth和网络输出结果计算Loss,使用AdamW优化器对模型参数进行调整。
专利粗识别网络微调训练,调用完成领域预训练的专利粗识别网络模型,增加专利粗识别网络的网络输出层,利用自动标注的链上专利数据对整个专利粗识别网络,包括新加入的输出层和完成领域预训练的网络部分进行微调训练,所有网络参数均参与反向梯度传播。
第五步,链上专利粗识别网络全量发明专利识别结果的获取:利用训练好的专利粗识别网络在全量专利数据上进行识别计算,获取所有链上专利粗识别结果作为专利细识别网络的输入。
第六步,链上专利细识别网络的构建:利用Transformer机制构建专利细识别网
络,输入为文本数据,可以是专利摘要、题目、正文等,输出为维向量,表示产业
链中的具体环节,调用专利粗识别网络学习后的参数初始化专利细识别网络模型参数,从
而进一步微调训练,以提升性能。具体地,专利细识别网络包括专利数据嵌入层、特征向量
编码层、网络输出层。
专利数据嵌入层用于将字符数据转化为词向量,调用专利粗识别网络模型字典数据,对于专利摘要数据的每个字符进行词向量编码,用另外的标识标记不同的句子和文本长度。
特征编码层使用多头注意力机制处理特征向量以提供更精确的特征表示;在每一个注意力机制输出结果上进行全连接层计算,以10%的概率丢掉全连接层的参数以保证模型的泛化能力;使用GELU激活函数以保证零点附件的梯度;特征编码层由12个上述模块构成。
网络输出层。在经过特征编码后,得到尺寸为的向量,以10%的概率丢掉全
连接层的参数以保证模型的泛化能力,经全连接层处理后得到最终尺寸为维度的输出
结果用于识别链上专利,其中,为专利的环节数量。
第七步,链上专利细识别网络的训练:利用微调训练方法结合专利粗识别网络的预训练模型参数以及自动标注的专利数据对专利细识别网络进行微调训练。具体地,调用除输出层外的专利粗识别网络模型参数对专利细识别网络进行初始化;增加专利细识别网络的输出层;利用自动标注的链上专利数据对整个专利细识别网络进行微调训练,所有网络参数均参与反向梯度传播。
第八步,待识别专利数据的获取:获取待分类的企业专利数据并进行数据预处理;
第九步,链上专利识别结果的获取:将待分类专利数据送入训练好的专利分类网络进行计算,得出专利分类结果;
第十步,链上企业识别结果的获取:根据专利分类结果,综合计算企业链上专利数
量、企业总专利数量、企业链上专利数量占比以识别链上企业,得出链上企业识别结果。具
体地,对于任意公司,根据链上专利识别结果,统计企业的各环节链上
专利数量,企业总专利数量,企业环节专利占比,取环节专利数量大于5且
环节专利占比大于10%的公司作为链上企业识别结果。
实施例2:
在智能制造行业,企业间的合作与竞争常常围绕着技术创新和专利成果展开。在2023年的一个典型案例中,位于江苏省苏州市的智能机械制造企业A,面临如何快速准确地识别与其产业链相关的其他企业的挑战。企业A的目标是通过分析与评估行业内专利数据,确定潜在的合作伙伴或竞争对手,从而更好地制定战略决策。
企业A应用了本发明的Coarse-to-fine的产业链链上企业识别方法,通过深度学习技术对企业专利进行分析,识别与企业A产业链相关的企业:
表1 企业A应用Coarse-to-fine识别方法的数据对比
数据类别 | 传统人工识别方法 | Coarse-to-fine识别方法 |
数据集大小(专利总数) | 10000份 | 10000份 |
初步筛选所需时间 | 4周 | 0.1天 |
精细分类和分析所需时间 | 3周 | 1天 |
初步筛选识别相关专利数 | - | 2850份 |
细分产业链环节相关专利数 | - | 572份 |
识别出的相关企业数量 | 约25家 | 约45家 |
识别准确率 | 约78% | 约92% |
由上表1可以看出,企业A收集了包括自身在内的行业内共45家企业的专利数据,涵盖了10000份专利。这些数据包括专利的详细描述、申请日期、申请人等信息。经过数据预处理,去除无关信息,形成了清晰的数据集。然后,企业A设定了与其产业链相关的关键词,例如“机械自动化”、“智能制造”等,并利用这些关键词对专利数据集进行初步的自动标注。这一步骤产生了一批粗糙的、带有伪标签的数据,为后续的深度学习训练提供了基础。接下来,企业A构建了一个基于Transformer技术的粗识别网络。该网络通过学习大量标注数据,能够初步区分与产业链相关和不相关的专利。经过预训练和微调,网络对10000份专利进行了初步分类,将其中2850份识别为与产业链相关。在粗识别的基础上,企业A进一步构建了一个细识别网络,用于在粗识别的结果基础上进行更加精细的分类。经过训练,这个网络能够将那2850份专利进一步细分到具体的产业链环节,例如“原材料供应”、“产品设计”、“制造过程”等。通过这个细识别网络,企业A最终确定了其中572份专利与其直接相关,这些专利分布于45家企业。这一结果使企业A能够明确其在产业链中的位置,识别出潜在的合作伙伴和竞争对手。
在数据层面,通过对比传统的人工识别方法,企业A发现,应用这种Coarse-to-fine的识别方法,不仅识别的准确率提高了约14%,而且处理时间从原先的数周缩短到仅几天。在人工识别中10000份专利的初步筛选需要约3周时间,而应用这种方法后,只需0.1天即可完成初步筛选,细识别和分析则在接下来的1天内完成。
在实施例2中企业A成功地解决了快速、准确识别产业链相关企业的问题,为其战略决策提供了强有力的数据支持。这一方法的应用不仅提高了效率,而且在数据的准确性和可靠性方面也表现出色,为企业A在智能制造领域的发展提供了坚实的基础。
本发明与现有技术相比通过伪标签的方式标注海量专利数据,解决卷积神经网络需要大量标注数据且专利数据标注费时费力的问题,大幅提升深度学习方法在产业链链上企业识别任务上的可用性;利用深度学习网络的泛化能力,修正错误标注方式,解决伪标签标注方法带来的漏标问题;利用Transformer机制强大的自然语言理解能力,准确、高效地识别产业链链上专利,为链上企业识别结果提供有力支撑;使用Coarse-to-fine的网络架构和训练模式,解决样本数量严重不均衡对于深度神经网络性能的影响,大幅提升链上专利识别网络的性能;根据专利分类结果,对企业进行产业链打标,从而精准识别链上企业。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (2)
1.一种Coarse-to-fine的产业链链上企业识别方法,其特征在于,包括如下方法步骤:
S1、获取企业专利数据集,并对专利数据集进行数据预处理;
S2、通过人工设定的链上各环节关键词及非链上各环节关键词,对企业专利数据集内的数据进行自动标注;
S3、基于Transformer技术构建专利粗识别网络;
S4、利用全量企业专利摘要数据对专利粗识别网络进行领域预训练,得到专利粗识别网络预训练模型,利用带标签的全量企业专利摘要数据对专利粗识别网络预训练模型进行微调训练,得到训练好的专利粗识别网络;
S5、利用训练好的专利粗识别网络在全量专利数据上进行检测,获取所有链上专利粗识别结果;
S6、基于专利粗识别网络结构构建专利细识别网络;
S7、利用Fine-tuning方法结合专利粗识别网络模型参数以及自动标注的专利数据对专利细分类网络进行微调训练;
S8、获取待分类的企业专利数据并进行数据预处理;
S9、将待分类专利数据送入训练好的专利粗识别网络以及专利细识别网络进行计算,得出专利分类结果;
S10、根据专利分类结果,综合计算企业链上专利数量、企业总专利数量和企业链上专利数量占比维度,根据计算结果识别链上企业,得出链上企业识别结果;
所述S2具体包括:
S21、设定构建产业链链上关键词集合,非产业链链上关键词,产业链链上环节以及产业链链上环节L的关键词
集合;
其中,链上环节关键词为环节i的指示性关键词,非链上关键词为不属于产业
链的关键词,用于区分有歧义的链上关键词;
S22、对于任意专利数据,若产业链链上环节L的关键词集合中的任意关键词
存在于专利数据的题目中,且对于任意的产业链链上关键词存在于专利数据的题目、
摘要或专利所属企业的经营范围中,同时满足任意非产业链链上关键词不包括于专利
的题目中,则赋以该条专利产业链链上环节的标签;
所述构建专利粗识别网络具体包括:
设定专利分类网络,所述专利分类网络包括专利粗识别网络和专利细识别网络,所述专利粗识别网络用于从众多专利数据中识别出产业链相关专利,所述专利细识别网络在专利粗识别网络基础上,细化识别颗粒度,对产业链各环节的专利进行细粒度识别;
利用Transformer机制构建专利粗识别网络,输入为文本数据,所述文本数据包括专利摘要、题目和正文,输出为0,1标量,用于从专利数据中筛选出相关专利,调用bert-base-chinese通用大模型参数初始化专利粗识别网络的模型参数,进一步训练;
所述构建专利细识别网络具体包括利用Transformer机制构建专利细识别网络,输入
为文本数据,输出为维向量,表示产业链中的具体环节,调用专利粗识别网络学
习后的参数初始化专利细识别网络模型参数;
所述专利粗识别网络的领域预训练具体包括:
设定专利粗识别网络领域预训练模型,删除专利粗识别网络最后的Dropout层和全连接层,将专利摘要数据输入专利粗识别网络,按照概率选取特定的tokenizer进行mask处理,所述专利粗识别网络领域预训练模型训练Loss为经过mask处理后输出值减去未经过mask处理后的输出值,对Loss进行反向传播,使用AdamW优化器对模型参数进行调整;
设定专利粗识别网络微调训练模型,将专利粗识别网络预训练模型训练后的模型参数作为专利粗识别网络微调模型的初始化参数,利用自动标注方法得到的Ground Truth和网络输出结果计算Loss,使用AdamW优化器对模型参数进行调整;
所述专利细分类网络的微调训练具体包括设定专利细识别网络微调模型,将专利粗识别网络模型训练后的模型参数作为专利细识别网络微调模型的初始化参数,利用自动标注方法得到的Ground Truth和网络输出结果计算Loss,使用AdamW优化器对专利细分类网络参数进行调整。
2.根据权利要求1所述的一种Coarse-to-fine的产业链链上企业识别方法,其特征在于,所述S10具体包括:
S101、将每一条已识别专利数据按照企业名称整理,得到每个企业的所有专利及其分类信息;
S102、对于任意企业,计算其链上专利数量、总专利数量、链上专利占总
专利数量的比例/,筛选出链上专利数量大于,总专利数量大于,链上专
利占比大于的企业作为链上企业。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410079270.XA CN117591676B (zh) | 2024-01-19 | 2024-01-19 | 一种Coarse-to-fine的产业链链上企业识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410079270.XA CN117591676B (zh) | 2024-01-19 | 2024-01-19 | 一种Coarse-to-fine的产业链链上企业识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117591676A CN117591676A (zh) | 2024-02-23 |
CN117591676B true CN117591676B (zh) | 2024-04-05 |
Family
ID=89913786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410079270.XA Active CN117591676B (zh) | 2024-01-19 | 2024-01-19 | 一种Coarse-to-fine的产业链链上企业识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117591676B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779264A (zh) * | 2021-08-29 | 2021-12-10 | 北京工业大学 | 基于专利供需知识图谱的交易推荐方法 |
CN114461801A (zh) * | 2022-02-07 | 2022-05-10 | 智慧芽信息科技(苏州)有限公司 | 专利文本分类号识别方法、装置、电子设备及存储介质 |
CN114462556A (zh) * | 2022-04-13 | 2022-05-10 | 成都数之联科技股份有限公司 | 企业关联产业链分类方法、训练方法、装置、设备和介质 |
CN114817567A (zh) * | 2022-04-28 | 2022-07-29 | 清华大学 | 分类号共现网络的构建方法、技术机会识别方法和系统 |
CN116842406A (zh) * | 2023-06-30 | 2023-10-03 | 南方电网大数据服务有限公司 | 一种基于招投标信息的产业链网络构建方法、存储介质及系统 |
CN117217634A (zh) * | 2023-11-07 | 2023-12-12 | 数据空间研究院 | 一种基于复杂网络的企业合作社区发现方法 |
CN117333037A (zh) * | 2023-10-16 | 2024-01-02 | 山东出版数字融合产业研究院有限公司 | 一种面向出版大数据的产业大脑构建方法及装置 |
-
2024
- 2024-01-19 CN CN202410079270.XA patent/CN117591676B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779264A (zh) * | 2021-08-29 | 2021-12-10 | 北京工业大学 | 基于专利供需知识图谱的交易推荐方法 |
CN114461801A (zh) * | 2022-02-07 | 2022-05-10 | 智慧芽信息科技(苏州)有限公司 | 专利文本分类号识别方法、装置、电子设备及存储介质 |
CN114462556A (zh) * | 2022-04-13 | 2022-05-10 | 成都数之联科技股份有限公司 | 企业关联产业链分类方法、训练方法、装置、设备和介质 |
CN114817567A (zh) * | 2022-04-28 | 2022-07-29 | 清华大学 | 分类号共现网络的构建方法、技术机会识别方法和系统 |
CN116842406A (zh) * | 2023-06-30 | 2023-10-03 | 南方电网大数据服务有限公司 | 一种基于招投标信息的产业链网络构建方法、存储介质及系统 |
CN117333037A (zh) * | 2023-10-16 | 2024-01-02 | 山东出版数字融合产业研究院有限公司 | 一种面向出版大数据的产业大脑构建方法及装置 |
CN117217634A (zh) * | 2023-11-07 | 2023-12-12 | 数据空间研究院 | 一种基于复杂网络的企业合作社区发现方法 |
Non-Patent Citations (3)
Title |
---|
国内外专利挖掘研究(2005-2014)综述;屈鹏;张均胜;曾文;乔晓东;王惠临;;图书情报工作;20141020(20);全文 * |
数据受限下的关系抽取研究;杨凯嘉;信息科技;20210415;全文 * |
薛露 ; 宋威 ; .基于动态标签的关系抽取方法.计算机应用.(06),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117591676A (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110224192B (zh) | 一种梯次利用动力电池寿命预测方法 | |
Ha et al. | Technological advances in the fuel cell vehicle: Patent portfolio management | |
CN107220734A (zh) | 基于决策树的数控车床车削过程能耗预测系统 | |
CN112067998A (zh) | 一种基于深度神经网络的锂离子电池荷电状态估计方法 | |
CN106250934B (zh) | 一种缺陷数据的分类方法及装置 | |
CN110705873A (zh) | 一种新型的配电网运行状态画像分析方法 | |
CN107798435A (zh) | 一种基于文本信息抽取的电力物资需求预测方法 | |
CN109165275B (zh) | 基于深度学习的智能变电站操作票信息智能搜索匹配方法 | |
CN112419096B (zh) | 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 | |
CN111999649A (zh) | 一种基于XGBoost算法的锂电池剩余寿命预测方法 | |
CN111651566B (zh) | 基于多任务的小样本学习的裁判文书争议焦点提取方法 | |
CN112800232B (zh) | 一种基于大数据的案件自动分类方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN116384487A (zh) | 用于储能站锂离子电池故障诊断分析的知识图谱构建方法 | |
CN106485367A (zh) | 一种基于多企业用电数据耦合的经济分析平台及预测方法 | |
CN117591676B (zh) | 一种Coarse-to-fine的产业链链上企业识别方法 | |
CN113033678A (zh) | 一种基于自适应对抗网络的锂电池组故障诊断方法 | |
CN114004218A (zh) | 一种针对政府工作报告的nlp识别方法 | |
CN117516937A (zh) | 基于多模态特征融合增强的滚动轴承未知故障检测方法 | |
CN104850862A (zh) | 一种基于单位代价收益敏感决策树的分类方法 | |
CN115438190B (zh) | 一种配电网故障辅助决策知识抽取方法及系统 | |
CN115357718B (zh) | 主题集成服务重复材料发现方法、系统、设备和存储介质 | |
CN111414473A (zh) | 半监督分类方法和系统 | |
CN114280491B (zh) | 一种基于主动学习的退役电池剩余容量估计方法 | |
CN113673176B (zh) | 基于Transformer的深度学习电池荷电状态预估系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |