CN113139066A

CN113139066A - 一种基于自然语言处理技术的公司产业链节点匹配方法

Info

Publication number: CN113139066A
Application number: CN202110469464.7A
Authority: CN
Inventors: 方正平
Original assignee: Anhui Zhiyuxin Information Technology Co ltd
Current assignee: Anhui Zhiyuxin Information Technology Co ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-20

Abstract

本发明公开了一种基于自然语言处理技术的公司产业链节点匹配方法，具体包括以下步骤：步骤一、数据采集；步骤二、人工匹配；步骤三、建立标签匹配模型；步骤四、模型运作；步骤五、人工筛选；步骤六、排序筛选；步骤七、节点匹配，本发明涉及产业链分析技术领域。该基于深度学习和自然语言处理技术的公司产业链节点匹配方法，通过构建标准化标签匹配模型，加上经过不断地人工质检和对模型进行优化，可将公司整合到编制好的产业链图谱节点上，从而实现了全量包括上市公司和非上市公司的产业链节点匹配，将能开拓更多的业务场景，做好强链的同时也可以引进或扶持开办缺少的产业链节点公司，完成补链或者延链。

Description

一种基于自然语言处理技术的公司产业链节点匹配方法

技术领域

本发明涉及产业链分析技术领域，具体为一种基于自然语言处理技术的公司产业链节点匹配方法。

背景技术

产业链是各个产业部门之间基于一定的技术经济关联，并依据特定的逻辑关系和时空布局关系客观形成的链条式关联关系形态，本质是用于描述一个具有某种内在联系的企业群结构。产业链中大量存在着上下游关系和相互价值的交换，上游环节向下游环节输送产品或服务，下游环节向上游环节反馈信息。

编制一条产业链一般包括三部分内容：以公司行业分类为基础，编制细分产品标准化标签；调研标的产业链，编制上中下游关系图谱并梳理产业链内含节点的产品标准化标签；公司与节点标准化标签的匹配。

针对于公司与节点标准化标签的匹配，现有的公司匹配产业链节点大多局限于上市公司和少量头部非上市公司，主要采用人工调研企业年报和公开数据，完成产业链节点的匹配，这样仅匹配上市公司和少量非上市公司的产业链，应用场景相对较为有限，例如辅助投资决策、产业链招商、银行营销获客等。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于自然语言处理技术的公司产业链节点匹配方法，解决了现有技术中仅匹配上市公司和少量非上市公司的产业链，应用场景相对较为有限的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种基于自然语言处理技术的公司产业链节点匹配方法，具体包括以下步骤：

步骤一、数据采集：通过编制细分产品标准化标签，然后根据标准化标签编制产业链关系图谱，利用爬虫从不同数据源收集中公司原始产品和业务描述本文；

步骤二、人工匹配：行业相关研究人员根据步骤一中编制的标准化标签对原始文本进行匹配，形成产品业务与标准化标签映射集，并整理同义词、近义词、相关词等关键词库对映射关系进行扩充，得到标签匹配模型的训练语料；

步骤三、建立标签匹配模型：利用NLP技术和深度学习算法对步骤二中的标签匹配语料进行特征学习，形成公司产业链节点标准化标签匹配模型算法；

步骤四、模型运作：利用步骤三中获得的标签匹配模型算法对原始产品和业务描述本文进行特征匹配，得到不同数据源的标准化标签结果和各自的置信度；

步骤五、人工筛选：利用人工质检，剔除有明显偏差和置信度较低的标准化标签；

步骤六、排序筛选：通过排序模块对经过步骤五筛选后的标准化标签进行综合排名，选择前三项作为公司标准化标签；

步骤七、节点匹配：根据步骤六中输出的公司标准化标签结果，将公司匹配到对应的步骤一中编制的产业链图谱节点上。

优选的，所述步骤一中的不同数据源具体包括上市公司企业年报、非上市公司工商经营范围、公司官网、互联网招聘、相关百科等。

优选的，所述步骤四中的模型运作具体方式包括以下步骤：通过输入模块将公司原始产品和业务描述本文输入到嵌入词向量的BERT模型中，通过功能块处理后，经过n维向量导入到softmax函数中，经过计算后通过输出模块输出每个标准化标签分类的置信度。

优选的，所述BERT可以被其它相关的模型，例如BiLSTM、GPT、XLNet等等替代。

优选的，所述softmax函数针对多分类问题设计，可以被多个针对二分类问题的logistic回归所替代。

优选的，所述步骤六中的排序模块根据数据源置信度和各数据源形成的标准化标签的交叉匹配结果进行从高到低的排序。

(三)有益效果

本发明提供了一种基于自然语言处理技术的公司产业链节点匹配方法。具备以下有益效果：

(1)、该基于深度学习和自然语言处理技术的公司产业链节点匹配方法，通过爬虫从不同数据源收集公司原始产品和业务描述本文，行业研究人员再对原始文本进行人工标准化标签匹配，从而形成大量公司产业链节点标准化标签算法的训练语料，利用NLP技术和深度学习算法，形成一套公司产业链节点标准化标签匹配模型，利用训练完成的模型，加上不断地人工质检、模型优化，可对上市公司和非上市公司业务产品进行提取和标准化标签匹配，从而将公司整合到编制好的产业链图谱节点上，实现全量包括上市公司和非上市公司的产业链节点匹配，将能开拓更多的业务场景，例如帮助地方政府有针对性地扶持培育某条产业链上的相关本地企业，做好强链的同时也可以引进或扶持开办缺少的产业链节点公司，完成补链或者延链。

附图说明

图1为本发明的匹配流程图；

图2为本发明标签匹配模型的架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明实施例提供一种技术方案：一种基于自然语言处理技术的公司产业链节点匹配方法，具体包括以下步骤：

步骤一、数据采集：通过编制细分产品标准化标签，然后根据标准化标签编制产业链关系图谱，利用爬虫从包括上市公司企业年报、非上市公司工商经营范围、公司官网、互联网招聘、相关百科等不同数据源中收集公司原始产品和业务描述本文；

步骤四、模型运作：利用步骤三中获得的标签匹配模型算法对原始产品和业务描述本文进行特征匹配，即通过输入模块将公司原始产品和业务描述本文输入到嵌入词向量的BERT模型中，通过功能块处理后，经过n维向量导入到softmax函数中，经过计算后通过输出模块输出每个标准化标签分类的置信度和不同数据源的标准化标签结果；

作为优选方案，BERT可以被其它相关的模型，例如BiLSTM、GPT、XLNet等等替代。

作为优选方案，softmax函数针对多分类问题设计，可以被多个针对二分类问题的logistic回归所替代。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。由语句“包括一个......限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素”。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于自然语言处理技术的公司产业链节点匹配方法，其特征在于：具体包括以下步骤：

步骤一、数据采集：通过编制细分产品标准化标签，然后根据标准化标签编制产业链关系图谱，利用爬虫从不同数据源中收集公司原始产品和业务描述本文；

2.根据权利要求1所述的一种基于自然语言处理技术的公司产业链节点匹配方法，其特征在于：所述步骤一中的不同数据源具体包括上市公司企业年报、非上市公司工商经营范围、公司官网、互联网招聘、相关百科等。

3.根据权利要求1所述的一种基于自然语言处理技术的公司产业链节点匹配方法，其特征在于：所述步骤四中的模型运作具体方式包括以下步骤：通过输入模块将公司原始产品和业务描述本文输入到嵌入词向量的BERT模型中，通过功能块处理后，经过n维向量导入到softmax函数中，经过计算后通过输出模块输出每个标准化标签分类的置信度。

4.根据权利要求3所述的一种基于自然语言处理技术的公司产业链节点匹配方法，其特征在于：所述BERT可以被其它相关的模型，例如BiLSTM、GPT、XLNet等等替代。

5.根据权利要求3所述的一种基于自然语言处理技术的公司产业链节点匹配方法，其特征在于：所述softmax函数针对多分类问题设计，可以被多个针对二分类问题的logistic回归所替代。

6.根据权利要求1所述的一种基于自然语言处理技术的公司产业链节点匹配方法，其特征在于：所述步骤六中的排序模块根据数据源置信度和各数据源形成的标准化标签的交叉匹配结果进行从高到低的排序。