CN113139066A - 一种基于自然语言处理技术的公司产业链节点匹配方法 - Google Patents

一种基于自然语言处理技术的公司产业链节点匹配方法 Download PDF

Info

Publication number
CN113139066A
CN113139066A CN202110469464.7A CN202110469464A CN113139066A CN 113139066 A CN113139066 A CN 113139066A CN 202110469464 A CN202110469464 A CN 202110469464A CN 113139066 A CN113139066 A CN 113139066A
Authority
CN
China
Prior art keywords
matching
company
standardized
natural language
processing technology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110469464.7A
Other languages
English (en)
Inventor
方正平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Zhiyuxin Information Technology Co ltd
Original Assignee
Anhui Zhiyuxin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Zhiyuxin Information Technology Co ltd filed Critical Anhui Zhiyuxin Information Technology Co ltd
Priority to CN202110469464.7A priority Critical patent/CN113139066A/zh
Publication of CN113139066A publication Critical patent/CN113139066A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于自然语言处理技术的公司产业链节点匹配方法,具体包括以下步骤:步骤一、数据采集;步骤二、人工匹配;步骤三、建立标签匹配模型;步骤四、模型运作;步骤五、人工筛选;步骤六、排序筛选;步骤七、节点匹配,本发明涉及产业链分析技术领域。该基于深度学习和自然语言处理技术的公司产业链节点匹配方法,通过构建标准化标签匹配模型,加上经过不断地人工质检和对模型进行优化,可将公司整合到编制好的产业链图谱节点上,从而实现了全量包括上市公司和非上市公司的产业链节点匹配,将能开拓更多的业务场景,做好强链的同时也可以引进或扶持开办缺少的产业链节点公司,完成补链或者延链。

Description

一种基于自然语言处理技术的公司产业链节点匹配方法
技术领域
本发明涉及产业链分析技术领域,具体为一种基于自然语言处理技术的公司产业链节点匹配方法。
背景技术
产业链是各个产业部门之间基于一定的技术经济关联,并依据特定的逻辑关系和时空布局关系客观形成的链条式关联关系形态,本质是用于描述一个具有某种内在联系的企业群结构。产业链中大量存在着上下游关系和相互价值的交换,上游环节向下游环节输送产品或服务,下游环节向上游环节反馈信息。
编制一条产业链一般包括三部分内容:以公司行业分类为基础,编制细分产品标准化标签;调研标的产业链,编制上中下游关系图谱并梳理产业链内含节点的产品标准化标签;公司与节点标准化标签的匹配。
针对于公司与节点标准化标签的匹配,现有的公司匹配产业链节点大多局限于上市公司和少量头部非上市公司,主要采用人工调研企业年报和公开数据,完成产业链节点的匹配,这样仅匹配上市公司和少量非上市公司的产业链,应用场景相对较为有限,例如辅助投资决策、产业链招商、银行营销获客等。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于自然语言处理技术的公司产业链节点匹配方法,解决了现有技术中仅匹配上市公司和少量非上市公司的产业链,应用场景相对较为有限的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种基于自然语言处理技术的公司产业链节点匹配方法,具体包括以下步骤:
步骤一、数据采集:通过编制细分产品标准化标签,然后根据标准化标签编制产业链关系图谱,利用爬虫从不同数据源收集中公司原始产品和业务描述本文;
步骤二、人工匹配:行业相关研究人员根据步骤一中编制的标准化标签对原始文本进行匹配,形成产品业务与标准化标签映射集,并整理同义词、近义词、相关词等关键词库对映射关系进行扩充,得到标签匹配模型的训练语料;
步骤三、建立标签匹配模型:利用NLP技术和深度学习算法对步骤二中的标签匹配语料进行特征学习,形成公司产业链节点标准化标签匹配模型算法;
步骤四、模型运作:利用步骤三中获得的标签匹配模型算法对原始产品和业务描述本文进行特征匹配,得到不同数据源的标准化标签结果和各自的置信度;
步骤五、人工筛选:利用人工质检,剔除有明显偏差和置信度较低的标准化标签;
步骤六、排序筛选:通过排序模块对经过步骤五筛选后的标准化标签进行综合排名,选择前三项作为公司标准化标签;
步骤七、节点匹配:根据步骤六中输出的公司标准化标签结果,将公司匹配到对应的步骤一中编制的产业链图谱节点上。
优选的,所述步骤一中的不同数据源具体包括上市公司企业年报、非上市公司工商经营范围、公司官网、互联网招聘、相关百科等。
优选的,所述步骤四中的模型运作具体方式包括以下步骤:通过输入模块将公司原始产品和业务描述本文输入到嵌入词向量的BERT模型中,通过功能块处理后,经过n维向量导入到softmax函数中,经过计算后通过输出模块输出每个标准化标签分类的置信度。
优选的,所述BERT可以被其它相关的模型,例如BiLSTM、GPT、XLNet等等替代。
优选的,所述softmax函数针对多分类问题设计,可以被多个针对二分类问题的logistic回归所替代。
优选的,所述步骤六中的排序模块根据数据源置信度和各数据源形成的标准化标签的交叉匹配结果进行从高到低的排序。
(三)有益效果
本发明提供了一种基于自然语言处理技术的公司产业链节点匹配方法。具备以下有益效果:
(1)、该基于深度学习和自然语言处理技术的公司产业链节点匹配方法,通过爬虫从不同数据源收集公司原始产品和业务描述本文,行业研究人员再对原始文本进行人工标准化标签匹配,从而形成大量公司产业链节点标准化标签算法的训练语料,利用NLP技术和深度学习算法,形成一套公司产业链节点标准化标签匹配模型,利用训练完成的模型,加上不断地人工质检、模型优化,可对上市公司和非上市公司业务产品进行提取和标准化标签匹配,从而将公司整合到编制好的产业链图谱节点上,实现全量包括上市公司和非上市公司的产业链节点匹配,将能开拓更多的业务场景,例如帮助地方政府有针对性地扶持培育某条产业链上的相关本地企业,做好强链的同时也可以引进或扶持开办缺少的产业链节点公司,完成补链或者延链。
附图说明
图1为本发明的匹配流程图;
图2为本发明标签匹配模型的架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明实施例提供一种技术方案:一种基于自然语言处理技术的公司产业链节点匹配方法,具体包括以下步骤:
步骤一、数据采集:通过编制细分产品标准化标签,然后根据标准化标签编制产业链关系图谱,利用爬虫从包括上市公司企业年报、非上市公司工商经营范围、公司官网、互联网招聘、相关百科等不同数据源中收集公司原始产品和业务描述本文;
步骤二、人工匹配:行业相关研究人员根据步骤一中编制的标准化标签对原始文本进行匹配,形成产品业务与标准化标签映射集,并整理同义词、近义词、相关词等关键词库对映射关系进行扩充,得到标签匹配模型的训练语料;
步骤三、建立标签匹配模型:利用NLP技术和深度学习算法对步骤二中的标签匹配语料进行特征学习,形成公司产业链节点标准化标签匹配模型算法;
步骤四、模型运作:利用步骤三中获得的标签匹配模型算法对原始产品和业务描述本文进行特征匹配,即通过输入模块将公司原始产品和业务描述本文输入到嵌入词向量的BERT模型中,通过功能块处理后,经过n维向量导入到softmax函数中,经过计算后通过输出模块输出每个标准化标签分类的置信度和不同数据源的标准化标签结果;
步骤五、人工筛选:利用人工质检,剔除有明显偏差和置信度较低的标准化标签;
步骤六、排序筛选:通过排序模块对经过步骤五筛选后的标准化标签进行综合排名,选择前三项作为公司标准化标签;
步骤七、节点匹配:根据步骤六中输出的公司标准化标签结果,将公司匹配到对应的步骤一中编制的产业链图谱节点上。
作为优选方案,BERT可以被其它相关的模型,例如BiLSTM、GPT、XLNet等等替代。
作为优选方案,softmax函数针对多分类问题设计,可以被多个针对二分类问题的logistic回归所替代。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。由语句“包括一个......限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素”。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于自然语言处理技术的公司产业链节点匹配方法,其特征在于:具体包括以下步骤:
步骤一、数据采集:通过编制细分产品标准化标签,然后根据标准化标签编制产业链关系图谱,利用爬虫从不同数据源中收集公司原始产品和业务描述本文;
步骤二、人工匹配:行业相关研究人员根据步骤一中编制的标准化标签对原始文本进行匹配,形成产品业务与标准化标签映射集,并整理同义词、近义词、相关词等关键词库对映射关系进行扩充,得到标签匹配模型的训练语料;
步骤三、建立标签匹配模型:利用NLP技术和深度学习算法对步骤二中的标签匹配语料进行特征学习,形成公司产业链节点标准化标签匹配模型算法;
步骤四、模型运作:利用步骤三中获得的标签匹配模型算法对原始产品和业务描述本文进行特征匹配,得到不同数据源的标准化标签结果和各自的置信度;
步骤五、人工筛选:利用人工质检,剔除有明显偏差和置信度较低的标准化标签;
步骤六、排序筛选:通过排序模块对经过步骤五筛选后的标准化标签进行综合排名,选择前三项作为公司标准化标签;
步骤七、节点匹配:根据步骤六中输出的公司标准化标签结果,将公司匹配到对应的步骤一中编制的产业链图谱节点上。
2.根据权利要求1所述的一种基于自然语言处理技术的公司产业链节点匹配方法,其特征在于:所述步骤一中的不同数据源具体包括上市公司企业年报、非上市公司工商经营范围、公司官网、互联网招聘、相关百科等。
3.根据权利要求1所述的一种基于自然语言处理技术的公司产业链节点匹配方法,其特征在于:所述步骤四中的模型运作具体方式包括以下步骤:通过输入模块将公司原始产品和业务描述本文输入到嵌入词向量的BERT模型中,通过功能块处理后,经过n维向量导入到softmax函数中,经过计算后通过输出模块输出每个标准化标签分类的置信度。
4.根据权利要求3所述的一种基于自然语言处理技术的公司产业链节点匹配方法,其特征在于:所述BERT可以被其它相关的模型,例如BiLSTM、GPT、XLNet等等替代。
5.根据权利要求3所述的一种基于自然语言处理技术的公司产业链节点匹配方法,其特征在于:所述softmax函数针对多分类问题设计,可以被多个针对二分类问题的logistic回归所替代。
6.根据权利要求1所述的一种基于自然语言处理技术的公司产业链节点匹配方法,其特征在于:所述步骤六中的排序模块根据数据源置信度和各数据源形成的标准化标签的交叉匹配结果进行从高到低的排序。
CN202110469464.7A 2021-04-28 2021-04-28 一种基于自然语言处理技术的公司产业链节点匹配方法 Pending CN113139066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110469464.7A CN113139066A (zh) 2021-04-28 2021-04-28 一种基于自然语言处理技术的公司产业链节点匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110469464.7A CN113139066A (zh) 2021-04-28 2021-04-28 一种基于自然语言处理技术的公司产业链节点匹配方法

Publications (1)

Publication Number Publication Date
CN113139066A true CN113139066A (zh) 2021-07-20

Family

ID=76816344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110469464.7A Pending CN113139066A (zh) 2021-04-28 2021-04-28 一种基于自然语言处理技术的公司产业链节点匹配方法

Country Status (1)

Country Link
CN (1) CN113139066A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548834A (zh) * 2022-04-22 2022-05-27 浙江省标准化研究院(金砖国家标准化(浙江)研究中心、浙江省物品编码中心) 一种围绕特定产业的标准链分析和构建系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777335A (zh) * 2017-01-13 2017-05-31 深圳爱拼信息科技有限公司 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置
US20170280099A1 (en) * 2016-03-22 2017-09-28 Avaya Inc. Automatic expansion and derivative tagging
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
CN109189867A (zh) * 2018-10-23 2019-01-11 中山大学 基于公司知识图谱的关系发现方法、装置及存储介质
CN109255034A (zh) * 2018-08-08 2019-01-22 数据地平线(广州)科技有限公司 一种基于产业链的行业知识图谱构建方法
CN109376202A (zh) * 2018-10-30 2019-02-22 青岛理工大学 一种基于nlp的企业供应关系自动抽取分析方法
CN109710765A (zh) * 2018-12-28 2019-05-03 厦门笨鸟电子商务有限公司 一种基于自然语言处理的公司行业分类计算方法
CN112328803A (zh) * 2020-10-14 2021-02-05 上海华鑫股份有限公司 一种基于产业链数据的公司知识图谱的构建方法
CN112650855A (zh) * 2020-12-26 2021-04-13 曙光信息产业股份有限公司 知识图谱工程化构建方法、装置、计算机设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
US20170280099A1 (en) * 2016-03-22 2017-09-28 Avaya Inc. Automatic expansion and derivative tagging
CN106777335A (zh) * 2017-01-13 2017-05-31 深圳爱拼信息科技有限公司 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置
CN109255034A (zh) * 2018-08-08 2019-01-22 数据地平线(广州)科技有限公司 一种基于产业链的行业知识图谱构建方法
CN109189867A (zh) * 2018-10-23 2019-01-11 中山大学 基于公司知识图谱的关系发现方法、装置及存储介质
CN109376202A (zh) * 2018-10-30 2019-02-22 青岛理工大学 一种基于nlp的企业供应关系自动抽取分析方法
CN109710765A (zh) * 2018-12-28 2019-05-03 厦门笨鸟电子商务有限公司 一种基于自然语言处理的公司行业分类计算方法
CN112328803A (zh) * 2020-10-14 2021-02-05 上海华鑫股份有限公司 一种基于产业链数据的公司知识图谱的构建方法
CN112650855A (zh) * 2020-12-26 2021-04-13 曙光信息产业股份有限公司 知识图谱工程化构建方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548834A (zh) * 2022-04-22 2022-05-27 浙江省标准化研究院(金砖国家标准化(浙江)研究中心、浙江省物品编码中心) 一种围绕特定产业的标准链分析和构建系统及方法

Similar Documents

Publication Publication Date Title
CN110222188B (zh) 一种多任务学习的公司公告处理方法及服务端
CN108733748B (zh) 一种基于商品评论舆情的跨境产品质量风险模糊预测方法
CN106202543A (zh) 基于机器学习的本体匹配方法和系统
CN112783921A (zh) 一种数据库操作方法及装置
CN110990529B (zh) 企业的行业明细划分方法及系统
CN107315738A (zh) 一种文本信息的创新度评估方法
CN106294355A (zh) 一种业务对象属性的确定方法及设备
CN112036842B (zh) 一种科技服务智能匹配装置
CN113051365A (zh) 一种产业链图谱构建方法及相关设备
CN113420145B (zh) 一种基于半监督学习的招标文本分类方法与系统
CN112925908A (zh) 一种基于Attention的图注意力网络的文本分类方法及系统
WO2023035330A1 (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
Steblianskaia et al. Environmental-social-governance concept bibliometric analysis and systematic literature review: Do investors becoming more environmentally conscious?
CN112199508A (zh) 一种基于远程监督的参数自适应农业知识图谱推荐方法
CN113434688A (zh) 用于舆情分类模型训练的数据处理方法和装置
CN113139066A (zh) 一种基于自然语言处理技术的公司产业链节点匹配方法
CN115221387A (zh) 一种基于深度神经网络的企业信息整合方法
CN113220900B (zh) 实体消歧模型的建模方法和实体消歧预测方法
CN114201583A (zh) 一种基于图注意力网络的中文金融事件自动抽取方法及系统
CN115827871A (zh) 互联网企业分类的方法、装置和系统
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
CN115952282A (zh) 基于nlp技术的银行客户投诉智能分流处置方法和系统
Jabin et al. Comparison of different sentiment analysis techniques for bangla reviews
CN112513901A (zh) 使用人工神经网络来从给定文本中查找唯一协调制度代码的方法和用于实现该方法的系统
Yang et al. A general solution and practice for automatically constructing domain knowledge graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210720