CN112182246B - 通过大数据分析建立企业画像的方法、系统、介质及应用 - Google Patents
通过大数据分析建立企业画像的方法、系统、介质及应用 Download PDFInfo
- Publication number
- CN112182246B CN112182246B CN202011043391.7A CN202011043391A CN112182246B CN 112182246 B CN112182246 B CN 112182246B CN 202011043391 A CN202011043391 A CN 202011043391A CN 112182246 B CN112182246 B CN 112182246B
- Authority
- CN
- China
- Prior art keywords
- data
- enterprise
- analysis
- portrait
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000007405 data analysis Methods 0.000 title claims abstract description 16
- 238000011161 development Methods 0.000 claims abstract description 31
- 238000004140 cleaning Methods 0.000 claims abstract description 21
- 230000009193 crawling Effects 0.000 claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 16
- 238000011049 filling Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000003032 molecular docking Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 238000007621 cluster analysis Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007639 printing Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 230000002996 emotional effect Effects 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 230000008094 contradictory effect Effects 0.000 claims description 3
- 230000007812 deficiency Effects 0.000 claims description 3
- 230000008451 emotion Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 description 6
- 235000013305 food Nutrition 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000033228 biological regulation Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012536 packaging technology Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种通过大数据分析建立企业画像的方法、系统、介质及应用,包括:步骤M1:接入政务网内企业数据和第三方企业信息平台内数据;步骤M2:使用聚焦网络爬虫在互联网进行企业数据爬取;步骤M3:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行数据清洗;步骤M4:根据预设规则提取清洗后的数据,利用清洗后的数据和根据预设规则提取清洗后的数据分别进行分析生成企业画像。本发明分析多方数据,生成涵盖七个维度的全方面企业画像,使企业能对自身发展状况、潜力、优势与劣势等有更清晰直观的了解,并能有的放矢地调整自身发展目标和方向。
Description
技术领域
本发明涉及大数据技术领域,作用于智能化政务处理,具体地,涉及一种通过大数据分析建立企业画像的方法、系统、介质及应用。
背景技术
近年来,互联网技术越来越普及,人工智能等新兴技术迅速发展,科学技术快速的更新换代使人们生活的方方面面都变得愈发便捷。这些变化的意义不仅仅在于技术的革新,更在于人们生活方式和看待事物的观念的变化。人们正日渐将眼光放至更大的课题,思考如何由单点式的技术应用,转化为全面式的技术布局。在此背景下,智慧城市的概念应运而生。
智慧城市意在提供完善的城市管理和服务,从而改善市民的生活质量。而政府作为其中重要的一环,需要提供更加高效和智能的服务。在政府服务中,企业服务由于事务情况复杂,一直是办事难点。各公司本身行业、规模、业务、发展等各不相同,涉及政策和办事规章也大相径庭,人工筛选和判断不仅有遗漏或错误的风险,更将耗费大量时间。为了提升效率,本发明利用大数据技术来进行企业画像的梳理和建立,并建立相似企业的聚类分析,从而驱动企业各个具体事项的快速办理。
目前虽然也有一些企业画像的建立方法,但是这些技术有以下不足:(1)需要企业自行输入数据或仅从互联网抓取数据,无法结合企业已在政府内办理过的事务进行分析;(2)对于部分结合政务数据分析的专利技术,主要用于社会对企业运营状况进行评估,而非协助企业进行快捷的事务办理;(3)现有技术由于并非从政府提供企业服务的角度出发,企业画像的维度不足以支撑快速定位企业办理政务事项的需求,亦无法实现对同类企业的服务和个性化的推荐功能。(4)没有形成企业知识图谱,不能很好地支持后续应用。
针对上述现有技术中的缺陷,本发明要解决的技术问题体现在以下几点:
1)结合政务数据和互联网数据进行大数据分析,以对企业进行标签式的企业画像。
2)从政府和企业角度出发,依据政务办理逻辑梳理数据,根据企业服务的需求来制定画像标签内容。
3)从行业维度、企业规模、企业发展阶段维度、业务维度、舆情维度、知识产权维度、业务办理历史这七个维度分析,不仅要实现办事事务快速定位,还需要针对同类企业进行办事推荐。
4)结合智慧政务系统,自动根据企业画像填写部分办事信息,并能根据用户行为做个性化推荐。
5)形成企业知识图谱,辅助后续应用。
专利文献CN108572967A(申请号:201710137619.0)公开了一种创建企业画像的方法及装置。该方法包括:获取与企业画像相关的数据;对与企业画像相关的数据进行预处理,获取预处理后的数据;对预处理后的数据进行分类;对分类后的数据与企业进行匹配,并将匹配成功后的数据存储至与企业对应的企业信息数据库;利用企业信息数据库中存储的数据,创建与企业对应的企业画像。获取与企业画像相关的数据后,进行相应的预处理。可以去除一些无用的数据或者重复的数据等等。然后对数据进行分类后,再和企业信息进行匹配,以便于匹配后的数据同样是分类存储的。
专利文献CN105512245B(申请号:201510862236.0)公开了一种基于回归模型建立企业画像的方法,包括从互联网采集企业相关的网络数据并进行预处理,获得各企业的网络文本集及由文本特征词构成的特征词库;基于隐狄雷克雷分布算法从网络文本集中获得各企业网络数据的主题分布概率,及各个特征词属于某一主题的后验概率;基于预先构建的领域知识库进行特征词扩展;根据预先建立的画像标签体系,建立回归模型,并进行参数训练;基于已训练好的回归模型,获取目标企业的画像标签;以上述画像标签为主,上述代表性特征词为辅,生成企业画像。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种通过大数据分析建立企业画像的方法及系统。
根据本发明提供的一种通过大数据分析建立企业画像的方法,包括:
步骤M1:接入政务网内企业数据和第三方企业信息平台内数据;
步骤M2:使用聚焦网络爬虫在互联网进行企业数据爬取;
步骤M3:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行数据清洗;
步骤M4:根据预设规则提取清洗后的数据,利用清洗后的数据和根据预设规则提取清洗后的数据分别进行分析生成企业画像。
优选地,所述步骤M2包括:
步骤M2.1:选定爬取的数据源,并对所选数据源进行集群化爬取;
步骤M2.2:对集群化爬取的数据进行包括权重计算、判重和多来源印证操作,并存储入数据库;
步骤M2.3:预设更新频率定期进行企业数据爬取;
所述数据源包括:大规模数据库、互联网连接数据和互联网网页文本数据。
优选地,所述步骤M3包括:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行包括去重、补缺、归一、修正和关联清洗操作。
优选地,所述步骤M4包括:
步骤M4.1:根据预设规则,提取清洗后的数据进行规则逻辑判断,得到画像标签1;
步骤M4.2:使用AI自然语义对清洗后的数据进行关键词和标签抽取,得到画像标签2;
步骤M4.3:对生成的画像标签进行权重分析,进行生成画像标签排序,得到企业画像。
根据本发明提供的一种通过大数据分析建立企业画像的系统,包括:
模块M1:接入政务网内企业数据和第三方企业信息平台内数据;
模块M2:使用聚焦网络爬虫在互联网进行企业数据爬取;
模块M3:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行数据清洗;
模块M4:根据预设规则提取清洗后的数据,利用清洗后的数据和根据预设规则提取清洗后的数据分别进行分析生成企业画像。
优选地,所述模块M2包括:
模块M2.1:选定爬取的数据源,并对所选数据源进行集群化爬取;
模块M2.2:对集群化爬取的数据进行包括权重计算、判重和多来源印证操作,并存储入数据库;
模块M2.3:预设更新频率定期进行企业数据爬取。
所述数据源包括:大规模数据库、互联网连接数据和互联网网页文本数据。
优选地,所述模块M3包括:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行包括去重、补缺、归一、修正和关联清洗操作。
优选地,所述模块M4包括:
模块M4.1:根据预设规则,提取清洗后的数据进行规则逻辑判断,得到画像标签1;
模块M4.2:使用AI自然语义对清洗后的数据进行关键词和标签抽取,得到画像标签2;
模块M4.3:对生成的画像标签进行权重分析,进行生成画像标签排序,得到企业画像。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中任一项所述的方法的步骤。
根据本发明提供的一种通过大数据分析建立企业画像的应用,利用企业画像进行包括:政务事项定位、企业潜力值分析以及对于相似画像的企业进行聚类分析;
所述政务事项定位包括:利用企业画像辅助企业服务事项内容的选择和自动填写;
所述企业潜力值分析包括:结合企业画像的情感分析和权重,分析当前企业的潜力值;
所述聚类分析包括对所有企业的画像进行分析,并以画像关键词及权重计算距离并做层次聚类。
与现有技术相比,本发明具有如下的有益效果:
1、分析多方数据,生成涵盖七个维度的全方面企业画像,使企业能对自身发展状况、潜力、优势与劣势等有更清晰直观的了解,并能有的放矢地调整自身发展目标和方向;
2、根据政府企业服务的需求来梳理并生成企业画像,使企业在政府办事时能快速定位适用事项,结合系统提供自动填写信息,提高双方效率;
3、结合以上优点,本发明一方面提高了政务效率,节约大量人力资源,促进智能化时代新型政企关系的建立;另一方面降低了企业办事所需付出的时间及人力成本,给企业提供更多适用政策和机会,有利于企业的健康发展。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为通过大数据分析建立企业画像的系统示意图;
图2为通过大数据分析建立企业画像的方法流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
根据本发明提供的一种通过大数据分析建立企业画像的方法,包括:
步骤M1:接入政务网内企业数据和第三方企业信息平台内数据;具体为与政务网进行对接和相关开发来获取政务数据,并使用第三方企业信息平台提供的API接口来得到公开信息。
具体地,步骤M1包括如下步骤:
步骤M1.1:与政务网开发单位进行对接;
步骤M1.2:根据对接文档进行调取数据的相关开发;
步骤M1.3:拿取所需企业相关数据;
步骤M1.4:将数据按照统一格式写入数据库内;
步骤M1.5:对接第三方信息平台API;
步骤M1.6:拿取所需企业相关数据;
步骤M1.7:将数据按照统一格式写入数据库内;
步骤M2:使用聚焦网络爬虫在互联网进行企业数据爬取;
具体地,所述步骤M2包括:
步骤M2.1:选定爬取的数据源,并对所选数据源进行集群化爬取;
步骤M2.2:对集群化爬取的数据进行包括权重计算、判重和多来源印证操作,并存储入数据库;
步骤M2.3:预设更新频率定期进行企业数据爬取。
具体地,所述数据源包括:大规模数据库、互联网连接数据和互联网网页文本数据。
步骤M3:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行数据清洗;
具体地,所述步骤M3包括:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行包括去重、补缺、归一、修正和关联清洗操作。
更为具体地,步骤M3包括如下步骤:
步骤M3.1:进行缺失值清洗;
步骤M3.2:进行格式内容的清洗,规整数据源;
步骤M3.3:参考数据权威级别以及数据合法性来进行数据去重;
步骤M3.4:进行数据合法性检查和处理;
其中,步骤M3.1包括如下步骤:
步骤M3.1.1:统计缺失值,计算缺失值比例,确定缺失字段重要性;
步骤M3.1.2:依据缺失率和重要性,对不同缺失字段做相应处理(删除、补全、计算等);
其中,步骤M3.2包括如下步骤:
步骤M3.2.1:依据企业组织机构代码和企业名称,在不同的数据源中找到关联数据;
步骤M3.2.2:去除不该存在的字符(多余的空格等);
步骤M3.2.3:将所有数据进行归一(包括单位、维度、频度等);
其中,步骤M3.4包括如下步骤:
步骤M3.4.1:设置合法性检查规则,对不合理的值进行重新取值或按缺失处理;
步骤M3.4.2:设置警示规则,对部分不符合规则的重要数据进行警示并人工修正;
步骤M3.4.3:离群值和矛盾值探测和处理;
步骤M4:根据预设规则提取清洗后的数据,利用清洗后的数据和根据预设规则提取清洗后的数据分别进行分析生成企业画像。
具体地,所述步骤M4包括:
步骤M4.1:根据预设规则,提取清洗后的数据进行规则逻辑判断,得到画像标签1;
步骤M4.2:使用AI自然语义对清洗后的数据进行关键词和标签抽取,得到画像标签2;其中包含了主题模型分析,使用LDA(Latent Dirichlet Allocation)模型来分析文本文档中所包含的主要语义信息。另外,该模块不仅支持传统技术可以处理的正式文本,还支持社会媒体中的非正式文本,并加入了情感分析。
步骤M4.3:对生成的画像标签进行权重分析,进行生成画像标签排序,得到企业画像。
所述预设规则部分是基于理论与政策制定的,另有部分规则依据统计数据综合学习得到的。
基于企业相关理论和国家政策直接制定部分逻辑分析规则,如行业分析规则等;
比如说,企业规模判断规则的制定:企业规模理论上应该依据国家统计局根据原国家经贸委、国家计委、财政部和国家统计局4部委联合发布的《中小企业标准暂行规定》,制定了《统计上大中小型企业划分办法(暂行)》来统计。《统计上大中小型企业划分办法(暂行)》以三个指标作为划分标志,即企业的“从业人员数”、“销售额”、“资产总额”。(国家政策)但是由于目前企业的税收、资产和社保人数的数据没有实现数据打通。目前的划分方法是通过统计学来实现。根据《2018年度浦东新区市场主体发展状况白皮书》中目前各规模企业的百分比,结合企业的注册资本、注册年限、股权变更的方式综合判定。判定方法目前如下:通过对新区48万家企业的注册资本及关键点进行统计分析得到规则。
这样就制定了一条逻辑规则:注册资本500万以下没有经过股改为小微企业;注册资本500万至3000万以下中型企业;注册资本3000万以上大型企业;注册资本3000万以上,经过股份制改造、有国有企业参股或者集团企业特征的企业为超大型企业。
再比如,结合规则后面的步骤说,企业发展阶段维度规则的制定:企业生命周期的基础理论建立在伊查克·爱迪斯《企业生命周期》中对企业生命周期的定义,主要包括四个大阶段,包括发展、成长、成熟、衰退。(这是企业相关的学术理论的部分)目前企业专属网页中的标签考虑到对外公示的影响,仅包括三个阶段,新办(发展)、成长、成熟。结合政府大多数创业扶持条件中一般以注册2年为界定标准(这是国家政策的部分),以2年为企业新办的界定条件。
基于企业相关理论和国家政策制定后续步骤的规则生成框架,提供理论基础;
结合三西格玛准则得到理论上的数据分布,并依据这些分布来辅助进行部分企业画像分类规则生成。
画像挖掘和利用模块,对于综合生成的企业画像,根据该画像进行政务事项快速定位、企业潜力值分析,以及对于相似画像的企业进行聚类分析,其中包括以下子模块:
政务事项定位和自动处理模块,利用企业画像来辅助企业服务事项内容的选择和部分自动填写。
潜力值分析模块,结合企业画像的情感分析和预设的权重规则模型,分析当前企业的潜力值。
聚类分析模块,对所有企业的画像进行分析,并以画像关键词及权重等来计算距离并做层次聚类。
行业维度数据分析,具体根据国家统计局的国民行业划分标准来进行划定,其中包含企业涉及的行业大类、主体行业和细分行业的分析;
企业规模分析,根据辖区内目前各规模企业的百分比,结合企业的注册资本、注册年限、股权变更的方式综合学习判定;
企业发展阶段分析,根据企业成立年限和企业规模,结合企业变更记录、股东信息判定等,划分企业为新办(发展)、成长或成熟期;
业务分析,根据企业名称、经营范围、公开新闻报道中抽取的数据来进行企业业务范围分析;
舆情分析,根据公开新闻报道和第三方企业信息平台数据,进行企业荣誉、奖项等分析;
知识产权分析,根据第三方企业信息平台数据,获取商标、软著、专利、认证等信息,进行企业知识产权分析;
业务办理历史分析,根据企业服务中心单窗平台业务办理数据,进行企业办事事项的归类分析;
根据本发明提供的一种通过大数据分析建立企业画像的系统,包括:
模块M1:接入政务网内企业数据和第三方企业信息平台内数据;具体为与政务网进行对接和相关开发来获取政务数据,并使用第三方企业信息平台提供的API接口来得到公开信息。
具体地,模块M1包括如下模块:
模块M1.1:与政务网开发单位进行对接;
模块M1.2:根据对接文档进行调取数据的相关开发;
模块M1.3:拿取所需企业相关数据;
模块M1.4:将数据按照统一格式写入数据库内;
模块M1.5:对接第三方信息平台API;
模块M1.6:拿取所需企业相关数据;
模块M1.7:将数据按照统一格式写入数据库内;
模块M2:使用聚焦网络爬虫在互联网进行企业数据爬取;
具体地,所述模块M2包括:
模块M2.1:选定爬取的数据源,并对所选数据源进行集群化爬取;
模块M2.2:对集群化爬取的数据进行包括权重计算、判重和多来源印证操作,并存储入数据库;
模块M2.3:预设更新频率定期进行企业数据爬取。
具体地,所述数据源包括:大规模数据库、互联网连接数据和互联网网页文本数据。
模块M3:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行数据清洗;
具体地,所述模块M3包括:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行包括去重、补缺、归一、修正和关联清洗操作。
更为具体地,模块M3包括如下模块:
模块M3.1:进行缺失值清洗;
模块M3.2:进行格式内容的清洗,规整数据源;
模块M3.3:参考数据权威级别以及数据合法性来进行数据去重;
模块M3.4:进行数据合法性检查和处理;
其中,模块M3.1包括如下模块:
模块M3.1.1:统计缺失值,计算缺失值比例,确定缺失字段重要性;
模块M3.1.2:依据缺失率和重要性,对不同缺失字段做相应处理(删除、补全、计算等);
其中,模块M3.2包括如下模块:
模块M3.2.1:依据企业组织机构代码和企业名称,在不同的数据源中找到关联数据;
模块M3.2.2:去除不该存在的字符(多余的空格等);
模块M3.2.3:将所有数据进行归一(包括单位、维度、频度等);
其中,模块M3.4包括如下模块:
模块M3.4.1:设置合法性检查规则,对不合理的值进行重新取值或按缺失处理;
模块M3.4.2:设置警示规则,对部分不符合规则的重要数据进行警示并人工修正;
模块M3.4.3:离群值和矛盾值探测和处理;
模块M4:根据预设规则提取清洗后的数据,利用清洗后的数据和根据预设规则提取清洗后的数据分别进行分析生成企业画像。
具体地,所述模块M4包括:
模块M4.1:根据预设规则,提取清洗后的数据进行规则逻辑判断,得到画像标签1;
模块M4.2:使用AI自然语义对清洗后的数据进行关键词和标签抽取,得到画像标签2;其中包含了主题模型分析,使用LDA(Latent Dirichlet Allocation)模型来分析文本文档中所包含的主要语义信息。另外,该模块不仅支持传统技术可以处理的正式文本,还支持社会媒体中的非正式文本,并加入了情感分析。
模块M4.3:对生成的画像标签进行权重分析,进行生成画像标签排序,得到企业画像。
所述预设规则是基于理论与政策制定的,另有部分规则依据统计数据综合学习得到的。
基于企业相关理论和国家政策直接制定部分逻辑分析规则,如行业分析规则等;
比如说,企业规模判断规则的制定:企业规模理论上应该依据国家统计局根据原国家经贸委、国家计委、财政部和国家统计局4部委联合发布的《中小企业标准暂行规定》,制定了《统计上大中小型企业划分办法(暂行)》来统计。《统计上大中小型企业划分办法(暂行)》以三个指标作为划分标志,即企业的“从业人员数”、“销售额”、“资产总额”。(国家政策)但是由于目前企业的税收、资产和社保人数的数据没有实现数据打通。目前的划分方法是通过统计学来实现。根据《2018年度浦东新区市场主体发展状况白皮书》中目前各规模企业的百分比,结合企业的注册资本、注册年限、股权变更的方式综合判定。判定方法目前如下:通过对新区48万家企业的注册资本及关键点进行统计分析得到规则。
这样就制定了一条逻辑规则:注册资本500万以下没有经过股改为小微企业;注册资本500万至3000万以下中型企业;注册资本3000万以上大型企业;注册资本3000万以上,经过股份制改造、有国有企业参股或者集团企业特征的企业为超大型企业。
再比如,结合规则后面的模块说,企业发展阶段维度规则的制定:企业生命周期的基础理论建立在伊查克·爱迪斯《企业生命周期》中对企业生命周期的定义,主要包括四个大阶段,包括发展、成长、成熟、衰退。(这是企业相关的学术理论的部分)目前企业专属网页中的标签考虑到对外公示的影响,仅包括三个阶段,新办(发展)、成长、成熟。结合政府大多数创业扶持条件中一般以注册2年为界定标准(这是国家政策的部分),以2年为企业新办的界定条件。
基于企业相关理论和国家政策制定后续模块的规则生成框架,提供理论基础;
结合三西格玛准则得到理论上的数据分布,并依据这些分布来辅助进行部分企业画像分类规则生成。
画像挖掘和利用模块,对于综合生成的企业画像,根据该画像进行政务事项快速定位、企业潜力值分析,以及对于相似画像的企业进行聚类分析,其中包括以下子模块:
政务事项定位和自动处理模块,利用企业画像来辅助企业服务事项内容的选择和部分自动填写。
潜力值分析模块,结合企业画像的情感分析和预设的权重规则模型,分析当前企业的潜力值。
聚类分析模块,对所有企业的画像进行分析,并以画像关键词及权重等来计算距离并做层次聚类。
行业维度数据分析,具体根据国家统计局的国民行业划分标准来进行划定,其中包含企业涉及的行业大类、主体行业和细分行业的分析;
企业规模分析,根据辖区内目前各规模企业的百分比,结合企业的注册资本、注册年限、股权变更的方式综合学习判定;
企业发展阶段分析,根据企业成立年限和企业规模,结合企业变更记录、股东信息判定等,划分企业为新办(发展)、成长或成熟期;
业务分析,根据企业名称、经营范围、公开新闻报道中抽取的数据来进行企业业务范围分析;
舆情分析,根据公开新闻报道和第三方企业信息平台数据,进行企业荣誉、奖项等分析;
知识产权分析,根据第三方企业信息平台数据,获取商标、软著、专利、认证等信息,进行企业知识产权分析;
业务办理历史分析,根据企业服务中心单窗平台业务办理数据,进行企业办事事项的归类分析;
实施例2
实施例2是实施例1的变化例
对于A公司的企业画像生成将经历以下步骤:首先系统将接入政务网关于A公司的信息数据,包括但不限于公司行业、注册资本、注册年限、股权变更、企业规模、办理业务数据等。然后系统接入第三方企业信息平台数据,得到A公司的商标、软著、专利、认证、奖项等信息。同时系统将定期爬取互联网数据来得到A公司业务关键词、荣誉、奖项、称号等。
以上三部分的数据作为源头数据,将与A公司进行绑定,进行数据清洗。先统计数据中有多少缺失值,根据事先制定的重要程度分别处理。例如对于重要性高且缺失率高的数据,系统将尝试从其他源头数据补全,或者是通过其他字段计算获得。如果无法补全时,将在结果内标明缺失,对于部分特别重要的数据可能还会触发警示。接着把数据的格式统一,包括但不限于去掉多余的空字符、将数据统一维度(例如部分数据以年为单位,部分以月为计算维度等)、统一单位(例如部分数据以人民币元为单位,部分树以人民币万元为单位等)。数据归一后,依据政务网>第三方平台>互联网的权威性来进行数据的核对和去重。对于不合理数据,系统将通过合法性规则、警示规则和数据本身范围来分别进行处理,例如对于应该为数值的字段内容为字符时,系统将按缺失处理。
基于清洗后的数据,建立企业知识图谱。建立过程包括实体链指(识别A公司实体并与歧义表述区分,建立部分关联)、关系抽取(抽取A公司与其他实体关系)、知识推理(发现A公司与其他实体新的关系)、知识表示(知识图谱的表达)。
得到数据和图谱,系统将对A公司进行画像分析。行业维度上:根据国家统计局的国民行业划分标准来进行划定。企业规模上:企业规模理论上应该依据国家统计局制定的《统计上大中小型企业划分办法(暂行)》来统计,但由于目前企业的税收、资产和社保人数数据未打通,目前通过统计学计算辅以第三方企业信息平台数据来进行判定。企业发展阶段上:企业新办和成长期的划定采用了大多数创业扶持条件中注册2年的界定标准,因此若A公司注册两年内为新办期。而成长和成熟界定的判定方法则基于统计学,以5年为划分界限,并会考虑融资记录等。业务维度:根据公开新闻和企业营业执照经营范围,系统使用AI自然语义来抽取业务关键词,例如从营业执照得到A公司经营食品生产,从公开新闻中得到A公司主要经营膨化食品等零食。舆情维度:系统根据公开新闻和第三方信息平台,通过AI自然语义来抽取企业荣誉、奖项、称号等,例如从新闻中获取A公司入围“世界食品创新奖”等奖项。知识产权维度:根据从第三方企业信息平台获取到的A公司商标、软著、专利、认证等信息,通过AI自然语义来抽取企业画像关键词,例如A公司作为食品公司获取的食品包装技术专利等。业务办理历史上:主要通过对企业服务中心单窗平台业务办理数据进行归类分析,从办事事项中利用AI自然语义处理抽取事项标签,例如A公司曾经办理企业营业许可,从中便可抽取A公司的投资主体、公司章程等事项信息。
通过以上得到企业画像的关键词,在A公司需要再前往企业服务中心办事时,可快速定位到A公司涉及事项。例如A公司需要进行分公司设立登记,系统将根据A公司投资主体而直接定位到“内资分公司设立登记”事项,并自动填写部分已知信息。即使不在企业服务中心办事,A公司也可以收到同类公司办事事项推荐、适用A公司的政策和事项推荐等。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (1)
1.一种通过大数据分析建立企业画像的方法,其特征在于,采用建立企业画像系统建立企业画像,所述建立企业画像系统包括:
模块M1:接入政务网内企业数据和第三方企业信息平台内数据;
模块M2:使用聚焦网络爬虫在互联网进行企业数据爬取;
模块M3:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行数据清洗;
模块M4:根据预设规则提取清洗后的数据,利用清洗后的数据和根据预设规则提取清洗后的数据分别进行分析生成企业画像;
所述模块M2包括:
模块M2.1:选定爬取的数据源,并对所选数据源进行集群化爬取;
模块M2.2:对集群化爬取的数据进行包括权重计算、判重和多来源印证操作,并存储入数据库;
模块M2.3:预设更新频率定期进行企业数据爬取;
所述数据源包括:大规模数据库、互联网连接数据和互联网网页文本数据;
所述模块M3包括:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行包括去重、补缺、归一、修正和关联清洗操作;
所述模块M4包括:
模块M4.1:根据预设规则,提取清洗后的数据进行规则逻辑判断,得到画像标签1;
模块M4.2:使用AI自然语义对清洗后的数据进行关键词和标签抽取,得到画像标签2;
模块M4.3:对生成的画像标签进行权重分析,进行生成画像标签排序,得到企业画像;
建立企业画像的具体步骤包括:
步骤M1:接入政务网内企业数据和第三方企业信息平台内数据;
步骤M2:使用聚焦网络爬虫在互联网进行企业数据爬取;
步骤M3:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行数据清洗;
步骤M4:根据预设规则提取清洗后的数据,利用清洗后的数据和根据预设规则提取清洗后的数据分别进行分析生成企业画像;
所述步骤M1包括:
步骤M1.1:与政务网开发单位进行对接;
步骤M1.2:根据对接文档进行调取数据的相关开发;
步骤M1.3:拿取所需企业相关数据;
步骤M1.4:将数据按照统一格式写入数据库内;
步骤M1.5:对接第三方信息平台API;
步骤M1.6:拿取所需企业相关数据;
步骤M1.7:将数据按照统一格式写入数据库内;
所述步骤M2包括:
步骤M2.1:选定爬取的数据源,并对所选数据源进行集群化爬取;
步骤M2.2:对集群化爬取的数据进行包括权重计算、判重和多来源印证操作,并存储入数据库;
步骤M2.3:预设更新频率定期进行企业数据爬取;
所述数据源包括:大规模数据库、互联网连接数据和互联网网页文本数据;
所述步骤M3包括:对接入的政务网企业数据、第三方企业信息平台内数据以及在互联网上爬取的数据进行包括去重、补缺、归一、修正和关联清洗操作;
所述步骤M3包括:
步骤M3.1:进行缺失值清洗;
步骤M3.2:进行格式内容的清洗,规整数据源;
步骤M3.3:参考数据权威级别以及数据合法性来进行数据去重;
步骤M3.4:进行数据合法性检查和处理;
其中,步骤M3.1包括如下步骤:
步骤M3.1.1:统计缺失值,计算缺失值比例,确定缺失字段重要性;
步骤M3.1.2:依据缺失率和重要性,对不同缺失字段做相应处理;
所述步骤M3.2包括如下步骤:
步骤M3.2.1:依据企业组织机构代码和企业名称,在不同的数据源中找到关联数据;
步骤M3.2.2:去除不该存在的字符;
步骤M3.2.3:将所有数据进行归一;
所述步骤M3.4包括如下步骤:
步骤M3.4.1:设置合法性检查规则,对不合理的值进行重新取值或按缺失处理;
步骤M3.4.2:设置警示规则,对部分不符合规则的重要数据进行警示并人工修正;
步骤M3.4.3:离群值和矛盾值探测和处理;
所述步骤M4包括:
步骤M4.1:根据预设规则,提取清洗后的数据进行规则逻辑判断,得到画像标签1;
步骤M4.2:使用AI自然语义对清洗后的数据进行关键词和标签抽取,得到画像标签2;其中包括主题模型分析,使用LDA模型分析文本文档中所包含的主要语义信息,不仅支持传统技术可以处理的正式文本,还支持社会媒体中的非正式文本,并加入情感分析;
步骤M4.3:对生成的画像标签进行权重分析,进行生成画像标签排序,得到企业画像;
所述预设规则包括:基于企业相关理论和国家政策直接制定部分逻辑分析规则以及结合三西格玛准则得到理论上的数据分布,并根据数据分布得到部分企业画像分类规则;
利用企业画像进行以下应用,包括:
政务事项定位、企业潜力值分析以及对于相似画像的企业进行聚类分析;
所述政务事项定位包括:利用企业画像辅助企业服务事项内容的选择和自动填写;
所述企业潜力值分析包括:结合企业画像的情感分析和预设的权重规则模型,分析当前企业的潜力值;
所述聚类分析包括对所有企业的画像进行分析,并以画像关键词及权重计算距离并做层次聚类;
行业维度数据分析,具体根据行业划分标准来进行划定,包含企业涉及的行业大类、主体行业和细分行业的分析;
企业规模分析,根据辖区内目前各规模企业的百分比,结合企业的注册资本、注册年限、股权变更的方式综合学习判定;
企业发展阶段分析,根据企业成立年限和企业规模,结合企业变更记录、股东信息判定,划分企业为发展、成长或成熟期;
业务分析,根据企业名称、经营范围、公开新闻报道中抽取的数据来进行企业业务范围分析;
舆情分析,根据公开新闻报道和第三方企业信息平台数据,进行企业荣誉、奖项分析;
知识产权分析,根据第三方企业信息平台数据,获取商标、软著、专利、认证信息,进行企业知识产权分析;
业务办理历史分析,根据企业服务中心单窗平台业务办理数据,进行企业办事事项的归类分析;
针对公司的企业画像生成,包括:
首先接入政务网关于公司的信息数据,包括公司行业、注册资本、注册年限、股权变更、企业规模以及办理业务数据;
然后接入第三方企业信息平台数据,得到公司的商标、软著、专利、认证以及奖项;
定期爬取互联网数据得到公司业务关键词、荣誉、奖项以及称号;
将上述数据作为源头数据与公司进行绑定,并进行数据清洗,并把数据的格式统一;数据归一后,依据政务网、第三方平台、互联网的权威性进行数据的核对和去重;
基于清洗后的数据,建立企业知识图谱,包括实体链指、关系抽取、知识推理以及知识表示;
所述实体链指是识别公司实体并与歧义表述区分,建立部分关联;所述关系抽取是抽取公司与其他实体关系;所述知识推理是发现公司与其他实体新的关系;所述知识表示是知识图谱的表达;
得到数据和图谱,对公司进行画像分析,包括:行业维度分析、企业规模分析、企业发展阶段分析、业务维度分析、舆情维度分析、知识产权维度分析以及业务办理历史分析;
根据企业画像关键词,快速定位公司涉及事项、推荐同类公司办事事项以及推荐公司的政策和事项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011043391.7A CN112182246B (zh) | 2020-09-28 | 2020-09-28 | 通过大数据分析建立企业画像的方法、系统、介质及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011043391.7A CN112182246B (zh) | 2020-09-28 | 2020-09-28 | 通过大数据分析建立企业画像的方法、系统、介质及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182246A CN112182246A (zh) | 2021-01-05 |
CN112182246B true CN112182246B (zh) | 2022-01-11 |
Family
ID=73946850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011043391.7A Active CN112182246B (zh) | 2020-09-28 | 2020-09-28 | 通过大数据分析建立企业画像的方法、系统、介质及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182246B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700170A (zh) * | 2021-01-15 | 2021-04-23 | 科技谷(厦门)信息技术有限公司 | 一种基于园区大数据的精准招商平台 |
CN112837199A (zh) * | 2021-02-25 | 2021-05-25 | 重庆数联铭信科技有限公司 | 一种建立中小微企业大数据服务平台的方法 |
CN113469490A (zh) * | 2021-05-13 | 2021-10-01 | 北京北航天汇科技孵化器有限公司 | 一种园区入驻企业综合能力评价方法和系统 |
CN113377742A (zh) * | 2021-06-02 | 2021-09-10 | 浪潮软件股份有限公司 | 一种基于法人综合数据资源库的企业空间数据应用方法 |
CN114328495A (zh) * | 2021-12-31 | 2022-04-12 | 陕西优百信息技术有限公司 | 企业物料清洗服务系统及其数据清洗方法 |
CN115409433B (zh) * | 2022-11-02 | 2023-04-07 | 成都宏恒信息科技有限公司 | 基于深度nlp的社区重点人员画像分析方法及装置 |
CN115640335B (zh) * | 2022-12-06 | 2023-08-11 | 上海创飞纵横科技集团有限公司 | 基于企业画像的企业分析方法、系统及云平台 |
CN116776392B (zh) * | 2023-07-26 | 2024-02-20 | 园创品牌管理(北京)有限公司 | 一种提高园区数智化招商的双九维管理方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015036817A1 (en) * | 2013-09-15 | 2015-03-19 | Yogesh Chunilal Rathod | Structured updated status, requests, user data & programming based presenting & accessing of connections |
US9836500B2 (en) * | 2007-02-02 | 2017-12-05 | Loeb Enterprises, Llc | System and method for creating a customized digital image |
CN109345089A (zh) * | 2018-09-13 | 2019-02-15 | 杭州索骥数据科技有限公司 | 基于大数据的企业发展状态评估方法及系统 |
CN109558541A (zh) * | 2018-11-30 | 2019-04-02 | 北京百悟科技有限公司 | 一种信息处理的方法、装置及计算机存储介质 |
CN110704572A (zh) * | 2019-09-04 | 2020-01-17 | 北京航空航天大学 | 疑似非法集资风险的预警方法、装置、设备和存储介质 |
CN110990474A (zh) * | 2019-11-28 | 2020-04-10 | 泰华智慧产业集团股份有限公司 | 一种区域性产业画像分析的方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7196822B2 (en) * | 2001-08-14 | 2007-03-27 | Amgraf, Inc. | Security document manufacturing method and apparatus using halftone dots that contain microscopic images |
US7647260B2 (en) * | 2004-09-09 | 2010-01-12 | Accenture Global Services Gmbh | Return on investment (ROI) tool |
CN105913195A (zh) * | 2016-04-29 | 2016-08-31 | 浙江汇信科技有限公司 | 基于全行业数据的企业金融风险评分方法 |
CN111091007A (zh) * | 2020-03-23 | 2020-05-01 | 杭州有数金融信息服务有限公司 | 一种基于舆情及企业画像识别多个企业之间关系的方法 |
-
2020
- 2020-09-28 CN CN202011043391.7A patent/CN112182246B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9836500B2 (en) * | 2007-02-02 | 2017-12-05 | Loeb Enterprises, Llc | System and method for creating a customized digital image |
WO2015036817A1 (en) * | 2013-09-15 | 2015-03-19 | Yogesh Chunilal Rathod | Structured updated status, requests, user data & programming based presenting & accessing of connections |
CN109345089A (zh) * | 2018-09-13 | 2019-02-15 | 杭州索骥数据科技有限公司 | 基于大数据的企业发展状态评估方法及系统 |
CN109558541A (zh) * | 2018-11-30 | 2019-04-02 | 北京百悟科技有限公司 | 一种信息处理的方法、装置及计算机存储介质 |
CN110704572A (zh) * | 2019-09-04 | 2020-01-17 | 北京航空航天大学 | 疑似非法集资风险的预警方法、装置、设备和存储介质 |
CN110990474A (zh) * | 2019-11-28 | 2020-04-10 | 泰华智慧产业集团股份有限公司 | 一种区域性产业画像分析的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112182246A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112182246B (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
CN110383319B (zh) | 大规模异构数据摄取和用户解析 | |
He et al. | A database linking Chinese patents to China’s census firms | |
CN108572967B (zh) | 一种创建企业画像的方法及装置 | |
CN107851097B (zh) | 数据分析系统、数据分析方法、数据分析程序及存储介质 | |
US20170004128A1 (en) | Device and method for analyzing reputation for objects by data mining | |
CN106649223A (zh) | 基于自然语言处理的金融报告自动生成方法 | |
US20150032645A1 (en) | Computer-implemented systems and methods of performing contract review | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
CN112036842B (zh) | 一种科技服务智能匹配装置 | |
KR102121901B1 (ko) | 정책자금 온라인 심사평가 시스템 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN109492097B (zh) | 一种企业新闻数据风险分类方法 | |
Matthies et al. | Computer-aided text analysis of corporate disclosures-demonstration and evaluation of two approaches | |
Chen et al. | Exploring technology opportunities and evolution of IoT-related logistics services with text mining | |
JPWO2018230616A1 (ja) | 法的情報処理システム、方法及びプログラム | |
CN111445028A (zh) | Ai驱动的交易管理系统 | |
CN112036841A (zh) | 基于智能语义识别的政策解析系统及方法 | |
CN113159796A (zh) | 一种贸易合同验证方法及装置 | |
Mitsuzuka et al. | Analysis of CSR activities affecting corporate value using machine learning | |
US20220374401A1 (en) | Determining domain and matching algorithms for data systems | |
US20220164374A1 (en) | Method of scoring and valuing data for exchange | |
CN115204393A (zh) | 一种基于知识图谱的智慧城市知识本体库构建方法和装置 | |
CN113610504A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
Aizenberg et al. | Computational approaches to mapping interest group representation: A test and discussion of different methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |