CN113127539A - 一种基于大数据分析和特征识别的区域性产业数据库处理方法 - Google Patents

一种基于大数据分析和特征识别的区域性产业数据库处理方法 Download PDF

Info

Publication number
CN113127539A
CN113127539A CN202110439129.2A CN202110439129A CN113127539A CN 113127539 A CN113127539 A CN 113127539A CN 202110439129 A CN202110439129 A CN 202110439129A CN 113127539 A CN113127539 A CN 113127539A
Authority
CN
China
Prior art keywords
enterprise
industry
industry type
ith
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110439129.2A
Other languages
English (en)
Inventor
葛飞
李玉婷
曹萌萌
王建萍
王辉
孙源
李贞贞
刘佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Branch Of National Science Library Chinese Academy Of Sciences
Qinghai Institute of Salt Lakes Research of CAS
Original Assignee
Wuhan Branch Of National Science Library Chinese Academy Of Sciences
Qinghai Institute of Salt Lakes Research of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Branch Of National Science Library Chinese Academy Of Sciences, Qinghai Institute of Salt Lakes Research of CAS filed Critical Wuhan Branch Of National Science Library Chinese Academy Of Sciences
Priority to CN202110439129.2A priority Critical patent/CN113127539A/zh
Publication of CN113127539A publication Critical patent/CN113127539A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于大数据分析和特征识别的区域性产业数据库处理方法,通过对区域内存在的企业进行统计并按照所属产业类型进行分类,进而获取各产业类型对应各企业的特征参数,同时统计各产业类型对应各企业的各特征对应的排序系数,进而由此统计各产业类型对应各企业的综合排序系数,构建产业数据库,从而得到各产业类型对应各企业的综合排序结果,以此作为搜索者进行区域产业类型关键词的综合搜索结果,弥补了传统进行区域产业类型关键词搜索时存在的搜索结果过多过杂的不足,大大避免了搜索者因总结消化搜索结果浪费大量时间成本情况的发生,有效减轻了搜索者的工作负担,同时提高了区域政府进行区域产业管理的效率。

Description

一种基于大数据分析和特征识别的区域性产业数据库处理 方法
技术领域
本发明属于产业数据库处理技术领域,具体涉及一种基于大数据分析和特征识别的区域性产业数据库处理方法。
背景技术
随着现代科学技术的迅速发展,数据库的处理分析计技术在经济建设和社会发展中的作用越来越大。无论是个人、企业还是政府组织,都能够通过有效地利用数据库处理技术进行统计分析,从而解决问题。
对于区域政府来说,对该区域内存在的各产业类型对应的企业信息进行实时了解,是区域政府进行区域产业管理的基础,而对该区域内存在的各产业类型对应的企业信息进行实时了解就需要构建区域产业数据库,便于政府相关管理人员输入产业类型关键词搜索,但传统的区域产业数据库中存储的企业数据信息涵盖方面较为杂乱,没有综合进行处理,导致搜索产业类型关键词得到的搜索结果过多过杂,如搜索某产业类型对应的各企业搜索结果,有以成立时长为搜索依据的搜索结果,有以企业年产值为搜索依据的搜索结果。可见,其搜索结果难以为搜索者快速提供综合的搜索结果,这就使得搜索者需要花费大量时间来总结消化搜索结果,不仅浪费了大量的时间成本,而且降低了区域政府进行区域产业管理的效率,无法满足区域政府进行区域产业管理的高效率需求。
发明内容
为了改善上述问题,本发明提出一种基于大数据分析和特征识别的区域性产业数据库处理方法,通过对区域内存在的企业进行统计并按照所属产业类型进行分类,进而获取各产业类型对应各企业的特征参数,同时统计各产业类型对应各企业的各特征对应的排序系数,进而由此统计各产业类型对应各企业的综合排序系数,构建产业数据库,从而根据构建的产业数据库进行各产业类型对应各企业的综合排序结果,作为搜索者进行区域产业类型关键词的综合搜索结果,解决了背景技术提到的问题。
本发明的目的可以通过以下技术方案实现:
一种基于大数据分析和特征识别的区域性产业数据库处理方法,包括以下步骤:
S1.区域现有企业统计:对区域内现有的所有企业数量进行统计;
S2.区域现有企业分类:分别对统计的区域内所有企业获取其对应的产业类型,并将获取的区域内各企业对应的产业类型进行相互对比,从而将相同产业类型的企业进行归类,由此得到各产业类型对应的若干企业,与此同时对得到的各产业类型按照设置的编号顺序进行编号,依次标记为A,B...I...N,由此对各产业类型对应的若干企业进行编号,分别标记为1,2...i...n;
S3.各产业类型的企业特征参数集合构建:对标记的各产业类型对应的各企业获取其对应的成立日期、企业注册时填写的企业基本信息项数、当前从业人员数量、当前年限年产值和企业所处地理位置,并将获取的各产业类型对应各企业的成立日期、企业注册时填写的企业基本信息项数、当前从业人员数量、当前年限年产值和企业所处地理位置构成各产业类型的企业特征参数集合QI w(qI w1,qI w2,...,qI wi,...,qI wn),qI wi表示为第I个产业类型对应的第i个企业的特征参数对应的数据,w表示为特征参数,w=f1,f2,f3,f4,f5,分别表示为成立日期,企业注册时填写的企业基本信息项数,当前年限从业人员数量、当前年限年产值,企业所处地理位置;
S4.企业成立时长排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的成立日期,并获取当前日期,进而根据当前日期和各产业类型对应各企业的成立日期统计各产业类型对应各企业的成立时长,由此将统计的各产业类型对应各企业的成立时长与预设的企业各种成立时长对应的成立时长排序系数进行对比,从而筛选出各产业类型对应各企业的成立时长排序系数;
S5.企业注册基本信息填写完整度排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的企业注册时填写的企业基本信息项数,并将提取的各产业类型对应各企业的企业注册时填写的企业基本信息项数与企业注册时企业基本信息标准填写项数进行对比,进而以此统计各产业类型对应各企业的注册基本信息填写完整度排序系数;
S6.企业从业人员数量排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的当前年限从业人员数量,并统计各产业类型对应各企业的历史平均从业人员数量,由此根据各企业的当前年限从业人员数量和各产业类型对应各企业的历史平均从业人员数量统计各产业类型对应各企业的从业人员数量排序系数;
S7.企业年产值排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的当前年限年产值,并统计各产业类型对应各企业的历史平均年产值,由此根据各企业的当前年限年产值和各产业类型对应各企业的历史平均年产值统计各产业类型对应各企业的年产值排序系数;
S8.企业距离排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的企业所处地理位置,并实时根据搜索者的搜索ip地址,获取搜索者所处地理位置,以此根据各产业类型对应各企业的企业所处地理位置和搜索者所处地理位置,统计各产业类型对应各企业所处地理位置距离搜索者所处地理位置之间的距离,进而将各产业类型对应各企业所处地理位置距离搜索者所处地理位置之间的距离与预设的距离搜索者所处地理位置的各种距离对应的距离排序系数进行对比,从而筛选出各产业类型对应各企业的距离排序系数;
S9.企业综合排序系数统计:根据各产业类型对应各企业的成立时长排序系数、注册基本信息填写完整度排序系数、从业人员数量排序系数、年产值排序系数和距离排序系数统计各产业类型对应各企业的综合排序系数,并将统计的各产业类型对应各企业的综合排序系数存储在区域产业数据库中;
S10.企业综合排序:根据区域产业数据库中存储的各产业类型对应各企业的综合排序系数,将各产业类型对应的各企业按照综合排序系数由大到小的顺序进行排序,得到各产业类型对应各企业的综合排序结果,作为搜索者进行区域产业类型关键词的综合搜索结果。
进一步地,所述S4中统计各产业类型对应各企业的成立时长的具体统计方法为将当前日期减去各产业类型对应各企业的成立日期。
进一步地,所述各产业类型对应各企业的注册基本信息填写完整度排序系数的计算公式为
Figure BDA0003033090390000041
ηIi表示为第I个产业类型对应第i个企业的注册基本信息填写完整度排序系数,qI f2i表示为第I个产业类型对应第i个企业的企业注册时填写的企业基本信息项数,k表示为企业注册时企业基本信息标准填写项数。
进一步地,所述S6中统计各产业类型对应各企业的历史平均从业人员数量的具体统计方法执行以下步骤:
H1:按照预设的历史年限数量,对预设的各历史年限按照距离当前年限的时时间由短到长的顺序进行编号,分别标记为1,2...j...m;
H2:获取各产业类型对应各企业在各历史年限的从业人员数量,并构成各产业类型对应各企业的历史年限从业人员数量集合ZI i(zI i1,zI i2,...,zI ij,...,zI im),zI ij表示为第I个产业类型对应第i个企业在第j个历史年限的从业人员数量;
H3:根据各产业类型对应各企业的历史年限从业人员数量集合计算各产业类型对应各企业的历史平均从业人员数量,其计算公式为
Figure BDA0003033090390000051
Figure BDA0003033090390000052
表示为第I个产业类型对应第i个企业的历史平均从业人员数量。
进一步地,所述各产业类型对应各企业的从业人员数量排序系数的计算公式为
Figure BDA0003033090390000053
σIi表示为第I个产业类型对应第i个企业的从业人员数量排序系数,qI f3i表示为第I个产业类型对应第i个企业的当前年限从业人员数量,a、b分别表示为当前年限从业人员数量权重因子、历史年限从业人员数量权重因子,且a+b=1。
进一步地,所述S7中统计各产业类型对应各企业的历史平均年产值的具体统计方法包括以下步骤:
W1:根据预设的历史年限编号顺序,获取各产业类型对应各企业在各历史年限的年产值,并构成各产业类型对应各企业的历史年限年产值集合XI i(xI i1,xI i2,...,xI ij,...,xI im),xI ij表示为第I个产业类型对应第i个企业在第j个历史年限的年产值;
W2:根据各产业类型对应各企业的历史年限年产值集合计算各产业类型对应各企业的历史平均年产值,其计算公式为
Figure BDA0003033090390000054
Figure BDA0003033090390000055
表示为第I个产业类型对应第i个企业的历史平均年产值。
进一步地,所述各产业类型对应各企业的年产值排序系数的计算公式为
Figure BDA0003033090390000056
ξIi表示为第I个产业类型对应第i个企业的年产值排序系数,qI f4i表示为第I个产业类型对应第i个企业的当前年限年产值,d、e分别表示为当前年限年产值权重因子、历史年限年产值权重因子,且d+e=1。
进一步地,所述各产业类型对应各企业的综合排序系数的计算公式为
Figure BDA0003033090390000061
Figure BDA0003033090390000062
表示为第I个产业类型对应第i个企业的综合排序系数,δIi表示为第I个产业类型对应第i个企业的成立时长排序系数,λIi表示为第I个产业类型对应第i个企业的距离排序系数,α1、α2、α3、α4、α5分别表示为成立时长、注册基本信息填写完整度、从业人员数量、年产值、距离对应的排序权重影响系数,且α1+α2+α3+α4+α5=1。
进一步地,所述α1、α2、α3、α4、α5对应的大小关系为α4>α3>α1>α2>α5。
本发明的有益效果如下:
本发明通过对区域内存在的企业进行统计并按照所属产业类型进行分类,进而获取各产业类型对应各企业的特征参数,同时统计各产业类型对应各企业的各特征对应的排序系数,进而由此统计各产业类型对应各企业的综合排序系数,构建产业数据库,从而根据构建的产业数据库进行各产业类型对应各企业的综合排序,其综合排序结果作为搜索者进行区域产业类型关键词的综合搜索结果,其构建产业数据库的方式优化了传统产业数据库的构建方式,其得到的搜索结果弥补了传统进行区域产业类型关键词搜索时存在的搜索结果过多过杂的不足,大大避免了搜索者因总结消化搜索结果浪费大量时间成本情况的发生,有效减轻了搜索者的工作负担,同时提高了区域政府进行区域产业管理的效率。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明的方法实施步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,一种基于大数据分析和特征识别的区域性产业数据库处理方法,包括以下步骤:
S1.区域现有企业统计:对区域内现有的所有企业数量进行统计;
S2.区域现有企业分类:分别对统计的区域内所有企业获取其对应的产业类型,并将获取的区域内各企业对应的产业类型进行相互对比,从而将相同产业类型的企业进行归类,由此得到各产业类型对应的若干企业,与此同时对得到的各产业类型按照设置的编号顺序进行编号,依次标记为A,B...I...N,由此对各产业类型对应的若干企业进行编号,分别标记为1,2...i...n;
S3.各产业类型的企业特征参数集合构建:对标记的各产业类型对应的各企业获取其对应的成立日期、企业注册时填写的企业基本信息项数、当前从业人员数量、当前年限年产值和企业所处地理位置,并将获取的各产业类型对应各企业的成立日期、企业注册时填写的企业基本信息项数、当前从业人员数量、当前年限年产值和企业所处地理位置构成各产业类型的企业特征参数集合QI w(qI w1,qI w2,...,qI wi,...,qI wn),qI wi表示为第I个产业类型对应的第i个企业的特征参数对应的数据,w表示为特征参数,w=f1,f2,f3,f4,f5,分别表示为成立日期,企业注册时填写的企业基本信息项数,当前年限从业人员数量、当前年限年产值,企业所处地理位置;
S4.企业成立时长排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的成立日期,并获取当前日期,进而将当前日期分别减去各产业类型对应各企业的成立日期,以此得到各产业类型对应各企业的成立时长,由此将统计的各产业类型对应各企业的成立时长与预设的企业各种成立时长对应的成立时长排序系数进行对比,从而筛选出各产业类型对应各企业的成立时长排序系数;
S5.企业注册基本信息填写完整度排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的企业注册时填写的企业基本信息项数,并将提取的各产业类型对应各企业的企业注册时填写的企业基本信息项数与企业注册时企业基本信息标准填写项数进行对比,进而以此统计各产业类型对应各企业的注册基本信息填写完整度排序系数
Figure BDA0003033090390000081
ηI i表示为第I个产业类型对应第i个企业的注册基本信息填写完整度排序系数,qI f2i表示为第I个产业类型对应第i个企业的企业注册时填写的企业基本信息项数,k表示为企业注册时企业基本信息标准填写项数;
S6.企业从业人员数量排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的当前年限从业人员数量,并统计各产业类型对应各企业的历史平均从业人员数量,其具体统计方法执行以下步骤:
H1:按照预设的历史年限数量,对预设的各历史年限按照距离当前年限的时时间由短到长的顺序进行编号,分别标记为1,2...j...m,其中预设的历史年限数量应不少于3个;
H2:获取各产业类型对应各企业在各历史年限的从业人员数量,并构成各产业类型对应各企业的历史年限从业人员数量集合ZI i(zI i1,zI i2,...,zI ij,...,zI im),zI ij表示为第I个产业类型对应第i个企业在第j个历史年限的从业人员数量;
H3:根据各产业类型对应各企业的历史年限从业人员数量集合计算各产业类型对应各企业的历史平均从业人员数量,其计算公式为
Figure BDA0003033090390000091
Figure BDA0003033090390000092
表示为第1个产业类型对应第i个企业的历史平均从业人员数量;
本实施例通过对预设的历史年限数量进行限定,是为了避免因设置的历史年限数量过少导致得到的历史年限对应的从业人员数量数据过少,从而影响企业历史平均从业人员数量统计的准确度;
由此根据各企业的当前年限从业人员数量和各产业类型对应各企业的历史平均从业人员数量统计各产业类型对应各企业的从业人员数量排序系数
Figure BDA0003033090390000093
σIi表示为第I个产业类型对应第i个企业的从业人员数量排序系数,qI f3i表示为第I个产业类型对应第i个企业的当前年限从业人员数量,a、b分别表示为当前年限从业人员数量权重因子、历史年限从业人员数量权重因子,且a+b=1;
本实施例统计的各产业类型对应各企业的从业人员数量排序系数融合了企业当前年限的从业人员数量状况和历史年限平均从业人员数量状况,综合反映了企业的从业人员数量这一参数的排序状况,避免了只根据当前年限或历史年限任意一个方面进行企业从业人员数量排序系数统计造成的统计片面化问题;
S7.企业年产值排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的当前年限年产值,并统计各产业类型对应各企业的历史平均年产值,其具体统计方法包括以下步骤:
W1:根据预设的历史年限编号顺序,获取各产业类型对应各企业在各历史年限的年产值,并构成各产业类型对应各企业的历史年限年产值集合XI i(xI i1,xI i2,...,xI ij,...,xI im),xI ij表示为第I个产业类型对应第i个企业在第j个历史年限的年产值;
W2:根据各产业类型对应各企业的历史年限年产值集合计算各产业类型对应各企业的历史平均年产值,其计算公式为
Figure BDA0003033090390000101
Figure BDA0003033090390000102
表示为第I个产业类型对应第i个企业的历史平均年产值;
由此根据各企业的当前年限年产值和各产业类型对应各企业的历史平均年产值统计各产业类型对应各企业的年产值排序系数
Figure BDA0003033090390000103
ξIi表示为第I个产业类型对应第i个企业的年产值排序系数,qI f4i表示为第I个产业类型对应第i个企业的当前年限年产值,d、e分别表示为当前年限年产值权重因子、历史年限年产值权重因子,且d+e=1;
本实施例统计的各产业类型对应各企业的年产值排序系数融合了企业当前年限的年产值状况和历史年限平均年产值状况,综合反映了企业的年产值这一参数的排序状况,避免了只根据当前年限或历史年限任意一个方面进行企业年产值排序系数统计造成的统计片面化问题;
S8.企业距离排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的企业所处地理位置,并实时根据搜索者的搜索ip地址,获取搜索者所处地理位置,以此根据各产业类型对应各企业的企业所处地理位置和搜索者所处地理位置,统计各产业类型对应各企业所处地理位置距离搜索者所处地理位置之间的距离,进而将各产业类型对应各企业所处地理位置距离搜索者所处地理位置之间的距离与预设的距离搜索者所处地理位置的各种距离对应的距离排序系数进行对比,从而筛选出各产业类型对应各企业的距离排序系数;
S9.企业综合排序系数统计:根据各产业类型对应各企业的成立时长排序系数、注册基本信息填写完整度排序系数、从业人员数量排序系数、年产值排序系数和距离排序系数统计各产业类型对应各企业的综合排序系数
Figure BDA0003033090390000111
Figure BDA0003033090390000112
表示为第1个产业类型对应第i个企业的综合排序系数,δIi表示为第1个产业类型对应第i个企业的成立时长排序系数,λIi表示为第1个产业类型对应第i个企业的距离排序系数,α1、α2、α3、α4、α5分别表示为成立时长、注册基本信息填写完整度、从业人员数量、年产值、距离对应的排序权重影响系数,且α1+α2+α3+α4+α5=1,且α1、α2、α3、α4、α5对应的大小关系为α4>α3>α1>α2>α5,并将统计的各产业类型对应各企业的综合排序系数存储在区域产业数据库中;
本实施例通过将得到的各产业类型对应各企业的各个特征参数排序系数进行整合,得出各产业类型对应各企业的综合排序系数,以此构建区域产业数据库,其构建方式优化了传统产业数据库的构建方式,避免了传统产业数据库中存储的企业数据信息涵盖方面较为杂乱的问题;
S10.企业综合排序:根据区域产业数据库中存储的各产业类型对应各企业的综合排序系数,将各产业类型对应的各企业按照综合排序系数由大到小的顺序进行排序,得到各产业类型对应各企业的综合排序结果,作为搜索者进行区域产业类型关键词的综合搜索结果,弥补了传统进行区域产业类型关键词搜索时存在的搜索结果过多过杂的不足,大大避免了搜索者因总结消化搜索结果浪费大量时间成本情况的发生,有效减轻了搜索者的工作负担,同时提高了区域政府进行区域产业管理的效率。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (9)

1.一种基于大数据分析和特征识别的区域性产业数据库处理方法,其特征在于:包括以下步骤:
S1.区域现有企业统计:对区域内现有的所有企业数量进行统计;
S2.区域现有企业分类:分别对统计的区域内所有企业获取其对应的产业类型,并将获取的区域内各企业对应的产业类型进行相互对比,从而将相同产业类型的企业进行归类,由此得到各产业类型对应的若干企业,与此同时对得到的各产业类型按照设置的编号顺序进行编号,依次标记为A,B...I...N,由此对各产业类型对应的若干企业进行编号,分别标记为1,2...i...n;
S3.各产业类型的企业特征参数集合构建:对标记的各产业类型对应的各企业获取其对应的成立日期、企业注册时填写的企业基本信息项数、当前从业人员数量、当前年限年产值和企业所处地理位置,并将获取的各产业类型对应各企业的成立日期、企业注册时填写的企业基本信息项数、当前从业人员数量、当前年限年产值和企业所处地理位置构成各产业类型的企业特征参数集合QI w(qI w1,qI w2,...,qI wi,...,qI wn),qI wi表示为第I个产业类型对应的第i个企业的特征参数对应的数据,w表示为特征参数,w=f1,f2,f3,f4,f5,分别表示为成立日期,企业注册时填写的企业基本信息项数,当前年限从业人员数量、当前年限年产值,企业所处地理位置;
S4.企业成立时长排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的成立日期,并获取当前日期,进而根据当前日期和各产业类型对应各企业的成立日期统计各产业类型对应各企业的成立时长,由此将统计的各产业类型对应各企业的成立时长与预设的企业各种成立时长对应的成立时长排序系数进行对比,从而筛选出各产业类型对应各企业的成立时长排序系数;
S5.企业注册基本信息填写完整度排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的企业注册时填写的企业基本信息项数,并将提取的各产业类型对应各企业的企业注册时填写的企业基本信息项数与企业注册时企业基本信息标准填写项数进行对比,进而以此统计各产业类型对应各企业的注册基本信息填写完整度排序系数;
S6.企业从业人员数量排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的当前年限从业人员数量,并统计各产业类型对应各企业的历史平均从业人员数量,由此根据各企业的当前年限从业人员数量和各产业类型对应各企业的历史平均从业人员数量统计各产业类型对应各企业的从业人员数量排序系数;
S7.企业年产值排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的当前年限年产值,并统计各产业类型对应各企业的历史平均年产值,由此根据各企业的当前年限年产值和各产业类型对应各企业的历史平均年产值统计各产业类型对应各企业的年产值排序系数;
S8.企业距离排序系数统计:从各产业类型的企业特征参数集合中提取各产业类型对应各企业的企业所处地理位置,并实时根据搜索者的搜索ip地址,获取搜索者所处地理位置,以此根据各产业类型对应各企业的企业所处地理位置和搜索者所处地理位置,统计各产业类型对应各企业所处地理位置距离搜索者所处地理位置之间的距离,进而将各产业类型对应各企业所处地理位置距离搜索者所处地理位置之间的距离与预设的距离搜索者所处地理位置的各种距离对应的距离排序系数进行对比,从而筛选出各产业类型对应各企业的距离排序系数;
S9.企业综合排序系数统计:根据各产业类型对应各企业的成立时长排序系数、注册基本信息填写完整度排序系数、从业人员数量排序系数、年产值排序系数和距离排序系数统计各产业类型对应各企业的综合排序系数,并将统计的各产业类型对应各企业的综合排序系数存储在区域产业数据库中;
S10.企业综合排序:根据区域产业数据库中存储的各产业类型对应各企业的综合排序系数,将各产业类型对应的各企业按照综合排序系数由大到小的顺序进行排序,得到各产业类型对应各企业的综合排序结果,作为搜索者进行区域产业类型关键词的综合搜索结果。
2.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法,其特征在于:所述S4中统计各产业类型对应各企业的成立时长的具体统计方法为将当前日期分别减去各产业类型对应各企业的成立日期。
3.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法,其特征在于:所述各产业类型对应各企业的注册基本信息填写完整度排序系数的计算公式为
Figure FDA0003033090380000031
ηIi表示为第1个产业类型对应第i个企业的注册基本信息填写完整度排序系数,qI f2i表示为第I个产业类型对应第i个企业的企业注册时填写的企业基本信息项数,k表示为企业注册时企业基本信息标准填写项数。
4.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法,其特征在于:所述S6中统计各产业类型对应各企业的历史平均从业人员数量的具体统计方法执行以下步骤:
H1:按照预设的历史年限数量,对预设的各历史年限按照距离当前年限的时时间由短到长的顺序进行编号,分别标记为1,2...j...m;
H2:获取各产业类型对应各企业在各历史年限的从业人员数量,并构成各产业类型对应各企业的历史年限从业人员数量集合ZI i(zI i1,zI i2,...,zI ij,...,zI im),zI ij表示为第I个产业类型对应第i个企业在第j个历史年限的从业人员数量;
H3:根据各产业类型对应各企业的历史年限从业人员数量集合计算各产业类型对应各企业的历史平均从业人员数量,其计算公式为
Figure FDA0003033090380000041
Figure FDA0003033090380000042
表示为第I个产业类型对应第i个企业的历史平均从业人员数量。
5.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法,其特征在于:所述各产业类型对应各企业的从业人员数量排序系数的计算公式为
Figure FDA0003033090380000043
σIi表示为第I个产业类型对应第i个企业的从业人员数量排序系数,qI f3i表示为第I个产业类型对应第i个企业的当前年限从业人员数量,a、b分别表示为当前年限从业人员数量权重因子、历史年限从业人员数量权重因子,且a+b=1。
6.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法,其特征在于:所述S7中统计各产业类型对应各企业的历史平均年产值的具体统计方法包括以下步骤:
W1:根据预设的历史年限编号顺序,获取各产业类型对应各企业在各历史年限的年产值,并构成各产业类型对应各企业的历史年限年产值集合XI i(xI i1,xI i2,...,xI ij,...,xI im),xI ij表示为第I个产业类型对应第i个企业在第j个历史年限的年产值;
W2:根据各产业类型对应各企业的历史年限年产值集合计算各产业类型对应各企业的历史平均年产值,其计算公式为
Figure FDA0003033090380000044
Figure FDA0003033090380000045
表示为第I个产业类型对应第i个企业的历史平均年产值。
7.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法,其特征在于:所述各产业类型对应各企业的年产值排序系数的计算公式为
Figure FDA0003033090380000051
ξIi表示为第1个产业类型对应第i个企业的年产值排序系数,qI f4i表示为第I个产业类型对应第i个企业的当前年限年产值,d、e分别表示为当前年限年产值权重因子、历史年限年产值权重因子,且d+e=1。
8.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法,其特征在于:所述各产业类型对应各企业的综合排序系数的计算公式为
Figure FDA0003033090380000052
Figure FDA0003033090380000053
表示为第I个产业类型对应第i个企业的综合排序系数,δIi表示为第I个产业类型对应第i个企业的成立时长排序系数,λIi表示为第I个产业类型对应第i个企业的距离排序系数,α1、α2、α3、α4、α5分别表示为成立时长、注册基本信息填写完整度、从业人员数量、年产值、距离对应的排序权重影响系数,且α1+α2+α3+α4+α5=1。
9.根据权利要求8所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法,其特征在于:所述α1、α2、α3、α4、α5对应的大小关系为α4>α3>α1>α2>α5。
CN202110439129.2A 2021-04-22 2021-04-22 一种基于大数据分析和特征识别的区域性产业数据库处理方法 Pending CN113127539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110439129.2A CN113127539A (zh) 2021-04-22 2021-04-22 一种基于大数据分析和特征识别的区域性产业数据库处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110439129.2A CN113127539A (zh) 2021-04-22 2021-04-22 一种基于大数据分析和特征识别的区域性产业数据库处理方法

Publications (1)

Publication Number Publication Date
CN113127539A true CN113127539A (zh) 2021-07-16

Family

ID=76779541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110439129.2A Pending CN113127539A (zh) 2021-04-22 2021-04-22 一种基于大数据分析和特征识别的区域性产业数据库处理方法

Country Status (1)

Country Link
CN (1) CN113127539A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079124A (zh) * 2006-05-26 2007-11-28 辽宁三鑫发展有限公司 将企业信息转换成电子媒体并进行行业排序的方法
CN108647282A (zh) * 2018-05-03 2018-10-12 苏州朗动网络科技有限公司 企业信息查询方法、装置、计算机设备及可读存储介质
CN111415081A (zh) * 2020-03-17 2020-07-14 数联天下(北京)科技有限公司 企业数据处理方法及装置
CN111445307A (zh) * 2020-03-26 2020-07-24 深圳市飞宇通视讯工程有限公司 企业产品信誉认证排序方法及电子交易展示平台
CN111932079A (zh) * 2020-07-10 2020-11-13 赛飞特工程技术集团有限公司 企业综合排名量化系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079124A (zh) * 2006-05-26 2007-11-28 辽宁三鑫发展有限公司 将企业信息转换成电子媒体并进行行业排序的方法
CN108647282A (zh) * 2018-05-03 2018-10-12 苏州朗动网络科技有限公司 企业信息查询方法、装置、计算机设备及可读存储介质
CN111415081A (zh) * 2020-03-17 2020-07-14 数联天下(北京)科技有限公司 企业数据处理方法及装置
CN111445307A (zh) * 2020-03-26 2020-07-24 深圳市飞宇通视讯工程有限公司 企业产品信誉认证排序方法及电子交易展示平台
CN111932079A (zh) * 2020-07-10 2020-11-13 赛飞特工程技术集团有限公司 企业综合排名量化系统和方法

Similar Documents

Publication Publication Date Title
CN107609835B (zh) 一种电网人力配置应用系统及方法
CN112765235A (zh) 基于特征识别和大数据分析的人力资源智能管理系统及云管理服务器
CN111191906A (zh) 一种大中型企业技术标准体系化实施效益评价方法
CN110610318A (zh) 一种基于大数据的工程造价管理系统
CN111260413A (zh) 一种基于矢量图形的电力主网工程施工图造价速算方法
EP4358005A1 (en) Information recommendation method and apparatus based on data interaction, and device and storage medium
CN110570097A (zh) 基于大数据的业务人员风险识别方法、装置及存储介质
CN115858598A (zh) 基于企业大数据的目标信息筛选匹配方法及相关设备
CN115269958A (zh) 互联网可靠性数据信息采集分析系统
CN111652403A (zh) 一种基于反馈修正的工作平台任务工作量预测方法
CN114662963A (zh) 一种专家智能评审管理方法
US20240144405A1 (en) Method for information interaction, device, and storage medium
CN112687402A (zh) 基于人工智能的智慧医疗互联网大数据处理方法及智能云服务平台
CN113592538A (zh) 一种工程造价概算方法及系统
CN113127539A (zh) 一种基于大数据分析和特征识别的区域性产业数据库处理方法
CN117035810A (zh) 基于多源数据的农产品溯源系统
CN115660296A (zh) 一种基于机器学习的不合规项目建议方案自动出具方法
CN115952216A (zh) 一种养老保险数据挖掘方法、装置、存储介质及电子设备
CN115577897A (zh) 一种基于智慧云平台的人才评选方法及装置
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备
CN117575542B (zh) 一种基于模块化装配的建筑工程数据控制系统及方法
CN118519999B (zh) 一种数据分析方法、系统及存储介质
Ren et al. An approach for predicting hype cycle based on machine learning
CN113064962B (zh) 一种环境类投诉举报事件相似度分析方法
CN117150097B (zh) 一种执法检查清单自动匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210716

RJ01 Rejection of invention patent application after publication