CN113127539A

CN113127539A - 一种基于大数据分析和特征识别的区域性产业数据库处理方法

Info

Publication number: CN113127539A
Application number: CN202110439129.2A
Authority: CN
Inventors: 葛飞; 李玉婷; 曹萌萌; 王建萍; 王辉; 孙源; 李贞贞; 刘佳
Original assignee: Wuhan Branch Of National Science Library Chinese Academy Of Sciences; Qinghai Institute of Salt Lakes Research of CAS
Current assignee: Wuhan Branch Of National Science Library Chinese Academy Of Sciences; Qinghai Institute of Salt Lakes Research of CAS
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-07-16

Abstract

本发明公开一种基于大数据分析和特征识别的区域性产业数据库处理方法，通过对区域内存在的企业进行统计并按照所属产业类型进行分类，进而获取各产业类型对应各企业的特征参数，同时统计各产业类型对应各企业的各特征对应的排序系数，进而由此统计各产业类型对应各企业的综合排序系数，构建产业数据库，从而得到各产业类型对应各企业的综合排序结果，以此作为搜索者进行区域产业类型关键词的综合搜索结果，弥补了传统进行区域产业类型关键词搜索时存在的搜索结果过多过杂的不足，大大避免了搜索者因总结消化搜索结果浪费大量时间成本情况的发生，有效减轻了搜索者的工作负担，同时提高了区域政府进行区域产业管理的效率。

Description

一种基于大数据分析和特征识别的区域性产业数据库处理方法

技术领域

本发明属于产业数据库处理技术领域，具体涉及一种基于大数据分析和特征识别的区域性产业数据库处理方法。

背景技术

随着现代科学技术的迅速发展，数据库的处理分析计技术在经济建设和社会发展中的作用越来越大。无论是个人、企业还是政府组织，都能够通过有效地利用数据库处理技术进行统计分析，从而解决问题。

对于区域政府来说，对该区域内存在的各产业类型对应的企业信息进行实时了解，是区域政府进行区域产业管理的基础，而对该区域内存在的各产业类型对应的企业信息进行实时了解就需要构建区域产业数据库，便于政府相关管理人员输入产业类型关键词搜索，但传统的区域产业数据库中存储的企业数据信息涵盖方面较为杂乱，没有综合进行处理，导致搜索产业类型关键词得到的搜索结果过多过杂，如搜索某产业类型对应的各企业搜索结果，有以成立时长为搜索依据的搜索结果，有以企业年产值为搜索依据的搜索结果。可见，其搜索结果难以为搜索者快速提供综合的搜索结果，这就使得搜索者需要花费大量时间来总结消化搜索结果，不仅浪费了大量的时间成本，而且降低了区域政府进行区域产业管理的效率，无法满足区域政府进行区域产业管理的高效率需求。

发明内容

为了改善上述问题，本发明提出一种基于大数据分析和特征识别的区域性产业数据库处理方法，通过对区域内存在的企业进行统计并按照所属产业类型进行分类，进而获取各产业类型对应各企业的特征参数，同时统计各产业类型对应各企业的各特征对应的排序系数，进而由此统计各产业类型对应各企业的综合排序系数，构建产业数据库，从而根据构建的产业数据库进行各产业类型对应各企业的综合排序结果，作为搜索者进行区域产业类型关键词的综合搜索结果，解决了背景技术提到的问题。

本发明的目的可以通过以下技术方案实现：

一种基于大数据分析和特征识别的区域性产业数据库处理方法，包括以下步骤：

S1.区域现有企业统计：对区域内现有的所有企业数量进行统计；

S2.区域现有企业分类：分别对统计的区域内所有企业获取其对应的产业类型，并将获取的区域内各企业对应的产业类型进行相互对比，从而将相同产业类型的企业进行归类，由此得到各产业类型对应的若干企业，与此同时对得到的各产业类型按照设置的编号顺序进行编号，依次标记为A，B...I...N，由此对各产业类型对应的若干企业进行编号，分别标记为1，2...i...n；

S3.各产业类型的企业特征参数集合构建：对标记的各产业类型对应的各企业获取其对应的成立日期、企业注册时填写的企业基本信息项数、当前从业人员数量、当前年限年产值和企业所处地理位置，并将获取的各产业类型对应各企业的成立日期、企业注册时填写的企业基本信息项数、当前从业人员数量、当前年限年产值和企业所处地理位置构成各产业类型的企业特征参数集合Q^I _w(q^I _w1，q^I _w2，...，q^I _wi，...，q^I _wn)，q^I _wi表示为第I个产业类型对应的第i个企业的特征参数对应的数据，w表示为特征参数，w＝f1，f2，f3，f4，f5，分别表示为成立日期，企业注册时填写的企业基本信息项数，当前年限从业人员数量、当前年限年产值，企业所处地理位置；

S4.企业成立时长排序系数统计：从各产业类型的企业特征参数集合中提取各产业类型对应各企业的成立日期，并获取当前日期，进而根据当前日期和各产业类型对应各企业的成立日期统计各产业类型对应各企业的成立时长，由此将统计的各产业类型对应各企业的成立时长与预设的企业各种成立时长对应的成立时长排序系数进行对比，从而筛选出各产业类型对应各企业的成立时长排序系数；

S5.企业注册基本信息填写完整度排序系数统计：从各产业类型的企业特征参数集合中提取各产业类型对应各企业的企业注册时填写的企业基本信息项数，并将提取的各产业类型对应各企业的企业注册时填写的企业基本信息项数与企业注册时企业基本信息标准填写项数进行对比，进而以此统计各产业类型对应各企业的注册基本信息填写完整度排序系数；

S6.企业从业人员数量排序系数统计：从各产业类型的企业特征参数集合中提取各产业类型对应各企业的当前年限从业人员数量，并统计各产业类型对应各企业的历史平均从业人员数量，由此根据各企业的当前年限从业人员数量和各产业类型对应各企业的历史平均从业人员数量统计各产业类型对应各企业的从业人员数量排序系数；

S7.企业年产值排序系数统计：从各产业类型的企业特征参数集合中提取各产业类型对应各企业的当前年限年产值，并统计各产业类型对应各企业的历史平均年产值，由此根据各企业的当前年限年产值和各产业类型对应各企业的历史平均年产值统计各产业类型对应各企业的年产值排序系数；

S8.企业距离排序系数统计：从各产业类型的企业特征参数集合中提取各产业类型对应各企业的企业所处地理位置，并实时根据搜索者的搜索ip地址，获取搜索者所处地理位置，以此根据各产业类型对应各企业的企业所处地理位置和搜索者所处地理位置，统计各产业类型对应各企业所处地理位置距离搜索者所处地理位置之间的距离，进而将各产业类型对应各企业所处地理位置距离搜索者所处地理位置之间的距离与预设的距离搜索者所处地理位置的各种距离对应的距离排序系数进行对比，从而筛选出各产业类型对应各企业的距离排序系数；

S9.企业综合排序系数统计：根据各产业类型对应各企业的成立时长排序系数、注册基本信息填写完整度排序系数、从业人员数量排序系数、年产值排序系数和距离排序系数统计各产业类型对应各企业的综合排序系数，并将统计的各产业类型对应各企业的综合排序系数存储在区域产业数据库中；

S10.企业综合排序：根据区域产业数据库中存储的各产业类型对应各企业的综合排序系数，将各产业类型对应的各企业按照综合排序系数由大到小的顺序进行排序，得到各产业类型对应各企业的综合排序结果，作为搜索者进行区域产业类型关键词的综合搜索结果。

进一步地，所述S4中统计各产业类型对应各企业的成立时长的具体统计方法为将当前日期减去各产业类型对应各企业的成立日期。

进一步地，所述各产业类型对应各企业的注册基本信息填写完整度排序系数的计算公式为

η_Ii表示为第I个产业类型对应第i个企业的注册基本信息填写完整度排序系数，q^I _f2i表示为第I个产业类型对应第i个企业的企业注册时填写的企业基本信息项数，k表示为企业注册时企业基本信息标准填写项数。

进一步地，所述S6中统计各产业类型对应各企业的历史平均从业人员数量的具体统计方法执行以下步骤：

H1：按照预设的历史年限数量，对预设的各历史年限按照距离当前年限的时时间由短到长的顺序进行编号，分别标记为1，2...j...m；

H2：获取各产业类型对应各企业在各历史年限的从业人员数量，并构成各产业类型对应各企业的历史年限从业人员数量集合Z_I ⁱ(z_I ⁱ1，z_I ⁱ2，...，z_I ⁱj，...，z_I ⁱm)，z_I ⁱj表示为第I个产业类型对应第i个企业在第j个历史年限的从业人员数量；

H3：根据各产业类型对应各企业的历史年限从业人员数量集合计算各产业类型对应各企业的历史平均从业人员数量，其计算公式为

表示为第I个产业类型对应第i个企业的历史平均从业人员数量。

进一步地，所述各产业类型对应各企业的从业人员数量排序系数的计算公式为

σ_Ii表示为第I个产业类型对应第i个企业的从业人员数量排序系数，q^I _f3i表示为第I个产业类型对应第i个企业的当前年限从业人员数量，a、b分别表示为当前年限从业人员数量权重因子、历史年限从业人员数量权重因子，且a+b＝1。

进一步地，所述S7中统计各产业类型对应各企业的历史平均年产值的具体统计方法包括以下步骤：

W1：根据预设的历史年限编号顺序，获取各产业类型对应各企业在各历史年限的年产值，并构成各产业类型对应各企业的历史年限年产值集合X_I ⁱ(x_I ⁱ1，x_I ⁱ2，...，x_I ⁱj，...，x_I ⁱm)，x_I ⁱj表示为第I个产业类型对应第i个企业在第j个历史年限的年产值；

W2：根据各产业类型对应各企业的历史年限年产值集合计算各产业类型对应各企业的历史平均年产值，其计算公式为

表示为第I个产业类型对应第i个企业的历史平均年产值。

进一步地，所述各产业类型对应各企业的年产值排序系数的计算公式为

ξ_Ii表示为第I个产业类型对应第i个企业的年产值排序系数，q^I _f4i表示为第I个产业类型对应第i个企业的当前年限年产值，d、e分别表示为当前年限年产值权重因子、历史年限年产值权重因子，且d+e＝1。

进一步地，所述各产业类型对应各企业的综合排序系数的计算公式为

表示为第I个产业类型对应第i个企业的综合排序系数，δ_Ii表示为第I个产业类型对应第i个企业的成立时长排序系数，λ_Ii表示为第I个产业类型对应第i个企业的距离排序系数，α1、α2、α3、α4、α5分别表示为成立时长、注册基本信息填写完整度、从业人员数量、年产值、距离对应的排序权重影响系数，且α1+α2+α3+α4+α5＝1。

进一步地，所述α1、α2、α3、α4、α5对应的大小关系为α4＞α3＞α1＞α2＞α5。

本发明的有益效果如下：

本发明通过对区域内存在的企业进行统计并按照所属产业类型进行分类，进而获取各产业类型对应各企业的特征参数，同时统计各产业类型对应各企业的各特征对应的排序系数，进而由此统计各产业类型对应各企业的综合排序系数，构建产业数据库，从而根据构建的产业数据库进行各产业类型对应各企业的综合排序，其综合排序结果作为搜索者进行区域产业类型关键词的综合搜索结果，其构建产业数据库的方式优化了传统产业数据库的构建方式，其得到的搜索结果弥补了传统进行区域产业类型关键词搜索时存在的搜索结果过多过杂的不足，大大避免了搜索者因总结消化搜索结果浪费大量时间成本情况的发生，有效减轻了搜索者的工作负担，同时提高了区域政府进行区域产业管理的效率。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明的方法实施步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示，一种基于大数据分析和特征识别的区域性产业数据库处理方法，包括以下步骤：

S4.企业成立时长排序系数统计：从各产业类型的企业特征参数集合中提取各产业类型对应各企业的成立日期，并获取当前日期，进而将当前日期分别减去各产业类型对应各企业的成立日期，以此得到各产业类型对应各企业的成立时长，由此将统计的各产业类型对应各企业的成立时长与预设的企业各种成立时长对应的成立时长排序系数进行对比，从而筛选出各产业类型对应各企业的成立时长排序系数；

S5.企业注册基本信息填写完整度排序系数统计：从各产业类型的企业特征参数集合中提取各产业类型对应各企业的企业注册时填写的企业基本信息项数，并将提取的各产业类型对应各企业的企业注册时填写的企业基本信息项数与企业注册时企业基本信息标准填写项数进行对比，进而以此统计各产业类型对应各企业的注册基本信息填写完整度排序系数

η_I ⁱ表示为第I个产业类型对应第i个企业的注册基本信息填写完整度排序系数，q^I _f2i表示为第I个产业类型对应第i个企业的企业注册时填写的企业基本信息项数，k表示为企业注册时企业基本信息标准填写项数；

S6.企业从业人员数量排序系数统计：从各产业类型的企业特征参数集合中提取各产业类型对应各企业的当前年限从业人员数量，并统计各产业类型对应各企业的历史平均从业人员数量，其具体统计方法执行以下步骤：

H1：按照预设的历史年限数量，对预设的各历史年限按照距离当前年限的时时间由短到长的顺序进行编号，分别标记为1，2...j...m，其中预设的历史年限数量应不少于3个；

表示为第1个产业类型对应第i个企业的历史平均从业人员数量；

本实施例通过对预设的历史年限数量进行限定，是为了避免因设置的历史年限数量过少导致得到的历史年限对应的从业人员数量数据过少，从而影响企业历史平均从业人员数量统计的准确度；

由此根据各企业的当前年限从业人员数量和各产业类型对应各企业的历史平均从业人员数量统计各产业类型对应各企业的从业人员数量排序系数

σ_Ii表示为第I个产业类型对应第i个企业的从业人员数量排序系数，q^I _f3i表示为第I个产业类型对应第i个企业的当前年限从业人员数量，a、b分别表示为当前年限从业人员数量权重因子、历史年限从业人员数量权重因子，且a+b＝1；

本实施例统计的各产业类型对应各企业的从业人员数量排序系数融合了企业当前年限的从业人员数量状况和历史年限平均从业人员数量状况，综合反映了企业的从业人员数量这一参数的排序状况，避免了只根据当前年限或历史年限任意一个方面进行企业从业人员数量排序系数统计造成的统计片面化问题；

S7.企业年产值排序系数统计：从各产业类型的企业特征参数集合中提取各产业类型对应各企业的当前年限年产值，并统计各产业类型对应各企业的历史平均年产值，其具体统计方法包括以下步骤：

表示为第I个产业类型对应第i个企业的历史平均年产值；

由此根据各企业的当前年限年产值和各产业类型对应各企业的历史平均年产值统计各产业类型对应各企业的年产值排序系数

ξ_Ii表示为第I个产业类型对应第i个企业的年产值排序系数，q^I _f4i表示为第I个产业类型对应第i个企业的当前年限年产值，d、e分别表示为当前年限年产值权重因子、历史年限年产值权重因子，且d+e＝1；

本实施例统计的各产业类型对应各企业的年产值排序系数融合了企业当前年限的年产值状况和历史年限平均年产值状况，综合反映了企业的年产值这一参数的排序状况，避免了只根据当前年限或历史年限任意一个方面进行企业年产值排序系数统计造成的统计片面化问题；

S9.企业综合排序系数统计：根据各产业类型对应各企业的成立时长排序系数、注册基本信息填写完整度排序系数、从业人员数量排序系数、年产值排序系数和距离排序系数统计各产业类型对应各企业的综合排序系数

表示为第1个产业类型对应第i个企业的综合排序系数，δ_Ii表示为第1个产业类型对应第i个企业的成立时长排序系数，λ_Ii表示为第1个产业类型对应第i个企业的距离排序系数，α1、α2、α3、α4、α5分别表示为成立时长、注册基本信息填写完整度、从业人员数量、年产值、距离对应的排序权重影响系数，且α1+α2+α3+α4+α5＝1，且α1、α2、α3、α4、α5对应的大小关系为α4＞α3＞α1＞α2＞α5，并将统计的各产业类型对应各企业的综合排序系数存储在区域产业数据库中；

本实施例通过将得到的各产业类型对应各企业的各个特征参数排序系数进行整合，得出各产业类型对应各企业的综合排序系数，以此构建区域产业数据库，其构建方式优化了传统产业数据库的构建方式，避免了传统产业数据库中存储的企业数据信息涵盖方面较为杂乱的问题；

S10.企业综合排序：根据区域产业数据库中存储的各产业类型对应各企业的综合排序系数，将各产业类型对应的各企业按照综合排序系数由大到小的顺序进行排序，得到各产业类型对应各企业的综合排序结果，作为搜索者进行区域产业类型关键词的综合搜索结果，弥补了传统进行区域产业类型关键词搜索时存在的搜索结果过多过杂的不足，大大避免了搜索者因总结消化搜索结果浪费大量时间成本情况的发生，有效减轻了搜索者的工作负担，同时提高了区域政府进行区域产业管理的效率。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于大数据分析和特征识别的区域性产业数据库处理方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法，其特征在于：所述S4中统计各产业类型对应各企业的成立时长的具体统计方法为将当前日期分别减去各产业类型对应各企业的成立日期。

3.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法，其特征在于：所述各产业类型对应各企业的注册基本信息填写完整度排序系数的计算公式为

η_Ii表示为第1个产业类型对应第i个企业的注册基本信息填写完整度排序系数，q^I _f2i表示为第I个产业类型对应第i个企业的企业注册时填写的企业基本信息项数，k表示为企业注册时企业基本信息标准填写项数。

4.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法，其特征在于：所述S6中统计各产业类型对应各企业的历史平均从业人员数量的具体统计方法执行以下步骤：

5.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法，其特征在于：所述各产业类型对应各企业的从业人员数量排序系数的计算公式为

6.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法，其特征在于：所述S7中统计各产业类型对应各企业的历史平均年产值的具体统计方法包括以下步骤：

W1：根据预设的历史年限编号顺序，获取各产业类型对应各企业在各历史年限的年产值，并构成各产业类型对应各企业的历史年限年产值集合X_I ⁱ(x_I ⁱ1，x_I ⁱ2，...，x_I ⁱj，...，x_I ⁱm)，x_I ⁱj表示为第_I个产业类型对应第i个企业在第j个历史年限的年产值；

表示为第I个产业类型对应第i个企业的历史平均年产值。

7.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法，其特征在于：所述各产业类型对应各企业的年产值排序系数的计算公式为

ξ_Ii表示为第1个产业类型对应第i个企业的年产值排序系数，q^I _f4i表示为第I个产业类型对应第i个企业的当前年限年产值，d、e分别表示为当前年限年产值权重因子、历史年限年产值权重因子，且d+e＝1。

8.根据权利要求1所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法，其特征在于：所述各产业类型对应各企业的综合排序系数的计算公式为

9.根据权利要求8所述的一种基于大数据分析和特征识别的区域性产业数据库处理方法，其特征在于：所述α1、α2、α3、α4、α5对应的大小关系为α4＞α3＞α1＞α2＞α5。