CN116361726B - 一种基于多维大数据分析的数据处理方法 - Google Patents
一种基于多维大数据分析的数据处理方法 Download PDFInfo
- Publication number
- CN116361726B CN116361726B CN202310345412.8A CN202310345412A CN116361726B CN 116361726 B CN116361726 B CN 116361726B CN 202310345412 A CN202310345412 A CN 202310345412A CN 116361726 B CN116361726 B CN 116361726B
- Authority
- CN
- China
- Prior art keywords
- enterprise
- keywords
- bidding
- type
- recruitment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000007405 data analysis Methods 0.000 title claims abstract description 21
- 230000007115 recruitment Effects 0.000 claims abstract description 64
- 238000012216 screening Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000011156 evaluation Methods 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000005611 electricity Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000006872 improvement Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 235000012907 honey Nutrition 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于多维大数据分析的数据处理方法,属于数据处理技术领域,具体包括:基于企业的营业范围获取待选企业类型;基于营业地址对待选企业类型进行评估得到评估企业类型;基于企业的实际经营数据获取所述企业的招投标信息,并基于企业的招投标信息进行关键词提取得到招投标关键词,并基于招投标关键词对应的招投标数量以及频率进行准确招投标关键词的识别,并基于准确招投标关键词对企业的评估企业类型进行进一步筛选,得到推测企业类型;至少基于社保缴纳人员数量、招聘岗位信息,得到推测企业类型的概率,并基于概率确定企业的企业类型,从而实现了对不同数据的融合以及企业类型判断的准确性。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种基于多维大数据分析的数据处理方法。
背景技术
在进行招商引资过程中,每个产业园区都有其所需求的特定的企业类型,因此为了实现对企业的经营范围和企业类型的确定,在发明专利授权公告号CN115239214B《企业的评估处理方法、装置及电子设备》中通过将文本长度大于预设的长度阈值的第一文本划分为多个子文本,并确定各子文本与预设的第二文本的语义匹配度,对得到的各语义匹配度加权求和,得到第一文本与第二文本的第一相似度,并根据第一相似度对企业进行分类,但是却存在以下技术问题:
未考虑结合企业的实际经营数据,例如招投标信息、实际产品等多维数据对企业进行分类,仅仅通过营业执照上的信息,由于一般注册范围往往涵盖其本身以及计划开展或者尚未开展的业务,因此无法准确的反应企业的营业范围和企业类型;
未考虑结合营业地址、社保缴纳人员数量、招聘岗位信息等进行企业的类型的确定,对于加工制造类企业与服务类企业,办公地点类型、社保缴纳人员数量、招聘岗位信息不可能相同或者相近,因此若不能结合上述信息,也不能准确的得到企业的营业范围和企业类型。
针对上述技术问题,本发明提供了一种基于多维大数据分析的数据处理方法。
发明内容
根据本发明的一个方面,提供了一种基于多维大数据分析的数据处理方法。
一种基于多维大数据分析的数据处理方法,其特征在于,具体包括:
S11获取企业的营业范围,并基于所述企业的营业范围进行关键词的提取,获取所述企业的待选企业类型;
S12基于所述企业的营业地址对所述待选企业类型进行评估,将与所述企业的营业地址不匹配的待选企业类型剔除,得到评估企业类型;
S13基于所述企业的实际经营数据获取所述企业的招投标信息,并基于所述企业的招投标信息进行关键词提取得到招投标关键词,并基于所述招投标关键词对应的招投标数量以及频率进行准确招投标关键词的识别,并基于所述准确招投标关键词对所述企业的评估企业类型进行进一步筛选,得到推测企业类型;
S14至少基于所述企业的社保缴纳人员数量、招聘岗位信息,得到所述推测企业类型的概率,并基于所述推测企业类型的概率确定所述企业的企业类型。
通过基于所述企业的营业范围的关键词获取所述企业的待选企业类型,从而实现了从企业的营业范围的角度上对企业类型的大致判断,缩小了企业类型的判断的范围,从而进一步提升了企业类型的评估的效率。
通过结合企业的营业地址将与所述企业的营业地址不匹配的待选企业类型剔除,得到评估企业类型,从而使得从简单的营业地址的角度实现了对企业类型的进一步的筛选,进而进一步提升了企业类型的评估效率。
通过结合企业的招投标信息进行关键词提取得到招投标关键词,并根据招投标关键词对应的招投标数量以及频率进行准确招投标关键词的识别,从而实现了从企业的招投标信息也就是其具体的实际运行的业务类型进行企业类型的判断,从而进一步实现了对企业类型的范围的进一步的缩小,也为最终的企业类型的确定的准确性奠定了基础。
通过结合企业的人员数量以及招聘岗位信息,实现对推测企业类型的概率的确定,从而实现了从概率的角度实现了对企业的企业类型的判断,并且与企业的工作人员以及需求进行了对企业类型的进一步判断,从而保证了最终的企业类型的准确性。
进一步的技术方案在于,所述企业的营业范围根据所述企业的营业执照的注册营业范围进行确定。
进一步的技术方案在于,所述待选企业类型根据所述营业范围的关键词进行企业类型的匹配得到匹配结果,并基于所述匹配结果确定所述待选企业类型。
在另外一种可能的实施例中,所述准确招投标关键词的确定的具体步骤为:
S21基于所述企业的招投标信息获取所述在设定时间内的所有的招标书和投标书,并基于所述招标书的题目和投标书的题目进行关键词的提取得到招投标关键词,并将出现招投标关键词的招标书和投标书作为所述招投标关键词的匹配招投标书;
S22基于所述招投标关键词的匹配招投标书的数量对所述招投标关键词进行筛选得到筛选后的招投标关键词,并将其作为筛选关键词,并判断所述筛选关键词的数量是否小于预设评估数量,若是,则将所述筛选关键词作为待选关键词,并进入步骤S24,若否,则进入步骤S23;
S23将所述招标书的数量和投标书的数量的和作为招投标书数量,将所述筛选关键词的匹配招投标书的数量与所述招投标书数量的比值作为匹配比,并基于所述匹配比对所述筛选关键词进行二次筛选,并将二次筛选完的筛选关键词作为待选关键词;
S24基于所述待选关键词的匹配招投标书的数量、匹配比、在所述招标书和投标书中出现的频率得到所述待选关键词的匹配度,并基于所述匹配度进行准确招投标关键词的识别。
进一步的技术方案在于,在进行匹配度的构建之前,还需要基于所述待选关键词与所述评估企业类型的匹配情况进行筛选,并基于筛选完成后的待选关键词进行匹配度的构建。
进一步的技术方案在于,所述匹配度的取值范围在0到1之间,其中所述匹配度越大,则所述待选关键词越准确。
在另外一种可能的实施例中,所述推测企业类型的概率构建的具体步骤为:
S31基于所属企业的招聘岗位信息确定不同的招聘岗位的招聘人员数量,并基于所述招聘人员数量进行核心招聘岗位的确定;
S32基于所述核心招聘岗位进行关键词的提取得到招聘关键词,将包含所述招聘关键词的核心招聘岗位作为匹配岗位,并基于所述匹配岗位的数量、匹配岗位的招聘人员数量确定所述招聘关键词的权值;
S33基于所述推荐企业类型、招聘关键词以及招聘关键词的权值确定所述推荐企业类型的初始评估概率,并当所述初始评估概率满足要求时,进入步骤S34;
S34基于所述企业的社保缴纳人员数量、推荐企业类型、初始评估概率、历史用电量,确定所述推荐企业类型的概率。
在另外一种可能的实施例中,所述初始评估概率的确定的具体步骤为:
S41基于所述推荐企业类型与所述招聘关键词的匹配情况得到匹配招聘关键词,并基于所述匹配招聘关键词的权值确定所述推荐企业类型是否准确,若是,则进入步骤S42,若否,则将该推荐企业类型进行剔除;
S42基于所述推荐企业类型与所述匹配招聘关键词的匹配情况得到不同的匹配招聘关键词的关键词匹配度,并基于所述招聘关键词的权值以及所述关键词匹配度得到评估概率,并基于所述评估概率确认所述推荐企业类型是否准确,若是,则进入步骤S43,若否,则将该推荐企业类型进行剔除;
S43基于所述评估概率、所述匹配招聘关键词的数量得到所述推荐企业类型的初始评估概率。
另一方面,本发明提供了一种基于多维大数据分析的数据处理系统,采用上述的一种基于多维大数据分析的数据处理方法,具体包括:
营业范围获取模块;待选企业类型确定模块;评估企业类型确定模块;推测企业类型确定模块;企业类型确定模块;其中所述待选企业类型确定模、评估企业类型确定模块、推测企业类型确定模块构成企业类型筛选模块;
其中所述营业范围获取模块负责获取企业的营业范围;
所述待选企业类型确定模块负责基于所述企业的营业范围进行关键词的提取,获取所述企业的待选企业类型;
所述评估企业类型确定模块负责基于所述企业的营业地址对所述待选企业类型进行评估,将与所述企业的营业地址不匹配的待选企业类型剔除,得到评估企业类型;
所述推测企业类型确定模块负责基于所述企业的实际经营数据获取所述企业的招投标信息,并基于所述企业的招投标信息进行关键词提取得到招投标关键词,并基于所述招投标关键词对应的招投标数量以及频率进行准确招投标关键词的识别,并基于所述准确招投标关键词对所述企业的评估企业类型进行进一步筛选,得到推测企业类型;
所述企业类型确定模块负责至少基于所述企业的社保缴纳人员数量、招聘岗位信息,得到所述推测企业类型的概率,并基于所述推测企业类型的概率确定所述企业的企业类型。
另一方面,本发明提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种基于多维大数据分析的数据处理方法。
其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1是根据实施例1的一种基于多维大数据分析的数据处理方法的流程图;
图2是根据实施例1的准确招投标关键词的确定的具体步骤的流程图;
图3是根据实施例1的推测企业类型的概率构建的具体步骤的流程图;
图4是根据实施例2的一种基于多维大数据分析的数据处理系统的框架图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。
用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。
实施例1
为解决上述问题,根据本发明的一个方面,如图1所示,提供了根据本发明的一个方面,提供了一种基于多维大数据分析的数据处理方法。
一种基于多维大数据分析的数据处理方法,其特征在于,具体包括:
S11获取企业的营业范围,并基于所述企业的营业范围进行关键词的提取,获取所述企业的待选企业类型;
需要说明的是,所述企业的营业范围根据所述企业的营业执照的注册营业范围进行确定。
需要说明的是,所述待选企业类型根据所述营业范围的关键词进行企业类型的匹配得到匹配结果,并基于所述匹配结果确定所述待选企业类型。
具体的举例说明,若营业范围的关键词为科技、信息技术、网络科技、科技发展等,则通过映射的方式确定企业类型为科技类公司,并将所述科技类公司作为待选企业类型,
在本实施例中,通过基于所述企业的营业范围的关键词获取所述企业的待选企业类型,从而实现了从企业的营业范围的角度上对企业类型的大致判断,缩小了企业类型的判断的范围,从而进一步提升了企业类型的评估的效率。
S12基于所述企业的营业地址对所述待选企业类型进行评估,将与所述企业的营业地址不匹配的待选企业类型剔除,得到评估企业类型;
具体的举例说明,对于加工类企业,其营业地址需要开立在工业园区等占地面积较大等位置,若其营业地址为写字楼等,则其为加工类企业的可能性不大,因此可以将上述企业类型直接剔除。
在本实施例中,通过结合企业的营业地址将与所述企业的营业地址不匹配的待选企业类型剔除,得到评估企业类型,从而使得从简单的营业地址的角度实现了对企业类型的进一步的筛选,进而进一步提升了企业类型的评估效率。
S13基于所述企业的实际经营数据获取所述企业的招投标信息,并基于所述企业的招投标信息进行关键词提取得到招投标关键词,并基于所述招投标关键词对应的招投标数量以及频率进行准确招投标关键词的识别,并基于所述准确招投标关键词对所述企业的评估企业类型进行进一步筛选,得到推测企业类型;
在另外一种可能的实施例中,如图2所示,所述准确招投标关键词的确定的具体步骤为:
S21基于所述企业的招投标信息获取所述在设定时间内的所有的招标书和投标书,并基于所述招标书的题目和投标书的题目进行关键词的提取得到招投标关键词,并将出现招投标关键词的招标书和投标书作为所述招投标关键词的匹配招投标书;
S22基于所述招投标关键词的匹配招投标书的数量对所述招投标关键词进行筛选得到筛选后的招投标关键词,并将其作为筛选关键词,并判断所述筛选关键词的数量是否小于预设评估数量,若是,则将所述筛选关键词作为待选关键词,并进入步骤S24,若否,则进入步骤S23;
S23将所述招标书的数量和投标书的数量的和作为招投标书数量,将所述筛选关键词的匹配招投标书的数量与所述招投标书数量的比值作为匹配比,并基于所述匹配比对所述筛选关键词进行二次筛选,并将二次筛选完的筛选关键词作为待选关键词;
S24基于所述待选关键词的匹配招投标书的数量、匹配比、在所述招标书和投标书中出现的频率得到所述待选关键词的匹配度,并基于所述匹配度进行准确招投标关键词的识别。
可以理解的是,在进行匹配度的构建之前,还需要基于所述待选关键词与所述评估企业类型的匹配情况进行筛选,并基于筛选完成后的待选关键词进行匹配度的构建。
需要说明的是,所述匹配度的取值范围在0到1之间,其中所述匹配度越大,则所述待选关键词越准确。
在本实施例中,通过结合企业的招投标信息进行关键词提取得到招投标关键词,并根据招投标关键词对应的招投标数量以及频率进行准确招投标关键词的识别,从而实现了从企业的招投标信息也就是其具体的实际运行的业务类型进行企业类型的判断,从而进一步实现了对企业类型的范围的进一步的缩小,也为最终的企业类型的确定的准确性奠定了基础。
S14至少基于所述企业的社保缴纳人员数量、招聘岗位信息,得到所述推测企业类型的概率,并基于所述推测企业类型的概率确定所述企业的企业类型。
在另外一种可能的实施例中,如图3所示,所述推测企业类型的概率构建的具体步骤为:
S31基于所属企业的招聘岗位信息确定不同的招聘岗位的招聘人员数量,并基于所述招聘人员数量进行核心招聘岗位的确定;
S32基于所述核心招聘岗位进行关键词的提取得到招聘关键词,将包含所述招聘关键词的核心招聘岗位作为匹配岗位,并基于所述匹配岗位的数量、匹配岗位的招聘人员数量确定所述招聘关键词的权值;
S33基于所述推荐企业类型、招聘关键词以及招聘关键词的权值确定所述推荐企业类型的初始评估概率,并当所述初始评估概率满足要求时,进入步骤S34;
S34基于所述企业的社保缴纳人员数量、推荐企业类型、初始评估概率、历史用电量,确定所述推荐企业类型的概率。
具体的举例说明,推荐企业类型的概率采用基于ABC-BP神经网络算法的概率评估模型进行确定。
需要说明的是,在基本的人工蜂群算法中,采蜜蜂和观察蜂的邻域搜索是随机选择蜜源位置其中一个维度,并通过单一的搜索方程改变该维度的值来实现的.但这种每次随机选取一个维度进行邻域搜索的更新方式,在面对高维问题时会使算法求解效率显著下降,出现收敛速度降低及陷入局部最优解等不足,因此,本发明在基本的人工蜂群算法基础上设计了自适应维度更新策略进行改进,以提高收敛速度,找到问题更优解.其改进后的更新公式如下:
其中:m为更新的维度数,dim为解向量的维度,t为当前迭代次数,Tmax为最大迭代次数,xi,m、xk,m分别为第i个蜜蜂在第m维的位置、第k个蜜蜂在第m维的位置,newxi,m为第i个蜜蜂在第m维的更新后的位置,为取值范围在0到/>之间的随机数。
在搜索过程中可自适应选择更新维度,以避免在迭代过程中所选更新维度过多,导致算法局部搜索能力不足;或所选更新维度数过少,使算法探索能力下降.即在算法前期,赋予m较大的值,采取多维更新,这样可以增加算法的全局搜索能力,在全局范围内探索到较好的区域;随着搜索的进行,m呈逐渐递减的趋势,在算法后期,以较小的m值选取更新维度数,则可以保证蜂群在蜜源极值点进行精细搜索,从而使算法向全局最优解的位置收敛,以提高算法收敛精度。
在另外一种可能的实施例中,所述初始评估概率的确定的具体步骤为:
S41基于所述推荐企业类型与所述招聘关键词的匹配情况得到匹配招聘关键词,并基于所述匹配招聘关键词的权值确定所述推荐企业类型是否准确,若是,则进入步骤S42,若否,则将该推荐企业类型进行剔除;
需要说明的是,根据推荐企业类型对招聘关键词进行筛选,由于推荐企业类型其对应的岗位存在特定的招聘关键词,因此可以结合推荐企业类型进行匹配招聘关键词的确认。
S42基于所述推荐企业类型与所述匹配招聘关键词的匹配情况得到不同的匹配招聘关键词的关键词匹配度,并基于所述招聘关键词的权值以及所述关键词匹配度得到评估概率,并基于所述评估概率确认所述推荐企业类型是否准确,若是,则进入步骤S43,若否,则将该推荐企业类型进行剔除;
需要说明的是,招聘关键词的权值根据该招聘关键词出现的招聘职位的数量以及该招聘职位的累计招聘时间进行确定。
S43基于所述评估概率、所述匹配招聘关键词的数量得到所述推荐企业类型的初始评估概率。
在本实施例中,通过结合企业的人员数量以及招聘岗位信息,实现对推测企业类型的概率的确定,从而实现了从概率的角度实现了对企业的企业类型的判断,并且与企业的工作人员以及需求进行了对企业类型的进一步判断,从而保证了最终的企业类型的准确性。
实施例2
另一方面,如图4所示,本发明提供了一种基于多维大数据分析的数据处理系统,采用上述的一种基于多维大数据分析的数据处理方法,具体包括:
营业范围获取模块;待选企业类型确定模块;评估企业类型确定模块;推测企业类型确定模块;企业类型确定模块;其中所述待选企业类型确定模、评估企业类型确定模块、推测企业类型确定模块构成企业类型筛选模块;
其中所述营业范围获取模块负责获取企业的营业范围;
所述待选企业类型确定模块负责基于所述企业的营业范围进行关键词的提取,获取所述企业的待选企业类型;
所述评估企业类型确定模块负责基于所述企业的营业地址对所述待选企业类型进行评估,将与所述企业的营业地址不匹配的待选企业类型剔除,得到评估企业类型;
所述推测企业类型确定模块负责基于所述企业的实际经营数据获取所述企业的招投标信息,并基于所述企业的招投标信息进行关键词提取得到招投标关键词,并基于所述招投标关键词对应的招投标数量以及频率进行准确招投标关键词的识别,并基于所述准确招投标关键词对所述企业的评估企业类型进行进一步筛选,得到推测企业类型;
所述企业类型确定模块负责至少基于所述企业的社保缴纳人员数量、招聘岗位信息,得到所述推测企业类型的概率,并基于所述推测企业类型的概率确定所述企业的企业类型。
实施例3
另一方面,本发明提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种基于多维大数据分析的数据处理方法。
具体的,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (7)
1.一种基于多维大数据分析的数据处理方法,其特征在于,具体包括:
获取企业的营业范围,并基于所述企业的营业范围进行关键词的提取,获取所述企业的待选企业类型;
基于所述企业的营业地址对所述待选企业类型进行评估,将与所述企业的营业地址不匹配的待选企业类型剔除,得到评估企业类型;
基于所述企业的实际经营数据获取所述企业的招投标信息,并基于所述企业的招投标信息进行关键词提取得到招投标关键词,并基于所述招投标关键词对应的招投标数量以及频率进行准确招投标关键词的识别,并基于所述准确招投标关键词对所述企业的评估企业类型进行进一步筛选,得到推测企业类型;
所述准确招投标关键词的确定的具体步骤为:
S21基于所述企业的招投标信息获取在设定时间内的所有的招标书和投标书,并基于所述招标书的题目和投标书的题目进行关键词的提取得到招投标关键词,并将出现招投标关键词的招标书和投标书作为所述招投标关键词的匹配招投标书;
S22基于所述招投标关键词的匹配招投标书的数量对所述招投标关键词进行筛选得到筛选后的招投标关键词,并将其作为筛选关键词,并判断所述筛选关键词的数量是否小于预设评估数量,若是,则将所述筛选关键词作为待选关键词,并进入步骤S24,若否,则进入步骤S23;
S23将所述招标书的数量和投标书的数量的和作为招投标书数量,将所述筛选关键词的匹配招投标书的数量与所述招投标书数量的比值作为匹配比,并基于所述匹配比对所述筛选关键词进行二次筛选,并将二次筛选完的筛选关键词作为待选关键词;
S24基于所述待选关键词的匹配招投标书的数量、匹配比、在所述招标书和投标书中出现的频率得到所述待选关键词的匹配度,并基于所述匹配度进行准确招投标关键词的识别;
至少基于所述企业的社保缴纳人员数量、招聘岗位信息,得到所述推测企业类型的概率,并基于所述推测企业类型的概率确定所述企业的企业类型;
推荐企业类型的概率采用基于ABC-BP神经网络算法的概率评估模型进行确定,
在基本的人工蜂群算法基础上设计了自适应维度更新策略进行改进,以提高收敛速度,找到问题更优解.其改进后的更新公式如下:
其中:m为更新的维度数,dim为解向量的维度,t为当前迭代次数,Tmax为最大迭代次数,xi,m、xk,m分别为第i个蜜蜂在第m维的位置、第k个蜜蜂在第m维的位置,newxi,m为第i个蜜蜂在第m维的更新后的位置,为取值范围在0到/>之间的随机数;
所述推测企业类型的概率构建的具体步骤为:
基于所属企业的招聘岗位信息确定不同的招聘岗位的招聘人员数量,并基于所述招聘人员数量进行核心招聘岗位的确定;
基于所述核心招聘岗位进行关键词的提取得到招聘关键词,将包含所述招聘关键词的核心招聘岗位作为匹配岗位,并基于所述匹配岗位的数量、匹配岗位的招聘人员数量确定所述招聘关键词的权值;
基于所述推荐企业类型、招聘关键词以及招聘关键词的权值确定所述推荐企业类型的初始评估概率,并当所述初始评估概率满足要求时,进入下一步骤;
基于所述企业的社保缴纳人员数量、推荐企业类型、初始评估概率、历史用电量,确定所述推荐企业类型的概率;
所述初始评估概率的确定的具体步骤为:
基于所述推荐企业类型与所述招聘关键词的匹配情况得到匹配招聘关键词,并基于所述匹配招聘关键词的权值确定所述推荐企业类型是否准确,若是,则进入下一步骤,若否,则将该推荐企业类型进行剔除;
基于所述推荐企业类型与所述匹配招聘关键词的匹配情况得到不同的匹配招聘关键词的关键词匹配度,并基于所述招聘关键词的权值以及所述关键词匹配度得到评估概率,并基于所述评估概率确认所述推荐企业类型是否准确,若是,则进入下一步骤,若否,则将该推荐企业类型进行剔除;
基于所述评估概率、所述匹配招聘关键词的数量得到所述推荐企业类型的初始评估概率。
2.如权利要求1所述的数据处理方法,其特征在于,所述企业的营业范围根据所述企业的营业执照的注册营业范围进行确定。
3.如权利要求1所述的数据处理方法,其特征在于,所述待选企业类型根据所述营业范围的关键词进行企业类型的匹配得到匹配结果,并基于所述匹配结果确定所述待选企业类型。
4.如权利要求1所述的数据处理方法,其特征在于,在进行匹配度的构建之前,还需要基于所述待选关键词与所述评估企业类型的匹配情况进行筛选,并基于筛选完成后的待选关键词进行匹配度的构建。
5.如权利要求4所述的数据处理方法,其特征在于,所述匹配度的取值范围在0到1之间,其中所述匹配度越大,则所述待选关键词越准确。
6.一种基于多维大数据分析的数据处理系统,采用权利要求1-5任一项所述的一种基于多维大数据分析的数据处理方法,具体包括:
营业范围获取模块;待选企业类型确定模块;评估企业类型确定模块;推测企业类型确定模块;企业类型确定模块;其中所述待选企业类型确定模、评估企业类型确定模块、推测企业类型确定模块构成企业类型筛选模块;
其中所述营业范围获取模块负责获取企业的营业范围;
所述待选企业类型确定模块负责基于所述企业的营业范围进行关键词的提取,获取所述企业的待选企业类型;
所述评估企业类型确定模块负责基于所述企业的营业地址对所述待选企业类型进行评估,将与所述企业的营业地址不匹配的待选企业类型剔除,得到评估企业类型;
所述推测企业类型确定模块负责基于所述企业的实际经营数据获取所述企业的招投标信息,并基于所述企业的招投标信息进行关键词提取得到招投标关键词,并基于所述招投标关键词对应的招投标数量以及频率进行准确招投标关键词的识别,并基于所述准确招投标关键词对所述企业的评估企业类型进行进一步筛选,得到推测企业类型;
所述企业类型确定模块负责至少基于所述企业的社保缴纳人员数量、招聘岗位信息,得到所述推测企业类型的概率,并基于所述推测企业类型的概率确定所述企业的企业类型。
7.一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-5任一项所述的一种基于多维大数据分析的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310345412.8A CN116361726B (zh) | 2023-04-03 | 2023-04-03 | 一种基于多维大数据分析的数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310345412.8A CN116361726B (zh) | 2023-04-03 | 2023-04-03 | 一种基于多维大数据分析的数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116361726A CN116361726A (zh) | 2023-06-30 |
CN116361726B true CN116361726B (zh) | 2024-03-29 |
Family
ID=86935319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310345412.8A Active CN116361726B (zh) | 2023-04-03 | 2023-04-03 | 一种基于多维大数据分析的数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361726B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117951160B (zh) * | 2024-03-26 | 2024-05-28 | 深圳市海域达赫科技有限公司 | 数据分析与决策支持方法、系统、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347318A (zh) * | 2020-10-26 | 2021-02-09 | 杭州数智政通科技有限公司 | 划分企业所属行业类别的方法、设备及介质 |
CN112487263A (zh) * | 2020-11-26 | 2021-03-12 | 杭州安恒信息技术股份有限公司 | 一种信息处理方法、系统、设备及计算机可读存储介质 |
CN113869640A (zh) * | 2021-08-26 | 2021-12-31 | 中国环境科学研究院 | 企业筛选方法、装置、电子设备及存储介质 |
WO2022068297A1 (zh) * | 2020-09-30 | 2022-04-07 | 深圳前海微众银行股份有限公司 | 行业标签的确定方法、装置、设备及存储介质 |
CN114637842A (zh) * | 2020-12-15 | 2022-06-17 | 航天信息股份有限公司 | 企业行业分类方法、装置、存储介质及电子设备 |
CN115099310A (zh) * | 2022-06-02 | 2022-09-23 | 蚂蚁区块链科技(上海)有限公司 | 训练模型、对企业进行行业分类的方法和装置 |
-
2023
- 2023-04-03 CN CN202310345412.8A patent/CN116361726B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022068297A1 (zh) * | 2020-09-30 | 2022-04-07 | 深圳前海微众银行股份有限公司 | 行业标签的确定方法、装置、设备及存储介质 |
CN112347318A (zh) * | 2020-10-26 | 2021-02-09 | 杭州数智政通科技有限公司 | 划分企业所属行业类别的方法、设备及介质 |
CN112487263A (zh) * | 2020-11-26 | 2021-03-12 | 杭州安恒信息技术股份有限公司 | 一种信息处理方法、系统、设备及计算机可读存储介质 |
CN114637842A (zh) * | 2020-12-15 | 2022-06-17 | 航天信息股份有限公司 | 企业行业分类方法、装置、存储介质及电子设备 |
CN113869640A (zh) * | 2021-08-26 | 2021-12-31 | 中国环境科学研究院 | 企业筛选方法、装置、电子设备及存储介质 |
CN115099310A (zh) * | 2022-06-02 | 2022-09-23 | 蚂蚁区块链科技(上海)有限公司 | 训练模型、对企业进行行业分类的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116361726A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108876600B (zh) | 预警信息推送方法、装置、计算机设备和介质 | |
Gordon | Classification | |
Crespo et al. | A methodology for dynamic data mining based on fuzzy clustering | |
US7930242B2 (en) | Methods and systems for multi-credit reporting agency data modeling | |
CN109191226B (zh) | 风险控制方法和装置 | |
Park et al. | Explainability of machine learning models for bankruptcy prediction | |
CN116361726B (zh) | 一种基于多维大数据分析的数据处理方法 | |
CN104321794A (zh) | 一种使用多维评级来确定一实体的未来商业可行性的系统和方法 | |
CN110674636B (zh) | 一种用电行为分析方法 | |
Chan et al. | Reading China: Predicting policy change with machine learning | |
Sun et al. | Financial distress prediction based on similarity weighted voting CBR | |
CN113807940B (zh) | 信息处理和欺诈行为识别方法、装置、设备及存储介质 | |
CN110728301A (zh) | 一种个人用户的信用评分方法、装置、终端及存储介质 | |
CN110825817B (zh) | 一种企业疑似关联关系判定方法及系统 | |
Yıldırım et al. | Robust Mahalanobis distance based TOPSIS to evaluate the economic development of provinces | |
CN117114514A (zh) | 一种基于大数据的人才信息分析管理方法、系统及装置 | |
US8108326B2 (en) | Systems and methods for record linkage and paraphrase generation using surrogate learning | |
CN110795466A (zh) | 基于大数据处理的反欺诈方法、服务器及计算机可读存储介质 | |
CN111625578B (zh) | 适用于文化科技融合领域时间序列数据的特征提取方法 | |
KR102514993B1 (ko) | 클러스터링을 활용한 입찰 경쟁업체의 투찰금액 예측 방법 | |
Zhu | The Adaptive Multi-Factor Model and the Financial Market | |
CN111882421B (zh) | 一种信息处理方法、风控方法、装置、设备及存储介质 | |
Ragapriya et al. | Machine Learning Based House Price Prediction Using Modified Extreme Boosting | |
CN109919811B (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 | |
CN113672703A (zh) | 一种用户信息的更新方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |