CN117992241B - 基于大数据的科技型中小企业银企对接服务系统及方法 - Google Patents
基于大数据的科技型中小企业银企对接服务系统及方法 Download PDFInfo
- Publication number
- CN117992241B CN117992241B CN202410399949.7A CN202410399949A CN117992241B CN 117992241 B CN117992241 B CN 117992241B CN 202410399949 A CN202410399949 A CN 202410399949A CN 117992241 B CN117992241 B CN 117992241B
- Authority
- CN
- China
- Prior art keywords
- data
- enterprise
- task
- node
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000003032 molecular docking Methods 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 98
- 238000007405 data analysis Methods 0.000 claims abstract description 50
- 230000005540 biological transmission Effects 0.000 claims abstract description 28
- 238000005516 engineering process Methods 0.000 claims abstract description 20
- 238000012502 risk assessment Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 22
- 230000035945 sensitivity Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 35
- 230000001419 dependent effect Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000002759 z-score normalization Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于大数据的科技型中小企业银企对接服务系统和方法,所述方法包括:利用分布式存储和计算框架对通过大数据技术采集到的企业数据进行分布式存储和执行分布式分析任务;对于分布式分析任务,从集群的所有节点中选择负载大小和传输路径接近度符合挑选策略要求的多个节点做为任务节点;基于被选中的各任务节点进行企业数据的分布式分析任务,得到数据分析结果;所述数据分析结果用于构建企业的企业画像,所述企业画像为包括所述数据分析结果的数据;基于所述企业画像构建风险评估模型和金融产品推荐模型。本申请能够针对MapReduce作业,从Hadoop集群中挑选恰当的Map任务节点,从而提升MapReduce作业的效率,进而提升数据分析的效率。
Description
技术领域
本发明属于大数据技术领域,特别涉及一种基于大数据的科技型中小企业银企对接服务系统及方法。
背景技术
如文献1,公开号,CN112837146A所述,信息不对称是造成银企关系紧张和中小企业银行融资困境的重要原因,为了解决上述问题,文献1披露了利用大数据技术采集小微企业的各项数据,并以此对企业进行风险评估的技术方案,该方案中,基于大数据技术,采集金融产品信息以及企业信息并不断进行更新;基于采集到的信息建立企业征信模型;并基于企业征信模型对企业进行风险评估,以辅助决策是否为企业提供金融服务,消除了银行和小微企业之间的信息不对称,助力银行快速判断小微企业的风险。
然而发明人发现,文献1中的方案并未针对科技型中小企业的特点进行设计,因此无法直接将文献1的方案直接应用于基于大数据的科技型中小企业银企对接服务系统中。具体体现为:中小型科技型企业相较于传统的小微企业,其成立时间短,并且很注重利用互联网进行营销和信息宣传,因此对于科技型中小企业需要通过大数据技术采集其在网络上的很多文本信息,例如,网络上app的用户评价、网络上的产品宣传等文本。这些文本存在非结构化的特点,因此为了构建中小型科技型企业的企业画像,很有必要在银企对接服务系统中采用大数据技术采集这些与中小型科技型企业相关的大量文本信息并进行文本分析,获得更多关于中小型科技型企业的信息,用于金融风险等评估。
在实现过程中,采用Hadoop作为分布式存储和计算框架来实现大数据的存储和分析,Hadoop是一个开源的分布式存储和计算框架,旨在处理大规模数据集。Hadoop的核心设计包括Hadoop分布式文件系统(HDFS)用于数据存储,和MapReduce用于数据处理。Hadoop集群是由多台计算机组成的一个集群,每台计算机在集群中承担不同的角色,例如有的负责存储数据(HDFS节点),有的负责处理数据(MapReduce作业节点,包括Map任务节点和Reduce任务节点)。Hadoop框架管理这些计算机,使它们协同工作,以分布式的方式存储和处理数据。
Hadoop的MapReduce框架允许开发者通过编写Map函数和Reduce函数来实现业务逻辑,例如实现对文本数据的快速分析。Map函数处理输入数据,生成一系列中间键值对;Reduce函数则处理这些键值对,生成最终结果。Map函数运行在Hadoop集群的各个节点上,这些节点被称为Map任务节点。Hadoop集群是由多台计算机组成的,每台计算机都可以执行Map任务或Reduce任务。当一个MapReduce作业被提交到集群时,Hadoop的资源管理器(例如YARN)会负责分配任务到集群的不同节点上。具体的,当MapReduce程序提交到Hadoop集群时,Hadoop的资源管理器(如YARN)会接管程序的执行。它首先将输入数据分割成多个小块,并分配到多个Map任务上并行执行。每个Map任务在处理完自己的数据块后,会生成一系列键值对,这些键值对按键进行排序和分组,然后发送给Reduce任务。Reduce任务接收到来自所有Map任务的输出后,按键进行汇总处理,生成最终结果。
发明人在实践过程中发现,在Hadoop集群中挑选哪些节点作为Map任务节点,会影响到MapReduce作业的效率,即Map任务节点挑选策略不恰当时,会导致MapReduce作业的效率降低,进而降低数据分析的效率。经研究,其原因如下:各节点的负载大小会影响Map任务的执行效率,例如,挑选A节点做为Map任务节点,但是A节点的CPU占用率过高,会导致A节点完成对应Map任务耗时过长,从而会导致总的MapReduce作业的效率降低。又如,若挑选B节点做为Map任务节点,但是B节点的网速很慢,会导致将Map任务所需的数据从HDFS节点传输到B节点耗时过长,从而会导致总的MapReduce作业的效率降低。
发明内容
本发明的目的在于至少解决上述问题之一,以提供一种基于大数据的科技型中小企业银企对接服务系统及方法,能够针对MapReduce作业,从Hadoop集群中挑选恰当的Map任务节点,从而提升MapReduce作业的效率,进而提升数据分析的效率。
为了实现上述发明目的,本发明提供一种基于大数据的科技型中小企业银企对接服务方法,所述方法包括:
利用分布式存储和计算框架对通过大数据技术采集到的企业数据进行分布式存储和执行分布式分析任务;
对于分布式分析任务,从集群的所有节点中选择负载大小和传输路径接近度符合挑选策略要求的多个节点做为任务节点;
基于被选中的各任务节点进行企业数据的分布式分析任务,得到数据分析结果;所述数据分析结果用于构建企业的企业画像,所述企业画像为包括所述数据分析结果的数据;
基于所述企业画像构建风险评估模型和金融产品推荐模型;
基于所述风险评估模型对企业的融资请求进行审批并基于所述金融产品推荐模型向企业推送金融业务办理信息。
另一方面,本发明提供一种基于大数据的科技型中小企业银企对接服务系统,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序,以实现上述方法的步骤。
再一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
相较于现有技术,本发明至少具有优先的有益效果:
相较于现有技术中,Map任务节点挑选策略不恰当时,会导致MapReduce作业的效率降低,进而降低数据分析的效率的技术问题。本实施例提供的方案,能够针对MapReduce作业,从Hadoop集群中挑选恰当的Map任务节点,从而提升MapReduce作业的效率,进而提升数据分析的效率。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1为本发明一实施例提供的一种基于大数据的科技型中小企业银企对接服务方法的流程图;
图2为本发明一实施例提供的一种基于大数据的科技型中小企业银企对接服务方法的流程图;
图3为本发明一实施例提供的一种基于大数据的科技型中小企业银企对接服务方法的流程图;
图4为本发明一实施例提供的一种基于大数据的科技型中小企业银企对接服务方法的流程图;
图5为本发明一实施例提供的一种基于大数据的科技型中小企业银企对接服务方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如背景技术所述,本申请是针对科技型中小企业进行大数据分析,例如,网络上的用户评价、网络上的产品宣传等文本,这些文本存在非结构化的特点,有必要对这些文本进行词频统计等分析,而MapReduce作为一种广泛被使用的文本分析工具,在针对科技型中小企业的文本数据进行分析时具有很强的实用性。而本申请正是在该需求下(即对科技型中小企业的文本数据分析的需求),对MapReduce分析过程的节点选择策略作出优化,进一步提升了数据分析的效率。以下将结合附图提供具体的实施方式来详细描述本申请如何提升科技型中小企业的数据分析效率。
参照图1,在一些实施例中,提供了一种基于大数据的科技型中小企业银企对接服务方法,该方法包括:
步骤S202,利用分布式存储和计算框架对通过大数据技术采集到的企业数据进行分布式存储和执行分布式分析任务。
具体的,通过大数据技术采集企业数据的方式包括三类,第一类是系统日志采集系统,企业的业务平台每天都会产生大量的日志信息,通过对接到企业的业务平台对这些日志进行日志采集、收集,然后进行数据分析,挖掘出企业业务平台日志数据中的潜在价值。第二类是网络数据采集系统,通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博API)等从网站上获取数据。这样就可以将非结构化和半结构化的网页数据从网页中提取出来,并将其进行清洗、转换成结构化的数据。第三类是数据库采集系统,一些企业会使用传统的关系型数据库如MySQL和Oracle等来存储数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集工作。通过数据库采集系统直接与企业业务后台服务器结合,将企业业务后台每时每刻产生的大量业务记录写入数据库中,最后由特定的处理分析系统进行系统分析。上述各类大数据技术采集企业数据的方式属于现有技术,并非本申请发明点,此处不再赘述。
本实施例中主要是采用网络数据采集系统来采集企业数据进行分布式存储和执行分布式分析任务,具体的,主要使用Hadoop框架来对采集到的企业数据进行分布式存储和执行分布式分析任务。
本实施例中,分布式分析任务指的是MapReduce任务。Hadoop中的MapReduce可以执行各种数据分析任务,例如,文本处理和分析中的词频统计(Word Count)、倒排索引(Inverted Index),日志分析中的用户行为分析(分析网站或应用的日志文件,提取用户的行为模式,如页面浏览次数、停留时间等)。错误日志分析,大数据聚合与统计中的销售数据统计(计算不同时间段、地区或产品类别的销售总额或销售量)、用户活跃度统计(统计特定时间内的活跃用户数、新用户数或回流用户数)、数据清洗中的去重、格式化转换,机器学习和数据挖掘大规模矩阵乘法、聚类分析(如K-Means聚类算法可以通过MapReduce并行化处理,对大规模数据集进行聚类分析)。
步骤S204,对于分布式分析任务,从集群的所有节点中选择负载大小和传输路径接近度符合挑选策略要求的多个节点做为任务节点。
可以理解的是,用于执行分布式分析任务的各任务节点的负载应该小,以便有足够多的资源进行数据处理,加快数据分析速度,并且本次任务的数据传输到任务节点耗时应该短,以便加快数据分析的速度,从而整体提升数据分析的效率。
具体的,通过以下公式一确定集群中的N个节点被选中的概率;
将集群中的N个节点按照被选中的概率从大到小进行排序;N为大于1的自然数;
以排序结果的前M名对应的节点做为负载大小和传输路径接近度符合挑选策略要求的任务节点;M为小于N的自然数;
公式一:
其中,为节点数量为N的集群中第i个节点被选中的概率,/>为第i个节点的负载大小,/>为第i个节点的传输路径接近度,α为负载敏感度,取正值,β为传输路径敏感度,取正值,Norm()为归一化函数。
归一化函数用于将数据按比例缩放,使之落在一个小的特定区间,如[0, 1],以便在不同的环境中统一数据格式。实施过程中,可以使用最小-最大归一化(Min-MaxScaling)或者Z得分归一化(Z-Score Normalization)等归一化函数,具体归一化方式本申请不做限制。
本实施例中,利用负载大小描述节点数量为N的集群中第i个节点的负载情况;利用传输路径接近度/>描述本次任务数据所存储的位置与第i个节点的接近程度,/>越大则数据从存储的位置传输到第i个节点的耗时越短。
α和β用于调整负载大小和传输路径接近度/>对概率的影响。这两个权重的和不一定要等于1,因为它们代表的是不同维度的重要性,但它们的值需要根据实际情况进行调整,默认情况下α=β=1。即如果当前的分析任务处理的速度更加依赖于节点的计算机资源(包括CPU、内存、磁盘I/O等),例如,如果需要进行的数据分析需要占用的CPU和内存特别多,此时任务节点进行运算的过程将会占据数据分析的绝大多数时间,认为当前的分析处理任务的速度更加依赖于节点的计算机资源,即选择负载最小的节点是最优的策略,因此需要提高负载大小最小的节点做为任务节点的概率,则增加α的值,使得α:β=20:1。如果当前的分析任务处理的速度更加依赖于数据传输到任务节点的速度,例如,如果需要处理的数据量特别大,此时数据从存储节点传输到任务节点将会占据数据分析的绝大多数时间,认为当前的分析任务处理的速度更加依赖于数据传输到任务节点的速度,即数据存储在任务节点本地是最优的策略,因此需要提高数据存储节点做为任务节点的概率,则增加β的值,使得α:β=1:20。
本实施例中通过设置公式一中的α和β可以为不同类型的分析任务匹配最合适的节点,提高数据分析的效率。
具体的,如何识别一个任务处理的速度是更加依赖于节点的计算机资源还是更加依赖于数据传输到任务节点的速度,可以根据开发人员的人工经验设置,也可以通过统计大量分析任务的历史处理情况获取,还可以利用分析任务的历史数据作为训练数据对神经网络进行训练,然后利用训练后的神经网络来识别。
步骤S206,基于被选中的各任务节点进行企业数据的分布式分析任务,得到数据分析结果;所述数据分析结果用于构建企业的企业画像,所述企业画像为包括所述数据分析结果的数据。
企业画像是指利用数据分析和数据挖掘技术,基于企业的各类数据信息(包括基本信息、财务数据、经营活动、市场表现、客户评价等)综合构建的企业全面特征描述。具体的,这些各类数据信息做为对应企业的指标,用作后续构建风险评估模型和金融产品推荐模型的训练数据。
步骤S208,基于所述企业画像构建风险评估模型和金融产品推荐模型。
步骤S210,基于所述风险评估模型对企业的融资请求进行审批并基于所述金融产品推荐模型向企业推送金融业务办理信息。
相较于现有技术中,Map任务节点挑选策略不恰当时,会导致MapReduce作业的效率降低,进而降低数据分析的效率的技术问题。本实施例提供的方案发现了节点负载大小以及传输路径接近度二者与数据分析效率之间的内在关联关系,即用于执行分布式分析任务的各任务节点的负载应该小,以便有足够多的资源进行数据处理,加快数据分析速度,并且本次任务的数据传输到任务节点耗时应该短,以便加快数据分析的速度,从而整体提升数据分析的效率。基于上述关系构造了公式一来确定各节点被选中作为任务节点的概率,通过公式一确定的排名最高的前M名对应的节点在进行分析任务时可以具有更高的数据分析速度,从而提高数据分析的效率。
在一些实施例中,通过以下公式二确定第i个节点的负载大小,
公式二:
其中,为第i个节点的CPU占用率,/>为第i个节点的内存占用率,/>为第i个节点的磁盘I/O占用率,/>为第i个节点的网络I/O占用率;/>为根据CPU占用率阈值确定的CPU占用系数,/>为根据内存占用率阈值确定的内存占用系数,/>为根据磁盘I/O占用率阈值确定的磁盘I/O占用系数,/>为根据网络I/O占用率阈值确定的网络I/O占用系数;/>为CPU敏感度,取正值,/>为内存敏感度,取正值,/>为磁盘I/0敏感度,取正值,/>为网络I/0敏感度,取正值。
CPU占用率指一段时间内节点中非空闲任务占用CPU处理的时间比率,是对节点CPU使用情况的一个宏观统计,用于衡量节点的CPU负载程度。举例而言,在某段时间,D1进程占用10ms,D2进程占用30ms,然后空闲60ms,再又是D1进程占用10ms,D2进程占用30ms,空闲60ms。如果在一段时间内都是如此,那么这段时间内的占用率为0.4。CPU占用率越高,说明节点在这个时间上运行了很多任务,反之则很少。在Linux中可以使用ps和top命令查看CPU占用率,在Windows系统中,可以在命令提示符窗口使用“wmic cpu getloadpercentage”查看占用率。
内存占用率指的是一段时间内节点内存中已经被分配使用的部分和总内存大小的比例,用于衡量节点的内存负载程度,占用内存率过大,会影响节点运行的性能。
磁盘I/O占用率指的是在给定时间内,节点上磁盘接口处理数据的量相对于其最大处理能力的比例,用于衡量节点的磁盘I/O负载程度。确定磁盘I/O接口的最大处理能力,即磁盘带宽上限,类似于确定网络I/O接口的最大处理能力。具体的,每种磁盘(包括HDD和SSD)和磁盘接口(如SATA, SAS, NVMe等)都有其官方的最大数据传输速率或者通过实际性能测试确定最大数据传输速率。例如实际测定磁盘I/O的最大数据传输速率为500MBps,给定时间为1秒,在某时刻,该节点某个进程通过磁盘传输数据的速率为300MBps,即给定时间内该磁盘接口处理数据的量为300 MB,可以确定其磁盘I/O占用率为300MBps/500MBps=0.6。换句话说,由于该节点目前有别的进程占用了0.6的磁盘I/O,因此在执行分析任务时,每秒该分析任务对应进程仅能从磁盘I/O分配到(1-0.6)*500MB=200MB的传输容量。
网络I/O占用率指的是在给定时间内,节点上网络接口处理数据的量相对于其最大处理能力的比例。它是衡量节点的网络活动和负载的一个指标,反映了网络带宽的使用程度。在分布式计算和网络应用性能分析中,网络I/O使用率是一个重要的参数,因为它可以帮助识别网络瓶颈和优化网络性能。具体的,网络接口的最大处理能力可以是基于互联网服务提供商提供的带宽套餐来确定,例如宽度套餐为最大提供100 MBps的下载速度,给定时间为1秒,在某时刻,该节点某个进程下载的网速为80 MBps,即给定时间内该网络接口处理数据的量为80 MB,可以确定其网络I/O占用率为80MBps/100MBps=0.8。换句话说,即使网速提高到宽度套餐的最大值100MBps,由于该节点目前有别的进程占用了0.8的网络I/O,因此在执行分析任务时,每秒该任务对应进程仅能从网络I/O分配到(1-0.8)*100MB=20MB的传输容量。
进一步的,对于4个占用系数,若经过实验或人工经验认为当节点的CPU占用率大于0.7时,会使得该节点执行分析任务效率达不到预定的效率要求时,将CPU占用率阈值设置为0.7,此时查询预先计算得到的映射表得到为0.34。将/>=0.34代入公式进行观察,可以发现:当CPU占用率低于占用率阈值(0.7)时,对应的项/>为负数,反映在公式一中,表现为该节点被选中的概率/>会增加;当CPU占用率高于占用率阈值(0.7)时,对应项/>为正数,反映在公式一中,表现为该节点被选中的概率/>会减少。其体现的内在关联关系为:占用率高于占用率阈值之后,节点被选中的概率会被降低,从而降低执行分析任务效率达不到预定效率的节点被选中的概率,进而被选中的节点具有更高的任务执行效率。以下提供映射表中占用率阈值从0.1至0.9对应的占用系数,其形式为(x占用率阈值,x占用系数):(0.1,0.48)、(0.2,0.46)、(0.3,0.43)、(0.4,0.41)、(0.5,0.38)、(0.6,0.36)、(0.7,0.34)、(0.8,0.32)、(0.9,0.29),需要说明的是,上述的x可以用于CPU、内存、磁盘I/O或网络I/O进行替换,即可得到对应占用率阈值对应的占用系数。
在一个示例中,公式二中的4个占用率阈值(CPU、内存、磁盘I/O或网络I/O)均为0.7,即4个占用系数均为0.34,取4个敏感度相等均为0.25,取α=β=0.5,取为=4.4。
当节点的4个占用率(CPU、内存、磁盘I/O或网络I/O)均为0.8时,公式一中等于Norm(3.49);当节点的4个占用率(CPU、内存、磁盘I/O或网络I/O)均为0.5时,公式一中/>等于Norm(69.4708);当节点的4个占用率(CPU、内存、磁盘I/O或网络I/O)均为0.3时,公式一中/>等于Norm(1007)。可知上述举例的三种情况对应的节点中,归一化之后当节点的4个占用率为0.3时,被选中的概率最大,而超过占用率阈值的节点被选中的概率极小。另一方面,可以看到,当两个节点的占用率都小于占用率阈值时,公式一可以提升占用率更低的节点被选中的概率,使用占用率更低的节点进行分析任务可以提升数据处理效率。
进一步的,表示CPU资源对任务执行的重要性,如果任务场景为CPU使用密集型场景(即执行该任务需要占用大量的CPU资源),则需要增大/>的值;/>表示内存资源在任务执行中的贡献度,如果任务场景为内存使用密集型场景(即执行该任务需要占用大量的内存资源),则需要增大/>的值;/>反映磁盘I/O对任务处理速度的影响,如果任务场景为磁盘I/O使用密集型场景(即执行该任务需要占用大量的磁盘I/O资源),则需要增大/>的值;/>反映网络I/O对任务执行的重要程度,如果任务场景为网络I/O使用密集型场景(即执行该任务需要占用大量的网络I/O资源),则需要增大/>的值。
因此通过调整CPU、内存、磁盘I/O或网络I/O等4个敏感度,使得相应任务场景的任务可以选中具有更多与任务场景匹配资源的节点来执行任务。例如对于CPU密集型任务场景的分析任务,通过增大CPU敏感系数相应的敏感度,可以增加CPU占用率低的节点被选中作为任务节点的概率,从而提升分析任务的数据处理效率。
在一些实施例中,通过以下公式三确定第i个节点的传输路径接近度,
公式三:
其中,为第i个节点的网速的数值,/>为第i个节点的网络延迟的数值,/>为预设可接受的网络延迟的数值,/>为数据局部性参数,若待分析的数据已存储在第i个节点本地,则取值为1,否则取值为0。
根据分析任务的性能要求,本实施例中取预设可接受的网络延迟为400ms,即为400,认为当第i个节点的网络延迟大于该延迟时,会严重影响数据分析的效率。网速以MBps为单位,若第i个节点的网速为30MBps,则/>为30。/>体现了数据局部性质对传输路径接近度的影响,即数据如果存储在第i个节点本地,则数据从存储的位置传输到第i个节点的耗时越短,即/>越大。
情形1,第i个节点的网络延迟很大时:
取为400,此时第i个节点的网速为30MBps,网络延迟为406ms,即/>为30,/>为406,即使数据存储在第i个节点本地,即/>为1,代入公式三中,得到传输路径接近度/>大约为-1.659。若维持其他参数不变,将网络延迟改为600ms时,代入公式三中,得到传输路径接近度/>大约趋于负无穷。
情形2,第i个节点的网速很低时:
取为400,此时第i个节点的网速为0.1MBps,网络延迟正常,取值为100ms,即为0.1,/>为100,即使数据存储在第i个节点本地,即/>为1,代入公式三中,得到传输路径接近度/>大约为-1.3。
情形3,第i个节点的网速正常并且网络延迟正常时:
取为400,此时第i个节点的网速正常,为30MBps,网络延迟正常,取值为100ms,即/>为30,/>为100,即使数据存储在第i个节点本地,即/>为1,代入公式三中,得到传输路径接近度/>大约为4.4。
若三种情形中均取=-4.08,取α和β均为1,则情形1中第i个节点被选中的概率为Norm(2.421),情形2中第i个节点被选中的概率为Norm(2.78),情形3中第i个节点被选中的概率为Norm(8.48)。经过归一化之后,情形1和情形2的概率远小于情形3,即根据上述三种情形可知,通过公式三可以很好的降低网速低和网络延迟高的节点被选中的概率,即可以对网速低和网络延迟高的节点起到过滤作用,而提高网速高和网络延迟低的节点被选中的概率,降低分析任务过程中数据传输到任务节点以及从任务节点传输到reduce节点的耗时,提升数据分析的效率。
在一些场景中,有2个节点,假设第一个节点除了CPU占用率为0.3,其他3个占用率均为0.3,第二个节点的CPU占用率为0.6,其他3个占用率均为0.1。按照常规设计,应该会选择第二个节点作为任务节点,因为第二个节点4个占用率(CPU、内存、磁盘I/O或网络I/O)的平均值会低一些,为(0.6+3*0.1)/4=0.225。而第一个节点4个占用率(CPU、内存、磁盘I/O或网络I/O)的平均值为0.3。然而,如果当前分析任务为CPU使用密集型场景,如果采用常规设计,选择第二个节点做为任务节点执行任务时,其效率比不上采用第一个节点,从而导致整体的数据分析效率下降。为了解决该问题,我们应该为该任务选择第一个节点。因此,本实施例提供了相应的解决方案,可以根据不同的任务场景选择具有最高数据分析效率的节点做为任务节点,通过以下方案调整、/>、/>、/>之间的比值,代入到公式二中,最终使得公式一能够为不同任务场景挑选出来效率更高的节点做为任务节点。
该方案如下:
识别所述分布式分析任务所对应的任务场景;所述任务场景包括CPU使用密集型场景、内存使用密集型场景、磁盘I/O使用密集型场景和网络I/0使用密集型场景;
识别到所述分布式分析任务对应的任务场景为CPU使用密集型场景时,设置:/>:/>:/>=10:1:1:1;
识别到所述分布式分析任务对应的任务场景为内存使用密集型场景时,设置:/>:/>:/>=1:10:1:1;
识别到所述分布式分析任务对应的任务场景为磁盘I/O使用密集型场景时,设置:/>:/>:/>=1:1:10:1;
识别到所述分布式分析任务对应的任务场景为网络I/0使用密集型场景时,设置:/>:/>:/>=1:1:1:10。
具体的,表示CPU资源对任务执行的重要性,如果任务场景为CPU使用密集型场景(即执行该任务需要占用大量的CPU资源),则需要增大/>的值;/>表示内存资源在任务执行中的贡献度,如果任务场景为内存使用密集型场景(即执行该任务需要占用大量的内存资源),则需要增大/>的值;/>反映磁盘I/O对任务处理速度的影响,如果任务场景为磁盘I/O使用密集型场景(即执行该任务需要占用大量的磁盘I/O资源),则需要增大/>的值;/>反映网络I/O对任务执行的重要程度,如果任务场景为网络I/O使用密集型场景(即执行该任务需要占用大量的网络I/O资源),则需要增大/>的值。
因此通过调整CPU、内存、磁盘I/O或网络I/O等4个敏感度,使得相应任务场景的任务可以选中具有更多与任务场景匹配资源的节点来执行任务。例如对于CPU密集型任务场景的分析任务,通过增大CPU敏感系数相应的敏感度,可以增加CPU占用率低的节点被选中作为任务节点的概率,从而提升分析任务的数据处理效率。
举例而言,有2个节点,CPU占用率阈值为0.7,假设第一个节点的CPU占用率为0.3,其他3个占用率均为0.3;第二个节点的CPU占用率为0.6,其他3个占用率均为0.1;取α=β=0.5,第一个节点、第二个节点的传输路径接近度均为4.4。识别到所述分布式分析任务对应的任务场景为CPU使用密集型场景时,将4个占用率(CPU、内存、磁盘I/O或网络I/O)设置为:/>:/>:/>=6:1:1:1。此时,通过公式一计算出第一个节点的/>等于Norm(365400);通过公式一计算出第二个节点的/>等于Norm(11731)。因此,通过该方案可以从多个节点中挑选出CPU占用率更低的第一个节点作为任务节点,加快对任务场景为CPU使用密集型场景的分析任务的处理效率。
在一个示例中,有2个节点,CPU占用率阈值为0.7,假设第一个节点除了CPU占用率为0.8,其他3个占用率均为0.3;第二个节点的CPU占用率为0.9,其他3个占用率均为0.1;取α=β=0.5,第一个节点、第二个节点的传输路径接近度均为4.4。识别到所述分布式分析任务对应的任务场景为CPU使用密集型场景时,将4个占用率(CPU、内存、磁盘I/O或网络I/O)设置为:/>:/>:/>=10:1:1:1。此时,通过公式一计算出第一个节点的/>等于Norm(26.082);通过公式一计算出第二个节点的/>等于Norm(5.859)。因此,通过该方案可以从多个节点中挑选出CPU占用率更低的第一个节点作为任务节点,加快对任务场景为CPU使用密集型场景的分析任务的处理效率。
如图2所示,在一些实施例中,识别所述分布式分析任务所对应的任务场景,具体包括:
步骤S302,获取待识别的分布式分析任务对应的任务属性数据。每个分布式分析任务对应的任务属性数据均包括Map函数复杂度、分布式分析任务对应的数据量、分布式分析任务对应的数据类型和分布式分析任务对应数据的数据存储模式。
步骤S304,将待处理的分布式分析任务对应的任务属性数据输入到场景识别神经网络模型,识别出待处理的分布式分析任务对应的任务场景。其中,所述场景识别神经网络是由多组第一训练数据进行神经网络的训练得到的,每组第一训练数据均包括一个分布式分析任务对应的任务属性数据以及用于标记该分布式分析任务所对应的任务场景的标签。
分布式分析任务即MapReduce任务,包括Map函数和Reduce函数,Map函数被分布到Hadoop集群中的各节点执行。
为了训练神经网络,将Map函数复杂度、分布式分析任务对应的数据量、分布式分析任务对应的数据类型和分布式分析任务对应数据的数据存储模式等四个参数表达为一维向量(M、V、T、A)。其中:
M为Map函数复杂度;是一个分类变量,描述Map函数的计算特性,包括“复杂”或“简单”。其数值表示:使用二进制或独热编码(One-Hot Encoding)将M转换为数值。M有两个值:“复杂”和“简单”,将“复杂”编码为[1, 0],将“简单”编码为[0, 1]。
V为分布式分析任务对应的数据量;表示任务处理的数据量,是一个连续变量。其数值表示:使用4位二进制来表示。例如,如果数据量的范围从几GB(低)到几TB(高),可以将这个范围映射到0000到1111之间不同的数据量等级,其中0000代表最低的数据量,1111代表最高的数据量。
T为分布式分析任务对应的数据类型;是一个分类变量,表示数据的类型,包括“密集”或“稀疏”。数值表示:使用独热编码将T转换为数值,将“密集”编码为[1, 0],将“稀疏”编码为[0, 1]。
A为分布式分析任务对应数据的数据存储模式;是一个分类变量,包括“顺序访问”或“随机访问”。数值表示:使用独热编码将A转换为数值,将“顺序访问”编码为[1, 0],将“随机访问”编码为[0, 1]。
举例而言,假设有一个任务,该任务需要处理的是一个复杂的大规模矩阵乘法函数Map(M),数据量大约是550GB(V,在预定义的量级中可能被视为“中”),数据类型被编码为“密集”类型,(T),并且处理时需要顺序访问(A)。
M:复杂的Map函数被编码为[1, 0]。
V:如果定义“0000”为<100GB、"0001"为100GB到200GB、550GB的数据量定义为“0101”。
T:密集类型被编码为[1, 0]。
A:顺序访问被编码为[1, 0]。
于是,上述四个参数(M、V、T、A)的一维向量形式为“1001011010”,然后由人工给该数据打上用于标记其所对应的任务场景的标签,该任务场景为CPU使用密集型场景,标签极为独热编码形式“1000”。
需要说明的是,分布式分析任务的上述四个参数(M、V、T、A)与节点执行分析任务时对节点的CPU、内存、磁盘I/O或网络I/O等资源消耗程度之间存在内在关联关系。例如,根据人工经验可知,A为“随机访问”编码为[0, 1]时,节点上执行任务时会存在频繁的数据读取和写入,此时应该为该任务挑选磁盘I/O占用率低的节点才能具有更高的数据分析效率,定义该分布式分析任务对应的任务场景为磁盘I/O使用密集型场景。或者,M为大规模矩阵乘法函数,M为“复杂”编码为[1, 0],此时由于需要大量运算,所以需要为该任务挑选CPU占用率低的节点才能具有更高的数据分析效率,定义该分布式分析任务对应的任务场景为CPU使用密集型场景。因此,本实施例中,发明人发现了分布式分析任务的上述四个参数(M、V、T、A)与节点执行分析任务时对节点的CPU、内存、磁盘I/O或网络I/O等资源消耗程度之间存在内在关联关系(规律),并提出了利用神经网络方式来自动学习这种规律,从而在后续利用训练好的场景识别神经网络模型,自动识别出待处理的分布式分析任务对应的任务场景。基于此可以准确高效地选择合适的、/>、/>、/>之间的比值,提高数据分析处理的效率。
如图3所示,在一些实施例中,基于所述企业画像构建风险评估模型,具体包括:
步骤S402,获取贷款业务已达到还款期限的各企业的企业画像;
步骤S404,将一个企业的企业画像中的多项指标构成的第一一维向量以及用于标记该企业还款是否逾期的标签共同作为一组第二训练数据;
步骤S406,利用多组第二训练数据对神经网络进行训练得到风险评估模型。
具体而言,在企业画像中的各项指标与该企业还款能力具有内在关联关系(规律)。例如,如果一个企业利润很高、产品市场占有率高、所属行业为高利润行业等,则其还款能力会更强。本实施例中通过神经网络自动学习到该规律并可以利用神经网络对后续需要贷款的企业进行风险评估,提升银行评估企业贷款风险的效率。
如图4所示,在一些实施例中,基于所述企业画像构建金融产品推荐模型,具体包括:
步骤S502,将各企业的企业画像中的多项指标构成该企业对应的第二一维向量;
步骤S504,按照顺序对于每个金融产品构建对应的集合,并将已经采购相应金融产品的企业对应的第二一维向量添加到为相应金融产品构建的集合中;每个金融产品构建对应的集合均赋予唯一编号,属于集合中的各企业对应的第二一维向量均具有与集合相同的唯一编号;
步骤S506,统计各企业对应的第二一维向量所具有的唯一编号的组合,作为各企业对应的第二一维向量的标签,该标签用于标记相应企业所采购过的金融产品的组合;
步骤S508,将各企业对应的第二一维向量以及用于标记相应企业所采购过的金融产品的组合的标签共同作为一组第三训练数据;
步骤S510,利用多组第三训练数据对神经网络进行训练得到金融产品推荐模型。
具体而言,先将各金融产品排序,假设有8个金融产品,则构建长度为8个字符的一维数组,每个位置取值为0或1,例如金融产品A排名为第一,金融产品B排名为第五,则金融产品A对应的集合的唯一编号为“10000000”,金融产品B对应的集合的唯一编号为“00001000”,如果某个企业曾经同时采购过金融产品A和B,则将该企业对应的第二一维向量具有2个唯一编号“10000000”和“00001000”。将该企业具有的2个唯一编号进行组合,组合规则为之间将该企业的第二一维向量具有的唯一编号同位相加,即“10000000”和“00001000”同位相加,得到标签为“10001000”。根据该标签可知,第一位和第五位均为1,说明该企业购买过排名为第一和第五的金融产品A和B。然后基于此得到的第三训练数据进行神经网络训练,就可以得到给企业推荐不同金融产品组合的金融产品推荐模型。
本申请中通过组合编号的方式,实现同一个推荐模型给企业推荐不同的金融产品组合,而无需为每个模型构建一个金融产品推荐模型,在给一个企业推荐多个金融产品时,无需构建多个模型,进而简化了多个金融产品推荐的流程,提升了推荐效率。
如图5所示,在一些实施例中,所述方法还包括:
步骤S602,接收到新数据时,识别数据来源。
在网络数据采集系统中,可以采用Apache Nutch进行数据采集,Apache Nutch是一个高度可扩展的和可伸缩性的分布式爬虫框架。Apache通过分布式抓取网页数据,由Hadoop系统提供支持,通过提交MapReduce任务来抓取网页数据,并将网页数据存储在分布式文件系统中。Nutch主要用于收集网页数据,然后对其进行分析、建立索引,再提供相应的接口来对其网页数据进行查询的一套工具。由于多台机器并行执行爬取任务,Nutch充分利用多台机器的计算资源和存储能力,大大提高了系统爬取数据的能力。Hadoop框架会不断将接收到的数据在集群中的HDFS节点进行分布式存储,基于Apache技术可以记录所抓取的对象,例如xx网络平台,该xx网路平台就是数据来源。
步骤S604,根据数据来源确定该来源的数据被用于分布式分析任务时对应的任务场景作为目标任务场景。
一般来说,可以安排进行数据分析处理的频率,例如每天进行一次数据分析,并且对于同一数据来源的数据每天都采用相同的Map函数进行分析处理。基于此,可以统计各数据来源对应的Map函数以及还可以统计该来源的数据被用于分布式分析任务时对应的任务场景,例如统计到数据来源为xx网络平台的数据在5天内的分析任务对应的任务场景为CPU使用密集型场景,则可以确定该来源的数据被用于分布式分析任务时对应的任务场景为CPU使用密集型场景,将CPU使用密集型场景作为目标任务场景。
步骤S606,基于所述目标任务场景,将接收到的新数据存储在目标节点;其中,
步骤S6061,当目标任务场景为CPU使用密集型场景时,目标节点为上一个统计周期内平均的CPU占用率最低的节点。
以24小时作为一个统计周期,统计各节点在24小时内的CPU占用率,将上述数据来源为xx网络平台采集到的最新的数据存储上一个统计周期内平均的CPU占用率最低的节点。后续在对该数据进行分析时,由于该数据的分析任务属于CPU使用密集型场景,因此调整调整、/>、/>、/>之间的比值为10:1:1:1,再代入公式一,就会将保存有该数据的节点做为任务节点,在进行数据分析时无需将数据进行传输,进一步提升数据分析的效率。
步骤S6062,当目标任务场景为内存使用密集型场景时,目标节点为上一个统计周期内平均的内存占用率最低的节点。
步骤S6063,当目标任务场景为磁盘I/O使用密集型场景时,目标节点为上一个统计周期内平均的磁盘I/O占用率最低的节点。
步骤S6064,当目标任务场景为网络I/0使用密集型场景时,目标节点为上一个统计周期内平均的网络I/0占用率最低的节点。
该实施例中,能够在采集到新的数据时就将该数据保存到后续用于处理该数据的任务节点上,在进行数据分析时无需将数据进行传输,进一步提升数据分析的效率。
另一方面,本发明提供一种基于大数据的科技型中小企业银企对接服务系统,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序,以实现上述方法的步骤
再一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (7)
1.一种基于大数据的科技型中小企业银企对接服务方法,其特征在于,所述方法包括:
利用分布式存储和计算框架对通过大数据技术采集到的企业数据进行分布式存储和执行分布式分析任务;
对于分布式分析任务,从集群的所有节点中选择负载大小和传输路径接近度符合挑选策略要求的多个节点作为任务节点;
基于被选中的各任务节点进行企业数据的分布式分析任务,得到数据分析结果;所述数据分析结果用于构建企业的企业画像,所述企业画像为包括所述数据分析结果的数据;
基于所述企业画像构建风险评估模型和金融产品推荐模型;
基于所述风险评估模型对企业的融资请求进行审批并基于所述金融产品推荐模型向企业推送金融业务办理信息;
所述方法还包括:
通过以下公式一确定集群中的N个节点被选中的概率;
将集群中的N个节点按照被选中的概率从大到小进行排序;N为大于1的自然数;
以排序结果的前M名对应的节点作为负载大小和传输路径接近度符合挑选策略要求的任务节点;M为小于N的自然数;
公式一:
其中,为节点数量为N的集群中第i个节点被选中的概率,/>为第i个节点的负载大小,/>为第i个节点的传输路径接近度,α为负载敏感度,取正值,β为传输路径敏感度,取正值,Norm()为归一化函数;
通过以下公式二确定第i个节点的负载大小,
公式二:
其中,为第i个节点的CPU占用率,/>为第i个节点的内存占用率,/>为第i个节点的磁盘I/O占用率,/>为第i个节点的网络I/O占用率;/>为根据CPU占用率阈值确定的CPU占用系数,/>为根据内存占用率阈值确定的内存占用系数,/>为根据磁盘I/O占用率阈值确定的磁盘I/O占用系数,/>为根据网络I/O占用率阈值确定的网络I/O占用系数;/>为CPU敏感度,取正值,/>为内存敏感度,取正值,/>为磁盘I/0敏感度,取正值,/>为网络I/0敏感度,取正值;
通过以下公式三确定第i个节点的传输路径接近度,
公式三:
其中,为第i个节点的网速的数值,/>为第i个节点的网络延迟的数值,/>为预设可接受的网络延迟的数值,/>为数据局部性参数,若待分析的数据已存储在第i个节点本地,则取值为1,否则取值为0。
2.根据权利要求1所述的一种基于大数据的科技型中小企业银企对接服务方法,其特征在于,所述方法还包括:
识别所述分布式分析任务所对应的任务场景;所述任务场景包括CPU使用密集型场景、内存使用密集型场景、磁盘I/O使用密集型场景和网络I/0使用密集型场景;
识别到所述分布式分析任务对应的任务场景为CPU使用密集型场景时,设置::/>:/>=10:1:1:1;
识别到所述分布式分析任务对应的任务场景为内存使用密集型场景时,设置::/>:/>=1:10:1:1;
识别到所述分布式分析任务对应的任务场景为磁盘I/O使用密集型场景时,设置::/>:/>=1:1:10:1;
识别到所述分布式分析任务对应的任务场景为网络I/0使用密集型场景时,设置::/>:/>=1:1:1:10。
3.根据权利要求2所述的一种基于大数据的科技型中小企业银企对接服务方法,其特征在于,所述识别所述分布式分析任务所对应的任务场景,具体包括:
获取待识别的分布式分析任务对应的任务属性数据;每个分布式分析任务对应的任务属性数据均包括Map函数复杂度、分布式分析任务对应的数据量、分布式分析任务对应的数据类型和分布式分析任务对应数据的数据存储模式;
将待处理的分布式分析任务对应的任务属性数据输入到场景识别神经网络模型,识别出待处理的分布式分析任务对应的任务场景;其中,所述场景识别神经网络是由多组第一训练数据进行神经网络的训练得到的,每组第一训练数据均包括一个分布式分析任务对应的任务属性数据以及用于标记该分布式分析任务所对应的任务场景的标签。
4.根据权利要求1所述的一种基于大数据的科技型中小企业银企对接服务方法,其特征在于,基于所述企业画像构建风险评估模型,具体包括:
获取贷款业务已达到还款期限的各企业的企业画像;
将一个企业的企业画像中的多项指标构成的第一一维向量以及用于标记该企业还款是否逾期的标签共同作为一组第二训练数据;
利用多组第二训练数据对神经网络进行训练得到风险评估模型。
5.根据权利要求1所述的一种基于大数据的科技型中小企业银企对接服务方法,其特征在于,基于所述企业画像构建金融产品推荐模型,具体包括:
将各企业的企业画像中的多项指标构成该企业对应的第二一维向量;
按照顺序对于每个金融产品构建对应的集合,并将已经采购相应金融产品的企业对应的第二一维向量添加到为相应金融产品构建的集合中;每个金融产品构建对应的集合均赋予唯一编号,属于集合中的各企业对应的第二一维向量均具有与集合相同的唯一编号;
统计各企业对应的第二一维向量所具有的唯一编号的组合,作为各企业对应的第二一维向量的标签,该标签用于标记相应企业所采购过的金融产品的组合;
将各企业对应的第二一维向量以及用于标记相应企业所采购过的金融产品的组合的标签共同作为一组第三训练数据;
利用多组第三训练数据对神经网络进行训练得到金融产品推荐模型。
6.根据权利要求1所述的一种基于大数据的科技型中小企业银企对接服务方法,其特征在于,所述方法还包括:
接收到新数据时,识别数据来源;
根据数据来源确定该来源的数据被用于分布式分析任务时对应的任务场景作为目标任务场景;
基于所述目标任务场景,将接收到的新数据存储在目标节点;其中,
当目标任务场景为CPU使用密集型场景时,目标节点为上一个统计周期内平均的CPU占用率最低的节点;
当目标任务场景为内存使用密集型场景时,目标节点为上一个统计周期内平均的内存占用率最低的节点;
当目标任务场景为磁盘I/O使用密集型场景时,目标节点为上一个统计周期内平均的磁盘I/O占用率最低的节点;
当目标任务场景为网络I/0使用密集型场景时,目标节点为上一个统计周期内平均的网络I/0占用率最低的节点。
7.一种基于大数据的科技型中小企业银企对接服务系统,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序,以实现权利要求1至6任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410399949.7A CN117992241B (zh) | 2024-04-03 | 2024-04-03 | 基于大数据的科技型中小企业银企对接服务系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410399949.7A CN117992241B (zh) | 2024-04-03 | 2024-04-03 | 基于大数据的科技型中小企业银企对接服务系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117992241A CN117992241A (zh) | 2024-05-07 |
CN117992241B true CN117992241B (zh) | 2024-06-04 |
Family
ID=90895691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410399949.7A Active CN117992241B (zh) | 2024-04-03 | 2024-04-03 | 基于大数据的科技型中小企业银企对接服务系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117992241B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361463A (zh) * | 2014-11-21 | 2015-02-18 | 上海财安金融服务股份有限公司 | 一种中小企业网络融资系统和方法 |
CN116795552A (zh) * | 2023-07-07 | 2023-09-22 | 哈尔滨工业大学 | 一种基于MapReduce的大规模负载测试方法及其评价方法 |
CN117271142A (zh) * | 2023-11-22 | 2023-12-22 | 福建福清核电有限公司 | 用于分析概率安全分析模型的负载均衡方法和任务调度器 |
WO2024028652A1 (en) * | 2022-08-01 | 2024-02-08 | Qliktech International Ab | Systems and methods for associative analysis of data |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111433806A (zh) * | 2017-10-04 | 2020-07-17 | 克劳德比罗公司 | 用于分析众筹平台的系统和方法 |
CN115333606B (zh) * | 2022-08-11 | 2023-06-20 | 哈尔滨工业大学(深圳) | 面向低轨星座存储网络的分布式编码数据下载与修复方法 |
CN117707756A (zh) * | 2023-09-28 | 2024-03-15 | 武汉众邦银行股份有限公司 | 一种分布式计算系统的实现方法、装置及计算引擎 |
CN117787892A (zh) * | 2023-12-13 | 2024-03-29 | 中数通信息有限公司 | 一种企业协同办公系统及其方法 |
-
2024
- 2024-04-03 CN CN202410399949.7A patent/CN117992241B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361463A (zh) * | 2014-11-21 | 2015-02-18 | 上海财安金融服务股份有限公司 | 一种中小企业网络融资系统和方法 |
WO2024028652A1 (en) * | 2022-08-01 | 2024-02-08 | Qliktech International Ab | Systems and methods for associative analysis of data |
CN116795552A (zh) * | 2023-07-07 | 2023-09-22 | 哈尔滨工业大学 | 一种基于MapReduce的大规模负载测试方法及其评价方法 |
CN117271142A (zh) * | 2023-11-22 | 2023-12-22 | 福建福清核电有限公司 | 用于分析概率安全分析模型的负载均衡方法和任务调度器 |
Also Published As
Publication number | Publication date |
---|---|
CN117992241A (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210374610A1 (en) | Efficient duplicate detection for machine learning data sets | |
US20220075670A1 (en) | Systems and methods for replacing sensitive data | |
US20200050968A1 (en) | Interactive interfaces for machine learning model evaluations | |
CA2953826C (en) | Machine learning service | |
US20190122136A1 (en) | Feature processing tradeoff management | |
US10504120B2 (en) | Determining a temporary transaction limit | |
CN103748579B (zh) | 在映射化简框架中处理数据 | |
WO2019015631A1 (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
CN115983900A (zh) | 用户营销策略的构建方法、装置、设备、介质和程序产品 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN117195061A (zh) | 事件响应预测模型处理方法、装置和计算机设备 | |
CN117992241B (zh) | 基于大数据的科技型中小企业银企对接服务系统及方法 | |
CN116737373A (zh) | 负载均衡方法、装置、计算机设备、存储介质 | |
CN115905293A (zh) | 作业执行引擎的切换方法及装置 | |
US20230060245A1 (en) | System and method for automated account profile scoring on customer relationship management platforms | |
US11989243B2 (en) | Ranking similar users based on values and personal journeys | |
CN118244994B (zh) | 基于云计算的历史数据存储方法及装置 | |
CN117312999A (zh) | 对象分类方法、装置、计算机设备和存储介质 | |
CN115048585A (zh) | 产品推荐方法、产品推荐模型的训练方法、装置和设备 | |
CN118735675A (zh) | 一种业务风险预测方法及系统 | |
CN118827476A (zh) | 业务系统压力测试方法、装置、设备及存储介质 | |
CN118537114A (zh) | 评估报表的生成方法、装置、电子设备及存储介质 | |
CN118446806A (zh) | 授信数据处理方法、装置、计算机设备和存储介质 | |
CN113052677A (zh) | 基于机器学习的两阶段贷款预测模型的构建方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |