CN112231115A - 一种执行动态插入算子的方法以及装置 - Google Patents

一种执行动态插入算子的方法以及装置 Download PDF

Info

Publication number
CN112231115A
CN112231115A CN202011037243.4A CN202011037243A CN112231115A CN 112231115 A CN112231115 A CN 112231115A CN 202011037243 A CN202011037243 A CN 202011037243A CN 112231115 A CN112231115 A CN 112231115A
Authority
CN
China
Prior art keywords
operator
data
service
data mining
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011037243.4A
Other languages
English (en)
Inventor
汪达胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202011037243.4A priority Critical patent/CN112231115A/zh
Publication of CN112231115A publication Critical patent/CN112231115A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/547Remote procedure calls [RPC]; Web services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading

Abstract

本发明公开了一种执行动态插入算子的方法以及装置,涉及计算机技术领域。该方法包括:接收用户的服务请求;基于所述用户的服务请求来调用与服务相对应的算子的微服务框架,其中微服务框架独立于数据挖掘平台;基于针对所述调用的响应,建立数据挖掘平台与算子的微服务架构之间的通信以将所述算子动态地插入到所述数据挖掘平台中;以及当与所述算子相对应的服务出现故障时,与出现故障的服务相对应的算子的微服务框架与所述数据挖掘平台隔离开。基于本发明,能够基于需求来灵活地增加算子,有效地提高数据挖掘平台的可扩展性和兼容性。

Description

一种执行动态插入算子的方法以及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种执行动态插入算子的方法以及装置。
背景技术
在现有技术中,基于现有的数据挖掘平台,通过新增配置文件的方式来增加算子。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
在现有技术的数据挖掘平台的算子动态扩容方案中,新算法的导入与数据挖掘平台本身同为一个项目开发,代码之间耦合性较大,灵活性不足,不能满足不断扩展的功能要求。
发明内容
有鉴于此,本发明实施例提供一种执行动态插入算子的方法以及装置,该装置包括用于数据挖掘的数据挖掘平台。在使用数据挖掘平台过程中,开发人员可以根据自己的需要来灵活地加入算子。本发明中的算子包括但不限于数据读取、数据预处理、特征工程、机器学习算法等算子,本发明能够有效地提高数据挖掘平台的可扩展性和兼容性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种执行动态插入算子的方法,其特征在于,包括:接收用户的服务请求;基于所述用户的服务请求来调用与服务相对应的算子的微服务框架,其中微服务框架独立于数据挖掘平台;基于针对所述调用的响应,建立数据挖掘平台与算子的微服务架构之间的通信以将所述算子动态地插入到所述数据挖掘平台中;以及当与所述算子相对应的服务出现故障时,与出现故障的服务相对应的算子的微服务框架与所述数据挖掘平台隔离开。
可选地,所述执行动态插入算子的方法,其特征在于,所述算子的数量是一个或多个,并且每个算子对应一个服务。
可选地,所述执行动态插入算子的方法,其特征在于,所述多个算子的微服务框架彼此独立。
可选地,所述执行动态插入算子的方法,其特征在于,所述数据挖掘平台支持多个数据挖掘算法、涵盖分类、聚类以及回归,并且支持包括sklearn、lightGBM、XGBoost以及SparkMLlib的数据挖掘框架。
可选地,所述执行动态插入算子的方法,其特征在于,所述数据挖掘平台包含数据读取、特征工程、超参数调优、模型训练、模型部署以及模型重训练。
可选地,所述执行动态插入算子的方法,其特征在于,所述数据挖掘平台包括用户接口层、平台服务层、计算资源层以及数据层。
可选地,所述执行动态插入算子的方法,其特征在于,所述平台服务层提供平台的基础功能包含资源调度、任务调度和api接口层。
可选地,所述执行动态插入算子的方法,其特征在于,所述算子被分为数据IO、预处理、机器学习模型、样本数据、特征工程和模型评估。
可选地,所述执行动态插入算子的方法,其特征在于,所述数据IO算子用于选择数据源、输入数据库和数据表;所述数据预处理算子用于按比例采样、随机拆分数据、分层拆分数据和缺失值填充;所述机器学习模型算子用于随机森林二分类、逻辑回归、xgboost二分类和K均值聚类;所述样本数据算子用于信贷审批、信用卡欺诈检测和电信客户流失数据;所述特征工程算子用于最大最小归一化和标准归一化;以及所述模型评估算子用于分类模型评估指标、聚类模型评估指标和模型预测。
为实现上述目的,根据本发明实施例的第二方面,提供了一种执行动态插入算子的装置,其特征在于,包括:接收模块,所述接收模块被配置成接收用户的服务请求;调用模块,所述调用模块被配置成基于所述用户的服务请求来调用与服务相对应的算子的微服务框架;通信模块,所述通信模块被配置成基于针对所述调用的响应,建立数据挖掘平台与算子的微服务架构之间的通信以将所述算子动态地插入到所述数据挖掘平台中;以及故障隔离模块,所述故障隔离模块被配置成当与所述算子相对应的服务出现故障时,与出现故障的服务相对应的算子的微服务框架与所述数据挖掘平台隔离开,其中,微服务框架独立于数据挖掘平台。
可选地,所述执行动态插入算子的装置,其特征在于,所述算子的数量是一个或多个,并且每个算子对应一个服务。
可选地,所述执行动态插入算子的装置,其特征在于,所述多个算子的微服务框架彼此独立。
可选地,所述执行动态插入算子的装置,其特征在于,所述数据挖掘平台支持多个数据挖掘算法、涵盖分类、聚类以及回归,并且支持包括sklearn、lightGBM、XGBoost以及SparkMLlib的数据挖掘框架。
可选地,所述执行动态插入算子的装置,其特征在于,所述数据挖掘平台包含数据读取、特征工程、超参数调优、模型训练、模型部署以及模型重训练。
可选地,所述执行动态插入算子的装置,其特征在于,所述数据挖掘平台包括用户接口层、平台服务层、计算资源层以及数据层。
可选地,所述执行动态插入算子的装置,其特征在于,所述平台服务层提供平台的基础功能包含资源调度、任务调度和api接口层。
可选地,所述执行动态插入算子的装置,其特征在于,所述算子被分为数据IO、预处理、机器学习模型、样本数据、特征工程和模型评估。
可选地,所述执行动态插入算子的装置,其特征在于,所述数据IO算子用于选择数据源、输入数据库和数据表;所述数据预处理算子用于按比例采样、随机拆分数据、分层拆分数据和缺失值填充;所述机器学习模型算子用于随机森林二分类、逻辑回归、xgboost二分类和K均值聚类;所述样本数据算子用于信贷审批、信用卡欺诈检测和电信客户流失数据;所述特征工程算子用于最大最小归一化和标准归一化;以及所述模型评估算子用于分类模型评估指标、聚类模型评估指标和模型预测。
为实现上述目的,根据本发明实施例的第三方面,提供了一种可选地,所述执行动态插入算子的电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述可选地,所述执行动态插入算子的方法中任一所述的方法。
为实现上述目的,根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上述执行动态插入算子的方法中任一所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:可以根据自己的需要来灵活地加入算子,能够有效地提高数据挖掘平台的可扩展性和兼容性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例提供的一种执行动态插入算子的装置的架构示意图;
图2A是本发明实施例的动态插入算子的示意图,并且图2B是本发明的又一实施例的动态插入算子的示意图;
图3是本发明实施例提供的一种执行动态插入算子的装置的示意图;
图4是本发明实施例提供的一种执行动态插入算子的方法的流程图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明提供的一种执行动态插入算子的装置可以包括数据挖掘平台,本发明的数据挖掘平台支持主流的机器学习算法,提供单机与集群的机器学习框架支持,结合Spark集群提供分布式内存计算的强大性能,能够为用户提供模型开发、模型训练、模型部署等一站式数据挖掘服务。
本发明的数据挖掘平台具有丰富算法框架支持。本发明的数据挖掘平台不仅能够支持主流数据挖掘算法、涵盖分类、聚类以及回归等,而且能够支持多种数据挖掘框架,诸如sklearn、lightGBM、XGBoost以及SparkMLlib等。
本发明的数据挖掘平台具有多种交互方式用于模型训练,能够提供可视化的方式构建模型训练工作流以及基于notebook来训练模型的方式,同时提供了网格搜索(grid-search)和交叉验证(cross-validation)等超参数优化策略进行参数调优。
本发明的数据挖掘平台属于一站式数据挖掘平台,其能够覆盖数据挖掘全流程,包含数据读取、特征工程、超参数调优、模型训练、模型部署以及模型重训练等数据挖掘全生命周期。
本发明的数据挖掘平台具有多种推理方式支持,其能够提供模型封装程序标准,基于标准封装的模型可以一键发布为支持高吞读低延时的实时在线推理(基于微服务架构),也可以发布为支持TB级别数据的离线推理。
图1是本发明实施例提供的一种执行动态插入算子的装置的架构示意图。本发明提供的一种执行动态插入算子的装置可以包括数据挖掘平台。如图1所示,数据挖掘平台100中的数据挖掘组件主要包括用户接口层110、平台服务层120、计算资源层130以及数据层140等。
用户接口层110是用户与挖掘组件交互的主要入口,目前提供web UI、notebook、拖拽式工作流及SDK四种交互方式。
平台服务层120提供平台的基础功能,包含资源调度、任务调度、api接口层等。
计算资源层130提供平台需要的异构计算资源,单机的数据挖掘框架会被调度到K8S集群中,而spark的分布式数据挖掘任务则会被调度到spark集群中。
数据层140主要提供训练数据以及离线推理数据的接入,支持多种异构数据源,通过SDK提供标注数据接口用于模型训练和离线批量。目前支持的数据源包括Mysql、Oracle、MPP、Hive等结构化数据以及对象存储类的非结构化数据。
在本发明中,构建通过K8S部署数据挖掘平台,新增的每个算子为一个服务(service),通过istio或Ambassador等微服务或者服务网格技术,为已部署的service和service之间、service和数据挖掘平台之间建立网络。
每个新增的算子提供一个对外的api接口,供平台调用。算子通过yaml文件构建服务实例,启一个pod。当pod正常运行时,平台即可通过pod关联的istio服务调用接口。
图2A是本发明实施例的动态插入算子的示意图。如图2A所示,可以将一个或多个算子插入到数据挖掘平台中。根据服务需求,算子1、算子2、算子3、……、算子n可以插入到数据挖掘平台中。
算子可以分为数据IO、预处理、机器学习模型、样本数据、特征工程和模型评估等6种算子类型,具体说明如下:
数据IO算子:选择数据源、输入数据库和数据表;
数据预处理算子:按比例采样、随机拆分数据、分层拆分数据、缺失值填充等;
机器学习模型算子:随机森林二分类、逻辑回归、xgboost二分类、K均值聚类等;
样本数据算子:信贷审批、信用卡欺诈检测、电信客户流失数据等;
特征工程算子:最大最小归一化、标准归一化等;
模型评估算子:分类模型评估指标、聚类模型评估指标、模型预测等。
图2B是本发明的又一实施例的动态插入算子的示意图。如图2B所示,在本发明中,可以数据挖掘平台中插入新增的预处理算子、特征工程算子和机器学习算子。数据挖掘平台通过istio服务网格调用新增的算子。
本发明实施例可以应用于,但不限于金融风控、营销响应建模、推荐引擎、流失预警以及时间序列分析。
风险控制是指风险管理者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或者减少风险事件发生时造成的损失。金融风控是风险控制在金融领域中的应用。金融领域中需要是使用各种数据挖掘技术和手段对金融事件(信用卡消费行为或贷款申请)或金融主体(个体或企业机构)出现违约的风险进行预测,在金融行业有广泛的应用。
响应建模是预测性数据挖掘技术的主要领域之一,易于实施部署,以获得营销ROI的提升。营销响应建模通过定位那些更可能对特定优惠、营销活动、广告、媒体或优惠反应的消费者来改善消费者响应率。这意味着需要通过数据挖掘的手段和技术对每个客户的潜在响应概率进行估计。营销人员将营销预算集中于那些可能响应的受众,而不是全部受众。响应建模是营销人员用较少预算获得更好营销效果的致胜法宝。
推荐引擎是主动发现用户当前或潜在需求的定律,并主动推送信息给用户的信息网络。挖掘用户的喜好和需求,主动向用户推荐其感兴趣或者需要的对象。推荐引擎不是被动查找,而是主动推送;不是独立媒体,而是媒体网络;不是检索机制,而是主动学习。推荐引擎利用基于内容、基于用户行为、基于社交关系网络等多种方法,为用户推荐其喜欢的商品或内容。推荐引擎已经成为大量电商、社交媒体、内容媒体提高用户体验和用户粘性的重要工具。数据挖掘组件内置了多种推荐算法,可以帮助客户搭建自有推荐引擎。
流失预警是CRM(客户关系管理)中主要技术之一,现代CRM理论会将客户与品牌的关系处在一个生命周期中,不同的生命周期阶段需要采取不同的手段来强化客户与品牌的关系。老客户与品牌的联系变弱的末期通常需要一些挽回手段来对老客户进行挽留和激活。这时候就需要流失预警技术来预测哪些老客户处在流失边缘,以便品牌对这部分客户进行挽留和激活。
对于一些与时间关联紧密的变量或外部关联变量过于复杂的情况,可以根据历史时间的变化情况对变量的未来值进行预测,这种技术被称为时间序列分析,例如,股票价格分析、经济指数分析等。
图3是本发明实施例提供的一种执行动态插入算子的装置的示意图。如图3所示,本发明实施例提供的一种执行动态插入算子的装置300包括:接收模块310,所述接收模块310被配置成接收用户的服务请求;调用模块320,所述调用模块320被配置成基于用户的服务请求来调用与服务相对应的算子的微服务框架;通信模块330,所述通信模块330被配置成基于针对调用的响应,建立数据挖掘平台与算子的微服务架构之间的通信以将算子动态地插入到数据挖掘平台中;以及故障隔离模块340,所述故障隔离模块340被配置成当与算子相对应的服务出现故障时,与出现故障的服务相对应的算子的微服务框架与数据挖掘平台隔离开,其中微服务框架独立于数据挖掘平台。
算子的数量可以是一个或多个,并且每个算子对应一个服务。多个算子的微服务框架彼此独立。数据挖掘平台支持多个数据挖掘算法、涵盖分类、聚类以及回归,并且支持包括sklearn、lightGBM、XGBoost以及SparkMLlib的数据挖掘框架。数据挖掘平台包含数据读取、特征工程、超参数调优、模型训练、模型部署以及模型重训练。数据挖掘平台包括用户接口层、平台服务层、计算资源层以及数据层。平台服务层提供平台的基础功能包含资源调度、任务调度和api接口层。算子被分为数据IO、预处理、机器学习模型、样本数据、特征工程和模型评估。数据IO算子用于选择数据源、输入数据库和数据表等。数据预处理算子用于按比例采样、随机拆分数据、分层拆分数据和缺失值填充等。机器学习模型算子用于随机森林二分类、逻辑回归、xgboost二分类和K均值聚类等。样本数据算子用于信贷审批、信用卡欺诈检测和电信客户流失数据等。特征工程算子用于最大最小归一化和标准归一化等。模型评估算子用于分类模型评估指标、聚类模型评估指标和模型预测等。
图4是本发明实施例提供的一种执行动态插入算子的方法的流程图。如图4所示,本发明实施例提供的一种执行动态插入算子的方法包括:接收用户的服务请求(S401);基于用户的服务请求调用与服务相对应的算子的微服务框架或服务网格架构,其中微服务框架或服务网格架构独立于数据挖掘平台,以避免统一的、集中的服务管理机制(S402),其中每个算子对应于一个服务;基于针对调用的响应,建立数据挖掘平台与算子的微服务架构之间的通信以将算子动态地插入到数据挖掘平台中(S403),其中当存在多个算子时,多个算子的微服务框架彼此独立;当与算子相对应的服务出现故障时,与出现故障的服务相对应的算子的微服务框架与数据挖掘平台隔离开(S404)。
算子的数量可以是一个或多个,并且每个算子对应一个服务。多个算子的微服务框架彼此独立。数据挖掘平台支持多个数据挖掘算法、涵盖分类、聚类以及回归,并且支持包括sklearn、lightGBM、XGBoost以及SparkMLlib的数据挖掘框架。数据挖掘平台包含数据读取、特征工程、超参数调优、模型训练、模型部署以及模型重训练。数据挖掘平台包括用户接口层、平台服务层、计算资源层以及数据层。平台服务层提供平台的基础功能包含资源调度、任务调度和api接口层。算子被分为数据IO、预处理、机器学习模型、样本数据、特征工程和模型评估。数据IO算子用于选择数据源、输入数据库和数据表等。数据预处理算子用于按比例采样、随机拆分数据、分层拆分数据和缺失值填充等。机器学习模型算子用于随机森林二分类、逻辑回归、xgboost二分类和K均值聚类等。样本数据算子用于信贷审批、信用卡欺诈检测和电信客户流失数据等。特征工程算子用于最大最小归一化和标准归一化等。模型评估算子用于分类模型评估指标、聚类模型评估指标和模型预测等。
通过模块化方法,微服务架构将算子分解为更小,更独立,更易于管理的部分。当微服务架构隔离算子的功能时,它也会隔离错误。一个微服务中的问题不会关闭整个应用程序,它将包含在该微服务的区域中,而其他微服务的算子继续运行。这不仅可以延长正常运行时间,还可以更轻松地查明问题的根源并解决问题。
通过在聚焦模块中工作,微服务架构提高了算子的整体质量。开发人员专注于小型且定义明确的算子功能,使他们能够创建高质量的代码。这不仅会对代码的可靠性产生积极影响,还可以更轻松地管理代码库中的问题,同时实现算子的可伸缩性和可重用性。
此外,算子开发过程中无需关注语言、工具,可以根据业务上下文及开发人员的喜好选择合适的语言和工具。
本发明实施例还提供了一种执行动态插入算子的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例提供的方法。
本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例提供的方法。
图5示出了可以应用本发明实施例的执行动态插入算子的方法以及装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、即时通信工具和邮箱客户端等。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
需要说明的是,本发明实施例所提供的执行动态插入算子的方法一般由服务器505执行,相应地,执行动态插入算子的装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中,例如,可以描述为:一种执行动态插入算子的装置,其特征在于,包括:接收模块,所述接收模块被配置成接收用户的服务请求;调用模块,所述调用模块被配置成基于所述用户的服务请求来调用与服务相对应的算子的微服务框架;通信模块,所述通信模块被配置成基于针对所述调用的响应,建立数据挖掘平台与算子的微服务架构之间的通信以将所述算子动态地插入到所述数据挖掘平台中;以及故障隔离模块,所述故障隔离模块被配置成当与所述算子相对应的服务出现故障时,与出现故障的服务相对应的算子的微服务框架与所述数据挖掘平台隔离开,其中,微服务框架独立于数据挖掘平台。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:接收用户的服务请求;基于所述用户的服务请求来调用与服务相对应的算子的微服务框架,其中微服务框架独立于数据挖掘平台;基于针对所述调用的响应,建立数据挖掘平台与算子的微服务架构之间的通信以将所述算子动态地插入到所述数据挖掘平台中;以及当与所述算子相对应的服务出现故障时,与出现故障的服务相对应的算子的微服务框架与所述数据挖掘平台隔离开。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (20)

1.一种执行动态插入算子的方法,其特征在于,包括:
接收用户的服务请求;
基于所述用户的服务请求来调用与服务相对应的算子的微服务框架,其中微服务框架独立于数据挖掘平台;
基于针对所述调用的响应,建立数据挖掘平台与算子的微服务架构之间的通信以将所述算子动态地插入到所述数据挖掘平台中;以及
当与所述算子相对应的服务出现故障时,与出现故障的服务相对应的算子的微服务框架与所述数据挖掘平台隔离开。
2.根据权利要求1所述的方法,其特征在于,所述算子的数量是一个或多个,并且每个算子对应一个服务。
3.根据权利要求2所述的方法,其特征在于,所述多个算子的微服务框架彼此独立。
4.根据权利要求1所述的方法,其特征在于,所述数据挖掘平台支持多个数据挖掘算法、涵盖分类、聚类以及回归,并且支持包括sklearn、lightGBM、XGBoost以及SparkMLlib的数据挖掘框架。
5.根据权利要求1所述的方法,其特征在于,所述数据挖掘平台包含数据读取、特征工程、超参数调优、模型训练、模型部署以及模型重训练。
6.根据权利要求1所述的方法,其特征在于,所述数据挖掘平台包括用户接口层、平台服务层、计算资源层以及数据层。
7.根据权利要求1所述的方法,其特征在于,所述平台服务层提供平台的基础功能包含资源调度、任务调度和api接口层。
8.根据权利要求1所述的方法,其特征在于,所述算子被分为数据IO、预处理、机器学习模型、样本数据、特征工程和模型评估。
9.根据权利要求6所述的方法,其特征在于,所述数据IO算子用于选择数据源、输入数据库和数据表;
所述数据预处理算子用于按比例采样、随机拆分数据、分层拆分数据和缺失值填充;
所述机器学习模型算子用于随机森林二分类、逻辑回归、xgboost二分类和K均值聚类;
所述样本数据算子用于信贷审批、信用卡欺诈检测和电信客户流失数据;
所述特征工程算子用于最大最小归一化和标准归一化;以及
所述模型评估算子用于分类模型评估指标、聚类模型评估指标和模型预测。
10.一种执行动态插入算子的装置,其特征在于,包括:
接收模块,所述接收模块被配置成接收用户的服务请求;
调用模块,所述调用模块被配置成基于所述用户的服务请求来调用与服务相对应的算子的微服务框架;
通信模块,所述通信模块被配置成基于针对所述调用的响应,建立数据挖掘平台与算子的微服务架构之间的通信以将所述算子动态地插入到所述数据挖掘平台中;以及
故障隔离模块,所述故障隔离模块被配置成当与所述算子相对应的服务出现故障时,与出现故障的服务相对应的算子的微服务框架与所述数据挖掘平台隔离开,
其中,微服务框架独立于数据挖掘平台。
11.根据权利要求10所述的装置,其特征在于,所述算子的数量是一个或多个,并且每个算子对应一个服务。
12.根据权利要求10所述的装置,其特征在于,所述多个算子的微服务框架彼此独立。
13.根据权利要求10所述的装置,其特征在于,所述数据挖掘平台支持多个数据挖掘算法、涵盖分类、聚类以及回归,并且支持包括sklearn、lightGBM、XGBoost以及SparkMLlib的数据挖掘框架。
14.根据权利要求10所述的装置,其特征在于,所述数据挖掘平台包含数据读取、特征工程、超参数调优、模型训练、模型部署以及模型重训练。
15.根据权利要求10所述的装置,其特征在于,所述数据挖掘平台包括用户接口层、平台服务层、计算资源层以及数据层。
16.根据权利要求10所述的装置,其特征在于,所述平台服务层提供平台的基础功能包含资源调度、任务调度和api接口层。
17.根据权利要求10所述的装置,其特征在于,所述算子被分为数据IO、预处理、机器学习模型、样本数据、特征工程和模型评估。
18.根据权利要求17所述的装置,其特征在于,所述数据IO算子用于选择数据源、输入数据库和数据表;
所述数据预处理算子用于按比例采样、随机拆分数据、分层拆分数据和缺失值填充;
所述机器学习模型算子用于随机森林二分类、逻辑回归、xgboost二分类和K均值聚类;
所述样本数据算子用于信贷审批、信用卡欺诈检测和电信客户流失数据;
所述特征工程算子用于最大最小归一化和标准归一化;以及
所述模型评估算子用于分类模型评估指标、聚类模型评估指标和模型预测。
19.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
20.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。
CN202011037243.4A 2020-09-27 2020-09-27 一种执行动态插入算子的方法以及装置 Pending CN112231115A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011037243.4A CN112231115A (zh) 2020-09-27 2020-09-27 一种执行动态插入算子的方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011037243.4A CN112231115A (zh) 2020-09-27 2020-09-27 一种执行动态插入算子的方法以及装置

Publications (1)

Publication Number Publication Date
CN112231115A true CN112231115A (zh) 2021-01-15

Family

ID=74120264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011037243.4A Pending CN112231115A (zh) 2020-09-27 2020-09-27 一种执行动态插入算子的方法以及装置

Country Status (1)

Country Link
CN (1) CN112231115A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581045A (zh) * 2021-02-25 2021-03-30 上海富友支付服务股份有限公司 一种基于微服务的数据风控系统及其方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346376A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 数据挖掘算法动态插入到数据挖掘平台的方法及系统
CN106656630A (zh) * 2017-01-13 2017-05-10 北京中电普华信息技术有限公司 一种电力营销业务应用系统及其构建方法、平台
CN107786379A (zh) * 2017-11-15 2018-03-09 四川省龙逸凤集网络科技有限公司 一种基于微服务架构的分层云管理平台
CN107864222A (zh) * 2017-12-14 2018-03-30 北京航天测控技术有限公司 一种基于PaaS平台的工业大数据计算架构
CN109582725A (zh) * 2018-12-07 2019-04-05 上海金融期货信息技术有限公司 一种基于微服务架构的智能分析应用系统
CN110111068A (zh) * 2019-04-19 2019-08-09 深圳市麦子智能科技有限公司 基于微服务架构的生产执行系统及方法
CN110209903A (zh) * 2019-06-12 2019-09-06 上海仪电智能科技有限公司 一种基于大数据的工业互联云平台系统
CN110414849A (zh) * 2019-07-31 2019-11-05 广东电网有限责任公司 一种面向用户的综合能源系统智能信息交互平台
CN110532312A (zh) * 2019-08-28 2019-12-03 上海仪电智能科技有限公司 一种基于大数据的工业互联云平台系统
CN110764741A (zh) * 2019-09-25 2020-02-07 西安工程大学 基于微服务的社会综治大数据时空三维联动可视方法
CN111477335A (zh) * 2020-04-01 2020-07-31 江苏省测绘工程院 一种基于微服务架构的疫情时空大数据平台及构建方法
CN111680033A (zh) * 2020-04-30 2020-09-18 广州市城市规划勘测设计研究院 一种高性能gis平台

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346376A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 数据挖掘算法动态插入到数据挖掘平台的方法及系统
CN106656630A (zh) * 2017-01-13 2017-05-10 北京中电普华信息技术有限公司 一种电力营销业务应用系统及其构建方法、平台
CN107786379A (zh) * 2017-11-15 2018-03-09 四川省龙逸凤集网络科技有限公司 一种基于微服务架构的分层云管理平台
CN107864222A (zh) * 2017-12-14 2018-03-30 北京航天测控技术有限公司 一种基于PaaS平台的工业大数据计算架构
CN109582725A (zh) * 2018-12-07 2019-04-05 上海金融期货信息技术有限公司 一种基于微服务架构的智能分析应用系统
CN110111068A (zh) * 2019-04-19 2019-08-09 深圳市麦子智能科技有限公司 基于微服务架构的生产执行系统及方法
CN110209903A (zh) * 2019-06-12 2019-09-06 上海仪电智能科技有限公司 一种基于大数据的工业互联云平台系统
CN110414849A (zh) * 2019-07-31 2019-11-05 广东电网有限责任公司 一种面向用户的综合能源系统智能信息交互平台
CN110532312A (zh) * 2019-08-28 2019-12-03 上海仪电智能科技有限公司 一种基于大数据的工业互联云平台系统
CN110764741A (zh) * 2019-09-25 2020-02-07 西安工程大学 基于微服务的社会综治大数据时空三维联动可视方法
CN111477335A (zh) * 2020-04-01 2020-07-31 江苏省测绘工程院 一种基于微服务架构的疫情时空大数据平台及构建方法
CN111680033A (zh) * 2020-04-30 2020-09-18 广州市城市规划勘测设计研究院 一种高性能gis平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
三更科技公社: "AI平台算子开发思路", pages 1 - 14, Retrieved from the Internet <URL:https://errol.blog.csdn.net/article/details/105618105> *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581045A (zh) * 2021-02-25 2021-03-30 上海富友支付服务股份有限公司 一种基于微服务的数据风控系统及其方法

Similar Documents

Publication Publication Date Title
US10366359B2 (en) Automatic extraction and completion of tasks associated with communications
US20170169438A1 (en) Using a satisfaction-prediction model to facilitate customer-service interactions
WO2013163249A1 (en) Optimizing web and mobile self-serve apps
US20200151651A1 (en) Intelligent opportunity recommendation
CN110321544B (zh) 用于生成信息的方法和装置
US11620656B2 (en) System and method for personalization as a service
US20220327012A1 (en) Software validation framework
CN112860744A (zh) 一种业务流程处理方法和装置
CN115964646A (zh) 用于应用微服务的异构图生成
US20210158406A1 (en) Machine learning-based product and service design generator
CN113297287B (zh) 用户策略自动部署方法、装置及电子设备
US20190392071A1 (en) System and method for generating resilience within an augmented media intelligence ecosystem
JP2023538923A (ja) テキスト分類についての説明を与えるための技術
CN112231115A (zh) 一种执行动态插入算子的方法以及装置
US20210241047A1 (en) Determining rationale for a prediction of a machine learning based model
US20090112704A1 (en) Management tool for efficient allocation of skills and resources
US10289633B1 (en) Integrating compliance and analytic environments through data lake cross currents
US11627193B2 (en) Method and system for tracking application activity data from remote devices and generating a corrective action data structure for the remote devices
US20220300821A1 (en) Hybrid model and architecture search for automated machine learning systems
CN117999563A (zh) 用于机器学习算法的无服务器修改和执行的系统和方法
CN114546425A (zh) 模型部署方法、装置、电子设备及存储介质
CN114357280A (zh) 一种信息推送方法、装置、电子设备及计算机可读介质
US9753917B2 (en) Revising translated documents in a document storage system
CN113656689A (zh) 模型生成方法和网络信息的推送方法
CN113743973A (zh) 分析市场热点趋势的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination