CN116909534B - 算子流的生成方法、算子流的生成装置及存储介质 - Google Patents

算子流的生成方法、算子流的生成装置及存储介质 Download PDF

Info

Publication number
CN116909534B
CN116909534B CN202311178994.1A CN202311178994A CN116909534B CN 116909534 B CN116909534 B CN 116909534B CN 202311178994 A CN202311178994 A CN 202311178994A CN 116909534 B CN116909534 B CN 116909534B
Authority
CN
China
Prior art keywords
operator
flow
demand
recommendation
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311178994.1A
Other languages
English (en)
Other versions
CN116909534A (zh
Inventor
胡碧琪
程峰
赵钦羿
付诗淇
董章京子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhicheng Software Technology Service Co ltd
Shenzhen Smart City Technology Development Group Co ltd
Original Assignee
Shenzhen Zhicheng Software Technology Service Co ltd
Shenzhen Smart City Technology Development Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhicheng Software Technology Service Co ltd, Shenzhen Smart City Technology Development Group Co ltd filed Critical Shenzhen Zhicheng Software Technology Service Co ltd
Priority to CN202311178994.1A priority Critical patent/CN116909534B/zh
Publication of CN116909534A publication Critical patent/CN116909534A/zh
Application granted granted Critical
Publication of CN116909534B publication Critical patent/CN116909534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/36Software reuse

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了算子流的生成方法、算子流的生成装置及存储介质,其中,所述方法包括以下步骤:当推荐算子流及算子流库中其他算子流与数据处理任务的业务规则不匹配时,输出算子流注册界面,并基于所述算子流注册界面接收算子流生成指令;确定所述算子流生成指令对应的需求算子,以及所述需求算子的算子组合;选定所述需求算子,并基于所述算子组合对所述需求算子进行整合,得到目标算子流。本发明通过在数据分析过程中,当推荐的以及库中的其他算子和算子流均不符合业务需求时,基于算子流注册界面提供算子流的自定义生成方法,生成符合业务需求的自定义算子流,进而提高数据分析的效率。

Description

算子流的生成方法、算子流的生成装置及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及算子流的生成方法、算子流的生成装置及存储介质。
背景技术
算子是一种映射,是一个向量空间的元素通过此映射在另一个向量空间中产生的另一个元素,算子可用于数据分析、机器学习以及规则推荐等领域。
在相关的基于算子进行数据分析的方案中,通常是选用算子库和算子流库提供的内置的算子和算子流执行相应的数据分析工作。当前算子流的调用方式通常是在代码中静态定义算子之间的执行流程,以确定的顺序依次调用各个算子。然而,此种方式设定的调用流程通常难以修改及扩展,当算子或算子流不满足数据分析的业务需求时,存在数据分析效率低的缺陷。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种算子流的生成方法、算子流的生成装置及存储介质,解决现有技术中算子流难以扩展和修改,导致数据分析过程的分析效率低的问题。
为实现上述目的,本发明提供一种算子流的生成方法,所述方法包括以下步骤:
当推荐算子流及算子流库中其他算子流与数据处理任务的业务规则不匹配时,输出算子流注册界面,并基于所述算子流注册界面接收算子流生成指令;
确定所述算子流生成指令对应的需求算子,以及所述需求算子的算子组合;
选定所述需求算子,并基于所述算子组合对所述需求算子进行整合,得到目标算子流。
可选地,所述确定所述算子流生成指令对应的需求算子,以及所述需求算子的算子组合的步骤之后,还包括:
当推荐算子及算子库中的其他算子与所述业务规则不匹配时,或者所述推荐算子与所述需求算子不适配时,输出算子注册界面,并基于所述算子注册界面接收算子生成指令;
确定所述算子生成指令对应的算子名称、算子类型、适用对象、算子标签以及实现代码;
根据所述算子名称、所述算子类型、所述适用对象、所述算子标签以及所述实现代码生成自定义算子对应的元数据;
根据所述算子生成指令对应的算子模块以及所述元数据,生成所述自定义算子。
可选地,所述根据所述算子生成指令对应的算子模块以及所述元数据,生成所述自定义算子的步骤之后,还包括:
确定所述需求算子对应的自定义需求参数,或者确定所述自定义需求参数和已有算子对应的需求参数;
根据所述自定义需求参数对所述自定义算子进行调整,或者根据所述自定义需求参数对所述自定义算子进行调整并根据所述需求参数对所述已有算子进行调整;
执行所述确定所述算子流生成指令对应的需求算子,以及所述需求算子的算子组合。
可选地,所述选定所述需求算子,并基于所述算子组合对所述需求算子进行整合,得到目标算子流步骤之后,还包括:
接收到所述目标算子流的调用指令时,确定所述调用指令对应的输出路径,并根据所述输出路径执行所述目标算子流对应的操作结果;或者
接收到所述目标算子流的共享及复用指令时,将所述目标算子流的属性修改为允许复用,以及将所述目标算子流添加至公共组件中;或者
接收到所述目标算子流的优化指令时,获取所述目标算子流运行时的特征数据,并根据所述特征数据生成所述目标算子流的优化日志信息。
可选地,所述输出算子流注册界面,并基于所述算子流注册界面接收算子流生成指令的步骤之前,还包括:
接收到所述数据处理任务或者登录信息时,确定所述数据处理任务对应的处理角色、业务场景以及历史操作记录;
算子流推荐模型根据所述处理角色、所述业务场景以及所述历史操作记录,在算子流推荐界面中输出所述推荐算子流;或者
所述输出算子注册界面,并基于所述算子注册界面接收算子生成指令的步骤之前,还包括:
算子推荐模型根据所述处理角色、所述业务场景以及所述历史操作记录,在算子推荐界面中输出所述推荐算子。
可选地,所述接收到所述数据处理任务或者登录信息时,确定所述数据处理任务对应的处理角色、业务场景以及历史操作记录的步骤之前,还包括:
获取所述算子流推荐模型用于训练的训练角色、训练场景及所述训练角色对应的训练记录;
确定所述训练角色的特征编码,所述训练场景的关键字特征和加权特征以及所述训练记录的频繁模式挖掘特征;
对所述特征编码、所述关键字特征和加权特征以及所述频繁模式挖掘特征进行one-hot编码处理,得到推荐矩阵;
将所述推荐矩阵进行拼接融合,得到目标推荐矩阵,并基于单层神经网络对所述目标推荐矩阵进行训练,得到所述算子流推荐模型。
可选地,所述将所述推荐矩阵进行拼接融合,得到目标推荐矩阵,并基于单层神经网络对所述目标推荐矩阵进行训练,得到所述算子推荐模型的步骤包括:
将所述推荐矩阵进行拼接融合,得到所述目标推荐矩阵,并基于神经网络输入界面获取到的神经网络指令生成所述单层神经网络;
将所述目标推荐矩阵作为所述单层神经网络的输入参数,得到感知器模型;
基于交叉验证方法,根据预设验证数据对不同参数组合下的所述感知器模型进行超参数调优,并将性能评分最高的所述感知器模型作为所述算子推荐模型。
可选地,所述确定所述训练角色的特征编码,所述训练场景的关键字特征和加权特征以及所述训练记录的频繁模式挖掘特征的步骤包括:
根据Softmax分类模型对所述训练角色进行处理,得到所述特征编码;
根据Attention模型对所述训练场景进行处理,得到所述关键字特征和所述加权特征;
根据LSTM模型对所述训练记录进行处理,得到所述频繁模式挖掘特征。
此外,为实现上述目的,本发明还提供一种算子流的生成装置,所述算子流的生成装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的算子流的生成程序,所述算子流的生成程序被所述处理器执行时实现如上所述的算子流的生成方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有算子流的生成程序,所述算子流的生成程序被处理器执行时实现如上所述的算子流的生成方法的步骤。
本发明实施例提供了算子流的生成方法、算子流的生成装置及存储介质,当推荐的算子流及算子流库中的其他算子流与数据处理任务的业务规则不匹配时,输出算子流注册界面,并基于所述算子流注册界面接收算子流生成指令,随后确定所述算子流生成指令对应的需求算子,以及所述需求算子的算子组合,最后选定所述需求算子,并基于所述算子组合对所述需求算子进行整合,得到目标算子流。可以看出,通过输出算子流注册界面,并响应所述注册界面对应的算子流生成指令,基于该指令对需求算子进行组合得到目标算子流,进而使得目标算子流能够快速适配当前的数据处理任务,进而提高数据处理效率以及数据分析效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明算子流的生成方法的第一实施例的流程示意图;
图2是本发明算子流的生成方法的目标算子流的生成示意图;
图3为本发明算子流的生成方法的第二实施例的流程示意图;
图4为本发明算子流的生成方法的第三实施例的流程示意图;
图5为本发明算子流的生成方法的第三实施例的步骤S70之前的流程示意图;
图6是本发明算子流的生成方法的各个实施例的终端硬件结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了更好地理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。
第一实施例
请参照图1,在第一实施例中,本发明算子流的生成方法的步骤包括:
步骤S10,当推荐算子流及算子流库中其他算子流与数据处理任务的业务规则不匹配时,输出算子流注册界面,并基于所述算子流注册界面接收算子流生成指令;
数据分析人员需要进行某项数据的处理时,需要在算子库和算子流库中选择相应的算子和算子流。而由于算子流难以修改及扩展,若选择到的算子和算子流不符合需求时,会使得数据分析过程的效率低下。而在本实施例中,数据分析人员进入到算子流管理系统时,该管理系统的算子流推荐模型能够基于数据分析人员的角色信息,在算子流推荐界面中输出相应的算子流,其中,角色信息包括当前数据处理任务对应的处理角色、所需要的业务场景以及处理角色的历史操作记录。若推荐算子流不符合当前的数据处理任务的业务需求,数据分析人员可以在算子流库中查看所有算子流或者除推荐算子流外的其他算子流,当查看的算子流中都不存在符合业务需求的算子流时,则需要新建算子流。
示例性的,在新建算子流时,数据分析人员可以在算子流推荐界面中输入算子流不符合当前数据处理任务的业务规则的判断指令,并在选定需要的算子以及算子间的流程顺序后输入算子流生成指令。算子流管理系统接收到该指令后判定所述推荐算子流与数据处理任务的业务规则不适配,随后输出算子流注册界面,并响应数据分析人员在所述算子流注册界面输入的算子流生成指令。基于此,使得当前的算子流管理系统能够响应数据分析人员的操作信息,并提供算子流的注册功能。
可选地,在该步骤之后,算子流管理系统除了在算子流推荐界面中推荐算子流外,还能够在算子推荐界面中输出相应的算子。同理,若推荐算子不符合当前的数据处理任务的业务需求,数据分析人员可以在算子库中查看所有算子或除推荐算子外的其他算子,若查看的算子中都不存在符合业务需求的算子时,则需要新建算子。
示例性的,在新建算子时,数据分析人员可以在算子推荐界面中输入算子不符合当前数据处理任务的业务规则的另一判断指令,以及输入包含新建算子的元数据的算子生成指令,算子流管理系统接收到该指令后判定所述推荐算子与数据处理任务的业务规则不适配,随后输出算子流册界面,并响应数据分析人员在所述算子注册界面输入的算子生成指令。需要说明的是,在得到算子生成指令后,需要确定所述算子生成指令对应的元数据,元数据可以包括算子名称、算子类型(数据读取、空间分析、特征工程等)、适用数据类型(表格数据、二维空间数据、BIM(Building Information Modeling建筑信息模型)数据等)、算子标签、算子功能描述、实现代码或对象等信息等。
可选地,当推荐算子与所述需求算子不适配时,同样可以输出算子注册界面,并基于所述算子注册界面接收所述算子生成指令。
也即在得到算子生成指令后,可以确定所述算子生成指令对应的算子名称、算子类型、适用对象、算子标签以及实现代码,并根据所述算子名称、所述算子类型、所述适用对象、所述算子标签以及所述实现代码生成自定义算子对应的元数据。在得到元数据后,可以根据算子生成指令对应的算子模块以及所述元数据编写相应的代码以实现算子对应的功能,在代码中使用元数据来指导输入输出和参数的处理,进而生成所述自定义算子。
步骤S20,确定所述算子流生成指令对应的需求算子,以及所述需求算子的算子组合;
在本实施例中,当得到算子流生成指令后,若需要生成该算子流,则需要确定该生成指令对应的需求算子以及需求算子的算子组合信息,进而能够根据算子组合对需求算子进行整合,得到目标算子流。而在该过程中,需求算子可以包括算子库中的已有算子,或者新的自定义的算子,而不论是已有算子还是自定义算子,其对应的自定义参数或需求参数是符合当前应用场景的,因此,需要算子流管理系统基于算子生成指令生成新的算子或对已有算子的参数进行调整后,再执行该步骤。其中,需求算子指的是组成该算子流所需要的算子。
具体地,所述需求算子可以包括算子库中的已有算子以及新注册的自定义算子。因而在自定义算子生成后,若需求算子中对应的所有算子均为自定义算子时,则需要确定所述需求算子对应的自定义需求参数,以便算子流管理系统能够根据该自定义需求参数对自定义算子的数据进行调整。而在需求算子中对应的算子的其中一部分为自定义算子,剩下部分为算子库的已有算子,则可以确定相应的自定义算子的自定义需求参数以及已有算子的需求参数。若需求算子均为算子库中的已有算子,则根据需求参数对已有算子进行调整。在算子的参数调整完成后,可以选定算子流生成指令对应的所述需求算子。
需要说明的是,自定义需求参数用于确定自定义算子的参数;在选定算子时,若需要在已有算子的基础上进行参数的改进,则需要根据需求参数对算子库中的已有算子进行调整。
示例性的,当前算子流生成指令需要生成的算子流为“A市新建住宅建筑密度超过30%的比例”,其对应的需求算子可以包括“输入shp图层、输入txt文件、相交分析、基于属性提取数据、shp图层、输入txt文件”等,其中,“基于属性提取数据”的参数信息为算子在选定之后定义的,例如“选定基于属性提取数据算子后,将其对应的参数设置为符合当前应用场景的‘年份=20xx年&建筑密度≥30%&用地类型=居住用地’,此时该算子就相当于一个具有业务特性的‘新建住宅密度超30%的算子’”。
可选地,算子流生成指令也可以是对当前算子流库中的已有算子流进行修改,进而生成的算子流,修改的方式包括但不限于增加、删除以及修改已有算子流中的算子。
步骤S30,选定所述需求算子,并基于所述算子组合对所述需求算子进行整合,得到目标算子流。
在本实施例中,算子组合指的是各个算子之间通过一定的组合及调用顺序,进而形成算子流的一种组合方式,通过这种方式可以新建形成一个新的算子流。例如需求算子包括“输入shp图层、输入txt文件、基于属性提取数据以及shp图层”等,此时对应的算子组合可以包括:“1.输入shp图层,2.基于属性提取数据,3.输出数据到txt文件,4.输入txt文件,5.基于属性提取数据,6.输出数据到shp图层”的一种组合方式,也可以得到“1.输入shp图层,2.基于属性提取数据,3.输出数据到txt文件,4.输入txt文件,5.输出shp图层”等组合顺序。需要说明的是,算子组合是由数据分析人员根据实际应用场景自由选定并作为算子流生成指令的其中一个属性发送至算子流管理系统。
可选地,算子组合还可以对已有算子流中的内部参数进行调整,例如调整“基于属性提取数据”算子,将其对应的参数修改为符合当前应用场景的“年份=20xx年&建筑密度≥30%&用地类型=工业用地”,即可快速等到A市新建工业用地密度超过30%的比例。基于此,通过这种方式可以新建形成一个具有业务特性的算子,以及形成新的算子流。
示例性的,需要生成的算子流为“A区新建住宅建筑密度超过30%的比例”的算子流,而算子流生成指令对应的算子组合可以如图2所示,其中选定的需求算子为“输入新增住宅项目shp图层,输入市辖区建成区范围图层.shp、输入评价标准的txt文件、相交分析算子、基于属性提取数据算子、输出居住用的shp图层、公式计算与比较以及输出评价计算结果的txt文件”,而公式计算与比较的算子为自定义算子。请继续参照图2,在将算子“输入新增住宅项目图层.shp和输入市辖区建成区范围图层.shp”作为“相交分析”算子的输入参数进行对应的分析处理,随后基于算子“基于属性提取数据中对应的‘提取2022年建筑密度超过30%的居住用地信息’”,对“相交分析”处理后的图层数据进行数据筛选,得到“输出2022年建筑密度30%的居住用地图层.shp”。与此同时,在提取到相应数据后,通过“输入评价标准.txt”的算子以及自定义算子“公式计算与比较中的‘当年市辖区建成区内新建住宅建筑密度超过30%的居住用地面积占全部新开发居住用地面积的百分比,是否少于10%’”,最后得到“输出评价计算结果.txt”的算子。基于此,通过将各个算子进行组合,可以得到当前用于判断“A区新建住宅建筑密度超过30%的比例”的算子流,进而在将该算子流应用到实际场景时,能够提高对某个地区建筑密度数据进行分析和评价时的数据处理效率。
在本实施例公开的技术方案中,在进行一项数据处理任务时,在推荐的算子流和算子、算子流库中的其他算子流以及算子库中的其他算子,均与数据处理任务的业务规则不适配时,则通过算子流注册界面接收相应的算子流生成指令,随后选定算子流生成指令对应的需求算子以及算子组合,根据该算子组合以及需求算子组成新的,自定义的目标算子流,进而使得目标算子流能够应用到数据处理任务当中,避免直接使用不满足业务规则的算子流而导致数据处理及数据分析的效率低下,基于此,提高了数据分析过程的分析效率。
第二实施例
请参照图3,基于第一实施例,步骤S30之后还包括:
步骤S40,接收到所述目标算子流的调用指令时,确定所述调用指令对应的输出路径,并根据所述输出路径执行所述目标算子流对应的操作结果;
在本实施例中,当算子流组装完成后,数据分析人员通过选择输入数据,输出路径,即可调用算子流。其中,算子流的调用根据选择的算子以及其在流中的顺序,执行每个算子实现的操作并输出结果,最终产出模型结果。也即当算子流管理系统接收到所述调用指令时,基于该调用指令确定相应的输入数据以及输出路径,进而根据输入路径和输入数据执行算子流中算子的处理结果。基于此,保障算子流调用时的稳定性。
步骤S50,接收到所述目标算子流的共享及复用指令时,将所述目标算子流的属性修改为允许复用,以及将所述目标算子流添加至公共组件中;
在本实施例中,算子以及算子流能够作为共享的公共组件,不同的算子流可以复用已经注册的算子,也可以直接使用共享后的算子流,进而省去重复定义相同算子、算子流的工作。因此,在算子流管理系统接收到所述目标算子流的共享及复用指令后,可以直接修改算子流的属性,并将其添加进公共组件中。
可选地,在生成自定义算子后,若接收到所述自定义算子的共享及复用指令,同样可以修改自定义算子的共享属性,并将其添加进公共组件当中。
步骤S60,接收到所述目标算子流的优化指令时,获取所述目标算子流运行时的特征数据,并根据所述特征数据生成所述目标算子流的优化日志信息。
在本实施例中,可以通过机器学习算法如决策树以及神经网络等对算子流进行分类和预测,例如预测算子流的执行时间、预测算子流的内存占用等,使得数据分析人员能够基于算子流的分类和预测结果选定需要优化的目标算子流,以便算子流管理系统对目标算子流的特征数据进行优化处理。与此同时,算子流管理系统能够该特征数据对每个算子流的使用情况、运行状态、中间输出结果等进行监控和记录,并基于监控和记录的数据生成用于问题诊断优化日志信息。
可选地,还可在接收到自定义算子的优化指令时,对所述自定义算子做相同的优化处理。
在本实施例公开的技术方案中,通过对算子流进行调用、将其状态属性修改为复用并允许共享,随后对目标算子流进行优化处理等,实现算子流调用、算子运行监控、算子流的模型结果下载等功能,进而大幅提高数据分析过程的用户体验和开发效率,降低了开发的门槛,促进算法复用和产品持续迭代升级。
第三实施例
请参照图4,基于第一实施例,步骤S10之前,或者推荐算子与所述需求算子不适配时,输出算子注册界面,并基于所述算子注册界面接收算子生成指令的步骤之前,还包括:
步骤S70,接收到所述数据处理任务或者登录信息时,确定所述数据处理任务对应的处理角色、业务场景以及历史操作记录;
在本实施例中,除了数据分析人员在进入算子流管理系统也即接收到数据分析人员的登录信息时,算子流管理系统能够根据当前的角色信息推荐算子流外,还能够在接收到数据处理任务时,基于数据处理任务的角色信息输出相应的推荐算子流。可以理解的是,角色信息包括当前数据处理任务对应的处理角色、所需要的业务场景,以及处理角色的历史操作记录。
步骤S80,算子流推荐模型根据所述处理角色、所述业务场景以及所述历史操作记录,在算子流推荐界面中输出所述推荐算子流;
步骤S90,算子推荐模型根据所述处理角色、所述业务场景以及所述历史操作记录,在算子推荐界面中输出所述推荐算子。
在本实施例中,得到当前数据处理任务对应的角色信息后,需要将该角色信息作为训练好的算子流推荐模型以及算子推荐模型的输入参数,进而得到相应的推荐算子流以及推荐算子。而通过算子流推荐模型或算子推荐模型能够根据角色信息输出相应的算子流和算子,可以提高算子以及算子流的利用率,避免数据分析人员重复查找。需要说明的是,推荐的算子以及算子流都是算子库和算子流库中的已有算子和已有算子流。
可选地,算子流推荐模型以及算子推荐模型在投入使用之前,还需要进行完成的训练,因此,请参照图5,在步骤S70之前,算子流推荐模型的训练过程可以如图5所示:
步骤S100,获取所述算子流推荐模型用于训练的训练角色、训练场景及所述训练角色对应的训练记录;
在本实施例中,算子流需要收集用户的角色、业务场景描述、历史操作记录等信息作为训练数据。也即所述训练角色为用户的角色,训练场景为业务场景描述,训练记录则为历史操作记录。
可选地,在收集好上述记录后,可以按照7:1.5:1.5比例将收集到的数据划分为训练集、验证集和测试集。
步骤S110,确定所述训练角色的特征编码,所述训练场景的关键字特征和加权特征以及所述训练记录的频繁模式挖掘特征;
在本实施例中,通过对收集到的信息进行特征提取和构造,得到能代表用户行为和关注点的特征向量。示例性的,用户角色对应的特征编码为特征one-hot编码,而训练场景的关键字特征为Keyword提取及TF-IDF特征,训练记录对应的特征为频繁模式挖掘特征。
在得到特征编码后,可以通过不同分类模型对特征编码进行分类学习。可选地,由于Softmax模型可以清晰地给出分类结果和匹配度,具有较高的可解释性,并且易于操作和扩展,这些都是其区分用户角色的重要优势,是角色分类和判断的理想选择,因此可以选用Softmax模型对训练角色进行处理,也即根据Softmax分类模型对所述训练角色进行处理,得到所述特征编码。
可选地,LSTM模型专门用于处理时序数据,可以选择不同的历史窗口,加入丰富的历史信息可以明显提高推荐效率,这使得LSTM非常适合捕捉用户长期的历史习惯,因此可以根据LSTM模型对所述训练记录进行处理,得到所述频繁模式挖掘特征。
可选地,Attention机制可以根据当前交互选择最相关的历史信息,提供动态的时序权重学习,这使其可以产生更加贴近当前兴趣的推荐结果。同时,其性能还高于LSTM,更适合较长的历史序列,因此,可以根据Attention模型对所述训练场景进行处理,得到所述关键字特征和所述加权特征。
步骤S120,对所述特征编码、所述关键字特征和加权特征以及所述频繁模式挖掘特征进行one-hot编码处理,得到推荐矩阵;
在本实施例中,可以对每个模型的处理结果进行one-hot编码,形成推荐矩阵,比如softmax模型对应的推荐矩阵为A,LSTM模型对应的推荐矩阵为B,Attention模型对应的推荐矩阵为C。
示例性的,A=[a1,a2,...an]为Softmax的推荐矩阵,B=[b1,b2,...bn]为LSTM的推荐矩阵,C=[c1,c2,...cn]为Attention的推荐矩阵,其中,每个矩阵的维度为n*m,n是推荐列表长度,m是全部推荐项的个数。
步骤S130,将所述推荐矩阵进行拼接融合,得到目标推荐矩阵,并基于单层神经网络对所述目标推荐矩阵进行训练,得到所述算子流推荐模型。
在本实施例中,由于Softmax用于初步判断用户类别,LSTM用于根据长期历史学习个性化偏好,Attention则用于根据当前兴趣实时优化推荐结果,三个模型能够相互补充,因而可以通过算法对三个模型的输出结果进行融合,进而使得模型能够提供全面而贴近的推荐内容。
于堆叠法可以灵活融合不同类型的模型,并根据各模型的预测性能自适应地学习其权重,同时利用各模型的预测结果作为新的特征进行二次学习,这使其可以最大限度地发挥各基模型的优势,获得最优的预测效果。
具体地,在将所述推荐矩阵进行拼接融合,得到所述目标推荐矩阵,并基于神经网络输入界面获取到的神经网络指令生成所述单层神经网络后,可以将所述目标推荐矩阵作为所述单层神经网络的输入参数,得到感知器模型,并基于交叉验证方法,根据预设验证数据对不同参数组合下的所述感知器模型进行超参数调优,并将性能评分最高的所述感知器模型作为所述算子推荐模型。
示例性的,基于堆叠法(Stacking)将上述模型的输出每个模型结果进行整合。在得到ABC三个矩阵后,能够将ABC三个矩阵拼接在一起,形成最终的推荐特征矩阵X,其中X包含了三个模型的推荐信息。也即X=[A,B,C],X的维度为n*(3m)。而在得到目标推荐矩阵后,可以定义一个单层神经网络,将矩阵X作为输入参数,得到推荐列表O,O=f(WX+b),其中,W是权重矩阵,b是偏置,f是激活函数,激活函数可以选用Softmax。随后基于交叉验证方法,利用验证集比较所有参数组合下的模型性能指标,并进行超参数调优,选择模型性能最优的方案,选中最优方案后,使用测试集测试最终模型的性能,评估指标是准确率、召回率、F1分数等。最后将模型部署到生产环境,为用户推荐相关的算子和算子流,也即得到所述算子流推荐模型。
在本实施例公开的技术方案中,通过对收集到的数据进行划分,并基于不同的数据处理模型分别对用户角色、业务场景以及历史操作记录等进行处理,并将处理后的推荐矩阵进行融合处理,进而能够最大限度地发挥各模型的优势,获得最优的预测效果,提高算子流推荐模型在投入使用后,推荐的算子流的准确性。
参照图6,图6为本发明实施例方案涉及的硬件运行环境的终端结构示意图。
如图6所示,该终端可以包括:处理器1001,例如中央处理器(Central ProcessingUnit,CPU),通信总线1002、网络接口1003,存储器1004。其中,通信总线1002用于实现这些组件之间的连接通信。网络接口1003可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1004可以是高速的RAM存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图6中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图6所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、数据存储模块、网络通信模块以及控制程序。
在图6所示的终端中,网络接口1003主要用于连接后台服务器,与后台服务器进行数据通信;处理器1001可以调用存储器1004中存储的算子流的生成程序,并执行以下操作:
当推荐算子流及算子流库中其他算子流与数据处理任务的业务规则不匹配时,输出算子流注册界面,并基于所述算子流注册界面接收算子流生成指令;
确定所述算子流生成指令对应的需求算子,以及所述需求算子的算子组合;
选定所述需求算子,并基于所述算子组合对所述需求算子进行整合,得到目标算子流。
进一步地,处理器1001可以调用存储器1004中存储的算子流的生成程序,还执行以下操作:
当推荐算子及算子库中的其他算子与所述业务规则不匹配时,或者所述推荐算子与所述需求算子不适配时,输出算子注册界面,并基于所述算子注册界面接收算子生成指令;
确定所述算子生成指令对应的算子名称、算子类型、适用对象、算子标签以及实现代码;
根据所述算子名称、所述算子类型、所述适用对象、所述算子标签以及所述实现代码生成自定义算子对应的元数据;
根据所述算子生成指令对应的算子模块以及所述元数据,生成所述自定义算子。
进一步地,处理器1001可以调用存储器1004中存储的算子流的生成程序,还执行以下操作:
确定所述需求算子对应的自定义需求参数,或者确定所述自定义需求参数和已有算子对应的需求参数;
根据所述自定义需求参数对所述自定义算子进行调整,或者根据所述自定义需求参数对所述自定义算子进行调整并根据所述需求参数对所述已有算子进行调整;
执行所述确定所述算子流生成指令对应的需求算子,以及所述需求算子的算子组合。
进一步地,处理器1001可以调用存储器1004中存储的算子流的生成程序,还执行以下操作:
接收到所述目标算子流的调用指令时,确定所述调用指令对应的输出路径,并根据所述输出路径执行所述目标算子流对应的操作结果;或者
接收到所述目标算子流的共享及复用指令时,将所述目标算子流的属性修改为允许复用,以及将所述目标算子流添加至公共组件中;或者
接收到所述目标算子流的优化指令时,获取所述目标算子流运行时的特征数据,并根据所述特征数据生成所述目标算子流的优化日志信息。
进一步地,处理器1001可以调用存储器1004中存储的算子流的生成程序,还执行以下操作:
接收到所述数据处理任务或者登录信息时,确定所述数据处理任务对应的处理角色、业务场景以及历史操作记录;
算子流推荐模型根据所述处理角色、所述业务场景以及所述历史操作记录,在算子流推荐界面中输出所述推荐算子流;或者
所述输出算子注册界面,并基于所述算子注册界面接收算子生成指令的步骤之前,还包括:
算子推荐模型根据所述处理角色、所述业务场景以及所述历史操作记录,在算子推荐界面中输出所述推荐算子。
进一步地,处理器1001可以调用存储器1004中存储的算子流的生成程序,还执行以下操作:
获取所述算子流推荐模型用于训练的训练角色、训练场景及所述训练角色对应的训练记录;
确定所述训练角色的特征编码,所述训练场景的关键字特征和加权特征以及所述训练记录的频繁模式挖掘特征;
对所述特征编码、所述关键字特征和加权特征以及所述频繁模式挖掘特征进行one-hot编码处理,得到推荐矩阵;
将所述推荐矩阵进行拼接融合,得到目标推荐矩阵,并基于单层神经网络对所述目标推荐矩阵进行训练,得到所述算子流推荐模型。
进一步地,处理器1001可以调用存储器1004中存储的算子流的生成程序,还执行以下操作:
将所述推荐矩阵进行拼接融合,得到所述目标推荐矩阵,并基于神经网络输入界面获取到的神经网络指令生成所述单层神经网络;
将所述目标推荐矩阵作为所述单层神经网络的输入参数,得到感知器模型;
基于交叉验证方法,根据预设验证数据对不同参数组合下的所述感知器模型进行超参数调优,并将性能评分最高的所述感知器模型作为所述算子推荐模型。
进一步地,处理器1001可以调用存储器1004中存储的算子流的生成程序,还执行以下操作:
根据Softmax分类模型对所述训练角色进行处理,得到所述特征编码;
根据Attention模型对所述训练场景进行处理,得到所述关键字特征和所述加权特征;
根据LSTM模型对所述训练记录进行处理,得到所述频繁模式挖掘特征。
此外,本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可以存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被控制终端中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有算子流的生成程序,所述算子流的生成程序被处理器执行时实现如上实施例所述的算子流的生成方法的各个步骤。
需要说明的是,由于本申请实施例提供的存储介质,为实施本申请实施例的方法所采用的存储介质,故而基于本申请实施例所介绍的方法,本领域所属人员能够了解该存储介质的具体结构及变形,故而在此不再赘述。凡是本申请实施例的方法所采用的存储介质都属于本申请所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框,以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二,以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所做的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种算子流的生成方法,其特征在于,所述算子流的生成方法包括:
获取算子流推荐模型用于训练的训练角色、训练场景及所述训练角色对应的训练记录;
根据Softmax分类模型对所述训练角色进行处理,得到特征编码;
根据Attention模型对所述训练场景进行处理,得到关键字特征和加权特征;
根据LSTM模型对所述训练记录进行处理,得到频繁模式挖掘特征;
对所述特征编码、所述关键字特征和加权特征以及所述频繁模式挖掘特征进行one-hot编码处理,得到推荐矩阵;
将所述推荐矩阵进行拼接融合,得到目标推荐矩阵,并基于神经网络输入界面获取到的神经网络指令生成单层神经网络;
将所述目标推荐矩阵作为所述单层神经网络的输入参数,得到感知器模型;
基于交叉验证方法,根据预设验证数据对不同参数组合下的所述感知器模型进行超参数调优,并将性能评分最高的所述感知器模型作为所述算子流推荐模型,提高所述算子流推荐模型在投入使用后,推荐的算子流的准确性;
接收到数据处理任务或者登录信息时,确定所述数据处理任务对应的处理角色、业务场景以及历史操作记录;
所述算子流推荐模型根据所述处理角色、所述业务场景以及所述历史操作记录,在算子流推荐界面中输出推荐算子流;或者算子推荐模型根据所述处理角色、所述业务场景以及所述历史操作记录,在算子推荐界面中输出推荐算子;
当所述推荐算子流及算子流库中其他算子流与数据处理任务的业务规则不匹配时,输出算子流注册界面,并基于所述算子流注册界面接收算子流生成指令;
确定所述算子流生成指令对应的需求算子,以及所述需求算子的算子组合;
选定所述需求算子,并基于所述算子组合对所述需求算子进行整合,得到目标算子流。
2.如权利要求1所述的算子流的生成方法,其特征在于,所述确定所述算子流生成指令对应的需求算子,以及所述需求算子的算子组合的步骤之后,还包括:
当所述推荐算子及算子库中的其他算子与所述业务规则不匹配时,或者所述推荐算子与所述需求算子不适配时,输出算子注册界面,并基于所述算子注册界面接收算子生成指令;
确定所述算子生成指令对应的算子名称、算子类型、适用对象、算子标签以及实现代码;
根据所述算子名称、所述算子类型、所述适用对象、所述算子标签以及所述实现代码生成自定义算子对应的元数据;
根据所述算子生成指令对应的算子模块以及所述元数据,生成所述自定义算子。
3.如权利要求2所述的算子流的生成方法,其特征在于,所述根据所述算子生成指令对应的算子模块以及所述元数据,生成所述自定义算子的步骤之后,还包括:
确定所述需求算子对应的自定义需求参数,或者确定所述自定义需求参数和已有算子对应的需求参数;
根据所述自定义需求参数对所述自定义算子进行调整,或者根据所述自定义需求参数对所述自定义算子进行调整并根据所述需求参数对所述已有算子进行调整;
执行所述确定所述算子流生成指令对应的需求算子,以及所述需求算子的算子组合。
4.如权利要求1所述的算子流的生成方法,其特征在于,所述选定所述需求算子,并基于所述算子组合对所述需求算子进行整合,得到目标算子流步骤之后,还包括:
接收到所述目标算子流的调用指令时,确定所述调用指令对应的输出路径,并根据所述输出路径执行所述目标算子流对应的操作结果;或者
接收到所述目标算子流的共享及复用指令时,将所述目标算子流的属性修改为允许复用,以及将所述目标算子流添加至公共组件中;或者
接收到所述目标算子流的优化指令时,获取所述目标算子流运行时的特征数据,并根据所述特征数据生成所述目标算子流的优化日志信息。
5.一种算子流的生成装置,其特征在于,所述算子流的生成装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的算子流的生成程序,所述算子流的生成程序被所述处理器执行时实现如权利要求1至4中任一项所述的算子流的生成方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有算子流的生成程序,所述算子流的生成程序被处理器执行时实现如权利要求1至4中任一项所述的算子流的生成方法的步骤。
CN202311178994.1A 2023-09-13 2023-09-13 算子流的生成方法、算子流的生成装置及存储介质 Active CN116909534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311178994.1A CN116909534B (zh) 2023-09-13 2023-09-13 算子流的生成方法、算子流的生成装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311178994.1A CN116909534B (zh) 2023-09-13 2023-09-13 算子流的生成方法、算子流的生成装置及存储介质

Publications (2)

Publication Number Publication Date
CN116909534A CN116909534A (zh) 2023-10-20
CN116909534B true CN116909534B (zh) 2023-12-05

Family

ID=88358792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311178994.1A Active CN116909534B (zh) 2023-09-13 2023-09-13 算子流的生成方法、算子流的生成装置及存储介质

Country Status (1)

Country Link
CN (1) CN116909534B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556212A (zh) * 2023-11-29 2024-02-13 金网络(北京)数字科技有限公司 一种流式大数据的分析方法、装置、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851428A (zh) * 2019-11-19 2020-02-28 厦门市美亚柏科信息股份有限公司 基于规则算子动态编排的数据库分析方法、装置及介质
CN114547428A (zh) * 2022-03-07 2022-05-27 北京达佳互联信息技术有限公司 推荐模型处理方法、装置、电子设备及存储介质
CN115203557A (zh) * 2022-07-15 2022-10-18 腾讯科技(深圳)有限公司 内容推荐模型的生成方法、装置、设备、存储介质及产品
CN115860143A (zh) * 2022-12-28 2023-03-28 浙江大华技术股份有限公司 算子模型生成方法、装置和设备
CN115905705A (zh) * 2022-12-18 2023-04-04 重庆忽米网络科技有限公司 基于工业大数据的工业算法模型推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11481620B2 (en) * 2019-07-29 2022-10-25 International Business Machines Corporation Intelligent retraining of deep learning models utilizing hyperparameter sets

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851428A (zh) * 2019-11-19 2020-02-28 厦门市美亚柏科信息股份有限公司 基于规则算子动态编排的数据库分析方法、装置及介质
CN114547428A (zh) * 2022-03-07 2022-05-27 北京达佳互联信息技术有限公司 推荐模型处理方法、装置、电子设备及存储介质
CN115203557A (zh) * 2022-07-15 2022-10-18 腾讯科技(深圳)有限公司 内容推荐模型的生成方法、装置、设备、存储介质及产品
CN115905705A (zh) * 2022-12-18 2023-04-04 重庆忽米网络科技有限公司 基于工业大数据的工业算法模型推荐方法
CN115860143A (zh) * 2022-12-28 2023-03-28 浙江大华技术股份有限公司 算子模型生成方法、装置和设备

Also Published As

Publication number Publication date
CN116909534A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN109791642B (zh) 工作流的自动生成
CN109948641B (zh) 异常群体识别方法及装置
CN111444952A (zh) 样本识别模型的生成方法、装置、计算机设备和存储介质
WO2022105129A1 (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN111294819B (zh) 一种网络优化方法及装置
CN116909534B (zh) 算子流的生成方法、算子流的生成装置及存储介质
CN111143178B (zh) 用户行为分析方法、装置及设备
CN112231592B (zh) 基于图的网络社团发现方法、装置、设备以及存储介质
CN110825968A (zh) 信息推送方法、装置、存储介质和计算机设备
KR102359090B1 (ko) 실시간 기업정보시스템 이상행위 탐지 서비스를 제공하는 방법과 시스템
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
CN111367633A (zh) 问答系统中的模型服务治理方法、装置和计算机设备
CN112347361A (zh) 推荐对象的方法、神经网络及其训练方法、设备和介质
CN115860836A (zh) 一种基于用户行为大数据分析的电商服务推送方法及系统
CN116805039B (zh) 特征筛选方法、装置、计算机设备和数据扰动方法
KR101798377B1 (ko) 개인정보의 비식별화 방법 및 장치
CN115982646B (zh) 一种基于云平台的多源测试数据的管理方法及系统
KR102296420B1 (ko) 개인정보보호 정책서 분석 기반 개인정보 수집/활용자의 신뢰도 평가 방법 및 장치
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN111737319B (zh) 用户集群的预测方法、装置、计算机设备和存储介质
CN111177526A (zh) 网络意见领袖识别方法及装置
CN115017362A (zh) 数据处理方法、电子设备及存储介质
CN113191527A (zh) 一种基于预测模型进行人口预测的预测方法及装置
CN111414538A (zh) 基于人工智能的文本推荐方法、装置及电子设备
CN117786234B (zh) 一种基于两阶段对比学习的多模态资源推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant