CN114968246B - 数据分析组件生成方法、设备及计算机可读存储介质 - Google Patents
数据分析组件生成方法、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114968246B CN114968246B CN202210914301.XA CN202210914301A CN114968246B CN 114968246 B CN114968246 B CN 114968246B CN 202210914301 A CN202210914301 A CN 202210914301A CN 114968246 B CN114968246 B CN 114968246B
- Authority
- CN
- China
- Prior art keywords
- data analysis
- data
- analysis component
- analysis
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/38—Creation or generation of source code for implementing user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44505—Configuring for program initiating, e.g. using registry, configuration files
- G06F9/4451—User profiles; Roaming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据分析组件生成方法、设备及计算机可读存储介质,涉及数据分析技术领域,所述数据分析组件生成方法包括:输出各预设分析算法的功能提示信息,其中,所述功能提示信息包括各所述预设分析算法的分析功能以及各所述预设分析算法的参数配置标准;根据用户基于所述功能提示信息进行的选择操作确定目标分析算法,根据用户基于所述目标分析算法的参数配置标准的配置操作得到参数配置信息;基于所述目标分析算法和所述参数配置信息生成目标数据分析组件。本发明可满足大量不同分析场景的分析结论的制作。同时,也降低了数据分析中分析算法的使用门槛,使得非专业人员也可使用分析算法对数据进行分析。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种数据分析组件生成方法、设备及计算机可读存储介质。
背景技术
随着数据可视化的持续发展和用户要求的提高,传统数据指标的可视化方案已经不能满足数据呈现的需求。用户需要在可视化基础上进行自动分析、呈现分析结论。实现上述分析需求,目前的做法是,在现有的可视化产品基础上做定制开发,以支持在现有的可视化内容基础上,根据指标数据自动生成分析结论或者报告。分析结论的内容的形式通常是主副标题+可视化数据+分析结论。其中大部分的主副标题和所有的分析结论都需要基于数据分析产品生成。数据分析产品自身提供了外部集成接口,实现在结论生成过程中使用外部的接口动态生成结论的内容。但是针对不同用户或者不同数据时,则需要开发对应的分析接口,开发成本比较高。若人工根据每个分析场景进行分析,思考得到结论并完成内容的编写的整个过程耗时长,难以满足大批量的报告制作。若针对每个分析场景开发对应的自动分析工具,同样也存在工作成本比较高难以大规模应用的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种数据分析组件生成方法、设备及计算机可读存储介质,旨在解决数据自动分析难以大规模应用的技术问题。
为实现上述目的,本发明提供一种数据分析组件生成方法,所述数据分析组件生成方法包括以下步骤:
输出各预设分析算法的功能提示信息,其中,所述功能提示信息包括各所述预设分析算法的分析功能以及各所述预设分析算法的参数配置标准;
根据用户基于所述功能提示信息进行的选择操作确定目标分析算法,根据用户基于所述目标分析算法的参数配置标准的配置操作得到参数配置信息;
基于所述目标分析算法和所述参数配置信息生成目标数据分析组件。
进一步的,在所述基于所述目标分析算法和所述参数配置信息生成目标数据分析组件的步骤之前,所述方法包括:
基于所述目标分析算法和所述参数配置信息生成并输出数据分析结果预览画面;
当接收到根据用户基于所述数据分析结果预览画面的确认操作生成的结果确认指令后,执行所述基于所述目标分析算法和所述参数配置信息生成目标数据分析组件的步骤。
进一步的,在所述输出各预设分析算法的功能提示信息的步骤之前,所述方法还包括:
接收待分析数据,基于与所述待分析数据对应的目标业务指标从历史分析记录中匹配数据分析组件生成相关数据分析组件;
基于所述相关数据分析组件生成数据分析组件推荐列表;
输出数据分析组件推荐列表,以使用户基于所述数据分析组件推荐列表进行所述目标数据分析组件的选择。
进一步的,所述基于所述相关数据分析组件生成数据分析组件推荐列表的步骤包括:
获取所述相关数据分析组件的历史使用记录;
基于所述历史使用记录生成对应所述相关数据分析组件的评分;
根据各所述相关数据分析组件的评分排名生成所述数据分析组件推荐列表。
进一步的,所述历史使用记录包括所述相关数据分析组件的配置次数、所述相关数据分析组件的调用次数和所述相关数据分析组件的用户影响数,所述基于所述历史使用记录生成对应所述相关数据分析组件的总评分的步骤包括:
将所述配置次数、调用次数和用户影响数输入至预设评分公式生成所述相关数据分析组件的评分;
所述预设评分公式为:
其中,Nmin为各相关数据分析组件的被配置次数中最小的配置次数、Nmax为各相关数据分析组件的被配置次数中最大的配置次数、Mmin为各相关数据分析组件的被调用次数中最小的调用次数、Mmax为各相关数据分析组件的被调用次数中最大的调用次数、Fmin为各相关数据分析组件的影响客户数中最小的影响客户数、Fmax为各相关数据分析组件的影响客户数中最大的影响客户数、A为配置次数的权重系数、B为调用次数的权重系数、C为影响客户数的权重系数。
进一步的,在所述基于与所述待分析数据对应的目标业务指标从历史分析记录中匹配数据分析组件生成相关数据分析组件的步骤之后,所述方法包括:
若匹配到的所述相关数据分析组件的数量小于预设数量,则基于所述目标业务指标生成数据画像;
基于所述数据画像从预设业务指标库中匹配与所述数据画像相似的相似业务指标;
基于所述相似业务指标从所述历史分析记录中匹配数据分析组件生成新的所述相关数据分析组件;
执行所述基于所述相关数据分析组件生成数据分析组件推荐列表的步骤。
进一步的,所述数据画像包括目标业务指标的第一数据源表名称、所述目标业务指标的第一数据源字段名称、所述目标业务指标的第一基本属性和所述目标业务指标的第一名称属性,所述基于所述数据画像从预设业务指标库中匹配与所述数据画像相似的相似业务指标的步骤包括:
从所述预设业务指标库中获取现存业务指标;
将所述第一数据源表名称与所述现存业务指标的第二数据源表名称进行相似度比较生成第一匹配度;
将所述第一数据源字段名称与所述现存业务指标的第二数据源字段名称进行相似度比较生成第二匹配度;
将所述第一基本属性与所述现存业务指标的第二基本属性进行相似度比较生成第三匹配度;
将所述第一名称属性与所述现存业务指标的第二名称属性进行相似度比较生成第四匹配度;
将所述第一匹配度、第二匹配度、第三匹配度和第四匹配度的乘积作为所述现存业务指标的综合匹配度;
遍历所述预设业务指标库中的所述现存业务指标,生成各所述现存业务指标的综合匹配度;
将所述综合匹配度大于预设匹配度的现存业务指标作为所述相似业务指标。
进一步的,所述数据画像还包括所述目标业务指标的数据结构类型,在所述基于所述数据画像从预设指标库中匹配与所述数据画像相似的相似业务指标的步骤之后,所述方法包括:
若未匹配到所述相似业务指标,则基于所述数据结构类型对预设数据分析组件库进行过滤,得到数据标准与所述数据结构类型相同的待推荐数据分析组件;
基于所述待推荐数据分析组件生成所述数据分析组件推荐列表。
此外,为实现上述目的,本发明还提供一种数据分析组件生成设备,所述数据分析组件生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据分析组件生成程序,所述数据分析组件生成程序被所述处理器执行时实现如上述的数据分析组件生成方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据分析组件生成程序,所述数据分析组件生成程序被处理器执行时实现如上述的数据分析组件生成方法的步骤。
本发明提供一种数据分析组件生成方法、设备及计算机可读存储介质,输出各预设分析算法的功能提示信息,其中,所述功能提示信息包括各所述预设分析算法的分析功能以及各所述预设分析算法的参数配置标准;根据用户基于所述功能提示信息进行的选择操作确定目标分析算法,根据用户基于所述目标分析算法的参数配置标准的配置操作得到参数配置信息;基于所述目标分析算法和所述参数配置信息生成目标数据分析组件。即将数据分析组件中各分析算法的功能以及各分析算法参数配置标准展示给用户,用户可根据自身的业务需求选择对应的分析算法并输入参数配置信息,结合输入的分析算法和参数配置信息即可得到用户需要的数据分析组件,从而满足了用户个性化分析场景定制需求。且分析组件的生成无需重复编写代码,只需基于预设分析算法配置即可,缩短了数据自动分析工具的生成时间,可满足大量不同分析场景的分析结论的制作。同时,也降低了数据分析中分析算法的使用门槛,使得非专业人员也可使用分析算法对数据进行分析。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的数据分析组件生成设备的结构示意图;
图2为本发明数据分析组件生成方法的第一实施例的流程示意图;
图3为本发明数据分析组件生成方法的第二实施例的流程示意图;
图4为本发明数据分析组件生成方法中数据分析组件的示意图;
图5为本发明数据分析组件生成方法中数据分析配置界面图;
图6为本发明数据分析组件生成方法中业务指标的内容示意图;
图7为本发明数据分析组件生成方法中数据分析组件的分析流程图;
图8为本发明数据分析组件生成方法中数据分析组件配置过程图;
图9为本发明数据分析组件生成方法中数据分析组件可视化配置界面示意图;
图10为本发明数据分析组件生成方法中一应用场景图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的数据分析组件生成设备结构示意图。
如图1所示,该数据分析组件生成设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对数据分析组件生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及数据分析组件生成程序。
在图1所示的数据分析组件生成设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明数据分析组件生成设备中的处理器1001、存储器1005可以设置在数据分析组件生成设备中,所述数据分析组件生成设备通过处理器1001调用存储器1005中存储的数据分析组件生成程序,并执行本发明实施例提供的数据分析组件生成方法。
本发明实施例提供了一种数据分析组件生成方法,参照图2,图2为本发明一种数据分析组件生成方法第一实施例的流程示意图。
本实施例中,所述数据分析组件生成方法包括:
步骤S10:输出各预设分析算法的功能提示信息,其中,所述功能提示信息包括各所述预设分析算法的分析功能以及各所述预设分析算法的参数配置标准;
具体的,在本实施例中,将通过数据分析组件对数据进行分析得到分析结论或者分析结论。而封装了不同分析算法的数据分析功能组件存在不同的分析功能。当用户或者开发人员存在个性化分析需求时,在分析组件中配置对应的分析算法即可。而未被进行配置的分析组件可向用户展示不同的封装好的分析算法以及各分析算法对应的功能提示信息,而功能提示信息包括每个分析算法对应的分析功能以及每个分析算法对应的参数配置标准。例如被封装的分析算法Top_choose。Top_choose功能为:获取数据集的topN信息(标签/数值/占比),即获取数据集中前N名的对象,其中,数据集可以按照标签、数值或者占比进行排名。Top_choose对应的参数配置标准有包括参数标准和数据标注,其中,参数标准为上述topN中的N,即用户需要按照分析算法的需求配置参数N,例如,用户需要对学生成绩进行分析,在分析组件或中选择分析算法Top_choose进行配置,则用户需要配置参数N具体的数值;数据标准为上述分析算法Top_choose所支持的数据的结构和含义,例如:支持数据所包括的字段、字段的含义、数据类型、约束、限制等,即用户进行分析的数据符合分析算法的数据标准,该分析算法才能正常进行分析。此外,分析算法也可以包括,算法Group_list(按标签项分类列举出相同类标签的标签值内容)、算法Threshold_selection(根据阈值筛选出数据集大于(小于/等于)阈值的标签项)、算法Get_sum(功能为返回数值项所有数据的和)等。可以理解的是,具体的分析算法可由技术人员根据实际需求进行封装,此处不再赘述。
步骤S20:根据用户基于所述功能提示信息进行的选择操作确定目标分析算法,根据用户基于所述目标分析算法的参数配置标准的配置操作得到参数配置信息;
具体的,用户根据未进行配置的分析组件所展示的分析算法以及分析算法对应的分析功能进行进行分析算法选择,而参数配置标准中的数据标准也是用户进行分析算法选择的依据(即用户判断该算法能否支持待分析数据的数据类型),将用户选定的分析算法作为目标分析算法。对应的,用户再根据分析算法对应的参数标准输入参数。如图5所述的数据分析配置界面图,用户在分析组件的一栏中选择了分析算法Top_choose,且在top_num的一栏中配置的参数N为3,而在分析算法Top_choose中参数配置信息为3时,则表示将数据集中前三名作为获取对象。此外,对于用户需要分析的数据,分析组件将识别该数据中的数据集名称以及对应的值,以便于用户选择需要进行分析的数据。如图5中的分析数据1所示。
步骤S30:基于所述目标分析算法和所述参数配置信息生成目标数据分析组件。
进一步的,在所述基于所述目标分析算法和所述参数配置信息生成目标数据分析组件的步骤之前,所述方法包括:基于所述目标分析算法和所述参数配置信息生成并输出数据分析结果预览画面;当接收到根据用户基于所述数据分析结果预览画面的确认操作生成的结果确认指令后,执行所述基于所述目标分析算法和所述参数配置信息生成目标数据分析组件的步骤。
具体的,当确定目标分析算法和获取到参数配置信息后,将会基于目标分析算法和参数配置信息对样本数据进行分析得到分析结果(样本数据可以是预先设置的,也可是用户输入的待分析数据)。将此时的分析结果输出,以向用户展示配置了该目标分析算法的分析组件的实际分析结果,如图5所示的分析结果示例。根据上述结构用户可选择继续生成数据分析组件或者重新进行分析算法选择。用户对上述展示分析结果进行确认后(如点击确认按钮),则得到配置了上述目标分析算法和上述配置参数的目标数据分析组件。此外,对于分析组件的配置,除对分析算法和参数进行配置外,还包括分析结果样式配置,即用户可根据自身业务特点,制定分析结果呈现的样式模板,使得分析组件的分析结果按照样式模板进行呈现。得到目标数据分析组件可参照图4,图4为数据分析组件的示意图,数据分析组件包括元信息和分析算法,元信息包括参数信息、数据信息、模板信息和结果信息,其中,参数信息和数据信息用于对应描述该数据分析组件中分析算法的参数和数据,如同样基于上述例子,分析算法为Top_choose,对应的参数信息为3,数据信息为分析算法Top_choose支持的数据结构类型;模板信息和结果信息则用于描述该数据分析组件中的分析结果,其中,模板信息为用户制定的分析结果呈现的样式模板;结果信息则描述分析结果的数据结构,如分析结果具体由哪几个组成部分以及每部分的含义和示例内容。对于配置完成的数据分析组件,用户即可参考元信息来理解该数据分析组件功能以及所需的参数和数据,从而便于该数据分析组件复用。此外,对于使用已经配置完成的数据分析组件对待分析数据进行分析的过程,可参照图7,图7为数据分析组件的分析流程图。分析组件首先判断待分析数据的参数是否正确(判断待分析数据的参数是否符合分析组件的参数标准)。若判断参数不正确则直接结束分析(分析完成)。若判断参数正确再进一步判断待分析数据的数据是否正确(判断待分析数据的数据是否符合分析组件的数据标准)。若判断数据不正确同样结束分析(分析完成)。若判断分析数据的数据正确,则执行分析算法(通过分析算法对待分析数据进行分析并得到初步分析结果)。判断是否有自定义结果模板(用户可根据自身需求选择自定义配置结果模板或不配置自定义模板)。若不存在自定义结果模板,则直接输出初步分析结果。若存在自定义结果模板,则根据模板组装自定义分析结果(即将初步分析结果套用自定义输出模板得到自定义分析结果),输出自定义分析结果。
为清楚的说明本方案数据分析组件的配置过程,参照图8进行说明,图8包括数据分析组件的配置流程、数据分析组件的可视化配置界面。首先进行步骤A选择组件(即分析算法),对应用户可在可视化配置界面中的分析组件栏中选择分析算法。进行步骤B参数设置,对应用户可在可视化配置界面中的分析参数中进行配置。进行步骤C数据设置,对应用户可在可视化配置界面中的分析数据1栏中进行配置。进行步骤D分结果模板设置,对应的用户在可视化配置界面中的模板栏中进行配置。进行步骤E分析预览,数据分析组件对数据进行分析并基于用户配置的模板生成分析结果。
可以理解的是,在本实施例中,数据分析组件的可视化配置界面实际上是通过图形或者窗口的方式将数据分析组件的原始代码中的变量,用户可通过在可视化配置界面进行配置以改变原始代码中的变量。如图9所述,图9包括数据分析组件的可视化配置界面和数据分析组件的原始代码。图中箭头方向用于表示可视化配置界面中编辑栏与原始代码的对应关系。需要说明的是,图9中用于表示可视化配置界面中编辑栏与原始代码对应关系的箭头并不构成对本方案的限制。
在本实施例中,输出各预设分析算法的功能提示信息,其中,所述功能提示信息包括各所述预设分析算法的分析功能以及各所述预设分析算法的参数配置标准;根据用户基于所述功能提示信息进行的选择操作确定目标分析算法,根据用户基于所述目标分析算法的参数配置标准的配置操作得到参数配置信息;基于所述目标分析算法和所述参数配置信息生成目标数据分析组件。即将数据分析组件中各分析算法的功能以及各分析算法参数配置标准展示给用户,用户可根据自身的业务需求选择对应的分析算法并输入参数配置信息,结合输入的分析算法和参数配置信息即可得到用户需要的数据分析组件,从而满足了用户个性化分析场景定制需求。且分析组件的生成无需重复编写代码,只需基于预设分析算法配置即可,缩短了数据自动分析工具的生成时间,可满足大量不同分析场景的分析结论的制作。同时,也降低了数据分析中分析算法的使用门槛,使得非专业人员也可使用分析算法对数据进行分析。
进一步的,参照图3,本发明数据分析组件生成方法第二实施例的流程示意图。
在所述输出各预设分析算法的功能提示信息的步骤之前,所述数据分析组件生成方法还包括:
步骤S110,接收待分析数据,基于与所述待分析数据对应的目标业务指标从历史分析记录中匹配数据分析组件生成相关数据分析组件;
具体的,在本实施例中,上述待分析数据为用户需要使用分析算法进行分析的数据,通常情况下需要分析的数据对应有业务指标,而上述目标业务指标为待分析数据对应的业务指标。业务指标为对特定业务进行量化而定义的数据来源逻辑、数据含义描述等。如图6所示,业务指标由描述信息、数据源、SQL、数据结构4部分组成,其中,描述信息与指标名称、业务领域和客户信息相关联,此外,数据源、SQL和数据结构分别与各自对应的模块进行关联,具体可参照图5,此处不再赘述,需要说明的是,除图5中所表示业务指标外,技术人员可根据自身需求对业务指标进行定义。上述历史分析记录包括已经进行过分析的数据(带有业务指标)以及数据对应使用的数据分析组件。基于目标业务指标从历史分析记录中进行匹配,匹配出包括该目标业务指标的相关分析记录,将相关分析记录中所包括的数据分析组件进行去重处理(即相同的数据分析组件作为一种分析组件)得到相关数据分析组件。即从历史分析记录中找寻,对上述目标业务指标对应的数据进行过分析的数据分析组件。具体可参照图10,图10为本发明数据分析组件生成方法一应用场景图,分析历史库中包括多个分析历史(即历史分析记录),每个分析历史包括参数(用户在数据分析组件中的参数配置)、分析数据(数据分析组件进行分析的数据)和模板信息(用户在数据分析组件中配置的自定义模板),其中,分析数据对应有业务指标,如图10中的指标1。图10中本次分析即为上述待分析数据,本次分析的数据同样对应着业务指标,如指标1。因此,基于指标1即可将从分析历史库中找到与本次分析相关的分析记录。基于相关的分析记录(分析记录中包括分析组件)即可对本次分析(待分析数据)进行数据分析组件的推荐。可以理解的是,由于业务指标相同,因此上述匹配到的相关数据分析组件可能会满足用户对待分析数据进行分析的分析需求。
步骤S120,基于所述相关数据分析组件生成数据分析组件推荐列表;
进一步的,步骤S120包括:
步骤S121,获取所述相关数据分析组件的历史使用记录;
步骤S122,基于所述历史使用记录生成对应所述相关数据分析组件的总评分;
进一步的,所述历史使用记录包括所述相关数据分析组件的配置次数、所述相关数据分析组件的调用次数和所述相关数据分析组件的用户影响数。将所述配置次数、调用次数和用户影响数输入至预设评分公式生成所述相关数据分析组件的评分;
所述预设评分公式为:
其中,Nmin为各相关数据分析组件的被配置次数中最小的配置次数、Nmax为各相关数据分析组件的被配置次数中最大的配置次数、Mmin为各相关数据分析组件的被调用次数中最小的调用次数、Mmax为各相关数据分析组件的被调用次数中最大的调用次数、Fmin为各相关数据分析组件的影响客户数中最小的影响客户数、Fmax为各相关数据分析组件的影响客户数中最大的影响客户数、A为配置次数的权重系数、B为调用次数的权重系数、C为影响客户数的权重系数。
具体的,每个相关数据分析组件的历史使用记录将包括对应组件的配置次数、调用次数和用户影响数。其中,配置次数为该组件被配置生成的次数、调用次数为该组件被调用分析数据的次数、用户影响数为该组件使用用户数量。将每个相关数据分析组件的配置次数、调用次数和用户影响数输入至上述预设评分公式,即可得到每个相关数据分析组件的评分。其中,预设评分公式中的A、B、C分别可设置为30、30、40。
步骤S123,根据各所述相关数据分析组件的评分排名生成所述数据分析组件推荐列表。
具体的,按照每个相关数据分析组件的评分进行排名,将评分为前三名的相关数据分析组件按名词排名生成数据分析组件推荐列表。推荐列表中,推荐数量(如上述前三名)可由技术人员自由设置。
进一步的,在步骤S110之后,所述方法还包括:
步骤S001,若匹配到的所述相关数据分析组件的数量小于预设数量,则基于所述目标业务指标生成数据画像;
具体的,当基于目标业务指标匹配到的相关数据分析组件数量较少或者未匹配到相关数据分析组件数量,即匹配到的所述相关数据分析组件的数量小于预设数量。此时,由于数据分析组件样本量较少,推荐的数据分析组件准确较低或者无法进行推荐。则进一步基于目标业务指标生成数据画像,其中,数据画像用于表示目标业务指标对应的数据集的特征。
步骤S002,基于所述数据画像从预设指标库中匹配与所述数据画像相似的相似业务指标;
进一步的,所述数据画像包括目标业务指标的第一数据源表名称、所述目标业务指标的第一数据源字段名称、所述目标业务指标的第一基本属性和所述目标业务指标的第一名称属性,所述基于所述数据画像从预设业务指标库中匹配与所述数据画像相似的相似业务指标的步骤包括:从所述预设业务指标库中获取现存业务指标;将所述第一数据源表名称与所述现存业务指标的第二数据源表名称进行相似度比较生成第一匹配度;将所述第一数据源字段名称与所述现存业务指标的第二数据源字段名称进行相似度比较生成第二匹配度;将所述第一基本属性与所述现存业务指标的第二基本属性进行相似度比较生成第三匹配度;将所述第一名称属性与所述现存业务指标的第二名称属性进行相似度比较生成第四匹配度;将所述第一匹配度、第二匹配度、第三匹配度和第四匹配度的乘积作为所述现存业务指标的综合匹配度;遍历所述预设业务指标库中的所述现存业务指标,生成各所述现存业务指标的综合匹配度;将所述综合匹配度大于预设匹配度的现存业务指标作为所述相似业务指标。
具体的,数据画像包括目标业务指标的第一数据源表名称、第一数据源字段名称、第一基本属性和第一名称属性。其中,第一数据源表名称为目标业务指标对应的数据集来源的表名称。例如,一目标业务指标为:每日发包趋势及累计发包量。该目标业务指标下数据集通过SQL(Structured Query Language,结构化查询)语句获取。该SQL语句如下:
“
select :
date_format(publish_time,'%m-%d') as 日期;
-- sum(product_dept_cnt) as 二开发包数;
sum(first_line_cnt) as 一线发包数;
-- sum(product_dept_cnt+first_line_cnt) as 总发包数;
from dw_jm_package_day(数据源表名称);
where tenant_id=@tenantid;
and publish_time>=@startDate;
and publish_time<=@endDate;
group by date_format(publish_time,'%m-%d');
order by publish_time asc;
”
第一数据源表名称为:dw_jm_package_day。基于上述例子,第一数据源字段名称为,名称为dw_jm_package_day数据集下的字段名称或者字段别名。此外,第一基本属性为目标业务指标相关属性的描述,例如基本属性包括,目标业务指标是否为标准业务指标(即预设业务指标库中是否目标业务指标),目标业务指标的数据源名称(与数据源表名称不同,如若数据源表名称对应的数据表为一数据库下储存的数据表,而数据源名称则为该数据库的名称),除基本属性和数据源名称外,技术人员也可基于图5所示的业务指标相关连的模块如业务领域、产品信息等方面定义上述第一基本属性,此处,不再赘述。第一名称属性可以是上述目标业务指标的名称如每日发包趋势及累计发包量,也可以是目标业务指标下数据源名称,如一数据库名称为发包数据库,名称属性为文本数据或者字符串数据。
具体的,匹配相似业务指标的过程为,从预设业务指标库中获取现存业务指标,其中,预设业务指标库可储存已经经过分析后的数据所对应的业务指标,即现存业务指标。可以理解的是,每个现存业务指标也同样可生成数据画像,包括对应的第二数据源表名称、第二数据源字段名称、第二基本属性和第二名称属性。将第一数据源表名称与第二数据源表名称进行Jaccard计算(杰卡德计算)生成第一匹配度。例如,第一数据源表名称对应的集合为A(合集A为目标业务指标下的数据源表名称),第二数据源表名称对应的集合为B(合集B为现存业务指标下的数据源表名称),Jaccard计算公式如下:
其中,J(A,B)为第一匹配度。且第一匹配度取值为范围为[0,1]。
例如合集A={dw_jm_package_day,dim_alert_items,dw_alert_detail}。当合集B={dw_jm_package_day,dim_alert_items,dw_alert_detail}时,计算得到的J(A,B)为1。当合集B={dm_csc_im_detail,rp_tx_service_overview,dw_csc_ticket_detail}时,计算得到的J(A,B)为0。
此外,对于第二匹配度和第三匹配度的生成方式可参照第一匹配度。例如,第一数据源字段名称对应的合集为A1,第二数据源字段名称对应的合集为B1,基于Jaccard计算公式得到第二匹配度,同样的第三匹配度的生成方式此处不再赘述。
对于第四匹配度,可通过短文本相似度的算法得到。例如第一名称属性为每日发包趋势及累计发包量,第二名称属性为每日发包速度即发包速度变化趋势。通过tf-idf(term frequency–inverse document frequency,词频-逆文本频率指数)计算两个句子的相似度。具体包括,将上述两个文本根据分词算法分为独立的词,得到每种词的词频并构成每个文本的词频向量。如文本“每日发包趋势及累计发包量”和文本“每日发包速度及发包速度变化趋势”分词后词的并集为“每日/发包/趋势/及/累计/量/速度/变化”,文本“每日发包趋势及累计发包量”对应的词频向量为A2=[1,2,1,1,1,1,1,0,0]。文本“每日发包速度及发包速度变化趋势”对应的词频向量为B2=[1,2,0,1,0,1,1,1,1]。代入文本相似度计算公式得到第四匹配度。文本相似度计算公式如下:
其中,COS(θ)为第四匹配度、n为文本中出现词的种类、A2k为A2文本中第k种词的词频、B2k为B2文本中第k种词的词频。
将第一匹配度、第二匹配度、第三匹配度和第四匹配度的乘积作为所述现存业务指标的综合匹配度。
通过上述方式得到每个现存业务指标的综合匹配度。将综合匹配度大于预设匹配度的现存业务指标作为所述相似业务指标。其中,预设匹配度同样可由技术人员根据实际需求设置。
步骤S003,基于所述相似业务指标从所述历史分析记录中匹配数据分析组件生成新的所述相关数据分析组件;
同样的将相似业务指标从历史分析记录中匹配数据分析组件生成新的所述相关数据分析组件,具体可参照步骤S110,只需将目标业务指标替换为相似业务指标即可得到新的相关数据分析组件,此处不再赘述。
步骤S004,执行所述基于所述相关数据分析组件生成数据分析组件推荐列表的步骤。
具体的,当得到新的相关数据分析组件后,继续执行步骤S120。此处不再赘述。
进一步的,所述数据画像还包括所述目标业务指标的数据结构类型,在所述基于所述数据画像从预设指标库中匹配与所述数据画像相似的相似业务指标的步骤之后,所述方法包括:若未匹配到所述相似业务指标,则基于所述数据结构类型对预设数据分析组件库进行过滤,得到数据标准与所述数据结构类型相同的待推荐数据分析组件;基于所述待推荐数据分析组件生成所述数据分析组件推荐列表。
具体的,数据画像还包括目标业务指标的数据结构类型,可以理解的是数据结构类型是目标业务指标对应数据集的数据类型可以包括:整型、浮点型、布尔类型、时间类型或通用数据类型等,可以理解的是,目标业务指标的数据结构类型与第一实施例中预设分析算法的参数配置标准中数据标准相对应,数据标准将描述对应分析算法所支持的数据结构类型。当基于目标数据的数据画像未从指标数据库中匹配到相似业务指标时,基于数据结构类型对预设数据分析组件库进行过滤(预设数据分析组件库中储存有已经配置好的数据分析组件,可以是数据分析提供方配置的,也可以是用户自己配置的),即过滤得到可以对待分析数据进行分析的数据分析组件(即上述数据结构类型符合数据分析组件的数据标准即可)。将过滤得到的数据分析组件作为待推荐数据分析组件并生成对应的数据分析组件推荐列表。
步骤S130,输出数据分析组件推荐列表,以使用户基于所述数据分析组件推荐列表进行所述目标数据分析组件的选择。
具体的,将数据分析组件推荐列表输出给用户,使得用户可以在已经配置好的数据分析组件中选择目标数据分析组件。
在本实施例中,实现基于待分析数据对应业务指标的多维度属性的分析方法智能推荐,可向数据分析组件配置不数量的用户推荐配置完成的分析组件,进一步降低了使用分析算法对数据进行分析的门槛。
此外,本实施例还提供一种数据分析组件生成设备,所述数据分析组件生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据分析组件生成程序,所述数据分析组件生成程序被所述处理器执行时实现如上述的数据分析组件生成方法的步骤。
本发明数据分析组件生成设备具体实施方式与上述数据分析组件生成设备的防脱落方法各实施例基本相同,在此不再赘述。
此外,本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据分析组件生成程序,所述数据分析组件生成程序被处理器执行时实现如上述的数据分析组件生成方法的步骤。
本发明介质具体实施方式与上述数据分析组件生成方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还 包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、 方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光 盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种数据分析组件生成方法,其特征在于,所述数据分析组件生成方法包括以下步骤:
输出各预设分析算法的功能提示信息,其中,所述功能提示信息包括各所述预设分析算法的分析功能以及各所述预设分析算法的参数配置标准;
根据用户基于所述功能提示信息进行的选择操作确定目标分析算法,根据用户基于所述目标分析算法的参数配置标准的配置操作得到参数配置信息;
基于所述目标分析算法和所述参数配置信息生成目标数据分析组件;
其中,在所述输出各预设分析算法的功能提示信息的步骤之前,所述方法还包括:
接收待分析数据,基于与所述待分析数据对应的目标业务指标从历史分析记录中匹配数据分析组件生成相关数据分析组件;
基于所述相关数据分析组件生成数据分析组件推荐列表;
输出数据分析组件推荐列表,以使用户基于所述数据分析组件推荐列表进行所述目标数据分析组件的选择;
其中,在所述基于与所述待分析数据对应的目标业务指标从历史分析记录中匹配数据分析组件生成相关数据分析组件的步骤之后,所述方法包括:
若匹配到的所述相关数据分析组件的数量小于预设数量,则基于所述目标业务指标生成数据画像;
基于所述数据画像从预设业务指标库中匹配与所述数据画像相似的相似业务指标;
基于所述相似业务指标从所述历史分析记录中匹配数据分析组件生成新的所述相关数据分析组件;
执行所述基于所述相关数据分析组件生成数据分析组件推荐列表的步骤。
2.如权利要求1所述的数据分析组件生成方法,其特征在于,在所述基于所述目标分析算法和所述参数配置信息生成目标数据分析组件的步骤之前,所述方法包括:
基于所述目标分析算法和所述参数配置信息生成并输出数据分析结果预览画面;
当接收到根据用户基于所述数据分析结果预览画面的确认操作生成的结果确认指令后,执行所述基于所述目标分析算法和所述参数配置信息生成目标数据分析组件的步骤。
3.如权利要求1所述的数据分析组件生成方法,其特征在于,所述基于所述相关数据分析组件生成数据分析组件推荐列表的步骤包括:
获取所述相关数据分析组件的历史使用记录;
基于所述历史使用记录生成对应所述相关数据分析组件的评分;
根据各所述相关数据分析组件的评分排名生成所述数据分析组件推荐列表。
4.如权利要求3所述的数据分析组件生成方法,其特征在于,所述历史使用记录包括所述相关数据分析组件的配置次数、所述相关数据分析组件的调用次数和所述相关数据分析组件的用户影响数,所述基于所述历史使用记录生成对应所述相关数据分析组件的总评分的步骤包括:
将所述配置次数、调用次数和用户影响数输入至预设评分公式生成所述相关数据分析组件的评分;
所述预设评分公式为:
其中,Nmin为各相关数据分析组件的被配置次数中最小的配置次数、Nmax为各相关数据分析组件的被配置次数中最大的配置次数、Mmin为各相关数据分析组件的被调用次数中最小的调用次数、Mmax为各相关数据分析组件的被调用次数中最大的调用次数、Fmin为各相关数据分析组件的影响客户数中最小的影响客户数、Fmax为各相关数据分析组件的影响客户数中最大的影响客户数、A为配置次数的权重系数、B为调用次数的权重系数、C为影响客户数的权重系数。
5.如权利要求1所述的数据分析组件生成方法,其特征在于,所述数据画像包括目标业务指标的第一数据源表名称、所述目标业务指标的第一数据源字段名称、所述目标业务指标的第一基本属性和所述目标业务指标的第一名称属性,所述基于所述数据画像从预设业务指标库中匹配与所述数据画像相似的相似业务指标的步骤包括:
从所述预设业务指标库中获取现存业务指标;
将所述第一数据源表名称与所述现存业务指标的第二数据源表名称进行相似度比较生成第一匹配度;
将所述第一数据源字段名称与所述现存业务指标的第二数据源字段名称进行相似度比较生成第二匹配度;
将所述第一基本属性与所述现存业务指标的第二基本属性进行相似度比较生成第三匹配度;
将所述第一名称属性与所述现存业务指标的第二名称属性进行相似度比较生成第四匹配度;
将所述第一匹配度、第二匹配度、第三匹配度和第四匹配度的乘积作为所述现存业务指标的综合匹配度;
遍历所述预设业务指标库中的所述现存业务指标,生成各所述现存业务指标的综合匹配度;
将所述综合匹配度大于预设匹配度的现存业务指标作为所述相似业务指标。
6.如权利要求5所述的数据分析组件生成方法,其特征在于,所述数据画像还包括所述目标业务指标的数据结构类型,在所述基于所述数据画像从预设指标库中匹配与所述数据画像相似的相似业务指标的步骤之后,所述方法包括:
若未匹配到所述相似业务指标,则基于所述数据结构类型对预设数据分析组件库进行过滤,得到数据标准与所述数据结构类型相同的待推荐数据分析组件;
基于所述待推荐数据分析组件生成所述数据分析组件推荐列表。
7.一种数据分析组件生成设备,其特征在于,所述数据分析组件生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据分析组件生成程序,所述数据分析组件生成程序被所述处理器执行时实现如权利要求1至6中任一项所述的数据分析组件生成方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据分析组件生成程序,所述数据分析组件生成程序被处理器执行时实现如权利要求1至6中任一项所述的数据分析组件生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210914301.XA CN114968246B (zh) | 2022-08-01 | 2022-08-01 | 数据分析组件生成方法、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210914301.XA CN114968246B (zh) | 2022-08-01 | 2022-08-01 | 数据分析组件生成方法、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114968246A CN114968246A (zh) | 2022-08-30 |
CN114968246B true CN114968246B (zh) | 2022-11-29 |
Family
ID=82969016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210914301.XA Active CN114968246B (zh) | 2022-08-01 | 2022-08-01 | 数据分析组件生成方法、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114968246B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118070075B (zh) * | 2024-04-22 | 2024-09-03 | 之江实验室 | 一种数据分析方法、装置、电子装置和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112114914A (zh) * | 2020-08-03 | 2020-12-22 | 广州太平洋电脑信息咨询有限公司 | 生成报表的方法、装置、计算机设备和存储介质 |
CN114816374A (zh) * | 2021-01-28 | 2022-07-29 | 中国科学院沈阳自动化研究所 | 可视化数据分析流程建模方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8225269B2 (en) * | 2009-10-30 | 2012-07-17 | Synopsys, Inc. | Technique for generating an analysis equation |
US20130218991A1 (en) * | 2012-02-21 | 2013-08-22 | Salesforce.Com, Inc. | Method and system for providing information from a customer relationship management system |
CN105975472A (zh) * | 2015-12-09 | 2016-09-28 | 乐视网信息技术(北京)股份有限公司 | 一种推荐方法和装置 |
CN112417263B (zh) * | 2019-08-23 | 2024-01-09 | 北京达佳互联信息技术有限公司 | 数据推荐方法、装置及存储介质 |
CN113590679A (zh) * | 2020-12-30 | 2021-11-02 | 陈非 | 基于互联网金融的聚类分析方法以及大数据分析服务器 |
CN113190582B (zh) * | 2021-05-06 | 2021-11-16 | 北京三维天地科技股份有限公司 | 一种数据实时交互式挖掘流建模分析系统 |
-
2022
- 2022-08-01 CN CN202210914301.XA patent/CN114968246B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112114914A (zh) * | 2020-08-03 | 2020-12-22 | 广州太平洋电脑信息咨询有限公司 | 生成报表的方法、装置、计算机设备和存储介质 |
CN114816374A (zh) * | 2021-01-28 | 2022-07-29 | 中国科学院沈阳自动化研究所 | 可视化数据分析流程建模方法及系统 |
Non-Patent Citations (1)
Title |
---|
一种大数据分析组件的自动化开发集成方法;陈茜 等;《计算机应用与软件》;20160731;第33卷(第7期);第33-37页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114968246A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599039B (zh) | 一种支持关系数据库数据自由组合嵌套的统计表述方法 | |
US8938720B2 (en) | Trace visualization for object oriented programs | |
CN100515052C (zh) | 节目推荐装置以及节目推荐装置的节目推荐方法 | |
US20090077056A1 (en) | Customization of search results | |
US20060004528A1 (en) | Apparatus and method for extracting similar source code | |
CN110955652B (zh) | 一种用于进行数据展示的系统及方法 | |
CN107729361B (zh) | 自动合成图片推送方法、装置及存储介质 | |
CA2827833C (en) | System and method for improved consumption models for summary analytics | |
JP2007025868A (ja) | カテゴリ設定支援方法及び装置 | |
CN113110833A (zh) | 机器学习模型可视化建模方法、装置、设备及存储介质 | |
US20200264851A1 (en) | Systems and methods for organizing, classifying, and discovering automatically generated computer software | |
CN114968246B (zh) | 数据分析组件生成方法、设备及计算机可读存储介质 | |
JP2009157899A (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
US20180107720A1 (en) | Dynamic assignment of search parameters to search phrases | |
CN110826896A (zh) | 数据处理控制方法、装置、计算机设备及存储介质 | |
CN109766368A (zh) | 一种基于Hive的数据查询多类型视图产出系统及方法 | |
US20060122913A1 (en) | Generating performance workload definitions with shopping cart software | |
US20230350965A1 (en) | System and Method for Validating a Protocol-Compliant Uniform Resource Locator | |
JP2012242844A (ja) | レコメンド情報生成装置およびレコメンド情報生成方法 | |
CN114860737B (zh) | 教研数据的处理方法、装置、设备及介质 | |
CN115860531A (zh) | 基于多维度数据的业务体验管理系统及方法 | |
CN108132940B (zh) | 一种应用程序数据提取方法及装置 | |
CN109710369B (zh) | 全图形化用户界面展示方法和装置 | |
US10275736B1 (en) | Updating information in a product database | |
US20230367471A1 (en) | System and Method for Specifying Properties for a Protocol-Compliant Uniform Resource Locator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |