CN113190582A - 一种数据实时交互式挖掘流建模分析系统 - Google Patents

一种数据实时交互式挖掘流建模分析系统 Download PDF

Info

Publication number
CN113190582A
CN113190582A CN202110490915.5A CN202110490915A CN113190582A CN 113190582 A CN113190582 A CN 113190582A CN 202110490915 A CN202110490915 A CN 202110490915A CN 113190582 A CN113190582 A CN 113190582A
Authority
CN
China
Prior art keywords
module
data
mining
function
functional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110490915.5A
Other languages
English (en)
Other versions
CN113190582B (zh
Inventor
金震
张京日
张建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SunwayWorld Science and Technology Co Ltd
Original Assignee
Beijing SunwayWorld Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SunwayWorld Science and Technology Co Ltd filed Critical Beijing SunwayWorld Science and Technology Co Ltd
Priority to CN202110490915.5A priority Critical patent/CN113190582B/zh
Publication of CN113190582A publication Critical patent/CN113190582A/zh
Application granted granted Critical
Publication of CN113190582B publication Critical patent/CN113190582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Abstract

本发明提供了一种数据实时交互式挖掘流建模分析系统,包括:由多个功能模块组成,每个功能模块用于完成对应的分析处理功能,其中,所述功能模块是基于挖掘处理作业对象对应的功能,来对功能组件进行划分得到的;交互式界面,用于对接使用用户和所述处理分析模块之间的交互式互动,得到挖掘流程;挖掘流程机,用于对所述挖掘流程进行分析,得到挖掘逻辑,并基于所述挖掘逻辑构建计算分析逻辑,且将所述计算分析逻辑部署执行,完成建模;在保证分析处理时效性的前提下,保证了分析处理的实时交互性和分析的灵活性。

Description

一种数据实时交互式挖掘流建模分析系统
技术领域
本发明涉及数据挖掘处理和智能分析建模领域,特别涉及一种数据实时交互式挖掘流建模分析系统。
背景技术
近年来,数据挖掘技术引起了信息产业界的极大关注,其主要原因是数据量的快速增长以及数据采集、数据存储、数据分析处理、以及计算机硬件性能的快速增长带来了数据分析处理的极大需求,并且迫切需要将这些数据转换成有用的信息和知识,广泛应用于国民经济发展的各个行业。
数据挖掘的特点是需要从大量数据中提取有用的信息,首先,面对大量数据,处理技术需要借助大数据的相关大数据存储、分布式计算等技术实现数据的分析挖掘,其次,大数据的特点是数据价值密度低,需要有效的途径挖掘有用的信息,那么这个有效的途径需要借助机器学习等人工智能算法实现。
基于以上,那么一款数据挖掘工具需要具备大数据处理的能力,同时具备机器学习相关算法分析的能力。同时,在大数据人工智能化的信息应用大背景下,数据挖掘分析广泛应用于各个行业中,需要淡化使用数据挖掘分析的IT技术需求,将算法和大数据处理的逻辑基于一种流程化交互式处理的形式实现将是一个行业普遍化的应用需求。
数据挖掘行业内数据挖掘平台基本按照挖掘逻辑进行功能组件化,通过交互式的界面配置完成对应的建模逻辑,然而,在实现建模分析逻辑上损失了灵活性,同时,交互式界面仅进行配置参数交互,由于大批量数据进行处理时,在配置建模阶段是很难进行数据和配置的实时交互,降低了数据分析建模的实时响应程度。
发明内容
本发明提供一种一种数据实时交互式挖掘流建模分析系统,通过交互式界面和分析处理模块的交互式互动,实现了数据和配置的实时交互,在保证分析处理时效性的前提下,保证了分析处理的实时交互性和分析的灵活性。
本发明提供一种数据实时交互式挖掘流建模分析系统,包括:
处理分析模块,由多个功能模块组成,每个功能模块用于完成对应的分析处理功能,其中,所述功能模块是基于挖掘处理作业对象对应的功能,来对功能组件进行划分得到的;
交互式界面,用于对接使用用户和所述处理分析模块之间的交互式互动,得到挖掘流程;
挖掘流程机,用于对所述挖掘流程进行分析,得到挖掘逻辑,并基于所述挖掘逻辑构建计算分析逻辑,且将所述计算分析逻辑部署执行,完成建模。
在一种可能实现的方式中,
还包括:功能获取模块,用于获取所述挖掘处理作业对象对应的功能,包括:
编译单元,用于获取用户定义的操作配置信息,基于所述操作配置信息构建挖掘模型配置文件,并将所述挖掘模型配置文件编译成对应的挖掘处理作业对象;
获取单元,用于将所述挖掘处理作业对象发送至分布式集群计算资源处进行分析,获取所述挖掘处理作业对象对应的功能。
在一种可能实现的方式中,
还包括:划分模块,用于基于所述挖掘处理作业对象对应的功能,对功能组件进行划分得到多个功能模块,包括:
解析单元,用于对所述挖掘处理作业对象对应的功能进行解析,得到功能对应的部署信息;
接收单元,用于基于所述当前功能组件的输入端口,接收上游功能组件传递的数据,接收用户对于所述当前功能组件定义的组件配置参数;并基于所述上游功能组件传递的数据,结合所述组件配置参数,确定所述当前功能组件的接口信息;
确定单元,用于基于预设的部署-接口信息的对应关系,确定当前功能组件的功能,并将所述当前功能组件作为所述处理分析模块的一个功能模块,且所述当前功能组件的功能,确定对应功能模块的模块名称。
在一种可能实现的方式中,
所述处理分析模块包括:
数据IO模块,用于挖掘分析系统的数据读取和输出,支持主流形式数据源的数据读取和输出;
数据预处理模块,用于接收所述数据IO模块读取的数据,并对所述读取的数据进行清洗操作,且在进行数据操作的过程中与用户进行交互式联系,根据用户的实时操作行为完成对数据的清洗;
建模分析模块,用于对经过所述数据预处理模块清洗后的数据,利用建模分析算法实现对数据的建模分析,并将经过建模分析后的数据经过所述数据IO模块进行输出。
在一种可能实现的方式中,
所述数据预处理模块包括:
执行器,用于接收用户的实时操作行为,将所述操作行为进行编译,并将编译作业信息提交至计算引擎进行计算,且将计算结果进行实时反馈,并将所述操作行为更新至操作队列;
所述操作队列,用于记录用户的操作形成队列,并支持所述操作形成队列的增删改查;
表格组件,用于将对所述用户的实时操作行为的响应数据进行展示,并为用户提供操作入口和操作数据的展示;
所述计算引擎,用于通过所述实时操作行为执行实现所述执行器提交的操作。
在一种可能实现的方式中,
所述交互式界面包括:
组件功能界面,用于展示功能组件库,基于所述组件功能界面可以将本次数据挖掘需要用到的功能组件通过交互式操作添加到流程编辑界面;
所述流程编辑界面,用于提供数据挖掘编辑的区域,在所述区域内,通过将从所述组件功能界面添加的功能组件通过连线的方式进行编排和布局,建立挖掘流程图;
组件参数界面,可在所述数据挖掘编辑的区域进行显示,用于基于所述挖掘流程图中功能组件的连接关系,为所述功能组件进行交互式参数配置,得到挖掘流程。
在一种可能实现的方式中,
所述挖掘流程机包括:
分析单元,用于对所述挖掘流程进行解析,得到所述挖掘流程的配置参数信息和布局信息,并对所述配置参数信息进行语义检测,得到参数语义结果;对所述布局信息进行结构检测,得到布局结构结果;
检索单元,用于基于所述挖掘流程的语义分析结果检索用户的操作信息,基于所述操作信息获取用户的工作日志,提取所述工作日志的时间戳,基于所述时间戳对所述工作日志进行排序,得到工作日志序列;
处理单元,用于对所述挖掘流程的布局结构结果输入布局步骤分析模型中,获取所述布局结构结果对应的布局步骤;
匹配单元,用于基于预设布局-操作对应关系,按照所述工作日志序列中的顺序,将所述工作日志与所述布局步骤进行匹配;
修正单元,用于判断所述工作日志是否与所述布局步骤全部匹配,若否,获取所述工作日志序列中不匹配的工作日志,和所述不匹配的工作日志的对应的布局步骤,提取所述不匹配的工作日志的关键词,并根据所述关键词对所述对应的布局步骤进行修正,得到修正后的布局步骤,并获取修正后的布局步骤与所述工作日志的匹配结果;
生成单元,基于所述匹配结果,将所述工作日志与所述修正后的布局步骤进行绑定,获得绑定关系,基于所述绑定关系,生成挖掘逻辑;
构建单元,用于根据预设的逻辑规则,提取所述挖掘逻辑中的逻辑因子,基于所述逻辑因子,从公式库中选取所需的计算公式,根据所述逻辑因子和计算公式,构建计算分析逻辑;
评估单元,用于根据预设的逻辑评估模型对所述计算分析逻辑进行评估,判断所述计算分析逻辑是否满足预设要求,若否,则基于所述修正单元,对所述布局步骤进行再次修正,直到所述构建的计算分析逻辑满足所述预设要求;
部署单元,用于基于满足所述预设要求的计算分析逻辑,进行部署执行,完成建模。
在一种可能实现的方式中,
还包括:验证模块,用于对所述处理分析模块中分各个功能模块进行功能验证,其过程包括:
第一解析单元,用于获取功能模块的配置信息,并对所述配置信息进行解析,得到配置参数、配置指令;
第一计算单元,用于基于所述配置信息,获取所述功能模块的第一功能值;
Figure BDA0003051984310000051
其中,G1表示所述功能模块的第一功能值,ε表示所述功能模块的配置因子,取值为(0,2),α表示所述功能模块的配置指令的参数值,取值为(0,1),β表示基于所述配置指令的执行值,取值为(0,1),α>β,且e表示自然常数,取值为2.72,E表示所述功能模块的配置资源的参数值,取值为(0,1),Z表示所述功能模块的配置标识的参数值,取值为(0,1);
第二解析单元,用于获取所述功能模块的接口信息,并对所述接口信息进行解析,得到接口的数量,接口的属性参数,接口的调用参数,接口的兼容参数;
第二计算单元,用于基于解析结果,获取所述功能模块的第二功能值;
Figure BDA0003051984310000061
其中,G2表示所述功能模块的第二功能值,δ表示所述功能模块的接口配置因子,取值为(0,2),γi表示所述功能模块的第i个接口的属性参数值,γ0表示接口的标准属性参数值,Ti表示所述第i个接口的调用参数值,T0表示接口的标准调用参数值,Ri表示所述第i个接口的兼容参数值,R0表示接口的标准兼容参数值,n表示所述功能模块的接口数量;
验证单元,用于基于所述功能模块第一功能值和第二功能值,从模块功能库中,确定所述功能模块的功能信息,判断所述功能模块的功能信息与预设功能信息是否匹配;
若匹配,确定所述功能模块的配置准确;
否则,基于匹配结果,重新对所述功能模块进行参数配置,直到所述功能模块的功能信息与预设功能信息相匹配。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种数据实时交互式挖掘流建模分析系统的结构图;
图2为本发明实施例中分析处理模块的结构图;
图3为本发明实施例中数据预处理模块的结构图;
图4为本发明实施例中交互式界面的结构图;
图5为本发明实施例中挖掘流程机的结构图;
图6为本发明实施例中验证模块的结构图;
图7为本发明实施例中挖掘流程的流程图;
图8为本发明实施例中功能模块的功能设计的结构图;
图9为本发明实施例中数据预处理模块的具体工作流程如图;
图10为本发明实施例中实时交互式系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明实施例提供一种数据实时交互式挖掘流建模分析系统,如图1所示,包括:
处理分析模块,由多个功能模块组成,每个功能模块用于完成对应的分析处理功能,其中,所述功能模块是基于挖掘处理作业对象对应的功能,来对功能组件进行划分得到的;
交互式界面,用于对接使用用户和所述处理分析模块之间的交互式互动,得到挖掘流程;
挖掘流程机,用于对所述挖掘流程进行分析,得到挖掘逻辑,并基于所述挖掘逻辑构建计算分析逻辑,且将所述计算分析逻辑部署执行,完成建模。
在该实施例中,所述挖掘流程为由所述交互式界面和处理分析模块组合得到。
在该实施例中,所述的挖掘流程如图7所示,挖掘流程通过多个功能模块通过连线的方式进行构建,每一个功能模块完成特定的数据处理分析功能,功能模块间的连线代表着模块间的处理逻辑顺序以及相互之间的数据传递,所述的两个组件之间的连线中的数据代表连线上游节点的的输出数据。
所述的挖掘流程构成的流程图可以通过挖掘流程机解析流程的计算逻辑,所述流程图通过可视化交互式编辑界面实现,流程图的编辑和洞察由实时交互式系统来支持,上文所述流程图中的组件来自于处理分析模块。
在该实施例中,处理分析模块构成了如图7所示中的功能模块,功能模块之间通过连线以及连线箭头的走向标识数据的流动方向以及数据处理逻辑,为了实现模块之间的数据流转,对功能组件进行抽象,实现如图8所示的功能设计。
上述设计方案的有益效果是:通过交互式界面和分析处理模块的交互式混动,实现了数据和配置的实时交互,保证了分析处理的实时交互性,通过挖掘流程机对挖掘流程进行部署执行,保证分析的灵活性。
实施例2
基于实施例1的基础上,本发明实施例提供一种数据实时交互式挖掘流建模分析系统,还包括:功能获取模块,用于获取所述挖掘处理作业对象对应的功能,包括:
编译单元,用于获取用户定义的操作配置信息,基于所述操作配置信息构建挖掘模型配置文件,并将所述挖掘模型配置文件编译成对应的挖掘处理作业对象;
获取单元,用于将所述挖掘处理作业对象发送至分布式集群计算资源处进行分析,获取所述挖掘处理作业对象对应的功能。
在该实施例中,所述操作配置信息包括标识符、地址、状态、名称等。
在该实施例中,所述挖掘处理作业对象为基于操作配置信息得到的抽象对象。
在该实施例中,所述述挖掘处理作业对象对应的功能有数据接收、数据处理、数据管理等。
上述设计方案的有益效果是:通过用户定义的操作配置信息根据获取挖掘处理作业对象对应的功能,为功能组件的划分提供了功能基础,从而保证了分析处理的实时交互性。
实施例3
基于实施例1的基础上,本发明实施例提供一种数据实时交互式挖掘流建模分析系统,还包括:划分模块,用于基于所述挖掘处理作业对象对应的功能,对功能组件进行划分得到多个功能模块,包括:
解析单元,用于对所述挖掘处理作业对象对应的功能进行解析,得到功能对应的部署信息;
接收单元,用于基于所述当前功能组件的输入端口,接收上游功能组件传递的数据,接收用户对于所述当前功能组件定义的组件配置参数;并基于所述上游功能组件传递的数据,结合所述组件配置参数,确定所述当前功能组件的接口信息;
确定单元,用于基于预设的部署-接口信息的对应关系,确定当前功能组件的功能,并将所述当前功能组件作为所述处理分析模块的一个功能模块,且所述当前功能组件的功能,确定对应功能模块的模块名称。
在该实施例中,所述部署信息为基于所述挖掘处理作业对象对应的功能确定的,例如所述挖掘处理作业对象的功能为数据读取和输出,则对应的部署信息为对输入、输出、存储资源、数据兼容等进行部署。
在该实施例中,所述接口信息包括输入接口信息、输出接口信息、存储接口信息等。
在该实施例中,所述组件配置参数包括节点参数、样式参数、状态参数等。
上述设计方案的有益效果是:通过挖掘处理作业对象对应的功能,和根据用户定义的组件配置参数将功能组件划分为多个功能模块,为数据的分析处理提供了基础,从而保证了数据分析处理的实时交互性。
实施例4
基于实施例1的基础上,本发明实施例提供一种数据实时交互式挖掘流建模分析系统,如图2所示,所述处理分析模块包括:
数据IO模块,用于挖掘分析系统的数据读取和输出,支持主流形式数据源的数据读取和输出;
数据预处理模块,用于接收所述数据IO模块读取的数据,并对所述读取的数据进行清洗操作,且在进行数据操作的过程中与用户进行交互式联系,根据用户的实时操作行为完成对数据的清洗;
建模分析模块,用于对经过所述数据预处理模块清洗后的数据,利用建模分析算法实现对数据的建模分析,并将经过建模分析后的数据经过所述数据IO模块进行输出。
在该实施例中,所述主流形式的数据源包括:系数据库的数据读写组件、文件源(Txt、Excel、CSV、Json、Xml等)的数据读写、Hive数据的读写、HDFS的数据读写、HBASE数据源的读写等。
在该实施例中,所述数据浴池里模块对数据的清洗操作包括字段重命名、字段类型转换、数据过滤、字段筛选、字段生成、数据噪声处理等。
在该实施例中,所述建模分析模块参照机器学习以及应用领域进行细分为:模式识别类算法分析模块、回归分析类算法分析模块、聚类分析类算法分析模块、关联分析类算法分析模块、时间序列类算法分析模块、综合评价类类算法分析模块、深度学习类算法分析模块、自然语言处理类算法分析模块、计算机图像处理类算法分析模块、语音分析类算法分析模块、信号处理类算法分析模块等。
上述设计方案的有益效果是:通过分析处理模块完成了数据的预处理、建模分析,运用了交互式的数据处理方式,保证了数据分析处理的实时交互性。
实施例5
基于实施例4的基础上,本发明实施例提供一种数据实时交互式挖掘流建模分析系统,如图3所示,所述数据预处理模块包括:
执行器,用于接收用户的实时操作行为,将所述操作行为进行编译,并将编译作业信息提交至计算引擎进行计算,且将计算结果进行实时反馈,并将所述操作行为更新至操作队列;
所述操作队列,用于记录用户的操作形成队列,并支持所述操作形成队列的增删改查;
表格组件,用于将对所述用户的实时操作行为的响应数据进行展示,并为用户提供操作入口和操作数据的展示;
所述计算引擎,用于通过所述实时操作行为执行实现所述执行器提交的操作。
在该实施例中,所述操作形成队列由用户连续的实时操作行为组成。
在该实施例中,所述的数据预处理模块,主要完成数据建模分析签的数据清洗工作,而数据清洗的工作量占据了整个分析过程绝大部分时间和精力,往往在模型调试过程中需要多次进行数据清洗工作,同时,数据在清洗之前往往比较杂乱,数据不一致性造成数据清洗的大部分精力,基于以上分析需求,本发明采取了实时交互式的数据处理方式,对数据的操作实时进行执行和反馈,实现数据清洗的便捷性、易用性、友好性,所述数据预处理模块的具体工作流程如图9所示。
在该实施例中,对所述操作行为进行编译后得到编译作业信息,例如操作行为为“修改”,则对“修改”这一操作行为进行编译,得到计算机能够识别的语言,实现这一过程需要的信息为编译作业信息。
在该实施例中,所述操作形成队列是指,比如,增加一个操作,对应有操作进行去除或修改,那么,修改后的操作队列会对下游的操作进行逻辑验证,操作队列会和分布式计算数据处理模型实时同步,同时,操作队列管理模型的增删改以及模型的保存和部署。
上述设计方案的有益效果是:所述预处理模块采用了实时交互式的数据处理方式,对数据的操作实时进行执行和反馈,实现数据清洗的便捷性、易用性、友好性,保证了数据分析的实时交互性和灵活性。
实施例6
基于实施例1的基础上,本发明实施例提供一种数据实时交互式挖掘流建模分析系统,如图4所示,所述交互式界面包括:
组件功能界面,用于展示功能组件库,基于所述组件功能界面可以将本次数据挖掘需要用到的功能组件通过交互式操作添加到流程编辑界面;
所述流程编辑界面,用于提供数据挖掘编辑的区域,在所述区域内,通过将从所述组件功能界面添加的功能组件通过连线的方式进行编排和布局,建立挖掘流程图;
组件参数界面,可在所述数据挖掘编辑的区域进行显示,用于基于所述挖掘流程图中功能组件的连接关系,为所述功能组件进行交互式参数配置,得到挖掘流程。
在该实施例中,所述交互式界面包括在实时交互式系统中,所述实时交互式系统实现流程图的可视化编辑和洞察,如图10所示,由流程设计系统、流程洞察系统、配置系统构成,挖掘流在流程设计阶段由流程设计系统提供界面进行交互设计,挖掘流程图设计完成后,然后经由配置系统配置挖掘流的作业参数,然后构建分析处理作业,那么,流程设计系统会根据绘制的流程以及作业配置参数构建挖掘流程文件,文件提交到挖掘流程机解析文并编译分布式处理逻辑,将分布式处理逻辑提交到计算集群进行计算处理。
上文所述的流程洞察系统提供对挖掘流程图的信息洞察,包括:流程设计阶段的元信息洞察和流程分析阶段的执行洞察。
元信息洞察:元信息洞察是流程设计阶段做的洞察,在流程设计阶段,配置组件的连接关系后需要配置组件的参数,而组件参数的配置往往需要结合上游组件传递来的数据字段信息,包括数据字段的名称、字段类型等信息,元信息洞察提供实时查看这些信息,并且根据组件的配置从逻辑角度更新字段的元信息到下游组件流动;
执行洞察:挖掘流程执行过程中或执行完成后可以查看组件执行前后的信息洞察,以此可以审视挖掘流程的执行结果是否满足建模逻辑需求,执行洞察可以查看每个功能组件的洞察信息以及整个作业流程的日志信息等洞察信息。
上述设计方案的有益效果是:通过交互式界面,为数据分析处理提供了交互平台,从而保证了数据分析的实时交互性。
实施例7
基于实施例1的基础上,本发明实施例提供一种数据实时交互式挖掘流建模分析系统,如图5所示,所述挖掘流程机包括:
分析单元,用于对所述挖掘流程进行解析,得到所述挖掘流程的配置参数信息和布局信息,并对所述配置参数信息进行语义检测,得到参数语义结果;对所述布局信息进行结构检测,得到布局结构结果;
检索单元,用于基于所述挖掘流程的语义分析结果检索用户的操作信息,基于所述操作信息获取用户的工作日志,提取所述工作日志的时间戳,基于所述时间戳对所述工作日志进行排序,得到工作日志序列;
处理单元,用于对所述挖掘流程的布局结构结果输入布局步骤分析模型中,获取所述布局结构结果对应的布局步骤;
匹配单元,用于基于预设布局-操作对应关系,按照所述工作日志序列中的顺序,将所述工作日志与所述布局步骤进行匹配;
修正单元,用于判断所述工作日志是否与所述布局步骤全部匹配,若否,获取所述工作日志序列中不匹配的工作日志,和所述不匹配的工作日志的对应的布局步骤,提取所述不匹配的工作日志的关键词,并根据所述关键词对所述对应的布局步骤进行修正,得到修正后的布局步骤,并获取修正后的布局步骤与所述工作日志的匹配结果;
生成单元,基于所述匹配结果,将所述工作日志与所述修正后的布局步骤进行绑定,获得绑定关系,基于所述绑定关系,生成挖掘逻辑;
构建单元,用于根据预设的逻辑规则,提取所述挖掘逻辑中的逻辑因子,基于所述逻辑因子,从公式库中选取所需的计算公式,根据所述逻辑因子和计算公式,构建计算分析逻辑;
评估单元,用于根据预设的逻辑评估模型对所述计算分析逻辑进行评估,判断所述计算分析逻辑是否满足预设要求,若否,则基于所述修正单元,对所述布局步骤进行再次修正,直到所述构建的计算分析逻辑满足所述预设要求;
部署单元,用于基于满足所述预设要求的计算分析逻辑,进行部署执行,完成建模。
在该实施例中,所述工作日志包括用户的操作时间、操作指令、运行结果等。
在该实施例中,所述布局步骤为形成所述挖掘流程的步骤,所述挖掘流程的步骤形成过程中,需要根据用户相应操作进行配合,用户的操作信息通过工作日志来反应。
在该实施例中,所述匹配结果表示所述布局步骤与所述工作日志之间的匹配程度,若所述布局步骤与所述工作日志之间之间不匹配时,根据所述修正单元,根据所述工作日志对布局步骤进行修正,使得到的布局步骤更加合理,与操作信息更加匹配。
上述设计方案的有益效果是:通过挖掘流程机对挖掘流程进行部署执行,完成建模,在部署执行过程中结合用户的操作信息进行交互式分析处理,保证了分析的灵活性。
实施例8
基于实施例1的基础上,本发明实施例提供一种数据实时交互式挖掘流建模分析系统,如图6所示,还包括:验证模块,用于对所述处理分析模块中分各个功能模块进行功能验证,其过程包括:
第一解析单元,用于获取功能模块的配置信息,并对所述配置信息进行解析,得到配置参数、配置指令;
第一计算单元,用于基于所述配置信息,获取所述功能模块的第一功能值;
Figure BDA0003051984310000151
其中,G1表示所述功能模块的第一功能值,ε表示所述功能模块的配置因子,取值为(0,2),α表示所述功能模块的配置指令的参数值,取值为(0,1),β表示基于所述配置指令的执行值,取值为(0,1),α>β,且e表示自然常数,取值为2.72,E表示所述功能模块的配置资源的参数值,取值为(0,1),Z表示所述功能模块的配置标识的参数值,取值为(0,1);
第二解析单元,用于获取所述功能模块的接口信息,并对所述接口信息进行解析,得到接口的数量,接口的属性参数,接口的调用参数,接口的兼容参数;
第二计算单元,用于基于所述解析结果,获取所述功能模块的第二功能值;
Figure BDA0003051984310000152
其中,G2表示所述功能模块的第二功能值,δ表示所述功能模块的接口配置因子,取值为(0,2),γi表示所述功能模块的第i个接口的属性参数值,γ0表示接口的标准属性参数值,Ti表示所述第i个接口的调用参数值,T0表示接口的标准调用参数值,Ri表示所述第i个接口的兼容参数值,R0表示接口的标准兼容参数值,n表示所述功能模块的接口数量;
验证单元,用于基于所述功能模块第一功能值和第二功能值,从模块功能库中,确定所述功能模块的功能信息,判断所述功能模块的功能信息与预设功能信息是否匹配;
若匹配,确定所述功能模块的配置准确;
否则,基于匹配结果,重新对所述功能模块进行参数配置,直到所述功能模块的功能信息与预设功能信息相匹配。
在该实施例中,所述功能模块的配置因子,用来表示所述功能模块的配置能力,取值越大,配置能力越大。
在该实施例中,所述配置指令的执行值用来表示所述配置指令的执行情况,执行力越强。取值越大。
在该实施例中,所述功能模块的接口配置因子,用来表示所述功能模块的接口配置能力,配置能力越大,取值越大。
在该实施例中,均对所述属性参数值、调用参数值、兼容参数值、标准属性参数值、标准调用参数值、标准兼容参数值进行了归一化处理,取值范围均为(0,1)。
在该实施例中,所述功能模块的第一功能值用来表示由所述功能模块的配置信息确定的所述述功能模块的功能,其取值对应不同功能,由模块功能库确定,在计算所述第一功能值时,通过所述功能模块的配置资源的参数值、配置标识的参数值、配置指令的参数值来反应功能模块的配置信息,使得到的第一功能值能够更好的确定功能模块的功能。
在该实施例中,所述所述功能模块的第一功能值用来表示由所述功能模块的接口信息确定的所述述功能模块的功能,其取值对应不同功能,由模块功能库确定,在计算所述第二功能值时,通过接口属性参数值、调用参数值、兼容参数值与标准属性参数值、标准调用参数值、标准兼容参数值的比较,来确定接口的具体功能,使得到的第二功能值能够更好的确定功能模块的功能。
在该实施例中,所述模块功能库中由功能-取值组成,不同的取值范围对应不同的功能。
在该实施例中,所述标准属性参数值、标准调用参数值、标准兼容参数值均由接口的类型确定,例如若接口的类型为输入接口,标准属性参数值为0.2,若接口的类型为输出接口,标准属性参数值为0.8。
在该实施例中,所述功能模块的配置因子是根据所述功能模块的配置信息(网络配置、功耗配置等)得出,例如网络配置、功耗配置更高,对应的配置因子越大。
在该实施例中,所述功能模块的配置指令的参数值是根据配置指令得到的,例如配置指令为数据传输时,对应的参数值为0.4,配置指令为数据筛选时,对应的参数值为0.8。
在该实施例中,所述配置指令的执行值根据所述配置指令的执行时间决定,例如配置指令为数据传输的执行时间比配置指令为数据筛选的执行时间短,则数据传输对应的执行值大于数据筛选对应的执行值。
在该实施例中,所述功能模块的配置资源的参数值为根据所述功能模块预设功能信息所决定,例如,预设功能信息有数据处理、数据显示等。
在该实施例中,所述所述功能模块的配置标识的参数值由所述功能模块的标识符决定,不同的标识符对应不同的参数值。
在该实施例中,所述功能模块的接口配置因子由所述接口类型数量所决定,功能模块的接口类型数量越多,接口配置因子越大,接口类型有输入接口和输出接口等。
在该实施例中,所述功能模块接口的属性参数值用来表征接口的属性,接口的调用参数值用来表征接口的调用能力,接口的兼容参数值用来表征接口的兼容性。
在该实施例中,所述功能模块的配置指令的参数值与所述配置指令的执行值的差值越大、乘积越小,表明所述功能模块的配置能力与执行能力越匹配,对应的第一功能值越大。
在该实施例中,所述功能模块的配置资源的参数值、配置标识的参数值越大,表明所述功能模块的配置资源、配置标识越好,对应的第一功能值越大。
在该实施例中,所述功能模块的第i个接口的属性参数值与标准属性参数值比值来确定第i个接口的属性标准程度,第i个接口的调用参数值与标准调用参数值差值的平方来确定第i个接口的调用准确性,第i个接口的兼容参数值与标准兼容参数值差值的平方来确定第i个接口的兼容标准程度。
上述设计方案的有益效果是:通过基于功能模块的配置及预设的功能信息,对所述处理分析模块中分各个功能模块进行功能验证,确保了各个功能模块中功能的准确性,为分析处理模块中数据的交互式分析提供精确的系统配置基础。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种数据实时交互式挖掘流建模分析系统,其特征在于,包括:
处理分析模块,由多个功能模块组成,每个功能模块用于完成对应的分析处理功能,其中,所述功能模块是基于挖掘处理作业对象对应的功能,来对功能组件进行划分得到的;
交互式界面,用于实现用户和所述处理分析模块之间的交互式互动,得到挖掘流程;
挖掘流程机,用于对所述挖掘流程进行分析,得到挖掘逻辑,并基于所述挖掘逻辑构建计算分析逻辑,且将所述计算分析逻辑部署执行,完成建模。
2.根据权利要求1所述的一种数据实时交互式挖掘流建模分析系统,其特征在于,还包括:功能获取模块,用于获取所述挖掘处理作业对象对应的功能,包括:
编译单元,用于获取用户定义的操作配置信息,基于所述操作配置信息构建挖掘模型配置文件,并将所述挖掘模型配置文件编译成对应的挖掘处理作业对象;
获取单元,用于将所述挖掘处理作业对象发送至分布式集群计算资源处进行分析,获取所述挖掘处理作业对象对应的功能。
3.根据权利要求1所述的一种数据实时交互式挖掘流建模分析系统,其特征在于,还包括:划分模块,用于基于所述挖掘处理作业对象对应的功能,对功能组件进行划分得到多个功能模块,包括:
解析单元,用于对所述挖掘处理作业对象对应的功能进行解析,得到功能对应的部署信息;
接收单元,用于基于当前功能组件的输入端口,接收上游功能组件传递的数据,接收用户对于所述当前功能组件定义的组件配置参数;并基于所述上游功能组件传递的数据,结合所述组件配置参数,确定所述当前功能组件的接口信息;
确定单元,用于基于预设的部署-接口信息的对应关系,确定当前功能组件的功能,并将所述当前功能组件作为所述处理分析模块的一个功能模块,且根据所述当前功能组件的功能,确定对应功能模块的模块名称。
4.根据权利要求1所述的一种数据实时交互式挖掘流建模分析系统,其特征在于,所述处理分析模块包括:
数据IO模块,用于所述挖掘流建模分析系统的数据读取和输出,支持主流形式数据源的数据读取和输出;
数据预处理模块,用于接收所述数据IO模块读取的数据,并对所述读取的数据进行清洗操作,且在进行数据操作的过程中与用户进行交互式联系,根据用户的实时操作行为完成对数据的清洗;
建模分析模块,用于对经过所述数据预处理模块清洗后的数据,利用建模分析算法实现对数据的建模分析,并将经过建模分析后的数据经过所述数据IO模块进行输出。
5.根据权利要求4所述的一种数据实时交互式挖掘流建模分析系统,其特征在于,所述数据预处理模块包括:
执行器,用于接收用户的实时操作行为,将所述操作行为进行编译,并将编译作业信息提交至计算引擎进行计算,且将计算结果进行实时反馈,并将所述操作行为更新至操作队列;
所述操作队列,用于记录用户的操作形成队列,并支持所述操作形成队列的增删改查;
表格组件,用于将对所述用户的实时操作行为的响应数据进行展示,并为用户提供操作入口和操作数据的展示;
所述计算引擎,用于通过所述实时操作行为执行实现所述执行器提交的操作。
6.根据权利要求1所述的一种数据实时交互式挖掘流建模分析系统,其特征在于,所述交互式界面包括:
组件功能界面,用于展示功能组件库,基于所述组件功能界面可以将本次数据挖掘需要用到的功能组件通过交互式操作添加到流程编辑界面;
所述流程编辑界面,用于提供数据挖掘编辑的区域,在所述区域内,通过将从所述组件功能界面添加的功能组件通过连线的方式进行编排和布局,建立挖掘流程图;
组件参数界面,可在所述数据挖掘编辑的区域进行显示,用于基于所述挖掘流程图中功能组件的连接关系,为所述功能组件进行交互式参数配置,得到挖掘流程。
7.根据权利要求1所述的一种数据实时交互式挖掘流建模分析系统,其特征在于,所述挖掘流程机包括:
分析单元,用于对所述挖掘流程进行解析,得到所述挖掘流程的配置参数信息和布局信息,并对所述配置参数信息进行语义检测,得到语义分析结果;对所述布局信息进行结构检测,得到布局结构结果;
检索单元,用于基于所述挖掘流程的语义分析结果检索用户的操作信息,基于所述操作信息获取用户的工作日志,提取所述工作日志的时间戳,基于所述时间戳对所述工作日志进行排序,得到工作日志序列;
处理单元,用于对所述挖掘流程的布局结构结果输入布局步骤分析模型中,获取所述布局结构结果对应的布局步骤;
匹配单元,用于基于预设布局-操作对应关系,按照所述工作日志序列中的顺序,将所述工作日志与所述布局步骤进行匹配;
修正单元,用于判断所述工作日志是否与所述布局步骤全部匹配,若否,获取所述工作日志序列中不匹配的工作日志,和所述不匹配的工作日志的对应的布局步骤,提取所述不匹配的工作日志的关键词,并根据所述关键词对所述对应的布局步骤进行修正,得到修正后的布局步骤,并获取修正后的布局步骤与所述工作日志的匹配结果;
生成单元,基于所述匹配结果,将所述工作日志与所述修正后的布局步骤进行绑定,获得绑定关系,基于所述绑定关系,生成挖掘逻辑;
构建单元,用于根据预设的逻辑规则,提取所述挖掘逻辑中的逻辑因子,基于所述逻辑因子,从公式库中选取所需的计算公式,根据所述逻辑因子和计算公式,构建计算分析逻辑;
评估单元,用于根据预设的逻辑评估模型对所述计算分析逻辑进行评估,判断所述计算分析逻辑是否满足预设要求,若否,则基于所述修正单元,对所述布局步骤进行再次修正,直到所述构建的计算分析逻辑满足所述预设要求;
部署单元,用于基于满足所述预设要求的计算分析逻辑,进行部署执行,完成建模。
8.根据权利要求1所述的一种数据实时交互式挖掘流建模分析系统,其特征在于,还包括:验证模块,用于对所述处理分析模块中分各个功能模块进行功能验证,其过程包括:
第一解析单元,用于获取功能模块的配置信息,并对所述配置信息进行解析,得到配置参数、配置指令;
第一计算单元,用于基于所述配置信息,获取所述功能模块的第一功能值;
Figure FDA0003051984300000041
其中,G1表示所述功能模块的第一功能值,ε表示所述功能模块的配置因子,取值为(0,2),α表示所述功能模块的配置指令的参数值,取值为(0,1),β表示基于所述配置指令的执行值,取值为(0,1),α>β,且e表示自然常数,取值为2.72,E表示所述功能模块的配置资源的参数值,取值为(0,1),Z表示所述功能模块的配置标识的参数值,取值为(0,1);
第二解析单元,用于获取所述功能模块的接口信息,并对所述接口信息进行解析,得到接口的数量,接口的属性参数,接口的调用参数,接口的兼容参数;
第二计算单元,用于基于解析结果,获取所述功能模块的第二功能值;
Figure FDA0003051984300000051
其中,G2表示所述功能模块的第二功能值,δ表示所述功能模块的接口配置因子,取值为(0,2),γi表示所述功能模块的第i个接口的属性参数值,γ0表示接口的标准属性参数值,Ti表示所述第i个接口的调用参数值,T0表示接口的标准调用参数值,Ri表示所述第i个接口的兼容参数值,R0表示接口的标准兼容参数值,n表示所述功能模块的接口数量;
验证单元,用于基于所述功能模块第一功能值和第二功能值,从模块功能库中,确定所述功能模块的功能信息,判断所述功能模块的功能信息与预设功能信息是否匹配;
若匹配,确定所述功能模块的配置准确;
否则,基于匹配结果,重新对所述功能模块进行参数配置,直到所述功能模块的功能信息与预设功能信息相匹配。
CN202110490915.5A 2021-05-06 2021-05-06 一种数据实时交互式挖掘流建模分析系统 Active CN113190582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110490915.5A CN113190582B (zh) 2021-05-06 2021-05-06 一种数据实时交互式挖掘流建模分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110490915.5A CN113190582B (zh) 2021-05-06 2021-05-06 一种数据实时交互式挖掘流建模分析系统

Publications (2)

Publication Number Publication Date
CN113190582A true CN113190582A (zh) 2021-07-30
CN113190582B CN113190582B (zh) 2021-11-16

Family

ID=76983773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110490915.5A Active CN113190582B (zh) 2021-05-06 2021-05-06 一种数据实时交互式挖掘流建模分析系统

Country Status (1)

Country Link
CN (1) CN113190582B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114968246A (zh) * 2022-08-01 2022-08-30 深圳市明源云科技有限公司 数据分析组件生成方法、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693317A (zh) * 2012-05-29 2012-09-26 华为软件技术有限公司 数据挖掘流程生成方法及装置
US9043337B1 (en) * 2011-11-03 2015-05-26 Yi-Ling Chen Data mining and model generation using an in-database analytic flow generator
CN111367969A (zh) * 2020-03-19 2020-07-03 北京三维天地科技股份有限公司 一种数据挖掘方法和系统
CN111861020A (zh) * 2020-07-27 2020-10-30 深圳壹账通智能科技有限公司 模型部署方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043337B1 (en) * 2011-11-03 2015-05-26 Yi-Ling Chen Data mining and model generation using an in-database analytic flow generator
CN102693317A (zh) * 2012-05-29 2012-09-26 华为软件技术有限公司 数据挖掘流程生成方法及装置
CN111367969A (zh) * 2020-03-19 2020-07-03 北京三维天地科技股份有限公司 一种数据挖掘方法和系统
CN111861020A (zh) * 2020-07-27 2020-10-30 深圳壹账通智能科技有限公司 模型部署方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANNICYBC: ""SPSS Clementine 数据挖掘入门"", 《HTTPS://BLOG.CSDN.NET/ANNICYBC/ARTICLE/DETAILS/5200141》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114968246A (zh) * 2022-08-01 2022-08-30 深圳市明源云科技有限公司 数据分析组件生成方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN113190582B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
Van Deursen et al. Symphony: View-driven software architecture reconstruction
Clements A survey of architecture description languages
CN101174212A (zh) 用于接口的协作衍生的方法和系统
WO2012037168A2 (en) Software design and automatic coding for parallel computing
Khan et al. Propagating visual designs to numerous plots and dashboards
Kindler et al. Process mining and petri net synthesis
CN113190582B (zh) 一种数据实时交互式挖掘流建模分析系统
CN111914066A (zh) 多源数据库全局搜索方法及系统
CN109800147B (zh) 一种测试案例生成方法及终端设备
Kanellopoulos et al. Data mining source code to facilitate program comprehension: experiments on clustering data retrieved from C++ programs
CN101778110B (zh) 业务协议挖掘方法及装置
Chen et al. Employing a parametric model for analytic provenance
CN105814598B (zh) 用于金融建模的四值蒙特卡罗仿真的方法和系统
CN113962549A (zh) 一种基于电网运行知识的业务流程编排方法及系统
Sengupta et al. Use of semi-formal and formal methods in requirement engineering of ILMS
Meinecke et al. Visualizing RCE Workflow Executions via W3C Provenance
CN114218114B (zh) 基于接口流程编排的全自动测试数据生成方法
Štěpánková et al. Preprocessing for data mining and decision support
CN116860227B (zh) 一种基于大数据etl脚本编排的数据开发系统及方法
US20230350652A1 (en) Job decomposition processing method for distributed computing
Parkkila CLONE DETECTION IN MODEL-BASED DESIGN: AN EVALUATION IN THE SAFETY-CRITICAL RAILWAY DOMAIN
Lukyanenko et al. ER-Demos-Posters 2021
CN116450719A (zh) 一种数据处理系统及方法
Corradini et al. Categorical rewriting of term-like structures
Guan et al. A dynamic model slicing approach for system comprehension during software evolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant