CN113468237A - 一种业务数据处理模型生成方法、系统构建方法及装置 - Google Patents
一种业务数据处理模型生成方法、系统构建方法及装置 Download PDFInfo
- Publication number
- CN113468237A CN113468237A CN202110652668.4A CN202110652668A CN113468237A CN 113468237 A CN113468237 A CN 113468237A CN 202110652668 A CN202110652668 A CN 202110652668A CN 113468237 A CN113468237 A CN 113468237A
- Authority
- CN
- China
- Prior art keywords
- tool
- variable
- variables
- data processing
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000010276 construction Methods 0.000 title claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 138
- 238000007689 inspection Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 21
- 238000004458 analytical method Methods 0.000 abstract description 14
- 230000000875 corresponding effect Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 9
- 238000013095 identification testing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013488 ordinary least square regression Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000000528 statistical test Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本公开关于一种业务数据处理模型生成方法、系统构建方法及装置,所述业务数据处理模型生成方法包括:确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量;根据所述初始业务数据处理模型,确定候选工具变量;基于所述候选工具变量对所述解释变量进行内生性检验;当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验;当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量;基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型。本公开能够解决相关技术中对分析模型参数的估计有偏差,从而导致数据分析结果不准确的问题。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种业务数据处理模型生成方法、系统构建方法及装置。
背景技术
在进行数据分析时,回归作为一种常见的分析模型,经常被用来研究因变量和自变量之间的关系,但有时直接做回归可能会产生内生性的问题,内生性主要来源于模型设置错误或者测量误差。在业务场景中有些模型设置是无法避免的,例如推送机制决定低活用户更容易收到推送,如果要分析推送消息数量对用户使用软件时长的影响,用简单的回归模型来估计,就会产生内生性的问题,导致得到的参数估计是有偏的。这时可以引入工具变量,合适的工具变量可以过滤内生性,减少内生变量的影响,从而提高数据分析结果的准确性。
相关技术中,主要根据经验确定工具变量,并直接基于根据经验确定的工具变量进行数据分析处理,这样会导致对分析模型参数的估计有偏差,从而使得数据分析结果不准确。
发明内容
本公开提供一种业务数据处理模型生成方法、系统构建方法及装置,以至少解决相关技术中对分析模型参数的估计有偏差,从而导致数据分析结果不准确的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种业务数据处理模型生成方法,包括:
确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量;所述解释变量为所述业务数据处理模型中对业务数据预测目标产生影响的变量;
根据所述初始业务数据处理模型,确定候选工具变量;
基于所述候选工具变量对所述解释变量进行内生性检验;
当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验;
当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量;
基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型。
在一示例性实施例中,所述从所述候选工具变量中确定出目标工具变量包括:
比较所述解释变量的数量与所述候选工具变量的数量;
当所述解释变量与所述候选工具变量的数量相等时,将所述候选工具变量确定为所述目标工具变量;
当所述解释变量小于所述候选工具变量的数量时,对所述候选工具变量进行过识别检验;
基于对所述候选工具变量进行过识别检验的结果,确定所述目标工具变量。
在一示例性实施例中,所述基于对所述候选工具变量进行过识别检验的结果,确定所述目标工具变量包括:
当所述候选工具变量通过过识别检验时,将所述候选工具变量确定为所述目标工具变量。
在一示例性实施例中,所述基于对所述候选工具变量进行过识别检验的结果,确定所述目标工具变量包括:
当所述候选工具变量没有通过过识别检验时,基于所述候选工具变量确定当前工具变量组;
重复执行以下步骤:
对于每个当前工具变量组,从所述当前工具变量组中删除一个工具变量,得到至少一个更新后工具变量组;
遍历每个所述更新后工具变量组,对每个所述更新后工具变量组均执行以下操作:
若当前更新后工具变量组通过过识别检验时,判断所述当前更新后工具变量组是否通过内生性检验和相关性检验;
在所述至少一个更新后工具变量组均没有通过内生性检验和相关性检验时,分别确定每个所述更新后工具变量组为所述当前工具变量组;
在所述至少一个更新后工具变量组存在通过内生性检验和相关性检验的更新后工具变量组时,将所述通过内生性检验和相关性检验的更新后工具变量组确定为候选工具变量组;
直至所述当前工具变量组中工具变量的数量等于所述解释变量的数量,或所述候选工具变量组已确定;
当所述候选工具变量组未确定时,基于所述当前工具变量组确定所述目标工具变量;
当所述候选工具变量组已确定时,基于所述候选工具变量组确定所述目标工具变量。
在一示例性实施例中,所述方法还包括:
当前更新后工具变量组没有通过过识别检验时,对所述至少一个更新后工具变量组中,没有进行过识别检验的更新后工具变量组进行过识别检验。
在一示例性实施例中,所述当所述候选工具变量组未确定,基于所述当前工具变量组确定所述目标工具变量包括:
若所述当前工具变量组的数量为多个时,对所述每个当前工具变量组进行内生性检验和相关性检验;
将通过内生性检验和相关性检验的当前工具变量组确定为待确定工具变量组;
所述待确定工具变量的数量为多个时,获取每个所述待确定工具变量组在进行相关性检验后的相关性检验值;
基于与每个所述待确定工具变量组对应的相关性检验值,从多个所述待确定工具变量组中确定出目标工具变量组;
将所述目标工具变量组中的工具变量确定为目标工具变量。
在一示例性实施例中,所述当所述候选工具变量组已确定时,基于所述候选工具变量组确定所述目标工具变量包括:
所述候选工具变量组的数量为多个时,获取每个所述候选工具变量组在进行相关性检验后的相关性检验值;
基于与每个所述候选工具变量组对应的相关性检验值,从多个所述候选工具变量组确定出目标工具变量组;
将所述目标工具变量组中的工具变量确定为目标工具变量。
根据本公开实施例的第二方面,提供一种业务数据处理系统的构建方法,包括:
获取预设程序框架;
获取第一业务代码;其中所述第一业务代码用于确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量;所述解释变量为所述业务数据处理模型中对业务数据预测目标产生影响的变量;根据所述初始业务数据处理模型,确定候选工具变量;
获取第二业务代码;其中所述第二业务代码用于基于所述候选工具变量对所述解释变量进行内生性检验;当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验;当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量;
获取第三业务代码;其中所述第三业务代码用于基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型;
基于所述预设程序框架、所述第一业务代码、所述第二业务代码以及所述第三业务代码,构建所述业务数据处理系统。
根据本公开实施例的第三方面,提供一种业务数据处理模型生成装置,包括:
初始模型确定单元,被配置为执行确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量;所述解释变量为所述业务数据处理模型中对业务数据预测目标产生影响的变量;
候选工具变量确定单元,被配置为执行根据所述初始业务数据处理模型,确定候选工具变量;
第一检验单元,被配置为执行基于所述候选工具变量对所述解释变量进行内生性检验;
第二检验单元,被配置为执行当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验;
目标工具变量确定单元,被配置为执行当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量;
目标模型生成单元,被配置为执行基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型。
在一示例性实施例中,所述目标工具变量确定单元包括:
第一比较单元,被配置为执行比较所述解释变量的数量与所述候选工具变量的数量;
第一确定单元,被配置为执行当所述解释变量与所述候选工具变量的数量相等时,将所述候选工具变量确定为所述目标工具变量;
第三检验单元,被配置为执行当所述解释变量小于所述候选工具变量的数量时,对所述候选工具变量进行过识别检验;
第二确定单元,被配置为执行基于对所述候选工具变量进行过识别检验的结果,确定所述目标工具变量。
在一示例性实施例中,所述第二确定单元包括:
第三确定单元,被配置为执行当所述候选工具变量通过过识别检验时,将所述候选工具变量确定为所述目标工具变量。
在一示例性实施例中,所述第二确定单元包括:
第四确定单元,被配置为执行当所述候选工具变量没有通过过识别检验时,基于所述候选工具变量确定当前工具变量组;
重复执行单元,被配置为重复执行以下步骤:
对于每个当前工具变量组,从所述当前工具变量组中删除一个工具变量,得到至少一个更新后工具变量组;
遍历每个所述更新后工具变量组,对每个所述更新后工具变量组均执行以下操作:
若当前更新后工具变量组通过过识别检验时,判断所述当前更新后工具变量组是否通过内生性检验和相关性检验;
在所述至少一个更新后工具变量组均没有通过内生性检验和相关性检验时,分别确定每个所述更新后工具变量组为所述当前工具变量组;
在所述至少一个更新后工具变量组存在通过内生性检验和相关性检验的更新后工具变量组时,将所述通过内生性检验和相关性检验的更新后工具变量组确定为候选工具变量组;
直至所述当前工具变量组中工具变量的数量等于所述解释变量的数量,或所述候选工具变量组已确定;
第五确定单元,被配置为执行当所述候选工具变量组未确定时,基于所述当前工具变量组确定所述目标工具变量;
第六确定单元,被配置为执行当所述候选工具变量组已确定时,基于所述候选工具变量组确定所述目标工具变量。
在一示例性实施例中,所述重复执行单元包括:
第四检验单元,被配置为执行当前更新后工具变量组没有通过过识别检验时,对所述至少一个更新后工具变量组中,没有进行过识别检验的更新后工具变量组进行过识别检验。
在一示例性实施例中,所述第五确定单元包括:
第五检验单元,被配置为执行所述当前工具变量组的数量为多个时,对所述每个当前工具变量组进行内生性检验和相关性检验;
待确定工具变量组确定单元,被配置为执行将通过内生性检验和相关性检验的当前工具变量组确定为待确定工具变量组;
第一获取单元,被配置为执行所述待确定工具变量的数量为多个时,获取每个所述待确定工具变量组在进行相关性检验后的相关性检验值;
第一目标工具变量组确定单元,被配置为执行基于与每个所述待确定工具变量组对应的相关性检验值,从多个所述待确定工具变量组中确定出目标工具变量组;
第一工具变量确定单元,被配置为执行将所述目标工具变量组中的工具变量确定为目标工具变量。
在一示例性实施例中,所述第六确定单元包括:
第六检验单元,被配置为执行所述候选工具变量组的数量为多个时,获取每个所述候选工具变量组在进行相关性检验后的相关性检验值;
第二目标工具变量组确定单元,被配置为执行基于与每个所述候选工具变量组对应的相关性检验值,从多个所述候选工具变量组确定出目标工具变量组;
第二工具变量确定单元,被配置为执行将所述目标工具变量组中的工具变量确定为目标工具变量。
根据本公开实施例的第四方面,提供一种业务数据处理系统的构建装置,包括:
预设程序框架获取单元,被配置为执行获取预设程序框架;
第一业务代码获取单元,被配置为执行获取第一业务代码;其中所述第一业务代码用于确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量;所述解释变量为所述业务数据处理模型中对业务数据预测目标产生影响的变量;根据所述初始业务数据处理模型,确定候选工具变量;
第二业务代码获取单元,被配置为执行获取第二业务代码;其中所述第二业务代码用于基于所述候选工具变量对所述解释变量进行内生性检验;当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验;当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量;
第三业务代码获取单元,被配置为执行获取第三业务代码;其中所述第三业务代码用于基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型;
构建单元,被配置为执行基于所述预设程序框架、所述第一业务代码、所述第二业务代码以及所述第三业务代码,构建所述业务数据处理系统。
根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上所述的业务数据处理模型生成方法,或业务数据处理系统的构建方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上所述的业务数据处理模型生成方法,或业务数据处理系统的构建方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行上述的业务数据处理模型生成方法,或业务数据处理系统的构建方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开根据业务数据处理模型确定相应的候选工具变量,这里的候选工具变量可以是根据分析经验选取的;基于候选工具变量对解释变量的内生性进行检验,当内生性检验通过时,对候选工具变量和解释变量的相关性进行检验,当相关性检验通过时,从候选工具变量中确定出目标工具变量;本公开中在确定了候选工具变量之后,对候选工具变量进行了一系列的检验,并根据检验结果对候选工具变量进行筛选,以得到符合检验要求的工具变量,避免了相关技术中为了进行数据分析而盲目选择工具变量的问题。本公开能够在进行数据分析时提供工具变量选择的指导,避免对分析模型参数的有偏估计,从而提高数据分析结果的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的实施环境示意图。
图2是根据一示例性实施例示出的一种业务数据处理模型生成方法流程图。
图3是根据一示例性实施例示出的一种目标工具变量确定方法流程图。
图4是根据一示例性实施例示出的一种工具变量筛选方法流程图。
图5是根据一示例性实施例示出的另一种目标工具变量确定方法流程图。
图6是根据一示例性实施例示出的又一种目标工具变量确定方法流程图。
图7是根据一示例性实施例示出的一种业务数据处理系统构建方法流程图。
图8是根据一示例性实施例示出的一种业务数据处理模型生成装置示意图。
图9是根据一示例性实施例示出的一种业务数据处理系统的构建装置示意图。
图10是根据一示例性实施例示出的一种电子设备结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
请参阅图1,其示出了本公开实施例提供的实施环境示意图,该实施环境可包括:至少一个第一终端110和第二终端120,所述第一终端110和所述第二终端120可通过网络进行数据通信。
具体地,第一终端110生成数据分析指令,并将数据分析指令发送给第二终端120;第二终端120在接收到数据分析指令时,获取相关数据以及调用相应的数据处理模型进行数据处理,生成数据处理结果;第二终端120将数据处理结果发送给第一终端110。其中,数据处理模型的生成可以是在第一终端110实现,也可以在第二终端120实现。
第一终端110可以基于浏览器/服务器模式(Browser/Server,B/S)或客户端/服务器模式(Client/Server,C/S)与第二终端120进行通信。第一终端110可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本公开实施例中的第一终端110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
第二终端120与第一终端110可以通过有线或者无线建立通信连接,所述第二终端120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,其中服务器可以是云端服务器。
为了解决相关技术中对分析模型参数的估计有偏差,从而导致数据分析结果不准确的问题,本公开实施例提供了一种业务数据处理模型生成方法,该方法的执行主体可以为上述的第一终端,也可以为上述的第二终端,具体地,该方法可包括:
S210.确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量。所述解释变量为所述业务数据处理模型中对业务数据预测目标产生影响的变量。
本公开实施例中的业务数据可以是指使用互联网软件所产生的相关数据,包括用户数据、互联网软件自身数据等。
在实施过程中,可根据业务数据处理目标确定相应的业务处理模型,例如业务数据预测目标为分析影响用户使用软件时长的相关因素,这里的相关因素可包括推送消息数量,即分析推送消息数量对用户使用软件时长的影响,可采用回归模型,将推送消息数量作为自变量,也称解释变量,将用户使用软件时长作为因变量,也称被解释变量,从而构建了初始业务数据处理模型。
S220.根据所述初始业务数据处理模型,确定候选工具变量。
工具变量是指一个外生因素,这个因素与误差项无关,但又和解释变量高度相关,基于对工具变量的定义,可以凭相应业务类型的经验确定出相应的候选工具变量。
S230.基于所述候选工具变量对所述解释变量进行内生性检验。
内生性检验是指检验解释变量是否内生,这也是运用工具变量的重要前提条件;具体在检验内生性时,可以采用Durbin Hausman Wu指标,具体如式(1)所示:
其中,
PZ=Z(Z'Z)-1Z' (2)
PZY1=[ZY1]([ZY1]'[ZY1])-1[ZY1]' (3)
是估计模型的残差,PZ是工具变量的幂等矩阵,p是内生变量的数量,p1是指假设访问发现页不是内生情况下,内生变量的数量;uc是指假设某个内生变量不是内生,对模型做分析得到的残差;ue是指用所有工具变量对模型做2SLS(Two Stage Least Squares,二阶段最小二乘法),得到第二阶段回归的残差;Z是工具变量矩阵加上外生变量矩阵;N是观测值数量;k1是工具变量的数量与外生变量的数量之和。
通过上述公式(1)计算得到的结果是一个统计检验值及其p值,如果检验显著,即p<0.05,则选择的内生变量确实为内生的。
S240.当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验。
在通过上述步骤S230中的内生性检验之后,若其中的解释变量是内生的,需要判断其使用的工具变量是否符合使用条件,即进行相关性检验。
本公开实施例中可采用强IV(instrumental variable,工具变量)检验来对解释变量和工具变量的相关性进行检验,具体地,强IV检验是指检验IV与内生解释变量的相关性强不强。如果IV和内生变量是弱相关的,会导致用IV估计的结果与OLS(ordinary leastsquares,普通最小二乘法)的结果差别很大,甚至完全相反,导致业务分析产生问题。这里的强IV检验用了Cragg andDonald统计指标,如式(4)所示:
其中,
MZ=I-Z(Z'Z)-1Z' (6)
MX1=I-X1(X1'X1)-1X1 (7)
kZ是工具变量的数量,也为Z矩阵的列数;∑vv是参数的方差矩阵,X是自变量,Y是因变量,X1为外生自变量矩阵,X2是工具变量矩阵,Z:[X1,X2],即外生自变量和工具变量矩阵,N是观测值数量。
根据式(4)得到的结果是关于G的统计检验值及其p值,如果检验显著,即p<0.05,工具变量和内生变量是强相关的。
S250.当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量。
在具体实施过程中,工具变量的数量一般大于或者等于解释变量的数量,从而在经过了内生性检验和相关性检验之后,可从候选工具变量中确定出目标工具变量,具体请参阅图3,其示出了一种目标工具变量确定方法,该方法可包括:
S310.比较所述解释变量的数量与所述候选工具变量的数量。
S320.当所述解释变量与所述候选工具变量的数量相等时,将所述候选工具变量确定为所述目标工具变量。
S330.当所述解释变量小于所述候选工具变量的数量时,对所述候选工具变量进行过识别检验。
S340.基于对所述候选工具变量进行过识别检验的结果,确定所述目标工具变量。
当解释变量的数量与候选工具变量的数量相等时,此时不需要再对候选工具变量进行进一步检验,可直接将当前候选工具变量确定为目标工具变量,从而能够提高工具变量的确定效率。
而对于候选工具数量大于解释变量的数量的情况,可对候选工具变量进行进一步检验,例如可以为过识别检验。虽然工具变量能够解决内生性的问题,但是并不是使用越多的工具变量就是越好的;比如在选择特别多的工具变量的时候,很可能某个工具变量不是外生的,因此需要进行过识别检验,该检验假设所有的工具变量是都外生的具体可采用Sargan统计指标,指标公式如下:
根据上述式(8)得到统计值结果及其p值,如果检验显著,即p<0.05,则说明工具变量太多,产生了过识别的问题,此时需要从当前候选工具变量中依次删掉一个工具变量,再重复上述检验步骤进行工具变量的筛选,从而得到符合检验要求的工具变量。
S260.基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型。
这里可基于符合要求的工具变量重新构建业务数据处理模型,以得到目标业务数据处理模型,从而得到了基于上述的业务数据处理目标对应的目标业务数据处理模型。
对于上述步骤S250中当候选工具变量存在过识别问题时,可进一步进行工具变量的筛选,具体请参阅图4,其示出了一种工具变量筛选方法,包括:
S4010.当所述候选工具变量没有通过过识别检验时,基于所述候选工具变量确定当前工具变量组。
当基于候选工具变量确定工具变量组时,其可看成是第一次分组,这里确定的当前工具变量组可包括当前候选工具变量,例如候选工具变量为a,b和c,那么当前工具变量组即为[a,b,c]。
重复执行以下步骤:
S4020.对于每个当前工具变量组,从所述当前工具变量组中删除一个工具变量,得到至少一个更新后工具变量组。
这里的删除一个工具变量可以是指每次依次删除一个工具变量,若当前工具变量组为[a,b,c],那么删除一个工具变量,得到的至少一个更新后工具变量组包括:[a,b],[a,c],[b,c]。
S4030.遍历每个所述更新后工具变量组,对每个所述更新后工具变量组均执行以下操作。
S4040.若当前更新后工具变量组通过过识别检验时,判断所述当前更新后工具变量组是否通过内生性检验和相关性检验。
S4050.判断所述至少一个更新后工具变量组是否存在通过内生性检验和相关性检验的更新后工具变量组。
S4060.若否,分别确定每个所述更新后工具变量组为所述当前工具变量组。
S4070.若是,将所述通过内生性检验和相关性检验的更新后工具变量组确定为候选工具变量组。
S4080.判断所述当前工具变量组中工具变量的数量等于所述解释变量的数量,或所述候选工具变量组已确定。
S4090.判断所述候选工具变量组是否已确定。
S4100.若否,基于所述当前工具变量组确定所述目标工具变量。
若候选工具变量组没有确定,说明循环结束时当前工具变量组中工具变量的数量等于所述解释变量的数量。
S4110.若是,基于所述候选工具变量组确定所述目标工具变量。
若候选工具变量确定了,说明循环结束时候选工具变量组已确定,此时当前工具变量组中工具变量的数量可以等于所述解释变量的数量,也可以大于所述解释变量的数量。
对于上述步骤S4040,若当前更新后工具变量组没有通过过识别检验时,对所述至少一个更新后工具变量组中,没有进行过识别检验的更新后工具变量组进行过识别检验。
例如,至少一个更新后工具变量组包括:[a,b],[a,c],[b,c],其中[a,b]没有通过过识别检验,则再对[a,c]进行过识别检验,或者对[b,c]进行过识别检验。
通过不断删减当前工具变量以得到符合要求的工具变量,避免了过识别的问题,从而基于确定的合理工具变量能够避免估计模型参数偏差,从而能够提高数据分析结果的准确性。
请参阅图5,其示出了一种目标工具变量确定方法,该方法对应的是上述步骤S4100中候选工具变量组没有确定的情况,此时当前工具变量组中工具变量的数量等于所述解释变量的数量,具体地,该方法可包括:
S510.所述当前工具变量组的数量为多个时,对所述每个当前工具变量组进行内生性检验和相关性检验。
S520.将通过内生性检验和相关性检验的当前工具变量组确定为待确定工具变量组。
S530.所述待确定工具变量的数量为多个时,获取每个所述待确定工具变量组在进行相关性检验后的相关性检验值。
S540.基于与每个所述待确定工具变量组对应的相关性检验值,从多个所述待确定工具变量组中确定出目标工具变量组。
S550.将所述目标工具变量组中的工具变量确定为目标工具变量。
若当前工具变量组的数量为多个时,可根据相关性检验值确定目标工具变量;相关性检验值越大,说明工具变量与解释变量的相关性越强,从而基于强相关的工具变量对分析模型进行的参数估计越准确,基于相应分析模型进行的数据分析结果也越准确。
请参阅图6,其示出了另一种目标工具变量确定方法,该方法对应的是上述步骤S4110中候选工具变量组确定的情况,此时当前工具变量组中工具变量的数量可以等于所述解释变量的数量,也可以大于所述解释变量的数量,该方法包括:
S610.所述候选工具变量组的数量为多个时,获取每个所述候选工具变量组在进行相关性检验后的相关性检验值。
S620.基于与每个所述候选工具变量组对应的相关性检验值,从多个所述候选工具变量组确定出目标工具变量组。
S630.将所述目标工具变量组中的工具变量确定为目标工具变量。
若当前候选工具变量组的数量为多个时,可根据相关性检验值确定目标工具变量;相关性检验值越大,说明工具变量与解释变量的相关性越强,从而基于强相关的工具变量对分析模型进行的参数估计越准确,基于相应分析模型进行的数据分析结果也越准确。
请参阅图7,其示出了一种业务数据处理系统构建方法,包括:
S710.获取预设程序框架。
S720.获取第一业务代码;其中所述第一业务代码用于确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量;所述解释变量为所述业务数据处理模型中对业务数据预测目标产生影响的变量;根据所述初始业务数据处理模型,确定候选工具变量。
S730.获取第二业务代码;其中所述第二业务代码用于基于所述候选工具变量对所述解释变量进行内生性检验;当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验;当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量。
S740.获取第三业务代码;其中所述第三业务代码用于基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型。
S750.基于所述预设程序框架、所述第一业务代码、所述第二业务代码以及所述第三业务代码,构建所述业务数据处理系统。
具体地,本公开实施例中可采用基于Python的程序框架来实现相应的业务数据处理系统,其中包括主函数ivtest模块,通过调用此模块可得到内生性检验、相关性检验以及过识别检验的检验结果,在具体输出时,可输出三个表格,每个表格会包括相应检验统计值,以及被其它置信区间包括的概率;也可将该程序模块封装成包,以便于程序存储和接口调用。
需要说明的是,本公开实施例中的工具变量组的内生性检验可以是指基于工具变量组中的工具变量对解释变量的内生性进行检验;工具变量组的相关性检验可以是指对工具变量组中的工具变量和解释变量的相关性进行检验;工具变量组的过识别检验可以是指对工具变量组中的工具变量进行过识别检验。
本公开根据业务数据处理模型确定相应的候选工具变量,这里的候选工具变量可以是根据分析经验选取的;基于候选工具变量对解释变量的内生性进行检验,当内生性检验通过时,对候选工具变量和解释变量的相关性进行检验,当相关性检验通过时,从候选工具变量中确定出目标工具变量;本公开中在确定了候选工具变量之后,对候选工具变量进行了一系列的检验,并根据检验结果对候选工具变量进行筛选,以得到符合检验要求的工具变量,避免了相关技术中为了进行数据分析而盲目选择工具变量的问题。本公开能够在进行数据分析时提供工具变量选择的指导,避免对分析模型参数的有偏估计,从而提高数据分析结果的准确性。
下面以一具体示例说明本公开的实施过程:
数据分析目标:用户是否访问应用程序app内“发现”页面的行为对应用程序app使用时长的影响。
回归表达式为:
app时长i,t=是否访问发现页i,t*β+ε (9)
其中,app时长i,t是用户i在第t天使用app时长;
是否访问发现页是否访问发现页i,t是用户i在第t天是否访问发现页。
如果直接用最小二乘法做回归,得到的β是有偏误的,这里可借用工具变量来去除内生性,工具变量选择用户是否落入实验组。比如目前正在进行五个发现页相关的实验,工具变量有五个,分别为用户是否随机落入第一个实验的实验组,用户是否随机落入第二个实验的实验组,等等,在这个情况下,有一个内生变量,以及五个工具变量。例如,对于实验组1,可能对处于实验组1的用户推送了更多的消息,从而为了避免该部分用户对整体回归预测模型的影响,将用户是否落入实验组作为工具变量。
可通过上述式(1)~(8)来进行内生性检验、相关性检验以及过识别检验。其中,基于五个工具变量进行过识别检验时,若检验结果显著,则说明工具变量太多,产生了过识别问题,可通过如下步骤解决:对五个工具变量,按顺序依次删掉一个工具变量,再进行2SLS,检验S是否显著。如果不显著,则进行内生性检验和相关性检验,看是否通过,如果通过则停止。如果不通过,继续删掉两个工具变量(遍历所有的排列组合),再进行2SLS,检验S是否显著。如果不显著,则进行内生性检验和相关性检验,看是否通过。如果还是不通过,继续删掉三个工具变量,同样遍历所有的排列组合,以此类推。如果有多个组合同时通过过识别检验,则按照相关性检验得到的检验标准选择最后的工具变量组合。
本公开具体可应用于短视频及直播等领域,这些领域会产生海量的用户或者主播行为数据,由于该领域大量算法天然自带内生性,从而在业务数据分析过程中工具变量的选择尤为重要,本公开中提供了变量工具的筛选方法流程,通过验证变量工具的合理性,为分析人员进行变量选择提供指导,避免了传统业务分析中,分析人员基于经验或者直觉选择工具变量造成的模型参数估计有偏的问题,达到数据驱动建模的目的。由于Python程序框架可应用于海量数据处理的场景,本公开中提出来基于Python的程序实现框架,能够在大量数据的情况下快速对模型进行求解。
请参阅图8,本公开实施例还提供了一种业务数据处理模型生成装置,包括:
初始模型确定单810,被配置为执行确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量;所述解释变量为所述业务数据处理模型中对业务数据预测目标产生影响的变量;
候选工具变量确定单元820,被配置为执行根据所述初始业务数据处理模型,确定候选工具变量;
第一检验单元830,被配置为执行基于所述候选工具变量对所述解释变量进行内生性检验;
第二检验单元840,被配置为执行当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验;
目标工具变量确定单元850,被配置为执行当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量;
目标模型生成单元860,被配置为执行基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型。
在一示例性实施例中,所述目标工具变量确定单元850包括:
第一比较单元,被配置为执行比较所述解释变量的数量与所述候选工具变量的数量;
第一确定单元,被配置为执行当所述解释变量与所述候选工具变量的数量相等时,将所述候选工具变量确定为所述目标工具变量;
第三检验单元,被配置为执行当所述解释变量小于所述候选工具变量的数量时,对所述候选工具变量进行过识别检验;
第二确定单元,被配置为执行基于对所述候选工具变量进行过识别检验的结果,确定所述目标工具变量。
在一示例性实施例中,所述第二确定单元包括:
第三确定单元,被配置为执行当所述候选工具变量通过过识别检验时,将所述候选工具变量确定为所述目标工具变量。
在一示例性实施例中,所述第二确定单元包括:
第四确定单元,被配置为执行当所述候选工具变量没有通过过识别检验时,基于所述候选工具变量确定当前工具变量组;
重复执行单元,被配置为重复执行以下步骤:
对于每个当前工具变量组,从所述当前工具变量组中删除一个工具变量,得到至少一个更新后工具变量组;
遍历每个所述更新后工具变量组,对每个所述更新后工具变量组均执行以下操作:;
若当前更新后工具变量组通过过识别检验时,判断所述当前更新后工具变量组是否通过内生性检验和相关性检验;
在所述至少一个更新后工具变量组均没有通过内生性检验和相关性检验时,分别确定每个所述更新后工具变量组为所述当前工具变量组;
在所述至少一个更新后工具变量组存在通过内生性检验和相关性检验的更新后工具变量组时,将所述通过内生性检验和相关性检验的更新后工具变量组确定为候选工具变量组;
直至所述当前工具变量组中工具变量的数量等于所述解释变量的数量,或所述候选工具变量组已确定;
第五确定单元,被配置为执行当所述候选工具变量组未确定时,基于所述当前工具变量组确定所述目标工具变量;
第六确定单元,被配置为执行当所述候选工具变量组已确定时,基于所述候选工具变量组确定所述目标工具变量。
在一示例性实施例中,所述重复执行单元包括:
第四检验单元,被配置为执行若当前更新后工具变量组没有通过过识别检验时,对所述至少一个更新后工具变量组中,没有进行过识别检验的更新后工具变量组进行过识别检验。
在一示例性实施例中,所述第五确定单元包括:
第五检验单元,被配置为执行若所述当前工具变量组的数量为多个时,对所述每个当前工具变量组进行内生性检验和相关性检验;
待确定工具变量组确定单元,被配置为执行将通过内生性检验和相关性检验的当前工具变量组确定为待确定工具变量组;
第一获取单元,被配置为执行所述待确定工具变量的数量为多个时,获取每个所述待确定工具变量组在进行相关性检验后的相关性检验值;
第一目标工具变量组确定单元,被配置为执行基于与每个所述待确定工具变量组对应的相关性检验值,从多个所述待确定工具变量组中确定出目标工具变量组;
第一工具变量确定单元,被配置为执行将所述目标工具变量组中的工具变量确定为目标工具变量。
在一示例性实施例中,所述第六确定单元包括:
第六检验单元,被配置为执行所述候选工具变量组的数量为多个时,获取每个所述候选工具变量组在进行相关性检验后的相关性检验值;
第二目标工具变量组确定单元,被配置为执行基于与每个所述候选工具变量组对应的相关性检验值,从多个所述候选工具变量组确定出目标工具变量组;
第二工具变量确定单元,被配置为执行将所述目标工具变量组中的工具变量确定为目标工具变量。
请参阅图9,本公开实施例还提供一种业务数据处理系统的构建装置,包括:
预设程序框架获取单元910,被配置为执行获取预设程序框架;
第一业务代码获取单元920,被配置为执行获取第一业务代码;其中所述第一业务代码用于确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量;所述解释变量为所述业务数据处理模型中对业务数据预测目标产生影响的变量;根据所述初始业务数据处理模型,确定候选工具变量;
第二业务代码获取单元930,被配置为执行获取第二业务代码;其中所述第二业务代码用于基于所述候选工具变量对所述解释变量进行内生性检验;当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验;当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量;
第三业务代码获取单元940,被配置为执行获取第三业务代码;其中所述第三业务代码用于基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型;
构建单元950,被配置为执行基于所述预设程序框架、所述第一业务代码、所述第二业务代码以及所述第三业务代码,构建所述业务数据处理系统。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等;当所述计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上所述的任一方法。
在示例性实施例中,还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行上述任一方法。
进一步地,图10示出了一种用于实现本公开实施例所提供的方法的设备的硬件结构示意图,所述设备可以参与构成或包含本公开实施例所提供的装置。如图10所示,设备10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备10还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本公开实施例中所述的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种播放器预加载方法或一种播放器运行方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。
本实施例上述的任一方法均可基于图10所示的设备进行实施。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种业务数据处理模型生成方法,其特征在于,包括:
确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量;所述解释变量为所述业务数据处理模型中对业务数据预测目标产生影响的变量;
根据所述初始业务数据处理模型,确定候选工具变量;
基于所述候选工具变量对所述解释变量进行内生性检验;
当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验;
当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量;
基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型。
2.根据权利要求1所述的一种业务数据处理模型生成方法,其特征在于,所述从所述候选工具变量中确定出目标工具变量包括:
比较所述解释变量的数量与所述候选工具变量的数量;
当所述解释变量与所述候选工具变量的数量相等时,将所述候选工具变量确定为所述目标工具变量;
当所述解释变量小于所述候选工具变量的数量时,对所述候选工具变量进行过识别检验;
基于对所述候选工具变量进行过识别检验的结果,确定所述目标工具变量。
3.根据权利要求2所述的一种业务数据处理模型生成方法,其特征在于,所述基于对所述候选工具变量进行过识别检验的结果,确定所述目标工具变量包括:
当所述候选工具变量通过过识别检验时,将所述候选工具变量确定为所述目标工具变量。
4.根据权利要求2所述的一种业务数据处理模型生成方法,其特征在于,所述基于对所述候选工具变量进行过识别检验的结果,确定所述目标工具变量包括:
当所述候选工具变量没有通过过识别检验时,基于所述候选工具变量确定当前工具变量组;
重复执行以下步骤:
对于每个当前工具变量组,从所述当前工具变量组中删除一个工具变量,得到至少一个更新后工具变量组;
遍历每个所述更新后工具变量组,对每个所述更新后工具变量组均执行以下操作:
若当前更新后工具变量组通过过识别检验时,判断所述当前更新后工具变量组是否通过内生性检验和相关性检验;
在所述至少一个更新后工具变量组均没有通过内生性检验和相关性检验时,分别确定每个所述更新后工具变量组为所述当前工具变量组;
在所述至少一个更新后工具变量组存在通过内生性检验和相关性检验的更新后工具变量组时,将所述通过内生性检验和相关性检验的更新后工具变量组确定为候选工具变量组;
直至所述当前工具变量组中工具变量的数量等于所述解释变量的数量,或所述候选工具变量组已确定;
当所述候选工具变量组未确定时,基于所述当前工具变量组确定所述目标工具变量;
当所述候选工具变量组已确定时,基于所述候选工具变量组确定所述目标工具变量。
5.一种业务数据处理系统的构建方法,其特征在于,所述方法包括:
获取预设程序框架;
获取第一业务代码;其中所述第一业务代码用于确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量;所述解释变量为所述业务数据处理模型中对业务数据预测目标产生影响的变量;根据所述初始业务数据处理模型,确定候选工具变量;
获取第二业务代码;其中所述第二业务代码用于基于所述候选工具变量对所述解释变量进行内生性检验;当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验;当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量;
获取第三业务代码;其中所述第三业务代码用于基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型;
基于所述预设程序框架、所述第一业务代码、所述第二业务代码以及所述第三业务代码,构建所述业务数据处理系统。
6.一种业务数据处理模型生成装置,其特征在于,包括:
初始模型确定单元,被配置为执行确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量;所述解释变量为所述业务数据处理模型中对业务数据预测目标产生影响的变量;
候选工具变量确定单元,被配置为执行根据所述初始业务数据处理模型,确定候选工具变量;
第一检验单元,被配置为执行基于所述候选工具变量对所述解释变量进行内生性检验;
第二检验单元,被配置为执行当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验;
目标工具变量确定单元,被配置为执行当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量;
目标模型生成单元,被配置为执行基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型。
7.一种业务数据处理系统的构建装置,其特征在于,包括:
预设程序框架获取单元,被配置为执行获取预设程序框架;
第一业务代码获取单元,被配置为执行获取第一业务代码;其中所述第一业务代码用于确定初始业务数据处理模型,所述初始业务数据处理模型包括解释变量;所述解释变量为所述业务数据处理模型中对业务数据预测目标产生影响的变量;根据所述初始业务数据处理模型,确定候选工具变量;
第二业务代码获取单元,被配置为执行获取第二业务代码;其中所述第二业务代码用于基于所述候选工具变量对所述解释变量进行内生性检验;当所述解释变量通过所述内生性检验时,对所述解释变量和所述候选工具变量进行相关性检验;当所述解释变量和所述候选工具变量通过所述相关性检验时,从所述候选工具变量中确定出目标工具变量;
第三业务代码获取单元,被配置为执行获取第三业务代码;其中所述第三业务代码用于基于所述初始业务数据处理模型和所述目标工具变量,生成目标业务数据处理模型;
构建单元,被配置为执行基于所述预设程序框架、所述第一业务代码、所述第二业务代码以及所述第三业务代码,构建所述业务数据处理系统。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的业务数据处理模型生成方法,或权利要求5所述的业务数据处理系统的构建方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至4中任一项所述的业务数据处理模型生成方法,或权利要求5所述的业务数据处理系统的构建方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至4中任一项所述的业务数据处理模型生成方法,或权利要求5所述的业务数据处理系统的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110652668.4A CN113468237B (zh) | 2021-06-11 | 2021-06-11 | 一种业务数据处理模型生成方法、系统构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110652668.4A CN113468237B (zh) | 2021-06-11 | 2021-06-11 | 一种业务数据处理模型生成方法、系统构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468237A true CN113468237A (zh) | 2021-10-01 |
CN113468237B CN113468237B (zh) | 2024-05-17 |
Family
ID=77869762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110652668.4A Active CN113468237B (zh) | 2021-06-11 | 2021-06-11 | 一种业务数据处理模型生成方法、系统构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468237B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235062A (zh) * | 2023-11-10 | 2023-12-15 | 广州汇通国信科技有限公司 | 基于数据中台的业务系统数据建模方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153836A (zh) * | 2016-03-03 | 2017-09-12 | 腾讯科技(深圳)有限公司 | 一种业务参数选取方法及相关设备 |
CN110555658A (zh) * | 2019-09-10 | 2019-12-10 | 电子科技大学 | 第四方物流平台对于车主的价值分析方法 |
CN111489008A (zh) * | 2019-08-24 | 2020-08-04 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种交通事故影响因素空间效应分析方法及其应用 |
CN111523678A (zh) * | 2020-04-21 | 2020-08-11 | 京东数字科技控股有限公司 | 业务的处理方法、装置、设备及存储介质 |
CN112529477A (zh) * | 2020-12-29 | 2021-03-19 | 平安普惠企业管理有限公司 | 信用评估变量筛选方法、装置、计算机设备及存储介质 |
CN112712181A (zh) * | 2020-12-30 | 2021-04-27 | 深圳前海微众银行股份有限公司 | 模型构建优化方法、装置、设备和可读存储介质 |
-
2021
- 2021-06-11 CN CN202110652668.4A patent/CN113468237B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153836A (zh) * | 2016-03-03 | 2017-09-12 | 腾讯科技(深圳)有限公司 | 一种业务参数选取方法及相关设备 |
CN111489008A (zh) * | 2019-08-24 | 2020-08-04 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种交通事故影响因素空间效应分析方法及其应用 |
CN110555658A (zh) * | 2019-09-10 | 2019-12-10 | 电子科技大学 | 第四方物流平台对于车主的价值分析方法 |
CN111523678A (zh) * | 2020-04-21 | 2020-08-11 | 京东数字科技控股有限公司 | 业务的处理方法、装置、设备及存储介质 |
CN112529477A (zh) * | 2020-12-29 | 2021-03-19 | 平安普惠企业管理有限公司 | 信用评估变量筛选方法、装置、计算机设备及存储介质 |
CN112712181A (zh) * | 2020-12-30 | 2021-04-27 | 深圳前海微众银行股份有限公司 | 模型构建优化方法、装置、设备和可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235062A (zh) * | 2023-11-10 | 2023-12-15 | 广州汇通国信科技有限公司 | 基于数据中台的业务系统数据建模方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113468237B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984389B (zh) | 一种应用程序测试方法及终端设备 | |
CN111240973B (zh) | 基于仿真的设备测试方法、系统及可读存储介质 | |
CN110493812B (zh) | 配网测试的处理方法、装置、系统、处理器及主控设备 | |
CN110278201B (zh) | 安全策略评价方法及装置、计算机可读介质和电子设备 | |
CN107547309B (zh) | 一种安全网关性能的自动化测试方法及装置 | |
CN109726108B (zh) | 基于模拟数据的前端代码测试方法、装置、系统和介质 | |
CN104978262A (zh) | 一种终端测试方法和装置 | |
CN113485931A (zh) | 测试方法、装置、电子设备及计算机可读存储介质 | |
CN109426655A (zh) | 数据分析方法、装置、电子设备及计算机可读存储介质 | |
CN113468237A (zh) | 一种业务数据处理模型生成方法、系统构建方法及装置 | |
CN115277261A (zh) | 基于工控网络病毒的异常机器智能识别方法、装置、设备 | |
CN113703836B (zh) | 一种用于航天器电源系统评测的scpi指令管理方法 | |
CN110888811B (zh) | 代码覆盖率信息处理方法、装置、电子设备及介质 | |
CN110807104B (zh) | 异常信息的确定方法及装置、存储介质、电子装置 | |
RU2532714C2 (ru) | Способ получения данных при оценке ресурсов сети и устройство для осуществления способа | |
CN102420724B (zh) | 一种北向性能指标测试方法及装置 | |
CN116991733A (zh) | 接口测试方法、设备及介质 | |
CN111190801A (zh) | 推荐系统测试方法、装置及电子设备 | |
CN114666258B (zh) | 接口测试方法、装置、电子设备和介质 | |
CN115576831A (zh) | 一种测试案例推荐方法、装置、设备及存储介质 | |
CN110837469B (zh) | 数据测试方法和装置、测试服务器和存储介质 | |
CN111737136B (zh) | 基于物联网平台的对象测试方法装置 | |
CN115225455A (zh) | 异常设备检测方法及装置、电子设备、存储介质 | |
CN108536604B (zh) | 一种测试web页面响应时间的方法及终端 | |
CN113452533A (zh) | 计费自巡检、自愈合方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |