CN112487021B - 业务数据的关联分析方法、装置及设备 - Google Patents
业务数据的关联分析方法、装置及设备 Download PDFInfo
- Publication number
- CN112487021B CN112487021B CN202011357170.7A CN202011357170A CN112487021B CN 112487021 B CN112487021 B CN 112487021B CN 202011357170 A CN202011357170 A CN 202011357170A CN 112487021 B CN112487021 B CN 112487021B
- Authority
- CN
- China
- Prior art keywords
- data
- index
- association
- degree
- indexes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000010219 correlation analysis Methods 0.000 title description 8
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000012098 association analyses Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000010606 normalization Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012097 association analysis method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书一个或多个实施例提供一种业务数据的关联分析方法、装置及设备,其中的方法包括:对业务数据进行指标划分,得到分类数据,其中,所述指标至少包括业务类别;对所述分类数据进行预处理,包括:对所述分类数据中的定量数据进行标准化处理,对所述分类数据中的定性数据进行赋值处理,所述定性数据为文本类型的业务数据,所述定量数据为数字类型的业务数据;通过预设算法对所述指标之间的关联度进行计算,当两个指标之间的关联度高于预设阈值时,将所述两个指标分别对应的分类数据进行关联输出。本发明实现了跨数据仓库的业务数据之间的有效关联。
Description
技术领域
本说明书一个或多个实施例涉及数据处理技术领域,尤其涉及一种业务数据的关联分析方法、装置及设备。
背景技术
关联分析的关键在于发现关联规则,从而建立不同事务之间的联系,并找寻高度关联的事务。目前关联规则的比较主要依赖于支持度和置信度,通过给定最小阈值来选择高度关联的事务,但是计算所有事务间的关联度,工作量大且繁琐,复杂度较高,因此现在的挖掘过程分两步进行:一是找出所有频繁项集,二是由频繁项集产生规则,从中提取置信度高的规则。
目前关联分析主要针对用户行为进行分析,挖掘用户的偏好,且多应用于业务层面,辅助企业定位客户,或设计更符合顾客需求的产品;对指标间关联尤其是数据仓库而言的分析较少,因此难以快速建立指标相关体系,并进行可视化输出,不便于操作人员进行快速筛查,也难以用其进行下一步的分析与决策。
目前还没有能够解决上述问题的方法或者装置出现。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种业务数据的关联分析方法、装置及设备,以解决目前业务数据各类繁多和/或跨数据仓库的业务数据无法关联输出的问题。
基于上述目的,本说明书一个或多个实施例提供了一种业务数据的关联分析方法,包括:
对业务数据进行指标划分,得到分类数据,其中,所述指标至少包括业务类别;
对所述分类数据进行预处理,包括:对所述分类数据中的定量数据进行标准化处理,对所述分类数据中的定性数据进行赋值处理,所述定性数据为文本类型的业务数据,所述定量数据为数字类型的业务数据;
基于所述预处理通过预设算法对所述指标之间的关联度进行计算,当两个指标之间的关联度高于预设阈值时,将所述两个指标分别对应的分类数据进行关联输出。
结合上述说明,在本发明实施例另一种可能的实施方式中,所述方法还包括:
当所述指标被选择时,根据的预设阈值确定关联指标,向用户推荐所述关联指标;
基于所述指标以及所述关联指标,以确定的表现形式输出所述指标以及所述关联指标对应的业务数据;
其中,所述确定的表现形式至少包括:报表、柱形图以及雷达图中的一种。
结合上述说明,在本发明实施例另一种可能的实施方式中,所述对所述分类数据进行预处理,包括:对所述分类数据中的定量数据进行标准化处理,对所述分类数据中的定性数据进行赋值处理,包括:
对所述分类数据中的定量数据进行标准化处理,包括通过以下公式进行处理:
其中,X是指未经处理的业务数据,max是该指标在选定期限内的最大值,min是该指标在选定期限内的最小值,是标准化处理后的数据;
对所述分类数据中的定性数据进行赋值处理,包括:
将定性数据进行哑编码处理。
结合上述说明,在本发明实施例另一种可能的实施方式中,所述对业务数据进行指标划分,得到分类数据,还包括:
根据确定的指标相关性建立指标树;
通过确定的阈值对所述指标树进行优化。
结合上述说明,在本发明实施例另一种可能的实施方式中,所述通过预设算法对所述指标之间的关联度进行计算,包括;
所述关联度包括置信度和支持度,则所述关联度通过以下公式计算:
其中,ξ指关联度,ρcon指置信度,指支持度;
定量数据所对应的指标与定量数据所对应的指标之间的第一置信度,通过以下公式计算:
其中,x为其中一种定量数据,y为另一种定量数据;
定量数据所对应的指标与定性数据所对应的指标之间的第二置信度,通过以下公式计算:
ρcon=αF
其中,其置信度等同于F值对应的α值,SSR为组内误差和,SSE为组间误差和,n为定量数据个数,k为定性数据的种类数,且F服从F(k-1,n-k);
定性数据所对应的指标与定性数据所对应的指标之间的第三置信度,通过以下公式计算:
其中,χ2值对应的α值即为所述第三置信度,fi为实际频率,fe为期望频率,且服从χ2(n-k);
所述支持度为其中一项指标所对应的业务数据X对另一指标直抒己见对应的业务数据Y的贡献度。
第二方面,本发明还提供了一种业务数据的关联分析装置,包括:
指标划分模块,用于对业务数据进行指标划分,得到分类数据,其中,所述指标至少包括业务类别;
预处理模块,用于对所述分类数据进行预处理,包括:对所述分类数据中的定量数据进行标准化处理,对所述分类数据中的定性数据进行赋值处理,所述定性数据为文本类型的业务数据,所述定量数据为数字类型的业务数据;
关联模块,用于基于所述预处理通过预设算法对所述指标之间的关联度进行计算,当两个指标之间的关联度高于预设阈值时,将所述两个指标分别对应的分类数据进行关联输出。
上述的装置,所述装置还包括:
推荐模块,用于当所述指标被选择时,根据的预设阈值确定关联指标,向用户推荐所述关联指标;
输出模块,用于基于所述指标以及所述关联指标,以确定的表现形式输出所述指标以及所述关联指标对应的业务数据;
其中,所述确定的表现形式至少包括:报表、柱形图以及雷达图中的一种。
上述的装置,所述对预处理模块具体用于:
对所述分类数据中的定量数据进行标准化处理,包括通过以下公式进行处理:
其中,X是指未经处理的业务数据,max是该指标在选定期限内的最大值,min是该指标在选定期限内的最小值,是标准化处理后的数据;
还用于:对所述分类数据中的定性数据进行赋值处理,包括:
将定性数据进行哑编码处理。
上述的装置,所述指标划分模块还用于:
根据确定的指标相关性建立指标树;
通过确定的阈值对所述指标树进行优化。
第三方面,本发明示例性实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的业务数据的关联分析方法。
从上面所述可以看出,本说明书一个或多个实施例提供的业务数据的关联分析方法、装置和设备,通过对业务数据进行预处理、建立指标数以及计算关联度等方式,实现了使数据仓库的业务数据进行有效的关联,能够最大化地挖掘数据价值,不仅能够让用户直观解读相关数据,节省多次或跨表查找的时间,也能够进一步地为数据决策提供新的思路,便于进一步的分析。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例业务数据的关联分析方法的基本流程示意图;
图2为本说明书一个或多个实施例的具体实施例时流程示意图;
图3为本说明书一个或多个实施例的业务数据的关联分析装置结构示意图;
图4为本说明书一个或多个实施例的设备示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
本说明书一个或多个实施例的业务数据的关联分析方法、装置和设备,其主要运用于存在海量数据、多数据表或数据仓库或数据库的保险系统的数据处理过程中,尤其适用于跨表的业务数据的关联分析,其主要思想是:以业务数据的标签如保单日期等为指标对跨表的业务数据进行指标划分,并基于定性数据和定量数据的不同计算方式进行归一化处理,然后根据预设算法对指标与指标之间的关联度进行计算,按照关联度建立指标与指标之间的联系。
作为一个可选的实施例,结合图1所示的一种业务数据的关联分析方法的基本流程示意图,包括:
在步骤110中,对业务数据进行指标划分,得到分类数据,其中,所述指标至少包括业务类别;
本发明示例性实施例的一种实施方式中,所述指标为业务数据的标签或分类,例如一份投保单的业务数据中,投保日期、投保人等均可以作为所述指标。
由于数据仓库中汇总的数据来源相对较广,数据性质存在较大的差异,本步骤中进行的是对不同类型的业务数据分类的操作,分类之后再根据业务等进行细分(定性与定量的进一步划分)。
例如:根据数据更新频率进行划分,按天或按月;或根据业务需求进行划分,产品、人员等。
在步骤120中,对所述分类数据进行预处理,包括:对所述分类数据中的定量数据进行标准化处理,对所述分类数据中的定性数据进行赋值处理,所述定性数据为文本类型的业务数据,所述定量数据为数字类型的业务数据;
初次分类得到的分类数据中,每一指标所对应的数据均可能包括文本类型的业务数据以及数字类型的业务数据,针对于文本类型的业务数据例如投保人姓名等在进行关联度的计算时无法直接进行匹配,因此需要进行以下不同的处理:
对业务数据进行无量纲化处理,将定量数据进行标准化处理,即
其中,X是指未经处理的数据,max是该指标在该期限内的最大值,min是该指标在该期限内的最小值,是标准化处理后的数据。
将定性数据进行哑编码,假设有K种定性值,则将这一个特征扩展为K种特征,当原始特征值为第i种定性值时,第i个扩展特征赋值为1,其他扩展特征赋值为0。
本发明示例性实施例中,可进行数据长度选择,对于日度数据,调用不含最近一个月的前四个月的数据(即M-2,M-3,M-4),对于月度数据,调用不含最近一年的前五年的数据(即Y-2,Y-3,Y-4,Y-5),以这些数据作为训练集进行分析,以进一步提高业务数据的预处理精度。
在步骤130中,基于所述预处理通过预设算法对所述指标之间的关联度进行计算,当两个指标之间的关联度高于预设阈值时,将所述两个指标分别对应的分类数据进行关联输出。
所述关联度包括置信度和支持度,则所述关联度通过以下公式计算:
其中,ξ指关联度,ρcon指置信度,指支持度;
定量数据所对应的指标与定量数据所对应的指标之间的第一置信度,通过以下公式计算:
其中,x为其中一种定量数据,y为另一种定量数据;
定量数据所对应的指标与定性数据所对应的指标之间的第二置信度,通过以下公式计算:
ρcon=αF
其中,其置信度等同于F值对应的α值,SSR为组内误差和,SSE为组间误差和,n为定量数据个数,k为定性数据的种类数,且F服从F(k-1,n-k);
定性数据所对应的指标与定性数据所对应的指标之间的第三置信度,通过以下公式计算:
其中,χ2值对应的α值即为所述第三置信度,fi为实际频率,fe为期望频率,且服从χ2(n-k);
所述支持度为其中一项指标所对应的业务数据X对另一指标直抒己见对应的业务数据Y的贡献度。
支持度是指某一项集或规则发生次数占总交易次数的百分比,但在这里,指的是X对Y的贡献度。
定量数据与定量数据的支持度与两者的变化趋势有关。假设两者的同比增长率存在简单的线性关系,即可建立一元线性回归:
δY=A+BδX
其中,δY、δX分别表示Y和X的同比增长度。置信度则可用回归系数的绝对值来表示,即
在计算定量数据与定性数据的支持度时,可将定量数据理解为因变量,定性数据作为自变量,支持度即为事件发生与否所带来的差异率:
其中,指的是事件i发生时Y的均值,k指的是X所包含的事件数。
定性数据与定性数据的支持度计算则取其原含义,即Y发生时,X发生的比例:
通过关联分析,得到指标之间的关联度,并进行验证。以最近一个月(或最近一年)的数据,重新计算高度关联的指标的关联度(称之为检测值),若检测值落在关联度的95%置信区间,则认为该对指标的关联性相对稳定,存在高度关联关系,并进行输出;若其不落在置信区间里,则认为该对指标的关联性不稳定,与发生期存在较强的关系,因而不对其进行输出。
关联度的95%置信区间可通过下式表示,其中的计算参考/>的计算过程:
本发明示例性实施例的一种实施方式中,所述方法还包括:
当所述指标被选择时,根据的预设阈值确定关联指标,向用户推荐所述关联指标;
基于所述指标以及所述关联指标,以确定的表现形式输出所述指标以及所述关联指标对应的业务数据;
其中,所述确定的表现形式至少包括:报表、柱形图以及雷达图中的一种。
本发明的方法表现形式为:在所述业务数据的支持平台上,将关联结果进行输出,当用户勾选某一指标后,会自动弹出与之高度关联(关联度可自由设置)的指标,用户可进行勾选,并选择以报表还是折线图(或柱形图、雷达图等)形式进行输出。
本发明示例性实施例的一种实施方式中,所述对业务数据进行指标划分,得到分类数据,还包括:
根据确定的指标相关性建立指标树;通过确定的阈值对所述指标树进行优化。
依据所有相关指标建立的指标树相对庞大,在统计过程中有的指标较为核心与重要,有的指标则并非如此,因此,本发明的方法中对形成的指标树进行剪枝操作,也就是粗略地进行指标筛选。目前常用到的特征选择方法有Filter、Wrapper、Embedded等,基于数据量较大,优先选用Embedded中的深度学习方法进行筛选。在更为具体的实际操作中,通过给定阙值并利用深度学习方法(以支持向量机为主)对指标进行筛选,以实现简化和优化指标树的效果。
结合图2所示,本发明示例性实施例的一种更为具体的实施方式中,在进行初步的指标划分后,在数据仓库进行是否为定量数据(相较于定性数据,定量数据更易进行检测和区分)的检测和判断,判断为定量数据的业务数据进行标准化处理,判断为非定量数据即定性数据的业务数据则进行哑编码处理,经过预处理后的业务数据经过指标筛选的特征选择之后,进行置信度以及支持度的关联度计算,并进一步进行关联验证和关联输出。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种业务数据的关联分析装置,参考图3,所述业务数据的关联分析装置,包括:
指标划分模块310,用于对业务数据进行指标划分,得到分类数据,其中,所述指标至少包括业务类别;
预处理模块320,用于对所述分类数据进行预处理,包括:对所述分类数据中的定量数据进行标准化处理,对所述分类数据中的定性数据进行赋值处理,所述定性数据为文本类型的业务数据,所述定量数据为数字类型的业务数据;
关联模块330,用于基于所述预处理通过预设算法对所述指标之间的关联度进行计算,当两个指标之间的关联度高于预设阈值时,将所述两个指标分别对应的分类数据进行关联输出。
本发明示例性实施例的实施方式中,所述装置还包括:
推荐模块,用于当所述指标被选择时,根据的预设阈值确定关联指标,向用户推荐所述关联指标;
输出模块,用于基于所述指标以及所述关联指标,以确定的表现形式输出所述指标以及所述关联指标对应的业务数据;
其中,所述确定的表现形式至少包括:报表、柱形图以及雷达图中的一种。
本发明示例性实施例的实施方式中,所述对预处理模块具体用于:
对所述分类数据中的定量数据进行标准化处理,包括通过以下公式进行处理:
其中,X是指未经处理的业务数据,max是该指标在选定期限内的最大值,min是该指标在选定期限内的最小值,是标准化处理后的数据;
还用于:对所述分类数据中的定性数据进行赋值处理,包括:
将定性数据进行哑编码处理。
本发明示例性实施例的实施方式中,所述指标划分模块还用于:
根据确定的指标相关性建立指标树;
通过确定的阈值对所述指标树进行优化。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的业务数据的关联分析,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的业务数据的关联分析方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的业务数据的关联分析方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (9)
1.一种业务数据的关联分析方法,其特征在于,包括:
对业务数据进行指标划分,得到分类数据,其中,所述指标至少包括业务类别;
对所述分类数据进行预处理,包括:对所述分类数据中的定量数据进行标准化处理,对所述分类数据中的定性数据进行赋值处理,所述定性数据为文本类型的业务数据,所述定量数据为数字类型的业务数据;
基于所述预处理通过预设算法对所述指标之间的关联度进行计算,当两个指标之间的关联度高于预设阈值时,将所述两个指标分别对应的分类数据进行关联输出;
所述通过预设算法对所述指标之间的关联度进行计算,包括;
所述关联度包括置信度和支持度,则所述关联度通过以下公式计算:
其中,ξ指关联度,ρcon指置信度,指支持度;
定量数据所对应的指标与定量数据所对应的指标之间的第一置信度,通过以下公式计算:
其中,x为其中一种定量数据,y为另一种定量数据;
定量数据所对应的指标与定性数据所对应的指标之间的第二置信度,通过以下公式计算:
ρcon=αF
其中,其置信度等同于F值对应的α值,SSR为组内误差和,SSE为组间误差和,n为定量数据个数,k为定性数据的种类数,且F服从F(k-1,n-k);
定性数据所对应的指标与定性数据所对应的指标之间的第三置信度,通过以下公式计算:
其中,χ2值对应的α值即为所述第三置信度,fi为实际频率,fe为期望频率,且服从χ2(n-k);
所述支持度为其中一项指标所对应的业务数据X对另一指标直抒己见对应的业务数据Y的贡献度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述指标被选择时,根据的预设阈值确定关联指标,向用户推荐所述关联指标;
基于所述指标以及所述关联指标,以确定的表现形式输出所述指标以及所述关联指标对应的业务数据;
其中,所述确定的表现形式至少包括:报表、柱形图以及雷达图中的一种。
3.根据权利要求1所述的方法,其特征在于,所述对所述分类数据进行预处理,包括:对所述分类数据中的定量数据进行标准化处理,对所述分类数据中的定性数据进行赋值处理,包括:
对所述分类数据中的定量数据进行标准化处理,包括通过以下公式进行处理:
其中,X是指未经处理的业务数据,max是该指标在选定期限内的最大值,min是该指标在选定期限内的最小值,是标准化处理后的数据;
对所述分类数据中的定性数据进行赋值处理,包括:
将定性数据进行哑编码处理。
4.根据权利要求1所述的方法,其特征在于,所述对业务数据进行指标划分,得到分类数据,还包括:
根据确定的指标相关性建立指标树;
通过确定的阈值对所述指标树进行优化。
5.一种业务数据的关联分析装置,其特征在于,包括:
指标划分模块,用于对业务数据进行指标划分,得到分类数据,其中,所述指标至少包括业务类别;
预处理模块,用于对所述分类数据进行预处理,包括:对所述分类数据中的定量数据进行标准化处理,对所述分类数据中的定性数据进行赋值处理,所述定性数据为文本类型的业务数据,所述定量数据为数字类型的业务数据;
关联模块,用于基于所述预处理通过预设算法对所述指标之间的关联度进行计算,当两个指标之间的关联度高于预设阈值时,将所述两个指标分别对应的分类数据进行关联输出;
所述通过预设算法对所述指标之间的关联度进行计算,包括;
所述关联度包括置信度和支持度,则所述关联度通过以下公式计算:
其中,ξ指关联度,ρcon指置信度,指支持度;
定量数据所对应的指标与定量数据所对应的指标之间的第一置信度,通过以下公式计算:
其中,x为其中一种定量数据,y为另一种定量数据;
定量数据所对应的指标与定性数据所对应的指标之间的第二置信度,通过以下公式计算:
ρcon=αF
其中,其置信度等同于F值对应的α值,SSR为组内误差和,SSE为组间误差和,n为定量数据个数,k为定性数据的种类数,且F服从F(k-1,n-k);
定性数据所对应的指标与定性数据所对应的指标之间的第三置信度,通过以下公式计算:
其中,χ2值对应的α值即为所述第三置信度,fi为实际频率,fe为期望频率,且服从χ2(n-k);
所述支持度为其中一项指标所对应的业务数据X对另一指标直抒己见对应的业务数据Y的贡献度。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
推荐模块,用于当所述指标被选择时,根据的预设阈值确定关联指标,向用户推荐所述关联指标;
输出模块,用于基于所述指标以及所述关联指标,以确定的表现形式输出所述指标以及所述关联指标对应的业务数据;
其中,所述确定的表现形式至少包括:报表、柱形图以及雷达图中的一种。
7.根据权利要求5所述的装置,其特征在于,所述对预处理模块具体用于:
对所述分类数据中的定量数据进行标准化处理,包括通过以下公式进行处理:
其中,X是指未经处理的业务数据,max是该指标在选定期限内的最大值,min是该指标在选定期限内的最小值,是标准化处理后的数据;
还用于:对所述分类数据中的定性数据进行赋值处理,包括:
将定性数据进行哑编码处理。
8.根据权利要求5所述的装置,其特征在于,所述指标划分模块还用于:
根据确定的指标相关性建立指标树;
通过确定的阈值对所述指标树进行优化。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任意一项所述的业务数据的关联分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011357170.7A CN112487021B (zh) | 2020-11-26 | 2020-11-26 | 业务数据的关联分析方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011357170.7A CN112487021B (zh) | 2020-11-26 | 2020-11-26 | 业务数据的关联分析方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487021A CN112487021A (zh) | 2021-03-12 |
CN112487021B true CN112487021B (zh) | 2024-04-30 |
Family
ID=74936162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011357170.7A Active CN112487021B (zh) | 2020-11-26 | 2020-11-26 | 业务数据的关联分析方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487021B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113782121B (zh) * | 2021-08-06 | 2024-03-19 | 中国中医科学院中医药信息研究所 | 随机分组方法、装置、计算机设备及存储介质 |
CN113626461B (zh) * | 2021-08-10 | 2024-02-13 | 深圳平安智慧医健科技有限公司 | 信息查找方法、终端设备及计算机可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150696A (zh) * | 2011-12-06 | 2013-06-12 | 中兴通讯股份有限公司 | 选择目标增值业务潜在客户的方法及装置 |
CN105306475A (zh) * | 2015-11-05 | 2016-02-03 | 天津理工大学 | 一种基于关联规则分类的网络入侵检测方法 |
CN107220365A (zh) * | 2017-06-07 | 2017-09-29 | 四川大学 | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 |
CN109919236A (zh) * | 2019-03-13 | 2019-06-21 | 北京工商大学 | 一种基于标签相关性的bp神经网络多标签分类方法 |
CN110378569A (zh) * | 2019-06-19 | 2019-10-25 | 平安国际智慧城市科技股份有限公司 | 产业关系链构建方法、装置、设备及存储介质 |
CN110377638A (zh) * | 2019-07-17 | 2019-10-25 | 国网陕西省电力公司电力科学研究院 | 一种电网环保生态大数据预警挖掘方法 |
CN111339155A (zh) * | 2018-12-18 | 2020-06-26 | 中国电力科学研究院有限公司 | 一种关联分析系统 |
CN111339427A (zh) * | 2020-03-23 | 2020-06-26 | 卓尔智联(武汉)研究院有限公司 | 一种图书信息推荐方法、装置、系统及存储介质 |
CN111737916A (zh) * | 2020-06-22 | 2020-10-02 | 华南农业大学 | 一种基于大数据的道路桥梁病害分析与养护决策方法 |
CN111784040A (zh) * | 2020-06-28 | 2020-10-16 | 平安医疗健康管理股份有限公司 | 政策模拟分析的优化方法、装置及计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527328B2 (en) * | 2009-04-22 | 2013-09-03 | Bank Of America Corporation | Operational reliability index for the knowledge management system |
-
2020
- 2020-11-26 CN CN202011357170.7A patent/CN112487021B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150696A (zh) * | 2011-12-06 | 2013-06-12 | 中兴通讯股份有限公司 | 选择目标增值业务潜在客户的方法及装置 |
CN105306475A (zh) * | 2015-11-05 | 2016-02-03 | 天津理工大学 | 一种基于关联规则分类的网络入侵检测方法 |
CN107220365A (zh) * | 2017-06-07 | 2017-09-29 | 四川大学 | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 |
CN111339155A (zh) * | 2018-12-18 | 2020-06-26 | 中国电力科学研究院有限公司 | 一种关联分析系统 |
CN109919236A (zh) * | 2019-03-13 | 2019-06-21 | 北京工商大学 | 一种基于标签相关性的bp神经网络多标签分类方法 |
CN110378569A (zh) * | 2019-06-19 | 2019-10-25 | 平安国际智慧城市科技股份有限公司 | 产业关系链构建方法、装置、设备及存储介质 |
CN110377638A (zh) * | 2019-07-17 | 2019-10-25 | 国网陕西省电力公司电力科学研究院 | 一种电网环保生态大数据预警挖掘方法 |
CN111339427A (zh) * | 2020-03-23 | 2020-06-26 | 卓尔智联(武汉)研究院有限公司 | 一种图书信息推荐方法、装置、系统及存储介质 |
CN111737916A (zh) * | 2020-06-22 | 2020-10-02 | 华南农业大学 | 一种基于大数据的道路桥梁病害分析与养护决策方法 |
CN111784040A (zh) * | 2020-06-28 | 2020-10-16 | 平安医疗健康管理股份有限公司 | 政策模拟分析的优化方法、装置及计算机设备 |
Non-Patent Citations (2)
Title |
---|
杨秀璋等.《Python网络数据爬取及分析 从入门到精通(爬取篇)》.北京航空航天大学出版社,2018,第156-159页. * |
面向客户价值的保险行业数据管理框架与方法;吕睿等;《计算机应用》;20161215;第221-226页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112487021A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818344B (zh) | 用户行为进行分类和预测的方法和系统 | |
US10504120B2 (en) | Determining a temporary transaction limit | |
US9576248B2 (en) | Record linkage sharing using labeled comparison vectors and a machine learning domain classification trainer | |
WO2018103718A1 (zh) | 应用推荐的方法、装置及服务器 | |
CN109492180A (zh) | 资源推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN112328909B (zh) | 信息推荐方法、装置、计算机设备及介质 | |
US20170140309A1 (en) | Database analysis device and database analysis method | |
CN112487021B (zh) | 业务数据的关联分析方法、装置及设备 | |
CN110851729A (zh) | 资源信息推荐方法、装置、设备及计算机存储介质 | |
CN107818491A (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
CN112395500A (zh) | 内容数据推荐方法、装置、计算机设备及存储介质 | |
US20160314484A1 (en) | Method and system for mining churn factor causing user churn for network application | |
CN112149737A (zh) | 选择模型训练方法、模型选择方法、装置及电子设备 | |
CN106844550B (zh) | 一种虚拟化平台操作推荐方法及装置 | |
CN112131322A (zh) | 时间序列分类方法及装置 | |
US11010393B2 (en) | Library search apparatus, library search system, and library search method | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN110197078B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
US10474688B2 (en) | System and method to recommend a bundle of items based on item/user tagging and co-install graph | |
CN113946566B (zh) | Web系统指纹库的构建方法、装置和电子设备 | |
CA3153550A1 (en) | Core recommendation method, device and system | |
KR20230009437A (ko) | 사용자 검색 카테고리 예측자 | |
CN113435741A (zh) | 培训计划生成方法、装置、设备及存储介质 | |
CN109284354B (zh) | 脚本搜索方法、装置、计算机设备及存储介质 | |
US9317125B2 (en) | Searching of line pattern representations using gestures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |