CN113010493A - 一种数据质量在线分析方法、装置、机器可读介质及设备 - Google Patents
一种数据质量在线分析方法、装置、机器可读介质及设备 Download PDFInfo
- Publication number
- CN113010493A CN113010493A CN202110282675.XA CN202110282675A CN113010493A CN 113010493 A CN113010493 A CN 113010493A CN 202110282675 A CN202110282675 A CN 202110282675A CN 113010493 A CN113010493 A CN 113010493A
- Authority
- CN
- China
- Prior art keywords
- data
- variable
- analysis
- type
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Accounting & Taxation (AREA)
- Technology Law (AREA)
- Finance (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据质量在线分析方法,包括:在线获取待分析的数据文件,每个数据文件包括多条数据,每条数据包括多个变量;识别待分析的数据文件中变量的类型;确定并显示与变量的类型相对应的分析指标;根据所述分析指标对所述数据进行质量分析。本发明使用者通过在操作界面内对数据进行探查分析,可以看到数据的分布、缺失情况,支持多数据的建模效果的比较,体现数据的质量的优劣。本发明经过有效的数据质量分析,可以避免采买无必要的外部数据,减少浪费。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种数据质量在线分析方法、装置、机器可读介质及设备。
背景技术
金融机构在做建模的时候,模型效果依赖于数据质量的高低。需要一种便捷的方式,可以评估数据的质量。尤其,有些第三方的外部数据如征信数据的采买成本特别高。如果经过有效的数据质量分析,可以避免采买无必要的外部数据,减少浪费。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种数据质量在线分析方法、装置、机器可读介质及设备,用于解决现有技术存在的问题。
为实现上述目的及其他相关目的,本发明提供一种数据质量在线分析方法,包括:
在线获取待分析的数据文件,每个数据文件包括多条数据,每条数据包括多个变量;
识别待分析的数据文件中变量的类型;
确定并显示与变量的类型相对应的分析指标;
根据所述分析指标对所述数据进行质量分析。
可选地,所述变量的类型包括离散型和连续型。
可选地,若所述变量为离散型变量,则所述分析指标包括以下至少之一:缺失率、值域、值频、概率密度;若所述变量为连续型变量,则所述分析指标包括以下至少之一:缺失率、最大值、最小值、均值、众数、概率密度。
可选地,还包括:
利用所述数据文件中的数据训练评分卡模型;
确定并展示对应所述评分卡模型的评价指标。
可选地,对应所述评分卡模型的评价指标包括以下至少之一:AUC、KS指标。
为实现上述目的及其他相关目的,本发明还一种数据质量在线分析装置,包括:
数据获取模块,用于在线获取待分析的数据文件,每个数据文件包括多条数据,每条数据包括多个变量;
数据识别模块,用于识别待分析的数据文件中变量的类型;
指标确定模块,用于确定并显示与变量的类型相对应的分析指标;
质量检测模块,用于根据所述分析指标对所述数据进行质量分析。
可选地,所述变量的类型包括离散型和连续型。
可选地,若所述变量为离散型变量,则所述分析指标包括以下至少之一:缺失率、值域、值频、概率密度;若所述变量为连续型变量,则所述分析指标包括以下至少之一:缺失率、最大值、最小值、均值、众数、概率密度。
可选地,还包括:
模型训练模块,用于利用所述数据文件中的数据训练评分卡模型;
数据展示模块,用于确定并展示对应所述评分卡模型的评价指标。
可选地,对应所述评分卡模型的评价指标包括以下至少之一:AUC、KS指标。
为实现上述目的及其他相关目的,本发明还提供一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行前述的一个或多个所述的方法。
为实现上述目的及其他相关目的,本发明还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行前述的一个或多个所述的方法。
如上所述,本发明提供的一种数据质量在线分析方法、装置、机器可读介质及设备,具有以下有益效果:
本发明的一种数据质量在线分析方法,包括:在线获取待分析的数据文件,每个数据文件包括多条数据,每条数据包括多个变量;识别待分析的数据文件中变量的类型;确定并显示与变量的类型相对应的分析指标;根据所述分析指标对所述数据进行质量分析。本发明使用者通过在操作界面内对数据进行探查分析,可以看到数据的分布、缺失情况,支持多数据的建模效果的比较,体现数据的质量的优劣。本发明经过有效的数据质量分析,可以避免采买无必要的外部数据,减少浪费。
附图说明
图1为本发明一实施例一种数据质量在线分析方法的流程图;
图2为本发明一实施例一种数据质量在线分析装置的硬件结构示意图;
图3为本发明一实施例中终端设备的硬件结构示意图;
图4为本发明一实施例中终端设备的硬件结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
金融机构在做建模的时候,模型效果依赖于数据质量的高低。需要一种便捷的方式,可以评估数据的质量。尤其,有些第三方的外部数据如征信数据的采买成本特别高,如果经过有效的数据质量分析,可以避免采买无必要的外部数据,减少浪费。
如图1所示,基于上述问题,本申请实施例提供一种数据质量在线分析方法,包括:
S11根据业务需求在线获取待分析数据文件;
S12识别待分析的数据文件中每个变量的类型;
S13确定与变量的类型相对应的分析指标;
S14根据所述分析指标以及与所述业务需求对应的分析规则对所述数据进行质量分析。
需要说明的是,在步骤S11中,获取的每个待分析数据文件包括多条数据,每条数据包括多个变量。例如:
表1
姓名 | 性别 | 年龄 | 收入(元) | 职业 | 身高(m) |
张三 | 男 | 20 | 3500 | 1.85 | |
李四 | 男 | 25 | 3500 | 教师 | |
王五 | 男 | 30 | 3500 | 教师 | 1.75 |
其中,表1中从第二行开始,每一行代表一条数据;每一列代表一个变量。
由于每个数据文件中的变量包括多种类型,而每种类型的变量对应不同的分析指标,因此,在对数据进行分析前,需要确定变量的类型。具体地,所述识别待分析的数据文件中每个变量的类型的步骤包括:对变量进行字段检测,获取一个或多个目标字段;根据所述目标字段确定所述变量的类型。比如,如果字段为性别,则变量的类型为离散型,如果字段为收入,则变量的类型为连续型。
在步骤S11中,根据业务需求获取待分析数据文件,可以理解为不同的业务需求需要不同的数据,根据不同的业务需求来获取数据文件。例如,业务需求A需要的数据包括数据文件A,业务需求B需要的数据包括数据文件B,业务需求C需要的数据包括数据文件C等等。
在一实施例中,所述变量的类型包括离散型和连续型。如表1所示,姓名、性别、职业为离散性变量,而收入、年龄是连续型变量。
针对离散性变量,需要确定的分析指标包括以下至少之一:缺失率、值域、值频、概率密度。其中,概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。
针对连续性变量,需要确定的分析指标包括以下至少之一:缺失率、最大值、最小值、均值、众数、概率密度。
其中,所述的缺失是指一个数据中某个变量中有的值为空,也就是缺失,例如表1中的第二行缺失的是职业这个变量。缺失率过高,则该变量不适合建模,不宜采买。数据缺失的方法可以采用检测数据表中存在多少空白单元格。当然,如果数据缺失,可以采用以下方法对缺失的数据进行填充。
1、常数填充;指定任意值作为缺失值的填充值。
2、用聚合值填充:计算非缺失值的平均值、中位数、最小值、最大值等,将其作为填充值。
例如,在缺少部分人员的身高数据时,用身高值的中位数进行填充。
3、用基于无缺失值的数据的预测值填充:根据无缺失值的(一个或多个)列的值与有部分缺失值的列的值的关系,预测缺失值并填充。预测可以通过机器学习模型等进行。
例如,在缺少部分人员的身高数据时,可以分析体重与身高的关系,根据体重预测缺失的身高值并填充。
4、基于时序关系进行填充:根据缺失值前后的数据预测缺失值并填充。
例如,当10:01的温度数据缺失时,可使用10:00和10:02的温度数据的均值进行填充。
5、多重插补法:用特定的值进行填充会产生副作用,即产生偏差。
这时可以使用多重插补法,将填充好的数据集分成多份并对不同的数据集进行分析,然后对得到的多个结果进行整合,即可得到偏差较小的结果。
在得到各变量对应的分析指标后,可以根据所述分析指标以及与所述业务需求对应的分析规则对所述数据进行质量分析。通过数据质量检测,可以得到问题数据和正常数据。
分析规则可以包括一个规则,也可以包括多个规则。
当分析规则为一个规则的时候,满足这个规则,则表示变量对应的数据为正常数据,反之则为问题数据。例如,若某个变量的概率密度不在预期范围内,则该变量对应的数据为问题数据;或某个变量对应的数据缺失率超过预设阈值,则认为该变量对应的数据为问题数据。
当分析规则为多个规则的时候,若同时满足分析规则中的全部规则,则所述变量对应的数据为正常数据,若所述变量违反所述分析规则中的任一分析规则,则所述变量对应的数据为问题数据。
例如,可以采用概率密度以及均值来检测数据的质量。当这两个分析指标均在各个预设范围内,对应的数据才符合要求,认为这两个变量对应的数据为正常数据,其数据质量符合要求。
在一实施例中,该方法还包括:在线展示问题数据。
在一实施例中,该方法还包括:
利用所述数据文件中的数据训练评分卡模型;确定并展示对应所述评分卡模型的评价指标。其中,对应所述评分卡模型的评价指标包括以下至少之一:AUC、KS指标。
KS:KS衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。。
AUC:AUC被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
通过AUC、KS指标也可以对数据质量进行检测。若AUC、KS在预期范围内,则表示数据质量满足需求。
应该理解,上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
如图2所示,本申请实施例提供一种数据质量在线分析装置,包括:
数据获取模块21,用于在线获取待分析的数据文件,每个数据文件包括多条数据,每条数据包括多个变量;
数据识别模块22,用于识别待分析的数据文件中变量的类型;
指标确定模块23,用于确定并显示与变量的类型相对应的分析指标;
质量检测模块24,用于根据所述分析指标对所述数据进行质量分析。
需要说明的是,获取的每个待分析数据文件包括多条数据,每条数据包括多个变量。例如:
表2
姓名 | 性别 | 年龄 | 收入(元) | 职业 | 身高(m) |
张三 | 男 | 20 | 3500 | 1.85 | |
李四 | 男 | 25 | 3500 | 教师 | |
王五 | 男 | 30 | 3500 | 教师 | 1.75 |
其中,表2中从第二行开始,每一行代表一条数据;每一列代表一个变量。
由于每个数据文件中的变量包括多种类型,而每种类型的变量对应不同的分析指标,因此,在对数据进行分析前,需要确定变量的类型。具体地,所述识别待分析的数据文件中每个变量的类型的步骤包括:对变量进行字段检测,获取一个或多个目标字段;根据所述目标字段确定所述变量的类型。比如,如果字段为性别,则变量的类型为离散型,如果字段为收入,则变量的类型为连续型。
在本实施例中,根据业务需求获取待分析数据文件,可以理解为不同的业务需求需要不同的数据,根据不同的业务需求来获取数据文件。例如,业务需求A需要的数据包括数据文件A,业务需求B需要的数据包括数据文件B,业务需求C需要的数据包括数据文件C等等。
在一实施例中,所述变量的类型包括离散型和连续型。如表2所示,姓名、性别、职业为离散性变量,而收入、年龄是连续型变量。
针对离散性变量,需要确定的分析指标包括以下至少之一:缺失率、值域、值频、概率密度。其中,概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。
针对连续性变量,需要确定的分析指标包括以下至少之一:缺失率、最大值、最小值、均值、众数、概率密度。
其中,所述的缺失是指一个数据中某个变量中有的值为空,也就是缺失,例如表1中的第二行缺失的是职业这个变量。缺失率过高,则该变量不适合建模,不宜采买。数据缺失的方法可以采用检测数据表中存在多少空白单元格。当然,如果数据缺失,可以采用以下方法对缺失的数据进行填充。
1.常数填充;指定任意值作为缺失值的填充值。
2.用聚合值填充:计算非缺失值的平均值、中位数、最小值、最大值等,将其作为填充值。
例如,在缺少部分人员的身高数据时,用身高值的中位数进行填充。
3.用基于无缺失值的数据的预测值填充:根据无缺失值的(一个或多个)列的值与有部分缺失值的列的值的关系,预测缺失值并填充。预测可以通过机器学习模型等进行。
例如,在缺少部分人员的身高数据时,可以分析体重与身高的关系,根据体重预测缺失的身高值并填充。
4.基于时序关系进行填充:根据缺失值前后的数据预测缺失值并填充。
例如,当10:01的温度数据缺失时,可使用10:00和10:02的温度数据的均值进行填充。
5.多重插补法:用特定的值进行填充会产生副作用,即产生偏差。
这时可以使用多重插补法,将填充好的数据集分成多份并对不同的数据集进行分析,然后对得到的多个结果进行整合,即可得到偏差较小的结果。
在得到各变量对应的分析指标后,可以根据所述分析指标以及与所述业务需求对应的分析规则对所述数据进行质量分析。通过数据质量检测,可以得到问题数据和正常数据。
分析规则可以包括一个规则,也可以包括多个规则。
当分析规则为一个规则的时候,满足这个规则,则表示变量对应的数据为正常数据,反之则为问题数据。例如,若某个变量的概率密度不在预期范围内,则该变量对应的数据为问题数据;或某个变量对应的数据缺失率超过预设阈值,则认为该变量对应的数据为问题数据。
当分析规则为多个规则的时候,若同时满足分析规则中的全部规则,则所述变量对应的数据为正常数据,若所述变量违反所述分析规则中的任一分析规则,则所述变量对应的数据为问题数据。
例如,可以采用概率密度以及均值来检测数据的质量。当这两个分析指标均在各个预设范围内,对应的数据才符合要求,认为这两个变量对应的数据为正常数据,其数据质量符合要求。
在一实施例中,该装置还包括:
模型训练模块,用于利用所述数据文件中的数据训练评分卡模型;
数据展示模块,用于确定并展示对应所述评分卡模型的评价指标。其中,对应所述评分卡模型的评价指标包括以下至少之一:AUC、KS指标。
KS:KS衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。。
AUC:AUC被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
通过AUC、KS指标也可以对数据质量进行检测。若AUC、KS在预期范围内,则表示数据质量满足需求。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中方法所包含步骤的指令(instructions)。
图3为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图4为本申请的一个实施例提供的终端设备的硬件结构示意图。图4是对图3在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述数据处理方法中的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图4实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (12)
1.一种数据质量在线分析方法,其特征在于,包括:
根据业务需求在线获取待分析数据文件,每个数据文件包括多条数据,每条数据包括多个变量;
识别待分析的数据文件中每个变量的类型;
确定与变量的类型相对应的分析指标;
根据所述分析指标以及与所述业务需求对应的分析规则对所述数据进行质量分析。
2.根据权利要求1所述的数据质量在线分析方法,其特征在于,所述变量的类型包括离散型和连续型。
3.根据权利要求2所述的数据质量在线分析方法,其特征在于,若所述变量为离散型变量,则所述分析指标包括以下至少之一:缺失率、值域、值频、概率密度;若所述变量为连续型变量,则所述分析指标包括以下至少之一:缺失率、最大值、最小值、均值、众数、概率密度。
4.根据权利要求3所述的数据质量在线分析方法,其特征在于,还包括:
利用所述数据文件中的数据训练评分卡模型;
确定并展示对应所述评分卡模型的评价指标。
5.根据权利要求4所述的数据质量在线分析方法,其特征在于,对应所述评分卡模型的评价指标包括以下至少之一:AUC、KS指标。
6.一种数据质量在线分析装置,其特征在于,包括:
数据获取模块,用于根据业务需求在线获取待分析数据文件,每个数据文件包括多条数据,每条数据包括多个变量;
数据识别模块,用于识别待分析的数据文件中变量的类型;
指标确定模块,用于确定与变量的类型相对应的分析指标;
质量检测模块,用于根据所述分析指标以及与所述业务需求对应的分析规则对所述数据进行质量分析。
7.根据权利要求6所述的数据质量在线分析装置,其特征在于,所述变量的类型包括离散型和连续型。
8.根据权利要求7所述的数据质量在线分析装置,其特征在于,若所述变量为离散型变量,则所述分析指标包括以下至少之一:缺失率、值域、值频、概率密度;若所述变量为连续型变量,则所述分析指标包括以下至少之一:缺失率、最大值、最小值、均值、众数、概率密度。
9.根据权利要求8所述的数据质量在线分析装置,其特征在于,还包括:
模型训练模块,用于利用所述数据文件中的数据训练评分卡模型;
数据展示模块,用于确定并展示对应所述评分卡模型的评价指标。
10.根据权利要求9所述的数据质量在线分析装置,其特征在于,对应所述评分卡模型的评价指标包括以下至少之一:AUC、KS指标。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-5中一个或多个所述的方法。
12.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-5中一个或多个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282675.XA CN113010493A (zh) | 2021-03-16 | 2021-03-16 | 一种数据质量在线分析方法、装置、机器可读介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282675.XA CN113010493A (zh) | 2021-03-16 | 2021-03-16 | 一种数据质量在线分析方法、装置、机器可读介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113010493A true CN113010493A (zh) | 2021-06-22 |
Family
ID=76408586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110282675.XA Pending CN113010493A (zh) | 2021-03-16 | 2021-03-16 | 一种数据质量在线分析方法、装置、机器可读介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010493A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101576893A (zh) * | 2008-05-09 | 2009-11-11 | 北京世纪拓远软件科技发展有限公司 | 数据质量分析方法及系统 |
US20180300650A1 (en) * | 2017-04-13 | 2018-10-18 | Sas Institute Inc. | Distributed data variable analysis and hierarchical grouping system |
CN109086299A (zh) * | 2018-06-19 | 2018-12-25 | 北京至信普林科技有限公司 | 分析数据质量方法 |
CN110659817A (zh) * | 2019-09-16 | 2020-01-07 | 上海云从企业发展有限公司 | 一种数据处理方法、装置、机器可读介质及设备 |
CN111311400A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 基于gbdt算法的评分卡模型的建模方法及其系统 |
CN112071432A (zh) * | 2020-11-11 | 2020-12-11 | 上海森亿医疗科技有限公司 | 医疗数据的分析方法、系统、介质及装置 |
-
2021
- 2021-03-16 CN CN202110282675.XA patent/CN113010493A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101576893A (zh) * | 2008-05-09 | 2009-11-11 | 北京世纪拓远软件科技发展有限公司 | 数据质量分析方法及系统 |
US20180300650A1 (en) * | 2017-04-13 | 2018-10-18 | Sas Institute Inc. | Distributed data variable analysis and hierarchical grouping system |
CN109086299A (zh) * | 2018-06-19 | 2018-12-25 | 北京至信普林科技有限公司 | 分析数据质量方法 |
CN110659817A (zh) * | 2019-09-16 | 2020-01-07 | 上海云从企业发展有限公司 | 一种数据处理方法、装置、机器可读介质及设备 |
CN111311400A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 基于gbdt算法的评分卡模型的建模方法及其系统 |
CN112071432A (zh) * | 2020-11-11 | 2020-12-11 | 上海森亿医疗科技有限公司 | 医疗数据的分析方法、系统、介质及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929799B (zh) | 用于检测异常用户的方法、电子设备和计算机可读介质 | |
CN110659817A (zh) | 一种数据处理方法、装置、机器可读介质及设备 | |
CN112598294A (zh) | 在线建立评分卡模型的方法、装置、机器可读介质及设备 | |
CN112163642A (zh) | 一种风控规则获取方法、装置、介质及设备 | |
CN116541610B (zh) | 一种推荐模型的训练方法及装置 | |
WO2022037299A1 (zh) | 异常行为检测方法、装置、电子设备及计算机可读存储介质 | |
CN112528007A (zh) | 一种招商项目的目标企业的确认方法及确认装置 | |
CN112131322A (zh) | 时间序列分类方法及装置 | |
CN110363206B (zh) | 数据对象的聚类、数据处理及数据识别方法 | |
CN113192639A (zh) | 信息预测模型的训练方法、装置、设备及存储介质 | |
CN112966756A (zh) | 一种可视化的准入规则的生成方法、装置、机器可读介质及设备 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
CN107357847B (zh) | 数据处理方法及其装置 | |
CN110544166A (zh) | 样本生成方法、装置及存储介质 | |
CN113010493A (zh) | 一种数据质量在线分析方法、装置、机器可读介质及设备 | |
CN112417197B (zh) | 一种排序方法、装置、机器可读介质及设备 | |
CN115330522A (zh) | 基于聚类的信用卡审批方法、装置、电子设备和介质 | |
CN110728243B (zh) | 一种权级分类的业务管理方法、系统、设备和介质 | |
CN113312554A (zh) | 用于评价推荐系统的方法及装置、电子设备和介质 | |
CN111898027A (zh) | 确定特征维度的方法、装置、电子设备和计算机可读介质 | |
CN107103366B (zh) | 用于生成用户的年龄信息的方法和装置 | |
CN113326368B (zh) | 作答数据的处理方法、装置、设备以及存储介质 | |
CN110767224B (zh) | 一种基于特征权级的业务管理方法、系统、设备和介质 | |
CN110347905A (zh) | 确定信息关联度、信息推荐的方法、装置和存储介质 | |
KR102683489B1 (ko) | 제품 경쟁력 평가 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210622 |