CN110674107A - 一种数据筛分处理系统 - Google Patents
一种数据筛分处理系统 Download PDFInfo
- Publication number
- CN110674107A CN110674107A CN201910818197.2A CN201910818197A CN110674107A CN 110674107 A CN110674107 A CN 110674107A CN 201910818197 A CN201910818197 A CN 201910818197A CN 110674107 A CN110674107 A CN 110674107A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- screening
- scalar
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012216 screening Methods 0.000 title claims abstract description 88
- 238000012545 processing Methods 0.000 title claims abstract description 18
- 230000004044 response Effects 0.000 claims description 34
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000013480 data collection Methods 0.000 claims description 9
- 238000013500 data storage Methods 0.000 claims description 6
- 239000012535 impurity Substances 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002537 cosmetic Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/217—Database tuning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据筛分处理系统,属于数据筛选领域,包括数据获取单元、筛分参量选定单元、筛分单元和数据分类存储单元,所述数据获取单元分别与筛分参量选定单元和筛分单元连接,所述筛分参量选定单元与筛分单元连接,所述筛分单元与数据分类存储单元连接。本发明对数据的筛分标量进行确定,然后根据选定的标量计算其的参量数据,在根据参量数据缺点选定变量的筛分权重,从而使得筛分的数据准确率更高,筛分数据的速度更快效率更高。
Description
技术领域
本发明涉及数据筛选领域,尤其涉及一种数据筛分处理系统。
背景技术
大数据背后都隐藏着巨大的潜在价值,决定着众多企业和各个领域未来发展的方向和成果。现在已经有越来越多的企业意识到这些爆发式增长的数据带来的隐患,开始逐渐重视海量数据对企业的重要性。虽然大数据给人们带来了源源不断的商业信息和社会价值,但其中的问题也很明显—当今时代下的数据量过于庞大。
大数据环境下过于庞大的数据量,导致了若要从中分析出有效的信息,则需要消耗大量的资源和时间,而其中的日常均值数据和边际数据都占有很大的比重。若要减少这些计算消耗的资源和时间,除了设计出更加优秀的数据分析算法外,也可以从减少其数据规模的角度入手。
发明内容
本发明的目的在于提供一种数据筛分处理系统,解决现有数据不能有效的利用,数据筛选的效率和准确性不高的技术问题。
一种数据筛分处理系统,包括数据获取单元、筛分参量选定单元、筛分单元和数据分类存储单元,所述数据获取单元分别与筛分参量选定单元和筛分单元连接,所述筛分参量选定单元与筛分单元连接,所述筛分单元与数据分类存储单元连接;
所述数据获取单元用于收集需要处理的数据,并对数据进行预处理后存储,所述筛分参量选定单元用于选定数据筛分的标量,所述筛分单元根据标量响应数据计算参量,然后根据计算的参量数据确定标量的筛分权重,通过筛分权重对数据进行筛分处理,所述数据分类存储单元用于分类筛分后的数据,同时对数据进行贴签然后存储。
进一步地,所述数据获取单元包括数据收集模块、数据预处理模块和数据缓存模块,所述数据收集模块与数据预处理模块连接,所述数据预处理模块与数据缓存模块连接,所述数据收集模块对需要处理的数据进行接收收集,所述数据预处理模块对数据进行杂质滤除和数据标准化处理,所述数据缓存模块对标准化的数据进行缓存。
进一步地,所述杂质滤除包括对数据中空格字符、多余标点符号和表情包,所述数据标准化处理包括对数据中的图片进行图片识别文字提取,表情包表情识别,同时把识别后的数据进行统一标准转化得到标准化数据。
进一步地,所述筛分参量选定单元包括标量选定模块和参量选定模块,所述标量选定模块和参量选定模块连接,所述标量选定模块用于选定数据筛分的标量,所述参量选定模块用于选定标量对应的参量。
进一步地,所述标量包括固定期限是否有购买、购买金额、购买商品类别和客户是否为VIP客户,所述参量包括信息价值量和信息证据权重量。
进一步地,所述筛分单元包括标量响应核算模块、参量计算模块、选定标量权重模块和数据标量对比分析模块,所述标量响应核算模块与参量计算模块连接,所述参量计算模块与选定标量权重模块连接,所述选定标量权重模块与数据标量对比分析模块连接,所述标量响应核算模块用于核算标量的响应响应数据和未响应数据,所述参量计算模块根据标量响应数据计算其相应的参量数据,所述选定标量权重模块用于根据参量数据确定选定标量在筛分中的权重,所述数据标量对比分析模块用于根据标量筛分的权重对数据进行筛分处理。
进一步地,所述数据分类存储单元包括数据分类模块、数据标签模块和数据存储模块,所述数据分类模块用于根据筛分单元筛分的数据进行分类,所述数据标签模块用于对分类的数据进行贴上标签,所述数据存储模块用于把贴标签的数据进行存储。
本发明采用了上述技术方案,本发明具有以下技术效果:
本发明对数据的筛分标量进行确定,然后根据选定的标量计算其的参量数据,在根据参量数据缺点选定变量的筛分权重,从而使得筛分的数据准确率更高,筛分数据的速度更快效率更高。
附图说明
图1是本发明的系统框图。
图2是本发明的数据获取单元模块框图。
图3是本发明的筛分参量选定单元模块框图。
图4是本发明的筛分单元模块框图。
图5是本发明的数据分类存储单元模块框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
如图1所示,根据本发明的一种数据筛分处理系统结构示意图,包括数据获取单元、筛分参量选定单元、筛分单元和数据分类存储单元,所述数据获取单元分别与筛分参量选定单元和筛分单元连接,所述筛分参量选定单元与筛分单元连接,所述筛分单元与数据分类存储单元连接。
如图2所示,所述数据获取单元用于收集需要处理的数据,并对数据进行预处理后存储。所述数据获取单元包括数据收集模块、数据预处理模块和数据缓存模块,所述数据收集模块与数据预处理模块连接,所述数据预处理模块与数据缓存模块连接,所述数据收集模块对需要处理的数据进行接收收集,所述数据预处理模块对数据进行杂质滤除和数据标准化处理,所述数据缓存模块对标准化的数据进行缓存。所述杂质滤除包括对数据中空格字符、多余标点符号和表情包,所述数据标准化处理包括对数据中的图片进行图片识别文字提取,表情包表情识别,同时把识别后的数据进行统一标准转化得到标准化数据。
如图3所示,所述筛分参量选定单元用于选定数据筛分的标量。所述筛分参量选定单元包括标量选定模块和参量选定模块,所述标量选定模块和参量选定模块连接,所述标量选定模块用于选定数据筛分的标量,所述参量选定模块用于选定标量对应的参量。所述标量包括固定期限是否有购买、购买金额、购买商品类别和客户是否为VIP客户,所述参量包括信息价值量和信息证据权重量。
如图4所示,所述筛分单元根据标量响应数据计算参量,然后根据计算的参量数据确定标量的筛分权重,通过筛分权重对数据进行筛分处理。所述筛分单元包括标量响应核算模块、参量计算模块、选定标量权重模块和数据标量对比分析模块,所述标量响应核算模块与参量计算模块连接,所述参量计算模块与选定标量权重模块连接,所述选定标量权重模块与数据标量对比分析模块连接,所述标量响应核算模块用于核算标量的响应响应数据和未响应数据,所述参量计算模块根据标量响应数据计算其相应的参量数据,所述选定标量权重模块用于根据参量数据确定选定标量在筛分中的权重,所述数据标量对比分析模块用于根据标量筛分的权重对数据进行筛分处理。
如图5所示,所述数据分类存储单元用于分类筛分后的数据,同时对数据进行贴签然后存储。所述数据分类存储单元包括数据分类模块、数据标签模块和数据存储模块,所述数据分类模块用于根据筛分单元筛分的数据进行分类,所述数据标签模块用于对分类的数据进行贴上标签,所述数据存储模块用于把贴标签的数据进行存储。
以公司促销活动客户选定数据为例:
公司需要做促销活动,根据促销活动选定客户,公司的客户集合中的每个客户对于我们的某项营销活动是否能够响应,或者说我们要预测的是客户对我们的这项营销活动响应的可能性有多大,从公司客户列表中随机抽取了100000个客户进行了营销活动测试,收集了这些客户的响应结果,作为我们的建模数据集,其中响应的客户有10000个。另外假设我们也已经提取到了这些客户的一些变量,作为我们模型的候选变量集,这些变量包括以下这些:实际情况中,我们拥有的变量可能比这些多得多,这里列出的变量仅仅是为了说明我们的问题
选定的标量包括最近一个月是否有购买、最近一次购买金额、最近一笔购买的商品类别和是否是公司VIP客户。
对抽取的客户最近一个月是否有过购买标量进行计算:
最近一个月是否有过购买 | 响应 | 未响应 | 合计 | 响应比例 |
是 | 4000 | 16000 | 20000 | 20% |
否 | 6000 | 74000 | 80000 | 7.5% |
合计 | 10000 | 90000 | 100000 | 10% |
表1是抽取的客户中最近一个月是否有过购买的响应情况表对抽取的客户最近一次购买金额标量进行计算:
最近一次购买金额 | 响应 | 未响应 | 合计 | 响应比例 |
<100元 | 2500 | 47500 | 50000 | 5% |
[100,200) | 3000 | 27000 | 30000 | 10% |
[200,500) | 3000 | 12000 | 15000 | 20% |
>=500元 | 1500 | 3500 | 5000 | 30% |
合计 | 10000 | 90000 | 100000 | 10% |
表2是抽取的客户中最近一次购买金额的响应情况表对抽取的客户最近一笔购买的商品类别标量进行计算:
最近一笔购买的商品类别 | 响应 | 未响应 | 合计 | 响应比例 |
3C | 3000 | 57000 | 60000 | 5% |
化妆品 | 2000 | 18000 | 20000 | 10% |
母婴 | 5000 | 15000 | 20000 | 25% |
合计 | 10000 | 90000 | 100000 | 10% |
表3是抽取的客户中最近一笔购买的商品类别的响应情况表对抽取的客户是否是公司VIP客户标量进行计算:
是否是公司VIP客户 | 响应 | 未响应 | 合计 | 响应比例 |
是 | 5500 | 4500 | 10000 | 55% |
否 | 4500 | 85000 | 90000 | 5% |
合计 | 10000 | 90000 | 100000 | 10% |
表4是抽取的客户中是否是公司VIP客户的响应情况表标量计算过程:
设定证据权重量为W,则W=ln(y/n)=(yi/yt)/(ni/nt),
其中,y是这个组中响应客户,对应的是违约客户,总之,指的是模型中预测变量取值为是或者说1的个体,占所有样本中所有响应客户的比例,n是这个组中未响应客户占样本中所有未响应客户的比例,yi是这个组中响应客户的数量,ni是这个组中未响应客户的数量,yt是样本中所有响应客户的数量,nt是样本中所有未响应客户的数量。
设定信息价值量为V,则V=(y-n)*W。
然后根据每个分组或者分组的数量然后累计证据权重量和信息价值量。然后根据信息价值量大小确定标量的权重,信息价值量越大,则标量的权重越大。
根据上述的计算可以知道:
信息价值量V排序结果为:是否是公司VIP客户>最近一笔购买的商品类别>最近一次购买金额>最近一个月是否有过购买。则发现是否是公司VIP客户是预测能力最高的变量,最近一个月是否有过购买是预测能力最低的变量。如果我们需要在这四个变量中去挑选变量,就可以根据信息价值量为V从高到低去挑选了
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种数据筛分处理系统,其特征在于:包括数据获取单元、筛分参量选定单元、筛分单元和数据分类存储单元,所述数据获取单元分别与筛分参量选定单元和筛分单元连接,所述筛分参量选定单元与筛分单元连接,所述筛分单元与数据分类存储单元连接;
所述数据获取单元用于收集需要处理的数据,并对数据进行预处理后存储,所述筛分参量选定单元用于选定数据筛分的标量,所述筛分单元根据标量响应数据计算参量,然后根据计算的参量数据确定标量的筛分权重,通过筛分权重对数据进行筛分处理,所述数据分类存储单元用于分类筛分后的数据,同时对数据进行贴签然后存储。
2.根据权利要求1所述的一种数据筛分处理系统,其特征在于:所述数据获取单元包括数据收集模块、数据预处理模块和数据缓存模块,所述数据收集模块与数据预处理模块连接,所述数据预处理模块与数据缓存模块连接,所述数据收集模块对需要处理的数据进行接收收集,所述数据预处理模块对数据进行杂质滤除和数据标准化处理,所述数据缓存模块对标准化的数据进行缓存。
3.根据权利要求2所述的一种数据筛分处理系统,其特征在于:所述杂质滤除包括对数据中空格字符、多余标点符号和表情包,所述数据标准化处理包括对数据中的图片进行图片识别文字提取,表情包表情识别,同时把识别后的数据进行统一标准转化得到标准化数据。
4.根据权利要求1所述的一种数据筛分处理系统,其特征在于:所述筛分参量选定单元包括标量选定模块和参量选定模块,所述标量选定模块和参量选定模块连接,所述标量选定模块用于选定数据筛分的标量,所述参量选定模块用于选定标量对应的参量。
5.根据权利要求4所述的一种数据筛分处理系统,其特征在于:所述标量包括固定期限是否有购买、购买金额、购买商品类别和客户是否为VIP客户,所述参量包括信息价值量和信息证据权重量。
6.根据权利要求1所述的一种数据筛分处理系统,其特征在于:所述筛分单元包括标量响应核算模块、参量计算模块、选定标量权重模块和数据标量对比分析模块,所述标量响应核算模块与参量计算模块连接,所述参量计算模块与选定标量权重模块连接,所述选定标量权重模块与数据标量对比分析模块连接,所述标量响应核算模块用于核算标量的响应响应数据和未响应数据,所述参量计算模块根据标量响应数据计算其相应的参量数据,所述选定标量权重模块用于根据参量数据确定选定标量在筛分中的权重,所述数据标量对比分析模块用于根据标量筛分的权重对数据进行筛分处理。
7.根据权利要求1所述的一种数据筛分处理系统,其特征在于:所述数据分类存储单元包括数据分类模块、数据标签模块和数据存储模块,所述数据分类模块用于根据筛分单元筛分的数据进行分类,所述数据标签模块用于对分类的数据进行贴上标签,所述数据存储模块用于把贴标签的数据进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818197.2A CN110674107A (zh) | 2019-08-30 | 2019-08-30 | 一种数据筛分处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818197.2A CN110674107A (zh) | 2019-08-30 | 2019-08-30 | 一种数据筛分处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110674107A true CN110674107A (zh) | 2020-01-10 |
Family
ID=69075837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910818197.2A Pending CN110674107A (zh) | 2019-08-30 | 2019-08-30 | 一种数据筛分处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674107A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106580282A (zh) * | 2016-10-25 | 2017-04-26 | 上海斐讯数据通信技术有限公司 | 一种人体健康监测装置、系统及方法 |
CN108874959A (zh) * | 2018-06-06 | 2018-11-23 | 电子科技大学 | 一种基于大数据技术的用户动态兴趣模型建立方法 |
CN109064227A (zh) * | 2018-07-30 | 2018-12-21 | 广州新趋士网络科技有限公司 | 一种基于大数据的客户分析系统 |
CN109598588A (zh) * | 2018-12-04 | 2019-04-09 | 广州拓飞商贸有限公司 | 一种基于大数据分析的在线商品展示方法 |
-
2019
- 2019-08-30 CN CN201910818197.2A patent/CN110674107A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106580282A (zh) * | 2016-10-25 | 2017-04-26 | 上海斐讯数据通信技术有限公司 | 一种人体健康监测装置、系统及方法 |
CN108874959A (zh) * | 2018-06-06 | 2018-11-23 | 电子科技大学 | 一种基于大数据技术的用户动态兴趣模型建立方法 |
CN109064227A (zh) * | 2018-07-30 | 2018-12-21 | 广州新趋士网络科技有限公司 | 一种基于大数据的客户分析系统 |
CN109598588A (zh) * | 2018-12-04 | 2019-04-09 | 广州拓飞商贸有限公司 | 一种基于大数据分析的在线商品展示方法 |
Non-Patent Citations (1)
Title |
---|
张剑等: "《信息安全技术》", 31 May 2015 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107067283B (zh) | 基于历史商家记录及用户行为的电商消费客流量预测方法 | |
CN109523520A (zh) | 一种基于深度学习的染色体自动计数方法 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN103646343A (zh) | 一种基于文本的商品分类处理方法及其系统 | |
CN112435214B (zh) | 基于先验框线性缩放的花粉检测方法、装置和电子设备 | |
CN108595621A (zh) | 一种虚开增值税发票的预警分析方法及系统 | |
CN108389069A (zh) | 基于随机森林和逻辑回归的优质客户识别方法及装置 | |
CN109558792A (zh) | 一种基于样本和特征检测互联网徽标内容的方法和系统 | |
CN108364191A (zh) | 基于随机森林和逻辑回归的优质客户优化识别方法及装置 | |
CN106681989A (zh) | 一种预测微博转发概率的方法 | |
CN109697574A (zh) | 一种电力中小客户用电风险识别方法 | |
CN108596227B (zh) | 一种用户用电行为主导影响因素挖掘方法 | |
CN111352976A (zh) | 一种针对购物节的搜索广告转化率预测方法及装置 | |
CN106682206A (zh) | 一种大数据处理方法及系统 | |
CN115269958A (zh) | 互联网可靠性数据信息采集分析系统 | |
CN111339927A (zh) | 一种电力营业厅人员工作状态智能识别系统 | |
CN109166012B (zh) | 针对行程预定类用户的分类及信息推送的方法和装置 | |
CN114694130A (zh) | 基于深度学习的铁路沿线电线杆及杆号检测方法和装置 | |
CN107194739A (zh) | 一种基于大数据的智能推荐系统 | |
CN113408207A (zh) | 基于社会网络分析技术的数据挖掘的一种方法 | |
CN112529712A (zh) | 用户运营分析rfm的建模方法与系统 | |
CN110674107A (zh) | 一种数据筛分处理系统 | |
CN115935136A (zh) | 一种面向多源数据融合的文旅客户信息统计方法及装置 | |
CN109684479A (zh) | 一种基于人工智能来实现业务分析的方法 | |
CN115687788A (zh) | 一种智能化商机推荐方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200110 |