CN114661705A - 一种基于云计算的大数据分析系统 - Google Patents
一种基于云计算的大数据分析系统 Download PDFInfo
- Publication number
- CN114661705A CN114661705A CN202210399706.4A CN202210399706A CN114661705A CN 114661705 A CN114661705 A CN 114661705A CN 202210399706 A CN202210399706 A CN 202210399706A CN 114661705 A CN114661705 A CN 114661705A
- Authority
- CN
- China
- Prior art keywords
- data
- initial
- time
- target data
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于云计算的大数据分析系统,通过数据滤除单元对获取到所有涉及到用户录入的关键词组的目标数据,进行初滤处理,根据初滤处理将不符合要求的目标数据清除,之后将剩余的目标数据标记为初合数据;之后利用二滤单元接收处理器传输的初合数据,并对初合数据进行二滤处理,并根据二滤处理对初合数据进行二次分析,从时段和数据关联系分析初合数据与用户所需大数据关联程度,并根据关联程度确认合规数据。依据上述方式,能够对数据的关联系进行一次前瞻性的处理,采用本系统唯一需要注意的是关键词组的录入,能够让数据准确的界定在一定范围内,以该范围为限,保证大数据分析结果的合理性;本发明简单有效,且易于实用。
Description
技术领域
本发明属于大数据分析领域,涉及数据筛选技术,具体是一种基于云计算的大数据分析系统。
背景技术
电子商务以信息网络技术为手段,以商品交换为中心的商务活动;通过互联网进行交易,但是在交易过程中存在着大量的数据分析。
如公开号为CN112686735A的专利公开了一种基于大数据和云计算的电子商务系统,包括:终端控制模块的输出端连接有电子商务中心系统模块,电子商务中心系统模块的输出端同时连接有系统管理模块、云计算服务平台和大数据共享平台,系统管理模块的输出端连接有用户登录模块,大数据共享平台的输出端连接有风险预警判断分析模块。是整个电子商务中心系统的后台运行基础,能够保证电子商务中心的正常运转,同时提高电子商务中心系统的兼容性,和数据传输的稳定性;系统管理模块与用户登录系统相互连接,用户登录模块中可以对用户身份进行识。
但是对于大数据中的数据来源并没有涉及到一些合理的分析和处理,尤其是针对文字数据进行分析时,如何在分析前进行一次预处理,将一些不相关或者特例的数据滤除,不会因为一些偶然或者特殊情况下出现的数据能够对最终结果造成一定偏差性影响,根据结果来反向推算,筛选不合理数据,缺乏一种有效的手段;尤其是一种能够针对大部分的大数据分析方法,基于此,本申请提供一种解决方案。
发明内容
本发明的目的在于提供一种基于云计算的大数据分析系统。
本发明的目的可以通过以下技术方案实现:
一种基于云计算的大数据分析系统,包括
数据滤除单元,数据滤除单元用于对获取到所有涉及到用户录入的关键词组的目标数据,进行初滤处理,根据初滤处理将不符合要求的目标数据清除,之后将剩余的目标数据标记为初合数据;
还包括处理器和二滤单元;
数据滤除单元用于将初合数据传输到处理器,处理器接收数据滤除单元传输的初合数据,并将其传输到二滤单元,所述二滤单元接收处理器传输的初合数据,并对初合数据进行二滤处理,并根据二滤处理对初合数据进行二次分析,从时段和数据关联系分析初合数据与用户所需大数据关联程度,并根据关联程度确认合规数据。
进一步地,所述数据获取单元用于获取所有涉及到用户录入的关键词组的目标数据,关键词组包含若干个用户录入的关键词;目标数据中只要涉及到关键词即会被获取得到。
进一步地,还包括条件库,条件库内存储有初滤处理的规则;
数据获取单元用于将目标数据传输到数据滤除单元,数据滤除单元接收数据获取单元传输的目标数据,并结合条件库对其进行初滤处理,初滤处理具体方式为:
步骤一:获取到所有的目标数据;
步骤二:之后获取到关键词组内所有的关键词;
步骤三:任选一目标数据,对其进行分词处理,得到所有的分词,将其标记为数据分词,去除常规词语,常规词语为用户预设的词语,主要举例为语气助词如果、等之类词语;将剩余的数据分词标记为核要分词;
步骤四:获取到与所有的关键词一致的核要分词个数,将其标记为相似个数;
步骤五:将相似个数除以核要分词的总个数,得到相似占比;之后获取到在核要分词里面出现的关键词的个数,将该个数标记为核出个数,将核出个数除以关键词的个数,得到核出比;
步骤六:利用公式计算综合比,具体公式为:
综合比=0.37*核出比+0.63*相似占比;
式中,0.37和0.63均为预设权值;
步骤七:当综合比低于预设比时,产生拒绝信号,将对应的目标数据去除;预设比为管理人员预设的比例数值,具体可取值为0.25;
步骤八:对其余的所有的目标数据进行上述处理,将产生拒绝信号的目标数据全部滤除,剩余的标记为初合数据。
进一步地,二滤处理具体方式为:
S1:获取得到所有的初合数据;
S2:之后将所有的初合数据的上传时间,上传时间即为对应的初合数据上传到网站上的时间;
S3:之后获取到上传时间最早的初合数据,将该时间标记为初始时间;之后获取到最晚的上传时间,将其标记为终结时间;
S4:将初始时间到终结时间的时间段均匀划分为X1个时段,得到X1个序时段;X1为预设数值;
S5:之后获取到每一个时间段内上传的所有的初合数据,自动获取到所有初合数据的浏览次、下载次和获取数;
S6:之后利用公式计算每个时段的访次值,具体计算公式为:
访次值=0.47*浏览次+0.19*下载次+0.34*获取数;
式中,0.47、0.19和0.34均为预设的权值。
S7:按照访次值从大到小的顺序对序时段进行排序,并根据排序定义束倍值,将排名第一的序时段的束倍值标记为1.35;排序第二的序时段的束倍值标记为1.25,排序第三的序时段的束倍值标记为1.1;其余的序时段的束倍值标记为1;
S8:之后获取到所有的初合数据,同步获取其浏览次、下载次、获取数、相似占比和字符数,字符数即为对应的初合数据的字符数量;
S9:利用公式计算选用值,具体计算公式为:
选用值=0.31*浏览次+0.11*下载次+0.18*获取数+0.32*相似占比+0.08字符数;
S10:按照选用值对所有的初合数据进行排序,将前百分之五十标记为合规数据。
进一步地,所述二滤单元用于将合规数据传输到处理器;所述处理器接收二滤单元传输的合规数据,并将其传输到用户端。
进一步地,还包括修改单元;
所述修改单元与处理器通信连接,用于录入所有的预设数值
本发明的有益效果:
本发明通过数据滤除单元对获取到所有涉及到用户录入的关键词组的目标数据,进行初滤处理,根据初滤处理将不符合要求的目标数据清除,之后将剩余的目标数据标记为初合数据;之后利用二滤单元接收处理器传输的初合数据,并对初合数据进行二滤处理,并根据二滤处理对初合数据进行二次分析,从时段和数据关联系分析初合数据与用户所需大数据关联程度,并根据关联程度确认合规数据。
依据上述方式,能够对数据的关联系进行一次前瞻性的处理,采用本系统唯一需要注意的是关键词组的录入,能够让数据准确的界定在一定范围内,以该范围为限,保证大数据分析结果的合理性;本发明简单有效,且易于实用。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明基于云计算的大数据分析系统框图。
具体实施方式
如图1所示,一种基于云计算的大数据分析系统,包括数据获取单元、数据滤除单元、条件库、处理器、二滤单元、用户端和修改单元;
其中,所述数据获取单元用于获取所有涉及到用户录入的关键词组的目标数据,关键词组包含若干个用户录入的关键词;目标数据中只要涉及到关键词即会被获取得到;并将目标数据传输到数据滤除单元,数据滤除单元接收数据获取单元传输的目标数据,并结合条件库对其进行初滤处理,条件库内存储有初滤处理的规则;初滤处理具体方式为:
步骤一:获取到所有的目标数据;
步骤二:之后获取到关键词组内所有的关键词;
步骤三:任选一目标数据,对其进行分词处理,得到所有的分词,将其标记为数据分词,去除常规词语,常规词语为用户预设的词语,主要举例为语气助词如果、等之类词语;将剩余的数据分词标记为核要分词;
步骤四:获取到与所有的关键词一致的核要分词个数,将其标记为相似个数;
步骤五:将相似个数除以核要分词的总个数,得到相似占比;之后获取到在核要分词里面出现的关键词的个数,将该个数标记为核出个数,将核出个数除以关键词的个数,得到核出比;
步骤六:利用公式计算综合比,具体公式为:
综合比=0.37*核出比+0.63*相似占比;
式中,0.37和0.63均为预设权值;
步骤七:当综合比低于预设比时,产生拒绝信号,将对应的目标数据去除;预设比为管理人员预设的比例数值,具体可取值为0.25;
步骤八:对其余的所有的目标数据进行上述处理,将产生拒绝信号的目标数据全部滤除,剩余的标记为初合数据;
所述数据滤除单元用于将初合数据传输到处理器,所述处理器接收数据滤除单元传输的初合数据,并将其传输到二滤单元,所述二滤单元接收处理器传输的初合数据,并对初合数据进行二滤处理,二滤处理具体方式为:
S1:获取得到所有的初合数据;
S2:之后将所有的初合数据的上传时间,上传时间即为对应的初合数据上传到网站上的时间;
S3:之后获取到上传时间最早的初合数据,将该时间标记为初始时间;之后获取到最晚的上传时间,将其标记为终结时间;
S4:将初始时间到终结时间的时间段均匀划分为X1个时段,得到X1个序时段;X1为预设数值;
S5:之后获取到每一个时间段内上传的所有的初合数据,自动获取到所有初合数据的浏览次、下载次和获取数;
S6:之后利用公式计算每个时段的访次值,具体计算公式为:
访次值=0.47*浏览次+0.19*下载次+0.34*获取数;
式中,0.47、0.19和0.34均为预设的权值。
S7:按照访次值从大到小的顺序对序时段进行排序,并根据排序定义束倍值,将排名第一的序时段的束倍值标记为1.35;排序第二的序时段的束倍值标记为1.25,排序第三的序时段的束倍值标记为1.1;其余的序时段的束倍值标记为1;
S8:之后获取到所有的初合数据,同步获取其浏览次、下载次、获取数、相似占比和字符数,字符数即为对应的初合数据的字符数量;
S9:利用公式计算选用值,具体计算公式为:
选用值=0.31*浏览次+0.11*下载次+0.18*获取数+0.32*相似占比+0.08字符数;
S10:按照选用值对所有的初合数据进行排序,将前百分之五十标记为合规数据;
所述二滤单元用于将合规数据传输到处理器;所述处理器接收二滤单元传输的合规数据,并将其传输到用户端;
用户端即为用户所需的大数据,用于进行相关分析;
所述修改单元与处理器通信连接,用于录入所有的预设数值。
本申请中处理器借助云端处理器执行,所有运算分析过程借助云处理器解决。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (7)
1.一种基于云计算的大数据分析系统,其特征在于,包括
数据滤除单元:其对获取所有涉及到用户录入的关键词组的目标数据进行初滤处理,根据初滤处理将不符合要求的目标数据清除,之后将剩余的目标数据标记为初合数据,并将初合数据传输至处理器;
二滤单元:其接收处理器传输的初合数据,并对初合数据进行二滤处理,并根据二滤处理对初合数据进行二次分析,从时段和数据关联系分析初合数据与用户所需大数据关联程度,并根据关联程度确认合规数据。
2.根据权利要求1所述的一种基于云计算的大数据分析系统,其特征在于,还包括数据获取单元,所述数据获取单元用于获取所有涉及到用户录入的关键词组的目标数据,关键词组包含若干个用户录入的关键词;目标数据中只要涉及到关键词即会被获取得到。
3.根据权利要求2所述的一种基于云计算的大数据分析系统,其特征在于,还包括条件库,条件库内存储有初滤处理的规则;
数据获取单元用于将目标数据传输到数据滤除单元,数据滤除单元接收数据获取单元传输的目标数据,并结合条件库对其进行初滤处理,初滤处理具体方式为:
步骤一:获取到所有的目标数据;
步骤二:之后获取到关键词组内所有的关键词;
步骤三:任选一目标数据,对其进行分词处理,得到所有的分词,将其标记为数据分词,去除常规词语,常规词语为用户预设的词语,将剩余的数据分词标记为核要分词;
步骤四:获取到与所有的关键词一致的核要分词个数,将其标记为相似个数;
步骤五:将相似个数除以核要分词的总个数,得到相似占比;之后获取到在核要分词里面出现的关键词的个数,将该个数标记为核出个数,将核出个数除以关键词的个数,得到核出比;
步骤六:利用公式计算综合比,具体公式为:
综合比=0.37*核出比+0.63*相似占比;
式中,0.37和0.63均为预设权值;
步骤七:当综合比低于预设比时,产生拒绝信号,将对应的目标数据去除;预设比为管理人员预设的比例数值;
步骤八:对其余的所有的目标数据进行上述处理,将产生拒绝信号的目标数据全部滤除,剩余的标记为初合数据。
4.根据权利要求3所述的一种基于云计算的大数据分析系统,其特征在于,二滤处理具体方式为:
S1:获取得到所有的初合数据;
S2:之后将所有的初合数据的上传时间,上传时间即为对应的初合数据上传到网站上的时间;
S3:之后获取到上传时间最早的初合数据,将该时间标记为初始时间;之后获取到最晚的上传时间,将其标记为终结时间;
S4:将初始时间到终结时间的时间段均匀划分为X1个时段,得到X1个序时段;X1为预设数值;
S5:之后获取到每一个时间段内上传的所有的初合数据,自动获取到所有初合数据的浏览次、下载次和获取数;
S6:之后利用公式计算每个时段的访次值,具体计算公式为:
访次值=0.47*浏览次+0.19*下载次+0.34*获取数;
式中,0.47、0.19和0.34均为预设的权值。
S7:按照访次值从大到小的顺序对序时段进行排序,并根据排序定义束倍值,将排名第一的序时段的束倍值标记为1.35;排序第二的序时段的束倍值标记为1.25,排序第三的序时段的束倍值标记为1.1;其余的序时段的束倍值标记为1;
S8:之后获取到所有的初合数据,同步获取其浏览次、下载次、获取数、相似占比和字符数,字符数即为对应的初合数据的字符数量;
S9:利用公式计算选用值,具体计算公式为:
选用值=0.31*浏览次+0.11*下载次+0.18*获取数+0.32*相似占比+0.08字符数;
S10:按照选用值对所有的初合数据进行排序,将前百分之五十标记为合规数据。
5.根据权利要求1所述的一种基于云计算的大数据分析系统,其特征在于,所述二滤单元用于将合规数据传输到处理器。
6.根据权利要求5所述的一种基于云计算的大数据分析系统,其特征在于,所述处理器接收二滤单元传输的合规数据,并将其传输到用户端。
7.根据权利要求1所述的一种基于云计算的大数据分析系统,其特征在于,还包括修改单元;所述修改单元与处理器通信连接,用于录入所有的预设数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210399706.4A CN114661705A (zh) | 2022-04-15 | 2022-04-15 | 一种基于云计算的大数据分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210399706.4A CN114661705A (zh) | 2022-04-15 | 2022-04-15 | 一种基于云计算的大数据分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114661705A true CN114661705A (zh) | 2022-06-24 |
Family
ID=82036161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210399706.4A Pending CN114661705A (zh) | 2022-04-15 | 2022-04-15 | 一种基于云计算的大数据分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114661705A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116467481A (zh) * | 2022-12-14 | 2023-07-21 | 喜鹊科技(广州)有限公司 | 一种基于云计算的信息处理方法和系统 |
CN116561188A (zh) * | 2023-04-11 | 2023-08-08 | 上海御灵树网络科技有限公司 | 一种具有筛选功能的大数据分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142940A (zh) * | 2013-05-08 | 2014-11-12 | 华为技术有限公司 | 信息推荐处理方法及装置 |
CN108399203A (zh) * | 2018-01-31 | 2018-08-14 | 合肥和钧正策信息技术有限公司 | 基于大数据平台的数据筛选系统 |
CN110532354A (zh) * | 2019-08-27 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 内容的检索方法及装置 |
CN112380412A (zh) * | 2020-11-11 | 2021-02-19 | 深圳供电局有限公司 | 一种基于大数据的筛选匹配信息的优化方法 |
CN112685475A (zh) * | 2020-12-30 | 2021-04-20 | 平安普惠企业管理有限公司 | 报表查询方法、装置、计算机设备及存储介质 |
CN113704287A (zh) * | 2020-09-01 | 2021-11-26 | 广西云牛动力网络科技有限公司 | 一种基于大数据的数据对比分析筛选系统及方法 |
-
2022
- 2022-04-15 CN CN202210399706.4A patent/CN114661705A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142940A (zh) * | 2013-05-08 | 2014-11-12 | 华为技术有限公司 | 信息推荐处理方法及装置 |
CN108399203A (zh) * | 2018-01-31 | 2018-08-14 | 合肥和钧正策信息技术有限公司 | 基于大数据平台的数据筛选系统 |
CN110532354A (zh) * | 2019-08-27 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 内容的检索方法及装置 |
CN113704287A (zh) * | 2020-09-01 | 2021-11-26 | 广西云牛动力网络科技有限公司 | 一种基于大数据的数据对比分析筛选系统及方法 |
CN112380412A (zh) * | 2020-11-11 | 2021-02-19 | 深圳供电局有限公司 | 一种基于大数据的筛选匹配信息的优化方法 |
CN112685475A (zh) * | 2020-12-30 | 2021-04-20 | 平安普惠企业管理有限公司 | 报表查询方法、装置、计算机设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116467481A (zh) * | 2022-12-14 | 2023-07-21 | 喜鹊科技(广州)有限公司 | 一种基于云计算的信息处理方法和系统 |
CN116467481B (zh) * | 2022-12-14 | 2023-12-01 | 要务(深圳)科技有限公司 | 一种基于云计算的信息处理方法和系统 |
CN116561188A (zh) * | 2023-04-11 | 2023-08-08 | 上海御灵树网络科技有限公司 | 一种具有筛选功能的大数据分析方法 |
CN116561188B (zh) * | 2023-04-11 | 2024-06-11 | 北京联世传奇网络技术有限公司 | 一种具有筛选功能的大数据分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114661705A (zh) | 一种基于云计算的大数据分析系统 | |
CN112037910B (zh) | 健康信息管理方法、装置、设备及存储介质 | |
CN106372225A (zh) | 一种基于高价值对比库的信息处理装置及方法 | |
CN106446070A (zh) | 一种基于专利群的信息处理装置及方法 | |
CN112948429B (zh) | 一种数据报送方法、装置和设备 | |
CN107809370B (zh) | 用户推荐方法及装置 | |
CN113051291A (zh) | 工单信息的处理方法、装置、设备及存储介质 | |
CN115730605B (zh) | 基于多维信息的数据分析方法 | |
CN113095081A (zh) | 疾病的识别方法及装置、存储介质、电子装置 | |
CN113724847A (zh) | 基于人工智能的医疗资源分配方法、装置、终端设备及介质 | |
CN114048780A (zh) | 基于联邦学习的脑电信号分类模型训练方法及装置 | |
CN111460315B (zh) | 社群画像构建方法、装置、设备及存储介质 | |
CN113129057A (zh) | 软件造价信息的处理方法、装置、计算机设备及存储介质 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN114117053A (zh) | 病种分类模型训练方法、装置、存储介质及电子装置 | |
CN116564539B (zh) | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 | |
CN112053151A (zh) | 行为的确定方法及装置、存储介质、电子设备 | |
CN116541711A (zh) | 模型训练方法、课程推荐方法、装置、设备及介质 | |
CN107818390A (zh) | 一种考核要求生成方法及装置 | |
CN115934899A (zh) | 一种it行业简历推荐方法、装置、电子设备及储存介质 | |
CN115293275A (zh) | 数据识别方法、装置、电子设备和存储介质 | |
CN110162614B (zh) | 问题信息提取方法、装置、电子设备和存储介质 | |
CN113487440A (zh) | 模型生成、健康险理赔的确定方法、装置、设备及介质 | |
CN113704236A (zh) | 政务系统数据质量评估方法、装置、终端及存储介质 | |
CN113282686A (zh) | 一种不平衡样本的关联规则确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |