CN114661705A

CN114661705A - 一种基于云计算的大数据分析系统

Info

Publication number: CN114661705A
Application number: CN202210399706.4A
Authority: CN
Inventors: 孙鹏
Original assignee: Guangzhou Shuangzhi Network Technology Co ltd
Current assignee: Guangzhou Shuangzhi Network Technology Co ltd
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-06-24

Abstract

本发明公开了一种基于云计算的大数据分析系统，通过数据滤除单元对获取到所有涉及到用户录入的关键词组的目标数据，进行初滤处理，根据初滤处理将不符合要求的目标数据清除，之后将剩余的目标数据标记为初合数据；之后利用二滤单元接收处理器传输的初合数据，并对初合数据进行二滤处理，并根据二滤处理对初合数据进行二次分析，从时段和数据关联系分析初合数据与用户所需大数据关联程度，并根据关联程度确认合规数据。依据上述方式，能够对数据的关联系进行一次前瞻性的处理，采用本系统唯一需要注意的是关键词组的录入，能够让数据准确的界定在一定范围内，以该范围为限，保证大数据分析结果的合理性；本发明简单有效，且易于实用。

Description

一种基于云计算的大数据分析系统

技术领域

本发明属于大数据分析领域，涉及数据筛选技术，具体是一种基于云计算的大数据分析系统。

背景技术

电子商务以信息网络技术为手段，以商品交换为中心的商务活动；通过互联网进行交易，但是在交易过程中存在着大量的数据分析。

如公开号为CN112686735A的专利公开了一种基于大数据和云计算的电子商务系统，包括：终端控制模块的输出端连接有电子商务中心系统模块，电子商务中心系统模块的输出端同时连接有系统管理模块、云计算服务平台和大数据共享平台，系统管理模块的输出端连接有用户登录模块，大数据共享平台的输出端连接有风险预警判断分析模块。是整个电子商务中心系统的后台运行基础，能够保证电子商务中心的正常运转，同时提高电子商务中心系统的兼容性，和数据传输的稳定性；系统管理模块与用户登录系统相互连接，用户登录模块中可以对用户身份进行识。

但是对于大数据中的数据来源并没有涉及到一些合理的分析和处理，尤其是针对文字数据进行分析时，如何在分析前进行一次预处理，将一些不相关或者特例的数据滤除，不会因为一些偶然或者特殊情况下出现的数据能够对最终结果造成一定偏差性影响，根据结果来反向推算，筛选不合理数据，缺乏一种有效的手段；尤其是一种能够针对大部分的大数据分析方法，基于此，本申请提供一种解决方案。

发明内容

本发明的目的在于提供一种基于云计算的大数据分析系统。

本发明的目的可以通过以下技术方案实现：

一种基于云计算的大数据分析系统，包括

数据滤除单元，数据滤除单元用于对获取到所有涉及到用户录入的关键词组的目标数据，进行初滤处理，根据初滤处理将不符合要求的目标数据清除，之后将剩余的目标数据标记为初合数据；

还包括处理器和二滤单元；

数据滤除单元用于将初合数据传输到处理器，处理器接收数据滤除单元传输的初合数据，并将其传输到二滤单元，所述二滤单元接收处理器传输的初合数据，并对初合数据进行二滤处理，并根据二滤处理对初合数据进行二次分析，从时段和数据关联系分析初合数据与用户所需大数据关联程度，并根据关联程度确认合规数据。

进一步地，所述数据获取单元用于获取所有涉及到用户录入的关键词组的目标数据，关键词组包含若干个用户录入的关键词；目标数据中只要涉及到关键词即会被获取得到。

进一步地，还包括条件库，条件库内存储有初滤处理的规则；

数据获取单元用于将目标数据传输到数据滤除单元，数据滤除单元接收数据获取单元传输的目标数据，并结合条件库对其进行初滤处理，初滤处理具体方式为：

步骤一：获取到所有的目标数据；

步骤二：之后获取到关键词组内所有的关键词；

步骤三：任选一目标数据，对其进行分词处理，得到所有的分词，将其标记为数据分词，去除常规词语，常规词语为用户预设的词语，主要举例为语气助词如果、等之类词语；将剩余的数据分词标记为核要分词；

步骤四：获取到与所有的关键词一致的核要分词个数，将其标记为相似个数；

步骤五：将相似个数除以核要分词的总个数，得到相似占比；之后获取到在核要分词里面出现的关键词的个数，将该个数标记为核出个数，将核出个数除以关键词的个数，得到核出比；

步骤六：利用公式计算综合比，具体公式为：

综合比＝0.37*核出比+0.63*相似占比；

式中，0.37和0.63均为预设权值；

步骤七：当综合比低于预设比时，产生拒绝信号，将对应的目标数据去除；预设比为管理人员预设的比例数值，具体可取值为0.25；

步骤八：对其余的所有的目标数据进行上述处理，将产生拒绝信号的目标数据全部滤除，剩余的标记为初合数据。

进一步地，二滤处理具体方式为：

S1：获取得到所有的初合数据；

S2：之后将所有的初合数据的上传时间，上传时间即为对应的初合数据上传到网站上的时间；

S3：之后获取到上传时间最早的初合数据，将该时间标记为初始时间；之后获取到最晚的上传时间，将其标记为终结时间；

S4：将初始时间到终结时间的时间段均匀划分为X1个时段，得到X1个序时段；X1为预设数值；

S5：之后获取到每一个时间段内上传的所有的初合数据，自动获取到所有初合数据的浏览次、下载次和获取数；

S6：之后利用公式计算每个时段的访次值，具体计算公式为：

访次值＝0.47*浏览次+0.19*下载次+0.34*获取数；

式中，0.47、0.19和0.34均为预设的权值。

S7：按照访次值从大到小的顺序对序时段进行排序，并根据排序定义束倍值，将排名第一的序时段的束倍值标记为1.35；排序第二的序时段的束倍值标记为1.25，排序第三的序时段的束倍值标记为1.1；其余的序时段的束倍值标记为1；

S8：之后获取到所有的初合数据，同步获取其浏览次、下载次、获取数、相似占比和字符数，字符数即为对应的初合数据的字符数量；

S9：利用公式计算选用值，具体计算公式为：

选用值＝0.31*浏览次+0.11*下载次+0.18*获取数+0.32*相似占比+0.08字符数；

S10：按照选用值对所有的初合数据进行排序，将前百分之五十标记为合规数据。

进一步地，所述二滤单元用于将合规数据传输到处理器；所述处理器接收二滤单元传输的合规数据，并将其传输到用户端。

进一步地，还包括修改单元；

所述修改单元与处理器通信连接，用于录入所有的预设数值

本发明的有益效果：

本发明通过数据滤除单元对获取到所有涉及到用户录入的关键词组的目标数据，进行初滤处理，根据初滤处理将不符合要求的目标数据清除，之后将剩余的目标数据标记为初合数据；之后利用二滤单元接收处理器传输的初合数据，并对初合数据进行二滤处理，并根据二滤处理对初合数据进行二次分析，从时段和数据关联系分析初合数据与用户所需大数据关联程度，并根据关联程度确认合规数据。

依据上述方式，能够对数据的关联系进行一次前瞻性的处理，采用本系统唯一需要注意的是关键词组的录入，能够让数据准确的界定在一定范围内，以该范围为限，保证大数据分析结果的合理性；本发明简单有效，且易于实用。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明基于云计算的大数据分析系统框图。

具体实施方式

如图1所示，一种基于云计算的大数据分析系统，包括数据获取单元、数据滤除单元、条件库、处理器、二滤单元、用户端和修改单元；

其中，所述数据获取单元用于获取所有涉及到用户录入的关键词组的目标数据，关键词组包含若干个用户录入的关键词；目标数据中只要涉及到关键词即会被获取得到；并将目标数据传输到数据滤除单元，数据滤除单元接收数据获取单元传输的目标数据，并结合条件库对其进行初滤处理，条件库内存储有初滤处理的规则；初滤处理具体方式为：

步骤一：获取到所有的目标数据；

步骤二：之后获取到关键词组内所有的关键词；

步骤六：利用公式计算综合比，具体公式为：

综合比＝0.37*核出比+0.63*相似占比；

式中，0.37和0.63均为预设权值；

步骤八：对其余的所有的目标数据进行上述处理，将产生拒绝信号的目标数据全部滤除，剩余的标记为初合数据；

所述数据滤除单元用于将初合数据传输到处理器，所述处理器接收数据滤除单元传输的初合数据，并将其传输到二滤单元，所述二滤单元接收处理器传输的初合数据，并对初合数据进行二滤处理，二滤处理具体方式为：

S1：获取得到所有的初合数据；

访次值＝0.47*浏览次+0.19*下载次+0.34*获取数；

式中，0.47、0.19和0.34均为预设的权值。

S9：利用公式计算选用值，具体计算公式为：

S10：按照选用值对所有的初合数据进行排序，将前百分之五十标记为合规数据；

所述二滤单元用于将合规数据传输到处理器；所述处理器接收二滤单元传输的合规数据，并将其传输到用户端；

用户端即为用户所需的大数据，用于进行相关分析；

所述修改单元与处理器通信连接，用于录入所有的预设数值。

本申请中处理器借助云端处理器执行，所有运算分析过程借助云处理器解决。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于云计算的大数据分析系统，其特征在于，包括

数据滤除单元：其对获取所有涉及到用户录入的关键词组的目标数据进行初滤处理，根据初滤处理将不符合要求的目标数据清除，之后将剩余的目标数据标记为初合数据，并将初合数据传输至处理器；

二滤单元：其接收处理器传输的初合数据，并对初合数据进行二滤处理，并根据二滤处理对初合数据进行二次分析，从时段和数据关联系分析初合数据与用户所需大数据关联程度，并根据关联程度确认合规数据。

2.根据权利要求1所述的一种基于云计算的大数据分析系统，其特征在于，还包括数据获取单元，所述数据获取单元用于获取所有涉及到用户录入的关键词组的目标数据，关键词组包含若干个用户录入的关键词；目标数据中只要涉及到关键词即会被获取得到。

3.根据权利要求2所述的一种基于云计算的大数据分析系统，其特征在于，还包括条件库，条件库内存储有初滤处理的规则；

步骤一：获取到所有的目标数据；

步骤二：之后获取到关键词组内所有的关键词；

步骤三：任选一目标数据，对其进行分词处理，得到所有的分词，将其标记为数据分词，去除常规词语，常规词语为用户预设的词语，将剩余的数据分词标记为核要分词；

步骤六：利用公式计算综合比，具体公式为：

综合比＝0.37*核出比+0.63*相似占比；

式中，0.37和0.63均为预设权值；

步骤七：当综合比低于预设比时，产生拒绝信号，将对应的目标数据去除；预设比为管理人员预设的比例数值；

4.根据权利要求3所述的一种基于云计算的大数据分析系统，其特征在于，二滤处理具体方式为：

S1：获取得到所有的初合数据；

访次值＝0.47*浏览次+0.19*下载次+0.34*获取数；

式中，0.47、0.19和0.34均为预设的权值。

S9：利用公式计算选用值，具体计算公式为：

5.根据权利要求1所述的一种基于云计算的大数据分析系统，其特征在于，所述二滤单元用于将合规数据传输到处理器。

6.根据权利要求5所述的一种基于云计算的大数据分析系统，其特征在于，所述处理器接收二滤单元传输的合规数据，并将其传输到用户端。

7.根据权利要求1所述的一种基于云计算的大数据分析系统，其特征在于，还包括修改单元；所述修改单元与处理器通信连接，用于录入所有的预设数值。