CN109639838B - 一种基于大数据的信息分类存储系统 - Google Patents

一种基于大数据的信息分类存储系统 Download PDF

Info

Publication number
CN109639838B
CN109639838B CN201910116474.5A CN201910116474A CN109639838B CN 109639838 B CN109639838 B CN 109639838B CN 201910116474 A CN201910116474 A CN 201910116474A CN 109639838 B CN109639838 B CN 109639838B
Authority
CN
China
Prior art keywords
information
data
sender
file
storage server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910116474.5A
Other languages
English (en)
Other versions
CN109639838A (zh
Inventor
戚玉侠
康秀娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyun (Nanjing) Information Technology Co., Ltd.
Original Assignee
Huaiyun Nanjing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyun Nanjing Information Technology Co Ltd filed Critical Huaiyun Nanjing Information Technology Co Ltd
Priority to CN201910116474.5A priority Critical patent/CN109639838B/zh
Publication of CN109639838A publication Critical patent/CN109639838A/zh
Application granted granted Critical
Publication of CN109639838B publication Critical patent/CN109639838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content
    • H04L67/5651Reducing the amount or size of exchanged application data

Abstract

本发明公开了一种基于大数据的信息分类存储系统,所述信息收发模块与信息分类模块电连接,信息分类模块连接与无线通信模块电连接,所述无线通信模块与存储服务器通信连接,无线通信模块与信息分类模块均与信息存储模块电连接。可信息进行多次筛选,使用户远离垃圾信息的打扰,本地黑名单可自动更新,保障用户个性化的分类需求。普通信息存储小体积的媒体文件,并在用户需要查看时再从服务器中下载,提高了本地存储空间的利用率,也保证了用户数据的完整性。存储服务器采用的存储策略,配合映射方式,能够提升存储服务器的存储空间利用率,同时垃圾信息对比库可进行更新,提升识别准确度。

Description

一种基于大数据的信息分类存储系统
技术领域
本发明涉及数据分类存储领域,具体涉及一种基于大数据的信息分类存储系统。
背景技术
随着科技的发展,人们通过设备接收的信息由只有文字数据的短信,到现在包含多媒体数据的各类即时通讯软件,单个信息的数据量也逐渐增大,随着使用时间的增加,信息占用的存储空间也越来越大,其中有效的信息和垃圾信息混杂在一起,影响日常使用,因此在接收信息后,我们需要对信息进行分类,并根据分类,对不同的信息采取不同的存储策略,尽量存储更多的有效信息,把垃圾信息剔除掉,减少垃圾信息对我们的影响。
现有最常用的方法是用户手动在本地建立黑名单,对黑名单内的发件人进行屏蔽,但此方法操作繁琐,需要手动添加每个联系人,使用不方便,而且无法屏蔽黑名单以外的发件人,实际使用效果不理想。
发明内容
为了解决上述的技术问题,本发明的目的在于提供一种基于大数据的信息分类存储系统。
本发明所要解决的技术问题为:
(1)如何提高本地存储空间的利用率;
(2)如何有效的筛选出垃圾信息。
本发明的目的可以通过以下技术方案实现:
一种基于大数据的信息分类存储系统,包括信息收发模块、信息分类模块、无线通信模块、信息存储模块和存储服务器,所述信息收发模块与信息分类模块电连接,信息分类模块与无线通信模块电连接,所述无线通信模块与存储服务器通信连接,无线通信模块与信息分类模块均与信息存储模块电连接;
所述信息收发模块用于接收和发送所有的信息,所述无线通信模块用于进行数据传输;
所述存储服务器用于存储基于大数据的垃圾信息对比库和用户上传的数据,所述垃圾信息对比库中包含发件人库和特征字库,存储服务器将用户上传的发件人数据与发件人库进行比对,并通过分词器与特征字库配合使用对文本数据进行特征字的提取,获取文本数据中的特征字的数量,所述特征字为垃圾信息中出现频率超过预设值a,且普通信息中出现频率低于预设值b的词组,其中a>b,若满足特征字数量超过预设值c或发件人数据与发件人库匹配中至少一种情况,则匹配结果提示为垃圾信息,若特征字数量低于预设值c且发件人数据与发件人库不匹配,则匹配结果提示为非垃圾信息,并将匹配结果发回信息分类模块;
所述信息存储模块根据信息分类模块的分类结果将接收到的信息进行分类存储,所述信息存储模块包括运算单元、通讯录单元,垃圾箱单元、中转单元和聊天记录单元,所述通讯录单元用于存储本地黑名单以及通讯录名单,所述垃圾箱单元用于存储已删除的信息,所述中转单元用于临时存储未知联系人信息,所述聊天记录单元用于存储普通信息和未知联系人信息;
所述信息分类模块对信息的分类过程如下:
S1、从接收到的信息中提取的发件人数据和文本数据,并通过无线通信模块将发件人数据和文本数据传输至存储服务器,并得到匹配结果,
S2、若匹配结果提示为垃圾信息,则标记为垃圾信息,若匹配结果提示为非垃圾信息,则将发件人数据与本地黑名单以及通讯录名单进行比对,若发件人数据与通讯录名单匹配,则标记为普通信息,若与本地黑名单匹配,则标记为垃圾信息,若发件人数据与本地黑名单以及通讯录名单均不匹配,则标记为未知联系人信息;
S3、读取普通信息的内容,将内容分为文本数据、图片数据、视频数据和其他文件;
所述信息存储模块对不同信息的存储过程如下:
SS1、将垃圾信息直接传输至垃圾箱单元,运算单元每隔一周清空一次垃圾箱单元内的信息;
SS2、运算单元将其他文件存储至聊天记录单元;
SS3、对于图片数据,运算单元为大于1MB的单个图片数据压缩另存为一个小于128KB的图片副本,并用图片副本替换普通信息中的原始图片数据,再将替换后的信息存储至聊天记录单元,同时将原始图片数据上传至存储服务器;
SS4、对于视频数据,运算单元从视频数据中截取出一段不超过5MB的GIF文件,并用GIF文件替换普通信息中的原始视频数据,再将替换后的信息存储至聊天记录单元,同时将原始视频数据上传至存储服务器;
SS5、将未知联系人信息存储至中转单元,当用户查看未知联系人信息时,记录查看时间,并获取发件人数据,当用户删除未知联系人信息时,记录删除时间,当用户回复未知联系人信息时,记录回复时间,若查看时间与删除时间间隔小于5min,并将发件人标记为备选黑名单,存储至通讯录单元,同一发件人被三次标记为备选黑名单后,将该发件人数据添加至本地黑名单中,若用户与同一发件人在一个月内的回复次数超过五次或总回复次数超过10次,则将该发件人标记为备选通讯录名单,并询问用户是否对该发件人添加备注,备注添加完成后,将该发件人数据添加至通讯录名单。
进一步的,所述存储服务器在存储图片数据和视频数据时,先获取图片和视频数据的参数设置信息,再通过相似图像识别技术和相似视频识别技术对所有用户上传的图片和视频中分析是否存在相同的文件,相同文件为内容相同,但分辨率不同的文件,存储服务器中存在相同图片和视频时,存储服务器将上传的文件与相同文件进行对比,存储服务器中只保留分辨率最高的文件和所有用户的参数设置信息,所有上传相同文件的用户均与保留文件建立映射。
进一步的,用户查看信息点击图片副本和GIF文件后,向存储服务器发送指令,同时存储服务器根据参数设置信息将保留文件通过编辑软件进行编辑并另存为一个与上传时的文件相同的替换文件,存储服务器将替换文件发回信息存储模块,向用户展示;用户删除本地的图片副本图片、GIF文件或信息时,运算单元向存储服务器发送指令,只删除用户与保留文件的映射,不删除保留文件,当保留文件不与任意一个用户存在映射时,删除保留文件。
进一步的,所述运算单元将本地黑名单发送至存储服务器进行备份,同时存储服务器对所有用户上传本地黑名单中的发件人数据进行统计,若同一发件人数据存在于超过n个用户的本地黑名单中,则将该发件人数据添加至发件人库,并从所有用户上传的发件人数据和文本数据中获取该发件人以往的文本数据,并通过分词器提取该发件人以往的文本数据中的词组,并计算所有词组出现在垃圾信息和非垃圾信息中的频率,选出垃圾信息中出现频率超过预设值a,且普通信息中出现频率低于预设值b的词组,作为更新数据与特征字库进行比较去重后添加至特征字库。
本发明的有益效果:
(1)依次通过云端的垃圾信息对比库、本地黑名单以及用户的操作记录,可对接收到的信息进行多次筛选,区分普通信息和垃圾信息,使用户远离垃圾信息的打扰,本地黑名单也可根据用户的操作习惯自动更新,进一步保障用户个性化的分类需求。
(2)普通信息在存储时只存储小体积的媒体文件,大体积的媒体文件被上传至存储服务器中,并在用户需要查看时再从服务器中下载,既提高了本地存储空间的利用率,也保证了用户查看信息时数据的完整性。
(3)存储服务器采用相同文件只保存最高分辨率的文件的存储策略,配合单文件对应多用户的存储方式映射方式,能够提升存储服务器的存储空间利用率,同时垃圾信息对比库可根据所有用户上传形成的大数据进行更新,不断增加数据量,提升识别准确度。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本实施例提供了一种基于大数据的信息分类存储系统,包括信息收发模块、信息分类模块、无线通信模块、信息存储模块和存储服务器,其中信息收发模块、信息分类模块、无线通信模块、信息存储模块均位于本地设备中,如手机,平板,电脑等,信息收发模块与信息分类模块电连接,信息分类模块与无线通信模块电连接,无线通信模块与存储服务器通信连接,无线通信模块与信息分类模块均与信息存储模块电连接。
信息收发模块用于接收和发送所有的信息,无线通信模块用于进行数据传输。
存储服务器用于存储基于大数据的垃圾信息对比库和用户上传的数据,垃圾信息对比库中包含发件人库和特征字库,发件人库和特征字库由服务器维护人员进行初始设置,存储服务器将用户上传的发件人数据与发件人库进行比对,并通过分词器与特征字库配合使用对文本数据进行特征字的提取,获取文本数据中的特征字的数量,特征字为垃圾信息中出现频率超过预设值a,且普通信息中出现频率低于预设值b的词组,其中a>b,如a=60%,b=20%,若满足特征字数量超过预设值c或发件人数据与发件人库匹配中至少一种情况,则匹配结果提示为垃圾信息,若特征字数量低于预设值c且发件人数据与发件人库不匹配,则匹配结果提示为非垃圾信息,并将匹配结果发回信息分类模块;如分词器对于信息的文件进行提取,且c=10,获得20个词组,与特征字库进行比对,发现存在5个词组与特征字库内的数据相匹配,同时发件人数据不存在于发件人库内,则判断此匹配结果为非垃圾信息。
信息存储模块根据信息分类模块的分类结果将接收到的信息进行分类存储,信息存储模块包括运算单元、通讯录单元,垃圾箱单元、中转单元和聊天记录单元,通讯录单元用于存储本地黑名单以及通讯录名单,垃圾箱单元用于存储已删除的信息,中转单元用于临时存储未知联系人信息,聊天记录单元用于存储普通信息和未知联系人信息;
信息分类模块对信息的分类过程如下:
S1、从接收到的信息中提取的发件人数据,如发件人的名称或号码,和文本数据,并通过无线通信模块将发件人数据和文本数据传输至存储服务器,用于构建大数据,并得到匹配结果。
S2、若匹配结果提示为垃圾信息,则标记为垃圾信息,若匹配结果提示为非垃圾信息,则将发件人数据与本地黑名单以及通讯录名单进行比对,若发件人数据与通讯录名单匹配,则标记为普通信息,若与本地黑名单匹配,则标记为垃圾信息,若发件人数据与本地黑名单以及通讯录名单均不匹配,则标记为未知联系人信息;
S3、读取普通信息的内容,将内容分为文本数据、图片数据、视频数据和其他文件;
信息存储模块对不同信息的存储过程如下:
SS1、将垃圾信息直接传输至垃圾箱单元,运算单元每隔一周清空一次垃圾箱单元内的信息;
SS2、运算单元将其他文件存储至聊天记录单元;
SS3、对于图片数据,运算单元为大于1MB的单个图片数据压缩另存为一个小于128KB的图片副本,并用图片副本替换普通信息中的原始图片数据,再将替换后的信息存储至聊天记录单元,同时将原始图片数据上传至存储服务器。
SS4、对于视频数据,运算单元从视频数据中截取出一段不超过5MB的GIF文件,并用GIF文件替换普通信息中的原始视频数据,再将替换后的信息存储至聊天记录单元,同时将原始视频数据上传至存储服务器;用压缩后的图片和gif文件代替占用空间大的原始文件,能够提升本地存储空间的使用效率,同时将原始文件存储至存储服务器内,需要时再进行下载查看。
SS5、将未知联系人信息存储至中转单元,当用户查看未知联系人信息时,记录查看时间,并获取发件人数据,当用户删除未知联系人信息时,记录删除时间,当用户回复未知联系人信息时,记录回复时间,若查看时间与删除时间间隔小于5min,并将发件人标记为备选黑名单,存储至通讯录单元,同一发件人被三次标记为备选黑名单后,将该发件人数据添加至本地黑名单中,若用户与同一发件人在一个月内的回复次数超过五次或总回复次数超过10次,则将该发件人标记为备选通讯录名单,并询问用户是否对该发件人添加备注,备注添加完成后,将该发件人数据添加至通讯录名单。根据用户的操作分析出发件人的类型,对未知联系人信息进进行二次分类。
存储服务器在存储图片数据和视频数据时,先获取图片和视频数据的参数设置信息,如图片的详细参数和视频数据的详细参数,再通过相似图像识别技术和相似视频识别技术对所有用户上传的图片和视频中分析是否存在相同的文件,相同文件为内容相同,但分辨率不同的文件,同一内容的文件存储多个分辨率的版本浪费了许多存储空间,需要对其进行优化,存储服务器中存在相同图片和视频时,存储服务器将上传的文件与相同文件进行对比,存储服务器中只保留分辨率最高的文件和所有用户的参数设置信息,所有上传相同文件的用户均与保留文件建立映射。只保留最高分辨率的文件,所有保存该文件的用户共用这一个文件,能够缩短上传时间,提高存储空间的利用率。
用户查看信息点击图片副本和GIF文件后,表明用户需要查看图片和视频详细的内容,向存储服务器发送指令,同时存储服务器根据参数设置信息将保留文件通过编辑软件进行编辑并另存为一个与上传时的文件相同的替换文件,存储服务器将替换文件发回信息存储模块,向用户展示,如服务器内存有一个1080p的视频文件,而用户上传的是720p且内容相同的视频文件,为了还原用户上传的文件,需要对1080p的文件进行转化,可根据参数设置信息通过软件创建出一个新的720p的文件,完成转化后,将720p的文件传输给用户;用户删除本地的图片副本图片、GIF文件或信息时,运算单元向存储服务器发送指令,只删除用户与保留文件的映射,不删除保留文件,不会影响别的用户使用,当保留文件不与任意一个用户存在映射时,删除保留文件,及时清理垃圾文件进一步提升存储空间利用率。
运算单元将本地黑名单发送至存储服务器进行备份,同时存储服务器对所有用户上传本地黑名单中的发件人数据进行统计,若同一发件人数据存在于超过n个用户的本地黑名单中,则将该发件人数据添加至发件人库,可通过对所有用户的本地黑名单,对服务器中的发件人库进行更新,增加垃圾信息对比库的数据量和准确度。并从所有用户上传的发件人数据和文本数据中获取该发件人以往的文本数据,并通过分词器提取该发件人以往的文本数据中的词组,并计算所有词组出现在垃圾信息和非垃圾信息中的频率,选出垃圾信息中出现频率超过预设值a,且普通信息中出现频率低于预设值b的词组,作为更新数据与特征字库进行比较去重后添加至特征字库,可通过对所有用户的本地黑名单的历史文本数据进行筛选分析,扩充特征字库的特征字的数量,进一步垃圾信息对比库的数据量和准确度。
本实施例的具体工作过程如下:
1)用户接收到新的信息,信息分类模块将发件人信息和文本数据发送至存储服务器,与垃圾信息对比库进行对比,并返回比较结果,信息分类模块根据比较结果判断对信息是否为垃圾信息做初步判断。
2)对于初步判断为非垃圾信息时,再与本地黑名单和通讯录进行对比,进一步筛分类出垃圾信息、普通信息和未知联系人信息,完成第一次分类。
3)完成第一次分类后,信息存储模块对不同类型的信息采用不同的存储策略,将垃圾信息直接送至垃圾箱单元;将未知联系人信息存储至中转单元,根据用户的操作对未知联系人信息进行第二次分类;将普通信息进行内容提取,把大体积的文件传输至存储服务器进行共享,同时使用小体积的文件进行替换,减轻设备的存储压力,提高存储空间的利用率;用户查看时,再从存储服务器下载原文件。
4)存储服务器内对于相同内容的文件只保留最高分辨率的版本,多个用户通过与文件建立映射共享一个文件,通过转化可还原成用户上传时的版本。同时还可根据用户上传的数据对垃圾信息对比库进行更新,提升垃圾信息对比库的数据量和准确度。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (4)

1.一种基于大数据的信息分类存储系统,其特征在于,包括信息收发模块、信息分类模块、无线通信模块、信息存储模块和存储服务器,所述信息收发模块与信息分类模块电连接,信息分类模块与无线通信模块电连接,所述无线通信模块与存储服务器通信连接,无线通信模块与信息分类模块均与信息存储模块电连接;
所述信息收发模块用于接收和发送所有的信息,所述无线通信模块用于进行数据传输;
所述存储服务器用于存储基于大数据的垃圾信息对比库和用户上传的数据,所述垃圾信息对比库中包含发件人库和特征字库,存储服务器将用户上传的发件人数据与发件人库进行比对,并通过分词器与特征字库配合使用对文本数据进行特征字的提取,获取文本数据中的特征字的数量,所述特征字为垃圾信息中出现频率超过预设值a,且普通信息中出现频率低于预设值b的词组,其中a>b,若满足特征字数量超过预设值c或发件人数据与发件人库匹配中至少一种情况,则匹配结果提示为垃圾信息,若特征字数量低于预设值c且发件人数据与发件人库不匹配,则匹配结果提示为非垃圾信息,并将匹配结果发回信息分类模块;
所述信息存储模块根据信息分类模块的分类结果将接收到的信息进行分类存储,所述信息存储模块包括运算单元、通讯录单元,垃圾箱单元、中转单元和聊天记录单元,所述通讯录单元用于存储本地黑名单以及通讯录名单,所述垃圾箱单元用于存储已删除的信息,所述中转单元用于临时存储未知联系人信息,所述聊天记录单元用于存储普通信息和未知联系人信息;
所述信息分类模块对信息的分类过程如下:
S1、从接收到的信息中提取的发件人数据和文本数据,并通过无线通信模块将发件人数据和文本数据传输至存储服务器,并得到匹配结果;
S2、若匹配结果提示为垃圾信息,则标记为垃圾信息,若匹配结果提示为非垃圾信息,则将发件人数据与本地黑名单以及通讯录名单进行比对,若发件人数据与通讯录名单匹配,则标记为普通信息,若与本地黑名单匹配,则标记为垃圾信息,若发件人数据与本地黑名单以及通讯录名单均不匹配,则标记为未知联系人信息;
S3、读取普通信息的内容,将内容分为文本数据、图片数据、视频数据和其他文件;
所述信息存储模块对不同信息的存储过程如下:
SS1、将垃圾信息直接传输至垃圾箱单元,运算单元每隔一周清空一次垃圾箱单元内的信息;
SS2、运算单元将其他文件存储至聊天记录单元;
SS3、对于图片数据,运算单元为大于1MB的单个图片数据压缩另存为一个小于128KB的图片副本,并用图片副本替换普通信息中的原始图片数据,再将替换后的信息存储至聊天记录单元,同时将原始图片数据上传至存储服务器;
SS4、对于视频数据,运算单元从视频数据中截取出一段不超过5MB的GIF文件,并用GIF文件替换普通信息中的原始视频数据,再将替换后的信息存储至聊天记录单元,同时将原始视频数据上传至存储服务器;
SS5、将未知联系人信息存储至中转单元,当用户查看未知联系人信息时,记录查看时间,并获取发件人数据,当用户删除未知联系人信息时,记录删除时间,当用户回复未知联系人信息时,记录回复时间,若查看时间与删除时间间隔小于5min,并将发件人标记为备选黑名单,存储至通讯录单元,同一发件人被三次标记为备选黑名单后,将该发件人数据添加至本地黑名单中,若用户与同一发件人在一个月内的回复次数超过五次或总回复次数超过10次,则将该发件人标记为备选通讯录名单,并询问用户是否对该发件人添加备注,备注添加完成后,将该发件人数据添加至通讯录名单。
2.根据权利要求1所述的一种基于大数据的信息分类存储系统,其特征在于,所述存储服务器在存储图片数据和视频数据时,先获取图片和视频数据的参数设置信息,再通过相似图像识别技术和相似视频识别技术对所有用户上传的图片和视频中分析是否存在相同的文件,相同文件为内容相同,但分辨率不同的文件,存储服务器中存在相同图片和视频时,存储服务器将上传的文件与相同文件进行对比,存储服务器中只保留分辨率最高的文件和所有用户的参数设置信息,所有上传相同文件的用户均与保留文件建立映射。
3.根据权利要求2所述的一种基于大数据的信息分类存储系统,其特征在于,用户查看信息点击图片副本和GIF文件后,向存储服务器发送指令,同时存储服务器根据参数设置信息将保留文件通过编辑软件进行编辑并另存为一个与上传时的文件相同的替换文件,存储服务器将替换文件发回信息存储模块,向用户展示;用户删除本地的图片副本图片、GIF文件或信息时,运算单元向存储服务器发送指令,只删除用户与保留文件的映射,不删除保留文件,当保留文件不与任意一个用户存在映射时,删除保留文件。
4.根据权利要求1所述的一种基于大数据的信息分类存储系统,其特征在于,所述运算单元将本地黑名单发送至存储服务器进行备份,同时存储服务器对所有用户上传本地黑名单中的发件人数据进行统计,若同一发件人数据存在于超过n个用户的本地黑名单中,则将该发件人数据添加至发件人库,并从所有用户上传的发件人数据和文本数据中获取该发件人以往的文本数据,并通过分词器提取该发件人以往的文本数据中的词组,并计算所有词组出现在垃圾信息和非垃圾信息中的频率,选出垃圾信息中出现频率超过预设值a,且普通信息中出现频率低于预设值b的词组,作为更新数据与特征字库进行比较去重后添加至特征字库。
CN201910116474.5A 2019-02-13 2019-02-13 一种基于大数据的信息分类存储系统 Active CN109639838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910116474.5A CN109639838B (zh) 2019-02-13 2019-02-13 一种基于大数据的信息分类存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910116474.5A CN109639838B (zh) 2019-02-13 2019-02-13 一种基于大数据的信息分类存储系统

Publications (2)

Publication Number Publication Date
CN109639838A CN109639838A (zh) 2019-04-16
CN109639838B true CN109639838B (zh) 2020-03-17

Family

ID=66065346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910116474.5A Active CN109639838B (zh) 2019-02-13 2019-02-13 一种基于大数据的信息分类存储系统

Country Status (1)

Country Link
CN (1) CN109639838B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457495A (zh) * 2019-08-20 2019-11-15 南京创质科技发展有限公司 一种自媒体平台数据集中处理系统
CN113835616A (zh) * 2020-06-23 2021-12-24 华为技术有限公司 应用的数据管理方法、系统和计算机设备
CN113098898A (zh) * 2021-04-29 2021-07-09 王小平 一种业务数据监测预警平台及预警方法
CN113590531B (zh) * 2021-07-26 2021-12-31 浙江汇鼎华链科技有限公司 一种基于大数据的数据分类存储系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355517A (zh) * 2011-07-01 2012-02-15 宇龙计算机通信科技(深圳)有限公司 信息分类装置、信息分类方法和终端
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN103685846A (zh) * 2012-08-31 2014-03-26 丰桂兰 可联网的传真机、网络传真系统及其过滤垃圾传真的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278642A1 (en) * 2004-06-10 2005-12-15 Chang Nelson L A Method and system for controlling a collaborative computing environment
CN101425082A (zh) * 2008-12-15 2009-05-06 深圳市迅雷网络技术有限公司 视频文件内容确定方法及系统
CN101877837B (zh) * 2009-04-30 2013-11-06 华为技术有限公司 一种短信过滤的方法和装置
CN103024746B (zh) * 2012-12-30 2015-06-17 清华大学 一种电信运营商垃圾短信处理系统及处理方法
CN103826109B (zh) * 2014-03-25 2017-02-08 龙迅半导体(合肥)股份有限公司 一种视频监控图像数据处理方法及系统
CN104301492B (zh) * 2014-10-16 2020-03-27 努比亚技术有限公司 陌生号码管理方法和通信终端
CN106100973A (zh) * 2016-06-07 2016-11-09 中国石油大学(华东) 一种基于节点相似性的个性化垃圾邮件过滤方法与过滤装置
CN107562759B (zh) * 2016-06-30 2020-11-13 北京金山安全软件有限公司 一种处理信息源的方法、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355517A (zh) * 2011-07-01 2012-02-15 宇龙计算机通信科技(深圳)有限公司 信息分类装置、信息分类方法和终端
CN103685846A (zh) * 2012-08-31 2014-03-26 丰桂兰 可联网的传真机、网络传真系统及其过滤垃圾传真的方法
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统

Also Published As

Publication number Publication date
CN109639838A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109639838B (zh) 一种基于大数据的信息分类存储系统
JP2002132547A (ja) 電子情報管理サーバ、電子情報管理クライアントおよび電子情報管理方法ならびに電子情報管理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003018219A (ja) メール発信システム、メールサーバ、メール転送システム、メール転送方法、メール発信方法、メール配信方法、プログラム
CN105447115A (zh) 一种清理垃圾文件的方法、装置及电子设备
US10157190B2 (en) Image action based on automatic feature extraction
CN110727643B (zh) 一种基于机器学习的文件分类管理方法及系统
CN107635014B (zh) 一种文件传输及呈现方法、服务器和移动终端
CN112307339B (zh) 基于用户画像的推荐信息生成方法、装置及计算机设备
CN103188125A (zh) 邮件系统以及邮件生成和发送的方法
US20020112010A1 (en) Selective dissemination of electronic mail attachments
US20170026543A1 (en) System and method for processing and distribution of unstructured documents
CN105719049A (zh) 一种智能日志的实现方法及系统
CN111917632A (zh) 解析邮件的方法、装置、非易失性存储介质及电子装置
WO2021017899A1 (zh) 一种高效清理设备文件的方法及装置
JP2001331422A (ja) メール評価装置
CN108228843B (zh) 一种基于互联网的讲义压缩传输与还原方法
CN104391886A (zh) 一种电子书发送方法及装置
US5943400A (en) Voice mailing system for performing fax mail service and service method therefor
CN106571997A (zh) 一种基于数字名片的好友推荐方法及装置
CN104933077A (zh) 基于规则的多文件信息分析方法
CN115114236A (zh) 照片和/或视频的管理系统和管理方法
EP0597796A2 (en) Method and system for time critical response management in a data processing system
JP3325928B2 (ja) 電子メールシステム
CN102202008B (zh) 一种发送及接收用户上传内容的方法及装置
CN113660368A (zh) 一种基于移动终端的电子名片信息交换方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200217

Address after: No. 17 road in Yuhuatai District of Nanjing City, 210012 flora in Jiangsu Province

Applicant after: Huaiyun (Nanjing) Information Technology Co., Ltd.

Address before: 510080 L4A023-L4A027, Fourth Floor, Anhua Hui, 880 Baiyun Avenue North, Baiyun District, Guangzhou City, Guangdong Province

Applicant before: Guangzhou Qinyao Lighting Electrical Appliances Co., Ltd.

Applicant before: Kang Xiuna

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant