CN107315809A - 一种基于Spark平台的集团新闻数据预处理方法 - Google Patents

一种基于Spark平台的集团新闻数据预处理方法 Download PDF

Info

Publication number
CN107315809A
CN107315809A CN201710500031.7A CN201710500031A CN107315809A CN 107315809 A CN107315809 A CN 107315809A CN 201710500031 A CN201710500031 A CN 201710500031A CN 107315809 A CN107315809 A CN 107315809A
Authority
CN
China
Prior art keywords
data
group
denoising
news data
operator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710500031.7A
Other languages
English (en)
Inventor
李腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Genersoft Information Technology Co Ltd
Original Assignee
Shandong Inspur Genersoft Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Genersoft Information Technology Co Ltd filed Critical Shandong Inspur Genersoft Information Technology Co Ltd
Priority to CN201710500031.7A priority Critical patent/CN107315809A/zh
Publication of CN107315809A publication Critical patent/CN107315809A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Spark平台的集团新闻数据预处理方法,其具体实现过程为,采集算子,即采集集团新闻数据;去噪算子,即将采集回来的集团新闻数据进行去噪处理,去噪算子基于Spark平台完成;去重算子,对去噪处理后的数据进行去重处理;最后设定海明距离阈值,在去重处理中将海明距离小于设定的阈值的文本判定为近似文本。本发明的一种基于Spark平台的集团新闻数据预处理方法与现有技术相比,处理速度快,亿级记录去噪可在毫秒级内完成,千万级记录去重可在分钟级完成;准确率高去噪处理准确率可达到96.4%,去重处理准确率期可达到90.3%,实用性强,适用范围广泛,易于推广。

Description

一种基于Spark平台的集团新闻数据预处理方法
技术领域
本发明涉及计算机技术领域,具体地说是一种基于Spark平台的集团新闻数据预处理方法。
背景技术
现有的数据去噪算法的主要应用场景在单机或一上,目前的算法主要针对文本长度不满足阈值的数据、广告内容和自动回复数据等。现有的数据去重算法由模块根据分词后的结果对文本进行词频统计,以将其转换为维向量,并且对所述维向量进行运算,以便获得位的二进制签名,由去重运算模块执行以下操作:根据设定参数将所述位的二进制签名分段,并依据分段结果建立倒序索引,根据所建立的倒序索引来分段检索第一分段下的签名集合,并计算所述第一分段中的对应的海明距离以及确定在所述第一分段中的所计算的海明距离是否在所述设定参数范围内。
上述方法由于并不具备所提供的基于内存的计算和对中间结果的内存存储,导致整体时间过多的浪费在工当中,拖慢了整个应用场景的速度。由语言不同而带来的数据冗余也是去噪中的重点之一,基于此,本专利提供一种可解决上述问题的基于Spark平台的集团新闻数据预处理方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于Spark平台的集团新闻数据预处理方法。
一种基于Spark平台的集团新闻数据预处理方法,其具体实现过程为,
采集算子,即采集集团新闻数据;
去噪算子,即将采集回来的集团新闻数据进行去噪处理,去噪算子基于Spark平台完成;
去重算子,对去噪处理后的数据进行去重处理;
最后设定海明距离阈值,在去重处理中将海明距离小于设定的阈值的文本判定为近似文本。
在采集算子步骤中,采集的数据存储在HDFS,即分布式文件系统中。
基于Spark平台对采集的数据进行去噪处理的步骤为:
在Spark平台中启动Spark驱动,并按默认分区数生成弹性分布式数据集RDD,对HDFS文件进行读取;
对数据进行去噪处理,完成数据过滤;
将去噪处理后的数据以RDD的形式缓存在分布式内存中。
对数据进行去噪处理的步骤中,通过以下三种方式完成数据过滤:长度过滤、语义过滤及关键词过滤,其中:
长度过滤是指将低于一定字符数的集团新闻数据认为无效数据;
语义过滤是指对集团新闻数据这种短文本类型的数据进行语义过滤;
关键词过滤是指集团新闻数据中有关键词出现时,将其认为是无效数据。
所述去重算子的实现步骤为:
获取去噪算子生成的RDD;
采用分词器对存储在RDD中的数据进行分词处理,并进行停用词过滤;
计算进行停用词过滤后的每个分词的hash值,并生成Simhash指纹。
在去重算子步骤中,计算停用词过滤后的每个分词的hash值后再进行叠加,生成Simhash指纹,然后封装对象并生成新的RDD,该封装的对象内容包括文本内容、Simhash值属性。
所述计算分词的值并生成Simhash指纹的具体步骤为:首先计算每个分词的64位加权hash值,然后按位叠加,每位如果大于1则记1,否则记0。
判定为近似文本的过程为:将去重算子步骤中生成的Simhash指纹与数据库里已经记录的集团新闻数据的Simhash指纹比较其海明距离,将海明距离小于设定的阈值的文本认定为近似文本。
本发明的一种基于Spark平台的集团新闻数据预处理方法和现有技术相比,具有以下有益效果:
本发明的一种基于Spark平台的集团新闻数据预处理方法,本发明采用Spark平台做为存储及运算的基础,采用内存缓存来提高读写速度, 相对于传统的单机计算、并行计算或分布式计算,计算速度提高百倍以上,具有标注内容信息全、错误率低等优点,计算节点由平台调度,完成分布式计算,能够实现更准确、高效的去噪、去重功能;本发明处理速度快,亿级记录去噪可在毫秒级内完成,千万级记录去重可在分钟级完成;准确率高去噪处理准确率可达到96.4%,去重处理准确率期可达到90.3%,实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明系统的实现示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的方案,下面结合具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如附图1所示,一种基于Spark平台的集团新闻数据预处理方法,能够实现更准确、高效的去噪、去重功能。
其具体实现过程为,
采集算子,即采集集团新闻数据;
去噪算子,即将采集回来的集团新闻数据进行去噪处理,去噪算子基于Spark平台完成;
去重算子,对去噪处理后的数据进行去重处理;
最后设定海明距离阈值,在去重处理中将海明距离小于设定的阈值的文本判定为近似文本。
在采集算子步骤中,采集算子用于采集集团新闻数据,可采用现有的采集方法、采集设备实现。采集的数据存储在HDFS即分布式文件系统中。
基于Spark平台对采集的数据进行去噪处理的步骤为:
在Spark平台中启动Spark驱动,并按默认分区数生成弹性分布式数据集RDD,对HDFS文件进行读取;
对数据进行去噪处理,完成数据过滤;
将去噪处理后的数据以RDD的形式缓存在分布式内存中。
对数据进行去噪处理的步骤中,通过以下三种方式完成数据过滤:长度过滤、语义过滤及关键词过滤,其中:
长度过滤是指将低于一定字符数的集团新闻数据认为是无意义的,比如取10个字符,10个字符以下认为是垃圾。
语义过滤:针对集团新闻数据这种类型的数据进行语义过滤,比如将非经常出现的集团新闻数据一般视为垃圾等。而且,对于后面的去重或者分析而言,无意义语义也是不考虑的。
关键词过滤是指集团新闻数据中当有些关键词出现后,就认为这条是垃圾,比如“天气预报”。
所述去重算子的实现步骤为:
获取去噪算子生成的RDD;
采用分词器对存储在RDD中的集团新闻数据进行分词处理,并采用通用停用词表做停用词过滤,通过分词和过滤停用词可有效的减小后续的计算量。所述分词器可以采用IKAnalyser分词器,也可以采用其它分词器,如中国科学院计算技术研究所的ICTCLAS分词器等。
计算停用词过滤后的每个分词的hash值,然后叠加,生成Simhash指纹然后封装对象并生成新的RDD,其中对象内容包括文本内容、Simhash值等属性。
将生成的Simhash指纹与数据库里已经记录的集团新闻数据的Simhash指纹比较海明距离,如果海明距离小于设定的阈值(例如该阈值为4),则将新采集的数据的文本认定为近似文本(即认定为重复记录)。
根据上面步骤,判断一条记录是否是重复记录,先要得到上一个算子的运算结果,即得到RDD,在从该RDD中进行遍历,也就是一条条的判断是否重复。例如,现在库里有10000条记录,新来了100条记录,判断这条是否和库里的重复(这100条就是1个RDD)。从RDD获取到一条记录后,对其进行分词,之后分词中会有一些无意义的词,例如“不止”、“仅仅”这些是无语义的,可以去掉,也就是停用词过滤然后,把这些过滤后的分词计算hash值,然后叠加,生成Simhash指纹,该指纹与库里记录的指纹比较海明距离,如果小于设定的阈值则认为是近似文本。这就是Simhash算法的原理。
上面步骤所述的计算分词的值并生成Simhash指纹,其具体方法是:首先计算每个分词的64位加权hash值,然后按位叠加,每位如果大于1则记1,否则记0。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (8)

1.一种基于Spark平台的集团新闻数据预处理方法,其特征在于,其具体实现过程为,
采集算子,即采集集团新闻数据;
去噪算子,即将采集回来的集团新闻数据进行去噪处理,去噪算子基于Spark平台完成;
去重算子,对去噪处理后的数据进行去重处理;
最后设定海明距离阈值,在去重处理中将海明距离小于设定的阈值的文本判定为近似文本。
2.根据权利要求1所述的一种基于Spark平台的集团新闻数据预处理方法,其特征在于,在采集算子步骤中,采集的数据存储在HDFS,即分布式文件系统中。
3.根据权利要求1所述的一种基于Spark平台的集团新闻数据预处理方法,其特征在于,基于Spark平台对采集的数据进行去噪处理的步骤为:
在Spark平台中启动Spark驱动,并按默认分区数生成弹性分布式数据集RDD,对HDFS文件进行读取;
对数据进行去噪处理,完成数据过滤;
将去噪处理后的数据以RDD的形式缓存在分布式内存中。
4.根据权利要求3所述的一种基于Spark平台的集团新闻数据预处理方法,其特征在于,对数据进行去噪处理的步骤中,通过以下三种方式完成数据过滤:长度过滤、语义过滤及关键词过滤,其中:
长度过滤是指将低于一定字符数的集团新闻数据认为无效数据;
语义过滤是指对集团新闻数据这种短文本类型的数据进行语义过滤;
关键词过滤是指集团新闻数据中有关键词出现时,将其认为是无效数据。
5.根据权利要求3所述的一种基于Spark平台的集团新闻数据预处理方法,其特征在于,所述去重算子的实现步骤为:
获取去噪算子生成的RDD;
采用分词器对存储在RDD中的数据进行分词处理,并进行停用词过滤;
计算进行停用词过滤后的每个分词的hash值,并生成Simhash指纹。
6.根据权利要求5所述的一种基于Spark平台的集团新闻数据预处理方法,其特征在于,在去重算子步骤中,计算停用词过滤后的每个分词的hash值后再进行叠加,生成Simhash指纹,然后封装对象并生成新的RDD,该封装的对象内容包括文本内容、Simhash值属性。
7.根据权利要求5或6所述的一种基于Spark平台的集团新闻数据预处理方法,其特征在于,所述计算分词的值并生成Simhash指纹的具体步骤为:首先计算每个分词的64位加权hash值,然后按位叠加,每位如果大于1则记1,否则记0。
8.根据权利要求7所述的一种基于Spark平台的集团新闻数据预处理方法,其特征在于,判定为近似文本的过程为:将去重算子步骤中生成的Simhash指纹与数据库里已经记录的集团新闻数据的Simhash指纹比较其海明距离,将海明距离小于设定的阈值的文本认定为近似文本。
CN201710500031.7A 2017-06-27 2017-06-27 一种基于Spark平台的集团新闻数据预处理方法 Pending CN107315809A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710500031.7A CN107315809A (zh) 2017-06-27 2017-06-27 一种基于Spark平台的集团新闻数据预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710500031.7A CN107315809A (zh) 2017-06-27 2017-06-27 一种基于Spark平台的集团新闻数据预处理方法

Publications (1)

Publication Number Publication Date
CN107315809A true CN107315809A (zh) 2017-11-03

Family

ID=60180826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710500031.7A Pending CN107315809A (zh) 2017-06-27 2017-06-27 一种基于Spark平台的集团新闻数据预处理方法

Country Status (1)

Country Link
CN (1) CN107315809A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255963A (zh) * 2017-12-22 2018-07-06 北京智慧星光信息技术有限公司 一种基于互联网的新闻信息检索的控制方法及装置
CN109165202A (zh) * 2018-07-04 2019-01-08 华南理工大学 一种多源异构大数据的预处理方法
CN109271487A (zh) * 2018-09-29 2019-01-25 浪潮软件股份有限公司 一种相似文本分析方法
CN110738020A (zh) * 2019-10-25 2020-01-31 重庆誉存大数据科技有限公司 一种基于spark的批量方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182388A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义分析的文本聚类系统及方法
CN105550222A (zh) * 2015-12-07 2016-05-04 中国电子科技网络信息安全有限公司 一种基于分布式存储的图像服务系统及方法
CN106372105A (zh) * 2016-08-19 2017-02-01 中国科学院信息工程研究所 一种基于Spark平台的微博数据预处理方法
CN106649222A (zh) * 2016-12-13 2017-05-10 浙江网新恒天软件有限公司 基于语义分析与多重Simhash的文本近似重复检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182388A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义分析的文本聚类系统及方法
CN105550222A (zh) * 2015-12-07 2016-05-04 中国电子科技网络信息安全有限公司 一种基于分布式存储的图像服务系统及方法
CN106372105A (zh) * 2016-08-19 2017-02-01 中国科学院信息工程研究所 一种基于Spark平台的微博数据预处理方法
CN106649222A (zh) * 2016-12-13 2017-05-10 浙江网新恒天软件有限公司 基于语义分析与多重Simhash的文本近似重复检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255963A (zh) * 2017-12-22 2018-07-06 北京智慧星光信息技术有限公司 一种基于互联网的新闻信息检索的控制方法及装置
CN109165202A (zh) * 2018-07-04 2019-01-08 华南理工大学 一种多源异构大数据的预处理方法
CN109271487A (zh) * 2018-09-29 2019-01-25 浪潮软件股份有限公司 一种相似文本分析方法
CN110738020A (zh) * 2019-10-25 2020-01-31 重庆誉存大数据科技有限公司 一种基于spark的批量方法

Similar Documents

Publication Publication Date Title
CN107315809A (zh) 一种基于Spark平台的集团新闻数据预处理方法
CN110019218B (zh) 数据存储与查询方法及设备
CN106372105A (zh) 一种基于Spark平台的微博数据预处理方法
WO2018226404A1 (en) Machine reasoning based on knowledge graph
CN104008106B (zh) 一种获取热点话题的方法及装置
CN102509001B (zh) 一种自动去除时序数据野值点的方法
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN102012936B (zh) 基于云计算平台的海量数据聚合方法和系统
CN106844089A (zh) 一种用于恢复树形数据存储的方法与设备
CN101986296A (zh) 基于语义本体的噪声数据清洗方法
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
CN108763536A (zh) 数据库访问方法及装置
CN103488564A (zh) 一种分布式实时测试系统多路测试数据压缩与归并方法
CN115358481A (zh) 一种企业外迁预警识别的方法、系统及装置
CN105447519A (zh) 基于特征选择的模型检测方法
CN113868434A (zh) 图数据库的数据处理方法、设备和存储介质
CN114328601A (zh) 数据降采样和数据查询方法、系统及存储介质
CN106909623B (zh) 一种支持高效海量数据分析和检索的数据装置及数据存储方法
CN102436535B (zh) 计算机辅助设计过程中创意拐点的识别方法及系统
CN103577555A (zh) 一种基于车联网的大数据分析方法
CN104778202B (zh) 基于关键词的事件演化过程的分析方法及系统
CN116226681A (zh) 一种文本相似性判定方法、装置、计算机设备和存储介质
CN104216872B (zh) 一种识别网络小说中垃圾章节的方法及装置
CN115757735A (zh) 一种面向电网数字化建设成果资源的智能检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171103