CN109710767A

CN109710767A - 多语种大数据服务平台

Info

Publication number: CN109710767A
Application number: CN201910002341.5A
Authority: CN
Inventors: 赵燕清; 朱世伟; 于俊凤; 魏墨济; 张铭君; 李晨; 郭建萍; 杨爱芹; 刘翠芹
Original assignee: INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Current assignee: INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2019-05-03
Anticipated expiration: 2039-01-02
Also published as: CN109710767B

Abstract

本发明公开了一种多语种大数据服务平台，该平台包括数据采集平台、数据预处理平台、数据存储平台、数据检索平台、数据分析平台和面向用户的应用支撑平台，其中：数据采集平台，被配置为采集大规模多语种数据，包括政府数据、社会数据、国内数据、海外数据、统计数据与非统计数据；数据预处理平台，被配置为对数据采集平台采集到的数据进行预处理，并将处理后的数据上传至数据检索平台；数据检索平台，被配置为针对不同类型的数据，分别建立索引，并对新增的社交数据进行增量更新；数据分析平台，被配置为采用并行海量数据挖掘算法对各类大数据进行分析和挖掘。本发明实现多语种数据资源深度抓取和精准分析。

Description

多语种大数据服务平台

技术领域

本公开涉及一种多语种大数据服务平台。

背景技术

数据是大数据平台建设的根本，如何在众多的信息资源中快速找到用户所需要的信息，已经成为互联网发展的趋势。面对巨大、杂乱无章的信息量以及用户对检索结果和时间的要求，提高信息检索效率已经成为一个迫切的问题。

现有的大数据服务平台仅仅通过单台计算机很难快速检索出用户所需要的信息，需要通过多台计算机采用分布式协同工作的方式进行信息检索。目前，大数据服务平台还存在对沿线国家创新优势资源的整合不够以及国际国内两种科技资源的技术推介、对接工作信息不流通等问题，存在沿线国家发展过程中信息交流不畅、资源整合不足。

现有数据中心很难满足大数据的需求，存储能力的增长远远赶不上数据的增长，设计最合理的分层存储结构已成为信息系统的关键，数据的移动已成为信息系统最大的开销，信息系统需要从数据围着处理器转改为处理能力围着数据转，大数据也导致高可扩展性成为信息系统最本质的需求。

因此，如何涉及一种能够实现多语种数据资源深度抓取和精准分析的平台，仍是待解决的技术问题。

发明内容

为了克服上述现有技术的不足，本公开提供了一种多语种大数据服务平台，实现多语种数据资源的深度抓取和精准分析。

本公开所采用的技术方案是：

一种多语种大数据服务平台，包括：

数据采集平台，被配置为采集大规模多语种数据，包括政府数据、社会数据、国内数据、海外数据、统计数据与非统计数据；

数据预处理平台，被配置为对数据采集平台采集到的数据进行预处理，并将处理后的数据上传至数据检索平台；

数据检索平台，被配置为针对不同类型的数据，分别建立索引，并对新增的社交数据进行增量更新；

数据分析平台，被配置为采用并行海量数据挖掘算法对各类大数据进行分析和挖掘。

进一步的，在所述数据采集平台中，采用网络爬虫方法采集大规模多语种数据，对网络爬虫方法采集到的数据进行文档检测，确定文档类型，解析各种文档格式的内容，并提取元数据和结构化数据，实时计算元数据和结构化数据流的指标数据。

进一步的，在所述数据预处理平台中，对数据进行预处理，包括遗漏数据填充、异常数据消除、噪声数据平滑处理、数据压缩与归一化操作，对于海外数据还进行再次处理，包括：跨语种翻译、多语言关联、本体识别、图像识别、音视频识别和语义分析，将处理后的数据传到数据存储平台。

进一步的，在所述检索平台中，针对数据库中存储的基础数据和行为数据，分别建立元数据索引和行为数据索引，索引的类型包括但不限于索引同步、全文检索、分布式索引、跨语种检索、音视频检索、图像检索和增量索引。

进一步的，在数据分析平台中，所述并行海量数据挖掘算法包括并行关联规则算法、基于马尔科夫逻辑网络的跨语种实体匹配算法、基于ML-PIB算法的多语种文本聚类算法以及用于分类或预测模型、数据聚类、关联规则、序列模式、依赖关系或依赖模型、异常和趋势发现，实现文本分类、文本聚类、关联分析、主题摘要、情感分析、资源推荐以及跨语种翻译识别。

进一步的，所述数据分析平台采用关联规则挖掘算法从数据集中挖掘出所有的频繁项集，并对频繁项集进行分析，计算出频繁出现的元素，得出这些频繁出现的元素之间的相关联系；基于马尔科夫逻辑网络对多语种大数据进行实体匹配，基于ML-PIB算法的多语种文本聚类算法对多语种文本数据进行聚类分析，得到不同语种数据之间的目标聚类结果。

进一步的，还包括：

数据存储平台，被配置为基于决策树的存储分类方法将数据预处理平台处理后的数据分为基础数据和行为数据两类，其中，基础数据包括但不限于特征数据、音视频数据、图片数据和标引数据；行为数据包括但不限于用户访问行为、数据操作行为、接入访问行为和系统运行行为数据；基于服务的逻辑数据整合方法将分类后的数据进行整合，并存储到相应的数据库中。

进一步的，还包括应用支撑平台，所述应用支撑平台包括大数据决策支持系统、智能推送系统、互联网服务中心，其中，所述大数据决策支持系统，被配置为对相关国家和地区海量数据进行分析挖掘，并可视化展现；所述智能推送系统，被配置为提供数据推送服务；所述互联网服务中心，被配置为实现服务平台与用户终端设备的信息交互。

本公开的有益效果是：

(1)本公开对多语种，多领域异构数据进行收集、清洗、整合，可以洞察各数据之间的相关性，经由对历史数据和现在数据的准确分析，能够精确预测未来，从而通过对海量数据的挖掘，进行大数据指标体系构建，为大数据智能决策提供支持；

(2)本公开基于大数据技术对互联网公开数据资源进行抓取、分析和存储，并对大数据分布式实时传输与分发、异构大数据分布式在线实时处理，基于大数据的分布式实时索引与检索完成对数据的索引，实现多语种数据资源深度抓取和精准分析。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本申请，并不构成对本公开的不当限定。

图1是根据一种或多种实施方式的多语种大数据服务平台结构图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

一种或多种实施例提供一种多语种大数据服务平台，如图1所示，该平台包括数据采集平台、数据预处理平台、数据存储平台、数据检索平台、数据分析平台和面向用户的应用支撑平台，其中：

所述数据采集平台，被配置为采集大规模多语种数据，包括政府数据、社会数据、国内数据、海外数据、统计数据与非统计数据。

所述政府数据，是政府部门在业务执行和社会监管过程中形成的业务数据，是制定决策的重要参考。所述社会数据，是互联网数据和各类企业数据，对于政府业务数据无法有效覆盖的部分，采用互联网数据和各类企业数据在内的社会数据，弥补现有的政府统计数据和业务数据无法监测和反映的领域。统计数据具有可靠、权威、定量且系统化的特征，是系统采集时考虑的重要部分，以互联网数据为主要代表的非统计数据具有实效性强、样本全等特点，是对统计数据的有效补充。

具体地，所述数据采集平台基于Nutch的网络爬虫技术进行数据采集，基于Tika的多类型内容处理技术解析文档内容，提取元数据和结构化数据，基于Storm和Kafka实时计算指标数据。

Nutch是一个开源Java实现的搜索引擎，提供了运行搜索引擎所需的全部工具，由爬虫crawler和查询searcher组成。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引，所以除去索引部分，两者之间的耦合度很低。

为了使网络爬虫具有更好的性能，在采用网络爬虫技术进行数据采集过程中，需要进行DNS解析时，首先使用哈希函数映射到哈希表对应的位置，然后使用线性指针依次遍历冲突域中的数据，查找目标单元，若查找到则直接命中。否则需要向DNS缓存服务器发送请求并将获取到的IP地址以及域名一起加入到此DNS缓存数据结构中。

Tika是一个内容分析工具，自带全面的parser工具类，能解析基本所有常见格式的文件，得到文件的metadata，content等内容，返回格式化信息。Tika分为四个模块，语言检测机制、MIME检测机制、解析器接口、Tika Facade类。

采用基于Tika的多类型内容处理技术将基于Nutch的网络爬虫技术得到的数据首先进行文档检测，确定其文档类型，进而进行内容提取，Tika有一个解析器库，可以分析各种文档格式的内容，并提取。然后检测所述文档的类型，从解析器库选择的适当的分析器来解析该文档的内容。

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Storm的作用主要是进行流式计算，对于源源不断的均匀数据流流入处理是非常有效的，而现实生活中大部分场景并不是均匀的数据流，而是时而多时而少的数据流入，这种情况下显然用批量处理是不合适的，如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉，应对这种情况，使用kafka作为消息队列是非常合适的选择，kafka可以将不均匀的数据转换成均匀的消息流，从而和storm比较完善的结合，这样才可以实现稳定的流式计算。

所述数据预处理平台，被配置为对数据采集平台采集到的数据进行结构化处理，将处理后的数据传到上层数据存储平台。

由于数据采集平台采集到的数据规模大，且来源于世界各地不同站点，分布分散，同时各种非结构化、半结构化数据并存，语言各异。因此，所述数据预处理平台对初始数据的结构化处理。

具体地，所述数据预处理平台对数据进行预处理，包括遗漏数据填充、异常数据消除、噪声数据平滑处理、数据压缩与归一化操作，对于海外数据进行跨语种翻译与海外数据语义分析，包括：跨语种翻译、多语言关联、本体识别、图像识别、音视频识别、语义分析等，将处理后的数据传到上层数据存储平台。

所述数据存储平台，被配置为将数据预处理平台处理后的数据进行分类存储。

具体地，所述数据存储平台基于决策树的存储分类方法将数据预处理平台处理后的数据分为基础数据和行为数据两类，其中，基础数据包括特征数据、音视频数据、图片数据和标引数据等；行为数据包括用户访问行为、数据操作行为、接入访问行为和系统运行行为等数据；基于服务的逻辑数据整合方法将分类后的数据进行整合，并存储到相应的数据库中，为上层数据检索平台提供支撑。

所述数据检索平台，被配置为对数据库中存储的数据资源进行快速建立索引，并对新增的社交数据进行增量更新，提供可读的接口，从而实现实时的搜索和统计服务。

具体地，所述数据检索平台针对数据库中存储的基础数据和行为数据，分别建立元数据索引和行为数据索引，索引的类型包括索引同步、全文检索、分布式索引、跨语种检索、音视频检索、图像检索和增量索引等，方便用户及时快速的查找所需的数据信息。

在本实施例中，所述数据检索平台基于MapReduce分布式计算框架构建元数据索引和行为数据索引。

所述数据分析平台，被配置为采用并行海量数据挖掘算法对各类大数据分析和挖掘，所述并行海量数据挖掘算法包括并行关联规则算法、基于马尔科夫逻辑网络的跨语种实体匹配算法、基于ML-PIB算法的多语种文本聚类算法以及用于分类或预测模型、数据聚类、关联规则、序列模式、依赖关系或依赖模型、异常和趋势发现等，实现文本分类、文本聚类、关联分析、主题摘要、情感分析、资源推荐以及跨语种翻译识别等。其中：

所述关联规则挖掘算法是寻找大规模数据中不同项集之间的相关联系，基于一个已有的事务集，关联规则挖掘算法可从中产生尽量多的强规则，这里的强规则是指满足用户给定的最小支持度和最小可信度的规则。项的集合称为项集，包含K个项的项集称为K项集，若满足最小支持度，则称这个项集为频繁项集。

采用关联规则挖掘算法对大数据挖掘过程如下：

(1)因为强关联规则只能存在于频繁项集中，因此首先应该从数据集中挖掘出所有的频繁项集；

(2)从频繁项集中找出有效的关联规则，这一步就是对频繁项集做一个分析，计算以下哪几个元素经常同时出现，并得出具体这几个元素之间有何种关系。

所述基于马尔科夫逻辑网络的跨语种实体匹配算法在两个不同语种的数据库之间找到实体映射关系，本实施例的数据分析平台基于马尔科夫逻辑网络对大数据进行实体匹配。

本实施例的数据分析平台采用基于ML-PIB算法的多语种文本聚类算法对大数据进行聚类分析，得到不同数据之间的目标聚类结果。

所述应用支撑平台，被配置为进行数据实时展示。

具体地，所述应用支撑平台包括大数据决策支持系统、智能推送系统、互联网服务中心，其中，所述大数据决策支持系统，被配置为围绕政府决策需求和社会需求，对相关国家和地区海量数据进行分析挖掘，以及可视化展现；所述智能推送系统，被配置为围绕政府、企业、研究机构的决策需求，提供个性化、定制化、移动化的数据推送服务；所述互联网服务中心，被配置为实现服务平台与其他设备的信息交互。

本实施例提出的多语种大数据服务平台，实现多语种数据资源深度抓取和精准分析，满足高并发访问要求，符合存储和处理的智能化需求，兼容、支持多元化监控终端交互，具备高可靠性、通用性和高可扩展性。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种多语种大数据服务平台，其特征是，包括：

2.根据权利要求1所述的多语种大数据服务平台，其特征是，在所述数据采集平台中，采用网络爬虫方法采集大规模多语种数据，对网络爬虫方法采集到的数据进行文档检测，确定文档类型，解析各种文档格式的内容，并提取元数据和结构化数据，实时计算元数据和结构化数据流的指标数据。

3.根据权利要求1所述的多语种大数据服务平台，其特征是，在所述数据预处理平台中，对数据进行预处理，包括遗漏数据填充、异常数据消除、噪声数据平滑处理、数据压缩与归一化操作，对于海外数据还进行再次处理，包括：跨语种翻译、多语言关联、本体识别、图像识别、音视频识别和语义分析，将处理后的数据传到数据存储平台。

4.根据权利要求1所述的多语种大数据服务平台，其特征是，在所述检索平台中，针对数据库中存储的基础数据和行为数据，分别建立元数据索引和行为数据索引，索引的类型包括但不限于索引同步、全文检索、分布式索引、跨语种检索、音视频检索、图像检索和增量索引。

5.根据权利要求1所述的多语种大数据服务平台，其特征是，在数据分析平台中，所述并行海量数据挖掘算法包括并行关联规则算法、基于马尔科夫逻辑网络的跨语种实体匹配算法、基于ML-PIB算法的多语种文本聚类算法以及用于分类或预测模型、数据聚类、关联规则、序列模式、依赖关系或依赖模型、异常和趋势发现，实现文本分类、文本聚类、关联分析、主题摘要、情感分析、资源推荐以及跨语种翻译识别。

6.根据权利要求5所述的多语种大数据服务平台，其特征是，所述数据分析平台采用关联规则挖掘算法从数据集中挖掘出所有的频繁项集，并对频繁项集进行分析，计算出频繁出现的元素，得出这些频繁出现的元素之间的相关联系；基于马尔科夫逻辑网络对多语种大数据进行实体匹配，基于ML-PIB算法的多语种文本聚类算法对多语种文本数据进行聚类分析，得到不同语种数据之间的目标聚类结果。

7.根据权利要求1所述的多语种大数据服务平台，其特征是，还包括：

8.根据权利要求1所述的多语种大数据服务平台，其特征是，还包括应用支撑平台，所述应用支撑平台包括大数据决策支持系统、智能推送系统、互联网服务中心，其中，所述大数据决策支持系统，被配置为对相关国家和地区海量数据进行分析挖掘，并可视化展现；所述智能推送系统，被配置为提供数据推送服务；所述互联网服务中心，被配置为实现服务平台与用户终端设备的信息交互。