CN112328806A

CN112328806A - 一种数据的处理方法、系统、计算机设备和存储介质

Info

Publication number: CN112328806A
Application number: CN202011185816.8A
Authority: CN
Inventors: 乌斯曼·可·尼亚齐
Original assignee: GUANGZHOU CCM INFORMATION SCIENCE AND Tech CO Ltd
Current assignee: GUANGZHOU CCM INFORMATION SCIENCE AND Tech CO Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-02-05

Abstract

本申请涉及一种数据的处理方法、系统、计算机设备和存储介质。所述方法包括：通过数据源采集目的数据流；对所述目的数据流进行预处理，将所述目的数据流转化为统一数据交换格式的文本数据；对所述文本数据进行深度机器学习后构建行业知识图谱，分布式存储所述行业知识图谱；根据对所述行业知识图谱的产品需求，输出数字化产品。通过该方法，基于大数据的处理、人工智能为支撑进行的系统重构，优化原有的业务流程，对系统的功能模块进行重新划分，重新定义了数据处理中新产品的开发，利用大数据分布式存储技术的多备份和弹性扩展等技术特点，保证了数据的安全性，便于系统维护，存储容量的扩充和性能升级。

Description

一种数据的处理方法、系统、计算机设备和存储介质

技术领域

本申请涉及大数据领域，特别是涉及一种数据的处理方法、系统、计算机设备和存储介质。

背景技术

现有的数据处理平台涵盖报告、新闻的撰写、质控、发布等各环节，是生产管理功能的一套在线协同办公系统，能为前台网站提供数据支撑，但是该平台系统已经运行多年，随着业务的发展，在数据处理能力、用户开放性能、数据独立性等方面已经不能满足业务发展要求，因此，提出了新的大数据处理平台的项目建设需求。

另一方面，由于传统数字处理系统需要从数据的收集、分析、整理再到输出运用，每一步的业务流程需求的人员需具备的技术知识差异大，其中数据分析相关业务人员需具备较高的技术知识，这导致整个数据处理流程成本高。例如，针对现在内容数据型行业如传媒业、产业研究行业的数据处理时，由于数据格式不一、标准不一，无法进行综合利用，没有使数据发挥出更大的价值。此外，传统的存储式技术由于它的不分布式架构不能加服务器，针对海量数据的处理时需要停机升级服务器，因此传统的数据处理系统针对海量大数据的存储读写存在性能不足的问题，无法快速的对海量数据进行有效的处理。

发明内容

基于此，有必要针对上述技术问题，提供一种数据的处理方法、系统计算机设备和存储介质。

第一方面，本发明实施例提供了一种数据处理的方法，包括以下步骤：

通过数据源采集目的数据流；

对所述目的数据流进行预处理，将所述目的数据流转化为统一数据交换格式的文本数据；

对所述文本数据进行深度机器学习后构建行业知识图谱，分布式存储所述行业知识图谱；

根据对所述行业知识图谱的产品需求，输出数字化产品。

进一步的，所述目的数据流的采集包括利用网络爬虫技术获取浏览器页面和数据接口的入口数据，所述入口数据包括非结构化数据、半结构化数据和结构化数据；所述网络爬虫技术至少包括分布式爬虫技术、智能爬虫技术和反爬虫技术。

进一步的，所述对所述目的数据流进行预处理包括：对所述目的数据流进行自然语言的处理，完成对所述目的数据流的情感分析，并对所述目的数据流进行摘要和标签关键词提取。

进一步的，所述行业知识图谱的构建包括：对所述结构化数据直接转化为图谱结构；对所述非结构化数据和所述半结构化数据先进行实体关系标注，结合深度学习算法进行三元组的提取，并基于行业本体数据库和行业应用的知识库，进行数据的融合对齐，去除重复后保存于图形数据库中。

进一步的，输出的所述数字化产品至少包括：专家问答系统界面、可视化搜索分析系统界面、信息推荐系统界面。

另一方面，本发明实施例还一种数据处理系统，包括：

数据采集模块，用于通过数据源采集目的数据流；

数据预处理模块，用于对所述目的数据流进行预处理，将所述目的数据流转化为统一数据交换格式的文本数据；

数据体系构建模块，用于对所述文本数据进行深度机器学习后构建行业知识图谱，分布式存储所述行业知识图谱；

产品输出模块，用于根据对所述行业知识图谱的产品需求，输出数字化产品。

进一步的，所述数据预处理模块还用于对所述目的数据流进行自然语言的处理，完成对所述目的数据流的情感分析，并对所述目的数据流进行摘要和标签关键词提取。

进一步的，所述数据体系构建模块包括结构化处理单元和非结构化处理单元，所述结构化处理单元用于将所述结构化数据直接转化为图谱结构；所述非结构化处理单元用于将所述非结构化数据和所述半结构化数据先进行实体关系标注，结合深度学习算法进行三元组的提取，并基于行业本体数据库和行业应用的知识库，进行数据的融合对齐，去除重复后保存于图形数据库中。

本发明的另一个实施例还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明的另一个实施例还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述数据的处理方法、系统计算机设备和存储介质，该处理方法包括通过数据源采集目的数据流；对所述目的数据流进行预处理，将所述目的数据流转化为统一数据交换格式的文本数据；对所述文本数据进行深度机器学习后构建行业知识图谱，分布式存储所述行业知识图谱；根据对所述行业知识图谱的产品需求，输出数字化产品。在所述数据处理的方法中基于大数据的处理、人工智能为支撑进行的系统重构，重构了原有的业务流程，先完成对目的数据流的采集，再通过对目的数据流的预处理，使得转化的文本数据统一，并通过行业知识图谱的构建，为问答、搜索、推荐等智能化场景提供基础支持。此外，通过对系统的功能模块进行重新划分，重新定义了数据处理中新产品的开发，通过分布式存储技术，解决了海量大数据存储读写性能的问题，利用大数据分布式存储技术的多备份和弹性扩展等技术特点，保证了数据的安全性，便于系统维护，存储容量的扩充和性能升级。

附图说明

图1为一个实施例中数据的处理方法的应用环境图；

图2为一个实施例中数据的处理方法的流程示意图；

图3为一个实施例中所述目的数据流进行预处理流程示意图；

图4为一个实施例中数据的处理系统的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据处理的方法，可以应用于如图1所示的应用环境中。其中，终端101通过网络与服务器102进行通信。其中，终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

具体地，服务器102可获取数据源，将获取数据源传递至终端101，终端101接收到数据源后，通过爬虫技术获取目的数据流，对所述目的数据流进行预处理，将所述目的数据流转化为统一数据交换格式的文本数据。对所述文本数据进行深度机器学习后构建行业知识图谱，分布式存储所述行业知识图谱。根据对所述行业知识图谱的产品需求，输出数字化产品。

优选地，服务器102通过利用大数据技术获取海量外部数据以及内部数据，以人工智能技术中自然语言处理技术对各类型数据特别是文本数据进行高效的智能处理分析及输出，终端101涉及到从数据采集、数据预处理、分析、整理输出各个环节以及数据产品化。

在一个实施例中，如图2所示，提供了一种数据处理的方法，以该方法应用于图1中的终端或服务器为例进行说明，包括以下步骤：

步骤201，通过数据源采集目的数据流。

步骤202，对所述目的数据流进行预处理，将所述目的数据流转化为统一数据交换格式的文本数据。

步骤203，对所述文本数据进行深度机器学习后构建行业知识图谱，分布式存储所述行业知识图谱。

其中，在多源异构数据自动获取方面，主要利用网络爬虫技术获取行业知识、行情、政策等数据；所述目的数据流的采集包括利用网络爬虫技术获取浏览器页面和数据接口的入口数据，所述入口数据包括非结构化数据、半结构化数据和结构化数据；所述网络爬虫技术至少包括分布式爬虫技术、智能爬虫技术和反爬虫技术，例如通过大数据技术等获取行业用户数据；利用网络爬虫技术获取到的农情、政策数据。采集的目的数据流包含从外部数据库、互联网及行业用户所产生的获取到的非结构化、半结构化、结构化的海量数据，其中针对爬取到的文字数据，图表数据，图片数据，音视频数据等等，进行预处理生成统一的数据交换格式(二进制编码)的文本数据。此外，在对文本数据处理过程中，对文本按照一定的规则和算法进行关键信息的碎片化提取，如对爬取的一段农业互联网新闻内容进行有关时间，地理，病害，发生面积等关键信息的提取，成为素材库，然后构建行业知识图谱，进而成为后续数据分析和输出的基石。此外，利用自然语言处理加上深度学习技术，研究成果能够在企业用户面对海量数据信息的情况下，帮助用户快速学习数据，并处理数据，让用户直接使用数据的最具价值的部分。

优选地，基于深度学习模型的文本数据处理，包括如何解决样本量不足的问题，提高文本语义训练模型识别的精确度，以及扩展训练模型迁移不同行业领域应用等。

步骤204，根据对所述行业知识图谱的产品需求，输出数字化产品。

具体地，通过上述数据处理的方法，在输出数字化产品中，基于大数据的处理、人工智能为支撑进行的系统重构，重构了原有的业务流程，先完成对目的数据流的采集，再通过对目的数据流的预处理，使得转化的文本数据统一，并通过行业知识图谱的构建，为问答、搜索、推荐等智能化场景提供基础支持。此外，通过对系统的功能模块进行重新划分，重新定义了数据处理中新产品的开发，通过分布式存储技术，解决了海量大数据存储读写性能的问题，利用大数据分布式存储技术的多备份和弹性扩展等技术特点，保证了数据的安全性，便于系统维护，存储容量的扩充和性能升级。其中，通过数据的采集和处理后，进行最后的产品化输出，输出的所述数字化产品至少包括：专家问答系统界面、可视化搜索分析系统界面、信息推荐系统界面。本实施例中公开的数据处理方法和系统的建设虽然是以现有的数据处理系统为基础，但不是现有系统的简单升级改造，而是基于大数据、人工智能为支撑进行的系统重构，优化原有的业务流程，对系统的功能模块进行进行重新划分，因此定义为新产品的开发。此外，所述数据处理系统包括了分布式存储技术，解决了海量大数据存储读写性能的问题，利用分布式存储技术的多备份和弹性扩展等技术特点，不仅保证了数据的安全性，还便于系统维护，存储容量的扩充和性能升级。

在一个实施例中，如图3所示，是对所述目的数据流进行预处理过程，该过程可以详细分为以下几个步骤：

步骤301，对所述目的数据流进行自然语言的处理；

步骤302，对所述目的数据流的情感分析；

步骤303，对所述目的数据流进行摘要和标签关键词提取。

具体地，由于通过爬虫爬取的目的数据流存在内容数据格式不一、标准不一，无法进行综合利用，例如数据型行业如传媒业、产业研究行业，通过对目的数据流进行自然语言的处理，便于统一格式需求，方便后续的数据分析，然后通过对所述目的数据流的情感分析，让机器模仿人类思维，读懂网络爬虫抓取回来的文章内容，最后对目的数据流进行提取摘要，提取标签，如对关键词的提取，从而完成例如对文章的分类，政策的收集，智能翻译等数据流的预处理，使得预处理后的目的数据流便于转化为语义清晰且完整的文本数据。

对所述文本数据进行深度机器学习后构建行业知识图谱的步骤中，使用人工机器学习算法如SVM、CNN等实现文本数据的自动归集，并进一步使用如Kmeans、DBSCAN等聚类算法进行文本挖掘及数据发现，使得文本数据在深度机器学习后数据的涵盖面更加广泛，在一个实施例中，所述行业知识图谱的构建包括：对所述结构化数据直接转化为图谱结构；对所述非结构化数据和所述半结构化数据先进行实体关系标注，结合深度学习算法进行三元组的提取，并基于行业本体数据库和行业应用的知识库，进行数据的融合对齐，去除重复后保存于图形数据库中。

具体地，上述研究利用包括传媒文体知识、产业研究分析模型及方法、产业内知识，如农业农作物病虫害、农药使用及使用效果等，用来构建行业知识图谱。在收集到传媒行业、产业研究行业等行业数据之后，需要进行行业本体数据体系的构建，为问答、搜索、推荐等智能化场景提供基础支持。主要包括：通过行业专家资源对特定的行业进行知识体系的梳理及构建，已沉淀的行业结构化数据直接转化为图谱结构，非结构化数据则通过人工及自动化方式进行实体关系标注，并结合分类算法等深度学习算法进行三元组的提取，再基于行业本体数据库和行业应用的知识库，进行数据的融合对齐，去除重复，使用neo4j等图形数据库进行数据存储。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，数据处理系统400包括：

数据采集模块401，用于通过数据源采集目的数据流。

数据预处理模块402，用于对所述目的数据流进行预处理，将所述目的数据流转化为统一数据交换格式的文本数据。

数据体系构建模块403，用于对所述文本数据进行深度机器学习后构建行业知识图谱，分布式存储所述行业知识图谱。

产品输出模块404，用于根据对所述行业知识图谱的产品需求，输出数字化产品。

在一个实施例中，所述数据预处理模块402还用于对所述目的数据流进行自然语言的处理，完成对所述目的数据流的情感分析，并对所述目的数据流进行摘要和标签关键词提取

在一个实施例中，所述数据体系构建模块403包括结构化处理单元和非结构化处理单元，所述结构化处理单元用于将所述结构化数据直接转化为图谱结构；所述非结构化处理单元用于将所述非结构化数据和所述半结构化数据先进行实体关系标注，结合深度学习算法进行三元组的提取，并基于行业本体数据库和行业应用的知识库，进行数据的融合对齐，去除重复后保存于图形数据库中。

在一个实施例中，产品输出模块404包括界面显示单元，所述界面显示单元用于对输出的数字化产品进行显示，输出的所述数字化产品至少包括：专家问答系统界面、可视化搜索分析系统界面、信息推荐系统界面。

在一个实施例中，所述数据采集模块401包括网络爬虫单元，所述网络爬虫单元用于获取浏览器页面和数据接口的入口数据，所述入口数据包括非结构化数据、半结构化数据和结构化数据；所述网络爬虫技术至少包括分布式爬虫技术、智能爬虫技术和反爬虫技术。

关于数据处理系统的具体限定可以参见上文中对于数据处理的方法的限定，在此不再赘述。上述数据处理系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端101或服务器102。如图5所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现权限异常检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行权限异常检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：通过数据源采集目的数据流；对所述目的数据流进行预处理，将所述目的数据流转化为统一数据交换格式的文本数据；对所述文本数据进行深度机器学习后构建行业知识图谱，分布式存储所述行业知识图谱；根据对所述行业知识图谱的产品需求，输出数字化产品。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：利用网络爬虫技术获取浏览器页面和数据接口的入口数据，所述入口数据包括非结构化数据、半结构化数据和结构化数据；所述网络爬虫技术至少包括分布式爬虫技术、智能爬虫技术和反爬虫技术。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对所述目的数据流进行自然语言的处理，完成对所述目的数据流的情感分析，并对所述目的数据流进行摘要和标签关键词提取

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对所述结构化数据直接转化为图谱结构；对所述非结构化数据和所述半结构化数据先进行实体关系标注，结合深度学习算法进行三元组的提取，并基于行业本体数据库和行业应用的知识库，进行数据的融合对齐，去除重复后保存于图形数据库中。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：通过数据源采集目的数据流；对所述目的数据流进行预处理，将所述目的数据流转化为统一数据交换格式的文本数据；对所述文本数据进行深度机器学习后构建行业知识图谱，分布式存储所述行业知识图谱；根据对所述行业知识图谱的产品需求，输出数字化产品。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据处理的方法，其特征在于，包括以下步骤：

通过数据源采集目的数据流；

根据对所述行业知识图谱的产品需求，输出数字化产品。

2.根据权利要求1所述的数据处理的方法，其特征在于，所述目的数据流的采集包括利用网络爬虫技术获取浏览器页面和数据接口的入口数据，所述入口数据包括非结构化数据、半结构化数据和结构化数据；所述网络爬虫技术至少包括分布式爬虫技术、智能爬虫技术和反爬虫技术。

3.根据权利要求1所述的数据处理的方法，其特征在于，所述对所述目的数据流进行预处理包括：对所述目的数据流进行自然语言的处理，完成对所述目的数据流的情感分析，并对所述目的数据流进行摘要和标签关键词提取。

4.根据权利要求2所述的数据处理的方法，其特征在于，所述行业知识图谱的构建包括：对所述结构化数据直接转化为图谱结构；对所述非结构化数据和所述半结构化数据先进行实体关系标注，结合深度学习算法进行三元组的提取，并基于行业本体数据库和行业应用的知识库，进行数据的融合对齐，去除重复后保存于图形数据库中。

5.根据权利要求1所述的数据处理的方法，其特征在于，输出的所述数字化产品至少包括：专家问答系统界面、可视化搜索分析系统界面、信息推荐系统界面。

6.一种数据处理系统，其特征在于，包括：

数据采集模块，用于通过数据源采集目的数据流；

7.根据权利要求6所述的数据处理系统，其特征在于，所述数据预处理模块还用于对所述目的数据流进行自然语言的处理，完成对所述目的数据流的情感分析，并对所述目的数据流进行摘要和标签关键词提取。

8.根据权利要求6所述的数据处理系统，其特征在于，所述数据体系构建模块包括结构化处理单元和非结构化处理单元，所述结构化处理单元用于将所述结构化数据直接转化为图谱结构；所述非结构化处理单元用于将所述非结构化数据和所述半结构化数据先进行实体关系标注，结合深度学习算法进行三元组的提取，并基于行业本体数据库和行业应用的知识库，进行数据的融合对齐，去除重复后保存于图形数据库中。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。