CN106844636A - 一种基于深度学习的非结构化数据处理方法 - Google Patents
一种基于深度学习的非结构化数据处理方法 Download PDFInfo
- Publication number
- CN106844636A CN106844636A CN201710044292.2A CN201710044292A CN106844636A CN 106844636 A CN106844636 A CN 106844636A CN 201710044292 A CN201710044292 A CN 201710044292A CN 106844636 A CN106844636 A CN 106844636A
- Authority
- CN
- China
- Prior art keywords
- data
- unstructured data
- unstructured
- deep learning
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的非结构化数据处理方法,属于大数据处理技术领域,该基于深度学习的非结构化数据处理方法,包括:1)非结构化数据的存储,基于Hadoop的大数据框架,解决非结构化数据的存储、管理、访问;2)非结构化数据的预处理,利用大数据平台的ETL能力,完成数据预处理(清洗、转换、挖掘、搜索);3)非结构化数据的结构化处理,采用时空分割、特征提取、对象识别等处理手段,实现非结构化数据向信息、情报的转化;4)非结构化数据的处理能力提升,利用深度学习算法来替代手工获取特征分析。本发明可以实现海量非结构化数据的存储,支持非结构化数据的批量、实时处理,增强非结构化数据处理的效率、准确性和合理性。
Description
技术领域
本发明涉及非结构化数据处理方法,尤其是一种基于深度学习的非结构化数据处理方法,属于大数据处理技术领域。
背景技术
随着大数据时代的到来,越来越多的非结构化数据受到人们的重视,尤其是符合大数据4V特性(数据容量大、数据类型繁多、商业价值高和处理速度快)的非结构化数据,如大量的视频数据、图片数据等。
以交通行业为例,如今道路上的视频监控设备和电子警察设备积累了大量的视频监控数据以及抓拍图像数据,这些非结构化数据中,包含人员、车辆、路网、环境等多种影响交通状况的信息,如何利用好这些数据来解决由于机动化和城市化进程加快带来的交通拥堵、交通事故频发等问题,成为了一个热门方向。
当今的非结构化数据的处理方式主要是模板匹配法,将现有的非结构化数据与已经完成处理的模板进行对比,从而找到最相似的模板,从中提取出相应有用的信息,但这种方法在处理大量非结构化数据时耗时长,并且没有那么大的模板库与之相应匹配。
发明内容
针对上述现有技术存在的缺陷,本发明提供一种基于深度学习的非结构化数据处理方法,包含图像、视频等符合大数据4V特性(数据容量大、数据类型繁多、商业价值高和处理速度快)的非结构化数据,该方法包括以下步骤:1)非结构化数据的存储,基于Hadoop的大数据框架,可以很好解决非结构化数据的存储、管理、访问;2)非结构化数据的预处理,利用大数据平台的ETL能力,完成数据预处理(清洗、转换、挖掘、搜索等);3)非结构化数据的结构化处理,对非结构化数据内容按照语义关系,采用时空分割、特征提取、对象识别等处理手段,实现非结构化数据向信息、情报的转化;4)非结构化数据的处理能力提升,利用深度学习算法来替代手工获取特征分析,提升非结构化数据处理的准确性和合理性。
本发明的具体技术方案如下:
步骤1,非结构化数据的存储
本发明利用大数据平台来对非结构化数据进行存储,主要是基于Hadoop的大数据框架,解决视频数据的存储、管理、访问,具体方式如下:
步骤1.1,根据数据连通度选择共享交换方式将非结构化数据上传汇聚到大数据对象存储或通过在线存储服务访问方式配置非结构化数据采集任务;
步骤1.2,将需要采集的非结构化数据,基于Hadoop的大数据框架,完成大规模非结构化数据的分布式存储;
步骤1.3,利用图形化的配置界面对大规模非结构化数据进行统一管理。
步骤2,非结构化数据的预处理
本发明利用大数据平台的ETL能力,完成数据的清洗、转换、挖掘、搜索等基本处理,具体方式如下:
步骤2.1,从不同的数据库系统、网络系统、操作系统、数据格式中抽取数据;
步骤2.2,将抽取的数据根据规则进行计算、合并、拆分、编码转换等操作,清除重复数据、错误数据,清空稀疏的数据集;
步骤2.3,将已经处理后的数据加载到目标数据库,以供下一步骤的分析使用。
步骤3,非结构化数据的结构化处理
本发明对非结构化数据内容按照数据间的语义关系,采用时空分割、特征提取、对象识别等处理手段,实现非结构化数据向信息、情报的转化,具体做法如下:
步骤3.1,将非结构化数据根据数据线性序列的横向关系以及相同结构、相同位置之间的纵向结构,建立好非结构化数据的语义关系;
步骤3.2,将建立好语义关系的非结构化数据,根据非结构数据的时间和空间的差异,进行数据分割;
步骤3.3,将分割后的非结构化数据,通过影像分析和变换,将数据按照一定的规律生成不同的子集,形成一个个特征参数;
步骤3.4,根据特征提取的结果,利用定量描绘子提取的方式,提取出具体的结构化数据,定量描绘子包括长度、纹理和面积等。
步骤4,非结构化数据的处理能力提升
本发明利用深度学习算法,对不同非结构化数据的结构化处理结果进行不断学习调整,提升非结构化数据处理的准确性和合理性,具体做法如下:
步骤4.1,利用大量历史数据进行训练,即将大量非结构化数据带入步骤3,得到多种不同的处理结果,并打上相对应的标签;
步骤4.2,新的非结构化数据中,将新的非结构化数据和步骤4.1训练的标签数据进行概率匹配,获取新的数据与标签数据的联合概率分布函数f(p);
步骤4.3,利用步骤4.2获取的联合概率分布,完成先验概率和后验概率的估计,概率估计较高的为新的非结构化数据处理结果;
步骤4.4,在今后的其他非结构化数据处理中,将步骤4.3得到的结果当成历史数据,扩大步骤4.1中的样本量,并重复上述操作,完成自学习的非结构化数据处理。
本发明的有益效果是:基于深度学习的非结构化数据处理方法,利用大数据平台,基于Hadoop的大数据框架,采用深度学习算法,完成符合大数据4V特性的图像、视频等非结构化数据的存储、预处理以及最终的结构化处理。该方法可以实现海量非结构化数据的存储,支持非结构化数据的批量实时处理,增强非结构化数据处理的效率,提高处理结果的准确性和合理性。
附图说明
图1 为本发明基于深度学习的非结构化数据处理方法总流程图。
图2 为本发明基于深度学习的非结构化数据处理能力提升流程图。
具体实施方式
以下结合附图对本发明的特征及其它相关特征作进一步详细说明。
如图1所示,提供一种基于深度学习的非结构化数据处理方法,包含图像、视频等符合大数据4V特性(数据容量大、数据类型繁多、商业价值高和处理速度快)的非结构化数据,该方法包括以下步骤:1)非结构化数据的存储,基于Hadoop的大数据框架,可以很好解决非结构化数据的存储、管理、访问;2)非结构化数据的预处理,利用大数据平台的ETL能力,完成数据预处理(清洗、转换、挖掘、搜索等);3)非结构化数据的结构化处理,对非结构化数据内容按照语义关系,采用时空分割、特征提取、对象识别等处理手段,实现非结构化数据向信息、情报的转化;4)非结构化数据的处理能力提升,利用深度学习算法来替代手工获取特征分析,提升非结构化数据处理的准确性和合理性。
结合道路上高清摄像头记录的视频数据为例,详细说明基于深度学习的非结构化数据处理方法的步骤:
步骤1,非结构化数据的存储
步骤1.1,将视频数据通过在线存储服务访问方式配置非结构化数据采集任务;
步骤1.2,将需要采集到的视频数据,基于Hadoop的大数据框架,完成视频数据在大数据平台上的分布式存储;
步骤1.3,利用图形化的配置界面对视频数据进行统一管理。
步骤2,非结构化数据的预处理
步骤2.1,从不同的数据库系统、网络系统、操作系统、数据格式中抽取出视频数据;
步骤2.2,将抽取的视频数据根据规则进行计算、合并、拆分、编码转换等操作,清除重复数据、错误数据,清空稀疏的数据集;
步骤2.3,将已经处理后的视频数据加载到目标数据库,以供下一步骤的分析使用。
步骤3,非结构化数据的结构化处理
步骤3.1,将视频数据根据数据线性序列的横向关系以及相同结构、相同位置之间的纵向结构,建立好非结构化数据的语义关系;
步骤3.2,将建立好语义关系的视频数据,根据视频数据的记录的时间和空间的不同,进行视频数据时空分割;
步骤3.3,将分割后的视频数据,通过影像分析和变换,将数据按照一定的规律生成不同的子集,形成一个个特征参数;
步骤3.4,根据特征提取的结果,利用定量描绘子提取的方式,提取出具体的结构化数据,定量描绘子包括车辆长度、纹理和面积等。
步骤4,非结构化数据的处理能力提升,如图2所示,具体流程如下:
步骤4.1,利用大量历史数据进行训练,即将大量视频数据带入步骤3,得到多种不同的处理结果,并打上相对应的标签;
步骤4.2,新的视频数据中,将新的视频数据和步骤4.1训练的标签数据进行概率匹配,获取新的数据与标签数据的联合概率分布函数f(p);
步骤4.3,利用步骤4.2获取的联合概率分布,完成先验概率和后验概率的估计,概率估计较高的为新的视频数据处理结果;
步骤4.4,在今后的其他视频数据处理中,将步骤4.3得到的结果当成历史数据,扩大步骤4.1中的样本量,并重复上述操作,完成自学习的视频数据处理。
Claims (6)
1.一种基于深度学习的非结构化数据处理方法,其特征在于,包括:1)非结构化数据的存储;2)非结构化数据的预处理;3)非结构化数据的结构化处理;4)非结构化数据的处理能力提升。
2.根据权利要求1所述的基于深度学习的非结构化数据处理方法,其特征在于,所述的非结构化数据包括图像、视频等符合大数据4V特性(数据容量大、数据类型繁多、商业价值高和处理速度快)的数据。
3.根据权利要求1所述的基于深度学习的非结构化数据处理方法,其特征在于,所述的非结构化数据的存储方法是利用大数据平台对非结构化数据进行存储,主要是基于Hadoop的大数据框架,解决视频数据的存储、管理、访问,具体方式如下:
步骤1.1,根据数据连通度选择共享交换方式将非结构化数据上传汇聚到大数据对象存储或通过在线存储服务访问方式配置非结构化数据采集任务;
步骤1.2,将需要采集的非结构化数据,基于Hadoop的大数据框架,完成大规模非结构化数据的分布式存储;
步骤1.3,利用图形化的配置界面对大规模非结构化数据进行统一管理。
4.根据权利要求1所述的基于深度学习的非结构化数据处理方法,其特征在于,所述的非结构化数据的预处理方法是利用大数据平台的ETL能力,完成数据的清洗、转换、挖掘、搜索等基本处理,具体方式如下:
步骤2.1,从不同的数据库系统、网络系统、操作系统、数据格式中抽取数据;
步骤2.2,将抽取的数据根据规则进行计算、合并、拆分、编码转换等操作,清除重复数据、错误数据,清空稀疏的数据集;
步骤2.3,将已经处理后的数据加载到目标数据库,以供下一步骤的分析使用。
5.根据权利要求1所述的基于深度学习的非结构化数据处理方法,其特征在于,所述的非结构化数据的结构化处理方法是对非结构化数据内容按照数据间的语义关系,采用时空分割、特征提取、对象识别等处理手段,实现非结构化数据向信息、情报的转化,具体做法如下:
步骤3.1,将非结构化数据根据数据线性序列的横向关系以及相同结构、相同位置之间的纵向结构,建立好非结构化数据的语义关系;
步骤3.2,将建立好语义关系的非结构化数据,根据非结构数据的时间和空间的差异,进行数据分割;
步骤3.3,将分割后的非结构化数据,通过影像分析和变换,将数据按照一定的规律生成不同的子集,形成一个个特征参数;
步骤3.4,根据特征提取的结果,利用定量描绘子提取的方式,提取出具体的结构化数据,定量描绘子包括长度、纹理和面积等。
6.根据权利要求1所述的基于深度学习的非结构化数据处理方法,其特征在于,所述的非结构化数据的处理能力提升方法是利用深度学习算法,对不同非结构化数据的结构化处理结果进行不断学习调整,提升非结构化数据处理的准确性和合理性,具体做法如下:
步骤4.1,利用大量历史数据进行训练,即将大量非结构化数据带入步骤3,得到多种不同的处理结果,并打上相对应的标签;
步骤4.2,新的非结构化数据中,将新的非结构化数据和步骤4.1训练的标签数据进行概率匹配,获取新的数据与标签数据的联合概率分布函数f(p);
步骤4.3,利用步骤4.2获取的联合概率分布,完成先验概率和后验概率的估计,概率估计较高的为新的非结构化数据处理结果;
步骤4.4,在今后的其他非结构化数据处理中,将步骤4.3得到的结果当成历史数据,扩大步骤4.1中的样本量,并重复上述操作,完成自学习的非结构化数据处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710044292.2A CN106844636A (zh) | 2017-01-21 | 2017-01-21 | 一种基于深度学习的非结构化数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710044292.2A CN106844636A (zh) | 2017-01-21 | 2017-01-21 | 一种基于深度学习的非结构化数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106844636A true CN106844636A (zh) | 2017-06-13 |
Family
ID=59120460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710044292.2A Pending CN106844636A (zh) | 2017-01-21 | 2017-01-21 | 一种基于深度学习的非结构化数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844636A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563929A (zh) * | 2017-07-27 | 2018-01-09 | 杭州中奥科技有限公司 | 一种基于人物特性分析的多维度警报器 |
CN107704539A (zh) * | 2017-09-22 | 2018-02-16 | 清华大学 | 大规模文本信息批量结构化的方法及装置 |
CN107977412A (zh) * | 2017-11-22 | 2018-05-01 | 上海大学 | 一种基于迭代式与交互式感知年龄数据库的清洗方法 |
CN109033330A (zh) * | 2018-07-19 | 2018-12-18 | 北京车联天下信息技术有限公司 | 大数据清洗方法、装置和服务器 |
CN110134776A (zh) * | 2019-05-14 | 2019-08-16 | 武汉镝次元数据科技有限公司 | 一种针对非结构化数据的Web服务发布与可视化的联合系统 |
CN111492070A (zh) * | 2017-12-19 | 2020-08-04 | 株式会社Posco | 炉况控制设备和方法 |
CN111914241A (zh) * | 2020-08-06 | 2020-11-10 | 上海熙菱信息技术有限公司 | 一种动态识别非结构化对象身份信息的方法 |
CN112231306A (zh) * | 2020-08-23 | 2021-01-15 | 山东翰林科技有限公司 | 基于大数据的能源数据分析系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615701A (zh) * | 2015-01-27 | 2015-05-13 | 深圳市融创天下科技有限公司 | 基于视频云平台的智慧城市嵌入式大数据可视化引擎集群 |
CN105005578A (zh) * | 2015-05-21 | 2015-10-28 | 中国电子科技集团公司第十研究所 | 多媒体目标信息可视化分析系统 |
CN105956015A (zh) * | 2016-04-22 | 2016-09-21 | 四川中软科技有限公司 | 一种基于大数据的服务平台整合方法 |
US20170011309A1 (en) * | 2015-07-07 | 2017-01-12 | Ipvive, Inc. | System and method for layered, vector cluster pattern with trim |
-
2017
- 2017-01-21 CN CN201710044292.2A patent/CN106844636A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615701A (zh) * | 2015-01-27 | 2015-05-13 | 深圳市融创天下科技有限公司 | 基于视频云平台的智慧城市嵌入式大数据可视化引擎集群 |
CN105005578A (zh) * | 2015-05-21 | 2015-10-28 | 中国电子科技集团公司第十研究所 | 多媒体目标信息可视化分析系统 |
US20170011309A1 (en) * | 2015-07-07 | 2017-01-12 | Ipvive, Inc. | System and method for layered, vector cluster pattern with trim |
CN105956015A (zh) * | 2016-04-22 | 2016-09-21 | 四川中软科技有限公司 | 一种基于大数据的服务平台整合方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563929A (zh) * | 2017-07-27 | 2018-01-09 | 杭州中奥科技有限公司 | 一种基于人物特性分析的多维度警报器 |
CN107704539A (zh) * | 2017-09-22 | 2018-02-16 | 清华大学 | 大规模文本信息批量结构化的方法及装置 |
CN107704539B (zh) * | 2017-09-22 | 2020-10-23 | 清华大学 | 大规模文本信息批量结构化的方法及装置 |
CN107977412A (zh) * | 2017-11-22 | 2018-05-01 | 上海大学 | 一种基于迭代式与交互式感知年龄数据库的清洗方法 |
CN111492070A (zh) * | 2017-12-19 | 2020-08-04 | 株式会社Posco | 炉况控制设备和方法 |
CN109033330A (zh) * | 2018-07-19 | 2018-12-18 | 北京车联天下信息技术有限公司 | 大数据清洗方法、装置和服务器 |
CN110134776A (zh) * | 2019-05-14 | 2019-08-16 | 武汉镝次元数据科技有限公司 | 一种针对非结构化数据的Web服务发布与可视化的联合系统 |
CN111914241A (zh) * | 2020-08-06 | 2020-11-10 | 上海熙菱信息技术有限公司 | 一种动态识别非结构化对象身份信息的方法 |
CN111914241B (zh) * | 2020-08-06 | 2024-01-30 | 上海熙菱信息技术有限公司 | 一种动态识别非结构化对象身份信息的方法 |
CN112231306A (zh) * | 2020-08-23 | 2021-01-15 | 山东翰林科技有限公司 | 基于大数据的能源数据分析系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844636A (zh) | 一种基于深度学习的非结构化数据处理方法 | |
Du et al. | Pavement distress detection and classification based on YOLO network | |
CN114362367B (zh) | 面向云边协同的输电线路监测系统和方法、识别系统和方法 | |
WO2023029461A1 (zh) | 海量高维ais轨迹数据聚类方法 | |
CN111299815B (zh) | 一种用于低灰度橡胶垫视觉检测与激光切割轨迹规划方法 | |
CN110288001B (zh) | 基于目标数据特征训练学习的目标识别方法 | |
CN114092832B (zh) | 一种基于并联混合卷积网络的高分辨率遥感影像分类方法 | |
CN110322453A (zh) | 基于位置注意力和辅助网络的3d点云语义分割方法 | |
Gyawali et al. | Comparative analysis of multiple deep CNN models for waste classification | |
CN110288035B (zh) | 一种智能垃圾桶在线自主学习方法及系统 | |
CN109325502A (zh) | 基于视频渐进区域提取的共享单车停放检测方法和系统 | |
CN111488917A (zh) | 一种基于增量学习的垃圾图像细粒度分类方法 | |
CN113284144B (zh) | 一种基于无人机的隧道检测方法及装置 | |
CN115719475B (zh) | 一种基于深度学习的三阶段轨旁设备故障自动检测方法 | |
CN113408087A (zh) | 一种基于云边系统和视频智能分析的变电站巡视方法 | |
CN111985325A (zh) | 特高压环境评价中的航拍小目标快速识别方法 | |
CN112446114A (zh) | 基于三维模型比对的输电线路工程施工进度监测方法 | |
CN114078237A (zh) | 一种遥感影像道路变化识别方法及装置 | |
CN116599857B (zh) | 一种适用于物联网多场景的数字孪生应用系统 | |
CN113420059A (zh) | 一种市民热线问题主动治理方法和装置 | |
CN109064750A (zh) | 城市路网交通估计方法及系统 | |
CN117078925A (zh) | 一种基于RDSA-DeepLabV3+网络的建筑垃圾年产量精算方法 | |
CN116662860A (zh) | 一种基于能源大数据的用户画像与分类方法 | |
CN116089595A (zh) | 基于科技成果的数据处理推送方法、装置及介质 | |
CN115761519A (zh) | 指标预测方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170613 |