CN106844636A - 一种基于深度学习的非结构化数据处理方法 - Google Patents

一种基于深度学习的非结构化数据处理方法 Download PDF

Info

Publication number
CN106844636A
CN106844636A CN201710044292.2A CN201710044292A CN106844636A CN 106844636 A CN106844636 A CN 106844636A CN 201710044292 A CN201710044292 A CN 201710044292A CN 106844636 A CN106844636 A CN 106844636A
Authority
CN
China
Prior art keywords
data
unstructured data
unstructured
deep learning
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710044292.2A
Other languages
English (en)
Inventor
沙云飞
李晨放
赵雪晴
王天然
郝闻众
丁浣
郑培晨
宋力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asiainfo (jiangsu) Data Technology Co Ltd
Original Assignee
Asiainfo (jiangsu) Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asiainfo (jiangsu) Data Technology Co Ltd filed Critical Asiainfo (jiangsu) Data Technology Co Ltd
Priority to CN201710044292.2A priority Critical patent/CN106844636A/zh
Publication of CN106844636A publication Critical patent/CN106844636A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的非结构化数据处理方法,属于大数据处理技术领域,该基于深度学习的非结构化数据处理方法,包括:1)非结构化数据的存储,基于Hadoop的大数据框架,解决非结构化数据的存储、管理、访问;2)非结构化数据的预处理,利用大数据平台的ETL能力,完成数据预处理(清洗、转换、挖掘、搜索);3)非结构化数据的结构化处理,采用时空分割、特征提取、对象识别等处理手段,实现非结构化数据向信息、情报的转化;4)非结构化数据的处理能力提升,利用深度学习算法来替代手工获取特征分析。本发明可以实现海量非结构化数据的存储,支持非结构化数据的批量、实时处理,增强非结构化数据处理的效率、准确性和合理性。

Description

一种基于深度学习的非结构化数据处理方法
技术领域
本发明涉及非结构化数据处理方法,尤其是一种基于深度学习的非结构化数据处理方法,属于大数据处理技术领域。
背景技术
随着大数据时代的到来,越来越多的非结构化数据受到人们的重视,尤其是符合大数据4V特性(数据容量大、数据类型繁多、商业价值高和处理速度快)的非结构化数据,如大量的视频数据、图片数据等。
以交通行业为例,如今道路上的视频监控设备和电子警察设备积累了大量的视频监控数据以及抓拍图像数据,这些非结构化数据中,包含人员、车辆、路网、环境等多种影响交通状况的信息,如何利用好这些数据来解决由于机动化和城市化进程加快带来的交通拥堵、交通事故频发等问题,成为了一个热门方向。
当今的非结构化数据的处理方式主要是模板匹配法,将现有的非结构化数据与已经完成处理的模板进行对比,从而找到最相似的模板,从中提取出相应有用的信息,但这种方法在处理大量非结构化数据时耗时长,并且没有那么大的模板库与之相应匹配。
发明内容
针对上述现有技术存在的缺陷,本发明提供一种基于深度学习的非结构化数据处理方法,包含图像、视频等符合大数据4V特性(数据容量大、数据类型繁多、商业价值高和处理速度快)的非结构化数据,该方法包括以下步骤:1)非结构化数据的存储,基于Hadoop的大数据框架,可以很好解决非结构化数据的存储、管理、访问;2)非结构化数据的预处理,利用大数据平台的ETL能力,完成数据预处理(清洗、转换、挖掘、搜索等);3)非结构化数据的结构化处理,对非结构化数据内容按照语义关系,采用时空分割、特征提取、对象识别等处理手段,实现非结构化数据向信息、情报的转化;4)非结构化数据的处理能力提升,利用深度学习算法来替代手工获取特征分析,提升非结构化数据处理的准确性和合理性。
本发明的具体技术方案如下:
步骤1,非结构化数据的存储
本发明利用大数据平台来对非结构化数据进行存储,主要是基于Hadoop的大数据框架,解决视频数据的存储、管理、访问,具体方式如下:
步骤1.1,根据数据连通度选择共享交换方式将非结构化数据上传汇聚到大数据对象存储或通过在线存储服务访问方式配置非结构化数据采集任务;
步骤1.2,将需要采集的非结构化数据,基于Hadoop的大数据框架,完成大规模非结构化数据的分布式存储;
步骤1.3,利用图形化的配置界面对大规模非结构化数据进行统一管理。
步骤2,非结构化数据的预处理
本发明利用大数据平台的ETL能力,完成数据的清洗、转换、挖掘、搜索等基本处理,具体方式如下:
步骤2.1,从不同的数据库系统、网络系统、操作系统、数据格式中抽取数据;
步骤2.2,将抽取的数据根据规则进行计算、合并、拆分、编码转换等操作,清除重复数据、错误数据,清空稀疏的数据集;
步骤2.3,将已经处理后的数据加载到目标数据库,以供下一步骤的分析使用。
步骤3,非结构化数据的结构化处理
本发明对非结构化数据内容按照数据间的语义关系,采用时空分割、特征提取、对象识别等处理手段,实现非结构化数据向信息、情报的转化,具体做法如下:
步骤3.1,将非结构化数据根据数据线性序列的横向关系以及相同结构、相同位置之间的纵向结构,建立好非结构化数据的语义关系;
步骤3.2,将建立好语义关系的非结构化数据,根据非结构数据的时间和空间的差异,进行数据分割;
步骤3.3,将分割后的非结构化数据,通过影像分析和变换,将数据按照一定的规律生成不同的子集,形成一个个特征参数;
步骤3.4,根据特征提取的结果,利用定量描绘子提取的方式,提取出具体的结构化数据,定量描绘子包括长度、纹理和面积等。
步骤4,非结构化数据的处理能力提升
本发明利用深度学习算法,对不同非结构化数据的结构化处理结果进行不断学习调整,提升非结构化数据处理的准确性和合理性,具体做法如下:
步骤4.1,利用大量历史数据进行训练,即将大量非结构化数据带入步骤3,得到多种不同的处理结果,并打上相对应的标签;
步骤4.2,新的非结构化数据中,将新的非结构化数据和步骤4.1训练的标签数据进行概率匹配,获取新的数据与标签数据的联合概率分布函数f(p);
步骤4.3,利用步骤4.2获取的联合概率分布,完成先验概率和后验概率的估计,概率估计较高的为新的非结构化数据处理结果;
步骤4.4,在今后的其他非结构化数据处理中,将步骤4.3得到的结果当成历史数据,扩大步骤4.1中的样本量,并重复上述操作,完成自学习的非结构化数据处理。
本发明的有益效果是:基于深度学习的非结构化数据处理方法,利用大数据平台,基于Hadoop的大数据框架,采用深度学习算法,完成符合大数据4V特性的图像、视频等非结构化数据的存储、预处理以及最终的结构化处理。该方法可以实现海量非结构化数据的存储,支持非结构化数据的批量实时处理,增强非结构化数据处理的效率,提高处理结果的准确性和合理性。
附图说明
图1 为本发明基于深度学习的非结构化数据处理方法总流程图。
图2 为本发明基于深度学习的非结构化数据处理能力提升流程图。
具体实施方式
以下结合附图对本发明的特征及其它相关特征作进一步详细说明。
如图1所示,提供一种基于深度学习的非结构化数据处理方法,包含图像、视频等符合大数据4V特性(数据容量大、数据类型繁多、商业价值高和处理速度快)的非结构化数据,该方法包括以下步骤:1)非结构化数据的存储,基于Hadoop的大数据框架,可以很好解决非结构化数据的存储、管理、访问;2)非结构化数据的预处理,利用大数据平台的ETL能力,完成数据预处理(清洗、转换、挖掘、搜索等);3)非结构化数据的结构化处理,对非结构化数据内容按照语义关系,采用时空分割、特征提取、对象识别等处理手段,实现非结构化数据向信息、情报的转化;4)非结构化数据的处理能力提升,利用深度学习算法来替代手工获取特征分析,提升非结构化数据处理的准确性和合理性。
结合道路上高清摄像头记录的视频数据为例,详细说明基于深度学习的非结构化数据处理方法的步骤:
步骤1,非结构化数据的存储
步骤1.1,将视频数据通过在线存储服务访问方式配置非结构化数据采集任务;
步骤1.2,将需要采集到的视频数据,基于Hadoop的大数据框架,完成视频数据在大数据平台上的分布式存储;
步骤1.3,利用图形化的配置界面对视频数据进行统一管理。
步骤2,非结构化数据的预处理
步骤2.1,从不同的数据库系统、网络系统、操作系统、数据格式中抽取出视频数据;
步骤2.2,将抽取的视频数据根据规则进行计算、合并、拆分、编码转换等操作,清除重复数据、错误数据,清空稀疏的数据集;
步骤2.3,将已经处理后的视频数据加载到目标数据库,以供下一步骤的分析使用。
步骤3,非结构化数据的结构化处理
步骤3.1,将视频数据根据数据线性序列的横向关系以及相同结构、相同位置之间的纵向结构,建立好非结构化数据的语义关系;
步骤3.2,将建立好语义关系的视频数据,根据视频数据的记录的时间和空间的不同,进行视频数据时空分割;
步骤3.3,将分割后的视频数据,通过影像分析和变换,将数据按照一定的规律生成不同的子集,形成一个个特征参数;
步骤3.4,根据特征提取的结果,利用定量描绘子提取的方式,提取出具体的结构化数据,定量描绘子包括车辆长度、纹理和面积等。
步骤4,非结构化数据的处理能力提升,如图2所示,具体流程如下:
步骤4.1,利用大量历史数据进行训练,即将大量视频数据带入步骤3,得到多种不同的处理结果,并打上相对应的标签;
步骤4.2,新的视频数据中,将新的视频数据和步骤4.1训练的标签数据进行概率匹配,获取新的数据与标签数据的联合概率分布函数f(p);
步骤4.3,利用步骤4.2获取的联合概率分布,完成先验概率和后验概率的估计,概率估计较高的为新的视频数据处理结果;
步骤4.4,在今后的其他视频数据处理中,将步骤4.3得到的结果当成历史数据,扩大步骤4.1中的样本量,并重复上述操作,完成自学习的视频数据处理。

Claims (6)

1.一种基于深度学习的非结构化数据处理方法,其特征在于,包括:1)非结构化数据的存储;2)非结构化数据的预处理;3)非结构化数据的结构化处理;4)非结构化数据的处理能力提升。
2.根据权利要求1所述的基于深度学习的非结构化数据处理方法,其特征在于,所述的非结构化数据包括图像、视频等符合大数据4V特性(数据容量大、数据类型繁多、商业价值高和处理速度快)的数据。
3.根据权利要求1所述的基于深度学习的非结构化数据处理方法,其特征在于,所述的非结构化数据的存储方法是利用大数据平台对非结构化数据进行存储,主要是基于Hadoop的大数据框架,解决视频数据的存储、管理、访问,具体方式如下:
步骤1.1,根据数据连通度选择共享交换方式将非结构化数据上传汇聚到大数据对象存储或通过在线存储服务访问方式配置非结构化数据采集任务;
步骤1.2,将需要采集的非结构化数据,基于Hadoop的大数据框架,完成大规模非结构化数据的分布式存储;
步骤1.3,利用图形化的配置界面对大规模非结构化数据进行统一管理。
4.根据权利要求1所述的基于深度学习的非结构化数据处理方法,其特征在于,所述的非结构化数据的预处理方法是利用大数据平台的ETL能力,完成数据的清洗、转换、挖掘、搜索等基本处理,具体方式如下:
步骤2.1,从不同的数据库系统、网络系统、操作系统、数据格式中抽取数据;
步骤2.2,将抽取的数据根据规则进行计算、合并、拆分、编码转换等操作,清除重复数据、错误数据,清空稀疏的数据集;
步骤2.3,将已经处理后的数据加载到目标数据库,以供下一步骤的分析使用。
5.根据权利要求1所述的基于深度学习的非结构化数据处理方法,其特征在于,所述的非结构化数据的结构化处理方法是对非结构化数据内容按照数据间的语义关系,采用时空分割、特征提取、对象识别等处理手段,实现非结构化数据向信息、情报的转化,具体做法如下:
步骤3.1,将非结构化数据根据数据线性序列的横向关系以及相同结构、相同位置之间的纵向结构,建立好非结构化数据的语义关系;
步骤3.2,将建立好语义关系的非结构化数据,根据非结构数据的时间和空间的差异,进行数据分割;
步骤3.3,将分割后的非结构化数据,通过影像分析和变换,将数据按照一定的规律生成不同的子集,形成一个个特征参数;
步骤3.4,根据特征提取的结果,利用定量描绘子提取的方式,提取出具体的结构化数据,定量描绘子包括长度、纹理和面积等。
6.根据权利要求1所述的基于深度学习的非结构化数据处理方法,其特征在于,所述的非结构化数据的处理能力提升方法是利用深度学习算法,对不同非结构化数据的结构化处理结果进行不断学习调整,提升非结构化数据处理的准确性和合理性,具体做法如下:
步骤4.1,利用大量历史数据进行训练,即将大量非结构化数据带入步骤3,得到多种不同的处理结果,并打上相对应的标签;
步骤4.2,新的非结构化数据中,将新的非结构化数据和步骤4.1训练的标签数据进行概率匹配,获取新的数据与标签数据的联合概率分布函数f(p);
步骤4.3,利用步骤4.2获取的联合概率分布,完成先验概率和后验概率的估计,概率估计较高的为新的非结构化数据处理结果;
步骤4.4,在今后的其他非结构化数据处理中,将步骤4.3得到的结果当成历史数据,扩大步骤4.1中的样本量,并重复上述操作,完成自学习的非结构化数据处理。
CN201710044292.2A 2017-01-21 2017-01-21 一种基于深度学习的非结构化数据处理方法 Pending CN106844636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710044292.2A CN106844636A (zh) 2017-01-21 2017-01-21 一种基于深度学习的非结构化数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710044292.2A CN106844636A (zh) 2017-01-21 2017-01-21 一种基于深度学习的非结构化数据处理方法

Publications (1)

Publication Number Publication Date
CN106844636A true CN106844636A (zh) 2017-06-13

Family

ID=59120460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710044292.2A Pending CN106844636A (zh) 2017-01-21 2017-01-21 一种基于深度学习的非结构化数据处理方法

Country Status (1)

Country Link
CN (1) CN106844636A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563929A (zh) * 2017-07-27 2018-01-09 杭州中奥科技有限公司 一种基于人物特性分析的多维度警报器
CN107704539A (zh) * 2017-09-22 2018-02-16 清华大学 大规模文本信息批量结构化的方法及装置
CN107977412A (zh) * 2017-11-22 2018-05-01 上海大学 一种基于迭代式与交互式感知年龄数据库的清洗方法
CN109033330A (zh) * 2018-07-19 2018-12-18 北京车联天下信息技术有限公司 大数据清洗方法、装置和服务器
CN110134776A (zh) * 2019-05-14 2019-08-16 武汉镝次元数据科技有限公司 一种针对非结构化数据的Web服务发布与可视化的联合系统
CN111492070A (zh) * 2017-12-19 2020-08-04 株式会社Posco 炉况控制设备和方法
CN111914241A (zh) * 2020-08-06 2020-11-10 上海熙菱信息技术有限公司 一种动态识别非结构化对象身份信息的方法
CN112231306A (zh) * 2020-08-23 2021-01-15 山东翰林科技有限公司 基于大数据的能源数据分析系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615701A (zh) * 2015-01-27 2015-05-13 深圳市融创天下科技有限公司 基于视频云平台的智慧城市嵌入式大数据可视化引擎集群
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法
US20170011309A1 (en) * 2015-07-07 2017-01-12 Ipvive, Inc. System and method for layered, vector cluster pattern with trim

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615701A (zh) * 2015-01-27 2015-05-13 深圳市融创天下科技有限公司 基于视频云平台的智慧城市嵌入式大数据可视化引擎集群
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
US20170011309A1 (en) * 2015-07-07 2017-01-12 Ipvive, Inc. System and method for layered, vector cluster pattern with trim
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563929A (zh) * 2017-07-27 2018-01-09 杭州中奥科技有限公司 一种基于人物特性分析的多维度警报器
CN107704539A (zh) * 2017-09-22 2018-02-16 清华大学 大规模文本信息批量结构化的方法及装置
CN107704539B (zh) * 2017-09-22 2020-10-23 清华大学 大规模文本信息批量结构化的方法及装置
CN107977412A (zh) * 2017-11-22 2018-05-01 上海大学 一种基于迭代式与交互式感知年龄数据库的清洗方法
CN111492070A (zh) * 2017-12-19 2020-08-04 株式会社Posco 炉况控制设备和方法
CN109033330A (zh) * 2018-07-19 2018-12-18 北京车联天下信息技术有限公司 大数据清洗方法、装置和服务器
CN110134776A (zh) * 2019-05-14 2019-08-16 武汉镝次元数据科技有限公司 一种针对非结构化数据的Web服务发布与可视化的联合系统
CN111914241A (zh) * 2020-08-06 2020-11-10 上海熙菱信息技术有限公司 一种动态识别非结构化对象身份信息的方法
CN111914241B (zh) * 2020-08-06 2024-01-30 上海熙菱信息技术有限公司 一种动态识别非结构化对象身份信息的方法
CN112231306A (zh) * 2020-08-23 2021-01-15 山东翰林科技有限公司 基于大数据的能源数据分析系统及方法

Similar Documents

Publication Publication Date Title
CN106844636A (zh) 一种基于深度学习的非结构化数据处理方法
Du et al. Pavement distress detection and classification based on YOLO network
CN114362367B (zh) 面向云边协同的输电线路监测系统和方法、识别系统和方法
WO2023029461A1 (zh) 海量高维ais轨迹数据聚类方法
CN111299815B (zh) 一种用于低灰度橡胶垫视觉检测与激光切割轨迹规划方法
CN110288001B (zh) 基于目标数据特征训练学习的目标识别方法
CN114092832B (zh) 一种基于并联混合卷积网络的高分辨率遥感影像分类方法
CN110322453A (zh) 基于位置注意力和辅助网络的3d点云语义分割方法
Gyawali et al. Comparative analysis of multiple deep CNN models for waste classification
CN110288035B (zh) 一种智能垃圾桶在线自主学习方法及系统
CN109325502A (zh) 基于视频渐进区域提取的共享单车停放检测方法和系统
CN111488917A (zh) 一种基于增量学习的垃圾图像细粒度分类方法
CN113284144B (zh) 一种基于无人机的隧道检测方法及装置
CN115719475B (zh) 一种基于深度学习的三阶段轨旁设备故障自动检测方法
CN113408087A (zh) 一种基于云边系统和视频智能分析的变电站巡视方法
CN111985325A (zh) 特高压环境评价中的航拍小目标快速识别方法
CN112446114A (zh) 基于三维模型比对的输电线路工程施工进度监测方法
CN114078237A (zh) 一种遥感影像道路变化识别方法及装置
CN116599857B (zh) 一种适用于物联网多场景的数字孪生应用系统
CN113420059A (zh) 一种市民热线问题主动治理方法和装置
CN109064750A (zh) 城市路网交通估计方法及系统
CN117078925A (zh) 一种基于RDSA-DeepLabV3+网络的建筑垃圾年产量精算方法
CN116662860A (zh) 一种基于能源大数据的用户画像与分类方法
CN116089595A (zh) 基于科技成果的数据处理推送方法、装置及介质
CN115761519A (zh) 指标预测方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170613