CN117033714A

CN117033714A - 一种基于机器学习的非结构性数据采集技术

Info

Publication number: CN117033714A
Application number: CN202311236832.9A
Authority: CN
Inventors: 张开羽; 李徵宁; 霍世超
Original assignee: Suzhou Yuyi Information Technology Co ltd
Current assignee: Suzhou Yuyi Information Technology Co ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2023-11-10

Abstract

本发明公开了一种基于机器学习的非结构性数据采集技术，包括非结构性数据收集总库、预处理、特征工程、机器学习算法和数据应用库，通过设置向非结构性数据收集总库，用以实时收集获取到的各类数据，进行预处理和特征工程，对大数据中的杂质质量信息进行清理处理，便于从原始非结构化数据中提取的有意义的、可计算特征的数据，运用机器学习算法对数据进行分析任务，让非结构性数据能在基于机器学习的方法上被进行高效分析，提高数据采集分析的效率通过设置了数据应用库，使用者随时可以运用结果导向搜索，灵活的使用采集到的数据，数据也因此能被高效管理，而让使用者能更好地获取和分析复杂的非结构化数据。

Description

一种基于机器学习的非结构性数据采集技术

技术领域

本发明涉及数据采集处理技术相关领域，具体是一种基于机器学习的非结构性数据采集技术。

背景技术

随着大数据时代的到来，越来越多的数据被收集和储存，其中包括大量非结构化数据，非结构化数据在企业中有着广泛的应用场景，这类数据也是企业最重要的资产之一。

然而非结构化数据是没有明显的组织形式和关系、没有特定的格式或排序的各种类型的数据，其具有多样性、复杂性、规模性等问题，由于非结构化数据缺乏明确的组织形式和关系，因此对其进行高效的管理变得异常困难，在这个信息化高速发展的时代，解决数据采集，方便数据管理尤其重要。

发明内容

因此，为了解决上述不足，本发明在此提供一种基于机器学习的非结构性数据采集技术。

本发明是这样实现的，构造一种基于机器学习的非结构性数据采集技术，该装置包括非结构性数据收集总库、预处理、特征工程、机器学习算法和数据应用库。

优选的，所述非结构性数据收集总库还包括数据获取和数据定义，所述数据获取可以用来实时输入资源信息，例如市场调研、新闻媒体、智能数据等数据。

优选的，所述预处理包括去除数据杂质、查重转换、降维和归一化，对海量的非结构性数据进行所述去除数据杂质和查重转换，相当于对数据质量进行清理处理，以消除不必要的信息和噪声，使得后续数据分析更为精简和精准。

优选的，所述特征工程包括类别区分、特征区分、特征冗余处理和特征提取向量化，所述类别区分可以将各类规整在一体的数据先一步进行整体分块，再根据不同分块里的数据特征进行所述特征区分，以便将重复或者无用的数据，更好的进行冗余处理，特征提取向量化可以从非结构性数据中提取有意义的、可计算的特征数据，以便后续可以使用计算学习法进行数据结构化处理。

优选的，所述机器学习算法包括聚类分析、回归方法、决策树方法、深度学习和支持向量机，所述聚类分析可用于图像和文本的相似性分析，以及音频和视频信号处理，所述回归方法可以用来分析非线性模型数据，所述决策树方法可用于分类不明确的数据，所述深度学习可用于语音识别、图像分类、自然语言处理，所述支持向量机可用于分类、回归以及离群值检测和异常检测等数据分析任务。

优选的，所述数据应用库包括结果导向搜索、结果可视化、终端数据应用，所述结果导向搜索能辅助使用者更快更高效的管理和使用数据，所述结果可视化可以将处理后的结构化数据结果，以视觉化的方式呈现出来，以帮助人们更好地理解数据。

本发明具有如下优点：本发明通过改进在此提供一种基于机器学习的非结构性数据采集技术，与同类型设备相比，具有如下改进：

本发明所述一种基于机器学习的非结构性数据采集技术，通过设置了向非结构性数据收集总库，用以实时收集获取到的各类数据。

本发明所述一种基于机器学习的非结构性数据采集技术，通过设置了预处理和特征工程，对大数据中的杂质质量信息进行清理处理，以消除不必要的信息，便于从原始非结构化数据中提取的有意义的、可计算特征的数据。

本发明所述一种基于机器学习的非结构性数据采集技术，通过设置了机器学习算法对数据进行分析任务，让非结构性数据能在基于机器学习的方法上被进行高效分析，提高数据采集分析的效率。

本发明所述一种基于机器学习的非结构性数据采集技术，通过设置了数据应用库，使用者随时可以运用结果导向搜索，灵活的使用采集到的数据，数据也因此能被高效管理，而让使用者能更好地获取和分析复杂的非结构化数据。

附图说明

图1是本发明基于机器学习的非结构性数据采集技术整体流程结构示意图；

图2是本发明预处理结构示意图；

图3是本发明特征工程结构示意图；

图4是本发明机器学习算法结构示意图；

图5是本发明数据应用库结构示意图。

其中：非结构性数据收集总库-c1、预处理-c2、特征工程-c3、机器学习算法-c4、数据应用库-c5、数据获取-c11、数据定义-c12、去除数据杂质-c21、查重转换-c22、降维-c23、归一化-c24、类别区分-c31、特征区分-c32、特征冗余处理-c33、特征提取向量化-c34、聚类分析-c41、回归方法-c42、决策树方法-c43、深度学习-c44、支持向量机-c45、结果导向搜索-c51、结果可视化-c51、终端数据应用-c53。

具体实施方式

下面将结合附图1-5对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明的一种基于机器学习的非结构性数据采集技术，包括非结构性数据收集总库c1、预处理c2、特征工程c3、机器学习算法c4和数据应用库c5，非结构性数据收集总库c1还包括数据获取c11和数据定义c12，数据获取c11可以用来实时输入资源信息，例如市场调研、新闻媒体、智能数据等数据。

请参阅图2，本发明的一种基于机器学习的非结构性数据采集技术，预处理c2包括去除数据杂质c21、查重转换c22、降维c23和归一化c24，对海量的非结构性数据进行去除数据杂质c21和查重转换c22，相当于对数据质量进行清理处理，以消除不必要的信息和噪声，使得后续数据分析更为精简和精准。

请参阅图3，本发明的一种基于机器学习的非结构性数据采集技术，特征工程c3包括类别区分c31、特征区分c32、特征冗余处理c33和特征提取向量化c34，类别区分c31可以将各类规整在一体的数据先一步进行整体分块，再根据不同分块里的数据特征进行特征区分c32，以便将重复或者无用的数据，更好的进行冗余处理，特征提取向量化c34可以从非结构性数据中提取有意义的、可计算的特征数据，以便后续可以使用计算学习法进行数据结构化处理。

请参阅图4，本发明的一种基于机器学习的非结构性数据采集技术，机器学习算法c4包括聚类分析c41、回归方法c42、决策树方法c43、深度学习c44和支持向量机c45，聚类分析c41可用于图像和文本的相似性分析，以及音频和视频信号处理，回归方法c42可以用来分析非线性模型数据，决策树方法c43可用于分类不明确的数据，深度学习c44可用于语音识别、图像分类、自然语言处理，支持向量机c45可用于分类、回归以及离群值检测和异常检测等数据分析任务。

请参阅图5，本发明的一种基于机器学习的非结构性数据采集技术，数据应用库c5包括结果导向搜索c51、结果可视化c52、终端数据应用c53，结果导向搜索c51能辅助使用者更快更高效的管理和使用数据，结果可视化c52可以将处理后的结构化数据结果，以视觉化的方式呈现出来，以帮助人们更好地理解数据。

本发明通过改进提供一种基于机器学习的非结构性数据采集技术，其工作原理如下；

第一，向非结构性数据收集总库c1中实时输入收集的数据，例如市场调研、新闻媒体、智能数据等数据，先将所有非结构数据进行获取后并集中成一个大整体，等待后续的处理；

第二，进行预处理c2和特征工程c3，由于非结构化数据包括图像、音频、社交媒体、文档文本等等，经常有许多的噪音、异常、文本中的语法和拼写错误等问题，需要先一步进行去除数据杂质c21和查重转换c22，进一步筛选后，再进行归一化c24，完成对数据的清理处理，以消除不必要的信息，继而将有关数据信息进行特征提取向量化c34，从原始非结构化数据中提取的有意义的、可计算的特征，使得后续进行数据分析的效率更高，且处理后的数据结果能更精简；

第三，利用机器学习算法c4对数据进行分析任务，对于图像和文本的相似性分析和分割处理，以及音频和视频信号处理，可以运用聚类分析c41进行处理，而例如价格预测、销售预测之类的数据，可以运用回归方法进行分析，此方法能确定如何改变输入变量来最小化预测误差和输出变量之间的差异，对于不明确的数据，则可以运用决策树方法c43，其可以通过对输入数据进行分支和划分，来预测输出数据并识别数据位置，深度学习c44是一种基于神经网络的计算方法，其可以从各类数据中识别类别并提取信息，运用支持向量机c45的学习方法，其能辅助数据在高维空间中创建一个超平面，因此来分离线性可分的数据，使得非结构性数据在基于机器学习上能被进行高效分析；

第四，最后采集分析得出的数据被储存于数据应用库c5中，且使用者随时可以运用结果导向搜索c51，灵活的使用数据，数据也因此能被高效管理，且数据能以静态的图表或动态的交互式应用程序，呈现在人员眼前，实现结果可视化c52，使得在终端数据应用c53处，使用者能更好地获取和分析复杂的非结构化数据。

本发明通过改进提供一种基于机器学习的非结构性数据采集技术，设置。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,并且本发明使用到的标准零件均可以从市场上购买,异形件根据说明书的和附图的记载均可以进行订制,各个零件的具体连接方式均采用现有技术中成熟的螺栓铆钉、焊接等常规手段，机械、零件和设备均采用现有技术中,常规的型号,加上电路连接采用现有技术中常规的连接方式,在此不再详述。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于机器学习的非结构性数据采集技术，其特征在于，包括：非结构性数据收集总库(c1)、预处理(c2)、特征工程(c3)、机器学习算法(c4)和数据应用库(c5)，所述非结构性数据收集总库(c1)包括数据获取(c11)和数据定义(c12)，所述非结构性数据收集总库(c1)用于对所有数据进行收纳集结，数据获取(c11)用来实时输入资源信息，数据定义(c12)用于对收集的数据及时进行定义。

2.根据权利要求1所述一种基于机器学习的非结构性数据采集技术，其特征在于：所述预处理(c2)包括去除数据杂质(c21)、查重转换(c22)、降维(c23)和归一化(c24)，所述数据杂质(c21)和查重转换(c22)用于对海量的非结构性数据进行数据质量筛选和清理处理，降维(c23)用来降低数据的维度，归一化(c24)使得数据更佳规整和可视化。

3.根据权利要求1所述一种基于机器学习的非结构性数据采集技术，其特征在于：所述特征工程(c3)包括类别区分(c31)、特征区分(c32)、特征冗余处理(c33)和特征提取向量化(c34)，所述类别区分(c31)用于将各类规整在一体的数据先一步进行整体分块，特征区分(c32)用于根据不同分块里的数据特征不同而进行区分，特征冗余处理(c33)用来将重复或者无用的数据处理掉，特征提取向量化(c34)用于从非结构性数据中提取有意义的、可计算的特征数据。

4.根据权利要求1所述一种基于机器学习的非结构性数据采集技术，其特征在于：所述机器学习算法(c4)包括聚类分析(c41)、回归方法(c42)、决策树方法(c43)、深度学习(c44)和支持向量机(c45)，所述聚类分析(c41)用于图像和文本的相似性分析，以及音频和视频信号处理，回归方法(c42)用来分析非线性模型数据，决策树方法(c43)用于分类不明确的数据，深度学习(c44)用于语音识别、图像分类、自然语言处理，支持向量机(c45)用于分类、回归以及离群值检测和异常检测等数据分析任务。

5.根据权利要求1所述一种基于机器学习的非结构性数据采集技术，其特征在于：所述数据应用库(c5)包括结果导向搜索(c51)、结果可视化(c52)、终端数据应用(c53)，所述结果导向搜索(c51)用于辅助使用者更快更高效的管理和使用数据，结果可视化(c52)用于将处理后的结构化数据结果，以视觉化的方式呈现出来，终端数据应用(c53)用于人们更好地理解复杂的非结构化数据。

6.根据权利要求1所述一种基于机器学习的非结构性数据采集技术，其特征在于，该数据采集技术包括以下步骤：

S1：向非结构性数据收集总库(c1)中实时输入收集的数据，将所有非结构数据进行获取后并集中成一个大整体，等待后续的处理；

S2：进行预处理(c2)和特征工程(c3)，对所有数据先一步进行去除数据杂质(c21)和查重转换(c22)，进一步筛选后，再进行归一化(c24)，完成对数据的清理处理，将有关数据信息进行特征提取向量化(c34)；

S3：利用机器学习算法(c4)对数据进行分析任务，运用聚类分析(c41)进行处理，对于不明确的数据，则可以运用决策树方法(c43)，其可以通过对输入数据进行分支和划分，运用支持向量机(c45)的学习方法，其能辅助数据在高维空间中创建一个超平面，因此来分离线性可分的数据；

S4：最后采集分析得出的数据被储存于数据应用库(c5)中，使用者随时可以运用结果导向搜索(c51)，灵活的使用数据，实现结果可视化(c52)，使得在终端数据应用(c53)处，使用者能更好地获取和分析复杂的非结构化数据。