CN117033714A - 一种基于机器学习的非结构性数据采集技术 - Google Patents
一种基于机器学习的非结构性数据采集技术 Download PDFInfo
- Publication number
- CN117033714A CN117033714A CN202311236832.9A CN202311236832A CN117033714A CN 117033714 A CN117033714 A CN 117033714A CN 202311236832 A CN202311236832 A CN 202311236832A CN 117033714 A CN117033714 A CN 117033714A
- Authority
- CN
- China
- Prior art keywords
- data
- machine learning
- unstructured
- unstructured data
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 41
- 238000005516 engineering process Methods 0.000 title abstract description 20
- 238000013480 data collection Methods 0.000 claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 239000012535 impurity Substances 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 19
- 238000003066 decision tree Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000007621 cluster analysis Methods 0.000 claims description 7
- 238000013139 quantization Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000012800 visualization Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000013450 outlier detection Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000011002 quantification Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于机器学习的非结构性数据采集技术,包括非结构性数据收集总库、预处理、特征工程、机器学习算法和数据应用库,通过设置向非结构性数据收集总库,用以实时收集获取到的各类数据,进行预处理和特征工程,对大数据中的杂质质量信息进行清理处理,便于从原始非结构化数据中提取的有意义的、可计算特征的数据,运用机器学习算法对数据进行分析任务,让非结构性数据能在基于机器学习的方法上被进行高效分析,提高数据采集分析的效率通过设置了数据应用库,使用者随时可以运用结果导向搜索,灵活的使用采集到的数据,数据也因此能被高效管理,而让使用者能更好地获取和分析复杂的非结构化数据。
Description
技术领域
本发明涉及数据采集处理技术相关领域,具体是一种基于机器学习的非结构性数据采集技术。
背景技术
随着大数据时代的到来,越来越多的数据被收集和储存,其中包括大量非结构化数据,非结构化数据在企业中有着广泛的应用场景,这类数据也是企业最重要的资产之一。
然而非结构化数据是没有明显的组织形式和关系、没有特定的格式或排序的各种类型的数据,其具有多样性、复杂性、规模性等问题,由于非结构化数据缺乏明确的组织形式和关系,因此对其进行高效的管理变得异常困难,在这个信息化高速发展的时代,解决数据采集,方便数据管理尤其重要。
发明内容
因此,为了解决上述不足,本发明在此提供一种基于机器学习的非结构性数据采集技术。
本发明是这样实现的,构造一种基于机器学习的非结构性数据采集技术,该装置包括非结构性数据收集总库、预处理、特征工程、机器学习算法和数据应用库。
优选的,所述非结构性数据收集总库还包括数据获取和数据定义,所述数据获取可以用来实时输入资源信息,例如市场调研、新闻媒体、智能数据等数据。
优选的,所述预处理包括去除数据杂质、查重转换、降维和归一化,对海量的非结构性数据进行所述去除数据杂质和查重转换,相当于对数据质量进行清理处理,以消除不必要的信息和噪声,使得后续数据分析更为精简和精准。
优选的,所述特征工程包括类别区分、特征区分、特征冗余处理和特征提取向量化,所述类别区分可以将各类规整在一体的数据先一步进行整体分块,再根据不同分块里的数据特征进行所述特征区分,以便将重复或者无用的数据,更好的进行冗余处理,特征提取向量化可以从非结构性数据中提取有意义的、可计算的特征数据,以便后续可以使用计算学习法进行数据结构化处理。
优选的,所述机器学习算法包括聚类分析、回归方法、决策树方法、深度学习和支持向量机,所述聚类分析可用于图像和文本的相似性分析,以及音频和视频信号处理,所述回归方法可以用来分析非线性模型数据,所述决策树方法可用于分类不明确的数据,所述深度学习可用于语音识别、图像分类、自然语言处理,所述支持向量机可用于分类、回归以及离群值检测和异常检测等数据分析任务。
优选的,所述数据应用库包括结果导向搜索、结果可视化、终端数据应用,所述结果导向搜索能辅助使用者更快更高效的管理和使用数据,所述结果可视化可以将处理后的结构化数据结果,以视觉化的方式呈现出来,以帮助人们更好地理解数据。
本发明具有如下优点:本发明通过改进在此提供一种基于机器学习的非结构性数据采集技术,与同类型设备相比,具有如下改进:
本发明所述一种基于机器学习的非结构性数据采集技术,通过设置了向非结构性数据收集总库,用以实时收集获取到的各类数据。
本发明所述一种基于机器学习的非结构性数据采集技术,通过设置了预处理和特征工程,对大数据中的杂质质量信息进行清理处理,以消除不必要的信息,便于从原始非结构化数据中提取的有意义的、可计算特征的数据。
本发明所述一种基于机器学习的非结构性数据采集技术,通过设置了机器学习算法对数据进行分析任务,让非结构性数据能在基于机器学习的方法上被进行高效分析,提高数据采集分析的效率。
本发明所述一种基于机器学习的非结构性数据采集技术,通过设置了数据应用库,使用者随时可以运用结果导向搜索,灵活的使用采集到的数据,数据也因此能被高效管理,而让使用者能更好地获取和分析复杂的非结构化数据。
附图说明
图1是本发明基于机器学习的非结构性数据采集技术整体流程结构示意图;
图2是本发明预处理结构示意图;
图3是本发明特征工程结构示意图;
图4是本发明机器学习算法结构示意图;
图5是本发明数据应用库结构示意图。
其中:非结构性数据收集总库-c1、预处理-c2、特征工程-c3、机器学习算法-c4、数据应用库-c5、数据获取-c11、数据定义-c12、去除数据杂质-c21、查重转换-c22、降维-c23、归一化-c24、类别区分-c31、特征区分-c32、特征冗余处理-c33、特征提取向量化-c34、聚类分析-c41、回归方法-c42、决策树方法-c43、深度学习-c44、支持向量机-c45、结果导向搜索-c51、结果可视化-c51、终端数据应用-c53。
具体实施方式
下面将结合附图1-5对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明的一种基于机器学习的非结构性数据采集技术,包括非结构性数据收集总库c1、预处理c2、特征工程c3、机器学习算法c4和数据应用库c5,非结构性数据收集总库c1还包括数据获取c11和数据定义c12,数据获取c11可以用来实时输入资源信息,例如市场调研、新闻媒体、智能数据等数据。
请参阅图2,本发明的一种基于机器学习的非结构性数据采集技术,预处理c2包括去除数据杂质c21、查重转换c22、降维c23和归一化c24,对海量的非结构性数据进行去除数据杂质c21和查重转换c22,相当于对数据质量进行清理处理,以消除不必要的信息和噪声,使得后续数据分析更为精简和精准。
请参阅图3,本发明的一种基于机器学习的非结构性数据采集技术,特征工程c3包括类别区分c31、特征区分c32、特征冗余处理c33和特征提取向量化c34,类别区分c31可以将各类规整在一体的数据先一步进行整体分块,再根据不同分块里的数据特征进行特征区分c32,以便将重复或者无用的数据,更好的进行冗余处理,特征提取向量化c34可以从非结构性数据中提取有意义的、可计算的特征数据,以便后续可以使用计算学习法进行数据结构化处理。
请参阅图4,本发明的一种基于机器学习的非结构性数据采集技术,机器学习算法c4包括聚类分析c41、回归方法c42、决策树方法c43、深度学习c44和支持向量机c45,聚类分析c41可用于图像和文本的相似性分析,以及音频和视频信号处理,回归方法c42可以用来分析非线性模型数据,决策树方法c43可用于分类不明确的数据,深度学习c44可用于语音识别、图像分类、自然语言处理,支持向量机c45可用于分类、回归以及离群值检测和异常检测等数据分析任务。
请参阅图5,本发明的一种基于机器学习的非结构性数据采集技术,数据应用库c5包括结果导向搜索c51、结果可视化c52、终端数据应用c53,结果导向搜索c51能辅助使用者更快更高效的管理和使用数据,结果可视化c52可以将处理后的结构化数据结果,以视觉化的方式呈现出来,以帮助人们更好地理解数据。
本发明通过改进提供一种基于机器学习的非结构性数据采集技术,其工作原理如下;
第一,向非结构性数据收集总库c1中实时输入收集的数据,例如市场调研、新闻媒体、智能数据等数据,先将所有非结构数据进行获取后并集中成一个大整体,等待后续的处理;
第二,进行预处理c2和特征工程c3,由于非结构化数据包括图像、音频、社交媒体、文档文本等等,经常有许多的噪音、异常、文本中的语法和拼写错误等问题,需要先一步进行去除数据杂质c21和查重转换c22,进一步筛选后,再进行归一化c24,完成对数据的清理处理,以消除不必要的信息,继而将有关数据信息进行特征提取向量化c34,从原始非结构化数据中提取的有意义的、可计算的特征,使得后续进行数据分析的效率更高,且处理后的数据结果能更精简;
第三,利用机器学习算法c4对数据进行分析任务,对于图像和文本的相似性分析和分割处理,以及音频和视频信号处理,可以运用聚类分析c41进行处理,而例如价格预测、销售预测之类的数据,可以运用回归方法进行分析,此方法能确定如何改变输入变量来最小化预测误差和输出变量之间的差异,对于不明确的数据,则可以运用决策树方法c43,其可以通过对输入数据进行分支和划分,来预测输出数据并识别数据位置,深度学习c44是一种基于神经网络的计算方法,其可以从各类数据中识别类别并提取信息,运用支持向量机c45的学习方法,其能辅助数据在高维空间中创建一个超平面,因此来分离线性可分的数据,使得非结构性数据在基于机器学习上能被进行高效分析;
第四,最后采集分析得出的数据被储存于数据应用库c5中,且使用者随时可以运用结果导向搜索c51,灵活的使用数据,数据也因此能被高效管理,且数据能以静态的图表或动态的交互式应用程序,呈现在人员眼前,实现结果可视化c52,使得在终端数据应用c53处,使用者能更好地获取和分析复杂的非结构化数据。
本发明通过改进提供一种基于机器学习的非结构性数据采集技术,设置。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,并且本发明使用到的标准零件均可以从市场上购买,异形件根据说明书的和附图的记载均可以进行订制,各个零件的具体连接方式均采用现有技术中成熟的螺栓铆钉、焊接等常规手段,机械、零件和设备均采用现有技术中,常规的型号,加上电路连接采用现有技术中常规的连接方式,在此不再详述。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种基于机器学习的非结构性数据采集技术,其特征在于,包括:非结构性数据收集总库(c1)、预处理(c2)、特征工程(c3)、机器学习算法(c4)和数据应用库(c5),所述非结构性数据收集总库(c1)包括数据获取(c11)和数据定义(c12),所述非结构性数据收集总库(c1)用于对所有数据进行收纳集结,数据获取(c11)用来实时输入资源信息,数据定义(c12)用于对收集的数据及时进行定义。
2.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述预处理(c2)包括去除数据杂质(c21)、查重转换(c22)、降维(c23)和归一化(c24),所述数据杂质(c21)和查重转换(c22)用于对海量的非结构性数据进行数据质量筛选和清理处理,降维(c23)用来降低数据的维度,归一化(c24)使得数据更佳规整和可视化。
3.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述特征工程(c3)包括类别区分(c31)、特征区分(c32)、特征冗余处理(c33)和特征提取向量化(c34),所述类别区分(c31)用于将各类规整在一体的数据先一步进行整体分块,特征区分(c32)用于根据不同分块里的数据特征不同而进行区分,特征冗余处理(c33)用来将重复或者无用的数据处理掉,特征提取向量化(c34)用于从非结构性数据中提取有意义的、可计算的特征数据。
4.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述机器学习算法(c4)包括聚类分析(c41)、回归方法(c42)、决策树方法(c43)、深度学习(c44)和支持向量机(c45),所述聚类分析(c41)用于图像和文本的相似性分析,以及音频和视频信号处理,回归方法(c42)用来分析非线性模型数据,决策树方法(c43)用于分类不明确的数据,深度学习(c44)用于语音识别、图像分类、自然语言处理,支持向量机(c45)用于分类、回归以及离群值检测和异常检测等数据分析任务。
5.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述数据应用库(c5)包括结果导向搜索(c51)、结果可视化(c52)、终端数据应用(c53),所述结果导向搜索(c51)用于辅助使用者更快更高效的管理和使用数据,结果可视化(c52)用于将处理后的结构化数据结果,以视觉化的方式呈现出来,终端数据应用(c53)用于人们更好地理解复杂的非结构化数据。
6.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于,该数据采集技术包括以下步骤:
S1:向非结构性数据收集总库(c1)中实时输入收集的数据,将所有非结构数据进行获取后并集中成一个大整体,等待后续的处理;
S2:进行预处理(c2)和特征工程(c3),对所有数据先一步进行去除数据杂质(c21)和查重转换(c22),进一步筛选后,再进行归一化(c24),完成对数据的清理处理,将有关数据信息进行特征提取向量化(c34);
S3:利用机器学习算法(c4)对数据进行分析任务,运用聚类分析(c41)进行处理,对于不明确的数据,则可以运用决策树方法(c43),其可以通过对输入数据进行分支和划分,运用支持向量机(c45)的学习方法,其能辅助数据在高维空间中创建一个超平面,因此来分离线性可分的数据;
S4:最后采集分析得出的数据被储存于数据应用库(c5)中,使用者随时可以运用结果导向搜索(c51),灵活的使用数据,实现结果可视化(c52),使得在终端数据应用(c53)处,使用者能更好地获取和分析复杂的非结构化数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311236832.9A CN117033714A (zh) | 2023-09-25 | 2023-09-25 | 一种基于机器学习的非结构性数据采集技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311236832.9A CN117033714A (zh) | 2023-09-25 | 2023-09-25 | 一种基于机器学习的非结构性数据采集技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117033714A true CN117033714A (zh) | 2023-11-10 |
Family
ID=88626689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311236832.9A Pending CN117033714A (zh) | 2023-09-25 | 2023-09-25 | 一种基于机器学习的非结构性数据采集技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117033714A (zh) |
-
2023
- 2023-09-25 CN CN202311236832.9A patent/CN117033714A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN105975478A (zh) | 一种基于词向量分析的网络文章所属事件的检测方法和装置 | |
CN112395424A (zh) | 一种复杂产品质量问题追溯方法及系统 | |
CN104298658B (zh) | 获取搜索结果的方法和装置 | |
CN105975491A (zh) | 企业新闻分析方法及系统 | |
CN114490344A (zh) | 一种基于机器学习和静态分析的软件集成测评方法 | |
CN106844638A (zh) | 信息检索方法、装置及电子设备 | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
CN115758183A (zh) | 日志异常检测模型的训练方法及装置 | |
CN112100395B (zh) | 一种专家合作可行性分析方法 | |
US20240005662A1 (en) | Surgical instrument recognition from surgical videos | |
CN117743593A (zh) | 基于知识图谱的设备在线辅助维修方法及系统 | |
KR20220105792A (ko) | 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템 | |
CN117033714A (zh) | 一种基于机器学习的非结构性数据采集技术 | |
CN113722431A (zh) | 命名实体关系识别方法、装置、电子设备及存储介质 | |
Saxena et al. | Insurance Data Analysis with COGNITO: An Auto Analysing and Storytelling Python Library | |
CN113673561A (zh) | 基于多模态的音乐标签自动分类方法、装置及介质 | |
CN115374687A (zh) | 数形结合的油井工况智能诊断方法 | |
Ho et al. | Uit at vbs 2022: An unified and interactive video retrieval system with temporal search | |
CN118587017B (zh) | 基于多模态生成式人工智能的大数据营销服务方法及系统 | |
CN115687632B (zh) | 一种刑事量刑情节分解分析的方法和系统 | |
JP2010198246A (ja) | 意味解析装置、方法、およびプログラム | |
CN112650906A (zh) | 基于大数据文本分析的互联网用户评论分析方法及系统 | |
CN117874265A (zh) | 一种基于大模型的复杂数据处理系统及方法 | |
Arshad et al. | Improving Sentiment Analysis of Social Media Captions Through Advancements in NLP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |