CN117033714A - 一种基于机器学习的非结构性数据采集技术 - Google Patents

一种基于机器学习的非结构性数据采集技术 Download PDF

Info

Publication number
CN117033714A
CN117033714A CN202311236832.9A CN202311236832A CN117033714A CN 117033714 A CN117033714 A CN 117033714A CN 202311236832 A CN202311236832 A CN 202311236832A CN 117033714 A CN117033714 A CN 117033714A
Authority
CN
China
Prior art keywords
data
machine learning
unstructured
unstructured data
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311236832.9A
Other languages
English (en)
Inventor
张开羽
李徵宁
霍世超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Yuyi Information Technology Co ltd
Original Assignee
Suzhou Yuyi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Yuyi Information Technology Co ltd filed Critical Suzhou Yuyi Information Technology Co ltd
Priority to CN202311236832.9A priority Critical patent/CN117033714A/zh
Publication of CN117033714A publication Critical patent/CN117033714A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于机器学习的非结构性数据采集技术,包括非结构性数据收集总库、预处理、特征工程、机器学习算法和数据应用库,通过设置向非结构性数据收集总库,用以实时收集获取到的各类数据,进行预处理和特征工程,对大数据中的杂质质量信息进行清理处理,便于从原始非结构化数据中提取的有意义的、可计算特征的数据,运用机器学习算法对数据进行分析任务,让非结构性数据能在基于机器学习的方法上被进行高效分析,提高数据采集分析的效率通过设置了数据应用库,使用者随时可以运用结果导向搜索,灵活的使用采集到的数据,数据也因此能被高效管理,而让使用者能更好地获取和分析复杂的非结构化数据。

Description

一种基于机器学习的非结构性数据采集技术
技术领域
本发明涉及数据采集处理技术相关领域,具体是一种基于机器学习的非结构性数据采集技术。
背景技术
随着大数据时代的到来,越来越多的数据被收集和储存,其中包括大量非结构化数据,非结构化数据在企业中有着广泛的应用场景,这类数据也是企业最重要的资产之一。
然而非结构化数据是没有明显的组织形式和关系、没有特定的格式或排序的各种类型的数据,其具有多样性、复杂性、规模性等问题,由于非结构化数据缺乏明确的组织形式和关系,因此对其进行高效的管理变得异常困难,在这个信息化高速发展的时代,解决数据采集,方便数据管理尤其重要。
发明内容
因此,为了解决上述不足,本发明在此提供一种基于机器学习的非结构性数据采集技术。
本发明是这样实现的,构造一种基于机器学习的非结构性数据采集技术,该装置包括非结构性数据收集总库、预处理、特征工程、机器学习算法和数据应用库。
优选的,所述非结构性数据收集总库还包括数据获取和数据定义,所述数据获取可以用来实时输入资源信息,例如市场调研、新闻媒体、智能数据等数据。
优选的,所述预处理包括去除数据杂质、查重转换、降维和归一化,对海量的非结构性数据进行所述去除数据杂质和查重转换,相当于对数据质量进行清理处理,以消除不必要的信息和噪声,使得后续数据分析更为精简和精准。
优选的,所述特征工程包括类别区分、特征区分、特征冗余处理和特征提取向量化,所述类别区分可以将各类规整在一体的数据先一步进行整体分块,再根据不同分块里的数据特征进行所述特征区分,以便将重复或者无用的数据,更好的进行冗余处理,特征提取向量化可以从非结构性数据中提取有意义的、可计算的特征数据,以便后续可以使用计算学习法进行数据结构化处理。
优选的,所述机器学习算法包括聚类分析、回归方法、决策树方法、深度学习和支持向量机,所述聚类分析可用于图像和文本的相似性分析,以及音频和视频信号处理,所述回归方法可以用来分析非线性模型数据,所述决策树方法可用于分类不明确的数据,所述深度学习可用于语音识别、图像分类、自然语言处理,所述支持向量机可用于分类、回归以及离群值检测和异常检测等数据分析任务。
优选的,所述数据应用库包括结果导向搜索、结果可视化、终端数据应用,所述结果导向搜索能辅助使用者更快更高效的管理和使用数据,所述结果可视化可以将处理后的结构化数据结果,以视觉化的方式呈现出来,以帮助人们更好地理解数据。
本发明具有如下优点:本发明通过改进在此提供一种基于机器学习的非结构性数据采集技术,与同类型设备相比,具有如下改进:
本发明所述一种基于机器学习的非结构性数据采集技术,通过设置了向非结构性数据收集总库,用以实时收集获取到的各类数据。
本发明所述一种基于机器学习的非结构性数据采集技术,通过设置了预处理和特征工程,对大数据中的杂质质量信息进行清理处理,以消除不必要的信息,便于从原始非结构化数据中提取的有意义的、可计算特征的数据。
本发明所述一种基于机器学习的非结构性数据采集技术,通过设置了机器学习算法对数据进行分析任务,让非结构性数据能在基于机器学习的方法上被进行高效分析,提高数据采集分析的效率。
本发明所述一种基于机器学习的非结构性数据采集技术,通过设置了数据应用库,使用者随时可以运用结果导向搜索,灵活的使用采集到的数据,数据也因此能被高效管理,而让使用者能更好地获取和分析复杂的非结构化数据。
附图说明
图1是本发明基于机器学习的非结构性数据采集技术整体流程结构示意图;
图2是本发明预处理结构示意图;
图3是本发明特征工程结构示意图;
图4是本发明机器学习算法结构示意图;
图5是本发明数据应用库结构示意图。
其中:非结构性数据收集总库-c1、预处理-c2、特征工程-c3、机器学习算法-c4、数据应用库-c5、数据获取-c11、数据定义-c12、去除数据杂质-c21、查重转换-c22、降维-c23、归一化-c24、类别区分-c31、特征区分-c32、特征冗余处理-c33、特征提取向量化-c34、聚类分析-c41、回归方法-c42、决策树方法-c43、深度学习-c44、支持向量机-c45、结果导向搜索-c51、结果可视化-c51、终端数据应用-c53。
具体实施方式
下面将结合附图1-5对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明的一种基于机器学习的非结构性数据采集技术,包括非结构性数据收集总库c1、预处理c2、特征工程c3、机器学习算法c4和数据应用库c5,非结构性数据收集总库c1还包括数据获取c11和数据定义c12,数据获取c11可以用来实时输入资源信息,例如市场调研、新闻媒体、智能数据等数据。
请参阅图2,本发明的一种基于机器学习的非结构性数据采集技术,预处理c2包括去除数据杂质c21、查重转换c22、降维c23和归一化c24,对海量的非结构性数据进行去除数据杂质c21和查重转换c22,相当于对数据质量进行清理处理,以消除不必要的信息和噪声,使得后续数据分析更为精简和精准。
请参阅图3,本发明的一种基于机器学习的非结构性数据采集技术,特征工程c3包括类别区分c31、特征区分c32、特征冗余处理c33和特征提取向量化c34,类别区分c31可以将各类规整在一体的数据先一步进行整体分块,再根据不同分块里的数据特征进行特征区分c32,以便将重复或者无用的数据,更好的进行冗余处理,特征提取向量化c34可以从非结构性数据中提取有意义的、可计算的特征数据,以便后续可以使用计算学习法进行数据结构化处理。
请参阅图4,本发明的一种基于机器学习的非结构性数据采集技术,机器学习算法c4包括聚类分析c41、回归方法c42、决策树方法c43、深度学习c44和支持向量机c45,聚类分析c41可用于图像和文本的相似性分析,以及音频和视频信号处理,回归方法c42可以用来分析非线性模型数据,决策树方法c43可用于分类不明确的数据,深度学习c44可用于语音识别、图像分类、自然语言处理,支持向量机c45可用于分类、回归以及离群值检测和异常检测等数据分析任务。
请参阅图5,本发明的一种基于机器学习的非结构性数据采集技术,数据应用库c5包括结果导向搜索c51、结果可视化c52、终端数据应用c53,结果导向搜索c51能辅助使用者更快更高效的管理和使用数据,结果可视化c52可以将处理后的结构化数据结果,以视觉化的方式呈现出来,以帮助人们更好地理解数据。
本发明通过改进提供一种基于机器学习的非结构性数据采集技术,其工作原理如下;
第一,向非结构性数据收集总库c1中实时输入收集的数据,例如市场调研、新闻媒体、智能数据等数据,先将所有非结构数据进行获取后并集中成一个大整体,等待后续的处理;
第二,进行预处理c2和特征工程c3,由于非结构化数据包括图像、音频、社交媒体、文档文本等等,经常有许多的噪音、异常、文本中的语法和拼写错误等问题,需要先一步进行去除数据杂质c21和查重转换c22,进一步筛选后,再进行归一化c24,完成对数据的清理处理,以消除不必要的信息,继而将有关数据信息进行特征提取向量化c34,从原始非结构化数据中提取的有意义的、可计算的特征,使得后续进行数据分析的效率更高,且处理后的数据结果能更精简;
第三,利用机器学习算法c4对数据进行分析任务,对于图像和文本的相似性分析和分割处理,以及音频和视频信号处理,可以运用聚类分析c41进行处理,而例如价格预测、销售预测之类的数据,可以运用回归方法进行分析,此方法能确定如何改变输入变量来最小化预测误差和输出变量之间的差异,对于不明确的数据,则可以运用决策树方法c43,其可以通过对输入数据进行分支和划分,来预测输出数据并识别数据位置,深度学习c44是一种基于神经网络的计算方法,其可以从各类数据中识别类别并提取信息,运用支持向量机c45的学习方法,其能辅助数据在高维空间中创建一个超平面,因此来分离线性可分的数据,使得非结构性数据在基于机器学习上能被进行高效分析;
第四,最后采集分析得出的数据被储存于数据应用库c5中,且使用者随时可以运用结果导向搜索c51,灵活的使用数据,数据也因此能被高效管理,且数据能以静态的图表或动态的交互式应用程序,呈现在人员眼前,实现结果可视化c52,使得在终端数据应用c53处,使用者能更好地获取和分析复杂的非结构化数据。
本发明通过改进提供一种基于机器学习的非结构性数据采集技术,设置。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,并且本发明使用到的标准零件均可以从市场上购买,异形件根据说明书的和附图的记载均可以进行订制,各个零件的具体连接方式均采用现有技术中成熟的螺栓铆钉、焊接等常规手段,机械、零件和设备均采用现有技术中,常规的型号,加上电路连接采用现有技术中常规的连接方式,在此不再详述。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种基于机器学习的非结构性数据采集技术,其特征在于,包括:非结构性数据收集总库(c1)、预处理(c2)、特征工程(c3)、机器学习算法(c4)和数据应用库(c5),所述非结构性数据收集总库(c1)包括数据获取(c11)和数据定义(c12),所述非结构性数据收集总库(c1)用于对所有数据进行收纳集结,数据获取(c11)用来实时输入资源信息,数据定义(c12)用于对收集的数据及时进行定义。
2.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述预处理(c2)包括去除数据杂质(c21)、查重转换(c22)、降维(c23)和归一化(c24),所述数据杂质(c21)和查重转换(c22)用于对海量的非结构性数据进行数据质量筛选和清理处理,降维(c23)用来降低数据的维度,归一化(c24)使得数据更佳规整和可视化。
3.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述特征工程(c3)包括类别区分(c31)、特征区分(c32)、特征冗余处理(c33)和特征提取向量化(c34),所述类别区分(c31)用于将各类规整在一体的数据先一步进行整体分块,特征区分(c32)用于根据不同分块里的数据特征不同而进行区分,特征冗余处理(c33)用来将重复或者无用的数据处理掉,特征提取向量化(c34)用于从非结构性数据中提取有意义的、可计算的特征数据。
4.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述机器学习算法(c4)包括聚类分析(c41)、回归方法(c42)、决策树方法(c43)、深度学习(c44)和支持向量机(c45),所述聚类分析(c41)用于图像和文本的相似性分析,以及音频和视频信号处理,回归方法(c42)用来分析非线性模型数据,决策树方法(c43)用于分类不明确的数据,深度学习(c44)用于语音识别、图像分类、自然语言处理,支持向量机(c45)用于分类、回归以及离群值检测和异常检测等数据分析任务。
5.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述数据应用库(c5)包括结果导向搜索(c51)、结果可视化(c52)、终端数据应用(c53),所述结果导向搜索(c51)用于辅助使用者更快更高效的管理和使用数据,结果可视化(c52)用于将处理后的结构化数据结果,以视觉化的方式呈现出来,终端数据应用(c53)用于人们更好地理解复杂的非结构化数据。
6.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于,该数据采集技术包括以下步骤:
S1:向非结构性数据收集总库(c1)中实时输入收集的数据,将所有非结构数据进行获取后并集中成一个大整体,等待后续的处理;
S2:进行预处理(c2)和特征工程(c3),对所有数据先一步进行去除数据杂质(c21)和查重转换(c22),进一步筛选后,再进行归一化(c24),完成对数据的清理处理,将有关数据信息进行特征提取向量化(c34);
S3:利用机器学习算法(c4)对数据进行分析任务,运用聚类分析(c41)进行处理,对于不明确的数据,则可以运用决策树方法(c43),其可以通过对输入数据进行分支和划分,运用支持向量机(c45)的学习方法,其能辅助数据在高维空间中创建一个超平面,因此来分离线性可分的数据;
S4:最后采集分析得出的数据被储存于数据应用库(c5)中,使用者随时可以运用结果导向搜索(c51),灵活的使用数据,实现结果可视化(c52),使得在终端数据应用(c53)处,使用者能更好地获取和分析复杂的非结构化数据。
CN202311236832.9A 2023-09-25 2023-09-25 一种基于机器学习的非结构性数据采集技术 Pending CN117033714A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311236832.9A CN117033714A (zh) 2023-09-25 2023-09-25 一种基于机器学习的非结构性数据采集技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311236832.9A CN117033714A (zh) 2023-09-25 2023-09-25 一种基于机器学习的非结构性数据采集技术

Publications (1)

Publication Number Publication Date
CN117033714A true CN117033714A (zh) 2023-11-10

Family

ID=88626689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311236832.9A Pending CN117033714A (zh) 2023-09-25 2023-09-25 一种基于机器学习的非结构性数据采集技术

Country Status (1)

Country Link
CN (1) CN117033714A (zh)

Similar Documents

Publication Publication Date Title
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN112395424A (zh) 一种复杂产品质量问题追溯方法及系统
CN104298658B (zh) 获取搜索结果的方法和装置
CN105975491A (zh) 企业新闻分析方法及系统
CN114490344A (zh) 一种基于机器学习和静态分析的软件集成测评方法
CN106844638A (zh) 信息检索方法、装置及电子设备
CN108536673B (zh) 新闻事件抽取方法及装置
CN115758183A (zh) 日志异常检测模型的训练方法及装置
CN112100395B (zh) 一种专家合作可行性分析方法
US20240005662A1 (en) Surgical instrument recognition from surgical videos
CN117743593A (zh) 基于知识图谱的设备在线辅助维修方法及系统
KR20220105792A (ko) 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템
CN117033714A (zh) 一种基于机器学习的非结构性数据采集技术
CN113722431A (zh) 命名实体关系识别方法、装置、电子设备及存储介质
Saxena et al. Insurance Data Analysis with COGNITO: An Auto Analysing and Storytelling Python Library
CN113673561A (zh) 基于多模态的音乐标签自动分类方法、装置及介质
CN115374687A (zh) 数形结合的油井工况智能诊断方法
Ho et al. Uit at vbs 2022: An unified and interactive video retrieval system with temporal search
CN118587017B (zh) 基于多模态生成式人工智能的大数据营销服务方法及系统
CN115687632B (zh) 一种刑事量刑情节分解分析的方法和系统
JP2010198246A (ja) 意味解析装置、方法、およびプログラム
CN112650906A (zh) 基于大数据文本分析的互联网用户评论分析方法及系统
CN117874265A (zh) 一种基于大模型的复杂数据处理系统及方法
Arshad et al. Improving Sentiment Analysis of Social Media Captions Through Advancements in NLP

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication