CN111881182A - 一种基于多源异构特征的数据集概况测评方法 - Google Patents
一种基于多源异构特征的数据集概况测评方法 Download PDFInfo
- Publication number
- CN111881182A CN111881182A CN202010727742.XA CN202010727742A CN111881182A CN 111881182 A CN111881182 A CN 111881182A CN 202010727742 A CN202010727742 A CN 202010727742A CN 111881182 A CN111881182 A CN 111881182A
- Authority
- CN
- China
- Prior art keywords
- data
- dimensional
- data set
- source heterogeneous
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 238000010937 topological data analysis Methods 0.000 claims abstract description 5
- 230000009467 reduction Effects 0.000 claims abstract description 3
- 238000011160 research Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000019771 cognition Effects 0.000 claims description 2
- 238000004088 simulation Methods 0.000 claims description 2
- 238000007794 visualization technique Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims 2
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000007405 data analysis Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000012827 research and development Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于多源异构特征的数据集概况测评方法,包含多源异构数据集自动化特征处理模块和数据集概况测评报告生成模块。在多源异构数据集自动化特征处理模块,针对各种类型数据采用数据特征处理技术,自动化提取特征,最终生成统一化的结构化数据。在数据集概况测评报告生成模块,对前序数据处理后的数据概况通过多个指标展示,并以降维形式展示多维特征的数据拓扑图。采用拓扑分析方法将高维数据信息映射到低维空间上,方便用户直观定义高维数据。
Description
一种基于多源异构特征的数据集概况测评方法技术领域
本发明属于通用软件领域,特别是涉及到测评报告生成。对数据集完成数据处理与数据特征提取后,生成相应的数据集特征测评报告。
背景技术
当前人工智能发展的三大要素:数据、计算力和算法,数据集、计算力和算法是相辅相成、相互提升的,三者缺一不可。在学术界,数据集的意义更加直接:数据是基础,没有数据集,就无法展开相应的研究工作,任何研究都离不开数据。在这个机器学习盛行的时代,数据比算法更重要,很多算法得到的结果的质量完全取决于其和真实数据的拟合程度。如果没有足够的数据支撑、检验,设计算法几乎等于闭门造车。需要研究人员了解数据集的概况从而进行判断。
在数据科学中,视觉诊断是一种强大的但常常又被低估的工具。可视化不应该在数据管道的结尾处。当我们直接在原始数据集中看不到什么规律时,绘制图表可以帮助我们找到模型/模式。静态输出结果和表格数据不能使得模型/模式显现的地方,人类视觉分析能够洞察,并能获得健壮的程序和更好的数据产品。
数据开发人员与数据分析人员的需求有所差异,前者注重可理解,后者注重可视化。数据开发人员更希望了解数据集的概况,并对数据集初步探索。主要工作分为数据特征处理及数据分析两部分。并且更侧重于数据特征处理工作,对数据加以利用,数据分析部分要求较低。而数据分析人员则侧重分析统计,深度探索数据规律,对可视化分析技术要求较高。
目前市场上许多现有平台产品都是面向数据分析人员,仅提供可视化交互,缺少数据特征处理功能,对于数据科学家或算法工程师并不友好。并且对于许多初学者来说,处理数据集并不熟练,需要耗费大量时间。因此,我们希望研究一种辅助手段来帮助数据科学家或算法工程师,从而达到快速了解数据集概况,提高工作效率的目的。
在数据集概况理解方面,已经有一些研究者做了一些初步的工作,但是现有工作局限于已经处理完成的数据特征,没有系统完整解决数据处理工作耗费大量时间的问题,同时目前针对多源异构数据集的数据特征处理没有较好的解决办法。
基于上述工作,本发明挖掘多源异构数据集的特征信息,形成数据集概况测评报告。快速了解数据集的概况是数据挖掘人员及数据研发人员的迫切需求。然而数据特征处理部分占了整个研发工作的大量时间,想要自动化对多源异构数据集进行数据特征处理提取统计是需要进一步技术处理工作的。因此,本发明基于这些已有的研究成果,针对多源异构数据集的数据处理进行总结,修改,并添加新的技术方法,结合数据质量评估方法,从而自动化生成数据集概况测评报告。
发明内容
本发明要解决的问题是:信息时代下,数据存储方式和表现形态各异,数据来源差异较大,不同场景对数据的质量要求不一致,难以通过统一模型的客观计算就完成数据分析。在数据研发过程中,开发人员往往会在数据处理环节浪费大量时间。另外,手动对数据集完成特征处理、特征提取并分别对多个维度进行数据分析统计,需要数据开发人员的代码能力达到一定水平,且耗费大量时间,对初学者并不友好。我们的发明能够一键自动化解析数据集并生成数据集概况测评报告,解决初学者窘境,提高研发人员工作效率。
本发明的技术方案为:一种基于多源异构特征的数据集概况测评报告自动生成的方法,齐特征是能够根据一份数据集生成一份可靠的概况测评报告。该生成方法包含以下两个模块/步骤:
1)多源异构数据集自动化特征处理模块:针对异构数据,即结构化数据、半结构化/非结构化数据分别提供解决处理办法,同时对多源数据采取接口化处理以期得到一致性数据。针对各种类型数据采用数据特征处理技术,自动化提取特征,最终生成统一化的结构化数据。
2)数据集概况测评报告生成模块:本部分主要负责对前序数据处理后的数据概况通过多个指标
展示,并以降维形式展示多维特征的数据拓扑图。选取定义多个指标,为用户建立对该数据集的初步认知。高维数据目前已经成为了计算机领域的研究热点,所谓高维数据是指每一个样本数据包含p (p≥4)维空间特征。人类对于数据的理解主要集中在低维度的空间表示上,如果单从高维数据的抽象数据值上进行分析很难得到有用的信息。相对于对数据的高维模拟,低维空间的可视化技术显得更简单直接。而且高维空间包含的元素相对于低维空间来说更加更复杂,易造成人们分析混乱。因此,本研究中拟采用拓扑分析方法将高维数据信息映射到低维空间上,方便用户直观定义高维数据。
本发明的特点在于:
1.首次提出一键自动化生成数据集概况测评报告。
2.在数据挖掘领域首次提出对多源异构数据集进行自动化特征处理。
3.首次提出一系列数据集概况测评指标。
附图说明
图1为本发明实施总流程图。
图2为关键步骤1流程图。图3为关键步骤2流程图。
具体实施方式
以下通过特定的具体的实例说明本发明的实施方式,本领域的技术人员可由本说明书揭露的内容轻易地了解到本发明的其他优点和功效。
本专利通过python来实施数据集概况测评报告自动生成,主要采用了特征处理技术,涉及到的具体关键技术有word2vec技术、TF-IDF技术、数据拓扑分析技术等。
1、文本特征提取
本发明中,将训练数据集中每一份报告中的词映射到一个向量,以判断其出现的频次,从而生成一个关键词库。并采用TF-IDF技术来判断要素的重要性,从而在报告生成模块中生成最终的准确描述缺陷的缺陷报告。TF-IDF技术是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(InverseDocument Frequency)。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
2、通用特征选择
本发明中采用自动化特征工程方法,从一组相关数据表中自动提取有用且有意义的特征,改进了传统手工特征工程的标准流程,减少了特征工程所花费的时间,还创建了可解释的特征,一定程度上避免维度灾难。
3、数据拓扑分析
本发明中采用拓扑分析方法将高维数据信息映射到低维空间上,每个多维结构数据集生成一张多维数据拓扑分析图。
4、概况测评指标
在本发明中,我们针对多源异构特性的数据集本身,根据数据结构类型,参考数据质量评估技术,结合概率统计学知识,提出多套新指标。使用数据特征处理技术,最终形成结构化数据或提取数据特征要素,形成可解释的数据集概况测评报告。
Claims (4)
1.一种基于多源异构特征的数据集概况测评方法,其特征是针对多源异构数据集,实施自动化特征处理;以测试对前序数据处理后的数据概况通过多个指标展示;并以降维形式展示多维特征的数据拓扑图。
2.根据权利要求1所描述的针对多源异构数据集,实施自动化特征处理,其特征是:针对异构数据,即结构化数据、半结构化/非结构化数据分别提供解决处理办法,同时对多源数据采取接口化处理以期得到一致性数据。针对各种类型数据采用数据特征处理技术,自动化提取特征,最终生成统一化的结构化数据。
3.根据权利要求1所描述的以测试对前序数据处理后的数据概况通过多个指标展示,其特征是:选取定义多个指标,为用户建立对该数据集的初步认知。高维数据目前已经成为了计算机领域的研究热点,所谓高维数据是指每一个样本数据包含p(p≥4)维空间特征。
4.根据权利要求1所描述的以降维形式展示多维特征的数据拓扑图,其特征是:相对于对数据的高维模拟,低维空间的可视化技术显得更简单直接。而且高维空间包含的元素相对于低维空间来说更加更复杂,易造成人们分析混乱。因此,本研究中拟采用拓扑分析方法将高维数据信息映射到低维空间上,方便用户直观定义高维数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727742.XA CN111881182A (zh) | 2020-07-23 | 2020-07-23 | 一种基于多源异构特征的数据集概况测评方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727742.XA CN111881182A (zh) | 2020-07-23 | 2020-07-23 | 一种基于多源异构特征的数据集概况测评方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111881182A true CN111881182A (zh) | 2020-11-03 |
Family
ID=73200260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010727742.XA Pending CN111881182A (zh) | 2020-07-23 | 2020-07-23 | 一种基于多源异构特征的数据集概况测评方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881182A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989827A (zh) * | 2021-05-20 | 2021-06-18 | 江苏数兑科技有限公司 | 一种基于多源异构特征的文本数据集质量评估方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2199588A1 (en) * | 1997-03-10 | 1998-09-10 | Efrem Hoffman | Hierarchical data matrix pattern recognition and identification system |
CN108460087A (zh) * | 2018-01-22 | 2018-08-28 | 北京邮电大学 | 探索式高维数据可视化装置及方法 |
CN109063752A (zh) * | 2018-07-17 | 2018-12-21 | 华北水利水电大学 | 基于神经网络的多源高维多尺度实时数据流的分拣方法 |
CN109947737A (zh) * | 2017-12-01 | 2019-06-28 | 广州明领基因科技有限公司 | 针对多源异构数据的多维决策分析及可视化系统 |
CN110770753A (zh) * | 2019-03-15 | 2020-02-07 | 香港应用科技研究院有限公司 | 高维数据实时分析的装置和方法 |
CN111340108A (zh) * | 2020-02-25 | 2020-06-26 | 重庆邮电大学 | 一种基于最优传输理论的高维数据可视化方法 |
-
2020
- 2020-07-23 CN CN202010727742.XA patent/CN111881182A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2199588A1 (en) * | 1997-03-10 | 1998-09-10 | Efrem Hoffman | Hierarchical data matrix pattern recognition and identification system |
CN109947737A (zh) * | 2017-12-01 | 2019-06-28 | 广州明领基因科技有限公司 | 针对多源异构数据的多维决策分析及可视化系统 |
CN108460087A (zh) * | 2018-01-22 | 2018-08-28 | 北京邮电大学 | 探索式高维数据可视化装置及方法 |
CN109063752A (zh) * | 2018-07-17 | 2018-12-21 | 华北水利水电大学 | 基于神经网络的多源高维多尺度实时数据流的分拣方法 |
CN110770753A (zh) * | 2019-03-15 | 2020-02-07 | 香港应用科技研究院有限公司 | 高维数据实时分析的装置和方法 |
CN111340108A (zh) * | 2020-02-25 | 2020-06-26 | 重庆邮电大学 | 一种基于最优传输理论的高维数据可视化方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989827A (zh) * | 2021-05-20 | 2021-06-18 | 江苏数兑科技有限公司 | 一种基于多源异构特征的文本数据集质量评估方法 |
CN112989827B (zh) * | 2021-05-20 | 2021-08-27 | 江苏数兑科技有限公司 | 一种基于多源异构特征的文本数据集质量评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444351A (zh) | 一种行业工艺领域知识图谱构建方法及装置 | |
CN108304382B (zh) | 基于制造过程文本数据挖掘的质量分析方法与系统 | |
CN111914534B (zh) | 构建知识图谱语义映射方法及系统 | |
CN113779272A (zh) | 基于知识图谱的数据处理方法、装置、设备及存储介质 | |
CN112100397A (zh) | 基于双向门控循环单元的电力预案知识图谱构建方法及系统 | |
CN113656805B (zh) | 一种面向多源漏洞信息的事件图谱自动构建方法及系统 | |
CN111125300A (zh) | 一种基于知识图谱信息数据智能分析系统 | |
CN113742396B (zh) | 一种对象学习行为模式的挖掘方法及装置 | |
CN115357678A (zh) | 一种基于结构化自然语言规则的gis自动审查方法与系统 | |
CN111881182A (zh) | 一种基于多源异构特征的数据集概况测评方法 | |
CN114328663A (zh) | 一种基于数据挖掘的高维剧场数据降维可视化处理方法 | |
CN113779785A (zh) | 一种数字孪生复杂装备解构模型及其解构方法 | |
CN117370568A (zh) | 一种基于预训练语言模型的电网主设备知识图谱补全方法 | |
Shao et al. | An improved approach to the recovery of traceability links between requirement documents and source codes based on latent semantic indexing | |
Hu et al. | A classification model of power operation inspection defect texts based on graph convolutional network | |
Yang et al. | Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies | |
CN112084332A (zh) | 一种基于深度双向语言文本处理网络的违章分类方法 | |
CN111475548A (zh) | 一种基于大数据挖掘技术的用电异常分析决策系统 | |
CN109492303A (zh) | 一种基于产品族脚本的推导规则自动生成方法 | |
Liu | RETRACTED: Research on the Application of Artificial Intelligence in Energy Science and Engineering Monitoring Software Engineering Technology under the Background of Big Data | |
Dai | Design and research of big data technology based on e-commerce platform | |
Zhang et al. | Predicting Relations in SG-CIM Model Based on Graph Structure and Semantic Information | |
CN114090790B (zh) | 一种人机友好的数据逻辑融合电力知识图谱及其构建方法 | |
Jing et al. | Research of oracle bone inscriptions ontology construction based on relational database | |
CN116629697B (zh) | 一种城市能源生态评价方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |