CN110457687A - 一种基于复合神经网络建模的数据挖掘与标注方法 - Google Patents

一种基于复合神经网络建模的数据挖掘与标注方法 Download PDF

Info

Publication number
CN110457687A
CN110457687A CN201910666134.XA CN201910666134A CN110457687A CN 110457687 A CN110457687 A CN 110457687A CN 201910666134 A CN201910666134 A CN 201910666134A CN 110457687 A CN110457687 A CN 110457687A
Authority
CN
China
Prior art keywords
data
neural network
annotation results
algorithm
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910666134.XA
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Useear Information Technology Co ltd
Original Assignee
Fujian Singularity Space-Time Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Singularity Space-Time Digital Technology Co Ltd filed Critical Fujian Singularity Space-Time Digital Technology Co Ltd
Priority to CN201910666134.XA priority Critical patent/CN110457687A/zh
Publication of CN110457687A publication Critical patent/CN110457687A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于复合神经网络建模的数据挖掘方法,包括以下步骤:对复合神经网络建模的数据进行清洗和选择;将清洗和选择处理后的数据进行转换和预处理;将预处理后的数值数据进行数据集管理;确定S3中的数据集中的神经网络类型、算法并训练神经网络;从训练好的神经网络中提取规则,提取规则采用搜索算法提取规则;对提取的规则进行评估。本发明提出提高神经网络对数据库进行挖掘时的效率和提高了输出的结果的标注质量。

Description

一种基于复合神经网络建模的数据挖掘与标注方法
技术领域
本发明涉及领域,尤其涉及一种基于复合神经网络建模的数据挖掘与标注方法。
背景技术
人工智能发展到今天,数据的作用被越来越凸显出来。训练好一个神经网络模型,通常需要上百万甚至上亿量级的数据。数据的标注周期和成本直接影响了一个人工智能公司的行业竞争力。
神经网络为解决复杂问题提供了一种相对来说比较有效的简单方法。神经网络具有良好的鲁棒性、自组织、自适应、自学习、并行处理、分布存储和高度容错等特性,能根据新的输入数据自适应调整网络参数。而且神经网络对噪声数据具有较强承受能力,对数据分类准确性高,以及可用各种算法进行规则提取。更重要的是神经网络很容易在并行计算机上实现,可以把它的节点分配到不同的CPU上并行计算。因此,可以借助神经网络来进行数据挖掘。但是在利用神经网络进行数据挖掘过程中,神经网络学习算法不能保证收敛到最理想的结果;神经网络很容易过度训练,从而导致在训练数据上工作地很好,而在检验数据上表现欠佳。而且神经网络的学习时间长短影响其在数据挖掘中的应用,网络的训练时间长短与问题的规模、网络的复杂性以及训练算法相关。此外,如何降低标注数据的标注成本,提高标注的效率和质量,是本技术领域亟需解决的技术问题,为解决上述问题,本申请中提出一种基于复合神经网络建模的数据挖掘与标注方法。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于复合神经网络建模的数据挖掘与标注方法,提高神经网络对数据库进行挖掘时的效率和提高了输出的结果的标注质量。
(二)技术方案
为解决上述问题,本发明提出了一种基于复合神经网络建模的数据挖掘方法,包括以下步骤:
S1、对复合神经网络建模的数据进行清洗和选择;并根据目标和需要进行清洗和选择,剔除不需要的数据;
S2、将清洗和选择处理后的数据进行转换和预处理;将文本数据转换为数值数据进行处理,再对数值型数据采用归一化方法进行预处理;
S3、将预处理后的数值数据进行数据集管理;将预处理后的数值数据随机地分成三个数据集:训练数据集、测试数据集和确认数据集,训练数据集用于训练神经网络,测试数据集用与测试网络的精度,确认数据集用于独立地测试网络;
S4、确定S3中的数据集中的神经网络类型、算法并训练神经网络;神经网络类型采用三层前馈RBF神经网络;
S5、神经网络网络训练结束以后,从训练好的神经网络中提取规则,提取规则采用搜索算法提取规则;
S6、对提取的规则进行评估,对被提取规则用的测试数据集和确认数据集进行测试,验证神经网络数据挖掘的正确性。
优选的,算法采用粗糙集算法训练该神经网络,神经网络输入、输出节点的数目由系统的决策决定,神经网络的输出由模糊推理系统推出正则化输出,隐含层节点的数目由粗糙集算法决定。
优选的,还包括数据标注;数据标注包括以下步骤:
S31、获取待标注的原始数据;
S32、使用整合的算法,对所述原始数据进行分类;
S33、获取数据标注结果,使用整合的算法,对数据标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;具体地,根据历史标注数据库和对比规则,对数据标注结果进行分析,并获取低质量标注结果并标记;
S34、输出经过自动化审核的数据标注结果,数据标注结果中包括数据标注结果和问题标注结果。
优选的,整合算法至少包括聚类算法和标注规则模板。
优选的,对比规则包括相似度对比、聚类分析和有效性检验中的至少一种。
优选的,S32中,筛选问题标准结果的原则是通过判断数据标注结果是否符合人工标注意图所对应的匹配模板,若不匹配,则标记为错误标注结果。
本发明的上述技术方案具有如下有益的技术效果:可以对进行分析、处理、推理、预测,最终根据用户设定的条件,实现最优方案,采用粗糙集算法训练复合神经网络,使复合神经网络在满足精度要求的前提下,减少隐层节点数,从而简化网络结构,加快神经网络的学习速度。以进一步提高神经网络对数据库进行挖掘时的效率,另外,本发明提出的标注方法可以对数据标注结果进行审核,这样就从所有的数据标注结果中找出可能存在问题的问题标注结果,并且将这些问题标注结果标记起来,这样就可以方便对问题标注结果进行审核和修改,极大的方便了找出有问题的标注结果,提高了输出的结果的标注质量。
附图说明
图1为本发明提出的一种基于复合神经网络建模的数据挖掘与标注方法中数据挖掘方法的流程框图。
图2为本发明提出的一种基于复合神经网络建模的数据挖掘与标注方法中数据标注方法的流程框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
实施例1
如图1和图2所示,本发明提出的一种基于复合神经网络建模的数据挖掘方法,包括以下步骤:
S1、对复合神经网络建模的数据进行清洗和选择;并根据目标和需要进行清洗和选择,剔除不需要的数据;
S2、将清洗和选择处理后的数据进行转换和预处理;将文本数据转换为数值数据进行处理,再对数值型数据采用归一化方法进行预处理;
S3、将预处理后的数值数据进行数据集管理;将预处理后的数值数据随机地分成三个数据集:训练数据集、测试数据集和确认数据集,训练数据集用于训练神经网络,测试数据集用与测试网络的精度,确认数据集用于独立地测试网络;
S4、确定S3中的数据集中的神经网络类型、算法并训练神经网络;神经网络类型采用三层前馈RBF神经网络;
S5、神经网络网络训练结束以后,从训练好的神经网络中提取规则,提取规则采用搜索算法提取规则;
S6、对提取的规则进行评估,对被提取规则用的测试数据集和确认数据集进行测试,验证神经网络数据挖掘的正确性。
在一个可选的实施例中,算法采用粗糙集算法训练该神经网络,神经网络输入、输出节点的数目由系统的决策决定,神经网络的输出由模糊推理系统推出正则化输出,隐含层节点的数目由粗糙集算法决定。
实施例2
根据上述一种基于复合神经网络建模的数据挖掘方法,还包括数据标注,数据标注包括以下步骤:
S31、获取待标注的原始数据;
S32、使用整合的算法,对所述原始数据进行分类;
S33、获取数据标注结果,使用整合的算法,对数据标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;具体地,根据历史标注数据库和对比规则,对数据标注结果进行分析,并获取低质量标注结果并标记;
S34、输出经过自动化审核的数据标注结果,数据标注结果中包括数据标注结果和问题标注结果。
在一个可选的实施例中,整合算法至少包括聚类算法和标注规则模板。
在一个可选的实施例中,对比规则包括相似度对比、聚类分析和有效性检验中的至少一种。
在一个可选的实施例中,S32中,筛选问题标准结果的原则是通过判断数据标注结果是否符合人工标注意图所对应的匹配模板,若不匹配,则标记为错误标注结果。
本发明中,可以对进行分析、处理、推理、预测,最终根据用户设定的条件,实现最优方案,采用粗糙集算法训练复合神经网络,使复合神经网络在满足精度要求的前提下,减少隐层节点数,从而简化网络结构,加快神经网络的学习速度。以进一步提高神经网络对数据库进行挖掘时的效率,另外,本发明提出可以对数据标注结果进行审核,这样就从所有的数据标注结果中找出可能存在问题的问题标注结果,并且将这些问题标注结果标记起来,这样就可以方便对问题标注结果进行审核和修改,极大的方便了找出有问题的标注结果,提高了输出的结果的标注质量。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (6)

1.一种基于复合神经网络建模的数据挖掘方法,其特征在于,包括以下步骤:
S1、对复合神经网络建模的数据进行清洗和选择;并根据目标和需要进行清洗和选择,剔除不需要的数据;
S2、将清洗和选择处理后的数据进行转换和预处理;将文本数据转换为数值数据进行处理,再对数值型数据采用归一化方法进行预处理;
S3、将预处理后的数值数据进行数据集管理;将预处理后的数值数据随机地分成三个数据集:训练数据集、测试数据集和确认数据集,训练数据集用于训练神经网络,测试数据集用与测试网络的精度,确认数据集用于独立地测试网络;
S4、确定S3中的数据集中的神经网络类型、算法并训练神经网络;神经网络类型采用三层前馈RBF神经网络;
S5、神经网络网络训练结束以后,从训练好的神经网络中提取规则,提取规则采用搜索算法提取规则;
S6、对提取的规则进行评估,对被提取规则用的测试数据集和确认数据集进行测试,验证神经网络数据挖掘的正确性。
2.根据权利要求1所述的基于复合神经网络建模的数据挖掘方法,其特征在于,算法采用粗糙集算法训练该神经网络,神经网络输入、输出节点的数目由系统的决策决定,神经网络的输出由模糊推理系统推出正则化输出,隐含层节点的数目由粗糙集算法决定。
3.根据权利要求1-2任一项所述的基于复合神经网络建模的数据挖掘方法,其特征在于,还包括数据标注;数据标注包括以下步骤:
S31、获取待标注的原始数据;
S32、使用整合的算法,对所述原始数据进行分类;
S33、获取数据标注结果,使用整合的算法,对数据标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;具体地,根据历史标注数据库和对比规则,对数据标注结果进行分析,并获取低质量标注结果并标记;
S34、输出经过自动化审核的数据标注结果,数据标注结果中包括数据标注结果和问题标注结果。
4.根据权利要求3所述的基于复合神经网络建模的数据挖掘方法,其特征在于,整合算法至少包括聚类算法和标注规则模板。
5.根据权利要求3所述的基于复合神经网络建模的数据挖掘方法,其特征在于,对比规则包括相似度对比、聚类分析和有效性检验中的至少一种。
6.根据权利要求3所述的基于复合神经网络建模的数据挖掘方法,其特征在于,S32中,筛选问题标准结果的原则是通过判断数据标注结果是否符合人工标注意图所对应的匹配模板,若不匹配,则标记为错误标注结果。
CN201910666134.XA 2019-07-23 2019-07-23 一种基于复合神经网络建模的数据挖掘与标注方法 Pending CN110457687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910666134.XA CN110457687A (zh) 2019-07-23 2019-07-23 一种基于复合神经网络建模的数据挖掘与标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910666134.XA CN110457687A (zh) 2019-07-23 2019-07-23 一种基于复合神经网络建模的数据挖掘与标注方法

Publications (1)

Publication Number Publication Date
CN110457687A true CN110457687A (zh) 2019-11-15

Family

ID=68483060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910666134.XA Pending CN110457687A (zh) 2019-07-23 2019-07-23 一种基于复合神经网络建模的数据挖掘与标注方法

Country Status (1)

Country Link
CN (1) CN110457687A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111093123A (zh) * 2019-12-09 2020-05-01 华中科技大学 一种基于复合神经网络的灵活光网络时域均衡方法及系统
CN113537942A (zh) * 2021-07-28 2021-10-22 深圳供电局有限公司 一种提高样本标记数量的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022614A (zh) * 2016-05-22 2016-10-12 广州供电局有限公司 一种基于最近邻聚类的神经网络数据挖掘方法
CN106489149A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN108805258A (zh) * 2018-05-23 2018-11-13 北京图森未来科技有限公司 一种神经网络训练方法及其装置、计算机服务器
CN109241997A (zh) * 2018-08-03 2019-01-18 硕橙(厦门)科技有限公司 一种生成训练集的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022614A (zh) * 2016-05-22 2016-10-12 广州供电局有限公司 一种基于最近邻聚类的神经网络数据挖掘方法
CN106489149A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN108805258A (zh) * 2018-05-23 2018-11-13 北京图森未来科技有限公司 一种神经网络训练方法及其装置、计算机服务器
CN109241997A (zh) * 2018-08-03 2019-01-18 硕橙(厦门)科技有限公司 一种生成训练集的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111093123A (zh) * 2019-12-09 2020-05-01 华中科技大学 一种基于复合神经网络的灵活光网络时域均衡方法及系统
CN111093123B (zh) * 2019-12-09 2020-12-18 华中科技大学 一种基于复合神经网络的灵活光网络时域均衡方法及系统
CN113537942A (zh) * 2021-07-28 2021-10-22 深圳供电局有限公司 一种提高样本标记数量的方法及系统

Similar Documents

Publication Publication Date Title
JP6208552B2 (ja) 識別器、識別プログラム、及び識別方法
CN110213222A (zh) 基于机器学习的网络入侵检测方法
Vagin et al. Problem of knowledge discovery in noisy databases
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN112560596B (zh) 一种雷达干扰类别识别方法及系统
CN111292195A (zh) 风险账户的识别方法及装置
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN114120041B (zh) 一种基于双对抗变分自编码器的小样本分类方法
CN111126820A (zh) 反窃电方法及系统
CN113221960B (zh) 一种高质量漏洞数据收集模型的构建方法及收集方法
CN110457687A (zh) 一种基于复合神经网络建模的数据挖掘与标注方法
CN108268460A (zh) 一种基于大数据的自动选择最优模型的方法
CN113268370A (zh) 一种根因告警分析方法、系统、设备及存储介质
CN109409434A (zh) 基于随机森林的肝脏疾病数据分类规则提取的方法
Segura-Muros et al. Learning numerical action models from noisy and partially observable states by means of inductive rule learning techniques
CN110716957B (zh) 类案可疑对象智能挖掘分析方法
Mittal et al. A COMPARATIVE STUDY OF ASSOCIATION RULE MINING TECHNIQUES AND PREDICTIVE MINING APPROACHES FOR ASSOCIATION CLASSIFICATION.
CN104850862B (zh) 一种基于单位代价收益敏感决策树的分类方法
CN106934373A (zh) 一种图书馆图书损坏评定方法及系统
CN117692242A (zh) 一种基于图谱分析的网络攻击路径分析方法
CN113742396A (zh) 一种对象学习行为模式的挖掘方法及装置
CN117273516A (zh) 一种基于注意力机制神经网络的绩效评估方法
CN117350364A (zh) 基于知识蒸馏的代码预训练模型对抗样本生成方法及系统
CN106530109A (zh) 一种基于信息价值的油田开发评价井决策方法
CN112465253B (zh) 一种城市路网中的链路预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220908

Address after: 361000 units 1702 and 1703, No. 59, Chengyi North Street, phase III, software park, Xiamen, Fujian

Applicant after: XIAMEN USEEAR INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Unit 1701, unit 1704, No. 59, Chengyi North Street, phase III, software park, Xiamen City, Fujian Province, 361000

Applicant before: FUJIAN QIDIAN SPACE-TIME DIGITAL TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115