CN109597901B - 一种基于生物数据的数据分析方法 - Google Patents

一种基于生物数据的数据分析方法 Download PDF

Info

Publication number
CN109597901B
CN109597901B CN201811360788.1A CN201811360788A CN109597901B CN 109597901 B CN109597901 B CN 109597901B CN 201811360788 A CN201811360788 A CN 201811360788A CN 109597901 B CN109597901 B CN 109597901B
Authority
CN
China
Prior art keywords
data
database
training
biological data
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811360788.1A
Other languages
English (en)
Other versions
CN109597901A (zh
Inventor
黄海辉
戴经国
梁勇
陈燕琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Totem Technology Hefei Co ltd
Wuhan Yuanwei Technology Co.,Ltd.
Original Assignee
Shaoguan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaoguan University filed Critical Shaoguan University
Priority to CN201811360788.1A priority Critical patent/CN109597901B/zh
Publication of CN109597901A publication Critical patent/CN109597901A/zh
Application granted granted Critical
Publication of CN109597901B publication Critical patent/CN109597901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Abstract

本发明公开了一种基于生物数据的数据分析方法,包括:获取生物数据,建立样本数据库;对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库;提取所述聚类库中的数据建立高维模型;将需要进行实验的生物数据通过高维模型进行过滤,获得可行数据;本发明通过对生物数据进行聚类处理,结合数据模型剔除错误的生物数据,解决现有技术中不能在海量数据中智能提取所需生物数据,并不能剔除错误数据的技术问题,从而使得可以在海量大数据中智能提取所需的生物数据,并能剔除错误数据,提高实验成功率;对生物数据进行聚类处理,能从海量数据中快速查找出所需数据的所在类群,提高工作效率。

Description

一种基于生物数据的数据分析方法
技术领域
本发明涉及数据分析领域,尤其涉及一种基于生物数据的数据分析方法。
背景技术
在对生物研究中,需要对生物数据进行实验处理,但由于生物数据的量非常大,我们往往在海量大数据中寻找符合实验要求的生物数据,这样会极大地降低工作效率,影响实验进度;再加上海量数据的复杂性,还会存在提取到错误数据的可能性,影响实验结果。
正因如此,目前极需一种可以在海量大数据中智能提取所需的生物数据,并能剔除错误数据的分析处理方法。
发明内容
本发明提供了一种基于生物数据的数据分析方法,以解决现有技术中不能在海量数据中智能提取所需生物数据,并不能剔除错误数据的技术问题,从而使得可以在海量大数据中智能提取所需的生物数据,并能剔除错误数据,进而实现提高工作效率和实验成功率。
为了解决上述技术问题,本发明实施例提供了一种基于生物数据的数据分析方法,包括:
获取生物数据,建立样本数据库;
对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库;
提取所述聚类库中的数据建立高维模型;
将需要进行实验的生物数据通过高维模型进行过滤,获得可行数据。
作为优选方案,所述对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库,包括:
提取所述样本数据库中的生物数据,使用统计方法将各个生物数据进行分析提取概念关键词;
利用层次聚类算法计算所述概念词之间的相似度,使之聚成一类,形成具有等级关系的聚类;
建立聚类库,将形成的所有聚类储存在聚类库中。
作为优选方案,所述统计方法包括:串频统计方法和信息熵统计方法。
作为优选方案,所述利用层次聚类算法计算所述概念词之间的相似度,使之聚成一类,形成具有等级关系的聚类,包括:
将提取出来的每一个概念关键词单独列成一个类;
利用相似度算法计算类与类之间的相似度;
将计算出相似度大的类合并成一个聚类,直到所有单独列成的类完成合并;
对已经完成合并的聚类继续执行上述步骤,继续进行聚类间合并,直至形成一个具有等级关系的聚类。
作为优选方案,所述相似度算法包括Dice系数和皮尔逊相关性公式。
作为优选方案,所述提取所述聚类库中的数据建立高维模型,包括:
建立训练数据库和测试数据库,将聚类库中的数据分别储存到所述训练数据库和所述测试数据库;
建立高维模型,将所述训练数据库中数据传输到高维模型中进行训练;
数据训练完成后,将所述测试数据库中数据传输到高维模型中进行测试,获得经过优化处理后的高维模型。
作为优选方案,所述将所述训练数据库中数据传输到高维模型中进行训练,还包括:当训练的次数达到训练阈值或训练的准确度达到预设的训练准确值后,停止训练;所述将所述测试数据库中数据传输到高维模型中进行测试,还包括:当测试的次数达到测试阈值或测试的准确度达到预设的测试准确值后,停止测试。
作为优选方案,所述训练阈值为20万次,所述训练准确值为90%;所述测试阈值为20万次,所述测试准确值为90%。
作为优选方案,所述基于生物数据的数据分析方法,还包括:建立数据格式池,将生物数据通过所述格式池进行过滤,剔除错误格式的生物数据。
作为优选方案,所述数据格式池包括数字格式、图片格式、字符格式和算法字符。
相比于现有技术,本发明实施例具有如下有益效果:
通过对生物数据进行聚类处理,结合数据模型剔除错误的生物数据,解决现有技术中不能在海量数据中智能提取所需生物数据,并不能剔除错误数据的技术问题,从而使得可以在海量大数据中智能提取所需的生物数据,并能剔除错误数据,提高实验成功率;对生物数据进行聚类处理,能从海量数据中快速查找出所需数据的所在类群,提高工作效率。
附图说明
图1:为本发明方法实施例中的步骤流程示意图;
图2:为本发明方法实施例中的步骤S2的具体流程示意图;
图3:为本发明方法实施例中的步骤S22的具体流程示意图;
图4:为本发明方法实施例中的步骤S3的具体流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,本发明优选实施例提供了一种基于生物数据的数据分析方法,包括:
S1,获取生物数据,建立样本数据库;
S2,对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库;
S3,提取所述聚类库中的数据建立高维模型;
S4,将需要进行实验的生物数据通过高维模型进行过滤,获得可行数据。
本实施例通过对生物数据进行聚类处理,结合数据模型剔除错误的生物数据,解决现有技术中不能在海量数据中智能提取所需生物数据,并不能剔除错误数据的技术问题,从而使得可以在海量大数据中智能提取所需的生物数据,并能剔除错误数据,进而实现提高工作效率和实验成功率。
请参照图2,在本实施例中,所述步骤S2对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库,包括:
S21,提取所述样本数据库中的生物数据,使用统计方法将各个生物数据进行分析提取概念关键词;
S22,利用层次聚类算法计算所述概念词之间的相似度,使之聚成一类,形成具有等级关系的聚类;
S23,建立聚类库,将形成的所有聚类储存在聚类库中。
在本实施例中,所述统计方法包括:串频统计方法和信息熵统计方法。
串频(Frequency):被称为常用的一种统计方法,是通过词出现的频度并统计以抽取术语,实现起来直接、简单。尤其是那些固定的生物高维数据,通过出现频率来抽取,效果非常好。同时,如果配合一些数据过滤器,那么效果会更好。
信息熵(Entropy):
Figure BDA0001867284020000041
在实际的情况中,每种可能情况出现的概率并不是相同的,所以信息熵用来描述信息的不确定性,如果不确定性越高,那么信息熵越大,否则则越低。pi表示高维数据i出现的概率。越是确定的情况,不确定性越小,信息量越少,即计算出的熵就越小。
请参照图3,在本实施例中,所述步骤S22利用层次聚类算法计算所述概念词之间的相似度,使之聚成一类,形成具有等级关系的聚类,包括:
S221,将提取出来的每一个概念关键词单独列成一个类;
S222,利用相似度算法计算类与类之间的相似度;
S223,将计算出相似度大的类合并成一个聚类,直到所有单独列成的类完成合并;
S224,对已经完成合并的聚类继续执行上述步骤,继续进行聚类间合并,直至形成一个具有等级关系的聚类。
本技术方案采取基于生物数据的等级提取方法来确定概念间的层次关系,利用层次聚类算法生成等级关系。这种方法首先将每一个数据单独列成一个类,然后计算两两类之间的相似度,相似度大的聚成一类,以此内推,形成一个循环,最终形成一个具有等级关系的聚类图。该算法中有两个方面比较重要,第一个是关于相似度的算法问题,第二个是关于聚类的方法问题。对于相似度的算法,采用Dice系数、皮尔逊相关性公式等来计算。关于聚类的方法,我们求两个聚类簇里两类之间的距离的平均值作为两个聚类簇的相似度。即,将两个聚类里的所有类都进行相似度的计算,然后计算其平均值,该相似度的平均值即为两个聚类簇的距离。
在本实施例中,所述相似度算法包括Dice系数和皮尔逊相关性公式。
Dice系数算法:Dice(s1,s2)=2*comm(s1,s2)/(leng(s1)+leng(s2));
其中:comm(s1,s2)是s1、s2中相同字符的个数leng(s1),leng(s2)是字符串s1、s2的长度;Dice系数是一种集合相似度度量函数,与相似度指数相同,也被称为系数。
皮尔逊相关性公式:
Figure BDA0001867284020000051
其中:X、Y为两两相邻类集的特征数值;通过计算得出两两类集间的相似度,把相似度高的两两类集再融合成一类;进行循环。
请参照图4,在本实施例中,所述步骤S3提取所述聚类库中的数据建立高维模型,包括:
S31,建立训练数据库和测试数据库,将聚类库中的数据分别储存到所述训练数据库和所述测试数据库;
S32,建立高维模型,将所述训练数据库中数据传输到高维模型中进行训练;
S33,数据训练完成后,将所述测试数据库中数据传输到高维模型中进行测试,获得经过优化处理后的高维模型。
通过优化数据模型,提高错误数据的过滤率,减少错误数据,优化模型。
在本实施例中,所述将所述训练数据库中数据传输到高维模型中进行训练,还包括:当训练的次数达到训练阈值或训练的准确度达到预设的训练准确值后,停止训练;所述将所述测试数据库中数据传输到高维模型中进行测试,还包括:当测试的次数达到测试阈值或测试的准确度达到预设的测试准确值后,停止测试。设置阈值和准确值,能更好地把控优化数据模型的过程,防止过度优化或优化不足的情况出现。
在本实施例中,所述训练阈值为20万次,所述训练准确值为90%;所述测试阈值为20万次,所述测试准确值为90%。
在本实施例中,所述基于生物数据的数据分析方法,还包括:建立数据格式池,将生物数据通过所述格式池进行过滤,剔除错误格式的生物数据。
通过过滤数据的错误格式,降低高维数据的复杂性,使数据处理更优化。
在本实施例中,所述数据格式池包括数字格式、图片格式、字符格式和算法字符。能过滤多种错误数据的格式问题,提高优化能力。
本发明通过对生物数据进行聚类处理,结合数据模型剔除错误的生物数据,解决现有技术中不能在海量数据中智能提取所需生物数据,并不能剔除错误数据的技术问题,从而使得可以在海量大数据中智能提取所需的生物数据,并能剔除错误数据,提高实验成功率;对生物数据进行聚类处理,能从海量数据中快速查找出所需数据的所在类群,提高工作效率。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于生物数据的数据分析方法,其特征在于,包括:
建立数据格式池,将生物数据通过所述格式池进行过滤,剔除错误格式的生物数据;
获取生物数据,建立样本数据库;
对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库;
提取所述聚类库中的数据建立高维模型;
将需要进行实验的生物数据通过高维模型进行过滤,获得可行数据;
所述对所述样本数据库中的生物数据进行特征提取处理,形成属性不同的若干个聚类,建立聚类库,包括:
提取所述样本数据库中的生物数据,使用统计方法将各个生物数据进行分析提取概念关键词;
利用层次聚类算法计算所述概念词之间的相似度,使之聚成一类,形成具有等级关系的聚类;
建立聚类库,将形成的所有聚类储存在聚类库中。
2.如权利要求1所述的方法,其特征在于,所述统计方法包括:串频统计方法和信息熵统计方法。
3.如权利要求1所述的方法,其特征在于,所述利用层次聚类算法计算所述概念词之间的相似度,使之聚成一类,形成具有等级关系的聚类,包括:
将提取出来的每一个概念关键词单独列成一个类;
利用相似度算法计算类与类之间的相似度;
将计算出相似度大的类合并成一个聚类,直到所有单独列成的类完成合并;
对已经完成合并的聚类继续执行上述步骤,继续进行聚类间合并,直至形成一个具有等级关系的聚类。
4.如权利要求3所述的方法,其特征在于,所述相似度算法包括Dice系数和皮尔逊相关性公式。
5.如权利要求1所述的方法,其特征在于,所述提取所述聚类库中的数据建立高维模型,包括:
建立训练数据库和测试数据库,将聚类库中的数据分别储存到所述训练数据库和所述测试数据库;
建立高维模型,将所述训练数据库中数据传输到高维模型中进行训练;
数据训练完成后,将所述测试数据库中数据传输到高维模型中进行测试,获得经过优化处理后的高维模型。
6.如权利要求5所述的方法,其特征在于,所述将所述训练数据库中数据传输到高维模型中进行训练,还包括:当训练的次数达到训练阈值或训练的准确度达到预设的训练准确值后,停止训练;所述将所述测试数据库中数据传输到高维模型中进行测试,还包括:当测试的次数达到测试阈值或测试的准确度达到预设的测试准确值后,停止测试。
7.如权利要求6所述的方法,其特征在于,所述训练阈值为20万次,所述训练准确值为90%;所述测试阈值为20万次,所述测试准确值为90%。
8.如权利要求1所述的方法,其特征在于,所述数据格式池包括数字格式、图片格式、字符格式和算法字符。
CN201811360788.1A 2018-11-15 2018-11-15 一种基于生物数据的数据分析方法 Active CN109597901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811360788.1A CN109597901B (zh) 2018-11-15 2018-11-15 一种基于生物数据的数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811360788.1A CN109597901B (zh) 2018-11-15 2018-11-15 一种基于生物数据的数据分析方法

Publications (2)

Publication Number Publication Date
CN109597901A CN109597901A (zh) 2019-04-09
CN109597901B true CN109597901B (zh) 2021-11-16

Family

ID=65957342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811360788.1A Active CN109597901B (zh) 2018-11-15 2018-11-15 一种基于生物数据的数据分析方法

Country Status (1)

Country Link
CN (1) CN109597901B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110226892B (zh) * 2019-05-23 2021-11-19 广东寰讯信息股份有限公司 一种基于图像识别技术的洗手液用量的智能控制方法
CN110200619A (zh) * 2019-06-06 2019-09-06 中山大学孙逸仙纪念医院 一种建立重大心血管疾病风险预警模型方法及装置
CN111324618A (zh) * 2020-02-18 2020-06-23 青岛农业大学 一种异地实时同步药用生物资源数据的系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388801A2 (en) * 2002-08-08 2004-02-11 Agilent Technologies, Inc. Methods and system for simultaneous visualization and manipulation of multiple data types
US7480640B1 (en) * 2003-12-16 2009-01-20 Quantum Leap Research, Inc. Automated method and system for generating models from data
CN105893483A (zh) * 2016-03-29 2016-08-24 天津贝德曼科技有限公司 大数据挖掘过程模型总体框架的构造方法
CN105956179A (zh) * 2016-05-30 2016-09-21 上海智臻智能网络科技股份有限公司 数据过滤方法及装置
CN107358297A (zh) * 2017-05-11 2017-11-17 国家电网公司 一种状态检测数据的快速索引方法
CN107451618A (zh) * 2017-08-10 2017-12-08 中国人民大学 一种密度峰值聚类算法的差分隐私保护方法
CN108460049A (zh) * 2017-02-21 2018-08-28 阿里巴巴集团控股有限公司 一种确定信息类别的方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012231B (zh) * 2010-11-03 2013-02-20 北京世纪高通科技有限公司 数据更新方法和装置
CN107195299A (zh) * 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置
CN105930900B (zh) * 2016-05-09 2018-02-27 华北电力大学 一种混合风力发电的预测方法及系统
CN107169988A (zh) * 2017-05-12 2017-09-15 江苏大学 一种基于余弦距离层次聚类的关键帧提取方法
CN107358300A (zh) * 2017-06-19 2017-11-17 北京至信普林科技有限公司 一种基于多平台自主预测的智能运维告警过滤方法及系统
CN107944480B (zh) * 2017-11-16 2020-11-24 广州探迹科技有限公司 一种企业行业分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388801A2 (en) * 2002-08-08 2004-02-11 Agilent Technologies, Inc. Methods and system for simultaneous visualization and manipulation of multiple data types
US7480640B1 (en) * 2003-12-16 2009-01-20 Quantum Leap Research, Inc. Automated method and system for generating models from data
CN105893483A (zh) * 2016-03-29 2016-08-24 天津贝德曼科技有限公司 大数据挖掘过程模型总体框架的构造方法
CN105956179A (zh) * 2016-05-30 2016-09-21 上海智臻智能网络科技股份有限公司 数据过滤方法及装置
CN108460049A (zh) * 2017-02-21 2018-08-28 阿里巴巴集团控股有限公司 一种确定信息类别的方法和系统
CN107358297A (zh) * 2017-05-11 2017-11-17 国家电网公司 一种状态检测数据的快速索引方法
CN107451618A (zh) * 2017-08-10 2017-12-08 中国人民大学 一种密度峰值聚类算法的差分隐私保护方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Collective dendrogram clustering with collaborative filtering for Distributed Data Mining on electronic health records;S. Urmela 等;《2017 Second International Conference on Electrical, Computer and Communication Technologies (ICECCT)》;20171123;1-5 *
机器学习在网络空间安全研究中的应用;张蕾 等;《计算机学报》;20180305;第41卷(第9期);1943-1975 *

Also Published As

Publication number Publication date
CN109597901A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN112699246B (zh) 基于知识图谱的领域知识推送方法
CN109597901B (zh) 一种基于生物数据的数据分析方法
CN107066555B (zh) 面向专业领域的在线主题检测方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN111798312A (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN110738053A (zh) 基于语义分析与监督学习模型的新闻主题推荐算法
CN106528527A (zh) 未登录词的识别方法及识别系统
CN105678244B (zh) 一种基于改进编辑距离的近似视频检索方法
CN109993070B (zh) 一种基于全局距离尺度损失函数的行人再识别方法
CN107133274B (zh) 一种基于图知识库的分布式信息检索集合选择方法
CN110413997B (zh) 针对电力行业的新词发现方法及其系统、可读存储介质
CN112329884A (zh) 基于判别性视觉属性的零样本识别方法及系统
CN103279581A (zh) 一种利用紧凑视频主题描述子进行视频检索的方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN116049450A (zh) 一种基于距离聚类的支持多模态的图文检索方法及装置
CN115909398A (zh) 一种基于特征增强的跨域行人再识别方法
CN112738724B (zh) 一种区域目标人群的精准识别方法、装置、设备和介质
CN112465054B (zh) 一种基于fcn的多变量时间序列数据分类方法
CN111160077A (zh) 一种大规模人脸动态聚类方法
CN114610941A (zh) 基于对比学习的文物图像检索系统
CN113435477A (zh) 一种提高计算机辅助预测应力性骨折系统预测性能的方法
CN112801014A (zh) 一种可兼容不同版本模型的特征对比识别方法
CN109299456B (zh) 一种地名识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230825

Address after: Room 06, 8th Floor, Building 2, Shenglong Plaza, Wuhan Economic and Technological Development Zone, Wuhan, Hubei Province, 430058 (Business Secretary XLQ-197)

Patentee after: Wuhan Yuanwei Technology Co.,Ltd.

Address before: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee before: Dragon totem Technology (Hefei) Co.,Ltd.

Effective date of registration: 20230825

Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Dragon totem Technology (Hefei) Co.,Ltd.

Address before: 512005 No. 288, University Road, Shaoguan City, Guangdong Province

Patentee before: SHAOGUAN University