CN109597901B

CN109597901B - 一种基于生物数据的数据分析方法

Info

Publication number: CN109597901B
Application number: CN201811360788.1A
Authority: CN
Inventors: 黄海辉; 戴经国; 梁勇; 陈燕琴
Original assignee: Shaoguan University
Current assignee: Dragon Totem Technology Hefei Co ltd; Wuhan Yuanwei Technology Co.,Ltd.
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2021-11-16
Anticipated expiration: 2038-11-15
Also published as: CN109597901A

Abstract

本发明公开了一种基于生物数据的数据分析方法，包括：获取生物数据，建立样本数据库；对所述样本数据库中的生物数据进行特征提取处理，形成属性不同的若干个聚类，建立聚类库；提取所述聚类库中的数据建立高维模型；将需要进行实验的生物数据通过高维模型进行过滤，获得可行数据；本发明通过对生物数据进行聚类处理，结合数据模型剔除错误的生物数据，解决现有技术中不能在海量数据中智能提取所需生物数据，并不能剔除错误数据的技术问题，从而使得可以在海量大数据中智能提取所需的生物数据，并能剔除错误数据，提高实验成功率；对生物数据进行聚类处理，能从海量数据中快速查找出所需数据的所在类群，提高工作效率。

Description

一种基于生物数据的数据分析方法

技术领域

本发明涉及数据分析领域，尤其涉及一种基于生物数据的数据分析方法。

背景技术

在对生物研究中，需要对生物数据进行实验处理，但由于生物数据的量非常大，我们往往在海量大数据中寻找符合实验要求的生物数据，这样会极大地降低工作效率，影响实验进度；再加上海量数据的复杂性，还会存在提取到错误数据的可能性，影响实验结果。

正因如此，目前极需一种可以在海量大数据中智能提取所需的生物数据，并能剔除错误数据的分析处理方法。

发明内容

本发明提供了一种基于生物数据的数据分析方法，以解决现有技术中不能在海量数据中智能提取所需生物数据，并不能剔除错误数据的技术问题，从而使得可以在海量大数据中智能提取所需的生物数据，并能剔除错误数据，进而实现提高工作效率和实验成功率。

为了解决上述技术问题，本发明实施例提供了一种基于生物数据的数据分析方法，包括：

获取生物数据，建立样本数据库；

对所述样本数据库中的生物数据进行特征提取处理，形成属性不同的若干个聚类，建立聚类库；

提取所述聚类库中的数据建立高维模型；

将需要进行实验的生物数据通过高维模型进行过滤，获得可行数据。

作为优选方案，所述对所述样本数据库中的生物数据进行特征提取处理，形成属性不同的若干个聚类，建立聚类库，包括：

提取所述样本数据库中的生物数据，使用统计方法将各个生物数据进行分析提取概念关键词；

利用层次聚类算法计算所述概念词之间的相似度，使之聚成一类，形成具有等级关系的聚类；

建立聚类库，将形成的所有聚类储存在聚类库中。

作为优选方案，所述统计方法包括：串频统计方法和信息熵统计方法。

作为优选方案，所述利用层次聚类算法计算所述概念词之间的相似度，使之聚成一类，形成具有等级关系的聚类，包括：

将提取出来的每一个概念关键词单独列成一个类；

利用相似度算法计算类与类之间的相似度；

将计算出相似度大的类合并成一个聚类，直到所有单独列成的类完成合并；

对已经完成合并的聚类继续执行上述步骤，继续进行聚类间合并，直至形成一个具有等级关系的聚类。

作为优选方案，所述相似度算法包括Dice系数和皮尔逊相关性公式。

作为优选方案，所述提取所述聚类库中的数据建立高维模型，包括：

建立训练数据库和测试数据库，将聚类库中的数据分别储存到所述训练数据库和所述测试数据库；

建立高维模型，将所述训练数据库中数据传输到高维模型中进行训练；

数据训练完成后，将所述测试数据库中数据传输到高维模型中进行测试，获得经过优化处理后的高维模型。

作为优选方案，所述将所述训练数据库中数据传输到高维模型中进行训练，还包括：当训练的次数达到训练阈值或训练的准确度达到预设的训练准确值后，停止训练；所述将所述测试数据库中数据传输到高维模型中进行测试，还包括：当测试的次数达到测试阈值或测试的准确度达到预设的测试准确值后，停止测试。

作为优选方案，所述训练阈值为20万次，所述训练准确值为90％；所述测试阈值为20万次，所述测试准确值为90％。

作为优选方案，所述基于生物数据的数据分析方法，还包括：建立数据格式池，将生物数据通过所述格式池进行过滤，剔除错误格式的生物数据。

作为优选方案，所述数据格式池包括数字格式、图片格式、字符格式和算法字符。

相比于现有技术，本发明实施例具有如下有益效果：

通过对生物数据进行聚类处理，结合数据模型剔除错误的生物数据，解决现有技术中不能在海量数据中智能提取所需生物数据，并不能剔除错误数据的技术问题，从而使得可以在海量大数据中智能提取所需的生物数据，并能剔除错误数据，提高实验成功率；对生物数据进行聚类处理，能从海量数据中快速查找出所需数据的所在类群，提高工作效率。

附图说明

图1：为本发明方法实施例中的步骤流程示意图；

图2：为本发明方法实施例中的步骤S2的具体流程示意图；

图3：为本发明方法实施例中的步骤S22的具体流程示意图；

图4：为本发明方法实施例中的步骤S3的具体流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，本发明优选实施例提供了一种基于生物数据的数据分析方法，包括：

S1，获取生物数据，建立样本数据库；

S2，对所述样本数据库中的生物数据进行特征提取处理，形成属性不同的若干个聚类，建立聚类库；

S3，提取所述聚类库中的数据建立高维模型；

S4，将需要进行实验的生物数据通过高维模型进行过滤，获得可行数据。

本实施例通过对生物数据进行聚类处理，结合数据模型剔除错误的生物数据，解决现有技术中不能在海量数据中智能提取所需生物数据，并不能剔除错误数据的技术问题，从而使得可以在海量大数据中智能提取所需的生物数据，并能剔除错误数据，进而实现提高工作效率和实验成功率。

请参照图2，在本实施例中，所述步骤S2对所述样本数据库中的生物数据进行特征提取处理，形成属性不同的若干个聚类，建立聚类库，包括：

S21，提取所述样本数据库中的生物数据，使用统计方法将各个生物数据进行分析提取概念关键词；

S22，利用层次聚类算法计算所述概念词之间的相似度，使之聚成一类，形成具有等级关系的聚类；

S23，建立聚类库，将形成的所有聚类储存在聚类库中。

在本实施例中，所述统计方法包括：串频统计方法和信息熵统计方法。

串频(Frequency):被称为常用的一种统计方法，是通过词出现的频度并统计以抽取术语，实现起来直接、简单。尤其是那些固定的生物高维数据，通过出现频率来抽取，效果非常好。同时，如果配合一些数据过滤器，那么效果会更好。

信息熵(Entropy)：

在实际的情况中，每种可能情况出现的概率并不是相同的，所以信息熵用来描述信息的不确定性，如果不确定性越高，那么信息熵越大，否则则越低。pi表示高维数据i出现的概率。越是确定的情况，不确定性越小，信息量越少，即计算出的熵就越小。

请参照图3，在本实施例中，所述步骤S22利用层次聚类算法计算所述概念词之间的相似度，使之聚成一类，形成具有等级关系的聚类，包括：

S221，将提取出来的每一个概念关键词单独列成一个类；

S222，利用相似度算法计算类与类之间的相似度；

S223，将计算出相似度大的类合并成一个聚类，直到所有单独列成的类完成合并；

S224，对已经完成合并的聚类继续执行上述步骤，继续进行聚类间合并，直至形成一个具有等级关系的聚类。

本技术方案采取基于生物数据的等级提取方法来确定概念间的层次关系，利用层次聚类算法生成等级关系。这种方法首先将每一个数据单独列成一个类，然后计算两两类之间的相似度，相似度大的聚成一类，以此内推，形成一个循环，最终形成一个具有等级关系的聚类图。该算法中有两个方面比较重要，第一个是关于相似度的算法问题，第二个是关于聚类的方法问题。对于相似度的算法，采用Dice系数、皮尔逊相关性公式等来计算。关于聚类的方法，我们求两个聚类簇里两类之间的距离的平均值作为两个聚类簇的相似度。即，将两个聚类里的所有类都进行相似度的计算，然后计算其平均值，该相似度的平均值即为两个聚类簇的距离。

在本实施例中，所述相似度算法包括Dice系数和皮尔逊相关性公式。

Dice系数算法：Dice(s1,s2)＝2*comm(s1,s2)/(leng(s1)+leng(s2))；

其中：comm(s1,s2)是s1、s2中相同字符的个数leng(s1)，leng(s2)是字符串s1、s2的长度；Dice系数是一种集合相似度度量函数，与相似度指数相同，也被称为系数。

皮尔逊相关性公式：

其中：X、Y为两两相邻类集的特征数值；通过计算得出两两类集间的相似度，把相似度高的两两类集再融合成一类；进行循环。

请参照图4，在本实施例中，所述步骤S3提取所述聚类库中的数据建立高维模型，包括：

S31，建立训练数据库和测试数据库，将聚类库中的数据分别储存到所述训练数据库和所述测试数据库；

S32，建立高维模型，将所述训练数据库中数据传输到高维模型中进行训练；

S33，数据训练完成后，将所述测试数据库中数据传输到高维模型中进行测试，获得经过优化处理后的高维模型。

通过优化数据模型，提高错误数据的过滤率，减少错误数据，优化模型。

在本实施例中，所述将所述训练数据库中数据传输到高维模型中进行训练，还包括：当训练的次数达到训练阈值或训练的准确度达到预设的训练准确值后，停止训练；所述将所述测试数据库中数据传输到高维模型中进行测试，还包括：当测试的次数达到测试阈值或测试的准确度达到预设的测试准确值后，停止测试。设置阈值和准确值，能更好地把控优化数据模型的过程，防止过度优化或优化不足的情况出现。

在本实施例中，所述训练阈值为20万次，所述训练准确值为90％；所述测试阈值为20万次，所述测试准确值为90％。

在本实施例中，所述基于生物数据的数据分析方法，还包括：建立数据格式池，将生物数据通过所述格式池进行过滤，剔除错误格式的生物数据。

通过过滤数据的错误格式，降低高维数据的复杂性，使数据处理更优化。

在本实施例中，所述数据格式池包括数字格式、图片格式、字符格式和算法字符。能过滤多种错误数据的格式问题，提高优化能力。

本发明通过对生物数据进行聚类处理，结合数据模型剔除错误的生物数据，解决现有技术中不能在海量数据中智能提取所需生物数据，并不能剔除错误数据的技术问题，从而使得可以在海量大数据中智能提取所需的生物数据，并能剔除错误数据，提高实验成功率；对生物数据进行聚类处理，能从海量数据中快速查找出所需数据的所在类群，提高工作效率。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生物数据的数据分析方法，其特征在于，包括：

建立数据格式池，将生物数据通过所述格式池进行过滤，剔除错误格式的生物数据；

获取生物数据，建立样本数据库；

提取所述聚类库中的数据建立高维模型；

将需要进行实验的生物数据通过高维模型进行过滤，获得可行数据；

所述对所述样本数据库中的生物数据进行特征提取处理，形成属性不同的若干个聚类，建立聚类库，包括：

建立聚类库，将形成的所有聚类储存在聚类库中。

2.如权利要求1所述的方法，其特征在于，所述统计方法包括：串频统计方法和信息熵统计方法。

3.如权利要求1所述的方法，其特征在于，所述利用层次聚类算法计算所述概念词之间的相似度，使之聚成一类，形成具有等级关系的聚类，包括：

将提取出来的每一个概念关键词单独列成一个类；

利用相似度算法计算类与类之间的相似度；

4.如权利要求3所述的方法，其特征在于，所述相似度算法包括Dice系数和皮尔逊相关性公式。

5.如权利要求1所述的方法，其特征在于，所述提取所述聚类库中的数据建立高维模型，包括：

6.如权利要求5所述的方法，其特征在于，所述将所述训练数据库中数据传输到高维模型中进行训练，还包括：当训练的次数达到训练阈值或训练的准确度达到预设的训练准确值后，停止训练；所述将所述测试数据库中数据传输到高维模型中进行测试，还包括：当测试的次数达到测试阈值或测试的准确度达到预设的测试准确值后，停止测试。

7.如权利要求6所述的方法，其特征在于，所述训练阈值为20万次，所述训练准确值为90％；所述测试阈值为20万次，所述测试准确值为90％。

8.如权利要求1所述的方法，其特征在于，所述数据格式池包括数字格式、图片格式、字符格式和算法字符。