CN112259170A - 基于机器学习算法的生物信息分析平台 - Google Patents
基于机器学习算法的生物信息分析平台 Download PDFInfo
- Publication number
- CN112259170A CN112259170A CN202011165789.8A CN202011165789A CN112259170A CN 112259170 A CN112259170 A CN 112259170A CN 202011165789 A CN202011165789 A CN 202011165789A CN 112259170 A CN112259170 A CN 112259170A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- biological information
- information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 39
- 238000010801 machine learning Methods 0.000 title claims abstract description 20
- 238000011160 research Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000013500 data storage Methods 0.000 claims abstract description 18
- 238000013480 data collection Methods 0.000 claims abstract description 15
- 238000012795 verification Methods 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims description 11
- 238000007405 data analysis Methods 0.000 claims description 7
- 238000011835 investigation Methods 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 101000878595 Arabidopsis thaliana Squalene synthase 1 Proteins 0.000 claims description 3
- 101000713575 Homo sapiens Tubulin beta-3 chain Proteins 0.000 claims description 3
- 101000713585 Homo sapiens Tubulin beta-4A chain Proteins 0.000 claims description 3
- 101000642811 Oryza sativa subsp. indica Soluble starch synthase 1, chloroplastic/amyloplastic Proteins 0.000 claims description 3
- 102100036790 Tubulin beta-3 chain Human genes 0.000 claims description 3
- 102100036788 Tubulin beta-4A chain Human genes 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000007622 bioinformatic analysis Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/42—User authentication using separate channels for security data
- G06F21/43—User authentication using separate channels for security data wireless channels
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2117—User registration
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于机器学习算法的生物信息分析平台,包括注册与登录模块、身份验证模块、互联网数据收集模块、实验数据收集模块、数据上传模块、数据存储模块、云服务器模块、数据整理模块、智能处理模块、文本分析模块、报表生成模块、信息展示模块;本发明在面对海量的生物信息数据时,能够更好的对生物信息进行数据分类和聚类,并且提供准确的信息检索和相关信息推荐,而且分类和聚类过程中利用机器学习算法,使生物信息分析过程简单快速,给使用者的研究分析带来了巨大帮助。
Description
技术领域
本发明属于生物信息分析技术领域,尤其涉及基于机器学习算法的生物信息分析平台。
背景技术
随着测序技术的快速发展,基因研究机构和医学科研机构产生了海量的生物信息数据,但这些数据无法直接进行使用,需要利用生物信息分析平台和生物信息学技术对这些数据进行分析加工,从而给出清晰而且易于导出的结果信息,随着科技的不断发展以及信息处理技术的不断提高,计算机成为了生物信息分析手段,现如今大多生物信息分析技术的大多利用计算机软件作为分析助手,由于每个公司软件开发水平不一致,而且软件分析能力理有限,无法为生物信息提供智能分析,并且随着人工智能的发展,机器学习结合生物信息分析的智能分析方式将会成为主流,因此设计出一种基于机器学习算法的生物信息分析平台尤为重要。
但是当前的生物信息分析平台,面对海量的生物信息时,对生物信息的分类和聚类方法较为简单,无法提供准确的信息检索,而且分类和聚类过程耗时耗力,给使用者的研究分析带来了一定影响,为了解决该缺陷,现提供一种解决方案。
发明内容
本发明的目的在于提供基于机器学习算法的生物信息分析平台。
本发明所要解决的技术问题为:
(1)如何防止生物信息数据泄露;
(2)如何对收集来的数据进行整理;
(3)如何实现对生物信息进行基于机器学习的智能分析,从而减少分析时间和分析成本;
(4)如何实现将分析过后的信息数据更系统化的展示给用户,并且便于用户对这些信息数据进行搜索;
本发明的目的可以通过以下技术方案实现;
基于机器学习算法的生物信息分析平台,包括注册与登录模块、身份验证模块、互联网数据收集模块、实验数据收集模块、数据上传模块、数据存储模块、云服务器模块、数据整理模块、智能处理模块、文本分析模块、报表生成模块、信息展示模块;
其中,所述注册与登录模块与身份验证模块通信连接,所述互联网数据整收集模块与数据上传模块通信连接,所述实验数据收集模块与数据上传模块通信连接,所述数据存储模块与云服务器模块通信连接,所述报表生成模块与云服务器模块通信连接,所述云服务器模块与信息展示模块通信连接;
所述注册登录模块用于通过上传个人基本信息的方式注册账号,并通过注册账号登录该平台,其具体过程如下:
步骤一:使用者在首次登录平台时需要进行注册;
步骤二:使用者在注册时需要设置登录账号与密码,在设置密码时需要重复输入三次,用于登录时进行验证,同时填写账号信息;
步骤三:通过步骤二设置的登录账号与密码登录该平台;
所述身份验证模块用于核对账号信息和密码,若密码输错超过三次则需要进行验证,具体验证过程如下:
步骤一:使用者在登录模块上连续输入X次密码,X为预设值,X=1……n;
步骤二:注册与登录模块会记录下使用者输入每次输入密码的时间Fi,i=1……n;
步骤三:通过公式C=Fi+Fi+Fi……+Fi,得到输入密码的总时间C;
步骤四:通过公式S=C/X得到使用者每次输入密码的平均时间S;
步骤五:将使用者后续登录系统时输入密码的时间标记为V;
步骤六:通过公式R=S-V得到时间差R;
步骤七:当R的数值大于预设值时,使用者只要输入密码即可正常登录该系统;
步骤八:当R小于预设值时,使用者不仅需要输入登录密码,还需要通过智能手机进行短信验证后才可正常登录;
所述互联网数据收集模块用于对各大平台、各大数据库、各大语料库及各大网站有关的生物信息数据进行搜索收集;所述实验数据收集模块用于对使用者个人研究数据、导师研究数据和其他研究者研究数据关于生物信息的数据进行搜索收集;所述数据上传模块用于接受互联网收集数据模块和实验数据收集模块收集的有关生物信息的数据并转换成数据包,同时发送传输至数据存储模块;所述数据存储模块用于接收数据包并进行数据存储,所述数据整理模块用于对存储过后的生物信息数据进行数据审核、数据筛选和数据排序处理,具体整理步骤如下:
步骤一:对数据进行审核处理,具体审核处理步骤如下:
S1:从数据的真实性和精确性角度去审核生物信息数据的准确性;
S2:从数据具体是解决生物信息某方面问题的角度出发,去检查数据解释说明问题的程度,具体包括数据与调查主题、与目标总体的界定、与调查项目的解释是否匹配,进而审核数据的适用性;
S3:从检查数据是否按照规定时间报送的角度审核数据的及时性和时效性;
S4:从检查数据在不同地区或国家及在不同时间段是否具有可比性的角度来审核数据的一致性;
步骤二:对数据进行审核处理,具体审核处理步骤如下:
SS1:筛选出真实性和精确性较低的数据、适用性较低,不符合现在主流研究方向和研究通用性较低的数据、时间久远的,在当下研究看来已经失去可利用价值的数据以及在不同国家或地区及在不同时间段失去可比性的数据;
SS2:对真实性和精确性较低的数据进行剔除;
SS3:对适用性较低,不符合现在主流研究方向和研究通用性较低的数据进行剔除;
SS4:对某些时间久远的研究数据,在当下研究看来已经失去可利用价值的数据进行剔除;
SS5:对某些在不同国家或地区及在不同时间段失去可比性的数据进行剔除
步骤三:对数据进行排序处理,具体排序处理步骤如下:
SSS1:设计数据排序方式;
SSS2:根据排序方式对数据进行排列;
所述智能处理模块包括数据分类单元和数据聚类单元,所述数据分类单元用于通过某个或某些特定条件对整理过后的生物信息数据进行类型分类,所述数据聚类单元用于将相似度高的生物信息数据进行归类化简;
其中,所述数据分类单元具体分类过程如下:
步骤一:对数据进行预处理;
步骤二:文本表示;
步骤三:特征降维;
步骤四:分类器;
步骤五:性能评价;
所述数据分析模用于对分类和聚类后的数据进行可视化处理,所述数据分析模块包括图表制作单元和数据标注单元,所述图表制作单元用于将经过分类和聚类后的数据与图表结合,所述数据标注单元用于对经过图表结合的数据进行数值标注;所述报表生成模块用于对经过数据分析模块处理的数据进行结构化生成;所述云服务器模块包括数据未处理单元和数据处理后单元,所述数据未处理单元用于存储分析前的数据信息,所述数据处理后单元用于存储经过智能分析后的数据信息;所述信息展示模块包括信息检索单元和相关推荐单元,所述信息检索单元用于使用者输入关键词或字,进而对经过分析过后存储在云服务器模块中的数据进行检索调取;所述相关推荐单元用于对使用者经常输入关键词或字进行统计,并根据统计结果展示相关数据。
进一步地,所述数据排序方式包括按研究类型排序方式、按发布日期排序方式、按所属平台排序方式和按研究因子排序方式。
进一步地,所述图表制作单元的图表类型包括柱形图、折线图、饼图、条形图、三线图、雷达图、词云、漏斗图、数据地图和瀑布图。
进一步地,所述信息检索单元的检索内容会被传递到云服务器模块中进行储存。
进一步地,所述数据存储模块采用MySQL数据库作为处理软件。
进一步地,所述账号信息包括个人姓名、身份证号、公司营业执照内容与法人身份证号。
本发明的有益效果:
(1)本发明设置有注册登录模块,使用者在注册系统时需要设置自己的登录账号与密码,而且使用者需要在注册时填写个人姓名,身份证号,公司营业执照内容与法人身份证,能够更好的保证了使用者的身份的真实性,从而有效的避免生物信息数据泄露,本发明设置有身份验证模块,通过公式S-V=R计算时间差R,当R的数值大于预设值时,使用者只要输入密码即可正常登录该系统;当R小于预设值时,使用者不仅需要输入登录密码,还需要通过智能手机进行短信验证后才可正常登录,也保证了身份验证的可靠性。
(2)本发明设置有数据整理模块,根据信息数据的准确性、信息数据的适用性、信息数据的有效性和信息数据的一致性四个方面对信息数据进行初步审核,然后根据这四个方面对不符合这些条件的数据进行剔除,最后根据研究类型、按发布日期、按所属平台和按研究因子对这些数据进行整体排序,从而有利于对收集来的数据初步整理,便于后续分析。
(3)本发明设置有数据分类单元,通过采用机器学习的算法对信息数据进行智能分类,有利于实现机器自我学习,从而减少分类时间,降低分类成本,本发明设置有数据聚类单元,便于后续研究,通过采用机器学习的算法对信息数据进行智能聚类,有利于实现机器自我学习,从而减少聚类时间,降低聚类成本,便于后续研究。
(4)本发明设置有图表制作单元和数据标注单元,对经过分类和聚类后的数据与图表结合以及对经过图表结合后的数据进行数值标注,进而有利于将信息数据更系统化的展示给用户,本发明设置有信息检索单元和相关推荐单元,通过输入关键词或字对数据进行搜索,并对使用者经常输入关键词或字进行统计根据,根据统计结果推断用户搜索偏向并为之提供相似数据展示,进而便于用户对这些信息数据进行搜索获取。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明的系统框图。
具体实施方式
如图1所示,基于机器学习算法的生物信息分析平台,包括注册与登录模块、身份验证模块、互联网数据收集模块、实验数据收集模块、数据上传模块、数据存储模块、云服务器模块、数据整理模块、智能处理模块、文本分析模块、报表生成模块、信息展示模块;
其中,所述注册与登录模块与身份验证模块通信连接,所述互联网数据整收集模块与数据上传模块通信连接,所述实验数据收集模块与数据上传模块通信连接,所述数据存储模块与云服务器模块通信连接,所述报表生成模块与云服务器模块通信连接,所述云服务器模块与信息展示模块通信连接;
所述注册登录模块用于通过上传个人基本信息的方式注册账号,并通过注册账号登录该平台,其具体过程如下:
步骤一:使用者在首次登录平台时需要进行注册;
步骤二:使用者在注册时需要设置登录账号与密码,在设置密码时需要重复输入三次,用于登录时进行验证,同时填写账号信息;
步骤三:通过步骤二设置的登录账号与密码登录该平台;
所述身份验证模块用于核对账号信息和密码,若密码输错超过三次则需要进行验证,具体验证过程如下:
步骤一:使用者在登录模块上连续输入X次密码,X为预设值,X=1……n;
步骤二:注册与登录模块会记录下使用者输入每次输入密码的时间Fi,i=1……n;
步骤三:通过公式C=Fi+Fi+Fi……+Fi,得到输入密码的总时间C;
步骤四:通过公式S=C/X得到使用者每次输入密码的平均时间S;
步骤五:将使用者后续登录系统时输入密码的时间标记为V;
步骤六:通过公式R=S-V得到时间差R;
步骤七:当R的数值大于预设值时,使用者只要输入密码即可正常登录该系统;
步骤八:当R小于预设值时,使用者不仅需要输入登录密码,还需要通过智能手机进行短信验证后才可正常登录;
所述互联网数据收集模块用于对各大平台、各大数据库、各大语料库及各大网站有关的生物信息数据进行搜索收集;所述实验数据收集模块用于对使用者个人研究数据、导师研究数据和其他研究者研究数据关于生物信息的数据进行搜索收集;所述数据上传模块用于接受互联网收集数据模块和实验数据收集模块收集的有关生物信息的数据并转换成数据包,同时发送传输至数据存储模块;所述数据存储模块用于接收数据包并进行数据存储,所述数据整理模块用于对存储过后的生物信息数据进行数据审核、数据筛选和数据排序处理,具体整理步骤如下:
步骤一:对数据进行审核处理,具体审核处理步骤如下:
S1:从数据的真实性和精确性角度去审核生物信息数据的准确性;
S2:从数据具体是解决生物信息某方面问题的角度出发,去检查数据解释说明问题的程度,具体包括数据与调查主题、与目标总体的界定、与调查项目的解释是否匹配,进而审核数据的适用性;
S3:从检查数据是否按照规定时间报送的角度审核数据的及时性和时效性;
S4:从检查数据在不同地区或国家及在不同时间段是否具有可比性的角度来审核数据的一致性;
步骤二:对数据进行审核处理,具体审核处理步骤如下:
SS1:筛选出真实性和精确性较低的数据、适用性较低,不符合现在主流研究方向和研究通用性较低的数据、时间久远的,在当下研究看来已经失去可利用价值的数据以及在不同国家或地区及在不同时间段失去可比性的数据;
SS2:对真实性和精确性较低的数据进行剔除;
SS3:对适用性较低,不符合现在主流研究方向和研究通用性较低的数据进行剔除;
SS4:对某些时间久远的研究数据,在当下研究看来已经失去可利用价值的数据进行剔除;
SS5:对某些在不同国家或地区及在不同时间段失去可比性的数据进行剔除
步骤三:对数据进行排序处理,具体排序处理步骤如下:
SSS1:设计数据排序方式;
SSS2:根据排序方式对数据进行排列;
所述智能处理模块包括数据分类单元和数据聚类单元,所述数据分类单元用于通过某个或某些特定条件对整理过后的生物信息数据进行类型分类,所述数据聚类单元用于将相似度高的生物信息数据进行归类化简;
其中,所述数据分类单元具体分类过程如下:
步骤一:对数据进行预处理;
步骤二:文本表示;
步骤三:特征降维;
步骤四:分类器;
步骤五:性能评价;
所述数据分析模用于对分类和聚类后的数据进行可视化处理,所述数据分析模块包括图表制作单元和数据标注单元,所述图表制作单元用于将经过分类和聚类后的数据与图表结合,所述数据标注单元用于对经过图表结合的数据进行数值标注;所述报表生成模块用于对经过数据分析模块处理的数据进行结构化生成;所述云服务器模块包括数据未处理单元和数据处理后单元,所述数据未处理单元用于存储分析前的数据信息,所述数据处理后单元用于存储经过智能分析后的数据信息;所述信息展示模块包括信息检索单元和相关推荐单元,所述信息检索单元用于使用者输入关键词或字,进而对经过分析过后存储在云服务器模块中的数据进行检索调取;所述相关推荐单元用于对使用者经常输入关键词或字进行统计,并根据统计结果展示相关数据。
进一步地,所述数据排序方式包括按研究类型排序方式、按发布日期排序方式、按所属平台排序方式和按研究因子排序方式。
进一步地,所述图表制作单元的图表类型包括柱形图、折线图、饼图、条形图、三线图、雷达图、词云、漏斗图、数据地图和瀑布图。
进一步地,所述信息检索单元的检索内容会被传递到云服务器模块中进行储存。
进一步地,所述数据存储模块采用MySQL数据库作为处理软件。
进一步地,所述账号信息包括个人姓名、身份证号、公司营业执照内容与法人身份证号。
基于机器学习算法的生物信息分析平台,首先使用者需要通过注册登录模块进行注册,当使用者填写完相关信息并注册完成账号,就可以进行使用账号登录入平台中,但当用户输错三次密码,则需要通过身份验证模块进行身份真实性验证,验证方式可以通过向绑定账号的手机号发送验证信息,当验证信息准确无误时就可以进入数据上传模块,此时就可以将互联网收集模块和实验数据收集模块收集到的数据通过数据上传模块传送至数据存储模块,数据存储模块对这些未被处理的数据进行存储,并通过通信连接的方式上传到云服务器模块进行永久性存储,然后数据整理模块经过审核、筛选和排序几道工序进行数据预处理,再将处理过后的数据发送至智能处理模块进行数据分类和数据聚类,该分类和聚类算法采用机器学习的方法,减少了分类和聚类所花费的成本并提高了分类和聚类效率,紧接着将分类和聚类好的数据发送至数据分析模块利用图表结合和数据标注的方式对生物信息数据进行智能分析,然后将分析完成对生物信息数据发送至报表生成模块,将其制作成有利用价值的报表,最后将其发送至信息展示模块供使用者利用研究。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (6)
1.基于机器学习算法的生物信息分析平台,其特征在于,包括注册与登录模块、身份验证模块、互联网数据收集模块、实验数据收集模块、数据上传模块、数据存储模块、云服务器模块、数据整理模块、智能处理模块、文本分析模块、报表生成模块、信息展示模块;
其中,所述注册与登录模块与身份验证模块通信连接,所述互联网数据整收集模块与数据上传模块通信连接,所述实验数据收集模块与数据上传模块通信连接,所述数据存储模块与云服务器模块通信连接,所述报表生成模块与云服务器模块通信连接,所述云服务器模块与信息展示模块通信连接;
所述注册登录模块用于通过上传个人基本信息的方式注册账号,并通过注册账号登录该平台,其具体过程如下:
步骤一:使用者在首次登录平台时需要进行注册;
步骤二:使用者在注册时需要设置登录账号与密码,在设置密码时需要重复输入三次,用于登录时进行验证,同时填写账号信息;
步骤三:通过步骤二设置的登录账号与密码登录该平台;
所述身份验证模块用于核对账号信息和密码,若密码输错超过三次则需要进行验证,具体验证过程如下:
步骤一:使用者在登录模块上连续输入X次密码,X为预设值,X=1……n;
步骤二:注册与登录模块会记录下使用者输入每次输入密码的时间Fi,i=1……n;
步骤三:通过公式C=Fi+Fi+Fi……+Fi,得到输入密码的总时间C;
步骤四:通过公式S=C/X得到使用者每次输入密码的平均时间S;
步骤五:将使用者后续登录系统时输入密码的时间标记为V;
步骤六:通过公式R=S-V得到时间差R;
步骤七:当R的数值大于预设值时,使用者只要输入密码即可正常登录该系统;
步骤八:当R小于预设值时,使用者不仅需要输入登录密码,还需要通过智能手机进行短信验证后才可正常登录;
所述互联网数据收集模块用于对各大平台、各大数据库、各大语料库及各大网站有关的生物信息数据进行搜索收集;所述实验数据收集模块用于对使用者个人研究数据、导师研究数据和其他研究者研究数据关于生物信息的数据进行搜索收集;所述数据上传模块用于接受互联网收集数据模块和实验数据收集模块收集的有关生物信息的数据并转换成数据包,同时发送传输至数据存储模块;所述数据存储模块用于接收数据包并进行数据存储,所述数据整理模块用于对存储过后的生物信息数据进行数据审核、数据筛选和数据排序处理,具体整理步骤如下:
步骤一:对数据进行审核处理,具体审核处理步骤如下:
S1:从数据的真实性和精确性角度去审核生物信息数据的准确性;
S2:从数据具体是解决生物信息某方面问题的角度出发,去检查数据解释说明问题的程度,具体包括数据与调查主题、与目标总体的界定、与调查项目的解释是否匹配,进而审核数据的适用性;
S3:从检查数据是否按照规定时间报送的角度审核数据的及时性和时效性;
S4:从检查数据在不同地区或国家及在不同时间段是否具有可比性的角度来审核数据的一致性;
步骤二:对数据进行审核处理,具体审核处理步骤如下:
SS1:筛选出真实性和精确性较低的数据、适用性较低,不符合现在主流研究方向和研究通用性较低的数据、时间久远的,在当下研究看来已经失去可利用价值的数据以及在不同国家或地区及在不同时间段失去可比性的数据;
SS2:对真实性和精确性较低的数据进行剔除;
SS3:对适用性较低,不符合现在主流研究方向和研究通用性较低的数据进行剔除;
SS4:对某些时间久远的研究数据,在当下研究看来已经失去可利用价值的数据进行剔除;
SS5:对某些在不同国家或地区及在不同时间段失去可比性的数据进行剔除
步骤三:对数据进行排序处理,具体排序处理步骤如下:
SSS1:设计数据排序方式;
SSS2:根据排序方式对数据进行排列;
所述智能处理模块包括数据分类单元和数据聚类单元,所述数据分类单元用于通过某个或某些特定条件对整理过后的生物信息数据进行类型分类,所述数据聚类单元用于将相似度高的生物信息数据进行归类化简;
其中,所述数据分类单元具体分类过程如下:
步骤一:对数据进行预处理;
步骤二:文本表示;
步骤三:特征降维;
步骤四:分类器;
步骤五:性能评价;
所述数据分析模用于对分类和聚类后的数据进行可视化处理,所述数据分析模块包括图表制作单元和数据标注单元,所述图表制作单元用于将经过分类和聚类后的数据与图表结合,所述数据标注单元用于对经过图表结合的数据进行数值标注;所述报表生成模块用于对经过数据分析模块处理的数据进行结构化生成;所述云服务器模块包括数据未处理单元和数据处理后单元,所述数据未处理单元用于存储分析前的数据信息,所述数据处理后单元用于存储经过智能分析后的数据信息;所述信息展示模块包括信息检索单元和相关推荐单元,所述信息检索单元用于使用者输入关键词或字,进而对经过分析过后存储在云服务器模块中的数据进行检索调取;所述相关推荐单元用于对使用者经常输入关键词或字进行统计,并根据统计结果展示相关数据。
2.根据权利要求1所述的基于机器学习算法的生物信息分析平台,其特征在于,所述数据排序方式包括按研究类型排序方式、按发布日期排序方式、按所属平台排序方式和按研究因子排序方式。
3.根据权利要求1所述的基于机器学习算法的生物信息分析平台,其特征在于,所述图表制作单元的图表类型包括柱形图、折线图、饼图、条形图、三线图、雷达图、词云、漏斗图、数据地图和瀑布图。
4.根据权利要求1所述的基于机器学习算法的生物信息分析平台,其特征在于,所述信息检索单元的检索内容会被传递到云服务器模块中进行储存。
5.根据权利要求1所述的基于机器学习算法的生物信息分析平台,其特征在于,所述数据存储模块采用MySQL数据库作为处理软件。
6.根据权利要求1所述的基于机器学习算法的生物信息分析平台,其特征在于,所述账号信息包括个人姓名、身份证号、公司营业执照内容与法人身份证号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011165789.8A CN112259170A (zh) | 2020-10-27 | 2020-10-27 | 基于机器学习算法的生物信息分析平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011165789.8A CN112259170A (zh) | 2020-10-27 | 2020-10-27 | 基于机器学习算法的生物信息分析平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112259170A true CN112259170A (zh) | 2021-01-22 |
Family
ID=74262261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011165789.8A Pending CN112259170A (zh) | 2020-10-27 | 2020-10-27 | 基于机器学习算法的生物信息分析平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112259170A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553490A (zh) * | 2021-08-11 | 2021-10-26 | 长沙学院 | 一种数据管理平台及数据管理方法 |
CN116301646A (zh) * | 2023-03-27 | 2023-06-23 | 广州新华学院 | 一种基于机器学习的个人计算机储存管理系统 |
CN117688542A (zh) * | 2024-02-04 | 2024-03-12 | 上海银行股份有限公司 | 一种基于指纹调用数据的安全管理系统 |
-
2020
- 2020-10-27 CN CN202011165789.8A patent/CN112259170A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553490A (zh) * | 2021-08-11 | 2021-10-26 | 长沙学院 | 一种数据管理平台及数据管理方法 |
CN116301646A (zh) * | 2023-03-27 | 2023-06-23 | 广州新华学院 | 一种基于机器学习的个人计算机储存管理系统 |
CN116301646B (zh) * | 2023-03-27 | 2023-12-01 | 广州新华学院 | 一种基于机器学习的个人计算机储存管理系统 |
CN117688542A (zh) * | 2024-02-04 | 2024-03-12 | 上海银行股份有限公司 | 一种基于指纹调用数据的安全管理系统 |
CN117688542B (zh) * | 2024-02-04 | 2024-04-30 | 上海银行股份有限公司 | 一种基于指纹调用数据的安全管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112259170A (zh) | 基于机器学习算法的生物信息分析平台 | |
AU6346100A (en) | Method and system for organizing data | |
CN112632989B (zh) | 一种合同文本中风险信息的提示方法、装置及设备 | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN111414740B (zh) | 一种电子实验记录本报告生成系统 | |
CN110674360B (zh) | 一种用于数据的溯源方法和系统 | |
CN112052396A (zh) | 课程匹配方法、系统、计算机设备和存储介质 | |
CN109783731A (zh) | 一种定制信息推送方法及系统 | |
CN115018588A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
US20240127143A1 (en) | Method, device and storage medium for information processing based on data interaction | |
CN114005530A (zh) | 区域内医学重复检查、检验智能提醒与监管方法及系统 | |
CN111930897B (zh) | 专利检索方法、装置、电子设备及计算机可读存储介质 | |
CN113806492A (zh) | 基于语义识别的记录生成方法、装置、设备及存储介质 | |
CN113111159A (zh) | 问答记录生成方法、装置、电子设备及存储介质 | |
CN114547346B (zh) | 知识图谱的构建方法和装置、电子设备和存储介质 | |
EP4357941A1 (en) | Information exchange method, apparatus and device, and storage medium | |
CN115309705A (zh) | 一种自动识别城市信息模型平台基础数据元素的数据集成分类系统及其分类方法 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
CN114648010A (zh) | 数据表标准化方法、装置、设备及计算机存储介质 | |
CN114637866A (zh) | 数字化新媒体的信息管理方法及装置 | |
CN114841165A (zh) | 用户数据分析及展示方法、装置、电子设备及存储介质 | |
CN113205442A (zh) | 基于区块链的电子政务数据反馈管理方法及装置 | |
CN109885647B (zh) | 用户履历验证方法、装置、电子设备及存储介质 | |
Dos Santos | Automatic content extraction on semi-structured documents | |
CN116049700B (zh) | 基于多模态的运检班组画像生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210122 |