CN112863593A - 基于皮肤宏基因组数据的身份鉴定特征提取方法及系统 - Google Patents
基于皮肤宏基因组数据的身份鉴定特征提取方法及系统 Download PDFInfo
- Publication number
- CN112863593A CN112863593A CN202110158603.4A CN202110158603A CN112863593A CN 112863593 A CN112863593 A CN 112863593A CN 202110158603 A CN202110158603 A CN 202110158603A CN 112863593 A CN112863593 A CN 112863593A
- Authority
- CN
- China
- Prior art keywords
- data
- tuple
- class
- skin
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 19
- 238000012163 sequencing technique Methods 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 21
- 244000005700 microbiome Species 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 28
- 239000000090 biomarker Substances 0.000 claims description 10
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 238000005070 sampling Methods 0.000 description 7
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 239000013598 vector Substances 0.000 description 2
- 108700005443 Microbial Genes Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于皮肤宏基因组数据的身份鉴定特征提取方法及系统。该方法包括:获取由多个个体多次采样的皮肤数据样本构成的数据样本集,皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;将存在于A类数据中而不存在于B类数据中的k‑tuple确定为特异性k‑tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差异显著的k‑tuple确定为特异性k‑tuple,其中,A类数据由数据样本集中身份特征待提取个体的皮肤数据样本组成,B类数据由数据样本集中除身份特征待提取个体外的多个个体的皮肤数据样本组成。本发明基于特异性k‑tuple进行个体的身份鉴定,丰富了身份鉴别方法。
Description
技术领域
本发明涉及身份鉴定技术领域,特别是涉及一种基于皮肤宏基因组数据的身份鉴定特征提取方法及系统。
背景技术
现有犯罪嫌疑人身份鉴定主要是利用指纹来区分,方式比较单一,当前,亟需丰富身份鉴定方法。
发明内容
本发明的目的是提供一种基于皮肤宏基因组数据的身份鉴定特征提取方法及系统。
为实现上述目的,本发明提供了如下方案:
一种基于皮肤宏基因组数据的身份鉴定特征提取方法,包括:
获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;
将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。
可选的,所述方法还包括:
验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple在C类数据中与在D类数据中是否都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除所述身份特征待提取个体和B类数据外的多个个体的皮肤数据样本组成。
可选的,所述方法还包括:
将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,所述长序列用于所述身份特征待提取个体的身份鉴定。
可选的,所述将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,具体包括:
根据计算k-tuplei的ASS值,其中,i=1,2,…,m,TP是指A类数据中k-tuplei频度不为0的样本个数,FN是指A类数据中k-tuplei频度为0的样本个数,TN是指B类数据中k-tuplei频度为0的样本个数,FP是指B类数据中k-tuplei频度不为0的样本个数;
将ASS值大于第一设定阈值的k-tuple确定为特异性k-tuple。
可选的,所述利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,具体包括:
获取k-tuple特征矩阵其中,S为皮肤数据样本,皮肤数据样本S1到皮肤数据样本Sn属于A类数据,皮肤数据样本Sn+1到皮肤数据样本SN属于B类数据,fm(n)为k-tuplem在皮肤数据样本Sn中出现的次数在Sn=(f1(n),f2(n),…,fm(n))中归一化后的频度;
对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuplei进行秩和检验,如果秩和检验结果小于第二设定阈值,则采用逻辑回归分类器预测k-tuple特征矩阵中k-tuplei对应行中各元素属于A类还是B类,根据计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数;若k-tuplei的ASS值大于第三设定阈值,则将所述k-tuple确定为特异性k-tuple。
一种基于皮肤宏基因组数据的身份鉴定特征提取系统,包括:
数据样本集获取模块,用于获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;
特异性k-tuple确定模块,用于将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。
可选的,所述系统还包括:
特异性k-tuple验证模块,用于验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple在C类数据中与在D类数据中都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除所述身份特征待提取个体和B类数据外的多个个体的皮肤数据样本组成。
可选的,所述系统还包括:
个体稳定的特异性生物标记序列识别模块,用于将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,所述长序列用于所述身份特征待提取个体的身份鉴定。
可选的,所述特异性k-tuple确定模块,具体包括:
ASS值计算单元,用于根据计算k-tuplei的ASS值,其中,i=1,2,…,m,TP是指A类数据中k-tuplei频度不为0的样本个数,FN是指A类数据中k-tuplei频度为0的样本个数,TN是指B类数据中k-tuplei频度为0的样本个数,FP是指B类数据中k-tuplei频度不为0的样本个数;
特异性k-tuple确定单元,用于将ASS值大于第一设定阈值的k-tuple确定为特异性k-tuple。
可选的,所述特异性k-tuple确定模块,具体包括:
k-tuple特征矩阵获取单元,用于获取k-tuple特征矩阵其中,S为皮肤数据样本,皮肤数据样本S1到皮肤数据样本Sn属于A类数据,皮肤数据样本Sn+1到皮肤数据样本SN属于B类数据,fm(n)为k-tuplem在皮肤数据样本Sn中出现的次数在Sn=(f1(n),f2(n),…,fm(n))中归一化后的频度;
秩和检验单元,用于对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuplei进行秩和检验;
特异性k-tuple确定单元,用于在秩和检验结果小于第二设定阈值时,采用逻辑回归分类器预测k-tuple特征矩阵中k-tuplei对应行中各元素属于A类还是B类,根据计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数;若k-tuplei的ASS值大于第三设定阈值,则将所述k-tuple确定为特异性k-tuple。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于皮肤宏基因组数据的身份鉴定特征提取方法及系统,利用稳定的存在于人体皮肤表面的、存储着每个个体独一无二的微生物基因信息来对个体进行身份识别,丰富了个体身份识别的方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的基于皮肤宏基因组数据的身份鉴定特征提取方法的流程示意图;
图2为本发明实施例2提供的基于皮肤宏基因组数据的身份鉴定特征提取系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
皮肤是人类最大的一个器官,肤质有干燥、潮湿、油脂之分,并且含有大量的微生物。身体不同部位的皮肤有着不一样的微生物组,或者微生物的含量不同,又因每个个体的生活习惯不同等因素导致每个人的皮肤的微生物组都具有个体特异性。在法医现场的证据分析中,可以采集嫌疑人的皮肤样本数据并寻找其特异性生物标记序列,在分析犯罪现场采集的样本时,若出现了某一个体的多个特异性生物标记序列片段,则可作为该嫌疑人在场的辅助证据。由于皮肤中的微生物组能稳定存在于人体皮肤表面,因此利用人体表面的皮肤数据获得的特异性生物标记序列对犯罪嫌疑人进行身份鉴定具有极大的优势。
实施例1
参见图1,一种基于皮肤宏基因组数据的身份鉴定特征提取方法,该方法包括:
步骤101:获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;
步骤102:将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。
其中,步骤102中确定特异性k-tuple的方法可以具体如下:
根据计算k-tuplei的ASS值,其中,i=1,2,…,m,TP是指A类数据中k-tuplei频度不为0的样本个数,FN是指A类数据中k-tuplei频度为0的样本个数,TN是指B类数据中k-tuplei频度为0的样本个数,FP是指B类数据中k-tuplei频度不为0的样本个数;将ASS值大于第一设定阈值的k-tuple确定为特异性k-tuple。其中,第一设定阈值优选为0.9。
步骤102中确定特异性k-tuple的方法还可以具体如下:
获取k-tuple特征矩阵其中,S为皮肤数据样本,皮肤数据样本S1到皮肤数据样本Sn属于A类数据,皮肤数据样本Sn+1到皮肤数据样本SN属于B类数据,fm(n)为k-tuplem在皮肤数据样本Sn中出现的次数在Sn=(f1(n),f2(n),…,fm(n))中归一化后的频度;对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuplei进行秩和检验,得到的秩和检验结果p值若小于第二设定阈值,则说明该k-tuple在AB两类数据中存在较大频度差异,采用逻辑回归分类器预测k-tuple特征矩阵中k-tuplei对应行中各元素属于A类还是B类;并根据计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数;若k-tuplei的ASS值大于第三设定阈值,则将该k-tuple确定为特异性k-tuple。
作为本实施例的一个优选的实施方式,本实施例提供的方法还包括:
步骤103:验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple是否在C类数据中与在D类数据中都出现且频度差大于设定值。在该种实施方式中,步骤102中C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除B类数据和所述身份特征待提取个体外的多个个体的皮肤数据样本组成。验证的过程是对C类数据和D类数据进行如步骤102中所述A类数据和B类数据处理过程,验证步骤102中确定的特异性k-tuple是否在步骤103中也是特异性k-tuple,并将通过验证的特异性k-tuple作为最终用于鉴定个体身份的特异性k-tuple。
作为本实施例的一个优选的实施方式,本实施例提供的方法还包括:
步骤104:将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,即可获得个体的稳定的特异性生物标记序列。基于获得的个体的稳定的特异性生物标记序列可进行个体的身份鉴定。
在本实施例中,首先划分出AB两类数据作为第一组数据,用于识别个体的特异性k-tuple,其中A类是随机抽样身份特征待提取个体多个部位多个采样时间的数据,B类则是在其余所有个体中各自随机抽样得到的多部位多采样时间的样本。再分出剩余的CD两类数据作为第二组数据,用于检验身份特征待提取个体的特异性k-tuple,其中C类是身份特征待提取个体在抽取A类数据时中未被抽中的所有数据,D类则是在去除B类数据后其余所有个体中各自随机抽样得到的多部位多采样时间的样本。针对一段DNA序列G使用长度为k的滑动窗口从头到尾扫描整段DNA序列,计算每个k-tuple在整段DNA序列中出现的次数(频度),得到k-tuple频度向量后并归一化处理,如公式(1)所示,其中fi o(j)为k-tuplei在样本j中出现的次数,fi(j)为k-tuplei在样本j中归一化后的频度。
对第一组的每个测序数据都进行上述操作获得数据的k-tuple特征矩阵F,如公式(2)所示,其中S1,S2,…,SN为皮肤的宏基因组数据,且同一类别的样本相邻排序,如S1,…,Sn为A类数据,Sn+1,…,SN为B类数据,矩阵中的fm(N)表示k-tuplem在样本N中经过归一化后的频度。
根据k-tuple的频度差异获得身份特征待提取个体的特异性k-tuple。特异性k-tuple可以采取以下两种方式获得:
a)逻辑型类别特异性k-tuple
这是指仅在k-tuple特征矩阵F中的A类数据中存在而不存在于B类数据的k-tuple,即该k-tuple仅存在于某一个体的皮肤宏基因组数据中而不存在于其余个体中。将k-tuple特征矩阵F中的k-tuple频度逻辑化,即非0值对应逻辑值1,其余的对应逻辑值0。用公式(3)计算k-tuple的ASS值,并筛选出ASS值超过某一阈值的k-tuple,称其为特异性k-tuple。
其中,i=1,2,…,m,TP是指A类数据中k-tuplei频度不为0的样本个数,FN是指A类数据中k-tuplei频度为0的样本个数,TN是指B类数据中k-tuplei频度为0的样本个数,FP是指B类数据中k-tuplei频度不为0的样本个数。
b)数值型类别特异性k-tuple
利用秩和检验判断某一k-tuple在AB两类数据中的频度是否存在差异,若秩和检验的p值小于给定阈值则认为该k-tuple在第一组的AB两类数据中的频度具有显著差异。具体方法如下:对k-tuple特征矩阵F中各行行内的所有元素按大小进行排序,并赋值对应秩次;利用秩和检验判断该k-tuple在A类数据中与在B类数据中频度是否具有差异性,若秩和检验结果p值小于给定阈值则认为该k-tuple在AB两类数据中的频度具有差异性。逻辑回归分类器预测在AB两类数据构成的k-tuple特征矩阵中具有频度显著差异的k-tuplei对应行中各元素属于A类还是B类;并根据计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数。若预测结果的ASS值大于某个阈值,则认为该k-tuple为数值型特异性k-tuple。
实施例2
参见图2,本实施例通过了一种基于皮肤宏基因组数据的身份鉴定特征提取系统,该系统包括:
数据样本集获取模块201,用于获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;
特异性k-tuple确定模块202,用于将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。
其中,作为本实施例的一种实施方式,特异性k-tuple确定模块202,可以包括:ASS值计算单元和特异性k-tuple确定单元。ASS值计算单元用于根据计算k-tuplei的ASS值,其中,i=1,2,…,m,TP是指A类数据中k-tuplei频度不为0的样本个数,FN是指A类数据中k-tuplei频度为0的样本个数,TN是指B类数据中k-tuplei频度为0的样本个数,FP是指B类数据中k-tuplei频度不为0的样本个数;特异性k-tuple确定单元用于将ASS值大于第一设定阈值的k-tuple确定为特异性k-tuple。
作为本实施例的一种实施方式,特异性k-tuple确定模块202,还可以包括:k-tuple特征矩阵获取单元、秩和检验单元以及特异性k-tuple确定单元。其中,k-tuple特征矩阵获取单元用于获取k-tuple特征矩阵其中,S为皮肤数据样本,皮肤数据样本S1到皮肤数据样本Sn属于A类数据,皮肤数据样本Sn+1到皮肤数据样本SN属于B类数据,fm(n)为k-tuplem在皮肤数据样本Sn中出现的次数在Sn=(f1(n),f2(n),…,fm(n))中归一化后的频度;秩和检验单元用于对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuplei进行秩和检验。特异性k-tuple确定单元在秩和检验结果小于第二设定阈值时,采用逻辑回归分类器预测k-tuple特征矩阵中k-tuplei对应行中各元素属于A类还是B类,根据计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数;若k-tuplei的ASS值大于第三设定阈值,则将所述k-tuple确定为特异性k-tuple。
作为本实施例的一种实施方式,本实施例提供的系统还包括:
特异性k-tuple验证模块203,用于验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple是否在C类数据中与在D类数据中都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除B类数据和所述身份特征待提取个体外的多个个体的皮肤数据样本组成。
作为本实施例的一种实施方式,本实施例提供的系统还包括:
个体稳定的特异性生物标记序列识别模块204,用于将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,将该长序列用于所述身份特征待提取个体的身份鉴定。
本发明基于许多个体皮肤宏基因组数据,利用k-tuple的频度向量的差异作为特征寻找个体的特异性k-tuple后拼装得到个体稳定的特异生物标记序列,基于个体稳定的特异性生物标记序列可以在多位犯罪嫌疑人中唯一的识别出某一个体。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于皮肤宏基因组数据的身份鉴定特征提取方法,其特征在于,包括:
获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;
将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。
2.根据权利要求1所述的基于皮肤宏基因组数据的身份鉴定特征提取方法,其特征在于,所述方法还包括:
验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple在C类数据中与在D类数据中是否都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除所述身份特征待提取个体和B类数据外的多个个体的皮肤数据样本组成。
3.根据权利要求1所述的基于皮肤宏基因组数据的身份鉴定特征提取方法,其特征在于,所述方法还包括:
将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,所述长序列用于所述身份特征待提取个体的身份鉴定。
5.根据权利要求1所述的基于皮肤宏基因组数据的身份鉴定特征提取方法,其特征在于,所述利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,具体包括:
获取k-tuple特征矩阵其中,S为皮肤数据样本,皮肤数据样本S1到皮肤数据样本Sn属于A类数据,皮肤数据样本Sn+1到皮肤数据样本SN属于B类数据,fm(n)为k-tuplem在皮肤数据样本Sn中出现的次数在Sn=(f1(n),f2(n),…,fm(n))中归一化后的频度;
对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuplei进行秩和检验,如果秩和检验结果小于第二设定阈值,则采用逻辑回归分类器预测k-tuple特征矩阵中k-tuplei对应行中各元素属于A类还是B类,根据计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数;若k-tuplei的ASS值大于第三设定阈值,则将所述k-tuple确定为特异性k-tuple。
6.一种基于皮肤宏基因组数据的身份鉴定特征提取系统,其特征在于,包括:
数据样本集获取模块,用于获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;
特异性k-tuple确定模块,用于将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。
7.根据权利要求6所述的基于皮肤宏基因组数据的身份鉴定特征提取系统,其特征在于,所述系统还包括:
特异性k-tuple验证模块,用于验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple在C类数据中与在D类数据中都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除所述身份特征待提取个体和B类数据外的多个个体的皮肤数据样本组成。
8.根据权利要求6所述的基于皮肤宏基因组数据的身份鉴定特征提取系统,其特征在于,所述系统还包括:
个体稳定的特异性生物标记序列识别模块,用于将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,所述长序列用于所述身份特征待提取个体的身份鉴定。
10.根据权利要求6所述的基于皮肤宏基因组数据的身份鉴定特征提取系统,其特征在于,所述特异性k-tuple确定模块,具体包括:
k-tuple特征矩阵获取单元,用于获取k-tuple特征矩阵其中,S为皮肤数据样本,皮肤数据样本S1到皮肤数据样本Sn属于A类数据,皮肤数据样本Sn+1到皮肤数据样本SN属于B类数据,fm(n)为k-tuplem在皮肤数据样本Sn中出现的次数在Sn=(f1(n),f2(n),…,fm(n))中归一化后的频度;
秩和检验单元,用于对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuplei进行秩和检验;
特异性k-tuple确定单元,用于在秩和检验结果小于第二设定阈值时,采用逻辑回归分类器预测k-tuple特征矩阵中k-tuplei对应行中各元素属于A类还是B类,根据计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数;若k-tuplei的ASS值大于第三设定阈值,则将所述k-tuple确定为特异性k-tuple。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110158603.4A CN112863593B (zh) | 2021-02-05 | 2021-02-05 | 基于皮肤宏基因组数据的身份鉴定特征提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110158603.4A CN112863593B (zh) | 2021-02-05 | 2021-02-05 | 基于皮肤宏基因组数据的身份鉴定特征提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112863593A true CN112863593A (zh) | 2021-05-28 |
CN112863593B CN112863593B (zh) | 2024-02-20 |
Family
ID=75989020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110158603.4A Active CN112863593B (zh) | 2021-02-05 | 2021-02-05 | 基于皮肤宏基因组数据的身份鉴定特征提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112863593B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120004111A1 (en) * | 2007-11-21 | 2012-01-05 | Cosmosid Inc. | Direct identification and measurement of relative populations of microorganisms with direct dna sequencing and probabilistic methods |
CN102722696A (zh) * | 2012-05-16 | 2012-10-10 | 西安电子科技大学 | 基于多生物特征的身份证与持有人的同一性认证方法 |
WO2014072349A1 (en) * | 2012-11-06 | 2014-05-15 | The University Of Surrey | Means and methods for identifying ribosome associated rna molecules |
CN106202999A (zh) * | 2016-07-21 | 2016-12-07 | 厦门大学 | 基于不同尺度tuple词频的微生物高通量测序数据分析协议 |
US20170243042A1 (en) * | 2011-02-04 | 2017-08-24 | Gannon Technologies Group, Llc | Systems and methods for biometric identification |
CN107609459A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种基于深度学习的人脸识别方法及装置 |
CN111326215A (zh) * | 2020-02-07 | 2020-06-23 | 厦门大学 | 一种基于k-tuple频度的核酸序列搜索方法及系统 |
CN111564179A (zh) * | 2020-05-09 | 2020-08-21 | 厦门大学 | 一种基于三元组神经网络的物种生物学分类方法及系统 |
-
2021
- 2021-02-05 CN CN202110158603.4A patent/CN112863593B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120004111A1 (en) * | 2007-11-21 | 2012-01-05 | Cosmosid Inc. | Direct identification and measurement of relative populations of microorganisms with direct dna sequencing and probabilistic methods |
US20170243042A1 (en) * | 2011-02-04 | 2017-08-24 | Gannon Technologies Group, Llc | Systems and methods for biometric identification |
CN102722696A (zh) * | 2012-05-16 | 2012-10-10 | 西安电子科技大学 | 基于多生物特征的身份证与持有人的同一性认证方法 |
WO2014072349A1 (en) * | 2012-11-06 | 2014-05-15 | The University Of Surrey | Means and methods for identifying ribosome associated rna molecules |
CN106202999A (zh) * | 2016-07-21 | 2016-12-07 | 厦门大学 | 基于不同尺度tuple词频的微生物高通量测序数据分析协议 |
CN107609459A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种基于深度学习的人脸识别方法及装置 |
CN111326215A (zh) * | 2020-02-07 | 2020-06-23 | 厦门大学 | 一种基于k-tuple频度的核酸序列搜索方法及系统 |
CN111564179A (zh) * | 2020-05-09 | 2020-08-21 | 厦门大学 | 一种基于三元组神经网络的物种生物学分类方法及系统 |
Non-Patent Citations (6)
Title |
---|
侯涛: "宏基因组中DNA片段物种多样性鉴定研究", CNKI * |
刘麟: "基于k-tuple频度统计的微生物群落测序数据分析", CNKI * |
周兆捷, 吴乐南: "基于自组织稀疏RAM的N-tuple神经网络的人脸识别", 信号处理, no. 04 * |
姚雪;刘文丽;裴广倩;童贻刚;罗亚平: "宏基因组靶向测序分析皮肤表面微生物群落方法优化", 生物技术通报, vol. 32, no. 11 * |
杨曦: "基于宏基因组编码的个体特征识别研究", CNKI * |
王颖;刘麟;: "一种基于RNA-Seq的基因组注解评估方法", 科学通报, no. 33 * |
Also Published As
Publication number | Publication date |
---|---|
CN112863593B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210294B (zh) | 优化模型的评价方法、装置、存储介质及计算机设备 | |
Grother et al. | Models of large population recognition performance | |
CN110797032B (zh) | 一种声纹数据库建立方法及声纹识别方法 | |
CN113593714A (zh) | 一种多分类新冠肺炎病例的检测方法、系统、设备及介质 | |
CN110570199A (zh) | 一种基于用户输入行为的用户身份检测方法及系统 | |
CN113096737B (zh) | 一种用于对病原体类型进行自动分析的方法及系统 | |
CN112863593A (zh) | 基于皮肤宏基因组数据的身份鉴定特征提取方法及系统 | |
JP7502850B2 (ja) | データ記録及び分析システム | |
KR102397822B1 (ko) | 염색체 구조의 상태 정보를 이용한 세포 분석 장치 및 방법 | |
CN106919837A (zh) | 一种恶意代码未知自启动识别方法及系统 | |
US20170147744A1 (en) | System for analyzing sequencing data of bacterial strains and method thereof | |
CN115688107A (zh) | 一种涉诈app检测系统和方法 | |
CN105843890A (zh) | 基于知识库面向大数据及普通数据的数据采集方法和系统 | |
CN113724779B (zh) | 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备 | |
Garris et al. | NIST fingerprint evaluations and developments | |
CN113239075B (zh) | 一种施工数据自检方法及系统 | |
Tom et al. | Next Generation Identification system: Latent print matching algorithm and casework practices | |
US10235408B1 (en) | User enrollment and verification | |
CN112163217B (zh) | 恶意软件变种识别方法、装置、设备及计算机存储介质 | |
CN114360530A (zh) | 语音测试方法、装置、计算机设备和存储介质 | |
Naim et al. | Classification of thumbprint using artificial neural network (ANN) | |
de Jongh et al. | Performance evaluation of automated fingerprint identification systems for specific conditions observed in casework using simulated fingermarks | |
Breuker et al. | Statistical sequence analysis for business process mining and organizational routines | |
CN113571092A (zh) | 一种发动机异响识别方法及其相关设备 | |
US8194943B2 (en) | Method for automatically recognizing fingerprints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |