CN112863593B - 基于皮肤宏基因组数据的身份鉴定特征提取方法及系统 - Google Patents

基于皮肤宏基因组数据的身份鉴定特征提取方法及系统 Download PDF

Info

Publication number
CN112863593B
CN112863593B CN202110158603.4A CN202110158603A CN112863593B CN 112863593 B CN112863593 B CN 112863593B CN 202110158603 A CN202110158603 A CN 202110158603A CN 112863593 B CN112863593 B CN 112863593B
Authority
CN
China
Prior art keywords
data
pattern
class
skin
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110158603.4A
Other languages
English (en)
Other versions
CN112863593A (zh
Inventor
王颖
郑艺銮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202110158603.4A priority Critical patent/CN112863593B/zh
Publication of CN112863593A publication Critical patent/CN112863593A/zh
Application granted granted Critical
Publication of CN112863593B publication Critical patent/CN112863593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明公开了一种基于皮肤宏基因组数据的身份鉴定特征提取方法及系统。该方法包括:获取由多个个体多次采样的皮肤数据样本构成的数据样本集,皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;将存在于A类数据中而不存在于B类数据中的k‑tuple确定为特异性k‑tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差异显著的k‑tuple确定为特异性k‑tuple,其中,A类数据由数据样本集中身份特征待提取个体的皮肤数据样本组成,B类数据由数据样本集中除身份特征待提取个体外的多个个体的皮肤数据样本组成。本发明基于特异性k‑tuple进行个体的身份鉴定,丰富了身份鉴别方法。

Description

基于皮肤宏基因组数据的身份鉴定特征提取方法及系统
技术领域
本发明涉及身份鉴定技术领域,特别是涉及一种基于皮肤宏基因组数据的身份鉴定特征提取方法及系统。
背景技术
现有犯罪嫌疑人身份鉴定主要是利用指纹来区分,方式比较单一,当前,亟需丰富身份鉴定方法。
发明内容
本发明的目的是提供一种基于皮肤宏基因组数据的身份鉴定特征提取方法及系统。
为实现上述目的,本发明提供了如下方案:
一种基于皮肤宏基因组数据的身份鉴定特征提取方法,包括:
获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;
将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。
可选的,所述方法还包括:
验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple在C类数据中与在D类数据中是否都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除所述身份特征待提取个体和B类数据外的多个个体的皮肤数据样本组成。
可选的,所述方法还包括:
将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,所述长序列用于所述身份特征待提取个体的身份鉴定。
可选的,所述将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,具体包括:
根据计算k-tuplei的ASS值,其中,i=1,2,…,m,TP是指A类数据中k-tuplei频度不为0的样本个数,FN是指A类数据中k-tuplei频度为0的样本个数,TN是指B类数据中k-tuplei频度为0的样本个数,FP是指B类数据中k-tuplei频度不为0的样本个数;
将ASS值大于第一设定阈值的k-tuple确定为特异性k-tuple。
可选的,所述利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,具体包括:
获取k-tuple特征矩阵其中,S为皮肤数据样本,皮肤数据样本S1到皮肤数据样本Sn属于A类数据,皮肤数据样本Sn+1到皮肤数据样本SN属于B类数据,fm(n)为k-tuplem在皮肤数据样本Sn中出现的次数在Sn=(f1(n),f2(n),…,fm(n))中归一化后的频度;
对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuplei进行秩和检验,如果秩和检验结果小于第二设定阈值,则采用逻辑回归分类器预测k-tuple特征矩阵中k-tuplei对应行中各元素属于A类还是B类,根据计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数;若k-tuplei的ASS值大于第三设定阈值,则将所述k-tuple确定为特异性k-tuple。
一种基于皮肤宏基因组数据的身份鉴定特征提取系统,包括:
数据样本集获取模块,用于获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;
特异性k-tuple确定模块,用于将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。
可选的,所述系统还包括:
特异性k-tuple验证模块,用于验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple在C类数据中与在D类数据中都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除所述身份特征待提取个体和B类数据外的多个个体的皮肤数据样本组成。
可选的,所述系统还包括:
个体稳定的特异性生物标记序列识别模块,用于将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,所述长序列用于所述身份特征待提取个体的身份鉴定。
可选的,所述特异性k-tuple确定模块,具体包括:
ASS值计算单元,用于根据计算k-tuplei的ASS值,其中,i=1,2,…,m,TP是指A类数据中k-tuplei频度不为0的样本个数,FN是指A类数据中k-tuplei频度为0的样本个数,TN是指B类数据中k-tuplei频度为0的样本个数,FP是指B类数据中k-tuplei频度不为0的样本个数;
特异性k-tuple确定单元,用于将ASS值大于第一设定阈值的k-tuple确定为特异性k-tuple。
可选的,所述特异性k-tuple确定模块,具体包括:
k-tuple特征矩阵获取单元,用于获取k-tuple特征矩阵其中,S为皮肤数据样本,皮肤数据样本S1到皮肤数据样本Sn属于A类数据,皮肤数据样本Sn+1到皮肤数据样本SN属于B类数据,fm(n)为k-tuplem在皮肤数据样本Sn中出现的次数在Sn=(f1(n),f2(n),…,fm(n))中归一化后的频度;
秩和检验单元,用于对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuplei进行秩和检验;
特异性k-tuple确定单元,用于在秩和检验结果小于第二设定阈值时,采用逻辑回归分类器预测k-tuple特征矩阵中k-tuplei对应行中各元素属于A类还是B类,根据计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数;若k-tuplei的ASS值大于第三设定阈值,则将所述k-tuple确定为特异性k-tuple。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于皮肤宏基因组数据的身份鉴定特征提取方法及系统,利用稳定的存在于人体皮肤表面的、存储着每个个体独一无二的微生物基因信息来对个体进行身份识别,丰富了个体身份识别的方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的基于皮肤宏基因组数据的身份鉴定特征提取方法的流程示意图;
图2为本发明实施例2提供的基于皮肤宏基因组数据的身份鉴定特征提取系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
皮肤是人类最大的一个器官,肤质有干燥、潮湿、油脂之分,并且含有大量的微生物。身体不同部位的皮肤有着不一样的微生物组,或者微生物的含量不同,又因每个个体的生活习惯不同等因素导致每个人的皮肤的微生物组都具有个体特异性。在法医现场的证据分析中,可以采集嫌疑人的皮肤样本数据并寻找其特异性生物标记序列,在分析犯罪现场采集的样本时,若出现了某一个体的多个特异性生物标记序列片段,则可作为该嫌疑人在场的辅助证据。由于皮肤中的微生物组能稳定存在于人体皮肤表面,因此利用人体表面的皮肤数据获得的特异性生物标记序列对犯罪嫌疑人进行身份鉴定具有极大的优势。
实施例1
参见图1,一种基于皮肤宏基因组数据的身份鉴定特征提取方法,该方法包括:
步骤101:获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;
步骤102:将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。
其中,步骤102中确定特异性k-tuple的方法可以具体如下:
根据计算k-tuplei的ASS值,其中,i=1,2,…,m,TP是指A类数据中k-tuplei频度不为0的样本个数,FN是指A类数据中k-tuplei频度为0的样本个数,TN是指B类数据中k-tuplei频度为0的样本个数,FP是指B类数据中k-tuplei频度不为0的样本个数;将ASS值大于第一设定阈值的k-tuple确定为特异性k-tuple。其中,第一设定阈值优选为0.9。
步骤102中确定特异性k-tuple的方法还可以具体如下:
获取k-tuple特征矩阵其中,S为皮肤数据样本,皮肤数据样本S1到皮肤数据样本Sn属于A类数据,皮肤数据样本Sn+1到皮肤数据样本SN属于B类数据,fm(n)为k-tuplem在皮肤数据样本Sn中出现的次数在Sn=(f1(n),f2(n),…,fm(n))中归一化后的频度;对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuplei进行秩和检验,得到的秩和检验结果p值若小于第二设定阈值,则说明该k-tuple在AB两类数据中存在较大频度差异,采用逻辑回归分类器预测k-tuple特征矩阵中k-tuplei对应行中各元素属于A类还是B类;并根据/>计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数;若k-tuplei的ASS值大于第三设定阈值,则将该k-tuple确定为特异性k-tuple。
作为本实施例的一个优选的实施方式,本实施例提供的方法还包括:
步骤103:验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple是否在C类数据中与在D类数据中都出现且频度差大于设定值。在该种实施方式中,步骤102中C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除B类数据和所述身份特征待提取个体外的多个个体的皮肤数据样本组成。验证的过程是对C类数据和D类数据进行如步骤102中所述A类数据和B类数据处理过程,验证步骤102中确定的特异性k-tuple是否在步骤103中也是特异性k-tuple,并将通过验证的特异性k-tuple作为最终用于鉴定个体身份的特异性k-tuple。
作为本实施例的一个优选的实施方式,本实施例提供的方法还包括:
步骤104:将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,即可获得个体的稳定的特异性生物标记序列。基于获得的个体的稳定的特异性生物标记序列可进行个体的身份鉴定。
在本实施例中,首先划分出AB两类数据作为第一组数据,用于识别个体的特异性k-tuple,其中A类是随机抽样身份特征待提取个体多个部位多个采样时间的数据,B类则是在其余所有个体中各自随机抽样得到的多部位多采样时间的样本。再分出剩余的CD两类数据作为第二组数据,用于检验身份特征待提取个体的特异性k-tuple,其中C类是身份特征待提取个体在抽取A类数据时中未被抽中的所有数据,D类则是在去除B类数据后其余所有个体中各自随机抽样得到的多部位多采样时间的样本。针对一段DNA序列G使用长度为k的滑动窗口从头到尾扫描整段DNA序列,计算每个k-tuple在整段DNA序列中出现的次数(频度),得到k-tuple频度向量后并归一化处理,如公式(1)所示,其中fi o(j)为k-tuplei在样本j中出现的次数,fi(j)为k-tuplei在样本j中归一化后的频度。
对第一组的每个测序数据都进行上述操作获得数据的k-tuple特征矩阵F,如公式(2)所示,其中S1,S2,…,SN为皮肤的宏基因组数据,且同一类别的样本相邻排序,如S1,…,Sn为A类数据,Sn+1,…,SN为B类数据,矩阵中的fm(N)表示k-tuplem在样本N中经过归一化后的频度。
根据k-tuple的频度差异获得身份特征待提取个体的特异性k-tuple。特异性k-tuple可以采取以下两种方式获得:
a)逻辑型类别特异性k-tuple
这是指仅在k-tuple特征矩阵F中的A类数据中存在而不存在于B类数据的k-tuple,即该k-tuple仅存在于某一个体的皮肤宏基因组数据中而不存在于其余个体中。将k-tuple特征矩阵F中的k-tuple频度逻辑化,即非0值对应逻辑值1,其余的对应逻辑值0。用公式(3)计算k-tuple的ASS值,并筛选出ASS值超过某一阈值的k-tuple,称其为特异性k-tuple。
其中,i=1,2,…,m,TP是指A类数据中k-tuplei频度不为0的样本个数,FN是指A类数据中k-tuplei频度为0的样本个数,TN是指B类数据中k-tuplei频度为0的样本个数,FP是指B类数据中k-tuplei频度不为0的样本个数。
b)数值型类别特异性k-tuple
利用秩和检验判断某一k-tuple在AB两类数据中的频度是否存在差异,若秩和检验的p值小于给定阈值则认为该k-tuple在第一组的AB两类数据中的频度具有显著差异。具体方法如下:对k-tuple特征矩阵F中各行行内的所有元素按大小进行排序,并赋值对应秩次;利用秩和检验判断该k-tuple在A类数据中与在B类数据中频度是否具有差异性,若秩和检验结果p值小于给定阈值则认为该k-tuple在AB两类数据中的频度具有差异性。逻辑回归分类器预测在AB两类数据构成的k-tuple特征矩阵中具有频度显著差异的k-tuplei对应行中各元素属于A类还是B类;并根据计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数。若预测结果的ASS值大于某个阈值,则认为该k-tuple为数值型特异性k-tuple。
实施例2
参见图2,本实施例通过了一种基于皮肤宏基因组数据的身份鉴定特征提取系统,该系统包括:
数据样本集获取模块201,用于获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;
特异性k-tuple确定模块202,用于将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。
其中,作为本实施例的一种实施方式,特异性k-tuple确定模块202,可以包括:ASS值计算单元和特异性k-tuple确定单元。ASS值计算单元用于根据计算k-tuplei的ASS值,其中,i=1,2,…,m,TP是指A类数据中k-tuplei频度不为0的样本个数,FN是指A类数据中k-tuplei频度为0的样本个数,TN是指B类数据中k-tuplei频度为0的样本个数,FP是指B类数据中k-tuplei频度不为0的样本个数;特异性k-tuple确定单元用于将ASS值大于第一设定阈值的k-tuple确定为特异性k-tuple。
作为本实施例的一种实施方式,特异性k-tuple确定模块202,还可以包括:k-tuple特征矩阵获取单元、秩和检验单元以及特异性k-tuple确定单元。其中,k-tuple特征矩阵获取单元用于获取k-tuple特征矩阵其中,S为皮肤数据样本,皮肤数据样本S1到皮肤数据样本Sn属于A类数据,皮肤数据样本Sn+1到皮肤数据样本SN属于B类数据,fm(n)为k-tuplem在皮肤数据样本Sn中出现的次数在Sn=(f1(n),f2(n),…,fm(n))中归一化后的频度;秩和检验单元用于对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuplei进行秩和检验。特异性k-tuple确定单元在秩和检验结果小于第二设定阈值时,采用逻辑回归分类器预测k-tuple特征矩阵中k-tuplei对应行中各元素属于A类还是B类,根据/>计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数;若k-tuplei的ASS值大于第三设定阈值,则将所述k-tuple确定为特异性k-tuple。
作为本实施例的一种实施方式,本实施例提供的系统还包括:
特异性k-tuple验证模块203,用于验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple是否在C类数据中与在D类数据中都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除B类数据和所述身份特征待提取个体外的多个个体的皮肤数据样本组成。
作为本实施例的一种实施方式,本实施例提供的系统还包括:
个体稳定的特异性生物标记序列识别模块204,用于将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,将该长序列用于所述身份特征待提取个体的身份鉴定。
本发明基于许多个体皮肤宏基因组数据,利用k-tuple的频度向量的差异作为特征寻找个体的特异性k-tuple后拼装得到个体稳定的特异生物标记序列,基于个体稳定的特异性生物标记序列可以在多位犯罪嫌疑人中唯一的识别出某一个体。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于皮肤宏基因组数据的身份鉴定特征提取方法,其特征在于,包括:
获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;
将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。
2.根据权利要求1所述的基于皮肤宏基因组数据的身份鉴定特征提取方法,其特征在于,所述方法还包括:
验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple在C类数据中与在D类数据中是否都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除所述身份特征待提取个体和B类数据外的多个个体的皮肤数据样本组成。
3.根据权利要求1所述的基于皮肤宏基因组数据的身份鉴定特征提取方法,其特征在于,所述方法还包括:
将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,所述长序列用于所述身份特征待提取个体的身份鉴定。
4.根据权利要求1所述的基于皮肤宏基因组数据的身份鉴定特征提取方法,其特征在于,所述将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,具体包括:
根据计算k-tuplei的ASS值,其中,i=1,2,…,m,TP是指A类数据中k-tuplei频度不为0的样本个数,FN是指A类数据中k-tuplei频度为0的样本个数,TN是指B类数据中k-tuplei频度为0的样本个数,FP是指B类数据中k-tuplei频度不为0的样本个数;
将ASS值大于第一设定阈值的k-tuple确定为特异性k-tuple。
5.根据权利要求1所述的基于皮肤宏基因组数据的身份鉴定特征提取方法,其特征在于,所述利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,具体包括:
获取k-tuple特征矩阵其中,S为皮肤数据样本,皮肤数据样本S1到皮肤数据样本Sn属于A类数据,皮肤数据样本Sn+1到皮肤数据样本SN属于B类数据,fm(n)为k-tuplem在皮肤数据样本Sn中出现的次数在Sn=(f1(n),f2(n),…,fm(n))中归一化后的频度;
对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuplei进行秩和检验,如果秩和检验结果小于第二设定阈值,则采用逻辑回归分类器预测k-tuple特征矩阵中k-tuplei对应行中各元素属于A类还是B类,根据计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数;若k-tuplei的ASS值大于第三设定阈值,则将所述k-tuple确定为特异性k-tuple。
6.一种基于皮肤宏基因组数据的身份鉴定特征提取系统,其特征在于,包括:
数据样本集获取模块,用于获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;
特异性k-tuple确定模块,用于将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。
7.根据权利要求6所述的基于皮肤宏基因组数据的身份鉴定特征提取系统,其特征在于,所述系统还包括:
特异性k-tuple验证模块,用于验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple在C类数据中与在D类数据中都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除所述身份特征待提取个体和B类数据外的多个个体的皮肤数据样本组成。
8.根据权利要求6所述的基于皮肤宏基因组数据的身份鉴定特征提取系统,其特征在于,所述系统还包括:
个体稳定的特异性生物标记序列识别模块,用于将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,所述长序列用于所述身份特征待提取个体的身份鉴定。
9.根据权利要求6所述的基于皮肤宏基因组数据的身份鉴定特征提取系统,其特征在于,所述特异性k-tuple确定模块,具体包括:
ASS值计算单元,用于根据计算k-tuplei的ASS值,其中,i=1,2,…,m,TP是指A类数据中k-tuplei频度不为0的样本个数,FN是指A类数据中k-tuplei频度为0的样本个数,TN是指B类数据中k-tuplei频度为0的样本个数,FP是指B类数据中k-tuplei频度不为0的样本个数;
特异性k-tuple确定单元,用于将ASS值大于第一设定阈值的k-tuple确定为特异性k-tuple。
10.根据权利要求6所述的基于皮肤宏基因组数据的身份鉴定特征提取系统,其特征在于,所述特异性k-tuple确定模块,具体包括:
k-tuple特征矩阵获取单元,用于获取k-tuple特征矩阵其中,S为皮肤数据样本,皮肤数据样本S1到皮肤数据样本Sn属于A类数据,皮肤数据样本Sn+1到皮肤数据样本SN属于B类数据,fm(n)为k-tuplem在皮肤数据样本Sn中出现的次数在Sn=(f1(n),f2(n),…,fm(n))中归一化后的频度;
秩和检验单元,用于对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuplei进行秩和检验;
特异性k-tuple确定单元,用于在秩和检验结果小于第二设定阈值时,采用逻辑回归分类器预测k-tuple特征矩阵中k-tuplei对应行中各元素属于A类还是B类,根据计算k-tuplei的ASS值,TPi'是指k-tuplei中实际结果和分类器预测结果都属于A类的元素个数,FNi'是指k-tuplei中实际结果属于A类但分类器预测结果属于B类的元素个数,TNi'是指k-tuplei中实际结果和分类器预测结果都属于B类的元素个数,FPi'是指k-tuplei中实际结果属于B类但分类器预测结果属于A类的元素个数;若k-tuplei的ASS值大于第三设定阈值,则将所述k-tuple确定为特异性k-tuple。
CN202110158603.4A 2021-02-05 2021-02-05 基于皮肤宏基因组数据的身份鉴定特征提取方法及系统 Active CN112863593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110158603.4A CN112863593B (zh) 2021-02-05 2021-02-05 基于皮肤宏基因组数据的身份鉴定特征提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110158603.4A CN112863593B (zh) 2021-02-05 2021-02-05 基于皮肤宏基因组数据的身份鉴定特征提取方法及系统

Publications (2)

Publication Number Publication Date
CN112863593A CN112863593A (zh) 2021-05-28
CN112863593B true CN112863593B (zh) 2024-02-20

Family

ID=75989020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110158603.4A Active CN112863593B (zh) 2021-02-05 2021-02-05 基于皮肤宏基因组数据的身份鉴定特征提取方法及系统

Country Status (1)

Country Link
CN (1) CN112863593B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722696A (zh) * 2012-05-16 2012-10-10 西安电子科技大学 基于多生物特征的身份证与持有人的同一性认证方法
WO2014072349A1 (en) * 2012-11-06 2014-05-15 The University Of Surrey Means and methods for identifying ribosome associated rna molecules
CN106202999A (zh) * 2016-07-21 2016-12-07 厦门大学 基于不同尺度tuple词频的微生物高通量测序数据分析协议
CN107609459A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种基于深度学习的人脸识别方法及装置
CN111326215A (zh) * 2020-02-07 2020-06-23 厦门大学 一种基于k-tuple频度的核酸序列搜索方法及系统
CN111564179A (zh) * 2020-05-09 2020-08-21 厦门大学 一种基于三元组神经网络的物种生物学分类方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478544B2 (en) * 2007-11-21 2013-07-02 Cosmosid Inc. Direct identification and measurement of relative populations of microorganisms with direct DNA sequencing and probabilistic methods
US10552661B2 (en) * 2011-02-04 2020-02-04 Sciometrics, Llc Systems and methods for biometric identification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722696A (zh) * 2012-05-16 2012-10-10 西安电子科技大学 基于多生物特征的身份证与持有人的同一性认证方法
WO2014072349A1 (en) * 2012-11-06 2014-05-15 The University Of Surrey Means and methods for identifying ribosome associated rna molecules
CN106202999A (zh) * 2016-07-21 2016-12-07 厦门大学 基于不同尺度tuple词频的微生物高通量测序数据分析协议
CN107609459A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种基于深度学习的人脸识别方法及装置
CN111326215A (zh) * 2020-02-07 2020-06-23 厦门大学 一种基于k-tuple频度的核酸序列搜索方法及系统
CN111564179A (zh) * 2020-05-09 2020-08-21 厦门大学 一种基于三元组神经网络的物种生物学分类方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
一种基于RNA-Seq的基因组注解评估方法;王颖;刘麟;;科学通报(第33期);全文 *
基于k-tuple频度统计的微生物群落测序数据分析;刘麟;CNKI;全文 *
基于宏基因组编码的个体特征识别研究;杨曦;CNKI;全文 *
基于自组织稀疏RAM的N-tuple神经网络的人脸识别;周兆捷, 吴乐南;信号处理(第04期);全文 *
宏基因组中DNA片段物种多样性鉴定研究;侯涛;CNKI;全文 *
宏基因组靶向测序分析皮肤表面微生物群落方法优化;姚雪;刘文丽;裴广倩;童贻刚;罗亚平;生物技术通报;第32卷(第11期);全文 *

Also Published As

Publication number Publication date
CN112863593A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
Mapes et al. Knowledge on DNA success rates to optimize the DNA analysis process: from crime scene to laboratory
CN116189179B (zh) 循环肿瘤细胞扫描分析设备
Grother et al. Models of large population recognition performance
WO2004079658A1 (ja) 生体画像照合装置およびその照合方法
CN110991536A (zh) 原发性肝癌的早期预警模型的训练方法
Budowle et al. Review of the scientific basis for friction ridge comparisons as a means of identification: Committee findings and recommendations
CN113593714A (zh) 一种多分类新冠肺炎病例的检测方法、系统、设备及介质
CN111180013B (zh) 检测血液病融合基因的装置
CN110797032B (zh) 一种声纹数据库建立方法及声纹识别方法
CN113096737B (zh) 一种用于对病原体类型进行自动分析的方法及系统
CN112863593B (zh) 基于皮肤宏基因组数据的身份鉴定特征提取方法及系统
KR102124193B1 (ko) 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법
CN112015779A (zh) 学生偏好预测的方法、系统和装置
US20170147744A1 (en) System for analyzing sequencing data of bacterial strains and method thereof
KR102397822B1 (ko) 염색체 구조의 상태 정보를 이용한 세포 분석 장치 및 방법
Fuglsby et al. Use of an Automated System to Evaluate Feature Dissimilarities in Handwriting Under a Two‐Stage Evaluative Process
US8271511B2 (en) Method for forming a reference list of marks, database and method for forming said database
CN110880008A (zh) 基于脑核磁影像数据的结构特征提取和分类方法
Breuker et al. Statistical sequence analysis for business process mining and organizational routines
CN109273025B (zh) 一种中国民族五声调式情感识别方法及系统
Meagher et al. Defining AFIS Latent Print Lights-Out
Tom et al. Next Generation Identification system: Latent print matching algorithm and casework practices
US8194943B2 (en) Method for automatically recognizing fingerprints
CN116230084A (zh) 一种基于蛋白质数据的人群区分方法及系统
CN116595227A (zh) 一种基于热线数据提取通用知识的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant