CN107480471A - 基于小波变换为特征的序列相似性分析的方法 - Google Patents
基于小波变换为特征的序列相似性分析的方法 Download PDFInfo
- Publication number
- CN107480471A CN107480471A CN201710591333.XA CN201710591333A CN107480471A CN 107480471 A CN107480471 A CN 107480471A CN 201710591333 A CN201710591333 A CN 201710591333A CN 107480471 A CN107480471 A CN 107480471A
- Authority
- CN
- China
- Prior art keywords
- words
- sequence
- word
- word frequency
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/148—Wavelet transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Optimization (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开基于小波变换为特征的序列相似性分析的方法,其包括以下步骤:(1)选取原始DNA数据集;(2)对原始DNA数据集中的每一条序列进行K‑词处理;(3)统计每条序列中出现的K‑词的词频,对词频进行标准化处理;(4)根据每个K‑词对应的幅角给出其复数的映射;(5)每个K‑词的复数的乘上对应的标准化后的词频,将得到的实部乘积结果和虚部乘积结果按列合并;(6)对步骤(5)中得到的结果进行静态离散小波变换;(7)进行k‑means聚类运算,得到聚类结果。本发明基于小波变换为特征的序列相似性分析,运用复数和SWT的方法,不仅可以提取序列的时域信息,同时提取出信号的频域特征,SWT是一种复杂度较低的算法,并且K‑词的方法显著的降低维度,因此,本发明方法可以显著的提高运算速度和聚类的精确度。
Description
技术领域
本发明涉及生物信息处理领域,尤其涉及基于小波变换为特征的序列相似性分析的方法。
背景技术
近年来,生物的快速发展使得生物数据急剧膨胀,如何从海量的生物数据中快速高效的搜寻具有相似性的生物序列进行聚类是生物信息邻域的热门研究,分析序列的相似性也是生物信息处理的基础。生物序列的相似性搜寻是生物信息处理中的基本方法,其应用场景十分广泛,预测未知序列的作用和功能、构建生物或者物种的系统进化树、分析物种的同源性等都需要对序列进行相似性搜寻。所以,一种高效快速的相似性搜寻方法对于生物序列的相似性研究具有重要的意义。
一个复数是由一对有序的实数唯一确定,对于复平面上给定的直角坐标系,复数的全体与平面上点的全体唯一对应。复数的向量可以表示复平面上的点的几何意义、解析几何中点的坐标、距离等问题相互联系。将K-词通过幅角和词频的方式使时间序列转化到复数域,更加完整地保留了序列的原始信息。
小波变换能够较好地实现信号在时间域和频率域的局部变换,因此能够更加完整有效地提取和分析信号的局部特性。从生物序列在进行处理的过程中看,信号都是转化为数字信号。目前,大部分生物序列的特征提取方式都只是提取了信号的时域特征,忽略了信号的频域特征,频域特征则能够清楚准确的反应出信号的变换特征。小波变换可以实现时间域和频率域的局部变换,通过母小波的伸缩和平移运算对生物序列信号进行多尺度或多分辨率的分析,因而能更有效地从序列中提取有效的信息。
离散小波变换过程中,信号每进行一次分解,会对其进行下采样过程,采样的过程一般是只保留偶数项或者奇数项。因此,随着离散小波变换分解过程的增加,所提取的信号含的时移信息会丢失的越来越多,实验结果准确率也会随之大幅度降低。静态离散小波变换(SWT)则弥补了离散小波变换这一不足之处。SWT分解过程没有进行下采样,因此很好的保留了序列的信息。SWT通过滤波器分解得到的近似系数和细节系数的长度和原始信号相同,从而避免传统离散小波变换因为下采样而丢失序列信息的缺点。
小波变换的近似系数保留了信号的大部分信息,反应信号的变换特征,细节系数则主要保留信号的局部特征和噪音特征,不能很好的反应出信号的变化趋势。基于小波变换为特征的序列相似性分析方法是非比对的序列研究方法,与传统的比对方法相比,也极大的提高的运算的速度。
发明内容
本发明的目的在于克服现有的序列特征提取技术的不足,提供基于小波变换为特征的序列相似性分析的方法,将序列用K-词和幅角的方法转化成离散型的数据,使用SWT方法得到序列的特征向量,进行k-means聚类。本发明致力于探究出更加有效、准确、快速的方法提取序列的特征信息,以达到较好的聚类效果。
本发明采用的技术方案是:
基于小波变换为特征的序列相似性分析的方法,其包括以下步骤:
(1)选取原始DNA数据集;
(2)对原始DNA数据集中的每一条序列进行K-词处理,每条序列获得K-词的数量是L-K+1个,K-词的类别数是|∑|K,L是序列的长度;
(3)统计每条序列中出现的K-词的词频X,为了避免序列长度L的不同对词频X产生的影响,对词频X进行标准化处理,标准化后的结果为S;
(4)在复平面上,根据每个K-词对应的幅角给出其复数的映射。在复平面上定义一个单位圆,|∑|K类的K-词按照字母的排序均匀分布在单位圆上,每个K-词对应的幅角的正弦值为该K-词对应复数的实部,余弦值为该K-词对应复数的虚部。
(5)每个K-词的复数的实部和虚部分别乘上对应的标准化后的词频,将得到的实部乘积结果和虚部乘积结果按列合并得到序列的特征向量;
(6)选用coiflets滤波器作为母小波对步骤(5)中得到的结果进行静态离散小波变换;
(7)将得到的静态离散小波变换的结果进行k-means聚类运算,得到聚类结果。
进一步地,所述步骤(2)中序列是由{A,T,C,G}四个字母组成,K-词处理中的滑动窗口的长度为K,序列长度为L,每条序列获得K-词的数量是L-K+1个,K-词的类别数是|∑|K,Σ={A,C,G,T},|Σ|=4。
进一步地,所述步骤(3)中K-词的词频X={X1,X2…,Xt…,Xn},Xt为第t个K-词在当前序列中出现的频数,n为K-词的总数;
标准化处理的方法是将词频按比例缩放,落到0-1这个特定的区间,也可以称为词频的归一化;标准化公式为:
x是当前词频,y是标准化后的词频,mean(Value)是词频的均值,S(Value)是词频的标准差;
标准化后的词频:
S={S1,S2…,St…,Sn}
St为第t个K-词的词频x标准化后的结果,n为K-词的总数。
进一步地,所述步骤(4)中K-词复数表示的计算方式:每条序列对应|∑|K个K-词,复平面二维直角坐标系,K-词按照字母对应的ASCII的大小顺序进行排序,|∑|K个K-词逆时针方向均匀分布在以坐标原点为中心的单位圆上;
那么设定平均幅角为θ,即将一个圆周均分为|∑|K份,每份的幅角为θ,即
则第t个K-词所对应的幅角是θ的t倍,
即其中t表示该K-词在所有K-词中排序的位置;
进一步地,第t个K-词的复数值的实部为
第t个K-词的复数值的虚部为
本发明采用以上技术方案,通过对原始的生物序列根据K-词和复数域的幅角映射,K-词长度是K,从而获得|∑|K个词,将得到K-词按照步骤(4)的规则映射到复数域,并且每个K-词乘以其对应的词频,然后进行SWT得到序列的特征向量。
复数的辐角是复数三角形式表示的两个基本元素,所以将每个K-词用幅角的形势转化到复数域,能够突出的表现出序列的特征。用一个复数是由一对有序的实数唯一确定,所以对于复平面上给定的直角坐标系,复数的全体和此平面上点的全体是一一对应的关系。复数的向量可以表示复平面上的点的几何意义、解析几何中点的坐标、距离等问题相互联系。将K-词通过幅角的方式使序列转化到复数域,更加完整地保留了序列的原始信息。
基于小波变换为特征的序列相似性分析,运用复数和SWT的方法,不仅可以提取序列的时域信息,同时提取出信号的频域特征,SWT是一种复杂度较低的算法,并且K-词的方法显著的降低维度,因此,本发明方法可以显著的提高运算速度和聚类的精确度。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明基于小波变换为特征的序列相似性分析的方法的流程示意图。
具体实施方式
如图1所示,本发明公开了基于小波变换为特征的序列相似性分析的方法,其包括以下步骤:
(1)选取原始DNA数据集;
(2)对原始DNA数据集中的每一条序列进行K-词处理,每条序列获得K-词的数量是L-K+1个,K-词的类别数是|∑|K,L是序列的长度;
(3)统计每条序列中出现的K-词的词频X,为了避免序列长度L的不同对词频X产生的影响,对词频X进行标准化处理,标准化后的结果为S;
(4)在复平面上,根据每个K-词对应的幅角给出其复数的映射。在复平面上定义一个单位圆,|∑|K类的K-词按照字母的排序均匀分布在单位圆上,每个K-词对应的幅角的正弦值为该K-词对应复数的实部,余弦值为该K-词对应复数的虚部。
(5)每个K-词的复数的实部和虚部分别乘上对应的标准化后的词频,将得到的实部乘积结果和虚部乘积结果按列合并得到序列的特征向量;
(6)选用coiflets滤波器作为母小波对步骤(5)中得到的结果进行静态离散小波变换;
(7)将得到的静态离散小波变换的结果进行k-means聚类运算,得到聚类结果。
进一步地,所述步骤(2)中序列是由{A,T,C,G}四个字母组成,K-词处理中的滑动窗口的长度为K,序列长度为L,每条序列获得K-词的数量是L-K+1个,K-词的类别数是|∑|K,Σ={A,C,G,T},|Σ|=4。
进一步地,所述步骤(3)中K-词的词频X={X1,X2…,Xt…,Xn},Xt为第t个K-词在当前序列中出现的频数,n为K-词的总数;
标准化处理的方法是将词频按比例缩放,落到0-1这个特定的区间,也可以称为词频的归一化;标准化公式为:
x是当前词频,y是标准化后的词频,mean(Value)是词频的均值,S(Value)是词频的标准差;
标准化后的词频:
S={S1,S2…,St…,Sn}
St为第t个K-词的词频x标准化后的结果,n为K-词的总数。
进一步地,所述步骤(4)中K-词复数表示的计算方式:每条序列对应|∑|K个K-词,复平面二维直角坐标系,K-词按照字母对应的ASCII的大小顺序进行排序,|∑|K个K-词逆时针方向均匀分布在以坐标原点为中心的单位圆上;
那么设定平均幅角为θ,即将一个圆周均分为|∑|K份,每份的幅角为θ,即
则第t个K-词所对应的幅角是θ的t倍,
即其中t表示该K-词在所有K-词中排序的位置;
进一步地,第t个K-词的复数值的实部为
第t个K-词的复数值的虚部为
下面就本发明的处理过程做详细的说明:
为了更清楚描述本专利中生物序列的处理过程,随机抽取一个family中的2条DNA序列作为分析对象,以这些DNA序列为样例对专利实施过程进行详细的描述。基于小波变换为特征的序列相似性分析方法步骤如下:
(1)、从实验数据集中的某一个family中随机选取两条DNA序列作为分析对象;
(2)、对于每一个数据集,将其中每一条生物序列进行K-词处理,即一条生物序列通过一个长度为K的滑动窗口,在窗口中的这一段序列是一个K-词,每条序列获得K-词的数量是L-K+1个,K-词的类别数是|∑|K,L是序列的长度;
例如设滑动窗口长度K=2时获得的K-词个数:AA AC AG AT CA CC CG CT GA GCGG GT TA TC TG TT
随机抽取的DNA序列为:
第一条序列:
ATGAACTTCTCCGGCAAGTACCAGCTGCAGAGCCAGGAAAACTTTGAGGCCTTCATGAAGGCAGTCGGTCTGCCTGACGAACTCATCCAGAAGGGGAAGGACATCAAGGGGGTGTCGGAAATTGTGCAGAATGGGAAGCACTTCAAACTCACCATCACCACTGGGTCCAAAGTGATTCAAAATGAGTTCACCTTGGGGGAAGAGTGTGAGCTGGAGACCATGACTGGGGAGAAGGTCAAGGCTGTGGTCCAGATGGAAGGTGACAATAAACTGGTGACAACTTTCAAAGGCATCAAGTCTGTGACCGAACTCAATGGCGATGTGATCACCAATACCATGACATTGGGTGACATTGTCTTC
AAGAGAATCAGCAAGAGAATTTAA
第二条序列:
ATGAACTTCTCCGGCAAGTACCAAGTCCAGACCCAGGAGAACTATGAGGCCTTCATGAAGGCAGTTGGGA
TGCCCGATGACATCATCCAGAAGGGGAAGGATATCAAGGGGGTGTCGGAAATCGTGCAGAATGGGAAGCACTTCAAGTTCATCATCACCGCTGGCTCCAAAGTGATCCAGAATGAGTTCACCTTGGGGGAGGAGTGTGAGATGGAGTTCATGACTGGGGAGAAGATCAAGGCAGTGGTTCAGCAGGAAGGTGATAATAAACTTGTGACAACTTTCAAGGGCATCAAGTCTGTGACTGAATTCAATGGTGACACTGTTACCAGTACCATGACGAAGGGCGACGTTGTCTTCAAGAGAGTCAGCAAGAGAATTTAG
(3)、统计每条序列中出现的K-词的词频Xt,Xt为第t个K-词在当前序列中出现的频数,为了避免序列长度的不同对词频产生的影响,对词频进行标准化处理,标准化后的结果为St,St为第t个K-词的词频标准化后的结果;
表一:每个K-词在两个序列中的词频
表二:词频标准化后的结果
(4)、提出一种新的特征定义方法。在复平面上,根据每个K-词对应的幅角给出其复数的映射。每个词在复平面上的位置定义如下:在复平面上定义一个单位圆,|∑|K个K-词按照字母的排序均匀分布此在单位圆上,每个词对应的幅角的正弦值为该词对应复数的实部,余弦值为该词对应复数的虚部。那么则有
θ=360/|∑|K;
θ为平均幅角,即将一个圆周均分为|∑|K份,每份的幅角为θ。
为第t个K-词所对应的幅角,是θ的t倍。
t表示该词在所以K-词中排序的位置;
进一步的,第t个K-词的复数值的实部为
第t个K-词的复数值的虚部为
表三:每个词对应的复数值
(5)、对于每条生物序列按照步骤(4)转化成复数序列后,每个词的复数的实部和虚部分别乘上步骤(3)中标准化后的词频,将得到的实部乘积结果和虚部乘积结果按列合并;
复数的实部和虚部分别与标准化后的词频相乘,两部分的乘积按列进行合并即得到序列的特征向量;
第一条序列计算得到的特征向量:
表四:第一条序列复数值与标准化后的词频乘积
第二条序列计算得到的特征向量:
表五:第二条序列复数值与标准化后的词频乘积
(6)、步骤(5)中得到的复数值与标准化后的词频相乘的结果,实部和虚部按列合并后对其进行静态小波变换,选用coiflets滤波器作为母小波;
序列可以进行多级的分解,本例中给出两条序列SWT一级分解后得到序列的特征向量,由于SWT方法分解后得到的特征向量长度与输入信号长度相等所以得到的特征向量为:
序列的特征向量:-1.1661 -1.6418 -1.8824 -1.9052 -1.6074 -1.1732-0.41659 0.3991 1.2425 1.6943 1.9272 2.22 1.9009 1.1565 0.39917 -0.8507 -1.6644 -1.1567 -0.34301 0.35241 1.109 1.7623 2.1302 2.088 1.807 1.19590.35244 -0.4737 -1.231 -1.721 -1.9853 -1.374
序列的特征向量:-1.198 -1.5968 -1.9076 -1.9936 -1.6097 -1.1317 -0.4030.39127 1.2018 1.6372 1.9127 2.185 1.8857 1.1883 0.40167 -0.95666 -1.7584 -1.1311 -0.32931 0.36491 1.0937 1.7017 2.0665 2.0382 1.7552 1.153 0.34241 -0.45522 -1.2419 -1.7564 -2.0114 -1.438
(7)、步骤(6)得到的小波变换的结果进行k-means聚类运算,对k-means聚类结果运用F-measure模型进行评价。
本发明采用以上技术方案,生物序列的相似性搜寻是生物信息处理中的基本方法,其应用场景十分广泛,预测未知序列的作用和功能、构建生物或者物种的系统进化树、分析物种的同源性等都需要对序列进行相似性搜寻。基于小波变换为特征的序列相似性分析方法,用词频的方法降低序列的维度,并将序列通过幅角的方法映射到复数域,结合K-词的词频特征,进行静态小波变换。静态小波变换能较好地实现信号在时间域和频率域的局部变换,更加完整有效地提取和分析信号的局部特性。静态小波变换分解过程没有进行下采样,因此很好的保留了序列的信息,通过滤波器分解得到的近似系数和细节系数的长度和原始信号相同,从而避免传统离散小波变换因为下采样而丢失序列信息的缺点,而且其复杂度较低,能够显著的提高计算速度并且提高聚类精确度。
Claims (4)
1.基于小波变换为特征的序列相似性分析的方法,其特征在于:其包括以下步骤:
(1)选取原始DNA数据集;
(2)对原始DNA数据集中的每一条序列进行K-词处理,每条序列获得K-词的数量是L-K+1个,K-词的类别数是|∑|K,L是序列的长度;
(3)统计每条序列中出现的K-词的词频X,对词频X进行标准化处理,标准化后的结果为S;
(4)在复平面上定义一个单位圆,|∑|K类的K-词按照字母的排序均匀分布在单位圆上,每个K-词对应的幅角的正弦值为该K-词对应复数的实部,余弦值为该K-词对应复数的虚部。
(5)每个K-词的复数的实部和虚部分别乘上对应的标准化后的词频,将得到的实部乘积结果和虚部乘积结果按列合并得到序列的特征向量;
(6)选用coiflets滤波器作为母小波对步骤(5)中得到的结果进行静态离散小波变换;
(7)将得到的静态离散小波变换的结果进行k-means聚类运算,得到聚类结果。
2.根据权利要求1所述的基于小波变换为特征的序列相似性分析的方法,其特征在于:所述步骤(2)中序列是由{A,T,C,G}四个字母组成,K-词处理中的滑动窗口的长度为K,序列长度为L,每条序列获得K-词的数量是L-K+1个,K-词的类别数是|∑|K,Σ={A,C,G,T},|Σ|=4。
3.根据权利要求1所述的基于小波变换为特征的序列相似性分析的方法,其特征在于:所述步骤(3)中K-词的词频X={X1,X2…,Xt…,Xn},Xt为第t个K-词在当前序列中出现的频数,n为K-词的总数;
标准化处理的方法是将词频按比例缩放,落到0-1这个特定的区间,也可以称为词频的归一化;标准化公式为:
<mrow>
<mi>y</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mi>x</mi>
<mo>-</mo>
<mi>m</mi>
<mi>e</mi>
<mi>a</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mi>a</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mi>a</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
x是当前词频,y是标准化后的词频,mean(Value)是词频的均值,S(Value)是词频的标准差;标准化后的词频:
S={S1,S2…,St…,Sn}
St为第t个K-词的词频x标准化后的结果,n为K-词的总数。
4.根据权利要求1所述的基于小波变换为特征的序列相似性分析的方法,其特征在于:所述步骤(4)中K-词复数表示的计算方式:每条序列对应|∑|K个K-词,复平面二维直角坐标系,K-词按照字母对应的ASCII的大小顺序进行排序,|∑|K个K-词逆时针方向均匀分布在以坐标原点为中心的单位圆上;
那么设定平均幅角为θ,即将一个圆周均分为|∑|K份,每份的幅角为θ,即
则第t个K-词所对应的幅角是θ的t倍;即(1≤t≤|∑|K),其中t表示该K-词在所有K-词中排序的位置;
进一步地,第t个K-词的复数值的实部为
第t个K-词的复数值的虚部为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710591333.XA CN107480471B (zh) | 2017-07-19 | 2017-07-19 | 基于小波变换为特征的序列相似性分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710591333.XA CN107480471B (zh) | 2017-07-19 | 2017-07-19 | 基于小波变换为特征的序列相似性分析的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107480471A true CN107480471A (zh) | 2017-12-15 |
CN107480471B CN107480471B (zh) | 2020-09-01 |
Family
ID=60596624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710591333.XA Active CN107480471B (zh) | 2017-07-19 | 2017-07-19 | 基于小波变换为特征的序列相似性分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480471B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325805A (zh) * | 2018-09-20 | 2019-02-12 | 北京工业大学 | 基于K-means聚类算法及离散小波变换的无人超市客流量预测方法 |
CN110060735A (zh) * | 2019-04-04 | 2019-07-26 | 福建师范大学 | 一种基于k-mer组群分割的生物序列聚类方法 |
CN113189570A (zh) * | 2021-04-23 | 2021-07-30 | 中国科学院声学研究所 | 一种基于复域压缩感知的阵列信号处理方法及系统 |
CN113744714A (zh) * | 2021-09-27 | 2021-12-03 | 深圳市木愚科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104965999A (zh) * | 2015-06-05 | 2015-10-07 | 西安交通大学 | 一种中短基因片段测序的分析拼接方法及设备 |
CN105492625A (zh) * | 2013-04-17 | 2016-04-13 | 先锋国际良种公司 | 用于在基因组中表征dna序列组成的方法 |
WO2017024138A1 (en) * | 2015-08-06 | 2017-02-09 | Arc Bio, Llc | Systems and methods for genomic analysis |
CN106557668A (zh) * | 2016-11-04 | 2017-04-05 | 福建师范大学 | 基于lf熵的dna序列相似性检验方法 |
-
2017
- 2017-07-19 CN CN201710591333.XA patent/CN107480471B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105492625A (zh) * | 2013-04-17 | 2016-04-13 | 先锋国际良种公司 | 用于在基因组中表征dna序列组成的方法 |
CN104965999A (zh) * | 2015-06-05 | 2015-10-07 | 西安交通大学 | 一种中短基因片段测序的分析拼接方法及设备 |
WO2017024138A1 (en) * | 2015-08-06 | 2017-02-09 | Arc Bio, Llc | Systems and methods for genomic analysis |
CN106557668A (zh) * | 2016-11-04 | 2017-04-05 | 福建师范大学 | 基于lf熵的dna序列相似性检验方法 |
Non-Patent Citations (5)
Title |
---|
BINGHANG LIU 等: "Estimation of genomic characteristics by analyzing k-mer frequency in de novo genome projects", 《GENOMICS》 * |
M. LÉONARD 等: "On the number of elements to reorder when updating a suffix array", 《JOURNAL OF DISCRETE ALGORITHMS》 * |
尼玛达瓦: "基因组序列k-mer频次分析及核小体结合模体的理论预测和验证", 《中国博士学位论文全文数据库 基础科学辑》 * |
田元新 等: "离散小波变换用于生物序列的相似性研究", 《分析测试学报》 * |
邓伟: "生物序列的相似性分析及k词模型研究", 《中国博士学位论文全文数据库 基础科学辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325805A (zh) * | 2018-09-20 | 2019-02-12 | 北京工业大学 | 基于K-means聚类算法及离散小波变换的无人超市客流量预测方法 |
CN109325805B (zh) * | 2018-09-20 | 2022-03-11 | 北京工业大学 | 基于K-means聚类算法及离散小波变换的无人超市客流量预测方法 |
CN110060735A (zh) * | 2019-04-04 | 2019-07-26 | 福建师范大学 | 一种基于k-mer组群分割的生物序列聚类方法 |
CN113189570A (zh) * | 2021-04-23 | 2021-07-30 | 中国科学院声学研究所 | 一种基于复域压缩感知的阵列信号处理方法及系统 |
CN113744714A (zh) * | 2021-09-27 | 2021-12-03 | 深圳市木愚科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN113744714B (zh) * | 2021-09-27 | 2024-04-05 | 深圳市木愚科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107480471B (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mohammadi et al. | A critical survey of deconvolution methods for separating cell types in complex tissues | |
Erisoglu et al. | A new algorithm for initial cluster centers in k-means algorithm | |
Gaujoux et al. | Semi-supervised Nonnegative Matrix Factorization for gene expression deconvolution: a case study | |
CN101859383B (zh) | 基于时间序列重要点分析的高光谱遥感图像波段选择方法 | |
CN107480471A (zh) | 基于小波变换为特征的序列相似性分析的方法 | |
Yadav et al. | Multiresolution local binary pattern variants based texture feature extraction techniques for efficient classification of microscopic images of hardwood species | |
Alanis-Lobato et al. | Highlighting nonlinear patterns in population genetics datasets | |
Xu et al. | A t-SNE based classification approach to compositional microbiome data | |
Liao et al. | A new unsupervised binning approach for metagenomic sequences based on n-grams and automatic feature weighting | |
CN110146642A (zh) | 一种气味分析方法及装置 | |
WO2018018038A1 (en) | System and method for small molecule accurate recognition technology ("smart") | |
Feng et al. | Weight-based rotation forest for hyperspectral image classification | |
CN101763514A (zh) | 基于特征重要度排序谱聚类的图像分割方法 | |
Anderson et al. | Using cladistic characters to predict functional variety: experiments using early gnathostomes | |
Armstrong et al. | Applications and comparison of dimensionality reduction methods for microbiome data | |
Mandal et al. | FaRoC: fast and robust supervised canonical correlation analysis for multimodal omics data | |
Rahelivololona et al. | Phylogeny, infrageneric classification and species delimitation in the Malagasy Impatiens (Balsaminaceae) | |
Chugh et al. | An image retrieval framework design analysis using saliency structure and color difference histogram | |
CN109784233B (zh) | 一种基于Lp-范数的锁相值加权空间滤波方法及装置 | |
CN107103206B (zh) | 基于标准熵的局部敏感哈希的dna序列聚类 | |
Liu et al. | Characteristic gene selection via weighting principal components by singular values | |
Wagner | Straightforward clustering of single-cell RNA-Seq data with t-SNE and DBSCAN | |
CN109801672A (zh) | 多元互信息和残基结合能量蛋白质间相互作用预测方法 | |
Nicol et al. | Model-based dimensionality reduction for single-cell RNA-seq using generalized bilinear models | |
Krishna et al. | AdaBoost with feature selection using IoT to bring the paths for somatic mutations evaluation in cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Jiang Binghua Inventor after: Jiang Yue Inventor after: Wei Jing Inventor after: Lin Jie Inventor before: Jiang Yue Inventor before: Wei Jing Inventor before: Lin Jie |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |