CN111144481B - 一种基于谱聚类的单分子电输运数据的聚类方法 - Google Patents

一种基于谱聚类的单分子电输运数据的聚类方法 Download PDF

Info

Publication number
CN111144481B
CN111144481B CN201911363991.9A CN201911363991A CN111144481B CN 111144481 B CN111144481 B CN 111144481B CN 201911363991 A CN201911363991 A CN 201911363991A CN 111144481 B CN111144481 B CN 111144481B
Authority
CN
China
Prior art keywords
clustering
conductance
histogram
data
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911363991.9A
Other languages
English (en)
Other versions
CN111144481A (zh
Inventor
林禄春
洪文晶
唐淳
潘志超
师佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201911363991.9A priority Critical patent/CN111144481B/zh
Publication of CN111144481A publication Critical patent/CN111144481A/zh
Application granted granted Critical
Publication of CN111144481B publication Critical patent/CN111144481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Abstract

一种基于谱聚类的单分子电输运数据的聚类方法,涉及单分子电输运数据。收集所有的单分子电导‑距离曲线数据,对每一条曲线数据都做一维电导柱状统计图;根据感兴趣的电导区间,选取对应区间的电导柱状统计图,作为谱聚类的数据集;根据谱聚类的算法流程,构造相似矩阵A;利用谱聚类的标准流程,选定聚类数K从2~M,对一维电导柱状统计图做聚类,聚成K类;根据CH指标的最大值,获得最优的聚类数Kopt;保留聚类数为Kopt的聚类结果,即得最终的最优的单分子电导‑距离曲线数据的聚类结果。在测量某个单分子电导中,可准确而有效的获知该单分子最有可能的几套电导值,为研究单分子电输运性质提供可靠的数据资料。

Description

一种基于谱聚类的单分子电输运数据的聚类方法
技术领域
本发明涉及单分子电输运数据,尤其是涉及一种基于谱聚类的单分子电输运数据的聚类方法。
背景技术
目前,扫描隧道裂结(Scanning Tunneling Microscope Break Junction,STM-BJ)技术和机械可控裂结(Mechanically Controllable Break Junction,MCBJ)技术作为测量单分子电导的常用技术,通过不断的拉伸和靠近两电极对,可以在单次实验中重复获取大量电导-距离曲线数据,即单分子电输运数据。针对这样大量的电导数据,实现高效、可信的数据处理与表征,有助于充分挖掘出数据中与单分子电导有关的信息,为制备分子器件提供数据依据。
传统的一维电导柱状统计图(histogram),二维电导——距离柱状统计图仍然发挥着重要作用,但是这种基于所有数据的统计方法,不可避免的有它固有问题:1、细小的事件容易被大的趋势所覆盖,导致无法被注意到;2、当多事件以相同的概率出现时,此方法容易产生错误的信息;3、由于分子结电导的可变性,此方法无法给出裂结实验中具体可能发生多少种事件。针对这些问题,近年来国际上出现了对单分子电输运数据进行聚类分析的方法。2016年,Mario Lemmer等人(Lemmer,M.;Inkpen,M.S.;Kornysheva,K.;Long,N.J.;Albrecht,T.Nature Communications 2016,7)提出了基于向量的多参数分类方法(Multi-Parameters Vector-based Classification process,MPVC)对单分子电输运数据中不同电学信号进行分组,但是针对具有多套电导台阶的数据筛选结果较差。2018年,Hamill等人(Hamill,J.M.;Zhao,X.T.;Meszaros,G.;Bryce,M.R.;Arenz,M.Phys Rev Lett 2018,120,016601)提出一种主成分分析方法(Principal Component Analysis,PCA)来实现两类电导台阶数据的筛选,这仅限于两类,有一定局限性。2019年,Cabosart等人使用聚类算法K-means++作用于单条电导曲线的二维柱状统计图,对OPE3分子的电导曲线做聚类分析;紧接着,Abbassi等人(Cabosart,D.;El Abbassi,M.;Stefani,D.;Frisenda,R.;Calame,M.;vander Zant,H.S.J.;Perrin,M.L.Appl.Phys.Lett.2019,114)就用此方法研究了卟啉分子的三种电输运轨道。但是,这些方法都没有具体有效的评价指标,都是根据经验获得数据集中的可能的聚类数目。
发明内容
本发明的目的是提供能够对单分子电输运数据实现自动化的准确的分组并确定具体的分组数目,从而提高单分子电导测量的表征能力,挖掘出更多有效、可信的单分子电导信息,为分子电子学的研究以及制备分子器件提供可靠的数据基础的一种基于谱聚类算法的单分子电输运数据的聚类分析方法。
本发明包括以下步骤:
1)收集所有的单分子电导-距离曲线数据,对每一条曲线数据都做一维电导柱状统计图(histogram);
2)根据感兴趣的电导区间,选取对应区间的电导柱状统计图,作为谱聚类的数据集;
3)根据谱聚类的算法流程,构造相似矩阵A;
在步骤3)中,所述构造相似矩阵A的方法可为:
使用一维柱状图两两之间的相关系数Cij都加上1所生成的矩阵,作为谱聚类中的相似矩阵A;即:
Aij=Cij+1,i≠j
且Aii=0,或
Aij=Cij*0.5+0.5,i≠j
保证Aij非负即可。
4)利用谱聚类的标准流程,选定聚类数K从2~M(M的值根据需要,由人工设定),对一维电导柱状统计图做聚类,聚成K类;
5)通过计算聚类的评价指标:Calinski–Harabasz(CH)指标,根据该指标的最大值,获得最优的聚类数Kopt
6)保留步骤4)中聚类数为Kopt的聚类结果,即得到最终的最优的单分子电导-距离曲线数据的聚类结果。
本发明使用电导-距离曲线的一维电导直方图做谱聚类,并使用聚类的评价指标:Calinski–Harabasz(CH)指标,明确指出电导-距离曲线中含有几类,能够获得更为准确的分子结电导实验测量值。本发明应用在测量某个单分子电导的实验数据中,可以准确而有效的获知该单分子最有可能的几套电导值,为研究单分子电输运性质提供可靠的数据资料。
附图说明
图1为本发明实施例的电导-距离曲线示意图。
图2为本发明实施例的单条电导-距离曲线的一维电导柱状示意图。
图3为本发明实施例的聚类的评价指标示意图。
图4为本发明实施例的最优聚类结果的一维电导柱状示意图。
图5为本发明实施例的碳硼烷分子的示意图。
具体实施方式
以下实施例将结合附图对本发明的技术方案做进一步说明,但是本发明的保护范围并不限于这些实施例。凡是不背离本发明构思的改变或等同替代均包括在本发明的保护范围之内。
实施例1
1.对实验获得的所有单条电导-距离曲线作一维柱状图:
如实施例图1,是单条电导-距离曲线的示意图,每条曲线以距离1nm为间隔以示区分。可以看出电导取以10为底的对数后,分布于0.3log(G/G0)到-8log(G/G0)的范围内,将这个范围平均分为300个区间,当曲线中的电导数据落于这些均分的区间中,则计数为1,如此累积统计,则得到单条电导-距离曲线的一维电导柱状图,如实施例图2所示,各个一维电导柱状图,以统计数300为间隔以示区分。本实施例共有N=5353条电导曲线,记为yi(i=1,2,…,5353),于是有5353条一维电导柱状统计图,每个一维电导柱状统计图有300个点。本实施例感兴趣的电导区间设为-7log(G/G0)到-1log(G/G0),因此只筛选此区间的一维电导柱状图,即hi(i=1,2,…,5353),做后续计算。
2.根据谱聚类算法,构造相似矩阵A:
本实施例中相似矩阵A中的对角元素都为零,即Aii=0,而Aij=0.5Cij+0.5如果i≠j;其中,Cij表示步骤1中感兴趣电导区间的一维电导柱状图hi与hj的相关系数,即:
Figure BDA0002337929300000031
其中<hi>代表柱状图hi的平均值。
3.根据谱聚类算法标准流程,本实施例构造的谱聚类的拉普拉斯矩阵为:L=D-1/ 2AD-1/2-I,其中矩阵D对角阵,对角元素为矩阵A的每一行的求和值,I为单位矩阵,都是N行N列的矩阵。
4.计算拉普拉斯矩阵L的特征值与特征向量,并将特征值的从大到小排列,特征向量也对应特征值排列,设为x1,x2,...xN,得到特征向量组成的矩阵X=[x1,x2,...xN]N*N。本实施例采用奇异值分解来完成这一步。
5.可以根据需要,选取聚类数K。本实施例选择聚类数K从2~17,对每一个K,取矩阵X的前K列组成矩阵XK,作K-means++聚类,聚成K类。当XK中的某一行i被归类到某一类CLj时,则相应的柱状图hi或曲线yi归属于类CLj
6.通过计算聚类的评价指标:Calinski–Harabasz(CH)指标ICH,可以获得最优的聚类数Kopt。CH指标的计算公式为:
Figure BDA0002337929300000041
其中|CLi|表示属于类CLi的柱状图数目,U表示所有柱状图的中心,即:
Figure BDA0002337929300000042
而ui则为类CLi中的所有柱状图的中心,即:
Figure BDA0002337929300000043
另外,距离d(hi,hj)表示相关系数距离,而不是常用的欧式距离,即d(hi,hj)=1–Cij。本实施例选聚类数K从2~17,分别计算出相应的CH指标值,对应于CH指标最大值的那个聚类数K就是最优的聚类数Kopt。图3为本实施例的聚类的评价指标示意图,从图3可以看出,本实施例最优聚类数Kopt=4。
7.保留步骤6中聚类数为Kopt=4的聚类结果,就得到本实施例最终的最优聚类结果,本发明实施例的最优聚类结果的一维电导柱状示意图参见图4。
本实施例的所使用的单分子是碳硼烷分子见图5,从传统的一维电导图中无法准确获知该分子的所有电导值,如实施例图4中的曲线a,而经过本发明方法的处理,可以获知该分子拥有三个电导值,即实施例图4中的曲线b,c,e。本实施例的流程具有普遍性,对于其它的单分子电导测量数据,即电导-距离曲线数据,以同样的流程可以获得相应的聚类结果。

Claims (1)

1.一种基于谱聚类的单分子电输运数据的聚类方法,其特征在于包括以下步骤:
1)收集所有的单分子电导-距离曲线数据,对每一条曲线数据都做一维电导柱状统计图;
2)根据感兴趣的电导区间,选取对应区间的电导柱状统计图,作为谱聚类的数据集;
3)根据谱聚类的算法流程,构造相似矩阵A;
所述构造相似矩阵A的方法为:
使用一维柱状图两两之间的相关系数Cij都加上1所生成的矩阵,作为谱聚类中的相似矩阵A;即:
Aij=Cij+1,i≠j,且Aii=0
Aij=Cij*0.5+0.5,i≠j,保证Ai j非负即可
4)利用谱聚类的标准流程,选定聚类数K从2~M,对一维电导柱状统计图做聚类,聚成K类;M的值根据需要,由人工设定;
5)通过计算聚类的评价指标:Calinski–Harabasz指标,根据该指标的最大值,获得最优的聚类数Kopt
所述Calinski–Harabasz指标的计算公式为:
Figure FDA0003634840220000011
其中,|CLi|表示属于类CLi的柱状图数目,U表示所有柱状图的中心,即:
Figure FDA0003634840220000012
而ui则为类CLi中的所有柱状图的中心,即:
Figure FDA0003634840220000013
另外,距离d(hi,hj)表示相关系数距离,而不是常用的欧式距离,即d(hi,hj)=1–Cij
6)保留步骤4)中聚类数为Kopt的聚类结果,即得到最终的最优的单分子电导-距离曲线数据的聚类结果。
CN201911363991.9A 2019-12-26 2019-12-26 一种基于谱聚类的单分子电输运数据的聚类方法 Active CN111144481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911363991.9A CN111144481B (zh) 2019-12-26 2019-12-26 一种基于谱聚类的单分子电输运数据的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911363991.9A CN111144481B (zh) 2019-12-26 2019-12-26 一种基于谱聚类的单分子电输运数据的聚类方法

Publications (2)

Publication Number Publication Date
CN111144481A CN111144481A (zh) 2020-05-12
CN111144481B true CN111144481B (zh) 2022-06-21

Family

ID=70520299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911363991.9A Active CN111144481B (zh) 2019-12-26 2019-12-26 一种基于谱聚类的单分子电输运数据的聚类方法

Country Status (1)

Country Link
CN (1) CN111144481B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968852A (zh) * 2010-09-09 2011-02-09 西安电子科技大学 基于熵排序的半监督谱聚类确定聚类数的方法
CN107657266A (zh) * 2017-08-03 2018-02-02 华北电力大学(保定) 一种基于改进谱多流形聚类的负荷曲线聚类方法
CN109342510A (zh) * 2018-09-19 2019-02-15 厦门大学 一种基于单分子电学检测的手性识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6828800B2 (en) * 2000-12-14 2004-12-07 Yeda Research And Development Co. Ltd. Single-molecule detector

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968852A (zh) * 2010-09-09 2011-02-09 西安电子科技大学 基于熵排序的半监督谱聚类确定聚类数的方法
CN107657266A (zh) * 2017-08-03 2018-02-02 华北电力大学(保定) 一种基于改进谱多流形聚类的负荷曲线聚类方法
CN109342510A (zh) * 2018-09-19 2019-02-15 厦门大学 一种基于单分子电学检测的手性识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A reference-free clustering method for the analysis of molecular break-junction measurements;Cabosart, Damien et al.;《Applied Physics Letters》;20190409;第114卷(第14期);全文 *
An important step towards single-molecule reaction dynamics(Article);yang yang et al.;《Science China Chemistry》;20180427;第61卷(第7期);第761-762页 *
Break junction under electrochemical gating: testbed for single-molecule electronics;Cancan Huang et al.;《Chemical Society Reviews》;20150105;第44卷(第4期);第889-901页 *
Quantum interference effect in the charge transport through single-molecule benzene dithiol junction at room temperature: An experimental investigation;Yang, Guogang et al.;《CHINESE CHEMICAL LETTERS》;20180131;第29卷(第1期);第147-150页 *
Structure-Independent Conductance of Thiophene-Based Single-Stacking Junctions;xiaohui Li et al.;《Angewandte Chemie 》;20191205;全文 *

Also Published As

Publication number Publication date
CN111144481A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111881714B (zh) 一种无监督跨域行人再识别方法
CN106096561B (zh) 基于图像块深度学习特征的红外行人检测方法
Tsai et al. Developing a feature weight self-adjustment mechanism for a k-means clustering algorithm
Gebhardt et al. Identification of broad-leaved dock (Rumex obtusifolius L.) on grassland by means of digital image processing
WO2022179241A1 (zh) 一种缺失条件下的高斯混合模型聚类机器学习方法
CN101561865B (zh) 基于多参数谱特征的合成孔径雷达图像目标识别方法
CN104408467B (zh) 基于金字塔采样和支持矢量机的极化sar图像分类方法
CN109711461A (zh) 基于主成分分析的迁移学习图片分类方法及其装置
Thomas et al. Enhancing classification of mass spectrometry imaging data with deep neural networks
CN111144481B (zh) 一种基于谱聚类的单分子电输运数据的聚类方法
CN111625576A (zh) 一种基于t-SNE的成绩聚类分析方法
Ariyapadath Plant Leaf Classification and Comparative Analysis of Combined Feature Set Using Machine Learning Techniques.
CN108122000B (zh) 一种基于特征学习的车标识别方法
CN108388869B (zh) 一种基于多重流形的手写数据分类方法及系统
CN106557785A (zh) 一种优化数据分类的支持向量机方法
CN114241233A (zh) 一种非线性类组稀疏表示真假目标一维距离像识别方法
CN110532867B (zh) 一种基于黄金分割法的人脸图像聚类方法
CN108846407B (zh) 基于独立成分高序不确定脑网络的磁共振影像分类方法
CN110852304A (zh) 基于深度学习方法的高光谱数据处理方法
CN116563205A (zh) 基于小目标检测和改进YOLOv5的麦穗计数检测方法
CN109784244A (zh) 一种指定目标的低分辨率人脸精确识别方法
CN109948520A (zh) 一种基于多时相双极化sar特征曲线的农作物分类方法
Dheer et al. Classifying wheat varieties using machine learning model
Pouyan et al. Distance metric learning using random forest for cytometry data
CN109215741B (zh) 基于双超图正则化的肿瘤基因表达谱数据双聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant