CN107729918A - 基于代价敏感支持向量机的元胞自动机涌现现象的分类方法 - Google Patents
基于代价敏感支持向量机的元胞自动机涌现现象的分类方法 Download PDFInfo
- Publication number
- CN107729918A CN107729918A CN201710830534.0A CN201710830534A CN107729918A CN 107729918 A CN107729918 A CN 107729918A CN 201710830534 A CN201710830534 A CN 201710830534A CN 107729918 A CN107729918 A CN 107729918A
- Authority
- CN
- China
- Prior art keywords
- large numbers
- phenomenon
- cellular
- evolution
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001413 cellular effect Effects 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 12
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 abstract description 8
- 238000013461 design Methods 0.000 abstract description 6
- 230000008859 change Effects 0.000 description 20
- 238000009826 distribution Methods 0.000 description 14
- 238000012360 testing method Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 6
- 239000012141 concentrate Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000010429 evolutionary process Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于代价敏感支持向量机的元胞自动机涌现现象的分类方法。本发明基于所提取的涌现现象的特征,通过使用代价敏感支持向量机对元胞自动机的涌现现象进行分类,从而进一步处理分类结果,来判断元胞自动机中哪些规则能发生涌现现象,哪些规则不能发生涌现现象。对基于元胞自动机的复杂系统的涌现机理进行研究,将能推动元胞自动机在涌现方面的应用研究和促进其他的复杂系统的涌现机理研究。本发明是对元胞自动机的涌现现象进行分类,分类后获得的发生涌现现象的元胞自动机,因此类元胞自动机具有分形维数特征,可以将其应用于图像处理、动画制作、时装设计、IC卡设计、房间装饰设计、城市规划等等。
Description
技术领域
本发明属于元胞自动机的复杂系统的技术领域,具体涉及一种基于代价敏感支持向量机的元胞自动机涌现现象的分类方法。
背景技术
目前,基于元胞自动机的复杂系统在涌现方面的应用研究有:涌现计算研究、涌现行为研究等。在复杂性科学中,对涌现机理的研究还比较少,目前也没有取得显著的成果。
在《元胞自动机中的对称与复杂现象涌现机理研究》中公开了:通过规则元的对称破缺特征进行涌现现象分类,该分类方法简称RSM方法。在RSM方法中,元胞自动机的局部规则的一组映射称为规则元,例如在初等元胞自动机中,f(1,1,1)=0,这样一组映射就为规则元,可以简写为111→0。用S1,S2,S3,S4分别表示对称的常规则元、对称的变规则元、对称破缺的常规则元、对称破缺的变规则元。分别获得CA1和CA2这四类规则元的分类,就可以对相应的元胞自动机的演化结果进行统计,获得每一类别规则元随时间步增加而变化的曲线图,再观察曲线图的特征,来判断该规则是否能产生涌现现象。在RSM方法中,每个规则只需要统计一个演化结果的规则元使用频数图,在频数图中,若S3,S4这两类规则元随着时间步毫无规律的变化,就说明该规则存在对称破缺特征,该规则发生了涌现现象;若某个规则的这两类规则元使用次数是固定的或者是周期性变化的,说明这个规则没有发生涌现现象。
RSM方法的缺陷是:RSM方法需要去逐个观察每个规则的规则元使用频数图,因而需要大量的人力,并且需要对每种元胞自动机编写规则元分类,每次对一种新的元胞自动机涌现现象进行分类,需要重新编写规则元的分类,造成可扩展性不佳。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于代价敏感支持向量机的元胞自动机涌现现象的分类方法。
本发明的基于代价敏感支持向量机的元胞自动机涌现现象的分类方法,包括下列步骤:
训练步骤:
以元胞状态数为2的自动元胞机的演化结果的演化图(二值演化图)作为训练样本,提取各训练样本的特征向量,训练基于代价敏感支持向量机,得到涌现现象发生分类器;
所述特征向量包括构型密度特征、元胞状态更新频率特征和分形维数特征中的至少两种;
所述构构型密度特征的提取为:将演化图按行均分为N1个子单元,分别计算每个子单元的构型密度变化之和,得到N1维的构型密度特征向量,其中每个子单元的构型密度变化为:邻行间的构型密度之差的绝对值,即分别统计每行中元胞状态非零的元胞所占的比例,得到各行的构型密度,再计算邻行间的构型密度之差的绝对值;
所述状态更新频率特征的提取为:将演化图均分为N2个图像子块,分别计算各图像子块的元胞状态更新频率的平均值和方差,得到2N2维的状态更新频率特征向量;
所述分形维数特征的提取为:将演化图均分为N3个的图像子块,分别计算各图像子块的分形维数,得到N3维的分形维数特征向量;
优选,图像子块为方块,N3与N2的取值相同。
识别处理步骤:
初始化元胞自动机,所述元胞自动机的状态数和邻域半径与训练步骤中的自动元胞机相同;
基于待分类的演化规则和演化的时间步数进行演化,得到演化结果的演化图;
采用与提取训练样本的特征向量相同的提取方式,提取当前演化规则的演化图的特征向量并输入涌现现象发生分类器,得到当前演化规则是否发生涌现现象的分类结果;
为了进一步提高分类精度,识别处理步骤中,为当前待分类的演化规则设置多种初始条件,每种初始条件分别对应一幅演化图;提取各演化图的特征向量并分别输入涌现现象发生分类器得到多个分类结果,当前演化规则的最终分类结果为占半数以上的分类结果。
综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明的方法分类过程都是由机器自动执行,可操作性更好,能减少大量的人力;本发明的分类方法都是针对演化结果本身,即使添加了新类型的元胞自动机,不需要修改或者添加任何代码,其扩展性好;与现有的分类方法相比,本发明的正确率更好。
附图说明
图1是本发明TCCM方法的流程图。
图2中从上至下,第一行和第二行分别是周期型和平稳型元胞自动机构型密度曲线图,第三行和第四行分别是混沌型和复杂型元胞自动机的构型密度曲线。
图3是四种元胞自动机的状态更新频率曲线图。
图4是本发明TCCM方法的CA0局部规则分类结果中不同的错误结果分布情况。
图5是TCCM方法的CA1局部规则分类结果中不同的错误结果分布。
图6是TCCM方法的CA2局部规则分类结果中不同的错误结果分布情。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
本发明基于所提取的涌现现象的特征,通过使用代价敏感支持向量机对元胞自动机的涌现现象进行分类,从而进一步处理分类结果,来判断元胞自动机中哪些规则能发生涌现现象,哪些规则不能发生涌现现象。对基于元胞自动机的复杂系统的涌现机理进行研究,将能推动元胞自动机在涌现方面的应用研究和促进其他的复杂系统的涌现机理研究。例如,通过涌现机理的研究,找出元胞自动机的涌现现象特征,就可以使用这些特征完成一些计算任务,如“多数分类”任务,来满足系统的需求,从而实现涌现计算;找出这些涌现现象的特征后,也可以去研究其他的复杂系统(如复杂网络系统和多智能体系统等)是否也存在这样的特征,本发明是对元胞自动机的涌现现象进行分类,分类后获得的发生涌现现象的元胞自动机,因为此类元胞自动机具有分形维数特征,可以将此类元胞自动机应用于图像处理、动画制作、时装设计、IC卡设计、房间装饰设计、城市规划等等。
本发明的基于代价敏感支持向量机的涌现现象分类方法(简称TCCM方法)的处理流程如图1所示:以元胞状态数为2的自动元胞机的演化结果的演化图(二值演化图)作为训练样本,并提取演化图的特征向量(构型密度特征、元胞状态更新频率特征和分形维数特征)训练基于代价敏感支持向量机,得到涌现现象发生分类器;用k表示训练样本所对应的自动元胞机的状态数,r表示邻域半径,则对待分类的演化规则,首先初始化(N种不同的初始条件,N为奇数)元胞状态数为k、邻域半径为r的元胞自动机(即训练和识别步骤中的元胞自动模型相同,)再基于预置的演化进行演化,得到待分类的演化规则的二值演化图(共N幅),提取其特征向量(构型密度特征、元胞状态更新频率特征和分形维数特征)并输入涌现现象发生分类器得到分类结果,并对N个分类结果进行进一步处理,得到最终的分类结果;统计N个分类结果中占半数以上的分类结果,将其作为最终分类结果。例如半数以上的分类结果为发生涌现,则当前演化规则的最终分类结果为:发生涌现。
初等元胞自动机涌现现象可能存在三个特征:构型密度、状态更新频率和分形维数。本方法主要是提取这些特征,用线性支持向量机来对元胞自动机涌现现象进行分类,根据分类结果,来说明它们是不是元胞自动机涌现现象的特征。这三个特征分别如下:
(1)构型密度。
构型密度是元胞自动机中最直接的计算方法,表示空间序列中元胞状态为生(“1”)的元胞所占的比例。本质上,构型密度是系统集合熵的一种体现。元胞自动机每一步演化的构型密度把每一时刻演化的空间信息用一个简单数字来表示,减少了大量的计算。在一维,或者高维元胞自动机中,都可以用它来分析演化状况和涌现现象。
构型密度的定义为:其中N是系统规模,是空间位置为i的元胞在t时刻的状态,C(t)为t时刻的构型密度。
图2是部分规则随时间变化的构型密度曲线,曲线图中横坐标是演化时间步(t),纵坐标是构型密度(conDensity)。其涵盖了所有的规则类型:平稳型(6个)、周期型(8个)、混沌型(14个)、复杂型(4个),元胞机的初始状态为随机的,系统规模为2000,演化的时间步为600,去掉最初的200个时间步,些规则每一步的构型密度构成图2所示的构型密度曲线。图2中从上至下,第一行和第二行分别是周期型和平稳型元胞自动机构型密度曲线图,第三行和第四行分别是混沌型和复杂型构型密度曲线。显然,平稳型的元胞自动机构型密度始终没有改变,是一个恒定值。周期型元胞自动机构型密度周期性地改变着,但也有些周期型元胞自动机的构型密度保持恒定的,例如142号规则的构型密度与184号相似,构型密度是固定的。混沌型元胞自动机构型密度变化的随机性较强,相比而言变化的幅度较大。复杂型元胞自动机构型密度与周期型类似,变化复杂,但54号规则的构型密度图具有弱的对称性,它有点像周期型规则的构型图,但局部还是表现出强烈的随机性。
图2中规则18、规则90、规则54和规则110演化过程中都能发生涌现,这些规则的构型密度变化都不是周期性的,变化不均匀,图中其他规则不能发生涌现现象,这些构型密度要么不变化,要么随着时间周期性变化。只需要把每一时刻的演化的构型密度与前一时刻的构型密度作差,取差值的绝对值,就可以获得构型密度的变化量。在一段时间内没有发生涌现现象的元胞自动机构型密度变化量为一个定值,或者为零。发生涌现现象的元胞自动机构型密度变化量是一个随机值。因此,初等元胞自动机可能具有构型密度特征。构型密度特征为元胞自动机演化结果中构型密度的动态变化。
(2)状态更新频率。
构型密度反映的是元胞状态为“1”的分布情况,也是空间信息中该状态占一个时刻的所有元胞的比例。构型密度的变化只能空反映间构型状态为“1”元胞整体变化情况,而忽略了时间构型元胞变化情况。所以本发明对时间构型中元胞状态的变化情况定义为元胞自动机的状态更新频率。
元胞自动机状态更新频率定义为:在元胞自动机系统演化过程中,空间中某元胞在整个演化时间步骤中状态更改的总次数与总时间的比值,数学表达式为其中T是指演化的时间步,是指空间位置为i的元胞在t时刻的状态。是指该元胞在t-1时刻的状态,D(i)是指空间位置为i的元胞状态更新频率。
元胞状态的更新频率反映的是系统中单个元胞在一定时间内的运动情况。若系统中所有元胞更新频率都很小,则系统演化的过程比较平缓,系统发生涌现现象的概率比较小。因为系统中若产生新的结构,这些结构中周围的元胞状态必然是不相同的,并且新结构中的元胞状态至少要发生两次变化。只要这些结构足够多,它们当中元胞的状态更新频率必然会很高。所以若系统中所有元胞的状态更新频率都很小,系统是不可能发生涌现现象的。若大多数元胞的状态更新频率越高,它运动越剧烈,邻居元胞之间的相互作用越大,系统产生的新结构概率越大,使得涌现现象越有可能发生。
图3是部分规则的态更新频率曲线图,横坐标i表示元胞空间中第i处的元胞,纵坐标suf表示元胞的状态更新频率。元胞机的初始状态为随机的,系统规模为2000,运行时间步数为2000,对每个规则每一个空间位置计算元胞的更新状态频率。选取两种发生涌现现象和没有发生涌现现象的元胞自动机每个空间位置的状态更新频率得到图3所示的态更新频率曲线图。图3中规则号184和23是不会产生涌现现象的元胞自动机,平稳型规则号184中元胞状态的更新频率不低于0.9555,而周期型规则号23不低于0.996。规则号18和110是产生涌现现象的元胞自动机。这两个元胞自动机更新频率大致分布在0.4到0.6的区间内。可见没有发生涌现的状态更新频率远远大于发生涌现的。
在平稳型规则中有一些特殊的元胞自动机,在随着时间步增加而演化时,产生的空间结构是漂移的,但是这些结构本质上是一样的。使用周期的边界条件,使得每个空间结构实际上是一个“环形结构”,这些偏移的结构就是一样的了。这样的元胞自动机会使得元胞状态更新频率很大,如规则号184。在周期型规则中如果周期为1,元胞的上一时刻和下一时刻的状态都是不同的,该元胞的状态更新率就会接近1。在规则号18和110中出现了分形结构,这些结构中一大部分元胞在一定的时间内状态是不会发生改变的,若这些结构数量较大,元胞状态的更新频率自然就不会很高了。仅仅凭元胞状态的更新频率的高低不能完全体现涌现现象的特征。因此本发明用平均频率和波动频率来作为涌现现象的特征。
元胞自动机中平均频率是指空间中每个位置的元胞的状态更新频率与系统规模的比值之和。用N表示系统规模,则空间中第j个元胞的状态更新频率为D(j),平均频率E(D(j))的计算公式为
元胞自动机中波动频率是指元胞自动机每个位置的元胞的状态更新频率与平均频率之差的平方和的平均数,即元胞状态更新频率的方差:
从初等元胞自动机选50个规则,系统规模和演化时间步骤都为2000,计算这些规则的平均频率和波动频率,如表1所示:
表1 初等元胞自动机中部分规则的平均频率和波动频率
规则编号 | 平均频率 | 波动频率 | 规则编号 | 平均频率 | 波动频率 |
8 | 2.4175×10-4 | 6.2463×10-8 | 32 | 4.4925×10-4 | 2.1116×10-7 |
128 | 2.5125×10-4 | 6.2530×10-8 | 96 | 5.1200×10-4 | 3.0401×10-7 |
23 | 0.9998 | 1.4667×10-7 | 114 | 0.7681 | 2.4049×10-7 |
27 | 0.8100 | 7.6464×10-4 | 171 | 0.4891 | 2.9391×10-8 |
134 | 0.3729 | 3.2402×10-7 | 14 | 0.4792 | 2.0503×10-6 |
45 | 0.5000 | 1.3110×10-4 | 62 | 0.6673 | 7.5206×10-5 |
90 | 0.5001 | 1.2946×10-4 | 83 | 0.8055 | 2.3572×10-5 |
184 | 0.9713 | 3.8527×10-5 | 212 | 0.4781 | 2.1460×10-6 |
18 | 0.5065 | 0.0029 | 22 | 0.5277 | 0.0020 |
54 | 0.7213 | 0.0013 | 60 | 0.4995 | 0.0012 |
147 | 0.7174 | 0.0026 | 122 | 0.5005 | 0.0011 |
110 | 0.4242 | 0.0033 | 137 | 0.4254 | 0.0059 |
193 | 0.4251 | 0.0046 | 225 | 0.5017 | 0.0034 |
表1中加粗的数据表示发生涌现现象的数据,即规则号18所在行以及这一行下面的元胞自动机都发生了涌现现象。该表中发生涌现现象的元胞自动机平均频率在0.5到0.75的区间内,比有些没有发生涌现现象的要低很多。波动频率相比而言发生涌现现象的元胞自动机要比没有发生涌现现象要高很多。后者虽然平均频率较高,但是元胞状态整体波动性并不大,这种波动性一般是周期性,这导致了整体都是简单的,不会涌现新结构。前者虽然平均频率不是很高,但是元胞状态波动频率较高,导致整体更新是频繁和随机的,使得涌现现象产生成为了可能,并且波动频率高,说明一些元胞的状态更新频繁,另一些元胞的状态更新较为稳定。因此,若元胞自动机发生涌现现象,可能存在状态更新频率特征。这种特征是指在元胞自动机的演化结果中,元胞的状态更新频率的均值处于中等值,而方差处于一个较大值。(3)分形维数。
分形理论是一门新兴学科,其主要研究的是自然界和非线性复杂系统中出现的看似不规则的几何形体。在几何形体中部分与整体以某种方式相似,即具有“自相似”特性,这种形体就是指分形。分形维数用来定量描述几何形体的数值,该值是其特征的体现。欧氏空间中形体的维数都为整数,而分形理论最基本的特点是以分数的维数和数学方法来研究物体。
计算几何形体的分形维数方法有:尺码法、小岛法、计盒维数法。本具体实施方式中,优选计盒维数法。具体计算方法为:采用边长为ε的封闭的盒子去遮盖几何形体,有一部分盒子是非空的,遮盖了物体的一部分。而有一部分盒子是空的,没有遮盖物体的任何部分。统计非空盒子的个数记为N(ε)。然后减小盒子的边长,继续遮盖该物体,则统计的N(ε)值会增大。当ε→0时,分形维数为:
盒子的边长在实际的计算中只能取有限的值,将一系列的ε和N(ε),计算其相应的对数值logε和logN(ε),将其绘制在坐标区内,用线性回归的方法计算直线的斜率。该斜率为分形维数。
一维元胞自动机在简单初始条件下的演化图形中,往往会出现分形的结构。其演化图形的分形维数具体方法为:取边长ε=kn的盒子去覆盖演化图形,图形中心区域的白色部分是几何形体,对应元胞自动机状态为“1”的元胞,记N(kn)为状态为“1”的元胞个数,可得元胞自动机的分形维数为:
在计算演化图形的分形维数时,将元胞自动机的演化结果,当作二值图像。元胞自动机的系统规模和演化步数较大时,需要对演化图形进行分割来计算部分图形的分形维数。如果部分图形能够求得分形维数,就说明部分图形具有分形维数特征。若元胞自动机发生了涌现现象,则演化图形的局部图形基本都是自相似的,存在分形维数特征。
初等元胞自动机涌现现象可能存在三个特征:构型密度、状态更新频率和分形维数,对这三个特征分别进行编号,编号分别为:特征1,特征2和特征3。为了检验这三种特征是否都是初等元胞自动机涌现现象的特征,将提取方式分为四种:提取方式1,提取方式2,提取方式3,提取方式4。前三种提取方式分别提取三种特征中的两种,而最后的一种提取方式则提取全部特征。具体提取方式如表2所示,表中单元格的“√”,表示该提取方式提取了对应的特征。
表2 四种提取方式的特征分布表
本检验处理中的数据集分为三个部分:训练数据集、验证数据集、测试数据集。数据集中每个数据都是元胞自动机在简单初始条件下的演化结果,且这些演化结果以文本形式保存。元胞自动机系统规模10000,运行的时间步数9999步,这样每个数据都是10000×10000二维矩阵。在数据集中发生涌现现象的数据为正样本,没有发生涌现现象的数据为负样本。三个数据集中样本数据个数的分布表如表3所示。表3中的总样本指的是正样本和负样本的个数之和。
表3 三个数据集中样本数据个数的分布表
从表3可知,数据集中使用的正负样本比例不平衡,这是因为在初等元胞自动机中只有51种规则能发生涌现现象,剩余的205种规则不能发生涌现现象。在元胞自动机中发生涌现现象的规则数要比没有发生涌现现象的规则数要少很多。使用正负样本分布的不平衡数据集训练标准的分类模型,获得的分类模型,其分类结果会明显偏向比例大的样本数据,例如本发明将表3中的数据集去训练标准的分类器,得到的分类模型,在测试的时候可能会把所有正样本当作负样本处理,造成分类结果不对。为了解决这个问题,本发明使用代价敏感的支持向量机(CSVM)。该分类器是在标准SVM的优化问题的基础之上,调节惩罚程度。其原理是在训练过程中,对于错分类的正样本加大惩罚力度,对于错分类的负样本,减少惩罚力度,来达到好的分类效果。
表3中训练数据集中数据是256个规则在5种简单初始条件下的演化结果,这5种简单初始条件的种子数分别是:1,3,5,7,9。正样本是由能发生涌现现象的51个规则所产生的,负样本是不能发生涌现现象的205个规则所产生的。验证数据集中数据是256个规则在2种简单初始条件下的演化结果,这些初始条件的种子数分别为:11,12。同样,测试数据集初始条件的种子数分别为:2,4,6,8,10。不同的初始条件,产生的演化结果不同。
训练数据集和验证数据集用于训练CSVM分类器。通过多次调试CSVM分类器的参数,得到一个最优模型,用这个模型对测试数据集进行分类。
三种特征的提取方式为:
(1)构型密度特征:
首先选取矩阵的100行,除了第一行外,累计下一行与上一行的构型密度之差的绝对值,得到一个这100行的构型密度变化之和,作为一个特征值。然后计算第200行到第300行变化的构型密度之和,如此反复计算,直至第9900行到10000行变化的构型密度计算完毕。总共有100个特征值,这样每个矩阵有100维的向量。
(2)元胞状态更新频率特征:
将10000×10000二维矩阵平均分成1000×1000二维子矩阵,求每一个子矩阵的元胞状态更新频率的平均值和方差。这样每个矩阵对应200维向量。
(3)分形维数特征:
将10000×10000二维矩阵平均分成1000×1000二维子矩阵,计算每个矩阵的分形维数,如果不存在分形维数,该矩阵的分形维数就为零,否则为实际计算出来的值。用计盒维数法计算每个子矩阵的分形维数,这样每个矩阵也对应100维的向量。
用训练数据集去训练四种提取方式中的CSVM每个分类器,再用训练好的四个CSVM分类器对测试数据集进行分类处理,这些分类器对涌现现象分类后的正确率如表4所示。
表4 涌现现象分类的正确率
其中,CSVM分类器的正确率的计算方式为:用a表示测试数据集中所有正样本个数,b表示所有负样本个数,对正样本的正确分类的个数为x,对负样本的正确分类个数为y,则正负样本分类的正确率为(x+y)/(a+b),正样本分类的正确率为x/a,负样本的分类正确率为y/b。
从表4可知,前三种提取方式在缺少一种特征时,分类的准确率都比第四种提取方式的正确率低,说明三个特征都是初等元胞自动机涌现现象的特征。提取方式1分类的正确率要明显低于提取方式2和提取方式3,说明提取方式2和3中有一个主要的特征,即特征3。初等元胞自动机若发生了涌现现象,必然存在三个特征,即在演化过程中,构型密度定是随机变化(如图2所示),元胞的状态更新频率变化大(如图3所示),且局部结构是分形的。
初等元胞自动机中所有规则的涌现现象分类:在上述四种提取方式的比较验证中,其测试集包含了初等元胞自动机所有规则的演化结果,且每个规则的5个演化结果都是在5个简单初始条件下产生的,这样每个规则就会对应5个分类结果,需要进一步处理提取方式4的分类结果,从而获得这些规则是否能产生涌现现象。本发明的处理办法是:根据5个分类结果中超过半数的结果,来判断该规则是否发生了涌现现象,例如一个规则有3个分类结果是发生涌现现象的,剩下两个结果是不能发生涌现现象的,那么这个规则最终的分类结果是能发生涌现现象的。按照这个方法,计算每个规则的演化结果中分类错误的结果个数,将初等元胞自动机用CA0表示,获得本发明方法的CA0局部规则分类结果中不同的错误结果分布情况,如图4所示。
从图4可知,没有一个规则分类结果错误的个数为3,说明没有一个规则的涌现现象分类发生错误。测试集中的每个规则所产生的样本都给予了正确标签,所以本发明的方法能对初等元胞自动机所有规则涌现现象进行正确的分类。得出了在初等元胞自动机中也只有51种规则能产生涌现现象。
为了验证本发明的扩展性,以对k=2,r=2和k=2,r=3的一维元胞自动机演化结果进行涌现现象分类来比较本发明的TCCM方法与现有RSM方法的分类正确率。其中k表示元胞机的状态数,r表示邻域半径。将k=2,r=2和k=2,r=3的一维元胞自动机分别称为:CA1,CA2。
从CA1中和CA2中随机选取了一些规则,获得CA1和CA2的规则分布,如表5所示。
表5 随机选取的CA1和CA2的规则分布表
RSM方法和TCCM方法都需要对表5中的规则进行涌现现象分类,分类的数据都是这些规则产生的。
(1)RSM方法:
按照RSM方法步骤,作出CA1的230个规则的规则元使用频数图和CA2的160个规则的规则元使用频数图。通过观察这些频数图的特征,得到CA1和CA2的涌现现象分类错误的规则数,如表6所示:
表6 RSM方法的涌现现象分类错误的规则数
(2)TCCM方法:
在TCCM方法的中,数据集中的数据是由CA1和CA2演化产生的,一个数据就是一个演化结果。系统规模为10000,运行的时间步数为9999步,所以产生的每个演化结果是一个10000×10000二维矩阵。表7和表8,是本发明TCCM方法所使用的数据集。与验证四种特征提取方式的处理类似,这两个表中训练数据集中的数据是每个规则在5种简单初始条件下的演化结果,这5种简单初始条件的种子数分别是:1,3,5,7,9。验证数据集中2种简单初始条件的种子数分别为:11,12。测试数据集中5种简单初始条件的种子数分别为:2,4,6,8,10。初始条件不同,产生的演化结果不同。
表7 TCCM方法中CA1分类的数据集中样本数据个数的分布表
表8 TCCM方法中CA2分类的数据集中样本数据个数的分布表
CA1分类和CA2分类的数据集确定后,需要提取构型密度、状态更新频率和分形维数这三个特征,其提取方式和验证四种特征提取方式的处理方式一致。通过对代价敏感支持向量机的参数进行多次调试,获取最优的分类模型。表9是TCCM方法中对CA1、CA2的涌现现象的分类的正确率。
表9 TCCM方法中对CA1、CA2的涌现现象分类的正确率
进一步处理对CA1和CA2的分类结果,根据5个分类结果中超过半数的结果,来判断该规则是否发生了涌现现象。按照这个方法,计算每个规则的演化结果的分类错误的结果个数,如图5和图6所示。
一个局部规则分类结果中错误结果个数大于或者等于3,说明这个规则涌现现象的分类发生了错误。从图5可知,CA1分类结果中错误结果小于等于2的规则数要比错误结果大于等于3的规则数少很多,说明CA1中绝大部分规则还是能够得到正确的分类。将图5和图6中错误结果个数的规则数统计出来,得到本发明方法对CA1和CA2的涌现现象分类错误的规则数,如表7所示:
表10 TCCM方法的涌现现象分类错误的规则数
从表10可知,本发明的TCCM方法对涌现现象分类错误的规则数的分布趋势与RSM大致一样,但是分类错误的规则数比RSM方法少很多。
将表6和表10涌现现象分类错误的规则数进行汇总,并计算涌现现象分类的正确率,得到两种方法对CA1和CA2的局部规则的涌现现象分类正确率,如表11所示:
表11 两种方法的局部规则的涌现现象分类的正确率
从表11可知,本发明的TCCM方法,对CA1和CA2涌现现象分类的正确率要明显优于规则元的对称方法。
综上所述,本发明的有益效果是:
(1)可操作性更好,能减少大量的人力。CA1和CA2规则数巨大,如果要对两种类型的元胞自动机所有规则进行涌现现象分类,RSM方法需要通过人工逐一观察规则元的频数图,从而实现分类,这对人类来说不太现实。本发明的方法分类过程都是由机器自动执行的。
(2)扩展性更好。规则元的对称方法,每对一种新的类型元胞自动机涌现现象分类,对需要重写规则元的分类,例如,如表9和表10所示,需要重新编写规则元的分类。本发明的分类方法都是针对演化结果本身,即使添加了新类型的元胞自动机,不需要修改或者添加任何代码。
(3)对元胞自动机CA1和CA2涌现现象分类更加准确。在这两种元胞自动机中,无论是发生涌现现象的规则还是没有发生涌现现象的规则,本发明方法分类的正确率都比现有的方法要好。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (5)
1.基于代价敏感支持向量机的元胞自动机涌现现象的分类方法,其特征在于,包括下列步骤:
训练步骤:
以元胞状态数为2的自动元胞机的演化结果的演化图作为训练样本;
提取各训练样本的特征向量,训练基于代价敏感支持向量机,得到涌现现象发生分类器;
所述特征向量包括构型密度特征、元胞状态更新频率特征和分形维数特征中的至少两种;
所述构构型密度特征的提取为:将演化图按行均分为N1个子单元,分别计算每个子单元的构型密度变化之和,得到N1维的构型密度特征向量,其中每个子单元的构型密度变化为:邻行间的构型密度之差的绝对值,即分别统计每行中元胞状态非零的元胞所占的比例,得到各行的构型密度,再计算邻行间的构型密度之差的绝对值;
所述状态更新频率特征的提取为:将演化图均分为N2个图像子块,分别计算各图像子块的元胞状态更新频率的平均值和方差,得到2N2维的状态更新频率特征向量;
所述分形维数特征的提取为:将演化图均分为N3个的图像子块,分别计算各图像子块的分形维数,得到N3维的分形维数特征向量;
识别处理步骤:
初始化元胞自动机,所述元胞自动机的状态数和邻域半径与训练步骤中的自动元胞机相同;
基于待分类的演化规则和演化的时间步数进行演化,得到演化结果的演化图;
采用与提取训练样本的特征向量相同的提取方式,提取当前演化规则的演化图的特征向量并输入涌现现象发生分类器,得到当前演化规则是否发生涌现现象的分类结果;
所述特征向量与训练涌现现象发生分类器的特征向量一致。
2.如权利要求1所述的方法,其特征在于,N3与N2的取值相同。
3.如权利要求1或2所述的方法,其特征在于,图像子块为方块。
4.如权利要求1所述的方法,其特征在于,识别处理步骤中,为当前待分类的演化规则设置多种初始条件,每种初始条件分别对应一幅演化图;
提取各演化图的特征向量并分别输入涌现现象发生分类器得到多个分类结果,当前演化规则的最终分类结果为占半数以上的分类结果。
5.如权要求4所述的方法,其特征在于,识别处理步骤中,为当前演化规则设置五种初始条件:元胞自动机的种子数分别为1,3,5,7,9或2,4,6,8,10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710830534.0A CN107729918B (zh) | 2017-09-15 | 2017-09-15 | 基于代价敏感支持向量机的元胞自动机涌现现象的分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710830534.0A CN107729918B (zh) | 2017-09-15 | 2017-09-15 | 基于代价敏感支持向量机的元胞自动机涌现现象的分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107729918A true CN107729918A (zh) | 2018-02-23 |
CN107729918B CN107729918B (zh) | 2024-03-19 |
Family
ID=61206290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710830534.0A Active CN107729918B (zh) | 2017-09-15 | 2017-09-15 | 基于代价敏感支持向量机的元胞自动机涌现现象的分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107729918B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733907A (zh) * | 2018-05-15 | 2018-11-02 | 武汉理工大学 | 探索元胞自动机模型的尺度敏感性的耦合方法 |
CN109738311A (zh) * | 2018-11-23 | 2019-05-10 | 河南理工大学 | 一种岩石i型断裂裂纹扩展速度及分形维数的测定方法 |
CN110443798A (zh) * | 2018-12-25 | 2019-11-12 | 电子科技大学 | 一种基于磁共振图像的自闭症检测方法、装置及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110046951A1 (en) * | 2009-08-21 | 2011-02-24 | David Suendermann | System and method for building optimal state-dependent statistical utterance classifiers in spoken dialog systems |
JP2012032557A (ja) * | 2010-07-30 | 2012-02-16 | Internatl Business Mach Corp <Ibm> | 音声に含まれる吸気音を検出する装置、方法、及びプログラム |
US20120310050A1 (en) * | 2010-10-01 | 2012-12-06 | Flint Hills Scientific, L.L.C. | Detecting, Assessing and Managing Epilepsy Using a Multi-Variate, Metric-Based Classification Analysis |
CN104376335A (zh) * | 2014-11-13 | 2015-02-25 | 河南理工大学 | 一种基于信息熵的半监督高光谱遥感影像分类方法 |
CN104732279A (zh) * | 2015-03-25 | 2015-06-24 | 武汉大学 | 基于地理信息系统的改进元胞自动机交通流模拟分析方法 |
-
2017
- 2017-09-15 CN CN201710830534.0A patent/CN107729918B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110046951A1 (en) * | 2009-08-21 | 2011-02-24 | David Suendermann | System and method for building optimal state-dependent statistical utterance classifiers in spoken dialog systems |
JP2012032557A (ja) * | 2010-07-30 | 2012-02-16 | Internatl Business Mach Corp <Ibm> | 音声に含まれる吸気音を検出する装置、方法、及びプログラム |
US20120310050A1 (en) * | 2010-10-01 | 2012-12-06 | Flint Hills Scientific, L.L.C. | Detecting, Assessing and Managing Epilepsy Using a Multi-Variate, Metric-Based Classification Analysis |
CN104376335A (zh) * | 2014-11-13 | 2015-02-25 | 河南理工大学 | 一种基于信息熵的半监督高光谱遥感影像分类方法 |
CN104732279A (zh) * | 2015-03-25 | 2015-06-24 | 武汉大学 | 基于地理信息系统的改进元胞自动机交通流模拟分析方法 |
Non-Patent Citations (4)
Title |
---|
G FARACO 等: "The use of cellular automata in the learning of emergence", COMPUTERS & EDUCATION, 31 December 2006 (2006-12-31) * |
叶娅兰 等: "计算机系统结构多核综合实验的设计实现", 实验科学与技术, no. 1, 28 October 2011 (2011-10-28) * |
曹兴芹: "复杂系统的元胞自动机方法研究", 《中国博士学位论文全文数据库》, 15 March 2008 (2008-03-15) * |
谷静 等: "确定的有限元胞自动机的两个性质", 陕西师范大学学报(自然科学版), no. 03, 10 May 2008 (2008-05-10) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733907A (zh) * | 2018-05-15 | 2018-11-02 | 武汉理工大学 | 探索元胞自动机模型的尺度敏感性的耦合方法 |
CN109738311A (zh) * | 2018-11-23 | 2019-05-10 | 河南理工大学 | 一种岩石i型断裂裂纹扩展速度及分形维数的测定方法 |
CN110443798A (zh) * | 2018-12-25 | 2019-11-12 | 电子科技大学 | 一种基于磁共振图像的自闭症检测方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107729918B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lankford | Regionalization: theory and alternative algorithms | |
Rahaman et al. | An efficient multilevel thresholding based satellite image segmentation approach using a new adaptive cuckoo search algorithm | |
Colak et al. | Automated McIntosh-based classification of sunspot groups using MDI images | |
CN110210486A (zh) | 一种基于素描标注信息的生成对抗迁移学习方法 | |
Wilson et al. | A testing based extraction algorithm for identifying significant communities in networks | |
CN108549954A (zh) | 风险模型训练方法、风险识别方法、装置、设备及介质 | |
CN108399431A (zh) | 分类模型训练方法以及分类方法 | |
CN108351985A (zh) | 用于大规模机器学习的方法和装置 | |
CN103544506A (zh) | 一种基于卷积神经网络的图像分类方法和装置 | |
CN102331992A (zh) | 分布式决策树训练 | |
CN107729918A (zh) | 基于代价敏感支持向量机的元胞自动机涌现现象的分类方法 | |
CN107909102A (zh) | 一种组织病理图像的分类方法 | |
CN106529598A (zh) | 一种基于不均衡医疗图像数据集的分类方法与系统 | |
CN110263934A (zh) | 一种人工智能数据标注方法和装置 | |
CN109472801A (zh) | 一种用于多尺度的神经形态检测和分割方法 | |
CN109816030A (zh) | 一种基于受限玻尔兹曼机的图像分类方法及装置 | |
Ayhan et al. | Analysis of image classification methods for remote sensing | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
CN110188592B (zh) | 一种尿液有形成分细胞图像分类模型构建方法及分类方法 | |
CN109448842B (zh) | 人体肠道微生态失衡的确定方法、装置及电子设备 | |
CN108229505A (zh) | 基于fisher多级字典学习的图像分类方法 | |
CN110288041A (zh) | 基于深度学习的中草药分类建模方法及系统 | |
CN108229507A (zh) | 数据分类方法以及装置 | |
CN106874927A (zh) | 一种随机强分类器的构建方法和系统 | |
CN109934352B (zh) | 智能模型的自动进化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |