CN116521764B

CN116521764B - 基于人工智能的环境设计数据处理方法

Info

Publication number: CN116521764B
Application number: CN202310812807.4A
Authority: CN
Inventors: 周小娟
Original assignee: Wuchang University of Technology
Current assignee: Wuchang University of Technology
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-09-05
Anticipated expiration: 2043-07-05
Also published as: CN116521764A

Abstract

本发明涉及数据处理技术领域，具体涉及基于人工智能的环境设计数据处理方法，包括：获取多维空间的城市人口数据；将多维空间的数据对应到时序空间并划分窗口；根据每个窗口内得到每个数据点的时序信息优化因子；利用时序信息优化因子得到每个数据点的距离优化因子；利用距离优化因子进行多维数据点的聚类，确定数据点的隐藏状态；根据数据点的隐藏状态建立隐马尔科夫模型，对环境设计数据中的城市人口状态进行预测。本发明通过数据点的时序信息对聚类过程中的数据点距离进行优化，提高了每个数据点隐藏状态聚类结果的准确性。

Description

基于人工智能的环境设计数据处理方法

技术领域

本发明涉及数据处理技术领域，具体涉及基于人工智能的环境设计数据处理方法。

背景技术

对城市、社区或自然环境等场所进行规划和设计，旨在提高人们的生活质量、保护环境和促进可持续发展。环境设计即包括了：城市规划、建筑设计、景观设计、环境保护与可持续发展。其中在城市规划中，需要对城市的人口变化进行预测。通过历史的人口数据对未来的人口数据进行预测，用于规划人口增长，经济决策，社会管理与实现城市精细化管理，往往通过隐马尔可夫模型对这些不同的状态变化进行人口数据的预测。

在通过历史的城市人口变化数据建立隐马尔可夫模型的过程中，现有的数据点隐藏状态确定方法多通过多维数据空间中的聚类方法进行数据点的簇类划分，从而使得在多维数据空间中数值距离相似的数据点被划分为相同的隐藏状态，现有的通过聚类方法进行数据点的隐藏状态的过程中，每一个数据点都包括了其对应年份的城市总人口数量，迁入人数，迁出人数，出生人数与死亡人数。在聚类的过程中，数据点之间仅通过相同维度之间的数据点距离进行距离度量，从而确定不同的簇类。但是在这些多维数据点的聚类过程中，因为数据点还有其在时序上的意义，而单独通过数据点之间的距离进行聚类获得数据点的时序信息不稳定，导致隐藏状态确定错误。

发明内容

本发明提供基于人工智能的环境设计数据处理方法，以解决现有的问题。

本发明的基于人工智能的环境设计数据处理方法采用如下技术方案：

本发明一个实施例提供了基于人工智能的环境设计数据处理方法，该方法包括以下步骤：

获取城市人口数据，将城市人口数据放入多维数据空间；

将多维数据空间中的数据对应到时序空间内，并在时序空间内设定窗口；

在每个窗口内计算得到每个数据点在窗口中的时序信息优化因子；

根据每个数据点在窗口中的时序信息优化因子得到每个数据点在聚类过程中的距离优化因子；

利用距离优化因子进行多维数据点的聚类，确定数据点的隐藏状态；

根据数据点的隐藏状态建立隐马尔科夫模型，对环境设计数据中的城市人口状态进行预测。

优选的，所述将多维数据空间中的数据对应到时序空间内，包括的具体步骤如下：

获取多维城市人口数据，用每个数据点代表一个年份，在这个多维数据空间中将每一个数据对应到时序空间内，得到以时间为序的数据序列，即对于第个数据点，其在多维数据空间中表示为/>，其对应在时序数据中的第/>个数据点将其表示为/>，/>与/>一一对应。

优选的，所述在时序空间内设定窗口，包括的具体步骤如下：

在时序空间中，对于每个数据点，以其为中心，在以时间为序的数据序列的两侧选取相同数量的数据点，将该数据点和被选取的数据点作为一个窗口，其窗口长度为该窗口中所有数据点的数量和。

优选的，所述在每个窗口内计算得到每个数据点在窗口中的时序信息优化因子，包括的具体步骤如下：

在时序空间中每个数据点的窗口中，对时序空间中每个数据点的左侧路径长度和与其相邻的下一个数据点的左侧路径长度计算均值，对均值进行归一化计算得到每个数据点的均匀程度；

再进行时序空间中每个数据点在不同窗口中的每个数据点的均匀程度的方差计算，将计算结果作为时序空间中每个数据点均匀程度的差异性度量；

将差异性度量对于时序空间中每个数据点的窗口中所有的数据点进行线性归一化，并通过每个包括时序空间中该数据点的窗口中该数据点两侧路径长度的差异作为时序空间中该数据点的时序信息优化因子。

优选的，所述路径长度具体指代的是：

在时序序列中，以两个数据点时间轴和数据点数值上的差异量为直角边，拟合直角三角形斜边长度，将斜边长度作为两个数据点之间的邻近距离，计算某数据点在窗口内与其左侧邻近数据点和其右侧邻近数据点之间的邻近距离，将其分别作为该数据点的左侧路径长度和右侧路径长度。

优选的，所述根据每个数据点在窗口中的时序信息优化因子得到每个数据点在聚类过程中的距离优化因子，包括的具体步骤如下：

将数据点的隐藏状态划分为高迁入低迁出、低迁入低迁出、高迁入高迁出和低迁入高迁出4个状态，根据经验人为设置每个状态的中心数据点作为每个簇类的簇类中心点，并对于聚类过程中多维数据空间中的每个数据点，获取该数据点对应的时序数据中的数据点在窗口中与每个簇类中心点之间的距离，并将距离作为该数据点在聚类过程中的距离优化因式，将该数据点在窗口中与窗口中心数据点的距离加一，并取相反数得到优化权因式，将权因式和距离优化因式在整个窗口内相乘求和得到距离优化项，并通过在多维数据中该个数据点的时序信息优化因子对距离优化项相乘，得到每个数据点到每个簇类的距离优化因子，即数据点在聚类过程中的距离优化因子。

优选的，所述利用距离优化因子进行多维数据点的聚类，确定数据点的隐藏状态，包括的具体步骤如下：

通过目标函数得到多维数据空间的数据点在聚类过程中的距离，根据多维数据空间的数据点在聚类过程中的距离完成聚类过程，对于所获取到的簇类，通过簇类中数据点在各个维度上的信息通过人工标注的方式确定其隐藏状态，隐藏状态分别为：高迁入低迁出、低迁入低迁出、高迁入高迁出和低迁入高迁出。

优选的，所述目标函数的具体计算公式如下：

其中，/>表示多维数据空间的数据点在聚类过程中的距离，/>表示多维数据空间中所有数据点的数量，/>表示聚类过程中的簇类数量，且有/>，/>表示多维数据空间中的第/>个数据点，且有/>，/>表示第/>个簇类的簇类中心点，/>表示第/>个数据点到第/>个簇类的距离优化因子。

本发明的技术方案的有益效果是：在聚类的过程中对于数据点的距离衡量，通过数据点在时序上的恶局部信息进行距离优化，相较于现有的仅通过多维数据空间中进行聚类来进行隐藏状态的确定，可以在聚类的迭代过程中通过数据点在时序上的局部变化情况与局部的簇类差异进行优化，从而提高每个数据点隐藏状态的准确性，同时，通过数据点在时序上局部范围内的数据点中的整体窗口变化信息对每个数据点的相邻变化信息进行调整，从而在通过数据点的时序信息对聚类过程中的数据点距离进行优化时，保证数据点的时序信息的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于人工智能的环境设计数据处理方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于人工智能的环境设计数据处理方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于人工智能的环境设计数据处理方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于人工智能的环境设计数据处理方法的步骤流程图，该方法包括以下步骤：

步骤S001：获取城市人口数据，将城市人口数据放入多维数据空间。

在城市统计数据库中提取城市历年的城市人口数据，包括城市总人口数据、人口迁入数据、人口迁出数据、人口出生数据和人口死亡数据。并将采集到的城市人口数据放入多维数据空间，并将多维数据空间中第个数据记为/>，且有/>，/>为多维数据空间中数据点的总数。

步骤S002：将多维数据空间中的数据对应到时序空间内，并在时序空间内设定窗口。

需要说明的是，由于在聚类的过程中多维数据空间中的数据点之间的距离仅包括数据点本身的信息，但是对于一个时序上的数据点，人口的变化是具有趋势性的，在时序上两侧数据点的人口数据都呈现为上升时，对于人口的变化在正常情况下不会出现突然间的异常，所以对于数据点聚类过程中的时序信息距离优化还需要对时序中的数据点进行数据点的校正。在获取到的多维城市人口数据中，用每个数据点代表一个年份，那么在这个多维数据空间中通过聚类方法将相似的数据点划分为相同的簇类即可将数据点划分为不同簇类。而在聚类过程中对于数据点时序信息的距离优化因子需要通过多维数据空间中第/>个数据点在时序上的局部区域进行确定。

具体的，将采集到的城市人口数据按照时间顺序排列组成时序数据，得到以时间为序的数据序列，对于多维数据空间中第个数据点，其在多维数据空间中是/>，将其对应在时序数据中的第/>个数据点表示为/>，二者是等价的，只是数据点所处的空间不同。

预设一个窗口长度L，其中本实施例以L=11为例进行叙述，本实施例不进行具体限定，其中L可根据具体实施情况而定。

进一步，对于多维数据空间中的数据点，获得数据点/>在时序数据上对应的参考数据点，需要通过窗口来获取，即对于数据点/>，以其在时序数据中对应的第/>个数据点/>为中心，获得长度等于L的窗口/>，将窗口/>中的数据点作为数据点/>的参考数据点，后续对窗口中的参考数据点进行时序距离分析。

步骤S003：在每个窗口内计算得到窗口中每个数据点的时序信息优化因子。

需要说明的是，在实际情况中，因为统计指标的更改，或是因为客观因素导致的区域人口数据出现的异常变化会导致局部区域中的数据点出现偏移，那么在获取距离优化因子的过程中就会因为数据点窗口中的数据点中出现的异常数据点而出现偏差，聚类过程中就会存在距离优化因子的错误，导致数据点的隐藏状态不准确。本实施例通过以为中心的窗口内的参考数据点进行时序影响优化因子的获取。

进一步需要说明的是，对于对应的窗口/>，可以通过窗口中数据点的一个连通方式进行窗口内数据点偏差的评估：窗口/>中的数据点在其从左到右路径中的变化情况可以反应出数据点所在窗口中的偏离程度。对于一个数据点，如果其在窗口/>中出现了偏离，那么对于这个数据点所受到的其他数据点的影响就应该高一些，从而将它进行校正。而对于数据点的偏离低时，那么就可以受到更低的影响，从而保证距离优化因子不会产生负面效果。则对于时序数据中的第/>个数据点/>，通过该数据点的局部路径进行判断，对于/>窗口中的数据点的局部数据点之间的路径距离差异可以对比出数据点的路径距离是否在窗口中具有相似的差异。

具体的，本实施例所述的路径指的是在时序序列中，以两个数据点时间轴和数据点数值上的差异量为直角边，拟合直角三角形斜边长度，将斜边长度作为两个数据点之间的邻近距离，计算某数据点在窗口内与其左侧邻近数据点和其右侧邻近数据点之间的邻近距离，将其分别作为该数据点的左侧路径长度和右侧路径长度，则路径距离差异即为窗口内从某数据点与其相邻近数据点在同方向上的路径长度的数值差异。在的窗口中，对于两侧的路径长度在每一个窗口内其他数据点的窗口中的路径长度的/>归一化数值进行均匀程度的度量，同时利用/>计算两个路径的均值，并将所有数据点两侧的路径都进行相同的度量，获取归一化结果，再进行/>对应的数据点在不同窗口中的数值方差计算，作为/>均匀程度的度量。并将方差数值对于/>的窗口/>中所有的数据点进行线性归一化，并通过每个包括/>的窗口中该数据点两侧路径的占比差异的均匀程度作为/>对应的数据点/>的时序信息优化因子/>的公式如下：

其中，/>表示数据点/>的时序信息优化因子，/>表示数据点/>在时序数据，/>表示对小括号中的值先进行方差计算再做线性归一化计算，/>表示在/>的窗口中第/>个数据点的左侧的路径长度，/>表示在/>的窗口中第/>个数据点左侧的路径长度。

需要说明的是，对于城市人口数据，当其中出现一个维度中数据点在时序上的偏差时，由于人口只会因为迁移、出生和死亡而发生变化，故数据点在时序上的变化应该是连续的，对于城市人口时序数据中的偏离点，在进行隐藏状态划分时则需要通过便宜的稳定性进行时序信息的影响因子的衡量。对于不稳定的年份中，在一个局部区域中会出现多种变化的情况，如自然灾害等异常事件。对于这种情况，数据点的隐藏状态确定的聚类过程中对于数据点时序上的信息采集就可以正常进行，而对于一个年份出现了偏差，那么就需要更多的通过时序上的局部数据点进行聚类过程中簇类划分的优化。从而保证隐藏状态划分的准确性。

至此，确定了时序数据点的优化窗口大小，并通过数据点的局部变化信息获取了时序影响优化因子即每个数据点的时序信息优化因子。

步骤S004：根据每个数据点的时序信息优化因子得到每个数据点在聚类过程中的距离优化因子。

需要说明的是，在获取数据点在窗口中的时序信息优化因子后，即可通过该时序信息优化因子对数据点在窗口内的信息采集进行优化。

具体的，将数据点的隐藏状态划分为高迁入低迁出、低迁入低迁出、高迁入高迁出和低迁入高迁出4个状态，根据经验人为设置每个状态的中心数据点作为每个簇类的簇类中心点，通过窗口内数据点与簇类中心数据点的距离进行数据点在聚类过程中的距离优化，以此获取到聚类过程中第个数据点到第/>个簇类的距离优化因子/>的公式如下：

其中，/>表示聚类过程中第/>个数据点到第/>个簇类的距离优化因子，/>表示在多维数据中第/>个数据点的时序信息优化因子，用于调整距离优化因子的大小，/>表示在时序上的第/>个数据点的窗口，/>表示在窗口中的不包含第/>个数据点在内的数据点总和数量，/>表示在窗口/>中的第/>个数据点与中心数据点/>之间的时间戳距离，/>表示/>中的第/>个数据点，/>表示聚类过程中的第/>个簇类的簇类中心点，表示/>中的第/>个数据点与聚类过程中的第/>个簇类的簇类中心点之间的欧氏距离。

需要说明的是，对于聚类过程中多维数据空间中的第个数据点通过该数据点对应的时序数据中的第/>个数据点的窗口中数据点在多维数据空间中与每个簇类中心点之间的距离作为/>在聚类过程中的距离优化。在距离累加的过程中通过数据点在窗口中与中心数据点的距离进行加权，从而保证不会出现距离过高的情况，并通过/>对距离优化因子进行加权，用于调整该距离优化因子对于聚类过程中的目标函数的影响大小，且/>越大，距离优化因子/>越大。

至此，通过时序信息优化因子得到了每个数据点到每个簇类的距离优化因子，即数据点在聚类过程中的距离优化因子。

步骤S005：利用距离优化因子进行多维数据点的聚类，确定数据点的隐藏状态。

具体的，由于本实施例将数据点的隐藏状态划分为高迁入低迁出、低迁入低迁出、高迁入高迁出和低迁入高迁出4个状态，因此在对多维空间中的数据进行K-means聚类时，选取的簇类数量K=4，则在获取到多维数据空间中数据点在聚类过程中的距离优化因子之后即可通过该距离优化因子进行数据点的在聚类过程中的距离计算方式如下：

其中，/>表示多维数据空间的数据点在聚类过程中的距离，/>为多维数据空间中数据点的总数，/>表示聚类过程中的簇类数量，且有/>，/>表示多维数据空间中的第/>个数据点，且有/>，/>表示第/>个簇类的簇类中心点，/>表示第/>个数据点到第/>个簇类的距离优化因子。

需要说明的是，上式为原有的聚类目标函数加上距离优化因子，该距离优化因子是通过数据点在时序上的局部数据点信息对数据点在聚类过程中的距离计算进行优化。

进一步，通过上述的目标函数完成K-means聚类过程，对于所获取到的簇类，通过簇类中数据点在各个维度上的信息通过人工标注的方式确定其隐藏状态。隐藏状态分别为：高迁入低迁出、低迁入低迁出、高迁入高迁出和低迁入高迁出。

至此，通过距离优化因子进行多维数据点的聚类，确定了数据点的隐藏状态。

步骤S006：根据数据点的隐藏状态建立隐马尔科夫模型，对环境设计数据中的城市人口状态进行预测。

在获取到历史时序数据中每个数据点对应的隐藏状态之后，通过已知数据获取到状态概率转移矩阵与初始概率矩阵获取到隐马尔可夫模型。对于最新的人口数据使用该模型通过维特比算法获取到最有可能的隐藏状态序列。该隐藏状态序列也就是对于环境设计中城市人口数据所处状态的预测。通过对于城市人口状态的预测对城市环境设计进行优化，完成环境设计数据处理。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于人工智能的环境设计数据处理方法，其特征在于，该方法包括以下步骤：

获取城市人口数据，将城市人口数据放入多维数据空间；

根据数据点的隐藏状态建立隐马尔科夫模型，对环境设计数据中的城市人口状态进行预测；

所述在每个窗口内计算得到每个数据点在窗口中的时序信息优化因子，包括的具体步骤如下：

将差异性度量对于时序空间中每个数据点的窗口中所有的数据点进行线性归一化，并通过每个包括时序空间中该数据点的窗口中该数据点两侧路径长度的差异作为时序空间中该数据点的时序信息优化因子；

所述根据每个数据点在窗口中的时序信息优化因子得到每个数据点在聚类过程中的距离优化因子，包括的具体步骤如下：

将数据点的隐藏状态划分为高迁入低迁出、低迁入低迁出、高迁入高迁出和低迁入高迁出4个状态，根据经验人为设置每个状态的中心数据点作为每个簇类的簇类中心点，并对于聚类过程中多维数据空间中的每个数据点，获取该数据点对应的时序数据中的数据点在窗口中与每个簇类中心点之间的距离，并将距离作为该数据点在聚类过程中的距离优化因式，将该数据点在窗口中与窗口中心数据点的距离加一，并取相反数得到优化权因式，将权因式和距离优化因式在整个窗口内相乘求和得到距离优化项，并通过在多维数据中该个数据点的时序信息优化因子对距离优化项相乘，得到每个数据点到每个簇类的距离优化因子，即数据点在聚类过程中的距离优化因子；

所述利用距离优化因子进行多维数据点的聚类，确定数据点的隐藏状态，包括的具体步骤如下：

通过目标函数得到多维数据空间的数据点在聚类过程中的距离，根据多维数据空间的数据点在聚类过程中的距离完成聚类过程，对于所获取到的簇类，通过簇类中数据点在各个维度上的信息通过人工标注的方式确定其隐藏状态，隐藏状态分别为：高迁入低迁出、低迁入低迁出、高迁入高迁出和低迁入高迁出；

所述目标函数的具体计算公式如下：

2.根据权利要求1所述基于人工智能的环境设计数据处理方法，其特征在于，所述将多维数据空间中的数据对应到时序空间内，包括的具体步骤如下：

3.根据权利要求1所述基于人工智能的环境设计数据处理方法，其特征在于，所述在时序空间内设定窗口，包括的具体步骤如下：

4.根据权利要求1所述基于人工智能的环境设计数据处理方法，其特征在于，所述路径长度具体指代的是：