CN116739402A

CN116739402A - 一种基于数据挖掘的健康画像构建方法

Info

Publication number: CN116739402A
Application number: CN202310187948.1A
Authority: CN
Inventors: 相峰; 曹艺译; 孙哲; 张海霞; 黄剑华; 孙建英
Original assignee: Yto Express Co ltd
Current assignee: Yto Express Co ltd
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-09-12

Abstract

本发明公开了基于数据挖掘的健康画像构建方法，建立城市健康状况指标体系，多维度刻画城市健康画像。其技术方案为：建立城市健康状况指标体系，构造整数规划模型；采集数据并根据特征过滤理论剔除与标签关联性弱的冗余特征，构造近邻样本集的属性特征子集，引入信息接纳度获取最优特征子集，构建出最优特征子集；获取多特征融合动态权重，筛选出具有高城市健康画像解释度的主题分布和关键词集合，实现文本单词主题层次的聚类，生成具有层级结构的城市健康画像；构建多特征融合标签集和城市‑标签矩阵，基于用户认知和标签扩展改进协同过滤推荐算法，从标签中提取反映城市健康的标签集合，生成城市标签推荐，深入到层级结构展开城市画像描述。

Description

一种基于数据挖掘的健康画像构建方法

技术领域

本发明涉及大数据应用技术，具体涉及一种基于数据挖掘的人物健康画像构建技术。

背景技术

为应对快速城市化带来的一系列健康挑战，需要进行健康城市和健康村镇建设。为推进健康城市建设，构建一套科学客观的城市健康度量标准，综合评估城市健康水平，为健康城市建设精准画像对当前和城镇化高质量发展具有重要指导意义。

为实现上述的需求，通常会使用到目前流行的文本挖掘算法，但文本挖掘算法在主题建模过程中没有较好地结合相关的语义信息，严重影响了主题的语义连贯性和文本语义表征的准确性。

因此，目前业界并没有一种十分有效的方法，能实现对健康城市建设处精准画像。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种基于数据挖掘的健康画像构建方法，能够建立城市健康状况指标体系，从经济、环境、人口、社会维度刻画城市健康画像。

本发明的技术方案为：本发明揭示了一种基于数据挖掘的健康画像构建方法，方法包括：

步骤1：建立适用于所需地区的城市健康状况指标体系，并构造城市经济影响力最大化问题的整数规划模型；

步骤2：根据步骤1中所建立的城市健康状况指标体系采集数据，并根据特征过滤理论剔除与标签关联性较弱的冗余特征，构造近邻样本集的属性特征子集，引入信息接纳度获取最优特征子集以降低维度灾难，增强属性特征之间和特征标签之间的关联性，构建出最优特征子集；

步骤3：考虑文本的潜在语义信息，获取网页文本单词的多特征融合动态权重，筛选出具有较高城市健康画像解释度的主题分布和关键词集合，实现文本单词在主题层次上的聚类，生成具有层级结构的城市健康画像；

步骤4：构建多特征融合标签集和城市-标签矩阵，基于用户认知和标签扩展改进协同过滤推荐算法，从海量标签中提取反映城市健康的标签集合，通过标签共现揭示标签在城市画像语义特征方面的重要程度，生成城市标签推荐，深入到层级结构展开细粒度的城市画像描述。

根据本发明的基于数据挖掘的健康画像构建方法的一实施例，步骤1进一步包括：

步骤1-1：采集所需地区的城市健康状况指标，基于这些指标建立城市健康状况指标体系；

步骤1-2：初始阶段选择p个县级市和1个地级市，判断p个县级市受到地级市的影响力是否超过设定阈值，如果是，则表示县级市i受到地级市j发展状况的推动，影响力扩散结束时共经历T个扩散阶段，建立整数规划模型的目标函数和约束条件。

根据本发明的基于数据挖掘的健康画像构建方法的一实施例，步骤2进一步包括：

步骤2-1：针对所需地区作为样本点，采集城市健康状况指标的指标集C中的对应数据，并对采集到的数据进行标准化处理得到初始数据集Data⁰，构造初始属性特征集X⁰＝[x₁,…,x_n]；

步骤2-2：对采集到的初始数据集Data⁰按序排列，设定属性特征-标签阈值η，计算属性特征x_r对指标集C中每个三级指标c的互信息熵值I(x_r,c)，将互信息熵值I(x_r,c)低于属性特征-标签阈值η的属性特征过滤掉，构建样本的过滤属性特征，该过滤属性特征表示为X¹＝[x₁,…,x_m](m＜n)，其中，m为过滤后的属性特征个数，n为初始属性特征集中特征个数；

步骤2-3-1：从步骤1中获取到具有经济影响力的地级市集合G中随机采集K个样本，构成城市样本集City，并从中随机选取一个样本城市j，与其所属同级影响力和非同级影响力的近邻地级市各k个，计算样本城市j在某个属性特征x_r上与其他城市i的样本间距d(i,j)；

步骤2-3-2：若城市j与同级样本在某个属性特征x_r上的样本间距小于其与非同级样本在某个属性特征x_r之间的距离，则更新城市j的属性特征权重w(x_j,r)，其中属性特征初始权重w(x_j,r)＝0，反之，重新抽取样本城市，计算样本间距和属性特征权重；

步骤2-3-3：根据城市j的属性特征权重w(x_j,r)匹配属性特征对二级指标c^sec之间的权重w(x_j,r,c^sec)，遍历所有指标集C中的二级指标，得到城市j属性特征x_j,r对所有二级指标的权重之和w^sum(x_j,r)；

步骤2-3-4：对w^sum(x_j,r)按顺序排列，依次遍历r＝1,2,...,p，其中p表示属性特征x_r列的特征个数，构造城市j的属性特征向量u_j＝[w^sum(j,1),w^sum(j,2),…,w^sum(j,p)]，对样本城市j属性特征进行维度约简，遍历样本集City中所有城市，构建l维特征子集S_l(l＜m＜n)；

步骤2-4：进行最优特征子集的筛选。

根据本发明的基于数据挖掘的健康画像构建方法的一实施例，步骤3进一步包括：

步骤3-1：对原始网页文档中图片、视频、超链接及未知干扰信息进行过滤，找出基于词频的最大切分组合进行分词，采用停用词表做去停用词处理，构造预处理文档集Text；

步骤3-2-1：针对预处理文档i∈Text，设置调整系数；

步骤3-2-2：调整单词j对于文档i的重要程度，结合调整系数分配单词j的分值

步骤3-3：将文档i分为q段，找到词j在文档中所在段落记为b；经过步骤3-1中预处理，b段还剩余d个候选词，词j所在位置变为c，计算词j的位置信息权重并经过最大最小化归一化处理，获取最终位置信息权重；

步骤3-4：加权融合单词分值位置信息权重/>和单词动态权重wⁱ(j)，获取单词的多特征融合动态权重；

步骤3-5：结合多特征融合动态权重，遍历词集T_i ^dele，使用Transformer编码器对过滤停用词后的文本中单词编码获得词集的文本表示；

步骤3-6：按照矩阵的主题-单词分布矩阵，为关键词集KeyWord中的每一个词匹配相应的主题。

根据本发明的基于数据挖掘的健康画像构建方法的一实施例，步骤3-5进一步包括：

步骤3-5-1：使用多层双向的Transformer编码器计算每个单词的上下文感知，得到词嵌入表示；

步骤3-5-2：使用Word2Vec预训练将每个单词转换为实值向量，基于门控融合策略融合预训练语言模型和词向量得到词嵌入向量；

步骤3-5-3：计算初始关键词表示；

步骤3-5-4：通过解码器对最终的关键词表示进行解码构成关键词集。

根据本发明的基于数据挖掘的健康画像构建方法的一实施例，步骤3-6进一步包括：

步骤3-6-1：计文本集Text中文档i的初始主题分布；

步骤3-6-2：针对文档i，按照主题-单词分布矩阵生成单词的动态权重；

步骤3-6-3：更新文档-主题分布中文档i属于每个主题的概率然后更新在每个主题k下主题-单词分布中单词的概率/>直到结果收敛并输出；

步骤3-6-4：当更新迭代次数t满足t％moment＝0时，调整当前单词j的主题向量和单词的动态权重/>返回执行步骤3-6-3，moment表示动态更新单词权重时的迭代间隔次数；

步骤3-6-5：针对文档i中的单词集WORD，依次遍历j＝1,2,...,Q，k＝1,2,...,K，重复步骤3-6-2至3-6-4，直到获取K个主题下的文档-主题分布与Q个单词在每个主题下的主题-单词分布矩阵；

步骤3-6-6：针对文本集Text中每篇文档，重复步骤3-6-2至3-6-5，获取网页中所有文档的文档-主题分布θ＝(θ¹,θ²,...,θ^TextNum)和主题-单词分布φ＝(φ¹,φ²,...,φ^TextNum)，按顺序排列，选取与城市健康维度高度语义相关的M个主题构成主题集，每个主题下选择N个单词构成主题-单词集。

根据本发明的基于数据挖掘的健康画像构建方法的一实施例，步骤3-6-2中进一步包括：

步骤3-6-2-1：随机为文档中每个单词分配主题，进行初始化表示；

步骤3-6-2-2：对于文档中属于主题k下的单词j，更新单词j属于主题的概率μ_i,j(k)，遍历k＝1,2,...,K，得到单词j的主题分布；

步骤3-6-2-3：归一化单词j主题分布φⁱ(j)的每项分量φ_k ⁱ(j)构造单词j的主题向量。

根据本发明的基于数据挖掘的健康画像构建方法的一实施例，步骤4进一步包括：

步骤4-1：利用网络爬虫技术获取网页平台中描述所需地区主要健康特征的用户问答，按照步骤3-1的文本数据预处理步骤，对原始数据进行词汇标准化处理并过滤，得到标签集合；

步骤4-2-1：定义用户集合、城市集合、用户对于城市标注的标签集合；

步骤4-2-2：按照标签对城市的标注次数定义标签局部权重；

步骤4-2-3：根据样本集的信息熵和标签的条件熵之间的信息量增益确定标签全局权重，用以衡量标签区别不同城市的能力；

步骤4-2-4：语义维度权重用来解释标签的语义歧义性问题；

步骤4-2-5：计算城市-标签矩阵的元素值，构造城市-标签矩阵；

步骤4-3：根据城市-标签矩阵的元素计算k×k维的标签共现矩阵中的元素，将标签共现矩阵作为基于用户认知的标签相似度矩阵；

步骤4-4：利用WordNet语义词典计算基于标签语义的标签相似度矩阵Sim²；

步骤4-5：结合标签相似度矩阵Sim¹和Sim²进行标签合并，得到新的标签相似度矩阵；

步骤4-6：利用新的标签相似度矩阵进行标签扩展，对于已经标注城市c_j但未标注城市c_i的标签t_z，根据标签t_z与已标注到城市c_j的所有标签的共现分布，估计标签t_z会标注到未标注城市c_i上的概率；

步骤4-7：计算城市相似度，得到城市-城市相似度B矩阵，基于城市-城市相似度矩阵B按照协同过滤算法为用户生成城市标签推荐。

根据本发明的基于数据挖掘的健康画像构建方法的一实施例，步骤4-4进一步包括：

步骤4-4-1：对标签集进行预处理，利用WordNet分别生成标签t_p和标签t_q的同义词s_p和s_q，构成同义词集(s_p,s_q)；

步骤4-4-2：遍历所有存在的同义词对，对每个同义词集检索注释，并利用文本预处理方法为s_p和s_q提取注释G_p和G_q，计算标签之间的语义相似度，构造标签相似度矩阵Sim²。

本发明对比现有技术有如下的有益效果：(1)本发明建立了城市健康状况指标体系，并根据城市经济影响力动态扩散过程建立影响力最大化问题的整数规划模型。判断具备更高经济发展潜能的地级市影响力是否具备影响下级县级市的可能性，从而确定更具经济影响力的地级市集合。以此重点关注此类城市的健康状况，从经济、环境、人口、社会维度刻画城市健康画像，作为政府城市规划的重要参考要素。(2)目前流行的文本挖掘算法在主题建模过程中没有较好地结合相关的语义信息，严重影响了主题的语义连贯性和文本语义表征的准确性。本发明则通过融合文本信息的多个特征，在迭代过程中动态生成单词的权重，保证了较高的语义性。为更好的描述文本词向量，利用门控循环单元提取上下文特征并结合注意力机制学习文本中单词的重要性，通过胶囊网络学习文本特征生成关键词集，提高了文本学习的准确率和效率。(3)本发明依据特征过滤理论剔除与标签关联性较弱的冗余特征，构造近邻样本集的属性特征子集，引入信息接纳度获取最优特征子集，有效地降低维度灾难，增强属性特征之间和特征标签之间的关联性。通过上述处理，本发明实现从海量标签中提取反映城市健康的标签集合,通过标签共现揭示标签在城市画像语义特征方面的重要程度，并结合用户对城市健康状况的共同认知，深入到层级结构展开细粒度的城市画像描述。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的基于数据挖掘的健康画像构建方法的一实施例的流程图。

图2示出了获取最优特征子集的流程示意图。

图3示出了基于用户认知和语义信息为用户生成标签推荐的流程示意图。

图4示出了GRU-attention-Capsule混合模型结构的示意图。

图5示出了分面结构的城市健康画像的流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

图1示出了本发明的基于数据挖掘的健康画像构建方法的一实施例的流程图。请参见图1，下面是对本实施例的方法的实施步骤的详细描述。

步骤1：建立适用于所需地区的城市健康状况指标体系，并构造城市经济影响力最大化问题的整数规划模型。

步骤1进一步包括如下的处理。

步骤1-1：采集所需地区的城市健康状况指标，这些指标包括经济健康、环境健康、人口健康、社会健康、公共卫生健康。然后基于这些指标建立城市健康状况指标体系。

表1为城市健康状况指标体系的一个示例：

步骤1-2：初始阶段选择p个县级市和1个地级市，判断p个县级市受到地级市的影响力是否超过设定阈值，如果是，则表示县级市i受到地级市j发展状况的推动，影响力扩散结束时共经历T个扩散阶段。

在扩散过程中，每个扩散阶段至少会有一个县级市被影响。如果县级市受到的影响力达到1则表示会推动发展。

目标函数：

约束条件：

其中，目标函数中，N为县级市i所属集合，为0-1决策变量，用于判断县级市i是否会受到地级市j发展状况的推动，其表达式为公式(1-3)，

表示县级市i受到地级市j发展状况的推动；W_ji表示地级市j对县级市i的有效影响力指数，按照公式(1-4)计算，

其中，d_ij表示地级市j市中心点经纬度坐标和下级的县级市i市中心点经纬度坐标之间的欧式距离；I_j,own表示地级市j自身的年经济发展水平，按照公式(1-5)计算，

表示地级市j的近一年的人均可支配收入水平，/>表示地级市j的第一、第二和第三产业平均收入水平，/>表示地级市j登记的失业人口比率；

公式(1-4)中的τ_i指县级市i自身的发展潜力，其公式为，

其中，为城市网络G的连通效率,图G是指包含由省、自治区管辖的地级市、县级市之间存在影响力关系的节点集VP进行连接，构成的无向连接图，

网络连通效率计算公式为，

其中，ρ表示城市当前的经济状况排名；d_pq为网络图中各城市节点间的地理路径进行最大最小归一化后计算的最短路径；为重置县级市和与之相连的边的距离d_pq之后再次按照公式(1-7)计算的连通效率，d_pq的更新公式为，

公式(1-2)中约束条件1表示初始阶段共有p个县级市；

约束条件2表示若要使得县级市i在t阶段受到地级市j的推动，那么要保证在第t-1阶段地级市j对县级市i的有效影响力W_ji超过1，进而才可以影响下一个县级市；E表示地级市市中心点和县级市市中心所构成的边集合；

约束条件3表示受到推动发展的县级市i可以始终保持健康发展势头。

步骤2：根据步骤1中所建立的城市健康状况指标体系采集数据，并根据特征过滤理论剔除与标签关联性较弱的冗余特征，构造近邻样本集的属性特征子集，引入信息接纳度获取最优特征子集，有效地降低维度灾难，增强属性特征之间和特征标签之间的关联性，构建出最优特征子集。

如图2所示，步骤2的具体处理过程如下。

步骤2-1：针对所需地区作为样本点，采集城市健康状况指标的指标集C中的对应数据，并对采集到的数据进行标准化处理得到初始数据集Data0，构造初始属性特征集X⁰＝[x₁,…,x_n]。若初始数据集中存在缺失属性值，采用缺失数值所在列的均值进行填补。

步骤2-2：对采集到的初始数据集Data⁰按序排列，设定初始数据集的四分之三分位点作为属性特征-标签阈值η，按照下述的公式(2-5)计算属性特征x_r对指标集C中每个三级指标c的互信息熵值I(x_r,c)。将互信息熵值I(x_r,c)低于属性特征-标签阈值η的属性特征过滤掉，构建样本的过滤属性特征，该过滤属性特征表示为X¹＝[x₁,…,x_m](m＜n)，其中，m为过滤后的属性特征个数，n为初始属性特征集中特征个数；

其中，ρ(x_i)表示属性特征x_i在初始属性特征集X⁰中出现的边际概率，ρ(c)表示整个初始属性特征集X⁰中的特征项属于三级指标c的边际概率，ρ(x_i,c)表示三级指标c中出现属性特征x_i的频率；i＝1,2,...,n；c＝1,2,3,4；

步骤2-3-1：从步骤1中获取到具有经济影响力的地级市集合G中随机采集K个样本，构成城市样本集City，并从中随机选取一个样本城市j，与其所属同级影响力和非同级影响力的近邻地级市各k个，按照公式(2-1)计算样本城市j在某个属性特征x_r上与其他城市i的样本间距d(i,j)；

其中，x_i，r表示样本城市i在步骤2-2过滤属性特征x_r上的值；m表示过滤属性特征后属性特征数，

步骤2-3-2：若城市j与同级样本在某个属性特征x_r上的样本间距小于其与非同级样本在某个属性特征x_r之间的距离，则按照公式(2-2)更新城市j的属性特征权重w(x_j,r)，其中属性特征初始权重w(x_j,r)＝0。反之，重新抽取样本城市，计算样本间距和属性特征权重。

其中，dis_j,s∈City(x_j,r,x_s,r)表示样本城市j与其同级的近邻样本城市s在属性特征x_r上的耦合性，表示样本j与其非同级的近邻样本g在属性特征x_r上的耦合性，h表示第h次抽取，p(g)表示样本城市g被抽取到的概率，k表示与城市j所属同级影响力和非同级影响力的近邻地级市各k个。

耦合性的计算公式为公式(2-3)：

r^max表示城市j属性特征x_r列中的最大值，r^min表示城市j属性特征x_r列中最小值。

步骤2-3-3：根据城市j的属性特征权重w(x_j,r)匹配属性特征对二级指标c^sec之间的权重w(x_j,r,c^sec)，遍历所有指标集C中的二级指标，得到城市j属性特征x_j,r对所有二级指标的权重之和

步骤2-3-4：对w^sum(x_j,r)按顺序排列，依次遍历r＝1,2,...,p，其中p表示属性特征x_r列的特征个数，构造城市j的属性特征向量u_j＝[w^sum(j,1),w^sum(j,2),…,w^sum(j,p)]。计信息接纳度δ为0.75，按下述的公式(2-6)对样本城市j属性特征进行维度约简。遍历样本集City中所有城市，构建l维特征子集S_l(l＜m＜n)；

其中，m表示过滤属性特征矩阵X¹中属性特征个数，l为降维后的属性特征个数，δ为信息接纳度，u_j为城市j的属性特征向量。

步骤2-4：最优特征子集筛选具体为：

对特征子集S_l利用前向查找法获取第l+1维属性特征，按照最大化属性特征与标签I(x_j,c)间的相关性，最小化属性特征I(x_i,x_j)间冗余的准则确定最终特征子集；此处的准则公式(2-4)为：

其中，max(z)表示最优特征子集筛选的目标函数，S_l+1-S_l表示第l+1个属性特征对其他属性特征及标签的影响度。

上述的特征约简技术，实质就是从原始样本数据集中的特征属性中进行筛选，选择较为有效的特征属性，最具代表的特征属性，从而以此降低数据特征属性维度的过程。在特征约简过程中，比如从高维数据约简到低维的数据的过程中会存在数据丢失现象，且特征选择数量过多或约简后保留的维数较高都会产生较大计算量，且伴随着噪声数据。借助特征选择算法可以去除特征属性空间中大量冗余特征属性和不相关特征属性，过滤数据集中的噪声数据干扰。特征提取是通过在原始的数据集上进行特征转换与组合以创造全新的特征，主要解决样本属性过高，计算量大、数据维数高的问题。

步骤3：考虑文本的潜在语义信息，获取网页文本单词的多特征融合动态权重，筛选出具有较高城市健康画像解释度的主题分布和关键词集合，实现文本单词在主题层次上的聚类，生成具有层级结构的城市健康画像。

如图3和图5所示，步骤3进一步包括以下的处理。

步骤3-1：统计中国城市统计年鉴网页中最近1年发布的有关所需地区(如长三角地区)城市健康的政策通知，对原始网页文档中图片、视频、超链接及各种未知干扰信息进行过滤，采用Jieba分词技术找出基于词频的最大切分组合进行分词，采用停用词表做去停用词处理，构造预处理文档集Text。

步骤3-2-1：针对预处理文档i∈Text，设置调整系数x_ij表示单词j的全局词频，按照公式(3-2)计算，

f_ij表示单词j在文档i出现的频次，f_i ^max表示文档i中出现最多的词的出现频次，f_i ^sum表示文档i中的总词数；表示单词j在文档i出现的最小全局词频，这里为0.2，/>表示单词j在文档i出现的最大全局词频，这里为0.8。

步骤3-2-2：按照公式(3-1)调整单词j对于文档i的重要程度，结合调整系数分配单词j的分值

其中，T_i ^dele表示过滤停用词后文档i的词集，ζ表示文档过滤停用词后的过滤系数，这里取文档过滤前后的总词数之比；表示未过滤时的调整系数，/>表示过滤后的调整系数。

步骤3-3：将文档i分为q段，找到词j在文档中所在段落记为b；经过步骤3-1中预处理，b段还剩余d个候选词，词j所在位置变为c，按照公式(3-3)计算词j的位置信息权重并经过最大最小化归一化处理，获取最终位置信息权重/>

步骤3-4：加权融合单词分值位置信息权重/>和步骤3-6-2-3中的单词动态权重wⁱ(j)，获取单词的多特征融合动态权重/>其中，λ₁+λ₂+λ₃＝1，λ₁、λ₂、λ₃分别表示单词分值、位置信息权重与单词动态权重的权重系数。

步骤3-5：结合多特征融合动态权重，遍历词集T_i ^dele，使用Transformer编码器对过滤停用词后的文本中单词编码获得词集的文本表示H＝(h₁,h₂,…,h_n)，具体为，

步骤3-5-1：使用多层双向的Transformer编码器计算每个单词的上下文感知，得到词嵌入表示e_q＝(e_q1,e_q2,...,e_qn)，

步骤3-5-2：使用Word2Vec预训练将每个单词转换为实值向量e_w＝(e_w1,e_w2,...,e_wn)，基于门控融合策略按照公式(3-4)和(3-5)融合预训练语言模型和词向量得到词嵌入向量Y＝(y₁,y₂,...,y_n)，

M'＝sigmoid(W¹e_w+W²e_q) (3-4)

Y＝(1-M')·e_w+M'·e_q (3-5)

公式(3-4)中W¹,W²均为权重向量，再将嵌入向量Y＝(y₁,y₂,...,y_n)送入预训练编码器中生成文本表示H＝(h₁,h₂,…,h_n)，M′表示融合词嵌入向量和实值向量的归一化系数。

步骤3-5-3：按照公式(3-6)计算初始关键词表示H'，

其中，V为基于GRU-attention-Capsule混合模型获取的输出单元，V_k表示编码器隐层状态的维度，这里设置为3层(根据公式(3-6)获取词的初始关键词表示，为了综合初始关键词表示和初始文本表示，(3-7)中加权表示得到最终的关键词表示，既覆盖了初始文本又提炼了关键词)

随机设置比例因子p，对初始文本表示H、关键词表示H'按照公式(3-7)计算最终关键词表示

步骤3-5-4：通过解码器对最终的关键词表示进行解码构成关键词集KeyWord；

步骤3-6：按照步骤3-6-5得到的该矩阵的主题-单词分布矩阵为关键词集KeyWord中的每一个词匹配相应的主题，假设共匹配到M个主题；矩阵中的/>表示第Q个词在第1个主题下的分布概率、/>表示第Q个词在第K个主题下的分布概率。

针对主题a，构造主题空间向量T_a＝(t₁,t₂,...,t_n)，其中tn表示属于主题a第n个词的主题，表示属于某一主题的词序列；依次遍历M个主题并用空间向量表示，按照余弦相似度公式cos(T_a,T_b)计算主题空间向量T_a,T_b间的相似度，不断重复地将相似度高的两个主题聚类合并，直至达到终止条件，最终输出具有分面结构的城市健康画像的框架模型。

步骤3-6中构造与城市健康高度语义相关的主题分布和单词集具体包含以下步骤。

步骤3-6-1：计文本集Text中文档i的初始主题分布为每个主题k下有长度为Q的单词分布/>其中，/>表示文档i在主题K下的分布概率、/>表示第Q个单词在第k个主题下的分布概率。

步骤3-6-2：针对文档i，按照主题-单词分布矩阵生成单词的动态权重，具体为：

步骤3-6-2-2：对于文档中属于主题k下的单词j，按照公式(3-8)更新单词j属于主题的概率μ_i,j(k)，遍历k＝1,2,...,K，得到单词j的主题分布

/>

公式(3-8)中，表示文档i中第k个主题的文档-主题分布概率、α和β表示服从迪利克雷分布的先验参数β＝0.01和/>这里K表示文档i的主题个数、/>表示主题k下第j个单词的主题-单词分布概率。

步骤3-6-2-3：归一化单词j主题分布φⁱ(j)的每项分量φ_k ⁱ(j)构造单词j的主题向量其中K表示主题个数、/>表示文档i在主题K下单词j的单词权重。基于JS散度原理按照公式(3-9)来衡量单词j的主题向量与干扰向量/>之间的相似度/>

其中，表示主题向量/>和干扰向量/>的均值向量，D_JS这里是/>表示单词主题向量与干扰向量的JS散度、D_KL表示主题向量和均值向量的KL散度。

对相似度标准化处理得到单词j的动态权重/>其中表示单词j在主题k下的出现频次。

步骤3-6-3：按照公式(3-10)更新文档-主题分布中文档i属于每个主题的概率然后按照公式(3-11)更新在每个主题k下主题-单词分布中单词的概率/>直到结果收敛并输出；

其中，μ_i，j(k)表示单词j属于主题k的概率。

步骤3-6-4：当更新迭代次数t满足t％moment＝0时，调整当前单词j的主题向量和单词的动态权重/>返回执行步骤3-6-3，moment表示动态更新单词权重时的迭代间隔次数，设置为20。

设置服从狄利克雷分布的先验参数β＝0.01和按照公式(3-12)和(3-13)根据最终收敛的/>与/>概率估计值获取最终的主题-单词分布概率和文档-主题分布概率；/>

步骤3-6-5：针对文档i中的单词集WORD，依次遍历j＝1,2,...,Q，k＝1,2,...,K，重复步骤3-6-2至3-6-4，直到获取K个主题下的文档-主题分布与Q个单词在每个主题下的主题-单词分布矩阵/>

更进一步的，上述的计算步骤3-6-2-3中的干扰向量的具体方法如下。

对于给定的输入源词序列H＝(h₁,h₂,...,h_s)，通过一种混沌映射函数f_e(x)映射获取干扰向量针对第t轮训练词序列中每个字/>的干扰噪声映射公式为：

f_e ^t+1(h_i)＝f_e ^t(h_i)×τ×(1-f_e ^t(h_i)) (3-14)

其中，P为服从[0,1]均匀分布的随机数，ψ表示引入干扰噪声的固定概率，设置为4；τ表示[0,4]之间的logistics参数；/>表示第t轮训练每个字h_i的映射表示、f_e(h_s)表示字h_s的混沌映射表示、h_s表示源词序列的第s个字。

更进一步的，如图4所示，基于GRU-attention-Capsule混合模型利用门控循环单元提取上下文特征并结合注意力机制学习文本中单词的重要性，通过胶囊网络学习文本特征生成关键词集，GRU-attention-Capsule混合模型具体包含以下模块。

模块1：全局特征提取模块：

计步骤3-2-2的过滤停用词后的词集T_i ^dele长度为N，序列化表示为K_a＝(k₁,k₂,…,k_N)；

将K_a作为训练集输入变量输入到GRU单元为50的GRU模型，经过更新门和重置门更新迭代，获得当前时刻GRU的输出特征h_t；

引入注意力机制，将GRU的输出特征h_t输入到注意力机制，获得当前的隐层表示v_t＝tanh(W_ah_t+b_a)，其中，W_a为权重矩阵，b_a为偏置矩阵；

经过softmax函数对隐层表示v_t标准化处理重新分配词权重，并对词权重求和获得注意力机制的输出向量

模块2：胶囊网络分类模块：

设置底层胶囊个数为24，动态路由迭代次数3次，高层胶囊个数为11个，输出单元V维度为10；

将输出向量u_i作为第一层胶囊层的输入，相邻胶囊层Capsule_L与Capsule_L+1间的动态路由迭代具体包括以下方法，

通过变换矩阵W_ij对输入胶囊单元u_i进行转换获得预测向量对预测向量加权求和得到L+1胶囊层的输出胶囊单元v_j的全部信息/>c_ij表示预测向量的权重系数。

按照公式(3-15)对输出信息m_j进行非线性压缩处理获得L+1胶囊层的输出胶囊单元v_j；

根据公式(3-16)计算L+1胶囊层的输出胶囊单元v_j与L胶囊层的输入胶囊单元u_i预测向量的点积；

其中，b_ij为初始化为0的对数几率，

当预测向量与输出胶囊单元v_j方向趋于一致时，按照公式(3-17)调整耦合系数c_ij；设置动态路由迭代3次，对耦合系数c_ij不断修正，得到下一胶囊层的输出胶囊单元v_j ^*；

由底层向高层胶囊层依次执行模块2(胶囊网络分类模块)中的动态路由迭代算法，获得最终高层胶囊层的输出单元V，输出单元V的模长|V|表示对应类别的分类概率。

步骤3中所使用的文本挖掘算法主要是文本数据词向量化处理。在对文本数据进行分类之前，需要进行预处理。文本预处理主要包括对文本数据进行分词和去停用词两步。需要根据提前建立好的停用词库去掉一些没有实际意义的词，将文本信息转换为词和字组成的集合。去停用词后，利用文本表示模型将筛选出的特征词向量化表示。为分辨不同特征词对于各类别的区分程度，往往还构造权重评估函数。

而基于胶囊网络的文本分类模型的思想是使用胶囊代替CNN中的神经元，使模型可以学习对象之间的姿态信息与空间位置关系。主要使用动态路由算法进行底层到高层的参数更新，而不是使用池化操作，从而避免信息丢失。中间使用压缩函数代替ReLU激活函数，由多个向量神经元共同决定与整体的关系，因为使用胶囊网络可以更好地学习到文本局部与整体的关联信息。首先使用预先训练的词向量初始化输入向量，在卷积层中利用多个不同尺度的卷积核进行特征提取，然后采用池化操作提取主要特征，最后使用softmax分类器进行分类。

步骤4：构建多特征融合标签集和城市-标签矩阵，基于用户认知和标签扩展改进协同过滤推荐算法，从海量标签中提取反映城市健康的标签集合,通过标签共现揭示标签在城市画像语义特征方面的重要程度，生成城市标签推荐，深入到层级结构展开细粒度的城市画像描述。

步骤4的具体处理过程如下。

步骤4-1：利用网络爬虫技术获取网页平台中描述所需地区(例如长三角地区城市)主要健康特征的用户问答，涉及公众对各城市在经济、社会、环境、人口健康等多个维度的内容。按照步骤3-1所述的文本数据预处理步骤，对原始数据进行词汇标准化处理并过滤，得到标签集合T。

步骤4-2-1：定义用户集合U＝{u₁,u₂,...,u_m}，城市集合City＝{c₁,c₂,...,c_n}，用户对于城市标注的标签集合T＝{t₁,t₂,...,t_k}，

步骤4-2-2：按照标签t_i对城市c_j的标注次数P(i,j)定义标签局部权重P_w(i,j)；

P_w(i,j)＝log₂(P(i,j)+1) (4-7)

步骤4-2-3：根据样本集的信息熵和标签的条件熵H(c|t_i)之间的信息量增益确定标签全局权重T_w(i)，用以衡量标签t_i区别不同城市的能力；

其中，CityNum表示长三角地区城市样本集中城市总数；

步骤4-2-4：语义维度权重R_w(j)用来解释标签的语义歧义性问题；

其中，TagNum表示已经被标注的标签总数；H(c_j)表示城市c_j的信息熵；

步骤4-2-5：计算城市-标签矩阵O元素值o(i,j)，构造城市-标签矩阵O；

o(i,j)＝P_w(i,j)×T_w(i)×R_w(j) (4-6)

公式(4-6)中，P_w(i，j)表示标签t_i对城市c_j的局部权重、T_w(i)表示标签t_i全局权重、R_w(j)表示城市c_j在语义维度权重。

步骤4-3：根据城市-标签矩阵O元素按照公式(4-1)计算k×k维的标签共现矩阵C中的元素c(t_p,t_q)，将标签共现矩阵C作为基于用户认知的标签相似度矩阵Sim¹；

其中，表示标签t_p标注城市c_j的数目，N(t_p)表示标签t_p标注的城市集合，N(t_p)∩N(t_q)表示标签t_p和标签t_q共同标注的城市集合，c(t_p,t_q)表示标签t_p和标签t_q标注同一城市的频率。

步骤4-4：利用WordNet语义词典计算基于标签语义的标签相似度矩阵Sim²，步骤4-4进一步包括以下两个步骤。

步骤4-4-2：遍历所有存在的同义词对，对每个同义词集检索注释，并利用文本预处理方法为s_p和s_q提取注释G_p和G_q，按照公式(4-2)计算标签之间的语义相似度，构造标签相似度矩阵Sim²；

sim(t_p，t_q)表示标签t_p和标签t_q的语义相似度。

步骤4-5：结合标签相似度矩阵Sim¹和Sim²按照公式(4-3)进行标签合并，得到新的标签相似度矩阵M；

m(t_p,t_q)＝η*c(t_p,t_q)+(1-η)*sim(t_p,t_q) (4-3)

其中，η∈[0,1]表示用于调节合并权重的因子，每迭代一次增加0.1；c(t_p，t_q)表示标签t_p和标签t_q基于用户认知的相似度。

步骤4-6：利用新的标签相似度矩阵M进行标签扩展，对于已经标注城市c_j但未标注城市c_i的标签t_z，根据标签t_z与已标注到城市c_j的所有标签的共现分布，估计标签t_z会标注到未标注城市c_i上的概率，计算公式(4-4)为：

其中，T_i表示已经标注了城市c_i的标签集合，表示标注了城市c_i的标签总数，表示标签t_t标注城市c_i的概率。

步骤4-7：按照公式(4-5)计算城市相似度，得到城市-城市相似度B矩阵，基于城市-城市相似度矩阵B按照协同过滤算法为用户生成城市标签推荐；

上式中，sim(t_z，c_i)表示城市c_i被标注标签t_z的次数、simb(t_z，c_i)表示城市c_i在标签集合中T_i被标注标签t_z的次数、r(c_i，c_j)表示城市c_i与城市c_i的标签相似度，基于此可以判断城市所属标签类。

步骤4中提到的协同过滤算法首先会根据历史数据构造评分矩阵，基于用户间相似度筛选出相似度较高的用户集合作为最近邻，最后对目标用户没有历史数据的进行评分预测，选取前N个高评分项目，完成推荐。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种基于数据挖掘的健康画像构建方法，其特征在于，方法包括：

2.根据权利要求1所述的基于数据挖掘的健康画像构建方法，其特征在于，步骤1进一步包括：

3.根据权利要求1所述的基于数据挖掘的健康画像构建方法，其特征在于，步骤2进一步包括：

步骤2-4：进行最优特征子集的筛选。

4.根据权利要求1所述的基于数据挖掘的健康画像构建方法，其特征在于，步骤3进一步包括：

步骤3-2-1：针对预处理文档i∈Text，设置调整系数；

步骤3-5：结合多特征融合动态权重，遍历词集使用Transformer编码器对过滤停用词后的文本中单词编码获得词集的文本表示；

5.根据权利要求4所述的基于数据挖掘的健康画像构建方法，其特征在于，步骤3-5进一步包括：

步骤3-5-3：计算初始关键词表示；

6.根据权利要求4所述的基于数据挖掘的健康画像构建方法，其特征在于，步骤3-6进一步包括：

步骤3-6-1：计文本集Text中文档i的初始主题分布；

7.根据权利要求6所述的基于数据挖掘的健康画像构建方法，其特征在于，步骤3-6-2中进一步包括：

8.根据权利要求1所述的基于数据挖掘的健康画像构建方法，其特征在于，步骤4进一步包括：

步骤4-2-2：按照标签对城市的标注次数定义标签局部权重；

步骤4-2-4：语义维度权重用来解释标签的语义歧义性问题；

9.根据权利要求8所述的基于数据挖掘的健康画像构建方法，其特征在于，步骤4-4进一步包括：