CN116561327A

CN116561327A - 基于聚类算法的政务数据管理方法

Info

Publication number: CN116561327A
Application number: CN202310840508.1A
Authority: CN
Inventors: 梅雨; 杨广学; 孙禄明; 李柏; 蒋铭
Original assignee: Panorama Zhilian Tianjin Technology Co ltd; Panoramic Zhilian Wuhan Technology Co ltd; Beijing Panorama Zhilian Technology Co ltd
Current assignee: Panorama Zhilian Tianjin Technology Co ltd; Panoramic Zhilian Wuhan Technology Co ltd; Beijing Panorama Zhilian Technology Co ltd
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-08-08
Anticipated expiration: 2043-07-11
Also published as: CN116561327B

Abstract

本发明涉及政务数据处理技术领域，公开了一种基于聚类算法的政务数据管理方法。该方法包括：步骤S101，基于目标文本分类类型来提取主数据实体型定义表；步骤S102，生成映射对；步骤S103，通过生成的映射对来对表字段匹配模型进行训练；步骤S104，将第二文本数据输入表字段匹配模型；步骤S105，以第二字段名称序列为聚类中心对第一字段名称序列进行聚类；步骤S106，对第一字段名称聚类集合中的第一字段名称关联的第二文本数据标记目标文本分类类型。本发明通过历史的主数据实体型定义表作为中间的媒介，将文本数据解析映射到主数据实体型定义表，然后再基于主数据实体型定义表的内容进行文本分类类型的标记，准确率高。

Description

基于聚类算法的政务数据管理方法

技术领域

本发明涉及政务数据处理技术领域，更具体地说，它涉及一种基于聚类算法的政务数据管理方法。

背景技术

市域社会治理需要进行各政务部门的大数据处理，其中一个任务就是对文本数据进行分类，一方面文本数据本身的语义含义具有多变性，另一方面各政务部门的在进行录入文本数据时会根据录入标准来改变内容和格式，导致直接基于文本数据向量化之后进行聚类对文本数据进行聚类的准确度不高。

发明内容

本发明提供一种基于聚类算法的政务数据管理方法，解决相关技术中基于文本数据向量化之后进行聚类对市域社会治理的文本数据进行聚类的准确度不高的技术问题。

本发明提供了一种基于聚类算法的政务数据管理方法，包括：步骤S101，基于目标文本分类类型来提取主数据实体型定义表，主数据实体型定义表包括表名称和字段名称，表名称与文本分类类型能够建立映射关系，主数据实体型定义表的字段名称与文本数据中的词映射，已经结构化为实体数据表的文本数据定义为第一文本数据，对于待分类的未结构化为实体数据表的文本数据定义第二文本数据；步骤S102，生成映射对，一个映射对包括一个第一文本数据和一个主数据实体型定义表，映射对的第一文本数据的文本分类类型与主数据实体型定义表的表名称存在映射关系；步骤S103，通过生成的映射对来对表字段匹配模型进行训练，训练时表字段匹配模型的输入为映射对的第一文本数据，输出映射一个分类空间，该分类空间表示为，类别标签/>表示非字段名称，类别标签分别表示字段名称库内的一个字段名称，字段名称库包括步骤S101提取的所有主数据实体型定义表的字段名称；步骤S104，将第二文本数据输入表字段匹配模型，将表字段匹配模型输出获得的主数据实体型定义表的字段名称生成第一字段名称序列；步骤S105，提取步骤101中提取的主数据实体型定义表的字段名称生成第二字段名称序列，将第一字段名称序列和第二字段名称序列放入聚类空间，以第二字段名称序列为聚类中心对第一字段名称序列进行聚类，生成多个第一字段名称聚类集合；步骤S106，对第一字段名称聚类集合中的第一字段名称关联的第二文本数据标记目标文本分类类型，标记的目标文本分类类型是该第一字段名称聚类集合中的第二字段名称序列关联的主数据实体型定义表所映射的目标文本分类类型。

进一步地，目标文本分类类型是基于对政务数据的划分需求来进行设置的。

进一步地，文本数据输入表字段匹配模型之前需要进行分词和词向量生成的步骤。

进一步地，表字段匹配模型为神经网络模型。

进一步地，神经网络模型是Transformer（转换器）模型，首先对文本数据进行分词处理，然后基于分词后的结果生成词向量，然后生成文本数据的特征矩阵输入Transformer模型；生成的文本数据的特征矩阵U表示为，其中g表示文本数据的分词总数，n表示词向量的维数，特征矩阵U中的第B行表示文本数据的第B个分词的词向量，/>表示文本数据的第1个分词的词向量的第1个分量，/>表示文本数据的第1个分词的词向量的第n个分量，/>表示文本数据的第g个分词的词向量的第1个分量，表示文本数据的第g个分词的词向量的第n个分量。

进一步地，步骤S105的聚类的方法包括：定义：第i个第二字段名称序列的总向量为；/>表示第i个第二字段名称序列的总向量的第1个分量；表示第i个第二字段名称序列的总向量的第2个分量；/>表示第i个第二字段名称序列的总向量的第p个分量；第i个第一字段名称序列的总向量为/>；表示第i个第一字段名称序列的总向量的第1个分量；/>表示第i个第一字段名称序列的总向量的第2个分量；/>表示第i个第一字段名称序列的总向量的第h个分量；第i个第二字段名称序列的区域密度为/>，计算公式为：/>，其中L表示第i个第二字段名称序列的最邻近集合的第二字段名称序列数量，第i个第二字段名称序列与最近邻集合第二字段名称序列的第一距离大于与最近邻集合外的第二字段名称序列的第一距离；/>表示第i个第二字段名称序列与距离其最近的第二字段名称序列的第一距离；第i个第二字段名称序列的区域概率为/>，计算公式如下：/>，式中，/>表示第i个第二字段名称序列的区域密度，/>表示第k个第二字段名称序列的区域密度，N表示字段名称序列的总数；步骤S201，初始化第二字段名称序列为聚类中心，且设t=1，设m为作为聚类中心的第二字段名称序列的数量；步骤S202，计算所有第一字段名称序列的区域概率；步骤S203，生成随机数/>，如果满足/>，则选中第一字段名称序列/>，其中/>为第j个第一字段名称序列的区域概率，/>，k=1时定义/>，N是第一字段名称序列的总数；步骤S204，对/>，令，其中/>表示第i个第二字段名称序列的输出值，/>，c和r均为第二字段名称序列的序号，满足以下条件：/>；；

其中，，/>，/>，/>为/>的次数，/>为/>的次数，/>为/>的次数，/>为/>的次数，/>分别是第c、r、k、j个第二字段名称序列的输出值，/>分别为第c、r、j个第二字段名称序列的得分系数，/>分别为第c、r、j个第二字段名称序列的总向量，z是步骤S203选中的第一字段名称序列的总向量，m是作为聚类中心的第二字段名称序列的数量；步骤S205，更新第二字段名称序列的总向量/>，更新的公式如下：，式中，学习率/>，/>，表示第i个第二字段名称序列更新前的总向量，/>表示第i个第二字段名称序列更新的累加值，/>表示第i个第二字段名称序列的输出值；步骤S206，令t=t+1，若t＜T，T为设置的迭代终止次数，则返回步骤S202，否则进入下一步骤；步骤S207，寻找离聚类中心最近的第一字段名称序列，并纳入对应的聚类集合。

进一步地，L=[N/m]，m为作为聚类中心的第二字段名称序列的数量，N为聚类的第一字段名称序列的总数。

进一步地，步骤S105中的第二字段名称序列只包括与文本数据中的词映射的字段名称。

进一步地，第一字段名称序列中字段名称的顺序与字段名称映射的第二文本数据中的分词的顺序一致。

进一步地，生成的第E个第一字段名称序列表示为，其中序列单元/>分别对应一个循环神经网络的循环单元的输入，循环神经网络的输出映射一个分类空间，该分类空间表示为/>，其中分类标签/>对应表示输入的第一字段名称序列属于第1个聚类集合；/>对应表示输入的第一字段名称序列属于第2个聚类集合；/>对应表示输入的第一字段名称序列属于第f个聚类集合。

本发明的有益效果在于：本发明通过历史的主数据实体型定义表作为中间的媒介，将文本数据解析映射到主数据实体型定义表，然后再基于主数据实体型定义表的内容进行文本分类类型的标记，准确率高，而且聚类样本的数据体积更小，降低了聚类处理的时间复杂度。

附图说明

图1是本发明的一种基于聚类算法的政务数据管理方法的流程图。

图2是本发明的一个主数据实体型定义表。

图3是本发明的以第二字段名称序列为聚类中心对第一字段名称序列进行聚类的方法的流程图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

图1示出了根据本发明实施方式的基于聚类算法的政务数据管理方法。如图1所示，该方法可以包括步骤S101至步骤S106。下面将对各个步骤进行详细地描述。

在步骤S101中，基于目标文本分类类型来提取主数据实体型定义表。

目标文本分类类型是基于对政务数据的划分需求来进行设置。例如关联警情的目标文本分类类型包括事故类警情、秩序类警情、移车挪车类警情、交通设施类警情、治安类警情。在此仅示例性地示出了目标文本分类类型，本领域的技术人员可以根据实际情况来进行设置。

为了便于理解，在图2中示出了主数据实体型定义表的一个治安类警情的示例。下面将结合该治安类警情的示例进行说明，根据本公开的思想，对于其他类型也可以适用或者也可以根据实际情况进行调整。

主数据实体型定义表至少可以包括表名称和字段名称，表名称与文本分类类型能够建立映射关系，该映射关系可以是数据库中的映射关系，也可以是现实意义上的关联关系。由于主数据实体型定义表的数量较少，能够通过人工判断来完成提取主数据实体型定义表的工作。

主数据实体型定义表的字段名称与文本数据中的词映射，这个映射关系可以通过查询实体数据表来获得，实体数据表是基于实体型定义表来建立的，实体数据表中的字段是来源于文本数据。需要说明的是，只有已经结构化为实体数据表的文本数据才能够映射到主数据实体型定义表。为了便于区分，将已经结构化为实体数据表的文本数据定义为第一文本数据，对于待分类的未结构化为实体数据表的文本数据定义第二文本数据。文本数据通过录入人员录入，例如在警情的情况下，可以通过接警人员录入。

在步骤S102中，生成映射对。一个映射对包括一个第一文本数据和一个主数据实体型定义表，映射对的第一文本数据的文本分类类型与主数据实体型定义表的表名称存在映射关系。

步骤S103，通过生成的映射对来对表字段匹配模型进行训练，训练时表字段匹配模型的输入为映射对的第一文本数据，输出映射一个分类空间，该分类空间表示为，类别标签/>表示非字段名称，类别标签/>分别表示字段名称库内的一个字段名称，字段名称库包括步骤S101提取的所有主数据实体型定义表的字段名称。

步骤S104，将第二文本数据输入表字段匹配模型，将表字段匹配模型输出获得的主数据实体型定义表的字段名称生成第一字段名称序列。

需要说明的是，文本数据输入表字段匹配模型之前需要进行分词和词向量生成的步骤，表字段匹配模型输出每个分词的类别标签。

在本发明的一个实施例中，表字段匹配模型为神经网络模型，更具体的可以是Transformer模型。首先对文本数据进行分词处理，然后基于分词后的结果生成词向量，然后生成文本数据的特征矩阵输入Transformer模型。

生成的文本数据的特征矩阵U表示为，其中g表示文本数据的分词总数，n表示词向量的维数，特征矩阵U中的第B行表示文本数据的第B个分词的词向量，/>表示文本数据的第1个分词的词向量的第1个分量，/>表示文本数据的第1个分词的词向量的第n个分量，/>表示文本数据的第g个分词的词向量的第1个分量，表示文本数据的第g个分词的词向量的第n个分量。

步骤S105，提取步骤101中提取的主数据实体型定义表的字段名称生成第二字段名称序列，将第一字段名称序列和第二字段名称序列放入聚类空间，以第二字段名称序列为聚类中心对第一字段名称序列进行聚类，生成多个第一字段名称聚类集合。

如图3所示，步骤S105的聚类的方法包括以下内容。

首先定义第i个第二字段名称序列的总向量为，/>表示第i个第二字段名称序列的总向量的第1个分量；/>表示第i个第二字段名称序列的总向量的第2个分量；/>表示第i个第二字段名称序列的总向量的第p个分量；第i个第一字段名称序列的总向量为/>，/>表示第i个第一字段名称序列的总向量的第1个分量；/>表示第i个第一字段名称序列的总向量的第2个分量；/>表示第i个第一字段名称序列的总向量的第c个分量，第i个第一字段名称序列的区域密度为/>，计算公式为/>。

L表示第i个第一字段名称序列的最邻近集合的第一字段名称序列数量，第i个第一字段名称序列与最近邻集合第一字段名称序列的第一距离大于与最近邻集合外的第一字段名称序列的第一距离；表示第i个第一字段名称序列与最邻近集合中的第k个第一字段名称序列的第一距离。第一距离为欧氏距离、余弦距离或编辑距离。

第i个第一字段名称序列的区域概率为，计算公式为/>。式中，表示第i个第一字段名称序列的区域密度，/>表示第k个第一字段名称序列的区域密度，N表示第一字段名称序列的总数。

步骤S201，初始化第二字段名称序列为聚类中心，且设t=1，设m为作为聚类中心的第二字段名称序列的数量。

步骤S202，计算所有第一字段名称序列的区域概率。

步骤S203，生成随机数，如果满足/>，则选中第一字段名称序列/>，其中/>为第j个第一字段名称序列的区域概率，/>，k=1时定义/>，N是第一字段名称序列的总数。

步骤S204，对，令/>。其中/>表示第i个第二字段名称序列的输出值，/>，c和r均为第二字段名称序列的序号，满足以下条件：/>；/>。

其中，，/>，/>，/>为/>的次数，为/>的次数，/>为/>的次数，/>为/>的次数，/>分别是第c、r、k、j个第二字段名称序列的输出值，/>分别为第c、r、j个第二字段名称序列的得分系数，/>分别为第c、r、j个第二字段名称序列的总向量，z是步骤S203选中的第一字段名称序列的总向量，m是作为聚类中心的第二字段名称序列的数量。

步骤S205，更新第二字段名称序列的总向量，更新的公式如下：。

式中，学习率，/>，/>表示第i个第二字段名称序列更新前的总向量，/>表示第i个第二字段名称序列更新的累加值，/>表示第i个第二字段名称序列的输出值。

步骤S206，令t=t+1，若t＜T，T为设置的迭代终止次数，则返回步骤S202，否则进入下一步骤。

步骤S207，寻找离聚类中心最近的第一字段名称序列，并纳入对应的聚类集合。

在本发明的一个实施例中，L=[N/m]，m为作为聚类中心的第二字段名称序列的数量，N为聚类的第一字段名称序列的总数.

在本发明的一个实施例中，在只使用了文本数据的词向量的基础上，为了降低噪声干扰，提高聚类处理的效率，步骤S105中的第二字段名称序列只包括与文本数据中的词映射的字段名称。

由于第二文本数据输入表字段匹配模型解析获得的第一字段名称序列是由字段名称组成的，丧失了原始的文本含义，但是仍然保留了上下文的结构特征；一般的聚类过程中不会考虑字段名称序列中的顺序关系，这会导致聚类结果的误差；在本发明的一个实施例中，第一字段名称序列中字段名称的顺序与字段名称映射的第二文本数据中的分词的顺序一致，生成的第E个第一字段名称序列表示为，其中序列单元分别对应一个循环神经网络的循环单元的输入，循环神经网络的输出映射一个分类空间，该分类空间表示为/>，其中分类标签/>对应表示输入的第一字段名称序列属于第1个聚类集合；/>对应表示输入的第一字段名称序列属于第2个聚类集合；/>对应表示输入的第一字段名称序列属于第f个聚类集合，一个聚类集合与一个第二字段名称序列对应，通过循环神经网络作为聚类工具对第一字段名称序列进行聚类。

步骤S106，对第一字段名称聚类集合中的第一字段名称关联的第二文本数据标记目标文本分类类型，标记的目标文本分类类型是该第一字段名称聚类集合中的第二字段名称序列关联的主数据实体型定义表所映射的目标文本分类类型。

在本发明中，通过历史的主数据实体型定义表作为中间的媒介，将文本数据解析映射到主数据实体型定义表，然后再基于主数据实体型定义表的内容进行文本分类类型的标记，准确率高，而且聚类样本的数据体积更小，降低了聚类处理的时间复杂度。

上面对本实施例的实施例进行了描述，但是本实施例并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本实施例的启示下，还可做出很多形式，均属于本实施例的保护之内。

Claims

1.一种基于聚类算法的政务数据管理方法，其特征在于，包括：

步骤S101，基于目标文本分类类型来提取主数据实体型定义表，主数据实体型定义表包括表名称和字段名称，表名称与目标文本分类类型建立映射关系，主数据实体型定义表的字段名称与文本数据中的词映射，已经结构化为实体数据表的文本数据定义为第一文本数据，对于待分类的未结构化为实体数据表的文本数据定义第二文本数据；

步骤S102，生成映射对，一个映射对包括一个第一文本数据和一个主数据实体型定义表，映射对的第一文本数据的文本分类类型与主数据实体型定义表的表名称存在映射关系；

步骤S103，通过生成的映射对来对表字段匹配模型进行训练，训练时表字段匹配模型的输入为映射对的第一文本数据，输出映射一个分类空间，该分类空间表示为，类别标签/>表示非字段名称，类别标签/>分别表示字段名称库内的一个字段名称，字段名称库包括步骤S101提取的所有主数据实体型定义表的字段名称；

步骤S104，将第二文本数据输入表字段匹配模型，将表字段匹配模型输出获得的主数据实体型定义表的字段名称生成第一字段名称序列；

步骤S105，提取步骤101中提取的主数据实体型定义表的字段名称生成第二字段名称序列，将第一字段名称序列和第二字段名称序列放入聚类空间，以第二字段名称序列为聚类中心对第一字段名称序列进行聚类，生成多个第一字段名称聚类集合；

2.根据权利要求1所述的基于聚类算法的政务数据管理方法，其特征在于，目标文本分类类型是基于对政务数据的划分需求来进行设置的。

3.根据权利要求1所述的基于聚类算法的政务数据管理方法，其特征在于，文本数据输入表字段匹配模型之前需要进行分词和词向量生成的步骤。

4.根据权利要求1所述的基于聚类算法的政务数据管理方法，其特征在于，表字段匹配模型为神经网络模型。

5.根据权利要求4所述的基于聚类算法的政务数据管理方法，其特征在于，所述神经网络模型是Transformer模型，首先对文本数据进行分词处理，然后基于分词后的结果生成词向量，然后生成文本数据的特征矩阵输入Transformer模型；

生成的文本数据的特征矩阵U表示为，其中g表示文本数据的分词总数，n表示词向量的维数，特征矩阵U中的第B行表示文本数据的第B个分词的词向量，/>表示文本数据的第1个分词的词向量的第1个分量，/>表示文本数据的第1个分词的词向量的第n个分量，/>表示文本数据的第g个分词的词向量的第1个分量，/>表示文本数据的第g个分词的词向量的第n个分量。

6.根据权利要求1所述的基于聚类算法的政务数据管理方法，其特征在于，步骤S105的聚类的方法包括：

定义:第i个第二字段名称序列的总向量为，/>表示第i个第二字段名称序列的总向量的第1个分量；/>表示第i个第二字段名称序列的总向量的第2个分量；/>表示第i个第二字段名称序列的总向量的第p个分量；

第i个第一字段名称序列的总向量为，/>表示第i个第一字段名称序列的总向量的第1个分量；/>表示第i个第一字段名称序列的总向量的第2个分量；/>表示第i个第一字段名称序列的总向量的第h个分量；

第i个第一字段名称序列的区域密度为，计算公式为/>；

其中L表示第i个第一字段名称序列的最邻近集合的第一字段名称序列数量，第i个第一字段名称序列与最近邻集合第一字段名称序列的第一距离大于与最近邻集合外的第一字段名称序列的第一距离；表示第i个第一字段名称序列与最邻近集合中的第k个第一字段名称序列的第一距离；

第i个第一字段名称序列的区域概率为，计算公式为/>，式中，/>表示第i个第一字段名称序列的区域密度，/>表示第k个第一字段名称序列的区域密度，N表示第一字段名称序列的总数；

步骤S201，初始化第二字段名称序列为聚类中心，且设t=1，设m为作为聚类中心的第二字段名称序列的数量；

步骤S202，计算所有第一字段名称序列的区域概率；

步骤S203，生成随机数，如果满足/>，则选中第一字段名称序列/>，其中/>为第j个第一字段名称序列的区域概率，/>，k=1时定义/>，N是第一字段名称序列的总数；

步骤S204，对，令/>，其中/>表示第i个第二字段名称序列的输出值，/>，c和r均为第二字段名称序列的序号，满足以下条件：/>；/>；

其中，，/>，/>，/>为/>的次数，为/>的次数，/>为/>的次数，/>为/>的次数，/>分别是第c、r、k、j个第二字段名称序列的输出值，/>分别为第c、r、j个第二字段名称序列的得分系数，/>分别为第c、r、j个第二字段名称序列的总向量，z是步骤S203选中的第一字段名称序列的总向量，m作为聚类中心的第二字段名称序列的数量；

步骤S205，更新第二字段名称序列的总向量，更新的公式如下：，式中，学习率/>，/>，表示第i个第二字段名称序列更新前的总向量，/>表示第i个第二字段名称序列更新的累加值，/>表示第i个第二字段名称序列的输出值；

步骤S206，令t=t+1，若t＜T，T为设置的迭代终止次数，则返回步骤S202，否则进入下一步骤；

7.根据权利要求6所述的一种基于聚类算法的政务数据管理方法，其特征在于，L=[N/m]，m为作为聚类中心的第二字段名称序列的数量，N为聚类的第一字段名称序列的总数。

8.根据权利要求1所述的基于聚类算法的政务数据管理方法，其特征在于，步骤S105中的第二字段名称序列只包括与文本数据中的词映射的字段名称。

9.根据权利要求1所述的基于聚类算法的政务数据管理方法，其特征在于，第一字段名称序列中字段名称的顺序与字段名称映射的第二文本数据中的分词的顺序一致。

10.根据权利要求9所述的基于聚类算法的政务数据管理方法，其特征在于，生成的第E个第一字段名称序列表示为，其中序列单元/>分别对应一个循环神经网络的循环单元的输入，循环神经网络的输出映射一个分类空间，该分类空间表示为/>，其中分类标签/>对应表示输入的第一字段名称序列属于第1个聚类集合；/>对应表示输入的第一字段名称序列属于第2个聚类集合；/>对应表示输入的第一字段名称序列属于第f个聚类集合。