CN116561327A - 基于聚类算法的政务数据管理方法 - Google Patents

基于聚类算法的政务数据管理方法 Download PDF

Info

Publication number
CN116561327A
CN116561327A CN202310840508.1A CN202310840508A CN116561327A CN 116561327 A CN116561327 A CN 116561327A CN 202310840508 A CN202310840508 A CN 202310840508A CN 116561327 A CN116561327 A CN 116561327A
Authority
CN
China
Prior art keywords
field name
name sequence
field
sequence
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310840508.1A
Other languages
English (en)
Other versions
CN116561327B (zh
Inventor
梅雨
杨广学
孙禄明
李柏
蒋铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panorama Zhilian Tianjin Technology Co ltd
Panoramic Zhilian Wuhan Technology Co ltd
Beijing Panorama Zhilian Technology Co ltd
Original Assignee
Panorama Zhilian Tianjin Technology Co ltd
Panoramic Zhilian Wuhan Technology Co ltd
Beijing Panorama Zhilian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panorama Zhilian Tianjin Technology Co ltd, Panoramic Zhilian Wuhan Technology Co ltd, Beijing Panorama Zhilian Technology Co ltd filed Critical Panorama Zhilian Tianjin Technology Co ltd
Priority to CN202310840508.1A priority Critical patent/CN116561327B/zh
Publication of CN116561327A publication Critical patent/CN116561327A/zh
Application granted granted Critical
Publication of CN116561327B publication Critical patent/CN116561327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及政务数据处理技术领域,公开了一种基于聚类算法的政务数据管理方法。该方法包括:步骤S101,基于目标文本分类类型来提取主数据实体型定义表;步骤S102,生成映射对;步骤S103,通过生成的映射对来对表字段匹配模型进行训练;步骤S104,将第二文本数据输入表字段匹配模型;步骤S105,以第二字段名称序列为聚类中心对第一字段名称序列进行聚类;步骤S106,对第一字段名称聚类集合中的第一字段名称关联的第二文本数据标记目标文本分类类型。本发明通过历史的主数据实体型定义表作为中间的媒介,将文本数据解析映射到主数据实体型定义表,然后再基于主数据实体型定义表的内容进行文本分类类型的标记,准确率高。

Description

基于聚类算法的政务数据管理方法
技术领域
本发明涉及政务数据处理技术领域,更具体地说,它涉及一种基于聚类算法的政务数据管理方法。
背景技术
市域社会治理需要进行各政务部门的大数据处理,其中一个任务就是对文本数据进行分类,一方面文本数据本身的语义含义具有多变性,另一方面各政务部门的在进行录入文本数据时会根据录入标准来改变内容和格式,导致直接基于文本数据向量化之后进行聚类对文本数据进行聚类的准确度不高。
发明内容
本发明提供一种基于聚类算法的政务数据管理方法,解决相关技术中基于文本数据向量化之后进行聚类对市域社会治理的文本数据进行聚类的准确度不高的技术问题。
本发明提供了一种基于聚类算法的政务数据管理方法,包括:步骤S101,基于目标文本分类类型来提取主数据实体型定义表,主数据实体型定义表包括表名称和字段名称,表名称与文本分类类型能够建立映射关系,主数据实体型定义表的字段名称与文本数据中的词映射,已经结构化为实体数据表的文本数据定义为第一文本数据,对于待分类的未结构化为实体数据表的文本数据定义第二文本数据;步骤S102,生成映射对,一个映射对包括一个第一文本数据和一个主数据实体型定义表,映射对的第一文本数据的文本分类类型与主数据实体型定义表的表名称存在映射关系;步骤S103,通过生成的映射对来对表字段匹配模型进行训练,训练时表字段匹配模型的输入为映射对的第一文本数据,输出映射一个分类空间,该分类空间表示为,类别标签/>表示非字段名称,类别标签分别表示字段名称库内的一个字段名称,字段名称库包括步骤S101提取的所有主数据实体型定义表的字段名称;步骤S104,将第二文本数据输入表字段匹配模型,将表字段匹配模型输出获得的主数据实体型定义表的字段名称生成第一字段名称序列;步骤S105,提取步骤101中提取的主数据实体型定义表的字段名称生成第二字段名称序列,将第一字段名称序列和第二字段名称序列放入聚类空间,以第二字段名称序列为聚类中心对第一字段名称序列进行聚类,生成多个第一字段名称聚类集合;步骤S106,对第一字段名称聚类集合中的第一字段名称关联的第二文本数据标记目标文本分类类型,标记的目标文本分类类型是该第一字段名称聚类集合中的第二字段名称序列关联的主数据实体型定义表所映射的目标文本分类类型。
进一步地,目标文本分类类型是基于对政务数据的划分需求来进行设置的。
进一步地,文本数据输入表字段匹配模型之前需要进行分词和词向量生成的步骤。
进一步地,表字段匹配模型为神经网络模型。
进一步地,神经网络模型是Transformer(转换器)模型,首先对文本数据进行分词处理,然后基于分词后的结果生成词向量,然后生成文本数据的特征矩阵输入Transformer模型;生成的文本数据的特征矩阵U表示为,其中g表示文本数据的分词总数,n表示词向量的维数,特征矩阵U中的第B行表示文本数据的第B个分词的词向量,/>表示文本数据的第1个分词的词向量的第1个分量,/>表示文本数据的第1个分词的词向量的第n个分量,/>表示文本数据的第g个分词的词向量的第1个分量,表示文本数据的第g个分词的词向量的第n个分量。
进一步地,步骤S105的聚类的方法包括:定义:第i个第二字段名称序列的总向量为;/>表示第i个第二字段名称序列的总向量的第1个分量;表示第i个第二字段名称序列的总向量的第2个分量;/>表示第i个第二字段名称序列的总向量的第p个分量;第i个第一字段名称序列的总向量为/>表示第i个第一字段名称序列的总向量的第1个分量;/>表示第i个第一字段名称序列的总向量的第2个分量;/>表示第i个第一字段名称序列的总向量的第h个分量;第i个第二字段名称序列的区域密度为/>,计算公式为:/>,其中L表示第i个第二字段名称序列的最邻近集合的第二字段名称序列数量,第i个第二字段名称序列与最近邻集合第二字段名称序列的第一距离大于与最近邻集合外的第二字段名称序列的第一距离;/>表示第i个第二字段名称序列与距离其最近的第二字段名称序列的第一距离;第i个第二字段名称序列的区域概率为/>,计算公式如下:/>,式中,/>表示第i个第二字段名称序列的区域密度,/>表示第k个第二字段名称序列的区域密度,N表示字段名称序列的总数;步骤S201,初始化第二字段名称序列为聚类中心,且设t=1,设m为作为聚类中心的第二字段名称序列的数量;步骤S202,计算所有第一字段名称序列的区域概率;步骤S203,生成随机数/>,如果满足/>,则选中第一字段名称序列/>,其中/>为第j个第一字段名称序列的区域概率,/>,k=1时定义/>,N是第一字段名称序列的总数;步骤S204,对/>,令,其中/>表示第i个第二字段名称序列的输出值,/>,c和r均为第二字段名称序列的序号,满足以下条件:/>
其中,,/>,/>,/>为/>的次数,/>为/>的次数,/>为/>的次数,/>为/>的次数,/>分别是第c、r、k、j个第二字段名称序列的输出值,/>分别为第c、r、j个第二字段名称序列的得分系数,/>分别为第c、r、j个第二字段名称序列的总向量,z是步骤S203选中的第一字段名称序列的总向量,m是作为聚类中心的第二字段名称序列的数量;步骤S205,更新第二字段名称序列的总向量/>,更新的公式如下:,式中,学习率/>,/>表示第i个第二字段名称序列更新前的总向量,/>表示第i个第二字段名称序列更新的累加值,/>表示第i个第二字段名称序列的输出值;步骤S206,令t=t+1,若t<T,T为设置的迭代终止次数,则返回步骤S202,否则进入下一步骤;步骤S207,寻找离聚类中心最近的第一字段名称序列,并纳入对应的聚类集合。
进一步地,L=[N/m],m为作为聚类中心的第二字段名称序列的数量,N为聚类的第一字段名称序列的总数。
进一步地,步骤S105中的第二字段名称序列只包括与文本数据中的词映射的字段名称。
进一步地,第一字段名称序列中字段名称的顺序与字段名称映射的第二文本数据中的分词的顺序一致。
进一步地,生成的第E个第一字段名称序列表示为,其中序列单元/>分别对应一个循环神经网络的循环单元的输入,循环神经网络的输出映射一个分类空间,该分类空间表示为/>,其中分类标签/>对应表示输入的第一字段名称序列属于第1个聚类集合;/>对应表示输入的第一字段名称序列属于第2个聚类集合;/>对应表示输入的第一字段名称序列属于第f个聚类集合。
本发明的有益效果在于:本发明通过历史的主数据实体型定义表作为中间的媒介,将文本数据解析映射到主数据实体型定义表,然后再基于主数据实体型定义表的内容进行文本分类类型的标记,准确率高,而且聚类样本的数据体积更小,降低了聚类处理的时间复杂度。
附图说明
图1是本发明的一种基于聚类算法的政务数据管理方法的流程图。
图2是本发明的一个主数据实体型定义表。
图3是本发明的以第二字段名称序列为聚类中心对第一字段名称序列进行聚类的方法的流程图。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
本文使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图1示出了根据本发明实施方式的基于聚类算法的政务数据管理方法。如图1所示,该方法可以包括步骤S101至步骤S106。下面将对各个步骤进行详细地描述。
在步骤S101中,基于目标文本分类类型来提取主数据实体型定义表。
目标文本分类类型是基于对政务数据的划分需求来进行设置。例如关联警情的目标文本分类类型包括事故类警情、秩序类警情、移车挪车类警情、交通设施类警情、治安类警情。在此仅示例性地示出了目标文本分类类型,本领域的技术人员可以根据实际情况来进行设置。
为了便于理解,在图2中示出了主数据实体型定义表的一个治安类警情的示例。下面将结合该治安类警情的示例进行说明,根据本公开的思想,对于其他类型也可以适用或者也可以根据实际情况进行调整。
主数据实体型定义表至少可以包括表名称和字段名称,表名称与文本分类类型能够建立映射关系,该映射关系可以是数据库中的映射关系,也可以是现实意义上的关联关系。由于主数据实体型定义表的数量较少,能够通过人工判断来完成提取主数据实体型定义表的工作。
主数据实体型定义表的字段名称与文本数据中的词映射,这个映射关系可以通过查询实体数据表来获得,实体数据表是基于实体型定义表来建立的,实体数据表中的字段是来源于文本数据。需要说明的是,只有已经结构化为实体数据表的文本数据才能够映射到主数据实体型定义表。为了便于区分,将已经结构化为实体数据表的文本数据定义为第一文本数据,对于待分类的未结构化为实体数据表的文本数据定义第二文本数据。文本数据通过录入人员录入,例如在警情的情况下,可以通过接警人员录入。
在步骤S102中,生成映射对。一个映射对包括一个第一文本数据和一个主数据实体型定义表,映射对的第一文本数据的文本分类类型与主数据实体型定义表的表名称存在映射关系。
步骤S103,通过生成的映射对来对表字段匹配模型进行训练,训练时表字段匹配模型的输入为映射对的第一文本数据,输出映射一个分类空间,该分类空间表示为,类别标签/>表示非字段名称,类别标签/>分别表示字段名称库内的一个字段名称,字段名称库包括步骤S101提取的所有主数据实体型定义表的字段名称。
步骤S104,将第二文本数据输入表字段匹配模型,将表字段匹配模型输出获得的主数据实体型定义表的字段名称生成第一字段名称序列。
需要说明的是,文本数据输入表字段匹配模型之前需要进行分词和词向量生成的步骤,表字段匹配模型输出每个分词的类别标签。
在本发明的一个实施例中,表字段匹配模型为神经网络模型,更具体的可以是Transformer模型。首先对文本数据进行分词处理,然后基于分词后的结果生成词向量,然后生成文本数据的特征矩阵输入Transformer模型。
生成的文本数据的特征矩阵U表示为,其中g表示文本数据的分词总数,n表示词向量的维数,特征矩阵U中的第B行表示文本数据的第B个分词的词向量,/>表示文本数据的第1个分词的词向量的第1个分量,/>表示文本数据的第1个分词的词向量的第n个分量,/>表示文本数据的第g个分词的词向量的第1个分量,表示文本数据的第g个分词的词向量的第n个分量。
步骤S105,提取步骤101中提取的主数据实体型定义表的字段名称生成第二字段名称序列,将第一字段名称序列和第二字段名称序列放入聚类空间,以第二字段名称序列为聚类中心对第一字段名称序列进行聚类,生成多个第一字段名称聚类集合。
如图3所示,步骤S105的聚类的方法包括以下内容。
首先定义第i个第二字段名称序列的总向量为,/>表示第i个第二字段名称序列的总向量的第1个分量;/>表示第i个第二字段名称序列的总向量的第2个分量;/>表示第i个第二字段名称序列的总向量的第p个分量;第i个第一字段名称序列的总向量为/>,/>表示第i个第一字段名称序列的总向量的第1个分量;/>表示第i个第一字段名称序列的总向量的第2个分量;/>表示第i个第一字段名称序列的总向量的第c个分量,第i个第一字段名称序列的区域密度为/>,计算公式为/>
L表示第i个第一字段名称序列的最邻近集合的第一字段名称序列数量,第i个第一字段名称序列与最近邻集合第一字段名称序列的第一距离大于与最近邻集合外的第一字段名称序列的第一距离;表示第i个第一字段名称序列与最邻近集合中的第k个第一字段名称序列的第一距离。第一距离为欧氏距离、余弦距离或编辑距离。
第i个第一字段名称序列的区域概率为,计算公式为/>。式中,表示第i个第一字段名称序列的区域密度,/>表示第k个第一字段名称序列的区域密度,N表示第一字段名称序列的总数。
步骤S201,初始化第二字段名称序列为聚类中心,且设t=1,设m为作为聚类中心的第二字段名称序列的数量。
步骤S202,计算所有第一字段名称序列的区域概率。
步骤S203,生成随机数,如果满足/>,则选中第一字段名称序列/>,其中/>为第j个第一字段名称序列的区域概率,/>,k=1时定义/>,N是第一字段名称序列的总数。
步骤S204,对,令/>。其中/>表示第i个第二字段名称序列的输出值,/>,c和r均为第二字段名称序列的序号,满足以下条件:/>;/>
其中,,/>,/>,/>为/>的次数,为/>的次数,/>为/>的次数,/>为/>的次数,/>分别是第c、r、k、j个第二字段名称序列的输出值,/>分别为第c、r、j个第二字段名称序列的得分系数,/>分别为第c、r、j个第二字段名称序列的总向量,z是步骤S203选中的第一字段名称序列的总向量,m是作为聚类中心的第二字段名称序列的数量。
步骤S205,更新第二字段名称序列的总向量,更新的公式如下:
式中,学习率,/>,/>表示第i个第二字段名称序列更新前的总向量,/>表示第i个第二字段名称序列更新的累加值,/>表示第i个第二字段名称序列的输出值。
步骤S206,令t=t+1,若t<T,T为设置的迭代终止次数,则返回步骤S202,否则进入下一步骤。
步骤S207,寻找离聚类中心最近的第一字段名称序列,并纳入对应的聚类集合。
在本发明的一个实施例中,L=[N/m],m为作为聚类中心的第二字段名称序列的数量,N为聚类的第一字段名称序列的总数.
在本发明的一个实施例中,在只使用了文本数据的词向量的基础上,为了降低噪声干扰,提高聚类处理的效率,步骤S105中的第二字段名称序列只包括与文本数据中的词映射的字段名称。
由于第二文本数据输入表字段匹配模型解析获得的第一字段名称序列是由字段名称组成的,丧失了原始的文本含义,但是仍然保留了上下文的结构特征;一般的聚类过程中不会考虑字段名称序列中的顺序关系,这会导致聚类结果的误差;在本发明的一个实施例中,第一字段名称序列中字段名称的顺序与字段名称映射的第二文本数据中的分词的顺序一致,生成的第E个第一字段名称序列表示为,其中序列单元分别对应一个循环神经网络的循环单元的输入,循环神经网络的输出映射一个分类空间,该分类空间表示为/>,其中分类标签/>对应表示输入的第一字段名称序列属于第1个聚类集合;/>对应表示输入的第一字段名称序列属于第2个聚类集合;/>对应表示输入的第一字段名称序列属于第f个聚类集合,一个聚类集合与一个第二字段名称序列对应,通过循环神经网络作为聚类工具对第一字段名称序列进行聚类。
步骤S106,对第一字段名称聚类集合中的第一字段名称关联的第二文本数据标记目标文本分类类型,标记的目标文本分类类型是该第一字段名称聚类集合中的第二字段名称序列关联的主数据实体型定义表所映射的目标文本分类类型。
在本发明中,通过历史的主数据实体型定义表作为中间的媒介,将文本数据解析映射到主数据实体型定义表,然后再基于主数据实体型定义表的内容进行文本分类类型的标记,准确率高,而且聚类样本的数据体积更小,降低了聚类处理的时间复杂度。
上面对本实施例的实施例进行了描述,但是本实施例并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本实施例的启示下,还可做出很多形式,均属于本实施例的保护之内。

Claims (10)

1.一种基于聚类算法的政务数据管理方法,其特征在于,包括:
步骤S101,基于目标文本分类类型来提取主数据实体型定义表,主数据实体型定义表包括表名称和字段名称,表名称与目标文本分类类型建立映射关系,主数据实体型定义表的字段名称与文本数据中的词映射,已经结构化为实体数据表的文本数据定义为第一文本数据,对于待分类的未结构化为实体数据表的文本数据定义第二文本数据;
步骤S102,生成映射对,一个映射对包括一个第一文本数据和一个主数据实体型定义表,映射对的第一文本数据的文本分类类型与主数据实体型定义表的表名称存在映射关系;
步骤S103,通过生成的映射对来对表字段匹配模型进行训练,训练时表字段匹配模型的输入为映射对的第一文本数据,输出映射一个分类空间,该分类空间表示为,类别标签/>表示非字段名称,类别标签/>分别表示字段名称库内的一个字段名称,字段名称库包括步骤S101提取的所有主数据实体型定义表的字段名称;
步骤S104,将第二文本数据输入表字段匹配模型,将表字段匹配模型输出获得的主数据实体型定义表的字段名称生成第一字段名称序列;
步骤S105,提取步骤101中提取的主数据实体型定义表的字段名称生成第二字段名称序列,将第一字段名称序列和第二字段名称序列放入聚类空间,以第二字段名称序列为聚类中心对第一字段名称序列进行聚类,生成多个第一字段名称聚类集合;
步骤S106,对第一字段名称聚类集合中的第一字段名称关联的第二文本数据标记目标文本分类类型,标记的目标文本分类类型是该第一字段名称聚类集合中的第二字段名称序列关联的主数据实体型定义表所映射的目标文本分类类型。
2.根据权利要求1所述的基于聚类算法的政务数据管理方法,其特征在于,目标文本分类类型是基于对政务数据的划分需求来进行设置的。
3.根据权利要求1所述的基于聚类算法的政务数据管理方法,其特征在于,文本数据输入表字段匹配模型之前需要进行分词和词向量生成的步骤。
4.根据权利要求1所述的基于聚类算法的政务数据管理方法,其特征在于,表字段匹配模型为神经网络模型。
5.根据权利要求4所述的基于聚类算法的政务数据管理方法,其特征在于,所述神经网络模型是Transformer模型,首先对文本数据进行分词处理,然后基于分词后的结果生成词向量,然后生成文本数据的特征矩阵输入Transformer模型;
生成的文本数据的特征矩阵U表示为,其中g表示文本数据的分词总数,n表示词向量的维数,特征矩阵U中的第B行表示文本数据的第B个分词的词向量,/>表示文本数据的第1个分词的词向量的第1个分量,/>表示文本数据的第1个分词的词向量的第n个分量,/>表示文本数据的第g个分词的词向量的第1个分量,/>表示文本数据的第g个分词的词向量的第n个分量。
6.根据权利要求1所述的基于聚类算法的政务数据管理方法,其特征在于,步骤S105的聚类的方法包括:
定义:第i个第二字段名称序列的总向量为,/>表示第i个第二字段名称序列的总向量的第1个分量;/>表示第i个第二字段名称序列的总向量的第2个分量;/>表示第i个第二字段名称序列的总向量的第p个分量;
第i个第一字段名称序列的总向量为,/>表示第i个第一字段名称序列的总向量的第1个分量;/>表示第i个第一字段名称序列的总向量的第2个分量;/>表示第i个第一字段名称序列的总向量的第h个分量;
第i个第一字段名称序列的区域密度为,计算公式为/>
其中L表示第i个第一字段名称序列的最邻近集合的第一字段名称序列数量,第i个第一字段名称序列与最近邻集合第一字段名称序列的第一距离大于与最近邻集合外的第一字段名称序列的第一距离;表示第i个第一字段名称序列与最邻近集合中的第k个第一字段名称序列的第一距离;
第i个第一字段名称序列的区域概率为,计算公式为/>,式中,/>表示第i个第一字段名称序列的区域密度,/>表示第k个第一字段名称序列的区域密度,N表示第一字段名称序列的总数;
步骤S201,初始化第二字段名称序列为聚类中心,且设t=1,设m为作为聚类中心的第二字段名称序列的数量;
步骤S202,计算所有第一字段名称序列的区域概率;
步骤S203,生成随机数,如果满足/>,则选中第一字段名称序列/>,其中/>为第j个第一字段名称序列的区域概率,/>,k=1时定义/>,N是第一字段名称序列的总数;
步骤S204,对,令/>,其中/>表示第i个第二字段名称序列的输出值,/>,c和r均为第二字段名称序列的序号,满足以下条件:/>;/>
其中,,/>,/>,/>为/>的次数,为/>的次数,/>为/>的次数,/>为/>的次数,/>分别是第c、r、k、j个第二字段名称序列的输出值,/>分别为第c、r、j个第二字段名称序列的得分系数,/>分别为第c、r、j个第二字段名称序列的总向量,z是步骤S203选中的第一字段名称序列的总向量,m作为聚类中心的第二字段名称序列的数量;
步骤S205,更新第二字段名称序列的总向量,更新的公式如下:,式中,学习率/>,/>表示第i个第二字段名称序列更新前的总向量,/>表示第i个第二字段名称序列更新的累加值,/>表示第i个第二字段名称序列的输出值;
步骤S206,令t=t+1,若t<T,T为设置的迭代终止次数,则返回步骤S202,否则进入下一步骤;
步骤S207,寻找离聚类中心最近的第一字段名称序列,并纳入对应的聚类集合。
7.根据权利要求6所述的一种基于聚类算法的政务数据管理方法,其特征在于,L=[N/m],m为作为聚类中心的第二字段名称序列的数量,N为聚类的第一字段名称序列的总数。
8.根据权利要求1所述的基于聚类算法的政务数据管理方法,其特征在于,步骤S105中的第二字段名称序列只包括与文本数据中的词映射的字段名称。
9.根据权利要求1所述的基于聚类算法的政务数据管理方法,其特征在于,第一字段名称序列中字段名称的顺序与字段名称映射的第二文本数据中的分词的顺序一致。
10.根据权利要求9所述的基于聚类算法的政务数据管理方法,其特征在于,生成的第E个第一字段名称序列表示为,其中序列单元/>分别对应一个循环神经网络的循环单元的输入,循环神经网络的输出映射一个分类空间,该分类空间表示为/>,其中分类标签/>对应表示输入的第一字段名称序列属于第1个聚类集合;/>对应表示输入的第一字段名称序列属于第2个聚类集合;/>对应表示输入的第一字段名称序列属于第f个聚类集合。
CN202310840508.1A 2023-07-11 2023-07-11 基于聚类算法的政务数据管理方法 Active CN116561327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310840508.1A CN116561327B (zh) 2023-07-11 2023-07-11 基于聚类算法的政务数据管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310840508.1A CN116561327B (zh) 2023-07-11 2023-07-11 基于聚类算法的政务数据管理方法

Publications (2)

Publication Number Publication Date
CN116561327A true CN116561327A (zh) 2023-08-08
CN116561327B CN116561327B (zh) 2023-09-08

Family

ID=87495101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310840508.1A Active CN116561327B (zh) 2023-07-11 2023-07-11 基于聚类算法的政务数据管理方法

Country Status (1)

Country Link
CN (1) CN116561327B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117612243A (zh) * 2023-08-18 2024-02-27 全景智联(武汉)科技有限公司 一种基于多层注意力的重点人员行为预警方法及服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180011921A1 (en) * 2016-07-10 2018-01-11 Paul Barclay System and method for mapping data fields between flat files and relational databases
CN111191456A (zh) * 2018-11-15 2020-05-22 零氪科技(天津)有限公司 一种使用序列标注进行识别文本分段的方法
CN114036953A (zh) * 2021-11-29 2022-02-11 上证所信息网络有限公司 一种基于先验知识的金融领域实体及意图识别方法
CN115936624A (zh) * 2022-12-26 2023-04-07 中国电信股份有限公司 基层数据管理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180011921A1 (en) * 2016-07-10 2018-01-11 Paul Barclay System and method for mapping data fields between flat files and relational databases
CN111191456A (zh) * 2018-11-15 2020-05-22 零氪科技(天津)有限公司 一种使用序列标注进行识别文本分段的方法
CN114036953A (zh) * 2021-11-29 2022-02-11 上证所信息网络有限公司 一种基于先验知识的金融领域实体及意图识别方法
CN115936624A (zh) * 2022-12-26 2023-04-07 中国电信股份有限公司 基层数据管理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117612243A (zh) * 2023-08-18 2024-02-27 全景智联(武汉)科技有限公司 一种基于多层注意力的重点人员行为预警方法及服务器

Also Published As

Publication number Publication date
CN116561327B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN112765358B (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN116561327B (zh) 基于聚类算法的政务数据管理方法
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN109710768B (zh) 一种基于mimo递归神经网络的纳税人行业两层级分类方法
CN109858025B (zh) 一种地址标准化语料的分词方法及系统
CN113505225B (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN109919084A (zh) 一种基于深度多索引哈希的行人重识别方法
CN113326377A (zh) 一种基于企业关联关系的人名消歧方法及系统
US6243695B1 (en) Access control system and method therefor
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN109033413B (zh) 一种基于神经网络的需求文档和服务文档匹配方法
Huang et al. Designing importance samplers to simulate machine learning predictors via optimization
CN112328791A (zh) 一种基于DiTextCNN的中文政务信息的文本分类方法
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN116450704A (zh) 一种流程模型的自动化生成方法及生成装置
CN113505863B (zh) 基于级联均值向量综合评分的图片多级分类方法及系统
CN105808715B (zh) 一种位置一张图的构建方法
CN111859924B (zh) 一种基于word2vec模型构建词网的方法和装置
CN115544811A (zh) 应用于数字孪生模型的数据管理方法
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN108762523A (zh) 基于capsule网络的输入法输出字符预测方法
CN114579763A (zh) 一种针对中文文本分类任务的字符级对抗样本生成方法
CN114037051A (zh) 一种基于决策边界的深度学习模型压缩方法
CN113609461A (zh) 口令强度识别方法、装置、设备和计算机可读存储介质
CN111199259B (zh) 标识转换方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant