CN113449111B - 基于时空语义知识迁移的社会治理热点话题自动识别方法 - Google Patents

基于时空语义知识迁移的社会治理热点话题自动识别方法 Download PDF

Info

Publication number
CN113449111B
CN113449111B CN202111008079.9A CN202111008079A CN113449111B CN 113449111 B CN113449111 B CN 113449111B CN 202111008079 A CN202111008079 A CN 202111008079A CN 113449111 B CN113449111 B CN 113449111B
Authority
CN
China
Prior art keywords
case
semantic
space
voronoi
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111008079.9A
Other languages
English (en)
Other versions
CN113449111A (zh
Inventor
钱程扬
刘秀
杨亚宁
蒋如乔
张琪
郑胜利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuance Information Technology Co ltd
Original Assignee
Suzhou Industrial Park Surveying Mapping And Geoinformation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Industrial Park Surveying Mapping And Geoinformation Co ltd filed Critical Suzhou Industrial Park Surveying Mapping And Geoinformation Co ltd
Priority to CN202111008079.9A priority Critical patent/CN113449111B/zh
Publication of CN113449111A publication Critical patent/CN113449111A/zh
Application granted granted Critical
Publication of CN113449111B publication Critical patent/CN113449111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本发明公开了一种基于时空语义知识迁移的社会治理热点话题自动识别方法,包括如下步骤:步骤1、获取政务案件信息历史数据并进行预处理;步骤2、构建案件语义标注体系并对经过预处理的政务案件信息历史数据进行标注获得样本数据集;步骤3、获取候选高发区并训练候选高发区时空语义表征向量;步骤4、构建全局语义深度表征学习模型,通过融合高发区时空语义表征向量,获得BIO语义角色标记预测结果和案件全局语义表征向量;步骤5、识别前K个热点话题并自动生成代表性关键词。本发明能够从历史数据中学习案件全局语义表征向量,实现前K个案件热点话题的识别以及代表性关键词的自动生成。

Description

基于时空语义知识迁移的社会治理热点话题自动识别方法
技术领域
本发明涉及面向社会治理的政务案件文本信息的智能处理领域,特别涉及基于时空语义知识迁移的社会治理热点话题自动识别方法。
背景技术
随着我国社会治理体系和治理能力的现代化,政务热线服务不仅需要能够处理好城市中发生的单个案件和事件,更需要不断提升对集中事件的应对能力和响应速度。智慧城市建设以人为本,政务案件绝大多数都与城市中的人和事相关。一个地级市一年建可能产生数十万甚至上百万的政务热线记录,大量的政务案件通过城市12345热线、阳光便民服务、政务联动中心等案件接收渠道海量汇聚。因此,更高效的处理方式意味着不能仅仅将注意力放在处理单个独立案件上,更要能及时从群众反映的各种繁杂情况中总结、归纳和提炼出共性问题或热点话题,并尝试从根源上集中解决,因而迫切需要有更智能化的技术手段能够从政务案件数据中进行热点问题的挖掘和发现。
政务案件内容包括但不限于社会治安、安全生产、环境保护、城市管理等多个不同的业务版块,进一步往下深入可细分为二级、三级甚至更多的业务种类,例如社会治安方面包括矛盾纠纷、非法捕鱼、非法经营、黑车拉客、扰乱公共秩序等;环境保护中包括大气污染、水污染、固废污染和电磁辐射等,且分类规则根据各省市的特点和标准也会有所差异,然而普遍涉足非常广泛的业务门类,也与大量不同的法律依据、责任主体、派单流程和结案标准相关。这些分类主要关注案件相关的责任主体,因此大多以责任主体部门的业务分类为依据。然而这种分类方式很难事无巨细地描绘日常生活中发生的各种类型的事件;事件的归属类别也很难唯一化和绝对化,例如当某个污水井盖发生破漏时,有可能同时涉及到城市部件的管理问题,以及城市道路的环境污染问题,使用分类体系的方式无法对案件信息和属性进行完全意义上的分类。也正因为如此,通过穷举业务规则来实现这些政务案件文本的语义理解的难度非常高,从纷繁复杂的案件中寻求城市居民在一定时间和空间范围内关注的热点问题或话题,便更为困难。此外,尽管通过业务数量和频率能够发现一些普遍现象,但是较难发现事件的集中性、演变趋势与突出程度。
中国专利文献CN112115263A公开了一种基于NLP的社会治理大数据监测预警方法,该方法使用自然语言处理技术对单次输入的社会治理事件进行分类,例如实体关键词提取、所属领域分类,以及通过预设的近似度规则来实现预警。然而,对社会治理数据的检测属于关键词提取层面的自然语言处理技术,以及规则匹配式的预警信息查找,且对于实体词汇的获取依赖词典库。此外,未涉及从历史大数据中学习时空规律与知识,亦未提及将案件的地理位置及多要素信息融入监测预警的过程中。
中国专利文献CN109241429A公开了一种食品安全舆情监控方法及系统,该方法使用爬虫或公开API方式获得食品安全舆情数据,基于政府、企业和消费者三方的关注热点和报道频率等指标来衡量重要程度,使用文本相似度来计算各条新闻的相似度,以及使用全局的TF-IDF来量化每个分词的权重值。然而,未提及使用地理位置作为热点话题识别的重要依据。
中国专利文献CN111581983A公开了一种基于群体分析的网络舆情事件中社会关注热点的预测方法,该方法采用关系图结构,基于双向长短期记忆神经网络构建时间序列预测模型,用于预测舆论事件在未来的社会关注度指标。然而,未提及对于地理位置的空间聚集性以及历史数据时空知识的吸收与运用;未开展空间位置和文本语义的联合评估。
综上所述,已有技术部分解决了政务案件的业务分类问题,但对于从大量案件去主动发现热点话题的技术还比较缺乏,尤其是无法很好解决空间聚集性和时间突发性的情况。面对覆盖了城市管理各主要领域的业务范围,业务方向的深度细分和时事热点问题的不可预知性,决定了人工规则方式已经无法适应快速发现问题和解决问题的现代化社会治理需求,而已有技术也很难对海量历史数据中的时空知识进行学习与利用。为此,本发明旨在提供一种能从大量历史案件样本中学习案件高发区域所蕴含的时空规律和时空知识,并将这些知识进行提取后与案件全局语义的分析模型进行融合,通过为案件建立统一、全局的表征模型,提供一种更有利于社会治理政务案件热点的快速发现、问题聚焦和快速定位的技术方法。
发明内容
本发明针对现有技术中的不足,提出基于时空语义知识迁移的社会治理热点话题自动识别方法,用于从提高面向社会治理的政务案件智能化处理水平,以及从历史案件发生规律的时空知识获取和迁移的角度进一步提升热点问题发现和识别能力,为城市管理和社会治理提质增效提供技术保障。
为实现上述目的,本发明采用以下技术方案:
基于时空语义知识迁移的社会治理热点话题自动识别方法,包括如下步骤:
步骤1、获取政务案件信息历史数据并进行预处理;
步骤2、构建案件语义标注体系并对经过预处理的政务案件信息历史数据进行标注获得样本数据集;
步骤3、基于样本数据集,获取候选高发区并训练候选高发区时空语义表征向量;
步骤4、构建全局语义深度表征学习模型,所述全局语义深度表征学习模型通过融合候选高发区时空语义表征向量,获得BIO语义角色标记预测结果和案件全局语义表征向量;
步骤5、基于全局语义深度表征学习模型,识别输入的案件数据集的前K个热点话题并自动生成代表性关键词。
进一步地,步骤1中,政务案件信息历史数据包括业务归口分类分级、管理网格信息和案件文本信息,预处理包括对案件信息历史数据进行停用词与无效字符的清除以及地理空间信息的标准化。
进一步地,步骤2具体包括如下步骤:
步骤2.1、构建案件语义角色标注体系:案件语义角色标注体系使用BIO标注方法,配备一系列语义角色类型形成语义角色类型集,语义角色标记根据案件文本信息中的关键要素进行设置,包括案件地点(LOC)、时间(TIM)、案件主体(SUB)、案件谓词(PRE)、案件措施(MEA),使用BIO标注方法来为案件文本信息中的每个字符标注其所属的语义角色类型;
步骤2.2、对经过预处理的政务案件信息历史数据进行标注并获得样本数据集:从预处理后的政务案件信息历史数据中随机选择一定比例的数据作为训练数据,剩余比例的数据同时作为验证数据和测试数据,训练数据中包括案件文本信息,按照步骤2.1构建的案件语义角色标注体系,对案件文本信息进行逐字符标注,从案件文本信息的第1个字符开始,根据语义角色类型,使用BIO标注方法对所有字符进行遍历,并对能够匹配的上语义角色类型的字符进行标注,对于多个连续字符被标注为同一语义角色类型的情况,则多个连续字符构成一个词语,记录该词语在案件文本信息中的起点位置与结束位置,同时记录此条标注的标识码,完成标注工作后,获得样本数据集。
进一步地,步骤2.2中,从预处理后的政务案件信息历史数据中随机选择80%比例的数据作为训练数据。
进一步地,步骤3具体包括如下步骤:
步骤3.1、获取案件地点术语所对应的地理空间坐标位置:任意一个案件地点术语,均获得一个与之对应的地理空间坐标位置,所有案件地点术语集合表示为Te={t 1 , t 2 ,...,t o},所有案件地点的地理空间坐标位置集合表示为 Le={l 1 ,l 2 ,...,l o},其中,o为案件地点总数,t o 为第o个案件地点的术语,l o 为第o个案件地点的地理空间坐标位置;
步骤3.2、基于样本数据集中案件地点术语所对应的地理空间坐标位置,采用案件地点聚类与凸域空间分割来确定候选高发区;
步骤3.3、训练候选高发区节点时空语义表征向量。
进一步地,步骤3.2具体包括如下步骤:
步骤3.2.1、 基于步骤3.1标定的所有案件地点的地理空间坐标位置集合,获得政务案件信息历史数据的热点空间模式,计算方法是对样本数据集的地理空间坐标位置进行空间聚类,采用Mean-Shift算法即均值漂移算法来获得聚类中心点集合,所述聚类中心点集合为热点中心集合;
步骤3.2.2、采用Voronoi空间剖分算法即泰森多边形空间剖分算法,在样本数据集所在的总体空间区域范围内,对热点中心集合中的每个热点中心进行凸域空间分割,从而获得以热点中心的地理空间坐标位置为中心的Voronoi分割空间多边形,Voronoi分割空间多边形构成的区域用来表征政务案件信息历史数据中的候选高发区。
进一步地,步骤3.2.2具体包括如下步骤:
步骤3.2.2.1、采用Delaunay生成算法即狄洛尼生成算法,基于热点中心集合生成Delaunay三角网,该Delaunay三角网包括至少两个三角形;
步骤3.2.2.2、找出Delaunay三角网中每一个三角形的外接圆圆心并记录;
步骤3.2.2.3、遍历所有三角形,并遍历每个三角形的所有边;若其中一个三角形A的一条边e同时也是另一个三角形B的一条边,则将三角形A和三角形B的外心相连,形成Voronoi分割空间多边形的一条边,存入Voronoi图的边表中;若三角形A的一条边e不再与其他三角形相关,则三角形A的一条边e为Delaunay三角网总体空间区域范围的一条最外边,则以最外边所在的三角形A的外心为起点,作三角形A的一条边e的垂线,所述垂线以及所述最外边被垂线垂直切割形成的两条边都存入Voronoi图的边表中;
步骤3.2.2.4、找出所有Voronoi分割空间多边形的边,绘制Voronoi图,完成凸域空间分割,Voronoi分割空间多边形构成的区域为候选高发区。
进一步地,步骤3.3具体为:
步骤3.3.1、根据已知业务种类数量U,将样本数据集分为U个不同的分组;
步骤3.3.2、对于每个分组,获取分组内每条样本所对应的地理空间坐标位置,通过空间包含关系运算,计算出每条样本的地理空间坐标位置所属的Voronoi分割空间多边形,并记录其Voronoi分割空间多边形编号,同时该Voronoi分割空间多边形所对应的样本数量增加1;然后,遍历组内样本,构建组内图结构GroupGraph(V,E),其中,V代表Voronoi分割空间多边形的集合,每个Voronoi分割空间多边形对应一个样本数量,用于表示分组内发生在Voronoi分割空间多边形中的样本数量;E表示每个Voronoi分割空间多边形之间的边;
步骤3.3.3、对每一组样本采用距离优化下的随机游走算法并获取候选高发区序列,当前样本组使用图结构GroupGraph(V,E),V={v 1 ,v 2 ,...,v i ,...,v n }来表示,其中,n为当前组内的Voronoi分割空间多边形数量,v n 表示第n个Voronoi分割空间多边形所代表的图节点,从Voronoi分割空间多边形中随机选取一个节点v i 作为采样起点后,使用随机游走算法,获取沿图节点的游走路径,则随机游走所途经的m个图节点构成的一个完整的候选高发区序列,标记为
Figure 691142DEST_PATH_IMAGE001
,其中,
Figure 845043DEST_PATH_IMAGE002
为第m个图节点;
步骤3.3.4、基于Skip-gram模型对候选高发区序列进行节点模型训练,并获得图节点的时空语义表征向量。
进一步地,步骤4通过构建全局语义深度表征学习模型,用于从样本数据集中学习案件的完整语义表征;其中,全局语义深度表征学习模型使用Bert-BiLSTM-CRF(Bert表示基于变换器的双向编码器表示技术,BiLSTM表示双向长短时记忆网络,CRF即条件随机场,Conditional random fields)作为基础架构,全局语义深度表征学习模型自底而上分为4个组成部分:
原始输入层,使用案件文本信息的逐个字符文本作为全局语义深度表征学习模型的初始输入序列;
时空知识迁移后的Bert嵌入层,使用嵌入向量来表征每个输入字符,嵌入向量由两部分连接而成:第一个部分是Bert字符向量,使用Bert获得每个字符的特征;第二个部分是使用候选高发区时空语义表征向量来替代案件地点术语表示地理空间坐标位置的语义知识,实现时空语义知识迁移,两个部分的向量连接后组成时空语义迁移后的Bert嵌入层;
序列建模层,用以对时空语义迁移后的Bert嵌入层进行语义特征学习,使用前向LSTM和反向LSTM同时对每一个输入元素都进行输出,输出的信息传递给目标层中的CRF;
目标层,通过CRF获得BIO语义角色标记预测结果以及案件全局语义表征向量。
进一步地,步骤5具体包括如下步骤:
步骤5.1、自动识别基于余弦相似度谱聚类的前K个热点话题:对新输入的一组案件数据集,先通过全局语义深度表征学习模型进行预测,从而获取案件全局语义表征向量和BIO语义角色标记预测结果,再确定需要从中获得的热点话题个数K,采用谱聚类方法对获取的案件全局语义表征向量进行聚类,谱聚类的距离度量方法选择使用余弦相似度,通过谱聚类获得的K个聚类中心点代表K类热点话题;
步骤5.2、自动生成热点话题的代表性关键词:对于K类热点话题中的每一个热点话题,遍历该热点话题中每一个案件的BIO语义角色标记预测结果对应的案件文本信息中的词语,计算其TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)的得分,根据TF-IDF得分值对所有词语进行逆序排列,从而获得当前热点话题下的代表性关键词。
本发明的有益效果是:
(1)本发明在Bert-BiLSTM-CRF模型的基础结构上,引入了高发区域的时空语义表征向量的训练与应用。从大规模政务历史案件数据中通过深度学习来自动捕捉历史案件高发区域的时空语义信息,从而构建起覆盖所有高发区域的时空知识的学习和迁移能力。由于案件的时间和空间信息与案件关键要素之间的关系,以及案件发生的经过、原因、结果和影响等信息有直接相关性。通过在Bert嵌入层融入时空知识,可以显著增强案件全局向量对时空特征的表达和还原能力。
(2)本发明采用案件文本信息中关键要素的语义角色的标记预测作为案件全局语义表征学习的训练目标,在训练完成后从双向循环神经网络层中提取获得案件全局向量。本方法将不确定的全局语义表征建模问题转换为确定的语义角色标记预测问题,从而从类别繁多、长短不固定的文本化案件信息中提取长度固定的案件全局向量,优势在于:(a)实现了使用长度固定的向量来表征案件全局语义信息的方法,且这种表征向量为热点聚类等后续分析应用建立了统一的表示能力和计算能力;(b)可以通过优化语义角色标记预测的训练目标来实现基于预测精度改进的表征模型优化,从而按需提升案件全局向量的表征能力。
(3)本发明通过对案件全局向量进行余弦相似度谱聚类,实现前K个热点话题的识别。由于案件全局向量已通过时空知识迁移捕获了更多历史时空记忆,因此本方法的优势是聚类所得的同一类别案件同时具备更高的时空相关性和全局语义相关性,而不同类别的案件之间的相关性更低。
(4)本发明可以用于不同业务种类的政务案件分析和数据挖掘,尤其适用于需要顾及城市政务案件时空规律的热点事件与话题监测。
附图说明
图1为本发明方法的总体流程图;
图2为融合时空知识迁移的案件全局语义深度表征学习模型。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
如图1所示,基于时空语义知识迁移的社会治理热点话题自动识别方法,包括如下步骤:
步骤1、获取政务案件信息历史数据并进行预处理。
政务案件历史数据包含与案件相关度较高的基本要素信息,例如业务归口分类分级、管理网格信息和案件文本信息等,其中,案件文本信息包含大多数案件上下文信息和语义信息,是政务案件信息的核心,也是本发明所处理的主要信息,以及案情所标识的地理空间位置坐标点。案件文本信息一般来自于人工录入,例如12345便民热线电话记录,以及网上政务论坛数据,如网民留言等。历史数据的预处理主要针对案件文本信息进行停用词与无效字符的清除以及地理空间信息的标准化。
步骤2、构建案件语义标注体系并对经过预处理的政务案件信息历史数据进行标注获得样本数据集:
进一步地,步骤2具体包括以下步骤:
步骤2.1、构建案件语义角色的标注体系。
案件语义角色标注体系使用BIO标注方法:配备一系列语义角色类型形成语义角色类型集,语义角色类型根据案件文本信息中的关键要素进行设置,包括案件地点、时间、案件主体、案件谓词、案件措施,使用BIO标注方法来为案件文本信息中的每个字符标注其所属的语义角色类型。
步骤2.2、对经过预处理的政务案件信息历史数据进行标注并获得样本数据集:从预处理后的政务案件信息历史数据中随机选择80%的数据作为训练数据,剩余20%的数据同时作为验证数据和测试数据,训练数据中包括案件文本信息,按照步骤2.1构建的案件语义角色标注体系,对案件文本信息进行逐字符标注,从案件文本信息的第1个字符开始,根据语义角色类型,使用BIO标注方法对所有字符进行遍历,并对能够匹配的上语义角色类型的字符进行标注,对于多个连续字符被标注为同一语义角色类型的情况,则多个连续字符构成一个词语,记录该词语在案件文本信息中的起点位置与结束位置,同时记录此条标注的标识码,完成标注工作后,获得样本数据集。以时间要素词“中午”为例,字符“中”将被标记为B-TIM,代表该字符所属类别为TIM,且表示TIM的起点位置, 字符“午”将被标记为“I-TIM”代表TIM的结束位置;若当前字符不属于任何一类角色,则用字母O表示。此外,标记一类语义角色,需要同时标记其名称和标识码。例如“城市部件”是标记名称,其对应的标记标识码为“PART”,而“城市部件的状态”对应于标识码“PART-STATUS”。
步骤3、基于样本数据集,获取候选高发区并训练候选高发区时空语义表征向量。
对每条样本案件进行地理空间位置标定,获得样本的地理空间坐标;使用均值漂移算法获得聚类中心点集合,构建Voronoi图来对样本的地理空间范围进行凸域空间分割,获得空间单元集,这个单元集代表了历史样本在空间上的热点区域。
步骤3.1、获取案件地点术语所对应的地理空间坐标。
标定案件地点的地理空间坐标位置,需要从对地名或标准地址的文本信息进行编码并转换为地理空间坐标,才可以用于地图定位。这个过程可以通过手工方式来实现地图位置标定,也可以借助地理编码算法或开放API等方式来实现自动定位与标定。通过位置标定,获取案件地点术语所对应的地理空间坐标位置,用于帮助模型学习案件发生在具体空间位置上的聚集性的概率估计。任意一个案件地点术语,均获得一个与之对应的地理空间坐标位置,对于样本数据而言,所有案件地点术语集合表示为Te={t 1 ,t 2 ,...,t o},所有案件地点的地理空间坐标位置集合表示为 Le={l 1 ,l 2 ,...,l o},其中,o为案件地点总数,t o 为第o个案件地点的术语,l o 为第o个案件地点的地理空间坐标位置。
步骤3.2、基于样本数据集中案件地点术语所对应的地理空间坐标位置,采用案件地点聚类与凸域空间分割来确定候选高发区。
已发生的案件所蕴含的时空规律,可通过样本数据集来学习,并对后续案件发生的地理位置的概率预测具有重要价值,本发明基于案件样本数据中所有空间坐标,可以估算出已发生案件的热点中心,进而,基于所有热点中心位置的凸域空间分割来获得这些中心的区域范围,这些区域称作候选高发区。
步骤3.2.1、 基于步骤3.1标定的所有案件地点的地理空间坐标位置集合,获得政务案件信息历史数据的热点空间模式,计算方法是对样本数据集的地理空间坐标位置进行空间聚类,采用均值漂移算法来获得聚类中心点集合,所述聚类中心点集合为热点中心集合。
步骤3.2.2 、采用Voronoi空间剖分算法,在样本数据集所在的总体空间区域范围内,对热点中心集合中的每个热点中心进行凸域空间分割,从而获得以热点中心的地理空间坐标位置为中心的Voronoi分割空间多边形,Voronoi分割空间多边形构成的区域用来表征政务案件信息历史数据中的选高发区。具体算法过程如下:
步骤3.2.2.1、采用Delaunay生成算法,基于热点中心集合生成Delaunay三角网,该Delaunay三角网包括至少两个三角形;
步骤3.2.2.2、找出Delaunay三角网中每一个三角形的外接圆圆心并记录;
步骤3.2.2.3、遍历所有三角形,并遍历每个三角形的所有边;若其中一个三角形A的一条边e同时也是另一个三角形B的一条边,则将三角形A和三角形B的外心相连,形成Voronoi分割空间多边形的一条边,存入Voronoi图的边表中;若三角形A的一条边e不再与其他任何三角形相关,则三角形A的一条边e为Delaunay三角网总体空间区域范围的一条最外边,则以最外边所在的三角形A的外心为起点,作三角形A的一条边e的垂线,所述垂线以及所述最外边被垂线垂直切割形成的两条边都存入Voronoi图的边表中;
步骤3.2.2.4、找出所有Voronoi分割空间多边形的边,绘制Voronoi图,完成凸域空间分割,Voronoi分割空间多边形构成的区域为候选高发区。
步骤3.3、训练候选高发区节点的时空语义表征向量,以用于高发区时空知识的迁移。
步骤3.3.1、根据已知业务种类数量U,将样本数据集分为U个不同的分组;
步骤3.3.2、对于每个分组,获取分组内每条样本所对应的地理空间坐标位置,通过空间包含关系运算,计算出每条样本的地理空间坐标位置所属的Voronoi分割空间多边形,并记录其Voronoi分割空间多边形编号,同时该Voronoi分割空间多边形所对应的样本数量增加1;然后,遍历组内样本,构建组内图结构GroupGraph(V,E),其中,V代表Voronoi分割空间多边形的集合,每个Voronoi分割空间多边形对应一个样本数量,用于表示分组内发生在Voronoi分割空间多边形中的样本数量;E表示每个Voronoi分割空间多边形之间的边;
步骤3.3.3、对每一组样本采用距离优化下的随机游走算法并获取候选高发区序列,当前样本组使用图结构GroupGraph(V,E),V={v 1 ,v 2 ,...,v i ,...,v n }来表示,其中,n为当前组内的Voronoi分割空间多边形数量,v n 表示第n个Voronoi分割空间多边形所代表的图节点,从Voronoi分割空间多边形中随机选取一个节点v i 作为采样起点后,使用随机游走算法,获取沿图节点的游走路径,则随机游走所途经的m个图节点构成的一个完整的候选高发区序列,标记为
Figure 727548DEST_PATH_IMAGE001
,其中,
Figure 80032DEST_PATH_IMAGE002
为第m个图节点;
在以往的随机游走算法中,通常使用笛卡尔坐标系下的欧几里得距离作为游走路径长度的度量方式,然而,这种方式在地理空间场景中存在一定的不足:真实地球表面的距离是球面距离,且通常地理位置的标识使用经度和纬度来表示,因此在需要计算地理空间距离的场景中使用笛卡尔坐标系和欧几里得距离会直接导致最长游走距离限定的不准确问题。针对以上不足,本发明采用更适合地理空间的距离度量,即地球表面基于经度和纬度的大圆上两点距离计算的半正矢公式,用Haversine距离作为游走长度的计算方式,以保证地点之间的空间位置关系作为影响因素被捕获为记忆信息。令随机游走的总长度为图节点个数l,则游走总长度的计算使用Haversine来度量。若序列起点为v i ,则该序列的两个连续候选高发区
Figure 209531DEST_PATH_IMAGE003
Figure 647466DEST_PATH_IMAGE004
各自的中心点p 1 p 2 之间的Haversine距离,可以表示为
Figure 68083DEST_PATH_IMAGE005
,其计算公式如下:
Figure 478335DEST_PATH_IMAGE006
,
Figure 326206DEST_PATH_IMAGE007
,
Figure 251436DEST_PATH_IMAGE008
,
Figure 175879DEST_PATH_IMAGE009
,
其中,两个候选高发区的中心点均使用其经度(lon)和纬度(lat)来表示,即中心点p 1 的经度为lon 1,纬度为lat 1;中心点p 2 的经度为lon 2,纬度为lat 2r为地球平均半径,a是中间结果。至此,当该分组样本经过M次随机游走过程,形成该分组样本下个数为M的候选高发区序列数据集,则所有分组的样本数量为
Figure 502955DEST_PATH_IMAGE010
步骤3.3.4、基于Skip-gram模型对候选高发区序列进行节点模型训练,并获得图节点的时空语义表征向量。对于一个候选高发区序列,需要按序列顺序选取奇数个候选高发区节点作为计算窗口。若通过设定z来确定该窗口的大小,则选定的计算窗口所包含的候选高发区节点数量可表示为2z+1。模型的训练目标为以寻求概率
Figure 787305DEST_PATH_IMAGE011
最大化时的模型参数。因此,模型训练的目标函数设定为
Figure 137515DEST_PATH_IMAGE012
,其中,
Figure 899935DEST_PATH_IMAGE013
表示在出现w j 的条件下出现w j+z 的概率。该模型训练后可获得序列中每个节点的定长实数向量,称作高发区时空语义表征向量。
步骤4、构建全局语义深度表征学习模型,全局语义深度表征学习模型通过融合高发区时空语义表征向量,训练案件全局语义表征向量。通过构建全局语义深度表征学习模型,用于从样本数据集中学习案件的完整语义表征,其中,全局语义深度表征学习模型使用Bert-BiLSTM-CRF作为基础架构,使用候选高发区时空语义表征向量作为案件地点术语的实际输入向量,增强全局语义深度表征学习模型对空间位置信息的学习能力,获取案件全局语义表征向量。
全局语义深度表征学习模型自底而上分为4个主要组成部分:
第1部分,是原始输入层,使用案件文本信息的逐个字符文本作为全局语义深度表征学习模型的初始输入序列。
第2部分,是时空知识迁移后的Bert嵌入层,使用嵌入向量来表征每个输入字符,嵌入向量由两部分连接而成:第一个部分是Bert字符向量,使用Bert获得每个字符的特征;第二个部分是使用候选高发区的时空语义表征向量来替代案件地点术语表示地理空间坐标位置的语义知识,实现时空语义知识迁移,两个部分的向量连接后组成时空语义迁移后的Bert嵌入层。
第3部分,是序列建模层,用以对时空语义迁移后的Bert嵌入层进行语义特征学习,使用前向LSTM和反向LSTM同时对每一个输入元素都进行输出,输出的信息传递给目标层中的CRF。
第4部分,是目标层。目标层可获得两个结果,第一个是通过CRF层获得更准确的BIO语义角色标记预测结果,是本模型的训练目标。在达成训练目标的前提下,可以获取另一个关键性产出物——案件全局语义表征向量。案件全局语义表征向量是对整个案件文本的编码。在本模型中,对于一条完整的输入案情,使用BiLSTM中的前向、反向两个LSTM序列的最后一个神经元的隐藏层的输出进行拼接而获得的向量来表示这条案情的全局语义。
图2 是融合时空知识迁移的案件全局语义深度表征学习模型。在图2的案例中,前向LSTM和反向LSTM是特征提取的基本步骤,信息从前向LSTM的单元h 1传递到单元h 8,也会从反向LSTM的单元h 8 '传递到单元h 1 '。以原始文本输入的前两个字符“村口”为例,经过时空知识迁移后的BERT嵌入层编码后获得e loc ,经过双向循环神经网络编码后,在h 1h 1 '的基础上输出标记打分s 1,并通过CRF层预测出语义角色标记B-LOC即地理位置语义的开头和I-LOC即地理位置语义的中间或结尾。
全局语义深度表征学习模型的作用在于,通过模型可以将案件的输入层向量序列通过表征模型的预测,输出案件全局语义表征向量,案件全局语义表征向量能够刻画案件的全局语义信息,可用来代替案件的原始输入层向量,直接用于后续热点话题识别环节的计算。
训练完成的案件全局语义模型基于新输入的案件来预测并获取案件全局语义表征向量v global 以及语义角色标注结果。
步骤5、基于案件全局语义表征向量,实现前K个热点话题的识别并自动生成代表性关键词,最热的话题排在前面。
步骤5.1、自动识别基于余弦相似度谱聚类的前K个热点话题:
对新输入的一组案件数据集,先通过全局语义深度表征学习模型进行预测,从而获取案件全局语义表征向量和BIO语义角色标记预测结果,再确定需要从中获得的热点话题个数K,采用谱聚类方法对获取的案件全局语义表征向量进行聚类,谱聚类的距离度量方法选择使用余弦相似度,通过谱聚类获得的K个聚类中心点代表K类热点话题。具体地,根据新输入的案件数据集构建一个无向加权图G case (V case ,E sim ),其中, V case 表示案件数据点, E sim 表示案件数据点之间的边,用于表示案件与案件之间的关系。边的权重由两个案件全局语义表征向量的余弦相似度表示。例如,连接案件V case (i)和案件V case (j)的边的权重由如下公式计算所得:
Figure 81518DEST_PATH_IMAGE014
其中,分子为向量
Figure 723720DEST_PATH_IMAGE015
与向量
Figure 623543DEST_PATH_IMAGE016
的数量积,分母为两个向量模的乘积,即将所有维度值的平方相加后开方。余弦相似度的取值为[-1,1],经过以余弦相似度为距离度量方法的谱聚类全过程,获得的K个聚类中心点,即代表K类热点话题。
步骤5.2、热点话题的代表性关键词自动生成:
热点话题代表了一类案件,因此其含义相对抽象。为了更具象化地表达热点话题的问题类型,采用词频法进一步挑选当前热点话题所包含的关键词序列。首先,对新输入的案件数据集中的每个案件进行案件全局表征预测,即通过步骤4训练所得的全局语义深度表征学习模型进行预测,预测的结果可获取每一个案件的BIO语义角色标记预测结果对应的案件文本信息,包括地理位置(LOC)、时间(TIM)、案件主体(SUB)、案件谓词(PRE)、案件措施(MEA)等信息。对于K类热点话题中的每一个热点话题,遍历该热点话题中每一个案件的BIO语义角色标记预测结果对应的案件文本信息中的词语,计算其TF-IDF的得分,根据TF-IDF得分值对所有词语进行逆序排列,从而获得当前热点话题下的代表性关键词。在实际应用中,该代表性关键词可帮助用户分析热点话题的所属类别,推动热点的解决。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (5)

1.基于时空语义知识迁移的社会治理热点话题自动识别方法,其特征在于,包括如下步骤:
步骤1、获取政务案件信息历史数据并进行预处理;
步骤1中,政务案件信息历史数据包括业务归口分类分级、管理网格信息和案件文本信息,预处理包括对案件信息历史数据进行停用词与无效字符的清除以及地理空间信息的标准化
步骤2、构建案件语义标注体系并对经过预处理的政务案件信息历史数据进行标注获得样本数据集;
步骤2具体包括如下步骤:
步骤2.1、构建案件语义角色标注体系:案件语义角色标注体系使用BIO标注方法,配备一系列语义角色类型形成语义角色类型集,语义角色类型包括案件地点、时间、案件主体、案件谓词、案件措施,使用BIO标注方法来为案件文本信息中的每个字符标注其所属的语义角色类型;
步骤2.2、对经过预处理的政务案件信息历史数据进行标注并获得样本数据集:从预处理后的政务案件信息历史数据中随机选择一定比例的数据作为训练数据,剩余比例的数据同时作为验证数据和测试数据,训练数据中包括案件文本信息,按照步骤2.1构建的案件语义角色标注体系,对案件文本信息进行逐字符标注,从案件文本信息的第1个字符开始,根据语义角色类型,使用BIO标注方法对所有字符进行遍历,并对能够匹配上的语义角色类型的字符进行标注,对于多个连续字符被标注为同一语义角色类型的情况,则多个连续字符构成一个词语,记录该词语在案件文本信息中的起点位置与结束位置,同时记录此条标注的标识码,完成标注工作后,获得样本数据集;
步骤3、基于样本数据集,获取候选高发区并训练候选高发区时空语义表征向量;
步骤3具体包括如下步骤:
步骤3.1、获取案件地点术语所对应的地理空间坐标位置:任意一个案件地点术语,均获得一个与之对应的地理空间坐标位置,所有案件地点术语集合表示为Te={t1,t2,...,to},所有案件地点的地理空间坐标位置集合表示为Le={l1,l2,...,lo},其中,o为案件地点总数,to为第o个案件地点的术语,lo为第o个案件地点的地理空间坐标位置;
步骤3.2、基于样本数据集中案件地点术语所对应的地理空间坐标位置,采用案件地点聚类与凸域空间分割来确定候选高发区;
步骤3.2.1、基于步骤3.1标定的所有案件地点的地理空间坐标位置集合,获得政务案件信息历史数据的热点空间模式,计算方法是对样本数据集的地理空间坐标位置进行空间聚类,采用均值漂移算法来获得聚类中心点集合,所述聚类中心点集合为热点中心集合;
步骤3.2.2、采用Voronoi空间剖分算法,在样本数据集所在的总体空间区域范围内,对热点中心集合中的每个热点中心进行凸域空间分割,从而获得以热点中心的地理空间坐标位置为中心的Voronoi分割空间多边形,Voronoi分割空间多边形构成的区域用来表征政务案件信息历史数据中的候选高发区;
步骤3.3、训练候选高发区节点时空语义表征向量;
步骤3.3具体为:
步骤3.3.1、根据已知业务种类数量U,将样本数据集分为U个不同的分组;
步骤3.3.2、对于每个分组,获取分组内每条样本所对应的地理空间坐标位置,通过空间包含关系运算,计算出每条样本的地理空间坐标位置所属的Voronoi分割空间多边形,并记录其Voronoi分割空间多边形编号,同时该Voronoi分割空间多边形所对应的样本数量增加1;然后,遍历组内样本,构建组内图结构GroupGraph(V,E),其中,V代表Voronoi分割空间多边形的集合,每个Voronoi分割空间多边形对应一个样本数量,用于表示分组内发生在Voronoi分割空间多边形中的样本数量;E表示每个Voronoi分割空间多边形之间的边;
步骤3.3.3、对每一组样本采用距离优化下的随机游走算法并获取候选高发区序列,当前样本组使用图结构GroupGraph(V,E),V={v1,v2,...,vi,...,vn}来表示,其中,n为当前组内的Voronoi分割空间多边形数量,vn表示第n个Voronoi分割空间多边形所代表的图节点,从Voronoi分割空间多边形中随机选取一个节点vi作为采样起点后,使用随机游走算法,获取沿图节点的游走路径,则随机游走所途经的m个图节点构成的一个完整的候选高发区序列,标记为
Figure FDA0003333948090000021
其中,
Figure FDA0003333948090000022
为第m个图节点;
步骤3.3.4、基于Skip-gram模型对候选高发区序列进行节点模型训练,并获得图节点的时空语义表征向量;
步骤4、构建全局语义深度表征学习模型,所述全局语义深度表征学习模型通过融合候选高发区时空语义表征向量,获得BIO语义角色标记预测结果和案件全局语义表征向量;
步骤5、基于全局语义深度表征学习模型,识别输入的案件数据集的前K个热点话题并自动生成代表性关键词。
2.根据权利要求1所述的基于时空语义知识迁移的社会治理热点话题自动识别方法,其特征在于,步骤2.2中,从预处理后的政务案件信息历史数据中随机选择80%比例的数据作为训练数据。
3.根据权利要求1所述的基于时空语义知识迁移的社会治理热点话题自动识别方法,其特征在于,步骤3.2.2具体包括如下步骤:
步骤3.2.2.1、采用Delaunay生成算法,基于热点中心集合生成Delaunay三角网,该Delaunay三角网包括至少两个三角形;
步骤3.2.2.2、找出Delaunay三角网中每一个三角形的外接圆圆心并记录;
步骤3.2.2.3、遍历所有三角形,并遍历每个三角形的所有边;若其中一个三角形A的一条边e同时也是另一个三角形B的一条边,则将三角形A和三角形B的外心相连,形成Voronoi分割空间多边形的一条边,存入Voronoi图的边表中;若三角形A的一条边e不再与其他三角形相关,则三角形A的一条边e为Delaunay三角网总体空间区域范围的一条最外边,则以最外边所在的三角形A的外心为起点,作三角形A的一条边e的垂线,所述垂线以及所述最外边被垂线垂直切割形成的两条边都存入Voronoi图的边表中;
步骤3.2.2.4、找出所有Voronoi分割空间多边形的边,绘制Voronoi图,完成凸域空间分割,Voronoi分割空间多边形构成的区域为候选高发区。
4.根据权利要求1所述的基于时空语义知识迁移的社会治理热点话题自动识别方法,其特征在于,步骤4通过构建全局语义深度表征学习模型,用于从样本数据集中学习案件的完整语义表征;其中,全局语义深度表征学习模型使用Bert-BiLSTM-CRF作为基础架构,全局语义深度表征学习模型自底而上分为4个组成部分:
原始输入层,使用案件文本信息的逐个字符文本作为全局语义深度表征学习模型的初始输入序列;
时空知识迁移后的Bert嵌入层,使用嵌入向量来表征每个输入字符,嵌入向量由两部分连接而成:第一个部分是Bert字符向量,使用Bert获得每个字符的特征;第二个部分是使用候选高发区时空语义表征向量来替代案件地点术语表示地理空间坐标位置的语义知识,实现时空语义知识迁移,两个部分的向量连接后组成时空语义迁移后的Bert嵌入层;
序列建模层,用以对时空语义迁移后的Bert嵌入层进行语义特征学习,使用前向LSTM和反向LSTM同时对每一个输入元素都进行输出,输出的信息传递给目标层中的CRF;
目标层,通过CRF获得BIO语义角色标记预测结果以及案件全局语义表征向量。
5.根据权利要求4所述的基于时空语义知识迁移的社会治理热点话题自动识别方法,其特征在于,步骤5具体包括如下步骤:
步骤5.1、自动识别基于余弦相似度谱聚类的前K个热点话题:对新输入的一组案件数据集,先通过全局语义深度表征学习模型进行预测,从而获取案件全局语义表征向量和BIO语义角色标记预测结果,再确定需要从中获得的热点话题个数K,采用谱聚类方法对获取的案件全局语义表征向量进行聚类,谱聚类的距离度量方法选择使用余弦相似度,通过谱聚类获得的K个聚类中心点代表K类热点话题;
步骤5.2、自动生成热点话题的代表性关键词:对于K类热点话题中的每一个热点话题,遍历该热点话题中每一个案件的BIO语义角色标记预测结果对应的案件文本信息中的词语,计算其TF-IDF的得分,根据TF-IDF得分值对所有词语进行逆序排列,从而获得当前热点话题下的代表性关键词。
CN202111008079.9A 2021-08-31 2021-08-31 基于时空语义知识迁移的社会治理热点话题自动识别方法 Active CN113449111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111008079.9A CN113449111B (zh) 2021-08-31 2021-08-31 基于时空语义知识迁移的社会治理热点话题自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111008079.9A CN113449111B (zh) 2021-08-31 2021-08-31 基于时空语义知识迁移的社会治理热点话题自动识别方法

Publications (2)

Publication Number Publication Date
CN113449111A CN113449111A (zh) 2021-09-28
CN113449111B true CN113449111B (zh) 2021-12-07

Family

ID=77819053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111008079.9A Active CN113449111B (zh) 2021-08-31 2021-08-31 基于时空语义知识迁移的社会治理热点话题自动识别方法

Country Status (1)

Country Link
CN (1) CN113449111B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417021B (zh) * 2022-01-24 2023-08-25 中国电子科技集团公司第五十四研究所 一种基于时、空、义多约束融合的语义信息精准分发方法
CN116992294B (zh) * 2023-09-26 2023-12-19 成都国恒空间技术工程股份有限公司 卫星测控训练评估方法、装置、设备及存储介质
CN117251650B (zh) * 2023-11-20 2024-02-06 之江实验室 地理热点中心识别方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010014082A1 (en) * 2008-07-29 2010-02-04 Textwise Llc Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN110516067B (zh) * 2019-08-23 2022-02-11 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质
CN111866912B (zh) * 2020-06-16 2021-07-20 北京邮电大学 基于时间-空间的业务量区域分类和分析方法
CN112581106B (zh) * 2021-02-23 2021-05-28 苏州工业园区测绘地理信息有限公司 一种融合处置机构网格语义的政务事件自动派单方法

Also Published As

Publication number Publication date
CN113449111A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN113449111B (zh) 基于时空语义知识迁移的社会治理热点话题自动识别方法
CN110046260B (zh) 一种基于知识图谱的暗网话题发现方法和系统
Ghahremanlou et al. Geotagging twitter messages in crisis management
Do et al. Twitter user geolocation using deep multiview learning
CN111160471A (zh) 一种兴趣点数据处理方法、装置、电子设备和存储介质
CN115934990B (zh) 基于内容理解的遥感影像推荐方法
Tian et al. Twitter user location inference based on representation learning and label propagation
CN114003721A (zh) 矛盾纠纷事件类型分类模型的构建方法、装置及应用
CN112347927B (zh) 基于卷积神经网络概率决策融合的高分影像建筑提取方法
Zhang et al. Social media meets big urban data: A case study of urban waterlogging analysis
CN113779264A (zh) 基于专利供需知识图谱的交易推荐方法
Wang et al. Traffic information mining from social media based on the MC-LSTM-Conv model
CN114997288A (zh) 一种设计资源关联方法
CN113821702A (zh) 一种城市多维空间多元异构信息数据处理方法
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN112015937B (zh) 一种图片地理定位方法及系统
CN116383331A (zh) 构建中文事件库及基于该元事件库对元事件分析预测的方法及系统
CN115712720A (zh) 一种基于知识图谱的降雨动态预警方法
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
CN115630357A (zh) 一种应用程序越界收集个人信息行为的判定方法
CN110968795B (zh) 一种公司形象提升系统的数据关联匹配系统
Panasyuk et al. Improving geocoding of a Twitter user group using their account creation times and languages
CN113064989A (zh) 一种交通舆情感知特征模块及分析治理应用
CN117114105B (zh) 基于科研大数据信息的目标对象推荐方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215000 No. 101, Suhong Middle Road, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: Yuance Information Technology Co.,Ltd.

Address before: 215000 No. 101, Suhong Middle Road, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee before: SUZHOU INDUSTRIAL PARK SURVEYING MAPPING AND GEOINFORMATION Co.,Ltd.