CN115858763A - 多模态数据融合的城管事件分析方法及其应用 - Google Patents

多模态数据融合的城管事件分析方法及其应用 Download PDF

Info

Publication number
CN115858763A
CN115858763A CN202211638572.3A CN202211638572A CN115858763A CN 115858763 A CN115858763 A CN 115858763A CN 202211638572 A CN202211638572 A CN 202211638572A CN 115858763 A CN115858763 A CN 115858763A
Authority
CN
China
Prior art keywords
event
attention
emotion
urban management
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211638572.3A
Other languages
English (en)
Inventor
李圣权
梁艺蕾
王理程
任通
葛俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCI China Co Ltd
Original Assignee
CCI China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCI China Co Ltd filed Critical CCI China Co Ltd
Priority to CN202211638572.3A priority Critical patent/CN115858763A/zh
Publication of CN115858763A publication Critical patent/CN115858763A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提出了多模态数据融合的城管事件分析方法及其应用,包括以下步骤:S00、获取所有市民上报的事件数据并进行数据清洗;S10、对数据清洗后的事件数据进行文本热度和情感热度计算;S20、结合文本热度和情感热度计算事件的关注度;S30、将关注度以及观测到的所有数据形式转换为每一天的序列形式,并进行时间动态编码,进行序列平稳性检查后,输入并构建城管事件关注度预测模型;S40、通过城管事件关注度预测模型预测待预测的事件中每个维度的关注程度。本申请具有能够准确预测城管时间的关注度,便于政府掌控时间的发展并提供监控。

Description

多模态数据融合的城管事件分析方法及其应用
技术领域
本申请涉及城市管理技术领域,特别是涉及多模态数据融合的城管事件分析方法及其应用。
背景技术
在解答和办理群众关注的各类问题中,油烟扰民作为诉求集中的前五类之一,需要得到足够的重视。为政府提供分析预警模型,围绕居民基础信息和诉求信息,分析诉求趋势、规律、特点,进而更加敏锐、准确的反应出居民诉求的周期性、趋势性变化,对热点问题和突发事件进行实时预警、趋势研判,在群众关心的民生问题上提前制定改善措施。这样一来,政府便可以从源头处理问题,切实为群众解决问题,提高居民生活质量,真正从“接诉即办”向“未诉已办”前进。
然而目前技术主要存在以下缺点:
1.一般重在对数据的获取,追求所谓的“全量数据”,造成了上述所提及的噪声较多的情况,限于技术路径依赖及成本的考虑;
2.采用的分析方法较为传统,主要是基于规则(如关键词)来筛选和分类数据,造成了查全率和查准率“双低”的情况,导致后续分析结果的可信度大大降低;
3.现有的城市事件预测和检测工作仅仅集中一般是基于统计性描述分析,比如关键词云,大都是宏观层面的趋势分析,并未深钻下去信息本身自带的一些时间、空间的关系,跟业务结合,难以得到能指导有价值的分析结果;
4.主流的RNN、LSTM、GRU已被用于建模时空数据常规算法很难从全面的角度捕捉长期的时间相关性;
5.没有捕捉到事件之间的网格、时间、语义描述的交互作用是隐含的和时间演化的规律;
6.单一的时间序列模型能进行很好的预测,却难以捕捉复杂的时空依赖关系模型并难以记录长期的时间相关性,难以突出在预测阶段更应突出哪些重点关注的城管事件。
综上,亟待一种多模态数据融合的城管事件分析方法及其应用,以解决现有技术存在的问题。
发明内容
本申请实施例提供了多模态数据融合的城管事件分析方法及其应用,针对目前技术存在各种缺陷,导致最终预测准确度不理想的问题。
本发明核心技术主要是结合事件的文本热度和情感因素,经过处理后得到具有时序性特点的关注度,作为预测模型的训练样本,通过预测模型对待预测的事件进行预测。
第一方面,本申请提供了多模态数据融合的城管事件分析方法,所述方法包括以下步骤:
S00、获取所有市民上报的事件数据并进行数据清洗;
S10、对数据清洗后的事件数据进行文本热度和情感热度计算;其中,文本热度基于事件数据中当前时间段内相似文本数量而定,情感热度基于事件数据中事件情感得分而定,该情感得分通过深度学习计算得到;
S20、结合文本热度和情感热度计算事件的关注度;
S30、将关注度以及观测到的所有数据形式转换为每一天的序列形式,并进行时间动态编码,进行序列平稳性检查后,输入并构建城管事件关注度预测模型;其中,城管事件关注度预测模型的输入为时间、网格、城管事件类别和关注度随时间变化的四维时间序列,该四维时间序列的每一行都是一个单维时间序列,并能够单独作为城管事件关注度预测模型的输入;
S40、通过城管事件关注度预测模型预测待预测的事件中每个维度的关注程度。
进一步地,S10步骤中,文本热度将同一时间段内文本相似度高于阈值的事件定为同一事件,情感热度通过对同一事件进行情感热度分析并进行评分。
进一步地,情感热度分析的具体步骤为:
抽取同一事件的文本中与情感有关的字段、词汇及标点符号;
按照词典特征进行匹配,并按照积极表情、中性表情及消极表情至少三个表情来获取表情特征,同时提取向量特征;
将词典特征、表情特征及向量特征进行融合,得到情感分类特征;
将情感分类特征作为分类器的输入,以获得文本的情感分析结果。
进一步地,S20步骤中,在对应时间段内对事件文本中的词典特征后进行累加得到情感值,形成情感热度时间序列,用情感值来代表对应时间段反应对该事件的整体情感倾向。
进一步地,S20步骤中,将情感值为正的时间去除,并将情感分析结果转换到设定区间内进行归一化,得到归一化后的情感热度,以该归一化后的情感热度与文本热度相乘得到事件的关注度。
进一步地,S30步骤中,在城管事件关注度预测模型构建过程中,引入交互注意机制,且该交互注意机制在该四维张量之间相互交互,其中四维张量为网格数、城管事件类别数、时间戳数及关注度层级四个维度的张量,即表示每个维度的重要程度。
进一步地,通过交互注意机制来学习跨时空的语义情感维度和文本热度的联合表征,以无缝进行共识异常预测。
第二方面,本申请提供了一种多模态数据融合的城管事件分析系统,包括:
数据处理模块,用于获取所有市民上报的事件数据并进行数据清洗;对数据清洗后的事件数据进行文本热度和情感热度计算;其中,文本热度基于事件数据中当前时间段内相似文本数量而定,情感热度基于事件数据中事件情感得分而定,该情感得分通过深度学习计算得到;结合文本热度和情感热度计算事件的关注度;
模型训练模块,用于将关注度以及观测到的所有数据形式转换为每一天的序列形式,并进行时间动态编码,进行序列平稳性检查后,输入并构建城管事件关注度预测模型;其中,城管事件关注度预测模型的输入为时间、网格、城管事件类别和关注度随时间变化的四维时间序列,该四维时间序列的每一行都是一个单维时间序列,并能够单独作为城管事件关注度预测模型的输入;
运算模块,用于通过城管事件关注度预测模型预测待预测的事件中每个维度的关注程度;
输出模块,用于输出预测结果。
第三方面,本申请提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述的多模态数据融合的城管事件分析方法。
第四方面,本申请提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据上述的多模态数据融合的城管事件分析方法。
本发明的主要贡献和创新点如下:1、与现有技术相比,鉴于重大事件发生前往往从小事不管控开始进行发酵,本申请纳入情感因素不仅能够从理论上优化预测模型的精准度,也可以令政府掌握事件发展(市民对于事件的关注度方向)并提供监控,同时本申请提出了情感时间序列来划分文本,保证了相邻时间序列之间有足够的差异,并能准确地检测到事件关注度的变化,本申请进一步有效捕捉网格、时间周期、城管时间类别、情感热度、文本热度的动态变化,更符合现实世界的规律去进行监测异常事件;
2、与现有技术相比,本申请利用全局时间上下文信息,使用交互注意机制来学习跨时空语义情感维度和文本热度的联合表征,以无缝地进行共识异常预测,而且本申请针对关注度预测的时序性特点设计了对事件关注度预测,通过对情感热度、文本热度等维度的深度学习,辅助预测事件未来发展。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的多模态数据融合的城管事件分析方法的流程图;
图2是本申请的关注度计算过程简要流程图;
图3是本申请的预测模型的部分训练过程流程图;
图4是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细的对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
为政府提供分析预警模型,围绕居民基础信息和诉求信息,分析诉求趋势、规律、特点,进而更加敏锐、准确的反应出居民诉求的周期性、趋势性变化,对热点问题和突发事件进行实时预警、趋势研判,在群众关心的民生问题上提前制定改善措施。这样一来,政府便可以从源头处理问题,切实为群众解决问题,提高居民生活质量,真正从“接诉即办”向“未诉已办”前进。
基于此,本发明基于纳入情感因素进行深度学习,以解决现有技术存在的问题。
实施例一
本申请旨在提出一种多模态数据融合的城管事件分析方法,具体地,参考图1,所述方法包括以下步骤:
S00、获取所有市民上报的事件数据并进行数据清洗;
在本实施例中,从基层治理四平台、12345信访举报、110非警务警情、市容AI、120平台获取所有市民上报的事件数据,也可以是其他正规渠道获取。而获取的所有的事件数据需要进行数据清洗,按时间排序,并进行分词,去除停用词。
S10、对数据清洗后的事件数据进行文本热度和情感热度计算;
在本实施例中,如图2所示,由于事件预测首先需要对事件关注度进行度量,需要从多维特征对事件关注度进行分析度量。本申请根据文本热度、情感热度计算事件热度值。文本热度根据当前时间段内相似文本数量进行度量,情感热度基于事件情感得分进行计算。最终结合两个维度特征计算事件的最终关注度,作为当前阶段的事件关注度值代入后续预测模型进行分析。
其中,文本热度:代表了当前时间段相关文本数量的热度,也就是一个时间段内多个人上报的相同事件。找到同时间段内相同的事件,分析事件中的主体相似度(>=80%),则认为为一组同事件。而文本的热度值则为同事件的数量。例如:当天,由于突发暴雨,部分地面积水严重,xx老小区渗漏严重,系统自动识别出:多人上报5次xx小区“积水”,“渗漏”两个跟暴雨相关的诉求,则文本热度为5。
其中,情感热度:采用文本热度中一组同事件进行情感热度分析,融入表情特征的情感分析方法具体步骤如下:
1)抽取文本的情感词、修饰词、语气词、标点符号,按照词典特征进行匹配;考虑积极表情、消极表情、中性表情的数量来获取表情特征;选择Doc2vec作为提取向量特征的手段;
2)将词典特征、表情特征、向量特征进行融合,得到情感分类特征;
3)将情感分类特征作为分类器的输入,获得文本的情感分析结果,把情感分析结果作为舆情热度预测部分中情感值的来源。
具体地,在程度级别词词典、否定词词典中比对修饰词,若在情感词前出现则赋予对应的权值。在语气词词典中比对语气词,若出现则赋予相应的权值,没有出现则赋值为“0”。标点符号按照标点符号词典给予对应的权其中,n是同事件描述集合M中相同的分句数,m是句子包含的依存关系数,bs是情感词的基本分值(+1、-1或0),negative是句i的程度词权重或否定词权值,mood是语气词权值,p是标点符号权值。
优选地,本申请后续预测模型用到的训练数据集是采用带有句向量的标签的训练集,可判断该表情在积极句子、消极句子、中性句子中出现的次数。当积极占比大于0.8时就是积极表情,消极同理,其余的由于情感不明显,归入中立的表情当中分别存入三个数组,至此,表情的情感分类已经完成。
构建表情符号集中,因为表情符都有[]包裹,所以根据此特征进行匹配提取,所有数据集里的表情符都存至一个数组中,供后面进行处理,然后将这些表情符进行存储,避免后面进行重复读取,浪费时间。
将筛选后的表情符号划分为积极、消极、中性3种类型,数据集是采用带有句向量的标签的训练集,判断该表情在积极句子、消极句子、中性句子中出现的次数。当积极占比大于0.8时就是积极表情,消极同理,其余的由于情感不明显,归入中立的表情当中,分别存入三个数组,至此,表情的情感分类已经完成。
如此,表情特征使用三维特征[e1,e2,e3]表示,3个维度从左到右分别对应积极表情个数、消极表情个数、中性表情个数。由于DBOW在训练中只需要存储Softmax参数,更加节省存储空间。所以,选择DBOW作为获得向量特征的方式。利用Python中的Gensim库提取向量特征,设置维度最佳效果。
为了后面的关注度计算,采用拼接的方式将词典特征、表情特征、向量特征融合后得到情感分类,将情感词和修饰词的分数相乘,再对句子中依存关系的分数进行累加,然后乘以语气词和标点符号的权值。累加各分句的情感倾向分数,最终得到该事件的词典特征,记为X,如下方公式所示:
Figure BDA0004006167780000081
其中,n是同事件描述集合M中相同的分句数,m是句子包含的依存关系数,bs是情感词的基本分值(+1、-1或0),negative是句i的程度词权重或否定词权值,moodj是语气词权值,p是标点符号权值,k表示程度词个数,q是语气词个数;
综上,可以得到事件描述的情感分析结果。接着在对应时间段内对事件描述的词典特征后进行累加得到情感值,形成情感热度时间序列,用情感值来代表对应时间段反应对该事件的整体情感倾向。
S20、结合文本热度和情感热度计算事件的关注度;
在本实施例中,去掉所有情感倾向得分为正的事件,将情感分析结果转换到[0,1]的范围,归一化公式如下:
Figure BDA0004006167780000082
其中,xmax为样本数据(情感分析结果)的最大值,xmin为样本数据的最小值,记为归一化的情感热度。
而(归一化的情感热度x*)*文本热度=关注度。大于10表示重度关注,5到10之间表示中度关注,0到5表示轻度关注。
S30、将关注度以及观测到的所有数据形式转换为每一天的序列形式,并进行时间动态编码,进行序列平稳性检查后,输入并构建城管事件关注度预测模型;其中,城管事件关注度预测模型的输入为时间、网格、城管事件类别和关注度随时间变化的四维时间序列,该四维时间序列的每一行都是一个单维时间序列,并能够单独作为城管事件关注度预测模型的输入;
在本实施例中,采用lstm作为运算的神经网络进行数据时间序列编码,时间动态编码就是将关注度时间序列、网格时间序列、城管事件类别序列和时间序列进行处理的过程,动态体现在模型会根据每天的数据与之前的数据进行在线学习,充分利用历史时间内的数据信息与当天的数据。
优选地,假设模型的输入分别为关注度时间序列、网格时间序列、城管事件类别序列和时间序列为平稳性时间序列。
其中,关注度时间序列:关注度体现了从tn-1到t0的时间段内文本事件中情感分析之后情绪热度和文本事件热度结合的综合指标时间则是体现在关注度热度变化的过程。
网格时间序列:主要作用反映不同区域内的各类型的事件分布变化;同一个网格区域中同类型的事件的发生随着时间,它的同类型的事件数据分布是不一致的,同一时间段不同类型的事件在不同区域发生也并不一致。网格时间序列就是以网格源中tn-1到t0的时间的数据为依据,将输入的时间,经纬度,事件类型作为数据。
城管事件类别序列:为城管事件中总的现有类型;时间序列:tn-1到t0的时间戳。
如此,xi(i=1,2,3,...,m)代表多维时间序列的集合,tj(j=1,2,3,...,n)是连续有序的时间观测值。
本申请的以天为时间间隔,即Δt=tj+1-tj(j=1,2,3,...,n-1)为定值,为便于描述将tj记为j,即第j时刻,当m=4时,即X组成了时间、网格、城管事件类别和关注度随时间变化的四维时间序列的m×n的矩阵。则Xij表示第i个维度在第j时刻的时间观测值,且X的每一行都是一个单独维度的时间序列,如下:
Figure BDA0004006167780000091
采用滑动窗口将X进行滑动为一个新的多维时间序列的集合S,设滑动窗口的大小为f+z,S={X1,X2,...XL},滑动窗口的总数L为n-f-z+1,,所以Xj为:
Figure BDA0004006167780000101
Xj的前f列为训练模型的输入,本申请记为Xin。Xj的后z列为模型的输出,本申请记为Xout,Xj中的某一行表示时间序列中的某个维度,如城管事件类别时间序列;Xin和Xout分别作为训练模型的输入输出,Xout模型的真实输出,x′i(j+f+L)为预测的多维时间特征向量模型,模型公式表示如下:
Figure BDA0004006167780000102
在本实施例中,如图3所示,构建的模型目的是预测城管事件关注度,这里的城管事件主要指油烟扰民、突发噪音、违规停车等。市民上报的城管事件集合了事件类别、网格编码、时间维度加上述的关注度四方面的信息,在预测就是某一时间,某一网格,某一类的城管事件的市民关注度的预测,例如2022.1.1日,网格7会发生油烟扰民的市民关注度为重度关注的预测。此时输入可以见图3中可以为X1(2022.1.1,油烟扰民,网格7,重度关注),其他如X2(2022.1.2,建筑工地噪音扰民,网格6,轻度关注)等等,这些经过编码后会有四个特征向量,也就对应四维的张量。
而对于四维的张量,就有对应的四个嵌入,通过全连接层获取输入数据的注意力分布,即对于该预测而言每个维度的重要程度,具体为:将数据看作是四维的张量,N代表网格数,J代表城管类别数,K代表时间戳数,M代表所有关注度层级。基于观测到的张量,预测在时间K+d,每个区域N上每种城管类别的事件J未来发生的市民关注度为m的情况。一个城市中的N个网格:R1,...,RN,J个城管事件分类:G1,...,GJ,和T个时时间戳T1,....,Tk(例如:天、小时),F个关注度数值项:F1,...,Fm,每个网格区域的关注度事件类别按事件发生时间排序(eg.,第1个时隙到第k个时间段)。设定事件张量
Figure BDA0004006167780000103
为K个时间戳中所有市民关注的城管事件分类的所有网格区域的时间戳异常序列。(时间戳异常序列:从市民上报事件中来,如果市民关注度为轻度的油烟扰民事件发生在xx日,xx网格,事件发生则为1。如果无事件发生,则为0)。
其中,张量中的每个元素都表示:在第k个时隙中,O类的异常出现j报告来自R地区i在将注意力分布与输入相乘得到输入数据的表示,其中,En,Ej,Ek,Em来表示输入时间序列向量的N个网格:R1,...,,RN,J个城管事件分类:G1,...,GJ,和T个时时间戳T1,...,Tk(例如:天、小时),F个关注度数值项:F1,...,Fm。
优选地,本申请还考虑了两两维度之间的交互关系。不同维度的交互对于结果的重要性是不一样的,比如城管事件类别油烟扰民和网格的结果影响大,因为这个区域可能是有很多小饭店,所以引入了注意力机制,达到快速扫描全局,并获取需要重点关注的目标区域,而后对这一区域投入更多资源,以获取更多需要关注的目标的细节,抑制其他无用信息。而在城管事件预测的场景中,空间、时间、城管事件类别、关注度各种维度之间两两是相关联的,并具有一定的交互性,并定义两两的交互为为Φn,j,Φn,k,Φn,m,Φj,k......,Φk,m以网格和城管事件类别的相互作用为例,如下:
Figure BDA0004006167780000111
其中,Wn,j表示网格数据线性变换的参数矩阵,b表示偏置项,Ej表示网格数据的特征嵌入向量。
虽然张量Si表现出空间、时间、城管事件类别、关注度之间的相互作用,但这四种相互作用对未来异常发生的预测做出不同的贡献,为此构建了在该四维张量之间相互交互的注意力机制。因为利用向量u来不同维度之间交互作用的重要程度。互动注意力机制可被描述如下:
Figure BDA0004006167780000112
权重来源(神经网络中学习到的权值):在事件发生中,已经拟定网格、发生时间、关注度和城管事件类别四者的关联交互关系看作一个整体,两两维度之间的交互是利用注意力学习一个显式的权重值,基于得到的整体嵌入进行预测互动注意力机制。
由于向量Wint为网络中设置的可学习层获取的权值,利用可学习层可以大致表示出各数据维度(空间、时间、城管事件类别、关注度)的特征,利用tanh(.)函数作为获取特征权重w的门控单元,将特征值归一下到[-1,1]之间,过滤掉超出范围的特征权值,保留下各维度的特征权重w,公式如下:
Figure BDA0004006167780000121
再利用softmax计算出该四维数据特征权值的重要性,,最后将特征权重与特征权重的重要性得分进行乘积,获取特征的注意力aj
Figure BDA0004006167780000122
其中,u为四个维度的特征,aj构成的特征分布的概率向量,
Figure BDA0004006167780000123
表示UT表示矩阵的转置,j表示矩阵中每个元素的索引位置。
如此,在注意力机制计算时,将空间、时间、城管事件类别、关注度四个维度特征信息进行两两之间的注意力计算,最后把各种交互做成整体的交互结合计算,得到整体的嵌入。具体计算公式如下:
Figure BDA0004006167780000124
在本实施例中,最终目标是得到某一时间,某一网格,某一类的城管事件的市民关注度的预测,也就是事件发生似然(指的是发生某一类城管事件的可能性,即事件的发生概率。例如,如果某一时间、某一网格的市民关注度的预测指的是垃圾处理事件的发生概率,那么似然就是指垃圾处理事件的发生概率,记为zn,j,k,m)来,在损失函数中,利用交叉熵度量两个概率分布之间的差异信息,当预测概率越接近真实概率,该函数值越小,即:
Figure BDA0004006167780000125
Figure BDA0004006167780000131
Figure BDA0004006167780000132
Figure BDA0004006167780000133
城管事件类型。Zn,j,km为预测为该网格源中发生为该类型的概率。
S40、通过城管事件关注度预测模型预测待预测的事件中每个维度的关注程度。
实施例二
基于相同的构思,本申请还提出了一种多模态数据融合的城管事件分析系统,包括:
数据处理模块,用于获取所有市民上报的事件数据并进行数据清洗;对数据清洗后的事件数据进行文本热度和情感热度计算;其中,文本热度基于事件数据中当前时间段内相似文本数量而定,情感热度基于事件数据中事件情感得分而定,该情感得分通过深度学习计算得到;结合文本热度和情感热度计算事件的关注度;
模型训练模块,用于将关注度以及观测到的所有数据形式转换为每一天的序列形式,并进行时间动态编码,进行序列平稳性检查后,输入并构建城管事件关注度预测模型;其中,城管事件关注度预测模型的输入为时间、网格、城管事件类别和关注度随时间变化的四维时间序列,该四维时间序列的每一行都是一个单维时间序列,并能够单独作为城管事件关注度预测模型的输入;
运算模块,用于通过城管事件关注度预测模型预测待预测的事件中每个维度的关注程度;
输出模块,用于输出预测结果。
实施例三
本实施例还提供了一种电子装置,参考图4,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemo ry,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-Onl yMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-Only Memory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-Acc essMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessM emory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMe mory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRa ndom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意多模态数据融合的城管事件分析方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是上报事件等,输出的信息可以是市民对于事件的关注度等。
实施例四
本实施例还提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据实施例一的多模态数据融合的城管事件分析方法。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以作出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.多模态数据融合的城管事件分析方法,其特征在于,包括以下步骤:
S00、获取所有市民上报的事件数据并进行数据清洗;
S10、对数据清洗后的事件数据进行文本热度和情感热度计算;其中,文本热度基于事件数据中当前时间段内相似文本数量而定,情感热度基于事件数据中事件情感得分而定,该情感得分通过深度学习计算得到;
S20、结合所述文本热度和所述情感热度计算事件的关注度;
S30、将关注度以及观测到的所有数据形式转换为每一天的序列形式,并进行时间动态编码,进行序列平稳性检查后,输入并构建城管事件关注度预测模型;其中,所述城管事件关注度预测模型的输入为时间、网格、城管事件类别和关注度随时间变化的四维时间序列,该四维时间序列的每一行都是一个单维时间序列,并能够单独作为所述城管事件关注度预测模型的输入;
S40、通过城管事件关注度预测模型预测待预测的事件中每个维度的关注程度。
2.如权利要求1所述的多模态数据融合的城管事件分析方法,其特征在于,S10步骤中,所述文本热度将同一时间段内文本相似度高于阈值的事件定为同一事件,所述情感热度通过对同一事件进行情感热度分析并进行评分。
3.如权利要求2所述的多模态数据融合的城管事件分析方法,其特征在于,所述情感热度分析的具体步骤为:
抽取同一事件的文本中与情感有关的字段、词汇及标点符号;
按照词典特征进行匹配,并按照积极表情、中性表情及消极表情至少三个表情来获取表情特征,同时提取向量特征;
将词典特征、表情特征及向量特征进行融合,得到情感分类特征;
将所述情感分类特征作为分类器的输入,以获得文本的情感分析结果。
4.如权利要求3所述的多模态数据融合的城管事件分析方法,其特征在于,S20步骤中,在对应时间段内对事件文本中的词典特征后进行累加得到情感值,形成情感热度时间序列,用情感值来代表对应时间段反应对该事件的整体情感倾向。
5.如权利要求4所述的多模态数据融合的城管事件分析方法,其特征在于,S20步骤中,将情感值为正的时间去除,并将所述情感分析结果转换到设定区间内进行归一化,得到归一化后的情感热度,以该归一化后的情感热度与文本热度相乘得到事件的关注度。
6.如权利要求1-5任一项所述的多模态数据融合的城管事件分析方法,其特征在于,S30步骤中,在所述城管事件关注度预测模型构建过程中,引入交互注意机制,且该交互注意机制在该四维张量之间相互交互,其中四维张量为网格数、城管事件类别数、时间戳数及关注度层级四个维度的张量,即表示每个维度的重要程度。
7.如权利要求6所述的多模态数据融合的城管事件分析方法,其特征在于,通过所述交互注意机制来学习跨时空的语义情感维度和文本热度的联合表征,以无缝进行共识异常预测。
8.一种多模态数据融合的城管事件分析系统,其特征在于,包括:
数据处理模块,用于获取所有市民上报的事件数据并进行数据清洗;对数据清洗后的事件数据进行文本热度和情感热度计算;其中,文本热度基于事件数据中当前时间段内相似文本数量而定,情感热度基于事件数据中事件情感得分而定,该情感得分通过深度学习计算得到;结合文本热度和情感热度计算事件的关注度;
模型训练模块,用于将关注度以及观测到的所有数据形式转换为每一天的序列形式,并进行时间动态编码,进行序列平稳性检查后,输入并构建城管事件关注度预测模型;其中,城管事件关注度预测模型的输入为时间、网格、城管事件类别和关注度随时间变化的四维时间序列,该四维时间序列的每一行都是一个单维时间序列,并能够单独作为城管事件关注度预测模型的输入;
运算模块,用于通过城管事件关注度预测模型预测待预测的事件中每个维度的关注程度;
输出模块,用于输出预测结果。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项所述的多模态数据融合的城管事件分析方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1至7任一项所述的多模态数据融合的城管事件分析方法。
CN202211638572.3A 2022-12-19 2022-12-19 多模态数据融合的城管事件分析方法及其应用 Pending CN115858763A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211638572.3A CN115858763A (zh) 2022-12-19 2022-12-19 多模态数据融合的城管事件分析方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211638572.3A CN115858763A (zh) 2022-12-19 2022-12-19 多模态数据融合的城管事件分析方法及其应用

Publications (1)

Publication Number Publication Date
CN115858763A true CN115858763A (zh) 2023-03-28

Family

ID=85674342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211638572.3A Pending CN115858763A (zh) 2022-12-19 2022-12-19 多模态数据融合的城管事件分析方法及其应用

Country Status (1)

Country Link
CN (1) CN115858763A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688505A (zh) * 2024-02-04 2024-03-12 河海大学 一种植被大范围区域化负异常的预测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688505A (zh) * 2024-02-04 2024-03-12 河海大学 一种植被大范围区域化负异常的预测方法及系统
CN117688505B (zh) * 2024-02-04 2024-04-19 河海大学 一种植被大范围区域化负异常的预测方法及系统

Similar Documents

Publication Publication Date Title
CN113806482B (zh) 视频文本跨模态检索方法、装置、存储介质和设备
CN110674858B (zh) 一种基于时空关联与大数据挖掘的交通舆情检测方法
CN117708746B (zh) 一种基于多模态数据融合的风险预测方法
CN116737510B (zh) 一种基于数据分析的键盘智能监测方法及系统
CN115858785A (zh) 一种基于大数据的敏感数据识别方法及系统
CN115858763A (zh) 多模态数据融合的城管事件分析方法及其应用
CN116151479A (zh) 一种航班延误预测方法及预测系统
CN117668205A (zh) 智慧物流客服处理方法、系统、设备及存储介质
CN116522912B (zh) 一种包装设计语言模型的训练方法、装置、介质及设备
CN112989105A (zh) 一种音乐结构的分析方法及系统
CN110727867A (zh) 一种基于模糊机制的语义实体推荐方法
CN117077680A (zh) 问答意图识别方法及装置
CN118093969B (zh) 基于数字孪生的高速公路资产数据可视化方法及系统
CN117972113B (zh) 基于属性知识图谱的专利授权预测评估的方法和系统
CN117633328B (zh) 基于数据挖掘的新媒体内容监测方法及系统
CN116955648B (zh) 一种基于非隐私数据关联的知识图谱分析方法
CN118014446B (zh) 企业技术创新综合指标分析方法、存储介质及计算机设备
CN117573814B (zh) 一种舆论态势评估方法、装置、系统以及存储介质
CN118445698A (zh) 一种面向智能社会场景的多元实体用户行为表征方法
Manski Predictive Model Building for Utilizing Word Embedding Models: Applications in Insurance Data
Zhang An intelligent recommendation method of remote ideological and political education resources based on user clustering
Aggarwal et al. An Optimized TF-IDF Features based Deep Learning Enabled Automated Fake News Detection Scheme
Vanitha et al. A Novel Hybrid Encoder and Deep Learning Model for Enhancing Rumor Detection from Social Media Texts.
Marali et al. Vulnerability Classification Based on Fine-Tuned BERT and Deep Neural Network Approaches
CN118364308A (zh) 数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination