CN117171455A - 基于网格的高关注度事件识别方法和系统 - Google Patents
基于网格的高关注度事件识别方法和系统 Download PDFInfo
- Publication number
- CN117171455A CN117171455A CN202311435316.9A CN202311435316A CN117171455A CN 117171455 A CN117171455 A CN 117171455A CN 202311435316 A CN202311435316 A CN 202311435316A CN 117171455 A CN117171455 A CN 117171455A
- Authority
- CN
- China
- Prior art keywords
- event
- target historical
- grid
- historical
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 7
- 238000013016 damping Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000010365 information processing Effects 0.000 claims description 4
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于数据分析领域,具体涉及一种基于网格的高关注度事件识别方法和系统,包括:将城市区域划分为多个网格;以多个历史事件中的任一件为目标历史事件,获取参与人的身份标识、文本描述内容、坐标信息;确定目标历史事件所在的网格;从文本描述内容中提取关键词;查询目标历史事件关联的已公开内容,计算社会关注程度;为目标历史事件设置标签;训练前馈神经网络;在发现新事件时,查询参与人的身份标识、文本描述内容、的坐标信息,并提取关键词,确定所在的网格;输入前馈神经网络,判断新事件是否为高关注度事件。本发明能够在发现新事件且公开内容尚未产生时,准确识别最新的事件是否为高关注度事件,有利于对高关注度事件的及时处置。
Description
技术领域
本发明属于数据分析领域,具体涉及了一种基于网格的高关注度事件识别方法和系统。
背景技术
高关注度事件是受到社会公众高度关注的事件,其在网络环境中体现为事件的关注程度较高,即浏览人数较高、评论数量较多,例如,某高关注度事件的形式可以为1天内浏览人数超过10万次的视频内容。高关注度事件的内容往往较为重要,例如某些高关注度事件的商业价值较高,如果不能及时识别并进行处置,可能造成经济或其他方面的损失。因此,有必要充分利用当前大数据及人工智能的技术做到高关注度事件精准识别、及时处置。
发明内容
为了解决现有技术中的上述问题,即的问题,本发明提供了一种基于网格的高关注度事件识别方法,包括:
获取城市所在区域的电子地图,根据所述电子地图将所述城市所在区域划分为多个网格;
获取所述城市中发生的多个历史事件的信息,以所述多个历史事件中的任一历史事件为目标历史事件,则所述目标历史事件的信息包括所述目标历史事件的参与人的身份标识、所述目标历史事件的文本描述内容、所述目标历史事件的坐标信息;
根据所述目标历史事件的坐标信息,确定所述目标历史事件所在的网格;
从所述目标历史事件的文本描述内容中提取关键词;
查询所述目标历史事件关联的已公开内容,并根据所述目标历史事件关联的已公开内容,计算所述目标历史事件的社会关注程度;
根据所述目标历史事件的社会关注程度的高低,为所述目标历史事件设置标签,所述目标历史事件的标签用于指示所述目标历史事件是否属于高关注度事件;
根据所述多个历史事件的参与人的身份标识、所述多个历史事件的关键词、所述多个历史事件所在的网格和所述多个历史事件的标签训练前馈神经网络;
在发现新事件时,查询所述新事件的参与人的身份标识、所述新事件的文本描述内容、所述新事件的坐标信息,并从所述新事件的文本描述内容中提取关键词,按照所述新事件的坐标信息确定所在的网格;
将所述新事件的参与人的身份标识、所述新事件的关键词、所述新事件所在的网格输入训练完成的所述前馈神经网络,由所述前馈神经网络判断所述新事件是否为所述高关注度事件。
在一些优选的实施例中,所述查询所述目标历史事件关联的已公开内容,包括:
根据所述目标历史事件的参与人的身份标识、所述目标历史事件的文本描述内容、所述目标历史事件所在的网格,从互联网和/或社交媒体查询所述目标历史事件关联的已公开内容。
在一些优选的实施例中,所述根据所述目标历史事件关联的已公开内容,计算所述目标历史事件的社会关注程度,包括:
查询所述目标历史事件关联的已公开内容的浏览人数、支持人数、反对人数以及多项评论内容;
识别所述目标历史事件关联的已公开内容的多项评论内容中是否包含预设的热点词;
统计所述目标历史事件关联的已公开内容的多项评论内容中包含所述热点词的评论内容数量;
计算所述目标历史事件的社会关注程度:
;
其中,a、b、c为预设的系数,为所述目标历史事件关联的已公开内容的浏览人数,/>为所述目标历史事件关联的已公开内容的支持人数,/>为所述目标历史事件关联的已公开内容的反对人数,/>为所述目标历史事件关联的已公开内容的评论内容总数,为所述目标历史事件关联的已公开内容的包含所述热点词的评论内容数量。
在一些优选的实施例中,在训练所述前馈神经网络时,根据预设的高关注度事件最大响应时间,计算用于对所述前馈神经网络中至少一个权重调整的调整幅度:
;
其中,LR为预设的调整幅度,GS为随所述前馈神经网络的至少一个权重的调整次数增加而增长的全局步长,DR为预设的衰减系数,DS为预设的衰减速度,T为所述高关注度事件的最大响应时间。
在一些优选的实施例中,所述基于网格的高关注度事件识别方法还包括:
在发现所述新事件属于所述高关注度事件时,查询所述新事件所在网格的负责人的终端标识;
按照所述新事件所在网格的负责人的终端标识,将所述新事件的信息发送至所述新事件所在网格的负责人。
在一些优选的实施例中,所述基于网格的高关注度事件识别方法还包括:
在发现所述新事件不属于所述高关注度事件时,查询所述新事件的参与人的终端标识;
根据所述新事件的参与人的终端标识,将预设的提示信息发送至所述新事件的参与人。
在一些优选的实施例中,在从所述目标历史事件的文本描述内容中提取关键词的步骤之前,还包括:
查询所述多个历史事件的发生时间和处置完成时间;
根据所述多个历史事件的发生时间和处置完成时间,计算所述多个历史事件的处置时长;
从所述多个历史事件中查找并去除处置时长低于预设时长的历史事件。
在一些优选的实施例中,所述从所述目标历史事件的文本描述内容中提取关键词,包括:
对所述目标历史事件的文本描述内容进行分词;
为所述目标历史事件的文本描述内容中的每个词语设置权重,则其中第i个词语的权重为:
;
其中,d为预设的阻尼系数,表示与所述第i个词语相连的其他词语,表示从/>中第j个词语出发能够到达的其他词语,/>表示所述第i个词语与所述第j个词语之间的相关度,/>表示/>中第k个词语与所述第j个词语之间的相关度,/>为所述第j个词语的权重;
根据预设的迭代次数t,更新所述第i个词语的权重:
;
其中,表示所述第i个词语在第t次迭代时的权重,/>表示所述第i个词语在第t-1次迭代时的权重;
在所述第i个词语在第t次迭代后的权重超过预设阈值时,将所述第i个词语作为所述关键词。
在一些优选的实施例中,在为所述目标历史事件的文本描述内容中的每个词语设置权重的步骤之前,还包括:
根据所述第i个词语生成第一向量;
根据所述第j个词语生成第二向量;
计算所述第一向量与所述第二向量之间的余弦角度;
根据所述第一向量与所述第二向量之间的余弦角度,确定所述第i个词语与所述第j个词语之间的相关度。
本发明的另一方面,提出了一种基于网格的高关注度事件识别系统,包括:
网格划分模块,获取城市所在区域的电子地图,根据所述电子地图将所述城市所在区域划分为多个网格;
历史事件信息获取模块,获取所述城市中发生的多个历史事件的信息,以所述多个历史事件中的任一历史事件为目标历史事件,则所述目标历史事件的信息包括所述目标历史事件的参与人的身份标识、所述目标历史事件的文本描述内容、所述目标历史事件的坐标信息;
网格确定模块,根据所述目标历史事件的坐标信息,确定所述目标历史事件所在的网格;
关键词提取模块,从所述目标历史事件的文本描述内容中提取关键词;
社会关注程度计算模块,查询所述目标历史事件关联的已公开内容,并根据所述目标历史事件关联的已公开内容,计算所述目标历史事件的社会关注程度;
标签管理模块,根据所述目标历史事件的社会关注程度高低,为所述目标历史事件设置标签,所述目标历史事件的标签用于指示所述目标历史事件是否属于高关注度事件;
训练模块,根据所述多个历史事件的参与人的身份标识、所述多个历史事件的关键词、所述多个历史事件所在的网格和所述多个历史事件的标签训练前馈神经网络;
新事件信息获取模块,在发现新事件时,查询所述新事件的参与人的身份标识、所述新事件的文本描述内容、所述新事件的坐标信息,并从所述新事件的文本描述内容中提取关键词,按照所述新事件的坐标信息确定所在的网格;
高关注度事件识别模块,将所述新事件的参与人的身份标识、所述新事件的关键词、所述新事件所在的网格输入训练完成的所述前馈神经网络,由所述前馈神经网络判断所述新事件是否为所述高关注度事件。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
本发明的技术方案首先基于城市所在区域的电子地图将城市区域划分为网格,在获取了城市中历史事件的信息后,提取了历史事件的关键词,定位了历史事件发生的网格,将在坐标上呈零散分布的历史事件发生位置转换为在网格中集中存在的历史事件发生位置,更有利于进行神经网络的训练,还根据历史事件的信息进行已公开内容的查询,基于对已公开内容的分析计算出该历史事件的关注程度,以及根据历史事件的关注程度自动实现了对历史事件的标签设置,此时可以基于历史事件信息中的参与人的身份标识、关键词、所在网格等关键特征以及设置好的标签进行前馈神经网络的训练,训练后该前馈神经网络能够准确判断事件是否为高关注度事件,则当发现新事件时,在该最新事件的公开内容尚未产生时基于该前馈神经网络可以准确识别最新的事件是否为高关注度事件,有利于对高关注度事件的及时处置。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的一种基于网格的高关注度事件识别方法的流程图;
图2为根据本申请实施例的一种基于网格的高关注度事件识别方法的局部流程图;
图3为根据本申请实施例的一种基于网格的高关注度事件识别方法的另一局部流程图;
图4为根据本申请实施例的一种基于网格的高关注度事件识别方法的又一局部流程图;
图5为根据本申请实施例的一种基于网格的高关注度事件识别方法的再一局部流程图;
图6为根据本申请实施例的一种基于网格的高关注度事件识别装置的框图。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
如图1所示,本发明的一个实施例中提供了一种基于网格的高关注度事件识别方法,包括:
步骤S110,获取城市所在区域的电子地图,根据电子地图将城市所在的区域划分为多个网格。
本实施例中,可以按照电子地图上的行政区域划分、主要道路规划等,将城市区域划分为多个网格。
步骤S120,获取城市中发生的多个历史事件的信息,以多个历史事件中的任一历史事件为目标历史事件,则目标历史事件的信息包括目标历史事件的参与人的身份标识、目标历史事件的文本描述内容、目标历史事件的坐标信息,并根据目标历史事件的坐标信息,确定目标历史事件所在的网格。
本实施例中,最能反映事件信息关键特征的数据为参与人的身份标识(包括但不限于姓名、身份证号码、手机号等等)、文本描述内容、所在网格。
步骤S130,从目标历史事件的文本描述内容中提取关键词。
本实施例中,可以针对高关注度事件自定义关键词库,基于该关键词库从目标历史事件的文本描述内容中提取关键词,本实施例中对关键词库的内容不进行任何限制。
步骤S140,查询目标历史事件关联的已公开内容,并根据目标历史事件关联的已公开内容,计算目标历史事件的社会关注程度。
本实施例中,已公开内容指的是对社会公众公开的内容,比较常见的公开方式为通过互联网公开。本实施例中,对目标历史事件的社会关注程度计算方式不进行限制,例如基于目标历史事件的浏览人数或评论人数来确定社会关注程度。
步骤S150,根据目标历史事件的社会关注程度高低,为目标历史事件设置标签,目标历史事件的标签用于指示目标历史事件是否属于高关注度事件。
本实施例中,例如,在目标历史事件的社会关注程度高于预设阈值时,可以将目标历史事件作为高关注度事件,在目标历史事件的社会关注程度低于预设阈值时,可以不将目标历史事件作为高关注度事件,本实施例中不对该阈值进行限制。
步骤S160,根据多个历史事件的参与人的身份标识、多个历史事件的关键词、多个历史事件所在的网格和多个历史事件的标签训练前馈神经网络。
本实施例中,前馈神经网络(feedforward neural network,FNN),是人工神经网络的一种。本实施例中,将多个历史事件的参与人的身份标识、多个历史事件的关键词、多个历史事件的所在网格的地理位置作为前馈神经网络的输入、将多个历史事件的标签作为前馈神经网络的输出,对前馈神经网络进行训练,则训练得到的前馈神经网络能够准确分析某事件是否为高关注度事件。本实施例中,结合机器学习评估指标:TP(真正例)、TF(假正例)、FP(假负例)、FN(真负例)针对二分类任务预测结果得到的值,对训练效果进行评估,如果训练效果不达标则需要调整权重。
步骤S170,在发现新事件时,查询新事件的参与人的身份标识、新事件的文本描述内容、新事件的坐标信息,并从新事件的文本描述内容中提取关键词,按照新事件的坐标信息确定所在的网格。
步骤S180,将新事件的参与人的身份标识、新事件的关键词、新事件所在的网格输入训练完成的前馈神经网络,由前馈神经网络判断新事件是否为高关注度事件。
本实施例的技术方案首先基于城市所在区域的电子地图将城市区域划分为网格,在获取了城市中历史事件的信息后,提取了历史事件的关键词,定位了历史事件发生的网格,将在坐标上呈零散分布的历史事件发生位置转换为在网格中集中存在的历史事件发生位置,更有利于进行神经网络的训练,还根据历史事件的信息进行已公开内容的查询,基于对已公开内容的分析计算出该历史事件的关注程度,以及根据历史事件的关注程度自动实现了对历史事件的标签设置,此时可以基于历史事件信息中的参与人的身份标识、关键词、所在网格等关键特征以及设置好的标签进行前馈神经网络的训练,训练后该前馈神经网络能够准确判断事件是否为高关注度事件,则当发现新事件时,在该最新事件的公开内容尚未产生时基于该前馈神经网络可以准确识别最新的事件是否为高关注度事件,有利于对高关注度事件的及时处置。
本发明的另一个实施例中提供了一种基于网格的高关注度事件识别方法,相比于前述的实施例,本实施例的基于网格的高关注度事件识别方法,步骤S140包括:
根据目标历史事件的参与人的身份标识、目标历史事件的文本描述内容、目标历史事件所在的网格,从互联网和/或社交媒体查询目标历史事件关联的已公开内容。
根据本实施例的技术方案,可以从互联网、社交媒体查询的已公开内容包括但不限于网络新闻报道、社交媒体言论等。
如图2所示,本发明的另一个实施例中提供了一种基于网格的高关注度事件识别方法,相比于前述的实施例,本实施例的基于网格的高关注度事件识别方法,步骤S140包括:
步骤S210,查询目标历史事件关联的已公开内容的浏览人数、支持人数、反对人数以及多项评论内容。
本实施例中,已公开内容的浏览人数、支持人数、反对人数以及评论内容是能够反映相关事件的关注程度的重要特征。
步骤S220,识别目标历史事件关联的已公开内容的多项评论内容中是否包含预设的热点词。
本实施例中,对热点词的类型不进行限制,其通常反映当前社会运行的重要内容。
步骤S230,统计目标历史事件关联的已公开内容的多项评论内容中包含热点词的评论内容数量。
步骤S240,计算目标历史事件的社会关注程度:
;
其中,a、b、c为预设的系数,为所述目标历史事件关联的已公开内容的浏览人数,/>为所述目标历史事件关联的已公开内容的支持人数,/>为所述目标历史事件关联的已公开内容的反对人数,/>为所述目标历史事件关联的已公开内容的评论内容总数,为所述目标历史事件关联的已公开内容的包含所述热点词的评论内容数量。
本实施例中,对a、b、c的具体数值不进行限制,根据本实施例的技术方案,能够对历史事件的关注程度进行量化计算,实验证明,上述关注程度计算公式具有充分的合理性。
本发明的另一个实施例中提供了一种基于网格的高关注度事件识别方法,相比于前述的实施例,本实施例的基于网格的高关注度事件识别方法,在训练前馈神经网络时,根据预设的高关注度事件最大响应时间,计算用于对前馈神经网络中至少一个权重调整的调整幅度:
;
其中,LR为预设的调整幅度,GS为随所述前馈神经网络的至少一个权重的调整次数增加而增长的全局步长,DR为预设的衰减系数,DS为预设的衰减速度,T为所述高关注度事件的最大响应时间。
根据本实施例的技术方案,基于高关注度事件最大响应时间,合理设置了前馈神经网络的调整幅度,并且该调整幅度随着训练次数增加而自行增长,有利于促进前馈神经网络加速收敛,能够有效提升前馈神经网络的训练效率。
如图3所示,本发明的另一个实施例中提供了一种基于网格的高关注度事件识别方法,相比于前述的实施例,本实施例的基于网格的高关注度事件识别方法,还包括:
步骤S310,在发现新事件属于高关注度事件时,查询新事件所在网格的负责人的终端标识。
本实施例中,按行政区域划分的网格均有负责人进行管理。
步骤S320,按照新事件所在网格的负责人的终端标识,将新事件的信息发送至新事件所在网格的负责人。
根据本实施例的技术方案,对高关注度事件需要重点关注、及时处置,此时可以将事件信息发送给所在网格的负责人,由负责人调度网格资源对高关注度事件进行处置。
步骤S330,在发现新事件不属于高关注度事件时,查询新事件的参与人的终端标识。
步骤S340,根据新事件的参与人的终端标识,将预设的提示信息发送至新事件的参与人。
根据本实施例的技术方案,对非高关注度事件则不必过多关注,此时仅对事件参与人进行通知,提示其自行完成事件处置。
如图4所示,本发明的另一个实施例中提供了一种基于网格的高关注度事件识别方法,相比于前述的实施例,本实施例的基于网格的高关注度事件识别方法,在步骤S120之前,还包括:
步骤S410,查询多个历史事件的发生时间和处置完成时间。
步骤S420,根据多个历史事件的发生时间和处置完成时间,计算多个历史事件的处置时长。
步骤S430,从多个历史事件中查找并去除处置时长低于预设时长的历史事件。
本实施例中,对预设时长不进行限制,例如可以是1天或1周。
根据本实施例的技术方案,由于处置时长较低的事件往往并非高关注度事件,所以对该类事件直接剔除,避免浪费资源对处置时长较低的事件进行分词以及后续处理,有利于节省计算资源。
如图5所示,本发明的另一个实施例中提供了一种基于网格的高关注度事件识别方法,相比于前述的实施例,本实施例的基于网格的高关注度事件识别方法,步骤S120包括:
步骤S510,对目标历史事件的文本描述内容进行分词。
步骤S520,为目标历史事件的文本描述内容中的每个词语设置权重,则其中第i个词语的权重为:
;
其中,d为预设的阻尼系数,表示与所述第i个词语相连的其他词语,表示从/>中第j个词语出发能够到达的其他词语,/>表示所述第i个词语与所述第j个词语之间的相关度,/>表示/>中第k个词语与所述第j个词语之间的相关度,/>为所述第j个词语的权重。
其中,计算第i个词语与第j个词语之间的相关度的步骤如下:
(1)根据所述第i个词语生成第一向量。
本实施例中,词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。
(2)根据所述第j个词语生成第二向量。
(3)计算所述第一向量与所述第二向量之间的余弦角度。
(4)根据所述第一向量与所述第二向量之间的余弦角度,确定所述第i个词语与所述第j个词语之间的相关度。
根据本实施例的技术方案,利用词向量的余弦角度,快速计算出第i个词语与第j个词语之间的相关度。
步骤S530,根据预设的迭代次数t,更新所述第i个词语的权重:
;
其中,表示所述第i个词语在第t次迭代时的权重,/>表示所述第i个词语在第t-1次迭代时的权重。
步骤S540,在所述第i个词语在第t次迭代后的权重超过预设阈值时,将所述第i个词语作为所述关键词。
根据本实施例的技术方案,设计了一种全新的从文本中提取关键词的公式,通过控制迭代次数t的大小,能够根据实际需求更加精准地计算出词语权重或更加快速地计算出词语权重,从而准确提取关键词。
如图6所示,本发明的一个实施例中提供了一种基于网格的高关注度事件识别系统,包括:
网格划分模块610,获取城市所在区域的电子地图,根据电子地图将城市所在的区域划分为多个网格。
本实施例中,可以按照电子地图上的行政区域划分、主要道路规划等,将城市区域划分为多个网格。
历史事件信息获取模块620,获取城市中发生的多个历史事件的信息,以多个历史事件中的任一历史事件为目标历史事件,则目标历史事件的信息包括目标历史事件的参与人的身份标识、目标历史事件的文本描述内容、目标历史事件的坐标信息。
网格确定模块630,根据目标历史事件的坐标信息,确定目标历史事件所在的网格。
本实施例中,最能反映事件信息关键特征的数据为参与人的身份标识(包括但不限于姓名、身份证号码、手机号等等)、文本描述内容、所在网格。
关键词提取模块640,从目标历史事件的文本描述内容中提取关键词。
本实施例中,可以针对高关注度事件自定义关键词库,基于该关键词库从目标历史事件的文本描述内容中提取关键词,本实施例中对关键词库的内容不进行任何限制。
社会关注程度计算模块650,查询目标历史事件关联的已公开内容,并根据目标历史事件关联的已公开内容,计算目标历史事件的社会关注程度。
本实施例中,已公开内容指的是对社会公众公开的内容,比较常见的公开方式为通过互联网公开。本实施例中,对目标历史事件的社会关注程度计算方式不进行限制,例如基于目标历史事件的浏览人数或评论人数来确定社会关注程度。
标签管理模块660,根据目标历史事件的社会关注程度高低,为目标历史事件设置标签,目标历史事件的标签用于指示目标历史事件是否属于高关注度事件。
本实施例中,例如,在目标历史事件的社会关注程度高于预设阈值时,可以将目标历史事件作为高关注度事件,在目标历史事件的社会关注程度低于预设阈值时,可以不将目标历史事件作为高关注度事件,本实施例中不对该阈值进行限制。
训练模块670,根据多个历史事件的参与人的身份标识、多个历史事件的关键词、多个历史事件所在的网格和多个历史事件的标签训练前馈神经网络。
本实施例中,前馈神经网络(feedforward neural network,FNN),是人工神经网络的一种。本实施例中,将多个历史事件的参与人的身份标识、多个历史事件的关键词、多个历史事件的所在网格的地理位置作为前馈神经网络的输入、将多个历史事件的标签作为前馈神经网络的输出,对前馈神经网络进行训练,则训练得到的前馈神经网络能够准确分析某事件是否为高关注度事件。本实施例中,结合机器学习评估指标:TP(真正例)、TF(假正例)、FP(假负例)、FN(真负例)针对二分类任务预测结果得到的值,对训练效果进行评估,如果训练效果不达标则需要调整权重。
新事件信息获取模块680,在发现新事件时,查询新事件的参与人的身份标识、新事件的文本描述内容、新事件的坐标信息,并从新事件的文本描述内容中提取关键词,按照新事件的坐标信息确定所在的网格。
高关注度事件识别模块690,将新事件的参与人的身份标识、新事件的关键词、新事件所在的网格输入训练完成的前馈神经网络,由前馈神经网络判断新事件是否为高关注度事件。
本实施例的技术方案首先基于城市所在区域的电子地图将城市区域划分为网格,在获取了城市中历史事件的信息后,提取了历史事件的关键词,定位了历史事件发生的网格,将在坐标上呈零散分布的历史事件发生位置转换为在网格中集中存在的历史事件发生位置,更有利于进行神经网络的训练,还根据历史事件的信息进行已公开内容的查询,基于对已公开内容的分析计算出该历史事件的关注程度,以及根据历史事件的关注程度自动实现了对历史事件的标签设置,此时可以基于历史事件信息中的参与人的身份标识、关键词、所在网格等关键特征以及设置好的标签进行前馈神经网络的训练,训练后该前馈神经网络能够准确判断事件是否为高关注度事件,则当发现新事件时,在该最新事件的公开内容尚未产生时基于该前馈神经网络可以准确识别最新的事件是否为高关注度事件,有利于对高关注度事件的及时处置。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种基于网格的高关注度事件识别方法,其特征在于,包括:
获取城市所在区域的电子地图,根据所述电子地图将所述城市所在区域划分为多个网格;
获取所述城市中发生的多个历史事件的信息,以所述多个历史事件中的任一历史事件为目标历史事件,则所述目标历史事件的信息包括所述目标历史事件的参与人的身份标识、所述目标历史事件的文本描述内容、所述目标历史事件的坐标信息;
根据所述目标历史事件的坐标信息,确定所述目标历史事件所在的网格;
从所述目标历史事件的文本描述内容中提取关键词;
查询所述目标历史事件关联的已公开内容,并根据所述目标历史事件关联的已公开内容,计算所述目标历史事件的社会关注程度;
根据所述目标历史事件的社会关注程度的高低,为所述目标历史事件设置标签,所述目标历史事件的标签用于指示所述目标历史事件是否属于高关注度事件;
根据所述多个历史事件的参与人的身份标识、所述多个历史事件的关键词、所述多个历史事件所在的网格和所述多个历史事件的标签训练前馈神经网络;
在发现新事件时,查询所述新事件的参与人的身份标识、所述新事件的文本描述内容、所述新事件的坐标信息,并从所述新事件的文本描述内容中提取关键词,按照所述新事件的坐标信息确定所在的网格;
将所述新事件的参与人的身份标识、所述新事件的关键词、所述新事件所在的网格输入训练完成的所述前馈神经网络,由所述前馈神经网络判断所述新事件是否为所述高关注度事件。
2.根据权利要求1所述的基于网格的高关注度事件识别方法,其特征在于,所述查询所述目标历史事件关联的已公开内容,包括:
根据所述目标历史事件的参与人的身份标识、所述目标历史事件的文本描述内容、所述目标历史事件所在的网格,从互联网和/或社交媒体查询所述目标历史事件关联的已公开内容。
3.根据权利要求1所述的基于网格的高关注度事件识别方法,其特征在于,所述根据所述目标历史事件关联的已公开内容,计算所述目标历史事件的社会关注程度,包括:
查询所述目标历史事件关联的已公开内容的浏览人数、支持人数、反对人数以及多项评论内容;
识别所述目标历史事件关联的已公开内容的多项评论内容中是否包含预设的热点词;
统计所述目标历史事件关联的已公开内容的多项评论内容中包含所述热点词的评论内容数量;
计算所述目标历史事件的社会关注程度:
;
其中,a、b、c为预设的系数,为所述目标历史事件关联的已公开内容的浏览人数,/>为所述目标历史事件关联的已公开内容的支持人数,/>为所述目标历史事件关联的已公开内容的反对人数,/>为所述目标历史事件关联的已公开内容的评论内容总数,/>为所述目标历史事件关联的已公开内容的包含所述热点词的评论内容数量。
4.根据权利要求1所述的基于网格的高关注度事件识别方法,其特征在于,在训练所述前馈神经网络时,根据预设的高关注度事件最大响应时间,计算用于对所述前馈神经网络中至少一个权重调整的调整幅度:
;
其中,LR为预设的调整幅度,GS为随所述前馈神经网络的至少一个权重的调整次数增加而增长的全局步长,DR为预设的衰减系数,DS为预设的衰减速度,T为所述高关注度事件的最大响应时间。
5.根据权利要求1所述的基于网格的高关注度事件识别方法,其特征在于,所述基于网格的高关注度事件识别方法还包括:
在发现所述新事件属于所述高关注度事件时,查询所述新事件所在网格的负责人的终端标识;
按照所述新事件所在网格的负责人的终端标识,将所述新事件的信息发送至所述新事件所在网格的负责人。
6.根据权利要求1所述的基于网格的高关注度事件识别方法,其特征在于,所述基于网格的高关注度事件识别方法还包括:
在发现所述新事件不属于所述高关注度事件时,查询所述新事件的参与人的终端标识;
根据所述新事件的参与人的终端标识,将预设的提示信息发送至所述新事件的参与人。
7.根据权利要求1所述的基于网格的高关注度事件识别方法,其特征在于,在从所述目标历史事件的文本描述内容中提取关键词的步骤之前,还包括:
查询所述多个历史事件的发生时间和处置完成时间;
根据所述多个历史事件的发生时间和处置完成时间,计算所述多个历史事件的处置时长;
从所述多个历史事件中查找并去除处置时长低于预设时长的历史事件。
8.根据权利要求1所述的基于网格的高关注度事件识别方法,其特征在于,所述从所述目标历史事件的文本描述内容中提取关键词,包括:
对所述目标历史事件的文本描述内容进行分词;
为所述目标历史事件的文本描述内容中的每个词语设置权重,则其中第i个词语的权重为:
;
其中,d为预设的阻尼系数,表示与所述第i个词语相连的其他词语,/>表示从/>中第j个词语出发能够到达的其他词语,/>表示所述第i个词语与所述第j个词语之间的相关度,/>表示/>中第k个词语与所述第j个词语之间的相关度,为所述第j个词语的权重;
根据预设的迭代次数t,更新所述第i个词语的权重:
;
其中,表示所述第i个词语在第t次迭代时的权重,/>表示所述第i个词语在第t-1次迭代时的权重;
在所述第i个词语在第t次迭代后的权重超过预设阈值时,将所述第i个词语作为所述关键词。
9.根据权利要求8所述的基于网格的高关注度事件识别方法,其特征在于,在为所述目标历史事件的文本描述内容中的每个词语设置权重的步骤之前,还包括:
根据所述第i个词语生成第一向量;
根据所述第j个词语生成第二向量;
计算所述第一向量与所述第二向量之间的余弦角度;
根据所述第一向量与所述第二向量之间的余弦角度,确定所述第i个词语与所述第j个词语之间的相关度。
10.一种基于网格的高关注度事件识别系统,其特征在于,包括:
网格划分模块,获取城市所在区域的电子地图,根据所述电子地图将所述城市所在区域划分为多个网格;
历史事件信息获取模块,获取所述城市中发生的多个历史事件的信息,以所述多个历史事件中的任一历史事件为目标历史事件,则所述目标历史事件的信息包括所述目标历史事件的参与人的身份标识、所述目标历史事件的文本描述内容、所述目标历史事件的坐标信息;
网格确定模块,根据所述目标历史事件的坐标信息,确定所述目标历史事件所在的网格;
关键词提取模块,从所述目标历史事件的文本描述内容中提取关键词;
社会关注程度计算模块,查询所述目标历史事件关联的已公开内容,并根据所述目标历史事件关联的已公开内容,计算所述目标历史事件的社会关注程度;
标签管理模块,根据所述目标历史事件的社会关注程度高低,为所述目标历史事件设置标签,所述目标历史事件的标签用于指示所述目标历史事件是否属于高关注度事件;
训练模块,根据所述多个历史事件的参与人的身份标识、所述多个历史事件的关键词、所述多个历史事件所在的网格和所述多个历史事件的标签训练前馈神经网络;
新事件信息获取模块,在发现新事件时,查询所述新事件的参与人的身份标识、所述新事件的文本描述内容、所述新事件的坐标信息,并从所述新事件的文本描述内容中提取关键词,按照所述新事件的坐标信息确定所在的网格;
高关注度事件识别模块,将所述新事件的参与人的身份标识、所述新事件的关键词、所述新事件所在的网格输入训练完成的所述前馈神经网络,由所述前馈神经网络判断所述新事件是否为所述高关注度事件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311435316.9A CN117171455B (zh) | 2023-11-01 | 2023-11-01 | 基于网格的高关注度事件识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311435316.9A CN117171455B (zh) | 2023-11-01 | 2023-11-01 | 基于网格的高关注度事件识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117171455A true CN117171455A (zh) | 2023-12-05 |
CN117171455B CN117171455B (zh) | 2024-01-26 |
Family
ID=88937801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311435316.9A Active CN117171455B (zh) | 2023-11-01 | 2023-11-01 | 基于网格的高关注度事件识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117171455B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190012591A1 (en) * | 2017-07-10 | 2019-01-10 | Accenture Global Solutions Limited | System and method for detecting the occurrence of an event and determining a response to the event |
CN109918660A (zh) * | 2019-03-04 | 2019-06-21 | 北京邮电大学 | 一种基于TextRank的关键词提取方法和装置 |
CN112581106A (zh) * | 2021-02-23 | 2021-03-30 | 苏州工业园区测绘地理信息有限公司 | 一种融合处置机构网格语义的政务事件自动派单方法 |
CN113761200A (zh) * | 2021-08-19 | 2021-12-07 | 淮阴工学院 | 一种基于文本分析算法的高校舆情数据分析系统构建方法 |
-
2023
- 2023-11-01 CN CN202311435316.9A patent/CN117171455B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190012591A1 (en) * | 2017-07-10 | 2019-01-10 | Accenture Global Solutions Limited | System and method for detecting the occurrence of an event and determining a response to the event |
CN109918660A (zh) * | 2019-03-04 | 2019-06-21 | 北京邮电大学 | 一种基于TextRank的关键词提取方法和装置 |
CN112581106A (zh) * | 2021-02-23 | 2021-03-30 | 苏州工业园区测绘地理信息有限公司 | 一种融合处置机构网格语义的政务事件自动派单方法 |
CN113761200A (zh) * | 2021-08-19 | 2021-12-07 | 淮阴工学院 | 一种基于文本分析算法的高校舆情数据分析系统构建方法 |
Non-Patent Citations (1)
Title |
---|
胡改丽;陈婷;陈福集;郑小雪;: "我国网络舆情热度分析文献综述", 情报科学, no. 01 * |
Also Published As
Publication number | Publication date |
---|---|
CN117171455B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111506722B (zh) | 基于深度学习技术的知识图谱问答方法、装置及设备 | |
CN107515873B (zh) | 一种垃圾信息识别方法及设备 | |
CN107515877B (zh) | 敏感主题词集的生成方法和装置 | |
CN105808590B (zh) | 搜索引擎实现方法、搜索方法以及装置 | |
CN111382361A (zh) | 信息推送方法、装置、存储介质和计算机设备 | |
CN112800234B (zh) | 信息处理方法、装置、电子设备和存储介质 | |
CN110489527A (zh) | 基于语音交互的银行业务智能咨询以及办理方法和系统 | |
CN106228120A (zh) | 查询驱动的大规模人脸数据标注方法 | |
CN115982473B (zh) | 一种基于aigc的舆情分析编排系统 | |
Maruthupandi et al. | Multi-label text classification using optimised feature sets | |
CN117521012A (zh) | 基于多模态上下文分层分步对齐的虚假信息检测方法 | |
CN115130711A (zh) | 一种数据处理方法、装置、计算机及可读存储介质 | |
CN110472057A (zh) | 话题标签的生成方法及装置 | |
CN113821587A (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN111767404B (zh) | 一种事件挖掘方法和装置 | |
CN117171455B (zh) | 基于网格的高关注度事件识别方法和系统 | |
CN110598127B (zh) | 一种群组推荐方法及装置 | |
CN117332054A (zh) | 表格问答处理方法、装置及设备 | |
CN111223014B (zh) | 一种从大量细分教学内容在线生成细分场景教学课程的方法和系统 | |
CN110413770A (zh) | 将群消息归类到群话题的方法及装置 | |
CN111209391A (zh) | 信息识别模型的建立方法及系统、拦截方法及系统 | |
CN113641808A (zh) | 基于槽位信息的解答方法、装置、设备及存储介质 | |
CN114328820A (zh) | 信息搜索方法以及相关设备 | |
CN114372145A (zh) | 一种基于知识图谱平台的运维资源动态分配的调度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |