CN114218383A - 重复事件的判定方法、装置及应用 - Google Patents
重复事件的判定方法、装置及应用 Download PDFInfo
- Publication number
- CN114218383A CN114218383A CN202111541672.XA CN202111541672A CN114218383A CN 114218383 A CN114218383 A CN 114218383A CN 202111541672 A CN202111541672 A CN 202111541672A CN 114218383 A CN114218383 A CN 114218383A
- Authority
- CN
- China
- Prior art keywords
- data
- event
- problem type
- similarity
- compared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000013145 classification model Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 18
- 230000003252 repetitive effect Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 239000000523 sample Substances 0.000 description 23
- 239000010813 municipal solid waste Substances 0.000 description 17
- 238000007726 management method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000005034 decoration Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 239000004568 cement Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- GZPBVLUEICLBOA-UHFFFAOYSA-N 4-(dimethylamino)-3,5-dimethylphenol Chemical compound CN(C)C1=C(C)C=C(O)C=C1C GZPBVLUEICLBOA-UHFFFAOYSA-N 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 239000011087 paperboard Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出了一种重复事件的判定方法、装置及应用,其中,所述方法针对重复事件的判定存在的效率低以及可靠性低的问题提出了通过获取多数据源采集到的海量数据,并对数据中的问题类型要素进行提取从而综合确定数据所反映的问题类型,并结合上报时间以及上报位置数据比较当前案件与历史案件的相似度,通过相似度实时判断当前案件是否为重复案件,通过本方案能够对多数据源的数据进行处理,因此在重复性判断中样本更全面同时判断也更为准确。
Description
技术领域
本申请涉及文本数据处理技术领域,特别是涉及一种重复事件的判定方法、装置及应用。
背景技术
随着信息技术、物联网技术的发展,城市管理问题的手段和渠道不断扩展,城市问题发现手段从传统的以采集队伍为主,转变为采集队伍、智能视频发现、物联网设备报警和市民发现多元问题渠道共同发现城市管理问题。面对如此的多元问题发现渠道,缺乏科学有效的重复问题发现手段来避免问题重复派遣,从而提高处置队伍问题处置效率,以减少无效投入。
传统的重复事件判定主要基于:1.人工判断,效率低:当事件量大时受人主观判断影响较大,存在记忆偏差,导致判断失误或错过重复事件。2.单一元素判断,数据可靠性低:只基于上报者填写的问题类型或者地点、时间进行重复事件判定,极其容易因上报者填写错误造成误判。
综上,针对重复事件的判定存在的效率低以及可靠性低的问题,目前尚未得到有效解决方案。
发明内容
本申请实施例提供了一种重复事件的判定方法、装置及应用,针对目前无法实现对多来源的数据陈述数据是否为重复数据进行快速、准确判断的问题,采用从事件陈述数据中获取多个维度特征,综合确定所对应的属性值并将属性值输入模型中进行相似度比较的方式,实现了对案件的相似程度进行判断,从而避免问题重复派遣。
第一方面,本申请实施例提供了一种重复事件的判定方法,所述方法包括:由多数据来源读取事件陈述数据,所述事件陈述数据包括被比较数据以及比较数据;对所述事件陈述数据中的多个问题类型要素进行提取,基于多个所述问题类型要素综合确定所述事件陈述数据所对应的问题类型,并从所述事件陈述数据中获取上报时间数据和上报位置数据;将所述问题类型、所述上报时间数据和所述上报位置数据输入分类模型中,得到所述分类模型输出的所述被比较数据与各个所述比较数据的欧式距离,根据所述欧式距离获取所述被比较数据与各个所述比较数据的相似度;将所述相似度与预设阈值进行比对,若所述相似度超过所述预设阈值则将所述被比较数据作为重复数据。
在其中一些实施例中,“对所述事件陈述数据中的多个问题类型要素进行提取,并基于多个所述问题类型要素综合确定所述事件陈述数据所对应的问题类型”包括:
从所述事件陈述数据中获取第一问题类型;从所述事件陈述数据中获取问题描述中的关键词,将所述关键词与基本库中数据进行比对,输出第二问题类型;从所述事件陈述数据中获取事件图片,对所述事件图片进行识别,输出第三问题类型;结合所述第一问题类型、所述第二问题类型、所述第三问题类型综合确定所述事件陈述数据所对应的问题类型。
在其中一些实施例中,所述问题类型、所述上报时间数据和所述上报位置数据的获取步骤包括:获取原始问题类型、原始上报时间和原始上报位置;判断所述原始问题类型、所述原始上报时间和所述原始上报位置的字段属性;将所述字段属性为连续属性的字段值归一化处理,将所述字段属性为离散属性的字段值编码转换处理,得到处理后的所述问题类型、所述上报时间数据和所述上报位置数据。
在其中一些实施例中,所述被比较数据由http接口或者MQ对接的至少一种方式实时接入。
在其中一些实施例中,将所述被比较数据作为圆心,将判定距离作为半径,形成所述被比较数据的比较范围,获取在所述比较范围内的未结案事件作为所述比较数据。
在其中一些实施例中,获取所述判定距离的步骤包括:获取历史时间段内已有重复事件组中相似度最低的两个重复事件的所述欧式距离;获取用于采集所述事件陈述数据的摄像头的识别距离;获取地图点位偏移距离;结合所述欧氏距离、所述识别距离以及所述地图点位偏移距离得到所述判定距离。
在其中一些实施例中,“根据所述欧式距离获取所述被比较数据与各个所述比较数据的相似度”包括:获取所述被比较数据与每个所述比较数据的欧氏距离,记录所述欧式距离的最大距离;所述被比较数据与各个所述比较数据的相似度为:(1-欧氏距离/最大距离)*100%。
在其中一些实施例中,“将所述相似度与预设阈值进行比对,若所述相似度超过预设阈值则将所述被比较数据作为重复数据”包括:将所述相似度进行排序,取所述相似度的最大值与预设阈值进行比对,若所述相似度的最大值超过所述预设阈值,则将所述被比较数据作为重复数据。
第二方面,本申请实施例提供了一种重复事件的判定装置,包括:事件获取模块,用于由多数据来源读取事件陈述数据,所述事件陈述数据包括被比较数据以及比较数据;特征提取模块,用于对所述事件陈述数据中的多个问题类型要素进行提取,基于多个所述问题类型要素综合确定所述事件陈述数据所对应的问题类型,并从所述事件陈述数据中获取上报时间数据和上报位置数据;相似度计算模块,用于将所述问题类型、所述上报时间数据和所述上报位置数据输入分类模型中,得到所述分类模型输出的所述被比较数据与各个所述比较数据的欧式距离,根据所述欧式距离获取所述被比较数据与各个所述比较数据的相似度;重复数据判定模块,用于将所述相似度与预设阈值进行比对,若所述相似度超过所述预设阈值则将所述被比较数据作为重复数据。
第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行第一方面任一项所述的重复事件的判定方法。
第四方面,本申请实施例提供了一种计算机程序产品,包括软件代码部分,当所述计算机程序产品在计算机上被运行时,所述软件代码部分用于执行根据第一方面任一项所述的重复事件的判定方法。
第五方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据第一方面任一项所述的重复事件的判定方法。
本申请实施例的主要贡献和创新点如下:
本申请实施例针对重复事件的判定存在的效率低以及可靠性低的问题提出了通过获取多数据源采集到的海量数据,并对数据中的问题类型要素进行提取从而综合确定数据所反映的问题类型,并结合上报时间以及上报位置数据比较当前案件与历史案件的相似度,通过相似度实时判断当前案件是否为重复案件,通过本方案能够对多数据源的数据进行处理,因此在重复性判断中样本更全面同时判断也更为准确。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的重复事件的判定方法的主要步骤流程图。
图2是根据本申请实施例的实时上报数据的示意图。
图3是根据本申请第二实施例的重复事件的判定装置的结构框图。
图4是根据本申请第三实施例的的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
本方案可用于对城管案件进行分派,避免重复案件被多次派送影响办案效率。具体地,城管案件可以由多个执法人员在不同平台上上报得到,或者,城管案件还可以由民众举报或投诉得到,因此城管案件与传统的结构化事件信息相比不仅有着非常灵活多变的语法结构且可能存在内容填写错误错误的情况。基于此,在对城管案件重复度判断时本方案通过获取问题类型、上报时间数据以及上报位置数据作为特征,将比较数据的上述特征与被比较数据进行比较,从而有特征的相似度综合得到两个案件是否为重复案件的结果,使得执法人员能够基于案件是否为重复数据优化处置效率,减少无效投入。
当然,本方案还不局限与对城管案件进行重复性判定,例如执法案件、调查问卷以及法律文书等,都可以采用本方案的重复事件判定方法进行案卷的重复性判断定,本方案在此方面并无限制。
下面以本方案应用于对城管案件进行重复性判定为例对本申请进行解释说明。
图1是根据本申请第一实施例的重复事件的判定方法的主要步骤流程图。
为实现该目的,如图1所示,重复事件的判定方法主要包括如下的步骤S101至步骤S104。
步骤S101、由多数据来源读取事件陈述数据,所述事件陈述数据包括被比较数据以及比较数据。
在本步骤中,多数据来源指的是由多源数据发现渠道进行采集,即,事件上报的渠道可以包括专业采集人员上报、物联网设备上报、市民热线上报、市民移动端上报、智能视频探头上报等等。由于采集的渠道不同,因此上报的事件陈述数据的语法结构、呈现形式也不同。本方案的重复事件的判定方法不局限于单数据源上报得到的数据,而是能对由各个方式采集到的事件陈述数据都进行比对,从而得出案件是否已重复派遣。
具体地,在该步骤中,采用被比较数据与多个比较数据一一比对相似性的方式进行重复度判定。在采集数据时,被比较数据和/或比较数据可以为实时采集的数据,例如,所述被比较数据由http接口或者MQ对接的至少一种方式实时接入,所述比较数据可以通过数据交换的方式接入。将预设时间段内上报的历史案件作为比较数据,比较数据可以为一个或多个,将实时上报的当前案件作为待比较数据,通过当前案件与历史案件进行相似度比对来判断当前案件是否已作为历史案件被录入。
在其中一个可行实施例中,将所述被比较数据作为圆心,将判定距离作为半径,形成所述被比较数据的比较范围,获取在所述比较范围内的未结案事件作为所述比较数据。
具体地,随着物联网技术的发展,数据的数据量庞大因此本步骤通过设置比较范围限定获取的比较数据的数据,减少后续的数据相似度对比的计算量。
在本实施例中,判定距离可以是根据经验人为设定的,而为了更准确获取与待比较数据可能存在相似的比较数据集合,本方案还提出了通过以下步骤实现:获取历史时间段内已有重复事件组中相似度最低的两个重复事件的所述欧式距离;获取用于采集所述事件陈述数据的摄像头的识别距离;获取地图点位偏移距离;结合所述欧氏距离、所述识别距离以及所述地图点位偏移距离得到所述判定距离。
具体而言,摄像头根据类型可以划分为球机和枪机,他们静止时识别范围为矩形,其中球机可以360度旋转识别,因此以摄像头为圆心识别距离指的是摄像头的半径长度,例如半径为10米,则表示球机旋转时的识别距离。
示例性的,本步骤对海量数据进行筛选,得到样本数据集,对数据的筛选综合考虑了已有的重复事件的发生规律,即针对已经判定为重复的所有事件,计算一组重复事件中两个重复事件最远的距离r1。另外,本实施例还综合考虑了摄像头识别距离,即一般而言摄像头样本数据来源于多种摄像头,不同种类摄像头的可识别的半径不同,考虑到硬件差异带来的偏差,将识别距离平均值r2作为硬件约束。此外,本实施例还综合考虑了地图点位的偏移,即人员在上报时由于号弱、信号刷新延迟、点位更新频率等情况导致地图点位偏离情况,偏移量可以根据该设备历史便宜情况计算平均值得出,将偏移量作为r3。本实施例将判定距离r4设定为:在相同问题类型下以r1、r2、r3的最大值作为r4。通过以当前案件为中心,获取r4范围内的所有事件。这些事件是综合了已有重复事件发生规律、摄像头硬件差异以及信号差异等要素综合得到的判定范围内的历史案件,与海量历史案件相比,不仅比较数据的数量少,而且在后续的判定步骤中大大减少了相似度比对的计算量。
针对上述步骤S101,本方案通过多途径获取案件保证了案件查全、无遗漏;再通过设置判定距离实现了从数据中精确筛选出与待比较数据可能相关联的比较数据,保证了后续的处理相似度比较时的计算量大大减少。本步骤的技术点在于结合案件的实际上报情况从海量数据中准确获取比较数据以及被比较数据,且对获取到的数据的语法结构、呈现形式并无要求,因此更适用于当前的案件处理场景。
步骤S102、对所述事件陈述数据中的多个问题类型要素进行提取,基于多个所述问题类型要素综合确定所述事件陈述数据所对应的问题类型,并从所述事件陈述数据中获取上报时间数据和上报位置数据。
在该步骤中,采用问题类型要素提取替代了原有的问题类型提取,具体而言,在用户上报的城管案件中,一般是反映何时何地,什么人做了什么违法事件,以及具体的违法内容。例如,接到民众举报“2018年6月1日发现当事人王XX正在萧山区城厢街道育才路536-1号前面倾倒装修垃圾。经查,当事人驾驶一辆电动三轮车将两个纸板箱装着的装修过程中产生的碎瓷砖、废弃水泥袋,以及用两个编织袋装着的废弃水泥粒运至现场,经查,当事人倾倒的地点不是指定的消纳场所,并未能出示在现场倾倒装修垃圾的相关审批手续,其行为涉嫌未将装修垃圾运至消纳场所,并附上[事件图片.jpg]”,在该案件中,“倾倒装修垃圾”是上报人员定义的问题类型。在现有技术中直接把问题类型作为案件的属性特征进行比对,若相同,则两个案件相似,若不同,则两个案件不相似。而采用这种方法不仅特征的提取不够全面,而且提取的特征也不够准确。
例如,对于上述民众举报的具体案件,在本步骤中不仅采集了上报者提供的问题类型作为其中一个问题类型要素,还通过对问题描述中的关键词进行提取,例如提取“废弃水泥粒运至现场”,对关键词进行语义分析,得到问题类型要素,结合多个问题类型综合对案件的问题类型进行判断,从而得到更为准确的判断结果。
在其中一个可行实施例中,“对所述事件陈述数据中的多个问题类型要素进行提取,并基于多个所述问题类型要素综合确定所述事件陈述数据所对应的问题类型”包括:从所述事件陈述数据中获取第一问题类型;从所述事件陈述数据中获取问题描述中的关键词,将所述关键词与基本库中数据进行比对,输出第二问题类型;从所述事件陈述数据中获取事件图片,对所述事件图片进行识别,输出第三问题类型;结合所述第一问题类型、所述第二问题类型、所述第三问题类型综合确定所述事件陈述数据所对应的问题类型。
在本实施例中通过结合上报者提供的问题类型、从问题描述中提取出的问题类型以及通过对事件图片进行图像识别,识别出是否有建筑垃圾进一步得到的问题类型相结合,从而准确得到事件陈述数据所对应的问题类型。
示例性的,采集当前案件的信息,通过获取信息中的问题类型字段,得到上报者所提供的第一问题类型“暴露垃圾;对问题描述采用文字识别,得到的第二问题类型为“垃圾堆积”;对提供的事件图片进行图像识别,识别出暴露在垃圾箱外的辣鸡,则得到第三问题类型为“暴露垃圾”,再通过设置权重的方式综合判断出该案件所对应的问题类型为“暴露垃圾”。
在该实施例中,通过采集案件中的多个问题类型要素进行综合判断的好处在于:不仅能减少上报者填写错误带来的误判,而且还能将多个来源所采集到的数据统一处理。例如:若只采用用户上报的问题类型作为特征,则摄像头自动采集到的图片就无法作为待比较数据,另外如居民反馈的案件因为未填写问题类型也无法作为待比较数据,直接导致了获取到的数据量不全面,因此在判断案件重复性的时就容易造成遗漏。而采用本步骤中的多个问题类型要素综合判断问题类型的方式涵盖了包括:问题类型直接采集,文本识别、语义分析,以及图像识别等得到的多种方式,因此本方案不局限于对特定来源的数据进行处理,而是能处理多源数据,能够避免因数据不全带来的重复性误判的问题。
针对上述步骤S102,本方案通过在对多源采集的事件陈述数据中的多个问题类型要素进行提取,并基于提取结果综合计算得到问题类型,从而避免出现因上报者错误填写或者因采集的方式造成缺少问题类型而带来的案件重复性误判或者漏判的情况。通过本步骤能适用于多数据源采集的案件重复性判定场景,且能提高案件判定结果的准确性。
步骤S103、将所述问题类型、所述上报时间数据和所述上报位置数据输入分类模型中,得到所述分类模型输出的所述被比较数据与各个所述比较数据的欧式距离,根据所述欧式距离获取所述被比较数据与各个所述比较数据的相似度。
具体地,分类模型可以根据输入的特征将被比较数据与比较数据分类,模型会根据各个样本间的欧式距离作为样本是否分为同一类的判断依据。欧氏距离越远,则说明两个样本越不相似,欧式距离越近,则说明两个样本越相似。因此本步骤采用分类模型对待比较数据与比较数据的重复性自动判断,从而提高判断效率以及准确性。
这该实施例中,首先通过分类模型计算当前样本到历史事件集中每个历史样本的重复距离,重复距离采用欧式距离,即
其中m表示历史事件集Ω的事件数,n表示步骤1中选择的属性个数,表示样本点的第i个属性的属性值,表示历史事件集Ω中第j个历史事件的第i个属性的属性值,Dist(s(1),sj)表示样本点与历史事件集Ω中第j个历史事件的重复距离。
在获取重复距离之后,对每个重复距离进行排序,然后选择出重复距离最小的K个点,对K个点所属的问题类型进行比较,根据少数服从多数的原则,将测试样本点归入在K个点中占比最高的那一类。
在该实施例中,“根据所述欧式距离获取所述被比较数据与各个所述比较数据的相似度”包括:获取所述被比较数据与每个所述比较数据的欧氏距离,记录所述欧式距离的最大距离;所述被比较数据与各个所述比较数据的相似度为:(1-欧氏距离/最大距离)*100%。
具体而言,分类模型可以选择KNN模型,KNN模型通过分别得到k个历史事件与当前事件的重复距离,进一步通过下列公式计算出k个历史事件与当前事件的辨识度。
其中,表示样本点与其他事件的最大距离,m表示历史事件集的事件数,表示样本点的第i个属性的属性值,表示历史事件集Ω中第j个历史事件的第i个属性的属性值,Dist(s(1),sj)表示样本点与历史事件集Ω中第j个历史事件的重复距离。
记样本点与其他事件的相似度Similarity1,为:
在其中一个可行实施例中,还包括对数据的预处理,使得输入模型的数据都有统一的度量以及取值范围。
在该实施例中,所述问题类型、所述上报时间数据和所述上报位置数据都被处理为包含统一的度量及取值范围,具体的获取步骤包括:获取原始问题类型、原始上报时间和原始上报位置;判断所述原始问题类型、所述原始上报时间和所述原始上报位置的字段属性;将所述字段属性为连续属性的字段值归一化处理,将所述字段属性为离散属性的字段值编码转换处理,得到处理后的所述问题类型、所述上报时间数据和所述上报位置数据。其中,原始问题类型、原始上报位置为离散字段,可以采用one-hot编码转化为数值,时间为连续字段,通过归一化处理转换成数值。
需要说明的是,在本实施例中可以通过记录每个事件的上报时刻,并根据相邻两个上报时刻的差值计算出上报时间数据。例如:事件a,上报时间为10:00,后续上报了事件b、事件c,上报时刻分别为11:00,12:00,那么事件b和事件a的时间差为1小时,事件c和事件a的时间差为2小时,所以上报时间数据分别为1小时和2小时,都是连续字段。
针对上述步骤S103,本方案的实现机理是:分类模型会根据样本点之间的相似程度对样本点进行分类,距离越近说明两个样本点越相似,距离越远说明两个样本点越不相似,因此本方案直接通过分类模型输出样本点的欧式距离,并将欧氏距离作为样本点之间的重复距离,从而自动且快速判断出当前事件与其他历史事件的相似度。
步骤S104、将所述相似度与预设阈值进行比对,若所述相似度超过所述预设阈值则将所述被比较数据作为重复数据。
在本步骤中,设置预设阈值筛选出相似度比较大的待比较数据,即,将一个待比较阈值与n个比较数据进行比较,得到n个表示比较数据与待比较阈值相似程度的欧氏距离,通过欧氏距离计算得到样本点与其他事件的n个相似度,若任一相似度超过预设阈值则说明被比较数据记录的是重复事件。
在其中一个可行实施例中,还可以通过先对相似度进行排序,取最相似的数值与预设阈值进行比对从而直接得出被比较数据是否为重复数据的结果。
具体地,将所述相似度进行排序,取所述相似度的最大值与预设阈值进行比对,若所述相似度的最大值超过所述预设阈值,则将所述被比较数据作为重复数据。
通过该实施例简化了每个相似度与预设阈值一一比较的过程,提高了重复数据结果的获取效率。
针对上述步骤S104,本方案设置预设阈值,将相似度超过预设阈值的被比较数据作为记录重复事件的数据,从而对事实事件进行重复判定,通过本步骤解决了人工判断重复事件存在的效率低的问题,具有高效以及准确判断案件重复性的技术效果。
综上,针对上述步骤S101至S104,本方案针对重复事件的判定存在的效率低以及可靠性低的问题提出了通过获取多数据源采集到的海量数据,并对数据中的问题类型要素进行提取从而综合确定数据所反映的问题类型,并结合上报时间以及上报位置数据比较当前案件与历史案件的相似度,通过相似度实时判断当前案件是否为重复案件,通过本方案能够对多数据源的数据进行处理,因此在重复性判断中样本更全面同时判断也更为准确。
下面以一个具体示例说明采用本方案第一实施例的步骤对当前案件的重复性进行判断的处理过程。
S201、为了提供所选属性的通用性,在本示例中选择问题描述、问题类型、上报时间和经纬度作为数据属性。
S202、以xx系统建设为例,通过MQ对接的方式接入了市民上报、视频发现和执法队员上报三种渠道的实时上报数据。例如表1-1表示的是其中一种形式的实时上报数据,其中事件图片如图2所示,上报者拍摄的是垃圾暴露在垃圾桶外的图。
表1-1
[事件图片.jpg]
S203、提取实时上报数据中的三个问题类型要素,分别是问题类型“暴露垃圾”、对问题描述采用文本识别提取到的关键字“垃圾堆积”以及对事件图片进行图像识别得出的目标所对应的问题类型“暴露垃圾”。可以通过具体地问题类型判断规则:例如当第一问题类型、第二问题类型、第三问题类型均不相同时,取第一问题类型,即上报者实际填写的类型作为问题类型。当第一问题类型、第二问题类型、第三问题类型至少两者相同时,取相同的问题类型作为问题类型。在该例中第一问题类型与第三问题类型相同,因此将“暴露垃圾”作为该案件的问题类型。
S204、以实时上报数据为中心,以计算得到的判定距离为半径得到判定范围,获取判定范围内的记录未执行历史案件的历史数据。
S205、从实时上报数据以及历史数据中获取上报时刻“2020-08-05 07:39:00”和上报位置数据“120.2753316667,30.1597150000”进行归一化得到范围在0~1的数值,并对“暴露垃圾”采用one-hot编码转化为数值。
具体地,本期只对“问题类型”属性为暴露垃圾、路面不洁、流动摊贩、绿地脏乱、乱堆物料和垃圾堆积这六种类型进行重复判定。假设一共有6种问题类型y1-y6,one-hot编码如下表1-2:
表1-2问题类型数值表
坐标预处理:设坐标p(i)经纬度为(xi,yi),进行归一化处理:计算出所有经纬度坐标p(i)(xi,yi)之间的最大欧式距离,记为DMAX(常数):
简化为:
归一化处理:
时间t转化为小时数或分钟数,,并进行归一化处理:
S206、设定k=5,表示取5个历史数据进行比对,此实例选择了萧山区2020年8月1日所有上述六类问题,共134事件。随机选择一个事件,运算得到五个事件及其重复率如下表1-3,历史案件与当前事件的重复率从高到低,将最低值94.234%与预设阈值进行比对,假设超过阈值,则说明当前事件为重复事件,即在后续对该事件进行标记并不再重复派遣执法人员去实地执行执法任务。
表1-3
图3是根据本申请的第二实施例的重复事件的判定装置的结构框图。
如图3所示,本申请的第二实施例提出了一种重复事件的判定装置,包括:
事件获取模块301,用于由多数据来源读取事件陈述数据,所述事件陈述数据包括被比较数据以及比较数据。
特征提取模块302,用于对所述事件陈述数据中的多个问题类型要素进行提取,基于多个所述问题类型要素综合确定所述事件陈述数据所对应的问题类型,并从所述事件陈述数据中获取上报时间数据和上报位置数据。
相似度计算模块303,用于将所述问题类型、所述上报时间数据和所述上报位置数据输入分类模型中,得到所述分类模型输出的所述被比较数据与各个所述比较数据的欧式距离,根据所述欧式距离获取所述被比较数据与各个所述比较数据的相似度。
重复数据判定模块304,用于将所述相似度与预设阈值进行比对,若所述相似度超过所述预设阈值则将所述被比较数据作为重复数据。
图4是根据本申请第三实施例的电子装置的硬件结构示意图。
如图4所示,本申请一个实施例的电子装置,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种重复事件的判定方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是事件陈述数据等,输出的信息可以是当前案件与各个历史案件的重复度等。
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:
S101、由多数据来源读取事件陈述数据,所述事件陈述数据包括被比较数据以及比较数据;
S102、对所述事件陈述数据中的多个问题类型要素进行提取,基于多个所述问题类型要素综合确定所述事件陈述数据所对应的问题类型,并从所述事件陈述数据中获取上报时间数据和上报位置数据;
S103、将所述问题类型、所述上报时间数据和所述上报位置数据输入分类模型中,得到所述分类模型输出的所述被比较数据与各个所述比较数据的欧式距离,根据所述欧式距离获取所述被比较数据与各个所述比较数据的相似度;
S104、将所述相似度与预设阈值进行比对,若所述相似度超过所述预设阈值则将所述被比较数据作为重复数据。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (12)
1.一种重复事件的判定方法,其特征在于,包括以下步骤:
由多数据来源读取事件陈述数据,所述事件陈述数据包括被比较数据以及比较数据;
对所述事件陈述数据中的多个问题类型要素进行提取,基于多个所述问题类型要素综合确定所述事件陈述数据所对应的问题类型,并从所述事件陈述数据中获取上报时间数据和上报位置数据;
将所述问题类型、所述上报时间数据和所述上报位置数据输入分类模型中,得到所述分类模型输出的所述被比较数据与各个所述比较数据的欧式距离,根据所述欧式距离获取所述被比较数据与各个所述比较数据的相似度;
将所述相似度与预设阈值进行比对,若所述相似度超过所述预设阈值则将所述被比较数据作为重复数据。
2.根据权利要求1所述的重复事件的判定方法,其特征在于,“对所述事件陈述数据中的多个问题类型要素进行提取,并基于多个所述问题类型要素综合确定所述事件陈述数据所对应的问题类型”包括:
从所述事件陈述数据中获取第一问题类型;
从所述事件陈述数据中获取问题描述中的关键词,将所述关键词与基本库中数据进行比对,输出第二问题类型;
从所述事件陈述数据中获取事件图片,对所述事件图片进行识别,输出第三问题类型;
结合所述第一问题类型、所述第二问题类型、所述第三问题类型综合确定所述事件陈述数据所对应的问题类型。
3.根据权利要求1所述的重复事件的判定方法,其特征在于,所述问题类型、所述上报时间数据和所述上报位置数据的获取步骤包括:
获取原始问题类型、原始上报时间和原始上报位置;
判断所述原始问题类型、所述原始上报时间和所述原始上报位置的字段属性;
将所述字段属性为连续属性的字段值归一化处理,将所述字段属性为离散属性的字段值编码转换处理,得到处理后的所述问题类型、所述上报时间数据和所述上报位置数据。
4.根据权利要求1所述的重复事件的判定方法,其特征在于,所述被比较数据由http接口或者MQ对接的至少一种方式实时接入。
5.根据权利要求1所述的重复事件的判定方法,其特征在于,将所述被比较数据作为圆心,将判定距离作为半径,形成所述被比较数据的比较范围,获取在所述比较范围内的未结案事件作为所述比较数据。
6.根据权利要求5所述的重复事件的判定方法,其特征在于,获取所述判定距离的步骤包括:
获取历史时间段内已有重复事件组中相似度最低的两个重复事件的所述欧式距离;
获取用于采集所述事件陈述数据的摄像头的识别距离;
获取地图点位偏移距离;
结合所述欧氏距离、所述识别距离以及所述地图点位偏移距离得到所述判定距离。
7.根据权利要求1所述的重复事件的判定方法,其特征在于,“根据所述欧式距离获取所述被比较数据与各个所述比较数据的相似度”包括:
获取所述被比较数据与每个所述比较数据的欧氏距离,记录所述欧式距离的最大距离;
所述被比较数据与各个所述比较数据的相似度为:(1-欧氏距离/最大距离)*100%。
8.根据权利要求1所述的重复事件的判定方法,其特征在于,“将所述相似度与预设阈值进行比对,若所述相似度超过预设阈值则将所述被比较数据作为重复数据”包括:
将所述相似度进行排序,取所述相似度的最大值与预设阈值进行比对,若所述相似度的最大值超过所述预设阈值,则将所述被比较数据作为重复数据。
9.一种重复事件的判定装置,其特征在于,包括:
事件获取模块,用于由多数据来源读取事件陈述数据,所述事件陈述数据包括被比较数据以及比较数据;
特征提取模块,用于对所述事件陈述数据中的多个问题类型要素进行提取,基于多个所述问题类型要素综合确定所述事件陈述数据所对应的问题类型,并从所述事件陈述数据中获取上报时间数据和上报位置数据;
相似度计算模块,用于将所述问题类型、所述上报时间数据和所述上报位置数据输入分类模型中,得到所述分类模型输出的所述被比较数据与各个所述比较数据的欧式距离,根据所述欧式距离获取所述被比较数据与各个所述比较数据的相似度;
重复数据判定模块,用于将所述相似度与预设阈值进行比对,若所述相似度超过所述预设阈值则将所述被比较数据作为重复数据。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至8任一项所述的重复事件的判定方法。
11.一种计算机程序产品,其特征在于,包括软件代码部分,当所述计算机程序产品在计算机上被运行时,所述软件代码部分用于执行根据权利要求1至8任一项所述的重复事件的判定方法。
12.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1至8任一项所述的重复事件的判定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111541672.XA CN114218383A (zh) | 2021-12-16 | 2021-12-16 | 重复事件的判定方法、装置及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111541672.XA CN114218383A (zh) | 2021-12-16 | 2021-12-16 | 重复事件的判定方法、装置及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114218383A true CN114218383A (zh) | 2022-03-22 |
Family
ID=80702978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111541672.XA Pending CN114218383A (zh) | 2021-12-16 | 2021-12-16 | 重复事件的判定方法、装置及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114218383A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117807404A (zh) * | 2024-02-29 | 2024-04-02 | 智广海联(天津)大数据技术有限公司 | 一种基于ai智能去重分析研判事件的方法及装置 |
-
2021
- 2021-12-16 CN CN202111541672.XA patent/CN114218383A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117807404A (zh) * | 2024-02-29 | 2024-04-02 | 智广海联(天津)大数据技术有限公司 | 一种基于ai智能去重分析研判事件的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428091B (zh) | 基于数据分析的风险识别方法及相关设备 | |
CN112100461B (zh) | 基于数据分析的问卷数据处理方法、装置、服务器和介质 | |
CN109325429B (zh) | 一种关联特征数据的方法、装置、存储介质及终端 | |
CN113822247B (zh) | 基于航拍影像的违章建筑识别方法及系统 | |
CN104881675A (zh) | 一种视频场景的识别方法和装置 | |
CN112309126B (zh) | 车牌检测方法、装置、电子设备及计算机可读存储介质 | |
CN110473211B (zh) | 一种弹簧片的数量的检测方法及设备 | |
CN111709775A (zh) | 一种房产价格评估方法、装置、电子设备及存储介质 | |
CN111078512A (zh) | 告警记录生成方法、装置、告警设备及存储介质 | |
CN112733666A (zh) | 一种难例图像的搜集、及模型训练方法、设备及存储介质 | |
CN114218383A (zh) | 重复事件的判定方法、装置及应用 | |
CN115828242A (zh) | 基于大型异构图表示学习的安卓恶意软件检测方法 | |
CN111680733A (zh) | 组分检测、样本库建立方法、装置、平台、系统及介质 | |
CN114662772A (zh) | 交通噪音预警方法、模型训练方法、装置、设备及介质 | |
CN113505769B (zh) | 目标检测方法及应用其的车辆抛洒滴漏识别方法 | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN116384844B (zh) | 基于地理信息云平台的决策方法及装置 | |
CN111027601B (zh) | 一种基于激光传感器的平面检测方法、装置 | |
CN110689028A (zh) | 现场图测评方法、现场勘查记录测评方法及其装置 | |
CN111797772A (zh) | 发票图像自动分类方法、系统、装置 | |
CN114491134B (zh) | 一种商标注册成功率分析方法及系统 | |
CN112990350B (zh) | 目标检测网络训练方法及基于目标检测网络煤矸识别方法 | |
CN115203354A (zh) | 一种车码轨迹预关联方法、装置、计算机设备及存储介质 | |
CN111680175B (zh) | 人脸数据库建库方法、计算机设备和计算机可读存储介质 | |
CN115310735A (zh) | 商圈边界识别的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |