CN112749239B - 一种事件图谱构建方法、装置及计算设备 - Google Patents

一种事件图谱构建方法、装置及计算设备 Download PDF

Info

Publication number
CN112749239B
CN112749239B CN202110073168.5A CN202110073168A CN112749239B CN 112749239 B CN112749239 B CN 112749239B CN 202110073168 A CN202110073168 A CN 202110073168A CN 112749239 B CN112749239 B CN 112749239B
Authority
CN
China
Prior art keywords
event
attribute
normalized
value
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110073168.5A
Other languages
English (en)
Other versions
CN112749239A (zh
Inventor
陈维强
秦秀伟
王雯雯
刘晓冰
臧海洋
王江涛
王秀云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense TransTech Co Ltd
Original Assignee
Hisense TransTech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense TransTech Co Ltd filed Critical Hisense TransTech Co Ltd
Priority to CN202110073168.5A priority Critical patent/CN112749239B/zh
Publication of CN112749239A publication Critical patent/CN112749239A/zh
Application granted granted Critical
Publication of CN112749239B publication Critical patent/CN112749239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本发明实施例涉及城市交通数据分析处理领域,尤其涉及一种事件图谱构建方法、装置、计算设备及计算机可读存储介质。包括:从至少一个事件源获取各初始事件;针对任一初始事件,按照预设的事件模式,从所述初始事件中获取所述事件模式中各表征的表征值,得到所述初始事件的标准化事件;针对第一标准化事件和第二标准化事件,确定所述第一标准化事件和所述第二标准化事件的相异度。如此,多源异构的事件结构具有了统一的标准,打破了各业务系统数据隔离的壁垒,有利于后续事件图谱的构建。上述方法可用于对结构化数据的获取和处理,同时在归一化后的事件的基础上,可更加准确简便地确定各事件间的关联关系,从而构建事件图谱,辅助交通指挥。

Description

一种事件图谱构建方法、装置及计算设备
技术领域
本发明实施例涉及城市交通数据分析处理领域,尤其涉及一种事件图谱构建方法、装置、计算设备及计算机可读存储介质。
背景技术
事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间、空间上相继发生的演化规律和模式是一种十分有价值的知识。事件图谱即能够揭示事件的演化规律和发展逻辑,刻画和记录人类行为活动。
目前采用的事件图谱构建方法需要首先构建抽象事理图谱,然后通过实体链接技术进行实体链接,实现事件知识与实体知识的融合,形成事理知识图谱。该方案对于领域语料库及触发词提取有较强依赖性,适用于在非结构化数据中提取事件之间的联系。然而在交管领域,交通事件多由结构化数据组成,采用上述方法难以提取事理关系。
近年来,全国各地都在做智能交通管控平台建设,违法、事故等交通事件作为交通管控的重点关注对象,随着数据量的增长,事件间的隐含关系挖掘越来越成为交管赋能的重要手段。但是存在以下问题:(1)数据来源多样,接入标准不统一,结构化程度存在差异;(2)各类交通事件由不同的业务系统管理维护,数据相互隔离。
基于上述情况,本申请提出一种事件图谱构建方法,用以解决交管领域事件图谱构建过程中数据标准不统一和相互隔离的问题。
发明内容
本发明实施例提供一种事件图谱构建方法,用以解决交管领域事件图谱构建过程中数据标准不统一和相互隔离的问题。
本发明实施例提供一种事件图谱构建方法,包括:
从至少一个事件源获取各初始事件;
针对任一初始事件,按照预设的事件模式,从所述初始事件中获取所述事件模式中各表征的表征值,得到所述初始事件的标准化事件;其中,所述各表征设置有对应的属性类型;
针对第一标准化事件和第二标准化事件,根据所述第一标准化事件的各表征值和所述第二标准化事件的各表征值,计算所述第一标准化事件和所述第二标准化事件在每类属性上的相异度;根据每类属性上的相异度,确定所述第一标准化事件和所述第二标准化事件的相异度;若相异度符合设定条件,则将所述第一标准化事件和所述第二标准化事件融合为同一事件;其中,所述第一标准化事件和所述第二标准化事件为标准化事件中的任意两个;
确定融合后的各事件间的关联关系,从而构建事件图谱。
通过从初始事件中按照预设的事件模式获取表征值,从而将从多个事件源中获取的初始事件转化为标准化事件。如此,多源异构的事件结构具有了统一的标准,打破了各业务系统数据隔离的壁垒,有利于后续事件图谱的构建。同时,为各表征设置对应的属性类型,通过计算每类属性的相异度确定标准化事件间的相异度,如此可以将相似性较高的事件融合为同一事件,最终消除共指事件,实现事件的归一化。上述方法可用于对结构化数据的获取和处理,同时在归一化后的事件的基础上,可更加准确简便地确定各事件间的关联关系,从而构建事件图谱,辅助交通指挥。
可选地,根据每类属性上的相异度,确定所述第一标准化事件和所述第二标准化事件的相异度,包括:
Figure BDA0002906649380000021
其中,d(i,j)为事件i与事件j间的相异度;p为属性的个数;f为任一属性;
Figure BDA0002906649380000031
为调整系数;
Figure BDA0002906649380000032
为事件i与事件j在f属性上的相异度。
如此,通过事件间在各个属性上的相异度进而确定事件间的相异度,简化了计算过程,使事件间相异度的确定更加准确。
可选地,所述属性为标称属性,则
Figure BDA0002906649380000033
Figure BDA0002906649380000034
其中,w为事件i或事件j中标称属性的总数;m为事件i和事件j中标称属性相同的数目;
xif为事件i的属性取值,xjf为事件j的属性取值。
通过两个事件中标称属性不同的数目占据总的标称属性的比值确定属性间的相异度,同时由于标称属性的值是一些符号或实物的名称,每个只代表某种类别、编码或者状态,因而两个事件的标称属性需完全相同时,才认为他们具有是同一事件的可能性。因此设置在两个事件的属性取值相等时调整系数为0,不等时调整系数为1,如此可以更加合理准确地确定事件间的相异度。
可选地,所述属性为布尔属性,则
Figure BDA0002906649380000035
Figure BDA0002906649380000036
其中,q是事件i和事件j都取1的二元属性的数目;r是在事件i中取1,在事件j中取0的二元属性的数目;s是在事件i中取0,在事件j中取1的二元属性的数目;t是事件i和事件j都取0的二元属性的数目。
由于布尔属性是一种特殊的标称属性,只有取值0或1,因而将
Figure BDA0002906649380000037
如同标称属性一样设置。通过在两个事件中布尔属性取值不同的数目的和占据总的布尔属性数目的比值,可以确定事件间布尔属性的相异度,计算简便且准确。
可选地,所述属性为数值属性,则
Figure BDA0002906649380000041
Figure BDA0002906649380000042
其中,d(xif,xjf)为事件i和事件j的属性取值的相异度。
由于数值属性是定量的,即它是可度量的量,用整数或实数值表示。对于交通事件的数值属性,可先计算属性取值的相异度,进而计算数值属性的相异度。同时,事件间的数值属性不需要在完全相同时才认为是同一事件,因此将调整系数设置为在属性取值缺失时为0,非缺失时为1,更加合理。
可选地,所述属性为序数属性、时间属性或地点属性,则
Figure BDA0002906649380000043
Figure BDA0002906649380000044
其中,max xf为属性取值的最大值;min xf为属性取值的最小值;
通过计算两个事件间的属性取值的差值与属性取值最大值和最小值的差值的比例,确定事件间的序数属性、时间属性或地点属性。
可选地,从所述初始事件中获取所述事件模式中各表征的表征值,得到所述初始事件的标准化事件,包括:
所述初始事件以结构化方式存储在事件源中;
若从所述初始事件中未获取到任一表征的表征值,则从非结构化的描述信息中获取所述表征的表征值,从而得到所述初始事件的标准化事件。
如此,可以从结构化数据中按照预设的事件模式获取标准化事件,若结构化数据中未记载该表征值,则从非结构化的描述信息中获取,扩大了信息的来源渠道,补充了更加丰富的事件表征信息。
可选地,所述表征包括基本表征和/或个性表征,所述基本表征包括时间,地点,部门,事件类型和事件特征中的一种或多种;所述个性表征根据事件特征进行定义。
通过基本表征和个性表征丰富了各个标准化事件的表征信息,如此,可以从多个维度进行事件间相异度的比较,提高了事件融合的准确性。
本发明实施例还提供一种事件图谱构建装置,包括:
获取单元,用于:
从至少一个事件源获取各初始事件;
针对任一初始事件,按照预设的事件模式,从所述初始事件中获取所述事件模式中各表征的表征值,得到所述初始事件的标准化事件;其中,所述各表征设置有对应的属性类型;
处理单元,用于针对第一标准化事件和第二标准化事件,根据所述第一标准化事件的各表征值和所述第二标准化事件的各表征值,计算所述第一标准化事件和所述第二标准化事件在每类属性上的相异度;根据每类属性上的相异度,确定所述第一标准化事件和所述第二标准化事件的相异度;若相异度符合设定条件,则将所述第一标准化事件和所述第二标准化事件融合为同一事件;其中,所述第一标准化事件和所述第二标准化事件为标准化事件中的任意两个;
确定单元,用于确定融合后的各事件间的关联关系,从而构建事件图谱。
本发明实施例还提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行上述任一方式所列事件图谱构建的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行上述任一方式所列的事件图谱构建的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示例性示出了一种可能的事件图谱构建方法;
图2示例性示出了一种事件图谱构建装置200。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
图1示例性示出了一种可能的事件图谱构建方法,包括:
步骤101、从至少一个事件源获取各初始事件;
步骤102、针对任一初始事件,按照预设的事件模式,从所述初始事件中获取所述事件模式中各表征的表征值,得到所述初始事件的标准化事件;其中,所述各表征设置有对应的属性类型;
步骤103、针对第一标准化事件和第二标准化事件,根据所述第一标准化事件的各表征值和所述第二标准化事件的各表征值,计算所述第一标准化事件和所述第二标准化事件在每类属性上的相异度;根据每类属性上的相异度,确定所述第一标准化事件和所述第二标准化事件的相异度;若相异度符合设定条件,则将所述第一标准化事件和所述第二标准化事件融合为同一事件;其中,所述第一标准化事件和所述第二标准化事件为标准化事件中的任意两个;
步骤104、确定融合后的各事件间的关联关系,从而构建事件图谱。
通过从初始事件中按照预设的事件模式获取表征值,从而将从多个事件源中获取的初始事件转化为标准化事件。如此,多源异构的事件结构具有了统一的标准,打破了各业务系统数据隔离的壁垒,有利于后续事件图谱的构建。同时,为各表征设置对应的属性类型,通过计算每类属性的相异度确定标准化事件间的相异度,如此可以将相似性较高的事件融合为同一事件,最终消除共指事件,实现事件的归一化。上述方法可用于对结构化数据的获取和处理,同时在归一化后的事件的基础上,可更加准确简便地确定各事件间的关联关系,从而构建事件图谱,辅助交通指挥。
可选地,在步骤101中,多个事件源包括122接处警、事件检测器、视频巡检系统、舆情平台、雾区检测系统以及六合一违法库和事故库等多方来源。从上述事件源中获取初始事件。
可选地,所述初始事件以结构化方式存储在事件源中。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。
可选地,在步骤102中,预设的事件模式可以包括基本表征如:时间,地点,部门,事件类型,事件特征。也可以根据各具体类型的交通事件在基本表征的基础上补充个性表征,所述个性表征根据事件特征进行定义。如:
交通事故:驾驶人,车辆,事故类型,事故现场环境,事故伤亡,事故原因认定,事故形态,事故侦办,气象;
交通违法:驾驶人,车辆,违法行为,违法扣分,处理情况,缴费情况,气象;
交通拥堵:拥堵等级,拥堵时长,交通流指标,气象。
以上仅为示例,本发明实施例对此不作限制。
通过基本表征和个性表征丰富了各个标准化事件的表征信息,如此,可以从多个维度进行事件间相异度的比较,提高了事件融合的准确性。
可选地,为各表征设置对应的属性类型,方便在后续对相异度的计算更加准确和简便。属性类型可以为标称属性、布尔属性、数值属性、序数属性和时间与地理属性中的一种或多种。各表征对应的属性类型如下表1所示,以下仅为示例,本发明实施例对此不作限制。
Figure BDA0002906649380000081
Figure BDA0002906649380000091
表1
可选地,由于各初始事件数据来源不同,数据质量参差不齐,部分事件关键信息缺失,若从所述初始事件中未获取到任一表征的表征值,则从非结构化的描述信息中获取所述表征的表征值,从而得到所述初始事件的标准化事件。例如,可通过如下方式对关键信息缺失的事件进行补充:一方面,事件描述信息是对于交通事件的文本描述,如122报警时报警人对于警情的描述、舆情平台抓取的交通事件文本等。对于结构化数据中缺失的关键信息,许多情况下会在描述信息中寻找到蛛丝马迹。如是否伤亡事故,伤亡人数,碰撞形态等,可以通过自然语言处理技术,提取关键信息,补充到事件要素。另一方面,部分交通事件缺乏精确定位,无法与现有路网关联,实现准确定位,针对这种情况,采用地理编码技术,提取地理位置描述,构建针对地区的poi关键点位库,并结合路口、路段信息,实现事件的精确定位,补充事件地理位置信息。
如此,可以从结构化数据中按照预设的事件模式获取标准化事件,若结构化数据中未记载该表征值,则从非结构化的描述信息中获取,扩大了信息的来源渠道,补充了更加丰富的事件表征信息。
可选地,补充后的标准化事件依然存在不同程度的数据质量问题,因此对数据进行清洗和转换。例如,通过离群点计算剔除差异性较大的噪声数据,通过规则校验剔除数据类型不合理的数据;依据设定规则对各表征值进行数值转换,以支撑后期挖掘计算。
可选地,为消除共指事件,实现交通事件归一化,对标准化事件进行融合,可以包括横向融合和纵向融合。横向融合是指:同一个交通事件由于报警人不同,数据来源不同,进入原始事件库时可能存在多条记录。针对该情况,提出针对交通事件的相异度计算方式,对于相异度达到阈值的事件进行融合,实现共指事件的归一化。纵向融合是指:部分交通事件处理流程复杂,同一个交通事件处于不同阶段会在业务库存在多条记录,抽取过程容易作为多个事件加入事件库,针对不同的交通事件及其业务处理流程,制定多状态事件融合规则,依据规则进行不同状态事件的归一化,形成完备的事件库。
可选地,在步骤103中,进行事件的横向融合。
首先根据各表征值,计算事件i和事件j在每类属性上的相异度。
可选地,标称属性的值是一些符号或实物的名称。每个只代表某种类别、编码或者状态。例如,事故认定原因,事故形态,所属部门等。当为标称属性时,可根据如下公式计算:
Figure BDA0002906649380000101
其中,w为事件i或事件j中标称属性的总数最大值;m为事件i和事件j中标称属性相同的数目;
若事件i的标称属性总数为5,事件j的标称属性总数为4,则p=5;若事件i和事件j中有3个标称属性相同,例如驾驶人、驾驶证号和事故类型均相同,则m=3。如此两个事件在标称属性上的相异度为2/5。以上仅为示例,本发明实施例对此不作限制。
通过两个事件中标称属性不同的数目占据总的标称属性的比值确定属性间的相异度,同时由于标称属性的值是一些符号或实物的名称,每个只代表某种类别、编码或者状态,因而两个事件的标称属性需完全相同时,才认为他们具有是同一事件的可能性。因此设置在两个事件的属性取值相等时调整系数为0,不等时调整系数为1,如此可以更加合理准确地确定事件间的相异度。
可选地,布尔属性又称二元属性,是一种特殊的标称属性,只有取值0或1,其中0通常表示该属性不出现,而1表示出现。对于交通事件中的二元属性,如交通违法事件是否处理,是否缴费等。若为布尔属性,可根据如下公式计算:
Figure BDA0002906649380000111
其中,q是事件i和事件j都取1的二元属性的数目;r是在事件i中取1,在事件j中取0的二元属性的数目;s是在事件i中取0,在事件j中取1的二元属性的数目;t是事件i和事件j都取0的二元属性的数目。
例如,事件i中有2个二元属性,分别为交款标记和处理标记,取值分别为1,0;事件j中有2个二元属性,分别为交款标记和处理标记,取值分别为1,1;如此,得到的两个事件在二元属性上的相异度为1/2。以上仅为示例,本发明实施例对此不作限制。
由于布尔属性是一种特殊的标称属性,只有取值0或1,因而将
Figure BDA0002906649380000114
如同标称属性一样设置。通过在两个事件中布尔属性取值不同的数目的和占据总的布尔属性数目的比值,可以确定事件间布尔属性的相异度,计算简便且准确。
可选地,数值属性是定量的,即它是可度量的量,用整数或实数值表示。对于交通事件的数值属性,如罚款金额、受伤人数、死亡人数、米数等。若为数值属性,可根据如下公式计算:
Figure BDA0002906649380000112
其中,d(xif,xjf)为事件i和事件j的属性取值的相异度。
属性取值的相异度采用欧几里德距离公式进行计算:
Figure BDA0002906649380000113
例如,事件i和事件j在罚款金额上的取值分别为100,110;在受伤人数上的取值分别为4,5;在死亡人数上的取值分别为1,4;则属性取值的相异度(xif,xjf)为10.49;代入公式(3)中,得到两个事件在数值属性上的相异度为0.91。以上仅为示例,本发明实施例对此不作限制。
由于数值属性是定量的,即它是可度量的量,用整数或实数值表示。对于交通事件的数值属性,可先计算属性取值的相异度,进而计算数值属性的相异度。同时,事件间的数值属性不需要在完全相同时才认为是同一事件,因此将调整系数设置为在属性取值缺失时为0,非缺失时为1,更加合理。
可选地,序数属性通常用于等级评定,属性值有序。对于交通事件的拥堵程度、事故等级等属性,其距离采用如下度量:
Figure BDA0002906649380000121
其中,max xf为属性取值的最大值;min xf为属性取值的最小值;
例如,事件i和事件j在拥堵程度上的取值分别为1级和2级,拥堵程度共分为1-5共5个等级,则两个事件在拥堵程度上的相异度为1/5。若事件i和事件j包含多个相同的序数属性,则将多个序数属性计算的相异度取平均值,得到两个事件在序数属性上的相异度。以上仅为示例,本发明实施例对此不作限制。
可选地,若为时间属性,则首先进行规格化,比如把一天24小时,每半小时为一级进行划分,共划分为48个值,然后按照序数属性计算方式计算。
若为地理属性,则首先进行规格化,比如将地理位置转化为经纬度,然后按照序数属性计算方式计算。
通过计算两个事件间的属性取值的差值与属性取值最大值和最小值的差值的比例,确定事件间的序数属性、时间属性或地点属性。
在经过上述对第一标准化事件和第二标准化事件在每类属性上的相异度计算之后,根据每类属性上的相异度,确定第一标准化事件和第二标准化事件的相异度,可根据如下方式计算:
Figure BDA0002906649380000122
其中,d(i,j)为事件i与事件j间的相异度;p为属性的个数;f为任一属性;
Figure BDA0002906649380000123
为调整系数;
Figure BDA0002906649380000124
为事件i与事件j在f属性上的相异度。
将公式(1)-(5)计算得到的两个事件在各个属性的相异度
Figure BDA0002906649380000131
代入公式(6)。
其中,若f为标称属性或二元属性,则
Figure BDA0002906649380000133
若f为其他属性,则
Figure BDA0002906649380000134
xif为事件i的属性取值,xjf为事件j的属性取值。
例如,当f为标称属性时,其对应的几个表征值若完全相同,则调整系数为0;若存在不相同的表征值,则调整系数为1;二元属性同理。
当f为序数属性时,若属性取值缺失,即事件i或事件j中没有这个属性,则调整系数为0,若均有这个属性,则调整系数为1。数值属性和时间与地理属性同理。
如此,通过事件间在各个属性上的相异度进而确定事件间的相异度,简化了计算过程,使事件间相异度的确定更加准确。
在计算得到两个事件的相异度后,若相异度符合设定条件,则将所述第一标准化事件和所述第二标准化事件融合为同一事件;例如得到的事件i和事件j的相异度低于预设条件,则将事件i和事件j融合为一个事件,在此基础上确定融合后的各事件间的关联关系,如时序关系、空间关系、相异关系、因果关系和属性关系等,从而构建事件图谱。
例如:依据事件发生时间,地点,构建时间间的时序及空间关系,并依据规则由时序及空间关系挖掘时间间因果关系;通过事件相似度计算及阈值设定,提取事件间的相似关系。以交管知识图谱为基础,构建形如事件与驾驶人、车辆、路口、点位等交通要素间的属性关系。
基于挖掘规则和算法,可在以上构建的交通事件图谱基础上进行事件成因分析,措施推荐及事件影响预测。
例如:
1.事件溯源:如由时序及空间关系推演分析事件成因,如某某地段违法高发导致车辆缓行、交通拥堵,交通拥堵进而导致事故频发,通过层层溯源,追溯交通事件源头。
2.处置措施推荐:交通事件的相似关系表征两个交通事件发生时周围环境的相似程度,对于处置过的既有事件,将处置措施保存为模板,当新增事件与既有事件相似度高达设定阈值,可自动生成处置措施推荐,控制诱导/信号,推荐附近警员前往处理。
3可疑事件发现:快速提取出满足规则的可疑事件,如由事故/车辆/处警人三类实体及其关系,若满足规则:一定时间范围内同一民警为同一车辆处理3次及以上事故,则存在骗保嫌疑。
本发明实施例还提供一种事件图谱构建装置200,如图2所示,包括:
获取单元201,用于:
从至少一个事件源获取各初始事件;
针对任一初始事件,按照预设的事件模式,从所述初始事件中获取所述事件模式中各表征的表征值,得到所述初始事件的标准化事件;其中,所述各表征设置有对应的属性类型;
处理单元202,用于针对第一标准化事件和第二标准化事件,根据所述第一标准化事件的各表征值和所述第二标准化事件的各表征值,计算所述第一标准化事件和所述第二标准化事件在每类属性上的相异度;根据每类属性上的相异度,确定所述第一标准化事件和所述第二标准化事件的相异度;若相异度符合设定条件,则将所述第一标准化事件和所述第二标准化事件融合为同一事件;其中,所述第一标准化事件和所述第二标准化事件为标准化事件中的任意两个;
确定单元203,用于确定融合后的各事件间的关联关系,从而构建事件图谱。
本发明实施例还提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行上述任一项所述的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行上述任一项所述的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (9)

1.一种事件图谱构建方法,其特征在于,包括:
从至少一个事件源获取各初始事件;所述初始事件以结构化方式存储在所述事件源中;所述至少一个事件源包括122接处警、事件检测器、视频巡检系统、舆情平台、雾区检测系统、六合一违法库和事故库中的一项或多项;
针对任一初始事件,按照预设的事件模式,从所述初始事件中获取所述事件模式中各表征的表征值,得到所述初始事件的标准化事件;其中,所述各表征设置有对应的属性类型;所述属性类型为标称属性、布尔属性、数值属性、序数属性和时间与地理属性中的一种或多种;所述表征包括基本表征和个性表征;所述基本表征包括时间,地点,部门,事件类型,事件特征;所述个性表征根据不同种类的交通事件确定;所述交通事件的种类包括交通事故、交通违法和交通拥堵;
针对第一标准化事件和第二标准化事件,根据所述第一标准化事件的各表征值和所述第二标准化事件的各表征值,计算所述第一标准化事件和所述第二标准化事件在每类属性上的相异度;根据每类属性上的相异度,确定所述第一标准化事件和所述第二标准化事件的相异度;若相异度符合设定条件,则将所述第一标准化事件和所述第二标准化事件融合为同一事件;其中,所述第一标准化事件和所述第二标准化事件为标准化事件中的任意两个;
确定融合后的各事件间的关联关系,从而构建事件图谱;
根据每类属性上的相异度,确定所述第一标准化事件和所述第二标准化事件的相异度,包括:
Figure FDA0003828374440000011
其中,d(i,j)为事件i与事件j间的相异度;p为属性的类型数;f为任一属性类型;
Figure FDA0003828374440000012
为调整系数;
Figure FDA0003828374440000013
为事件i与事件j在f属性类型上的相异度;
若所述属性类型为标称属性或布尔属性,则当事件i与事件j的所述属性类型对应的多个表征值完全相等时对应的调整系数为0,当事件i与事件j的所述属性类型对应的多个表征值不完全相等时对应的调整系数为1;若所述属性类型为数值属性、序数属性、时间属性或地理属性,则当事件i与事件j的所述属性类型缺失时对应的调整系数为0,当事件i与事件j的所述属性类型非缺失时对应的调整系数为1;
还包括:
若从所述初始事件中未获取到任一表征的表征值,则从非结构化的描述信息中获取所述表征的表征值,从而得到所述初始事件的标准化事件;
从非结构化的描述信息中获取所述表征的表征值,包括:
通过自然语言处理技术对报警人对于警情的描述、舆情平台抓取的交通事件文本进行分析,提取所述表征的表征值;和/或,
采用地理编码技术,提取地理位置描述,构建针对地区的关键点位库,并结合路口、路段信息,提取事件发生的地理位置信息。
2.如权利要求1所述的方法,其特征在于,
所述属性为标称属性,则
Figure FDA0003828374440000021
Figure FDA0003828374440000022
其中,w为事件i或事件j中标称属性的总数;m为事件i和事件j中标称属性相同的数目;
xif为事件i的属性取值,xjf为事件j的属性取值。
3.如权利要求1所述的方法,其特征在于,
所述属性为布尔属性,则
Figure FDA0003828374440000023
Figure FDA0003828374440000031
其中,q是事件i和事件j都取1的二元属性的数目;r是在事件i中取1,在事件j中取0的二元属性的数目;s是在事件i中取0,在事件j中取1的二元属性的数目;t是事件i和事件j都取0的二元属性的数目;xif为事件i的属性取值,xjf为事件j的属性取值。
4.如权利要求1所述的方法,其特征在于,
所述属性为数值属性,则
Figure FDA0003828374440000032
Figure FDA0003828374440000033
其中,d(xif,xjf)为事件i和事件j的属性取值的相异度;xif为事件i的属性取值,xjf为事件j的属性取值。
5.如权利要求1所述的方法,其特征在于,
所述属性为序数属性、时间属性或地点属性,则
Figure FDA0003828374440000034
Figure FDA0003828374440000035
其中,maxxf为属性取值的最大值;minxf为属性取值的最小值;xif为事件i的属性取值,xjf为事件j的属性取值。
6.如权利要求1-5任一项所述的方法,其特征在于,
从所述初始事件中获取所述事件模式中各表征的表征值,得到所述初始事件的标准化事件,包括:
所述初始事件以结构化方式存储在事件源中;
若从所述初始事件中未获取到任一表征的表征值,则从非结构化的描述信息中获取所述表征的表征值,从而得到所述初始事件的标准化事件。
7.一种事件图谱构建装置,其特征在于,包括:
获取单元,用于:
从至少一个事件源获取各初始事件;所述初始事件以结构化方式存储在所述事件源中;所述至少一个事件源包括122接处警、事件检测器、视频巡检系统、舆情平台、雾区检测系统、六合一违法库和事故库中的一项或多项;
针对任一初始事件,按照预设的事件模式,从所述初始事件中获取所述事件模式中各表征的表征值,得到所述初始事件的标准化事件;其中,所述各表征设置有对应的属性类型;所述属性类型为标称属性、布尔属性、数值属性、序数属性和时间与地理属性中的一种或多种;所述表征包括基本表征和个性表征;所述基本表征包括时间,地点,部门,事件类型,事件特征;所述个性表征根据不同种类的交通事件确定;所述交通事件的种类包括交通事故、交通违法和交通拥堵;
处理单元,用于针对第一标准化事件和第二标准化事件,根据所述第一标准化事件的各表征值和所述第二标准化事件的各表征值,计算所述第一标准化事件和所述第二标准化事件在每类属性上的相异度;根据每类属性上的相异度,确定所述第一标准化事件和所述第二标准化事件的相异度;若相异度符合设定条件,则将所述第一标准化事件和所述第二标准化事件融合为同一事件;其中,所述第一标准化事件和所述第二标准化事件为标准化事件中的任意两个;
确定单元,用于确定融合后的各事件间的关联关系,从而构建事件图谱;
根据每类属性上的相异度,确定所述第一标准化事件和所述第二标准化事件的相异度,包括:
Figure FDA0003828374440000041
其中,d(i,j)为事件i与事件j间的相异度;p为属性的类型数;f为任一属性类型;
Figure FDA0003828374440000051
为调整系数;
Figure FDA0003828374440000052
为事件i与事件j在f属性类型上的相异度;
若所述属性类型为标称属性或布尔属性,则当事件i与事件j的所述属性类型对应的多个表征值完全相等时对应的调整系数为0,当事件i与事件j的所述属性类型对应的多个表征值不完全相等时对应的调整系数为1;若所述属性类型为数值属性、序数属性、时间属性或地理属性,则当事件i与事件j的所述属性类型缺失时对应的调整系数为0,当事件i与事件j的所述属性类型非缺失时对应的调整系数为1;
还包括:
若从所述初始事件中未获取到任一表征的表征值,则从非结构化的描述信息中获取所述表征的表征值,从而得到所述初始事件的标准化事件;
从非结构化的描述信息中获取所述表征的表征值,包括:
通过自然语言处理技术对报警人对于警情的描述、舆情平台抓取的交通事件文本进行分析,提取所述表征的表征值;和/或,
采用地理编码技术,提取地理位置描述,构建针对地区的关键点位库,并结合路口、路段信息,提取事件发生的地理位置信息。
8.一种计算设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行权利要求1至6任一项所述的方法。
CN202110073168.5A 2021-01-20 2021-01-20 一种事件图谱构建方法、装置及计算设备 Active CN112749239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110073168.5A CN112749239B (zh) 2021-01-20 2021-01-20 一种事件图谱构建方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110073168.5A CN112749239B (zh) 2021-01-20 2021-01-20 一种事件图谱构建方法、装置及计算设备

Publications (2)

Publication Number Publication Date
CN112749239A CN112749239A (zh) 2021-05-04
CN112749239B true CN112749239B (zh) 2022-10-21

Family

ID=75652572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110073168.5A Active CN112749239B (zh) 2021-01-20 2021-01-20 一种事件图谱构建方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN112749239B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115050187B (zh) * 2022-08-12 2022-11-01 杭州城市大脑有限公司 一种基于舆情知识图谱的数字城市交通治理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097125A1 (en) * 2011-10-12 2013-04-18 Vmware, Inc. Automated analysis of unstructured data
CN103886507B (zh) * 2013-12-31 2017-07-14 北京交通大学 应急预案数字化生成方法
CN108763333B (zh) * 2018-05-11 2022-05-17 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
US11392733B2 (en) * 2018-08-03 2022-07-19 EMC IP Holding Company LLC Multi-dimensional event model generation
CN111753094B (zh) * 2019-03-27 2024-02-02 杭州海康威视数字技术股份有限公司 事件知识图谱的构建方法、装置及事件确定方法、装置
US11379733B2 (en) * 2019-07-10 2022-07-05 International Business Machines Corporation Detecting and predicting object events from images
CN110443320A (zh) * 2019-08-13 2019-11-12 北京明略软件系统有限公司 事件相似度的确定方法及装置
CN111475612A (zh) * 2020-03-02 2020-07-31 深圳壹账通智能科技有限公司 预警事件图谱的构建方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112749239A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
Loo et al. Spatial analysis methods of road traffic collisions
CN110428091B (zh) 基于数据分析的风险识别方法及相关设备
US10575162B1 (en) Detecting and validating planned event information
Zhang et al. Identifying secondary crashes using text mining techniques
CN112447041B (zh) 识别车辆的营运行为的方法、装置及计算设备
Weng et al. Cluster-based lognormal distribution model for accident duration
Noh et al. Analyzing vehicle–pedestrian interactions: Combining data cube structure and predictive collision risk estimation model
Xu et al. Traffic event detection using twitter data based on association rules
CN112749239B (zh) 一种事件图谱构建方法、装置及计算设备
Zhang et al. Secondary crash identification using crowdsourced Waze user reports
Wang et al. The level of delay caused by crashes (LDC) in metropolitan and non-metropolitan areas: a comparative analysis of improved Random Forests and LightGBM
Zhang et al. Twitter-aided decision making: a review of recent developments
Luan et al. Detecting and interpreting non‐recurrent congestion from traffic and social media data
Feng et al. Integrated imputation of activity-travel diaries incorporating the measurement of uncertainty
Quinn et al. An exploration of the progress of open crime data: how do ongoing limitations with the Police. uk website restrict a comprehensive understanding of recorded crime?
Qian Real-time incident detection using social media data.
Rodriguez et al. JamVis: exploration and visualization of traffic jams
Yu et al. Smoothing regression and impact measures for accidents of traffic flows
Neuhold et al. Driver's dashboard–using social media data as additional information for motorway operators
Steur Twitter as a spatio-temporal source for incident management
CN110415512A (zh) 车辆信息管理方法、装置及存储介质
CN110415511A (zh) 车辆信息管理方法、装置及存储介质
Hagen et al. Modeling of parking violations using zero-inflated negative binomial regression: A case study for Berlin
CN114003683A (zh) 基于自然语言处理与关联规则的警情分析方法
Outay et al. Random forest models for motorcycle accident prediction using naturalistic driving based big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant