CN116484859A - 警情空间位置定位的方法及相关产品 - Google Patents
警情空间位置定位的方法及相关产品 Download PDFInfo
- Publication number
- CN116484859A CN116484859A CN202310431492.9A CN202310431492A CN116484859A CN 116484859 A CN116484859 A CN 116484859A CN 202310431492 A CN202310431492 A CN 202310431492A CN 116484859 A CN116484859 A CN 116484859A
- Authority
- CN
- China
- Prior art keywords
- address
- level
- text
- alert
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 34
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000002372 labelling Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 abstract description 4
- 230000002776 aggregation Effects 0.000 abstract description 4
- 238000011161 development Methods 0.000 abstract description 4
- 230000018109 developmental process Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 125000003118 aryl group Chemical group 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种警情空间位置定位的方法以及相关产品。其中,该方法包括:获取待处理的警情信息,其中所述警情信息包含警情发生地地址;对所述警情信息进行预处理,以得到预处理后的地址文本;利用预训练的多层级地址分词模型对所述地址文本进行处理;以及根据所述多层级地址分词模型的处理结果确定警情空间位置。通过本发明的技术方案,能够从复杂的警情信息中挖掘出警情发生地精确空间位置,以便基于精确控制位置进行时空轨迹分析和时空聚合分析来辅助宏观决策,从而有助于实现对城市的网格化精细管理,为城市的安全以及健康发展保驾护航。
Description
技术领域
本发明涉及信息处理技术领域,具体而言,涉及一种警情空间位置定位的方法,和执行前述方法的电子设备和计算机可读存储介质。
背景技术
随着城市的快速扩张以及城市人口的快速增长,给人类的生活带来了很多困惑,随之引发的交通拥挤、环境污染、治安混乱等一系列城市问题,影响了城市居民的生活质量,也使公共安全面临严峻挑战。因此,对于掌握社会治安形势的需求日益强烈,以及对各类警情的分析与研判工作成为辅助指挥决策的重要手段。
然而,从现阶段警情数据分析来看,30%左右的警情数据没有警情发生地坐标或坐标精度不高,导致在使用警情数据进行时空轨迹分析和时空聚合分析来辅助宏观决策时,存在数据缺失或数据不准确的情况。由此,影响时空分析与研判结果的正确性,无法真正实现对城市的网格化精细管理。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明旨在解决现有的警情数据存在警情发生地地址不准确的问题。
为了解决上述技术问题,本发明的第一方面提出了一种警情空间位置定位的方法,包括:获取待处理的警情信息,其中所述警情信息包含警情发生地地址;对所述警情信息进行预处理,以得到预处理后的地址文本;利用预训练的多层级地址分词模型对所述地址文本进行处理;以及根据所述多层级地址分词模型的处理结果确定警情空间位置。
在一个实施例中,对所述警情信息进行预处理包括:从所述警情信息中解析出包含所述警情发生地地址的初始地址文本;以及依照预定义数据格式对所述初始地址文本进行调整,以得到所述预处理后的地址文本。
在一个实施例中,利用预训练的多层级地址分词模型对所述地址文本进行处理包括:对所述地址文本中警情发生地地址的每个单词进行BIO标注;根据每个单词的BIO标注提取用于描述所述地址文本类型的地址主体。
在一个实施例中,对所述地址文本中警情发生地地址中的每个单词进行BIO标注包括:将所述地址文本中警情发生地地址的每个单词转换成对应的词向量;基于所述多层级地址分词模型对输入的词向量进行标签预测。
在一个实施例中,其中所述多层级地址分词模型包括双向长短期记忆神经网络模型和条件随机场模型,基于所述多层级地址分词模型对输入的词向量进行标签预测具体包括:基于所述双向长短期记忆神经网络模型对输入的词向量进行标签预测,以得到预测结果;基于所述条件随机场模型对所述预测结果进行过滤,以实现BIO标注。
在一个实施例中,根据所述多层级地址分词模型的处理结果确定警情空间位置包括:根据提取到的地址主体确定候选地址集合;将待关联地址与所述候选地址集合中的地址进行精准匹配;若所述待关联地址与所述候选地址集合中的地址能够精准匹配,则将匹配到的地址的空间坐标赋予所述待关联地址,并确定其为所述警情空间位置;若所述待关联地址无法与所述候选地址集合中的地址精准匹配,则将所述候选地址集合中与所述待关联地址相似度最高的地址的空间坐标赋予所述待关联地址,并确定其为所述警情空间位置。
在一个实施例中,根据提取到的地址主体确定候选地址集合包括:对包含各层级地址语义的标准地址库按照地址层级和各层级语义建立倒排索引;依据所述地址文本的行政区域代码对所述标准地址库进行初步筛选;依据初筛后的标准地址库,对提取到的地址主体进行分层级倒排索引直至完成所有层级匹配,以得到所述候选地址集合。
在一个实施例中,所述方法还包括:在对提取到的地址主体进行分层级倒排索引过程中,响应于提取到的地址主体包括第一类主体,依据第一类主体对初筛的标准地址库再次执行空间筛选。
在一个实施例中,所述方法还包括:响应于提取到的地址主体包括第二类主体,根据所述第二类主体的数据以及空间拓扑分析技术确定所述警情空间位置。
在一个实施例中,所述多层级地址分词模型包括18层级地址分词模型,所述第二类主体包括所述18层级地址分词模型中第18分级对应的主体。
本发明的第二方面,提出了一种电子设备,包括:处理器;以及存储器,其存储有警情空间位置定位的计算机指令,当所述计算机指令由所述处理器运行时,使得所述电子设备执行根据本发明第一方面所述的方法。
本发明的第三方面,提出了一种计算机可读存储介质,其特征在于,包括警情空间位置定位的程序指令,当所述程序指令由处理器执行时,使得实现根据本发明的第一方面所述的方法。
通过上述技术方案,能够从复杂的警情信息中挖掘出警情发生地精确空间位置,以便基于精确控制位置进行时空轨迹分析和时空聚合分析来辅助宏观决策,从而有助于实现对城市的网格化精细管理,为城市的安全以及健康发展保驾护航。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明本发明示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1示出了根据本发明的一个实施例的警情空间位置定位的方法的流程图;
图2示出了根据本发明的另一个实施例的警情空间位置定位的方法的示意图;
图3示出了根据本发明的实施例的基于多层级地址分词模型的分词处理的示意图;
图4示出了根据本发明的实施例的18级地址分词模型的地址分级示意图;以及
图5示出了根据本发明的实施例的第18级地址描述非空处理流程图。
具体实施方式
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。
发明人发现,现有技术无法准确定位警情数据中的警情发生地坐标,主要难点在于:1)由于110、120等接警场景主要是由报警人口述,接警员记录的方式进行。因此,存在地址描述不完整或与标准地址描述不一致,地址存在错别字或多音字等问题;2)大量警情数据不是发生在小区、楼栋或户室内,而是发生在路边、交叉路口、道路东边/西边等,这些带有范围和方位的信息会存在于地址描述中,导致地址关联的难度变大。
目前,相关技术主要是通过对两个地址短文本进行相似度计算来评估两个地址是否为同一个地址。但由于警情发生地址受主观因素影响以及地址描述往往与公安标准地址描述差别很大,使得相关技术所定位的地址误差较大,从而无法满足实际需求。
对此,发明人经过研究发现可以利用预训练的多层级地址分词模型进行地址挖掘,从而能够适配复杂中文地址描述场景。特别是解决抽象地址描述的地址警情匹配,从而挖掘出更多的警情发生地精确空间位置,为警务指挥决策赋能。
以下结合图1~图5对本发明的方案进行描述。
图1示出了根据本发明的一个实施例的警情空间位置定位的方法100的流程图。
如图1所示,在步骤S101处,可以获取待处理的警情信息。其中,该警情信息包含警情发生地地址。具体地,该警情信息可以是用户手动记录或上传的信息,还可以是录制到的音频信息,经过语音识别技术转换成的文本信息等。
接着,在步骤S102处,可以对警情信息进行预处理,以得到预处理后的地址文本。例如,可以从警情信息中解析出包含警情发生地地址的初始地址文本。接着,可以依照预定义数据格式对初始地址文本进行调整,以得到预处理后的地址文本。例如,初始地址文本中可能存在全角字符和半角字符、数学符号、标点符号等一些特殊字符。预处理过程具体可以涉及将这些字符调整为统一字符格式(例如全部转换成半角字符等),并清理特殊字符,以及对缺失的省、县、乡镇等地址进行补全等处理。
在完成预处理后,在步骤S103处,可以利用预训练的多层级地址分词模型对地址文本进行处理。具体地,可以对地址文本中警情发生地地址的每个单词进行BIO标注,然后根据每个单词的BIO标注提取用于描述地址文本类型的地址主体。
在一些实施例中,可以将地址文本中警情发生地地址的每个单词转换成对应的词向量,以及基于所述多层级地址分词模型对输入的词向量进行标签预测,以实现对词向量的BIO标注。
在实际应用中,多层级地址分词模型可以包括双向长短期记忆神经网络模型和条件随机场模型。由此,可以基于双向长短期记忆神经网络模型对输入的词向量进行标签预测以得到预测结果。基于条件随机场模型对预测结果进行过滤,以实现BIO标注。
最后,在步骤S104处,可以根据多层级地址分词模型的处理结果确定警情空间位置。具体地,根据提取到的地址主体确定候选地址集合。例如,可以对包含各层级地址语义的标准地址库按照地址层级和各层级语义建立倒排索引。然后,依据地址文本的行政区域代码对标准地址库进行初步筛选。接着,依据初筛后的标准地址库对提取到的地址主体进行分层级倒排索引直至完成所有层级匹配,以得到候选地址集合。
在获取到候选地址集合之后,可以将待关联地址与候选地址集合中的地址进行精准匹配。若待关联地址与候选地址集合中的地址能够精准匹配,则将匹配到的地址的空间坐标赋予待关联地址,并确定其为警情空间位置。若待关联地址无法与候选地址集合中的地址精准匹配,则将候选地址集合中与待关联地址相似度最高的地址的空间坐标赋予待关联地址,并确定其为警情空间位置。
进一步地,在一些实施例中,提取到的地址主体包括第一类主体时(例如为道路+门牌号、兴趣点、楼栋、单元、楼层、房间号等),可以依据第一类主体对初筛的标准地址库再次执行空间筛选。如果主体为道路+门牌号,则根据道路名称进行匹配,同时根据道路的等级,按照指定缓冲半径形成缓冲区,对地址库数据根据缓冲范围进行空间筛选。如果主体为兴趣点,则根据兴趣点名称进行筛选。如果主体后面还有更高级别的地址类型,如楼栋、单元、楼层和房间号,可以根据以上规则逐级筛选,形成最终的候选地址集合。
进一步地,在一些实施例中,若提取到的地址主体包括第二类主体(例如警情发生地中包含交汇处、交叉口、路口、桥上等限定词),根据第二类主体的数据以及空间拓扑分析技术确定所述警情空间位置。具体地,对于第18级地址描述为空的情况,匹配比较精确,但对于警情发生地中包含交汇处、交叉口、路口、桥上等限定词时,匹配的误差会比较大,难以获取到地址描述对应的准确空间坐标。此时可以利用道路、桥梁数据,结合GIS(地理信息系统)空间拓扑分析方法来计算相对准确的空间坐标。
可见,本发明的方案能够从复杂的警情信息中挖掘出警情发生地精确空间位置,以便基于精确控制位置进行时空轨迹分析和时空聚合分析来辅助宏观决策,从而有助于实现对城市的网格化精细管理,为城市的安全以及健康发展保驾护航。
图2示出了根据本发明的另一个实施例的警情空间位置定位的方法200的流程图。需要说明的是,图200可以理解为是图1中方法100的一种具体实施方式,前文结合图1的描述同样也适用于下文。
如图2所示,在步骤S201处,可以对警情数据进行预处理。警情数据中的警情发生地通常是由报警人口述,接警员打字记录的方式形成。地址存在全角字符和半角字符,一些特殊的字符(如:数学符号、标点符号等)。预处理的过程主要涉及将字符格式统一,全部转换为半角字符;清理特殊字符(如:←、→、√、×、=、&、$、¥、%),对缺失省、市、县(区)、乡镇(街道)的地址进行补全等。
在步骤S202处,可以进行地址主体识别。
在本实施例中,所涉及到的多层级地址分词模型可以包括双向长短期记忆神经网络(Bi-directional Long Short-Term Memory,简称Bi-LSTM)。Bi-LSTM模型是循环神经网络(Recurrent Neural Network,RNN)中的一种改进算法,它不仅解决了普通RNN无法处理长距离的依赖问题以及梯度爆炸和梯度消失的问题,同时还考虑到了文本的上下文信息,有助于提升序列标注的准确度。
本实施例中,采用Bi-LSTM模型结合BIO标注方法对预处理数据进行分词处理。BIO标注方法中B为begin的首字母,B-X表示该字为类型X的开头,I为inside的首字母,I-X表示该字为类型X的中间位置,O为outside的首字母,O表示该字不属于任何类型。
具体地,对警情发生地地址的分词过程是基于初始地址语义样本库对地址数据中的每个单字进行BIO标注,再根据标注按照分类提取文本。首先通过word2vec将地址文本的每个单词转换成对应的词向量,再通过Bi-LSTM模型对每个词打上对应的预测标签,并输出预测标签的概率,通过模型的反复迭代训练,计算出不同预测标签组合的概率。
进一步地,为了保证最终预测结果的准确度,在Bi-LSTM模型后增加了CRF层,在CRF层加入约束条件来进一步对预测结果进行过滤。约束条件如下:文本的开头标注必须为B-X或O;O后面必须出现B-X;B-3后面不能出现I-9等,必须保证每个类型都以B开始,I结束。
其中,标注中的类型按照图4所示的18级地址模型结构进行对应。在图4中,18级地址分词模型旨在尽可能完整的把人类在生产生活中对于空间位置的描述语言转换成机器语言,并实现准确定位,通过地理实体、地址元素、地址三个层次来表达。该地址分词模型呈网状结构,能够兼顾其他的地址模型,派生出多个不同的树状结构,其内在蕴含了专名规则、通名规则、构词规则、编号规则、嵌套规则、变形规则等,可以精确描述现实世界的地址实体。根据18级地址模型建立标注规则,如图3所示,例如吴江区香漫雅园文本中吴江区对应地址模型中的3,香漫雅园对应地址模型中的13,其文本标注为吴(B-3)、江(I-3)、区(I-3)、香(B-13)、漫(I-13)、雅(I-13)、园(I-13)。
地址主体描述了地址文本的类型、如图4所示,在18级地址模型中的地主主体对应第9级到第13级。第9级表示道路、第10级表示支路、第11级表示门牌、第12级表示支门牌号、第13级表示POI(兴趣点)。主体在地址中的表达可以为9+11(道路+门牌号)、13(兴趣点)。如果地址中没有识别到以上主体,则会向前从第8级到第1级倒序搜索,直到找到一个主体(此处需要说明的是,从第1级到第8级中找到的主体,由于其表述的范围较大,对于地址描述意义不大,通常使用此规则判断地址是否为无效地址)。通过地址主体对应级别,即可确定地址表述的具体类型。例如:江苏省苏州市吴江区兴吴路1105号,其主体为兴吴路1105号;江苏省苏州市吴江区香漫雅园,其主体为香漫雅园;江苏省苏州市吴江区,其主体为吴江区,但由于吴江区表达的地址范围较大,因此判定江苏省苏州市吴江区为无效地址。
在步骤S203处,可以利用标准地址库进行匹配分析,若匹配成功,执行步骤S204。其中,标准地址库中存在海量的各层级地址语义,为了提高匹配效率,标准地址库按照地址层级以及各层级语义建立倒排索引。在进行主体(也即地址主体)词匹配时,采取的匹配策略为分级索引。首先,根据当前地址的行政区划代码,对标准地址库数据进行初步筛选;再基于待匹配地址的分词结果,分层级索引,直到分词所有层级匹配完,获取候选地址集合。
进一步地,可以基于编辑距离的文本相似度算法从候选地址集合中匹配相似度最高的地址,从而实现警情发生地空间化。具体地,首先将待关联地址与候选地址集合中的地址进行精确匹配,如果能够完全匹配,则返回匹配成果的候选地址与之关联,并将候选地址的空间坐标赋予待关联地址。由于主观因素导致待关联地址的描述不一定能与候选地址完全匹配,因此还需要采用相似度算法进行匹配。
本实施例中,可以采用编辑距离算法计算待关联地址与候选地址的莱文斯坦比,并将最大值对应候选地址的空间坐标赋予待关联地址,从而完成待关联地址的空间化。其中,莱文斯坦比计算公式为:
其中的m为固定字符串s1,s2匹配的字符数,t为换位的数量。
两个分别来自s1和s2的字符,如果相距不超过时,即认为这两个字符串是匹配的;如果这些相匹配的字符则决定了换位的数量t,即不同顺序的匹配字符数量的一半为换位的数量t。
举例说明:香漫雅园与漫香雅园的莱文斯坦比通过公式计算为其置信度为0.9167,则认为这两个地址表达同一个地址。
通过计算待关联地址与候选地址集合中地址的相似度,将相似度最高的候选地址与待关联地址进行关联,并将其空间坐标赋予待关联地址,从而实现将警情发生地空间化。
若在步骤S205处,确定地址主体为道路+交叉口/路口时,执行步骤S206。在步骤S206中,可以通过道路名称匹配获取道路空间数据,然后通过空间相交分析计算两条道路交叉点,最后使用交叉点坐标作为警情发生地坐标位置(也即警情空间位置)。若在步骤S207处,确定地址主体为道路+路边,执行步骤S208。在步骤S208中,可以通过空间缓冲分析将道路中心线根据路宽进行缓冲,然后与兴趣面(简称AOI)相交,最后取相交线中点为警情空间位置。
具体地,如果主体为9+11(道路+门牌号),则根据道路名称进行匹配,同时根据道路的等级,按照指定缓冲半径形成缓冲区,对地址库数据根据缓冲范围进行空间筛选;如果主体为13(兴趣点),则根据兴趣点名称进行筛选;如果主体后面还有更高级别的地址类型,如14(楼栋)、15(单元)、16(楼层)和17(房间号),根据以上规则逐级筛选,形成最终的候选地址集合。
对于根据道路级别构建缓冲区的缓冲半径,下表1示出了的检索距离是基于大量的数据验证得出的经验值,也可以根据不同地区的道路特点进行调整。
道路等级编码 | 检索距离(米) | 道路等级描述 |
41000 | 2000 | 高速公路 |
42000 | 1500 | 国道 |
51000 | 1000 | 省道 |
52000 | 500 | 县道 |
53000 | 300 | 乡公路 |
54000 | 200 | 县乡村内部路 |
43000 | 300 | 主要大街、城市快速道 |
44000 | 800 | 主要道路 |
45000 | 400 | 次要道路 |
47000 | 300 | 普通道路 |
49 | 200 | 非导航道路 |
表1
进一步地,但对于警情发生地中包含交汇处、交叉口、路口等描述信息,18级地址分词模型充分考虑到实际应用场景中的地址描述情况,将交汇处、交叉口、路口等标注为第18级。例如:八坼镇524国道路政十字路口,分词结果为八坼镇(第5级)、524国道(第9级)、路政(第9级)、十字路口(第18级)。
对于第18级地址描述为空的情况,匹配比较精确,但对于警情发生地中包含交汇处、交叉口、路口、桥上等限定词时,匹配的误差会比较大,难以获取到地址描述对应的准确空间坐标。此时可以利用道路、桥梁数据,结合GIS(地理信息系统)空间拓扑分析方法来计算相对准确的空间坐标。如图5所示,当为道路+交叉口/路口时,执行步骤S501。在步骤S501中,可以通过道路名称匹配获取道路空间数据,然后通过空间相交分析计算两条道路交叉点,最后使用交叉点坐标作为警情发生地坐标位置(也即警情空间位置)。若为道路+路边,执行步骤S502。在步骤S502中,可以通过空间缓冲分析将道路中心线根据路宽进行缓冲,然后与兴趣面(简称AOI)相交,最后取相交线中点为警情空间位置。若为兴趣点(简称POI)+桥上,执行步骤S503。在步骤S503中,可以结合桥梁数据通过POI名称匹配,根据类型判断是否为桥梁。然后获取线状桥梁空间数据以及线状桥梁中心点坐标。最后,将线状桥梁中心点坐标作为警情空间位置。这里仅包含了第18级描述为交叉口、路口、路边和桥上的场景。实际应用中第18级描述更加多样,例如还会出现十字路口、马路上、边上等描述词,都可以按照上述逻辑进行处理。
经试验表明,针对500万接处警数据的空间化,警情发生地空间化由原来的70%左右,提升到90%左右,提升效果明显,为警情时空研判打下良好的基础。
综上所述,本发明的方案能够较好地解决了警情数据中警情发生地由于某些主观原因导致地址描述与标准地址描述不一致,导致地址关联无法关联的问题。同时,也解决了因警情发生地中存在抽象的位置描述,导致即使与标准地址关联,返回的坐标精度也达不到地址描述的位置精度的问题。该方法除了采用深度学习模型,还利用其他辅助数据和方法实现数据空间化,为公安场景中其他业务数据的地址关联提供了新的思路和解决方案。
此外,对比通用的地址关联技术,本发明的方案在基于大数据深度学习的地址语义训练基础上,结合相关空间数据和空间地理信息(简称GIS)分析技术,可以对抽象的地理位置描述赋予更加精确的空间坐标。其中空间位置越精确,其为警情数据的分析研判提供的辅助研判能力越强,符合城市精细化管理工作的思路,为城市的安全以及健康发展保驾护航。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种警情空间位置定位的方法,其特征在于,包括:
获取待处理的警情信息,其中所述警情信息包含警情发生地地址;
对所述警情信息进行预处理,以得到预处理后的地址文本;
利用预训练的多层级地址分词模型对所述地址文本进行处理;以及
根据所述多层级地址分词模型的处理结果确定警情空间位置。
2.根据权利要求1所述的方法,其特征在于,对所述警情信息进行预处理包括:
从所述警情信息中解析出包含所述警情发生地地址的初始地址文本;以及
依照预定义数据格式对所述初始地址文本进行调整,以得到所述预处理后的地址文本。
3.根据权利要求1所述的方法,其特征在于,利用预训练的多层级地址分词模型对所述地址文本进行处理包括:
对所述地址文本中警情发生地地址的每个单词进行BIO标注;
根据每个单词的BIO标注提取用于描述所述地址文本类型的地址主体。
4.根据权利要求3所述的方法,其特征在于,对所述地址文本中警情发生地地址中的每个单词进行BIO标注包括:
将所述地址文本中警情发生地地址的每个单词转换成对应的词向量;
基于所述多层级地址分词模型对输入的词向量进行标签预测。
5.根据权利要求4所述的方法,其特征在于,其中所述多层级地址分词模型包括双向长短期记忆神经网络模型和条件随机场模型,基于所述多层级地址分词模型对输入的词向量进行标签预测具体包括:
基于所述双向长短期记忆神经网络模型对输入的词向量进行标签预测,以得到预测结果;
基于所述条件随机场模型对所述预测结果进行过滤,以实现BIO标注。
6.根据权利要求3所述的方法,其特征在于,根据所述多层级地址分词模型的处理结果确定警情空间位置包括:
根据提取到的地址主体确定候选地址集合;
将待关联地址与所述候选地址集合中的地址进行精准匹配;
若所述待关联地址与所述候选地址集合中的地址能够精准匹配,则将匹配到的地址的空间坐标赋予所述待关联地址,并确定其为所述警情空间位置;
若所述待关联地址无法与所述候选地址集合中的地址精准匹配,则将所述候选地址集合中与所述待关联地址相似度最高的地址的空间坐标赋予所述待关联地址,并确定其为所述警情空间位置。
7.根据权利要求6所述的方法,其特征在于,根据提取到的地址主体确定候选地址集合包括:
对包含各层级地址语义的标准地址库按照地址层级和各层级语义建立倒排索引;
依据所述地址文本的行政区域代码对所述标准地址库进行初步筛选;
依据初筛后的标准地址库,对提取到的地址主体进行分层级倒排索引直至完成所有层级匹配,以得到所述候选地址集合。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
响应于提取到的地址主体包括第二类主体,根据所述第二类主体的数据以及空间拓扑分析技术确定所述警情空间位置。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其存储有警情空间位置定位的计算机指令,当所述计算机指令由所述处理器运行时,使得所述电子设备执行根据权利要求1-8的任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括警情空间位置定位的程序指令,当所述程序指令由处理器执行时,使得实现根据权利要求1-8中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310431492.9A CN116484859A (zh) | 2023-04-21 | 2023-04-21 | 警情空间位置定位的方法及相关产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310431492.9A CN116484859A (zh) | 2023-04-21 | 2023-04-21 | 警情空间位置定位的方法及相关产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116484859A true CN116484859A (zh) | 2023-07-25 |
Family
ID=87224560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310431492.9A Pending CN116484859A (zh) | 2023-04-21 | 2023-04-21 | 警情空间位置定位的方法及相关产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484859A (zh) |
-
2023
- 2023-04-21 CN CN202310431492.9A patent/CN116484859A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
WO2020228706A1 (zh) | 基于围栏地址的坐标数据处理方法、装置和计算机设备 | |
CN112329467B (zh) | 地址识别方法、装置、电子设备以及存储介质 | |
CN100573506C (zh) | 一种自然语言表达动态交通信息的时空融合方法 | |
CN112527938A (zh) | 基于自然语言理解的中文poi匹配方法 | |
CN111160471B (zh) | 一种兴趣点数据处理方法、装置、电子设备和存储介质 | |
CN106909611B (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN107145577A (zh) | 地址标准化方法、装置、存储介质及计算机 | |
CN107368471B (zh) | 一种网页文本中地名地址的提取方法 | |
CN111625732B (zh) | 地址匹配方法及装置 | |
CN108388559A (zh) | 地理空间应用下的命名实体识别方法及系统、计算机程序 | |
US20210239486A1 (en) | Method and apparatus for predicting destination, electronic device and storage medium | |
CN112527915B (zh) | 线性文化遗产知识图谱构建方法、系统、计算设备和介质 | |
CN112347222A (zh) | 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
CN112527933A (zh) | 一种基于空间位置和文本训练的中文地址关联方法 | |
CN108733810A (zh) | 一种地址数据匹配方法及装置 | |
CN114780680A (zh) | 基于地名地址数据库的检索与补全方法及系统 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN113392147B (zh) | 一种vr场景知识图谱表示及动态更新方法 | |
CN116955541B (zh) | 融合地理要素语义分割与相似度的地址匹配方法和系统 | |
CN113886512A (zh) | 地址要素解析方法、装置和电子设备 | |
CN114091454A (zh) | 一种互联网文本中地名信息提取及空间定位方法 | |
CN114201480A (zh) | 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 | |
Zhou et al. | Building use and mixed-use classification with a transformer-based network fusing satellite images and geospatial textual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |