CN113536781A - 地址识别方法及装置、可读存储介质、终端 - Google Patents
地址识别方法及装置、可读存储介质、终端 Download PDFInfo
- Publication number
- CN113536781A CN113536781A CN202110745062.5A CN202110745062A CN113536781A CN 113536781 A CN113536781 A CN 113536781A CN 202110745062 A CN202110745062 A CN 202110745062A CN 113536781 A CN113536781 A CN 113536781A
- Authority
- CN
- China
- Prior art keywords
- address information
- address
- standard
- information
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000003550 marker Substances 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000011049 filling Methods 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 description 10
- 239000010813 municipal solid waste Substances 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000002265 prevention Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000004659 sterilization and disinfection Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000422846 Sequoiadendron giganteum Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computer Security & Cryptography (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种地址识别方法及装置、可读存储介质、终端,所述方法包括:对待识别地址信息进行提取,以得到标准地址信息,其中,所述标准地址信息包括采用标准地址分级逐级提取的地址字段;在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段;如果在所述字段中识别到辅助地址信息,则将所述标准地址信息以及所述辅助地址信息进行组合;其中,所述辅助地址信息选自以下一项或多项:方位词、距离、标志物信息。本发明可以在依赖地图信息并不能选择或识别到准确地址时,提取到更多的有效地址信息,有利于更加准确、迅速地进行地址识别。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种地址识别方法及装置、可读存储介质、终端。
背景技术
当前全球疫情趋于常态化,本土疫情管理需要能够应对各种疫情突发事件同时也需要面对日常的疫情防控任务及排摸巡查工作。通过信息化手段建立,基于移动端业务为载体可以快速发现并上报疫情事件信息,形成发现、上报、处置的业务闭环体系。在接受日常消毒、排摸等防控任务,基于实时的任务下发机制现场工作人员可实时查看任务进度、上报任务阶段信息、发现异常隐患等情况。
基于大数据,可以对突发疫情事件发现上报和日常巡查任务的位置描述进行协助。其中,“大数据”可以是指以多元形式,许多来源搜集而来的庞大数据组,往往具有实时性。大数据或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点:大量、高速、多样、价值密度、真实性。
然而针对突发疫情事件发现上报和日常巡查任务的位置描述,往往存在地址信息描述不准确、地址表述方式非标准化等问题,无法帮助管理者完成位置信息的迅速、准确判断,存在误导、影响指挥、增加二次沟通成本等隐患。
亟需一种地址识别方法,能够针对依赖地图信息并不能选择或识别到准确地址的情况,更加准确、迅速地进行地址识别。
发明内容
本发明解决的技术问题是提供一种地址识别方法及装置、可读存储介质、终端,可以在依赖地图信息并不能选择或识别到准确地址时,提取到更多的有效地址信息,有利于更加准确、迅速地进行地址识别。
为解决上述技术问题,本发明实施例提供一种地址识别方法,其特征在于,包括:对待识别地址信息进行提取,以得到标准地址信息,其中,所述标准地址信息包括采用标准地址分级逐级提取的地址字段;在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段;如果在所述字段中识别到辅助地址信息,则将所述标准地址信息以及所述辅助地址信息进行组合;其中,所述辅助地址信息选自以下一项或多项:方位词、距离、标志物信息。
可选的,选择位于所述标准地址信息之后且相邻的字段包括:选择位于所述标准地址信息之后且相邻的字段,直至选择的字段长度达到预设长度,或者选择的字段到达句尾或段尾。
可选的,在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段包括:在所述待识别地址信息中,选择位于非空的最低层级的标准地址信息之后且相邻的字段。
可选的,在对待识别地址信息进行提取之前,所述的地址识别方法还包括:获取原始地址信息;对所述原始地址信息进行去噪处理,以得到所述待识别地址信息。
可选的,对所述原始地址信息进行去噪处理选自以下一项或多项:去除除了数字和各国语言文字之外的其他符号、将英文字符统一为小写英文字符、去除语气词、去除重复词语、去除连接词、去除形容词、去除口头禅。
可选的,所述的地址识别方法还包括:根据所述标准地址分级,判断所述标准地址信息的格式是否完整;如果格式不完整,则填充所述标准地址信息中缺失的地址信息。
可选的,所述的地址识别方法还包括:将组合后的标准地址信息以及辅助地址信息标识在预设坐标系中并向用户显示。
可选的,所述的地址识别方法还包括:基于多种坐标系的坐标格式,对组合后的标准地址信息以及辅助地址信息进行转换并存储。
为解决上述技术问题,本发明实施例提供一种地址识别装置,包括:提取模块,用于对待识别地址信息进行提取,以得到标准地址信息,其中,所述标准地址信息包括采用标准地址分级逐级提取的地址字段;选择模块,用于在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段,直至选择的字段长度达到预设长度,或者选择的字段到达句尾或段尾;组合模块,用于当在所述预设长度字段中识别到辅助地址信息时,将所述标准地址信息以及所述辅助地址信息进行组合;其中,所述辅助地址信息选自以下一项或多项:方位词、距离、标识物信息。
为解决上述技术问题,本发明实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述地址识别方法的步骤。
为解决上述技术问题,本发明实施例提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述地址识别方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
在本发明实施例中,通过先提取标准地址信息,然后在位于所述标准地址信息之后且相邻的字段中,识别辅助地址信息,且将所述标准地址信息以及所述辅助地址信息进行组合,可以得到完整地址信息,由于辅助地址信息可以选自方位词、距离、标志物信息中的一项或多项,采用本发明实施例的方案,可以在依赖地图信息并不能选择或识别到准确地址时,提取到更多的有效地址信息,有利于更加准确、迅速地进行地址识别。
进一步,选择位于所述标准地址信息之后且相邻的字段,直至选择的字段长度达到预设长度,或者选择的字段到达句尾或段尾,从而可以提高选择字段的有效性,既可以避免由于选择过长长度导致无效信息过多,又可以避免由于选择过短长度导致提取信息不足,进一步提高地址识别的准确性。
进一步,在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段包括:在所述待识别地址信息中,选择位于非空的最低层级的标准地址信息之后且相邻的字段,由于方位词、距离、标志物信息往往是跟在最低层级的标准地址信息之后出现的,通过设置选择位于非空的最低层级的标准地址信息之后且相邻的字段,可以避免受到位于高层级的标准地址信息之后的无效地址信息的干扰,进一步提高地址识别的准确性。
进一步,本申请实施例还包括对所述原始地址信息进行去噪处理,以得到所述待识别地址信息,从而可以避免受到无效信息的干扰,进一步提高地址识别的准确性。
进一步,根据所述标准地址分级,判断所述标准地址信息的格式是否完整;如果格式不完整,则填充所述标准地址信息中缺失的地址信息,从而可以在地址信息不完整的情况下,进一步提高地址识别的准确性。
进一步,将组合后的标准地址信息以及辅助地址信息标识在预设坐标系中并向用户显示,可以使得用户直观地获取该地点,有助于提高判断的效率,提高用户体验度。
进一步,基于多种坐标系的坐标格式,对组合后的标准地址信息以及辅助地址信息进行转换并存储,从而可以使得用户根据使用习惯选择适当的坐标系,进一步提高用户体验度。
附图说明
图1是本发明实施例中一种地址识别方法的流程图;
图2是本发明实施例中另一种地址识别方法的部分流程图;
图3是本发明实施例中一种地址识别装置的结构示意图。
具体实施方式
在现有的地址识别技术中,往往存在地址信息描述不准确、地址表述方式非标准化等问题,无法帮助管理者完成位置信息的迅速、准确判断,存在误导、影响指挥、增加二次沟通成本等隐患。
本发明的发明人经过研究发现,在现有技术中,面对日常消毒、排摸等防控任务,选址往往并非地图中已经存有的标准地址,而是因地制宜、灵活选择的场所,如“某小区垃圾房”、“某建筑东30米处的空地”等,此时仅仅依赖地图识别此类地址,则识别准确性不足,若耗费时间核查,又容易导致任务延误。
需要指出的是,除了疫情防控的需要,在具体应用中,消防、医疗也常常遇到上述非标准地址的问题。
在本发明实施例中,通过先提取标准地址信息,然后在位于所述标准地址信息之后且相邻的字段中,识别辅助地址信息,且将所述标准地址信息以及所述辅助地址信息进行组合,可以得到完整地址信息,由于辅助地址信息可以选自方位词、距离、标志物信息中的一项或多项,采用本发明实施例的方案,可以在依赖地图信息并不能选择或识别到准确地址时,提取到更多的有效地址信息,有利于更加准确、迅速地进行地址识别。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参照图1,图1是本发明实施例中一种地址识别方法的流程图。所述地址识别方法可以包括步骤S11至步骤S13:
步骤S11:对待识别地址信息进行提取,以得到标准地址信息,其中,所述标准地址信息包括采用标准地址分级逐级提取的地址字段;
步骤S12:在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段;
步骤S13:如果在所述字段中识别到辅助地址信息,则将所述标准地址信息以及所述辅助地址信息进行组合,其中,所述辅助地址信息选自以下一项或多项:方位词、距离、标志物信息。
可以理解的是,在具体实施中,所述方法可以采用软件程序的方式实现,该软件程序运行于芯片或芯片模组内部集成的处理器中。
在步骤S11的具体实施中,标准地址信息可以为采用标准地址分级逐级提取的地址字段,所述标准地址可以是由政府部门(如公安机关)依据地名主管部门公布的道路、街、巷、乡镇村组等标准地名,对房屋建筑按顺序编制的门牌及楼栋户号,是房屋建筑及其门户地理空间位置的规范表述。
在一种6级标准地址分级规范中,将地址按9个级别进行管理,由“地州+县市+区+街道+门牌(小区)+楼号、单元号”表示地址信息。自上向下可以排列为:a.区内各地州;;b.各市、县;c.区、乡、镇、团场;d.街道(路)、村、连(场、处、厂、矿、站);e.门牌(小区)、办公楼房(单位名称)、办公单位等;f.楼号(层)、单元号等。
在一种9级标准地址分级规范中,将地址按9个级别进行管理,由“行政区划+乡镇街道+街路巷+门牌号+小区(组)+楼排号+单元号+户室”等要素组成。自上向下可以排列为:a.省、市、区;b.县、乡;c.镇;d.街道办事处、路;e.巷;f.行政村、小区;g.自然村、门牌;h.村组、楼号;i.办公楼房和单元房号。
在一种10级标准地址分级规范中,将地址按10个级别进行管理,自上向下可以排列为:a.国家;b.省、自治区、直辖市;c.市、地区、自治州;d.县;e.街道、镇、乡;f.地址所在路、街、巷、屯;g.地址所在路号、地号;h.地址所在楼号、建筑物;i.地址所在单元号、建筑物区;j.户号、室号。
需要指出的是,标准地址可以包括行政区地址以及社区地址,其中,行政区地址往往是国家行政区的划分,通常具有行政区化代码,较为固定,变动很少。社区地址往往排在行政区地址之后,数量众多,设定方式往往较为灵活。
在具体实施中,还可以根据具体需求,存在7级标准地址分级规范、11级标准地址分级规范等,在本发明实施例中,对于具体的标准地址分级规范的详细内容不作限制。
参照表1,表1是一种标准地址分级规范表。
表1
表1中可以包括门牌路、弄、号、区县代码、区县名称、街道名称、街道代码等关键地址信息。
由表1可知,还可以根据具体需求,设置所述标准地址信息包括代码信息,如行政区地址代码(如表1中的区县代码等)、社区地址代码(如表1中的居委代码、街道代码等)。
在具体实施中,以“某市+某区+某街道+某小区+垃圾房”为例,则采用上述标准地址分级逐级提取后,可以得到标准地址信息为“某市+某区+某街道+某小区”。
可以理解的是,对待识别地址信息进行提取可以是基于语义进行提取的。其中,语言所蕴含的意义就是语义(semantic)。简单的说,符号是语言的载体。符号本身没有任何意义,只有被赋予含义的符号才能够被使用,这时候语言就转化为了信息,而语言的含义就是语义。自然语言语义理解可根据用户提供的上下文关系理解语义,并有效消除歧义,推荐相应的答复或信息数据。通过结构化知识库,能自动处理句法纠错与同义词等问题,并提供结构化的答复信息。
进一步地,文本特征提取方法可以是通过建立模型、特征提取、文本表示实现的。
其中,建立模型的步骤可以包括:建立一个词典库,该词典库包含训练语料库的所有词语,每个词语对应一个唯一识别的编号,利用one-hot文本表示。文档的词向量维度与单词向量的维度相同,每个位置的值是对应位置词语在文档中出现的次数,即词袋模型(Bag-of-Words model,BOW)。
特征提取的步骤可以包括:确定一个词语在一个文档中出现的频率,一般情况下,每一个文档中出现的词语的次数越多词语的重要性更大,例如BOW模型一样用出现次数来表示特征值,即出现文档中的词语次数越多,其权重就越大,问题就是在长文档中的词语次数普遍比短文档中的次数多,导致特征值偏向差异情况。基于大量的文本语料库,通过类似神经网络模型训练,将每个词语映射成一个定维度的向量,维度在几十到化百维之间,每个向量就代表着这个词语,词语的语义和语法相似性和通过向量之间的相似度来判断。
所述文本表示的步骤可以是采用文本分类模型(如textCNN模型),作为一个经典的神经网络模型,其具有极强的特征提取能力,而且运行速度较快,并且对文本浅层特征的抽取能力很强,在短文本领域如搜索、对话领域专注于意图分类时效果很好,应用广泛,且速度快。
参照图2,图2是本发明实施例中另一种地址识别方法的部分流程图。另一种地址识别方法可以包括步骤S21至步骤S22,还可以包括图1示出的步骤S11至步骤S13。其中,所述步骤S21至步骤S22可以在步骤S11之前执行。
在步骤S21中,获取原始地址信息。
具体地,所述原始地址信息可以是日常上报的地址信息,可以是未经过加工的地址信息,例如可以包含语气词、口头禅、形容词、重复词语的描述性信息。
在步骤S22中,对所述原始地址信息进行去噪处理,以得到所述待识别地址信息。
在本申请实施例中,通过对所述原始地址信息进行去噪处理,可以避免受到无效信息的干扰,进一步提高地址识别的准确性。
进一步地,对所述原始地址信息进行去噪处理可以选自以下一项或多项:去除除了数字和各国语言文字之外的其他符号、将英文字符统一为小写英文字符、去除语气词、去除重复词语、去除连接词、去除形容词、去除口头禅。
具体地,除了数字和各国语言文字之外的其他符号例如可以包括标点符号,还可以包括乱码字符,通过去除操作有助于提高地址信息提取的准确性。
语气词、重复词语、连接词、形容词、口头禅等词语可以视为对地址提取不具有效性,也即可视为非地址信息,通过去除操作有助于提高地址信息提取的准确性。
在本发明实施例的另一种具体实施方式中,对所述原始地址信息进行去噪处理的步骤还可以包括:建立停用词语库,去除所述原始地址信息中包含的停用词语库中的词语。其中,所述停用词语库中可以包含不对地址进行描述的非地址词语。
其中,所述非地址词语可以包括:除了数字和各国语言文字之外的其他符号、语气词、重复词语、连接词、形容词、口头禅等。
在本发明实施例中,对停用词语库中的词语进行去除操作有助于提高地址信息提取的准确性。
可以理解的是,在对数据进行分析前需要对数据做一些处理,主要是对获取的数据中的异常值、错误数据进行简单处理,是对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。数据的预处理可以提高数据挖掘的质量。针对疫情门址库的数据来源,建立数据治理的标准规则,对各信息项进行结构化的关键信息审核,并通过处理对数据进行填充、筛选、清洗操作。
继续参照图1,在步骤S12的具体实施中,在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段。
在具体实施中,以“某市+某区+某街道+某小区+垃圾房”为例,则标准地址信息可以为“某市+某区+某街道+某小区”,位于所述标准地址信息之后且相邻的字段可以为“垃圾房”。
进一步地,选择位于所述标准地址信息之后且相邻的字段的步骤可以包括:选择位于所述标准地址信息之后且相邻的字段,直至选择的字段长度达到预设长度,或者选择的字段到达句尾或段尾。
在本发明实施例中,通过选择位于所述标准地址信息之后且相邻的字段,直至选择的字段长度达到预设长度,或者选择的字段到达句尾或段尾,从而可以提高选择字段的有效性,既可以避免由于选择过长长度导致无效信息过多,又可以避免由于选择过短长度导致提取信息不足,进一步提高地址识别的准确性。
进一步地,在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段的步骤可以包括:在所述待识别地址信息中,选择位于非空的最低层级的标准地址信息之后且相邻的字段。
如前所述,标准地址信息可以是采用标准地址分级逐级提取的地址字段,非空的最低层级的标准地址信息又可以称为末级地址。
例如在“某市+某区+某街道+某小区+垃圾房”中,“某小区”可以为非空的最低层级的标准地址信息;在“某市+某区+西郊”中,“某区”可以为非空的最低层级的标准地址信息。
在本发明实施例中,在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段包括:在所述待识别地址信息中,选择位于非空的最低层级的标准地址信息之后且相邻的字段,由于方位词、距离、标志物信息往往是跟在最低层级的标准地址信息之后出现的,通过设置选择位于非空的最低层级的标准地址信息之后且相邻的字段,可以避免受到位于高层级的标准地址信息之后的无效地址信息的干扰,进一步提高地址识别的准确性。
在步骤S13的具体实施中,如果在所述字段中识别到辅助地址信息,则将所述标准地址信息以及所述辅助地址信息进行组合。
其中,所述辅助地址信息选自以下一项或多项:方位词、距离、标志物信息。
具体地,方位词可以是表示方向或位置的词,分单纯词的和合成的两类。单纯的方位词是“上、下、前、后、左、右、东、西、南、北、里、外、中、内、旁”。合成的方位词可以由单纯词以下列方式构成:(a)前边加“以”或“之”。如,以上(Above)、之下(Under);(b)后边加“边”、“面”、“头”。如:前边、左面,里头;(c)对举。如,上下、前后、里外;(d)其他。如,底下、头里、当中。
距离可以指在空间上相隔或间隔的长度,例如可以为数字,如“40米”、“二十米”等;还可以为描述距离的词语,如“马路对面”、“隔一条街”等。
标志物信息可以是用来标记位置,突出特征或作参照的物体,例如可以为房子、商铺、邮筒、石碑、大树、垃圾房等。
可以理解的是,上述方位词、距离、标志物信息并不会出现在常规的地图地址中,导致在依赖方位词、距离、标志物信息进行选址的地址信息中,难以仅通过地图信息获取准确信息。
在本发明实施例中,通过先提取标准地址信息,然后在位于所述标准地址信息之后且相邻的字段中,识别辅助地址信息,且将所述标准地址信息以及所述辅助地址信息进行组合,可以得到完整地址信息,由于辅助地址信息可以选自方位词、距离、标志物信息中的一项或多项,采用本发明实施例的方案,可以在依赖地图信息并不能选择或识别到准确地址时,提取到更多的有效地址信息,有利于更加准确、迅速地进行地址识别。
进一步地,所述的地址识别方法还可以包括:根据所述标准地址分级,判断所述标准地址信息的格式是否完整;如果格式不完整,则填充所述标准地址信息中缺失的地址信息。
可以理解的是,所述标准地址信息的格式是否完整指的是非空的最低层级的标准地址信息及最低层以上层级的地址信息的格式是否完整。
如在“某市+某小区”中,非空的最低层级的标准地址信息为“某小区”,则检查最低层以上层级的地址信息的格式,可以发现缺失了“某区”和/或“某街道”,此时可以通过填充,完善所述标准地址信息。
在本发明实施例中,根据所述标准地址分级,判断所述标准地址信息的格式是否完整;如果格式不完整,则填充所述标准地址信息中缺失的地址信息,从而可以在地址信息不完整的情况下,进一步提高地址识别的准确性。
进一步地,所述地址识别方法还可以包括:将组合后的标准地址信息以及辅助地址信息标识在预设坐标系中并向用户显示。
更进一步地,预设坐标系可以为所述WGS84坐标系,所述WGS84坐标系为一种国际上采用的地心坐标系。坐标原点为地球质心,其地心空间直角坐标系的Z轴指向BIH(国际时间服务机构)1984.O定义的协议地球极(CTP)方向,X轴指向BIH 1984.0的零子午面和CTP赤道的交点,Y轴与Z轴、X轴垂直构成右手坐标系,称为1984年世界大地坐标系统。
所述预设坐标系可以为GCJ-02坐标系,是由中国国家测绘局制订的地理信息系统的坐标系统。是对真实坐标系统进行人为的加偏处理,按照特殊的算法,将真实的坐标加密成虚假的坐标,而这个加偏并不是线性的加偏,所以各地的偏移情况都会有所不同。而加密后的坐标也常被大家称为“火星坐标”。
所述预设坐标系可以为BD09坐标系,将BD09坐标系按照其经纬度进行投影可以得到百度坐标系,它是在标准经纬度的基础上进行GCJ-02加偏之后,再加上百度自身的加偏算法,也就是在标准经纬度的基础之上进行了两次加偏。
在本发明实施例中,将组合后的标准地址信息以及辅助地址信息标识在预设坐标系中并向用户显示,可以使得用户直观地获取该地点,有助于提高判断的效率,提高用户体验度。
进一步地,所述地址识别方法还可以包括:基于多种坐标系的坐标格式,对组合后的标准地址信息以及辅助地址信息进行转换并存储。
在本发明实施例中,通过基于多种坐标系的坐标格式,对组合后的标准地址信息以及辅助地址信息进行转换并存储,从而可以使得用户根据使用习惯选择适当的坐标系,进一步提高用户体验度。
在具体实施中,从一种坐标系变换到另一种坐标系,可以是通过建立两个坐标系统之间一一对应关系来实现的。灵活的算法公式实现,北京54全国80及WGS84坐标系的互相转换。通过不同业务需求不同的指挥系统都可以无缝对地理信息进行接入,减少地址数据带来的位置显示偏离的误差。
为提高数据质量而开展的业务、技术和管理活动都属于数据治理范畴。数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。
通过自然语义分析后的地址信息,可以建立疫情门址库,并通过疫情门址库统一进行存储。并通过自主学习算法,对历史门址库数据与新增门址库数据进行关联比较的分析。通过大数据不断汇集的海量门址信息,运用智能人工算法,通过对重点疫情区域信息,近期地址使用频率,对应坐标信息的匹配学习,使得门址库具有不断丰富数据信息量,不断自我数据校准的能力。
参照图3,图3是本发明实施例中一种地址识别装置的结构示意图。所述地址识别装置可以包括:
提取模块31,用于对待识别地址信息进行提取,以得到标准地址信息,其中,所述标准地址信息包括采用标准地址分级逐级提取的地址字段;
选择模块32,用于在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段,直至选择的字段长度达到预设长度,或者选择的字段到达句尾或段尾;
组合模块33,用于当在所述预设长度字段中识别到辅助地址信息时,将所述标准地址信息以及所述辅助地址信息进行组合;
其中,所述辅助地址信息选自以下一项或多项:方位词、距离、标识物信息。
在具体实施中,上述装置可以对应于用户设备中具有数据处理功能的芯片;或者对应于用户设备中包括具有数据处理功能芯片的芯片模组,或者对应于用户设备。
关于该地址识别装置的原理、具体实现和有益效果请参照前文所述的关于地址识别方法的相关描述,此处不再赘述。
本发明实施例还提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。所述可读存储介质可以是计算机可读存储介质,例如可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器,还可以包括光盘、机械硬盘、固态硬盘等。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述方法的步骤。
具体地,本申请实施例中的终端可以指各种形式的用户设备(user equipment,简称UE)、接入终端、用户单元、用户站、移动站、移动台(mobile station,简称MS)、远方站、远程终端、移动设备、用户终端、终端设备(terminal equipment)、无线通信设备、用户代理或用户装置。终端设备还可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol,简称SIP)电话、无线本地环路(Wireless Local Loop,简称WLL)站、个人数字处理(Personal Digital Assistant,简称PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备,未来5G网络中的终端设备或者未来演进的公用陆地移动通信网络(Public Land Mobile Network,简称PLMN)中的终端设备等,本申请实施例对此并不限定。
进一步地,所述终端还可以是云平台、车联网服务器、物联网服务器等。所述云平台(Cloud Platforms)又称为云计算平台,在本发明实施例中,云平台可以通过用户绑定的智能终端进行信息采集,进而对采集到的信息进行存储、计算。
具体地,在本发明实施例中,所述处理器可以为中央处理单元(centralprocessing unit,简称CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,简称DSP)、专用集成电路(application specificintegrated circuit,简称ASIC)、现成可编程门阵列(field programmable gate array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,简称ROM)、可编程只读存储器(programmable ROM,简称PROM)、可擦除可编程只读存储器(erasable PROM,简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM,简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,简称RAM)可用,例如静态随机存取存储器(staticRAM,简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,简称DR RAM)。
关于上述实施例中描述的各个装置、产品包含的各个模块/单元,其可以是软件模块/单元,也可以是硬件模块/单元,或者也可以部分是软件模块/单元,部分是硬件模块/单元。例如,对于应用于或集成于芯片的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于芯片模组的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片模组内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于终端的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于终端内同一组件(例如,芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于终端内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (11)
1.一种地址识别方法,其特征在于,包括:
对待识别地址信息进行提取,以得到标准地址信息,其中,所述标准地址信息包括采用标准地址分级逐级提取的地址字段;
在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段;
如果在所述字段中识别到辅助地址信息,则将所述标准地址信息以及所述辅助地址信息进行组合;
其中,所述辅助地址信息选自以下一项或多项:方位词、距离、标志物信息。
2.根据权利要求1所述的地址识别方法,其特征在于,选择位于所述标准地址信息之后且相邻的字段包括:
选择位于所述标准地址信息之后且相邻的字段,直至选择的字段长度达到预设长度,或者选择的字段到达句尾或段尾。
3.根据权利要求1所述的地址识别方法,其特征在于,在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段包括:
在所述待识别地址信息中,选择位于非空的最低层级的标准地址信息之后且相邻的字段。
4.根据权利要求1所述的地址识别方法,其特征在于,在对待识别地址信息进行提取之前,还包括:
获取原始地址信息;
对所述原始地址信息进行去噪处理,以得到所述待识别地址信息。
5.根据权利要求4所述的地址识别方法,其特征在于,对所述原始地址信息进行去噪处理选自以下一项或多项:
去除除了数字和各国语言文字之外的其他符号、将英文字符统一为小写英文字符、去除语气词、去除重复词语、去除连接词、去除形容词、去除口头禅。
6.根据权利要求1所述的地址识别方法,其特征在于,还包括:
根据所述标准地址分级,判断所述标准地址信息的格式是否完整;
如果格式不完整,则填充所述标准地址信息中缺失的地址信息。
7.根据权利要求1所述的地址识别方法,其特征在于,还包括:
将组合后的标准地址信息以及辅助地址信息标识在预设坐标系中并向用户显示。
8.根据权利要求1所述的地址识别方法,其特征在于,还包括:
基于多种坐标系的坐标格式,对组合后的标准地址信息以及辅助地址信息进行转换并存储。
9.一种地址识别装置,其特征在于,包括:
提取模块,用于对待识别地址信息进行提取,以得到标准地址信息,其中,所述标准地址信息包括采用标准地址分级逐级提取的地址字段;
选择模块,用于在所述待识别地址信息中,选择位于所述标准地址信息之后且相邻的字段,直至选择的字段长度达到预设长度,或者选择的字段到达句尾或段尾;
组合模块,用于当在所述预设长度字段中识别到辅助地址信息时,将所述标准地址信息以及所述辅助地址信息进行组合;
其中,所述辅助地址信息选自以下一项或多项:方位词、距离、标识物信息。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至8任一项所述地址识别方法的步骤。
11.一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至8任一项所述地址识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745062.5A CN113536781A (zh) | 2021-06-30 | 2021-06-30 | 地址识别方法及装置、可读存储介质、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745062.5A CN113536781A (zh) | 2021-06-30 | 2021-06-30 | 地址识别方法及装置、可读存储介质、终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113536781A true CN113536781A (zh) | 2021-10-22 |
Family
ID=78097625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110745062.5A Withdrawn CN113536781A (zh) | 2021-06-30 | 2021-06-30 | 地址识别方法及装置、可读存储介质、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536781A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115081449A (zh) * | 2022-08-23 | 2022-09-20 | 北京睿企信息科技有限公司 | 一种地址识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104504045A (zh) * | 2014-12-18 | 2015-04-08 | 国家电网公司 | 一种基于电力客户地址分词检索的gis定位分析系统 |
CN105704258A (zh) * | 2014-11-28 | 2016-06-22 | 北京山海经纬信息技术有限公司 | 一种地址识别的方法和设备 |
CN109033086A (zh) * | 2018-08-03 | 2018-12-18 | 银联数据服务有限公司 | 一种地址解析、匹配的方法及装置 |
CN109446284A (zh) * | 2018-09-17 | 2019-03-08 | 平安科技(深圳)有限公司 | 显示客户地址的方法、装置、计算机设备和存储介质 |
CN112329467A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN112835899A (zh) * | 2021-01-29 | 2021-05-25 | 上海寻梦信息技术有限公司 | 地址库索引方法、地址匹配方法以及相关设备 |
-
2021
- 2021-06-30 CN CN202110745062.5A patent/CN113536781A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105704258A (zh) * | 2014-11-28 | 2016-06-22 | 北京山海经纬信息技术有限公司 | 一种地址识别的方法和设备 |
CN104504045A (zh) * | 2014-12-18 | 2015-04-08 | 国家电网公司 | 一种基于电力客户地址分词检索的gis定位分析系统 |
CN109033086A (zh) * | 2018-08-03 | 2018-12-18 | 银联数据服务有限公司 | 一种地址解析、匹配的方法及装置 |
CN109446284A (zh) * | 2018-09-17 | 2019-03-08 | 平安科技(深圳)有限公司 | 显示客户地址的方法、装置、计算机设备和存储介质 |
CN112329467A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN112835899A (zh) * | 2021-01-29 | 2021-05-25 | 上海寻梦信息技术有限公司 | 地址库索引方法、地址匹配方法以及相关设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115081449A (zh) * | 2022-08-23 | 2022-09-20 | 北京睿企信息科技有限公司 | 一种地址识别方法及系统 |
CN115081449B (zh) * | 2022-08-23 | 2022-11-04 | 北京睿企信息科技有限公司 | 一种地址识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107092680B (zh) | 一种基于地理网格的政务信息资源整合方法 | |
CN112329467B (zh) | 地址识别方法、装置、电子设备以及存储介质 | |
US7046827B2 (en) | Adapting point geometry for storing address density | |
CN109344213B (zh) | 一种基于字典树的中文地理编码方法 | |
CN110019617B (zh) | 地址标识的确定方法和装置、存储介质、电子装置 | |
CN111625732B (zh) | 地址匹配方法及装置 | |
CN106909611B (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN101350012A (zh) | 一种地址匹配的方法和系统 | |
CN103514234A (zh) | 一种页面信息提取方法和装置 | |
CN112988715B (zh) | 一种基于开源方式的全球网络地名数据库的构建方法 | |
CN110990520A (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
CN112527915A (zh) | 线性文化遗产知识图谱构建方法、系统、计算设备和介质 | |
CN111782741A (zh) | 兴趣点挖掘方法、装置、电子设备及存储介质 | |
CN108733810A (zh) | 一种地址数据匹配方法及装置 | |
CN108984640A (zh) | 一种基于web数据挖掘的地理信息获取方法 | |
CN113536781A (zh) | 地址识别方法及装置、可读存储介质、终端 | |
US10909473B2 (en) | Method to determine columns that contain location data in a data set | |
CN112069824A (zh) | 基于上下文概率和引证的地域识别方法、装置及介质 | |
CN115935086A (zh) | 地址信息识别方法、信息推送方法以及信息展示方法 | |
CN113626536B (zh) | 一种基于深度学习的新闻地理编码方法 | |
CN105279249A (zh) | 一种网站中兴趣点数据的置信度的判定方法和装置 | |
CN114003812A (zh) | 地址匹配方法、系统、设备及存储介质 | |
CN111680122A (zh) | 空间数据主动推荐方法、装置、存储介质及计算机设备 | |
CN116431625A (zh) | 一种地理实体的定位分析方法、装置及计算机设备 | |
de Armas García et al. | Deployment of a National Geocoding Service: Cuban Experience. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211022 |