CN114117004B - 地址识别方法、装置、电子设备以及存储介质 - Google Patents

地址识别方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN114117004B
CN114117004B CN202111401855.1A CN202111401855A CN114117004B CN 114117004 B CN114117004 B CN 114117004B CN 202111401855 A CN202111401855 A CN 202111401855A CN 114117004 B CN114117004 B CN 114117004B
Authority
CN
China
Prior art keywords
standardized
target
address
entity
place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111401855.1A
Other languages
English (en)
Other versions
CN114117004A (zh
Inventor
徐思琪
潘旭
刘晨晖
龚建
卓泽城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111401855.1A priority Critical patent/CN114117004B/zh
Publication of CN114117004A publication Critical patent/CN114117004A/zh
Priority to US17/992,884 priority patent/US20230086429A1/en
Priority to EP22209295.9A priority patent/EP4187431A1/en
Application granted granted Critical
Publication of CN114117004B publication Critical patent/CN114117004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了地址识别方法、装置、电子设备以及存储介质,涉及人工智能、计算机技术领域,尤其涉及知识图谱、深度学习、云计算领域。具体实现方案为:对用于描述事件的待识别内容进行地点实体识别,得到目标地点实体,目标地点实体包括标准化地点实体、别名地点实体和标志性地点实体其中至少之一;针对目标地点实体中每种类型的地点实体,根据地址图谱,确定与地点实体相对应的标准化地址,得到至少一个标准化地址,地址图谱包括标准化地点实体、别名地点实体和标志性地点实体,以及各地点实体之间的对应关系;从至少一个标准化地址中,确定与待识别内容相对应的第一目标标准化地址,第一目标标准化地址用于表征事件的发生地。

Description

地址识别方法、装置、电子设备以及存储介质
技术领域
本公开涉及人工智能、计算机技术领域,尤其涉及知识图谱、深度学习、云计算领域,具体地,涉及一种地址识别方法、装置、电子设备以及存储介质。
背景技术
随着信息时代的快速发展,各种文本类、音频类信息大量产生,并成为信息的主要传播方式。基于信息可以进行舆情分析。行政区作为结构化信息中的一个信息,可以直观的展示信息的发生地,并可支撑基于行政区检索信息的功能。
发明内容
本公开提供了一种地址识别方法、装置、电子设备以及存储介质。
根据本公开的一方面,提供了一种地址识别方法,包括:对用于描述事件的待识别内容进行地点实体识别,得到目标地点实体,其中,所述目标地点实体包括标准化地点实体、别名地点实体和标志性地点实体其中至少之一;针对所述目标地点实体中每种类型的地点实体,根据地址图谱,确定与所述地点实体相对应的标准化地址,得到至少一个标准化地址,其中,所述地址图谱包括标准化地点实体、别名地点实体和标志性地点实体,以及各地点实体之间的对应关系;以及从所述至少一个标准化地址中,确定与所述待识别内容相对应的第一目标标准化地址,其中,所述第一目标标准化地址用于表征所述事件的发生地。
根据本公开的另一方面,提供了一种地址识别装置,包括:识别模块,用于对用于描述事件的待识别内容进行地点实体识别,得到目标地点实体,其中,所述目标地点实体包括标准化地点实体、别名地点实体和标志性地点实体其中至少之一;第一确定模块,用于针对所述目标地点实体中每种类型的地点实体,根据地址图谱,确定与所述地点实体相对应的标准化地址,得到至少一个标准化地址,其中,所述地址图谱包括标准化地点实体、别名地点实体和标志性地点实体,以及各地点实体之间的对应关系;以及第二确定模块,用于从所述至少一个标准化地址中,确定与所述待识别内容相对应的第一目标标准化地址,其中,所述第一目标标准化地址用于表征所述事件的发生地。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的地址识别方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的地址识别方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的地址识别方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用地址识别方法及装置的示例性系统架构;
图2示意性示出了根据本公开实施例的地址识别方法的流程图;
图3示意性示出了根据本公开实施例的地址图谱的示意图;
图4示意性示出了根据本公开实施例的针对query或keywords所描述的事件进行地址识别的示意图;
图5示意性示出了根据本公开实施例的地址识别装置的框图;以及
图6示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
行政区可以指三级行政区,可以包括一级省级行政区、二级地级行政区和三级县级行政区等。一级省级行政区可以包括省、自治区、直辖市、特别行政区域。二级地级行政区可以包括地级市、地区、自治州、盟等。三级县级行政区可以包括市辖区、县级市、县、自治县、旗、自治旗、特区、林区等。完整的三级行政区例如可以包括XX省-XX市-XX区、XX市-XX市-XX区等形式。
传播的信息,通常不会出现完整的三级行政区地址,例如包括以下几种情况:信息内容中仅包含省级或地级或县级地址,但不完整。信息内容中包括的同一个区级地址可能对应于多个地区,即存在地址歧义。信息内容中未提及具体的行政区级名,但是有标志性地点或组织机构名。此外,表征一个事件的信息可能包括一条或多条信息,对应一个或多个信息内容,每个信息内容中可能包括多个地址。而对于一个事件来说,事件的发生地往往只有一个。因此,需要从信息内容的地址中识别事件的地址。例如,通过输入query(问题)或keywords(关键词),可以检索到与query或keywords所表征的事件相关的一个或多个新闻,可以基于这些新闻得到事件的发生地地址。
针对单个新闻进行行政区地址识别,或者针对通过query或keywords检索得到的多篇事件新闻进行行政区地址识别的任务可以包括:地址识别;地址归一,可以包括地址标准化、地址消岐;以及基于多个地址进行事件地址识别等步骤。
发明人在实现本公开构思的过程中发现,在执行上述地址归一的步骤时,需要首先基于离线的行政区地址字典,通过字符串匹配的方式,判断是否能够匹配上标准地址中的某一级。然后,再补齐标准地址。行政区地址字典存储的是标准的行政区地址,每一行一个地址,如果仅通过字符串匹配很可能会漏召。该方法的局限在于行政区地址字典无法覆盖多种别名表示,且无法实现针对标志性组织和地点的地址识别。此外,在需要针对基于query或keywords检索得到的多篇事件新闻进行事件地址识别时,缺乏较为成熟的方案。
本公开提供了一种地址识别方法、装置、电子设备以及存储介质。该方法包括:对用于描述事件的待识别内容进行地点实体识别,得到目标地点实体。目标地点实体包括标准化地点实体、别名地点实体和标志性地点实体其中至少之一。针对目标地点实体中每种类型的地点实体,根据地址图谱,确定与地点实体相对应的标准化地址,得到至少一个标准化地址。地址图谱包括标准化地点实体、别名地点实体和标志性地点实体,以及各地点实体之间的对应关系。从至少一个标准化地址中,确定与待识别内容相对应的第一目标标准化地址,第一目标标准化地址用于表征事件的发生地。
图1示意性示出了根据本公开实施例的可以应用地址识别方法及装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用地址识别方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的地址识别方法及装置。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual PrivateServer″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
需要说明的是,本公开实施例所提供的地址识别方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的地址识别装置也可以设置于终端设备101、102、或103中。
或者,本公开实施例所提供的地址识别方法一般也可以由服务器105执行。相应地,本公开实施例所提供的地址识别装置一般可以设置于服务器105中。本公开实施例所提供的地址识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的地址识别装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
例如,在需要对用于描述事件的待识别内容进行地址识别时,终端设备101、102、103可以获取用于描述事件的待识别内容,然后将获取的待识别内容发送给服务器105,由服务器105对用于描述事件的待识别内容进行地点实体识别,得到目标地点实体。目标地点实体包括标准化地点实体、别名地点实体和标志性地点实体其中至少之一。针对目标地点实体中每种类型的地点实体,根据地址图谱,确定与地点实体相对应的标准化地址,得到至少一个标准化地址。地址图谱包括标准化地点实体、别名地点实体和标志性地点实体,以及各地点实体之间的对应关系。并从至少一个标准化地址中,确定与待识别内容相对应的第一目标标准化地址,第一目标标准化地址用于表征事件的发生地。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对待识别内容进行分析,并实现确定与待识别内容相对应的第一目标标准化地址。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的地址识别方法的流程图。
如图2所示,该方法包括操作S210~S230。
在操作S210,对用于描述事件的待识别内容进行地点实体识别,得到目标地点实体,目标地点实体包括标准化地点实体、别名地点实体和标志性地点实体其中至少之一。
在操作S220,针对目标地点实体中每种类型的地点实体,根据地址图谱,确定与地点实体相对应的标准化地址,得到至少一个标准化地址,地址图谱包括标准化地点实体、别名地点实体和标志性地点实体,以及各地点实体之间的对应关系。
在操作S230,从至少一个标准化地址中,确定与待识别内容相对应的第一目标标准化地址,第一目标标准化地址用于表征事件的发生地。
根据本公开的实施例,待识别内容可以包括新闻等文本内容,以及语音播报等音频内容其中至少之一。标准化地点实体可以包括省级行政区地名、地级行政区地名、县级行政区地名等其中至少之一,如HB省、BJ市、SZ市、CY区等。别名地点实体可以包括与省级行政区地名、地级行政区地名、县级行政区地名等相对应的别名等其中至少之一,如HB、BJ、SZ、CY等。标志性地点实体可以包括景区名称、公园名称、组织机构名称即其他POI(Point ofInterest,兴趣点)名称等其中至少之一,如BJHQYC、SJZC等其中至少之一,BJHQYC是BJ市的一个景区,SJZC可以是SZ市、CS市等的景区。
根据本公开的实施例,地址图谱的结构可以包括地点实体,地点实体的属性,地点实体与地点实体之间的对应关系。地点实体可以包括根据各级标准化地名确定的标准化地点实体,根据多级标准化地名所构造的组合地名确定标准化地点实体,别名地点实体,以及标志性地点实体等其中至少之一。每个地点实体对应有属性,类型可以为地点实体的必要属性,可以包括但不限于表1所示。地点实体与地点实体之间的对应关系,可以包括但不限于表2所示。标准化地址可以为省-地/市-区/县结构的地址。
地点实体 类型
GD省-SZ市-NS区 标准省-地-县/标准省-市-县
GD省-SZ市 标准省-地/标准省-市
GD省 标准省
SZ市 标准地/标准市
NS区 标准县/标准区
NS 县/区
SJZC 标志性地名
SZSJZC 标志性地名
GDSJZC 标志性地名
表1
Figure BDA0003372058970000071
表2
根据本公开的实施例,标准化地点实体的数据源可以根据行政区地址字典获得。行政区地址字典中每一行可以包括一个标准省-地-县地址。根据该行政区地址字典,还可以向地址图谱中补充行政区地址包含、标准化地址、上下位等关系。别名地点实体的数据源可以根据别名字典获得。别名字典中每一行可以包括一组与一个标准名相对应的别名,不同的别名之间可以以逗号分隔,例如“NS,NS区”等,每一组别名中彼此之间也可构成别名关系。根据该别名字典,还可以向地址图谱中补充别名关系。标志性地点实体的数据源可以根据互联网词条中包括地理位置的词条数据等来获得。根据标志性地点和与该标志性地点相对应的互联网词条中的地理位置相关数据,也可以向地址图谱中补充标志性地点实体、标志性地点实体的别名、标志性地址实体的归属关系和标准化地址关系等。
例如,标志性地点可以包括SZSJZC,基于互联网词条进行数据处理的过程可以包括:获取与SZSJZC相对应的互联网词条中的地理位置相关数据,例如可以获取得到“GD省SZ市-NS区SNDD XXXX号”。采用开源工具包LAC对“GD省SZ市-NS区SNDD XXXX号”进行地址实体识别,得到每个分词的实体类型,识别结果例如可以包括分词结果[‘GD省’,‘SZ市’,‘NS区’,‘SNDD’,‘XXXX号’],以及相应的实体类型[‘LOC’,‘LOC’,‘LOC’,‘LOC’,‘m’],LOC可以表示地址。可以抽取类型为LOC的元素,判断其是否属于地址图谱中的地点实体,如果是,可以创建归属关系。例如,地点实体“SZSJZC”和“GD省”、“SZ市”、“NS区”为归属关系和地点包含关系。如果该互联网词条中还包括与SZSJZC相对应的别名,则还可以根据该互联网词条确定别名地点实体,并可在地质图谱中补充该别名地点实体的信息,以及补充SZSJZC与别名地点实体之间的别名关系。
根据本公开的实施例,地址图谱可以是根据上述标准化地点实体、别名地点实体和标志性地点实体及其之间的对应关系构建的图谱。
图3示意性示出了根据本公开实施例的地址图谱的示意图。
如图3所示,可以根据表1和表2提供的地点实体及其之间的对应关系,构建得到用于描述相关地点实体的地址图谱300。地址图谱300中例如包括标准化地址实体:GD省-SZ市-NS区320、GD省321、SZ市322、NS区323等,别名地址实体NS 330等,以及标志性地点实体SJZC310等。地址图谱300中的线性连接可以表示各地点实体之间的对应关系,例如包括行政区地址包含LC、标准化地址NL、地点包含PC、归属MO、上位-距离H-{dis}、下位-距离L-{dis}、别名AS等。例如,SJZC 310和SZ市322之间的对应关系MO可以表征SJZC 310归属于SZ市322。GD省321和NS区323之间的对应关系L-2可以表征NS区323是GD省往下降两级后对应的行政区地点。
需要说明的是,根据上述地址图谱的结构和获得到的数据源构建地址图谱的过程可以通过人工导入的方式实现,也可以通过设计相关程序自动化构建实现,在此不做限定。
根据本公开的实施例,用于描述事件的待识别内容例如包括新闻文章,该新闻文中中例如可以包括多个地点实体。例如,通过对新闻文中进行地点实体识别,可以得到SZ、BY等目标地点实体。通过根据地址图谱对目标地点实体中的每个地点实体进行分析处理,例如可以得到GD省-SZ市-NS区、GD省GZ市BY区等标准化地址。在此基础上,确定的用于表征事件的发生地的第一目标标准化地址可以包括GD省-SZ市-NS区和GD省GZ市BY区两者,也可以包括GD省-SZ市-NS区和GD省GZ市BY区其中任意之一。
通过本公开的上述实施例,根据标准化地点实体、别名地点实体和标志性地点实体及其之间的对应关系构建的地址图谱,包括的地点实体的信息比行政区地址字典和别名字典更多,且更加直观。可实现针对包含标准化地点实体、别名地点实体和标志性地点实体等各个类型的地点实体的待识别内容进行地址识别,还可有效缓解基于行政区地址字典进行地址识别时,无法针对多种别名以及标志性地点表示的地址进行识别并确定标准化地址的问题。
下面结合具体实施例,对图2所示的方法做进一步说明。
根据本公开的实施例,在目标地点实体包括标准化地点实体的情况下,根据地址图谱,确定与地点实体相对应的标准化地址可以包括:根据地址图谱,确定与标准化地点实体相对应的第一标准化地址。将第一标准化地址确定为与标准化地点实体相对应的标准化地址。
根据本公开的实施例,对于每个地点识别结果中类型为LOC的元素,可以从地点图谱中进行检索。参见图3所示,在标准化地点实体为SZ市的情况下,可以根据地址图谱300,确定与SZ市322相对应的第一标准化地址为GD省-SZ市-NS区320,即可确定与SZ市相对应的标准化地址为GD省-SZ市-NS区。
通过本公开的上述实施例,由于地址图谱的表现形式更为直观,基于地址图谱进行标准化地址的识别,可有效提高识别效率。
根据本公开的实施例,在目标地点实体包括别名地点实体的情况下,根据地址图谱,确定与地点实体相对应的标准化地址可以包括:根据地址图谱,确定与别名地点实体相对应的第一目标标准化地点实体。根据地址图谱,确定与第一目标标准化地点实体相对应的第二标准化地址。将第二标准化地址确定为与别名地点实体相对应的标准化地址。
根据本公开的实施例,参见图3所示。在别名地点实体为NS的情况下,可以首先根据地址图谱300,确定与NS 330相对应的第一目标标准化地点实体为NS区323。然后,可以根据地址图谱300,确定与NS区323相对应的第二标准化地址为GD省-SZ市-NS区320,从而可以确定与NS相对应的标准化地址为GD省-SZ市-NS区。
通过本公开的上述实施例,由于地址图谱的表现形式更为直观,基于地址图谱进行标准化地址的识别,可有效提高识别效率。此外,基于包括别名地点实体的地址图谱进行标准化地址的识别,可有效缓解基于行政区地址字典进行地址识别时,无法针对多种别名表示的地址进行识别并确定标准化地址的问题。
根据本公开的实施例,在目标地点实体包括标志性地点实体的情况下,根据地址图谱,确定与地点实体相对应的标准化地址可以包括:确定地址图谱中的与标志性地点实体的相似度大于第一预设阈值的目标标志性地点实体。根据地址图谱,确定与目标标志性地点实体相对应的第二目标标准化地点实体。根据地址图谱,确定与第二目标标准化地点实体相对应的第三标准化地址。将第三标准化地址确定为与标志性地点实体相对应的标准化地址。
根据本公开的实施例,在针对标志性地点实体,从地点图谱中进行检索的情况下,可以采用模糊匹配的策略。例如,如果识别得到的标志性地名和地址图谱中的某个标志性地点实体的最长公共子序列的长度占标志性地名的长度的百分比大于预设阈值,如60%,或者,如果识别得到的标志性地名和地址图谱中的某个标志性地点实体相似度大于预设阈值,如90%,则可以认为该标志性地名和该标志性地点实体匹配。预设阈值可以自定义确定。
根据本公开的实施例,参见图3所示。在标志性地点实体为SJZC的情况下,可以首先确定地址图谱300中的与SJZC的相似度大于第一预设阈值的目标标志性地点实体为SJZC310。然后,可以根据地址图谱300,确定与SJZC 310相对应的第二目标标准化地点实体包括GD省-SZ市-NS区320、GD省321、SZ市322、NS区323等其中至少之一。之后,可以根据地址图谱300,确定与GD省-SZ市-NS区320、GD省321、SZ市322、NS区323等其中至少之一相对应的第三标准化地址为GD省-SZ市-NS区320,从而可以确定与SJZC相对应的标准化地址为GD省-SZ市-NS区。
通过本公开的上述实施例,由于地址图谱的表现形式更为直观,基于地址图谱进行标准化地址的识别,可有效提高识别效率。此外,基于包括标志性地点实体的地址图谱进行标准化地址的识别,可有效缓解基于行政区地址字典进行地址识别时,无法针对多种标志性地名进行识别并确定标准化地址的问题。
根据本公开的实施例,从至少一个标准化地址中,确定与待识别内容相对应的第一目标标准化地址可以包括:针对每个标准化地址中的每个地点实体,确定地点实体在至少一个标准化地址中的第一出现频次。针对每个标准化地址,根据标准化地址中的每个地点实体所对应的第一出现频次中的最大频次,确定与标准化地址相对应的目标频次,得到与至少一个标准化地址相对应的至少一个目标频次。从至少一个目标频次中,确定最大目标频次。将与最大目标频次相对应的标准化地址确定为第一目标标准化地址。
根据本公开的实施例,通过对用于描述事件的待识别内容进行地点识别,以及针对识别得到的地点数据进行模糊匹配,可以检索得到多个地点实体。针对每个地点实体,可以通过地址图谱检索到标准的省-地/市-区/县地址,从而可以得到与待识别内容相对应的多个标准的省-地/市-区/县地址。针对每个省-地/市-区/县地址中的各级地点实体,可以计算其在多个标准的省-地/市-区/县地址中的频次,得到第一出现频次。例如,可以在待识别文本中识别得到“SZ”、“SJZC”两个地点数据。通过地址图谱对“SZ”归一后可以得到标准化地址“GD省-SZ市”,通过地址图谱对“SJZC”归一后可以得到标准化地址“GD省-SZ市-NS区”和“HN省-CS市”。通过对标准化地址“GD省-SZ市”、“GD省-SZ市-NS区”和“HN省-CS市”中的各级地点实体统计出现频次,例如可以得到GD省的第一出现频次为2次,SZ市的第一出现频次为2次,NS区的第一出现频次为1次,HN省的第一出现频次为1次,CS市的第一出现频次为1次。
根据本公开的实施例,通过对每个标准化地址中各级地点实体出现的频次的最大值进行统计,可以确定与每个标准化地址相对应的目标频次。目标频次可以表征该标准化地址出现的最大频次。例如,在前述实施例的基础上,可以确定“GD省-SZ市”出现的最大频次为2,“GD省-SZ市-NS区”出现的最大频次为2,“HN省-CS市”出现的最大频次为1。通过滤除频次较低(如频次为1)的标准化地址,可以确定用于表征事件的发生地的第一目标标准化地址可以包括“GD省-SZ市”或“GD省-SZ市-NS区”。
通过本公开的上述实施例,可以根据标准化地址的出现频次,确定最能够表征事件的发生地的标准化地址,确定的结果也具有更高的准确度。
根据本公开的实施例,与最大目标频次相对应的标准化地址包括多个标准化地址。将与最大目标频次相对应的标准化地址确定为第一目标标准化地址可以包括:将多个标准化地址中包括的地点实体的数目最多的标准化地址确定为第一目标标准化地址。
根据本公开的实施例,例如,与最大目标频次相对应的标准化地址包括“GD省-SZ市”和“GD省-SZ市-NS区”,该两个标准化地址实质上相同。则可以根据“GD省-SZ市”和“GD省-SZ市-NS区”中包括的地点实体的数目的大小,对该两个标准化地址进行去重,例如可以将包括的地点实体的数目更大的“GD省-SZ市-NS区”确定为第一目标标准化地址。
通过本公开的上述实施例,可以得到更细粒度的用于表征事件的发生地的标准化地址,可提高确定的标准化地址的精细度。
根据本公开的实施例,基于上述地址图谱进行地址检索和归一,可以确定与单个待识别内容相关的标准化地址,例如可以实现针对单个新闻进行地址识别。基于上述地址图谱进行地址检索和归一,也可以从多个描述同一事件的待识别内容中识别出用于表征该事件的发生地的标准化地址。
根据本公开的实施例,在用于描述事件的待识别内容的数目包括多个的情况下,上述地址识别方法还可以包括:针对每个待识别内容,确定与待识别内容相对应的第一目标标准化地址,得到多个第一目标标准化地址。确定与事件相对应的预设字段信息。在确定存在与预设字段信息相对应的第二目标标准化地址,且多个第一目标标准化地址和第二目标标准化地址之间存在相同的标准化地址的情况下,根据多个第一目标标准化地址和第二目标标准化地址,确定用于表征事件的发生地的第三目标标准化地址。
根据本公开的实施例,在舆情的事件分析场景中,可以先获取事件相关的多个待识别内容,如新闻。然后基于这些新闻进行各维度分析,来确定事件地址。可以通过query或keywords进行相关新闻的检索。上述预设字段信息可以包括用于检索得到多个上述待识别内容的query或keywords。
根据本公开的实施例,在需要对多个待识别内容进行地址识别的情况下,可以首先针对多个待识别内容中的每个待识别内容执行基于地址图谱进行地址检索和归一的过程,得到多个第一目标标准化地址。基于地址图谱进行地址检索和归一的过程例如可以包括:针对每个待识别内容,进行地点实体识别,得到目标地点实体,针对目标地点实体中每种类型的地点实体,根据地址图谱,确定与地点实体相对应的标准化地址,得到至少一个标准化地址,从至少一个标准化地址中,确定与待识别内容相对应的第一目标标准化地址。然后,可以根据识别得到的多个第一目标标准化地址,以及与预设字段信息相对应的第二目标标准化地址,确定用于表征该多个待识别内容所对应的事件的发生地的标准化地址,即上述第三目标标准化地址。
例如,通过query或keywords检索得到的相关新闻包括多条。通过针对该多条相关新闻,分别执行基于地址图谱进行地址检索和归一的过程,例如可以得到标准化地址集合R。集合R中例如可以包括与该多条相关新闻对应的多个第一目标标准化地址:2个“BJ市-BJ市-CY区”、1个“BJ市-BJ市”、1个“JL省-CC市-CY区”和1个“JS省-NJ市-CY区”等。通过对query或keywords执行基于地址图谱进行地址检索和归一的过程,可以得到消岐后的标准化地址集合Q。例如,query可以为“CY区国际文化旅游节开幕”,可以针对query抽取到地点实体“CY区”,可以确定抽取到的地点实体的类型为标准区/标准县,并可根据地址图谱确定与该地点实体相对应的标准地址集合Q可以包括“BJ市-BJ市-CY区”、“JL省-CC市-CY区”等。在该种情况下,可以根据集合R和集合Q,确定用于表征query所描述的事件的发生地的第三目标标准化地址。例如,可以根据集合R和集合Q的交集,确定第三目标标准化地址可以为“BJ市-BJ市-CY区”和“JL省-CC市-CY区”,也可以根据集合R和集合Q的交集中出现频次最多、粒度最小的标准化地址,确定第三目标标准化地址可以为“BJ市-BJ市-CY区”。
通过本公开的上述实施例,通过对与预设字段信息相关的多个待识别内容进行地址识别,并结合预设字段信息本身所包括的地址数据,确定用于表征该预设字段信息所描述的事件的发生地的标准化地址,可以得到更为准确可靠的地址识别结果。
根据本公开的实施例,根据多个第一目标标准化地址和第二目标标准化地址,确定用于表征事件的发生地的第三目标标准化地址可以包括:在相同的标准化地址中包括一个标准化地址的情况下,将相同的标准化地址确定为第三目标标准化地址。
根据本公开的实施例,相同的标准化地址可以表征集合R与集合Q的交集。在集合R和集合Q的交集仅包括“BJ市-BJ市-CY区”的情况下,可以将“BJ市-BJ市-CY区”确定为用于表征事件的发生地的第三目标标准化地址。
通过本公开的上述实施例,可以根据预设字段信息和多个待识别内容各自所对应的标准化地址集合的交集,确定用于表征事件的发生地的标准化地址,可以得到更为准确可靠的地址识别结果。
根据本公开的实施例,标准化地点实体可以包括县级地点实体、地级地点实体和省级地点实体其中至少之一。根据多个第一目标标准化地址和第二目标标准化地址,确定用于表征事件的发生地的第三目标标准化地址可以包括:在相同的标准化地址包括多个标准化地址,且相同的标准化地址包括至少一个第一县级地点实体的情况下,从相同的标准化地址中,获取与满足第一预设条件的第一县级地点实体相对应的标准化地址,确定为第三目标标准化地址。在相同的标准化地址包括多个标准化地址,且相同的标准化地址包括至少一个第一地级地点实体且不包括第一县级地点实体的情况下,从相同的标准化地址中,获取与满足第二预设条件的第一地级地点实体相对应的标准化地址,确定为第三目标标准化地址。在相同的标准化地址包括多个标准化地址,且相同的标准化地址包括第一省级地点实体且不包括第一县级地点实体和第一地级地点实体的情况下,从相同的标准化地址中,获取与满足第三预设条件的第一省级地点实体相对应的标准化地址,确定为第三目标标准化地址。
根据本公开的实施例,在相同的标准化地址包括至少一个第一县级地点实体的情况下,确定的第三目标标准化地址可以精确到县级粒度,如可以表现为XX省-XX地/市-XX区/县形式的标准化地址。在相同的标准化地址包括至少一个第一地级地点实体且不包括第一县级地点实体的情况下,确定的第三目标标准化地址可以精确到地级粒度,如可以表现为XX省-XX地/市形式的标准化地址。在相同的标准化地址包括第一省级地点实体且不包括第一县级地点实体和第一地级地点实体的情况下,确定的第三目标标准化地址可以精确到省级粒度,如可以表现为XX省形式的标准化地址。
根据本公开的实施例,第一预设条件、第二预设条件和第三预设条件可以包括相应级别的地点实体的出现频次大于预设阈值、与相应级别的地点实体相对应的上一级别的地点实体的出现频次大于预设阈值等其中至少之一,且可不限于此。
通过本公开的上述实施例,可以基于各个粒度的标准化地址实体,构建确定用于表征事件的发生地的标准化地址的方法,通过该方法确定的标准化地址与事件实际发生地的地址能够具有更高的匹配度。
根据本公开的实施例,多个第一目标标准化地址中可以包括至少一个第二县级地点实体和至少一个第二地级地点实体。从相同的标准化地址中,获取与满足第一预设条件的第一县级地点实体相对应的标准化地址,确定为第三目标标准化地址可以包括:针对每个第二县级地点实体,确定第二县级地点实体在多个第一目标标准化地址中的第二出现频次。从至少一个第二县级地点实体中,确定第二出现频次的数值最高的预设数目个目标第二县级地点实体。针对每个第二地级地点实体,确定第二地级地点实体在多个第一目标标准化地址中的第三出现频次。从至少一个第二地级地点实体中,确定第三出现频次的数值最高的预设数目个目标第二地级地点实体。在至少一个第一县级地点实体中存在与目标第二县级地点实体相同的目标第一县级地点实体的情况下,确定与目标第一县级地点实体相对应的第一目标地级地点实体。在目标第二地级地点实体中包括第一目标地级地点实体的情况下,将与目标第一县级地点实体和第一目标地级地点实体相对应的标准化地址确定为第三目标标准化地址。
根据本公开的实施例,可以记集合Q中的某个标准化地址为Qi,记集合R中的某个标准化地址为Rj,i,j的最小取值可以为1,i的最大取值可以根据集合Q中标准化地址的数目确定,j的最大取值可以根据集合R中标准化地址的数目确定。
根据本公开的实施例,可以针对集合R中的所有县级地点实体和地级地点实体,按各级地点实体的出现频次,对相应的地点实体进行降序排序。如果Rj所表征的标准化地址可以精确到县级,且集合Q中包括与Rj所表征的标准化地址相匹配的Qi。则判断Rj中的县级地点实体是否在集合R的所有县级地点实体按出现频次进行降序排序后的top N1中。如果是,可以继续判断Rj中的地级地点实体是否在集合R的所有地级地点实体按出现频次进行降序排序后的top N2中。如果也是,则可以认为该Rj中的县级地点实体满足第一预设条件,并可以根据该满足第一预设条件的Rj,确定用于表征事件的发生地的县级粒度的标准化地址,即第三目标标准化地址。此时,Rj中的县级地点实体可以表征上述目标第一县级地点实体,Rj中的地级地点实体可以表征上述第一目标地级地点实体。top N1可以表征上述预设数目个目标第二县级地点实体,top N2可以表征上述预设数目个目标第二地级地点实体。N1与N2的取值可以相同或不同,在此不做限定。
需要说明的是,在满足第一预设条件的Rj的数目为多个的情况下,可以根据满足第一预设条件的Rj中的地级地点实体的第三出现频次,将第三出现频次的数值最高的地级地点实体所对应的Rj确定为第三目标标准化地址。
通过本公开的上述实施例,可以通过相应的方法,确定更匹配事件的实际发生地的标准化地址,确定的县级粒度的标准化地址也可以与事件本身的发生地具有更高的适配度。
根据本公开的实施例,多个第一目标标准化地址中可以包括至少一个第三地级地点实体。从相同的标准化地址中,获取与满足第二预设条件的第一地级地点实体相对应的标准化地址,确定为第三目标标准化地址可以包括:针对每个第三地级地点实体,确定第三地级地点实体在多个第一目标标准化地址中的第四出现频次。从至少一个第三地级地点实体中,确定第四出现频次的数值最高的预设数目个目标第三地级地点实体。在至少一个第一地级地点实体中存在与目标第三地级地点实体相同的目标第一地级地点实体的情况下,将与目标第一地级地点实体相对应的标准化地址确定为第三目标标准化地址。
根据本公开的实施例,可以针对集合R中的所有地级地点实体,按地级地点实体的出现频次,对地级地点实体进行降序排序。如果Rj所表征的标准化地址可以精确到地级,且集合Q中包括与Rj所表征的标准化地址相匹配的Qi。则判断Rj中的地级地点实体是否在集合R的所有地级地点实体按出现频次进行降序排序后的top N3中。如果是,则可以认为该Rj中的地级地点实体满足第二预设条件,并可以根据该满足第二预设条件的Rj,确定用于表征事件的发生地的地级粒度的标准化地址,即第三目标标准化地址。此时,Rj中的地级地点实体可以表征上述目标第一地级地点实体。top N3可以表征上述预设数目个目标第三地级地点实体。N3的值可以自定义确定,可以与N1,N2的取值相同或不同,在此不做限定。
需要说明的是,在满足第二预设条件的Rj的数目为多个的情况下,可以根据满足第二预设条件的Rj中的地级地点实体的第四出现频次,将第四出现频次的数值最高的地级地点实体所对应的Rj确定为第三目标标准化地址。
通过本公开的上述实施例,可以通过相应的方法,确定更匹配事件的实际发生地的标准化地址,确定的地级粒度的标准化地址也可以与事件本身的发生地具有更高的适配度。
根据本公开的实施例,多个第一目标标准化地址中可以包括至少一个第二省级地点实体。所述从所述相同的标准化地址中,获取与满足第三预设条件的第一省级地点实体相对应的标准化地址,确定为所述第三目标标准化地址可以包括:针对每个所述第二省级地点实体,确定所述第二省级地点实体在所述多个第一目标标准化地址中的第五出现频次。从所述至少一个第二省级地点实体中,确定所述第五出现频次的数值最高的预设数目个目标第二省级地点实体。在所述至少一个第一省级地点实体中存在与所述目标第二省级地点实体相同的目标第一省级地点实体的情况下,将与所述第五出现频次的数值最高的目标第一省级地点实体相对应的标准化地址确定为所述第三目标标准化地址。
根据本公开的实施例,可以针对集合R中的所有省级地点实体,按省级地点实体的出现频次,对省级地点实体进行降序排序。如果Rj所表征的标准化地址可以精确到省级,且集合Q中包括与Rj所表征的标准化地址相匹配的Qi。则判断Rj中的省级地点实体是否在集合R的所有省级地点实体按出现频次进行降序排序后的top N4中。如果是,则可以认为该Rj中的省级地点实体满足第三预设条件,并可以根据该满足第三预设条件的Rj中的省级地点实体的第五出现频次,将第五出现频次的数值最高的省级地点实体所对应的Rj确定为用于表征事件的发生地的省级粒度的标准化地址,即第三目标标准化地址。此时,Rj中的省级地点实体可以表征上述目标第一省级地点实体。top N4可以表征上述预设数目个目标第二省级地点实体。N4的值可以自定义确定,可以与N1,N2,N3的取值相同或不同,在此不做限定。
通过本公开的上述实施例,可以通过相应的方法,确定更匹配事件的实际发生地的标准化地址,确定的省级粒度的标准化地址也可以与事件本身的发生地具有更高的适配度。
根据本公开的实施例,在用于描述事件的待识别内容的数目包括多个的情况下,上述地址识别方法还可以包括:在确定不存在与预设字段信息相对应的第二目标标准化地址,或者多个第一目标标准化地址和第二目标标准化地址之间不存在相同的标准化地址的情况下,根据多个第一目标标准化地址,确定用于表征事件的发生地的第三目标标准化地址。
根据本公开的实施例,在通过对query或keywords执行基于地址图谱进行地址检索和归一的过程,得到的消岐后的标准化地址集合Q为空集,或者集合Q不为空集,但通过针对基于query或keywords检索得到的多条相关新闻,分别执行基于地址图谱进行地址检索和归一的过程,得到的标准化地址集合R与集合Q无交集的情况下,可以根据集合R中的标准化地址,确定用于表征事件的发生地的第三目标标准化地址。例如,在集合R中只包括一个标准化地址的情况下,可以将该标准化地址确定为用于表征事件的发生地的第三目标标准化地址。在集合R中包括多个标准化地址的情况下,可以根据多个标准化地址的各级地点实体的出现频次,根据与出现频次最高的县级地点实体、地级地点实体、省级地点实体等其中至少之一相对应的标准化地址确定为第三目标标准化地址等。
通过本公开的上述实施例,在预设字段信息本身不包括的地址数据的情况下,可以通过对与预设字段信息相关的多个待识别内容进行地址识别,确定用于表征该预设字段信息所描述的事件的发生地的标准化地址,也可以得到准确可靠的地址识别结果。
根据本公开的实施例,根据多个第一目标标准化地址,确定用于表征事件的发生地的第三目标标准化地址可以包括:在多个第一目标标准化地址包括至少一个第三县级地点实体的情况下,从多个第一目标标准化地址中,获取与满足第四预设条件的第三县级地点实体相对应的标准化地址,确定为第三目标标准化地址。在多个第一目标标准化地址包括至少一个第四地级地点实体且不包括第三县级地点实体的情况下,从多个第一目标标准化地址中,获取与满足第五预设条件的第四地级地点实体相对应的标准化地址,确定为第三目标标准化地址。在多个第一目标标准化地址包括第三省级地点实体且不包括第三县级地点实体和第四地级地点实体的情况下,从多个第一目标标准化地址中,获取与满足第六预设条件的第三省级地点实体相对应的标准化地址,确定为第三目标标准化地址。
根据本公开的实施例,在多个第一目标标准化地址包括至少一个第三县级地点实体的情况下,确定的第三目标标准化地址可以精确到县级粒度,如可以表现为XX省-XX地/市-XX区/县形式的标准化地址。在多个第一目标标准化地址包括至少一个第四地级地点实体且不包括第三县级地点实体的情况下,确定的第三目标标准化地址可以精确到地级粒度,如可以表现为XX省-XX地/市形式的标准化地址。在多个第一目标标准化地址包括第三省级地点实体且不包括第三县级地点实体和第四地级地点实体的情况下,确定的第三目标标准化地址可以精确到省级粒度,如可以表现为XX省形式的标准化地址。
根据本公开的实施例,第四预设条件、第五预设条件和第六预设条件可以包括相应级别的地点实体的出现频次大于预设阈值、与相应级别的地点实体相对应的上一级别的地点实体的出现频次大于预设阈值等其中至少之一,且可不限于此。
通过本公开的上述实施例,可以基于各个粒度的标准化地址实体,构建确定用于表征事件的发生地的标准化地址的方法,通过该方法确定的标准化地址与事件实际发生地的地址能够具有更高的匹配度。
根据本公开的实施例,多个第一目标标准化地址中还可以包括至少一个第五地级地点实体。从多个第一目标标准化地址中,获取与满足第四预设条件的第三县级地点实体相对应的标准化地址,确定为第三目标标准化地址可以包括:针对每个第三县级地点实体,确定第三县级地点实体在多个第一目标标准化地址中的第六出现频次。在第六出现频次小于第二预设阈值的情况下,从多个第一目标标准化地址中,获取与满足第五预设条件的第四地级地点实体相对应的标准化地址,确定为第三目标标准化地址。在第六出现频次大于或等于第二预设阈值的情况下,确定与大于或等于第二预设阈值的目标第三县级地点实体相对应的第二目标地级地点实体。针对每个第五地级地点实体,确定第五地级地点实体在多个第一目标标准化地址中的第七出现频次。从至少一个第五地级地点实体中,确定第七出现频次的数值最高的预设数目个目标第五地级地点实体。在目标第五地级地点实体中包括第二目标地级地点实体的情况下,将与目标第三县级地点实体和第二目标地级地点实体相对应的标准化地址确定为第三目标标准化地址。
根据本公开的实施例,如果集合R精确到县级粒度,可以针对集合R中的所有县级地点实体和地级地点实体,按各级地点实体的出现频次,对相应的地点实体进行降序排序。如果县级地点实体的出现频次小于预设阈值,可以忽略该县级,进入按照市级地点实体的出现频次进行遍历并确定标准化地址的过程。如果县级地点实体的出现频次大于预设阈值,可以继续判断与该县级地点实体相对应的地级地点实体是否在集合R的所有地级地点实体按出现频次进行降序排序后的top N5中。如果是,则可以认为该县级地点实体满足第四预设条件,并可以根据该满足第四预设条件的县级地点实体,确定用于表征事件的发生地的县级粒度的标准化地址,即第三目标标准化地址。top N5可以表征上述预设数目个目标第五地级地点实体。N5的值可以自定义确定,可以与N1,N2,N3,N4的取值相同或不同,在此不做限定。
需要说明的是,在满足第四预设条件的县级地点实体的数目为多个的情况下,可以根据与满足第四预设条件的县级地点实体相对应的地级地点实体的第七出现频次,将与第七出现频次的数值最高的地级地点实体和满足第四预设条件的县级地点实体相对应的标准化地址确定为第三目标标准化地址。
通过本公开的上述实施例,可以通过相应的方法,确定更匹配事件的实际发生地的标准化地址,确定的县级粒度的标准化地址也可以与事件本身的发生地具有更高的适配度。
根据本公开的实施例,从多个第一目标标准化地址中,获取与满足第五预设条件的第四地级地点实体相对应的标准化地址,确定为第三目标标准化地址可以包括:针对每个第四地级地点实体,确定第四地级地点实体在多个第一目标标准化地址中的第八出现频次。在第八出现频次小于第三预设阈值的情况下,从多个第一目标标准化地址中,获取与满足第六预设条件的第三省级地点实体相对应的标准化地址,确定为第三目标标准化地址。在第八出现频次大于或等于第三预设阈值的情况下,将与第八出现频次的数值最高的目标第四地级地点实体相对应的标准化地址确定为第三目标标准化地址。
根据本公开的实施例,如果集合R精确到地级粒度,可以针对集合R中的所有地级地点实体,按地级地点实体的出现频次,对相应的地级地点实体进行降序排序。如果地级地点实体的出现频次小于预设阈值,可以忽略该地级,进入按照省级地点实体的出现频次进行遍历并确定标准化地址的过程。如果地级地点实体的出现频次大于预设阈值,可以认为该地级地点实体满足第五预设条件,并可以根据该满足第五预设条件的地级地点实体中的出现频次最大的地级地点实体,确定用于表征事件的发生地的地级粒度的标准化地址,即第三目标标准化地址。
通过本公开的上述实施例,可以通过相应的方法,确定更匹配事件的实际发生地的标准化地址,确定的地级粒度的标准化地址也可以与事件本身的发生地具有更高的适配度。
根据本公开的实施例,从所述多个第一目标标准化地址中,获取与满足第六预设条件的第三省级地点实体相对应的标准化地址,确定为所述第三目标标准化地址可以包括:针对每个所述第三省级地点实体,确定所述第三省级地点实体在所述多个第一目标标准化地址中的第九出现频次。将与所述第九出现频次的数值最高的目标第三省级地点实体相对应的标准化地址确定为所述第三目标标准化地址。
根据本公开的实施例,如果集合R精确到省级粒度,可以针对集合R中的所有省级地点实体,按省级地点实体的出现频次,对相应的省级地点实体进行降序排序。可以认为出现频次最大的省级地点实体满足第六预设条件,并可以根据该满足第六预设条件的省级地点实体,确定用于表征事件的发生地的地级粒度的标准化地址,即第三目标标准化地址。
通过本公开的上述实施例,可以通过相应的方法,确定更匹配事件的实际发生地的标准化地址,确定的省级粒度的标准化地址也可以与事件本身的发生地具有更高的适配度。
根据本公开的实施例,在上述条件均不满足的情况下,可以认为用于表征事件的发生地的地址有歧义,在该种情况下,可以确定用于表征事件的发生地的地址不存在。
图4示意性示出了根据本公开实施例的针对query或keywords所描述的事件进行地址识别的示意图。
如图4所示,基于query或keywords 410进行检索,例如可以得到多个待识别内容420。多个待识别内容420例如可以包括待识别内容421、422、...、42n等。针对每个待识别内容执行基于地址图谱进行地址检索和归一的过程,例如可以得到与多个待识别内容420相对应的多个标准化地址430,对应于待识别内容421、422、...、42n等,多个标准化地址430可以包括标准化地址431、432、...、43n等。根据标准化地址431、432、...、43n可以确定与多个待识别内容420相关的标准化地址集合R。在query或keywords 410中包括地址数据的情况下,通过对query或keywords执行基于地址图谱进行地址检索和归一的过程,可以得到消岐后的标准化地址集合Q。在集合R和集合Q存在交集的情况下,用于表征query或keywords所描述的事件的发生地的标准化地址460,可以根据集合R和集合Q,并结合前述第一预设条件、第二预设条件和第三预设条件其中之一确定。在query或keywords 410中不包括地址数据,或者集合R和集合Q不存在交集的情况下,用于表征query或keywords所描述的事件的发生地的标准化地址460,可以根据集合R,并结合前述第四预设条件、第五预设条件和第六预设条件其中之一确定。
通过本公开的上述实施例,可以基于query或keywords的输入检索到的多个待识别内容,确定用于表征该query或keywords所描述的事件的0个、1个或多个标准化地址。
图5示意性示出了根据本公开实施例的地址识别装置的框图。
如图5所示,地址识别装置500包括识别模块510、第一确定模块520和第二确定模块530。
识别模块510,用于对用于描述事件的待识别内容进行地点实体识别,得到目标地点实体。目标地点实体包括标准化地点实体、别名地点实体和标志性地点实体其中至少之一。
第一确定模块520,用于针对目标地点实体中每种类型的地点实体,根据地址图谱,确定与地点实体相对应的标准化地址,得到至少一个标准化地址。地址图谱包括标准化地点实体、别名地点实体和标志性地点实体,以及各地点实体之间的对应关系。
第二确定模块530,用于从至少一个标准化地址中,确定与待识别内容相对应的第一目标标准化地址。第一目标标准化地址用于表征事件的发生地。
根据本公开的实施例,在目标地点实体包括标准化地点实体的情况下,第一确定模块包括第一确定单元和第二确定单元。
第一确定单元,用于根据地址图谱,确定与标准化地点实体相对应的第一标准化地址。
第二确定单元,用于将第一标准化地址确定为与标准化地点实体相对应的标准化地址。
根据本公开的实施例,在目标地点实体包括别名地点实体的情况下,第一确定模块包括第三确定单元、第四确定单元和第五确定单元。
第三确定单元,用于根据地址图谱,确定与别名地点实体相对应的第一目标标准化地点实体。
第四确定单元,用于根据地址图谱,确定与第一目标标准化地点实体相对应的第二标准化地址。
第五确定单元,用于将第二标准化地址确定为与别名地点实体相对应的标准化地址。
根据本公开的实施例,在目标地点实体包括标志性地点实体的情况下,第一确定模块包括第六确定单元、第七确定单元、第八确定单元和第九确定单元。
第六确定单元,用于确定地址图谱中的与标志性地点实体的相似度大于第一预设阈值的目标标志性地点实体。
第七确定单元,用于根据地址图谱,确定与目标标志性地点实体相对应的第二目标标准化地点实体。
第八确定单元,用于根据地址图谱,确定与第二目标标准化地点实体相对应的第三标准化地址。
第九确定单元,用于将第三标准化地址确定为与标志性地点实体相对应的标准化地址。
根据本公开的实施例,第二确定模块包括第十确定单元、第十一确定单元、第十二确定单元和第十三确定单元。
第十确定单元,用于针对每个标准化地址中的每个地点实体,确定地点实体在至少一个标准化地址中的第一出现频次。
第十一确定单元,用于针对每个标准化地址,根据标准化地址中的每个地点实体所对应的第一出现频次中的最大频次,确定与标准化地址相对应的目标频次,得到与至少一个标准化地址相对应的至少一个目标频次。
第十二确定单元,用于从至少一个目标频次中,确定最大目标频次。
第十三确定单元,用于将与最大目标频次相对应的标准化地址确定为第一目标标准化地址。
根据本公开的实施例,与最大目标频次相对应的标准化地址包括多个标准化地址。第十三确定单元包括第一确定子单元。
第一确定子单元,用于将多个标准化地址中包括的地点实体的数目最多的标准化地址确定为第一目标标准化地址。
根据本公开的实施例,地址识别装置还包括第三确定模块、第四确定模块和第五确定模块。
第三确定模块,用于在用于描述事件的待识别内容的数目包括多个的情况下,针对每个待识别内容,确定与待识别内容相对应的第一目标标准化地址,得到多个第一目标标准化地址。
第四确定模块,用于确定与事件相对应的预设字段信息。
第五确定模块,用于在确定存在与预设字段信息相对应的第二目标标准化地址,且多个第一目标标准化地址和第二目标标准化地址之间存在相同的标准化地址的情况下,根据多个第一目标标准化地址和第二目标标准化地址,确定用于表征事件的发生地的第三目标标准化地址。
根据本公开的实施例,第五确定模块包括第十四确定单元。
第十四确定单元,用于在相同的标准化地址中包括一个标准化地址的情况下,将相同的标准化地址确定为第三目标标准化地址。
根据本公开的实施例,标准化地点实体包括县级地点实体、地级地点实体和省级地点实体其中至少之一。第五确定模块包括第十五确定单元、第十六确定单元和第十七确定单元。
第十五确定单元,用于在相同的标准化地址包括多个标准化地址,且相同的标准化地址包括至少一个第一县级地点实体的情况下,从相同的标准化地址中,获取与满足第一预设条件的第一县级地点实体相对应的标准化地址,确定为第三目标标准化地址。
第十六确定单元,用于在相同的标准化地址包括多个标准化地址,且相同的标准化地址包括至少一个第一地级地点实体且不包括第一县级地点实体的情况下,从相同的标准化地址中,获取与满足第二预设条件的第一地级地点实体相对应的标准化地址,确定为第三目标标准化地址。
第十七确定单元,用于在相同的标准化地址包括多个标准化地址,且相同的标准化地址包括第一省级地点实体且不包括第一县级地点实体和第一地级地点实体的情况下,从相同的标准化地址中,获取与满足第三预设条件的第一省级地点实体相对应的标准化地址,确定为第三目标标准化地址。
根据本公开的实施例,多个第一目标标准化地址中包括至少一个第二县级地点实体和至少一个第二地级地点实体。第十五确定单元包括第二确定子单元、第三确定子单元、第四确定子单元、第五确定子单元、第六确定子单元和第七确定子单元。
第二确定子单元,用于针对每个第二县级地点实体,确定第二县级地点实体在多个第一目标标准化地址中的第二出现频次。
第三确定子单元,用于从至少一个第二县级地点实体中,确定第二出现频次的数值最高的预设数目个目标第二县级地点实体。
第四确定子单元,用于针对每个第二地级地点实体,确定第二地级地点实体在多个第一目标标准化地址中的第三出现频次。
第五确定子单元,用于从至少一个第二地级地点实体中,确定第三出现频次的数值最高的预设数目个目标第二地级地点实体。
第六确定子单元,用于在至少一个第一县级地点实体中存在与目标第二县级地点实体相同的目标第一县级地点实体的情况下,确定与目标第一县级地点实体相对应的第一目标地级地点实体。
第七确定子单元,用于在目标第二地级地点实体中包括第一目标地级地点实体的情况下,将与目标第一县级地点实体和第一目标地级地点实体相对应的标准化地址确定为第三目标标准化地址。
根据本公开的实施例,多个第一目标标准化地址中包括至少一个第三地级地点实体。第十六确定单元包括第八确定子单元、第九确定子单元和第十确定子单元。
第八确定子单元,用于针对每个第三地级地点实体,确定第三地级地点实体在多个第一目标标准化地址中的第四出现频次。
第九确定子单元,用于从至少一个第三地级地点实体中,确定第四出现频次的数值最高的预设数目个目标第三地级地点实体。
第十确定子单元,用于在至少一个第一地级地点实体中存在与目标第三地级地点实体相同的目标第一地级地点实体的情况下,将与目标第一地级地点实体相对应的标准化地址确定为第三目标标准化地址。
根据本公开的实施例,多个第一目标标准化地址中包括至少一个第二省级地点实体。第十七确定单元包括第十一确定子单元、第十二确定子单元和第十三确定子单元。
第十一确定子单元,用于针对每个第二省级地点实体,确定第二省级地点实体在多个第一目标标准化地址中的第五出现频次。
第十二确定子单元,用于从至少一个第二省级地点实体中,确定第五出现频次的数值最高的预设数目个目标第二省级地点实体。
第十三确定子单元,用于在至少一个第一省级地点实体中存在与目标第二省级地点实体相同的目标第一省级地点实体的情况下,将与第五出现频次的数值最高的目标第一省级地点实体相对应的标准化地址确定为第三目标标准化地址。
根据本公开的实施例,地址识别装置还包括第六确定模块。
第六确定模块,用于在确定不存在与预设字段信息相对应的第二目标标准化地址,或者多个第一目标标准化地址和第二目标标准化地址之间不存在相同的标准化地址的情况下,根据多个第一目标标准化地址,确定用于表征事件的发生地的第三目标标准化地址。
根据本公开的实施例,第六确定模块包括第十八确定单元、第十九确定单元和第二十确定单元。
第十八确定单元,用于在多个第一目标标准化地址包括至少一个第三县级地点实体的情况下,从多个第一目标标准化地址中,获取与满足第四预设条件的第三县级地点实体相对应的标准化地址,确定为第三目标标准化地址。
第十九确定单元,用于在多个第一目标标准化地址包括至少一个第四地级地点实体且不包括第三县级地点实体的情况下,从多个第一目标标准化地址中,获取与满足第五预设条件的第四地级地点实体相对应的标准化地址,确定为第三目标标准化地址。
第二十确定单元,用于在多个第一目标标准化地址包括第三省级地点实体且不包括第三县级地点实体和第四地级地点实体的情况下,从多个第一目标标准化地址中,获取与满足第六预设条件的第三省级地点实体相对应的标准化地址,确定为第三目标标准化地址。
根据本公开的实施例,多个第一目标标准化地址中还包括至少一个第五地级地点实体。第十八确定单元包括第十四确定子单元、第十五确定子单元、第十六确定子单元、第十七确定子单元、第十八确定子单元和第十九确定子单元。
第十四确定子单元,用于针对每个第三县级地点实体,确定第三县级地点实体在多个第一目标标准化地址中的第六出现频次。
第十五确定子单元,用于在第六出现频次小于第二预设阈值的情况下,从多个第一目标标准化地址中,获取与满足第五预设条件的第四地级地点实体相对应的标准化地址,确定为第三目标标准化地址。
第十六确定子单元,用于在第六出现频次大于或等于第二预设阈值的情况下,确定与大于或等于第二预设阈值的目标第三县级地点实体相对应的第二目标地级地点实体。
第十七确定子单元,用于针对每个第五地级地点实体,确定第五地级地点实体在多个第一目标标准化地址中的第七出现频次。
第十八确定子单元,用于从至少一个第五地级地点实体中,确定第七出现频次的数值最高的预设数目个目标第五地级地点实体。
第十九确定子单元,用于在目标第五地级地点实体中包括第二目标地级地点实体的情况下,将与目标第三县级地点实体和第二目标地级地点实体相对应的标准化地址确定为第三目标标准化地址。
根据本公开的实施例,第十九确定单元包括第二十确定子单元、第二十一确定子单元和第二十二确定子单元。
第二十确定子单元,用于针对每个第四地级地点实体,确定第四地级地点实体在多个第一目标标准化地址中的第八出现频次。
第二十一确定子单元,用于在第八出现频次小于第三预设阈值的情况下,从多个第一目标标准化地址中,获取与满足第六预设条件的第三省级地点实体相对应的标准化地址,确定为第三目标标准化地址。
第二十二确定子单元,用于在第八出现频次大于或等于第三预设阈值的情况下,将与第八出现频次的数值最高的目标第四地级地点实体相对应的标准化地址确定为第三目标标准化地址。
根据本公开的实施例,第二十确定单元包括第二十三确定子单元和第二十四确定子单元。
第二十三确定子单元,用于针对每个第三省级地点实体,确定第三省级地点实体在多个第一目标标准化地址中的第九出现频次。
第二十四确定子单元,用于将与第九出现频次的数值最高的目标第三省级地点实体相对应的标准化地址确定为第三目标标准化地址。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的地址识别方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的地址识别方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的地址识别方法。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如地址识别方法。例如,在一些实施例中,地址识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的地址识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行地址识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种地址识别方法,包括:
对用于描述事件的待识别内容进行地点实体识别,得到目标地点实体,其中,所述目标地点实体包括标准化地点实体、别名地点实体和标志性地点实体其中至少之一;
针对所述目标地点实体中每种类型的地点实体,根据地址图谱,确定与所述地点实体相对应的标准化地址,得到至少一个标准化地址,其中,所述地址图谱包括标准化地点实体、别名地点实体和标志性地点实体,以及各地点实体之间的对应关系;以及
从所述至少一个标准化地址中,确定与所述待识别内容相对应的第一目标标准化地址,其中,所述第一目标标准化地址用于表征所述事件的发生地,所述从所述至少一个标准化地址中,确定与所述待识别内容相对应的第一目标标准化地址包括:
针对每个所述标准化地址中的每个地点实体,确定所述地点实体在所述至少一个标准化地址中的第一出现频次;
针对每个所述标准化地址,根据所述标准化地址中的每个地点实体所对应的第一出现频次中的最大频次,确定与所述标准化地址相对应的目标频次,得到与所述至少一个标准化地址相对应的至少一个目标频次;
从所述至少一个目标频次中,确定最大目标频次;以及
将与所述最大目标频次相对应的标准化地址确定为所述第一目标标准化地址。
2. 根据权利要求1所述的方法,其中,在所述目标地点实体包括标准化地点实体的情况下,所述根据地址图谱,确定与所述地点实体相对应的标准化地址包括:
根据所述地址图谱,确定与所述标准化地点实体相对应的第一标准化地址;以及
将所述第一标准化地址确定为与所述标准化地点实体相对应的标准化地址。
3.根据权利要求1所述的方法,其中,在所述目标地点实体包括别名地点实体的情况下,所述根据地址图谱,确定与所述地点实体相对应的标准化地址包括:
根据所述地址图谱,确定与所述别名地点实体相对应的第一目标标准化地点实体;
根据所述地址图谱,确定与所述第一目标标准化地点实体相对应的第二标准化地址;以及
将所述第二标准化地址确定为与所述别名地点实体相对应的标准化地址。
4.根据权利要求1所述的方法,其中,在所述目标地点实体包括标志性地点实体的情况下,所述根据地址图谱,确定与所述地点实体相对应的标准化地址包括:
确定所述地址图谱中的与所述标志性地点实体的相似度大于第一预设阈值的目标标志性地点实体;
根据所述地址图谱,确定与所述目标标志性地点实体相对应的第二目标标准化地点实体;
根据所述地址图谱,确定与所述第二目标标准化地点实体相对应的第三标准化地址;以及
将所述第三标准化地址确定为与所述标志性地点实体相对应的标准化地址。
5.根据权利要求1所述的方法,其中,所述与所述最大目标频次相对应的标准化地址包括多个标准化地址;
所述将与所述最大目标频次相对应的标准化地址确定为所述第一目标标准化地址包括:
将所述多个标准化地址中包括的地点实体的数目最多的标准化地址确定为所述第一目标标准化地址。
6.根据权利要求1所述的方法,还包括:
在用于描述所述事件的待识别内容的数目包括多个的情况下,针对每个所述待识别内容,确定与所述待识别内容相对应的第一目标标准化地址,得到多个第一目标标准化地址;
确定与所述事件相对应的预设字段信息;以及
在确定存在与所述预设字段信息相对应的第二目标标准化地址,且所述多个第一目标标准化地址和所述第二目标标准化地址之间存在相同的标准化地址的情况下,根据所述多个第一目标标准化地址和所述第二目标标准化地址,确定用于表征所述事件的发生地的第三目标标准化地址。
7.根据权利要求6所述的方法,其中,所述根据所述多个第一目标标准化地址和所述第二目标标准化地址,确定用于表征所述事件的发生地的第三目标标准化地址包括:
在所述相同的标准化地址中包括一个标准化地址的情况下,将所述相同的标准化地址确定为所述第三目标标准化地址。
8.根据权利要求6所述的方法,其中,所述标准化地点实体包括县级地点实体、地级地点实体和省级地点实体其中至少之一;
所述根据所述多个第一目标标准化地址和所述第二目标标准化地址,确定用于表征所述事件的发生地的第三目标标准化地址包括:
在所述相同的标准化地址包括多个标准化地址,且所述相同的标准化地址包括至少一个第一县级地点实体的情况下,从所述相同的标准化地址中,获取与满足第一预设条件的第一县级地点实体相对应的标准化地址,确定为所述第三目标标准化地址;
在所述相同的标准化地址包括多个标准化地址,且所述相同的标准化地址包括至少一个第一地级地点实体且不包括第一县级地点实体的情况下,从所述相同的标准化地址中,获取与满足第二预设条件的第一地级地点实体相对应的标准化地址,确定为所述第三目标标准化地址;以及
在所述相同的标准化地址包括多个标准化地址,且所述相同的标准化地址包括第一省级地点实体且不包括第一县级地点实体和第一地级地点实体的情况下,从所述相同的标准化地址中,获取与满足第三预设条件的第一省级地点实体相对应的标准化地址,确定为所述第三目标标准化地址。
9.根据权利要求8所述的方法,其中,所述多个第一目标标准化地址中包括至少一个第二县级地点实体和至少一个第二地级地点实体;
所述从所述相同的标准化地址中,获取与满足第一预设条件的第一县级地点实体相对应的标准化地址,确定为所述第三目标标准化地址包括:
针对每个所述第二县级地点实体,确定所述第二县级地点实体在所述多个第一目标标准化地址中的第二出现频次;
从所述至少一个第二县级地点实体中,确定所述第二出现频次的数值最高的预设数目个目标第二县级地点实体;
针对每个所述第二地级地点实体,确定所述第二地级地点实体在所述多个第一目标标准化地址中的第三出现频次;
从所述至少一个第二地级地点实体中,确定所述第三出现频次的数值最高的预设数目个目标第二地级地点实体;
在所述至少一个第一县级地点实体中存在与所述目标第二县级地点实体相同的目标第一县级地点实体的情况下,确定与所述目标第一县级地点实体相对应的第一目标地级地点实体;以及
在所述目标第二地级地点实体中包括所述第一目标地级地点实体的情况下,将与所述目标第一县级地点实体和所述第一目标地级地点实体相对应的标准化地址确定为所述第三目标标准化地址。
10.根据权利要求8所述的方法,其中,所述多个第一目标标准化地址中包括至少一个第三地级地点实体;
所述从所述相同的标准化地址中,获取与满足第二预设条件的第一地级地点实体相对应的标准化地址,确定为所述第三目标标准化地址包括:
针对每个所述第三地级地点实体,确定所述第三地级地点实体在所述多个第一目标标准化地址中的第四出现频次;
从所述至少一个第三地级地点实体中,确定所述第四出现频次的数值最高的预设数目个目标第三地级地点实体;以及
在所述至少一个第一地级地点实体中存在与所述目标第三地级地点实体相同的目标第一地级地点实体的情况下,将与所述目标第一地级地点实体相对应的标准化地址确定为所述第三目标标准化地址。
11.根据权利要求8所述的方法,其中,所述多个第一目标标准化地址中包括至少一个第二省级地点实体;
所述从所述相同的标准化地址中,获取与满足第三预设条件的第一省级地点实体相对应的标准化地址,确定为所述第三目标标准化地址包括:
针对每个所述第二省级地点实体,确定所述第二省级地点实体在所述多个第一目标标准化地址中的第五出现频次;
从所述至少一个第二省级地点实体中,确定所述第五出现频次的数值最高的预设数目个目标第二省级地点实体;以及
在所述至少一个第一省级地点实体中存在与所述目标第二省级地点实体相同的目标第一省级地点实体的情况下,将与所述第五出现频次的数值最高的目标第一省级地点实体相对应的标准化地址确定为所述第三目标标准化地址。
12.根据权利要求6至11中任一所述的方法,还包括:
在确定不存在与所述预设字段信息相对应的第二目标标准化地址,或者所述多个第一目标标准化地址和所述第二目标标准化地址之间不存在相同的标准化地址的情况下,根据所述多个第一目标标准化地址,确定用于表征所述事件的发生地的第三目标标准化地址。
13.根据权利要求12所述的方法,其中,所述根据所述多个第一目标标准化地址,确定用于表征所述事件的发生地的第三目标标准化地址包括:
在所述多个第一目标标准化地址包括至少一个第三县级地点实体的情况下,从所述多个第一目标标准化地址中,获取与满足第四预设条件的第三县级地点实体相对应的标准化地址,确定为所述第三目标标准化地址;
在所述多个第一目标标准化地址包括至少一个第四地级地点实体且不包括第三县级地点实体的情况下,从所述多个第一目标标准化地址中,获取与满足第五预设条件的第四地级地点实体相对应的标准化地址,确定为所述第三目标标准化地址;以及
在所述多个第一目标标准化地址包括第三省级地点实体且不包括第三县级地点实体和第四地级地点实体的情况下,从所述多个第一目标标准化地址中,获取与满足第六预设条件的第三省级地点实体相对应的标准化地址,确定为所述第三目标标准化地址。
14.根据权利要求13所述的方法,其中,所述多个第一目标标准化地址中还包括至少一个第五地级地点实体;
所述从所述多个第一目标标准化地址中,获取与满足第四预设条件的第三县级地点实体相对应的标准化地址,确定为所述第三目标标准化地址包括:
针对每个所述第三县级地点实体,确定所述第三县级地点实体在所述多个第一目标标准化地址中的第六出现频次;
在所述第六出现频次小于第二预设阈值的情况下,从所述多个第一目标标准化地址中,获取与满足第五预设条件的第四地级地点实体相对应的标准化地址,确定为所述第三目标标准化地址;
在所述第六出现频次大于或等于所述第二预设阈值的情况下,确定与大于或等于所述第二预设阈值的目标第三县级地点实体相对应的第二目标地级地点实体;
针对每个所述第五地级地点实体,确定所述第五地级地点实体在所述多个第一目标标准化地址中的第七出现频次;
从所述至少一个第五地级地点实体中,确定所述第七出现频次的数值最高的预设数目个目标第五地级地点实体;以及
在所述目标第五地级地点实体中包括所述第二目标地级地点实体的情况下,将与所述目标第三县级地点实体和所述第二目标地级地点实体相对应的标准化地址确定为所述第三目标标准化地址。
15.根据权利要求13所述的方法,其中,所述从所述多个第一目标标准化地址中,获取与满足第五预设条件的第四地级地点实体相对应的标准化地址,确定为所述第三目标标准化地址包括:
针对每个所述第四地级地点实体,确定所述第四地级地点实体在所述多个第一目标标准化地址中的第八出现频次;
在所述第八出现频次小于第三预设阈值的情况下,从所述多个第一目标标准化地址中,获取与满足第六预设条件的第三省级地点实体相对应的标准化地址,确定为所述第三目标标准化地址;以及
在所述第八出现频次大于或等于所述第三预设阈值的情况下,将与所述第八出现频次的数值最高的目标第四地级地点实体相对应的标准化地址确定为所述第三目标标准化地址。
16. 根据权利要求13所述的方法,其中,所述从所述多个第一目标标准化地址中,获取与满足第六预设条件的第三省级地点实体相对应的标准化地址,确定为所述第三目标标准化地址包括:
针对每个所述第三省级地点实体,确定所述第三省级地点实体在所述多个第一目标标准化地址中的第九出现频次;以及
将与所述第九出现频次的数值最高的目标第三省级地点实体相对应的标准化地址确定为所述第三目标标准化地址。
17.一种地址识别装置,包括:
识别模块,用于对用于描述事件的待识别内容进行地点实体识别,得到目标地点实体,其中,所述目标地点实体包括标准化地点实体、别名地点实体和标志性地点实体其中至少之一;
第一确定模块,用于针对所述目标地点实体中每种类型的地点实体,根据地址图谱,确定与所述地点实体相对应的标准化地址,得到至少一个标准化地址,其中,所述地址图谱包括标准化地点实体、别名地点实体和标志性地点实体,以及各地点实体之间的对应关系;以及
第二确定模块,用于从所述至少一个标准化地址中,确定与所述待识别内容相对应的第一目标标准化地址,其中,所述第一目标标准化地址用于表征所述事件的发生地,所述第二确定模块包括:
第十确定单元,用于针对每个标准化地址中的每个地点实体,确定地点实体在至少一个标准化地址中的第一出现频次;
第十一确定单元,用于针对每个标准化地址,根据标准化地址中的每个地点实体所对应的第一出现频次中的最大频次,确定与标准化地址相对应的目标频次,得到与至少一个标准化地址相对应的至少一个目标频次;
第十二确定单元,用于从至少一个目标频次中,确定最大目标频次;以及
第十三确定单元,用于将与最大目标频次相对应的标准化地址确定为第一目标标准化地址。
18. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-16中任一项所述的方法。
19.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-16中任一项所述的方法。
CN202111401855.1A 2021-11-24 2021-11-24 地址识别方法、装置、电子设备以及存储介质 Active CN114117004B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111401855.1A CN114117004B (zh) 2021-11-24 2021-11-24 地址识别方法、装置、电子设备以及存储介质
US17/992,884 US20230086429A1 (en) 2021-11-24 2022-11-22 Method of recognizing address, electronic device and storage medium
EP22209295.9A EP4187431A1 (en) 2021-11-24 2022-11-24 Address identification method and apparatus, electronic device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111401855.1A CN114117004B (zh) 2021-11-24 2021-11-24 地址识别方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN114117004A CN114117004A (zh) 2022-03-01
CN114117004B true CN114117004B (zh) 2023-06-30

Family

ID=80371574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111401855.1A Active CN114117004B (zh) 2021-11-24 2021-11-24 地址识别方法、装置、电子设备以及存储介质

Country Status (3)

Country Link
US (1) US20230086429A1 (zh)
EP (1) EP4187431A1 (zh)
CN (1) CN114117004B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628943A (zh) * 2018-03-28 2018-10-09 北京三快在线科技有限公司 一种数据处理方法、装置和电子设备
CN112269885A (zh) * 2020-11-16 2021-01-26 北京百度网讯科技有限公司 用于处理数据的方法、装置、设备以及存储介质
CN112347222A (zh) * 2020-10-22 2021-02-09 中科曙光南京研究院有限公司 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统
CN112906394A (zh) * 2021-03-18 2021-06-04 北京字节跳动网络技术有限公司 地址识别方法、装置、设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865306B2 (en) * 2000-09-28 2011-01-04 Michael Mays Devices, methods, and systems for managing route-related information
US9064288B2 (en) * 2006-03-17 2015-06-23 Fatdoor, Inc. Government structures and neighborhood leads in a geo-spatial environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628943A (zh) * 2018-03-28 2018-10-09 北京三快在线科技有限公司 一种数据处理方法、装置和电子设备
CN112347222A (zh) * 2020-10-22 2021-02-09 中科曙光南京研究院有限公司 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统
CN112269885A (zh) * 2020-11-16 2021-01-26 北京百度网讯科技有限公司 用于处理数据的方法、装置、设备以及存储介质
CN112906394A (zh) * 2021-03-18 2021-06-04 北京字节跳动网络技术有限公司 地址识别方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于知识图谱的中文地址匹配方法研究;陈雨晖等;《计算机工程与应用》;第58卷(第14期);306-312 *

Also Published As

Publication number Publication date
CN114117004A (zh) 2022-03-01
EP4187431A1 (en) 2023-05-31
US20230086429A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
CN112148843B (zh) 文本处理方法、装置、终端设备和存储介质
CN112784062B (zh) 一种成语知识图谱构建方法及装置
CN112989235B (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN113660541B (zh) 新闻视频的摘要生成方法及装置
CN112559717B (zh) 搜索匹配方法、装置、电子设备以及存储介质
CN112506864B (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN113239295A (zh) 搜索方法、装置、电子设备以及存储介质
CN116848490A (zh) 使用模型相交进行文档分析
CN113722600B (zh) 应用于大数据的数据查询方法、装置、设备及产品
CN113191145B (zh) 关键词的处理方法、装置、电子设备和介质
CN112784050A (zh) 主题分类数据集生成方法、装置、设备和介质
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质
CN114117004B (zh) 地址识别方法、装置、电子设备以及存储介质
CN116108844A (zh) 一种风险信息识别方法、装置、设备及存储介质
CN113704494B (zh) 基于知识图谱的实体检索方法、装置、设备以及存储介质
CN115935086A (zh) 地址信息识别方法、信息推送方法以及信息展示方法
US20220129634A1 (en) Method and apparatus for constructing event library, electronic device and computer readable medium
CN115658869A (zh) 一种实体检索方法、装置、电子设备及存储介质
CN112818221B (zh) 实体的热度确定方法、装置、电子设备及存储介质
CN115357765A (zh) 数据搜索方法、装置、电子设备以及存储介质
CN114201607A (zh) 一种信息处理的方法和装置
CN114417862A (zh) 文本匹配方法、文本匹配模型的训练方法和装置
CN114861062B (zh) 信息过滤方法和装置
CN116610782B (zh) 文本检索方法、装置、电子设备及介质
CN113220838B (zh) 确定关键信息的方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant