CN113568951A - 一种数据挖掘、处理方法和装置,存储介质和电子设备 - Google Patents

一种数据挖掘、处理方法和装置,存储介质和电子设备 Download PDF

Info

Publication number
CN113568951A
CN113568951A CN202110870675.1A CN202110870675A CN113568951A CN 113568951 A CN113568951 A CN 113568951A CN 202110870675 A CN202110870675 A CN 202110870675A CN 113568951 A CN113568951 A CN 113568951A
Authority
CN
China
Prior art keywords
information
entity
current
entity unit
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110870675.1A
Other languages
English (en)
Inventor
庞博
刘小杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rajax Network Technology Co Ltd
Original Assignee
Rajax Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rajax Network Technology Co Ltd filed Critical Rajax Network Technology Co Ltd
Priority to CN202110870675.1A priority Critical patent/CN113568951A/zh
Publication of CN113568951A publication Critical patent/CN113568951A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种数据挖掘、处理方法和装置,存储介质和电子设备,其中所述方法包括:根据当前第一实体对象信息,获取满足选取要求的第二实体对象信息集合;当前第一实体对象信息和第二实体对象信息集合中的第二实体对象信息为第一实体类型;对第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息;对当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征当前地址信息的当前实体单元结构化信息;根据当前实体单元结构化信息与候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息;从而定位场景提供较为丰富的数据支持,提高定位准确性以及减少定位耗时。

Description

一种数据挖掘、处理方法和装置,存储介质和电子设备
技术领域
本申请涉及计算机应用技术领域,具体涉及数据挖掘方法和装置,数据处理方法和装置。本申请同时涉及一种计算机存储介质和电子设备。
背景技术
随着互联网的发展,基于计算机应用技术开发出的应用软件被广泛的使用在日常生活中。例如:生活服务类应用软件。生活服务类应用软件为生活提供了诸多便利性。不论线上还是线下的点餐服务,购物服务、地图导航服务、医疗服务等应用均有涉及到地址,例如:商家地址、用户地址、服务机构地址等,所述地址可以通过搜索或GPS定位等方式,实现在应用服务上输出。
发明内容
本申请提供一种数据挖掘方法,以解决现有技术中地址信息表示的局限性问题。
本申请提供一种数据挖掘方法,包括:根据当前第一实体对象信息,获取满足选取要求的第二实体对象信息集合;其中,所述当前第一实体对象信息和所述第二实体对象信息集合中的第二实体对象信息为第一实体类型;对所述第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息;对所述当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征所述当前地址信息的当前实体单元结构化信息;根据所述当前实体单元结构化信息与所述候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息。
在一些实施例中,所述对所述第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息,包括:根据对所述地址信息的解析,获取与所述地址信息对应的实体单元列表;提取所述实体单元列表中的前缀实体单元信息和第一实体单元信息;其中,所述前缀实体单元信息为第二实体类型和/或所述第一实体类型,所述第一实体单元信息为所述第一实体类型;将所述前缀实体单元信息和第一实体单元信息以键值对的结构化方式进行存储;将所述存储的信息,确定为所述候选实体单元结构化信息。
在一些实施例中,所述提取所述实体单元列表中的前缀实体单元信息和第一实体单元信息,包括:将根据所述实体单元列表选取的属于所述第一实体类型的实体单元信息,确定为所述第一实体单元信息;根据所述第一实体单元信息在所述实体单元列表中的位置,按照所述排列顺序的逆方向,查找满足实体类型选取要求的待选实体单元信息;将所述待选实体单元信息、以及所述待选实体单元信息与所述第一实体单元信息之间的实体单元信息确定为所述前缀实体单元信息;所述将所述前缀实体单元信息和所述第一实体单元信息以候选键值对的结构化方式进行存储,包括:将所述前缀实体单元信息、以及所述第一实体单元信息的首位字符和末尾字符,确定为所述候选键值对的候选关键字进行存储;将所述前缀实体单元信息和所述第一实体单元信息、以及所述前缀实体单元信息和所述第一实体单元信息在所述第二实体对象信息的地址集合内出现的次数,确定为所述候选键值对的候选值进行存储。
在一些实施例中,所述对所述当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征所述当前地址信息的当前实体单元结构化信息,包括:根据对所述当前地址信息的解析,获取与所述当前地址信息对应的当前实体单元列表;提取所述当前实体单元列表中的前缀当前实体单元信息和第一当前实体单元信息;其中,所述前缀当前实体单元信息为第一实体类型和/或所述第二实体类型,所述第一当前实体单元信息为所述第一实体类型;将所述前缀当前实体单元信息和所述第一当前实体单元信息的当前键值对的结构化方式,确定为所述当前实体单元结构化信息。
在一些实施例中,所述提取所述当前实体单元列表中的前缀当前实体单元信息和第一当前实体单元信息,包括:根据所述当前实体单元列表中,按照排列顺序选取的首次出现的,属于所述第一实体类型的实体单元信息,确定为所述第一当前实体单元信息;根据所述第一当前实体单元信息在所述实体单元列表中的位置,按照所述排列顺序的逆方向,查找满足实体类型选取要求的待选当前实体单元信息;将所述待选当前实体单元信息、以及所述待选当前实体单元信息与所述第一当前实体单元信息之间的实体单元信息确定为所述前缀当前实体单元信息。
在一些实施例中,所述将所述前缀当前实体单元信息和所述第一当前实体单元信息的当前键值对的结构化方式,确定为所述当前实体单元结构化信息,包括:将所述前缀当前实体单元信息、以及所述第一当前实体单元信息的首位字符和末尾字符,确定为所述当前键值对的当前关键字;将所述前缀当前实体单元信息和第一当前实体单元信息,确定为所述当前键值对的当前值;将所述当前关键字和对应的所述当前值,确定为所述当前实体单元结构化信息。
在一些实施例中,所述根据所述当前实体单元结构化信息与所述候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息,包括:将所述当前实体单元结构化信息中的当前键值对的当前关键字,与所述候选实体单元结构化信息中的候选键值对的候选关键字进行匹配,确定所述候选实体结构化信息的匹配范围;根据所述当前实体单元结构化信息中当前键值对中的当前值,在所述匹配范围内,选取满足筛选条件的所述候选值将选取的所述候选值对应的所述第二实体对象信息,确定为用于描述所述当前第一实体对象信息的所述第一种表示信息。
在一些实施例中,所述根据所述当前实体单元结构化信息中当前键值对中的当前值,在所述匹配范围内,选取满足筛选条件的所述候选值,包括:确定所述当前值的字符是否与所述候选实体单元结构化信息的匹配范围内的所述候选值的字符匹配;和/或,确定所述候选值的字符是否与所述当前值的字符匹配;若是,则将匹配的候选值确定为选取的所述候选值。
在一些实施例中,还包括:当所述当前值的字符与所述候选实体单元结构化信息的匹配范围内的所述候选值的字符匹配;或者,当所述候选值的字符与所述当前值的字符匹配时;确定所述当前值在所述候选值中出现的次数是否大于或等于设置的次数阈值;若是,则执行将匹配的候选值为选取的所述候选值的步骤。
在一些实施例中,还包括:根据所述当前第一实体对象信息、所述第二实体对象信息和第三实体对象信息之间的位置关系,生成所述当前实体单元结构化信息与地址库中地址信息的映射关系;根据所述映射关系,对所述当前第一实体对象和所述第二实体对象对应的所述第一种表示信息进行合并;根据合并后的第一种表示信息的集合,确定所述当前第一实体对象信息的第二种表示信息。
在一些实施例中,所述根据所述映射关系,对所述当前第一实体对象和所述第二实体对象对应的所述第一种表示信息进行合并,包括:根据所述映射关系,建立所述当前第一实体对象和所述第二实体对象对应的所述第一种表示信息的信息列表;根据所述当前实体单元化结构信息,对所述第一种表示信息的信息列表进行合并,获得所述第一种表示信息的合并列表。
在一些实施例中,所述根据合并后的第一种表示信息的集合,确定所述当前第一实体对象信息的第二种表示信息,包括:根据所述合并列表构建所述第一种表示信息的邻接矩阵;将所述邻接矩阵中确定的最大连通子图对应的所述第一种表示信息,确定为所述当前第一实体对象信息的所述第二种表示信息。
本申请还提供一种数据挖掘装置,包括:获取单元,用于根据当前第一实体对象信息,获取满足选取要求的第二实体对象信息集合;其中,所述当前第一实体对象信息和所述第二实体对象信息集合中的第二实体对象信息为第一实体类型;第一解析单元,用于对所述第二实体对象信息对应的地址信息进行解析,确定用于表征所述第二实体对象信息的地址信息的候选实体单元结构化信息;第二解析单元,用于对所述当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征所述当前地址信息的当前实体单元结构化信息;确定单元,用于根据所述当前实体单元结构化信息与所述候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息。
本申请还提供一种数据处理方法,包括:根据对获取的地址信息进行解析,确定所述地址信息的实体单元信息列表;按照指定的实体类型组合,选取所述实体单元信息列表中至少三个相邻实体单元信息;其中,所述相邻实体单元信息包括第一实体单元信息、第二实体单元信息和第三实体单元信息;根据所述第一实体单元信息、第二实体单元信息和第三实体单元信息确定的实体组合中,查找满足选取要求的所述实体组合;将查找的所述实体组合中的所述第三实体单元信息,确定为用于描述所述地址信息中指定实体对象信息的第一种表示信息。
本申请还提供一种数据处理装置,包括:解析单元,用于根据对获取的地址信息进行解析,确定所述地址信息的实体单元信息列表;选取单元,用于按照指定的实体类型组合,选取所述实体单元信息列表中至少三个相邻实体单元信息;其中,所述相邻实体单元信息包括第一实体单元信息、第二实体单元信息和第三实体单元信息;查找单元,用于根据所述第一实体单元信息、第二实体单元信息和第三实体单元信息确定的实体组合中,查找满足选取要求的所述实体组合;确定单元,用于将查找的所述实体组合中的所述第三实体单元信息,确定为用于描述所述地址信息中指定实体对象信息的第一种表示信息。
本申请还提供一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;所述程序在被处理器读取执行时,执行采用如上所述的数据挖掘方法的步骤;或者,执行采用如上所述的数据处理方法的步骤。
本申请还提供一种电子设备,包括:处理器;存储器,用于存储对网络平台产生数据进行处理的程序,所述程序在被所述处理器读取执行时,执行采用如上所述的数据挖掘方法的步骤;或者,执行采用如上所述的数据处理方法的步骤。
与现有技术相比,本申请具有以下优点:
本申请提供的数据挖掘方法,能够根据当前第一实体对象信息,获取满足选取要求的第二实体对象信息集合;分别对对所述第二实体对象信息对应的地址信息和当前第一实体对象信息对应的地址进行解析,确定用于表征所述第二实体对象信息的地址信息的候选实体单元结构化信息和确定用于描述所述当前第一实体对象信息的第一种表示信息;通过将所述当前实体单元结构化信息与所述候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息,进而能够挖掘出针对同一实体对象信息的不同表示信息,即不同的名称表示同一实体,为后续定位场景提供较为丰富的数据支持,提高定位的准确性以及减少定位的耗时。为进一步挖掘同时实体对象信息的不同表示信息的范围,一方面还可以对已挖掘出的用于表征当前实体对象信息的第一种表示信息进行进一步挖掘,即已第一种表示信息的作为第二当前实体对象信息,按照上述步骤继续执行,从而能够获得与所述第一种表示信息为直接邻居的实体对象信息,该实体对象信息与已挖掘的当前实体对象信息为间接邻居,从而能够基于对所述当前实体对象信息获得的第一种表示信息进一步获得第二种表示信息,即一种下钻的串行挖掘方式。另一方面,还可以根据不同当前第一实体对象信息之间的位置关系来挖掘所述当前第一实体对象信息的第二种表示信息,即一种并行的挖掘方式,为进一步提高定位场景下的准确性提供数据支持。
本申请还提供一种数据处理方法,根据对获取的地址信息进行解析,确定所述地址信息的实体单元信息列表;按照指定的实体类型组合,选取所述实体单元信息列表中至少三个相邻实体单元信息;其中,所述相邻实体单元信息包括第一实体单元信息、第二实体单元信息和第三实体单元信息;根据所述第一实体单元信息、第二实体单元信息和第三实体单元信息确定的实体组合中,查找满足选取要求的所述实体组合;将查找的所述实体组合中的所述第三实体单元信息,确定为用于描述所述地址信息中指定实体对象信息的第一种表示信息;该处理过程,能够获得指定实体类型对应的实体对象信息的第一种表示信息,同时,能够保证指定实体类型对应的实体对象信息表示方式的准确性,提高定位场景下定位的准确性。
附图说明
图1是本申请提供的一种数据挖掘方法实施例的流程图;
图2是本申请提供的一种数据挖掘装置实施例的结构示意图;
图3是本申请提供的一种数据处理方法实施例的流程图;
图4是本申请提供的一种数据处理装置实施例的结构示意图;
图5是本申请提供的一种电子设备实施例的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请中使用的术语是仅仅出于对特定实施例描述的目的,而非旨在限制本申请。在本申请中和所附权利要求书中所使用的描述方式例如:“一种”、“第一”、和“第二”等,并非对数量上的限定或先后顺序上的限定,而是用来将同一类型的信息彼此区分。
结合上述背景技术可知,地址信息作为服务应用类软件中不可或缺的一种信息,对整个服务应用的服务链路具有举足轻重的作用。现有技术中,用于记载地址信息的地址库中针对各个POI(Point of Interest:兴趣点)记录的信息之间是相互独立,实际应用场景中,不同的POI数据之间存在一定内在联系,即:同样的地点可能存在不同的表达方式,例如:“近铁城市广场”和“近铁广场”实际上指代的都是相同地理位置,反之所述相同地理位置可以采用这两种方式进行表达或表示,又例如:“近铁城市广场”和“真北路818号”,也同样指代的是相同地理位置。在技术应用过程中,往往因为数据之间内在联系的缺失而数据应用存在一定的局限性,该局限性体现在应用场景下,则是当用户通过类似别名或简称的关键字进行搜索时,会导致提供给用户的地址信息出现错误,例如:搜索场景下,用户输入的地址信息中仅有真北路818号,由于真北路818号与近铁城市广场之间缺少对应关系,所以会导致定位出现错误或者定位时间耗时等问题;进而产生出一种根据地址信息挖掘对应的其他表示数据的构思,当然,在该构思中还延伸出其他需要解决的技术问题以及解决方法,下面将以此进行描述。
请参考图1所示,图1是本申请提供的一种数据挖掘方法实施例的流程图,该实施例包括:
步骤S101:根据当前第一实体对象信息,获取满足选取要求的第二实体对象信息集合;其中,所述当前第一实体对象信息和所述第二实体对象信息集合中的第二实体对象信息为第一实体类型。实体对象信息可以理解为指代地址信息中某一个地址单元信息的文本信息,实体在命名实体识别技术中指代某个文本片段。例如:地址信息包括多个实体对象,每个实体对象可以通过文本信息表示其名称,所述是对象信息可以理解为是实体对象的名称;所述当前第一实体对象信息和所述第二实体对象信息集合中的第二实体对象信息为第一实体类型;所述步骤S101中涉及有当前第一实体对象信息,第二实体对象信息集合,以及第二实体对象信息集合中的第二实体对象信息的当前第一实体对象信息可以理解为是根据地址库中获取的POI信息;POI(Point of Interest:兴趣点)可以是一栋房子、一个商铺、一个邮筒、一个公交站等,那么POI信息可以是所述兴趣点的名称,即指代所述兴趣点名称的文本信息。因此,本实施例中的第一实体类型则可以是POI类型,简称I类型;也就是可以将当前第一实体对象信息理解成指代某一兴趣点的文本信息(例如:名称的文本片段)。在本实施例中,所述地址信息可以理解为包括多个实体对象组成的信息,所述实体对象可以属于不同的实体类型,例如:“I指代POI实体类型”,“R指代路、街实体类型”,“P指代省实体类型”,“C指代市实体类型”,“D指代区、县、县级市实体类型”,“S指代街道实体类型”,“V-乡镇实体类型”,当然还可以包括RD指代巷、弄实体类型;N指代门牌号实体类型;A指代建筑片区实体类型;B指代楼宇实体类型等,此处不再一一列举。在本实施例中,主要涉及的为I,R,P,C,D,S,V等实体类型。
所述第二实体对象信息也属于第一实体类型,也即,当前第一实体对象信息和第二实体对象信息属于相同的实体类型。本实施例中,所述第二实体对象信息也是POI实体类型的实体对象,所述选取要求是选取所述当前第一实体对象信息周边的POI信息,即选取要求为周边选取要求。所述第二实体对象信息集合可以是包括多个第二实体对象信息的集合,即所述周边的POI信息可以包括多个,例如:选取100个。所述周边选取要求可以是根据GeoHash地址编码方式确定,满足GeoHash地址编码方式要求的为满足选取要求;或者,也可以已所述当前第一实体对象为中心,预定距离为半径确定的周边POI(第二实体对象信息集合),满足预定距离要求的则为满足选取要求。在本实施例中,所述周边POI的确定,以采用GeoHash地址编码方式为例实现,根据GeoHash地址编码方式确定出所述当前第一实体对象信息的GeoHash编码,即包括九个区域,或者说所述当前第一实体对象信息当前区域加上周边的八个区域。在九个区域提取所述第二实体对象信息,作为所述第二实体对象信息集合中的元素;例如:按geohash的7位,获取当前POI(当前第一实体对象信息)的周边POI(第二实体对象信息集合),依经纬度计算当前POI和周边POI的距离,取离当前POI最近的100个POI作为和当前POI绑定在一起的POI列表。关于GeoHash地址编码方式属于现有技术,此处不再进行详细描述。例如:当前第一实体对象信息为北京航空航天大学主楼,对应的地址为:北京市海淀区学院路37号北京航空航天大学教学楼,根据GeoHash地址编码方式可以获取当前第一实体对象信息的周边POI,即第二实体对象信息,例如:北航教学楼、北京航空航天大学教学思源楼、北京航空航天大学教学北配楼、北京航空航天大学教学合一楼、北京航空航天大学游泳馆等,此处不再一一列举。如下表1所示:
Figure BDA0003188785130000081
Figure BDA0003188785130000091
步骤S102:对所述第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息;
所述步骤S102的具体实现过程可以包括:
步骤S102-1:根据对所述地址信息的解析,获取与所述地址信息对应的实体单元列表;所述步骤S102-1中对所述第二实体对象信息对应的地址信息的解析可以采用命名实体识别方式,解析出所述地址信息中实体单元信息,获得实体单元列表,例如:第二实体对象信息为北航教学楼,对应的地址信息为北京市海淀区学院路37号北航教学楼,解析后获得的实体单元列表为:北京市/海淀区/学院路/37号/北航教学楼。其中,根据步骤S101中描述的实体类型可知,“北京市”属于C类型,“海淀区”属于D类型,“学院路”属于R类型,“37号”属于N类型,“北航教学楼”属于I类型。其他周边POI也相同,此处不再展开描述。
步骤S102-2:提取所述实体单元列表中的前缀实体单元信息和第一实体单元信息(poi);其中,所述前缀实体单元信息为第二实体类型和/或所述第一实体类型,所述第一实体单元信息为所述第一实体类型;所述步骤S102-2中第一实体类型为I型,所述第二实体类型可以是I,R,P,C,D,S,V中的任意一种类型。
所述步骤S102-2的具体实现过程可以包括:
步骤S102-21:将根据所述实体单元列表选取的属于所述第一实体类型的实体单元信息,确定为所述第一实体单元信息;沿用上例:北航教学楼,北京航空航天大学教学思源楼,北京航空航天大学教学北配楼,北京航空航天大学教学合一楼,北京航空航天大学游泳馆(I类型POI信息)为第一实体单元信息。需要说明的是,当实体单元列表中包括多个第一实体类型的实体单元信息时,可以分别进行提取;本实施例中仅以一个实体单元信息进行举例,本实施例中,在步骤S101中获取的第二实体对象信息集合中包括多个第二实体对象信息,其是所述第一实体对象信息的周边POI;所以步骤S102对第二实体对象信息对应的地址信息进行解析可以是对第二实体对象信息集合中的每个第二实体对象信息对应的地址信息进行解析,获得第二实体对象信息对应地址信息的实体单元列表;
步骤S102-22:根据所述第一实体单元信息在所述实体单元列表中的位置,按照所述排列顺序的逆方向,查找满足实体类型选取要求的待选实体单元信息;沿用上例:北京市/海淀区/学院路/37号/北航教学楼,向前查找,选取所述实体类型中I,R,P,C,D,S,V中的任意一种类型,该示例中,从北航教学楼向前查找37号没有对应的实体类型,则继续向前查找,查找到学院路为R实体类型,因此,按照查找的顺序可以确定“学院路”为待选实体单元信息,“37号”为待选实体单元与第一实体单元信息之间的实体单元信息;可以理解的是,对于待选实体单元信息的查找,可以直接将按照所述排列顺序的逆方向,与所述第一实体单元信息相邻的实体单元信息确定为待选实体单元信息,考虑到后续挖掘所述第一实体单元信息的第一种表示信息的准确性,避免周边区域以外的其他地址信息中存在相同的前缀实体单元信息,可以通过增加待选实体单元信息的数量,例如:按照所述排列顺序的逆方向查找满足实体类型选取要求的待选实体单元信息;所述实体类型选取要求可以是I,R,P,C,D,S,V中的任意两种类型,或者任意两种相邻的类型,所以,本实施例仅给出一种查找待选实体单元信息的示例,并非用于限制查找的方式,或者是实体类型选取要求的方式。
步骤S102-23:将所述待选实体单元信息、以及所述待选实体单元信息与所述第一实体单元信息之间的实体单元信息确定为所述前缀实体单元信息;沿用上例:北京市/海淀区/学院路/37号/北航教学楼,在所述北航教学楼和查找的待选实体单元信息(学院路)之间还存在37号,将按照查找顺序确定出前缀实体单元信息为37号学院路。
步骤S102-3:将所述前缀实体单元信息和第一实体单元信息以键值对的结构化方式进行存储;在本实施例中,所述步骤S102-3的具体实现过程可以包括:
步骤S102-31:将所述前缀实体单元信息、以及所述第一实体单元信息的首位字符和末尾字符,确定为所述候选键值对的候选关键字(key)进行存储;本实施例中,是根据第一实体单元信息中字符串的首位字符和末尾字符来确定为候选关键字,实际上还可以根据不同的场景需求选取其他位置的字符,构成候选关键字,例如可以是字符串的第一位和第二位字符,也可以是字符串的第一位和第三位等方式,此处不再一一举例,仅表明候选关键字的选取不限制与上述首位字符和末尾字符的方式,可能情况下,可以结合挖掘数据的特征来确定。
步骤S102-32:将所述前缀实体单元信息和所述第一实体单元信息、以及所述前缀实体单元信息和所述第一实体单元信息在所述第二实体对象信息的地址集合内出现的次数,确定为所述候选键值对的候选值进行存储;例如:第二实体对象信息的地址集合列表如下表2所示:
Figure BDA0003188785130000121
POI实体(第二实体对象信息)为北航教学楼的键值对为key:37号学院路/北/楼,value:set{37号学院路/北航教学楼,1};
POI实体(第二实体对象信息)为北京航空航天大学教学思源楼的键值对为key:37号学院路/北/楼,value:set{37号学院路/北京航空航天大学教学思源楼,1};
POI实体为北京航空航天大学教学北配楼的键值对为key:37号学院路/北/楼,value:set{37号学院路/北京航空航天大学教学北配楼,1};
POI实体为北京航空航天大学教学合一楼为key:37号学院路/北/楼,value:set{37号学院路/北京航空航天大学教学合一楼,1};
POI实体为北京航空航天大学游泳馆的键值对为key:37号学院路/北/馆,value:set{37号学院路/北京航空航天大学游泳馆,1};
上述仅为举例,当周边POI数量较多时,value(第一实体单元信息)出现的次数也不一样,同一POI可能出现多次。如下表3所示:
Figure BDA0003188785130000122
Figure BDA0003188785130000131
上表仅为说明描述内容,并不用于限定存储格式和信息内容;
所述步骤S102-32中对所述候选键值对的存储可以采用字典数据结构进行存储。
步骤S102-4:将所述存储的信息,确定为所述候选实体单元结构化信息。
步骤S103:对所述当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征所述当前地址信息的当前实体单元结构化信息;
所述步骤S103的具体实现过程包括:
步骤S103-1:根据对所述当前地址信息的解析,获取与所述当前地址信息对应的当前实体单元列表;所述步骤S103-1的具体实现过程与所述步骤S102-1相同,即:采用命名实体识别方式,解析出所述当前地址信息中当前实体单元信息列表,如果按照上述表1所示,当前第一实体对象信息为北京航空航天大学教学楼(以Id1为例说明),对应的当前地址信息为:北京市海淀区学院路37号北京航空航天大学教学楼;当前实体单元列表信息为:北京市/海淀区/学院路/37号/北京航空航天大学教学楼;
步骤S103-2:提取所述当前实体单元列表中的前缀当前实体单元信息和第一当前实体单元信息;其中,所述前缀当前实体单元信息为第一实体类型和/或所述第二实体类型,所述第一当前实体单元信息为所述第一实体类型;所述步骤S103-2的具体实现过程可以包括:
步骤S103-21:根据所述当前实体单元列表中,按照排列顺序选取的首次出现的,属于所述第一实体类型的实体单元信息,确定为所述第一当前实体单元信息;沿用上例:所述第一当前实体单元信息为实体类型为I且按照排列顺序首次出现的为北京航空航天大学教学楼;
步骤S103-22:根据所述第一当前实体单元信息在所述实体单元列表中的位置,按照所述排列顺序的逆方向,查找满足实体类型选取要求的待选当前实体单元信息;所述步骤S103-22与上述步骤S102-22类似,即沿用上例,从所述北京航空航天大学教学楼向前查找,选取所述实体类型中I,R,P,C,D,S,V中的任意一种类型,即找到R类型对应的为学院路,按照查找的顺序可以确定“37号/学院路”为待选当前实体单元信息;
步骤S103-23:将所述待选当前实体单元信息、以及所述待选当前实体单元信息与所述第一当前实体单元信息之间的实体单元信息确定为所述前缀当前实体单元信息;参考上述步骤S102-23的相关描述,沿用上例,所述步骤S103-23中可以将37号学院路确定为所述前缀当前实体单元信息;其中,所述37号为学院路与北京航空航天大学教学楼之间的实体单元信息。
步骤S103-3:将所述前缀当前实体单元信息和所述第一当前实体单元信息的当前键值对的结构化方式,确定为所述当前实体单元结构化信息;所述步骤S103-3的具体实现过程可以包括:
步骤S103-31:将所述前缀当前实体单元信息,以及所述第一当前实体单元信息的首位字符和末尾字符,确定为所述当前键值对的当前关键字;沿用步骤S102的示例,当前关键字cur-key为37号学院路/北/楼;cur仅为与上述key和value进行区分,可以理解为是当前的current(当前的);
步骤S103-32:将所述前缀当前实体单元信息和所述前缀当前实体单元信息,确定为所述当前键值对的当前值;沿用上例,当前值cur-value为37号学院路/北京航空航天大学教学楼;
步骤S103-33:将所述当前关键字和对应的所述当前值,确定为所述当前实体单元结构化信息;例如:[cur-key:37号学院路/北/楼;cur-value为37号学院路/北京航空航天大学教学楼]。
步骤S104:根据所述当前实体单元结构化信息与所述候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息;所述步骤S104的具体实现过程可以包括:
步骤S104-1:将所述当前实体单元结构化信息中的当前键值对的当前关键字,与所述候选实体单元结构化信息中的候选键值对的候选关键字进行匹配,确定所述候选实体结构化信息的匹配范围;沿用示例,将当前关键字cur-key为37号学院路/北/楼与所述步骤S102-32中字典数据结构中存储的候选键值对中的key进行比较,确定所述当前关键字cur-key是否在候选键值对中候选关键字是否相同,按照上例,当前关键字cur-key为37号学院路/北/楼,出现在候选关键字中,即匹配。根据上表3可见,cur-key为37号学院路/北/楼时与表3中的Id11到Id14对应的key匹配。也就是说,cur-key的匹配范围为第二实体对象信息的Id11到Id14。Id15的key为37号学院路/北/馆,其与cur-key为37号学院路/北/楼不匹配。
步骤S104-2:根据所述当前实体单元结构化信息中当前键值对中的当前值,在所述匹配范围内,选取满足筛选条件的所述候选值;所述步骤S104-2的具体实现过程可以包括:
步骤S104-21:确定所述当前值的字符是否与所述候选实体单元结构化信息的匹配范围内的所述候选值的字符匹配;和/或,确定所述候选值的字符是否与所述当前值的字符匹配;沿用上例,即确定当前键值对的当前值cur-value为37号学院路/北京航空航天大学教学楼,是否在步骤S104-1中确定的匹配范围内,即Id11-Id14匹配范围内。上述步骤S104-1中匹配范围的键值对为key:37号学院路/北/楼,value:set{37号学院路/北航教学楼;1},value:set{37号学院路/北京航空航天大学教学思源楼;1}、value:set{37号学院路/北京航空航天大学教学北配楼;1}、value:set{37号学院路/北京航空航天大学教学合一楼;1}的匹配范围,将cur-value为37号学院路/北京航空航天大学教学楼与匹配范围内的四个value中的字符进行比较,确定cur-value中的字符是否均在匹配范围内的四个value中出现,和/或,匹配范围内的四个value中的字符均在cur-value中出现。例如:cur-value为37号学院路/北京航空航天大学教学楼中的字符均在value:set{37号学院路/北京航空航天大学教学思源楼}中出现,也在value:set{37号学院路/北京航空航天大学教学北配楼}中出现,也在value:set{37号学院路/北京航空航天大学教学合一楼}中出现;同时,value:set{37号学院路/北航教学楼}的字符也在所述cur-value为37号学院路/北京航空航天大学教学楼中出现。
步骤S104-22:若是,则将匹配的候选值确定为选取的所述候选值;假设将value:set{37号学院路/北航教学楼;5},value:set{37号学院路/北京航空航天大学教学思源楼;7},value:set{37号学院路/北京航空航天大学教学北配楼;4},value:set{37号学院路/北京航空航天大学教学合一楼;3},则将大于设置的出现次数阈值X的作为选取的所述候选值,假设出现次数阈值为4,则将37号学院路/北航教学楼和37号学院路/北京航空航天大学教学思源楼,以及北京航空航天大学教学北配楼作为选取的候选值。选取满足出现次数阈值的候选值目的在于,将出现概率较大的作为针对所述第二实体对象信息的第一种表示信息。也就是说,在执行所述步骤S104-22之前还可以包括:当所述当前值的字符与所述候选实体单元结构化信息的匹配范围内的所述候选值的字符匹配;或者,当所述候选值的字符与所述当前值的字符匹配时;确定所述当前值在所述候选值中出现的次数是否大于或等于设置的次数阈值;若是,则执行步骤S104-22。需要说明的是,所述步骤S104-21和步骤S104-22的执行顺序可以调换,即先根据出现次数进行筛选,之后在进行字符匹配。
步骤S104-3:将选取的所述候选值对应的所述第二实体对象信息,确定为用于描述所述当前第一实体对象信息的所述第一种表示信息;所述步骤S104-3中将选取的候选值中的第二实体对象信息,即POI实体对象“北航教学楼”、“北京航空航天大学教学思源楼”和“北京航空航天大学教学北配楼”,“北京航空航天大学教学合一楼”中的任意一个或多个确定为当前第一实体对象信息,即“北京航空航天大学教学楼”的第一种表示信息;如果当前第一实体对象信息为北京航空航天大学新主楼时,则第一种表示信息可以是北京航空航天大学会议中心新主楼和北京航空航天大学实验室新主楼中的任意一个或多个;如果当前第一实体对象信息为北京航空航天大学公寓楼时,则第一种表示信息可以是北航公寓楼、北京航空航天大学学生公寓楼和北京航空航天大学留学生公寓楼中的任意一个或多个;如果当前第一实体对象信息为北京航空航天大学实验楼时,则第一种表示信息可以是北京航空航天大学学生工程实验楼和北京航空航天大学3号实验楼中的任意一个或多个。结合上述示例,不同POI实体对应的第一种表示信息可以如下表:
Figure BDA0003188785130000161
Figure BDA0003188785130000171
上述示例仅为解释性说明,实际上第一种表示信息可以包括多个,根据当前第一实体对象信息确定的周边POI信息(第二实体对象信息集合中的第二实体对象信息)相关。
根据上述内容可以获得所述当前第一实体对象信息的所述第一种表示信息,所述第一种表示信息来源于所述当前第一实体对象信息圈选的周边POI实体集合(第二实体对象信息集合),即为与所述当前第一实体对象信息为直接邻居关系的周边POI实体集合。但对于当前第一实体对象信息还包括间接邻居关系的POI实体,间接邻居关系的POI实体可以是所述第二实体对象信息的周边POI实体信息集合(可以称为第三实体对象信息)。当然还可以继续进一步的挖掘,因此,在另一实施例中还可以包括:
步骤S10a:根据所述当前第一实体对象信息、所述第二实体对象信息和第三实体对象信息之间的位置关系,生成所述当前实体单元结构化信息与地址库中地址信息的映射关系;所述步骤S10a中的位置关系可以通过GeoHash地址编码方式来确定当前第一实体对象信息、所述第二实体对象信息和第三实体对象信息之间的位置关系,例如:利用经纬度确定POI实体之间是否为位置直接相邻的POI实体,如果是,则二者为直接邻居,如果否,则根据经纬度确定二者之间是否为位置间接连接的POI实体,若是,则二者为间接邻居。例如上述表1中,假设:当前第一实体对象信息Id1的直接邻居为第二实体对象信息Id11、Id12、Id13、Id14,Id1的间接邻居为Id111,Id111可以是Id11的周边POI实体。当前第一实体对象信息Id2的直接邻居为第二实体对象Id21和Id22,Id2的间接邻居为Id211,Id211可以是Id21的周边POI实体。当前第一实体对象信息Id3的直接邻居为第二实体对象信息Id31、Id32、Id33,Id3的间接邻居为Id311,Id311可以是Id31的周边POI实体;当前第一实体对象信息Id的直接邻居为Id41和Id42,Id4的间接邻居为Id411,Id411可以是Id41的周边POI实体。所述步骤S10a中可以根据当前第一实体对象信息中的前缀实体单元信息/第一实体单元信息的方式建立映射关系,例如:Id1:37号学院路/北/楼(cur-key)对应于37号学院路/北京航空航天大学教学楼(cur-value)对应于Id11(对应于Id111)、Id12、Id13、Id14;Id2:37号/学院路北/楼(cur-key)对应于37号学院路/北京航空航天大学新主楼(cur-value)对应于Id21(对应于Id211)和Id22;Id3:37号学院路/北/楼(cur-key)对应于37号学院路/北京航空航天大学公寓楼(cur-value)对应于Id31(对应于Id311)、Id32和Id33;Id4:37号学院路/北/楼(cur-key)对应于37号学院路/北京航空航天大学实验楼(cur-value)对应于Id41(对应于Id411)和Id42。
需要说明的是,此处仅以Id11、Id21、Id31和Id41对应的周边POI实体(也就是第三实体信息)进行举例说明,实际上其他第二实体信息也可以包括周边POI实体,且所述第三实体信息也可以作为第二实体信息的第一种表示信息。具体第三实体信息的确定与上述第二实体信息确定相同。第二实体信息的第一种表示信息的确定与上述第一实体信息的第一种表示信息确定也相同,此处不再重复赘述,目的在于进一步挖掘针对第一实体信息的第一种表示信息。
步骤S10b:根据所述映射关系,对所述当前第一实体对象和所述第二实体对象对应的所述第一种表示信息进行合并;所述步骤S10b的具体实现过程可以包括:
步骤S10b-1:根据所述映射关系,建立所述当前第一实体对象和所述第二实体对象对应的所述第一种表示信息的信息列表;
沿用上述示例(此处为了便于描述缩减内容,实际上可以将第一种信息全部列举),假设Id1对应的第一种表示信息包括Id11和Id12,其中Id11包括的第一种表示信息包括Id111,假设Id111为北京航空航天大学教学工程培训楼;Id2对应的第一种表示信息包括Id21和Id22,其中Id21包括的第一种表示信息包括Id211,假设Id211为北京航空航天大学机器视觉研究新主楼;Id3对应的第一种表示信息包括Id31和Id32,其中Id31包括的第一种表示信息包括Id311,假设Id311为北京航空航天大学教师公寓楼;Id4对应的第一种表示信息包括Id41和Id42,其中Id41包括的第一种表示信息包括Id411,假设Id411为北京航空航天大学水洞实验楼;可以如下表所示:
Figure BDA0003188785130000181
Figure BDA0003188785130000191
Figure BDA0003188785130000201
上表中的sourcePoiId表示当前POI的Id信息,neiborPoiIds表示邻居POI的Id信息,neiborNerPoi表示邻居POI信息,sourcePoiNer表示当前POI信息。
步骤S10b-2:根据所述当前实体单元化结构信息,对所述第一种表示信息的信息列表进行合并,获得所述第一种表示信息的合并列表;所述步骤S10b-2的具体实现可以是根据当前第一实体对象信息当前键值对中的当前关键字(key),对所述信息列表进行合并,合并列表如下(以Id1、Id11、Id12、Id111为例,其他相同不做示意)所示:
Figure BDA0003188785130000202
步骤S10c:根据合并后的第一种表示信息的集合,确定所述当前第一实体对象信息的第二种表示信息;所述步骤S10c的具体实现过程可以包括:
步骤S10c-1:根据所述合并列表构建所述第一种表示信息的邻接矩阵;
所述步骤S10c-1中根据上述合并列表中的信息,可以构建所述第一种表示信息的邻接矩阵,沿用上述示例中的合并列表,邻接矩阵可以如下表示:
Figure BDA0003188785130000211
步骤S10c-2:将所述邻接矩阵中确定的最大连通子图对应的所述第一种表示信息,确定为所述当前第一实体对象信息的所述第二种表示信息;
根据所述步骤S10c-1中构建的邻接矩阵可以获得上述示例中最大连通子图为[1,2,3,4],因此,对于Id1当前第一实体对象信息的第二种表示信息可以如下表形式:
Figure BDA0003188785130000212
同理,对于Id2的当前第一实体对象信息的第二种表示信息可以如下表:
Figure BDA0003188785130000213
同理,对于Id3的当前第一实体对象信息的第二种表示信息可以如下表:
Figure BDA0003188785130000214
同理,对于Id4的当前第一实体对象信息的第二种表示信息可以如下表:
Figure BDA0003188785130000215
当存在多个最大连通子图,则针对多个最大连通子图确定多个第二表示信息。
根据上述内容可以理解,上述第一种表示信息的挖掘是基于第一层级的挖掘,第二种表示信息的挖掘是基于第一层级挖掘的基础上采用下钻式进行下一层级的挖掘,可以看做是串行挖掘;从而能够提高地址识别效率和准确性。其中,第一种表示信息和第二种表示信息仅为表述上的区分,实际上均为理解是针对当前POI实体对象的另一种别称信息。
基于上述可知,在其他实施例中,还可以根据当前第一实体对象信息之间的位置关系,进行并行层级的挖掘,即在当前第一实体信息之间进行挖掘。
具体如下:
步骤S+11:根据所述当前第一实体对象信息之间的位置关系,生成所述当前实体单元结构化信息与地址库中地址信息的映射关系;所述步骤S+11中的位置关系可以通过GeoHash地址编码方式来确定当前第一实体对象信息之间的位置关系,例如:利用经纬度确定两个POI实体之间是否为位置直接相邻的POI实体,如果是,则二者为直接邻居,如果否,则根据经纬度确定二者之间是否为位置间接连接的POI实体,若是,则二者为间接邻居。例如上述表1中,假设:当前第一实体对象信息Id1的直接邻居为当前第一实体对象信息Id2和Id3,当前第一实体对象信息Id2的直接邻居为当前第一实体对象Id1和Id4,当前第一实体对象信息Id4的直接邻居为Id2,当前第一实体对象信息Id3的直接邻居为Id1,当前第一实体对象信息Id4的间接邻居为Id1、Id3。所述步骤S+11中可以根据当前第一实体对象信息中的前缀实体单元信息/第一实体单元信息的方式建立映射关系,假设:Id1:37号学院路/北/楼(cur-key)对应于37号学院路/北京航空航天大学教学楼(cur-value)对应于Id2和Id3;Id2:37号/学院路北/楼(cur-key)对应于37号学院路/北京航空航天大学新主楼(cur-value)对应于Id1和Id4;Id3:37号学院路/北/楼(cur-key)对应于37号学院路/北京航空航天大学公寓楼(cur-value)对应于Id1;Id4:37号学院路/北/楼(cur-key)对应于37号学院路/北京航空航天大学实验楼(cur-value)对应于Id2。
步骤S+12:根据所述映射关系,对所述当前第一实体对象之间对应的所述第一种表示信息进行合并;所述步骤S+12的具体实现过程可以包括:
步骤S+12-1:根据所述映射关系,建立所述当前第一实体对象之间对应的所述第一种表示信息的信息列表;沿用上述示例,假设,Id1对应的第一种表示信息仅包括Id11,即:北航教学楼;Id2对应的第一种表示信息仅包括Id21,即:北京航空航天大学会议中心新主楼;Id3对应的第一种表示信息仅包括Id31,即:北航公寓楼;Id4对应的第一种表示信息仅包括Id41,即:北京航空航天大学学生工程实验楼(此处为了便于描述缩减内容,实际上可以将第一种信息全部列举),信息列表可以如下(还可以包括Id1对应的Id11,Id2对应的Id21,Id3对应的Id31,Id4对应的Id41等信息,下表中未列出):
Figure BDA0003188785130000231
步骤S+12-2:根据所述当前实体单元化结构信息,对所述第一种表示信息的信息列表进行合并,获得所述第一种表示信息的合并列表;所述步骤S+12-2的具体实现可以是根据当前第一实体对象信息当前键值对中的当前关键字(key),对所述信息列表进行合并,合并列表如下所示:
Figure BDA0003188785130000232
上述表中的sourcePoiId表示当前POI的Id信息,neiborPoiIds表示邻居POI的Id信息,neiborNerPoi表示邻居POI信息,sourcePoiNer表示当前POI信息。
步骤S+13:根据合并后的第一种表示信息的集合,确定为所述当前第一实体对象信息的第二种表示信息;所述步骤S+13的具体实现过程可以包括:
步骤S+13-1:根据所述合并列表构建所述第一种表示信息的邻接矩阵;所述步骤S+13-1中根据上述合并列表中的信息,可以构建所述第一种表示信息的邻接矩阵,沿用上述示例中的合并列表,邻接矩阵可以如下表示:
Figure BDA0003188785130000241
步骤S+13-2:将所述邻接矩阵中确定的最大连通子图对应的所述第一种表示信息,确定为所述当前第一实体对象信息的所述第二种表示信息;
根据所述步骤S+13-1中构建的邻接矩阵可以获得上述示例中最大连通子图为[1,2,3,4],因此,对于Id1当前第一实体对象信息的第二种表示信息可以如下表形式:
Figure BDA0003188785130000242
对于Id2的当前第一实体对象信息的第二种表示信息可以如下表形式:
Figure BDA0003188785130000243
对于Id3的当前第一实体对象信息的第二种表示信息可以如下表形式:
Figure BDA0003188785130000244
对于Id4的当前第一实体对象信息的第二种表示信息可以如下表形式:
Figure BDA0003188785130000245
同样当存在多个最大连通子图,则针对多个最大连通子图确定多个第二表示信息。
可以理解是,上述串行层级和并行层级可以独立进行数据挖掘的过程,也可以将二者合并进行处理,从而能够进一步丰富别称信息的同时保证别称信息的准确性和冗余数据的出现。
上述实施例的合并过程中能够挖掘出当前第一实体对象信息对应的间接邻居所对应的表示信息,避免仅通过第二实体对象信息获得直接邻居对应的表示信息,使得针对当前第一实体对象信息挖掘其他表征所述当前第一实体对象信息的表示信息的范围扩大,并且,避免挖掘出表示信息因为存在重复而导致的数据冗余问题。
本申请提供的数据挖掘方法实施例能够挖掘出针对同一实体对象信息的不同表示信息,即不同的名称表示同一实体,因此为后续定位场景下能够提供较为丰富的数据支持,提高定位的准确性以及减少定位的耗时。
需要说明的是,本申请实施例主要以I类型的POI作为实体对象信息进行数据挖掘,对于选择哪个类型的实体对象信息可以根据不同需求进行选择,例如:可以根据R类型(道路)的道路实体对象信息进行数据挖掘,因此,本申请提供的数据挖掘方法中涉及的第一实体对象信息和第二实体对象信息的类型并不限制于POI实体对象。对于存在可能重复的实体对象信息可以结合其他实体类型加强实体对象信息的区别性,所以在选择实体对象信息时也不限于选择数量。在本实施例中,所述地址信息中包括多个POI实体对象信息时,可以分别确定候选实体单元结构化信息,所以,对同一地址信息中不同的第二实体对象信息的数量也没有限制。
以上是对本申请提供的一种数据挖掘方法实施例的具体描述,与前述提供的一种数据挖掘方法实施例相对应,本申请还提供一种数据挖掘装置实施例,请参看图2,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。如图2所示,所述数据挖掘装置实施例包括:
获取单元201,用于根据当前第一实体对象信息,获取满足选取要求的第二实体对象信息集合;其中,所述当前第一实体对象信息和所述第二实体对象信息集合中的第二实体对象信息为第一实体类型;关于所述获取单元201的具体内容可以参考上述步骤S101的内容,此处不再进行重复赘述。
第一解析单元202,用于对所述第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息;所述第一解析单元202可以包括:列表获取子单元,提取子单元,存储子单元以及确定子单元;其中,所述列表获取子单元,用于根据对所述地址信息的解析,获取与所述地址信息对应的实体单元列表;所述提取子单元,用于提取所述实体单元列表中的前缀实体单元信息和第一实体单元信息;其中,所述前缀实体单元信息为第二实体类型和/或所述第一实体类型,所述第一实体单元信息为所述第一实体类型;所述存储子单元,用于将所述前缀实体单元信息和第一实体单元信息以键值对的结构化方式进行存储;所述确定子单元,用于将所述存储的信息,确定为所述候选实体单元结构化信息。
在本实施例中,所述提取子单元可以包括:第一实体单元确定子单元,查找子单元和前缀实体单元确定子单元;所述第一实体单元确定子单元,用于将根据所述实体单元列表选取的属于所述第一实体类型的实体单元信息,确定为所述第一实体单元信息;所述查找子单元,用于根据所述第一实体单元信息在所述实体单元列表中的位置,按照所述排列顺序的逆方向,查找满足实体类型选取要求的待选实体单元信息;所述前缀实体单元确定子单元,用于将所述待选实体单元信息、以及所述待选实体单元信息与所述第一实体单元信息之间的实体单元信息确定为所述前缀实体单元信息。
所述存储子单元包括:候选关键字存储子单元和候选值存储子单元,其中,所述候选关键字存储子单元,用于将所述前缀实体单元信息、以及所述第一实体单元信息的首位字符和末尾字符,确定为所述候选键值对的候选关键字进行存储;所述候选值存储子单元,用于将所述前缀实体单元信息和所述第一实体单元信息、以及所述前缀实体单元信息和所述第一实体单元信息在所述第二实体对象信息的地址集合内出现的次数,确定为所述候选键值对的候选值进行存储。
第二解析单元203,用于对所述当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征所述当前地址信息的当前实体单元结构化信息;所述第二解析单元203可以包括:获取子单元、提取子单元和结构信息确定子单元;其中,所述获取子单元,用于根据对所述当前地址信息的解析,获取与所述当前地址信息对应的当前实体单元列表;所述提取子单元,用于提取所述当前实体单元列表中的前缀当前实体单元信息和第一当前实体单元信息;其中,所述前缀当前实体单元信息为第一实体类型和/或所述第二实体类型,所述第一当前实体单元信息为所述第一实体类型;所述结构信息确定子单元,用于将所述前缀当前实体单元信息和所述第一当前实体单元信息的当前键值对的结构化方式,确定为所述当前实体单元结构化信息。所述提取子单元可以包括:第一当前实体确定子单元、待选当前信息查找子单元和前缀当前实体确定子单元,其中,所述第一当前实体确定子单元,用于根据所述当前实体单元列表中,按照排列顺序选取的首次出现的,属于所述第一实体类型的实体单元信息,确定为所述第一当前实体单元信息;所述待选当前信息查找子单元,用于根据所述第一当前实体单元信息在所述实体单元列表中的位置,按照所述排列顺序的逆方向,查找满足实体类型选取要求的待选当前实体单元信息;所述前缀当前实体确定子单元,用于将所述待选当前实体单元信息、以及所述待选当前实体单元信息与所述第一当前实体单元信息之间的实体单元信息确定为所述前缀当前实体单元信息。所述结构信息确定子单元可以包括:当前关键字确定子单元和当前值确定子单元;所述当前关键字确定子单元,用于将所述前缀当前实体单元信息、以及所述第一当前实体单元信息的首位字符和末尾字符,确定为所述当前键值对的当前关键字;所述当前值确定子单元,用于将所述前缀当前实体单元信息和所述第一当前实体单元信息,确定为所述当前键值对的当前值;所述结构信息确定子单元具体用于将所述当前关键字和对应的所述当前值,确定为所述当前实体单元结构化信息。
确定单元204,用于根据所述当前实体单元结构化信息与所述候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息;所述确定单元204可以包括:匹配范围确定子单元,选取子单元和确定子单元;所述匹配范围确定子单元,用于将所述当前实体单元结构化信息中的当前键值对的当前关键字,与所述候选实体单元结构化信息中的候选键值对的候选关键字进行匹配,确定所述候选实体结构化信息的匹配范围;所述选取子单元,用于根据所述当前实体单元结构化信息中当前键值对中的当前值,在所述匹配范围内,选取满足筛选条件的所述候选值;所述确定子单元,用于将选取的所述候选值对应的所述第二实体对象信息,确定为用于描述所述当前第一实体对象信息的所述第一种表示信息。
本实施例中,对于所述选取子单元可以包括:字符匹配确定子单元和候选值确定子单元;所述字符匹配子单元,用于确定所述当前值的字符是否与所述候选实体单元结构化信息的匹配范围内的所述候选值的字符匹配;和/或,确定所述候选值的字符是否与所述当前值的字符匹配;所述候选值确定子单元,用于根据所述字符匹配子单元的匹配结果为是时,将匹配的候选值确定为选取的所述候选值。
本实施例基于上述内容,当所述字符匹配子单元的匹配结果为是时,还可以包括:次数确定子单元,用于确定所述当前值在所述候选值中出现的次数是否大于或等于设置的次数阈值;若是,则按照所述候选值确定子单元对候选值进行确定。
基于上述内容可以理解的是,所述第二实体对象信息与所述当前第一实体对象信息之间可以是一种直接邻居的关系,因此用于描述所述当前第一实体对象信息的表示信息,不限于第一种表示信息,还可能存在间接邻居关系下的第二种表示信息,为扩大表示信息的范围,本实施例基于上述内容还可以包括:生成单元,合并单元和第二表示确定单元;所述生成单元,用于根据所述当前第一实体对象信息、所述第二实体对象信息和第三实体对象信息之间的位置关系,生成所述当前实体单元结构化信息与地址库中地址信息的映射关系;所述合并单元,用于根据所述映射关系,对所述当前第一实体对象和所述第二实体对象对应的所述第一种表示信息进行合并;所述第二表示确定单元,用于根据合并后的第一种表示信息的集合,确定所述当前第一实体对象信息的第二种表示信息。
本实施例中,所述合并单元可以包括:建立子单元和获得子单元,所述建立子单元,用于根据所述映射关系,建立所述当前第一实体对象和所述第二实体对象对应的所述第一种表示信息的信息列表;所述获得子单元,用于根据所述当前实体单元化结构信息,对所述第一种表示信息的信息列表进行合并,获得所述第一种表示信息的合并列表。
本实施例中,所述第二表示确定单元可以包括:构建子单元,用于根据所述合并列表构建所述第一种表示信息的邻接矩阵;所述第二表示确定单元具体用于将所述邻接矩阵中确定的最大连通子图对应的所述第一种表示信息,确定为所述当前第一实体对象信息的所述第二种表示信息。
以上是对本申请提供的一种数据挖掘装置实施例的描述,关于数据挖掘装置实施例的具体内容可以参考上述关于数据挖掘方法实施例的内容,此处不再重复赘述。
基于上述内容,本申请还提供一种数据处理方法,如图3所示,图3是本申请提供的一种数据处理方法实施例的流程图,所述数据处理方法实施例包括:
步骤S301:根据对获取的地址信息进行解析,确定所述地址信息的实体单元信息列表;所述步骤S301对地址信息解析可以采用命名实体识别方法识别所述地址信息中的实体对象,解析出的实体对象信息构成实体单元信息列表,下表为地址信息列表:
Id 地址信息
1 北京市海淀区学院路37号北京航空航天大学
2 北京市海淀区学院路37号北京航空航天大学东门
3 北京市海淀区学院路56号北京航空航天大学体育馆
4 北京市海淀区学院路37号北京航空航天大学新主楼
下表为实体单元信息列表:
Id 实体单元信息列表
1 北京市海淀区学院路37号北京航空航天大学
2 北京市海淀区学院路37号北京航空航天大学东门
3 北京市海淀区学院路56号北京航空航天大学体育馆
4 北京市海淀区学院路37号北京航空航天大学新主楼
以上列表中内容仅为说明方案内容的举例。
步骤S302:按照指定的实体类型组合,选取所述实体单元信息列表中至少三个相邻实体单元信息;其中,所述相邻实体单元信息包括第一实体单元信息、第二实体单元信息和第三实体单元信息;所述步骤S302中实体类型可以包括:I、R、N、P、C、D、S、V等,I指代POI实体类型,R指代路、街实体类型,N指代门牌号实体类型,P指代省实体类型,C指代市实体类型,D指代区、县、县级市实体类型,S指代街道实体类型,V-乡镇实体类型,当然还可以包括RD指代巷、弄实体类型,A指代建筑片区实体类型,B指代楼宇实体类型等,此处不再一一列举。本实施例中实体类型组合可以包括R+N+I的实体类型组合,当然根据不同的地址表示结构可以设置不同的实体类型组合,例如对于英文地址可以采用与英文地址结构匹配的实体类型组合,对于特定的地址信息可以采用与特定地址结构匹配的实体类型组合,因此本实施例的实体类型组合并不限于R+N+I的组合方式。沿用步骤S301中的示例,选取后的三个相邻实体单元信息可以是,[Id1:[学院路、37号、北京航空航天大学]],[Id2:[学院路、37号、北京航空航天大学]],[Id3:[学院路、56号、北京航空航天大学体育馆]],[Id3:[学院路、37号、北京航空航天大学新主楼]],需要说明的是“北京航空航天大学东门”中的东门属于实体类型G,表示:东门、西门、大门、小门、北一门、3号门等。
步骤S303:根据所述第一实体单元信息、第二实体单元信息和第三实体单元信息确定的实体组合中,查找满足选取要求的所述实体组合;沿用上例所述步骤S303中的实体组合可以如下表所示:
Figure BDA0003188785130000301
所述步骤S303中选取要求可以理解为按照实体组合出现次数进行统计,统计后按照降序或升序进行排序,将排序第一位的确定为满足选取要求的,或者也可以按照出现次数统计的最大值进行查找。排序过程中可以去除统计值小于1的,以提高统计数据的价值和意义,进而为后续在进行地址搜索,或者有关定位场景下,提高定位的准确性。考虑到实体类型R可能在不同城市或区域采用相同的名称,因此,还可以包括:
步骤S30a:将根据所述相邻实体单元信息的选取顺序,选取的与所述第一实体单元信息相邻的实体单元信息,确定为第四实体单元信息;所述步骤S30a中的所述第四实体单元信息可以是所述I、R、N、P、C、D、S、V等实体类型中的任意一种或多种组合,当然,还可以增加第五实体单元信息,即与所述第四实体单元信息相邻的实体单元信息。沿用上例:Id1:北京市海淀区学院路37号北京航空航天大学中与学院路37号相邻的为海淀区,海淀区为第四实体单元信息。其他示例也可以如此。
所述步骤S303具体可以根据所述第四实体单元信息、所述第一实体单元信息、所述第二实体单元信息和所述第三实体单元信息确定的实体组合中,查找满足选取要求的所述实体组合,进而避免因为第一实体单元信息在不同区域存在相同指代而导致的信息错误的问题;实体组合如下表的表示形式:
Figure BDA0003188785130000311
步骤S304:将查找的所述实体组合中的所述第三实体单元信息,确定为用于描述所述地址信息中指定实体对象信息的第一种表示信息;所述步骤S304中所述指定实体对象信息,可以理解为能够通过其他文本信息指代实体对象信息当前名称的实体对象信息。根据上述示例,对于学院路37号的第一种表示信息为北京航空航天大学,也就是,北京航空航天大学表征着学院路37号,二者互为别名。
本申请提供的一种数据处理方法实施例能够为R+N类型对应的实体对象信息提供另一种表示信息,同时,还是能够保证R+N类型对应的实体对象信息的表示方式的准确性。
以上是对本申请提供的一种数据处理方法实施例的具体描述,与前述提供的一种数据处理方法实施例相对应,本申请还提供一种数据处理装置实施例,请参看图4,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图4所示,图4是本申请提供的一种数据处理装置实施例的结构示意图,所述实施例包括:解析单元401,用于根据对获取的地址信息进行解析,确定所述地址信息的实体单元信息列表。选取单元402,用于按照指定的实体类型组合,选取所述实体单元信息列表中至少三个相邻实体单元信息;其中,所述相邻实体单元信息包括第一实体单元信息、第二实体单元信息和第三实体单元信息。查找单元403,用于根据所述第一实体单元信息、第二实体单元信息和第三实体单元信息确定的实体组合中,查找满足选取要求的所述实体组合。确定单元404,用于将查找的所述实体组合中的所述第三实体单元信息,确定为用于描述所述地址信息中指定实体对象信息的第一种表示信息。考虑到实体类型R可能在不同城市或区域采用相同的名称,为提高定位时的准确性,还可以包括:第四实体选取单元,用于将根据所述相邻实体单元信息的选取顺序,选取的与所述第一实体单元信息相邻的实体单元信息,确定为第四实体单元信息。
所述查找单元403可以根据所述第四实体选取单元中确定的所述第四实体单元信息,以及所述选取单元401中的所述第一实体单元信息、所述第二实体单元信息和所述第三实体单元信息确定的实体组合中,查找满足选取要求的所述实体组合,进而避免因为第一实体单元信息在不同区域存在相同指代而导致的信息错误的问题。
基于上述内容,本申请还提供一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;所述程序在被处理器读取执行时,执行如上述数据挖掘方法的步骤;或者,执行如上述数据处理方法的步骤。
基于上述内容,本申请还提供一种电子设备,如图5所示,所述电子设备实施例包括:处理器501;存储器502,用于存储对网络平台产生数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如上述数据挖掘方法的步骤;或者,执行如上述数据处理方法的步骤。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (10)

1.一种数据挖掘方法,其特征在于,包括:
根据当前第一实体对象信息,获取满足选取要求的第二实体对象信息集合;其中,所述当前第一实体对象信息和所述第二实体对象信息集合中的第二实体对象信息为第一实体类型;
对所述第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息;
对所述当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征所述当前地址信息的当前实体单元结构化信息;
根据所述当前实体单元结构化信息与所述候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息。
2.根据权利要求1所述的数据挖掘方法,其特征在于,所述对所述第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息,包括:
根据对所述地址信息的解析,获取与所述地址信息对应的实体单元列表;
提取所述实体单元列表中的前缀实体单元信息和第一实体单元信息;其中,所述前缀实体单元信息为第二实体类型和/或所述第一实体类型,所述第一实体单元信息为所述第一实体类型;
将所述前缀实体单元信息和第一实体单元信息以键值对的结构化方式进行存储;
将所述存储的信息,确定为所述候选实体单元结构化信息。
3.根据权利要求2所述的数据挖掘方法,其特征在于,所述提取所述实体单元列表中的前缀实体单元信息和第一实体单元信息,包括:
将根据所述实体单元列表选取的属于所述第一实体类型的实体单元信息,确定为所述第一实体单元信息;
根据所述第一实体单元信息在所述实体单元列表中的位置,按照所述排列顺序的逆方向,查找满足实体类型选取要求的待选实体单元信息;
将所述待选实体单元信息、以及所述待选实体单元信息与所述第一实体单元信息之间的实体单元信息确定为所述前缀实体单元信息;
所述将所述前缀实体单元信息和所述第一实体单元信息以候选键值对的结构化方式进行存储,包括:
将所述前缀实体单元信息、以及所述第一实体单元信息的首位字符和末尾字符,确定为所述候选键值对的候选关键字进行存储;
将所述前缀实体单元信息和所述第一实体单元信息、以及所述前缀实体单元信息和所述第一实体单元信息在所述第二实体对象信息的地址集合内出现的次数,确定为所述候选键值对的候选值进行存储。
4.根据权利要求1所述的数据挖掘方法,其特征在于,所述对所述当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征所述当前地址信息的当前实体单元结构化信息,包括:
根据对所述当前地址信息的解析,获取与所述当前地址信息对应的当前实体单元列表;
提取所述当前实体单元列表中的前缀当前实体单元信息和第一当前实体单元信息;其中,所述前缀当前实体单元信息为第一实体类型和/或所述第二实体类型,所述第一当前实体单元信息为所述第一实体类型;
将所述前缀当前实体单元信息和所述第一当前实体单元信息的当前键值对的结构化方式,确定为所述当前实体单元结构化信息。
5.根据权利要求4所述的数据挖掘方法,其特征在于,所述提取所述当前实体单元列表中的前缀当前实体单元信息和第一当前实体单元信息,包括:
根据所述当前实体单元列表中,按照排列顺序选取的首次出现的,属于所述第一实体类型的实体单元信息,确定为所述第一当前实体单元信息;
根据所述第一当前实体单元信息在所述实体单元列表中的位置,按照所述排列顺序的逆方向,查找满足实体类型选取要求的待选当前实体单元信息;
将所述待选当前实体单元信息、以及所述待选当前实体单元信息与所述第一当前实体单元信息之间的实体单元信息确定为所述前缀当前实体单元信息。
6.一种数据挖掘装置,其特征在于,包括:
获取单元,用于根据当前第一实体对象信息,获取满足选取要求的第二实体对象信息集合;其中,所述当前第一实体对象信息和所述第二实体对象信息集合中的第二实体对象信息为第一实体类型;
第一解析单元,用于对所述第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息;
第二解析单元,用于对所述当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征所述当前地址信息的当前实体单元结构化信息;
确定单元,用于根据所述当前实体单元结构化信息与所述候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息。
7.一种数据处理方法,其特征在于,包括:
根据对获取的地址信息进行解析,确定所述地址信息的实体单元信息列表;
按照指定的实体类型组合,选取所述实体单元信息列表中至少三个相邻实体单元信息;其中,所述相邻实体单元信息包括第一实体单元信息、第二实体单元信息和第三实体单元信息;
根据所述第一实体单元信息、第二实体单元信息和第三实体单元信息确定的实体组合中,查找满足选取要求的所述实体组合;
将查找的所述实体组合中的所述第三实体单元信息,确定为用于描述所述地址信息中指定实体对象信息的第一种表示信息。
8.一种数据处理装置,其特征在于,包括:
解析单元,用于根据对获取的地址信息进行解析,确定所述地址信息的实体单元信息列表;
选取单元,用于按照指定的实体类型组合,选取所述实体单元信息列表中至少三个相邻实体单元信息;其中,所述相邻实体单元信息包括第一实体单元信息、第二实体单元信息和第三实体单元信息;
查找单元,用于根据所述第一实体单元信息、第二实体单元信息和第三实体单元信息确定的实体组合中,查找满足选取要求的所述实体组合;
确定单元,用于将查找的所述实体组合中的所述第三实体单元信息,确定为用于描述所述地址信息中指定实体对象信息的第一种表示信息。
9.一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被处理器读取执行时,执行采用权利要求1到权利要求5所述的数据挖掘方法的步骤;或者,执行采用权利要求7所述的数据处理方法的步骤。
10.一种电子设备,包括:
处理器;
存储器,用于存储对网络平台产生数据进行处理的程序,所述程序在被所述处理器读取执行时,执行采用权利要求1到权利要求5所述的数据挖掘方法的步骤;或者,执行采用权利要求7所述的数据处理方法的步骤。
CN202110870675.1A 2021-07-30 2021-07-30 一种数据挖掘、处理方法和装置,存储介质和电子设备 Pending CN113568951A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110870675.1A CN113568951A (zh) 2021-07-30 2021-07-30 一种数据挖掘、处理方法和装置,存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110870675.1A CN113568951A (zh) 2021-07-30 2021-07-30 一种数据挖掘、处理方法和装置,存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN113568951A true CN113568951A (zh) 2021-10-29

Family

ID=78169396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110870675.1A Pending CN113568951A (zh) 2021-07-30 2021-07-30 一种数据挖掘、处理方法和装置,存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN113568951A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911787A (zh) * 2022-05-31 2022-08-16 南京大学 一种融合位置和语义约束的多源poi数据清洗方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101313300A (zh) * 2005-08-30 2008-11-26 谷歌公司 本地搜索
CN101963962A (zh) * 2009-07-23 2011-02-02 高德软件有限公司 兴趣点数据关联方法及装置
KR20140097805A (ko) * 2013-01-30 2014-08-07 권형석 좌표(x, y)위치 값을 이용한 체계적인 블록번호 생성 및 그 이용한 주소매칭 서비스 방법
CN109165273A (zh) * 2018-08-24 2019-01-08 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法
CN109284498A (zh) * 2017-07-20 2019-01-29 菜鸟智能物流控股有限公司 自提柜推荐方法、自提柜推荐装置和电子装置
CN109376761A (zh) * 2018-09-12 2019-02-22 北京三快在线科技有限公司 一种地址标识及其经纬度的挖掘方法及装置
CN111324679A (zh) * 2018-12-14 2020-06-23 阿里巴巴集团控股有限公司 地址信息的处理方法、装置和系统
CN112988933A (zh) * 2021-03-11 2021-06-18 北京汇钧科技有限公司 地址信息管理的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101313300A (zh) * 2005-08-30 2008-11-26 谷歌公司 本地搜索
CN101963962A (zh) * 2009-07-23 2011-02-02 高德软件有限公司 兴趣点数据关联方法及装置
KR20140097805A (ko) * 2013-01-30 2014-08-07 권형석 좌표(x, y)위치 값을 이용한 체계적인 블록번호 생성 및 그 이용한 주소매칭 서비스 방법
CN109284498A (zh) * 2017-07-20 2019-01-29 菜鸟智能物流控股有限公司 自提柜推荐方法、自提柜推荐装置和电子装置
CN109165273A (zh) * 2018-08-24 2019-01-08 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法
CN109376761A (zh) * 2018-09-12 2019-02-22 北京三快在线科技有限公司 一种地址标识及其经纬度的挖掘方法及装置
CN111324679A (zh) * 2018-12-14 2020-06-23 阿里巴巴集团控股有限公司 地址信息的处理方法、装置和系统
CN112988933A (zh) * 2021-03-11 2021-06-18 北京汇钧科技有限公司 地址信息管理的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨小平;何伟;孙亚琳;廖俊宇;: "TFC-Reducing:一种基于属性语义距离和规则的文本型形式背景约简方法", 小型微型计算机系统, no. 10, pages 2170 - 2176 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911787A (zh) * 2022-05-31 2022-08-16 南京大学 一种融合位置和语义约束的多源poi数据清洗方法
CN114911787B (zh) * 2022-05-31 2023-10-27 南京大学 一种融合位置和语义约束的多源poi数据清洗方法

Similar Documents

Publication Publication Date Title
WO2020228706A1 (zh) 基于围栏地址的坐标数据处理方法、装置和计算机设备
Cai et al. Itinerary recommender system with semantic trajectory pattern mining from geo-tagged photos
CN110008300B (zh) Poi别名的确定方法、装置、计算机设备和存储介质
Zheng Location-based social networks: Users
Bao et al. A BiLSTM-CNN model for predicting users’ next locations based on geotagged social media
US11861516B2 (en) Methods and system for associating locations with annotations
CN102460430B (zh) 简短兴趣点标题生成
CN107203526B (zh) 一种查询串语义需求分析方法及装置
US11455344B2 (en) Computer implemented system and method for geographic subject extraction for short text
CN110990520B (zh) 一种地址编码方法、装置、电子设备和存储介质
CN110795515B (zh) 兴趣点poi的处理方法、装置、电子设备及计算机存储介质
CN109002499B (zh) 学科相关性知识点库构建方法及其系统
WO2019227581A1 (zh) 兴趣点识别方法、装置、终端设备及存储介质
Wang et al. A context-based geoprocessing framework for optimizing meetup location of multiple moving objects along road networks
CN112256817A (zh) 一种地理编码方法、系统、终端以及存储介质
CN110688434B (zh) 一种兴趣点处理方法、装置、设备和介质
Abdolmajidi et al. Matching authority and VGI road networks using an extended node-based matching algorithm
CN108733810A (zh) 一种地址数据匹配方法及装置
Belcastro et al. Automatic detection of user trajectories from social media posts
CN110245286B (zh) 一种基于数据挖掘的旅行推荐方法及装置
Fu et al. Adaptive simplification of GPS trajectories with geographic context–a quadtree-based approach
CN113568951A (zh) 一种数据挖掘、处理方法和装置,存储介质和电子设备
Belcastro et al. Parallel extraction of Regions‐of‐Interest from social media data
JPH10134042A (ja) ハイパーテキスト構造における地図表示装置
JP5639549B2 (ja) 情報検索装置及び方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination