CN108304423A - 一种信息识别方法及装置 - Google Patents

一种信息识别方法及装置 Download PDF

Info

Publication number
CN108304423A
CN108304423A CN201710198353.0A CN201710198353A CN108304423A CN 108304423 A CN108304423 A CN 108304423A CN 201710198353 A CN201710198353 A CN 201710198353A CN 108304423 A CN108304423 A CN 108304423A
Authority
CN
China
Prior art keywords
information
attribute information
interest
point
coordinate data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710198353.0A
Other languages
English (en)
Other versions
CN108304423B (zh
Inventor
吴坤
沈沁
孟凡超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710198353.0A priority Critical patent/CN108304423B/zh
Priority to PCT/CN2018/080822 priority patent/WO2018177316A1/zh
Publication of CN108304423A publication Critical patent/CN108304423A/zh
Application granted granted Critical
Publication of CN108304423B publication Critical patent/CN108304423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种信息识别方法及装置,所述方法包括:通过互联网获取兴趣点的属性信息,属性信息包括兴趣点的标识信息或者地址信息;通过预置索引算法获取与属性信息相关联的坐标数据,坐标数据用于指示至少一个维度的关联信息;将属性信息与坐标数据进行比较,得到比较结果,比较结果包括属性信息与坐标数据匹配,或者属性信息与坐标数据不匹配;根据比较结果确定属性信息与坐标数据匹配时,识别属性信息的可信度大于第一预设可信度阈值;根据比较结果确定属性信息与坐标数据不匹配时,识别属性信息的可信度小于第二预设可信度阈值。采用本发明实施例,可精确识别兴趣点的属性信息的可信度,提高数字地图中标注的兴趣点的准确性。

Description

一种信息识别方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种信息识别方法及装置。
背景技术
目前,数字地图可以提供导航以及搜索兴趣点等功能,兴趣点可以包括地标、景点、政府部门或者商业机构(例如加油站、百货公司、酒店或者医院)等。示例性的,服务器可以通过第三方平台获取兴趣点的地址信息,并基于该地址信息将对应的兴趣点标注在数字地图中的相应位置,以便用户可以在数字地图中搜索兴趣点及其坐标。由于兴趣点的地址信息是通过第三方平台获取到的,其地址信息的可信度无从考证,服务器直接根据从第三方平台获取到的兴趣点的地址信息,将该兴趣点标注在数字地图的相应位置,导致数字地图中显示的兴趣点的准确性较低。
发明内容
本发明实施例所要解决的技术问题在于,提供一种信息识别方法及装置,可精确识别兴趣点的属性信息的可信度,提高数字地图中标注的兴趣点的准确性。
为了解决上述技术问题,本发明实施例提供了一种信息识别方法,所述方法包括:
通过互联网获取兴趣点的属性信息,所述属性信息包括所述兴趣点的标识信息或者地址信息;
通过预置索引算法获取与所述属性信息相关联的坐标数据,所述坐标数据用于指示至少一个维度的关联信息;
将所述属性信息与所述坐标数据进行比较,得到比较结果,所述比较结果包括所述属性信息与所述坐标数据匹配,或者所述属性信息与所述坐标数据不匹配;
根据所述比较结果确定所述属性信息与所述坐标数据匹配时,识别所述属性信息的可信度大于第一预设可信度阈值;
根据所述比较结果确定所述属性信息与所述坐标数据不匹配时,识别所述属性信息的可信度小于第二预设可信度阈值。
相应地,本发明实施例还提供了一种信息识别装置,所述装置包括:
属性信息获取模块,用于通过互联网获取兴趣点的属性信息,所述属性信息包括所述兴趣点的标识信息或者地址信息;
坐标数据获取模块,用于通过预置索引算法获取与所述属性信息相关联的坐标数据,所述坐标数据用于指示至少一个维度的关联信息;
比较模块,用于将所述属性信息与所述坐标数据进行比较,得到比较结果,所述比较结果包括所述属性信息与所述坐标数据匹配,或者所述属性信息与所述坐标数据不匹配;
可信度识别模块,用于根据所述比较结果确定所述属性信息与所述坐标数据匹配时,识别所述属性信息的可信度大于第一预设可信度阈值;
所述可信度识别模块,还用于根据所述比较结果确定所述属性信息与所述坐标数据不匹配时,识别所述属性信息的可信度小于第二预设可信度阈值。
实施本发明实施例,通过互联网获取兴趣点的属性信息,通过预置索引算法获取与该属性信息相关联的坐标数据,坐标数据用于指示至少一个维度的关联信息,将属性信息与坐标数据进行比较,得到比较结果,比较结果包括属性信息与坐标数据匹配,或者属性信息与坐标数据不匹配,根据比较结果确定属性信息与坐标数据匹配时,识别属性信息的可信度大于第一预设可信度阈值,根据比较结果确定属性信息与坐标数据不匹配时,识别属性信息的可信度小于第二预设可信度阈值,可精确识别兴趣点的属性信息的可信度,提高数字地图中标注的兴趣点的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1是本发明实施例中提供的一种信息识别系统的架构示意图;
图2是本发明实施例中提供的一种信息识别方法的流程示意图;
图3是本发明实施例中提供的一种界面示意图;
图4是本发明实施例中提供的一种信息识别装置的结构示意图;
图5是本发明实施例中提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种信息识别方法,通过互联网获取兴趣点的属性信息,通过预置索引算法获取与该属性信息相关联的坐标数据,坐标数据用于指示至少一个维度的关联信息,将属性信息与坐标数据进行比较,得到比较结果,比较结果包括属性信息与坐标数据匹配,或者属性信息与坐标数据不匹配,根据比较结果确定属性信息与坐标数据匹配时,识别属性信息的可信度大于第一预设可信度阈值,根据比较结果确定属性信息与坐标数据不匹配时,识别属性信息的可信度小于第二预设可信度阈值,可精确识别兴趣点的属性信息的可信度,提高数字地图中标注的兴趣点的准确性。
上述信息识别方法可以运行在个人电脑、智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑、移动互联网设备(MID,Mobile Internet Devices)或穿戴式智能设备等终端运行的服务器中。服务器可以是互联网中的一个独立服务设备,或者是由互联网中的多个独立服务设备共同构成的集群服务设备,服务器可以包括即时通信服务器或者SNS(Social Networking Services,社会性网络服务)服务器等,例如数字地图服务器或者导航服务器等。
基于上述原理,本发明实施例公开了图1所示的信息识别系统的架构示意图,该信息识别系统可以包括资源层、索引层、召回层以及策略层。
资源层用于存储兴趣点的属性信息以及与该属性信息相关联的坐标数据。其中,属性信息可以包括兴趣点的标识信息或者地址信息,标识信息可以为兴趣点的名称,例如“腾讯大厦”等,地址信息可以为该兴趣点的位置信息,例如“北四环西路66号”等,属性信息例如图1所示的兴趣点(Point of Interest,POI)数据。具体的,资源层可以在预置数字地图中获取兴趣点的属性信息,可选的,资源层还可以通过互联网获取兴趣点的属性信息,例如通过浏览器搜索或者第三方平台等方式获取兴趣点的属性信息,具体不受本发明实施例的限定。
索引层用于接收资源层发送的兴趣点的属性信息,并根据文本索引、点数据索引、线数据索引或者面数据索引等索引算法在预置数字地图中获取与该属性信息相关联的坐标数据,坐标数据可以包括目标属性信息、路网数据或者目标区域等。目标属性信息可以包括目标标识信息或者目标地址信息,路网数据可以包括道路信息,目标区域可以如图1所示的区划面数据、人工面数据、水域面数据、乡镇面数据或者挖掘面数据等。
召回层用于获取索引层检索到的坐标数据,并将上述坐标数据存储到资源层中。本发明实施例中的召回层实现了对文本的全局召回,以及索引链召回集合上的在线聚类。
策略层用于获取资源层中的兴趣点的属性信息,以及与该属性信息关联的坐标数据,并对该属性信息和坐标数据进行自然语言处理(Natural Language Processing,NLP)、文本解析、特征提取以及可信度识别等。其中,策略层对属性信息或者坐标数据进行NLP的具体方式可以包括分词、归一化、名称角色标注或者地址切分等。分词可以为基于专有名词、类别词或者业务名词等对属性信息或者坐标数据进行数据切分,得到若干单元属性信息。归一化可以为对属性信息或者坐标数据进行大小写转换、简繁体转换或者汉字数字转换等。策略层对属性信息或者坐标数据进行文本解析的具体方式可以包括名称解析和地址解析,名称解析可以包括对属性信息中的标识信息进行解析得到轮廓、道路、实体、门牌号、地标或者交叉路口等,地址解析可以包括对属性信息中的地址信息进行解析得到城市、区划、乡镇、轮廓、道路、实体、门牌号、地标或者交叉路口等。特征提取具体可以提取位置特征、文本特征、环境特征或者属性特征等。可信度识别可以判断提取到的兴趣点位于的城市、区划、乡镇、轮廓或者道路等位置特征与坐标数据包含的城市、区划、乡镇、轮廓或者道路等是否一致。或者可信度识别可以确定对属性信息进行文本解析提取到的实体、门牌号、地标或者交叉路口等文本特征在全局POI中的分布。或者可信度识别可以确定POI的周边密度或者区域地址多样性等环境特征。或者可信度识别可以判断实体等属性特征是否唯一,例如全国仅有一个天安门,则天安门是唯一的,又如家乐福超市是连锁店,则家乐福不是唯一的。可信度识别通过上述判断识别兴趣点的属性信息的可信度,对于模型分类边界部分的数据,可使用预置规则对该属性信息进行修正。
请参见图2,图2是本发明实施例公开的一种信息识别方法的流程示意图。如图2所示,该信息识别方法至少可以包括以下步骤:
S201,通过互联网获取兴趣点的属性信息,属性信息包括兴趣点的标识信息或者地址信息。
服务器可以通过互联网获取兴趣点的属性信息,属性信息包括兴趣点的标识信息或者地址信息。例如,服务器可以在预置数字地图中获取兴趣点的属性信息,或者通过浏览器获取兴趣点的属性信息。其中,属性信息可以包括兴趣点的标识信息或者地址信息等,示例性的,标识信息可以为兴趣点的名称等。
S202,通过预置索引算法获取与属性信息相关联的坐标数据。
服务器可以通过预置索引算法获取与属性信息相关联的坐标数据。其中,坐标数据可以用于指示至少一个维度的关联信息,例如坐标数据可以包括目标属性信息、路网数据或者目标区域等。
可选的,服务器可以对兴趣点的属性信息进行数据切分,得到若干单元属性信息,在信息数据库中查找与单元属性信息之间的相似度大于第一预设比例阈值的目标属性信息,其中目标属性信息可以包括目标标识信息或者目标地址信息。
可选的,服务器可以基于地址信息在预置数字地图中标注兴趣点,在预置数字地图中获取与兴趣点相连接的路网数据,路网数据包括道路信息。
可选的,服务器可以基于地址信息在预置数字地图中标注兴趣点,在预置数字地图中获取与兴趣点之间的距离小于第一预设距离阈值的目标区域。
S203,将属性信息与坐标数据进行比较,得到比较结果,比较结果包括属性信息与坐标数据匹配,或者属性信息与坐标数据不匹配。
服务器可以将属性信息与坐标数据进行比较,得到比较结果。例如,比较结果可以为属性信息和坐标数据匹配,或者比较结果可以为属性信息和坐标数据不匹配。又如,比较结果可以包括位置特征比较结果、文本特征比较结果、环境特征比较结果或者属性特征比较结果等。
可选的,服务器可以获取包含兴趣点的兴趣点集合,兴趣点集合所包含的每两个兴趣点的标识信息之间的相似度大于第二预设比例阈值,确定兴趣点集合所包含的所有兴趣点的数量总和小于预设数量阈值,当在信息数据库中查找到与单元属性信息之间的相似度大于第一预设比例阈值的目标属性信息时,服务器可以确定属性信息与坐标数据不匹配。可选的,当在信息数据库中查找到与单元属性信息之间的相似度大于第一预设比例阈值的目标属性信息时,服务器可以确定属性特征比较结果为0;当在信息数据库中未查找到与单元属性信息之间的相似度大于第一预设比例阈值的目标属性信息时,服务器可以确定属性特征比较结果为1。
可选的,服务器可以对兴趣点的地址信息进行数据切分,得到若干单元地址信息,当单元地址信息与道路信息不匹配时,服务器可以确定属性信息与坐标数据不匹配。可选的,当单元地址信息与道路信息不匹配时,服务器可以确定位置特征比较结果为0;当单元地址信息与道路信息匹配时,服务器可以确定位置特征比较结果为1。
可选的,服务器可以对目标区域进行分析处理,获取目标区域的流通量,在预置数字地图中获取与目标区域之间的距离小于第二预设距离阈值的目标兴趣点的数量总和,目标兴趣点的标识信息与兴趣点的标识信息之间的相似度大于第二预设比例阈值,当目标区域的流通量与目标兴趣点的数量总和不匹配时,服务器可以确定属性信息与坐标数据不匹配。可选的,当目标区域的流通量与目标兴趣点的数量总和不匹配时,服务器可以确定环境特征比较结果为0;当目标区域的流通量与目标兴趣点的数量总和匹配时,服务器可以确定环境特征比较结果为1。
可选的,服务器可以对兴趣点的标识信息进行数据切分,得到若干单元标识信息,当单元标识信息与目标区域的属性信息不匹配时,服务器可以确定属性信息与坐标数据不匹配。可选的,当单元标识信息与目标区域的属性信息不匹配时,服务器可以确定文本特征比较结果为0;当单元标识信息与目标区域的属性信息匹配时,服务器可以确定文本特征比较结果为1。
以图3所示的界面示意图为例,服务器获取到兴趣点的属性信息之后,可以检索点线面数据,并召回兴趣点周边的坐标数据,从多个维度进行分析识别,例如对兴趣点的属性信息进行分析得到道路、城市、门址、区划、实体、乡镇、楼栋、轮廓或者交叉路口等。服务器还可以进行特征计算,例如引用道路距离,轮廓是否匹配、门址支持数量、门址支持距离、实体支持数量或者实体支持距离等。服务器通过预置规则进行识别,例如服务器可以通过位置特征、文本特征、属性特征或者环境特征等子规则进行识别,进而进行规则组合,得到属性信息的可信度。
S204,根据比较结果确定属性信息与坐标数据匹配时,识别属性信息的可信度大于第一预设可信度阈值。
当比较结果为属性信息与坐标信息匹配时,服务器可以确定该属性信息的可信度较高,进而确定该属性信息的可信度大于第一预设可信度阈值,示例性的,第一预设可信度阈值可以为80%或者90%等。具体的,服务器可以基于位置特征比较结果、文本特征比较结果、属性特征比较结果或者环境特征比较结果,识别属性信息的可信度。
S205,根据比较结果确定属性信息与坐标数据不匹配时,识别属性信息的可信度小于第二预设可信度阈值。
当比较结果为属性信息与坐标信息不匹配时,服务器可以确定该属性信息的可信度较低,进而确定该属性信息的可信度小于第二预设可信度阈值,示例性的,第二预设可信度阈值可以为60%或者50%等。具体的,服务器可以基于位置特征比较结果、文本特征比较结果、属性特征比较结果或者环境特征比较结果,识别属性信息的可信度。
可选的,当属性信息的可信度小于第三预设可信度阈值时,服务器可以将基于地址信息在预置数字地图中标注的兴趣点进行删除。当属性信息的可信度大于或者等于第三预设可信度阈值时,服务器可以在预置数字地图中标注该兴趣点。示例性的,第三预设可信度阈值可以为40%或者50%等。
可选的,第一预设可信度阈值可以大于第二预设可信度阈值,第二预设可信度阈值可以大于第三预设可信度阈值。
本发明实施例中,通过互联网获取兴趣点的属性信息,通过预置索引算法获取与该属性信息相关联的坐标数据,将属性信息与坐标数据进行比较,得到比较结果,比较结果包括属性信息与坐标数据匹配,或者属性信息与坐标数据不匹配,根据比较结果确定属性信息与坐标数据匹配时,识别属性信息的可信度大于第一预设可信度阈值,根据比较结果确定属性信息与坐标数据不匹配时,识别属性信息的可信度小于第二预设可信度阈值,可精确识别兴趣点的属性信息的可信度,提高数字地图中标注的兴趣点的准确性。
请参见图4,图4是本发明实施例中提供的一种信息识别装置的结构示意图,如图所示本实施例中的信息识别装置至少可以包括属性信息获取模块401、坐标数据获取模块402、比较模块403以及可信度识别模块404,其中:
属性信息获取模块401,用于通过互联网获取兴趣点的属性信息,所述属性信息包括所述兴趣点的标识信息或者地址信息。
坐标数据获取模块402,用于通过预置索引算法获取与所述属性信息相关联的坐标数据,坐标数据用于指示至少一个维度的关联信息。
比较模块403,用于将所述属性信息与所述坐标数据进行比较,得到比较结果,比较结果包括属性信息与坐标数据匹配,或者属性信息与坐标数据不匹配。
可信度识别模块404,用于根据所述比较结果确定所述属性信息与所述坐标数据匹配时,识别所述属性信息的可信度大于第一预设可信度阈值。
所述可信度识别模块404,还用于根据所述比较结果确定所述属性信息与所述坐标数据不匹配时,识别所述属性信息的可信度小于第二预设可信度阈值。
可选的,所述坐标数据获取模块402,具体用于:
对所述兴趣点的属性信息进行数据切分,得到若干单元属性信息。
在信息数据库中查找与所述单元属性信息之间的相似度大于第一预设比例阈值的目标属性信息,所述目标属性信息包括目标标识信息或者目标地址信息。
可选的,所述比较模块403,具体用于:
获取包含所述兴趣点的兴趣点集合,所述兴趣点集合所包含的每两个兴趣点的标识信息之间的相似度大于第二预设比例阈值。
确定所述兴趣点集合所包含的所有兴趣点的数量总和小于预设数量阈值。
当在所述信息数据库中查找到与所述单元属性信息之间的相似度大于所述第一预设比例阈值的目标属性信息时,确定所述属性信息与所述坐标数据不匹配。
可选的,所述坐标数据获取模块402,具体用于:
基于所述地址信息在所述预置数字地图中标注所述兴趣点。
在所述预置数字地图中获取与所述兴趣点相连接的路网数据,所述路网数据包括道路信息。
可选的,所述比较模块403,具体用于:
对所述兴趣点的地址信息进行数据切分,得到若干单元地址信息。
当所述单元地址信息与所述道路信息不匹配时,确定所述属性信息与所述坐标数据不匹配。
可选的,所述坐标数据获取模块402,具体用于:
基于所述地址信息在所述预置数字地图中标注所述兴趣点。
在所述预置数字地图中获取与所述兴趣点之间的距离小于第一预设距离阈值的目标区域。
可选的,所述比较模块403,具体用于:
对所述目标区域进行分析处理,获取所述目标区域的流通量。
在所述预置数字地图中获取与所述目标区域之间的距离小于第二预设距离阈值的目标兴趣点的数量总和,所述目标兴趣点的标识信息与所述兴趣点的标识信息之间的相似度大于第二预设比例阈值。
当所述目标区域的流通量与所述目标兴趣点的数量总和不匹配时,确定所述属性信息与所述坐标数据不匹配。
可选的,所述比较模块403,具体用于:
对所述兴趣点的标识信息进行数据切分,得到若干单元标识信息。
当所述单元标识信息与所述目标区域的属性信息不匹配时,确定所述属性信息与所述坐标数据不匹配。
本发明实施例中,属性信息获取模块401通过互联网获取兴趣点的属性信息,坐标数据获取模块402通过预置索引算法获取与所述属性信息相关联的坐标数据,比较模块403将所述属性信息与所述坐标数据进行比较,得到比较结果,比较结果包括属性信息与坐标数据匹配,或者属性信息与坐标数据不匹配,可信度识别模块404根据比较结果确定属性信息与坐标数据匹配时,识别属性信息的可信度大于第一预设可信度阈值;根据比较结果确定属性信息与坐标数据不匹配时,识别属性信息的可信度小于第二预设可信度阈值,可精确识别兴趣点的属性信息的可信度,提高数字地图中标注的兴趣点的准确性。
请参见图5,图5为本发明实施例提供的一种服务器的结构示意图,本发明实施例提供的服务器可以用于实施上述图2所示的本发明实施例实现的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照图2所示的本发明实施例。
如图5所示,该服务器包括:至少一个处理器501,例如CPU,至少一个输入装置503,至少一个输出装置504,存储器505,至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,输入装置503具体可以为网络接口等,用于获取兴趣点的属性信息。其中,输出装置504具体可以为网络接口等,用于输出标注了兴趣点的预置数字地图。其中,存储器505可能包含高速RAM存储器,也可能还包括非不稳定的存储器,例如至少一个磁盘存储器,具体用于存储兴趣点的属性信息,以及与属性信息关联的坐标数据等。存储器505可选的可以包含至少一个位于远离前述处理器501的存储装置。处理器501可以结合图4所示的信息识别装置。存储器505中存储一组程序代码,且处理器501、输入装置503以及输出装置504调用存储器505中存储的程序代码,用于执行以下操作:
输入装置503通过互联网获取兴趣点的属性信息,所述属性信息包括所述兴趣点的标识信息或者地址信息。
处理器501通过预置索引算法获取与所述属性信息相关联的坐标数据,所述坐标数据用于指示至少一个维度的关联信息。
处理器501将所述属性信息与所述坐标数据进行比较,得到比较结果,所述比较结果包括所述属性信息与所述坐标数据匹配,或者所述属性信息与所述坐标数据不匹配。
处理器501根据所述比较结果确定所述属性信息与所述坐标数据匹配时,识别所述属性信息的可信度大于第一预设可信度阈值。
处理器501根据所述比较结果确定所述属性信息与所述坐标数据不匹配时,识别所述属性信息的可信度小于第二预设可信度阈值。
可选的,处理器501根据所述比较结果识别所述属性信息的可信度之后,还可以执行以下操作:
当所述属性信息的可信度小于第三预设可信度阈值时,处理器501将基于所述地址信息在预置数字地图中标注的所述兴趣点进行删除。
可选的,处理器501通过预置索引算法获取与所述属性信息相关联的坐标数据,具体可以为:
处理器501对所述兴趣点的属性信息进行数据切分,得到若干单元属性信息。
处理器501在信息数据库中查找与所述单元属性信息之间的相似度大于第一预设比例阈值的目标属性信息,所述目标属性信息包括目标标识信息或者目标地址信息。
可选的,处理器501将所述属性信息与所述坐标数据进行比较,得到比较结果,具体可以为:
处理器501获取包含所述兴趣点的兴趣点集合,所述兴趣点集合所包含的每两个兴趣点的标识信息之间的相似度大于第二预设比例阈值。
处理器501确定所述兴趣点集合所包含的所有兴趣点的数量总和小于预设数量阈值。
当在所述信息数据库中查找到与所述单元属性信息之间的相似度大于所述第一预设比例阈值的目标属性信息时,处理器501确定所述属性信息与所述坐标数据不匹配。
可选的,处理器501通过预置索引算法获取与所述属性信息相关联的坐标数据,具体可以为:
处理器501基于所述地址信息在所述预置数字地图中标注所述兴趣点。
处理器501在所述预置数字地图中获取与所述兴趣点相连接的路网数据,所述路网数据包括道路信息。
可选的,处理器501将所述属性信息与所述坐标数据进行比较,得到比较结果,具体可以为:
处理器501对所述兴趣点的地址信息进行数据切分,得到若干单元地址信息。
当所述单元地址信息与所述道路信息不匹配时,处理器501确定所述属性信息与所述坐标数据不匹配。
可选的,处理器501通过预置索引算法获取与所述属性信息相关联的坐标数据,具体可以为:
处理器501基于所述地址信息在所述预置数字地图中标注所述兴趣点。
处理器501在所述预置数字地图中获取与所述兴趣点之间的距离小于第一预设距离阈值的目标区域。
可选的,处理器501将所述属性信息与所述坐标数据进行比较,得到比较结果,具体可以为:
处理器501对所述目标区域进行分析处理,获取所述目标区域的流通量。
处理器501在所述预置数字地图中获取与所述目标区域之间的距离小于第二预设距离阈值的目标兴趣点的数量总和,所述目标兴趣点的标识信息与所述兴趣点的标识信息之间的相似度大于第二预设比例阈值。
当所述目标区域的流通量与所述目标兴趣点的数量总和不匹配时,处理器501确定所述属性信息与所述坐标数据不匹配。
可选的,处理器501将所述属性信息与所述坐标数据进行比较,得到比较结果,具体可以为:
处理器501对所述兴趣点的标识信息进行数据切分,得到若干单元标识信息。
当所述单元标识信息与所述目标区域的属性信息不匹配时,处理器501确定所述属性信息与所述坐标数据不匹配。
具体的,本发明实施例中介绍的终端可以用以实施本发明结合图2介绍的方法实施例中的部分或全部流程。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (14)

1.一种信息识别方法,其特征在于,所述方法包括:
通过互联网获取兴趣点的属性信息,所述属性信息包括所述兴趣点的标识信息或者地址信息;
通过预置索引算法获取与所述属性信息相关联的坐标数据,所述坐标数据用于指示至少一个维度的关联信息;
将所述属性信息与所述坐标数据进行比较,得到比较结果,所述比较结果包括所述属性信息与所述坐标数据匹配,或者所述属性信息与所述坐标数据不匹配;
根据所述比较结果确定所述属性信息与所述坐标数据匹配时,识别所述属性信息的可信度大于第一预设可信度阈值;
根据所述比较结果确定所述属性信息与所述坐标数据不匹配时,识别所述属性信息的可信度小于第二预设可信度阈值。
2.如权利要求1所述的方法,其特征在于,所述通过预置索引算法获取与所述属性信息相关联的坐标数据,包括:
对所述兴趣点的属性信息进行数据切分,得到若干单元属性信息;
在信息数据库中查找与所述单元属性信息之间的相似度大于第一预设比例阈值的目标属性信息,所述目标属性信息包括目标标识信息或者目标地址信息。
3.如权利要求2所述的方法,其特征在于,所述将所述属性信息与所述坐标数据进行比较,得到比较结果,包括:
获取包含所述兴趣点的兴趣点集合,所述兴趣点集合所包含的每两个兴趣点的标识信息之间的相似度大于第二预设比例阈值;
确定所述兴趣点集合所包含的所有兴趣点的数量总和小于预设数量阈值;
当在所述信息数据库中查找到与所述单元属性信息之间的相似度大于所述第一预设比例阈值的目标属性信息时,确定所述属性信息与所述坐标数据不匹配。
4.如权利要求1所述的方法,其特征在于,所述通过预置索引算法获取与所述属性信息相关联的坐标数据,包括:
基于所述地址信息在所述预置数字地图中标注所述兴趣点;
在所述预置数字地图中获取与所述兴趣点相连接的路网数据,所述路网数据包括道路信息。
5.如权利要求4所述的方法,其特征在于,所述将所述属性信息与所述坐标数据进行比较,得到比较结果,包括:
对所述兴趣点的地址信息进行数据切分,得到若干单元地址信息;
当所述单元地址信息与所述道路信息不匹配时,确定所述属性信息与所述坐标数据不匹配。
6.如权利要求1所述的方法,其特征在于,所述通过预置索引算法获取与所述属性信息相关联的坐标数据,包括:
基于所述地址信息在所述预置数字地图中标注所述兴趣点;
在所述预置数字地图中获取与所述兴趣点之间的距离小于第一预设距离阈值的目标区域。
7.如权利要求6所述的方法,其特征在于,所述将所述属性信息与所述坐标数据进行比较,得到比较结果,包括:
对所述目标区域进行分析处理,获取所述目标区域的流通量;
在所述预置数字地图中获取与所述目标区域之间的距离小于第二预设距离阈值的目标兴趣点的数量总和,所述目标兴趣点的标识信息与所述兴趣点的标识信息之间的相似度大于第二预设比例阈值;
当所述目标区域的流通量与所述目标兴趣点的数量总和不匹配时,确定所述属性信息与所述坐标数据不匹配。
8.一种信息识别装置,其特征在于,所述装置包括:
属性信息获取模块,用于通过互联网获取兴趣点的属性信息,所述属性信息包括所述兴趣点的标识信息或者地址信息;
坐标数据获取模块,用于通过预置索引算法获取与所述属性信息相关联的坐标数据,所述坐标数据用于指示至少一个维度的关联信息;
比较模块,用于将所述属性信息与所述坐标数据进行比较,得到比较结果,所述比较结果包括所述属性信息与所述坐标数据匹配,或者所述属性信息与所述坐标数据不匹配;
可信度识别模块,用于根据所述比较结果确定所述属性信息与所述坐标数据匹配时,识别所述属性信息的可信度大于第一预设可信度阈值;
所述可信度识别模块,还用于根据所述比较结果确定所述属性信息与所述坐标数据不匹配时,识别所述属性信息的可信度小于第二预设可信度阈值。
9.如权利要求8所述的装置,其特征在于,所述坐标数据获取模块,具体用于:
对所述兴趣点的属性信息进行数据切分,得到若干单元属性信息;
在信息数据库中查找与所述单元属性信息之间的相似度大于第一预设比例阈值的目标属性信息,所述目标属性信息包括目标标识信息或者目标地址信息。
10.如权利要求9所述的装置,其特征在于,所述比较模块,具体用于:
获取包含所述兴趣点的兴趣点集合,所述兴趣点集合所包含的每两个兴趣点的标识信息之间的相似度大于第二预设比例阈值;
确定所述兴趣点集合所包含的所有兴趣点的数量总和小于预设数量阈值;
当在所述信息数据库中查找到与所述单元属性信息之间的相似度大于所述第一预设比例阈值的目标属性信息时,确定所述属性信息与所述坐标数据不匹配。
11.如权利要求8所述的装置,其特征在于,所述坐标数据获取模块,具体用于:
基于所述地址信息在所述预置数字地图中标注所述兴趣点;
在所述预置数字地图中获取与所述兴趣点相连接的路网数据,所述路网数据包括道路信息。
12.如权利要求11所述的装置,其特征在于,所述比较模块,具体用于:
对所述兴趣点的地址信息进行数据切分,得到若干单元地址信息;
当所述单元地址信息与所述道路信息不匹配时,确定所述属性信息与所述坐标数据不匹配。
13.如权利要求8所述的装置,其特征在于,所述坐标数据获取模块,具体用于:
基于所述地址信息在所述预置数字地图中标注所述兴趣点;
在所述预置数字地图中获取与所述兴趣点之间的距离小于第一预设距离阈值的目标区域。
14.如权利要求13所述的装置,其特征在于,所述比较模块,具体用于:
对所述目标区域进行分析处理,获取所述目标区域的流通量;
在所述预置数字地图中获取与所述目标区域之间的距离小于第二预设距离阈值的目标兴趣点的数量总和,所述目标兴趣点的标识信息与所述兴趣点的标识信息之间的相似度大于第二预设比例阈值;
当所述目标区域的流通量与所述目标兴趣点的数量总和不匹配时,确定所述属性信息与所述坐标数据不匹配。
CN201710198353.0A 2017-03-29 2017-03-29 一种信息识别方法及装置 Active CN108304423B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710198353.0A CN108304423B (zh) 2017-03-29 2017-03-29 一种信息识别方法及装置
PCT/CN2018/080822 WO2018177316A1 (zh) 2017-03-29 2018-03-28 信息识别方法、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710198353.0A CN108304423B (zh) 2017-03-29 2017-03-29 一种信息识别方法及装置

Publications (2)

Publication Number Publication Date
CN108304423A true CN108304423A (zh) 2018-07-20
CN108304423B CN108304423B (zh) 2021-09-28

Family

ID=62872097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710198353.0A Active CN108304423B (zh) 2017-03-29 2017-03-29 一种信息识别方法及装置

Country Status (2)

Country Link
CN (1) CN108304423B (zh)
WO (1) WO2018177316A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344209A (zh) * 2018-08-20 2019-02-15 中国平安人寿保险股份有限公司 一种基于大数据的地址测试方法及终端设备
CN109558874A (zh) * 2018-12-11 2019-04-02 上海集成电路研发中心有限公司 一种基于图像识别的定位方法及装置
CN110390279A (zh) * 2019-07-08 2019-10-29 丰图科技(深圳)有限公司 坐标识别方法、装置、设备、及计算机可读存储介质
CN110413904A (zh) * 2019-07-25 2019-11-05 北京百度网讯科技有限公司 一种兴趣点地址数据处理方法、装置、服务器和介质
CN111209354A (zh) * 2018-11-22 2020-05-29 北京搜狗科技发展有限公司 一种地图兴趣点判重的方法、装置及电子设备
CN111767478A (zh) * 2020-06-22 2020-10-13 北京百度网讯科技有限公司 一种关联关系构建方法、装置、设备及存储介质
CN111797183A (zh) * 2020-05-29 2020-10-20 汉海信息技术(上海)有限公司 挖掘信息点的道路属性的方法、装置及电子设备
CN112836472A (zh) * 2021-02-18 2021-05-25 中国城市规划设计研究院 一种地址批注方法、装置、设备及存储介质
CN113282690A (zh) * 2020-02-19 2021-08-20 百度在线网络技术(北京)有限公司 兴趣点召回的排序方法、装置、设备和存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324679B (zh) * 2018-12-14 2023-04-11 阿里巴巴集团控股有限公司 地址信息的处理方法、装置和系统
CN110457420B (zh) * 2019-08-13 2024-04-16 腾讯云计算(北京)有限责任公司 兴趣点位置识别方法、装置、设备及存储介质
CN112381162B (zh) * 2020-11-19 2024-05-07 北京百度网讯科技有限公司 信息点识别方法、装置及电子设备
CN112948517B (zh) * 2021-02-26 2023-06-23 北京百度网讯科技有限公司 区域位置标定方法、装置及电子设备
CN113723405B (zh) * 2021-08-31 2024-09-13 北京百度网讯科技有限公司 区域轮廓的确定方法、装置和电子设备
CN114896363B (zh) * 2022-04-19 2023-03-28 北京月新时代科技股份有限公司 一种数据管理方法、装置、设备及介质
CN117112587B (zh) * 2023-10-19 2024-06-18 腾讯科技(深圳)有限公司 地图数据处理方法、装置、介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841920A (zh) * 2012-06-30 2012-12-26 北京百度网讯科技有限公司 一种页面信息提取方法及装置
CN102867004A (zh) * 2011-07-06 2013-01-09 高德软件有限公司 一种地址匹配的方法及设备
CN104572902A (zh) * 2014-12-26 2015-04-29 北京中交兴路车联网科技有限公司 一种信息点匹配的方法及装置
CN104866542A (zh) * 2015-05-05 2015-08-26 腾讯科技(深圳)有限公司 一种poi数据验证方法和装置
CN105468632A (zh) * 2014-09-05 2016-04-06 高德软件有限公司 一种地理编码方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9529857B1 (en) * 2014-02-03 2016-12-27 Google Inc. Disambiguation of place geometry
US20160132513A1 (en) * 2014-02-05 2016-05-12 Sk Planet Co., Ltd. Device and method for providing poi information using poi grouping
CN106126719B (zh) * 2016-06-30 2019-11-26 百度在线网络技术(北京)有限公司 信息处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867004A (zh) * 2011-07-06 2013-01-09 高德软件有限公司 一种地址匹配的方法及设备
CN102841920A (zh) * 2012-06-30 2012-12-26 北京百度网讯科技有限公司 一种页面信息提取方法及装置
CN105468632A (zh) * 2014-09-05 2016-04-06 高德软件有限公司 一种地理编码方法及装置
CN104572902A (zh) * 2014-12-26 2015-04-29 北京中交兴路车联网科技有限公司 一种信息点匹配的方法及装置
CN104866542A (zh) * 2015-05-05 2015-08-26 腾讯科技(深圳)有限公司 一种poi数据验证方法和装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344209A (zh) * 2018-08-20 2019-02-15 中国平安人寿保险股份有限公司 一种基于大数据的地址测试方法及终端设备
CN111209354A (zh) * 2018-11-22 2020-05-29 北京搜狗科技发展有限公司 一种地图兴趣点判重的方法、装置及电子设备
CN109558874A (zh) * 2018-12-11 2019-04-02 上海集成电路研发中心有限公司 一种基于图像识别的定位方法及装置
CN109558874B (zh) * 2018-12-11 2024-05-31 上海集成电路研发中心有限公司 一种基于图像识别的定位方法及装置
CN110390279A (zh) * 2019-07-08 2019-10-29 丰图科技(深圳)有限公司 坐标识别方法、装置、设备、及计算机可读存储介质
CN110413904A (zh) * 2019-07-25 2019-11-05 北京百度网讯科技有限公司 一种兴趣点地址数据处理方法、装置、服务器和介质
CN113282690A (zh) * 2020-02-19 2021-08-20 百度在线网络技术(北京)有限公司 兴趣点召回的排序方法、装置、设备和存储介质
CN113282690B (zh) * 2020-02-19 2024-04-02 百度在线网络技术(北京)有限公司 兴趣点召回的排序方法、装置、设备和存储介质
CN111797183A (zh) * 2020-05-29 2020-10-20 汉海信息技术(上海)有限公司 挖掘信息点的道路属性的方法、装置及电子设备
CN111767478A (zh) * 2020-06-22 2020-10-13 北京百度网讯科技有限公司 一种关联关系构建方法、装置、设备及存储介质
CN111767478B (zh) * 2020-06-22 2023-08-15 北京百度网讯科技有限公司 一种关联关系构建方法、装置、设备及存储介质
CN112836472A (zh) * 2021-02-18 2021-05-25 中国城市规划设计研究院 一种地址批注方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2018177316A1 (zh) 2018-10-04
CN108304423B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN108304423A (zh) 一种信息识别方法及装置
US11698261B2 (en) Method, apparatus, computer device and storage medium for determining POI alias
CN108628811B (zh) 地址文本的匹配方法和装置
CN107656913B (zh) 地图兴趣点地址提取方法、装置、服务器和存储介质
JP5232415B2 (ja) 自然言語ベースのロケーション・クエリー・システム、キーワード・ベースのロケーション・クエリー・システム、及び自然言語ベース/キーワード・ベースのロケーション・クエリー・システム
US10789078B2 (en) Method and system for inputting information
CN108388559B (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN112069276B (zh) 地址编码方法、装置、计算机设备及计算机可读存储介质
US8782041B1 (en) Text search for weather data
CN110019616B (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
CN114070760B (zh) 一种网络空间资产的测绘方法及相关装置
JP2007219655A (ja) 施設情報管理システム、施設情報管理方法および施設情報管理プログラム
CN111522838A (zh) 地址相似度计算方法及相关装置
CN107783976A (zh) 用户信息挖掘方法及装置
CN110990651B (zh) 地址数据处理方法、装置、电子设备及计算机可读介质
CN102646124A (zh) 一种自动识别地址信息的方法
CN110688434A (zh) 一种兴趣点处理方法、装置、设备和介质
CN110895587B (zh) 用于确定目标用户的方法和装置
CN112000495B (zh) 用于兴趣点信息管理的方法、电子设备和存储介质
CN110232160B (zh) 兴趣点变迁事件检测方法、装置及存储介质
CN114036414A (zh) 兴趣点的处理方法、装置、电子设备、介质及程序产品
CN112861023B (zh) 地图信息处理方法、装置、设备、存储介质及程序产品
CN112861532B (zh) 地址标准化处理方法、装置、设备及在线搜索系统
CN107247779A (zh) 交互社区的搜索方法、装置及移动终端
CN111767722A (zh) 一种分词方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant