CN112016326A - 一种地图区域词识别方法、装置、电子设备和存储介质 - Google Patents
一种地图区域词识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112016326A CN112016326A CN202011027587.7A CN202011027587A CN112016326A CN 112016326 A CN112016326 A CN 112016326A CN 202011027587 A CN202011027587 A CN 202011027587A CN 112016326 A CN112016326 A CN 112016326A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- poi data
- position information
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000015654 memory Effects 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000008685 targeting Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 230000009193 crawling Effects 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/021—Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3679—Retrieval, searching and output of POI information, e.g. hotels, restaurants, shops, filling stations, parking facilities
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/38—Electronic maps specially adapted for navigation; Updating thereof
- G01C21/3804—Creation or updating of map data
- G01C21/3807—Creation or updating of map data characterised by the type of data
- G01C21/3811—Point data, e.g. Point of Interest [POI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/909—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
Landscapes
- Engineering & Computer Science (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Library & Information Science (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种地图区域词识别方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及大数据、智能交通技术。具体实现方案为:获取地图的兴趣点POI数据;将所述POI数据中的至少一个文本词作为目标词,根据所述目标词所属POI数据的位置信息进行聚类处理;根据位置信息的聚类结果,对所述目标词进行地图区域词的识别。本申请实施例中,在POI数据中直接识别区域词,避免了通过人工方式确定区域词,提升了区域词的识别效率;而且相比于通过爬虫技术爬取区域词,利用所有的POI数据进行区域词挖掘,得到的区域词更全面。
Description
技术领域
本申请涉及人工智能领域,尤其涉及大数据、智能交通技术,特别涉及一种地图区域词识别方法、装置、电子设备和存储介质。
背景技术
区域词是地图的组成部分,区域词对地图及LBS(Location Based Services,基于位置的服务)相关应用有十分重要的价值。
目前,区域词主要通过用户UGC(User Generated Content,用户原创内容)上传、专家PGC(Professionally Generated Content,专业生产内容)采集以及网络爬取等方式进行识别。
但现有技术存在一定不足:对用户积极性的依赖较高,且人工成本较高,区域词识别结果的覆盖率较低。
发明内容
本申请实施例提供了一种地图区域词识别方法、装置、设备和存储介质。
根据第一方面,提供了一种地图区域词识别方法,包括:
获取地图的兴趣点POI数据;
将POI数据中的至少一个文本词作为目标词,根据目标词所属POI数据的位置信息进行聚类处理;
根据位置信息的聚类结果,对目标词进行地图区域词的识别。
根据第二方面,提供了一种地图区域词识别装置,包括:
POI数据获取模块,用于获取地图的兴趣点POI数据;
目标词确定与聚类模块,用于将POI数据中的至少一个文本词作为目标词,根据目标词所属POI数据的位置信息进行聚类处理;
区域词识别模块,用于根据位置信息的聚类结果,对目标词进行地图区域词的识别。
根据第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请任意实施例的地图区域词识别方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本申请任意实施例的地图区域词识别方法。
根据本申请的技术,实现了无需人工上传即可识别区域词以及提升区域词识别结果的覆盖率的效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的地图区域词识别方法的流程示意图;
图2是根据本申请实施例的地图区域词识别方法的流程示意图;
图3是根据本申请实施例的地图区域词识别方法的流程示意图;
图4是根据本申请实施例的地图区域词识别装置的结构示意图;
图5是用来实现本申请实施例的地图区域词识别方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请实施例的地图区域词识别的方法的流程示意图,本实施例可适用于服务器从已有的地图兴趣点POI(Point of Interest)数据中识别区域词,以将识别的区域词用于地图等相关应用的情况。该方法可由一种地图区域词识别装置来执行,该装置采用软件和/或硬件的方式实现,优选是配置于电子设备中,例如配置在服务器上。
参见图1,地图区域词识别的方法具体如下:
S101、获取地图的兴趣点POI数据。
可选的,从地图数据库中获取全量的兴趣点POI数据,每条POI数据中可以包括POI名称、位置、类别以及附近的酒店饭店商铺等信息。
S102、将POI数据中的至少一个文本词作为目标词,根据目标词所属POI数据的位置信息进行聚类处理。
本申请实施例中,由于区域是POI名称的组成部分,因此在POI数据中确定待识别的区域词(即目标词)时,可选的,POI数据中的POI的名称对应的文本词作为目标词,或者先对POI数据中的POI名称进行切词处理,并将得到的分词结果中的至少一个文本词作为目标词。
其中,位置信息可选的为POI的经纬度,目标词所属POI数据是指POI名称中包括目标词的POI数据。由此在得到目标词后,可从获取的全量POI数据中确定POI名称包括目标词的POI数据,进而获取包括目标词的POI数据的位置信息。由于POI名称中包括目标词的POI数据的数量可能是多个,因此目标词所属POI数据的位置信息的数量也是多个,因此可对根据目标词所属POI数据的位置信息进行聚类处理。
在一种可选的实施方式中,根据目标词所属POI数据的位置信息进行聚类处理,包括:采用基于密度的聚类算法,对目标词所属POI数据的位置信息进行聚类处理。具体的聚类过程如下:步骤1,确定半径r和最小数量阈值,从一个没有被访问过的任意位置信息点开始,以该点为中心,r为半径的圆内包含的位置信息点的数量是否大于或等于最小数量阈值,如果大于或等于最小数量阈值,则该位置信息点被标记为核心点,反之则会被标记为噪声点。步骤2,重复步骤1的操作,如果一个噪声点存在于某个以核心点为半径的圆内,则这个点被标记为边缘点,反之仍为噪声点。重复上述步骤,直到所有的位置信息点都被访问过。由此可以得到聚类结果。需要说明的是,之所以选择基于密度的聚类算法,是因为聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。
S103、根据位置信息的聚类结果,对目标词进行地图区域词的识别。
在一种可选的实施方式中,根据位置信息的聚类结果,对目标词进行地图区域词的识别,包括:获取聚类结果中聚类中心的数量,若该数量不大于第二预设数量阈值,则确定所述目标词为地图区域词,其中第二预设数量阈值示例性的为3,也可以为其它数值,在此不做具体限定。需要说明的是,根据聚类结果中聚类中心的数量确定一个目标词是否为区域词,可以提升确定区域词的效率和准确性。
示例性的,目标词为“上地”,对所有POI名称中包括“上地”的POI数据的位置信息进行聚类后,得到的聚类数量为1(即一个聚类中心),则目标词“上地”为区域词。又如,目标词为“美食”,对所有POI名称中包括“美食”的POI数据的位置信息进行聚类后,得到的聚类数量成百上千,也即有成百上千各聚类中心,则该词不是一个区域词。
本申请实施例中,通过在POI数据中确定目标词,并对目标词所属POI数据的位置信息进行聚类,并根据拒了结果识别区域词。由此实现了在已有POI数据中直接识别区域词,避免了通过人工方式确定区域词,提升了区域词的识别效率。而且相比于通过爬虫技术爬取区域词,利用所有的POI数据进行区域词挖掘,得到的区域词更全面。
图2是根据本申请实施例的地图区域词识别方法的流程示意图,本实施例是在上述实施例的基础上进行优化,参见图2,该地图区域词识别的方法具体如下:
S201、获取地图的兴趣点POI数据。
S202、针对每个POI数据,生成对应的词位置集合,其中,词位置集合包括至少一个元素,且每个元素包括一个文本词和文本词所属POI数据的位置信息。
在一种可选的实施方式中,针对每个POI数据,生成对应的词位置集合,包括:
S2021.针对任一POI数据,获取该POI数据中的POI名称和位置信息。
可选的,在获取全量POI数据中各POI数据的POI名称和位置信息后,生成一个POI数据集合P={(n0,l0),(n1,l1),...(ni,li)...,(nn,ln)},其中,n等于获取的POI数据的总数,ni表示POI名称,li表示名称为ni的POI数据的位置信息。
S2022.对POI名称进行分词处理,得到至少一个文本词。
由于POI的名称包括多个词,而为了更多的识别区域词,可选的对POI数据集合中的任一POI名称进行分词,得到至少一个文本词。示例性的,对集合P中的任一元素Pi,取ni进行分词处理,得到分词集合(w0,w1,...wk),k表示ni切词后得到的词的数量。
S2023.基于至少一个文本词和位置信息,生成该POI数据对应的词位置集合。
示例性的,对集合P中的任一元素Pi,利用切切后得到的所有词和该POI的位置,构建元素Pi对应的词位置集合Wi={(w0,li),(w1,li),...(wk,li)}。由此可知,每个POI数据对应的词位置集合包括至少一个元素,且每个元素包括一个文本词和文本词所属POI数据的位置信息。
在此需要说明的是,通过对每个POI数据的POI名称进行切词,得到至少一个文本词,由此可以保证挖掘出足够的目标词,进而保证从目标词中识别出更多的区域词,以保证区域词的覆盖率。进而构建词位置集合相当于建立的文本词和文本词所属POI数据的位置信息的映射关系,使得在确定某一个文本词为目标词后,可以快速的确定目标词所属POI数据的位置信息。
S203、将各个词位置集合中的至少一个文本词作为目标词。
可选的,可将任意一个或多个文本词直接作为目标词。在此需要说明的是,由于集合中存在一些明显不是区域词的文本词,因此在确定目标词之前,可将该类文本词过滤掉,示例性的,可通过预设的非区域词库进行过滤。
S204、确定各个词位置集合中包括目标词的目标元素,并获取目标元素中包括的目标词所属POI数据的位置信息。
在确定目标词后,确定各个词位置集合中包括目标词的目标元素,也即确定了所有POI名称包括目标词的POI数据,由于目标元素中记载了目标词所属POI数据的位置信息,因此可以将获取的目标词所属POI数据的位置信息组成集合,例如构建位置集合m是包含目标词wi的POI的位置数量,也即是目标元素的数量。
S205、对目标词所属POI数据的位置信息进行聚类。
可选的,采用基于密度的聚类算法,对所述目标词所属POI数据的位置信息进行聚类处理。具体过程参见上述实施例,在此不再赘述。
需要说明的是,通过构建词位置集合,并从各词位置集合中获取目标元素中包括的目标词所属POI数据的位置信息,提升了获取目标词所属POI数据的位置信息的效率,进而提升后续的聚类的效率。
S206、根据位置信息的聚类结果,对目标词进行地图区域词的识别。
本申请实施例中,通过构建词位置集合,可以快速的从词位置集合中获取确定目标词和目标词所属POI数据的位置信息,由此保证了后续聚类效率,进而提升区域词识别的效率。
图3是根据本申请实施例的地图区域词识别方法的流程示意图,本实施例是在上述实施例的基础上进行优化,参见图3,该地图区域词识别的方法具体如下:
S301、获取地图的兴趣点POI数据。
S302、针对每个POI数据,生成对应的词位置集合,其中,词位置集合包括至少一个元素,且每个元素包括一个文本词和文本词所属POI数据的位置信息。
S303、将各个词位置集合中的至少一个文本词作为目标词。
S304、确定各个词位置集合中包括目标词的目标元素,并获取目标元素中包括的目标词所属POI数据的位置信息。
S305、确定目标元素的数量,并在目标元素的数量大于第一数量阈值时,触发执行对目标词所属POI数据的位置信息进行聚类的操作。
本申请实施例中,之所以确定目标元素的数量,如果目标元素的数量过少,则表明POI名称中包括目标词的POI数据的数量较少,该目标词肯定不是区域词,因此无需在进行后续的聚类操作。因此为了保证后续聚类操作的有效性,需要在目标元素的数量大于第一数量阈值时,触发执行对目标词所属POI数据的位置信息进行聚类的操作。
S306、对目标词所属POI数据的位置信息进行聚类。
S307、根据位置信息的聚类结果,对目标词进行地图区域词的识别。
可选的,获取聚类结果中聚类中心的数量,若该数量不大于第二预设数量阈值,则确定目标词为地图区域词。
本申请实施例中,通过确定目标元素的数量,并在目标元素的数量大于第一数量阈值时,触发执行对目标词所属POI数据的位置信息进行聚类的操作,由此保证了聚类操作的有效性。
图4是根据本申请实施例的地图区域词识别装置的结构示意图,本实施例可适用于服务器从已有的地图兴趣点POI(Point of Interest)数据中识别区域词,以将识别的区域词用于地图等相关应用的情况。如图4所示,该装置400具体包括:
POI数据获取模块401,用于获取地图的兴趣点POI数据;
目标词确定与聚类模块402,用于将POI数据中的至少一个文本词作为目标词,根据目标词所属POI数据的位置信息进行聚类处理;
区域词识别模块403,用于根据位置信息的聚类结果,对目标词进行地图区域词的识别。
在上述实施例的基础上,可选的,目标词确定与聚类模块,包括:
词位置集合生成单元,用于针对每个POI数据,生成对应的词位置集合,其中,词位置集合包括至少一个元素,且每个元素包括一个文本词和文本词所属POI数据的位置信息;
目标词确定单元,用于将各个词位置集合中的至少一个文本词作为目标词。
在上述实施例的基础上,可选的,目标词确定与聚类模块,包括:
目标元素确定单元,用于确定各个词位置集合中包括目标词的目标元素,并获取目标元素中包括的目标词所属POI数据的位置信息;
聚类单元,用于对目标词所属POI数据的位置信息进行聚类。
在上述实施例的基础上,可选的,词位置集合生成单元具体用于:
针对任一POI数据,获取该POI数据中的POI名称和位置信息;
对POI名称进行分词处理,得到至少一个文本词;
基于至少一个文本词和位置信息,生成该POI数据对应的词位置集合。
在上述实施例的基础上,可选的,该装置还包括:
触发模块,用于在对目标词所属POI数据的位置信息进行聚类之前,确定目标元素的数量,并在目标元素的数量大于第一数量阈值时,触发执行对目标词所属POI数据的位置信息进行聚类的操作。
在上述实施例的基础上,可选的,区域词识别模块具体用于:
获取聚类结果中聚类中心的数量,若该数量不大于第二预设数量阈值,则确定目标词为地图区域词。
在上述实施例的基础上,可选的,目标词确定与聚类模块还用于:
采用基于密度的聚类算法,对目标词所属POI数据的位置信息进行聚类处理。
本申请实施例提供的地图区域词识别装置400可执行本申请任意实施例提供的地图区域词识别方法,具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的地图区域词识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的地图区域词识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的地图区域词识别方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的地图区域词识别方法对应的程序指令/模块(例如,附图4所示的POI数据获取模块401、目标词确定与聚类模块402、区域词识别模块403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的地图区域词识别方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据实现本申请实施例的地图区域词识别方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至实现本申请实施例的地图区域词识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现本申请实施例的地图区域词识别方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与实现本申请实施例的地图区域词识别方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
根据本申请实施例的技术方案,实现了无需人工上传即可识别区域词以及提升区域词识别结果的覆盖率的效果。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (16)
1.一种地图区域词识别方法,包括:
获取地图的兴趣点POI数据;
将所述POI数据中的至少一个文本词作为目标词,根据所述目标词所属POI数据的位置信息进行聚类处理;
根据位置信息的聚类结果,对所述目标词进行地图区域词的识别。
2.根据权利要求1所述的方法,其中,将所述POI数据中的至少一个文本词作为目标词,包括:
针对每个所述POI数据,生成对应的词位置集合,其中,所述词位置集合包括至少一个元素,且每个元素包括一个文本词和文本词所属POI数据的位置信息;
将各个所述词位置集合中的至少一个文本词作为目标词。
3.根据权利要求2所述的方法,其中,根据所述目标词所属POI数据的位置信息进行聚类处理,包括:
确定各个所述词位置集合中包括所述目标词的目标元素,并获取所述目标元素中包括的目标词所属POI数据的位置信息;
对所述目标词所属POI数据的位置信息进行聚类。
4.根据权利要求2所述的方法,其中,针对每个所述POI数据,生成对应的词位置集合,包括:
针对任一POI数据,获取该POI数据中的POI名称和位置信息;
对所述POI名称进行分词处理,得到至少一个文本词;
基于至少一个文本词和所述位置信息,生成该POI数据对应的词位置集合。
5.根据权利要求3所述的方法,其中,在对所述目标词所属POI数据的位置信息进行聚类之前,还包括:
确定所述目标元素的数量,并在所述目标元素的数量大于第一数量阈值时,触发执行对所述目标词所属POI数据的位置信息进行聚类的操作。
6.根据权利要求1所述的方法,其中,根据位置信息的聚类结果,对所述目标词进行地图区域词的识别,包括:
获取聚类结果中聚类中心的数量,若该数量不大于第二预设数量阈值,则确定所述目标词为地图区域词。
7.根据权利要求1所述的方法,其中,根据所述目标词所属POI数据的位置信息进行聚类处理,包括:
采用基于密度的聚类算法,对所述目标词所属POI数据的位置信息进行聚类处理。
8.一种地图区域词识别装置,包括:
POI数据获取模块,用于获取地图的兴趣点POI数据;
目标词确定与聚类模块,用于将所述POI数据中的至少一个文本词作为目标词,根据所述目标词所属POI数据的位置信息进行聚类处理;
区域词识别模块,用于根据位置信息的聚类结果,对所述目标词进行地图区域词的识别。
9.根据权利要求8所述的装置,其中,目标词确定与聚类模块,包括:
词位置集合生成单元,用于针对每个所述POI数据,生成对应的词位置集合,其中,所述词位置集合包括至少一个元素,且每个元素包括一个文本词和文本词所属POI数据的位置信息;
目标词确定单元,用于将各个所述词位置集合中的至少一个文本词作为目标词。
10.根据权利要求9所述的装置,其中,目标词确定与聚类模块,包括:
目标元素确定单元,用于确定各个所述词位置集合中包括所述目标词的目标元素,并获取所述目标元素中包括的目标词所属POI数据的位置信息;
聚类单元,用于对所述目标词所属POI数据的位置信息进行聚类。
11.根据权利要求9所述的装置,其中,词位置集合生成单元具体用于:
针对任一POI数据,获取该POI数据中的POI名称和位置信息;
对所述POI名称进行分词处理,得到至少一个文本词;
基于至少一个文本词和所述位置信息,生成该POI数据对应的词位置集合。
12.根据权利要求10所述的装置,其中,还包括:
触发模块,用于在对所述目标词所属POI数据的位置信息进行聚类之前,确定所述目标元素的数量,并在所述目标元素的数量大于第一数量阈值时,触发执行对所述目标词所属POI数据的位置信息进行聚类的操作。
13.根据权利要求8所述的装置,其中,区域词识别模块具体用于:
获取聚类结果中聚类中心的数量,若该数量不大于第二预设数量阈值,则确定所述目标词为地图区域词。
14.根据权利要求8所述的装置,其中,目标词确定与聚类模块还用于:
采用基于密度的聚类算法,对所述目标词所属POI数据的位置信息进行聚类处理。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的地图区域词识别方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的地图区域词识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011027587.7A CN112016326A (zh) | 2020-09-25 | 2020-09-25 | 一种地图区域词识别方法、装置、电子设备和存储介质 |
US17/211,193 US20210209160A1 (en) | 2020-09-25 | 2021-03-24 | Method and apparatus for identifying map region words |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011027587.7A CN112016326A (zh) | 2020-09-25 | 2020-09-25 | 一种地图区域词识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112016326A true CN112016326A (zh) | 2020-12-01 |
Family
ID=73527589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011027587.7A Pending CN112016326A (zh) | 2020-09-25 | 2020-09-25 | 一种地图区域词识别方法、装置、电子设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210209160A1 (zh) |
CN (1) | CN112016326A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966192A (zh) * | 2021-02-09 | 2021-06-15 | 北京百度网讯科技有限公司 | 区域地址命名方法、装置、电子设备及可读存储介质 |
CN113094786A (zh) * | 2021-04-06 | 2021-07-09 | 万翼科技有限公司 | 基于图纸poi的施工图结构化组织方法和装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704538B (zh) * | 2021-08-30 | 2024-06-18 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009052277A1 (en) * | 2007-10-17 | 2009-04-23 | Evri, Inc. | Nlp-based entity recognition and disambiguation |
CN102867004A (zh) * | 2011-07-06 | 2013-01-09 | 高德软件有限公司 | 一种地址匹配的方法及设备 |
CN103609144A (zh) * | 2011-06-16 | 2014-02-26 | 诺基亚公司 | 用于解析地理标识的方法和装置 |
CN104572955A (zh) * | 2014-12-29 | 2015-04-29 | 北京奇虎科技有限公司 | 一种基于聚类确定poi名称的系统及方法 |
CN104899243A (zh) * | 2015-03-31 | 2015-09-09 | 北京奇虎科技有限公司 | 检测兴趣点poi数据准确性的方法及装置 |
CN105160031A (zh) * | 2015-09-30 | 2015-12-16 | 北京奇虎科技有限公司 | 一种地图兴趣点poi数据的挖掘方法和装置 |
CN107622061A (zh) * | 2016-07-13 | 2018-01-23 | 阿里巴巴集团控股有限公司 | 一种确定地址唯一性的方法、装置及系统 |
CN107656913A (zh) * | 2017-09-30 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 地图兴趣点地址提取方法、装置、服务器和存储介质 |
CN108596648A (zh) * | 2018-03-20 | 2018-09-28 | 阿里巴巴集团控股有限公司 | 一种商圈判定方法和装置 |
CN109635063A (zh) * | 2018-12-06 | 2019-04-16 | 拉扎斯网络科技(上海)有限公司 | 地址库的信息处理方法、装置、电子设备和存储介质 |
CN110597943A (zh) * | 2019-09-16 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 基于人工智能的兴趣点处理方法、装置及电子设备 |
CN110968654A (zh) * | 2018-09-29 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 文本数据的地址类目确定方法、设备以及系统 |
CN111210269A (zh) * | 2020-01-02 | 2020-05-29 | 平安科技(深圳)有限公司 | 基于大数据的对象识别方法、电子装置及存储介质 |
CN111695488A (zh) * | 2020-06-09 | 2020-09-22 | 北京百度网讯科技有限公司 | 兴趣面识别方法、装置、设备以及存储介质 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7574420B2 (en) * | 2005-11-17 | 2009-08-11 | International Business Machines Corporation | Indexing pages based on associations with geographic regions |
US8401771B2 (en) * | 2008-07-22 | 2013-03-19 | Microsoft Corporation | Discovering points of interest from users map annotations |
TWI393860B (zh) * | 2008-12-24 | 2013-04-21 | Mitac Int Corp | 藉由辨識網頁資訊來導覽地理位置的方法與系統 |
US8335990B2 (en) * | 2009-08-18 | 2012-12-18 | Nokia Corporation | Method and apparatus for grouping points-of-interest on a map |
US8756010B2 (en) * | 2009-10-12 | 2014-06-17 | Qualcomm Incorporated | Method and apparatus for identification of points of interest within a predefined area |
US10001384B2 (en) * | 2009-11-12 | 2018-06-19 | Here Global B.V. | Method and apparatus for the retrieval of similar places |
US9122693B2 (en) * | 2010-11-30 | 2015-09-01 | Nokia Technologies Oy | Method and apparatus for determining contextually relevant geographical locations |
US20120254186A1 (en) * | 2011-03-31 | 2012-10-04 | Nokia Corporation | Method and apparatus for rendering categorized location-based search results |
US9384211B1 (en) * | 2011-04-11 | 2016-07-05 | Groupon, Inc. | System, method, and computer program product for automated discovery, curation and editing of online local content |
US9165074B2 (en) * | 2011-05-10 | 2015-10-20 | Uber Technologies, Inc. | Systems and methods for performing geo-search and retrieval of electronic point-of-interest records using a big index |
EP2581703B1 (en) * | 2011-10-12 | 2017-05-17 | Mapquest, Inc. | Systems and methods for ranking points of interest |
US9706352B2 (en) * | 2012-01-06 | 2017-07-11 | Google Inc. | System and method for determining a boundary of a geographic area |
US20150169626A1 (en) * | 2012-01-09 | 2015-06-18 | Google Inc. | System and method for identifying a new geographical area name |
US8849951B2 (en) * | 2012-05-08 | 2014-09-30 | Cellco Partnership | Generating custom address links |
US8849567B2 (en) * | 2012-05-31 | 2014-09-30 | Google Inc. | Geographic data update based on user input |
US20140006408A1 (en) * | 2012-06-29 | 2014-01-02 | Yahoo! Inc. | Identifying points of interest via social media |
US8874594B2 (en) * | 2013-02-06 | 2014-10-28 | Google Inc. | Search with my location history |
US9307353B2 (en) * | 2013-03-07 | 2016-04-05 | Geofeedia, Inc. | System and method for differentially processing a location input for content providers that use different location input formats |
CN104102637B (zh) * | 2013-04-02 | 2017-09-29 | 高德软件有限公司 | 一种生成热点区域的方法及装置 |
US9442905B1 (en) * | 2013-06-28 | 2016-09-13 | Google Inc. | Detecting neighborhoods from geocoded web documents |
JP6177030B2 (ja) * | 2013-07-04 | 2017-08-09 | クラリオン株式会社 | Poi情報提供システム、poi情報提供装置、poi情報提供方法、及びプログラム |
US10623888B2 (en) * | 2015-03-05 | 2020-04-14 | Telenav, Inc. | Computing system with crowd prediction mechanism and method of operation thereof |
US9787557B2 (en) * | 2015-04-28 | 2017-10-10 | Google Inc. | Determining semantic place names from location reports |
CN109478184B (zh) * | 2016-06-24 | 2022-04-19 | 谷歌有限责任公司 | 识别、处理和显示数据点聚类 |
KR20180063538A (ko) * | 2016-12-02 | 2018-06-12 | 삼성전자주식회사 | Poi 정보를 제공하는 방법 및 이를 지원하는 전자 장치 |
JP2020529649A (ja) * | 2017-08-04 | 2020-10-08 | ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド | ピックアップロケーションをネーミングするための方法およびシステム |
US11068788B2 (en) * | 2017-12-03 | 2021-07-20 | Lyft, Inc. | Automatic generation of human-understandable geospatial descriptors |
-
2020
- 2020-09-25 CN CN202011027587.7A patent/CN112016326A/zh active Pending
-
2021
- 2021-03-24 US US17/211,193 patent/US20210209160A1/en not_active Abandoned
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009052277A1 (en) * | 2007-10-17 | 2009-04-23 | Evri, Inc. | Nlp-based entity recognition and disambiguation |
CN103609144A (zh) * | 2011-06-16 | 2014-02-26 | 诺基亚公司 | 用于解析地理标识的方法和装置 |
CN102867004A (zh) * | 2011-07-06 | 2013-01-09 | 高德软件有限公司 | 一种地址匹配的方法及设备 |
CN104572955A (zh) * | 2014-12-29 | 2015-04-29 | 北京奇虎科技有限公司 | 一种基于聚类确定poi名称的系统及方法 |
CN104899243A (zh) * | 2015-03-31 | 2015-09-09 | 北京奇虎科技有限公司 | 检测兴趣点poi数据准确性的方法及装置 |
CN105160031A (zh) * | 2015-09-30 | 2015-12-16 | 北京奇虎科技有限公司 | 一种地图兴趣点poi数据的挖掘方法和装置 |
CN107622061A (zh) * | 2016-07-13 | 2018-01-23 | 阿里巴巴集团控股有限公司 | 一种确定地址唯一性的方法、装置及系统 |
CN107656913A (zh) * | 2017-09-30 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 地图兴趣点地址提取方法、装置、服务器和存储介质 |
CN108596648A (zh) * | 2018-03-20 | 2018-09-28 | 阿里巴巴集团控股有限公司 | 一种商圈判定方法和装置 |
CN110968654A (zh) * | 2018-09-29 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 文本数据的地址类目确定方法、设备以及系统 |
CN109635063A (zh) * | 2018-12-06 | 2019-04-16 | 拉扎斯网络科技(上海)有限公司 | 地址库的信息处理方法、装置、电子设备和存储介质 |
CN110597943A (zh) * | 2019-09-16 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 基于人工智能的兴趣点处理方法、装置及电子设备 |
CN111210269A (zh) * | 2020-01-02 | 2020-05-29 | 平安科技(深圳)有限公司 | 基于大数据的对象识别方法、电子装置及存储介质 |
CN111695488A (zh) * | 2020-06-09 | 2020-09-22 | 北京百度网讯科技有限公司 | 兴趣面识别方法、装置、设备以及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966192A (zh) * | 2021-02-09 | 2021-06-15 | 北京百度网讯科技有限公司 | 区域地址命名方法、装置、电子设备及可读存储介质 |
CN112966192B (zh) * | 2021-02-09 | 2023-10-27 | 北京百度网讯科技有限公司 | 区域地址命名方法、装置、电子设备及可读存储介质 |
CN113094786A (zh) * | 2021-04-06 | 2021-07-09 | 万翼科技有限公司 | 基于图纸poi的施工图结构化组织方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20210209160A1 (en) | 2021-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111522967B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
CN112016326A (zh) | 一种地图区域词识别方法、装置、电子设备和存储介质 | |
CN112036509A (zh) | 用于训练图像识别模型的方法和装置 | |
CN111488740B (zh) | 一种因果关系的判别方法、装置、电子设备及存储介质 | |
CN111695488A (zh) | 兴趣面识别方法、装置、设备以及存储介质 | |
CN111339759A (zh) | 领域要素识别模型训练方法、装置及电子设备 | |
CN113656587B (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113344089B (zh) | 模型训练方法、装置及电子设备 | |
CN112148881A (zh) | 用于输出信息的方法和装置 | |
CN111582477A (zh) | 神经网络模型的训练方法和装置 | |
CN114090601B (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
CN111538815A (zh) | 一种文本查询方法、装置、设备及存储介质 | |
CN112000763A (zh) | 兴趣点竞争关系确定方法、装置、设备和介质 | |
CN111639253A (zh) | 一种数据判重方法、装置、设备及存储介质 | |
CN111915608A (zh) | 建筑物提取方法、装置、设备和存储介质 | |
CN114494776A (zh) | 一种模型训练方法、装置、设备以及存储介质 | |
CN112101013A (zh) | 地点抽取方法、装置、设备以及存储介质 | |
CN111756832A (zh) | 推送信息的方法、装置、电子设备及计算机可读存储介质 | |
CN114111813A (zh) | 高精地图元素更新方法、装置、电子设备及存储介质 | |
CN110751853B (zh) | 停车位数据的有效性识别方法和装置 | |
CN110995687A (zh) | 一种猫池设备识别方法、装置、设备及存储介质 | |
CN113554062B (zh) | 多分类模型的训练方法、设备和存储介质 | |
CN111523036B (zh) | 一种搜索行为挖掘方法、装置和电子设备 | |
CN112182409B (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
CN112560459A (zh) | 用于模型训练的样本筛选方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |