CN104794171B - 标记图片地理位置信息的方法及装置 - Google Patents

标记图片地理位置信息的方法及装置 Download PDF

Info

Publication number
CN104794171B
CN104794171B CN201510149166.4A CN201510149166A CN104794171B CN 104794171 B CN104794171 B CN 104794171B CN 201510149166 A CN201510149166 A CN 201510149166A CN 104794171 B CN104794171 B CN 104794171B
Authority
CN
China
Prior art keywords
candidate
picture
candidate word
poi information
geographical location
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510149166.4A
Other languages
English (en)
Other versions
CN104794171A (zh
Inventor
范磊
王亦乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510149166.4A priority Critical patent/CN104794171B/zh
Publication of CN104794171A publication Critical patent/CN104794171A/zh
Application granted granted Critical
Publication of CN104794171B publication Critical patent/CN104794171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种标记图片地理位置信息的方法及装置,所述方法包括:获取图片和与其相应的内容文本;对所述内容文本进行分析,获取至少一个候选词,所述候选词包含地理位置信息;获取与所述候选词相关联的候选兴趣点(POI)信息;根据在所述内容文本中候选词出现的特征选取所述相关联的候选POI信息之一作为所述图片的地理位置标记。本发明实施例的标记图片地理位置信息的方法及装置,能够自动地对EXIF信息中不包含GPS经纬度坐标的图片进行地理位置标记。

Description

标记图片地理位置信息的方法及装置
技术领域
本发明涉及网络通信技术领域,尤其涉及一种标记图片地理位置信息的方法及装置。
背景技术
当前有诸如JPEG、TIFF、RAW、BMP、GIF、PNG等的图像格式。此外,可交换图像文件(Exchangeable Image File,EXIF)也是遵从JPEG标准的一种图像文件格式。在EXIF文件的头信息中增加了有关拍摄信息的内容和索引图,具体可包括:拍摄时的光圈、快门、白平衡、ISO、焦距、日期时间等各种和拍摄条件,相机品牌、型号、色彩编码、拍摄时录制的声音以及全球定位系统(GPS)等。
当前,对于EXIF信息中不包含GPS经纬度坐标的图片尚无法自动地进行地理位置标记。
发明内容
本发明实施例的目的在于,提供一种标记图片地理位置信息的方法及装置,从而能够自动地对EXIF信息中不包含GPS经纬度坐标的图片进行地理位置标记。
为实现上述发明目的,本发明的实施例提供了一种标记图片地理位置信息的方法,包括:获取图片和与其相应的内容文本;对所述内容文本进行分析,获取至少一个候选词,所述候选词包含地理位置信息;获取与所述候选词相关联的候选兴趣点(POI)信息;根据在所述内容文本中候选词出现的特征选取所述相关联的候选POI信息之一作为所述图片的地理位置标记。
本发明的实施例还提供了一种标记图片地理位置信息的装置,包括:图片和内容文本获取模块,用于获取图片和与其相应的内容文本;候选词获取模块,用于对所述内容文本进行分析,获取至少一个候选词,所述候选词包含地理位置信息;候选POI信息获取模块,用于获取与所述候选词相关联的候选POI信息;图片地理位置标记模块,用于根据在所述内容文本中候选词出现的特征选取所述相关联的候选POI信息之一作为所述图片的地理位置标记。
本发明实施例提供的标记图片地理位置信息的方法及装置,通过对获取到的内容文本进行分析得到至少一个候选词,再获取与候选词相关联的候选POI信息,将候选词在内容文本中出现的特征作为依据,去选取相关联的候选POI信息作为图片的地理位置标记,从而自动地对EXIF信息中不包含GPS经纬度坐标的图片进行地理位置标记。
附图说明
图1是示出本发明实施例一的标记图片地理位置信息的方法的流程图;
图2是示出本发明实施例一的标记图片地理位置信息的方法的语句分析决策树的示例图;
图3是示出本发明实施例一的标记图片地理位置信息的方法的候选词坐标数据投影及离群点的示例图;
图4是示出本发明实施例一的标记图片地理位置信息的方法的待分析页面的示例图;
图5是示出本发明实施例二的标记图片地理位置信息的装置的逻辑框图。
具体实施方式
本发明的基本构思是,对与图片相关的内容文本进行分析得到至少一个包括地理位置信息的候选词,再获取与候选词相关联的候选POI信息,最后根据候选词在内容文本中出现的特征,去选取相关联的候选POI信息之一作为图片的地理位置标记,从而实现了对EXIF信息中不包含GPS经纬度坐标的图片进行地理位置标记。
下面结合附图对本发明实施例一种标记图片地理位置信息的方法及装置进行详细描述。
实施例一
图1是示出本发明实施例一的标记图片地理位置信息的方法的流程图。可在例如地图服务器上执行所述方法。
参照图1,在步骤S110,获取图片和与其相应的内容文本。
具体的,以web页面为例,该web页面是一个包含图片和文本的待分析页面,可以从所述待分析页面中获取到其中的图片,以及与该图片相应的内容文本,这里,该图片的EXIF信息中通常不包含GPS经纬度坐标。
在步骤S120,对所述内容文本进行分析,获取至少一个候选词,所述候选词包含地理位置信息。
根据本发明的示例性实施例,首先,步骤S120包括:从所述内容文本获取多个包含地理位置信息的初选候选词。
具体的,可根据词性、黑白名单以及用于验证的词表中的至少一个从所述内容文本获取多个包含地理位置信息的初选候选词。
根据本发明的示例性实施例,其次,步骤S120还包括:对所述内容文本进行语义分析,获取所述内容文本的语境,根据所述语境和语句分析决策树遍历所述内容文本的语句,并依据遍历结果对所述初选候选词进行过滤。
例如语句“这里不是景山公园”,对该语句进行语义分析,获得的语境是对前面出现的包含地理位置信息的候选词做了否定,且该语句是否定情感,再比如语句“天安门对面的英雄纪念碑集合”,语义分析得到的语境是天安门不是与文本相关的候选词,英雄纪念碑是与文本相关的候选词,并且该语句是陈述情感。图2是示出本发明实施例一的标记图片地理位置信息的方法的语句分析决策树的示例图。以语句“从上海站坐地铁,经过人民广场、南京西路,从陆家嘴下车走到东方明珠塔,东方明珠塔的南面就是明珠广场了”为例。该语句为非疑问句,语句中包含多个递进词“从”、“经过”、“南面”,根据递进词关系可知,“明珠广场”是与内容文本相关度最高的候选词。因此,利用语义分析得到的语境和图2所示的语句分析决策树遍历内容文本中的所有语句,从而能够对初选候选词进行过滤。
根据本发明的示例性实施例,最后,步骤S120还包括:获取过滤后的初选候选词的坐标数据,并根据所述坐标数据在给定地图上进行投影得到坐标点,根据所述坐标点计算聚类范围,选取位于聚类范围内的坐标点对应的初选候选词作为选定的所述候选词。
图3是示出本发明实施例一的标记图片地理位置信息的方法的候选词坐标数据投影及离群点的示例图,参照图3,图中的圆形代表聚类范围,其中,有四个坐标点位于聚类范围内,有一个离群点位于聚类范围外,该离群点对应的候选词会被过滤掉,由于初选候选词中有可能包含与所述内容文本相关度不高的词,因此通过上述过程可以对初选候选词做进一步筛选,从而得到与所述内容文本相关的候选词。
在步骤S130,获取与所述候选词相关联的候选POI信息。
根据本发明的可选实施例,步骤S130包括:根据所述候选词从地理位置信息库提取多个候选POI信息,通过将所述候选词分别与每个所述候选POI信息进行短文本对比,选取与所述候选词相关联的候选POI信息。
具体的,首先,对所述候选词与所述多个候选POI信息中的任一候选POI信息,进行如下处理:
根据所述候选词与所述候选POI信息分别计算所述候选词与所述候选POI信息之间的编辑距离和相似度值,根据所述候选词的长度、所述编辑距离和所述相似度值计算得到所述候选词与所述候选POI信息之间的短文本冲突值。这里,编辑距离通常是指两个字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数。上述短文本冲突值的计算可通过以下公式执行:
D=distance(word1-word2),
ratio=jaro(word1,word2),
其中,word1为候选词,word2为候选POI信息,D为所述候选词与所述候选POI信息之间的编辑距离,ratio为所述候选词与所述候选POI信息之间的相似度值,L为所述候选词的长度,N为所述候选词与所述候选POI信息之间的短文本冲突值。
其次,根据所述短文本冲突值选取与所述候选词相关联的候选POI信息。具体的,如果所述短文本冲突值为零,选取与所述短文本冲突值对应的候选POI信息作为与所述候选词相关联的候选POI信息,如果所述短文本冲突值为无穷大,过滤掉与所述短文本冲突值对应的候选POI信息,如果所述短文本冲突值不为零并且不是无穷大,将所述短文本冲突值与冲突设定值进行比较,选取比较结果为所述短文本冲突值小于所述冲突设定值所对应的POI信息,作为与所述候选词相关联的候选POI信息。
在步骤S140,根据在所述内容文本中候选词出现的特征选取所述相关联的候选POI信息之一作为所述图片的地理位置标记。
根据本发明的可选实施例,步骤S140包括:选取与在所述内容文本中出现次数最多且在所述内容文本段落位置与图片最接近的候选词相关联的候选POI信息作为所述图片的地理位置标记。
进一步地,为了确保要进行标记的图片符合通常进行地理位置标记的要求,所述方法还可以包括:对所述图片进行分析,确定是否对所述图片进行地理位置标记。
根据本发明的可选实施例,所述对所述图片进行分析,确定是否对所述图片进行地理位置标记的处理包括:分析所述图片的图片内容分类,根据所述图片内容分类是否属于预定的图片内容分类确定是否对所述图片进行地理位置标记。这里需要说明的是,预定的图片内容分类包括以下至少一种:建筑、风景、人造物体、主体为人的照片、主体为人和人参与活动的照片、室内照片和卫星照片。
根据本发明的另一可选实施例,所述对所述图片进行分析,确定是否对所述图片进行地理位置标记的处理包括:确定待分析的所述图片的图片质量指标是否符合预定的指标标准,如果所述图片的图片质量指标不符合预定的指标标准,则结束所述方法的处理,如果所述图片的图片质量指标符合预定的指标标准,则继续执行所述分析所述图片的图片内容分类,以及根据所述图片内容分类是否属于预定的图片内容分类确定是否对所述图片进行地理位置标记的处理。这里,需要说明的是图片质量指标包括以下至少一种:图片清晰度、锐度、饱和度、色调简单度、亮度、对比度和主题突出维度。
根据本发明的另一可选实施例,所述对所述图片进行分析,确定是否对所述图片进行地理位置标记的处理包括:对确定进行地理位置标记的图片进行水印识别,如果确定所述进行地理位置标记的图片包含水印,则对所述确定进行地理位置标记的图片进行清洗。
本发明实施例提供的标记图片地理位置信息的方法,通过对获取到的内容文本进行分析得到至少一个候选词,再获取与候选词相关联的候选POI信息,将候选词在内容文本中出现的特征作为依据,去选取相关联的候选POI信息作为图片的地理位置标记,从而自动地对EXIF信息中不包含GPS经纬度坐标的图片进行地理位置标记。
另外,通过对图片进行分析,只对属于预定的图片内容分类且图片质量符合预定的指标标准的图片进行地理位置标记,同时,确定进行地理位置标记的图片进行水印识别,对包含水印的图片进行清洗处理,从而提高了地理位置标记的图片的质量。
下面结合具体的处理示例,来进一步更直观地说明一下本发明实施例的具体应用。
图5是示出本发明实施例二的标记图片地理位置信息的方法的待分析页面的示例图。参照图5,在执行本实施例所述的方法之前,通过python的PIL库和exifread库进行EXIF信息分析,得知图片EXIF信息中并不包含GPS经纬度坐标。
首先,获取该待分析页面中的图片和内容文本。内容文本为“在苏州众多的街巷之中,名胜山塘街,被称誉为“姑苏第一名街”。其原因,我想大概有几条:一是山塘街是一条有1100多年历史的古街;二是它的格局具有最能代表苏州街巷的特点;三是它与许多名人、名事相关。进入山塘老街不需要门票,很适合秋日午后去逛逛走走,老街上的个别景点需要购票入内,是否进入就看各人的喜好啦。”
其次,对内容文本进行分析获取候选词。在实际应用中,可根据词性、黑白名单以及用于验证的词表中的至少一种处理方式,或是多种处理方式组合从内容文本中获取多个包含地理位置信息的初选候选词,以前述内容文本为例,获取到的初选候选词为:山塘街、姑苏第一名街、山塘街、苏州街巷的特点和山塘老街。
再对内容文本进行语义分析,获取内容文本的语境,根据语境和语句分析决策树遍历内容文本的所有语句,并依据遍历结果对初选候选词进行过滤。以第一个语句“在苏州众多的街巷之中,名胜山塘街,被称誉为姑苏第一名街”为例,判断该语句为非疑问句,情感为赞扬正向情感。山塘街和姑苏第一名街这两个初选候选词请求百度map地图搜索接口,对接口返回的数据进行地理位置坐标投影,这两个初选候选词都在地理位置聚类中心圆内,可作为与内容文本相关的前述候选词。按照上述处理过程遍历该内容文本的所有语句,选取所述候选词。
再次,对上一步骤得到的候选词与请求百度map地图搜索接口得到的候选POI信息做短文本对比的结果如下表1所示:
表1
通过该步骤,最后选取的候选POI信息为“山塘街”、“山塘街”、“山塘古街”。
然后,分析该段段落中心候选词,具体的,第一,图片与“山塘街”候选词在段落自然位置最为接近,第二,“山塘街”一词的词频最高,因此,可将“山塘街”作为图片的地理位置标记。
另外,还需对图片进行分析,确定是否对图片进行地理位置标记。具体的,根据图片清晰度、锐度、饱和度、色调简单性、亮度对比、主体突出维度的图片质量指标中至少一种,去判定图片的质量情况,得到本张图片属于高质量图片;分析所述图片的图片内容分类,结果如下:
建筑-室外-现代建筑-街道马路-溪村/0.73772430
自然风景-海洋/0.04136575
建筑-室外-现代建筑-街道马路-小巷/0.03344902
自然风景-江河/0.02251895
建筑-室外-现代建筑-港口码头/0.01443732
由此可知,该图片不属于模型、设计图稿,确定对图片进行地理位置标记。再对该图片进行水印识别,判定图片为无水印图片,不需要进行水印清洗。最后,将作为该图片的地理位置标记的“山塘街”与图片进行绑定。
实施例二
图5是示出本发明实施例二的标记图片地理位置信息的装置的逻辑框图。可用于执行如图1所示实施例的方法步骤。
参照图5,所述标记图片地理位置信息的装置包括图片和内容文本获取模块510、候选词获取模块520、候选POI信息获取模块530和图片地理位置标记模块540,其中:
图片和内容文本获取模块510,用于获取图片和与其相应的内容文本。
候选词获取模块520,用于对所述内容文本进行分析,获取至少一个候选词,所述候选词包含地理位置信息。
具体地,候选词获取模块520用于从所述内容文本获取多个包含地理位置信息的初选候选词,对所述内容文本进行语义分析,获取所述内容文本的语境,根据所述语境和语句分析决策树遍历所述内容文本的语句,并依据遍历结果对所述初选候选词进行过滤。
进一步地,候选词获取模块520还用于获取过滤后的初选候选词的坐标数据,并根据所述坐标数据在给定地图上进行投影得到坐标点,根据所述坐标点计算聚类范围,选取位于聚类范围内的坐标点对应的初选候选词作为所述候选词。
候选POI信息获取模块530,用于获取与所述候选词相关联的候选POI信息。
进一步地,候选POI信息获取模块530用于根据所述候选词从地理位置信息库提取多个候选POI信息,通过将所述候选词分别与所述候选POI信息进行短文本对比,选取与所述候选词相关联的候选POI信息。
优选地,候选POI信息获取模块530还用于对所述候选词与所述多个候选POI信息中的任一候选POI信息,进行如下处理:根据所述候选词与所述候选POI信息分别计算所述候选词与所述候选POI信息之间的编辑距离和相似度值;根据所述候选词的长度、所述编辑距离和所述相似度值计算得到所述候选词与所述候选POI信息之间的短文本冲突值;根据所述短文本冲突值选取与所述候选词相关联的候选POI信息。
具体地,如果所述短文本冲突值为零,候选POI信息获取模块530选取与所述短文本冲突值对应的候选POI信息作为与所述候选词相关联的候选POI信息;如果所述短文本冲突值为无穷大,候选POI信息获取模块530过滤掉与所述短文本冲突值对应的候选POI信息;如果所述短文本冲突值不为零并且不是无穷大,候选POI信息获取模块530将所述短文本冲突值与冲突设定值进行比较,选取比较结果为所述短文本冲突值小于所述冲突设定值所对应的POI信息作为与所述候选词相关联的候选POI信息。
图片地理位置标记模块540,用于根据在所述内容文本中候选词出现的特征选取所述相关联的候选POI信息之一作为所述图片的地理位置标记。
进一步地,图片地理位置标记模块540用于选取与在所述内容文本中出现次数最多且在所述内容文本段落位置与图片最接近的候选词相关联的候选POI信息作为所述图片的地理位置标记。
进一步地,所述装置还可包括图片分析模块550,用于对所述图片进行分析,确定是否对所述图片进行地理位置标记。
可选地,图片分析模块550用于分析所述图片的图片内容分类,根据所述图片内容分类是否属于预定的图片内容分类确定是否对所述图片进行地理位置标记。
可选地,图片分析模块550用于确定待分析的所述图片的图片质量指标是否符合预定的指标标准,如果所述图片的图片质量指标不符合预定的指标标准,则结束所述方法的处理,如果所述图片的图片质量指标符合预定的指标标准,则继续执行所述分析所述图片的图片内容分类,以及根据所述图片内容分类是否属于预定的图片内容分类确定是否对所述图片进行地理位置标记的处理。
可选地,图片分析模块550用于对确定进行地理位置标记的图片进行水印识别,如果确定所述进行地理位置标记的图片包含水印,则对所述确定进行地理位置标记的图片进行清洗。
本发明实施例提供的标记图片地理位置信息的装置,通过对获取到的内容文本进行分析得到至少一个候选词,再获取与候选词相关联的候选POI信息,将候选词在内容文本中出现的特征作为依据,去选取相关联的候选POI信息作为图片的地理位置标记,从而自动地对EXIF信息中不包含GPS经纬度坐标的图片进行地理位置标记。另外,通过对图片进行分析,只对属于预定的图片内容分类且图片质量符合预定的指标标准的图片进行地理位置标记,同时,确定进行地理位置标记的图片进行水印识别,对包含水印的图片进行清洗处理,从而提高了地理位置标记的图片的质量。
在本发明所提供的几个实施例中,应该理解到,所公开的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (18)

1.一种标记图片地理位置信息的方法,其特征在于,所述方法包括:
获取图片和与其相应的内容文本;
对所述内容文本进行分析,获取至少一个候选词,所述候选词包含地理位置信息;
获取与所述候选词相关联的候选POI信息;其中包括对所述候选词与任一候选POI信息进行如下处理:根据所述候选词与所述候选POI信息分别计算所述候选词与所述候选POI信息之间的编辑距离和相似度值;根据所述候选词的长度、所述编辑距离和所述相似度值计算得到所述候选词与所述候选POI信息之间的短文本冲突值;根据所述短文本冲突值选取与所述候选词相关联的候选POI信息;
根据在所述内容文本中候选词出现的特征选取所述相关联的候选POI信息之一作为所述图片的地理位置标记。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述候选词相关联的候选POI信息的处理包括:
根据所述候选词从地理位置信息库提取多个候选POI信息,
通过将所述候选词分别与所述候选POI信息进行短文本对比,选取与所述候选词相关联的候选POI信息。
3.根据权利要求1所述的方法,其特征在于,所述对所述内容文本进行分析,获取至少一个候选词的处理包括:
从所述内容文本获取多个包含地理位置信息的初选候选词,
对所述内容文本进行语义分析,获取所述内容文本的语境,
根据所述语境和语句分析决策树遍历所述内容文本的语句,并依据遍历结果对所述初选候选词进行过滤。
4.根据权利要求3所述的方法,其特征在于,所述对所述内容文本进行分析,获取至少一个候选词的处理还包括:
获取过滤后的初选候选词的坐标数据,并根据所述坐标数据在给定地图上进行投影得到坐标点,
根据所述坐标点计算聚类范围,选取位于聚类范围内的坐标点对应的初选候选词作为所述候选词。
5.根据权利要求1所述的方法,其特征在于,所述根据所述短文本冲突值选取与所述候选词相关联的候选POI信息的处理包括:
如果所述短文本冲突值为零,选取与所述短文本冲突值对应的候选POI信息作为与所述候选词相关联的候选POI信息,
如果所述短文本冲突值为无穷大,过滤掉与所述短文本冲突值对应的候选POI信息,
如果所述短文本冲突值不为零并且不是无穷大,将所述短文本冲突值与冲突设定值进行比较,选取比较结果为所述短文本冲突值小于所述冲突设定值所对应的POI信息,作为与所述候选词相关联的候选POI信息。
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述方法还包括:
对所述图片进行分析,确定是否对所述图片进行地理位置标记。
7.根据权利要求6所述的方法,其特征在于,所述对所述图片进行分析,确定是否对所述图片进行地理位置标记的处理包括:
分析所述图片的图片内容分类,
根据所述图片内容分类是否属于预定的图片内容分类确定是否对所述图片进行地理位置标记。
8.根据权利要求7所述的方法,其特征在于,所述对所述图片进行分析,确定是否对所述图片进行地理位置标记的处理还包括:
对确定进行地理位置标记的图片进行水印识别,如果确定所述进行地理位置标记的图片包含水印,则对所述确定进行地理位置标记的图片进行清洗。
9.根据权利要求7所述的方法,其特征在于,所述预定的图片内容分类包括以下至少一种:建筑、风景、人造物体、主体为人的照片、主体为人和人参与活动的照片、室内照片和卫星照片。
10.根据权利要求1~5中任一项所述的方法,其特征在于,所述根据在所述内容文本中候选词出现的特征选取所述相关联的候选POI信息之一作为所述图片的地理位置标记的处理包括:
选取与在所述内容文本中出现次数最多且在所述内容文本段落位置与图片最接近的候选词相关联的候选POI信息作为所述图片的地理位置标记。
11.根据权利要求3所述的方法,其特征在于,所述内容文本获取多个包含地理位置信息的初选候选词的处理包括:
根据词性、黑白名单以及用于验证的词表中的至少一个从所述内容文本获取多个包含地理位置信息的初选候选词。
12.一种标记图片地理位置信息的装置,其特征在于,所述装置包括:
图片和内容文本获取模块,用于获取图片和与其相应的内容文本;
候选词获取模块,用于对所述内容文本进行分析,获取至少一个候选词,所述候选词包含地理位置信息;
候选POI信息获取模块,用于获取与所述候选词相关联的候选POI信息;用于对所述候选词与任一候选POI信息进行如下处理:根据所述候选词与所述候选POI信息分别计算所述候选词与所述候选POI信息之间的编辑距离和相似度值;根据所述候选词的长度、所述编辑距离和所述相似度值计算得到所述候选词与所述候选POI信息之间的短文本冲突值;根据所述短文本冲突值选取与所述候选词相关联的候选POI信息;
图片地理位置标记模块,用于根据在所述内容文本中候选词出现的特征选取所述相关联的候选POI信息之一作为所述图片的地理位置标记。
13.根据权利要求12所述的装置,其特征在于,所述候选POI信息获取模块用于根据所述候选词从地理位置信息库提取多个候选POI信息,通过将所述候选词分别与所述候选POI信息进行短文本对比,选取与所述候选词相关联的候选POI信息。
14.根据权利要求12所述的装置,其特征在于,所述候选词获取模块用于从所述内容文本获取多个包含地理位置信息的初选候选词,对所述内容文本进行语义分析,获取所述内容文本的语境,根据所述语境和语句分析决策树遍历所述内容文本的语句,并依据遍历结果对所述初选候选词进行过滤。
15.根据权利要求14所述的装置,其特征在于,所述候选词获取模块还用于获取过滤后的初选候选词的坐标数据,并根据所述坐标数据在给定地图上进行投影得到坐标点,根据所述坐标点计算聚类范围,选取位于聚类范围内的坐标点对应的初选候选词作为所述候选词。
16.根据权利要求12所述的装置,其特征在于,
如果所述短文本冲突值为零,所述候选POI信息获取模块选取与所述短文本冲突值对应的候选POI信息作为与所述候选词相关联的候选POI信息,
如果所述短文本冲突值为无穷大,所述候选POI信息获取模块过滤掉与所述短文本冲突值对应的候选POI信息,
如果所述短文本冲突值不为零并且不是无穷大,所述候选POI信息获取模块将所述短文本冲突值与冲突设定值进行比较,选取比较结果为所述短文本冲突值小于所述冲突设定值所对应的POI信息作为与所述候选词相关联的候选POI信息。
17.根据权利要求14~16中任一项所述的装置,其特征在于,所述装置还包括:图片分析模块,用于对所述图片进行分析,确定是否对所述图片进行地理位置标记。
18.根据权利要求14~16中任一项所述的装置,其特征在于,所述图片地理位置标记模块用于选取与在所述内容文本中出现次数最多且在所述内容文本段落位置与图片最接近的候选词相关联的候选POI信息作为所述图片的地理位置标记。
CN201510149166.4A 2015-03-31 2015-03-31 标记图片地理位置信息的方法及装置 Active CN104794171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510149166.4A CN104794171B (zh) 2015-03-31 2015-03-31 标记图片地理位置信息的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510149166.4A CN104794171B (zh) 2015-03-31 2015-03-31 标记图片地理位置信息的方法及装置

Publications (2)

Publication Number Publication Date
CN104794171A CN104794171A (zh) 2015-07-22
CN104794171B true CN104794171B (zh) 2018-06-05

Family

ID=53558963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510149166.4A Active CN104794171B (zh) 2015-03-31 2015-03-31 标记图片地理位置信息的方法及装置

Country Status (1)

Country Link
CN (1) CN104794171B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677882B (zh) * 2016-01-13 2019-06-14 腾讯科技(北京)有限公司 一种展示评论信息的方法和装置
CN105975570B (zh) * 2016-05-04 2019-10-18 深圳市至壹科技开发有限公司 基于地理位置的视频搜索方法及系统
CN106293357B (zh) * 2016-08-02 2019-08-02 网易(杭州)网络有限公司 地图标记图片的显示方法及装置
CN106228160B (zh) * 2016-08-03 2019-10-18 浙江宇视科技有限公司 前端设备定位方法及装置
CN106997372B (zh) * 2016-12-07 2020-04-28 阿里巴巴集团控股有限公司 基于图片实现业务操作的方法和装置
CN106600482A (zh) * 2016-12-30 2017-04-26 西北工业大学 多源社交数据融合的多角度旅游信息感知与智能推荐方法
CN108399413B (zh) * 2017-02-04 2020-10-27 清华大学 一种图片拍摄区域识别及地理定位方法及装置
CN109614172B (zh) * 2017-09-30 2021-11-30 北京国双科技有限公司 数据筛选的方法及相关装置
CN113254715A (zh) * 2020-02-11 2021-08-13 百度在线网络技术(北京)有限公司 视频与兴趣点关联关系构建方法、装置、设备及介质
CN111984876A (zh) * 2020-06-29 2020-11-24 北京百度网讯科技有限公司 兴趣点处理方法、装置、设备及计算机可读存储介质
CN112381767B (zh) * 2020-10-27 2023-09-01 深圳大学 角膜反射图像的筛选方法、装置、智能终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101802824A (zh) * 2007-09-20 2010-08-11 诺基亚公司 用于提供视觉搜索接口的方法、装置和计算机程序产品
CN102549571A (zh) * 2009-05-15 2012-07-04 谷歌公司 来自数字图片集合的地标
CN103186524A (zh) * 2011-12-30 2013-07-03 高德软件有限公司 一种地名识别方法和装置
CN104090970A (zh) * 2014-07-17 2014-10-08 百度在线网络技术(北京)有限公司 兴趣点的展现方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9200901B2 (en) * 2008-06-19 2015-12-01 Microsoft Technology Licensing, Llc Predictive services for devices supporting dynamic direction information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101802824A (zh) * 2007-09-20 2010-08-11 诺基亚公司 用于提供视觉搜索接口的方法、装置和计算机程序产品
CN102549571A (zh) * 2009-05-15 2012-07-04 谷歌公司 来自数字图片集合的地标
CN103186524A (zh) * 2011-12-30 2013-07-03 高德软件有限公司 一种地名识别方法和装置
CN104090970A (zh) * 2014-07-17 2014-10-08 百度在线网络技术(北京)有限公司 兴趣点的展现方法及装置

Also Published As

Publication number Publication date
CN104794171A (zh) 2015-07-22

Similar Documents

Publication Publication Date Title
CN104794171B (zh) 标记图片地理位置信息的方法及装置
CN108829852B (zh) 一种个性化旅游路线推荐方法
CN110020437B (zh) 一种视频和弹幕相结合的情感分析及可视化方法
CN105677793B (zh) 地点数据库的建立和候选乘车地点的推荐方法及装置
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN110287336B (zh) 一种面向旅游景点推荐的游客画像构建方法
CN110008300A (zh) Poi别名的确定方法、装置、计算机设备和存储介质
CN104537028B (zh) 一种网页信息处理方法及装置
CN103631819A (zh) 一种图片命名的方法及系统
CN114465737B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN110297897B (zh) 问答处理方法及相关产品
CN109740479A (zh) 一种车辆重识别方法、装置、设备及可读存储介质
CN110532464B (zh) 一种基于多旅游上下文建模的旅游推荐方法
CN112069347A (zh) 游记生成方法、装置、计算机设备及可读存储介质
Choi et al. Human vs machine: establishing a human baseline for multimodal location estimation
Zhang et al. Dynamic multi-video summarization of sensor-rich videos in geo-space
CN104504104A (zh) 用于搜索引擎的图片物料处理方法、装置和搜索引擎
CN112733040A (zh) 一种旅游行程推荐方法
KR20110039900A (ko) 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법
CN111986259A (zh) 颜文字检测模型的训练、视频数据的审核方法及相关装置
CN111008295A (zh) 书页检索方法、装置、电子设备和存储介质
CN110941638B (zh) 应用分类规则库构建方法、应用分类方法及装置
JP7426176B2 (ja) 情報処理システム、情報処理方法、情報処理プログラム、およびサーバ
Semenkov et al. Inpainting semantic and depth features to improve visual place recognition in the wild
CN114299435A (zh) 视频中的场景聚类方法、装置及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant