具体实施方式
如图1所示,在一个实施例中,获取地图兴趣点评价数据的方法包括以下步骤:
步骤S110,获取第三方网络平台上的用户发布内容。
在一个实施例中,第三方网络平台是区别于电子地图的平台,包括SNS(社会性网络服务)社区、社交网络、微博平台等。用户发布内容中包括含有用户发布内容发布的时间、地址、内容的来源、发布者、内容的正文等。以微博平台为例,可通过两种方式获取用户发布内容:一种是直接调用微博接口,另一种是通过微博实时推送,然后从推送的内容中进行筛选。采用第一种方式可大大减少了检索的开发量,少了很多建索引和平台维护的成本,但是这种方法依靠微博接口的搜索功能的精准度,有可能会丢掉一些应该召回的内容,获取的信息量也少于通过微博实时推送获取的信息量。采用第二种方式可以拿到充足的内容,并可按照自己的需求精确、去噪,但需要另外编写检索程序,搭建检索平台,资源耗费较大。
在一个实施例中,获取用户发布内容后,还需要对用户发布内容进行预处理。预处理包括对用户发布内容进行编码、格式化及赋权值。编码是将用户发布内容归一化为gbk(汉字内码扩展规范)编码,以方便对用户发布内容进行比较、计算。格式化是指将用户发布内容按照发布者、发布时间、发布内容、内容内照片等进行重新调整,即实现用户发布内容组织形式上的标准化。赋权值是指将不同来源的用户发布内容(名称、话题、评论内容)赋予不同的权值,便于后续对用户发布内容进行筛选。用户发布内容的来源可体现用户发布内容的重要性,例如,用户发布内容来源于评论内容,则表示该用户发布内容不是很重要,故赋予较小的权值。
步骤S120,将用户发布内容与兴趣点进行关联处理,获得与兴趣点关联的用户发布内容。
由于获取的用户发布内容是海量的,在进一步识别出与兴趣点匹配的用户发布内容之前,需要从用户发布内容中筛选出与兴趣点相关联的用户发布内容。相关联指的是用户发布内容与兴趣点具有一定的关联性,一条用户发布内容与某兴趣点相关联,可能仅仅是指用户发布内容中包含有与兴趣点名称相同或相似的字词,并不一定表示该用户发布内容对该兴趣点进行了描述。
如图2所示,在一个实施例中,上述步骤S120具体包括以下步骤:
步骤S121,将用户发布内容进行分词处理,得到与用户发布内容相关的分词。
分词处理是进行用户发布内容关联的第一步。分词指的是指根据分词库将完整的用户发布内容分成孤立的词组,所用的分词库是根据地图中的兴趣点名称和地址挖掘出来的。
步骤S123,将兴趣点名称进行规范化和向量化处理。
对兴趣点的规范化是指对兴趣点的名称做处理,发散出多个可能的组合。用户在发微博的时候具有随意性,有可能不会按照某个兴趣点官方或通用的名称来命名。例如,“清华大学北门”这个名称有可能发散为多个名称:“清华大学北门”、清华大学、清华及清华北门等。因此,为了命中更多有用的记录,需要对兴趣点的名称进行发散。
向量化处理就是将规范化的兴趣点名称格式化为二个维度:名称和城市。某些兴趣点如餐厅可能在多地设有分店,例如,“麦当劳”,当通过这个词进行筛选时,全国的麦当劳餐厅都会被命中。因此,为了是获得的用户发布内容更具针对性,需要在筛选关联的用户发布内容时,将城市作为一个维度来限制筛选的范围。
步骤S125,计算分词与兴趣点名称的相似度,并获得相似度大于预定值的分词。
预定值可根据经验设定,若两个词的相似度大于该预定值,则表示两个词有可能描述同一事物。通过特定的算法,计算每个分词与经过规范化和向量化处理的兴趣点名称的相似度。分词与兴趣点名称的相似度越高,则表示该分词所在的用户发布内容与兴趣点的相关性越强。由于兴趣点的名称可被发散为多个,因此获得的相似度大于预定值的分词有可能具有多个。
步骤S127,根据相似度最大的分词,获得关联的用户发布内容。
在获取相似度大于预定值的分词后,根据分词的来源查找到与兴趣点关联的用户发布内容。例如,获取的相似度大于预定值的分词为“清华大学”,则在所有用户发布内容中查找,所有含有该分词“清华大学”的用户发布内容都被选作为兴趣点的关联的用户发布内容。
步骤S130,对关联的用户发布内容进行处理,获得与兴趣点匹配的用户发布内容。
由于相似度大于预定值的分词有多个,且每个分词对应的用户发布内容有多个,因此关联的用户发布内容的数量依然庞大。而且,在关联的用户发布内容中,有一部分只是含有相似度大于预定值的分词,但却对兴趣点的描述很少,这类用户发布内容不应该被当作扩展数据显示在地图中。因此,在作为扩展数据展示之前,还需对关联的用户发布内容进行筛选,剔除关联的用户发布内容中无实质作用的部分。
在一个实施例中,上述步骤130具体为:根据预设的关联因子及每个关联因子对应的权值对所述关联的用户发布内容进行处理,获得与兴趣点匹配的用户发布内容。其中,关联因子可以包括分词位置因子、发布位置因子、发布时间因子及信息来源因子等。
如图3所示,在本实施例中,根据预设的关联因子及每个关联因子对应的权值对所述关联的用户发布内容进行处理,获得与兴趣点匹配的用户发布内容具体包括以下步骤:
步骤S131,根据关联的用户发布内容和/或兴趣点的信息获取每个关联因子对应的权值。
在一个实施例中,分词位置因子的权值根据相似度大于预定值的分词在关联的用户发布内容中的位置获得。具体地,若相似度大于预定值的分词出现在用户发布内容的正文中,则赋予该关联因子较大的权值,若相似度大于预定值的分词出现在用户发布内容的评论中或发布者的用户名中,则赋予该关联因子较小的权值。
兴趣点的信息包括兴趣点对应的经纬度。发布位置因子的权值的权值根据关联的用户发布内容的发布位置与兴趣点对应的位置的关系获得。具体地,若发布关联的用户发布内容时的经纬度与兴趣点对应的经纬度越接近,则赋予该关联因子的权值就越大。否则,根据预设规则赋予该关联因子的权值就越小。
发布时间因子的权值根据关联的用户发布内容的发布时间获得。具体地,关联的用户发布内容发布的时间与当前时间越接近,则表示该用户发布内容反应的内容更具时效性。因此,关联的用户发布内容发布时间与当前时间越接近,则赋予该关联因子越大的权值。否则,赋予该关联因子越小的权值。
信息来源因子的权值根据关联的用户发布内容的来源获得。具体地,关联的用户发布内容有可能来自全文、评论或是用户名,来自全文的用户发布内容包含有更多信息,因此更重要。若关联的用户发布内容来自全文,则赋予该关联因子较大的权值,若关联的用户发布内容来自评论或者是用户名,则赋予较小的权值。
可以理解,在其他实施例中,关联因子可仅包含上述关联因子的一种或任意几种的组合。
步骤S133,将关联因子及关联因子对应的权值进行线性处理,得到关联的用户发布内容的归一化值。
具体地,将步骤S131获得的关联因子及每个关联因子的权值进行线性处理,得到归一化值,该归一化值表示用户发布内容与兴趣点的匹配度。即一条用户发布内容的归一化值越大,则表示该用户发布内容与兴趣点匹配的可能性越大。
步骤S135,将归一化值与预设的阈值比较,获得归一化值大于等于所述预设的阈值的用户发布内容为与兴趣点匹配的用户发布内容。
装置预设有一阈值,若归一化值超过该阈值,则表示用户发布内容可与兴趣点匹配。将步骤S133获得的归一化值与阈值进行比较,选择所有大于等于阈值的归一化值,并将选择的归一化值所对应的用户发布内容作为与兴趣点匹配的用户发布内容。
需要指出的是,在其他实施例中,获得与兴趣点匹配的用户发布内容不限于上述方式。
在另一个实施例中,在上述步骤S120之前,还包括筛选用户发布内容中的垃圾信息并剔除的步骤。
由于获取的用户发布内容的数目是巨大的,因此对于系统会造成很大压力。而获取的用户发布内容中有很大一部分属于垃圾信息,在进行进一步的处理前应予以剔除。剔除垃圾信息后,既可减轻系统的负担,又能提供更健康的内容。
垃圾信息一般包括内容过短的微博(少于8个字符,表情字符、直接转播等)、色情内容、反动言论、广告内容等。识别垃圾信息的方式一般为:预设若干关键字,查找用户发布内容中是否有与关键字匹配的字词,若有,则识别为垃圾信息。此外,还可建立一个黑名单,黑名单中记录被举报或查处过的用户名,当获得的用户发布内容的发布者为黑名单中的用户时,直接将该用户发布内容作为垃圾信息处理。
在一个实施例中,在步骤S130之后,还包括建立兴趣点和匹配的用户发布内容之间的对应关系的步骤。
本实施例中,由于兴趣点与某个地理位置对应,预先存储了地理位置与兴趣点的对应关系。当电子地图运行过程中,用户可定位到某个或多个地理位置,根据用户定位的地理位置即可获取到与该地理位置对应的兴趣点,并可将与该兴趣点相关信息进行展示。由于建立了兴趣点和匹配的用户发布内容之间的对应关系,当获取到兴趣点后,即可通过该对应关系将与该兴趣点匹配的用户发布内容就作为扩展数据显示给用户。
因此,不必每个用户访问某兴趣点时,都要重新从第三方网络平台上获取数据。在地图详情页上展示匹配的用户发布内容的结果,包括用户名,发布时间、发布文字内容、多媒体内容等。对于转播次数和点评次数较多的用户发布内容,还可利用其位置信息对兴趣点进行坐标和地址纠错。此外,还可在匹配的用户发布内容的名称、话题,在地图搜索结果上加链接,允许用户在该点上发微博。
需要指出的是,在其他实施例中,获取地图兴趣点评价数据的方法可仅包括上述两个步骤中的一个。
如图4所示,本发明还提供一种获取地图兴趣点评价数据的装置,该包括信息获取模块110、关联模块120及筛选模块130其中:
信息获取模块110用于获取第三方网络平台上的用户发布内容。
在一个实施例中,第三方网络平台是区别于电子地图平台的,包括SNS(社会性网络服务)社区、社交网络、微博平台等。用户发布内容中包括含有用户发布内容发布的时间、地址、内容的来源、发布者、内容的正文等。以微博平台为例,信息获取模块110可通过两种方式获取用户发布内容:一种是直接调用微博接口,另一种是通过微博实时推送,然后从推送的内容中进行筛选。采用第一种方式可大大减少了检索的开发量,少了很多建索引和平台维护的成本,但是这种方法依靠微博接口的搜索功能的精准度,有可能会丢掉一些应该召回的内容,获取的信息量也少于通过微博实时推送获取的信息量。采用第二种方式可以拿到充足的内容,并可按照自己的需求精确、去噪,但需要另外编写检索程序,搭建检索平台,资源耗费较大。
在一个实施例中,信息获取模块110获取用户发布内容后,还需要对用户发布内容进行预处理。预处理包括对用户发布内容进行编码、格式化及赋权值。编码是将用户发布内容归一化为gbk(汉字内码扩展规范)编码,以方便对用户发布内容进行比较、计算。格式化是指将用户发布内容按照发布者、发布时间、发布内容、内容内照片等进行重新调整,即实现用户发布内容组织形式上的标准化。赋权值是指将不同来源的用户发布内容(名称、话题、评论内容)赋予不同的权值,便于后续对用户发布内容进行筛选。用户发布内容的来源可体现用户发布内容的重要性,例如,用户发布内容来源于评论内容,则表示该用户发布内容不是很重要,故赋予较小的权值。
关联模块120用于将用户发布内容与兴趣点进行关联处理,获得与兴趣点关联的用户发布内容。
由于信息获取模块110获取的用户发布内容是海量的,在进一步识别出与兴趣点匹配的用户发布内容之前,需要关联模块120从用户发布内容中筛选出与兴趣点相关联的用户发布内容。相关联指的是用户发布内容与兴趣点具有一定的关联性,一条用户发布内容与某兴趣点相关联,可能仅仅是指用户发布内容中包含有与兴趣点名称相同或相似的字词,并不一定表示该用户发布内容对该兴趣点进行了描述。
如图5所示,在一个实施例中,关联模块120包括分词单元121、兴趣点处理单元123、相似度获取单元125及用信息查找单元127。其中:
分词单元121用于将用户发布内容进行分词处理,得到与用户发布内容相关的分词。
分词处理是进行用户发布内容关联的第一步。分词指的是指分词单元121根据分词库将完整的用户发布内容分成孤立的词组,所用的分词库是根据地图中的兴趣点名称和地址挖掘出来的。
兴趣点处理单元123用于将兴趣点名称进行规范化和向量化处理。
对兴趣点的规范化是指对兴趣点的名称做处理,发散出多个可能的组合。用户在发微博的时候具有随意性,有可能不会按照某个兴趣点官方或通用的名称来命名。例如,“清华大学北门”这个名称有可能发散为多个名称:“清华大学北门”、清华大学、清华及清华北门等。因此,为了命中更多有用的记录,需要兴趣点处理单元123对兴趣点的名称进行发散。
向量化处理就是将规范化的兴趣点名称格式化为二个维度:名称和城市。某些兴趣点如餐厅可能在多地设有分店,例如,“麦当劳”,当通过这个词进行筛选时,全国的麦当劳餐厅都会被命中。因此,为了是获得的用户发布内容更具针对性,需要在筛选关联的用户发布内容时,将城市作为一个维度来限制筛选的范围。
相似度获取单元125用于计算分词与兴趣点名称的相似度,并获得相似度大于预定值的分词。
预定值可根据经验设定,若两个词的相似度大于该预定值,则表示两个词有可能描述同一事物。通过特定的算法,相似度获取单元125计算每个分词与经过规范化和向量化处理的兴趣点名称的相似度。分词与兴趣点名称的相似度越高,则表示该分词所在的用户发布内容与兴趣点的相关性越强。由于兴趣点的名称可被发散为多个,因此相似度获取单元125获得的相似度大于预定值的分词有可能具有多个。
信息查找单元127用于根据相似度大于预定值的分词,获得关联的用户发布内容。
在相似度获取单元125获取相似度大于预定值的分词后,信息查找单元127根据分词的来源查找到与兴趣点关联的用户发布内容。例如,相似度获取单元125获取的相似度大于预定值的分词为“清华大学”,则信息查找单元127将会在所有用户发布内容中查找,所有含有该分词“清华大学”的用户发布内容都被选作为兴趣点的关联的用户发布内容。
筛选模块130用于对关联的用户发布内容进行处理,获得与兴趣点匹配的用户发布内容。
由于相似度大于预定值的分词有多个,且每个分词对应的用户发布内容有多个,因此关联的用户发布内容的数量依然庞大。而且,在关联的用户发布内容中,有一部分只是含有相似度大于预定值的分词,但却对兴趣点的描述很少,这类用户发布内容不应该被当作扩展数据显示在地图中。因此,在作为扩展数据展示之前,还需筛选模块130对关联的用户发布内容进行筛选,剔除关联的用户发布内容中无实质作用的部分。
在一个实施例中,筛选模块130具体用于根据预设的关联因子及每个关联因子对应的权值对所述关联的用户发布内容进行处理,获得与兴趣点匹配的用户发布内容。其中,关联因子可以包括分词位置因子、发布位置因子、发布时间因子及信息来源因子等。
如图6所示,在本实施例中,筛选模块130包括关联因子获取单元131、归一化单元133及识别单元135。其中:
关联因子获取单元131用于根据关联的用户发布内容和/或兴趣点的信息获取每个关联因子对应的权值。
在一个实施例中,分词位置因子的权值根据相似度大于预定值的分词在关联的用户发布内容中的位置获得。具体地,若相似度大于预定值的分词出现在用户发布内容的正文中,则赋予该关联因子较大的权值,若相似度大于预定值的分词出现在用户发布内容的评论中或发布者的用户名中,则赋予该关联因子较小的权值。
兴趣点的信息包括兴趣点对应的经纬度。发布位置因子的权值的权值根据关联的用户发布内容的发布位置与兴趣点对应的位置的关系获得。具体地,若发布关联的用户发布内容时的经纬度与兴趣点对应的经纬度越接近,则赋予该关联因子的权值就越大。否则,根据预设规则赋予该关联因子的权值就越小。
发布时间因子的权值根据关联的用户发布内容的发布时间获得。具体地,关联的用户发布内容发布的时间与当前时间越接近,则表示该用户发布内容反应的内容更具时效性。因此,关联的用户发布内容发布时间与当前时间越接近,则赋予该关联因子越大的权值。否则,赋予该关联因子越小的权值。
信息来源因子的权值根据关联的用户发布内容的来源获得。具体地,关联的用户发布内容有可能来自全文、评论或是用户名,来自全文的用户发布内容包含有更多信息,因此更重要。若关联的用户发布内容来自全文,则赋予该关联因子较大的权值,若关联的用户发布内容来自评论或者是用户名,则赋予较小的权值。
可以理解,在其他实施例中,关联因子可仅包含上述关联因子的一种或任意几种的组合。
归一化单元133用于将关联因子及关联因子对应的权值进行线性处理,得到关联的用户发布内容的归一化值。
具体地,将关联因子获取单元131获得的关联因子及每个关联因子的权值进行线性处理,得到归一化值,该归一化值表示用户发布内容与兴趣点的匹配度。即一条用户发布内容的归一化值越大,则表示该用户发布内容与兴趣点匹配的可能性越大。
识别单元135用于将归一化值与预设的阈值比较,获得归一化值大于等于所述预设的阈值的用户发布内容为与兴趣点匹配的用户发布内容。
装置预设有一阈值,若归一化值超过该阈值,则表示用户发布内容可与兴趣点匹配。识别单元135将归一化单元133获得的归一化值与阈值进行比较,选择所有大于等于阈值的归一化值,并将选择的归一化值所对应的用户发布内容作为与兴趣点匹配的用户发布内容。
需要指出的是,在其他实施例中,获得与兴趣点匹配的用户发布内容不限于上述方式。
在另一实施例中,所述装置还包括垃圾筛选模块及对应模块。其中:
垃圾筛选模块用于筛选用户发布内容中的垃圾信息并剔除。
由于获取的用户发布内容的数目是巨大的,因此对于装置会造成很大压力。而获取的用户发布内容中有很大一部分属于垃圾信息,在进行进一步的处理前应予以剔除。剔除垃圾信息后,既可减轻装置的负担,又能提供更健康的内容。
垃圾信息一般包括内容过短的微博(少于8个字符,表情字符、直接转播等)、色情内容、反动言论、广告内容等。垃圾筛选模块识别垃圾信息的方式一般为:预设若干关键字,查找用户发布内容中是否有与关键字匹配的字词,若有,则识别为垃圾信息。此外,还可建立一个黑名单,黑名单中记录被举报或查处过的用户名,当垃圾筛选模块检测到获得的用户发布内容的发布者为黑名单中的用户时,直接将该用户发布内容作为垃圾信息处理。
对应模块用于建立兴趣点和匹配的用户发布内容之间的对应关系。
本实施例中,由于兴趣点与某个地理位置对应,预先存储了地理位置与兴趣点的对应关系。当电子地图运行过程中,用户可定位到某个或多个地理位置,根据用户定位的地理位置即可获取到与该地理位置对应的兴趣点,并可将与该兴趣点相关信息进行展示。由于建立了兴趣点和匹配的用户发布内容之间的对应关系,当获取到兴趣点后,即可通过该对应关系将与该兴趣点匹配的用户发布内容就作为扩展数据显示给用户。
因此,不必每个用户访问某兴趣点时,都要重新从第三方网络平台上获取数据。在地图详情页上展示匹配的用户发布内容的结果,包括用户名,发布时间、发布文字内容、多媒体内容等。对于转播次数和点评次数较多的用户发布内容,还可利用其位置信息对兴趣点进行坐标和地址纠错。此外,还可在匹配的用户发布内容的名称、话题,在地图搜索结果上加链接,允许用户在该点上发微博。
需要指出的是,在其他实施例中,获取地图兴趣点评价数据的装置可仅包括垃圾筛选模块及对应模块中的一个。
上述获取地图兴趣点评价数据的方法和装置,首先获取第三方网络平台上的用户发布内容,并将用户发布内容与兴趣点进行关联处理,获得与兴趣点关联的用户发布内容。然后根据兴趣点的信息及关联的用户发布内容对关联的用户发布内容进行识别处理,获得与兴趣点匹配的用户发布内容。由于第三方网络平台上具有所需的评价数据,通过自动的关联和识别处理便能从中选择出与兴趣点匹配的评价数据。不需要运营商收集反馈信息,也不需用户登录对某兴趣点进行评论。因此,通过上述方法和装置能简单、方便地获取地图兴趣点评价数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。