CN104933171B - 兴趣点数据关联方法和装置 - Google Patents

兴趣点数据关联方法和装置 Download PDF

Info

Publication number
CN104933171B
CN104933171B CN201510373575.2A CN201510373575A CN104933171B CN 104933171 B CN104933171 B CN 104933171B CN 201510373575 A CN201510373575 A CN 201510373575A CN 104933171 B CN104933171 B CN 104933171B
Authority
CN
China
Prior art keywords
interest
point
unstructured data
data
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510373575.2A
Other languages
English (en)
Other versions
CN104933171A (zh
Inventor
江章伟
解鑫
王彬
张�林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510373575.2A priority Critical patent/CN104933171B/zh
Publication of CN104933171A publication Critical patent/CN104933171A/zh
Application granted granted Critical
Publication of CN104933171B publication Critical patent/CN104933171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种兴趣点数据关联方法和装置。所述方法包括:将非结构化数据与兴趣点匹配;将与所述兴趣点匹配成功的非结构化数据与所述兴趣点相关联。本发明实施例提供的兴趣点数据关联方法和装置使得兴趣点的相关数据更为丰富。

Description

兴趣点数据关联方法和装置
技术领域
本发明实施例涉及基于位置服务技术领域,尤其涉及一种兴趣点数据关联方法和装置。
背景技术
现有的地图应用中,每个兴趣点都有自身的一些说明数据,比如,电话、地址等。这些说明数据被称为兴趣点的相关数据。兴趣点的相关数据的采集都是通过对网络上结构化数据的抓取而实现的。所谓结构化数据,就是指这些数据本身的结构有一定的规律可循。利用这种数据结构上的规律,能够准确的抓取到所述兴趣点的相关数据。
然而,网络上更为海量的数据,其数据本身并不具有固定的格式规律。我们将这种本身没有固定的格式规律可循的数据成为非结构化数据。所述非结构化数据中蕴含着比结构化数据更为海量的信息。所以,现有的地图应用中,兴趣点的相关数据的数据源有限,使得兴趣点的相关数据不够丰富。
发明内容
针对上述技术问题,本发明实施例提供了一种兴趣点数据关联方法和装置,以丰富与兴趣点相关联的数据。
第一方面,本发明实施例提供了一种兴趣点数据关联方法,所述方法包括:
将非结构化数据与兴趣点匹配;
将与所述兴趣点匹配成功的非结构化数据与所述兴趣点相关联。
第二方面,本发明实施例还提供了一种兴趣点数据关联装置,所述装置包括:
匹配模块,用于将非结构化数据与兴趣点匹配;
关联模块,用于将与所述兴趣点匹配成功的非结构化数据与所述兴趣点相关联。
本发明实施例提供的兴趣点数据关联方法和装置通过将非结构化数据与兴趣点匹配,以及将与所述兴趣点匹配成功的非结构化数据与所述兴趣点相关联,使得兴趣点的相关数据更为丰富。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明第一实施例提供的兴趣点数据关联方法的流程图;
图2A是本发明第一实施例提供的兴趣点原始数据的显示界面图;
图2B是本发明第一实施例提供的兴趣点的相关数据的显示界面图;
图3是本发明第二实施例提供的兴趣点数据关联方法的流程图;
图4是本发明第三实施例提供的兴趣点数据关联方法的流程图;
图5本发明第四实施例提供的兴趣点数据关联方法的流程图;
图6是本发明第四实施例提供的兴趣点数据关联方法中位置关联的流程图;
图7是本发明第四实施例提供的兴趣点数据关联方法中位置关联的流程图;
图8是本发明第五实施例提供的兴趣点数据关联方法的流程图;
图9是本发明第六实施例提供的兴趣点数据关联装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
第一实施例
本实施例提供了兴趣点数据关联方法的一种技术方案。
参见图1,所述兴趣点数据关联方法包括:
S11,将非结构化数据与兴趣点匹配。
所述非结构化数据是指数据自身的结构没有规律可循,也就是不能依据数据自身的格式规律从原始数据中找到需要被关联至所述兴趣点的数据内容。与所述结构化数据的相同点在于,通常情况下,所述非结构化数据也是从互联网上抓取得到的数据。
在本实施例中,所述非结构化数据包括内容导向的非结构化数据以及地址导向的非结构化数据。所述内容导向的非结构化数据,是指依据所述数据的内容与所述兴趣点之间产生内在联系的非结构化数据。所述地址导向的非结构化数据是指依据所述数据内包含的地址与所述兴趣点之间产生内在联系的非结构化数据。其中,用于将所述地址导向的非结构化数据与所述兴趣点产生内在联系的地址也可以被称为地点。
对于内容导向的非结构化数据,通过从所述内容导向的非结构化数据中提取的特征向量来完成所述内容导向的非结构化数据与所述兴趣点之间的匹配。而对于地址导向的非结构化数据,则通过从所述地址导向的非结构化数据中提取的地址,也就是地点来完成所述非结构化数据与所述兴趣点之间的匹配。
S12,将与所述兴趣点匹配成功的非结构化数据与所述兴趣点相关联。
与所述兴趣点匹配成功的非结构化数据应该是所述非结构化数据中与所述兴趣点之间的联系更为紧密的数据。因此,将与所述兴趣点匹配成功的非结构化数据与所述兴趣点进行关联。
对于内容导向的非结构化数据,其与所述兴趣点的关联是根据相关度、文本相似程度以及文本召回位置三种参量进行排序之后的相关。而对于地址导向的非结构化数据,其与所述兴趣点之间的关联是获取所述地址导向非结构化数据的地理位置之后,依据所述地址导向非结构化数据的地理位置与所述兴趣点之间的相关。
图2A示出了需要挖掘兴趣点的相关数据的兴趣点的原始信息。图2B则示出了依据本实施例提供的方法挖掘得到的兴趣点的相关数据。参见图2B,在兴趣点相关数据的末尾,有从非结构化数据中挖掘得打的兴趣点的相关数据21。
本实施例通过将非结构化数据与兴趣点匹配,以及将与所述兴趣点匹配成功的非结构化数据与所述兴趣点相关联,从而实现了从非结构化的数据中提取与兴趣点有关的数据,并将从所述非结构化数据中提取的数据与所述兴趣点之间的关联,从而扩大了兴趣点关联数据的数据源的选择范围,有效的丰富了兴趣点的相关数据。
第二实施例
本实施例以本发明上述实施例为基础,提供了兴趣点数据关联方法的一种技术方案。在该技术方案中,将非结构化数据与所述兴趣点匹配包括:根据对所述兴趣点关联语料的卡方检验,确定所述兴趣点的特征向量;获取与所述特征向量匹配的内容导向非结构化数据。并且,将与所述兴趣点匹配成功的非结构化数据与所述兴趣点相关联包括:根据概率潜在语义分析PLSA模型计算与所述特征向量匹配的内容导向非结构化数据与所述兴趣点的特征向量之间的相似度;对相似度在预定阈值以上的所述内容导向的非结构化数据进行过滤;根据过滤后的内容导向的非结构化数据与所述特征向量之间的相似度、文本丰富度、文本召回位置对所述过滤后的内容导向的非结构化数据进行排序;根据所述排序的排序位置将所述过滤后的内容导向的非结构化数据与所述兴趣点相关联。
参见图3,所述兴趣点数据关联方法包括:
S31,根据对所述兴趣点关联语料的卡方检验,确定所述兴趣点的特征向量。
示例性的,所述兴趣点关联语料包括互联网上与所述兴趣点有关的评论以及与所述兴趣点无关的评论。将与所述兴趣点有关的评论合并为一个文档,该文档被称为正文当。然后,将与所述兴趣点无关的评论合并为另一个文档,该文档被称为负文档。对所述正文档及所述负文档分别进行切词,然后根据如下公式计算每个切词结果的卡方检验值:
在上式中,N表示正文档及负文档的总数,A表示一个词在正文档中的出现频率,B表示该词在负文档中的出现频率,C表示该词在正文档中的不出现频率,D表示该词在负文档中的不出现频率,χ2表示该词的卡方检验值。
完成对关联语料中所有词的卡方检验值的计算之后,将卡方检验值的取值最大的k个词作为所述兴趣点的相关关键词,与所述兴趣点的名称、地址、标签三个属性共同构成所述兴趣点的特征向量。
S32,获取与所述特征向量匹配的内容导向非结构化数据。
获取到所述兴趣点的特征向量以后,利用所述特征向量,将所述兴趣点与素数内容导向非结构化数据进行匹配。具体的,将所述特征向量中的各个单元分别与所述内容导向非结构化数据进行匹配,并将匹配成功率高于一个预设阈值的内容导向非结构化数据作为与所述兴趣点匹配成功的内容导向非结构化数据。
经过S31及S32步骤的处理以后,完成了内容导向非结构化数据与所述兴趣点之间的匹配。
S33,根据概率潜在语义分析(Probabilistic latent semantic analysis,PLSA)模型计算与所述特征向量匹配的内容导向非结构化数据与所述兴趣点的特征向量之间的相似度。
完成了内容导向非结构化数据与所述兴趣点之间的匹配之后,计算匹配成功的内容导向非结构化数据与所述兴趣点的特征向量之间的相似度。优选的,根据PLSA模型计算所述匹配成功的内容导向非结构化数据与所述特征向量之间的相似度。
S34,对相似度在预定阈值以上的所述内容导向的非结构化数据进行过滤。
所述过滤包括对于广告内容的过滤、对于色情内容的过滤、以及对于重复数据的过滤。示例性的,可以设置广告内容的停用词词表,如果所述内容导向的非结构化数据的数据内容与所述停用词词表中的词之间的匹配率超过了一定阈值,可以将所述内容导向的非结构化数据作为广告内容予以过滤。对于色情内容的过滤可以以类似的方式实现。
可以通过计算不同内容导向的非结构化数据之间的相似度,实现对于重复内容的过滤。示例性的,若两段内容导向的非结构化数据之间的相似度超过了一个预设阈值,则可以将上述两段内容导向的非结构化数据中的一段作为重复数据滤除掉。
S35,根据过滤后的内容导向的非结构化数据与所述特征向量之间的相似度、文本丰富度、文本召回位置对所述过滤后的内容导向的非结构化数据进行排序。
所述文本丰富度是用来表示所述内容导向的非结构化数据中蕴含的信息量的大小的指标。它的取值可以通过对所述内容导向的非结构化数据进行分析而得到。
所述文本召回位置是指所述特征向量中的特征向量元素在所述内容导向的非结构化数据中的召回位置。
示例性的,可以对过滤后的内容导向的非结构化数据根据所述相似度进行倒序排序。如果有若干内容导向的非结构化数据的相似度取值相同,则根据它们的文本丰富度进行倒序排序。如果上述若干相似度取值相同的内容导向的非结构化数据的文本丰富度的取值又相同,则根据它们的文本召回位置再进行倒序排序。
S36,根据所述排序的排序位置将所述过滤后的内容导向的非结构化数据与所述兴趣点相关联。
本实施例通过根据对所述兴趣点关联语料的卡方检验,确定所述兴趣点的特征向量,获取与所述特征向量匹配的内容导向非结构化数据,根据PLSA模型计算与所述特征向量匹配的内容导向非结构化数据与所述兴趣点的特征向量之间的相似度,对相似度在预定阈值以上的所述内容导向的非结构化数据进行过滤,根据过滤后的内容导向的非结构化数据与所述特征向量之间的相似度、文本丰富度、文本召回位置对所述过滤后的内容导向的非结构化数据进行排序,根据所述排序的排序位置将所述过滤后的内容导向的非结构化数据与所述兴趣点相关联,从而实现了从内容导向的非结构化数据中对兴趣点的相关数据的选取,丰富了兴趣点的相关数据。
第三实施例
本实施例提供了兴趣点数据关联方法的一种技术方案。在该技术方案中,将网络上的评论数据作为内容导向的非结构化数据的数据源,执行所述兴趣点数据关联方法。所述兴趣点数据关联方法包括:
S41,获取兴趣点的特征向量。
具体的,可以从互联网中获取与所述兴趣点相关的评论文档,作为正文档。然后,从互联网中获取与所述兴趣点不相关的评论文档,作为负文档。根据所述正文档及所述负文档中词语的卡方检验,获取到所述兴趣点的特征向量。除了从所述正文档及负文档中提取的相关关键词,所述兴趣点的特征向量还包括所述兴趣点的名称、地址和标签。
具体的,可以利用所述兴趣点的名称搜索互联网,获取所述正文档及负文档。对所述正文档及负文档进行切词,获取备选的相关关键词集合。再通过对所述相关关键词集合中相关关键词的卡方检验,从所述备选的相关关键词集合中选取合适的相关关键词,作为所述兴趣点的特征向量中的元素。
S42,根据所述兴趣点的特征向量,从互联网上的评论数据中获取关于所述兴趣点的评论文档集合。
S43,分别计算所述评论文档集合中各个文档的相似度、文本丰富度以及文本召回位置。
其中,所述相似度是依据PLSA相关度计算模型计算得到的所述评论文档中的评论文档与所述兴趣点的特征向量之间的相关度。
S44,根据所述相似度、文本丰富度以及文本召回位置对所述评论文档集合中的评论文档进行排序。
S45,根据所述排序的排序顺序,将所述评论文档集合中的评论文档与所述兴趣点相关联。
本实施例通过获取所述兴趣点的特征向量,获取互联网上的评论文档,根据相似度、文本丰富度以及文本召回位置对所述评论文档进行排序,并根据排序顺序将所述评论文档与所述兴趣点相关联,实现了从内容导向的非结构化数据中对兴趣点的相关数据的选取,丰富了兴趣点的相关数据。
第四实施例
本实施例以本发明的上述实施例为基础,进一步的提供了兴趣点数据关联方法的一种技术方案。在该技术方案中,将非结构化数据与所述兴趣点匹配包括:对地址导向的非结构化数据进行过滤;获取地址导向的非结构化数据中的地名;根据所述地名将所述地址导向的非结构化数据与所述兴趣点进行匹配。并且,将与所述兴趣点匹配成功的非结构化数据与所述兴趣点相关联包括:获取所述兴趣点的地理位置;根据所述地理位置将所述地址导向的非结构化数据与所述兴趣点关联。
参见图5,所述兴趣点数据关联方法包括:
S51,对地址导向的非结构化数据进行过滤。
与本发明第二实施例中执行的过滤操作类似,在本实施例中对所述地址导向的非结构化数据所执行过滤也包括:对于广告内容的过滤、对于色情内容的过滤以及对于重复数据的过滤。
S52,获取地址导向的非结构化数据中的地名。
以新闻类型的非结构化数据为例,由于在新闻类型的非结构化语料数据中,第一段一般会交待新闻事件发生的时间、地点以及所述新闻事件的大致内容,所以截取所述新闻类型的非结构化数据的第一段,并从这一段中提取其中包含的地名。
S53,根据所述地名将所述地址导向的非结构化数据与所述兴趣点进行匹配。
由于所述兴趣点一般都会有自身的地址,而地址中通常包含一些地名,所以可以将从所述地址导向的非结构化数据中获取到的地名与所述兴趣点进行匹配。
具体的,可以获取到所述兴趣点的地址,以及名称,将所述地名与所述兴趣点的地址及名称分别进行匹配。若上述地址及名称中任意一项与所述地名之间的匹配成功,则所述地址导向的非结构化数据与所述兴趣点匹配成功。
S54,获取所述兴趣点的地理位置。
完成所述地址导向的非结构化数据与所述兴趣点的匹配之后,获取匹配成功的兴趣点的地理位置。
S55,根据所述地理位置将所述地址导向的非结构化数据与所述兴趣点关联。
获取到所述兴趣点的地理位置之后,根据所述地理位置将所述地址导向的非结构化数据与所述兴趣点关联。
可以理解的是,从所述地址导向的非结构化数据中可能会获取到多个不同的地名。因此,依据所述多个地名可能匹配多个不同的兴趣点。
图6示出了本实施例的一种优选实施方式下位置关联的流程图。参见图6,当所述兴趣点的数目不唯一时,根据所述地理位置将所述地址导向的非结构化数据与所述兴趣点进行匹配包括:
S61,获取所述兴趣点的特征向量。
S62,获取所述兴趣点中特征向量与所述地址导向的非结构化数据的匹配程度最高的一个兴趣点。
S63,将所述地址导向的非结构化数据与所述匹配程度最高的一个兴趣点相关联。
图7示出了本实施例的另一种优选实施方式下位置关联的流程图。参见图7,当所述兴趣点的数目唯一时,根据所述地理位置将所述地址导向的非结构化数据与所述兴趣点进行匹配包括:
S71,获取所述兴趣点周围的其他兴趣点,并将所述其他兴趣点与所述兴趣点均作为候选兴趣点。
S72,获取所述候选兴趣点中特征向量与所述地址导向的非结构化数据的匹配程度最高的一个兴趣点。
S73,将所述地址导向的非结构化数据与所述匹配程度最高的一个兴趣点相关联。
本实施例通过对地址导向的非结构化数据进行过滤,获取地址导向的非结构化数据中的地名,根据所述地名将所述地址导向的非结构化数据与所述兴趣点进行匹配,获取所述兴趣点的地理位置,以及根据所述地理位置将所述地址导向的非结构化数据与所述兴趣点关联,从而实现了从地址导向的非结构化数据中对兴趣点的相关数据的选取,丰富了兴趣点的相关数据。
第五实施例
本实施例提供了兴趣点数据关联方法的一种技术方案。参见图8,本实施例以网络上的新闻语料数据作为地址导向的非结构化数据,执行所述兴趣点数据关联方法。所述兴趣点数据关联方法包括:
S801,通过对新闻语料数据的过滤及地名抽取,获取新闻发生地点的地名。
S802,将获取到的地名与兴趣点进行匹配,若命中兴趣点,则执行S803,若未命中兴趣点,则执行S804。
S803,将命中的兴趣点作为关联兴趣点。
S804,通过百度geocoding服务获取新闻发生地点的地理位置坐标。
如果通过抽取的地名未能获取到关联兴趣点,则通过geocoding服务获取新闻发生地点的地理位置坐标。
所述geocoding服务在获取到输入的新闻语料数据以后,能够根据输入的语料数据,准确的判断新闻发生地点的地理位置坐标。
S805,通过所述地理位置坐标获取关联兴趣点。
优选的通过地理位置坐标获取在该坐标上的兴趣点,并将获取到的兴趣点作为关联兴趣点。
进一步优选的,如果在所述地理位置坐标处没有相应的兴趣点,则获取所述地理位置坐标附近的多个兴趣点,并利用判重服务从所述多个兴趣点中选取一个兴趣点,作为关联兴趣点。
S806,辨别获取到的关联兴趣点的数目,若所述关联兴趣点的数目不大于1,执行S807,若所述关联兴趣点的数目大于1,执行S808。
S807,将所述新闻语料数据与所述关联兴趣点相关联。
S808,获取所述兴趣点的特征向量。
S809,根据PLSA模型计算所述兴趣点与所述新闻语料数据之间的相关程度,并选择相关程度最高的一个兴趣点。
S810,将所述新闻语料数据与所述相关程度最高的一个兴趣点相关联。
本实施例通过从新闻语料数据中抽取地名,并根据所述地名获取关联的兴趣点,最后根据所述兴趣点的地理位置坐标将所述兴趣点与新闻语料数据向关联,从而实现了从地址导向的非结构化数据中对兴趣点的相关数据的选取,丰富了兴趣点的相关数据。
第六实施例
本实施例提供了兴趣点数据关联装置的一种技术方案。参见图9,在该技术方案中,所述兴趣点数据关联装置包括:匹配模块91、关联模块92。
所述匹配模块91用于将非结构化数据与兴趣点匹配。
所述关联模块92用于将与所述兴趣点匹配成功的非结构化数据与所述兴趣点相关联。
可选的,所述匹配模块91包括:特征向量确定单元、数据获取单元。
所述特征向量确定单元用于根据对所述兴趣点关联语料的卡方检验,确定所述兴趣点的特征向量。
所述数据获取单元用于获取与所述特征向量匹配的内容导向非结构化数据。
可选的,所述关联模块92包括:相似度计算单元、过滤单元、排序单元以及关联单元。
所述相似度计算单元用于根据概率潜在语义分析PLSA模型计算与所述特征向量匹配的内容导向非结构化数据与所述兴趣点的特征向量之间的相似度。
所述过滤单元用于对相似度在预定阈值以上的所述内容导向的非结构化数据进行过滤。
所述排序单元用于根据过滤后的内容导向的非结构化数据与所述特征向量之间的相似度、文本丰富度、文本召回位置对所述过滤后的内容导向的非结构化数据进行排序。
所述关联单元用于根据所述排序的排序位置将所述过滤后的内容导向的非结构化数据与所述兴趣点相关联。
可选的,所述匹配模块91包括:数据过滤单元、地名获取单元以及地名匹配单元。
所述数据过滤单元用于对地址导向的非结构化数据进行过滤。
所述地名获取单元用于获取地址导向的非结构化数据中的地名。
所述地名匹配单元用于根据所述地名将所述地址导向的非结构化数据与所述兴趣点进行匹配。
可选的,所述关联模块92包括:位置获取单元以及位置关联单元。
所述位置获取单元用于获取所述兴趣点的地理位置。
所述位置关联单元用于根据所述地理位置将所述地址导向的非结构化数据与所述兴趣点关联。
可选的,所述位置关联单元具体用于:当所述兴趣点的数目不唯一时,获取所述兴趣点的特征向量;获取所述兴趣点中特征向量与所述地址导向的非结构化数据的匹配程度最高的一个兴趣点;将所述地址导向的非结构化数据与所述匹配程度最高的一个兴趣点相关联。
可选的,所述位置关联单元具体用于:当所述兴趣点的数目唯一时,获取所述兴趣点周围的其他兴趣点,并将所述其他兴趣点与所述兴趣点均作为候选兴趣点;获取所述候选兴趣点中特征向量与所述地址导向的非结构化数据的匹配程度最高的一个兴趣点;将所述地址导向的非结构化数据与所述匹配程度最高的一个兴趣点相关联。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种兴趣点数据关联方法,其特征在于,包括:
将非结构化数据与兴趣点匹配;
将与所述兴趣点匹配成功的非结构化数据与所述兴趣点相关联;
其中,将非结构化数据与所述兴趣点匹配包括:
根据对所述兴趣点关联语料的卡方检验,确定所述兴趣点的特征向量;
获取与所述特征向量匹配的内容导向非结构化数据;
其中,将与所述兴趣点匹配成功的非结构化数据与所述兴趣点相关联包括:
根据概率潜在语义分析PLSA模型计算与所述特征向量匹配的内容导向非结构化数据与所述兴趣点的特征向量之间的相似度;
对相似度在预定阈值以上的所述内容导向的非结构化数据进行过滤;
根据过滤后的内容导向的非结构化数据与所述特征向量之间的相似度、文本丰富度、文本召回位置对所述过滤后的内容导向的非结构化数据进行排序;
根据所述排序的排序位置将所述过滤后的内容导向的非结构化数据与所述兴趣点相关联。
2.一种兴趣点数据关联装置,其特征在于,包括:
匹配模块,用于将非结构化数据与兴趣点匹配;
关联模块,用于将与所述兴趣点匹配成功的非结构化数据与所述兴趣点相关联;
其中,所述匹配模块包括:
特征向量确定单元,用于根据对所述兴趣点关联语料的卡方检验,确定所述兴趣点的特征向量;
数据获取单元,用于获取与所述特征向量匹配的内容导向非结构化数据;
其中,所述关联模块包括:
相似度计算单元,用于根据概率潜在语义分析PLSA模型计算与所述特征向量匹配的内容导向非结构化数据与所述兴趣点的特征向量之间的相似度;
过滤单元,用于对相似度在预定阈值以上的所述内容导向的非结构化数据进行过滤;
排序单元,用于根据过滤后的内容导向的非结构化数据与所述特征向量之间的相似度、文本丰富度、文本召回位置对所述过滤后的内容导向的非结构化数据进行排序;
关联单元,用于根据所述排序的排序位置将所述过滤后的内容导向的非结构化数据与所述兴趣点相关联。
CN201510373575.2A 2015-06-30 2015-06-30 兴趣点数据关联方法和装置 Active CN104933171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510373575.2A CN104933171B (zh) 2015-06-30 2015-06-30 兴趣点数据关联方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510373575.2A CN104933171B (zh) 2015-06-30 2015-06-30 兴趣点数据关联方法和装置

Publications (2)

Publication Number Publication Date
CN104933171A CN104933171A (zh) 2015-09-23
CN104933171B true CN104933171B (zh) 2019-06-18

Family

ID=54120338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510373575.2A Active CN104933171B (zh) 2015-06-30 2015-06-30 兴趣点数据关联方法和装置

Country Status (1)

Country Link
CN (1) CN104933171B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243120A (zh) * 2015-09-29 2016-01-13 百度在线网络技术(北京)有限公司 一种检索方法及装置
CN106959958B (zh) 2016-01-11 2020-04-07 阿里巴巴集团控股有限公司 地图兴趣点简称获取方法和装置
CN108021638B (zh) * 2017-11-28 2022-01-14 上海电科智能系统股份有限公司 一种离线地理编码非结构化地址解析系统
CN109040289A (zh) * 2018-08-27 2018-12-18 百度在线网络技术(北京)有限公司 兴趣点信息推送方法、服务器、终端和存储介质
CN111723165B (zh) * 2019-03-18 2024-06-11 阿里巴巴集团控股有限公司 地址兴趣点确定方法、装置及系统
CN112784185B (zh) * 2021-01-18 2022-07-08 腾讯科技(深圳)有限公司 一种基于信息点的信息管理方法以及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364473A (zh) * 2011-11-09 2012-02-29 中国科学院自动化研究所 融合地理信息与视觉信息的网络新闻检索系统及方法
CN102841920A (zh) * 2012-06-30 2012-12-26 北京百度网讯科技有限公司 一种页面信息提取方法及装置
CN103106272A (zh) * 2013-02-06 2013-05-15 腾讯科技(深圳)有限公司 兴趣点信息获取方法及装置
CN103457975A (zh) * 2012-06-01 2013-12-18 腾讯科技(深圳)有限公司 获取地图兴趣点评价数据的方法和装置
CN103678327A (zh) * 2012-09-04 2014-03-26 中国移动通信集团四川有限公司 一种信息关联的方法及装置
CN104090970A (zh) * 2014-07-17 2014-10-08 百度在线网络技术(北京)有限公司 兴趣点的展现方法及装置
CN104572645A (zh) * 2013-10-11 2015-04-29 高德软件有限公司 兴趣点数据关联方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514234B (zh) * 2012-06-30 2018-10-16 北京百度网讯科技有限公司 一种页面信息提取方法和装置
CN104281622B (zh) * 2013-07-11 2017-12-05 华为技术有限公司 一种社交媒体中的信息推荐方法和装置
CN104317909B (zh) * 2014-10-27 2018-09-28 百度在线网络技术(北京)有限公司 兴趣点数据的校验方法和装置
CN104699835B (zh) * 2015-03-31 2016-09-28 北京奇虎科技有限公司 用于确定网页页面中包括兴趣点poi数据的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364473A (zh) * 2011-11-09 2012-02-29 中国科学院自动化研究所 融合地理信息与视觉信息的网络新闻检索系统及方法
CN103457975A (zh) * 2012-06-01 2013-12-18 腾讯科技(深圳)有限公司 获取地图兴趣点评价数据的方法和装置
CN102841920A (zh) * 2012-06-30 2012-12-26 北京百度网讯科技有限公司 一种页面信息提取方法及装置
CN103678327A (zh) * 2012-09-04 2014-03-26 中国移动通信集团四川有限公司 一种信息关联的方法及装置
CN103106272A (zh) * 2013-02-06 2013-05-15 腾讯科技(深圳)有限公司 兴趣点信息获取方法及装置
CN104572645A (zh) * 2013-10-11 2015-04-29 高德软件有限公司 兴趣点数据关联方法及装置
CN104090970A (zh) * 2014-07-17 2014-10-08 百度在线网络技术(北京)有限公司 兴趣点的展现方法及装置

Also Published As

Publication number Publication date
CN104933171A (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
CN104933171B (zh) 兴趣点数据关联方法和装置
CN111522994B (zh) 用于生成信息的方法和装置
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
US10740678B2 (en) Concept hierarchies
JP2021089739A (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
JP6381002B2 (ja) 検索推奨方法及び装置
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
CN110837550A (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN111428049B (zh) 一种事件专题的生成方法、装置、设备和存储介质
CN111488740B (zh) 一种因果关系的判别方法、装置、电子设备及存储介质
Nguyen et al. LifeSeeker 3.0: An Interactive Lifelog Search Engine for LSC'21
CN105512180B (zh) 一种搜索推荐方法及装置
CN110968684A (zh) 一种信息处理方法、装置、设备及存储介质
US9984050B2 (en) Ground truth collection via browser for passage-question pairings
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN104067273A (zh) 将搜索结果分组为简档页面
CN111695519B (zh) 关键点定位方法、装置、设备以及存储介质
US10198497B2 (en) Search term clustering
CN103902535A (zh) 获取联想词的方法、装置及系统
CN108073576A (zh) 智能搜索方法、搜索装置以及搜索引擎系统
CN110795544B (zh) 内容搜索方法、装置、设备和存储介质
CN103534696A (zh) 针对口语语言理解中的域检测利用查询点击记录
CN113039539A (zh) 使用ai模型推荐来扩展搜索引擎能力
CN110543484A (zh) 提示词的推荐方法及装置、存储介质和处理器
CN110442730A (zh) 一种基于deepdive的知识图谱构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant