CN109033222A - 兴趣点poi与检索关键字的相关性分析方法和装置 - Google Patents
兴趣点poi与检索关键字的相关性分析方法和装置 Download PDFInfo
- Publication number
- CN109033222A CN109033222A CN201810712731.7A CN201810712731A CN109033222A CN 109033222 A CN109033222 A CN 109033222A CN 201810712731 A CN201810712731 A CN 201810712731A CN 109033222 A CN109033222 A CN 109033222A
- Authority
- CN
- China
- Prior art keywords
- token
- domain
- hit
- search key
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010219 correlation analysis Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000003058 natural language processing Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了兴趣点POI与检索关键字的相关性分析方法和装置。所述方法包括:对所述检索关键字进行分词;对所述POI的一个域,根据分得的各个词计算所述检索关键字与该域的紧密度;根据分得的各个词对该域的命中情况确定第一权重;根据分得的各个词的逆向文件频率idf确定第二权重;根据所述第一权重、所述第二权重和所述紧密度计算所述检索关键字和所述POI的该域的相关性。该技术方案结合了自然语言处理技术,能够利用求得的三项参数准确计算出检索关键字与POI的相关性,可信度较高。
Description
技术领域
本发明涉及数据分析技术领域,具体涉及兴趣点POI与检索关键字的相关性分析方法和装置。
背景技术
POI通常是point of interest(兴趣点)的缩写,也可以指point of information(信息点)。兴趣点和信息点在地图中可以作为出银行、景点、公司、医院、政府机构、餐馆、商场等的标识。本发明中的“兴趣点”和“POI”均指上述含义。
在电子地图中可以进行POI检索,例如,用户输入检索关键字,获得与检索关键字相关的POI。因此,如何更准确地分析出检索关键字与POI的相关性是需要解决的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的兴趣点POI与检索关键字的相关性分析方法和装置。
依据本发明的一个方面,提供了一种兴趣点POI与检索关键字的相关性分析方法,包括:对所述检索关键字进行分词;对所述POI的一个域,根据分得的各个词计算所述检索关键字与该域的紧密度;根据分得的各个词对该域的命中情况确定第一权重;根据分得的各个词的逆向文件频率idf确定第二权重;根据所述第一权重、所述第二权重和所述紧密度计算所述检索关键字和所述POI的该域的相关性。
可选地,所述对所述检索关键字进行分词包括:对获取的检索关键字进行自然语言处理,得到若干个分词对象term;根据该若干个term确定与所述检索关键字的若干个检索标记token,将各token作为所述分得的各个词。
可选地,所述根据分得的各个词计算所述检索关键字与该域的紧密度包括:确定与该域命中的token;根据各命中token计算所述检索关键字与该域的紧密度。
可选地,所述根据各命中token计算所述检索关键字与该域的紧密度包括:遍历各命中token,对一个命中token,执行如下步骤:在命中token序列中,计算该命中token与相邻命中token的第一距离,以及在token序列中,计算该命中token与相邻命中token的第二距离,计算所述第一距离和所述第二距离的差的绝对值作为相对距离,根据所述相对距离确定惩罚因子;计算该命中token在该域的idf,对idf进行开方,得到power_idf;将所述power_idf与确定的惩罚因子相乘,得到该命中token与该域的紧密度;所述命中token序列和所述token序列均是按各token在所述检索关键字中的顺序确定的;根据各命中token与该域的紧密度,将其中数值最大的紧密度作为所述检索关键字与该域的紧密度。
可选地,所述根据分得的各个词对该域的命中情况确定第一权重包括:计算各命中token对该域的命中率,根据所述命中率确定第一权重。
可选地,所述计算各命中token对该域的命中率包括:计算各命中token的字数长度占该域字数长度的比率,其中,一个汉字代表一个长度单位,或者,一个英文字母代表一个长度单位。
可选地,所述根据分得的各个词的逆向文件频率idf确定第二权重包括:计算各命中token的idf之和;计算所述检索关键字的各token的idf之和;以所述各命中token的idf之和除以所述检索关键字各token的idf之和,得到所述第二权重。
依据本发明的另一方面,提供了一种兴趣点POI与检索关键字的相关性分析装置,包括:分词单元,适于对所述检索关键字进行分词;紧密度计算单元,适于对所述POI的一个域,根据分得的各个词计算所述检索关键字与该域的紧密度;权重单元,适于根据分得的各个词对该域的命中情况确定第一权重;以及适于根据分得的各个词的逆向文件频率idf确定第二权重;相关性计算单元,适于根据所述第一权重、所述第二权重和所述紧密度计算所述检索关键字和所述POI的该域的相关性。
可选地,所述分词单元,适于对获取的检索关键字进行自然语言处理,得到若干个分词对象term;根据该若干个term确定与所述检索关键字的若干个检索标记token,将各token作为所述分得的各个词。
可选地,所述紧密度计算单元,适于确定与该域命中的token;根据各命中token计算所述检索关键字与该域的紧密度。
可选地,所述紧密度计算单元,适于遍历各命中token,对一个命中token,执行如下步骤:在命中token序列中,计算该命中token与相邻命中token的第一距离,以及在token序列中,计算该命中token与相邻命中token的第二距离,计算所述第一距离和所述第二距离的差的绝对值作为相对距离,根据所述相对距离确定惩罚因子;计算该命中token在该域的idf,对idf进行开方,得到power_idf;将所述power_idf与确定的惩罚因子相乘,得到该命中token与该域的紧密度;所述命中token序列和所述token序列均是按各token在所述检索关键字中的顺序确定的;根据各命中token与该域的紧密度,将其中数值最大的紧密度作为所述检索关键字与该域的紧密度。
可选地,所述权重单元,适于计算各命中token对该域的命中率,根据所述命中率确定第一权重。
可选地,所述权重单元,适于计算各命中token的字数长度占该域字数长度的比率,其中,一个汉字代表一个长度单位,或者,一个英文字母代表一个长度单位。
可选地,所述权重单元,适于计算各命中token的idf之和;计算所述检索关键字的各token的idf之和;以所述各命中token的idf之和除以所述检索关键字各token的idf之和,得到所述第二权重。
依据本发明的又一方面,提供了一种智能终端,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。
依据本发明的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。
由上述可知,本发明的技术方案,在对检索关键字进行分词处理后,执行三项计算:一方面,对POI的一个域,根据分得的各个词计算检索关键字与该域的紧密度;另一方面,根据分得的各个词对该域的命中情况确定第一权重;再一方面,根据分得的各个词的逆向文件频率idf确定第二权重。根据这三个步骤得到的结果可以求得检索关键字与POI的相关系。该技术方案结合了自然语言处理技术,能够利用求得的三项参数准确计算出检索关键字与POI的相关性,可信度较高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种兴趣点POI与检索关键字的相关性分析方法的流程示意图;
图2示出了根据本发明一个实施例的一种兴趣点POI与检索关键字的相关性分析装置的结构示意图;
图3示出了根据本发明一个实施例的智能终端的结构示意图;
图4示出了根据本发明一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种兴趣点POI与检索关键字的相关性分析方法的流程示意图。如图1所示,该方法包括:
步骤S110,对检索关键字进行分词。
步骤S120,对POI的一个域,根据分得的各个词计算检索关键字与该域的紧密度。例如将紧密度记为proximity。
域也可以称为POI的一个字段或sentence(即自然语言处理技术中的句子sentence)。POI可以包括多个域,例如名称域(对于POI名称)、类型域(对应于POI类型)、城市域(对应于POI所在的城市)等等。
例如,POI“北京大学口腔医学院”的名称域为北京大学口腔医学院。省域为北京市,城市域为北京市。
步骤S130,根据分得的各个词对该域的命中情况确定第一权重。例如将第一权重记为hit_rate。命中即是指分得的词在包含在域中,例如“医学院”就命中“北京大学口腔医学院”这个名称域。
步骤S140,根据分得的各个词的逆向文件频率idf确定第二权重。例如将第二权重记为idf_cover。
idf(inverse document frequency,逆向文件频率)是df(document frequency,文档频率)的倒数,是一个词语普遍重要性的度量。某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。例如“医学院”的idf=6.773797。计算所需要的语料库可以是通过现有技术获得的,也不限于本发明实施所需的场景,即可以采用已计算保存的idf表,通过查表获得分得的各个词的idf。
其中,步骤S120、步骤S130和步骤S140可以并行执行。
步骤S150,根据第一权重、第二权重和紧密度计算检索关键字和POI的该域的相关性。即相关性p=proximity*hit_rate*idf_cover。
可见,图1所示的方法,在对检索关键字进行分词处理后,执行三项计算:一方面,对POI的一个域,根据分得的各个词计算检索关键字与该域的紧密度;另一方面,根据分得的各个词对该域的命中情况确定第一权重;再一方面,根据分得的各个词的逆向文件频率idf确定第二权重。根据这三个步骤得到的结果可以求得检索关键字与POI的相关系。该技术方案结合了自然语言处理技术,能够利用求得的三项参数准确计算出检索关键字与POI的相关性,可信度较高。
在本发明的一个实施例中,上述方法中,对检索关键字进行分词包括:对获取的检索关键字进行自然语言处理,得到若干个分词对象term;根据该若干个term确定与检索关键字的若干个检索标记token,将各token作为分得的各个词。
例如,对检索关键字“北京大学医学院”进行分词,首先在细粒度下得到三个term“北京”、“大学”和“医学院”。token是相邻的一个或多个term组成的查询词,例如上例中“北京”和“大学”组成一个token“北京大学”,“医学院”自己作为一个token。这样就得到了两个token作为分词结果。
在本发明的一个实施例中,上述方法中,根据分得的各个词计算检索关键字与该域的紧密度包括:确定与该域命中的token;根据各命中token计算检索关键字与该域的紧密度。
以检索关键字“北京大学医学院”、POI“北京大学口腔医学院”为例,token“北京大学”和“医学院”均命中该POI的名称域,则token“北京大学”和“医学院”均为是名称域的命中token,可以用来计算检索关键字和名称域的紧密度。
在本发明的一个实施例中,上述方法中,根据各命中token计算检索关键字与该域的紧密度包括:遍历各命中token,对一个命中token,执行如下步骤:在命中token序列中,计算该命中token与相邻命中token的第一距离,以及在token序列中,计算该命中token与相邻命中token的第二距离,计算第一距离和第二距离的差的绝对值作为相对距离,根据相对距离确定惩罚因子;计算该命中token在该域的idf,对idf进行开方,得到power_idf;将power_idf与确定的惩罚因子相乘,得到该命中token与该域的紧密度;命中token序列和token序列均是按各token在检索关键字中的顺序确定的;根据各命中token与该域的紧密度,将其中数值最大的紧密度作为检索关键字与该域的紧密度。
依然以检索关键字“北京大学医学院”、POI“北京大学口腔医学院”为例进行说明:在本例中,命中token序列和token序列均为北京大学医学院。但容易推知,如果检索关键字为“北京大学肿瘤医学院”,那么命中token序列仍为北京大学医学院,但token序列就变为北京大学肿瘤医学院。
在上例中,根据检索关键字“北京大学医学院”得到的token信息如下表所示:
token | term | 长度 | idf | pow_idf |
北京大学 | 北京、大学 | 4 | 6.773797 | 2.614 |
医学院 | 医学院 | 3 | 9.199308 | 3.041 |
将其与POI“北京大学口腔医学院”的名称域和省域进行上述处理,得到信息如下表所示:
可见,在确定命中情况时也可以对域的内容进行分词处理。下面以名称域为例,计算检索关键字与该域的紧密度:
首先计算该域的各命中token跟与之相邻的命中token间的距离,得到如下表所示的信息:
在本例中,相对距离为0的惩罚因子设为1.0,相对距离为1的惩罚因子设为0.85。则token=“北京大学”的proximity=(1.0*2.614+0.85*3.041)÷(2.614+3.041)=0.919。另外token=“医学院”的proximity=(0.85*2.614+1.0*3.041)÷(2.614+3.041)=0.931。最后二者取最大的那个,也就是0.931。
在本发明的一个实施例中,上述方法中,根据分得的各个词对该域的命中情况确定第一权重包括:计算各命中token对该域的命中率,根据命中率确定第一权重。具体地,在本发明的一个实施例中,上述方法中,计算各命中token对该域的命中率包括:计算各命中token的字数长度占该域字数长度的比率,其中,一个汉字代表一个长度单位,或者,一个英文字母代表一个长度单位。
结合上例,命中token的长度是7,即“北京大学”的长度加上“医学院”的长度。该sentence的长度是9,即“北京大学口腔医学院”的长度。hit_rate=7÷9=77.78%,根据查表,77.78%的命中率,第一权重是1.27。也就是说,可以预置一个命中率与第一权重的对应表。
在本发明的一个实施例中,上述方法中,根据分得的各个词的逆向文件频率idf确定第二权重包括:计算各命中token的idf之和;计算检索关键字的各token的idf之和;以各命中token的idf之和除以检索关键字各token的idf之和,得到第二权重。
在上例中,命中token的idf之和是2.614+3.041=5.655,检索关键字的各token的idf之和也是2.614+3.041=5.655,因为检索关键字的所有token均命中该sentence,因此idf_cover=1.0。
综上,计算得到相关性为0.931*1.27*1.0=1.182。
图2示出了根据本发明一个实施例的一种兴趣点POI与检索关键字的相关性分析装置的结构示意图。如图2所示,兴趣点POI与检索关键字的相关性分析装置200包括:
分词单元210,适于对检索关键字进行分词。
紧密度计算单元220,适于对POI的一个域,根据分得的各个词计算检索关键字与该域的紧密度。例如将紧密度记为proximity。
域也可以称为POI的一个字段或sentence(即自然语言处理技术中的句子sentence)。POI可以包括多个域,例如名称域(对于POI名称)、类型域(对应于POI类型)、城市域(对应于POI所在的城市)等等。
例如,POI“北京大学口腔医学院”的名称域为北京大学口腔医学院。省域为北京市,城市域为北京市。
权重单元230,适于根据分得的各个词对该域的命中情况确定第一权重;以及适于根据分得的各个词的逆向文件频率idf确定第二权重。例如将第一权重记为hit_rate,将第二权重记为idf_cover。
命中即是指分得的词在包含在域中,例如“医学院”就命中“北京大学口腔医学院”这个名称域。
idf(inverse document frequency,逆向文件频率)是df(document frequency,文档频率)的倒数,是一个词语普遍重要性的度量。某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。例如“医学院”的idf=6.773797。计算所需要的语料库可以是通过现有技术获得的,也不限于本发明实施所需的场景,即可以采用已计算保存的idf表,通过查表获得分得的各个词的idf。
相关性计算单元240,适于根据第一权重、第二权重和紧密度计算检索关键字和POI的该域的相关性。即相关性p=proximity*hit_rate*idf_cover。
可见,图2所示的装置,在对检索关键字进行分词处理后,执行三项计算:一方面,对POI的一个域,根据分得的各个词计算检索关键字与该域的紧密度;另一方面,根据分得的各个词对该域的命中情况确定第一权重;再一方面,根据分得的各个词的逆向文件频率idf确定第二权重。根据这三个步骤得到的结果可以求得检索关键字与POI的相关系。该技术方案结合了自然语言处理技术,能够利用求得的三项参数准确计算出检索关键字与POI的相关性,可信度较高。
在本发明的一个实施例中,上述装置中,分词单元210,适于对获取的检索关键字进行自然语言处理,得到若干个分词对象term;根据该若干个term确定与检索关键字的若干个检索标记token,将各token作为分得的各个词。
例如,对检索关键字“北京大学医学院”进行分词,首先在细粒度下得到三个term“北京”、“大学”和“医学院”。token是相邻的一个或多个term组成的查询词,例如上例中“北京”和“大学”组成一个token“北京大学”,“医学院”自己作为一个token。这样就得到了两个token作为分词结果。
在本发明的一个实施例中,上述装置中,紧密度计算单元220,适于确定与该域命中的token;根据各命中token计算检索关键字与该域的紧密度。
以检索关键字“北京大学医学院”、POI“北京大学口腔医学院”为例,token“北京大学”和“医学院”均命中该POI的名称域,则token“北京大学”和“医学院”均为是名称域的命中token,可以用来计算检索关键字和名称域的紧密度。
在本发明的一个实施例中,上述装置中,紧密度计算单元220,适于遍历各命中token,对一个命中token,执行如下步骤:在命中token序列中,计算该命中token与相邻命中token的第一距离,以及在token序列中,计算该命中token与相邻命中token的第二距离,计算第一距离和第二距离的差的绝对值作为相对距离,根据相对距离确定惩罚因子;计算该命中token在该域的idf,对idf进行开方,得到power_idf;将power_idf与确定的惩罚因子相乘,得到该命中token与该域的紧密度;命中token序列和token序列均是按各token在检索关键字中的顺序确定的;根据各命中token与该域的紧密度,将其中数值最大的紧密度作为检索关键字与该域的紧密度。
依然以检索关键字“北京大学医学院”、POI“北京大学口腔医学院”为例进行说明:在本例中,命中token序列和token序列均为北京大学医学院。但容易推知,如果检索关键字为“北京大学肿瘤医学院”,那么命中token序列仍为北京大学医学院,但token序列就变为北京大学肿瘤医学院。
在上例中,根据检索关键字“北京大学医学院”得到的token信息如下表所示:
token | term | 长度 | idf | pow_idf |
北京大学 | 北京、大学 | 4 | 6.773797 | 2.614 |
医学院 | 医学院 | 3 | 9.199308 | 3.041 |
将其与POI“北京大学口腔医学院”的名称域和省域进行上述处理,得到信息如下表所示:
可见,在确定命中情况时也可以对域的内容进行分词处理。下面以名称域为例,计算检索关键字与该域的紧密度:
首先计算该域的各命中token跟与之相邻的命中token间的距离,得到如下表所示的信息:
在本例中,相对距离为0的惩罚因子设为1.0,相对距离为1的惩罚因子设为0.85。则token=“北京大学”的proximity=(1.0*2.614+0.85*3.041)÷(2.614+3.041)=0.919。另外token=“医学院”的proximity=(0.85*2.614+1.0*3.041)÷(2.614+3.041)=0.931。最后二者取最大的那个,也就是0.931。
在本发明的一个实施例中,上述装置中,权重单元230,适于计算各命中token对该域的命中率,根据命中率确定第一权重。具体地,在本发明的一个实施例中,上述装置中,权重单元230,适于计算各命中token的字数长度占该域字数长度的比率,其中,一个汉字代表一个长度单位,或者,一个英文字母代表一个长度单位。
结合上例,命中token的长度是7,即“北京大学”的长度加上“医学院”的长度。该sentence的长度是9,即“北京大学口腔医学院”的长度。hit_rate=7÷9=77.78%,根据查表,77.78%的命中率,第一权重是1.27。也就是说,可以预置一个命中率与第一权重的对应表。
在本发明的一个实施例中,上述装置中,权重单元230,适于计算各命中token的idf之和;计算检索关键字的各token的idf之和;以各命中token的idf之和除以检索关键字各token的idf之和,得到第二权重。
在上例中,命中token的idf之和是2.614+3.041=5.655,检索关键字的各token的idf之和也是2.614+3.041=5.655,因为检索关键字的所有token均命中该sentence,因此idf_cover=1.0。
综上,计算得到相关性为0.931*1.27*1.0=1.182。
综上所述,本发明的技术方案,在对检索关键字进行分词处理后,执行三项计算:一方面,对POI的一个域,根据分得的各个词计算检索关键字与该域的紧密度;另一方面,根据分得的各个词对该域的命中情况确定第一权重;再一方面,根据分得的各个词的逆向文件频率idf确定第二权重。根据这三个步骤得到的结果可以求得检索关键字与POI的相关系。该技术方案结合了自然语言处理技术,能够利用求得的三项参数准确计算出检索关键字与POI的相关性,可信度较高。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的兴趣点POI与检索关键字的相关性分析装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图3示出了根据本发明一个实施例的智能终端的结构示意图。该智能终端包括处理器310和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器320。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码331的存储空间330。例如,用于存储计算机可读程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码331。计算机可读程序代码331可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4所述的计算机可读存储介质。图4示出了根据本发明一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质400存储有用于执行根据本发明的方法步骤的计算机可读程序代码331,可以被智能终端300的处理器310读取,当计算机可读程序代码331由智能终端300运行时,导致该智能终端300执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码331可以执行上述任一实施例中示出的方法。计算机可读程序代码331可以以适当形式进行压缩。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种兴趣点POI与检索关键字的相关性分析方法,包括:
对所述检索关键字进行分词;
对所述POI的一个域,根据分得的各个词计算所述检索关键字与该域的紧密度;
根据分得的各个词对该域的命中情况确定第一权重;
根据分得的各个词的逆向文件频率idf确定第二权重;
根据所述第一权重、所述第二权重和所述紧密度计算所述检索关键字和所述POI的该域的相关性。
2.如权利要求1所述的方法,其中,所述对所述检索关键字进行分词包括:
对获取的检索关键字进行自然语言处理,得到若干个分词对象term;
根据该若干个term确定与所述检索关键字的若干个检索标记token,将各token作为所述分得的各个词。
3.如权利要求1或2所述的方法,其中,所述根据分得的各个词计算所述检索关键字与该域的紧密度包括:
确定与该域命中的token;
根据各命中token计算所述检索关键字与该域的紧密度。
4.如权利要求1-3中任一项所述的方法,其中,所述根据各命中token计算所述检索关键字与该域的紧密度包括:
遍历各命中token,对一个命中token,执行如下步骤:
在命中token序列中,计算该命中token与相邻命中token的第一距离,以及在token序列中,计算该命中token与相邻命中token的第二距离,计算所述第一距离和所述第二距离的差的绝对值作为相对距离,根据所述相对距离确定惩罚因子;计算该命中token在该域的idf,对idf进行开方,得到power_idf;将所述power_idf与确定的惩罚因子相乘,得到该命中token与该域的紧密度;所述命中token序列和所述token序列均是按各token在所述检索关键字中的顺序确定的;
根据各命中token与该域的紧密度,将其中数值最大的紧密度作为所述检索关键字与该域的紧密度。
5.如权利要求1-4中任一项所述的方法,其中,所述根据分得的各个词对该域的命中情况确定第一权重包括:
计算各命中token对该域的命中率,根据所述命中率确定第一权重。
6.如权利要求1-5中任一项所述的方法,其中,所述计算各命中token对该域的命中率包括:
计算各命中token的字数长度占该域字数长度的比率,其中,一个汉字代表一个长度单位,或者,一个英文字母代表一个长度单位。
7.如权利要求1-6中任一项所述的方法,其中,所述根据分得的各个词的逆向文件频率idf确定第二权重包括:
计算各命中token的idf之和;
计算所述检索关键字的各token的idf之和;
以所述各命中token的idf之和除以所述检索关键字各token的idf之和,得到所述第二权重。
8.一种兴趣点POI与检索关键字的相关性分析装置,包括:
分词单元,适于对所述检索关键字进行分词;
紧密度计算单元,适于对所述POI的一个域,根据分得的各个词计算所述检索关键字与该域的紧密度;
权重单元,适于根据分得的各个词对该域的命中情况确定第一权重;以及适于根据分得的各个词的逆向文件频率idf确定第二权重;
相关性计算单元,适于根据所述第一权重、所述第二权重和所述紧密度计算所述检索关键字和所述POI的该域的相关性。
9.一种智能终端,其中,该智能终端包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810712731.7A CN109033222B (zh) | 2018-06-29 | 2018-06-29 | 兴趣点poi与检索关键字的相关性分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810712731.7A CN109033222B (zh) | 2018-06-29 | 2018-06-29 | 兴趣点poi与检索关键字的相关性分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033222A true CN109033222A (zh) | 2018-12-18 |
CN109033222B CN109033222B (zh) | 2021-07-13 |
Family
ID=65521267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810712731.7A Expired - Fee Related CN109033222B (zh) | 2018-06-29 | 2018-06-29 | 兴趣点poi与检索关键字的相关性分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033222B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064827A (zh) * | 2020-08-05 | 2022-02-18 | 北京四维图新科技股份有限公司 | 位置搜索方法、装置以及设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102768679A (zh) * | 2012-06-25 | 2012-11-07 | 深圳市汉络计算机技术有限公司 | 一种搜索方法及搜索系统 |
CN103425687A (zh) * | 2012-05-21 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种基于关键词的检索方法和系统 |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
CN104375992A (zh) * | 2013-08-12 | 2015-02-25 | 中国移动通信集团浙江有限公司 | 一种地址匹配的方法和装置 |
CN105069047A (zh) * | 2014-07-25 | 2015-11-18 | 沈阳美行科技有限公司 | 一种地理信息的检索方法及装置 |
US20150339756A1 (en) * | 2014-05-23 | 2015-11-26 | Ebay Inc. | Personalizing alternative recommendations using search context |
CN105653562A (zh) * | 2014-12-02 | 2016-06-08 | 阿里巴巴集团控股有限公司 | 一种文本内容与查询请求之间相关性的计算方法及装置 |
CN106095780A (zh) * | 2016-05-26 | 2016-11-09 | 达而观信息科技(上海)有限公司 | 一种基于位置特征的检索方法 |
WO2017057858A1 (ko) * | 2015-10-01 | 2017-04-06 | 한국외국어대학교 연구산학협력단 | 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 |
CN107832405A (zh) * | 2017-11-03 | 2018-03-23 | 北京小度互娱科技有限公司 | 计算标题之间的相关性的方法和装置 |
CN108090077A (zh) * | 2016-11-23 | 2018-05-29 | 中国科学院沈阳计算技术研究所有限公司 | 一种基于自然语言检索的综合相似度计算方法 |
US20180173696A1 (en) * | 2016-12-21 | 2018-06-21 | Wipro Limited | System and method for creating and building a domain dictionary |
-
2018
- 2018-06-29 CN CN201810712731.7A patent/CN109033222B/zh not_active Expired - Fee Related
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425687A (zh) * | 2012-05-21 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种基于关键词的检索方法和系统 |
CN102768679A (zh) * | 2012-06-25 | 2012-11-07 | 深圳市汉络计算机技术有限公司 | 一种搜索方法及搜索系统 |
CN104375992A (zh) * | 2013-08-12 | 2015-02-25 | 中国移动通信集团浙江有限公司 | 一种地址匹配的方法和装置 |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
US20150339756A1 (en) * | 2014-05-23 | 2015-11-26 | Ebay Inc. | Personalizing alternative recommendations using search context |
CN105069047A (zh) * | 2014-07-25 | 2015-11-18 | 沈阳美行科技有限公司 | 一种地理信息的检索方法及装置 |
CN105653562A (zh) * | 2014-12-02 | 2016-06-08 | 阿里巴巴集团控股有限公司 | 一种文本内容与查询请求之间相关性的计算方法及装置 |
WO2017057858A1 (ko) * | 2015-10-01 | 2017-04-06 | 한국외국어대학교 연구산학협력단 | 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 |
CN106095780A (zh) * | 2016-05-26 | 2016-11-09 | 达而观信息科技(上海)有限公司 | 一种基于位置特征的检索方法 |
CN108090077A (zh) * | 2016-11-23 | 2018-05-29 | 中国科学院沈阳计算技术研究所有限公司 | 一种基于自然语言检索的综合相似度计算方法 |
US20180173696A1 (en) * | 2016-12-21 | 2018-06-21 | Wipro Limited | System and method for creating and building a domain dictionary |
CN107832405A (zh) * | 2017-11-03 | 2018-03-23 | 北京小度互娱科技有限公司 | 计算标题之间的相关性的方法和装置 |
Non-Patent Citations (1)
Title |
---|
闫学亮: "信息检索查询词权重分配方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064827A (zh) * | 2020-08-05 | 2022-02-18 | 北京四维图新科技股份有限公司 | 位置搜索方法、装置以及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109033222B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Davidson et al. | Serous effusions: etiology, diagnosis, prognosis and therapy | |
CN106502989A (zh) | 情感分析方法及装置 | |
Vickers et al. | Does the net reclassification improvement help us evaluate models and markers? | |
US10210214B2 (en) | Scalable trend detection in a personalized search context | |
Huo et al. | Fully automatic liver attenuation estimation combing CNN segmentation and morphological operations | |
US20200125673A1 (en) | Learning thematic similarity metric from article text units | |
Patel et al. | Hybrid stemmer for Gujarati | |
CN106445906A (zh) | 领域词典中中长词词组的生成方法及装置 | |
Kim et al. | Diagnosis and management of pancreatic cystic neoplasms | |
CN106294502A (zh) | 一种电子书信息处理方法及装置 | |
CN110119507A (zh) | 词向量生成方法、装置以及设备 | |
CN106776559A (zh) | 文本语义相似度计算的方法及装置 | |
Üstün et al. | Unsupervised morphological segmentation using neural word embeddings | |
CN109033222A (zh) | 兴趣点poi与检索关键字的相关性分析方法和装置 | |
CN108763574A (zh) | 一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合 | |
Sun et al. | Instance-aware diffusion model for gland segmentation in colon histology images | |
Yetiv et al. | Advancing interdisciplinary approaches to international relations | |
CN107832288B (zh) | 中文词语语义相似度的度量方法及装置 | |
CN109766527B (zh) | 一种文本相似度的计算方法以及相关设备 | |
Vasiljević et al. | Self adversarial attack as an augmentation method for immunohistochemical stainings | |
Shandro et al. | Real-life cost savings and capacity improvements on implementation of the new BSG post-polypectomy surveillance guideline | |
US20220028509A1 (en) | System and method for matching medical concepts in radiological reports | |
CN105260425A (zh) | 基于云盘的文件显示方法及装置 | |
CN104462368B (zh) | 数据计算方法、装置和服务器 | |
CN113204650B (zh) | 基于领域知识图谱的评价方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210713 |