CN103390044B - 一种连锁类兴趣点数据识别方法及装置 - Google Patents

一种连锁类兴趣点数据识别方法及装置 Download PDF

Info

Publication number
CN103390044B
CN103390044B CN201310305977.XA CN201310305977A CN103390044B CN 103390044 B CN103390044 B CN 103390044B CN 201310305977 A CN201310305977 A CN 201310305977A CN 103390044 B CN103390044 B CN 103390044B
Authority
CN
China
Prior art keywords
chain
search
text
interest
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310305977.XA
Other languages
English (en)
Other versions
CN103390044A (zh
Inventor
史子博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310305977.XA priority Critical patent/CN103390044B/zh
Publication of CN103390044A publication Critical patent/CN103390044A/zh
Application granted granted Critical
Publication of CN103390044B publication Critical patent/CN103390044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种连锁类兴趣点数据识别方法及装置,一种连锁类兴趣点数据识别方法包括:获得待识别的兴趣点数据集合;对集合中兴趣点的名称文本进行切分,得到该文本的前i个切分片段Ti,其中i=1,2,3…;根据切分片段的文本内容,在所述集合范围内统计每种Ti的文本出现次数C(Ti);在统计结果中,搜索令C(Ti)‑C(Ti+1)大于预设阈值的Ti,将C(Ti)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据。应用上述技术方案,可以从海量的POI数据中,自动识别出具有连锁关系的POI数据。

Description

一种连锁类兴趣点数据识别方法及装置
技术领域
本发明涉及地理信息技术领域,特别是涉及一种连锁类兴趣点数据识别方法及装置。
背景技术
兴趣点(Point of Interest,POI)指的是人们感兴趣的地理对象数据,一个POI代表一个位置实体,例如餐馆、公园、商场等等。POI数据是地理信息系统中的重要元素,也是人们在使用地理信息服务时最为关注的内容。
在现实生活中,很多POI数据间都存在着连锁特性,例如肯德基xxx店、其中“xxx”的内容一般对应着不同地名。对于地理信息服务系统而言,如果能将具有连锁特性的POI数据分类整理,就可以进一步提供更多贴近用户实际需求的服务。
目前的POI数据中,一般不会直接携带连锁信息。为了从海量的兴趣点数据中识别出具有连锁关系的兴趣点数据,现有技术利用连锁名称特征进行自动识别,例如,通过匹配“xxx分店”、“xxx分公司”等模型,可以自动识别出大量具有连锁特征的兴趣点。然而,这种方式的缺陷在于,仅仅是对兴趣点的名称进行个体识别,却忽略了“连锁”本身所包含的相关意义,例如“肯德基xxx店”和“麦当劳xxx店”,从个体的角度看,两者者都分别具有连锁特征,然而将两者放在一起看,又显然不具有“互为连锁”的关系。因此对于这样的识别结果,仍然需要进一步处理,才能满足实际需求。
发明内容
为解决上述技术问题,本发明实施例提供一种连锁类兴趣点数据识别方法及装置,技术方案如下:
本发明实施例提供一种连锁类兴趣点数据识别方法,该方法包括:
获得待识别的兴趣点数据集合;
对集合中兴趣点的名称文本进行切分,得到该文本的前i个切分片段Ti,其中i=1,2,3…;
根据切分片段的文本内容,在所述集合范围内统计每种Ti的文本出现次数C(Ti);
在统计结果中,搜索令C(Ti)-C(Ti+1)大于预设阈值的Ti,将C(Ti)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据。
根据本发明的一种具体实施方式,所述获得待识别的兴趣点数据集合,包括:
根据连锁类兴趣点的名称特征模型,对待识别的兴趣点数据集合进行预先筛选。
根据本发明的一种具体实施方式,所述方法还包括:
对于某个兴趣点的名称文本切分结果Ti(i=1,2,3…),
如果根据所述统计结果,存在多个i值使得C(Ti)-C(Ti+1)大于预设阈值,则将C(Timax)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据;
其中imax为所述多个i值中的最大值。
根据本发明的一种具体实施方式,所述对集合中兴趣点的名称文本进行切分,包括:
利用分词技术对集合中兴趣点的名称文本进行切分。
根据本发明的一种具体实施方式,所述方法还包括:
根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本。根据本发明的一种具体实施方式,所述根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本,包括:
将互为连锁的兴趣点名称和/或连锁前缀所对应的文本确定为具有连锁搜索需求的搜索文本。
根据本发明的一种具体实施方式,所述根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本,包括:
从搜索行为日志中,提取用户使用的历史搜索关键词;
判断所述关键词对应的兴趣点检索结果中,互为连锁的兴趣点数据的数量是否满足预设的要求,如果是,则将该关键词确定为具有连锁搜索需求的搜索文本。
根据本发明的一种具体实施方式,所述根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本,包括:
从搜索行为日志中,提取用户使用的历史搜索关键词;
统计用户在使用所述关键词进行搜索后对各种检索结果的点击次数,如果对存在连锁关系的兴趣点数据的点击次数满足预设的要求,则将该关键词确定为具有连锁搜索需求的搜索文本。
本发明实施例还提供一种连锁类兴趣点数据识别装置,该装置包括:
数据获得单元,用于获得待识别的兴趣点数据集合;
切分单元,用于对集合中兴趣点的名称文本进行切分,得到该文本的前i个切分片段Ti,其中i=1,2,3…;
统计单元,用于根据切分片段的文本内容,在所述集合范围内统计每种Ti的文本出现次数C(Ti);
连锁关系识别单元,用于在统计结果中,搜索令C(Ti)-C(Ti+1)大于预设阈值的Ti,将C(Ti)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据。
根据本发明的一种具体实施方式,所述数据获得单元,具体用于:
根据连锁类兴趣点的名称特征模型,对待识别的兴趣点数据集合进行预先筛选。
根据本发明的一种具体实施方式,所述连锁关系识别单元,具体用于:
对于某个兴趣点的名称文本切分结果Ti(i=1,2,3…),
如果根据所述统计结果,存在多个i值使得C(Ti)-C(Ti+1)大于预设阈值,则将C(Timax)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据;
其中imax为所述多个i值中的最大值。
根据本发明的一种具体实施方式,所述切分单元,具体用于:
利用分词技术对集合中兴趣点的名称文本进行切分。
根据本发明的一种具体实施方式,所述装置还包括:
连锁搜索需求识别单元,用于根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本。
根据本发明的一种具体实施方式,所述连锁搜索需求识别单元,具体用于:
将互为连锁的兴趣点名称和/或连锁前缀所对应的文本确定为具有连锁搜索需求的搜索文本。
根据本发明的一种具体实施方式,所述连锁搜索需求识别单元,具体用于:
从搜索行为日志中,提取用户使用的历史搜索关键词;
判断所述关键词对应的兴趣点检索结果中,互为连锁的兴趣点数据的数量是否满足预设的要求,如果是,则将该关键词确定为具有连锁搜索需求的搜索文本。
根据本发明的一种具体实施方式,所述连锁搜索需求识别单元,具体用于:
从搜索行为日志中,提取用户使用的历史搜索关键词;
统计用户在使用所述关键词进行搜索后对各种检索结果的点击次数,如果对存在连锁关系的兴趣点数据的点击次数满足预设的要求,则将该关键词确定为具有连锁搜索需求的搜索文本。
应用本发明实施例提供的技术方案,根据互为连锁关系的POI“连锁前缀相同”的特点,可以从海量的POI数据中,自动识别出具有连锁关系的POI数据。基于该识别结果,可以进一步将具有连锁关系的POI数据分类整理,从而更好地满足用户对于连锁POI信息的各种需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例连锁类兴趣点数据识别方法的一种流程图;
图2为本发明实施例的第一种树形结构统计示意图;
图3为本发明实施例的第二种树形结构统计示意图;
图4为本发明实施例的第三种树形结构统计示意图;
图5为本发明实施例连锁类兴趣点数据识别装置的第一种结构示意图;
图6为本发明实施例连锁类兴趣点数据识别装置的第二种结构示意图。
具体实施方式
对于地理信息服务系统而言,如果能将具有连锁特性的POI数据分类整理,就可以进一步提供更多贴近用户实际需求的服务。例如:当用户搜索某个连锁前缀时,优先向用户展现距离用户最近的连锁分店;当用户搜索某个分店时,向用户推荐其他连锁分店;等等。
然而,对于一条标准的POI数据而言,仅有“名称”和“位置”两方面基本信息是必须的,很少有POI数据中直接携带连锁信息。而且,对于地理信息服务系统而言,其POI数据的来源往往也是多种多样的,例如地理信息服务商自己采集的数据、专业地图数据提供商采集的数据,甚至还包括个人用户自行上传的数据等等,这些数据所包含的信息量大小不同,数据格式也不同,加上“连锁”本身又并不是一个独立的概念,因此很难直接从各种来源的数据中统一整理出各个POI之间的连锁特性。
为解决上述问题,本发明实施例提供一种连锁类兴趣点数据识别方法,该方法可以包括以下步骤:
获得待识别的兴趣点数据集合;
对集合中兴趣点的名称文本进行切分,得到该文本的前i个切分片段Ti,其中i=1,2,3…;
根据切分片段的文本内容,在所述集合范围内统计每种Ti的文本出现次数C(Ti);
在统计结果中,搜索令C(Ti)-C(Ti+1)大于预设阈值的Ti,将C(Ti)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据。
上述技术方案,根据互为连锁关系的POI“连锁前缀相同”的特点,可以从海量的POI数据中,自动识别出具有连锁关系的POI数据。基于该识别结果,可以进一步将具有连锁关系的POI数据分类整理,从而更好地满足用户对于连锁POI信息的各种需求。
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
一般而言,具有连锁特性的POI名称都具有如下结构:
连锁前缀+分店名称
其中,对于一组具有连锁关系的POI而言,名称前半部分的连锁前缀内容应该是相同的,而后半部分的分店名称则各不相同,例如,
“家乐福广渠门店”
“家乐福马连道店”
“家乐福方庄店”
以上是三个具有连锁关系POI,其中“家乐福”是连锁前缀,“广渠门店”、“马连道店”和“方庄店”则是不同的分店名称。
可见,对于海量的POI数据,如果对于一组数据,能够找到“连锁前缀”与“分店名称”的分界线,则能在识别出连锁前缀的同时,识别出和该连锁前缀所对应的多个具有连锁关系的POI。根据上述分析结论,本发明实施例提供一种连锁类兴趣点数据识别方法,参见图1所示,该方法可以包括以下步骤:
S101,获得待识别的兴趣点数据集合;
本发明的目的是:从海量的POI数据中识别出具有连锁特性的POI数据,并且进一步识别出POI数据之间所存在的连锁关系。
在待识别的POI数据集合中,不同来源的的POI数据可能包含了不同的信息字段,但是,任何一条可用的POI数据都应包含“名称”和“位置”两方面的基本信息,在本发明所提供的方案中,利用POI数据的名称信息进行连锁特征的识别,因此本发明方案并不会收到POI数据来源的不同的影响。
在本发明的一种具体实施方式中,可以预先根据连锁类兴趣点的名称特征模型,对待识别的兴趣点数据集合进行筛选。这里所说连锁类兴趣点的名称特征模型,可以包括“xxx店”、“xxx分店”、“xxx分公司”、“xxx营业部”等等,当然,本发明实施例并不需要对模型的具体形式进行限定。
通过匹配特征模型文本,可以将将具有连锁特征的POI数据从海量数据中识别出来。由于在所有的POI数据中,具有连锁特性的POI数据毕竟只占少量一部分,通过上述预处理将明显不具有连锁特性的POI数据滤除,不仅可以提高后续识别步骤的准确性,还可以提高后续识别步骤的处理效率。
S102,对集合中兴趣点的名称文本进行切分,得到该文本的前i个切分片段Ti,其中i=1,2,3…;
根据本发明方案的基本思路,为了找到“连锁前缀”与“分店名称”的分界线,首先需要对POI的名称文本进行切分,这里所说的切分,既可以是利用各类分词技术进行切分,也可以是不依赖于分词技术、仅根据字符进行切分。
例如,对于“家乐福广渠门店”,如果利用分词技术,其切分结果为:
家乐福/广渠门/店,
该切分结果共包括3个切分单元,其中前i(i=1,2,3)个切分单元Ti
T1=家乐福
T2=家乐福广渠门
T3=家乐福广渠门店
同样对于“家乐福广渠门店”,如果不依赖切分技术,其切分结果为:
家/乐/福/广/渠/门/店,
该切分结果共包括7个切分单元,其中前i(i=1,2,3,4,5,6,7)个切分单元Ti分别为:
T1=家
T2=家乐
T3=家乐福
T4=家乐福广
T5=家乐福广渠
T6=家乐福广渠门
T7=家乐福广渠门店
上述两种切分方案,都可以应用于本发明。其中,直接根据字符进行切分的方案由于不依赖于分词技术,因此实现更为简单;使用分词技术的方案,由于直接将一些词识别为一个整体,因此可以提高后续识别步骤的准确率;本领域技术人员可以根据实际需求灵活选用,只需保证对于同一集合中的POI名称,采用统一的切分方案即可。
可以理解的是,对于不同的POI名称,其对应切分出的Ti是不同的,例如,在统一利用分词技术的情况下,对于“家乐福广渠门店”其对应的T2=家乐福广渠门,而对于“家乐福方庄店”,其对应的T2=家乐福方庄。
S103,根据切分片段的文本内容,在所述集合范围内统计每种Ti的文本出现次数C(Ti);
由于集合中每个POI的名称都是不同的,因此不同POI名称的切分结果也必然不完全相同。然而根据前面对Ti的定义方式可知:不同的POI名称之间,是有可能存在文本内容相同的Ti的,例如统一利用分词技术的情况下,对于“家乐福广渠门店”和“家乐福方庄店”,其对应的T1都是“家乐福”。也就是说,在一个POI数据集合中,根据各条POI数据的切分结果进行统计,某个具体的Ti文本可能出现多次,在本实施例中,将Ti的文本出现次数定义为C(Ti)。
为了直观地展示统计结果,在本发明的实施例中将各种切分片段以树形结构表示,基本规则如下:
1)每出现一种Ti文本内容,就形成一个节点,并且该节点对应的C(Ti)初始化为1,后续如果出现相同的Ti文本内容,则将该节点对应的C(Ti)值加1。
2)对于任意i,Ti+1为Ti的子节点,
根据以上规则可知,对于某一个确定的POI名称,相应的T1、T2、T3…会形成一个没有分支的树形结构;而在POI集合范围内,由于不同的POI的Ti文本内容可能相同,因此会出现分支,即一个Ti对应多个子节点Ti+1的情况。而且在该树形结构中,存在以下关系:对于任意节点,其C(Ti)值等于其各个子节点的C(Ti+1)值之和。
例如,对于“家乐福广渠门店”、“家乐福马连道店”、“家乐福方庄店”三个POI名称,统计结果可以参见图2所示,其中括号内的数字代表该节点的文本出现次数。
S104,在统计结果中,搜索令C(Ti)-C(Ti+1)大于预设阈值的Ti,将C(Ti)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据。
根据本发明的基本思路,需要找到“连锁前缀”与“分店名称”的分界线。通过研究发现,该分界线的一个重要特征是:在一个POI集合中,如果存在互为连锁的多个POI,则“连锁前缀”会出现多次,而“分店名称”的出现次数则很少。根据该特征,如果能够找到一条分界线,使得该分界线之前的文本出现次数明显多于该分界线之后的文本出现次数,则可将该分界线视为连锁前缀”与“分店名称”的分界线。
结合前面的统计结果,需要找到一个i,使得C(Ti)-C(Ti+1)能够大于某个预设的阈值,即:如果某个父节点Ti的出现次数明显大于其任意一个子节点Ti+1的出现次数,则可以将该Ti对应的多个POI数据(即可以切分出Ti的多个POI数据),识别为互相具有连锁关系的兴趣点数据,Ti即为这些兴趣点数据共同的连锁前缀,
如图2所示,可以看到树形结构在“家乐福”节点之后开始有了明显的多个分支,其中“家乐福”对应的C(Ti)=3,三个子节点对应的C(Ti+1)均为1,C(Ti)-C(Ti+1)的最小值为2,假设预设的阈值为1,则在该树形结构中,可以找出“家乐福”节点所对应的Ti满足上述条件,因此将该节点对应的“家乐福广渠门店”、“家乐福方庄店”和“家乐福马连路店”识别为互为连锁的兴趣点数据,“家乐福”为连锁前缀。
可以理解的是,上面的例子由于涉及数据量较少,因此预设阈值的设置也仅用于示意性说明,一般而言,为了令识别过程具有一定的容错性,可以将阈值设为3或4,当然本发明对此并不需要进行限定。
下面结合一个更具体的例子,对上述连锁兴趣点数据识别方法进行说明:
例如,对于以下POI数据,统一采用分词技术进行分词,统计结果如图3所示:
光明岛眼镜平安里西大街店 (光明 岛 眼镜 平安 里 西 大街 店)
光明岛眼镜平安里店 (光明 岛 平安 里 店)
光明岛眼镜万柳店 (光明 岛 万柳 店)
光明岛眼镜酒仙桥店 (光明 岛 眼镜 酒仙桥 店)
光明岛眼镜贵友分店 (光明 岛 眼镜 贵友 分店)
光明岛眼镜有限公司紫竹院店 (光明 岛 眼镜 有限 公司 紫竹院店)
……
假设预设阈值为3,可以看到树形结构在“光明岛眼镜”节点之后开始有了明显的多个分支,其中“光明岛眼镜”对应的C(Ti)=6,5个子节点对应的C(Ti+1)最大值为2,C(Ti)-C(Ti+1)的最小值为4,大于阈值3。因此将该节点对应的6个POI数据识别为互为连锁关系的POI数据,“光明岛眼镜”为连锁前缀。
值得注意的是,在“光明岛眼镜平安里”节点,也存在两个分支,但是由于其不满足C(Ti)-C(Ti+1)>3,因此在本例中不会将“光明岛眼镜平安里”识别为连锁前缀。
另外在实际应用中,可能出现的一种情况是:对于某个兴趣点的名称文本切分结果Ti(i=1,2,3…),通过统计,可能在树形结构的不同深度上存在多个节点使得C(Ti)-C(Ti+1)大于预设阈值,这种情况下,可以将C(Timax)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据,其中imax为上述多个i值中的最大值。也就是说,如果在树形结构上存在多处明显的分支,则以深度较大的分支为准进行识别。
例如,对于节点“光明”,除了子节点“光明岛”之外,可能还存在其他子节点如“光明超市”、“光明餐厅”等等,一般而言,如果仅出现少量的零散分支并不会影响识别结果,但是如果如果出现分支过多,或者虽然出现的分支很少,但是分支子节点本身对应的C(Ti+1)很大,这种情况下,可能会导致识别错误。
参见图4所示,假设根据统计结果,在节点“光明”出现了两个分支:“光明岛”和“光明超市”,并且两个子节点都可以令“光明”节点满足C(Ti)-C(Ti+1),但是如果将“光明岛xxx”和“光明超市xxx”识别为互为连锁的POI数据、“光明”识别为连锁前缀,这与实际情况是不相符的。针对于这种情况,根据本发明的一种改进实施方式,应该将C(Timax)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据。也就是说,尽管在“光明”和“光明岛眼镜”都出现了明细的分支情况,但是在树形结构中,“光明岛眼镜”比“光明”的深度更大,因此优先将“光明岛眼镜”识别为连锁前缀。
可以理解的是,如果图4中的另一分支“光明超市”也对应着一组连锁POI数据,则根据上述规则,同样能够将这些连锁POI数据识别出来。
通过上述步骤,不仅可以将具有连锁特征的POI数据识别出来,而且可以识别出POI数据之间的连锁关系。进一步地,利用上述识别结果,可以对用户的连锁搜索需求进行识别。
根据本发明的一种具体实施方案,可以将互为连锁的兴趣点名称和/或连锁前缀所对应的文本确定为具有连锁搜索需求的搜索文本。
例如,根据连锁关系识别结果,可以将“家乐福广渠门店”、“家乐福马连道店”、“家乐福方庄店”构成一个集合,当然也可以进一步将连锁前缀“家乐福”也加入这个集合。后续当用户使用集合中的元素作为关键词进行搜索时,就可以将该搜索识别被具有连锁需求的搜索,从而进一步为用户提供基于“连锁”的特定服务。
例如:用户使用“家乐福”作为关键词进行搜索时,系统能够识别出这是一个具有连锁需求的搜索请求,因此可以在生成结果时,优先将所有的连锁分店展示给用户,而对于“家乐福超市内xx商户”“家乐福超市对面”,虽然文本匹配但不存在实际连锁关系的结果,降低其排序权重。此外,在同一组连锁POI集合中,还可以结合用户的定位信息,优先向用户展现距离用户最近的连锁分店,或者向用户推荐其他连锁分店等等。当然,本发明对于具体的“连锁”相关服务提供形式并不需要进行限制。
根据本发明的另一种具体实施方案,还可以根据用户的历史搜索行为,进一步挖掘出其他具有连锁搜索需求的搜索文本,这些搜索文本本身可能并不是标准的POI名称或连锁前缀,但是从用户习惯的角度来看,很多文本同样具有收集的意义。例如,通过统计发现,用户在搜索时“光明岛眼镜”时,可能更多地使用“光明岛”,尽管“光明岛”既不是连锁前缀也不是完整的POI名称,但是仍然可以将“光明岛”文本也增添至“光明岛眼镜”的连锁关系集合中,后续如果其他用户输入“光明岛”,则系统会自动将该搜索识别为一个针对“光明岛眼镜”具有连锁需求的搜索。
本发明实施例提供一种连锁搜索需求文本的挖掘方式如下:
从搜索行为日志中,提取用户使用的历史搜索关键词;判断所述关键词对应的兴趣点检索结果中,互为连锁的兴趣点数据的数量是否满足预设的要求,如果是,则将该关键词确定为具有连锁搜索需求的搜索文本。
可以理解的是,上述“预设要求”可以是绝对数量的要求,也可以是相对数量的要求,主要目的是利用搜索结果来表明“该query与足够数量的POI关联度都够高,并且这些POI本身互为连锁”。
例如,通过对用户使用过的历史query进行线下检索,统计召回结果的前10个POI中,是否存在6个以上的互为连锁的POI(如果不足10个则以60%计算),如果是,则认为该query属于具有连锁搜索需求。
进一步举例说明:通过对用户使用过的历史关键词“国泰君安证券”进行线下检索,统计召回结果的前10个POI中,存在6个以上互为连锁的POI,则认为“国泰君安证券”属于具有连锁搜索需求的搜索文本。
类似地,还可以从搜索行为日志中挖掘出“国泰君安营业部”、“国泰君安证券公司”、“国泰君安证券营业部”等文本,这些文本都不是连锁前缀或标准的POI名称,但是这些文本是用户实际习惯使用的关键词,因此更具有实用价值,因此可以将这些文本也增添至“国泰君安”的连锁关系集合中,后续如果其他用户输入这些文本,则系统会自动将该搜索识别为一个针对“国泰君安”具有连锁需求的搜索。
本发明实施例提供一种连锁搜索需求文本的挖掘方式如下:
从搜索行为日志中,提取用户使用的历史搜索关键词;
统计用户在使用所述关键词进行搜索后对各种检索结果的点击次数,如果对存在连锁关系的兴趣点数据的点击次数满足预设的要求,则将该关键词确定为具有连锁搜索需求的搜索文本。
可以理解的是,这里的“预设要求”同样可以是绝对数量的要求或相对数量的要求,主要目的是找到用户使用该query时的选择倾向。
例如,统计某个用户在使用某个query进行检索后,是否点击了连锁类POI:
a)如果单一用户使用某个query进行检索之后,随及又点击了两个以上的互为连锁的POI
b)如果多个用户使用某个query进行检索之后,都有点击连锁类poi的行为,这样的情况在日志中出现过3次以上。
满足以上两个条件之一,都可以认为该query属于具有连锁搜索需求。
进一步举例说明如下:
用户在搜索“苏荷”时,会召回以下结果:
苏荷酒吧西餐厅(嘉宾路店)
苏荷酒吧嘉宾路店
苏荷酒吧宝安店
苏荷酒吧深圳店
尚品苏荷
苏荷形象设计
苏荷文化投资发展公司
其中“苏荷酒吧”是连锁店。单从文本相关性上来分辨,很难判断出用户的实际需求是什么。但是通过用户行为日志发现,用户在搜索“苏荷”后,出现了多次点击“苏荷酒吧宝安店”、“苏荷酒吧深圳店”等连锁POI的行为,而很少出现点击其它POI的行为,因此可以认定,用户在搜索“苏荷”时,主需求是“苏荷酒吧”连锁店,因此可以将“苏荷”增添至“苏荷酒吧”的连锁关系集合中。后续如果其他用户输入“苏荷”,则系统会自动将该搜索识别为一个针对“苏荷酒吧”具有连锁需求的搜索。
相应于上面的方法实施例,本发明还提供一种连锁类兴趣点数据识别装置,参见图5所示,该装置可以包括:
数据获得单元110,用于获得待识别的兴趣点数据集合;
本发明的目的是:从海量的POI数据中识别出具有连锁特性的POI数据,并且进一步识别出POI数据之间所存在的连锁关系。
在待识别的POI数据集合中,不同来源的的POI数据可能包含了不同的信息字段,但是,任何一条可用的POI数据都应包含“名称”和“位置”两方面的基本信息,在本发明所提供的方案中,利用POI数据的名称信息进行连锁特征的识别,因此本发明方案并不会收到POI数据来源的不同的影响。
在本发明的一种具体实施方式中,可以预先根据连锁类兴趣点的名称特征模型,对待识别的兴趣点数据集合进行筛选。这里所说连锁类兴趣点的名称特征模型,可以包括“xxx店”、“xxx分店”、“xxx分公司”、“xxx营业部”等等,当然,本发明实施例并不需要对模型的具体形式进行限定。
通过匹配特征模型文本,可以将将具有连锁特征的POI数据从海量数据中识别出来。由于在所有的POI数据中,具有连锁特性的POI数据毕竟只占少量一部分,通过上述预处理将明显不具有连锁特性的POI数据滤除,不仅可以提高后续识别步骤的准确性,还可以提高后续识别步骤的处理效率。
切分单元120,用于对集合中兴趣点的名称文本进行切分,得到该文本的前i个切分片段Ti,其中i=1,2,3…;
根据本发明方案的基本思路,为了找到“连锁前缀”与“分店名称”的分界线,首先需要对POI的名称文本进行切分,这里所说的切分,既可以是利用各类分词技术进行切分,也可以是不依赖于分词技术、仅根据字符进行切分。
上述两种切分方案,都可以应用于本发明。其中,直接根据字符进行切分的方案由于不依赖于分词技术,因此实现更为简单;使用分词技术的方案,由于直接将一些词识别为一个整体,因此可以提高后续识别步骤的准确率;本领域技术人员可以根据实际需求灵活选用,只需保证对于同一集合中的POI名称,采用统一的切分方案即可。
统计单元130,用于根据切分片段的文本内容,在所述集合范围内统计每种Ti的文本出现次数C(Ti);
由于集合中每个POI的名称都是不同的,因此不同POI名称的切分结果也必然不完全相同。然而根据前面对Ti的定义方式可知:不同的POI名称之间,是有可能存在文本内容相同的Ti的,也就是说,在一个POI数据集合中,根据各条POI数据的切分结果进行统计,某个具体的Ti文本可能出现多次,在本实施例中,将Ti的文本出现次数定义为C(Ti)。
为了直观地展示统计结果,在本发明的实施例中将各种切分片段以树形结构表示,基本规则如下:
1)每出现一种Ti文本内容,就形成一个节点,并且该节点对应的C(Ti)初始化为1,后续如果出现相同的Ti文本内容,则将该节点对应的C(Ti)值加1。
2)对于任意i,Ti+1为Ti的子节点,
根据以上规则可知,对于某一个确定的POI名称,相应的T1、T2、T3…会形成一个没有分支的树形结构;而在POI集合范围内,由于不同的POI的Ti文本内容可能相同,因此会出现分支,即一个Ti对应多个子节点Ti+1的情况。而且在该树形结构中,存在以下关系:对于任意节点,其C(Ti)值等于其子节点的C(Ti+1)值之和。
连锁关系识别单元140,用于在统计结果中,搜索令C(Ti)-C(Ti+1)大于预设阈值的Ti,将C(Ti)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据、将Ti确定为连锁前缀。
根据本发明的基本思路,需要找到“连锁前缀”与“分店名称”的分界线。通过研究发现,该分界线的一个重要特征是:在一个POI集合中,如果存在互为连锁的多个POI,则“连锁前缀”会出现多次,而“分店名称”的出现次数则很少。根据该特征,如果能够找到一条分界线,使得该分界线之前的文本出现次数明显多于该分界线之后的文本出现次数,则可将该分界线视为连锁前缀”与“分店名称”的分界线。
结合前面的统计结果,需要找到一个i,使得C(Ti)-C(Ti+1)能够大于某个预设的阈值,即:如果某个父节点Ti的出现次数明显大于其任意一个子节点Ti+1的出现次数,则可以将该Ti对应的多个POI数据(即可以切分出Ti的多个POI数据),识别为互相具有连锁关系的兴趣点数据,Ti即为这些兴趣点数据共同的连锁前缀,
参见图6所示,根据本发明的一种具体实施方式,所述连锁类兴趣点数据识别装置还可以包括:
连锁搜索需求识别单元150,用于根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本。
根据本发明的一种具体实施方式,所述连锁搜索需求识别单元150可以具体用于:
将互为连锁的兴趣点名称和/或连锁前缀所对应的文本确定为具有连锁搜索需求的搜索文本。
根据本发明的一种具体实施方式,所述连锁搜索需求识别单元150还可以具体用于:
从搜索行为日志中,提取用户使用的历史搜索关键词;
判断所述关键词对应的兴趣点检索结果中,互为连锁的兴趣点数据的数量是否满足预设的要求,如果是,则将该关键词确定为具有连锁搜索需求的搜索文本。
根据本发明的一种具体实施方式,所述连锁搜索需求识别单元150还可以具体用于:
从搜索行为日志中,提取用户使用的历史搜索关键词;
统计用户在使用所述关键词进行搜索后对各种检索结果的点击次数,如果对存在连锁关系的兴趣点数据的点击次数满足预设的要求,则将该关键词确定为具有连锁搜索需求的搜索文本。
应用本发明实施例提供的连锁类兴趣点数据识别装置,根据互为连锁关系的POI“连锁前缀相同”的特点,可以从海量的POI数据中,自动识别出具有连锁关系的POI数据。基于该识别结果,可以进一步将具有连锁关系的POI数据分类整理,从而更好地满足用户对于连锁POI信息的各种需求。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (16)

1.一种连锁类兴趣点数据识别方法,其特征在于,该方法包括:
获得待识别的兴趣点数据集合;
对集合中兴趣点的名称文本进行切分,得到该文本的前i个切分片段Ti,Ti由该文本切分得到的前i个切分单元按顺序连接组成,其中i=1,2,3…,N,N为该文本切分得到的切分单元数目;
根据切分片段的文本内容,在所述集合范围内统计每种Ti的文本出现次数C(Ti);
在统计结果中,搜索令C(Ti)-C(Ti+1)大于预设阈值的Ti,将C(Ti)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据。
2.根据权利要求1所述的方法,其特征在于,所述获得待识别的兴趣点数据集合,包括:
根据连锁类兴趣点的名称特征模型,对待识别的兴趣点数据集合进行预先筛选。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对于某个兴趣点的名称文本切分结果Ti,其中i=1,2,3…,N;
如果根据所述统计结果,存在多个i值使得C(Ti)-C(Ti+1)大于预设阈值,则将C(Timax)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据;
其中imax为所述多个i值中的最大值。
4.根据权利要求1所述的方法,其特征在于,所述对集合中兴趣点的名称文本进行切分,包括:
利用分词技术对集合中兴趣点的名称文本进行切分。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本。
6.根据权利要求5所述的方法,其特征在于,所述根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本,包括:
将互为连锁的兴趣点名称和/或连锁前缀所对应的文本确定为具有连锁搜索需求的搜索文本。
7.根据权利要求5所述的方法,其特征在于,所述根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本,包括:
从搜索行为日志中,提取用户使用的历史搜索关键词;
判断所述关键词对应的兴趣点检索结果中,互为连锁的兴趣点数据的数量是否满足预设的要求,如果是,则将该关键词确定为具有连锁搜索需求的搜索文本。
8.根据权利要求5所述的方法,其特征在于,所述根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本,包括:
从搜索行为日志中,提取用户使用的历史搜索关键词;
统计用户在使用所述关键词进行搜索后对各种检索结果的点击次数,如果对存在连锁关系的兴趣点数据的点击次数满足预设的要求,则将该关键词确定为具有连锁搜索需求的搜索文本。
9.一种连锁类兴趣点数据识别装置,其特征在于,该装置包括:
数据获得单元,用于获得待识别的兴趣点数据集合;
切分单元,用于对集合中兴趣点的名称文本进行切分,得到该文本的前i个切分片段Ti,Ti由该文本切分得到的前i个切分单元按顺序连接组成,其中i=1,2,3…,N,N为该文本切分得到的切分单元数目;
统计单元,用于根据切分片段的文本内容,在所述集合范围内统计每种Ti的文本出现次数C(Ti);
连锁关系识别单元,用于在统计结果中,搜索令C(Ti)-C(Ti+1)大于预设阈值的Ti,将C(Ti)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据。
10.根据权利要求9所述的装置,其特征在于,所述数据获得单元,具体用于:
根据连锁类兴趣点的名称特征模型,对待识别的兴趣点数据集合进行预先筛选。
11.根据权利要求9所述的装置,其特征在于,所述连锁关系识别单元,具体用于:
对于某个兴趣点的名称文本切分结果Ti,其中i=1,2,3…,N;
如果根据所述统计结果,存在多个i值使得C(Ti)-C(Ti+1)大于预设阈值,则将C(Timax)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据;
其中imax为所述多个i值中的最大值。
12.根据权利要求9所述的装置,其特征在于,所述切分单元,具体用于:
利用分词技术对集合中兴趣点的名称文本进行切分。
13.根据权利要求9所述的装置,其特征在于,所述装置还包括:
连锁搜索需求识别单元,用于根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本。
14.根据权利要求13所述的装置,其特征在于,所述连锁搜索需求识别单元,具体用于:
将互为连锁的兴趣点名称和/或连锁前缀所对应的文本确定为具有连锁搜索需求的搜索文本。
15.根据权利要求13所述的装置,其特征在于,所述连锁搜索需求识别单元,具体用于:
从搜索行为日志中,提取用户使用的历史搜索关键词;
判断所述关键词对应的兴趣点检索结果中,互为连锁的兴趣点数据的数量是否满足预设的要求,如果是,则将该关键词确定为具有连锁搜索需求的搜索文本。
16.根据权利要求13所述的装置,其特征在于,所述连锁搜索需求识别单元,具体用于:
从搜索行为日志中,提取用户使用的历史搜索关键词;
统计用户在使用所述关键词进行搜索后对各种检索结果的点击次数,如果对存在连锁关系的兴趣点数据的点击次数满足预设的要求,则将该关键词确定为具有连锁搜索需求的搜索文本。
CN201310305977.XA 2013-07-19 2013-07-19 一种连锁类兴趣点数据识别方法及装置 Active CN103390044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310305977.XA CN103390044B (zh) 2013-07-19 2013-07-19 一种连锁类兴趣点数据识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310305977.XA CN103390044B (zh) 2013-07-19 2013-07-19 一种连锁类兴趣点数据识别方法及装置

Publications (2)

Publication Number Publication Date
CN103390044A CN103390044A (zh) 2013-11-13
CN103390044B true CN103390044B (zh) 2017-02-08

Family

ID=49534316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310305977.XA Active CN103390044B (zh) 2013-07-19 2013-07-19 一种连锁类兴趣点数据识别方法及装置

Country Status (1)

Country Link
CN (1) CN103390044B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133918B (zh) * 2014-08-15 2019-07-02 百度在线网络技术(北京)有限公司 一种兴趣点信息的获取方法及装置、推送方法及装置
CN105095390B (zh) * 2015-06-30 2019-02-22 北京奇虎科技有限公司 基于poi数据的连锁品牌采集方法及装置
CN106919601B (zh) * 2015-12-25 2021-01-12 北京奇虎科技有限公司 从查询词中提取兴趣点的方法和装置
CN107562747B (zh) * 2016-06-30 2021-04-09 上海博泰悦臻网络技术服务有限公司 信息显示方法及系统、电子设备、及数据库
CN107885751A (zh) * 2016-09-30 2018-04-06 法乐第(北京)网络科技有限公司 服务点推送方法及装置
CN108363698B (zh) * 2018-03-13 2021-05-14 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN109492066B (zh) * 2018-10-30 2021-03-02 百度在线网络技术(北京)有限公司 一种兴趣点分支名称的确定方法、装置、设备及存储介质
CN110781283B (zh) * 2019-09-16 2023-12-08 腾讯大地通途(北京)科技有限公司 连锁品牌词库生成方法、装置以及电子设备
KR102412057B1 (ko) * 2021-06-07 2022-06-23 쿠팡 주식회사 스토어 정보 제공을 위한 전자 장치의 동작 방법 및 이를 지원하는 전자 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN102567397A (zh) * 2010-12-30 2012-07-11 高德软件有限公司 兴趣点、连锁店分店兴趣点关联标记的方法与装置
EP2602724A1 (en) * 2010-08-06 2013-06-12 Intellectual Business Machines Corporation Method of character string generation, program and system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4782490B2 (ja) * 2005-06-29 2011-09-28 富士通株式会社 データ集合分割プログラム、データ集合分割装置、およびデータ集合分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
EP2602724A1 (en) * 2010-08-06 2013-06-12 Intellectual Business Machines Corporation Method of character string generation, program and system
CN102567397A (zh) * 2010-12-30 2012-07-11 高德软件有限公司 兴趣点、连锁店分店兴趣点关联标记的方法与装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Distributed arbitrary segment trees: providing efficient range query support over public DHT services;Xinuo Chen等;《IEEE》;20070907;全文 *
一种改进的基于后缀树模型搜索结果聚类算法;刘德山;《计算机科学》;20111130;第38卷(第11期);全文 *
导航终端中的兴趣点数据压缩检索技术;刘鹏等;《计算机工程》;20090731;第35卷(第14期);全文 *

Also Published As

Publication number Publication date
CN103390044A (zh) 2013-11-13

Similar Documents

Publication Publication Date Title
CN103390044B (zh) 一种连锁类兴趣点数据识别方法及装置
CN103399883B (zh) 根据用户兴趣点/关注点进行个性化推荐的方法和系统
US10235421B2 (en) Systems and methods for facilitating the gathering of open source intelligence
US8620849B2 (en) Systems and methods for facilitating open source intelligence gathering
CN111191122A (zh) 一种基于用户画像的学习资源推荐系统
US8645385B2 (en) System and method for automating categorization and aggregation of content from network sites
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
US7814089B1 (en) System and method for presenting categorized content on a site using programmatic and manual selection of content items
CN1934569B (zh) 集成有用户注释的搜索系统和方法
WO2018072071A1 (zh) 知识图谱构建系统及方法
CN104537070B (zh) 挖掘旅游目的地景点的方法和设备
CN106055617A (zh) 一种数据推送方法及装置
CN107077486A (zh) 情感评价系统和方法
US20020143797A1 (en) File classification management system and method used in operating systems
KR20070007031A (ko) 트렌드 분석을 이용한 검색 쿼리 처리 시스템 및 방법
JP2003524259A (ja) 情報の空間符号化及び表示
CN103455538B (zh) 信息处理装置、信息处理方法和程序
CN110019616A (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
US20120311140A1 (en) Method of processing web access information and server implementing same
Kuppevelt et al. Answering legal research questions about dutch case law with network analysis and visualization
CN103399855B (zh) 基于多数据源的行为意图确定方法及装置
CN111191133B (zh) 业务搜索处理方法、装置及设备
CN106156275A (zh) 一种拆单查询的方法和装置
CN104142952B (zh) 报表展示方法和装置
CN113407678B (zh) 知识图谱构建方法、装置和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant