CN103226618B - 基于数据集市挖掘的相关词提取方法及系统 - Google Patents

基于数据集市挖掘的相关词提取方法及系统 Download PDF

Info

Publication number
CN103226618B
CN103226618B CN201310189803.1A CN201310189803A CN103226618B CN 103226618 B CN103226618 B CN 103226618B CN 201310189803 A CN201310189803 A CN 201310189803A CN 103226618 B CN103226618 B CN 103226618B
Authority
CN
China
Prior art keywords
related term
keyword
product
search
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310189803.1A
Other languages
English (en)
Other versions
CN103226618A (zh
Inventor
徐丽萍
王婷
何昌桃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201310189803.1A priority Critical patent/CN103226618B/zh
Publication of CN103226618A publication Critical patent/CN103226618A/zh
Application granted granted Critical
Publication of CN103226618B publication Critical patent/CN103226618B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于数据集市挖掘的相关词提取方法,包括从数据源筛选出符合要求的数据并存入数据集市;基于产品词库、搜索词库和中间数据库,获得产品关键词及产品相关词序列和使用次数、搜索关键词及包含相关词序列和相似程度值、搜索关键词及行为相关词序列和相关搜索次数,并分别存入产品相关词库、包含相关词库及行为相关词库;对产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列进行权重设置,获取相应的相关性提取得分并存入相关词库;获取关键词及相关词的行业并进行行业相关计算,获得提取综合得分并保存到综合相关词库。本发明从多个角度完善相关词的提取,使提取结果更准确反映用户隐性需求。

Description

基于数据集市挖掘的相关词提取方法及系统
技术领域
本发明涉及一种基于数据集市挖掘的相关词提取方法及系统。
背景技术
电子商务发展至今,已经积累了海量的信息,以及大量用户,包括访问者、交易者、信息提供者等。各类用户根据需要,围绕着电子商务平台来进行获取服务和提供服务。
信息提供者在电子商务平台上提供各类产品信息时,不仅会给产品赋予一个合适、贴切的产品名称,而且会给产品属性赋予多个相关联的关键词,有利于产品更准确、多角度展现。
由此可见,关键词的选择是至关重要的,它不仅能使访问者快速、准确找到自己需要的信息,而且能给产品信息提供者带来更多的客户访问和流量,为他们的产品获得更多的展现机会。
用户在电子商务平台上搜索信息,越来越依靠基于关键词的搜索工具去搜索。通常,用户将需要查找信息的关键词输入搜索工具,搜索工具在已有索引数据库中进行搜索并返回搜索结果。
搜索工具在返回搜索结果的同时,一般能够提供与输入关键词相关的一个或多个相关词,这些相关词与输入关键词都存在有不同程度的相关匹配。如某搜索用户在搜索框中键入shoe,他还会点击、比较、关注呈现出来的一系列跟shoe有关的相关词从而访问对应的信息,或者在此过程中他感觉键入cloth、hose等关键词也能获得需要的信息,从而进行相应的搜索、访问等系列行为。这就说明在其他相关产品的信息中包含与输入的关键词有相关关系的关键词,从而在两者之间产生了相关的匹配关系。
因此,产品信息提供者为其产品设置关键词以及一批优质的相关词,对产品特性的准确、全面反映有很大帮助。而访问者在进行搜索时,能够获得一批与输入关键词具有相关关系的词,对访问者快速方便、准确地获取所需要的信息也具有重要的意义。
目前已经存在一些方法,主要针对关键词,从网站日志的访问/搜索信息中,通过不断优化算法,最后获取匹配的相关词。但这些方法涉及的数据面相对较窄,来源单一,而且很大程度上会受到用户长期习惯的局限,而错失一些相关程度高的相关词。
在申请号为200680047190.6的专利中,提出利用种子关键词来提供扩展关键词,使用反向查找技术来确定哪些关键词与广告客户相关联,采用过滤法来去除对广告客户不适当的关键词。但此专利提出的方法主要是根据用户搜索行为将优质匹配的相关词抢先销售给供销商,这种方法数据来源单一,易失去一些相关程度高的关键词。
在授权公告号为CN101276361B的专利中,提出接收用户输入的主关键词,触发本地程序或者搜索页面的脚本程序发出提取对应所述主关键词的相关关键词的请求;针对所述主关键词记录所属请求的次数,从对应所述主关键词的相关关键词分组表中获取候选相关关键词分组表。此专利提出了一种方法能够显示与输入关键词有相关关系的相关词,这种方法是基于已经具备了一个相关词库,但是对于这个词库是如何建成的,在上述专利中没有提及。
从上述情况看,还没有一种方法能够提供令人满意的相关词。而准确的、全面的相关词对于信息的提供者和访问者来说是至关重要,因此找到一种准确的、全面的提取相关词的方法是很有必要的。
发明内容
针对现有的关键词优化及其应用存在的不足之处,本发明提供一种基于数据集市挖掘的相关词提取方法及系统。本发明结合电子商务平台中访问者的行为以及产品信息关键词的设置,通过对数据集市中关键词库、相关词库的补充和完善,利用关键词搜索信息、关键词行业信息,从多角度统计挖掘出优质的关键词及相关词序列,提高访问质量。
本发明提供一种基于数据集市挖掘的相关词提取方法,包括以下步骤:
(1)根据预置规则筛选数据源,将筛选出的数据存入数据集市,所述数据集市包括搜索词库、产品词库、中间数据库、产品相关词库、包含相关词库、行为相关词库、相关词库以及综合相关词库;
(2)基于所述产品词库和所述中间数据库中的产品信息,对同一产品信息的关键词进行两两配对,获得产品关键词及产品相关词序列,对所述产品关键词及产品相关词序列的使用次数进行统计,将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库;
(3)基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有包含关系的搜索关键词及包含相关词序列,根据一定规则对所述搜索关键词及包含相关词序列进行相似程度计算以获取相似程度值,将所述搜索关键词及包含相关词序列、所述相似程度值保存到所述包含相关词库;其中,包含关系是指在一对所述搜索关键词及包含相关词序列中,其中一个词完全被另一个词包含;
(4)基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有行为相关关系的搜索关键词及行为相关词序列,对所述搜索关键词及行为相关词序列的相关搜索次数进行统计,将所述搜索关键词及行为相关词序列、所述相关搜索次数保存到所述行为相关词库;其中,行为相关关系是指搜索关键词被搜索后,在一定时间内,行为相关词被同一个IP地址的客户端进行了搜索;
(5)根据所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列在产品相关词库、包含相关词库、行为相关词库中的存在关系,对所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列进行权重设置;
(6)根据预置规则,结合所述产品关键词及产品相关词序列的使用次数、所述搜索关键词及包含相关词序列的相似程度值、所述搜索关键词及行为相关词序列的相关搜索次数,计算所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列各自的相关性提取得分,并将所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列,以及各自的相关性提取得分保存到相关词库中;
(7)根据预置规则,在相关词库中(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型),获取关键词及相关词序列中关键词及相关词所属的行业并进行行业相关计算,对关键词及相关词序列中相关词搜索量进行频度比率计算,得出所述关键词及相关词序列的提取综合得分,并保存到所述综合相关词库。
进一步地,所述步骤(1)具体为:对所述数据源进行ETL处理,将数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库中;对所述数据仓库中的产品信息、搜索信息进行过滤,并保存至所述数据集市,形成搜索词库、产品词库、中间数据库;其中,所述搜索词库存储的关键词的搜索量大于1且长度大于等于3,产品词库存储的关键词的使用次数大于等于10。
进一步地,所述步骤(2)还包括:在对同一产品信息的关键词进行两两配对以获得产品关键词及产品相关词序列之前,将产品词库中没有的关键词从中间数据库删除;优先根据所述使用次数进行排序,根据排序结果将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库。
进一步地,所述步骤(2)进一步包括:定期对所述产品相关词库进行更新;对于新增加的产品,形成产品关键词及产品相关词序列,并将该产品关键词及产品相关词序列与产品相关词库中已有的产品关键词及产品相关词序列进行比较,如果产品相关词库中已存在该产品关键词及产品相关词序列,则将其使用次数加1,如果不存在该产品关键词及产品相关词序列,则将其添加入产品相关词库,并将其使用次数置为1;对于更改产品信息的产品,形成产品关键词及产品相关词序列,如果产品相关词库中已存在该产品关键词及产品相关词序列,则将其忽略不计,如果不存在该产品关键词及产品相关词序列,则将其添加入产品相关词库,并将其使用次数置为1。
进一步地,所述步骤(3)具体为:
从搜索词库中,依次选择关键词,与所述搜索词库中的其他关键词进行比对,找到与其有包含关系的关键词,形成搜索关键词及包含相关词序列;
依次进行,直到把搜索词库中所有关键词之间都进行了比对,把具有包含关系的所有搜索关键词及包含相关词序列保存至所述中间数据库;
对中间数据库中的搜索关键词及包含相关词序列进行统计过滤,去掉重复的搜索关键词及包含相关词序列;
对于每对所述搜索关键词及包含相关词序列,计算其中被包含词的字或字母的个数,以及其中包含词的字或字母的个数,计算出该搜索关键词及包含相关词序列的相似程度值α,其中:β1为被包含词的字或字母的个数,β2为包含词的字或字母的个数;
把每对所述搜索关键词及包含相关词序列,及其相似程度值,保存至所述包含相关词库。
进一步地所述步骤(3)进一步包括:定期对所述包含相关词库进行更新;从一定时间周期内的搜索信息中提取搜索关键词,与搜索词库中已有的搜索关键词进行比较,找出搜索词库中没有的关键词,将新的关键词与搜索词库中已有的关键词进行两两配对,分离出的具有包含关系的搜索关键词及包含相关词序列,对该搜索关键词及包含相关词序列进行相似程度计算,把该搜索关键词及包含相关词序列、以及其相似程度值保存到所述包含相关词库中。
进一步地,所述步骤(4)具体为:
将搜索词库中没有的关键词从中间数据库删除,并剔除同一客户端一定时间周期内搜索量大于30或等于1的搜索关键词;
依次选择中间数据库中的搜索关键词,查找在搜索该搜索关键词后,一定时间周期内同一客户端搜索的其他搜索关键词,作为与该搜索关键词具有行为相关关系的相关词,形成搜索关键词及行为相关词序列;
依次进行,直至中间数据库中每个搜索关键词都进行了其行为相关词的查找,把生成的所有搜索关键词及行为相关词序列保存在中间数据库;
对中间数据库中所有的搜索关键词及行为相关词序列进行统计,计算每对搜索关键词及行为相关词序列的相关搜索次数;
按相关搜索次数排序,将每对搜索关键词及行为相关词序列,及其相关搜索次数,保存在行为相关词库中。
进一步地,所述步骤(4)进一步包括:定期对所述行为相关词库进行更新;从一定时间周期内的搜索信息中提取搜索关键词,从中分离出的具有行为相关关系的搜索关键词及行为相关词序列,并把该搜索关键词及行为相关词序列与行为相关词库中的所有搜索关键词及行为相关词序列进行比较,如果行为相关词库存在该搜索关键词及行为相关词序列,则将该搜索关键词及行为相关词序列的相关搜索次数加1,如果不存在该搜索关键词及行为相关词序列,则将其加入所述行为相关词库,并将其相关搜索次数置为1。
进一步地,所述步骤(5)中的权重的设置具体为:包含相关词库中的搜索关键词及包含相关词序列的权重为γ1,1<γ1<3;行为相关词库中的搜索关键词及行为相关词序列的权重为γ2,0.8<γ2<1.5;产品相关词库中的产品关键词及产品相关词序列的权重为,0.5<γ3<1;那么,权重设置基本规则为:
在权重设置基本规则基础之上,引入一定时间周期内的相关搜索行为,按照附加规则进行权重调整,附加规则如下:
进一步地,所述步骤(6)中获取所述相关性提取得分的方法为:
搜索关键词及行为相关词序列在最近1个月内的相关搜索次数的排序函数为n1(Wi),产品关键词及产品相关词序列在最近3个月内的使用次数的排序函数为n2(Wi),搜索关键词及包含相关词序列在最近6个月内相似程度的排序函数为n3(Wi),其中,n1(Wi),n2(Wi),n3(Wi)为单列矩阵函数,产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列的权重的小数位的有效长度为mi(Wi),其中i=1,2,…10;
权重为W2,W9的搜索关键词及行为相关词序列的相关性提取得分为
y i = W i + n 1 10 f ( n 1 ) + m i . i=2,9,其中,f(n1)=length(max(n1)),指搜索次数n1(Wi)中最大值的位数长度;
权重为W3的产品关键词及产品相关词序列的相关性提取得分:
y i = W i + n 2 10 f ( n 2 ) + m i . i=3,其中,f(n2)=length(max(n2)),指使用次数n2(Wi)中最大值的位数长度;
权重为W1,W8的搜索关键词及包含相关词序列的相关性提取得分为
y i = W i + n 3 10 f ( n 3 ) + m i . i=1,8,其中,f(n3)=length(max(n3)),指相似程度n3(Wi)中最大值的升序排序值的位数长度;
权重为W4,W10的搜索关键词及包含相关词序列或搜索关键词及行为相关词序列的相关性提取得分为
y i = W i + n 1 10 f ( n 1 ) + m i + n 3 10 f ( n 3 ) + e i . i=4,10,其中,ei(Wi)为小数位的有效长度;
权重为W5的搜索关键词及包含相关词序列或产品关键词及产品相关词序列的相关性提取得分为
y i = W i + n 2 10 f ( n 2 ) + m i + n 3 10 f ( n 3 ) + e i . i=5,其中,ei(Wi)为小数位的有效长度;
权重为W7的搜索关键词及包含相关词序列、搜索关键词及行为相关词序列或产品关键词及产品相关词序列的相关性提取得分为
y i = W i + n 1 10 f ( n 1 ) + m i + n 2 10 f ( n 2 ) + e i + n 3 10 f ( n 3 ) + h i i=7,其中,ei(Wi,)为小数位的有效长度,hi(Wi)为小数位的有效长度;
权重为W6的搜索关键词及行为相关词序列或产品关键词及产品相关词序列的相关性提取得分为
y i = W i + n 1 10 f ( n 1 ) + m i + n 2 10 f ( n 2 ) + e i . i=6,其中,ei(Wi)为小数位的有效长度。
进一步地,所述步骤(7)具体为:
在相关词库中,根据关键词及相关词序列中的相关词在一定时间段内的搜索量,,得出搜索系数si,
其中,h为此相关词在3个月内的搜索量,H为本序列中关键词对应的所有相关词,在3个月内的搜索量中的最大值;
在相关词库中(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型),获取关键词及相关词序列中关键词和相关词所属的行业,得出各自的行业系数,并得出关键词和相关词属于同一行业的行业相关系数;其中关键词行业系数为di,g为关键词在某一行业最近3个月内的访问量,G为该关键词在多个行业中最近3个月内的访问量;相关词行业系数为ki,t为相关词在某一行业的访问量,T为相关词在多个行业中的访问量;关键词和相关词在同一行业的行业相关系数为ci,ci=di×ki×100%;如果关键词和相关词处于多个行业,并且两者所处的行业有多个是相同的行业,那么将存在多个ci,此时ci取最大值,Ci=max(di×ki)×100%;
关键词及相关词序列提取综合得分
Zi=a1yi+a2Si+a3Ci
其中,a1+a2+a3=1,0.5<a1<1,0<a2<0.5,0<a3<0.5;
yi为关键词及相关词序列相关性提取得分,其中(0<yi<5),si为搜索系数,其中(1≥si≥0),ci为行业相关系数,其中(1≥ci≥0);
把产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列及其提取综合得分保存在综合相关词库中。
本发明还提供一种基于数据集市挖掘的相关词提取系统,包括:用于保存根据预置规则筛选出的数据的数据存储模块,以及与所述数据存储模块连接的统计挖掘模块;所述数据存储模块由顺次连接的数据仓库单元、清洗过滤器、数据集市单元组成;所述数据仓库单元用于保存经处理后的数据;所述清洗过滤器用于对从所述数据仓库单元中选择的数据进行清洗、过滤操作,并加载到所述数据集市单元;所述数据集市单元用于保存经所述清洗过滤器处理的数据,作为所述统计挖掘模块的输入数据,包括中间数据库、搜索词库及产品词库;所述数据集市单元还保存经过所述统计挖掘模块处理后的数据,包括产品相关词库、包含相关词库、行为相关词库、相关词库及综合相关词库;所述统计挖掘模块用于对所述数据集市中的产品信息及搜索信息数据进行相关分离,形成产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列,并分别存储至产品相关词库、包含相关词库以及行为相关词库,并对产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列进行统计挖掘,得出所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列各自的提取综合得分,并保存到所述综合相关词库。
进一步地,该系统还包括用于保存基础数据的数据源模块、ETL处理器,所述数据源模块、所述ETL模块与所述数据存储模块顺次连接;所述数据源模块包括网站日志单元和产品信息单元;所述网站日志单元用于保存网站日志信息,包括客户端访问记录及搜索记录;所述产品信息单元用于保存产品信息;所述ETL处理器用于对所述数据模块的数据进行数据映射、敏感词过滤、数据清洗,并加载到所述数据仓库单元。
进一步地,该系统还包括可视化处理模块,所述可视化处理模块用于对所述综合相关词库中的内容进行展示处理。
进一步地,所述统计挖掘模块由产品相关分离器、包含相关分离器、行为相关分离器、权重及提取得分处理器、综合提取得分处理器组成;其中,所述产品相关分离器与所述数据集市单元中的产品词库和中间数据库相连,所述包含相关分离器与所述数据集市单元中的搜索词库和中间数据库相连,所述行为相关分离器与所述数据集市单元中的搜索词库和中间数据库相连,所述权重及提取得分处理器与所述数据集市单元中的产品相关词库、包含相关词库、行为相关词库、相关词库相连,所述综合提取得分处理器与所述数据集市单元中的中间数据库、相关词库、综合相关词库相连;
所述产品相关分离器,用于对数据集市中的产品词库以及中间数据库中的信息进行处理,形成产品关键词及产品相关词序列,并统计排序,保存到数据集市的产品相关词库中;所述产品相关分离器由产品相关词序列生成器和产品相关处理器组成;所述产品相关词序列生成器,用于对数据集市中的产品词库以及中间数据库中的产品信息进行处理,形成产品关键词及产品相关词序列,并将其保存到数据集市的中间数据库中;所述产品相关处理器,用于对中间数据库中保存的产品关键词及产品相关词序列进行使用次数的统计,按使用次数排序后,把产品关键词及产品相关词序列、及其使用次数保存到数据集市的产品相关词库中;
所述包含相关分离器,用于对数据集市中的搜索词库以及中间数据库中的信息进行处理,形成搜索关键词及包含相关词序列,并进行相似程度计算,保存到数据集市的包含相关词库中;所述包含相关分离器由包含相关词序列生成器和相似程度计算器组成;所述包含相关词序列生成器,用于对数据集市中的搜索词库以及中间数据库中的搜索相关信息进行处理,形成搜索关键词及包含相关词序列,并将其保存到数据集市的中间数据库中;所述相似程度计算器,用于对中间数据库中保存的搜索关键词及包含相关词序列进行相似程度计算,把搜索关键词及包含相关词序列、及其相似程度值保存到数据集市的包含相关词库中;
所述行为相关分离器,用于对数据集市中的搜索词库以及中间数据库中的信息进行处理,形成搜索关键词及行为相关词序列,并统计排序,保存到数据集市的行为相关词库中;所述行为相关分离器由行为相关词序列生成器和行为相关处理器组成;所述行为相关词序列生成器,用于对数据集市中的搜索词库以及中间数据库中的搜索相关信息进行处理,形成搜索关键词及行为相关词序列,并将其保存到数据集市的中间数据库中;所述行为相关处理器,用于对中间数据库中保存的搜索关键词及行为相关词序列进行相关搜索次数的统计,按相关搜索次数进行排序,把搜索关键词及行为相关词序列、及其相关搜索次数保存到数据集市的行为相关词库中;
所述权重及提取得分处理器,用于对数据集市的产品相关词库、包含相关词库以及行为相关词库中的产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列设置权重,并计算相关性提取得分,按相关性提取得分排序,保存到数据集市的相关词库中;
所述综合提取得分处理器,用于从数据集市的相关词库(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型)中读取每个关键词及相关词序列,以及相应的相关性提取得分,并同时从数据集市的中间数据库中获取关键词及相关词序列中关键词、相关词行业信息及搜索量信息,进行优化计算,得到关键词及相关词提取综合得分,按照提取综合得分排序后,把关键词及相关词序列及提取综合得分保存到综合相关词库中。
通过本发明可获得如下有益结果:(1)不仅把网络日志作为数据源,而且把产品信息作为数据源,使相关词提取方法的数据源范围更完备。(2)根据网络日志的搜索信息和产品信息,从关键词及相关词序列的使用次数、相关搜索次数、相似程度、行业相关性、相关词搜索量等多个角度来完善相关词的提取,使提取结果更准确反映用户的隐性需求。(3)通过数据仓库、数据集市的方式,易于引入相关因素,而且数据的共享性更高。(4)采用产品关键词高频使用的原则,剔除其中使用次数少的产品关键词,不仅避免了偶然因素的影响,而且由于精简了数据,使数据有效性得到提升,使系统的数据处理性能更高。
附图说明
图1为本发明所述基于数据集市挖掘的相关词提取方法流程示意图。
图2为本发明所述基于数据集市挖掘的相关词提取系统结构示意图。
图3为本发明所述统计挖掘模块结构示意图。
具体实施方式
如图1所示,本发明实施例的提取方法流程,具体包括以下步骤:
步骤11:根据预置规则筛选数据源,将筛选出的数据存入数据集市,数据集市包括搜索词库、产品词库、中间数据库、产品相关词库、包含相关词库、行为相关词库、相关词库以及综合相关词库;即把B2B电子商务平台网站中的网站日志、产品信息作为关键词及其相关词的数据源,通过对数据源数据进行预处理和分类,形成有关用户行为、产品信息的中间层数据,根据不同的主题,分类保存在数据集市中。
详细分为以下步骤:
(1)选择B2B电子商务平台网站中的网站日志、产品信息作为关键词、相关词的数据源。
(2)对数据源中的数据进行ETL处理,形成有关用户搜索行为和产品信息中的关键词以及相关的使用信息,包括网络日志中的关键词、搜索时间、搜索客户端IP,产品关键词等,并存储于数据仓库中。其中,ETL是指负责将分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境,数据仓库研究和解决从数据库中获取信息的问题。
(3)根据不同主题的需要,对数据仓库中的产品信息、搜索信息进行过滤,然后保存在数据集市,形成搜索词库、产品词库、中间数据库。
其中:搜索词库来源于网络日志信息,包含的数据有:近1年用户搜索的所有关键词、每个关键词的搜索量、每个关键词的长度。为了避免偶然因素及网络爬虫的影响,搜索词库中保留关键词的条件是:(1)搜索量大于1;(2)关键词长度大于等于3。
产品词库来源于产品信息,包含的数据有:所有产品信息中的关键词、使用次数(即每个关键词在所有产品的信息中被设置使用的次数)。并且,产品词库中只保留使用次数大于等于10次的关键词,对于使用次数小于10次的关键词全部过滤掉,不在产品词库中保存。
中间数据库用于保存在以后的统计挖掘中需要用到的数据,其中有关产品信息的数据有:产品ID、对应产品的多个关键词;有关搜索信息的数据有:搜索关键词、搜索时间、搜索客户端IP。除此之外,还用于保存在统计挖掘过程中产生的中间过渡数据。
所述数据集市,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。从范围上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中抽取出来的。
步骤12:基于数据集市的产品词库和中间数据库,从中分离出产品关键词及产品相关词序列,形成产品相关词库。其中,为产品拆分出有效的高频使用的关键词是本步骤的关键。
详细分为以下步骤:
(1)由于产品词库中只保留使用次数大于等于10次的关键词,那么在中间数据库中的关键词要比产品词库的关键词要多,为了避免使用次数少的关键词带来的偶然因素的影响,在中间数据库中删除产品词库中没有的关键词,从而精简中间数据库。
(2)在中间数据库中,从第一个产品开始,把这个产品中的所有关键词两两配对,形成产品关键词及产品相关词序列。
(3)依次进行,对于中间数据库中所有产品,直到把同一产品的关键词之间都两两配对,生成的产品关键词及产品相关词序列,保存在数据集市的中间数据库中。
(4)对保存在中间数据库中所有的产品关键词及产品相关词序列进行统计,计算出其中每对产品关键词及产品相关词序列的总数量,即产品关键词及产品相关词序列的使用次数。
(5)把每对产品关键词及产品相关词序列,及其对应的使用次数,按使用次数的多少排序,保存在数据集市的产品相关词库中,形成完整的产品相关词库。
在此基础上,需要考虑一定时间周期(如最近一天)的产品更新数据,对于在一定时间周期内新增加的产品或更改信息的产品,需要进行专门处理。对于新增加的产品,对于此产品的关键词两两配对,形成产品关键词及产品相关词序列,并把这个序列与产品相关词库的所有序列进行比较,如果产品相关词库存在此序列,则此序列的使用次数加1,如果不存在此序列,则在产品相关词库中增加此序列,并将此序列的使用次数置为1。对于更改信息的产品,对于此产品的关键词两两配对,形成产品关键词及产品相关词序列,如果产品相关词库存在此序列,则此序列忽略不计,如果不存在此序列,则在产品相关词库中增加此序列,并将此序列的使用次数置为1。
步骤13:基于数据集市的搜索词库,分离出的具有包含关系的相关词,存储于数据集市的包含相关词库中。其中,包含关系是指在一对搜索关键词及包含相关词序列中,其中一个词完全被另一个词包含。
详细分为以下步骤:
(1)从搜索词库中,依次选择关键词,与搜索词库中的其他关键词进行比对,找到有与之包含关系的关键词,形成搜索关键词及包含相关词序列。
(2)依次进行,直到把搜索词库中所有关键词之间都进行了比对,把具有包含关系的所有搜索关键词及包含相关词序列保存在数据集市的中间数据库中。
(3)对中间数据库中的搜索关键词及包含相关词序列进行统计过滤,去掉重复的搜索关键词及包含相关词序列。
(4)对于每对搜索关键词及包含相关词序列,计算其中被包含词的字或字母的个数,以及其中包含词的字或字母的个数,最后计算出这个序列的相似程度值α:
&alpha; = &beta; 1 &beta; 2 &times; 100 %
其中:β1为被包含词的字或字母的个数,β2为包含词的字或字母的个数。
(5)把每对搜索关键词及包含相关词序列,及该序列对应的相似程度值,保存在包含相关词库中。
在历史数据基础上,还需考虑一定时间周期(如最近一天)的搜索信息,对于在一定时间周期的搜索信息,需要进行专门处理,从一定时间周期的搜索信息中提取搜索关键词,与搜索词库进行比较,找出搜索词库中没有的关键词,然后将这些新的关键词与搜索词库中的关键词进行两两配对,分离出的具有包含关系的搜索关键词及包含相关词序列,对搜索关键词及包含相关词序列进行相似程度计算后,把搜索关键词及包含相关词序列、对应序列的相似程度值保存到数据集市的包含相关词库中。
步骤14:基于数据集市的搜索词库和中间数据库中的搜索信息,分离出的具有行为相关关系的搜索关键词及行为相关词序列,存储于数据集市的行为相关词库中。其中行为相关关系,是指关键词被某个客户端搜索后,在一定时间内(如一个小时之内),序列中的相关词也被同一个IP的客户端进行了搜索,那么认为这个关键词和相关词具有行为相关关系。
用户的搜索行为千变万化,可能会用语义相同的词来搜索产品,又可能会用另一个词来搜索另一个产品,此时这些搜索词可能也会存在一定的相关性,也许这些产品本身就相关性很高,这就取决于有多少人有类似的搜索行为。搜索关键词及行为相关词序列主要就是考虑用户在一段时间内使用某个词进行搜索的同时还使用了哪些词进行其他相关搜索。
详细分为以下步骤:
(1)由于搜索词库中的关键词是经过条件过滤后保留的关键词,那么搜索词库中的关键词比中间数据库中的关键词少。为了避免偶然因素及网络爬虫的影响,对于中间数据库的搜索信息数据,删除搜索词库中没有的关键词,并剔除每人每天的搜索量大于30或者等于1的搜索异常数据,精简中间数据库中的搜索信息数据,并使之更准确。
(2)对于中间数据库的搜索信息数据,依次选择搜索关键词,然后查找在搜索此关键词后,一定时间内(如1个小时之内)同一客户端搜索的关键词,作为与此搜索关键词具有行为相关关系的相关词,形成搜索关键词及行为相关词序列。
(3)依次进行,直至中间数据库中每个搜索关键词都进行了其行为相关词的查找,把生成的所有搜索关键词及行为相关词序列保存在数据集市的中间数据库中。
(4)对中间数据库中所有的搜索关键词及行为相关词序列进行统计,计算出其中每对搜索关键词及行为相关词序列的数量,即相关搜索次数。
(5)把每对搜索关键词及行为相关词序列,及其对应的相关搜索次数,按搜索次数的多少排序,保存在数据集市的行为相关词库中,形成完整的行为相关词库。
在历史数据基础上,需要考虑一定时间内(如最近一天)的搜索信息,对于在一定时间内的搜索信息,需要进行专门处理,从一定时间内的搜索信息中提取所有搜索关键词,从中分离出的具有行为相关关系的搜索关键词及行为相关词序列,并把这个序列与行为相关词库的所有序列进行比较,如果行为相关词库存在此序列,则此序列对应的相关搜索次数加1,如果不存在此序列,则在行为相关词库中增加此序列,并将此序列的相关搜索次数置为1。
步骤15:根据产品关键词及产品相关词序列、搜索关键词及行为相关词序列、搜索关键词及包含相关词序列在产品相关词库、行为相关词库、包含相关词库中的存在关系,确定每个序列的基本权重。
设置包含相关词库中的搜索关键词及包含相关词序列的权重为γ1,1<γ1<3;
设置行为相关词库中的搜索关键词及行为相关词序列的权重为γ2,0.8<γ2<1.5;
设置产品相关词库中的产品关键词及产品相关词序列的权重为γ3,0.5<γ3<1。
那么,每个序列的权重设置基本规则为:
在上述基本规则基础之上,引入最近一段时间的相关搜索行为,按照一些附加规则进行权重调整,附加规则如下:
步骤16:确定产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列的相关性提取得分,把各序列及其相关性提取得分保存在相关词库中。
分别设定:
搜索关键词及行为相关词序列在最近1个月内相关搜索次数的排序函数为n1(Wi);
产品关键词及产品相关词序列在最近3个月内使用次数的排序函数为n2(Wi);
搜索关键词及包含相关词序列在最近6个月内相似程度的排序函数为n3(Wi);
产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列的权重的小数位的有效长度为mi(Wi),i=1,2,…10;其中,n1(Wi),n2(Wi),n3(Wi)为单列矩阵函数。
以下为不同权重序列的相关性提取得分:
(1)权重为W2,W9的搜索关键词及行为相关词序列的相关性提取得分为
y i = W i + n 1 10 f ( n 1 ) + m i . i=2,9,其中,f(n1)=length(max(n1)),指搜索次数n1(Wi)中最大值的位数长度;
(2)权重为W3的产品关键词及产品相关词序列的相关性提取得分:
y i = W i + n 2 10 f ( n 2 ) + m i . i=3,其中,f(n2)=length(max(n2)),指使用次数n2(Wi)中最大值的位数长度;
(3)权重为W1,W8的搜索关键词及包含相关词序列的相关性提取得分为
y i = W i + n 3 10 f ( n 3 ) + m i . i=1,8,其中,f(n3)=length(max(n3)),指相似程度n3(Wi)中最大值的升序排序值的位数长度;
(4)权重为W4,W10的搜索关键词及包含相关词序列或搜索关键词及行为相关词序列的相关性提取得分为
y i = W i + n 1 10 f ( n 1 ) + m i + n 3 10 f ( n 3 ) + e i . i=4,10,其中,ei(Wi)为小数位的有效长度;
(5)权重为W5的搜索关键词及包含相关词序列或产品关键词及产品相关词序列的相关性提取得分为
y i = W i + n 2 10 f ( n 2 ) + m i + n 3 10 f ( n 3 ) + e i . i=5,其中,ei(Wi)为小数位的有效长度;
(6)权重为W7的搜索关键词及包含相关词序列、搜索关键词及行为相关词序列或产品关键词及产品相关词序列的相关性提取得分为
y i = W i + n 1 10 f ( n 1 ) + m i + n 2 10 f ( n 2 ) + e i + n 3 10 f ( n 3 ) + h i i=7,其中,ei(Wi)为小数位的有效长度,hi(Wi)为小数位的有效长度;
(7)权重为W6的搜索关键词及行为相关词序列或产品关键词及产品相关词序列的相关性提取得分为
y i = W i + n 1 10 f ( n 1 ) + m i + n 2 10 f ( n 2 ) + e i . i=6,其中,ei(Wi)为小数位的有效长度。
步骤17:根据预置规则,在相关词库中(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型),获取关键词及相关词序列中关键词及相关词所属的行业并进行行业相关计算,对关键词及相关词序列中相关词搜索量进行频度比率计算,得出所述关键词及相关词序列的提取综合得分,并保存到所述综合相关词库。进而得到更优质的关键词及相关词序列,提高相关词的覆盖率和准确率。
详细步骤如下:
(1)在相关词库中(在相关词库中只存在关键词及相关词序列,不在分成3种序列类型),根据关键词及相关词序列中的相关词在一定时间段内的搜索量,得出搜索系数si,
其中,h为此相关词在3个月内的搜索量,H为本序列中关键词对应的所有相关词,在3个月内的搜索量中的最大值;
(2)在相关词库中(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型),获取关键词及相关词序列中关键词和相关词所属的行业,得出各自的行业系数,并得出关键词和相关词属于同一行业的行业相关系数;其中关键词行业系数为di,g为关键词在某一行业最近3个月内的访问量,G为该关键词在多个行业中最近3个月内的访问量;相关词行业系数为ki,t为相关词在某一行业的访问量,T为相关词在多个行业中的访问量;关键词和相关词在同一行业的行业相关系数为ci,ci=di×ki×100%;如果关键词和相关词处于多个行业,并且两者所处的行业有多个是相同的行业,那么将存在多个ci,此时ci取最大值,ci=max(di×ki)×100%;
(3)关键词及相关词序列提取综合得分
Zi=a1yi+a2Si+a2Ci
其中,a1+a2+a3=1,0.5<a1<1,0<a2<0.5,0<a3<0.5;
yi为关键词及相关词序列相关性提取得分,其中(0<yi<5),si为搜索系数,其中(1≥si≥0),ci为行业相关系数,其中(1≥ci≥0);
(4)把产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列及其提取综合得分保存在综合相关词库中。
如图2所示,本发明所提供的基于数据集市挖掘的相关词提取系统,包括数据源模块20、ETL处理器21、数据存储模块22、统计挖掘模块23、可视化处理模块24。其中,数据源模块20、ETL处理器21、数据存储模块22、统计挖掘模块23顺次连接,数据存储模块22与可视化处理模块24相连接。
所述数据源模块20,用于保存网络日志、产品信息等基础数据,作为数据分析及数据挖掘的数据来源。其中包括网站日志单元201、产品信息单元202。网站日志单元201用于保存网站日志信息,包括用户的访问记录以及用户的搜索记录,产品信息单元202用于保存产品的信息。
所述ETL处理器21,用于对数据源模块20的数据进行数据映射、敏感词过滤、数据清洗等各项处理,然后加载到数据仓库单元221中。
所述数据存储模块22,用于保存经ETL处理器处理后的数据,并进行清洗过滤后,在数据集市单元中生成多个中间数据库及相关数据库。数据存储模块22由数据仓库单元221、清洗过滤器222、数据集市单元组成223。数据仓库单元221、清洗过滤器222、数据集市单元223顺次连接。
所述数据仓库单元221,用于保存经ETL处理器21处理后的数据。
清洗过滤器222,用于对数据仓库中所选择的数据进行清洗、过滤等操作,消除偶然因素及网络爬虫的影响后,加载到数据集市单元223中。
数据集市单元223,用于保存两部分数据,一部分是经清洗过滤器222处理的数据,作为统计挖掘模块的输入数据,包括中间数据库、搜索词库以及产品词库;另一部分是经过统计挖掘处理后形成的中间数据和最终数据,包括各阶段处理后的产品相关词库、行为相关词库、包含相关词库、相关词库,以及最终的综合相关词库。
所述统计挖掘模块23,通过数据挖掘的方式对数据集市单元223中的产品信息数据及搜索信息数据进行相关分离,形成产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列,并分别存储至产品相关词库、包含相关词库以及行为相关词库,并对产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列进行统计挖掘,得出所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列,通过权重处理及综合计算得出提取综合得分,并保存到所述综合相关词库。
可视化处理模块24,用于对数据集市单元223的综合相关词库中的产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列进行展示处理。
如图3所示为统计挖掘模块结构,包括产品相关分离器31、包含相关分离器32、行为相关分离器33、权重及提取得分处理器34、综合提取得分处理器35。其中,产品相关分离器31与数据集市单元中的产品词库和中间数据库相连,包含相关分离器32与数据集市单元中的搜索词库和中间数据库相连,行为相关分离器33与数据集市单元中的搜索词库和中间数据库相连,权重及提取得分处理器34与数据集市单元中的产品相关词库、包含相关词库、行为相关词库、相关词库相连,综合提取得分处理器35与数据集市单元中的中间数据库、相关词库、综合相关词库相连。
产品相关分离器31,由产品相关词序列生成器311和产品相关处理器312组成,用于对数据集市中的产品词库以及中间数据库中的信息进行处理,形成产品关键词及产品相关词序列,并统计排序,保存到数据集市的产品相关词库中。
产品相关词序列生成器311,用于对数据集市中的产品词库以及中间数据库中的产品信息进行处理,形成产品关键词及产品相关词序列,并把产品关键词及产品相关词序列保存到数据集市的中间数据库中。
产品相关处理器312,用于对中间数据库中保存的产品关键词及产品相关词序列进行使用次数的统计,按使用次数排序后,把产品关键词及产品相关词序列、此序列使用次数保存到数据集市的产品相关词库中。
包含相关分离器32,由包含相关词序列生成器321和相似程度计算器322组成,用于对数据集市中的搜索词库以及中间数据库中的信息进行处理,形成搜索关键词及包含相关词序列,并进行相似程度计算,保存到数据集市的包含相关词库中。
包含相关词序列生成器321,用于对数据集市中的搜索词库以及中间数据库中的搜索相关信息进行处理,形成搜索关键词及包含相关词序列,并把搜索关键词及包含相关词序列保存到数据集市的中间数据库中。
相似程度计算器322,用于对中间数据库中保存的搜索关键词及包含相关词序列进行相似程度计算后,把搜索关键词及包含相关词序列、该序列的相似程度值保存到数据集市的包含相关词库中。
行为相关分离器33,由行为相关词序列生成器331和行为相关处理器332组成,用于对数据集市中的搜索词库以及中间数据库中的信息进行处理,形成搜索关键词及行为相关词序列,并统计排序,保存到数据集市的行为相关词库中。
行为相关词序列生成器331,用于对数据集市中的搜索词库以及中间数据库中的搜索相关信息进行处理,形成搜索关键词及行为相关词序列,并把搜索关键词及行为相关词序列保存到数据集市的中间数据库中。
行为相关处理器332,用于对中间数据库中保存的搜索关键词及行为相关词序列进行相关搜索次数的统计,按搜索次数进行排序后,把搜索关键词及行为相关词序列、该序列的搜索次数值保存到数据集市的行为相关词库中。
权重及提取得分处理器34,用于对数据集市的产品相关词库、包含相关词库以及行为相关词库中的产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列设置权重,并进行相关性提取得分的计算,按相关性提取得分值排序后,保存到数据集市的相关词库中。
综合提取得分处理器35,用于从数据集市的相关词库(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型)中读取每个关键词及相关词序列,以及相应的相关性提取得分,并同时从数据集市的中间数据库中获取关键词及相关词序列中关键词、相关词行业信息及搜索量信息,进行优化计算,得到关键词及相关词提取综合得分,按照提取综合得分排序后,把关键词及相关词序列及提取综合得分保存到综合相关词库中。
本领域技术人员可以对本发明的实施例进行各种改动和变型而不会脱离本发明的精神和范围。倘若本发明实施例中的这些修改和变型属于本发明权利要求及其等同的范围之内,则本发明中的实施例也包含这些改动和变型在内。

Claims (15)

1.一种基于数据集市挖掘的相关词提取方法,其特征在于,包括以下步骤:
步骤一、根据预置规则筛选数据源,将筛选出的数据存入数据集市,所述数据集市包括搜索词库、产品词库、中间数据库、产品相关词库、包含相关词库、行为相关词库、相关词库以及综合相关词库;
步骤二、基于所述产品词库和所述中间数据库中的产品信息,对同一产品信息的关键词进行两两配对,获得产品关键词及产品相关词序列,对所述产品关键词及产品相关词序列的使用次数进行统计,将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库;
步骤三、基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有包含关系的搜索关键词及包含相关词序列,根据规则对所述搜索关键词及包含相关词序列进行相似程度计算以获取相似程度值,将所述搜索关键词及包含相关词序列、所述相似程度值保存到所述包含相关词库;其中,包含关系是指在一对所述搜索关键词及包含相关词序列中,其中一个词完全被另一个词包含;
步骤四、基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有行为相关关系的搜索关键词及行为相关词序列,对所述搜索关键词及行为相关词序列的相关搜索次数进行统计,将所述搜索关键词及行为相关词序列、所述相关搜索次数保存到所述行为相关词库;其中,行为相关关系是指搜索关键词被搜索后,在时间周期内,行为相关词被同一个IP地址的客户端进行了搜索;
步骤五、根据所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列在产品相关词库、包含相关词库、行为相关词库中的存在关系,对所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列进行权重设置;
步骤六、根据预置规则,结合所述产品关键词及产品相关词序列的使用次数、所述搜索关键词及包含相关词序列的相似程度值、所述搜索关键词及行为相关词序列的相关搜索次数,计算所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列各自的相关性提取得分,并将所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列,以及各自的相关性提取得分保存到相关词库中;
步骤七、根据预置规则,在只存在关键词及相关词序列的相关词库中,获取关键词及相关词序列中关键词及相关词所属的行业并进行行业相关计算,对关键词及相关词序列中相关词搜索量进行频度比率计算,得出所述关键词及相关词序列的提取综合得分,并保存到所述综合相关词库。
2.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤一具体为:
对所述数据源进行ETL处理,将数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库中;对所述数据仓库中的产品信息、搜索信息进行过滤,并保存至所述数据集市,形成搜索词库、产品词库、中间数据库;其中,所述搜索词库存储的关键词的搜索量大于1且长度大于等于3,产品词库存储的关键词的使用次数大于等于10。
3.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于:所述步骤二还包括:
在对同一产品信息的关键词进行两两配对以获得产品关键词及产品相关词序列之前,将产品词库中没有的关键词从中间数据库删除;优先根据所述使用次数进行排序,根据排序结果将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库。
4.如权利要求3所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤二进一步包括:
定期对所述产品相关词库进行更新;对于新增加的产品,形成产品关键词及产品相关词序列,并将该产品关键词及产品相关词序列与产品相关词库中已有的产品关键词及产品相关词序列进行比较,如果产品相关词库中已存在该产品关键词及产品相关词序列,则将其使用次数加1,如果不存在该产品关键词及产品相关词序列,则将其添加入产品相关词库,并将其使用次数置为1;对于更改产品信息的产品,形成产品关键词及产品相关词序列,如果产品相关词库中已存在该产品关键词及产品相关词序列,则将其忽略不计,如果不存在该产品关键词及产品相关词序列,则将其添加入产品相关词库,并将其使用次数置为1。
5.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤三具体为:
步骤三-1从搜索词库中,依次选择关键词,与所述搜索词库中的其他关键词进行比对,找到与其有包含关系的关键词,形成搜索关键词及包含相关词序列;
步骤三-2依次进行,直到把搜索词库中所有关键词之间都进行了比对,把具有包含关系的所有搜索关键词及包含相关词序列保存至所述中间数据库;
步骤三-3对中间数据库中的搜索关键词及包含相关词序列进行统计过滤,去掉重复的搜索关键词及包含相关词序列;
步骤三-4对于每对所述搜索关键词及包含相关词序列,计算其中被包含词的字或字母的个数,以及其中包含词的字或字母的个数,计算出该搜索关键词及包含相关词序列的相似程度值α,
&alpha; = &beta; 1 &beta; 2 &times; 100 %
其中:β1为被包含词的字或字母的个数,β2为包含词的字或字母的个数;
步骤三-5把每对所述搜索关键词及包含相关词序列,及其相似程度值,保存至所述包含相关词库。
6.如权利要求5所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤三进一步包括:
定期对所述包含相关词库进行更新;从时间周期内的搜索信息中提取搜索关键词,与搜索词库中已有的搜索关键词进行比较,找出搜索词库中没有的关键词,将新的关键词与搜索词库中已有的关键词进行两两配对,分离出的具有包含关系的搜索关键词及包含相关词序列,对该搜索关键词及包含相关词序列进行相似程度计算,把该搜索关键词及包含相关词序列、以及其相似程度值保存到所述包含相关词库中。
7.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤四具体为:
步骤四-1将搜索词库中没有的关键词从中间数据库删除,并剔除同一客户端时间周期内搜索量大于30或等于1的搜索关键词;
步骤四-2依次选择中间数据库中的搜索关键词,查找在搜索该搜索关键词后,时间周期内同一客户端搜索的其他搜索关键词,作为与该搜索关键词具有行为相关关系的相关词,形成搜索关键词及行为相关词序列;
步骤四-3依次进行,直至中间数据库中每个搜索关键词都进行了其行为相关词的查找,把生成的所有搜索关键词及行为相关词序列保存在中间数据库;
步骤四-4对中间数据库中所有的搜索关键词及行为相关词序列进行统计,计算每对搜索关键词及行为相关词序列的相关搜索次数;
步骤四-5按相关搜索次数排序,将每对搜索关键词及行为相关词序列,及其相关搜索次数,保存在行为相关词库中。
8.如权利要求7所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤四进一步包括:
定期对所述行为相关词库进行更新;从时间周期内的搜索信息中提取搜索关键词,从中分离出的具有行为相关关系的搜索关键词及行为相关词序列,并把该搜索关键词及行为相关词序列与行为相关词库中的所有搜索关键词及行为相关词序列进行比较,如果行为相关词库存在该搜索关键词及行为相关词序列,则将该搜索关键词及行为相关词序列的相关搜索次数加1,如果不存在该搜索关键词及行为相关词序列,则将其加入所述行为相关词库,并将其相关搜索次数置为1。
9.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤五中的权重的设置具体为:
包含相关词库中的搜索关键词及包含相关词序列的权重为γ1,1<γ1<3;
行为相关词库中的搜索关键词及行为相关词序列的权重为γ2,0.8<γ2<1.5;
产品相关词库中的产品关键词及产品相关词序列的权重为γ3,0.5<γ3<1;
那么,权重设置基本规则为:
在权重设置基本规则基础之上,引入时间周期内的相关搜索行为,按照附加规则进行权重调整,附加规则为:
10.如权利要求9所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤六中获取所述相关性提取得分的方法为:
步骤六-1搜索关键词及行为相关词序列在最近1个月内的相关搜索次数的排序函数为n1,产品关键词及产品相关词序列在最近3个月内的使用次数的排序函数为n2,搜索关键词及包含相关词序列在最近6个月内相似程度的排序函数为n3,其中,n1,n2,n3为单列矩阵函数,产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列的权重的小数位的有效长度为mi,其中i=1,2,…10;
步骤六-2权重为w2,w9的搜索关键词及行为相关词序列的相关性提取得分为i=2,9,其中,f(n1)=length(max(n1)),指搜索次数n1中最大值的位数长度;
步骤六-3权重为w3的产品关键词及产品相关词序列的相关性提取得分:
i=3,其中,f(n2)=length(max(n2)),指使用次数n2中最大值的位数长度;
步骤六-4权重为w1,w8的搜索关键词及包含相关词序列的相关性提取得分为
i=1,8,其中,f(n3)=length(max(n3)),指相似程度n3中最大值的升序排序值的位数长度;
步骤六-5权重为w4,w10的搜索关键词及包含相关词序列或搜索关键词及行为相关词序列的相关性提取得分为
y i = W i + n 1 10 f ( n 1 ) + m i + n 3 10 f ( n 3 ) + e i &CenterDot; i=4,10,其中,ei(wi)为小数位的有效长度;
步骤六-6权重为ws的搜索关键词及包含相关词序列或产品关键词及产品相关词序列的相关性提取得分为
y i = W i + n 2 10 f ( n 2 ) + m i + n 3 10 f ( n 3 ) + e i &CenterDot; i=5,其中,ei(wi)为小数位的有效长度;
步骤六-7权重为W7的搜索关键词及包含相关词序列、搜索关键词及行为相关词序列或产品关键词及产品相关词序列的相关性提取得分为
y i = W i + n 1 10 f ( n 1 ) + m i + n 2 10 f ( n 2 ) + e i + n 3 10 f ( n 3 ) + h i . i=7,其中,ei小数位的有效长度,hi小数位的有效长度;
步骤六-8权重为w6的搜索关键词及行为相关词序列或产品关键词及产品相关词序列的相关性提取得分为
y i = W i + n 1 10 f ( n 1 ) + m i + n 2 10 f ( n 2 ) + e i . i=6,其中,ei(wi)为小数位的有效长度。
11.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤七具体为:
步骤七-1在相关词库中(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型),根据关键词及相关词序列中的相关词在时间段内的搜索量,得出搜索系数si,
其中,h为此相关词在3个月内的搜索量,H为本序列中关键词对应的所有相关词,在3个月内的搜索量中的最大值;
步骤七-2在只存在关键词及相关词序列的相关词库中,获取关键词及相关词序列中关键词和相关词所属的行业,得出各自的行业系数,并得出关键词和相关词属于同一行业的行业相关系数;其中关键词行业系数为di,g为关键词在某一行业最近3个月内的访问量,G为该关键词在多个行业中最近3个月内的访问量;相关词行业系数为ki,t为相关词在某一行业的访问量,T为相关词在多个行业中的访问量;关键词和相关词在同一行业的行业相关系数为ci,ci=di×ki×100%;如果关键词和相关词处于多个行业,并且两者所处的行业有多个是相同的行业,那么将存在多个ci,此时ci取最大值,ci=max(di×ki)×100%;
步骤七-3关键词及相关词序列提取综合得分
zi=a1yi+a2si+a3ci
其中,a1+a2+a3=1,0.5<a1<1,0<a2<0.5,0<a3<0.5;
yi为关键词及相关词序列相关性提取得分,其中0<Yi<5,si为搜索系数,其中1≥si≥0,ci为行业相关系数,其中1≥ci≥0;
步骤七-4把关键词及相关词序列,及其提取综合得分保存在综合相关词库中。
12.一种基于数据集市挖掘的相关词提取系统,其特征在于,包括:用于保存根据预置规则筛选出的数据的数据存储模块,以及与所述数据存储模块连接的统计挖掘模块;所述数据存储模块由顺次连接的数据仓库单元、清洗过滤器、数据集市单元组成;所述数据仓库单元用于保存经处理后的数据;所述清洗过滤器用于对从所述数据仓库单元中选择的数据进行清洗、过滤操作,并加载到所述数据集市单元;所述数据集市单元用于保存经所述清洗过滤器处理的数据,作为所述统计挖掘模块的输入数据,包括中间数据库、搜索词库及产品词库;所述数据集市单元还保存经过所述统计挖掘模块处理后的数据,包括产品相关词库、包含相关词库、行为相关词库、相关词库及综合相关词库;所述统计挖掘模块用于对所述数据集市中的产品信息及搜索信息数据进行相关分离,形成产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列,并分别存储至产品相关词库、包含相关词库以及行为相关词库,并对产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列进行统计挖掘,通过权重处理及综合计算得出提取综合得分,并保存到所述综合相关词库。
13.如权利要求12所述的基于数据集市挖掘的相关词提取系统,其特征在于,还包括用于保存基础数据的数据源模块、ETL处理器,所述数据源模块、所述ETL模块与所述数据存储模块顺次连接;所述数据源模块包括网站日志单元和产品信息单元;所述网站日志单元用于保存网站日志信息,包括客户端访问记录及搜索记录;所述产品信息单元用于保存产品信息;所述ETL处理器用于对所述数据源模块的数据进行数据映射、敏感词过滤、数据清洗,并加载到所述数据仓库单元。
14.如权利要求12或13所述的基于数据集市挖掘的相关词提取系统,其特征在于,还包括可视化处理模块,所述可视化处理模块用于对所述综合相关词库中的内容进行展示处理。
15.如权利要求12所述的基于数据集市挖掘的相关词提取系统,其特征在于,所述统计挖掘模块由产品相关分离器、包含相关分离器、行为相关分离器、权重及提取得分处理器、综合提取得分处理器组成;其中,所述产品相关分离器与所述数据集市单元中的产品词库和中间数据库相连,所述包含相关分离器与所述数据集市单元中的搜索词库和中间数据库相连,所述行为相关分离器与所述数据集市单元中的搜索词库和中间数据库相连,所述权重及提取得分处理器与所述数据集市单元中的产品相关词库、包含相关词库、行为相关词库、相关词库相连,所述综合提取得分处理器与所述数据集市单元中的中间数据库、相关词库、综合相关词库相连;
所述产品相关分离器,用于对数据集市中的产品词库以及中间数据库中的信息进行处理,形成产品关键词及产品相关词序列,并统计排序,保存到数据集市的产品相关词库中;所述产品相关分离器由产品相关词序列生成器和产品相关处理器组成;所述产品相关词序列生成器,用于对数据集市中的产品词库以及中间数据库中的产品信息进行处理,形成产品关键词及产品相关词序列,并将其保存到数据集市的中间数据库中;所述产品相关处理器,用于对中间数据库中保存的产品关键词及产品相关词序列进行使用次数的统计,按使用次数排序后,把产品关键词及产品相关词序列、及其使用次数保存到数据集市的产品相关词库中;
所述包含相关分离器,用于对数据集市中的搜索词库以及中间数据库中的信息进行处理,形成搜索关键词及包含相关词序列,并进行相似程度计算,保存到数据集市的包含相关词库中;所述包含相关分离器由包含相关词序列生成器和相似程度计算器组成;所述包含相关词序列生成器,用于对数据集市中的搜索词库以及中间数据库中的搜索相关信息进行处理,形成搜索关键词及包含相关词序列,并将其保存到数据集市的中间数据库中;所述相似程度计算器,用于对中间数据库中保存的搜索关键词及包含相关词序列进行相似程度计算,把搜索关键词及包含相关词序列、及其相似程度值保存到数据集市的包含相关词库中;
所述行为相关分离器,用于对数据集市中的搜索词库以及中间数据库中的信息进行处理,形成搜索关键词及行为相关词序列,并统计排序,保存到数据集市的行为相关词库中;所述行为相关分离器由行为相关词序列生成器和行为相关处理器组成;所述行为相关词序列生成器,用于对数据集市中的搜索词库以及中间数据库中的搜索相关信息进行处理,形成搜索关键词及行为相关词序列,并将其保存到数据集市的中间数据库中;所述行为相关处理器,用于对中间数据库中保存的搜索关键词及行为相关词序列进行相关搜索次数的统计,按相关搜索次数进行排序,把搜索关键词及行为相关词序列、及其相关搜索次数保存到数据集市的行为相关词库中;
所述权重及提取得分处理器,用于对数据集市的产品相关词库、包含相关词库以及行为相关词库中的产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列设置权重,并计算相关性提取得分,按相关性提取得分排序,保存到数据集市的相关词库中;
所述综合提取得分处理器,用于从数据集市的只存在关键词及相关词序列的相关词库中读取每个关键词及相关词序列,以及相应的相关性提取得分,并同时从数据集市的中间数据库中获取关键词及相关词序列中关键词、相关词行业信息及搜索量信息,进行优化计算,得到关键词及相关词提取综合得分,按照提取综合得分排序后,把关键词及相关词序列及提取综合得分保存到综合相关词库中。
CN201310189803.1A 2013-05-21 2013-05-21 基于数据集市挖掘的相关词提取方法及系统 Expired - Fee Related CN103226618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310189803.1A CN103226618B (zh) 2013-05-21 2013-05-21 基于数据集市挖掘的相关词提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310189803.1A CN103226618B (zh) 2013-05-21 2013-05-21 基于数据集市挖掘的相关词提取方法及系统

Publications (2)

Publication Number Publication Date
CN103226618A CN103226618A (zh) 2013-07-31
CN103226618B true CN103226618B (zh) 2015-11-18

Family

ID=48837063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310189803.1A Expired - Fee Related CN103226618B (zh) 2013-05-21 2013-05-21 基于数据集市挖掘的相关词提取方法及系统

Country Status (1)

Country Link
CN (1) CN103226618B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951441A (zh) * 2014-03-24 2015-09-30 阿里巴巴集团控股有限公司 一种对对象进行排序的方法及装置
CN104408173B (zh) * 2014-12-11 2016-12-07 焦点科技股份有限公司 一种基于b2b平台的核心关键词自动提取方法
CN107463555B (zh) * 2016-06-01 2020-09-04 北京京东尚科信息技术有限公司 删除中间层数据的方法、系统和装置
CN105956195B (zh) * 2016-06-17 2019-03-29 广州视源电子科技股份有限公司 简历搜索方法和装置
CN106227885A (zh) * 2016-08-08 2016-12-14 星河互联集团有限公司 一种大数据的处理方法、装置及终端
CN107341181B (zh) * 2017-05-27 2020-01-03 武汉斗鱼网络科技有限公司 搜索推荐方法、装置、计算机可读存储介质及计算机设备
CN107463616B (zh) * 2017-07-03 2020-04-10 上海凡响网络科技有限公司 一种企业信息分析方法及系统
CN107885725A (zh) * 2017-11-06 2018-04-06 山东浪潮云服务信息科技有限公司 一种处理招聘数据的方法及装置
CN108491374B (zh) * 2018-02-12 2022-05-27 郑长敬 基于房地产行业的词库构建方法及系统
CN110781365B (zh) * 2018-07-13 2023-04-28 阿里巴巴集团控股有限公司 商品搜索方法、装置、系统及电子设备
CN109272362A (zh) * 2018-09-29 2019-01-25 阿里巴巴集团控股有限公司 一种风险保障产品的推送方法、装置及电子设备
CN112905610A (zh) * 2021-01-30 2021-06-04 铁道警察学院 一种大数据的数据筛选模型及方法
CN115329760B (zh) * 2022-10-17 2023-02-14 南京中教畅享互联网科技有限公司 一种推广关键词模拟筛选方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276361A (zh) * 2007-03-28 2008-10-01 阿里巴巴集团控股有限公司 一种显示相关关键词的方法及系统
CN102567364A (zh) * 2010-12-24 2012-07-11 鸿富锦精密工业(深圳)有限公司 文件搜索系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2143824B1 (en) * 2007-05-01 2015-04-15 Nippon Steel & Sumitomo Metal Corporation Steel sheet rinsing method, and steel sheet continuous rinsing apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276361A (zh) * 2007-03-28 2008-10-01 阿里巴巴集团控股有限公司 一种显示相关关键词的方法及系统
CN102567364A (zh) * 2010-12-24 2012-07-11 鸿富锦精密工业(深圳)有限公司 文件搜索系统及方法

Also Published As

Publication number Publication date
CN103226618A (zh) 2013-07-31

Similar Documents

Publication Publication Date Title
CN103226618B (zh) 基于数据集市挖掘的相关词提取方法及系统
CN100504866C (zh) 一种综合搜索结果的排序系统及方法
CN101408886B (zh) 通过分析文档的段落来选择该文档的标签
US9858326B2 (en) Distributed data warehouse
CN101566997B (zh) 确定与给定的词集相关的词
CN103400286B (zh) 一种基于用户行为进行物品特征标注的推荐系统及方法
CN101692223B (zh) 响应于用户输入精炼搜索空间
US8402031B2 (en) Determining entity popularity using search queries
CN102236663B (zh) 一种基于垂直搜索的查询方法、系统和装置
CN103678620B (zh) 一种基于用户历史行为特征的知识文档推荐方法
CN101408887B (zh) 推荐词条以指定本体空间
CN104063523A (zh) 一种电子商务搜索评分与排名的方法及系统
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN101408885A (zh) 利用统计分布对主题进行建模
CN104077407B (zh) 一种智能数据搜索系统及方法
CN105930469A (zh) 基于Hadoop的个性化旅游推荐系统及方法
CN101206674A (zh) 以商品为媒介的增强型相关搜索系统及其方法
CN107180093A (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN107291895B (zh) 一种快速的层次化文档查询方法
CN104778237A (zh) 一种基于关键用户的个性化推荐方法和系统
CN106296286A (zh) 广告点击率的预估方法和预估装置
CN102955837A (zh) 一种基于中文词对关系相似度的类比检索控制方法
CN106897285A (zh) 数据要素抽取分析系统及数据要素抽取分析方法
CN105740387B (zh) 一种基于作者频繁模式的科技文献推荐方法
Han et al. Study on web mining algorithm based on usage mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Xu Liping

Inventor after: Wang Ting

Inventor after: He Changtao

Inventor before: Xu Liping

Inventor before: Yao Ruibo

Inventor before: Wang Ting

Inventor before: He Changtao

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: XU LIPING YAO RUIBO WANG TING HE CHANGTAO TO: XU LIPING WANG TING HE CHANGTAO

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151118

CF01 Termination of patent right due to non-payment of annual fee