发明内容
针对现有的网页搜索关键词之间的相关性检测不准确的问题而提出本发明,为此,本发明的主要目的在于提供一种网页搜索关键词的相关性检测方法及装置,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页搜索关键词的相关性检测方法。该方法包括:确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词;获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括第一网页搜索关键词对应的网页的统一资源定位符和第二网页搜索关键词对应的网页的统一资源定位符;获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系;获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系;根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测。
进一步地,获取统一资源定位符集合包括:获取第一统一资源定位符子集合,其中,第一统一资源定位符子集合为第一网页搜索关键词对应的网页的统一资源定位符的集合,根据以下方法分别确定第一网页搜索关键词和多个统一资源定位符的对应关系:分别判断多个统一资源定位符是否是第一统一资源定位符子集合中包含的统一资源定位符;如果多个统一资源定位符是第一统一资源定位符子集合中包含的统一资源定位符,则分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;如果多个统一资源定位符不是第一统一资源定位符子集合中包含的统一资源定位符,则分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0,获取统一资源定位符集合还包括:获取第二统一资源定位符子集合,其中,第二统一资源定位符子集合为第二网页搜索关键词对应的网页的统一资源定位符的集合,根据以下方法分别确定第二网页搜索关键词和多个统一资源定位符的对应关系:分别判断多个统一资源定位符是否是第二统一资源定位符子集合中包含的统一资源定位符;如果多个统一资源定位符是第二统一资源定位符子集合中包含的统一资源定位符,则分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;如果多个统一资源定位符不是第二统一资源定位符子集合中包含的统一资源定位符,则分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0。
进一步地,根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测包括:根据第一向量和第二向量获取第三向量,其中,通过以下方法确定第三向量中包含的多个元素:如果在对应相同的统一资源定位符时,第一向量和第二向量中对应相同的统一资源定位符的元素均为1,则确定第三向量中对应的元素为0,如果在对应相同的统一资源定位符时,第一向量和第二向量中对应相同的统一资源定位符的元素一个为1、另一个为0,则确定第三向量中对应的元素为1;获取目标距离,其中,目标距离为第三向量中包含的多个元素的平均值,用于表示第一网页搜索关键词和第二网页搜索关键词之间的差异;通过以下式子获取第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值:S=1/A,其中,S为第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值,A为目标距离。
进一步地,多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词,确定第三向量中包含的多个元素还包括:如果在对应相同的统一资源定位符时,第一向量和第二向量中对应相同的统一资源定位符的元素均为0,则确定第三向量中对应的元素为0。
进一步地,多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词,多个目标向量包括第一向量和第二向量,统一资源定位符集合包括多个网页搜索关键词对应的网页的统一资源定位符,根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测之后,该方法还包括:确定多个网页搜索关键词分别属于不同的关键词类,其中,不同的关键词类中每个关键词类只包含一个网页搜索关键词;根据多个目标向量获取多个目标距离,其中,多个目标距离用于表示多个网页搜索关键词类中任意两个网页搜索关键词类之间的差异;获取多个目标距离中的最小值;合并最小值对应的两个网页搜索关键词类成第一目标关键词类;统计多个网页搜索关键词对应的关键词类的个数;判断关键词类的个数是否大于预设数量值;如果关键词类的个数大于预设数量值,则确定第一目标关键词类对应的向量;利用第一目标关键词类对应的向量,分别获取第一目标关键词类和除两个网页搜索关键词类之外的多个网页搜索关键词类对应的目标距离;获取第一目标关键词类和除两个网页搜索关键词类之外的多个网页搜索关键词类对应的目标距离中的最小值;将最小值对应的两个网页搜索关键词类合并成第二目标关键词类;如果关键词类的个数小于或者等于预设数量值,则不再进行关键词类的合并。
进一步地,在获取统一资源定位符集合之后,该方法还包括:分别统计多个统一资源定位符的出现次数;分别判断多个统一资源定位符的出现次数是否小于预设出现次数阈值;获取多个统一资源定位符中出现次数小于预设出现次数阈值的统一资源定位符;将小于预设出现次数阈值的统一资源定位符从统一资源定位符集合中清除。
进一步地,经过合并处理后的关键词类包括多个关键词类,多个关键词类包括第一关键词类和第二关键词类,分别将小于预设相关性阈值的目标相关性数值对应的目标关键词簇和网页搜索关键词确定为一个关键词类之后,该方法还包括:分别对第一关键词类和第二关键词类进行标识;统计第一数量,其中,第一数量为第一关键词类包含的网页搜索关键词的个数;统计第二数量,其中,第二数量为第二关键词类包含的网页搜索关键词的个数;比较第一数量和第二数量,得到比较结果;按照比较结果对第一关键词类和第二关键词类进行排序。
为了实现上述目的,根据本发明的另一方面,提供了一种网页搜索关键词的相关性检测装置,该装置包括:确定单元,用于确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词;第一获取单元,用于获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括第一网页搜索关键词对应的网页的统一资源定位符和第二网页搜索关键词对应的网页的统一资源定位符;第二获取单元,用于获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系;第三获取单元,用于获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系;检测单元,用于根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测。
进一步地,第一获取单元包括:第一获取模块,用于获取第一统一资源定位符子集合,其中,第一统一资源定位符子集合为第一网页搜索关键词对应的网页的统一资源定位符的集合,根据以下模块分别确定第一网页搜索关键词和多个统一资源定位符的对应关系:第一判断子模块,用于分别判断多个统一资源定位符是否是第一统一资源定位符子集合中包含的统一资源定位符;第一确定子模块,用于在多个统一资源定位符是第一统一资源定位符子集合中包含的统一资源定位符时,分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;第二确定子模块,用于在多个统一资源定位符不是第一统一资源定位符子集合中包含的统一资源定位符时,分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0,第一获取单元还包括:第二获取模块,用于获取第二统一资源定位符子集合,其中,第二统一资源定位符子集合为第二网页搜索关键词对应的网页的统一资源定位符的集合,根据以下模块分别确定第二网页搜索关键词和多个统一资源定位符的对应关系:第二判断子模块,用于分别判断多个统一资源定位符是否是第二统一资源定位符子集合中包含的统一资源定位符;第三确定子模块,用于在多个统一资源定位符是第二统一资源定位符子集合中包含的统一资源定位符时,分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;第四确定子模块,用于在多个统一资源定位符不是第二统一资源定位符子集合中包含的统一资源定位符时,分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0。
进一步地,检测单元包括:第三获取模块,用于根据第一向量和第二向量获取第三向量,其中,通过以下子模块确定第三向量中包含的多个元素:第一确定子模块,用于在对应相同的统一资源定位符,第一向量和第二向量中对应相同的统一资源定位符的元素均为1时,确定第三向量中对应的元素为0,第二确定子模块,用于在对应相同的统一资源定位符,第一向量和第二向量中对应相同的统一资源定位符的元素一个为1、另一个为0时,确定第三向量中对应的元素为1;第四获取模块,用于获取目标距离,其中,目标距离为第三向量中包含的多个元素的平均值,用于表示第一网页搜索关键词和第二网页搜索关键词之间的差异;第五获取模块,用于通过以下式子获取第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值:S=1/A,其中,S为第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值,A为目标距离。
通过本发明,采用包括以下步骤的方法:确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词;获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括第一网页搜索关键词对应的网页的统一资源定位符和第二网页搜索关键词对应的网页的统一资源定位符;获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系;获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系;根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测,解决了网页搜索关键词之间的相关性检测不准确的问题,进而通过利用第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测,达到了提高检测网页搜索关键词之间的相关性的准确性的效果。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
图1是根据本发明的网页搜索关键词的相关性检测方法的第一实施例的示意图。如图1所示,该方法包括步骤S102至步骤S110。
步骤S102,确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词。
用于执行网页搜索的网页搜索关键词可以通过在网站中添加javascript代码的方式获得。通过该方式,可以记录用户在一次会话中进行的站内搜索行为,以及用户在网站内进行浏览的网页的序列信息。换言之,可获取用户的网页搜索关键词,以及用户通过网页搜索关键词访问的网页的统一资源定位符等信息。这里,我们研究两个不同的网页搜索关键词之间的相关性。
步骤S104,获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括第一网页搜索关键词对应的网页的统一资源定位符和第二网页搜索关键词对应的网页的统一资源定位符。
统一资源定位符集合中包含第一网页搜索关键词对应的网页的所有统一资源定位符,以及第二网页搜索关键词对应的网页的所有统一资源定位符,并且,去除了第一网页搜索关键词对应的网页的所有统一资源定位符和第二网页搜索关键词对应的网页的所有统一资源定位符中重复的部分。
可以通过如下步骤获取统一资源定位符集合:获取第一统一资源定位符子集合,其中,第一统一资源定位符子集合为第一网页搜索关键词对应的网页的统一资源定位符的集合;获取第二统一资源定位符子集合,其中,第二统一资源定位符子集合为第二网页搜索关键词对应的网页的统一资源定位符的集合。需要说明的是,统一资源定位符集合中包含的统一资源定位符无重复现象。
例如,假设第一网页搜索关键词A对应的网页的所有统一资源定位符为:URL1、URL2、URL3,第二网页搜索关键词B对应的网页的所有统一资源定位符为:URL3、URL4、URL5。则统一资源定位符集合中包含的统一资源定位符为:URL1、URL2、URL3、URL4、URL5。
步骤S106,获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系。
步骤S108,获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系。
优选地,根据以下方法分别确定第一网页搜索关键词和多个统一资源定位符的对应关系:分别判断多个统一资源定位符是否是第一统一资源定位符子集合中包含的统一资源定位符;如果多个统一资源定位符是第一统一资源定位符子集合中包含的统一资源定位符,则分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;如果多个统一资源定位符不是第一统一资源定位符子集合中包含的统一资源定位符,则分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0。
同样地,根据以下方法分别确定第二网页搜索关键词和多个统一资源定位符的对应关系:分别判断多个统一资源定位符是否是第二统一资源定位符子集合中包含的统一资源定位符;如果多个统一资源定位符是第二统一资源定位符子集合中包含的统一资源定位符,则分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;如果多个统一资源定位符不是第二统一资源定位符子集合中包含的统一资源定位符,则分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0。
例如,假设第一网页搜索关键词A对应的网页的所有统一资源定位符为:URL1、URL2、URL3,第二网页搜索关键词B对应的网页的所有统一资源定位符为:URL3、URL4、URL5。则第一向量为[1,1,1,0,0],第二向量为[0,0,1,1,1]。可选地,可将二者记为矩阵形式其中,矩阵的第一行对应关键词A,第二行对应关键词B,第一列对应URL1、第二列对应URL2、第三列对应URL3、第四列对应URL4、第五列对应URL5。
可选地,当存在多个网页搜索关键词时(多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词),确定第三向量中包含的多个元素还包括:如果在对应相同的统一资源定位符时,第一向量和第二向量中对应相同的统一资源定位符的元素均为0,则确定第三向量中对应的元素为0。
假设全部不重复的网页搜索关键词共有M个,对应不重复的统一资源定位符共有N个,可以获得一个M*N维的矩阵A{M,N},其中每一行对应一个网页搜索关键词,每一列对应一个统一资源定位符,A[i,j]表示该网页搜索关键词i的站内搜索结果对象中是否包含有该统一资源定位符j。因此矩阵A的每一行元素之和均为n(假设每个网页搜索关键词共有n个统一资源定位符返回结果)。对每个网页搜索关键词可以获得一个N维0-1向量,值为1表示该网页搜索关键词对应的该URL出现,值为0表示该网页搜索关键词对应的该URL不出现。
例如,假设第一网页搜索关键词A对应的网页的所有统一资源定位符为:URL1、URL2、URL3,第二网页搜索关键词B对应的网页的所有统一资源定位符为:URL3、URL4、URL5,第三网页搜索关键词C对应的网页的所有统一资源定位符为:URL1、URL5、URL6、URL7。则第一向量为[1,1,1,0,0,0,0],第二向量为[0,0,1,1,1,0,0],第三向量为[1,0,0,0,1,1,1]。可选地,可将三者记为矩阵形式其中,矩阵的第一行对应关键词A,第二行对应关键词B,第三行对应关键词C,第一列对应URL1、第二列对应URL2、第三列对应URL3、第四列对应URL4、第五列对应URL5、第六列对应URL6、第七列对应URL7。
步骤S110,根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测。
优选地,根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测可以通过如下步骤进行:根据第一向量和第二向量获取第三向量,其中,通过以下方法确定第三向量中包含的多个元素:如果在对应相同的统一资源定位符时,第一向量和第二向量中对应相同的统一资源定位符的元素均为1,则确定第三向量中对应的元素为0,如果在对应相同的统一资源定位符时,第一向量和第二向量中对应相同的统一资源定位符的元素一个为1、另一个为0,则确定第三向量中对应的元素为1;获取目标距离,其中,目标距离为第三向量中包含的多个元素的平均值,用于表示第一网页搜索关键词和第二网页搜索关键词之间的差异;通过以下式子获取第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值:S=1/A,其中,S为第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值,A为目标距离。
需要说明的是,可以将第三向量中包含的多个元素的平均值视为两个搜索关键词对应的向量之间的距离,该距离越大,说明二者相关性越小,该距离越小,说明二者相关性越大。例如,若两个搜索关键词对应的10个URL均相同(即第三向量中各元素均为0),则认为这两个搜索关键词的相关性最高,反之,若两个搜索关键词对应的10个URL两两均不相同(即第三向量中各元素均为1),则认为这两个搜索关键词的相关性最小。
计算两个向量之间的距离采用亦或运算。假设对于N维向量a和向量b,对于任意位置i(每个i对应一个URL),当a[i]=b[i]时,该位置处对应的第三向量的元素为0,当a[i]≠b[i]时,该位置处对应的第三向量的元素为1。向量a与向量b之间的距离可以通过以下公式计算:
两个网页搜索关键词之间的相关性可以按照以下公式进行计算:
例如,第一网页搜索关键词A对应的第一向量为[1,1,1,0,0],第二网页搜索关键词B对应的第二向量为[0,0,1,1,1],则第三向量为[1,1,0,1,1]。则可以计算得出第一网页搜索关键词A和第二网页搜索关键词B之间的相关性对应的数值为5/4。
该实施例由于采取了以下步骤:确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词;获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括第一网页搜索关键词对应的网页的统一资源定位符和第二网页搜索关键词对应的网页的统一资源定位符;获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系;获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系;根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测,解决了网页搜索关键词之间的相关性检测不准确的问题,进而通过利用第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测,达到了提高检测网页搜索关键词之间的相关性的准确性的效果。
下面是根据本发明的网页搜索关键词的相关性检测方法的第二实施例。该实施例可以作为图1所示实施例的一种优选实施方式。该方法包括如下步骤:
确定用于执行网页搜索的多个网页搜索关键词,其中,多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词。
该步骤同步骤S102,这里不再赘述。
获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括多个网页搜索关键词对应的网页的统一资源定位符。
当用户提交站内搜索请求时,系统会记录网站服务器返回的搜索结果的统一资源定位符列表,以及返回搜索结果中统一资源定位符的排名,结果能够构成一个站内搜索的对象,可以表示为{Query,Url1,Url2,Url3,…,Urln},其中n表示网站站内搜索返回结果首页的统一资源定位符的数目。
由于在实际情况中,往往一个网页搜索关键词对应的统一资源定位符的数量巨大,且获取的向量中的大量值均为0,造成维度灾难的情况。因此,可以采取的处理方法是降维,即将大部分不能经常被查询到的统一资源定位符过滤掉。过滤的步骤包括:分别统计多个统一资源定位符的出现次数;分别判断多个统一资源定位符的出现次数是否小于预设出现次数阈值;获取多个统一资源定位符中出现次数小于预设出现次数阈值的统一资源定位符;将小于预设出现次数阈值的统一资源定位符从统一资源定位符集合中清除。具体地,在处理中,预先设定阈值k。统计各个统一资源定位符被查询到的次数。假设Kj表示第j个统一资源定位符被查询到的次数,统计上即为获取的矩阵第j列的元素之和。过滤掉全部Kj<k的统一资源定位符对应的列。
获取多个目标向量,其中,多个目标向量包含的多个元素分别为多个网页搜索关键词和多个统一资源定位符的对应关系,多个目标向量包括第一向量和第二向量。
例如,获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系。该步骤同步骤S106,这里不再赘述。获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系。该步骤同步骤S108,这里不再赘述。可选地,可以将多个向量合并后记为矩阵的形式。
根据多个向量对多个网页搜索关键词进行相关性检测。
例如,根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测。该步骤同步骤S110,这里不再赘述。
确定多个网页搜索关键词分别属于不同的关键词类,其中,不同的关键词类中每个关键词类只包含一个网页搜索关键词。
根据多个目标向量获取多个目标距离,其中,多个目标距离用于表示多个网页搜索关键词类中任意两个网页搜索关键词类之间的差异。
获取多个目标距离中的最小值。
合并最小值对应的两个网页搜索关键词类成第一目标关键词类。
统计多个网页搜索关键词对应的关键词类的个数。
判断关键词类的个数是否大于预设数量值。
如果关键词类的个数大于预设数量值,则确定第一目标关键词类对应的向量。
利用第一目标关键词类对应的向量,分别获取第一目标关键词类和除两个网页搜索关键词类之外的多个网页搜索关键词类对应的目标距离。
获取第一目标关键词类和除两个网页搜索关键词类之外的多个网页搜索关键词类对应的目标距离中的最小值。
将最小值对应的两个网页搜索关键词类合并成第二目标关键词类。
如果关键词类的个数小于或者等于预设数量值,则不再进行关键词类的合并。
将最小值对应的两个网页搜索关键词合并为目标关键词类,即将最小值对应的两个网页搜索关键词合并为同一个关键词类。假设初始时,每一个关键词均属于一个关键词类,距离最接近的两个关键词类分别为A、B,则创建一个新类C,分别添加原来的类A、类B,类C中含有关键词的个数CountC等于类A、类B包含的关键词个数之和CountA+CountB。可选地,可以更新类C的类中心(根据实际策略进行取舍),计算类中各个关键词向量的统计量(如平均数),得到类向量;添加类C到类集合列表中;并从类集合列表中移除类A和类B。
获取目标关键词类和除两个网页搜索关键词类之外的多个网页搜索关键词类之间的目标距离,可选的策略有多种,包括最近邻距离(Nearest neighbor)、最远邻距离(Furthest neighbor)、重心距离(Centroid cluster)等等。其中,最近邻距离是以两个类中距离最近的两个个体之间的距离作为类间距离;最远邻距离是以两个类中距离最远的两个个体之间的距离作为类间距离;重心距离是以两类变量均值之间的距离作为类间距离。优选地,以最远邻距离作为距离计算的标度,因为该方法的合并门槛较高,被合并的类内距离更小。根据获取的关键词类间的距离值,可以获取多个目标相关性数值。
例如,有4个关键词A、B、C、D,假设各自属于一个关键词类,其对应的向量分别为:
A:[0,0,0,1,0,1];B:[0,1,1,1,0,0];C:[0,0,1,0,0,1];和D:[1,1,1,1,0,0]。因此,可以分别计算各关键词之间的目标距离,计算结果如表1所示:
表1
|
A |
B |
C |
D |
A |
- |
3 |
2 |
4 |
B |
3 |
- |
3 |
1 |
C |
2 |
3 |
- |
4 |
D |
3 |
1 |
4 |
- |
从表1可以看出,关键词B和关键词D之间的距离最小,因此将关键词B和关键词D进行合并,并删除关键词B和关键词D之前分别属于的类,更新关键词类的个数为3个。假设预设数量值为2,则继续计算类距离如表2所示:
表2
|
A |
C |
BD |
A |
- |
2 |
4(=max(3,4)) |
C |
2 |
- |
4(=max(3,4)) |
BD |
4(=max(3,4)) |
4(=max(3,4)) |
- |
从表2可以看出,关键词A和关键词C之间的距离最小,合并关键词A和关键词C,并删除关键词A和关键词C之前分别属于的类,更新关键词类的个数为2,结束合并处理。
如果预设数量值为1,则可以继续更新类距离如表3所示:
表3
合并关键词BD和关键词AC,并删除关键词BD和关键词AC之前分别属于的类,更新关键词类的个数为1,结束合并处理。
可以将上述网页搜索关键词聚类的过程总结为以下步骤:1、将每个网页搜索关键词归为一类,共获得M类,每类仅包含一个网页搜索关键词,其中,类与类之间的距离就是它们各自所包含的关键词对应的向量之间的距离;2、找到相关性最大的两个类合并成一个新类(总的类数减少一个);3、重新计算新类与所有旧类之间的距离;4、重复步骤2和步骤3,直到获得的类达到预设条件为止。
通常,将大量网页搜索关键词进行聚类后,最终获取的关键词类包括多个关键词类,假设多个关键词类包括第一关键词类和第二关键词类,分别将小于预设相关性阈值的目标相关性数值对应的目标关键词簇和网页搜索关键词确定为一个关键词类之后,该方法还可以包括:分别对第一关键词类和第二关键词类进行标识;统计第一数量,其中,第一数量为第一关键词类包含的网页搜索关键词的个数;统计第二数量,其中,第二数量为第二关键词类包含的网页搜索关键词的个数;比较第一数量和第二数量,得到比较结果;按照比较结果对第一关键词类和第二关键词类进行排序。
具体地,不同的关键词类反映不同的用户需求,为对用户需求进行描述,可以对关键词类进行命名。命名方法分为基于规则的命名方法和基于统计的命名方法两种,也可以将两种方法相结合,即混合的命名方法。关键词类的命名方法包括但不限于:根据用户搜索次数或用户搜索点击次数等行为进行命名,选取排序较高的关键词作为命名等。排序是对关键词类的统计量进行排序,统计量越高的关键词类所对应的用户需求越强烈。可以采用的统计量包括但不限于:类内关键词搜索次数和、类内关键词所属的会话数量等。
该实施例根据用户搜索的返回结果对网页搜索进行向量化,从而构建出更加符合用户需求的数学模型,利用该模型能够挖掘出深层次的关键词聚合关系,从而准确地表示用户需求。例如,能够发现“违章”、“电子眼”、“电子jin”和“电子敬察”的关系。
需要说明的是,本发明实施例的网页搜索关键词的相关性检测装置可以用于执行本发明实施例所提供的网页搜索关键词的相关性检测方法,本发明实施例的网页搜索关键词的相关性检测方法也可以通过本发明实施例所提供的网页搜索关键词的相关性检测装置来执行。
图2是根据本发明的网页搜索关键词的相关性检测装置的实施例的示意图。如图2所示,该装置结构包括:确定单元10、第一获取单元20、第二获取单元30、第三获取单元40和检测单元50。
确定单元10,用于确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词。
第一获取单元20,用于获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括第一网页搜索关键词对应的网页的统一资源定位符和第二网页搜索关键词对应的网页的统一资源定位符。
可选地,第一获取单元20包括:第一获取模块,用于获取第一统一资源定位符子集合,其中,第一统一资源定位符子集合为第一网页搜索关键词对应的网页的统一资源定位符的集合;第二获取模块,用于获取第二统一资源定位符子集合,其中,第二统一资源定位符子集合为第二网页搜索关键词对应的网页的统一资源定位符的集合。
可以根据以下模块分别确定第一网页搜索关键词和多个统一资源定位符的对应关系:第一判断子模块,用于分别判断多个统一资源定位符是否是第一统一资源定位符子集合中包含的统一资源定位符;第一确定子模块,用于在多个统一资源定位符是第一统一资源定位符子集合中包含的统一资源定位符时,分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;第二确定子模块,用于在多个统一资源定位符不是第一统一资源定位符子集合中包含的统一资源定位符时,分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0。
同样地,可以根据以下模块分别确定第二网页搜索关键词和多个统一资源定位符的对应关系:第二判断子模块,用于分别判断多个统一资源定位符是否是第二统一资源定位符子集合中包含的统一资源定位符;第三确定子模块,用于在多个统一资源定位符是第二统一资源定位符子集合中包含的统一资源定位符时,分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;第四确定子模块,用于在多个统一资源定位符不是第二统一资源定位符子集合中包含的统一资源定位符时,分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0。
第二获取单元30,用于获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系。
第三获取单元40,用于获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系。
检测单元50,用于根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测。
可选地,检测单元50包括:第三获取模块,用于根据第一向量和第二向量获取第三向量;第四获取模块,用于获取目标距离,其中,目标距离为第三向量中包含的多个元素的平均值,用于表示第一网页搜索关键词和第二网页搜索关键词之间的差异;第五获取模块,用于通过以下式子获取第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值:S=1/A,其中,S为第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值,A为目标距离。
其中,可以通过以下子模块确定第三向量中包含的多个元素:第一确定子模块,用于在对应相同的统一资源定位符,第一向量和第二向量中对应相同的统一资源定位符的元素均为1时,确定第三向量中对应的元素为0,第二确定子模块,用于在对应相同的统一资源定位符,第一向量和第二向量中对应相同的统一资源定位符的元素一个为1、另一个为0时,确定第三向量中对应的元素为1。
本实施例提供的网页搜索关键词的相关性检测装置包括:确定单元10、第一获取单元20、第二获取单元30、第三获取单元40和检测单元50。通过该装置,解决了网页搜索关键词之间的相关性检测不准确的问题,进而通过检测单元50利用第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测,达到了提高检测网页搜索关键词之间的相关性的准确性的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。