CN103176975A - 一种购买词聚类方法和装置 - Google Patents

一种购买词聚类方法和装置 Download PDF

Info

Publication number
CN103176975A
CN103176975A CN2011104303014A CN201110430301A CN103176975A CN 103176975 A CN103176975 A CN 103176975A CN 2011104303014 A CN2011104303014 A CN 2011104303014A CN 201110430301 A CN201110430301 A CN 201110430301A CN 103176975 A CN103176975 A CN 103176975A
Authority
CN
China
Prior art keywords
word
advertiser
purchase
clustering
clustering cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104303014A
Other languages
English (en)
Other versions
CN103176975B (zh
Inventor
杨俊丽
王迪
赫南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110430301.4A priority Critical patent/CN103176975B/zh
Publication of CN103176975A publication Critical patent/CN103176975A/zh
Application granted granted Critical
Publication of CN103176975B publication Critical patent/CN103176975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种购买词聚类方法和装置。该方法包括:根据每个广告主购买的购买词、以及购买每个购买词的次数,为每个购买词建立广告主向量,其中,所述广告主向量中的每个广告主特征均购买了所述购买词,每个广告主特征在所述广告主向量中的权重根据所述次数确定;根据各个购买词的广告主向量,对购买词进行聚类。应用本发明能够提高购买词聚类的准确性。

Description

一种购买词聚类方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种购买词聚类方法和装置。
背景技术
文本聚类技术,是根据文本之间的关联关系,将一组文本划分成若干个子集的技术,子集内的文本之间距离很近,子集之间的距离相差比较大,其实质是寻找隐藏在数据中的不同的数据模型,能够实现样本空问的盲分类。
所谓购买词,是指竞价广告等系统中用户提交的用于竞价的文本内容。购买词是一种较短的文本,平均长度在3-5个词,在某种程度上可以看作是短文本,因此,购买词聚类可以抽象为对一个短文本的集合进行聚类的过程。
现有的文本聚类方法主要是基于VSM的方法,通过把文本映射到向量空间中的一个点,通过计算点与点之间的距离实现对文本进行聚类。而这种常见的聚类方法,对短文本的情形并不是十分奏效,因为短文本存在稀疏性问题:文本长度短,包含的字少,存在一词多义以及一义多词(即一个意思可以用不同的词来表达)的现象。
现有技术中,针对短文本的稀疏性问题,常见的解决方法是对原始文本进行扩充,丰富文本的外在表现形式,从而实现对短文本的聚类。
例如,通过引入重构长文本的思想解决短文本的稀疏性问题;再例如,首先利用FP-Growth算法挖掘训练集特征项与测试集特征项之间的共现关系,然后用得到的关联规则对短文本测试文档中的概念词语进行特征扩展。
可见,现有的短文本聚类方法,都是根据短文本本身包含的词,对短文本的外在表现形式和特征进行扩展,从而克服短文本的稀疏性问题,提高短文本聚类的准确性。
然而,现有这些短文本聚类方法,对聚类准确性的提高仍然有限。
发明内容
有鉴于此,本发明提供了一种购买词聚类方法和装置,能提高购买词聚类的准确性。
本发明的技术方案具体是这样实现的:
一种购买词聚类方法,该方法包括:
根据每个广告主购买的购买词、以及购买每个购买词的次数,为每个购买词建立广告主向量,,
其中,所述广告主向量中的每个广告主特征均购买了所述购买词,每个广告主特征在所述广告主向量中的权重根据所述次数确定;
根据各个购买词的广告主向量,对购买词进行聚类。
一种购买词聚类装置,该装置包括广告主向量建立模块和聚类模块;
所述广告主向量建立模块,用于根据每个广告主购买的购买词、以及购买每个购买词的次数,为每个购买词建立广告主向量,,其中,所述广告主向量中的每个广告主特征均购买了所述购买词,每个广告主特征在所述广告主向量中的权重根据所述次数确定;
所述聚类模块,用于根据各个购买词的广告主向量,对购买词进行聚类。
由上述技术方案可见,本发明通过为购买词建立广告主向量,根据各个购买词的广告主向量,对购买词进行聚类,由于当两个购买词被相同的一个或多个广告主购买时,这两个购买词之间一般存在一定的关联关系,因此,通过比较各个购买词的广告主向量,可以实现对购买词的聚类。
附图说明
图1是本发明提供的购买词聚类方法流程图。
图2是本发明提供的购买词聚类方法第一详细流程图。
图3是本发明提供的购买词聚类方法第二详细流程图。
图4是本发明提供的购买词聚类装置结构图。
具体实施方式
图1是本发明提供的购买词聚类方法流程图。
如图1所示,该方法包括:
步骤101,对于一购买词,根据广告主是否购买了该购买词、以及购买该购买词的次数,为该购买词建立广告主向量。
其中,根据每个广告主购买的购买词、以及购买每个购买词的次数,为每个购买词建立广告主向量,所述广告主向量中的每个广告主特征均购买了所述购买词,每个广告主特征在所述广告主向量中的权重根据所述次数确定。
步骤102,根据各个购买词的广告主向量,对购买词进行聚类。
如果两个购买词被相同的一个或者多个广告主购买,这样这两个购买词之间就潜在的存在一种关联,这种关联可以称为被购买关系。
本发明能根据广告库购买词之间的被购买关系,挖掘出来购买词之间的潜在关联,当用普通的字面意义的方法得不到购买词之间的关系的时候,本方法能明显奏效。本发明适用于购买信息比较充分的系统中。
假设被相同的广告主购买的购买词之间是相似的,利用这种购买关系可以评估出购买词之间的相似程度,从而对购买词进行聚类。通常广告主都是为某种或者某类产品做广告,因此在选择购买词的时候,通常这些购买词都是表达同一主旨的;这样如果一个购买词被广告主A和B购买,另外一个购买词也被广告主A和B购买,当这种共同的广告主集合更大的时候,我们可以认为这两个购买词之间是具有相近含义的;但通常两个购买词对应的广告主列表并不是完全相同的,可能存在部分或者绝大部分的交集,这个时候,我们可以通过交集的多少来衡量购买词之间的相近程度。
在图1所示方法中,首先,每个购买词可以被多个广告主购买,获取每一个购买词的广告主列表,将购买词量化成广告主向量。在将购买词量化成广告主向量时,需要计算购买词与广告主之间的关联,也就是在广告主向量中,每个广告主维度的权重。本发明提出,可以根据广告主购买该购买词的次数,确定该广告主在该购买词的广告主向量中的权重,例如,可以将所述权重直接设置为所述次数,或者对广告主向量中所有广告主购买该购买词的次数进行归一化,将归一化后的值作为广告主的权重。
得到每个购买词的广告主向量之后,可以将计算购买词之间相似度的问题转化为计算购买词的广告主向量之间的相似程度,譬如计算广告主向量之间的夹角余弦值,这样解决了短文本之间无法直接计算关联度的问题。根据购买词的广告主向量之间的相似度来衡量购买关系的相似度,将购买关系很近(例如设置成夹角余弦值大于预定阈值)的购买词合并到一个聚类簇中,从而实现对购买词进行聚类分析。
在聚类的过程中,聚类簇的合并原则可以是:判断购买词到聚类簇中心的距离是否大于设置的相关度阈值,如果大于或等于该阈值,则认为属于同一个聚类簇,将该购买词插入该聚类簇中,如果小于该阈值,则将该购买词作为重新建立的一个新的聚类簇,这样完成聚类簇的分裂,或者等待重新对该购买词进行聚类,例如,在该购买词的广告主向量更新时再进行聚类,或者等待预定周期后再对该购买词进行聚类。
图2是本发明提供的购买词聚类方法第一详细流程图。
如图2所示,该流程包括:
步骤201,确定一个以上的初始聚类簇。
本步骤是为了解决初始聚类时,聚类簇空白的冷开始问题。
确定初始聚类簇的方法可以有多种,例如可以采用下面两种方式确定初始聚类簇:
方式一,随机选择购买词,根据随机选择的购买词确定一个以上的初始聚类簇。例如,将随机选择的不同购买词分别确定为不同的初始聚类簇。
在方式一中,通过随机选择购买词,将随机选择的每个购买词都作为一个单独的初始聚类簇,虽然可以解决聚类簇为空的冷开始问题,但是由于随机选取的多个购买词可能出现抱团的现象,即随机选择的多个购买词之间可能关联性较强,因此,采用方式一在某些情况下会影响聚类效果。
方式二,计算购买词的simhash值,根据不同购买词的simhash值之间的距离,选择所述距离满足预定条件的购买词,根据选出的购买词确定一个以上的初始聚类簇。
两个购买词的simhash值之间的距离,可以在一定程度上反映两个购买词之间的相似度,因此,通过计算购买词的simhash值,选择simhash值之间的距离大于预定阈值的购买词作为不同的初始聚类簇,可以使得初始聚类簇之间具有一定的距离,以便取得良好的聚类效果。
具体地,在方式二中,可以先随机选择一个购买词作为初始聚类簇,然后计算该购买词的simhash值,在该购买词的simhash值的基础上加上或减去一个预设的距离阈值,得到下一目标simhash值,寻找其simhash值为所述下一目标simhash值的购买词,将寻找到的simhash值作为下一个初始聚类簇,以此类推,直至找到预定数目个购买词分别作为初始聚类簇。
在方式一和方式二中,初始聚类簇的个数可以是一个,也可以是多个,较佳地,可以根据需要建立多个初始聚类簇,尽量使得初始聚类簇的数量与实际聚类之后得到的聚类簇的数量相当,这样可以提高聚类的效率和准确性。例如,可以统计所有待分类购买词的simhash值范围,将该范围划分为多个区间,每个区间内选择一个或多个simhash值,将选出的一个或多个simhash值对应的待分类购买词(即这些待分类购买词的simhash值与选出的simhash值相等或差值小于预定阈值)确定为属于一个初始聚类簇。
步骤202,获取待分类的购买词的广告主向量。
步骤203,计算待分类的购买词的广告主向量与各个聚类簇的中心之间的距离。
本步骤中,待分类的购买词的广告主向量与聚类簇的中心之间的距离,可以用于衡量该待分类的购买词与该聚类簇之间的相似度,一般地,所述距离越大,所述相似度越大,反之,距离越小相似度越小。
步骤204,判断所述距离是否满足预定条件,如果是,执行步骤205,否则执行步骤206。
步骤205,将该待分类的购买词分入相应的聚类簇中,结束本流程。
步骤206,将该待分类的购买词确定为新建的聚类簇,结束本流程。
图2所示方法中,计算待分类的购买词的广告主向量与各个聚类簇的中心之间的距离需要耗费一定的计算资源和计算时间,为了节省计算资源、加快聚类速度,本发明提出,可以从已有的聚类簇中选择出部分聚类簇,仅计算选择出的各个聚类簇的中心与待分类的购买词的广告主向量之间的距离,根据计算结果对待分类的购买词进行聚类,具体请参见图3。
图3是本发明提供的购买词聚类方法第二详细流程图。
如图3所示,该流程包括:
步骤301,获取待分类的购买词的广告主向量。
步骤302,确定待分类的购买词的候选聚类簇集合。
本步骤中,确定待分类的购买词的广告主向量中每个广告主特征已经购买的购买词,确定所述已经购买的购买词所归属的聚类簇,确定出的所有聚类簇组成该待分类的购买词的候选聚类簇集合。该购买词的候选聚类簇集合也可以称为该购买词的聚类倒排。
例如,待分类的购买词1的广告主向量由广告主1和广告主2及其各自的权重组成,该广告主1和广告主2是该广告主向量的广告主特征。广告主1购买的所有购买词为购买词1、购买词A和购买词B,广告主2购买的所有购买词为购买词1、购买词C和购买词D,其中,购买词A属于聚类簇a,购买词B属于聚类簇b,购买词C也属于聚类簇a,购买词D暂时还没有进行分类,即不确定购买词D归属于哪一聚类簇,因此,待分类的购买词1的候选聚类簇集合由聚类簇a和聚类簇b组成。
步骤303,计算所述候选聚类簇集合中的各个聚类簇的权重。
本步骤中,对于待分类的购买词的广告主向量中的每个广告主特征,根据该个广告主特征购买某一购买词的次数、以及该某一购买词的广告主向量与该某一购买词所归属的聚类簇中心之间的距离,确定该某一购买词所归属的聚类簇在所述候选聚类簇集合中的权重。
继续上例,假设购买词A被广告主1购买了m1次,购买词A的广告主向量与聚类簇a的中心之间的距离是m2,购买词C被广告主2购买了n1次,购买词C的广告主向量与聚类簇a的中心之间的距离是n2,那么,作为示例性地,可以将聚类簇a在所述待分类的购买词的候选聚类簇集合中的权重确定为m1*m2+n1*n2。
步骤304,根据待分类的购买词的候选聚类簇集合中各个聚类簇的权重,从所述候选聚类簇集合中选择权重满足预定条件的聚类簇。
一般地,可以选择在候选聚类簇集合中的权重排在前面的聚类簇,例如选取权重排在TopN的聚类簇。
步骤305,计算待分类的购买词的广告主向量与从所述候选聚类簇集合中选出的每个聚类簇中心之间的距离。
步骤306,从待分类的购买词的广告主向量与各个聚类簇的中心之间的距离中选出最大的距离。
步骤307,判断该最大的距离是否大于预定阈值,如果是,执行步骤308,否则执行步骤309。
步骤308,将该待分类的购买词分入该最大的距离对应的聚类簇中,结束本流程。
例如,如果待分类的购买词的广告主向量与聚类簇a的距离比该广告主向量与其他聚类簇的距离都大,那么将该待分类的购买词分入聚类簇a中。
步骤309,将该待分类的购买词确定为新建的聚类簇,结束本流程。
通过本步骤,可以实现聚类簇的分裂,即在待分类的购买词不属于现有的任何一个聚类簇时,将该待分类的购买词作为一个新的聚类簇。
步骤309中,对于未聚类成功的待分类购买词,也可以在特定时机对该待分类购买词重新进行聚类,例如,在该待分类的购买词的广告主向量更新时、或者在预定周期后,对该待分类的购买词重新聚类。
上述方法中,聚类簇的中心可以通过如下方法得到:计算聚类簇中所有购买词的广告主向量的平均值,将该平均值确定为该聚类簇的中心。例如,聚类簇a由购买词A和购买词C组成,购买词A的广告主向量为(广告主1(权重1),广告主3(权重3)),购买词C的广告主向量为(广告主2(权重2),广告主3(权重3’)),那么,聚类簇a的中心为(广告主1(权重1),广告主2(权重2),广告主3((权重3+权重3’)/2))。
其中,可以通过计算待分类的购买词的广告主向量与聚类簇的中心之间的夹角的余弦值,将该余弦值确定为该待分类的购买词的广告主向量与该聚类簇的中心之间的距离。
根据图1~图3的方法,本发明可以将整个聚类过程设计成一个随着时间变化的增量过程:维持一个已经完成聚类的购买词列表,当有新的购买词到来时,对该新到来的购买词进行聚类,然后根据聚类结果,将该新到来的购买词加入到所述购买词列表中。该购买词列表中,可以维护有每个购买词所归属的聚类簇。
除了所述购买词列表外,本发明还维护了每个聚类簇包含的购买词,即维护了每个聚类簇的簇成员,还可以维护每个聚类簇的其他相关量,例如每个聚类簇的中心。
本发明还可以维护每个广告主对应的聚类簇集合,即该广告主购买的所有购买词中,各个购买词所归属的聚类簇的集合。
可见,通过本发明,既可以完成全量购买词的聚类,也可以完成新增购买词的聚类,实现全量购买词与新增购买词的聚类结果合并。
通过本发明的上述方法得到的聚类结果中,一般地,属于不同聚类簇的购买词之间的相似度较小,而同一个聚类簇内的不同购买词之间的相似度较大,每个聚类簇中的成员可以看作是具有相同意义的词,但是这种关系并不是绝对的,为了验证挖掘出来的同一聚类簇内的成员之间是否达到聚类的等价标准,还可以使用语义相似度工具做后续验证。例如,可以在相同的聚类簇内选择距离符合一定阈值要求的购买词对,将该购买词对作为关联词对。例如,从一个聚类簇内选择任意两个购买词,计算这两个购买词的广告主向量之间的夹角的余弦值,如果该余弦值大于预定阈值,那么,可以将这两个购买词对确定为一对关联词对。
为了对获得关联词对的准确性进行验证,进而获得等价词对,本发明还提出,可以利用语义相似度工具对关联词对进行验证,如果验证通过,则可以将该关联词对确定为等价词对,否则,确定该关联词对不是等价词对,甚至不是关联词对。
根据本发明提供的购买词聚类方法,本发明还提供了相应的购买词聚类装置,具体请参见图4。
图4是本发明提供的购买词聚类装置结构图。
如图4所示,该装置包括广告主向量建立模块401和聚类模块402。
广告主向量建立模块401,用于根据每个广告主购买的购买词、以及购买每个购买词的次数,为每个购买词建立广告主向量,其中,所述广告主向量中的每个广告主特征均购买了所述购买词,每个广告主特征在所述广告主向量中的权重根据所述次数确定。
聚类模块402,用于根据各个购买词的广告主向量,对购买词进行聚类。
其中的聚类模块402可以包括初始聚类簇确定模块和购买词分类模块。
所述初始聚类簇确定模块,用于确定一个以上的初始聚类簇。
所述购买词分类模块,用于获取待分类的购买词的广告主向量,确定各个聚类簇的中心,计算待分类的购买词的广告主向量与各个聚类簇的中心之间的距离,如果所述距离满足预定条件,则将该待分类的购买词分入相应的聚类簇中。
所述购买词分类模块,用于在待分类的购买词的广告主向量与各个聚类簇的中心之间的距离均不满足所述预定条件时,将该待分类的购买词确定为新建的聚类簇,或者等待重新对所述待分类的购买词进行聚类。
所述初始聚类簇确定模块,可以用于随机选择购买词,根据随机选择的购买词确定一个以上的初始聚类簇。
所述初始聚类簇确定模块,可以用于计算购买词的simhash值,根据不同购买词的simhash值之间的距离,选择所述距离满足预定条件的购买词,根据选出的购买词及其simhash值确定一个以上的初始聚类簇。
所述购买词分类模块,用于确定待分类的购买词的广告主向量中每个广告主特征已经购买的购买词,确定所述已经购买的购买词所归属的聚类簇,确定出的所有聚类簇组成该待分类的购买词的候选聚类簇集合,根据购买词被所述每个广告主特征购买的次数、和该购买词的广告主向量与该购买词所归属的聚类簇中心之间的距离,确定该购买词所归属的聚类簇在所述候选聚类簇集合中的权重,根据待分类的购买词的聚类簇集合中各个聚类簇的权重,从所述聚类簇集合中选择权重满足预定条件的聚类簇,计算待分类的购买词的广告主向量与从所述聚类簇集合中选出的每个聚类簇中心之间的距离,判断所述距离是否满足预定条件,如果是,将该待分类的购买词分入相应的聚类簇中,否则,将该待分类的购买词确定为新建的聚类簇。
所述购买词分类模块,用于计算聚类簇中所有购买词的广告主向量的平均值,将该平均值确定为该聚类簇的中心。
所述购买词分类模块,用于计算待分类的购买词的广告主向量与聚类簇的中心之间的夹角的余弦值,将该余弦值确定为该待分类的购买词的广告主向量与该聚类簇的中心之间的距离。
所述购买词分类模块,用于从待分类的购买词的广告主向量与各个聚类簇的中心之间的距离中选出最大的距离,判断该最大的距离是否大于预定阈值,如果大于,将该待分类的购买词分入所述最大的距离对应的聚类簇中,否则,将该待分类的购买词确定为新建的聚类簇。
该装置还可以包括关联购买词对确定模块。
所述关联购买词对确定模块,用于从同一聚类簇中选择任意两个购买词,计算所述两个购买词的广告主向量之间的夹角的余弦值,在该余弦值大于预定阈值时,将所述两个购买词确定为具有第一置信度的关联购买词对。
该装置还可以包括语义相似度工具。
所述语义相似度工具,用于对所述具有第一置信度的关联购买词对进行过滤,得到具有第二置信度的等价购买词对,其中,第二置信度高于第一置信度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (22)

1.一种购买词聚类方法,其特征在于,该方法包括:
根据每个广告主购买的购买词、以及购买每个购买词的次数,为每个购买词建立广告主向量,
其中,所述广告主向量中的每个广告主特征均购买了所述购买词,每个广告主特征在所述广告主向量中的权重根据所述次数确定;
根据各个购买词的广告主向量,对购买词进行聚类。
2.根据权利要求1所述的方法,其特征在于,所述根据各个购买词的广告主向量,对购买词进行聚类包括:
确定一个以上的初始聚类簇;
获取待分类的购买词的广告主向量,确定各个聚类簇的中心,计算待分类的购买词的广告主向量与各个聚类簇的中心之间的距离,如果所述距离满足预定条件,则将该待分类的购买词分入相应的聚类簇中。
3.根据权利要求2所述的方法,其特征在于,该方法还包括:
在待分类的购买词的广告主向量与各个聚类簇的中心之间的距离均不满足所述预定条件时,将该待分类的购买词确定为新建的聚类簇,或者等待重新对所述待分类的购买词进行聚类。
4.根据权利要求2所述的方法,其特征在于,所述确定一个以上的初始聚类簇包括:
随机选择购买词,根据随机选择的购买词确定一个以上的初始聚类簇。
5.根据权利要求2所述的方法,其特征在于,所述确定一个以上的初始聚类簇包括:
计算购买词的simhash值,根据不同购买词的simhash值之间的距离,选择所述距离满足预定条件的购买词,根据选出的购买词及其simhash值确定一个以上的初始聚类簇。
6.根据权利要求2所述的方法,其特征在于,所述计算待分类的购买词的广告主向量与各个聚类簇的中心之间的距离之前,该方法还包括:
确定待分类的购买词的广告主向量中每个广告主特征已经购买的购买词,确定所述已经购买的购买词所归属的聚类簇,确定出的所有聚类簇组成该待分类的购买词的候选聚类簇集合;
根据购买词被所述每个广告主特征购买的次数、和该购买词的广告主向量与该购买词所归属的聚类簇中心之间的距离,确定该购买词所归属的聚类簇在所述候选聚类簇集合中的权重;
根据待分类的购买词的候选聚类簇集合中各个聚类簇的权重,从所述候选聚类簇集合中选择权重满足预定条件的聚类簇;
所述计算待分类的购买词的广告主向量与各个聚类簇的中心之间的距离包括:
计算待分类的购买词的广告主向量与从所述候选聚类簇集合中选出的每个聚类簇中心之间的距离。
7.根据权利要求2或6所述的方法,其特征在于,所述确定各个聚类簇的中心包括:
计算聚类簇中所有购买词的广告主向量的平均值,将该平均值确定为该聚类簇的中心。
8.根据权利要求2或6所述的方法,其特征在于,所述计算待分类的购买词的广告主向量与各个聚类簇的中心之间的距离包括:
计算待分类的购买词的广告主向量与聚类簇的中心之间的夹角的余弦值,将该余弦值确定为该待分类的购买词的广告主向量与该聚类簇的中心之间的距离。
9.根据权利要求2或6所述的方法,其特征在于,判断所述距离是否满足预定条件包括:
从待分类的购买词的广告主向量与各个聚类簇的中心之间的距离中选出最大的距离,判断该最大的距离是否大于预定阈值,如果大于,则所述距离满足预定条件,否则所述距离不满足预定条件;
所述将该待分类的购买词分入相应的聚类簇中包括:
将该待分类的购买词分入所述最大的距离对应的聚类簇中。
10.根据权利要求2所述的方法,其特征在于,该方法还包括:
从同一聚类簇中选择任意两个购买词,计算所述两个购买词的广告主向量之间的夹角的余弦值,在该余弦值大于预定阈值时,将所述两个购买词确定为具有第一置信度的关联购买词对。
11.根据权利要求10所述的方法,其特征在于,将所述两个购买词确定为具有第一置信度的关联购买词对之后,该方法还包括:
利用语义相似度工具对所述具有第一置信度的关联购买词对进行过滤,得到具有第二置信度的等价购买词对,其中,第二置信度高于第一置信度。
12.一种购买词聚类装置,其特征在于,该装置包括广告主向量建立模块和聚类模块;
所述广告主向量建立模块,用于根据每个广告主购买的购买词、以及购买每个购买词的次数,为每个购买词建立广告主向量,其中,所述广告主向量中的每个广告主特征均购买了所述购买词,每个广告主特征在所述广告主向量中的权重根据所述次数确定;
所述聚类模块,用于根据各个购买词的广告主向量,对购买词进行聚类。
13.根据权利要求12所述的装置,其特征在于,所述聚类模块包括初始聚类簇确定模块和购买词分类模块;
所述初始聚类簇确定模块,用于确定一个以上的初始聚类簇;
所述购买词分类模块,用于获取待分类的购买词的广告主向量,确定各个聚类簇的中心,计算待分类的购买词的广告主向量与各个聚类簇的中心之间的距离,如果所述距离满足预定条件,则将该待分类的购买词分入相应的聚类簇中。
14.根据权利要求13所述的装置,其特征在于,
所述购买词分类模块,用于在待分类的购买词的广告主向量与各个聚类簇的中心之间的距离均不满足所述预定条件时,将该待分类的购买词确定为新建的聚类簇,或者等待重新对所述待分类的购买词进行聚类。
15.根据权利要求13所述的装置,其特征在于,
所述初始聚类簇确定模块,用于随机选择购买词,根据随机选择的购买词确定一个以上的初始聚类簇。
16.根据权利要求13所述的装置,其特征在于,
所述初始聚类簇确定模块,用于计算购买词的simhash值,根据不同购买词的simhash值之间的距离,选择所述距离满足预定条件的购买词,根据选出的购买词及其simhash值确定一个以上的初始聚类簇。
17.根据权利要求13所述的装置,其特征在于,
所述购买词分类模块,用于确定待分类的购买词的广告主向量中每个广告主特征已经购买的购买词,确定所述已经购买的购买词所归属的聚类簇,确定出的所有聚类簇组成该待分类的购买词的候选聚类簇集合,根据购买词被所述每个广告主特征购买的次数、和该购买词的广告主向量与该购买词所归属的聚类簇中心之间的距离,确定该购买词所归属的聚类簇在所述候选聚类簇集合中的权重,根据待分类的购买词的聚类簇集合中各个聚类簇的权重,从所述聚类簇集合中选择权重满足预定条件的聚类簇,计算待分类的购买词的广告主向量与从所述候选聚类簇集合中选出的每个聚类簇中心之间的距离。
18.根据权利要求13或17所述的装置,其特征在于,
所述购买词分类模块,用于计算聚类簇中所有购买词的广告主向量的平均值,将该平均值确定为该聚类簇的中心。
19.根据权利要求13或17所述的装置,其特征在于,
所述购买词分类模块,用于计算待分类的购买词的广告主向量与聚类簇的中心之间的夹角的余弦值,将该余弦值确定为该待分类的购买词的广告主向量与该聚类簇的中心之间的距离。
20.根据权利要求13或17所述的装置,其特征在于,
所述购买词分类模块,用于从待分类的购买词的广告主向量与各个聚类簇的中心之间的距离中选出最大的距离,如果该最大的距离是否大于预定阈值,则将该待分类的购买词分入所述最大的距离对应的聚类簇中。
21.根据权利要求13所述的装置,其特征在于,该装置还包括关联购买词对确定模块;
所述关联购买词对确定模块,用于从同一聚类簇中选择任意两个购买词,计算所述两个购买词的广告主向量之间的夹角的余弦值,在该余弦值大于预定阈值时,将所述两个购买词确定为具有第一置信度的关联购买词对。
22.根据权利要求21所述的装置,其特征在于,该装置还包括语义相似度工具;
所述语义相似度工具,用于对所述具有第一置信度的关联购买词对进行过滤,得到具有第二置信度的等价购买词对,其中,第二置信度高于第一置信度。
CN201110430301.4A 2011-12-20 2011-12-20 一种购买词聚类方法和装置 Active CN103176975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110430301.4A CN103176975B (zh) 2011-12-20 2011-12-20 一种购买词聚类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110430301.4A CN103176975B (zh) 2011-12-20 2011-12-20 一种购买词聚类方法和装置

Publications (2)

Publication Number Publication Date
CN103176975A true CN103176975A (zh) 2013-06-26
CN103176975B CN103176975B (zh) 2015-11-11

Family

ID=48636857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110430301.4A Active CN103176975B (zh) 2011-12-20 2011-12-20 一种购买词聚类方法和装置

Country Status (1)

Country Link
CN (1) CN103176975B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909388A (zh) * 2017-10-30 2018-04-13 北京奇艺世纪科技有限公司 一种基于广告主买词行为的关键词关联扩展方法和装置
CN111046274A (zh) * 2019-11-08 2020-04-21 微梦创科网络科技(中国)有限公司 一种基于实时博文的信息推送方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583922B (zh) * 2017-09-28 2021-11-02 北京京东尚科信息技术有限公司 分析购买需求的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070027749A1 (en) * 2005-07-27 2007-02-01 Hewlett-Packard Development Company, L.P. Advertisement detection
CN101251859A (zh) * 2008-03-17 2008-08-27 北京科文书业信息技术有限公司 基于购物行为的商品聚类系统及其方法
CN101673305A (zh) * 2009-09-29 2010-03-17 百度在线网络技术(北京)有限公司 行业分类方法、装置和服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070027749A1 (en) * 2005-07-27 2007-02-01 Hewlett-Packard Development Company, L.P. Advertisement detection
CN101251859A (zh) * 2008-03-17 2008-08-27 北京科文书业信息技术有限公司 基于购物行为的商品聚类系统及其方法
CN101673305A (zh) * 2009-09-29 2010-03-17 百度在线网络技术(北京)有限公司 行业分类方法、装置和服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马文超: "基于2度频繁词序列的文本聚类算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909388A (zh) * 2017-10-30 2018-04-13 北京奇艺世纪科技有限公司 一种基于广告主买词行为的关键词关联扩展方法和装置
CN111046274A (zh) * 2019-11-08 2020-04-21 微梦创科网络科技(中国)有限公司 一种基于实时博文的信息推送方法及装置

Also Published As

Publication number Publication date
CN103176975B (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
US11238081B2 (en) Method, apparatus, and computer program product for classification and tagging of textual data
CN102193936B (zh) 一种数据分类的方法及装置
US20190114668A1 (en) Application recommendation method and server
CN109360057B (zh) 信息推送方法、装置、计算机设备及存储介质
CN103823896B (zh) 一种学科特征值算法及基于其的项目评审专家推荐算法
CN106815244B (zh) 文本向量表示方法及装置
CN102184169A (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
CN103810264A (zh) 基于特征选择的网页文本分类方法
CN105512277B (zh) 一种面向图书市场书名的短文本聚类方法
CN106776559B (zh) 文本语义相似度计算的方法及装置
CN113268656A (zh) 一种用户推荐方法、装置、电子设备及计算机存储介质
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN104111939A (zh) 一种图书推荐方法和装置
CN105955957A (zh) 一种商家总体评论中方面评分的确定方法及装置
CN103176975B (zh) 一种购买词聚类方法和装置
CN107908649B (zh) 一种文本分类的控制方法
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN107656916A (zh) 一种Simhash算法的海量文档反作弊技术方法
KR102299525B1 (ko) 제품 평가 마이닝 방법 및 이를 수행하는 장치
CN103488656A (zh) 一种数据处理方法及装置
CN109948040A (zh) 对象信息的存储、推荐方法及系统、设备和存储介质
CN112241490A (zh) 分类处理及数据搜索方法、装置、电子设备、智能音箱
CN105335385A (zh) 一种基于项目的协同过滤推荐方法及装置
CN111651512A (zh) 基于半监督学习的多源异构商品特征权重求解方法和装置
JP5890413B2 (ja) 多数のデータレコードをサーチする方法及びサーチエンジン

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant