CN106250378A - 公共标识分类方法及装置 - Google Patents
公共标识分类方法及装置 Download PDFInfo
- Publication number
- CN106250378A CN106250378A CN201510308886.0A CN201510308886A CN106250378A CN 106250378 A CN106250378 A CN 106250378A CN 201510308886 A CN201510308886 A CN 201510308886A CN 106250378 A CN106250378 A CN 106250378A
- Authority
- CN
- China
- Prior art keywords
- public
- clustering
- result
- clustering result
- purity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 62
- 230000006399 behavior Effects 0.000 claims description 43
- 238000013145 classification model Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000006855 networking Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004566 building material Substances 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种公共标识分类方法及装置,属于网络技术领域。所述方法包括:确定与用户行为关联的多个公共标识,得到公共标识列表;根据每一个公共标识的特征向量,对所述公共标识列表中的全部公共标识进行聚类,得到多个聚类结果;基于每一个公共标识的描述信息,在所述多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果;根据所述第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,所述第二类聚类结果的聚类纯净度小于所述预设阈值。由于基于用户行为和公共标识的描述信息对公共标识自动进行分类,因此不但无需人工参与,节省了大量的人力,而且公共标识的分类效果较优。
Description
技术领域
本发明涉及网络技术领域,特别涉及一种公共标识分类方法及装置。
背景技术
互联网应用作为一个为智能终端提供语音、视频、图片、文字等信息交互服务的应用程序,凭借其可跨通信运营商、跨操作系统平台发送语音、视频、图片和文字等优点,受到了广大用户的青睐。随着互联网应用功能的日臻完善,开发者或商家在互联网应用平台上申请公共标识,通过该公共标识,开发者或商家可在互联网应用平台上,基于文字、图片、语音、视频等方式,实现向广大用户全方位地进行信息推送、与广大用户进行沟通或互动等。一般情况下,公共标识在建立时并没有给定其所属的行业类别,而后续过程中为了能够向用户精准推送多媒体数据,还需对公共标识进行分类。
现有技术在进行公共标识分类时,基于监督学习分类模型实现。具体包括:基于公共标识的描述信息人工建立公共标识类目;给定训练样本,该训练样本中包括一定数量的已标注公共标识,该已标注公共标识基于公共标识类目人工标注完成;对该训练样本进行特征提取,并根据提取的特征信息训练出一个监督学习分类模型。对于一个未知类别的公共标识,在提取其特征信息后,基于该监督学习分类模型给出分类结果。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于类目建立和样本标注均需通过人工完成,所以消耗了大量的人力,束缚了模型的进一步优化,对公众标识的分类效果产生了不良影响。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种公共标识分类方法及装置。所述技术方案如下:
一方面,提供了一种公共标识分类方法,所述方法包括:
确定与用户行为关联的多个公共标识,得到公共标识列表;
根据每一个公共标识的特征向量,对所述公共标识列表中的全部公共标识进行聚类,得到多个聚类结果;
基于每一个公共标识的描述信息,在所述多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果;
根据所述第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,所述第二类聚类结果的聚类纯净度小于所述预设阈值。
另一方面,提供了一种公共标识分类装置,所述装置包括:
公共标识确定模块,用于确定与用户行为关联的多个公共标识,得到公共标识列表;
公共标识聚类模块,用于根据每一个公共标识的特征向量,对所述公共标识列表中的全部公共标识进行聚类,得到多个聚类结果;
聚类结果确定模块,用于基于每一个公共标识的描述信息,在所述多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果;
公共标识分类模块,用于根据所述第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,所述第二类聚类结果的聚类纯净度小于所述预设阈值。
本发明实施例提供的技术方案带来的有益效果是:
在确定与用户行为关联的多个公共标识得到公共标识列表后,根据每一个公共标识的特征向量对公共标识列表中的全部公共标识进行聚类;基于每一个公共标识的描述信息,在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果;根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行 分类,由于基于用户行为和公共标识的描述信息对公共标识自动进行分类,因此不但无需人工参与,节省了大量的人力,而且公共标识的分类效果较优。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种公共标识分类方法的流程图;
图2是本发明实施例提供的一种公共标识分类方法的流程图;
图3是本发明实施例提供的一种skip-gram模型示意图;
图4是本发明实施例提供的一种公共标识分类装置的结构示意图;
图5是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种公共标识分类方法的流程图。参见图1,本发明实施例提供的方法流程包括:
101、确定与用户行为关联的多个公共标识,得到公共标识列表。
102、根据每一个公共标识的特征向量,对公共标识列表中的全部公共标识进行聚类,得到多个聚类结果。
103、基于每一个公共标识的描述信息,在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果。
104、根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,第二类聚类结果的聚类纯净度小于预设阈值。
本发明实施例提供的方法,在确定与用户行为关联的多个公共标识得到公共标识列表后,根据每一个公共标识的特征向量对公共标识列表中的全部公共标识进行聚类;基于每一个公共标识的描述信息,在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果;根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,由于基于用户行为和公共标识的描述信息对公共标识自动进行分类,因此不但无需人工参与,节省了大量的人力,而且公共标识的分类效果较优。
可选地,根据每一个公共标识的特征向量,对公共标识列表中的全部公共标识进行聚类之前,该方法还包括:
获取公共标识列表对应的行为矩阵;
根据行为矩阵,基于特定模型计算公共标识列表中每一个公共标识的特征向量。
可选地,基于每一个公共标识的描述信息,在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果,包括:
对于一个聚类结果中每一个公共标识,根据公共标识的描述信息,计算公共标识的文本特征信息;
对于每一个聚类结果,计算聚类结果中任两个公共标识的文本特征信息的相似度平均值,得到聚类结果的聚类纯净度;
判断聚类结果的聚类纯净度是否大于预设阈值;
当聚类结果的聚类纯净度大于预设阈值时,将聚类结果确定为第一类聚类结果。
可选地,应用如下公式,计算聚类结果中任两个公共标识的文本特征信息的相似度平均值,得到聚类结果的聚类纯净度,包括:
其中,purityk指代第k个聚类结果的聚类纯净度,n指代第k个聚类结果中的 公共标识个数,vki指代第k个聚类结果中公共标识i的文本特征信息,vkj指代第k个聚类结果中公共标识j的文本特征信息。
可选地,根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,包括:
根据第一类聚类结果,训练公共标识分类模型;
通过公共标识分类模型,对第二类聚类结果中的公共标识重新进行分类。
可选地,根据每一个公共标识的特征向量,对公共标识列表中的全部公共标识进行聚类,包括:
在全部公共标识中,随机选取预设数目个初始聚类中心;
对于剩余的每一个公共标识,根据公共标识和各个初始聚类中心的特征向量,计算公共标识与各个初始聚类中心在向量空间中的距离;
将公共标识分配至距离公共标识最近的初始聚类中心;
当剩余的公共标识分配完毕后,对于每一个中间聚类结果,重复执行上述聚类过程,直至满足聚类终止条件。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图2是本发明实施例提供的一种公共标识分类方法的流程图。参见图2,本发明实施例提供的方法流程包括:
201、确定与用户行为关联的多个公共标识,得到公共标识列表。
其中,公共标识指代公众号。开发者或商家在互联网应用平台上可申请公众号,通过该公众号,开发者或商家可在互联网应用平台上,基于文字、图片、语音、视频等方式,实现向广大用户进行信息推送、与广大用户进行沟通或互动等。用户行为可指代用户对公众号的关注行为、订阅行为等等,本发明实施例对此不进行具体限定。也即,与用户行为关联的多个公共标识指代用户订阅的公众号或用户关注的公众号等。对于在互联网应用平台上进行注册的用户来 讲,在登录互联网应用后,均可通过互联网应用订阅或关注公众号等,所以服务器在确定与用户行为关联的多个公共标识时,是针对全部注册用户而言的。也即,得到的公共标识列表中包括海量用户订阅或关注的海量公众号。比如,用户A关注了公众号1、公众号2及公众号3,用户B关注了公号1,公众号4,则上述4个公众号均会出现在公共标识列表中。进一步地,服务器还可存储公众号与用户之间的对应关系,即记录某一公众号具体被哪些用户订阅或关注,本发明实施例对此同样不进行具体限定。
202、根据公共标识列表,基于特定模型计算公共标识列表中每一个公共标识的特征向量。
其中,可为公共标识列表初始化一个随机行为矩阵。其中,随机行为矩阵中的每一项可随机初始化为[0,1]之间的值。其维度可为几十维或几百维等,本发明实施例对初始化数值大小和维度大小均不进行具体限定,可视情况而定。
在本发明实施例中,特定模型在本发明实施例中指代word2vec模型。其中,word2vec模型可以通过特征学习的方法将词语表示成低维特征空间中的向量。传统word2vec模型的输入是一个文档,如果文档中的两个词在一定大小的窗口中出现,则将两个词的特征向量调整的近一些,即表明两个词相似。在本发明实施中,我们将公共标识列表看做一个文档,公共标识列表中的公共标识看做文档中的词,与传统word2vec模型不同的是,我们将文档中任意两个词的向量均调整的靠近一些。
其中,word2vec模型可分为下述两种模型:CBOW(Continuous Bag-of-Words Model,连续词袋)模型和skip-gram模型;CBOW模型简单来讲就是上下文决定当前词出现的概率。在CBOW模型中上下文所有的词对当前词出现概率的影响的权重是一样的。skip-gram模型可如图3所示,用于根据当前词预测语境。其中,语境指代以某一个单词为中心,向前k个单词,向后k个单词所形成的短语中包含的单词。在图3中,根据当前单词w(t),预测向前2个单词,w(t-1)、w(t-2),向后2个单词,w(t+1)、w(t+2)。
以表示当前公共标识的特征向量、表示当前公共标识的上下文的特征向量。比如,用户A关注了当前公共标识,则其上下文指代用户A关注的其他公共标识。其中,和是从公共标识列表对应的行为矩阵中得到的,具体可为一个固定维数的列向量。以逻辑回归函数为f(hk)为例,则
其中,hk的值越大,逻辑回归函数为f(hk)的值越接近于1,hk的值越小,逻辑回归函数为f(hk)的值越接近于0。目标函数的优化基于最大似然估计,给定当前公共标识和当前公共标识的上下文,目标函数的值为maxlog(f(hk)),高于在其他公共标识和当前公共标识的上下文的情况。
其中,skip-gram模型基于梯度下降算法进行优化,梯度的计算方式如下:
其中,yk代表目标函数的值,其中,当该第k个公众标识为通过正采样获取时,yk=1;当该第k个公众标识为通过负采样获取时,yk=0。其中,正采样为该第k个公众标识是通过从用户关注行为矩阵中提取的,负采样为该第k个公众标识通过从预设语料库所包括的公众标识中随机抽取得到。
以代表优化后的代表优化后的为例,则
其中,λk代表学习率,通常选取的经验值是0.1,通过上述公式(5)和(6)便得到当前公共标识的特征向量和当前公共标识的上下文的特征向量。类似地,我们可以得到公共标识列表中每一个公共标识对应的低维度特征向量。
203、根据每一个公共标识的特征向量,对公共标识列表中的全部公共标识进行聚类,得到多个聚类结果。
在经过word2vec模型后,对于每一个公共标识来说,均会得到一个与其匹配的特征向量,该特征向量为低维特征空间中的向量。也即,word2vec模型输出的是特征向量。而在得到特征向量后,便可进行诸如下述操作:根据特征向量计算两个公共标识之间的相似度、列出包括所有相似的公共标识额列表、对公共标识进行聚类等。在本发明实施例中,为了对公共标识进行分类,在得到每一个公共标识的特征向量后,对公共标识列表中的全部公共标识进行聚类。其中,在对公共标识进行聚类时本发明实施例采用K-均值算法,具体过程如下:
第一步、在全部公共标识中,随机选取预设数目个初始聚类中心。
其中,预设数目可为几十或几百,本发明实施例对此不进行具体限定,可视公共标识的数量而定。在第一步中,一个初始聚类中心即指代一个公共标识。
第二步、对于剩余的每一个公共标识,根据公共标识和各个初始聚类中心的特征向量,计算公共标识与各个初始聚类中心在向量空间中的距离。
其中,剩余的公共标识指代全部公共标识中除预设数目个初始聚类中心之外的其他公共标识。
第三步、将该公共标识分配至距离该公共标识最近的初始聚类中心。
在本发明实施例中,两个公共标识的特征向量在向量空间中的距离越近,代表两个公共标识越相似。所以在进行聚类时,对于一个待分配的公共标识来说,依据向量空间中的距离大小,将其分配至距离其最近的初始聚类中心。
第四步、当剩余的公共标识分配完毕后,对于每一个中间聚类结果,重复执行上述聚类过程,直至满足聚类终止条件。
其中,聚类终止条件可为下述三个条件之一:没有(或最小数目)公共标 识被重新分配给不同的聚类,或,没有(或最小数目)聚类中心再发生变化,或,误差平方和局部最小。具体选择哪一个条件作为聚类终止条件,本发明实施例对此不进行具体限定,可视情况而定。
在进行聚类时,初始聚类中心以及分配给它们的公共标识就代表一个聚类结果。当根据上述第一步至第三步完成第一轮的聚类后,得到的是中间聚类结果。即,一旦全部公共标识都被分配完毕,每个聚类结果的聚类中心会根据聚类中现有的公共标识被重新计算。这个过程将不断重复直到满足上述聚类终止条件。
至此,上述步骤201至步骤203完成了基于用户行为的公共标识聚类。
204、基于每一个公共标识的描述信息,在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果。
其中,公共标识的描述信息通常指代用于描述公共标识的文本信息。比如,当某一公共标识对应一家餐厅时,那么该描述信息可包括餐厅简介、特色菜品、最近优惠活动、新推菜单等等,本发明实施例对此不进行具体限定。聚类纯净度用于描述聚类结果的好坏。当多个聚类结果均在描述同一类主题,比如两个或两个以上聚类结果都在描述少儿教育、汽车等主题,或,一个聚类结果中的公共标识之间主题相差较大,比如一部分在描述家居用品一部分在描述食品,或,一些聚类结果描述的是跟地域相关的商场、餐厅等,这些公共标识与地域相关,而跟公共号类目不相关,上述聚类结果的聚类纯净度较小,聚类效果很差。而当某一聚类纯净度的数值较大时,比如大于预设阈值,则说明聚类效果较好。
在本发明实施例中,聚类纯净度的计算基于公共标识的描述信息得到,聚类纯净度的计算和判定过程,也即建立一个公共号纯净度判定模型的过程。本发明实施例基于该公共号纯净度判定模型,对基于用户行为的公共标识聚类结果进行进一步地净化。其中,在基于每一个公共标识的描述信息,在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果时,可采取下述方式实 现:
第一步、对于一个聚类结果中每一个公共标识,根据公共标识的描述信息,计算公共标识的文本特征信息。
在本发明实施例中,公共标识的文本特征信息可用一定维度的特征向量进行表示。其中,维数大小可视情况而定,本发明实施例对此不进行具体限定。在根据公共标识的描述信息计算公共标识的文本特征信息时,既可通过word2vec模型实现,还可通过其他模型实现,本发明实施例对此同样不进行具体限定。
第二步、对于每一个聚类结果,计算该聚类结果中任两个公共标识的文本特征信息的相似度平均值,得到聚类结果的聚类纯净度。
其中,在计算一个聚类结果的聚类纯净度时,可基于下述公式(7)实现:
其中,purityk指代第k个聚类结果的聚类纯净度,k值下限为1,上限为聚类结果的个数;n指代第k个聚类结果中的公共标识个数,vki指代第k个聚类结果中公共标识i的文本特征信息,vkj指代第k个聚类结果中公共标识j的文本特征信息。
第三步、判断该聚类结果的聚类纯净度是否大于预设阈值;当该聚类结果的聚类纯净度大于预设阈值时,将该聚类结果确定为第一类聚类结果。
其中,第一类聚类结果中包括多个聚类纯净度大于预设阈值的聚类结果,这些聚类结果统称为第一类聚类结果。对于第一类聚类结果而言,聚类结果的主题或语义即代表公共标识的类目、聚类结果中包括的公共标识即代表该类目下的标注样本。此外,预设阈值的大小可基于先验知识或实际情况分析得出,本发明实施例对此不进行具体限定。其中,公共标识的类目用于表征公共标识的所属行业类别。本发明实施例通过后续不断的完善,建立的类目能够尽可能全的覆盖到已有的公共标识和未来可能会建立的公共标识。类目的设计具有层 级,且类目之间不重合。其中,完善后的类目可表示为下述表1的形式。
表1
一级类目ID | 一级类目名称 | 二级类目ID | 二级类目名称 |
6 | 家居 | 601 | 家装建材 |
6 | 家居 | 602 | 家居服务 |
6 | 家居 | 603 | 家居家纺 |
6 | 家居 | 604 | 家用电器 |
205、根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,第二类聚类结果的聚类纯净度小于预设阈值。
在本发明实施例中,在多个聚类结果中确定第一类聚类结果后,剩余的聚类纯净度小于预设阈值的聚类结果,我们称之为第二类聚类结果。由于第二类聚类结果的聚类效果欠佳,而第一类聚类结果的聚类效果较好,所以我们可根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类。也即,首先基于第一类聚类结果建立一个公共标识分类模型,之后通过该公共标识分类模型,对第二类聚类结果中的公共标识重新进行分类。由于第一类聚类结果中聚类结果的主题或语义对应公共标识类目,该聚类结果中的各个公共标识对应该类目下的标注样本,所以建立的公共标识分类模型是一个基于监督学习的分类模型。
其中,监督学习指代利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。也即,在初始化公共标识分类模型的参数后,基于第一类聚类结果,优化公共标识分类模型中的各个参数,得到训练好的公共标识分类模型。在训练好公共标识分类模型后,对于第二类聚类结果中每一个公共标识而言,在获取到其特征向量后,经过该公共标识分类模型,便可得到该公共标识所归属的类目。也即,实现对第二类聚类结果中全部公共标识的重新分类。
在对公共标识进行分类后,可应用于多种场景中,比如可应用于个性化的 推荐场景中。基于公共标识的分类结果,我们可在一个新用户没有任何历史行为的情况下进行个性化的多媒体数据推送,比如推送广告、视频或图片等等。比如,获取新用户在其他业务中的行为信息,比如用户关注过的或订阅过的公共标识,基于上述公共标识的类别,确定用户的兴趣点,之后基于用户的诸如年龄、地域、性别等基本属性信息,为该新用户建立一个兴趣画像,从而可在冷启动的情况下给该新用户推荐个性化的多媒体数据。
本发明实施例提供的方法,在确定与用户行为关联的多个公共标识得到公共标识列表后,根据每一个公共标识的特征向量对公共标识列表中的全部公共标识进行聚类;基于每一个公共标识的描述信息,在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果;根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,由于基于用户行为和公共标识的描述信息对公共标识自动进行分类,因此不但无需人工参与,节省了大量的人力,而且公共标识的分类效果较优。
图4是本发明实施例提供的一种公共标识分类装置的结构示意图。参见图4,该装置包括:公共标识确定模块401、公共标识聚类模块402、聚类结果确定模块403、公共标识分类模块404。
其中,公共标识确定模块401与公共标识聚类模块402连接,用于确定与用户行为关联的多个公共标识,得到公共标识列表;公共标识聚类模块402与聚类结果确定模块403连接,用于根据每一个公共标识的特征向量,对公共标识列表中的全部公共标识进行聚类,得到多个聚类结果;聚类结果确定模块403与公共标识分类模块404连接,用于基于每一个公共标识的描述信息,在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果;公共标识分类模块404,用于根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,第二类聚类结果的聚类纯净度小于预设阈值。
可选地,该装置还包括:
行为矩阵获取模块,用于获取公共标识列表对应的行为矩阵;
特征向量计算模块,用于根据行为矩阵,基于特定模型计算公共标识列表中每一个公共标识的特征向量。
可选地,聚类结果确定模块,用于对于一个聚类结果中每一个公共标识,根据公共标识的描述信息,计算公共标识的文本特征信息;对于每一个聚类结果,计算聚类结果中任两个公共标识的文本特征信息的相似度平均值,得到聚类结果的聚类纯净度;判断聚类结果的聚类纯净度是否大于预设阈值;当聚类结果的聚类纯净度大于预设阈值时,将聚类结果确定为第一类聚类结果。
可选地,聚类结果确定模块,用于应用如下公式,计算聚类结果中任两个公共标识的文本特征信息的相似度平均值,得到聚类结果的聚类纯净度:
其中,purityk指代第k个聚类结果的聚类纯净度,n指代第k个聚类结果中的公共标识个数,vki指代第k个聚类结果中公共标识i的文本特征信息,vkj指代第k个聚类结果中公共标识j的文本特征信息。
可选地,公共标识分类模块,用于根据第一类聚类结果,训练公共标识分类模型;通过公共标识分类模型,对第二类聚类结果中的公共标识重新进行分类。
可选地,公共标识聚类模块,用于在全部公共标识中,随机选取预设数目个初始聚类中心;对于剩余的每一个公共标识,根据公共标识和各个初始聚类中心的特征向量,计算公共标识与各个初始聚类中心在向量空间中的距离;将公共标识分配至距离公共标识最近的初始聚类中心;当剩余的公共标识分配完毕后,对于每一个中间聚类结果,重复执行上述聚类过程,直至满足聚类终止条件。
本发明实施例提供的装置,在确定与用户行为关联的多个公共标识得到公共标识列表后,根据每一个公共标识的特征向量对公共标识列表中的全部公共 标识进行聚类;基于每一个公共标识的描述信息,在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果;根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,由于基于用户行为和公共标识的描述信息对公共标识自动进行分类,因此不但无需人工参与,节省了大量的人力,而且公共标识的分类效果较优。
需要说明的是:上述实施例提供的公共标识分类装置在进行公共标识分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的公共标识分类装置与公共标识分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是根据一示例性实施例示出的一种服务器,该服务器可以用于实施上述任一示例性实施例示出的文本图片检测方法。具体来讲:参见图5,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Unit,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上 处理器执行,一个或者一个以上程序包含用于进行以下操作的指令:
确定与用户行为关联的多个公共标识,得到公共标识列表;
根据每一个公共标识的特征向量,对公共标识列表中的全部公共标识进行聚类,得到多个聚类结果;
基于每一个公共标识的描述信息,在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果;
根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,第二类聚类结果的聚类纯净度小于预设阈值。
可选地,根据每一个公共标识的特征向量,对公共标识列表中的全部公共标识进行聚类之前,该方法还包括:
获取公共标识列表对应的行为矩阵;
根据行为矩阵,基于特定模型计算公共标识列表中每一个公共标识的特征向量。
可选地,基于每一个公共标识的描述信息,在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果,包括:
对于一个聚类结果中每一个公共标识,根据公共标识的描述信息,计算公共标识的文本特征信息;
对于每一个聚类结果,计算聚类结果中任两个公共标识的文本特征信息的相似度平均值,得到聚类结果的聚类纯净度;
判断聚类结果的聚类纯净度是否大于预设阈值;
当聚类结果的聚类纯净度大于预设阈值时,将聚类结果确定为第一类聚类结果。
可选地,应用如下公式,计算聚类结果中任两个公共标识的文本特征信息的相似度平均值,得到聚类结果的聚类纯净度,包括:
其中,purityk指代第k个聚类结果的聚类纯净度,n指代第k个聚类结果中的公共标识个数,vki指代第k个聚类结果中公共标识i的文本特征信息,vkj指代第k个聚类结果中公共标识j的文本特征信息。
可选地,根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,包括:
根据第一类聚类结果,训练公共标识分类模型;
通过公共标识分类模型,对第二类聚类结果中的公共标识重新进行分类。
可选地,根据每一个公共标识的特征向量,对公共标识列表中的全部公共标识进行聚类,包括:
在全部公共标识中,随机选取预设数目个初始聚类中心;
对于剩余的每一个公共标识,根据公共标识和各个初始聚类中心的特征向量,计算公共标识与各个初始聚类中心在向量空间中的距离;
将公共标识分配至距离公共标识最近的初始聚类中心;
当剩余的公共标识分配完毕后,对于每一个中间聚类结果,重复执行上述聚类过程,直至满足聚类终止条件。
本发明实施例提供的服务器,在确定与用户行为关联的多个公共标识得到公共标识列表后,根据每一个公共标识的特征向量对公共标识列表中的全部公共标识进行聚类;基于每一个公共标识的描述信息,在多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果;根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,由于基于用户行为和公共标识的描述信息对公共标识自动进行分类,因此不但无需人工参与,节省了大量的人力,而且公共标识的分类效果较优。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或 光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种公共标识分类方法,其特征在于,所述方法包括:
确定与用户行为关联的多个公共标识,得到公共标识列表;
根据每一个公共标识的特征向量,对所述公共标识列表中的全部公共标识进行聚类,得到多个聚类结果;
基于每一个公共标识的描述信息,在所述多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果;
根据所述第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,所述第二类聚类结果的聚类纯净度小于所述预设阈值。
2.根据权利要求1所述的方法,其特征在于,所述根据每一个公共标识的特征向量,对所述公共标识列表中的全部公共标识进行聚类之前,所述方法还包括:
获取所述公共标识列表对应的行为矩阵;
根据所述行为矩阵,基于特定模型计算所述公共标识列表中每一个公共标识的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述基于每一个公共标识的描述信息,在所述多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果,包括:
对于一个聚类结果中每一个公共标识,根据所述公共标识的描述信息,计算所述公共标识的文本特征信息;
对于每一个聚类结果,计算所述聚类结果中任两个公共标识的文本特征信息的相似度平均值,得到所述聚类结果的聚类纯净度;
判断所述聚类结果的聚类纯净度是否大于所述预设阈值;
当所述聚类结果的聚类纯净度大于所述预设阈值时,将所述聚类结果确定为所述第一类聚类结果。
4.根据权利要求3所述的方法,其特征在于,应用如下公式,计算所述聚类结果中任两个公共标识的文本特征信息的相似度平均值,得到所述聚类结果的聚类纯净度,包括:
其中,purityk指代第k个聚类结果的聚类纯净度,n指代第k个聚类结果中的公共标识个数,vki指代第k个聚类结果中公共标识i的文本特征信息,vkj指代第k个聚类结果中公共标识j的文本特征信息。
5.根据权利要求1所述的方法,其特征在于,所述根据第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,包括:
根据所述第一类聚类结果,训练公共标识分类模型;
通过所述公共标识分类模型,对所述第二类聚类结果中的公共标识重新进行分类。
6.根据权利要求1所述的方法,其特征在于,所述根据每一个公共标识的特征向量,对所述公共标识列表中的全部公共标识进行聚类,包括:
在所述全部公共标识中,随机选取预设数目个初始聚类中心;
对于剩余的每一个公共标识,根据所述公共标识和各个初始聚类中心的特征向量,计算所述公共标识与所述各个初始聚类中心在向量空间中的距离;
将所述公共标识分配至距离所述公共标识最近的初始聚类中心;
当剩余的公共标识分配完毕后,对于每一个中间聚类结果,重复执行上述聚类过程,直至满足聚类终止条件。
7.一种公共标识分类装置,其特征在于,所述装置包括:
公共标识确定模块,用于确定与用户行为关联的多个公共标识,得到公共标识列表;
公共标识聚类模块,用于根据每一个公共标识的特征向量,对所述公共标识列表中的全部公共标识进行聚类,得到多个聚类结果;
聚类结果确定模块,用于基于每一个公共标识的描述信息,在所述多个聚类结果中确定聚类纯净度大于预设阈值的第一类聚类结果;
公共标识分类模块,用于根据所述第一类聚类结果,对第二类聚类结果中的公共标识重新进行分类,所述第二类聚类结果的聚类纯净度小于所述预设阈值。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
行为矩阵获取模块,用于获取所述公共标识列表对应的行为矩阵;
特征向量计算模块,用于根据所述行为矩阵,基于特定模型计算所述公共标识列表中每一个公共标识的特征向量。
9.根据权利要求7所述的装置,其特征在于,所述聚类结果确定模块,用于对于一个聚类结果中每一个公共标识,根据所述公共标识的描述信息,计算所述公共标识的文本特征信息;对于每一个聚类结果,计算所述聚类结果中任两个公共标识的文本特征信息的相似度平均值,得到所述聚类结果的聚类纯净度;判断所述聚类结果的聚类纯净度是否大于所述预设阈值;当所述聚类结果的聚类纯净度大于所述预设阈值时,将所述聚类结果确定为所述第一类聚类结果。
10.根据权利要求9所述的装置,其特征在于,所述聚类结果确定模块,用于应用如下公式,计算所述聚类结果中任两个公共标识的文本特征信息的相似度平均值,得到所述聚类结果的聚类纯净度:
其中,purityk指代第k个聚类结果的聚类纯净度,n指代第k个聚类结果中的公共标识个数,vki指代第k个聚类结果中公共标识i的文本特征信息,vkj指代第k个聚类结果中公共标识j的文本特征信息。
11.根据权利要求7所述的装置,其特征在于,所述公共标识分类模块,用于根据所述第一类聚类结果,训练公共标识分类模型;通过所述公共标识分类模型,对所述第二类聚类结果中的公共标识重新进行分类。
12.根据权利要求7所述的装置,其特征在于,所述公共标识聚类模块,用于在所述全部公共标识中,随机选取预设数目个初始聚类中心;对于剩余的每一个公共标识,根据所述公共标识和各个初始聚类中心的特征向量,计算所述公共标识与所述各个初始聚类中心在向量空间中的距离;将所述公共标识分配至距离所述公共标识最近的初始聚类中心;当剩余的公共标识分配完毕后,对于每一个中间聚类结果,重复执行上述聚类过程,直至满足聚类终止条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510308886.0A CN106250378B (zh) | 2015-06-08 | 2015-06-08 | 公共标识分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510308886.0A CN106250378B (zh) | 2015-06-08 | 2015-06-08 | 公共标识分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106250378A true CN106250378A (zh) | 2016-12-21 |
CN106250378B CN106250378B (zh) | 2020-06-02 |
Family
ID=57626501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510308886.0A Active CN106250378B (zh) | 2015-06-08 | 2015-06-08 | 公共标识分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106250378B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460396A (zh) * | 2017-09-20 | 2018-08-28 | 腾讯科技(深圳)有限公司 | 负采样方法和装置 |
CN108694171A (zh) * | 2017-04-05 | 2018-10-23 | 腾讯科技(深圳)有限公司 | 信息推送的方法及装置 |
CN109819282A (zh) * | 2017-11-22 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 一种视频用户类别识别方法、装置和介质 |
CN111507400A (zh) * | 2020-04-16 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 应用分类方法、装置、电子设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8165837B1 (en) * | 2008-06-09 | 2012-04-24 | Kla-Tencor Corporation | Multi-scale classification of defects |
CN102799902A (zh) * | 2012-08-13 | 2012-11-28 | 南京师范大学 | 一种基于代表性样本的增强型关系分类器 |
CN104330721A (zh) * | 2014-10-29 | 2015-02-04 | 工业和信息化部电子第五研究所 | 集成电路硬件木马检测方法和系统 |
CN104486461A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 域名分类方法和装置、域名识别方法和系统 |
-
2015
- 2015-06-08 CN CN201510308886.0A patent/CN106250378B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8165837B1 (en) * | 2008-06-09 | 2012-04-24 | Kla-Tencor Corporation | Multi-scale classification of defects |
CN102799902A (zh) * | 2012-08-13 | 2012-11-28 | 南京师范大学 | 一种基于代表性样本的增强型关系分类器 |
CN104330721A (zh) * | 2014-10-29 | 2015-02-04 | 工业和信息化部电子第五研究所 | 集成电路硬件木马检测方法和系统 |
CN104486461A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 域名分类方法和装置、域名识别方法和系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694171A (zh) * | 2017-04-05 | 2018-10-23 | 腾讯科技(深圳)有限公司 | 信息推送的方法及装置 |
CN108460396A (zh) * | 2017-09-20 | 2018-08-28 | 腾讯科技(深圳)有限公司 | 负采样方法和装置 |
CN108460396B (zh) * | 2017-09-20 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 负采样方法和装置 |
CN109819282A (zh) * | 2017-11-22 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 一种视频用户类别识别方法、装置和介质 |
CN109819282B (zh) * | 2017-11-22 | 2021-04-23 | 腾讯科技(深圳)有限公司 | 一种视频用户类别识别方法、装置和介质 |
CN111507400A (zh) * | 2020-04-16 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 应用分类方法、装置、电子设备以及存储介质 |
CN111507400B (zh) * | 2020-04-16 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 应用分类方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106250378B (zh) | 2020-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108021929B (zh) | 基于大数据的移动端电商用户画像建立与分析方法及系统 | |
US10719780B2 (en) | Efficient machine learning method | |
CN111797321B (zh) | 一种面向不同场景的个性化知识推荐方法及系统 | |
CN103117903B (zh) | 上网流量异常检测方法及装置 | |
CN106055661B (zh) | 基于多Markov链模型的多兴趣资源推荐方法 | |
CN106339507B (zh) | 流媒体消息推送方法和装置 | |
CN108804567A (zh) | 提高智能客服应答率的方法、设备、存储介质及装置 | |
CN106250378B (zh) | 公共标识分类方法及装置 | |
Mac Kim et al. | Demographic inference on twitter using recursive neural networks | |
CN110033342A (zh) | 一种推荐模型的训练方法及装置、一种推荐方法及装置 | |
CN107807914A (zh) | 情感倾向的识别方法、对象分类方法及数据处理系统 | |
CN110990576A (zh) | 基于主动学习的意图分类方法、计算机设备和存储介质 | |
CN106156067B (zh) | 用于为关系数据创建数据模型的方法和系统 | |
CN112417294B (zh) | 一种基于神经网络挖掘模型的业务智能推荐方法 | |
CN104239896A (zh) | 一种视频图像中人群密度等级分类方法 | |
CN105069129A (zh) | 自适应多标签预测方法 | |
CN105205130A (zh) | 一种提升推荐系统准确性的方法 | |
CN107133268B (zh) | 一种用于Web服务推荐的协同过滤方法 | |
CN111506755A (zh) | 图片集的分类方法和装置 | |
CN112202849A (zh) | 内容分发方法、装置、电子设备和计算机可读存储介质 | |
CN110751191A (zh) | 一种图像的分类方法及系统 | |
CN115049076A (zh) | 基于原型网络的迭代聚类式联邦学习方法 | |
CN104077408B (zh) | 大规模跨媒体数据分布式半监督内容识别分类方法及装置 | |
CN114743133A (zh) | 一种轻量化的小样本视频分类识别方法及系统 | |
CN110413856A (zh) | 分类标注方法、装置、可读存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |