CN105022754A - 基于社交网络的对象分类方法及装置 - Google Patents

基于社交网络的对象分类方法及装置 Download PDF

Info

Publication number
CN105022754A
CN105022754A CN201410177246.6A CN201410177246A CN105022754A CN 105022754 A CN105022754 A CN 105022754A CN 201410177246 A CN201410177246 A CN 201410177246A CN 105022754 A CN105022754 A CN 105022754A
Authority
CN
China
Prior art keywords
characteristic information
semantic vector
group
participle
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410177246.6A
Other languages
English (en)
Other versions
CN105022754B (zh
Inventor
余建兴
易玲玲
贺鹏
陈川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410177246.6A priority Critical patent/CN105022754B/zh
Priority to PCT/CN2015/077641 priority patent/WO2015165372A1/en
Priority to EP15786331.7A priority patent/EP3138058A4/en
Priority to MYPI2016702354A priority patent/MY176481A/en
Priority to US15/112,491 priority patent/US9875294B2/en
Publication of CN105022754A publication Critical patent/CN105022754A/zh
Application granted granted Critical
Publication of CN105022754B publication Critical patent/CN105022754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明公开了一种基于社交网络的对象分类方法及装置,属于计算机技术领域。所述方法包括:获取对象的特征信息;将特征信息表示成语义向量,语义向量用于反映各个分词在特征信息中同时出现时的相关性特征;将对象的特征信息的语义向量输入预定分类器,得到对象被分类后的初始类别。本发明通过将对象的特征信息表示成语义向量,将该语义向量输入预定分类器,得到对象被分类后的初始类别;解决了现有技术中由于用户信息和群组信息有数亿的规模,空间向量的维度非常大,导致计算的时间复杂度与空间复杂度都非常大,严重损害到向量空间模型的处理效率以及性能的问题;达到了可以大大降低计算的复杂度,提高向量空间模型的处理效率以及性能的效果。

Description

基于社交网络的对象分类方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种基于社交网络的对象分类方法及装置。
背景技术
社交网络通常具有庞大的用户群,这些用户相互交流分享形成很多群组。由于用户有不同的兴趣,因此他们相互形成的群组也有不同的偏好,譬如"篮球"类群,"小区"类群,"瑜伽"类群等。用户要从这海量的数据中找到与自己有类似兴趣的用户或者相似偏好的群组是相当困难的。因此急需一种能够自动地把兴趣相同的用户或者话题相似的群组进行整理归类的聚类方法。
在传统的对用户或者群组进行整理归类的聚类方法中,首先把每一个用户信息或每一个群组信息用0/1表示方法(即对于每条用户信息或群组信息所对应的特征信息,如果某些分词在该特征信息中出现,则将对应的用于表示该分词的向量值设置为1,否则将用于表示该分词的向量值设置为0)表示成空间向量,该空间向量的维度为全部特征的总词数;然后基于特征信息的空间向量利用分类器VSM(Vector Space Model,向量空间模型)进行聚类分析。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:由于用户信息和群组信息有数亿的规模,空间向量的维度非常大,导致计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到向量空间模型的处理效率以及性能。
发明内容
为了解决现有技术中由于用户信息和群组信息有数亿的规模,空间向量的维度非常大,导致计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到向量空间模型的处理效率以及性能的问题,本发明实施例提供了一种基于社交网络的对象分类方法及装置。所述技术方案如下:
第一方面,提供了一种基于社交网络的对象分类方法,所述方法包括:
获取对象的特征信息;
将所述特征信息表示成语义向量,所述语义向量用于反映各个分词在所述特征信息中同时出现时的相关性特征;
将所述对象的特征信息的语义向量输入预定分类器,得到所述对象被分类后的初始类别。
第二方面,提供了一种基于社交网络的对象分类装置,所述装置包括:
第一获取模块,用于获取对象的特征信息;
表示模块,用于将所述特征信息表示成语义向量,所述语义向量用于反映各个分词在所述特征信息中同时出现时的相关性特征;
分类模块,用于将所述对象的特征信息的语义向量输入预定分类器,得到所述对象被分类后的初始类别。
本发明实施例提供的技术方案带来的有益效果是:
通过将对象的特征信息表示成语义向量,将该语义向量输入预定分类器,得到对象被分类后的初始类别;解决了现有技术中由于用户信息和群组信息有数亿的规模,空间向量的维度非常大,导致计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到向量空间模型的处理效率以及性能的问题;由于语义向量是用于反映各个分词在特征信息中同时出现时的相关性特征的向量,因此语义向量的维度远小于空间向量的维度,达到了可以大大降低计算的复杂度,提高向量空间模型的处理效率以及性能的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中提供的基于社交网络的对象分类方法的方法流程图;
图2A是本发明另一个实施例中提供的基于社交网络的对象分类方法的方法流程图;
图2B是本发明一个实施例中提供的将特征信息表示成语义向量的方法的流程示意图;
图2C是本发明一个实施例中提供的确定与对象对应的预定个数相似对象的方法的流程示意图;
图2D是本发明一个实施例中提供的二分图的示意图;
图3是本发明一个实施例中提供的基于社交网络的对象分类装置的结构示意图;
图4是本发明另一个实施例中提供的基于社交网络的对象分类装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
请参见图1所示,其示出了本发明一个实施例中提供的基于社交网络的对象分类方法的方法流程图。该基于社交网络的对象分类方法可以应用于服务器或其他需要进行分类的设备中。该基于社交网络的对象分类方法可以包括:
101,获取对象的特征信息;
102,将特征信息表示成语义向量,语义向量用于反映各个分词在特征信息中同时出现时的相关性特征;
103,将对象的特征信息的语义向量输入预定分类器,得到对象被分类后的初始类别。
综上所述,本发明实施例中提供的基于社交网络的对象分类方法,通过将对象的特征信息表示成语义向量,将该语义向量输入预定分类器,得到对象被分类后的初始类别;解决了现有技术中由于用户信息和群组信息有数亿的规模,空间向量的维度非常大,导致计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到向量空间模型的处理效率以及性能的问题;由于语义向量是用于反映各个分词在特征信息中同时出现时的相关性特征的向量,因此语义向量的维度远小于空间向量的维度,达到了可以大大降低计算的复杂度,提高向量空间模型的处理效率以及性能的效果。
请参见图2A所示,其示出了本发明另一个实施例中提供的基于社交网络的对象分类方法的方法流程图。该基于社交网络的对象分类方法可以应用于服务器或其他需要进行分类的设备中。该基于社交网络的对象分类方法可以包括:
201,获取对象的特征信息;
这里所讲的对象可以包括用户和/或群组。通常群组中可以包含多个用户,一个用户可以同时加入在多个群组中,也可以不存在于任何一个群组中。
当对象为用户时,对象的特征信息则可以为用户信息,比如可以包括用户名、用户的兴趣信息、用户发表的心情或说说内容、用户发表的日志等。特性信息可以包括文本信息和/或非文本信息。
当对象为群组时,对象的特征信息则可以为群组信息,比如可以包括群名称等。
202,将特征信息表示成语义向量;
这里所讲的语义向量可以用于反映各个分词在特征信息中同时出现时的相关性特征。通常来讲,语义向量是利用预定数学模型为每个分词寻找一个连续向量空间中的表示,考虑到上下文语境,利用分词之间在同一个语境中出现的频率来刻画分词的相关性特征。也就是说,一个特征信息的语音向量可以涵盖该特征信息的上下文语境信息。
也正因为语义向量可以涵盖该特征信息的上下文语境信息,因此可以将语义向量的维度降低到非常小的维度,比如可以为200维。
请参见图2B所示,其示出了本发明一个实施例中提供的将特征信息表示成语义向量的方法的流程示意图,将特征信息表示成语义向量,可以包括:
202a,利用预存的语料库,统计出分词在预定个数指定分词后出现的概率,分词以及预定个数指定分词构成特征信息;
语料库中包含有各种特征信息,语料库中的特征信息的来源比较多,比如,服务器可以从其他服务器中获取各种特征信息,用户也可以向服务器上传特征信息。
举例来讲,在语料库中的各种特征信息中,当一个分词为“大学”时,统计该分词在“北京”+“科技”之后出现的概率,其中特征信息为“北京科技大学”。
202b,利用反向传播算法求解预定数学模型,得到特征信息中各个分词的语义向量;
这里所讲的预定数学模型的公式如下:
y=softmax(U·tanh(Hx+d)+Wx+b),
其中,y为分词在各个特征信息中出现的概率所组成的矩阵,x是各个特征信息中的预定个数指定分词的语义向量首尾相接得到的向量,d和b为偏置项,tanh和softmax均为激活函数,U是预定数学模型的隐含层到输出层的参数,W是从预定数学模型的输入层直接到输出层的线性变换。
在实际应用中,语义向量需要能涵盖词的上下文语境信息,这样语义相似的分词,其对应的语义向量的余弦夹角值会比较大,因此在确定相似度的特征信息时具有很好的识别效果。这里通常可以用条件概率来刻画词的上下文语境,也就是每个分词的概率只受前面出现过的分词的影响,条件概率即为P(wi|w1,...,wi-1)。为了简化计算,一般只考虑每个分词受其前n-1个分词(也即指定分词)的影响,即P(wi|wi-n+1,...,wi-1)。一个好的语义向量应该能极大化每一个分词的条件概率P(wi|wi-n+1,...,wi-1),在本实施例中可以选用一个三层的预定数学模型来优化出此概率的最值。
该预定数学模型的输入层是上文所提及的n-1个分词,每个分词对应一个语义向量,分别记为C(wi-n+1),...,C(wi-1),其中每个向量的维度为m。把这n-1个向量首尾相接拼起来,形成一个(n-1)m维的向量,记作x。接着用一个非线性的隐含层为x建模,即tanh(Hx+d)。预定数学模型的输出层是一个|V|维的预测结果,其中V是所有分词的集合。U(即为|V|×h的矩阵,h是隐含层的层数)是隐含层到输出层的参数;W(|V|×(n-1)m的矩阵)是从输入层直接到输出层的一个线性变换。这个预测结果y的第i维度yi表示下一个词为i的概率,即yi=P(wi|wi-n+1,...,wi-1)。
举例来讲,当一个分词在仅在指定分词a1和指定分词a2之后以及指定分词b1和指定分词b2之后出现,且该分词在指定分词a1和指定分词a2之后出现的概率为y1,该分词在指定分词b1和指定分词b2之后出现的概率为y2,指定分词a1和指定分词a2的语义向量分别为Ca1、Ca1,指定分词b1和指定分词b2的语义向量分别为Cb1、Cb1,则:
y = y 1 y 2 , x = C a 1 C a 2 C b 1 C b 2
上述的预定数学模型则可以为:
y 1 y 2 = soft max ( U · tanh ( H C a 1 C a 2 C b 1 C b 2 + d ) + W C a 1 C a 2 C b 1 C b 2 + b )
易于思及的是,当同一个分词存在于大量的特征信息中时,则可以组成较多数量的方程式,其中方程式的结果y是已知的,联合这些方程求解,则可以求解出上述预定数学模型中各个参数,包括各个分词的语义向量C。
202c,将同一个特征信息中各个分词的语义向量相加后归一化,得到特征信息的语义向量。
举例来讲,当特征信息“北京科技大学”时,根据步骤202b,得到的“北京”的语义向量为[0.10.20.1…0.4](比如为200维度的向量),得到的“科技”的语义向量为[0.30.20.2…0.1](也为200维度的向量),得到的“大学”的语义向量为[0.20.10.4…0.5](也为200维度的向量),则[0.10.20.1…0.4]+[0.30.20.2…0.1]+[0.20.10.4…0.5]=[0.60.50.7…1],对得到的向量进行归一化Normalizer,得到[0.30.20.4…0.5],将该归一化得到的向量[0.30.20.4…0.5]作为特征信息“北京科技大学”的语义向量。
203,将对象的特征信息的语义向量输入预定分类器,得到对象被分类后的初始类别;
在一种可能的实现方式中,对于预定的类别,人工为每一种类别选择种子词,比如财经类别的种子词可以包括:“资产”、“信贷”、“利息”等,将各种类别的种子词均表示成语义向量,利用这些语义向量训练得到一个预定分类器,比如可以为支持向量机(SVM,Support Vector Machine)。
将对象的特征信息的语义向量输入至该预定分类器中,则可以得到对象被分类后的初始类别。比如,当一个对象的特征信息的语义向量输入至该预定分类器之后,得到的值,确定该值位于哪个类别所对应的区间中,将与该区间对应的类别确定为该对象的类别。
举例来讲,当存在类别A、类别B和类别C时,其中类别A对应输出值为(0.2,0.4),类别B对应的输出值为(0.4,0.8),类别C对应的输出值为(0.8,0.95),在一个对象的特征信息的语义向量输入至该训练后的预定分类器中之后,如果该预定分类器输出的值为0.56,则可以确定该对象的类别为类别B。
在实际应用中,该预定分类器通常还可以同时获取到对象被分类后的置信度的值,也即在将对象的特征信息的语义向量输入预定分类器,得到对象被分类后的初始类别之后,还可以包括:获取对象在被预定分类器分类时所确定的置信度值;当置信度值大于预定置信度阈值时,将置信度值所对应的对象归类为分类器所确定的类别。
也就是说,当置信度的值大于预定置信度阈值时,则可以确定该对象被预定分类器划分的类别是比较符合真实所属类别的,因此可以将该对象确定为该预定分类器划分的类别。很显然,对于置信度的值大于预定置信度阈值时,由于该对象被预定分类器划分的类别可能不太符合真实的类别,因此则可以暂时不对其进行分类。
在一种可能的情况下,可以将被预定分类器划分得到的类别标记为初始类别。
204,对于每个对象,利用对象的特征信息的语义向量,确定与对象对应的预定个数相似对象;
请参见图2C所示,其示出了本发明一个实施例中提供的确定与对象对应的预定个数相似对象的方法的流程示意图,利用对象的特征信息的语义向量,确定与对象对应的预定个数相似对象,可以包括:
204a,利用对象的特征信息的语义向量,计算对象与其他同类型对象之间的相似度;
当对象为用户时,则需要计算用户与其他用户之间的相似度;当对象为群组时,则需要计算群组与群组之间的相似度。也就是说,在计算对象之间的相似度时,必须是计算同类型的对象之间的相似度。
在一种可能的实现方式中,服务器在利用对象的特征信息的语义向量,计算对象与其他同类型对象之间的相似度时,可以包括:计算对象的语义向量与其他同类型对象的语义向量之间的余弦夹角值;将余弦夹角值确定为相似度。
很显然,在实际应用中,还可以通过其他的计算方式获取两个对象之间的相似度。
204b,按照相似度由高到低排序同类型对象;
204c,依次从排序后的同类型对象中选取预定个数对象,将选取出的预定个数对象确定为对象的相似对象。
这里所讲的预定个数可以根据实际情况进行设定,比如可以为20或30等,本实施例对此并不作限定。
也就是说,当一个对象与其他同类型的对象的相似度均计算出来之后,则可以选取相似度比较高的同类型对象作为该对象的相似对象。举例来讲,当预定个数为3时,计算对象P与其他同类型对象p1、p2、p3、p4、p5之间的相似度,如果对象p1、p2、p3、p4、p5与对象P之间的相似度分别为0.3、0.5、0.6、0.7、0.2,则将这些同类型对象进行排序为:p4、p3、p2、p1、p5,此时选取p4、p3、p2作为该对象P的相似对象。
205,将对象分别与各个相似对象组成对象对;
也即,当对象P的相似对象为p4、p3、p2时,组成的对象对分别为(P,p4)、(P,p3)以及(P,p2)。
206,利用对象对以及群组与群组中的用户之间的对应关系构造二分图;
通常来讲,为了让相似度高的用户/群组尽量聚到一起,在构造二分图时可以考虑具有较高相似度的对象之间的关系。也就是说,在构造二分图时,除了考虑群组与群组中用户之间的关系,还需要考虑组成对象对的用户之间,或者组成对象对的群组之间的关系。
一般的,构造的二分图可以包含至少一组由第一元素和第二元素组成的对应关系,当对应关系的第一元素为一个群组时,则第二元素为群组中的一个用户或为与群组在同一组对象对的群组,或,当对应关系的第一元素为用户时,则第二元素为与用户在同一组对象对的用户。
请参见图2D所示,其示出了本发明一个实施例中提供的二分图的示意图,在构造二分图时,将群组与群组中的各个用户进行连接,且将对象对中的两个对象进行连接,也就是说,当该二分图中的左侧元素(即对应关系中的第一元素)为群组时,与其相关的右侧元素(即对应关系中的第二元素)可以为该群组中的用户,或者可以为与该群组高度相关的(同一组对象对)群组;当该二分图中的左侧元素为用户时,与其相关的右侧元素则可以为与用户同一组对象对中的用户。比如,由图2D中可以看出:群组1包括有用户1和用户3,该群组1还同时与群组2构成对象对;用户1分别与用户1和用户3组成对象对。当群组与用户相连时,连接边所对应的权值则为1,当是对象对的两个对象相连时,则连接边所对应的权值可以为权重*该两个对象之间的相似度值。比如用户3与用户1之间构成对象对,用户3与用户1之间的连接边上的权值为2*0.7,其中2为权重,0.7为用户2和用户3之间的相似度。图2D仅示出了部分连线,由左边元素与右边元素组成的对象对之间的连线,获取群组与群组中用户之间的连线并没有全部示出。
207,利用主题模型算法对二分图中的对象进行聚类;
在一种可能的实现方式中,二分图可以等价表示为一个矩阵,该矩阵中的行为对应关系中的第一元素,列为对应关系中的第二元素,行与列较差的元素值即为对应第一元素和第二元素之间连接边的权值。然后利用主题模型算法(Topic modeling)基于该矩阵进行聚类。
通过主题模型算法可以得到聚类为群组类别的各个群组,以及聚类为用户类别的各个用户。其中群组类别为群组所对应的类别,用户类别为用户所对应的类别。比如聚类为群组类别1的群组包括群组1、群组2和群组5,聚类为群组类别2的群组包括群组3、群组4和群组6;聚类为用户类别1的用户2、用户4、用户5和用户7,聚类为用户类别2的用户1、用户3、用户6和用户8等。
208,计算聚类后属于同一个初始类别的对象的数目;
聚类后,每一种聚类类别中可以包含很多对象,这些对象在经过步骤203时已经确定了初始类别,此时则可以统计该聚类类别中每个初始类别所对应的对象的数目。
209,将数目最多的初始类别确定为扩散类别;
210,将聚类后其他各个对象的类别均确定为扩散类别。
很显然,在一种可能的实现方式中,可以将聚类后其他各个对象的类别均增加该扩散类别,也可以将聚类后其他各个对象的类别均替换为扩散类别。
举例来讲,聚类类别为“篮球”,该聚类类别中包含有20个群组,其中有16个群组的初始类别为“篮球”,3个群组的初始类别为“排球”,1个群组的初始类别为“网球”。此时则可以将初始类别“篮球”确定为扩散类别。然后将初始类别为“排球”的群组以及初始类别为“网球”的群组的类别均增加一个“篮球”类别,或者将初始类别为“排球”的群组以及初始类别为“网球”的群组的类别均替换为“篮球”类别。
综上所述,本发明实施例中提供的基于社交网络的对象分类方法,通过将对象的特征信息表示成语义向量,将该语义向量输入预定分类器,得到对象被分类后的初始类别;解决了现有技术中由于用户信息和群组信息有数亿的规模,空间向量的维度非常大,导致计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到向量空间模型的处理效率以及性能的问题;由于语义向量是用于反映各个分词在特征信息中同时出现时的相关性特征的向量,因此语义向量的维度远小于空间向量的维度,达到了可以大大降低计算的复杂度,提高向量空间模型的处理效率以及性能的效果。
请参见图3所示,其示出了本发明一个实施例中提供的基于社交网络的对象分类装置的结构示意图。该基于社交网络的对象分类装置可以应用于服务器或其他需要进行分类的设备中。该基于社交网络的对象分类装置可以包括:第一获取模块302、表示模块304和分类模块306。
第一获取模块302,可以用于获取对象的特征信息;
表示模块304,可以用于将特征信息表示成语义向量,语义向量用于反映各个分词在特征信息中同时出现时的相关性特征;
分类模块306,可以用于将对象的特征信息的语义向量输入预定分类器,得到对象被分类后的初始类别。
综上所述,本发明实施例中提供的基于社交网络的对象分类装置,通过将对象的特征信息表示成语义向量,将该语义向量输入预定分类器,得到对象被分类后的初始类别;解决了现有技术中由于用户信息和群组信息有数亿的规模,空间向量的维度非常大,导致计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到向量空间模型的处理效率以及性能的问题;由于语义向量是用于反映各个分词在特征信息中同时出现时的相关性特征的向量,因此语义向量的维度远小于空间向量的维度,达到了可以大大降低计算的复杂度,提高向量空间模型的处理效率以及性能的效果。
请参见图4所示,其示出了本发明另一个实施例中提供的基于社交网络的对象分类装置的结构示意图。该基于社交网络的对象分类装置可以应用于服务器或其他需要进行分类的设备中。该基于社交网络的对象分类装置可以包括:第一获取模块402、表示模块404和分类模块406。
第一获取模块402,可以用于获取对象的特征信息;
表示模块404,可以用于将特征信息表示成语义向量,语义向量用于反映各个分词在特征信息中同时出现时的相关性特征;
分类模块406,可以用于将对象的特征信息的语义向量输入预定分类器,得到对象被分类后的初始类别。
在图4所示实施例中的第一种可能的实现方式中,该基于社交网络的对象分类装置还可以包括:第一确定模块408、组成模块410、构造模块412和聚类模块414。
第一确定模块408,可以用于对于每个对象,利用对象的特征信息的语义向量,确定与对象对应的预定个数相似对象;
组成模块410,可以用于将对象分别与各个相似对象组成对象对;
构造模块412,可以用于利用组成模块410组成的对象对以及群组与群组中的用户之间的对应关系构造二分图;
聚类模块414,可以用于利用主题模型算法对二分图中的对象进行聚类;
其中,二分图包含至少一组由第一元素和第二元素组成的对应关系,当对应关系的第一元素为一个群组时,则第二元素为群组中的一个用户或为与群组在同一组对象对的群组,或,当对应关系的第一元素为用户时,则第二元素为与用户在同一组对象对的用户。
在图4所示实施例中的第二种可能的实现方式中,该基于社交网络的对象分类装置还可以包括:计算模块416、第二确定模块418和第三确定模块420。
计算模块416,可以用于计算聚类后属于同一个初始类别的对象的数目;
第二确定模块418,可以用于将计算模块416计算出的数目最多的初始类别确定为扩散类别;
第三确定模块420,可以用于将聚类后其他各个对象的类别均确定为扩散类别。
在图4所示实施例中的第三种可能的实现方式中,第一确定模块408可以包括:计算单元408a、排序单元408b和确定单元408c。
计算单元408a,可以用于利用对象的特征信息的语义向量,计算对象与其他同类型对象之间的相似度;
排序单元408b,可以用于按照计算单元408a计算得到的相似度由高到低排序同类型对象;
确定单元408c,可以用于依次从排序后的同类型对象中选取预定个数对象,将选取出的预定个数对象确定为对象的相似对象。
在图4所示实施例中的第四种可能的实现方式中,计算单元408a可以包括:计算子单元408a1和确定子单元408a2。
计算子单元408a1,可以用于计算对象的语义向量与其他同类型对象的语义向量之间的余弦夹角值;
确定子单元408a2,可以用于将计算子单元408a1计算得到的余弦夹角值确定为相似度。
在图4所示实施例中的第五种可能的实现方式中,该基于社交网络的对象分类装置还可以包括:第二获取模块422和归类模块424。
第二获取模块422,可以用于获取对象在被预定分类器分类时所确定的置信度值;
归类模块424,可以用于当置信度值大于预定置信度阈值时,将置信度值所对应的对象归类为分类器所确定的类别。
在图4所示实施例中的第六种可能的实现方式中,表示模块404可以包括:统计单元404a、求解单元404b和相加单元404c。
统计单元404a,可以用于利用预存的语料库,统计出分词在预定个数指定分词后出现的概率,分词以及预定个数指定分词构成特征信息;
求解单元404b,可以用于利用反向传播算法求解预定数学模型,得到特征信息中各个分词的语义向量;
相加单元404c,可以用于将同一个特征信息中各个分词的语义向量相加后归一化,得到特征信息的语义向量。
在图4所示实施例中的第七种可能的实现方式中,该预定数学模型可以为:
y=softmax(U·tanh(Hx+d)+Wx+b),
其中,y为分词在各个特征信息中出现的概率所组成的矩阵,x是各个特征信息中的预定个数指定分词的语义向量首尾相接得到的向量,d和b为偏置项,tanh和softmax均为激活函数,U是预定数学模型的隐含层到输出层的参数,W是从预定数学模型的输入层直接到输出层的线性变换。
综上所述,本发明实施例中提供的基于社交网络的对象分类装置,通过将对象的特征信息表示成语义向量,将该语义向量输入预定分类器,得到对象被分类后的初始类别;解决了现有技术中由于用户信息和群组信息有数亿的规模,空间向量的维度非常大,导致计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到向量空间模型的处理效率以及性能的问题;由于语义向量是用于反映各个分词在特征信息中同时出现时的相关性特征的向量,因此语义向量的维度远小于空间向量的维度,达到了可以大大降低计算的复杂度,提高向量空间模型的处理效率以及性能的效果。
需要说明的是:上述实施例中提供的基于社交网络的对象分类装置在进行对象分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器或其他需要进行分类的设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于社交网络的对象分类装置与基于社交网络的对象分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种基于社交网络的对象分类方法,其特征在于,所述方法包括:
获取对象的特征信息;
将所述特征信息表示成语义向量,所述语义向量用于反映各个分词在所述特征信息中同时出现时的相关性特征;
将所述对象的特征信息的语义向量输入预定分类器,得到所述对象被分类后的初始类别。
2.根据权利要求1所述的方法,其特征在于,所述对象包括用户和/或群组,在所述将所述特征信息表示成语义向量之后,还包括:
对于每个对象,利用所述对象的特征信息的语义向量,确定与所述对象对应的预定个数相似对象;
将所述对象分别与各个所述相似对象组成对象对;
利用所述对象对以及群组与群组中的用户之间的对应关系构造二分图;
利用主题模型算法对所述二分图中的对象进行聚类;
其中,所述二分图包含至少一组由第一元素和第二元素组成的对应关系,当所述对应关系的第一元素为一个群组时,则所述第二元素为所述群组中的一个用户或为与所述群组在同一组对象对的群组,或,当所述对应关系的第一元素为用户时,则所述第二元素为与所述用户在同一组对象对的用户。
3.根据权利要求2所述的方法,其特征在于,在所述利用主题模型算法对所述二分图中的对象进行聚类之后,还包括:
计算聚类后属于同一个所述初始类别的对象的数目;
将数目最多的所述初始类别确定为扩散类别;
将所述聚类后其他各个对象的类别均确定为所述扩散类别。
4.根据权利要求2所述的方法,其特征在于,所述利用所述对象的特征信息的语义向量,确定与所述对象对应的预定个数相似对象,包括:
利用对象的特征信息的语义向量,计算所述对象与其他同类型对象之间的相似度;
按照所述相似度由高到低排序所述同类型对象;
依次从排序后的所述同类型对象中选取预定个数对象,将选取出的所述预定个数对象确定为所述对象的相似对象。
5.根据权利要求4所述的方法,其特征在于,所述利用对象的特征信息的语义向量,计算所述对象与其他同类型对象之间的相似度,包括:
计算所述对象的语义向量与其他同类型对象的语义向量之间的余弦夹角值;
将所述余弦夹角值确定为所述相似度。
6.根据权利要求1所述的方法,其特征在于,在所述将所述对象的特征信息的语义向量输入预定分类器,得到所述对象被分类后的初始类别之后,还包括:
获取所述对象在被所述预定分类器分类时所确定的置信度值;
当所述置信度值大于预定置信度阈值时,将所述置信度值所对应的对象归类为所述分类器所确定的类别。
7.根据权利要求1至6中任一所述的方法,其特征在于,所述将所述特征信息表示成语义向量,包括:
利用预存的语料库,统计出分词在预定个数指定分词后出现的概率,所述分词以及所述预定个数指定分词构成所述特征信息;
利用反向传播算法求解预定数学模型,得到所述特征信息中各个分词的语义向量;
将同一个特征信息中各个分词的语义向量相加后归一化,得到所述特征信息的语义向量。
8.根据权利要求7所述的方法,其特征在于,所述预定数学模型为:
y=softmax(U·tanh(Hx+d)+Wx+b),
其中,所述y为所述分词在各个特征信息中出现的概率所组成的矩阵,所述x是所述各个特征信息中的所述预定个数指定分词的语义向量首尾相接得到的向量,所述d和b为偏置项,tanh和softmax均为激活函数,所述U是预定数学模型的隐含层到输出层的参数,所述W是从所述预定数学模型的输入层直接到输出层的线性变换。
9.一种基于社交网络的对象分类装置,其特征在于,所述装置包括:
第一获取模块,用于获取对象的特征信息;
表示模块,用于将所述特征信息表示成语义向量,所述语义向量用于反映各个分词在所述特征信息中同时出现时的相关性特征;
分类模块,用于将所述对象的特征信息的语义向量输入预定分类器,得到所述对象被分类后的初始类别。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第一确定模块,用于对于每个对象,利用所述对象的特征信息的语义向量,确定与所述对象对应的预定个数相似对象;
组成模块,用于将所述对象分别与各个所述相似对象组成对象对;
构造模块,用于利用所述组成模块组成的对象对以及群组与群组中的用户之间的对应关系构造二分图;
聚类模块,用于利用主题模型算法对所述二分图中的对象进行聚类;
其中,所述二分图包含至少一组由第一元素和第二元素组成的对应关系,当所述对应关系的第一元素为一个群组时,则所述第二元素为所述群组中的一个用户或为与所述群组在同一组对象对的群组,或,当所述对应关系的第一元素为用户时,则所述第二元素为与所述用户在同一组对象对的用户。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
计算模块,用于计算聚类后属于同一个所述初始类别的对象的数目;
第二确定模块,用于将所述计算模块计算出的数目最多的所述初始类别确定为扩散类别;
第三确定模块,用于将所述聚类后其他各个对象的类别均确定为所述扩散类别。
12.根据权利要求10所述的装置,其特征在于,所述第一确定模块,包括:
计算单元,用于利用对象的特征信息的语义向量,计算所述对象与其他同类型对象之间的相似度;
排序单元,用于按照计算单元计算得到的所述相似度由高到低排序所述同类型对象;
确定单元,用于依次从排序后的所述同类型对象中选取预定个数对象,将选取出的所述预定个数对象确定为所述对象的相似对象。
13.根据权利要求12所述的装置,其特征在于,所述计算单元,包括:
计算子单元,用于计算所述对象的语义向量与其他同类型对象的语义向量之间的余弦夹角值;
确定子单元,用于将所述计算子单元计算得到的所述余弦夹角值确定为所述相似度。
14.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取所述对象在被所述预定分类器分类时所确定的置信度值;
归类模块,用于当所述置信度值大于预定置信度阈值时,将所述置信度值所对应的对象归类为所述分类器所确定的类别。
15.根据权利要求9至14中任一所述的装置,其特征在于,所述表示模块,包括:
统计单元,用于利用预存的语料库,统计出分词在预定个数指定分词后出现的概率,所述分词以及所述预定个数指定分词构成所述特征信息;
求解单元,用于利用反向传播算法求解预定数学模型,得到所述特征信息中各个分词的语义向量;
相加单元,用于将同一个特征信息中各个分词的语义向量相加后归一化,得到所述特征信息的语义向量。
16.根据权利要求15所述的装置,其特征在于,所述预定数学模型为:
y=softmax(U·tanh(Hx+d)+Wx+b),
其中,所述y为所述分词在各个特征信息中出现的概率所组成的矩阵,所述x是所述各个特征信息中的所述预定个数指定分词的语义向量首尾相接得到的向量,所述d和b为偏置项,tanh和softmax均为激活函数,所述U是预定数学模型的隐含层到输出层的参数,所述W是从所述预定数学模型的输入层直接到输出层的线性变换。
CN201410177246.6A 2014-04-29 2014-04-29 基于社交网络的对象分类方法及装置 Active CN105022754B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201410177246.6A CN105022754B (zh) 2014-04-29 2014-04-29 基于社交网络的对象分类方法及装置
PCT/CN2015/077641 WO2015165372A1 (en) 2014-04-29 2015-04-28 Method and apparatus for classifying object based on social networking service, and storage medium
EP15786331.7A EP3138058A4 (en) 2014-04-29 2015-04-28 Method and apparatus for classifying object based on social networking service, and storage medium
MYPI2016702354A MY176481A (en) 2014-04-29 2015-04-28 Method and apparatus for classifying object based on social networking service, and storage medium
US15/112,491 US9875294B2 (en) 2014-04-29 2015-04-28 Method and apparatus for classifying object based on social networking service, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410177246.6A CN105022754B (zh) 2014-04-29 2014-04-29 基于社交网络的对象分类方法及装置

Publications (2)

Publication Number Publication Date
CN105022754A true CN105022754A (zh) 2015-11-04
CN105022754B CN105022754B (zh) 2020-05-12

Family

ID=54358172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410177246.6A Active CN105022754B (zh) 2014-04-29 2014-04-29 基于社交网络的对象分类方法及装置

Country Status (5)

Country Link
US (1) US9875294B2 (zh)
EP (1) EP3138058A4 (zh)
CN (1) CN105022754B (zh)
MY (1) MY176481A (zh)
WO (1) WO2015165372A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682212A (zh) * 2016-12-31 2017-05-17 复旦大学 一种基于用户移动行为的社会关系分类方法与装置
CN106897282A (zh) * 2015-12-17 2017-06-27 阿里巴巴集团控股有限公司 一种用户群的分类方法和设备
CN108345582A (zh) * 2017-01-23 2018-07-31 腾讯科技(深圳)有限公司 一种识别社交群从事业务的方法及装置
CN108537398A (zh) * 2017-03-02 2018-09-14 北京嘀嘀无限科技发展有限公司 人力资源对象分类方法及装置
CN109933788A (zh) * 2019-02-14 2019-06-25 北京百度网讯科技有限公司 类型确定方法、装置、设备和介质
WO2020114108A1 (zh) * 2018-12-04 2020-06-11 阿里巴巴集团控股有限公司 聚类结果的解释方法和装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783958B (zh) * 2016-08-31 2021-07-02 科大讯飞股份有限公司 一种目标语句识别方法及装置
CN107193915A (zh) * 2017-05-15 2017-09-22 北京因果树网络科技有限公司 一种企业信息分类方法及装置
CN108874838A (zh) * 2017-05-16 2018-11-23 北京京东尚科信息技术有限公司 页面推送方法和装置
CN110069669B (zh) * 2017-12-01 2021-08-24 北京搜狗科技发展有限公司 一种关键词标记方法和装置
CN108112026B (zh) * 2017-12-13 2021-10-22 北京奇虎科技有限公司 WiFi识别方法及装置
CN108763314B (zh) * 2018-04-26 2021-01-19 深圳市腾讯计算机系统有限公司 一种兴趣推荐方法、装置、服务器及存储介质
CN110874402A (zh) * 2018-08-29 2020-03-10 北京三星通信技术研究有限公司 基于个性化信息的回复生成方法、设备和计算机可读介质
CN110517069A (zh) * 2019-08-15 2019-11-29 中森云链(成都)科技有限责任公司 一种多模态的用户画像方法及系统
CN116431815B (zh) * 2023-06-12 2023-08-22 临沂大学 一种村务公开数据智慧管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042793A1 (en) * 2000-08-23 2002-04-11 Jun-Hyeog Choi Method of order-ranking document clusters using entropy data and bayesian self-organizing feature maps
WO2010014082A1 (en) * 2008-07-29 2010-02-04 Textwise Llc Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN102123172A (zh) * 2011-02-25 2011-07-13 南京邮电大学 一种基于神经网络聚类优化的Web服务发现的实现方法
CN102542063A (zh) * 2011-12-30 2012-07-04 华为技术有限公司 内容过滤的方法、装置及系统
CN103150335A (zh) * 2013-01-25 2013-06-12 河南理工大学 一种基于联合聚类的煤矿舆情监测系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9123022B2 (en) * 2008-05-28 2015-09-01 Aptima, Inc. Systems and methods for analyzing entity profiles

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042793A1 (en) * 2000-08-23 2002-04-11 Jun-Hyeog Choi Method of order-ranking document clusters using entropy data and bayesian self-organizing feature maps
WO2010014082A1 (en) * 2008-07-29 2010-02-04 Textwise Llc Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN102123172A (zh) * 2011-02-25 2011-07-13 南京邮电大学 一种基于神经网络聚类优化的Web服务发现的实现方法
CN102542063A (zh) * 2011-12-30 2012-07-04 华为技术有限公司 内容过滤的方法、装置及系统
CN103150335A (zh) * 2013-01-25 2013-06-12 河南理工大学 一种基于联合聚类的煤矿舆情监测系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897282A (zh) * 2015-12-17 2017-06-27 阿里巴巴集团控股有限公司 一种用户群的分类方法和设备
CN106897282B (zh) * 2015-12-17 2020-06-05 阿里巴巴集团控股有限公司 一种用户群的分类方法和设备
CN106682212A (zh) * 2016-12-31 2017-05-17 复旦大学 一种基于用户移动行为的社会关系分类方法与装置
CN106682212B (zh) * 2016-12-31 2020-10-30 复旦大学 一种基于用户移动行为的社会关系分类方法与装置
CN108345582A (zh) * 2017-01-23 2018-07-31 腾讯科技(深圳)有限公司 一种识别社交群从事业务的方法及装置
CN108537398A (zh) * 2017-03-02 2018-09-14 北京嘀嘀无限科技发展有限公司 人力资源对象分类方法及装置
WO2020114108A1 (zh) * 2018-12-04 2020-06-11 阿里巴巴集团控股有限公司 聚类结果的解释方法和装置
CN109933788A (zh) * 2019-02-14 2019-06-25 北京百度网讯科技有限公司 类型确定方法、装置、设备和介质
CN109933788B (zh) * 2019-02-14 2023-05-23 北京百度网讯科技有限公司 类型确定方法、装置、设备和介质

Also Published As

Publication number Publication date
US20160357845A1 (en) 2016-12-08
EP3138058A1 (en) 2017-03-08
EP3138058A4 (en) 2017-03-08
WO2015165372A1 (en) 2015-11-05
MY176481A (en) 2020-08-11
CN105022754B (zh) 2020-05-12
US9875294B2 (en) 2018-01-23

Similar Documents

Publication Publication Date Title
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN110674407B (zh) 基于图卷积神经网络的混合推荐方法
CN108399228A (zh) 文章分类方法、装置、计算机设备及存储介质
CN108182279A (zh) 基于文本特征的对象分类方法、装置和计算机设备
CN110390017B (zh) 基于注意力门控卷积网络的目标情感分析方法及系统
CN109492101A (zh) 基于标签信息与文本特征的文本分类方法、系统及介质
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN106874292A (zh) 话题处理方法及装置
CN110399490A (zh) 一种弹幕文本分类方法、装置、设备及存储介质
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN106446931A (zh) 基于支持向量数据描述的特征提取及分类方法及其系统
CN111881302B (zh) 基于知识图谱的银行舆情分析方法和系统
CN104794500A (zh) 一种tri-training半监督学习方法及装置
CN105787025A (zh) 网络平台公共账号分类方法及装置
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN108960574A (zh) 问答的质量确定方法、装置、服务器和存储介质
CN106886576A (zh) 一种基于预分类的短文本关键词提取方法及系统
CN103678318B (zh) 多词单元提取方法和设备及人工神经网络训练方法和设备
CN110516098A (zh) 基于卷积神经网络及二进制编码特征的图像标注方法
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN115456043A (zh) 分类模型处理、意图识别方法、装置和计算机设备
Nguyen et al. An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis
CN111723287A (zh) 一种基于大规模机器学习的内容和服务推荐方法及其系统
CN107861945A (zh) 金融数据分析方法、应用服务器及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant