CN108648093B - 数据处理方法、装置及设备 - Google Patents
数据处理方法、装置及设备 Download PDFInfo
- Publication number
- CN108648093B CN108648093B CN201810367492.6A CN201810367492A CN108648093B CN 108648093 B CN108648093 B CN 108648093B CN 201810367492 A CN201810367492 A CN 201810367492A CN 108648093 B CN108648093 B CN 108648093B
- Authority
- CN
- China
- Prior art keywords
- user
- subtype
- social group
- group
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000005065 mining Methods 0.000 claims abstract description 84
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 18
- 238000009792 diffusion process Methods 0.000 description 16
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法、装置及设备,包括:从第二社交群中获取属于指定群类型的第一社交群,识别该第一社交群中对象对应的子类型,将具有对应的子类型的对象确定为具有目标职业的正样本对象,从所述第二社交群除所述正样本对象以外的对象中,选择负样本对象,根据正样本对象及负样本对象的对象特征训练模型,得到对象挖掘模型。通过对属于指定群类型的第一社交群中的对象对应的子类型进行识别,使得能够精确确定哪些是具有指定群类型对应的目标职业的正样本对象,且通过将该正样本对象的对象特征作为训练样本训练模型,使得能够得到精确识别是否为目标职业的对象挖掘模型,有效提高准确性。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
在校大学生是社交网络最活跃的群体之一,能够准确快速的识别在校大学生对于信息传播,广告投放,内容推荐等应用都有重要的意义。
然而,现有的大学生群体的挖掘模型均存在准确率低的问题。
发明内容
本发明的主要目的在于提供一种数据处理方法、装置及设备,旨在解决现有技术中对具有目标职业的用户进行挖掘的模型存在准确率低的技术问题。
为实现上述目的,本发明第一方面提供数据处理方法,包括:
从第二社交群中获取属于指定群类型的第一社交群;
识别所述第一社交群中用户对应的子类型,将具有对应的子类型的用户确定为具有目标职业的正样本用户,所述指定群类型对应至少一个子类型,且与所述目标职业对应;
从所述第二社交群除所述正样本用户以外的用户中,选择负样本用户,根据所述正样本用户及所述负样本用户的用户特征训练模型,得到用户挖掘模型。
为实现上述目的,本发明第二方面提供一种数据处理装置,包括:
获取模块,用于从第二社交群中获取属于指定群类型的第一社交群;
第一识别模块,用于识别所述第一社交群中用户对应的子类型,将具有对应的子类型的用户确定为具有目标职业的正样本用户,所述指定群类型对应至少一个子类型,且与所述目标职业对应;
训练模块,用于从所述第二社交群除所述正样本用户以外的用户中,选择负样本用户,根据所述正样本用户及所述负样本用户的用户特征训练模型,得到用户挖掘模型。
为实现上述目的,本发明第三方面提供一种设备,包括:存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本发明实施例第一方面提供的数据处理方法中的各个步骤。
本发明提供一种数据处理方法,该方法包括:从第二社交群中获取属于指定群类型的第一社交群,识别该第一社交群中用户对应的子类型,将具有对应的子类型的用户确定为具有目标职业的正样本用户,其中,该指定群类型对应至少一个子类型,且与目标职业对应,从所述第二社交群除所述正样本用户以外的用户中,选择负样本用户,根据所述正样本用户及所述负样本用户的用户特征训练模型,得到用户挖掘模型,该用户挖掘模型是用于进行身份挖掘的,能够挖掘得到具有所述目标职业的用户。相对于现有技术,通过对属于指定群类型的第一社交群中的用户对应的子类型进行识别,使得能够精确确定哪些是具有指定群类型对应的目标职业的正样本用户,且通过将该正样本用户的用户特征作为训练样本训练模型,使得能够得到精确识别是否为目标职业的用户挖掘模型,有效提高准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中用户挖掘系统的框架示意图;
图2为本发明实施例中数据处理方法的流程示意图;
图3为本发明实施例中数据处理方法的流程示意图;
图4为本发明实施例中应用场景的示意图;
图5a至5d为本发明实施例中应用场景的另一示意图;
图6为本发明实施例中数据处理装置的结构示意图;
图7为本发明实施例中数据处理装置的另一结构示意图;
图8为一种设备的结构框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有技术中对目标职业的用户进行挖掘的模型存在准确率低的技术问题。
为了解决上述问题,本发明提出一种数据处理方法,通过对属于指定群类型的第一社交群中的用户对应的子类型进行识别,使得能够精确确定哪些是具有指定群类型对应的目标职业的正样本用户,且通过将该正样本用户的用户特征作为训练样本训练模型,使得能够得到精确识别是否为目标职业的用户挖掘模型,利用该用户挖掘模型进行身份挖掘,能够有效提高挖掘的准确性。
为更好的理解本发明实施例中的技术方案,请参阅图1,为本发明实施例中用户挖掘系统的框架示意图,该示意图中包括:社交服务器、终端、及挖掘服务器。
其中,终端安装有社交应用程序,且该社交应用程序的服务器为社交服务器,用户能够使用终端在该社交应用程序实现社交活动,例如,加入及建立社交群,在社交群中聊天,添加好友等等。挖掘服务器将从社交服务器中获取社交群,并基于该社交群得到本发明实施例中的属于指定群类型的第一社交群,利用该第一社交群确定哪些用户是具有目标职业的正样本用户,且利用具有目标职业的正样本用户的用户特征训练模型,得到用户挖掘模型并进行身份挖掘,得到更多的具有目标职业的第一用户。例如,该指定群类型可以是高校群、有限公司群、事业单位群等等,其中,目标职业可以是学生、公司员工、公务员等等。
可以理解的是,通过目标职业的用户进行挖掘,使得能够有效的实现广告定点投放及内容推荐业务,使得发布的广告及推荐的内容更加符合用户的身份,更好的为用户提供服务。
下面将具体的介绍,挖掘服务器进行数据挖掘的技术方案,请参阅图2,为本发明实施例中数据处理方法的流程示意图,该方法包括:
步骤201、从第二社交群中获取属于指定群类型的第一社交群;
在本发明实施例中,上述数据处理方法由数据处理装置实现,该数据处理装置为程序模块,存储在挖掘服务器内,挖掘服务器内的处理器可以调用该程序模块,即可实现上述数据处理方法。
在本发明实施例中,数据处理装置将从第二社交群中获取属于指定群类型的第一社交群,其中,该第一社交群可以从社交服务器获取,该指定群类型可以是高校群,例如第一社交群可以是所有高校的微信群。
其中,第二社交群可以为社交服务器上创建的所有群,包含所有使用该社交服务器支持的社交应用程序的用户,群信息至少包括群名称,此外还可以包含群类别,如“同学同事”“家校师生”、“兴趣爱好”、“行业交流”等等;还可以包括群基本信息,如群规模、群地点等等。考虑到实际应用中,创建社交群所需要的内容不同,因此上述群信息所包含的内容也可以不同。此外,该第二社交群还可以包含所有未加入任何群的用户,该用户可以当做一个群看待。
步骤202、识别所述第一社交群中用户对应的子类型,将具有对应的子类型的用户确定为具有目标职业的正样本用户;
其中,指定群类型对应至少一个子类型,且与目标职业对应。
在本发明实施例中,第一社交群可以有多种子类型,且第一社交群中有多个用户,每个用户对应的子类型与第一社交群的子类型不一定相同。例如,在指定群类型为高校群的情况下,该指定群类型的子类型则为具体的高校,如深圳大学、北京大学、清华大学等等。而且,考虑到即使一个第一社交群是深圳大学的社交群,也不表示该群中的用户均为深圳大学的学生,也有可能包含清华大学的学生,因此,数据处理装置将识别上述第一社交群中用户对应的子类型,并将识别出具有对应子类型的用户确定为具有目标职业的正样本用户。例如,对于社交群中的用户A,若识别该用户A属于深圳大学,则确定该用户A为具有目标职业(大学生)的正样本用户。
可以理解的是,在指定群类型为高校群的情况下,目标职业可以为大学生,在指定群类型为有限公司的情况下,目标职业可以为公司职员,在指定群类型为事业单位的情况下,目标职业可以为公务员,因此,指定群类型与目标职业之间是具有对应关系的。
上述的第一社交群是指一个或多个第一社交群。
步骤203、从所述第二社交群除所述正样本用户以外的用户中,选择负样本用户,根据所述正样本用户及所述负样本用户的用户特征训练模型,得到用户挖掘模型。
在本发明实施例中,上述的正样本用户可以确定是属于第一社交群,且具有对应的子类型的用户,其必然是具有目标职业的,该目标职业即为指定群类型对应的目标职业,因此,该正样本用户可以作为正样本使用。
可以理解的是,在对模型进行训练,除了正样本用户以外,还需要负样本用户,该负样本用户则可以是:从社交服务器的除第一社交群或者除正样本用户以外的其他群中随机挑选用户作为负样本用户,该负样本用户的人数与正样本用户的人数相同。且将获取到该正样本用户及负样本用户的用户特征训练模型,该模型可以是机器学习模型,例如,支持向量机(Support Vector Machine,SVM)模型,或者循环神经网络(Recurrent NeuralNetworks,RNN)模型。
可以理解的是,在训练模型时使用的用户特征可以基于需要进行选择,例如,该特征可以包括:地理位置特征,社交特征、地理位置与社交相结合的特征。其中,地理位置特征可以是用户在社交过程中发布过的位置,例如发布微信朋友圈时设置的位置,或者是和朋友聊天时共享的位置等等,该地理位置特征在训练模型时可以用于考量用户是否有到达过与任意一所高校重合的区域。其中,社交特征是基于用户在使用社交应用程序时形成的历史社交数据处理得到的,该社交特征可以是好友数目,好友画像等等特征。其中,地理位置与社交相结合的特征则可以是用户的好友所在的省、市分布等等。在实际应用中,还可以定义其他的特征,此处不做限定。
在本发明实施例中,利用正样本用户及负样本用户的用户特征对机器学习模型进行训练之后,将得到能够识别目标职业的用户挖掘模型。其中,在训练过程中,用户特征中的每一个特征都可以抽象化为一个数值表示,则每一个样本用户的用户特征则可以组合成一个向量,且当样本用户为正样本用户时,可以设置其目标标签(即训练为具有目标职业的概率)为1,当样本用户为负样本用户时,可以设置其目标标签为0。
且可进一步的利用该模型进行身份挖掘,挖掘得到具有目标职业的第一用户,可以理解的是,正样本用户与第一用户之间不存在重合,该挖掘到的第一用户即为潜在的具有目标职业的用户,例如,若是进行大学生挖掘,则挖掘到的第一用户则为潜在大学生。
在本发明实施例中,通过对属于指定群类型的第一社交群中的用户对应的子类型进行识别,使得能够精确确定哪些是具有指定群类型对应的目标职业的正样本用户,且通过将该正样本用户的用户特征作为训练样本训练模型,使得能够得到精确识别是否具有目标职业的用户挖掘模型,准确性高,以便利用该用户挖掘模型进行身份挖掘,能够有效提高挖掘的准确性。
为了更好理解本发明实施例中的技术方案,请参阅图3,为本发明实施例中数据处理方法的另一流程示意图,包括:
步骤301、从第二社交群中获取属于指定群类型的第一社交群;
在本发明实施例中,步骤301描述的内容与图2所示实施例中步骤201描述的内容相似,此处不做赘述。
且进一步的,该指定群类型在不同的场景下可以通过不同的方式获取,如:
(1)、利用该指定群类型包含的子类型与预设的第二社交群的群信息进行比对,筛选群信息与任意子类型匹配的第二社交群作为该第一社交群;
或者
(2)利用上述指定群类型包含的子类型及预设的时间规则,与预设的第二社交群的群信息进行比对,筛选群信息与任意子类型匹配,且符合时间规则的第二社交群作为所述第一社交群。
其中,上述指定群类型包含的子类型可以是预先设置的,也可以是行业内规定的,例如,若对大学生进行挖掘,则上述指定群类型则为高校群,指定群类型的子类型则可以是中华人民共和国教育部给出的2914所高等院校,若对公务员进行挖掘,则上述指定群类型则为事业单位,指定群类型的子类型则可以为全国所有的事业单位。同时,考虑到不同类型的群在筛选的时候使用的参数可能会有差别,在实际应用中可以基于具体的需要设置,例如,可以只使用指定群类型包含的子类型进行比对筛选,也可以使用指定群类型包含的子类型及预设的时间规则进行对比筛选,或者,还可以使用到更多的参数,此处不做赘述。
以筛选高校群为例,可以利用上述2914所高等院校的名称与第二社交群的群名称进行比对,筛选群名称中包含任意一所高等院校的名称的第二社交群作为候选社交群,并从候选社交群中,筛选群名称中已限定入学年限4年以内(本科、博士)或3年以内(硕士)(时间规则)的候选社交群,作为第一社交群,使得筛选出的第一社交群为目前在读大学生群的概率较大。例如,若社交群A的群名称中包含深圳大学,则可以确定该社交群A为高校群,且若该社交群A的群名称中包含17届,则可以确定该社交群为符合时间规则的社交群。
以筛选事业单位群为例,则可以利用已经注册且公开的所有事业单位的名称与第二社交群的群名称进行比对,筛选群名称中包含任意一家事业单位的名称的第二社交群作为第一社交群。可以理解的是,事业单位成立之后,并不会像大学生那样几年之后就毕业了,因此可以不使用时间规则进行筛选。
可以理解的是,对于不同的场景,可以进一步的对第一社交群中的用户进行筛选,例如,在筛选的第一社交群为高校群的情况下,由于需要挖掘的目标职业是大学生,因此,可以删除第一社交群中的教授、老师及其他工作人员等。具体可以基于用户的年龄进行筛选,例如,设置年龄的上限为32岁,将第一社交群中用户资料中年龄大于32岁的用户从第一社交群中删除,或者,基于社交数据进行社交特征分析,对社交特征符合教授、老师或高校职工的人员从第一社交群中删除。通过这样的方式,使得后续得到的正样本用户为大学生的准确性更高,能够进一步的提高用户挖掘模型挖掘的精确度,进一步提高大学生挖掘的准确性,避免将学校的老师、行政人员等同样常驻在学校的人群也识别为大学生群体。
步骤302、对于所述第一社交群中的用户,遍历所述用户所属的第一社交群,确定遍历到的第一社交群的子类型,并将所述子类型的数值加1;
步骤303、根据所述用户所属的第一社交群的子类型的数值识别所述用户对应的子类型,将具有对应的子类型的用户确定为具有目标职业的正样本用户;
在本发明实施例中,对于筛选得到的第一社交群中的用户,将确定该用户所属的多个第一社交群的子类型中,哪个子类型出现的次数(数值)最多。
以第一社交群为高校群为例,假设该高校群的集合为G,g∈G为高校群G中的一个高校群,g.name表示群g的高校名称。
对于一个用户u,利用函数school name(u)给出其所在高校中哪一个高校出现的次数最多:
其中,f(u,school,g)为指示函数,如下:
其中,g.name则表示高校群的子类型,即具体的高校,可以统计出用户u在其所在的所有高校群中,具有相同高校名称的群的个数,例如,若用户u属于高校群A至E,且高校群A为第一大学,高校群B为第二大学,高校群C为第一大学,高校D为第二大学,高校群C为第一大学,则可以统计得到,在用户u所属的高校群中,群名称为第一大学的个数为3个,为第二大学的个数为2。
数据处理装置将进一步的根据用户所属的第一社交群的子类型的数值识别用户对应的子类型,具体的:当存在一个最大数值的子类型时,将该最大数值的子类型确定为用户对应的子类型;以上述的高校群为例,若用户u所属的高校群中,高校名称(子类型)为第一大学的个数为3,高校名称为第二大学的个数为2,则确定该用户u为第一大学的学生,即可确定用户u对应的子类型为第一大学。
当存在至少两个最大数值的子类型时,则无法确定该用户对应的子类型,或者,基于最大数值的子类型对应的用户数,将具有最大用户数的子类型确定为用户对应的子类型,例如在用户u所属的高校群中,高校名称为第一大学的个数3,高校名称为第二大学的个数为3,且3为最大值,则计算高校名称为第一大学的3个高校群的并集,得到该并集的第一总用户数,并计算高校名称为第二大学的3个高校群的并集,得到该并集的第二总用户数,比较该第一总用户数与第二总用户数的大小,当第一总用户数大于第二总用户数时,确定第一大学为用户u所属的大学,当第一总用户数小于第二总用户数时,确定第二大学为用户u所属的大学,当第一总用户数等于第二总用户数时,则表明无法确定该用户u所属的大学。可以理解的是,在确定用户u属于第一大学或第二大学之后,该具有对应子类型(第一大学或第二大学)的用户u可以作为正样本用户使用,在无法确定用户u所属的大学时,则用户u不能作为正样本用户使用。可以理解的是,第一社交群中,所有能够确定所属的高校的用户均可以作为正样本用户,该正样本用户即为用于训练模型的正样本用户。
步骤304、从所述第二社交群除所述正样本用户以外的用户中,选择负样本用户,根据所述正样本用户及所述负样本用户的用户特征训练模型,得到用户挖掘模型;
在本发明实施例中,步骤304与图2所示实施例中的步骤所描述的内容相似,可以参阅图2所示实施例中的相关内容,此处不做赘述。
步骤305、利用所述用户挖掘模型,对所述第二社交群除所述正样本用户以外的用户进行职业挖掘,确定具有所述目标职业的第一用户;
数据处理装置在得到用户挖掘模型之后,将对第二社交群中除所述正样本用户以外的其他用户进行识别,挖掘出隐藏的具有目标职业的第一用户。例如,以指定群类型为高校群为例,将对第二社交群中除正样本用户以外的其他用户进行识别,挖掘出潜在大学生。具体的,将其他用户的用户特征输入训练得到的用户挖掘模型中,该用户挖掘模型将输出一个分值,当该分值大于或等于预设大学生身份阈值时,则确定为大学生,当该分值小于该预设大学生身份阈值时,则确定为非大学生。
在本发明实施例中,通过利用指定群类型包含的子类型,及预设的第二社交群的群信息,使得能够挖掘出具有目标职业的正样本用户,以便能够利用该正样本用户进行模型训练,得到能够识别目标职业的用户的用户挖掘模型,挖掘更多的具有目标职业的第一用户,且挖掘的准确性更高。
在本发明实施例中,在对第二社交群中的潜在的具有目标职业的第一用户进行识别之后,可以进一步的识别第一用户的子类型,例如,若识别出第二社交群中的潜在大学生之后,可以对该潜在大学生所属的学校进行识别。
请参阅图3,在图3中,确定具有目标职业的第一用户之后,还可以继续执行以下步骤:
步骤306、将具有预设时长内的区域信息的第一用户确定为第二用户;
步骤307、根据所述第二用户的所述区域信息及所述指定群类型对应的子类型的区域信息,识别所述第二用户对应的子类型;
在本发明实施例中,步骤306及步骤307是对具有预设时长内的区域信息的第二用户进行子类型的识别,例如,以识别大学生为例,在得到潜在大学生(第一用户)之后,对具有预设时长内的区域信息的大学生进行识别,确定其所属的高校。
其中,用户在使用社交应用程序的过程中,可能会产生区域信息,例如,用户在聊天过程中发送定位位置,或者共享位置,又例如,用户在发布朋友圈时选择了位置。
数据处理装置可以从社交服务器获取到第一用户的社交数据,并从社交数据中提取各第一用户的区域信息,且提取预设时长内的区域信息,例如,可以提取30天、60天或90天内的区域信息。且将具有预设时长内的区域信息的第一用户确定为第二用户,根据该第二用户的区域信息识别第二用户对应的子类型,将具有对应的子类型的第二用户作为第三用户。例如,以确定潜在大学生所属的学校为例,可以确定哪些已挖掘的潜在大学生在90天内上传过区域信息,以便进一步确定这些大学生所属的高校。
其中,上述预设时长可以按照划分规则划分为M个连续子时间段,该M为正整数,其中,上述区域信息包括:子时间段与位置区域之间的对应关系,例如,若子时间段为天,则与第m个子时间段对应的位置区域,则为第m天,用户所到达的位置的位置区域。
在本发明实施例中,上述步骤307具体可以包括如下步骤:
步骤A:对于第m个子时间段,将所述第m个子时间段对应的位置区域,与所述指定群类型包含的子类型的位置区域进行匹配,确定所述第m个子时间段匹配的子类型,所述m为1至M;
步骤B:根据所述M个子时间段分别匹配的子类型,确定所述第二用户对应的子类型。
其中,数据处理装置将对第二用户的每一个子时间段内对应的位置区域是否与子类型的位置区域匹配进行判定,并确定第二用户的每一个子时间段匹配的子类型。以确定大学生所属的高校为例,对于第m天,假设第二用户u在第m天访问的位置区域的集合为则区域代表第二用户u在第m天访问的某一个区域a,则将第m天用户所到达的位置区域集合中的每一个位置区域,与指定群类型包含的子类型的位置区域school.area进行匹配,可以通过以下方式计算两个位置区域的匹配度:
当第m个子时间段对应的位置区域为区域a,school.area表示某一个高校的区域,β表示匹配度,当该匹配度大于或等于预设系数时,表明第m个子时间对应的位置区域与子类型的位置区域匹配,当该匹配度小于预设系数时,表明第m个子时间对应的位置区域与子类型的位置区域不匹配,以便确定第m个子时间段匹配的子类型,该预设系数可以基于需要设置,例如设置为0.5。且上述的过程可以用下式表示:
可以理解的是,通过上述方式,可以确定第二用户u在M天内每天所到的高校,即可到第二用户u在第1至第M个子时间段分别对应的子类型。
进一步的,将根据该M个子时间段匹配的子类型,确定第二用户对应的子类型,具体的,遍历该M个子时间段,将遍历到的子时间段匹配的子类型的计数值加1,得到该M个子时间段匹配的子类型的计数值,例如,若一个子时间段匹配的子类型包括子类型A、子类型B及子类型C,则分别将子类型A、子类型B及子类型C的值加1,若遍历到的下一个子时间段的子类型包括子类型A,则将子类型A的值加1。可以理解的是,即使一个子时间段中包含一个子类型出现多次,也仅仅是加1。例如若第m天,第二用户的区域信息包含9点对应的深圳大学,11点对应的深圳大学、下午1点对应的深圳大学,表明用户在第m天达到了深圳大学三次,然而在遍历到第m天时,深圳大学的值仍然是加1。
其中,当最大计数值大于或等于计数阈值时,则将具有该最大计数值的子类型作为第二用户的对应的子类型,当该最大计数值小于上述计数阈值时,则表明无法识别该第二用户对应的子类型。
以确定大学生所属的高校为例,将根据M天匹配的高校,确定第二用户u对应的子类型。具体的,遍历该M天,将遍历到的第m天匹配的高校的计数值加1,即可得到与M天匹配的所有高校中,各高校的计数值,并得到计数值最大的高校。具体,可以按照如下公式计算:
在得到计数值最大的高校之后,计算最大计数值与计数阈值之间的关系,且在最大计数值大于或等于计数阈值时,才确定该最大计数值的高校为第二用户u所属的高校,即需要满足以下条件:
其中,公式左侧为最大计数值,左侧的M为天数,θ表示系数,该系数可以为0.7。上述条件,即为在M天内,第二用户u如果有超过M·θ天都到过某一高校,且第二用户u去该高校的次数最多,则认为第二用户u属于该高校,且可以将该第二用户作为第三用户,第三用户即为挖掘出的潜在大学生,且已确定该大学生所属的高校的大学生。
在本发明实施例中,通过上述方式能够确定部分已上传区域信息的第二用户对应的子类型,可以称为LBS(Location based service)聚合过程。应用在确定潜在大学生所属的高校的场景下,也仅仅能确定部分潜在大学生所属的高校,为了确定更多大学生/用户所属的高校,还可以进行社交扩散,社交扩散是基于社交群中已确定所属高校的大学生,识别群内其他用户所属的大学的方式。
步骤308、遍历第三社交群,统计遍历到的目标第三社交群存在的各子类型对应的用户数;
步骤309、根据所述各子类型对应的用户数,确定所述目标第三社交群中待识别用户对应的子类型。
在本发明实施例中,第三社交群为包含至少一个正样本用户的第二社交群与包含至少一个第一用户的第二社交群的并集。
其中,数据处理装置将遍历第三社交群,统计遍历到的目标第三社交群存在的各子类型对应的用户数,并根据该各子类型对应的用户数,确定目标第三社交群中待识别用户对应的子类型。其中,待识别用户是指第三社交群中除正样本用户及第三用户以外的其他用户。
在本发明实施例中,数据处理装置将有两种扩散方式,分别是:
(1)步骤a:分别计算各类子类型对应的用户数与目标第三社交群总用户数的比值;
例如,以目标第三社交群为高校群为例,若目标第三社交群中有100个用户,其中70个确定是深圳大学的学生,20个是南方科技大学的学生,剩下的10个并未确定所属的高校,则计算到深圳大学的比值为0.7,南方科技大学的比值为0.2,其中,10个未确定所属的高校的用户为待识别用户。
步骤b:数据处理装置从各子类型对应的比值中选择最大比值,当该最大比值大于或等于比例阈值时,提取满足预设条件的待识别用户,其中,该满足预设条件是指:所属的第三社交群中除目标第三社交群以外的其他社交群,存在的子类型种数为1且存在的子类型与最大比值对应的子类型相同,或者,所属的第三社交群的子类型与最大比值对应的子类型相同,或者,除了属于目标第三社交群,不属于其他群。
其中,当最大比值大于或等于比例阈值时,确定目标第三社交群的子类型与该最大比值对应的子类型相同。
步骤c:确定满足预设条件的待识别用户的子类型与最大比例值对应的子类型相同。
以目标第三社交群为高校群为例,接步骤a中的例子,在比例阈值为0.6时,从比值0.7及比值0.2中选择最大比值0.7(最大比值对应的子类型是深圳大学),由于该最大比值0.7大于比例阈值0.6,因此,将从10个待识别用户中提取满足预设条件的待识别用户,并确定满足预设条件的待识别用户属于深圳大学的学生,具体的,将遍历该10个待识别用户,对于遍历到的第i个用户,确定该用户属于那些第三社交群,在第i个用户属于第三社交群A、B、C,且第三社交群A为目标社交群时,确定第三社交群B和C中已确定所属高校的用户均为深圳大学,与最大比值的深圳大学相同,则确定该第i用户满足上述预设条件,确定该第i个用户为深圳大学的学生。其中,当第三社交群B和C中任意一个社交群中还包含其他高校的大学生,则确定第i用户并不满足条件。可以理解的是,该种场景通常出现在第三社交群B和C未确定所属的高校的情况下,在第三社交群B和C均为深圳大学的群时,此时无论第三社交群B和C是否包含已确定为其他高校的学生,都将认为该第i个用户为满足条件的待识别用户,且确定该第i个用户为深圳大学的学生。需要说明的是,通常一个第三社交群中,若属于同一个高校的用户数占总人数的比值大于或等于比例阈值,则该第三社交群属于该高校,因此,上述的第二社教群B属于深圳大学。
在本发明实施例中,将对第三社交群进行多次遍历,直至通过上述方式已经无法识别更多的用户的子类型,以便方式尽可能的实现扩散。
(2)在通过上述(1)中的方式扩散之后,可能还会存在部分无法确定是否属于某个子类型的用户,在这种情况下,为了实现进一步的扩散,还将对所有待识别用户进行进一步的扩散,具体的,遍历该目标第三社交群中的待识别用户,确定遍历到的目标待识别用户所属的第三社交群中存在的各子类型的用户。例如,以高校群为例,若遍历到第三社交群A中包含深圳大学及清华大学的学生,则遍历该高效群中的待识别用户,如遍历到用户B,确定该用户B所属的第三社交群包括第三社交群A、第三社交群C及第三社交群D,在该三个第三社交群包含的高校为深圳大学、清华大学、北京大学时,则分别确定在该三个第三社交群中,哪些是深圳大学的学生,哪些是清华大学的学生,及哪些是北京大学的学生。其中,第三社交群A为目标第三社交群。
在得到目标待识别用户所属的第三社交群中存在的各子类型的用户之后,将利用这些用户进行亲密度的计算,确定目标待识别用户对应的子类型。具体有以下两种方式:
A方式:步骤a1、利用目标待识别用户所属的第三社交群中存在的各子类型的用户,得到各子类型的用户集合;
以高效群为例,接(2)中的例子,对于深圳大学的用户集合,可将第三社交群A、C及D中的已确定为深圳大学的学生求并集得到,对于清华大学及北京大学的学生集合也通过相似的方式求并集。
步骤b1、计算目标待识别用户分别与各子类型的用户集合中的用户之间的平均亲密度,得到所述各子类型的平均亲密度;
步骤c1、当最大平均亲密度大于或等于亲密度阈值时,将最大平均亲密度对应的子类型作为目标待识别用户的子类型。
以高校群为例,接步骤a1的例子,在确定第三社交群A、C及D中,深圳大学的学生集合E、清华大学的学生集合F及北京大学的学生集合G后,将计算用户B与学生集合E中各学生的亲密度,并得到平均亲密度e,计算用户B与学生集合F中各学生的亲密度,并得到平均亲密度f,及计算用户B与学生集合G中各学生的亲密度,得到平均亲密度g,当平均亲密度e最大时,且该平均亲密度e大于或等于预设的亲密度阈值时,将该最大平均亲密度e对应的高校,即深圳大学作为用户B所属的高校。
其中,当平均亲密度小于亲密度阈值时,则确定用户B暂时无法确定其所属的高校。
B方式:步骤a2、从目标待识别用户所属的第三社交群,分别选择子类型与该所属的第三社交群的子类型相同的用户,作为所属的第三社交群的亲密度用户;
其中,第三社交群的子类型为该第三社交群存在的各子类型中,用户数与总用户数的比值最大且大于或等于比例阈值的子类型。
步骤b2、计算目标待识别用户分别于所属的第三社交群的亲密度用户之间亲密度,得到所属第三社交群的平均亲密度;
步骤c2、当最大平均亲密大于亲密度阈值时,将该最大平均亲密度对应的第三社交群的子类型作为目标待识别用户对应的子类型。
以高校群为例,若遍历到第三社交群A包含深圳大学及清华大学的学生,则遍历该高校群中的待识别用户,如遍历到用户B,确定该用户B所属的第三社交群包括第三社交群A、第三社交群C及第三社交群D,在该三个第三社交群包含的高校为深圳大学、清华大学、北京大学时,则分别确定在该三个第三社交群中,哪些是深圳大学的学生,哪些是清华大学的学生,及哪些是北京大学的学生。其中,当第三社交群A属于深圳大学,第三社交群C属于北京大学,第三社交群D属于清华大学时,将从第三社交群A中提取已确定为深圳大学的学生作为第三社交群A的亲密度用户,同样的,将从第三社交群C及D中分别提取第三社交群C及D的亲密度用户,计算用户B与第三社交群A的亲密度用户的亲密度,得到该第三社交群A的平均亲密度a,同样可以得到第三社交群C及D的平均亲密度c和d。当最大平均亲密度为a时,将第三社交群的所属的高校,即深圳大学作为用户B所属的大学。
需要说明的是,数据处理装置将通过上述方式对第三社交群中的各待识别用户进行遍历,直至无法再识别出任何待识别用户对应的子类型,以实现扩散。
可以理解的是,对于前述第一社交群,由于均是与指定群类型的子类型匹配的社交群,因此,上述第一社交群的子类型是确定的。例如,若一个社交群的群名称中存在深圳大学的字样,则表明该社交群是深圳大学(子类型)的社交群。
在本发明实施例中,通过对属于指定群类型的第一社交群中的用户对应的子类型进行识别,使得能够精确确定哪些是具有指定群类型对应的目标职业的正样本用户,且利用该正样本用户的用户特征训练模型,使得能够得到精确识别是否具有目标职业的用户挖掘模型,利用该用户挖掘模型进行身份挖掘,能够有效提高挖掘的准确性。
进一步的,通过利用具有预设时长内的区域信息的第一用户作为第二用户进行LBS聚合,使得能够能够有效的确定更多具有目标职业的用户对应的子类型,且准确性高。
进一步的,通过在第三社交群中进行社交扩散的方式能够进一步的识别更多具有目标职业且具有对应的子类型的用户,且准确性高。以在高校群挖掘大学生为例,能够避免挖掘到学校老师和行政人员等非学生的人群。
为了更好的理解本发明实施例中的技术方案,下面将介绍一个具体的应用场景,该场景中社交应用程序为微信群,指定群类型为高校群,目标职业为大学生,请参阅图4,为对大学生进行挖掘及所属高校定位的流程示意图。
其中,全量微信用户对应图3所示实施例中的第二社交群,挖掘服务器可以从微信服务器中获取到全量微信用户,并利用该全量微信用户的群信息与高校进行比对,提取出群信息中包含高校名称,且能够满足入学年限的群,即为上述的第一社交群。
对该第一社交群中的每一个用户进行学校定位,将第一社交群中所有能够确定所属高校的大学生作为正样本用户,即为图4中的正样本,并从未确定为大学生且未确定所属高校的用户中选择相同数量的用户作为负样本用户,即为图4中的负样本。
由于在进行潜在大学生挖掘时,需要利用用户特征进行挖掘,因此需要得到全量微信用户的用户特征,包括正样本用户和负样本用户,并利用正样本用户和负样本用户进行机器学习模型的训练,得到机器学习模型,即图3所示实施例中的用户挖掘模型,且在得到训练后的机器学习模型之后,将全量用户中除正样本用于以外的其他用户的用户特征输入到机器学习模型进行预测,以挖掘出潜在大学生群体,即图3所示实施例中的第一用户。
在潜在大学生群体挖掘出来之后,通过图3所示实施例中LBS聚合的方式确定潜在大学生中部分能够确定所属高校的大学生,实现少量大学生学校定位,并且,将进行进一步的在潜在大学生群体中进行社交扩散,以实现大学生学校精确定位,即挖掘出潜在大学生所属的学校。
为了更好的理解社交扩散,请参阅图5a至图5d,为本发明实施例中社交扩散的举例,为社交扩散过程的示意图,具体的,图5a为基于LBS聚合后确定的示意图,在图5a中有3个群,分别为群1至群3,并用线条表示出群的范围,其中,头部被黑色填充的用户表示高校M的学生,头部为线条的用户为高校N的学生,头部未被黑色填充且未具有线条的用户为待识别用户,即用户A至E,其中,高校M及高校N的学生为基于LBS聚合确定的。
对图5a中的各群进行遍历,假设遍历到群1,确定该群1中包含8个用户,其中5个用户为高校M的学生,其余三个为待识别用户,且计算得到高校M的学生数占群1总人数的比值为0.625,且0.625位最大比值,在比例阈值为0.6时,则可以确定该群1属于高校M,为高校M的群,并进一步的,从用户A、B及C中提取满足预设条件的待识别用户。由于群2和群3目前并未确定是属于哪个高校,且对于用户A和用户B,由于同时属于群1和群2,群1为遍历到的目标群,因此,需要基于群2确定用户A和用户B所属的高校。由于在群2中,确定了属于高校M的用户,且与群1所属的高校相同,因此,确定用户A和用户B满足预设条件,同样为高校M的学生。对于用户C,由于其同时属于群1和群3,群1位遍历到的目标群,因此,需要基于群3确定用户C所属的高校。由于在群3中学生所属的高校N与群1中的高校M不同,因此,用户C不满足预设条件,此时还无法确定用户C所属的高校。请参阅图5b,为对群1完成遍历之后的示意图,其中,用户A与用户B已经确定为高校M的学生,用户C还未确定所属的高校。
继续遍历,遍历到群2,由于群2中包含已确定为高校M的学生,及未确定所属高校的学生,而未包含确定为属于其他高校的学生。其中,属于高校M的学生的数量为3,占群2中总人数的比值为0.6,等于比例阈值0.6,因此确定群2属于高校M。由于群2中的用户D和用户E除了属于群2以外,不属于其他群,则可确定用户D和用户E满足预设条件,确定用户D和用户E属于高校M。请参阅图5c,为对群2完成遍历之后的示意图。
继续遍历,遍历到群3,由于群3中属于高校N的学生数为2,则属于高校N的学生数占总用户数3的比例为0.667,大于比例阈值0.6,因此,确定群3属于高校N。对于群3中的用户C,由于其所属的群1和群3属于不同的高校,因此,用户C不满足预设条件,在这种情况下,将进行平均亲密度的计算。将分别计算用户C与群1中的各学生的亲密度,并得到平均亲密度a1,分别计算用户C与群3中的各学生的亲密度,并得到平均亲密度a2,假设平均亲密度a1,小于平均亲密度a2,且亲密度a2大于亲密度阈值,则可以确定用户C与群2中的学生所属的高校相同,即属于高校N。至此,以完成用户A至E所属高校的识别,请参阅图5d,为社交扩散结束之后的示意图。
可以理解的是,通过上述方式对大学生进行挖掘,极大的提高了所覆盖的大学生的比例,且在大学生挖掘的准确性上也更具有优势,将这一方案应用到针对大学生的微信广告推送及内容推荐时,准确性高,能够带来显著的效果提升。
请参阅图6,为本发明实施例中数据处理装置的结构示意图,该装置包括:
获取模块601,用于从第二社交群中获取属于指定群类型的第一社交群;
第一识别模块602,用于识别所述第一社交群中用户对应的子类型,将具有对应的子类型的用户确定为具有目标职业的正样本用户,所述指定群类型对应至少一个子类型,且与所述目标职业对应;
训练模块603,用于从所述第二社交群除所述正样本用户以外的用户中,选择负样本用户,根据所述正样本用户及所述负样本用户的用户特征训练模型,得到用户挖掘模型。
在本发明实施例中,图6所示实施例各模块的内容与图2所示实施例中各步骤的内容相似,具体可参阅图2所示实施例中的内容,此处不做赘述。
在本发明实施例中,通过对属于指定群类型的第一社交群中的用户对应的子类型进行识别,使得能够精确确定哪些是具有指定群类型对应的目标职业的正样本用户,且通过将该正样本用户的用户特征作为训练样本训练模型,使得能够得到精确识别是否具有目标职业的用户挖掘模型,利用该用户挖掘模型进行身份挖掘,能够有效提高挖掘的准确性。
请参阅图7,为本发明实施例中数据处理装置的另一结构示意图,该装置包括:如图6所示的获取模块、第一识别模块602及训练模块603,且与图6所示实施例中描述的内容相似,此处不做赘述。
在本发明实施例中,上述模块还包括挖掘模块604,用于利用所述用户挖掘模型进行身份挖掘,确定具有所述目标职业的第一用户。
在本发明实施例中,该装置还包括用于实现LBS聚合模块,如下:
第一确定模块701,用于在所述挖掘模块604之后,将具有预设时长内的区域信息的第一用户确定为第二用户;
第二识别模块702,用于根据所述第二用户的所述区域信息及所述指定群类型对应的子类型的区域信息,识别所述第二用户对应的子类型。
进一步的,该装置还包括用于实现社交扩散的模块,如下:
遍历统计模块703,用于遍历第三社交群,统计遍历到的目标第三社交群存在的各子类型对应的用户数,所述第三社交群为包含至少一个正样本用户的第二社交群与包含至少一个第一用户的第二社交群的并集;
第二确定模块704,用于根据所述各子类型对应的用户数,确定所述目标第三社交群中待识别用户对应的子类型。
需要说明的是,图7所示实施例中的各模块的内容与图3所示实施例中各步骤的内容相似,具体可以参阅图3所示实施例中描述的内容,此处不做赘述。
在本发明实施例中,通过对属于指定群类型的第一社交群中的用户对应的子类型进行识别,使得能够精确确定哪些是具有指定群类型对应的目标职业的正样本用户,且利用该正样本用户的用户特征训练模型,使得能够得到精确识别是否具有目标职业的用户挖掘模型,利用该用户挖掘模型进行身份挖掘,能够有效提高挖掘的准确性。
进一步的,通过利用具有预设时长内的区域信息的第一用户作为第二用户进行LBS聚合,使得能够能够有效的确定更多具有目标职业的用户对应的子类型,且准确性高。
进一步的,通过在第三社交群中进行社交扩散的方式能够进一步的识别更多具有目标职业且具有对应的子类型的用户,且准确性高。以在高校群挖掘大学生为例,能够避免挖掘到学校老师和行政人员等非学生的人群。
本发明实施例还提供一种设备,包括存储器、处理器及存储在所述存储器上且在处理器上运行的计算机程序,该处理器执行上述计算机程序时,实现图2或图3所示实施例中数据处理方法的各个步骤。
本发明实施例还提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现图2或图3所示实施例中数据处理方法的各个步骤。
可以理解的是,在本发明实施例中,上述的数据处理装置属于设备,该设备具体可以是图1所示实施例中的挖掘服务器,为了更好的理解本发明实施例中的技术方案,请参阅图8,为本发明实施例中设备80的结构示意图。该设备80包括处理器801、存储器802和收发器803,存储器802可以包括只读存储器和随机存取存储器,并向处理器801提供操作指令和数据。存储器802的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器802存储了如下的元素:可执行模块或者数据结构,或者他们的子集,或者他们的扩展集。
在本发明实施例中,通过调用存储器802存储的操作指令(该操作指令可存储在操作系统中),执行以下过程:从第二社交群中获取属于指定群类型的第一社交群;识别所述第一社交群中用户对应的子类型,将具有对应的子类型的用户确定为具有目标职业的正样本用户,所述指定群类型对应至少一个子类型,且与所述目标职业对应;从所述第二社交群除所述正样本用户以外的用户中,选择负样本用户,根据所述正样本用户及负样本用户的用户特征训练模型,得到用户挖掘模型;利用所述用户挖掘模型进行身份挖掘,确定具有所述目标职业的第一用户。
与现有技术中相比,本发明实施例提供的设备,通过对属于指定群类型的第一社交群中的用户对应的子类型进行识别,使得能够精确确定哪些是具有指定群类型对应的目标职业的正样本用户,且通过将该正样本用户的用户特征作为训练样本训练模型,使得能够得到精确识别是否为目标职业的用户挖掘模型,利用该用户挖掘模型进行身份挖掘,能够有效提高挖掘的准确性。
其中,处理器801控制设备80的操作,处理器801还可以称为CPU(CentralProcessing Unit,中央处理单元)。存储器802可以包括只读存储器和随机存取存储器,并向处理器801提供指令和数据。存储器802的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中设备80的各个组件通过总线系统804耦合在一起,其中总线系统804除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统804。
上述本发明实施例揭示的方法可以应用于处理器801中,或者由处理器801实现。处理器801可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器910可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802,处理器801读取存储器802中的信息,结合其硬件完成上述方法的步骤。
以上的设备80可以参阅图2及图3所示实施例的描述进行理解,本处不做过多赘述。
ī在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种数据处理方法、装置及设备的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种数据处理方法,其特征在于,所述方法包括:
从第二社交群中获取属于指定群类型的第一社交群;
识别所述第一社交群中用户对应的子类型,将具有对应的子类型的用户确定为具有目标职业的正样本用户,所述指定群类型对应至少一个子类型,且与所述目标职业对应;
从所述第二社交群除所述正样本用户以外的用户中,选择负样本用户,根据所述正样本用户及所述负样本用户的用户特征训练模型,得到用户挖掘模型;
利用所述用户挖掘模型,对所述第二社交群除所述正样本用户以外的用户进行职业挖掘,确定具有所述目标职业的第一用户;
将具有预设时长内的区域信息的第一用户确定为第二用户;
根据所述第二用户的所述区域信息及所述指定群类型对应的子类型的区域信息,识别所述第二用户对应的子类型;
遍历第三社交群,统计遍历到的目标第三社交群存在的各子类型对应的用户数,所述第三社交群为包含至少一个正样本用户的第二社交群与包含至少一个第一用户的第二社交群的并集;
根据所述各子类型对应的用户数,确定所述目标第三社交群中待识别用户对应的子类型。
2.根据权利要求1所述的方法,其特征在于,所述识别所述第一社交群中用户对应的子类型,包括:
对于所述第一社交群中的用户,遍历所述用户所属的第一社交群,确定遍历到的第一社交群的子类型,并将所述子类型的数值加1,所述子类型的数值的初始值为0;
根据所述用户所属的第一社交群的子类型的数值识别所述用户对应的子类型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述用户所属的第一社交群的子类型的数值识别所述用户对应的子类型,包括:
当存在一个最大数值的子类型时,将所述最大数值的子类型确定为所述用户对应的子类型;
当存在至少两个最大数值的子类型时,则无法确定所述用户对应的子类型。
4.根据权利要求1所述的方法,其特征在于,所述从第二社交群中获取属于指定群类型的第一社交群,包括:
利用所述指定群类型包含的子类型与所述第二社交群的群信息进行比对,筛选群信息与任意子类型匹配的第二社交群作为所述第一社交群;
或者,
利用所述指定群类型包含的子类型及预设的时间规则,与预设的第二社交群的群信息进行比对,筛选群信息与任意子类型匹配,且符合所述时间规则的第二社交群作为所述第一社交群。
5.根据权利要求1所述的方法,其特征在于,所述区域信息包括:子时间段与位置区域之间的对应关系,所述预设时长包含M个子时间段,M为正整数;
则所述根据所述第二用户的所述区域信息及所述指定群类型对应的子类型的区域信息,识别所述第二用户对应的子类型,包括:
对于第m个子时间段,将所述第m个子时间段对应的位置区域,与所述指定群类型包含的子类型的位置区域进行匹配,确定所述第m个子时间段匹配的子类型,所述m为1至M;
根据所述M个子时间段分别匹配的子类型,确定所述第二用户对应的子类型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述M个子时间段分别匹配的子类型,确定所述第二用户对应的子类型,包括:
遍历所述M个子时间段,将遍历到的子时间段匹配的子类型的计数值加1,得到所述M个子时间段匹配的子类型的计数值;
当最大计数值大于或等于计数阈值时,将具有所述最大计数值的子类型作为所述第二用户对应的子类型;
当最大计数值小于所述计数阈值时,确定无法识别所述第二用户对应的子类型。
7.根据权利要求1所述方法,其特征在于,所述根据所述各子类型对应的用户数,确定所述目标第三社交群中待识别用户对应的子类型,包括:
分别计算根据所述各子类型对应的用户数与所述目标第三社交群总用户数的比值,并基于各所述比值确定所述目标第三社交群中待识别用户对应的子类型。
8.根据权利要求7所述的方法,其特征在于,所述分别计算所述各子类型对应的用户数与所述目标第三社交群总用户数的比值,并基于各所述比值确定所述目标第三社交群中待识别用户对应的子类型,包括:
当最大比值大于或等于比例阈值时,提取满足预设条件的待识别用户,所述满足预设条件是指:所属的第三社交群中除所述目标第三社交群以外的其他第三社交群,存在的子类型种数为1且存在的子类型与所述最大比值对应的子类型相同,或者,所属的第三社交群的子类型与所述最大比值对应的子类型相同,或者,除了属于所属目标第三社交群,不属于其他群;
确定满足所述预设条件的待识别用户的子类型与所述最大比值对应的子类型相同。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
当最大比值大于或等于比例阈值时,确定所述目标第三社交群的子类型与所述最大比值对应的子类型相同。
10.根据权利要求7所述的方法,其特征在于,所述方法还包括:
遍历所述目标第三社交群中的待识别用户,确定遍历到的目标待识别用户所属的第三社交群中存在的各子类型的用户;
根据目标待识别用户所属的第三社交群中存在的各子类型的用户计算亲密度,确定所述目标待识别用户对应的子类型。
11.根据权利要求10所述的方法,其特征在于,所述根据目标待识别用户所属的第三社交群中存在的各子类型的用户计算亲密度,确定所述目标待识别用户对应的子类型,包括:
利用所述目标待识别用户所属的第三社交群中存在的各子类型的用户,得到所述各子类型的用户集合;
计算所述目标待识别用户分别与所述各子类型的用户集合中的用户之间的亲密度,得到所述各子类型的平均亲密度;
当最大平均亲密度大于或等于亲密度阈值时,将所述最大平均亲密度对应的子类型作为所述目标待识别用户的子类型。
12.根据权利要求10所述的方法,其特征在于,所述根据目标待识别用户所属的第三社交群中存在的各子类型的用户计算亲密度,确定所述目标待识别用户对应的子类型,包括:
从所述目标待识别用户所属的第三社交群,分别选择子类型与所述所属的第三社交群的子类型相同的用户,作为所述所属的第三社交群的亲密度用户,其中,第三社交群的子类型为所述第三社交群存在的各子类型中,用户数与总用户数的比值最大且大于或等于比例阈值的子类型;
计算所述目标待识别用户分别与所述所属的第三社交群的亲密度用户之间的亲密度,得到所述所属第三社交群的平均亲密度;
当最大平均亲密度大于亲密度阈值时,将所述最大平均亲密度对应的第三社交群的子类型作为所述目标待识别用户对应的子类型。
13.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于从第二社交群中获取属于指定群类型的第一社交群;
第一识别模块,用于识别所述第一社交群中用户对应的子类型,将具有对应的子类型的用户确定为具有目标职业的正样本用户,所述指定群类型对应至少一个子类型,且与所述目标职业对应;
训练模块,用于从所述第二社交群除所述正样本用户以外的用户中,选择负样本用户,根据所述正样本用户及所述负样本用户的用户特征训练模型,得到用户挖掘模型;
挖掘模块,用于利用所述用户挖掘模型,对所述第二社交群除所述正样本用户以外的用户进行职业挖掘,确定具有所述目标职业的第一用户;
第一确定模块,用于将具有预设时长内的区域信息的第一用户确定为第二用户;
第二识别模块,用于根据所述第二用户的所述区域信息及所述指定群类型对应的子类型的区域信息,识别所述第二用户对应的子类型;
遍历统计模块,用于遍历第三社交群,统计遍历到的目标第三社交群存在的各子类型对应的用户数,所述第三社交群为包含至少一个正样本用户的第二社交群与包含至少一个第一用户的第二社交群的并集;
第二确定模块,用于根据所述各子类型对应的用户数,确定所述目标第三社交群中待识别用户对应的子类型。
14.一种数据处理装置,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至12任意一项所述的数据处理方法中的各个步骤。
15.一种计算机可读存储介质,其特征在于,存储有计算机程序,用于所述计算机程序被处理器执行时,实现权利要求1至12任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810367492.6A CN108648093B (zh) | 2018-04-23 | 2018-04-23 | 数据处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810367492.6A CN108648093B (zh) | 2018-04-23 | 2018-04-23 | 数据处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108648093A CN108648093A (zh) | 2018-10-12 |
CN108648093B true CN108648093B (zh) | 2021-11-09 |
Family
ID=63747314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810367492.6A Active CN108648093B (zh) | 2018-04-23 | 2018-04-23 | 数据处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108648093B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543537B (zh) * | 2018-10-23 | 2021-03-23 | 北京市商汤科技开发有限公司 | 重识别模型增量训练方法及装置、电子设备和存储介质 |
CN111126422B (zh) * | 2018-11-01 | 2023-10-31 | 百度在线网络技术(北京)有限公司 | 行业模型的建立及行业的确定方法、装置、设备及介质 |
CN110197056B (zh) * | 2018-11-16 | 2022-09-20 | 腾讯科技(深圳)有限公司 | 关系网络和关联身份识别方法、装置、设备和存储介质 |
CN110008973B (zh) * | 2018-11-23 | 2023-05-02 | 创新先进技术有限公司 | 一种模型训练方法、基于模型确定目标用户的方法及装置 |
CN113422836B (zh) * | 2021-07-01 | 2022-08-05 | 中国联合网络通信集团有限公司 | 养卡用户识别方法、装置、设备以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657369A (zh) * | 2013-11-19 | 2015-05-27 | 深圳市腾讯计算机系统有限公司 | 用户属性信息的生成方法及系统 |
CN104850641A (zh) * | 2015-05-26 | 2015-08-19 | 无线生活(杭州)信息科技有限公司 | 一种推荐信息的方法及装置 |
CN105447730A (zh) * | 2015-12-25 | 2016-03-30 | 腾讯科技(深圳)有限公司 | 目标用户定向方法及装置 |
CN106126607A (zh) * | 2016-06-21 | 2016-11-16 | 重庆邮电大学 | 一种面向社交网络的用户关系分析方法 |
CN106228453A (zh) * | 2016-08-08 | 2016-12-14 | 联动优势科技有限公司 | 一种获得用户职业信息的方法和装置 |
CN107562941A (zh) * | 2017-09-21 | 2018-01-09 | 北京京东尚科信息技术有限公司 | 数据处理方法及其系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150317564A1 (en) * | 2014-05-05 | 2015-11-05 | International Business Machines Corporation | Trait-based early detection of influencers on social media |
US10672029B2 (en) * | 2015-05-22 | 2020-06-02 | Facebook, Inc. | Clustering users of a social networking system based on user interactions with content items associated with a topic |
-
2018
- 2018-04-23 CN CN201810367492.6A patent/CN108648093B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657369A (zh) * | 2013-11-19 | 2015-05-27 | 深圳市腾讯计算机系统有限公司 | 用户属性信息的生成方法及系统 |
CN104850641A (zh) * | 2015-05-26 | 2015-08-19 | 无线生活(杭州)信息科技有限公司 | 一种推荐信息的方法及装置 |
CN105447730A (zh) * | 2015-12-25 | 2016-03-30 | 腾讯科技(深圳)有限公司 | 目标用户定向方法及装置 |
CN106126607A (zh) * | 2016-06-21 | 2016-11-16 | 重庆邮电大学 | 一种面向社交网络的用户关系分析方法 |
CN106228453A (zh) * | 2016-08-08 | 2016-12-14 | 联动优势科技有限公司 | 一种获得用户职业信息的方法和装置 |
CN107562941A (zh) * | 2017-09-21 | 2018-01-09 | 北京京东尚科信息技术有限公司 | 数据处理方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108648093A (zh) | 2018-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648093B (zh) | 数据处理方法、装置及设备 | |
Peixoto et al. | Modeling future spread of infections via mobile geolocation data and population dynamics. An application to COVID-19 in Brazil | |
US10810870B2 (en) | Method of processing passage record and device | |
CN107657267B (zh) | 产品潜在用户挖掘方法及装置 | |
CN110351651B (zh) | 一种车辆轨迹缺失识别及补偿方法 | |
CN107169063B (zh) | 一种基于社交信息的用户属性预测方法与系统 | |
CN111046819B (zh) | 一种行为识别处理方法及装置 | |
CN109800320B (zh) | 一种图像处理方法、设备及计算机可读存储介质 | |
CN107918618B (zh) | 数据处理方法及装置 | |
CN108921748B (zh) | 基于大数据分析的教学规划方法及计算机可读介质 | |
Guleker et al. | The effect of attendance on academic performance | |
Liu et al. | Mining urban perceptions from social media data | |
CN107122786B (zh) | 一种众包学习方法及装置 | |
US20190317950A1 (en) | Interest tag determining method, computer device, and storage medium | |
CN106897282B (zh) | 一种用户群的分类方法和设备 | |
Wacker et al. | Projected and perceived destination image of tyrol on Instagram | |
Pecl et al. | Building Australia through citizen science | |
CN105847368A (zh) | 评价信息的显示方法及装置 | |
CN114445053A (zh) | 一种智慧校园数据处理方法及系统 | |
CN110781256A (zh) | 基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置 | |
CN106055657A (zh) | 用于特定人群的观影指数评价系统 | |
Reinau et al. | The SMS–GPS-Trip method: A new method for collecting trip information in travel behavior research | |
CN108733784B (zh) | 一种教学课件推荐方法、装置及设备 | |
CN110569418A (zh) | 学历信息验证方法以及装置 | |
CN113902404A (zh) | 基于人工智能的员工晋升分析方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |