CN107656918B - 获取目标用户的方法及装置 - Google Patents
获取目标用户的方法及装置 Download PDFInfo
- Publication number
- CN107656918B CN107656918B CN201710326329.0A CN201710326329A CN107656918B CN 107656918 B CN107656918 B CN 107656918B CN 201710326329 A CN201710326329 A CN 201710326329A CN 107656918 B CN107656918 B CN 107656918B
- Authority
- CN
- China
- Prior art keywords
- information
- target
- user
- characteristic
- relevant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于信息处理技术领域,提供了一种获取目标用户的方法及装置。该获取目标用户的方法包括:获取用户的社交账号发布的公开信息,所述公开信息包括信息内容和发布时间,并根据目标特征信息和各条所述公开信息确定与所述目标特征信息相关的公开信息;根据所确定的与所述目标特征信息相关的各条公开信息,确定所述用户是否为目标用户。该获取目标用户的方法充分考虑时间因素对目标用户获取的影响,从而能够更加准确地确定目标用户。
Description
技术领域
本发明属于信息处理技术领域,尤其涉及一种获取目标用户的方法及装置。
背景技术
通常在确定目标用户时,会基于用户行为数据中一些关键词或标识符对目标用户进行分类,进而选定目标用户。例如,用户浏览新生儿所使用的产品,则可以给该用户打上关注婴幼产品的标签。但是发明人在实现本发明的过程中发现现有技术至少存在以下不足:如果用户在若干前关注过某方面内容,例如新生儿相关内容,那么该用户可能现在已不太关注婴幼产品,因此上述方法并不能准确地确定目标用户。
发明内容
有鉴于此,本发明实施例提供了一种获取目标用户的方法及装置,以解决现有技术中未考虑时间因素对用户分类的影响而导致不能准确地确定目标用户的问题。
本发明实施例的第一方面,提供了一种获取目标用户的方法,包括:
获取用户的社交账号发布的公开信息,所述公开信息包括信息内容和发布时间,并根据目标特征信息和各条所述公开信息确定与所述目标特征信息相关的公开信息;
根据所确定的与所述目标特征信息相关的公开信息,确定所述用户是否为目标用户。
本发明实施例的第二方面,提供了一种获取目标用户的装置,包括:
信息获取模块,用于获取用户的社交账号发布的公开信息,所述公开信息包括信息内容和发布时间;
确定模块,用于根据目标特征信息和各条所述公开信息确定与所述目标特征信息相关的公开信息;
处理模块,用于根据所述确定模块所确定的与所述目标特征信息相关的各条公开信息,确定所述用户是否为目标用户。
本发明实施例相对于现有技术所具有的有益效果:本发明实施例,获取用户的社交账号发布的包括信息内容和发布时间的公开信息,并根据目标特征信息和各条公开信息确定与目标特征信息相关的公开信息,再根据所确定的与目标特征信息相关的各条公开信息,确定用户是否为目标用户,由于公开信息包括信息的发布时间,因此能够充分考虑时间因素对目标用户获取的影响,从而能够更加准确地确定目标用户。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的获取目标用户的方法的流程图;
图2是图1中步骤S101的实现流程图;
图3是本发明实施例提供的获取目标用户的方法的具体流程图;
图4是图3中步骤S302的实现流程图;
图5是图3中步骤S303的实现流程图;
图6是本发明实施例提供的获取目标用户的装置的结构框图;
图7是本发明实施例提供的获取目标用户的装置的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的获取目标用户的方法的实现流程,详述如下:
步骤S101,获取用户的社交账号发布的公开信息,所述公开信息包括信息内容和发布时间,并根据目标特征信息和各条所述公开信息确定与所述目标特征信息相关的公开信息。
其中,社交账号包括但不限于微博账号和即时通信平台账号。用户的社交账号发布的公开信息可以为用户发布的与爱好、生活、工作等方面相关的公开信息,能够表征用户所关心的各个方面。而且由于公开信息包括信息内容和发布时间,因此公开信息还能够表征用户在各个时间段所关注或关心的各个方面。
目标特征信息为预设的特征信息,用于确定用户中的目标用户,例如目标特征信息包括但不限于金融、体育和娱乐等。具体的,若目标特征信息为金融,而用户的社交账号发布的公开信息中包括金融信息,则该用户可能为目标账户。
以下以社交账号为微博账号为例进行进一步说明,但并不以此为限。用户u的每一条微博信息的发布,都是具有时间信息的。基于微博信息的文本内容,使用不同方法为每一条微博信息wi设置不同类型的标签L。以某一标签l∈L为例,利用基于文本的标签分类算法(通常分类的结果为0/1取值,即该条微博信息是否与标签l相关),得到该用户u所有与标签l相关的微博信息集wu(l)={w1,w2,…,wn},其中n为该用户发布的微博信息中与标签l相关的微博信息条数,且n小于等于该用户u发布的所有微博信息数。其中,标签l表征该用户发布的微博信息对应一种特征信息,例如金融、体育或娱乐等。
参见图2,一些实施例中,步骤S101中的所述根据目标特征信息和各条所述公开信息确定与所述分类标签相关的公开信息具体可以通过以下过程实现:
步骤S201,提取各条所述公开信息的第一分类特征信息,所述第一分类特征信息包括关键词和/标识符。
可以理解的,用户通过社交账号发布的公开信息中会包含用户的爱好、生活、工作等方面的分类特征信息,因此可以从用户发布的公开信息中提取包括关键词和/标识符的第一分类特征信息,以对各条公开信息进行分类。其中,关键词包括但不限于与用户的爱好、生活、工作等方面相关的词语,标识符包括但不限于与用户的爱好、生活、工作等方面相关的图片、表情等标示符。
步骤S202,根据各条所述公开信息的第一分类特征信息和所述目标特征信息,确定各条所述公开信息与所述目标特征信息是否相关。
其中,目标特征信息可以包括至少一个关键词和至少一个标识符。具体的,在步骤S201中提取出第一分类特征信息以后,可以将第一分类特征信息与目标特征信息进行匹配,若第一分类特征信息与目标特征信息匹配度大于第一阈值时,则判定该公开信息与目标特征信息相关,否则,判定该公开信息与目标特征信息不相关。
例如,第一分类特征信息为关键词时,可以将第一分类特征信息与目标特征信息中的各个关键词进行匹配,若匹配成功,则判定该公开信息与目标特征信息相关,否则,判定该公开信息与目标特征信息不相关。
又例如,第一分类特征信息为标识符时,可以将第一分类特征信息与目标特征信息中的标识符进行匹配,若匹配度大于第一阈值,则判定该公开信息与目标特征信息相关,否则,判定该公开信息与目标特征信息不相关。
又例如,第一分类特征信息同时包括关键词和标识符时,可以对关键词或标识符设置优先级,按照优先级将第一分类特征信息与目标特征信息进行匹配。
步骤S102,根据所确定的与所述目标特征信息相关的各条公开信息,确定所述用户是否为目标用户。
其中,可以对所确定的与所述目标特征信息相关的各条公开信息与目标特征信息的相关度大小,确定所述用户是否为目标用户。具体的,可以对与所述目标特征信息相关的各条公开信息与目标特征信息的相关度大小取平均值,然后根据平均值与第二阈值的大小关系,确定所述用户是否为目标用户。
例如,用户每发布一条新公开信息,都是有发布时间的。根据时间上,离当前最近的时效性最强的想法,可以使用sigmoid函数对标签l相关的公开信息wu(l)进行转化,得到新的权重值:
其中,s和x0均为预设系数,x表征与分类特征信息l相关的公开信息的发布时间距离爬虫获取时间的时间差。
所有与标签l相关的公开信息的权重值集合为根据各条公开信息对应的权重值的大小确定该用户是否为目标用户。例如,标签l表征金融信息,用户发布的与金融信息相关的公开信息与金融信息的相关度都较小,平均值小于第二阈值,则可以判定所述用户不是目标用户,或非优质目标客户,否则,判定所述用户是目标用户。
在实际应用中,尝试不同的sigmoid参数调整其曲线,最终取值s=-0.2以及x0=12时效果较佳。需要注意的是,本实施例中,公开信息发布时间距离爬虫时间差的单位为年。
图3示出了该获取目标用户的方法的具体流程图,重复之处不再赘述。
步骤S301,获取用户的社交账号发布的公开信息,所述公开信息包括信息内容和发布时间,并根据目标特征信息和各条所述公开信息确定与所述目标特征信息相关的公开信息。
本步骤中的详细内容可以参考步骤S101中的相关内容,在此不再赘述。
步骤S302,取用户的社交账号关注的目标账号信息,所述目标账号信息包括目标账号的分类信息和目标账号的排位信息,并根据所述目标特征信息和各条所述目标账号信息确定与所述目标特征信息相关的目标账号信息。
其中,用户的社交账号关注的目标账号信息可以为与用户的爱好、生活、工作等方面相关的账号信息,能够表征用户所关心的各个方面。而且由于用户的社交账号关注的目标账号信息包括目标账号的分类信息和目标账号的排位信息,因此用户的社交账号关注的目标账号信息也能够表征用户在各个时间段所关注或关心的各个方面。
可以理解的,若目标特征信息为金融,而用户的社交账号发布的关注的目标账号信息中的目标账号的分类信息包括金融信息,则该用户可能为目标账户。
以下以社交账号为微博账号为例进行进一步说明,但并不以此为限。可以理解的,每一个在社交媒体上的用户,基本上都会使用关注功能,订阅关注其感兴趣的用户账号,或者关注认识的好友。例如,通过用户所关注的账号(包括其个人介绍及发布内容),可以推测用户的爱好。例如:关注明星类账号,说明用户是对应明星的粉丝;关注育儿类账号,说明用户对新生儿话题感兴趣。给定一个账号标签列表,找到用户u所关注的用户中落在标签l列表的用户集Vu(l)={v1,v2,…,vk},其中k为该用户关注的目标账号信息与标签l相关的账号个数,且k小于等于该用户所关注的所有目标账号个数。其中,标签l表征该用户关注的目标账号信息对应一种特征信息,例如金融、体育或娱乐等。
参见图4,一些实施例中,步骤S302中的所述根据所述目标特征信息和各个所述目标账号信息确定与所述目标特征信息相关的目标账号信息可以通过以下过程实现:
步骤S401,提取各个所述目标账号信息的第二分类特征信息,所述第二分类特征信息包括关键词和/标识符。
可以理解的,用户通过社交账号关注的目标账号信息中的目标账号的分类信息会包含用户的爱好、生活、工作等方面的分类特征信息,因此可以从用户发布的公开信息中提取包括关键词和/标识符的第二分类特征信息,以对各条目标账号信息进行分类。其中,关键词包括但不限于与用户的爱好、生活、工作等方面相关的词语,标识符包括但不限于与用户的爱好、生活、工作等方面相关的图片、表情等标示符。
步骤S402,根据各个所述目标账号信息的第二分类特征信息和所述目标特征信息,确定各条所述目标账号信息与所述目标特征信息是否相关。
其中,目标特征信息可以包括至少一个关键词和至少一个标识符。具体的,在步骤S401中提取出第二分类特征信息以后,可以将第二分类特征信息与目标特征信息进行匹配,若第二分类特征信息与目标特征信息匹配度大于第三阈值时,则判定该目标账号信息与目标特征信息相关,否则,判定该目标账号信息与目标特征信息不相关。
例如,第二分类特征信息为关键词时,可以将第二分类特征信息与目标特征信息中的各个关键词进行匹配,若匹配成功,则判定该目标账号信息与目标特征信息相关,否则,判定该目标账号信息与目标特征信息不相关。
又例如,第二分类特征信息为标识符时,可以将第二分类特征信息与目标特征信息中的标识符进行匹配,若匹配度大于第二阈值,则判定该目标账号信息与目标特征信息相关,否则,判定该目标账号信息与目标特征信息不相关。
又例如,第二分类特征信息同时包括关键词和标识符时,可以对关键词或标识符设置优先级,按照优先级将第二分类特征信息与目标特征信息进行匹配。
步骤S303,根据所确定的与所述目标特征信息相关的各条公开信息和各条目标账号信息,确定所述用户是否为目标用户。
其中,可以对所确定的与所述目标特征信息相关的各条公开信息与目标特征信息的相关度大小,以及各条目标账号信息与目标特征信息的相关度大小,综合考虑以确定所述用户是否为目标用户。
参见图5,一些实施例中,步骤S303可以通过以下过程实现:
步骤S501,根据所确定的与所述目标特征信息相关的公开信息和目标账号信息,建立所述用户的相关度模型。
具体的,所述用户的权重模型可以为:
其中,l表示一个分类特征信息,Su(l)为所述用户与分类特征信息l的权重,为所述用户在公开信息上与分类特征信息l的权重,为所述用户在目标账号信息上与分类特征信息l的权重,α∈[0,1],n为所述用户发布的与分类特征信息l相关的公开信息的条数,k为所述用户关注的与分类特征信息l相关的目标账号的个数。
且
其中,s和x0均为预设系数,x表征与分类特征信息l相关的公开信息的发布时间距离爬虫获取时间的时间差。在实际应用中,尝试不同的sigmoid参数调整其曲线,最终取值s=-0.2以及x0=12时效果较佳。需要注意的是,本实施例中,公开信息发布时间距离爬虫时间差的单位为年。
且
其中,t和y0均为预设系数,y表征与分类特征信息l相关的目标账号的排位信息。具体的,目标账号排名越靠前表示该用户关注该目标账号的时间越近,y越小。在实际应用中,尝试不同的sigmoid参数调整其曲线,最终取值t=-0.2以及y0=12时效果较佳。其中,所有与标签l相关的目标账号信息的权重值集合为
步骤S502,根据所述用户的权重模型判定所述用户是否为目标用户。
其中,可以通过所述权重模型,综合考虑用户发布的公开信息和关注的目标账号信息,然后确定用户是否为目标用户。当α=0.5时,该权重模型能够平均考虑用户发布的公开信息和关注的目标账号信息;且α不同的取值会对用户发布的公开信息和关注的目标账号信息有不同的侧重。例如,α>0.5时,该权重模型更侧重通过用户发布的公开信息确定该用户是否为目标用户;α<0.5时,该权重模型更侧重通过用户关注的目标账号信息确定该用户是否为目标用户。
具体的,可以将通过该权重模型计算得出的数值与第四阈值进行比较,来确定该用户是否为目标用户。
上述获取目标用户的方法,首先获取用户的社交账号发布的包括信息内容和发布时间的公开信息,以及用户的社交账号关注的包括目标账号的分类信息和目标账号的排位信息的目标账号信息,然后根据目标特征信息和各条公开信息确定与目标特征信息相关的公开信息,以及根据目标特征信息和各个目标账号信息确定与目标特征信息相关的目标账号信息,最后根据所确定的与目标特征信息相关的公开信息和目标账号信息,确定用户是否为目标用户,由于公开信息包括信息的发布时间,目标账号信息包括目标账号的排位信息,因此能够充分考虑时间因素对目标用户获取的影响,从而能够更加准确地确定目标用户。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的获取目标用户的方法,图6示出了本发明实施例提供的获取目标用户的装置的结构框图。为了便于说明,仅示出了与本实施例相关的部分。
参照图6,该装置包括信息获取模块101、确定模块102和处理模块103。其中,信息获取模块101,用于获取用户的社交账号发布的公开信息,所述公开信息包括信息内容和发布时间。确定模块102,用于根据目标特征信息和各条所述公开信息确定与所述目标特征信息相关的公开信息。处理模块103,用于根据所述确定模块102所确定的与所述目标特征信息相关的各条公开信息,确定所述用户是否为目标用户。
可选的,信息获取模块101,还用于获取用户的社交账号关注的目标账号信息,所述目标账号信息包括目标账号的分类信息和目标账号的排位信息。确定模块102,还用于根据所述目标特征信息和各个所述目标账号信息确定与所述目标特征信息相关的目标账号信息。处理模块103具体用于:根据所述确定模块所确定的与所述目标特征信息相关的各条公开信息和各条目标账号信息,确定所述用户是否为目标用户。
作为一种可实施方式,确定模块102可以包括提取单元201和确定单元202。其中,提取单元201,用于提取各条所述公开信息的第一分类特征信息,所述第一分类特征信息包括关键词和/标识符。确定单元202,用于根据各条所述公开信息的第一分类特征信息和所述目标特征信息,确定各条所述公开信息与所述目标特征信息是否相关。
提取单元201,还用于提取各个所述目标账号信息的第二分类特征信息,所述第二分类特征信息包括关键词和/标识符。确定单元302,还用于根据各个所述目标账号信息的第二分类特征信息和所述目标特征信息,确定各条所述目标账号信息与所述目标特征信息是否相关。
可选的,处理模块103可以包括模型建立单元301和判定单元302。模型建立单元301,用于根据所述确定模块所确定的与所述目标特征信息相关的公开信息和目标账号信息,建立所述用户的权重模型。判定单元302,用于根据所述用户的权重模型判定所述用户是否为目标用户。
具体的,所述模型建立单元301建立的权重模型具体为:
其中,l表示一个分类特征信息,Su(l)为所述用户与分类特征信息l相关的权重,为所述用户在公开信息上与分类特征信息l相关的权重,为所述用户在目标账号信息上与分类特征信息l相关的权重,α∈[0,1],n为所述用户发布的与分类特征信息l相关的公开信息的条数,k为所述用户关注的与分类特征信息l相关的目标账号的个数。
且
其中,s和x0均为预设系数,x表征与分类特征信息l相关的公开信息的发布时间距离爬虫获取时间的时间差。
且
其中,t和y0均为预设系数,y表征与分类特征信息l相关的目标账号的排位信息。
图7示出了本发明实施例提供的获取目标用户的装置的结构示意图。参见图7,该获取目标用户的装置可以包括:一个或多个输入设备402,一个或多个输出设备403,一个或多个处理器401和存储器404。处理器401、输入设备402、输出设备403和存储器404通过总线405连接。
处理器401,用于通过输入设备402获取用户的社交账号发布的公开信息,所述公开信息包括信息内容和发布时间。处理器401,还用于根据目标特征信息和各条所述公开信息确定与所述目标特征信息相关的公开信息。处理器401,还用于根据所确定的与所述目标特征信息相关的各条公开信息,确定所述用户是否为目标用户。
可选的,处理器401,还用于通过输入设备402获取用户的社交账号关注的目标账号信息,所述目标账号信息包括目标账号的分类信息和目标账号的排位信息;根据所述目标特征信息和各个所述目标账号信息确定与所述目标特征信息相关的目标账号信息;以及根据所述确定模块所确定的与所述目标特征信息相关的各条公开信息和各条目标账号信息,确定所述用户是否为目标用户。
可选的,处理器401具体用于:提取各条所述公开信息的第一分类特征信息,所述第一分类特征信息包括关键词和/标识符;并根据各条所述公开信息的第一分类特征信息和所述目标特征信息,确定各条所述公开信息与所述目标特征信息是否相关。
可选的,处理器401具体用于:提取各个所述目标账号信息的第二分类特征信息,所述第二分类特征信息包括关键词和/标识符;并根据各个所述目标账号信息的第二分类特征信息和所述目标特征信息,确定各个所述目标账号与所述目标特征信息是否相关。
可选的,处理器401还具体用于:根据所确定的与所述目标特征信息相关的公开信息和目标账号信息,建立所述用户的权重模型,并根据所述用户的权重模型判定所述用户是否为目标用户。
处理器401建立的权重模型具体为:
其中,l表示一个分类特征信息,Su(l)为所述用户与分类特征信息l相关的权重,为所述用户在公开信息上与分类特征信息l相关的权重,为所述用户在目标账号信息上与分类特征信息l相关的权重,α∈[0,1],n为所述用户发布的与分类特征信息l相关的公开信息的条数,k为所述用户关注的与分类特征信息l相关的目标账号的个数;
且
其中,s和x0均为预设系数,x表征与分类特征信息l相关的公开信息的发布时间距离爬虫获取时间的时间差;
其中,t和y0均为预设系数,y表征与分类特征信息l相关的目标账号的排位信息。
所述存储器404,用于存储软件程序、模块和所述网络交互数据,所述处理器401通过运行存储在所述存储器404的软件程序以及单元,从而执行各种功能应用以及数据处理,实现终端的信息交互功能。
应当理解,在本发明实施例中,所称处理器401可以是中央处理单元(CentralProcessing Unit,CPU),该处理器401还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备402可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备403可以包括显示器(LCD等)、扬声器等。
存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如,存储器404还可以存储设备类型的信息。
综上所述,该获取目标用户的装置,首先获取用户的社交账号发布的包括信息内容和发布时间的公开信息,以及用户的社交账号关注的包括目标账号的分类信息和目标账号的排位信息的目标账号信息,然后根据目标特征信息和各条公开信息确定与目标特征信息相关的公开信息,以及根据目标特征信息和各个目标账号信息确定与目标特征信息相关的目标账号信息,最后根据所确定的与目标特征信息相关的公开信息和目标账号信息,确定用户是否为目标用户,由于公开信息包括信息的发布时间,目标账号信息包括目标账号的排位信息,因此能够充分考虑时间因素对目标用户获取的影响,从而能够更加准确地确定目标用户。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种获取目标用户的方法,其特征在于,包括:
获取用户的社交账号发布的公开信息,所述公开信息包括用户通过社交账号发布的与爱好、生活、工作方面相关的信息的信息内容和发布时间,并根据目标特征信息和各条所述公开信息确定与所述目标特征信息相关的公开信息,所述目标特征信息为预设的的特征信息,包括金融、体育和娱乐方面的特征信息;
根据所确定的与所述目标特征信息相关的各条公开信息,确定所述用户是否为目标用户;
所述根据目标特征信息和各条所述公开信息确定与所述目标特征信息相关的公开信息包括:
提取各条所述公开信息的第一分类特征信息,所述第一分类特征信息包括关键词和/标识符;
根据各条所述公开信息的第一分类特征信息和所述目标特征信息,确定各条所述公开信息与所述目标特征信息是否相关,具体包括:将第一分类特征信息与目标特征信息进行匹配,若第一分类特征信息与目标特征信息匹配度大于第一阈值时,则判定该公开信息与目标特征信息相关;
所述根据所确定的与所述目标特征信息相关的各条公开信息,确定所述用户是否为目标用户包括:
对与所述目标特征信息相关的各条公开信息与目标特征信息的相关度大小取平均值,根据所述平均值与第二阈值的大小关系,确定所述用户是否为目标用户。
2.根据权利要求1所述的获取目标用户的方法,其特征在于,还包括:
获取用户的社交账号关注的目标账号信息,所述目标账号信息包括目标账号的分类信息和目标账号的排位信息,并根据所述目标特征信息和各个所述目标账号信息确定与所述目标特征信息相关的各条目标账号信息;
所述根据所确定的与所述目标特征信息相关的各条公开信息,确定所述用户是否为目标用户具体为:
根据所确定的与所述目标特征信息相关的各条公开信息和各条目标账号信息,确定所述用户是否为目标用户。
3.根据权利要求2所述的获取目标用户的方法,其特征在于,所述根据目标特征信息和各条所述公开信息确定与所述分类标签相关的公开信息包括:
所述根据所述目标特征信息和各个所述目标账号信息确定与所述目标特征信息相关的目标账号信息包括:
提取各个所述目标账号信息的第二分类特征信息,所述第二分类特征信息包括关键词和/标识符;
根据各个所述目标账号信息的第二分类特征信息和所述目标特征信息,确定各条所述目标账号信息与所述目标特征信息是否相关。
4.根据权利要求2所述的获取目标用户的方法,其特征在于,所述根据所确定的与所述目标特征信息相关的公开信息和目标账号信息,确定所述用户是否为目标用户包括:
根据所确定的与所述目标特征信息相关的公开信息和目标账号信息,建立所述用户的权重模型;
根据所述用户的权重模型判定所述用户是否为目标用户。
5.根据权利要求4所述的获取目标用户的方法,其特征在于,所述用户的权重模型具体为:
其中,l表示一个分类特征信息,Su(l)为所述用户与分类特征信息l相关的权重,为所述用户在公开信息上与分类特征信息l相关的权重,为所述用户在目标账号信息上与分类特征信息l相关的权重,α∈[0,1],n为所述用户发布的与分类特征信息l相关的公开信息的条数,k为所述用户关注的与分类特征信息l相关的目标账号的个数;
且
其中,s和x0均为预设系数,x表征与分类特征信息l相关的公开信息的发布时间距离爬虫获取时间的时间差;
其中,t和y0均为预设系数,y表征与分类特征信息l相关的目标账号的排位信息。
6.一种获取目标用户的装置,其特征在于,包括:
信息获取模块,用于获取用户的社交账号发布的公开信息,所述公开信息包括用户通过社交账号发布的与爱好、生活、工作方面相关的信息的信息内容和发布时间;
确定模块,用于根据目标特征信息和各条所述公开信息确定与所述目标特征信息相关的公开信息,所述目标特征信息为预设的的特征信息,包括金融、体育和娱乐方面的特征信息;
处理模块,用于根据所述确定模块所确定的与所述目标特征信息相关的各条公开信息,确定所述用户是否为目标用户;
所述确定模块包括:
提取单元,用于提取各条所述公开信息的第一分类特征信息,所述第一分类特征信息包括关键词和/标识符;
确定单元,用于根据各条所述公开信息的第一分类特征信息和所述目标特征信息,确定各条所述公开信息与所述目标特征信息是否相关,具体包括:将第一分类特征信息与目标特征信息进行匹配,若第一分类特征信息与目标特征信息匹配度大于第一阈值时,则判定该公开信息与目标特征信息相关;
所述处理模块包括:
对与所述目标特征信息相关的各条公开信息与目标特征信息的相关度大小取平均值,根据所述平均值与第二阈值的大小关系,确定所述用户是否为目标用户。
7.根据权利要求6所述的获取目标用户的装置,其特征在于,所述信息获取模块,还用于获取用户的社交账号关注的目标账号信息,所述目标账号信息包括目标账号的分类信息和目标账号的排位信息;
所述确定模块,还用于根据所述目标特征信息和各个所述目标账号信息确定与所述目标特征信息相关的目标账号信息;
所述处理模块具体用于:根据所述确定模块所确定的与所述目标特征信息相关的各条公开信息和各条目标账号信息,确定所述用户是否为目标用户。
8.根据权利要求7所述的获取目标用户的装置,其特征在于,所述确定模块包括:
所述提取单元,还用于提取各个所述目标账号信息的第二分类特征信息,所述第二分类特征信息包括关键词和/标识符;
所述确定单元,还用于根据各个所述目标账号信息的第二分类特征信息和所述目标特征信息,确定各条所述目标账号信息与所述目标特征信息是否相关。
9.根据权利要求7所述的获取目标用户的装置,其特征在于,所述处理模块包括:
模型建立单元,用于根据所述确定模块所确定的与所述目标特征信息相关的公开信息和目标账号信息,建立所述用户的权重模型;
判定单元,用于根据所述用户的权重模型判定所述用户是否为目标用户。
10.根据权利要求9所述的获取目标用户的装置,其特征在于,所述模型建立单元建立的权重模型具体为:
其中,l表示一个分类特征信息,Su(l)为所述用户与分类特征信息l相关的权重,为所述用户在公开信息上与分类特征信息l相关的权重,为所述用户在目标账号信息上与分类特征信息l相关的权重,α∈[0,1],n为所述用户发布的与分类特征信息l相关的公开信息的条数,k为所述用户关注的与分类特征信息l相关的目标账号的个数;
且
其中,s和x0均为预设系数,x表征与分类特征信息l相关的公开信息的发布时间距离爬虫获取时间的时间差;
其中,t和y0均为预设系数,y表征与分类特征信息l相关的目标账号的排位信息。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710326329.0A CN107656918B (zh) | 2017-05-10 | 2017-05-10 | 获取目标用户的方法及装置 |
PCT/CN2017/099699 WO2018205458A1 (zh) | 2017-05-10 | 2017-08-30 | 获取目标用户的方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710326329.0A CN107656918B (zh) | 2017-05-10 | 2017-05-10 | 获取目标用户的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107656918A CN107656918A (zh) | 2018-02-02 |
CN107656918B true CN107656918B (zh) | 2019-07-05 |
Family
ID=61127595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710326329.0A Active CN107656918B (zh) | 2017-05-10 | 2017-05-10 | 获取目标用户的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107656918B (zh) |
WO (1) | WO2018205458A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619070B (zh) * | 2018-06-04 | 2022-05-10 | 北京百度网讯科技有限公司 | 文章生成方法和装置 |
CN111385136B (zh) * | 2018-12-29 | 2023-01-06 | 华为技术服务有限公司 | 一种用户通信标识的确定方法和装置 |
CN110362831B (zh) * | 2019-07-17 | 2024-02-23 | 广州财盟科技有限公司 | 目标用户识别方法、装置、电子设备及存储介质 |
CN111198992A (zh) * | 2020-01-07 | 2020-05-26 | 精硕科技(北京)股份有限公司 | 母婴人群的识别方法、识别装置、电子设备及存储介质 |
CN112104642B (zh) * | 2020-09-11 | 2021-12-28 | 腾讯科技(深圳)有限公司 | 一种异常账号确定方法和相关装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090090818A (ko) * | 2008-02-22 | 2009-08-26 | 이명종 | 소셜 네트워크에서의 타게팅 광고 서비스 제공 방법 및시스템 |
CN103489117B (zh) * | 2012-06-12 | 2015-07-01 | 深圳市腾讯计算机系统有限公司 | 信息投放方法和系统 |
CN103577988B (zh) * | 2012-07-24 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 一种识别特定用户的方法和装置 |
CN103544312B (zh) * | 2013-11-04 | 2017-06-16 | 成都数之联科技有限公司 | 基于社交网络的招聘信息匹配方法 |
CN103870538B (zh) * | 2014-01-28 | 2017-02-15 | 百度在线网络技术(北京)有限公司 | 针对用户进行个性化推荐的方法、用户建模设备及系统 |
CN104036037A (zh) * | 2014-06-30 | 2014-09-10 | 小米科技有限责任公司 | 处理垃圾用户的方法及装置 |
CN104268130B (zh) * | 2014-09-24 | 2017-02-15 | 南开大学 | 一种面向Twitter的社交广告可投放性分析方法 |
CN104317959B (zh) * | 2014-11-10 | 2018-07-17 | 北京字节跳动网络技术有限公司 | 基于社交平台的数据挖掘方法及装置 |
CN106354822A (zh) * | 2016-08-30 | 2017-01-25 | 五八同城信息技术有限公司 | 获取目标用户的方法和装置 |
-
2017
- 2017-05-10 CN CN201710326329.0A patent/CN107656918B/zh active Active
- 2017-08-30 WO PCT/CN2017/099699 patent/WO2018205458A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2018205458A1 (zh) | 2018-11-15 |
CN107656918A (zh) | 2018-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107656918B (zh) | 获取目标用户的方法及装置 | |
WO2020048084A1 (zh) | 资源推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN104090967B (zh) | 应用程序推荐方法及推荐装置 | |
US9460458B1 (en) | Methods and system of associating reviewable attributes with items | |
US9934293B2 (en) | Generating search results | |
CN109871446A (zh) | 意图识别中的拒识方法、电子装置及存储介质 | |
CN109190044A (zh) | 个性化推荐方法、装置、服务器和介质 | |
US20090327120A1 (en) | Tagged Credit Profile System for Credit Applicants | |
CN107784092A (zh) | 一种推荐热词的方法、服务器及计算机可读介质 | |
CN106959966A (zh) | 一种信息推荐方法及系统 | |
CN109033299A (zh) | 一种通过终端应用向用户推荐信息的方法、装置及设备 | |
CN107810497A (zh) | 呈现搜索结果的方法、系统、和介质 | |
WO2020029401A1 (zh) | 商品推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN109242537A (zh) | 广告投放方法、装置、计算机设备及存储介质 | |
CN110852785B (zh) | 用户分级方法、装置及计算机可读存储介质 | |
CN110362601A (zh) | 元数据标准的映射方法、装置、设备及存储介质 | |
CN110348907A (zh) | 一种广告人群的定向方法及装置 | |
CN107247728B (zh) | 文本处理方法、装置及计算机存储介质 | |
CN110503506A (zh) | 基于评分数据的物品推荐方法、装置及介质 | |
CN109447273A (zh) | 模型训练方法、广告推荐方法、相关装置、设备及介质 | |
CN107809370B (zh) | 用户推荐方法及装置 | |
CN107093081A (zh) | 服务策略制定方法和装置 | |
CN110083759A (zh) | 舆论信息爬取方法、装置、计算机设备及存储介质 | |
CN103678548B (zh) | 基于组合模式的失效服务替代推荐方法 | |
CN112560105B (zh) | 保护多方数据隐私的联合建模方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |