CN107665443B - 获取目标用户的方法及装置 - Google Patents
获取目标用户的方法及装置 Download PDFInfo
- Publication number
- CN107665443B CN107665443B CN201710326330.3A CN201710326330A CN107665443B CN 107665443 B CN107665443 B CN 107665443B CN 201710326330 A CN201710326330 A CN 201710326330A CN 107665443 B CN107665443 B CN 107665443B
- Authority
- CN
- China
- Prior art keywords
- user
- keyword
- certification
- cluster
- cluster class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012545 processing Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 13
- 239000000284 extract Substances 0.000 abstract description 5
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 229940069016 go-dry Drugs 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明适用于信息处理技术领域,提供了一种获取目标用户的方法及装置。该获取目标用户的方法包括:获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。该获取目标用户的方法,能够更加准确地确定该用户是否为目标用户,而且过程简单。
Description
技术领域
本发明属于信息处理技术领域,尤其涉及一种获取目标用户的方法及装置。
背景技术
在通过社交网络研究用户分类时,往往根据用户在网络中发布的内容对用户进行分类。但很多用户会是潜水用户,不会发布内容;或根据在网络中的关注关系而发布内容,例如,一个金融工作者在微博中如果互动较多的用户是亲戚和邻居,那么该用户则可能不会发布太多专业性太强的内容。因此,通过发布的内容不能准确地基于用户特征对用户进行分类。
发明内容
有鉴于此,本发明实施例提供了一种获取目标用户的方法及装置,以解决现有技术中通过用户发布的内容不能准确地基于用户特征对用户进行分类的问题。
本发明实施例的第一方面,提供了一种获取目标用户的方法,包括:
获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;
将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;
根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。
本发明实施例的第二方面,提供了一种获取目标用户的装置,包括:
信息获取模块,用于获取多个用户的社交账号所关注的各个认证用户的验证文本信息;
关键词提取模块,用于提取所述信息获取模块获取到的各个验证文本信息中的关键词;
分类模块,用于将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;
处理模块,用于根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。
本发明实施例相对于现有技术所具有的有益效果:本发明实施例,获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户,由于通过用户的社交账号关注的各个认证用户的验证文本信息,对所有认证用户进行分类,并根据分类结果结合用户的社交账号关注的各个认证用户,确定用户是否为目标用户,从而能够更加准确地确定该用户是否为目标用户,而且过程简单。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的获取目标用户的方法的流程图;
图2是本发明实施例提供的提取所获取到的各个验证文本信息中的关键词的实现流程图;
图3是本发明实施例提供的将所提取的各个关键词分为多个簇类的实现流程图;
图4是图1中步骤S103的实现流程图;
图5是本发明实施例提供的获取目标用户的装置的结构框图;
图6是本发明实施例提供的获取目标用户的装置的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的获取目标用户的方法的实现流程,详述如下:
步骤S101,获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词。
其中,社交账号包括但不限于微博账号、即时通信账号等。在社交网络平台上的关注网络可分为两类:A类是基于关系的亲友关注,通常连接的双方线下已相识,且互相关注;B类是跳出线下社交圈,基于个人兴趣的关注,以普通用户对名人(大多为认证账户)的关注为典型,通常为单向关注。A类关注的目的偏向于社交性的用户互动,而B类关注的目的偏向于订阅式的获取信息。
所述验证文本信息为认证用户在社交平台上发布的关于该认证用户所涉及的领域(例如金融、体育、娱乐等领域)、行业、地址等信息,因此能够根据关注该认证用户的用户对该认证用户的领域、地址等信息比较关注、关心。本步骤中,可以通过爬虫方式获取多个用户关注的各个认证用户的认证信息,但并不以此为限。
参见图2,一个实施例中,步骤S101中的所述提取所获取到的各个验证文本信息中的关键词,可以通过以下过程实现:
步骤S201,按照预设要求对各个验证文本信息进行分词。
具体的,可以采用多种分词方法对各个验证文本信息进行分词。本实施例中,所述分词方法可以包括Jieba分词方法、ICTCLAS分词方法等针对中文的分词方法,也可以包括针对非中文的分词方法,对此不作限定。
例如,由于处理对象为中文,可以采用Jieba分词的精确模式进行中文分词。其中,Jieba分词包括对标点符号的特殊字符的过滤。对验证文本进行分词前,只需将各个验证文本中非标点符号的特殊字符串过滤掉即可。例如,不少认证用户会在认证信息中提到相关网址,因此可以将“http”、“www”等特殊字符串过滤掉。
步骤S202,将对所有验证文本信息的分词结果进行去干除扰词处理。
本步骤中,由于采用步骤S201中的分词方法进行分词后,很可能会出现频次高,但无法反映用户对应的兴趣、行业等信息的干扰词,例如,地理范围(例如,上海、北京、全国等)、名次(例如,最佳、第一等)等。由于所述干扰词无法反映用户对应的兴趣、行业等信息,因此需要去除掉干扰词。
步骤S203,将经过所述去干除扰词处理后的分词结果中出现次数大于第一阈值的词组设定为关键词。
其中,可以将去除掉干扰词以后的分词结果中的各个词组进行统计,并将在分词结果中的出现次数大于第一阈值的词组设定为关键词。本实施例中,第一阈值可以设置为3,当然也可以根据实际需要设置为其他数值。
另外,还可以更新自定义词库Dictwordlist:若后续给聚类标注解释时发现部分分词错误,可以通过在自定义词库内添加词组及对应的权重的方法得到更正后的分词结果。
步骤S102,将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类。
参见图3,一个实施例中,步骤S102中的所述将所提取的各个关键词分为多个簇类,可以通过以下过程实现:
步骤S301,计算各个所述关键词对应的向量。
本步骤中,可以将各个关键词(本实施例中,关键词又可称为高频词)作为聚类的维度,每条认证信息分词后的文本可以通过tf-idf的方法转化成各个维度上的值,由此确立每条认证信息文本数据在多维空间中的位置。
例如,以600个高频词,N条用户验证信息文本为例,文本在关键词fwi这个维度的分数为各个文本位置向量TextnArray=[Score(textn,fw1),Score(textn,fw2),…,Score(textn,fw600)],n=1,2,…,N。所有文本向量组成的文本矩阵如表1所示。
表1所有文本向量组成的文本矩阵
表1中,每个维度对应一个关键词,每个文本对应一个认证用户的验证文本信息。文本1在各个维度的向量为[0,0,0.70036,0,0.71379,0,0,0,…,0]表示:文本1的领域、行业等信息与维度3和维度5对应的关键词相关,即可以为认证用户1设置与维度3和维度5对应的关键词相关的标签。对于对文本2至文本N设置的标签,可以参照对文本1设置标签的方法。
其中,可以通过运用sklearn.feature_extraction.text_TfidVectorizer包,将各个关键词作为聚类的维度,但并不以此为限。
步骤S302,根据各个所述关键词对应的向量,将各个所述关键词分为多个所述簇类,每个所述簇类中的各个关键词到对应的簇类中心的距离的平均值小于第二阈值。
具体的,可以首先将多个高频词分为两个簇类,然后分别计算每个簇类的几何中心,以及该簇类的平均半径。其中,平均半径为该簇类所有向量到该簇类的几何中心的距离的平均值。当平均半径大于第二阈值时,则继续将该簇划分为两个簇类;当平均半径小于等于第二阈值时,则保留该簇类。通过上述过程,直至最后每个簇类中的各个关键词到对应的簇类中心的距离的平均值小于第二阈值。可以对每个最终确定的簇类设置一个标识,各个簇类的标识各不相同。
本步骤中,通过多次迭代,最终得到多个簇类。在此过程中,可以将每一簇类包含的关键词按词频排序,取t个排序靠前的关键词输出,为后续聚类解释提供依据。
可选的,步骤S302中的所述根据所述多个簇类对所有的认证用户进行分类具体可以为:根据从每个所述认证用户的验证文本中提取出的各个关键词对应的簇类,为每个所述认证用户设置相应的标识。通常情况下,每个认证用户可以对应至少一个标识。
步骤S103,根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。
其中,步骤S102中的每个所述簇类可以对应一个标识。参见图4,一个实施例中,步骤S103可以通过以下过程实现:
步骤S401,获取所述用户的社交账号所关注的各个认证用户的标识,以及与预设标识相匹配的认证用户的标识的匹配个数。
其中,在对各个认证用户设置相应的标识以后,对于一个用户,可以获取该用户关注的各个认证用户的标识。获取到该用户关注的各个认证用户的标识后,将该用户关注的各个认证用户的标识与预设标识进行匹配,以获取该用户关注的各个认证用户的标识中与所述预设标识相匹配的匹配个数。预设标识为目标用户对应的标识,例如目标用户是需要对金融感兴趣或关注的用户,则预设标识与金融对应。
步骤S402,根据所述用户的社交账号所关注的所有认证用户的个数和所述匹配个数,确定所述用户是否为目标用户。
具体的,可以根据用户的社交账号所关注的所有认证用户的个数,与匹配个数的比值关系,计算用户对预设标识所表征的领域的兴趣值,然后根据计算得出的兴趣值的大小,确定用户是否为预设标识对应的领域的目标用户。
例如,预设标识为By,表征投资领域,用户A关注了N1个认证用户,而N1个认证用户对应的标识共有M1(M1≥N1)个标识,且有M2(M2≤M1)个标识与预设标识匹配,即有M2个标识也表征投资,则该用户对预设标识所表征的领域的兴趣值为M2/N1。若兴趣值大于预设值,则确定该用户为目标用户;否则,该用户为非目标用户或具有一定发展潜力的用户。
另外,在步骤S302中,得出的各个簇类中还可能包括其他簇类。所述其他簇类主要组成部分是:认证信息经过干扰词过滤及高频词筛选后,文本为空文本的认证用户。例如验证文本信息为“北京ABC公司经理”,其中“北京”、“公司”、“经理”为干扰词,而“ABC”为低频词,文本过滤后为空,不包含关键词。
对应的,可以根据用户的社交账号所关注的所有认证用户的个数、匹配个数和用户的社交账号所关注的所有认证用户与其他簇类对应的个数,计算用户对预设标识所表征的领域的兴趣值,然后根据计算得出的兴趣值的大小,确定用户是否为预设标识对应的领域的目标用户。其中,认证用户与除所述其他簇类之外的簇类无对应关系时,才会认定认证用户与所述其他簇类对应。假设用户关注的认证用户个数为N1,其中n0个认证用户的标识对应其他簇类,n1个认证用户的标识对应投资,则该用户对投资产品的兴趣值为:n1/(N1-n0)。
针对所述其他簇类的问题,可以通过以下过程进行改进:首先,将每一簇类包含的关键词按词频排序,取预设个数排序靠前的关键词;然后,假设簇类中心初始位置不变,将空文本对应生成一个新增簇类;接着,检测空文本中的词组是否包含其他簇类的排序靠前的关键词,并在检测到空文本中的词组包含某一簇类的排序靠前的关键词时,对该簇类的票数加一,最后根据各簇类获得票数将空文本中的词组调整到票数最大的簇类中。
上述获取目标用户的方法,获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户,由于通过用户的社交账号关注的各个认证用户的验证文本信息,对所有认证用户进行分类,并根据分类结果结合用户的社交账号关注的各个认证用户,确定用户是否为目标用户,从而能够更加准确地确定该用户是否为目标用户,而且过程简单。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的获取目标用户的方法,图5示出了本发明实施例提供的获取目标用户的装置的结构框图。为了便于说明,仅示出了与本实施例相关的部分。
参照图5,该装置包括信息获取模块101、关键词提取模块102、分类模块103和处理模块104。其中,信息获取模块101,用于获取多个用户的社交账号所关注的各个认证用户的验证文本信息。关键词提取模块102,用于提取所述信息获取模块获取到的各个验证文本信息中的关键词。分类模块103,用于将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类。处理模块104,用于根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。
可选的,关键词提取模块102可以包括分词单元201、去干扰单元202和设定单元203。其中,分词单元201,用于按照预设要求对各个验证文本信息进行分词。去干扰单元202,用于将对所有验证文本信息的分词结果进行去除干扰词处理。设定单元203,用于将经过所述去除干扰词处理后的分词结果中出现次数大于第一阈值的词组设定为关键词。
可选的,分类模块103可以包括计算单元301和簇类划分单元302。其中,计算单元301,用于计算各个所述关键词对应的向量。簇类划分单元302,用于根据各个所述关键词对应的向量,将各个所述关键词分为多个所述簇类,每个所述簇类中的各个关键词到对应的簇类中心的距离的平均值小于第二阈值。
作为一种可实施方式,每个所述簇类均可以对应一个标识;分类模块103具体可以用于:根据从每个所述认证用户的验证文本中提取出的各个关键词对应的簇类,为每个所述认证用户设置相应的标识。
可选的,处理模块包括获取单元401和确定单元402。其中,获取单元401,用于获取所述用户的社交账号所关注的各个认证用户的标识,以及与预设标识相匹配的认证用户的标识的匹配个数。确定单元402,用于根据所述用户的社交账号所关注的所有认证用户的个数和所述匹配个数,确定所述用户是否为目标用户。
图6示出了本发明实施例提供的获取目标用户的装置的结构示意图。参见图6,该获取目标用户的装置可以包括:一个或多个输入设备502,一个或多个输出设备503,一个或多个处理器501和存储器504。处理器501、输入设备502、输出设备503和存储器504通过总线505连接。
处理器501,用于通过输入设备502获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词,处理器501,还用于将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类,以及根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。
可选的,处理器501具体用于:按照预设要求对各个验证文本信息进行分词,并将对所有验证文本信息的分词结果进行去除干扰词处理,以及将经过所述去除干扰词处理后的分词结果中出现次数大于第一阈值的词组设定为关键词。
可选的,处理器501具体用于:计算各个所述关键词对应的向量,并根据各个所述关键词对应的向量,将各个所述关键词分为多个所述簇类,每个所述簇类中的各个关键词到对应的簇类中心的距离的平均值小于第二阈值。
可选的,处理器501具体用于:根据从每个所述认证用户的验证文本中提取出的各个关键词对应的簇类,为每个所述认证用户设置相应的标识。
可选的,处理器501还具体用于:获取所述用户的社交账号所关注的各个认证用户的标识,以及与预设标识相匹配的认证用户的标识的匹配个数,并根据所述用户的社交账号所关注的所有认证用户的个数和所述匹配个数,确定所述用户是否为目标用户。
所述存储器504,用于存储软件程序、模块和所述网络交互数据,所述处理器501通过运行存储在所述存储器504的软件程序以及单元,从而执行各种功能应用以及数据处理,实现终端的信息交互功能。
应当理解,在本发明实施例中,所称处理器501可以是中央处理单元(CentralProcessing Unit,CPU),该处理器501还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备502可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备503可以包括显示器(LCD等)、扬声器等。
存储器504可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如,存储器504还可以存储设备类型的信息。
综上所述,该获取目标用户的装置,获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户,由于通过用户的社交账号关注的各个认证用户的验证文本信息,对所有认证用户进行分类,并根据分类结果结合用户的社交账号关注的各个认证用户,确定用户是否为目标用户,从而能够更加准确地确定该用户是否为目标用户,而且过程简单。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种获取目标用户的方法,其特征在于,包括:
获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;
计算各个所述关键词对应的向量;
根据各个所述关键词对应的向量,将各个所述关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;
根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户;
其中,所述根据各个所述关键词对应的向量,将各个所述关键词分为多个簇类包括:
将各个所述关键词分为两个簇类;
分别计算每个簇类的几何中心和平均半径,所述平均半径为簇类的所有向量与簇类的几何中心之间的距离的平均值;
保留所述簇类中平均半径小于第二阈值的簇类;
将所述簇类中平均半径大于所述第二阈值的簇类再次划分为两个新的簇类,直至所有簇类的平均半径均小于所述第二阈值,得到最终的多个簇类;
分别将每个所述最终的多个簇类包含的所述关键词按照词频排序,取预设数量排序靠前的关键词输出。
2.根据权利要求1所述的获取目标用户的方法,其特征在于,所述提取所获取到的各个验证文本信息中的关键词包括:
按照预设要求对各个验证文本信息进行分词;
将对所有验证文本信息的分词结果进行去除 干扰词处理;
将经过所述去除 干扰词处理后的分词结果中出现次数大于第一阈值的词组设定为关键词。
3.根据权利要求1所述的获取目标用户的方法,其特征在于,每个所述簇类对应一个标识;所述根据所述多个簇类对所有的认证用户进行分类具体为:
根据从每个所述认证用户的验证文本中提取出的各个关键词对应的簇类,为每个所述认证用户设置相应的标识。
4.根据权利要求3所述的获取目标用户的方法,其特征在于,所述根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户包括:
获取所述用户的社交账号所关注的各个认证用户的标识,以及与预设标识相匹配的认证用户的标识的匹配个数;
根据所述用户的社交账号所关注的所有认证用户的个数和所述匹配个数,确定所述用户是否为目标用户。
5.一种获取目标用户的装置,其特征在于,包括:
信息获取模块,用于获取多个用户的社交账号所关注的各个认证用户的验证文本信息;
关键词提取模块,用于提取所述信息获取模块获取到的各个验证文本信息中的关键词;
分类模块,用于将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;
处理模块,用于根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户;
所述分类模块包括:
计算单元,用于计算各个所述关键词对应的向量;
簇类划分单元,用于根据各个所述关键词对应的向量,将各个所述关键词分为多个所述簇类;
其中,所述根据各个所述关键词对应的向量,将各个所述关键词分为多个簇类包括:
将各个所述关键词分为两个簇类;
分别计算每个簇类的几何中心和平均半径,所述平均半径为簇类的所有向量与簇类的几何中心之间的距离的平均值;
保留所述簇类中平均半径小于第二阈值的簇类;
将所述簇类中平均半径大于所述第二阈值的簇类再次划分为两个新的簇类,直至所有簇类的平均半径均小于所述第二阈值,得到最终的多个簇类;
分别将每个所述最终的多个簇类包含的所述关键词按照词频排序,取预设数量排序靠前的关键词输出。
6.根据权利要求5所述的获取目标用户的装置,其特征在于,所述关键词提取模块包括:
分词单元,用于按照预设要求对各个验证文本信息进行分词;
去干扰单元,用于将对所有验证文本信息的分词结果进行去除干扰词处理;
设定单元,用于将经过所述去除干扰词处理后的分词结果中出现次数大于第一阈值的词组设定为关键词。
7.根据权利要求5所述的获取目标用户的装置,其特征在于,每个所述簇类对应一个标识;所述分类模块具体用于:根据从每个所述认证用户的验证文本中提取出的各个关键词对应的簇类,为每个所述认证用户设置相应的标识。
8.根据权利要求7所述的获取目标用户的装置,其特征在于,所述处理模块包括:
获取单元,用于获取所述用户的社交账号所关注的各个认证用户的标识,以及与预设标识相匹配的认证用户的标识的匹配个数;
确定单元,用于根据所述用户的社交账号所关注的所有认证用户的个数和所述匹配个数,确定所述用户是否为目标用户。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710326330.3A CN107665443B (zh) | 2017-05-10 | 2017-05-10 | 获取目标用户的方法及装置 |
PCT/CN2017/099702 WO2018205460A1 (zh) | 2017-05-10 | 2017-08-30 | 获取目标用户的方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710326330.3A CN107665443B (zh) | 2017-05-10 | 2017-05-10 | 获取目标用户的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107665443A CN107665443A (zh) | 2018-02-06 |
CN107665443B true CN107665443B (zh) | 2019-10-25 |
Family
ID=61121781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710326330.3A Active CN107665443B (zh) | 2017-05-10 | 2017-05-10 | 获取目标用户的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107665443B (zh) |
WO (1) | WO2018205460A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442801B (zh) * | 2019-07-26 | 2021-11-19 | 新华三信息安全技术有限公司 | 一种目标事件的关注用户的确定方法及装置 |
CN111104963B (zh) * | 2019-11-22 | 2023-10-24 | 贝壳技术有限公司 | 目标用户确定方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870538A (zh) * | 2014-01-28 | 2014-06-18 | 百度在线网络技术(北京)有限公司 | 针对用户进行个性化推荐的方法、用户建模设备及系统 |
CN104268171A (zh) * | 2014-09-11 | 2015-01-07 | 东北大学 | 基于活动相似和社交信任的社交网好友推荐系统及方法 |
CN104794656A (zh) * | 2014-01-16 | 2015-07-22 | 朱开一 | 一种应用于社交网络的推荐方法和推荐系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101576892A (zh) * | 2008-05-07 | 2009-11-11 | 爱帮聚信(北京)科技有限公司 | 地点区域确定方法和装置 |
CN105303406A (zh) * | 2015-10-30 | 2016-02-03 | 哈尔滨工程大学 | 电子商务中的橙领推荐方法 |
CN105447169B (zh) * | 2015-12-07 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 文献归一方法、文献搜索方法及对应装置 |
-
2017
- 2017-05-10 CN CN201710326330.3A patent/CN107665443B/zh active Active
- 2017-08-30 WO PCT/CN2017/099702 patent/WO2018205460A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794656A (zh) * | 2014-01-16 | 2015-07-22 | 朱开一 | 一种应用于社交网络的推荐方法和推荐系统 |
CN103870538A (zh) * | 2014-01-28 | 2014-06-18 | 百度在线网络技术(北京)有限公司 | 针对用户进行个性化推荐的方法、用户建模设备及系统 |
CN104268171A (zh) * | 2014-09-11 | 2015-01-07 | 东北大学 | 基于活动相似和社交信任的社交网好友推荐系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107665443A (zh) | 2018-02-06 |
WO2018205460A1 (zh) | 2018-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022126971A1 (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
US10262059B2 (en) | Method, apparatus, and storage medium for text information processing | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN106803039B (zh) | 一种恶意文件的同源判定方法及装置 | |
CN108959474B (zh) | 实体关系提取方法 | |
CN109885688A (zh) | 文本分类方法、装置、计算机可读存储介质和电子设备 | |
CN110929525B (zh) | 一种网贷风险行为分析检测方法、装置、设备和存储介质 | |
TWI749349B (zh) | 文本還原方法、裝置及電子設備與電腦可讀儲存媒體 | |
CN104484600B (zh) | 一种基于改进密度聚类的入侵检测方法及装置 | |
CN107665443B (zh) | 获取目标用户的方法及装置 | |
CN104751350B (zh) | 一种信息显示方法及终端 | |
CN113052577A (zh) | 一种区块链数字货币虚拟地址的类别推测方法及系统 | |
CN106372237A (zh) | 欺诈邮件识别方法及装置 | |
US20240184984A1 (en) | Enforcing data ownership at gateway registration using natural language processing | |
CN107038377B (zh) | 一种网站认证方法及装置、网站授信方法及装置 | |
CN108112026B (zh) | WiFi识别方法及装置 | |
CN108470065B (zh) | 一种异常评论文本的确定方法及装置 | |
CN109471953A (zh) | 一种语音数据检索方法及终端设备 | |
CN114697127B (zh) | 一种基于云计算的业务会话风险处理方法及服务器 | |
WO2019019711A1 (zh) | 行为模式数据的发布方法、装置、终端设备及介质 | |
CN107066623A (zh) | 一种文章合并方法及装置 | |
CN108763400B (zh) | 基于对象行为和主题偏好的对象划分方法及装置 | |
Yeh et al. | A fraud detection system for real-time messaging communication on Android Facebook messenger | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
CN110019764A (zh) | 大数据平台敏感数据的发现方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |