CN110633423B - 目标账号识别方法、装置、设备及存储介质 - Google Patents
目标账号识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110633423B CN110633423B CN201910892159.1A CN201910892159A CN110633423B CN 110633423 B CN110633423 B CN 110633423B CN 201910892159 A CN201910892159 A CN 201910892159A CN 110633423 B CN110633423 B CN 110633423B
- Authority
- CN
- China
- Prior art keywords
- account
- dimension
- target
- word vector
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 239000013598 vector Substances 0.000 claims abstract description 264
- 238000012549 training Methods 0.000 claims abstract description 115
- 238000012545 processing Methods 0.000 claims abstract description 85
- 230000009467 reduction Effects 0.000 claims abstract description 43
- 238000003066 decision tree Methods 0.000 claims abstract description 31
- 238000005070 sampling Methods 0.000 claims description 99
- 238000010801 machine learning Methods 0.000 claims description 77
- 238000012795 verification Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 238000002360 preparation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例提供一种目标账号识别方法、装置、设备及存储介质,该方法包括:获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息;在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量;对每个所述账号在每个维度上的目标词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识;根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号。本公开实施例能够解决现有技术无法有效地提高识别准确率的问题。
Description
技术领域
本公开实施例涉及识别技术领域,尤其涉及一种目标账号识别方法、装置、设备及存储介质。
背景技术
随着互联网技术的不断发展,涌现出越来越多的互联网服务平台。目前,在平台提供的服务中,用户可以发表自定义内容,各个互联网服务平台都会在平台中展示各个账号或用户发表的数据。
这些用户通常是通过发表的标题、描述信息等数据用以吸引粉丝,这也出现了很多存在异常的账号,这些存在异常的账号一般通过重复其他原创用户发表的内容或发表与其他原创用户发表的内容相似度很高的内容来吸引粉丝,形成不好的影响。
但是,现有技术中,针对存在异常等目标账号的识别,一般是通过统计来实现的,这种统计方案针对目标账号的识别准确率较低。
发明内容
本公开实施例提供一种目标账号识别方法、装置、设备及存储介质,以克服现有技术无法有效地提高识别准确率的问题。
第一方面,本公开实施例提供一种目标账号识别方法,包括:
获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息,所述历史数据包括所述目标数据;
在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量;
对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,所述聚类标识用于表示一个用户群的聚类特征,所述用户群为至少一个所述账号对应的用户;
根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号。
第二方面,本公开实施例提供一种目标账号识别装置,包括:
获取模块,用于获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息,所述历史数据包括所述目标数据;
数据处理模块,用于在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量;
降维处理模块,用于对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,所述聚类标识用于表示一个用户群的聚类特征,所述用户群为至少一个所述账号对应的用户;
目标账号确定模块,用于根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号。
第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的目标账号识别方法。
第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的目标账号识别方法。
本公开实施例提供的目标账号识别方法、装置、设备及存储介质,首先获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息,所述历史数据包括所述目标数据,通过上传的目标数据以及上传的目标数据的终端上传的历史数据的统计信息,用以判断该终端对应的账号是否是目标账号,具体地,首先在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量,然后对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,用以得到符合该聚类标识对应的聚类特征的至少一个所述账号对应的用户;再根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号,实现了基于机器学习的目标账号识别方法,有效提高了目标账号的识别效率以及准备率。本公开实施例通过在多个维度上对目标数据进行数据处理,得到每个维度上的目标词向量,然后通过对每个维度上的目标词向量进行降维处理,避免过拟合,再根据降维处理的聚类标识以及统计信息,基于梯度提升决策树模型训练,用以判断该终端对应的账号是否是目标账号,能够有效地识别目标账号,同时提高识别目标账号的准确率。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的目标账号识别方法的流程示意图;
图2为本公开又一实施例提供的目标账号识别方法的流程示意图;
图3为本公开再一实施例提供的目标账号识别方法的流程示意图;
图4为本公开又一实施例提供的目标账号识别方法的流程示意图;
图5为本公开再一实施例提供的目标账号识别方法的流程示意图;
图6为本公开另一实施例提供的目标账号识别方法的流程示意图;
图7为本公开又一实施例提供的目标账号识别方法的流程示意图;
图8为本公开再一实施例提供的目标账号识别方法的流程示意图;
图9为本公开实施例提供的所述目标账号识别装置的结构框图;
图10为本公开又一实施例提供的所述目标账号识别装置的结构框图;
图11为本公开另一实施例提供的所述目标账号识别装置的结构框图;
图12为本公开又一实施例提供的所述目标账号识别装置的结构框图;
图13为本公开实施例提供了的目标账号识别系统的结构框图;
图14为公开实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
目前,在平台提供的服务中,用户可以发表自定义内容,这也出现了很多存在异常的账号,这些异常账号(目标账号至少包括异常账号)一般通过重复其他原创用户发表的内容或发表与其他原创用户发表的内容相似度很高的内容用户来吸引粉丝,形成不利影响。因此,如何识别存在异常等目标账号就成为本领域重点关注问题。现有技术中,针对目标账号的识别,一般是通过统计来实现的,这种统计方案针对目标账号的识别准确率较低。本公开实施例提供一种目标账号识别方法以解决上述问题。
参考图1,图1为本公开实施例提供的目标账号识别方法流程示意图。本公开实施例的方法可以应用在终端设备或服务器中,即执行主体可以是终端设备也可以是服务器,在此不做限定。该目标账号识别方法包括:
S101、获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息,所述历史数据包括所述目标数据。
在本公开实施例中,对每个账号对应的终端不进行限定,可以是手机、电脑、平板等可以上传数据的终端,每个账号对应的终端上传的目标数据可以是已经发表在预设平台上的数据也可以是未发表且在等待预设平台审核的数据。这里的目标账号可以为异常账号,比如,存在风险的账号,所以该目标账号识别方法至少可以应用于风险账号的识别。所述目标账号的识别方法的实现过程中是选取一段时间内多个账号对应的终端上传的文章进行数据处理,以及对所述账号对应的终端上传历史数据进行统计,得到历史数据的统计信息,其中,历史数据中包括该预设时间段内账号对应的终端上传的目标数据。其中,所述目标数据可以为一篇文章也可以为多篇文章。即实际应用中,在预设时间段内(比如当天或某一天上午8点到凌晨12点)同一个账号对应的终端可能上传了一篇文章或是多篇文章即为目标数据。
S102、在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量。
本公开实施例中,通过多个维度,对每个所述账号对应的终端上传的目标数据进行数据处理,而数据处理的具体过程在每个所述维度上可以不同,比如,多个维度可以包括写作风格维度、评论维度和推荐维度;在每个维度上都能够得到每个账号对应的目标词向量,用以代表每个所述账号在每个维度上的目标词向量。
在实际应用中,对上述多个账号中每个账号对应的用户的目标数据进行处理,得到用户在多个维度上的词向量,将用户在多个维度上的词向量作为用户画像。
S103、对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,所述聚类标识用于表示一个用户群的聚类特征,所述用户群为至少一个所述账号对应的用户。
本公开实施例中,在得到每个所述账号在每个维度上的目标词向量之后,为了避免过拟合,对各维度上的词向量进行降维处理,得到每个账号的用户在各维度上的聚类标识(聚类ID),其中,某维度上的聚类ID用于表征某一用户群的聚类特征,为了实现实名制或是统一管理,一个用户或用户只能注册一个账号,即一个账号对应一个用户。
S104、根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号。
本公开实施例中,在得到用户在多个维度上的聚类ID之后,再结合该账号的统计数据,作为目标账号识别模型的输入,获取到输出结果:该账号是否为目标账号(或该账号是目标账号的概率,具体地,应用在异常账号,比如风险账号的识别上,即为该账号是风险账号的概率)。其中,目标账号识别模型是基于对每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练得到的。该目标账号识别模型是通过实时地训练,而不是预先训练好的,因此,该目标账号识别方法更加有效,且识别准确率高。
在实际应用中,该目标账号的识别方法可以不限于应用于风险账号的识别上,其中,服务器或是预设平台的终端设备采集在预设时间段内每个账号对应的终端上传的目标数据,该目标数据可以为一篇文章可以为多篇文章,对每个账号对应的终端上传的目标数据进行处理,得到每个账号的用户在多个维度上的词向量即为目标词向量作为用户画像,为了避免过拟合,对每个所述账号在各个维度上的目标词向量进行降维处理,得到每个所述账号的用户在每个维度上的聚类ID,其中,每个维度上的聚类ID用于表征某一用户群的聚类特征,在得到每个所述账号的用户在多个维度上的聚类ID之后,再结合每个账号对应的终端上传的历史数据的统计数据,作为目标账号识别模型的输入,获取到输出结果:该账号是目标账号或不是目标账号(或该账号是目标账号的概率)。其中,目标账号识别模型可以采用梯度提升决策树模型(Gradient Boosting Decision Tree,GBDT),此外,还可采用任意的神经网络模型、分类模型等。
本公开实施例中,首先获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息,所述历史数据包括所述目标数据,通过上传的目标数据以及上传的目标数据的终端上传的历史数据的统计信息,用以判断该终端对应的账号是否是目标账号,具体地,首先在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量,然后对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,用以得到符合该聚类标识对应的聚类特征的至少一个所述账号对应的用户;再根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号,实现了基于机器学习的目标账号识别方法,有效提高了目标账号的识别效率以及准备率。本公开实施例通过在多个维度上对目标数据进行数据处理,得到每个维度上的目标词向量,然后通过对每个维度上的目标词向量进行降维处理,避免过拟合,再根据降维处理的聚类标识以及统计信息,基于梯度提升决策树模型训练,用以判断该终端对应的账号是否是目标账号,能够有效地识别目标账号,同时提高识别目标账号的准确率。
为了得到每个所述账号在每个维度上的目标词向量,参见图2所示,图2为本公开又一实施例提供的目标账号识别方法的流程示意图,本公开实施例在上述公开实施例的基础上,对S102进行了详细说明。所述目标数据包括文本信息,所述多个至少维度包括写作风格维度、评论维度、推荐维度;所述在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量,包括:
S201、通过所述多个账号以及所述目标数据对应的文本信息对机器学习模型进行训练,得到每个所述账号在所述写作风格维度上的目标词向量;
S202、通过所述多个账号以及获取的每个所述账号对应的用户评论信息对机器学习模型进行训练,得到每个所述账号在所述评论维度上的目标词向量;
S203、通过所述多个账号的用户标识以及获取的与每个所述账号存在关联性的关联用户标识对机器学习模型进行训练,得到每个所述账号在所述推荐维度上的目标词向量。
本公开实施例中,文本信息可以为文章内容也可以为文章标题;机器学习模型可以为线性模型、该方法与支持向量机、决策树、神经网络等,每个账号在不同维度上对目标数据的处理过程不同:在写作风格维度上,将多个账号以及各个账号对应的终端上传的目标数据中的文本信息作为机器学习模型的输入量,通过机器学习输出量为每个账号在该写作的风格维度上的目标词向量。在评论维度上,将多个账号以及获取的每个所述账号对应的用户评论信息为机器学习模型的输入量,通过机器学习输出量为每个账号在该评论维度上的目标词向量,其中,用户评论信息为多个用户对账号的用户通过终端上传的历史数据进行评论的评论数据。在推荐维度上,将多个账号的用户标识以及获取的与每个所述账号存在关联性的关联用户标识作为机器学习模型的输入量,通过机器学习输出量为每个账号在该推荐维度上的目标词向量,其中,相关性是指用户与用户发生关系(例如,第一用户读过第二用户的文章,即为两个用户产生关系,具有关联性,第一用户与第二用户互为关联用户或是第一用户为第二用户的关联用户,关联用户对应的用户标识为关联用户标识)。
其中,多个维度还可以包括关注维度,关注维度是指用户转载过或分享过用户的文章,根据用户载过或分享过用户的文章的特征,通过机器学习,得到用户在关注维度上的目标词向量。
为了详细说明每个账号在各个维度上是如何得到目标词向量的,参见图3、图4和图5所示。
图3为本公开再一实施例提供的目标账号识别方法的流程示意图,本公开实施例在上述公开实施例的基础上,例如,在图2所述的实施例的基础上,对S201进行了详细说明。所述通过所述多个账号以及所述目标数据对应的文本信息对机器学习模型进行训练,得到每个所述账号在所述写作风格维度上的目标词向量,包括:
S301、对每个所述账号与所述多个账号对应的所有所述文本信息进行负采样,得到每个所述账号对应的多个第一负采样样本。
本公开实施例中,负采样是判断两个单词是不是一对上下文词(context)与目标词(target),如果是一对,则是正样本,如果不是一对,则是负样本。例如,账号A和账号B,账号A对应的文本信息为文本信息1、文本信息2,账号B对应的文本信息为文本信息3、文本信息4,则对账号A和文本信息1进行负采样为正样本(可以记作1),对账号A和文本信息2进行负采样为正样本,对账号A和文本信息3进行负采样为负样本(可以记作0),对账号A和文本信息4进行负采样为负样本,对账号B和文本信息1进行负采样为负样本(可以记作1),对账号B和文本信息2进行负采样为负样本,对账号B和文本信息3进行负采样为正样本(可以记作0),对账号B和文本信息4进行负采样为正样本。通过对每个所述账号与所述多个账号对应的所有所述文本信息进行负采样,得到每个所述账号对应的多个第一负采样样本。
S302、将每个所述账号的用户标识初始化为第一用户标识词向量以及将每个所述文本信息生成文本信息词向量;
S303、将所述第一负采样样本、所述第一用户标识词向量以及所述第一负采样样本对应的所述文本信息词向量作为所述机器学习模型的第一训练样本,所述多个账号对应的所有所述第一训练样本形成第一训练样本集;
S304、将所述第一训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述写作风格维度上的目标词向量。
本公开实施例中,首先将每个账号的用户ID随机映射成词向量即为第一用户标识词向量,同时,将每个账号对应的文本信息生成文本信息词向量。将上述得到的第一负采样样本作为机器学习模型训练的标签,将第一用户标识词向量以及所述第一负采样样本对应的所述文本信息词向量作为所述机器学习模型的输入量,通过FM算法对第一用户标识词向量以及所述第一负采样样本对应的所述文本信息词向量交叉相乘,不断迭代,使得逐渐与第一负采样样本接近,当输出结果趋于稳定时,输出每个账号在该写作风格维度上的目标词向量。
具体地,文本信息词向量的生成过程可以为:从目标数据中提取文本信息,解析文本信息获得多个词,为各个词创建初始词向量,生成表征文本中所有词构成的全文语义环境的全文词向量,按照各个词与全文词向量以及其他词的词向量之间的关联,对词的词向量进行迭代更新,使得通过定义全文词向量引入全局语义环境,而不是扩展原来的词向量学习窗口来使词向量训练过程受到全局语义的影响。用一个词向量代表全局语义只需在迭代训练过程中多更新一个全局语义变量,就可以在词向量训练过程中,保证最终学习得到的词向量既包含全局语义又包含上下文的局部语义,从而提高了词向量的准确性和鲁棒性。
图4为本公开又一实施例提供的目标账号识别方法的流程示意图,本公开实施例在上述公开实施例的基础上,例如,在图2所述的实施例的基础上,对S202进行了详细说明。所述通过所述多个账号以及获取的每个所述账号对应的用户评论信息对机器学习模型进行训练,得到每个所述账号在所述评论维度上的目标词向量,包括:
S401、对每个所述账号与所述多个账号对应的所有所述用户评论信息进行负采样,得到每个所述账号对应的多个第二负采样样本。
本公开实施例中,对每个所述账号与所述多个账号对应的所有所述用户评论信息进行负采样,得到每个所述账号对应的多个第二负采样样本,例如:账号A和账号B,账号A对应的用户评论信息为用户评论信息1、用户评论信息2,账号B对应的用户评论信息为用户评论信息3、用户评论信息4,则对账号A和用户评论信息1进行负采样为正样本(可以记作1),对账号A和用户评论信息2进行负采样为正样本,对账号A和用户评论信息3进行负采样为负样本(可以记作0),对账号A和用户评论信息4进行负采样为负样本,对账号B和用户评论信息1进行负采样为负样本(可以记作1),对账号B和用户评论信息2进行负采样为负样本,对账号B和用户评论信息3进行负采样为正样本(可以记作0),对账号B和用户评论信息4进行负采样为正样本。
S402、将每个所述账号的用户标识初始化为第二用户标识词向量以及将每条所述用户评论信息生成用户评论词向量;
S403、将所述第二负采样样本、所述第二用户标识词向量以及所述第二负采样样本对应的所述用户评论词向量作为所述机器学习模型的第二训练样本,所述多个账号对应的所有所述第二训练样本形成第二训练样本集;
S404、将所述第二训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述评论维度上的目标词向量。
本公开实施例中,首先将每个账号的用户ID随机映射成词向量即为第二用户标识词向量,同时,将每个账号对应的用户评论信息生成用户评论信息词向量。将上述得到的第二负采样样本作为机器学习模型训练的标签,将第二用户标识词向量以及所述第二负采样样本对应的所述用户评论信息词向量作为所述机器学习模型的输入量,通过FM算法对第二用户标识词向量以及所述第二负采样样本对应的所述用户评论信息词向量交叉相乘,不断迭代,使得逐渐与第二负采样样本接近,当输出结果趋于稳定时,输出每个账号在该评论维度上的目标词向量。
具体地,用户评论信息词向量的生成过程可以为:从上传目标数据的终端中提取对该账号的历史数据评论的用户评论信息,解析用户评论信息获得多个词,为各个词创建初始词向量,生成表征文本中所有词构成的全文语义环境的全文词向量,按照各个词与全文词向量以及其他词的词向量之间的关联,对词的词向量进行迭代更新,使得通过定义全文词向量引入全局语义环境,而不是扩展原来的词向量学习窗口来使词向量训练过程受到全局语义的影响。用一个词向量代表全局语义只需在迭代训练过程中多更新一个全局语义变量,就可以在词向量训练过程中,保证最终学习得到的词向量既包含全局语义又包含上下文的局部语义,从而提高了词向量的准确性和鲁棒性。
图5为本公开再一实施例提供的目标账号识别方法的流程示意图,本公开实施例在上述公开实施例的基础上,例如,在图2所述的实施例的基础上,对S203进行了详细说明。所述通过所述多个账号的用户标识以及获取的与每个所述账号存在关联性的关联用户标识对机器学习模型进行训练,得到每个所述账号在所述推荐维度上的目标词向量,包括:
S501、对每个所述账号的用户标识与所述多个账号对应的所有所述关联用户标识进行负采样,得到每个所述账号对应的多个第三负采样样本。
本公开实施例中,对每个所述账号的用户标识与所述多个账号对应的所有所述关联用户标识进行负采样,得到每个所述账号对应的多个第三负采样样本,例如,账号A和账号B,账号A对应的用户为用户1、用户2,账号B对应的用户为用户3、用户4,则对账号A和用户1进行负采样为正样本(可以记作1),对账号A和用户2进行负采样为正样本,对账号A和用户3进行负采样为负样本(可以记作0),对账号A和用户4进行负采样为负样本,对账号B和用户1进行负采样为负样本(可以记作1),对账号B和用户2进行负采样为负样本,对账号B和用户3进行负采样为正样本(可以记作0),对账号B和用户4进行负采样为正样本。
S502、将每个所述账号的用户标识初始化为第三用户标识词向量以及将每个所述关联用户标识初始化为关联用户标识词向量;
S503、将所述第三负采样样本、所述第三用户标识词向量以及所述第三负采样样本对应的所述关联用户标识词向量作为所述机器学习模型的第三训练样本,所述多个账号对应的所有所述第三训练样本形成第三训练样本集;
S504、将所述第三训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述推荐维度上的目标词向量。
本公开实施例中,首先将每个账号的用户ID随机映射成词向量即为第三用户标识词向量,同时,将每个账号对应的用户ID随机映射成词向量即为关联用户标识词向量。将上述得到的第三负采样样本作为机器学习模型训练的标签,将第三用户标识词向量以及所述第三负采样样本对应的所述关联用户标识词向量作为所述机器学习模型的输入量,通过FM算法对第三用户标识词向量以及所述第三负采样样本对应的所述关联用户标识词向量交叉相乘,不断迭代,使得逐渐与第三负采样样本接近,当输出结果趋于稳定时,输出每个账号在该推荐维度上的目标词向量。
在实际应用中,在各个维度上的目标词向量的获取步骤及处理方式如下:
1)写作风格维度;利用用户发表的文本内容来训练用户的词向量。
其中,文本内容包括:标题与具体内容中的至少一种。实际是采用发表文章的标题,这是由于具体内容较长,而标题风格明显。
训练过程:通过机器学习实现,输入为发表的文本内容,输出为用户词向量。
2)评论维度:利用机器学习实现,输入为评论数据,输出为用户词向量。
3)推荐维度:若用户与用户发生关系(例如,读过用户的文章)为正例输入;若用户并未与用户发生关系,则为负例输入;而目前实际算法考虑了“点击”行为,还可以进一步考虑分享或收藏等行为。
其中,统计信息可以包括:阅读量、发文量、过审量、展示量、粉丝阅读量等,这些数据可以通过统计得到。
在得到每个账号在各个维度上的目标词向量后,为了避免过拟合现象,还需要对每个账号在每个维度上的目标词向量进行降维处理,进而得到每个账号在每个维度上的聚类标识,参见图6所示,图6为本公开另一实施例提供的目标账号识别方法的流程示意图,本公开实施例在上述公开实施例的基础上,例如,在图1所述的实施例的基础上,对S103进行了详细说明。
其中,对每个所述账号在每个维度上的目标词向量进行降维处理,除了能够得到每个所述账号在每个所述维度上的聚类标识之外,还能够得到每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度。即:对每个所述账号在每个维度上的目标词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,以及每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度;所述确定每个所述账号是否为目标账号,包括:
S601、将每个所述账号在每个所述维度上的聚类标识和每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度以及每个所述账号对应的所述统计信息输入到所述梯度提升决策树模型中,得到每个所述账号是目标账号的概率。
本公开实施例中,梯度提升决策树模型是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。其中,降维处理得到聚类ID的步骤能够避免识别模型出现过拟合现象,在实际实现中,若省略该步骤,将导致准确度下降。降维的处理方式至少可以包括如下处理方式:聚类处理、相似度处理、归一化处理等。因此,对每个所述账号在每个维度上的目标词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,以及每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度。
具体地,梯度提升决策树模型中输入的是每个所述账号在每个所述维度上的聚类标识和每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度,结合聚类标识、相似度以及账号对应的统计信息,能够较全面地作为用户特征即为用户画像,根据用户画像对梯度提升决策树模型进行训练,输出用户对应的账号是目标账号的概率,这种实现方式是将所有该预设时间段内上传目标数据的账号的用户画像进行不断训练,输出的结果更趋于用户画像对应的账号是否为目标账号的真实结果,能够提高识别的有效性以及准确率。
S602、若所述概率大于预设概率阈值,则确定所述账号为目标账号。
本公开实施例中,根据输出的概率以及预设概率阈值,用以判断当前对应的账号是否为目标账号:若概率大于预设概率阈值,则说明该账号为目标账号;若概率小于或等于预设概率阈值,则说明该账号为非目标账号。
在实际应用中,判断账号是目标账号或非目标账号之后,还可以应用于:1)若识别出用户通过终端上传目标数据对应的账号为目标账号,对目标账号进行限制处理,主要涉及:限制发文、限制宣传推荐、封禁处理等。
2)可基于前述得到的用户画像,来为用户进行相似(类似)用户的推荐,如添加好友时,为用户推荐写作风格类似的其他用户。
3)针对非目标账号,若识别出与其类似的目标账号,可以输出提示数据以提示非目标账号“您的发表数据可能被盗用”。
4)根据目标账号的输出概率,来为目标账号设置不同的处理优先级,如此,针对输出概率较高的账号则设置较高的处理优先级。例如,优先对文章进行审核处理,以避免目标文章的传播。
具体地,为了找到与账号相似的相似账号,可以通过一下两种场景来实现:
场景一:基于各个账号的用户画像在各个维度上的目标词向量之间的距离。
参见图7所示,图7为本公开又一实施例提供的目标账号识别方法的流程示意图。本公开实施例在上述公开实施例的基础上,例如在图1所述的实施例的基础上,对各个账号的用户画像在各个维度上的目标词向量之间的距离,确定相似账号的场景进行了详细说明。在所述得到每个所述账号在每个维度上的目标词向量之后,所述方法还包括:
S701、根据每个所述账号在每个维度上的目标词向量,得到每个所述账号在每个所述维度上的目标词向量与所述多个账号中其他账号的目标词向量之间的距离。
本公开实施例中,可以从每个维度上,单独获取在该维度上与该账号的用户接近的N个账号的用户,其中,对于词向量而言,可以将词向量之间的距离作为接近程度。
S702、若在所述多个账号中其他账号中存在所述距离小于或等于预设距离阈值的目标账号,则根据所述目标账号,确定在所述维度上与所述账号相似的所有相似账号。
本公开实施例中,根据每个账号在每个维度上的目标词向量和所述多个账号中其他账号的目标词向量之间的距离,以及预设距离阈值,从多个账号中的其他账号中查到,确定在所述多个账号中其他账号中是否存在所述距离小于或等于预设距离阈值的目标账号,若在所述多个账号中其他账号中存在所述距离小于或等于预设距离阈值的目标账号,则将所述目标账号作为与所述账号相似的相似账号。该场景中还可以通过各维度的加权,获取整体上与用户接近的N个账号,实现方式同上述每个维度上对各个账号对应的目标词向量之间距离的计算以及与加权后的预设距离的判断是类似的,在此不再赘述。
场景二:基于各个账号的用户画像在各个维度上的聚类标识。
参见图8所示,图8为本公开再一实施例提供的目标账号识别方法的流程示意图。本公开实施例在上述公开实施例的基础上,例如在图1所述的实施例的基础上,根据各个账号的用户画像在各个维度上的聚类标识,确定相似账号的场景进行了详细说明。在所述得到每个所述账号在每个所述维度上的聚类标识之后,所述方法还包括:
S801、根据所述聚类标识,确定每个所述账号在每个所述维度上的所述聚类标识对应的所述用户群中的其他账号;
S802、根据每个所述账号在每个所述维度上的所述用户群中的其他账号,确定在所述维度上与所述账号相似的所有相似账号。
本公开实施例中,由于每个账号在每个维度上对应一个聚类标识,且聚类标识用于表征某一用户群的聚类特征,因此,根据账号对应的聚类标识,获取到该账号所在的用户群,用户群中包括携带有各个用户标识的账号以及账号信息,账号信息包括账号的统计信息。其中,用户群中所有的用户标识对应的账号互为相似账号,即将每个所述账号在每个所述维度上的所述用户群中的其他账号作为在所述维度上与所述账号相似的所有相似账号。
在图7和图8所述的实施例基础上,即在确定账号的所有相似账后之后,可以对该账号或相似账号进行应用处理,在本公开的一个实施例中,本公开实施例在上述公开实施例的基础上,例如在图7和图8所述的实施例基础上,对目标账号识别方法进行了详细说明。其中,可以先确定账号是否为目标账号,即所述确定每个所述账号是否为目标账号,包括:确定所述账号为非目标账号;因此,确定在所述维度上与所述账号相似的所有相似账号之后,所述方法还包括:
向所述账号对应的终端推送风险提示信息,以使所述终端对应的用户进行数据维护。
本公开实施例中,若确定在所述维度上与所述账号相似的所有相似账号之后,且若账号为非目标账号,则可以向该账号对应的终端推送风险提示信息,所述推送风险提示信息用于指示所述终端对应的用户进行数据维护,防止数据继续被非法利用。
本公开实施例提供的目标账号识别方法,获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息,所述历史数据包括所述目标数据,通过上传的目标数据以及上传的目标数据的终端上传的历史数据的统计信息,用以判断该终端对应的账号是否是目标账号,具体地,首先在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量,然后对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,用以得到符合该聚类标识对应的聚类特征的至少一个所述账号对应的用户;再根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号,实现了基于机器学习的目标账号识别方法,有效提高了目标账号的识别效率以及准备率。
本公开实施例通过在多个维度上对目标数据进行数据处理,得到每个维度上的目标词向量,然后通过对每个维度上的目标词向量进行降维处理,避免过拟合,再根据降维处理的聚类标识以及统计信息,基于梯度提升决策树模型训练,用以判断该终端对应的账号是否是目标账号,能够有效地识别目标账号,同时提高识别目标账号的准确率。
对应于上文公开实施例的目标账号识别方法,图9为本公开实施例提供的目标账号识别装置的结构框图。为了便于说明,仅示出了与本公开实施例相关的部分。参照图9,所述目标账号识别装置90包括:获取模块901、数据处理模块902、降维处理模块903以及目标账号确定模块904;获取模块901,用于获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息,所述历史数据包括所述目标数据;数据处理模块902,用于在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量;降维处理模块903,用于对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,所述聚类标识用于表示一个用户群的聚类特征,所述用户群为至少一个所述账号对应的用户;目标账号确定模块904,用于根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号。
本公开实施例提供的获取模块901、数据处理模块902、降维处理模块903以及目标账号确定模块904,用于在多个维度上对目标数据进行数据处理,得到每个维度上的目标词向量,然后通过对每个维度上的目标词向量进行降维处理,避免过拟合,再根据降维处理的聚类标识以及统计信息,基于梯度提升决策树模型训练,用以判断该终端对应的账号是否是目标账号,能够有效地识别目标账号,同时提高识别目标账号的准确率。
本公开实施例提供的装置,可用于执行上文方法实施例的技术方案,其实现原理和技术效果类似,本公开实施例此处不再赘述。
在本公开的一个实施例中,本公开实施例在上述公开实施例的基础上,例如,在图9实施例的基础上,本公开实施例对数据处理模块902进行了详细说明。所述目标数据包括文本信息,所述多个维度包括写作风格维度、评论维度、推荐维度;所述数据处理模块902,包括:第一目标词向量确定单元,用于通过所述多个账号以及所述目标数据对应的文本信息对机器学习模型进行训练,得到每个所述账号在所述写作风格维度上的目标词向量;第二目标词向量确定单元,用于通过所述多个账号以及获取的每个所述账号对应的用户评论信息对机器学习模型进行训练,得到每个所述账号在所述评论维度上的目标词向量;第三目标词向量确定单元,用于通过所述多个账号的用户标识以及获取的与每个所述账号存在关联性的关联用户标识对机器学习模型进行训练,得到每个所述账号在所述推荐维度上的目标词向量。
在本公开的一个实施例中,本公开实施例在上述公开实施例的基础上,例如,在图9实施例的基础上,本公开实施例对所述第一目标词向量确定单元进行了详细说明。所述第一目标词向量确定单元,具体用于:对每个所述账号与所述多个账号对应的所有所述文本信息进行负采样,得到每个所述账号对应的多个第一负采样样本;将每个所述账号的用户标识初始化为第一用户标识词向量以及将每个所述文本信息生成文本信息词向量;将所述第一负采样样本、所述第一用户标识词向量以及所述第一负采样样本对应的所述文本信息词向量作为所述机器学习模型的第一训练样本,所述多个账号对应的所有所述第一训练样本形成第一训练样本集;将所述第一训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述写作风格维度上的目标词向量。
在本公开的一个实施例中,本公开实施例在上述公开实施例的基础上,例如,在图9实施例的基础上,本公开实施例对所述第二目标词向量确定单元进行了详细说明。所述第二目标词向量确定单元,具体用于:对每个所述账号与所述多个账号对应的所有所述用户评论信息进行负采样,得到每个所述账号对应的多个第二负采样样本;将每个所述账号的用户标识初始化为第二用户标识词向量以及将每条所述用户评论信息生成用户评论词向量;将所述第二负采样样本、所述第二用户标识词向量以及所述第二负采样样本对应的所述用户评论词向量作为所述机器学习模型的第二训练样本,所述多个账号对应的所有所述第二训练样本形成第二训练样本集;将所述第二训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述评论维度上的目标词向量。
在本公开的一个实施例中,本公开实施例在上述公开实施例的基础上,例如,在图9实施例的基础上,本公开实施例对所述第三目标词向量确定单元进行了详细说明。所述第三目标词向量确定单元,具体用于:对每个所述账号的用户标识与所述多个账号对应的所有所述关联用户标识进行负采样,得到每个所述账号对应的多个第三负采样样本;将每个所述账号的用户标识初始化为第三用户标识词向量以及将每个所述关联用户标识初始化为关联用户标识词向量;将所述第三负采样样本、所述第三用户标识词向量以及所述第三负采样样本对应的所述关联用户标识词向量作为所述机器学习模型的第三训练样本,所述多个账号对应的所有所述第三训练样本形成第三训练样本集;将所述第三训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述推荐维度上的目标词向量。
在本公开的一个实施例中,本公开实施例在上述公开实施例的基础上,例如在图9所示的公开实施例基础上,对降维处理模块903和目标账号确定模块904进行了详细说明。所述降维处理模块903,具体用于:
对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,以及每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度;所述目标账号确定模块904,具体用于:
将每个所述账号在每个所述维度上的聚类标识和每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度以及每个所述账号对应的所述统计信息输入到所述梯度提升决策树模型中,得到每个所述账号是目标账号的概率;若所述概率大于预设概率阈值,则确定所述账号为目标账号。
参见图10,图10为本公开又一实施例提供的所述目标账号识别装置的结构框图。本公开实施例在上述公开实施例的基础上,例如,在图9所述的公开实施例的基础上,对所述装置进行了详细说明。所述装置还包括:第一相似账号确定模块905;所述第一相似账号确定模块905,用于在所述得到每个所述账号在每个维度上的目标词向量之后,根据每个所述账号在每个维度上的目标词向量,得到每个所述账号在每个所述维度上的目标词向量与所述多个账号中其他账号的目标词向量之间的距离;若在所述多个账号中其他账号中存在所述距离小于或等于预设距离阈值的目标账号,则根据所述目标账号,确定在所述维度上与所述账号相似的所有相似账号。
参见图11,图11为本公开另一实施例提供的所述目标账号识别装置的结构框图。本公开实施例在上述公开实施例的基础上,例如,在图9所述的公开实施例的基础上,对所述装置进行了详细说明。所述装置还包括:第二相似账号确定模块906;所述第二相似账号确定模块906,用于在所述得到每个所述账号在每个所述维度上的聚类标识之后,根据所述聚类标识,确定每个所述账号在每个所述维度上的所述聚类标识对应的所述用户群中的其他账号;根据每个所述账号在每个所述维度上的所述用户群中的其他账号,确定在所述维度上与所述账号相似的所有相似账号。
参见图12,图12为本公开又一实施例提供的所述目标账号识别装置的结构框图。本公开实施例在上述公开实施例的基础上,例如,在图10或11所述的公开实施例的基础上,对所述装置进行了详细说明。其中,所述确定每个所述账号是否为目标账号,包括:确定所述账号为非目标账号;所述装置还包括:风险提示模块907;所述风险提示模块907,用于在确定在所述维度上与所述账号相似的所有相似账号之后,向所述账号对应的终端推送风险提示信息,以使所述终端对应的用户进行数据维护。
在实际应用中,参见图13所示,本公开实施例提供了一种目标账号识别系统130,包括如上文公开实施例所述的目标账号识别装置90、客户端10,其中,所述的目标账号识别装置可以为终端设备或服务器。所述终端可以为移动终端、固定终端、电子设备,所述目标账号识别系统130可以用于实现目标账号识别过程。
其中,本公开实施例对模型的类型、模型的算法、模型识别算法等等均无限定。客户端可以作为账户端,即可以认为是账号对应的终端(用户对应的终端),也可以认为是与账号产生关联的用户对应的终端。
账号端将一些目标数据上传至终端设备或服务器(即目标账号识别装置90),终端设备或服务器获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息,所述历史数据包括所述目标数据,通过上传的目标数据以及上传的目标数据的终端上传的历史数据的统计信息,用以判断该终端对应的账号是否是目标账号,具体地,首先在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量,然后对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,用以得到符合该聚类标识对应的聚类特征的至少一个所述账号对应的用户;再根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号,实现了基于机器学习的目标账号识别方法,有效提高了目标账号的识别效率以及准备率。本公开实施例通过在多个维度上对目标数据进行数据处理,得到每个维度上的目标词向量,然后通过对每个维度上的目标词向量进行降维处理,避免过拟合,再根据降维处理的聚类标识以及统计信息,基于梯度提升决策树模型训练,用以判断该终端对应的账号是否是目标账号,能够有效地识别目标账号,同时提高识别目标账号的准确率。
参考图14,其示出了适于用来实现本公开实施例的电子设备1400的结构示意图,该电子设备1400可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、便携式多媒体播放器(PortableMedia Player,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
图14示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图14所示,电子设备1400可以包括处理装置(例如中央处理器、图形处理器等)1401,其可以根据存储在只读存储器(Read Only Memory,简称ROM)1402中的程序或者从存储装置1408加载到随机访问存储器(Random Access Memory,简称RAM)1403中的程序而执行各种适当的动作和处理。在RAM 1403中,还存储有电子设备1400操作所需的各种程序和数据。处理装置1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。
通常,以下装置可以连接至I/O接口1405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1406;包括例如液晶显示器(Liquid CrystalDisplay,简称LCD)、扬声器、振动器等的输出装置1407;包括例如磁带、硬盘等的存储装置1408;以及通信装置1409。通信装置1409可以允许电子设备1400与其他设备进行无线或有线通信以交换数据。虽然图14示出了具有各种装置的电子设备1400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1409从网络上被下载和安装,或者从存储装置1408被安装,或者从ROM 1402被安装。在该计算机程序被处理装置1401执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述公开实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
第一方面,本公开实施例提供一种目标账号识别方法,包括:
获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息,所述历史数据包括所述目标数据;
在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量;
对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,所述聚类标识用于表示一个用户群的聚类特征,所述用户群为至少一个所述账号对应的用户;
根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号。
根据本公开的一个或多个实施例,所述目标数据包括文本信息,所述多个维度包括写作风格维度、评论维度、推荐维度;
所述在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量,包括:
通过所述多个账号以及所述目标数据对应的文本信息对机器学习模型进行训练,得到每个所述账号在所述写作风格维度上的目标词向量;
通过所述多个账号以及获取的每个所述账号对应的用户评论信息对机器学习模型进行训练,得到每个所述账号在所述评论维度上的目标词向量;
通过所述多个账号的用户标识以及获取的与每个所述账号存在关联性的关联用户标识对机器学习模型进行训练,得到每个所述账号在所述推荐维度上的目标词向量。
根据本公开的一个或多个实施例,所述通过所述多个账号以及所述目标数据对应的文本信息对机器学习模型进行训练,得到每个所述账号在所述写作风格维度上的目标词向量,包括:
对每个所述账号与所述多个账号对应的所有所述文本信息进行负采样,得到每个所述账号对应的多个第一负采样样本;
将每个所述账号的用户标识初始化为第一用户标识词向量以及将每个所述文本信息生成文本信息词向量;
将所述第一负采样样本、所述第一用户标识词向量以及所述第一负采样样本对应的所述文本信息词向量作为所述机器学习模型的第一训练样本,所述多个账号对应的所有所述第一训练样本形成第一训练样本集;
将所述第一训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述写作风格维度上的目标词向量。
根据本公开的一个或多个实施例,所述通过所述多个账号以及获取的每个所述账号对应的用户评论信息对机器学习模型进行训练,得到每个所述账号在所述评论维度上的目标词向量,包括:
对每个所述账号与所述多个账号对应的所有所述用户评论信息进行负采样,得到每个所述账号对应的多个第二负采样样本;
将每个所述账号的用户标识初始化为第二用户标识词向量以及将每条所述用户评论信息生成用户评论词向量;
将所述第二负采样样本、所述第二用户标识词向量以及所述第二负采样样本对应的所述用户评论词向量作为所述机器学习模型的第二训练样本,所述多个账号对应的所有所述第二训练样本形成第二训练样本集;
将所述第二训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述评论维度上的目标词向量。
根据本公开的一个或多个实施例,所述通过所述多个账号的用户标识以及获取的与每个所述账号存在关联性的关联用户标识对机器学习模型进行训练,得到每个所述账号在所述推荐维度上的目标词向量,包括:
对每个所述账号的用户标识与所述多个账号对应的所有所述关联用户标识进行负采样,得到每个所述账号对应的多个第三负采样样本;
将每个所述账号的用户标识初始化为第三用户标识词向量以及将每个所述关联用户标识初始化为关联用户标识词向量;
将所述第三负采样样本、所述第三用户标识词向量以及所述第三负采样样本对应的所述关联用户标识词向量作为所述机器学习模型的第三训练样本,所述多个账号对应的所有所述第三训练样本形成第三训练样本集;
将所述第三训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述推荐维度上的目标词向量。
根据本公开的一个或多个实施例,对每个所述账号在每个维度上的目标词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,以及每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度;
所述确定每个所述账号是否为目标账号,包括:
将每个所述账号在每个所述维度上的聚类标识和每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度以及每个所述账号对应的所述统计信息输入到所述梯度提升决策树模型中,得到每个所述账号是目标账号的概率;
若所述概率大于预设概率阈值,则确定所述账号为目标账号。
根据本公开的一个或多个实施例,在所述得到每个所述账号在每个维度上的目标词向量之后,所述方法还包括:
根据每个所述账号在每个维度上的目标词向量,得到每个所述账号在每个所述维度上与所述多个账号中其他账号的目标词向量之间的距离;
若在所述多个账号中其他账号中存在所述距离小于或等于预设距离阈值的目标账号,则根据所述目标账号,确定在所述维度上与所述账号相似的所有相似账号。
根据本公开的一个或多个实施例,在所述得到每个所述账号在每个所述维度上的聚类标识之后,所述方法还包括:
根据所述聚类标识,确定每个所述账号在每个所述维度上的所述聚类标识对应的所述用户群中的其他账号;
根据每个所述账号在每个所述维度上的所述用户群中的其他账号,确定在所述维度上与所述账号相似的所有相似账号。
根据本公开的一个或多个实施例,所述确定每个所述账号是否为目标账号,包括:
确定所述账号为非目标账号;
所述确定在所述维度上与所述账号相似的所有相似账号之后,所述方法还包括:
向所述账号对应的终端推送风险提示信息,以使所述终端对应的用户进行数据维护。
第二方面,本公开实施例提供一种目标账号识别装置,包括:
获取模块,用于获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息,所述历史数据包括所述目标数据;
数据处理模块,用于在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量;
降维处理模块,用于对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,所述聚类标识用于表示一个用户群的聚类特征,所述用户群为至少一个所述账号对应的用户;
目标账号确定模块,用于根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号。
根据本公开的一个或多个实施例,所述目标数据包括文本信息,所述多个维度包括写作风格维度、评论维度、推荐维度;
所述数据处理模块,包括:
第一目标词向量确定单元,用于通过所述多个账号以及所述目标数据对应的文本信息对机器学习模型进行训练,得到每个所述账号在所述写作风格维度上的目标词向量;
第二目标词向量确定单元,用于通过所述多个账号以及获取的每个所述账号对应的用户评论信息对机器学习模型进行训练,得到每个所述账号在所述评论维度上的目标词向量;
第三目标词向量确定单元,用于通过所述多个账号的用户标识以及获取的与每个所述账号存在关联性的关联用户标识对机器学习模型进行训练,得到每个所述账号在所述推荐维度上的目标词向量。
根据本公开的一个或多个实施例,所述第一目标词向量确定单元,具体用于:
对每个所述账号与所述多个账号对应的所有所述文本信息进行负采样,得到每个所述账号对应的多个第一负采样样本;
将每个所述账号的用户标识初始化为第一用户标识词向量以及将每个所述文本信息生成文本信息词向量;
将所述第一负采样样本、所述第一用户标识词向量以及所述第一负采样样本对应的所述文本信息词向量作为所述机器学习模型的第一训练样本,所述多个账号对应的所有所述第一训练样本形成第一训练样本集;
将所述第一训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述写作风格维度上的目标词向量。
根据本公开的一个或多个实施例,所述第二目标词向量确定单元,具体用于:
对每个所述账号与所述多个账号对应的所有所述用户评论信息进行负采样,得到每个所述账号对应的多个第二负采样样本;
将每个所述账号的用户标识初始化为第二用户标识词向量以及将每条所述用户评论信息生成用户评论词向量;
将所述第二负采样样本、所述第二用户标识词向量以及所述第二负采样样本对应的所述用户评论词向量作为所述机器学习模型的第二训练样本,所述多个账号对应的所有所述第二训练样本形成第二训练样本集;
将所述第二训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述评论维度上的目标词向量。
根据本公开的一个或多个实施例,所述第三目标词向量确定单元,具体用于:
对每个所述账号的用户标识与所述多个账号对应的所有所述关联用户标识进行负采样,得到每个所述账号对应的多个第三负采样样本;
将每个所述账号的用户标识初始化为第三用户标识词向量以及将每个所述关联用户标识初始化为关联用户标识词向量;
将所述第三负采样样本、所述第三用户标识词向量以及所述第三负采样样本对应的所述关联用户标识词向量作为所述机器学习模型的第三训练样本,所述多个账号对应的所有所述第三训练样本形成第三训练样本集;
将所述第三训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述推荐维度上的目标词向量。
根据本公开的一个或多个实施例,所述降维处理模块,具体用于:对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,以及每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度;
所述目标账号确定模块,具体用于:
将每个所述账号在每个所述维度上的聚类标识和每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度以及每个所述账号对应的所述统计信息输入到所述梯度提升决策树模型中,得到每个所述账号是目标账号的概率;
若所述概率大于预设概率阈值,则确定所述账号为目标账号。
根据本公开的一个或多个实施例,所述装置还包括:第一相似账号确定模块;
所述第一相似账号确定模块,用于在所述得到每个所述账号在每个维度上的目标词向量之后,根据每个所述账号在每个维度上的目标词向量,得到每个所述账号在每个所述维度上的目标词向量与所述多个账号中其他账号的目标词向量之间的距离;
若在所述多个账号中其他账号中存在所述距离小于或等于预设距离阈值的目标账号,则根据所述目标账号,确定在所述维度上与所述账号相似的所有相似账号。
根据本公开的一个或多个实施例,所述装置还包括:第二相似账号确定模块;
所述第二相似账号确定模块,用于在所述得到每个所述账号在每个所述维度上的聚类标识之后,根据所述聚类标识,确定每个所述账号在每个所述维度上的所述聚类标识对应的所述用户群中的其他账号;
根据每个所述账号在每个所述维度上的所述用户群中的其他账号,确定在所述维度上与所述账号相似的所有相似账号。
根据本公开的一个或多个实施例,所述确定每个所述账号是否为目标账号,包括:确定所述账号为非目标账号;
所述装置还包括:风险提示模块;
所述风险提示模块,用于在确定在所述维度上与所述账号相似的所有相似账号之后,向所述账号对应的终端推送风险提示信息,以使所述终端对应的用户进行数据维护。
第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的目标账号识别方法。
第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的目标账号识别方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (11)
1.一种目标账号识别方法,其特征在于,包括:
获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息,所述历史数据包括所述目标数据,其中,每个账号对应的终端上传的目标数据为已经发表在预设平台上的数据或者未发表且在等待预设平台审核的数据;
在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量;
对每个所述账号在每个维度上的目标词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,所述聚类标识用于表示一个用户群的聚类特征,所述用户群为至少一个所述账号对应的用户;
根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号;
所述目标数据包括文本信息,所述多个维度包括写作风格维度、评论维度、推荐维度;
所述在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量,包括:
通过所述多个账号以及所述目标数据对应的文本信息对机器学习模型进行训练,得到每个所述账号在所述写作风格维度上的目标词向量;
通过所述多个账号以及获取的每个所述账号对应的用户评论信息对机器学习模型进行训练,得到每个所述账号在所述评论维度上的目标词向量;
通过所述多个账号的用户标识以及获取的与每个所述账号存在关联性的关联用户标识对机器学习模型进行训练,得到每个所述账号在所述推荐维度上的目标词向量。
2.根据权利要求1所述的方法,其特征在于,所述通过所述多个账号以及所述目标数据对应的文本信息对机器学习模型进行训练,得到每个所述账号在所述写作风格维度上的目标词向量,包括:
对每个所述账号与所述多个账号对应的所有所述文本信息进行负采样,得到每个所述账号对应的多个第一负采样样本;
将每个所述账号的用户标识初始化为第一用户标识词向量以及将每个所述文本信息生成文本信息词向量;
将所述第一负采样样本、所述第一用户标识词向量以及所述第一负采样样本对应的所述文本信息词向量作为所述机器学习模型的第一训练样本,所述多个账号对应的所有所述第一训练样本形成第一训练样本集;
将所述第一训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述写作风格维度上的目标词向量。
3.根据权利要求1所述的方法,其特征在于,所述通过所述多个账号以及获取的每个所述账号对应的用户评论信息对机器学习模型进行训练,得到每个所述账号在所述评论维度上的目标词向量,包括:
对每个所述账号与所述多个账号对应的所有所述用户评论信息进行负采样,得到每个所述账号对应的多个第二负采样样本;
将每个所述账号的用户标识初始化为第二用户标识词向量以及将每条所述用户评论信息生成用户评论词向量;
将所述第二负采样样本、所述第二用户标识词向量以及所述第二负采样样本对应的所述用户评论词向量作为所述机器学习模型的第二训练样本,所述多个账号对应的所有所述第二训练样本形成第二训练样本集;
将所述第二训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述评论维度上的目标词向量。
4.根据权利要求1所述的方法,其特征在于,所述通过所述多个账号的用户标识以及获取的与每个所述账号存在关联性的关联用户标识对机器学习模型进行训练,得到每个所述账号在所述推荐维度上的目标词向量,包括:
对每个所述账号的用户标识与所述多个账号对应的所有所述关联用户标识进行负采样,得到每个所述账号对应的多个第三负采样样本;
将每个所述账号的用户标识初始化为第三用户标识词向量以及将每个所述关联用户标识初始化为关联用户标识词向量;
将所述第三负采样样本、所述第三用户标识词向量以及所述第三负采样样本对应的所述关联用户标识词向量作为所述机器学习模型的第三训练样本,所述多个账号对应的所有所述第三训练样本形成第三训练样本集;
将所述第三训练样本集输入到所述机器学习模型中,通过迭代计算,得到每个所述账号在所述推荐维度上的目标词向量。
5.根据权利要求1-4任一项所述的方法,其特征在于,对每个所述账号在每个维度上的目标词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,以及每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度;
所述确定每个所述账号是否为目标账号,包括:
将每个所述账号在每个所述维度上的聚类标识和每个所述账号在每个所述维度上与所述多个账号中其他账号的相似度以及每个所述账号对应的所述统计信息输入到所述梯度提升决策树模型中,得到每个所述账号是目标账号的概率;
若所述概率大于预设概率阈值,则确定所述账号为目标账号。
6.根据权利要求1所述的方法,其特征在于,在所述得到每个所述账号在每个维度上的目标词向量之后,所述方法还包括:
根据每个所述账号在每个维度上的目标词向量,得到每个所述账号在每个所述维度上与所述多个账号中其他账号的目标词向量之间的距离;
若在所述多个账号中其他账号中存在所述距离小于或等于预设距离阈值的目标账号,则根据所述目标账号,确定在所述维度上与所述账号相似的所有相似账号。
7.根据权利要求1所述的方法,其特征在于,在所述得到每个所述账号在每个所述维度上的聚类标识之后,所述方法还包括:
根据所述聚类标识,确定每个所述账号在每个所述维度上的所述聚类标识对应的所述用户群中的其他账号;
根据每个所述账号在每个所述维度上的所述用户群中的其他账号,确定在所述维度上与所述账号相似的所有相似账号。
8.根据权利要求6或7所述的方法,其特征在于,所述确定每个所述账号是否为目标账号,包括:
确定所述账号为非目标账号;
所述确定在所述维度上与所述账号相似的所有相似账号之后,所述方法还包括:
向所述账号对应的终端推送风险提示信息,以使所述终端对应的用户进行数据维护。
9.一种目标账号识别装置,其特征在于,包括:
获取模块,用于获取预设时间段内多个账号对应的终端上传的目标数据和每个账号对应的终端上传的历史数据的统计信息,所述历史数据包括所述目标数据,其中,每个账号对应的终端上传的目标数据为已经发表在预设平台上的数据或者未发表且在等待预设平台审核的数据;
数据处理模块,用于在多个维度上对每个所述账号对应的终端上传的目标数据进行数据处理,得到每个所述账号在每个维度上的目标词向量;
降维处理模块,用于对每个所述账号在每个维度上的词向量进行降维处理,得到每个所述账号在每个所述维度上的聚类标识,所述聚类标识用于表示一个用户群的聚类特征,所述用户群为至少一个所述账号对应的用户;
目标账号确定模块,用于根据每个所述账号在每个所述维度上的聚类标识和每个所述账号对应的终端上传的历史数据的统计信息,对梯度提升决策树模型进行训练,确定每个所述账号是否为目标账号;
所述目标数据包括文本信息,所述多个维度包括写作风格维度、评论维度、推荐维度;
所述数据处理模块,具体用于通过所述多个账号以及所述目标数据对应的文本信息对机器学习模型进行训练,得到每个所述账号在所述写作风格维度上的目标词向量;
通过所述多个账号以及获取的每个所述账号对应的用户评论信息对机器学习模型进行训练,得到每个所述账号在所述评论维度上的目标词向量;
通过所述多个账号的用户标识以及获取的与每个所述账号存在关联性的关联用户标识对机器学习模型进行训练,得到每个所述账号在所述推荐维度上的目标词向量。
10.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至8任一项所述的目标账号识别方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至8任一项所述的目标账号识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910892159.1A CN110633423B (zh) | 2019-09-20 | 2019-09-20 | 目标账号识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910892159.1A CN110633423B (zh) | 2019-09-20 | 2019-09-20 | 目标账号识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110633423A CN110633423A (zh) | 2019-12-31 |
CN110633423B true CN110633423B (zh) | 2022-09-09 |
Family
ID=68971868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910892159.1A Active CN110633423B (zh) | 2019-09-20 | 2019-09-20 | 目标账号识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110633423B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259169A (zh) * | 2020-02-05 | 2020-06-09 | 四川无声信息技术有限公司 | 新闻评论相似账号确定方法及装置 |
CN111507377B (zh) * | 2020-03-24 | 2023-08-11 | 微梦创科网络科技(中国)有限公司 | 一种养号帐号批量识别方法及装置 |
CN111522724B (zh) * | 2020-04-23 | 2023-08-25 | 广州酷狗计算机科技有限公司 | 异常账号的确定方法、装置、服务器及存储介质 |
CN111753897A (zh) * | 2020-06-17 | 2020-10-09 | 贝壳技术有限公司 | 一种标识续命方法、装置、电子设备及其存储介质 |
CN114385903B (zh) * | 2020-10-22 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 应用账号的识别方法、装置、电子设备及可读存储介质 |
CN113010670B (zh) * | 2021-02-22 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 账号信息聚类方法、检测方法、装置及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886518B (zh) * | 2015-12-15 | 2020-10-09 | 国家计算机网络与信息安全管理中心 | 一种微博账号分类的方法 |
CN106845999A (zh) * | 2017-02-20 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 风险用户识别方法、装置和服务器 |
CN108470253B (zh) * | 2018-04-02 | 2021-08-03 | 腾讯科技(深圳)有限公司 | 一种用户识别方法、装置及存储设备 |
CN108763319B (zh) * | 2018-04-28 | 2022-02-08 | 中国科学院自动化研究所 | 融合用户行为和文本信息的社交机器人检测方法和系统 |
CN108833720B (zh) * | 2018-05-04 | 2021-11-30 | 北京邮电大学 | 诈骗电话号码识别方法与系统 |
CN108921587B (zh) * | 2018-05-24 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
-
2019
- 2019-09-20 CN CN201910892159.1A patent/CN110633423B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110633423A (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633423B (zh) | 目标账号识别方法、装置、设备及存储介质 | |
CN110598157B (zh) | 目标信息识别方法、装置、设备及存储介质 | |
CN110634047B (zh) | 一种推荐房源的方法、装置、电子设备及存储介质 | |
CN111381909A (zh) | 一种页面展示方法、装置、终端设备及存储介质 | |
CN110674414A (zh) | 目标信息识别方法、装置、设备及存储介质 | |
CN110278447B (zh) | 基于连续特征的视频推送方法、装置及电子设备 | |
CN113033682B (zh) | 视频分类方法、装置、可读介质、电子设备 | |
CN112650841A (zh) | 信息处理方法、装置和电子设备 | |
CN111460288B (zh) | 用于检测新闻事件的方法和装置 | |
CN113919320A (zh) | 异构图神经网络的早期谣言检测方法、系统及设备 | |
US20230315990A1 (en) | Text detection method and apparatus, electronic device, and storage medium | |
CN110895587B (zh) | 用于确定目标用户的方法和装置 | |
CN111782933B (zh) | 用于推荐书单的方法和装置 | |
CN111382365B (zh) | 用于输出信息的方法和装置 | |
CN112148865B (zh) | 信息推送方法和装置 | |
CN109947526B (zh) | 用于输出信息的方法和装置 | |
CN114625876B (zh) | 作者特征模型的生成方法、作者信息处理方法和装置 | |
CN114140723B (zh) | 多媒体数据的识别方法、装置、可读介质及电子设备 | |
CN113220922B (zh) | 图像搜索方法、装置和电子设备 | |
CN112860999B (zh) | 信息推荐方法、装置、设备和存储介质 | |
CN112348614B (zh) | 用于推送信息的方法和装置 | |
CN111897951A (zh) | 用于生成信息的方法和装置 | |
CN110300329B (zh) | 基于离散特征的视频推送方法、装置及电子设备 | |
CN111368204A (zh) | 内容推送方法、装置、电子设备及计算机可读介质 | |
CN113111174A (zh) | 基于深度学习模型的群体识别方法与装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |