CN112597363B - 一种用户处理方法、装置、电子设备及存储介质 - Google Patents

一种用户处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112597363B
CN112597363B CN202011530805.9A CN202011530805A CN112597363B CN 112597363 B CN112597363 B CN 112597363B CN 202011530805 A CN202011530805 A CN 202011530805A CN 112597363 B CN112597363 B CN 112597363B
Authority
CN
China
Prior art keywords
user
target
group
feature
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011530805.9A
Other languages
English (en)
Other versions
CN112597363A (zh
Inventor
徐飞
唐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Leading Technology Co Ltd
Original Assignee
Nanjing Leading Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Leading Technology Co Ltd filed Critical Nanjing Leading Technology Co Ltd
Priority to CN202011530805.9A priority Critical patent/CN112597363B/zh
Publication of CN112597363A publication Critical patent/CN112597363A/zh
Application granted granted Critical
Publication of CN112597363B publication Critical patent/CN112597363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用户处理方法、装置、电子设备及存储介质,属于数据分析技术领域。该方法包括:获取目标用户群组;根据第一预设特征信息,从所述目标用户群组中选择与所述第一预设特征信息相匹配的第一目标用户,以组成第一目标分组;根据待选用户群组中待选用户与所述第一目标分组中第一目标用户之间的相似度,从所述待选用户群组中选择与所述第一目标分组相匹配的待选用户,以作为所述目标用户群组的相似用户。本发明从目标用户群组中选择第一目标用户,然后基于所有第一目标用户的特征信息挖掘相似用户,能够降低挖掘时的计算量,提高挖掘效率。同时,第一目标用户与第一预设特征信息相匹配,能够保证目标用户的相似用户具有更高的精度。

Description

一种用户处理方法、装置、电子设备及存储介质
技术领域
本发明属于数据分析技术领域,特别是涉及一种用户处理方法、装置、电子设备及存储介质。
背景技术
目前,为了高效的向用户进行推荐,往往会挖掘具有相似度的用户。因此,如何挖掘相似用户成为人们广泛关注的问题。
现有技术中,通常是直接基于所有目标用户的所有特征信息,进行挖掘。
这样,基于所有目标用户的所有特征信息挖掘相似用户,计算量较大,挖掘效率较低。
发明内容
有鉴于此,本发明提供一种用户处理方法、装置、电子设备及存储介质,以便解决现有技术存在的基于所有目标用户的所有特征信息挖掘相似用户,计算量较大,挖掘效率较低的问题。
一方面,提供了一种用户处理方法,该方法包括:
获取目标用户群组;
根据第一预设特征信息,从所述目标用户群组中选择与所述第一预设特征信息相匹配的第一目标用户,以组成第一目标分组;
根据待选用户群组中待选用户与所述第一目标分组中第一目标用户之间的相似度,从所述待选用户群组中选择与所述第一目标分组相匹配的待选用户,以作为所述目标用户群组的相似用户。
在一种可能的实现方式中,所述第一预设特征信息包含至少一个第一预设特征及其对应的第一预设特征值,所述根据第一预设特征信息,从所述目标用户群组中选择与所述第一预设特征信息相匹配的第一目标用户,包括:
对于所述目标用户群组中的任一目标用户,检测所述目标用户是否存在与各个所述第一预设特征相匹配的第一目标特征,以及所述第一目标特征的第一特征值是否与所述第一预设特征值相匹配;
若存在所述第一目标特征且所述第一目标特征的第一特征值与所述第一预设特征值相匹配,则将所述目标用户确定为所述第一目标用户。
在另一种可能的实现方式中,所述根据待选用户群组中待选用户与所述第一目标分组中第一目标用户之间的相似度,从所述待选用户群组中选择与所述第一目标分组相匹配的待选用户,以作为所述目标用户群组的相似用户,包括:
对于所述待选用户群组中任一待选用户,计算所述待选用户的待选特征向量与各个第一特征向量之间的第一距离;所述第一特征向量为所述第一目标用户的特征向量,所述第一距离用于表征所述相似度;
根据各个所述第一距离,确定所述待选用户是否为所述相似用户。
在另一种可能的实现方式中,根据各个所述第一距离,确定所述待选用户是否为所述相似用户,包括:
确定各个所述第一距离中的最大第一距离;
若所述最大第一距离小于预设阈值,则确定所述待选用户为所述相似用户。
在另一种可能的实现方式中,所述方法还包括:
从所述目标用户群组中的剩余目标用户中随机选择第二目标用户,以组成第二目标分组;所述剩余目标用户为除所述第一目标用户之外的目标用户;
根据各个所述第一距离,确定所述待选用户是否为所述相似用户,包括:
计算所述待选用户的待选特征向量与所述第二目标分组中各个第二特征向量之间的第二距离;所述第二距离用于表征所述相似度;
将各个所述第一距离以及各个所述第二距离作为待选距离,并从所述待选距离选取最小的前M个待选距离;
若第一数量大于第二数量,则将所述待选用户确定为所述相似用户;所述第一数量为所述前M个待选距离中第一距离的数量,所述第二数量为所述前M个待选距离中第二距离的数量。
在另一种可能的实现方式中,所述方法还包括:
获取各个所述待选用户与第二预设特征信息相匹配的待选特征信息、各个所述第一目标用户与第二预设特征信息相匹配的第一特征信息以及各个所述第二目标用户与第二预设特征信息相匹配的第二特征信息;分别对所述待选特征信息、所述第一特征信息以及所述第二特征信息向量化,得到所述待选特征向量、所述第一特征向量和所述第二特征向量。
在另一种可能的实现方式中,所述方法还包括:
从所述目标用户群组中的剩余目标用户中随机选择第二目标用户,以组成第二目标分组;所述剩余目标用户为除所述第一目标用户之外的目标用户;
所述根据待选用户群组中待选用户与所述第一目标分组中第一目标用户之间的相似度,包括:
根据所述第一目标分组中的各个第一特征向量以及所述第二目标分组中的各个第二特征向量,训练目标分类模型;所述目标分类模型用于确定输入样本的目标类别为所述第一目标分组或所述第二目标分组;
对于所述待选用户群组中任一待选用户,将所述待选用户的待选特征向量输入所述目标分类模型,以确定所述待选用户所属的目标类别;
若所述目标类别为所述第一目标分组,则将所述待选用户确定为所述相似用户。
在另一种可能的实现方式中,所述根据待选用户群组中待选用户与所述第一目标分组中第一目标用户之间的相似度,从所述待选用户群组中选择与所述第一目标分组相匹配的待选用户,包括:
对所述待选用户群组中的待选用户和所述第一目标分组中的第一目标用户进行聚类操作,得到多个用户分组;所述聚类操作用于将相似度满足预设条件的用户分类至同一用户分组;
对于任一目标用户分组,检测所述目标用户分组中是否存在待选用户;所述目标用户分组为包括所述第一目标用户的用户分组;
若存在所述待选用户,则将所述目标用户分组中的所有所述待选用户确定为所述相似用户。
在另一种可能的实现方式中,所述第一预设特征信息和所述第二预设特征信息都是基于用户输入预先设定的。
一方面,提供了一种用户处理装置,该装置包括:
第一获取模块,用于获取目标用户群组;
第一分组模块,用于根据第一预设特征信息,从所述目标用户群组中选择与所述第一预设特征信息相匹配的第一目标用户,以组成第一目标分组;
计算相似用户模块,用于根据待选用户群组中待选用户与所述第一目标分组中第一目标用户之间的相似度,从所述待选用户群组中选择与所述第一目标分组相匹配的待选用户,以作为所述目标用户群组的相似用户。
在一种可能的实现方式中,所述第一预设特征信息包含至少一个第一预设特征及其对应的第一预设特征值,所述第一分组模块装置,还用于对所述目标用户群组中的任一目标用户,检测所述目标用户是否存在与各个所述第一预设特征相匹配的第一目标特征,以及所述第一目标特征的第一特征值是否与所述第一预设特征值相匹配;若存在所述第一目标特征且所述第一目标特征的第一特征值与所述第一预设特征值相匹配,则将所述目标用户确定为所述第一目标用户。
在另一种可能的实现方式中,所述计算相似用户模块装置,还用于对所述待选用户群组中任一待选用户,计算所述待选用户的待选特征向量与各个第一特征向量之间的第一距离;所述第一特征向量为所述第一目标用户的特征向量,所述第一距离用于表征所述相似度;根据各个所述第一距离,确定所述待选用户是否为所述相似用户。
在另一种可能的实现方式中,所述计算相似用户模块装置,还用于确定各个所述第一距离中的最大第一距离;若所述最大第一距离小于预设阈值,则确定所述待选用户为所述相似用户。
在另一种可能的实现方式中,所述装置还包括:
第二分组模块,用于从所述目标用户群组中的剩余目标用户中随机选择第二目标用户,以组成第二目标分组;所述剩余目标用户为除所述第一目标用户之外的目标用户;
所述计算相似用户模块装置,还用于计算所述待选用户的待选特征向量与所述第二目标分组中各个第二特征向量之间的第二距离;所述第二距离用于表征所述相似度;将各个所述第一距离以及各个所述第二距离作为待选距离,并从所述待选距离选取最小的前M个待选距离;若第一数量大于第二数量,则将所述待选用户确定为所述相似用户;所述第一数量为所述前M个待选距离中第一距离的数量,第二数量为所述前M个待选距离中第二距离的数量。
在另一种可能的实现方式中,所述装置还包括:
第二获取模块,用于获取各个所述待选用户与第二预设特征信息相匹配的待选特征信息、各个所述第一目标用户与第二预设特征信息相匹配的第一特征信息以及各个所述第二目标用户与第二预设特征信息相匹配的第二特征信息;分别对所述待选特征信息、所述第一特征信息以及所述第二特征信息向量化,得到所述待选特征向量、所述第一特征向量和所述第二特征向量。
在另一种可能的实现方式中,所述装置还包括:
第二分组模块,用于从所述目标用户群组中的剩余目标用户中随机选择第二目标用户,以组成第二目标分组;所述剩余目标用户为除所述第一目标用户之外的目标用户;
所述计算相似用户模块装置,用于根据所述第一目标分组中的各个第一特征向量以及所述第二目标分组中的各个第二特征向量,训练目标分类模型;所述目标分类模型用于确定输入样本的目标类别为所述第一目标分组或所述第二目标分组;对于所述待选用户群组中任一待选用户,将所述待选用户的待选特征向量输入所述目标分类模型,以确定所述待选用户所属的目标类别;若所述目标类别为所述第一目标分组,则将所述待选用户确定为所述相似用户。
在另一种可能的实现方式中,所述计算相似用户模块装置,还用于对所述待选用户群组中的待选用户和所述第一目标分组中的第一目标用户进行聚类操作,得到多个用户分组;所述聚类操作用于将相似度满足预设条件的用户分类至同一用户分组;对于任一目标用户分组,检测所述目标用户分组中是否存在待选用户;所述目标用户分组为包括所述第一目标用户的用户分组;若存在所述待选用户,则将所述目标用户分组中的所有所述待选用户确定为所述相似用户。
在另一种可能的实现方式中,还被配置为所述第一预设特征信息和所述第二预设特征信息都是基于用户输入预先设定的。
一方面,提供了一种电子设备,该电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现如上所述任一种可能实现方式的用户处理方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令,该至少一条指令由处理器加载并执行以实现如上所述任一种可能实现方式的用户处理方法所执行的操作。
本发明实施例提供的技术方案带来的有益效果至少包括:
通过获取目标用户群组,从该目标用户群组中选择与第一预设特征信息相匹配的第一目标用户组成一个第一目标分组,然后根据待选用户群组中待选用户与该第一目标分组中第一目标用户之间的相似度,从所述待选用户群组中选择与第一目标分组相匹配的待选用户作为该目标用户群组的相似用户。这样,首先从目标用户群组选择第一目标用户组成第一目标分组,然后基于第一目标分组中所有第一目标用户的特征信息挖掘相似用户,能够一定程度上降低挖掘时的计算量,提高挖掘效率。同时,所选择的第一目标用户与第一预设特征信息相匹配,而以第一目标用户的特征信息所挖掘相似用户作为目标用户的相似用户,能够保证目标用户的相似用户具有更高的精度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在附图中:
图1是本发明实施例提供的一种用户处理方法流程示意图;
图2是本发明实施例提供的另一种用户处理方法流程示意图;
图3是本发明实施例提供的另一种用户处理方法流程示意图;
图4是本发明实施例提供的另一种用户处理方法流程示意图;
图5是本发明实施例提供的另一种用户处理方法流程示意图;
图6是本发明实施例提供的另一种用户处理方法流程示意图;
图7是本发明实施例提供的另一种用户处理方法流程示意图;
图8是本发明实施例提供的另一种用户处理方法流程示意图;
图9是本发明实施例提供的另一种用户处理方法流程示意图;
图10是本发明实施例提供的一种用户处理装置结构示意图;
图11是本发明实施例提供的一种用户处理系统示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例可以应用于在待选用户中选择出与目标用户具有相匹配的预设特性的用户场景。上述待选用户和目标用户可以是经过筛选的用户,也可以是未经过筛选的用户,还可以是某个区域的用户,或者是具有一定联系的用户,本发明对此不进行限制。上述待选用户和目标用户的特征数据可以来源于特征库,并根据用户的属性进行不断扩展。上述预设特性,可以为具有某种特定行为特性,如欺诈行为,也可以为具有某种特定属性特性等。首先获取上述待选用户和目标用户的待检测数据,上述待检测数据可以为一个数据表格,该数据表格的每行为一个用户的多个特征,该数据表格的每列为用户的一个特征维度,每个用户具有相同的特征维度。
目前,对于用户画像系统,部分是根据基准用户与候选用户对目标产品的意图信息,来确定基准用户与候选用户的的匹配信息,根据匹配信息从候选用户中挖掘出满足预设匹配条件的相似用户;部分是基于用户行为日志,获取用户和预设实体的共现(浏览过共同的店铺等)关系数据,从多维度获取用户特征参数,计算用户之间的相似度以挖掘相似用户。前者是通过用户之间对产品的意图信息来进行预设条件匹配,没有直接通过用户之间的属性特征进行相似度计算,没有预先通过标签将用户分群;后者是通过用户行为日志获取用户间的关系数据来计算用户之间的相似度,同样没有预先通过标签将用户分群。这样,直接基于所有目标用户的所有特征信息进行挖掘,计算量较大,挖掘效率较低。因此,本申请提供一种用户处理方法、装置、电子设备及存储介质。
例如,图1是本发明实施例提供的一种用户处理方法流程示意图。参见图1所示,该实施例包括:
在步骤S1中,获取目标用户群组。
其中,目标用户群组可从用户池中选取,本申请实施例对此不作限定。
本步骤中,可从用户池中选取目标用户组成目标用户群组。例如,从南京用户群的用户池中,选取用户特征信息是“性别:‘男’,职业:‘医生’”的目标用户组成目标用户群组。
在步骤S2中,根据第一预设特征信息,从目标用户群组中选择与第一预设特征信息相匹配的第一目标用户,以组成第一目标分组。
其中,第一预设特征信息可包含至少一个第一预设特征及其对应的第一预设特征值。
本步骤中,第一预设特征信息可以是从目标用户群组中的目标用户的特征信息中选取的。例如,预设第一预设特征信息是“性别:‘男’,年龄:‘25-35’,职业:‘医生’,冒泡时间:‘7-9’”;从目标用户群组A中,选取目标特征信息是“性别:‘男’,年龄:‘25-35’,职业:‘医生’,冒泡时间:‘7-9’”的第一目标用户组成第一目标分组。
在步骤S3中,根据待选用户群组中待选用户与第一目标分组中第一目标用户之间的相似度,从待选用户群组中选择与第一目标分组相匹配的待选用户,以作为目标用户群组的相似用户。
值得注意的是,用户池记为U,目标用户群组记为A,则待选用户群组可为U-A,也可为U-A1,其中,A1表示包含部分目标用户的目标用户群组,本申请实施例对此不作限定。
本步骤中,可以是将南京用户群中,选取目标用户后剩余的南京用户作为待选用户,以组成待选用户群组。通过计算待选用户与第一目标分组中第一目标用户之间的相似度,确定与第一目标分组相匹配的待选用户作为目标用户群组的相似用户。例如,计算得出一个待选用户与第一目标分组中第一目标用户之间的相似度为20,若该待选用户与第一目标分组相匹配,将该待选用户作为目标用户群组的相似用户。
本发明实施例提供的方法,首先通过获取目标用户群组;然后根据第一预设特征信息,从目标用户群组中选择与第一预设特征信息相匹配的第一目标用户,以组成第一目标分组;最后根据待选用户群组中待选用户与第一目标分组中第一目标用户之间的相似度,从待选用户群组中选择与第一目标分组相匹配的待选用户,以作为目标用户群组的相似用户。这样,首先从目标用户群组选择第一目标用户组成第一目标分组,然后基于第一目标分组中所有第一目标用户的特征信息挖掘相似用户,能够一定程度上降低挖掘时的计算量,提高挖掘效率。同时,所选择的第一目标用户与第一预设特征信息相匹配,而以第一目标用户的特征信息所挖掘相似用户作为目标用户的相似用户,能够保证目标用户的相似用户具有更高的精度。此外,通过从目标用户群组中根据第一预设特征信息进一步划分出第一目标分组,能够支持差异化、精细化的运营与用户体验,使用目标用户群组的相似用户还可以扩大目标用户群组,而将扩大后的目标用户群组作为策略投放的对象,能够使得投放范围更大,进而提高投放效果。
图2是本发明实施例提供的另一种用户处理方法流程示意图。参见图2所示,该实施例包括步骤S2的子步骤:
在步骤S21中,对于目标用户群组中的任一目标用户,检测目标用户是否存在与各个第一预设特征相匹配的第一目标特征,以及第一目标特征的第一特征值是否与第一预设特征值相匹配。
本步骤中,第一预设特征可以是从目标用户群组中的目标用户的特征中选取的。例如,各个第一预设特征分别是“性别、年龄、职业、冒泡时间”,“性别”对应的第一预设特征值是“男”,“年龄”对应的第一预设特征值是“25-35”,“职业”对应的第一预设特征值是“医生”,“冒泡时间”对应的第一预设特征值是“7-9”;对于目标用户群组中的任一目标用户,检测目标用户的特征是否存在“性别、年龄、职业、冒泡时间”;若存在则将其作为第一目标特征;判断是否满足“性别”对应的第一预设特征值是“男”,且“年龄”对应的第一预设特征值是“25-35”,“职业”对应的第一预设特征值是“医生”,且“冒泡时间”对应的第一预设特征值是“7-9”;若满足则确定第一目标特征的第一特征值是否与第一预设特征值相匹配。
在步骤S22中,若存在第一目标特征且第一目标特征的第一特征值与第一预设特征值相匹配,则将目标用户确定为第一目标用户。
本步骤中,对于目标用户群组中的任一目标用户,检测到存在与各个第一预设特征相匹配的第一目标特征,且第一目标特征的第一特征值与第一预设特征值相匹配,则将目标用户确定为第一目标用户。例如,各个第一预设特征分别是“性别、年龄、职业、冒泡时间”,“性别”对应的第一预设特征值是“男”,“年龄”对应的第一预设特征值是“25-35”,“职业”对应的第一预设特征值是“医生”,“冒泡时间”对应的第一预设特征值是“7-9”;对于目标用户群组中的任一目标用户,检测目标用户的特征存在“性别、年龄、职业、冒泡时间”;且“性别”对应的第一预设特征值是“男”,且“年龄”对应的第一预设特征值是“25-35”,“职业”对应的第一预设特征值是“医生”,且“冒泡时间”对应的第一预设特征值是“7-9”;则将该目标用户确定为第一目标用户。
在本发明实施例中,通过对于目标用户群组中的任一目标用户,检测目标用户是否存在与各个第一预设特征相匹配的第一目标特征,以及第一目标特征的第一特征值是否与第一预设特征值相匹配,可筛选出与第一预设特征信息相匹配的第一目标用户,以组成第一目标分组,从而实现以第一目标分组作为目标用户群组的代表样本,从待选用户群组中快速地确定与第一预设特征信息相匹配的相似用户,作为目标用户群组的相似用户,这样,仅选择目标用户群组中的第一目标分组参与计算相似用户的过程,可以减少计算量,提高相似用户挖掘效率。
图3是本发明实施例提供的另一种用户处理方法流程示意图。参见图3所示,该实施例包括步骤S3的子步骤:
在步骤S31中,对于待选用户群组中任一待选用户,计算待选用户的待选特征向量与各个第一特征向量之间的第一距离;第一特征向量为第一目标用户的特征向量,第一距离用于表征相似度。
其中,各个第一距离可通过余弦距离、欧式距离等距离函数确定,本申请实施例对此不作限定。此外,第一距离越小,表示该待选用户与该第一目标用户越相似;相反的,相似度越大,表示该待选用户与该第一目标用户越相似。
本步骤中,对于待选用户群组中任一待选用户,可以是通过余弦距离计算待选用户的待选特征向量与各个第一目标用户的第一特征向量之间的第一距离,将各个第一距离作为待选用户与各个第一目标用户之间的相似度。例如,通过余弦距离计算得到待选用户1的待选特征向量T1与第一特征向量Y1之间的第一距离是20,待选用户1的待选特征向量T1与第一特征向量Y2之间的第一距离是10,待选用户1的待选特征向量T1与第一特征向量Y3之间的第一距离是15,则确定待选用户1与第一目标用户1之间的相似度是20,确定待选用户1与第一目标用户2之间的相似度是10,确定待选用户1与第一目标用户3之间的相似度是15。
在步骤S32中,根据各个第一距离,确定待选用户是否为相似用户。
本步骤中,根据步骤S31中所计算得到的待选用户的待选特征向量与各个第一特征向量之间的第一距离,确定该待选用户是否作为目标用户群组的相似用户。例如,通过余弦距离计算得到待选用户1的待选特征向量T1与第一特征向量Y1之间的第一距离是20,待选用户1的待选特征向量T1与第一特征向量Y2之间的第一距离是10,待选用户1的待选特征向量T1与第一特征向量Y3之间的第一距离是15,各个第一距离是20、10、15;根据20、10、15确定将第一距离20对应的第一目标用户1作为目标用户群组的相似用户。
在本发明实施例中,通过对于待选用户群组中任一待选用户,计算待选用户的待选特征向量与各个第一目标用户的第一特征向量之间的第一距离,确定待选用户群组中任一待选用户与各个第一目标用户之间的相似度,从而基于各个相似度从待选用户群组中迅速地确定与第一目标分组相匹配的相似用户,作为目标用户群组的相似用户,这样,仅使用待选用户群组中任一待选用户与各个第一目标用户之间的相似度确定相似用户,可以减少计算量,提高相似用户挖掘的效率。
图4是本发明实施例提供的另一种用户处理方法流程示意图。参见图4所示,该实施例包括步骤S32的子步骤:
在步骤S321中,确定各个第一距离中的最大第一距离。
其中,可以是通过对各个第一距离进行排序操作,得到各个第一距离中的最大第一距离,也可以是通过数学函数确定各个第一距离中的最大第一距离,本申请实施例对此不作限定。
本步骤中,可以是通过对各个第一距离从大到小进行排序,得到各个第一距离中的最大第一距离。例如,通过余弦距离计算得到待选用户1的待选特征向量T1与第一特征向量Y1之间的第一距离是20,待选用户1的待选特征向量T1与第一特征向量Y2之间的第一距离是10,待选用户1的待选特征向量T1与第一特征向量Y3之间的第一距离是15,则对各个第一距离从大到小进行排序得到的序列是20、15、10,因此确定各个第一距离中的最大第一距离是20。
在步骤S322中,若最大第一距离小于预设阈值,则确定待选用户为相似用户。
其中,预设阈值可以是用户基于实际调整经验进行设置,也可以是系统默认的数值,本申请实施例对此不作限定。
本步骤中,通过对比最大第一距离与预设阈值的大小,确定待选用户是否为相似用户。例如,预设阈值取值是30,各个第一距离中的最大第一距离是20;通过对比最小第一距离与预设阈值,得知20<30,则确定该待选用户为相似用户。
在本发明实施例中,根据各个第一距离中的最大第一距离与预设阈值的关系,确定待选用户是否为相似用户,这样,仅使用各个第一距离中的最大第一距离表征待选用户与第一目标分组的相似度,计算过程简单,可以快速的确定待选用户群组中与目标用户群组相似的待选用户,能够提高相似用户挖掘的效率。
图5是本发明实施例提供的另一种用户处理方法流程示意图。参见图5所示,该实施例包括:
在步骤S23中,从目标用户群组中的剩余目标用户中随机选择第二目标用户,以组成第二目标分组;剩余目标用户为除第一目标用户之外的目标用户。
其中,步骤S23是在步骤S22之后实现,用于在确定第一目标分组之后,从目标用户群组中的剩余目标用户中随机选择预设数量的第二目标用户,以组成第二目标分组。
需要说明的是,预设数量可等于第一目标分组中第一目标用户的数量,也可小于或略大于第一目标分组中第一目标用户的数量,本申请实施例对此不作限定。
本步骤中,可以是将目标用户群组中与第一预设特征信息相匹配的目标用户作为剩余目标用户,也就是剩余目标用户为除第一目标用户之外的目标用户;然后从目标用户群组中的剩余目标用户随机选择部分或全部剩余目标用户作为第二目标用户,以组成第二目标分组。
例如,目标用户群组有1000人,从目标用户群组中选择与第一预设特征信息相匹配的第一目标用户有100人,则剩余目标用户就是除100个第一目标用户之外的900个目标用户;从900个剩余目标用户中选择100个剩余目标用户作为第二目标用户,以组成第二目标分组,保证使用第二目标用户的特征信息计算相似用户时计算量较小。或者,目标用户群组有100人,从目标用户群组中选择与第一预设特征信息相匹配的第一目标用户有80人,则剩余目标用户就是除80个第一目标用户之外的20个目标用户;选择20个剩余目标用户作为第二目标用户,以组成第二目标分组,以使得存在较多数量的第二目标用户的特征信息计算相似用户。
图6是本发明实施例提供的另一种用户处理方法流程示意图。参见图6所示,该实施例包括步骤S32的子步骤:
在步骤S323中,计算待选用户的待选特征向量与第二目标分组中各个第二特征向量之间的第二距离;第二距离用于表征相似度。
其中,步骤S233是在步骤S321之后实现,用于计算待选用户的待选特征向量与各个第二目标用户的第二特征向量之间的第二距离,以表征待选用户与各个第二目标用户之间的相似度。此外,第二距离越小,表示该待选用户与该第二目标用户越相似;相反的,相似度越大,表示该待选用户与该第二目标用户越相似。
本步骤中,对于步骤S321中的待选用户,可以是通过余弦距离再次计算待选用户的待选特征向量与各个第二目标用户的第二特征向量之间的第二距离,将各个第二距离作为待选用户与各个第二目标用户之间的相似度。例如,通过余弦距离计算得到待选用户1的待选特征向量T1与第二特征向量R1之间的第二距离是25,待选用户1的待选特征向量T1与第二特征向量R2之间的第二距离是7,待选用户1的待选特征向量T1与第二特征向量R3之间的第二距离是9,则确定待选用户1与第二目标用户1之间的相似度是25,确定待选用户1与第二目标用户2之间的相似度是7,确定待选用户1与第二目标用户3之间的相似度是9。
在步骤S324中,将各个第一距离以及各个第二距离作为待选距离,并从待选距离选取最小的前M个待选距离。
其中,M可以是大于零的整数。各个待选距离中最小的前M个待选距离,可以是通过对各个待选距离进行排序操作所得到的,也可以是通过数学函数所确定的,本申请实施例对此不作限定。
本步骤中,可以是通过对各个第一距离以及各个第二距离组成的待选距离从小到大进行排序,选取前M个待选距离作为最小的前M个待选距离。例如,M取值是3,通过余弦距离计算得到待选用户1的待选特征向量T1与第一特征向量Y1之间的第一距离是20,待选用户1的待选特征向量T1与第一特征向量Y2之间的第一距离是10,待选用户1的待选特征向量T1与第一特征向量Y3之间的第一距离是15,通过余弦距离计算得到待选用户1的待选特征向量T1与第二特征向量R1之间的第二距离是25,待选用户1的待选特征向量T1与第二特征向量R2之间的第二距离是7,待选用户1的待选特征向量T1与第二特征向量R3之间的第二距离是19,则各个待选距离是20、10、15、25、7、9,对各个待选距离从小到大进行排序得到的序列是7、10、15、19、20、25,因此确定最大的前3个待选距离是25、20、15。
在步骤S325中,若第一数量大于第二数量,则将待选用户确定为相似用户;第一数量为前M个待选距离中第一距离的数量,第二数量为前M个待选距离中第二距离的数量。
需要说明的是,各个待选距离可通过余弦距离、欧式距离等距离函数确定,本申请实施例对此不作限定。
本步骤中,基于K近邻法(KNN)原理,可以通过对比前M个待选距离中第一距离的数量与前M个待选距离中第二距离的数量,确定是否将该待选用户确定为相似用户。例如,确定最小的前3个待选距离是7、10、15,则其中前3个待选距离中第一距离的数量2,前3个待选距离中第二距离的数量是1,对比前M个待选距离中第一距离的数量与前M个待选距离中第二距离的数量,可知2>1,因此将该待选用户确定为相似用户。
在本发明实施例中,根据前M个待选距离中第一距离的数量与前M个待选距离中第二距离的数量的关系,确定待选用户是否为相似用户,这样,相比于仅使用各个第一距离中的最大第一距离表征待选用户与第一目标分组的相似度,计算相似用户的过程较复杂,但确定的待选用户群组中与目标用户群组相似的待选用户更准确,保证了相似用户挖掘的可靠性。
图7是本发明实施例提供的另一种用户处理方法流程示意图。参见图7所示,该实施例包括步骤S3的子步骤:
在步骤S33中,获取各个待选用户与第二预设特征信息相匹配的待选特征信息、各个第一目标用户与第二预设特征信息相匹配的第一特征信息以及各个第二目标用户与第二预设特征信息相匹配的第二特征信息;分别对待选特征信息、第一特征信息以及第二特征信息向量化,得到待选特征向量、第一特征向量和第二特征向量。
其中,步骤S33是在步骤S31之前实现,用于获取各个待选用户与第二预设特征信息相匹配的待选特征信息、各个第一目标用户与第二预设特征信息相匹配的第一特征信息以及各个第二目标用户与第二预设特征信息相匹配的第二特征信息。
需要说明的是,第二预设特征信息可包含至少一个第二预设特征。第二预设特征与第一预设特征可以是相同的,也可以是不相同的,本申请实施例对此不作限定。
本步骤中,通过对各个待选用户选取与第二预设特征信息中第二预设特征相匹配的待选特征信息,对各个第一目标用户选取与第二预设特征信息中第二预设特征相匹配的第一特征信息,对各个第二目标用户选取与第二预设特征信息中第二预设特征相匹配的第二特征信息,然后对待选特征信息、第一特征信息以及第二特征信息向量化,可以得到待选特征向量、第一特征向量和第二特征向量。
例如,各个第二预设特征分别是“性别、冒泡时间”;对于各个待选用户、第一目标用户以及第二目标用户,检测目标用户的特征是否存在“性别、冒泡时间”;若待选用户的特征中存在“性别、冒泡时间”,则将“性别”及其对应的特征值“女”、“冒泡时间”及其对应的特征值“7-9”,作为与第二预设特征信息相匹配的待选特征信息,即待选特征信息是“性别:‘女’,冒泡时间:‘7-9’”;若第一目标用户的特征中存在“性别、冒泡时间”,则将“性别”及其对应的特征值“男”、“冒泡时间”及其对应的特征值“7-9”,作为与第二预设特征信息相匹配的第一特征信息,即第一特征信息是“性别:‘男’,冒泡时间:‘7-9’”;若第一目标用户的特征中存在“性别、冒泡时间”,则将“性别”及其对应的特征值“男”、“冒泡时间”及其对应的特征值“1-2”,作为与第二预设特征信息相匹配的第二特征信息,即第二特征信息是“性别:‘男’,冒泡时间:‘1-2’”。
另外,特征向量化过程可以是性别(男,女)向量化为(0,1)、冒泡时间(0点-1点)向量化为0、冒泡时间(1点-2点)向量化为1点、金额和里程等特征四舍五入向量化为具体整数数字、设备型号(安卓,IOS)向量化为(0,1)等。相应地,对待选特征信息、第一特征信息以及第二特征信息进行特征向量化,就可以得到待选特征向量、第一特征向量和第二特征向量。例如,待选特征信息“性别:‘女’,冒泡时间:‘7-9’”,对其进行特征向量化,得到待选特征向量(1,7);第一特征信息“性别:‘男’,冒泡时间:‘7-9’”,对其进行特征向量化,得到待选第一特征向量(0,7);第二特征信息“性别:‘男’,冒泡时间:‘1-2’”,对其进行特征向量化,得到待选第一特征向量(0,1)。
在本发明实施例中,通过第二预设特征信息,对待选用户的待选特征信息、第一目标用户的第一特征信息以及第二目标用户的第二特征信息进行选择,可得到优化后的待选特征信息、第一特征信息以及第二特征信息,使得向量化得到的待选特征向量、第一特征向量和第二特征向量长度缩短,可以简化了计算相似用户的过程,可以减少计算量,提高相似用户的挖掘效率。
图8是本发明实施例提供的另一种用户处理方法流程示意图。参见图8所示,该实施例包括步骤S3的子步骤:
在步骤S34中,根据第一目标分组中的各个第一特征向量以及第二目标分组中的各个第二特征向量,训练目标分类模型;目标分类模型用于确定输入样本的目标类别为第一目标分组或第二目标分组。
其中,步骤S34是在步骤S33之后实现,用于通过第一目标分组中的各个第一特征向量以及第二目标分组中的各个第二特征向量,训练目标分类模型。
需要说明的是,各个第一特征向量以及各个第二特征向量,可以是步骤S33中的第一特征向量和第二特征向量;也可以是各个第一目标用户的特征信息以及各个第二目标用户的特征信息直接向量化,得到的第一特征向量和第二特征向量,本申请实施例对此不作限定。
本步骤中,可以是将第一目标分组中的各个第一特征向量以及第二目标分组中的各个第二特征向量组成训练集,然后使用该训练集训练目标分类模型,使得该目标分类模型可以将训练集中的各个向量的目标类别,分为第一目标分组或第二目标分组。例如,将步骤S33中的第一特征向量和第二特征向量组成的训练集,输入逻辑回归模型,实现对训练集中的向量二分类,以训练该逻辑回归模型。
在步骤S35中,对于待选用户群组中任一待选用户,将待选用户的待选特征向量输入目标分类模型,以确定待选用户所属的目标类别。
其中,待选特征向量所输入的目标分类模型,可以是经过模型的评估方法评估后,确定可以用于测试测试集的模型。
本步骤中,对于待选用户群组中任一待选用户,将待选用户的待选特征向量输入目标分类模型,可得到目标分类模型的输出值,以确定待选用户所属的目标类别。例如,将待选用户1的待选特征向量D1输入目标分类模型,若目标分类模型的输出值为1或大于0.5,则确定待选用户所属的目标类别为第一目标分组。
在步骤S36中,若目标类别为第一目标分组,则将待选用户确定为相似用户。
本步骤中,将待选用户的待选特征向量输入目标分类模型后,分类模型通过计算待选特征向量与各个第一特征向量之间的第一距离、以及待选特征向量与各个第二特征向量之间的第二距离,可以输出一个输出值,根据该输出值可以确定该待选用户的目标类别是否为第一目标分组,从而确定是否将待选用户确定为相似用户。例如,将待选用户2的待选特征向量D2输入目标分类模型,计算后目标分类模型输出的输出值为1,则确定待选用户2的待选特征向量D2的目标类别为第一目标分组,则将该待选用户确定为相似用户。
需要说明的是,目标分类模型可以是朴素贝叶斯模型、KNN模型、SVM模型、XGBOOST模型、BDT模型、随机森林模型等,本申请实施例对此不作限定。
此外,可以根据准确率和召回率、F值、AUC等模型的评估方法,评估目标分类模型是否可以用于测试待选用户群组中任一待选用户所属的目标类别,本申请实施例对此不作限定。
在本发明实施例中,通过第一目标分组中的各个第一特征向量以及第二目标分组中的各个第二特征向量,训练目标分类模型,可以得到能够测试待选用户群组中任一待选用户所属的目标类别的目标分类模型,这样,借助目标分类模型确定相似用户的过程,简单而有效,特别是当待选用户和目标用户基数庞大时,不仅可以较快速地得到与目标用户群组相似的用户,还能够保证准确率。
图9是本发明实施例提供的另一种用户处理方法流程示意图。参见图9所示,该实施例包括步骤S3的子步骤:
在步骤S37中,对待选用户群组中的待选用户和第一目标分组中的第一目标用户进行聚类操作,得到多个用户分组;聚类操作用于将相似度满足预设条件的用户分类至同一用户分组。
其中,步骤S37是在步骤S33之后实现,用于待选用户群组中的待选用户和第一目标分组中的第一目标用户进行聚类操作。
本步骤中,通过对待选用户群组中的待选用户和第一目标分组中的第一目标用户进行聚类操作,可以得到或仅包含待选用户、或仅包含第一目标用户、或同时包含待选用户和第一目标用户的多个用户分组。例如,将待选用户群组中的待选用户1000和第一目标分组中的第一目标用户100进行聚类操作,得到5个用户分组。
在步骤S38中,对于任一目标用户分组,检测目标用户分组中是否存在待选用户;目标用户分组为包括第一目标用户的用户分组。
本步骤中,对于通过聚类操作得到的多个用户分组,检测任一用户分组中是否包含第一目标用户,若该用户分组中包含第一目标用户,则将该用户分组作为目标用户分组,继续对得到的任一目标用户分组,检测该目标用户分组中是否存在待选用户。例如,对于通过聚类操作得到5个用户分组,分别检测5个用户分组中是否包含第一目标用户,得到3个用户分组中包含第一目标用户,则将这3个用户分组作为目标用户分组,继续对这3个目标用户分组检测其中是否存在待选用户。
在步骤S39中,若存在待选用户,则将目标用户分组中的所有待选用户确定为相似用户。
本步骤中,对得到的任一目标用户分组,检测目标用户分组中是否存在待选用户时,确定该目标用户分组中存在待选用户,则将该目标用户分组中的所有待选用户确定为相似用户。例如,对这3个目标用户分组分别检测其中是否存在待选用户时,确定2个目标用户分组中存在待选用户,则将这个2个目标用户分组中全部的待选用户确定为相似用户。
需要说明的是,聚类操作可以是划分式聚类方法(Partition-based Methods)、层次化聚类方法(Hierarchical Methods)、基于密度的聚类方法(Density-based methods)、基于网格的聚类方法(grid-based methods)、基于模型的聚类方法(model-basedmethods)等。从而,根据所选择的聚类操作,能够确定预设条件,本申请实施例对此不作限定。
其中,聚类操作中可通过余弦距离、欧式距离等距离函数进行相似度度量,以获取聚类操作所需的簇,本申请实施例对此不作限定。
在本发明实施例中,通过对待选用户群组中的待选用户和第一目标分组中的第一目标用户进行聚类操作,得到相似度满足预设条件的用户分类组成的多个用户分组;然后根据用户分组中待选用户和第一目标用户的数量确定相似用户,这样,借助聚类操作确定相似用户的过程,不需要将第一目标分组中的各个第一特征向量以及第二目标分组中的各个第二特征向量作为训练集以训练模型,计算简单而快速,可以降低挖掘相似用户的成本。
在一种可能的实现方式中,第一预设特征信息和第二预设特征信息都是可基于用户输入预先设定的。
需要说明的是,第一预设特征信息和第二预设特征信息可以是系统中默认的,也可以是用户通过键盘或者触摸设备等输入的特征信息,本申请实施例对此不作限定。
其中,第一预设特征信息可以是从目标用户的目标用户特征信息中选取的一部分,第二预设特征信息可以是从第一目标用户的第一特征信息中选取的一部分,本申请实施例对此不作限定。
本步骤中,第一预设特征信息和第二预设特征信息可以是用户输入于相应对话框中的特征信息。例如,从待选用户群组中挖掘相似用户时,系统弹出第一预设特征信息和第二预设特征信息的输入框,用户通过选择输入框的下拉列表中的特征信息,确定第一预设特征信息和第二预设特征信息,以便通过第一预设特征信息从待选用户群组中挖掘相似用户;其中,第一预设特征信息输入框的下拉列表中的特征信息是从目标用户的特征信息中选取的,第二预设特征信息输入框的下拉列表中的特征信息是从第一目标用户的特征信息中选取的。
在本发明实施例中,通过设置第一预设特征信息和第二预设特征信息,是可基于用户输入预先设定得到的,可以保证挖掘相似用户的灵活性。例如,若需要根据其他特征信息挖掘相似用户,可以通过键盘或者触摸设备等重新输入特征信息,或者修改原先指令中的预设特征信息,再计算相似用户,就可得到与该其他特征信息相匹配的相似用户。这样,本发明可以通过改变第一预设特征信息和第二预设特征信息灵活的改变挖掘特征。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图10是本发明实施例提供的一种用户处理装置结构示意图。参见图10所示,该装置包括:第一获取模块、第一分组模块和计算相似用户模块。
第一获取模块,用于获取目标用户群组。
第一分组模块,用于根据第一预设特征信息,从目标用户群组中选择与第一预设特征信息相匹配的第一目标用户,以组成第一目标分组。
计算相似用户模块,用于根据待选用户群组中待选用户与第一目标分组中第一目标用户之间的相似度,从待选用户群组中选择与第一目标分组相匹配的待选用户,以作为目标用户群组的相似用户。
在一种可能的实现方式中,第一预设特征信息包含至少一个第一预设特征及其对应的第一预设特征值,第一分组模块装置,还用于对于目标用户群组中的任一目标用户,检测目标用户是否存在与各个第一预设特征相匹配的第一目标特征,以及第一目标特征的第一特征值是否与第一预设特征值相匹配;若存在第一目标特征且第一目标特征的第一特征值与第一预设特征值相匹配,则将目标用户确定为第一目标用户。
在另一种可能的实现方式中,计算相似用户模块装置,还用于对于待选用户群组中任一待选用户,计算待选用户的待选特征向量与各个第一特征向量之间的第一距离;第一特征向量为第一目标用户的特征向量,第一距离用于表征相似度;根据各个第一距离,确定待选用户是否为相似用户。
在另一种可能的实现方式中,计算相似用户模块装置,还用于确定各个第一距离中的最大第一距离;若最大第一距离小于预设阈值,则确定待选用户为相似用户。
在另一种可能的实现方式中,装置还包括:
第二分组模块,用于从目标用户群组中的剩余目标用户中随机选择第二目标用户,以组成第二目标分组;剩余目标用户为除第一目标用户之外的目标用户;
计算相似用户模块装置,还用于计算待选用户的待选特征向量与第二目标分组中各个第二特征向量之间的第二距离;第二距离用于表征相似度;将各个第一距离以及各个第二距离作为待选距离,并从待选距离选取最小的前M个待选距离;若第一数量大于第二数量,则将待选用户确定为相似用户;第一数量为前M个待选距离中第一距离的数量,第二数量为前M个待选距离中第二距离的数量。
在另一种可能的实现方式中,装置还包括:
第二获取模块,用于获取各个待选用户与第二预设特征信息相匹配的待选特征信息、各个第一目标用户与第二预设特征信息相匹配的第一特征信息以及各个第二目标用户与第二预设特征信息相匹配的第二特征信息;分别对待选特征信息、第一特征信息以及第二特征信息向量化,得到待选特征向量、第一特征向量和第二特征向量。
在另一种可能的实现方式中,装置还包括:
第二分组模块,用于从目标用户群组中的剩余目标用户中随机选择第二目标用户,以组成第二目标分组;剩余目标用户为除第一目标用户之外的目标用户;
计算相似用户模块装置,用于根据第一目标分组中的各个第一特征向量以及第二目标分组中的各个第二特征向量,训练目标分类模型;目标分类模型用于确定输入样本的目标类别为第一目标分组或第二目标分组;对于待选用户群组中任一待选用户,将待选用户的待选特征向量输入目标分类模型,以确定待选用户所属的目标类别;若目标类别为第一目标分组,则将待选用户确定为相似用户。
在另一种可能的实现方式中,计算相似用户模块装置,还用于对待选用户群组中的待选用户和第一目标分组中的第一目标用户进行聚类操作,得到多个用户分组;聚类操作用于将相似度满足预设条件的用户分类至同一用户分组;对于任一目标用户分组,检测目标用户分组中是否存在待选用户;目标用户分组为包括第一目标用户的用户分组;若存在待选用户,则将目标用户分组中的所有待选用户确定为相似用户。
在另一种可能的实现方式中,还被配置为第一预设特征信息和第二预设特征信息都是基于用户输入预先设定的。
在本发明实施例中,通过获取目标用户群组,从该目标用户群组中选择与第一预设特征信息相匹配的第一目标用户组成一个第一目标分组,然后根据待选用户群组中待选用户与该第一目标分组中第一目标用户之间的相似度,从待选用户群组中选择与第一目标分组相匹配的待选用户作为该目标用户群组的相似用户。这样,首先从目标用户群组选择第一目标用户组成第一目标分组,然后基于第一目标分组中所有第一目标用户的特征信息挖掘相似用户,能够一定程度上降低挖掘时的计算量,提高挖掘效率。同时,所选择的第一目标用户与第一预设特征信息相匹配,而以第一目标用户的特征信息所挖掘相似用户作为目标用户的相似用户,能够保证目标用户的相似用户具有更高的精度。使用目标用户群组的相似用户可以扩大目标用户群组,而将扩大后的目标用户群组作为策略投放的对象,能够使得投放范围更大,进而提高投放效果。
可以理解的是:上述实施例提供的一种用户处理装置在处理用户时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的一种用户处理装置与一种用户处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
需要说明的是:上述实施例提供的一种用户处理装置可以是用户处理系统中的模块,用于解决用户群组的进一步划分和相似用户的挖掘计算管理,以便于运营和数据分析人员根据同一用户群组内的人群不同特征进行差异化的策略或者差异化体验投放。因用户画像系统的用户群组是根据用户的行为等特征实时变化,因此用户处理系统具备锁定功能,可以将通过用户洞察系统的接口从用户画像系统中所选取的目标用户群组锁定,从而保证相似用户挖掘的准确性。
图11是本发明实施例提供的一种用户处理系统示意图。参见图11所示,首先,通过用户洞察系统的接口从用户画像系统中所选取的目标用户群组,并锁定目标用户群组;其次,用户画像系统将目标用户群组和待选用户群组的数据通过接口传输给用户洞察系统;然后,运营和数据分析人员从目标用户群组中目标用户的特征中选取至少一个第一预设特征,并设置各个第一预设特征所对应的第一预设特征值;然后,第一分组模块根据第一预设特征及其对应的第一预设特征值选取第一目标用户建立第一目标分组;然后,从待选用户群组中挖掘与第一目标分组相匹配的待选用户作为目标用户群组的相似用户;然后,挖掘相似用户时通过选取第二预设特征,以获取各个待选用户与第二预设特征相匹配的待选特征信息、各个所述第一目标用户与第二预设特征相匹配的第一特征信息以及各个所述第二目标用户与第二预设特征相匹配的第二特征信息;然后,对分别对待选特征信息、第一特征信息以及第二特征信息向量化,得到待选特征向量、第一特征向量和第二特征向量;然后,通过待选特征向量、第一特征向量和第二特征向量计算相似用户。其中,分组信息存储后,通过分组应用接口将相关的数据发送给分组应用平台;特征画像则是针对分组的人群进行群体特征画像,该分组的基础特征分布、行为特征分布、消费特征分布等;相似用户信息存储后,通过分组应用接口将相关的数据发送给相似用户应用平台。
在示例性实施例中,还提供了一种电子设备,该电子设备可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。该电子设备还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常电子设备包括一个或多个处理器和一个或多个存储器。
处理器可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-ProgrammableGate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器所执行以实现本申请中方法实施例提供的用户处理方法。
当然,该电子设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该电子设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
本领域技术人员可以理解,本发明实施例中示出的结构并不构成对电子设备的限定,可以包括比实施例中更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条指令的存储器,该至少一条指令可由电子设备中的处理器执行以实现上述实施例中用户处理方法。例如,该计算机可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
应该注意的是,在权利要求中,单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (11)

1.一种用户处理方法,其特征在于,包括:
获取目标用户群组;
根据第一预设特征信息,从所述目标用户群组中选择与所述第一预设特征信息相匹配的第一目标用户,以组成第一目标分组;
根据待选用户群组中待选用户与所述第一目标分组中第一目标用户之间的相似度,从所述待选用户群组中选择与所述第一目标分组相匹配的待选用户,以作为所述目标用户群组的相似用户,包括:
从所述目标用户群组中的剩余目标用户中随机选择第二目标用户,以组成第二目标分组;所述剩余目标用户为除所述第一目标用户之外的目标用户;
对于所述待选用户群组中任一待选用户,计算所述待选用户的待选特征向量与各个第一特征向量之间的第一距离;所述第一特征向量为所述第一目标用户的特征向量,所述第一距离用于表征所述相似度;
计算所述待选用户的待选特征向量与所述第二目标分组中各个第二特征向量之间的第二距离;所述第二距离用于表征所述相似度;
根据所述第一距离和所述第二距离,确定所述相似用户。
2.根据权利要求1所述的方法,其特征在于,所述第一预设特征信息包含至少一个第一预设特征及其对应的第一预设特征值,所述根据第一预设特征信息,从所述目标用户群组中选择与所述第一预设特征信息相匹配的第一目标用户,包括:
对于所述目标用户群组中的任一目标用户,检测所述目标用户是否存在与各个所述第一预设特征相匹配的第一目标特征,以及所述第一目标特征的第一特征值是否与所述第一预设特征值相匹配;
若存在所述第一目标特征且所述第一目标特征的第一特征值与所述第一预设特征值相匹配,则将所述目标用户确定为所述第一目标用户。
3.根据权利要求2所述的方法,其特征在于,在所述对于所述待选用户群组中任一待选用户,计算所述待选用户的待选特征向量与各个第一特征向量之间的第一距离之后,所述方法还包括:
确定各个所述第一距离中的最大第一距离;
若所述最大第一距离小于预设阈值,则确定所述待选用户为所述相似用户。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一距离和所述第二距离,确定所述相似用户,包括:
将各个所述第一距离以及各个所述第二距离作为待选距离,并从所述待选距离选取最小的前M个待选距离;
若第一数量大于第二数量,则将所述待选用户确定为所述相似用户;所述第一数量为所述前M个待选距离中第一距离的数量,所述第二数量为所述前M个待选距离中第二距离的数量。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取各个所述待选用户与第二预设特征信息相匹配的待选特征信息、各个所述第一目标用户与第二预设特征信息相匹配的第一特征信息以及各个所述第二目标用户与第二预设特征信息相匹配的第二特征信息;分别对所述待选特征信息、所述第一特征信息以及所述第二特征信息向量化,得到所述待选特征向量、所述第一特征向量和所述第二特征向量。
6.根据权利要求1所述的方法,其特征在于,在所述从所述目标用户群组中的剩余目标用户中随机选择第二目标用户,以组成第二目标分组;所述剩余目标用户为除所述第一目标用户之外的目标用户之后,所述方法还包括:
根据所述第一目标分组中的各个第一特征向量以及所述第二目标分组中的各个第二特征向量,训练目标分类模型;所述目标分类模型用于确定输入样本的目标类别为所述第一目标分组或所述第二目标分组;
对于所述待选用户群组中任一待选用户,将所述待选用户的待选特征向量输入所述目标分类模型,以确定所述待选用户所属的目标类别;
若所述目标类别为所述第一目标分组,则将所述待选用户确定为所述相似用户。
7.根据权利要求1所述的方法,其特征在于,在所述从所述目标用户群组中的剩余目标用户中随机选择第二目标用户,以组成第二目标分组;所述剩余目标用户为除所述第一目标用户之外的目标用户之前,所述方法还包括:
对所述待选用户群组中的待选用户和所述第一目标分组中的第一目标用户进行聚类操作,得到多个用户分组;所述聚类操作用于将相似度满足预设条件的用户分类至同一用户分组;
对于任一目标用户分组,检测所述目标用户分组中是否存在待选用户;所述目标用户分组为包括所述第一目标用户的用户分组;
若存在所述待选用户,则将所述目标用户分组中的所有所述待选用户确定为所述相似用户。
8.根据权利要求5至7任一所述的方法,其特征在于,所述第一预设特征信息和第二预设特征信息都是基于用户输入预先设定的。
9.一种用户处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标用户群组;
第一分组模块,用于根据第一预设特征信息,从所述目标用户群组中选择与所述第一预设特征信息相匹配的第一目标用户,以组成第一目标分组;
计算相似用户模块,用于根据待选用户群组中待选用户与所述第一目标分组中第一目标用户之间的相似度,从所述待选用户群组中选择与所述第一目标分组相匹配的待选用户,以作为所述目标用户群组的相似用户;
所述计算相似用户模块,还用于从所述目标用户群组中的剩余目标用户中随机选择第二目标用户,以组成第二目标分组;所述剩余目标用户为除所述第一目标用户之外的目标用户;
对于所述待选用户群组中任一待选用户,计算所述待选用户的待选特征向量与各个第一特征向量之间的第一距离;所述第一特征向量为所述第一目标用户的特征向量,所述第一距离用于表征所述相似度;
计算所述待选用户的待选特征向量与所述第二目标分组中各个第二特征向量之间的第二距离;所述第二距离用于表征所述相似度;
根据所述第一距离和所述第二距离,确定所述相似用户。
10.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至8中任一项所述的用户处理方法所执行的操作。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8中任一项所述的用户处理方法所执行的操作。
CN202011530805.9A 2020-12-22 2020-12-22 一种用户处理方法、装置、电子设备及存储介质 Active CN112597363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011530805.9A CN112597363B (zh) 2020-12-22 2020-12-22 一种用户处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011530805.9A CN112597363B (zh) 2020-12-22 2020-12-22 一种用户处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112597363A CN112597363A (zh) 2021-04-02
CN112597363B true CN112597363B (zh) 2022-06-21

Family

ID=75200376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011530805.9A Active CN112597363B (zh) 2020-12-22 2020-12-22 一种用户处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112597363B (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903086B (zh) * 2019-02-14 2020-12-18 北京奇艺世纪科技有限公司 一种相似人群扩展方法、装置及电子设备
CN109992606A (zh) * 2019-03-14 2019-07-09 北京达佳互联信息技术有限公司 一种目标用户的挖掘方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112597363A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
US9454580B2 (en) Recommendation system with metric transformation
JP6402265B2 (ja) 意思決定モデルを構築する方法、コンピュータデバイス及び記憶デバイス
CN103268317B (zh) 对图像进行语义注释的系统和方法
Chen et al. Discovering informative social subgraphs and predicting pairwise relationships from group photos
CN110705489B (zh) 目标识别网络的训练方法、装置、计算机设备和存储介质
CN113657087B (zh) 信息的匹配方法及装置
CN113051317B (zh) 一种数据挖掘模型更新方法、系统、计算机设备及可读介质
CN106537423A (zh) 作为服务的自适应特征化
CN112990318A (zh) 持续学习方法、装置、终端及存储介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
WO2022245469A1 (en) Rule-based machine learning classifier creation and tracking platform for feedback text analysis
CN112100493B (zh) 文档排序方法、装置、设备及存储介质
CN114792246A (zh) 一种基于主题集成聚类的产品典型性特质挖掘方法及系统
US10685184B1 (en) Consumer insights analysis using entity and attribute word embeddings
RU2715024C1 (ru) Способ отладки обученной рекуррентной нейронной сети
CN112597363B (zh) 一种用户处理方法、装置、电子设备及存储介质
Yuan et al. Anisotropic neighborhood searching for point cloud with sharp feature
CN112632275B (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备
CN110413782B (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质
CN116778210A (zh) 教学影像评价系统以及教学影像评价方法
CN114417982A (zh) 一种模型训练方法、终端设备及计算机可读存储介质
CN114048847A (zh) 一种图神经网络数据缓存方法、装置、设备及存储介质
CN111291829A (zh) 一种精选图片的自动确定方法和系统
CN114139657B (zh) 客群画像生成方法、装置、电子设备和储存介质
Zhu et al. Content based image retrieval via a transductive model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant