CN107730364A - 用户识别方法及装置 - Google Patents
用户识别方法及装置 Download PDFInfo
- Publication number
- CN107730364A CN107730364A CN201711047080.6A CN201711047080A CN107730364A CN 107730364 A CN107730364 A CN 107730364A CN 201711047080 A CN201711047080 A CN 201711047080A CN 107730364 A CN107730364 A CN 107730364A
- Authority
- CN
- China
- Prior art keywords
- user
- identified
- activation data
- historical
- application program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004913 activation Effects 0.000 claims abstract description 362
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000010801 machine learning Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000009434 installation Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0609—Buyer or seller confidence or verification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/30—Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种用户识别方法及装置,其中方法包括:选取针对特定应用程序的历史激活数据作为样本数据;在样本数据中,确定出特定应用程序的首次激活用户对应的历史激活数据,以及,特定应用程序的多次激活用户对应的历史激活数据;根据首次激活用户对应的历史激活数据以及多次激活用户对应的历史激活数据,采用机器学习算法,训练用户识别模型;利用训练好的用户识别模型,以及数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定待识别用户是否为上述的首次激活用户。通过本申请实施例中的用户识别方法及装置,能够准确识别用户是否为应用程序的首次激活用户,从而避免为同一用户重复分配用户ID。
Description
技术领域
本申请涉及用户识别领域,尤其涉及一种用户识别方法及装置。
背景技术
随着终端设备如手机的普及,用户经常使用终端设备中的应用程序,作为应用程序的开发人员,通过为应用程序的每个用户分配用户ID(identity,身份),构建基于用户ID的用户平台,已经成为进行用户管理的基础方式之一。
现有技术中,通常在用户发送应用程序的激活数据(如安装激活数据)时,为用户分配用户ID,然而,由于用户可能重复发送激活数据,如卸载并重复安装同一应用程序,因此通过现有的ID分配方式会为同一用户重复分配用户ID,这不仅增加服务器数据的维护负担,在进行商业化推广时还会导致一系列不必要的重复劳动,使计费的准确性大大降低。
因此,有必要提出一种技术方案,以识别用户是否为应用程序的首次激活用户,从而避免为同一用户重复分配用户ID。
发明内容
本申请实施例的目的是提供一种用户识别方法及装置,准确识别用户是否为应用程序的首次激活用户,从而避免为同一用户重复分配用户ID。
为解决上述技术问题,本申请实施例是这样实现的:
本申请实施例提供了一种用户识别方法,包括:
选取针对特定应用程序的历史激活数据作为样本数据,其中,每条所述历史激活数据均包括与用户的终端设备相关的标识信息;
对所述样本数据进行分析,确定出所述特定应用程序的首次激活用户对应的历史激活数据,以及,所述特定应用程序的多次激活用户对应的历史激活数据;
根据所述首次激活用户对应的历史激活数据以及所述多次激活用户对应的历史激活数据,采用机器学习算法,训练用户识别模型;
利用训练好的所述用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定所述待识别用户是否为针对所述特定应用程序的首次激活用户。
本申请还实施例提供了一种用户识别装置,包括:
样本确定模块,用于选取针对特定应用程序的历史激活数据作为样本数据,其中,每条所述历史激活数据均包括与用户的终端设备相关的标识信息;
数据筛选模块,用于对所述样本数据进行分析,确定出所述特定应用程序的首次激活用户对应的历史激活数据,以及,所述特定应用程序的多次激活用户对应的历史激活数据;
模型训练模块,用于根据所述首次激活用户对应的历史激活数据以及所述多次激活用户对应的历史激活数据,采用机器学习算法,训练用户识别模型;
用户识别模块,用于利用训练好的所述用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定所述待识别用户是否为针对所述特定应用程序的首次激活用户。
本申请还实施例提供了一种用户识别设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器:
选取针对特定应用程序的历史激活数据作为样本数据,其中,每条所述历史激活数据均包括与用户的终端设备相关的标识信息;
对所述样本数据进行分析,确定出所述特定应用程序的首次激活用户对应的历史激活数据,以及,所述特定应用程序的多次激活用户对应的历史激活数据;
根据所述首次激活用户对应的历史激活数据以及所述多次激活用户对应的历史激活数据,采用机器学习算法,训练用户识别模型;
利用训练好的所述用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定所述待识别用户是否为针对所述特定应用程序的首次激活用户。
本申请实施例还提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现以下流程:
选取针对特定应用程序的历史激活数据作为样本数据,其中,每条所述历史激活数据均包括与用户的终端设备相关的标识信息;
对所述样本数据进行分析,确定出所述特定应用程序的首次激活用户对应的历史激活数据,以及,所述特定应用程序的多次激活用户对应的历史激活数据;
根据所述首次激活用户对应的历史激活数据以及所述多次激活用户对应的历史激活数据,采用机器学习算法,训练用户识别模型;
利用训练好的所述用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定所述待识别用户是否为针对所述特定应用程序的首次激活用户。
本申请实施例中的用户识别方法及装置,首先选取特定应用程序的历史激活数据作为样本数据,其次在样本数据中确定特定应用程序的首次激活用户对应的历史激活数据,以及特定应用程序的多次激活用户对应的历史激活数据,然后根据特定应用程序的首次激活用户对应的历史激活数据,以及特定应用程序的多次激活用户对应的历史激活数据,训练用户识别模型,最后利用用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定待识别用户是否为特定应用程序的首次激活用户。通过本申请实施例中的用户识别方法及装置,能够从用户识别模型、预先存储的图像与待识别用户的终端设备中的图像的匹配度两方面,准确识别用户是否为特定应用程序的首次激活用户,从而避免为同一用户重复分配用户ID。利用机器学习模型进行用户识别,具有识别速度快,准确率高的优点。将图像之间的匹配度作为判定首次激活用户的依据之一,能够利用图像匹配算法成熟、运算方式多样的特点,灵活准确地确定待识别用户是否为特定应用程序的首次激活用户。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的用户识别方法的第一种流程示意图;
图2为本申请实施例提供的用户识别方法的第二种流程示意图;
图3为本申请实施例提供的用户识别装置的第一种模块示意图;
图4为本申请实施例提供的用户识别装置的第二种模块示意图;
图5为本申请实施例提供的用户识别设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种用户识别方法及装置,其主要思想在于,根据某应用程序的首次激活用户的应用程序激活数据,以及该应用程序的多次激活用户的应用程序激活数据,训练用户识别模型,利用用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,判断该待识别用户是否为该应用程序的首次激活用户,从而避免为同一用户重复分配用户ID。本实施例中,应用程序的激活数据可以是安装激活数据。
图1为本申请实施例提供的用户识别方法的第一种流程示意图,该流程能够由服务器执行,如图1所示,该流程包括以下步骤:
步骤S102,选取针对特定应用程序的历史激活数据作为样本数据,其中,每条历史激活数据均包括与用户的终端设备相关的标识信息。
特定应用程序可以是开发人员较为关注安装量及使用量的应用程序。开发人员在关注特定应用程序的安装量及使用量时,可以首先通过本申请实施例中的方法识别某用户是否为特定应用程序的首次激活用户,也即,是否为只申请激活一次特定应用程序的用户,从而为统计安装量和使用量提供准确依据。
本申请实施例中,每条历史激活数据均包括多项与用户的终端设备相关的标识信息,用户的终端设备可以是用户的手机、电脑、平板电脑、车载电脑等设备,标识信息可以是android ID(安卓设备唯一标识码)、Google advertising ID(谷歌广告ID)、IMEI(International Mobile Equipment Identity,国际移动设备识别码)、MAC(Media AccessControl,媒体访问控制)地址、CPU serial(中央处理器CPU Central Processing Unit序列号)以及android serial(安卓设备序列号)。当然,标识信息不局限于终端设备自带的信息,还可以是根据任意算法计算得到的,与终端设备相关的标识信息。
一种具体的实施方式中,服务器获取上述特定应用程序的历史激活日志,从该历史激活日志中,获取该特定应用程序的多条历史激活数据。
步骤S104,对上述样本数据进行分析,确定出特定应用程序的首次激活用户对应的历史激活数据,以及,特定应用程序的多次激活用户对应的历史激活数据。
特定应用程序的首次激活用户指的是只申请激活一次特定应用程序的用户,特定应用程序的多次激活用户指的是重复申请激活多次特定应用程序的用户。本步骤中,在上述样本数据中,确定出首次激活用户对应的历史激活数据以及多次激活用户对应的历史激活数据,以便于训练用户识别模型。
步骤S106,根据上述首次激活用户对应的历史激活数据以及上述多次激活用户对应的历史激活数据,采用机器学习算法,训练用户识别模型。
考虑到机器学习算法训练得到的模型具有模型准确度高、模型运算速度快的优点,因此本步骤中将上述首次激活用户对应的历史激活数据作为正样本,将上述多次激活用户对应的历史激活数据作为负样本,采用机器学习算法,训练用户识别模型。
模型训练过程可以为:从正样本中提取各个标识信息,以及从负样本中提取各个标识信息,并按照指定形式生成正样本中各个标识信息对应的特定向量,以及按照指定形式生成负样本中各个标识信息对应的特定向量,特征向量的形式可以为:
WrappedArray([userprofile|android_id=aa83c2a986428139,1.0];
[userprofile|advertising_id=43cb3f87-e6f8-4b92-b679-ca1e9289c3cd,1.0];
[userprofile|imei=356009071833256,1.0];
[userprofile|mac=02:00:00:00:00:00,1.0];
[userprofile|cpu_serial=025d749c58146013,1.0]);
[userprofile|android_serial=330052b3286d9377,1.0]。
然后通过机器学习算法,如逻辑回归算法,对正样本中各个标识信息对应的特定向量以及负样本中各个标识信息对应的特定向量进行特征转换、聚合以及交叉,得到模型训练特征,最后根据模型训练特征训练用户识别模型。
步骤S108,利用训练好的用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定待识别用户是否为针对该特定应用程序的首次激活用户。
本申请实施例中的用户识别方法,首先选取特定应用程序的历史激活数据作为样本数据,其次在样本数据中确定特定应用程序的首次激活用户对应的历史激活数据,以及特定应用程序的多次激活用户对应的历史激活数据,然后根据特定应用程序的首次激活用户对应的历史激活数据,以及特定应用程序的多次激活用户对应的历史激活数据,训练用户识别模型,最后利用用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定待识别用户是否为特定应用程序的首次激活用户。通过本申请实施例中的用户识别方法,能够从用户识别模型、预先存储的图像与待识别用户的终端设备中的图像的匹配度两方面,准确识别用户是否为特定应用程序的首次激活用户,从而避免为同一用户重复分配用户ID。
利用机器学习模型进行用户识别,具有识别速度快,准确率高的优点。将图像之间的匹配度作为判定首次激活用户的依据之一,能够利用图像匹配算法成熟、运算方式多样的特点,灵活准确地确定待识别用户是否为特定应用程序的首次激活用户。比如,可以根据方案的实施条件采用合适的图像处理算法确定上述的图像的匹配度,从而便于方案在不同条件下灵活执行,扩大方案的适用场景以及灵活性。
考虑到需要利用样本数据训练用户识别模型,因此为了保证样本数据精确度,上述步骤S102中,选取针对特定应用程序的历史激活数据作为样本数据,可以为:
(a1)选取针对特定应用程序的多条历史激活数据;
(a2)在选取的多条历史激活数据中,将包括的标识信息的取值为空的历史激活数据剔除,以及,将包括的标识信息的取值达到预设重复门限的历史激活数据剔除;
(a3)将剔除后的多条历史激活数据,确定为样本数据。
动作(a1)中,服务器获取特定应用程序的历史激活日志,从该历史激活日志中,获取该特定应用程序的多条历史激活数据。历史激活数据可以如下表1所示,每条历史激活数据均包括多项标识信息,每项标识信息具有各自的取值。
表1
动作(a2)中,检测是否存在包括的任一项标识信息的取值为空的历史激活数据,若是,则在获取的多条历史激活数据中剔除该条历史激活数据,比如,表1中历史激活数据1包括的安卓ID的值为空,则在获取的历史激活数据中剔除历史激活数据1。其次,检测是否存在包括的任一项标识信息的取值在获取的多条历史激活数据中达到预设重复门限的历史激活数据,若是,则在获取的多条历史激活数据中剔除该条历史激活数据。
由于某些用户可能通过刷机的行为多次重复安装特定应用程序,在刷机行为发生时,某些标识信息的值会重复出现在历史激活数据中,如重复出现某个值的安卓ID,因此本实施例中,在动作(a1)后,统计各项标识信息的取值在获取的历史激活数据中的出现情况,该情况可以通过如下表2表示。
表2
通过表2可以反映每项标识信息的取值在获取的历史激活数据中的出现情况,以标识信息安卓ID为例,可以按照出现次数由高到低的顺序对各个安卓ID值进行排序,然后将排序占前5%的安卓ID值作为达到预设重复门限的安卓ID值,并将包括这些安卓ID值的历史激活数据从获取的所有历史激活数据中剔除。
一种具体的实施方式中,可以在动作(a1)之后,标注获取的每条历史激活数据中包含的各个标识信息的值的类型,该类型包括对应值为空参数的情况(对应值为“\N”、“null”、“unknown”或“N/A”),对应值仅出现一次的情况,对应值为多次出现但未达到预设重复门限的情况,以及,对应值为达到预设重复门限的情况,其中标注对应值达到预设重复门限,可以参照前述描述的过程。在标注各个标识信息的值的类型后,确定类型为空参数以及类型为达到预设重复门限的标识信息对应的历史激活数据,将这些历史激活数据从获取的历史激活数据中清除。
动作(a3)中,将经过动作(a2)剔除后的多条历史激活数据,确定为样本数据。
本实施例中,通过在获取的历史激活数据中清除包括的标识信息的取值为空的数据,以及清除包括的标识信息的取值达到预设重复门限的数据,并将清除后的历史激活数据作为样本数据,能够保证样本数据的精确性,保证训练模型的准确度。
本实施例中,每项标识信息均具有各自对应的权重,上述步骤S104中,在样本数据中,确定出特定应用程序的首次激活用户对应的历史激活数据,以及,特定应用程序的多次激活用户对应的历史激活数据,具体为:
在样本数据中,将包括的多项标识信息中,取值没有重复出现的标识信息的权重之和满足第一权重要求的历史激活数据,确定为特定应用程序的首次激活用户对应的历史激活数据,以及,取值重复出现的标识信息的权重之和满足第二权重要求的历史激活数据,确定为特定应用程序的多次激活用户对应的历史激活数据。
本实施例中,设定每项标识信息均具有各自对应的权重,如安卓ID的权重为3,谷歌广告ID的权重为2,安卓设备序列号的权重为1。上述步骤S104中,对于每条历史激活数据,均确定其中包含的各项标识信息是否在样本数据中重复出现,若具有对应值的某标识信息仅在该条历史激活数据中出现一次,确定该标识信息没有重复出现过,若具有对应值的某标识信息在其他历史激活数据中出现过,确定该标识信息重复出现过。然后,对于每条历史激活数据,统计其中没有重复出现过的标识信息的权重之和,以及统计其中重复出现过的标识信息的权重之和,若没有重复出现过的标识信息的权重之和满足第一权重要求,如大于第一权重阈值,则确定该条历史激活数据为首次激活用户对应的历史激活数据,若没有重复出现过的标识信息的权重之和满足第二权重要求,如大于第二权重阈值,则确定该条历史激活数据为多次激活用户对应的历史激活数据。其中,第一权重要求和第二权重要求可以相同可以不同。
比如,历史激活数据1包括安卓ID、谷歌广告ID和安卓设备序列号,在样本数据中,不存在和该安卓ID取值相同的安卓ID,但是存在和该谷歌广告ID取值相同的谷歌广告ID,以及存在和该安卓设备序列号取值相同的安卓设备序列号,因此历史激活数据1中,因此对于历史激活数据1,判断安卓ID的权重是否满足第一权重要求,以及判断谷歌广告ID和安卓设备序列号的权重和是否满足第二权重要求,若满足第一权重要求,确定历史激活数据1为特定应用程序的首次激活用户对应的历史激活数据,若满足第二权重要求,确定历史激活数据1为特定应用程序的多次激活用户对应的历史激活数据。
一种具体的实施方式中,每条历史激活数据均至少包括安卓设备唯一标识码(安卓ID)和谷歌广告ID,还可以包括安卓设备序列号、CPU序列号、MAC地址和IMEI等信息,其中安卓设备唯一标识码和谷歌广告ID的权重较大,其他标识信息的权重较小。
该实施方式中,确定特定应用程序的首次激活用户对应的历史激活数据,可以为:
在样本数据中,将包括的安卓设备唯一标识码和谷歌广告ID均没有重复出现的历史激活数据,以及,包括的安卓设备唯一标识码和谷歌广告ID中的至少一项没有重复出现,且对应的其他标识信息至少两项没有重复出现的历史激活数据,确定为首次激活用户对应的历史激活数据;
比如,针对某一历史激活数据,其包含的安卓ID和谷歌广告ID在样本数据中均没有重复出现过,则将该历史激活数据确定为首次激活用户对应的历史激活数据。
该实施方式中,确定特定应用程序的多次激活用户对应的历史激活数据,可以为:
在样本数据中,将包括的安卓设备唯一标识码和谷歌广告ID均重复出现的历史激活数据,以及,包括的安卓设备唯一标识码和谷歌广告ID中的至少一项重复出现,且对应的其他标识信息至少一项重复出现的历史激活数据,确定为多次激活用户对应的历史激活数据。
比如,针对某一历史激活数据,其包含的安卓ID和谷歌广告ID在样本数据中均重复出现过,则将该历史激活数据确定为多次激活用户对应的历史激活数据。
本实施方式中,设置安卓ID的权重和谷歌广告ID的权重较大,其他标识信息的权重较小,从而方便快速的确定首次激活用户对应的历史激活数据以及多次激活用户对应的历史激活用户。
考虑到用户识别模型的准确度,本实施例中,在步骤S108,利用训练好的用户识别模型,根据待识别用户针对特定应用程序的激活数据,确定待识别用户是否为针对特定应用程序的首次激活用户之前,还包括:
(b1)检测用户识别模型的误识率和拒识率;
(b2)若用户识别模型的误识率或拒识率高于对应的预设阈值,则调整用户识别模型的模型参数,并重复训练用户识别模型,直至用户识别模型的误识率和拒识率均低于对应的预设阈值。
本实施例中,可以将步骤S102中获取的多条历史激活数据中,首次激活用户对应的一部分历史激活数据作为正样本,多次激活用户对应的一部分历史激活数据作为负样本,利用正样本和负样本训练用户识别模型,并将首次激活用户对应的另一部分历史激活数据和多次激活用户对应的另一部分历史激活数据作为训练集数据,利用训练集数据检测用户识别模型的误识率和拒识率。
本实施例中,首先检测用户识别模型的误识率和拒识率,检测方法可以采用通用的检测方法,这里不做赘述,若用户识别模型的误识率或拒识率高于对应的预设阈值,则确定用户识别模型没有训练完成,调整用户识别模型的模型参数,并继续训练用户识别模型,直至用户识别模型的误识率和拒识率均低于对应的预设阈值。
通过上述动作(b1)和(b2),能够保证用户识别模型的准确度和可用性,从而提高用户识别的准确度。
上述步骤S108中,利用训练好的用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定待识别用户是否为针对该特定应用程序的首次激活用户,可以为:
利用训练好的用户识别模型,根据待识别用户针对特定应用程序的激活数据,确定待识别用户为首次激活用户的概率值;若该概率值大于预设概率值,且本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求,则确定待识别用户为针对特定应用程序的首次激活用户,反之,若该概率值小于或等于预设概率值,或者,本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度满足预设匹配度要求,则确定待识别用户为针对特定应用程序的多次激活用户。
具体地,在训练好用户识别模型后,若获取到待识别用户针对上述特定应用程序的激活数据,则将该激活数据输入至用户识别模型进行运算,并获取用户识别模型输出的待识别用户为首次激活用户的概率值,判断该概率值与预设概率值的大小关系。其中,待识别用户针对上述特定应用程序的激活数据包括至少一项取值不为空的上述标识信息,预设概率值可以根据经验预先确定。
能够理解,对于每个应用程序,都具有一个对应的用户识别模型,本实施例中的用户识别模型用于为上述特定应用程序确定首次激活用户。本实施例中,可以定期更新样本数据,并定期根据更新后的样本数据更新用户识别模型,从而动态更新用户识别模型,保证用户识别模型的准确度。
其中,可以通过以下方式(1)或(2)判断本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度是否满足预设匹配度要求:
(1)获取待识别用户的终端设备中,由终端设备的前置摄像头拍摄的图像;若本地数据库或远程数据库中未存储有获取的图像,则确定预先存储的图像与待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求;
(2)获取待识别用户的终端设备中存储的图像;若本地数据库或远程数据库中预先存储有获取的图像,且存储的数量占获取的图像的数量的比例低于预设比例阈值,则确定预先存储的图像与待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求。
方式(1)中,考虑到终端设备的前置摄像头拍摄的图像可以在一定程度上代表终端设备的拥有者,因此获取由前置摄像头拍摄的图像,若本地数据库或远程数据库未存储获取的图像,则确定预先存储的图像与待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求,认为该用户之前没有激活过特定应用程序的可能性比较大,反之,认为该用户之前激活过特定应用程序的可能性比较大。
方式(2)中,为了保证尽可能多获取待识别用户的终端设备中的图像,可以获取待识别用户的终端设备中存储的图像,由于终端设备中存储的图像包括终端设备拥有者的图像,还包括终端设备的拥有者为其他人物或风景拍摄的图像,因此该方式中,若本地数据库或远程数据库中预先存储有获取的图像,但存储的数量占获取的图像的数量的比例低于预设比例阈值,则确定预先存储的图像与待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求,认为该用户之前没有激活过特定应用程序的可能性比较大,反之,认为该用户之前激活过特定应用程序的可能性比较大。
本实施例中,结合用户识别模型的识别结果和图像匹配结果两方面确认待识别用户是否为首次激活用户,能够保证用户识别的准确性,利用终端设备中通常存储有图片的特性,简单方便的实现首次激活用户的识别。
考虑到终端设备中的图像包括风景图像和人物图像两大类,对于风景图像存在大量网民共享的情况,因此本实施例中,在获取待识别用户的终端设备中的图像(也即获取前置摄像头拍摄的图像,或者,获取终端设备存储的图像)后,可以对图像进行筛选,剔除风景图像,保留人物图像,根据保留的人物图像执行后的图像匹配步骤。
在保留人物图像时,可以将获取的图像中面部特征达到预定要求的图像进行保留。其中,面部特征达到预定要求可以是面部特征的特征量超过预定特征量,或者面部特征能够反映的面部的器官数量超过预定数量。
通过对获取的图像进行筛选,能够保留有价值的图像进行图像匹配,从而提高首次激活用户识别的准确度。
另一种实施例中,在获取待识别用户的前置摄像头拍摄的图像后,提取获取的图像中仅包含一张人脸、且人脸面积占图像面积的比例大于预定面积比例的图像,作为待识别用户的自拍图像,若本地数据库或远程数据库中未存储有待识别用户的自拍图像,则确定预先存储的图像与待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求。
由于仅包含一张人脸、且人脸面积占图像面积的比例大于预定面积比例的图像通常为待识别用户的自拍图像,因此将这类图像与本地数据库或远程数据库中存储的图像进行比较,能够保证图像匹配效果的准确度。
本申请实施例中,在获取待识别用户的终端设备中的图像后,判断本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度是否满足预设匹配度要求之前,还对获取的图像进行处理,以减少服务器的运算开销。处理过程可以为:先将终端设备中的图像转换为灰度图像,再对灰度图像进行压缩,利用压缩后的图像进行匹配度判定。
其中,可以根据以下公式对图像进行灰度处理:
f(i,j)=0.30R(i,j)+0.59G(i,j)+0.11B(i,j)
其中,R(i,j)、G(i,j)、B(i,j)分别表示在第(i,j)像素位置的R值(红色像素值)、G值(绿色像素值)和B值(蓝色像素值),f(i,j)表示处理得到的灰度图像在第(i,j)像素位置的像素值。i、j均大于等于0。该公式的原理为:人眼对绿色的敏感度最高,对蓝色的敏感度最低,用上述公式进行加权能够生成较合理的灰度图像。上述灰度处理公式中,各项加权系数可以根据实际需要进行调整,不局限于公式中的0.3、0.59和0.11。
在进行灰度处理后,对灰度图像进行压缩,压缩成jpeg格式,生成二进制文件,再用LZMA(Lempel Ziv Markov chain Algorithm,)算法对压缩后的图像进行进一步压缩,将图像用30*30的矩阵向量形式表示。
通过对获取的图像进行灰度处理和压缩处理,能够减少图像匹配时的运算量,加快图像匹配速度。
图2为本申请实施例提供的用户识别方法的第二种流程示意图,该流程能够由服务器执行,如图2所示,该流程包括以下步骤:
步骤S202,获取待识别用户针对特定应用程序的激活数据。
该激活数据可以为应用程序的安装激活数据。
步骤S204,利用针对特定应用程序的用户识别模型,根据待识别用户的激活数据,判断待识别用户为特定应用程序的首次激活用户的概率是否大于预定概率。
若是,执行步骤S206,否则执行步骤S212。
本步骤中,用户识别模型对待识别用户的激活数据进行运算,得到待识别用户为特定应用程序的首次激活用户的概率。
步骤S206,获取待识别用户的终端设备中由前置摄像头拍摄的图像。
步骤S208,判断本地服务器或远端服务器中是否存储有获取的图像。
若未存储,执行步骤S210,否则执行步骤S212。
步骤S210,确定待识别用户为首次激活用户。
步骤S212,确定待识别用户为多次激活用户。
步骤S214,为待识别用户分配用户ID。
通过图2中的方法,能够根据用户识别模型和用户的终端设备中前置摄像头拍摄的图像,准确判断待识别用户是否为首次激活用户,从而避免为同一用户重复分配用户ID。
对于包括的标识信息不符合规定的激活数据,如包括标识信息为空的激活数据,通过本实施例中上述的用户识别方法,均可以准确快速的识别出该用户是否为首次激活用户,为分配用户ID提供了准确依据。
对应上述的用户识别方法,本申请实施例还提供了一种用户识别装置,图3为本申请实施例提供的用户识别装置的第一种模块示意图,如图3所示,该装置包括:
样本确定模块31,用于选取针对特定应用程序的历史激活数据作为样本数据,其中,每条所述历史激活数据均包括与用户的终端设备相关的标识信息;
数据筛选模块32,用于对所述样本数据进行分析,确定出所述特定应用程序的首次激活用户对应的历史激活数据,以及,所述特定应用程序的多次激活用户对应的历史激活数据;
模型训练模块33,用于根据所述首次激活用户对应的历史激活数据以及所述多次激活用户对应的历史激活数据,采用机器学习算法,训练用户识别模型;
用户识别模块34,用于利用训练好的所述用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定所述待识别用户是否为针对所述特定应用程序的首次激活用户。
可选地,每项所述标识信息均具有各自对应的权重;
所述数据筛选模块32具体用于:
在所述样本数据中,将包括的多项所述标识信息中,取值没有重复出现的标识信息的权重之和满足第一权重要求的历史激活数据,确定为所述特定应用程序的首次激活用户对应的历史激活数据,以及,取值重复出现的标识信息的权重之和满足第二权重要求的历史激活数据,确定为所述特定应用程序的多次激活用户对应的历史激活数据。
可选地,每条所述历史激活数据均至少包括安卓设备唯一标识码和谷歌广告ID;
所述数据筛选模块32进一步具体用于:
在所述样本数据中,将包括的安卓设备唯一标识码和谷歌广告ID均没有重复出现的历史激活数据,以及,包括的安卓设备唯一标识码和谷歌广告ID中的至少一项没有重复出现,且对应的其他标识信息至少两项没有重复出现的历史激活数据,确定为所述首次激活用户对应的历史激活数据;
在所述样本数据中,将包括的安卓设备唯一标识码和谷歌广告ID均重复出现的历史激活数据,以及,包括的安卓设备唯一标识码和谷歌广告ID中的至少一项重复出现,且对应的其他标识信息至少一项重复出现的历史激活数据,确定为所述多次激活用户对应的历史激活数据。
可选地,上述用户识别模块34具体用于:
利用训练好的所述用户识别模型,根据待识别用户针对所述特定应用程序的激活数据,确定所述待识别用户为所述首次激活用户的概率值;
若所述概率值大于预设概率值,且本地数据库或远程数据库中预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求,则确定所述待识别用户为针对所述特定应用程序的首次激活用户。
可选地,该装置还包括:
第一图像匹配模块,用于获取所述待识别用户的终端设备中,由所述终端设备的前置摄像头拍摄的图像;若本地数据库或远程数据库中未存储有获取的所述图像,则确定所述预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求;
或者,
第二图像匹配模块,用于获取所述待识别用户的终端设备中存储的图像;若本地数据库或远程数据库中预先存储有获取的所述图像,且存储的数量占获取的所述图像的数量的比例低于预设比例阈值,则确定所述预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求。
图4为本申请实施例提供的用户识别装置的第二种模块示意图,如图4所示,该装置还包括:
模型检测模块41,用于在利用训练好的所述用户识别模型,根据待识别用户针对所述特定应用程序的激活数据,确定所述待识别用户是否为针对所述特定应用程序的首次激活用户之前,检测所述用户识别模型的误识率和拒识率;
模型调整模块42,用于若所述用户识别模型的误识率或拒识率高于对应的预设阈值,则调整所述用户识别模型的模型参数,并重复训练所述用户识别模型,直至所述用户识别模型的误识率和拒识率均低于对应的所述预设阈值。
通过本申请实施例中的用户识别装置,能够从用户识别模型、预先存储的图像与待识别用户的终端设备中的图像的匹配度两方面,准确识别用户是否为特定应用程序的首次激活用户,从而避免为同一用户重复分配用户ID。利用机器学习模型进行用户识别,具有识别速度快,准确率高的优点。将图像之间的匹配度作为判定首次激活用户的依据之一,能够利用图像匹配算法成熟、运算方式多样的特点,灵活准确地确定待识别用户是否为特定应用程序的首次激活用户。
进一步地,基于上述的用户识别方法,本申请实施例还提供了一种用户识别设备,图5为本申请实施例提供的用户识别设备的结构示意图。
如图5所示,用户识别设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器701和存储器702,存储器702中可以存储有一个或一个以上存储应用程序或数据。其中,存储器702可以是短暂存储或持久存储。存储在存储器702的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对用户识别设备中的一系列计算机可执行指令。更进一步地,处理器701可以设置为与存储器702通信,在用户识别设备上执行存储器702中的一系列计算机可执行指令。用户识别设备还可以包括一个或一个以上电源703,一个或一个以上有线或无线网络接口704,一个或一个以上输入输出接口705,一个或一个以上键盘706等。
在一个具体的实施例中,用户识别设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对用户识别设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
选取针对特定应用程序的历史激活数据作为样本数据,其中,每条所述历史激活数据均包括与用户的终端设备相关的标识信息;
对所述样本数据进行分析,确定出所述特定应用程序的首次激活用户对应的历史激活数据,以及,所述特定应用程序的多次激活用户对应的历史激活数据;
根据所述首次激活用户对应的历史激活数据以及所述多次激活用户对应的历史激活数据,采用机器学习算法,训练用户识别模型;
利用训练好的所述用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定所述待识别用户是否为针对所述特定应用程序的首次激活用户。
可选地,计算机可执行指令在被执行时,每项所述标识信息均具有各自对应的权重;则确定出所述特定应用程序的首次激活用户对应的历史激活数据,以及,所述特定应用程序的多次激活用户对应的历史激活数据,包括:
在所述样本数据中,将包括的多项所述标识信息中,取值没有重复出现的标识信息的权重之和满足第一权重要求的历史激活数据,确定为所述特定应用程序的首次激活用户对应的历史激活数据,以及,取值重复出现的标识信息的权重之和满足第二权重要求的历史激活数据,确定为所述特定应用程序的多次激活用户对应的历史激活数据。
可选地,计算机可执行指令在被执行时,每条所述历史激活数据均至少包括安卓设备唯一标识码和谷歌广告ID;
所述确定为所述特定应用程序的首次激活用户对应的历史激活数据,包括:
在所述样本数据中,将包括的安卓设备唯一标识码和谷歌广告ID均没有重复出现的历史激活数据,以及,包括的安卓设备唯一标识码和谷歌广告ID中的至少一项没有重复出现,且对应的其他标识信息至少两项没有重复出现的历史激活数据,确定为所述首次激活用户对应的历史激活数据;
所述确定为所述特定应用程序的多次激活用户对应的历史激活数据,包括:
在所述样本数据中,将包括的安卓设备唯一标识码和谷歌广告ID均重复出现的历史激活数据,以及,包括的安卓设备唯一标识码和谷歌广告ID中的至少一项重复出现,且对应的其他标识信息至少一项重复出现的历史激活数据,确定为所述多次激活用户对应的历史激活数据。
可选地,计算机可执行指令在被执行时,所述确定所述待识别用户是否为针对所述特定应用程序的首次激活用户,包括:
利用训练好的所述用户识别模型,根据待识别用户针对所述特定应用程序的激活数据,确定所述待识别用户为所述首次激活用户的概率值;
若所述概率值大于预设概率值,且本地数据库或远程数据库中预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求,则确定所述待识别用户为针对所述特定应用程序的首次激活用户。
可选地,计算机可执行指令在被执行时,还包括:
获取所述待识别用户的终端设备中,由所述终端设备的前置摄像头拍摄的图像;若本地数据库或远程数据库中未存储有获取的所述图像,则确定所述预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求;
或者,
获取所述待识别用户的终端设备中存储的图像;若本地数据库或远程数据库中预先存储有获取的所述图像,且存储的数量占获取的所述图像的数量的比例低于预设比例阈值,则确定所述预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求。
可选地,计算机可执行指令在被执行时,还包括:
检测所述用户识别模型的误识率和拒识率;
若所述用户识别模型的误识率或拒识率高于对应的预设阈值,则调整所述用户识别模型的模型参数,并重复训练所述用户识别模型,直至所述用户识别模型的误识率和拒识率均低于对应的所述预设阈值。
通过本申请实施例中的用户识别设备,能够从用户识别模型、预先存储的图像与待识别用户的终端设备中的图像的匹配度两方面,准确识别用户是否为特定应用程序的首次激活用户,从而避免为同一用户重复分配用户ID。利用机器学习模型进行用户识别,具有识别速度快,准确率高的优点。将图像之间的匹配度作为判定首次激活用户的依据之一,能够利用图像匹配算法成熟、运算方式多样的特点,灵活准确地确定待识别用户是否为特定应用程序的首次激活用户。
进一步地,基于上述的用户识别方法,本申请实施例还提供了一种存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
选取针对特定应用程序的历史激活数据作为样本数据,其中,每条所述历史激活数据均包括与用户的终端设备相关的标识信息;
对所述样本数据进行分析,确定出所述特定应用程序的首次激活用户对应的历史激活数据,以及,所述特定应用程序的多次激活用户对应的历史激活数据;
根据所述首次激活用户对应的历史激活数据以及所述多次激活用户对应的历史激活数据,采用机器学习算法,训练用户识别模型;
利用训练好的所述用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定所述待识别用户是否为针对所述特定应用程序的首次激活用户。
可选地,该存储介质存储的计算机可执行指令在被执行时,每项所述标识信息均具有各自对应的权重;则确定出所述特定应用程序的首次激活用户对应的历史激活数据,以及,所述特定应用程序的多次激活用户对应的历史激活数据,包括:
在所述样本数据中,将包括的多项所述标识信息中,取值没有重复出现的标识信息的权重之和满足第一权重要求的历史激活数据,确定为所述特定应用程序的首次激活用户对应的历史激活数据,以及,取值重复出现的标识信息的权重之和满足第二权重要求的历史激活数据,确定为所述特定应用程序的多次激活用户对应的历史激活数据。
可选地,该存储介质存储的计算机可执行指令在被执行时,每条所述历史激活数据均至少包括安卓设备唯一标识码和谷歌广告ID;
所述确定为所述特定应用程序的首次激活用户对应的历史激活数据,包括:
在所述样本数据中,将包括的安卓设备唯一标识码和谷歌广告ID均没有重复出现的历史激活数据,以及,包括的安卓设备唯一标识码和谷歌广告ID中的至少一项没有重复出现,且对应的其他标识信息至少两项没有重复出现的历史激活数据,确定为所述首次激活用户对应的历史激活数据;
所述确定为所述特定应用程序的多次激活用户对应的历史激活数据,包括:
在所述样本数据中,将包括的安卓设备唯一标识码和谷歌广告ID均重复出现的历史激活数据,以及,包括的安卓设备唯一标识码和谷歌广告ID中的至少一项重复出现,且对应的其他标识信息至少一项重复出现的历史激活数据,确定为所述多次激活用户对应的历史激活数据。
可选地,该存储介质存储的计算机可执行指令在被执行时,所述确定所述待识别用户是否为针对所述特定应用程序的首次激活用户,包括:
利用训练好的所述用户识别模型,根据待识别用户针对所述特定应用程序的激活数据,确定所述待识别用户为所述首次激活用户的概率值;
若所述概率值大于预设概率值,且本地数据库或远程数据库中预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求,则确定所述待识别用户为针对所述特定应用程序的首次激活用户。
可选地,该存储介质存储的计算机可执行指令在被执行时,还包括:
获取所述待识别用户的终端设备中,由所述终端设备的前置摄像头拍摄的图像;若本地数据库或远程数据库中未存储有获取的所述图像,则确定所述预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求;
或者,
获取所述待识别用户的终端设备中存储的图像;若本地数据库或远程数据库中预先存储有获取的所述图像,且存储的数量占获取的所述图像的数量的比例低于预设比例阈值,则确定所述预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求。
可选地,该存储介质存储的计算机可执行指令在被执行时,还包括:
检测所述用户识别模型的误识率和拒识率;
若所述用户识别模型的误识率或拒识率高于对应的预设阈值,则调整所述用户识别模型的模型参数,并重复训练所述用户识别模型,直至所述用户识别模型的误识率和拒识率均低于对应的所述预设阈值。
通过本申请实施例中的存储介质,能够从用户识别模型、预先存储的图像与待识别用户的终端设备中的图像的匹配度两方面,准确识别用户是否为特定应用程序的首次激活用户,从而避免为同一用户重复分配用户ID。利用机器学习模型进行用户识别,具有识别速度快,准确率高的优点。将图像之间的匹配度作为判定首次激活用户的依据之一,能够利用图像匹配算法成熟、运算方式多样的特点,灵活准确地确定待识别用户是否为特定应用程序的首次激活用户。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种用户识别方法,其特征在于,包括:
选取针对特定应用程序的历史激活数据作为样本数据,其中,每条所述历史激活数据均包括与用户的终端设备相关的标识信息;
对所述样本数据进行分析,确定出所述特定应用程序的首次激活用户对应的历史激活数据,以及,所述特定应用程序的多次激活用户对应的历史激活数据;
根据所述首次激活用户对应的历史激活数据以及所述多次激活用户对应的历史激活数据,采用机器学习算法,训练用户识别模型;
利用训练好的所述用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定所述待识别用户是否为针对所述特定应用程序的首次激活用户。
2.根据权利要求1所述的方法,其特征在于,每项所述标识信息均具有各自对应的权重;则确定出所述特定应用程序的首次激活用户对应的历史激活数据,以及,所述特定应用程序的多次激活用户对应的历史激活数据,包括:
在所述样本数据中,将包括的多项所述标识信息中,取值没有重复出现的标识信息的权重之和满足第一权重要求的历史激活数据,确定为所述特定应用程序的首次激活用户对应的历史激活数据,以及,取值重复出现的标识信息的权重之和满足第二权重要求的历史激活数据,确定为所述特定应用程序的多次激活用户对应的历史激活数据。
3.根据权利要求2所述的方法,其特征在于,每条所述历史激活数据均至少包括安卓设备唯一标识码和谷歌广告ID;
所述确定为所述特定应用程序的首次激活用户对应的历史激活数据,包括:
在所述样本数据中,将包括的安卓设备唯一标识码和谷歌广告ID均没有重复出现的历史激活数据,以及,包括的安卓设备唯一标识码和谷歌广告ID中的至少一项没有重复出现,且对应的其他标识信息至少两项没有重复出现的历史激活数据,确定为所述首次激活用户对应的历史激活数据;
所述确定为所述特定应用程序的多次激活用户对应的历史激活数据,包括:
在所述样本数据中,将包括的安卓设备唯一标识码和谷歌广告ID均重复出现的历史激活数据,以及,包括的安卓设备唯一标识码和谷歌广告ID中的至少一项重复出现,且对应的其他标识信息至少一项重复出现的历史激活数据,确定为所述多次激活用户对应的历史激活数据。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述确定所述待识别用户是否为针对所述特定应用程序的首次激活用户,包括:
利用训练好的所述用户识别模型,根据待识别用户针对所述特定应用程序的激活数据,确定所述待识别用户为所述首次激活用户的概率值;
若所述概率值大于预设概率值,且本地数据库或远程数据库中预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求,则确定所述待识别用户为针对所述特定应用程序的首次激活用户。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取所述待识别用户的终端设备中,由所述终端设备的前置摄像头拍摄的图像;若本地数据库或远程数据库中未存储有获取的所述图像,则确定所述预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求;
或者,
获取所述待识别用户的终端设备中存储的图像;若本地数据库或远程数据库中预先存储有获取的所述图像,且存储的数量占获取的所述图像的数量的比例低于预设比例阈值,则确定所述预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
检测所述用户识别模型的误识率和拒识率;
若所述用户识别模型的误识率或拒识率高于对应的预设阈值,则调整所述用户识别模型的模型参数,并重复训练所述用户识别模型,直至所述用户识别模型的误识率和拒识率均低于对应的所述预设阈值。
7.一种用户识别装置,其特征在于,包括:
样本确定模块,用于选取针对特定应用程序的历史激活数据作为样本数据,其中,每条所述历史激活数据均包括与用户的终端设备相关的标识信息;
数据筛选模块,用于对所述样本数据进行分析,确定出所述特定应用程序的首次激活用户对应的历史激活数据,以及,所述特定应用程序的多次激活用户对应的历史激活数据;
模型训练模块,用于根据所述首次激活用户对应的历史激活数据以及所述多次激活用户对应的历史激活数据,采用机器学习算法,训练用户识别模型;
用户识别模块,用于利用训练好的所述用户识别模型,以及本地数据库或远程数据库中预先存储的图像与待识别用户的终端设备中的图像的匹配度,确定所述待识别用户是否为针对所述特定应用程序的首次激活用户。
8.根据权利要求7所述的装置,其特征在于,每项所述标识信息均具有各自对应的权重;
所述数据筛选模块具体用于:
在所述样本数据中,将包括的多项所述标识信息中,取值没有重复出现的标识信息的权重之和满足第一权重要求的历史激活数据,确定为所述特定应用程序的首次激活用户对应的历史激活数据,以及,取值重复出现的标识信息的权重之和满足第二权重要求的历史激活数据,确定为所述特定应用程序的多次激活用户对应的历史激活数据。
9.根据权利要求7或8所述的装置,其特征在于,所述用户识别模块具体用于:
利用训练好的所述用户识别模型,根据待识别用户针对所述特定应用程序的激活数据,确定所述待识别用户为所述首次激活用户的概率值;
若所述概率值大于预设概率值,且本地数据库或远程数据库中预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求,则确定所述待识别用户为针对所述特定应用程序的首次激活用户。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第一图像匹配模块,用于获取所述待识别用户的终端设备中,由所述终端设备的前置摄像头拍摄的图像;若本地数据库或远程数据库中未存储有获取的所述图像,则确定所述预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求;
或者,
第二图像匹配模块,用于获取所述待识别用户的终端设备中存储的图像;若本地数据库或远程数据库中预先存储有获取的所述图像,且存储的数量占获取的所述图像的数量的比例低于预设比例阈值,则确定所述预先存储的图像与所述待识别用户的终端设备中的图像的匹配度不满足预设匹配度要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711047080.6A CN107730364A (zh) | 2017-10-31 | 2017-10-31 | 用户识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711047080.6A CN107730364A (zh) | 2017-10-31 | 2017-10-31 | 用户识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107730364A true CN107730364A (zh) | 2018-02-23 |
Family
ID=61203552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711047080.6A Pending CN107730364A (zh) | 2017-10-31 | 2017-10-31 | 用户识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107730364A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070857A (zh) * | 2019-04-25 | 2019-07-30 | 北京梧桐车联科技有限责任公司 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
CN110992096A (zh) * | 2019-12-03 | 2020-04-10 | 秒针信息技术有限公司 | 预测模型训练方法、装置以及媒体标识预测方法及装置 |
CN111316321A (zh) * | 2018-05-15 | 2020-06-19 | 合刃科技(武汉)有限公司 | 物体识别装置 |
Citations (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1859725A (zh) * | 2005-06-16 | 2006-11-08 | 华为技术有限公司 | 进行分离非激活用户的方法 |
CN101365219A (zh) * | 2007-08-09 | 2009-02-11 | 展讯通信(上海)有限公司 | 一种手机注册方法及手机端处理方法和网络侧处理方法 |
CN102768659A (zh) * | 2011-05-03 | 2012-11-07 | 阿里巴巴集团控股有限公司 | 重复账号自动识别方法和系统 |
CN102930193A (zh) * | 2012-09-19 | 2013-02-13 | 东莞中山大学研究院 | 一种基于人脸识别的社区登陆实现方法 |
CN102932325A (zh) * | 2011-09-16 | 2013-02-13 | 斯凯普公司 | 应用程序的注册用户 |
CN103118043A (zh) * | 2011-11-16 | 2013-05-22 | 阿里巴巴集团控股有限公司 | 一种用户账号的识别方法及设备 |
CN103118358A (zh) * | 2012-11-16 | 2013-05-22 | 佳都新太科技股份有限公司 | 一种唯一识别手机用户注册方法 |
CN103259795A (zh) * | 2013-05-14 | 2013-08-21 | 百度在线网络技术(北京)有限公司 | 执行自动注册登录的方法、移动终端以及服务器 |
CN103514694A (zh) * | 2013-09-09 | 2014-01-15 | 重庆邮电大学 | 一种入侵检测监控系统 |
CN103544552A (zh) * | 2012-07-09 | 2014-01-29 | 上海博路信息技术有限公司 | 一种基于指纹的会员卡系统 |
CN103853948A (zh) * | 2012-11-28 | 2014-06-11 | 阿里巴巴集团控股有限公司 | 用户身份的识别、信息的过滤及搜索方法和服务器 |
CN103942475A (zh) * | 2013-01-23 | 2014-07-23 | 三星电子株式会社 | 用户终端和用于在用户终端中识别用户的图像处理方法 |
CN104144419A (zh) * | 2014-01-24 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种身份验证的方法、装置及系统 |
CN104239416A (zh) * | 2014-08-19 | 2014-12-24 | 北京奇艺世纪科技有限公司 | 一种用户识别方法和系统 |
US20150089396A1 (en) * | 2013-09-25 | 2015-03-26 | Kairos Social Solutions, Inc. | Device, System, and Method of Identifying a specific user from a profile image containing multiple people |
CN104572766A (zh) * | 2013-10-25 | 2015-04-29 | 华为技术有限公司 | 一种社交网络的用户状态识别方法及装置 |
CN104660595A (zh) * | 2015-02-10 | 2015-05-27 | 重庆善生缘科技有限公司 | 一种app快速注册及执行方法 |
CN105279675A (zh) * | 2015-10-20 | 2016-01-27 | 惠州Tcl移动通信有限公司 | 移动终端及其广告投放方法 |
CN105337997A (zh) * | 2015-11-30 | 2016-02-17 | 广州华多网络科技有限公司 | 一种应用客户端的登录方法及相关设备 |
CN105426497A (zh) * | 2015-11-24 | 2016-03-23 | 上海斐讯数据通信技术有限公司 | 一种智能终端相册的自动分类方法及系统 |
CN105471886A (zh) * | 2015-12-23 | 2016-04-06 | 东软集团股份有限公司 | 一种用户身份识别方法及装置 |
CN105760736A (zh) * | 2016-02-19 | 2016-07-13 | 北京奇虎科技有限公司 | 应用程序解锁的方法及解锁装置 |
CN105828322A (zh) * | 2015-01-04 | 2016-08-03 | 中国移动通信集团辽宁有限公司 | 一种用户登录的方法、移动终端及安全中心 |
CN106022826A (zh) * | 2016-05-18 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种网络直播平台中的作弊用户识别方法与系统 |
CN106470204A (zh) * | 2015-08-21 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 基于请求行为特征的用户识别方法、装置、设备及系统 |
CN106570370A (zh) * | 2016-03-18 | 2017-04-19 | 深圳市全智达科技有限公司 | 一种用户身份识别方法及装置 |
CN106682578A (zh) * | 2016-11-21 | 2017-05-17 | 北京交通大学 | 基于眨眼检测的人脸识别方法 |
CN106777024A (zh) * | 2016-12-08 | 2017-05-31 | 北京小米移动软件有限公司 | 识别恶意用户的方法及装置 |
CN106777007A (zh) * | 2016-12-07 | 2017-05-31 | 北京奇虎科技有限公司 | 相册分类优化方法、装置及移动终端 |
-
2017
- 2017-10-31 CN CN201711047080.6A patent/CN107730364A/zh active Pending
Patent Citations (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1859725A (zh) * | 2005-06-16 | 2006-11-08 | 华为技术有限公司 | 进行分离非激活用户的方法 |
CN101365219A (zh) * | 2007-08-09 | 2009-02-11 | 展讯通信(上海)有限公司 | 一种手机注册方法及手机端处理方法和网络侧处理方法 |
CN102768659A (zh) * | 2011-05-03 | 2012-11-07 | 阿里巴巴集团控股有限公司 | 重复账号自动识别方法和系统 |
CN102932325A (zh) * | 2011-09-16 | 2013-02-13 | 斯凯普公司 | 应用程序的注册用户 |
CN103118043A (zh) * | 2011-11-16 | 2013-05-22 | 阿里巴巴集团控股有限公司 | 一种用户账号的识别方法及设备 |
CN103544552A (zh) * | 2012-07-09 | 2014-01-29 | 上海博路信息技术有限公司 | 一种基于指纹的会员卡系统 |
CN102930193A (zh) * | 2012-09-19 | 2013-02-13 | 东莞中山大学研究院 | 一种基于人脸识别的社区登陆实现方法 |
CN103118358A (zh) * | 2012-11-16 | 2013-05-22 | 佳都新太科技股份有限公司 | 一种唯一识别手机用户注册方法 |
CN103853948A (zh) * | 2012-11-28 | 2014-06-11 | 阿里巴巴集团控股有限公司 | 用户身份的识别、信息的过滤及搜索方法和服务器 |
CN103942475A (zh) * | 2013-01-23 | 2014-07-23 | 三星电子株式会社 | 用户终端和用于在用户终端中识别用户的图像处理方法 |
CN103259795A (zh) * | 2013-05-14 | 2013-08-21 | 百度在线网络技术(北京)有限公司 | 执行自动注册登录的方法、移动终端以及服务器 |
CN103514694A (zh) * | 2013-09-09 | 2014-01-15 | 重庆邮电大学 | 一种入侵检测监控系统 |
US20150089396A1 (en) * | 2013-09-25 | 2015-03-26 | Kairos Social Solutions, Inc. | Device, System, and Method of Identifying a specific user from a profile image containing multiple people |
CN104572766A (zh) * | 2013-10-25 | 2015-04-29 | 华为技术有限公司 | 一种社交网络的用户状态识别方法及装置 |
CN104144419A (zh) * | 2014-01-24 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种身份验证的方法、装置及系统 |
CN104239416A (zh) * | 2014-08-19 | 2014-12-24 | 北京奇艺世纪科技有限公司 | 一种用户识别方法和系统 |
CN105828322A (zh) * | 2015-01-04 | 2016-08-03 | 中国移动通信集团辽宁有限公司 | 一种用户登录的方法、移动终端及安全中心 |
CN104660595A (zh) * | 2015-02-10 | 2015-05-27 | 重庆善生缘科技有限公司 | 一种app快速注册及执行方法 |
CN106470204A (zh) * | 2015-08-21 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 基于请求行为特征的用户识别方法、装置、设备及系统 |
CN105279675A (zh) * | 2015-10-20 | 2016-01-27 | 惠州Tcl移动通信有限公司 | 移动终端及其广告投放方法 |
CN105426497A (zh) * | 2015-11-24 | 2016-03-23 | 上海斐讯数据通信技术有限公司 | 一种智能终端相册的自动分类方法及系统 |
CN105337997A (zh) * | 2015-11-30 | 2016-02-17 | 广州华多网络科技有限公司 | 一种应用客户端的登录方法及相关设备 |
CN105471886A (zh) * | 2015-12-23 | 2016-04-06 | 东软集团股份有限公司 | 一种用户身份识别方法及装置 |
CN105760736A (zh) * | 2016-02-19 | 2016-07-13 | 北京奇虎科技有限公司 | 应用程序解锁的方法及解锁装置 |
CN106570370A (zh) * | 2016-03-18 | 2017-04-19 | 深圳市全智达科技有限公司 | 一种用户身份识别方法及装置 |
CN106022826A (zh) * | 2016-05-18 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种网络直播平台中的作弊用户识别方法与系统 |
CN106682578A (zh) * | 2016-11-21 | 2017-05-17 | 北京交通大学 | 基于眨眼检测的人脸识别方法 |
CN106777007A (zh) * | 2016-12-07 | 2017-05-31 | 北京奇虎科技有限公司 | 相册分类优化方法、装置及移动终端 |
CN106777024A (zh) * | 2016-12-08 | 2017-05-31 | 北京小米移动软件有限公司 | 识别恶意用户的方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111316321A (zh) * | 2018-05-15 | 2020-06-19 | 合刃科技(武汉)有限公司 | 物体识别装置 |
CN110070857A (zh) * | 2019-04-25 | 2019-07-30 | 北京梧桐车联科技有限责任公司 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
CN110070857B (zh) * | 2019-04-25 | 2021-11-23 | 北京梧桐车联科技有限责任公司 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
CN110992096A (zh) * | 2019-12-03 | 2020-04-10 | 秒针信息技术有限公司 | 预测模型训练方法、装置以及媒体标识预测方法及装置 |
CN110992096B (zh) * | 2019-12-03 | 2023-08-29 | 秒针信息技术有限公司 | 预测模型训练方法、装置以及媒体标识预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294508B (zh) | 一种刷量工具检测方法及装置 | |
CN112107866A (zh) | 用户行为数据处理方法、装置、设备及存储介质 | |
CN111260220B (zh) | 群控设备识别方法、装置、电子设备和存储介质 | |
CN107240029B (zh) | 一种数据处理方法及装置 | |
CN110288085B (zh) | 一种数据处理方法、装置、系统及存储介质 | |
CN107730364A (zh) | 用户识别方法及装置 | |
CN110033302A (zh) | 恶意账户识别方法及装置 | |
CN112668632B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN109815298B (zh) | 一种人物关系网确定方法、装置及存储介质 | |
CN109933610B (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN111127185A (zh) | 信贷欺诈识别模型构建方法及装置 | |
US10853829B2 (en) | Association method, and non-transitory computer-readable storage medium | |
CN110909263B (zh) | 一种身份特征的伴随关系确定方法及装置 | |
CN111507268A (zh) | 报警方法及装置、存储介质和电子装置 | |
CN109886239B (zh) | 人像聚类方法、装置及系统 | |
CN110569509A (zh) | 一种风险团伙识别的方法及装置 | |
CN110033276A (zh) | 一种针对转账的安全策略生成方法、装置及设备 | |
CN106791648B (zh) | 一种监控视频分析方法及装置 | |
CN112905987B (zh) | 账号识别方法、装置、服务器及存储介质 | |
CN109587248B (zh) | 用户识别方法、装置、服务器及存储介质 | |
CN110610164A (zh) | 人脸图像处理方法、系统、服务器及可读存储介质 | |
CN115578765A (zh) | 目标识别方法、装置、系统及计算机可读存储介质 | |
CN113762382B (zh) | 模型的训练及场景识别方法、装置、设备及介质 | |
CN111651249B (zh) | 任务分配方法、装置、可读存储介质和电子设备 | |
CN111274488B (zh) | 推荐方法、装置、设备、系统、待执行终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180223 |
|
RJ01 | Rejection of invention patent application after publication |