CN110348742A

CN110348742A - 用户数据采集方法、装置、电子设备及存储介质

Info

Publication number: CN110348742A
Application number: CN201910631728.7A
Authority: CN
Inventors: 颜飞华; 和会荣
Original assignee: Shenzhen Zhongyi Weirong Technology Co Ltd
Current assignee: Jianlian Technology (Guangdong) Co.,Ltd.
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-10-18

Abstract

本公开实施例公开了一种用户数据采集方法、装置、电子设备及存储介质。其中，该方法包括：获取向第一机器学习模型输入的全部变量；对所述全部变量进行变量分析，确定各变量之间的相似度和/或每个变量对所述第一机器学习模型的影响程度；根据所述相似度和/或所述影响程度筛选所述全部变量，得到所述第一机器学习模型的关键变量集合；将所述关键变量集合逆映射为用户数据采集项集合，根据所述用户数据采集项集合生成用户数据采集建议。

Description

用户数据采集方法、装置、电子设备及存储介质

技术领域

本公开涉及大数据挖掘领域，具体涉及一种用户数据采集方法、装置、电子设备及存储介质。

背景技术

互联网和通信技术的飞速发展给整个社会的生产和生活带来了难以想象的便利，但同时也由于互联网的开放与自由，使得生活中的各种不良现象在互联网中也得到了放大，对日常生活造成了很多负面影响。典型地，原本在日常社交中较少能接触到的营销或诈骗等行为，通过互联网和电信技术被无限放大和推广，已对大多数人的正常生活造成了严重影响。

现有技术中，平台或服务提供方一般通过用户填报和/或系统采集的个人信息来审核识别，以排除高风险的不可靠用户。某些方案中还进一步利用人工智能对采集的数据进行识别来达到反欺诈的目的，例如通过性别、年龄、工作时间、常住城市等相关信息来建立用户行为数据库，通过采集尽可能多的用户数据来核查用户的行为是否存在欺诈。

然而，发明人在实现本公开实施例相关技术方案的过程中发现，现有技术至少存在以下问题：在具体的采集数据过程中，不同的服务提供方可能根据自身的习惯和关注点来采集数据，众多服务方并没有统一的固定模式，这给用户和第三方平台的操作和数据利用带来了极大的不便。一方面，对于合法用户来说，由于不同的服务方需要提供不同的信息，为了确保通过审核获取相关服务，用户不得不准备所有个人信息并将其通过互联网提供给多个服务方，这显然对用户极度不友好且极易侵犯个人隐私；另一方面，对于第三方平台来说，为了帮助大量用户和大量服务之间的相互匹配并尽量防范风险，需要尽快掌握对双方来说最关键的信息，现有方式增大了第三方平台整理、识别和管理关键数据的难度，明显降低了有效服务发现和匹配的效率。

概括而言，现有技术只能通过采集尽可能多的用户数据和设计关系繁杂的系统来进行尽可能全面的分析和审核，这给系统的稳定性和可靠性均带来了极大压力，同时用户体验较差，总体效率较低。

发明内容

针对现有技术中的上述技术问题，本公开实施例提出了一种用户数据采集方法、装置、电子设备及计算机可读存储介质，以解决现有技术中无法有效控制数据采集范围的问题。

本公开实施例的第一方面提供了一种用户数据采集方法，包括：

获取向第一机器学习模型输入的全部变量；

对所述全部变量进行变量分析，确定各变量之间的相似度和/或每个变量对所述第一机器学习模型的影响程度；

根据所述相似度和/或所述影响程度筛选所述全部变量，得到所述第一机器学习模型的关键变量集合；

将所述关键变量集合逆映射为用户数据采集项集合，根据所述用户数据采集项集合生成用户数据采集建议。

在一些实施例中，对所述全部变量进行变量分析确定各变量之间的相似度包括：将每一变量在不同时段和/或不同任务中采集的用户信息组合成所述变量的用户变量序列；根据所述用户变量序列计算任意两个变量之间的相似度。

在一些实施例中，根据所述相似度筛选所述全部变量得到所述第一机器学习模型的关键变量集合包括：根据所述相似度对所述全部变量进行聚类，得到多个等同变量集合；从每一等同变量集合中选取一个变量作为本集合的代表构建独立变量集，所述关键变量集合包括所述独立变量集。

在一些实施例中，对所述全部变量进行变量分析确定每个变量对所述第一机器学习模型的影响程度包括：通过敏感性分析和/或反向传播算法确定每一变量对所述第一机器学习模型输出结果的影响程度。

在一些实施例中，根据所述影响程度筛选所述全部变量得到所述第一机器学习模型的关键变量集合包括：根据所述影响程度的敏感度值确定高敏感度变量集，所述关键变量集合包括所述高敏感度变量集。

在一些实施例中，所述筛选所述全部变量包括：根据具体的业务需要而动态设置和/或调整筛选阈值来进行所述筛选。

本公开实施例的第二方面提供了一种用户数据采集装置，包括：

全变量获取模块，用于获取向第一机器学习模型输入的全部变量；

变量分析模块，用于对所述全部变量进行变量分析，确定各变量之间的相似度和/或每个变量对所述第一机器学习模型的影响程度；

变量筛选模块，用于根据所述相似度和/或所述影响程度筛选所述全部变量，得到所述第一机器学习模型的关键变量集合；

采集优化模块，用于将所述关键变量集合逆映射为用户数据采集项集合，根据所述用户数据采集项集合生成用户数据采集建议。

在一些实施例中，所述变量分析模块包括：序列组合模块，用于将每一变量在不同时段和/或不同任务中采集的用户信息组合成所述变量的用户变量序列；相似度计算模块，用于根据所述用户变量序列计算任意两个变量之间的相似度。

在一些实施例中，所述变量筛选模块包括：聚类模块，用于根据所述相似度对所述全部变量进行聚类，得到多个等同变量集合；独立变量选取模块，用于从每一等同变量集合中选取一个变量作为本集合的代表构建独立变量集，所述关键变量集合包括所述独立变量集。

在一些实施例中，所述变量分析模块包括：影响程度计算模块，用于通过敏感性分析和/或反向传播算法确定每一变量对所述第一机器学习模型输出结果的影响程度。

在一些实施例中，所述变量筛选模块包括：高敏感度变量选取模块，用于根据所述影响程度的敏感度值确定高敏感度变量集，所述关键变量集合包括所述高敏感度变量集。

在一些实施例中，所述变量筛选模块还包括：阈值设定模块，用于根据具体的业务需要而动态设置和/或调整筛选阈值来进行所述筛选。

本公开实施例的第三方面提供了一种电子设备，包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现如前述各实施例所述的方法。

本公开实施例的第四方面提供了一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现如前述各实施例所述的方法。

本公开实施例的第五方面提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，可用来实现如前述各实施例所述的方法。

本公开实施例的技术方案通过分析变量的相似度和/或变量对模型的影响程度，可自动对所有变量进行分析和筛选，从而确定与机器学习/人工智能模型最相关的变量，进而确定最精简、最有效和最容易采集的用户数据项，为用户数据的采集行为提出可靠且高效的优化建议，在降低数据采集和处理的复杂度同时仍可保证评估的准确性和保护用户隐私。

附图说明

通过参考附图会更加清楚的理解本公开的特征和优点，附图是示意性的而不应理解为对本公开进行任何限制，在附图中：

图1a和图1b是根据本公开的一些实施例所示的一种根据用户数据进行反欺诈识别的系统示意图；

图2是根据本公开的一些实施例所示的一种用户数据采集方法的流程示意图；

图3是根据本公开的一些实施例所示的一种用户数据采集装置的模块结构示意图；

图4是根据本公开的一些实施例所示的实现其功能的一种电子设备的结构示意图。

具体实施方式

在下面的详细描述中，通过示例阐述了本公开的许多具体细节，以便提供对相关披露的透彻理解。然而，对于本领域的普通技术人员来讲，本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是，本公开中使用“系统”、“装置”、“单元”和/或“模块”术语，是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而，如果其他表达式可以实现相同的目的，这些术语可以被其他表达式替换。

应当理解的是，当设备、单元或模块被称为“在......上”、“连接到”或“耦合到”另一设备、单元或模块时，其可以直接在另一设备、单元或模块上，连接或耦合到或与其他设备、单元或模块通信，或者可以存在中间设备、单元或模块，除非上下文明确提示例外情形。例如，本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。

本公开所用术语仅为了描述特定实施例，而非限制本公开范围。如本公开说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件，而该类表述并不构成一个排它性的罗列，其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。

参看下面的说明以及附图，本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本公开的保护范围。可以理解的是，附图并非按比例绘制。

本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是，前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。

现有的互联网服务很大程度上依赖大数据挖掘和分析，而有效的挖掘和分析对用户数据采集有很高的要求，但鉴于互联网服务方众多且关注点差异较大，需要的数据并没有统一固定的模式，想通过一两次数据采集就获取满足各个服务方需求的数据并不现实，现有技术只能通过要求用户提供全部个人信息来缓解数据需求压力。但一方面现有方式对用户体验和用户隐私都是种侵犯，很难得到用户的全面支持；另一方面全面的信息采集实际获取了大量的“无效”数据(对部分服务或用户而言)，增加了数据的采集和运算量级，造成系统负担和页面冗余；但同时任何试图减少采集的数据的行为又都有可能影响后期数据挖掘和分析模型的准确率，现有方式存在明显的两难境地。典型地，对于涉及到大额资金往来的互联网服务，对系统安全和风险防范的要求是第一位的，其中反欺诈识别是向用户和互联网服务方提供的一种典型的服务项目。目前互联网风险防范或反欺诈识别主要利用大数据来构建反欺诈模型进行识别，获取信息过多却无法为特定服务方提供有效信息对系统是项灾难，获取信息过少又有极大可能影响识别的准确性，因此亟需一种可准确判断数据有效性以便合理进行数据采集的方案。

在本公开的实施例中，提供了一种信息关联性识别方案，通过对相关性很强的用户数据进行归并，最终找出相对独立的用户数据集，使采集的用户数据减少但包含的信息量不变，从而可以只采集必要但有效的数据来达到判决准确的效果，在保证数据有效性的同时缓解了数据采集压力。

具体地，如图1a所示，在本公开的一个实施例中，通过知识图谱和人工智能的结合来实现反欺诈识别。其中，不同的互联网服务方(此处以多家贷款公司A、B为例)将通过用户信息采集页面得到的用户数据项输入到第三方综合平台(此处以拉卡拉的鹊桥系统为例)。对于进入平台系统中的进项数据，将会被首先经过数据预处理、并存入知识图谱数据库中；该图谱数据库将存储大量关于金融业务的知识图谱数据，例如Spring Data Neo4J数据库。进一步，该金融进项数据会生成一个风控分析任务，该任务通过图查询的方式从图谱数据库中得到基于关系的数据，进而得到与该进项相关的关系数据。将这些关系数据输入至图谱数据提取模块，得到关系数据对应的评估变量。进一步，评估变量输入至一个反欺诈评估模型，完成反欺诈识别。其中欺诈识别评估模型可以基于机器学习的评估模型，例如该模型可以是基于决策树的GDBT模型或基于神经网络的深度模型。

但是，由于每个贷款公司采集数据的标准不同，造成了平台接收的数据纷繁复杂，既不便于数据处理又使平台很难兼顾所有服务方的需求，而一味通过采集尽可能多的用户数据来核查用户的行为是否存在欺诈也是一种低效的策略。为解决该问题，本公开的实施例进一步挖掘数据间的关联性，对平台系统进行了优化。具体地，进行反欺诈评估所使用的用户数据通常有两个特点：一是采集的用户数据间通常存在某种潜在的关系，不少数据之间存在彼此的依赖关系，另有一部分数据则相对独立；二是评估模型中所采用的变量一部分是评估判决所必需的，而另有一部分则对评估结果基本没有影响。由此可以看出用户数据的采集存在精简的可能，但由于各服务方对数据的需求和评估逻辑不同，目前很难快速发现数据间的依赖关系和各项数据对不同服务方的重要性，使得数据的采集不得不追求全面性和完备性，以避免关键数据的缺失给用户和服务方造成损失。

进一步参见图1b，在本公开的一个实施例中给出了一种数据采集系统的优化方案，在现有的平台系统中增加了变量分析模块、数据项提取模块和用户数据采集建议页面模块。其中，变量分析模块是对原有欺诈识别模型中的全部变量进行分析，找出对用户或者对系统有益的变量，比如独立变量或者敏感性变量，其中变量分析算法可以有很多种，本公开的实施例中采用聚类算法和敏感性分析算法作为示例说明，但是该示例显然不应理解为对方案实际可采用的算法的具体限制。数据项提取模块是对变量分析模块得到的相关变量进行相关逆映射，从而得到对应的用户数据项；用户数据采集建议页面是将数据项提取得到的用户数据项推荐给贷款公司等，为服务方采集数据提供指导意见，进一步优化数据采集效率。如图2所示，在本公开的一个实施例中，信息关联性识别方法包括步骤：

S201，获取向第一机器学习模型输入的全部变量；

S202，对所述全部变量进行变量分析，确定各变量之间的相似度和/或每个变量对所述第一机器学习模型的影响程度；

S203，根据所述相似度和/或所述影响程度筛选所述全部变量，得到所述第一机器学习模型的关键变量集合；

S204，将所述关键变量集合逆映射为用户数据采集项集合，根据所述用户数据采集项集合生成用户数据采集建议。

更进一步地，本公开通过几个具体的实施例来详细说明变量分析与筛选的实现过程。其中，在本公开的一个实施例中，示例性地说明了通过聚类算法实现对反欺诈模型的变量分析与筛选过程，该过程包括：

S301，对于向第一机器学习模型输入的每一变量，将其在不同时段和/或不同任务中采集的用户信息组合成所述变量的用户变量序列。

在本公开的实施例中，首先利用在先采集的信息进行变量提取，以拉卡拉鹰眼智能风控系统为例，通过现有的反欺诈识别模型获得该模型需要输入的a个变量(M₁，M₂，…，M_a)；对于每个变量M_i，在不同时间段或不同的金融进项采集b次信息(第k次采集信息表示为c_i(k)，也可理解为是用户k关于第i个变量的具体信息)，则任意两个变量M_i，M_j得到的用户变量序列c_i，c_j为：

c_i＝(c_i(1)，c_i(2)，…，c_i(b))，c_j＝(c_j(1)，c_j(2)，…，c_j(b))，i，j∈a。

其中，本公开实施例所说的第一机器学习模型优选指针对互联网安全的反欺诈识别模型；更优选地，该反欺诈识别模型通常适用于金融反欺诈领域，除非另做说明，金融反欺诈领域包括但不限于网络支付、网购运费险、网络借贷、供应链金融、网络营销、消费金融、手机银行、农业保险等金融领域等领域。本领域相关技术人员应能理解，本公开实施例中的方法和过程仅为示例性的，通过本公开的启发，显然可以将本公开实施例的方案延伸至其他领域。

S302，根据任意两个变量的相似度，对所有变量进行聚类。

其中，在本公开的一个实施例中，将优选采用聚类算法来详细说明本公开技术方案的实施过程，但是该优选实施例不应视作对本公开技术方案所采用算法的具体限制，事实上，本公开的技术方案并不仅局限于某种或某些算法来实现，例如显然也可采用神经网络自编码等算法来实施，故示例的算法不应视作对本公开技术方案实施方式的具体限制。具体地，所述聚类算法包括但不限于步骤：

S3021，对步骤S301中得到的每一用户变量序列进行始点零化像处理。

具体地，对于上述用户变量序列c_i，始点零化像处理后得到：

其中，

S3022，使用始点零化像处理后数据来计算任意两个变量之间的相似度。

具体地，对于任意两个变量M_i，M_j，其相似度d_ij有：

其中，

d_ij的值(d_ij∈[0，1])越大，说明这两个变量(用户数据)之间的相似度越高，即这两个变量中包含的信息重叠度越大，彼此之间存在一种依赖关系，在达到某种阈值的时候，认为变量M_i和变量M_j具有同类特征，可以归为一类。

S3023，确定变量聚类的临界相似度值。

其中，临界相似度值γ的设定直接关系到不同变量之间的归并；通常，γ越大归并后得到的变量越多，γ越小归并后得到的变量越少。比如将γ设为0.9时，即表示某两个变量间的相似度达到90％的时候才能认为这两个变量表达的信息是一致的，可以用其中的一个变量去表示这两个变量共同表达的信息。在本公开的优选实施例中，在反欺诈领域根据不同的业务类型可以设定不同的γ值，例如信贷业务等风险比较大的业务γ值可以设的比较大一些，相反，风险比较小的业务γ可设得小一些。具体的临界值/阈值设置可以根据经验、统计或机器学习的方式来设定和/或调整，在此不做具体的限制。

S3024，对所有变量进行聚类，根据等同变量的集合得到独立变量集。

其中，独立变量指变量间的相似度很低，彼此之间的依赖性很低，即变量所表达的信息之间“冗余”很低，无法与其他变量/变量集合等同的变量/变量集合。本公开的实施例中优选在每个等同变量集合中选取一个变量作为本集合的代表来构建独立变量集；独立变量通常意味着该用户数据的信息必须采集，否则无法通过其他数据进行推断。下面通过一个示例来描述如何根据全量变量来生成独立变量集。

在本公开的一个实施例中，假设输入反欺诈识别模型的有9个变量{M₁，M₂，M₃，M₄，M₅，M₆，M₇，M₈，M₉}，通过上述步骤计算两两变量间的相似度后得到变量相似度矩阵。以下表1为一个示例性的相似度矩阵：

表1相似度矩阵示例

进一步采用临界相似度值γ为0.9的设定，可以看出，M₁，M₅，M₈这三个变量之间的相似度均大于0.9，所以应将M₁，M₅，M₈这三个变量自动聚类(即归为同一类)；同理M₂，M₆这两个变量之间相似度大于0.9，应归为同一类；M₃，M₇，M₉这三个变量之间相似度均大于0.9，应归为同一类，M₄自成一类；最终本公开实施例中9个变量按相似度可归为4类。具体如下：

第1类：M₁，M₅，M₈；

第2类：M₂，M₆；

第3类：M₃，M₇，M₉；

第4类：M₄。

进一步地，对于用户数据采集来说，可以从这4类变量的每一类中选择一个比较容易获得的变量作为本类变量集的代表。例如都取每一类中第一个变量作为代表，从而得到独立变量集为{M₁，M₂，M₃，M₄}，即在相似度为0.9的情况下，{M₁，M₂，M₃，M₄}这四个变量包含的信息和原来9个变量{M₁，M₂，M₃，M₄，M₅，M₆，M₇，M₈，M₉}包含的信息基本是等价的，于是使用4个变量即可达到原先9个变量的评估结果，该方式显然大大的降低了数据采集的难度和系统处理数据的难度。

其中，由于临界相似度值γ的设定与业务的风险大小有一定关系，所以具体γ值的确定可以根据具体的业务需要而动态调整，比如，风险较大的业务γ可以自动设置为较大的数值，风险较小的业务γ可以自动设置为稍小的数值。

优选地，γ值的调整可以通过如下的方法来进行：首先按照现有的全部变量对某一项业务进行评估，得出全变量时的第一评估结果(可以为优秀、良好、差、高风险等级别描述，也可以是具体的评估分值)；随后通过预设的γ值得到当前γ值对应的独立变量集，然后使用当前独立变量集对同一项业务进行评估，得出当前独立变量集时的第二评估结果。如果两次的评估结果是一致的，则证明当前独立变量集可以替代原有的全量变量；如果两次评估结果不一致，则需要调整γ值的大小，直到使用两个变量集合得到的评估结果是一致的为止。

S303，将独立变量集通过逆映射算法映射为用户的数据采集项。

其中，前述步骤中得到的独立变量还不是直接对应用户采集的数据，因为在先的变量提取过程包括对图谱数据库中读出的关系型数据进行的不同类型的计算，使得变量与用户数据项并不直接对应。因而独立变量需要通过逆映射算法映射为用户的数据采集项，例如用户采集的某个(某几个)数据项X经过知识图谱模块处理后并经过计算提取为变量X′，那么本步骤数据项提取的功能就是将变量逆映射为用户数据项，即将X′映射为X，从而生成独立变量集对应的用户数据项集合。

S304，生成用户数据采集建议。

如前所述，不同服务方或不同的业务类型所采集的用户数据不同，为保证服务匹配的成功率，服务方不得不采集尽可能多的用户数据，用户在提供个人信息时也不得不将全部信息都填写在采集页面中。比如，现有技术中一个典型的用户数据采集项页面中可能包含了所有需要用户输入的数据项，诸如姓名、年龄、职业、单位、住址、年收入、月收入、学历、工作经历、甚至家庭情况、资产/负债情况等数据采集项，其中有不少数据对用户来说属于较为隐私的信息。而通过本公开实施例的技术方案，可以获得精简的用户数据采集项，从而可针对这些采集页面提出优化和/或填写建议。具体地，优化建议可以是删除、隐藏或合并部分页面项目，填写建议则可以是在页面中展示各个项目的重要程度。其中，展示可以是静态展示，也可以是动态展示(根据用户操作而动态出现)；重要程度可以必填项目说明、选择填写说明或填写依赖检查等，在此不做更具体的限制。通过这些操作，可以帮助采集页面确定选择重要数据集作为必选数据，起到了优化采集数据项的目的；如此一方面服务方可以降低页面冗余以及采集数据的难度，只要保证有必要的独立变量就可保证评估的准确性；另一方面用户也可充分了解哪些信息是无需提供的，从而降低隐私暴露的风险。

在本公开的另一个实施例中，还可采用敏感性分析算法来进行变量分析；上一实施例中的聚类算法主要依靠计算任意两变量间的相似度，本实施例中敏感性分析算法则主要来评估单个变量对结果的影响。具体地，在本公开实施例的方法中，信息关联性识别方法包括步骤：

S401，获取向第一机器学习模型输入的全部变量。

其中，仍以上一实施例中部分数据为例，比如以拉卡拉鹰眼智能风控系统为例，通过现有的反欺诈识别模型获得该模型需要输入的a个变量(M₁，M₂，…，M_a)。

S402，对每一变量通过敏感性分析确定所述变量对评估结果的影响程度。

具体地，敏感性分析是指从定量分析的角度研究有关因素发生某种变化对某一个或一组关键指标影响程度的一种不确定分析技术。其实质是通过逐一改变相关变量数值的方法来解释关键指标受这些因素变动影响大小的规律。在本公开的实施例中，对单个变量进行敏感性分析包括步骤：

S4021，在固定其它变量的条件下，变动任意一个第一变量，根据所述第一变量的变化和所述机器学习模型的输出变化来确定所述第一变量对所述机器学习模型的影响程度。

具体地，将所述第一机器学习模型的输出作为所述全部变量的函数结果，即将欺诈识别模型和变量之间的关系定义为函数f(M₁，M₂，…，M_a)，采用单因素敏感性方法来进行分析，当变动其中一个变量M_i时，该变量M_i的变化对评估结果的影响程度可通过敏感度值来得出：

其中，为敏感度值，(m₁，m₂，m_i…，m_a)为某一时刻变量M₁，M₂，…，M_a的取值，Δm_i为下一时刻变量M_i取值的一个增量。

值越大表示变量M_i对欺诈识别模型影响越大，可以为设一个阈值，当计算得到的值大于设定的阈值时认为该变量对评估结果的影响较大，为高敏感度变量，其中阈值的设定可以根据实际情况来确定，在本公开中不做更为具体的限定。另外，除了以上采用的公式算法以外，也可以通过反向传播算法来实现。

S4022，根据所述影响程度的敏感度值确定高敏感度变量集。

其中，对于计算得到的各个变量的敏感度值将值大于设定阈值的对应变量识别为高敏感度变量，从而得到高敏感度变量集合(M′₁，M′₂，…，M′_b)。

在得到高敏感度变量集后，后续通过逆映射算法映射为用户的数据采集项和生成用户数据采集建议的步骤与前一实施例基本相同，在此不再赘述。在本公开的这一实施例中，高敏感度变量即为对评估结果影响较大的变量(相应地，低敏感度变量即为对评估结果基本无影响的变量)，通过这些操作，可以帮助采集页面确定选择重要数据集作为必选数据(亦即不再采集不影响评估的数据)，从而也可优化采集数据项，降低数据采集和处理的复杂度，同时仍可保证评估的准确性和保护用户隐私。

以上是本公开提供的一种用户数据采集方法的具体实施方式，通过上述实施方式，本公开的实施例可自动对所有变量进行分析和筛选，从而确定与机器学习/人工智能模型最相关的变量，进而确定最精简、最有效和最容易采集的用户数据项，为用户数据的采集行为提出可靠且高效的优化建议，在降低数据采集和处理的复杂度同时仍可保证评估的准确性和保护用户隐私。

图3是根据本公开的一些实施例所示的一种用户数据采集装置300，包括：全变量获取模块310、变量分析模块320、变量筛选模块330和采集优化模块340；其中，

全变量获取模块310，用于获取向第一机器学习模型输入的全部变量；

变量分析模块320，用于对所述全部变量进行变量分析，确定各变量之间的相似度和/或每个变量对所述第一机器学习模型的影响程度；

变量筛选模块330，用于根据所述相似度和/或所述影响程度筛选所述全部变量，得到所述第一机器学习模型的关键变量集合；

采集优化模块340，用于将所述关键变量集合逆映射为用户数据采集项集合，根据所述用户数据采集项集合生成用户数据采集建议。

在一些实施例中，所述群体识别模块包括：

算法处理模块，用于通过社团发现算法处理所述知识图谱，识别和筛选所述知识图谱中的群体。

在一些实施例中，所述变量分析模块包括：序列组合模块，用于将每一变量在不同时段和/或不同任务中采集的用户信息组合成所述变量的用户变量序列；相似度计算模块，用于根据所述用户变量序列计算任意两个变量之间的相似度。该实施例中的序列组合和相似度计算的具体过程可以参见上述方法实施例中的描述，在此不再重复。

在一些实施例中，所述变量筛选模块包括：聚类模块，用于根据所述相似度对所述全部变量进行聚类，得到多个等同变量集合；独立变量选取模块，用于从每一等同变量集合中选取一个变量作为本集合的代表构建独立变量集，所述关键变量集合包括所述独立变量集。该实施例中的聚类和独立变量选取的具体过程可以参见上述方法实施例中的描述，在此不再重复。

在一些实施例中，所述变量分析模块包括：影响程度计算模块，用于通过敏感性分析和/或反向传播算法确定每一变量对所述第一机器学习模型输出结果的影响程度。该实施例中的影响程度/敏感度值计算的具体过程可以参见上述方法实施例中的描述，在此不再重复。

在一些实施例中，所述变量筛选模块包括：高敏感度变量选取模块，用于根据所述影响程度的敏感度值确定高敏感度变量集，所述关键变量集合包括所述高敏感度变量集。该实施例中高敏感度变量识别确定的具体过程可以参见上述方法实施例中的描述，在此不再重复。

在一些实施例中，所述变量筛选模块还包括：阈值设定模块，用于根据具体的业务需要而动态设置和/或调整筛选阈值来进行所述筛选。该实施例中临界相似度值γ和/或敏感度阈值的具体设定过程可以参见上述方法实施例中的描述，在此不再重复。

参考附图4，为本申请一个实施例提供的电子设备示意图。如图4所示，该电子设备400包括：

存储器430以及一个或多个处理器410；

其中，所述存储器430与所述一个或多个处理器410通信连接，所述存储器430中存储有可被所述一个或多个处理器执行的程序指令432，所述程序指令432被所述一个或多个处理器410执行，以使所述一个或多个处理器401执行上述方法实施例中的各个步骤。进一步地，该电子设备400还可通过通信接口420与外部设备进行交互。

本申请的一个实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被执行后执行上述方法实施例中的各个步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法和/或装置实施例中的对应描述，在此不再赘述。

尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的，但本领域技术人员可以认识到，还可结合其他类型的程序模块来执行其他实现。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解，此处所述的本主题可以使用其他计算机系统配置来实践，包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等，也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中，程序模块可位于本地和远程存储器存储设备的两者中。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可因东介质。计算机可读取存储介质具体包括，但不限于，U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。

综上所述，本公开提出了一种用户数据采集方法、装置、电子设备及其计算机可读存储介质。本公开实施例的技术方案通过分析变量的相似度和/或变量对模型的影响程度，可自动对所有变量进行分析和筛选，从而确定与机器学习/人工智能模型最相关的变量，进而确定最精简、最有效和最容易采集的用户数据项，为用户数据的采集行为提出可靠且高效的优化建议，在降低数据采集和处理的复杂度同时仍可保证评估的准确性和保护用户隐私。

应当理解的是，本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理，而不构成对本公开的限制。因此，在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。此外，本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种用户数据采集方法，其特征在于，包括：

获取向第一机器学习模型输入的全部变量；

2.根据权利要求1所述的方法，其特征在于，对所述全部变量进行变量分析确定各变量之间的相似度包括：

将每一变量在不同时段和/或不同任务中采集的用户信息组合成所述变量的用户变量序列；

根据所述用户变量序列计算任意两个变量之间的相似度。

3.根据权利要求2所述的方法，其特征在于，根据所述相似度筛选所述全部变量得到所述第一机器学习模型的关键变量集合包括：

根据所述相似度对所述全部变量进行聚类，得到多个等同变量集合；

从每一等同变量集合中选取一个变量作为本集合的代表构建独立变量集，所述关键变量集合包括所述独立变量集。

4.根据权利要求1所述的方法，其特征在于，对所述全部变量进行变量分析确定每个变量对所述第一机器学习模型的影响程度包括：

通过敏感性分析和/或反向传播算法确定每一变量对所述第一机器学习模型输出结果的影响程度。

5.根据权利要求4所述的方法，其特征在于，根据所述影响程度筛选所述全部变量得到所述第一机器学习模型的关键变量集合包括：

根据所述影响程度的敏感度值确定高敏感度变量集，所述关键变量集合包括所述高敏感度变量集。

6.根据权利要求1、3或5所述的方法，其特征在于，所述筛选所述全部变量包括：

根据具体的业务需要而动态设置和/或调整筛选阈值来进行所述筛选。

7.一种用户数据采集装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述变量分析模块包括：

序列组合模块，用于将每一变量在不同时段和/或不同任务中采集的用户信息组合成所述变量的用户变量序列；

相似度计算模块，用于根据所述用户变量序列计算任意两个变量之间的相似度。

9.根据权利要求8所述的装置，其特征在于，所述变量筛选模块包括：

聚类模块，用于根据所述相似度对所述全部变量进行聚类，得到多个等同变量集合；

独立变量选取模块，用于从每一等同变量集合中选取一个变量作为本集合的代表构建独立变量集，所述关键变量集合包括所述独立变量集。

10.根据权利要求7所述的装置，其特征在于，所述变量分析模块包括：

影响程度计算模块，用于通过敏感性分析和/或反向传播算法确定每一变量对所述第一机器学习模型输出结果的影响程度。

11.根据权利要求10所述的装置，其特征在于，所述变量筛选模块包括：

高敏感度变量选取模块，用于根据所述影响程度的敏感度值确定高敏感度变量集，所述关键变量集合包括所述高敏感度变量集。

12.根据权利要求7、9或11所述的装置，其特征在于，所述变量筛选模块还包括：

阈值设定模块，用于根据具体的业务需要而动态设置和/或调整筛选阈值来进行所述筛选。

13.一种电子设备，其特征在于，包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现如权利要求1-6任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现如权利要求1-6任一项所述的方法。