CN117828322A

CN117828322A - 数据处理方法、装置、设备、介质及产品

Info

Publication number: CN117828322A
Application number: CN202311586172.7A
Authority: CN
Inventors: 魏晓东; 邰振赢; 张婧怡
Original assignee: Beijing Yixin Yiyi Technology Co ltd
Current assignee: Beijing Yixin Yiyi Technology Co ltd
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-04-05

Abstract

本公开提供了一种数据处理方法、装置、设备、介质及产品，可以应用于信息技术领域。该方法包括：提取用户的行为日志数据的行为特征，按照所述行为特征的特征类型，分别对所述行为特征进行数值化处理，得到所述行为特征的取值，根据所述行为特征的取值，筛选出符合预设要求的行为特征。可以对用户的行为特征进行统一的表示与刻画，发现用户的行为特点。

Description

数据处理方法、装置、设备、介质及产品

技术领域

本公开涉及信息技术领域，尤其涉及一种数据处理方法、装置、设备、介质及产品。

背景技术

本公司在对保险代理人的行为日志数据进行大数据分析时，需要对代理人的网络行为特征进行统一的表示与刻画，重点体现在不同的用户对手机等移动设备使用的习惯方面是迥异的。本公开实现通过不同的数据特征工程的方法，实现针对APP使用规律的精准刻画。

现有的保险大数据分析系统，针对保险代理人员使用APP多维度数据进行统计，但是多种用户习惯特征并不是统一的数据格式，无法进行统一模型的计算，只能进行简单的统计。为了实现多个不同来源、不同类型的数据进行统一的计算，本公开构建了一种针对多种类型数据格式的特征工程装置，该装置主要面向保险代理人在访客时产生的数据进行。

发明内容

鉴于上述问题，本公开提供了数据处理方法、装置、设备、介质和程序产品。

根据本公开的第一个方面，提供了一种数据处理方法，包括：

提取用户的行为日志数据的行为特征；

按照所述行为特征的特征类型，分别对所述行为特征进行数值化处理，得到所述行为特征的取值；

根据所述行为特征的取值，筛选出符合预设要求的行为特征。

在本公开一实施例中，所述方法还包括：

确定所述行为特征的特征类型，所述特征类型包括类别类型和数值类型。

在本公开一实施例中，所述用户的行为日志数据包括输入行为数据，所述提取用户的行为日志数据的行为特征包括：

提取所述输入行为数据的行为特征，得到输入行为特征，所述输入行为特征包括输入错误、输入模式、字符统计以及时间间隔中的至少之一；

所述确定所述行为特征的特征类型包括：

确定所述输入错误和所述输入模式的特征类型为所述类别类型；

确定所述字符统计以及所述时间间隔的特征类型为所述数值类型。

在本公开一实施例中，所述用户的行为日志数据包括搜索行为数据，所述提取用户的行为日志数据的行为特征包括：

提取所述搜索行为数据的行为特征，得到搜索行为特征，所述搜索行为特征包括输入速度、文本长度、关键词个数、是否为疑问句、是否是网址或ip、英文单词个数、特殊符号个数、词性模式、句法模式以及时间间隔中的至少之一；

所述确定所述行为特征的特征类型包括：

确定所述输入速度、所述文本长度、所述关键词个数、所述英文单词个数、所述特殊符号个数以及所述时间间隔的特征类型为所述类别类型；

确定所述是否为疑问句、所述是否是网址或ip、所述词性模式以及所述句法模式的特征类型为所述数值类型。

在本公开一实施例中，所述用户的行为日志数据包括应用程序APP使用行为数据，所述提取用户的行为日志数据的行为特征包括：

提取所述APP使用行为数据的行为特征，得到APP使用行为特征，所述APP使用行为特征包括APP、时间段以及时间间隔中的至少之一；

所述确定所述行为特征的特征类型包括：

确定所述APP和所述时间段的特征类型为所述类别类型；

在本公开一实施例中，所述按照所述行为特征的特征类型，分别对所述行为特征进行数值化处理包括：

统计所述特征类型为类别类型的行为特征的均值；

统计所述特征类型为数值类型的行为特征的最大值、最小值、均值以及方差中的至少之一。

在本公开一实施例中，所述根据所述行为特征的取值，筛选出符合预设要求的行为特征包括：

确定所述行为特征的取值分别在各预设评价指标中的排名；

通过所述排名，得到所述行为特征的特征排序；

在所述特征排序上，基于贪心的策略搜索最优的行为特征集。

在本公开一实施例中，所述预设评价指标包括所述行为特征同标签之间的皮尔逊相关系数、获得逻辑回归模型中所述行为特征对应的权重以及统计所述行为特征在随机森林模型中用于分裂节点的次数中的至少之一。

本公开的第二方面提供了一种数据处理装置，包括：

特征提取模块，用于提取用户的行为日志数据的行为特征；

数值处理模块，用于按照所述行为特征的特征类型，分别对所述行为特征进行数值化处理，得到所述行为特征的取值；

筛选模块，用于根据所述行为特征的取值，筛选出符合预设要求的行为特征。

在本公开一实施例中，所述装置还包括：

确定模块，用于确定所述行为特征的特征类型，所述特征类型包括类别类型和数值类型。

所述确定所述行为特征的特征类型包括：

确定所述APP和所述时间段的特征类型为所述类别类型；

统计所述特征类型为类别类型的行为特征的均值；

确定所述行为特征的取值分别在各预设评价指标中的排名；

通过所述排名，得到所述行为特征的特征排序；

本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述方法。

本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述方法。

本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法。

根据本公开提供的数据处理方法、装置、设备、介质和程序产品，一方面，可以实现用户行为日志数据的标准化处理，从多种离散的空间转变为标准的连续空间形式。另一方面，可体现用户的特点，综合考虑用户的日常习惯，不仅仅只是从数据的形式进行特征挖掘，还考虑到不同的数据之间的依赖关系进行特征挖掘。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的数据处理方法的应用场景图；

图2示意性示出了根据本公开实施例的数据处理方法的流程图；

图3示意性示出了根据本公开实施例的特征提取方法的流程图；

图4示意性示出了根据本公开实施例的特征提取方法的流程图；

图5示意性示出了根据本公开实施例的特征提取方法的流程图；

图6示意性示出了根据本公开实施例的用户每日使用APP数量的示意图；

图7示意性示出了根据本公开实施例的特征筛选方法的流程图；

图8示意性示出了根据本公开实施例的数据处理装置的结构框图；以及

图9示意性示出了根据本公开实施例的适于实现数据处理方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，对数据的获取、收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

本公开的实施例提供了一种数据处理方法，包括：提取用户的行为日志数据的行为特征；按照所述行为特征的特征类型，分别对所述行为特征进行数值化处理，得到所述行为特征的取值；根据所述行为特征的取值，筛选出符合预设要求的行为特征。可以对用户的网络行为特征进行统一的表示与刻画，发现用户的行为特点。在用户为保险代理人的情况下，可以实现保险代理人行为日志数据的标准化处理，从多种离散的空间转变为标准的连续空间形式，挖掘保险代理人的行为特点。

图1示意性示出了根据本公开实施例的数据处理方法的应用场景图。

如图1所示，根据该实施例的应用场景100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的数据处理方法一般可以由服务器105执行。相应地，本公开实施例所提供的数据处理装置一般可以设置于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的数据处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

以下将基于图1描述的场景，通过图2～图6对公开实施例的数据处理方法进行详细描述。

图2示意性示出了根据本公开实施例的数据处理方法的流程图。

如图2所示，该实施例的数据处理包括操作S210～操作S230。

在操作S210，提取用户的行为日志数据的行为特征。

在操作S220，按照该行为特征的特征类型，分别对该行为特征进行数值化处理，得到该行为特征的取值。

在操作S230，根据该行为特征的取值，筛选出符合预设要求的行为特征。

用户的行为日志数据可以存储在本地、远端或者例如服务器等的设备。该行为日志数据可以是用户在一天内的行为日志数据，或者，一周内的行为日志数据、或者，一个月之内的行为日志数据，本公开对此不做限制。

行为日志数据可以根据用户的使用习惯进行分类，例如，可以将用户的行为日志数据分类三类，分别是输入行为数据、搜索行为数据和APP使用行为数据。相应的，这三类行为日志数据对应的行为特征分别为输入行为特征、搜索行为特征和APP使用行为特征。例如，还可以将用户的行为日志数据分为上述三类中的任意一类或两类，本公开对此均不做限制。

不同的行为特征具有不同的特征类型，本公开中，针对可以直接量化的行为特征，其特征类型为数值类型，例如输入字符时，各种字母出现的次数。针对需要间接量化的行为特征，其特征类型为类别类型，例如输入字符时，发生音节错误。因此，对于数值类型的行为特征，可以直接采用数值化处理，例如，对于输入字符时，记录各种字母出现的次数。对于类别类型的行为特征，可以采用one-hot编码等数值量化方式将类别类型的行为特征转换成可以便于直接计算的数值类型的行为特征。

在本公开一实施例中，上述按照该行为特征的特征类型，分别对该行为特征进行数值化处理包括：统计该特征类型为类别类型的行为特征的均值；统计该特征类型为数值类型的行为特征的最大值、最小值、均值以及方差中的至少之一。其中，统计均值和方差可以较好的表达行为特征的分布，统计最大值和最小值可以有助于判别异常的样本。

可以理解的，用户的单次行为具有较强的随机性，难以根据一次行为判断用户的习惯。多次使用行为能够反映出用户的行为习惯，因此可以通过计算用户多次使用行为的统计特征获得较为稳定的用户特征。

在提取出的众多行为特征中很多是冗余或无效的，这些冗余或无效的行为特征可能会耗费计算资源、增加训练时长，本公开可以根据行为特征的取值，筛选出符合预设要求的行为特征，也即删除冗余或无效的行为特征。其中，可以采用过滤式、嵌入式和包裹式等特征筛选方法来筛选出符合预设要求的行为特征，本公开对此不做限制。

过滤式方法，通过根据行为特征的取值的统计值对特征进行评分，设定阈值或者特征数量，选择评分较高的特征，常见的用于连续变量的方法有方差选择法和相关系数法。方差选择法的依据是行为特征的方差，如果一个行为特征的方差接近于0，该行为特征对于区分样本类别没有任何贡献，则剔除该行为特征，避免所有样本在该行为特征上的取值都没有差异的情况出现。但是，方差选择法对于方差较大的无效行为特征起不到筛选的作用。相关系数法计算行为特征和标签之间的皮尔逊相关系数，把该系数作为行为特征选择的依据，给定第i维行为特征f_i的取值和类别c，皮尔逊相关系数ρ(f_i，c)的计算如下：

其中，f_i，j是第j个样本第i维行为特征的取值，c_j代表第j个样本的类别，|ρ(f_i，c)|取值范围是[0，1]，当|ρ(f_i，c)|取值为0时，行为特征和类别间不存在相关性，取值为1时说明行为特征和类别标签存在线性关系。由上式中可以看出，皮尔逊相关系数可度量行为特征和类别标签之间的线性相关性。

嵌入式方法，在机器学习模型训练的过程中，自动完成行为特征选择，加入正则化项的逻辑回归模型和随机森林两种常见的嵌入式特征选择方法。给定二分类数据集D＝{(x₁，y₁)，(x₂，y₂)，...，(x_n，y_n)}，加入L1和L2正则化的逻辑回归模型的目标函数见下式。

其中x_i，ω∈R^d，d是行为特征的维度，加入L1和L2正则化能够有效的防止模型过拟合，使模型倾向于稀疏解，ω_k可以看作是第k维行为特征的重要度。随机森林在生成决策树的过程中会根据信息增益、基尼系数等指标选择合适的特征分裂叶子节点，因此可以根据特征分裂的次数判断特征的重要度。

包裹式方法，从初始的行为特征集合中不断选择行为特征子集，训练机器学习模型，根据模型的性能对子集进行评价，直到选择出最佳的子集。其中，由于在行为特征选择过程中需要多次训练学习器，因此可通过设计子集的搜索策略，完整搜索整个候选子集。

图3示意性示出了根据本公开实施例的特征提取方法的流程图。

如图3所示，该实施例的特征提取方法包括操作S310～操作S330。

在操作S310，提取该输入行为数据的行为特征，得到输入行为特征。

在操作S320，确定输入错误和输入模式的特征类型为类别类型。

在操作S330，确定字符统计以及时间间隔的特征类型为数值类型。

输入行为数据按照拼音输入法类型的不同，分为全拼和九键两种类型的数据，可对两种数据采用相同的特征挖掘方法分别处理。

在日常的生活使用拼音输入的过程中常常会犯一些错误，例如混淆前后鼻音或平卷舌音，拼音输入法会依据用户日常的输入习惯从云服务器中给出建议词，通过对比建议词拼音字符串同用户的输入之间的差异，可以发现用户的输入习惯，提取用户的输入行为特征。

在本公开中，输入行为特征包括输入错误、输入模式、字符统计以及时间间隔中的至少之一。输入错误是指用户在输入字符文本时发生的错误，包括顺序颠倒、语音错误和输入省略三种。输入模式是指用户使用拼音输入法的方式，根据输入拼音字符的完整性提取的输入模式。字符统计是指用户每条输入行为中各输入字符的频率，输入拼音字符串中各个字符的计数。时间间隔是指用户本次输入行为较上一次行为的时间间隔。

输入错误

在一实施方式中，将建议词转换成拼音字符串，并拆分成韵母和声母，如下表1所示。可理解的，对于九键数据，用户输入数据中只有数字，需要将数字转换成对应的字母。

表1

输入	北京烤鸭
		音节	beijingkaoya
声母	b,j,k,y
		韵母	ei,ing,ao,a

然后，对比转换后的建议词音节字符串同用户输入的字符串间的差异，以上述表1示例为例，如下表2所示，以两个字符串S₁和S₂作为输入，在该示例中，S₁是建议词的拼音字符串，S₂是用户输入的字符串，输出是两个字符串对比的结果。

表2

输出结果中“.”表示两个字符串中没有差异的字符，“-”表示S₂较S₁减少的字符，“+”表示S₂较S₁增加的字符，通过对比即可得到字符级别的输入错误，在该示例中有(bei，bie)、(jing，jin)、(ya，y)三个输入错误。(bei，bie)的输入错误为顺序颠倒，(jing，jin)的输入错误为语音错误，(ya，y)的输入错误为输入省略。

顺序颠倒，是指字符顺序颠倒，在使用输入法过程中常见的一种输入错误，可体现用户的输入习惯。上述示例中，(bei，bie)的输入错误即为顺序颠倒。

语音错误，按照粒度不同，分为拼音错误和音节错误两种。拼音包括声母和韵母，是汉语的发音音节的基本组成单位，由于方言或者日常用语习惯的影响，人们在使用拼音输入法时会错误地输入某些拼音，平卷舌音和前后鼻音混淆是最为常见两种错误，比如将“是不是”的拼音错误的输入成“si bu si”，将“老鹰”的输入成“lao yin”，可体现用户的语言习惯。上述示例中，(jing，jin)的输入错误即为语音错误。

输入省略，与前两种输入错误不同，不是由于输入习惯或说话习惯在无意识的情况下造成的输入错误，而是一种有意的行为，用户在输入过程中利用拼音输入法的特点，仅输入部分拼音字符就可以得到想要的汉字，能够大大提升输入效率，输入法也会根据用户的输入习惯，提高候选词推荐的准确率。和语音错误类似，输入省略也从音节、拼音两个粒度统计，可体现用户的输入习惯。上述示例中，(ya，y)的输入错误即为输入省略。

如表3所示示例，输入错误中的语音错误可以包括音节错误和拼音错误，同样的，输入错误中的输入省略也可以包括音节错误和拼音错误。其中，将用户的输入错误归纳为顺序颠倒，语音错误和输入省略三种类型，如表3所示，将含有错误的输入字符串和建议词拼音字符串的拼接作为输入错误，其中“*”表示空字符，“_”用于分割字符串。

表3

输入模式

用户使用拼音输入法的方式各不相同，一方面，不同用户每次输入的汉字的个数不同，有的用户倾向于输入由一两个字组词的词语，而有的用户倾向于输入较长的内容。另一方面，不同用户省略拼音字符串的方式也各有不同，有的用户输入键入了完整的拼音，而有的用户喜欢省略最后一个字的韵母，或者仅输入拼音的首字母。依据输入汉字的个数和音节的输入方式，本公开提取用户的输入模式，如表4所示，“O”表示用户输入了字的完整拼音，“S”表示用户仅输入了声母，“H”仅输入首字母，对于仅有一个字符的声母也标记为“H”。

表4

输入字符串	建议词	输入模式
			tql	太强了	HHH
huilail	回来了	QQH
			woxiangchl	我想撤了	QQSH

通过上述处理，可以得到用户一次输入行为的三类输入错误和输入模式。在一实施方式中，可保留出现次数最多的前30％的输入错误和输入模式，将剩余特征归为“其他”。

字符统计

从用户输入的字符串文本来看，每个人使用各个字符的频率因为日常用语的差异也有着不同，本公开可统计每条行为记录各个输入字符的频数作为输入行为特征。例如，你真好，nizhenhao，字符“n”的频数2次，字符“i”的频数1次，字符“z”的频数1次，字符“h”的频数2次，字符“e”的频数1次，字符“a”的频数1次，字符“o”的频数1次。

在一实施例中，本公开统计本次输入行为较上一次输入行为的时间间隔，用于反映用户的输入频率。例如，输入ni，统计输入“n”和输入“i”之间的时间间隔。

以上，本公开提取了用户的输入行为的特征，在一种实施方式中，基于行为日志数据中的输入行为数据所构建的特征表见表5。

表5

图4示意性示出了根据本公开实施例的特征提取方法的流程图。

如图4所示，该实施例的特征提取方法包括操作S410～操作S430。

在操作S410，提取该搜索行为数据的行为特征，得到搜索行为特征。

在操作S420，确定输入速度、文本长度、关键词个数、英文单词个数、特殊符号个数以及时间间隔的特征类型为类别类型。

在操作S430，确定是否为疑问句、是否是网址或ip、词性模式以及句法模式的特征类型为数值类型。

搜索引擎具有联想词功能，一次搜索行为会产生多条搜索记录，这些搜索记录间时间间隔较短，文本相似度高，常常出现上一条文本是当前文本的子串的情况，例如，针对搜索行为“平凡的世界经典”，用户在搜索“平凡的世界经典”的过程中，产生了三条搜索记录，分别为“平凡的”、“平凡的世界”和“平凡的世界经典”，每条搜索记录的文本都是对上一条搜索记录文本的增加，对比文本间的差异，可以发现用户在这次搜索行为中，分三次键入了搜索的文本，每次搜索记录相对相对上一次输入的文本分别是“平凡的”、“世界”和“经典”。用户的搜索行为是提取搜索行为特征的基本单元，但原始数据中对同一个搜索行为中的搜索记录没有标识，本公开根据搜索行为的特点从搜索记录中识别出用户的搜索行为特征。

在本公开中，根据当前搜索记录和上一条搜索记录之间的时间间隔和文本相似度，判断该当前搜索记录和该上一条搜索记录是否属于同一个搜索行为。具体的，对于某个用户的搜索记录，首先按照记录的时间先后顺序排序，然后遍历用户的输入记录，如果当前搜索记录和上一条搜索记录的输入时间间隔小于阈值τ并且记录的文本相似度不小于阈值α或记录文本间存在包含关系，那么这两条搜索记录属于同一个搜索行为，否则，当前搜索记录属于另一个搜索行为。时间间隔阈值τ和文本相似度阈值α根据经验获得，在本公开中以τ＝60s，α＝0.8为例，文本相似度计算见下式：

其中distance(a，b)表示字符串a和字符串b之间的编辑距离，len(a)表示字符串a的长度，len(b)表示字符串b的长度。

本文首先计算了较上次搜索行为的时间间隔用于体现用户搜索的频率，然后从搜索过程和搜索文本两个角度提取搜索行为的特征。

搜索过程

搜索过程分析一次搜索行为中包含的多次搜索记录，从中挖掘出用户输入速度、文本长度等行为特征，由于用户在搜索过程中可能会删除已有的字符，用户实际的输入速度不等于最后一个记录同第一个记录文本之间的文本长度之差除以时间间隔，本文统计除第一次搜索记录之外的其他搜索记录(平凡的世界)较上一次记录的文本(平凡的)增加长度和时间间隔，在文本增加长度大于0的记录中计算输入速度和文本长度。例如，统计除第一次搜索记录之外的其他搜索记录“平凡的世界”较上一次记录的文本“平凡的”增加长度和时间间隔，以此计算输入速度和为本长度。

搜索文本

关键词查询是用户使用搜索引擎的常见方式，不同用户使用的关键词个数会有差异，还有一部分用户倾向于使用疑问句，因此，本公开将关键词个数、是否为疑问句和文本长度为搜索行为特征。在日常使用中，用户也会在搜索引擎中输入网址、查询英语单词甚至搜索数学题目，针对这些应用场景，本公开提取是否为网址或ip地址、“英语单词”个数、特殊符号个数等特征。本公开还分析了搜索文本的词性组成和句法结构，将长度小于等于3的搜索文本中词性组合和句法组合作为文本特征之一，词性标注和句法结构由中文语言处理工具LTP得到。通过上述方法得到的搜索行为特征见表6。

表6

特征	说明
		输入速度	根据同一搜索行为中的多条搜索记录计算
关键词个数	关键词之间通过空格分隔
		是否为疑问句	包含“为何”，“怎样”等疑问词
搜索文本长度	包含空格在内的搜索字符串长度
		是否为网址或ip地址	使用正则表达式判断
“英语单词”的个数	“英语单词”是由26个英文字母构成的字符串
		特殊符号的个数	除去中文、英文及标点符号之外其他字符的个数
词性模式	例如“名词名词”，“形容词名词”等
		句法模式	例如“ATTATTHED”等
时间间隔	较上一次搜索行为的时间差

以上，搜索行为特征包括输入速度、文本长度、关键词个数、是否为疑问句、是否是网址或ip、英文单词个数、特殊符号个数、词性模式、句法模式以及时间间隔中的至少之一。

在一种实施方式中，基于行为日志数据中的搜索行为数据所构建的特征表见表7。

表7

图5示意性示出了根据本公开实施例的特征提取方法的流程图。

如图5所示，该实施例的特征提取方法包括操作S510～操作S530。

在操作S510，提取该APP使用行为数据的行为特征，得到APP使用行为特征。

在操作S520，确定该APP和该时间段的特征类型为类别类型。

在操作S530，确定该字符统计以及该时间间隔的特征类型为数值类型。

用户通常每天只使用不超过十种APP，如图6所示，每种APP对应着用户生活中不同的用途，能够反映用户特点，为了避免用户数量过少的APP对身份验证效果的影响，本公开可选取用户覆盖率超过20％的38种APP，将剩下的APP归为“其他”，作为APP使用行为特征。另一方面，每个人的作息时间相对固定，使用APP的时段也能用于表达用户的生活习惯，本公开以20分钟为粒度将一天划分成72个时间段，将使用时间段也作为行为特征。和前面两种行为数据类似，对于APP使用行为，也计算了较上次行为的时间间隔用于体现用户使用APP的频率。APP使用行为特性总结见表8。

表8

特征	说明
		APP	用户覆盖率超过20％的38种APP和“其他”
时间段	一天划分成72个时间段
		时间间隔	较上一次APP使用行为的时间差

在本公开一可选实施例中，通过上述方法获得的行为特征是一个实数值，不同特征间的取值范围的差异较大，为了便于模型训练和得到更好的效果，本公开可以对所有用户行为特征进行归一化处理，如下式所示，其中max(f)表示行为特征f在数据集中的最大值，min(f)是数据集中的最小值，f′_i是样本i在特征f上的取值f_i经过归一化处理后的结果，在分母中加1防止了分母为0。

图7示意性示出了根据本公开实施例的特征筛选方法的流程图。

如图7所示，该实施例的特征筛选方法包括操作S710～操作S730。

在操作S710，确定该行为特征的取值分别在各预设评价指标中的排名。

在操作S720，通过该排名，得到该行为特征的特征排序。

在操作S730，在该特征排序上，基于贪心的策略搜索最优的行为特征集。

在本公开一实施例中，预设评价指标包括该行为特征同标签之间的皮尔逊相关系数、获得逻辑回归模型中该行为特征对应的权重以及统计该行为特征在随机森林模型中用于分裂节点的次数中的至少之一。在预设评价指标包括该行为特征同标签之间的皮尔逊相关系数的情况下，可以采用上述过滤式法来实现特征筛选。在预设评价指标包括获得逻辑回归模型中该行为特征对应的权重的情况下，可以采用上述嵌入式法来实现特征筛选。在预设评价指标包括统计该行为特征在随机森林模型中用于分裂节点的次数的情况下，可以采用上述包裹式法来实现特征筛选。

在一种实施方式中，预设评价指标包括该行为特征之间的皮尔逊相关系数、获得逻辑回归模型中该行为特征对应的权重以及统计该行为特征在随机森林模型中用于分裂节点的次数。

给定数据集D＝{(x₁，y₁)，(x₂，y₂)，...，(x_n，y_n)}，x_n∈R^k，其中k是行为特征的总维数，xⁱ表示第i维行为特征，表示第n个样本的第i维行为特征的值。首先在该数据集D上训练加入L1和L2正则化的逻辑回归模型和随机森林模型。对于每一个行为特征，计算该行为特征同标签之间的皮尔逊相关系数、获得逻辑回归模型中该特征对应的权重、统计该行为特征在随机森林模型中用于分裂节点的次数，作为三种特征重要度，取值越大表示行为特征越重要。

本公开首先获取每个行为特征在各个评价指标中从大到小的排名，然后将三个排名相加，按照从小到大排序，获得基于多种评价指标的特征排序S_all。然后，采用包裹式的方法筛选特征，在特征排序S_all上，基于贪心的策略搜索最优的行为特征集，具体地，每次模型训练仅使用S_all中前i％的特征，依据模型的分类准确率搜索i的取值，从而筛选出效果最好且特征数量较少的行为特征集合。

基于上述数据处理方法，本公开还提供了一种数据处理装置。以下将结合图8对该装置进行详细描述。

图8示意性示出了根据本公开实施例的数据处理装置的结构框图。

如图8所示，该实施例的数据处理装置800包括特征提取模块810、数值处理模块820和筛选模块830。

特征提取模块810用于提取用户的行为日志数据的行为特征。在一实施例中，特征提取模块810可以用于执行前文描述的操作S210，在此不再赘述。

数值处理模块820用于按照该行为特征的特征类型，分别对该行为特征进行数值化处理，得到该行为特征的取值。在一实施例中，数值处理模块820可以用于执行前文描述的操作S220，在此不再赘述。

筛选模块830用于根据该行为特征的取值，筛选出符合预设要求的行为特征。在一实施例中，筛选模块830可以用于执行前文描述的操作S230，在此不再赘述。

在本公开一实施例中，该装置800还包括：

确定模块，用于确定该行为特征的特征类型，该特征类型包括类别类型和数值类型。

在本公开一实施例中，该用户的行为日志数据包括输入行为数据，该提取用户的行为日志数据的行为特征包括：

提取该输入行为数据的行为特征，得到输入行为特征，该输入行为特征包括输入错误、输入模式、字符统计以及时间间隔中的至少之一；

该确定该行为特征的特征类型包括：

确定该输入错误和该输入模式的特征类型为该类别类型；

确定该字符统计以及该时间间隔的特征类型为该数值类型。

在本公开一实施例中，该用户的行为日志数据包括搜索行为数据，该提取用户的行为日志数据的行为特征包括：

提取该搜索行为数据的行为特征，得到搜索行为特征，该搜索行为特征包括输入速度、文本长度、关键词个数、是否为疑问句、是否是网址或ip、英文单词个数、特殊符号个数、词性模式、句法模式以及时间间隔中的至少之一；

该确定该行为特征的特征类型包括：

确定该输入速度、该文本长度、该关键词个数、该英文单词个数、该特殊符号个数以及该时间间隔的特征类型为该类别类型；

确定该是否为疑问句、该是否是网址或ip、该词性模式以及该句法模式的特征类型为该数值类型。

在本公开一实施例中，该用户的行为日志数据包括应用程序APP使用行为数据，该提取用户的行为日志数据的行为特征包括：

提取该APP使用行为数据的行为特征，得到APP使用行为特征，该APP使用行为特征包括APP、时间段以及时间间隔中的至少之一；

该确定该行为特征的特征类型包括：

确定该APP和该时间段的特征类型为该类别类型；

确定该字符统计以及该时间间隔的特征类型为该数值类型。

在本公开一实施例中，该按照该行为特征的特征类型，分别对该行为特征进行数值化处理包括：

统计该特征类型为类别类型的行为特征的均值；

统计该特征类型为数值类型的行为特征的最大值、最小值、均值以及方差中的至少之一。

在本公开一实施例中，该根据该行为特征的取值，筛选出符合预设要求的行为特征包括：

确定该行为特征的取值分别在各预设评价指标中的排名；

通过该排名，得到该行为特征的特征排序；

在该特征排序上，基于贪心的策略搜索最优的行为特征集。

在本公开一实施例中，该预设评价指标包括该行为特征同标签之间的皮尔逊相关系数、获得逻辑回归模型中该行为特征对应的权重以及统计该行为特征在随机森林模型中用于分裂节点的次数中的至少之一。

根据本公开的实施例，特征提取模块810、数值处理模块820和筛选模块830中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，特征提取模块810、数值处理模块820和筛选模块830中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，特征提取模块810、数值处理模块820和筛选模块830中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图9所示，根据本公开实施例的电子设备900包括处理器901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 903中，存储有电子设备900操作所需的各种程序和数据。处理器901、ROM902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，该程序也可以存储在除ROM902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备900还可以包括输入/输出(I/O)接口905，输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的方法。

在该计算机程序被处理器901执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分909被下载和安装，和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种数据处理方法，包括：

提取用户的行为日志数据的行为特征；

2.根据权利要求1所述的数据处理方法，所述方法还包括：

3.根据权利要求2所述的数据处理方法，所述用户的行为日志数据包括输入行为数据，所述提取用户的行为日志数据的行为特征包括：

所述确定所述行为特征的特征类型包括：

4.根据权利要求2所述的数据处理方法，所述用户的行为日志数据包括搜索行为数据，所述提取用户的行为日志数据的行为特征包括：

所述确定所述行为特征的特征类型包括：

5.根据权利要求2所述的数据处理方法，所述用户的行为日志数据包括应用程序APP使用行为数据，所述提取用户的行为日志数据的行为特征包括：

所述确定所述行为特征的特征类型包括：

确定所述APP和所述时间段的特征类型为所述类别类型；

6.根据权利要求1至5任一项所述的数据处理方法，所述按照所述行为特征的特征类型，分别对所述行为特征进行数值化处理包括：

统计所述特征类型为类别类型的行为特征的均值；

7.根据权利要求1所述的数据处理方法，所述根据所述行为特征的取值，筛选出符合预设要求的行为特征包括：

确定所述行为特征的取值分别在各预设评价指标中的排名；

通过所述排名，得到所述行为特征的特征排序；

8.根据权利要求7所述的数据处理方法，所述预设评价指标包括所述行为特征同标签之间的皮尔逊相关系数、获得逻辑回归模型中所述行为特征对应的权重以及统计所述行为特征在随机森林模型中用于分裂节点的次数中的至少之一。

9.一种数据处理装置，包括：

特征提取模块，用于提取用户的行为日志数据的行为特征；

10.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～8中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～8中任一项所述的方法。

12.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～8中任一项所述的方法。