CN110909005A

CN110909005A - 一种模型特征分析方法、装置、设备及介质

Info

Publication number: CN110909005A
Application number: CN201911205505.0A
Authority: CN
Inventors: 陈华峰
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Singapore Pte Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-24
Anticipated expiration: 2039-11-29
Also published as: CN110909005B

Abstract

本发明公开了一种模型特征分析方法、装置、设备及介质，涉及计算机技术领域，该模型特征分析方法包括：获取日志中的样本信息，所述日志为在目标模型在线预测时生成的；对所述样本信息中的目标特征进行扰动，得到特征扰动信息；依据所述特征扰动信息确定所述样本信息对应的排序变化信息；依据所述排序变化信息，确定所述目标特征的重要性分析结果。本发明提高分析结果的准确性，能够有效帮助特征筛选，并可有效控制模型规模，从而有效地减轻了在线存储、计算的压力。

Description

一种模型特征分析方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种模型特征分析方法、装置、设备及介质。

背景技术

随着计算机技术的快速发展，深度排序模型越来越普及。与逻辑回归、决策树等模型相比，深度排序模型更加“黑盒”，更不具有解析性，也更难分析该深度排序模型中不同特征的重要性，因此难以通过筛选特征来控制深度排序模型规模，导致模型在线存储、计算压力大。如何分析深度排序模型中各个特征的重要性已成为很多研究者致力研究的热点。

现有分析深度排序模的重要性型的方法通常采用以下两种：一种是消融试验(Ablation Test)方法，即每次去掉深度排序模型中的一个特征，然后查看模型表现的变化情况，以根据该模型表现的变化情况确定去掉的模型特征；另一种是置换检验(Permutation Test)方法，即随机修改深度排序模型中某些特征在测试集中的取值，然后查看模型表现的变化情况，以确定修改这些特征的重要性。

但是，上述这两种做法与实际排序时的情况有些不同，如在实际排序时，如果想知道模型中某个特征与模型输出的结果是否正相关，则需要按照从小到大的顺序或者从大到小的顺序来修改该特征的值，以查看模型输出结果的变化情况；如果想确定某个特征的变化会对最后模型计算得到的排序分产生多大的影响，则需要在修改该特征的特征值后查看模型输出的排序分变化情况，而不是简单地去掉一个特征就可以确定的。另外，随机改变某个特征的值缺少了一个统一的度量标准，不利于分析，影响分析结果的准确性，不利于模型特征的筛选的，导致模型规模比较大，增加模型在线存储、计算的压力。

发明内容

有鉴于此，本发明实施例提供一种模型特征分析方法、装置、设备及介质，以日志中的样本集合为计算对象进行分析，确保分析是基于实际预测的集合的数据分布，提高分析结果的准确性，从而解决现有技术中模型规模大导致模型在线存储、计算压力大的问题。

第一方面，本发明实施例提供了一种模型特征分析方法，包括：

获取日志中的样本信息，所述日志为在目标模型在线预测时生成的；

对所述样本信息中的目标特征进行扰动，得到特征扰动信息；

依据所述特征扰动信息确定所述样本信息对应的排序变化信息；

依据所述排序变化信息，确定所述目标特征的重要性分析结果。

第二方面，本发明实施例还提供了一种模型特征分析装置，包括：

样本获取模块，用于获取日志中的样本信息，所述日志为在目标模型在线预测时生成的；

特征扰动模块，用于对所述样本信息中的目标特征进行扰动，得到特征扰动信息；

排序变化确定模块，用于依据所述特征扰动信息确定所述样本信息对应的排序变化信息；

重要性分析模块，用于依据所述排序变化信息，确定所述目标特征的重要性分析结果。

第三方面，本发明实施例还提供了一种设备，包括：处理器和存储器；所述存储器中存储有至少一条指令，所述指令由所述处理器执行，使得所述设备执行如第一方面所述的模型特征分析方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如第一方面所述的模型特征分析方法。

本发明实施例通过获取目标模型在线预测生成的日志进行特征分析，确保了分析结果符合在线实际情况，并在获取日志中的样本信息后，通过对样本信息中的目标特征进行扰动，得到特征扰动信息，随后可以依据该特征扰动信息确定出样本信息对应的排序变化信息，以依据该排序变化信息确定出目标特征的重要性分析结果，提高分析结果的准确性，且该重要性分析结果用于确定目标特征在目标模型中的重要性，即能够有效帮助特征筛选，从而可有效控制模型规模，有效地减轻了在线存储、计算的压力。

附图说明

图1是本发明的一种模型特征分析方法实施例的步骤流程示意图；

图2是本发明的一种模型特征分析方法可选实施例的步骤流程示意图；

图3是本发明的一种模型特征分析装置实施例的结构方框示意图；

图4是本发明一个示例中的一种设备的结构方框示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构或组成。

参照图1，示出了本发明的一种模型特征分析方法实施例的步骤流程示意图，具体可以包括如下步骤：

步骤110，获取日志中的样本信息，所述日志为在目标模型在线预测时生成的。

具体而言，目标模型每次在线测试时，可以产生相应的日志。该日志可以作为样本集合，具体可以包含有一条或多条样本信息。每条样本信息可以表征一个样本，具体可以包括一个或多个特征的特征值和目标模型计算得到的排序分。例如，在确定某一个直播网站中各个主播的排名的情况下，可以将每一个主播的数据作为一条样本信息，即将每个主播作为日志中的一个样本，随后可以将主播的相关数据，如该主播的直播次数、直播时间、关注用户数量等，作为样本信息中的特征值，输入到目标模型中，得到该目标模型的输出结果，随后可将该输出结果作为主播对应的排序分，存储到日志的样本信息中。其中，日志中每条样本信息的格式可以如下：<f1，f2，f3，…，fn，score>。需要说明的是，f1可以表示特征1的特征值，f2可以表示特征2的特征值，f3可以表示特征3的特征值……如此类推，fn表示特征n的特征值，score可以表示目标模型计算得到的排序分。

需要说明的是，本实施例中的目标模型可以是指需要测试特征重要性的排序模型，如可以是深度排序模型。

步骤120，对所述样本信息中的目标特征进行扰动，得到特征扰动信息。

具体的，本实施例在获取到的日志中的样本信息后，可以对该日志中每一条样本信息中的目标特征进行扰动，得到每一条样本信息对应的特征扰动信息。其中，目标特征可以包括每条样本信息中的待分析特征，如结合上述例子，在需要分析特征1时，可以将该特征1确定为待分析特征，以作为样本信息中的目标特征；又如，在需要分析特征1和特征2时，可以将特征1和特征2确定为待分析特征，以作为样本信息中的目标特征，本实施例对目标特征的数量不作具体限制。扰动特征信息可以包括目标特征扰动后的特征值，如某一条样本信息中的目标特征i在扰动前的特征值为fi，在对该目标特征i进行扰动后，可得到扰动后的特征值fi’，随后可将该扰动后的特征值fi’确定为这条样本信息对应的特征扰动信息。

在实际处理中，不同类型的特征可以采用不同扰动方式。因此，在本发明的一个可选实施方式中，可以依据待分析特征对应的特征类型，确定扰动方式，以按照该扰动方式确定待分析特征对应的扰动量，从而可以基于该扰动量和该待分析特征在样本信息中的特征值，确定该待分析特征扰动后的特征值。进一步的，本实施例对样本信息中的目标特征进行扰动，得到特征扰动信息，具体可以包括：从样本信息中提取出作为目标特征的待分析特征，并可依据该待分析特征对应的特征类型确定扰动量信息，随后依据扰动量信息和样本信息中待分析特征的特征值信息，确定出样本信息对应的特征扰动信息。其中，样本信息中待分析特征的特征值信息可以表示待分析特征在扰动前的特征值；扰动量信息可以表示待分析特征的扰动量，如可以是待分析特征i在扰动前的特征值fi与该待分析特征i在扰动后的特征值fi’之间的差值delta_fi。

作为本发明的一个示例，在日志包含有至少两条样本信息的情况下，可以从每一条样本信息中提取作为目标特征的待分析特征，随后可依据待分析特征对应的特征类型，确定该待分析特征对应的扰动量，以基于该待分析特征对应的扰动量和待分析特征在每一条样本信息中的特征值，确定每一条样本信息对应的特征扰动信息。其中，特征类型可以按照特征的取值来进行划分，如可以分为连续类型、有序离散类型、无序离散类型等，本示例对此不作具体限制。

需要说明的是，特征类型为连续类型的特征对应的取值范围通常是实数集的子集，如在将商品价格作为商品的特征的情况下，商品价格对应的取值范围可以是(0，+∞)，可以将连续类型作为该商品价格对应的特征类型；又如在将独立访客(Unique Visitor，UV)点击率作为网站的特征的情况下，UV点击率对应的取值范围通常是[0，1]，其对应的特征类型可以划分为连续类型。

特征类型为有序离散型的特征对应的取值范围通常可以是整数集的子集，如在将某个用户进入直播间的次数作为该用户的特征的情况下，用户进入直播间的次数对应的取值范围是非负整数，其对应的特征类型为有序离散型；又如在将某个主播1天的开播次数作为该主播的特征的情况下，开播次数对应的取值范围也是非负整数，即其对应的特征类型也可以是有序离散型。

特征类型为无序离散类型的特征通常可以采用一位有效(one-hot)编码来表示，并可以向量的形式作为目标模型的输入，且该向量的每个维度可以取值0或者1，如在将进入直播间的用户的性别作为用户的特征的情况下，可以采用特征值1表示用户的性别为男，并可采用特征值0表示用户的性别为女等。

步骤130，依据所述特征扰动信息确定所述样本信息对应的排序变化信息。

具体而言，本实施例在确定出样本信息对应的特征扰动信息后，可以采用该特征扰动信息计算目标特征扰动后目标模型输出的排序分，随后可将计算得到的排序分与该样本信息中的排序分进行比较，以基于比较结果确定出该样本信息对应的排序变化信息，如可以将计算得到的排序分y2与该样本信息中的排序分y1之间的差值确定为样本信息对应的排序变化信息。该排序变化信息可以表示目标特征扰动后样本排序分的变化情况，如该排序变化信息可以是目标特征扰动前和扰动后对应的排序分变化值delta_y，该排序分变化值delta_y可以等于计算得到的排序分y2与样本信息中的排序分y1之间的差值的绝对值，即delta_y＝|y2-y1|。其中，样本信息中的排序分可以表示在目标特征扰动前目标模型输出的排序分。

进一步而言，当日志中包含不止一条样本信息时，即在日志中包含有至少两条样本信息时，本实施例可以基于每一条样本信息对应的特征扰动信息确定出每一条样本信息对应的排序变化信息，以便后续可以基于每一条样本信息对应的排序变化信息确定出目标特征扰动前后每条样本排序分的变化情况。可选的，本实施例依据所述特征扰动信息确定所述样本信息对应的排序变化信息，可以包括：基于每一条样本信息对应的特征扰动信息和模型特征信息，确定每一条样本信息对应的扰动排序分，其中，所述模型特征信息包括所述样本信息中除了所述目标特征之外的模型特征的特征值；针对每一条样本信息，基于所述扰动排序分与所述样本信息中的排序分之间的差值，确定对应的排序变化信息。

步骤140，依据所述排序变化信息，确定所述目标特征的重要性分析结果。

其中，重要性分析结果可以确定目标特征在目标模型中的重要性。具体的，本发明实施例可以基于样本信息对应的排序变化信息，确定出扰动目标特征后引起样本排序分的变化情况，从而可以基于样本排序分的变化情况分析出该目标特征的重要性，并产生对应的重要性分析结果，使得分析人员可以基于该重要性分析结果确定出目标特征对在线排序的重要性，能够有效地帮助特征筛选，如在基于某一目标特征的重要性分析结果，确定出该目标特征的修改或删除对目标模型输出结果的影响比较小，可以忽略不计的情况下，可以确定该目标特征在目标模型中不重要，可以忽略该目标特征，即可以不采用该目标特征进行目标模型的训练和计算，进而可以有效控制模型规模，有效地减轻了在线存储、计算的压力，解决了模型规模大导致模型在线存储、计算压力大的技术问题。

可见，本发明实施例在获取日志中的样本信息后，通过对样本信息中的目标特征进行扰动，得到特征扰动信息，随后可以依据该特征扰动信息确定出样本信息对应的排序变化信息，以依据该排序变化信息确定出目标特征的重要性分析结果，确保了目标特征的重要性分析结果符合在线实际情况。与现有其他特征重要性分析方法相比，本发明实施例提供的模型特征分析方法更通用，更准确。

在实际处理中，本实施例可以以日志中的样本集合为计算对象，确保分析是基于实际预测的集合的数据分布，从而确保特征重要性分析的结论符合在线实际情况，提高分析结果的准确性。具体而言，诸如深度排序模型等目标模型上线预测后，产生的日志可以包含多条样本信息。因此，本发明实施例在依据日志中的样本信息进行特征重要性分析时，可以获取该日志中所有样本信息，并可对该日志所有样本信息中的目标特征进行扰动，如对所有样本信息中的目标特征加入一个较小的扰动，以统计目标特征扰动后样本空间上排序分累计的变化量，从而可以基于样本空间上排序分累计的变化量确定出目标特征的重要性。可选的，本实施例依据所述排序变化信息，确定所述目标特征的重要性分析结果，具体可以包括：对所述日志中各样本信息对应的排序变化信息进行统计，得到所述目标特征对应的排序分变化值；基于所述排序分变化值确定所述目标特征的重要性分析结果。其中，排序分变化值可以表征目标特征扰动后样本空间上排序分累计的变化量，如排序分变化值越大，表示目标特征扰动后样本空间上排序分累计的变化量就越大，该目标特征对样本的排序而言就越重要。

参照图2，示出了本发明的一种模型特征分析方法可选实施例的步骤流程示意图。本实施例的模型特征分析方法具体可以包括如下步骤：

步骤210，获取日志中的样本信息。

在具体实现中，日志可以是目标模型在线预测时生成的，具体可以包括目标模型在线测试时记录各条样本的样本信息。因此，本实施例中的日志可以包含有至少两条样本信息。需要说明的是，本实施例中的日志可以是在线状态下获取到的在线日志，也可以是离线状态下获取到的离线日志，本实施例对此不作具体限制。

步骤220，从每一条样本信息中提取作为所述目标特征的待分析特征。

具体而言，在日志中包含不止一条样本信息的情况下，本实施例可以分别从每一条样本信息中提取出待分析特征，以作为目标特征，随后可以基于待分析特征的特征值确定出该待分析特征对应的特征类型，以依据待分析特征对应的特征类型确定出扰动方式和待分析特征的扰动量，即执行步骤230。

步骤230，依据所述待分析特征对应的特征类型，确定扰动量信息。

在实际处理中，本实施例可以根据待分析特征对应的特征类型，确定出扰动方式，以按照扰动方式对该待分析特征进行扰动，得到相应的扰动量信息。例如，在待分析特征对应的特征类型为连续类型的情况下，可以采用以下两种扰动方式对待分析特征进行扰动：一种是基于一个增量P对待分析特征i的特征值fi进行扰动，得的相应的扰动量信息delta_fi，如扰动量信息delta_fi可以等于待分析特征i的特征值fi与增量P的乘积，即delta_fi＝fi*p；另一种可以是基于待分析特征i在样本集合中的最大值max_fi、最小值min_fi以及一个增量P进行扰动，来确定出该待分析特征i对应的扰动量信息delta_fi。其中，第一种扰动方式得到的扰动量信息与单条样本信息中待分析特征i自身的特征值fi相关，在待分析特征i的特征值fi是幂律分布的情况下，适合采用第一种扰动方式。第二种扰动方式得到的扰动量信息与样本集合中待分析特征i的取值范围有关，当待分析特征i的特征值是均匀分布时，适合采用第二种扰动方式。

进一步而言，本实施例依据所述待分析特征对应的特征类型，确定扰动量信息，可以包括：当所述特征类型为连续类型时，确定所述待分析特征对应的取值分布信息；若所述取值分布信息符合预设的幂律分布条件，则基于预设扰动增量信息，确定所述待分析特征对应的扰动量信息；若所述取值分布信息符合预设的均匀分布条件，则基于所述待分析特征对应的特征阈值和预设扰动增量信息，确定所述扰动量信息。其中，待分析特征对应的取值分布信息可以表示待分析特征的特征值分布情况，具体可以包含获取到各个样本信息中的待分析特征的特征值。待分析特征对应的特征阈值可以用于确定待分析特征的取值范围，如可以包括最大特征阈值和最小特征阈值等。需要说明的是，最大特征阈值可以表示待分析特征所能够取到的最大特征值，最小特征阈值可以表示待分析特征所能够取到最小特征值。

具体而言，本实施例在待分析特征对应的特征类型为连续类型，且该待分析特征的特征值分布情况符合幂律分布条件的情况下，即在待分析特征的特征值是幂律分布时，可以采用预设扰动增量信息对待分析特征的特征值进行扰动，得到该待分析特征对应的扰动量信息。其中，预设扰动增量信息可以是指预先设置的一个增量P，该增量P可以是一个较小的百分比，如可以是1％或-1％等，本实施例对此不作具体限制。

另外，在待分析特征对应的特征类型为连续类型，且该待分析特征的特征值分布情况符合均匀分布条件的情况下，即在待分析特征的特征值是均匀分布时，可以基于该待分析特征在样本集合中的最大特征阈值max_fi、最小特征阈值min_fi以及预设的一个增量P进行计算，确定出该待分析特征对应的扰动量信息delta_fi，如扰动量信息delta_fi可以等于最大特征阈值max_fi与最小特征阈值min_fi之间的差值与预设的增量P的乘积，即delta_fi＝(max_fi-min_fi)*p。

当然，除了连续类型之外，待分析特征对应的特征类型还可以是其他类型，如无序离散类型、有序离散类型等，本实施例对此不作具体限制。可选的，本发明实施例中的特征类型可以包含有连续类型、无序离散类型、有序离散类型等。

在上述实施例的基础上，可选的，本实施例依据所述待分析特征对应的特征类型，确定扰动量信息，可以包括：当所述特征类型为有序离散类型时，确定所述待分析特征对应的取值分布信息；若所述取值分布信息符合预设的幂律分布条件，则基于所述待分析特征对应的单位变化信息和预设扰动增量信息，确定所述扰动量信息；若所述取值分布信息符合预设的均匀分布条件，则基于所述待分析特征对应的单位变化信息和单位变化系数，确定所述扰动量信息。

具体而言，本实施例在待分析特征对应的特征类型为有序离散类型的情况下，在确定出待分析特征的特征值分布情况符合幂律分布条件后，即在待分析特征的特征值是幂律分布时，可以采用待分析特征的单位变化信息和预设扰动增量信息，对该待分析特征的特征值进行扰动，得到相应的扰动量信息。其中，待分析特征对应的单位变化信息可以指待分析特征最小的变化单位，如在待分析特征的取值范围为非负整数时，该待分析特征的最小变化单元min_unit可以为1。

另外，在确定出待分析特征的特征值分布情况符合均匀分布条件后，即在待分析特征对应的特征类型为有序离散类型，且待分析特征的特征值是均匀分布时，可以基于该待分析特征对应的单位变化信息和预设扰动增量信息进行计算，得到相应的扰动量信息。其中，单位变化系数可以是预设的一个系数k，具体可以用于表示取最小变化单位的个数，其取值通常可以比较小，如可以是1或-1等，本实施例对此不作具体限制。

作为本发明的一个示例，在待分析特征对应的特征类型为有序离散类型的情况下可以采用以下两种扰动方式对待分析特征进行扰动：一种是基于一个增量P或待分析特征i的最小变化单元min_unit，对待分析特征i的特征值fi进行扰动，得的相应的扰动量信息delta_fi，如可以将增量P和待分析特征i的特征值fi的乘积与待分析特征i的最小变化单元min_unit进行比较，以选择这两者中的较大值作为相应的扰动量信息delta_fi，即delta_fi＝max(fi*p，min_unit)；另一种是基于待分析特征i的最小变化单元min_unit和单位变化系数k，计算出待分析特征对应的扰动量delta_fi，如扰动量delta_fi的值可以等于最小变化单元min_unit与单位变化系数k的乘积，即delta_fi＝k*min_unit。其中，第一种扰动方式得到的扰动量信息与单条样本信息中待分析特征i自身的特征值fi相关，同时可以保证待分析特征i的扰动量delta_fi至少有一个单位，在待分析特征i的特征值fi是幂律分布的情况下，适合采用第一种扰动方式。第二种扰动方式确定的扰动量为k个最小变化单位，即第二种扰动方式得到的扰动量信息是基于单位变化系数k确定的，当待分析特征i的特征值是均匀分布时，适合采用第二种扰动方式。

进一步而言，本实施例依据所述待分析特征对应的特征类型，确定扰动量信息，还可以包括：当所述特征类型为无序离散类型时，将所述待分析特征对应的向量取反信息作为所述扰动量信息。具体的，特征类型为无序离散类型的待分析特征通常采用one-hot编码，并可以以向量的形式作为目标模型的输入。本实施例中的向量取反信息可以用于对待分析特征以向量形式表示的特征值进行取反，得到相应的扰动量信息。

步骤240，基于所述扰动量信息和每一条样本信息中所述待分析特征的特征值信息，确定每一条样本信息对应的特征扰动信息。

具体而言，在待分析特征对应的特征类型为有序离散类型或连续类型的情况下，本实施例可以基于待分析特征的扰动量信息delta_fi和该待分析特征在每条样本信息中的特征值fi进行计算，得到每一条样本信息对应的特征扰动信息。该特征扰动信息可以表示待分析特征扰动后的特征值，如可以标记为fi’。例如，特征扰动信息fi’的值可以等于扰动量信息delta_fi的值与待分析特征扰动前的特征值fi的和，即fi’＝fi+delta_fi。

此外，在待分析特征对应的特征类型为无序离散类型的情况下，本实施例基于所述扰动量信息和每一条样本信息中所述待分析特征的特征值信息，确定每一条样本信息对应的特征扰动信息，包括：针对每一条样本信息，采用所述向量取反信息对所述特征值信息进行取反处理，得到对应的特征扰动信息。具体的，在确定出待分析特征对应的特征类型为无序离散类型后，可以基于向量取反信息，对待分析特征以向量形式表示的特征值取反，得到扰动后的特征扰动信息，以作为样本信息对应的特征扰动信息。例如，在待分析特征原取值为0的情况下，即在待分析特征在样本信息中记录的特征值为0的情况下，扰动后可以取值为1，即对该待分析特征进行扰动后，得到该待分析特征对应的特征扰动信息为1；反之，当待分析特征原取值为1时，扰动后可以取值为0。

步骤250，基于每一条样本信息对应的特征扰动信息和模型特征信息，确定每一条样本信息对应的扰动排序分。

其中，所述模型特征信息包括所述样本信息中除了所述目标特征之外的模型特征的特征值。具体而言，本实施例在确定某一条样本信息对应的特征扰动信息后，可以采用该特征扰动信息和这条样本信息中除了目标特征之前的其他模型特征的特征值进行计算，以计算得到目标模型在目标特征扰动后输出的排序分，随后可以将计算得到排序分确定为这条样本信息在目标特征扰动后的扰动排序分。

步骤260，针对每一条样本信息，基于所述扰动排序分与所述样本信息中的排序分之间的差值，确定对应的排序变化信息。

其中，扰动排序分可以是指目标模型在目标特征扰动后输出的排序分y2；样本信息中的排序分可以是指目标模型在目标特征扰动前输出的排序分y1。本实施例在确定每条样本排序分在目标特征扰动前后的变化情况时，可以针对每一条样本信息，基于目标特征扰动后得到的扰动排序分y2与目标特征扰动前样本的排序分y1，确定出样本排序分的变化值delta_y，如样本排序分的变化值delta_y可以等于扰动排序分y2与扰动前样本的排序分y1之间的差值，即delta_y＝y2-y1。可见，本发明可以将每条样本在目标特征扰动前的排序分y1与该样本在目标扰动后的排序分y2进行比较，以确定出每条样本排序分的变化值delta_y。

步骤270，对所述日志中各样本信息对应的排序变化信息进行统计，得到所述目标特征对应的排序分变化值。

其中，目标特征对应的排序分变化值可以用于反映目标特征扰动后对日志中整体样本的影响情况。具体的，本实施在扰动目标特征后，可以获取日志中各个样本信息对应的排序变化信息，以基于各个样本信息对应的排序变化信息对各个样本排序分的变化值进行汇总，即对日志中各样本信息对应的排序变化信息进行统计，得到目标特征对应的排序分变化值。例如，在扰动目标特征i后，可以将每条样本排序分的变化值delta_y进行累加，得到将累加结果total_delta_y，即total_delta_y＝∑delta_y，随后可以将该累加结果total_delta_y确定为目标特征i对应的排序分变化值，以便后续可以依据该累加结果total_delta_y确定目标特征i扰动后对整体样本的影响，提高分析结果的准确性。

步骤280，基于所述排序分变化值确定所述目标特征的重要性分析结果。

具体而言，本实施例在需要分析多个不同目标特征的重要性的情况下，可以基于各目标特征对应的排序分变化值进行排序，以基于排序结果确定出各个目标特征的重要性，并且可以基于各目标特征在该排序结果中的顺序确定出各个目标特征的重要性分析结果。

例如，在需要对特征1，特征2，特征3，…特征n进行分析的情况下，可以将特征1，特征2，特征3，…特征n确定为目标特征，如分别标记为目标特征i1，目标特征i2，目标特征i3，…目标特征in，随后可基于这些目标特征对应的特征类型进行相同的变化，这里的相同是指变化类型和变化的值都相同，如在目标特征对应的特征类型为连续类型的情况下，可以采用增量1％的方式对目标特征进行扰动，从而可以计算得到每个目标特征变化后对应的排序分变化值total_delta_y，随后可以根据各个目标特征变化后对应的排序分变化值total_delta_y从大到小的排序，确定出每个目标特征的重要性分析结果。该重要性分析结果可以表示目标特征在当前样本集合下的重要程度。由于当前样本集合是模板模型在线预测时产生的日志，因此目标特征的重要性分析结果也可以反映该目标特征对在线排序的重要程度。

综上，本实施例通过对模型在线预测产生的日志进行分析，确保分析的结论符合在线实际情况，提高了特征重要性分析结果的准确性；并可针对不同特征类型、不同数据分布的特征进行重要性分析，如可以针对深度排序模型中不同类型、不同数据分布的特征重要性进行分析，与现有特征分析方法相比，更加通用，即应用范围广，且更加准确。

此外，本发明实施例通过对目标特征加入了一个较小的扰动，统计整个样本控制上排序分累计的变化量，以确定出目标特征的重要性分析结果，即分析出该目标特征对在线排序的重要程度，从而可以有效地帮助特征筛选，控制模型规模，避免模型规模大导致模型在线存储、计算压力大等技术问题，能够有效地减轻了在线存储、计算的压力。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。

参照图3，示出了本发明的一种模型特征分析装置实施例的结构方框示意图，该模型特征分析装置具体可以包括如下模块：

样本获取模块310，用于获取日志中的样本信息，所述日志为在目标模型在线预测时生成的；

特征扰动模块320，用于对所述样本信息中的目标特征进行扰动，得到特征扰动信息；

排序变化确定模块330，用于依据所述特征扰动信息确定所述样本信息对应的排序变化信息；

重要性分析模块340，用于依据所述排序变化信息，确定所述目标特征的重要性分析结果。

在实际处理中，本实施例中的样本获取模块310可以在线部署。每次排序时，可以通过打印日志的方式，记录每条样本每一个特征的值，以及在线排序模型计算的排序分，从而使得样本获取模块310可以获取到日志中的样本信息，确保特征分析是基于实际预测的集合的数据分布，从而可以保证分析的结论符合在线实际情况，提高分析结果的准确性。

本实施例中的特征扰动模块320和排序变化确定模块330可以集成在同一个模块中，如可以将本实施例中的特征扰动模块320和排序变化确定模块330集成在排序分变化值计算模块中。该排序分变化值计算模块可以离线部署。在分析人员选定需要分析的特征后，排序分变化值计算模块可以将分析人员选定特征确定为目标特征，随后可以对该目标特征在每条样本中的特征值进行扰动，即对各条样本信息中的目标特征采用相同类型的扰动方式，且扰动的程度也保持相同，随后可以计算扰动后每条样本的排序分变化值，并可对日志中所有样本的排序分变化值进行汇总，得到在整个日志(即样本集合)中排序分变化的总和，即计算在样本集合上排序分变化的总和，将该排序分变化的总和可以表示目标特征变化引导的排序分变化的总和。

重要性分析模块340可作为特征重要性分析模块340，且该特征重要性分析模块340可以离线部署。在实际处理中，该特征重要性分析模块340可以根据排序分的变化值的从大到小排序，输出每个特征的变化引起的排序分变化的总和，使得分析人员可以依据输出的每个特征的变化引起的排序分变化的总和确定出每个特征的重要性，从而可以为分析人员提供特征选择的依据，能够有效帮助特征筛选，从而可有效控制模型规模，有效地减轻了在线存储、计算的压力，并可提升分析人员对业务的理解，如可以帮助工程师、运营人员等分析人员理解业务，为分析潜力主播、潜在付费用户关键特征等问题上提供帮助。

在上述实施例的基础上，可选地，所述日志可以包含至少两条样本信息，上述特征扰动模块320可以包括如下子模块：

待分析特征提取子模块，用于从每一条样本信息中提取作为所述目标特征的待分析特征；

扰动量信息确定子模块，用于依据所述待分析特征对应的特征类型，确定扰动量信息；

特征扰动信息确定子模块，用于基于所述扰动量信息和每一条样本信息中所述待分析特征的特征值信息，确定每一条样本信息对应的特征扰动信息。

在本发明的一个可选实施例中，扰动量信息确定子模块具体可以用于在所述特征类型为无序离散类型时，将所述待分析特征对应的向量取反信息作为所述扰动量信息。相应的，特征扰动信息确定子模块具体可以用于针对每一条样本信息，采用所述向量取反信息对所述特征值信息进行取反处理，得到对应的特征扰动信息。

可选地，本发明实施例中的扰动量信息确定子模块可以包括如下单元：取值分布信息确定单元和扰动量信息确定单元。其中，取值分布信息确定单元用于确定待分析特征对应的取值分布信息；扰动量信息确定单元用于依据取值分布信息所符合的分布条件，确定扰动量信息。

例如，在所述特征类型为连续类型时，取值分布信息确定单元用于确定所述待分析特征对应的取值分布信息。扰动量信息确定单元，用于在所述取值分布信息符合预设的幂律分布条件时，基于预设扰动增量信息，确定所述待分析特征对应的扰动量信息；以及，在所述取值分布信息符合预设的均匀分布条件时，基于所述待分析特征对应的特征阈值和预设扰动增量信息，确定所述扰动量信息。

又如，在特征类型为有序离散类型时，取值分布信息确定单元也可以用于确定所述待分析特征对应的取值分布信息。扰动量信息确定单元，可以用于在取值分布信息符合预设的幂律分布条件时，基于所述待分析特征对应的单位变化信息和预设扰动增量信息，确定所述扰动量信息；以及，在所述取值分布信息符合预设的均匀分布条件，基于所述待分析特征对应的单位变化信息和单位变化系数，确定所述扰动量信息。

在实际处理中，可以根据特征类型对取值分布信息确定单元进行划分，如可以分为第一取值分布信息确定单元和第二取值分布信息单元等；其中，第一取值分布信息确定单元，用于当所述特征类型为连续类型时，确定所述待分析特征对应的取值分布信息；第二取值分布信息确定单元，用于在所述特征类型为有序离散类型时，确定所述待分析特征对应的取值分布信息。

当然，也可以根据特征类型对扰动量信息确定单元进行划分，如可以分为第一扰动量信息确定单元和第二扰动量信息确定单元等；第一扰动量信息确定单元用于在特征类型为连续类型时，若所述取值分布信息符合预设的幂律分布条件，则基于预设扰动增量信息，确定所述待分析特征对应的扰动量信息；若取值分布信息符合预设的均匀分布条件，则基于所述待分析特征对应的特征阈值和预设扰动增量信息，确定所述扰动量信息。第二扰动量信息确定单元用于在特征类型为特征类型为有序离散类型时，若所述取值分布信息符合预设的幂律分布条件，则基于所述待分析特征对应的单位变化信息和预设扰动增量信息，确定所述扰动量信息；若所述取值分布信息符合预设的均匀分布条件，则基于所述待分析特征对应的单位变化信息和单位变化系数，确定所述扰动量信息。

因此，在本发明的一个可选实施方式中，扰动量信息确定子模块可以包括如下单元：

第一取值分布信息确定单元，用于当所述特征类型为连续类型时，确定所述待分析特征对应的取值分布信息；

第一扰动量信息确定单元，用于在所述取值分布信息符合预设的幂律分布条件时，基于预设扰动增量信息，确定所述待分析特征对应的扰动量信息；以及，在所述取值分布信息符合预设的均匀分布条件时基于所述待分析特征对应的特征阈值和预设扰动增量信息，确定所述扰动量信息。

可选的，本实施例中的扰动量信息确定子模块也可以包括如下单元：

第二取值分布信息确定单元，用于在所述特征类型为有序离散类型时，确定所述待分析特征对应的取值分布信息；

第二扰动量信息确定单元，用于在取值分布信息符合预设的幂律分布条件时，基于所述待分析特征对应的单位变化信息和预设扰动增量信息，确定所述扰动量信息；以及，在所述取值分布信息符合预设的均匀分布条件时，基于所述待分析特征对应的单位变化信息和单位变化系数，确定所述扰动量信息。

在上述实施例的基础之上，可选的，本实施例中的排序变化确定模块330可以包括如下子模块：

扰动排序分确定子模块，用于基于每一条样本信息对应的特征扰动信息和模型特征信息，确定每一条样本信息对应的扰动排序分，其中，所述模型特征信息包括所述样本信息中除了所述目标特征之外的模型特征的特征值；

排序变化信息确定子模块，用于针对每一条样本信息，基于所述扰动排序分与所述样本信息中的排序分之间的差值，确定对应的排序变化信息。

可选的，本实施例中的重要性分析模块340可以包括如下子模块：

统计子模块，用于对所述日志中各样本信息对应的排序变化信息进行统计，得到所述目标特征对应的排序分变化值；

分析结果确定子模块，用于基于所述排序分变化值确定所述目标特征的重要性分析结果。

需要说明的是，上述提供的模型特征分析装置可执行本发明任意实施例所提供的模型特征分析方法，具备执行方法相应的功能和有益效果。

在具体实现中，上述模型特征分析装置可以集成在设备中。该设备可以是两个或多个物理实体构成，也可以是一个物理实体构成，如设备可以是个人计算机(PersonalComputer，PC)、电脑、手机、平板设备、个人数字助理、服务器、游戏控制台等。

进一步的，本发明实施例还提供一种设备，包括：处理器和存储器。存储器中存储有至少一条指令，且指令由所述处理器执行，使得所述设备执行如上述方法实施例中所述的模型特征分析方法。

参照图4，示出了本发明一个示例中的一种设备的结构示意图。如图4所示，该设备具体可以包括：处理器40、存储器41、具有触摸功能的显示屏42、输入装置43、输出装置44以及通信装置45。该设备中处理器40的数量可以是一个或者多个，图4中以一个处理器40为例。该设备中存储器41的数量可以是一个或者多个，图4中以一个存储器41为例。该设备的处理器40、存储器41、显示屏42、输入装置43、输出装置44以及通信装置45可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的任务处理方法对应的程序指令/模块(例如，上述模型特征分析装置中的样本获取模块310、特征扰动模块320、排序变化确定模块330以及重要性分析模块340等)。存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显示屏42为具有触摸功能的显示屏42，其可以是电容屏、电磁屏或者红外屏。一般而言，显示屏42用于根据处理器40的指示显示数据，还用于接收作用于显示屏42的触摸操作，并将相应的信号发送至处理器40或其他装置。可选的，当显示屏42为红外屏时，其还包括红外触摸框，该红外触摸框设置在显示屏42的四周，其还可以用于接收红外信号，并将该红外信号发送至处理器40或者其他设备。

通信装置45，用于与其他设备建立通信连接，其可以是有线通信装置和/或无线通信装置。

输入装置43可用于接收输入的数字或者字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置44可以包括扬声器等音频设备。需要说明的是，输入装置43和输出装置44的具体组成可以根据实际情况设定。

处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述模型特征分析方法。

具体的，实施例中，处理器40执行存储器41中存储的一个或多个程序时，具体实现如下操作：获取日志中的样本信息，所述日志为在目标模型在线预测时生成的；对所述样本信息中的目标特征进行扰动，得到特征扰动信息；依据所述特征扰动信息确定所述样本信息对应的排序变化信息；依据所述排序变化信息，确定所述目标特征的重要性分析结果。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的模型特征分析方法。示例性的，该模型特征分析方法包括：获取日志中的样本信息，所述日志为在目标模型在线预测时生成的；对所述样本信息中的目标特征进行扰动，得到特征扰动信息；依据所述特征扰动信息确定所述样本信息对应的排序变化信息；依据所述排序变化信息，确定所述目标特征的重要性分析结果。

需要说明的是，对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的模型特征分析方法。

值得注意的是，上述模型特征分析装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由权利要求范围决定。

Claims

1.一种模型特征分析方法，其特征在于，包括：

2.根据权利要求1所述的模型特征分析方法，其特征在于，所述日志包含至少两条样本信息，所述对所述样本信息中的目标特征进行扰动，得到特征扰动信息包括：

从每一条样本信息中提取作为所述目标特征的待分析特征；

依据所述待分析特征对应的特征类型，确定扰动量信息；

基于所述扰动量信息和每一条样本信息中所述待分析特征的特征值信息，确定每一条样本信息对应的特征扰动信息。

3.根据权利要求2所述的模型特征分析方法，其特征在于，

所述依据所述待分析特征对应的特征类型，确定扰动量信息，包括：当所述特征类型为无序离散类型时，将所述待分析特征对应的向量取反信息作为所述扰动量信息；

所述基于所述扰动量信息和每一条样本信息中所述待分析特征的特征值信息，确定每一条样本信息对应的特征扰动信息，包括：针对每一条样本信息，采用所述向量取反信息对所述特征值信息进行取反处理，得到对应的特征扰动信息。

4.根据权利要求2所述的模型特征分析方法，其特征在于，所述依据所述待分析特征对应的特征类型，确定扰动量信息，包括：

当所述特征类型为连续类型时，确定所述待分析特征对应的取值分布信息；

若所述取值分布信息符合预设的幂律分布条件，则基于预设扰动增量信息，确定所述待分析特征对应的扰动量信息；

若所述取值分布信息符合预设的均匀分布条件，则基于所述待分析特征对应的特征阈值和预设扰动增量信息，确定所述扰动量信息。

5.根据权利要求2所述的模型特征分析方法，其特征在于，所述依据所述待分析特征对应的特征类型，确定扰动量信息，包括：

当所述特征类型为有序离散类型时，确定所述待分析特征对应的取值分布信息；

若所述取值分布信息符合预设的幂律分布条件，则基于所述待分析特征对应的单位变化信息和预设扰动增量信息，确定所述扰动量信息；

若所述取值分布信息符合预设的均匀分布条件，则基于所述待分析特征对应的单位变化信息和单位变化系数，确定所述扰动量信息。

6.根据权利要求2至5任一所述的模型特征分析方法，其特征在于，依据所述特征扰动信息确定所述样本信息对应的排序变化信息，包括：

基于每一条样本信息对应的特征扰动信息和模型特征信息，确定每一条样本信息对应的扰动排序分，其中，所述模型特征信息包括所述样本信息中除了所述目标特征之外的模型特征的特征值；

针对每一条样本信息，基于所述扰动排序分与所述样本信息中的排序分之间的差值，确定对应的排序变化信息。

7.根据权利要求6所述的模型特征分析方法，其特征在于，依据所述排序变化信息，确定所述目标特征的重要性分析结果，包括：

对所述日志中各样本信息对应的排序变化信息进行统计，得到所述目标特征对应的排序分变化值；

基于所述排序分变化值确定所述目标特征的重要性分析结果。

8.一种模型特征分析装置，其特征在于，包括：

9.一种设备，其特征在于，包括：处理器和存储器；

所述存储器中存储有至少一条指令，所述指令由所述处理器执行，使得所述设备执行如权利要求1至7任一所述的模型特征分析方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如权利要求1至7任一所述的模型特征分析方法。