CN114297234A

CN114297234A - 一种关键行为数据的识别方法和装置

Info

Publication number: CN114297234A
Application number: CN202111423413.7A
Authority: CN
Inventors: 杜园园; 冉丰凯; 柴敏; 朱建林
Original assignee: Taikang Life Insurance Co ltd; Taikang Insurance Group Co Ltd
Current assignee: Taikang Life Insurance Co ltd; Taikang Insurance Group Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-04-08

Abstract

本发明公开了一种关键行为数据的识别方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：根据规则引擎中的配置的行为判断规则得到第一规则集，通过预设算法模型从第一规则集中筛选出第二规则集，以第二规则集作为规则引擎实际使用的规则集，将采集的待识别数据集输入规则引擎，以识别出待识别数据集中的关键行为数据集。该实施方式能够自动加载规则引擎来识别关键行为数据，可用性高并提高了线索识别效率，结合算法模型优化规则引擎，提高了线索识别的准确性，可通过统一的行为数据采集标准采集行为数据以便存储，提高数据库存储能力。

Description

一种关键行为数据的识别方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种关键行为数据的识别方法和装置。

背景技术

随着互联网技术的迅速发展，互联网保险逐渐将保险产品的售卖、服务过程从传统线下转到了线上。客户在线上的行为日益增多，业务人员面对每日剧增的用户行为信息，如何识别出关键获客线索，对业务人员线上获客提出新的挑战。采用传统的数据库采集和消息推送，是通过业务数据库采集和人工筛选的方式，将客户所有行为数据实时全量推送给业务人员进行自主选择，需要业务人员从众多消息中识别出对获客有价值的线索，另外，用硬编码的方式将行为数据上报到业务数据库，需考虑传统数据库数据量的限制问题，存储能力有限，存在关键线索无法采集。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

需要业务人员从大量的客户信息中人工筛选出有价值的关键行为数据，其可用性差、效率低，数据库对行为数据的存储能力有限。

发明内容

有鉴于此，本发明实施例提供一种关键行为数据的识别方法和装置，能够自动加载规则引擎来识别关键行为数据，可用性高并提高了线索识别效率，结合算法模型优化规则引擎，提高了线索识别的准确性，可通过统一的行为数据采集标准采集行为数据以便存储，提高数据库存储能力。

为实现上述目的，根据本发明实施例的一个方面，提供了一种关键行为数据的识别方法。

一种关键行为数据的识别方法，包括：接收对规则引擎中行为判断规则的配置，根据配置的行为判断规则得到第一规则集；通过预设算法模型从所述第一规则集中筛选出第二规则集；以所述第二规则集作为所述规则引擎实际使用的规则集，将采集的待识别数据集输入所述规则引擎，以识别出所述待识别数据集中的关键行为数据集，所述待识别数据集包括业务人员和客户的行为数据。

可选地，所述预设算法模型为机器学习算法模型，所述机器学习算法模型为逻辑回归模型或梯度提升模型；所述通过预设算法模型从所述第一规则集中筛选出第二规则集，包括：构建所述机器学习算法模型的输入特征，所述机器学习算法模型的输入特征包括基于所述第一规则集得到的特征；通过所述机器学习算法模型输出每一输入特征对应的特征分数，将所述第一规则集中对应所述特征分数大于预设阈值的行为判断规则归属到所述第二规则集。

可选地，所述预设算法模型为因果推断模型；所述通过预设算法模型从所述第一规则集中筛选出第二规则集，包括：利用所述因果推断模型通过如下方式确定筛选指标：获取第一客户集中的客户在当前时刻之前的第一行为数据序列，所述第一客户集为尚未产生行为结果的客户构成的集合；从第二客户集中选出在当前时刻之前的行为数据序列与所述第一行为数据序列相似的一个或多个目标客户，并获取每一所述目标客户在当前时刻之后到产生所述行为结果之前的第二行为数据序列，其中，所述第二客户集为已知具有所述行为结果的客户构成的集合；根据每一所述第二行为数据序列中出现次数大于第一次数阈值的行为数据，和/或，所有所述第二行为数据序列中总计出现次数大于第二次数阈值的行为数据，确定所述筛选指标；利用所述筛选指标从所述第一规则集中筛选行为判断规则，并将筛选出的行为判断规则归属到所述第二规则集。

可选地，所述预设算法模型为解释神经网络模型；所述通过预设算法模型从所述第一规则集中筛选出第二规则集，包括：构建所述解释神经网络模型的输入特征，所述解释神经网络模型的输入特征包括基于所述第一规则集得到的特征；通过所述解释神经网络模型的解释模块得到所述神经网络的解释结果，所述解释结果包括关于行为数据的文本；将所述解释结果与所述解释神经网络模型的输入特征进行匹配，由匹配出的输入特征得到行为判断规则并归属到第二规则集。

可选地，以事件模型作为采集所述待识别数据集的数据采集标准，分别采集所述业务人员的行为数据和所述客户的行为数据，所述事件模型包括用户实体和事件实体，所述用户实体和所述事件实体的至少部分字段不同，用户为业务人员或客户。

可选地，所述将采集的待识别数据集输入所述规则引擎，以识别出所述待识别数据集中的关键行为数据集，包括：对所述待识别数据集进行指标加工，以提取出用于行为判断的指标和对应的指标值；通过所述规则引擎判断提取出的指标和对应的指标值是否符合所述实际使用的规则集中的行为判断规则，若符合，则将所述待识别数据集中对应该指标的行为数据作为关键行为数据，并添加到所述关键行为数据集。

可选地，所述识别出所述待识别数据集中的关键行为数据集之后，包括：将所述关键行为数据集存储到大数据集群或结构化数据库，并通过数据服务接口提供实时的数据查询服务，以供所述业务人员的客户端查询所述关键行为数据集中的行为数据；或者，通过所述数据服务接口提供消息通道推送服务，以通过消息通道向所述业务人员的客户端推送所述关键行为数据集中的行为数据。

根据本发明实施例的另一方面，提供了一种关键行为数据的识别装置。

一种关键行为数据的识别装置，包括：第一规则集配置模块，用于接收对规则引擎中行为判断规则的配置，根据配置的行为判断规则得到第一规则集；第二规则集筛选模块，用于通过预设算法模型从所述第一规则集中筛选出第二规则集；关键行为数据识别模块，用于以所述第二规则集作为所述规则引擎实际使用的规则集，将采集的待识别数据集输入所述规则引擎，以识别出所述待识别数据集中的关键行为数据集，所述待识别数据集包括业务人员和客户的行为数据。

可选地，所述预设算法模型为机器学习算法模型，所述机器学习算法模型为逻辑回归模型或梯度提升模型；所述第二规则集筛选模块还用于：构建所述机器学习算法模型的输入特征，所述机器学习算法模型的输入特征包括基于所述第一规则集得到的特征；通过所述机器学习算法模型输出每一输入特征对应的特征分数，将所述第一规则集中对应所述特征分数大于预设阈值的行为判断规则归属到所述第二规则集。

可选地，所述预设算法模型为因果推断模型；所述第二规则集筛选模块还用于：利用所述因果推断模型通过如下方式确定筛选指标：获取第一客户集中的客户在当前时刻之前的第一行为数据序列，所述第一客户集为尚未产生行为结果的客户构成的集合；从第二客户集中选出在当前时刻之前的行为数据序列与所述第一行为数据序列相似的一个或多个目标客户，并获取每一所述目标客户在当前时刻之后到产生所述行为结果之前的第二行为数据序列，其中，所述第二客户集为已知具有所述行为结果的客户构成的集合；根据每一所述第二行为数据序列中出现次数大于第一次数阈值的行为数据，和/或，所有所述第二行为数据序列中总计出现次数大于第二次数阈值的行为数据，确定所述筛选指标；利用所述筛选指标从所述第一规则集中筛选行为判断规则，并将筛选出的行为判断规则归属到所述第二规则集。

可选地，所述预设算法模型为解释神经网络模型；所述第二规则集筛选模块还用于：构建所述解释神经网络模型的输入特征，所述解释神经网络模型的输入特征包括基于所述第一规则集得到的特征；通过所述解释神经网络模型的解释模块得到所述神经网络的解释结果，所述解释结果包括关于行为数据的文本；将所述解释结果与所述解释神经网络模型的输入特征进行匹配，由匹配出的输入特征得到行为判断规则并归属到第二规则集。

可选地，还包括数据采集模块，用于以事件模型作为采集所述待识别数据集的数据采集标准，分别采集所述业务人员的行为数据和所述客户的行为数据，所述事件模型包括用户实体和事件实体，所述用户实体和所述事件实体的至少部分字段不同，用户为业务人员或客户。

可选地，所述关键行为数据识别模块还用于：对所述待识别数据集进行指标加工，以提取出用于行为判断的指标和对应的指标值；通过所述规则引擎判断提取出的指标和对应的指标值是否符合所述实际使用的规则集中的行为判断规则，若符合，则将所述待识别数据集中对应该指标的行为数据作为关键行为数据，并添加到所述关键行为数据集。

可选地，还包括数据存储和提供模块，用于：将所述关键行为数据集存储到大数据集群或结构化数据库，并通过数据服务接口提供实时的数据查询服务，以供所述业务人员的客户端查询所述关键行为数据集中的行为数据；或者，通过所述数据服务接口提供消息通道推送服务，以通过消息通道向所述业务人员的客户端推送所述关键行为数据集中的行为数据。

根据本发明实施例的又一方面，提供了一种电子设备。

一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明实施例所提供的关键行为数据的识别方法。

根据本发明实施例的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例所提供的关键行为数据的识别方法。

上述发明中的一个实施例具有如下优点或有益效果：接收对规则引擎中行为判断规则的配置，根据配置的行为判断规则得到第一规则集；通过预设算法模型从第一规则集中筛选出第二规则集；以第二规则集作为规则引擎实际使用的规则集，将采集的待识别数据集输入规则引擎，以识别出待识别数据集中的关键行为数据集，待识别数据集包括业务人员和客户的行为数据。能够自动加载规则引擎来识别关键行为数据，可用性高并提高了线索识别效率，结合算法模型优化规则引擎，提高了线索识别的准确性，可通过统一的行为数据采集标准采集行为数据以便存储，提高数据库存储能力。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明一个实施例的关键行为数据的识别方法的主要步骤示意图；

图2是根据本发明一个实施例的行为数据实时采集流程示意图；

图3是根据本发明一个实施例的关键行为数据的识别装置的主要模块示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明一个实施例的关键行为数据的识别方法的主要步骤示意图，如图1所示，本发明一个实施例的关键行为数据的识别方法主要包括如下的步骤S101至步骤S103。

步骤S101：接收对规则引擎中行为判断规则的配置，根据配置的行为判断规则得到第一规则集；

步骤S102：通过预设算法模型从第一规则集中筛选出第二规则集；

步骤S103：以第二规则集作为规则引擎实际使用的规则集，将采集的待识别数据集输入规则引擎，以识别出待识别数据集中的关键行为数据集，待识别数据集包括业务人员和客户的行为数据。应理解，这些行为数据以及文中所提及的客户信息、行为信息是经用户授权可以采集、存储、并用于后续推荐等应用所被使用的数据和信息。

对规则引擎中行为判断规则的配置可以是手动输入规则引擎的。

在一个实施例中，预设算法模型为机器学习算法模型，机器学习算法模型具体可以为逻辑回归模型或梯度提升模型。通过预设算法模型从第一规则集中筛选出第二规则集，具体步骤可包括：构建机器学习算法模型的输入特征，机器学习算法模型的输入特征可以包括基于第一规则集得到的特征，还可以包括通过人工筛选或算法筛选等方式得到的特征，将在下文详细介绍；通过机器学习算法模型输出每一输入特征对应的特征分数，将第一规则集中对应特征分数大于预设阈值的行为判断规则归属到第二规则集。

在一个实施例中，预设算法模型为因果推断模型。通过预设算法模型从第一规则集中筛选出第二规则集，具体步骤可包括：利用因果推断模型通过如下方式确定筛选指标：获取第一客户集中的客户在当前时刻之前的第一行为数据序列，例如序列(t₁,t₂,...,t_n)，其中包括第1至n个行为数据，第一客户集为尚未产生行为结果的客户构成的集合，行为结果是指关键行为数据将会引起的行为，例如浏览某保险产品A时间达到t秒为关键行为数据，会引起的行为是承保，那么承保即为行为结果；从第二客户集中选出在当前时刻之前的行为数据序列与第一行为数据序列相似的一个或多个目标客户，并获取每一目标客户在当前时刻之后到产生行为结果之前的第二行为数据序列，例如序列(t_n+1,t_n+2,...,t_n+m)，其中，第二客户集为已知具有行为结果的客户构成的集合，例如已知承保的客户构成的集合；根据每一第二行为数据序列中出现次数大于第一次数阈值的行为数据，和/或，所有第二行为数据序列中总计出现次数大于第二次数阈值的行为数据，确定筛选指标；利用筛选指标从第一规则集中筛选行为判断规则，并将筛选出的行为判断规则归属到第二规则集。

在一个实施例中，预设算法模型为解释神经网络模型。通过预设算法模型从第一规则集中筛选出第二规则集，具体步骤可包括：构建解释神经网络模型的输入特征，解释神经网络模型的输入特征包括基于第一规则集得到的特征；通过解释神经网络模型的解释模块得到神经网络的解释结果，解释结果包括关于行为数据的文本；将解释结果与解释神经网络模型的输入特征进行匹配，由匹配出的输入特征得到行为判断规则并归属到第二规则集。

在一个实施例中，可以以事件模型作为采集待识别数据集的数据采集标准，分别采集业务人员的行为数据和客户的行为数据，事件模型包括用户实体和事件实体，用户实体和事件实体的至少部分字段不同，用户为业务人员或客户。

将采集的待识别数据集输入规则引擎，以识别出待识别数据集中的关键行为数据集，具体可以包括：对待识别数据集进行指标加工，以提取出用于行为判断的指标和对应的指标值；通过规则引擎判断提取出的指标和对应的指标值是否符合实际使用的规则集中的行为判断规则，若符合，则将待识别数据集中对应该指标的行为数据作为关键行为数据，并添加到关键行为数据集。例如对待识别数据集进行指标加工，从待识别数据集的某一行为数据中提取出产品浏览时长这一指标，对应的指标值为t秒，若行为判断规则为产品浏览时长是否达到t秒，则该行为数据符合行为判断规则，被添加到关键行为数据集。

识别出待识别数据集中的关键行为数据集之后，可以将关键行为数据集存储到大数据集群或结构化数据库，并通过数据服务接口提供实时的数据查询服务，以供业务人员的客户端查询关键行为数据集中的行为数据；或者，通过数据服务接口提供消息通道推送服务，以通过消息通道向业务人员的客户端推送关键行为数据集中的行为数据。业务人员可将查询到的或推送过来的关键行为数据作为业务拓展的关键线索。

下面以保险领域为例，进一步介绍本发明实施例的关键行为数据的识别方法。本发明实施例在采集待识别数据集时，通过统一的数据采集标准，即事件模型，来采集业务人员和客户的行为数据。事件模型包括用户和事件两个实体。用户实体包括：属性英文变量名、属性显示名、属性值类型、属性值说明或示例等字段。事件实体包括：用户ID(标识)、事件名称、所属频道、页面名称、行为时间等字段。用户实体表的内容示例如表1所示，事件实体表的内容示例如表2所示。

表1

表2

本发明实施例还设定了团队ID、产品线、业务线、业务线版本等公共属性，均为动态公共属性，对于事件实体表中的每一事件均可包括公共属性，通过公共属性可以识别来自不同团队ID、产品线，业务线，业务线版本等的事件。公共属性可以如表3所示。

表3

保险业务人员和客户各端的行为数据均按照上述格式进行上报，方便数据处理、分析和存储。

对于采集的待识别数据集通过规则引擎来识别其中的关键行为数据集，关键行为数据集是关键行为数据的集合，关键行为数据可以作为保险业务人员拓客的关键线索。

可以根据场景设定不同的关键线索的规则集，例如基于产品列表浏览、产品点击、产品浏览时长、立即投保点击等生成行为判断规则，

例如产品列表浏览和产品点击次数超过N次(可根据效果动态调整)，产品浏览时长超过t秒，则认为该行为数据为关键行为数据，并将产品点击次数超过N次、产品浏览时长超过t秒的事件发生的最后一次时间、次数、时间等信息存储在结构化数据库中，可将识别出的关键行为数据实时发送给保险业务人员。

本发明实施例提供了规则引擎的自动设置系统，即可以根据业务需要动态设置规则引擎中的行为判断规则(简称规则)，配置的行为判断规则的集合构成规则引擎的配置的规则集。设置完毕后，选择发布设置的规则，ETL模块(ETL，是Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程，ETL模块的具体作用在下文实施例将进一步介绍)可自动加载规则引擎，对待识别数据集进行识别，当待识别数据集中的行为数据满足规则引擎中的规则条件时，则将该行为数据识别为关键行为数据，将该关键行为数据存储在数据库中或触发消息通道实时发送给业务人员。当待识别数据集中的行为数据不满足规则引擎中的规则条件时，将该行为数据存储在Redis缓存数据库中，Redis缓存中对该行为数据设置TTL(过期时间)，对于较长时间且未满足规则条件的行为数据予以删除，视为该行为数据不能成为保险业务人员拓客的关键线索。

在一个实施例中，可利用算法模型来优化规则引擎，具体地可将上述为规则引擎配置的规则集称为第一规则集，可通过预设算法模型从第一规则集中筛选出第二规则集，第二规则集为第一规则集的子集，以第二规则集作为规则引擎实际使用的规则集，即规则引擎使用第二规则集来对待识别数据集识别出关键行为数据。

预设算法模型可以是机器学习算法模型、因果推断模型、解释神经网络模型中的一种或多种。在预设算法模型采用多种模型时，可以将通过每种模型得到的规则集的并集作为第二规则集。

下面首先介绍本发明实施例的机器学习算法模型，具体可以为LR(逻辑回归模型)或XGBoost(梯度提升模型)。通过机器学习算法模型从第一规则集中筛选出第二规则集的过程包括：可先进行行为数据特征(即预设算法模型的输入特征)的选择和加工，行为数据特征的选择可采用人工筛选、规则引擎筛选、算法筛选等一种或多种方式。人工筛选即从业务人员和客户的埋点事件中人为选出与训练目标(即客户是否承保)关联较强的行为特征，比如特征feature1为：产品A是否点击，feature2为：产品A每日点击次数，feature3为：产品A是否点击立即投保，feature4为：产品浏览时长是否大于t秒等等。规则引擎筛选即，将业务人员设置的规则引擎中的规则作为预设算法模型的行为数据特征，输入到预设算法模型中，通过预设算法模型的输出(即特征分数)，可以验证业务人员设置的规则引擎中的规则是否为高价值的关键行为线索。算法筛选可以选择特征相关性分析的算法协方差、pearson系数(皮尔逊系数)等，只保留与标签的皮尔逊系数较大的变量，比如特征feature1和特征feature4相关性较强，但特征feature4与训练目标的皮尔逊系数较大，则选择特征feature4作为预设算法模型的输入特征参与训练，其目的是使得相关性较强的两个特征只保留其中一个特征参与训练。本发明实施例可采用特征相关性分析中常用的计算协方差和皮尔逊系数的方法来实现，本发明实施例对此不作详细介绍。行为数据特征的加工可根据特征设置的类型进行相应数值的加工，例如，若特征为是否点击，则点击设置为1，未点击设置为0，若特征为点击次数则统计每日的点击次数等等。

然后可进行特征数据的清洗，对于上文加工出的特征中空值、缺失值进行处理，填充默认值0或其他值，对于连续性特征，将数值跨度较大的特征选择归一化处理。因为本发明实施例采用的是LR或XGBoost模型，优选地，对连续性特征进行离散化处理。同时，对于空值占比较大的特征，可以将其删除。

在模型训练阶段，可将每个客户的行为数据特征X关联上客户是否承保Y，形成样本数据，并统计样本中正负样本的比例，若样本不均衡，可采用样本抽样的方法进行样本数据的筛选。将最后加工的样本数据按照一定比例，比如7：2：1分成训练集、测试集和验证集进行模型训练。在模型优化阶段，可以选择调整模型中的参数L1、L2和学习速率α优化模型效果，也可以通过优化特征提升模型效果，模型优化具体可参考通用的机器学习模型优化方法，本发明实施例不作详细介绍。其中优化特征可以将特征重要性弱的特征剔除，或者加工组合特征，比如将点击次数feature2和点击立即承保feature4进行组合，形成组合特征加入模型进行训练。

利用LR或XGBoost算法模型来优化规则引擎中的规则集，具体地，可基于规则引擎的配置的第一规则集构建该算法模型的输入特征，第一规则集可以作为该算法模型的输入特征集的一个子集，输入特征集中的其他特征可通过上文介绍的人工筛选、算法筛选等方式获取。将输入特征输入LR或XGBoost算法模型，可输出每个输入特征对应的分数，即特征分数，对特征按照分数排序，例如：

[feature3:0.2026578,feature4:0.17109634,feature1:0.089701,feature2:0.04651163,......]，将其中分数大于0.15(预设阈值，可根据经验值确定)且属于第一规则集中的输入特征归属到第二规则集中，从而将规则引擎中的规则集优化为该第二规则集。

下面介绍本发明实施例的因果推断模型。通过因果推断模型从第一规则集中筛选出第二规则集的具体实现步骤如下：可首先确定第一客户集中单个客户的行为数据序列t(t₁,t₂,...,t_n)(n为大于0的正整数)，该行为数据序列即第一行为数据序列，当前时刻为完成t_n对应的行为之后，但未开始t_n+1对应的行为的时刻。第一客户集为尚未产生行为结果的客户构成的集合，以保险领域为例，行为结果可以为承保，第一客户集中的客户即尚未确定是否即将承保的客户构成的集合。例如某个客户A的行为数据序列t(t₁：浏览首页，t₂：浏览资讯A，t₃：浏览产品列表，t₄：点击产品A，t₅：浏览产品A时间t秒)(n＝5)，单个客户的行为数据序列t(t₁,t₂,...,t_n)即t₁,t₂,...,t₅。从第二客户集中选出在当前时刻之前的行为数据序列与第一行为数据序列相似的一个或多个目标客户，第二客户集为已知具有行为结果的客户构成的集合。以保险领域为例，第二客户集即已知承保的客户构成的集合，从第二客户集中选出目标客户的过程即选出与序列t(t₁,t₂,...,t_n)相似(包括相同)且承保的客户集合S，客户集合S中的客户即目标客户。获取每一目标客户在当前时刻之后到产生行为结果之前的第二行为数据序列，对于本例，即获取(或构建)客户集合S中在t_n之后到承保之间的行为数据序列(t_n+1,t_n+2,...,t_n+m)(m为大于0的正整数)，(t_n+1,t_n+2,...,t_n+m)即第二行为数据序列。存在多个行为数据时，可以取出现次数最多的行为数据，若出现次数最多的行为数据有多个，可以随机取其中一个。

可以根据单个第二行为数据序列中出现次数大于第一次数阈值的行为数据，和/或，所有第二行为数据序列中总计出现次数大于第二次数阈值的行为数据，确定筛选指标。即：将行为数据序列(t_n+1,t_n+2,...,t_n+m)中出现次数大于第一次数阈值的行为数据作为筛选指标，和/或，在客户集合S中所有行为数据序列(t_n+1,t_n+2,...,t_n+m)的总计出现次数大于第二次数阈值的行为数据作为筛选指标。通过上述筛选指标可以从第一规则集中筛选行为判断规则，例如某行为数据序列(t_n+1,t_n+2,...,t_n+m)浏览产品A时间超过t秒的次数大于5次，则可将浏览产品A时间是否大于t秒作为一个行为判断规则，或者，所有行为数据序列(t_n+1,t_n+2,...,t_n+m)浏览产品A时间超过t秒的总计次数大于5k次(k可以是客户集合S中目标客户的总数量)，则可将浏览产品A时间是否大于t秒作为一个行为判断规则。将通过上述筛选指标从第一规则集中筛选出的行为判断规则归属到第二规则集。

下面介绍本发明实施例的解释神经网络模型。解释神经网络模型(ExplainingDeep Neural Networks)可在模型中植入一个生成预测解释的模块，对模型预测的结果进行解释。模型可对自己生成的解释进行判断，从而得出神经网络解释的结果。由于解释神经网络模型本身是现有模型，本发明实施例对该模型本身不做详细介绍。本发明实施例通过解释神经网络模型从第一规则集中筛选出第二规则集的具体过程如下：可先构建解释神经网络模型的输入特征，具体即进行行为数据特征(即输入特征)的选择和加工，以及特征数据的清洗，具体方法与上文介绍的LR(逻辑回归模型)或XGBoost(梯度提升模型)中特征选择、加工、清洗的方法相同，此处不再赘述。在模型训练阶段，除了生成样本数据外，解释神经网络模型需要在模型中植入生成预测的解释模块，得出神经网络的解释结果，解释结果包括关于行为数据的文本。在模型优化阶段，通过调整超参神经网络的层数、dropout(舍弃)或学习速率等调整模型的效果。将解释结果与解释神经网络模型的输入特征进行匹配，由匹配出的输入特征得到行为判断规则，并将得到的该行为判断规则归属到第二规则集。例如，解释结果包括关于产品浏览时长是否大于t秒的文本：产品浏览时长，解释神经网络模型的一个输入特征为产品浏览时长是否大于t秒，那么将该二者匹配，可以将该输入特征作为匹配出的输入特征，即得到行为判断规则为产品浏览时长是否大于t秒，并将该规则归属到第二规则集。

在一个实施例中，可以从上述所有预设算法模型中任选两种或多种预设算法模型，通过所选的两种或多种预设算法模型分别得到一个规则集，然后将所选的各预设算法模型得出的规则集归属到第二规则集，具体可以以取所选的各预设算法模型输出的规则集的并集，得到第二规则集，即得到规则引擎实际使用的规则集。

在本发明一个实施例中，机器学习算法模型、因果推断模型、解释神经网络模型等预设算法模型除了用于优化规则引擎的规则集，还可直接使用机器学习算法模型、因果推断模型、解释神经网络模型中的一种或多种模型来识别待识别数据集中的关键行为数据集，将各模型的识别结果作为规则引擎的识别结果的补充，例如将通过预设算法模型对待识别数据集识别出的第一关键行为数据集与通过规则引擎对待识别数据集识别出的第二关键行为数据集，该两种关键行为数据集取并集，得到最终识别出的待识别数据集中的关键行为数据集。在利用机器学习算法模型，例如LR或XGBoost算法模型识别关键行为数据集时，输入特征为待识别数据集中的行为数据对应的特征，输入特征的具体形式参见上文对机器学习算法模型的介绍，输出特征分数，按照特征分数排序，可将待识别数据集中对应的特征的特征分数大于0.15(预设阈值)的行为数据作为关键行为数据。例如某行为数据为产品浏览时长是否大于t秒，通过本发明实施例的机器学习算法模型得出特征分数大于0.15，那么可以将该行为数据作为关键行为数据。在利用因果推断模型识别关键行为数据时，参照上文介绍，可将待识别数据集作为第一客户集，通过因果推断模型得出的筛选指标可用于识别待识别数据集中的关键行为数据，例如筛选指标为浏览产品A时间是否大于t秒，若待识别数据集中有浏览产品A时间大于t秒的行为数据，则作为关键行为数据。在利用解释神经网络模型识别关键行为数据集时，可以利用神经网络的解释结果所包括关于行为数据的文本来识别待识别数据集中的关键行为数据，例如解释结果包括关于产品浏览时长是否大于t秒的文本：产品浏览时长，若待识别数据集中包括产品浏览时长大于t秒的行为数据，则可将该行为数据作为关键行为数据。

图2是根据本发明一个实施例的行为数据实时采集流程示意图。如图2所示，服务端和客户端分别根据本发明实施例的标准模板实时上报业务人员的行为数据(由服务端上报)和客户的行为数据(由客户端)，标准模板即统一的数据采集标准，即事件模型。接收端(具体可以是本发明实施例的数据采集模块，可参见下文实施例)实时接收上报的行为数据，并对接收的行为数据增加接收时间，将行为数据实时发送到kafka(一种高吞吐量的分布式发布订阅消息系统)中。kafka接收到行为数据后，会保留最近7天的数据。

ETL模块实时消费kafka中的行为数据，并将处理好的行为数据存储在大数据集群的hive(基于Hadoop的一个数据仓库工具)或结构化数据库中。ETL模块主要采用SparkStreaming或Flink(为开源流处理框架)实时消费kafka的行为数据并进行解析，解析主要包括明细数据结构化入库、指标的加工、关键行为数据的识别。明细数据是指通过统一的数据采集标准采集到的事件形式的行为数据，即待识别数据集，其需要转换为结构化的明细数据以便存储到数据库，可用于后续在报表系统做可视化报表使用，以及用于后续需求指标的离线加工。指标的离线加工是指标的非实时加工，即先存储到大数据集群等，后续再进行指标的加工，指标的离线加工可以是对待识别数据集的指标离线加工，以提取用于行为判断的指标和对应的指标值。指标的加工可包括但不限于pv(页面访问量，又叫做页面浏览量、点击量)、uv(独立访客)、转化率、点击率等核心指标值的提取和计算。

大数据集群可以存储明细数据、指标数据和关键行为数据，指标数据即对待识别数据集进行指标加工而提取出的指标和对应的指标值。基于离线加工的指标和指标值识别得到的关键行为数据，即离线关键线索，离线指标、离线关键线索可基于大数据集群进行离线加工、识别。结构化数据库可主要用于存储实时和离线的指标数据和关键行为数据，提供高并发的数据查询服务。

数据服务接口为应用层(例如保单检视等应用层模块)提供实时的数据查询服务，或消息通道推送服务。业务人员可通过应用的消息通知功能或应用的功能模块及时查询客户的线索信息，帮助业务人员及时了解掌握客户动态，有效提升获客的成功率。

在一个实施例中，在保单检视场景中，业务人员将保单检视报告转发给客户，客户查看保单检视报告后，将客户的查看信息实时推送给业务人员，业务人员例如保单检视代理人(简称代理人)。进行保单检视代理人和客户的行为数据采集，客户查看保单检视报告的事件，其事件id为：bdjs_bdjsbg_view，事件属性如表4所示：

表4

客户产生查看保单检视报告行为时，则按照事件id和属性进行行为数据的上报。客户端上报用户的查看保单检视报告行为事件，接收端接收该行为事件并增加接收日期。因为有延迟上报的情况，接收日期与上报日期可能差距很大。保单检视代理人的行为数据也按照同样方式上报。接收端接收到行为数据后将行为数据发送到kafka。ETL模块加载规则引擎对行为数据进行实时处理，以识别出关键行为数据并存储在数据库(大数据/结构化数据库)中。应用层从数据服务接口查询关键行为数据，并实时发送到消息通道，通过消息通道发送给业务人员。通过规则引擎可增加规则，规则例如：客户查看保单检视报告的行为即认为该行为数据关键线索，则ETL模块判断事件id是否为bdjs_bdjsbg_view，若是则存储在数据库中。业务人员根据消息通道推送过来的消息通知，针对性地对客户进行沟通和转发感兴趣的内容，进而提高服务和内容推送的针对性。

本发明实施例基于客户在不同端行为数据的特点，根据不同的产品线、业务线采用统一的数据采集标准，全面采集各触点(小程序、官微、商城、APP等)的行为数据，采用大数据处理平台实现海量数据的实时采集，具备海量数据实时采集和处理的能力，基于业务规则和算法模型识别出客户行为数据的关键线索，采用保险的业务逻辑，比如基于投保流程、产品浏览等的行为数据得到关键行为线索集，并将客户关键线索实时有效地推送给业务人员。采用因果推断或解释神经网络算法模型有助于优化规则引擎，采用消息通道机制，实时将客户关键线索发送给业务人员，实现客户的快速转化，提升代理人获客能力。

图3是根据本发明一个实施例的关键行为数据的识别装置的主要模块示意图。如图3所示，本发明一个实施例的关键行为数据的识别装置300主要包括：第一规则集配置模块301、第二规则集筛选模块302、关键行为数据识别模块303。

第一规则集配置模块301，用于接收对规则引擎中行为判断规则的配置，根据配置的行为判断规则得到第一规则集；

第二规则集筛选模块302，用于通过预设算法模型从第一规则集中筛选出第二规则集；

关键行为数据识别模块303，用于以第二规则集作为规则引擎实际使用的规则集，将采集的待识别数据集输入规则引擎，以识别出待识别数据集中的关键行为数据集，待识别数据集包括业务人员和客户的行为数据。

在一个实施例中，预设算法模型为机器学习算法模型，机器学习算法模型具体为逻辑回归模型或梯度提升模型。

第二规则集筛选模块302具体可用于：构建机器学习算法模型的输入特征，机器学习算法模型的输入特征包括基于第一规则集得到的特征；通过机器学习算法模型输出每一输入特征对应的特征分数，将第一规则集中对应特征分数大于预设阈值的行为判断规则归属到第二规则集。

在一个实施例中，预设算法模型为因果推断模型。第二规则集筛选模块302具体可用于：利用因果推断模型通过如下方式确定筛选指标：获取第一客户集中的客户在当前时刻之前的第一行为数据序列，第一客户集为尚未产生行为结果的客户构成的集合；从第二客户集中选出在当前时刻之前的行为数据序列与第一行为数据序列相似的一个或多个目标客户，并获取每一目标客户在当前时刻之后到产生行为结果之前的第二行为数据序列，其中，第二客户集为已知具有行为结果的客户构成的集合；根据每一第二行为数据序列中出现次数大于第一次数阈值的行为数据，和/或，所有第二行为数据序列中总计出现次数大于第二次数阈值的行为数据，确定筛选指标；利用筛选指标从第一规则集中筛选行为判断规则，并将筛选出的行为判断规则归属到第二规则集。

在一个实施例中，预设算法模型为解释神经网络模型。第二规则集筛选模块302具体可用于：构建解释神经网络模型的输入特征，解释神经网络模型的输入特征包括基于第一规则集得到的特征；通过解释神经网络模型的解释模块得到神经网络的解释结果，解释结果包括关于行为数据的文本；将解释结果与解释神经网络模型的输入特征进行匹配，由匹配出的输入特征得到行为判断规则并归属到第二规则集。

关键行为数据的识别装置300还可包括数据采集模块，用于以事件模型作为采集待识别数据集的数据采集标准，分别采集业务人员的行为数据和客户的行为数据，事件模型包括用户实体和事件实体，用户实体和事件实体的至少部分字段不同，用户为业务人员或客户。

关键行为数据识别模块303具体可用于：对待识别数据集进行指标加工，以提取出用于行为判断的指标和对应的指标值；通过规则引擎判断提取出的指标和对应的指标值是否符合实际使用的规则集中的行为判断规则，若符合，则将待识别数据集中对应该指标的行为数据作为关键行为数据，并添加到关键行为数据集。

关键行为数据的识别装置300还可包括数据存储和提供模块，用于：将关键行为数据集存储到大数据集群或结构化数据库，并通过数据服务接口提供实时的数据查询服务，以供业务人员的客户端查询关键行为数据集中的行为数据；或者，通过数据服务接口提供消息通道推送服务，以通过消息通道向业务人员的客户端推送关键行为数据集中的行为数据。

另外，在本发明实施例中关键行为数据的识别装置的具体实施内容，在上面关键行为数据的识别方法中已经详细说明了，故在此重复内容不再说明。

图4示出了可以应用本发明实施例的关键行为数据的识别方法或关键行为数据的识别装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的关键行为数据的识别方法一般由服务器405执行，相应地，关键行为数据的识别装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。图5示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考主要步骤示意图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行主要步骤示意图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的主要步骤示意图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，主要步骤示意图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或主要步骤示意图中的每个方框、以及框图或主要步骤示意图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一规则集配置模块、第二规则集筛选模块、关键行为数据识别模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一规则集配置模块还可以被描述为“用于接收对规则引擎中行为判断规则的配置，根据配置的行为判断规则得到第一规则集的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：接收对规则引擎中行为判断规则的配置，根据配置的行为判断规则得到第一规则集；通过预设算法模型从第一规则集中筛选出第二规则集；以第二规则集作为规则引擎实际使用的规则集，将采集的待识别数据集输入规则引擎，以识别出待识别数据集中的关键行为数据集，待识别数据集包括业务人员和客户的行为数据。

根据本发明实施例的技术方案，根据规则引擎中的配置的行为判断规则得到第一规则集，通过预设算法模型从第一规则集中筛选出第二规则集，以第二规则集作为规则引擎实际使用的规则集，将采集的待识别数据集输入规则引擎，以识别出待识别数据集中的关键行为数据集。能够自动加载规则引擎来识别关键行为数据，可用性高并提高了线索识别效率，结合算法模型优化规则引擎，提高了线索识别的准确性，可根据不同的产品线、业务线通过统一的行为数据采集标准采集行为数据以便存储，提高数据库存储能力。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种关键行为数据的识别方法，其特征在于，包括：

接收对规则引擎中行为判断规则的配置，根据配置的行为判断规则得到第一规则集；

通过预设算法模型从所述第一规则集中筛选出第二规则集；

以所述第二规则集作为所述规则引擎实际使用的规则集，将采集的待识别数据集输入所述规则引擎，以识别出所述待识别数据集中的关键行为数据集，所述待识别数据集包括业务人员和客户的行为数据。

2.根据权利要求1所述的方法，其特征在于，所述预设算法模型为机器学习算法模型，所述机器学习算法模型为逻辑回归模型或梯度提升模型；

所述通过预设算法模型从所述第一规则集中筛选出第二规则集，包括：

构建所述机器学习算法模型的输入特征，所述机器学习算法模型的输入特征包括基于所述第一规则集得到的特征；

通过所述机器学习算法模型输出每一输入特征对应的特征分数，将所述第一规则集中对应所述特征分数大于预设阈值的行为判断规则归属到所述第二规则集。

3.根据权利要求1所述的方法，其特征在于，所述预设算法模型为因果推断模型；

利用所述因果推断模型通过如下方式确定筛选指标：获取第一客户集中的客户在当前时刻之前的第一行为数据序列，所述第一客户集为尚未产生行为结果的客户构成的集合；从第二客户集中选出在当前时刻之前的行为数据序列与所述第一行为数据序列相似的一个或多个目标客户，并获取每一所述目标客户在当前时刻之后到产生所述行为结果之前的第二行为数据序列，其中，所述第二客户集为已知具有所述行为结果的客户构成的集合；根据每一所述第二行为数据序列中出现次数大于第一次数阈值的行为数据，和/或，所有所述第二行为数据序列中总计出现次数大于第二次数阈值的行为数据，确定所述筛选指标；

利用所述筛选指标从所述第一规则集中筛选行为判断规则，并将筛选出的行为判断规则归属到所述第二规则集。

4.根据权利要求1所述的方法，其特征在于，所述预设算法模型为解释神经网络模型；

构建所述解释神经网络模型的输入特征，所述解释神经网络模型的输入特征包括基于所述第一规则集得到的特征；

通过所述解释神经网络模型的解释模块得到所述神经网络的解释结果，所述解释结果包括关于行为数据的文本；

将所述解释结果与所述解释神经网络模型的输入特征进行匹配，由匹配出的输入特征得到行为判断规则并归属到第二规则集。

5.根据权利要求1所述的方法，其特征在于，以事件模型作为采集所述待识别数据集的数据采集标准，分别采集所述业务人员的行为数据和所述客户的行为数据，所述事件模型包括用户实体和事件实体，所述用户实体和所述事件实体的至少部分字段不同，用户为业务人员或客户。

6.根据权利要求1所述的方法，其特征在于，所述将采集的待识别数据集输入所述规则引擎，以识别出所述待识别数据集中的关键行为数据集，包括：

对所述待识别数据集进行指标加工，以提取出用于行为判断的指标和对应的指标值；

通过所述规则引擎判断提取出的指标和对应的指标值是否符合所述实际使用的规则集中的行为判断规则，若符合，则将所述待识别数据集中对应该指标的行为数据作为关键行为数据，并添加到所述关键行为数据集。

7.根据权利要求1所述的方法，其特征在于，所述识别出所述待识别数据集中的关键行为数据集之后，包括：

将所述关键行为数据集存储到大数据集群或结构化数据库，并通过数据服务接口提供实时的数据查询服务，以供所述业务人员的客户端查询所述关键行为数据集中的行为数据；或者，通过所述数据服务接口提供消息通道推送服务，以通过消息通道向所述业务人员的客户端推送所述关键行为数据集中的行为数据。

8.一种关键行为数据的识别装置，其特征在于，包括：

第一规则集配置模块，用于接收对规则引擎中行为判断规则的配置，根据配置的行为判断规则得到第一规则集；

第二规则集筛选模块，用于通过预设算法模型从所述第一规则集中筛选出第二规则集；

关键行为数据识别模块，用于以所述第二规则集作为所述规则引擎实际使用的规则集，将采集的待识别数据集输入所述规则引擎，以识别出所述待识别数据集中的关键行为数据集，所述待识别数据集包括业务人员和客户的行为数据。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。