CN114140140B

CN114140140B - 一种场景筛选方法、装置及设备

Info

Publication number: CN114140140B
Application number: CN202010917238.6A
Authority: CN
Inventors: 傅泉辉; 郑欢; 陈勇; 林儿; 王文生; 高琴; 余侃; 鲁惟翔; 傅一平; 岑伟迪
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2023-03-21
Anticipated expiration: 2040-09-03
Also published as: CN114140140A

Abstract

本发明实施例涉及移动通信技术领域，公开了一种场景筛选方法、装置及设备，该方法包括：对待筛选场景集进行抽样得到样本场景集；从预设的场景基础数据库中获取各场景的场景线索信息，将样本场景集分为正向样本场景清单和负向样本场景清单；为正向场景、负向场景和待定场景，生成场景画像矢量；根据场景画像矢量获取各正向场景之间余弦距离最小值，各正向场景和各负向场景之间余弦距离最大值，根据所述最小值与所述最大值确定第一阈值；根据场景画像矢量获得待定场景与各正向场景之间余弦距离最大值；当该余弦距离最大值小于等于第一阈值时，将待定场景归入推荐场景清单。通过上述方式，本发明实施例实现了全面精准地对场景进行筛选。

Description

一种场景筛选方法、装置及设备

技术领域

本发明实施例涉及移动通信技术领域，具体涉及一种场景筛选方法、装置及设备。

背景技术

在移动通信业务应用过程中，业务人员往往会遇到大量的场景，比如商场、学校、工厂等，需要通过场景建模来筛选出目标类型的场景。场景建模的常用方法有：1、通过指标建立筛选条件进行场景筛选，即业务人员通过一个或几个业务指标来筛选过滤场景，例如场景内某类人群数量超过多少个，且场景某业务指标低于某个值，这是最常见的建模方法；2、通过使用场景标签筛选场景，如果系统提供用户为场景打标签的功能，用户可以通过选择指定的标签或标签组合来筛选场景。

在实现本发明实施例的过程中，发明人发现：现有的场景筛选方法过于依赖人的判断，在建模中考虑的因素也不够全面，容易造成模型精确度不高，筛选出来的场景应用效果不佳。

发明内容

鉴于上述问题，本发明实施例提供了一种场景筛选的方法、装置及设备，用于解决现有技术中存在的模型精确度不高，筛选结果不够精准的问题。

根据本发明实施例的一个方面，提供了一种场景筛选方法，包括：

对待筛选场景集进行抽样得到样本场景集；从预设的场景基础数据库中获取所述样本场景集中各场景的场景线索信息，根据所述场景线索信息将所述样本场景集分为正向样本场景清单和负向样本场景清单；所述正向样本场景清单中场景为正向场景，所述负向样本场景清单中场景为负向场景；

将所述待筛选场景集中不属于所述正向样本场景清单和所述负向样本场景清单的场景确定为待定场景集；

根据所述预设的场景基础数据库为所述正向样本场景清单中正向场景、负向样本场景清单中负向场景和待定场景集中待定场景，生成场景用户矢量集和场景业务矢量集；根据所述场景用户矢量集和所述场景业务矢量集统计得到场景画像矢量；

根据所述场景画像矢量获取各正向场景之间余弦距离最小值，根据所述场景画像矢量获取各正向场景和各负向场景之间余弦距离最大值，根据所述各正向场景之间余弦距离最小值，与所述各正向场景和各负向场景之间余弦距离最大值确定第一阈值；

根据所述场景画像矢量获得所述待定场景与各正向场景之间余弦距离最大值；当所述待定场景与各正向场景之间余弦距离最大值小于等于第一阈值时，将所述待定场景归入推荐场景清单。

根据本发明实施例的另一方面，提供了一种场景筛选装置，包括：

场景抽样分类模块，用于对待筛选场景集进行抽样得到样本场景集；从预设的场景基础数据库中获取所述样本场景集中各场景的场景线索信息，根据所述场景线索信息将所述样本场景集分为正向样本场景清单和负向样本场景清单；所述正向样本场景清单中场景为正向场景，所述负向样本场景清单中场景为负向场景；将所述待筛选场景集中不属于所述正向样本场景清单和所述负向样本场景清单的场景确定为待定场景集；

场景矢量生成模块，用于根据所述预设的场景基础数据库为所述正向样本场景清单中正向场景、负向样本场景清单中负向场景和待定场景集中待定场景，生成场景用户矢量集和场景业务矢量集；根据所述场景用户矢量集和所述场景业务矢量集统计得到场景画像矢量；

第一阈值确定模块，用于根据所述场景画像矢量获取各正向场景之间余弦距离最小值，根据所述场景画像矢量获取各正向场景和各负向场景之间余弦距离最大值，根据所述各正向场景之间余弦距离最小值，与所述各正向场景和各负向场景之间余弦距离最大值确定第一阈值；

推荐场景生成模块，用于根据所述场景画像矢量获得所述待定场景与各正向场景之间余弦距离最大值；当所述待定场景与各正向场景之间余弦距离最大值小于等于第一阈值时，将所述待定场景归入推荐场景清单。

根据本发明实施例的另一方面，提供了一种场景筛选设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行所述的场景筛选方法的操作。

本发明实施例中通过上述场景筛选方法，对待筛选场景集进行抽样，并根据各种场景线索信息将样本场景集分为正向样本场景清单和负向样本场景清单，对正向场景、负向场景和待定场景分别生成场景用户矢量集、场景业务矢量集及场景画像矢量，根据各场景之间余弦相似度对待定场景进行筛选，得到推荐场景清单；该场景筛选方法实现了完全自动化构建场景筛选模型，自动生成样本清单，并进行矢量数据的整理计算分析判断，无需手工创建样本空间及各种数据，不依赖业务人员的主观认识；建模所考虑的场景筛选因素比较全面，综合运用了预设的场景基础数据库中各种数据，从用户价值和业务价值的角度对场景做了全面的筛选，生成的场景筛选结果也比较精准，应用效果较佳，大幅增加了场景筛选模型的可用性。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

附图仅用于示出实施方式，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的场景筛选方法模型建模的框架示意图；

图2示出了本发明实施例提供的场景筛选方法的流程示意图；

图3示出了本发明实施例提供的场景筛选方法模型优化的框架示意图；

图4示出了本发明实施例提供的场景筛选装置的结构示意图；

图5示出了本发明实施例提供的场景筛选设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。

本发明实施例主要以预设的场景基础数据库为数据来源，利用该数据库所提供的数据能力，全面精准地建立场景筛选模型，并可持续对其进行优化。图1示出了本发明实施例提供的场景筛选方法模型建模的框架示意图。除了预设的场景基础数据库外，该方法主要由以下模块组成：

1、智能场景线索提取模块(ISTEM-Intelligent Scenario Thread ExtractionModule)：该模块通过场景标签、评价、重点场景申请等多数据维度结合的方法，自动抽样生成指定类别重点场景的正负样本场景清单，为后续的机器学习算法自动生成训练样本场景清单；

2、场景数据生成器(SDG，Scenario Data Generator)：该模块基于场景基础数据库，构建三套场景数据矢量，以支持场景筛选模型学习所需要的数据；

3、智能模型学习模块(IML，Intelligent Model Learning)，即场景模型学习机(SMLM，Scenario Model Learning Machine)：该模块基于三套场景数据矢量，依据智能场景线索提取模块提供的样本归类结果，综合运用推荐算法和预测算法，根据成本效益的评估计算，最终生成重点场景清单。

图2示出了本发明实施例提供的场景筛选方法的流程示意图。如图2所示，该方法包括以下步骤：

步骤210：对待筛选场景集进行抽样得到样本场景集；从预设的场景基础数据库中获取所述样本场景集中各场景的场景线索信息，根据所述场景线索信息将所述样本场景集分为正向样本场景清单和负向样本场景清单；所述正向样本场景清单中场景为正向场景，所述负向样本场景清单中场景为负向场景。

该步骤主要对应于图1中智能场景线索提取模块的功能。上述待筛选场景集指的是本实施例场景筛选方法所针对的一组场景的集合。为了形成训练样本，需要对待筛选场景集进行抽样得到样本场景集。上述场景线索信息是为了对样本场景集进行分类而从场景基础数据库中提取的场景的信息，具体可包括：场景标签信息、场景评价信息和场景申请信息等。相应的，步骤210具体可包括以下步骤：

步骤211：从预设的场景基础数据库中获取所述样本场景集中各场景的场景标签信息，根据所述场景标签信息中包含的正向标签和负向标签数量，生成所述样本场景集中各场景的标签打分。

该步骤主要对应于图1中智能场景标签器(ISL，Intelligent Scenario Labeler)的功能。具体的，可从场景基础数据库中一个或多个数据块中提取样本场景集中各场景的场景标签信息。当然也可一次性提取待筛选场景集中每个场景所拥有的场景标签信息，然后从中选取样本场景集中各场景的场景标签信息。该场景标签信息为用户在开展业务过程中为场景打的标签，具体可以为用户为该场景生成的一个关键词，如人多、速度快等。

分析样本场景集中某个场景n的场景标签信息中包含的正向标签和负向标签，按每个正向标签加一分，每个负向标签减一分的规则，为场景n生成标签打分Lb_n＝P_n-N_n。其中P_n为场景n的场景标签信息中包含的正向标签数量，N_n为场景n的场景标签信息中包含的负向标签数量，Lb_n为场景n的标签打分。正向标签和负向标签清单由业务人员根据场景筛选模型所针对的重点业务具体选择，该重点业务可能是一个也可能是多个，在不同时期模型所针对的重点业务会有所不同。例如，用户打的标签“人多”会被业务人员依据模型所针对的重点业务判断成一个正向标签。

步骤212：从预设的场景基础数据库中获取所述样本场景集中各场景的场景评价信息，根据所述场景评价信息中包含的正向标签和负向标签数量，生成所述样本场景集中各场景的评价打分。

该步骤主要对应于图1中场景评价分析器(SEA，Scenario Evaluation Analyzer)的功能。上述场景评价信息是用户在开展业务过程中为场景生成的历史评价数据。具体的，可从场景基础数据库中一个或多个数据块中(如场景评价反馈数据、场景评价申请文本数据)提取样本场景集中各场景的场景评价信息，当然也可一次性提取待筛选场景集中每个场景所拥有的所有历史评价信息，然后从中选取样本场景集中各场景的场景评价信息。

对样本场景集中某个场景n，使用上述正向标签和负向标签分别进行文本匹配，从而形成场景n的评价打分Cm_n＝P_n-N_n。其中P_n为场景n评价中匹配到的正向标签数量，N_n为场景n评价中匹配到的负向标签数量，Cm_n为场景n的评价打分。步骤212使用与步骤211同样的正向标签和负向标签清单。

步骤213：从预设的场景基础数据库中获取所述样本场景集中各场景的场景申请信息，根据所述场景申请信息中包含的申请评估结果，生成所述样本场景集中各场景的归类打分。

该步骤主要对应于图1中场景申请分析器(SAA，Scenario ApplicationAnalyzer)的功能。上述场景申请信息是用户提交的与重点业务相关的重点场景申请信息。具体的，可从场景基础数据库中一个或多个数据块中提取样本场景集中各场景的场景申请信息，当然也可一次性提取待筛选场景集中每个场景的场景申请信息，然后从中选取样本场景集中各场景的场景申请信息。

对样本场景集中某个场景n，根据场景申请信息中包含的重点场景申请评估的结果(接受或拒绝)生成场景n的归类打分Cat_n。其中当场景n的评估结果为接受时，Cat_n＝1；场景n的评估结果为接受时，Cat_n＝-1。如果场景n有多个重点场景申请，则有多个申请评估结果，将这些结果值相加得到Cat_n值。

步骤214：根据所述标签打分、评价打分及归类打分生成所述样本场景集中各场景的综合得分，若所述综合得分大于零则将所述样本场景集中场景归入正向样本场景清单，若所述综合得分小于零则将所述样本场景集中场景归入负向样本场景清单。

该步骤主要对应于图1中场景抽样机(SS，Scenario Sampler)的功能。该步骤综合计算某个场景的得分，并形成正向和负向样本场景列表。具体的，样本场景集中某个场景n的综合得分计算公式为M_n＝α·Lb_n+β·Cm_n+γ·Cat_n，其中α、β、γ分别为上述标签打分Lb_n、评价打分Cm_n、归类打分Cat_n的加权系数，其取值可由模型使用人员根据情况灵活设置，以控制正向和负向样本场景清单的生成倾向，从而使模型最终的场景筛选结果更加多样化。如不考虑某个打分可将其相应的加权系数设置为0，但α、β、γ不能同时为0，即α、β、γ均大于等于零但不同时为零。一般而言，加权系数γ应设置为远大于α和β，以确保重点场景申请评估的结果反映在最终的样本归类结果上。根据场景n的综合得分M_n是大于零还是小于零，将场景n归入正向样本场景清单或负向样本场景清单，最终生成正向样本场景清单

和负向样本清单

相应的，该正向样本场景清单中场景n为正向场景n，该负向样本场景清单中场景n为负向场景n。

需要说明的是，上述生成正向样本场景清单和负向样本场景清单的算法，涵盖了先对待筛选场景集进行抽样，然后获取各抽样场景的场景线索信息，并根据场景线索信息进行打分得到抽样场景的综合得分，最终生成正向和负向样本场景清单的方法；也涵盖先获取待筛选场景集所有场景的场景线索信息，然后抽样待筛选场景集中的部分场景，根据场景线索信息进行打分得到抽样场景的综合得分，最终生成正向和负向样本场景清单的方法；还涵盖先获取待筛选场景集所有场景的场景线索信息，根据场景线索信息进行打分得到所有场景的综合得分，再抽样待筛选场景集中的部分场景，最终生成正向和负向样本场景清单的方法。也就是说，场景抽样步骤可灵活设置在上述生成正向样本场景清单和负向样本场景清单算法的任意位置。当然，优选实施方式为先对待筛选场景集进行抽样，这样可减小之后步骤的数据分析处理量，提升本实施例提供的方法运行效率。

步骤220：将所述待筛选场景集中不属于所述正向样本场景清单和所述负向样本场景清单的场景确定为待定场景集。

具体的，如果待筛选场景集中一个场景k既不属于正向样本场景清单

也不属于负向样本清单

则将场景k确定为一个待定场景，即待定场景

所有的待定场景形成的集合可称之为待定场景集。

步骤230：根据所述预设的场景基础数据库为所述正向样本场景清单中正向场景、负向样本场景清单中负向场景和待定场景集中待定场景，生成场景用户矢量集和场景业务矢量集；根据所述场景用户矢量集和所述场景业务矢量集统计得到场景画像矢量。

该步骤主要对应于图1中场景数据生成器的功能。该步骤按场景整理其相关数据，最终为该场景形成三个场景相关矢量或矢量集：场景用户矢量集、场景业务矢量集和场景画像矢量。具体的，步骤230可包括以下步骤：

步骤231：根据所述预设的场景基础数据库，获取所述正向样本场景清单中正向场景、负向样本场景清单中负向场景及待定场景集中待定场景各自的用户清单，提取各自用户清单中每个用户的用户标签，将一个用户的用户标签构造为一个用户矢量，将所述正向场景、负向场景及待定场景各自的用户清单中所有用户矢量构造成各自的场景用户矢量集。

该步骤主要对应于图1中场景用户矢量集(SUVE，Scenario User VectorEnsembler)构建模块的功能。具体的，场景n的场景用户矢量集

构造方法为：

从场景基础数据库中一个或多个数据块中(如场景用户常住地及标签数据)提取场景n的所有常住用户的用户清单

其中Res_n,i为用户user_n,i的常住地归属场景。

从场景基础数据库中一个或多个数据块中(如场景用户常住地及标签数据)提取用户

的全部用户标签，将用户user_n,i的用户标签构造成用户user_n,i的用户矢量U_n,i＝{userID_n,i,userSD_n,i,k,userSvcReg_n,i,l,userSvcPot_n,i,l,userSvcLife_n,i,l,userSvcRev_n,i,l,userSvcLTV_n,i,l}，其中，userID_n,i为用户user_n,i的用户编号标签，userSD_n,i,k为用户user_n,i的第k个社会经济标签值，userSvcReg_n,i,l为用户user_n,i在第l项业务上的订购状态标签，userSvcPot_n,i,l为用户user_n,i是否为第l项业务的潜在用户标签，userSvcLife_n,i,l为用户user_n,i在第l项业务上订购至今时长标签，userSvcRev_n,i,l为用户user_n,i在第l项业务上的业务至今贡献收入标签，以及userSvcLTV_n,i,l为用户user_n,i在第l项业务上的业务预期全周期价值标签。上述用户user_n,i的社会经济标签值指的是用户性别、年龄、职业等社会属性。业务可能为多个，相应的用户矢量中可包含多个业务相关的标签。

在另一种实施方式中，获取场景n的用户清单时，仅提取与模型当前所针对的重点业务相关的用户来形成用户清单，而不是场景n下所有常住用户；在构造用户矢量时，仅提取与重点业务相关的用户标签，而不是用户

的全部用户标签。以使场景筛选更有针对性，也可降低数据分析处理量，提升场景筛选方法的效率。

将场景n用户清单

中所有用户矢量U_n,i构造成场景n的用户矢量集

即

需要说明的是，该步骤中可以为待筛选场景集中每一个场景生成场景用户矢量集，然后获取正向样本场景清单中正向场景、负向样本场景清单中负向场景及待定场景集中待定场景各自的场景用户矢量集；也可针对正向场景、负向场景及待定场景直接生成各自的场景用户矢量集，以降低数据分析处理量。优选的，该步骤需生成正向样本场景清单中所有正向场景、负向样本场景清单中所有负向场景的场景用户矢量集。对于待定场景集中待定场景，可生成全部待定场景的场景用户矢量集，也可生成部分待定场景的场景用户矢量集。

步骤232：根据所述预设的场景基础数据库，获取所述正向样本场景清单中正向场景、负向样本场景清单中负向场景及待定场景集中待定场景各自的业务办理记录清单，将一条业务办理记录构造为一个业务办理矢量，将指定时间段[t1,t2]内所述正向场景、负向场景及待定场景各自的业务办理记录清单中所有业务办理矢量构造成各自的场景业务矢量集。

该步骤主要对应于图1中场景业务矢量集(SBVE，Scenario Business VectorEnsembler)构建模块的功能。具体的，场景n的场景业务矢量集

构造方法为：

从场景基础数据库中一个或多个数据块中(如场景业务办理数据)提取该场景n的业务办理记录清单，将场景n的第i条业务办理记录构造成业务办理矢量T_n,i：

T_n,i＝{user_n,i,transSvc_n,i,transType_n,i,transTime_n,i,transVal_n,i，svcLTV_n,i}，其中，user_n,i为第i条业务办理记录的用户，transSvc_n,i为第i条业务办理记录对应的业务种类，transType_n,i为第i条业务办理记录的业务办理类型，transTime_n,i为第i条业务办理记录的业务办理的时间，transVal_n,i为第i条业务办理记录对应的交易金额，svcLTV_n,i为第i条业务办理记录中该用户在该项业务上预期的全周期价值。上述业务种类指该业务办理记录是哪一类别的业务，业务办理类型指该业务办理记录是通过现场办理还是网上办理等办理方式。

在另一种实施方式中，获取场景n的业务办理记录清单时，仅提取与模型当前所针对的重点业务相关的业务办理记录来形成业务办理记录清单，而不是场景n下的所有业务办理记录；在构造业务办理矢量时，仅将与重点业务相关的业务办理记录构造成业务办理矢量。以使场景筛选更有针对性，也可降低数据分析处理量，提升场景筛选方法的效率。

将指定时间段[t1,t2]内场景n的业务办理记录清单中全部业务办理矢量T_n,i构造成场景n的场景业务矢量集

即

需要说明的是，该步骤中可以为待筛选场景集中每一个场景生成场景业务矢量集，然后获取正向样本场景清单中正向场景、负向样本场景清单中负向场景及待定场景集中待定场景各自的场景业务矢量集；也可针对正向场景、负向场景及待定场景直接生成各自的场景业务矢量集，以降低数据分析处理量。优选的，该步骤需生成正向样本场景清单中所有正向场景、负向样本场景清单中所有负向场景的场景业务矢量集。对于待定场景集中待定场景，可生成全部待定场景的场景业务矢量集，也可生成部分待定场景的场景业务矢量集。

步骤233：根据所述正向场景、负向场景及待定场景各自的场景用户矢量集和场景业务矢量集统计获得在指定时间段[t1,t2]内各自的场景画像矢量。

该步骤主要对应于图1中场景画像矢量(SPVE，Scenario Portrait VectorEnsembler)提取模块的功能。具体的，场景n的场景画像矢量集

构造方法为：

根据场景n的场景用户矢量集

和场景业务矢量集

统计获得在指定时间段[t1,t2]场景n的场景画像矢量

其中svcKPI_n,i为场景n下业务i的业务指标，svcRegUsr_n,i为场景n下业务i的注册用户数、svcPotUsr_n,i场景n下业务i的潜在用户数、

为在[t1,t2]时间段场景n下业务i的业务办理量、

为在[t1,t2]时间段场景n下业务i的业务收入。

场景n下业务种类可能有多个，相应的，场景n的场景画像矢量中可包含所有业务的上述五个参数。在一种实施方式中，也可仅将与重点业务相关的业务的矢量参数构建场景画像矢量，这样可使场景筛选更有针对性，也可降低数据分析处理量，提升场景筛选方法的效率。

需要说明的是，该步骤中可以为待筛选场景集中每一个场景生成场景画像矢量，然后获取正向样本场景清单中正向场景、负向样本场景清单中负向场景及待定场景集中待定场景各自的场景画像矢量；也可针对正向场景、负向场景及待定场景直接生成各自的场景画像矢量，以降低数据分析处理量。优选的，该步骤需生成正向样本场景清单中所有正向场景、负向样本场景清单中所有负向场景的场景画像矢量。对于待定场景集中待定场景，可生成全部待定场景的场景画像矢量，也可生成部分待定场景的场景画像矢量。

步骤240：根据所述场景画像矢量获取各正向场景之间余弦距离最小值，根据所述场景画像矢量获取各正向场景和各负向场景之间余弦距离最大值，根据所述各正向场景之间余弦距离最小值，与所述各正向场景和各负向场景之间余弦距离最大值确定第一阈值。

该步骤主要对应于图1中场景模型学习机(SMLM，Scenario Model LearningMachine)的部分功能。场景模型学习机是场景筛选方法模型的重要组成部分，其大致思路是首先通过场景画像矢量的余弦相似度执行场景推荐算法，构建推荐场景清单；其次通过用户矢量的余弦相似度执行用户推荐算法，计算生成推荐场景归属用户中的业务潜在推荐用户，为推荐场景构建推荐用户清单；最后，通过汇总推荐场景内所有推荐用户在目标业务上的全周期价值，计算该推荐场景的业务潜力，并去除掉预期的营销成本后计算该推荐场景的业务价值，最终根据场景业务价值生成重点场景清单。具体的，步骤240可包括以下步骤：

步骤241：根据所述场景画像矢量生成场景之间余弦距离矩阵。

该步骤对应图1中场景矢量距离矩阵计算器(SVDMC，Scenario Vector DistanceMatrix Calculator)的功能，该模块通过计算某个场景对n,m的场景画像矢量

和

之间的余弦距离，构建场景之间余弦距离矩阵。场景n,m的余弦距离Sim_n,m的计算公式如下：

其中

表示场景画像矢量

中的各分量。需要说明的是，场景n,m的余弦距离和场景n,m的余弦相似度均指的是Sim_n,m，这两个概念的关系是余弦距离越小则余弦相似度越高。遍历全部的场景对n,m后，可构造场景余弦距离矩阵为：

其中，矩阵的参数t₁,t₂代表了计算余弦距离所关注的时间段，可以自由设置。这里假设所考虑的场景总数为N个。显然Sim_n,m＝Sim_m,n，因此矩阵

为对称矩阵。

如果步骤233中为待筛选场景集中每一个场景生成了场景画像矢量，则遍历待筛选场景集中所有的场景对n,m后，可生成待筛选场景集的场景余弦距离矩阵。如果步骤233中仅为正向场景、负向场景及待定场景生成了各自的场景画像矢量，则遍历正向场景、负向场景及待定场景中所有的场景对n,m后，可生成正向场景、负向场景及待定场景的场景余弦距离矩阵，这样可降低数据分析处理量。

需要说明的是，该步骤为可选步骤，余弦距离矩阵的构建事实上是余弦距离数据的准备过程，可提高后续场景筛选方法的执行效率，也可在用到某两个场景的余弦相似度时，直接计算其余弦距离即可。

步骤242：获取各正向场景之间余弦距离Sim_n,n′,

所述

为所述正向样本场景清单，所述n、n′为正向场景；获取各正向场景之间余弦距离最小值

所述各正向场景之间余弦距离

所述

为正向场景n的场景画像矢量，所述

为正向场景n′的场景画像矢量。

该步骤对应图1中业务潜在场景推荐算法(BSSR，Business Specific ScenarioRecommender)模块的部分功能。具体的，可从场景余弦距离矩阵

中获取正向样本场景清单中所有正向场景之间余弦距离Sim_n,n′,

在没有计算场景余弦距离矩阵的情况下，可根据正向场景的场景画像矢量

直接计算获取所有正向场景之间的余弦距离。获取各正向场景之间余弦距离最小值

步骤243：获取各正向场景和各负向场景之间余弦距离Sim_n,m,

所述

为所述负向样本场景清单，所述m为负向场景；获取各正向场景和各负向场景之间余弦距离最大值

所述各正向场景和各负向场景之间余弦距离

所述

为负向场景m的场景画像矢量。

该步骤对应图1中业务潜在场景推荐算法模块的部分功能。具体的，可从场景余弦距离矩阵

中获取正向样本场景清单中所有正向场景和负向样本场景清单中所有负向场景之间的余弦距离Sim_n,m,

及负向场景的场景画像矢量

直接计算获取所有正向场景和所有负向场景之间的余弦距离。获取各正向场景和各负向场景之间余弦距离的最大值

步骤244：计算第一阈值

为：

所述λ₁为第一调节参数，可根据情况灵活设置。

该步骤对应图1中业务潜在场景推荐算法模块的部分功能。

步骤250：根据所述场景画像矢量获得所述待定场景与各正向场景之间余弦距离最大值；当所述待定场景与各正向场景之间余弦距离最大值小于等于第一阈值时，将所述待定场景归入推荐场景清单。

该步骤主要对应于图1中业务潜在场景推荐算法模块的部分功能。具体的，步骤250包括：

获取待定场景k与各正向场景之间余弦距离Sim_k,n,

获取待定场景k与各正向场景之间余弦距离最大值

若

则将所述待定场景k归入推荐场景清单；所述待定场景k与各正向场景之间余弦距离

所述

为待定场景k的场景画像矢量。

上述步骤中，可从场景余弦距离矩阵

中获取待定场景k与正向样本场景清单中所有正向场景之间余弦距离Sim_k,n,

在没有计算场景余弦距离矩阵的情况下，可根据待定场景k的场景画像矢量

和正向场景的场景画像矢量

直接计算获取待定场景k与所有正向场景之间余弦距离。获取待定场景k与各正向场景之间余弦距离最大值：

若

则将所述待定场景k归入推荐场景清单。

遍历待定场景集中所有待定场景后，生成推荐场景清单

上述推荐场景清单

为对待筛选场景集的初步筛选结果，为了更加精准地筛选出需要的目标重点场景，本发明实施例场景筛选方法可进一步包括以下步骤：

步骤260：根据所述预设的场景基础数据库，获取所述推荐场景清单中所有推荐场景的全部用户集合，提取全部用户集合中每个推荐场景用户的用户标签，将一个推荐场景用户的用户标签构造为一个推荐场景用户矢量。

该步骤主要对应于图1中用户矢量距离矩阵计算器(UVDMC，User VectorDistance Matrix Calculator)的部分功能。具体的，从场景基础数据库中一个或多个数据块中(如场景用户常住地及标签数据)构建上述推荐场景清单中所有推荐场景的全部常住用户的用户集合

用户集合

中的用户user_i可称之为推荐场景用户。从场景基础数据库中一个或多个数据块中(如场景用户常住地及标签数据)提取推荐场景用户user_i的用户标签，将用户user_i的用户标签构造成用户user_i的推荐场景用户矢量U_i，具体方法同步骤231中类似，这里不再赘述。

步骤270：获取所有目标业务的当前用户对应的正向用户矢量集，所述目标业务的当前用户为推荐场景用户矢量中在所述指定时间段内目标业务订购状态标签取值为是的推荐场景用户。

该步骤主要对应于图1中业务潜在用户推荐算法(BSUR，Business Specific UserRecommender)模块的部分功能。具体的，对于用户集合

中的推荐场景用户user_i，根据其推荐场景用户矢量U_i中在[t1,t2]时间段内在目标业务L上的订购状态标签userSvcReg_i,L，判断该标签的取值是否为是，如果为是，则该用户user_i为目标业务L的当前用户，即目标业务L的所有当前用户对应的正向用户矢量集

为：

该目标业务L即为一种重点业务。

步骤280：获取所有取消目标业务的用户对应的负向用户矢量集，所述取消目标业务的用户为推荐场景用户矢量中在所述指定时间段内目标业务订购状态标签取值为否，且在所述指定时间段前一个时间段内目标业务订购状态标签取值为是的推荐场景用户。

该步骤主要对应于图1中业务潜在用户推荐算法模块的部分功能。具体的，对于用户集合

中的推荐场景用户user_i，根据其推荐场景用户矢量U_i中在[t1,t2]时间段内在目标业务L上的订购状态标签userSvcReg_i,L，判断该标签的取值是否为否，且在之前一个较短时间段τ内该标签的取值是否为是，若这两个条件满足，则该用户user_i为在[t1,t2]时间段取消目标业务L的用户，即目标业务L的所有当前用户对应的负向用户矢量集

为：

上述τ通常为系统拍照时间，

的意义可以理解为，在[t1,t2]时间段之前一个较短时间段内用户user_i在目标业务L上的初始订购状态为是。

在确定正向用户矢量集和负向用户矢量集后，全部用户集合

中推荐用户矢量不属于正向用户矢量集和负向用户矢量集所对应的推荐场景用户即为待定用户。即待定用户

的推荐用户矢量

步骤290：根据所述推荐场景用户矢量生成推荐场景用户之间余弦距离矩阵。

该步骤主要对应于图1中用户矢量距离矩阵计算器的部分功能，该模块通过计算某个推荐场景用户对n,m的推荐场景用户矢量U_n和U_m之间的余弦距离，构建场景之间余弦距离矩阵。具体的，计算用户对n,m的余弦距离userSim_n,m如下：

其中

表示推荐场景用户矢量U_n中的各分量。

遍历全部用户对n,m后，可构造推荐场景用户余弦距离矩阵：

其中，矩阵的参数t₁,t₂代表了计算余弦距离关注的时间段，可以自由设置。这里假设所考虑的推荐场景用户总数为N个。显然userSim_n,m＝userSim_m,n，因此矩阵

为对称矩阵。

需要说明的是，该步骤可计算生成全部用户集合

中所有推荐场景用户的余弦距离矩阵，也可仅针对正向用户矢量集、负向用户矢量集及部分待定用户的推荐场景用户矢量生成余弦距离矩阵。另外，该步骤为可选步骤，余弦距离矩阵的构建事实上是余弦距离数据的准备过程，可提高后续场景筛选方法的执行效率，也可在用到某两个推荐场景用户的余弦相似度时，直接计算其余弦距离即可。

步骤2100：获取正向用户矢量集中各推荐场景用户矢量之间余弦距离最小值

获取正向用户矢量集中各推荐场景用户矢量与负向用户矢量集中各推荐场景用户矢量之间余弦距离最大值

根据所述

及

确定第二阈值；

该步骤主要对应于图1中业务潜在用户推荐算法模块的部分功能。具体的，该步骤包括：

步骤2101：获取正向用户矢量集中各推荐场景用户矢量之间余弦距离最小值

所述

为正向用户矢量集，所述U_p,U_p′为用户p和用户p′的推荐场景用户矢量；所述正向用户矢量集中各推荐场景用户矢量之间余弦距离

具体的，可从推荐场景用户余弦距离矩阵

中获取正向用户矢量集中各推荐场景用户矢量之间余弦距离

在没有计算推荐场景用户余弦距离矩阵的情况下，可根据正向用户矢量集中各推荐场景用户矢量U_i，直接计算获取正向用户矢量集中各推荐场景用户矢量之间的余弦距离。然后，从中提取正向用户矢量集中各推荐场景用户矢量之间余弦距离最小值

步骤2102：获取正向用户矢量集中各推荐场景用户矢量与负向用户矢量集中各推荐场景用户矢量之间余弦距离最大值

所述

为负向用户矢量集，所述U_q为用户q的推荐场景用户矢量；所述正向用户矢量集中各推荐场景用户矢量与负向用户矢量集中各推荐场景用户矢量之间余弦距离

具体的，可从推荐场景用户余弦距离矩阵

中获取正向用户矢量集中各推荐场景用户矢量与负向用户矢量集中各推荐场景用户矢量之间余弦距离

在没有计算推荐场景用户余弦距离矩阵的情况下，可直接计算获取正向用户矢量集中各推荐场景用户矢量与负向用户矢量集中各推荐场景用户矢量之间余弦距离。然后，从中提取正向用户矢量集中各推荐场景用户矢量与负向用户矢量集中各推荐场景用户矢量之间余弦距离最大值

步骤2103：计算第二阈值

为：

所述λ₂为第二调节参数，可根据情况灵活设置。

步骤2110：获取所述全部用户集合中待定用户的推荐场景用户矢量与所述正向用户矢量集中各推荐场景用户矢量之间余弦距离的最大值；所述待定用户为所述全部用户集合中推荐用户矢量不属于正向用户矢量集和负向用户矢量集所对应的推荐场景用户。

获取所述全部用户集合

中待定用户y的推荐场景用户矢量与所述正向用户矢量集

中各推荐场景用户矢量之间余弦距离的最大值

步骤2120：当所述待定用户的推荐场景用户矢量与所述正向用户矢量集中各推荐场景用户矢量之间余弦距离的最大值小于等于第二阈值时，将所述待定用户归入推荐用户清单；所述推荐用户清单中的用户为推荐用户。

若

则将所述待定用户y归入推荐用户清单；所述待定用户y与所述正向用户矢量集中各推荐场景用户矢量之间余弦距离

所述U_y为待定用户y的推荐场景用户矢量。

遍历所有待定用户后，生成推荐用户清单

步骤2130：计算所述推荐场景清单中推荐场景r在所述目标业务上的业务潜力为所述推荐场景r下所有推荐用户的在所述目标业务上的业务预期全周期价值之和。

该步骤主要对应于图1中场景业务潜力计算器(SBPC，Scenario BusinessPotential Calculator)的功能。具体的，根据推荐场景

下所有推荐用户

的业务预期全周期价值标签svcLTV_r,j取值，计算推荐场景r在目标业务L上的业务潜力

步骤2140：计算所述推荐场景r在所述目标业务上的业务价值为所述推荐场景r的所述业务潜力减去预期营销成本；

该步骤主要对应于图1中场景业务价值计算器(SBPC，Scenario Business ValueCalculator)的功能。具体的，根据推荐场景

在目标业务L上的业务潜力

及预期的营销成本ψ_L，计算获得推荐场景r在目标业务L上的业务价值

营销成本ψ_L为可独立设置的参数，仅与业务种类L相关，如某项业务种类的单位客户获取成本。

步骤2150：若所述推荐场景r在所述目标业务上的业务价值大于等于零，则将所述推荐场景r归入重点场景清单。

该步骤主要对应于图1中重点场景清单生成器(RSLG，Recommended ScenarioList Generator)的功能。具体的，若推荐场景

在目标业务L上的业务价值

大于等于零则将推荐场景r归入重点场景清单。

遍历推荐场景清单中所有推荐场景后，可生成重点场景清单

其中目标业务L为重点场景类型关联的业务(即重点业务)，[t1,t2]为所考虑的指定时间段区间，可单独设定。

需要说明的是，如果有多个目标业务L，可多次执行上述步骤后，将重点场景清单汇总去重即可。

本发明实施例提供的场景筛选方法，在生成推荐场景清单后，进一步根据正向用户矢量集和负向用户矢量集，生成所有推荐场景的推荐用户清单，通过计算推荐场景中所有推荐用户在目标业务上业务潜力，形成的该推荐场景在目标业务上的业务价值，将具有正向业务价值收益的推荐场景形成重点场景清单，即在推荐场景清单基础上进一步考虑更丰富的场景筛选因素，更加有针对性的构建出目标业务相关的重点场景清单，为目标业务的开展提供更加精准的场景选择，进一步提升了场景筛选模型的可用性。

上述场景筛选方法为场景筛选模型的构建过程，在之后的模型应用过程中，伴随着闭环反馈数据的收集，场景筛选模型具有自动迭代升级优化功能。如图3所示，为本发明实施例提供的场景筛选方法模型优化的框架示意图。场景筛选模型优化方法与上述场景筛选模型的构建方法基本相同，随着场景基础数据库中数据的更新，在各模块中根据当前时间段场景基础数据库和模型当前针对的目标业务进行数据更新即可。不同的是，模型优化过程中场景线索提取模块所用到的场景线索信息与模型构建过程中有所不同。以下着重说明本发明实施例提供的场景筛选方法模型优化过程中场景优化线索提取模块相关流程。

场景优化线索提取模块用到的场景线索信息包括：重点场景任务执行信息、重点场景评价信息和重点场景业务办理信息。本发明实施例提供的场景筛选方法进一步包括：

步骤2160：从预设的场景基础数据库中获取所述重点场景清单中重点场景的重点场景任务执行信息，根据所述重点场景任务执行信息中的任务执行完成情况，生成所述重点场景的任务执行打分。

该步骤主要对应于图3中重点场景任务执行分析机(STEA，Scenario TasksExecution Analyzer)的功能。具体的，可从场景基础数据库中一个或多个数据块(如场景任务执行数据)中提取重点场景清单中每个重点场景相关的场景任务的执行数据，分析其中每项场景任务执行的完成情况，每个按时完成的场景任务加一分，每个未按时完成的场景任务减一分，为重点场景n生成任务执行打分Ex_n＝P_n-N_n。其中P_n为重点场景n下按时完成的场景任务数量，N_n为重点场景n内未按时完成的场景任务数量，Ex_n为重点场景n的任务执行打分。上述场景任务指的是某个场景的业务营销任务，如在某个学校这个重点场景下某项业务的营销任务。

步骤2170：从预设的场景基础数据库中获取所述重点场景清单中重点场景的重点场景评价信息，根据所述重点场景评价信息中包含的正向标签和负向标签数量，生成所述重点场景的评价打分。

该步骤主要对应于图3中重点场景评价器(RSA，Recommended ScenariosAssessor)的功能。具体的，可从场景基础数据库中一个或多个数据块(如场景评价反馈数据)中提取每个场景成为重点场景后所拥有的历史评价数据，即重点场景评价信息，并使用正向标签和负向标签分别进行文本匹配，从而形成重点场景n的评价打分Cm_n＝P_n-N_n。其中P_n为重点场景n评价中匹配到的正向标签数量，N_n为重点场景n评价中匹配到的负向标签数量，Cm_n为重点场景n的评价打分。该步骤使用与步骤212中同样的正向标签和负向标签清单。

步骤2180：从预设的场景基础数据库中获取所述重点场景清单中重点场景的重点场景业务办理信息，根据所述重点场景业务办理信息中与目标业务相关的业务办理记录的数量，生成所述重点场景的价值打分。

该步骤主要对应于图3中重点场景评价器重点场景业务办理分析机(RSTA，Recommended Scenarios Transactions Analyzer)的功能。具体的，可从场景基础数据库中一个或多个数据块(如场景业务办理数据)中提取重点场景清单中重点场景n的重点场景业务办理信息，也就是在指定时间段内目标业务L相关的业务办理记录，如目标业务L相关的transTime_n,i字段值在场景任务时间段内的业务办理记录，并根据目标业务L相关的业务办理记录的数量(交易笔数)生成重点场景n的价值打分Val_n。

步骤2190：根据所述重点场景的任务执行打分、评价打分和价值打分生成所述重点场景综合得分，若所述重点场景综合得分大于零则将所述重点场景归入所述正向样本场景清单，若所述综合得分小于零则将所述重点场景归入负向样本场景清单。

该步骤主要对应于图3中场景抽样机(SS，Scenario Sampler)的功能。该步骤综合计算某个重点场景的得分，并更新正向和负向样本场景清单。具体的，重点场景清单中重点场景n的综合得分计算公式为

其中

β、η分别为上述任务执行打分Ex_n、评价打分Cm_n、价值打分Val_n的加权系数，可以缺省设置为相等。如不考虑某个打分可将其相应的加权系数设置为0，但

β、η不能同时为0，即

β、η均大于等于零但不同时为零。根据重点场景n的综合得分M‘_n是大于零还是小于零，将重点场景n归入正向样本场景清单或负向样本场景清单，最终生成新的正向样本场景清单

和负向样本清单

需要说明的是，之前建模时或上一个时间段，模型的正向和负向样本场景清单中的样本场景，在与新的正向样本场景清单和负向样本清单去重后剩余的样本场景可以继续保留，以保证样本空间充足完整。

本发明实施例提供的场景筛选方法，进一步使场景筛选模型自动集成了在模型生命周期中伴随闭环反馈数据的收集而反复迭代优化的能力。在生成重点场景清单后，进一步根据场景基础数据库提供的重点场景任务执行信息、重点场景评价信息和重点场景业务办理信息等场景优化线索信息，更新正向样本场景清单和负向样本清单，另外，场景筛选模型的其他模块根据当前时间段场景基础数据库和模型当前针对的目标业务自动进行数据更新，使场景筛选模型具有自动迭代升级优化功能，模型的优化调整不需要人的主观判断和干预，模型自动进化速度快，对数据的适应能力较强，模型筛选输出的重点场景更有针对性，应用效果更好。

图4示出了本发明实施例提供的场景筛选装置的结构示意图。如图4所示，该装置400包括：

场景抽样分类模块410，用于对待筛选场景集进行抽样得到样本场景集；从预设的场景基础数据库中获取所述样本场景集中各场景的场景线索信息，根据所述场景线索信息将所述样本场景集分为正向样本场景清单和负向样本场景清单；所述正向样本场景清单中场景为正向场景，所述负向样本场景清单中场景为负向场景；将所述待筛选场景集中不属于所述正向样本场景清单和所述负向样本场景清单的场景确定为待定场景集；

场景矢量生成模块420，用于根据所述预设的场景基础数据库为所述正向样本场景清单中正向场景、负向样本场景清单中负向场景和待定场景集中待定场景，生成场景用户矢量集和场景业务矢量集；根据所述场景用户矢量集和所述场景业务矢量集统计得到场景画像矢量；

第一阈值确定模块430，用于根据所述场景画像矢量获取各正向场景之间余弦距离最小值，根据所述场景画像矢量获取各正向场景和各负向场景之间余弦距离最大值，根据所述各正向场景之间余弦距离最小值，与所述各正向场景和各负向场景之间余弦距离最大值确定第一阈值；

推荐场景生成模块440，用于根据所述场景画像矢量获得所述待定场景与各正向场景之间余弦距离最大值；当所述待定场景与各正向场景之间余弦距离最大值小于等于第一阈值时，将所述待定场景归入推荐场景清单。

上述场景线索信息可包括：场景标签信息、场景评价信息和场景申请信息。在一种可选的实施方式中，场景抽样分类模块410包括：

标签打分单元411，用于从预设的场景基础数据库中获取所述样本场景集中各场景的场景标签信息，根据所述场景标签信息中包含的正向标签和负向标签数量，生成所述样本场景集中各场景的标签打分。

评价打分单元412，用于从预设的场景基础数据库中获取所述样本场景集中各场景的场景评价信息，根据所述场景评价信息中包含的正向标签和负向标签数量，生成所述样本场景集中各场景的评价打分。

归类打分单元413，用于从预设的场景基础数据库中获取所述样本场景集中各场景的场景申请信息，根据所述场景申请信息中包含的申请评估结果，生成所述样本场景集中各场景的归类打分。

第一分类单元414，用于根据所述标签打分、评价打分及归类打分生成所述样本场景集中各场景的综合得分，若所述综合得分大于零则将所述样本场景集中场景归入正向样本场景清单，若所述综合得分小于零则将所述样本场景集中场景归入负向样本场景清单。

待定场景确定单元415，用于将所述待筛选场景集中不属于所述正向样本场景清单和所述负向样本场景清单的场景确定为待定场景集。

在一种可选的实施方式中，场景矢量生成模块420包括：

场景用户矢量集生成单元421，用于根据所述预设的场景基础数据库，获取所述正向样本场景清单中正向场景、负向样本场景清单中负向场景及待定场景集中待定场景各自的用户清单，提取各自用户清单中每个用户的用户标签，将一个用户的用户标签构造为一个用户矢量，将所述正向场景、负向场景及待定场景各自的用户清单中所有用户矢量构造成各自的场景用户矢量集。

场景业务矢量集生成单元422，用于根据所述预设的场景基础数据库，获取所述正向样本场景清单中正向场景、负向样本场景清单中负向场景及待定场景集中待定场景各自的业务办理记录清单，将一条业务办理记录构造为一个业务办理矢量，将指定时间段[t1,t2]内所述正向场景、负向场景及待定场景各自的业务办理记录清单中所有业务办理矢量构造成各自的场景业务矢量集。

场景画像矢量生成单元423，用于根据所述正向场景、负向场景及待定场景各自的场景用户矢量集和场景业务矢量集统计获得在指定时间段[t1,t2]内各自的场景画像矢量。

在一种可选的实施方式中，第一阈值确定模块430包括：

场景余弦距离矩阵生成单元431，用于根据所述场景画像矢量生成场景之间余弦距离矩阵。如前所述，场景余弦距离矩阵生成单元431为可选模块。

场景余弦距离最小值确定单元432，用于获取各正向场景之间余弦距离Sim_n,n′,

所述

所述各正向场景之间余弦距离

所述

为正向场景n的场景画像矢量，所述

为正向场景n′的场景画像矢量；

第一场景余弦距离最大值确定单元433，用于获取各正向场景和各负向场景之间余弦距离Sim_n,m,

所述

所述各正向场景和各负向场景之间余弦距离

所述

为负向场景m的场景画像矢量；

第一阈值确定单元434，用于计算第一阈值

为：

所述λ₁为第一调节参数。

在一种可选的实施方式中，推荐场景生成模块440包括：

第二场景余弦距离最大值确定单元441，获取待定场景k与各正向场景之间余弦距离Sim_k,n,

获取待定场景k与各正向场景之间余弦距离最大值

推荐场景生成单元442，用于在所述

时，则将所述待定场景k归入推荐场景清单；所述待定场景k与各正向场景之间余弦距离

所述

为待定场景k的场景画像矢量。

推荐场景清单生成单元443，用于遍历待定场景集中所有待定场景后，生成推荐场景清单

本发明实施例提供的上述场景筛选装置，对待筛选场景集进行抽样，并根据各种场景线索信息将样本场景集分为正向样本场景清单和负向样本场景清单，对正向场景、负向场景和待定场景分别生成场景用户矢量集、场景业务矢量集及场景画像矢量，根据各场景之间余弦相似度对待定场景进行筛选，得到推荐场景清单；该场景筛选装置实现了完全自动化构建场景筛选模型，自动生成样本清单，并进行矢量数据的整理计算分析判断，无需手工创建样本空间及各种数据，不依赖业务人员的主观认识；建模所考虑的场景筛选因素比较全面，综合运用了预设的场景基础数据库中各种数据，从用户价值和业务价值的角度对场景做了全面的筛选，生成的场景筛选结果也比较精准，应用效果较佳，大幅增加了场景筛选模型的可用性。

在一种可选的实施方式中，所述场景筛选装置400还包括：

推荐场景用户矢量生成模块450，用于根据所述预设的场景基础数据库，获取所述推荐场景清单中所有推荐场景的全部用户集合，提取全部用户集合中每个推荐场景用户的用户标签，将一个推荐场景用户的用户标签构造为一个推荐场景用户矢量；

正向用户矢量集生成模块460，用于获取所有目标业务的当前用户对应的正向用户矢量集，所述目标业务的当前用户为推荐场景用户矢量中在所述指定时间段内目标业务订购状态标签取值为是的推荐场景用户；

负向用户矢量集生成模块470，用于获取所有取消目标业务的用户对应的负向用户矢量集，所述取消目标业务的用户为推荐场景用户矢量中在所述指定时间段内目标业务订购状态标签取值为否，且在所述指定时间段前一个时间段内目标业务订购状态标签取值为是的推荐场景用户；

用户余弦距离矩阵生成模块480，用于根据所述推荐场景用户矢量生成推荐场景用户之间余弦距离矩阵。如前所述，用户余弦距离矩阵生成模块480为可选模块。

第二阈值确定模块490，用于获取正向用户矢量集中各推荐场景用户矢量之间余弦距离最小值

根据所述

及

确定第二阈值；

用户余弦距离最大值确定模块4100，用于获取所述全部用户集合中待定用户的推荐场景用户矢量与所述正向用户矢量集中各推荐场景用户矢量之间余弦距离的最大值；所述待定用户为所述全部用户集合中推荐用户矢量不属于正向用户矢量集和负向用户矢量集所对应的推荐场景用户；

推荐用户生成模块4110，用于当所述待定用户的推荐场景用户矢量与所述正向用户矢量集中各推荐场景用户矢量之间余弦距离的最大值小于等于第二阈值时，将所述待定用户归入推荐用户清单；所述推荐用户清单中的用户为推荐用户。

在一种可选的实施方式中，所述第二阈值确定模块490包括：

用户余弦距离最小值确定单元491，用于获取正向用户矢量集中各推荐场景用户矢量之间余弦距离最小值

所述

第一用户余弦距离最大值确定单元492，获取正向用户矢量集中各推荐场景用户矢量与负向用户矢量集中各推荐场景用户矢量之间余弦距离最大值

所述

第二阈值确定单元493，用于计算第二阈值

为：

所述λ₂为第二调节参数。

在一种可选的实施方式中，所述用户余弦距离最大值确定模块4100包括：

第二用户余弦距离最大值确定单元4101，用于获取所述全部用户集合中待定用户y的推荐场景用户矢量与所述正向用户矢量集中各推荐场景用户矢量之间余弦距离的最大值

在一种可选的实施方式中，所述推荐用户生成模块4110包括：

推荐用户生成单元4111，用于若

所述U_y为待定用户y的推荐场景用户矢量。

推荐用户清单生成单元4112，用于遍历所有待定用户后，生成推荐用户清单

在一种可选的实施方式中，所述场景筛选装置400还包括：

业务潜力计算模块4120，用于计算所述推荐场景清单中推荐场景r在所述目标业务上的业务潜力为所述推荐场景r下所有推荐用户的在所述目标业务上的业务预期全周期价值之和；

业务价值计算模块4130，用于计算所述推荐场景r在所述目标业务上的业务价值为所述推荐场景r的所述业务潜力减去预期营销成本；

重点场景生成器4140，用于若所述推荐场景r在所述目标业务上的业务价值大于等于零，则将所述推荐场景r归入重点场景清单。

本发明实施例提供的场景筛选装置，在生成推荐场景清单后，进一步根据正向用户矢量集和负向用户矢量集，生成所有推荐场景的推荐用户清单，通过计算推荐场景中所有推荐用户在目标业务上业务潜力，形成的该推荐场景在目标业务上的业务价值，将具有正向业务价值收益的推荐场景形成重点场景清单，即在推荐场景清单基础上进一步考虑更丰富的场景筛选因素，更加有针对性的构建出目标业务相关的重点场景清单，为目标业务的开展提供更加精准的场景选择，进一步提升了场景筛选模型的可用性。

在一种可选的实施方式中，所述场景抽样分类模块410还包括：

任务执行打分单元416，用于从预设的场景基础数据库中获取所述重点场景清单中重点场景的重点场景任务执行信息，根据所述重点场景任务执行信息中的任务执行完成情况，生成所述重点场景的任务执行打分；

重点场景评价打分单元417，用于从预设的场景基础数据库中获取所述重点场景清单中重点场景的重点场景评价信息，根据所述重点场景评价信息中包含的正向标签和负向标签数量，生成所述重点场景的评价打分；

价值打分单元418，用于从预设的场景基础数据库中获取所述重点场景清单中重点场景的重点场景业务办理信息，根据所述重点场景业务办理信息中与目标业务相关的业务记录的数量，生成所述重点场景的价值打分；

第二分类单元419，用于根据所述重点场景的任务执行打分、评价打分和价值打分生成所述重点场景综合得分，若所述重点场景综合得分大于零则将所述重点场景归入所述正向样本场景清单，若所述综合得分小于零则将所述重点场景归入负向样本场景清单。

本发明实施例提供的场景筛选装置，进一步使场景筛选模型自动集成了在模型生命周期中伴随闭环反馈数据的收集而反复迭代优化的能力。在生成重点场景清单后，进一步根据场景基础数据库提供的重点场景任务执行信息、重点场景评价信息和重点场景业务办理信息等场景优化线索信息，更新正向样本场景清单和负向样本清单，另外，场景筛选模型的其他模块根据当前时间段场景基础数据库和模型当前针对的目标业务自动进行数据更新，使场景筛选模型具有自动迭代升级优化功能，模型的优化调整不需要人的主观判断和干预，模型自动进化速度快，对数据的适应能力较强，模型筛选输出的重点场景更有针对性，应用效果更好。

需要说明的是，上述场景筛选装置与本发明实施例提供的场景筛选方法基于同一构思，具体内容可参见本发明场景筛选实施例中的描述，此处不再赘述。

图5示出了本发明实施例提供的场景筛选设备的结构示意图，本发明具体实施例并不对场景筛选设备的具体实现做限定。

如图5所示，该场景筛选设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。处理器502，用于执行程序510，具体可以执行上述场景筛选方法实施例中的相关步骤。

具体的，程序510可以包括程序代码，该程序代码包括计算机可执行指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。场景筛选设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以被处理器502调用使场景筛选设备执行上述任意方法实施例中的场景筛选方法。

上述场景筛选设备可执行本发明实施例所提供的场景筛选方法，具备相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明所提供的场景筛选方法实施例。

本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有至少一可执行指令，该可执行指令在场景筛选设备/装置上运行时，使得所述场景筛选设备/装置执行上述任意方法实施例中的场景筛选方法。未在本实施例中详尽描述的技术细节，可参见本发明所提供的场景筛选方法实施例。

本领域技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种场景筛选方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述场景线索信息包括：场景标签信息、场景评价信息和场景申请信息；

所述从预设的场景基础数据库中获取所述样本场景集中各场景的场景线索信息，根据所述场景线索信息将所述样本场景集分为正向样本场景清单和负向样本场景清单进一步包括：

从预设的场景基础数据库中获取所述样本场景集中各场景的场景标签信息，根据所述场景标签信息中包含的正向标签和负向标签数量，生成所述样本场景集中各场景的标签打分；

从预设的场景基础数据库中获取所述样本场景集中各场景的场景评价信息，根据所述场景评价信息中包含的正向标签和负向标签数量，生成所述样本场景集中各场景的评价打分；

从预设的场景基础数据库中获取所述样本场景集中各场景的场景申请信息，根据所述场景申请信息中包含的申请评估结果，生成所述样本场景集中各场景的归类打分；

根据所述标签打分、评价打分及归类打分生成所述样本场景集中各场景的综合得分，若所述综合得分大于零则将所述样本场景集中场景归入正向样本场景清单，若所述综合得分小于零则将所述样本场景集中场景归入负向样本场景清单。

3.根据权利要求1所述的方法，其特征在于，所述根据所述预设的场景基础数据库为所述正向样本场景清单中正向场景、负向样本场景清单中负向场景和待定场景集中待定场景，生成场景用户矢量集和场景业务矢量集；根据所述场景用户矢量集和所述场景业务矢量集统计得到场景画像矢量，进一步包括：

根据所述预设的场景基础数据库，获取所述正向样本场景清单中正向场景、负向样本场景清单中负向场景及待定场景集中待定场景各自的用户清单，提取各自用户清单中每个用户的用户标签，将一个用户的用户标签构造为一个用户矢量，将所述正向场景、负向场景及待定场景各自的用户清单中所有用户矢量构造成各自的场景用户矢量集；

根据所述预设的场景基础数据库，获取所述正向样本场景清单中正向场景、负向样本场景清单中负向场景及待定场景集中待定场景各自的业务办理记录清单，将一条业务办理记录构造为一个业务办理矢量，将指定时间段[t1,t2]内所述正向场景、负向场景及待定场景各自的业务办理记录清单中所有业务办理矢量构造成各自的场景业务矢量集；

根据所述正向场景、负向场景及待定场景各自的场景用户矢量集和场景业务矢量集统计获得在指定时间段[t1,t2]内各自的场景画像矢量。

4.根据权利要求3所述方法，其特征在于，所述根据所述场景画像矢量获取各正向场景之间余弦距离最小值进一步包括：

获取各正向场景之间余弦距离

所述

所述各正向场景之间余弦距离

所述

为正向场景n的场景画像矢量，所述

为正向场景n′的场景画像矢量；

所述根据所述场景画像矢量获取各正向场景和各负向场景之间余弦距离最大值进一步包括：

获取各正向场景和各负向场景之间余弦距离

所述

所述各正向场景和各负向场景之间余弦距离

所述

为负向场景m的场景画像矢量；

所述根据所述各正向场景之间余弦距离最小值，与所述各正向场景和各负向场景之间余弦距离最大值确定第一阈值进一步包括：

计算第一阈值

为：

所述λ₁为第一调节参数；

所述根据所述场景画像矢量获得所述待定场景与各正向场景之间余弦距离最大值；当所述待定场景与各正向场景之间余弦距离最大值小于等于第一阈值时，将所述待定场景归入推荐场景清单，进一步包括：

获取待定场景k与各正向场景之间余弦距离

获取待定场景k与各正向场景之间余弦距离最大值

若

所述

为待定场景k的场景画像矢量。

5.如权利要求4所述的方法，其特征在于，所述将所述待定场景归入推荐场景清单之后进一步包括：

根据所述预设的场景基础数据库，获取所述推荐场景清单中所有推荐场景的全部用户集合，提取全部用户集合中每个推荐场景用户的用户标签，将一个推荐场景用户的用户标签构造为一个推荐场景用户矢量；

获取所有目标业务的当前用户对应的正向用户矢量集，所述目标业务的当前用户为推荐场景用户矢量中在所述指定时间段内目标业务订购状态标签取值为是的推荐场景用户；

获取所有取消目标业务的用户对应的负向用户矢量集，所述取消目标业务的用户为推荐场景用户矢量中在所述指定时间段内目标业务订购状态标签取值为否，且在所述指定时间段前一个时间段内目标业务订购状态标签取值为是的推荐场景用户；

获取正向用户矢量集中各推荐场景用户矢量之间余弦距离最小值

根据所述

及

确定第二阈值；

获取所述全部用户集合中待定用户的推荐场景用户矢量与所述正向用户矢量集中各推荐场景用户矢量之间余弦距离的最大值；所述待定用户为所述全部用户集合中推荐用户矢量不属于正向用户矢量集和负向用户矢量集所对应的推荐场景用户；

当所述待定用户的推荐场景用户矢量与所述正向用户矢量集中各推荐场景用户矢量之间余弦距离的最大值小于等于第二阈值时，将所述待定用户归入推荐用户清单；所述推荐用户清单中的用户为推荐用户。

6.根据权利要求5所述的方法，其特征在于，所述将所述待定用户归入推荐用户清单之后进一步包括：

计算所述推荐场景清单中推荐场景r在所述目标业务上的业务潜力为所述推荐场景r下所有推荐用户的在所述目标业务上的业务预期全周期价值之和；

计算所述推荐场景r在所述目标业务上的业务价值为所述推荐场景r的所述业务潜力减去预期营销成本；

若所述推荐场景r在所述目标业务上的业务价值大于等于零，则将所述推荐场景r归入重点场景清单。

7.根据权利要求6所述的方法，其特征在于，所述获取正向用户矢量集中各推荐场景用户矢量之间余弦距离最小值

进一步包括：

所述

所述获取正向用户矢量集中各推荐场景用户矢量与负向用户矢量集中各推荐场景用户矢量之间余弦距离最大值

进一步包括：

所述

所述根据所述

及

确定第二阈值进一步包括：

计算第二阈值

为：

所述λ₂为第二调节参数；

所述获取所述全部用户集合中待定用户的推荐场景用户矢量与所述正向用户矢量集中各推荐场景用户矢量之间余弦距离的最大值；当所述待定用户的推荐场景用户矢量与所述正向用户矢量集中各推荐场景用户矢量之间余弦距离的最大值小于等于第二阈值时，将所述待定用户归入推荐用户清单，进一步包括：

获取所述全部用户集合中待定用户y的推荐场景用户矢量与所述正向用户矢量集中各推荐场景用户矢量之间余弦距离的最大值

若

所述U_y为待定用户y的推荐场景用户矢量。

8.根据权利要求6所述的方法，其特征在于，所述场景线索信息包括：重点场景任务执行信息、重点场景评价信息和重点场景业务办理信息；

所述将所述推荐场景r归入重点场景清单之后进一步包括：

从预设的场景基础数据库中获取所述重点场景清单中重点场景的重点场景任务执行信息，根据所述重点场景任务执行信息中的任务执行完成情况，生成所述重点场景的任务执行打分；

从预设的场景基础数据库中获取所述重点场景清单中重点场景的重点场景评价信息，根据所述重点场景评价信息中包含的正向标签和负向标签数量，生成所述重点场景的评价打分；

从预设的场景基础数据库中获取所述重点场景清单中重点场景的重点场景业务办理信息，根据所述重点场景业务办理信息中与目标业务相关的业务记录的数量，生成所述重点场景的价值打分；

根据所述重点场景的任务执行打分、评价打分和价值打分生成所述重点场景综合得分，若所述重点场景综合得分大于零则将所述重点场景归入所述正向样本场景清单，若所述综合得分小于零则将所述重点场景归入负向样本场景清单。

9.一种场景筛选装置，其特征在于，所述装置包括：

10.一种场景筛选设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-8任意一项所述的场景筛选方法的操作。