CN111784040A

CN111784040A - 政策模拟分析的优化方法、装置及计算机设备

Info

Publication number: CN111784040A
Application number: CN202010597844.4A
Authority: CN
Inventors: 杜超璘
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Ping An Medical and Healthcare Management Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-10-16
Anticipated expiration: 2040-06-28
Also published as: CN111784040B

Abstract

本申请公开了一种政策模拟分析的优化方法、装置及计算机设备，涉及人工智能技术领域。其中方法包括：首先获取各用户的基本信息和政策规则信息；基于所述基本信息和所述政策规则信息，对所述各用户进行特征筛选，得到所述各用户的用户特征；以所述各用户的用户特征为分类条件，对所述各用户进行分类，生成至少一个分类集群；按照所述分类集群的群体特征，执行批量用户的政策模拟分析。本申请相当于提出一种基于特征选择的政策模拟方案，可同时从算法和软件上提升政策模拟分析的效率和精确度。此外，本申请还涉及区块链技术，用户的特征数据和政策模拟分析结果都可存储于区块链中，以保证数据私密和安全性。

Description

政策模拟分析的优化方法、装置及计算机设备

技术领域

本申请涉及人工智能技术领域，尤其是涉及到一种政策模拟分析的优化方法、装置及计算机设备。

背景技术

政策模拟是大数据精算分析的重要功能，通过政策模拟可以得到当前政策的分析和保障清单管理制度分析，进而可通过对政策的模拟调整预先了解政策实施后的业务变化情况。

目前政策模拟的难点在于政策形态复杂、人群种类繁杂、计算量极其庞大，传统方式是需要逐一去获取每个人信息判断适用于的政策，再去政策模拟分析计算。

本申请发明人在研究中发现，应用于更大规模人数(如需要模拟的人数在上亿条以上)时，传统的这种逐一匹配用户全部特征进行政策模拟分析的方式，由于用户具有大量复杂的特征信息，因此需要数千小时的计算时间，这种计算时间复杂度对于基于历史数据的批量数据处理来说，使得政策模拟分析的效率较低，特别是对于需要秒级响应速度的实时数据流的政策模拟处理，目前通常使用粗略匹配的方式，进而极大的影响了这种情况下的政策模拟分析的精确度。

发明内容

有鉴于此，本申请提供了一种政策模拟分析的优化方法、装置及计算机设备，主要目的在于改善目前逐一匹配用户全部特征进行政策模拟分析的方式，会影响政策模拟分析的效率和精确度的技术问题。

根据本申请的一个方面，提供了一种政策模拟分析的优化方法，该方法包括：

获取各用户的基本信息和政策规则信息；

基于所述基本信息和所述政策规则信息，对所述各用户进行特征筛选，得到所述各用户的用户特征；

以所述各用户的用户特征为分类条件，对所述各用户进行分类，生成至少一个分类集群；

按照所述分类集群的群体特征，执行批量用户的政策模拟分析。

根据本申请的另一个方面，提供了一种政策模拟分析的优化装置，该装置包括：

获取模块，用于获取各用户的基本信息和政策规则信息；

筛选模块，用于基于所述基本信息和所述政策规则信息，对所述各用户进行特征筛选，得到所述各用户的用户特征；

划分模块，用于以所述各用户的用户特征为分类条件，对所述各用户进行分类，生成至少一个分类集群；

分析模块，用于按照所述分类集群的群体特征，执行批量用户的政策模拟分析。

根据本申请的又一个方面，提供了一种非易失性可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述政策模拟分析的优化方法。

根据本申请的再一个方面，提供了一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述政策模拟分析的优化方法。

借由上述技术方案，本申请提供的一种政策模拟分析的优化方法、装置及计算机设备。与目前逐一匹配用户全部特征进行政策模拟分析的方式相比，本申请基于人工智能技术，可事先对用户的基本信息和政策规则信息进行特征筛选，得到各用户的用户特征，进而将原来复杂的特征进行有效降维，可提高用户有效特征的提取效率，从而加快政策模拟分析的整体进度。并且由于符合同一政策下的用户人群，其行为具有相似性，因此本申请以各用户的用户特征为分类条件，对各用户进行分类，生成至少一个分类集群，并根据分类集群的群体特征，可同时实现批量用户的政策模拟分析，可提高政策模拟分析的效率。有效特征匹配的精度提升，也提高了政策模拟分析的精确度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种政策模拟分析的优化方法的流程示意图；

图2示出了本申请实施例提供的另一种政策模拟分析的优化方法的流程示意图；

图3示出了本申请实施例提供的一种政策模拟分析的优化装置的流程示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对目前逐一匹配用户全部特征进行政策模拟分析的方式，会影响政策模拟分析的效率和精确度的技术问题，本实施例提供了一种政策模拟分析的优化方法，可提高政策模拟分析的效率和精确度，如图1所示，该方法包括：

101、获取各用户的基本信息和政策规则信息。

其中，用户的基本信息可包括：用户姓名、年龄、性别、工作单位、业务办理凭证等。政策规则信息可包括：该用户获取业务服务次数、业务场所等级、业务处理启动信息、业务处理停止信息、业务回馈比例类型等。

需要说明的是，在不同的政策模拟分析场景中，获取到的用户基本信息和政策规则信息或有不同。例如，对于基于医保的政策模拟分析的场景(如用于分析政策实施后的医保基金、医疗总费用、报销费用的变化情况)中，这些用户可为参保用户，其相应的基本信息可包括：参保人姓名、年龄、身份证号、性别以及相应的保单信息等。而相应的政策规则信息可包括：该参保人相应的就诊次数、就诊医院等级、起付线类型、封顶线类型、报销类型等。

对于本实施例的执行主体可为政策模拟分析的优化装置或设备，可配置在客户端侧或服务器侧，用于优化政策模拟分析，以提高政策模拟分析的效率和精确度。

102、基于各用户的基本信息和政策规则信息，对各用户进行特征筛选，得到各用户的用户特征。

在本实施例中，将用户基本信息和政策规则信息进行合并，得到该用户的原始特征信息，该原始特征信息中可能包含大量无用、重复的冗余特征，如果按照该原始特征信息直接执行政策模拟分析，在这种复杂特征匹配时会耗费大量的时间，计算时间复杂度会大大增加，进而会影响政策模拟分析的效率和精确度。而本实施例中，对包含用户基本信息和政策规则信息的原始特征信息进行特征筛选，不但可去除大量的重复特征，而且可去除没有任何帮助，不会给政策模拟效果带来任何提升的无关特征，以及去除可由其他的特征推断出的冗余特征，对用户特征进行有效的降维，计算时间复杂度会大大减少，可提高政策模拟分析的效率和精确度。

在获取到的用户特征以后可存储在区块链中，如存储在区块链的区块链节点中。可进一步保证用户特征数据的私密和安全性。需要说明的是，本实施例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

103、以各用户的用户特征为分类条件，对各用户进行分类，生成至少一个分类集群。

对于本实施例，利用筛选得到的用户特征来代替原始特征信息(未经特征筛选的用户基本信息和政策规则信息)，作为分类条件，对各用户进行分类，生成至少一个分类集群，即进行人群划分。例如，基于不同用户分别对应的用户特征，统计符合同一政策下具有相同或相似特征的用户，进而划分得到各个分类集群，其中划分得到的分类集群相当于符合同一政策的人群，不同的政策都有各自符合其政策内容的人群。

由于符合同一政策下的人群，其行为具有相似性，因此本实施例可根据人群来执行批量用户的政策模拟分析，这样无需对该人群中的每个用户分别进行政策模拟分析，利用该人群的政策模拟分析结果就可很好代表该人群中每个用户的政策模拟分析结果，简化了计算复杂度，进而提高了政策模拟分析的效率。

104、按照分类集群的群体特征，执行批量用户的政策模拟分析。

例如，分类集群中包含用户1、用户2、用户3，而在现有技术中会逐一匹配用户1的全部特征(如包含用户1的全部基本信息和政策规则信息)进行政策模拟分析计算。在用户1政策模拟分析结束后，再逐一匹配用户2的全部特征进行政策模拟分析计算，然后再逐一匹配用户3的全部特征进行政策模拟分析计算。由于每个用户都具有大量复杂的特征，这种传统方式不但使得单个用户政策模拟分析计算效率较低，而且还需要对这三个用户分别进行政策模拟分析计算，进而也会使得整体的政策模拟分析计算效率较低。而通过应用本实施例中的方法，将用户1、用户2、用户3作为分类集群，对其分类集群执行政策模拟分析计算，一次性可同时获得用户1、用户2、用户3的分析计算结果。并且由于经过严格的特征筛选，对用户特征进行有效降维，得到减少重复、无关、可推断等冗余特征的群体特征，因此利用这种少而精的群体特征，也能进一步提高政策模拟分析计算的效率。

在得到政策模拟分析结果后，可将该分析结果同样保存在区块链中，以保证数据私密和安全性。

通过本实施例中的政策模拟分析的优化方法。与目前逐一匹配用户全部特征进行政策模拟分析的方式相比，本实施例基于人工智能技术，可事先对用户的基本信息和政策规则信息进行特征筛选，得到各用户的用户特征，进而将原来复杂的特征进行有效降维，可提高用户有效特征的提取效率，从而加快政策模拟分析的整体进度。并且由于符合同一政策下的用户人群，其行为具有相似性，因此本申请以各用户的用户特征为分类条件，对各用户进行分类，生成至少一个分类集群，并根据分类集群的群体特征，可同时实现批量用户的政策模拟分析，可提高政策模拟分析的效率。有效特征匹配的精度提升，也提高了政策模拟分析的精确度。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的具体实施过程，提供了另一种政策模拟分析的优化方法，如图2所示，该方法包括：

201、获取各用户的基本信息和政策规则信息。

202、将获取到的各用户的基本信息和政策规则信息作为各用户的第一特征进行特征分析，以获得第一特征中的各子特征的特征类型。

其中，用户的第一特征可相当于包含该用户全部基本信息和政策规则信息的原始特征。

在本实施例中，首先可对用户的原始特征中的各个子特征进行特征分析，分析出特征的类型(如无量纲化的特征类型、定量的特征类型、定性的特征类型等)。特征分析过程具体可包括：判断用户原始特征信息中是否包含无量纲化的特征；以及，判断原始特征信息中是否包含定量的特征；以及，判断原始特征信息中是否包含定性的特征等。

例如，年龄、性别、姓名、身份证号等属于无量纲化的特征类型，相当于没有或没法用具体的单位去量化的特征；是否参照某参数进行处理等属于定量的特征类型，如是否按照年龄处理、是否按照性别处理等；而对于定性的特征类型可包括：业务办理形式、业务保障类型、保障身份等。

203、根据第一特征中的各子特征的特征类型，对第一特征中的各子特征分别进行预处理，得到第二特征。

其中，第二特征可相当于对包含该用户全部基本信息和政策规则信息的原始特征进行初步清洗筛选得到的初步特征。

在分析出用户原始特征中的各个子特征的特征类型之后，可根据子特征的特征类型，按照该类型对应的处理规则，对原始特征中的各个子特征进行预处理，得到初步特征。其中，不同的特征类型都有各自对应的处理规则。通过这种不同的特征类型进行各自针对性的处理，可提高不同类型特征的筛选准确性和效率。

步骤203具体可包括：在第一特征中，对无量纲化特征类型的子特征作标准化和/或归一化处理；和/或，对定量特征类型的子特征作二值化处理；和/或，对定性特征类型的子特征作哑编码处理。

在用户原始特征中，若其中的子特征为无量纲化的特征，则将该子特征信息作标准化和/或归一化。例如，年龄、姓名、性别等可能在用户原始特征信息中出现多次，且记载的内容形式可能不同(如曾用名、姓名、姓名拼音、或者其他标识等)，实际上这些都对应同一用户的姓名标识，因此可将这些实质同一内容但存在多个不同形式的特征进行标准化与归一化处理，得到该同一内容唯一对应的标准格式特征，如0025801，代表该用户的姓名。通过这种方式可极大的简化重复的冗余特征。

在用户原始特征中，若其中的子特征为定量的特征，则将该子特征信息作二值化处理。例如，如果确定按照年龄缴费，则处理为001；如果不按照年龄缴费，则处理为000；如果按照性别缴费，则处理为0001；如果不按照性别缴费，则处理为0000。后续可通过这些二值化处理结果，作为提取的特征，极大的简化了特征提取内容。

在用户原始特征中，若其中的子特征为定性的特征，则将该子特征信息作哑编码处理。例如，将缴费形式、医保类型、参保身份等进行哑编码处理，将每一个数据编码成n维的向量，向量的维度是非重复数据的个数。比如原始数据是4个，分别为A B C B，则有3个不同的数字，则将每个数据编码为一个三维向量。如果用第一维表示A，第二维表示B，第三维表示C，则：A的编码：[1 0 0]；B的编码：[0 1 0]；C的编码：[0 0 1]。

通过哑编码处理，将用户原始特征信息中不是数字的特征信息，也能转化为简化的数字特征来代替，不仅能简化特征提取，提高特征提取效率，而且还能便于后续计算机处理。进而解决分类器不好处理属性数据的问题，也在一定程度上也起到了扩充特征的作用。

经过上述初步的筛选处理，可有效去除冗余的特征。进一步的，为了去除没有任何帮助，不会给效果带来任何提升的无关特征，可继续执行步骤204所示的过程。

204、依据数据流处理形式，对预处理得到的第二特征进行特征提取，得到各用户的用户特征。

其中，数据流处理形式可根据实际需求包含多种形式，如可包括实时数据流处理(如实时数据的过滤式处理)、或历史批量数据流处理(如基于历史数据的嵌入式批量数据处理)等。

对于实时数据流的处理，在特征提取时，需要对时间具有较高要求，以便满足处理的及时性，因此处理的时效性是对实时数据流数据的特征提取的核心点，为此可选的，本实施例可使用过滤法按照发散性和相关性对初步特征信息中的各个特征进行评分，设定分数阈值以及待选择阈值的个数，进而实现快速选择提取初步特征信息中的合适特征。具体的，本实施例可设置不同的策略来进行单变量特征选择，如这些策略可包括皮尔森相关系数、卡方检验等，然后根据评分来判断哪些特征重要，剔除那些不重要的特征。

示例性的，依据实时数据流的处理形式，对预处理得到的初步特征信息进行特征提取，得到用户的新特征，具体可包括：根据预处理得到的第二特征中各子特征之间的皮尔森相关系数，对第二特征中的内容重复特征进行过滤；然后过滤后第二特征中各子特征对应的实际观测值与理论推断值之间的偏离程度，对过滤后的第二特征中的各子特征进行第一评分；获取第一评分符合预设寻优条件的子特征，以生成各用户的用户特征。

例如，首先进行皮尔森相关系数计算，通过计算初步筛选得到的特征信息中各个子特征之间的皮尔森相关系数，判别子特征之间的相关性，如果皮尔森相关系数大于一定阈值，则确定两个子特征很相关，属于内容重复特征，删除之一；如果皮尔森相关系数小于一定阈值，则确定两个子特征不相关，不属于内容重复特征，将二者保留。

然后执行卡方检验，统计过滤后的特征信息中目标子特征对应的实际观测值(第二特征中目标子特征对应的特征值)与理论推断值(可由第二特征中的其他相关特征推算得到，或者事先预设该特征项对应的理论值)之间的偏离程度，其中，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合，即评分越低；卡方值越小，偏差越小，越趋于符合，即评分越高。进而可通过目标子特征对应的实际观测值与理论推断值之间的偏离程度，对该目标子特征进行评分。

在通过皮尔森相关系数计算、卡方校验等方式综合分析之后，可得到第二特征中剩余子特征的评分(即第一评分)，然后使用超参数寻优，如按照评分排列这些剩余子特征，移除得分前k名以外的所有子特征(即取排名靠前的k名的特征)、和/或移除得分在用户指定百分比以后的子特征(即取排名靠前的k％的特征)、和/或对每个剩余子特征使用通用的单变量统计检验等，进而从第二特征中进一步提取到需要的特征信息，作为用户的用户特征。

通过上述可选方式，可实现及时对实时数据流进行特征筛选，去除没有任何帮助，不会给效果带来任何提升的无关特征，去除这种特征的信息可以由其他的特征推断出的冗余特征，进而在保证处理时效性的条件下，提高特征匹配的精度，提高了用户特征的提取效率，从而可提高政策模拟分析的效率和精确度。

而对于基于历史数据的批量数据处理，如数据仓库中的目标人群数据，在特征提取中需要更高的精度，但对时间没这么高要求(与实时流数据处理相比)，因此可使用嵌入式基于机器学习模型的方法。可选的，依据历史批量数据流的处理形式，对第二特征进行特征提取，得到各用户的用户特征，具体可包括：将第二特征信息输入到梯度提升树(GBDT)模型中，以便确定与第二特征中子特征各自对应相似样本特征的第二评分；然后获取第二评分大于预设阈值的子特征，以生成各用户的用户特征。

具体的，可首先创建模型训练集，模型训练集中包含有不同的样本用户特征(如样本用户基本信息和政策规则信息经过如步骤202至203中的特征处理得到的各个特征)，以及这些不同的样本用户特征分别对应的特征评分(可根据业务反馈事先统计)。然后基于模型训练集，采用梯度提升树算法，训练得到GBDT模型；其中，模型训练过程中，需要保证训练得到的模型通过测试集的测试要求。最后将历史数据中的目标用户数据(基本信息和政策规则信息)通过步骤202至203中的特征处理得到目标初步特征信息(即第二特征)，然后将目标初步特征信息中的各个子特征输入到训练达标的GBDT模型当中，以便确定与目标初步特征信息中这些子特征各自对应相似样本特征的特征评分。进而筛选掉特征评分小于预设阈值的子特征，保留的子特征作为该目标用户提取到的用户特征信息。

例如，以梯度提升树为例，说明通过GBDT模型提取特征的原理。假设第二特征中总共有M个子特征。第一步需要从中选择出一个子特征j，做为二叉树的第一个节点。然后对子特征j的值选择一个切分点m。一个样本的特征j的值如果小于m，则分为一类，如果大于m，则分为另外一类。其他节点的生成过程和这个是一样的。在每轮迭代的时候，遍历每个子特征，然后对每个子特征遍历它所有可能的切分点，找到最优特征m的最优切分点j。该子特征j的全局重要度通过子特征j在单颗树中的重要度的平均值来衡量。

205、以各用户的用户特征为分类条件，对各用户进行分类，生成至少一个分类集群。

例如，根据各个用户的用户特征，统计符合同一政策下具有相同或相似特征的用户，进而可划分得到符合政策A的人群1和符合政策B的人群2等。

进一步的，为了提高政策模拟的精确性，作为一种优选方式，还可对各用户特征下的取值作聚合，进而根据组合的新特征，得到新的人群，如对经步骤204已经求得的用户特征再作特征组合，进一步学习政策与人群之间的非线性关系。用户特征产生的组合特征则代表一个更明确的人群。如果模型发现这些新划分得到的人群更可能对政策产生影响，即政策还原得更准确，那么这将是比单独考虑特征更强烈的信号。在模型中添加新产生的特征组合，计算模型，然后确定结果是否有所改善。若有改善，则说明该特征组合是一种更为有效的特征。

基于上述可选方式，相应的，步骤205具体可包括：首先将用户特征进行特征组合，并以组合得到的目标特征为分类条件，对各用户进行分类，生成至少一个待确定分类集群；根据待确定分类集群进行政策模拟测试，并判断政策模拟的测试结果是否优于原测试结果，其中原测试结果是以用户特征为分类条件生成得到的分类集群进行政策模拟测试得到的；若确定测试结果优于原测试结果(如政策模拟效果更加凸显、得到数值更加符合理论值等)，则将待确定分类集群作为生成得到的分类集群。

例如，根据上述人群划分过程，得到符合政策A的人群1(1000人)和符合政策B的人群2(800人)，将人群1和人群2进行组合，即找两组人群的共同特征(同时具备两组人群特征的人群)，进而得到人群3(400人)，如果经过政策模拟测试，发现人群3对政策A或者政策B有更大的影响(相比人群1对政策A的政策模拟测试结果、及人群2对政策B的政策模拟测试结果)，那么可将人群3作为单独的一类人群，以便后续政策模拟分析。

需要说明的是，加强特征的原因是由于根据真实政策作模拟的提取信息能力受限，模型天然提取不到一些特征之间的关系，基于业务理解又明显知道一些组合特征很有意义。所以加入一部分专家经验的特征组合，并对机器学习提取的单个重要特征作特征组合。通过这种特征组合方式，可找到对于计算任务和拟合任务有帮助的，可以提升学习算法效果的相关特征。进而划分得到更加对政策模拟计算结果有帮助的人群。

206、按照不同群体特征的分类集群，将政策模拟分析任务分解成至少一子任务，并分配给多个计算节点进行处理。

其中，每个子任务各自对应一个计算节点。相当于采用分布式计算系统中的多个计算节点同时进行政策模拟分析计算，以提高政策模拟分析的效率。

由于符合同一政策下的人群，其行为具有相似性，因此本实施例可按照新特征人群将政策模拟分析任务分解成至少一子任务。例如，传统方式政策模拟的过程中，对于2000万个用户进行政策模拟，需要对这2000万个用户分别进行政策模拟计算，耗时、效率低。即便采用2000万个计算节点同时计算，那也会相当耗费系统资源，需要2000万台的计算机同时计算，极大的耗费成本。与现有技术相比，本实施例可将这些用户按照上述人群划分规则，并参考政策模拟需求，可将2000万个用户划分为60个人群，每个人群相当于各自对应一种政策，即将政策模拟模型计算分解成60个子任务，后续可分配60个计算节点同时政策模拟计算。由于符合同一政策下的人群，其行为具有相似性，因此通过这60个计算节点进行政策模拟得到的结果，可以很好表达这2000万个用户的政策模拟结果。不但节约了整体计算时间，提高了政策模拟的效率，并且也极大地缩减了计算节点个数，减少了分布式系统的成本。

本实施例相当于提出一种基于特征选择的政策模拟方案，同时从算法和软件上提升政策模拟分析的效率。在算法上同时使用过滤式(适用于基于历史数据的批量数据处理)和嵌入式(适用于实时数据流的政策模拟处理)的特征提取方法，对人群特征提取实现降维，提高了用户特征的提取效率，使得加快进行大批量用户的政策模拟分析；在软件上使用分布式计算架构，按照新特征下的人群，对这些人群作分布式计算，按照这些人群将政策模拟模型计算分解成各个子任务，并分配给多个计算节点进行处理，节约整体计算时间，大大提高计算效率。

为了说明政策模拟分析的具体过程，给出如下实例内容，但不限于此：

例如，为了通过政策模拟得到当前政策的保险分析和医疗保障待遇清单管理制度分析，以及通过对政策的模拟调整预先了解政策实施后的医保基金、医疗总费用、报销费用的变化情况。

在对用户特征数据执行步骤201至206处理之后，在单个计算节点进行政策模拟分析计算的过程可包括：

令B₀:调整前的总体报销比例，B:调整后的总体报销比例，B^′:加入调整系数的总体报销比例，CC:医保范围内费用，FP:本次就诊统筹基金支付费用，SP:本次就诊自负费用，D:起付线，D_base:起付线缴费基数，D_prop:起付线缴费比例，Cap:封顶线，Cap_base:封顶线缴费基数，Cap_prop:封顶线缴费比例，n:该病人的记录数，k:该统筹区所有的病人数。

容易计算D＝D_base×D_prop、Cap＝Cap_base×Cap_prop。

示例性的，分三类情况处理数据：

A、居民大病政策调整模拟模型。提前计算居民大病的加权报销比例

居民大病政策的调整前的报销比例B₀。

B、职工基本医保政策调整模拟模型/居民基本医保政策调整模拟模型。对职工和居民身份作匹配，提前计算职工和居民住院的加权报销比例

职工和居民住院政策的调整前的总体报销比例B₀。

C、居民住院与大病政策调整衔接模拟模型。提前计算SP_i即CC_i-FP_i。

获取输入D_prop和Cap_prop后，计算得调整后的D和Cap，使用Spark SQL根据式1、2、3、4计算政策调整后的每个特征人群总体报销比例。根据公式5、6计算住院政策调整后的每个特征人群衔接段金额变化。

式1：

(住院单次起付线)

式2：

(住院累计起付线)

式3：

(大病单次起付线)

式4：

(大病累计起付线)

式5：

(住院单次起付线)

式6：

(住院累计起付线)

通过本实施例中的政策模拟分析的优化方法，可去除没有任何帮助，不会给效果带来任何提升的无关特征，去除这种特征的信息可以由其他的特征推断出的冗余特征，寻找对于计算任务和拟合任务有帮助，可以提升学习效果的相关特征。同时避免过度拟合，改进性能、使学习器运行更快，效能更高、剔除不相关的特征使政策模拟分析更为简单，更容易解释，通过寻找到的特征可以进一步研究寻找更高级的特征。最终通过特征降维提升政策模拟的运算速度。

进一步的，作为图1至图2所示方法的具体实现，本实施例提供了一种政策模拟分析的优化装置，如图3所示，该装置包括：获取模块31、筛选模块32、划分模块33、分析模块34。

获取模块31，可用于获取各用户的基本信息和政策规则信息；

筛选模块32，可用于基于所述基本信息和所述政策规则信息，对所述各用户进行特征筛选，得到所述各用户的用户特征；

划分模块33，可用于以所述各用户的用户特征为分类条件，对所述各用户进行分类，生成至少一个分类集群；

分析模块34，可用于按照所述分类集群的群体特征，执行批量用户的政策模拟分析。

在具体的应用场景中，筛选模块32，具体可用于将所述基本信息和所述政策规则信息作为所述各用户的第一特征进行特征分析，以获得所述第一特征中的各子特征的特征类型；根据所述特征类型，对所述第一特征中的各子特征分别进行预处理，得到第二特征；依据数据流处理形式，对所述第二特征进行特征提取，得到所述各用户的用户特征，其中，所述数据流处理形式包括实时数据流处理、或历史批量数据流处理。

在具体的应用场景中，筛选模块32，具体还可用于对无量纲化特征类型的子特征作标准化和/或归一化处理；和/或，对定量特征类型的子特征作二值化处理；和/或，对定性特征类型的子特征作哑编码处理。

在具体的应用场景中，筛选模块32，具体还可用于根据所述第二特征中各子特征之间的皮尔森相关系数，对所述第二特征中的内容重复特征进行过滤；按照过滤后所述第二特征中各子特征对应的实际观测值与理论推断值之间的偏离程度，对过滤后的所述第二特征中的各子特征进行第一评分；获取第一评分符合预设寻优条件的子特征，以生成所述各用户的用户特征。

在具体的应用场景中，筛选模块32，具体还可用于将所述第二特征输入到GBDT模型中，以便确定与所述第二特征中子特征各自对应相似样本特征的第二评分；获取第二评分大于预设阈值的子特征，以生成所述各用户的用户特征。

在具体的应用场景中，划分模块33，具体可用于将用户特征进行特征组合，并以组合得到的目标特征为分类条件，对所述各用户进行分类，生成至少一个待确定分类集群；根据所述待确定分类集群进行政策模拟测试，并判断政策模拟的测试结果是否优于原测试结果，所述原测试结果是以所述用户特征为分类条件生成得到的分类集群进行政策模拟测试得到的；若确定测试结果优于所述原测试结果，则将所述待确定分类集群作为生成得到的分类集群。

在具体的应用场景中，分析模块34，具体可用于按照不同群体特征的所述分类集群，将政策模拟分析任务分解成至少一子任务，并分配给多个计算节点进行处理，其中，每个子任务各自对应一个计算节点。

需要说明的是，本实施例提供的一种政策模拟分析的优化装置所涉及各功能单元的其它相应描述，可以参考图1至图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的政策模拟分析的优化方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1、图2所示的方法，以及图3所示的虚拟装置实施例，为了实现上述目的，本实施例还提供了一种计算机设备，具体可以为个人计算机、笔记本电脑、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的政策模拟分析的优化方法。

可选的，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本实施例的技术方案，与目前逐一匹配用户全部特征进行政策模拟分析的方式相比，本实施例可事先对用户的基本信息和政策规则信息进行特征筛选，得到各用户的用户特征，进而将原来复杂的特征进行有效降维，可提高用户有效特征的提取效率，从而加快政策模拟分析的整体进度。并且由于符合同一政策下的用户人群，其行为具有相似性，因此本申请以各用户的用户特征为分类条件，对各用户进行分类，生成至少一个分类集群，并根据分类集群的群体特征，可同时实现批量用户的政策模拟分析，可提高政策模拟分析的效率。有效特征匹配的精度提升，也提高了政策模拟分析的精确度。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种政策模拟分析的优化方法，其特征在于，包括：

获取各用户的基本信息和政策规则信息；

2.根据权利要求1所述的方法，其特征在于，所述基于所述基本信息和所述政策规则信息，对所述各用户进行特征筛选，得到所述各用户的用户特征，具体包括：

将所述基本信息和所述政策规则信息作为所述各用户的第一特征进行特征分析，以获得所述第一特征中的各子特征的特征类型；

根据所述特征类型，对所述第一特征中的各子特征分别进行预处理，得到第二特征；

依据数据流处理形式，对所述第二特征进行特征提取，得到所述各用户的用户特征，其中，所述数据流处理形式包括实时数据流处理、或历史批量数据流处理。

3.根据权利要求2所述的方法，其特征在于，所述根据所述特征类型，对所述第一特征中的各子特征分别进行预处理，得到第二特征，具体包括：

对无量纲化特征类型的子特征作标准化和/或归一化处理；和/或，

对定量特征类型的子特征作二值化处理；和/或，

对定性特征类型的子特征作哑编码处理。

4.根据权利要求2所述的方法，其特征在于，依据实时数据流的处理形式，对所述第二特征进行特征提取，得到所述各用户的用户特征，具体包括：

根据所述第二特征中各子特征之间的皮尔森相关系数，对所述第二特征中的内容重复特征进行过滤；

按照过滤后所述第二特征中各子特征对应的实际观测值与理论推断值之间的偏离程度，对过滤后的所述第二特征中的各子特征进行第一评分；

获取第一评分符合预设寻优条件的子特征，以生成所述各用户的用户特征。

5.根据权利要求2所述的方法，其特征在于，依据历史批量数据流的处理形式，对所述第二特征进行特征提取，得到所述各用户的用户特征，具体包括：

将所述第二特征输入到梯度提升树GBDT模型中，以便确定与所述第二特征中子特征各自对应相似样本特征的第二评分；

获取第二评分大于预设阈值的子特征，以生成所述各用户的用户特征。

6.根据权利要求1所述的方法，其特征在于，以所述各用户的用户特征为分类条件，对所述各用户进行分类，生成至少一个分类集群，具体包括：

将用户特征进行特征组合，并以组合得到的目标特征为分类条件，对所述各用户进行分类，生成至少一个待确定分类集群；

根据所述待确定分类集群进行政策模拟测试，并判断政策模拟的测试结果是否优于原测试结果，所述原测试结果是以所述用户特征为分类条件生成得到的分类集群进行政策模拟测试得到的；

若确定测试结果优于所述原测试结果，则将所述待确定分类集群作为生成得到的分类集群。

7.根据权利要求1所述的方法，其特征在于，按照所述分类集群的群体特征，执行批量用户的政策模拟分析，具体包括：

按照不同群体特征的所述分类集群，将政策模拟分析任务分解成至少一子任务，并分配给多个计算节点进行处理，其中，每个子任务各自对应一个计算节点。

8.一种政策模拟分析的优化装置，其特征在于，包括：

获取模块，用于获取各用户的基本信息和政策规则信息；

9.一种非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的政策模拟分析的优化方法。

10.一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的政策模拟分析的优化方法。