一种人工智能服务系统模型的选择方法和装置
技术领域
本专利申请属于人工智能服务技术领域,更具体地说,是涉及一种融合数据异常检测的人工智能服务系统模型的选择方法和装置。
背景技术
在线人工智能服务系统接受数据输入,通过机器学习、运筹优化、知识推理等模块,输出决策数据或预测数据。数据输入、模型漏洞等对于系统输出合理性及正确性非常重要。
现有技术方案往往重视模型漏洞的填补,例如对抗神经网络,而对输入数据可能出现的数据缺失、异常、噪音考虑不够。系统模块在历史规整数据集上表现良好,而在线上出现不同程度的性能衰退,甚至造成外部重大风险。
发明内容
本发明需要解决的技术问题是提供一种人工智能服务系统模型的选择方法,可以规避数据输入中的数据缺失、异常、噪音问题。
为了解决上述问题,本发明所采用的技术方案是:
一种人工智能服务系统模型的选择方法,对人工智能服务系统的输入部分的各个模块设计多个模型,通过选择器的筛选规则选取排序最优的模块,使得选取出的模块一方面效果满足需要,另一方面重点依赖的数据项异常概率低于预期。
本发明技术方案的进一步改进在于:筛选规则为:选择器根据历史数据计算各输入数据项对各个模型的重要性,结合数据项异常概率,评估各模块各模型的可靠性,最后依据模型数据项重要性,选取最合适的模块内模型,输入部分的排序选择模型的表达式为:wj*sum(1-pi)*qij,其中:j为模型编号,pi为第i项数据异常概率,qij为第i项数据对模型j的重要性,wj为模型j数据项重要性。
本发明技术方案的进一步改进在于:筛选过程为:
输入数据经过数据项预处理后进行异常检测,然后通过选择器一选择出若干个机器学习模型,接着将选择出的机器学习模型经过选择器二的二次处理后,输出对应的若干个决策模型,所有的机器学习模型和所有的决策模型在生成后均需结合各自对应的业务模型进行模型数据重要性评估,经过模型数据重要性评估后,符合要求的模型进行数据输出,不符合要求的模型再依次进入选择器一和选择器二中进行处理,依此循环,直到最终筛选出最合适的模块内模型,进行数据输出。
本发明技术方案的进一步改进在于:对人工智能服务系统的输出部分,也计算数据项异常概率,如果出现大概率异常,则默认对输入部分进行重新输入,并选择高可靠性的预留业务模型进行输出处理。
本发明技术方案的进一步改进在于:输入部分设计的多个模型包括机器学习模型和规则引擎,对于机器学习模型使用特征作为数据项重要性的判断依据,对于规则引擎通过数据项影响规则的数量或深度进行数据项重要性定义。
或者也可以根据历史回测,利用不同数据项的取值和模块输出的相关性进行归一化处理后作为数据项重要性的判断依据。也就是计算各个模块内对于数据项重要性的评估,可以通过数据项的取值和模块输出的相关性(皮尔逊系数等)来作为相关性的评估,各个数据项和模块输入的相关性要做归一化。例如3个数据项和模块输出的相关性分别是0.8,0.4,0.2,归一化后分别是0.8/1.4,0.4/1.4,0.2/1.4。
本发明技术方案的进一步改进在于:机器学习模型为用于保护系统的稳定性机制的逻辑回归模型或决策树模型。
本发明技术方案的进一步改进在于:选择器一和选择器二为卡方选择器或css选择器。
一种人工智能服务系统模型的选择装置,用于实现上述方法,包括与预处理模块连接的异常检测模块、与预处理模块和异常检测模块均连接的选择器一、与选择器一对应的若干个机器学习模型和业务模型一、与所有机器学习模型和业务模型一均连接的选择器二、与选择器二对应的若干个决策模型和业务模型二、与所有决策模型和业务模型二均对应连接的数据输出模块以及模型数据重要性模块,模型数据重要性模块还连接选择器一、选择器二、所有机器学习模型和业务模型一,数据输出模块还与异常检测模块连接。
本发明技术方案的进一步改进在于:异常检测模块通过分类方法、聚类方法、最近邻方法、统计方法、信息论方法或谱方法的一种或多种实现异常检测。
由于采用了上述技术方案,本发明取得的有益效果是:本方法可以规避数据输入中的数据缺失、异常、噪音问题,提高AI系统的鲁棒性,同时具有结构简单、操作简便,适用性强的特点,有效避免造成外部重大风险,提高系统稳定运行性。
附图说明
图1为传统人工智能系统的流程;
图2为本发明提供的稳定可靠的人工智能系统的流程。
具体实施方式
下面结合实施例对本发明做进一步详细说明。
本发明公开了一种人工智能服务系统模型的选择方法,包括对人工智能服务系统的输入部分的各个模块设计多个模型,通过选择器的筛选规则选取排序最优的模块,使得选取出的模块一方面效果满足需要,另一方面重点依赖的数据项异常概率低于预期。
筛选规则为:选择器根据历史数据计算各输入数据项对各个模型的重要性,结合数据项异常概率,评估各模块各模型的可靠性,最后依据模型数据项重要性,选取最合适的模块内模型,输入部分的排序选择模型的表达式为:wj*sum(1-pi)*qij,其中:j为模型编号,pi为第i项数据异常概率,qij为第i项数据对模型j的重要性,wj为模型j数据项重要性。
筛选过程为:输入数据经过数据项预处理后进行异常检测,然后通过选择器一选择出若干个机器学习模型,接着将选择出的机器学习模型经过选择器二的二次处理后,输出对应的若干个决策模型,所有的机器学习模型和所有的决策模型在生成后均需结合各自对应的业务模型进行模型数据重要性评估,经过模型数据重要性评估后,符合要求的模型进行数据输出,不符合要求的模型再依次进入选择器一和选择器二中进行处理,依此循环,直到最终筛选出最合适的模块内模型,进行数据输出。
对人工智能服务系统的输出部分,也计算数据项异常概率,如果出现大概率异常,则默认对输入部分进行重新输入,并选择高可靠性的预留业务模型进行输出处理。
输入部分设计的多个模型包括机器学习模型和规则引擎,对于机器学习模型使用特征作为数据项重要性的判断依据,对于规则引擎通过数据项影响规则的数量或深度进行数据项重要性定义。
或者也可以根据历史回测,利用不同数据项的取值和模块输出的相关性进行归一化处理后作为数据项重要性的判断依据。也就是计算各个模块内对于数据项重要性的评估,可以通过数据项的取值和模块输出的相关性(皮尔逊系数等)来作为相关性的评估,各个数据项和模块输入的相关性要做归一化。例如3个数据项和模块输出的相关性分别是0.8,0.4,0.2,归一化后分别是0.8/1.4,0.4/1.4,0.2/1.4。
机器学习模型为逻辑回归模型或决策树模型,此两种模型可用于保护系统的稳定性机制。
选择器一和选择器二为卡方选择器或css选择器。
一种人工智能服务系统模型的选择装置,用于实现上述选择方法,包括与预处理模块连接的异常检测模块、与预处理模块和异常检测模块均连接的选择器一、与选择器一对应的若干个机器学习模型和业务模型一、与所有机器学习模型和业务模型一均连接的选择器二、与选择器二对应的若干个决策模型和业务模型二、与所有决策模型和业务模型二均对应连接的数据输出模块以及模型数据重要性模块,模型数据重要性模块还连接选择器一、选择器二、所有机器学习模型和业务模型一,数据输出模块还与异常检测模块连接。
异常检测模块通过分类方法、聚类方法、最近邻方法、统计方法、信息论方法或谱方法的一种或多种实现异常检测。
图1、图2将两种方法进行了对比,效果对比比较直观。在图2中,选择器根据数据项异常概率p,模型数据重要性w、模型性能q三项总和考量选择最优模型进行执行。示例:根据wj*sum(1-pi)*qij排序选择模型,j为模型编号,pi为第i项数据异常概率,qij为第i项数据对模型j的重要性;如果使用机器学习模型/决策模型数据输出出现异常,则选择器一和选择器二使用可靠业务模型(业务模型一和业务模型二)建模,保证系统的稳定运行。