CN116451056B - 端特征洞察方法、装置以及设备 - Google Patents
端特征洞察方法、装置以及设备 Download PDFInfo
- Publication number
- CN116451056B CN116451056B CN202310694023.6A CN202310694023A CN116451056B CN 116451056 B CN116451056 B CN 116451056B CN 202310694023 A CN202310694023 A CN 202310694023A CN 116451056 B CN116451056 B CN 116451056B
- Authority
- CN
- China
- Prior art keywords
- characteristic
- feature
- information
- terminal
- statistics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000002776 aggregation Effects 0.000 claims abstract description 115
- 238000004220 aggregation Methods 0.000 claims abstract description 115
- 238000010801 machine learning Methods 0.000 claims abstract description 71
- 238000012216 screening Methods 0.000 claims abstract description 67
- 238000000605 extraction Methods 0.000 claims abstract description 54
- 239000008280 blood Substances 0.000 claims abstract description 31
- 210000004369 blood Anatomy 0.000 claims abstract description 31
- 230000004044 response Effects 0.000 claims abstract description 27
- 238000013507 mapping Methods 0.000 claims description 62
- 238000012545 processing Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000013138 pruning Methods 0.000 claims description 4
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims 1
- 238000011160 research Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000003860 storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000006872 improvement Effects 0.000 description 8
- 238000010276 construction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012827 research and development Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本说明书实施例公开了端特征洞察方法,能够帮助大规模产品线和研发人员更有效地选择合适特征用于构建模型。方案包括:接收预先部署于端上的特征中心模块上报的端特征相关聚合信息,端特征相关聚合信息由特征中心模块对端上的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合得到;对端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息;接收发送自前端的机器学习特征甄选请求;根据统计得到的多种信息,响应机器学习特征甄选请求,以使前端展示响应返回的信息。
Description
技术领域
本说明书涉及机器学习技术领域,尤其涉及端特征洞察方法、装置以及设备。
背景技术
随着互联网技术的迅速发展,各种应用涌现,给用户带来了极大的便利。而各种应用为了提高服务的高效性和智能性,越来越多的应用使用了各种机器学习模型进行预测。典型的应用场景是利用机器学习模型,向用户推荐各种信息,比如,在电商平台上推荐商品信息,在金融平台上推荐理财产品信息,在导航平台上推荐兴趣点和路线信息,等等。
在实际应用中,模型预测的准确性和偏向通常受训练样本的影响大,而对于模型研发人员而言,更是需要关注构建模型时对特征的选择,这将会从根本上影响模型质量,而且可能使得训练过程事半功倍。来自端上的数据特征(称为:端特征)是模型构建的必要基础,影响模型泛化能力上限,但是,对于一些大中型企业而言,有很多产品线和研发人员,相应涉及很多模型的构建,其中涉及的需求又是庞大而多样化。
基于此,需要帮助大规模产品线和研发人员更有效地选择合适特征用于构建模型的方案。
发明内容
本说明书一个或多个实施例提供一种端特征洞察方法、装置、设备以及存储介质,用以解决如下技术问题:需要帮助大规模产品线和研发人员更有效地选择合适特征用于构建模型的方案。
为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
本说明书一个或多个实施例提供的一种端特征洞察方法,包括:
接收预先部署于端上的特征中心模块上报的端特征相关聚合信息,所述端特征相关聚合信息由所述特征中心模块对所述端上的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合得到;
对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息;
接收发送自前端的机器学习特征甄选请求;
根据所述统计得到的多种信息,响应所述机器学习特征甄选请求,以使所述前端展示所述响应返回的信息。
本说明书一个或多个实施例提供的一种端特征洞察方法,包括:
确定部署于本地的特征中心模块;
通过所述特征中心模块,对本地的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合,得到端特征相关聚合信息;
将所述端特征相关聚合信息上报给云端,以使所述云端对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息,并据此响应发送自前端的机器学习特征甄选请求。
本说明书一个或多个实施例提供的一种端特征洞察装置,包括:
聚合信息接收模块,接收预先部署于端上的特征中心模块上报的端特征相关聚合信息,所述端特征相关聚合信息由所述特征中心模块对所述端上的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合得到;
多维信息统计模块,对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息;
甄选请求接收模块,接收发送自前端的机器学习特征甄选请求;
甄选请求响应模块,根据所述统计得到的多种信息,响应所述机器学习特征甄选请求,以使所述前端展示所述响应返回的信息。
本说明书一个或多个实施例提供的一种端特征洞察装置,包括:
中心模块确定模块,确定部署于本地的特征中心模块;
端特征处理模块,通过所述特征中心模块,对本地的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合,得到端特征相关聚合信息;
聚合信息上报模块,将所述端特征相关聚合信息上报给云端,以使所述云端对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息,并据此响应发送自前端的机器学习特征甄选请求。
本说明书一个或多个实施例提供的一种端特征洞察设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
接收预先部署于端上的特征中心模块上报的端特征相关聚合信息,所述端特征相关聚合信息由所述特征中心模块对所述端上的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合得到;
对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息;
接收发送自前端的机器学习特征甄选请求;
根据所述统计得到的多种信息,响应所述机器学习特征甄选请求,以使所述前端展示所述响应返回的信息。
本说明书一个或多个实施例提供的一种端特征洞察设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
确定部署于本地的特征中心模块;
通过所述特征中心模块,对本地的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合,得到端特征相关聚合信息;
将所述端特征相关聚合信息上报给云端,以使所述云端对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息,并据此响应发送自前端的机器学习特征甄选请求。
本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
接收预先部署于端上的特征中心模块上报的端特征相关聚合信息,所述端特征相关聚合信息由所述特征中心模块对所述端上的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合得到;
对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息;
接收发送自前端的机器学习特征甄选请求;
根据所述统计得到的多种信息,响应所述机器学习特征甄选请求,以使所述前端展示所述响应返回的信息。
本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
确定部署于本地的特征中心模块;
通过所述特征中心模块,对本地的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合,得到端特征相关聚合信息;
将所述端特征相关聚合信息上报给云端,以使所述云端对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息,并据此响应发送自前端的机器学习特征甄选请求。
本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果:能够通过预先部署于端上的特征中心模块,统一地采集和处理端上多样化的特征,并有针对性地挑选更侧重于机器学习方面的特征多维信息,进而能根据多维信息在前端展示,以供研发人员更直观全面,以及重点突出地看到相关的特征表现以及可能的模型应用前景,从而能够帮助大规模产品线和研发人员更有效地选择合适特征用于构建模型。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的云端角度的一种端特征洞察方法的流程示意图;
图2为本说明书一个或多个实施例提供的一种响应于机器学习特征甄选请求在前端展示信息的效果示意图;
图3为本说明书一个或多个实施例提供的端特征洞察方法在一种应用场景下,所采用的机器学习特征甄选辅助强化方案的流程示意图;
图4为本说明书一个或多个实施例提供的端上角度的一种端特征洞察方法的流程示意图;
图5为本说明书一个或多个实施例提供的对应于图1的一种端特征洞察装置的结构示意图;
图6为本说明书一个或多个实施例提供的对应于图4的一种端特征洞察装置的结构示意图;
图7为本说明书一个或多个实施例提供的对应于图1的一种端特征洞察设备的结构示意图;
图8为本说明书一个或多个实施例提供的对应于图4的一种端特征洞察设备的结构示意图。
具体实施方式
本说明书实施例提供端特征洞察方法、装置、设备以及存储介质。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
在智能化场景中,基于当前用户实时交互行为、时空环境及设备指纹状态等信息,通过人工智能推理与应用场景的深度结合,能够有效辅助服务效果提升,因此,机器学习模型越来越受到重视。如背景技术所述,端特征是模型构建的必要基础,影响模型泛化能力上限,申请人在实际研发过程中,适应于自己的需求定义了很多特征,主要包括以下几大类:
通用端特征:包括时空环境、设备指纹状态、用户行为轨迹、基本信息等特征数据,由端智能统一做开发及维护。
服务域特征:各场景所需的用户行为数据有差异,由各产品线或研发人员通过配置方式自动采集某些点位信息(比如,首页点击/曝光序列、用户搜索词序列等),基于基础行为数据,服务可通过脚本再次将其加工形成所需特征。
高阶特征:已有模型决策产出的可供其他服务复用的高阶特征,比如,端意图、设备评级分、人机判别分等。
服务域特征和高阶特征都是开放式研发模式下的特征,公司内的大量研发人员均可以基于自己的需求在端特征平台进行特征研发和使用,不过由于特征是大规模的,目前,每个研发人员充其量只了解一小部分特征,难以更充分了解公司内可使用的更多的特征,从而给该研发人员构建模型带来了较大的局限性。
基于此,本申请致力于帮助公司各产品线的研发人员能够根据自己需要,实时监测洞察线上特征数据样例、特征数据分布、特征提取频次、特征血缘、特征提取性能及各类特征异常等多维度信息,并且主动辅助研发人员选择更适合自己拟构建的模型的特征。
申请人在实际应用中发觉,无论简单特征,还是通过复杂加工方式形成的特征,对于特征使用者而言,会更关注端上具备哪些可用特征,这些可用特征已在哪些场景使用,以及是如何使用的(可以将这些情况可以称为特征血缘),以及特征在线提取耗时、特征样例、特征值取值分布、特征空值率等情况。对于特征研发者而言,除了关注上述方面外,还关注特征在线异常报错状况。对于端特征平台侧(云端)而言,除上述几个方面还需要掌握特征的活跃度情况,对非活跃特征进行定期治理及下线,降低端侧存储及性能消耗。如何让使用和研发端特征的人员有手段主动监测、掌握特征数据质量,如何在服务影响出现之前提前排查解决数据问题,是本申请致力于解决的问题。
下面基于这样的总体思路,继续详细说明本申请的方案。
本申请的方案涉及云端和端上,云端比如是服务器,端上比如是用户(主要是使用应用的客户,也可以包括应用的研发人员)的终端设备。图1为本说明书一个或多个实施例提供的云端角度的一种端特征洞察方法的流程示意图。该流程可以在应用一方的机器上执行,比如,应用的服务器、测试机、应用的所属方或运营方(通常是该应用的所属公司)所控制的其他设备等。流程中的某些输入参数或者中间结果允许人工干预调节,以帮助提高准确性。
图1中的流程包括以下步骤:
S102:接收预先部署于端上的特征中心模块上报的端特征相关聚合信息,所述端特征相关聚合信息由所述特征中心模块对所述端上的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合得到。
在本说明书一个或多个实施例中,基于云端预先定义和构造的大量特征(比如,上述的通用端特征、服务域特征、高阶特征等),通过端设备本身的工作、端上的应用运行以及用户在端上的操作,端上会产生相应的特征数据,特征中心模块则用于统一地采集、处理和上报这些数据。如此,大量研发人员无需分别根据自己的产品需要,单独实现自己关注的个别特征的采集逻辑,也避免了这样的分散化操作给全局的性能带来不稳定影响,降低了风险。
S104:对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息。
在本说明书一个或多个实施例中,特征性能包括在线提取该特征所带来的资源损耗表现,比如,特征提取耗时、特征压缩率、特征编解码耗时,等等。特征血缘除了包含之前提到的情况以外,还可以包含不同特征之间配合使用关系,比如,是如何融合和映射的,等等。特征活跃数据反映了特征被端上使用、提取、上报,或实际用于构建模型的频繁程度和使用深度,该数据有助于更直观地表现出对应特征的实用价值。特征样例包含对应特征较为典型的特征值,还可以包含该特征值所涉及的一些设定阈值(比如,用于特征分类或特征异常判定等)。
进一步地,除了步骤S104中列举的信息以外,还可以选择更多维度的信息,以帮助甄选特征构建模型,比如,特征长度统计、特征异常统计、特征空值率统计等。
基于如此统计得到的多维信息,能够为多方面的人员提供参考,从而对应用的研发和运维大有裨益。比如,帮助算法人员全面了解端特征及其各属性,进而助力其为模型选择合适的特征;帮助特征研发人员实时了解特征线上运行状况,及时针对上报异常做脚本故障修复。帮助特征平台人员实时了解特征整体运作状况,以对高耗时特征做及时的性能优化、低活跃度特征及时做下线治理等事项。
S106:接收发送自前端的机器学习特征甄选请求。
在本说明书一个或多个实施例中,可以允许公司特定的人员向云端发送机器学习特征甄选请求,以至少洞察为一个或多个特征(比如,通过请求指定感兴趣的特征)所统计多维信息。
需要说明的是,这只是本申请所提供的基本能力,机器学习特征甄选请求还可以携带更多的指示信息(比如,模型构造需求、关键特征、指定的特征关系组合,等等),以使得云端发挥更强力的特征甄选辅助能力,当然,即使没有这些指示信息,云端也可以主动发挥特征甄选辅助能力,后面会举例详细说明。
S108:根据所述统计得到的多种信息,响应所述机器学习特征甄选请求,以使所述前端展示所述响应返回的信息。
在本说明书一个或多个实施例中,通过返回指定的特征对应的多维信息,响应机器学习特征甄选请求,则前端会为用户展示该多维信息以供参考或监测。
通过图1的方法,能够通过预先部署于端上的特征中心模块,统一地采集和处理端上多样化的特征,并有针对性地挑选更侧重于机器学习方面的特征多维信息,进而能根据多维信息在前端展示,以供研发人员更直观全面,以及重点突出地看到相关的特征表现以及可能的模型应用前景,从而能够帮助大规模产品线和研发人员更有效地选择合适特征用于构建模型。
基于图1的方法,本说明书还提供了该方法的一些具体实施方案和扩展方案,下面继续进行说明。
在本说明书一个或多个实施例中,由于机器学习模型会有其专用场景,场景的具体化和精细化有助于降低模型所需的训练量,以及提高模型在该场景下的可靠性,因此,尤其可关注已使用某特征,或有潜在可能使用该特征的场景。按照这样的思路,特征提取可以包括:以场景标识作为入参,提取对应的场景下的端特征。场景的预先定义根据应用的实际情况进行,未必是已使用的场景,可以由待构建模型的研发人员来自由地利用场景元素来组合定义。
具体比如,在应用上提供特征获取接口,入参为特征列表(比如,一个特征名数组)及场景码,云端预先设定本次的入参下发到端上,再由特征中心模块根据入参,访问特征获取接口,从而提取多样化的端特征。
在本说明书一个或多个实施例中,特征相关信息记录包括:记录对应的端特征的提取耗时统计、异常统计、抽样特征值、特征属性等信息,如此对于模型特征甄选更具针对性。
对于耗时统计,可以对输入的特征列表做遍历,对每个特征,在提取前记录时间戳(比如,精确到毫秒级别);在提取结束后记录时间戳,前后时间差及为该特征提取耗时。
对于异常统计,提取特征部分会做try catch处理,对catch住的异常进行记录;提取特征后,判断特征值是否为空,若为空则记录为value_none,(特征空值)作为异常的一种类型,类似地,其他的一些根据阈值判定出的特征异常也做记录。
对于特征值、特征属性记录,提取结果类型判定,分为字典类型/序列类型/布尔类型/字符串类型/长整型等,针对不同类型其特征长度定义不同,比如示例性定义如下:
字典类型:特征长度为字典key的个数;
序列类型:特征长度为序列数组的长度;
布尔类型:长度为1;
字符串类型:长度为字符串本身长度;
长整型数据类型:特征值本身。
在本说明书一个或多个实施例中,聚合包括:埋点等待记录得到符合要求的每多条信息进行一次信息聚合。由于端特征提取频次可能较高,每次特征提取即做埋点会影响服务流程的性能,因此,上述数据采取多条信息聚合上报,以降低对服务的影响。对于用户基数大的大型应用,每日用户访问数甚至可能达到亿级,在这类情况下,针对特征各项数据的洞察,可以采取采样方案。对于特征样例,尤其可以采用更低的采样率。
具体比如,在相应的处理进程内,若端上命中本次采样率则可以做以下聚合上报处理:
特征提取性能聚合统计,一次特征提取记做scenecode(表示场景码)%feature_name(表示特征名)%耗时(单位毫秒);性能记录满10条(按需求设定条数)进行性能埋点上报,两次记录间用‘|’隔断,例如:
scenecode1%feature_name1%耗时|scenecode2%feature_name2%耗时;
特征提取异常聚合上报,一次异常记做scenecode%feature_name%异常信息;记录满10条进行异常上报,两次记录间用‘|’隔断,scenecode1%feature_name1%异常信息1|scenecode2%feature_name2%异常信息2;
特征值抽样上报,特征值抽样比例比如控制在万分之一(可动态调整),同时上报特征值属性及特征长度。
在本说明书一个或多个实施例中,在对端特征相关聚合信息进行多维信息统计时,可以获取上报对应的上报协议,根据上报协议对端特征相关聚合信息进行清洗,提取出特征性能、特征值和特征异常数据,并写入各自对应的数据表中,再根据数据表中的包含的场景标识字段进行多维信息统计。如此,一方面,便于松耦合地深度分析不同类的特征数据,另一方面,又能够突出场景信息,以便于更有可解释性地构建模型。
下面给出示例性的数据表及其字段。性能数据写入第一数据表(记作adm_mf_feature_dd),表字段定义:场景码、特征名、耗时、时间戳、日期、平台(Android/iOS等)等。特征值数据写入第二数据表(记作adm_mf_feature_value_dd),表字段定义:场景码、特征名、特征值、特征属性、特征长度、时间戳、日期、平台等。特征异常写入第三数据表(记作adm_mf_error_dd),表字段定义:场景码、特征名、特征异常信息、时间戳、日期、平台。
对于不同维度的信息,可以分开统计。比如:对于特征性能,通过SQL统计在Android、iOS等不同平台上的平均提取耗时;对于特征血缘,通过SQL统计特征在哪些场景上使用,输出特征与场景码的对应关系列表;对于特征活跃度,可以进行特征的频次(比如,提取频次、本地使用频次、云端使用频次、模型调用频次等)统计,据此度量活跃度;对于非活跃特征,所有特征在云端预先有记录,比如,通过埋点上报的所有特征与云端记录的所有特征取差,即可统计未被提取的特征,作为非活跃特征,当然,根据需要也可以采用更多的判定策略;对于特征值样例,比如,每个特征在每个平台只选择输出一条样例,可以从多次抽样得到的数据中选择;对于特征长度统计,根据上报的特征长度做最小、最大、平均等统计。
为了提高统计效率和实用性,可以更多地突出场景,关联性地进行多维信息统计。比如,根据数据表中的包含的场景标识字段,统计相同特征所对应使用的一个或多个场景,以确定出特征血缘,根据特征性能的数据,统计所述相同特征在对应的同一个场景下,不同平台上的平均耗时,并输出平台对应的特征样例,从而能够有效地收缩统计范围,发掘出不同维度上价值更高的统计数据。
按照类似的思路,可以根据特征值数据和特征异常数据,统计相同特征的特征活跃数据,以确定出在指定场景下的非活跃数据。
统计得到多维信息后,可以响应于用户的机器学习特征甄选请求,使用户的前端至少部分展示这些多维信息。以用户指定了单个特征为例,直观地,本说明书一个或多个实施例提供了一种响应于机器学习特征甄选请求在前端展示信息的效果示意图,参见图2。
在图2中,示例性地展示出了某个特征对应的应用场景、特征值快照、性能统计、特征值空值率统计、其他异常统计等信息。这些信息中包含上面列举的一些字段,以应用场景为例,其字段包括:特征名、场景码、场景使用数量、特征提取总数量等。
在本说明书一个或多个实施例中,可能会有很多不同的前端有机器学习特征甄选需求,在这种情况下,具有相应权限的前端可以主动请求云端新增对指定特征(比如,由操作该前端的拟构建模型的研发人员)的提取和处理,以便后续该前端(比如,称为另一前端)或者其他的前端(比如,图1流程中的前端)决策是否甄选该指定特征。
具体比如,该另一前端可以响应于操作者指定特征,向云端发送针对该指定特征的洞察请求,此时,不同端上的特征中心模块尚不具对该指定特征的处理逻辑,则云端接收发送自该另一前端的针对指定特征的洞察请求,响应于洞察请求,生成针对指定特征的埋点采集逻辑,将埋点采集逻辑下发至多个不同的端上的特征中心模块,以使特征中心模块通过所述埋点采集逻辑,在对应的端上获取并上报指定特征对应的端特征相关聚合信息。
在本说明书一个或多个实施例中,对于机器学习模型而言,通常涉及从输入特征,经过隐藏层的映射,再通过诸如softmax之类的分类层的概率化或分数化处理,输出预测结果,无论是该预测结果,还是中途涉及的概率值、分数、隐藏层高维特征等中间结果(这些中间结果可以视为高阶特征),同样也是特征。那么对于模型构建者而言,相比于单个特征,更应该关系特征之间的映射关系,这能更有效率和更高价值地地为模型构建提供参考。基于这样的考虑,本说明书一个或多个实施例还提供了端特征洞察方法在一种应用场景下,所采用的机器学习特征甄选辅助强化方案的流程示意图,参见图3。
图3中的流程包括以下步骤:
S302:所述特征集合中包含通过已有模型对多个基础特征进行映射后输出的高阶特征, 根据所述统计得到的多种信息,确定不同的所述高阶特征与其对应的所述多个基础特征之间的映射关系,构成映射关系集合。
该映射关系实际上反映了一些可能的机器学习模型内部的构型,而且映射关系正向所指向的高阶特征,很可能是当前用户能够一定程度参考的目标,当前用户拟构建模型实质上也是为了预测某个数据,而若该数据的定义与该高阶特征具有一定的相似性,那么当前用户相应可以进一步参考该高阶特征所在的映射关系,来最终构建能够满足自己需求的映射关系。
S304:根据所述映射关系集合,生成合并映射关系树。之后,则可以根据映射关系树,响应机器学习特征甄选请求。
合并映射关系树能够从公司全局层面上,统一地反映出公司的已有模型对映射关系的实际使用情况,与相互之间的复用交叠情况。在这种情况下,当前用户即使并不了解其他产品线的模型的具体结构,仍然能够基于合并映射关系树,全面且精准地发掘出对自己有价值的局部映射关系,用于构建自己的模型。
在合并时,可以从特征维度,将相同特征合并为同一个树节点,合并后,还可以根据边的重复程度增加边权重,减少边数,从而使得合并映射关系树轻量化。
S306:所述机器学习特征甄选请求中指示了拟构建模型的目标输出特征,根据所述目标输出特征,在所述映射关系树中进行相似性匹配。
有相似的模型输出目标,则可以参照相似的映射关系。
S308:根据所述相似性匹配对所述映射关系树进行剪枝处理,为所述拟构建模型生成参考映射关系树。
在本说明书一个或多个实施例中,将与自己的目标相关程度不高的映射关系分支剪除,保留相对更有价值的映射关系枝干,从而可能直接得到拟构建的模型的特征关系参考构型,由此有助于有效提高模型构建效率。
S310:响应于所述机器学习特征甄选请求,返回所述参考映射关系树,以使所述前端展示所述参考映射关系树。
当前用户基于前端上展示的映射关系树,可以再做进一步的调整,还可以根据需求新定义特征,添加到参考映射关系树中,最终得到拟构建模型的特征映射关系。
前面的说明既涉及了云端的动作,也涉及了端上的动作。更直观地,本说明书一个或多个实施例还提供了端上角度的一种端特征洞察方法的流程示意图,参见图4,参照上面的说明理解即可。该流程可以在用户一方的机器上执行,比如,用户的手机、平板电脑、测试机等。
图4中的流程包括以下步骤:
S402:确定部署于本地的特征中心模块。
S404:通过所述特征中心模块,对本地的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合,得到端特征相关聚合信息。
S406:将所述端特征相关聚合信息上报给云端,以使所述云端对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息,并据此响应发送自前端的机器学习特征甄选请求。
在本说明书一个或多个实施例中,端特征相关聚合信息的得到过程,可以包括:对本地的多样化的特征集合,以场景标识作为入参,提取对应的场景下的端特征;记录对应的端特征的提取耗时统计、异常统计、抽样特征值、特征属性;埋点等待记录得到符合要求的每多条信息进行一次信息聚合。
基于同样的思路,本说明书一个或多个实施例还提供了上述方法对应的装置和设备,参见图5~图8。装置和设备能够相应执行上述方法及相关的可选方案。
图5为本说明书一个或多个实施例提供的对应于图1的一种端特征洞察装置的结构示意图,所述装置包括:
聚合信息接收模块502,接收预先部署于端上的特征中心模块上报的端特征相关聚合信息,所述端特征相关聚合信息由所述特征中心模块对所述端上的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合得到;
多维信息统计模块504,对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息;
甄选请求接收模块506,接收发送自前端的机器学习特征甄选请求;
甄选请求响应模块508,根据所述统计得到的多种信息,响应所述机器学习特征甄选请求,以使所述前端展示所述响应返回的信息。
可选地,所述特征提取包括:以场景标识作为入参,提取对应的场景下的端特征;
所述特征相关信息记录包括:记录对应的端特征的提取耗时统计、异常统计、抽样特征值、特征属性;
所述聚合包括:埋点等待记录得到符合要求的每多条信息进行一次信息聚合。
可选地,所述多维信息统计模块504,获取所述上报对应的上报协议;
根据所述上报协议对所述端特征相关聚合信息进行清洗,提取出特征性能、特征值和特征异常数据,并写入各自对应的数据表中;
根据所述数据表中的包含的场景标识字段进行多维信息统计。
可选地,所述多维信息统计模块504,根据所述数据表中的包含的场景标识字段,统计相同特征所对应使用的一个或多个场景,以确定出特征血缘;
根据所述特征性能的数据,统计所述相同特征在对应的同一个所述场景下,不同平台上的平均耗时,并输出所述平台对应的特征样例。
可选地,所述多维信息统计模块504,根据所述特征值数据和所述特征异常数据,统计所述相同特征的特征活跃数据,以确定出在指定场景下的非活跃数据。
可选地,所述聚合信息接收模块502,在所述接收发送自前端的机器学习特征甄选请求之前,接收发送自另一前端的针对指定特征的洞察请求;
响应于所述洞察请求,生成针对所述指定特征的埋点采集逻辑;
将所述埋点采集逻辑下发至多个不同的端上的所述特征中心模块,以使所述特征中心模块通过所述埋点采集逻辑,在所述端上获取并上报所述指定特征对应的端特征相关聚合信息。
可选地,所述特征集合中包含通过已有模型对多个基础特征进行映射后输出的高阶特征;
所述甄选请求响应模块508,根据所述统计得到的多种信息,确定不同的所述高阶特征与其对应的所述多个基础特征之间的映射关系,构成映射关系集合;
根据所述映射关系集合,生成合并映射关系树;
根据所述映射关系树,响应所述机器学习特征甄选请求。
可选地,所述机器学习特征甄选请求中指示了拟构建模型的目标输出特征;
所述甄选请求响应模块508,根据所述目标输出特征,在所述映射关系树中进行相似性匹配;
根据所述相似性匹配对所述映射关系树进行剪枝处理,为所述拟构建模型生成参考映射关系树;
响应于所述机器学习特征甄选请求,返回所述参考映射关系树,以使所述前端展示所述参考映射关系树。
图6为本说明书一个或多个实施例提供的对应于图4的一种端特征洞察装置的结构示意图,所述装置包括:
中心模块确定模块602,确定部署于本地的特征中心模块;
端特征处理模块604,通过所述特征中心模块,对本地的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合,得到端特征相关聚合信息;
聚合信息上报模块606,将所述端特征相关聚合信息上报给云端,以使所述云端对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息,并据此响应发送自前端的机器学习特征甄选请求。
可选地,所述端特征处理模块604,对本地的多样化的特征集合,以场景标识作为入参,提取对应的场景下的端特征;
记录对应的端特征的提取耗时统计、异常统计、抽样特征值、特征属性;
埋点等待记录得到符合要求的每多条信息进行一次信息聚合。
图7为本说明书一个或多个实施例提供的对应于图1的一种端特征洞察设备的结构示意图,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
接收预先部署于端上的特征中心模块上报的端特征相关聚合信息,所述端特征相关聚合信息由所述特征中心模块对所述端上的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合得到;
对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息;
接收发送自前端的机器学习特征甄选请求;
根据所述统计得到的多种信息,响应所述机器学习特征甄选请求,以使所述前端展示所述响应返回的信息。
图8为本说明书一个或多个实施例提供的对应于图4的一种端特征洞察设备的结构示意图,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
确定部署于本地的特征中心模块;
通过所述特征中心模块,对本地的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合,得到端特征相关聚合信息;
将所述端特征相关聚合信息上报给云端,以使所述云端对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息,并据此响应发送自前端的机器学习特征甄选请求。
基于同样的思路,本说明书一个或多个实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
接收预先部署于端上的特征中心模块上报的端特征相关聚合信息,所述端特征相关聚合信息由所述特征中心模块对所述端上的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合得到;
对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息;
接收发送自前端的机器学习特征甄选请求;
根据所述统计得到的多种信息,响应所述机器学习特征甄选请求,以使所述前端展示所述响应返回的信息。
基于同样的思路,本说明书一个或多个实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
确定部署于本地的特征中心模块;
通过所述特征中心模块,对本地的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合,得到端特征相关聚合信息;
将所述端特征相关聚合信息上报给云端,以使所述云端对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息,并据此响应发送自前端的机器学习特征甄选请求。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (22)
1.一种端特征洞察方法,包括:
接收预先部署于端上的特征中心模块上报的端特征相关聚合信息,所述端特征相关聚合信息由所述特征中心模块对所述端上的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合得到,所述特征提取包括:以场景标识作为入参,提取对应的场景下的端特征;
对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息;
接收发送自前端的机器学习特征甄选请求;
根据所述统计得到的多种信息,响应所述机器学习特征甄选请求,以使所述前端展示所述响应返回的信息。
2.如权利要求1所述的方法,所述特征相关信息记录包括:记录对应的端特征的提取耗时统计、异常统计、抽样特征值、特征属性;
所述聚合包括:埋点等待记录得到符合要求的每多条信息进行一次信息聚合。
3.如权利要求1所述的方法,所述对所述端特征相关聚合信息进行多维信息统计,具体包括:
获取所述上报对应的上报协议;
根据所述上报协议对所述端特征相关聚合信息进行清洗,提取出特征性能、特征值和特征异常数据,并写入各自对应的数据表中;
根据所述数据表中的包含的场景标识字段进行多维信息统计。
4.如权利要求3所述的方法,所述根据所述数据表中的包含的场景标识字段进行多维信息统计,具体包括:
根据所述数据表中的包含的场景标识字段,统计相同特征所对应使用的一个或多个场景,以确定出特征血缘;
根据所述特征性能的数据,统计所述相同特征在对应的同一个所述场景下,不同平台上的平均耗时,并输出所述平台对应的特征样例。
5.如权利要求4所述的方法,所述根据所述数据表中的包含的场景标识字段进行多维信息统计,具体包括:
根据所述特征值数据和所述特征异常数据,统计所述相同特征的特征活跃数据,以确定出在指定场景下的非活跃数据。
6.如权利要求2所述的方法,所述接收发送自前端的机器学习特征甄选请求之前,所述方法还包括:
接收发送自另一前端的针对指定特征的洞察请求;
响应于所述洞察请求,生成针对所述指定特征的埋点采集逻辑;
将所述埋点采集逻辑下发至多个不同的端上的所述特征中心模块,以使所述特征中心模块通过所述埋点采集逻辑,在所述端上获取并上报所述指定特征对应的端特征相关聚合信息。
7.如权利要求1所述的方法,所述特征集合中包含通过已有模型对多个基础特征进行映射后输出的高阶特征;
所述根据所述统计得到的多种信息,响应所述机器学习特征甄选请求,以使所述前端展示所述响应返回的信息,具体包括:
根据所述统计得到的多种信息,确定不同的所述高阶特征与其对应的所述多个基础特征之间的映射关系,构成映射关系集合;
根据所述映射关系集合,生成合并映射关系树;
根据所述映射关系树,响应所述机器学习特征甄选请求。
8.如权利要求7所述的方法,所述机器学习特征甄选请求中指示了拟构建模型的目标输出特征;
所述根据所述映射关系树,响应所述机器学习特征甄选请求,具体包括:
根据所述目标输出特征,在所述映射关系树中进行相似性匹配;
根据所述相似性匹配对所述映射关系树进行剪枝处理,为所述拟构建模型生成参考映射关系树;
响应于所述机器学习特征甄选请求,返回所述参考映射关系树,以使所述前端展示所述参考映射关系树。
9.一种端特征洞察方法,包括:
确定部署于本地的特征中心模块;
通过所述特征中心模块,对本地的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合,得到端特征相关聚合信息,所述特征提取包括:以场景标识作为入参,提取对应的场景下的端特征;
将所述端特征相关聚合信息上报给云端,以使所述云端对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息,并据此响应发送自前端的机器学习特征甄选请求。
10.如权利要求9所述的方法,所述对本地的多样化的特征集合进行特征相关信息记录,以及聚合,得到端特征相关聚合信息,具体包括:
记录对应的端特征的提取耗时统计、异常统计、抽样特征值、特征属性;
埋点等待记录得到符合要求的每多条信息进行一次信息聚合。
11.一种端特征洞察装置,包括:
聚合信息接收模块,接收预先部署于端上的特征中心模块上报的端特征相关聚合信息,所述端特征相关聚合信息由所述特征中心模块对所述端上的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合得到,所述特征提取包括:以场景标识作为入参,提取对应的场景下的端特征;
多维信息统计模块,对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息;
甄选请求接收模块,接收发送自前端的机器学习特征甄选请求;
甄选请求响应模块,根据所述统计得到的多种信息,响应所述机器学习特征甄选请求,以使所述前端展示所述响应返回的信息。
12.如权利要求11所述的装置,所述特征相关信息记录包括:记录对应的端特征的提取耗时统计、异常统计、抽样特征值、特征属性;
所述聚合包括:埋点等待记录得到符合要求的每多条信息进行一次信息聚合。
13.如权利要求11所述的装置,所述多维信息统计模块,获取所述上报对应的上报协议;
根据所述上报协议对所述端特征相关聚合信息进行清洗,提取出特征性能、特征值和特征异常数据,并写入各自对应的数据表中;
根据所述数据表中的包含的场景标识字段进行多维信息统计。
14.如权利要求13所述的装置,所述多维信息统计模块,根据所述数据表中的包含的场景标识字段,统计相同特征所对应使用的一个或多个场景,以确定出特征血缘;
根据所述特征性能的数据,统计所述相同特征在对应的同一个所述场景下,不同平台上的平均耗时,并输出所述平台对应的特征样例。
15.如权利要求14所述的装置,所述多维信息统计模块,根据所述特征值数据和所述特征异常数据,统计所述相同特征的特征活跃数据,以确定出在指定场景下的非活跃数据。
16.如权利要求12所述的装置,所述聚合信息接收模块,在所述接收发送自前端的机器学习特征甄选请求之前,接收发送自另一前端的针对指定特征的洞察请求;
响应于所述洞察请求,生成针对所述指定特征的埋点采集逻辑;
将所述埋点采集逻辑下发至多个不同的端上的所述特征中心模块,以使所述特征中心模块通过所述埋点采集逻辑,在所述端上获取并上报所述指定特征对应的端特征相关聚合信息。
17.如权利要求11所述的装置,所述特征集合中包含通过已有模型对多个基础特征进行映射后输出的高阶特征;
所述甄选请求响应模块,根据所述统计得到的多种信息,确定不同的所述高阶特征与其对应的所述多个基础特征之间的映射关系,构成映射关系集合;
根据所述映射关系集合,生成合并映射关系树;
根据所述映射关系树,响应所述机器学习特征甄选请求。
18.如权利要求17所述的装置,所述机器学习特征甄选请求中指示了拟构建模型的目标输出特征;
所述甄选请求响应模块,根据所述目标输出特征,在所述映射关系树中进行相似性匹配;
根据所述相似性匹配对所述映射关系树进行剪枝处理,为所述拟构建模型生成参考映射关系树;
响应于所述机器学习特征甄选请求,返回所述参考映射关系树,以使所述前端展示所述参考映射关系树。
19.一种端特征洞察装置,包括:
中心模块确定模块,确定部署于本地的特征中心模块;
端特征处理模块,通过所述特征中心模块,对本地的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合,得到端特征相关聚合信息,所述特征提取包括:以场景标识作为入参,提取对应的场景下的端特征;
聚合信息上报模块,将所述端特征相关聚合信息上报给云端,以使所述云端对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息,并据此响应发送自前端的机器学习特征甄选请求。
20.如权利要求19所述的装置,所述端特征处理模块,记录对应的端特征的提取耗时统计、异常统计、抽样特征值、特征属性;
埋点等待记录得到符合要求的每多条信息进行一次信息聚合。
21.一种端特征洞察设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:
接收预先部署于端上的特征中心模块上报的端特征相关聚合信息,所述端特征相关聚合信息由所述特征中心模块对所述端上的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合得到,所述特征提取包括:以场景标识作为入参,提取对应的场景下的端特征;
对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息;
接收发送自前端的机器学习特征甄选请求;
根据所述统计得到的多种信息,响应所述机器学习特征甄选请求,以使所述前端展示所述响应返回的信息。
22.一种端特征洞察设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:
确定部署于本地的特征中心模块;
通过所述特征中心模块,对本地的多样化的特征集合进行特征提取、特征相关信息记录,以及聚合,得到端特征相关聚合信息,所述特征提取包括:以场景标识作为入参,提取对应的场景下的端特征;
将所述端特征相关聚合信息上报给云端,以使所述云端对所述端特征相关聚合信息进行多维信息统计,得到特征性能、特征血缘、特征活跃数据、特征样例中的多种信息,并据此响应发送自前端的机器学习特征甄选请求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310694023.6A CN116451056B (zh) | 2023-06-13 | 2023-06-13 | 端特征洞察方法、装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310694023.6A CN116451056B (zh) | 2023-06-13 | 2023-06-13 | 端特征洞察方法、装置以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116451056A CN116451056A (zh) | 2023-07-18 |
CN116451056B true CN116451056B (zh) | 2023-09-29 |
Family
ID=87132352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310694023.6A Active CN116451056B (zh) | 2023-06-13 | 2023-06-13 | 端特征洞察方法、装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116451056B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102903090A (zh) * | 2012-01-20 | 2013-01-30 | 李文松 | 全景立体图像合成方法、装置、系统和浏览装置 |
CN107517369A (zh) * | 2016-06-17 | 2017-12-26 | 聚晶半导体股份有限公司 | 立体图像产生方法及使用此方法的电子装置 |
WO2019113122A1 (en) * | 2017-12-04 | 2019-06-13 | Conversica, Inc. | Systems and methods for improved machine learning for conversations |
CN110569428A (zh) * | 2019-08-08 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 一种推荐模型的构建方法、装置及设备 |
CN110728147A (zh) * | 2018-06-28 | 2020-01-24 | 阿里巴巴集团控股有限公司 | 一种模型训练方法及命名实体识别方法 |
CN111782611A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 预测模型建模方法、装置、设备及存储介质 |
CN111784966A (zh) * | 2020-06-15 | 2020-10-16 | 武汉烽火众智数字技术有限责任公司 | 一种基于机器学习的人员管控的方法及系统 |
CN111917792A (zh) * | 2020-08-10 | 2020-11-10 | 武汉思普崚技术有限公司 | 一种流量安全分析挖掘的方法及系统 |
WO2020247651A1 (en) * | 2019-06-05 | 2020-12-10 | The Ronin Project, Inc. | Modeling for complex outcomes using clustering and machine learning algorithms |
CN112579728A (zh) * | 2020-12-18 | 2021-03-30 | 成都民航西南凯亚有限责任公司 | 基于海量数据全文检索的行为异常识别方法及装置 |
CN113673707A (zh) * | 2020-05-15 | 2021-11-19 | 第四范式(北京)技术有限公司 | 一种应用机器学习的方法、装置、电子设备及存储介质 |
CN114611103A (zh) * | 2022-02-23 | 2022-06-10 | 西安电子科技大学 | 一种基于机器学习与混合采样的硬件木马检测方法 |
CN115564300A (zh) * | 2022-10-30 | 2023-01-03 | 中软数智信息技术(武汉)有限公司 | 一种带大数据分析功能的电商管理系统 |
JP2023011312A (ja) * | 2021-07-12 | 2023-01-24 | 株式会社Jvcケンウッド | 機械学習装置、機械学習方法、および機械学習プログラム |
WO2023055395A1 (en) * | 2021-10-01 | 2023-04-06 | Secureworks Corp. | Systems and methods for detecting malicious hands-on-keyboard activity via machine learning |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11122058B2 (en) * | 2014-07-23 | 2021-09-14 | Seclytics, Inc. | System and method for the automated detection and prediction of online threats |
US11625736B2 (en) * | 2019-12-02 | 2023-04-11 | Oracle International Corporation | Using machine learning to train and generate an insight engine for determining a predicted sales insight |
US11544491B2 (en) * | 2020-01-15 | 2023-01-03 | Accenture Global Solutions Limited | Data clustering |
US20220067580A1 (en) * | 2020-09-03 | 2022-03-03 | The Toronto-Dominion Bank | Dynamic analysis and monitoring of machine learning processes |
-
2023
- 2023-06-13 CN CN202310694023.6A patent/CN116451056B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102903090A (zh) * | 2012-01-20 | 2013-01-30 | 李文松 | 全景立体图像合成方法、装置、系统和浏览装置 |
CN107517369A (zh) * | 2016-06-17 | 2017-12-26 | 聚晶半导体股份有限公司 | 立体图像产生方法及使用此方法的电子装置 |
WO2019113122A1 (en) * | 2017-12-04 | 2019-06-13 | Conversica, Inc. | Systems and methods for improved machine learning for conversations |
CN110728147A (zh) * | 2018-06-28 | 2020-01-24 | 阿里巴巴集团控股有限公司 | 一种模型训练方法及命名实体识别方法 |
WO2020247651A1 (en) * | 2019-06-05 | 2020-12-10 | The Ronin Project, Inc. | Modeling for complex outcomes using clustering and machine learning algorithms |
CN110569428A (zh) * | 2019-08-08 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 一种推荐模型的构建方法、装置及设备 |
CN113673707A (zh) * | 2020-05-15 | 2021-11-19 | 第四范式(北京)技术有限公司 | 一种应用机器学习的方法、装置、电子设备及存储介质 |
CN111784966A (zh) * | 2020-06-15 | 2020-10-16 | 武汉烽火众智数字技术有限责任公司 | 一种基于机器学习的人员管控的方法及系统 |
CN111782611A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 预测模型建模方法、装置、设备及存储介质 |
CN111917792A (zh) * | 2020-08-10 | 2020-11-10 | 武汉思普崚技术有限公司 | 一种流量安全分析挖掘的方法及系统 |
CN112579728A (zh) * | 2020-12-18 | 2021-03-30 | 成都民航西南凯亚有限责任公司 | 基于海量数据全文检索的行为异常识别方法及装置 |
JP2023011312A (ja) * | 2021-07-12 | 2023-01-24 | 株式会社Jvcケンウッド | 機械学習装置、機械学習方法、および機械学習プログラム |
WO2023055395A1 (en) * | 2021-10-01 | 2023-04-06 | Secureworks Corp. | Systems and methods for detecting malicious hands-on-keyboard activity via machine learning |
CN114611103A (zh) * | 2022-02-23 | 2022-06-10 | 西安电子科技大学 | 一种基于机器学习与混合采样的硬件木马检测方法 |
CN115564300A (zh) * | 2022-10-30 | 2023-01-03 | 中软数智信息技术(武汉)有限公司 | 一种带大数据分析功能的电商管理系统 |
Non-Patent Citations (4)
Title |
---|
基于序列标注的漏洞信息结构化抽取方法;陈钧衍;陶非凡;张源;;计算机应用与软件(第02期);正文全文 * |
大数据背景下基于主题模型的学习资源聚合研究;吴笛;李保强;;电化教育研究(第09期);正文全文 * |
陈钧衍;陶非凡;张源.基于序列标注的漏洞信息结构化抽取方法.计算机应用与软件.2020,(第02期),正文全文. * |
面向移动终端智能的自治学习系统;徐梦炜;刘渊强;黄康;刘譞哲;黄罡;;软件学报(第10期);正文全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116451056A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992746A (zh) | 恶意行为挖掘方法及装置 | |
US20170109668A1 (en) | Model for Linking Between Nonconsecutively Performed Steps in a Business Process | |
US20170109667A1 (en) | Automaton-Based Identification of Executions of a Business Process | |
US20170109636A1 (en) | Crowd-Based Model for Identifying Executions of a Business Process | |
CN112181960B (zh) | 一种基于AIOps的智能运维框架系统 | |
CN109697456A (zh) | 业务分析方法、装置、设备及存储介质 | |
CN110019616A (zh) | 一种poi现势状态获取方法及其设备、存储介质、服务器 | |
CN111708774B (zh) | 一种基于大数据的产业分析系统 | |
CN113420009B (zh) | 一种基于大数据的电磁数据分析装置、系统及方法 | |
CN106407429A (zh) | 文件追踪方法、装置及系统 | |
CN112148578A (zh) | 基于机器学习的it故障缺陷预测方法 | |
CN115438199A (zh) | 一种基于智慧城市场景数据中台技术的知识平台系统 | |
CN111125450A (zh) | 一种多层拓扑网络资源对象的管理方法 | |
CN113779261B (zh) | 知识图谱的质量评价方法、装置、计算机设备及存储介质 | |
CN116451056B (zh) | 端特征洞察方法、装置以及设备 | |
CN111382155B (zh) | 一种数据仓库的数据处理方法、电子设备及介质 | |
CN116596574A (zh) | 电网用户画像构建方法及系统 | |
CN116467291A (zh) | 一种知识图谱存储与搜索方法及系统 | |
CN116450827A (zh) | 一种基于大规模语言模型的事件模板归纳方法和系统 | |
Thilagavathi et al. | Analysis of Artificial Intelligence in Medical Sectors | |
CN113722288A (zh) | 一种时空数据统计的建模方法 | |
CN111724028A (zh) | 一种基于大数据技术的机器设备运行分析与挖掘系统 | |
Meng et al. | Design and Implementation of Knowledge Graph Platform of Power Marketing | |
CN117422063B (zh) | 应用智能辅助决策的大数据处理方法及智能辅助决策系统 | |
CN117539948B (zh) | 基于深度神经网络的业务数据检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |