CN114547451A - 模型信息分析方法、装置、电子设备及计算机存储介质 - Google Patents

模型信息分析方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN114547451A
CN114547451A CN202210153112.5A CN202210153112A CN114547451A CN 114547451 A CN114547451 A CN 114547451A CN 202210153112 A CN202210153112 A CN 202210153112A CN 114547451 A CN114547451 A CN 114547451A
Authority
CN
China
Prior art keywords
model
features
verified
feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210153112.5A
Other languages
English (en)
Inventor
龚柳华
魏龙
李小聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210153112.5A priority Critical patent/CN114547451A/zh
Publication of CN114547451A publication Critical patent/CN114547451A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了模型信息分析方法、装置、电子设备及计算机存储介质,涉及计算机技术领域,尤其涉及信息流、机器学习、深度学习等人工智能技术领域。具体实现方案为:获取目标模型;所述目标模型为当前时刻被调用的多个模型之一;确定目标输入特征与预定的待校验特征之间的依赖关系信息;所述目标输入特征为所述目标模型的多个输入特征之一;根据所述依赖关系信息,生成模型信息分析结果。本公开有助于提高模型以及模型相关数据的管理效率,有助于提高模型使用效率。

Description

模型信息分析方法、装置、电子设备及计算机存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及信息流、机器学习、深度学习等人工智能技术领域。
背景技术
随着计算机技术的发展,模型在计算机相关产品、网络相关产品中广泛应用。模型为相关产品带来便捷的同时,随着使用时间推移,模型结构、模型输入数据等相关的数据也不断累积,为模型、模型特征和模型相关字段的管理带来了难度,甚至可能影响模型使用效率和效果。因此,需要对模型信息分析方法进行改进,以降低模型相关数据的处理难度,提高模型使用效果。
发明内容
本公开提供了一种模型信息分析方法、装置、电子设备及计算机存储介质。
根据本公开的一方面,提供了一种模型信息分析方法,包括:
获取目标模型;目标模型为当前时刻被调用的多个模型之一;
确定目标输入特征与预定的待校验特征之间的依赖关系信息;目标输入特征为目标模型的多个输入特征之一;
根据依赖关系信息,生成模型信息分析结果。
根据本公开的另一方面,提供了一种模型信息分析装置,包括:
目标模型获取模块,用于获取目标模型;目标模型为当前时刻被调用的多个模型之一;
依赖关系信息确定模块,用于确定目标输入特征与预定的待校验特征之间的依赖关系信息;目标输入特征为目标模型的多个输入特征之一;
分析结果模块,用于根据依赖关系信息,生成模型信息分析结果。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。
根据本公开的技术,能够对目标模型的输入特征和待校验特征进行分析,确定目标模型的输入特征和待校验特征之间的依赖关系信息,有助于确认与当前目标模型的输入特征存在依赖关系的待校验特征,进而从待校验特征中找出与模型输入特征无关的特征,有助于对待校验特征进行简化,减少待校验特征中的无用特征,有助于提高模型以及模型相关数据的管理效率,也有助于提高模型的使用效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开一实施例的模型信息分析方法的流程示意图;
图2是根据本公开另一实施例的模型信息分析方法的流程示意图;
图3是根据本公开又一实施例的模型信息分析方法的流程示意图;
图4是根据本公开一示例的模型训练过程示意图;
图5是根据本公开一示例的模型信息分析方法示意图;
图6是根据本公开一示例的特征依赖关系分析示意图;
图7是根据本公开一实施例的模型信息分析装置示意图;
图8是根据本公开另一实施例的模型信息分析装置示意图;
图9是根据本公开又一实施例的模型信息分析装置示意图;
图10是根据本公开又一实施例的模型信息分析装置示意图;
图11是根据本公开又一实施例的模型信息分析装置示意图;
图12是根据本公开又一实施例的模型信息分析装置示意图;
图13是根据本公开又一实施例的模型信息分析装置示意图;
图14是根据本公开又一实施例的模型信息分析装置示意图;
图15是用来实现本公开实施例的模型信息分析方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开实施例中,根据模型使用过程中可能存在模型名称被修改、模型的特征的名称可能被修改、模型的特征可能被修改等情况,对模型信息进行分析,生成相应的分析结果,可以作为模型管理、模型数据管理的依据,从而有助于提升模型的使用效果、提高模型的使用效率。
本公开实施例提供的模型信息分析方法,如图1所示,包括:
步骤S11:获取目标模型;目标模型为当前时刻被调用的多个模型之一;
步骤S12:确定目标输入特征与预定的待校验特征之间的依赖关系信息;目标输入特征为目标模型的多个输入特征之一;
步骤S13:根据依赖关系信息,生成模型信息分析结果。
本实施例提供的模型信息分析方法,可针对特定的模型管理平台进行实施。比如,特定的用户采用特定的模型管理平台,对其所有产品相关的模型以及与模型相关的数据进行管理。目标模型可以为该特定的用户在模型管理平台中进行管理的多个模型之一。在一种具体的实现方式中,可以对特定用户在模型管理平台中被管理的模型逐一实施本公开任意实施例所提供的模型信息分析方法。
本实施例中,当前时刻被调用的多个模型,可以包括当前处于使用状态的多个模型。在本公开实施例应用于模型管理平台的情况下,当前时刻被调用的多个模型可以是被模型管理平台管理、且仍然处于使用状态的多个模型。曾经被使用,但是已经被更新迭代或者因为其它原因被停用的模型,可被认为不属于当前时刻被调用的模型。
在一种具体实现方式中,当前时刻被调用的多个模型,可以包括用于向用户推荐文章的文章推荐模型、用于处理用户输入的问题的问答信息处理模型、用于向用户推荐视频的视频推荐模型、用于确定热搜排行榜的热搜新闻筛取模型等。
本实施例中,目标输入特征、预定的待校验特征等特征都可以是作为模型输入数据的字段的特征。比如,针对某一用户推荐数据预测模型,需要输入用户的网络使用时间等信息作为输入数据,则“网络使用时间”即可以为模型输入特征。在该用户推荐数据预测模型作为目标模型的情况下,“网络使用时间”可以为目标输入特征。再如,针对文字识别模型,输入数据包括待识别文本,则“待识别文本”可以为目标输入特征。
本实施例中,预定的待校验特征可以是需要根据目标模型的信息,判断是否存在冗余、无效情况的特征。在本公开实施例应用于模型管理平台的情况下,待校验特征可以是模型管理平台中所有记录的特征,即模型管理平台使用者部署第一个模型起累积得到的所有特征。
待校验特征可以包括当前调用的模型的输入特征和当前未调用的模型的输入特征。比如,针对特定的用户推荐数据预测模型,需要输入用户性别、网络使用时间、地理位置等信息作为输入数据,则“性别”、“网络使用时间”和“地理位置”等,作为用户推荐数据预测模型的输入特征。同时,用户推荐模型的最初始版本为模型A,已经被当前版本的用户推荐模型迭代,从而模型A处于未使用状态,而用户推荐数据预测模型为当前调用的多个模型之一。则模型A的输入特征和用户推荐数据预测模型的输入特征,均可作为待校验特征。
待校验特征还可以包括目标模型的输入特征和其它模型的输入特征,也可以包括目标模型或其它模型的有效特征和未使用特征。比如,针对特定的用户推荐数据预测模型,需要输入用户性别、网络使用时间、地理位置等信息作为输入数据,则“性别”、“网络使用时间”和“地理位置”等,作为用户推荐数据预测模型的输入特征。但是在用户推荐数据预测模型使用的初始阶段,还使用了特征B、特征C、特征D作等信息,作为输入数据。则待校验特征中仍然包括特征B、特征C、特征D。
本实施例中,确定目标输入特征与预定的待校验特征之间的依赖关系信息,可以包括确定目标输入特征是否直接或者间接依赖待校验特征,如果依赖,则在依赖关系信息中添加目标输入特征依赖待校验特征的内容。还可以包括确定目标输入特征是否直接或间接被待校验特征依赖,如果依赖,则在依赖关系信息中添加目标输入特征被待校验特征依赖的内容。
在另一种可能的实现方式中,确定目标输入特征与预定的待校验特征之间的依赖关系信息,可以包括目标输入特征是否依赖待校验特征,以及依赖关系中相关的其它特征。比如,目标输入特征依赖待校验特征E,待校验特征E依赖待校验特征F,则可在依赖关系信息中添加目标输入特征依赖于待校验特征E、待校验特征E依赖于待校验特征F的内容。
在另一种可能的实现方式中,确定目标输入特征与预定的待校验特征之间的依赖关系信息,可以包括目标输入特征与待校验特征之前是否存在(直接或间接的)依赖关系。比如,目标输入特征依赖待校验特征E,待校验特征E依赖待校验特征F,则可在依赖关系信息中记录目标输入特征与待校验特征E之间存在依赖关系,目标输入特征与待校验特征F之间也存在依赖关系。若目标输入特征与待校验特征G之间不存在直接或间接的依赖关系,则可在依赖关系信息中记录目标输入特征与待校验特征G之间不存在依赖关系。
在一种实现方式中,根据依赖关系信息,生成模型信息分析结果,可以包括,将目标模型的每个输入特征分别作为目标输入特征,进行依赖关系的分析得到每个输入特征作为目标输入特征时的所有依赖关系信息,根据所有依赖关系信息,生成模型信息分析结果。
在另一种可能的实现方式中,根据依赖关系信息,生成模型信息分析结果,可以包括,针对当前时刻被调用的多个模型中的每一个模型,生成对应的模型信息分析结果,将多个模型信息分析结果汇总为一个模型信息分析结果。
本实施例中,能够对目标模型的输入特征和待校验特征进行分析,确定目标模型的输入特征和待校验特征之间的依赖关系信息,有助于确认与当前目标模型的输入特征存在依赖关系的待校验特征,进而从待校验特征中找出与模型输入特征无关的特征,有助于对待校验特征进行简化,减少待校验特征中的无用特征,有助于提高模型以及模型相关数据的管理效率,也有助于提高模型的使用效率。
在一种实施方式中,确定目标输入特征与预定的待校验特征之间的依赖关系信息,包括针对每个待校验特征执行的下述步骤中至少之一:
在目标输入特征的获取过程与第一待校验特征相关的情况下,确定依赖关系信息包括目标输入特征依赖第一待校验特征;第一待校验特征为待校验特征之一;
在第一待校验特征获取过程与目标输入特征相关的情况下,确定依赖关系信息包括第一待校验特征依赖目标输入特征。
本实施例中,依赖关系信息可以包括目标输入特征与任意待校验特征之间的相互依赖关系。
目标输入特征的获取过程与待校验特征相关,可以包括目标输入特征的计算过程中直接或间接涉及待校验特征。比如,目标输入特征的计算公式为:目标输入特征=f(G),则目标输入特征的获取过程与特征G相关。再如,目标输入特征的计算公式为:目标输入特征=F(G),G=f(H),则目标输入特征的获取过程与特征G、特征H相关。
目标输入特征的获取过程与待校验特征相关,还可以包括目标输入特征包括待校验特征的情况。比如,目标输入特征为地理位置,其中具体包括省、市、县,则目标输入特征与特征“省”、“市”、“县”相关。
本实施例中,能够根据获取过程的相关性,确定目标输入特征与待校验特征之间的依赖关系信息,从而有助于根据依赖关系信息从待校验特征中删除不被任何模型使用的特征。
在一种实施方式中,确定目标输入特征与待校验特征之间的依赖关系信息,包括:
在依赖关系信息中被依赖的特征的获取过程与第二待校验特征相关的情况下,确定依赖关系信息包括依赖关系信息中被依赖的特征依赖第二待校验特征,第二待校验特征为第一待校验特征之外的其它待校验特征。
本实施例中,在依赖关系信息中被依赖的特征,可以是在目标输入特征依赖待校验特征的情况下的待校验特征,也可以是在待校验特征依赖目标输入特征情况下的目标输入特征。
本实施例中的第二待校验特征,可以是除了当前依赖关系信息中的被依赖特征之外的其它特征。比如,根据当前依赖关系信息,特征I依赖于特征H,则当前依赖关系信息中的被依赖特征为H,第二待校验特征为除了特征I、H之外的特征。如果目标模型的输入特征包含在待校验特征中,则目标模型中的除了目标出入特征之外的其它输入特征也可能为第二待校验特征。
再如,根据当前依赖关系信息,特征I依赖于特征H,特征J依赖于特征K,则当前依赖关系信息中的被依赖特征为H、K,第二待校验特征为除了特征H、K之外的其它特征。或者在这种情况下,第二待校验特征为除了已经存在于依赖关系信息中的特征之外的特征,即除了特征I、H、J、K之外的其它特征。
在另一种可能的实现方式中,上述第二待校验特征也可以是当前依赖关系信息中,不存在于被依赖特征的相关的依赖关系中的其它特征。比如,根据当前依赖关系信息,特征I依赖于特征H,特征J依赖于特征K,则针对特征H,相关的依赖关系信息为“特征I依赖于特征H”,特征J、特征K可被视为不存在于被依赖特征的相关的依赖关系中的其它特征,即第二待校验特征。
通过本实施例,能够将间接依赖的目标输入特征和待校验特征之间的依赖关系记入依赖关系信息中使得依赖关系信息更为全面有助于在对待校验特征进行简化时避免删除仍然被使用的特征。
在一种实施方式中,根据依赖关系信息,生成模型信息分析结果,包括:
根据依赖关系信息,确定与目标输入特征具有依赖关系的待校验特征;与目标输入特征具有依赖关系的待校验特征,包括与所有依赖关系信息相关的待校验特征;
根据与目标输入特征具有依赖关系的待校验特征,生成模型信息分析结果。
本实施例中,与所有依赖关系信息相关的待校验特征,可以是存在于依赖关系信息中的待校验特征。比如,待校验特征包括特征{H1,H2,H3,H4,H5,K1,K2,K3,K4,K5}。目标模型的输入特征包括特征{I1、I2、J1、J2}。当前依赖关系信息包括,特征I1依赖于I2,特征I2依赖于H1,特征H1依赖于H2,特征J1依赖于H2,特征J2依赖于K1。则与所有依赖关系信息相关的特征包括存在于依赖关系信息中的所有特征,即特征I1、I2、H1、H2、J1和K1。
本实施例中,可以根据依赖关系信息,确定待校验特征中与目标模型的输入特征具有依赖关系的待校验特征,以及与目标模型的输入特征不具有依赖关系的待校验特征。
比如,待校验特征包括特征{H1,H2,H3,H4,H5,K1,K2,K3,K4,K5},与所有依赖关系信息相关的待校验特征包括特征H1、H2和K1。
本实施例中,根据依赖关系信息生成关于待校验特征的模型信息分析结果,从而有助于根据模型信息分析结果对模型以及模型相关的数据进行管理,有助于提高模型的使用效率。
在一种实施方式中,如图2所示,模型信息分析方法还包括:
步骤S21:根据模型信息分析结果,确定待校验特征中的冗余特征;冗余特征为不被多个模型中任意模型的输入特征依赖的待校验特征;
步骤S22:删除待校验特征中的冗余特征,得到校验后的特征。
本实施例中,根据模型信息分析结果,确定待校验特征中的冗余特征,可以是确定待校验特征中与依赖关系信息不相关的特征为冗余特征。
比如,待校验特征包括特征{H1,H2,H3,H4,H5,K1,K2,K3,K4,K5},与所有依赖关系信息相关的待校验特征包括特征H1、H2和K1,与所有依赖关系信息不相关的待校验特征包括特征则为待校验特征中除了H1、H2和K1之外的其它特征,即特征H3、H4、H5、K2、K3、K4和K5。
本实施例中,能够获得不被任意模型的输入特征依赖的待校验特征,并进而删除不被依赖的代校验特征,从而能够简化待校验特征。在应用于模型管理平台等场景时,能够提高模型以及模型相关数据管理的便利性,有助于提高模型使用效率。
在一种实施方式,模型信息分析方法还包括:
根据校验后的特征,生成预估样本;
根据预估样本,训练目标模型。
本实施例中,可根据目标模型的所有输入特征以及各输入特征依赖的其它特征,生成模拟的预估样本。比如,目标模型的输入特征包括地理位置中的“省”、使用时间段代码、用户网龄,其中,“省”这一特征依赖于“地理位置”这一特征。则对地理位置中的“省”的信息、使用时间段代码、用户网龄进行预估,根据预估的信息生成至少一组输入数据,利用预估生成的输入数据对模型进行训练。
本实施例中,利用校验后的特征生成预估样本,利用预估样本对目标模型进行训练,提高模型训练效率和训练操作的便利性。
在本公开一种示例中,如图4所示,根据校验后的特征,进行特征配置,确定用于样本预估的特征。针对每个模型(可以是目标模型),根据特征配置操作获得的特征,进行样本预估,即图4中的模型预估,将预估的样本进行样本积累,根据样本积累的结果进行模型训练。由于在机器学习中,特征是模型的输入数据,在一次预估过程中,通过ranking-service(排序服务)管理所有的模型,包括用户使用模型初始时期到当前时间点所有被使用、被部署过的模型。管理模块的排序架构通过feature-service(特征服务中台)从不同上游、下游获取一次预估过程中的输入数据(特征)相关的样本,再通过特征配置将原始数据提炼成模型预估实际使用的特征。经过特征组合、特定编码等特征工程,对样本进行预估得到模型预测结果。同时将样本存储到文件中供包括目标模型在内的任意模型训练时使用。因此,特征服务是所有样本的源头,特征配置文件是模型实际使用的特征列表文件,可以通过分析特征配置和特征服务来对模型特征溯源管理。
在一种实施方式中,模型信息分析方法还包括:
根据目标模型在部署环境中的服务地址,获取目标模型的配置文件;
根据目标模型的配置文件,确定目标模型的所有输入特征。
本实施例中,配置文件可以是目标模型运行过程中产生的文件。
本实施例通过配置文件,能够获取目标模型当前使用的所有输入特征,保证输入特征的有效性和完整性。
在一种实施方式中,如图3所示,模型信息分析方法还包括:
步骤S31:根据被调用模型的列表,确定多个模型;
步骤S32:根据多个模型和待校验的全量模型,确定冗余模型;
步骤S33:在全量模型相关的全量输入特征中,删除冗余模型的相关特征,得到待校验特征。
本实施例中,可以根据模型管理平台的历史记录,获得待校验的全量模型。全量模型可以包括所有模型的历史版本和所有被迭代、被使用过的模型。
本实施例中,首先根据模型的有效性,对模型和模型的输入特征进行一次筛选,从而能够减少待校验特征的数量,提高模型信息分析效率。
在一种具体实现方式中,可以将全量模型中的每个被调用的模型作为目标模型,执行本公开实施例提供的模型信息分析方法,将各个模型对应的分析结果进行汇总,得到全量模型分析结果。
在本公开一种示例中,模型信息处理相关信息和操作如图5所示。
本示例中,数据源可以包括Apollo(阿波罗)平台51、上线回归数据库52和模型线上环境53。Apollo平台可以是一个开源配置管理中心,能够集中化管理应用不同环境、不同集群的配置,在模型名称等配置信息修改后能够实时推送到应用端,并且具备规范的权限管理、流程治理等特性。本示例主要可以从Apollo平台获取模型的部分配置如模型名称、样本落盘路径等信息。
上线回归数据库中的数据可以是ranking-service(排序服务)模块自动化上线回归阶段获取到的最新模型信息写入的;最新模型信息可以包括模型BNS(Backbone NetworkService,中枢网络服务)、使用模型的APP(Application,应用)、模型涉及的产品线等。
模型线上环境可以是指单个模型在线上部署的服务地址,本示例中可以通过模型在线上部署的服务地址获取到该模型的特征配置文件。可通过提取器(Extractor)进行提取。
本示例中,通过Apollo平台51和上线回归数据库52,能够获取到线上模型列表,列表中包括当前被调用的多个模型。根据庖丁数据库53,可以获取到全量模型列表,即数据库(DB,Database)中的模型列表。根据线上模型列表和全量模型列表,可以确定已下线模型列表,即可以将在线上模型列表中不存在、仅存在于全量模型列表中的模型加入已下线模型列表中。
本实例通过feature-service(fs)特征服务,可以获取机器学习在线系统的所有特征及其特征来源。针对已下线模型列表中的所有模型,可以逻辑删除模型以及相关数据,相关数据可以包括模型本身、模型中的slot(模型的字段信息的编码)、模型的特征。上述逻辑删除的本质可以是修改操作,即本示例中的逻辑删除并不是真正的删除,而是在表中将对应的是否删除标识(is_delete)或者说是状态字段(status)做修改操作。比如0(或者其它数字)可以表示未删除,1(或者其它数字)可以表示删除。在逻辑上数据是被删除的,但数据本身依然存在库中。
基于fs服务获取的全量特征,除去已下线模型列表中的模型具有的特征,可以得到待校验特征。
根据线上模型列表,进行遍历操作。针对线上模型列表中的每个模型,从模型线上环境中获取模型部署环境,根据模型部署环境,下载配置(configuration)文件,通过Extractor解析类解析配置文件,可以获得配置文件对应的模型以及特征的相关信息,从而得到多个模型的输入特征。本示例通过配置文件的解析,能够完成模型-特征-样本的关系的初步映射。此外将模型的基本信息,如模型名称、cube(模型部署环境地址)名称、各机房QPS(Query Per Second,每秒请求量)及实例信息、fs信息、粗排增量topic(主题)、更新信息等一起写入MySQL(关系型数据库管理系统)数据库54,完成模型全维度的统计。模型的基本信息不仅可以通过配置文件的解析来获取,还可以通过Excel表格等文件获取。
基于初步映射的结果,可进一步进行样本深度分析。
在样本深度分析过程中,可进一步分析模型的样本,打通被分析的模型中从算子到样本叶子节点的依赖关系,构建依赖关系树,关系树中每个节点对应一个样本字段(即前述实施例的特征)。建立模型与sample(样本)字段的最终映射,在模型-slot-sample映射的基础上,增加了将算子展开到叶子节点的步骤,以确保映射关系(即前述实施例的依赖关系信息)中全面包含了相关的特征或样本字段。上述slot可以是目标模型中的字段对应的编码。
本示例中,根据数据源确定多个模型、各模型的输入特征和待校验特征。将多个模型的输入特征与待校验特征进行依赖关系分析,得到依赖关系信息。依赖关系信息和所有特征、模型可以在MySQL数据库54中进行持久化存储。图5所示的示例,可以通过设定模型数据定时任务执行,通过接口向数据管理与展示界面55传输模型信息,展示模型以及模型相关数据的映射、存储等操作。
在另一种具体示例中,样本深度分析阶段,可根据特征的层级关系和组合关系,构造特征树。如图6所示,模型的不同的slot可以对应不同的特征,而特征可以组成样本。特征可以进一步分为单特征和组合特征。组合特征可以由单特征组合而成,组合的层级没有上限。通过将组合特征展开到单特征,可以将组合特征对应的一级字段展开到二级字段、三级字段等,最终展开到单特征(对应于叶子字段)对应的叶子节点。在配置文件中slot依赖的sample字段不是叶子节点的情况下,可以进了展开到叶子节点,以保证计算出来的模型-sample映射的精确性。在映射或者依赖关系中,样本和模型之间可以是多对多的关系,模型和slot之前可以是一对多的关系。
比如,组合特征可以包括:地理位置-省份。则该组合特征对应N级字段的情况下,组合特征拆分成的单特征地理位置和省份可以对应N+1级字段。同时,省份对应的节点可以为叶子节点,而地理位置包含省份信息,还可包含特别行政区信息,则地理位置并非叶子节点,在将其它特征展开到地理位置这一特征的情况下,可进一步将地理位置展开到省份或者特别行政区对应的叶子节点。
在一种具体示例中,本公开实施例提供的模型信息分析方法可应用于Feed流推荐系统的模型管理。Feed流推荐系统自上线以来接入了多条业务线,模型数量及类型不断累积,系统内部会存在以下问题:Feed流系统特征数量繁多,数据来源不一,且模型或者模型的字段经过多个系统的转发后名称各异,模型的特征之间依赖链路复杂,在问题定位时需要层层分析,给问题定位带来很大障碍;同时,Feed流系统中的字段只增不减,系统内部字段未使用率超过40%,这些字段大大增加了业务的使用成本及资源消耗,也给QA(QualityAssurance,质量保证)的回归测试带来不少重复工作;模型字段只用特定平台管理(比如Protocol Buffer协议缓冲平台),且多个业务线使用同一个管理平台,没有平台用于直观展示推荐系统内所有模型及其特征使用情况。
本公开示例提出了一种基于配置提取的模型-特征-样本映射方案,在模型管理的基础上构建了一套基于模型维度、高时效性的模型数据接入及管理平台,通过线下测试、上线回归等方式,采集模型的特征、样本等基础数据,并经过初步分析计算,建立多维数据分析能力,包括模型基础信息、资源分布、特征使用详情等的数据采集体系。
本公开实施例提供的模型信息分析方法,统计的信息更加全面。本公开示例中,以排序模块的入口ranking-service模块和Apollo平台作为数据源,获取的模型信息全面,可以获取模型正在使用的特征;同时通过feature-service模块获取机器学习特征全集,可以方便得将模型的状态一起解析写到数据库中,并通过平台可视化。通过这些数据可以很方便得获取冗余在系统中的特征,便于特征剪裁。在应用于对Feed流推荐系统的情况下,由于Feed流推荐系统内的模型字段有上万个,来源不一,处理和使用方式不一,通过本公开实施例可以将特征之间的依赖关系明确化,便于特征来源溯源,减少模型使用时的特征获取时间,从而提高模型管理和模型使用效率。
本公开实施例还提供一种模型信息分析装置,如图7所示,包括:
目标模型获取模块71,用于获取目标模型;目标模型为当前时刻被调用的多个模型之一;
依赖关系信息确定模块72,用于确定目标输入特征与预定的待校验特征之间的依赖关系信息;目标输入特征为目标模型的多个输入特征之一;
分析结果模块73,用于根据依赖关系信息,生成模型信息分析结果。
在一种实施方式中,如图8所示,依赖关系信息确定模块包括:
第一确定单元81,用于在目标输入特征的获取过程与第一待校验特征相关的情况下,确定依赖关系信息包括目标输入特征依赖第一待校验特征;第一待校验特征为待校验特征之一;
第二确定单元82,用于在第一待校验特征获取过程与目标输入特征相关的情况下,确定依赖关系信息包括第一待校验特征依赖目标输入特征。
在一种实施方式中,如图9所示,依赖关系信息确定模块包括:
第三确定单元91,用于在依赖关系信息中被依赖的特征的获取过程与第二待校验特征相关的情况下,确定依赖关系信息包括依赖关系信息中被依赖的特征依赖第二待校验特征,第二待校验特征为第一待校验特征之外的其它待校验特征。
在一种实施方式中,如图10所示,分析结果模块包括:
第一结果单元101,用于根据依赖关系信息,确定与目标输入特征具有依赖关系的待校验特征;与目标输入特征具有依赖关系的待校验特征,包括与所有依赖关系信息相关的待校验特征;
第二结果单元102,用于根据与目标输入特征具有依赖关系的待校验特征,生成模型信息分析结果。
在一种实施方式中,如图11所示,模型信息分析装置还包括:
冗余特征模块111,用于根据模型信息分析结果,确定待校验特征中的冗余特征;冗余特征为不被多个模型中任意模型的输入特征依赖的待校验特征;
校验模块112,用于删除待校验特征中的冗余特征,得到校验后的特征。
在一种实施方式中,如图12所示,模型信息分析装置还包括:
预估样本模块121,用于根据校验后的特征,生成预估样本;
训练模块122,用于根据预估样本,训练目标模型。
在一种实施方式中,如图13所示,模型信息分析装置还包括:
配置文件获取模块131,用于根据目标模型在部署环境中的服务地址,获取目标模型的配置文件;
输入特征模块132,用于根据目标模型的配置文件,确定目标模型的所有输入特征。
在一种实施方式中,如图14所示,模型信息分析装置还包括:
模型获取模块141,用于根据被调用模型的列表,确定多个模型;
冗余模型模块142,用于根据多个模型和待校验的全量模型,确定冗余模型;
待校验特征获取模块143,用于在全量模型相关的全量输入特征中,删除冗余模型的相关特征,得到待校验特征。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图15示出了可以用来实施本公开的实施例的示例电子设备150的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图15所示,设备150包括计算单元151,其可以根据存储在只读存储器(ROM)152中的计算机程序或者从存储单元158加载到随机访问存储器(RAM)153中的计算机程序,来执行各种适当的动作和处理。在RAM 153中,还可存储设备150操作所需的各种程序和数据。计算单元151、ROM 152以及RAM 153通过总线154彼此相连。输入/输出(I/O)接口155也连接至总线154。
设备150中的多个部件连接至I/O接口155,包括:输入单元156,例如键盘、鼠标等;输出单元157,例如各种类型的显示器、扬声器等;存储单元158,例如磁盘、光盘等;以及通信单元159,例如网卡、调制解调器、无线通信收发机等。通信单元159允许设备150通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元151可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元151的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元151执行上文所描述的各个方法和处理,例如模型信息分析方法。例如,在一些实施例中,模型信息分析方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元158。在一些实施例中,计算机程序的部分或者全部可以经由ROM 152和/或通信单元159而被载入和/或安装到设备150上。当计算机程序加载到RAM 153并由计算单元151执行时,可以执行上文描述的模型信息分析方法的一个或多个步骤。备选地,在其他实施例中,计算单元151可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模型信息分析方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种模型信息分析方法,包括:
获取目标模型;所述目标模型为当前时刻被调用的多个模型之一;
确定目标输入特征与预定的待校验特征之间的依赖关系信息;所述目标输入特征为所述目标模型的多个输入特征之一;
根据所述依赖关系信息,生成模型信息分析结果。
2.根据权利要求1所述的方法,其中,所述确定目标输入特征与预定的待校验特征之间的依赖关系信息,包括针对每个所述待校验特征执行的下述步骤中至少之一:
在所述目标输入特征的获取过程与第一待校验特征相关的情况下,确定所述依赖关系信息包括所述目标输入特征依赖所述第一待校验特征;所述第一待校验特征为所述待校验特征之一;
在所述第一待校验特征获取过程与所述目标输入特征相关的情况下,确定所述依赖关系信息包括所述第一待校验特征依赖所述目标输入特征。
3.根据权利要求2所述的方法,其中,所述确定目标输入特征与待校验特征之间的依赖关系信息,包括:
在所述依赖关系信息中被依赖的特征的获取过程与第二待校验特征相关的情况下,确定所述依赖关系信息包括所述依赖关系信息中被依赖的特征依赖所述第二待校验特征,所述第二待校验特征为所述第一待校验特征之外的其它待校验特征。
4.根据权利要求1-3中任意一项所述的方法,其中,所述根据所述依赖关系信息,生成模型信息分析结果,包括:
根据所述依赖关系信息,确定与所述目标输入特征具有依赖关系的待校验特征;所述与所述目标输入特征具有依赖关系的待校验特征,包括与所有所述依赖关系信息相关的待校验特征;
根据与所述目标输入特征具有依赖关系的待校验特征,生成所述模型信息分析结果。
5.根据权利要求4所述的方法,还包括:
根据所述模型信息分析结果,确定所述待校验特征中的冗余特征;冗余特征为不被多个模型中任意模型的输入特征依赖的待校验特征;
删除所述待校验特征中的冗余特征,得到校验后的特征。
6.根据权利要求5所述的方法,还包括:
根据校验后的特征,生成预估样本;
根据所述预估样本,训练所述目标模型。
7.根据权利要求1-6中任意一项所述的方法,还包括:
根据所述目标模型在部署环境中的服务地址,获取所述目标模型的配置文件;
根据所述目标模型的配置文件,确定所述目标模型的所有输入特征。
8.根据权利要求1-7中任意一项所述的方法,还包括:
根据被调用模型的列表,确定所述多个模型;
根据所述多个模型和待校验的全量模型,确定冗余模型;
在所述全量模型相关的全量输入特征中,删除所述冗余模型的相关特征,得到所述待校验特征。
9.一种模型信息分析装置,包括:
目标模型获取模块,用于获取目标模型;所述目标模型为当前时刻被调用的多个模型之一;
依赖关系信息确定模块,用于确定目标输入特征与预定的待校验特征之间的依赖关系信息;所述目标输入特征为所述目标模型的多个输入特征之一;
分析结果模块,用于根据所述依赖关系信息,生成模型信息分析结果。
10.根据权利要求9所述的装置,其中,所述依赖关系信息确定模块包括:
第一确定单元,用于在所述目标输入特征的获取过程与第一待校验特征相关的情况下,确定所述依赖关系信息包括所述目标输入特征依赖所述第一待校验特征;所述第一待校验特征为所述待校验特征之一;
第二确定单元,用于在所述第一待校验特征获取过程与所述目标输入特征相关的情况下,确定所述依赖关系信息包括所述第一待校验特征依赖所述目标输入特征。
11.根据权利要求10所述的装置,其中,所述依赖关系信息确定模块包括:
第三确定单元,用于在所述依赖关系信息中被依赖的特征的获取过程与其它特征相关的情况下,确定所述依赖关系信息包括所述依赖关系信息中被依赖的特征依赖所述其它特征。
12.根据权利要求9-11中任意一项所述的装置,其中,所述分析结果模块包括:
第一结果单元,用于根据所述依赖关系信息,确定与所述目标输入特征具有依赖关系的待校验特征;所述与所述目标输入特征具有依赖关系的待校验特征,包括与所有所述依赖关系信息相关的待校验特征;
第二结果单元,用于根据与所述目标输入特征具有依赖关系的待校验特征,生成所述模型信息分析结果。
13.根据权利要求12所述的装置,还包括:
冗余特征模块,用于根据所述模型信息分析结果,确定所述待校验特征中的冗余特征;冗余特征为不被多个模型中任意模型的输入特征依赖的待校验特征;
校验模块,用于删除所述待校验特征中的冗余特征,得到校验后的特征。
14.根据权利要求13所述的装置,还包括:
预估样本模块,用于根据校验后的特征,生成预估样本;
训练模块,用于根据所述预估样本,训练所述目标模型。
15.根据权利要求9-14中任意一项所述的装置,还包括:
配置文件获取模块,用于根据所述目标模型在部署环境中的服务地址,获取所述目标模型的配置文件;
输入特征模块,用于根据所述目标模型的配置文件,确定所述目标模型的所有输入特征。
16.根据权利要求9-15中任意一项所述的装置,还包括:
模型获取模块,用于根据被调用模型的列表,确定所述多个模型;
冗余模型模块,用于根据所述多个模型和待校验的全量模型,确定冗余模型;
待校验特征获取模块,用于在所述全量模型相关的全量输入特征中,删除所述冗余模型的相关特征,得到所述待校验特征。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202210153112.5A 2022-02-18 2022-02-18 模型信息分析方法、装置、电子设备及计算机存储介质 Pending CN114547451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210153112.5A CN114547451A (zh) 2022-02-18 2022-02-18 模型信息分析方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210153112.5A CN114547451A (zh) 2022-02-18 2022-02-18 模型信息分析方法、装置、电子设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN114547451A true CN114547451A (zh) 2022-05-27

Family

ID=81675184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210153112.5A Pending CN114547451A (zh) 2022-02-18 2022-02-18 模型信息分析方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114547451A (zh)

Similar Documents

Publication Publication Date Title
US11429572B2 (en) Rules-based dataset cleaning
EP3882791A1 (en) Method, apparatus for content recommendation, electronic device and storage medium
CN113220907B (zh) 业务知识图谱的构建方法及装置、介质、电子设备
CN109376153B (zh) 一种基于NiFi的数据写入图数据库的系统及方法
CN115335821B (zh) 卸载统计收集
CN111639027A (zh) 一种测试方法、装置及电子设备
CN112765452A (zh) 搜索推荐方法、装置及电子设备
US8832653B2 (en) Centralized, object-level change tracking
CN115203435A (zh) 基于知识图谱的实体关系生成方法及数据查询方法
CN112115313A (zh) 正则表达式的生成、数据提取方法、装置、设备及介质
CN114706894A (zh) 信息处理方法、装置、设备、存储介质及程序产品
CN113127357A (zh) 单元测试方法、装置、设备、存储介质及程序产品
CN113190746A (zh) 推荐模型的评估方法、装置及电子设备
CN115329078B (zh) 文本数据处理方法、装置、设备以及存储介质
US10003492B2 (en) Systems and methods for managing data related to network elements from multiple sources
CN114881521A (zh) 业务评估方法、装置、电子设备以及存储介质
CN114547451A (zh) 模型信息分析方法、装置、电子设备及计算机存储介质
CN115687717A (zh) Grok表达式获取方法、装置、设备及计算机可读存储介质
CN115454971A (zh) 数据迁移方法、装置、电子设备及存储介质
CN115328736A (zh) 一种探针部署方法、装置、设备和存储介质
CN113051479A (zh) 文件处理、推荐信息生成方法、装置、设备及存储介质
CN114896418A (zh) 知识图谱构建方法、装置、电子设备及存储介质
CN113434432A (zh) 一种推荐平台的性能测试方法、装置、设备、及介质
CN117389908B (zh) 接口自动化测试用例的依赖关系分析方法、系统及介质
US20230132618A1 (en) Method for denoising click data, electronic device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination