CN113051479A - 文件处理、推荐信息生成方法、装置、设备及存储介质 - Google Patents
文件处理、推荐信息生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113051479A CN113051479A CN202110419249.6A CN202110419249A CN113051479A CN 113051479 A CN113051479 A CN 113051479A CN 202110419249 A CN202110419249 A CN 202110419249A CN 113051479 A CN113051479 A CN 113051479A
- Authority
- CN
- China
- Prior art keywords
- feature
- configuration information
- information file
- dictionary
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 title claims abstract description 28
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 230000002159 abnormal effect Effects 0.000 claims abstract description 41
- 238000010586 diagram Methods 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000003672 processing method Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了文件处理、推荐信息生成方法、装置、设备及存储介质,涉及计算机技术领域,尤其涉及信息流、深度学习领域。具体实现方案为:获取接收推荐信息的目标服务所对应的特征配置信息文件和特征词典;特征配置信息文件用于生成目标服务的推荐信息预估模型的输入数据;根据特征配置信息文件和特征词典,确定推荐信息预估模型的异常输入特征;根据异常输入特征,修改特征配置信息文件。本公开实施例能够提高推荐信息预估模型的输入数据的有效性。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及信息流、深度学习领域。
背景技术
推荐系统是在互联网快速发展之后的产物,随着用户规模快速增长和自媒体时代的到来,每个用户既可以是网络内容的创造者也可以是网络内容的消费者,它的本质是根据用户属性和用户行为数据给用户挑选其感兴趣的信息。
随着时间的推移,推荐系统的链路终端的模型所使用的特征随时会产生变动,需要对模型的输入特征进行更新。但目前缺乏有效的更新方式。
发明内容
本公开提供了一种文件处理、推荐信息生成方法、装置、设备及存储介质。
根据本公开的一方面,提供了一种文件处理方法,包括:
获取接收推荐信息的目标服务所对应的特征配置信息文件和特征词典;特征配置信息文件用于生成目标服务的推荐信息预估模型的输入数据;
根据特征配置信息文件和特征词典,确定推荐信息预估模型的异常输入特征;
根据异常输入特征,修改特征配置信息文件。
根据本公开的另一方面,提供了一种推荐信息生成方法,包括:
根据接收推荐信息的目标服务所对应的特征配置信息文件,生成目标服务的推荐信息预估模型的输入数据;特征配置信息文件为本公开任意一项实施例所提供的修改后的特征配置信息文件;
将输入数据输入推荐信息预估模型,获得目标服务的推荐信息。
根据本公开的另一方面,提供了一种文件处理装置,包括:
获取模块,用于获取接收推荐信息的目标服务所对应的特征配置信息文件和特征词典;特征配置信息文件用于生成目标服务的推荐信息预估模型的输入数据;
异常输入特征模块,用于根据特征配置信息文件和特征词典,确定推荐信息预估模型的异常输入特征;
修改模块,用于根据异常输入特征,修改特征配置信息文件。
根据本公开的另一方面,提供了一种推荐信息生成装置,包括:
输入数据模块,用于根据接收推荐信息的目标服务所对应的特征配置信息文件,生成目标服务的推荐信息预估模型的输入数据;特征配置信息文件为本公开任意一项实施例所提供的修改后的特征配置信息文件;
生成模块,用于将输入数据输入推荐信息预估模型,获得目标服务的推荐信息。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例中的方法。
根据本公开的技术,能够根据异常输入特征,对特征配置信息文件进行修改,使得根据修改后的特征配置信息文件得到的输入数据输入推荐信息预估模型之后,能够得到更加准确、效果更好的推荐信息,从而为用户提供更好的推荐服务。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开一实施例的文件处理方法示意图;
图2是根据本公开另一实施例的文件处理方法示意图;
图3是根据本公开又一实施例的文件处理方法示意图;
图4是根据本公开一示例的信息抽取示意图;
图5是根据本公开另一示例的图形树示意图;
图6是根据本公开又一示例的信息传输示意图;
图7是根据本公开又一示例的拦截过程示意图;
图8是根据本公开又一示例的拦截阶段示意图;
图9是根据本公开又一示例的拦截通知示意图;
图10是根据本公开一实施例的文件处理装置示意图;
图11是根据本公开另一实施例的文件处理装置示意图;
图12是根据本公开又一实施例的文件处理装置示意图;
图13是根据本公开又一实施例的文件处理装置示意图;
图14是根据本公开又一实施例的文件处理装置示意图;
图15是根据本公开又一实施例的文件处理装置示意图;
图16是用来实现本公开实施例的文件处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开实施例提供了一种文件处理方法,如图1所示,包括:
步骤S11:获取接收推荐信息的目标服务所对应的特征配置信息文件和特征词典;特征配置信息文件用于生成目标服务的推荐信息预估模型的输入数据;
步骤S12:根据特征配置信息文件和特征词典,确定推荐信息预估模型的异常输入特征;
步骤S13:根据异常输入特征,修改特征配置信息文件。
本实施例中,目标服务可以是专门用于向用户提供推荐信息的应用的服务,比如新闻发布应用的服务、娱乐信息发布应用的服务等。
目标服务业可以是带有信息推荐功能的服务,比如购物应用的服务、旅游应用的服务等。
在一种可能的实现方式中,目标服务的对应的应用每次生成推荐信息时,根据目标服务对应的配置信息文件确定推荐信息预估模型的输入特征,输入特征可以作为推荐信息预估模型的输入数据的一部分,输入推荐信息预估模型,推荐信息预估模型可以根据输入特征等输入数据,生成各个可选推荐信息的排序信息,根据各个可选信息的排序信息确定推荐信息。
在一种可能的实现方式中,每个目标服务可对应一个特征词典,特征词典中可以包括多个特征。在根据配置信息文件确定推荐信息预估模型的输入特征时,可将特征配置信息文件中的特征作为推荐信息预估模型的输入特征。
特征配置信息文件中的配置特征,可以根据配置特征存储池中存储的特征进行选择,确定配置信息文件中的特征。
特征配置信息文件中也可包含配置特征的抽取方式,比如,从配置特征存储池中抽取配置特征的函数。
特征词典可以是通过具体实验数据确定的、包含多个经实验确定的特征的词典。特征词典可根据实验获得的输入特征对应的推荐信息预估模型的输出结果的效果确定生成。
在具体实现方式中,特征配置信息文件和特征词典可以分别是在线和离线状态下维护的文件。由于在离线和在线的状态下,分别维护两个文件,人为增删改难免会有diff(差异)出现,进而导致异常输入特征。基于diff情况,将异常输入特征分为两种:其一为缺失特征,即在预估的特征词典中,却没有进行特征抽取,该特征在推荐系统链路中无效;其二为过时特征,线上进行特征抽取,但实际并不使用,浪费线上资源。本实施例中,能够根据在线和离线的信息确定异常输入特征,根据异常输入特征修改特征配置信息文件,从而能够避免差异特征,保证输入特征的有效性和时效性。
在一种可能的实现方式中,推荐信息预估模型可以是内容推荐系统所采用的模型,具体可采用Ctr(Click Through Rate,点击通过率)预估模型,可以用于将输入特征作为至少一部分输入数据,根据输入数据产生推荐内容相关的点击通过率预估信息。作为内容推荐系统,可从用户画像(静态数据)、用户操作内容行为(动态数据)和内容数据抽取特征,构建模型并不断学习,产出模型提供在线预估服务。
在一种示例中,用户画像、用户操作内容行为和内容数据分别在不同的模块产出,最终通过不同的处理流汇聚到特征服务(Feature-Service)模块,作为模型离线训练和在线预估的输入源样本信息。一般情况下,由于源样本信息量庞大,数据链路长且复杂,缺乏统一管理规范,随着各模块的迭代,数据质量每况愈下。推荐信息预估模型部署于推荐系统链路终端受影响最大却无感知,无效低质的数据不仅吞噬大量的资源,影响推荐信息预估模型的输入特征迭代的推进,增加开发测试成本,影响推荐系统的信息流(Feed流)最终的推荐效果。
如推荐信息预估模型从离线Feature-service落盘的日志并拼接用户行为后的样本数据中日志中获取大量的历史展现点击数据,从中抽取有用的特征数据进行离线模型的训练,得到不同先验特征对应点击率的情况,在在线推荐系统中对候选的推荐内容进行Ctr等信息的预估,为个性化推荐提供参考。在模型网络结构确定后,后续迭代工作重点在于特征的选择和抽取。由于特征群庞大,迭代过程中,删除历史特征需要逐一考虑对预估模型是否造成负面影响,验证成本非常高,导致无效特征不敢随意删除,存在一定的滞后性。本公开提供的文件处理方法,通过建立无效低质的特征拦截机制,对特征配置、特征抽取结果进行实时快速验证,拦截特征配置信息文件的无效、低质特征,并及时推动特征配置信息文件的改正和优化,保障上线提供给推荐信息预估模型的输入特征的质量。
在另外一种实施方式中,推荐信息预估模型的输出结果可以是可选推荐信息的排序或者推荐信息,推荐信息预估模型的输出结果的效果,可以根据用户对推荐信息的反馈进行确定,比如,用户的浏览时长、用户是否完成浏览等。
在一种实现方式中,根据特征配置信息文件和特征词典,确定推荐信息预估模型的异常输入特征,可以是根据特征配置信息文件和特征词典,确定低质特征和无效特征中的至少一种,将低质特征和无效特征中的至少一种作为异常输入特征。
在一种可能的实现方式中,根据异常输入特征,修改特征配置信息文件,可以是将配置信息文件中与异常输入特征对应的特征进行删除。
在可能的实现方式中,当根据特征配置信息文件和特征词典确定不存在异常输入特征时,可不对配置信息文件进行修改。
一般情况下,如果通过监控手段实现在线预估侧的无效、低质特征拦截,则对线上请求的抽样日志进行分析后,可获取特征信息,进行特征评估。如果在离线状态下,对无效、低质特征的离线侧评估步骤产生于在特征预处理阶段,则可在线预估向用户推送信息后,收集用户交互日志,经过数据的预处理及特征的预处理再进行模型训练。则对推荐信息预估模型的输入特征的处理可能存在更新耗时较久、反馈结果滞后等不足之处。并且对于大型的推荐应用系统而言,通过线上日志发现无效、低质特征,会造成线上结果不置信、资源浪费等后果,离线训练时也会花费加倍的人力与资源对特征进行预处理。
本实施例中,根据异常输入特征,对特征配置信息文件进行修改,使得根据修改后的特征配置信息文件得到的输入数据输入推荐信息预估模型之后,能够得到更加准确、效果更好的推荐信息,从而为用户提供更好的推荐服务。
在一种实施方式中,根据特征配置信息文件和特征词典,确定推荐信息预估模型的异常输入特征,包括,
确定特征配置信息文件中存在且在特征词典中不存在的第一特征;和/或,
确定特征配置信息文件中不存在且在特征词典中存在的第二特征;
将第一特征和/或第二特征作为异常输入特征。
在具体实现方式中,异常输入特征中可能存在第一特征和第二特征中的至少一种。在异常输入特征中仅存在第一特征或第二特征的情况下,可将第一特征或第二特征作为异常输入特征。在异常输入特征中存在第一特征和第二特征的情况下,可将第一特征和第二特征作为异常输入特征。
在可能的实现方式中,根据异常输入特征,修改特征配置信息文件,在异常输入特征包括第一特征的情况下,可将配置信息文件中的第一特征进行删除;在异常输入特征包括第二特征的情况下,可在配置信息文件中添加第二特征。
在本公开可能的实现方式中,特征配置信息文件中不存在且在特征词典中存在的第二特征,可以为根据特征配置信息文件提取不出且在特征词典中存在的特征。
本实施例中,特征词典中的特征为经过实验确定更新后的、具有较好效果的特征,因此,保留在特征词典中存在、配置信息文件中不存在的特征。而由于特征词典为离线维护的,配置信息文件中的特征可能不会随着特征词典进行更新,从而,配置信息文件中存在、特征词典中不存在的特征可能为过时特征,在配置信息文件中将这些特征进行删除,从而能够保证推荐信息预估模型的输入数据的有效性,使得特征变化不会对推荐信息预估模型的输出结果的效果造成影响。
在一种实施方式中,如图2所示,文件处理方法还包括:
步骤S21:根据特征配置信息文件的第一树形图和特征词典的第二树形图,确定第一特征和/或第二特征。
在本实施例中,根据特征配置信息文件的第一树形图和特征词典的第二树形图,确定第一特征和/或第二特征,可以为将配置信息文件的第一图形树和特征词典的第二图形树进行对比,确定配置信息文件和特征词典中具有差异的信息,根据差异信息确定第一特征和/或第二特征。
本实施例中,可以将配置信息文件和特征词典转换为树形图。配置信息文件根据特征抽取操作生成。目前特征抽取过程可对应独立的代码库,排序模型在线架构通过编写格式固定(比如,特征名称-抽取函数-依赖字段)的特征配置指定在特征存储池中需要抽取的特征。同时在线架构维护了一套在线所需特征的词典,作为在线的推荐信息预估模型的参考输入特征。
本实施例中,能够通过树图形,迅速准确确定出特征配置信息文件和特征词典中的差异特征,从而提高配置信息文件的更正效率。
在一种实施方式中,根据特征配置信息文件的第一树形图和特征词典的第二树形图,确定第一特征和/或第二特征,包括:
根据特征配置信息文件生成第一树形图,第一树形图的祖先节点包括特征配置信息文件中的特征信息,第一树形图的每个叶子节点为其祖先节点的特征信息对应的源样本信息;
根据特征词典生成第二树形图,第二树形图的祖先节点包括特征词典中的特征信息,第二树形图的每个叶子节点为其祖先节点的特征信息对应的源样本信息;
对比第一树形图和第二树形图,获得差异节点;
基于差异节点,确定第一特征和/或第二特征。
在具体实现方式中,源样本信息可以是从多个数据源中抽取的信息。比如图4所示,在每10000条数据源提供的信息中抽取一条,作为源样本信息41,也可以将多条数据源提供的信息进行拼接,作为源样本信息41。通过特征配置信息文件44,从多个源样本信息41中选择多个输入特征42,将多个特征输入42对应的目标服务的推荐信息预估模型43,得到输出结果,根据输出结果确定推荐信息。
在本实施例中,源样本信息和特征信息在树图形中可以以代码的形式存在,每个特征可以对应一个祖先节点。
在一种可能的实现方式中,树形图的叶子节点的祖先节点可以是与叶子节点的源样本信息相关的特征,比如根据源样本信息获取的特征。源样本信息可以以代码的形式存在于树形图中。
源样本信息可以包括用户画像(静态数据)、用户操作内容行为(动态数据)和内容数据等,可以为从用户的网络日志中抽取的部分数据或全部数据。
在一种可能的实施方式中,每个差异节点可以对应一个第一特征或一个第二特征。
本实施例中,如图5所示,多个叶子节点51可对应于一个祖先节点52。根节点和叶子节点之间可存在其它的节点。
特征抽取在推荐信息预估模型中起着承上启下的作用。通过特征配置和特定的特征抽取方法,将来自不同数据源拼接成的源样本信息抽取成适合模型训练的字段,再经过特征清理、特定编码方式转换,将特征输入模型中训练、预估,产生最终想要的结果。因此,无效、低质特征的抽取会直接影响到特征的最终结果,进而影响到模型训练、模型预估的效果,同时也会增加特征抽取的耗时,提高推荐信息预估模型执行预估的整体时长。
本实施例中,通过对比第一树形图和第二树形图的每个节点,就能够获取差异节点,进而确定第一特征和/或第二特征,从而能够以较高的效率获得失效或过时特征以及修改特征配置信息文件。
在一种实施方式中,获取接收推荐信息的目标服务所对应的特征配置信息文件和特征词典,包括:
根据离线的目标服务的推荐信息预估模型训练结果,获得特征词典;
根据特征配置存储池中抽取的信息,生成特征配置信息文件。
本实施例中,离线的目标服务的推荐信息预估模型训练结果,可以是在离线状态下,根据选择的特征信息确定推荐信息预估模型的输入数据,根据输入数据对应的输出结果,确定输入数据对应的实际效果,根据输入数据对应的实际效果,确定是否将选择的特征信息纳入特征词典。
本实施例中,特征配置存储池中可以存储针对各个不同目标服务的多个特征,在生成特征配置信息文件时,可根据指示信息,从特征配置存储池中选择多个特征,形成特征配置信息文件。
本实施例中,通过维护特征词典和特征信息配置文件,能够有效提高推荐信息预估模型的推荐信息与用户需求的符合程度。
本公开实施例还提供一种推荐信息生成方法,如图3所示,包括:
步骤S31:根据接收推荐信息的目标服务所对应的特征配置信息文件,生成目标服务的推荐信息预估模型的输入数据;特征配置信息文件为本公开任意一项实施例所提供的修改后的特征配置信息文件;
步骤S32:将输入数据输入推荐信息预估模型,获得目标服务的推荐信息。
本实施例中,能够根据特征词典和特征配置信息文件,对特征配置信息文件进行修改,利用修改后的特征配置信息文件生成目标服务的推荐信息,使得特征配置信息文件中的过时特征和/或无效特征得到修正,从而提高推荐信息预估模型的输入数据与用户当前习惯的符合程度,有助于为用户提供更符合其意愿的推荐信息。
其次,由于推荐系统庞大,字段过多,存在字段升级、覆盖率低等情况,若一个特征所依赖的样本字段覆盖率极低或取值相似度极高,可以认为对应的样本字段是低质字段,低质字段对应特征的信息量会低于普通特征。
如图6所示,在本公开一种示例中,针对目标服务对应的推荐信息预估模型63,维护了特征词典61与特征配置信息文件62。对两个配置进行对比,以唯一标识特征号为对比关键词,从根节点深入叶子节点,可以有效拦截无效特征与特征缺失的问题。且该方法无需搭建完整线下环境,只需获取环境代码,本地执行diff操作,从而可以及时有效地发现不再被模型使用的直接特征或间接依赖特征,即可发现无效/缺失特征,目前一次执行只需30s即可完成。
在本公开一种实施例中,如图7所示,将用户的在线日志72作为数据源,根据在线日志捞取有效请求,获得线上真实请求73,根据线上真实请求73创建线下模拟环境74。在本地线下模拟环境74中,获得线下配置的特征词典75。根据可包括在线日志在内的数据源获得源样本信息71,根据源样本信息71和特征配置信息文件进行特征抽取,将抽取到的输入特征输入推荐信息预估模型进行预估。根据源样本信息71、特征词典75、基于特征配置信息文件抽取出的特征进行结果分析,得到异常输入特征,从而对特征配置信息文件进行及时更改和维护,拦截低质量特征(Slot)。在搭建完整的测试环境后,通过线上请求模拟线上请求全流程,可打印原始样本与特征抽取结果到日志中,供后续分析使用。针对特征词典75中存在但输入特征中不存在的无效特征,可判断其无效原因,根据无效原因更正特征配置文件,比如添加特征、更改特征抽取函数等。无效特征的无效原因可包括样本中无特征抽取所需字段、样本中满足条件的请求极小等。若拦截到的特征对模型影响不大,可直接进行删除;若拦截到的特征不存在样本占比量低的情况,可进一步溯源,判断是否上游数据缺失字段导致。
在本公开另一种示例中,特征词典可通过在线的特征管理平台进行维护。一般情况下,信息推荐系统的模型字段达上万个,且来源不一、处理及使用方式不同,随着迭代更新,目前存在大量的废弃字段。为了提升线上的特征质量,本公开实施例可应用于特征管理平台,对特征管理平台中的特征进行维护。特征管理平台存储线上字段的来源、特征空值率、特征是否下线等信息,通过获取字段的特征下线信息,判断字段质量,对不再维护的字段进行统一更换或下线。
由于模型众多,全模型下线字段,进行效果回归的方式变得费时费力,无法满足快速迭代的需求,目前主要通过迭代时拦截低质字段,推动特征使用字段的更新与删除。如图8所示,一次字段下线可至少需要经历字段整理(下线字段确认)81、下线准备(多模型线下回归、多方评估、特征管理平台标注预下线)82、线下评估(输入特征迭代拦截、模型一致性评估)83、线上评估(字段正式下线)84、后续维护(特征管理平台标注预下线、输入特征迭代拦截)85等阶段,而完善的低质字段拦截工具能够减轻线下评估及后续维护两个阶段的工作成本,形成完善的工具链,供每次下线流程使用。
如上文,通过解析某个模型的特征配置,能够获取特征依赖的叶节点,即源样本信息或字段,再打通特征平台获得该字段的下线信息,即可判断该字段是否属于低质字段,若是低质字段,即可直接进行拦截,如此一来,便完成了该迭代模型的低质字段拦截。
如图9所示,出于效果考量,确保本地的拦截与监控拦截的通知效果一致,无效、低效特征的校验可集成在模型迭代测试阶段,将模型迭代测试的相应代码进行下载(为本地化校验做准备),根据下载的代码进行配置检查(拦截无效特征、拦截低质特征),根据配置检查结果进行本地模拟(缺失特征矫正),而后执行拦截通知,可通过可视化界面实现精准推送,将结果通过报告形式推送给开发者。
在具体示例中,通过实践验证,可有效拦截多个特征词典中存在同时配置信息文件在不存在的特征,矫正多个在特征配置文件中不存在却在特征词典中存在的缺失特征,删除多个低质特征。
本公开实施例能够在本地进行,不依赖在线日志统计,也无需实时的用户请求。在真实的推荐系统中,可将有效拦截时间由日志收集和报警分析的小时级别缩短至分钟级别。本公开实施例提供的文件处理方法,在特征迭代的测试工作中即可完成对特征的校验,且验证结果通过可视化报告发送给开发人员,做到对特征异常的实时感知与拦截,减少因无效、低质特征导致线上问题的频率。同时,本公开实施例提供的文件处理方法可以与特征管理平台对接,整套方案更加灵活,不仅可以拦截当前低质特征,还可以拦截即将的低质特征,比如,数据流某模块需要下线某字段,可在特征管理平台标注相关字段,然后进行前置拦截等。
本公开实施例还提供一种文件处理装置,如图10所示,包括:
获取模块101,用于获取接收推荐信息的目标服务所对应的特征配置信息文件和特征词典;特征配置信息文件用于生成目标服务的推荐信息预估模型的输入数据;
异常输入特征模块102,用于根据特征配置信息文件和特征词典,确定推荐信息预估模型的异常输入特征;
修改模块103,用于根据异常输入特征,修改特征配置信息文件。
在一种实施方式中,如图11所示,异常输入特征模块包括,
第一特征单元111,用于确定特征配置信息文件中存在且在特征词典中不存在的第一特征;和/或,
第二特征单元112,用于确定特征配置信息文件中不存在且在特征词典中存在的第二特征;
特征处理单元113,用于将第一特征和第二特征作为异常输入特征。
在一种实施方式中,如图12所示,文件处理装置还包括:
图形树模块121,用于根据特征配置信息文件的第一树形图和特征词典的第二树形图,确定第一特征和/或第二特征。
在一种实施方式中,如图13所示,图形树模块包括:
第一图形树单元131,用于根据特征配置信息文件生成第一树形图,第一树形图的祖先节点包括特征配置信息文件中的特征信息,第一树形图的每个叶子节点为其祖先节点的特征信息对应的源样本信息;
第二图形树单元132,用于根据特征词典生成第二树形图,第二树形图的祖先节点包括特征词典中的特征信息,第二树形图的每个叶子节点为其祖先节点的特征信息对应的源样本信息;
差异节点单元133,用于对比第一树形图和第二树形图,获得差异节点;
差异节点处理单元134,用于基于差异节点,确定第一特征和/或第二特征。
在一种实施方式中,如图14所示,获取模块包括:
词典单元141,用于根据离线的目标服务的推荐信息预估模型训练结果,获得特征词典;
配置信息文件单元142,用于根据特征配置存储池中抽取的信息,生成特征配置信息文件。
本公开实施例还提供一种推荐信息生成装置,如图15所示,包括:
输入数据模块151,用于根据接收推荐信息的目标服务所对应的特征配置信息文件,生成目标服务的推荐信息预估模型的输入数据;特征配置信息文件为本公开任意一项实施例所提供的修改后的特征配置信息文件;
生成模块152,用于将输入数据输入推荐信息预估模型,获得目标服务的推荐信息。
本公开实施例可应用于计算机技术领域,尤其可应用于信息流、深度学习等技术领域。
本公开实施例各装置中的各单元、模块或子模块的功能可以参见上述方法实施例中的对应描述,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图16示出了可以用来实施本公开的实施例的示例电子设备160的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。
如图16所示,电子设备160包括计算单元161,其可以根据存储在只读存储器(ROM)162中的计算机程序或者从存储单元168加载到随机访问存储器(RAM)163中的计算机程序来执行各种适当的动作和处理。在RAM163中,还可存储电子设备160操作所需的各种程序和数据。计算单元161、ROM162以及RAM163通过总线164彼此相连。输入输出(I/O)接口165也连接至总线164。
电子设备160中的多个部件连接至I/O接口165,包括:输入单元166,例如键盘、鼠标等;输出单元167,例如各种类型的显示器、扬声器等;存储单元168,例如磁盘、光盘等;以及通信单元169,例如网卡、调制解调器、无线通信收发机等。通信单元169允许电子设备160通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元161可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元161的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元161执行上文所描述的各个方法和处理,例如文件处理方法。例如,在一些实施例中,文件处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元168。在一些实施例中,计算机程序的部分或者全部可以经由ROM162和/或通信单元169而被载入和/或安装到电子设备160上。当计算机程序加载到RAM163并由计算单元161执行时,可以执行上文描述的文件处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元161可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文件处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种文件处理方法,包括:
获取接收推荐信息的目标服务所对应的特征配置信息文件和特征词典;所述特征配置信息文件用于生成所述目标服务的推荐信息预估模型的输入数据;
根据所述特征配置信息文件和所述特征词典,确定所述推荐信息预估模型的异常输入特征;
根据所述异常输入特征,修改所述特征配置信息文件。
2.根据权利要求1所述的方法,其中,所述根据所述特征配置信息文件和所述特征词典,确定所述推荐信息预估模型的异常输入特征,包括,
确定所述特征配置信息文件中存在且在特征词典中不存在的第一特征;和/或,
确定所述特征配置信息文件中不存在且在特征词典中存在的第二特征;
将所述第一特征和所述第二特征作为所述异常输入特征。
3.根据权利要求2所述的方法,其中,还包括:
根据所述特征配置信息文件的第一树形图和所述特征词典的第二树形图,确定所述第一特征和/或所述第二特征。
4.根据权利要求3所述的方法,其中,所述根据所述特征配置信息文件的第一树形图和所述特征词典的第二树形图,确定所述第一特征和/或所述第二特征,包括:
根据所述特征配置信息文件生成第一树形图,所述第一树形图的祖先节点包括所述特征配置信息文件中的特征信息,所述第一树形图的每个叶子节点为其祖先节点的特征信息对应的源样本信息;
根据所述特征词典生成第二树形图,所述第二树形图的祖先节点包括所述特征词典中的特征信息,所述第二树形图的每个叶子节点为其祖先节点的特征信息对应的源样本信息;
对比所述第一树形图和所述第二树形图,获得差异节点;
基于所述差异节点,确定所述第一特征和/或所述第二特征。
5.根据权利要求1所述的方法,其中,所述获取接收推荐信息的目标服务所对应的特征配置信息文件和特征词典,包括:
根据离线的所述目标服务的推荐信息预估模型训练结果,获得所述特征词典;
根据特征配置存储池中抽取的信息,生成所述特征配置信息文件。
6.一种推荐信息生成方法,包括:
根据接收推荐信息的目标服务所对应的特征配置信息文件,生成所述目标服务的推荐信息预估模型的输入数据;所述特征配置信息文件为权利要求1-5中任意一项所述的修改后的特征配置信息文件;
将所述输入数据输入推荐信息预估模型,获得所述目标服务的推荐信息。
7.一种文件处理装置,包括:
获取模块,用于获取接收推荐信息的目标服务所对应的特征配置信息文件和特征词典;所述特征配置信息文件用于生成所述目标服务的推荐信息预估模型的输入数据;
异常输入特征模块,用于根据所述特征配置信息文件和所述特征词典,确定所述推荐信息预估模型的异常输入特征;
修改模块,用于根据所述异常输入特征,修改所述特征配置信息文件。
8.根据权利要求7所述的装置,其中,所述异常输入特征模块包括,
第一特征单元,用于确定所述特征配置信息文件中存在且在特征词典中不存在的第一特征;和/或,
第二特征单元,用于确定所述特征配置信息文件中不存在且在特征词典中存在的第二特征;
特征处理单元,用于将所述第一特征和所述第二特征作为所述异常输入特征。
9.根据权利要求8所述的装置,其中,还包括:
图形树模块,用于根据所述特征配置信息文件的第一树形图和所述特征词典的第二树形图,确定所述第一特征和/或所述第二特征。
10.根据权利要求9所述的装置,其中,所述图形树模块包括:
第一图形树单元,用于根据所述特征配置信息文件生成第一树形图,所述第一树形图的祖先节点包括所述特征配置信息文件中的特征信息,所述第一树形图的每个叶子节点为其祖先节点的特征信息对应的源样本信息;
第二图形树单元,用于根据所述特征词典生成第二树形图,所述第二树形图的祖先节点包括所述特征词典中的特征信息,所述第二树形图的每个叶子节点为其祖先节点的特征信息对应的源样本信息;
差异节点单元,用于对比所述第一树形图和所述第二树形图,获得差异节点;
差异节点处理单元,用于基于所述差异节点,确定所述第一特征和/或所述第二特征。
11.根据权利要求7所述的装置,其中,所述获取模块包括:
词典单元,用于根据离线的所述目标服务的推荐信息预估模型训练结果,获得所述特征词典;
配置信息文件单元,用于根据特征配置存储池中抽取的信息,生成所述特征配置信息文件。
12.一种推荐信息生成装置,包括:
输入数据模块,用于根据接收推荐信息的目标服务所对应的特征配置信息文件,生成所述目标服务的推荐信息预估模型的输入数据;所述特征配置信息文件为权利要求7-11中任意一项所述的修改后的特征配置信息文件;
生成模块,用于将所述输入数据输入推荐信息预估模型,获得所述目标服务的推荐信息。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110419249.6A CN113051479B (zh) | 2021-04-19 | 2021-04-19 | 文件处理、推荐信息生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110419249.6A CN113051479B (zh) | 2021-04-19 | 2021-04-19 | 文件处理、推荐信息生成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051479A true CN113051479A (zh) | 2021-06-29 |
CN113051479B CN113051479B (zh) | 2024-04-26 |
Family
ID=76520670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110419249.6A Active CN113051479B (zh) | 2021-04-19 | 2021-04-19 | 文件处理、推荐信息生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051479B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836291A (zh) * | 2021-09-29 | 2021-12-24 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493940A (zh) * | 2018-11-06 | 2019-03-19 | 大国创新智能科技(东莞)有限公司 | 基于深度学习和知识库的处方个性化推荐方法和系统 |
CN110674406A (zh) * | 2019-09-29 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置、电子设备及存储介质 |
US20200202256A1 (en) * | 2018-12-24 | 2020-06-25 | Icertis, Inc. | Automated training and selection of models for document analysis |
CN111966908A (zh) * | 2020-08-25 | 2020-11-20 | 贝壳技术有限公司 | 推荐系统和方法、电子设备和计算机可读存储介质 |
-
2021
- 2021-04-19 CN CN202110419249.6A patent/CN113051479B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493940A (zh) * | 2018-11-06 | 2019-03-19 | 大国创新智能科技(东莞)有限公司 | 基于深度学习和知识库的处方个性化推荐方法和系统 |
US20200202256A1 (en) * | 2018-12-24 | 2020-06-25 | Icertis, Inc. | Automated training and selection of models for document analysis |
CN110674406A (zh) * | 2019-09-29 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置、电子设备及存储介质 |
CN111966908A (zh) * | 2020-08-25 | 2020-11-20 | 贝壳技术有限公司 | 推荐系统和方法、电子设备和计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
何金金;郭振波;张宇;: "基于推荐技术的个性化信息助手的改良", 工业控制计算机, no. 01, pages 119 - 121 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836291A (zh) * | 2021-09-29 | 2021-12-24 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备和存储介质 |
CN113836291B (zh) * | 2021-09-29 | 2023-08-15 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113051479B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11809505B2 (en) | Method for pushing information, electronic device | |
CN110968695A (zh) | 基于弱监督技术主动学习的智能标注方法、装置及平台 | |
CN112783508B (zh) | 文件的编译方法、装置、设备以及存储介质 | |
CN111460384A (zh) | 策略的评估方法、装置和设备 | |
CN109840192B (zh) | 自动化测试的方法和装置 | |
CN112015562A (zh) | 基于迁移学习的资源分配方法、装置及电子设备 | |
CN113032257A (zh) | 自动化测试方法、装置、计算机系统和可读存储介质 | |
CN113127357A (zh) | 单元测试方法、装置、设备、存储介质及程序产品 | |
CN104657437A (zh) | 推广情况数据的监测方法及装置 | |
CN114661571B (zh) | 模型评测方法、装置、电子设备和存储介质 | |
CN113051479B (zh) | 文件处理、推荐信息生成方法、装置、设备及存储介质 | |
CN114996574A (zh) | 画像标签的构建方法、装置及电子设备 | |
CN112506800B (zh) | 测试代码的方法、装置、设备、介质和程序产品 | |
CN113076254A (zh) | 一种测试用例集的生成方法和装置 | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
CN113434432B (zh) | 一种推荐平台的性能测试方法、装置、设备、及介质 | |
CN115757304A (zh) | 一种日志存储方法、装置、系统、电子设备及存储介质 | |
CN115809688A (zh) | 一种模型调试方法、装置、电子设备及存储介质 | |
CN115454971A (zh) | 数据迁移方法、装置、电子设备及存储介质 | |
CN115964409A (zh) | 一种系统访问数据的管理方法、装置、设备及存储介质 | |
CN114328246A (zh) | 一种软件测试范围的确定方法、装置、设备及存储介质 | |
CN113988914A (zh) | 一种用户价值预测方法、装置和电子设备 | |
CN113138760A (zh) | 一种页面生成方法、装置、电子设备和介质 | |
CN113760728A (zh) | 应用测试的方法和装置 | |
CN118568006B (zh) | 应用界面唤起方法、装置、设备、存储介质以及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |