CN115168369A - 信息更新方法、装置、电子设备和计算机存储介质 - Google Patents
信息更新方法、装置、电子设备和计算机存储介质 Download PDFInfo
- Publication number
- CN115168369A CN115168369A CN202210162062.7A CN202210162062A CN115168369A CN 115168369 A CN115168369 A CN 115168369A CN 202210162062 A CN202210162062 A CN 202210162062A CN 115168369 A CN115168369 A CN 115168369A
- Authority
- CN
- China
- Prior art keywords
- content
- stability
- determining
- current
- target data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2308—Concurrency control
- G06F16/2315—Optimistic concurrency control
- G06F16/2322—Optimistic concurrency control using timestamps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Security & Cryptography (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了信息更新方法、装置、电子设备和计算机存储介质,涉及计算机技术领域,尤其涉及云计算、大数据和人工智能等技术领域。具体实现方案为:根据设定周期,确定目标数据的预更新内容;预更新内容用于在对目标数据执行更新操作时替换目标数据的当前内容;根据设定周期、预更新内容和当前内容,确定目标数据在设定周期内的稳定性;根据稳定性,确定是否对当前内容执行更新操作。本公开实施例能够提高信息更新操作的有效性。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及云计算、大数据和人工智能等技术领域,具体涉及一种信息更新方法、装置、电子设备和计算机存储介质。
背景技术
随着计算机技术和信息技术的发展,数据量的增长速度也处于极高的水平。在各个行业中,数据不仅能够起到记录信息的作用,还能够对一些可能存在的因素进行预测或估计。比如,服务提供方可以利用合法获取的数据对用户的一些特性进行预估,从而为用户提供更为适合、周到的产品或服务。
随着信息的海量增长,信息更新迭代的速度也以迅猛上升,随着信息变化速度的提高,如何将信息更新操作保持在一个合理的节奏,是信息利用方面的一个需要重点关注的问题。
发明内容
本公开提供了一种信息更新方法、装置、电子设备和计算机存储介质。
根据本公开的一方面,提供了一种信息更新方法,包括:
根据设定周期,确定目标数据的预更新内容;预更新内容为在对目标数据执行更新操作时用于替换目标数据的当前内容的内容;
根据设定周期、预更新内容和当前内容,确定目标数据在设定周期内的稳定性;
根据稳定性,确定是否对当前内容执行更新操作。
根据本公开的另一方面,提供了一种信息更新装置,包括:
更新内容获得模块,用于根据设定周期,确定目标数据的预更新更新后的内容;预更新内容为在对目标数据执行更新操作时用于替换目标数据的当前内容的内容;
稳定性确定模块,用于根据设定周期、预更新内容和当前内容,确定目标数据在设定周期内的稳定性;
当前内容确定模块,用于根据稳定性,确定是否对当前内容执行更新操作。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。
根据本公开的技术,在目标数据变动量较大的情况下,对目标数据的当前内容进行更新操作,即将目标数据的预更新内容作为最新的目标数据的内容,从而使得目标数据能够得到及时且必要的更新。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开一实施例的信息更新方法示意图;
图2是根据本公开另一实施例的信息更新方法示意图;
图3为根据本公开一示例的特征更新示意图;
图4为根据本公开一示例的模型对比示意图;
图5是根据本公开一实施例的信息更新装置示意图;
图6是根据本公开另一实施例的信息更新装置示意图;
图7是根据本公开又一实施例的信息更新装置示意图;
图8是根据本公开又一实施例的信息更新装置示意图;
图9是根据本公开又一实施例的信息更新装置示意图;
图10是根据本公开又一实施例的信息更新装置示意图;
图11是用来实现本公开实施例的信息更新方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
根据本公开的实施例,提供了一种信息更新方法,图1是根据本公开实施例的信息更新方法的流程示意图,该方法可以应用于可利用前端或后端执行指令的电子设备,例如,该装置可以部署于终端或服务器或其它处理设备执行的情况下,可以执行目标信息的内容的获取、稳定性的确定等步骤。其中,终端可以为用户设备(UE,User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA,Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示,信息更新方法包括:
步骤S11:根据设定周期,确定目标数据的预更新更新后的内容;预更新内容为在对目标数据执行更新操作时用于替换目标数据的当前内容的内容;
步骤S12:根据设定周期、预更新内容和当前内容,确定目标数据在设定周期内的稳定性;
步骤S13:根据稳定性,确定是否对当前内容执行更新操作。
本实施例中,设定周期可以根据目标数据本身的性质进行确定,可以根据目标数据一般情况下的更新频率有关。如果目标数据为内容变化频率较高的数据,比如昼夜温差很大的环境中的气温、未成年人的身高体重、城市道路的车流量、城市中心的商场客流量、车站客流量等,则设定周期可以较短,比如可以为1小时、1年、1天、1个星期、1个月等。如果目标数据为内容变化频率相对较低的数据,比如赤道地区的气温、成年人的身高体重、人烟稀少地区的车流量等,则设定周期可以相对较长,比如,可以为1年以上等。
本实施例中,目标数据可以为信息的类别,比如人员的身高、体重、国籍等。目标数据的内容可以为具体的信息,比如人员的身高为1.7m,体重为50kg,国籍为X国。
根据设定周期,确定目标数据的预更新内容,可以是在距离目标数据上次更新的时间达到设定周期时,获取目标数据在设定周期内新产生的最新的内容,作为预更新内容。
比如,在目标数据为新闻的情况下,目标数据的内容为新闻的内容,设定周期可以为1天,可在每天的设定时刻,获取新闻更新后的内容。
再如,在目标数据为农作物产量的情况下,目标数据的内容为农作物产量的数值,设定周期可以为具体农作物的生长周期,在生长周期的设定节点,获取农作物的产量的具体数值。
再如,在目标数据为图像的情况下,目标数据的内容可以为图像的内容,设定周期可以为图像的更新时间,可以在设定的刷新时间,获取新的图像的内容作为预更新内容。
根据设定周期、预更新内容和当前内容,确定目标数据在设定周期内的稳定性,可以是判断在设定周期内,预更新内容相比当前内容的变化量指标作为稳定性,也即稳定性体现了目标数据的内容在设定周期内变化是否明显。
比如,在目标数据为数值类型的数据的情况下,目标数据的内容为具体数值,目标数据在设定周期内的稳定性,可以根据目标数据的预更新数值和当前数值的变化量,经过一定的计算,得到与稳定性相关的指标数据。
再如,在目标数据为非数值类型的数据的情况下,目标数据的内容可以为文字或者其它类型的信息。确定目标数据在设定周期内的稳定性时,可以将目标数据的预更新内容和当前内容分别转换为数值,再经过设定计算,得到与稳定性相关的指标数据。
在一种可能的实现方式中,预更新内容可以包括当前内容和增量内容。增量内容是在设定周期内相对于当前内容新增的内容。
在另一种可能的实现方式中,预更新内容可以包括部分当前内容、修改内容和增量内容。修改内容是对另一部分当前内容进行修改的内容。
在另一种可能的实现方式中,预更新内容可以包括部分当前内容、修改内容。
在另一种可能的实现方式中,根据设定周期、预更新内容和当前内容,确定目标数据在设定周期内的稳定性,可以包括:根据设定周期、目标数据的预更新内容和目标数据的当前内容,确定至少一种表征稳定性的指标,根据至少一种表征稳定性的指标,确定目标数据在设定周期内的稳定性。
在另一种可能的实现方式中,根据设定周期、预更新内容和当前内容,确定目标数据在设定周期内的稳定性,可以包括:根据设定周期、预更新内容确定第一类稳定性指标;根据设定周期、当前内容,确定第二类稳定性指标;根据设定周期、预更新内容和当前内容,确定第三类稳定性指标;根据第一类稳定性指标、第二类稳定性指标、第三类稳定性指标中的至少一种,确定稳定性。
在一种具体实现方式中,目标数据可以为金融相关的数据,目标数据的内容可以为金融相关的数据的数值或文字信息。比如,目标数据为银行用于预测客户风险的相关数据。一般情况下,银行可能根据客户提供的信息,进行客户借贷、办理理财等业务的风险评估。在一些实施方式中,银行可以构建风控模型,根据客户提供的信息,确定客户对应的风险,根据风险,确定对贷款的审批信息、理财产品的推荐信息等。然而,如果银行客户的特征信息变化较为频繁,且客户数量大、特征种类多,则银行所使用的风控模型在上线后可能存在效果不稳定、指标差异等问题,影响银行机构在风险控制方面做出合理的决策。而本公开实施例提供的方法,根据目标数据的设定周期判断目标数据的稳定性,根据稳定性对目标数据的内容进行替换更新与否的判断。在目标数据为银行客户的特征信息的情况下,本公开实施例提供的方法能够针对不同的特征采用大体统一、个体差异的方式进行更新,且通过对稳定性的判断,能够提高单次数据更新所发挥的作用,提高更新操作的有用性,减少不必要的操作,提高系统整体的稳定性,实现以更少的数据更新消耗实现更高的数据更新价值。
在一种可能的实现方式中,针对不同的目标数据,稳定性的确定函数、计算方式可以存在差异。比如,客户的收入可能对客户的风险产生较大的影响,而客户的住址可能对客户的风险产生较小的影响,则在确定稳定性时,可以对收入数据、住址数据设置不同的稳定性确定方式,或者设置不同的更新执行条件。
在另一种可能的实现方式中,稳定性的确定方式具体可根据客户希望通过目标数据预测的结果进行判断。比如,针对大额贷款,银行方面一般情况下希望尽量降低借贷风险,可以选择牺牲信息更新准确性、提高稳定性的方式,确定稳定性。针对小额贷款,银行方面可能希望相对大额贷款提高收益,则可选择相对而言更准确、但可能导致信息更新频率上升的方式,确定稳定性。
本实施例中,根据稳定性,确定是否对当前内容执行更新操作,可以是在稳定性较高,即目标数据的内容变化不大的情况下,不对当前内容执行更新操作。在稳定性较低,即目标数据的内容变化较大的情况下,确定预更新内容为目标数据最新的内容,即对目标数据的当前内容执行更新操作,采用预更新内容覆盖或替换当前内容。
在一种可能的实现方式中,目标数据可以为目标模型的输入数据,目标数据的内容为输入数据的数值。在目标数据变动较大的情况下,对当前内容执行更新操作,从而保证目标模型的输出数据的准确性。
本实施例中,判断目标数据在设定周期内的变化稳定性,在变化稳定性满足变动量较大的对应的条件的情况下,对目标数据的当前内容执行更新操作,即将目标数据的预更新内容替换或覆盖目标数据的当前内容,否则不执行更新操作,从而能够对目标数据的内容的更新条件进行限制和判断,既保证尽量使用目标数据最新内容的需要,又能够尽量减少不必要的更新操作。尤其是在金融场景下,能够保证针对目标数据的更新操作发挥应有的作用,同时保持目标数据的内容具有适应于金融场景的特性的稳定性。
在一种实施方式中,根据稳定性,确定是否对当前内容执行更新操作,包括:
在稳定性表明目标数据在设定周期内的变动大于预设的变动阈值的情况下,根据预更新内容对目标数据的当前内容执行更新操作。
本实施例中,稳定性可以包括一定的指标,具体可以包括数据、符号等。比如,经过一定的计算,根据目标数据的预更新内容和当前内容得到的稳定性为0或1,其中,稳定性为0则表明目标数据在设定周期内的变动小于预设的变动阈值;稳定性为1则表明目标数据在设定周期内的变动大于预设的变动阈值。
再如,稳定性可以包括0-1之间的数据,越接近1则变动越大,越接近0则变动越小。
在稳定性为数值的情况下,可设置稳定性阈值,在稳定性的数值大于稳定性阈值的情况下,表明目标数据在设定周期内的变动小于预设的变动阈值。反之则表示大于预设的变动阈值。
稳定性也可以包括一个具体的结论,比如稳定性高,稳定性低。
本实施例中,在目标数据变动量较大的情况下,对目标数据的当前内容进行更新操作,即将预更新内容作为目标数据最新的内容,从而使得目标数据的内容能够得到及时且必要的更新。
在一种实施方式中,根据稳定性,确定是否对当前内容执行更新操作,包括:
在稳定性表明目标数据的内容在设定周期内的变动小于预设的变动阈值的情况下,确定按照预更新内容对当前内容执行更新操作。
本实施例中,在目标数据变动较小的情况下,可仍然保留目标数据的当前内容,从而减少不必要的更新操作以保证目标数据的稳定性,在目标数据更新操作涉及大量甚至海量数据的情况下,能够节约信息处理资源,保证信息系统具有较高的稳定性。
在一种实施方式中,目标数据包括目标模型的输入数据,预更新内容包括预更新数值,当前内容包括当前数值;根据设定周期、预更新内容和当前内容,确定目标数据在设定周期内的稳定性,包括:
根据输入数据的第一统计特征、输入数据的第二统计特征和输入数据的相对稳定性指标中的至少一种,确定稳定性;
第一统计特征为预更新数值在设定周期内的统计特征;第二统计特征为当前数值在设定周期内的统计特征;相对稳定性指标为根据预更新数值和当前数值计算得到的。
在一种具体示例中,目标数据包括目标模型的输入数据、目标数据的内容包括目标模型的输入数据的数值,预更新内容包括预更新数值,当前内容包括当前数值;根据设定周期、预更新内容和当前内容,确定目标数据在设定周期内的稳定性,如图2所示,包括:
步骤S21:确定输入数据的预更新数值在设定周期内的第一统计特征;
步骤S22:确定输入数据的当前数值在设定周期内的第二统计特征;
步骤S23:确定输入数据的预更新数值和输入数据的当前数值的相对稳定性指标;
步骤S24:根据第一统计特征、第二统计特征和相对稳定性指标中的至少一种,确定稳定性。
在一种实现方式中,也可以根据输入数的数值前后变化量确定稳定性。输入数据可以包括一种或多种数据,输入数据的内容包括一种或多种数据的数值,输入数据的预更新数值在设定周期内,相对于输入数据的当前数值的变化量,可以包括一项或多项数据的变化量。
比如,输入数据包括a1、a2、a3,输入数据的预更新数值相对于当前数值的变化量,可以包括a1的变化量、a2的变化量、a3的变化量。
本实施例中,第一统计特征和第二统计特征分别可以包括方差、均值、标准差、中位数等中的至少一种。
本实施例中,第一统计特征和第二统计特征可相同,可分别包括至少一个统计特征。比如,第一统计特征可以包括方差、均值、标准差、中位数等。第二统计特征也可以包括方差、标准差、均值、中位数等。
在一种可能的实现方式中,更新方法可以应用于对用户群体的目标数据进行更新,相对稳定性指标可以是群体稳定性指标。
在一种可能的实现方式中,第一统计特征和第二统计特征包括多种的情况下,每种特征满足稳定性高或者稳定性低的阈值要求的情况下,可得出目标数据在设定周期内的变动小于或大于预设的变动阈值的判定结果。
比如,第一统计特征、第二统计特征均包括三个子特征,则这三个子特征均满足对应的阈值要求的情况下,可认为稳定性表明目标数据在设定周期内的变动小于或大于预设的变动阈值。
本实施例中,通过统计特征对目标数据的稳定性进行衡量,从而能够对目标数据的内容在设定周期内的变化情况进行准确的掌握。
在一种实施方式中,目标数据包括目标模型,预更新内容包括预更新模型结构,当前内容包括当前模型结构;根据设定周期、预更新模型结构和当前模型结构,确定目标数据在设定周期内的稳定性,包括:
确定预更新模型结构与当前结构的差异信息;
根据差异信息,确定稳定性。
在目标数据包括目标模型的情况下,目标数据的内容可以为目标模型的结构,设定周期可以为用于更新模型的设定周期,该周期可以为可变周期。针对目标数据包括目标模型的情况,设定周期可以为一个不确定时长的时间间隔。
在具体实现方式中,目标模型的结构,可以包括目标模型的参数、目标模型的函数、目标模型的层结构中的至少一种。
如果目标模型的输入数据种类发生变化,需要对目标模型进行重新训练,以得到新的模型内部的可变参数。
如果目标模型本身的结构被改动,以用于对新的输入数据进行预测,则目标模型可能发生函数变化或者层结构变化。
本实施例中,在目标模型的预更新模型结构和当前模型结构之间的变化量较大的情况下,对目标模型进行更新,从而能够及时对不再使用的旧的模型结构进行替换,或者在变动不大的情况下,保持目标模型原有模型结构,以维持信息系统的稳定性。
在一种实施方式中,信息更新方法还包括:
在根据稳定性,确定对目标数据的内容执行更新操作的情况下,基于预更新模型结构,对目标模型的输入数据执行更新操作。
对目标模型的输入数据执行更新操作,可包括更新输入数据的种类或者更新输入数据的数值。
一般情况下,目标模型发生变化,则意味着目标模型的输入数据的种类或者至少数值发生变化,从而在更新目标模型的结构的情况下,同时对目标模型的输入数据进行更新,保证新的目标模型的可用性。
在一种实施方式中,确定目标模型更新后的结构与目标模型更新前的结构的差异,包括:
确定预更新模型结构的目标指数和当前模型结构的目标指数;目标指数包括分类器性能指数和区分度指数中至少一个;
根据目标指数,确定差异信息。
本实施例中,分类器性能指数可以是用于判断模型作为分类器的性能好坏的指数。比如,AUC(Area Under Curve,曲线下面积)。AUC被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC(Receiver Operating CharacteristicCurve,接受者操作特性曲线)曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。在一种具体实现方式中,AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
本实施例中,区分度指数可以是KS指数。KS(Kolmogorov-Smirnov)统计量由两位苏联数学家A.N.Kolmogorov和N.V.Smirnov提出。在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。在具体实现方式张,KS统计量可以基于经验累积分布函数(Empirical Cumulative Distribution Function,ECDF)建立。
在一种具体的实现方式中,目标模型的预更新模型结构的分类器性能指数大于目标模型的当前模型结构的分类器性能指数,且目标模型的预更新模型结构的区分度指数大于目标模型的当前模型结构的区分度指数,则可认为稳定性表明目标数据在设定周期内的变动大于预设的变动阈值。
在一种具体的实现方式中,预更新结构和当前结构之间的差异,还可通过随机森林或GDBT(Gradient Boosting Decision Tree,梯度增强决策树)等方法确定。
本实施例通过分类器性能指数和区分度指数标注目标模型的预更新模型结构和的当前模型结构之间的差异,从而能够将模型结构变化量化,便于对目标模型在设定周期内的稳定性进行判断。
在一种具体示例中,更新方法可以用于更新银行客户的数据。在一种具体实施方式中,银行客户的数据按设定周期可分为以下几类:
设定周期 | 特征 |
年 | 年龄、性别、学历、职业 |
月 | 交易流水、还款记录 |
日 | 消费金额、余额、收益 |
表1
表1中的特征,即本公开前述实施例中的目标数。如图每个特征设置一个状态位,当前线上使用的版本为“在线版”。如图3所示,每类特征出现更新的数值后,不会立刻替换在线版,而是设置状态为“离线版”。针对离线版特征计算稳定性指标,比如覆盖率、方差、分位数、根据离线版特征(即预更新特征数值)和在线版特征(即当前特征数值)确定的PSI(Population Stability Index,群体稳定性指标)等指标。在本示例中,只有全部指标符合一定阈值才能替换在线版特征的当前特征数值,否则需要重新计算或丢弃。替换在线版特征的当前特征数值后,原来的在线版特征的当前特征数值状态变为“下线版”,后续不再使用。比如,仍然参照图3,在特征出现更新的数值(即预更新特征)之后,将当前特征数值作为在线特征31数值,将预更新特征数值作为离线特征32数值,据此进行特征校验33。根据是否存在更新后的特征的数值的与更新前的特征的数值的覆盖率差异<1%、方差差异<1%,且预更新特征数值与当前特征数值是否满足PSI<0.1,判断是否校验通过。若是则确定预更新特征数值稳定性较高,执行特征替换:使用预更新特征数值替换当前特征数值。否则执行重新生成:重新在下一设定周期获取特征的更新后的数值,并再次重复特征判断等操作。
在一种具体实现方式中,用于对特征进行计算,生成客户相关的预测数的模型也有一个状态位,即目标数据也包括模型。如图4所示,当前线上的模型版本可记录为“在线版”,即图4中的第一模型,迭代后设置状态为“离线版”,即图4中的第二模型。
使用在线版特征在第一模型和第二模型中测试,进行预测评估,如果第二模型的AUC和KS均高于第一模型,则使用更新后的第二模型替换第一模型,即将更新后的模型作为线版模型,否则丢弃第二模型。
在图4所示的示例中,第一模型可以为采用第一模型的特征和第一模型的样本进行LR(Logistic Regression,逻辑回归)训练得到的。将第一模型的样本和第二模型的新增样本(预更新样本)结合为第二模型的样本。第二模型可以为采用第二模型的特征和第二模型的样本进行LR训练得到的。通过本公开示例,能够实现客户的特征和模型迭代更新的有效管控。
图4所示的示例中,模型特征可以是类别,比如年龄、身高等信息或数,而样本可以是具体内容,比如男、女、12岁、15岁等。
通过本同开示例提供的方法,将特征按更新频率分类,设置可上线版本(预更新版本),确保该版本的特征分布一致。模型迭代采用增量更新,确保新模型在新旧样本(当前样本)上的指标均有提升。同时,管理方便,可以确保线上模型效果在长时间段内保持稳定。
本公开实施例还提供一种信息更新装置,如图5所示,包括:
更新内容获得模块51,用于根据设定周期,确定目标数据的预更新内容;预更新内容为在对目标数据执行更新操作时用于替换目标数据的当前内容的内容;
稳定性确定模块52,用于根据设定周期、预更新内容和当前容,确定目标数据在设定周期内的稳定性;
当前内容确定模块53,用于根据稳定性,确定是否对当前内容执行更新操作。
在一种实施方式中,如图6所示,当前内容确定模块包括:
第一处理单元61,用于在稳定性表明目标数据在设定周期内的变动大于预设的变动阈值的情况下,确定按照预更新内容对当前内容执行更新操作。
在一种实施方式中,如图7所示,当前内容确定模块包括:
第二处理单元71,用于在稳定性表明目标数据在设定周期内的变动小于预设的变动阈值的情况下,确定不对当前内容执行更新操作。
在一种实施方式中,目标数据包括目标模型的输入数据,预更新内容包括预更新数值,当前内容包括当前数值;如图8所示,稳定性确定模块包括:
第一统计特征单元81,用于确定预更新数值在设定周期内的第一统计特征;
第二统计特征单元82,用于确定当前数值在设定周期内的第二统计特征;
稳定性指标单元83,用于确定预更新数值和当前数值的相对稳定性指标;
统计特征处理单元84,用于根据第一统计特征、第二统计特征和相对稳定性指标中的至少一种,确定稳定性。
在一种实施方式中,目标数据包括目标模型,目标数据的内容包括预更新结构,当前内容包括当前模型结构;如图9所示,稳定性确定模块包括:
结构差异单元91,用于确定预更新模型结构与当前模型结构的差异信息;
结构差异处理单元92,用于根据结构的差异信息,确定稳定性。
在一种实施方式中,如图10所示,信息更新装置还包括:
模型输入模块101,用于在根据稳定性,确定对目标数据的内容执行更新操作的情况下,基于预更新模型结构,对目标模型的输入数据执行更新操作。
在一种实施方式中,结构差异单元还用于:
确定预更新模型结构的目标指数和当前模型结构的目标指数;目标指数包括分类器性能指数和区分度指数中至少一个;
根据目标指数,确定差异。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备110的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备110包括计算单元111,其可以根据存储在只读存储器(ROM)112中的计算机程序或者从存储单元118加载到随机访问存储器(RAM)113中的计算机程序,来执行各种适当的动作和处理。在RAM 113中,还可存储设备110操作所需的各种程序和数据。计算单元111、ROM 112以及RAM 113通过总线114彼此相连。输入/输出(I/O)接口115也连接至总线114。
设备110中的多个部件连接至I/O接口115,包括:输入单元116,例如键盘、鼠标等;输出单元117,例如各种类型的显示器、扬声器等;存储单元118,例如磁盘、光盘等;以及通信单元119,例如网卡、调制解调器、无线通信收发机等。通信单元119允许设备110通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元111可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元111的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元111执行上文所描述的各个方法和处理,例如信息更新方法。例如,在一些实施例中,信息更新方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元118。在一些实施例中,计算机程序的部分或者全部可以经由ROM 112和/或通信单元119而被载入和/或安装到设备110上。当计算机程序加载到RAM 113并由计算单元111执行时,可以执行上文描述的信息更新方法的一个或多个步骤。备选地,在其他实施例中,计算单元111可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息更新方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种信息更新方法,包括:
根据设定周期,确定目标数据的预更新内容;所述预更新内容用于在对目标数据执行更新操作时替换所述目标数据的当前内容;
根据所述设定周期、所述预更新内容和所述当前内容,确定所述目标数据在所述设定周期内的稳定性;
根据所述稳定性,确定是否对所述当前内容执行所述更新操作。
2.根据权利要求1所述的方法,其中,所述根据所述稳定性,确定是否对所述当前内容执行所述更新操作,包括:
在所述稳定性表明所述目标数据的内容在所述设定周期内的变动大于预设的变动阈值的情况下,确定按照所述预更新内容对所述当前内容执行更新操作;和/或
在所述稳定性表明所述目标数据的内容在所述设定周期内的变动小于预设的变动阈值的情况下,确定不对所述当前内容执行所述更新操作。
3.根据权利要求1或2所述的方法,其中,所述目标数据包括目标模型的输入数据,所述预更新内容包括预更新数值,所述当前内容包括当前数值;所述根据所述设定周期、所述预更新内容和所述当前内容,确定所述目标数据在所述设定周期内的稳定性,包括:
根据第一统计特征、第二统计特征和相对稳定性指标中的至少一种,确定所述稳定性;
所述第一统计特征为所述预更新数值在所述设定周期内的统计特征;所述第二统计特征为所述当前数值在所述设定周期内的统计特征;所述相对稳定性指标为根据所述预更新数值和所述当前数值计算得到的。
4.根据权利要求1或2所述的方法,其中,所述目标数据为目标模型,所述预更新内容包括预更新模型结构,所述当前内容包括当前模型结构;所述根据所述设定周期、所述预更新内容和所述当前内容,确定所述目标数据在所述设定周期内的稳定性,包括:
确定所述预更新模型结构与所述当前模型结构的差异信息;
根据所述差异信息,确定所述稳定性。
5.根据权利要求4所述的方法,还包括:
在根据所述稳定性,确定执行所述更新操作的情况下,基于所述预更新模型结构,对所述目标模型的输入数据执行更新操作。
6.根据权利要求4或5所述的方法,其中,所述确定所述预更新模型结构与所述当前模型结构的差异信息,包括:
确定所述预更新模型结构的目标指数和所述当前模型结构的目标指数;所述目标指数包括分类器性能指数和区分度指数中至少一个;
根据所述目标指数,确定所述差异。
7.一种更新装置,包括:
更新内容获得模块,用于根据设定周期,确定目标数据的预更新内容;所述预更新内容用于在对目标数据执行更新操作时替换所述目标数据的当前内容;
稳定性确定模块,用于根据所述设定周期、所述预更新内容和所述当前内容,确定所述目标数据在所述设定周期内的稳定性;
当前内容确定模块,用于根据所述稳定性,确定是否对所述目标数据的内容执行所述更新操作。
8.根据权利要求7所述的装置,其中,所述当前内容确定模块包括:
第一处理单元,用于在所述稳定性表明所述目标数据的内容在所述设定周期内的变动大于预设的变动阈值的情况下,确定按照所述预更新内容对所述当前内容执行更新操作;和/或
第二处理单元,用于在所述稳定性表明所述目标数据的内容在所述设定周期内的变动小于预设的变动阈值的情况下,确定不对所述当前内容执行更新操作。
9.根据权利要求7或8所述的装置,其中,所述目标数据包括目标模型的输入数据,所述预更新内容包括预更新数值,所述当前内容包括当前数值;所述稳定性确定模块包括:
第一统计特征单元,用于确定所述预更新数值在所述设定周期内的第一统计特征;
第二统计特征单元,用于确定所述当前数值在所述设定周期内的第二统计特征;
稳定性指标单元,用于确定所述预更新数值和所述当前数值的相对稳定性指标;
统计特征处理单元,用于根据所述第一统计特征、所述第二统计特征和所述相对稳定性指标中的至少一种,确定所述稳定性。
10.根据权利要求7或8所述的装置,其中,所述目标数据包括目标模型,所述预更新内容包括预更新模型结构,所述当前内容包括当前模型结构;所述稳定性确定模块包括:
结构差异单元,用于确定所述预更新模型结构与所述当前模型结构的差异信息;
结构差异处理单元,用于根据所述差异信息,确定所述稳定性。
11.根据权利要求10所述的装置,其中,所述装置还包括:
模型输入模块,用于在根据所述稳定性,确定对所述目标数据的内容执行更新操作的情况下,基于所述预更新模型结构,对所述目标模型的输入数据执行更新操作。
12.根据权利要求10或11所述的装置,其中,所述结构差异单元还用于:
确定所述预更新模型结构的目标指数和所述当前模型结构的目标指数;所述目标指数包括分类器性能指数和区分度指数中至少一个;
根据所述目标指数,确定所述差异。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210162062.7A CN115168369A (zh) | 2022-02-22 | 2022-02-22 | 信息更新方法、装置、电子设备和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210162062.7A CN115168369A (zh) | 2022-02-22 | 2022-02-22 | 信息更新方法、装置、电子设备和计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115168369A true CN115168369A (zh) | 2022-10-11 |
Family
ID=83475785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210162062.7A Pending CN115168369A (zh) | 2022-02-22 | 2022-02-22 | 信息更新方法、装置、电子设备和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115168369A (zh) |
-
2022
- 2022-02-22 CN CN202210162062.7A patent/CN115168369A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112734559B (zh) | 企业信用风险评价方法、装置及电子设备 | |
US8694427B2 (en) | Time-efficient and deterministic adaptive score calibration techniques for maintaining a predefined score distribution | |
WO2020168851A1 (zh) | 行为识别 | |
CN111340611A (zh) | 一种风险预警方法和装置 | |
CN113312578B (zh) | 一种数据指标的波动归因方法、装置、设备、及介质 | |
CN110796485A (zh) | 一种提高预测模型的预测精度的方法及装置 | |
CN116739742A (zh) | 信贷风控模型的监控方法、装置、设备及存储介质 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN115168369A (zh) | 信息更新方法、装置、电子设备和计算机存储介质 | |
CN114021642A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN115563310A (zh) | 一种关键业务节点的确定方法、装置、设备及介质 | |
CN114781937A (zh) | 一种预付卡企业风险预警方法和装置以及存储介质 | |
CN111951011B (zh) | 监控系统阈值确定方法及装置 | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN114139798A (zh) | 企业风险预测方法、装置及电子设备 | |
CN113469374B (zh) | 数据预测方法、装置、设备及介质 | |
CN114547448B (zh) | 数据处理、模型训练方法、装置、设备、存储介质及程序 | |
US20230409984A1 (en) | Information processing device, method, and medium | |
EP4134834A1 (en) | Method and apparatus of processing feature information, electronic device, and storage medium | |
TWI657393B (zh) | 行銷客群預測系統及其方法 | |
CN116167846A (zh) | 校准方法、装置、电子设备及计算机可读存储介质 | |
CN117391490A (zh) | 金融业务的评价信息处理方法、装置和计算机设备 | |
CN117635317A (zh) | 物品迁移信息的确定方法、装置、电子设备及存储介质 | |
CN115526403A (zh) | 一种金融数据的预测方法、系统、设备、存储介质及产品 | |
CN117036003A (zh) | 基于手机软件安装信息的个人信贷风险预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |