CN111352833B - 推荐系统的测试方法、装置、设备和计算机存储介质 - Google Patents

推荐系统的测试方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN111352833B
CN111352833B CN202010112380.3A CN202010112380A CN111352833B CN 111352833 B CN111352833 B CN 111352833B CN 202010112380 A CN202010112380 A CN 202010112380A CN 111352833 B CN111352833 B CN 111352833B
Authority
CN
China
Prior art keywords
version
strategy
recommendation
test
diff analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010112380.3A
Other languages
English (en)
Other versions
CN111352833A (zh
Inventor
王丽娜
王峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010112380.3A priority Critical patent/CN111352833B/zh
Publication of CN111352833A publication Critical patent/CN111352833A/zh
Application granted granted Critical
Publication of CN111352833B publication Critical patent/CN111352833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3664Environments for testing or debugging software

Abstract

本申请公开了一种推荐系统的测试方法、装置、设备和计算机存储介质,涉及智能搜索领域。具体实现方案为:在相同的至少两个推荐系统上分别部署推荐策略的第一版本,并对被测对象进行差异化(diff)分析,依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化,直至测试环境可信;其中被测对象包括推荐系统或推荐系统中的被测模块;在至少两个推荐系统上分别部署推荐策略的第二版本,并对被测对象进行diff分析,依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化,直至测试环境可信;在至少两个推荐系统上分别部署推荐策略的第一版本和第二版本,并对被测对象进行diff分析,得到对被测对象的测试结果。

Description

推荐系统的测试方法、装置、设备和计算机存储介质
技术领域
本申请涉及计算机应用技术领域,特别涉及智能搜索领域的推荐系统的测试方法、装置、设备和计算机存储介质。
背景技术
推荐系统是现在热门的人工智能分支之一,是依靠强大而复杂的推荐策略和算法来支撑的。当推荐系统有升级的推荐策略上线时,需要针对升级前后的推荐系统进行推荐结果的比对,给出测试结果。但由于推荐系统中随机策略的存在,难以判断推荐效果的变化是否是由本次升级导致的,从而造成测试结果的置信度较低。
发明内容
有鉴于此,本申请提供了一种推荐系统的测试方法、装置、设备和计算机存储介质,以便于提高测试结果的置信度。
第一方面,本申请提供了一种推荐系统的测试方法,该方法包括:
在相同的至少两个推荐系统上分别部署推荐策略的第一版本,并对被测对象进行diff分析,依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化,直至所述测试环境可信;
在所述至少两个推荐系统上分别部署推荐策略的第二版本,并对所述被测对象进行diff分析,依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化,直至所述测试环境可信;以及
在所述至少两个推荐系统上分别部署推荐策略的第一版本和第二版本,并对被测对象进行diff分析,得到对所述被测对象的测试结果;
其中所述被测对象包括推荐系统或推荐系统中的被测模块。
根据本申请一优选实施方式,所述diff分析包括:
向所述至少两个推荐系统同时发送相同的请求;
确定所述至少两个被测对象的输出结果的一致率或差异率。
根据本申请一优选实施方式,所述依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化,包括:
若diff分析结果符合预期,则确定测试环境可信,否则对测试环境中的随机策略进行排查和固化。
根据本申请一优选实施方式,所述对测试环境中的随机策略进行排查和固化,包括:
提示当前测试环境不可信,以便用户依据所述推荐系统的请求处理日志对不合理的随机策略进行排查;
依据所述排查的结果,关闭不合理的随机策略并固化合理的随机策略。
根据本申请一优选实施方式,所述固化合理的随机策略包括:
将合理的随机策略所采用的随机种子设置为固定值。
根据本申请一优选实施方式,得到对所述被测对象的测试结果包括:
判断所述被测对象的diff分析结果是否符合预期,如果是,则确定从第一版本至第二版本的变更通过测试,否则确定从第一版本至第二版本的变更未通过测试;或者,
判断所述被测对象中各推荐策略阶段的diff分析结果,若从第一版本变更至第二版本的推荐策略之前阶段的diff分析结果以及从第一版本变更至第二版本的推荐策略阶段的diff分析结果均符合预期,则确定从第一版本至第二版本的变更通过测试;若第一版本变更至第二版本的推荐策略之前阶段的diff分析结果不符合预期或者从第一版本变更至第二版本的推荐策略阶段的diff分析结果不符合预期,则确定从第一版本至第二版本的变更未通过测试;或者,
依据所述被测对象的diff分析结果确定推荐策略从所述第一版本至第二版本的变更对推荐效果的影响程度。
第二方面,本申请提供了一种推荐系统的测试装置,该装置包括:
第一测试单元,用于在相同的至少两个推荐系统上分别部署推荐策略的第一版本,并对被测对象进行diff分析;
排查固化单元,用于依据所述第一测试单元的diff分析结果确定是否对测试环境中的随机策略进行排查和固化,直至所述测试环境可信;
第二测试单元,用于在所述至少两个推荐系统上分别部署推荐策略的第二版本,并对所述被测对象进行diff分析;
所述排查固化单元,还用于依据所述第二测试单元的diff分析结果确定是否对测试环境中的随机策略进行排查和固化,直至所述测试环境可信;
第三测试单元,用于在所述至少两个推荐系统上分别部署推荐策略的第一版本和第二版本,并对被测对象进行diff分析,得到对所述被测对象的测试结果;
其中所述被测对象包括推荐系统或推荐系统中的被测模块。
根据本申请一优选实施方式,所述diff分析包括:
向所述至少两个推荐系统同时发送相同的请求;
确定所述至少两个被测对象的输出结果的一致率或差异率。
根据本申请一优选实施方式,所述排查固化单元在依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化时,具体执行:
若diff分析结果符合预期,则确定测试环境可信,否则对测试环境中的随机策略进行排查和固化。
根据本申请一优选实施方式,所述排查固化单元在对测试环境中的随机策略进行排查和固化时,具体执行:
提示当前测试环境不可信,以便用户依据所述推荐系统的请求处理日志对不合理的随机策略进行排查;
依据所述排查的结果,关闭不合理的随机策略并固化合理的随机策略。
根据本申请一优选实施方式,所述排查固化单元在固化合理的随机策略时,具体执行:
将合理的随机策略所采用的随机种子设置为固定值。
根据本申请一优选实施方式,所述第三测试单元,具体用于:
判断所述被测对象的diff分析结果是否符合预期,如果是,则确定从第一版本至第二版本的变更通过测试,否则确定从第一版本至第二版本的变更未通过测试;或者,
判断所述被测对象中各推荐策略阶段的diff分析结果,若从第一版本变更至第二版本的推荐策略之前阶段的diff分析结果以及从第一版本变更至第二版本的推荐策略阶段的diff分析结果均符合预期,则确定从第一版本至第二版本的变更通过测试;若第一版本变更至第二版本的推荐策略之前阶段的diff分析结果不符合预期或者从第一版本变更至第二版本的推荐策略阶段的diff分析结果不符合预期,则确定从第一版本至第二版本的变更未通过测试;或者,
依据所述被测对象的diff分析结果确定推荐策略从所述第一版本至第二版本的变更对推荐效果的影响程度。
第三方面,本申请提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
第四方面,本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上任一项所述的方法。
由以上技术方案可以看出,本申请在对被测对象进行推荐策略的第一版本和第二版本的diff分析之前,先通过对随机策略的排查和固化使得测试环境可信,尽可能降低随机策略对测试效果的影响,提高测试结果的置信度。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的方法流程图;
图2a~图2c分别为本申请实施例提供的AAdiff、BBdiff和ABdiff的示意图;
图3为本申请实施例提供的各推荐策略阶段的diff分析结果的实例图;
图4为本申请实施例提供的同时对推荐系统的输出和变更模块的输出进行diff分析的示意图;
图5为本申请实施例提供的推荐系统的测试装置结构示意图;
图6是用来实现本申请实施例的推荐系统的测试方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请适用于推荐系统的效果测试,可以进行系统级的测试,也可以进行模块级的测试。也即是说,被测对象可以是整个推荐系统,也可以是推荐系统中的一个或多个被测模块。具体地,当推荐系统中的某个或某些模块上部署的推荐策略升级后,需要对推荐策略升级后的效果进行测试。但在传统的测试过程中,由于随机策略的存在往往会使得测试效果受到随机策略的影响,使得测试结果的置信度较低。针对这一问题,本申请的核心思想就在于,在对被测对象进行测试之前首先通过对随机策略的排查和固化使得测试环境可信,尽可能降低随机策略对测试效果的影响。下面结合实施例对本申请进行详细描述。
图1为本申请实施例提供的方法流程图,本实施例中以被测对象为推荐系统为例,如图1中所示,该方法可以包括以下步骤:
在101中,在相同的两个推荐系统上分别部署推荐策略的第一版本并进行diff(差异化)分析。
上述至少两个推荐系统包含完全相同的模块,鉴于本申请的推荐系统的效果测试为软件测试,因此对于推荐系统所运行的硬件环境并不加以限制。为了保证测试的准确性,尽量运行于相同的硬件环境。
第一版本可以是推荐策略的主干版本,也可以是推荐策略升级之前的版本。需要说明的是,本申请中涉及的“第一版本”、“第二版本”中的“第一”和“第二”并非数量、具体数字和顺序上的含义,而是仅用于区分两个不同版本。
本申请实施例中以两个推荐系统为例,在相同的推荐系统之上布设相同的第一版本的推荐策略,保证两个推荐系统对应的测试环境一致。在本申请实施例中,将在这种情况下的diff分析表示为AAdiff。当然,也可以在多于两个的推荐系统上进行diff分析。
进行diff分析时,向上述两个推荐系统同时发送相同的请求,推荐系统在接收到请求后,其输出结果通常为推荐的资源。然后确定两个推荐系统的输出结果的一致率或差异率。其中在确定输出结果的一致率或差异率时,同时考虑输出的资源以及资源的位置(顺序)。
向两个推荐系统可以分别发送一个请求,也可以发送多个请求后求各请求对应diff结果的整合值。以一致率为例,如图2a中所示,假设向两个推荐系统分别发送10条请求,第一条请求两个推荐系统都输出10个资源,有6个资源的标识和位置均相同,那么该第一条请求对应的一致率为
Figure BDA0002390478130000071
第二条请求两个推荐系统都输出12个资源,有10个资源的标识和位置均相同,那么该第二条请求对应的一致率为
Figure BDA0002390478130000072
以此类推,确定出10条请求分别对应的一致率然后进行诸如求平均、取中值等整合处理,得到最终AAdiff得到的一致率。
在102中,依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化,如果是,执行103;否则执行104。
具体地,如果diff分析结果符合预期,则确定测试环境可信,执行104;否则确定测试环境不可信,需要对测试环境中的随机策略进行排查和固化。
以diff分析结果为一致率为例,如果一致率达到预设的预期值,则确定测试环境可信。其中预期值可以依据具体的业务需求或者实验值、经验值等进行设置。例如设置为90%。
在103中,对测试环境中的随机策略进行排查和固化,转至执行101中的diff分析,直至测试环境可信后执行104。
本步骤是本申请的核心处理之一,旨在消除测试环境中对测试效果产生影响的随机策略。具体地,在本实施例中,可以提示当前测试环境不可信,例如向用户(即测试人员)返回提示信息,提示当前测试环境不可信。用户获取到该提示信息后,可以依据推荐系统的请求处理日志对不合理的随机策略进行排查。在上述步骤101和102的测试过程中,记录有推荐系统的请求处理日志,测试人员可以通过对请求处理日志进行分析,确定出影响一致性的随机策略。其中对于影响一致性的随机策略可以进一步评估其合理性,对于不合理的随机策略可以直接关闭,即进行下线处理。对于合理的随机策略则可以进行固化处理。
其中,为了实现随机策略的关闭和打开,即是否使得随机策略在推荐系统工作过程中进行作用,可以在推荐系统的配置文件中配置随机策略的打开和关闭。
其中,对于合理的随机策略在进行固化处理时,可以将合理的随机策略所采用的随机种子设置为固定值,例如可以通过srand()函数将随机种子设置为请求中cuid的hash(哈希)值。
进行随机策略的排查和固化后,重新执行AAdiff,若AAdiff的分析结果符合预期,例如一致率超过90%,则说明测试环境可信;否则继续进行随机策略的排查和固化,直至测试环境可信,即AAdiff的分析结果符合预期。
在104中,在上述两个推荐系统上分别部署推荐策略的第二版本并进行diff分析。
在经过上述101~103步骤后得到的可信测试环境下,在两个推荐系统上分别部署推荐策略的第二版本。第二版本可以是推荐策略升级之后的提测版本。本步骤中进行的diff分析在本实施例中可以表示为BBdiff,其目的是为了确定推荐策略的本次升级是否引入新的、对测试效果产生影响的随机策略。
在进行BBdiff时,向上述两个推荐系统同时发送相同的请求,推荐系统在接收到请求后,其输出结果通常为推荐的资源。然后确定两个推荐系统的输出结果的一致率或差异率。其中在确定输出结果的一致率或差异率时,需要同时考虑输出的资源以及资源的位置(顺序)。如图2b中所示。
在105中,依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化,如果是,执行106;否则执行107。
如果diff分析结果不符合预期,例如一致率低于90%,则说明本次升级引入了新的随机策略,导致测试环境不可信,需要再次对测试环境中的随机策略进行排查和固化。
在106中,对测试环境中的随机策略进行排查和固化,转至执行104中的diff分析,直至测试环境可信后执行107。
步骤105~106的处理与步骤102~103的处理相似,在此不做赘述。
在107中,在上述两个推荐系统上分别部署推荐策略的第一版本和第二版本并进行diff分析,得到对推荐系统的测试结果。
本步骤中,在106之后得到的可信测试环境基础上,在两个推荐系统上一个部署推荐策略的第一版本,另一个部署推荐策略的第二版本,然后进行diff分析,本实施例中表示为ABdiff,如图2c中所示。
本步骤中可以根据具体的升级内容来进行diff分析。有些升级内容是对推荐系统的推荐结果产生很小影响的,例如推荐策略的架构升级、微小的推荐策略迭代等,那么可以依据diff分析结果,判断一致率或差异率等是否符合预期(例如一致率超过预设的一致率阈值),如果是,则认为推荐系统的本次推荐策略升级通过测试,否则认为推荐系统的本次推荐策略升级未通过测试。
而有些升级内容是对推荐系统的推荐结果产生较大影响的,例如增加了推荐策略,调整了推荐策略的权重等,那除了依据整个推荐系统输出结果的diff分析结果,判断一致率或差异率等是否符合预期(例如一致率在预设的一致率范围之内)之外,可以进一步依据推荐系统中各推荐策略阶段的diff分析结果,评估推荐策略的效果是否符合预期。若在升级的推荐策略之前阶段的diff分析结果以及升级的推荐策略阶段的diff分析结果均符合预期,则本次推荐策略升级通过测试。若升级的推荐策略之前阶段的diff分析结果不符合预期,或者升级的推荐策略阶段的diff分析结果不符合预期,则本次推荐策略升级未通过测试。
举个例子,如图3中所示的各推荐策略阶段的diff分析结果,各阶段从前到后分别为:召回策略1、召回策略2、过滤策略1、过滤策略2、多样性策略1、出口策略2,对应的diff分析的一致率分别为:100%、100%、97.5%、70%、40%、40%。
如果本次升级的推荐策略为过滤策略2,那么从图3所示的diff分析结果上来看,之前各阶段的一致率均超过90%,符合预期,是从过滤策略2才引入的差异,且过滤策略2引入的差异也在预期的范围内,则认为本次升级的测试通过。
如果本次升级的推荐策略为多样性策略1,但在多样性策略1之前的过滤策略2阶段的一致率就不符合预期(低于90%),则认为本次升级的测试未通过。
在上述实施例中,被测对象以推荐系统为例,除此之外,被测对象还可以是推荐系统中的一个或多个模块。还存在一种测试场景,同时对推荐系统的输出和其中一个或多个模块的输出进行diff分析。
如图4中所示,若模块2中涉及推荐策略的升级,那么采用本申请提供的方法涉及的各步骤的diff分析,可以包括对推荐系统整体输出的推荐结果的diff,即系统出口diff,还可以包括模块2的输出结果的diff,即变更模块diff。
除了上述形式的结果之外,很多情况下仅仅需要对推荐策略本次升级的效果或影响面等进行评估,因此,还可以依据被测对象的diff分析结果确定推荐策略的升级对推荐效果的影响程度。
通过以上的方法流程,AAdiff是将环境由不可信变为可信的过程,BBdiff是为了保证推荐策略的新版本上线后对AAdiff不产生影响,或者影响在可控范围内(也就是环境的可信),ABdiff是对实际效果的评估测试过程。
以上是对本申请所提供的方法进行的详细描述,下面结合实施例对本申请提供的装置进行详细描述。
图5为本申请实施例提供的推荐系统的测试装置结构示意图,如图5中所示,该装置可以包括:第一测试单元01、排查固化单元02、第二测试单元03以及第三测试单元04。其中各组成单元的主要功能如下:
第一测试单元01负责在相同的至少两个推荐系统上分别部署推荐策略的第一版本,并对被测对象进行diff分析;其中被测对象包括推荐系统或推荐系统中的被测模块。
排查固化单元02负责依据第一测试单元01的diff分析结果确定是否对测试环境中的随机策略进行排查和固化,直至测试环境可信。
第二测试单元03负责在至少两个推荐系统上分别部署推荐策略的第二版本,并对被测对象进行diff分析。
排查固化单元02进一步依据第二测试单元03的diff分析结果确定是否对测试环境中的随机策略进行排查和固化,直至测试环境可信。
第三测试单元04负责在至少两个推荐系统上分别部署推荐策略的第一版本和第二版本,并对被测对象进行diff分析,得到对被测对象的测试结果。
其中,上述的diff分析包括:向至少两个推荐系统同时发送相同的请求;确定至少两个被测对象的输出结果的一致率或差异率。其中,可以向至少两个推荐系统同时发送一个相同请求,也可以发送多个请求后求各请求对应的diff结果的整合值。
具体地,排查固化单元02在依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化时,若diff分析结果符合预期,则确定测试环境可信,否则对测试环境中的随机策略进行排查和固化。
排查固化单元02在对测试环境中的随机策略进行排查和固化时,可以提示当前测试环境不可信,以便用户(即测试人员)依据推荐系统的请求处理日志对不合理的随机策略进行排查;依据排查的结果,关闭不合理的随机策略并固化合理的随机策略。
其中,为了实现随机策略的关闭和打开,即是否使得随机策略在推荐系统工作过程中进行作用,可以在推荐系统的配置文件中配置随机策略的打开和关闭。
其中,排查固化单元02在固化合理的随机策略时,可以将合理的随机策略所采用的随机种子设置为固定值。例如可以通过srand()函数将随机种子设置为请求中cuid的hash(哈希)值。
第三测试单元04,具体用于判断所述被测对象的diff分析结果是否符合预期,如果是,则确定从第一版本至第二版本的变更通过测试,否则确定从第一版本至第二版本的变更未通过测试;或者,
判断所述被测对象中各推荐策略阶段的diff分析结果,若从第一版本变更至第二版本的推荐策略之前阶段的diff分析结果以及从第一版本变更至第二版本的推荐策略阶段的diff分析结果均符合预期,则确定从第一版本至第二版本的变更通过测试;若第一版本变更至第二版本的推荐策略之前阶段的diff分析结果不符合预期或者从第一版本变更至第二版本的推荐策略阶段的diff分析结果不符合预期,则确定从第一版本至第二版本的变更未通过测试;或者,
依据所述被测对象的diff分析结果确定推荐策略从所述第一版本至第二版本的变更对推荐效果的影响程度。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的推荐系统的测试方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的推荐系统的测试方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的推荐系统的测试方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的推荐系统的测试方法对应的程序指令/模块。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的推荐系统的测试方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
该电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与该电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (10)

1.一种推荐系统的测试方法,其特征在于,该方法包括:
在相同的至少两个推荐系统上分别部署推荐策略的第一版本,并对被测对象进行diff分析,依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化,直至所述测试环境可信;
在所述至少两个推荐系统上分别部署推荐策略的第二版本,并对所述被测对象进行diff分析,依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化,直至所述测试环境可信;以及
在所述至少两个推荐系统上分别部署推荐策略的第一版本和第二版本,并对被测对象进行diff分析,得到对所述被测对象的测试结果;
其中所述被测对象包括所述推荐系统或所述推荐系统中的被测模块;其中,
所述依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化,包括:
若diff分析结果符合预期,则确定测试环境可信,否则对测试环境中的随机策略进行排查和固化;
所述得到对所述被测对象的测试结果,包括:
判断所述被测对象的diff分析结果是否符合预期,如果是,则确定从第一版本至第二版本的变更通过测试,否则确定从第一版本至第二版本的变更未通过测试;或者,
判断所述被测对象中各推荐策略阶段的diff分析结果,若从第一版本变更至第二版本的推荐策略之前阶段的diff分析结果以及从第一版本变更至第二版本的推荐策略阶段的diff分析结果均符合预期,则确定从第一版本至第二版本的变更通过测试;若第一版本变更至第二版本的推荐策略之前阶段的diff分析结果不符合预期或者从第一版本变更至第二版本的推荐策略阶段的diff分析结果不符合预期,则确定从第一版本至第二版本的变更未通过测试;或者,
依据所述被测对象的diff分析结果确定推荐策略从所述第一版本至第二版本的变更对推荐效果的影响程度。
2.根据权利要求1所述的方法,其特征在于,所述diff分析包括:
向所述至少两个推荐系统同时发送相同的请求;
确定所述至少两个被测对象的输出结果的一致率或差异率。
3.根据权利要求1所述的方法,其特征在于,所述对测试环境中的随机策略进行排查和固化,包括:
提示当前测试环境不可信,以便用户依据所述推荐系统的请求处理日志对不合理的随机策略进行排查;
依据所述排查的结果,关闭不合理的随机策略并固化合理的随机策略。
4.根据权利要求3所述的方法,其特征在于,所述固化合理的随机策略包括:
将合理的随机策略所采用的随机种子设置为固定值。
5.一种推荐系统的测试装置,其特征在于,该装置包括:
第一测试单元,用于在相同的至少两个推荐系统上分别部署推荐策略的第一版本,并对被测对象进行diff分析;
排查固化单元,用于依据所述第一测试单元的diff分析结果确定是否对测试环境中的随机策略进行排查和固化,直至所述测试环境可信;
第二测试单元,用于在所述至少两个推荐系统上分别部署推荐策略的第二版本,并对所述被测对象进行diff分析;
所述排查固化单元,还用于依据所述第二测试单元的diff分析结果确定是否对测试环境中的随机策略进行排查和固化,直至所述测试环境可信;
第三测试单元,用于在所述至少两个推荐系统上分别部署推荐策略的第一版本和第二版本,并对被测对象进行diff分析,得到对所述被测对象的测试结果;
其中所述被测对象包括推荐系统或推荐系统中的被测模块;其中,
所述排查固化单元在依据diff分析结果确定是否对测试环境中的随机策略进行排查和固化时,具体执行:
若diff分析结果符合预期,则确定测试环境可信,否则对测试环境中的随机策略进行排查和固化;
所述第三测试单元,具体用于:
判断所述被测对象的diff分析结果是否符合预期,如果是,则确定从第一版本至第二版本的变更通过测试,否则确定从第一版本至第二版本的变更未通过测试;或者,
判断所述被测对象中各推荐策略阶段的diff分析结果,若从第一版本变更至第二版本的推荐策略之前阶段的diff分析结果以及从第一版本变更至第二版本的推荐策略阶段的diff分析结果均符合预期,则确定从第一版本至第二版本的变更通过测试;若第一版本变更至第二版本的推荐策略之前阶段的diff分析结果不符合预期或者从第一版本变更至第二版本的推荐策略阶段的diff分析结果不符合预期,则确定从第一版本至第二版本的变更未通过测试;或者,
依据所述被测对象的diff分析结果确定推荐策略从所述第一版本至第二版本的变更对推荐效果的影响程度。
6.根据权利要求5所述的装置,其特征在于,所述diff分析包括:
向所述至少两个推荐系统同时发送相同的请求;
确定所述至少两个被测对象的输出结果的一致率或差异率。
7.根据权利要求5所述的装置,其特征在于,所述排查固化单元在对测试环境中的随机策略进行排查和固化时,具体执行:
提示当前测试环境不可信,以便用户依据所述推荐系统的请求处理日志对不合理的随机策略进行排查;
依据所述排查的结果,关闭不合理的随机策略并固化合理的随机策略。
8.根据权利要求7所述的装置,其特征在于,所述排查固化单元在固化合理的随机策略时,具体执行:
将合理的随机策略所采用的随机种子设置为固定值。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至4中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1至4中任一项所述的方法。
CN202010112380.3A 2020-02-24 2020-02-24 推荐系统的测试方法、装置、设备和计算机存储介质 Active CN111352833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010112380.3A CN111352833B (zh) 2020-02-24 2020-02-24 推荐系统的测试方法、装置、设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010112380.3A CN111352833B (zh) 2020-02-24 2020-02-24 推荐系统的测试方法、装置、设备和计算机存储介质

Publications (2)

Publication Number Publication Date
CN111352833A CN111352833A (zh) 2020-06-30
CN111352833B true CN111352833B (zh) 2023-04-25

Family

ID=71194039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010112380.3A Active CN111352833B (zh) 2020-02-24 2020-02-24 推荐系统的测试方法、装置、设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN111352833B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580979A (zh) * 2020-12-18 2021-03-30 北京百度网讯科技有限公司 策略质量评价方法、装置、设备、存储介质以及产品
CN113220576B (zh) * 2021-05-14 2023-08-01 北京百度网讯科技有限公司 测试环境的管理方法、装置、设备以及存储介质
CN116055074A (zh) 2021-10-27 2023-05-02 北京字节跳动网络技术有限公司 管理推荐策略的方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006067665A1 (en) * 2004-12-20 2006-06-29 Philips Intellectual Property & Standards Gmbh Data processing device and method for operating such data processing device
CN107438830B (zh) * 2016-09-30 2021-02-05 深圳市大疆创新科技有限公司 升级方法、升级装置、升级设备及升级系统
US10585789B2 (en) * 2018-03-19 2020-03-10 International Business Machines Corporation Intelligent generation of log messages by a SaaS offering in a continuous pipeline
CN108600129B (zh) * 2018-04-13 2020-01-14 维沃移动通信有限公司 信号处理方法及移动终端
CN109299004B (zh) * 2018-06-22 2020-08-25 北京大学 关键元素差异性分析方法及系统
CN109542495A (zh) * 2018-11-12 2019-03-29 青岛海信电器股份有限公司 一种软件升级方法及装置
CN110309574B (zh) * 2019-06-25 2023-01-06 北京智涵芯宇科技有限公司 可感知芯片电路物理完整性的puf电路及芯片
CN110706035B (zh) * 2019-09-30 2022-08-23 江苏满运软件科技有限公司 一种更新效果的评价方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111352833A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111352833B (zh) 推荐系统的测试方法、装置、设备和计算机存储介质
US20230085001A1 (en) Testing and remediating compliance controls
CN110765024B (zh) 模拟测试方法、装置、电子设备和计算机可读存储介质
CN112270399B (zh) 基于深度学习的算子注册处理方法、装置及电子设备
CN111858360B (zh) 小程序测试方法、装置、设备及存储介质
CN110688270B (zh) 视频元素资源处理方法、装置、设备及存储介质
CN108334346B (zh) 一种业务控制流程的开发方法及装置
CN111752843A (zh) 用于确定影响面的方法、装置、电子设备及可读存储介质
US9223984B2 (en) After-the-fact configuration of static analysis tools able to reduce user burden
CN111523283A (zh) 一种验证处理器的方法、装置、电子设备及存储介质
CN114816393B (zh) 信息生成方法、装置、设备以及存储介质
CN112269706A (zh) 接口参数校验方法、装置、电子设备以及计算机可读介质
CN112860566B (zh) 小程序检测方法、装置、电子设备以及可读介质
CN110737560B (zh) 一种服务状态检测方法、装置、电子设备和介质
US9524204B2 (en) Methods and apparatus for customizing and using a reusable database framework for fault processing applications
CN110909390A (zh) 一种任务审核方法、装置、电子设备及存储介质
CN116303069A (zh) 一种车载终端的测试方法、装置、上位机、系统及介质
CN110865934B (zh) 代码验证方法、装置、电子设备及可读存储介质
CN114721686A (zh) 配置数据更新方法、装置、电子设备和存储介质
CN111831317B (zh) 服务间依赖关系的获取方法、装置、电子设备和存储介质
CN114676062A (zh) 用于接口的差异数据测试方法及装置、电子设备和介质
CN113377660B (zh) 测试方法和装置
CN111753955A (zh) 一种模型参数调整方法、装置、电子设备和存储介质
CN111831319B (zh) 差异数据后验方法、装置、设备及存储介质
CN114912522B (zh) 信息分类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant