CN110019990B - 样本筛选的方法和装置、业务对象数据搜索的方法和装置 - Google Patents

样本筛选的方法和装置、业务对象数据搜索的方法和装置 Download PDF

Info

Publication number
CN110019990B
CN110019990B CN201710577080.0A CN201710577080A CN110019990B CN 110019990 B CN110019990 B CN 110019990B CN 201710577080 A CN201710577080 A CN 201710577080A CN 110019990 B CN110019990 B CN 110019990B
Authority
CN
China
Prior art keywords
screening
layer
screening layer
target
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710577080.0A
Other languages
English (en)
Other versions
CN110019990A (zh
Inventor
肖非
刘士琛
欧文武
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710577080.0A priority Critical patent/CN110019990B/zh
Priority to TW107120127A priority patent/TW201909006A/zh
Priority to US16/035,263 priority patent/US10990849B2/en
Priority to PCT/US2018/042109 priority patent/WO2019014607A1/en
Publication of CN110019990A publication Critical patent/CN110019990A/zh
Application granted granted Critical
Publication of CN110019990B publication Critical patent/CN110019990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade

Abstract

本申请实施例提供了一种样本筛选的方法和装置、业务对象数据搜索的方法和装置,其中,所述样本筛选的方法,包括:设置多级筛选层;选取所述多级筛选层中当前筛选层所需的训练样本;从所述训练样本中提取出适于当前筛选层的目标样本特征;采用所述目标样本特征,确定适于当前筛选层的筛选数量;按照所述目标样本特征和筛选数量选取出目标样本。本申请实施例可以自适应地调整各级筛选层的筛选数量,可以最大程度地优化资源,平衡效果和性能。

Description

样本筛选的方法和装置、业务对象数据搜索的方法和装置
技术领域
本申请涉及计算机处理的技术领域,特别是涉及一种样本筛选的方法、一种业务对象数据搜索的方法和相应的一种样本筛选的装置、一种业务对象数据搜索的装置。
背景技术
互联网中的业务对象数据(如商品、网页等)的产生速度越来越快,种类也越来越多,伴随着用户的需求也越来越高,从最初的搜索关键词匹配,发展至针对用户的个性化推荐。
在个性化推荐的场景中,较为常用的是通过瀑布流模型(cascade)进行推荐对象的筛选,如筛选概率瀑布模型(soft cascade)、严格瀑布模型(hard cascade)等,但是,基于瀑布流模型的训练策略在线上应用的情况,理论上的处理代价(如耗时)与实际中的处理代价(如耗时)不一致,导致模型总代价(如耗时、内存等资源代价的总和)不准确。再者,在瀑布流模型中对所有种类的业务对象数据均设置相同的筛选数量,而业务对象数据的质量不同,可能导致搜索精确度降低、浪费计算资源。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种样本筛选的方法、一种业务对象数据搜索的方法和相应的一种样本筛选的装置、一种业务对象数据搜索的装置。
为了解决上述问题,本申请公开了一种样本筛选的方法,所述的方法包括:
设置多级筛选层;
选取所述多级筛选层中当前筛选层所需的训练样本;
从所述训练样本中提取出适于当前筛选层的目标样本特征;
采用所述目标样本特征,确定适于当前筛选层的筛选数量;
按照所述目标样本特征和筛选数量选取出目标样本。
优选地,所述当前筛选层所需的训练样本,多于下一级筛选层所需的训练样本;
适于所述当前筛选层的目标样本特征中,包含适于上一级筛选层的目标样本特征;
适于所述当前筛选层的筛选数量,大于下一级筛选层的筛选数量。
优选地,所述训练样本为与搜索关键词匹配的业务对象数据,所述的方法还包括:
生成所述搜索关键词与所述筛选数量之间的关联关系。
优选地,所述从所述训练样本中提取出适于当前筛选层的目标样本特征步骤包括:
从所述训练样本中提取原始样本特征;
确定所述原始样本特征的原始样本权重;
依据所述原始样本权重生成性价比参数;
按照所述性价比参数从所述原始样本特征中提取目标样本特征。
优选地,所述原始样本权重为所述原始样本特征对于预设的第一优化目标参数的重要程度因子;
所述依据所述原始样本权重生成性价比参数的子步骤进一步包括:
预置处理所述原始样本特征的代价系数;
计算所述原始样本权重与所述代价系数之间的比值为性价比参数。
优选地,所述业务对象数据为商品数据;所述原始样本特征包括商品数据的商品质量参数、售后服务评价参数、转换率、作弊评分参数;所述第一优化目标参数包括商品数据成交量;所述处理原始样本特征的代价系数包括耗时,内存应用率、CPU占用率。
优选地,所述采用所述目标样本特征,确定适于当前筛选层的筛选数量的步骤包括:
确定所述目标样本特征的目标样本权重;
依据所述目标样本权重,生成所述训练样本进入下一级筛选层的筛选概率;
采用所述筛选概率,计算所述当前层次需筛选出训练样本的筛选数量。
优选地,所述目标样本权重为所述目标样本特征对于预设的第二优化目标参数的重要程度因子;
所述第二优化目标参数包括如下的一种或多种:
筛选训练样本的准确率;
用于处理进入当前筛选层的训练样本的总代价系数;
进入最后一级筛选层的训练样本的数量。
优选地,所述依据所述目标样本权重,生成所述训练样本进入下一级筛选层的筛选概率的子步骤进一步包括:
计算所述目标样本权重对于当前筛选层目标样本特征的内积;
将所述内积映射到0-1之间,获得所述筛选概率。
优选地,所述采用所述筛选概率,计算所述当前层次需筛选出训练样本的筛选数量的子步骤进一步包括:
确定基准筛选数量,所述基准筛选数量为适于上一级筛选层的筛选数量;
在所述基准筛选数量的基础上,按照所述筛选概率进行衰减,获得当前层次需筛选出训练样本的筛选数量。
优选地,所述方法还包括:
判断是否遍历完所有预设的筛选层;
若是,则将所选取出的目标样本作为最终样本;
若否,则返回所述确定当前筛选层所需的训练样本的步骤。
优选地,所述方法还包括:
将所述最终样本推送给用户。
本申请实施例还公开了一种业务对象数据搜索的方法,所述方法涉及在多级筛选层中搜索业务对象数据的过程,具体包括:
接收搜索关键词;
查找与所述搜索关键词匹配的初始业务对象数据;
查询所述搜索关键词关联的各级筛选层的筛选数量;
从所述初始业务对象数据中提取出适于各级筛选层的目标样本特征;
根据所述目标样本特征,筛选出满足相应筛选层筛选数量的目标业务对象数据。
优选地,所述根据所述目标样本特征,筛选出满足相应筛选层筛选数量的目标业务对象数据的步骤包括:
在当前筛选层中,采用所述目标样本特征计算所述初始业务对象数据的分数;
按照所述分数对所述初始业务对象数据进行排序;
在当前筛选层为非最后一级筛选层时,将与所述筛选数量相等的、排序之后的业务对象数据输出至下一级筛选层;
在当前筛选层为最后一级筛选层时,将所筛选出的业务对象数据设置为目标业务对象数据。
本申请实施例还公开了一种样本筛选的方法,所述的方法包括:
设置多级筛选层;
根据训练目标,提取出适于所述多级筛选层的目标样本特征;
采用所述目标样本特征,确定适于多级筛选层的筛选数量;
按照所述目标样本特征和筛选数量选取出目标样本。
优选地,所述多级筛选层包括至少两级筛选层,其中,上一级筛选层所需的训练样本,多于下一级筛选层所需的训练样本;下一级筛选层的目标样本特征中,包含上一级筛选层的目标样本特征;上一级筛选层的筛选数量,大于下一级筛选层的筛选数量。
本申请实施例还公开了一种样本筛选的装置,所述的装置包括:
筛选层设置模块,用于设置多级筛选层;
样本确定模块,用于选取所述多级筛选层中当前筛选层所需的训练样本;
特征提取模块,用于从所述训练样本中提取出适于当前筛选层的目标样本特征;
数量计算模块,用于采用所述目标样本特征,确定适于当前筛选层的筛选数量;
筛选处理模块,用于按照所述目标样本特征和筛选数量选取出目标样本。
优选地,所述当前筛选层所需的训练样本,多于下一级筛选层所需的训练样本;
适于所述当前筛选层的目标样本特征中,包含适于上一级筛选层的目标样本特征;
适于所述当前筛选层的筛选数量,大于下一级筛选层的筛选数量。
优选地,所述训练样本为与搜索关键词匹配的业务对象数据,所述的装置还包括:
关系建立模块,用于生成所述搜索关键词与所述筛选数量之间的关联关系。
优选地,所述特征提取模块包括:
原始样本特征提取子模块,用于从所述训练样本中提取原始样本特征;
原始样本权重计算子模块,用于确定所述原始样本特征的原始样本权重;
性价比参数生成子模块,用于依据所述原始样本权重生成性价比参数;
目标样本特征提取子模块,用于按照所述性价比参数从所述原始样本特征中提取目标样本特征。
优选地,所述原始样本权重为所述原始样本特征对于预设的第一优化目标参数的重要程度因子;
所述性价比参数生成子模块进一步包括:
代价系数预置单元,用于预置处理所述原始样本特征的代价系数;
性价比计算单元,用于计算所述原始样本权重与所述代价系数之间的比值为性价比参数。
优选地,所述数量计算模块包括:
目标样本权重计算子模块,用于确定所述目标样本特征的目标样本权重;
筛选概率生成子模块,用于依据所述目标样本权重,生成所述训练样本进入下一级筛选层的筛选概率;
筛选数量计算子模块,用于采用所述筛选概率,计算所述当前层次需筛选出训练样本的筛选数量。
优选地,所述目标样本权重为所述目标样本特征对于预设的第二优化目标参数的重要程度因子;
所述第二优化目标参数包括如下的一种或多种:
筛选训练样本的准确率;
用于处理进入当前筛选层的训练样本的总代价系数;
进入最后一级筛选层的训练样本的数量。
优选地,所述筛选概率生成子模块进一步包括:
内积计算单元,用于计算所述目标样本权重对于当前筛选层目标样本特征的内积;
映射单元,用于将所述内积映射到0-1之间,获得所述筛选概率。
优选地,所述筛选数量计算子模块进一步包括:
基准量确定单元,用于确定基准筛选数量,所述基准筛选数量为适于上一级筛选层的筛选数量;
衰减单元,用于在所述基准筛选数量的基础上,按照所述筛选概率进行衰减,获得当前层次需筛选出训练样本的筛选数量。
优选地,所述装置还包括:
遍历模块,用于判断是否遍历完所有预设的筛选层;若是,则调用最终样本确认模块,若否,则返回调用样本确定模块;
样本确认模块,用于将所选取出的目标样本作为最终样本。
本申请实施例还公开了一种业务对象数据搜索的装置,所述装置涉及在多级筛选层中搜索业务对象数据的处理,具体包括:
关键词接收模块,用于接收搜索关键词;
关键词查找模块,用于查找与所述搜索关键词匹配的初始业务对象数据;
筛选数量查询模块,用于查询所述搜索关键词关联的各级筛选层的筛选数量;
样本特征提取模块,用于从所述初始业务对象数据中提取出适于各级筛选层的目标样本特征;
筛选处理模块,用于根据所述目标样本特征,筛选出满足相应筛选层筛选数量的目标业务对象数据。
优选地,所述筛选处理模块包括:
分数计算子模块,用于在当前筛选层中,采用所述目标样本特征计算所述初始业务对象数据的分数;
排序子模块,用于按照所述分数对所述初始业务对象数据进行排序;
数据输出子模块,用于在当前筛选层为非最后一级筛选层时,将与所述筛选数量相等的、排序之后的业务对象数据输出至下一级筛选层;
结果确认子模块,用于在当前筛选层为最后一级筛选层时,将所筛选出的业务对象数据设置为目标业务对象数据。
本申请实施例还公开了一种装置,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行上述的方法。
本申请实施例还公开了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述的方法。
本申请实施例包括以下优点:
本申请实施例应用的瀑布流模型具有多级筛选层,在各级筛选层对训练样本进行筛选时,可以按照训练样本的目标样本特征,对各级筛选层的筛选数量进行动态地调整,从而筛选出数量合适、并且质量较高的目标样本,可以在保证搜索准确度高的情况下,节省计算资源。
本申请实施例可以自适应地调整各级筛选层的筛选数量(ranksize)。以业务对象数据为例,如果一个搜索关键词下质量较好的业务对象数据的数量较多,筛选数量(ranksize)会动态地调大,反之,如果一个搜索关键词下质量较好的业务对象数据的数量较少,筛选数量(ranksize)会动态地调小,这样可以最大程度地优化资源,平衡效果和性能。
本申请实施例基于筛选训练样本的准确率、用于处理进入当前筛选层的训练样本的总代价系数、进入最后一级筛选层的训练样本的数量等因素计算各级筛选层的筛选数量进行动态地调整,可以优化样本筛选效果、性能并同时达到搜索的结果数量少而返回的结果不少,搜索的结果数量多而返回的结果不多的目标。
本申请实施例通过当前筛选层筛选进入下一级筛选层的筛选概率计算训练样本通过当前筛选层筛选进入下一级筛选层的筛选数量,符合计算总代价的方式,使得理论上的处理代价(如耗时)与实际的处理代价(如耗时)一致,保证模型总代价(如耗时、内存等资源代价的总和)准确。
附图说明
图1为一种层次模型构建的示意图;
图2为另一种层次模型构建的示意图;
图3为本申请的一种样本筛选的方法实施例1的步骤流程图;
图4为本申请实施例的一种商品数据筛选的示例流程图;
图5为本申请的一种样本筛选的方法实施例2的步骤流程图;
图6为本申请的一种业务对象数据搜索的方法实施例的步骤流程图;
图7为本申请的一种样本筛选的方法实施例3的步骤流程图;
图8为本申请的一种样本筛选的装置实施例的结构框图;
图9为本申请的一种业务对象数据搜索的装置实施例的结构框图;
图10为本申请一种智能终端实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请的构思易于进行各种修改和替代形式,其具体实施例已经通过附图的方式示出,并将在这里详细描述。然而,应该理解,上述内容并不是用来将本申请的构思限制为所公开的具体形式,相反地,本申请的说明书和附加权利要求书意欲覆盖所有的修改、等同和替代的形式。
本说明书中的“一个实施例”,“实施例”,“一个具体实施例”等,表示所描述的实施例可以包括特定特征、结构或特性,但是每个实施例可以包括或可以不必然包括该特定特征、结构或特性。此外,这样的短语不一定指的是同一实施例。另外,在联系一个实施例描述特定特征、结构或特性的情况下,无论是否明确描述,可以认为本领域技术人员所知的范围内,这样的特征、结构或特性也与其他实施例有关。另外,应该理解的是,“在A,B和C的至少一个”这种形式所包括的列表中的条目中,可以包括如下可能的项目:(A);(B);(C);(A和B);(A和C);(B和C);或(A,B和C)。同样,“A,B或C中的至少一个”这种形式列出的项目可能意味着(A);(B);(C);(A和B);(A和C);(B和C);或(A,B和C)。
在一些情况下,所公开的实施例可以被实施为硬件、固件、软件或其任意组合。所公开的实施例也可以实现为携带或存储在一个或多个暂时的或者非暂时的机器可读(例如计算机可读)存储介质中的指令,该指令可以被一个或多个处理器执行。机器可读存储介质可以实施为用于以能够被机器读取的形式存储或者传输信息的存储装置、机构或其他物理结构(例如易失性或非易失性存储器、介质盘、或其他媒体其它物理结构装置)。
在附图中,一些结构或方法特征可以以特定的安排和/或排序显示。然而,优选地,这样的具体安排和/或排序并不是必要的。相反,在一些实施方案中,这样的特征可以以不同的方式和/或顺序排列,而不是如附图中所示。此外,特定的附图中的结构或方法特征中所包含的内容,不意味着暗示这种特征是在所有实施例是必须的,并且在一些实施方案中,可能不包括这些特征,或者可能将这些特征与其它特征相结合。
为便于本领域技术人员更好地理解本申请,以下对瀑布流模型(cascade)进行说明。瀑布流模型主要涉及筛选概率瀑布模型(soft cascade)、严格瀑布模型(hardcascade)等,在个性化推荐的场景中,一般会采用瀑布流模型进行推荐对象的海选和精筛等筛选操作。其中,soft cascade的基本思想为筛选概率瀑布模型为从上一层处理进入到下一层处理是按设定的筛选概率筛选的,而hard cascade是直接取上一层处理的排序最高的前N(N为正整数,即topN)位到下一层进行处理,一般线上系统实现为hard cascade。
例如:
日常生活中的很多应用是需要特征的,而通常特征的获得需要一定的代价。比如在医学上需要诊断出病人的病因,就需要获得临床观察特征(如性别、年龄、体温等)、血液检查特征(即抽血检查获得的特征)、活体组织检查等,如果要获得所有这些特征,就需要病人完成上述所有检查,从而导致病人的不舒适程度依次提高。
在这种情况下,可以设计一个层次模型以及早诊断出病人的病因,并且不需要所有病人完成所有检查后才能确诊是否患有某病。具体参考图1所示的一种层次模型构建的示意图,要确诊一个病人是否患有A病,对于X个就诊的病人,首先进行临床观察,经临床观察筛选出M个疑似患有A病的病人做血液检查,同时确定X-M个病人不患有A病,该X-M个病人不再需要接受后续检查。
然后,M个疑似患有A病的病人经血液检查筛选出N个病人,该N个病人因进一步被确定疑似患有A病从而需要去做活体组织检查,同时确定M-N个病人不患有A病,该M-N个病人不再需要接受后续检查。
上述N个病人经活体组织检查后即可确认是否确定患有A病。可以看出,经过上述层次模型设计的诊断流程可以在保证准确率的前提下最小化病人的痛苦。
又如:
参考图2所示的另一种层次模型构建的示意图,在电商平台的应用中,假设商品数据池中有X个商品数据,首先在商品数据池中根据基础的特征(如商品数据的销量、人气、网页的点击量等)筛选出M个质量较好的商品数据,然后基于用户的个性化特征,从M个商品数据中再进一步筛选出确定最终端推送给用户的商品数据N,同时确定X-M个商品数据不推送给用户。
在已有的方案中,应用瀑布流模型,优化目标参数中处理一次搜索关键词的代价Loss(如耗时)为:
Figure BDA0001351228740000111
而线上实际处理一次搜索关键词的代价(如耗时)为:
Figure BDA0001351228740000112
其中,
Figure BDA0001351228740000113
显然,假设中的
Figure BDA0001351228740000114
不一定等于[tj*ranksizej],导致模型的处理一次搜索关键词的代价(如耗时)不准确。
因而,基于soft cascade的训练策略在线上hardcascade应用的情况,理论上的处理代价Loss(如耗时)与实际中的处理代价Loss(如耗时)不一致,导致模型总代价(如耗时、内存等资源代价的总和)不准确。
再者,在瀑布流模型中对所有种类的业务对象数据均设置相同的筛选数量,而业务对象数据的质量不同,可能导致搜索精确度降低、浪费计算资源。
例如,如果搜索关键词为连衣裙和机械键盘,假设连衣裙有100000件相关的商品数据、机械键盘有10000件相关的商品数据,而瀑布模型在筛选时第一次选取8000件商品数据、第二次选取800件商品数据,这组参数对“连衣裙”或许是合理的,但对于机械键盘,一共只有10000件商品数据,有很多可能是销量低的、服务差等质量较低的商品数据。
为确保理论上的处理代价(如耗时)与实际的处理代价(如耗时)一致,保证模型总代价(如耗时、内存等资源代价的总和)准确,以及,动态调整各级筛选层的筛选数量,以达到搜索的结果数量少而返回的结果不少,搜索的结果数量多而返回的结果不多的目标。本申请实施例提供了如下几种示例:
参照图3,示出了本申请的一种样本筛选的方法实施例1的步骤流程图,具体可以包括如下步骤:
步骤301,设置多级筛选层;
在本申请实施例中,可以应用瀑布流模型(cascade)进行训练,例如,筛选概率瀑布模型(soft cascade)、严格瀑布模型(hard cascade),等等。筛选层的概念即来源于所述瀑布流模型,瀑布流模型具有多级筛选层,即两级或两级以上的筛选层,如采用瀑布流模型进行训练样本的粗筛和精筛,则可以将粗筛设定为第一级筛选层,将精筛设定为第二级筛选层。筛选层的层数可以由本领域技术人员根据实际情况进行设定,本申请实施例对此不加以限制。
所谓筛选层,是对排序逻辑抽象出的层次,通过各级筛选层对训练样本进行筛选,通过筛选的训练样本从当前筛选层进入下一级筛选层,未通过筛选的训练样本则丢弃。
步骤302,选取所述多级筛选层中当前筛选层所需的训练样本;
训练样本在不同的应用场景下可以是不同种类的数据。在本申请的一种优选实施例中,所述训练样本可以为业务对象数据。所述当前筛选层即指在多级筛选层中,处于当前操作层级的筛选层。如采用瀑布流模型进行训练样本的粗筛和精筛,则可将在粗筛阶段,将第一级筛选层作为当前筛选层,在精筛阶段,将第二级筛选层作为当前筛选层。
本申请实施例可以应用于网络平台,其本质可以为独立的服务器或服务器集群,如分布式系统,其存储了海量的不同领域的业务对象数据。对于不同业务领域而言,可以具有不同的业务对象数据,即具有业务领域特征的数据。
例如,对于新闻媒体领域而言,业务对象数据可以为新闻数据;对于移动通讯领域而言,业务对象数据可以为移动通讯数据;对于电子商务(Electronic Commerce,EC)领域而言,业务对象数据可以为商品数据,等等。
业务对象数据虽然承载不同的业务特性,但其本质仍然是数据,例如,文本、图像数据、音频数据、视频数据等等,因此,对业务对象数据的处理为数据处理。
在具体实现中,在系统或平台的业务对象数据库中存储有大量的业务对象数据,可以根据实际需要采样一定量的、与某个搜索关键词(query)匹配的业务对象数据中作为训练样本进行筛选,具体地,这些训练样本可以为一定的比例(如1:20)的正负样本。例如,对于电子商务领域,可以采集已成交的商品数据作为正样本,并采集未成交的商品数据作为负样本。
在具体实现中,基于瀑布流模型从粗筛到精筛的特性,通常上一级筛选层所需的训练样本,多于下一级筛选层所需的训练样本。即对于当前筛选层所需的训练样本而言,通常会多于下一级筛选层所需的训练样本。例如,在电商平台的应用中,假设商品数据池中有X个商品数据,即第一级筛选层所需的训练样本为这X个商品数据,然后在商品数据池中筛选出M个质量较好的商品数据,即第二级筛选层所需的训练样本为这M个质量较好的商品数据,其中,X是大于M的。
步骤303,从所述训练样本中提取出适于当前筛选层的目标样本特征;
本步骤的目的是从所述训练样本中提取出适于当前筛选层的,性价比最高的样本特征。
在瀑布流模型的各级筛选层中,可以对训练样本进行排序。
一般情况下,筛选层的层数与在该筛选层中进行排序的样本数量正相关,即随筛选层的层级的增加,在该筛选层进行排序的样本数量相应增加。在本申请的一种优选实施例中,适于所述当前筛选层的目标样本特征中,可以包含适于上一级筛选层的目标样本特征。
在本申请的一个实施例中,所述步骤303可以包括如下子步骤:
子步骤S3031,从所述训练样本中提取原始样本特征;
在具体实现中,可以从训练样本中提取可以用于排序的原始样本特征,作为本申请实施例具体应用的一种示例,所述原始样本特征可以包括商品数据的商品质量参数、售后服务评价参数、转换率、作弊评分参数等。
子步骤S3032,确定所述原始样本特征的原始样本权重;
对于这些原始样本特征,可以设定一个第一优化目标参数,例如,在电子商务领域中,可以对商品数据设置成交量作为第一优化目标参数。即作为本申请实施例具体应用的一种示例,所述原始样本权重可以为所述原始样本特征对于预设的第一优化目标参数的重要程度因子;即在实际中可以以第一优化目标参数作为优化的目标,通过逻辑回归(Logistic Regression)等方式计算原始样本特征对于第一优化目标参数的重要程度,作为原始样本权重。
子步骤S3033,依据所述原始样本权重生成性价比参数;
作为本申请实施例具体应用的一种示例,具体可以通过如下方式来生成性价比参数:
预置处理所述原始样本特征的代价系数;
计算所述原始样本权重与所述代价系数之间的比值为性价比参数。
在实际中,所述处理原始样本特征的代价系数可以包括耗时,内存应用率、CPU占用率,等等。即以原始样本权重与代价系数的比值,表征原始样本特征的性价比。
子步骤S3034,按照所述性价比参数从所述原始样本特征中提取目标样本特征。
一般情况下,可以选取性价比参数最高的K个原始样本特征作为目标样本特征,其中,K为正整数。在瀑布流模型的当前筛选层中的目标样本特征,通常包含在先层级筛选层中的目标样本特征。例如,第一级筛选层的目标样本特征为商品质量、售后服务,第二级筛选层的目标样本在可以为商品质量、售后服务、转换率、是否作弊等等。
当然,上述目标样本特征的确定方式只是作为示例,在实施本申请实施例时,可以根据实际情况设置其他目标样本特征的确定方式,本申请实施例对此不加以限制。另外,除了上述目标样本特征的确定方式外,本领域技术人员还可以根据实际需要采用其它目标样本特征的确定方式,本申请实施例对此也不加以限制。
步骤304,采用所述目标样本特征,确定适于当前筛选层的筛选数量;
本申请实施例一个重要的创新点在于,可以自适应地调整各级筛选层的筛选数量(ranksize)。以业务对象数据为例,如果一个搜索关键词下质量较好的业务对象数据的数量较多,筛选数量(ranksize)会动态地调大,反之,如果一个搜索关键词下质量较好的业务对象数据的数量较少,筛选数量(ranksize)会动态地调小,这样可以最大程度地优化资源,平衡效果和性能。
一般情况下,筛选层的层级数与训练样本进入该筛选层的数量负相关,即随筛选层的层级数的增加,进入该筛选层的训练样本的数量相应减少。也就是说,适于所述当前筛选层的筛选数量,一般都会大于下一级筛选层的筛选数量。
在本申请的一个实施例中,步骤304可以包括如下子步骤:
子步骤S3041,确定所述目标样本特征的目标样本权重;
应用本申请实施例,所述目标样本权重可以为所述目标样本特征对于预设的第二优化目标参数的重要程度因子。在具体实现中,对于目标样本特征,可以设定一个第二优化目标参数,以第二优化目标参数作为优化的目标,通过梯度下降、牛顿法等方式计算目标样本特征对于第二优化目标参数的重要程度,作为目标样本权重。
在本申请的一种优选实施例中,所述第二优化目标参数可以包括如下的一种或多种:
筛选训练样本的准确率;
用于处理进入当前筛选层的训练样本的总代价系数;
进入最后一级筛选层的训练样本的数量。
为了保证动态调整筛选数量后满足搜索引擎的如下需求:
(一)每次搜索给用户展示足够多的结果,以供用户选择;
(二)每次搜索的代价(如耗时等)不能超过搜索引擎的上限,否则会出现搜索引擎因为计算超时,导致本次搜索无结果的问题;
(三)搜索的结果数量少而返回的结果不少,搜索的结果数量多而返回的结果不多。
在本申请实施例的一种示例中,可以对第二优化目标参数加入用于处理进入当前筛选层的训练样本的总代价系数、进入最后一级筛选层的训练样本的数量这两个限制。具体可以采用如下公式进行表示:
J(w)=-l(w)+α||w||1+βT(w)+θ1C(w)+θ2L(w)
其中,w为目标样本权重,J(w)为第二优化目标参数,-l(w)代表瀑布流模型的准确度,||w||1为一阶正则表达式,防止瀑布流模型过拟合,T(w)代表CPU的总代价,C(w)为对进入最后一级筛选层的训练样本的数量进行限制的函数,L(w)为对用于处理进入筛选层的训练样本的总代价系数进行限制的函数,α、β、θ1、θ2为常数。
以业务对象数据为例,如果第q个搜索关键词下业务对象数据进入最后一级筛选层的期望小于A(A为需要展示的业务对象数据的下限值),则C(w)>0,与第二优化目标参数,即最小化J(w)相反;反之,如果第q个搜索关键词下业务对象数据进入最后一级筛选层的期望大于或等于A,则C(w)≤0,与第二优化目标参数,即最小化J(w)相同。
在一个示例中,可以以如下可导近似表达式表示C(w)、L(w):
Figure BDA0001351228740000171
Figure BDA0001351228740000172
其中,C(w)、L(w)应用公式δlog
Figure BDA0001351228740000173
在该公式中,x为
Figure BDA0001351228740000174
在δ趋向于0的情况下为x≤0、y=0或者x>0、y=x的可导近似表示。
在C(w)中,q代表第q个搜索关键词,Q代表搜索关键词的数量上限,mq代表第q个搜索关键词下的业务对象数据的总数量,Nq代表第q个搜索关键词下的业务对象数据的数量,pi代表第i个业务对象数据通过到最后一级筛选层的筛选概率,
Figure BDA0001351228740000175
代表第q个搜索关键词下业务对象数据进入到最后一级筛选层的数量。
在此表达式中,由于第q个搜索关键词下可能具有多种业务对象数据,每种业务对象数据具有对应的pi,因此,可以多种业务对象数据的pi求平均值,将mq与pi的平均值相乘,即可获得进入最后一级筛选层的训练样本的数量。
所以,在训练样本筛选过程中,如果第q个搜索关键词下业务对象数据进入最后一级筛选层的期望小于A(A为展示的业务对象数据的下限值),则C(w)>0,与第二优化目标参数,即最小化J(w)相反;反之,如果第q个搜索关键词下业务对象数据进入最后一级筛选层的期望大于或等于A,则C(w)≤0,与第二优化目标参数,即最小化J(w)相同。
对于L(w),
Figure BDA0001351228740000181
代表第q个搜索关键词下的总代价系数(如总耗时),t表示在筛选层中用于处理业务对象数据(如计算分数(feature))的代价系数(如耗时),在此表达式中,可以离线统计在各级筛选层处理每个业务对象数据的代价系数,将各级筛选层中代价系数累积,即可获得处理进入筛选层的训练样本的总代价系数。
在训练样本筛选过程中,目标为第q个搜索关键词下的总代价系数小于B(B为总代价的上限值),如果第q个搜索关键词下的总代价系数大于B,则L(w)>0与第二优化目标参数,即最小化J(w)相反;反之,如果第q个搜索关键词下搜索关键词下的总代价系数小于或等于B,则L(w)≤0,与第二优化目标参数,即最小化J(w)相同。
例如,假设A(展示的业务对象数据的下限值)取200,B(总代价的上限值)取130。
Gmv(总成交额)为0.16%,latency(搜索引擎用于计算特征的延迟)为30%。
假设搜索关键词(Query)限制AUC=0.80(Area under Curve,Roc曲线下的面积),如果未加C(w)、L(w)的限制,筛选的情况如表1所示:
表1
Query 进海选数 精筛数 计算耗时
短裤女夏 93742 6308.2 183.34
65196 2955.77 117.872
吊灯 34096 1907.56 66.5434
羽毛球拍 6306 556.776 13.2002
铜氨丝连衣裙 715 50.0786 1.54921
从表1可以看到,搜索结果(即商品数据)少的情况下,进精筛数也随之减少,高频搜索关键词(Query)的耗时超过搜索引擎的上限。
如果加上了加C(w)、L(w)的限制,保持AUC=0.80,筛选的情况如表2所示:
表2
Query 进海选数 精筛数 计算耗时
短裤女夏 93742 3625.42 129.81
65196 1387.81 95.746
吊灯 34096 1617.25 65.5549
羽毛球拍 6306 705.523 15.2523
铜氨丝连衣裙 715 315.569 4.57592
从表1可以看到,搜索结果(即商品数据)少的情况下,进精筛数会有所增加,高频搜索关键词(Query)的耗时未超过搜索引擎的上限。
可以看出,加上C(w)和L(w),训练样本的筛选过程会在筛选训练样本的准确率,用于处理进入当前筛选层的训练样本的总代价系数,以及,进入最后一级筛选层的训练样本的数量三者之间平衡最优解,相当于在优化搜索效果、性能的同时,达到搜索的结果数量少而返回的结果不少,搜索的结果数量多而返回的结果不多的目标。
子步骤S3042,依据所述目标样本权重,生成所述训练样本进入下一级筛选层的筛选概率;
在本申请实施例的一种优选示例中,可以通过计算所述目标样本权重对于当前筛选层目标样本特征的内积,作为所述训练样本通过当前筛选层筛选进入下一级筛选层的筛选概率;具体地,可以将目标样本权重对于当前筛选层目标样本特征的内积,映射到0-1之间,作为训练样本通过当前筛选层筛选进入下一级筛选层的筛选概率。
例如,可以通过如下公式计算训练样本通过当前筛选层筛选进入下一级筛选层的筛选概率:
Figure BDA0001351228740000191
其中,
Figure BDA0001351228740000201
Figure BDA0001351228740000202
其中,k代表瀑布流模型中筛选层的层数,cj代表第j级筛选层,wjk代表第j级筛选层中第k个特征的权重,x代表训练样本,w代表筛选层中的特征,ti代表每级筛选层计算分数(feature)的代价系数,yi代表第i个训练样本的类别,pi表示第i个训练样本被预测为正样本的筛选概率。
子步骤S3043,采用所述筛选概率,计算所述当前层次需筛选出训练样本的筛选数量。
在本申请实施例的一种优选示例中,所述子步骤S3043可以进一步包括如下子步骤:
子步骤S431,在所述基准筛选数量的基础上,按照所述筛选概率进行衰减,获得当前层次需筛选出训练样本的筛选数量。
子步骤S432,在所述基准筛选数量的基础上,按照所述筛选概率进行衰减,获得当前层次需筛选出训练样本的筛选数量。
以业务对象数据为例,通过获取所述业务对象数据通过上一级筛选层筛选进入当前筛选层的筛选数量(ranksize),作为基准筛选数量,然后在所述基准筛选数量的基础上,按照所述筛选概率进行衰减,获得所述业务对象数据通过当前筛选层筛选进行下一级筛选层的筛选数量。
例如,可以通过如下公式计算各级筛选层的筛选数量:
Figure BDA0001351228740000203
Figure BDA0001351228740000204
其中,instance为训练样本的数量,X为进入瀑布流模型进行筛选的所有训练样本的数量,M为第一级筛选层的筛选数量,N为第二级筛选层的筛选数量,以此类推。
相较于已有的方案,本申请实施例通计算训练样本通过当前筛选层筛选进入下一级筛选层的筛选数量,符合计算总代价的方式,使得理论上的处理代价(如耗时)与实际的处理代价(如耗时)一致,保证模型总代价(如耗时、内存等资源代价的总和)准确。
步骤305,按照所述目标样本特征和筛选数量选取出目标样本。
在电商平台粗筛和精筛的场景中,假设商品数据池中有X个商品数据,首先在商品数据池中根据第一级筛选层的目标样本特征,按第一级筛选层的筛选数量筛选出M个质量较好的商品数据(即第一级筛选层的目标样本),然后基于第二级筛选层的目标样本特征,按第二级筛选层的筛选数量从M个商品数据中再进一步筛选出确定最终端推送给用户的商品数据N(即第二级筛选层的目标样本,也是当前仅有两级筛选层模型的最终目标样本),同时确定X-M个商品数据不推送给用户。
基于以上示例可以理解,在本申请实施例中,若当前筛选层不是当前模型中多级筛选层的最后一层,那么本步骤中的“目标样本”,是适于当前筛选层的目标样本,即一个中间层的目标样本,其还作用于填充至下一级筛选层的训练样本;若当前筛选层是当前模型中多级筛选层的最后一层,那么本步骤中的“目标样本”,即是当前模型最终的目标样本。至于目标样本后续如何使用,本领域技术人员依据实际情况任意设置均可,本申请对此无需加以限制。
需要进一步说明的是,在实际中,对于中间层的目标样本,是否完全作为下一级筛选层的训练样本,抑或仅部分作为下一级筛选层的训练样本,在实际中均是可行的,本申请对此亦不作限制。
在本申请的一种优选实施例中,还可以进一步建立所述搜索关键词与所述筛选数量之间的关联关系。
在这种情况下,可以将训练出瀑布流模型中各级筛选层的筛选数量,与相应的搜索关键词建立关联关系,并存储在数据库中,以便日后在离线场景中的应用。
为使本领域技术人员更好地理解本申请实施例,以下将商品数据作为业务对象数据的一种示例进行说明。
如图4所示,在本示例中,用户可以在购物网站的搜索框中输入搜索关键词(Query),搜索引擎接收到该搜索关键词后,可以通过预先存储在数据库中的筛选数量与搜索关键词的关联关系,获得适于第一级筛选层(粗筛)的筛选数量M,以及,适于第二级筛选层(精筛)N。
在商品池中,召回X个与该搜索关键词(Query)匹配的商品数据,输入瀑布流模型,该瀑布流模型总共有3级筛选层:
在第一级筛选层中,提取商品数据的3个特征,作为低代价特征(第一级筛选层的目标样本特征),计算分数(feature)之后进行排序,从排序之后的商品数据中,按适于第一级筛选层的筛选数量M选取前M个(topM)商品数据(第一级筛选层的目标样本)进入第二级筛选层,其余不推送给用户。
在第二级筛选层中,提取商品数据的5个特征,作为中代价特征(第二级筛选层的目标样本特征),计算分数(feature)之后进行排序,从排序之后的商品数据中,按适于第一级筛选层的筛选数量N选取前N个(topN)商品数据(第二级筛选层的目标样本)进入第三级筛选层,其余不推送给用户。
在第二级筛选层中,提取商品数据的10个特征(第三级筛选层的目标样本特征),作为高代价特征,计算分数(feature)之后进行排序,然后将排序后的商品数据(第三级筛选层的目标样本),在购物网站的网页中推送给用户。
在本示例中,第二级筛选层的目标样本特征中可以包含第一级筛选层的目标样本特征,第三级筛选层的目标样本特征中可以包含第二级筛选层的目标样本特征。
本申请实施例应用的瀑布流模型具有多级筛选层,在各级筛选层对训练样本进行筛选时,可以按照训练样本的目标样本特征,对各级筛选层的筛选数量进行动态地调整,从而筛选出数量合适、并且质量较高的目标样本,可以在保证搜索准确度高的情况下,节省计算资源。
本申请实施例基于筛选训练样本的准确率、用于处理进入当前筛选层的训练样本的总代价系数、进入最后一级筛选层的训练样本的数量等因素计算各级筛选层的筛选数量进行动态地调整,可以优化样本筛选效果、性能并同时达到搜索的结果数量少而返回的结果不少,搜索的结果数量多而返回的结果不多的目标。
本申请实施例通过当前筛选层筛选进入下一级筛选层的筛选概率计算训练样本通过当前筛选层筛选进入下一级筛选层的筛选数量,符合计算总代价的方式,使得理论上的处理代价(如耗时)与实际的处理代价(如耗时)一致,保证模型总代价(如耗时、内存等资源代价的总和)准确。
参照图5,示出了本申请的一种样本筛选的方法实施例2的步骤流程图,具体可以包括如下步骤:
步骤501,设置多级筛选层;
步骤502,选取所述多级筛选层中当前筛选层所需的训练样本;
步骤503,从所述训练样本中提取出适于当前筛选层的目标样本特征;
步骤504,采用所述目标样本特征,确定适于当前筛选层的筛选数量;
步骤505,按照所述目标样本特征和筛选数量选取出目标样本;
步骤506,判断是否遍历完所有预设的筛选层;若是,则执行步骤507;若否,则返回所述步骤502;
步骤507,将所选取出的目标样本作为最终样本。
在本申请的一种优选实施例中,所述当前筛选层所需的训练样本,多于下一级筛选层所需的训练样本;适于所述当前筛选层的目标样本特征中,包含适于上一级筛选层的目标样本特征;适于所述当前筛选层的筛选数量,大于下一级筛选层的筛选数量。
作为本申请实施例具体应用的一种示例,还可以包括如下步骤:
将所述最终样本推送给用户。
以下通过一个示例对本实施例进一步说明:
假设当前瀑布流模型总共有3级筛选层:
S1,确定第一级筛选层所需的训练样本为X个与该搜索关键词(Query)匹配的商品数据;
S2,从这X个商品数据中,提取出3个低代价特征作为适于第一级筛选层的目标样本特征;
S3,采用这3个低代价特征,确定适于第一级筛选层的筛选数量M;
S4,针对X个商品数据分别计算相应于所述3个低代价特征的分数,然后按分数排序,从排序之后的商品数据中,选取前M个(topM)商品数据(第一级筛选层的目标样本)进入第二级筛选层,其余(X-M个商品数据)不推送给用户;
S5,确定第二级筛选层所需的训练样本为上述经过第一级筛选层筛选出来的M个商品数据;
S6,从这M个商品数据中,提取出5个中代价特征作为适于第二级筛选层的目标样本特征;
这5个中代价特征可以包含上面3个低代价特征,当然在特殊情况下,这5个中代价特征也可以不包含上面3个低代价特征,本领域技术人员依据实际情况任意设置均可,本申请实施例对此不作限制。
S7,采用这5个中代价特征,确定适于第二级筛选层的筛选数量N;
S8,针对M个商品数据分别计算相应于所述5个中代价特征的分数,然后按分数排序,从排序之后的商品数据中,选取前N个(topN)商品数据(第二级筛选层的目标样本)进入第三级筛选层,其余(M-N个商品数据)不推送给用户;
S9,确定第三级筛选层所需的训练样本为上述经过第二级筛选层筛选出来的N个商品数据;
S10,从这N个商品数据中,提取出10个高代价特征作为适于第三级筛选层的目标样本特征;
这10个高代价特征可以包含上面5个中代价特征,当然在特殊情况下,这10个高代价特征也可以不包含上面5个中代价特征,本领域技术人员依据实际情况任意设置均可,本申请实施例对此不作限制。
S11,采用这10个高代价特征,确定适于第三级筛选层的筛选数量O;
S12,针对N个商品数据分别计算相应于所述10个高代价特征的分数,然后按分数排序,从排序之后的商品数据中,选取前O个(topO)商品数据(第三级筛选层的目标样本)推送给用户。
在具体实现中,也可以根据实际情况,在最后一级的筛选层中直接将排序后的N个商品数据推送给用户,不再选取前O个商品数据来推送。本领域技术人员依据实际情况任意设置均可,本申请实施例对此不作限制。
参照图6,示出了本申请的一种业务对象数据搜索的方法实施例的步骤流程图,本实施例涉及在多级筛选层中搜索业务对象数据的过程,具体可以包括如下步骤:
步骤601,接收搜索关键词。
在具体实现中,用户可以通过浏览器、购物应用等客户端,向网络平台发送搜索请求,其中,该搜索请求中具有搜索关键词,可以用于请求网络平台搜索查找与之适配的业务对象数据。
步骤602,查找与所述搜索关键词匹配的初始业务对象数据;
若网络平台接收客户端发送的搜索请求,则可以从搜索请求中提取搜索关键词,通过倒排索引等方式查找与之匹配的业务对象数据,这些业务对象数据即为本实施例中所指初始业务对象数据。
步骤603,查询所述搜索关键词关联的各级筛选层的筛选数量;
在具体实现中,可以从数据库中,查找在先训练的,该搜索关键词关联的、用于在各级筛选层筛选业务对象数据的筛选数量。
在本申请的一个实施例中,可以通过如下方式训练筛选数量:
子步骤S31,基于预设的优化目标参数计算目标样本特征的目标样本权重,所述目标样本特征从目标样本提取;
子步骤S32,计算所述目标样本权重对于当前筛选层目标样本特征的内积,作为所述训练样本通过当前筛选层筛选进入下一级筛选层的筛选概率;
子步骤S33,采用所述筛选概率计算所述训练样本通过当前筛选层筛选进入下一级筛选层的筛选数量;
其中,所述第二优化目标参数包括如下的一种或多种:
筛选业务对象数据的准确率、用于处理进入筛选层的训练样本的总代价系数、进入最后一级筛选层的训练样本的数量。
在本申请实施例中,由于子步骤S31-子步骤S33与样本筛选的方法实施例的应用基本相似,所以描述的比较简单,相关之处参见样本筛选的方法实施例的部分说明即可,本申请实施例在此不加以详述。
步骤604,从所述初始业务对象数据中提取出适于各级筛选层的目标样本特征;
在本申请实施例中,可以确定用于在每级筛选层中计算排序位置的特征类型,在每级筛选层中按照特征类型从业务对象数据中提取目标样本特征。
步骤605,根据所述目标样本特征,筛选出满足相应筛选层筛选数量的目标业务对象数据。
在查询到相关的筛选数量之后,可以在每级筛选层进行排序,并按照该筛选数据进行筛选。
在本申请的一个实施例中,步骤605可以包括如下子步骤:
子步骤S51,在当前筛选层中采用所述目标样本特征计算所述业务对象数据的分数。
在具体实现中,可以计算该目标样本特征对于指定的优化目标参数(如点击率、成交量、成交额等)的权重,对该权重赋予给相应的目标样本特征之后,通过加权求和、加权求平均值等方式计算业务对象数据的分数(feature)。
需要说明的是,每级筛选层计算过的分数(feature),为了避免重复计算,从在先的筛选层直接将该分数(feature)传给后续的筛选层。
子步骤S62,按照所述分数对所述业务对象数据进行排序。
子步骤S63,若当前筛选层为非最后一级筛选层时,将与所述筛选数量相等的、排序之后的业务对象数据输出至下一级筛选层。
子步骤S64,若当前筛选层为最后一级筛选层时,将所述业务对象数据设置为目标业务对象数据。
如果按照分数对业务对象数据进行顺序排序,假设筛选数量为Z,则可以提取排序最高的Z个业务对象数据,输入至下一层进行排序。
如果当前的筛选层为最后一级筛选层,则可以将业务对象数据设置为目标业务对象数据,返回客户端进行显示。
进一步而言,由于客户端的展示位置有限,因此,可以先返回排序最前的部分目标业务对象数据至客户端展示,在触发翻页操作等情况下,可以继续返回排序在后的部分目标业务对象数据至客户端继续展示。
例如,用户可以在购物网站的搜索框中输入搜索关键词(Query),搜索引擎接收到该搜索关键词后,通过查表的方式确定筛选数量M和N。
在商品池中,召回X个与该搜索关键词(Query)匹配的商品数据,输入瀑布流模型,该瀑布流模型总共有3级筛选层:
在第一级筛选层中,提取商品数据的3个特征,作为低代价特征,计算分数(feature)之后进行排序。
从排序之后的商品数据总选取前M个(topM)商品数据进入第二级筛选层,其余不推送给用户。
在第二级筛选层中,提取商品数据的5个特征,作为中代价特征,计算分数(feature)之后进行排序。
从排序之后的商品数据总选取前N个(topN)商品数据进入第三级筛选层,其余不推送给用户。
在第二级筛选层中,提取商品数据的10个特征,作为高代价特征,计算分数(feature)之后进行排序。
将排序后的商品数据,在购物网站的网页中推送给用户。
本申请实施例的瀑布流模型具有多个排序层、在每两个排序层之间对业务对象数据进行筛选,可以按照搜索关键词下业务对象数据的特征,对每两个排序层之间的筛选数量进行动态地调整,使得可以根据搜索关键词筛选合适数量、并且质量较高的业务对象数据,可以在保证搜索准确度高的情况下,节省计算资源。
本申请实施例基于筛选业务对象数据的准确率、用于处理进入当前排序层的业务对象数据的总代价系数、进入最后一个排序层的业务对象数据的数量等因素计算两个排序层之间的筛选数量进行动态地调整,可以优化搜索效果、性能并同时达到搜索的结果数量少而返回的结果不少,搜索的结果数量多而返回的结果不多的目标。
本申请实施例通过当前排序层筛选进入下一排序层的筛选概率计算训练样本通过当前排序层筛选进入下一排序层的筛选数量,符合计算总代价的方式,使得理论上的处理代价(如耗时)与实际的处理代价(如耗时)一致,保证模型总代价(如耗时、内存等资源代价的总和)准确。
参照图7,示出了本申请的一种样本筛选的方法实施例3的步骤流程图,具体可以包括如下步骤:
步骤701,设置多级筛选层;
步骤702,根据训练目标,提取出适于所述多级筛选层的目标样本特征;
步骤703,采用所述目标样本特征,确定适于多级筛选层的筛选数量;
步骤704,按照所述目标样本特征和筛选数量选取出目标样本。
在实际中,本领域技术人员可以基于开发需求或应用场景,比如,开发搜索引擎的要求,或基于商品成交总额的导向,或基于用户个性化喜好场景应用本实施例构建瀑布流模型,从而筛选出可以最大程度地优化资源,平衡效果和计算性能的最终样本。
在具体实现中,所述多级筛选层可以包括至少两级筛选层,其中,上一级筛选层所需的训练样本,多于下一级筛选层所需的训练样本;下一级筛选层的目标样本特征中,可以包含上一级筛选层的目标样本特征;上一级筛选层的筛选数量,大于下一级筛选层的筛选数量。
作为本申请实施例具体应用的一种示例,所述训练样本可以为与搜索关键词匹配的业务对象数据,本实施例还可以包括如下步骤:
生成所述搜索关键词与所述筛选数量之间的关联关系。
以一种业务对象数据的搜索过程为例,则本实施例还可以包括如下步骤:
接收搜索关键词;
查找与所述搜索关键词匹配的初始业务对象数据;
查询所述搜索关键词关联的各级筛选层的筛选数量;
从所述初始业务对象数据中提取出适于各级筛选层的目标样本特征;
根据所述目标样本特征,筛选出满足相应筛选层筛选数量的目标业务对象数据。
更为优选的是,所述根据所述目标样本特征,筛选出满足相应筛选层筛选数量的目标业务对象数据的步骤可以进一步包括如下子步骤:
在当前筛选层中,采用所述目标样本特征计算所述初始业务对象数据的分数;
按照所述分数对所述初始业务对象数据进行排序;
在当前筛选层为非最后一级筛选层时,将与所述筛选数量相等的、排序之后的业务对象数据输出至下一级筛选层;
在当前筛选层为最后一级筛选层时,将所筛选出的业务对象数据设置为目标业务对象数据。
在本申请的一种优选实施例中,所述根据训练目标,提取出适于所述多级筛选层的目标样本特征的步骤可以进一步包括如下子步骤:
从所述训练样本中提取原始样本特征;
确定所述原始样本特征的原始样本权重;
依据所述原始样本权重生成性价比参数;
按照所述性价比参数从所述原始样本特征中提取目标样本特征。
在具体实现中,所述原始样本权重可以为所述原始样本特征对于预设的第一优化目标参数的重要程度因子;所述依据所述原始样本权重生成性价比参数的子步骤进一步包括:
预置处理所述原始样本特征的代价系数;
计算所述原始样本权重与所述代价系数之间的比值为性价比参数。
作为本申请实施例具体应用的一种示例,所述业务对象数据可以为商品数据;所述原始样本特征可以包括商品数据的商品质量参数、售后服务评价参数、转换率、作弊评分参数;所述第一优化目标参数可以包括商品数据成交量;所述处理原始样本特征的代价系数可以包括耗时,内存应用率、CPU占用率。
在本申请的一种优选实施例中,所述采用所述目标样本特征,确定适于多级筛选层的筛选数量的步骤可以包括如下子步骤:
确定所述目标样本特征的目标样本权重;
依据所述目标样本权重,生成所述训练样本进入下一级筛选层的筛选概率;
采用所述筛选概率,计算所述当前层次需筛选出训练样本的筛选数量。
在具体实现中,所述目标样本权重可以为所述目标样本特征对于预设的第二优化目标参数的重要程度因子;所述第二优化目标参数可以包括如下的一种或多种:
筛选训练样本的准确率;
用于处理进入当前筛选层的训练样本的总代价系数;
进入最后一级筛选层的训练样本的数量。
作为本申请实施例具体应用的示例,所述依据所述目标样本权重,生成所述训练样本进入下一级筛选层的筛选概率的子步骤进一步包括:
计算所述目标样本权重对于当前筛选层目标样本特征的内积;
将所述内积映射到0-1之间,获得所述筛选概率。
进一步而言,所述采用所述筛选概率,计算所述当前层次需筛选出训练样本的筛选数量的子步骤进一步包括:
确定基准筛选数量,所述基准筛选数量为适于上一级筛选层的筛选数量;
在所述基准筛选数量的基础上,按照所述筛选概率进行衰减,获得当前层次需筛选出训练样本的筛选数量。
在具体实现中,本申请实施例还可以包括如下步骤:
判断是否遍历完所有预设的筛选层;
若是,则将所选取出的目标样本作为最终样本;
若否,则返回所述根据训练目标,提取出适于所述多级筛选层的目标样本特征的步骤。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图8,示出了本申请的一种样本筛选的装置实施例的结构框图,所述装置具体可以包括如下模块:
筛选层设置模块801,用于设置多级筛选层;
样本确定模块802,用于选取所述多级筛选层中当前筛选层所需的训练样本;
特征提取模块803,用于从所述训练样本中提取出适于当前筛选层的目标样本特征;
数量计算模块804,用于采用所述目标样本特征,确定适于当前筛选层的筛选数量;
筛选处理模块805,用于按照所述目标样本特征和筛选数量选取出目标样本。
在本申请实施例中,所述当前筛选层所需的训练样本可以多于下一级筛选层所需的训练样本;适于所述当前筛选层的目标样本特征中可以包含适于上一级筛选层的目标样本特征;适于所述当前筛选层的筛选数量可以大于下一级筛选层的筛选数量。
在本申请的一种优选实施例中,所述训练样本可以为与搜索关键词匹配的业务对象数据,在这种情况下,所述的装置还可以包括如下模块:
关系建立模块,用于生成所述搜索关键词与所述筛选数量之间的关联关系。
作为本申请实施例具体应用的一种优选示例,所述特征提取模块803可以包括如下子模块:
原始样本特征提取子模块,用于从所述训练样本中提取原始样本特征;
原始样本权重计算子模块,用于确定所述原始样本特征的原始样本权重;
性价比参数生成子模块,用于依据所述原始样本权重生成性价比参数;
目标样本特征提取子模块,用于按照所述性价比参数从所述原始样本特征中提取目标样本特征。
更为优选的是,所述原始样本权重可以为所述原始样本特征对于预设的第一优化目标参数的重要程度因子;
所述性价比参数生成子模块可以进一步包括如下单元:
代价系数预置单元,用于预置处理所述原始样本特征的代价系数;
性价比计算单元,用于计算所述原始样本权重与所述代价系数之间的比值为性价比参数。
在具体实现中,所述业务对象数据可以为商品数据;所述原始样本特征可以包括商品数据的商品质量参数、售后服务评价参数、转换率、作弊评分参数;所述第一优化目标参数可以包括商品数据成交量;所述处理原始样本特征的代价系数可以包括耗时,内存应用率、CPU占用率。
在本申请的一种优选实施例中,所述数量计算模块804可以包括如下子模块:
目标样本权重计算子模块,用于确定所述目标样本特征的目标样本权重;
筛选概率生成子模块,用于依据所述目标样本权重,生成所述训练样本进入下一级筛选层的筛选概率;
筛选数量计算子模块,用于采用所述筛选概率,计算所述当前层次需筛选出训练样本的筛选数量。
作为本申请实施例具体应用的一种优选示例,所述目标样本权重可以为所述目标样本特征对于预设的第二优化目标参数的重要程度因子;
所述第二优化目标参数可以包括如下的一种或多种:
筛选训练样本的准确率;
用于处理进入当前筛选层的训练样本的总代价系数;
进入最后一级筛选层的训练样本的数量。
更为优选的是,所述筛选概率生成子模块可以进一步包括如下单元:
内积计算单元,用于计算所述目标样本权重对于当前筛选层目标样本特征的内积;
映射单元,用于将所述内积映射到0-1之间,获得所述筛选概率。
所述筛选数量计算子模块可以进一步包括如下单元:
基准量确定单元,用于确定基准筛选数量,所述基准筛选数量为适于上一级筛选层的筛选数量;
衰减单元,用于在所述基准筛选数量的基础上,按照所述筛选概率进行衰减,获得当前层次需筛选出训练样本的筛选数量。
作为本申请的另一种优选实施例,所述装置还可以包括如下模块:
遍历模块,用于判断是否遍历完所有预设的筛选层;若是,则调用最终样本确认模块,若否,则返回调用样本确定模块;
样本确认模块,用于将所选取出的目标样本作为最终样本。
在具体实现中,还可以通过推送模块将所述最终样本推送给用户。
参考图9,示出了本申请的一种业务对象数据搜索的装置实施例的结构框图,所述装置涉及在多级筛选层中搜索业务对象数据的处理,具体可以包括如下模块:
关键词接收模块901,用于接收搜索关键词;
关键词查找模块902,用于查找与所述搜索关键词匹配的初始业务对象数据;
筛选数量查询模块903,用于查询所述搜索关键词关联的各级筛选层的筛选数量;
样本特征提取模块904,用于从所述初始业务对象数据中提取出适于各级筛选层的目标样本特征;
筛选处理模块905,用于根据所述目标样本特征,筛选出满足相应筛选层筛选数量的目标业务对象数据。
在本申请的一种优选实施例中,所述筛选处理模块905可以包括如下子模块:
分数计算子模块,用于在当前筛选层中,采用所述目标样本特征计算所述初始业务对象数据的分数;
排序子模块,用于按照所述分数对所述初始业务对象数据进行排序;
数据输出子模块,用于在当前筛选层为非最后一级筛选层时,将与所述筛选数量相等的、排序之后的业务对象数据输出至下一级筛选层;
结果确认子模块,用于在当前筛选层为最后一级筛选层时,将所筛选出的业务对象数据设置为目标业务对象数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的系统。图10示意性地示出了可被用于实现本公开中所述的各个实施例的示例性装置(或系统)400。
对于一个实施例,图10示出了示例性装置400,该装置具有一个或多个处理器402、被耦合到(一个或多个)处理器402中的至少一个的系统控制模块(芯片组)404、被耦合到系统控制模块404的系统存储器406、被耦合到系统控制模块404的非易失性存储器(NVM)/存储设备408、被耦合到系统控制模块404的一个或多个输入/输出设备410,以及被耦合到系统控制模块406的网络接口412。
处理器402可包括一个或多个单核或多核处理器,处理器402可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。
在一些实施例中,系统400可包括具有指令的一个或多个计算机可读介质(例如,系统存储器406或NVM/存储设备408)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本公开中所述的动作的一个或多个处理器402。
对于一个实施例,系统控制模块404可包括任意适当的接口控制器,以向(一个或多个)处理器402中的至少一个和/或与系统控制模块404通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块404可包括存储器控制器模块,以向系统存储器406提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器406可被用于例如为系统400加载和存储数据和/或指令。对于一个实施例,系统存储器406可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器406可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块404可包括一个或多个输入/输出控制器,以向NVM/存储设备408及(一个或多个)输入/输出设备410提供接口。
例如,NVM/存储设备408可被用于存储数据和/或指令。NVM/存储设备408可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备408可包括在物理上作为系统400被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备408可通过网络经由(一个或多个)输入/输出设备410进行访问。
(一个或多个)输入/输出设备410可为系统400提供接口以与任意其他适当的设备通信,输入/输出设备410可以包括通信组件、音频组件、传感器组件等。网络接口412可为系统400提供接口以通过一个或多个网络通信,系统400可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器402中的至少一个可与系统控制模块404的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器402中的至少一个可与系统控制模块404的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器402中的至少一个可与系统控制模块404的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器402中的至少一个可与系统控制模块404的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统400可以但不限于是:工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统400可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统400包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端设备时,可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。
在一个示例中提供了一种装置,包括:一个或多个处理器;和,其上存储的有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如本申请实施例中的方法。
在一个示例中还提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如本申请实施例中的方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种样本筛选的方法、一种业务对象数据搜索的方法和相应的一种样本筛选的装置、一种业务对象数据搜索的装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (30)

1.一种样本筛选的方法,其特征在于,包括:
设置多级筛选层;
选取所述多级筛选层中当前筛选层所需的训练样本;所述训练样本为与搜索关键词匹配的业务对象数据,所述业务对象数据为商品数据、临床观察数据、新闻数据、移动通讯数据中的至少一种;
从所述训练样本中提取出适于当前筛选层的目标样本特征;
采用所述目标样本特征,确定适于当前筛选层的筛选数量;
按照所述目标样本特征和筛选数量选取出目标样本,所述目标样本用于训练当前筛选层,以使所述多级筛选层适用于业务对象数据搜索。
2.根据权利要求1所述的方法,其特征在于,所述当前筛选层所需的训练样本,多于下一级筛选层所需的训练样本;
适于所述当前筛选层的目标样本特征中,包含适于上一级筛选层的目标样本特征;
适于所述当前筛选层的筛选数量,大于下一级筛选层的筛选数量。
3.根据权利要求1或2所述的方法,其特征在于,所述的方法还包括:
生成所述搜索关键词与所述筛选数量之间的关联关系。
4.根据权利要求1或2所述的方法,其特征在于,所述从所述训练样本中提取出适于当前筛选层的目标样本特征步骤包括:
从所述训练样本中提取原始样本特征;
确定所述原始样本特征的原始样本权重;
依据所述原始样本权重生成性价比参数;
按照所述性价比参数从所述原始样本特征中提取目标样本特征。
5.根据权利要求4所述的方法,其特征在于,所述原始样本权重为所述原始样本特征对于预设的第一优化目标参数的重要程度因子;
所述依据所述原始样本权重生成性价比参数的子步骤进一步包括:
预置处理所述原始样本特征的代价系数;
计算所述原始样本权重与所述代价系数之间的比值为性价比参数。
6.根据权利要求5所述的方法,其特征在于,所述原始样本特征包括商品数据的商品质量参数、售后服务评价参数、转换率、作弊评分参数;所述第一优化目标参数包括商品数据成交量;所述处理原始样本特征的代价系数包括耗时,内存应用率、CPU占用率。
7.根据权利要求1或2或5或6所述的方法,其特征在于,所述采用所述目标样本特征,确定适于当前筛选层的筛选数量的步骤包括:
确定所述目标样本特征的目标样本权重;
依据所述目标样本权重,生成所述训练样本进入下一级筛选层的筛选概率;
采用所述筛选概率,计算所述当前层次需筛选出训练样本的筛选数量。
8.根据权利要求7所述的方法,其特征在于,所述目标样本权重为所述目标样本特征对于预设的第二优化目标参数的重要程度因子;
所述第二优化目标参数包括如下的一种或多种:
筛选训练样本的准确率;
用于处理进入当前筛选层的训练样本的总代价系数;
进入最后一级筛选层的训练样本的数量。
9.根据权利要求7所述的方法,其特征在于,所述依据所述目标样本权重,生成所述训练样本进入下一级筛选层的筛选概率的子步骤进一步包括:
计算所述目标样本权重对于当前筛选层目标样本特征的内积;
将所述内积映射到0-1之间,获得所述筛选概率。
10.根据权利要求8或9所述的方法,其特征在于,所述采用所述筛选概率,计算所述当前层次需筛选出训练样本的筛选数量的子步骤进一步包括:
确定基准筛选数量,所述基准筛选数量为适于上一级筛选层的筛选数量;
在所述基准筛选数量的基础上,按照所述筛选概率进行衰减,获得当前层次需筛选出训练样本的筛选数量。
11.根据权利要求1或2所述的方法,其特征在于,还包括:
判断是否遍历完所有预设的筛选层;
若是,则将所选取出的目标样本作为最终样本;
若否,则返回所述确定当前筛选层所需的训练样本的步骤。
12.根据权利要求11所述的方法,其特征在于,还包括:
将所述最终样本推送给用户。
13.一种业务对象数据搜索的方法,其特征在于,所述方法涉及在多级筛选层中搜索业务对象数据的过程,所述多级筛选层基于目标样本训练得到,所述目标样本按照从训练样本中提取的适于不同筛选层的目标样本特征以及筛选数量选取得到;所述方法具体包括:
接收搜索关键词;
查找与所述搜索关键词匹配的初始业务对象数据;
查询所述搜索关键词关联的各级筛选层的筛选数量;
从所述初始业务对象数据中提取出适于各级筛选层的目标样本特征;
根据所述目标样本特征,筛选出满足相应筛选层筛选数量的目标业务对象数据。
14.根据权利要求13所述的方法,其特征在于,所述根据所述目标样本特征,筛选出满足相应筛选层筛选数量的目标业务对象数据的步骤包括:
在当前筛选层中,采用所述目标样本特征计算所述初始业务对象数据的分数;
按照所述分数对所述初始业务对象数据进行排序;
在当前筛选层为非最后一级筛选层时,将与所述筛选数量相等的、排序之后的业务对象数据输出至下一级筛选层;
在当前筛选层为最后一级筛选层时,将所筛选出的业务对象数据设置为目标业务对象数据。
15.一种样本筛选的方法,其特征在于,包括:
设置多级筛选层;根据训练目标,提取出适于所述多级筛选层的目标样本特征;所述目标样本特征根据所述训练目标从训练样本中提取得到,所述训练样本为与搜索关键词匹配的业务对象数据,所述业务对象数据为商品数据、临床观察数据、新闻数据、移动通讯数据中的至少一种;
采用所述目标样本特征,确定适于多级筛选层的筛选数量;
按照所述目标样本特征和筛选数量选取出目标样本,所述目标样本用于训练多级筛选层,以使所述多级筛选层适用于业务对象数据搜索。
16.根据权利要求15所述的方法,其特征在于,所述多级筛选层包括至少两级筛选层,其中,上一级筛选层所需的训练样本,多于下一级筛选层所需的训练样本;下一级筛选层的目标样本特征中,包含上一级筛选层的目标样本特征;上一级筛选层的筛选数量,大于下一级筛选层的筛选数量。
17.一种样本筛选的装置,其特征在于,包括:
筛选层设置模块,用于设置多级筛选层;
样本确定模块,用于选取所述多级筛选层中当前筛选层所需的训练样本;所述训练样本为与搜索关键词匹配的业务对象数据,所述业务对象数据为商品数据、临床观察数据、新闻数据、移动通讯数据中的至少一种;
特征提取模块,用于从所述训练样本中提取出适于当前筛选层的目标样本特征;
数量计算模块,用于采用所述目标样本特征,确定适于当前筛选层的筛选数量;
筛选处理模块,用于按照所述目标样本特征和筛选数量选取出目标样本,所述目标样本用于训练当前筛选层,以使所述多级筛选层适用于业务对象数据搜索。
18.根据权利要求17所述的装置,其特征在于,所述当前筛选层所需的训练样本,多于下一级筛选层所需的训练样本;
适于所述当前筛选层的目标样本特征中,包含适于上一级筛选层的目标样本特征;
适于所述当前筛选层的筛选数量,大于下一级筛选层的筛选数量。
19.根据权利要求17或18所述的装置,其特征在于,所述的装置还包括:
关系建立模块,用于生成所述搜索关键词与所述筛选数量之间的关联关系。
20.根据权利要求17或18所述的装置,其特征在于,所述特征提取模块包括:
原始样本特征提取子模块,用于从所述训练样本中提取原始样本特征;
原始样本权重计算子模块,用于确定所述原始样本特征的原始样本权重;
性价比参数生成子模块,用于依据所述原始样本权重生成性价比参数;
目标样本特征提取子模块,用于按照所述性价比参数从所述原始样本特征中提取目标样本特征。
21.根据权利要求20所述的装置,其特征在于,所述原始样本权重为所述原始样本特征对于预设的第一优化目标参数的重要程度因子;
所述性价比参数生成子模块进一步包括:
代价系数预置单元,用于预置处理所述原始样本特征的代价系数;
性价比计算单元,用于计算所述原始样本权重与所述代价系数之间的比值为性价比参数。
22.根据权利要求17或18或21所述的装置,其特征在于,所述数量计算模块包括:
目标样本权重计算子模块,用于确定所述目标样本特征的目标样本权重;
筛选概率生成子模块,用于依据所述目标样本权重,生成所述训练样本进入下一级筛选层的筛选概率;
筛选数量计算子模块,用于采用所述筛选概率,计算所述当前层次需筛选出训练样本的筛选数量。
23.根据权利要求22所述的装置,其特征在于,所述目标样本权重为所述目标样本特征对于预设的第二优化目标参数的重要程度因子;
所述第二优化目标参数包括如下的一种或多种:
筛选训练样本的准确率;
用于处理进入当前筛选层的训练样本的总代价系数;
进入最后一级筛选层的训练样本的数量。
24.根据权利要求22所述的装置,其特征在于,所述筛选概率生成子模块进一步包括:
内积计算单元,用于计算所述目标样本权重对于当前筛选层目标样本特征的内积;
映射单元,用于将所述内积映射到0-1之间,获得所述筛选概率。
25.根据权利要求23或24所述的装置,其特征在于,所述筛选数量计算子模块进一步包括:
基准量确定单元,用于确定基准筛选数量,所述基准筛选数量为适于上一级筛选层的筛选数量;
衰减单元,用于在所述基准筛选数量的基础上,按照所述筛选概率进行衰减,获得当前层次需筛选出训练样本的筛选数量。
26.根据权利要求17或18所述的装置,其特征在于,还包括:
遍历模块,用于判断是否遍历完所有预设的筛选层;若是,则调用最终样本确认模块,若否,则返回调用样本确定模块;
样本确认模块,用于将所选取出的目标样本作为最终样本。
27.一种业务对象数据搜索的装置,其特征在于,所述装置涉及在多级筛选层中搜索业务对象数据的处理,所述多级筛选层基于目标样本训练得到,所述目标样本按照从训练样本中提取的适于不同筛选层的目标样本特征以及筛选数量选取得到;所述装置具体包括:
关键词接收模块,用于接收搜索关键词;
关键词查找模块,用于查找与所述搜索关键词匹配的初始业务对象数据;
筛选数量查询模块,用于查询所述搜索关键词关联的各级筛选层的筛选数量;
样本特征提取模块,用于从所述初始业务对象数据中提取出适于各级筛选层的目标样本特征;
筛选处理模块,用于根据所述目标样本特征,筛选出满足相应筛选层筛选数量的目标业务对象数据。
28.根据权利要求27所述的装置,其特征在于,所述筛选处理模块包括:
分数计算子模块,用于在当前筛选层中,采用所述目标样本特征计算所述初始业务对象数据的分数;
排序子模块,用于按照所述分数对所述初始业务对象数据进行排序;
数据输出子模块,用于在当前筛选层为非最后一级筛选层时,将与所述筛选数量相等的、排序之后的业务对象数据输出至下一级筛选层;
结果确认子模块,用于在当前筛选层为最后一级筛选层时,将所筛选出的业务对象数据设置为目标业务对象数据。
29.一种装置,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如权利要求1-12和13-14,以及15-16一个或多个的方法。
30.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1-12和13-14,以及15-16一个或多个的方法。
CN201710577080.0A 2017-07-14 2017-07-14 样本筛选的方法和装置、业务对象数据搜索的方法和装置 Active CN110019990B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201710577080.0A CN110019990B (zh) 2017-07-14 2017-07-14 样本筛选的方法和装置、业务对象数据搜索的方法和装置
TW107120127A TW201909006A (zh) 2017-07-14 2018-06-12 樣本篩選的方法和裝置、業務對象資料搜尋的方法和裝置
US16/035,263 US10990849B2 (en) 2017-07-14 2018-07-13 Sample screening method and apparatus, and service object data searching method and apparatus
PCT/US2018/042109 WO2019014607A1 (en) 2017-07-14 2018-07-13 METHOD AND APPARATUS FOR SCREEN SCREENING, AND METHOD AND APPARATUS FOR SEARCHING SERVICE OBJECT DATA

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710577080.0A CN110019990B (zh) 2017-07-14 2017-07-14 样本筛选的方法和装置、业务对象数据搜索的方法和装置

Publications (2)

Publication Number Publication Date
CN110019990A CN110019990A (zh) 2019-07-16
CN110019990B true CN110019990B (zh) 2023-05-23

Family

ID=64999140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710577080.0A Active CN110019990B (zh) 2017-07-14 2017-07-14 样本筛选的方法和装置、业务对象数据搜索的方法和装置

Country Status (4)

Country Link
US (1) US10990849B2 (zh)
CN (1) CN110019990B (zh)
TW (1) TW201909006A (zh)
WO (1) WO2019014607A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112770676A (zh) * 2018-09-27 2021-05-07 国立大学法人大阪大学 头颅图像中的测量点的自动识别方法
CN110265001B (zh) * 2019-05-06 2023-06-23 平安科技(深圳)有限公司 用于语音识别训练的语料筛选方法、装置及计算机设备
CN110400613B (zh) * 2019-06-10 2023-06-30 南京医基云医疗数据研究院有限公司 一种随访患者筛选方法、装置、可读介质及电子设备
CN110673590B (zh) * 2019-10-21 2021-02-05 安徽江淮汽车集团股份有限公司 自动驾驶系统可靠性判断方法、装置、设备及存储介质
CN110851581B (zh) * 2019-11-19 2022-11-11 东软集团股份有限公司 一种模型参数确定方法、装置、设备及存储介质
CN111400174B (zh) * 2020-03-05 2022-08-12 支付宝(杭州)信息技术有限公司 数据源的应用效能的确定方法、装置和服务器
CN111667024B (zh) * 2020-06-30 2023-09-05 腾讯科技(深圳)有限公司 内容推送方法、装置、计算机设备和存储介质
CN111783452B (zh) * 2020-06-30 2024-04-02 北京百度网讯科技有限公司 模型训练方法、信息处理方法、装置、设备及存储介质
CN112069329B (zh) * 2020-09-11 2024-03-15 腾讯科技(深圳)有限公司 文本语料的处理方法、装置、设备及存储介质
CN112560928B (zh) * 2020-12-08 2021-10-26 北京百度网讯科技有限公司 负样本挖掘方法、装置、电子设备及存储介质
CN112613983B (zh) * 2020-12-25 2023-11-21 北京知因智慧科技有限公司 一种机器建模过程中的特征筛选方法、装置及电子设备
CN113204542B (zh) * 2021-04-22 2023-08-22 武汉大学 一种异常用电样本清洗及行为识别方法
CN113591986A (zh) * 2021-07-30 2021-11-02 阿里巴巴新加坡控股有限公司 用于生成推荐模型的对象权值的方法和个性化推荐方法
CN113343020B (zh) * 2021-08-06 2021-11-26 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置及电子设备
CN114493668B (zh) * 2021-12-28 2023-04-07 北京爱上车科技有限公司 车辆信息处理方法、装置、设备及存储介质
CN114511022B (zh) * 2022-01-24 2022-12-27 百度在线网络技术(北京)有限公司 特征筛选、行为识别模型训练、异常行为识别方法及装置
CN116402166B (zh) * 2023-06-09 2023-09-01 天津市津能工程管理有限公司 一种预测模型的训练方法、装置、电子设备及存储介质
CN116842060B (zh) * 2023-08-30 2024-01-09 之江实验室 一种基于代理模型重排技术的推理查询优化方法及装置
CN116821193B (zh) * 2023-08-30 2024-01-09 之江实验室 一种基于代理模型近似处理的推理查询优化方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103026234A (zh) * 2010-04-30 2013-04-03 雅培医护站股份有限公司 用于在免疫测定中减少白细胞干扰的试剂
CN103530376A (zh) * 2013-10-15 2014-01-22 北京百度网讯科技有限公司 筛选条件提供方法、装置和搜索方法、装置
CN105095210A (zh) * 2014-04-22 2015-11-25 阿里巴巴集团控股有限公司 一种筛选推广关键词的方法和装置
CN106339382A (zh) * 2015-07-07 2017-01-18 阿里巴巴集团控股有限公司 一种业务对象的推送方法和装置
CN106407210A (zh) * 2015-07-29 2017-02-15 阿里巴巴集团控股有限公司 一种业务对象的展示方法和装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090019552A1 (en) * 2000-03-15 2009-01-15 Mclaughlin Mark R Healthcare Medical Information Management System
US7007008B2 (en) 2000-08-08 2006-02-28 America Online, Inc. Category searching
ATE476908T1 (de) * 2003-04-18 2010-08-15 Medispectra Inc System und diagnoseverfahren zur optischen detektion von verdächtigen stellen einer gewebeprobe
US7194301B2 (en) * 2003-10-06 2007-03-20 Transneuronic, Inc. Method for screening and treating patients at risk of medical disorders
US20070244375A1 (en) * 2004-09-30 2007-10-18 Transeuronix, Inc. Method for Screening and Treating Patients at Risk of Medical Disorders
CA2663222C (en) 2006-09-14 2018-01-16 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
US8170306B2 (en) * 2007-04-25 2012-05-01 Siemens Aktiengesellschaft Automatic partitioning and recognition of human body regions from an arbitrary scan coverage image
US8204916B2 (en) 2008-03-06 2012-06-19 Microsoft Corporation Hierarchical presentation of search results
TWI460602B (zh) * 2008-05-16 2014-11-11 Counsyl Inc 廣用的懷孕前篩檢裝置
WO2010030794A1 (en) 2008-09-10 2010-03-18 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data
US8060456B2 (en) * 2008-10-01 2011-11-15 Microsoft Corporation Training a search result ranker with automatically-generated samples
CA2748823A1 (en) * 2009-01-06 2010-07-15 Source Precision Medicine, Inc. D/B/A Source Mdx Gene expression profiling for the identification, monitoring, and treatment of prostate cancer
JP2012235796A (ja) 2009-09-17 2012-12-06 Sharp Corp 診断処理装置、診断処理システム、診断処理方法、診断処理プログラム及びコンピュータ読み取り可能な記録媒体、並びに、分類処理装置
US8332405B2 (en) 2009-09-29 2012-12-11 Sap Ag Marketing project filter search tools
WO2015179868A2 (en) * 2014-05-23 2015-11-26 Dacadoo Ag Automated health data acquisition, processing and communication system
WO2012075069A2 (en) * 2010-12-02 2012-06-07 Dana-Farber Cancer Institute, Inc. Signatures and determinants associated with cancer and methods of use thereof
US20140201203A1 (en) 2013-01-15 2014-07-17 Prafulla Krishna System, method and device for providing an automated electronic researcher
US20150039625A1 (en) 2013-02-14 2015-02-05 Loggly, Inc. Hierarchical Temporal Event Management
BR112015022490A2 (pt) * 2013-03-15 2017-07-18 Veracyte Inc métodos e composições para classificação de amostras
US9730643B2 (en) * 2013-10-17 2017-08-15 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103026234A (zh) * 2010-04-30 2013-04-03 雅培医护站股份有限公司 用于在免疫测定中减少白细胞干扰的试剂
CN103530376A (zh) * 2013-10-15 2014-01-22 北京百度网讯科技有限公司 筛选条件提供方法、装置和搜索方法、装置
CN105095210A (zh) * 2014-04-22 2015-11-25 阿里巴巴集团控股有限公司 一种筛选推广关键词的方法和装置
CN106339382A (zh) * 2015-07-07 2017-01-18 阿里巴巴集团控股有限公司 一种业务对象的推送方法和装置
CN106407210A (zh) * 2015-07-29 2017-02-15 阿里巴巴集团控股有限公司 一种业务对象的展示方法和装置

Also Published As

Publication number Publication date
CN110019990A (zh) 2019-07-16
WO2019014607A1 (en) 2019-01-17
US10990849B2 (en) 2021-04-27
TW201909006A (zh) 2019-03-01
US20190019064A1 (en) 2019-01-17

Similar Documents

Publication Publication Date Title
CN110019990B (zh) 样本筛选的方法和装置、业务对象数据搜索的方法和装置
US8793265B2 (en) Method and system for selecting personalized search engines for accessing information
KR102109995B1 (ko) 검색 결과를 랭킹하는 방법과 시스템 및 검색 결과 랭킹을 최적화하는 방법과 시스템
WO2018006703A1 (zh) 文本内容的推荐方法、系统及存储介质
US20190018900A1 (en) Method and Apparatus for Displaying Search Results
US8370332B2 (en) Blending mobile search results
CN103339623B (zh) 涉及因特网搜索的方法和设备
US8046351B2 (en) Method and system for selecting search engines for accessing information
US8463785B2 (en) Method and system for generating search collection of query
US20060173556A1 (en) Methods and apparatus for using user gender and/or age group to improve the organization of documents retrieved in response to a search query
WO2012177901A1 (en) Search method and apparatus
US20160117334A1 (en) Search Method and Apparatus
WO2016134580A1 (zh) 一种数据查询方法及装置
US11226972B2 (en) Ranking collections of document passages associated with an entity name by relevance to a query
CN113641896A (zh) 一种模型训练以及推荐概率预测方法及装置
US8682892B1 (en) Ranking search results
US9002832B1 (en) Classifying sites as low quality sites
CN106951527B (zh) 一种歌曲推荐方法及装置
CN113703688A (zh) 一种基于大数据和文件热度的分布式存储节点负载调整方法
CN110990714B (zh) 一种用户行为意图预测方法和装置
WO2023151576A1 (zh) 搜索推荐方法、搜索推荐系统、计算机设备及存储介质
WO2022268089A1 (zh) 一种数据处理方法、系统及相关设备
CN113761084A (zh) 一种poi搜索排序模型训练方法、排序装置与方法及介质
CN113297254A (zh) 一种概念化查询方法和装置
KR101649146B1 (ko) 검색 방법 및 검색 서버

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant