CN105528652A - 一种预测模型的建立方法及终端 - Google Patents

一种预测模型的建立方法及终端 Download PDF

Info

Publication number
CN105528652A
CN105528652A CN201510883264.0A CN201510883264A CN105528652A CN 105528652 A CN105528652 A CN 105528652A CN 201510883264 A CN201510883264 A CN 201510883264A CN 105528652 A CN105528652 A CN 105528652A
Authority
CN
China
Prior art keywords
sample
characteristic information
type characteristic
weight
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510883264.0A
Other languages
English (en)
Inventor
江頔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201510883264.0A priority Critical patent/CN105528652A/zh
Publication of CN105528652A publication Critical patent/CN105528652A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种预测模型的建立方法,包括:从预置的第一训练样本库中获取包括枚举型特征信息的样本;将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本;从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型。本发明实施例还公开了一种终端。采用本发明,可使得终端基于GBDT模型对枚举型特征信息进行训练获得预测模型,提高预测模型的准确性。

Description

一种预测模型的建立方法及终端
技术领域
本发明涉及电子计算领域,尤其涉及一种预测模型的建立方法及终端。
背景技术
广告点击率(Click-ThroughRate)预估是互联网计算广告中的关键环节,CTR预估的准确性直接影响公司广告收入。
目前,在对精准内容(如广告投放/媒体推荐等)的点击率进行预测时,通常是通过建立CTR预测模型进行预测。目前CTR预测模型主要是利用GBDT模型进行建立CTR预测模型。但是,在利用GBDT(GradientBoostingDecisionTree,梯度提升决策树)模型进行建立CTR预测模型时,样本包括的特征信息中可包括枚举型特征信息,枚举型特征信息可如用户的性别、所在地点等,该特征信息取值众多,而由于GBDT模型较为复杂,无法支持非常大规模的训练数据,因此也无法支持取值多的枚举型特征信息。这使得GBDT模型在对样本进行训练时,往往是丢弃掉包括枚举型特征信息的样本进行训练,这使得GBDT模型训练的样本类型过少,从而使得训练获得的CTR预测模型无法准确预估结果,从而降低预测准确率。
发明内容
本发明实施例所要解决的技术问题在于,提供一种预测模型的建立方法及终端。可使得终端基于GBDT模型对枚举型特征信息进行训练获得预测模型,提高预测模型的准确性。
为了解决上述技术问题,本发明实施例提供了一种预测模型的建立方法,包括:
从预置的第一训练样本库中获取包括枚举型特征信息的样本;
将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本;
从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型。
其中,所述获取预置的第一训练样本库之前包括:
从预置的第二训练样本库中获取样本,其中,所述样本包括所述枚举型特征信息;
采用逻辑回归模型对所述样本进行训练,获得所述枚举型特征信息所对应的权重;
建立所述枚举型特征信息与所述权重的对应关系。
其中,所述将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本包括:
根据所述枚举型特征信息与所述权重的对应关系,获取所述枚举型特征信息所对应的权重;
将所述枚举型特征信息转换为所述权重,获得包括所述权重的样本。
其中,所述从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型之后还包括:
根据预置的测试样本对所述预测模型进行测试,获得测试结果;
根据所述测试结果调整所述预测模式。
其中,所述从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型之后包括:
当接收到待预测的样本时,根据所述预测模型对所述待预测的样本进行计算获得预测结果;
根据所述预测结果输出提示信息。
相应地,本发明实施例还提供了一种终端,包括:
第一获取单元,用于从预置的第一训练样本库中获取包括枚举型特征信息的样本;
第二获取单元,用于将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本;
第一训练单元,用于从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型。
其中,所述终端包括:
第三获取单元,用于从预置的第二训练样本库中获取样本,其中,所述样本包括所述枚举型特征信息;
第二训练单元,用于采用逻辑回归模型对所述样本进行训练,获得所述枚举型特征信息所对应的权重;
建立单元,用于建立所述枚举型特征信息与所述权重的对应关系。
其中,所述第二获取单元包括:
获取子单元,用于根据所述枚举型特征信息与所述权重的对应关系,获取所述枚举型特征信息所对应的权重;
转换子单元,用于将所述枚举型特征信息转换为所述权重,获得包括所述权重的样本。
其中,所述终端还包括:
测试单元,用于根据预置的测试样本对所述预测模型进行测试,获得测试结果;
调整单元,用于根据所述测试结果调整所述预测模式。
其中,所述终端还包括:
计算单元,用于当接收到待预测的样本时,根据所述预测模型对所述待预测的样本进行计算获得预测结果;
输出单元,用于根据所述预测结果输出提示信息。
实施本发明实施例,具有如下有益效果:
本发明实施例通过从预置的第一训练样本库中获取包括枚举型特征信息的样本,将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本,从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型,使得终端可基于GBDT模型对枚举型特征信息进行训练获得预测模型,提高预测模型的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的及一种预测模型的建立方法的第一实施例流程示意图;
图2是本发明实施例提供的及一种预测模型的建立方法的第二实施例流程示意图;
图3是本发明实施例提供的及一种预测模型的建立方法的第三实施例流程示意图;
图4是本发明一种终端的第一实施例结构图;
图5是本发明一种终端的第二实施例结构图;
图6是本发明一种终端的第三实施例结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中所描述的终端可以是进行样本训练的服务器。
参见图1,是本发明实施例提供的及一种预测模型的建立方法第一实施例流程示意图。本发明实施例的及一种预测模型的建立方法包括如下步骤:
S100,从预置的第一训练样本库中获取包括枚举型特征信息的样本。
在本发明实施例中,在进行CTR预估时,终端可构建第一训练样本库,其中,第一训练样本库可以是用户将处理获得的第一训练样本库预置在终端中,或者终端采集样本存储在第一训练样本库,为提高训练稳定性,防止训练过拟合,第一训练样本库可包括适量样本,如几万条样本。进一步的,样本可包括特征信息以及特征信息对应的目标值,特征信息可以是,用户的年龄,性别,地点,职业,学校,手机平台、广告大小,广告文本,广告所属行业,广告图片等信息。具体的,特征信息还可以是枚举型特征信息或数值型特征信息。其中,枚举型特征信息之间不具有大小关系,如性别、地点和学校等特征信息,且枚举型特征信息可包括多个取值,如枚举型特征信息“姓名”可包括多个姓名;数值型特征信息之间具有大小关系,如年龄、COEC(ClickOverExpectedClick,超预期点击)等取值为自然数或实数的特征信息,其中,COEC为历史点击量与历史预期点击量的比值,历史预期点击量为展现量与某展现位置上平均点击率的乘积,目标值可以是特征信息对应的点击率。进一步的,样本可以是一组向量,向量包括特征信息对应的特征值及特征信息对应的目标值,目标值的范围可以是在{0,1}之间。
S101,将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本。
在本发明实施例中,终端可从预置的第一训练样本库中获取包括枚举型特征信息的样本,从而获取样本中的枚举型特征信息。当终端获取到样本中的枚举型特征信息后,终端可根据预置的枚举型特征信息与权重的对应关系,获取枚举型特征信息所对应的权重,其中,权重为一个自然数或实数。当终端获取到枚举型特征信息所对应的权重后,终端可将样本中的枚举型特征信息转换为对应的权重,获得包括权重的样本,即是将包括多个取值的枚举型特征信息简化为一个取值的权重,从而简化了在处理枚举型特征信息的计算量。
S102,从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,生成预测模型。
在本发明实施例中,当终端将第一训练样本库中包括枚举型特征信息的样本转换为包括权重的样本后,终端获取到第一训练样本库中的包括数值型特征信息的样本,如COEC。从而终端可通过GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型,该预测模型可以为CTR预测模型。进一步的,由于样本包括的枚举型特征信息转化为对应的权重,因此,GBDT模型可对包括权重的样本进行训练,这解决了GBDT模型无法处理高维向量的问题,从而简便了CBDT模型的计算量,有效提高CTR预测模型的准确性。
在本发明实施例中,GBDT模型是一种迭代的决策树算法,可以用来做分类、回归,如可以用来预测年龄、预测天气预报等。该算法由多棵决策树组成,所有树的结论累加起来做最终答案。其中,GBDT模型在处理数值型特征信息时,为了挖掘出特征信息与目标值之间的非线性关系,GBDT模型可直接进行离散化,而不需进行人工离散化,从而可以更加精确的挖掘出特征信息与目标值之间的非线性关系,从而提高预测模型的准确性并简便用户操作。
进一步的,在本发明实施例中,GBDT模式的训练方法的具体实现方式可参见现有的GBDT训练方法,在此不赘述。
在本发明实施例中,本发明实施例通过从预置的第一训练样本库中获取包括枚举型特征信息的样本,将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本,从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型,使得终端可基于GBDT模型对枚举型特征信息进行训练获得预测模型,提高预测模型的准确性。
参见图2,是本发明实施例提供的及一种预测模型的建立方法第二实施例流程示意图。本发明实施例的及一种预测模型的建立方法包括如下步骤:
S200,从预置的第二训练样本库中获取样本,其中,所述样本包括所述枚举型特征信息。
在本发明实施例中,终端可构建第二训练样本库,其中,第二训练样本库可以是用户将处理获得的第二训练样本库预置在终端中,或者终端采集样本存储在第二训练样本库中。为提高训练准确性,第二训练样本库可包括大量样本,如上亿条训练样本,具体的,第二训练样本库所包括的样本数远远大于第一训练样本库所包括的样本数。进一步的,在本发明实施例中,第二训练样本库中的样本仅仅包括枚举型特征信息以及枚举型特征信息对应的目标值。
在本发明实施例中,枚举型特征信息可以包括性别,地点,职业,学校,手机平台等特征信息,该特征信息所对应的特征值之间不具有大小关系,且该特征信息可对应多个特征值。
在本发明实施例中,第二训练样本库可以是一组向量,向量包括特征信息对应的特征值及特征信息对应的目标值,目标值的范围可以是在{0,1}之间。而由于特征信息可对应多个特征值,则该向量可以是高维向量。
S201,采用逻辑回归模型对所述样本进行训练,获得所述枚举型特征信息所对应的权重。
在本发明实施例中,逻辑回归模型可相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征信息,判断是否生病就相当于获取因变量y,即预测值。因此,逻辑回归模型简单,可以支持海量规模的训练样本,也可以支持取值众多的枚举型特征信息。因此,终端可采用逻辑回归模型对大量高维的样本进行训练,获得每个样本的权重。其中,逻辑回归模型的训练方法的具体实现方式可参见现有的逻辑回归模型训练方法,在此不赘述。
在本发明实施例中,当终端采用逻辑回归模型对包括枚举型特征信息的样本进行训练时,终端可获得每个样本对应的权重,由于每个样本包括枚举型特征信息,则终端获得每个枚举型特征信息对应的权重。
S202,建立所述枚举型特征信息与所述权重的对应关系。
在本发明实施例中,当终端获取枚举型特征信息及其对应的权重时,终端可建立枚举型特征信息与权重的对应关系,并存储在映射表中。
S203,从预置的第一训练样本库中获取包括枚举型特征信息的样本。
S204,将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本。
S205,从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型。
S206,根据预置的测试样本对所述预测模型进行测试,获得测试结果。
在本发明实施例中,终端可获取测试样本,其中,测试样本可以是多个测试样本,测试样本包括测试值和测试目标值,终端可将输入测试值输入预测模型进行计算,获得预测模型输出的测试结果。
S207,根据所述测试结果调整所述预测模型。
在本发明实施例中,终端可比较测试目标值是否与测试结果相匹配、当终端判断测试结果与测试目标值相匹配时,终端可确定预测模式准确,不需进行调整。当终端判断测试结果测试目标值不匹配时,终端可根据测试值和测试目标值进行重新训练,调整预测模型参数。其中,终端判断测试结果与测试目标值是否相匹配时可以是:终端判断测试结果与测试目标值的相差值是否小于或等于预设的阈值。
其中,步骤S203、步骤S204和步骤S205的具体实施方式可参见以上实施例一中的步骤S100、步骤S101和步骤S102的具体实施方式,在此不赘述。
本发明实施例通过从预置的第一训练样本库中获取包括枚举型特征信息的样本,将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本,从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型,使得终端可基于GBDT模型对枚举型特征信息进行训练获得预测模型,提高预测模型的准确性。
参见图3,是本发明实施例提供的及一种预测模型的建立方法第三实施例流程示意图。本发明实施例的及一种预测模型的建立方法包括如下步骤:
S301,从预置的第一训练样本库中获取包括枚举型特征信息的样本。
S302,将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本。
S303,从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型。
S304,当接收到待预测特征值时,根据所述预测模型对所述待预测的样本进行计算获得预测结果。
在本发明实施例中,当终端接收到待预测特征值时,终端可将待预测特征值输入至预测模型中进行计算,获取预测模块输出的预测结果。
S305,根据所述预测结果输出提示信息。
在本发明实施例中,提示信息可包括:图像信息、音频信息和振动信息。其中,音频信息包括对预测结果的音频描述,振动信息包括对预测结果的振动描述。
在本发明实施例中,当输出的提示信息是图像信息时,终端可显示屏上显示图像信息,图像信息可以包括预测结果;当输出的提示信息是音频信息时,终端可通过外放器如喇叭播放音频信息,音频信息可以包括预测结果;当输出的提示信息是振动信息时,,终端可产生振动,其中振动信息包括对预测结果的振动描述。如通过振动的时长、强度或间隔长短以及一定时间内的振动次数来对应不同的预测结果。
其中,步骤S301、步骤S302和步骤S303的具体实施方式可参见以上实施例一中的步骤S100、步骤S101和步骤S102的具体实施方式,在此不赘述。
本发明实施例通过从预置的第一训练样本库中获取包括枚举型特征信息的样本,将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本,从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型,使得终端可基于GBDT模型对枚举型特征信息进行训练获得预测模型,提高预测模型的准确性。
参见图4,是本发明实施例提供的一种终端的第一实施例结构图。本发明实施例中所描述的终端,包括:
第一获取单元100,用于从预置的第一训练样本库中获取包括枚举型特征信息的样本。
第二获取单元200,用于将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本。
第一训练单元300,用于从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型。
在本发明实施例中,在进行CTR预估时,终端可构建第一训练样本库,其中,第一训练样本库可以是用户将处理获得的第一训练样本库预置在终端中,或者终端采集样本存储在第一训练样本库,为提高训练稳定性,防止训练过拟合,第一训练样本库可包括适量样本,如几万条样本。进一步的,样本可包括特征信息以及特征信息对应的目标值,特征信息可以是,用户的年龄,性别,地点,职业,学校,手机平台、广告大小,广告文本,广告所属行业,广告图片等信息。具体的,特征信息还可以是枚举型特征信息或数值型特征信息。其中,枚举型特征信息之间不具有大小关系,如性别、地点和学校等特征信息,且枚举型特征信息可包括多个取值,如枚举型特征信息“姓名”可包括多个姓名;数值型特征信息之间具有大小关系,如年龄、COEC(ClickOverExpectedClick,超预期点击)等取值为自然数或实数的特征信息,其中,COEC为历史点击量与历史预期点击量的比值,历史预期点击量为展现量与某展现位置上平均点击率的乘积,目标值可以是特征信息对应的点击率。进一步的,样本可以是一组向量,向量包括特征信息对应的特征值及特征信息对应的目标值,目标值的范围可以是在{0,1}之间。
在本发明实施例中,第一获取单元100可从预置的第一训练样本库中获取包括枚举型特征信息的样本,从而获取样本中的枚举型特征信息。当第一获取单元100获取到样本中的枚举型特征信息后,第二获取单元200可根据预置的枚举型特征信息与权重的对应关系,获取枚举型特征信息所对应的权重,其中,权重为一个自然数或实数。当第二获取单元200获取到枚举型特征信息所对应的权重后,第二获取单元200可将样本中的枚举型特征信息转换为对应的权重,获得包括权重的样本,即是将包括多个取值的枚举型特征信息简化为一个取值的权重,从而简化了在处理枚举型特征信息的计算量。
在本发明实施例中,当终端将第一训练样本库中包括枚举型特征信息的样本转换为包括权重的样本后,终端获取到第一训练样本库中的包括数值型特征信息的样本,如COEC。从而第一训练单元300可通过GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型,该预测模型可以为CTR预测模型。进一步的,由于样本包括的枚举型特征信息转化为对应的权重,因此,GBDT模型可对包括权重的样本进行训练,这解决了GBDT模型无法处理高维向量的问题,从而简便了CBDT模型的计算量,有效提高CTR预测模型的准确性。
在本发明实施例中,GBDT模型是一种迭代的决策树算法,可以用来做分类、回归,如可以用来预测年龄、预测天气预报等。该算法由多棵决策树组成,所有树的结论累加起来做最终答案。其中,GBDT模型在处理数值型特征信息时,为了挖掘出特征信息与目标值之间的非线性关系,GBDT模型可直接进行离散化,而不需进行人工离散化,从而可以更加精确的挖掘出特征信息与目标值之间的非线性关系,从而提高预测模型的准确性并简便用户操作。
进一步的,在本发明实施例中,GBDT模式的训练方法的具体实现方式可参见现有的GBDT训练方法,在此不赘述。
其中,所述第二获取单元200包括:
获取子单元,用于根据所述枚举型特征信息与所述权重的对应关系,获取所述枚举型特征信息所对应的权重;
转换子单元,用于将所述枚举型特征信息转换为所述权重,获得包括所述权重的样本。
可以理解的是,本实施例的服务器中的单元的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再进行赘述。
在本发明实施例中,本发明实施例通过从预置的第一训练样本库中获取包括枚举型特征信息的样本,将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本,从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型,使得终端可基于GBDT模型对枚举型特征信息进行训练获得预测模型,提高预测模型的准确性。
参见图5,是本发明实施例提供的一种终端的第二实施例结构图。本发明实施例中所描述的终端,包括:
第一获取单元100、第二获取单元200和第一训练单元300。
其中,所述终端还包括:
第三获取单元400,用于从预置的第二训练样本库中获取样本,其中,所述样本包括所述枚举型特征信息。
第二训练单元500,用于采用逻辑回归模型对所述样本进行训练,获得所述枚举型特征信息所对应的权重。
建立单元600,用于建立所述枚举型特征信息与所述权重的对应关系。
测试单元700,用于根据预置的测试样本对所述预测模型进行测试,获得测试结果。
调整单元800,用于根据所述测试结果调整所述预测模式。
在本发明实施例中,终端可构建第二训练样本库,其中,第二训练样本库可以是用户将处理获得的第二训练样本库预置在终端中,或者终端采集样本存储在第二训练样本库中。为提高训练准确性,第二训练样本库可包括大量样本,如上亿条训练样本,具体的,第二训练样本库所包括的样本数远远大于第一训练样本库所包括的样本数。进一步的,在本发明实施例中,第二训练样本库中的样本仅仅包括枚举型特征信息以及枚举型特征信息对应的目标值。
在本发明实施例中,枚举型特征信息可以包括性别,地点,职业,学校,手机平台等特征信息,该特征信息所对应的特征值之间不具有大小关系,且该特征信息可对应多个特征值。
在本发明实施例中,第二训练样本库可以是一组向量,向量包括特征信息对应的特征值及特征信息对应的目标值,目标值的范围可以是在{0,1}之间。而由于特征信息可对应多个特征值,则该向量可以是高维向量。
在本发明实施例中,逻辑回归模型可相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征信息,判断是否生病就相当于获取因变量y,即预测值。因此,逻辑回归模型简单,可以支持海量规模的训练样本,也可以支持取值众多的枚举型特征信息。因此,第二训练单元500可采用逻辑回归模型对大量高维的样本进行训练,获得每个样本的权重。其中,逻辑回归模型的训练方法的具体实现方式可参见现有的逻辑回归模型训练方法,在此不赘述。
在本发明实施例中,当第二训练单元500采用逻辑回归模型对包括枚举型特征信息的样本进行训练时,第二训练单元500可获得每个样本对应的权重,由于每个样本包括枚举型特征信息,则第二训练单元500获得每个枚举型特征信息对应的权重。
在本发明实施例中,当第二训练单元500获取枚举型特征信息及其对应的权重时,建立单元600可建立枚举型特征信息与权重的对应关系,并存储在映射表中。
在本发明实施例中,测试单元700可获取测试样本,其中,测试样本可以是多个测试样本,测试样本包括测试值和测试目标值,测试单元700可将输入测试值输入预测模型进行计算,获得预测模型输出的测试结果。
在本发明实施例中,调整单元800可比较测试目标值是否与测试结果相匹配、当调整单元800判断测试结果与测试目标值相匹配时,调整单元800可确定预测模式准确,不需进行调整。当调整单元800判断测试结果测试目标值不匹配时,调整单元800可根据测试值和测试目标值进行重新训练,调整预测模型参数。其中,调整单元800判断测试结果与测试目标值是否相匹配时可以是:终端判断测试结果与测试目标值的相差值是否小于或等于预设的阈值。
可以理解的是,本实施例的服务器中的单元的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再进行赘述。
在本发明实施例中,本发明实施例通过从预置的第一训练样本库中获取包括枚举型特征信息的样本,将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本,从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型,使得终端可基于GBDT模型对枚举型特征信息进行训练获得预测模型,提高预测模型的准确性。
参见图6,是本发明实施例提供的一种终端的第三实施例结构图。本发明实施例中所描述的终端,包括:
第一获取单元100、第二获取单元200和第一训练单元300。
计算单元901,用于当接收到待预测的样本时,根据所述预测模型对所述待预测的样本进行计算获得预测结果。
在本发明实施例中,当计算单元901接收到待预测特征值时,计算单元901可将待预测特征值输入至预测模型中进行计算,获取预测模块输出的预测结果。
输出单元902,用于根据所述预测结果输出提示信息。
在本发明实施例中,提示信息可包括:图像信息、音频信息和振动信息。其中,音频信息包括对预测结果的音频描述,振动信息包括对预测结果的振动描述。
在本发明实施例中,当输出单元902输出的提示信息是图像信息时,输出单元902可显示屏上显示图像信息,图像信息可以包括预测结果;当输出单元902输出的提示信息是音频信息时,输出单元902可通过外放器如喇叭播放音频信息,音频信息可以包括预测结果;当输出单元902输出的提示信息是振动信息时,,输出单元902可产生振动,其中振动信息包括对预测结果的振动描述。如通过振动的时长、强度或间隔长短以及一定时间内的振动次数来对应不同的预测结果。
可以理解的是,本实施例的服务器中的单元的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再进行赘述。
在本发明实施例中,本发明实施例通过从预置的第一训练样本库中获取包括枚举型特征信息的样本,将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本,从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型,使得终端可基于GBDT模型对枚举型特征信息进行训练获得预测模型,提高预测模型的准确性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种预测模型的建立方法,其特征在于,所述方法包括:
从预置的第一训练样本库中获取包括枚举型特征信息的样本;
将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本;
从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型。
2.如权利要求1所述的方法,其特征在于,所述获取预置的第一训练样本库之前包括:
从预置的第二训练样本库中获取样本,其中,所述样本包括所述枚举型特征信息;
采用逻辑回归模型对所述样本进行训练,获得所述枚举型特征信息对应的权重;
建立所述枚举型特征信息与所述权重的对应关系。
3.如权利要求2所述的方法,其特征在于,所述将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本包括:
根据所述枚举型特征信息与所述权重的对应关系,获取所述枚举型特征信息所对应的权重;
将所述枚举型特征信息转换为所述权重,获得包括所述权重的样本。
4.如权利要求1所述的方法,其特征在于,所述从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型之后还包括:
根据预置的测试样本对所述预测模型进行测试,获得测试结果;
根据所述测试结果调整所述预测模式。
5.如权利要求1所述方法,其特征在于,所述从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型之后包括:
当接收到待预测特征值时,根据所述预测模型对所述待预测的样本进行计算获得预测结果;
根据所述预测结果输出提示信息。
6.一种终端,其特征在于,所述终端包括:
第一获取单元,用于从预置的第一训练样本库中获取包括枚举型特征信息的样本;
第二获取单元,用于将所述枚举型特征信息转换为所述枚举型特征所对应的权重,获得包括所述权重的样本;
第一训练单元,用于从预置的第一训练样本库中获取包括数值型特征信息的样本,基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练,获得预测模型。
7.如权利要求6所述的终端,其特征在于,所述终端包括:
第三获取单元,用于从预置的第二训练样本库中获取样本,其中,所述样本包括所述枚举型特征信息;
第二训练单元,用于采用逻辑回归模型对所述样本进行训练,获得所述枚举型特征信息所对应的权重;
建立单元,用于建立所述枚举型特征信息与所述权重的对应关系。
8.如权利要求7所述的终端,其特征在于,所述第二获取单元包括:
获取子单元,用于根据所述枚举型特征信息与所述权重的对应关系,获取所述枚举型特征信息所对应的权重;
转换子单元,用于将所述枚举型特征信息转换为所述权重,获得包括所述权重的样本。
9.如权利要求6所述的终端,其特征在于,所述终端还包括:
测试单元,用于根据预置的测试样本对所述预测模型进行测试,获得测试结果;
调整单元,用于根据所述测试结果调整所述预测模式。
10.如权利要求6所述终端,其特征在于,所述终端还包括:
计算单元,用于当接收到待预测的样本时,根据所述预测模型对所述待预测的样本进行计算获得预测结果;
输出单元,用于根据所述预测结果输出提示信息。
CN201510883264.0A 2015-12-03 2015-12-03 一种预测模型的建立方法及终端 Pending CN105528652A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510883264.0A CN105528652A (zh) 2015-12-03 2015-12-03 一种预测模型的建立方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510883264.0A CN105528652A (zh) 2015-12-03 2015-12-03 一种预测模型的建立方法及终端

Publications (1)

Publication Number Publication Date
CN105528652A true CN105528652A (zh) 2016-04-27

Family

ID=55770866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510883264.0A Pending CN105528652A (zh) 2015-12-03 2015-12-03 一种预测模型的建立方法及终端

Country Status (1)

Country Link
CN (1) CN105528652A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204103A (zh) * 2016-06-24 2016-12-07 有米科技股份有限公司 一种移动广告平台寻找相似用户的方法
CN106203473A (zh) * 2016-06-24 2016-12-07 有米科技股份有限公司 一种基于安装包列表的移动用户性别预测方法
CN106529727A (zh) * 2016-11-18 2017-03-22 腾讯科技(深圳)有限公司 一种用户流失预测模型生成方法及相关装置
CN106899440A (zh) * 2017-03-15 2017-06-27 苏州大学 一种面向云计算的网络入侵检测方法及系统
CN106996969A (zh) * 2017-03-03 2017-08-01 北京农业质量标准与检测技术研究中心 一种土壤重金属空间分布预测方法及系统
CN107292528A (zh) * 2017-06-30 2017-10-24 阿里巴巴集团控股有限公司 车险风险预测方法、装置及服务器
CN107507036A (zh) * 2017-08-28 2017-12-22 深圳市诚壹科技有限公司 一种数据预测的方法及终端
CN107943582A (zh) * 2017-11-14 2018-04-20 广东欧珀移动通信有限公司 特征处理方法、装置、存储介质及电子设备
CN108629351A (zh) * 2017-03-15 2018-10-09 腾讯科技(北京)有限公司 一种数据模型处理方法及其装置
CN108628863A (zh) * 2017-03-15 2018-10-09 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN109426902A (zh) * 2017-08-25 2019-03-05 北京国双科技有限公司 企业综合评比方法和装置
CN109496322A (zh) * 2017-09-28 2019-03-19 深圳乐信软件技术有限公司 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置
WO2019090954A1 (zh) * 2017-11-07 2019-05-16 华为技术有限公司 一种预测方法及终端、服务器
CN110979589A (zh) * 2019-12-16 2020-04-10 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 基于波浪增阻预测的船舶控制方法、装置及智能终端
CN112005315A (zh) * 2018-03-01 2020-11-27 费森尤斯医疗保健控股公司 用于确定患者住院风险和处置患者的系统和方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203473B (zh) * 2016-06-24 2018-06-26 有米科技股份有限公司 一种基于安装包列表的移动用户性别预测方法
CN106203473A (zh) * 2016-06-24 2016-12-07 有米科技股份有限公司 一种基于安装包列表的移动用户性别预测方法
CN106204103A (zh) * 2016-06-24 2016-12-07 有米科技股份有限公司 一种移动广告平台寻找相似用户的方法
CN106529727A (zh) * 2016-11-18 2017-03-22 腾讯科技(深圳)有限公司 一种用户流失预测模型生成方法及相关装置
CN106529727B (zh) * 2016-11-18 2020-09-25 腾讯科技(深圳)有限公司 一种用户流失预测模型生成方法及相关装置
CN106996969A (zh) * 2017-03-03 2017-08-01 北京农业质量标准与检测技术研究中心 一种土壤重金属空间分布预测方法及系统
CN108629351A (zh) * 2017-03-15 2018-10-09 腾讯科技(北京)有限公司 一种数据模型处理方法及其装置
CN108629351B (zh) * 2017-03-15 2022-05-13 腾讯科技(北京)有限公司 一种数据模型处理方法及其装置
CN108628863A (zh) * 2017-03-15 2018-10-09 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN106899440A (zh) * 2017-03-15 2017-06-27 苏州大学 一种面向云计算的网络入侵检测方法及系统
CN108628863B (zh) * 2017-03-15 2021-07-20 上海优扬新媒信息技术有限公司 信息获取方法和装置
CN107292528A (zh) * 2017-06-30 2017-10-24 阿里巴巴集团控股有限公司 车险风险预测方法、装置及服务器
US11244402B2 (en) 2017-06-30 2022-02-08 Advanced New Technologies Co., Ltd. Prediction algorithm based attribute data processing
CN109426902A (zh) * 2017-08-25 2019-03-05 北京国双科技有限公司 企业综合评比方法和装置
CN107507036A (zh) * 2017-08-28 2017-12-22 深圳市诚壹科技有限公司 一种数据预测的方法及终端
CN109496322A (zh) * 2017-09-28 2019-03-19 深圳乐信软件技术有限公司 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置
CN109496322B (zh) * 2017-09-28 2022-04-19 深圳乐信软件技术有限公司 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置
WO2019090954A1 (zh) * 2017-11-07 2019-05-16 华为技术有限公司 一种预测方法及终端、服务器
US11580457B2 (en) 2017-11-07 2023-02-14 Huawei Technologies Co., Ltd. Prediction method, terminal, and server
CN107943582B (zh) * 2017-11-14 2020-08-04 Oppo广东移动通信有限公司 特征处理方法、装置、存储介质及电子设备
CN107943582A (zh) * 2017-11-14 2018-04-20 广东欧珀移动通信有限公司 特征处理方法、装置、存储介质及电子设备
CN112005315A (zh) * 2018-03-01 2020-11-27 费森尤斯医疗保健控股公司 用于确定患者住院风险和处置患者的系统和方法
CN110979589B (zh) * 2019-12-16 2020-10-30 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 基于波浪增阻预测的船舶控制方法、装置及智能终端
CN110979589A (zh) * 2019-12-16 2020-04-10 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 基于波浪增阻预测的船舶控制方法、装置及智能终端

Similar Documents

Publication Publication Date Title
CN105528652A (zh) 一种预测模型的建立方法及终端
Mac Aodha et al. Bat detective—Deep learning tools for bat acoustic signal detection
CN110473525B (zh) 获取语音训练样本的方法和装置
CN108197652B (zh) 用于生成信息的方法和装置
CN111104482A (zh) 数据处理方法和装置
CN112308281A (zh) 一种温度信息预测方法及装置
CN109495552A (zh) 用于更新点击率预测模型的方法和装置
CN109799550A (zh) 用于预测降雨强度的方法和装置
CN112182281B (zh) 一种音频推荐方法、装置及存储介质
US10546355B2 (en) System and tool to configure well settings for hydrocarbon production in mature oil fields
US20080004855A1 (en) Design support apparatus, design support method, and design support program
CN113869599A (zh) 鱼类疫病发展预测方法、系统、设备及介质
CN110209782B (zh) 问答模型及应答语句的生成方法、装置、介质和电子设备
CN111104874A (zh) 人脸年龄预测方法及模型的训练方法、装置及电子设备
CN115543638B (zh) 基于不确定性的边缘计算数据收集分析方法、系统及设备
CN109413663B (zh) 一种信息处理方法和设备
CN112882934B (zh) 基于缺陷增长的测试分析方法及系统
CN115662510A (zh) 因果参数的确定方法、装置、设备以及存储介质
CN114842303A (zh) 自训练优化方法、装置、电子设备及计算机可读存储介质
CN117529737A (zh) 信息处理系统和信息处理方法
CN113762061A (zh) 神经网络的量化感知训练方法、装置及电子设备
CN111767290B (zh) 用于更新用户画像的方法和装置
CN111949860B (zh) 用于生成相关度确定模型的方法和装置
CN112905896A (zh) 一种推荐个数模型的训练方法、混合内容推荐方法及装置
CN115550259B (zh) 基于白名单的流量分配方法及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160427

RJ01 Rejection of invention patent application after publication