CN112508615A - 特征提取方法、特征提取装置、存储介质与电子设备 - Google Patents

特征提取方法、特征提取装置、存储介质与电子设备 Download PDF

Info

Publication number
CN112508615A
CN112508615A CN202011457792.7A CN202011457792A CN112508615A CN 112508615 A CN112508615 A CN 112508615A CN 202011457792 A CN202011457792 A CN 202011457792A CN 112508615 A CN112508615 A CN 112508615A
Authority
CN
China
Prior art keywords
information
data
demander
information tag
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011457792.7A
Other languages
English (en)
Inventor
黄崇远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd, Shenzhen Huantai Technology Co Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202011457792.7A priority Critical patent/CN112508615A/zh
Publication of CN112508615A publication Critical patent/CN112508615A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种特征提取方法、装置、存储介质与电子设备,涉及数据处理技术领域。所述特征提取方法包括:获取信息投放数据;从所述信息投放数据中提取多个需求方序列与多个信息标签序列;根据所述需求方序列确定所述需求方的初始特征数据,根据所述信息标签序列确定所述信息标签的初始特征数据;利用DSSM对所述需求方的初始特征数据与所述信息标签的初始特征数据进行处理,得到所述需求方的目标特征数据与所述信息标签的目标特征数据。本公开能够提高需求方或信息标签特征提取的准确性,有利于需求方与信息标签的精准匹配。

Description

特征提取方法、特征提取装置、存储介质与电子设备
技术领域
本公开涉及数据处理技术领域,尤其涉及一种特征提取方法、特征提取装置、计算机可读存储介质与电子设备。
背景技术
随着互联网与移动互联网的普及,以互联网与移动互联网为载体的信息投放已成为一种主流的宣传与推广方式。例如,将广告、新闻、自媒体文章等信息,投放至App(Application,应用程序)页面、网页,或者以短信、桌面弹窗、App消息等方式推送给用户。
为了提高信息投放的精准度,通常采用信息标签进行定向投放,例如将运动商品网店主的广告投放给具有“运动”标签的用户。然而,相关技术经常无法为需求方准确匹配到合适的信息标签,导致信息被投放给不感兴趣的用户群体,影响投放效果。
发明内容
本公开提供了一种特征提取方法、特征提取装置、计算机可读存储介质与电子设备,进而至少在一定程度上解决需求方与信息标签的匹配问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种特征提取方法,包括:获取信息投放数据;从所述信息投放数据中提取多个需求方序列与多个信息标签序列;根据所述需求方序列确定所述需求方的初始特征数据,根据所述信息标签序列确定所述信息标签的初始特征数据;利用DSSM(Deep Structured Semantic Model,深度结构化语义模型)对所述需求方的初始特征数据与所述信息标签的初始特征数据进行处理,得到所述需求方的目标特征数据与所述信息标签的目标特征数据。
根据本公开的第二方面,提供一种特征提取装置,包括:信息投放数据获取模块,被配置为获取信息投放数据;序列提取模块,被配置为从所述信息投放数据中提取多个需求方序列与多个信息标签序列;初始特征数据确定模块,被配置为根据所述需求方序列确定所述需求方的初始特征数据,根据所述信息标签序列确定所述信息标签的初始特征数据;目标特征数据确定模块,被配置为利用DSSM对所述需求方的初始特征数据与所述信息标签的初始特征数据进行处理,得到所述需求方的目标特征数据与所述信息标签的目标特征数据。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的特征提取方法及其可能的实现方式。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面的特征提取方法及其可能的实现方式。
本公开的技术方案具有以下有益效果:
基于信息投放数据提取需求方序列与信息标签序列,确定需求方的初始特征数据与信息标签的初始特征数据,进一步利用DSSM进行处理,得到需求方的目标特征数据与信息标签的目标特征数据。一方面,提供了一种提取需求方与信息标签特征的方案,通过信息投放数据中的序列化信息与DSSM所学习的相关性信息,从两个层级上挖掘了不同需求方之间、不同信息标签之间、以及需求方与信息标签之间的深度关联,以得到稠密化的特征数据,能够反映需求方与信息标签的抽象化特征,准确性较高。另一方面,本方案基于信息投放的历史记录数据即可实现,可以部署在离线阶段,降低线上实际应用中的数据处理量,提高信息投放的处理效率。
进一步的,利用本方案得到的目标特征数据,可以确定需求方与信息标签之间的相关度,从而解决需求方与信息标签的匹配问题,有利于对需求方的信息投放用户群体进行精准定位与有效扩展。不再局限于固定群体,同时避免人为选择信息标签可能导致的标签使用不当的情况,有利于实现全局最优的投放推荐方案,并且推荐信息标签时无需进行实际投放的试验,因此降低了试错成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施方式,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本示例性实施方式中系统架构的示意图;
图2示出本示例性实施方式中一种特征提取方法的流程图;
图3示出本示例性实施方式中一种形成需求方序列与信息标签序列的流程图;
图4示出本示例性实施方式中一种DSSM的结构示意图;
图5示出本示例性实施方式中一种输出目标特征数据的流程图;
图6示出本示例性实施方式中一种训练DSSM的流程图;
图7示出本示例性实施方式中一种数据处理流程图;
图8示出本示例性实施方式中一种相关度矩阵的示意图;
图9示出本示例性实施方式中一种特征提取装置的结构图;
图10示出本示例性实施方式中一种电子设备的结构图。
具体实施方式
现在将参考附图更全面地描述示例性实施方式。然而,示例性实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例性实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
相关技术的一种方案中,提出了对广告投放进行扩展的方法:首先获取当前投放广告的历史相关广告,包括同类型的广告,以及同一广告主所投放的历史广告;然后进行相关广告定向使用情况的分析,通常使用转化率等指标进行定向条件的效果判断;再筛选出效果好的定向条件作为已有定向条件的扩展定向;最终进行投放。然而,该方案中,获取相关广告的方式较为局限,如果同类型的广告、同一广告主的广告数量较少,会导致所扩展得到的定向条件有限,且准确性较低;并且定向条件的效果判断较为片面,会导致筛选出的定向条件脱离实际情况(如竞价过高)。
相关技术的另一种方案中,提出了通过评估两轮投放效果的方法:首先通过人工组合标签,进行第一轮的信息投放,并回收投放的效果数据;再对第一轮的人工组合标签进行重新组合,进行第二轮的信息投放;对比第一轮和第二轮的投放效果,选择效果好的标签组合作为最终的标签组合。然而,该方案中,第一轮的组合标签是人工确定的,存在局限性,即使第二轮对组合标签进行了优化,也无法脱离第一轮组合标签的基础,难以得到全局的最优方案;并且,该方案是通过实际投放进行效果评估,无法在事前进行预测,在第一轮和第二轮投放中,具有很大概率无法准确投放到感兴趣的群体,从而增加了试错成本。
鉴于上述一个或多个问题,本公开的示例性实施方式提供一种特征提取方法,其应用场景包括但不限于:对信息投放的需求方与信息标签进行特征提取,以更加准确地匹配需求方与信息标签,进而实现信息投放用户群体的精准定位与有效扩展。
图1示出了特征提取方法运行环境的系统架构图。如图1所示,信息投放系统100包括需求方110、平台方120和用户130。需求方110是指生产信息、具有投放需求的一方,包括广告主、自媒体、网店等,其通过个人电脑、智能手机或服务器等接入平台方120。平台方120是指提供信息投放平台的一方,一般为互联网服务商,部署有相关的服务器与数据库。用户130是指通过客户端、浏览器等登陆平台的终端用户,能够在平台中看到被投放的信息。
本示例性实施方式中的特征提取方法可以由平台方120执行,在一些情况下也可以由需求方110执行。图2示出了特征提取方法的示例性流程,可以包括:
步骤S210,获取信息投放数据;
步骤S220,从信息投放数据中提取多个需求方序列与多个信息标签序列;
步骤S230,根据需求方序列确定需求方的初始特征数据,根据信息标签序列确定信息标签的初始特征数据;
步骤S240,利用DSSM对需求方的初始特征数据与信息标签的初始特征数据进行处理,得到需求方的目标特征数据与信息标签的目标特征数据。
基于信息投放数据提取需求方序列与信息标签序列,确定需求方的初始特征数据与信息标签的初始特征数据,进一步利用DSSM进行处理,得到需求方的目标特征数据与信息标签的目标特征数据。一方面,提供了一种提取需求方与信息标签特征的方案,通过信息投放数据中的序列化信息与DSSM所学习的相关性信息,从两个层级上挖掘了不同需求方之间、不同信息标签之间、以及需求方与信息标签之间的深度关联,以得到稠密化的特征数据,能够反映需求方与信息标签的抽象化特征,准确性较高。另一方面,本方案基于信息投放的历史记录数据即可实现,可以部署在离线阶段,降低线上实际应用中的数据处理量,提高信息投放的处理效率。
进一步的,利用本方案得到的目标特征数据,可以确定需求方与信息标签之间的相关度,从而解决需求方与信息标签的匹配问题,有利于对需求方的信息投放用户群体进行精准定位与有效扩展。不再局限于固定群体,同时避免人为选择信息标签可能导致的标签使用不当的情况,有利于实现全局最优的投放推荐方案,并且推荐信息标签时无需进行实际投放的试验,因此降低了试错成本。
下面分别对图2中的每个步骤进行具体说明。
步骤S210中,获取信息投放数据。
信息投放数据是指信息投放的历史记录数据。在获取信息投放数据时,可以进行适当的筛选,使得信息投放数据中的信息更加有效。包括但不限于:
按照时间范围进行筛选,可以筛选出最近的预设时间范围(如最近一个月、最近半年等)内的信息投放数据。由于需求方的业务内容与范围可能发生变化,由此得到的信息投放数据具有时效性。
按照投放指标数据进行筛选,可以筛选出投放指标数据达到预设标准的信息投放数据。投放指标数据是指度量投放实际状况的数据,例如在投放信息后,包括曝光量、点击量、点击率等指标数据,通常反映了投放效果,记录在信息投放数据中。预设标准可以根据经验与实际需求而定,通过预设标准可以筛选出投放效果较好的信息投放数据,其中的信息更加有效。
举例来说,获取最近一个月的广告投放数据,每条数据中包括:广告、所属的广告主(即需求方)、广告标签(即信息标签)、CTR(Click Through Rate,点击率)。样例如下所示:
广告a,广告主A,广告标签:篮球|足球|欧美剧|小说,CTR_a;
广告b,广告主A,广告标签:小说|理财|小学教育,CTR_b;
广告c,广告主B,广告标签:股票|理财|小说|高中教育,CTR_c;
广告d,广告主C,广告标签:足球|小学教育|韩剧|理财,CTR_d。
筛选出CTR≥0.2(即预设标准)的信息投放数据。
继续参考图2,步骤S220中,从信息投放数据中提取多个需求方序列与多个信息标签序列。
需求方序列是由多个需求方按照一定的顺序排列而成的序列,信息标签序列是由多个信息标签按照一定的顺序排列而成的序列。
在一种实施方式中,参考图3所示,步骤S220可以包括:
步骤S310,从信息投放数据中提取相同信息标签对应的需求方,形成需求方序列;
步骤S320,从信息投放数据中提取相同需求方对应的信息标签,形成信息标签序列。
例如,在上述样例中,可以将广告标签“理财”的信息投放数据中的广告主提取出来,得到广告主序列:广告主A,广告主B,广告主C;可以将广告主A的信息投放数据中的广告标签提取出来,得到广告标签序列:篮球,足球,欧美剧,小说,理财,小学教育。
需要说明的是,可以将每个信息标签对应的需求方都提取为对应的需求方序列,将每个需求方对应的信息标签都提取为对应的信息标签序列。或者在一个需求方序列或信息标签序列中,可以进行一定形式的拆分,例如按照时间范围,将每一周的信息投放数据中的需求方或信息标签单独拆分出来,形成一个需求方序列或信息标签序列。由此可以得到大量的需求方序列与信息标签序列。
在一种实施方式中,获取信息投放数据后,可以将信息投放数据按照一定的顺序排列整理,这样在提取上述需求方序列或信息标签序列时,继承了需求方或信息标签在信息投放数据中的顺序,具有较为明确的意义。具体地,可以将信息投放数据按照时间顺序排列,如可以按照时间的正序、倒序排列;或者将信息投放数据按照曝光量、点击量或点击率等指标数值的大小顺序排列;等等。举例来说,将信息投放数据按照时间倒序排列,然后提取其中相同信息标签对应的需求方,得到需求方序列,如“小说”对应的需求方序列:广告主A,广告主D,广告主B,其中广告主A对应的信息投放数据时间最晚,其次是广告主D,该需求方序列携带了时间序列信息。
继续参考图2,步骤S230中,根据需求方序列确定需求方的初始特征数据,根据信息标签序列确定信息标签的初始特征数据。
序列体现的是序列内元素本身潜在的序列关联关系,由此可以提取特征数据。由于需求方序列仅体现不同需求方的序列关联关系,信息标签序列仅体现不同信息标签的序列关联关系,而需求方与信息标签之间的关联关系未得以体现,因此这里提取的特征数据为初始特征数据,需要后续进一步的处理。
在一种实施方式中,步骤S230可以包括:
利用嵌入模型对需求方序列进行处理,得到需求方的初始特征数据;
利用嵌入模型对信息标签序列进行处理,得到信息标签的初始特征数据。
将每个需求方序列或信息标签序列看成是一个句子或一段文本,其中的元素是不同的词,则可以将词的特征嵌入到数据空间中,采用词嵌入的方式进行处理,得到需求方或信息标签的初始特征数据。以嵌入模型word2vec的实现方式CBOW(Continuous Bag-of-Words,连续词袋)为例进行说明。CBOW的原理可以参考图6所示,输入需求方序列(或信息序列)中某个元素(以wt表示)的上下文(即wt前后一定范围内的元素,如wt-c,…,wt-1,wt+1,…,wt+c),预测wt,可以表示为如下的条件概率:
P(wt|wt-c:wt+c) (1)
因而,嵌入模型的目标是最大化上述条件概率的对数似然函数:
Figure BDA0002829761540000081
其中,T表示需求方序列(或信息序列)的长度,即序列中元素的数量。可以通过softmax函数(归一化指数函数)获取条件概率:
Figure BDA0002829761540000082
Figure BDA0002829761540000083
将全部的需求方序列导入上述嵌入模型中,即可对嵌入模型进行训练。再利用训练后的嵌入模型的中间层输出不同需求方的初始特征数据。
将全部的信息标签序列导入上述嵌入模型中,即可对嵌入模型进行训练。再利用训练后的嵌入模型的中间层输出不同信息标签的初始特征数据。
初始特征数据可以是稠密的Embedding向量。
需要说明的是,上述利用嵌入模型对需求方序列与信息标签序列的处理过程是相互独立的。例如,构建一初始的嵌入模型后,利用需求方序列对其进行训练,同时利用信息标签序列对其进行训练,两个训练过程得到的嵌入模型的参数可能不同。本公开对此不做限定。
继续参考图2,步骤S240中,利用DSSM对需求方的初始特征数据与信息标签的初始特征数据进行处理,得到需求方的目标特征数据与信息标签的目标特征数据。
其中,目标特征数据是在初始特征数据的基础上进一步处理优化所得到的特征数据,其更加能够反映需求方或信息标签的本质特征,准确性更高。
图4示出了DSSM的示意性结构。DSSM一般为双塔结构,具有两个输入通道,分别为第一输入通道和第二输入通道,将需求方的初始特征数据与信息标签的初始特征数据分别输入两个输入通道,经过两路分支的处理嵌入后,再进行融合,输出预测或分类结果。图4中仅仅示出了DSSM的基本结构,实际应用中可以在两路分支设置更多的中间层,或者在融合后设置多个中间层,融合可以采用矩阵相乘、全连接或其他合适的计算方式,本公开对此不做限定。
需要说明的是,DSSM的输出层输出预测或分类结果,而并不直接输出目标特征数据。通过对DSSM进行拟合训练,可以从DSSM中间部分的嵌入层输出目标特征数据。
在一种实施方式中,参考图5所示,步骤S240可以包括以下步骤S510至S530:
步骤S510,根据信息投放数据中的投放指标数据确定标注数据。
可以将投放指标数据直接作为回归的标注数据,也可以对投放指标数据进行离散化处理后作为分类的标注数据。
在一种实施方式中,步骤S510可以包括:
统计信息投放数据中需求方-信息标签数组的投放指标数据;
根据投放指标数据的统计结果,确定需求方-信息标签数组的标注数据。
其中,需求方-信息标签数组的标注数据,与该需求方的初始特征数据、该信息标签的初始特征数据形成一组样本数据。
举例来说,在信息投放数据中查找广告主A-小说这一数组的投放指标数据,是指广告主A的广告投放给广告标签“小说”对应的用户群体后,得到的投放指标数据,如曝光量、点击量、点击率等,可能包括多次投放的数据,对其进行统计,例如可以计算累积值(如累积曝光量,累积点击量)、平均值(如点击率平均值)、中值(如点击率中值)等,根据统计结果确定广告主A-小说这一数组的标注数据,其与广告主A的初始特征数据、“小说”的初始特征数据形成一组样本数据。
以投放指标数据中的点击率为例做进一步说明。投放指标数据的统计结果可以包括点击率平均值,例如统计信息投放数据中广告主A-小说数组的点击率,如包括两次投放的点击率CTR_a和CTR_b,对其取平均值CTR_avg=(CTR_a+CTR_b)/2,作为上述统计结果。
进一步的,上述根据投放指标数据的统计结果,确定需求方-信息标签数组的标注数据,可以包括:
当需求方-信息标签数组的点击率平均值大于全局点击率平均值时,确定需求方-信息标签数组的标注数据为1;
当需求方-信息标签数组的点击率平均值小于全局点击率平均值时,确定需求方-信息标签数组的标注数据为0。
其中,全局点击率平均值为信息投放数据中全部点击率的平均值,例如为0.5,则上述CTR_avg>0.5时,确定广告主A-小说的标注数据为1,即广告主A与广告标签“小说”具有相关性,反之则标注数据为0,两者不具有相关性。
需要说明的是,对于点击率平均值等于全局点击率平均值,可以将其作为大于或小于的特殊情况处理。
将标注数据进行1/0划分是二分类中常用的方式,本示例性实施方式也可以采用多分类的DSSM,则可以将投放反馈数据的统计结果进行三段或三段以上的离散化处理,得到多分类的标注数据。
步骤S520,利用需求方的初始特征数据、信息标签的初始特征数据、标注数据,训练DSSM。
由上可知,具有对应关系的需求方的初始特征数据、信息标签的初始特征数据、标注数据可以形成一组样本数据,由此可以训练DSSM。
在一种实施方式中,参考图6所示,步骤S520可以包括:
步骤S610,将需求方的初始特征数据输入DSSM的第一输入通道;
步骤S620,将信息标签的初始特征数据输入DSSM的第二输入通道;
步骤S630,通过DSSM的输出层输出相关性预测值;
步骤S640,将相关性预测值与对应的标注数据代入损失函数,通过损失函数的值更新DSSM的参数。
DSSM的输出层可以采用归一化的输出,例如采用如下的sigmoid函数(一种S型函数)将相关性预测值转化为0/1值并输出:
Figure BDA0002829761540000111
其中z为归一化前的相关性预测值。
将相关性预测值与对应的标注数据代入预先建立的损失函数,例如可以采用交叉熵损失函数:
Loss(y,z)=-yln(sigmoidz)-(1-y)ln(1-sigmoidz)
=z-zy+ln(1+e-z) (6)
其中y为标注数据。
通过计算损失函数值,以梯度下降的方式对DSSM中的参数进行更新,使得损失函数值逐渐减小,最终趋于收敛,或者DSSM的准确率达到一定的标准,则表示DSSM训练完成。
除了需求方的初始特征数据与信息标签的初始特征数据外,还可以引入其他方面的信息以训练DSSM。
在一种实施方式中,执行步骤S610时,还可以将需求方的以下至少一种信息也输入第一输入通道:
需求方的标识,如需求方的名称、ID(Identity Document,身份标识)等,可以记录为ad_owner_id字段;
需求方所属企业,如需求方所属A公司的名称、ID等,可以记录为company字段;
需求方所属行业,如需求方所属行业的名称、ID等,可以设置多级行业划分,例如某广告主所属一级行业为医疗健康,二级行业为口腔医护,三级行业为牙齿美白,可以记录为f_industry、s_industry、t_industry字段;
需求方的曝光量,通常是信息投放数据中以需求方为粒度统计的总曝光量,如某广告主近一个月的广告总曝光量,可以记录为owner_expose字段;
需求方的点击量,通常是信息投放数据中以需求方为粒度统计的总点击量,如某广告主近一个月的广告总点击量,可以记录为owner_click字段;
需求方的点击率,通常是信息投放数据中以需求方为粒度统计的综合点击率,如某广告主近一个月的综合点击率,可以通过总点击量/总曝光量计算得到,可以记录为owner_CTR字段。
其中,需求方的标识、所属企业、所属行业为需求方的基本信息,可以从基本信息的相关数据库中获取,或者信息投放数据中包含需求方的基本信息,从信息投放数据中获取。需求方的曝光量、点击量、点击率为需求方的统计信息,可以通过对信息投放数据进行统计得到。
在一种实施方式中,执行步骤S620时,还可以将信息标签的以下至少一种信息也输入第二输入通道:
信息标签的标识,如信息标签的名称、ID等,可以记录为tag_id字段;
信息标签所属的标签类别,一般的,可以预先对信息标签进行分类,得到不同的标签类别;一个标签类别下通常包括多个信息标签,一个信息标签也可以属于多个标签类别;可以设置多级标签类别,例如一级标签类别下包括多个二级标签类别,每个二级标签类别下包括多个信息标签等;可以将标签类别记录为ad_category字段;
信息标签的量级,是指一段时间内访问该信息标签的次数量级,可以记录为ad_uv字段;
信息标签的标识、所属的标签类别、量级举例如下:
足球,运动,量级100万
篮球,运动,量级120万
欧美剧,影视剧,量级200万
韩剧,影视剧,量级500万
美国大片,影视剧,量级350万
理财,金融,量级1000万
贷款,金融,量级1200万
中小学教育,教育,量级1130万
高等教育,教育,量级300万
信息标签的曝光量,通常是信息投放数据中以信息标签为粒度统计的总曝光量,如某广告标签近一个月的广告总曝光量,可以记录为ad_expose字段;
信息标签的点击量,通常是信息投放数据中以信息标签为粒度统计的总点击量,如某广告标签近一个月的广告总点击量,可以记录为ad_click字段;
信息标签的点击率,通常是信息投放数据中以信息标签为粒度统计的综合点击率,如某广告标签近一个月的广告综合点击率,可以通过总点击量/总曝光量计算得到,可以记录为ad_CTR字段。
其中,上述信息标签的各种信息可以从信息投放数据中统计得到,信息标签的标识、所属的标签类别、量级等也可以从信息标签的基本信息数据库中获取。
图7示出了将上述需求方的信息与信息标签的信息输入DSSM的示意图。其中,从信息投放数据中提取需求方序列与信息标签序列,通过嵌入模型的处理得到需求方的初始特征数据与信息标签的初始特征数据,两种初始特征数据分别以Embedding向量的形式输入DSSM的第一输入通道与第二输入通道;需求方ID、所属企业、一级行业、二级行业、三级行业、曝光量、点击量、点击率输入第一输入通道,信息标签ID、标签类别、信息标签量级、曝光量、点击量、点击率输入第二输入通道。第一输入通道的数据经过初试特征嵌入、拼接、全连接、目标特征嵌入;第二输入通道的数据也经过初试特征嵌入、拼接、全连接、目标特征嵌入;然后两路分支的目标特征嵌入再进行融合,输出预测结果;与此同时,从信息投放数据中统计需求方-信息标签数组的CTR,以确定标注数据;将预测结果与标注数据代入损失函数,对DSSM的参数进行梯度下降更新。
步骤S530,通过DSSM的中间层输出需求方的目标特征数据与信息标签的目标特征数据。
当DSSM训练完成后,输入需求方的初始特征数据与信息标签的初始特征数据,可以从中间层获取需求方的目标特征数据与信息标签的目标特征数据。
在一种实施方式中,DSSM两路分支合并前的中间层为嵌入层,例如图7中需求方目标特征嵌入层输出需求方的目标特征数据,信息标签目标特征嵌入层输出信息标签的目标特征数据。
由于在训练中DSSM学习到了需求方与信息标签之间的关联关系,因此从DSSM中间层输出的需求方的目标特征数据与信息标签的目标特征数据携带了需求方与信息标签的特征关联信息,准确性更高。
在一种实施方式中,参考图7所示,在得到需求方的目标特征数据与信息标签的目标特征数据后,还可以根据需求方的目标特征数据与信息标签的目标特征数据,确定需求方与信息标签的相关度。例如,将需求方的目标特征数据与信息标签的目标特征数据分别作为不同的数组,计算两个数组的相似度。或者,目标特征数据可以是目标特征向量的形式,计算需求方的目标特征向量与信息标签的目标特征向量的内积(或余弦相似度、欧式距离等),得到需求方与信息标签的相关度。
在一种实施方式中,可以以任一需求方作为目标需求方,确定目标需求方与每个信息标签的相关度,以向目标需求方推荐用于信息投放的信息标签。例如计算广告主A与每个广告标签的相关度,确定相关度最高的N个广告标签,以推荐给广告主A。
在一种实施方式中,可以将上述通过目标特征数据计算的相关度进行归一化,结果记为第一相关度。根据投放指标数据确定需求方与信息标签的第二相关度,例如可以统计近一个月广告主A的广告投放至不同广告标签对应的用户群体中所得到的点击率,将点击率归一化后记为第二相关度。然后将第一相关度与第二相关度加权:
最终相关度=w1*第一相关度+w2*第二相关度 (7)
其中w1和w2分别为第一相关度与第二相关度的权重,可以根据经验设定,例如w1为0.7,w2为0.3。由此,融合了目标特征数据与投放指标数据这两方面信息,得到的最终相关度具有更高的准确性。
在一种实施方式中,可以将需求方的目标特征向量与信息标签的目标特征向量两两相乘,形成相关度矩阵。参考图8所示,图中的2*n矩阵表示由需求方的目标特征向量形成的需求方矩阵,图中的m*2矩阵表示由信息标签的目标特征向量形成的信息标签矩阵,两者相乘得到相关度矩阵,是不同需求方与不同信息标签的点积的集合。然后对相关度矩阵进行协同过滤,例如可以采用ALS(Alternating Least Square,交替最小二乘法)算法,得到对应于不同需求方的信息标签推荐结果。由此,相当于叠加了多个推荐逻辑的效果,能够挖掘需求方与信息标签的协同关系,起到模型嵌套融合的目的,进一步改善需求方与推荐的信息标签之间的匹配性,提高推荐效果。
本公开的示例性实施方式还提供一种特征提取装置。参考图9所示,该特征提取装置900可以包括:
信息投放数据获取模块910,被配置为获取信息投放数据;
序列提取模块920,被配置为从信息投放数据中提取多个需求方序列与多个信息标签序列;
初始特征数据确定模块930,被配置为根据需求方序列确定需求方的初始特征数据,根据信息标签序列确定信息标签的初始特征数据;
目标特征数据确定模块940,被配置为利用DSSM对需求方的初始特征数据与信息标签的初始特征数据进行处理,得到需求方的目标特征数据与信息标签的目标特征数据
在一种实施方式中,序列提取模块920,被配置为:
从信息投放数据中提取相同信息标签对应的需求方,形成需求方序列;
从信息投放数据中提取相同需求方对应的信息标签,形成信息标签序列。
在一种实施方式中,信息投放数据获取模块910,被配置为:
获取信息投放数据后,将信息投放数据按照时间顺序排列。
在一种实施方式中,初始特征数据确定模块930,被配置为:
利用嵌入模型对需求方序列进行处理,得到需求方的初始特征数据;
利用嵌入模型对信息标签序列进行处理,得到信息标签的初始特征数据。
在一种实施方式中,目标特征数据确定模块940,被配置为:
根据信息投放数据中的投放指标数据确定标注数据;
利用需求方的初始特征数据、信息标签的初始特征数据、标注数据,训练DSSM;
通过DSSM的中间层输出需求方的目标特征数据与信息标签的目标特征数据。
在一种实施方式中,目标特征数据确定模块940,被配置为:
统计信息投放数据中需求方-信息标签数组的投放指标数据;
根据投放指标数据的统计结果,确定需求方-信息标签数组的标注数据。
在一种实施方式中,投放指标数据包括点击率,投放指标数据的统计结果包括点击率平均值。
目标特征数据确定模块940,被配置为::
当需求方-信息标签数组的点击率平均值大于全局点击率平均值时,确定需求方-信息标签数组的标注数据为1;
当需求方-信息标签数组的点击率平均值小于全局点击率平均值时,确定需求方-信息标签数组的标注数据为0;
其中,全局点击率平均值为信息投放数据中全部点击率的平均值。
在一种实施方式中,目标特征数据确定模块940,被配置为:
将需求方的初始特征数据输入DSSM的第一输入通道;
将信息标签的初始特征数据输入DSSM的第二输入通道;
通过DSSM的输出层输出相关性预测值;
将相关性预测值与对应的标注数据代入损失函数,通过损失函数的值更新DSSM的参数。
在一种实施方式中,目标特征数据确定模块940,被配置为:
在将需求方的初始特征数据输入DSSM的第一输入通道时,还将需求方的以下至少一种信息也输入第一输入通道:需求方的标识,需求方所属企业,需求方所属行业,需求方的曝光量,需求方的点击量,需求方的点击率。
在一种实施方式中,目标特征数据确定模块940,被配置为:
在将信息标签的初始特征数据输入DSSM的第二输入通道时,还将信息标签的以下至少一种信息也输入第二输入通道:信息标签的标识,信息标签所属的标签类别,信息标签的量级,信息标签的曝光量,信息标签的点击量,信息标签的点击率。
在一种实施方式中,特征提取装置900还包括相关度确定模块,被配置为:
根据需求方的目标特征数据与信息标签的目标特征数据,确定需求方与信息标签的相关度。
在一种实施方式中,目标特征数据包括目标特征向量。
相关度确定模块,被配置为:
计算需求方的目标特征向量与信息标签的目标特征向量的内积,得到需求方与信息标签的相关度。
在一种实施方式中,相关度确定模块,被配置为:
确定目标需求方与每个信息标签的相关度,以向目标需求方推荐用于信息投放的信息标签,目标需求方为任一需求方。
上述装置中各部分的具体细节在方法部分实施方式中已经详细说明,因而不再赘述。
本公开的示例性实施方式还提供了一种计算机可读存储介质,可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种实施方式中,该程序产品可以实现为便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本公开的示例性实施方式还提供了一种电子设备,可以是信息平台的后台服务器。下面参考图10对该电子设备进行说明。应当理解,图10显示的电子设备1000仅仅是一个示例,不应对本本公开实施方式的功能和使用范围带来任何限制。
如图10所示,电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于:至少一个处理单元1010、至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。
其中,存储单元存储有程序代码,程序代码可以被处理单元1010执行,使得处理单元1010执行本说明书上述"示例性方法"部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元1010可以执行如图2所示的方法步骤等。
存储单元1020可以包括易失性存储单元,例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022,还可以进一步包括只读存储单元(ROM)1023。
存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024,这样的程序模块1025包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1030可以包括数据总线、地址总线和控制总线。
电子设备1000也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口1040进行。电子设备1000还可以通过网络适配器1050与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1050通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims (16)

1.一种特征提取方法,其特征在于,包括:
获取信息投放数据;
从所述信息投放数据中提取多个需求方序列与多个信息标签序列;
根据所述需求方序列确定所述需求方的初始特征数据,根据所述信息标签序列确定所述信息标签的初始特征数据;
利用深度结构化语义模型DSSM对所述需求方的初始特征数据与所述信息标签的初始特征数据进行处理,得到所述需求方的目标特征数据与所述信息标签的目标特征数据。
2.根据权利要求1所述的方法,其特征在于,所述从所述信息投放数据中提取多个需求方序列与多个信息标签序列,包括:
从所述信息投放数据中提取相同信息标签对应的需求方,形成需求方序列;
从所述信息投放数据中提取相同需求方对应的信息标签,形成信息标签序列。
3.根据权利要求2所述的方法,其特征在于,在获取信息投放数据后,所述方法还包括:
将所述信息投放数据按照时间顺序排列。
4.根据权利要求1所述的方法,其特征在于,所述根据所述需求方序列确定所述需求方的初始特征数据,根据所述信息标签序列确定所述信息标签的初始特征数据,包括:
利用嵌入模型对所述需求方序列进行处理,得到所述需求方的初始特征数据;
利用所述嵌入模型对所述信息标签序列进行处理,得到所述信息标签的初始特征数据。
5.根据权利要求1所述的方法,其特征在于,所述利用深度结构化语义模型DSSM对所述需求方的初始特征数据与所述信息标签的初始特征数据进行处理,得到所述需求方的目标特征数据与所述信息标签的目标特征数据,包括:
根据所述信息投放数据中的投放指标数据确定标注数据;
利用所述需求方的初始特征数据、所述信息标签的初始特征数据、所述标注数据,训练DSSM;
通过所述DSSM的中间层输出所述需求方的目标特征数据与所述信息标签的目标特征数据。
6.根据权利要求5所述的方法,其特征在于,所述根据所述信息投放数据中的投放指标数据确定标注数据,包括:
统计所述信息投放数据中需求方-信息标签数组的投放指标数据;
根据所述投放指标数据的统计结果,确定所述需求方-信息标签数组的标注数据。
7.根据权利要求6所述的方法,其特征在于,所述投放指标数据包括点击率,所述投放指标数据的统计结果包括点击率平均值;
所述根据所述投放指标数据的统计结果,确定所述需求方-信息标签数组的标注数据,包括:
当所述需求方-信息标签数组的点击率平均值大于全局点击率平均值时,确定所述需求方-信息标签数组的标注数据为1;
当所述需求方-信息标签数组的点击率平均值小于所述全局点击率平均值时,确定所述需求方-信息标签数组的标注数据为0;
其中,所述全局点击率平均值为所述信息投放数据中全部点击率的平均值。
8.根据权利要求5所述的方法,其特征在于,所述利用所述需求方的初始特征数据、所述信息标签的初始特征数据、所述标注数据,训练DSSM,包括:
将所述需求方的初始特征数据输入所述DSSM的第一输入通道;
将所述信息标签的初始特征数据输入所述DSSM的第二输入通道;
通过所述DSSM的输出层输出相关性预测值;
将所述相关性预测值与对应的所述标注数据代入损失函数,通过所述损失函数的值更新所述DSSM的参数。
9.根据权利要求8所述的方法,其特征在于,在将所述需求方的初始特征数据输入所述DSSM的第一输入通道时,所述方法还包括:
将所述需求方的以下至少一种信息也输入所述第一输入通道:需求方的标识,需求方所属企业,需求方所属行业,需求方的曝光量,需求方的点击量,需求方的点击率。
10.根据权利要求8所述的方法,其特征在于,在将所述信息标签的初始特征数据输入所述DSSM的第二输入通道时,所述方法还包括:
将所述信息标签的以下至少一种信息也输入所述第二输入通道:信息标签的标识,信息标签所属的标签类别,信息标签的量级,信息标签的曝光量,信息标签的点击量,信息标签的点击率。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述需求方的目标特征数据与所述信息标签的目标特征数据,确定所述需求方与所述信息标签的相关度。
12.根据权利要求11所述的方法,其特征在于,所述目标特征数据包括目标特征向量;
所述根据所述需求方的目标特征数据与所述信息标签的目标特征数据,确定所述需求方与所述信息标签的相关度,包括:
计算所述需求方的目标特征向量与所述信息标签的目标特征向量的内积,得到所述需求方与所述信息标签的相关度。
13.根据权利要求11所述的方法,其特征在于,所述根据所述需求方的目标特征数据与所述信息标签的目标特征数据,确定所述需求方与所述信息标签的相关度,包括:
确定目标需求方与每个信息标签的相关度,以向所述目标需求方推荐用于信息投放的信息标签,所述目标需求方为任一需求方。
14.一种特征提取装置,其特征在于,包括:
信息投放数据获取模块,被配置为获取信息投放数据;
序列提取模块,被配置为从所述信息投放数据中提取多个需求方序列与多个信息标签序列;
初始特征数据确定模块,被配置为根据所述需求方序列确定所述需求方的初始特征数据,根据所述信息标签序列确定所述信息标签的初始特征数据;
目标特征数据确定模块,被配置为利用DSSM对所述需求方的初始特征数据与所述信息标签的初始特征数据进行处理,得到所述需求方的目标特征数据与所述信息标签的目标特征数据。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至13任一项所述的方法。
16.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至13任一项所述的方法。
CN202011457792.7A 2020-12-10 2020-12-10 特征提取方法、特征提取装置、存储介质与电子设备 Pending CN112508615A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011457792.7A CN112508615A (zh) 2020-12-10 2020-12-10 特征提取方法、特征提取装置、存储介质与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011457792.7A CN112508615A (zh) 2020-12-10 2020-12-10 特征提取方法、特征提取装置、存储介质与电子设备

Publications (1)

Publication Number Publication Date
CN112508615A true CN112508615A (zh) 2021-03-16

Family

ID=74973692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011457792.7A Pending CN112508615A (zh) 2020-12-10 2020-12-10 特征提取方法、特征提取装置、存储介质与电子设备

Country Status (1)

Country Link
CN (1) CN112508615A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468424A (zh) * 2021-06-30 2021-10-01 北京达佳互联信息技术有限公司 异常属性标签的监控方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061979A (zh) * 2018-10-17 2020-04-24 北京字节跳动网络技术有限公司 一种用户标签的推送方法、装置、电子设备和介质
CN111177545A (zh) * 2019-12-24 2020-05-19 百度国际科技(深圳)有限公司 广告投放方法、平台、电子设备及存储介质
CN111639498A (zh) * 2020-04-21 2020-09-08 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
CN111723289A (zh) * 2020-06-08 2020-09-29 北京声智科技有限公司 信息推荐方法及装置
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN111767738A (zh) * 2020-03-30 2020-10-13 北京沃东天骏信息技术有限公司 一种标签校验方法、装置、设备和存储介质
CN111768244A (zh) * 2020-06-30 2020-10-13 深圳前海微众银行股份有限公司 一种广告投放的推荐方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061979A (zh) * 2018-10-17 2020-04-24 北京字节跳动网络技术有限公司 一种用户标签的推送方法、装置、电子设备和介质
CN111177545A (zh) * 2019-12-24 2020-05-19 百度国际科技(深圳)有限公司 广告投放方法、平台、电子设备及存储介质
CN111767738A (zh) * 2020-03-30 2020-10-13 北京沃东天骏信息技术有限公司 一种标签校验方法、装置、设备和存储介质
CN111639498A (zh) * 2020-04-21 2020-09-08 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
CN111723289A (zh) * 2020-06-08 2020-09-29 北京声智科技有限公司 信息推荐方法及装置
CN111768244A (zh) * 2020-06-30 2020-10-13 深圳前海微众银行股份有限公司 一种广告投放的推荐方法及装置
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
雷智文等: "面向数字资源的自动标签模型", 《哈尔滨理工大学学报》, vol. 25, no. 3, pages 147 - 148 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468424A (zh) * 2021-06-30 2021-10-01 北京达佳互联信息技术有限公司 异常属性标签的监控方法、装置、电子设备及存储介质
CN113468424B (zh) * 2021-06-30 2023-10-31 北京达佳互联信息技术有限公司 异常属性标签的监控方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108763362B (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN110263160B (zh) 一种计算机问答系统中的问句分类方法
US8812362B2 (en) Method and system for quantifying user interactions with web advertisements
CN111444428A (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
WO2017190610A1 (zh) 目标用户定向方法、装置和计算机存储介质
CN102708131B (zh) 将消费者自动分类到微细分中
US20090198671A1 (en) System and method for generating subphrase queries
Zhou et al. Understanding consumer journey using attention based recurrent neural networks
CN111461841A (zh) 物品推荐方法、装置、服务器及存储介质
US20210064879A1 (en) Automatically evaluating caption quality of rich media using context learning
CN112348592A (zh) 广告推荐方法、装置、电子设备及介质
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN116739665A (zh) 信息投放方法、装置、电子设备及存储介质
US20190205702A1 (en) System and method for recommending features for content presentations
Al-Otaibi et al. Finding influential users in social networking using sentiment analysis
US20230316106A1 (en) Method and apparatus for training content recommendation model, device, and storage medium
CN113590945A (zh) 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置
CN112508615A (zh) 特征提取方法、特征提取装置、存储介质与电子设备
CN115794898B (zh) 一种金融资讯推荐方法、装置、电子设备及存储介质
CN114595323B (zh) 画像构建、推荐、模型训练方法、装置、设备及存储介质
CN112200215B (zh) 标签特征提取方法、装置、存储介质与电子设备
CN116029766A (zh) 用户交易决策识别方法、激励策略优化方法、装置和设备
CN117112781A (zh) 文本信息处理模型训练方法、装置、以及存储介质
CN111178987B (zh) 训练用户行为预测模型的方法和装置
CN112632275A (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination